CN109308520B

CN109308520B - 实现softmax函数计算的FPGA电路及方法

Info

Publication number: CN109308520B
Application number: CN201811122277.6A
Authority: CN
Inventors: 廖恬瑜; 徐建国
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2022-05-13
Anticipated expiration: 2038-09-26
Also published as: CN109308520A

Abstract

一种实现softmax函数计算的FPGA电路及方法。在实施例中，FPGA电路包括：向量输入模块，并行提供第一数据向量中的各元素，M为大于1的自然数；第一查找表模块，查找与所述M个元素分别对应的M个第二数值；M个第二数值各自分别是M个元素中的一个元素的指数函数值；求和模块，对所述M个第二数值求和，得到和值；第二查找表模块，查找所述和值的倒数；乘法模块，将所述倒数和所述M个第二数值分别相乘，得到M个第三数值；向量输出模块，并行接收所述M个第三数值，并且将其分别作为M个第二元素，输出构成为第二数据向量。本说明书实施例可以对硬件计算资源并行使用，使得数据可以并行计算，提高计算速度以及数据吞吐率。

Description

实现softmax函数计算的FPGA电路及方法

技术领域

本说明书实施例涉及深度学习，具体地说涉及深度学习中的softmax计算。

背景技术

在机器学习的神经网络中，经常需要使用softmax函数来解决多分类问题。softmax函数的本质就是将一个k维的任意实数向量映射到另一个k维的实数向量。

softmax函数的计算公式包含复杂的指数计算和除法计算。如果在CPU实现，需要消耗很多的CPU计算时间；如果采用GPU实现，则成本高且功耗大。这成为神经网络计算的主要瓶颈之一。

发明内容

根据第一方面，提供一种FPGA电路，用于实现softmax函数计算。所述FPGA电路包括：向量输入模块，配置用于接收第一数据向量，并且并行提供第一数据向量中的M个第一元素，M为大于1的自然数；查找表模块，配置用于查找与所述M个第一元素分别对应的M个第二数值；其中，M个第二数值各自分别是M个第一元素中的一个元素的指数函数值；求和模块，配置用于对所述M个第二数值求和，得到一个和值；倒数模块，配置用于获取所述和值的倒数；乘法模块，配置用于将所述倒数和所述M个第二数值分别相乘，得到M个第三数值；向量输出模块，配置用于并行接收所述M个第三数值，并且将其分别作为M个第二元素，输出构成为第二数据向量。

在第一方面的可能实施方式中，所述FPGA电路包括：极值模块，配置用于确定所述M个第一元素中的极值；减法模块，配置用于将所述M个第一元素分别减去所述极值，分别得到M个第四数值，所述M个第四数值代替M个第一元素输入第一查找表模块。在进一步的可能实施方式中，所述极值是最大值或最小值。

在第一方面的可能实施方式中，所述FPGA电路还包括定点化模块，配置用于对M个第一元素进行定点化处理；浮点化模块，配置用于对M个第三树值进行浮点化处理。

在第一方面的可能实施方式中，倒数模块采用查找表实现。

根据第二方面，提供一种利用FPGA电路实现softmax函数计算的方法，所述方法包括：接收第一数据向量，并且并行提供第一数据向量中的M个第一元素，M为大于1的自然数；利用FPGA电路中的查找表电路，查找与所述M个第一元素分别对应的M个第二数值；其中，M个第二数值各自分别是M个第一元素中的一个元素的指数函数值；对所述M个第二数值求和，得到一个和值；获取所述和值的倒数；将所述倒数和所述M个第二数值分别相乘，得到M个第三数值；并行接收所述M个第三数值，并且将其分别作为M个第二元素，输出构成为第二数据向量。

在第二方面的可能实施方式中，所述方法包括：确定所述M个第一元素中的极值；将所述M个第一元素分别减去所述极值，分别得到M个第四数值，所述M个第四数值代替M个第一元素输入第一查找表电路。在进一步的可能实施方式中，所述极值是最大值或最小值。

在第二方面的可能实施方式中，所述方法还包括对M个第一元素进行定点化处理；对M个第三数值进行浮点化处理。

本说明书实施例可以对硬件计算资源并行使用，使得数据可以并行计算，提高计算速度以及数据吞吐率。

附图说明

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。

图1是根据本说明书实施例的FPGA电路；

图2是根据本说明书第二实施例的FPGA电路示意图；

图3是根据本说明书第三实施例的FPGA电路示意图；

图4是根据本说明书第四实施例的FPGA电路示意图；

图5是本说明书实施例的利用FPGA电路实现softmax函数计算的方法。

具体实施方式

下面结合附图，对本说明书实施例提供的方案进行描述。

在数学，尤其是概率论和相关领域中，Softmax函数，或称归一化指数函数，是逻辑函数的一种推广。它能将一个含任意实数的M维向量X“压缩”到另一个M维实向量S中，使得每一个元素的范围都在(0，1)之间，并且所有元素的和为1。

该函数的形式通常按下面的式子给出：

Si＝exp(xi)/sum(exp(xi))

其中，i＝1,…,M；xi是输入向量X的第i个元素，si是输出向量S的第i个元素；exp(xi)表示以E为底的向量X的元素xi的指数函数；sum(exp(xj))表示向量X的k个元素进行指数计算后求和。

Softmax函数实际上是有限项离散概率分布的梯度对数归一化。因此，Softmax函数在包括多项逻辑回归，多项线性判别分析，朴素贝叶斯分类器和人工神经网络等的多种基于概率的多分类问题方法中都有着广泛应用。

该计算公式包含了复杂的指数计算和除法计算，通常需要消耗CPU很多的计算时间，成为神经网络计算的主要瓶颈之一。

图1是根据本说明书实施例的FPGA电路，用于实现softmax函数计算。所述FPGA电路包括：向量输入模块102，配置用于串行接收数据向量X，X包括M个元素Xi，i＝1，…，M，M为大于1的自然数；并且并行提供M个元素Xi。

所述FPGA电路还包括查找表模块106，它配置用于查找与M个元素Xi分别对应的M个指数值Ai。

所述FPGA电路还包括求和SUM模块122，配置用于对所述M个指数值Ai求和，得到一个和值SUM值。

所述FPGA电路还包括倒数(INV)模块124，配置用于获取和值SUM值的倒数。inv模块实现对输入数据的sum值求倒数，用于避免softmax中的除法计算。在一个例子中，求倒数的过程也使用查表法。

所述FPGA电路还包括乘法模块108，配置用于将SUM值的倒数与M个指数值Ai相乘，得到M个数值Si。由于将softmax需要的多次除法变为了多次定点化的乘法计算，大大提高了计算性能。

所述FPGA电路还包括向量输出模块210，配置用于并行接收M个数值Si，并且将其串行输出成为第二数据向量S。

在上述实施例中，可以对硬件计算资源并行使用，使得数据可以并行计算，提高计算速度以及数据吞吐率。

在一些情形下，输入向量的数据动态分布在有限但偏离坐标原点的数值范围中，由于取值较大，所以消耗运算资源较多。在一些实施例中，可以通过加减运算，将输入向量的数据从偏离坐标原点的动态数值范围平移或投射到原点附近的数值范围中，有助于减少运算量。例如，可以将输入向量的数据减去一个数值P，该数值P是输入向量的各元素数据的最大值，最小值，也可以是输入向量的各元素数据的平均值等等。

图2是根据本说明书第二实施例的FPGA电路示意图。图2不同于图1的地方在于，在图2中增加了最大值MAX模块212和减法SUB模块204。MAX模块212配置用于确定M个元素Xi中的最大值MAX；减法模块204配置用于将所述多个元素Xi分别减去所述最大值MAX，所得到的数据提供给查找表206。

其它模块与图2基本相同，比如，查找表206对应予查找表106。对此不复赘述。

图3是根据本说明书第三实施例的FPGA电路示意图。图3不同于图2的地方在于，在图2中增加了最小值MIN模块312和SUB模块304。其它模块保持不变。MIN模块312配置用于确定M个元素Xi中的最小值MIN；减法模块304配置用于将所述多个元素Xi分别减去所述最小值MIN，所得到的数据提供给查找表206。

在一些实施例中，在输入向量的各元素是浮点数且输入数据的取值范围有限的情况下，可以对输入数据进行定点化处理。

图4是根据本说明书第四实施例的FPGA电路示意图。和图1-3的FPGA电路相比，增加了FIX模块432和FLOAT模块434。

在如图4所示的FPGA电路中，向量输入模块202接收输入的数据向量X，并且将向量X的多个元素Xi(单精度浮点数)并行地分多个时钟周期输出给下一级模块。

最大值MAX模块212实现对输入的多个元素Xi进行并行比较，求取整个向量X中的最大值max，然后输出。同时，输入数据Xi保持不变的输出到下一级模块。

减法SUB模块204实现对输入的多个元素Xi进行并行减法计算，每个元素Xi输出一个新的元素Yi。计算公式为Yi＝Xi-max。由此可见，Yi的取值范围是小于等于0的单精度浮点数。

定点化(fix)模块432实现对输入的多个元素Yi进行并行的定点化变换，每个元素Yi对应输出一个新元素Zi。所谓的定点化，即是根据数据的动态范围以及精度需要，把浮点Yi映射到例如int8，int16或int32(即Zi)。

另外，由于后续的exp函数计算对于小于-32的输入数据非常不敏感，所以Zi只需要表示0～-32的取值范围，该fix模块的定点化计算需要将0～-32之间的浮点数转换为固定bit(比特)的定点数，小于-32的数也当作-32处理。这样可以进一步提高Zi在有限bit的情况下表示的数据的精度。有限bit，可以有助于控制查找表的规模，提高计算速度。

查找表模块206通过查表获取每个元素Zi的exp函数的近似结果Ai。由于其结果取值范围是0到1之间，所以用16bit或24bit等的定点化数来表示，就可以满足精度要求。每个输入元素Zi对应输出一个新元素Ai。每个元素Ai为查表获得的exp(Zi)函数的近似值。

求和(SUM)模块222实现对输入的各个元素Ai的并行加法，求取和值sum。最后输出sum值。元素Ai保持不变传输到下一个模块。

倒数(inv)模块224实现对输入的sum值求倒数，求倒数的过程也可以使用查表法，由此避免了softmax中的除法计算。求取倒数，也可以用其它的fpga逻辑资源实现。输入为定点化的sum值，输出是查表结果的值inv。由于sum肯定是大于1的数值，那么inv是取值范围在0～1之间的定点化数。最后该模块输出保持不变的输入数据和对应整个向量的inv值。

乘法(MUL)模块208实现每个元素Ai和inv值的相乘计算，得到Bi。每个元素Ai和inv值都是在0～1之间的定点化数，其相乘的结果mul也是取值范围在0～1之间的值，所以可以用定点化乘法器实现该乘法计算。该模块使用多个并行的定点化乘法器实现了输入数据中的多个元素同时完成乘法计算。

浮点化(FLOAT)模块434将数据中的各个元素Bi从定点数变为浮点数，得到Si。

向量输出模块210并行接收数据Si(单精度浮点数)并且分多个时钟周期串行输出向量S。

从图4中可以清楚看出，各个模块均可以采用FPGA电路的模块来加以实现。由于数据可以在不同的FPGA模块中并行运算，因此数据吞吐率显著提高了。

在上述实施例中，利用输入数据的取值范围有限的属性，对输入数据进行定点化处理，在满足精度要求的情况下，实现了计算的简化。

图5是本说明书实施例的利用FPGA电路实现softmax函数计算的方法。如图5所示，所述方法包括：在步骤S502，接收原始的数据向量X，并且并行提供原始向量中的M个元素Xi，M为大于1的自然数，i为1-M中的一个数。

在步骤S504，确定向量的各元素是否需要平移？如果需要平移，则进入步骤S506，将向量的各元素平移到新的数值范围中，平移后的元素记为Yi。平移的方式包括但不限于将各元素减去各元素中的最大值、最小值或平均值。否则，直接进入步骤S508。

在步骤S508，确定各元素是否浮点？如果是浮点，则进入步骤S510，将各元素定点化，得到元素Zi。否则，直接进入步骤S512。

在步骤S512，利用FPGA电路中的查找表电路，查找与所述M个元素分别对应的M个数值Ai；其中，M个数值Ai各自分别是M个元素Xi中的一个元素的指数函数值；

在步骤S514，对所述M个数值Ai求和，得到一个和值sum；

在步骤S516，利用FPGA电路中的查找表电路，查找所述和值的倒数inv。

在步骤S518，将所述倒数inv和所述M个数值Ai分别相乘，得到M个数值Bi。

在步骤S520，确定是否需要将乘积值Bi转换为浮点？如果需要，则进入步骤S522，将各乘积值浮点化，得到M个数值Si。否则，直接进入步骤S524。

在步骤S524，并行接收所述M个数值Si，并且将其分别作为M个第二元素，输出构成为第二数据向量S。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种FPGA电路，用于实现softmax函数计算，所述FPGA电路包括：

向量输入模块，配置用于接收第一数据向量，并且并行提供第一数据向量中的M个第一元素，M为大于1的自然数；

查找表模块，配置用于查找与所述M个第一元素分别对应的M个第二数值；其中，M个第二数值各自分别是M个第一元素中的一个元素的指数函数值；

求和模块，配置用于对所述M个第二数值求和，得到一个和值；

倒数模块，配置用于获取所述和值的倒数；

乘法模块，配置用于将所述倒数和所述M个第二数值分别相乘，得到M个第三数值；

向量输出模块，配置用于并行接收所述M个第三数值，并且将其分别作为M个第二元素，输出构成为第二数据向量。

2.如权利要求1所述的FPGA电路，其中，所述FPGA电路包括：极值模块，配置用于确定所述M个第一元素中的极值；

减法模块，配置用于将所述M个第一元素分别减去所述极值，分别得到M个第四数值，所述M个第四数值代替M个第一元素输入第一查找表模块。

3.如权利要求2所述的FPGA电路，其中，所述极值是最大值或最小值。

4.如权利要求1-3之一所述的FPGA电路，其中，所述FPGA电路还包括定点化模块，配置用于对M个第一元素进行定点化处理；浮点化模块，配置用于对M个第三树值进行浮点化处理。

5.如权利要求1-3之一所述的FPGA电路，其中，倒数模块采用查找表实现。

6.一种利用FPGA电路实现softmax函数计算的方法，所述方法包括：

接收第一数据向量，并且并行提供第一数据向量中的M个第一元素，M为大于1的自然数；

利用FPGA电路中的查找表电路，查找与所述M个第一元素分别对应的M个第二数值；其中，M个第二数值各自分别是M个第一元素中的一个元素的指数函数值；

对所述M个第二数值求和，得到一个和值；

获取所述和值的倒数；

将所述倒数和所述M个第二数值分别相乘，得到M个第三数值；

并行接收所述M个第三数值，并且将其分别作为M个第二元素，输出构成为第二数据向量。

7.如权利要求6所述的方法，其中，所述方法包括：确定所述M个第一元素中的极值；将所述M个第一元素分别减去所述极值，分别得到M个第四数值，所述M个第四数值代替M个第一元素输入第一查找表电路。

8.如权利要求7所述的方法，其中，所述极值是最大值或最小值。

9.如权利要求6-8之一所述的方法，其中，所述方法还包括对M个第一元素进行定点化处理；对M个第三数值进行浮点化处理。