CN108021537A

CN108021537A - 一种基于硬件平台的softmax实现方式

Info

Publication number: CN108021537A
Application number: CN201810016954.XA
Authority: CN
Inventors: 王中风; 王美琪; 路思远; 林军
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-01-05
Filing date: 2018-01-05
Publication date: 2018-05-11
Anticipated expiration: 2038-01-05
Also published as: CN108021537B

Abstract

本发明公开了一种基于各种硬件平台(CPLD、FPGA、专用芯片等)计算softmax函数的实现方式。softmax函数广泛应用于深度学习的多分类任务及注意力模型等，其中涉及到的e指数及除法计算需要消耗较多的硬件资源。设计方法通过对函数进行数学变换，将其中的e指数计算简化为一次常数乘法、一个输入范围固定的2的指数次运算和一次移位运算；将n次除法运算的简化为一次“最高非零位检测运算”、一次输入范围固定的倒数运算和一次移位运算及n次乘法运算。其中2指数及倒数运算以特殊设计的查找表实现，能以更小的存储空间实现同样精度。将本发明用在深度学习的注意力模型等中，可以在精度几乎不受损的前提下大大提高计算速度，减少计算资源和存储资源的消耗。

Description

一种基于硬件平台的softmax实现方式

技术领域

本发明涉及集成电路技术领域，具体涉及一种基于硬件平台的softmax计算方法及其架构设计。

背景技术

softmax函数广泛应用于深度学习的多分类任务及注意力模型等。它可将多个神经元的输出映射到(0，1)区间内，且所有项的和为1，可被看做概率，常应用于机器学习中需要计算多个输出占比或多输入各自权值的场合中。

Softmax中涉及到的e指数计算以及除法计算需要消耗的硬件资源较大，深度学习在硬件平台的实现效率和资源消耗会被这一函数的计算速度和资源需求影响。经过对函数的简单变换，将其中的指数计算以移位计算替代，并将除法以查找表方式实现，可以在精度几乎不受损的前提下大大提高计算速度，减少计算资源的消耗。

发明内容

本发明为了解决各种硬件平台(包括CPLD、FPGA、专用芯片等)上用定点数计算Softmax函数不易于实现的问题，提出了一种设计的方法，可减小硬件硬件面积、降低查找表存储参数的值域范围，从而使得在的计算相同精度下存储参数所需要的资源减少，或者在消耗相同的存储空间的情况下存储精度更高的参数，达到更高的计算精度。

本发明的理论分析如下：

1.Softmax函数的表达式为

其基本运算步骤为：

步骤一：输入n个变量x_i，1≤i≤n对每个变量，计算出：

步骤二：对于计算得到的y_i，求其和：

步骤三：对每个y_i，除以F，得到f(x_i)：

2.其中基本的数字电路中的逻辑单元无法直接进行运算的步骤是步骤一的指数运算和步骤三的除法运算。以下将从三个步骤对该运算进行简化。

2.1第一步优化考虑指数运算的简化。这里我们把输入为负无穷到正无穷的e指数的计算，简化为一次常数乘法、一个输入范围为[0，1)的2的指数次运算、一次移位运算。

按照一般的计算流程，以自然对数为底数的指数运算，无法用数字电路的组合逻辑直接表示，一般采用泰勒展开逼近的方法或直接查表得结果。如果采用泰勒展开逼近的办法，需要做大量的乘除法运算，硬件面积将变得非常大。如果采用直接查表的办法，输入变量的范围从负无穷到正无穷，存储量太大。对e指数做如下变换：

设x_i′＝x_ilog₂e，则有：x_i′的计算由于是和一个常数(1/ln2＝1.4427)做乘法，所以可以用一系列的加法运算来代替。

再对x_i′进行整数和小数的拆分，使得x_i′＝x1_i′+x2_i′，其中x1_i′为x_i′的整数部分，x2_i′为x_i′的小数部分且0≤x2_i′＜1，如5.75＝5+0.75，-6.25＝-7+0.75，y_i的计算可表示为

由于2指数的特殊性，就是对1的左移和右移运算，可以用查表的方法来计算，输入值的范围是[0，1)，输出值的范围是[1，2)。

所以要想计算得到y_i，先查表得到的值，再根据x1_i′的值对查表结果进行左移或者右移即可。用这种方法来计算e指数，相对于直接计算e指数，查表的输入值和输出值的范围都大大减小了。

2.2第二步优化考虑除法运算的优化。这里我们把n次除法运算，简化为一次求一个定点二进制数除符号位以外从左往右第一个1的位置的运算、一次输入值域为[0.5，1)的倒数运算、一次移位运算、n次乘法运算。

由于n次除法运算的除数都是相同的，可以先求出F的倒数，然后每次再求y_i和这个倒数的乘积。借鉴简化e指数的思路，对倒数运算进行如下考虑：

由分数计算的性质可知，|F|＝2^w·k，其中w为整数，0.5≤k≤1。如，6.25＝8×0.7815，-3.5＝-4×0.875，-0.43＝-0.5×0.86。如果k可以取[0.5，1)中的任意实数，理论上所有非0实数都可以用这种方法来表示，本身这也与浮点数的表示方法类似。对于二进制定点数来说，只要找到除符号位以外从左往右第一个不是0的比特位，就可以快速计算得到w和k。比如用十进制表示的0.09375＝8×0.75，用二进制表示就是0.00011，从左往右第一个为1的比特位是小数点后第四位，那么w＝4-1＝3，k用二进制表示就是0.11，用十进制表示就是0.75。

对比e指数的计算，F的倒数的计算也完全类似：先查表得到1/k的值，再根据w的值对该值进行左移或右移处理。这里的查表的输入值的范围是[0.5，1)，输出值的范围是(1，2]，同样，输入值和输出值的范围都大大减小了。

2.3第三步优化对查表的输出值的范围，采用一种改进的查找表策略进行进一步优化。

在定点数表示范围不变的情况下，提高精度就会需要更大的位宽带来更大的存储空间，而要减少存储就要牺牲精度；而如果能够缩减定点数的表示范围，相同的精度可以占用更少的存储空间，占用相同的空间可以表示更高的精度。

定义查找表一存储函数y1＝2^x，查找表二存储函数y2＝1/x。前两步优化已经大大减小了查表的输出值的范围，这一步对其范围进行进一步的缩减：在存储查找表y＝g(x)的过程中，常用的办法是把x的值对应到存储器的地址，把g(x)作为该地址所存储的数据；借鉴线性拟合的思想，这里我们不存储g(x)，改为存储g(x)-(kx+b)，每次访问时得到数据后再加上kx+b，就是g(x)的值。很明显，如果直线y＝kx+b和曲线y＝g(x)很接近，查找表的输出值值域会大大缩减，代价是返回后的数据要进一步处理；而相对于直接采用拟合的思想进行计算，这种办法可以灵活的提高精度，代价是需要更多的存储空间。

这里由于查找表对应函数的特殊性，采用这种策略计算有很大好处：需要查表计算的是函数y1＝2^x，0＜x＜1和函数y2＝1/x，0.5≤x＜1。从图线中可以看出，曲线y1和直线y＝x+1非常接近，曲线y2和直线y＝-2x+3也非常接近，而这两条直线的表达式非常简单，返回值后都不需要进行k乘以x的运算，所以在本方案中这种运算非常简便。

所以，查找表一存储的函数可改为y1＝2^x-x-1，其值域为[0，0.08607]，对应到二进制是[0，0.001)；查找表二存储的函数可改为y2＝1/x+2x-3，其值域为[-0.17157，0]，对应到二进制是(-0.01，0]。也就是说，如果采取相同的精度进行存储和运算，用这种方案，查找表一存储数据的位宽降低了3位，查找表二存储的数据位宽降低了1位。

进一步降低数据位宽，可以通过修改查找表的存储内容来解决：由于函数y2＝1/x+2x-3在0.5≤x＜1时是先单调减再单调增，所以可以直接将存储的内容的第一位去掉，具体的细节会在具体实施方法中阐明。

附图说明

图1为整个系统的设计框图；

图2为输入数据的格式；

图3为e指数的计算模块；

图4为倒数(1/F)的计算模块；

图5为计算x_i′＝x_ilog₂e的常数乘法器；

具体实施方法

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例，都属于本发明保护的范围。

图1示出了本发明一实施例提供的硬件平台上用原码表示的定点数计算Softmax函数的系统框图，本实施例的用16位宽的定点数(最高位表示符号位，4位整数，7位小数，精度为0.0078125，表示范围-15.9921875～15.9921875)如图2所示，计算Softmax函数的硬件设计方法或实施方案如下所述。

步骤1输入n个定点数x₁，x₂，…，x_n，数据格式如图2所示。

步骤2如图3所示，对x_i做一次常数乘法，乘以的常数是log₂e，得到x_i′＝x_ilog₂e，按照本实施例所采用的精度，将其转换为1.0111001。那么这一常数乘法相当于做一系列的移位和加法运算，如图5所示。得到的x_i′的数据格式是13位位宽，其中1位符号位，5位整数，7位小数。

步骤3如图3所示，首先判断x_i′的正负，再对x1_i′和x2_i′赋值。若x_i′≥0，x1_i′等于x_i′的整数部分(保留符号位，并包括5位整数)，x2_i′等于x_i′的小数部分(无符号，7位小数)；若x_i′＜0，x1_i′等于x_i′的整数部分-1(保留符号位并包括5位整数)，x2_i′等于1减去x_i′的小数部分(无符号，7位小数)。

步骤4如图3所示，计算要用到一张查找表，查找表存储的函数是y1_i＝2^x-x-1，值域是[0，0.08607]，对应到二进制是[0，0.001)，在表中存储的是因变量用二进制表示的从小数点后第四位开始的数，如果输出和输入采用一样的精度，那么在查找表中存储的数据就是四位，0000～1011。根据x_i′的精度和范围，查找表一的地址表示为x_i′的小数部分，即0000000～1111111；内容如下：

地址	0000000	0000001	0000010	0000011	0000100	0000101	0000110	0000111
									数据	0000	0000	0000	0001	0001	0001	0001	0010

地址	0001000	0001001	0001010	0001011	0001100	0001101	0001110	0001111
									数据	0010	0010	0011	0011	0011	0011	0100	0100

地址	0010000	0010001	0010010	0010011	0010100	0010101	0010110	0010111
									数据	0100	0100	0101	0101	0101	0101	0110	0110

地址	0011000	0011001	0011010	0011011	0011100	0011101	0011110	0011111
									数据	0110	0110	0110	0111	0111	0111	0111	0111

地址	0100000	0100001	0100010	0100011	0100100	0100101	0100110	0100111
									数据	1000	1000	1000	1000	1000	1000	1001	1001

地址	0101000	0101001	0101010	0101011	0101100	0101101	0101110	0101111
									数据	1001	1001	1001	1001	1001	1010	1010	1010

地址	0110000	0110001	0110010	0110011	0110100	0110101	0110110	0110111
									数据	1010	1010	1010	1010	1010	1010	1010	1011

地址	0111000	0111001	0111010	0111011	0111100	0111101	0111110	0111111
									数据	1011	1011	1011	1011	1011	1011	1011	1011

地址	1000000	1000001	1000010	1000011	1000100	1000101	1000110	1000111
									数据	1011	1011	1011	1011	1011	1011	1011	1011

地址	1001000	1001001	1001010	1001011	1001100	1001101	1001110	1001111
									数据	1011	1011	1011	1011	1011	1011	1011	1011

地址	1010000	1010001	1010010	1010011	1010100	1010101	1010110	1010111
									数据	1011	1011	1011	1010	1010	1010	1010	1010

地址	1011000	1011001	1011010	1011011	1011100	1011101	1011110	1011111
									数据	1010	1010	1010	1010	1001	1001	1001	1001

地址	1100000	1100001	1100010	1100011	1100100	1100101	1100110	1100111
									数据	1001	1001	1001	1000	1000	1000	1000	1000

地址	1101000	1101001	1101010	1101011	1101100	1101101	1101110	1101111
									数据	0111	0111	0111	0111	0111	0110	0110	0110

地址	1110000	1110001	1110010	1110011	1110100	1110101	1110110	1110111
									数据	0110	0101	0101	0101	0100	0100	0100	0011

地址	1111000	1111001	1111010	1111011	1111100	1111101	1111110	1111111
									数据	0011	0011	0011	0010	0010	0001	0001	0001

将x_i′的值输入查找表后，得到输出D1(四位二进制数)。为方便后面运算，D都取正数，不需要符号位，得到12位的D，范围是000000000000～000000001011。

步骤5如图3所示，计算y_i，y_i≥0，位宽28位，其格式为21位整数，7位小数。y1_i＝D+x+1，再根据x1_i′的正负，对y1_i进行移位操作：若x1_i′＞0，y_i＝y1_i《x1_i′；若x1_i′＜0，y_i＝y1_i》|x1_i′|。

步骤6如图1所示，对步骤5得到的y₁，y₂，…，y_n，全部相加，得到F，F＞0。

步骤7如图4所示，根据F从左往右第一位不是0的比特位的位置，计算得到w。若该位置在小数点之前第n位，w＝n；若该位置在小数点之后第n位，w＝n-1。

步骤8如图4所示，从步骤7所取位置的后一位开始截取6位有效数字，赋给k。k的范围是000000～111111。

步骤9如图4所示，用查找表二计算1/k。根据k的精度，以及发明内容中所述的公式y2＝1/x+2x-3，使x＝k，其值域为[-0.17157，0]，对应到二进制是(-0.01，0]，查找表不存储y2的符号位，并且从y2的二进制表示的小数点后第三位符号位开始存储，也就是舍去小数点后的第二位，设计得到的查找表二的内容如下：

输入k，返回值为D2(四位二进制数)。

步骤10k与两个常数比较，确定它是否在[001100，101110]区间；若在区间[001100，101110]，D2′是D2前面加一个1，否则D(k)是D2前面加一个0。1/k＝D(k)-2k+3。

步骤11如图4所示，将1/k赋值给1/F。再根据w的正负，对1/F进行移位操作：若w＞0，1/F＝1/F《w；若w＜0，1/F＝1/F》|w|。

步骤12如图1所示，做乘法，

Claims

1.一种基于硬件平台的softmax函数计算方法，包括：

●e指数计算模块，用于计算输入向量x各个分量x_i对应的结果；

●累加器模块，用于将x各个分量对应计算得到的结果进行累加；

●存储模块，用于将x各个分量对应计算得到的结果分别进行存储；

●倒数运算模块，用于计算累加结果的倒数；

●乘法模块，用于将所存储的各个结果与计算所得的倒数进行相乘。

2.根据权利要求1所述的，其中，e指数计算模块还包括：

●常数系数log₂ e乘法模块，用于将输入x_i变换为x_i′＝x_i log₂ e；

●2^x计算模块，由公式通过进行2指数运算得到x_i对应的

3.根据权利要求2所述的，其中常数系数log₂ e相乘模块利用加法器和移位模块搭建而成。

4.根据权利要求2所述的，其中2^x计算模块特征在于：对指数x_i′进行整数和小数的拆分使得x_i′＝x1_i′+x2_i′，其中x1_i′为x_i′的整数部分，x2_i′为x_i′的小数部分，的计算可表示为

<mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <msup> <mn>2</mn> <mrow> <mi>x</mi> <msup> <msub> <mn>1</mn> <mi>i</mi> </msub> <mo>&prime;</mo> </msup> <mo>+</mo> <mi>x</mi> <msup> <msub> <mn>2</mn> <mi>i</mi> </msub> <mo>&prime;</mo> </msup> </mrow> </msup> <mo>=</mo> <msup> <mn>2</mn> <mrow> <mi>x</mi> <msup> <msub> <mn>1</mn> <mi>i</mi> </msub> <mo>&prime;</mo> </msup> </mrow> </msup> <msup> <mn>2</mn> <mrow> <mi>x</mi> <msup> <msub> <mn>2</mn> <mi>i</mi> </msub> <mo>&prime;</mo> </msup> </mrow> </msup> <mo>,</mo> <mn>1</mn> <mo>&le;</mo> <mi>i</mi> <mo>&le;</mo> <mi>n</mi> </mrow>

计算得到y_i过程中先查表得到的值，再根据x1_i′的值对查表结果进行左移或者右移。

5.根据权利要求1所述的，倒数运算模块特征在于，将倒数表示成如下形式：

<mrow> <mfrac> <mn>1</mn> <mi>F</mi> </mfrac> <mo>=</mo> <mfrac> <mn>1</mn> <msup> <mn>2</mn> <mi>w</mi> </msup> </mfrac> <mo>&CenterDot;</mo> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> </mrow>

先查表得到1/k的值，再根据w的值对该值进行左移或右移处理。其中w和k利用最高非零位检测模块得到。

6.根据权利要求4和权利要求5中所述的，和1/k利用查找表实现，其特征在于，查找表中不直接存储或1/k函数(统称为g(x))，而是存储g(x)-(kx+b)，每次访问时得到数据后要加上(kx+b)，最终得到g(x)的值。存储的函数的选择标准是，满足存储位数比直接存储g(x)小且系数简单便于硬件计算。

7.根据权利要求6所述的，计算对应的查找表中存储的结果是函数y1＝2^x-x-1的值，从y1用二进制表示的小数点后第四位开始存储。

8.根据权利要求6所述的，计算1/k对应的查找表中存储的结果是函数y2＝1/k+2k-3的值，且查找表不存储y2的符号位，并且从y2的二进制表示的小数点后第三位符号位开始存储。