CN113377332B

CN113377332B - 一种基于线性分段的softmax硬件实现方法

Info

Publication number: CN113377332B
Application number: CN202110591328.5A
Authority: CN
Inventors: 李丽; 龙威; 傅玉祥; 宋文清; 周禹辰; 陈铠; 李伟; 何书专
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2023-08-22
Anticipated expiration: 2041-05-28
Also published as: CN113377332A

Abstract

本发明提出了一种基于线性分段的softmax硬件实现方法，该方法实现的电路系统包括：控制器用于实现softmax运算所需的源数据的读取和分发，以及运算结果的存储；排序模块用于将输入进行排序，并找出最大值；自然指数模块用于计算输入源数据的e指数函数值；加法树模块用于将e指数模块的结果进行累加；除法模块用于计算每个e指数计算结果与累加结果的比值。该方法实现的电路系统通过分解计算过程、压缩计算区间，大幅降低了传统查找表方法实现softmax的参数，兼具了高性能和低硬件资源开销，可用于各种人工智能算法加速场景。

Description

一种基于线性分段的softmax硬件实现方法

技术领域

本发明涉及一种基于线性分段的softmax硬件实现方法，特别是涉及深度学习硬件加速技术领域。

背景技术

深度学习的概念在2006年被正式提出，此后经过多年迅速发展，逐渐在语音识别、机器翻译、图像识别、自动驾驶等领域有了重要应用。而CPU、GPU等硬件平台部署深度学习算法时，计算并行度低、功耗高难以满足实际应用场景，因此需要为深度学习算法设计专用的硬件加速电路。

Softmax是深度学习常用的激活函数之一，用于多分类问题。该函数将多个输入映射到(0，1)的区间上，从而实现概率分布。而其中的自然指数模块需要消耗大量的硬件资源和计算周期，难以用硬件实现。现有的softmax实现方法中，cordic算法需要多次迭代，计算周期较长；传统查找表方法需要大量存储资源，且从存储器中取数花费较多时间；线性分段同样需要大量存储空间，且计算精度不高。

发明内容

发明目的：提出一种基于线性分段的softmax硬件实现方法，以解决现有技术存在的上述问题，同时，弥补传统softmax实现的不足，解决softmax难以在硬件部署的问题。

技术方案：第一方面，提出了一种基于线性分段的softmax硬件实现方法，该方法具体包括以下步骤：

对源数据进行读取和分发；

通过计算获取源数据中的最大值；

结合查找表和线性分段拟合方法，计算源数据的自然指数；

并行输入源数据的自然指数并进行累加操作；

结合除法计算得到最终的输出结果；

接收输出的结果，并按顺序存入双倍速率同步动态随机存储器中。

在第一方面的一些可实现方式中，对所述源数据进行读取的过程进一步为：从双倍速率同步动态随机存储器中读取源数据，并按照顺序存入存储阵列源数据区的内存库中。

对所述源数据进行分发的过程进一步为：从所述内存库中取出一个数，进行并行计算。

在第一方面的一些可实现方式中，通过配置比较器以及将计算转化至负数域，比较所述源数据的大小，获取所述源数据中的最大值。

在第一方面的一些可实现方式中，所述自然指数的获取方式进一步为：

输入获取的新数据；所述新数据为去除所述最大值的源数据；

根据整数位宽参数，将所述新数据拆分为整数部分和小数部分；

对所述新数据进行整数部分的e指数结果查找和小数部分区间重映射；

查找所述小数部分的线性分段参数；

计算所述小数部分的e指数结果；

计算整数部分e指数结果和小数部分e指数结果乘积，对乘法结果进行移位还原。

其中，所述e指数计算包括整数部分和小数部分；

所述整数部分采用直接查找；

所述小数部分采用分段拟合的方式。

在第一方面的一些可实现方式中，将区间压缩算法应用于所述e指数计算小数部分查找表参数压缩，具体实现方法如下：

X＝Qln2+γ

e^X＝e^Qin2+＝e^Qln2·e^γ＝2^Q·e^γ

式中，X表示自然指数运算的输入；Q表示整数值；γ表示小数值；

同时在此基础上优化区间算法，将查找表参数进一步减少，具体实现方法如下：

式中，X表示自然指数运算的输入；Q表示整数值；γ表示小数值。

在第一方面的一些可实现方式中，采用定点数实现，且小数点位置可配置，可根据输入特征选择合适的计算精度。

所述除法计算分为一次求倒计算和至少两次除法计算。

第二方面，提出一种基于线性分段的softmax硬件实现系统，该系统具体包括：

控制器，被设置为实现softmax运算所需的源数据的读取和分发，以及运算结果的存储。

最大值模块，被设置为转换接收到的数据至负数域，并计算获得输入数据中的最大值。

自然指数模块，被设置为根据查找表和线性分段拟合方法，计算源数据的自然指数。

加法树模块，被设置为并行的将所有的自然指数计算结果进行求和。

除法模块，被设置为计算每个自然指数计算结果与累加结果的比。

在第二方面的一些可实现方式中，所述控制器进一步包括：有限状态机FSM、源数据地址产生模块、写结果地址产生模块、源数据分发模块、结果分发功能模块。

所述最大值模块由至少两个多路比较器构成，通过级联后得出数据的最大值。

所述自然指数模块采用流水线设计，流水深度为五级；第一级流水线进行数据整数部分和小数部分的拆分，第二级流水线进行整数部分数据查找和小数部分区间重映射，第三级流水线查找小数部分的线性分段参数并经过一次加法和乘法运算得出小数部分自然指数值，第四级流水线将整数部分结果与小数部分结果相乘，第五级流水线，将乘法结果移位还原。

所述加法树模块由至少两组级联的加法器组成。

所述除法模块首先求出累加结果的倒数，然后逐一和每个自然指数结果做乘法计算。

有益效果：本发明提出了一种基于线性分段的softmax硬件实现方法，首先，实现了一种高性能的softmax定点数硬件电路，同时可进行深度学习中softmax激活函数的运算，且整数和小数位宽可配置，适应不同精度要求。并且计算范围和计算精度具有很好的可拓展性。

其次，通过一种综合使用查找表与分段线性拟合实现自然指数计算的硬件实现方法，并采用流水线和多路并行的设计方式，满足了深度学习应用的硬件要求。

再次，利用一种优化区间压缩算法的方法，将相同精度下的存储资源消耗进一步减小。

从次，仅需少量查找表数据即可实现softmax运算，数据可存储于寄存器中，无需额外存储器件。且数据查找与乘法加法运算可在同一时钟周期进行，运算速度快。

最后，本发明只涉及乘法和加法运算，易于硬件实现，在有较高性能的同时，计算复杂度低且硬件资源消耗少。

因此，综上所述，本发明可在较少的硬件资源消耗下，实现softmax高性能高精度的运算，有良好的实际应用价值。

附图说明

图1为本发明的源数据读取示意图。

图2是本发明的结果数据存储示意图。

图3是本发明的softmax硬件电路结构图。

图4是本发明的softmax计算流程图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

在一个实施例中，提出一种基于线性分段的softmax硬件实现方法，具体划分为以下步骤：

步骤一、对源数据进行读取和分发。

具体的，从双倍速率同步动态随机存储器取出源数据，并按顺序存入存储阵列源数据区的内存库中。每次从各个内存库中分别取出一个数进行并行计算。源数据的读取采用乒乓操作，在本次源数据读取的同时进行上次源数据运算，加快了数据读取速度，具体读取过程如图1所示。

步骤二、通过计算获取源数据中的最大值。

具体的，通过配置比较器以及将计算转化至负数域，比较所述源数据的大小，获取所述源数据中的最大值。通过将计算转化至负数域，扩大了计算范围，且对硬件实现更加友好。

在进一步的实施例中，将输入转入负数域进行计算时，将分子分母的指数同时减去输入最大值，并不影响最终结果，即：

式中，x_max表示源数据中的最大值；x_i表示第i个源数据。通过输入转入负数域进行计算可防止在e指数计算时出现数据溢出，同时减少了整数部分的查找表，可以用同样的存储资源获取更高的精度。

步骤三、结合查找表和线性分段拟合方法，计算源数据的自然指数。

具体的，首先对源数据进行数据预处理，将源数据减去最大值，从而获得新的数据输入；其次，根据整数位宽参数，将输入数据拆分为整数部分和小数部分；再次，进行整数查找和小数区间重映射，从查找表整数部分对应自然指数函数值，并判断小数部分大小，进行区间重映射。若小数部分大于则减去ln2映射到/>中，左移标志位置1；若小数部分小于/>则加上ln2映射到/>中，右移标志位置1；从次，从查找表取出小数部分线性分段参数，计算小数部分自然指数值。最后，将整数部分的自然指数值与小数部分的自然指数值相乘，作为最终输出的预备结果。由于前期进行了小数部分的区间重映射，因此需要将预备结果进行移位还原，才能得出自然指数计算的正确结果。

其中，采用定点数实现，且小数点位置可配置，可根据输入特征选择合适的计算精度。

在进一步的实施例中，将源数据e指数的计算拆分为整数部分M和小数部分N的计算过程为：

e^x＝e^M+N＝e^M·e^N

对于整数M部分用直接存储函数值的策略建立查找表。整数部分查找表的查找起点为M＝-2，查找点集合为{M|M≤-2，M∈Z}，即小于等于-2的负整数，在具体实施中可根据系统位宽自由调整可查找的范围大小。对于16bit定点数系统，最小可保存的自然指数值为e^-1。由于小数和整数的分离，计算范围的拓展变得非常方便，只需要在位宽允许的情况下增加整数部分查找值。对于小数N部分用线性分段的策略建立查找表，存储其各线性分段区间的斜率值k和截距值b，则第i个区间的softmax值为：

softmax(N)＝N·k_i+b_i

小数部分查找表的查找范围为(-1,1]。具体存储的参数数量根据实施时划分的区间大小确定。同样的，由于小数和整数的分离，计算精度的拓展也会变得非常方便，只需要将小数部分的分段区间划分的更精细即可。综合整数和小数部分的查找表，即可实现整个负数域上的自然指数计算，实际计算范围受电路位宽限制。该策略与传统线性分段方法相比，可将查找表数据量从M×Number减少到M+Number量级(Number为小数部分分区数量)，存储少量数据即可获取较高的精度。在传统查找表或者线性分段方法中，数据量庞大，从存储设备中获取参数值占据了大量计算时间。对于所述softmax硬件实现方法而言，查找表参数可固化在计算电路中，数据查找和乘法加法计算可在同一时钟周期完成，提高了运算速度。

在进一步的实施例中，传统的区间压缩算法将自然指数运算的输入X先映射到[-ln2,ln2]再进行指数计算，具体做法为取一个整数值Q和小数值γ用于表示X，其关系如下式所示：

X＝Oln2+γ

最后的e指数结果通过移位还原：

e^X＝e^Qkn2+γ＝e^Qln2·e^γ＝2^Q·e^γ

本实施例将区间压缩算法应用于所述e指数计算小数部分查找表参数压缩，进一步将映射区间压缩到了并将其应用到小数部分的参数优化，具体实现方法如下：

先应用传统区间压缩方法，将小数部分需要存储的参数区间(-1,1]压缩到[-ln2,ln2]。压缩后的区间可以分为三个部分：[-ln2,-1/2ln2]、[-1/2ln2,1/2ln2]、[1/2ln2,ln2]。[1/2ln2,ln2]中的数可以映射到[-1/2ln2,0]中。把γ的取值减去ln2，Q的取值加1，如公式所示：

同理可将[-ln2,-1/2ln2]的值映射到[0,1/2ln2]。由此将小数部分e指数的查找区间压缩至

步骤四、并行输入源数据的自然指数并进行累加操作。

具体的，将步骤三中计算出的自然指数结果并行的进行累加操作，并将得出累加结果作为除法计算的分母。

步骤五、结合除法计算得到最终softmax的输出结果。

具体的，计算步骤四中加法结果的倒数，将步骤三中所有源数据的e指数函数值与倒数值分别相乘得出最终的数据输出。另外，除法计算分为一次求倒计算和多次除法计算

步骤六、接收输出的结果，并按顺序存入双倍速率同步动态随机存储器中，如图2所示。

综上所述，本实施例的softmax的定点数运算硬件电路，综合运用查找表和线性分段的实现方法，并将优化的区间压缩算法应用在自然指数的运算。在较少的存储资源消耗下，可实现较高的计算精度和较快的运算速度，且计算精度可配置，有较高的应用潜力。

在一个实施例中，提出一种基于线性分段的softmax硬件实现系统，用于实现提出一种基于线性分段的softmax硬件实现方法，如图3所示，该系统具体包括：

控制器，被设置为实现如图4所示的softmax运算所需的源数据的读取和分发，以及运算结果的存储。

具体的，所述控制器进一步包括但不限于：有限状态机FSM模块、源数据地址产生模块、写结果地址产生模块、源数据分发模块、结果分发功能模块。

所述自然指数模块采用流水线设计，流水深度为五级。第一级流水线进行数据整数部分和小数部分的拆分，第二级流水线进行整数部分数据查找和小数部分区间重映射，第三级流水线查找小数部分的线性分段参数并经过一次加法和乘法运算得出小数部分自然指数值，第四级流水线将整数部分结果与小数部分结果相乘，第五级流水线，将乘法结果移位还原。

所述加法树模块由至少两组级联的加法器组成。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上做出各种变化。

Claims

1.一种基于线性分段的softmax硬件实现方法，其特征在于，具体包括以下步骤：

对源数据进行读取和分发；

通过计算获取源数据中的最大值；

结合查找表和线性分段拟合方法，计算源数据的自然指数；

并行输入源数据的自然指数并进行累加操作；

结合除法计算得到最终的输出结果；

接收输出的结果，并按顺序存入双倍速率同步动态随机存储器中；

所述自然指数的获取方式进一步为：

查找所述小数部分的线性分段参数；

计算所述小数部分的e指数结果；

计算整数部分e指数结果和小数部分e指数结果乘积，对乘法结果进行移位还原；

所述e指数计算包括整数部分和小数部分；

所述整数部分采用直接查找；

所述小数部分采用分段拟合的方式。

2.根据权利要求1所述的一种基于线性分段的softmax硬件实现方法，其特征在于，

对所述源数据进行读取的过程进一步为：从双倍速率同步动态随机存储器中读取源数据，并按照顺序存入存储阵列源数据区的内存库中；

3.根据权利要求1所述的一种基于线性分段的softmax硬件实现方法，其特征在于，

通过配置比较器以及将计算转化至负数域，比较所述源数据的大小，获取所述源数据中的最大值。

4.根据权利要求1所述的一种基于线性分段的softmax硬件实现方法，其特征在于，

将区间压缩算法应用于所述e指数计算小数部分查找表参数压缩，具体实现方法如下：

；

式中，表示自然指数运算的输入；Q表示整数值；/>表示小数值；

；

式中，表示自然指数运算的输入；Q表示整数值；/>表示小数值。

5.根据权利要求1所述的一种基于线性分段的softmax硬件实现方法，其特征在于，

采用定点数实现，且小数点位置可配置，可根据输入特征选择合适的计算精度。

6.根据权利要求1所述的一种基于线性分段的softmax硬件实现方法，其特征在于，

所述除法计算分为一次求倒计算和至少两次除法计算。

7.一种基于线性分段的softmax硬件实现系统，用于实现权利要求1~6任意一项方法，其特征在于，具体包括：

控制器，被设置为实现softmax运算所需的源数据的读取和分发，以及运算结果的存储；

最大值模块，被设置为转换接收到的数据至负数域，并计算获得输入数据中的最大值；

自然指数模块，被设置为根据查找表和线性分段拟合方法，计算源数据的自然指数；

加法树模块，被设置为并行的将所有的自然指数计算结果进行求和；

8.根据权利要求7所述的一种基于线性分段的softmax硬件实现系统，其特征在于，

所述控制器进一步包括：有限状态机FSM、源数据地址产生模块、写结果地址产生模块、源数据分发模块、结果分发功能模块；

所述最大值模块由至少两个多路比较器构成，通过级联后得出数据的最大值；

所述自然指数模块采用流水线设计，流水深度为五级；第一级流水线进行数据整数部分和小数部分的拆分，第二级流水线进行整数部分数据查找和小数部分区间重映射，第三级流水线查找小数部分的线性分段参数并经过一次加法和乘法运算得出小数部分自然指数值，第四级流水线将整数部分结果与小数部分结果相乘，第五级流水线，将乘法结果移位还原；

所述加法树模块由至少两组级联的加法器组成；