CN110879697A

CN110879697A - 一种近似计算tanh函数的装置

Info

Publication number: CN110879697A
Application number: CN201911034169.8A
Authority: CN
Inventors: 潘红兵; 邱禹欧; 秦子迪; 王宇宣; 沈庆宏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-03-13
Anticipated expiration: 2039-10-29
Also published as: CN110879697B

Abstract

本发明公开了一种近似计算tanh函数的装置，包括输入补码选择单元、常数乘法单元、移位单元、特殊值产生单元、加法单元和输出补码选择单元。输入补码选择单元将输入自变量x映射到正数区间输出，常数乘法单元计算2.875×x的整数部分k与小数部分

特殊值产生单元产生

的近似值，移位单元得到

的两个部分值，加法单元计算Ω(k)与两个移位结果的和或差，输出补码选择单元将加法单元的结果转换到x对应的正数或负数区间输出。本发明的装置能实现近似计算tanh函数，在保持较高精度的同时，极大地降低了硬件架构的功耗、面积以及延时开销。

Description

一种近似计算tanh函数的装置

技术领域

本发明涉及超大规模集成电路设计领域，尤其涉及一种高速、高精度的计算tanh函数硬件装置。

背景技术

近年来，深度学习已成为解决图像识别、自然语言处理、自动驾驶等领域复杂问题的关键工具。而设计基于硬件的深度神经网络时，激活函数的实现成为了一大挑战。激活函数作为深度神经网络中的基本构件，由于其非线性的特点，在硬件中很难在进行高速计算的同时保持较理想的拟合精度。

Tanh函数是常见的一种激活函数，其取值范围为(-1,1)，均值为0，因此在特征相差明显的情况下效果很好，相比较于sigmoid函数其应用更为广泛。基于分段线性拟合的近似方法是目前在FPGA或VLSI中常用的tanh函数实现方法。然而这类方法为了维持理想的拟合精度，需要较多的硬件资源开销，例如需要使用大量查找表(Look_up Table)来存储分段函数的参数以及大量乘法器用于计算段内的函数值。这类近似tanh函数计算的硬件实现架构，不仅面积与功耗较高，计算的延时也不够理想。

发明内容

本发明旨在提供一种针对高精度的tanh函数近似计算的硬件装置，实现计算精度高且计算延时更低、功耗更少、面积更小的目的。

本发明的主要技术方案为：

一种近似计算tanh函数的装置，包括输入补码选择单元、常数乘法单元、移位单元、特殊值产生单元、加法单元和输出补码选择单元；所述输入补码选择单元，用于在自变量x＜0时，将x变换到正数区间并输入至常数乘法单元，其中自变量x取值范围为(-4,4)；所述常数乘法单元，用于计算输入补码选择单元的输出值与2.875的乘积的整数部分k值与小数部分

值，并将k值输入特殊值产生单元和移位单元，将

值和输入补码选择单元的输出值输入移位单元；所述特殊值产生单元，用于根据输入的k值产生

的近似值；所述移位单元，用于根据输入的k值将输入补码选择单元的输出值或常数乘法单元计算得到的

值进行两次移位得到

的两个部分值，移位系数分别为β1(k)＝2^-m1(k)和β2(k)＝2^-m2(k)，被移位数分别为α1和α2，两次移位的两个结果β1(k)×α1和β2(k)×α2分别表示将α1向右移m1(k)位和将α2向右移m2(k)位的结果，若k值为0，则被移位数α1和α2均为输入的输入补码选择单元的输出值；若k值为1，则被移位数α1和α2分别为输入的

值和输入补码选择单元的输出值；若k为其他值，则被移位数α1和α2均为输入的

值，移位单元将两个移位结果以及减法判断标志同时输出给加法单元；所述加法单元，用于计算(β1(k)×α1)+(β2(k)×α2)+Ω(k)的值或者(β1(k)×α1)-(β2(k)×α2)+Ω(k)的值，得到tanh(x)或tanh(-x)的近似值，并输出给输出补码选择单元；所述输出补码选择单元，用于根据自变量x的符号位输出计算结果，在自变量x＜0时，将tanh(-x)变换到负数区间输出。

进一步地，所述输入补码选择单元对自变量x的符号位进行判断：如果x是正数，则直接把自变量x的原码作为输出值输入至常数乘法单元；如果x是负数，则通过半加器阵列计算自变量x取反后加1的补码结果，然后将补码代替原码作为输出值输入至常数乘法单元。

进一步地，所述常数乘法单元通过计算二进制乘法10.111×x的值来计算乘积：将二进制乘法中(10×x)+(0.1×x)+(0.01×x)+(0.001×x)的运算过程，转换为(10×x)+(1×x)-(0.001×x)的运算。

进一步地，所述特殊值产生单元中，Ω(k)的二进制表示为如下公式：

该公式中的小数部分高位为k-1个1，随后k个0和k个1循环出现；对于Ω(k)小数中的每一比特位，列出其与4bit的k的逻辑真值表，用卡诺图化简法得到逻辑函数表达式，将每一比特位的逻辑函数表达式直接映射为组合逻辑得到Ω(k)的二进制表示中对应比特位的值。

进一步地，所述加法单元包括全加器阵列构成的进位保留加法器，首先将(β1(k)×α1)、(β2(k)×α2)和Ω(k)作为第一级全加器的三个输入计算得出每一位的和以及进位，第二级全加器的输入为第一级全加器低一位的进位、第一级全加器当前位的和以及第二级全加器低一位的进位，第二级全加器输出的和即为加法单元的输出值；其中，第二级全加器中最低位全加器输入的两个进位具体值根据减法判断标志进行选择，即判断两个移位结果(β1(k)×α1)和(β2(k)×α2)之间是计算加法还是减法，如果计算加法，则两个进位都为0；如果计算减法，则其中一个进位为1，另一个进位为0。

进一步地，如果自变量x是正数，所述输出补码选择单元直接把加法单元的结果加上符号位作为tanh(x)计算结果输出；如果自变量x是负数，则所述输出补码选择单元把加法单元的结果的补码加上符号位作为-tanh(-x)计算结果输出。

本发明提供了一种创新地计算tanh函数的装置，利用tanh函数在输入自变量

时函数值的特殊性，使用组合逻辑映射、移位近似运算和进位保留加法，避免了大量查找表、乘法器和普通加法器资源的消耗，从而在保持拟合计算结果精度较理想的条件下计算速度更快、硬件占用面积更小、功耗更低，能够更加符合目前深度神经网络的硬件设计趋势，更加适用于实时性高的嵌入式设备等应用场景。

附图说明

图1是本发明装置的架构图。

图2是输入补码选择单元中补码计算阵列的示意图。

图3是常数乘法单元内进位保留加法器的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明方案作进一步详细的说明。

本实施例采用如下公式对tanh函数进行近似：

其中，x为函数自变量，x∈(-4,4)，k为

的整数部分，k＝1,2,3…11。

在自变量x为负数即x＜0时，根据tanh函数关于原点对称的特点，将第三象限内的函数计算变化到第一象限内进行，即将x＜0区间内的输入转化为-x＞0区间的输入、将tanh(x)＜0的输出转化为tanh(-x)＞0输出。

在x∈[0,4)区间内，对tanh函数进行等间距分段，分段间距为

随后再通过公式(2)进行计算：

为了提高计算精度，本发明采用公式(3)计算区间

内的tanh(x)函数值：

在区间

采用如下公式对tanh函数进行近似：

本实施例的近似计算tanh函数的装置，其输入x的取值范围为(-4,4)，输出函数结果的取值范围为(-1,1)。整体硬件架构示意图如图1所示，主要包括以下顺序工作的六个模块，分别是输入补码选择单元、常数乘法单元、特殊值产生单元、移位单元、加法单元以及输出补码选择单元。输入补码选择单元的作用是，在自变量x＜0时，将x变换到正数区间输入。常数乘法单元用于计算

的近似值，即2.875×x的整数部分k与小数部分

特殊值产生单元用于根据输入k的值产生

的近似值。移位单元用于通过对

或x移位，计算

的的两个部分值，同时输出减法判断标志，该单元将

的的乘法运算近似为两个移位结果的相加或相减，从而避免了乘法器的使用，大大减少了硬件架构的功耗、面积与延时。加法单元用于计算(β1(k)×α1)±(β2(k)×α2)+Ω(k)的值，得到tanh(x)或tanh(-x)的近似值。输出补码选择单元的作用是，在自变量x＜0时，将tanh(-x)变换到负数区间输出。下面详细说明每个单元的功能以及具体实施过程：

如图1所示，本实施例中的输入x为11bit定点数，包括1bit符号位、2bit整数部分和8bit小数部分。首先在输入补码选择单元中，对输入x的符号位sign进行判断：如果sign为0，即x是正数，则直接把输入x的原码作为模块的输出送入下面的运算模块；如果sign为1，即x是负数，则通过如图2所示的半加器阵列计算x取反后加1的补码结果

半加器阵列中每个半加器有进位、和共两个输出，最低位半加器的输入为x的最低位和1，其余半加器的输入为x的对应位和低一位半加器的进位，半加器阵列的输出即为补码结果

然后将补码

代替原码x作为后续单元的输入进行计算。

经上述处理完成后的数据为不含符号位的10bit定点数，包括2bit整数部分和8bit小数部分。常数乘法单元将

的运算近似为2.875×x的运算，即计算二进制乘法10.111×x的值。随后将二进制乘法中(10×x)+(0.1×x)+(0.01×x)+(0.001×x)的运算过程，转换为“加加减”，即(10×x)+(1×x)-(0.001×x)，从而将四次移位、四个数相加的运算转换为两次移位、三个数相加的运算。具体的计算过程为：经过预处理后的数据在常数乘法单元中，通过组合逻辑直接映射的方式，完成数据“左移一位”以及“右移三位并取反”的计算；随后通过如图3所示的全加器阵列构成的进位保留加法器计算

与1的和，其中+1作为全加器阵列中第二级全加器最低位的进位来实现，从而有效降低了延时开销；最终完成如公式(5)的计算过程，从而得到

的近似值。结果的整数部分为4bit的k，取值范围为k＝1,2,3…11，小数部分即为

位宽为8bit。

特殊值产生单元中利用tanh函数在输入自变量

时函数值如公式(6)的规律：

即小数部分高位为k-1个1，随后k个0和k个循环出现。当

近似值的整数部分k计算完成后，直接根据

二进制表示小数中每一比特位与输入的4bit的k的真值表整理成逻辑函数表达式，映射为相应的组合逻辑，生成Ω(k)近似值的对应比特位，使得该模块在快速生成Ω(k)值的同时占用很少的硬件资源。考虑采用公式(4)优化后，当k＝0,1,2…11时，将Ω(k)的取值罗列如下：

Ω(0)＝tanh(0)＝0

Ω(2)＝tanh(ln2)＝0.1001 1001 1001 1001…

Ω(4)＝tanh(2ln2)＝0.1110 0001 1110 0001…

Ω(6)＝tanh(3ln2)＝0.1111 1000 0001 1111…

Ω(8)＝tanh(4ln2)＝0.1111 1110 0000 0001…

Ω(10)＝tanh(5ln2)＝0.1111 1111 1000 0000…

本实施例中取Ω(k)小数部分的高16位作为特殊值产生单元的输出。当k＝0,1,2…11时，

16bitΩ(k)的每一比特位与4bit的k值对应的逻辑函数表达式罗列如下：其中A=k[3]、B=

k[2]、C=k[1]、D=k[0]分别表示k值的四位，

分别表示k值的四位取反，Ω(k)[n]表示16bit的Ω(k)中的第n位。

Ω(k)[15]＝A+B+C

Ω(k)[14]＝A+B+D

Ω(k)[13]＝A+B

Ω(k)[1]＝BC

本实施例在移位单元中对k的大小进行判断：当k＝0时，将10bit的无符号数x作为被移位的数据α1和α2进行后续计算；当k＝1时，将10bit的无符号数x和8bit的小数数据

分别作为α1和α2进行移位；当k＞1时，仅8bit的小数数据

将作为被移位的数据α1和α2。即当k＝0时，按照公式(3)计算近似的函数值；当k＝1时，按照公式(4)计算；当k＞1时，按照公式(2)计算。

在移位单元中，本实施例的输入为4bit的k值、8bit的

值和10bit的无符号数x，计算的输出为两段移位的结果(β1(k)×α1)和(β2(k)×α2)，即

的两个部分值，以及1bit的减法判断位。当两个部分值相减才能得到tanh函数近似值时，即k＝0,3,4,5,6,7,8时，实际输出为(β1(k)×α1)的原码和(β2(k)×α2)的反码，且减法判断位Sub_sign为1。当k＝0,1,2…11时，将移位系数β1(k)和β2(k)的取值罗列如下，其中β2(k)前的负号在硬件中通过在移位映射时先取反，随后在加法单元中加一来实现：

β1(0)＝2⁰,β2(0)＝-2^-5

β1(1)＝2^-2,β2(1)＝2^-4

β1(2)＝2^-3,β2(2)＝2^-4

β1(3)＝2^-3,β2(3)＝-2^-6

β1(4)＝2^-4,β2(4)＝-2^-８

β1(5)＝2^-5,β2(5)＝-2^-10

β1(6)＝2^-6,β2(6)＝-2^-12

β1(7)＝2^-7,β2(7)＝-2^-14

β1(8)＝2^-8,β2(8)＝-2^-16

β1(9)＝2^-9,β2(9)＝0

β1(10)＝2^-10,β2(10)＝0

β1(11)＝2^-11,β2(11)＝0

加法单元的输入为1bit的减法判断位、两个16bit的tanh函数部分值和16bit的Ω(k)。三个16bit数的加法由类似于图3架构的全加器阵列组成的进位保留加法器实现，首先在第一级全加器中将(β1(k)×α1)、(β2(k)×α2)和Ω(k)三个输入压缩为“进位”与“和”，再在第二级全加器中使用行波进位加法进行相加，即第二级全加器的输入为第一级全加器低一位的进位、第一级全加器当前位的和以及第二级全加器低一位的进位，第二级全加器输出的和即为加法单元的输出值S。当两个部分和需要相减时，减法标志位为1，此时第二级全加器中最低位全加器输入的其中一个进位为1，另一个输入的进位为0，即可实现

的运算。进位保留加法器的使用进一步减小了计算的延迟。

本实施例中的进位保留加法器的结果S为12bit的无符号数。在输出补码选择单元中，通过原始数据的符号位sign判断：如果sign为0，即x是正数，则直接把进位保留加法器的结果S加上符号位作为tanh(x)计算结果输出；如果sign为1，即x是负数，则计算S的补码加上符号位得到实际的输出值-tanh(-x)。最终的输出结果为13bit的有符号定点数，包括1bit符号位和12bit小数数据。

Claims

1.一种近似计算tanh函数的装置，其特征在于，包括输入补码选择单元、常数乘法单元、移位单元、特殊值产生单元、加法单元和输出补码选择单元；

所述输入补码选择单元，用于在自变量x＜0时，将x变换到正数区间并输入至常数乘法单元，其中自变量x取值范围为(-4，4)；

所述常数乘法单元，用于计算输入补码选择单元的输出值与2.875的乘积的整数部分k值与小数部分

值，并将k值输入特殊值产生单元和移位单元，将

值和输入补码选择单元的输出值输入移位单元；

所述特殊值产生单元，用于根据输入的k值产生

的近似值；

所述移位单元，用于根据输入的k值将输入补码选择单元的输出值或常数乘法单元计算得到的

值进行两次移位得到

值，移位单元将两个移位结果以及减法判断标志同时输出给加法单元；

所述加法单元，用于计算(β1(k)×α1)+(β2(k)×α2)+Ω(k)的值或者(β1(k)×α1)-(β2(k)×α2)+Ω(k)的值，得到tanh(x)或tanh(-x)的近似值，并输出给输出补码选择单元；

所述输出补码选择单元，用于根据自变量x的符号位输出计算结果，在自变量x＜0时，将tanh(-x)变换到负数区间输出。

2.根据权利要求1所述的一种近似计算tanh函数的装置，其特征在于，所述输入补码选择单元对自变量x的符号位进行判断：如果x是正数，则直接把自变量x的原码作为输出值输入至常数乘法单元；如果x是负数，则通过半加器阵列计算自变量x取反后加1的补码结果，然后将补码代替原码作为输出值输入至常数乘法单元。

3.根据权利要求1所述的一种近似计算tanh函数的装置，其特征在于，所述常数乘法单元通过计算二进制乘法10.111×x的值来计算乘积：将二进制乘法中(10×x)+(0.1×x)+(0.01×x)+(0.001×x)的运算过程，转换为(10×x)+(1×x)-(0.001×x)的运算。

4.根据权利要求1所述的一种近似计算tanh函数的装置，其特征在于，所述特殊值产生单元中，Ω(k)的二进制表示为如下公式：

5.根据权利要求1所述的一种近似计算tanh函数的装置，其特征在于，所述加法单元包括全加器阵列构成的进位保留加法器，首先将(β1(k)×α1)、(β2(k)×α2)和Ω(k)作为第一级全加器的三个输入计算得出每一位的和以及进位，第二级全加器的输入为第一级全加器低一位的进位、第一级全加器当前位的和以及第二级全加器低一位的进位，第二级全加器输出的和即为加法单元的输出值；其中，第二级全加器中最低位全加器输入的两个进位具体值根据减法判断标志进行选择，即判断两个移位结果(β1(k)×α1)和(β2(k)×α2)之间是计算加法还是减法，如果计算加法，则两个进位都为0；如果计算减法，则其中一个进位为1，另一个进位为0。

6.根据权利要求1所述的一种近似计算tanh函数的装置，其特征在于，如果自变量x是正数，所述输出补码选择单元直接把加法单元的结果加上符号位作为tanh(x)计算结果输出；如果自变量x是负数，则所述输出补码选择单元把加法单元的结果的补码加上符号位作为-tanh(-x)计算结果输出。