CN112051980A

CN112051980A - 一种基于牛顿迭代法的非线性激活函数计算装置

Info

Publication number: CN112051980A
Application number: CN202011090563.6A
Authority: CN
Inventors: 姜晓红; 潘哲; 马德; 朱国权; 郝康利
Original assignee: Zhejiang University ZJU; Zhejiang Lab
Current assignee: Zhejiang University ZJU; Zhejiang Lab
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2020-12-08
Anticipated expiration: 2040-10-13
Also published as: CN112051980B

Abstract

本发明公开了一种基于牛顿迭代法的非线性激活函数计算装置，包括：多项式近似计算单元，用于对非线性激活函数进行多项式近似计算，得到第一近似结果；指数函数计算单元，用于对非线性激活函数中的指数部分进行指数函数的近似计算，得到第二近似结果；牛顿迭代计算单元，依据第一近似结果和第二近似结果采用牛顿迭代法进行迭代计算，得到精确计算结果。该非线性激活函数计算装置适用于定点数计算，在资源消耗较少地情况下实现了高精度的计算，以满足神经网络模型中激活函数高效准确且降低计算能耗的需求。

Description

一种基于牛顿迭代法的非线性激活函数计算装置

技术领域

本发明涉及计算机人工智能领域，集成电路设计领域，具体涉及一种基于牛顿迭代法的非线性激活函数计算装置。

背景技术

在人工智能领域中，线性模型的表达能力不够，往往通过激活函数增加神经网络模型的非线性，提升神经网络模型表达能力，该数据常常线性不可分。常见的激活函数例如sigmoid，tanh等都涉及到指数函数运算以及除法运算，软件上常通过迭代的算法不断尝试去逼近真实值，而这些函数在硬件上难以直接实现。

随着人工智能的广泛应用，许多深度学习硬件加速器应运而生。为了高效实现该计算过程，在集成电路设计领域，会对各种激活函数进行硬件实现。对非线性激活函数而言，硬件实现需要对硬件资源，计算精度，计算效率和计算延时进行有效权衡。简单高效地硬件实现能够在误差允许的范围内使用较少地资源完成快速计算的目的。在集成电路领域，计算元件常常包括加法器，乘法器，移位器，逻辑运算器等。这些元器件只能完成线性变换操作，不能实现指数函数等复杂函数。与ReLU等激活函数相比，sigmoid、tanh等函数复杂程度很高，较难设计实现。

申请公布号为CN107589935A的专利申请公开一种非线性函数计算装置及方法，申请公布号为CN107590105B的专利申请公开了一种面向非线性函数的计算装置及方法，这两个专利申请中均将非线性函数转化为线性函数，通过加法器和乘法器来计算，是一个低精度近似计算，计算精度不高，不满足神经网络模型中激活函数的计算需求。

发明内容

本发明的目的是提供一种基于牛顿迭代法的非线性激活函数计算装置，以解决神经网络模型中激活函数难以高效准确计算的问题。

为实现上述发明的，本发明提供以下技术方案：

一种基于牛顿迭代法的非线性激活函数计算装置，包括：

多项式近似计算单元，用于对非线性激活函数进行多项式近似计算，得到第一近似结果；

指数函数计算单元，用于对非线性激活函数中的指数部分进行指数函数的近似计算，得到第二近似结果；

牛顿迭代计算单元，依据第一近似结果和第二近似结果采用牛顿迭代法进行迭代计算，得到精确计算结果。

优选地，多项式近似单元中，对非线性激活函数的有效计算区间进行区段划分，根据输入变量所属区段提取对应的多项式参数并依据该多项式参数进行多项式近似计算，得到第一近似结果；所述多项式参数为事先多项式拟合得到的。

优选地，所述多项式近似单元中包括用于存储多项式参数的存储器、加法器和乘法器，来实现多项式近似计算。

优选地，所述非线性激活函数的有效计算区间为[0,8)，并将效计算区间[0,8)划分为8个区段，针对每个区段的两个端点值存储区段内的多项式参数，当计算时，直接根据输入变量所属的区段查找得到对应的多项式参数。

优选地，所述指数函数计算单元采用表驱动(table-driven)的近似策略来对非线性激活函数中的指数部分进行指数函数近似计算，得到第二近似结果。

优选地，所述指数函数计算单元采用表驱动的近似策略对非线性激活函数中的指数部分e^x进行指数函数近似计算时，将指数部分e^x拆分成三部分乘积的形式，即

其中，s是划分常数，根据设计取2的整数幂，m,n均为整数，n<s，j是小于1/s的余项；

针对前项2^m通过移位操作计算；

针对中间项

通过查找表方式提取划分常数s进行计算；

针对后项e^jln2，采用泰勒级数展开，利用二次多项式进行近似计算。

优选地，所述指数函数计算单元中包含用于存储划分常数s的存储器、乘法器、加法器、移位操作，来实现指数函数近似计算。

优选地，牛顿迭代计算单元中，针对形如

的非线性激活函数，其中p₀，p₁，p₂均为常参数，采用如下公式对第一近似结果和第二近似结果进行迭代计算，得到精确计算结果：

其中，y₀表示第一近似结果，e^-x表示第二近似结果。

优选地，所述牛顿迭代计算单元中包括加法器和乘法器和减法器，用来对第一近似结果和第二近似结果进行迭代计算，得到精确计算结果。

与现有技术相比，本发明具有的有益效果至少包括：

该非线性激活函数计算装置中，采用多项式近似计算单元对非线性激活函数进行多项式近似计算获得低精度的第一近似结果，同时采用指数函数计算单元对非线性激活函数中的指数部分进行近似计算得到低精度的第二近似结果，最好采用牛顿迭代计算单元对第一近似结果和第二近似结果进行牛顿近似计算，得到精确的计算结果。该装置适用于定点数计算，在资源消耗较少地情况下实现了高精度的计算，以满足神经网络模型中激活函数高效准确且降低计算能耗的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明提供的基于牛顿迭代法的非线性激活函数计算装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

实施例提供的非线性激活函数计算装置包括多项式近似计算单元、指数函数计算单元以及牛顿迭代计算单元。

实施例提供的非线性激活函数计算装置主要适用于对形如

的非线性激活函数的计算，其中p₀,p₁,p₂均为常参数。例如

等非线性激活函数，这些非线性激活函数图像一般呈现S型，且呈中心对称，输入变量在某一边界之外，可近似看作常数。针对sigmoid(x)函数，当输入变量x>＝8时，函数近似为1，同时图像关于(0,0.5)点中心对称，于是只需要近似计算[0,8)之间的函数值即可得到定义域R上的函数值，记[0,8)为有效计算区间。

所述多项式近似计算单元用于对非线性激活函数进行低精度拟合，具体地，可将将有效计算区间等分为8或16个区段，每个区段中可采用线性函数或二次函数等多项式进行拟合。具体在实现过程中，可以选择将有效计算区间[0,8)等分为8个区段，每一区段内用线性函数对原非线性多项式进行拟合。对于第i区间，对应的线性函数为f(x)＝k_ix+b_i，对于落在第个i区间内的输入变量x，从ROM中查找得到与输入变量x对应的多项式参数k_i与b_i，利用该多项式参数k_i与b_i进行线性函数f(x)＝k_ix+b_i的低精度近似计算，得到第一近似结果。

本实施例中，可以通过第i区间的左右端点可确定多项式参数k_i与b_i，该些多项式参数事先计算好存入ROM中，在实施过程中，可直接选择输入x的2²，2¹，2⁰位进行地址选择。该多项式近似计算单元中采用多项式近似计算，仅仅涉及到乘法与加法，即在多项式近似单元的硬件采用加法器和乘法器，即可以来实现多项式近似计算。考虑到硬件资源的消耗，在精度偏差不大的情况下，可以选择采用线性函数进行拟合。通常，线性拟合的平均误差范围在千分位数量级即可。不必刻意追求初次精度，牛顿迭代将会对精度有较大提升。

指数函数计算单元中，可以选择采用table-driven的近似策略。对于指数函数e^x的近似计算，令

其中s是划分常数，根据设计取2的整数幂，m,n均为整数，n<s，j是小于1/s的余项。则

该策略将指数函数的近似计算拆分为3个易于硬件实现的部分乘积的形式。其中前项2^m在硬件中可通过移位操作实现；中间项

可事先计算所有的s种结果，存入ROM中，通过查找表的方式实现；余项e^jln2中指数部分jln2趋近于0，可以使用泰勒级数展开，忽略高次项的方式进行实现，以得到第二近似结果。s的选择涉及到存储参数的位宽，可选择8。余项e^jln2可以采用二次多项式

进行近似，令x＝jln2得到近似解。整体上通过少量查找表，乘法，加法以及移位操作实现指数函数的近似计算，易与硬件实现。考虑到硬件资源的使用情况，精度要求仍无须太高，精确到千分位即可。

牛顿迭代计算单元中，针对sigmoid函数

构造函数为：

则根据以下公式对对第一近似结果和第二近似结果进行牛顿迭代法，得到精确计算结果：

其中，y₀由分段多项式近似计算得到的第一近似结果，指数部分e^-x由指数函数近似计算得到的第二近似结果，迭代后的结果具有高精度的效果。对原函数进行多项式近似计算与对指数函数的指数近似计算精度的初次要求不高，通过牛顿迭代法也能得到较高精度的近似解。

牛顿迭代公式中均可通过乘法、加法以及减法实现，即仅仅通过加法器、乘法器以及减法器即可以得到精确结果。其中，针对有效区间[0,8)，指数函数计算结果小于1，与1进行相加，指数函数带来的误差将会进一步掩盖。牛顿迭代公式能够对计算精度有极大提升，达到较好的近似效果。

在实现过程中，多项式近似计算过程和指数函数近似计算过程互不相关，可并行同时计算，整个非线性激活函数计算装置可布置成流水线架构，能够更好地适应对神经网络加速器所产生的流数据进行统一地非线性激活函数处理。该非线性激活函数计算装置可以很好地进行流水线设计，并行设计。

图1是实施例提供的基于牛顿迭代法的非线性激活函数计算装置的结构示意图。主要针对为sigmoid函数针对有效区间[0,8)范围内的硬件设计。

分段多项式近似计算单元(PWL)采用线性函数进行拟合，对参数进行查表，进行一次乘法和加法运算，得到y₀：

y₀＝kx+b

指数函数计算单元(EXP)中将指数函数扩展采用table-driven的方式。将x拆分成三个部分，此处简化表示，m为

的整数部分，n对应中间查表项，j对应余项。于是可得e^-x的计算公式：

x＝mln2+n+j

前项2^-m转化为移位操作，中间项e^-n通过查表实现，后项e^-j用两阶级数展开实现。

牛顿迭代计算单元(NR)按照算法对上述两个模块产生的结果进行运算。

图1中所示的黑色竖线是虚拟的latch，用于区别流水线状态，整体设计可以采用流水线的方式实现，流水线的发射间隔interval是1，执行周期延时latency是7。

上述非线性激活函数计算装置中，采用多项式近似计算单元对非线性激活函数进行多项式近似计算获得低精度的第一近似结果，同时采用指数函数计算单元对非线性激活函数中的指数部分进行近似计算得到低精度的第二近似结果，最好采用牛顿迭代计算单元对第一近似结果和第二近似结果进行牛顿近似计算，得到精确的计算结果。该装置适用于定点数计算，在资源消耗较少地情况下实现了高精度的计算，以满足神经网络模型中激活函数高效准确且降低计算能耗的需求。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于牛顿迭代法的非线性激活函数计算装置，其特征在于，包括：

2.如权利要求1所述的基于牛顿迭代法的非线性激活函数计算装置，其特征在于，牛顿迭代计算单元中，针对形如

其中，y₀表示第一近似结果，e^-x表示第二近似结果。

3.如权利要求2所述的基于牛顿迭代法的非线性激活函数计算装置，其特征在于，所述牛顿迭代计算单元中包括加法器和乘法器和减法器，用来对第一近似结果和第二近似结果进行迭代计算，得到精确计算结果。

4.如权利要求2所述的基于牛顿迭代法的非线性激活函数计算装置，其特征在于，所述指数函数计算单元采用表驱动的近似策略来对非线性激活函数中的指数部分进行指数函数近似计算，得到第二近似结果。

5.如权利要求3所述的基于牛顿迭代法的非线性激活函数计算装置，其特征在于，所述指数函数计算单元采用表驱动的近似策略对非线性激活函数中的指数部分e^x进行指数函数近似计算时，将指数部分e^x拆分成三部分乘积的形式，即

针对前项2^m通过移位操作计算；

针对中间项

通过查找表方式提取划分常数s进行计算；

6.如权利要求5所述的基于牛顿迭代法的非线性激活函数计算装置，其特征在于，所述指数函数计算单元中包含用于存储划分常数s的存储器、乘法器、加法器、移位操作，来实现指数函数近似计算。

7.如权利要求1所述的基于牛顿迭代法的非线性激活函数计算装置，其特征在于，多项式近似单元中，对非线性激活函数的有效计算区间进行区段划分，根据输入变量所属区段提取对应的多项式参数并依据该多项式参数进行多项式近似计算，得到第一近似结果；所述多项式参数为事先多项式拟合得到的。

8.如权利要求7所述的基于牛顿迭代法的非线性激活函数计算装置，其特征在于，所述多项式近似单元中包括用于存储多项式参数的存储器、加法器和乘法器，来实现多项式近似计算。

9.如权利要求7所述的基于牛顿迭代法的非线性激活函数计算装置，其特征在于，所述非线性激活函数的有效计算区间为[0,8)，并将效计算区间[0,8)划分为8或16个区段，针对每个区段的两个端点值存储区段内的多项式参数，当计算时，直接根据输入变量所属的区段查找得到对应的多项式参数。