CN112069455A

CN112069455A - 一种log-softmax函数硬件加速计算方法

Info

Publication number: CN112069455A
Application number: CN202010973909.0A
Authority: CN
Inventors: 张俊达; 何云鹏; 许兵
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2020-12-11

Abstract

一种log‑softmax函数硬件加速计算方法，包括以下步骤：将系统中存储的对数表查询区间设置为连续区间（a,b），a与b为区间端点；对log‑softmax函数中对数项进行拆分：使其拆分为‑p*lnk+lnc,p为乘法次数，最终使c落在区间（a,b）内;通过查表获取lnk和lnc的值，计算出log‑softmax函数。本发明在嵌入式应用有限的硬件资源下，将log‑softmax函数的指数计算分成多个查找表来计算，对数运算也通过公式等效查表计算获得，大大提高了log‑softmax运算的速度，减小了计算复杂度，所需硬件资源也大幅减小。采用这种方法的深度学习模型，在不影响识别效果的情况下，提高了响应速度和训练速度，节省大量硬件资源。

Description

一种log-softmax函数硬件加速计算方法

技术领域

本发明属于人工智能技术领域，涉及一种嵌入式算法,具体涉及一种log-softmax函数硬件加速计算方法。

背景技术

近年来，深度学习发展迅猛，log-Softmax函数在各种深度学习模型中经常作为训练或者预测的常用函数。log-Softmax计算主要包含指数和对数运算。这两种运算在硬件上实现会消耗大量计算资源，并且计算较慢。

目前关于指数运算和对数运算的方法有：查表法；CORDIC法。查表法是指实现将数值对应的计算结果存储下来，再通过rom寻址直接得到对应的计算结果。在等同规格定点数下查表法的精度较高，但是在大范围上进行计算时需要存储大量的结果，查找表的长度非常长，需要消耗大量资源，在资源有限的硬件平台上实现成本较高。CORDIC方法利用迭代特性，能够进行资源复用，占用资源比较少，迭代次数越多，精度越高，但是需要进行流水线改造，成本较高，并且由于其旋转角度限制，CORDIC方法的计算范围有限，不能计算大范围输入值的计算。

发明内容

为克服现有技术存在的缺陷，针对指数和对数运算的特性，为了克服现有技术的计算复杂度高，所需硬件资源多，计算速度慢的缺点；本发明公开了一种log-softmax函数硬件加速计算方法。

本发明所述log-softmax函数硬件加速计算方法，其特征在于，包括以下步骤：

S1.将系统中存储的对数表存储区间设置为连续区间[a,b]，a与b为区间端点；所述对数表还存储有lnk,k为处理系数, k为大于1的正整数；

S2.对log-softmax函数中对数项按照式1进行拆分：

----1；

对

求和得到y；

S3.检查y值是否存储在对数表中，是则直接查对数表计算；否则将y连续乘以或除以处理系数k并使连续相乘后的值c落在区间[a,b]内;使对数拆分为-m*lnk+lnc或m*lnk+lnc,m为乘法次数，m 的取值使c落在区间[a,b]内即可；

S4.通过查表获取lnk和lnc的值，计算出log-softmax函数。

具体的：所述步骤S3中，如果发现y值未存储在对数表中；

当y值大于b时，将y连续除以系数k;

当y值大于0小于a时，将y连续乘以系数k。

具体的：b-a不大于一。

具体的：a=0或1,b=a+1，k=2。

具体的：a=1,b=2。

本发明在嵌入式应用有限的硬件资源下，将log-softmax函数的指数计算分成多个查找表来计算，对数运算也通过公式等效查表计算获得，大大提高了log-softmax运算的速度，减小了计算复杂度，所需硬件资源也大幅减小。采用这种方法的深度学习模型，在不影响识别效果的情况下，提高了响应速度和训练速度，节省大量硬件资源。

附图说明

图1是本发明所述log-softmax函数硬件加速计算方法的一个具体实施方式流程示意图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

现有的log-softmax计算公式如下：

其中，e为自然常数，xi表示softmax的第i个数，xj表示softmax的第j个数，

表示从第1个

到第n个

的和，n为需要计算softmax函数的个数，ln表示求自然常数为底的对数，si表示第i个数xi的softmax结果。

针对指数和对数运算的特性，为了克服现有技术的计算复杂度高，所需硬件资源多，计算速度慢的缺点，本发明提供了一种log-softmax的加速计算的方法。实现过程如下：

S2.对log-softmax函数中对数项按照式1进行拆分：

----1；

对

求和得到y；

S4.通过查表获取lnk和lnc的值，计算出log-softmax函数。

首先计算

。根据指数计算的特性，可知

，其中a+b+c=

，拆分后的a,b,c分别作为查表的寻址地址来进行查表得到

，

，

，再将查表得到的值相乘得到最终自然指数结果然后进行累加和除法运算，最后需要计算对数函数。

由对数的运算特性可知

。

将原式中的除法运算部分转换为减法运算。

针对对数运算采用两种方式，使最终对数查表值落在设定的区间[a,b]内，该区间越小，存储的对数表数据量越小，对嵌入式设计计算硬件要求越低。通常可以设置区间长度不大于1，例如设定a=1,b=2,，或a=0,b=1。

①当

累加值大于1时，取k=1/2,将累加后的值

一直乘1/2至得到c，其中c为[1,2]之间，即除2一直至得到的商c大于1小于2,落入设定的区间[1,2]；

将累加值分解

，则

（j），其中

可以通过查表得到。

如果采用累加值直接查表，由于累加值为任意数，储存对应的对数表数据量巨大，通过将需要查表的c值缩小区间到[1,2]，对数表的储存数据量大幅减小。

②当累加值小于1大于0时，可以先乘以

使得

大于2，再按照①中的方式计算

，最后结果等于

，其中(m-v)小于0。

最后得到log-softmax的结果。

对于区间[a,b]的设置和k的具体值，主要考虑因素为对数值的查找表大小，由于ln(x)在0<x<1时，取值变化非常快，相同精度下需要的查找表消耗更多的资源。同时，当n取值越大，kⁿ⁺¹-kⁿ越大，查找表也越大。k越大，对应查找表也会增大。因此优选取k=2,n=0, a=1,b=2。理论上k取其他正整数也可以，不过考虑到硬件上都是二进制存储，加上对应查找表所占空间也较小，因此优先取k=2。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种log-softmax函数硬件加速计算方法，其特征在于，包括以下步骤：

S2.对log-softmax函数中对数项按照式1进行拆分：

----1；

对

求和得到y；

S4.通过查表获取lnk和lnc的值，计算出log-softmax函数。

2.根据权利要求1所述的log-softmax函数硬件加速计算方法，其特征在于：所述步骤S3中，如果发现y值未存储在对数表中；

当y值大于b时，将y连续除以系数k;

当y值大于0小于a时，将y连续乘以系数k。

3.根据权利要求1所述的log-softmax函数硬件加速计算方法，其特征在于：b-a不大于一。

4.根据权利要求1或2所述的log-softmax函数硬件加速计算方法，其特征在于：a=0或1,b=a+1，k=2。