CN113377332B - 一种基于线性分段的softmax硬件实现方法 - Google Patents

一种基于线性分段的softmax硬件实现方法 Download PDF

Info

Publication number
CN113377332B
CN113377332B CN202110591328.5A CN202110591328A CN113377332B CN 113377332 B CN113377332 B CN 113377332B CN 202110591328 A CN202110591328 A CN 202110591328A CN 113377332 B CN113377332 B CN 113377332B
Authority
CN
China
Prior art keywords
result
source data
calculation
module
natural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110591328.5A
Other languages
English (en)
Other versions
CN113377332A (zh
Inventor
李丽
龙威
傅玉祥
宋文清
周禹辰
陈铠
李伟
何书专
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110591328.5A priority Critical patent/CN113377332B/zh
Publication of CN113377332A publication Critical patent/CN113377332A/zh
Application granted granted Critical
Publication of CN113377332B publication Critical patent/CN113377332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/491Computations with decimal numbers radix 12 or 20.
    • G06F7/498Computations with decimal numbers radix 12 or 20. using counter-type accumulators
    • G06F7/4981Adding; Subtracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/491Computations with decimal numbers radix 12 or 20.
    • G06F7/498Computations with decimal numbers radix 12 or 20. using counter-type accumulators
    • G06F7/4983Multiplying; Dividing
    • G06F7/4988Multiplying; Dividing by table look-up
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/57Arithmetic logic units [ALU], i.e. arrangements or devices for performing two or more of the operations covered by groups G06F7/483 – G06F7/556 or for performing logical operations
    • G06F7/575Basic arithmetic logic units, i.e. devices selectable to perform either addition, subtraction or one of several logical operations, using, at least partially, the same circuitry
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提出了一种基于线性分段的softmax硬件实现方法,该方法实现的电路系统包括:控制器用于实现softmax运算所需的源数据的读取和分发,以及运算结果的存储;排序模块用于将输入进行排序,并找出最大值;自然指数模块用于计算输入源数据的e指数函数值;加法树模块用于将e指数模块的结果进行累加;除法模块用于计算每个e指数计算结果与累加结果的比值。该方法实现的电路系统通过分解计算过程、压缩计算区间,大幅降低了传统查找表方法实现softmax的参数,兼具了高性能和低硬件资源开销,可用于各种人工智能算法加速场景。

Description

一种基于线性分段的softmax硬件实现方法
技术领域
本发明涉及一种基于线性分段的softmax硬件实现方法,特别是涉及深度学习硬件加速技术领域。
背景技术
深度学习的概念在2006年被正式提出,此后经过多年迅速发展,逐渐在语音识别、机器翻译、图像识别、自动驾驶等领域有了重要应用。而CPU、GPU等硬件平台部署深度学习算法时,计算并行度低、功耗高难以满足实际应用场景,因此需要为深度学习算法设计专用的硬件加速电路。
Softmax是深度学习常用的激活函数之一,用于多分类问题。该函数将多个输入映射到(0,1)的区间上,从而实现概率分布。而其中的自然指数模块需要消耗大量的硬件资源和计算周期,难以用硬件实现。现有的softmax实现方法中,cordic算法需要多次迭代,计算周期较长;传统查找表方法需要大量存储资源,且从存储器中取数花费较多时间;线性分段同样需要大量存储空间,且计算精度不高。
发明内容
发明目的:提出一种基于线性分段的softmax硬件实现方法,以解决现有技术存在的上述问题,同时,弥补传统softmax实现的不足,解决softmax难以在硬件部署的问题。
技术方案:第一方面,提出了一种基于线性分段的softmax硬件实现方法,该方法具体包括以下步骤:
对源数据进行读取和分发;
通过计算获取源数据中的最大值;
结合查找表和线性分段拟合方法,计算源数据的自然指数;
并行输入源数据的自然指数并进行累加操作;
结合除法计算得到最终的输出结果;
接收输出的结果,并按顺序存入双倍速率同步动态随机存储器中。
在第一方面的一些可实现方式中,对所述源数据进行读取的过程进一步为:从双倍速率同步动态随机存储器中读取源数据,并按照顺序存入存储阵列源数据区的内存库中。
对所述源数据进行分发的过程进一步为:从所述内存库中取出一个数,进行并行计算。
在第一方面的一些可实现方式中,通过配置比较器以及将计算转化至负数域,比较所述源数据的大小,获取所述源数据中的最大值。
在第一方面的一些可实现方式中,所述自然指数的获取方式进一步为:
输入获取的新数据;所述新数据为去除所述最大值的源数据;
根据整数位宽参数,将所述新数据拆分为整数部分和小数部分;
对所述新数据进行整数部分的e指数结果查找和小数部分区间重映射;
查找所述小数部分的线性分段参数;
计算所述小数部分的e指数结果;
计算整数部分e指数结果和小数部分e指数结果乘积,对乘法结果进行移位还原。
其中,所述e指数计算包括整数部分和小数部分;
所述整数部分采用直接查找;
所述小数部分采用分段拟合的方式。
在第一方面的一些可实现方式中,将区间压缩算法应用于所述e指数计算小数部分查找表参数压缩,具体实现方法如下:
X=Qln2+γ
eX=eQin2+=eQln2·eγ=2Q·eγ
式中,X表示自然指数运算的输入;Q表示整数值;γ表示小数值;
同时在此基础上优化区间算法,将查找表参数进一步减少,具体实现方法如下:
式中,X表示自然指数运算的输入;Q表示整数值;γ表示小数值。
在第一方面的一些可实现方式中,采用定点数实现,且小数点位置可配置,可根据输入特征选择合适的计算精度。
所述除法计算分为一次求倒计算和至少两次除法计算。
第二方面,提出一种基于线性分段的softmax硬件实现系统,该系统具体包括:
控制器,被设置为实现softmax运算所需的源数据的读取和分发,以及运算结果的存储。
最大值模块,被设置为转换接收到的数据至负数域,并计算获得输入数据中的最大值。
自然指数模块,被设置为根据查找表和线性分段拟合方法,计算源数据的自然指数。
加法树模块,被设置为并行的将所有的自然指数计算结果进行求和。
除法模块,被设置为计算每个自然指数计算结果与累加结果的比。
在第二方面的一些可实现方式中,所述控制器进一步包括:有限状态机FSM、源数据地址产生模块、写结果地址产生模块、源数据分发模块、结果分发功能模块。
所述最大值模块由至少两个多路比较器构成,通过级联后得出数据的最大值。
所述自然指数模块采用流水线设计,流水深度为五级;第一级流水线进行数据整数部分和小数部分的拆分,第二级流水线进行整数部分数据查找和小数部分区间重映射,第三级流水线查找小数部分的线性分段参数并经过一次加法和乘法运算得出小数部分自然指数值,第四级流水线将整数部分结果与小数部分结果相乘,第五级流水线,将乘法结果移位还原。
所述加法树模块由至少两组级联的加法器组成。
所述除法模块首先求出累加结果的倒数,然后逐一和每个自然指数结果做乘法计算。
有益效果:本发明提出了一种基于线性分段的softmax硬件实现方法,首先,实现了一种高性能的softmax定点数硬件电路,同时可进行深度学习中softmax激活函数的运算,且整数和小数位宽可配置,适应不同精度要求。并且计算范围和计算精度具有很好的可拓展性。
其次,通过一种综合使用查找表与分段线性拟合实现自然指数计算的硬件实现方法,并采用流水线和多路并行的设计方式,满足了深度学习应用的硬件要求。
再次,利用一种优化区间压缩算法的方法,将相同精度下的存储资源消耗进一步减小。
从次,仅需少量查找表数据即可实现softmax运算,数据可存储于寄存器中,无需额外存储器件。且数据查找与乘法加法运算可在同一时钟周期进行,运算速度快。
最后,本发明只涉及乘法和加法运算,易于硬件实现,在有较高性能的同时,计算复杂度低且硬件资源消耗少。
因此,综上所述,本发明可在较少的硬件资源消耗下,实现softmax高性能高精度的运算,有良好的实际应用价值。
附图说明
图1为本发明的源数据读取示意图。
图2是本发明的结果数据存储示意图。
图3是本发明的softmax硬件电路结构图。
图4是本发明的softmax计算流程图。
具体实施方式
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
在一个实施例中,提出一种基于线性分段的softmax硬件实现方法,具体划分为以下步骤:
步骤一、对源数据进行读取和分发。
具体的,从双倍速率同步动态随机存储器取出源数据,并按顺序存入存储阵列源数据区的内存库中。每次从各个内存库中分别取出一个数进行并行计算。源数据的读取采用乒乓操作,在本次源数据读取的同时进行上次源数据运算,加快了数据读取速度,具体读取过程如图1所示。
步骤二、通过计算获取源数据中的最大值。
具体的,通过配置比较器以及将计算转化至负数域,比较所述源数据的大小,获取所述源数据中的最大值。通过将计算转化至负数域,扩大了计算范围,且对硬件实现更加友好。
在进一步的实施例中,将输入转入负数域进行计算时,将分子分母的指数同时减去输入最大值,并不影响最终结果,即:
式中,xmax表示源数据中的最大值;xi表示第i个源数据。通过输入转入负数域进行计算可防止在e指数计算时出现数据溢出,同时减少了整数部分的查找表,可以用同样的存储资源获取更高的精度。
步骤三、结合查找表和线性分段拟合方法,计算源数据的自然指数。
具体的,首先对源数据进行数据预处理,将源数据减去最大值,从而获得新的数据输入;其次,根据整数位宽参数,将输入数据拆分为整数部分和小数部分;再次,进行整数查找和小数区间重映射,从查找表整数部分对应自然指数函数值,并判断小数部分大小,进行区间重映射。若小数部分大于则减去ln2映射到/>中,左移标志位置1;若小数部分小于/>则加上ln2映射到/>中,右移标志位置1;从次,从查找表取出小数部分线性分段参数,计算小数部分自然指数值。最后,将整数部分的自然指数值与小数部分的自然指数值相乘,作为最终输出的预备结果。由于前期进行了小数部分的区间重映射,因此需要将预备结果进行移位还原,才能得出自然指数计算的正确结果。
其中,采用定点数实现,且小数点位置可配置,可根据输入特征选择合适的计算精度。
在进一步的实施例中,将源数据e指数的计算拆分为整数部分M和小数部分N的计算过程为:
ex=eM+N=eM·eN
对于整数M部分用直接存储函数值的策略建立查找表。整数部分查找表的查找起点为M=-2,查找点集合为{M|M≤-2,M∈Z},即小于等于-2的负整数,在具体实施中可根据系统位宽自由调整可查找的范围大小。对于16bit定点数系统,最小可保存的自然指数值为e-1。由于小数和整数的分离,计算范围的拓展变得非常方便,只需要在位宽允许的情况下增加整数部分查找值。对于小数N部分用线性分段的策略建立查找表,存储其各线性分段区间的斜率值k和截距值b,则第i个区间的softmax值为:
softmax(N)=N·ki+bi
小数部分查找表的查找范围为(-1,1]。具体存储的参数数量根据实施时划分的区间大小确定。同样的,由于小数和整数的分离,计算精度的拓展也会变得非常方便,只需要将小数部分的分段区间划分的更精细即可。综合整数和小数部分的查找表,即可实现整个负数域上的自然指数计算,实际计算范围受电路位宽限制。该策略与传统线性分段方法相比,可将查找表数据量从M×Number减少到M+Number量级(Number为小数部分分区数量),存储少量数据即可获取较高的精度。在传统查找表或者线性分段方法中,数据量庞大,从存储设备中获取参数值占据了大量计算时间。对于所述softmax硬件实现方法而言,查找表参数可固化在计算电路中,数据查找和乘法加法计算可在同一时钟周期完成,提高了运算速度。
在进一步的实施例中,传统的区间压缩算法将自然指数运算的输入X先映射到[-ln2,ln2]再进行指数计算,具体做法为取一个整数值Q和小数值γ用于表示X,其关系如下式所示:
X=Oln2+γ
最后的e指数结果通过移位还原:
eX=eQkn2+γ=eQln2·eγ=2Q·eγ
本实施例将区间压缩算法应用于所述e指数计算小数部分查找表参数压缩,进一步将映射区间压缩到了并将其应用到小数部分的参数优化,具体实现方法如下:
先应用传统区间压缩方法,将小数部分需要存储的参数区间(-1,1]压缩到[-ln2,ln2]。压缩后的区间可以分为三个部分:[-ln2,-1/2ln2]、[-1/2ln2,1/2ln2]、[1/2ln2,ln2]。[1/2ln2,ln2]中的数可以映射到[-1/2ln2,0]中。把γ的取值减去ln2,Q的取值加1,如公式所示:
同理可将[-ln2,-1/2ln2]的值映射到[0,1/2ln2]。由此将小数部分e指数的查找区间压缩至
步骤四、并行输入源数据的自然指数并进行累加操作。
具体的,将步骤三中计算出的自然指数结果并行的进行累加操作,并将得出累加结果作为除法计算的分母。
步骤五、结合除法计算得到最终softmax的输出结果。
具体的,计算步骤四中加法结果的倒数,将步骤三中所有源数据的e指数函数值与倒数值分别相乘得出最终的数据输出。另外,除法计算分为一次求倒计算和多次除法计算
步骤六、接收输出的结果,并按顺序存入双倍速率同步动态随机存储器中,如图2所示。
综上所述,本实施例的softmax的定点数运算硬件电路,综合运用查找表和线性分段的实现方法,并将优化的区间压缩算法应用在自然指数的运算。在较少的存储资源消耗下,可实现较高的计算精度和较快的运算速度,且计算精度可配置,有较高的应用潜力。
在一个实施例中,提出一种基于线性分段的softmax硬件实现系统,用于实现提出一种基于线性分段的softmax硬件实现方法,如图3所示,该系统具体包括:
控制器,被设置为实现如图4所示的softmax运算所需的源数据的读取和分发,以及运算结果的存储。
最大值模块,被设置为转换接收到的数据至负数域,并计算获得输入数据中的最大值。
自然指数模块,被设置为根据查找表和线性分段拟合方法,计算源数据的自然指数。
加法树模块,被设置为并行的将所有的自然指数计算结果进行求和。
除法模块,被设置为计算每个自然指数计算结果与累加结果的比。
具体的,所述控制器进一步包括但不限于:有限状态机FSM模块、源数据地址产生模块、写结果地址产生模块、源数据分发模块、结果分发功能模块。
所述最大值模块由至少两个多路比较器构成,通过级联后得出数据的最大值。
所述自然指数模块采用流水线设计,流水深度为五级。第一级流水线进行数据整数部分和小数部分的拆分,第二级流水线进行整数部分数据查找和小数部分区间重映射,第三级流水线查找小数部分的线性分段参数并经过一次加法和乘法运算得出小数部分自然指数值,第四级流水线将整数部分结果与小数部分结果相乘,第五级流水线,将乘法结果移位还原。
所述加法树模块由至少两组级联的加法器组成。
所述除法模块首先求出累加结果的倒数,然后逐一和每个自然指数结果做乘法计算。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上做出各种变化。

Claims (8)

1.一种基于线性分段的softmax硬件实现方法,其特征在于,具体包括以下步骤:
对源数据进行读取和分发;
通过计算获取源数据中的最大值;
结合查找表和线性分段拟合方法,计算源数据的自然指数;
并行输入源数据的自然指数并进行累加操作;
结合除法计算得到最终的输出结果;
接收输出的结果,并按顺序存入双倍速率同步动态随机存储器中;
所述自然指数的获取方式进一步为:
输入获取的新数据;所述新数据为去除所述最大值的源数据;
根据整数位宽参数,将所述新数据拆分为整数部分和小数部分;
对所述新数据进行整数部分的e指数结果查找和小数部分区间重映射;
查找所述小数部分的线性分段参数;
计算所述小数部分的e指数结果;
计算整数部分e指数结果和小数部分e指数结果乘积,对乘法结果进行移位还原;
所述e指数计算包括整数部分和小数部分;
所述整数部分采用直接查找;
所述小数部分采用分段拟合的方式。
2.根据权利要求1所述的一种基于线性分段的softmax硬件实现方法,其特征在于,
对所述源数据进行读取的过程进一步为:从双倍速率同步动态随机存储器中读取源数据,并按照顺序存入存储阵列源数据区的内存库中;
对所述源数据进行分发的过程进一步为:从所述内存库中取出一个数,进行并行计算。
3.根据权利要求1所述的一种基于线性分段的softmax硬件实现方法,其特征在于,
通过配置比较器以及将计算转化至负数域,比较所述源数据的大小,获取所述源数据中的最大值。
4.根据权利要求1所述的一种基于线性分段的softmax硬件实现方法,其特征在于,
将区间压缩算法应用于所述e指数计算小数部分查找表参数压缩,具体实现方法如下:
式中,表示自然指数运算的输入;Q表示整数值;/>表示小数值;
同时在此基础上优化区间算法,将查找表参数进一步减少,具体实现方法如下:
式中,表示自然指数运算的输入;Q表示整数值;/>表示小数值。
5.根据权利要求1所述的一种基于线性分段的softmax硬件实现方法,其特征在于,
采用定点数实现,且小数点位置可配置,可根据输入特征选择合适的计算精度。
6.根据权利要求1所述的一种基于线性分段的softmax硬件实现方法,其特征在于,
所述除法计算分为一次求倒计算和至少两次除法计算。
7.一种基于线性分段的softmax硬件实现系统,用于实现权利要求1~6任意一项方法,其特征在于,具体包括:
控制器,被设置为实现softmax运算所需的源数据的读取和分发,以及运算结果的存储;
最大值模块,被设置为转换接收到的数据至负数域,并计算获得输入数据中的最大值;
自然指数模块,被设置为根据查找表和线性分段拟合方法,计算源数据的自然指数;
加法树模块,被设置为并行的将所有的自然指数计算结果进行求和;
除法模块,被设置为计算每个自然指数计算结果与累加结果的比。
8.根据权利要求7所述的一种基于线性分段的softmax硬件实现系统,其特征在于,
所述控制器进一步包括:有限状态机FSM、源数据地址产生模块、写结果地址产生模块、源数据分发模块、结果分发功能模块;
所述最大值模块由至少两个多路比较器构成,通过级联后得出数据的最大值;
所述自然指数模块采用流水线设计,流水深度为五级;第一级流水线进行数据整数部分和小数部分的拆分,第二级流水线进行整数部分数据查找和小数部分区间重映射,第三级流水线查找小数部分的线性分段参数并经过一次加法和乘法运算得出小数部分自然指数值,第四级流水线将整数部分结果与小数部分结果相乘,第五级流水线,将乘法结果移位还原;
所述加法树模块由至少两组级联的加法器组成;
所述除法模块首先求出累加结果的倒数,然后逐一和每个自然指数结果做乘法计算。
CN202110591328.5A 2021-05-28 2021-05-28 一种基于线性分段的softmax硬件实现方法 Active CN113377332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110591328.5A CN113377332B (zh) 2021-05-28 2021-05-28 一种基于线性分段的softmax硬件实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110591328.5A CN113377332B (zh) 2021-05-28 2021-05-28 一种基于线性分段的softmax硬件实现方法

Publications (2)

Publication Number Publication Date
CN113377332A CN113377332A (zh) 2021-09-10
CN113377332B true CN113377332B (zh) 2023-08-22

Family

ID=77574781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110591328.5A Active CN113377332B (zh) 2021-05-28 2021-05-28 一种基于线性分段的softmax硬件实现方法

Country Status (1)

Country Link
CN (1) CN113377332B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648101B (zh) * 2022-05-13 2022-08-12 杭州研极微电子有限公司 基于transformer结构的softmax函数量化实现方法和装置
CN115511047B (zh) * 2022-06-09 2024-03-08 上海燧原科技股份有限公司 Softmax模型的量化方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021537A (zh) * 2018-01-05 2018-05-11 南京大学 一种基于硬件平台的softmax实现方式
CN110796246A (zh) * 2019-10-29 2020-02-14 南京宁麒智能计算芯片研究院有限公司 一种基于线性分段的激活函数的硬件实现电路和方法
CN111178516A (zh) * 2019-12-11 2020-05-19 浙江大学 一种基于分段查找表的softmax函数计算方法及硬件系统
CN111581593A (zh) * 2020-04-21 2020-08-25 天津大学 可配置重用的分段式查找表激活函数实现装置
CN111857650A (zh) * 2020-08-04 2020-10-30 南京大学 一种基于镜像查找表实现任意浮点型运算的硬件计算系统及其计算方法
CN112069455A (zh) * 2020-09-16 2020-12-11 成都启英泰伦科技有限公司 一种log-softmax函数硬件加速计算方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9710227B2 (en) * 2012-09-15 2017-07-18 John W. Ogilvie Formatting floating point numbers

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021537A (zh) * 2018-01-05 2018-05-11 南京大学 一种基于硬件平台的softmax实现方式
CN110796246A (zh) * 2019-10-29 2020-02-14 南京宁麒智能计算芯片研究院有限公司 一种基于线性分段的激活函数的硬件实现电路和方法
CN111178516A (zh) * 2019-12-11 2020-05-19 浙江大学 一种基于分段查找表的softmax函数计算方法及硬件系统
CN111581593A (zh) * 2020-04-21 2020-08-25 天津大学 可配置重用的分段式查找表激活函数实现装置
CN111857650A (zh) * 2020-08-04 2020-10-30 南京大学 一种基于镜像查找表实现任意浮点型运算的硬件计算系统及其计算方法
CN112069455A (zh) * 2020-09-16 2020-12-11 成都启英泰伦科技有限公司 一种log-softmax函数硬件加速计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于FPGA的人工神经网络预测方法;解筱;杨波;陈贞翔;;山东科学(第01期);10-15 *

Also Published As

Publication number Publication date
CN113377332A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN113377332B (zh) 一种基于线性分段的softmax硬件实现方法
CN105955706B (zh) 一种除法器及除法运算方法
CN110780923B (zh) 应用于二值化卷积神经网络的硬件加速器及其数据处理方法
CN111581593B (zh) 可配置重用的分段式查找表激活函数实现装置
CN113741858B (zh) 存内乘加计算方法、装置、芯片和计算设备
CN100583024C (zh) 一种用于浮点除法和平方根运算的预处理电路结构
CN111915003A (zh) 一种神经网络硬件加速器
CN111240746B (zh) 一种浮点数据反量化及量化的方法和设备
CN109165006B (zh) Softmax函数的设计优化及硬件实现方法及系统
CN111210806A (zh) 一种基于串行fft的低功耗mfcc语音特征提取电路
CN110110852B (zh) 一种深度学习网络移植到fpag平台的方法
CN110019184A (zh) 一种压缩和解压缩有序整数数组的方法
CN113111300B (zh) 具有优化资源消耗的定点fft实现系统
CN112669819A (zh) 基于不重叠分帧和串行fft的极低功耗语音特征提取电路
CN110135563B (zh) 一种卷积神经网络二值化方法及运算电路
CN114237550B (zh) 一种基于Wallace树的多输入移位求和累加器
CN115526131A (zh) 多级编码近似计算Tanh函数的方法及装置
CN114722902A (zh) 基于自监督学习的无标注视频哈希检索方法及装置
CN112163612B (zh) 基于fpga的大模板卷积图像匹配方法、装置及系统
CN111580867B (zh) 一种用于fft运算的块浮点处理方法及装置
CN114860193A (zh) 一种用于计算Power函数的硬件运算电路及数据处理方法
CN110941730B (zh) 基于人脸特征数据偏移的检索方法与装置
CN110880005B (zh) 向量索引建立方法及装置和向量检索方法及装置
CN108319804B (zh) 低资源调用的8192点基2 dit asic设计方法
CN112199072A (zh) 一种基于神经网络层的数据处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant