CN110766155A - 一种基于混合精度存储的深度神经网络加速器 - Google Patents

一种基于混合精度存储的深度神经网络加速器 Download PDF

Info

Publication number
CN110766155A
CN110766155A CN201910922467.4A CN201910922467A CN110766155A CN 110766155 A CN110766155 A CN 110766155A CN 201910922467 A CN201910922467 A CN 201910922467A CN 110766155 A CN110766155 A CN 110766155A
Authority
CN
China
Prior art keywords
weight
position index
data
bit
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910922467.4A
Other languages
English (en)
Inventor
刘波
朱文涛
沈泽昱
黄乐朋
李焱
孙煜昊
杨军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910922467.4A priority Critical patent/CN110766155A/zh
Publication of CN110766155A publication Critical patent/CN110766155A/zh
Priority to PCT/CN2020/094551 priority patent/WO2021057085A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

本发明公开了一种基于混合精度存储的深度神经网络加速器,属于计算、推算、计数的技术领域。该加速器包括片上缓存模块、控制模块、位宽可控的乘加批计算模块、非线性计算模块、寄存器阵列以及基于双查找表的霍夫曼解码模块,将权值的有效比特位和符号位参数存储在同一个存储器中,实现了混合精度的数据存储和解析,实现了对混合精度的数据和权重的乘加操作。通过基于混合精度的数据存储解析和基于双重查找表的霍夫曼解码实现了对不同精度下数据和权重的压缩和存储,减少了数据流,实现了基于深度神经网络的低功耗的数据调度。

Description

一种基于混合精度存储的深度神经网络加速器
技术领域
本发明公开了一种基于混合精度存储的深度神经网络加速器,涉及人工智能神经网络的数模混合集成电路设计,属于计算、推算、计数的技术领域。
背景技术
深度神经网络以其优越的性能被广泛地研究和应用。当前主流的深度神经网络拥有数以亿计的连接,访存密集型和计算密集型的特点使得它们很难被映射到资源和功耗都极为有限的嵌入式系统中。另外,当前深度神经网络朝着更加精确和功能更加强大方向发展的趋势使得深度神经网络的规模、需要的存储空间变得越来越大,计算开销以及复杂度也变得越来越大。
用于加速深度神经网络运算的传统定制硬件设计是从动态随机存取存储器中读取权重,其资源消耗为运算器执行操作的两个量级,这时候应用的主要功耗将由访存决定。因此,深度神经网络加速器的设计难点归于两点:1)深度神经网络的规模越来越大,访存问题成为神经网络运算中的最大瓶颈,特别是当权值矩阵的规模大于缓存容量的时候,神经网络的优势不能充分发挥;2)深度神经网络的结构决定了它的基础运算为大量的乘累加运算,而乘法一直是硬件资源消耗多、延时长和功耗大的算术运算,乘法运算的速度和功耗决定了深度神经网络加速器的性能。
传统的深度神经网络加速器主要通过例化大量的乘加计算单元以及存储单元以一步提高系统的可靠性和稳定性,大量的芯片面积以及大量的运转功耗限制了神经网络加速器在可便携交互设备中的部署。为了解决这些问题,目前最热门的技术就是对权重数据进行二值化处理,这种处理方式可极大地简化网络运算数据调度以及访存模式,但其网络精度损失较大,系统稳定性有待考证。本申请旨在通过基于权重数据混合精度的分级压缩存储技术在保证原始网络识别精度的基础上实现一种低功耗、低延时、高效率的数据调度方式以及网络批处理操作。
发明内容
为了解决传统神经网络加速器高功耗、高计算量以及高延时的弊端,本发明提供了一种基于混合精度存储的深度神经网络加速器,采用线下软件的权值分级和线上硬件混合精度存储的工作方式,通过基于双查找表的霍夫曼编码实现混合精度数据的分级存储来解决深度神经网络的访存问题,通过引入位宽可控的批量乘加操作实现对应分级权重的数据计算匹配并节省网络因大量乘法计算产生的功耗,实现了低功耗、低延时、高效率的数据调度和网络批处理操作,解决了二值化权重的神经网络虽能简化网络运算数据调度以及访存模式但网络精度损失较大的技术问题。
本发明为实现上述发明目的采用如下技术方案:
一种基于混合精度存储的深度神经网络加速器,首先通过线下软件处理(包括基于Caffe平台、Tensorflow平台实现神经网络混合精度训练,如果达到预定压缩比例则对网络参数进行混合存储并对权重参数进行霍夫曼编码得到首1位置索引)对权值进行了有效的压缩,实现了精度可调,从而降低了运算的复杂度。数据从直接内存存取中读入,进入输入数据缓存模块,在缓存控制模块的调度下进入位宽可控的批乘加计算模块。权重及编码后的位置索引参数先进入索引缓存模块。在缓存控制模块的控制下,权重直接存入位宽可控的批乘加计算模块中的基于混合精度的权重存储器,编码后的位置索引参数通过基于双查找表的霍夫曼解码器模块解码后输出给位宽可控的批乘加计算模块中的位宽控制单元。当数据进入位宽可控的批乘加计算模块时,权重通过基于混合精度的数据存储解析模块完成权重解析,乘加单元根据位宽控制单元的控制信号选择数据权重位宽,然后完成输入数据与权重的对应乘加计算操作,结果直接存储到寄存器阵列中。存储到寄存器阵列中的中间值经过非线性计算模块完成计算后,在控制模块的调度下选择存储到输出数据缓存模块或者返回寄存器阵列,再次进行非线性操作。
本发明采用上述技术方案,具有以下有益效果:
(1)本申请涉及的基于混合精度存储的深度神经网络加速器,对线下训练好的权重位置索引参数霍夫曼编码进行基于双查找表的霍夫曼解码,根据权重位置索引参数表征的权重访问次数选择乘法阵列的位宽控制信号实现了位宽可控的批乘加计算模块,对输入的数据和权重数据先进行位宽调整再进行混合精度数据的乘加计算,实现了加速器的精度可调,降低了运算的复杂度,在不降低神经网络精度的前提下,大大地减少了网络的计算量。
(2)通过对权重数据解析将不同精度权值的有效比特位和符号位及位置索引参数存储在同一个存储器中,实现了混合精度的数据存储和解析,结合双查找表的霍夫曼解码将组合电路划分为两个组来降低功耗,实现了对不同精度下数据和权重的压缩和存储,减少了数据流,实现了深度神经网络的低功耗数据调度和高速度的乘加运算。
附图说明
图1为本发明的整体架构示意图。
图2为本发明位宽可控的批乘加计算模块。
图3为本发明基于混合精度的数据存储解析模块。
图4为本发明基于双查找表的霍夫曼解码器模块。
具体实施方式
下面结合具体实施例进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的保护范围,在阅读了本发明之后,本领域技术人员所做出的各种等价形式的修改均落于本申请所附权利要求限定的范围。
本发明基于混合精度存储的深度神经网络加速器的整体架构如图1所示,工作时加速器通过接收线下训练和压缩的权值,在控制模块的控制和调度下完成不同精度权值的解码、全连接层以及激活层的运算。基于混合精度存储的深度神经网络加速器包括4个片上缓存模块、1个控制模块、16个混合精度近似乘加处理单元、1个非线性计算模块、1个寄存器阵列以及1个基于双查找表的参数霍夫曼解码模块。4个片上缓存模块包括:输入数据缓存模块、输出数据缓存模块、缓存控制模块以及索引缓存模块。
如图2所示,本发明的位宽可控的位宽批乘加计算模块包括:一个内部静态随机存取存储器、一个数据解析模块,一个位宽控制单元、一个乘加单元和一个先入先出缓存单元,该模块与基于双查找表的参数霍夫曼解码模块协同配合,对于不同查找表对应的解码分级权重数据进行不同位宽的网络批量数据乘加处理,具体地,对于访问频繁的查找表1所解码的权重数据对应高位宽乘加操作,对于访问次数少的查找表2所解码的权重数据对应低位宽乘加操作。这种神经网络计算方式可减少网络中大量冗余的乘法操作。
本发明的基于混合精度的数据存储解析模块如图3所示,在线下将权重分为4级,给较大的权值分配较多的比特数,给较小的权值分配较少的比特数。对于分级后的权重而言,为了尽可能有效地表征其大小,对于每一个权值,有三项数据需要进行存储:1)权值中舍去末位保留下来的几个比特的数;2)权值的符号位;3)权值的位置索引参数。在神经网络参数存储过程中,将权值的有效比特位,符号位参数和权值位置索引参数存储在同一个存储器中。存储权值的静态随机存取存储器数据位宽为16比特,而权值由于采用了混合精度的方法,不同大小的权值位宽不一样,因此,存储权值时采用了混合存储的方案,即静态随机存取存储器中每一行16比特数据包含多个权值。存取权重时,通过数据解析模块进行权重的存储和解析。
如图4所示,本发明的基于双查找表的霍夫曼解码器模块包括:两个查找表(查找表1,查找表2),一个桶形移位器、一个选择器、一个通过多路复用器(MUX)实现的选择单元、一个组成以及相对应的数据存储器和寄存器。查找表1较小,包含最常用的权重位置索引编码,而查找表2包含所有剩余的权重位置索引编码。常用的权重位置索引编码了调用频率高且精度要求高的高比特权值,剩余的权重位置索引编码了调用频率低且精度要求较低的低比特权值。选择单元是一个预解码块,用于确定在解码码字时使用哪个查找表,并控制多路复用器(MUX)在每个解码周期选择正确的输出。工作时,输入有效数据锁存在边沿触发器中;其中,触发器的使能信号为输出码长数据经过累加器产生的进位信号,触发器采用乒乓结构实现流水输出,并且输出数据作为桶型移位器的输入;桶形移位寄存器的移位信号为输出码长数据经过累加器产生的累加信号,例如,第一次的输出码长为3,则桶形移位器右移3位输出,第二次的输出码长为4,则桶形移位器右移7位输出;桶形移位器的输出结果会输入到选择单元中,对于一个13比特的输入数据,如果高7位数据不全为1,则查找表1的使能信号有效,且查找表1的输入为选择单元的输出(输入数据的高7位),如果前7位数据全为1,则查找表2的使能信号有效,并且查找表2的输入为选择单元的输出(输入数据的低6位);选择单元会根据输入数据的高7位数据按位与的结果选择对应的查找表并控制选择器输出查表结果,即控制选择器输出对应编码的码长和标志状态。例如,输入一组编码,经过触发器之后得到一组32位的霍夫曼编码(32’b0011_1101_1111_1110_0110_0111_1110_0110),初始化的累加器的累加和的结果为0,故对应的桶形移位器的输出为13’b0_0110_0111_1110_0110,可以算出移位后数据结果的高7位不全为1,即按位与后的结果为0,故查找表1的使能信号有效,查找表2不工作,可以得到最后的输出结果为码长4’b0100(即十进制4),标志状态4’b0011(即S3)。码长通过一个累加器得到累加码长的和的结果为4,进位信号为0,故移位器左移4位得到13’b1_1110_0110_0111_1110,按照刚刚说明的解码流程会得到最后的输出结果,码长4’b1000(十进制8),标志状态4’b0111(即S7)。这时,码长结果会继续输入到累加器中,得到累加和为12,进位信号为0,故移位器左移12位得到13’b1_1101_1111_1110,输出解码结果的码长为4’b1010(十进制10),状态标志S9。码长结果会继续输入到累加器中,得到累加和为6,进位信号为1。此时进位信号有效,则FIFO读使能有效,新的16比特数据流(16’b0110_0110_0110_0110)输入到触发器中,移位器的输入更新为32’b0110_0110_0110_0110_0011_1101_1111_1110,继续进行移位操作。
基于混合精度存储的深度神经网络加速器的实现流程包括如下四个步骤。
步骤一:神经网络加速器首先通过线下软件处理(包括基于Caffe平台、Tensorflow平台实现神经网络混合精度训练,如果达到预定压缩比例则对网络参数进行混合存储并对权重参数进行霍夫曼编码得到位置索引参数)对权值进行了有效的压缩,实现了精度可调,从而降低了运算的复杂度。
步骤二:数据从直接内存存取中读入,进入输入数据缓存模块,在控制模块的调度下进入位宽可控的批乘加计算模块。权重及编码后的位置索引参数先进入索引缓存模块。在缓存控制模块的控制下,权重直接存入位宽可控的批乘加计算模块中的基于混合精度的权重存储器,编码后的位置索引参数通过基于双查找表的霍夫曼解码器模块解码后输出给位宽可控的批乘加计算模块中的位宽控制单元。
步骤三:当数据进入位宽可控的批乘加计算模块时,权重通过基于混合精度的数据存储解析模块完成权重解析,乘加单元根据位宽控制单元的控制信号选择数据权重位宽,然后完成输入数据与权重的对应乘加计算操作,结果直接存储到寄存器阵列中。
步骤四:存储到寄存器阵列中的中间值经过非线性计算模块完成计算后,在控制模块的调度下选择存储到输出数据缓存模块或者返回寄存器阵列,再次进行非线性操作。直接访存存取直接从输出数据缓存模块读取深度神经网络计算的数据。

Claims (8)

1.一种基于混合精度存储的深度神经网络加速器,其特征在于,包括:
索引缓存模块,用于存储训练好的权重、权重符号位以及权重位置索引参数霍夫曼编码,
输入数据缓存模块,用于存储输入数据,
缓存控制模块,用于生成索引缓存模块和输入数据缓存模块的读写地址,
霍夫曼解码器,对权重位置索引参数的霍夫曼编码进行双查找表的霍夫曼解码完成位置索引操作,输出权重位置索引参数至索引缓存模块,
位宽可控的批乘加计算模块,对从索引缓存模块读取的权重按照权值大小分配存储单元的数据位宽,不同位宽的存储单元存储有各权重的有效位、符号位、位置索引参数,根据位置索引参数对从输入数据缓存模块读取的输入数据进行位宽调整,对经位宽处理后的输入数据和混合存储的权重进行乘加计算,输出乘加计算结果,
寄存器阵列,用于缓存乘加计算结果,
非线性计算模块,对读取的乘加计算结果进行非线性计算,
输出数据缓存模块,用于缓存乘加计算结果或非线性计算结果,及,
控制模块,用于生成索引缓存模块的读写指令、输入数据缓存模块的读写指令、霍夫曼解码器的工作指令、位宽可控的批乘加计算模块的位宽控制指令、非线性计算结果存储的调度指令。
2.根据权利要求1所述一种基于混合精度存储的深度神经网络加速器,其特征在于,所述霍夫曼解码器包括:
触发器,在累加器输出的进位信号的使能下输出读取的权重位置索引参数的霍夫曼编码至桶形移位器,
桶形移位器,在累加器输出的累加信号的使能下,对读取的权重位置索引参数霍夫曼编码进行移位操作后输出,
选择单元,对桶形移位器输出的权重位置索引参数霍夫曼编码的高位数据进行检测,在权重位置索引参数霍夫曼编码的高位数据不全为1时输出第一查找表的使能信号及多路复用器输出第一查找表查表结果的选择信号,在权重位置索引参数霍夫曼编码的高位数据全部为1时输出第二查找表的使能信号及多路复用器输出第二查找表查表结果的选择信号,
第一查找表,存储有常用的权重位置索引参数的霍夫曼编码,在选择单元的使能下输出权重位置索引参数霍夫曼编码高位数据的码长和标志状态,
第二查找表,存储有剩余的权重位置索引参数的霍夫曼编码,在选择单元的使能下输出权重位置索引参数霍夫曼编码低位数据的码长和标志状态,
多路复用器,在选择单元的使能下输出第一查找表的查表结果或第二查找表的查表结果,及,
累加器,对多路复用器输出的码长进行累加,输出进位信号至触发器,输出累加信号至桶形移位器。
3.根据权利要求1所述一种基于混合精度存储的深度神经网络加速器,其特征在于,所述位宽可控的批乘加计算模块包括多个PE单元,每个PE单元包括:
FIFO,用于缓存从输入数据缓存模块读取的输入数据,
存储器,读取索引缓存模块缓存的权重,按照权值大小为每个权重分配存储有效位、符号位、位置索引参数单元的数据位宽,
数据解析模块,对存储器存储的数据进行解析获得权重,根据解析获得的位置索引参数生成位宽控制信号,及,
乘加单元,在位宽控制信号的作用下对从FIFO读取的输入数据进行位宽调整,对位宽调整后的输入数据和数据解析模块输出的权重进行批乘加运算。
4.根据权利要求1所述一种基于混合精度存储的深度神经网络加速器,其特征在于,根据位置索引参数对从输入数据缓存模块读取的输入数据进行位宽调整具体为:在位置索引参数表征权重为调用频率高且精度要求高的高比特权值时将输入数据调整为高位宽数据,在位置索引参数表征权重为调用频率低且精度要求低的低比特权值时将输入数据调整为低位宽数据。
5.根据权利要求4所述一种基于混合精度存储的深度神经网络加速器,其特征在于,所述乘法单元为对数乘法器。
6.一种基于混合精度存储的深度神经网络加速方法,其特征在于,对权重位置索引参数的霍夫曼编码进行双查找表的霍夫曼解码完成位置索引操作,对权重按照权值大小分配存储单元的数据位宽,不同位宽的存储单元存储有各权重的有效位、符号位、位置索引参数,根据位置索引参数对输入数据进行位宽调整,对经位宽处理后的输入数据和混合存储的权重进行乘加计算。
7.根据权利要求6所述一种基于混合精度存储的深度神经网络加速方法,其特征在于,所述权重位置索引参数通过Caffe平台或Tensorflow平台线下训练获取。
8.根据权利要求6所述一种基于混合精度存储的深度神经网络加速方法,其特征在于,对权重位置索引参数的霍夫曼编码进行双查找表的霍夫曼解码完成位置索引操作的方法为:对权重位置索引参数的霍夫曼编码进行移位操作,在权重位置索引参数霍夫曼编码的高位数据不全为1时查找常用权重位置索引参数的霍夫曼编码表获取权重位置索引参数霍夫曼编码高位数据的码长,在权重位置索引参数霍夫曼编码的高位数据全部为1时查找剩余权重位置索引参数的霍夫曼编码表获取权重位置索引参数霍夫曼编码低位数据的码长,对获取的码长进行累加,根据累加结果更新权重位置索引参数霍夫曼编码的移位操作。
CN201910922467.4A 2019-09-27 2019-09-27 一种基于混合精度存储的深度神经网络加速器 Pending CN110766155A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910922467.4A CN110766155A (zh) 2019-09-27 2019-09-27 一种基于混合精度存储的深度神经网络加速器
PCT/CN2020/094551 WO2021057085A1 (zh) 2019-09-27 2020-06-05 一种基于混合精度存储的深度神经网络加速器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910922467.4A CN110766155A (zh) 2019-09-27 2019-09-27 一种基于混合精度存储的深度神经网络加速器

Publications (1)

Publication Number Publication Date
CN110766155A true CN110766155A (zh) 2020-02-07

Family

ID=69330542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910922467.4A Pending CN110766155A (zh) 2019-09-27 2019-09-27 一种基于混合精度存储的深度神经网络加速器

Country Status (2)

Country Link
CN (1) CN110766155A (zh)
WO (1) WO2021057085A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091190A (zh) * 2020-03-25 2020-05-01 光子算数(北京)科技有限责任公司 数据处理方法及装置、光子神经网络芯片、数据处理电路
CN111783967A (zh) * 2020-05-27 2020-10-16 上海赛昉科技有限公司 一种适用于专用神经网络加速器的数据双层缓存方法
CN112037118A (zh) * 2020-07-16 2020-12-04 新大陆数字技术股份有限公司 图像缩放硬件加速方法、装置、系统及可读存储介质
WO2021057085A1 (zh) * 2019-09-27 2021-04-01 东南大学 一种基于混合精度存储的深度神经网络加速器
CN112906863A (zh) * 2021-02-19 2021-06-04 山东英信计算机技术有限公司 一种神经元加速处理方法、装置、设备及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109121435A (zh) * 2017-04-19 2019-01-01 上海寒武纪信息科技有限公司 处理装置和处理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10936941B2 (en) * 2016-08-12 2021-03-02 Xilinx, Inc. Efficient data access control device for neural network hardware acceleration system
CN107451659B (zh) * 2017-07-27 2020-04-10 清华大学 用于位宽分区的神经网络加速器及其实现方法
CN109117183B (zh) * 2017-10-30 2021-10-19 上海寒武纪信息科技有限公司 人工智能处理器及使用处理器执行向量交换指令的方法
US20190286972A1 (en) * 2018-03-14 2019-09-19 Microsoft Technology Licensing, Llc Hardware accelerated neural network subgraphs
US10678508B2 (en) * 2018-03-23 2020-06-09 Amazon Technologies, Inc. Accelerated quantized multiply-and-add operations
US11275998B2 (en) * 2018-05-31 2022-03-15 Intel Corporation Circuitry for low-precision deep learning
CN110766155A (zh) * 2019-09-27 2020-02-07 东南大学 一种基于混合精度存储的深度神经网络加速器

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109121435A (zh) * 2017-04-19 2019-01-01 上海寒武纪信息科技有限公司 处理装置和处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BO LIU等: "An Energy-Efficient Accelerator for Hybrid Bit-width DNNs", 《IEEE数据库》 *
ZHEN WANG等: "EERA-DNN: An energy-efficient reconfigurable architecture for DNNs with hybrid bit-width and logarithmic multiplier", 《IEICE ELECTRONICS EXPRESS》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021057085A1 (zh) * 2019-09-27 2021-04-01 东南大学 一种基于混合精度存储的深度神经网络加速器
CN111091190A (zh) * 2020-03-25 2020-05-01 光子算数(北京)科技有限责任公司 数据处理方法及装置、光子神经网络芯片、数据处理电路
CN111783967A (zh) * 2020-05-27 2020-10-16 上海赛昉科技有限公司 一种适用于专用神经网络加速器的数据双层缓存方法
CN111783967B (zh) * 2020-05-27 2023-08-01 上海赛昉科技有限公司 一种适用于专用神经网络加速器的数据双层缓存方法
CN112037118A (zh) * 2020-07-16 2020-12-04 新大陆数字技术股份有限公司 图像缩放硬件加速方法、装置、系统及可读存储介质
CN112037118B (zh) * 2020-07-16 2024-02-02 新大陆数字技术股份有限公司 图像缩放硬件加速方法、装置、系统及可读存储介质
CN112906863A (zh) * 2021-02-19 2021-06-04 山东英信计算机技术有限公司 一种神经元加速处理方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
WO2021057085A1 (zh) 2021-04-01

Similar Documents

Publication Publication Date Title
CN110766155A (zh) 一种基于混合精度存储的深度神经网络加速器
CN110070178B (zh) 一种卷积神经网络计算装置及方法
US20210357736A1 (en) Deep neural network hardware accelerator based on power exponential quantization
CN110378468B (zh) 一种基于结构化剪枝和低比特量化的神经网络加速器
CN111062472B (zh) 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法
CN109901814A (zh) 自定义浮点数及其计算方法和硬件结构
CN112329910B (zh) 一种面向结构剪枝结合量化的深度卷积神经网络压缩方法
CN108416427A (zh) 卷积核堆积数据流、压缩编码以及深度学习算法
CN202931289U (zh) 一种硬件lz77压缩实现系统
CN112257844B (zh) 一种基于混合精度配置的卷积神经网络加速器及其实现方法
CN111008698B (zh) 用于混合压缩循环神经网络的稀疏矩阵乘法加速器
CN111507465A (zh) 一种可配置的卷积神经网络处理器电路
CN109165006B (zh) Softmax函数的设计优化及硬件实现方法及系统
CN107092961A (zh) 一种基于模式频率统计编码的神经网络处理器及设计方法
Lal et al. E^ 2MC: Entropy Encoding Based Memory Compression for GPUs
CN113222129B (zh) 一种基于多级缓存循环利用的卷积运算处理单元及系统
Shu et al. High energy efficiency FPGA-based accelerator for convolutional neural networks using weight combination
CN115828044A (zh) 基于神经网络双重稀疏性矩阵乘法运算电路、方法和装置
CN102469307B (zh) 解码器及码流解析装置
CN115526131A (zh) 多级编码近似计算Tanh函数的方法及装置
CN112734021A (zh) 一种基于位稀疏计算的神经网络加速方法
Wang et al. EERA-DNN: An energy-efficient reconfigurable architecture for DNNs with hybrid bit-width and logarithmic multiplier
CN109117114B (zh) 一种基于查找表的低复杂度近似乘法器
CN113392963A (zh) 基于fpga的cnn硬件加速系统设计方法
CN113031916A (zh) 乘法器、数据处理方法、装置及芯片

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200207

RJ01 Rejection of invention patent application after publication