CN110458277B - 适用于深度学习硬件加速器的可配置精度的卷积硬件结构 - Google Patents

适用于深度学习硬件加速器的可配置精度的卷积硬件结构 Download PDF

Info

Publication number
CN110458277B
CN110458277B CN201910310573.7A CN201910310573A CN110458277B CN 110458277 B CN110458277 B CN 110458277B CN 201910310573 A CN201910310573 A CN 201910310573A CN 110458277 B CN110458277 B CN 110458277B
Authority
CN
China
Prior art keywords
array
precision
remapping module
units
bit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910310573.7A
Other languages
English (en)
Other versions
CN110458277A (zh
Inventor
沈松剑
沈沙
李毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Artosyn Microelectronic Co ltd
Original Assignee
Shanghai Artosyn Microelectronic Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Artosyn Microelectronic Co ltd filed Critical Shanghai Artosyn Microelectronic Co ltd
Priority to CN201910310573.7A priority Critical patent/CN110458277B/zh
Publication of CN110458277A publication Critical patent/CN110458277A/zh
Application granted granted Critical
Publication of CN110458277B publication Critical patent/CN110458277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Abstract

本发明提供了一种适用于深度学习硬件加速器的可配置精度的卷积硬件结构,包括:第一重映射模块和第二重映射模块的输出端分别连接第一加法阵列和第二加法阵列的输入端,第一加法阵列和第二加法阵列的输出端连接多个无符号乘法单元的输入端,多个无符号乘法单元的输出端连接部分积移位相加阵列的输入端,部分积移位相加阵列的输出端连接第三重映射模块的输入端,第三重映射模块的输出端连接第三加法阵列的输入端;其中第一重映射模块、第二重映射模块和第三重映射模块根据精度选择信号选择数据通路。本发明可以动态切换计算精度,对应的神经网络的计算能力可以满足大多数应用的需求。本发明采用了流水线结构,同时复用了数据通路上的加法阵列和部分积移位加阵列,既能够达到很快的工作频率,也能够节省硬件面积。

Description

适用于深度学习硬件加速器的可配置精度的卷积硬件结构
技术领域
本发明涉及电子电路技术领域,具体地,涉及适用于深度学习硬件加速器的可配置精度的卷积硬件结构。
背景技术
深度学习是机器学习中一个非常接近人工智能的领域,它的目的在于建立一个神经网络以模拟人脑的学习和分析的过程。深度学习的主要思想就是堆叠多个层,将低层的输出作为更高一层的输入,含多隐层的多层感知器就是一种深度学习结构的体现。通过这样的方式,深度学习能够通过组合低层特征来形成更为抽象的高层表示属性,从而发现数据的分布式特征表示。而如何使深度学习运行更高效是摆在不少工程师面前的难题。
业内最常用的方案有两种:硬件加速和软件(代码)加速。前者主要是提升算力,尤其是CPU和GPU的算力,例如公开号为CN108108813A的发明专利“一种大类别深度学习GPU并行加速的方法”。计算能力越好,这些简单的矩阵运算自然就越快。后者主要有两种路径,一是利用诸如二值网络模型等小网络模型来实现差与大网络差不多的效果,二是使用矩阵运算加速的库。
对于硬件加速而言,
深度学习神经网络的核心运算是卷积,卷积核由乘法和加法组成。随着神经网络算法的发展,计算所需要的精度已经从32bit下降到16bit,一些特殊的网络还可以使用8bit精度的卷积核。在卷积核的设计上,已有的方案集中在单精度的16bit运算和8bit运算。目前的技术方案虽然可以提高运算速度,但是运算精度单一,无法适配复杂多样的网络,且计算能力固定,也无法满足日益发展的神经网络对算力的需求。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种适用于深度学习硬件加速器的可配置精度的卷积硬件结构。
根据本发明提供的一种适用于深度学习硬件加速器的可配置精度的卷积硬件结构,包括:第一重映射模块、第二重映射模块、第三重映射模块、第一加法阵列、第二加法阵列、第三加法阵列、多个无符号乘法单元和部分积移位相加阵列;
所述第一重映射模块和所述第二重映射模块的输出端分别连接所述第一加法阵列和所述第二加法阵列的输入端,所述第一加法阵列和所述第二加法阵列的输出端连接所述多个无符号乘法单元的输入端,所述多个无符号乘法单元的输出端连接所述部分积移位相加阵列的输入端,所述部分积移位相加阵列的输出端连接所述第三重映射模块的输入端,所述第三重映射模块的输出端连接所述第三加法阵列的输入端;
其中所述第一重映射模块、所述第二重映射模块和所述第三重映射模块根据精度选择信号选择数据通路。
优选地,所述第一重映射模块、所述第二重映射模块和所述第三重映射模块根据精度选择信号对输入信号进行相应的变换。
优选地,所述第一加法阵列、所述第二加法阵列和所述第三加法阵列能够对输入数据进行补码;
所述第一加法阵列和所述第二加法阵列分别包括16个加法器构成的加法阵列;所述第三加法阵列包括32个加法器构成的加法阵列。
优选地,所述多个无符号乘法单元包括16个4bit精度的无符号乘法单元。
优选地,所述部分积移位相加阵列包括四级部分积移位相加阵列,所述四级部分积移位相加阵列包括:
8个S4A8单元:将两两4bit精度的无符号乘法单元的输出做移位相加,得到8个8bit x 4bit的输出;
4个S4A12单元:将两两S4A8单元的输出做移位相加,得到4个8bit x 8bit的输出;
2个S8A16单元:将两两S4A12单元的输出做移位相加,得到2个16bit x 8bit的输出;
1个S8A24单元:将两个S8A16单元的输出做移位相加,得到1个16bit x 16bit的输出。
优选地,所述无符号乘法单元包括:Array乘法器或基于华莱士树的乘法器。
优选地,所述无符号乘法单元的最小精度为4bit。
优选地,所述精度选择信号包括CP[4:0];
当CP[0]为1,表示当前精度为16bit x 16bit;
当CP[1]为1,表示当前精度为16bit x 8bit;
当CP[2]为1,表示当前精度为8bit x 8bit;
当CP[3]为1,表示当前精度为8bit x 4bit;
当CP[4]为1,表示当前精度为4bit x 4bit。
优选地,所述第一重映射模块、所述第二重映射模块和所述第三重映射模块分别根据精度选择信号将输入信号对应映射到所述第一加法阵列、所述第二加法阵列和所述第三加法阵列中的加法器上,经过加法阵列产生对应精度的结果。
根据本发明提供的一种适用于深度学习硬件加速器的可配置精度的卷积硬件结构,包括:第一重映射模块、第二重映射模块、第三重映射模块、第一加法阵列、第二加法阵列、第三加法阵列、多个无符号乘法单元和部分积移位相加阵列;
所述第一重映射模块和所述第二重映射模块的输出端分别连接所述第一加法阵列和所述第二加法阵列的输入端,所述第一加法阵列和所述第二加法阵列的输出端连接所述多个无符号乘法单元的输入端,所述多个无符号乘法单元的输出端连接所述部分积移位相加阵列的输入端,所述部分积移位相加阵列的输出端连接所述第三重映射模块的输入端,所述第三重映射模块的输出端连接所述第三加法阵列的输入端;
其中所述第一重映射模块、所述第二重映射模块和所述第三重映射模块根据精度选择信号选择数据通路;
所述第一重映射模块、所述第二重映射模块和所述第三重映射模块根据精度选择信号对输入信号进行相应的变换;
所述第一加法阵列、所述第二加法阵列和所述第三加法阵列能够对输入数据进行补码;
所述第一加法阵列和所述第二加法阵列分别包括16个加法器构成的加法阵列;所述第三加法阵列包括32个加法器构成的加法阵列;
所述多个无符号乘法单元包括16个4bit精度的无符号乘法单元;
所述部分积移位相加阵列包括四级部分积移位相加阵列,所述四级部分积移位相加阵列包括:
8个S4A8单元:将两两4bit精度的无符号乘法单元的输出做移位相加,得到8个8bit x 4bit的输出;
4个S4A12单元:将两两S4A8单元的输出做移位相加,得到4个8bit x 8bit的输出;
2个S8A16单元:将两两S4A12单元的输出做移位相加,得到2个16bit x 8bit的输出;
1个S8A24单元:将两个S8A16单元的输出做移位相加,得到1个16bit x 16bit的输出;
所述无符号乘法单元包括:Array乘法器或基于华莱士树的乘法器;
所述无符号乘法单元的最小精度为4bit;
所述精度选择信号包括CP[4:0];
当CP[0]为1,表示当前精度为16bit x 16bit;
当CP[1]为1,表示当前精度为16bit x 8bit;
当CP[2]为1,表示当前精度为8bit x 8bit;
当CP[3]为1,表示当前精度为8bit x 4bit;
当CP[4]为1,表示当前精度为4bit x 4bit;
所述第一重映射模块、所述第二重映射模块和所述第三重映射模块分别根据精度选择信号将输入信号对应映射到所述第一加法阵列、所述第二加法阵列和所述第三加法阵列中的加法器上,经过加法阵列产生对应精度的结果。
与现有技术相比,本发明具有如下的有益效果:
本发明设计的卷积核单元可以动态切换多种计算精度,与此相对应的多种级别的神经网络的计算能力可以满足大多数应用的需求。与此同时,本发明设计了可以复用的硬件单元,辅助流水线的结构,既能够达到很快的工作频率,也能够节省硬件面积。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的结构框图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明提供的一种适用于深度学习硬件加速器的可配置精度的卷积硬件结构,包括:第一重映射(REMAP)模块、第二重映射模块、第三重映射模块、第一加法阵列、第二加法阵列、第三加法阵列、多个无符号乘法单元和部分积移位相加阵列;
第一重映射模块和第二重映射模块的输出端分别连接第一加法阵列和第二加法阵列的输入端,第一加法阵列和第二加法阵列的输出端连接多个无符号乘法单元的输入端,多个无符号乘法单元的输出端连接部分积移位相加阵列的输入端,部分积移位相加阵列的输出端连接第三重映射模块的输入端,第三重映射模块的输出端连接第三加法阵列的输入端;
其中第一重映射模块、第二重映射模块和第三重映射模块根据精度选择信号进行相应的变换,选择数据通路。
在16bit精度下,输入乘数A[15:0]与被乘数B[15:0]可以拆分为4个4比特的数移位相加,如下所示:
A[15:0]=(A[15:12]<<12)+(A[11:8]<<8)+(A[7:4]<<4)+(A[3:0])
B[15:0]=(B[15:12]<<12)+(B[11:8]<<8)+(B[7:4]<<4)+(B[3:0])
因此,乘法A[15:0]*B[15:0]代入上述公式然后展开可得16个4比特的乘法,如下公式所示,
A[15:0]*B[15:0]=
((A[15:12]*B[3:0])<<12)+((A[11:8]*B[3*0])<<8)+((A[7:4]*B[3*0])<<4)+((A[3:0]*B[3*0])<<0)+((A[15:12]*B[7*4])<<16)+((A[11:8]*B[7*4])<<12)+((A[7:4]*B[7*4])<<8)+((A[3:0]*B[7*4])<<4)+((A[15:12]*B[11*8])<<20)+((A[11:8]*B[11*8])<<16)+((A[7:4]*B[11*8])<<12)+((A[3:0]*B[11*8])<<8)+((A[15:12]*B[15*12])<<24)+((A[11:8]*B[15*12])<<20)+((A[7:4]*B[15*12])<<16)+((A[3:0]*B[15*12])<<12)
如上16比特精度的重映射所示,第一重映射模块根据精度将乘数A拆分为适用于乘法器的对应输入;第二重映射模块根据精度将被乘数B拆分为适用于乘法器的对应输入;第三重映射模块根据精度将16个乘法器的输出进行合并。其他精度的拆分与合并原理与16比特精度的原理相同。
优选实施例:
如图1所示,输入信号有CP[4:0](精度选择信号),A[63:0](乘数),B[63:0](被乘数)。输出信号有P[127:0](积)。
其中CP为输入精度选择信号,通过配置CP以控制硬件中的REMAP模块和数据通路,这样选择不同精度的部分积模块进入加法阵列,最后输出不同精度的计算结果。
1.CP[0]为1,表示当前精度为16bit x 16bit
2.CP[1]为1,表示当前精度为16bit x 8bit
3.CP[2]为1,表示当前精度为8bit x 8bit
4.CP[3]为1,表示当前精度为8bit x 4bit
5.CP[4]为1,表示当前精度为4bit x 4bit
本实施例包括三个REMAP模块,三个加法阵列,16个4bit精度的无符号乘法单元和4级部分积的移位相加阵列。其中REMAP模块根据精度选择信号将输入的信号A和B做相应的变换,同时将乘法器产生的结果做相应的变换。两组16个加法阵列和一组32个加法阵列作用是求取输入数据和输出结果的补码。16个4bit精度的乘法器是硬核单元,处理4bit精度的无符号乘法运算。8个S4A8单元将两两4bit乘法结果做移位相加,可以得到8个8bit x4bit的乘法结果。4个S4A12单元将两两S4A8的输出结果做移位相加,可以得到4个8bit x8bit的乘法结果。2个S8A16单元将两两S4A12的输出结果做移位相加,可以得到2个16bit x8bit的乘法结果。1个S8A24单元将两两S8A16的输出结果做移位相加,可以得到1个16bit x16bit的乘法结果。
输入的信号A经过REMAP模块,在精度选择控制信号的作用下,根据不同的模式映射到后级的16个加法器阵列的输入口上,经过加法器阵列后,产生了对应不同精度的A的补码,输出给16个无符号乘法器的乘数输入端口。输入的信号B经过REMAP模块,在精度选择控制信号的作用下,根据不同的模式映射到后级的16个加法器阵列的输入口上,经过加法器阵列后,产生了对应不同精度的B的补码,输出给16个无符号乘法器的被乘数输入端口。
16个无符号乘法器不限于结构,可以使用Array乘法器,可以使用基于华莱士树的乘法器,本发明不限制乘法器的内部结构。变换后的乘数A的补码和被乘数B的补码经过乘法器后输出16个4bit x 4bit的结果P[15:0][7:0]。然后,16个结果同时输送给8个S4A8单元和第三级REMAP模块,经过S4A8单元后产生8个8bit x 4bit的结果P[7:0][11:0]。然后,8个结果同时输送给4个S4A12单元和第三级REMAP模块,经过S4A12单元后产生4个8bit x8bit的结果P[3:0][15:0]。然后,4个结果同时输送给2个S8A16单元和第三级REMAP模块,经过S8A16单元后产生2个16bit x 8bit的结果P[1:0][23:0]。然后,2个结果同时输送给1个S8A24单元和第三级REMAP模块,经过S8A24单元后产生1个16bit x 16bit的结果P[31:0]。
第三级REMAP模块汇总4bit x 4bit、8bit x 4bit、8bit x 8bit、16bit x 8bit和16bit x 16bit的结果,根据精度选择信号再一次变换,产生不同精度的补码,输出给32个加法器阵列。经过加法器阵列后,得到不同精度的乘法结果的补码,即为有符号数的乘法结果。
本发明的结构清晰,可以根据实际需求插入寄存器流水线以满足不同时钟频率的要求。
上述实施例采用了三组共享的加法阵列来变换乘数、被乘数与积的符号,对于不同精度的运算,加法阵列可以共享,减小了硬件面积。采用了一组最小精度为4bit的乘法器阵列,阵列中的乘法单元可以按照规则组成高精度的8bit、16bit乘法器单元,灵活且可配置。采用了4级移位加法运算单元,每一级单元使用上一级单元产生的结果进行运算,在产生16bit精度的乘法运算的过程中,同时可以得到不同精度的乘法运算结果,复用了移位加的阵列。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (6)

1.一种适用于深度学习硬件加速器的可配置精度的卷积硬件结构,其特征在于,包括:第一重映射模块、第二重映射模块、第三重映射模块、第一加法阵列、第二加法阵列、第三加法阵列、多个无符号乘法单元和部分积移位相加阵列;
所述第一重映射模块和所述第二重映射模块的输出端分别连接所述第一加法阵列和所述第二加法阵列的输入端,所述第一加法阵列和所述第二加法阵列的输出端连接所述多个无符号乘法单元的输入端,所述多个无符号乘法单元的输出端连接所述部分积移位相加阵列的输入端,所述部分积移位相加阵列的输出端连接所述第三重映射模块的输入端,所述第三重映射模块的输出端连接所述第三加法阵列的输入端;
其中所述第一重映射模块、所述第二重映射模块和所述第三重映射模块根据精度选择信号选择数据通路;
所述第一重映射模块、所述第二重映射模块和所述第三重映射模块根据精度选择信号对输入信号进行相应的变换;
所述第一加法阵列、所述第二加法阵列和所述第三加法阵列能够对输入数据进行补码;
所述第一加法阵列和所述第二加法阵列分别包括16个加法器构成的加法阵列;所述第三加法阵列包括32个加法器构成的加法阵列;
所述多个无符号乘法单元包括16个4bit精度的无符号乘法单元;
所述部分积移位相加阵列包括四级部分积移位相加阵列,所述四级部分积移位相加阵列包括:
8个S4A8单元:将两两4bit精度的无符号乘法单元的输出做移位相加,得到8个8bit x4bit的输出;
4个S4A12单元:将两两S4A8单元的输出做移位相加,得到4个8bit x 8bit的输出;
2个S8A16单元:将两两S4A12单元的输出做移位相加,得到2个16bit x 8bit的输出;
1个S8A24单元:将两个S8A16单元的输出做移位相加,得到1个16bit x 16bit的输出。
2.根据权利要求1所述的适用于深度学习硬件加速器的可配置精度的卷积硬件结构,其特征在于,所述无符号乘法单元的实现方式包括:Array乘法器或基于华莱士树的乘法器。
3.根据权利要求1所述的适用于深度学习硬件加速器的可配置精度的卷积硬件结构,其特征在于,所述无符号乘法单元的最小精度为4bit。
4.根据权利要求1所述的适用于深度学习硬件加速器的可配置精度的卷积硬件结构,其特征在于,所述精度选择信号包括CP[4:0];
当CP[0]为1,表示当前精度为16bit x 16bit;
当CP[1]为1,表示当前精度为16bit x 8bit;
当CP[2]为1,表示当前精度为8bit x 8bit;
当CP[3]为1,表示当前精度为8bit x 4bit;
当CP[4]为1,表示当前精度为4bit x 4bit。
5.根据权利要求1所述的适用于深度学习硬件加速器的可配置精度的卷积硬件结构,其特征在于,所述第一重映射模块、所述第二重映射模块和所述第三重映射模块分别根据精度选择信号将输入信号对应映射到所述第一加法阵列、所述第二加法阵列和所述第三加法阵列中的加法器上,经过加法阵列产生对应精度的结果。
6.一种适用于深度学习硬件加速器的可配置精度的卷积硬件结构,其特征在于,包括:第一重映射模块、第二重映射模块、第三重映射模块、第一加法阵列、第二加法阵列、第三加法阵列、多个无符号乘法单元和部分积移位相加阵列;
所述第一重映射模块和所述第二重映射模块的输出端分别连接所述第一加法阵列和所述第二加法阵列的输入端,所述第一加法阵列和所述第二加法阵列的输出端连接所述多个无符号乘法单元的输入端,所述多个无符号乘法单元的输出端连接所述部分积移位相加阵列的输入端,所述部分积移位相加阵列的输出端连接所述第三重映射模块的输入端,所述第三重映射模块的输出端连接所述第三加法阵列的输入端;
其中所述第一重映射模块、所述第二重映射模块和所述第三重映射模块根据精度选择信号选择数据通路;
所述第一重映射模块、所述第二重映射模块和所述第三重映射模块根据精度选择信号对输入信号进行相应的变换;
所述第一加法阵列、所述第二加法阵列和所述第三加法阵列能够对输入数据进行补码;
所述第一加法阵列和所述第二加法阵列分别包括16个加法器构成的加法阵列;所述第三加法阵列包括32个加法器构成的加法阵列;
所述多个无符号乘法单元包括16个4bit精度的无符号乘法单元;
所述部分积移位相加阵列包括四级部分积移位相加阵列,所述四级部分积移位相加阵列包括:
8个S4A8单元:将两两4bit精度的无符号乘法单元的输出做移位相加,得到8个8bit x4bit的输出;
4个S4A12单元:将两两S4A8单元的输出做移位相加,得到4个8bit x 8bit的输出;
2个S8A16单元:将两两S4A12单元的输出做移位相加,得到2个16bit x 8bit的输出;
1个S8A24单元:将两个S8A16单元的输出做移位相加,得到1个16bit x 16bit的输出;
所述无符号乘法单元包括:Array乘法器或基于华莱士树的乘法器;
所述无符号乘法单元的最小精度为4bit;
所述精度选择信号包括CP[4:0];
当CP[0]为1,表示当前精度为16bit x 16bit;
当CP[1]为1,表示当前精度为16bit x 8bit;
当CP[2]为1,表示当前精度为8bit x 8bit;
当CP[3]为1,表示当前精度为8bit x 4bit;
当CP[4]为1,表示当前精度为4bit x 4bit;
所述第一重映射模块、所述第二重映射模块和所述第三重映射模块分别根据精度选择信号将输入信号对应映射到所述第一加法阵列、所述第二加法阵列和所述第三加法阵列中的加法器上,经过加法阵列产生对应精度的结果。
CN201910310573.7A 2019-04-17 2019-04-17 适用于深度学习硬件加速器的可配置精度的卷积硬件结构 Active CN110458277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910310573.7A CN110458277B (zh) 2019-04-17 2019-04-17 适用于深度学习硬件加速器的可配置精度的卷积硬件结构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910310573.7A CN110458277B (zh) 2019-04-17 2019-04-17 适用于深度学习硬件加速器的可配置精度的卷积硬件结构

Publications (2)

Publication Number Publication Date
CN110458277A CN110458277A (zh) 2019-11-15
CN110458277B true CN110458277B (zh) 2021-11-16

Family

ID=68480913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910310573.7A Active CN110458277B (zh) 2019-04-17 2019-04-17 适用于深度学习硬件加速器的可配置精度的卷积硬件结构

Country Status (1)

Country Link
CN (1) CN110458277B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021168644A1 (zh) * 2020-02-25 2021-09-02 深圳市大疆创新科技有限公司 数据处理装置、电子设备和数据处理方法
CN117648959A (zh) * 2024-01-30 2024-03-05 中国科学技术大学 支持神经网络运算的多精度操作数运算装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915322A (zh) * 2015-06-09 2015-09-16 中国人民解放军国防科学技术大学 一种卷积神经网络硬件加速方法及其axi总线ip核
CN106909970A (zh) * 2017-01-12 2017-06-30 南京大学 一种基于近似计算的二值权重卷积神经网络硬件加速器计算模块
CN106990911A (zh) * 2016-01-19 2017-07-28 爱思开海力士有限公司 Os和应用程序的透明存储器压缩技术
CN108280514A (zh) * 2018-01-05 2018-07-13 中国科学技术大学 基于fpga的稀疏神经网络加速系统和设计方法
CN108647184A (zh) * 2018-05-10 2018-10-12 杭州雄迈集成电路技术有限公司 一种高精度动态比特位卷积乘法快速实现方法
CN108960414A (zh) * 2018-07-20 2018-12-07 中国人民解放军国防科技大学 一种基于深度学习加速器实现单广播多运算的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10691996B2 (en) * 2016-12-15 2020-06-23 Beijing Deephi Intelligent Technology Co., Ltd. Hardware accelerator for compressed LSTM

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915322A (zh) * 2015-06-09 2015-09-16 中国人民解放军国防科学技术大学 一种卷积神经网络硬件加速方法及其axi总线ip核
CN106990911A (zh) * 2016-01-19 2017-07-28 爱思开海力士有限公司 Os和应用程序的透明存储器压缩技术
CN106909970A (zh) * 2017-01-12 2017-06-30 南京大学 一种基于近似计算的二值权重卷积神经网络硬件加速器计算模块
CN108280514A (zh) * 2018-01-05 2018-07-13 中国科学技术大学 基于fpga的稀疏神经网络加速系统和设计方法
CN108647184A (zh) * 2018-05-10 2018-10-12 杭州雄迈集成电路技术有限公司 一种高精度动态比特位卷积乘法快速实现方法
CN108960414A (zh) * 2018-07-20 2018-12-07 中国人民解放军国防科技大学 一种基于深度学习加速器实现单广播多运算的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于FPGA的FIR滤波器设计与实现;郑运冬;《中国优秀硕士学位论文全文数据库信息科技辑》;20150315;全文 *

Also Published As

Publication number Publication date
CN110458277A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
US20210349692A1 (en) Multiplier and multiplication method
CN111008003B (zh) 数据处理器、方法、芯片及电子设备
US4130878A (en) Expandable 4 × 8 array multiplier
CN110362293B (zh) 乘法器、数据处理方法、芯片及电子设备
CN110458277B (zh) 适用于深度学习硬件加速器的可配置精度的卷积硬件结构
CN110515589A (zh) 乘法器、数据处理方法、芯片及电子设备
CN112434801B (zh) 一种按照比特精度进行权重拆分的卷积运算加速方法
CN110515587B (zh) 乘法器、数据处理方法、芯片及电子设备
CN110673823B (zh) 乘法器、数据处理方法及芯片
Jaberipur et al. Efficient realisation of arithmetic algorithms with weighted collection of posibits and negabits
Reddy et al. Low Power and Efficient Re-Configurable Multiplier for Accelerator
CN111258541B (zh) 乘法器、数据处理方法、芯片及电子设备
CN111258544B (zh) 乘法器、数据处理方法、芯片及电子设备
CN110647307B (zh) 数据处理器、方法、芯片及电子设备
US5999962A (en) Divider which iteratively multiplies divisor and dividend by multipliers generated from the divisors to compute the intermediate divisors and quotients
CN110515586B (zh) 乘法器、数据处理方法、芯片及电子设备
CN212569855U (zh) 一种激活函数的硬件实现装置
Kumar et al. Complex multiplier: implementation using efficient algorithms for signal processing application
CN110688087B (zh) 数据处理器、方法、芯片及电子设备
CN210006029U (zh) 数据处理器
CN110515588B (zh) 乘法器、数据处理方法、芯片及电子设备
US6622154B1 (en) Alternate booth partial product generation for a hardware multiplier
CN111860792A (zh) 一种激活函数的硬件实现装置和方法
CN113031909B (zh) 数据处理器、方法、装置及芯片
CN113033799B (zh) 数据处理器、方法、装置及芯片

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: Room 501, No.308 Songhu Road, Yangpu District, Shanghai 200082

Patentee after: SHANGHAI ARTOSYN MICROELECTRONIC Co.,Ltd.

Address before: Room 208, 234 Songhu Road, Yangpu District, Shanghai, 200082

Patentee before: SHANGHAI ARTOSYN MICROELECTRONIC Co.,Ltd.

CP02 Change in the address of a patent holder