CN112346704A - 一种用于卷积神经网络的全流水线型乘加单元阵列电路 - Google Patents
一种用于卷积神经网络的全流水线型乘加单元阵列电路 Download PDFInfo
- Publication number
- CN112346704A CN112346704A CN202011319639.8A CN202011319639A CN112346704A CN 112346704 A CN112346704 A CN 112346704A CN 202011319639 A CN202011319639 A CN 202011319639A CN 112346704 A CN112346704 A CN 112346704A
- Authority
- CN
- China
- Prior art keywords
- multiply
- add
- multiplication
- addition
- units
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/544—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
- G06F7/5443—Sum of products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种用于卷积神经网络的全流水线乘加单元阵列电路,其特征在于,包括多个乘加单元,所述多个乘加单元的排布方式为:单个乘加单元沿着第一方向重复排列n个,所述n个乘加单元通过级联的方式连接在一起形成乘加子模块;所述乘加子模块沿着第二方向重复排列m个形成乘加核模块;所述乘加核模块沿着第三方向重复排列i个形成一个包含n*m*i个所述乘加单元的所述阵列电路;其中m,n和i为不小于2的整数;所述第一、第二和第三方向均不同。本发明的电路能够有效提高数据的复用率,充分减少了运算单元的空闲时间,增大了卷积运算硬件实现的效率。
Description
技术领域
本发明属于人工智能算法硬件实现领域,更具体地,涉及一种用于卷积神经网络的全流水线型乘加单元((Multiplication and Accumulation,MAC))阵列电路。
背景技术
在大数据时代背景下,传统CPU的性能已不足以支撑人工智能算法中的大规模数据运算,其通用运算单元的结构设计极大的限制了算法预测判断的速度,而擅长大规模并行运算的GPU因其高昂的成本和能耗难以得到大规模应用,因此针对需要庞大计算量和吞吐量的人工智能算法设计专用的硬件电路,具有广泛的应用前景。
卷积神经网络算法是人工智能算法中应用最为广泛的算法之一,它一般由卷积层、池化层和全连接层组成。其中卷积层的卷积运算是该算法的核心计算模式,其运算包含有四层嵌套循环的乘加运算:(1)卷积核单通道内的乘加运算;(2)卷积核不同通道的乘加运算;(3)输入特征序列长度方向维度不同数据的乘加运算;(4)不同卷积核的乘加运算。对嵌套循环的不同展开方式直接决定了硬件电路,尤其是核心模块MAC阵列的电路结构。另外,卷积神经网络存在庞大的计算量和数据量,而卷积运算包含有大量重复数据的乘加运算,如何设计数据流,使得能够尽可能提升硬件计算中的数据复用率,使得硬件计算资源得到充分利用,同时控制逻辑简单易实现,是卷积神经网络算法硬件设计所面临的一个严峻挑战。
文献“Angel-Eye:A Complete Design Flow for Mapping CNN Onto EmbeddedFPGA”,Kaiyuan Guo,Lingzhi Sui,Jiantao Qiu,Jincheng Yu,IEEE Transactions onComputer-Aided Design of Integrated Circuits and Systems,Vol 37,No.1,2018,公开了一种MAC阵列电路结构,采用对卷积循环(1)、(2)、(4)并行展开的策略,通过多个乘法单元并行计算后接加法树的结构实现了高数据复用率,但是该结构的并行乘法模式导致计算单元在卷积运算的大部分时间内处于空闲状态,而且控制逻辑复杂,存在计算效率低、硬件资源利用率低的缺点。在轻量级应用或资源限定的应用场合,该文献所公开的MAC阵列电路结构难以得到实现和应用。目前的研究所实现的数据流和MAC阵列电路结构难以同时达到高数据复用率、高硬件资源利用率和高计算效率的目的。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种用于一维神经网络的全流水线型MAC阵列电路设计,旨在充分提高卷积神经网络硬件计算的数据复用率、硬件效率和计算效率,提升整体性能。
为实现上述目的,本发明设计了一种用于卷积神经网络的全流水线乘加单元阵列电路,包括多个乘加单元,所述多个乘加单元的排布方式为:单个乘加单元沿着第一方向重复排列n个,所述n个乘加单元通过级联的方式连接在一起形成乘加子模块;所述乘加子模块沿着第二方向重复排列m个形成乘加核模块;所述乘加核模块沿着第三方向重复排列i个形成一个包含n*m*i个所述乘加单元的所述阵列电路;其中m,n和i为不小于2的整数;所述第一、第二和第三方向均不同。
可选地,每个所述乘加子模块用于对卷积核一个通道内部权值参数与输入数据的乘加操作进行运算,所述乘加核模块内的多个所述乘加子模块分别用于对卷积核不同通道的权值参数与输入数据的乘加操作进行运算;沿着所述第三方向重复排列的多个所述乘加核模块用于对不同卷积核与输入参数的乘加操作进行运算。
可选地,沿着所述第三方向重复排列的多个所述乘加核模块的使能信号相同;在单个乘加核模块内,沿着所述第二方向的多个乘加子模块的使能信号也相同;在单个乘加子模块内,沿着所述第一方向的多个乘加单元的使能信号各不相同;因此阵列电路总共设有n个使能信号。
可选地,所述的用于卷积神经网络的全流水线乘加单元阵列电路还包括数据缓存器,用于缓存输入数据;所述数据缓存器与所述多个乘加单元的数据输入端连接,从而将输入数据输入到所述多个乘加单元。
可选地,所述的用于卷积神经网络的全流水线乘加单元阵列电路还包括权值参数缓存器,用于缓存权值参数;所述权值参数缓存器与所述多个乘加单元的权值输入端连接,用于在乘加运算开始前装载权值参数。
可选地,所述权值参数装载一次后就不再变换。
可选地,所述的用于卷积神经网络的全流水线乘加单元阵列电路还包括偏置参数缓存器、累加器和FIFO(First In First Out,先进先出)单元,所述偏置参数缓存器用于缓存偏置参数;每个偏置参数缓存器的输出端连接至一个累加器的一个输入端,每个乘加子模块的数据输出端连接至所述累加器的另一个输入端;每个所述累加器的输出端连接至一个FIFO单元的输入端,所述FIFO单元的输出端连接至所述累加器的第三输入端。
可选地,所述的用于卷积神经网络的全流水线乘加单元阵列电路还包括控制器,用于产生控制信号,分别完成对所述数据缓存器、权值参数缓存器、偏置参数缓存器、FIFO单元的读写控制以及对所述多个乘加单元的使能控制。
可选地,每个所述乘加单元包括乘法器、加法器和D触发器;所述乘法器的输入端分别用于输入数据、权值参数和使能信号,所述乘法器的输出端与所述D触发器的输入端连接,所述D触发器的输出端与所述加法器的一个输入端连接,所述加法器的中间变量输入端用于输入中间变量,所述加法器的输出端作为所述乘加单元的数据输出端。
可选地,在所述乘加子模块内,上一个加法器的输出端连接至下一个加法器的中间变量输入端,最后一个加法器的输出端作为所述乘加子模块的输出端输出运算结果,第一个加法器的中间变量输入端输入0。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明的电路结构,在卷积运算的过程中,输入数据连接到了所有纵向维度和侧向维度的MAC单元数据输入端,有效提升了的数据空间复用率;权值参数在乘加运算开始前装载一次后就不再变化,增大了的权值参数时间复用率;纵向维度MAC单元的级联结构,实现了中间变量在MAC阵列内部的流动,无需额外缓存,大幅降低了系统缓存容量,从电路结构上提升了整体系统性能。
(2)本发明的系统结构,通过控制模块产生MAC单元激活使能信号,实现MAC阵列纵向维度的流水线式运行,横向维度和侧向维度的并行运行,同时完成对数据缓存器、权值参数缓存区和偏置缓存区的读写控制,使得计算数据的装载时序能够配合MAC阵列的流水线结构,保证卷积运算的正确性。减少了卷积操作的运算时间,提高了运算单元的计算效率,从系统结构上提升了整体系统性能。
附图说明
图1为本发明实施例提供的MAC阵列电路结构图;
图2A为本发明实施例提供的MAC单元电路结构图;
图2B为本发明实施例提供的纵向维度MAC单元级联电路结构图;
图2C为本发明实施例提供的MAC核模块结构示意图;
图3为MAC阵列使能信号连接示意图;
图4为本发明实施例提供的全流水线型MAC阵列电路结构图;
图5为本发明实施例提供的MAC阵列电路流水线式运行结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
请参照图1,本申请实施例提供了一种MAC阵列,包括多个MAC单元。所述多个MAC单元的排布方式为:单个MAC单元沿着第一方向A1重复排列n个,所述n个MAC单元通过级联的方式连接在一起形成MAC子模块102;所述MAC子模块102沿着第二方向A2重复排列m个形成MAC核模块104;所述MAC核模块104沿着第三方向A3重复排列i个形成一个包含n*m*i个所述MAC单元的所述阵列电路。其中m,n和i为不小于2的整数,作为一个具体的例子,图1中示出的n=5,m=4,i=4,然而,这仅仅是一个例子,并不能限制m,n和i的值。所述第一、第二和第三方向均不同,在图1示出的例子中,第一方向为纵向,第二方向为侧向,第三方向为横向。所述阵列电路为一个三维立体阵列。
具体地,如图1所示,每个所述MAC子模块102用于对卷积核一个通道内部权值参数与输入数据的乘加操作进行运算。同一个MAC子模块102内的各个MAC单元共用同一个数据总线106,输入数据。同一个MAC子模块102内的各个MAC单元分别连接不同的权值参数线108,输入不同的权值参数。不同MAC子模块102采用相同的权值参数线108,权值参数以相同的方式输入到不同的MAC子模块102中。所述MAC核模块104内的多个所述MAC子模块102分别用于对卷积核不同通道的权值参数与输入数据的乘加操作进行运算。沿着所述第三方向A3重复排列的多个所述MAC核模块104用于对不同卷积核与输入参数的乘加操作进行运算。每个MAC子模块102的输出端110输出该通道的运算结果。
具体地,如图2A所示,每个所述MAC单元包括乘法器120、加法器124和D触发器122。所述乘法器120的输入端分别用于输入数据、权值参数和使能信号,所述乘法器120的输出端与所述D触发器122的输入端连接,所述D触发器122的输出端与所述加法器124的一个输入端连接,所述加法器的中间变量输入端用于输入中间变量,所述加法器124的输出端作为所述MAC单元的数据输出端。
图2B示出了多个MAC单元的级联结构。在所述MAC子模块102内,上一个的加法器的输出端连接至下一个加法器的中间变量输入端,最后一个加法器的输出端作为所述MAC子模块102的输出端输出运算结果,第一个加法器的中间变量输入端输入0。每个MAC单元的数据输入端通过数据总线106输入数据,权值参数输入端则输入权值参数。
图2C示出了5×1的单卷积核的MAC阵列图,包括20个MAC单元11-54。以图2C的卷积核为例,其运算公式如下:
p11=w11 1x11+w21 1x21+w31 1x31+w41 1x41+w51 1x51+w12 1x12+w22 1x22+…+b1
p21=w11 1x21+w21 1x31+w31 1x41+w41 1x51+w51 1x61+w12 1x22+w22 1x32+…+b1
........
其中,p,w,x,b分别表示卷积输出、权值参数、输入数据和偏置参数。每个参数相同位置的上下标含义相同,以wij l为例,下标i代表单通道内部MAC单元标号,j代表不同通道的标号,上标l代表卷积核标号。
在本申请的实施例中,沿着所述第三方向A3重复排列的多个所述MAC核模块的使能信号相同。以图3为例,在A3方向上总共有4个MAC核模块,每个MAC核模块都采用了EN1-EN5共5个使能信号,而且使能信号在每个MAC核模块内的连接方式也相同。在单个MAC核模块内,沿着所述第二方向A2的多个MAC子模块的使能信号也相同。以图3为例,并结合图2C,每个MAC子模块都采用了EN1-EN5共5个使能信号,而且使能信号在每个MAC子模块内的连接方式也完全相同。在单个MAC子模块内,沿着所述第一方向A1的多个MAC单元的使能信号各不相同。以图3为例,每个MAC单元分别连接一个使能信号,即分别连接使能信号EN1-EN5。因此阵列电路总共设有n个使能信号。
图4示出了一个具体的用于卷积神经网络的全流水线MAC阵列电路。如图4所示,该阵列电路包括MAC阵列100和数据缓存器200。所述数据缓存器200用于缓存输入数据。所述数据缓存器200与所述多个MAC单元的数据输入端连接,从而将输入数据输入到所述多个MAC单元。
进一步地,如图4所示,该阵列电路还包括权值参数缓存器300,用于缓存权值参数。所述权值参数缓存器300与所述多个MAC单元的权值输入端连接,用于在乘加运算开始前装载权值参数。所述权值参数装载一次后就不再变换。
进一步地,如图4所示,该阵列电路还包括偏置参数缓存器400、累加器500和FIFO单元600。所述偏置参数缓存器400用于缓存偏置参数。每个偏置参数缓存器400的输出端连接至一个累加器500的一个输入端,每个MAC子模块102的数据输出端连接至所述累加器500的另一个输入端;每个所述累加器500的输出端连接至一个FIFO单元600的输入端,所述FIFO单元600的输出端连接至所述累加器500的第三输入端。
进一步地,如图4所示,该阵列电路还包括控制器700,用于产生控制信号,分别完成对所述数据缓存器200、权值参数缓存器300、偏置参数缓存器400、FIFO单元600的读写控制以及对所述多个MAC单元的使能控制。
图5为本发明实施例的MAC阵列电路流水线式运行结构图,该图横轴以时钟周期为坐标,纵轴为纵向维度MAC单元的使能情况,其中前5个周期在输入数据x的同时输入权值参数w,权值参数装载一次后就不再变化,输入数据x每个周期均会变化。前5个周期内,纵向维度的MAC级联结构从MAC1开始逐周期激活,并在第5周期时全部激活,从第6周期开始输出计算结果;在单层卷积计算的最后5个周期内,纵向维度的MAC级联结构从MAC1开始逐周期灭活,最终完成单层的卷积计算,输出全部计算结果。该流水线式运行模式,能够使得MAC阵列在卷积运算过程中得到充分的利用,在整个卷积周期内仅有8个周期MAC阵列存在空闲,有效提高了计算资源的计算效率。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用于卷积神经网络的全流水线乘加单元阵列电路,其特征在于,包括多个乘加单元,所述多个乘加单元的排布方式为:单个乘加单元沿着第一方向重复排列n个,所述n个乘加单元通过级联的方式连接在一起形成乘加子模块;所述乘加子模块沿着第二方向重复排列m个形成乘加核模块;所述乘加核模块沿着第三方向重复排列i个形成一个包含n*m*i个所述乘加单元的所述阵列电路;其中m,n和i为不小于2的整数;所述第一、第二和第三方向均不同。
2.根据权利要求1所述的用于卷积神经网络的全流水线乘加单元阵列电路,其特征在于,每个所述乘加子模块用于对卷积核一个通道内部权值参数与输入数据的乘加操作进行运算,所述乘加核模块内的多个所述乘加子模块分别用于对卷积核不同通道的权值参数与输入数据的乘加操作进行运算;沿着所述第三方向重复排列的多个所述乘加核模块用于对不同卷积核与输入参数的乘加操作进行运算。
3.根据权利要求1所述的用于卷积神经网络的全流水线乘加单元阵列电路,其特征在于,沿着所述第三方向重复排列的多个所述乘加核模块的使能信号相同;在单个乘加核模块内,沿着所述第二方向的多个乘加子模块的使能信号也相同;在单个乘加子模块内,沿着所述第一方向的多个乘加单元的使能信号各不相同;因此阵列电路总共设有n个使能信号。
4.根据权利要求1所述的用于卷积神经网络的全流水线乘加单元阵列电路,其特征在于,还包括数据缓存器,用于缓存输入数据;所述数据缓存器与所述多个乘加单元的数据输入端连接,从而将输入数据输入到所述多个乘加单元。
5.根据权利要求4所述的用于卷积神经网络的全流水线乘加单元阵列电路,其特征在于,还包括权值参数缓存器,用于缓存权值参数;所述权值参数缓存器与所述多个乘加单元的权值输入端连接,用于在乘加运算开始前装载权值参数。
6.根据权利要求5所述的用于卷积神经网络的全流水线乘加单元阵列电路,其特征在于,所述权值参数装载一次后就不再变换。
7.根据权利要求5所述的用于卷积神经网络的全流水线乘加单元阵列电路,其特征在于,还包括偏置参数缓存器、累加器和FIFO单元,所述偏置参数缓存器用于缓存偏置参数;每个偏置参数缓存器的输出端连接至一个累加器的一个输入端,每个乘加子模块的数据输出端连接至所述累加器的另一个输入端;每个所述累加器的输出端连接至一个FIFO单元的输入端,所述FIFO单元的输出端连接至所述累加器的第三输入端。
8.根据权利要求7所述的用于卷积神经网络的全流水线乘加单元阵列电路,其特征在于,还包括控制器,用于产生控制信号,分别完成对所述数据缓存器、权值参数缓存器、偏置参数缓存器、FIFO单元的读写控制以及对所述多个乘加单元的使能控制。
9.根据权利要求1所述的用于卷积神经网络的全流水线乘加单元阵列电路,其特征在于,每个所述乘加单元包括乘法器、加法器和D触发器;所述乘法器的输入端分别用于输入数据、权值参数和使能信号,所述乘法器的输出端与所述D触发器的输入端连接,所述D触发器的输出端与所述加法器的一个输入端连接,所述加法器的中间变量输入端用于输入中间变量,所述加法器的输出端作为所述乘加单元的数据输出端。
10.根据权利要求9所述的用于卷积神经网络的全流水线乘加单元阵列电路,其特征在于,在所述乘加子模块内,上一个加法器的输出端连接至下一个加法器的中间变量输入端,最后一个加法器的输出端作为所述乘加子模块的输出端输出运算结果,第一个加法器的中间变量输入端输入0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011319639.8A CN112346704B (zh) | 2020-11-23 | 2020-11-23 | 一种用于卷积神经网络的全流水线型乘加单元阵列电路 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011319639.8A CN112346704B (zh) | 2020-11-23 | 2020-11-23 | 一种用于卷积神经网络的全流水线型乘加单元阵列电路 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112346704A true CN112346704A (zh) | 2021-02-09 |
CN112346704B CN112346704B (zh) | 2021-09-17 |
Family
ID=74365356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011319639.8A Active CN112346704B (zh) | 2020-11-23 | 2020-11-23 | 一种用于卷积神经网络的全流水线型乘加单元阵列电路 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112346704B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114741352A (zh) * | 2022-06-09 | 2022-07-12 | 杭州未名信科科技有限公司 | 一种基于fpga的双线性插值重采样实现方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104463324A (zh) * | 2014-11-21 | 2015-03-25 | 长沙马沙电子科技有限公司 | 一种基于大规模高性能集群的卷积神经网络并行处理方法 |
US20170124415A1 (en) * | 2015-11-04 | 2017-05-04 | Nec Laboratories America, Inc. | Subcategory-aware convolutional neural networks for object detection |
CN107862374A (zh) * | 2017-10-30 | 2018-03-30 | 中国科学院计算技术研究所 | 基于流水线的神经网络处理系统和处理方法 |
US20180144240A1 (en) * | 2016-11-21 | 2018-05-24 | Imec Vzw | Semiconductor cell configured to perform logic operations |
CN109409512A (zh) * | 2018-09-27 | 2019-03-01 | 西安交通大学 | 一种可灵活配置的神经网络计算单元、计算阵列及其构建方法 |
CN109784489A (zh) * | 2019-01-16 | 2019-05-21 | 北京大学软件与微电子学院 | 基于fpga的卷积神经网络ip核 |
CN110069444A (zh) * | 2019-06-03 | 2019-07-30 | 南京宁麒智能计算芯片研究院有限公司 | 一种计算单元、阵列、模块、硬件系统及实现方法 |
CN111242289A (zh) * | 2020-01-19 | 2020-06-05 | 清华大学 | 一种规模可扩展的卷积神经网络加速系统与方法 |
CN111899259A (zh) * | 2020-08-27 | 2020-11-06 | 海南大学 | 一种基于卷积神经网络的前列腺癌组织微阵列分级方法 |
US20200356344A1 (en) * | 2019-05-07 | 2020-11-12 | Hrl Laboratories, Llc | Bipolar all-memristor circuit for in-memory computing |
-
2020
- 2020-11-23 CN CN202011319639.8A patent/CN112346704B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104463324A (zh) * | 2014-11-21 | 2015-03-25 | 长沙马沙电子科技有限公司 | 一种基于大规模高性能集群的卷积神经网络并行处理方法 |
US20170124415A1 (en) * | 2015-11-04 | 2017-05-04 | Nec Laboratories America, Inc. | Subcategory-aware convolutional neural networks for object detection |
US20180144240A1 (en) * | 2016-11-21 | 2018-05-24 | Imec Vzw | Semiconductor cell configured to perform logic operations |
CN107862374A (zh) * | 2017-10-30 | 2018-03-30 | 中国科学院计算技术研究所 | 基于流水线的神经网络处理系统和处理方法 |
CN109409512A (zh) * | 2018-09-27 | 2019-03-01 | 西安交通大学 | 一种可灵活配置的神经网络计算单元、计算阵列及其构建方法 |
CN109784489A (zh) * | 2019-01-16 | 2019-05-21 | 北京大学软件与微电子学院 | 基于fpga的卷积神经网络ip核 |
US20200356344A1 (en) * | 2019-05-07 | 2020-11-12 | Hrl Laboratories, Llc | Bipolar all-memristor circuit for in-memory computing |
CN110069444A (zh) * | 2019-06-03 | 2019-07-30 | 南京宁麒智能计算芯片研究院有限公司 | 一种计算单元、阵列、模块、硬件系统及实现方法 |
CN111242289A (zh) * | 2020-01-19 | 2020-06-05 | 清华大学 | 一种规模可扩展的卷积神经网络加速系统与方法 |
CN111899259A (zh) * | 2020-08-27 | 2020-11-06 | 海南大学 | 一种基于卷积神经网络的前列腺癌组织微阵列分级方法 |
Non-Patent Citations (1)
Title |
---|
邹雪城等: "一种高性能可扩展双域模乘器的研究与设计", 《华中科技大学学报(自然科学版)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114741352A (zh) * | 2022-06-09 | 2022-07-12 | 杭州未名信科科技有限公司 | 一种基于fpga的双线性插值重采样实现方法及装置 |
CN114741352B (zh) * | 2022-06-09 | 2022-11-04 | 杭州未名信科科技有限公司 | 一种基于fpga的双线性插值重采样实现方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112346704B (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109447241B (zh) | 一种面向物联网领域的动态可重构卷积神经网络加速器架构 | |
CN109284817B (zh) | 深度可分离卷积神经网络处理架构/方法/系统及介质 | |
CN110458279B (zh) | 一种基于fpga的二值神经网络加速方法及系统 | |
CN108805266B (zh) | 一种可重构cnn高并发卷积加速器 | |
US10936941B2 (en) | Efficient data access control device for neural network hardware acceleration system | |
CN108108809B (zh) | 一种针对卷积神经元网络进行推理加速的硬件架构及其工作方法 | |
CN111445012B (zh) | 一种基于fpga的分组卷积硬件加速器及其方法 | |
CN108647773B (zh) | 一种可重构卷积神经网络的硬件互连系统 | |
CN110852428B (zh) | 基于fpga的神经网络加速方法和加速器 | |
CN109711533B (zh) | 基于fpga的卷积神经网络加速系统 | |
CN108170640B (zh) | 神经网络运算装置及应用其进行运算的方法 | |
CN109284824B (zh) | 一种基于可重构技术的用于加速卷积和池化运算的装置 | |
CN111860773B (zh) | 处理装置和用于信息处理的方法 | |
CN115018062A (zh) | 一种基于fpga的卷积神经网络加速器 | |
CN114781632A (zh) | 基于动态可重构脉动张量运算引擎的深度神经网络加速器 | |
CN115310037A (zh) | 矩阵乘法计算单元、加速单元、计算系统和相关方法 | |
CN112346704B (zh) | 一种用于卷积神经网络的全流水线型乘加单元阵列电路 | |
CN111582465A (zh) | 基于fpga的卷积神经网络加速处理系统、方法以及终端 | |
CN108647780B (zh) | 面向神经网络的可重构池化操作模块结构及其实现方法 | |
CN112862091B (zh) | 一种基于快速卷积的资源复用型神经网络硬件加速电路 | |
CN112799634B (zh) | 一种基于基22mdc ntt结构的高性能环多项式乘法器 | |
US20230128421A1 (en) | Neural network accelerator | |
Yin et al. | FPGA-based high-performance CNN accelerator architecture with high DSP utilization and efficient scheduling mode | |
CN113392963B (zh) | 基于fpga的cnn硬件加速系统设计方法 | |
CN114912596A (zh) | 面向稀疏卷积神经网络的多chiplet系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |