CN112346704A

CN112346704A - 一种用于卷积神经网络的全流水线型乘加单元阵列电路

Info

Publication number: CN112346704A
Application number: CN202011319639.8A
Authority: CN
Inventors: 刘冬生; 陆家昊; 成轩; 魏来; 刘子龙; 李奥博; 徐影雄; 马贤
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-02-09
Anticipated expiration: 2040-11-23
Also published as: CN112346704B

Abstract

本发明公开了一种用于卷积神经网络的全流水线乘加单元阵列电路，其特征在于，包括多个乘加单元，所述多个乘加单元的排布方式为：单个乘加单元沿着第一方向重复排列n个，所述n个乘加单元通过级联的方式连接在一起形成乘加子模块；所述乘加子模块沿着第二方向重复排列m个形成乘加核模块；所述乘加核模块沿着第三方向重复排列i个形成一个包含n*m*i个所述乘加单元的所述阵列电路；其中m,n和i为不小于2的整数；所述第一、第二和第三方向均不同。本发明的电路能够有效提高数据的复用率，充分减少了运算单元的空闲时间，增大了卷积运算硬件实现的效率。

Description

一种用于卷积神经网络的全流水线型乘加单元阵列电路

技术领域

本发明属于人工智能算法硬件实现领域，更具体地，涉及一种用于卷积神经网络的全流水线型乘加单元((Multiplication and Accumulation,MAC))阵列电路。

背景技术

在大数据时代背景下，传统CPU的性能已不足以支撑人工智能算法中的大规模数据运算，其通用运算单元的结构设计极大的限制了算法预测判断的速度，而擅长大规模并行运算的GPU因其高昂的成本和能耗难以得到大规模应用，因此针对需要庞大计算量和吞吐量的人工智能算法设计专用的硬件电路，具有广泛的应用前景。

卷积神经网络算法是人工智能算法中应用最为广泛的算法之一，它一般由卷积层、池化层和全连接层组成。其中卷积层的卷积运算是该算法的核心计算模式，其运算包含有四层嵌套循环的乘加运算：(1)卷积核单通道内的乘加运算；(2)卷积核不同通道的乘加运算；(3)输入特征序列长度方向维度不同数据的乘加运算；(4)不同卷积核的乘加运算。对嵌套循环的不同展开方式直接决定了硬件电路，尤其是核心模块MAC阵列的电路结构。另外，卷积神经网络存在庞大的计算量和数据量，而卷积运算包含有大量重复数据的乘加运算，如何设计数据流，使得能够尽可能提升硬件计算中的数据复用率，使得硬件计算资源得到充分利用，同时控制逻辑简单易实现，是卷积神经网络算法硬件设计所面临的一个严峻挑战。

文献“Angel-Eye:A Complete Design Flow for Mapping CNN Onto EmbeddedFPGA”,Kaiyuan Guo,Lingzhi Sui,Jiantao Qiu,Jincheng Yu,IEEE Transactions onComputer-Aided Design of Integrated Circuits and Systems,Vol 37,No.1,2018,公开了一种MAC阵列电路结构，采用对卷积循环(1)、(2)、(4)并行展开的策略，通过多个乘法单元并行计算后接加法树的结构实现了高数据复用率，但是该结构的并行乘法模式导致计算单元在卷积运算的大部分时间内处于空闲状态，而且控制逻辑复杂，存在计算效率低、硬件资源利用率低的缺点。在轻量级应用或资源限定的应用场合，该文献所公开的MAC阵列电路结构难以得到实现和应用。目前的研究所实现的数据流和MAC阵列电路结构难以同时达到高数据复用率、高硬件资源利用率和高计算效率的目的。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种用于一维神经网络的全流水线型MAC阵列电路设计，旨在充分提高卷积神经网络硬件计算的数据复用率、硬件效率和计算效率，提升整体性能。

为实现上述目的，本发明设计了一种用于卷积神经网络的全流水线乘加单元阵列电路，包括多个乘加单元，所述多个乘加单元的排布方式为：单个乘加单元沿着第一方向重复排列n个，所述n个乘加单元通过级联的方式连接在一起形成乘加子模块；所述乘加子模块沿着第二方向重复排列m个形成乘加核模块；所述乘加核模块沿着第三方向重复排列i个形成一个包含n*m*i个所述乘加单元的所述阵列电路；其中m,n和i为不小于2的整数；所述第一、第二和第三方向均不同。

可选地，每个所述乘加子模块用于对卷积核一个通道内部权值参数与输入数据的乘加操作进行运算，所述乘加核模块内的多个所述乘加子模块分别用于对卷积核不同通道的权值参数与输入数据的乘加操作进行运算；沿着所述第三方向重复排列的多个所述乘加核模块用于对不同卷积核与输入参数的乘加操作进行运算。

可选地，沿着所述第三方向重复排列的多个所述乘加核模块的使能信号相同；在单个乘加核模块内，沿着所述第二方向的多个乘加子模块的使能信号也相同；在单个乘加子模块内，沿着所述第一方向的多个乘加单元的使能信号各不相同；因此阵列电路总共设有n个使能信号。

可选地，所述的用于卷积神经网络的全流水线乘加单元阵列电路还包括数据缓存器，用于缓存输入数据；所述数据缓存器与所述多个乘加单元的数据输入端连接，从而将输入数据输入到所述多个乘加单元。

可选地，所述的用于卷积神经网络的全流水线乘加单元阵列电路还包括权值参数缓存器，用于缓存权值参数；所述权值参数缓存器与所述多个乘加单元的权值输入端连接，用于在乘加运算开始前装载权值参数。

可选地，所述权值参数装载一次后就不再变换。

可选地，所述的用于卷积神经网络的全流水线乘加单元阵列电路还包括偏置参数缓存器、累加器和FIFO(First In First Out，先进先出)单元，所述偏置参数缓存器用于缓存偏置参数；每个偏置参数缓存器的输出端连接至一个累加器的一个输入端，每个乘加子模块的数据输出端连接至所述累加器的另一个输入端；每个所述累加器的输出端连接至一个FIFO单元的输入端，所述FIFO单元的输出端连接至所述累加器的第三输入端。

可选地，所述的用于卷积神经网络的全流水线乘加单元阵列电路还包括控制器，用于产生控制信号，分别完成对所述数据缓存器、权值参数缓存器、偏置参数缓存器、FIFO单元的读写控制以及对所述多个乘加单元的使能控制。

可选地，每个所述乘加单元包括乘法器、加法器和D触发器；所述乘法器的输入端分别用于输入数据、权值参数和使能信号，所述乘法器的输出端与所述D触发器的输入端连接，所述D触发器的输出端与所述加法器的一个输入端连接，所述加法器的中间变量输入端用于输入中间变量，所述加法器的输出端作为所述乘加单元的数据输出端。

可选地，在所述乘加子模块内，上一个加法器的输出端连接至下一个加法器的中间变量输入端，最后一个加法器的输出端作为所述乘加子模块的输出端输出运算结果，第一个加法器的中间变量输入端输入0。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明的电路结构，在卷积运算的过程中，输入数据连接到了所有纵向维度和侧向维度的MAC单元数据输入端，有效提升了的数据空间复用率；权值参数在乘加运算开始前装载一次后就不再变化，增大了的权值参数时间复用率；纵向维度MAC单元的级联结构，实现了中间变量在MAC阵列内部的流动，无需额外缓存，大幅降低了系统缓存容量，从电路结构上提升了整体系统性能。

(2)本发明的系统结构，通过控制模块产生MAC单元激活使能信号，实现MAC阵列纵向维度的流水线式运行，横向维度和侧向维度的并行运行，同时完成对数据缓存器、权值参数缓存区和偏置缓存区的读写控制，使得计算数据的装载时序能够配合MAC阵列的流水线结构，保证卷积运算的正确性。减少了卷积操作的运算时间，提高了运算单元的计算效率，从系统结构上提升了整体系统性能。

附图说明

图1为本发明实施例提供的MAC阵列电路结构图；

图2A为本发明实施例提供的MAC单元电路结构图；

图2B为本发明实施例提供的纵向维度MAC单元级联电路结构图；

图2C为本发明实施例提供的MAC核模块结构示意图；

图3为MAC阵列使能信号连接示意图；

图4为本发明实施例提供的全流水线型MAC阵列电路结构图；

图5为本发明实施例提供的MAC阵列电路流水线式运行结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

请参照图1，本申请实施例提供了一种MAC阵列，包括多个MAC单元。所述多个MAC单元的排布方式为：单个MAC单元沿着第一方向A1重复排列n个，所述n个MAC单元通过级联的方式连接在一起形成MAC子模块102；所述MAC子模块102沿着第二方向A2重复排列m个形成MAC核模块104；所述MAC核模块104沿着第三方向A3重复排列i个形成一个包含n*m*i个所述MAC单元的所述阵列电路。其中m,n和i为不小于2的整数，作为一个具体的例子，图1中示出的n＝5，m＝4，i＝4，然而，这仅仅是一个例子，并不能限制m,n和i的值。所述第一、第二和第三方向均不同，在图1示出的例子中，第一方向为纵向，第二方向为侧向，第三方向为横向。所述阵列电路为一个三维立体阵列。

具体地，如图1所示，每个所述MAC子模块102用于对卷积核一个通道内部权值参数与输入数据的乘加操作进行运算。同一个MAC子模块102内的各个MAC单元共用同一个数据总线106，输入数据。同一个MAC子模块102内的各个MAC单元分别连接不同的权值参数线108，输入不同的权值参数。不同MAC子模块102采用相同的权值参数线108，权值参数以相同的方式输入到不同的MAC子模块102中。所述MAC核模块104内的多个所述MAC子模块102分别用于对卷积核不同通道的权值参数与输入数据的乘加操作进行运算。沿着所述第三方向A3重复排列的多个所述MAC核模块104用于对不同卷积核与输入参数的乘加操作进行运算。每个MAC子模块102的输出端110输出该通道的运算结果。

具体地，如图2A所示，每个所述MAC单元包括乘法器120、加法器124和D触发器122。所述乘法器120的输入端分别用于输入数据、权值参数和使能信号，所述乘法器120的输出端与所述D触发器122的输入端连接，所述D触发器122的输出端与所述加法器124的一个输入端连接，所述加法器的中间变量输入端用于输入中间变量，所述加法器124的输出端作为所述MAC单元的数据输出端。

图2B示出了多个MAC单元的级联结构。在所述MAC子模块102内，上一个的加法器的输出端连接至下一个加法器的中间变量输入端，最后一个加法器的输出端作为所述MAC子模块102的输出端输出运算结果，第一个加法器的中间变量输入端输入0。每个MAC单元的数据输入端通过数据总线106输入数据，权值参数输入端则输入权值参数。

图2C示出了5×1的单卷积核的MAC阵列图，包括20个MAC单元11-54。以图2C的卷积核为例，其运算公式如下：

p₁₁＝w₁₁ ¹x₁₁+w₂₁ ¹x₂₁+w₃₁ ¹x₃₁+w₄₁ ¹x₄₁+w₅₁ ¹x₅₁+w₁₂ ¹x₁₂+w₂₂ ¹x₂₂+…+b¹

p₂₁＝w₁₁ ¹x₂₁+w₂₁ ¹x₃₁+w₃₁ ¹x₄₁+w₄₁ ¹x₅₁+w₅₁ ¹x₆₁+w₁₂ ¹x₂₂+w₂₂ ¹x₃₂+…+b¹

........

其中，p,w,x,b分别表示卷积输出、权值参数、输入数据和偏置参数。每个参数相同位置的上下标含义相同，以w_ij ^l为例，下标i代表单通道内部MAC单元标号，j代表不同通道的标号，上标l代表卷积核标号。

在本申请的实施例中，沿着所述第三方向A3重复排列的多个所述MAC核模块的使能信号相同。以图3为例，在A3方向上总共有4个MAC核模块，每个MAC核模块都采用了EN1-EN5共5个使能信号，而且使能信号在每个MAC核模块内的连接方式也相同。在单个MAC核模块内，沿着所述第二方向A2的多个MAC子模块的使能信号也相同。以图3为例，并结合图2C，每个MAC子模块都采用了EN1-EN5共5个使能信号，而且使能信号在每个MAC子模块内的连接方式也完全相同。在单个MAC子模块内，沿着所述第一方向A1的多个MAC单元的使能信号各不相同。以图3为例，每个MAC单元分别连接一个使能信号，即分别连接使能信号EN1-EN5。因此阵列电路总共设有n个使能信号。

图4示出了一个具体的用于卷积神经网络的全流水线MAC阵列电路。如图4所示，该阵列电路包括MAC阵列100和数据缓存器200。所述数据缓存器200用于缓存输入数据。所述数据缓存器200与所述多个MAC单元的数据输入端连接，从而将输入数据输入到所述多个MAC单元。

进一步地，如图4所示，该阵列电路还包括权值参数缓存器300，用于缓存权值参数。所述权值参数缓存器300与所述多个MAC单元的权值输入端连接，用于在乘加运算开始前装载权值参数。所述权值参数装载一次后就不再变换。

进一步地，如图4所示，该阵列电路还包括偏置参数缓存器400、累加器500和FIFO单元600。所述偏置参数缓存器400用于缓存偏置参数。每个偏置参数缓存器400的输出端连接至一个累加器500的一个输入端，每个MAC子模块102的数据输出端连接至所述累加器500的另一个输入端；每个所述累加器500的输出端连接至一个FIFO单元600的输入端，所述FIFO单元600的输出端连接至所述累加器500的第三输入端。

进一步地，如图4所示，该阵列电路还包括控制器700，用于产生控制信号，分别完成对所述数据缓存器200、权值参数缓存器300、偏置参数缓存器400、FIFO单元600的读写控制以及对所述多个MAC单元的使能控制。

图5为本发明实施例的MAC阵列电路流水线式运行结构图，该图横轴以时钟周期为坐标，纵轴为纵向维度MAC单元的使能情况，其中前5个周期在输入数据x的同时输入权值参数w，权值参数装载一次后就不再变化，输入数据x每个周期均会变化。前5个周期内，纵向维度的MAC级联结构从MAC1开始逐周期激活，并在第5周期时全部激活，从第6周期开始输出计算结果；在单层卷积计算的最后5个周期内，纵向维度的MAC级联结构从MAC1开始逐周期灭活，最终完成单层的卷积计算，输出全部计算结果。该流水线式运行模式，能够使得MAC阵列在卷积运算过程中得到充分的利用，在整个卷积周期内仅有8个周期MAC阵列存在空闲，有效提高了计算资源的计算效率。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于卷积神经网络的全流水线乘加单元阵列电路，其特征在于，包括多个乘加单元，所述多个乘加单元的排布方式为：单个乘加单元沿着第一方向重复排列n个，所述n个乘加单元通过级联的方式连接在一起形成乘加子模块；所述乘加子模块沿着第二方向重复排列m个形成乘加核模块；所述乘加核模块沿着第三方向重复排列i个形成一个包含n*m*i个所述乘加单元的所述阵列电路；其中m,n和i为不小于2的整数；所述第一、第二和第三方向均不同。

2.根据权利要求1所述的用于卷积神经网络的全流水线乘加单元阵列电路，其特征在于，每个所述乘加子模块用于对卷积核一个通道内部权值参数与输入数据的乘加操作进行运算，所述乘加核模块内的多个所述乘加子模块分别用于对卷积核不同通道的权值参数与输入数据的乘加操作进行运算；沿着所述第三方向重复排列的多个所述乘加核模块用于对不同卷积核与输入参数的乘加操作进行运算。

3.根据权利要求1所述的用于卷积神经网络的全流水线乘加单元阵列电路，其特征在于，沿着所述第三方向重复排列的多个所述乘加核模块的使能信号相同；在单个乘加核模块内，沿着所述第二方向的多个乘加子模块的使能信号也相同；在单个乘加子模块内，沿着所述第一方向的多个乘加单元的使能信号各不相同；因此阵列电路总共设有n个使能信号。

4.根据权利要求1所述的用于卷积神经网络的全流水线乘加单元阵列电路，其特征在于，还包括数据缓存器，用于缓存输入数据；所述数据缓存器与所述多个乘加单元的数据输入端连接，从而将输入数据输入到所述多个乘加单元。

5.根据权利要求4所述的用于卷积神经网络的全流水线乘加单元阵列电路，其特征在于，还包括权值参数缓存器，用于缓存权值参数；所述权值参数缓存器与所述多个乘加单元的权值输入端连接，用于在乘加运算开始前装载权值参数。

6.根据权利要求5所述的用于卷积神经网络的全流水线乘加单元阵列电路，其特征在于，所述权值参数装载一次后就不再变换。

7.根据权利要求5所述的用于卷积神经网络的全流水线乘加单元阵列电路，其特征在于，还包括偏置参数缓存器、累加器和FIFO单元，所述偏置参数缓存器用于缓存偏置参数；每个偏置参数缓存器的输出端连接至一个累加器的一个输入端，每个乘加子模块的数据输出端连接至所述累加器的另一个输入端；每个所述累加器的输出端连接至一个FIFO单元的输入端，所述FIFO单元的输出端连接至所述累加器的第三输入端。

8.根据权利要求7所述的用于卷积神经网络的全流水线乘加单元阵列电路，其特征在于，还包括控制器，用于产生控制信号，分别完成对所述数据缓存器、权值参数缓存器、偏置参数缓存器、FIFO单元的读写控制以及对所述多个乘加单元的使能控制。

9.根据权利要求1所述的用于卷积神经网络的全流水线乘加单元阵列电路，其特征在于，每个所述乘加单元包括乘法器、加法器和D触发器；所述乘法器的输入端分别用于输入数据、权值参数和使能信号，所述乘法器的输出端与所述D触发器的输入端连接，所述D触发器的输出端与所述加法器的一个输入端连接，所述加法器的中间变量输入端用于输入中间变量，所述加法器的输出端作为所述乘加单元的数据输出端。

10.根据权利要求9所述的用于卷积神经网络的全流水线乘加单元阵列电路，其特征在于，在所述乘加子模块内，上一个加法器的输出端连接至下一个加法器的中间变量输入端，最后一个加法器的输出端作为所述乘加子模块的输出端输出运算结果，第一个加法器的中间变量输入端输入0。