CN110765411A

CN110765411A - 一种卷积神经网络中卷积运算数据复用装置

Info

Publication number: CN110765411A
Application number: CN201910837270.0A
Authority: CN
Inventors: 陶常勇; 刘勤让; 沈剑良; 宋克; 朱珂; 高彦钊; 陈艇; 王元磊; 林德伟; 张波; 张钦元; 张霞; 赵玉林; 闻亮
Original assignee: Tianjin Binhai New Area Information Technology Innovation Center; Tianjin Core Haichuang Technology Co Ltd
Current assignee: Tianjin Binhai New Area Information Technology Innovation Center; Tianjin Core Haichuang Technology Co Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2020-02-07

Abstract

本发明提供了一种卷积神经网络中卷积运算数据复用装置，包括4个RAM、一个数据整形复用器、以及一组乘累加计算单元，其中，第一RAM和第二RAM为真双端口ram，用于存放输入的待计算图像，第三ram用于存储卷积核，第四ram于存储乘累加后的结果；数据整形复用器包括一组D触发器搭建的时序电路，实现了对数据的复用；乘累加计算单元包括乘累加单元，多组乘累加单元组合在一起并行计算，构成一个乘累加计算单元。本发明通过构建一个数据整形复用器，实现了前后两个时钟周期数据的复用，使得每个时钟周期只读取部分数据到数据整形复用器中，通过在数据整形复用器中适当的移位操作就可以组合成下一排计算所需要的全部数据。

Description

一种卷积神经网络中卷积运算数据复用装置

技术领域

本发明涉及一种卷积神经网络中卷积运算数据复用装置。

背景技术

随着人工智能时代的到来，以卷积神经网络(ConvolutionNeuralNetwork，简称CNN)为代表的深度神经网络，已经广泛应用于图像分类、物体检测、视频监控等领域。然而，在以CPU或GPU为中心的通用计算系统中，难以应对CNN中大量的数据搬运和复杂的计算带来的挑战，尤其是CNN网络中计算规模最大的卷积核计算。以一副图像进行3x3卷积核计算为例，在计算的过程中存在大量的数据复用情况的发生，若每次计算都需要CPU从内存中读取9个待计算数据和9个卷积核数值，则最多时一幅图像内的同一个数据需要重复读取9次，当有9个卷积核需要同时计算时，则同一个数据需要重复读取81次。CPU大量的时间都会花费在数据的搬移上，大大影响了运算执行的效率。

发明内容

有鉴于此，本发明旨在提出一种卷积神经网络中卷积运算数据复用装置，以解决同一数据被大量重复从内存频繁搬移的问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种卷积神经网络中卷积运算数据复用装置，包括4个RAM、一个数据整形复用器、以及一组乘累加计算单元，其中，

第一RAM和第二RAM为真双端口ram，连接数据整形复用器，用于存放输入的待计算图像，第三ram连接乘累加计算单元，用于存储卷积核，第四ram连接乘累加计算单元，用于存储乘累加后的结果；

数据整形复用器包括一组D触发器搭建的时序电路，实现了对数据的复用；

乘累加计算单元包括乘累加单元，多组乘累加单元组合在一起并行计算，构成一个乘累加计算单元，其中，乘累加单元包括一个乘法器和一个加法器。

进一步的，所述数据整形复用器包括四个行移位器，每一个行移位器内部包括深度为4宽度为1的移位寄存器，移位寄存器包括4个D触发器，在行移位器内部，数据移位的方向可以在两个方向上移位，在4个行移位器之间，也可以在两个方向上移位。

进一步的，所述数据整形复用器中，第一行移位器的输出端通过选通器连接第二行移位器，第四行移位器的输出端通过选通器连接第三行移位器，第二行移位器的输入端通过选通器连接第四行移位器的输入端，第一行移位器的输入端通过选通器连接第三行移位器的输入端，第一行移位器的输入端通过选通器连接第四行移位器的输入端。

进一步的，设计数据整形复用器4种动作，分别为上移、下移、左移、右移，

当左移发生时，每个行移位器中，第二D触发器reg2的数据存入第一D触发器reg1中，第三D触发器reg3的数据存入第二D触发器reg2中，第四D触发器reg4的数据存入第三D触发器reg3中，从ram中读出的数据分别存入每个行移位器的第四D触发器reg4中；

当右移发生时，每个行移位器中，第三D触发器reg3的数据存入第四D触发器reg4中，第二D触发器reg2的数据存入第三D触发器reg3中，第一D触发器reg1的数据存入第二D触发器reg2中，从ram中读出的数据分别存入每个行移位器的第一D触发器reg1中；

当上移发生时，第二行移位器中的数据存入第一行移位器中，第三行移位器中的数据存入第二行移位器中，第四行移位器中的输入存入第三行移位器中，从ram读出的数据存入第四行移位器中；

当下移发生时，第三行移位器中的数据存入第四行移位器中，第二行移位器中的数据存入第三行移位器中，第一行移位器中的数据存入第二行移位器中，从ram中读出的数据存入第一行移位器中。

相对于现有技术，本发明所述的一种卷积神经网络中卷积运算数据复用装置具有以下优势：

(1)本发明大幅降低了多个乘累加并行加速计算时对ram接口数据吞吐量的压力；

(2)本发明的数据整形复用器的电路只通过多组移位寄存器即可实现四个方向上的移动，电路结构实现简单；

(3)运用本发明的电路结构，数据整形复用器仅与乘累加加速单元的数量相关，而对乘累加加速单元原则上没有形状的限制，并不限定为正方形或矩阵形式，也不限定卷积神经网络的具体算法、卷积核尺寸和神经元数量，因此适用于所有存在大量数据复用的卷积运算中。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的实施例中卷积神经网络中卷积运算数据复用装置的结构示意图；

图2为本发明实施例所述的调整后的控制逻辑计算流程示意图；

图3为本发明实施例所述的PxQ个数据位置关系示意图；

图4为本发明实施例所述的数据整形复用器的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面将参考附图并结合实施例来详细说明本发明。

如图1所示，本发明提供一种卷积神经网络中卷积运算数据复用装置，共由四个RAM、一个数据整形复用器和一组乘累加计算单元组成，其中ram1和ram2为真双端口ram，用来存放输入的待计算图像，ram3用来存储卷积核，ram4用来存储乘累加后的结果。数据整形复用器由一组D触发器搭建的时序电路组成，实现了对数据的复用。一个乘法器和一个加法器构成一个乘累加单元，多组乘累加单元组合在一起并行计算，构成了一个乘累加并行加速计算部件。

假设并行乘累加单元的数量为N个，每个乘累加单元可以完成一个图像点的卷积计算，考虑到多组计算同时进行，则可由N个乘累加公式同时开展运算,为达到最优的数据复用效果，假设公式N＝Q*P成立，则有如下公式表述计算过程：

式中，y表示输出图像中某一元素；

x表示输入图像的某一元素；

k表示卷积核的某一个值；

K表示卷积核的尺寸，卷积核的元素数目为K²个，对于某种卷积神经网络的某一层而言一般为一个常数，不同层的卷积核可能有所不同；

H的值与K值相关，当K为奇数时，

当K为偶数时，

考虑到每个公式由一个乘累加单元独立完成计算，多个乘累加单元并行工作，因此，在每个时钟周期，需要数据整形复用器输出N个输入图像x的数值和1个卷积核的k值。

如果再考虑到一副图像需要针对S个卷积核进行计算，则公式会变为：

式中，S表示卷积核的数量。

通过仔细观察上述公式，可以看到如下规律：

1)当某个时钟周期增加或减小1时，移位缓存阵列中只有Q个数据发生了更新，需要从RAM中重新读取；

2)当某个时钟周期r增加或减小1时，移位缓存阵列中只有P个数据发生了更新，需要从RAM中重新读取；

3)当某个时钟周期s增加或减小1时，移位缓存阵列的输出保持不变，只有卷积核的卷积值k需要更新。

因此，如果控制逻辑的计算顺序，使得同一时钟周期内l、r和s不会同时发生变化时，则每个时钟数据整形复用器从ram中读取的数据量不会超过P和Q最大值个数据。为了实现这一目的，可将每个计算公式调整为：

这样调整后，l、r和s的变化过程如图2所示，图2中定义了l_inr变量控制l变化的方向时递增还是递减的。

当P或Q的值比较大时，在ram的位宽和缓存设计中可以考虑将PxQ个数据按照位置关系平均分成16份，保存在两个RAM中，如图3所示，PxQ的第一组数据存放在RAM1的地址1里，第二组数据存放在RAM2的地址1里，第三组数据存放在RAM1的地址2里，依次类推。

在数据整形复用器中，需要设计Q组移位寄存器，每个移位寄存器的深度为P，当l变化1时，根据l变化的方向，每个移位寄存器均发生移位，移位的步进为1，宽度为1bit；当r发生变化时，则在Q组移位寄存器间进行移位，移位的步进为1，宽度为Pbit。因此，可将数据整形复用器的动作分为四类，右移、左移、下移、上移。具体情况下面根据一个具体实例予以说明。

为了更好的说明以上逻辑结构与工作过程，本文以一个实例为例详细进行说明，实例中假设卷积核的尺寸为3x3，因此K值为3；卷积核的数量为2，因此S的值为2；实例中乘累加的数量为16个，每个时钟周期可以进行16次乘加运算，因此N为16，P的值为4，Q的值为4。

输入图像在ram中的存储方式如表1所示，输入图像第一行的第一个元素存放在ram1的地址1里，用1.1表示；第二个元素存放在ram2的地址1里，用2.1表示；其他的元素一次类推；

表1

1.1	2.1	1.2	2.2	1.3	2.3	1.4	2.4	1.5	2.5
										2.6	1.6	2.7	1.7	2.8	1.8	2.9	1.9	2.10	1.10
1.11	2.11	1.12	2.12	1.13	2.13	1.14	2.14	1.15	2.15
										2.16	1.16	2.17	1.17	2.18	1.18	2.19	1.19	2.20	1.20
1.21	2.21	1.22	2.22	1.23	2.23	1.24	2.24	1.25	2.25
										2.26	1.26	2.27	1.27	2.28	1.28	2.29	1.29	2.30	1.30

数据整形复用器内部逻辑结构如图4所示，图中，由四个行移位器组成，每一个行移位器内部由深度为4宽度为1的移位寄存器组成。在行移位器内部，数据移位的方向可以在两个方向上移位。在4个行移位器之间，也可以在两个方向上移位。为此，我们可以把数据整形复用器设计为4种动作，分别为上移、下移、左移、右移。

当左移发生时，每个行移位器中，reg2的数据存入reg1中，reg3的数据存入reg2中，reg4的数据存入reg3中，从ram中读出的数据分别存入每个行移位器的reg4中。

当右移发生时，每个行移位器中，reg3的数据存入reg4中，reg2的数据存入reg3中，reg1的数据存入reg2中，从ram中读出的数据分别存入每个行移位器的reg1中。

当上移发生时，行移位器2中的数据存入行移位器1中，行移位器3中的数据存入行移位器2中，行移位器4中的输入存入行移位器3中，从ram读出的数据存入行移位器4中；

当下移发生时，行移位器3中的数据存入行移位器4中，行移位器2中的数据存入行移位器3中，行移位器1中的数据存入行移位器2中，从ram中读出的数据存入行移位器1中。

则按照以上计算公式，完成16个公式的乘加计算需要18个时钟周期，这18个时钟周期输入到乘累加单元的数据如表2所示：

表2

表中斜体字为本周期需要从ram中读取的数据。

可以看到，当卷积核数量为1时，平均每个时钟周期只从ram中读取四个输入图像数据，当卷积核2时，平均每个时钟周期只需要从ram中读取2个输入图像数据即可。

应用本发明描述的逻辑电路，通过构建一个数据整形复用器，实现了前后两个时钟周期数据的复用，使得每个时钟周期只读取部分数据到数据整形复用器中，通过在数据整形复用器中适当的移位操作就可以组合成下一排计算所需要的全部数据，降低了多个乘累加单元并行执行时对ram接口访问的带宽需求，并且所设计的数据整形复用器的逻辑电路与乘累加单元的数量强相关，而与所采用的CNN算法、卷积核尺寸、神经元数量等信息无关。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种卷积神经网络中卷积运算数据复用装置，其特征在于：包括4个RAM、一个数据整形复用器、以及一组乘累加计算单元，其中，

2.根据权利要求1所述的一种卷积神经网络中卷积运算数据复用装置，其特征在于：所述数据整形复用器包括四个行移位器，每一个行移位器内部包括深度为4宽度为1的移位寄存器，移位寄存器包括4个D触发器，在行移位器内部，数据移位的方向可以在两个方向上移位，在4个行移位器之间，也可以在两个方向上移位。

3.根据权利要求2所述的一种卷积神经网络中卷积运算数据复用装置，其特征在于：所述数据整形复用器中，第一行移位器的输出端通过选通器连接第二行移位器，第四行移位器的输出端通过选通器连接第三行移位器，第二行移位器的输入端通过选通器连接第四行移位器的输入端，第一行移位器的输入端通过选通器连接第三行移位器的输入端，第一行移位器的输入端通过选通器连接第四行移位器的输入端。

4.根据权利要求2所述的一种卷积神经网络中卷积运算数据复用装置，其特征在于：设计数据整形复用器4种动作，分别为上移、下移、左移、右移，