CN110363284A

CN110363284A - 一种带新型卷积运算加速模块的卷积神经网络硬件加速器

Info

Publication number: CN110363284A
Application number: CN201910535291.7A
Authority: CN
Inventors: 张萌; 朱振宇; 贾贤飞; 柳飞扬
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-10-22

Abstract

本发明公开了一种带新型卷积运算加速模块的卷积神经网络硬件加速器，包括运算进程管理模块；参数表模块；特征图缓存模块；新型卷积运算加速模块；新型卷积运算加速模块包括：输入特征图预取模块，从特征图缓存读取输入像素点；乘积模块，将输入像素点与卷积核权重相乘；输出特征图存取模块，负责从特征图缓存读取输出像素点旧中间结果，把输出像素点新中间结果写回特征图缓存；累加模块，完成乘积模块的运算结果与输出像素点旧中间结果的累加工作。本发明的一种带新型卷积运算加速模块的卷积神经网络硬件加速器，可以对卷积神经网络中的卷积运算过程进行加速，在很多有着低数据传输带宽，低功耗和逻辑资源少特点的移动端设备中有很大的应用价值。

Description

一种带新型卷积运算加速模块的卷积神经网络硬件加速器

技术领域

本发明涉及电子信息以及深度学习技术领域，尤其涉及一种带新型卷积运算加速模块的卷积神经网络硬件加速器。

背景技术

近年来深度学习技术发展火热，尤其是基于猫脑视觉皮层神经细胞工作机制构建的带独特感受野结构的卷积神经网络在视觉应用领域取得了巨大的成功，比如CNN在大型的图片分类数据集ImageNet上取得了超过人眼的识别正确率。但是这种强大的算法在走向实际应用的过程中碰到很大的障碍，这是因为CNN能有用武之地的真实世界应用很多都是在计算资源少的移动端设备上实现，如带AI能力的智能手机和智慧安防摄像头，而如今最为出名的CNN网络ResNet-50，它由50层基本结构堆叠而成，每层基本结构包含大量的卷积运算，这样的计算密集型算法如果不加以改造或者不针对其特点设计专门的加速硬件，直接在移动端设备的CPU上实现，难以满足很多应用对实时性的要求。

因此要真正让卷积神经网络在移动端设备运行起来，目前有两种途径达到这个目的。一种途径就是对网络进行轻量化改造，让它的网络结构更简单，运算量更少，比如模型压缩技术中的剪枝技术，参数量化技术中的二值网络XNOR-Net和改变卷积方式的轻型网络MobileNet等。另一种途径就是针对卷积神经网络的运算特点设计专门的芯片来对它进行硬件加速，由于卷积神经网络中的卷积运算占据了90％以上的计算量，所以一般是精心设计针对卷积过程进行加速的硬件结构。如何设计硬件以让卷积计算的更快，一般是从3个方面着手去考虑，一是让卷积运算包含的乘法和加法运算数量更少以让运算更快地完成，二是数据传输带宽更大以更快的获取到卷积运算需要的操作数，三是精心设计数据重用机制以求能够在低传输带宽下也能快速计算完卷积。对于上面说到的3个方面，已经有了实际的解决方案。图形处理器厂商英伟达发布的卷积神经网络开源硬件架构NVDLA中用到的Winograd卷积法就减少了乘法数目，但是它的加法数目变得更多了。有方案使用有更大位宽数据线的片上总线来提高特征图像素点的传输带宽，但是对于很多实时应用，如实时动作识别，要输入进行处理的像素点数据是直接从诸如摄像头这样的外设传递过来的，这些外设供给数据的速度一般就是一个时钟周内一个像素点，数据供给端的低带宽使得数据总线的位宽变得再宽无济于事。还有方案较好地利用了数据的重用性，把后续计算还需要用到的输入数据用寄存器缓存下来，这样后面在需要这个数据的时候就直接从寄存器拿取而不需要重新从外部读取，节约了时间，但是这样做的缺点是为缓存数据而增加的寄存器会消耗很多的D触发器资源，这对于FPGA或是ASIC的实现都是不好的。

发明内容

发明目的：本发明的目的在于解决现有的卷积神经网络运行方法的三种途径仍然存在要么加法数目变得更多，要么数据供给端的低带宽使得数据总线的位宽变得再宽无济于事，要么为缓存数据而增加的寄存器会消耗很多的D触发器资源，这对于FPGA或是ASIC的实现都是不好的，三种途径无法互相顾及，存在相互抵触的问题。

技术方案：为解决上述问题，本发明提供以下技术方案：

一种带新型卷积运算加速模块的卷积神经网络硬件加速器，包括：

运算进程管理模块，接受主控模块的控制，用于管理卷积神经网络中单层卷积运算的进程；

特征图缓存模块，用于缓存卷积运算的输入特征图与输出特征图；

新型卷积运算加速模块，包括了输入特征图预取模块、乘积模块、输出特征图存取模块和累加模块，用于对卷积运算进行加速计算；

参数表模块，接受主控模块的配置，用于提供当前层卷积运算的卷积核参数。

上述中，主控模块可采用如CPU等的控制器件。

进一步地，所述新型卷积运算加速模块包括：

所述新型卷积运算加速模块包括：

输入特征图预取模块，从特征图缓存模块读取当前卷积运算需要的输入特征图像素点；

乘积模块，将输入特征图像素点与对应卷积核参数相乘；

输出特征图存取模块，先从特征图缓存读取当前卷积运算涉及的所有输出特征图像素点已有的中间结果，待累加模块完成工作后，把当前卷积运算涉及的所有输出特征图像素点新的中间结果写回特征图缓存；

累加模块，完成乘积模块的运算结果与输出特征图存取模块读取的输出特征图像素点已有中间结果的累加工作；

所述输入特征图预取模块对输入特征图的每个像素点只读取一次，不会重复访存以降低功耗，且用完就可以丢弃，不需要缓存下来，减少了逻辑资源的消耗。

进一步地，所述输入特征图预取模块读取卷积神经网络第一层的输入特征图像素点时是从能够提供图像视频数据的外部模块获取，包括但不限于总线和摄像头等模块。

进一步地，所述乘积模块将输入特征图像素点与对应卷积核参数相乘的同时进行面向输出特征图多个像素点的多个卷积运算中的单个乘法运算，运算结果送至累加模块。

所述乘积模块中的乘法运算是把输入特征图像素点与对应的卷积核参数相乘。

进一步地，所述累加模块会从乘积模块获取所有卷积运算的单个乘法结果，从输出特征图预取模块获取读取到的输出特征图多个像素点中间结果，把它们对应地加起来得到了输出特征图多个像素点新一次累加的中间结果，并送给输出特征图存取模块。

所述乘积模块会把有当前输入特征图像素点参与的所有卷积运算中的乘法运算一次性运算完，达到完全地复用数据的目的，避免后面再重复读取该输入特征图像素点。

进一步地，所述乘积模块在每个时钟周期处理输入特征图一个像素点的运算时，只输出输出特征图像素点对应的完整卷积运算的部分结果，该部分结果贡献了输出特征图像素点的加法分量。

进一步地，所述输出特征图存取模块在输入特征图预取模块读取输入特征图像素点的同一个时钟周期内，会把有当前输入特征图像素点参与对它们的计算的所有输出特征图像素点中间结果从特征图缓存模块中读取出来，并送至累加模块。

进一步地，所述输出特征图存取模块从按所述映射关系存储特征图的特征图缓存模块中读取当前卷积运算需要的所有输出特征图像素点时，需要的所有输出特征图像素点都各自被存储在不同的SRAM中，因为总能够在一个时钟周内将需要的所有输出特征图像素点读取出来。

进一步地，所述输出特征图存取模块在获取累加模块的运算结果后，会在一个时钟周内把运算结果写回到特征图缓存模块中与它上一次读取特征图缓存时同样的位置。

进一步地，所述乘积模块和累加模块运算涉及到的输出特征图多个像素点是指的当前输入特征图像素点参与的所有卷积运算对应的输出特征图像素点。

有益效果：本发明与现有技术相比：

本发明的一种带新型卷积运算加速模块的卷积神经网络硬件加速器，可以降低片外存储带宽对加速性能的限制，从而可以对卷积神经网络中占据大量计算量的卷积运算过程进行加速。其克服了现有的卷积加速硬件需要大的数据传输带宽或是需要大量D触发器作为缓存的缺点，充分利用了数据的重用性，不需要重复访存降低了功耗，不需要缓存减少了逻辑资源的消耗，做到了在一个时钟周期只提供一个像素点数据的极低数据传输带宽条件下，也能完成卷积加速计算的目的。可见本发明的一种带新型卷积运算加速模块的卷积神经网络硬件加速器在很多有着低数据传输带宽，低功耗和逻辑资源少特点的移动端设备中有非常大的应用价值。

附图说明

图1为本发明的卷积神经网络硬件加速器结构图；

图2为本发明的卷积运算加速模块工作流程示意图。

具体实施方式

下面结合具体实施方式对本发明作进一步的说明。

在用卷积核对输入特征图作卷积运算得出输出特征图的过程中，每次卷积运算可以得到输出特征图上的一个像素点，卷积核滑动到另外的区域作同样的卷积运算可以得到另外的输出特征图像素点，卷积核把输入特征图遍历就可以得到整张输出特征图，因此计算输出特征图的实质就是重复多次进行同样的卷积运算，只是输入不同。本发明也是按照这样的思路，只要设计进行一次卷积运算的硬件，再在时间上复用它即可达到计算完整输出特征图的目的，因此对本发明的具体实施方式阐释的重点在于阐释用本发明进行一次卷积运算的流程。下面以规格为5*5的输入特征图，规格为2*2的卷积核为例，结合附图对本发明的具体实施方式作进一步说明：

如图1所示，首先输入特征图预取模块以运算进程管理模块给出的坐标从特征图缓存中读取出当前的输入特征图像素点，在读取完后送给乘积模块。

在同一时间，输出特征图存取模块会从特征图缓存模块中把有当前输入特征图像素点参与计算的所有输出特征图像素点已有的中间结果读取出来并送给累加模块。为了更清晰地说明上述的有当前输入特征图像素点参与计算的所有输出特征图像素点的含义，结合图2中的具体例子来阐释。在图2中，左边是规格为2*2的卷积核，中间是一张输入特征图，右边是对应的输出特征图。中图中灰色像素点为当前输入特征图像素点，可以看到它的周围分别有不同线型的4个卷积框都包含了它，且除此之外没有任何其他卷积框会包含它，这也意味着这个当前输入特征图像素点参与了这4个卷积运算，也是它参与的所有卷积运算，而右边输出特征图上的4个灰色的输出特征图像素点是这4个卷积运算的结果，也就是说，这4个灰色的输出特征图像素点就是有当前输入特征图像素点参与计算的所有输出特征图像素点。

乘积模块获得了当前输入特征图像素点后，就会同时进行有当前输入特征图像素点参与计算的所有多个卷积运算中的单个乘法运算，并将运算结果送至累加模块。结合图2的具体例子来说明有当前输入特征图像素点参与计算的所有多个卷积运算的含义，以及单个乘法运算的含义。中图的灰色点代表的当前输入特征图像素点被周围的4个不同线型卷积框给包含，且除此之外没有其他卷积框会包含它，那么在这个具体情景中，这4个卷积框对应的卷积运算就是上述的有当前输入特征图像素点参与计算的所有多个卷积运算。而单个乘法运算是指的这4个卷积运算中的单个乘法，比如对于中图的左上角卷积框对应的完整卷积运算的数学表达式是y11＝w11*x11+w12*x12+w21*x21+w22*x22，灰色的当前输入特征图像素点x22只是这个表达式中输入特征图4个像素点中的一个，它只对这个运算贡献了一个乘积分量w22*x22，上述的单个乘法就是指的这个乘法，因为当前输入特征图像素点参与了多个卷积运算，所以会有多个卷积运算的单个乘法。

上述步骤完成后，累加模块就从乘积模块获取到了多个卷积运算的单个乘法结果，从特征图预取模块获取了读取到的输出特征图多个像素点中间结果，把它们对应地加起来得到了输出特征图多个像素点新一次累加的中间结果，并送给输出特征图存取模块。其中的对应关系就是哪个乘积结果对哪个输出特征图像素点贡献了乘积分量，那么它们就相加。还是以图2来说明这种对应关系，比如中图左上角卷积框中的乘积分量w22*x22对右图左上角的输出特征图像素点y11贡献了一个乘积分量，那么w22*x22就应该与y11这个输出特征图像素点已有中间结果相加。由于前述的输入特征图扫描顺序，灰色的当前输入特征图像素点是中图左上角卷积框中4个输入特征图像素点中最后输入的一个，所以此刻其余3个输入特征图像素点已经完成过计算，那么此时从特征图缓存中读出的y11像素点的中间结果应该是y11temp＝w11*x11+w12*x12+w21*x21，再加上此时灰色输入特征图像素点对他贡献的乘积分量w22*x22，像素点y11的完整值就被计算了出来。而其他3个输出特征图像素点由于灰色的当前输入特征图像素点还不是它们的最后一个输入特征图像素点，所以加上各自的乘积分量后还只得到了累加后更新的中间结果。

在累加模块完成累加，给出输出特征图像素点的更新后的中间结果后，会由输出特征图存取模块负责把它们写回到特征图缓存模块中。

以上的所有步骤完成，就完成了对一个输入特征图像素点的处理。在运算进程管理模块的控制下，把整张输入特征图扫描遍历，其中每个输入特征图像素点都按如上步骤进行处理，那么本发明就完成了一次完整的输入特征图与卷积核的卷积运算，可以得到完整的输出特征图。

Claims

1.一种带新型卷积运算加速模块的卷积神经网络硬件加速器，其特征在于，包括：

2.根据权利要求1所述的带新型卷积运算加速模块的卷积神经网络硬件加速器，其特征在于，所述新型卷积运算加速模块包括：

乘积模块，将输入特征图像素点与对应卷积核参数相乘；

累加模块，完成乘积模块的运算结果与输出特征图存取模块读取的输出特征图像素点已有中间结果的累加工作。

3.根据权利要求2所述的带新型卷积运算加速模块的卷积神经网络硬件加速器，其特征在于，所述输入特征图预取模块读取卷积神经网络第一层的输入特征图像素点时是从能够提供图像视频数据的外部模块获取。

4.根据权利要求2所述的带新型卷积运算加速模块的卷积神经网络硬件加速器，其特征在于，所述乘积模块将输入特征图像素点与对应卷积核参数相乘的同时进行面向输出特征图多个像素点的多个卷积运算中的单个乘法运算，运算结果送至累加模块。

5.根据权利要求4所述的带新型卷积运算加速模块的卷积神经网络硬件加速器，其特征在于，所述累加模块会从乘积模块获取所有卷积运算的单个乘法结果，从输出特征图预取模块获取读取到的输出特征图多个像素点中间结果，把它们对应地加起来得到了输出特征图多个像素点新一次累加的中间结果，并送给输出特征图存取模块。

6.根据权利要求2所述的带新型卷积运算加速模块的卷积神经网络硬件加速器，其特征在于，所述乘积模块在每个时钟周期处理输入特征图一个像素点的运算时，只输出输出特征图像素点对应的完整卷积运算的部分结果，该部分结果贡献了输出特征图像素点的加法分量。

7.根据权利要求2所述的带新型卷积运算加速模块的卷积神经网络硬件加速器，其特征在于，所述输出特征图存取模块在输入特征图预取模块读取输入特征图像素点的同一个时钟周期内，会把有当前输入特征图像素点参与对它们的计算的所有输出特征图像素点中间结果从特征图缓存模块中读取出来，并送至累加模块。

8.根据权利要求2所述的带新型卷积运算加速模块的卷积神经网络硬件加速器，其特征在于，所述输出特征图存取模块从按所述映射关系存储特征图的特征图缓存模块中读取当前卷积运算需要的所有输出特征图像素点时，需要的所有输出特征图像素点都各自被存储在不同的SRAM中。

9.根据权利要求2所述的带新型卷积运算加速模块的卷积神经网络硬件加速器，其特征在于，所述输出特征图存取模块在获取累加模块的运算结果后，会在一个时钟周内把运算结果写回到特征图缓存模块中与它上一次读取特征图缓存时同样的位置。

10.根据权利要求4或5所述的带新型卷积运算加速模块的卷积神经网络硬件加速器，其特征在于，所述乘积模块和累加模块运算涉及到的输出特征图多个像素点是指的当前输入特征图像素点参与的所有卷积运算对应的输出特征图像素点。