CN110390382B

CN110390382B - 一种带新型特征图缓存模块的卷积神经网络硬件加速器

Info

Publication number: CN110390382B
Application number: CN201910535251.2A
Authority: CN
Inventors: 张萌; 朱振宇; 刘子贤; 杨敏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2023-08-04
Anticipated expiration: 2039-06-20
Also published as: CN110390382A

Abstract

本发明公开了一种带新型特征图缓存模块的卷积神经网络硬件加速器，包括运算进程管理模块，用于管理卷积神经网络中单层卷积运算的进程；参数表模块，用于提供当前层卷积运算的卷积核权重参数；卷积运算模块，从特征图缓存模块中读取输入像素点，进行卷积运算，把输出像素点结果写回特征图缓存模块；新型特征图缓存模块，用于缓存卷积运算的输入特征图与输出特征图，其中的一种缓存存储空间与特征图的映射关系可以极大提高片上存储带宽；本发明的一种带新型特征图缓存模块的卷积神经网络硬件加速器，有着高的片上存储带宽，能良好支撑加速器的计算单元对数据供给速度的要求，在很多对计算性能有着高要求的场合中有非常大的应用价值。

Description

一种带新型特征图缓存模块的卷积神经网络硬件加速器

技术领域

本发明涉及电子信息以及深度学习技术领域，尤其涉及一种带新型特征图缓存模块的卷积神经网络硬件加速器。

背景技术

近年来深度学习技术发展火热，尤其是基于猫脑视觉皮层神经细胞工作机制构建的带独特感受野结构的卷积神经网络在视觉应用领域取得了巨大的成功，比如CNN在大型的图片分类数据集ImageNet上取得了超过人眼的识别正确率。但是这种强大的算法在走向实际应用的过程中碰到很大的障碍，这是因为CNN能有用武之地的真实世界应用很多都是在计算资源少的移动端设备上实现，如带AI能力的智能手机和智慧安防摄像头，而如今最为出名的CNN网络ResNet-50，它由50层基本结构堆叠而成，每层基本结构包含大量的卷积运算，这样的计算密集型算法如果不加以改造或者不针对其特点设计专门的加速硬件，直接在移动端设备的CPU上实现，难以满足很多应用对实时性的要求。

因此要真正让卷积神经网络在移动端设备运行起来，目前有两种途径达到这个目的。一种途径就是对网络进行轻量化改造，让它的网络结构更简单，运算量更少，比如模型压缩技术中的剪枝技术，参数量化技术中的二值网络XNOR-Net和改变卷积方式的轻型网络MobileNet等。另一种途径就是针对卷积神经网络的运算特点设计专门的芯片来对它进行硬件加速，由于卷积神经网络中的卷积运算占据了90％以上的计算量，所以一般是精心设计针对卷积过程进行加速的硬件结构。精心设计的卷积运算模块为了达到高的数据处理速度，通常堆叠了大量的并行计算单元，以提高计算性能。但是总的计算性能是由数据处理速度与数据供给速度共同决定，两者中的较低者决定了最终的计算性能，所以虽然精心设计的卷积运算模块能达到高的数据处理速度，但由于低存储带宽造成的低数据供给速度通常成为加速器的计算性能提高的瓶颈。

发明内容

发明目的：本发明的目的在于解决现有的卷积运算模块由于低存储带宽造成的低数据供给速度通常成为加速器的计算性能提高的瓶颈的问题。

技术方案：为解决上述问题，本发明提供以下技术方案：

一种带新型特征图缓存模块的卷积神经网络硬件加速器，包括：

运算进程管理模块：接受主控模块的控制，用于管理卷积神经网络中单层卷积运算的进程；

参数表模块：接受主控模块的配置，用于提供当前层卷积运算的卷积核参数；

卷积运算模块：从特征图缓存模块中读取输入像素点，进行卷积运算，把输出像素点结果写回特征图缓存模块；

新型特征图缓存模块：包括两块缓存，两块缓存在卷积神经网络的不同层交替地用来存储输入特征图与输出特征图。

进一步地，所述主控模块为至少包括CPU的控制器件。

进一步地，所述新型特征图缓存模块中的一块缓存是由多块静态随机存储器组成；一块缓存中的SRAM块数与单个卷积核中的权重参数数目相等，每块SRAM的深度为特征图像素点数除以单个卷积核中的权重参数数目。

进一步地，为了优化特征图像素点存取速度，设计了新型特征图缓存模块中的一块缓存的存储空间与特征图的映射关系，其具体映射关系如下：

设特征图的高为H，宽为W，方形卷积核的边长为K，且H与W均可以被K整除；那么该块缓存中有K*K块SRAM，分别把它们命名为MEM1,MEM2,MEM3,

……,MEMn,n＝K*K；特征图中坐标为(h,w)的像素点Xhw在缓存中占据的存储位置为MEMx[y]，其中

x＝(mod(h-1,K)+1)*K+mod(w-1,K)+1,y＝(ceil(h/K)-1)*(W/K)+ceil(w/K)-1；

式中mod()是求余计算，ceil()是向上取整计算。

进一步地，在所述一块缓存的存储空间与特征图的映射关系的规定下，在卷积核大小的方框任意地在输出特征图上框定的一片区域内，该区域内的所有像素点都各自存储在不同块SRAM中。

这样，明确了特征图在缓存中的具体分布方式。

在所述一块缓存的存储空间与特征图的映射关系的规定下，在卷积核大小的方框任意地在输出特征图上框定的一片区域内，该区域内的所有像素点都各自存储在不同块SRAM中。

有益效果：本发明与现有技术相比：

本发明有着高的片上存储带宽，可以为加速器中的计算单元提供高的数据供给速度，消除了低存储带宽限制加速器性能提高的瓶颈问题，从而提高了加速器的计算性能。其克服了现有的卷积加速硬件因数据供给速度低而造成的计算单元闲置的缺点，以高的数据供给速度充分支撑高的数据处理速度，让加速器高效率地工作，达到对卷积运算进行加速计算的目的。可见本发明的一种带新型特征图缓存模块的卷积神经网络硬件加速器在很多对计算性能有着高要求的场合中有非常大的应用价值。

附图说明

图1为本发明的卷积神经网络硬件加速器结构图；

图2为本发明的新型特征图缓存模块中缓存存储空间与特征图的映射关系示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明，下面结合具体实施方式对本发明作进一步的说明。

在用卷积核对输入特征图作卷积运算得出输出特征图的过程中，每次卷积运算可以得到输出特征图上的一个像素点，卷积核滑动到另外的区域作同样的卷积运算可以得到另外的输出特征图像素点，卷积核把输入特征图遍历就可以得到整张输出特征图，因此计算输出特征图的实质就是重复多次进行同样的卷积运算，只是输入不同。本发明也是按照这样的思路，只要设计进行一次卷积运算的硬件，再在时间上复用它即可达到计算完整输出特征图的目的，因此对本发明的具体实施方式阐释的重点在于阐释用本发明进行一次卷积加速的流程。下面以规格为5*5的输入特征图，规格为2*2的卷积核为例，结合附图对本发明的具体实施方式作进一步说明：

如图1所示，首先卷积运算模块以运算进程管理模块给出的坐标从特征图缓存模块中读取出当前的输入特征图像素点。

在同一时间，卷积运算模块还会从特征图缓存模块中把参与计算的所有输出特征图像素点已有的中间结果读取出来。经由精心设计的缓存的存储空间与特征图的映射关系排布，参与计算的所有输出特征图像素点都各自存储在不同块SRAM中，所以总能在一个时钟周内被读取出来，结合图2中的具体例子来阐释这种映射关系。

在图2的例子中，卷积框规格为2*2，输出特征图规格为4*4。对于这种情况，要用4块SRAM来存储整张输出特征图，依次命名为MEM1、MEM2、MEM3及MEM4，为了更直观地说明这种映射关系，为各块SRAM分别安排不同灰度的四种灰色，直接在输出特征图的像素点上着这4种灰度不同的灰色以指示该像素点被存储在哪块SRAM中，对于同样的灰度色块并不意味着这些像素点存在同样的地址中，同样的灰度色块按照从左至右从上至下的排序对应同一块SRAM的地址空间。这样一张图就能很清晰明了地说明缓存的存储空间与特征图像素点的映射关系，也即哪个像素点被存在哪块SRAM的哪个地址，比如图2中的左上角像素中写了字符串MEM1[0]，意味着用MEM1存储器的0地址来存这个像素点。接下来说明，为何经由这种映射关系，参与计算的所有输出特征图像素点都各自存储在不同块SRAM中。还是由图2的例子来进行说明，由之前说明容易得出规律：参与计算的所有输出特征图像素点构成的集合在输出特征图上是一个跟卷积核同样规格的方形，在图2中就是两个白色虚线方框，易知这样大小的一个方形在输出特征图上滑动时，滑动到任意位置，这个方形所包含的色块都是灰度不一样的色块，就像图2中的每个白色方框包含的4个色块都是灰度不一样的色块，也就是说参与计算的所有输出特征图像素点都各自存储在不同块SRAM中。

在获得了当前输入特征图像素点后，就会同时进行所有多个卷积运算中的单个乘法运算。

上述步骤完成后，卷积运算模块就得到了多个卷积运算的单个乘法结果和输出特征图多个像素点中间结果，再把它们对应地加起来就得到了输出特征图多个像素点新一次累加的中间结果，其中的对应关系就是哪个乘积结果对哪个输出特征图像素点贡献了乘积分量，那么它们就相加。最后把更新的输出像素点它们写回到特征图缓存模块中。

以上的所有步骤完成，就完成了一次卷积运算。在运算进程管理模块的控制下，把整张输入特征图扫描遍历，其中每个输入特征图像素点都按如上步骤进行处理，那么本发明就完成了一次完整的输入特征图与卷积核的卷积运算，可以得到完整的输出特征图。

Claims

1.一种带新型特征图缓存模块的卷积神经网络硬件加速器，其特征在于，包括：

运算进程管理模块：接受主控模块的控制，用于管理卷积神经网络中单层卷积运算的进程；所述主控模块为至少包括CPU的控制器件；

新型特征图缓存模块：包括两块缓存，两块缓存在卷积神经网络的不同层交替地用来存储输入特征图与输出特征图；所述新型特征图缓存模块中的一块缓存是由多块静态随机存储器组成；一块缓存中的SRAM块数与单个卷积核中的权重参数数目相等，每块SRAM的深度为特征图像素点数除以单个卷积核中的权重参数数目；为了优化特征图像素点存取速度，设计了新型特征图缓存模块中的一块缓存的存储空间与特征图的映射关系，其具体映射关系如下：

x＝(mod(h-1,K)+1)*K+mod(w-1,K)+1,y＝(ceil(h/K)-1)*(W/K)+ceil(w/K)-1；

式中mod()是求余计算，ceil()是向上取整计算。

2.根据权利要求1所述的带新型特征图缓存模块的卷积神经网络硬件加速器，其特征在于，在一块缓存的存储空间与特征图的映射关系的规定下，在卷积核大小的方框任意地在输出特征图上框定的一片区域内，该区域内的所有像素点都各自存储在不同块SRAM中。