CN112966807A

CN112966807A - 基于存储资源受限fpga的卷积神经网络实现方法

Info

Publication number: CN112966807A
Application number: CN201911280774.3A
Authority: CN
Inventors: 王浩; 曹姗; 徐树公; 张舜卿
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2021-06-15
Anticipated expiration: 2039-12-13
Also published as: CN112966807B

Abstract

一种基于存储资源受限FPGA的卷积神经网络实现方法，利用卷积层处于神经网络中的不同的位置，对于靠前的大尺寸小通道的特征图层，采取按高度维度分块输入特征图和卷积核，缓存全部卷积核参数的方式进行缓存；对于靠后的小尺寸大通道的特征图层，采取按输入通道分块输入特征图和卷积核，缓存部分通道的全尺寸输入特征图和卷积核参数的方式进行缓存。本发明在不增加FPGA与外部存储器之间传输数据的前提下，针对大尺寸卷积神经网络和小存储资源FPGA都适用，充分利用卷积神经网络的特点，分层设计存储方案，节约片上的存储资源。

Description

基于存储资源受限FPGA的卷积神经网络实现方法

技术领域

本发明涉及的是一种神经网络应用领域的技术，具体是一种基于存储资源受限FPGA的卷积神经网络实现方法。

背景技术

卷积神经网络是目前最先进的人工智能算法之一，但卷积神经网络的优异性能是依赖大量参数进行大规模计算，例如典型的vgg16网络，参数量就高达1.38亿个，而乘加运算次数更是高达155亿次。所以对于传统的CPU平台很难高效地处理卷积神经网络模型，特别是对于需要实时处理的任务，如目标检测，人脸识别等情况会更加糟糕。

现有技术中有通过将特征图分块便于更好地计算，同时由于不同卷积核之间，不同通道之间的卷积运算互不影响，但由于卷积核存在大量的复用，需要以滑窗的形式遍历整个输入特征图，所以卷积核在一层计算中从始至终都需要存在，所以大多数的硬件实现都会选择将一层的权值参数全部存储在片上存储器中。但对于一些资源有限的FPGA并不能存储一层所有的权值参数，这时候可能需要反复从片外存储器中读取数据，相较于直接从片上存储器读取数据，片外存储器读取数据会占用更多的时间，同时会消耗更多的能量，从而阻碍在硬件上实现卷积神经网络。

发明内容

本发明针对现有技术在资源有限的FPGA上无法满足每一层的权值参数都能完全缓存在FPGA的片上存储器中的缺陷，提出一种基于存储资源受限FPGA的卷积神经网络实现方法，在不增加FPGA与外部存储器之间传输数据的前提下，针对大尺寸卷积神经网络和小存储资源FPGA都适用，充分利用卷积神经网络的特点，分层设计存储方案，节约片上的存储资源。

本发明是通过以下技术方案实现的：

本发明涉及一种基于存储资源受限FPGA的卷积神经网络实现方法，利用卷积层处于神经网络中的不同的位置，对于靠前的大尺寸小通道的特征图层，采取按高度维度分块输入特征图和卷积核，缓存全部卷积核参数的方式进行缓存；对于靠后的小尺寸大通道的特征图层，采取按输入通道分块输入特征图和卷积核，缓存部分通道的全尺寸输入特征图和卷积核参数的方式进行缓存。

由于卷积神经网络的从前向后的过程中，特征图的尺寸(对应图中正方体的长和高)会越来越小，而通道数(对应图中正方体的宽)会越来越大。本发明中靠后的小尺寸大通道的特征图层尺寸小于30*30像素，对应此时特征图的通道数相对较大；相应地，靠前的大尺寸小通道的特征图层尺寸大于等于30*30像素。

但针对不同的卷积神经网络，通道数会有不同的值。

所述的缓存全部卷积核参数是指：将每一层的卷积核参数全部缓存到片上存储器中，对输入特征图和输出特征图按高度维度分块，每当第一批的数据处理完成后，会从外部存储器中缓存新的一批输入特征图。同理对于输出特征图，每当本发明得到一行数据时，将其输出到外部存储器中，以便下一层使用。

所述的缓存部分通道的全尺寸输入特征图和卷积核参数是指：每一次缓存部分输入通道上的全尺寸输入特征图，以及同样长度输入通道上的所有卷积核参数；每当该批通道计算完成时，读取新一批通道数据并累加在当前输出特征图上直至完成所有通道上的计算。

技术效果

本发明整体解决了在资源有限的FPGA上无法满足每一层的权值参数都能完全缓存在FPGA的片上存储器的问题。

与现有技术相比，本发明适用范围广，针对大尺寸卷积神经网络和小存储资源FPGA都适用且显著地节约片上的存储资源。

附图说明

图1为本发明结构示意图；

图2为实施例中卷积神经网络特征图尺寸变化示意图；

图3为实施例中靠前层卷积硬件实现方法示意图；

图4为实施例中靠后层卷积硬件实现方法示意图；

图5为实施例中vgg16的FPGA实现资源利用情况示意图；

图6为实施例中VIPLFaceNet的FPGA实现资源利用情况示意图。

具体实施方式

如图1所示，为本实施例涉及一种基于存储资源受限FPGA的卷积神经网络架构，包括：权值缓存器、特征图的输入缓存器、特征图的输出缓存器和乘加单元，其中：权值缓存器和输入缓存器通过总线与片外DDR相连并分别用于存储权值参数和输入特征图参数，权值缓存器和输入缓存器分别将存储的参数传输到乘加单元中的乘法单元以完成乘法运算，乘法单元将乘法运算结果输出至乘加单元中的加法单元以完成加法运算，输出缓存器存储部分和数据，同时输出部分和数据到加法单元完成加法运算，输出缓存器通过总线将最终运算结果输出外部DDR中完成一层卷积运算。

所述的部分和数据是指：部分输入通道的数据相加的中间结果，如实施例中的部分输入通道就是指16个输入通道。

如图2所示，本实施例进一步涉及基于上述架构的参数优化缓存方法，针对卷积神经网络不同层的特点采用不同的分块缓存方法，使得大型卷积神经网络可以在资源有限的FPGA完成，同时避免反复从外部存储器读取数据，具体分为两个阶段，第一阶段是靠前层的卷积实现，第二阶段是靠后层的卷积实现。

如图3所示，为所述的按高度维度分块在靠前层卷积中的实现过程，由于靠前层的特征图尺寸很大，而卷积核的参数量又相对较少，因此将每一层的卷积核参数全部缓存到片上存储器中，对输入特征图和输出特征图按高度维度分块，每当第一批的数据处理完成后，会从外部存储器中缓存新的一批输入特征图。同理对于输出特征图，每当得到一行数据时，将其输出到外部存储器中，以便下一层使用，具体为：卷积的尺寸是3*3，所以每3行的特征图划分成一个特征子图，这样就会将一个大的特征图划分成许多小的特征图。每次只需要缓存一个特征子图到片上存储器中。

如图4所示，为本实施例对于靠后层的卷积实现方法，由于其特征图的尺寸已经变得很小，但是通道数将会变得非常大，这将会导致靠后层的卷积核的参数将会变得非常多，以致于片上的存储器不能完全缓存一行的卷积核参数，因此对输入特征图和卷积核按通道维度进行分块，每一次缓存部分输入通道上的全尺寸输入特征图以及同样长度输入通道上的所有卷积核参数；每当该批通道计算完成时，读取新一批通道数据并累加在当前输出特征图上直至完成所有通道上的计算。

所述的在通道维度进行分块采用但不限于：将一个32个通道的特征图以16个通道为一块分两个，每个16个通道的特征子图。

以通道维度进行分块，可以避免将整个卷积核全部读到片上存储，同时全尺寸的输入特征图读到片上，那么当部分输入通道的卷积核于这些部分通道的全尺寸输入特征图完成计算后，完全可以用新的卷积核参数来覆盖这些旧的参数，而无需重新开辟一段新的存储空间来存储这些数据。

如表1所示，为上述方法在卷积神经网络vgg16卷积层的网络结构的实现，靠前层的卷积核尺寸比较小，例如，第一层卷积核的参数量N₁＝3*3*3*64＝1728

当每个参数使用16位定点，那么第一层卷积核参数所需要的存储量为27Kbit。则最后一层卷积核的参数量N₂＝3*3*512*512＝2359296

同样当每个参数使用16位定点，那么最后一层卷积核参数所需要的存储量为36Mbit。可以发现随着卷积的深入，卷积核的通道数和个数会越来越大，参数量会高出一个量级。以Xilinx Zynq UltraScale+MPSoC ZCU102 FPGA为例，片上一共有912块BRAM，每块BRAM的存储大小为36Kbit，所以片上BRAM总的存储资源为32.1Mbit。显然片上的存储资源根本无法存储后面几层的卷积核参数。

同时可以发现第一层的输入特征图尺寸为224*224，总共有3个输入通道，最后一层的输入特征图尺寸为14*14，总共有512个输入通道。输入特征图随着卷积的深入，尺寸会越来越小，同时输入通道会越来越大。

综上，本实施例优选以卷积层8为分界点，因为卷积层8的输入尺寸开始变得很小，缓存一张完整尺寸的特征图的存储代价变得很小。对于前七层卷积，缓存一层卷积核所有的参数，同时对输入特征图按高度维度分块，每次缓存三行输入特征图的所有输入通道，这样三行输入特征图与所有的卷积核计算之后，得到一行输出特征图的所有通道的值，并将其输出到片外DDR存储器中，同时可以缓存新的一行输入特征图，并覆盖已经计算完成的一行输入特征图，以此循环完成一层的卷积运算。对于后6层数据，采取输入通道分块的策略，每16个输入通道为一块数据块，片上缓存16个输入通道的全部卷积核参数，同时缓存16个输入通道的全尺寸输入特征图。每当16个输入通道的卷积计算完成之后，得到一个完整尺寸输出特征图的部分和结果，同时缓存新一组16通道的输入特征图和卷积核参数。

如图5所示，为在Xilinx Zynq UltraScale+MPSoC ZCU102 FPGA上，使用本发明方法实现vgg16的资源利用情况，从图中可以看出，BRAM的使用达到了97％。在150MHz的频率下，检测单张图片需要0.72s的时间。

表1 vgg16卷积层网络结构

如表2所示，为上述方法在卷积神经网络VIPLFaceNet卷积层的网络结构上的具体实现，从表格中可以发现，该网络只有第一层的输入特征图的尺寸会比较大，其余层的特征图尺寸都比较小，所以本发明以第一层为分界点。第一层采取缓存所有卷积核的所有参数，对输入特征图采取行分块。因为第一层的卷积核的尺寸是9*9，所以为了便于所有层硬件可以复用，所以第一层的9*9的卷积核拆分成3*3*9，即第一层的输入通道将会变成27。

对于其余6层数据，采取输入通道分块的策略，同样每16个输入通道为一块数据块，片上缓存16个输入通道的全部卷积核参数，同时缓存16个输入通道的全尺寸输入特征图。每当16个输入通道的卷积计算完成之后，得到一个完整尺寸输出特征图的部分和结果，同时缓存新一组16通道的输入特征图和卷积核参数。图6所示的是在Xilinx ZynqUltraScale+MPSoC ZCU102 FPGA上，使用本方法实现VIPLFaceNet的资源利用情况，从图中可以看出，BRAM只使用了41％。在150MHz的频率下，检测单张图片需要0.074s的时间。

表2 VIPLFaceNet卷积层网络结构

层数	输入尺寸	卷积核尺寸	输出尺寸
				卷积层1	2282283	993*48	555548
卷积层2	272748	3348*128	2727128
				卷积层3	2727128	33128*128	2727128
卷积层4	1313128	33128*256	1313256
				卷积层5	1313256	33256*192	1313192
卷积层6	1313192	33192*192	1313192
				卷积层7	1313192	33192*128	1313128

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于存储资源受限FPGA的卷积神经网络实现方法，其特征在于，利用卷积层处于神经网络中的不同的位置，对于靠前的大尺寸小通道的特征图层，采取按高度维度分块输入特征图和卷积核，缓存全部卷积核参数的方式进行缓存；对于靠后的小尺寸大通道的特征图层，采取按输入通道分块输入特征图和卷积核，缓存部分通道的全尺寸输入特征图和卷积核参数的方式进行缓存；

所述的靠后的小尺寸大通道的特征图层尺寸小于30*30像素，相应地靠前的大尺寸小通道的特征图层尺寸大于等于30*30像素。

2.根据权利要求1所述的基于存储资源受限FPGA的卷积神经网络实现方法，其特征是，所述的缓存全部卷积核参数是指：将每一层的卷积核参数全部缓存到片上存储器中，对输入特征图和输出特征图按高度维度分块，每当第一批的数据处理完成后，会从外部存储器中缓存新的一批输入特征图，同理对于输出特征图，每当本发明得到一行数据时，将其输出到外部存储器中，以便下一层使用。

3.根据权利要求1所述的基于存储资源受限FPGA的卷积神经网络实现方法，其特征是，所述的缓存部分通道的全尺寸输入特征图和卷积核参数是指：每一次缓存部分输入通道上的全尺寸输入特征图，以及同样长度输入通道上的所有卷积核参数；每当该批通道计算完成时，读取新一批通道数据并累加在当前输出特征图上直至完成所有通道上的计算。

4.根据权利要求1所述的基于存储资源受限FPGA的卷积神经网络实现方法，其特征是，对输入特征图和卷积核按通道维度进行分块，每一次缓存部分输入通道上的全尺寸输入特征图以及同样长度输入通道上的所有卷积核参数；每当该批通道计算完成时，读取新一批通道数据并累加在当前输出特征图上直至完成所有通道上的计算。

5.根据权利要求4所述的基于存储资源受限FPGA的卷积神经网络实现方法，其特征是，所述的在通道维度进行分块采用：将一个32个通道的特征图以16个通道为一块分两个，每个16个通道的特征子图。

6.一种实现上述任一权利要求所述方法的卷积神经网络架构，其特征在于，包括：权值缓存器、特征图的输入缓存器、特征图的输出缓存器和乘加单元，其中：权值缓存器和输入缓存器通过总线与片外DDR相连并分别用于存储权值参数和输入特征图参数，权值缓存器和输入缓存器分别将存储的参数传输到乘加单元中的乘法单元以完成乘法运算，乘法单元将乘法运算结果输出至乘加单元中的加法单元以完成加法运算，输出缓存器存储部分和结果，同时输出部分和数据到加法单元完成加法运算，输出缓存器通过总线将最终运算结果输出外部DDR中完成一层卷积运算。