CN113033794A

CN113033794A - 基于深度可分离卷积的轻量级神经网络硬件加速器

Info

Publication number: CN113033794A
Application number: CN202110332526.XA
Authority: CN
Inventors: 林英撑; 李睿; 石匆; 何伟; 张玲; 杨晶
Original assignee: Chongqing University
Current assignee: Chongqing Xianfeng Electronic Technology Research Institute Co ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-06-25
Anticipated expiration: 2041-03-29
Also published as: CN113033794B

Abstract

本发明公开了一种基于深度可分离卷积的轻量级神经网络硬件加速器，包括A路K×K通道卷积处理单元并行阵列、A路1×1点卷积处理单元并行阵列以及用于缓冲卷积神经网络和输入输出特征图的片上存储器；卷积神经网络是将神经网络MobileNet采用量化感知训练方法压缩所得的轻量级神经网络；A路K×K通道卷积处理单元并行阵列、多路1×1点卷积处理单元并行阵列部署在像素级流水线中；每个K×K通道卷积处理单元包括1个乘法器、1个加法器和1个激活函数计算单元；每个1×1点卷积处理单元包括多路选择器、1个两级加法器树和1个累加器。本发明解决了以往加速器在推理过程产生高能耗片外访存问题，同时节省了资源并提高了处理性能。

Description

基于深度可分离卷积的轻量级神经网络硬件加速器

技术领域

本发明属于神经网络硬件加速器技术领域，具体涉及一种基于深度可分离卷积的轻量级神经网络硬件加速器。

背景技术

如今，卷积神经网络在图像分类，医学图像分割和目标追踪领域取得了巨大的成功。典型的卷积神经网络(例如VGG16和GoogLeNet)的计算量很大，并且依赖于高成本，低能效的图形处理单元或远程计算中心。在能源和成本预算紧张的情况下，很难将它们部署在便携式或移动实时系统上。以往的研究主要集中在两个方向来解决该问题，一是在算法层面优化卷积神经网络以减少计算和存储访问(如拓扑结构优化和模型压缩)。另一个方向是设计基于超大规模集成电路的卷积神经网络加速器以实现低成本高能效卷积神经网络推理。现有的卷积神经网络硬件加速器例如Eyeriss和Google TPU适用于大多数已知的神经网络模型，具备很强的通用性，但对于拓扑结构并不规整的网络模型如基于深度可分离卷积的网络，其脉动阵列利用率低，这会导致不必要的成本和能量损失。

因此，因必要开发一种新的基于深度可分离卷积的轻量级神经网络硬件加速器。

发明内容

本发明的目的是提供一种基于深度可分离卷积的轻量级神经网络硬件加速器，能有效减少高功耗片外访存量，同时能节省资源并提高处理性能。

本发明所述的一种基于深度可分离卷积的轻量级神经网络硬件加速器，包括A路K×K通道卷积处理单元并行阵列、A路1×1点卷积处理单元并行阵列以及用于缓冲卷积神经网络和输入输出特征图的片上存储器；

所述卷积神经网络是将神经网络MobileNet采用量化感知训练方法压缩所得的轻量级神经网络；

所述A路K×K通道卷积处理单元并行阵列、多路1×1点卷积处理单元并行阵列部署在像素级流水线中；

所述A路K×K通道卷积处理单元并行阵列中的每个K×K通道卷积处理单元包括1个乘法器、1个加法器和1个激活函数计算单元；其中，所述乘法器用于计算通道卷积和批标准化中所涉及的乘法操作；所述加法器用于累加通道卷积结果，累加K×K次后输出前项和；所述激活函数计算单元用于对输出值非线性激活；

所述多路1×1点卷积处理单元并行阵列中的每个1×1点卷积处理单元包括多路选择器、1个两级加法器树和1个累加器；其中，所述多路选择器用于实现点卷积中的乘法操作；所述两级加法器树用于对点卷积乘法结果求和；所述累加器用于累加点卷积结果。

优选地，将神经网络MobileNet采用量化感知训练方法压缩所得的轻量级神经网络，具体为：

分析模型权重分布：神经网络MobileNet包括标准卷积层、通道卷积层、点卷积层以及全连接层，分析标准卷积层、通道卷积层、点卷积层以及全连接层的权重分布情况；

确定各层量化精度：标准卷积层和通道卷积层的精度均大于等于8比特，点卷积层和全连接层的精度均小于8比特；

量化感知训练：数据集选取CIFAR-10和ImageNet两个经典数据集，数据预处理包括数据增强、标准化，神经网络MobileNet通过量化感知训练后得到轻量级神经网络。

优选地，所述点卷积处理单元并行阵列由8个8选1选择器和8个伪乘法器组成；所述8选1选择器用于在不同的时钟周期为对应的伪乘法器选择来自不同通道的数据和与之相应的权重；8个伪乘法器用于实现64通道中间结果特征图的1×1点卷积。

优选地，所述A为32至128中的任意值。

优选地，所述K为3，或为5。

优选地，所述激活函数计算单元采用ReLU激活函数。

本发明具有以下优点：

(1)本发明提出了将神经网络压缩方法应用于神经网络加速器低功耗设计，相比于以往加速器，本发明所设计加速器可片上存储神经网络参数，从而有效地减少了高功耗片外访存量，适用于功耗有限应用场景。

(2)本发明实现了软硬件协同设计，基于电路设计理论优化神经网络量化过程以使其更适于硬件实现。基于轻量级卷积神经网络拓扑结构设计了并行流水线深度卷积处理单元和点卷积处理单元阵列，以紧密耦合的方式处理深度卷积和点卷积，能够节省资源并提高处理性能，取得了良好的效果，具有应用价值和推广前景。

(3)本发明提出了使用多路选择器替代乘法器完成点卷积乘法运算，有效地节省了硬件资源，适用于成本有限的物端设备。

附图说明

图1为本实施例中设计加速器的流程图；

图2为本实施例中MobileNet参数分布示意图；

图3为本实施例中深度可分离卷积的示意图；

图4为本实施例的总体架构图；

图5为本实施例中3×3通道卷积处理单元的示意图；

图6为本实施例中1×1点卷积处理单元的示意图。

具体实施方式

下面结合附图对本发明作进一步说明。

本实施例中，如图3和图4所示，一种基于深度可分离卷积的轻量级神经网络硬件加速器，包括A路K×K通道卷积处理单元并行阵列、A路1×1点卷积处理单元并行阵列以及用于缓冲卷积神经网络和输入输出特征图的片上存储器。所述卷积神经网络是将神经网络MobileNet采用量化感知训练方法压缩所得的轻量级神经网络。

如图4所示，所述A路K×K通道卷积处理单元并行阵列、多路1×1点卷积处理单元并行阵列部署在像素级流水线中。

如图5所示，所述A路K×K通道卷积处理单元并行阵列中的每个K×K通道卷积处理单元包括1个乘法器、1个加法器和1个激活函数计算单元；其中，所述乘法器用于计算通道卷积和批标准化中所涉及的乘法操作；所述加法器用于累加通道卷积结果，累加K×K次后输出前项和；所述激活函数计算单元用于对输出值非线性激活。本实施例中，所述A为32至128中的任意值。所述K为3，或为5。所述激活函数计算单元采用ReLU激活函数。

如图6所示，所述多路1×1点卷积处理单元并行阵列中的每个1×1点卷积处理单元包括多路选择器、1个两级加法器树和1个累加器；其中，所述多路选择器用于实现点卷积中的乘法操作；所述两级加法器树用于对点卷积乘法结果求和；所述累加器用于累加点卷积结果。

本实施例中，以卷积神经网络为基础理论设计方案框架，进而引入软硬协同设计机制，在最大限度保证神经网络模型性能的同时对神经网络进行量化感知训练，最后根据优化后的网络结构定制有效的加速器硬件架构以及具体计算引擎。

首先，结合轻量级神经网络MobileNet权重分布、模型拓扑结构以及硬件设计优化经验配置量化训练参数。接下来对模型进行量化感知训练得到可存储于片上的超轻量卷积神经网络；再根据优化后神经网络结构定制加速器硬件框架和计算引擎，最后完成加速器设计并在FPGA上验证设计原型，本方案的总体流程参见图1。

本实施例中，一种基于深度可分离卷积的轻量级神经网络硬件加速器设计过程主要包括：(1)基于量化感知训练方法压缩轻量级神经网络，(2)定制专用加速器硬件架构和计算引擎，(3)FPGA原型验证。

以下结合附图对以上三个步骤进行详细的说明：

(1)基于量化感知训练方法压缩轻量级神经网络

步骤1-1，分析模型权重分布：

神经网络MobileNet包括标准卷积层、通道卷积层、点卷积层以及全连接层，分析标准卷积层、通道卷积层、点卷积层以及全连接层的权重分布情况。参加图2，本实施例中，标准卷积层：0.02％，点卷积层：74.59％，通道卷积层：1.06％，全连接层：24.33％。分析可得针对权重较多的点卷积层和全连接层进行量化，可以取得较好的压缩效果。

步骤1-2，确定各层量化精度：

为了最大程度保证量化后网络精度损失低，需要确定各层量化精度。本实施例中，深度可分离卷积结构参见图3，标准卷积层需要较高精度权重(大于等于8比特)，用于特征提取的通道卷积层需要较高精度权重(大于等于8比特)以保证提取足够的特征信息，用于特征组合的点卷积层和全连接层可以使用较低比特精度(小于8比特)的权重。考虑硬件设计资源优化，对计算量最多的点卷积层的权重三值量化以将乘法器替换为多路选择器优化电路设计，对全连接层权重采用四比特量化。

步骤1-3，量化感知训练：

训练后量化对信息损失较大，而量化感知训练是在训练过程中模拟量化的过程，这样训练之后的量化模型可以最大地逼近原始浮点模型的精度。数据集选取CIFAR-10和ImageNet两个经典数据集，数据预处理包括数据增强、标准化等方法，GPU为两张NVIDIA2080Ti显卡，训练结果如表1所示。

表1：对于不同数据集的量化网络训练参数和性能表

(2)设计专用加速器硬件架构和计算引擎

步骤2-1.总体架构设计：

本实施例中，以下以A为64，K为3对基于深度可分离卷积的轻量级神经网络硬件加速器的硬件架构进行详细说明：

如图4所示，所述基于深度可分离卷积的轻量级神经网络硬件加速器包括64路(通道)3×3通道卷积处理单元并行阵列(DPE Array)、64路1×1点卷积处理单元并行阵列(PPEArray)以及用于缓冲卷积神经网络和输入输出特征图的片上存储器。由多个通道卷积层和点卷积层组成的深度神经网络可以分层执行。当一层的输入或输出通道数大于64时，这些通道可以拆分为更小的子组并按顺序进行处理。在该架构中，64路3×3通道卷积处理单元并行阵列和64路1×1点卷积处理单元并行阵列紧密耦合，不需要额外的中间结果存储器，参见图4。此外，通过将64路3×3通道卷积处理单元并行阵列和64路1×1点卷积处理单元并行阵列部署在像素级流水线中，使得在一个像素位置上的点卷积和下一相邻像素位置上的深度卷积可以并行处理，以提高系统吞吐量。调度程序为每个DPE/PPE分配卷积层中对应的一个通道。

步骤2-2.电路设计：

如图5所示，所述3×3通道卷积处理单元的电路主要包括1个乘法器、1个加法器和1个激活函数(ReLU)计算单元。卷积和批标准化(BN)步骤共享乘法器和加法器，以节省硬件资源。为了实现通道卷积，每个时钟周期将一个特征图像素(Pixel)以及与其相对应权重(Weight)加载到通道卷积处理单元中，并将它们的乘积累加到寄存器Sum(如图5中的虚线路径所示)。在连续9(如果是5×5通道卷积处理单元，在连续25)个时钟周期完成3×3(如果是5×5通道卷积处理单元，此处完成5×5)卷积后，该电路被配置为处理累加值和参数(γ，β)以计算BN(x)＝γx+β(如图5粗实线路径)，其中，BN(x)表示对输出结果进行批标准化，其中，γ和β都是可学习参数，分别用作对经过卷积后的值进行缩放和平移；在硬件系统启动之前，权重γ和β被编程到图2中的片上参数存储器中，并在涉及计算时缓冲到阵列单元的寄存器中。特别是，为了节省乘法器使用以降低成本，电路中的乘法器可以被用来计算点卷积的批标准化，这样做的代价仅仅是输出滞后一个时钟周期。最后，批标准化的结果被送至激活函数计算单元以计算ReLU(x)＝max(0，x)，其中，ReLU(·)为激活函数。此外，通道卷积中的乘法器可以视作全连接层中的单个神经元，通过数据调度完成全连接层计算。

如图6所示，1×1点卷积处理单元的电路主要由多路选择器(由8个8选1选择器和8个伪乘法器组成)、1个两级加法器树(2-Stage Adder Tree)、1个累加器(Acc.)组成。基于时分复用方法，本实施例中，采用8个伪乘法器实现了64通道中间结果特征图的1×1点卷积。因此，点卷积占64/8＝8个时钟周期，累加器的结果将被装载到3×3通道卷积处理单元中继续完成批标准化和激活函数计算并输出最终结果。1×1点卷积处理单元使用比3×3通道卷积处理单元更多的乘法器来保持它们的处理速度匹配，这样就不会产生流水线瓶颈。8选1选择器(Mul_sel)在不同的时钟周期为伪乘法器选择来自不同通道的数据和与之相应的权重。1×1点卷积处理单元还可以通过其两级加法器数和累加器完成最大支持8×8输入大小的全局池化运算。

(3)加速器FPGA原型实现

在Zynq-7045芯片上实现该卷积神经网络推理加速器的FPGA原型。加速器以150MHz的时钟频率运行，资源消耗较少，如表2所示。本实施例中的加速器在32×32分辨率的CIFAR-10图像上能够达到3,266帧每秒的运行速度，在128×128分辨率的图像上能够达到157帧每秒，证明了本加速器能够低成本高速地实现神经网络推理。

表2.FPGA资源利用情况

本实施例中，图3中的Depthwise Convolution表示深度卷积；PointwiseConvolution表示点卷积；Input表示输入；Output表示输出；C表示输入特征图通道数；M表示输入特征图的宽度和高度(这里宽高一致)；IFM表示中间结果特征图；c表示通道卷积卷积核个数；N表示点卷积卷积核个数；K表示卷积核尺寸。

本实施例中，图4中的I/O Data and Parameter Memory表示输入/输出数据和参数存储；DPE是Depthwise Processing Element的缩写，表示通道卷积处理单元；PointwiseProcessing Element是PPE的缩写，表示点卷积处理单元。

图5中的Conv.表示卷积运算；Batch Norm表示批归一化。

图6中的TW buffer表示三值权重缓冲区；Batch Nor表示批归一化。

本加速器提出了二次压缩优化轻量级神经网络以实现片上存储神经网络，有效地减少了高能耗的片外访存量，对于神经网络加速器的低功耗设计具有实际参考意义。本加速器设计了并行流水线深度卷积处理单元和点卷积处理单元阵列，以紧密耦合的方式处理深度卷积和点卷积，能够节省资源和提高处理性能。本加速器提出了使用多路选择器替代乘法器完成点卷积乘法运算，有效地节省了硬件资源。

Claims

1.一种基于深度可分离卷积的轻量级神经网络硬件加速器，其特征在于：包括A路K×K通道卷积处理单元并行阵列、A路1×1点卷积处理单元并行阵列以及用于缓冲卷积神经网络和输入输出特征图的片上存储器；

所述多路1×1点卷积处理单元并行阵列中的每个1×1 点卷积处理单元包括多路选择器、1个两级加法器树和1个累加器；其中，所述多路选择器用于实现点卷积中的乘法操作；所述两级加法器树用于对点卷积乘法结果求和；所述累加器用于累加点卷积结果。

2.根据权利要求1所述的基于深度可分离卷积的轻量级神经网络硬件加速器，其特征在于：将神经网络MobileNet采用量化感知训练方法压缩所得的轻量级神经网络，具体为：

3.根据权利要求1或2所述的基于深度可分离卷积的轻量级神经网络硬件加速器，其特征在于：所述点卷积处理单元并行阵列由8个8选1选择器和8个伪乘法器组成；所述8选1选择器用于在不同的时钟周期为对应的伪乘法器选择来自不同通道的数据和与之相应的权重；8个伪乘法器用于实现64通道中间结果特征图的1×1点卷积。

4.根据权利要求3所述的基于深度可分离卷积的轻量级神经网络硬件加速器，其特征在于：所述A为32至128中的任意值。

5.根据权利要求1或2或4所述的基于深度可分离卷积的轻量级神经网络硬件加速器，其特征在于：所述K为3，或为5。

6.根据权利要求4所述的基于深度可分离卷积的轻量级神经网络硬件加速器，其特征在于：所述激活函数计算单元采用ReLU激活函数。