CN111062472A

CN111062472A - 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法

Info

Publication number: CN111062472A
Application number: CN201911268184.9A
Authority: CN
Inventors: 沈海斌; 朱超阳; 黄科杰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-04-24
Anticipated expiration: 2039-12-11
Also published as: CN111062472B

Abstract

本发明公开了一种基于结构化剪枝的稀疏神经网络加速器及其加速方法，属于稀疏神经网络加速领域。本发明采用软硬件协同优化，对卷积神经网络进行结构化剪枝，并基于此设计硬件加速器，每个计算核并行地计算多张输出特征图，共享相同的输入激励。受益于结构化剪枝，每个计算核的负载均衡。计算核内的每个乘法器共享相同的输入激励，并且由于卷积运算窗口滑动的特性，输入激励可以在时间维度上复用。本发明通过结构化剪枝和数据流设计，保证输入激励和权重数据的高复用率，以及运算核的负载均衡；结合计算核的六级流水线，完全跳过了零值激励与权重的读取和运算，最大化地利用了神经网络的稀疏特性，提升了卷积神经网络加速器的吞吐率和能效。

Description

一种基于结构化剪枝的稀疏神经网络加速器及其加速方法

技术领域

本发明属于稀疏神经网络加速领域，尤其涉及一种基于结构化剪枝的稀疏神经网络加速器及其加速方法。

背景技术

卷积神经网络被广泛应用于计算机视觉、语音识别、自然语言处理、定向广告推荐和网络搜索等领域。虽然卷积神经网络能提供出色的效果，但是它运算参数量大，计算复杂度高。传统处理器性能和功耗的限制，使得大规模的卷积神经网络很难在嵌入式或终端设备上进行实现。因此，在保证卷积神经网络预测准确度的前提下，利用网络的稀疏性对网络模型进行压缩和加速成为了目前研究的热点。

网络稀疏性体现在激励稀疏和权重稀疏两个方面。激励稀疏的原因为：很多神经网络使用了线性整流函数(ReLu)作为激活函数，导致小于零的激励被置为零；部分神经网络(如对抗生成网络)包含了使用零值插入对输入特征图进行向上采样的译码层。权重的稀疏性来自于剪枝。剪枝通过某种度量标准确定需要被剪去的权重。激励稀疏和权重稀疏都可以被利用以提升硬件加速器的处理速度和能效。但是网络的稀疏性带来的连接不规则阻碍了加速器性能的提升。目前克服上述不规则性的方法主要有两种：第一种方法将输入激励向量和权重向量进行笛卡尔积运算，同时计算输出激励在输出特征图中的坐标，再用计算所得的坐标控制矩阵开关将笛卡尔积运算结果存到对应的位置；第二种方法是先读取压缩权重，再恢复压缩权重值在原权重矩阵中的位置，然后将输入激励向量和权重向量进行相与，筛选出有效计算的输入激励和权重值进行运算(两种同时为非零值时才是有效计算)。所述有效计算指输入激励和权重均为非零值时，它们相乘的过程称为有效计算。第一种方法的问题是需要额外计算输出激励的坐标，增加了计算功耗。同时对卷积层进行笛卡尔积运算会使输出存在哈希冲突，而对全连接层进行笛卡尔积运算只有部分输出有效。第二种方法的问题是卷积运算中每个输入激励需要和不同三维卷积核中权重相乘，因此输入激励和不同三维卷积核都要进行筛选，筛选过程会带来大量功耗，并且筛选单元输出的高扇出会增加设计布线和时序优化的难度。这两种方法都对卷积神经网络加速器利用剪枝提升性能和能效带来了负面影响。

本发明要解决的技术问题是：硬件加速器能在不计算权重坐标或输出激励坐标的前提下，高效地利用网络的稀疏性，跳过零操作数对应的运算。

发明内容

本发明旨在压缩稀疏权重和激励以减少存储空间的需求和数据搬移，并跳过零值权重与激励的读取和运算，提升加速器加速效果，降低加速器功耗。

为了实现上述目的，本发明采用如下技术方案：

本发明采用软硬件协同优化，对卷积神经网络进行结构化剪枝，并基于此设计硬件加速器。一种基于结构化剪枝的稀疏神经网络加速器，包括：

主控制器，用于解析指令集并产生输入激励、权重的读取地址和输出激励的存储地址，以及对运算流程进行控制的控制信号。

计算核，用于完成稀疏卷积的乘加运算、激活运算和池化运算；

输出激励编码器，对输出激励进行压缩并编码，产生输出激励索引对；

输出激励缓存器，缓存输出激励编码器产生的输出激励索引对；

输入激励缓存器，缓存从片外存储器读取的输入激励索引对；

权重缓存器，缓存从片外存储器读取的权重索引对；

所述的稀疏神经网络加速器通过AXI总线与片外存储器相连，所述片外存储器用于动态随机存取原始图片、权重、神经网络计算的中间结果和最终输出的特征图。

由于神经网络的参数数量巨大，对于VGG-16等大型网络而言，即使经过模型压缩，也难以把权重完全存在缓存器内。同时网络部分层的输出特征图尺寸巨大，同样需要DRAM。本发明使用了多种缓存器，包括输入激励缓存器、输出激励缓存器和权重缓存器；本发明将网络分块进行计算，需要重复使用的数据存在缓存器中，以减少对DRAM的重复读取，降低读取功耗。

作为本发明的优选，所述计算核包括激励索引寄存器、激励寄存器、权重地址指针寄存器、权重寄存器、部分和寄存器、ReLu模块和池化模块；计算核处理压缩激励和权重。为保证只有非零数据被读取，输入激励的读取需要在权重读取之前。为了处理数据读取的这种依赖并保持吞吐率，计算核内部部署六级流水线，前两级流水线上分布激励索引寄存器和激励寄存器，用于读取非零激励索引对；第三、四级流水线上分布权重地址指针寄存器和权重寄存器，分别用于读取权重地址指针和非零权重索引对；最后两级流水线设有多个部分和寄存器，用于存储MAC乘加运算的部分和结果。当输出激励的整个卷积运算完成后，输出激励经过ReLu模块和池化模块，从计算核输出。

所述的基于结构化剪枝的稀疏神经网络加速器的加速方法，包括以下步骤：

S01：对神经网络进行结构化剪枝，得到压缩模型和表征压缩权重位置的索引集；

S02：结合压缩模型网络各层参数，将压缩模型映射到硬件，以指令流的形式表示映射关系；

S03：主控制器载入指令流，产生输入激励、权重的读取地址和输出激励的存储地址，将输入激励索引对和权重索引对分别存储到输入激励缓存器和权重缓存器；将输入特征图和卷积核分块，并将每一块的输入激励和权重分发到对应的计算核中；

S04：计算核的前两级流水线上的激励索引寄存器和激励寄存器读取非零激励索引对，激励索引寄存器存储输入激励的间接索引，该间接索引作为输出激励寄存器的读地址；在一个非零激励索引对被读取后，第三、四级流水线读取对应的非零权重；权重地址指针寄存器根据输入激励索引输出对应的权重地址的头指针和尾指针，权重寄存器根据地址指针输出多个权重索引对；第五、六级流水线进行乘加运算，运算结果存储在部分和寄存器中；每块数据计算完成时，首先沿输入通道方向更新输入激励和权重，然后沿卷积窗口滑动的轨迹更新输入激励和权重，直到一层卷积层运算完成；当稀疏卷积运算完成后，再经线性整流运算和池化运算，产生输出激励并从计算核输出；

S05：进行输出激励的压缩编码，并将输出激励和索引对存储到输出激励缓存器；

S06：判断当前层是否为最后一层，如果不是，返回步骤S04；否则将输出激励直接输出到片外存储器，完成整个神经网络的推理加速。

作为本发明的优选，每个计算核并行地计算多张输出特征图，因此共享相同的输入激励。受益于结构化剪枝，每个计算核的负载均衡。计算核内的每个乘法器共享相同的输入激励，并且由于卷积运算窗口滑动的特性，输入激励可以在时间维度上复用。

作为本发明的优选，所述的结构化剪枝具体为：对于初始的密集神经网络，将四维卷积核分为多个三维卷积核，卷积层中不同三维卷积核的相同位置的权重同时剪去，全连接层中权重矩阵的某些行整行剪去。

本发明具备的有益效果：

(1)本发明通过结构化剪枝和数据流设计，保证输入激励和权重数据的高复用率，以及运算核的负载均衡；

(2)现有技术有将权重的稀疏性应用在加速器的设计中，但无法利用输入激励的稀疏性，当输入激励为零时，只是关断计算单元，而不能跳过计算。本发明能同时利用权重和输入激励的稀疏性，结合计算核的六级流水线，从而完全跳过了零值激励与权重的读取和运算，最大化地利用了神经网络的稀疏特性，进一步提升了卷积神经网络加速器的吞吐率和能效。

附图说明

图1为加速器工作流程图；

图2为结构化剪枝示例图，(a)卷积核的结构化剪枝；(b)权重矩阵的结构化剪枝；

图3为硬件加速器顶层架构；

图4为主控制器结构图；

图5为映射示意图；

图6为计算核结构图；

图7为权重编码和索引示意图；

图8为稀疏加速示意图。

具体实施方式

以下结合具体实施例对本发明做进一步说明。

如图1所示为基于结构化剪枝的稀疏神经网络加速器加速方法流程示意图。首先，对卷积网络模型进行结构化剪枝，得到压缩模型和表征压缩权重位置的索引集；然后结合网络各层参数完成压缩模型到硬件的映射，生成指令流；接着加速器主控制器载入指令流，并控制加速器从片外存储器读取输入激励和权重到对应的缓存器；计算核根据主控制器的控制信号实现稀疏卷积运算、线性整流运算和池化运算，产生输出激励，并将输出激励压缩编码，输出激励和索引对存储到输出激励缓存器；最后判断当前层是否为最后一层，如果不是，返回计算核继续载入数据进行运算，否则将输出激励直接输出到片外存储器，完成整个神经网络的推理加速。

结构化剪枝的策略如下：对于初始的密集神经网络，其卷积层四维卷积核尺寸为R×R×C×F，把R×R×C的卷积核称为一个三维卷积核，共计F个三维卷积核。对三维卷积核进行分组，每个小组的内的三维卷积核采用相同的剪枝方式；其全连接层权重矩阵的尺寸为IC×OC，由OC个列向量组成，将多个列向量归为一组，组内的列向量采用相同的剪枝方式。如图2(a)所示为将所有三维卷积核归位一组时的剪枝结果，(b)为将所有列向量归位一组时的剪枝结果。当剪枝后准确度下降明显时，会调整分组情况，将卷积核/列向量分成更多组。

如图3所示为硬件加速器结构示意图。整体结构包括了：

主控制器，用于解析从上位机CPU接收的指令流，控制网络运算的数据流并产生各模块控制信号；

计算核，根据主控制器控制信号完成稀疏卷积的乘加运算、激活运算和池化运算，产生输出激励；

输出激励编码器，对输出激励进行压缩并进行CSC(按列压缩)编码，输出激励和索引成对存储；

输入激励缓存器，缓存从片外存储器读取的输入激励和索引；

输出激励缓存器，缓存输出激励编码器产生的激励索引对；

权重缓存器，缓存从片外存储器读取的权重和索引；

片外存储器，动态随机存取存储器(DRAM)，存储原始图片、权重、神经网络计算的中间结果和最终输出的特征图。

如图4所示，主控制器包含一个指令集解码器、一个地址生成器、一个控制向量生成器和七个计数器。指令集解码器对指令集进行解码，生成各计数器的判断上限和下限。七个计数器依次级联，前一级上溢信号overflow作为下一级增信号inc，七个计数器的输出{kw,kh,ow,oh,ic,oc,l}表示加速进程。地址生成器根据计数器的输出生成下一个时钟周期计算所需的输入激励和权重的读取地址，以及当前输出激励的存储地址。控制向量生成器读入计数器的输出，生成控制信号ctrl，控制计算核。

基于结构化剪枝的稀疏神经网络加速器的映射步骤为：首先，将输入特征图和卷积核分块，并将数据分发到对应计算核中；接着，每块数据计算完成时，优先沿输入通道方向更新输入激励和权重；然后沿着卷积窗口滑动的轨迹更新输入激励和权重，直到一层卷积层运算完成。因为不同计算核并行地计算输出特征图的不同输出通道，所以计算核共享相同的输入激励。图5显示了每次分发至计算核的输入激励和权重。其中，输入激励被展开成一个向量，M₀个卷积核的权重被展开成一个二维矩阵，矩阵高M₀，宽C₀×R×R。因为输入激励和权重是稀疏的，且激励和权重均经过压缩编码，因此实际只传输非零的数据和对应的索引。

如图6所示为计算核结构图。只计算稀疏编码后的激励和权重的前提是解决数据读取的依赖。数据读取依赖来自两个方面：编码后，读取压缩权重需要先读取地址指针；读取权重前需要先读取非零激励值，再根据输入激励索引确定权重的地址指针，从而读取权重。所以为了保证计算核的吞吐量，计算核内部署了六级流水线。前两级流水线用于读取输入激励索引对，因为不同输入激励对应的非零权重数量可能不同，因此每个输入激励的有效时间可能不同。计算核会根据主控制器的使能信号决定第一级流水线中输入激励索引的生命周期。第三、四级流水线分别用于读取权重地址指针和非零权重索引对。最后两级流水线完成MAC乘加运算。MAC运算的结果根据权重索引存入部分和寄存器中。当一组输出激励计算完成后，计算核对其进行线性整流运算和池化运算，并将结果输出。

输出激励进行CSC编码，权重矩阵压缩编码方式如图7所示。由于神经网络进行了结构化剪枝，卷积核按照实施例所示映射(图5)后，权重矩阵呈现列稀疏性，即权重矩阵的某些列元素全为零。索引表示非零权重列与前一个非零权重列之间的列数，地址指针表示每一列元素的个数。网络模型压缩阶段已完成对权重的编码，非零权重和索引被存储在独立的DRAM中。所述基于结构化剪枝的稀疏神经网络加速器通过AXI总线与该DRAM相连。

图8为稀疏加速过程，示例中，R等于3，M₀等于4。第一个非零激励对应的R×R列权重中仅有四列为非零值。加速开始时，计算核的激励索引寄存器收到主控制器使能信号，输出第一个索引“0”。输入激励寄存器根据该索引读出第一个非零激励“X₀”。接着该索引“0”向后级传输。权重地址指针寄存器根据该索引输出第一组权重的地址指针“0”和“4”。权重寄存器根据地址指针并行输出第一组权重{a,b,c,d}。然后该组权重并行地和X₀进行MAC运算，并将部分和存入部分和寄存器的第一个地址(由权重索引决定)。因为X₀的生命周期为四个时钟周期，所以第五个时钟周期才有新的使能信号来到计算核。计算核开始进行非零激励X₂对应的运算。如果X₂没有对应的非零权重，则X₂不会往下级传输。整个过程由六级流水线实现，保证了计算核的吞吐量。

利用pytorch对VGG16各卷积层输出激励进行可视化，发现总体上有近60％的输入激励为零，本发明能跳过这60％的零值激励对应的运算。若只考虑权重的稀疏性而不利用输入激励的稀疏性，当输入激励为零时，关断计算单元，则与本发明完全跳过零值激励的读取和运算相比，经对比，本发明的吞吐量提升近2.5倍。

综上所述，本发明通过结构化剪枝和数据流设计，保证输入激励和权重数据的高复用率，以及运算核的负载均衡；结合计算核的六级流水线，完全跳过了零值激励与权重的读取和运算，最大化地利用了神经网络的稀疏特性，提升了卷积神经网络加速器的吞吐率和能效。

Claims

1.一种基于结构化剪枝的稀疏神经网络加速器，其特征在于，包括：

权重缓存器，缓存从片外存储器读取的权重索引对；

2.如权利要求1所述的基于结构化剪枝的稀疏神经网络加速器，其特征在于，所述计算核包括激励索引寄存器、激励寄存器、权重地址指针寄存器、权重寄存器、部分和寄存器、ReLu模块和池化模块；计算核内部部署六级流水线，前两级流水线上分布激励索引寄存器和激励寄存器，用于读取非零激励索引对；第三、四级流水线上分布权重地址指针寄存器和权重寄存器，分别用于读取权重地址指针和非零权重索引对；最后两级流水线设有多个部分和寄存器，用于存储MAC乘加运算的部分和结果。

3.如权利要求1所述的基于结构化剪枝的稀疏神经网络加速器，其特征在于，所述主控制器包含一个指令集解码器、一个地址生成器、一个控制向量生成器和七个计数器；指令集解码器对指令集进行解码，生成各计数器的判断上限和下限；七个计数器依次级联，前一级上溢信号作为下一级增信号，七个计数器的输出{kw,kh,ow,oh,ic,oc,l}表示加速进程；地址生成器根据计数器的输出生成下一个时钟周期计算所需的输入激励和权重的读取地址，以及当前输出激励的存储地址；控制向量生成器读入计数器的输出，生成控制信号，用于控制计算核。

4.一种权利要求2所述的基于结构化剪枝的稀疏神经网络加速器的加速方法，其特征在于，包括以下步骤：

S04：计算核的前两级流水线上的激励索引寄存器和激励寄存器读取非零激励索引对，在一个非零激励索引对被读取后，第三、四级流水线读取对应的非零权重；权重地址指针寄存器根据输入激励索引输出对应的权重地址的头指针和尾指针，权重寄存器根据地址指针输出多个权重索引对；第五、六级流水线进行乘加运算，运算结果存储在部分和寄存器中；每块数据计算完成时，首先沿输入通道方向更新输入激励和权重，然后沿卷积窗口滑动的轨迹更新输入激励和权重，直到一层卷积层运算完成；当稀疏卷积运算完成后，再经线性整流运算和池化运算，产生输出激励并从计算核输出；

5.如权利要求4所述的基于结构化剪枝的稀疏神经网络加速器的加速方法，其特征在于，每个计算核并行计算多张特征图，计算核内的每个乘法器共享相同的输入激励，且将输入激励在时间维度上进行复用。

6.如权利要求4所述的基于结构化剪枝的稀疏神经网络加速器的加速方法，其特征在于，所述的结构化剪枝具体为：对于初始的密集神经网络，将四维卷积核分为多个三维卷积核，卷积层中不同三维卷积核的相同位置的权重同时剪去，全连接层中权重矩阵的某些行整行剪去。