CN110378468A

CN110378468A - 一种基于结构化剪枝和低比特量化的神经网络加速器

Info

Publication number: CN110378468A
Application number: CN201910609993.5A
Authority: CN
Inventors: 黄科杰; 朱超阳; 沈海斌
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2019-10-25
Anticipated expiration: 2039-07-08
Also published as: WO2021004366A1; CN110378468B; US12271820B2; US20220012593A1

Abstract

本发明公开了一种基于结构化剪枝和低比特量化的神经网络加速器，采用软硬件协同优化，对卷积神经网络进行结构化剪枝和低比特量化，并基于此在FPGA上设计的硬件加速器。该加速器通过结构化剪枝和计算阵列上的数据共享，充分利用神经网络推理运算过程中的数据可重利用性，降低筛选有效计算的输入激励和权重的功耗，缓解激励选择单元和计算阵列之间的高传输带宽压力，结合低比特量化技术，减小权重参数的数量和存储位宽，进一步提升卷积神经网络加速器的吞吐率和能效。本发明的神经网络加速器可减轻剪枝后神经网络运算的不规则性对加速器利用剪枝提升性能和能效的负面影响，且可在一定范围的预测准确度损失下，提升加速器加速效果，降低加速器功耗。

Description

一种基于结构化剪枝和低比特量化的神经网络加速器

技术领域

本发明公开了一种稀疏卷积神经网络加速器，尤其涉及一种基于结构化剪枝和低比特量化的神经网络加速器，涉及稀疏卷积神经网络加速以及低比特量化技术。

背景技术

卷积神经网络在计算机视觉、机器人控制、视频分析、语音识别、自然语言处理、定向广告推荐和网络搜索等广泛应用中迅速发挥作用。虽然卷积神经网络能提供出色的效果，但是它运算参数量大，计算复杂度高。由于传统处理器性能和功耗的限制，使得大规模的卷积神经网络很难在嵌入式或终端设备上进行实现。因此，在保证卷积神经网络预测准确度的前提下，压缩网络模型和设计专用的硬件加速器成为了目前研究的热点。

网络模型压缩的方法包括：剪枝、量化、块循环表示等。剪枝后，神经网络变得稀疏，卷积核被压缩存储，不同卷积核中被剪去的权重可能不同，导致网络的推理运算存在不规则性。基于稀疏神经网络的加速器架构需要克服这种不规则性，以利用剪枝进一步改善加速器性能和能效。目前克服上述不规则性的方法主要有两种：第一种方法将输入激励向量和权重向量进行笛卡尔积运算，同时计算输出激励在输出特征图中的坐标，再用计算所得的坐标控制矩阵开关将笛卡尔积运算结果存到对应的位置；第二种方法是先读取压缩权重，再恢复压缩权重值在原权重矩阵中的位置，然后将输入激励向量和权重向量进行相与，筛选出有效计算的输入激励和权重值进行运算(两种同时为非零值时才是有效计算)。所述有效计算指输入激励和权重均为非零值时，它们相乘的过程称为有效计算。第一种方法的问题是需要额外计算输出激励的坐标，增加了计算功耗。同时对卷积层进行笛卡尔积运算会使输出存在哈希冲突，而对全连接层进行笛卡尔积运算只有部分输出有效。第二种方法的问题是卷积运算中每个输入激励需要和不同三维卷积核中权重相乘，因此输入激励和不同三维卷积核都要进行筛选，筛选过程会带来大量功耗，并且筛选单元输出的高扇出会增加设计布线和时序优化的难度。这两种方法都对卷积神经网络加速器利用剪枝提升性能和能效带来了负面影响。

当前基于稀疏神经网络的加速器多采用半精度浮点数或定点数运算，也有个别加速器使用权重共享的方法，对权重进行编码后存储和传输，在计算时进行解码，计算精度仍旧是半精度浮点数。研究表明，对卷积神经网络进行低比特量化，能够在不显著降低预测准确度的前提下，减小权重的位宽，降低硬件乘加运算的功耗。

发明内容

针对现有技术的不足，本发明提出一种基于结构化剪枝和低比特量化的神经网络加速器，旨在减轻剪枝后神经网络运算的不规则性对加速器利用剪枝提升性能和能效的负面影响，并结合低比特量化技术，在一定范围的预测准确度损失下，提升加速器加速效果，降低加速器功耗。

本发明采用软硬件协同优化，对卷积神经网络进行结构化剪枝和低比特量化，并基于此在FPGA上设计硬件加速器。具体技术方案如下：

所述基于结构化剪枝和低比特量化的神经网络加速器的工作流程，如图1：

S01：对神经网络进行结构化剪枝和低比特量化，得到压缩模型和表征压缩权重位置的索引集；

S02：对压缩模型进行分析，得到网络各层的参数和操作数位宽，并结合给定的硬件资源确定可扩展计算阵列的尺寸，结合网络各层参数和计算阵列尺寸完成压缩网络到硬件的映射，以指令集的形式表示映射关系；

S03：将主控制器、激励选择单元、处理单元等加速器组成部分以IP核的形式预先设计好，根据计算阵列尺寸调用IP核组成加速器系统；

S04：加速器读入输入激励、网络压缩模型、索引集和指令集，开启加速器。

所述基于结构化剪枝和低比特量化的神经网络加速器包括：主控制器、激励选择单元、可扩展计算阵列、多功能处理单元、DMA、DRAM和缓存器。整体结构如图2所示。

主控制器负责解析指令集，产生输入激励、权重的读取地址和输出激励的存储地址，以及对运算流程进行控制的控制信号。主控制器结构如图3所示，其包含一个指令集解码器、一个地址生成器、一个控制向量生成器和七个计数器。指令集解码器对指令集进行解码，生成各计数器的判断上限和下限。七个计数器依次级联，前一级上溢信号overflow作为下一级增信号inc，七个计数器的输出{kw,kh,ow,oh,ic,oc,l}表示加速进程。地址生成器根据计数器的输出生成下一个时钟周期计算所需的输入激励和权重的读取地址，以及当前输出激励的存储地址，并传输给DMA。控制向量生成器读入计数器的输出，生成控制信号ctrl，控制激励选择单元和计算阵列。

激励选择单元，根据索引集跳过零值权重对应的计算过程，选出非零值权重对应的输入激励和权重索引传输给计算阵列。如图4，激励选择单元包括：输入激励寄存器、索引解码器和选择器。输入激励寄存器根据主控制器的控制信号{pop,push}，完成输入激励的读入和推出。索引解码器将权重索引解码，生成跳变量jump。选择器根据jump信号实现输入激励的筛选。

可扩展计算阵列，计算阵列由N×M个处理单元(PE)组成，每个PE存储神经网络的部分权重，根据接收的索引确定权重的读取地址，并判断接收的输入激励是否为零从而控制权重的读取和PE内乘法器的开关；根据主控制器的控制信号判断当前计算的输出激励是否完成了一个输入通道的输入激励和权重的卷积，如果是，则将输出激励存储到输出激励缓存器。

多功能处理单元，完成网络的池化、激活和归一化运算。

DMA连接DRAM和缓存器，根据主控制器的控制信息管理数据的读写。

DRAM，神经网络的参数数量巨大，对于VGG-16等大型网络而言，即使经过模型压缩，也难以把权重完全存在缓存器内。同时网络部分层的输出特征图尺寸巨大，同样需要DRAM。

缓存器，包括输入激励缓存器、输出激励缓存器和索引缓存器。网络分块进行计算，需要重复使用的数据存在缓存器中，以减少对DRAM的重复读取，降低读取功耗。

进一步的，所述的结构化剪枝过程可以如图5所示，卷积层中不同三维卷积核相同位置的权重被同时剪去，即不同卷积核具有相同的索引。激励选择单元只需要将输入特征图和一个卷积核索引进行筛选，即可得到所有有效计算的输入激励和权重索引；全连接层中权重矩阵的某些行被整行剪去，输入激励行向量的对应列元素不需要进行计算，因此可以不被存储。

进一步的，所述的映射具体为：对于具有N×M个PE的计算阵列，卷积层计算时，计算阵列的每一行计算单元共享相同的权重，每一列共享相同的输入激励，因此整个计算阵列共享N个输入激励和一个权重索引；全连接层计算时，计算阵列每一行共享相同的输入激励，每个PE的权重各不相同，但是结构化剪枝使得同一列PE的权重索引相同，因此计算阵列共享N个输入激励和N个权重索引。

进一步的，所述的低比特量化具体为：对网络权重参数w_i进行以2为底的对数量化，量化结果时，向上取整；反之，向下取整。不同网络具有不同的量化位宽要求。计算输入激励和权重的乘积时，可以用移位操作实现乘法运算。

本发明的优点如下：

本发明通过结构化剪枝和计算阵列上的数据共享，充分利用了神经网络推理运算过程中的数据可重利用性，降低了筛选有效计算的输入激励和权重的功耗，缓解了激励选择单元和计算阵列之间的高传输带宽压力，结合低比特量化技术，减小了权重参数的数量和存储位宽，进一步提升了卷积神经网络加速器的吞吐率和能效。

附图说明

图1加速器工作流程图；

图2硬件加速器顶层架构；

图3主控制器结构图；

图4激励选择单元结构图；

图5结构化剪枝示例图,(a)卷积核的结构化剪枝；(b)权重矩阵的结构化剪枝；

图6压缩权重和索引图；

图7卷积运算模式图；

图8全连接层运算模式图。

具体实施方式

以下结合具体实施例对上述方案做进一步说明。

本实施例对神经网络进行结构化剪枝，剪枝后稀疏网络的权重经过按行压缩再存储，同时还需存储记录权重位置的索引和行指针，如图6。索引表示两个非零权重之间“0”的个数，每一行的第一个非零权重的索引等于该行内此非零权重之前“0”的个数。行指针表示每一行内非零权重的总数。

本实施例对结构化剪枝后的神经网络模型进行低比特量化，量化过程可由以下公式表示：

w′_i＝Quantize[log₂w_i] (2)

其中，w表示权重向量，x表示输入激励。函数Bitshift(a,b)表示将a移动b位，移动方向由b的符号决定。当b>0时，Bitshift(a,b)将a向左移b位，反之，向右移。函数Quantize[y]对y进行取整。当时，向上取整，反之，向下取整。经过量化后，输入激励和权重的乘法运算转化为了移位运算，运算功耗大大降低。

本实施例将卷积层分块计算，并将卷积运算的循环展开，以充分利用计算阵列的并行性，提高数据的重利用。卷积层分块计算和循环展开的伪代码如下：

本实施例运用循环展开使计算阵列同时计算输出特征图的N个通道的M个输出激励，即计算阵列的不同行计算输出特征图的不同通道，同一行内的不同计算单元计算输出特征图某一通道的不同输出激励。因此，计算阵列的每一行共享相同的权重，每一列共享相同的输入激励。同时，输入到不同行的权重来自不同三维卷积核的相同位置，结构化剪枝后同一层内不同三维卷积核具有相同的索引，因此整个计算阵列共享同一个权重索引。

本实施例将输入特征图X(H,W,C)与四维卷积核W(R,R,C,F)卷积得到输出特征图(U,V,F)的过程映射到N×M计算阵列，映射关系如下：

本实施例中，卷积到计算阵列每一行的映射是相同的，图7描述了输入特征图X(10,10,1)与四维卷积核W(3,3,1,16)的卷积过程在计算阵列某一行的运算模式，假设计算阵列每一行只有4个PE。图7(a)为不经过结构化剪枝的网络卷积运算模式，因为V＝8，所以ow_max＝2，即每个PE需要计算两个输出激励。图7(b)为结构化剪枝网络的卷积运算模式，相比于(a)，模式(b)根据索引判断权重是否为零，权重为零时对应的计算可以跳过，判断过程在激励选择单元实现。

本实施例中，全连接层的运算如图8，权重矩阵的某些行被整行剪去，因此输入激励向量的对应列元素不参与计算。本实施例在当前层的下一层是全连接层时，用下一层的权重索引筛选当前层的输出激励，如图8(b)，并构建流水线将筛选过程隐藏在当前层输出激励计算和下一层输入激励读取之间，如图8(c)。

本实施例中，激励选择单元实现输入激励的筛选。计算卷积层时，激励选择单元根据主控制器的控制信息读取权重索引jump，输入激励向量Data_in包含2M个输入激励，选择器将Data_in>>jump，以跳过权重为0时的计算。当权重计算到每一行最后一个权重时，主控制器给激励选择单元push信号，把新的输入激励存入激励寄存器中；当计算完一行权重时，主控制器给激励单元pop信号，输出新的输入激励向量Data_in。计算全连接层时，选择器读入当前层的输出激励和下一层的索引，筛选出非零权重对应的输出激励。

Claims

1.一种基于结构化剪枝和低比特量化的神经网络加速器，其特征在于，该加速器是采用软硬件协同优化，对卷积神经网络进行结构化剪枝和低比特量化，并基于此在FPGA上设计硬件，包括主控制器、激励选择单元、可扩展计算阵列、多功能处理单元、DMA、DRAM和缓存器；

主控制器负责解析指令集，产生输入激励、权重的读取地址和输出激励的存储地址，以及对运算流程进行控制的控制信号；

激励选择单元，根据索引集跳过零值权重对应的计算过程，选出非零值权重对应的输入激励和权重索引传输给计算阵列；

可扩展计算阵列，计算阵列由N×M个处理单元(PE)组成，每个PE存储神经网络的部分权重，根据接收的索引确定权重的读取地址，并判断接收的输入激励是否为零从而控制权重的读取和PE内乘法器的开关；根据主控制器的控制信号判断当前计算的输出激励是否完成了一个输入通道的输入激励和权重的卷积，如果是，则将输出激励存储到输出激励缓存器；

多功能处理单元，完成网络的池化、激活和归一化运算；

2.根据权利要求1所述的基于结构化剪枝和低比特量化的神经网络加速器，其特征在于，所述的主控制器包含一个指令集解码器、一个地址生成器、一个控制向量生成器和七个计数器；指令集解码器对指令集进行解码，生成各计数器的判断上限和下限；七个计数器依次级联，前一级上溢信号overflow作为下一级增信号inc，七个计数器的输出{kw,kh,ow,oh,ic,oc,l}表示加速进程；地址生成器根据计数器的输出生成下一个时钟周期计算所需的输入激励和权重的读取地址，以及当前输出激励的存储地址，并传输给DMA；控制向量生成器读入计数器的输出，生成控制信号ctrl，控制激励选择单元和计算阵列。

3.根据权利要求1所述的基于结构化剪枝和低比特量化的神经网络加速器，其特征在于，所述的激励选择单元包括：输入激励寄存器、索引解码器和选择器；输入激励寄存器根据主控制器的控制信号{pop,push}，完成输入激励的读入和推出；索引解码器将权重索引解码，生成跳变量jump；选择器根据jump信号实现输入激励的筛选。

4.根据权利要求1所述的基于结构化剪枝和低比特量化的神经网络加速器，其特征在于，所述的加速器的工作流程如下：

5.根据权利要求4所述的基于结构化剪枝和低比特量化的神经网络加速器，其特征在于，S01中所述的结构化剪枝过程如下：卷积层中不同三维卷积核相同位置的权重被同时剪去，即不同卷积核具有相同的索引，激励选择单元只需要将输入特征图和一个卷积核索引进行筛选，即可得到所有有效计算的输入激励和权重索引；全连接层中权重矩阵的某些行被整行剪去，输入激励行向量的对应列元素不需要进行计算，不被存储。

6.根据权利要求4所述的基于结构化剪枝和低比特量化的神经网络加速器，其特征在于，S02中所述的映射具体为：对于具有N×M个PE的计算阵列，卷积层计算时，计算阵列的每一行计算单元共享相同的权重，每一列共享相同的输入激励，因此整个计算阵列共享N个输入激励和一个权重索引；全连接层计算时，计算阵列每一行共享相同的输入激励，每个PE的权重各不相同，但是结构化剪枝使得同一列PE的权重索引相同，因此计算阵列共享N个输入激励和N个权重索引。

7.根据权利要求4所述的基于结构化剪枝和低比特量化的神经网络加速器，其特征在于，S01所述的低比特量化具体为：对网络权重参数w_i进行以2为底的对数量化，量化结果时，向上取整；反之，向下取整。