CN110443359A

CN110443359A - 基于自适应联合剪枝-量化的神经网络压缩算法

Info

Publication number: CN110443359A
Application number: CN201910592425.9A
Authority: CN
Inventors: 郑秋梅; 王璐璐; 曹佳
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-11-12

Abstract

本发明提出一种基于自适应联合剪枝‑量化(AJP‑Q)的网络压缩算法对神经网络进行压缩加速，提高智能交通的多目标车辆在线跟踪准确率和效率。本发明提出的AJP‑Q压缩算法可以联合执行权重修剪和量化，通过微调预先训练的神经网络来学习压缩网络，并移除连接和减少编码剩余连接所需的位数，得到稀疏的网络连接，通过共享权重进行分区，接着量化全精度权重更新权重，将更新后的权重值进行前向传播和反向传播，达到最大迭代数。此算法利用了权重修剪和量化的互补性，并从过早修剪错误中恢复过来，随着时间推移做出灵活的剪枝和量化策略。改进了现有方法分别执行剪枝和量化的过程，并且在第一阶段产生的误差在第二阶段无法矫正问题。本算法通过在KITTI数据集上对SAVD_VGG网络进行的压缩试验，结果显示，相比未压缩的网络模型在不影响精度(精度仅下降3％)的前提下运行速度提升近10倍，且网络模型尺寸较小、精简紧凑、具有较低的计算开销和占用较小内存的优势，能够在车载平台下实时的对前方车辆视频流进行检测。

Description

基于自适应联合剪枝-量化的神经网络压缩算法

技术领域

本发明提出一种基于自适应联合剪枝-量化AJP-Q(Adaptive Joint Pruning-Quantization)的网络压缩算法对神经网络进行压缩加速，提高智能交通的多目标车辆在线跟踪准确率和效率，属于智能交通系统的多目标车辆在线跟踪。

背景技术

神经网络已成为各种视觉识别任务不可或缺的工具，然而现代神经网络通常过于参数化，随着可学习连接数量的增加，使得当前的趋势朝向更深和更密集连接的体系结构发展，使深度学习模型存在显著的冗余。这使得模型很难部署在硬件资源有限的嵌入式系统上。为解决这个限制，研究者致力于研究网络压缩这一领域。

⒈网络剪枝

网络剪枝是一种常用且直观的网络压缩方法，从预训练网络中删除“不重要”连接，然后微调稀疏网络以恢复准确性。最早的剪枝方法基于网络损耗的二阶导数去除连接。但由于神经元之间复杂的相互作用，确定连接的重要性是困难的：当其他连接被移除时，最初看起来不重要的连接可能变得重要，这对修剪算法提出了重大挑战。网络剪枝除了用于压缩网络，还被用来规范全卷积网络的训练，减少学习中的过拟合，并为电池供电设备产生节能型网络。

2.参数量化

权重量化指对权重值范围进行离散化的过程，以便使用更少的比特来表示每个权重。深度压缩分别执行权重量化和修剪，量化级别是线性分布的，以覆盖权重范围。基于加权熵的量化使用加权熵测量并分配量化等级。

3.知识蒸馏和低秩分解

除了网络剪枝和权重量化外，还可以应用知识蒸馏和低秩分解方法来训练或微调网络模型使之变得紧凑。知识蒸馏，通过使用教师网络中间层的输出的加权组合来训练学生网络，使学生网络更紧凑。低秩分解利用滤波器和特征映射响应中的冗余，利用卷积层的低秩结构，将全秩卷积分解成具有水平基滤波器的卷积，从而达到压缩网络的目的，是网络更紧凑，并在测试时加速网络推理、减少网络训练时间，以期能部署在嵌入式开发平台实现车载平台下的车辆检测。

网络剪枝是一种压缩策略，其中网络连接被减少或稀疏化；权重量化是另一种策略，其中连接权重被约束到一组离散值，允许使用较少的位来表示权重。然而，现有方法分别执行修剪和量化,没有利用权重修剪和量化的互补性质，并且在第一阶段中产生的误差在第二阶段中无法校正。

发明内容

本发明在综合各类压缩算法的基础上，提出了一种网络压缩算法AJP-Q：可以联合执行权重修剪和量化，通过微调预先训练的神经网络来学习压缩网络，并移除连接和减少编码剩余连接所需的位数。此算法利用了修剪和量化的互补性，并从过早修剪错误中恢复过来。为达到上述目的，本发明的技术方案为：

一种联合剪枝量化的灵活网络压缩算法，包括下述步骤：

步骤一、对全精度网络权重值执行剪枝操作，网络学习有效连接

步骤二、得到稀疏的网络连接；

步骤三、对全精度权重进行共享并分区；

步骤四、量化全精度权重并更新权重值；

步骤五、用更新后的权重值进行前向传播计并算损失值；

步骤六、反向传播以更新全精度权重值，最后达到最大迭代数。

有益效果：

本方法通过微调预先训练的神经网络来学习压缩的网络，并移除连接和减少编码剩余连接所需的位数；

通过在KITTI数据集上对SAVD_VGG网络进行的压缩试验，相比未压缩的网络模型在不影响精度的前提下(精度仅下降3％)运行速度提升近10倍，且网络更加紧凑，能够减少网络训练时间，初步取得了较好的实验效果，为嵌入式平台实现高效的网络架构，能够在车载平台下实时的对前方车辆视频流进行检测。

附图说明

图1是本算法整体流程图；

图2是CSR存储稀疏矩阵示例图；

图3是存储有效权重的相对位置差示例图

图4是剪枝量化操作示意图；

图5是权重量化示意图；

图6是本算法伪代码；

图7是KITTI数据集上SAVD_VGG网络的分层压缩统计信息；

图8是KITTI车辆检测中不同算法性能比较；

图9是嵌入式平台下压缩前后SAVD_VGG网络的运行速度与现有算法比较。

具体实施方式

本发明在综合各类压缩算法的基础上，提出了一种网络压缩算法AJP-Q：可以联合执行权重修剪和量化，通过微调预先训练的神经网络来学习压缩网络，并移除连接和减少编码剩余连接所需的位数，此算法利用了修剪和量化的互补性，并从过早修剪错误中恢复过来：(1)将网络剪枝和权重量化结合在一个学习框架中；(2)随着网络结构的变化，随着时间的推移做出灵活的剪枝和量化决策。使网络更加紧凑，并在测试时加速网络推理，减少网络训练时间，能够实现嵌入式平台的部署。

下面结合附图并举具体实验对本方法做进一步说明：

本实施例针对SAVD_VGG网络进行压缩试验，实验步骤如下：

实验例：

步骤一、执行剪枝操作。在SAVD_VGG网络上使用公开化贝叶斯优化库来预测网络中每个层的一组剪枝-量化超参数。其基本过程如下：

101、首先设置两个截止点标量d^-和d⁺，用超参数p来确定，使得统一卷积层中(p×100)％的正权重值小于或等于d⁺，同时使(p×100)％的负权重值大于或等于d^-。而位于d^-和d⁺之间的所有权重在下一个前向传递中设置为零。此时会在处理下一个小批量(mini-batch)时从网络中删除相应的连接。这种剪枝决策时暂时的，在下一次迭代中，用上述表述的规则重新作用于更新后的参数，则之前被剪枝的连接可能会重新出现。虽然超参数p是常数，但阈值d^-和d⁺在每次迭代中改变。

剪枝这一步骤能够将SAVD_VGG网络参数降低到原来的1/13。总体上，通过网络训练学习连接，将小于一定阈值权值直接移除，最终得到稀疏的网络连接。

步骤二、得到的最终稀疏网络连接。采用稀疏压缩行(CSR)存储稀疏权重矩阵，设存在a个非0元素，行数为n，则共需要2a+n+1个存储单元。存储时采用3元组结构：先存储a个非零数，稀疏矩阵记为A；非零数所在列的列号；每行首个元素在A中的位置。具体操作如图2所示，步骤如下：

201、row_ptr是每行第一个非零元素在val中的索引与上一位非零元素的个数相加。为进一步压缩，不存储绝对位置的索引，而是存储与上一个有效权重的相对位置差，如此，索引的字节数即可被压缩。如图3所示，以用3bits保存相对距离为例，若位置差大于设定的阈值(2³＝8)，则在超过此阈值处插入0。实际上，本文将阈值在卷积层设置为8，全连接层为5。

步骤三、实现共享权重分区。将未被减掉的权重值分到不同的量化区间进行权重共享，这些量化区间被可视化为不同的颜色范围。给定权重宽b，可将数轴划分为2^b-1个分区(划分为类)，再加上被修剪了的从d^-到d⁺的0分区。权重共享限制了需要存储的有效权重的数量从而进一步压缩剪枝后的网络。

具体的权重共享分区策略使用K-means聚类算法来确定训练网络中每一层的共享权重，所有属于同一个聚类的权重都将共享相同的权重，权重不能跨层共享。将n个原始权重W＝{w₁,w₂,K,w_n}分为k个簇C＝{c₁,c₂,K,c_k}，其中n＞＞k，以聚类算法最小化类内误差，目标函数如下所示：

步骤四、网络量化通过减少表示每个权重所需的位数进一步压缩网络。通过对落入相应量化分区内的全精度权重求平均值来计算每个量化区间的量化值。然后，通过在下一个前向传播中将他们设置为新的量化级别来量化权重。随着网络学习的进展，量化值和权重的分配随着时间的推移不断变化。

401、对具有16个权重的层使用剪枝和量化操作。如图4所示。设剪枝率p＝0.25，给定的权重位宽。首先应用步骤一中的剪枝策略将四个绝对值较小权重设置为零，实际上从网络中删除相应的连接。然后，根据步骤三的分区策略，线性的划分权重值。最后通过平均每个分区内的权重值来计算量化值，并将权重设置为这些离散值。使用新的全精度权重在下一个训练小批量中重复以上步骤。

402、本文使用标准的稀疏编码方案存储压缩网络的权重。如图5所示，使用索引差对稀疏权重矩阵的结构进行编码，具体如下：

权重被量化为四个区间，用四种颜色标识，同一区间中的所有权重共享相同的值。因此，只需存储16个2bit的索引值及一个共享权重表即可计算得到权重矩阵连接的权值。在权重更新时，梯度矩阵同样被量化为4类，对每类梯度进行求和得到每类偏置，和聚类中心一起更新得到新的权重。上次迭代中的聚类中心减去对应累加后并乘以学习率的梯度值即为更新的权重。实际上，对于剪枝后的SAVD_VGG网络，能够为每个卷积层量化为8位(256个共享权重)，为每个fc层量化为5位，而不会有任何精度损失。

步骤五、用量化好的权重值进行前向传播计并算损失值。在训练期间，全精度量化值用于剪枝-量化操作中前向计算。在前向传播阶段存在一级间接查找权重表，为每个连接存储共享权重表的索引，计算时查表即可。

步骤六、用量化好的权重值进行反向传播更新权重。反向传播用于更新权重值。用L表示损失函数，第i列和第j行的权重由W_ij表示，I_ij为聚类中心的索引，C_k为第k个聚类中心，1(·)为指示函数，则梯度计算如下所示：

每次用小批量样本进行训练时都会更新剪枝状态、量化级别及其分配。当先前修剪的连接可能再次变得相关时，可以将其拼接回网络。此外，可以重新分配量化级别，量化级别本身随时间演进。训练期间对全精度权重进行微调，并在训练完成后丢弃。

步骤七、本算法在SAVD_VGG网络进行压缩实验，首先在KITTI数据集预训练SAVD_VGG网络，随机将7481张训练图像分为训练集和验证集。训练压缩SAVD_VGG网络进行90k次迭代，批量大小为32，初始学习率为0.001，每40k次迭代的学习率乘以1/10。对于贝叶斯优化，将λ设置为80并将最大迭代次数(即候选评估)设置为50。

如图所示表7可以看出AJP-Q对fc6和fc7进行了大幅度的压缩，在这两种情况下删除了近92％的连接。AJP-Q将SAVD_VGG从558.6MB压缩到9.5MB。基于车载环境提出AJP-Q压缩算法对SAVD网络进行优化是本文的重点也是一大创新点。而本次实验，初步取得了较好的实验效果。

为评估压缩后SAVD_VGG网络模型的检测性能，在此实验中，随机将7381张训练图像分为训练集和验证集，将学习率设为0.0005，在40k和70k迭代时将其降低0.1倍，并在75k次迭代后停止学习，将批量大小设置为20。在训练阶段只保留64个具有最高置信评分的检测结果，并使用NMS过滤这些边界框。本文将压缩前/后的SAVD_VGG网络与KITTI中排行榜中的一些模型进行比较。部分实验数据沿用3.1节实验数据。同时，新增与SqueezeDet网络模型的比较。SqueezeDet是为嵌入式平台而设计的一种高效的网络架构。实验结果统计数据如图8所示。

最后对经剪枝-量化压缩前/后的SAVD_VGG网和YOLOv2及SqueezeDet系列算法在Nvidia Jetson TX2嵌入式平台上的运行速度进行评估。实验结果汇总在图9。

Claims

1.本发明提出的网络压缩算法AJP-Q可以联合执行权重修剪和量化，通过微调预先训练的神经网络来学习压缩网络，并移除连接和减少编码剩余连接所需的位数。此算法利用了修剪和量化的互补性，并能够从早修剪错误中及时恢复过来，改进了现有方法分别执行剪枝和量化的过程，并且在第一阶段产生的误差在第二阶段无法矫正问题。主要包括以下步骤：

步骤一、对全精度网络权重值执行剪枝操作，网络学习有效连接；

101、首先设置两个截止点标量d^-和d⁺，用超参数p来确定，使得统一卷积层中(p×100)％的正权重值小于或等于d⁺，同时使(p×100)％的负权重值大于或等于d^-。而位于d^-和d⁺之间的所有权重在下一个前向传递中设置为零。此时会在处理下一个小批量(mini-batch)时从网络中删除相应的连接。这种剪枝决策时暂时的，在下一次迭代中，用上述表述的规则重新作用于更新后的参数，则之前被剪枝的连接可能会重新出现。虽然超参数p是常数，但阈值d^-和d⁺在每次迭代中改变。剪枝这一步骤能够将SAVD_VGG网络参数降低到原来的1/13。总体上，通过网络训练学习连接，将小于一定阈值权值直接移除，最终得到稀疏的网络连接。

步骤二、得到的最终稀疏网络连接采用稀疏压缩行(CSR)存储稀疏权重矩阵，设存在a个非0元素，行数为n，则共需要2a+n+1个存储单元。存储时采用3元组结构：先存储a个非零数，稀疏矩阵记为A；非零数所在列的列号；每行首个元素在A中的位置。

步骤三、对全精度权重进行共享并分区；

301、将未被减掉的权重值分到不同的量化区间进行权重共享，这些量化区间被可视化为不同的颜色范围。给定权重宽b，可将数轴划分为2^b-1个分区(划分为类)，再加上被修剪了的从d^-到d⁺的0分区。权重共享限制了需要存储的有效权重的数量从而进一步压缩剪枝后的网络。

302、具体的权重共享分区策略使用K-means聚类算法来确定训练网络中每一层的共享权重，所有属于同一个聚类的权重都将共享相同的权重，权重不能跨层共享。将n个原始权重W＝{w₁,w₂,K,w_n}分为k个簇C＝{c₁,c₂,K,c_k}，其中n＞＞k，以聚类算法最小化类内误差，目标函数如下所示：

步骤四、量化全精度权重并更新权重值；网络量化通过减少表示每个权重所需的位数进一步压缩网络。通过对落入相应量化分区内的全精度权重求平均值来计算每个量化区间的量化值。然后，通过在下一个前向传播中将他们设置为新的量化级别来量化权重。随着网络学习的进展，量化值和权重的分配随着时间的推移不断变化。

步骤五、用更新后的权重值进行前向传播计并算损失值；用量化好的权重值进行前向传播计并算损失值。在训练期间，全精度量化值用于剪枝-量化操作中前向计算。在前向传播阶段存在一级间接查找权重表，为每个连接存储共享权重表的索引，计算时查表即可。

步骤六、反向传播以更新全精度权重值，最后达到最大迭代数。用量化好的权重值进行反向传播更新权重。反向传播用于更新权重值。用L表示损失函数，第i列和第j行的权重由W_ij表示，I_ij为聚类中心的索引，C_k为第k个聚类中心，1(·)为指示函数，则梯度计算如下所示：