CN113837376A

CN113837376A - 基于动态编码卷积核融合的神经网络剪枝方法

Info

Publication number: CN113837376A
Application number: CN202111005875.7A
Authority: CN
Inventors: 纪荣嵘; 林明宝
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-12-24
Anticipated expiration: 2041-08-30
Also published as: CN113837376B

Abstract

基于动态编码卷积核融合的神经网络剪枝方法，涉及人工神经网络的压缩与加速。1)计算当前训练轮数的温度系数；2)根据原始层的卷积核权重与当前训练轮数的温度系数，计算原始层每个卷积核的概率向量；3)根据原始层每个卷积核的概率向量，计算融合层卷积核的权重；4)前向传播过程只使用融合层，反向传播的梯度由当前融合层同时回传到当前原始层与上一个融合层；5)循环执行1)～4)，直至达到预定的训练轮数；6)训练结束保留所有融合层的权重，即得剪枝后的紧凑卷积神经网络。无需依赖预训练模型与稀疏约束，可直接从头训练得到，卷积核个数更少，可在无需特定硬件支持的情况下，在通用硬件平台上实现网络压缩与加速。

Description

基于动态编码卷积核融合的神经网络剪枝方法

技术领域

本发明涉及人工神经网络的压缩与加速，尤其是涉及一种基于动态编码卷积核融合的神经网络剪枝方法。

背景技术

近年来，随着深度学习的快速发展，卷积神经网络(CNNs)的广泛的应用，使得图像分类、目标检测、目标跟踪等许多计算机视觉任务都发生革命性的变化。然而，这些任务性能的提升往往建立在巨大的网络计算成本和不断增加的模型参数量的基础上。虽然在拥有强大计算力的GPU上处理大规模的卷积神经网络模型是可行的，但在计算资源受限，存储空间受限，但却要求实时处理的移动设备上部署大型的卷积神经网络模型仍然具有很大的挑战。因此找出卷积神经网络模型中的计算和参数冗余已经成为计算机视觉方向的一个活跃的研究领域。当前学术界流行的方法包括但不限于权重共享、低比特量化、张量分解、知识蒸馏和网络剪枝。在这些方法中，网络剪枝又可以分为非结构化剪枝和结构化剪枝。

非结构化剪枝也称为权重剪枝，该方法移除单个卷积核中的权重或全连接层中的连接，最优脑损失和最佳脑手术利用二阶Hessian矩阵进行权重剪枝，Han等人(Han S,PoolJ,Tran J,et al.Learning both weights and connections for efficient neuralnetwork[C]//Advances in neural informationprocessing systems.2015:1135-1143)提出递归的删除权重小的连接，Aghasi等人(Aghasi A,Abdi A,Nguyen N,et al.Net-trim:Convex pruning of deep neural networks with performance guarantee[C]//Advances in Neural Information Processing Systems.2017:3177-3186)将剪枝视为一个凸优化问题，寻找每层的稀疏权值，是的输入和输出保持与原始模型接近，彩票理论(Frankle J,Carbin M.The lottery ticket hypothesis:Finding sparse,trainableneural networks[J].arXiv preprint arXiv:1803.03635,2018)随机初始化一个密集网络，并从头进行训练，其中，具有高权重的子网将被抽取并使用原始模型的初始化权重进行重新训练；然而权重剪枝会导致卷积核不规则的稀疏化，需要特定的硬件与软件才能实现实际的加速。

结构化剪枝即一次性移除整个卷积核的所有权重，由于它移除整个卷积核，从而对推理框架与硬件没有额外的要求，可以在通用的框架与硬件(如GPU，CPU等)上实现卷积神经网络的压缩加速，从而引起广泛关注。Li等人(Li H,KadavA,Durdanovic I,etal.Pruning filters for efficient convnets[J].arXiv preprint arXiv:1608.08710,2016)使用权重大小来衡量卷积核的重要性；Hu等人(Hu H,Peng R,Tai Y W,etal.Network trimming:A data-driven neuron pruning approach towards efficientdeep architectures[J].arXiv preprint arXiv:1607.03250,2016)认为输出比较稀疏的通道是冗余的，因此删除相应的卷积核；Lin等人(Lin M,Ji R,WangY,et al.HRank:FilterPruning using High-Rank Feature Map[C]//Proceedings of the IEEE/CVFConference on ComputerVision and Pattern Recognition.2020:1529-1538)观察到特征图秩的不变性，删除秩低的卷积核。Molchanov等人(Molchanov P,Tyree S,Karras T,etal.Pruning convolutional neural networks for resource efficient inference[J].arXiv preprint arXiv:1611.06440,2016)采用泰勒展开来逼近移除每个卷积核后对损失函数的影响。

根据不同结构化剪枝算法获得最终紧凑型卷积神经网络的方式，一般将现有的结构化剪枝算法分为依赖预训练模型的结构化剪枝与施加稀疏约束的结构化剪枝。

依赖预训练模型的结构化剪枝方法：现有的许多方法都是在预训练的卷积神经网络模型之上建立结构化剪枝。因此，许多方法旨在保留"重要"的卷积核，其评判卷积核是否重要的标准是基于预训练的卷积核权重(如L1-norm和coreset)，或输出特征图的激活值，如特征图的稀疏度、特征图的秩或移除卷积核对精度或损失的影响。另外一些方法将卷积核修剪表述为一个迭代优化问题，以最小化重建误差。然而，对于所有这些方法，修剪卷积神经网络的能力严重依赖于计算量巨大的预训练模型。此外，卷积核的选择是一次性编码的，所谓一次性编码，即算法选中的"重要"的卷积核是固定的，这就造成性能提升的瓶颈，特别是在剪枝后还需要进行微调的过程以提高精度。然而，当以逐层剪枝的迭代方式实现时，这种微调的训练计算开销甚至比训练原始的卷积神经网络的预训练模型还要大。

添加稀疏约束的结构化剪枝方法：这类方法将手工设计的正则化项添加到网络训练损失项中。通常将引入的正则化项对特定目标进行稀疏化，如BN层的参数、通道掩码、辅助矩阵和卷积核权重等。这些方法采用联合重训优化，然后通过保留值较大的重训卷积核，得到一个紧凑的卷积神经网络模型。这种策略虽然消除对预训练模型的依赖性，但由于引入的正则化项稀疏约束对超参数敏感，通常需要进行几轮复杂的分析，这也给训练的普遍性和灵活性带来很大的困难。此外，当使用常见的随机梯度下降(SGD)训练深度神经网络时，其中，一些方法在优化这种修改后的损失时会遇到问题，因此，这些方法需要专门的优化器，甚至需要再进行一轮微调来提升性能，这些因素都大大影响这类方法的灵活性和易用性。

发明内容

本发明的目的是针对当前主流卷积神经网络结构化剪枝方法存在依赖预训练模型或稀疏约束导致算法复杂度增加等问题，提出一种基于动态编码卷积核融合的神经网络剪枝方法(DCFF)，本发明无需依赖预训练模型与稀疏约束，直接从头训练的得到紧凑的卷积神经网络模型。同时紧凑模型与原始模型相比，卷积核个数更少，可以在无需特定硬件支持的情况下，在通用硬件平台上实现网络的压缩与加速。

本发明包括以下步骤：

1)计算当前训练轮数的温度系数t；

2)根据原始层的卷积核权重与当前训练轮数的温度系数t，计算原始层每个卷积核的概率向量p；

3)根据原始层每个卷积核的概率向量p，计算融合层卷积核的权重；

4)训练一个轮次，前向传播过程只使用融合层，反向传播的梯度由当前融合层同时回传到当前原始层与上一个融合层；

5)循环执行步骤1)～4)，直至达到预定的训练轮数；

6)训练结束后保留所有融合层的权重，即得到剪枝后的紧凑卷积神经网络。

在步骤1)中，所述计算当前训练轮数的温度系数t，温度系数t的表达式如下：

其中，T_s＝1，T_e＝+∞，E是总的训练轮数，e是当前的训练轮数，e∈[0，E)；T_s、T_e指温度系数的起始值和结束值；

在步骤2)中，所述计算原始层每个卷积核的概率向量p的具体步骤可为：

每一层第k个卷积核的概率向量

其中，

用来计算2个向量的欧式距离,c_out为该层的卷积核个数。

在步骤3)中，所述计算融合层卷积核的权重的具体步骤可为：

计算融合卷积层的权重

的方式:

其中

计算第k个卷积核的重要性分数I_k的方式:

p_kj的计算方式同上；f(k)返回重要性分数I_k最大的k个卷积核的索引。

本发明可就用于使用卷积神经网络的所有领域，主要是图像分类、目标检测、语义分割等计算机视觉相关领域。与现有技术相比，本发明具有以下突出优点：

1)通过探索卷积核之间的相互相似性，发明一种基于Kullback-Leibler散度的新的卷积核重要性度量方法，它可以在训练紧凑卷积神经网络的同时动态地选择重要的卷积核，而无需依赖于预先训练一个计算量大的模型。

2)利用层内卷积核的相似性分布，提出一种卷积核融合概念，实现紧凑卷积神经网络的训练，在不删除低分数卷积核的情况下实现卷积核修剪，无需引入对超参数敏感的稀疏约束。

3)通过大量的实验验证，本发明提出的基于动态编码卷积核融合的结构化剪枝算法(DCFF)不仅实现简单，且大大降低剪枝算法的复杂度，同时性能也超过各种主流的先进剪枝算法，这些都提高本方法的实际部署能力。

附图说明

图1为本发明方法框架图。

图2为本发明方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下实施例将结合附图对本发明进行作进一步的说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，以下对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

本发明的目的是针对当前主流卷积神经网络结构化剪枝方法存在依赖预训练模型或稀疏约束导致算法复杂度增加的问题，提出一种基于动态编码卷积核融合的结构化剪枝算法(DCFF)，无需依赖预训练模型与稀疏约束，直接从头训练的得到紧凑的卷积神经网络模型。同时紧凑模型与原始模型相比，卷积核个数更少，可以在无需特定硬件支持的情况下，在通用硬件平台上实现网络的压缩与加速。

本发明实施例所述方法的框架图如图1所示，流程如图2所示。

1.符号说明

M(L⁽¹⁾，L⁽²⁾，...，L^(N))表示一个N层的卷积神经网络(CNN)，其中，L⁽ⁱ⁾表示第i个卷积层，该层的卷积核个数为

该层的卷积核权重可以表示为矩阵的形式：

其中，

其中，

ω⁽ⁱ⁾、h⁽ⁱ⁾分别是第i层的输入通道数、卷积核的宽和高。接着为第i层的卷积核权重W⁽ⁱ⁾加上偏置，构成维度为

的矩阵，给定第i个卷积层的输入O^(i-1)(即上一个卷积层的输出)，则第i个卷积层的输出可以表示为：

其中，

是O⁽ⁱ⁾的第k个通道，

表示卷积运算。

剪枝算法的目标是得到一个N层的紧凑卷积神经网络

其中，第i层

的

个卷积核表示为

且满足

2.动态编码的卷积核重要性评估准则

传统的一次性编码的剪枝方法采用在预训练模型上选择固定高分数的“重要”卷积核。本发明发现到一次性编码选择的固定高分数的卷积核的动机存在自相矛盾，即经过微调后高分数的卷积核的分数会降低，不再保持高分数。主要原因包括两个方面：

(1)虽然这些评分标准确实是每个卷积核的固有属性，但不同的卷积核之间的相互相似性不能很好地反映出来。

(2)这些标准是在预先训练好的模型基础上提出的，但在不同的训练阶段，许多卷积核的相对重要性会发生很大的变化。此外，经过训练后，不同卷积核之间的得分几乎相同。因此，基于预训练模型来评估卷积核的重要性是不合适的。

因此，在能够反映卷积核之间的相互相似性的前提下，应该构建一个合适的方法来衡量卷积核的重要性。同时，这个方法应该以动态编码的方式进行，即在整个训练过程中可以跟踪网络中每个卷积核的实时重要性。

本发明提出要维持一个分布

作为卷积核w_k的代理，p_k中所有的概率之和为1，即

将p_kj定义如下：

其中，

表示欧式距离，t为温度系数用于调整分布的平滑性。

p_k通过将每层的所有卷积核之间的相互之间的欧式距离转化为一个概率向量，将所有的欧氏距离标准化，从而模拟一个卷积核w_k和其他卷积核在分布空间中的相互相似性。然后，将卷积核w_k的重要性建立在代理p_k之上，而不是w_k的内在属性。因此，对w_k的重要性的度量可以通过w_k与其他卷积核的分布差异来表示，使用Kullback-Leibler(KL)散度来定义：

根据KL散度的定义，它衡量的是分布p_k与其他分布之间的差异。若分布p_k与其他分布之间差异大，则公式(3)返回一个高重要性分数I_k，表示w_k较为重要。其原理是，若一个卷积核与其他卷积核区别很大，则它应该是有代表性的；否则，w_k可以用其相似的卷积核代替。

本发明得出卷积核互相似性的准则，用于选择W中重要性得分最高的

个卷积核。下一步，一个简单的在训练过程中实现动态编码的卷积核重要性评价的方案是在每个训练轮数之前重新计算卷积核的重要性，从而更新

然而，这种方案会降低紧凑模型性能，具体来说，在早期训练阶段，所有的卷积核都是随机初始化的，因此它们应该被平等地选中去竞争作为重要的卷积核。在这种情况下，

是允许剧烈更新的。然而，过于频繁地更新

会导致在训练后期网络可能会出现不稳定的情况。因此，随着训练的进行，所有卷积核的相对重要性应该逐渐趋于稳定。为此，以训练自适应的方式来调整温度系数t，t的表达式如下：

其中，T_s＝1，T_e＝+∞(本实施例中取T_e＝10⁴)，E是总的训练轮数，e是当前的训练轮数，e∈[0，E)。

公式(4)表示，训练开始时温度系数t从一个较小的值t＝T_s开始变化，公式(2)中定义的分布p_k成为一个松弛化后的向量，因此使用公式(3)可容易地改变每个滤波器的重要得分，导致

的频繁更新。而在温度系数t＝t_e趋于无穷大的情况下，p_k接近于一个one-hot的分布向量，相对重要得分将逐渐稳定下来，这冻结

的更新，同时也使训练后期过程稳定。

3.卷积核融合

通过使用动态编码的卷积核重要性评估准则，从头开始训练紧凑型卷积神经网络，以消除对计算量大的预训练模型的依赖性。通过选择重要性得分最高的

个卷积核，组成

可以得到一个紧凑的卷积核集合，表述为：

其中，f(k)返回重要性分数排序中第k重要的卷积核的下标。

然而，现有的方法只是简单地丢弃低分卷积核以获得紧凑的卷积核集合

并需要进行微调的阶段以恢复模型性能，有些逐层剪枝的方法的计算开销甚至比训练预训练模型开销更大。尽管被丢弃的卷积核的得分很低，但这些卷积核的信息，对网络性能也是至关重要的，因为去除它们会导致性能的显著下降。事实上，重要性分数大的卷积核在微调后可能会重新变小的现象，也支持本发明的理论。因此，合理的方式应该是将原始的卷积核集合W融合为卷积核个数更少的卷积核集合

这种方式得到的

中的大部分信息来自“重要”的卷积核，小部分来自“不重要”的卷积核，而不是直接丢弃“不重要”的卷积核。在这个思想下，可以将公式(5)中的紧凑卷积核细化为：

如图1所示，对于反向传播，通过链式规则更新原始的卷积核集合W⁽ⁱ⁾。在无需任何稀疏约束的常规网络训练后，可以得到所有层的紧凑卷积核集合

即可进行前向推理，这大大方便卷积网络剪枝的实际部署，也使基于动态编码卷积核融合的结构化剪枝算法(DCFF)区别于现有的正则化约束的方法。本发明提出的基于动态编码卷积核融合的结构化剪枝算法(DCFF)的主要过程，如图2算法流程所示。

4.训练细节

本发明将提出的基于动态编码卷积核融合的结构化剪枝算法(DCFF)使用CIFAR-10和ImageNet数据集进行效果评测，使用Pytorch深度学习框架，在NVIDIAGTX 1080Ti显卡上进行实施。训练过程中的优化器使用随机梯度下降(Stochastic Gradient Descent，SGD)，优化器动量设置为0.9，batch大小设置为256，初始学习率设置为0.1；在CIFAR-10数据集上，训练的轮数设置为300，权重衰减设置为5×10^-4，学习率在第150轮和第225轮降为原来的0.1；在ImageNet数据集上，训练的轮数设置为90，权重衰减设置为1×10^-4，学习率在第30轮和第60轮降为原来的0.1。

此外，使用余弦衰减学习率(Loshchilov I,Hutter F.Sgdr:Stochasticgradient descent with warm restarts[J].arXiv preprint arXiv:1608.03983,2016)来调整ResNet-50的学习速率，权重衰减设置为1×10^-4，MobileNet的权重衰减设置为4×10^-5，训练轮数设置为180，ResNet-50和MobileNet的初始学习率分别设置为1×10^-2和5×10^-2。

5.应用领域

本发明可以应用在任何使用深度卷积神经网络(CNN)的领域，以实现对深度卷积神经网络的压缩和加速。如计算机视觉、自然语言处理、知识图谱等方面。

表1为CIFAR-10数据集上本方法与其他先进算法剪枝结果对比；

表1

表2为ImageNet数据集上本方法与其他先进算法剪枝结果对比；

表2

从表1和2可以看出，无论是在CIFAR-10小数据集还是ImageNet大规模数据集，所提方法均能以在更大的计算量和参数量的剪值率的情况下，保持更好的分类精度。