CN115810128A

CN115810128A - 一种基于贪心策略的图像分类模型的压缩方法

Info

Publication number: CN115810128A
Application number: CN202211650626.8A
Authority: CN
Inventors: 李强; 项任飞
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-03-17

Abstract

本发明公开了一种基于贪心策略的图像分类模型的压缩方法。本发明通过迭代贪心的方式，设定较小的训练次数、精度和剪枝率阈值，减轻了剪枝的痛点。而且将初始神经网络作为知识蒸馏中的教师网络，用于模型微调，将网络结构交给剪枝流程来选择，减少了知识蒸馏对于网络结构选择的依赖性。本发明经过图像分类小数据集CIFAR‑10与大数据ImageNet验证可靠性和泛用性，并且选用不同的剪枝策略和模型，实验结果表明，本发明提出的压缩方法与现有的压缩方法相比，能够在几乎不损失很高精度的情况下，最大程度地搜索轻量化的网络模型，得到的分类模型不仅参数量和计算量更低，而且推理速度更快，能够应用在对实时性、空间资源有严格要求的场景下。

Description

一种基于贪心策略的图像分类模型的压缩方法

技术领域

本发明属于网络压缩技术领域，特别是指一种基于贪心策略的图像分类模型的压缩方法。

背景技术

虽然复杂的卷积神经网络模型处理图像分类问题时具有更好的性能，但是随着网络层数越深，模型越复杂，这也带来了一些问题。由于一个复杂的神经网络模型往往需要进行大量的计算，并且消耗较多的内存空间，因此在一些工业生产现场就无法直接运用这些网络模型。研究者提出了模型压缩方法，目的是在不降低模型精度的情况下，尽可能减小模型复杂度来提升计算效率，节约内存空间，从而将神经网络实际应用到各领域中，本发明主要涉及到剪枝和知识蒸馏这两种模型压缩方法。

神经网络剪枝方法是保留一些重要的网络参数，移除剩下的从而简化网络结构实现模型压缩的目的。对神经网络的剪枝研究集中在网络结点与连接的细粒度剪枝、通道和滤波器的粗粒度剪枝两方面。Han(出处：Song Han,Jeff Pool,John Tran,and WilliamJ.Dally.Learning both weights and connections for efficient neuralnetworks.2015.)较早提出了一种细粒度剪枝策略:首先学习训练出的网络连接，再根据阈值修剪连接。此修剪将稠密的完全连接层转换为稀疏图层，因此非结构性剪枝会使得网络会产生一些不规则的稀疏权重矩阵，对硬件要求较高，于是有更多学者在结构性剪枝领域进行研究。不少学者提出一种滤波器级的剪枝策略，根据网络中各卷积层对剪枝存在的敏感性差异设定剪枝率；ThiNet(出处：Luo,Jian-Hao,Jianxin Wu,and Weiyao Lin.Thinet:A filter level pruning method for deep neural network compression.Proceedingsof the IEEE international conference on computer vision.2017)进一步提出微调模型的思想，对每一层结构性剪枝后仅训练一两个epochs，当整个网络都剪枝后，再训练足够的epochs。

而与传统训练网络模型的方式不同，知识蒸馏方法通过“教师-学生网络”思想来训练模型(出处：Geoffrey Hinton,Oriol Vinyals,and Jeff Dean.Distilling theknowledge in a neural network.2015.)，即首先训练好一个复杂的模型作为教师模型，然后设计一个小型神经网络作为学生模型，在训练的过程中，学生模型不仅受样本的“硬标签”影响，还会受到教师模型的输出“软标签”影响，该方法使得学生模型输出分布尽可能与教师模型相同从而实现模型压缩的目的。Ba(出处：Lei Jimmy Ba and Rich Caruana.Dodeep nets really need to be deep？,2013.)提出学生网络的训练方法:采用训练好的深度网络(教师网络)和未标记的数据共同训练学生网络；Romero等学者(出处：AdrianaRomero,Nicolas Ballas,Samira Ebrahimi Kahou,Antoine Chassang,Carlo Gatta,andYoshua Bengio.Fitnets:Hints for thin deep nets.2014.)在次基础上提出不仅仅将教师网络的输出作为学生网络学习的内容，在中间隐含层的表达上，学生网络也要向教师网络学习。知识蒸馏的训练模式将得到一个高网络性能的轻量级网络，但没有解决网络中可能存在着参数冗余的问题。

这两种传统的模型压缩方法各有其不足之处，比如剪枝方法通常需要花费资源先训练一个大型神经网络，并且需要给定剪枝率，在实验过程经常发现以下现象：剪枝率过大会使得网络无法恢复，而剪枝率过小冗余参数过多。而对于知识蒸馏，虽然能够训练出一个小型的神经网络，但是过分依赖网络的结构选择，需要反复地调参不断寻找优质的网络结构。

发明内容

本发明提出了一种基于贪心策略的图像分类模型的压缩方法，能够有效地降低常规分类模型的计算量和参数量，而且压缩好的模型不依赖于具体的剪枝方法以及训练过程中的超参数。

本发明的技术方案步骤如下：

步骤(1)、选用CIFAR-10十分类数据集和ImageNet千分类大数据集作为网络的训练集、验证集和测试集。

步骤(2)、对经典的带有残差结构的图像分类模型加载预训练参数。

步骤(3)、训练该图像分类模型网络至收敛，并作为教师网络和初始网络。

步骤(4)、采用一种基于通道或卷积核的结构化剪枝方法对初始网络进行剪枝，设定每一次剪枝的剪枝率，设定精度损失阈值和总剪枝率阈值。

步骤(5)、教师网络用于恢复经过当前剪枝的初始网络，得到剪枝后恢复的图像分类模型。

步骤(6)、进入迭代的模型压缩框架，在每次剪枝后，都使用教师网络重训练几个epoch恢复精度，再进入下一次剪枝。直到精度损失达到预先设定的阈值或者剪枝率达到要求，才退出迭代框架并得到压缩后的网络。

步骤(7)、计算量用FLOPs，即前向推理计算量来衡量；参数量以M(兆)为单位衡量；精度根据所采用的数据集不同评判方式也不同，具体如下：

CIFAR-10根据网络预测的结果与实际标签对比，正确预测所占总测试数量的百分比就是精度；而ImageNet需要根据预测的第一类别和前五个类别来评定，分别为Top-1Acc、Top-5Acc。Top-1Acc就是预测概率最大的结果是正确答案就是正确，而Top-5Acc是预测概率前五里有一个正确答案就是正确。

步骤(8)、横向比较本方法压缩后的网络、初始网络、使用基础方法压缩后网络的参数量、计算量以及精度。

进一步的，所述的教师网络和学生网络的输出首先要利用输出层的softmax函数归一化处理,设x_i是输入的图片数据，f(x)表示整个网络的输出，T是温度系数，在知识蒸馏中用于缓和输出：

在分类问题中t_u表示第u个分类的输出，N表示分类数量，因此所用softmax函数如下：

基于知识蒸馏的模型微调用于剪枝后的网络重训练，在本发明中只训练5个周期，训练中损失函数涉及到温度系数T，KL散度以及交叉熵，如下：

L_kd＝α×T²×KLDivLoss(Q_S,Q_T)+(1-α)×H(y_s,y_T)

其中α为平滑系数，在本发明中设置为0.95，T为知识蒸馏中的温度系数，本发明设置为1，KLDivLoss为第一个损失函数，根据学生网络与教师网络的softmax输出Q的KL散度计算，H为第二个损失函数，根据学生网络与教师网络初始输出y的交叉熵计算。

本发明的有益效果是：

与现有的技术相比，通过基于贪心策略的图像分类模型的压缩方法，能够在几乎不损失很高精度的情况下，最大程度地搜索轻量化的网络模型，得到的分类模型不仅参数量和计算量更低，而且推理速度更快，能够应用在对实时性、空间资源有严格要求的场景下。经典的知识蒸馏架构中的教师网络直接用于轻量化网络，在本发明中教师网络用于恢复经过剪枝的网络精度，得到剪枝后恢复的网络模型。

(1)参数量计算量更低的网络模型

使用本发明基于贪心策略的图像分类模型的压缩方法后，无论是ResNet还是DenseNet，相比于现有的剪枝框架，本发明提出的方法无论是使用Pruning filters还是Network slimming网络模型的计算量与参数量都尽可能地下降，且精度没有明显下降，反而偶尔由于知识蒸馏的效果精度反而提升，例如对ResNet-56使用Pruning filters方法剪枝并设置每次剪枝时卷积层剪枝率为0.1的情形下，本发明最终可将网络参数量下降至原来的三分之二，而精度反而提升0.5％。

(2)精度维持在可接受范围

图5是ImageNet数据集使用三种方案做出的对比实验，本实验基于ResNet-56实现，剪枝率、训练过程与CIFAR-10数据集使用的均相同，不同的是加入了移除教师网络的模型微调实验对比，以PFEC-A为例，在不使用本方法的模型微调时，Top-5Acc从91.42％下降到89.19％，而使用本发明的模型压缩方法能将精度保持到90.43％，可见本发明在基于贪心剪枝的同时也保持了模型的精度。

附图说明

图1是本发明的基于贪心策略的图像分类模型的压缩方法流程；

图2是本发明采用的知识蒸馏原理；

图3是本发明中图像分类模型每次剪枝后模型微调的原理；

图4是本发明基于小数据集CIFAR-10，不同图像分类模型在不同压缩方法下的性能表现对比；

图5是本发明基于大数据集ImageNet，ResNet-34在不同压缩方法下的性能表现对比；

具体实施方式

下面将根据本发明实施样例中的附图，对本发明中的技术方案进行清楚、完整地描述，描述中的实施例仅仅是本发明一部分实施例，无法囊括所有的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种基于贪心策略的图像分类模型的压缩方法。本发明中减轻了传统分类模型压缩方法的痛点：剪枝方法通常需要先训练一个大型神经网络，并且剪枝率是固定设置的，较为局限，在实验过程经常发现以下现象：剪枝率过大会使得网络无法恢复，而剪枝率过小冗余参数过多；而对于知识蒸馏，虽然能够训练出一个小型的神经网络，但是过分依赖网络的结构选择，需要反复地调参不断寻找优质的网络结构。本发明通过迭代贪心的方式，设定较小的训练次数，精度和剪枝率阈值，减轻了剪枝的痛点。而且将初始神经网络作为知识蒸馏中的教师网络，用于模型微调，将网络结构交给剪枝流程来选择，减少了知识蒸馏对于网络结构选择的依赖性。本发明经过图像分类小数据集CIFAR-10与大数据ImageNet验证可靠性和泛用性，并且选用不同的剪枝策略和模型，实验结果表明，本发明提出的压缩方法与现有的压缩方法相比，能够在几乎不损失很高精度的情况下，最大程度地搜索轻量化的网络模型，得到的分类模型不仅参数量和计算量更低，而且推理速度更快，能够应用在对实时性、空间资源有严格要求的场景下。

参阅图1-3，基于贪心策略的图像分类模型的压缩方法，包括两个方面，包括基于通道和卷积核的粗粒度剪枝方法和基于知识蒸馏的模型微调方法。

基于通道和卷积核的粗粒度剪枝具体过程为：

第一步：通道和卷积核的重要性评估

第二步：移除不重要的通道和卷积核

第三步：基于知识蒸馏的模型微调

第四步：剪枝结束后的模型作为新的初始模型重复前三步

基于知识蒸馏的模型微调方法具体过程为：

第一步：提取学生网络与教师网络输出的softmax

第二步：根据软硬标签分别计算loss

第三步：微调网络参数

第四步：重复上面的步骤数次

具体过程：

(1)数据集

CIFAR-10(出处：KRIZHEVSKY A.Learning multiple layers of features fromtiny images[D].University of Toronto,2009.)和ImageNet(出处：RUSSAKOVSKY O,DENGJ,SU H,et al.ImageNet large scale visual recognition challenge[J].International Journal of Computer Vision,2015,115(3):211-252.)，CIFAR-10一共包含10个类别的RGB彩色图片，比如飞机、汽车等等。数据集中一共有50000张训练图片和10000张测试图片。ImageNet数据集为2012年ILSVRC公开的分类数据集，训练集包含了130W张图片与标签，测试集和验证集为5W张图片与标签。在对数据集的处理方面，首先对训练集、验证集和测试集的样本做归一化预处理，为了丰富训练样本，对CIFAR-10和ImageNet数据集做数据增强处理，增强手段包括：随机翻转和随机裁剪。

(2)模型选择

本发明中基于贪心策略的图像分类模型的压缩方法所做的实验使用了ResNet(出处：HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[C].Proceedings of the IEEE conference on Computer Vision and Pattern Recogtion(CVPR).2016:770-778.)、DenseNet(出处：Gao Huang,Zhuang Liu,Laurens Van,DerMaaten,and Kilian Q Weinberger.Densely connected convolutional networks[C].InProceedings of the IEEE conference on computer vision and patternrecognition,pages 4700–4708,2017.)网络模型，涵盖了主流的残差神经网络，由于残差结构有效防止过拟合和网络退化现象，目前已经是使用较为广泛的卷积神经网络。

(3)剪枝方法

Network slimming(出处：Liu,Zhuang,et al.Learning efficientconvolutional networks through network slimming[C].Proceedings of the IEEEInternational Conference on Computer Vision.2017.)：通过BN层中的gamma系数评估通道的重要性，并在损失函数中增加针对gamma系数的L1正则约束，使得模型自动稀疏化，在训练完成后，网络模型中很多gamma系数值固定为零。

Pruning filters(出处：Hao Li,Asim Kadav,Igor Durdanovic,Hanan Samet,Hans Peter Graf.Pruning filters for efficient convnets.2017.)：根据卷积核所有参数的绝对值和评估卷积核的重要性，按照绝对值和进行排序实现剪枝操作。

(4)实现细节

本发明的实验代码基于Python3.8实现，深度学习框架基于Pytorch，部署在Ubuntu20.04LTS操作系统，使用4块Nvidia GTX 1080Ti显卡，配置11.2cuda处理器。下面分析整个模型压缩流程。所有训练流程采用的优化器是带有动量的最速梯度下降算法，学习率为0.1，动量为0.9，设置权重衰退为10^-4，所有训练(不包括模型微调)的周期为160次，每训练50次学习率衰退10倍。首先在Pytorch网站读取预训练好的ResNet-34模型，在CIFAR-10和ImageNet数据集下分别训练，得到的网络参数存储到本地，作为初始网络和教师网络。

如图2，本发明中教师网络和学生网络的输出首先要利用输出层的softmax函数归一化处理,xi是输入的图片数据，f(x)表示整个ResNet网络，T是温度系数，在知识蒸馏中用于缓和输出，在本实验中设置为1：

softmax函数如下，在分类问题中t_u表示第u个分类的输出，N表示分类数量：

基于知识蒸馏的模型微调只训练5个周期，损失函数涉及到温度系数T，KL散度以及交叉熵，如下：

L_kd＝α×T²×KLDivLoss(Q_S,Q_T)+(1-α)×H(y_s,y_T)

其中α为平滑系数，在本发明中设置为0.95，T为知识蒸馏中的温度系数，本发明设置为1，KLDivLoss为第一个损失函数，根据学生网络与教师网络的softmax输出的KL散度计算，H为第二个损失函数，根据学生网络与教师网络初始输出的交叉熵计算。

剪枝框架中所使用的剪枝方法都是粗粒度剪枝，即根据通道和卷积核的重要性判断哪些需要剪枝，本发明使用Pruning filters(后面简称为PFEC)和Network slimming(后面简称为Slimming)两种方法，分别对卷积核、通道剪枝。由于剪枝某一层对于网络的影响不尽相同，而且剪枝某一层会对下一层造成影响，对于不同的网络模型还需要根据剪枝的敏感度设定剪枝率，以ResNet-56为例，1-18层网络层设置的剪枝率比19-56层更高一些。实验中设置的不同剪枝率，以大写字母区分，如PFEC-A。

对比实验基于以下几类情形：仅剪枝并不使用本发明算法，使用本发明的压缩方法，使用本发明的压缩方法但是重训练恢复精度的过程不使用教师网络。

图4是CIFAR-10数据集使用一般的剪枝方法与本发明方法的网络性能差异。使用PFEC方法时，根据所选模型的不同，剪枝率对应的层数也不同：ResNet-56对应的为1-18层，19-36层，37-56层，PFEC-A表示剪枝率分别设置为0.1,0.1,0.1，PFEC-B表示剪枝率设置为0.6,0.3,0.1；ResNet-110对应的为1-36层，37-72层，73-108层，最后两层跳过，PFEC-A表示剪枝率分别设置为0.5,0,0，PFEC-B表示剪枝率设置为0.5,0.4,0.3。使用Sliming-A方法时，尺度因子设置为0.5。在使用本发明基于贪心策略的模型压缩方法后，网络模型的计算量与参数量大幅下降，而精度没有明显下降，反而偶尔由于知识蒸馏的效果精度反而提升(ResNet-56)。以ResNet-110为例，基础模型的参数量为1.73M，Flops为0.51G，精度达到93.79％，使用本发明方法后，参数量压缩到0.39M(不使用本算法仅达到1.17M)，精度下降0.65％(不使用本算法为0.12％)。

而图5是ImageNet数据集使用三种方案做出的对比实验，本实验基于ResNet-56实现，剪枝率、训练过程与CIFAR-10数据集使用的均相同，不同的是加入了移除教师网络的模型微调实验对比，以PFEC-A为例，在不使用本方法的模型微调时，Top-5Acc从91.42％下降到89.19％，而使用本发明的模型压缩方法能将精度保持到90.43％。

尽管已经展示了本发明中的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于贪心策略的图像分类模型的压缩方法，其特征在于包括如下步骤：

步骤(1)、选用CIFAR-10十分类数据集和ImageNet千分类大数据集作为网络的训练集、验证集和测试集；

步骤(2)、对经典的带有残差结构的图像分类模型加载预训练参数；

步骤(3)、训练该图像分类模型网络至收敛，并作为教师网络和初始网络；

步骤(4)、采用一种基于通道或卷积核的结构化剪枝方法对初始网络进行剪枝，设定每一次剪枝的剪枝率，设定精度损失阈值和总剪枝率阈值；

步骤(5)、教师网络用于恢复经过当前剪枝的初始网络，得到剪枝后恢复的图像分类模型；

步骤(6)、进入迭代的模型压缩框架，在每次剪枝后，都使用教师网络重训练几个epoch恢复网络精度，再进入下一次剪枝；直到精度损失达到预先设定的阈值或者剪枝率达到要求，才退出迭代框架并得到压缩后的网络。

2.根据权利要求1所述的基于贪心策略的图像分类模型的压缩方法，步骤(6)所述的恢复网络精度具体实现如下：

教师网络和学生网络的输出首先要利用输出层的softmax函数归一化处理,设x_i是输入的图片数据，f(x)表示整个网络的输出，T是温度系数，在知识蒸馏中用于缓和输出：

基于知识蒸馏的模型微调用于剪枝后的网络重训练，训练中损失函数涉及到温度系数T，KL散度以及交叉熵，如下：

L_kd＝α×T²×KLDivLoss(Q_S,Q_T)+(1-α)×H(y_s,y_T)

其中，α为平滑系数，KLDivLoss为第一个损失函数，根据学生网络与教师网络的softmax输出Q的KL散度计算；H为第二个损失函数，根据学生网络与教师网络初始输出y的交叉熵计算。