CN113077044A

CN113077044A - 一种通用的卷积神经网络无损压缩与加速方法

Info

Publication number: CN113077044A
Application number: CN202110292295.4A
Authority: CN
Inventors: 崔碧峰; 许建荣; 李超; 张宇航; 王翔媛
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-07-06

Abstract

本发明公开了一种通用的卷积神经网络无损压缩与加速方法，卷积神经网络模型经过无损压缩器优化，以实现模型在嵌入式设备或移动设备上的部署问题。该无损压缩器由结构化剪枝器与模型重塑器进行级联构成。结构化剪枝器用于实现模型结构上的精简优化，通过某些结构化剪枝方法实现对模型参数、FLOPs、模型储存空间的结构化极大压缩；模型重塑器则是对结构化剪枝器精简优化后的模型根据模型特点进行一定程度上的模型重塑，重塑的时，在已优化的模型上尽可能引入更少的结构注入到优化模型中，保证优化后的模型有较少的计算力、参数量的增加，但却性能够上有明显的提升，从而实现模型性能的明显恢复。

Description

一种通用的卷积神经网络无损压缩与加速方法

技术领域

本发明属于人工智能领域，特别适用于深度神经网络模型的压缩，尤其涉及一种通用的卷积神经网络无损压缩与加速方法。

背景技术

深度学习模型与加速是深度学习中偏向于工业落地部署的一个重要的研究方向，其通过不同的手段在保证网络性能可接受范围内对网络进行优化，实现深度卷积神经的压缩与加速，从而实现在提高卷积神经网络的推理效率的同时而具有良好的推理性能。随着硬件技术的发展与学术界的广泛研究，卷积神经网络在视觉任务中取得了显著的成功，包括图像分类[5,8,18]、目标检测[17,16]，语义分割等[3,12]。在ILSVRC-2012的竞赛中，AlexNet[10]模型相比于传统的图像分类方式高出了8:7％左右的准确率。之后，随着GPU(Graphics Processing Unit)算力的提升，学术界研究的深入，AlexNet、VGGNet、ResNet、GoogleNet等神经网络设计的出现，神经网路的性能开始追上了人类的图像分辨水平。如今在一些视觉任务上它们开始逐渐的超越人类识别能力。然而，目前大多数的卷积神经网络(CNNs)由于部署端大量的计算和存储开销。例如，AlexNet网络是在2012年提出的，其刷新了ImageNet挑战赛以往的最高纪录，该网络由五层卷积层与三层全连接层组成，该网络拥有60兆参数量、超过200兆的模型体积，在进行一次网络推理时需要进行15亿浮点运算；VGG-16网络是由3层全连接层和13层卷积层组成，该网络拥有138兆参数量，超过500兆的模型储存空间，在进行一次前向推理时需要进行1.53×10¹¹次浮点预算，在英特尔i7-4790K(4GHz)上运行一个单核，使用一个Titan X GPU时，开启多线程推理，其推理时间为9.4ms。而在普通的移动设备上，由于设备本身的大小，使其在难以具备有如此高的算力资源以及足够的储存资源，其难以达到该性能。卷积神经网络对计算和存储资源的高需求严重阻碍了其大规模CNN在移动设备、可穿戴设备和物联网)

设备等资源受限设备中的部署，进而使其在工业部署落地上受到限制。为了解决此问题，学术界与工业界一直在开展相关的研究，主要在设计紧凑的深层神经网络、模型的压缩加速推理与减少存储开销等方面开展相关的研究。设计紧凑的深层神经网络是通过人工设计专家，凭借丰富的网络设计经验，设计高效的卷积神经网络，设计人员可以根据模型本身的特征或者实际的业务需求对模型开展相关的针对性设计，专一性显得更加强。而模型的压缩与加速则是通过找到某些准则或者设计通用的评价方式实现对卷积神经网络的压缩与加速，其无需依赖人工专家的经验，可以实现对不同任务的通用性压缩，但是其针对性较弱。结构化剪枝是模型剪枝中的一种，是模型压缩与加速的一个热门的研究领域之一。许多优秀的研究的工作[4,9]已经表明，在没有显著性能下降的情况下，从神经网络中移除大部分连接或神经元是可行的。然而，由于连接剪枝方法使参数张量不变小，而是更稀疏，没有专门硬件的支持，可以观察到很少或没有加速度。然后，研究人员很自然地在CNN上更进一步：通过去除滤波器而不是零星连接，将宽卷积层转化为更窄的层，从而显著降低了FLOPs、内存占用和功耗。一种方法通过某种方式定义滤波器的重要性，然后仔细选择和剪枝不重要的滤波器，以尽量减少性能损失。以前的一些工作分别通过精度降低[1]、通道贡献方差[15]、基于泰勒展开的准则[14]、卷积核的大小[11]和零激活的平均百分比(APOZ)[7]来衡量滤波器的重要性；罗等人[13]根据下一层导出的信息选择过滤器；Yu等人[19]考虑误差传播的影响；另一个类别试图在某些约束下训练网络，以便将一些滤波器归零，其中[2]使用组-Lasso正则化对模型进行约定从而实现模型的压缩与加速。值得注意的是，由于去除一些整个滤波器会大大降低网络，CNN通常以分层[6,15]或卷积层[1,11]的方式进行剪枝，并需要一个或多个微调过程来恢复精度。结构化剪枝是一种高效而通用的压缩方法，其可以对模型冗余的结构进行结构化精简优化，优化后的模型不会产生矩阵稀疏性，其可以被广泛的用于不同的部署设备，加速的效果不依赖于加速库与是否有专门的硬件加速器。但其有一定的弊端，压缩后的模型，由于2-Dkernel或者3-D filter卷积核出现成块或者成组性的减少，导致CNN网路在提取信息时，非常容易丢失信息而造成网络的性能有一定的下降，即模型的推理效率提高了而推理性能却有一定的下降，难以保证压缩后的模型能够达到甚至由于压缩前的模型的性能。本发明设计了一种通用的卷积神经网络无损压缩与加速结构，在该结构中的无损压缩器中，本发明采用了结构化剪枝方法，同时在结构化剪枝之后，通过创建模型重塑器来改进优化无损结构化剪枝的缺点，从而实现模型的无损压缩。

参考文献：

[1]Reza Abbasi-Asl and Bin Yu.Structural compression of convolutionalneural networks based on greedy filter pruning.CoRR,abs/1705.07356,2017.

[2]Jose M.Alvarez and Mathieu Salzmann.Learning the number ofneuronsin deep networks.In Proceedings ofthe 30th International Conference onNeuralInformation Processing Systems,NIPS’16,page 2270–2278,Red Hook,NY,USA,2016.Curran Associates Inc.

[3]Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,andHartwig Adam.Encoder-decoder with atrous separable convolution for semanticimage segmentation.In Vittorio Ferrari,Martial Hebert,Cristian Sminchisescu,and Yair Weiss,editors,Computer Vision–ECCV2018,pages 833–851,Cham,2018.Springer International Publishing.

[4]Emily Denton,Wojciech Zaremba,Joan Bruna,Yann LeCun,and RobFergus.Exploiting linear structure within convolutional networks forefficient evaluation.In Proceedings ofthe 27th International Conference onNeural Information Processing Systems-Volume 1,NIPS’14,page 1269–1277,Cambridge,MA,USA,2014.MIT Press.

[5]Kaiming He,Xiangyu Zhang,Shaoqing Ren,and Jian Sun.Deep residuallearning for image recognition.In Proceedings ofthe IEEE conference oncomputer vision and pattern recognition,pages 770–778,2016.

[6]Yihui He,Xiangyu Zhang,and Jian Sun.Channel pruning foraccelerating very deep neural networks.In Proceedings of the IEEEInternational Conference on Computer Vision,pages 1389–1397,2017.

[7]Hengyuan Hu,Rui Peng,Yu Wing Tai,and Chi Keung Tang.Networktrimming:A data-driven neuron pruning approach towards efficient deeparchitectures.2016.

[8]Gao Huang,Zhuang Liu,Van Der Maaten Laurens,and Kilian QWeinberger.Densely connected convolutional networks.2016.

[9]Q.Huang,K.Zhou,S.You,and U.Neumann.Learning to prune filters inconvolutional neural networks.In 2018 IEEE Winter Conference on Applicationsof Computer Vision(WACV),pages 709–718,Los Alamitos,CA,USA,mar 2018.IEEEComputer Society.

[10]Alex Krizhevsky,Ilya Sutskever,and Geoffrey E Hinton.Imagenetclassification with deep convolutional neural networks.In Advances in neuralinformation processingsystems,pages 1097–1105,2012.

[11]Hao Li,Asim Kadav,Igor Durdanovic,Hanan Samet,and Hans PeterGraf.Pruning filters for efficient convnets.CoRR,abs/1608.08710,2016.

[12]Jonathan Long,Evan Shelhamer,and Trevor Darrell.Fullyconvolutional networks for semantic segmentation.IEEE Transactions on PatternAnalysis and Machine Intelligence,39(4):640–651,2015.

[13]Jian Hao Luo,Jianxin Wu,and Weiyao Lin.Thinet:A filter levelpruning method for deep neural network compression.In 2017 IEEE InternationalConference on Computer Vision(ICCV),2017.

[14]Pavlo Molchanov,Stephen Tyree,Tero Karras,Timo Aila,and JanKautz.Pruning convolutional neural networks for resource efficient transferlearning.CoRR,abs/1611.06440,2016.

[15]A.Polyak and L.Wolf.Channel-level acceleration of deep facerepresentations.IEEEAccess,3:2163–2175,2015.

[16]Joseph Redmon and Ali Farhadi.Yolo9000:Better,faster,stronger.InIEEE Conference on Computer Vision&Pattern Recognition,pages 6517–6525,2017.

[17]Shaoqing Ren,Kaiming He,Ross Girshick,and Jian Sun.Faster r-cnn:Towards real-time object detection with region proposal networks.IEEETransactions on Pattern Analysis&Machine Intelligence,39(6):1137–1149,2017.

[18]Christian Szegedy,Sergey Ioffe,Vincent Vanhoucke,and AlexanderAlemi.Inception-v4,inception-resnet and the impact of residual connections onlearning.AAAI Conference on ArtificialIntelligence,022016.

[19]R.Yu,A.Li,C.Chen,J.Lai,V.I.Morariu,X.Han,M.Gao,C.Lin,andL.S.Davis.Nisp:Pruning networks using neuron importance score propagation.In2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,pages9194–9203,2018.

发明内容

本发明要解决的技术问题是，提供一种卷积神经网络无损压缩与加速方法，解决卷积神经网络在压缩与加速之后，难以实现推理效率与推理性能平衡的问题。该方法的关键在于设计一种无损压缩器，其能够有效的实现模型模型的压缩与加速同时又保证模型的推理性能几乎没有损失甚至有一定提升。本发明的技术处理对象为“卷积神经网络模型”，经过无损压缩器优化的模型一定程度上解决模型的模型容量大、参数计算量大、模型推理耗电量大等弊端，以实现模型在嵌入式设备或移动设备上的部署问题。该无损压缩器由结构化剪枝器与模型重塑器进行级联构成。该无损压缩器由两大部分组成：结构化剪枝器、模型重塑器。结构化剪枝器用于实现模型结构上的精简优化，通过某些结构化剪枝方法实现对模型参数、FLOPs、模型储存空间的结构化极大压缩；模型重塑器则是对结构化剪枝器精简优化后的模型根据模型特点进行一定程度上的模型重塑，重塑的时，在已优化的模型上尽可能的引入更少的结构注入到优化模型中，保证优化后的模型有较少的计算力、参数量的增加，但却性能够上有明显的提升，从而实现模型性能的明显恢复。

本发明方法提出一种通用的卷积神经网络无损压缩与加速方法，该方法流程示意图如图1。该流程分为以下几个部分：基准卷积神经网络模型、无损压缩器、性能恢复。

步骤1，输入原始卷积神经网络模型。

对原始卷积神经网络模型进行训练，用于获取具有良好推理性能(训练到模型收敛)的基准卷积神经网络模型，该基准卷积神经网络模型将被用于压缩前后的压缩加速性能的对比与步骤2中的结构化压缩器的模型结构化剪枝。

步骤2，输入原始模型，对原始卷积神经网络模型进行无损压缩。

步骤2.1采用结构化压缩器对原始卷积神经网络模型进行结构化剪枝压缩。采用步骤1的基准模型进行结构化压缩。在这个步骤中，将实现对原始卷积神经网络模型冗余结构、冗余参数的压缩。因此，压缩之后模型，将具有更优的推理速度，具体体现在同一设备下，压缩后的模型的推理效率相对于未压缩的模型将具有更好的推理效率。需要注意的是，在这步骤中，不局限于某一种模型压缩剪枝算法。

步骤2.2采用模型重塑器对原始卷积神经网络模型进行性能恢复。

采用步骤2.1压缩后的原始卷积神经网络模型进行模型重塑，由于步骤2.1采用的是结构化压缩方法，精简优化原始卷积神经网络模型的结构，使得原始卷积神经网络模型具有更少的卷积核。因此，原始卷积神经网络模型在进行信息提取的时候，由于相对于未压缩的模型将具有更紧凑的结构而丢失某些信息，从而令模型的推理性能上产生一定的损失。将对压缩后的模型结构中，丢失卷积核比较明显的层进行模型结构重塑。

步骤2.2.1对原始卷积神经网络模型各层压缩的比例进行排序。

步骤2.2.2对压缩比例最大的部分对应的卷积层进行模型重塑。

步骤3，对原始卷积神经网络模型进行性能恢复。

通过无损压缩器优化后的模型，无论是结构还是参数上，都达到了模型相对精简的程度，但由于剪枝压缩后，结构与参数内部信息存在一定的损坏，在对模型进行重塑后，原始卷积神经网络模型的结构出现了一定程度的变化，对卷积层的各层的相关性产生一定的影响。完成对原始卷积神经网络模型的有效参数部分的性能恢复，使得卷积神经网络模型能够尽可能的恢复原来模型推理性能，保证原始卷积神经网络模型在精简的结构下具有精简的参数而不损失模型性能从而实现对模型极大压缩。性能恢复的策略主要要两种：对原始卷积神经网络模型进行重新初始化或者微调。以上两种策略都可以被用来进行该步骤的性能恢复。此时存在两种情况，卷积神经网络模型性能能够恢复与模型性能无法恢复。

步骤3.1模型性能恢复达到甚至优于未压缩前的状态。

如果通过步骤3，对经过无损压缩器压缩的卷积神经网络模型进行性能恢复，卷积神经网络模型能够恢复甚至优于未压缩状态的性能，则可以直接输出精简的卷积神经网络模型。

步骤3.2模型性能恢复达不到未压缩前的状态。

如果通过步骤3，通过性能恢复训练之后，模型性能低于未压缩状态，则表明模型的精简粒度过大，导致模型出现永久破坏性性能。此时，需要重新调整压缩力度，即回到步骤2.2，降低压缩的比例，重新进行压缩。

目前的压缩剪枝方法，大多数压缩的过程中，需要权衡模型的准确率与压缩率。一方面，为了获取较大的压缩力度，实现对模型显著的加速，会增加模型的压缩率而提高模型的加速效果。另一方面，无论是结构化剪枝还是非结构化剪枝方法，压缩剪枝过程中裁剪了模型结构或参数信息，造成模型的性能出现一定程度的损失。而这些性能损失有些则是永久性创伤，是通过模型性能微调训练无法恢复的。本发明提出了一种通用的卷积神经网络无损压缩与加速方法，该方法在对卷积神经网络模型进行结构化剪枝压缩后，通过对模型的部分结构进行重塑而实现结构恢复以弥补结构化剪枝压缩带来的性能永久性创伤，该方法实现卷积神经网络模型的压缩与加速同时又保证模型的推理性能几乎没有损失甚至有一定提升。

附图说明

图1卷积神经网络无损压缩与加速框架。

图2无损压缩器内部结构。

图3无损压缩器压缩过程中，特征图变化。无损压缩器压缩过程中，特征图变化(D状态的颜色深浅，表示C状态的特征图经过模型重塑器之后特征图之间出现不同的敏感性分布，越深代表敏感性越强，反之亦然)

具体实施方式

以下结合附图和实施例对本发明进行详细说明。

结构化剪枝器(对应步骤2.1)

结构剪枝器的主要目标是去除模型中冗余的卷积核，如图3表示。通过结构化剪枝器压缩后的模型，卷积核表现为卷积核数量更少，即模型每一层的卷积核更加紧凑，冗余的卷积核被压缩了。而特征图上表现为特征图的通道数量变少。图3中的A状态的特征图，由于冗余的卷积核被压缩了，因此在通过结构化剪枝器的压缩后，C状态的特征图的通道上更少。提出以下结构化剪枝方法，将CNN的优化目标表示为：

W：是CNN中所有L层的可训练权重。

M：网络的层数。

D：训练数据集。

Loss(W，D)：表示数据集上的正常训练损失。

R(W)：表示非结构正则化，例如L1正则化和L2正则化。

Rss(·)：表示分别应用于L层上的结构正则化。

α和α_a是非结构正则化和结构化正则化的超参数。

其中，

具体表示为：

OCl：第l层上输出通道的数量。

W^l _i；：是第l层W^l权重向量的第ith通道权值，

∑_i||·||_c：是一个特定的结构化正则化项，可以有效地将某些输出通道中的权重归零

通道重要性评估

E^l _i：是l层的i外通道的能量。

·模型重塑(对应步骤2.2)

引入采用通道注意力机制进行模型重塑。通过结构化剪枝器进行剪枝之后的模型，产生了更加紧凑的精简模型，同时，也可能带来一定程度上的模型性能的损失。对产生损失过大的卷积层部分，引入模型重塑方式，即这里的注意力机制，对其进行精简的性能提升。通过该通道注意力机制之后，模型在学习的过程中将会倾向于某些重要的信息通道，从而提高模型学习的效率与质量。

在卷积神将网络中，网络内部的一组输入的特征图uc被表示为如下：

v：表示神经网络的卷积核。

X：表示输入的特征图。

u_c：表示输出的特征图。

v^s _c：一个二维空间卷积核，表示其单个通道作用于特征图x的对应通道。

C’：通道数量对原始输入的特征图uc进行全局平均池化，将一个二维的特征图信息压缩成为一个权值，表示为：

H×W：空间维度信息。

u_c(i；j)：输入特征图信息。

F_sq(uc)：全局池化压缩后的信息。

通过上式压缩后的信息，其输出为1×1×C。对该压缩后的特征信息进行激活处理。

s＝F_cx(z，W)＝σ(g(z，W))＝σ(W₂δ(W1z))

δ：激活函数。这里采用Leaky ReLU激活函数。

σ：激活函数。这类采用Sigmoid函数。

通过上式进行激活处理后，将激活输出的结果s与原来输入特征图信息进行相乘加权。

uc：输入特征图信息

sc：注意力权值。

在该部分中，本发明对结构化剪枝器与模型重塑器分别采用了不同的方法，但是需要注意的是，结构化剪枝器中对应的方法替换成其他的结构化剪枝方法或模型重塑器中的方法替换成其他的方法，本发明的模型处理器结构仍然适用，即本发明的无损压缩压缩器具有通用性。

Claims

1.一种通用的卷积神经网络无损压缩与加速方法，其特征在于：该方法分为以下几个部分：基准卷积神经网络模型、无损压缩器、性能恢复；

步骤1，输入原始卷积神经网络模型；

对原始卷积神经网络模型进行训练，用于获取具有推理性能的基准卷积神经网络模型，该基准卷积神经网络模型将被用于压缩前后的压缩加速性能的对比与步骤2中的结构化压缩器的模型结构化剪枝；

步骤2，输入原始模型，对原始卷积神经网络模型进行无损压缩；

步骤2.1采用结构化压缩器对原始卷积神经网络模型进行结构化剪枝压缩；采用步骤1的基准模型进行结构化压缩；

步骤2.2采用模型重塑器对原始卷积神经网络模型进行性能恢复；

采用步骤2.1压缩后的原始卷积神经网络模型进行模型重塑，由于步骤2.1采用的是结构化压缩方法，精简优化原始卷积神经网络模型的结构，使得原始卷积神经网络模型具有更少的卷积核；将对压缩后的模型结构中，丢失卷积核比较明显的层进行模型结构重塑；

步骤3，对原始卷积神经网络模型进行性能恢复；

通过无损压缩器优化后的模型，无论是结构还是参数上，都达到了模型相对精简的程度，但由于剪枝压缩后，结构与参数内部信息存在一定的损坏，在对模型进行重塑后，原始卷积神经网络模型的结构出现了一定程度的变化，对卷积层的各层的相关性产生一定的影响；完成对原始卷积神经网络模型的有效参数部分的性能恢复，使得卷积神经网络模型能够尽可能的恢复原来模型推理性能，保证原始卷积神经网络模型在精简的结构下具有精简的参数而不损失模型性能从而实现对模型极大压缩；性能恢复的策略两种：对原始卷积神经网络模型进行重新初始化或者微调；以上两种策略都能够被用来进行该步骤的性能恢复；此时存在两种情况，卷积神经网络模型性能能够恢复与模型性能无法恢复；

步骤3.1模型性能恢复达到甚至优于未压缩前的状态；

如果通过步骤3，对经过无损压缩器压缩的卷积神经网络模型进行性能恢复，卷积神经网络模型能够恢复甚至优于未压缩状态的性能，则可以直接输出精简的卷积神经网络模型；

步骤3.2模型性能恢复达不到未压缩前的状态；

如果通过步骤3，通过性能恢复训练之后，模型性能低于未压缩状态，则表明模型的精简粒度过大，导致模型出现永久破坏性性能；重新调整压缩力度，即回到步骤2.2，降低压缩的比例，重新进行压缩。

2.根据权利要求1所述的一种通用的卷积神经网络无损压缩与加速方法，其特征在于：步骤2.2.1对原始卷积神经网络模型各层压缩的比例进行排序；