CN111882053A

CN111882053A - 一种基于拼接卷积的神经网络模型压缩方法

Info

Publication number: CN111882053A
Application number: CN201911169421.6A
Authority: CN
Inventors: 朱金辉; 苏宇堃; 张梅; 闵华清
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2020-11-03
Anticipated expiration: 2039-11-25
Also published as: CN111882053B

Abstract

本发明公开了一种基于拼接卷积的神经网络模型压缩方法，属于信息技术领域，涉及机器学习和深度学习技术。所述方法包括以下步骤：构建卷积神经网络的特征层；采用打乱顺序的拼接卷积替换特征层中传统的标准卷积和深度可分离卷积；对特征层进行卷积操作，改变特征层的维度数目；将卷积神经网络最后一层网络的神经单元进行全连接操作，输出x个分类单元。在移动卷积神经网络的深度可分离卷积的基础上，本发明可以在确保一定精度的同时进一步减少网络的参数量，这使得有可能为卷积网络释放更多空间以用于其他一些嵌入式设备例如手机设备。

Description

一种基于拼接卷积的神经网络模型压缩方法

技术领域

本发明属于信息技术领域，涉及机器学习和深度学习技术，特别涉及一种基于拼接卷积的神经网络模型压缩方法。

背景技术

卷积神经网络是处理图像任务的一个前沿且有效的方法，通过利用卷积操作提取图像特征，可以使得不用人工的操作就能达到预期的效果。目前此领域大多是基于深度且复杂的卷积神经网络去处理视觉任务。如resnet(He,Kaiming, Xiangyu Zhang,ShaoqingRen,and Jian Sun."Deep residual learning for image recognition."InProceedings of the IEEE conference on computer vision and patternrecognition,pp.770-778.2016.)和densenet(Huang,Gao,Zhuang Liu,Laurens Van DerMaaten,and Kilian Q.Weinberger."Densely connected convolutional networks." InProceedings of the IEEE conference on computer vision and patternrecognition,pp. 4700-4708.2017.)等庞大而深的神经网络(Simonyan,Karen,andAndrew Zisserman. "Very deep convolutional networks for large-scale imagerecognition."arXiv preprint arXiv:1409.1556(2014)；Szegedy,Christian,SergeyIoffe,Vincent Vanhoucke,and Alexander A.Alemi."Inception-v4,inception-resnetand the impact of residual connections on learning."In Thirty-First AAAIConference on Artificial Intelligence.2017.)，利用复杂的深度卷积神经网络可以在视觉分类，目标检测以及语义分割等领域达到领先的水平。

这类方法的缺点是这些复杂深度的卷积神经网络里面包含了大量的计算参数，在计算机处理上，需要消耗大量的cpu或者是gpu资源。然而在一些嵌入式设备，如手机这样的移动产品，计算资源是有限的，其计算资源远远不如计算机，如何将这些神经网络运用到嵌入式设备是一个挑战性的难题。卷积神经网络的计算资源主要是消耗在3x3或者是更大(如5x5，7x7)的卷积核计算上面，而当利用1x1这种小的卷积核替代3x3的卷积核后，计算消耗会明显下降。针对模型参数计算量的问题，陆续有一些模型压缩的方法提出，如群组卷积(Krizhevsky,Alex,Ilya Sutskever,and Geoffrey E.Hinton."Imagenetclassification with deep convolutional neural networks."In Advances in neuralinformation processing systems, pp.1097-1105.2012.)，squeezenet(Iandola,Forrest N.,Song Han,Matthew W. Moskewicz,Khalid Ashraf,William J.Dally,andKurt Keutzer."SqueezeNet: AlexNet-level accuracy with 50x fewer parametersand<0.5MB model size."arXiv preprint arXiv:1602.07360(2016).)的平铺操作以及mobilenet(Howard,Andrew G., Menglong Zhu,Bo Chen,Dmitry Kalenichenko,WeijunWang,Tobias Weyand,Marco Andreetto,and Hartwig Adam."Mobilenets:Efficientconvolutional neural networks for mobile vision applications."arXiv preprintarXiv:1704.04861(2017).)的深度可分离卷积等方法的提出，但随之而来的就是网络计算准确度的下降的问题。

因此，需要提供一种既合理减少网络模型参数之外，计算准确度不下降甚至有提高的方法。本发明的一种基于拼接卷积的神经网络模型压缩方法，合理的利用1x1的小卷积核替代传统的3x3标准卷积，同时我们为了提高实用性防止出现边缘反应，增加了无序打乱的拼接卷积操作，确保了网络计算参数减少的同时，保证了在视觉任务处理上的准确度不丢失，甚至还有略微的提高。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于拼接卷积的神经网络模型压缩方法，通过运用1x1和3x3卷积核拼接的方法，其具有网络结构小，计算参数量少，准确度高的优点。

本发明的另一目的在于提供一种基于拼接卷积的神经网络模型压缩方法，其具有在相同资源的计算力硬件设备上，利用此种网络结构可以释放更多的空间内存去完成别的资源计算的优点。

本发明的目的至少通过如下技术方案之一实现。

一种基于拼接卷积的神经网络模型压缩方法，包括以下步骤：

S1、构建卷积神经网络的特征层；

S2、采用打乱顺序的拼接卷积替换特征层中传统的标准卷积和深度可分离卷积；

S3、对特征层进行卷积操作，改变特征层的维度数目；

S4、将卷积神经网络最后一层网络的神经单元进行全连接操作，输出x个分类单元。

进一步地，步骤S1中，卷积神经网络的输入为图像即彩色RGB三色图，卷积神经网络第一层的卷积为普通的3x3卷积，利用多个标准的3x3卷积核操作实现升高维度的操作，得到DH x DW x DM大小的特征图(feature map)，其中DH和DW为特征图的长和宽，DM为特征图的维度通道数目，DM>3；所述升高维度实现了跨通道的交互和信息整合，用于增强卷积神经网络的表达能力和提取信息的能力。

进一步地，步骤S2中，所述标准卷积的结构为：卷积核的每个通道在不同的特征图通道上滑动操作，对当前输入的部分元素进行矩阵乘法，产生各自的结果。然后将每个通道处理的结果汇在一起形成一个通道。卷积核各自产生一个对应通道的输出，最后整个卷积核产生一个总的输出通道；

标准卷积层将DH×DW×DM特征图(feature map)F作为输入并生成 DH×DW×DN特征映射G，其中DH和DW是输入的宽度和高度，DM是输入通道的数量(输入深度)，DN是输出通道的数量(输出深度)；标准卷积层由大小为DK×DK×DM×DN的卷积核K参数化，其中DK是假定为正方形的核的尺寸大小，DM是输入通道的数量，DN是先前定义的输出通道的数量；

标准卷积的计算成本为：

F_LS为标准卷积计算中卷积核大小为DK的计算量，其中DK大小为3。

进一步地，步骤S2中，所述深度可分离卷积结构为：特征图每一个通道对应卷积核的每一个通道，其操作为一一对应关系；每一个卷积核的通道对应在特征图的每一个通道上进行卷积操作，其中卷积核的大小全部为3x3大小，最终得到输出为与输入相同的通道数目的特征图；

在深度可分离卷积上，每个卷积核分别对应着各自的特征图的通道，输出的通道与输入的通道一致，最后通过1x1的逐点卷积进行升维或者是降维；因此，使用标准卷积的计算方法，深度可分解卷积的运算如下：

F_LK为深度可分离卷积计算中卷积核大小为DK的计算量，其中DK大小为 3，F_L1为1x1逐点卷积的计算量；

通过比较传统标准卷积和深度可分卷积计算减少R(reduction)，R代表reduction即表示减少量，计算公式如下：

R_DwConv/Conv为深度可分离卷积相对于标准卷积的减少量，通过分子分母相除做比较；R_DwConv/Conv<1代表深度可分离卷积的计算量小于标准的卷积。

通过研究标准卷积核，深度可分卷积(包括群卷积)可以合理地减少3x3 卷积的计算工作量。在此基础上，使用不同的卷积核(如1x 1和3x 3卷积核) 来形成独立的卷积核。这样做的好处是它进一步减少了由3x 3卷积内核引起的计算复杂度，并且不完全由1x 1卷积内核计算，因此不会丢失一定量的信息。因此，提出一种新的卷积核，称之为拼接卷积(SpliceConv)。卷积神经网络的整体架构与其他网络没有太大区别，不同之处在于设计了轻量级模块。在该模块中，当使用特征图操作拼接卷积时，输入中的第m个通道作用第m个深度卷积核，产生输出特征内的第m个通道。

进一步地，步骤S2中，所述拼接卷积结构为：特征图每一个通道对应卷积核的每一个通道，其操作为一一对应关系；每一个卷积核的通道对应在特征图的每一个通道上进行卷积操作，其中卷积核的大小不全部为3x3大小，而是由不同比例的3x3和1x1大小的卷积核组成，最终得到输出为与输入相同的通道数目的特征图。

进一步地，步骤S2中，利用拼接卷积，将输入中的第m个通道作用于第m 个深度卷积核，产生输出特征内的第m个通道；同时每个卷积核的大小由一系列1x 1和3x 3大小的卷积核拼接组成，而不是全都是固定尺寸大小的卷积核，最终输出的通道数等于输入的通道数；具体操作如下：

根据步骤S1得到的DH x DW x DM大小的特征层，将维度通道数目按设置的比例分为A和B两路，A+B＝DM；其中A数目的通道进行3x 3的卷积，剩下的B数目的通道进行1x 1的卷积；随后两路通道分别做批量正则化 (batchsize-normalization)以及非线性话激活(ReLu)操作，目的是使得训练可以加速收敛以及网络可以逼近任意函数式；紧接着将两路通道进行拼接(concat) 操作，使得输出的通道数目还是DM；

计算成本如下：

为拼接卷积计算中卷积核大小为DK的计算量，其中k大小有一部分为 3，有一部分为1；

与深度可分离卷积相比，计算的总减少量如下：

R_{SpliceConv/DwConv}表示拼接卷积相对于深度可分离卷积的减少量； R_{SpliceConv/DwConv}<1说明与深度可分离卷积相比，提出的拼接卷积计算量更加少。

进一步地，步骤S3中，利用一组1x 1的卷积将特征图进行卷积操作，改变维度数目为DN，DN>DM，即进行升维操作，具体如下：

进行信息融合和通道交互即卷积操作从旧的特征图生成新的特征图的过程，通过卷积操作在不同维度通道的特征图上，实现特征图通道与通道之间的交互，进而实现特征图信息的融合；随后同样进行批量正则化(batchsize-normalization) 以及非线性话激活(ReLu)操作；

特征图由原来的DH x DW x DM通过拼接卷积和升维操作后变成了DH x DW x DN的大小形状。

每层卷积操作时会产生边界效应，所谓边界效应就是，如果单一按照一定顺序拼接1x 1和3x 3卷积核，在进行卷积操作的时候，某些特征层就只是跟1 x 1的卷积核进行操作，而另外的一些特征层固定跟3x 3卷积核进行操作，这样带来的弊端就是1x 1的卷积核无法提取更多有效的融合信息，导致整体卷积效果降低。

进一步地，为了提高卷积的实用性，消除边界效应，步骤S2中，卷积神经网络中第一层特征映射使用拼接卷积进行卷积操作，其中前一部分为3x 3大小的卷积核，后一部分为1x 1大小的卷积核，然后在第二层以及后面的层中，采取打乱顺序的拼接操作，即1x 1和3x 3卷积核的拼接顺序为不固定的；卷积神经网络中每一层的轻量化模块单元(light-weight moduel)的拼接顺序都不一样，但是保持1x 1和3x 3卷积核的比例一致，即每一层都是A数目的通道进行3x 3卷积，B数目的通道进行1x 1卷积，保证了每一层的参数量一致。

本发明与现有技术相比，具有如下优点和有益效果：

本发明通过基于拼接卷积的神经网络模型压缩，降低了模型的计算参数量以及浮点计算量，以及在模型压缩的同时保证了网络在图像处理中准确度的不下降，甚至还有略微的提升。并且通过拼接卷积的方法，是的神经网络模型的运行资源开销减少，缩短了模型的推理时间。通过本发明提供的基于拼接卷积神经网络的模型压缩方法，减少了神经网络的训练时间和推理时间；尤其减少了神经网络的计算量，存储量，模型的压缩没有降低模型的准确度，甚至由于优化的打乱的拼接卷积更加充分利用了各个位置的1x 1和3x 3卷积核，神经网络模型的准确度还有略微的提高。

附图说明

图1是本发明实施例中卷积神经网络结构图；

图2是本发明实施例中的拼接卷积对比示意图；

其中图2a是传统卷积结构图，图2b是深度可分离卷积结构图，图2c是本发明的拼接卷积结构图

图3是本发明实施例中的拼接卷积具体操作示意图；

图4是本发明实施例中的优化打乱拼接卷积每层打乱顺序示意图；

图5是本发明实施例中神经网络最后一层网络的神经单元进行全连接操作，输出x个分类单元图。

具体实施方式

下面结合附图以及实施例对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

一种基于拼接卷积的神经网络模型压缩方法，如图1所示，包括以下步骤：

S1、构建卷积神经网络的特征层；

卷积神经网络的输入为图像即彩色RGB三色图，卷积神经网络第一层的卷积为普通的3x3卷积，利用多个标准的3x3卷积核操作实现升高维度的操作，得到DH x DW x DM大小的特征图(feature map)，其中DH和DW为特征图的长和宽，DM为特征图的维度通道数目，DM>3；所述升高维度实现了跨通道的交互和信息整合，用于增强卷积神经网络的表达能力和提取信息的能力。

S2、如图2所示，采用打乱顺序的拼接卷积替换特征层中传统的标准卷积和深度可分离卷积；

如图2a所示，所述标准卷积的结构为：卷积核的每个通道在不同的特征图通道上滑动操作，对当前输入的部分元素进行矩阵乘法，产生各自的结果。然后将每个通道处理的结果汇在一起形成一个通道。卷积核各自产生一个对应通道的输出，最后整个卷积核产生一个总的输出通道；

标准卷积的计算成本为：

如图2b所示，所述深度可分离卷积结构为：特征图每一个通道对应卷积核的每一个通道，其操作为一一对应关系；每一个卷积核的通道对应在特征图的每一个通道上进行卷积操作，其中卷积核的大小全部为3x3大小，最终得到输出为与输入相同的通道数目的特征图；

如图2c所示，所述拼接卷积结构为：特征图每一个通道对应卷积核的每一个通道，其操作为一一对应关系；每一个卷积核的通道对应在特征图的每一个通道上进行卷积操作，其中卷积核的大小不全部为3x3大小，而是由不同比例的3x3和1x1大小的卷积核组成，最终得到输出为与输入相同的通道数目的特征图。

利用拼接卷积，将输入中的第m个通道作用于第m个深度卷积核，产生输出特征内的第m个通道；同时每个卷积核的大小由一系列1x 1和3x 3大小的卷积核拼接组成，而不是全都是固定尺寸大小的卷积核，最终输出的通道数等于输入的通道数；具体操作如下：

计算成本如下：

为拼接卷积计算中卷积核大小为DK的计算量，其中DK大小有一部分为3，有一部分为1；

与深度可分离卷积相比，计算的总减少量如下：

如图4所示，为了提高卷积的实用性，消除边界效应，步骤S2中，卷积神经网络中第一层特征映射使用拼接卷积进行卷积操作，其中前一部分为3x 3大小的卷积核，后一部分为1x 1大小的卷积核，然后在第二层以及后面的层中，采取打乱顺序的拼接操作，即1x 1和3x 3卷积核的拼接顺序为不固定的；卷积神经网络中每一层的轻量化模块单元(light-weight moduel)的拼接顺序都不一样，但是保持1x 1和3x 3卷积核的比例一致，即每一层都是A数目的通道进行3x 3卷积，B数目的通道进行1x 1卷积，保证了每一层的参数量一致。

S3、如图3所示，对特征层进行卷积操作，改变特征层的维度数目；

利用一组1x 1的卷积将特征图进行卷积操作，改变维度数目为DN，DN> DM，即进行升维操作，具体如下：

进行信息融合和通道交互即卷积操作从旧的特征图生成新的特征图的过程，通过卷积操作在不同维度通道的特征图上，实现特征图通道与通道之间的交互，进而实现特征图信息的融合；随后同样进行批量正则化(batchsize-normalization) 以及非线性话激活(ReLu)操作；特征图由原来的DH x DW x DM通过拼接卷积和升维操作后变成了DH x DW xDN的大小形状。

这一系列的操作为图1所示的轻量化模块单元(light-weight moduel)，由拼接卷积进行的操作其参数计算量和浮点运算都要小于标准的卷积。

S4、如图5所示，将卷积神经网络最后一层网络的神经单元进行全连接操作，输出x个分类单元。

由上述分析可得：相对于传统的拼接卷积以及深度可分离卷积，本发明所提出的拼接卷积计算量为最低。所以，在计算速度上，本发明所提出的拼接卷积在计算机上消耗的资源比较少，在进行神经网络推算的过程当中，由于神经网络参数较小，计算量较小，所以其推算时间所需也比较少。

在本实施例中，采用了权威的公开数据集cifar10，用作测试本发明。在cifar10数据集上，用传统的标准卷积计算量参数达到14.9M，计算推理速度为0.21s左右，其准确度为91.3％；用深度可分离卷积计算参数量为3.2M,计算推理速度为0.12s左右，准确率为90.8％；而采用本发明所提出的拼接卷积，计算量参数量为2.9M，参数量相对比标准的卷积大幅度减少，相对比深度可分离卷积也有不同程度的减少，其网络计算时间为0.08s左右，同时准确度为91.1％。相对比传统标准卷积，在减少如此大计算量的同时，精度较标准卷积仅仅损失微弱，相对比深度可分离卷积的效果有略微提升，可见效果是理想并且可接受。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于拼接卷积的神经网络模型压缩方法，其特征在于，包括以下步骤：

S1、构建卷积神经网络的特征层；

S3、对特征层进行卷积操作，改变特征层的维度数目；

2.根据权利要求1所述的一种基于拼接卷积的神经网络模型压缩方法，其特征在于，步骤S1中，卷积神经网络的输入为图像即彩色RGB三色图，卷积神经网络第一层的卷积为普通的3x3卷积，利用多个标准的3x3卷积核操作实现升高维度的操作，得到DH x DW x DM大小的特征图(feature map)，其中DH和DW为特征图的长和宽，DM为特征图的维度通道数目，DM>3。

3.根据权利要求1所述的一种基于拼接卷积的神经网络模型压缩方法，其特征在于，步骤S2中，所述标准卷积的结构为：卷积核的每个通道在不同的特征图通道上滑动操作，对当前输入的部分元素进行矩阵乘法，产生各自的结果；然后将每个通道处理的结果汇在一起形成一个通道；卷积核各自产生一个对应通道的输出，最后整个卷积核产生一个总的输出通道；

标准卷积层将DH×DW×DM特征图(feature map)F作为输入并生成DH×DW×DN特征映射G，其中DH和DW是输入的宽度和高度，DM是输入通道的数量(输入深度)，DN是输出通道的数量(输出深度)；标准卷积层由大小为DK×DK×DM×DN的卷积核K参数化，其中DK是假定为正方形的核的尺寸大小，DM是输入通道的数量，DN是先前定义的输出通道的数量；

标准卷积的计算成本为：

4.根据权利要求1所述的一种基于拼接卷积的神经网络模型压缩方法，其特征在于，步骤S2中，所述深度可分离卷积结构为：特征图每一个通道对应卷积核的每一个通道，其操作为一一对应关系；每一个卷积核的通道对应在特征图的每一个通道上进行卷积操作，其中卷积核的大小全部为3x3大小，最终得到输出为与输入相同的通道数目的特征图；

F_LK为深度可分离卷积计算中卷积核大小为DK的计算量，其中DK大小为3，F_L1为1x1逐点卷积的计算量；

R_DwConv/Conv为深度可分离卷积相对于标准卷积的减少量，通过分子分母相除做比较；R_{DwConv/Conv<1}代表深度可分离卷积的计算量小于标准的卷积。

5.根据权利要求1所述的一种基于拼接卷积的神经网络模型压缩方法，其特征在于，步骤S2中，所述拼接卷积结构为：特征图每一个通道对应卷积核的每一个通道，其操作为一一对应关系；每一个卷积核的通道对应在特征图的每一个通道上进行卷积操作，其中卷积核的大小不全部为3x3大小，而是由不同比例的3x3和1x1大小的卷积核组成，最终得到输出为与输入相同的通道数目的特征图。

6.根据权利要求1所述的一种基于拼接卷积的神经网络模型压缩方法，其特征在于，步骤S2中，利用拼接卷积，将输入中的第m个通道作用于第m个深度卷积核，产生输出特征内的第m个通道；同时每个卷积核的大小由一系列1 x 1和3 x 3大小的卷积核拼接组成，而不是全都是固定尺寸大小的卷积核，最终输出的通道数等于输入的通道数；具体操作如下：

根据步骤S1得到的DH x DW x DM大小的特征层，将维度通道数目按设置的比例分为A和B两路，A+B＝DM；其中A数目的通道进行3 x 3的卷积，剩下的B数目的通道进行1 x 1的卷积；随后两路通道分别做批量正则化(batchsize-normalization)以及非线性话激活(ReLu)操作，目的是使得训练可以加速收敛以及网络可以逼近任意函数式；紧接着将两路通道进行拼接(concat)操作，使得输出的通道数目还是DM；

计算成本如下：

与深度可分离卷积相比，计算的总减少量如下：

R_{SpliceConv/DwConv}表示拼接卷积相对于深度可分离卷积的减少量；R_{SpliceConv/DwConv}<1说明与深度可分离卷积相比，提出的拼接卷积计算量更加少。

7.根据权利要求1所述的一种基于拼接卷积的神经网络模型压缩方法，其特征在于，步骤S3中，利用一组1x 1的卷积将特征图进行卷积操作，改变维度数目为DN，DN>DM，即进行升维操作，具体如下：

进行信息融合和通道交互即卷积操作从旧的特征图生成新的特征图的过程，通过卷积操作在不同维度通道的特征图上，实现特征图通道与通道之间的交互，进而实现特征图信息的融合；随后同样进行批量正则化(batchsize-normalization)以及非线性话激活(ReLu)操作；

8.根据权利要求1所述的一种基于拼接卷积的神经网络模型压缩方法，其特征在于，为了提高卷积的实用性，消除边界效应，步骤S2中，卷积神经网络中第一层特征映射使用拼接卷积进行卷积操作，其中前一部分为3x 3大小的卷积核，后一部分为1x 1大小的卷积核，然后在第二层以及后面的层中，采取打乱顺序的拼接操作，即1x 1和3x 3卷积核的拼接顺序为不固定的；卷积神经网络中每一层的轻量化模块单元(light-weight moduel)的拼接顺序都不一样，但是保持1x 1和3x 3卷积核的比例一致，即每一层都是A数目的通道进行3x 3卷积，B数目的通道进行1x 1卷积，保证了每一层的参数量一致。