CN111709516A

CN111709516A - 神经网络模型的压缩方法及压缩装置、存储介质、设备

Info

Publication number: CN111709516A
Application number: CN202010515787.0A
Authority: CN
Inventors: 王卡风; 高希彤; 须成忠
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2020-09-25
Anticipated expiration: 2040-06-09
Also published as: CN111709516B

Abstract

本发明公开了一种基于迁移学习的卷积神经网络模型压缩方法。该压缩方法包括：获取预训练好的迁移学习模型；对迁移学习模型的各个卷积层按照预定压缩比例进行压缩处理，以获得第一目标网络模型；利用目标图像数据集对第一目标网络模型进行迁移学习，以获得第一压缩目标模型；根据预定规则选择第一压缩目标模型中的部分卷积层进行压缩处理，以获得第二目标网络模型；利用目标图像数据集对第二目标网络模型进行迁移学习，以获得第二压缩目标模型。实现了迁移学习和卷积压缩的优势互补，在保证较高正确率的前提下，降低模型复杂度，提高运算速度，并针对部分卷积层进行压缩处理，可以进一步降低模型复杂度，避免模型正确率骤降。

Description

神经网络模型的压缩方法及压缩装置、存储介质、设备

技术领域

本发明属于信息技术领域，具体地讲，涉及基于迁移学习的卷积神经网络模型的压缩方法及压缩装置、计算机可读存储介质、计算机设备。

背景技术

迁移学习的基本原理是将一个问题上训练好的模型通过简单的调整使其适用于一个新的问题。由于大型网络很复杂，训练一个复杂的卷积神经网络需要非常多的标注数据，而且需要比较长的时间。迁移学习就是为了解决大量标注数据和训练时间问题的一种变通处理方式。在数据量足够的情况下，迁移学习的效果不如完全重新训练。但是迁移学习所需要的训练时间和训练样本数要远远小于训练完整的模型。而且可以得到不错的准确率。

迁移学习的其中一种普遍的用法，是用一个预训练好的图像分类模型，转化成目标检测模型、或者关键点回归模型，这么做的原因在于图像分类模型可以用图像分类的数据集来训练，我们比较容易获得大量的图像分类数据集，比如我们熟悉的Imagenet，而目标检测数据集的图片数量则少很多，关键点回归数据集的样本数量更少，如果不通过迁移学习，直接用这些少量的图片进行训练，效果就没法达到想要的精度，还有可能造成过拟合的现象。因此，用Imagenet预训练的模型来进行迁移学习，对模型的泛华能力和精度的提升都有重要意义。但是现有迁移学习方法的缺点是只能提供和源数据训练的神经网络同样的计算复杂度的模型。

卷积神经网络模型的压缩算法是降低模型复杂度的常用算法，但是目前的压缩算法的存在两个缺点，一是目标数据不足时，训练出来的模型正确率低，二是通常针对整体网络进行压缩，会造成部分卷积层过度压缩，甚至部分卷积层完全被压缩完，这样会造成网络模型不完整，正确率急剧下降。

因此，如何解决上述迁移学习和卷积压缩算法中的技术问题是本领域技术人员急需解决的。

发明内容

(一)本发明所要解决的技术问题

本发明解决的技术问题是：如何实现卷积压缩和迁移学习的有效结合，以及实现对网络模型有针对性地压缩。

(二)本发明所采用的技术方案

一种基于迁移学习的卷积神经网络模型的压缩方法，所述压缩方法包括：

获取预训练好的迁移学习模型；

对所述迁移学习模型的各个卷积层按照预定压缩比例进行压缩处理，以获得第一目标网络模型；

利用目标图像数据集对所述第一目标网络模型进行迁移学习，以获得第一压缩目标模型；

对所述第一压缩目标模型中的部分卷积层进行压缩处理，以获得第二目标网络模型；

利用所述目标图像数据集对所述第二目标网络模型进行迁移学习，以获得第二压缩目标模型。

优选地，在利用所述目标图像数据集对所述第一目标网络模型进行迁移学习，以获得第一压缩目标模型之后，所述压缩方法还包括：

判断所述第一压缩目标模型的整体压缩率是否达到第一预定值；

若否，则对所述第一压缩目标模型的各个卷积层按照预定压缩比例进行压缩处理，以获得更新后的第一目标网络模型；

利用所述目标图像数据集对更新后的第一目标网络模型进行迁移学习，以获得更新后的第一压缩目标模型；

重复上述步骤，直至更新后的第一压缩目标模型的整体压缩率达到所述第一预定值。

优选地，对所述第一压缩目标模型中的部分卷积层进行压缩处理，以获得第二目标网络模型的具体方法包括：

将整体压缩率达到所述第一预定值的第一压缩目标模型中卷积通道数大于第一阈值的卷积层作为待压缩卷积层；

将每个待压缩卷积层中的部分卷积通道关闭，并保留其他卷积通道，以获得第二目标网络模型，其中关闭的各个卷积通道的BN权重值均小于保留的各个卷积通道的BN权重值。

优选地，在所述利用目标图像数据集对第二目标网络模型进行迁移学习，以获得第二压缩目标模型之后，所述压缩方法还包括：

判断所述第二压缩目标模型的整体压缩率是否达到第二预定值；

若否，则将所述第二压缩目标模型中卷积通道数大于第二阈值的卷积层作为待压缩卷积层；

将所述第二压缩目标模型中的每个待压缩卷积层中的部分卷积通道关闭，并保留其他卷积通道，以获得更新后的第二目标网络模型，其中关闭的各个卷积通道的BN权重值均小于保留的各个卷积通道的BN权重值；

利用所述目标图像数据集对更新后的第二目标网络模型进行迁移学习，以获得更新后的第二压缩目标模型；

重复上述步骤，直至更新后的第二压缩目标模型的整体压缩率达到所述第二预定值。

优选地，在利用目标图像数据集对第二目标网络模型进行迁移学习，以获得第二压缩目标模型之后，所述压缩方法还包括：

判断所述第二压缩目标模型的整体压缩率是否达到第三预定值；

若否，对所述第二压缩目标模型的各个卷积层按照预定压缩比例进行压缩处理，以获得更新后的第一目标网络模型；

对更新后的第一压缩目标模型中的部分卷积层进行压缩处理，以获得更新后的第二目标网络模型；

重复上述步骤，直至更新后的第二压缩目标模型的整体压缩率达到所述第三预定值。

优选地，所述利用目标图像数据集对第一目标网络模型进行迁移学习，以获得第一压缩目标模型的具体方法包括：

将所述目标图像数据集分别输入至所述迁移学习模型和所述第一目标网络模型，分别提取所述迁移学习模型的预定卷积层输出的特征图和所述第一目标网络模型的预定卷积层输出的特征图；

根据迁移学习模型的预定卷积层输出的特征图和第一目标网络模型的预定卷积层输出的特征图计算得到第一正则化损失函数；

根据所述迁移学习模型的预定卷积层的对应参数生成第二正则化损失函数，根据所述第一目标网络模型的全连接层的对应参数生成第三正则化损失函数；

根据所述第一正则化损失函数、所述第二正则化损失函数和所述第三正则化损失函数计算得到第一模型损失函数，并根据所述第一模型损失函数对所述第一目标网络模型进行训练，以获得第一压缩目标模型。

计算所述迁移学习模型的预定卷积层输出的特征图和所述第一目标网络模型的预定卷积层输出的特征图之间的欧几里德距离值；

提取所述迁移学习模型的预定卷积层中每一层的部分卷积通道的对应参数，其中，被提取的部分卷积通道的BN权重值均大于未被提取的卷积通道的BN权重值；

根据提取的所述迁移学习模型的预定卷积层中每一层的部分卷积通道的对应参数和所述欧几里德距离值获得第四正则化损失函数；

根据所述第一目标网络模型的全连接层的对应参数生成第三正则化损失函数；

根据所述第四正则化损失函数和所述第三正则化损失函数计算得到第二模型损失函数，并根据所述第二模型损失函数对第一目标网络模型进行训练，以获得第一压缩目标模型。

本发明还公开了一种基于迁移学习的卷积神经网络模型的压缩装置，所述压缩装置包括：

获取模块，用于获取预训练好的迁移学习模型；

全局压缩模块，用于对所述迁移学习模型的各个卷积层按照预定压缩比例进行压缩处理，以获得第一目标网络模型；

迁移学习模块，用于利用所述目标图像数据集对所述第一目标网络模型进行迁移学习，以获得第一压缩目标模型；

局部压缩模块，用于对所述第一压缩目标模型中的部分卷积层进行压缩处理，以获得第二目标网络模型；

所述迁移学习模块还用于利用所述目标图像数据集对所述第二目标网络模型进行迁移学习，以获得第二压缩目标模型。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有基于迁移学习的卷积神经网络模型的压缩程序，所述基于迁移学习的卷积神经网络模型的压缩程序被处理器执行时实现上述的基于迁移学习的卷积神经网络模型的压缩方法。

本发明还公开了一种计算机设备，所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的基于迁移学习的卷积神经网络模型的压缩程序，所述基于迁移学习的卷积神经网络模型的压缩程序被处理器执行时实现上述的基于迁移学习的卷积神经网络模型的压缩方法。

(三)有益效果

本发明公开的基于迁移学习的卷积神经网络模型的压缩方法，通过结合迁移学习和压缩算法，即一边迁移一边压缩，实现优势互补，在保证较高正确率的前提下，降低模型复杂度，提高运算速度，并针对部分卷积层进行压缩处理，可以进一步降低模型复杂度，同时保证模型的完整性，避免模型正确率骤降。

附图说明

图1为本发明的实施例的基于迁移学习的卷积神经网络模型的压缩方法的流程图；

图2为本发明的实施例的第一种正则化迁移学习方法的流程图；

图3为本发明的实施例的第二种正则化迁移学习方法的流程图；

图4为本发明的另一实施例的基于迁移学习的卷积神经网络模型的压缩方法的流程图；

图5为本发明的另一实施例的基于迁移学习的卷积神经网络模型的压缩方法的整体流程图；

图6为本发明的实施例的基于迁移学习的卷积神经网络模型的压缩装置的示意图；

图7为本发明的实施例的计算机设备的原理框图；

图8为本发明的实施例在目标图像数据集Stanford Dogs上的实验结果图；

图9为本发明的实施例在目标图像数据集Caltech-256-60上的实验结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在详细描述本发明技术方案前，首先简单描述本申请的发明构思：本申请的压缩方法通过结合迁移学习和压缩算法，即一边迁移一边压缩，实现优势互补，在保证较高正确率的前提下，降低模型复杂度，提高运算速度，并针对部分卷积层进行压缩处理，可以进一步降低模型复杂度，同时保证模型的完整性，避免模型正确率骤降。

如图1所示，本申请的基于迁移学习的卷积神经网络模型的压缩方法包括如下步骤：

步骤S10：获取预训练好的迁移学习模型。

步骤S20：对所述迁移学习模型的各个卷积层按照预定压缩比例进行压缩处理，以获得第一目标网络模型。

步骤S30：利用所述目标图像数据集对所述第一目标网络模型进行迁移学习，以获得第一压缩目标模型。

步骤S40：对所述第一压缩目标模型中的部分卷积层进行压缩处理，以获得第二目标网络模型。

步骤S50：利用所述目标图像数据集对所述第二目标网络模型进行迁移学习，以获得第二压缩目标模型。其中，所述第一压缩目标模型、所述第二压缩目标模型和所述迁移学习模型的卷积层层数均相同。

具体地，步骤S10中的迁移学习模型可通过现有的训练方法获得。示例性地，在源数据集上训练原始网络模型，获得源模型，并进一步利用目标图像数据集训练源模型，获得迁移学习模型。其中，源数据集可选用Imagenet，原始网络模型可选用Resnet101，目标图像数据集可选用Stanford Dogs。

进一步地，步骤S20中的压缩处理方法具体为：对迁移学习模型的每个卷积层中的各个卷积通道按照BN权重值进行全局排序，将整个迁移学习模型中BN权重值较小的一批卷积通道关闭，例如将10％的卷积通道关闭，保留另外90％的卷积通道，其中，保留下的90％卷积通道的BN权重值均大于关闭的10％的卷积通道的BN权重值，从而获得第一目标网络模型。将BN权重值小的卷积通道关闭，对最终模型的正确率的影响较小，但是可以大幅度降低模型复杂度，减少了计算量，提高了计算速度。

接着，步骤S30中对压缩得到的第一目标网络模型，利用目标图像数据集进行正则化迁移学习，获得第一压缩目标模型。

本实施例的正则化迁移学习的模型损失函数包括交叉熵和正则化函数，具体公式如下：

其中，L(z(x_i,ω),y_i)表示交叉熵，Ω(ω,ω^*,x_i,y_i,z,z^*)表示正则化函数，ω^*是已经预训练的模型的参数，这里指迁移学习模型的参数，z^*压缩前网络，这里指迁移学习模型，ω是压缩后待训练的模型参数，这里指第一目标网络模型的参数，z是压缩后网络，这里指第一压缩目标模型。x是输入的数据，y是数据标签。

下面提供了两种正则化迁移学习方法。

如图2所示，第一种正则化迁移学习方法包括如下步骤：

步骤S31：将目标图像数据集分别输入至迁移学习模型和第一目标网络模型，分别提取迁移学习模型的预定卷积层输出的特征图和第一目标网络模型的预定卷积层输出的特征图。

示例性地，迁移学习模型和第一目标网络模型采用Resnet-101网络，将Resnet-101网络中的layer1.2.conv3、layer2.3.conv3、layer3.22.conv3、layer4.2.conv3四个卷积层作为预定卷积层，分别提取迁移学习模型和第一目标网络模型中这四个预定卷积层输出的特征图。

步骤S32：根据迁移学习模型的预定卷积层输出的特征图和第一目标网络模型的预定卷积层输出的特征图计算得到第一正则化损失函数。

示例性，计算迁移学习模型的四个预定卷积层输出的特征图和第一目标网络模型的四个预定卷积层中输出的特征图之间的欧几里德距离，并根据欧几里德距离得到第一正则化损失函数。

步骤S33：根据所述迁移学习模型的预定卷积层的对应参数生成第二正则化损失函数，根据所述第一目标网络模型的全连接层的对应参数生成第三正则化损失函数。

步骤S34：根据所述第一正则化损失函数、所述第二正则化损失函数和所述第三正则化损失函数计算得到第一模型损失函数，并根据所述第一模型损失函数对所述第一目标网络模型进行训练，以获得第一压缩目标模型。

具体地，第一模型损失函数的公式为：

其中，L(z(x_i,ω),y_i)表示交叉熵，

表示第二正则化损失函数，

表示第三正则化损失函数，

表示第一正则化损失函数，ω^*是迁移学习模型的参数，z^*迁移学习模型，ω是第一目标网络模型的待训练的模型参数，z是第一目标网络模型，x是输入的数据，y是数据标签。N表示预定卷积层的层数，Q表示第一目标网络模型的全连接层层数。α、β、γ为可调整系数，W_j(z^*,ω^*,x_i,y_i)为分配给第j个滤波器和第i个图像的权重(对于

且

)，(x_i,y_i)表示第i组图像和标签，FM_j(z,ω,x_i)为第一目标网络模型的第j个滤波器在参数集ω时提取的特征图，z为压缩后图像语义特征提取模块，

为迁移学习模型的第j个滤波器在参数集ω^*时提取的特征图。FC_k为第一目标网络模型的各层全连接系数。

表示计算欧几里德距离，即

为两个特征映射之间的行为差异，表示迁移学习模型的预定卷积层输出的特征图和第一目标网络模型的预定卷积层输出的特征图之间的欧几里德距离。本正则化方法使用压缩前网络模型的参数作为正则化一部分，即未压缩的迁移学习模型的参数，迁移时可以感知压缩前各个通道参数分布。

如图3所示，第二种正则化迁移学习方法包括如下步骤：

步骤S31’：将所述目标图像数据集分别输入至所述迁移学习模型和所述第一目标网络模型，分别提取所述迁移学习模型的预定卷积层输出的特征图和所述第一目标网络模型的预定卷积层输出的特征图。

步骤S32’：计算所述迁移学习模型的预定卷积层输出的特征图和所述第一目标网络模型的预定卷积层输出的特征图之间的欧几里德距离值。

步骤S33’：提取所述迁移学习模型的预定卷积层中每一层的部分卷积通道的对应参数，其中，被提取的部分卷积通道的BN权重值均大于未被提取的卷积通道的BN权重值。

示例性地，将迁移学习模型的上述四个预定卷积层的卷积通道在各层内部按照BN权重值大小进行排序，各个预定卷积层中内部设定注意力区域，该注意力区域涵盖BN权重值较大的一批卷积通道。例如，将30％的卷积通道划分为注意力区域，另外70％的卷积通道为非注意力区域，其中30％的卷积通道的BN权重值均大于70％的卷积通道的BN权重值。这时，提取30％的卷积通道的对应参数，该对应参数为30％的卷积通道对应的BN权重值。

步骤S34’：根据提取的所述迁移学习模型的预定卷积层中每一层的部分卷积通道的对应参数和所述欧几里德距离值获得第四正则化损失函数。

具体来说，将迁移学习模型的预定卷积层中每一层的部分卷积通道的对应参数与上述计算得到的欧几里德距离值做点积运算，获得第四正则化损失函数。

步骤S35’：根据所述第一目标网络模型的全连接层的对应参数生成第三正则化损失函数。

步骤S36’：根据所述第四正则化损失函数和所述第三正则化损失函数计算得到第二模型损失函数，并根据所述第二模型损失函数对第一目标网络模型进行训练，以获得第一压缩目标模型。

具体地，第一模型损失函数的公式为：

其中，L(z(x_i,ω),y_i)表示交叉熵，

表示第三正则化损失函数，

表示第四正则化损失函数，

为分配给带注意力机制的第j个滤波器和第i个图像的权重(对于

且

)，即

表示提取迁移学习模型的预定卷积层中每一层的部分卷积通道的对应参数，即

为两个特征映射之间的行为差异，表示迁移学习模型的预定卷积层输出的特征图和第一目标网络模型的预定卷积层输出的特征图之间的欧几里德距离值。该损失函数中其他符号参照第一种正则化迁移学习方法的描述，在此不进行赘述。使用压缩前网络模型的参数作为正则化一部分，即未压缩的迁移学习模型的参数，并且选取了最重要的通道，迁移时可以感知压缩前重要通道参数分布。

通过上述两种正则化迁移学习方法，可提取表达能力更强的卷积通道，进行更有针对性地训练，从而能在目标图像数据集中提取到更有用的特征。

进一步地，步骤S40中的压缩处理的具体方法包括如下步骤：将第一压缩目标模型中卷积通道数量大于第一阈值的卷积层作为待压缩卷积层，将每个待压缩卷积层中的部分卷积通道关闭，并保留其他卷积通道，以获得第二目标网络模型，其中关闭的各个卷积通道的BN权重值均小于保留的各个卷积通道的BN权重值，从而获得第二目标网络模型。示例性地，第一压缩目标模型以Resnet-101网络为例，第一阈值为10，假设卷积通道数量大于10的卷积层层数为20，则将这20个卷积层作为待压缩卷积层。接着对每个待压缩卷积层的卷积通道按照BN权重值进行排序，将每个待压缩卷积层中的BN权重值较小的一批卷积通道关闭，例如关闭每个待压缩卷积层中的20％的卷积通道，即关闭4个通道，保留80％的卷积通道，即保留16个通道，其中关闭的4个卷积通道的BN权重值均小于保留的16个卷积通道的BN权重值。

本申请通过多次压缩处理，对卷积通道数量较多的卷积层进一步压缩，而对卷积通道数量较小的其他卷积层不进行压缩处理，这样在保证模型结构完整性的前提下，即压缩后的模型的卷积层层数与原始模型的卷积层层数相同，进一步降低模型复杂度，降低运算量，同时不会造成正确率急剧下降。

作为另一种实施方式，在步骤S30中，利用所述目标图像数据集对所述第一目标网络模型进行迁移学习，以获得第一压缩目标模型之后，所述压缩方法还包括如下步骤：

步骤一：判断所述第一压缩目标模型的整体压缩率是否达到第一预定值。

第一预定值优选为60％，即判断经过第一次压缩和迁移学习后的第一压缩目标模型是否达到该压缩率。

步骤二：若否，则对所述第一压缩目标模型的各个卷积层按照预定压缩比例进行压缩处理，以获得更新后的第一目标网络模型。

预定压缩比例优选为10％，即每一次压缩的比例均为迁移学习模型的10％，若第一压缩目标模型的压缩率未达到第一预定值，则继续进行压缩处理。

步骤三：利用所述目标图像数据集对更新后的第一目标网络模型进行迁移学习，以获得更新后的第一压缩目标模型。

该步骤中的迁移学习可参照上文描述的两种正则化迁移学习方法，在此不进行赘述

重复上述步骤，直至第一压缩目标模型的整体压缩率达到第一预定值。即重复上述步骤一至三，通过多轮的压缩和迁移学习处理，使得第一压缩目标模型的压缩率为达到第一预定值。

本实施例提供的压缩方法，一开始对各个卷积层都进行压缩处理，即降低网络模型的复杂度，同时也能保持网络模型的结构完整性。

进一步地，在步骤S50中，在所述利用目标图像数据集对第二目标网络模型进行迁移学习，以获得第二压缩目标模型之后，所述压缩方法还包括如下步骤：

步骤S501：判断所述第二压缩目标模型的整体压缩率是否达到第二预定值。

第二预定值优选为50％，即判断经过第一次压缩处理和迁移学习之后的第二压缩目标模型的整体压缩率是否达到50％。

步骤S502：若否，则将所述第二压缩目标模型中卷积通道数大于第二阈值的卷积层作为待压缩卷积层。

若第二压缩目标模型的整体压缩率未达到第二预定值，则需要继续进行压缩处理。

步骤S503：将所述第二压缩目标模型中的每个待压缩卷积层中的部分卷积通道关闭，并保留其他卷积通道，以获得更新后的第二目标网络模型，其中关闭的各个卷积通道的BN权重值均小于保留的各个卷积通道的BN权重值。

具体可参照上文描述的步骤S40的压缩处理方法。

步骤S504：利用所述目标图像数据集对更新后的第二目标网络模型进行迁移学习，以获得更新后的第二压缩目标模型；

重复上述步骤，直至第二压缩目标模型的整体压缩率达到第二预定值。即重复上述步骤S501至步骤S504，通过多轮的压缩处理和迁移学习，使得第二压缩目标模型的整体压缩率达到第二预定值。

本实施例提供的压缩方法，在经过多轮全局压缩之后，对部分卷积层进行针对性的压缩处理，可以进一步降低模型复杂度，降低运算量，同时不会造成正确率急剧下降。

上述的压缩方法包括两大部分，即开始只进行对各个卷积层的压缩，后面只进行对部分卷积层的压缩。现提供另一种压缩方法，即两部分压缩处理交替进行。

如图4所示，在利用目标图像数据集对第二目标网络模型进行迁移学习，以获得第二压缩目标模型之后，所述压缩方法还包括如下步骤：

步骤S60：判断所述第二压缩目标模型的整体压缩率是否达到第三预定值。

在对各个卷积层的进行了一次压缩处理和对部分卷积层进行了一次压缩处理之后，对得到的第二压缩目标模型的整体压缩率进行判断，确定是否达到第三预定值，即最终压缩率，第三预定值优选为50％。

步骤S70：若否，对所述第二压缩目标模型的各个卷积层按照预定压缩比例进行压缩处理，以获得更新后的第一目标网络模型。

步骤S71：若是，则停止压缩第二压缩目标模型。

在步骤S70中，当得到的第二压缩目标模型的整体压缩率未达到第三预定值时，继续对第二压缩目标模型的各个卷积层进行压缩处理，以进一步降低模型复杂度，该步骤中的压缩处理方法参照步骤S20中的压缩处理方法。

具体来说，对第二压缩目标模型的每个卷积层中的各个卷积通道按照BN权重值进行全局排序，将整个第二压缩目标模型中BN权重值较小的一批卷积通道关闭，例如将10％的卷积通道关闭，保留另外90％的卷积通道，其中，保留的90％卷积通道的BN权重值均大于关闭的10％的卷积通道的BN权重值，从而获得更新后的第一目标网络模型。

步骤S80：利用所述目标图像数据集对更新后的第一目标网络模型进行迁移学习，以获得更新后的第一压缩目标模型。

该步骤中的迁移学习方法参照步骤S30中的迁移学习方法，在此不进行赘述。

步骤S90：对更新后的第一压缩目标模型中的部分卷积层进行压缩处理，以获得更新后的第二目标网络模型。

该步骤中的压缩处理方法参照步骤S40中的压缩处理方法，在此不进行赘述。

步骤S100：利用所述目标图像数据集对更新后的第二目标网络模型进行迁移学习，以获得更新后的第二压缩目标模型。

该步骤中的迁移学习方法可采用上述的两种正则化迁移学习方法。

重复上述步骤，直至第二压缩目标模型的整体压缩率达到第三预定值。

本实施例提供的压缩方法，通过交替地进行不同的压缩处理，可以更有针对性地压缩掉对正确率影响较小的卷积通道，并结合迁移学习，使得每次压缩后的模型都能更好地利用压缩前的模型的知识，从而提高模型正确率。

为了更加完整直观地描述本申请的技术方案，提供了另一个整体实施例，如图5所示，首先获取预训练好的迁移学习模型，并获取Conv层特征表示，即每个卷积层中各个卷积通道的BN权重值，选择小的压缩比例，例如10％，对迁移学习模型的原始网络结构进行压缩，表示能力强的特征保留，表示能力弱的特征关闭，即关闭BN权重值小的卷积通道，保留BN权重值大的卷积通道。压缩完成之后，对模型结构进行不一致性处理，以便后面再进行迁移学习，获得新的模型。比如Pytorch里面导入结构不一致的网络模型进行训练，设置参数strict为False。

接着，利用目标数据集对压缩后的模型进行迁移学习，迁移学习时，根据Conv输出重要性，对部分卷积通道进行正则化处理，并判断模型正确率是否饱和，若正确率达到未达到饱和，则继续进行迁移迭代，直至模型正确率达到饱和。接着获取迁移学习后的压缩网络模型，判断压缩网络模型是否达到最终压缩率，若是，则输出最终压缩率模型；若否，则进一步判断压缩网络模型的压缩率是否大于60％，若小于或等于60％，则对模型整体进行全局压缩和迁移学习，即选取小的压缩比例，例如10％，对第一次压缩和迁移学习后的模型继续压缩，接着进行迁移学习处理，每当进行完一次压缩和迁移，都判断模型的整体压缩率。若整体压缩率未达到最终压缩率且大于60％，则选择局部小比例压缩率，即对部分卷积层进行压缩处理，接着进行迁移学习。不断重复上述过程，直至模型压缩率达到最终压缩率，获得最终的压缩模型。

本申请的另一个实施例还提供了一种基于迁移学习的卷积神经网络模型的压缩装置，如图6所示，压缩装置包括获取模块100、全局压缩模块200、局部压缩模块300和迁移学习模块400。其中，获取模块100用于获取预训练好的迁移学习模型；全局压缩模块200用于对所述迁移学习模型的各个卷积层按照预定压缩比例进行压缩处理，以获得第一目标网络模型；迁移学习模块400用于利用所述目标图像数据集对所述第一目标网络模型进行迁移学习，以获得第一压缩目标模型；局部压缩模块300用于根据预定规则选择所述第一压缩目标模型中的部分卷积层进行压缩处理，以获得第二目标网络模型；所述迁移学习模块400还用于利用所述目标图像数据集对所述第二目标网络模型进行迁移学习，以获得第二压缩目标模型，其中，所述第一压缩目标模型、所述第二压缩目标模型和所述迁移学习模型的卷积层层数均相同。

在一个实施例中，全局压缩模块200用于对迁移学习模型的每个卷积层中的各个卷积通道按照BN权重值进行全局排序，将整个迁移学习模型中BN权重值较小的一批卷积通道关闭，保留下的卷积通道的BN权重值均大于关闭的卷积通道的BN权重值，从而获得第一目标网络模型。

在一个实施例中，迁移学习模块400用于将目标图像数据集分别输入至迁移学习模型和第一目标网络模型，分别提取迁移学习模型的预定卷积层输出的特征图和第一目标网络模型的预定卷积层输出的特征图；根据迁移学习模型的预定卷积层输出的特征图和第一目标网络模型的预定卷积层输出的特征图计算得到第一正则化损失函数；根据所述迁移学习模型的预定卷积层的对应参数生成第二正则化损失函数，根据所述第一目标网络模型的全连接层的对应参数生成第三正则化损失函数；根据所述第一正则化损失函数、所述第二正则化损失函数和所述第三正则化损失函数计算得到第一模型损失函数，并根据所述第一模型损失函数对所述第一目标网络模型进行训练，以获得第一压缩目标模型。

在一个实施例中，局部压缩通道300用于将第一压缩目标模型中卷积通道数量大于第一阈值的卷积层作为待压缩卷积层，将每个待压缩卷积层中的部分卷积通道关闭，并保留其他卷积通道，以获得第二目标网络模型，其中关闭的各个卷积通道的BN权重值均小于保留的各个卷积通道的BN权重值，从而获得第二目标网络模型。

在另一个实施例中，迁移学习模块400还用于将所述目标图像数据集分别输入至所述迁移学习模型和所述第一目标网络模型，分别提取所述迁移学习模型的预定卷积层输出的特征图和所述第一目标网络模型的预定卷积层输出的特征图；计算所述迁移学习模型的预定卷积层输出的特征图和所述第一目标网络模型的预定卷积层输出的特征图之间的欧几里德距离值；提取所述迁移学习模型的预定卷积层中每一层的部分卷积通道的对应参数，其中，被提取的部分卷积通道的BN权重值均大于未被提取的卷积通道的BN权重值；根据提取的所述迁移学习模型的预定卷积层中每一层的部分卷积通道的对应参数和所述欧几里德距离值获得第四正则化损失函数；根据所述第一目标网络模型的全连接层的对应参数生成第三正则化损失函数；根据所述第四正则化损失函数和所述第三正则化损失函数计算得到第二模型损失函数，并根据所述第二模型损失函数对第一目标网络模型进行训练，以获得第一压缩目标模型。

本申请还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有基于迁移学习的卷积神经网络模型的压缩程序，所述基于迁移学习的卷积神经网络模型的压缩程序被处理器执行时实现上述的基于迁移学习的卷积神经网络模型的压缩方法。

本申请还公开了一种计算机设备，在硬件层面，如图7所示，该终端包括处理器12、内部总线13、网络接口14、计算机可读存储介质11。处理器12从计算机可读存储介质中读取对应的计算机程序然后运行，在逻辑层面上形成请求处理装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。所述计算机可读存储介质11上存储有基于迁移学习的卷积神经网络模型的压缩程序，所述基于迁移学习的卷积神经网络模型的压缩程序被处理器执行时实现上述的基于迁移学习的卷积神经网络模型的压缩方法。

计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

为了验证本申请的压缩方法构建的基于迁移学习的卷积神经网络模型所带来的技术进步，将本申请得到的网络模型与其他现有的模型进行对比实验。

对比实验一：目标图像数据集选用Stanford Dogs，对比模型一为本发明迁移压缩方法得到的网络模型，对比模型二为L2起始点(L2-SP)迁移学习与网络瘦身(NetworkSlimming)压缩模型方法得到的网络模型，实验结果如图8所示，横坐标表示运算量，用浮点运算数表示，代表模型压缩率，运算量越小表示模型压缩率越大，纵坐标表示模型正确率。从图8可以看出，随着运算量的减小，即模型压缩率增大，对比模型一和对比模型二的开始能保持较高正确率，当压缩率超过60％时，对比模型二的正确率急剧下降，然而本申请的模型仍能保持较高的正确率。

对比实验二：目标图像数据集选用Caltech-256-60，对比模型一为本发明迁移压缩方法，对比模型二为L2起始点(L2-SP)迁移学习与网络瘦身(Network Slimming)压缩模型方法得到的模型，实验结果如图9所示，横坐标表示运算量，用浮点运算数表示，代表模型压缩率，运算量越小表示模型压缩率越大，纵坐标表示模型正确率。从图9可以看出，随着运算量的减小，即模型压缩率增大，对比模型一和对比模型二的开始能保持较高正确率，当压缩率超过60％时，对比模型二的正确率急剧下降，然而本申请的模型仍能保持较高的正确率。

上面对本发明的具体实施方式进行了详细描述，虽然已表示和描述了一些实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下，可以对这些实施例进行修改和完善，这些修改和完善也应在本发明的保护范围内。

Claims

1.一种基于迁移学习的卷积神经网络模型的压缩方法，其特征在于，所述压缩方法包括：

获取预训练好的迁移学习模型；

2.根据权利要求1所述的基于迁移学习的卷积神经网络模型的压缩方法，其特征在于，在利用所述目标图像数据集对所述第一目标网络模型进行迁移学习，以获得第一压缩目标模型之后，所述压缩方法还包括：

3.根据权利要求2所述的基于迁移学习的卷积神经网络模型的压缩方法，其特征在于，对第一压缩目标模型中的部分卷积层进行压缩处理，以获得第二目标网络模型的具体方法包括：

4.根据权利要求3所述的基于迁移学习的卷积神经网络模型的压缩方法，其特征在于，在所述利用目标图像数据集对第二目标网络模型进行迁移学习，以获得第二压缩目标模型之后，所述压缩方法还包括：

5.根据权利要求1所述的基于迁移学习的卷积神经网络模型的压缩方法，其特征在于，在利用目标图像数据集对第二目标网络模型进行迁移学习，以获得第二压缩目标模型之后，所述压缩方法还包括：

6.根据权利要求1所述的基于迁移学习的卷积神经网络模型的压缩方法，其特征在于，所述利用目标图像数据集对第一目标网络模型进行迁移学习，以获得第一压缩目标模型的具体方法包括：

7.根据权利要求1所述的基于迁移学习的卷积神经网络模型的压缩方法，其特征在于，所述利用目标图像数据集对第一目标网络模型进行迁移学习，以获得第一压缩目标模型的具体方法包括：

8.一种基于迁移学习的卷积神经网络模型的压缩装置，其特征在于，所述压缩装置包括：

获取模块，用于获取预训练好的迁移学习模型；

迁移学习模块，用于利用目标图像数据集对所述第一目标网络模型进行迁移学习，以获得第一压缩目标模型；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有基于迁移学习的卷积神经网络模型的压缩程序，所述基于迁移学习的卷积神经网络模型的压缩程序被处理器执行时实现权利要求1至7任一项所述的基于迁移学习的卷积神经网络模型的压缩方法。

10.一种计算机设备，其特征在于，所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的基于迁移学习的卷积神经网络模型的压缩程序，所述基于迁移学习的卷积神经网络模型的压缩程序被处理器执行时实现权利要求1至7任一项所述的基于迁移学习的卷积神经网络模型的压缩方法。