CN110598848A

CN110598848A - 一种基于通道剪枝的迁移学习加速方法

Info

Publication number: CN110598848A
Application number: CN201910758097.5A
Authority: CN
Inventors: 陈益强; 于超辉; 王晋东
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2019-12-20

Abstract

本发明提供了一种基于通道剪枝的用于加速迁移学习的方法，所述方法包括下述步骤：步骤1：建立基线模型；步骤2：对源域和目标域之间的可迁移通道进行评估，获取每个通道的重要度；步骤3：进行通道剪枝；步骤4：微调训练，使经过剪枝的模型收敛；步骤5：重复步骤2至4，直到经过剪枝的模型在目标域上的准确率和模型所需要的计算量满足预定要求。本发明的基于通道剪枝的迁移学习加速方法，将迁移学习的过程和模型剪枝过程融合为一个整体框架，在迁移的过程中同时考虑到目标任务上的性能，而在剪枝的过程中也同时考虑到移除那些对原任务和目标任务都不重要的参数。

Description

一种基于通道剪枝的迁移学习加速方法

技术领域

本发明涉及深度学习、迁移学习及模型压缩与加速等技术领域，具体涉及一种基于通道剪枝的迁移学习加速方法。

背景技术

深度神经网络显著改善了各种机器学习应用程序的性能。然而，为了获得更好的性能以及避免过拟合，需要大量标记数据来训练深度网络模型。由于手动标记大量训练数据需要花费很多金钱和时间，因此迫切需要开发有效的算法以减少新领域中的标记工作量。为了解决这个标定数据的难题，传统的机器学习方法假设训练数据和测试数据均属于同一种数据分布，以此来训练相关的模型，实现数据标定。然而，由于这些数据分布的高动态性和高差异性，传统的机器学习方法对此类问题无法产生具有强泛化能力的求解方案。

迁移学习作为机器学习的一大分支应运而生，其区别于传统机器学习方法之处在于，通过找寻待标定数据和已知标签数据之间的联系，从已知标签的数据中学习知识，迁移到待标定数据中，完成迁移标定。迁移学习在解决数据分布动态变化、数据维度不一致，以及数据类别不同的问题时具有明显的优势。迁移学习试图将知识从已标记的数据域(即源域)迁移到未标记的数据域(即目标域)，它的关键是学习一种判别模型来减少源域特征和目标域特征分布之间的差异，进而提高在目标域上的识别精度。近年来，深度迁移学习方法在各种迁移学习任务中取得了优异的性能，这是因为与传统方法相比，利用深度卷积神经网络可以学习到更多深度可迁移的特征表示。流行的卷积神经网络架构如AlexNet，VGGNet和ResNet，它们作为基础骨干网络被广泛应用于深度迁移学习，然后通过减少源域和目标域之间的特征差异，进行知识的跨域迁移。

然而，在诸如智能手机之类的资源受限的移动端设备上部署这些深度迁移学习模型仍然具有挑战性。这是由于这些深度迁移学习模型需要巨大的计算成本和存储成本。为了减少模型对计算资源和存储资源的需求并且加速推理过程，一种流行的解决方案是进行模型压缩。模型压缩方法主要包括模型量化，权重剪枝和低秩近似。

但是，将现有的模型压缩方法直接应用于深度迁移学习是不可行的。有两个主要挑战：首先，这些模型压缩方法是用来解决监督学习问题的，也就是训练和测试数据都是带标签的。由于迁移学习问题中目标域数据没有标签，因此不适合。其次，即使可以获取目标域数据的标签，直接将这些压缩方法应用于深度迁移学习，也还会涉及负转移问题。这是因为现有的压缩方法并不是为迁移学习而设计的，也没有考虑源域和目标域之间的分布差异。目前还没有一种有效的适用于深度迁移学习的网络压缩方法。

发明内容

针对上述问题，本发明设计了一种可以应用于诸如智能手机之类的资源受限的设备终端的、基于通道剪枝的用于加速迁移学习的方法，其可以减少迁移学习过程中出现的负转移的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于通道剪枝的迁移学习加速方法，其特征在于，所述方法包括下述步骤：

步骤1：基于源域和目标域的图像数据建立基线模型；

步骤2：在所述基线模型中对源域和目标域之间的可迁移通道进行评估，获取每个通道的重要度；

步骤3：根据获得的每个通道的重要度进行通道剪枝以及筛选；

步骤4：对经过剪枝筛选后的基线模型进行调整训练，使其趋于收敛；

步骤5：重复步骤2至4，直到经过剪枝的基线模型满足预定要求。

在上述技术方案中，步骤1包括以下步骤：

步骤11：提取来自源域和目标域图片的特征，建立基线预备模型；

步骤12：计算自源域和目标域的特征之间的最大平均差异损失L_mmd以表征二者的特征分布差异程度；

步骤13：迭代训练基线预备模型确定使最大平均差异损失达到最小化的基线模型。

在上述技术方案中，所述步骤13中确定最大平均差异损失步骤包括：最大平均差异损失维持2-20次训练周期而不再减小。

在上述技术方案中，在所述步骤13中，两个数据域之间的最大平均差异损失L_mmd通过下式计算：

其中，X_i表示来自源域的图片，X_j表示来自目标域的图片，i、j分别表示第i张和第j张；

n_s和n_t分别表示源域和目标域数据的大小，和分别表示源域和目标域数据，φ(·)表示映射后的特征图，表示再生核希尔伯特空间。

在上述技术方案中，在所述步骤2中，用G(a_l，i)表示第l层卷积层的第i个输出通道的重要程度：

其中，a_l，i为第l层卷积层的第i个输出通道的激活特征图，L_cls为分类损失，L_mmd为数据域之间的最大平均差异损失；

β满足：

其中，i为当前剪枝次数，ITER为总的剪枝次数。

在上述技术方案中，在所述步骤3中，每次通道剪枝移除最不重要的一部分通道的数目为k，k为总通道数目的1/100到1/10。

在上述技术方案中，经过剪枝的模型在目标域上的准确率和模型所需要的计算量都要满足的要求为：在保证平均精度波动≤3％的情况下尽可能的压缩模型的计算量。

在上述技术方案中，对于VGGNet模型，经过剪枝的模型在目标域上的准确率和模型所需要的计算量都要满足的要求为：

计算量下降26％，平均精度波动≤1％。

在上述技术方案中，对于ResNet50模型，经过剪枝的模型在目标域上的准确率和模型所需要的计算量都要满足的要求为：

计算量下降12％，平均精度波动≤3％。

在上述技术方案中，所述步骤5中的预定要求包括：所述基线模型在目标域上的准确率高于预定值并且/或者所述基线模型所需要的计算量小于预定值。

优选地，所述步骤3包括：确定各通道的重要度，对所有通道根据其重要度进行全局排序，移除最不重要的一部分通道；

计算量下降26％，平均精度波动≤1％。

计算量下降12％，平均精度波动≤3％。

另一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现所述的方法的步骤。

另一方面，本发明提供一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述的方法的步骤。

与现有技术相比，本发明的有益效果为：

本发明的基于通道剪枝的迁移学习加速方法，简化了对迁移学习模型压缩的步骤，在减少模型计算量的同时维持了模型压缩后的较高的泛化能力。

本发明的基于通道剪枝的迁移学习加速方法，将迁移学习的过程和模型剪枝过程融合为一个整体框架，在迁移的过程中同时考虑到目标任务上的性能，而在剪枝的过程中也同时考虑到移除那些对原任务和目标任务都不重要的参数。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1为本发明的基于通道剪枝的迁移学习加速方法的步骤示意图。

图2为基线模型结构示意图。

图3为迁移任务A→W的剪枝结果示意图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在下面的叙述中，x表示特征，y表示标签。

基于通道剪枝的迁移学习加速方法，根据本发明的一个实施例主要包括三个步骤：1、建立基线模型；2、可迁移通道评估；3、通道剪枝。

1、建立基线模型

在最近几年的研究中，深度神经网络已经成功应用于迁移学习。对于神经网络而言，浅层提取的特征更加通用，深层提取的特征更加的与所属任务相关。因此，可以通过较低层网络学习通用特征，然后微调深层的网络去用于特定的任务，从而可以学习到更多可迁移的特征表示。本发明针对现有的深度迁移学习架构，设计一个更加通用的高效的模型压缩框架，所以对于基线模型，本发明建立了一种比较典型的深度迁移学习架构，在结构上类似于深度领域混淆(Deep Domain Confusion,DDC)和深度自适应网络(Deep AdaptationNetwork,DAN)。应当明确的是，本发明不局限于某一特定的深度迁移学习模型。

本发明的基于通道剪枝的迁移学习加速方法，建立基线模型时包括以下步骤：11、建立基线预备模型；12、进行预训练；13、最大平均差异(Maximum Mean Discrepancy,MMD)损失满足要求，达到最小化，从而得到基线模型。许多流行的基础网络结构都可以作为本发明的基线模型的骨干网络，例如AlexNet，VGGNet和ResNet等。

如图2所示，本发明通过几个卷积和池化层学习可迁移特征，然后，使用全连接的层完成分类任务的学习。

根据本发明的一个实施例，本发明提出了如下的建立基线模型的方法，首先，通过在多个层次进行特征提取，比如，在基线模型的卷积层、激活层和池化层分别进行提取，提取来自源域和目标域图片的特征，得到[7*7*512]的特征，然后分别用两套参数不共享的全连接层(全连接层通常接在网络模型的最后，对前面提取的特征做信息融合的作用)分别提取源域和目标域数据的特征，通过在来自两个域的特征之间增加MMD损失L_mmd来表征两个域的特征之间的特征分布差异程度，通过最小化这个损失来完成迁移学习，从而完成了基线模型的建立。

本发明的一个实施例中采用最大平均差异作为迁移损失去减少源域和目标域直接的差异。通过将原始数据通过高斯核函数映射到希尔伯特空间，用n_s和n_t分别表示源域和目标域数据的大小，和分别表示源域和目标域数据，φ(·)表示映射后的特征图，表示再生核希尔伯特空间。两个数据域之间的最大平均差异损失L_mmd可以通过下式计算：

其中，X_i表示来自源域的图片，X_j表示来自目标域的图片，i、j分别表示第i张和第j张。

通过最小化最大平均差异损失可以最小化源域和目标域之间的分布差异，从而提高模型在无标签的目标域上泛化能力。在训练基线模型的时候，当最大平均差异损失值维持10次训练周期的预训练而不再减小，则认为最大平均差异损失已经最小化，此时基线模型训练完成。

2、可迁移通道评估

获取到预先建立和训练好的基线模型后，需要对这个基线模型进行可迁移通道评估，评估出哪些卷积层的输出通道对于一个任务来说是重要的，哪些输出通道对于一个任务来说是不重要的甚至是冗余的。在本发明的一个实施例中选用下述方法作为可迁移通道评估方法的基础方法。

为了在未标记的目标域数据集上得到最终性能的优化，令a_1，i表示为第l层卷积层的第i个输出通道的激活特征图，令表示为移除第l层卷积层的第i个输出通道之后的损失值，也就是剪枝后的损失值，令表示剪枝前的损失值，令表示为损失函数对激活特征图的一阶导数。根据泰勒定理，可以对损失函数在a_1，i＝0进行展开：

这里舍弃了二阶拉格朗日余项，因为它需要太多的计算量而且去掉之后不会显著影响对通道的评估效果。

一个通道的重要程度，可以用剪枝前后的损失变化来表示，如果剪枝前后的损失变化很大，说明这个通道比较重要，移除后会对模型产生较大影响，而如果剪枝前后损失变化较小甚至不变，说明这个通道比较不重要，甚至是冗余的，可以优先移除这样的通道。本发明用G(a_1，i)表示通道a_1，i的重要程度，则G(a_1，i)可以表示为：

因此，一个通道的重要度可以通过该通道对损失的一阶导数和该通道的激活特征图的乘积得到，值越大，说明这个通道越重要，移除之后对模型的损失越大，值越小说明越不重要，可以优先移除。

对于本发明的这个针对迁移学习的加速方法的损失函数，它主要包含两个部分：分类损失L_cls和数据域之间的最大平均差异损失L_mmd，其中，L_cls是交叉熵损失，表示模型在源域上的分类损失。令N为样本数量，令C为类别总数，令P_i，c表示样本x_i ^s属于类别c的先验概率，h_c(x^s _i)表示模型把该样本预测为类别c的概率，分类损失的计算方法为：

则加速框架的整体损失L可以表示为：

L＝L_cls+βL_mmd

其中，β是一个动态变化的超参数，若令i为第i次剪枝，令ITER为总的剪枝次数，则β可以通过下式计算：

这么设计β有两个方面的好处，一方面，在剪枝的早期阶段，模型的参数还没有收敛至稳定，所以L_mmd会比较大会导致剪枝过的模型难收敛，这时候希望β小一些；另一方面，随着剪枝的迭代进行，L_mmd变得越来越重要并可以指导模型向目标域上的任务做优化，并且此时模型已经逐渐趋于稳定，因此希望β的值也相应变大。

综上所述，本发明的一个实施例中基于通道剪枝的迁移学习加速方法中的可迁移通道评估方法可以表示为：

这种评估方法的优势是计算简单高效，同时考虑了迁移学习中的源域和目标域的特征分布，更合适迁移学习任务。

3、通道剪枝

经过可迁移通道评估，获取了所有通道的重要度，接下来需要进行通道剪枝。

首先，对所有通道根据它们各自的重要度进行全局排序，然后移除最不重要的k个通道，这里的k可以是一个范围，这个范围是使得移除的通道数目占整个网络模型总通道数目的1/100到1/10，k取值越大，整个通道剪枝过程迭代的就越快。

需要明确的是，本发明的加速方法是一个迭代优化的过程，把模型剪枝分成若干次迭代，每次迭代都移除最不重要的k个通道，每迭代一次，会进行一次短时的微调训练，这样可以帮助剪枝过的模型收敛。当剪枝后的模型在目标域上的准确率和模型所需要的计算量满足要求的时候，剪枝过程可以停止。这里的满足要求指的是满足对压缩后的网络模型在计算量上的要求和在精度上的要求，具体的说，指的是在保证精度波动≤3％的情况下尽可能的压缩模型的计算量。如在本发明的实验中，对于VGGNet模型，要求计算量下降26％，平均精度波动≤1％；而对于ResNet50模型，要求计算量下降12％，平均精度波动≤3％。

通过模型剪枝完成了模型的压缩，进而实现深度迁移学习模型的加速。

初步实验结果

为了验证本发明的基于通道剪枝的迁移学习加速方法的有效性，下面在几个公开数据集中进行了实验。

数据集：本发明采用了Office31和ImageCLEF-DA这两个数据集。这两个数据集是迁移学习研究领域公认的经典数据集。Office31是视觉迁移学习的主流基准数据集，包含3个对象领域Amazon(A)、Webcam(W)、DSLR(D)，共有4,110张图片31个类别标签。从中随机选取2个不同的领域作为辅助领域和目标领域，则可构造2×3＝6个跨领域视觉对象识别任务，包括A→W，W→A，A→D，D→A，D→W，W→D。ImageCLEF-DA是ImageC LEF 2014迁移学习挑战赛的基准数据集，它通过选择3个公共数据集共享的12个常见类别收集得到，3个公共公开数据集包括：Caltech-256(C),ImageNet ILSVRC 2012(I),Pascal VOC 2012(P)。每个数据域有600张图片，其中每个类别包含50张图片，是一个比较均衡的数据集。从中随机选取2个不同的领域作为辅助领域和目标领域，则可构造2×3＝6个跨领域视觉对象识别任务，包括I→P，P→I，I→C，C→I，C→P，P→C。

对比方法：本发明采用了以下的方法进行对比：两阶段方法、本发明的基于通道剪枝的迁移学习加速方法去掉迁移损失(本发明的方法去掉迁移损失)、本发明的基于通道剪枝的迁移学习加速方法(本发明的方法)。其中，两阶段方法是指，首先在源域上针对有监督学习任务进行通道剪枝，获取剪枝后的压缩模型后再在源域和目标域任务上进行迁移学习的微调训练。

本发明的方法去掉迁移损失是指：把本发明的方法中整体损失里的迁移损失那部分去掉，其他条件保持不变。这样做的目的是验证本发明的可迁移通道评估方法的准确性和高效性。

与这些方法进行对比，可以全面反映出本发明的基于通道剪枝的迁移学习加速方法的优势。

评价标准：本发明选择目标域上的分类精度作为方法性能评价的准则，它已被广泛应用于大量迁移学习相关方法的评测中。该精度由下列公式计算得出：

其中，Acc表示精度，y(x)和分别是目标域的真实和预测标签。

实验结果：本发明的实验结果如表1和表2所示。从表中可以看出，通过本发明的方法对基线迁移学习模型进行通道剪枝后，使得模型的计算量减少26％的情况下，在以VGGNet为骨干网络的实验中全部超过了未剪枝的基线模型，这归功于基本模型中的一些冗余通道被移除了，因此减少了负转移的影响，提高了模型的泛化性能。在以ResNet50为骨干网络的实验中，用本发明的方法剪枝的模型，在计算量减少12％的情况下，也在一半以上的迁移学习任务中超过了未剪枝的基线模型。相比于其他几种方法，本发明的方法具有很大的优势。

表1 Office31数据集上迁移学习实验结果

表2 ImageCLEF-DA数据集上迁移学习实验结果

除了表1和表2，本发明在图3中展示了更详细的实验对比结果，而且还额外加了一个随机剪枝方法。该随机剪枝方法指的是：通过随机裁剪一定量的通道来达到同样的模型计算量的减少量的剪枝方法。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于通道剪枝的迁移学习加速方法，其特征在于，所述方法包括下述步骤：

步骤1：基于源域和目标域的图像数据建立基线模型；

2.根据权利要求1所述的基于通道剪枝的迁移学习加速方法，其特征在于，步骤1包括以下步骤：

步骤12：计算自源域和目标域的特征之间的最大平均差异损失Lmmd以表征二者的特征分布差异程度；

3.根据权利要求2所述的基于通道剪枝的迁移学习加速方法，其特征在于，所述步骤13中确定最大平均差异损失步骤包括：最大平均差异损失维持2-20次训练周期而不再减小。

4.根据权利要求2所述的基于通道剪枝的迁移学习加速方法，其特征在于，在所述步骤13中，两个数据域之间的最大平均差异损失L_mmd通过下式计算：

5.根据权利要求1所述的基于通道剪枝的迁移学习加速方法，其特征在于，在所述步骤2中，用G(a_l，i)表示第l层卷积层的第i个输出通道的重要程度：

β满足：

其中，i为当前剪枝次数，ITER为总的剪枝次数。

6.根据权利要求1所述的基于通道剪枝的迁移学习加速方法，其特征在于，在所述步骤3中，每次通道剪枝移除最不重要的一部分通道的数目为k，k为总通道数目的1/100到1/10。

7.根据权利要求1所述的基于通道剪枝的迁移学习加速方法，其特征在于，经过剪枝的模型在目标域上的准确率和模型所需要的计算量都要满足的要求为：在保证平均精度波动≤3％的情况下尽可能的压缩模型的计算量。

8.根据权利要求1所述的基于通道剪枝的迁移学习加速方法，其特征在于，所述步骤5中的预定要求包括：所述基线模型在目标域上的准确率高于预定值并且/或者所述基线模型所需要的计算量小于预定值。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至7中任一项所述的方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的方法的步骤。