CN110796233A

CN110796233A - 基于迁移学习的深度残差卷积神经网络的自适应压缩方法

Info

Publication number: CN110796233A
Application number: CN201910988909.5A
Authority: CN
Inventors: 姜宏旭; 李�浩; 李波; 黄双喜; 李晓斌
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-02-14

Abstract

本发明公开的一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法，通过原网络模型结构的网络层组成分析，对网络结构进行分组，构建结构相似但体积更小的轻量化模型，提取原网络模型与轻量化模型的结构信息，再根据原网络模型的网络层分组，比较轻量化模型与原网络模型各组输出的特征图区别，二者共同指导轻量化模型进行阶段性参数更新，直至轻量化模型的各分组与原网络模型近似，其次将原网络模型的输出分类信息进行分类软化，诱导轻量化模型进行训练，最终轻量化模型继承原网络模型的检测性能。本发明适用于FPGA计算的深度卷积深度网络轻量化的压缩算法，节省FPGA上的硬件资源消耗，保证模型推理精度的同时提高了模型推理速度。

Description

基于迁移学习的深度残差卷积神经网络的自适应压缩方法

技术领域

本发明涉及深度网络模型压缩技术领域，特别涉及一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法。

背景技术

随着深度学习技术的快速发展，深度学习在计算机视觉、语音识别、自然处理等领域实现了跨越式的突破。然而深度学习算法在工业、制造业和航天航海等领域还没得到非常广泛的应用，主要原因是现阶段的网络模型其结构过于复杂，参数数量庞大，模型体积巨大，这对存储空间、计算资源需求庞大。由于移动平台和嵌入式设备局限于其有限的内存和处理单元，并且由于网络结构复杂，在嵌入式设备中部署难度较大，导致CNN模型在这些平台上的部署面临巨大挑战。

迁移学习作为一种模型性能转移方法，依据教师网络的输出特征，指导学生网络的参数更新，将教师网络的检测性能，移植到结构不完全相同的学生网络中。通过设计结构更为简单，参数规模更小的轻量化网络结构，并将原网络的检测性能移植至该轻量化网络，能够在保证检测性能不变的前提下，压缩网络规模，降低对存储与计算资源的需求，降低网络部署的复杂程度，解决FPGA等嵌入式移动平台资源受限的问题。

近年来，利用迁移学习实现网络压缩的研究包括知识蒸馏、暗知识迁移、注意点迁移学习等。其中知识蒸馏首先先设计一个精简、低复杂度的学生网络，根据教师网络的预测结果输出，除以温度参数Temperature之后、再做softmax变换，可以获得软化的概率分布。

基于学生网络自身预测结构的准确率，引入教师网络的相关软目标结果，作为学生网络的作为totalloss的一部分，以诱导学生网络的训练，有助于让学生网络更轻松的鉴别简单样本，但训练后期需要适当减小软目标的比重，让真实标注帮助鉴别困难样本，实现知识迁移；暗知识迁移的方法，考虑到直接将最终结果的差异性向前传播，引导整个网络的实现效果并不好，为了能够诱导训练更深、更纤细的学生网络，需要考虑教师网络中间层的Feature Maps，用来指导学生网络中相应的结构。首先利用中间特征的暗知识，初始化学生网络，利用教师网络的soft label指导整个学生网络的训练(即知识蒸馏)，且total loss中soft target相关部分所占比重逐渐降低，从而让学生网络获得教师网络的检测性能；注意转移方法提出在网络中间层设置注意区域，通过正确定义卷积神经网络的注意区域，并随着网络层次的加深，提高关键区域的影响，通过使学生网络学习教师网络的注意区域的关键信息，从而显著提高其性能。但现阶段的方法中，压缩得到的学生网络的结构需要多次尝试或提前预知结构要求，难以自适应确定其网络结构。此外在教师网络对学生网络的诱导过程中，只是关注两者在某一阶段的特征输出相关的差异，这导致学生网络在迁移学习过程中需要大量的迭代次数，收敛速度较慢，并且在较深的网路中难以实现原网络模型性能的准确继承。

因此，提供一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法是本领域技术人员亟待解决的技术问题。

发明内容

本发明针对上述研究现状和存在的问题，提供了一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法，为将规模庞大的深度网络模型移植到FPGA平台上提供可能的技术支持。通过轻量化模型的构建、初始化和诱导训练的压缩方法，得到的轻量化模型具有原网络模型相同的检测性能，输出最终性能相同的轻量化模型。

本发明提供了一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法，包括如下步骤：

步骤一，根据原网络模型结构排布的特征，对网络层结构进行优化，构建结构优化的轻量化模型；

步骤二，根据优化结构对原网络模型和轻量化模型网络层进行分组，构建由输入端到当前分组输出端的阶段性模型，根据阶段性模型与原网络模型对应的网络中间层输出的特征图结果在特征输出上的差异，以及各网络层结构所包含优化结构之间的结构信息差异，生成阶段性指导信息，对阶段性模型进行反向传播并更新网络权重参数，直至阶段性模型与原网络模型差异信息减小至设定范围内，将下一分组结构扩展至当前阶段性模型的输出端之后，重复执行步骤二，直至轻量化模型完成阶段性初始化；

步骤三，比较轻量化模型与原网络模型最终分类输出信息的差异信息，生成综合指导信息，对轻量化模型进行反向传播并更新网络权重参数，输出最终与原网络模型性能相同的轻量化模型。

优选的，所述步骤一具体包括：

将连续排布的3至5次的残差模块结构，优化成2次的残差模块结构；

将连续排布的3至5层的卷积层，优化成2层的卷积层；

将剩余的网络结构层保留，根据原网络模型网络层结构排序，构建结构优化的轻量化模型。

优选的，所述步骤一构建的结构优化的轻量化模型要求与原网络模型的输入输出参数保持一致，包括输入输出通道数与特征图参数保证一致。

优选的，所述步骤二具体包括：

(1)根据优化结构的排布，将原网络模型与轻量化模型的网络层结构分为对应的多组；

(2)提取模型从输入端至当前构建的阶段性模型结构的输出端为当前阶段训练结构，构建阶段性模型，提取当前阶段性模型各层输出结果；

(3)利用原网络模型与阶段性模型输出的特征图参数作为当前分组结构的特征输出的信息，各结构层输入输出端的特征图运算得到内积关系矩阵作为结构信息，比较原网络模型与轻量化模型之间的特征输出差异和结构信息差异；

(4)根据特征输出差异和结构信息差异，生成阶段性指导信息，根据阶段性指导信息，对阶段性模型的训练结构进行反向传播并更新参数，重复步骤(3)，重新提取特征输出的信息与结构信息；

(5)在步骤(3)、(4)的迭代循环中，判断特征输出的信息与结构信息的差异是否减小至设定范围内，若是，继续对当前阶段性模型的训练结构进行反向传播并更新参数；若否，则扩展当前阶段性模型的训练结构至下一分组重复迭代步骤(2)～(4)，直至全部分组都训练完毕，完成轻量化模型的初始化。

优选的，所述步骤(3)中原网络模型与轻量化模型的特征输出的差异信息，根据原网络模型中间结果输出的特征图参数

与相对应阶段性模型输出的特征图参数

通过计算特征图参数的平均差异值，获得特征输出差异值。

优选的，所述步骤(3)中优化结构的阶段性模型与原网络模型结构的结构信息，分别根据各结构层输入输出端的特征图进行内积运算确定，获得含有结构信息的内积关系矩阵，若输入输出特征图参数不一致，则采用池化层进行调整；根据对应优化结构的阶段性模型与原网络模型结构的结构信息，计算内积关系矩阵和参数之间的平均差异值，获得结构信息差异值。

优选的，所述步骤三具体包括：

利用测试数据，获取原网络模型和轻量化模型输出的分类结果，利用软化因子对原网络模型的分类结果进行软化，使其包含分类判断的模糊信息，根据轻量化模型的分类结果，与原网络模型的分类结果之间的差异，生成综合指导信息，对轻量化模型进行反向传播并更新参数，动态调整影响比例因子，直至影响比例因子为0，即轻量化模型已经具有原网络模型相同的检测性能，输出最终与原网络模型性能相同的轻量化模型。本发明不断降低原网络模型分类结果的影响，逐渐加强分类结果的准确性引导，更新指导信息，直到原网络模型分类结果的影响为0，轻量化模型能够继承原网络模型的输出性能。完成轻量化模型最终输出性能的递进式训练。

本发明相较现有技术具有以下有益效果：

1、基于原网络模型的网络结构特征，根据输入模型结构构建结构优化的轻量型网络，自适应构建方法摆脱固定的结构模式，更为灵活。

2、通过阶段性初始化的方法，使得轻量化模型的初始化过程逐渐接近原网络模型，保障模型性能继承能力更好，模型收敛速度更快。

3、将结构信息与特征输出相结合，包含内部的转化关系以及最终的特征输出目标，综合作为指导参数更新，是迁移学习的知识更为准确。

4、使用动态影响比例参数对原网络模型的分类信息的指导影响进行调整，相比目前工业界已公开的固定影响比例参数以及固定比例降低原网络模型分类结果的影响相比，根据轻量化模型与原网络模型的分类差距，对原网络模型分类结果的影响进行动态调整，使得指导信息更有助于参数更新，并且收敛速度更快。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的基于迁移学习的深度残差卷积神经网络模型自适应压缩方法的流程图；

图2为本发明提供的残差模块结构示意图；

图3为本发明提供的轻量化模型的自适应构建过程的示意图；

图4为本发明提供的阶段性初始化过程中指导信息的生成过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见附图1，为基于迁移学习的深度残差卷积神经网络模型自适应压缩方法的流程图，本发明基于迁移学习的深度残差卷积神经网络模型自适应压缩方法的设计和实现主要分为3部分：轻量化模型自适应构建、轻量化模型阶段性初始化和轻量化模型动态诱导训练。

1、轻量化模型的自适应构建

此部分通过对原神经网络模型的网络结构进行分析，搜索能够优化的网络结构，首先找到具有连续排布3至5次的残差模块结构优化替代为2次的残差模块结构，残差模块结构参见附图2，其次再对剩余部分连续排布的3至5层的卷积层，分别优化成2层的卷积层，最后将剩余的网络结构保留下来，构建过程参见附图3，将构建的这三部分网络结构，按照对应的原网络模型网络排列顺序，构建结构优化的轻量化网络。

构建的结构优化的轻量化模型要求与原网络模型的输入输出参数保持一致，包括输入输出通道数与特征图参数保证一致，特征图参数包括特征图尺寸。

2、轻量化模型阶段性初始化

此部分根据模型结构优化的信息，对原网络模型和轻量化模型的模型结构进行分组，将轻量化模型的输入端，即训练数据输入层，到当前分组结构的输出端，即当前构建的阶段性模型的特征图输出位置，作为阶段性模型。

利用训练数据，输入到阶段性模型相对应的原网络模型的部分结构，得到中间输出结果的特征输出

以及该阶段性模型的特征输出

由于优化结构后的阶段性模型保持输入输出端的尺寸信息与原网络模型保持一致，因此两个模型的特征输出尺寸保持一致。通过如下公式，求得特征输出的差异信息Loss_F：

利用训练数据，获取目前阶段性模型包含的优化结构，包括2次残差模块、2层卷积层等，提取每个优化结构的中间输出结果，以及该优化结构的输入，例如第i个优化结构的输入特征为输出特征为

针对残差模块的优化结构来说，其优化结构的输入输出尺寸保持一致；针对连续卷积层的优化结构来说，其优化结构的输入输出尺寸基本不相同，因此需要对输出特征

进行调整，使其与保持尺寸保持一致。由此根据输入输出的尺寸信息差异，设置转换矩阵Z输出特征

进行调整。其中输入特征的通道数为m，输出特征的通道数为n，调整后的特征尺寸为h×w，通过如下公式，求得第i个优化结构的结构化信息

其中a∈(1，m)b∈(1，n)：

根据阶段性模型包含的k个结构化信息

以及对应原网络模型所包含的k个结构化信息

由于不同复杂程度的优化结构，对原网络模型结构的影响不同，因此设置影响参数μ_i，这里设置5至3层优化结构的μ_i分别为1，0.7，0.5。通过如下公式，计算各对应结构的结构化信息差异，并根据影响参数，累计求得结构信息差异Loss_G：

通过特征输出的差异信息Loss_F与结构信息差异Loss_G相综合，求得损失函数Loss_step＝β×Loss_F+(1-β)×Loss_G，作为阶段性模型的阶段性指导信息，进行网络权重参数更新，其中超参数β表示为两部分差异值所占的比重，即指导能力的强弱，这里设置β的数值为0.8。指导信息的生成过程参见附图4。

直至当前阶段的损失函数Loss_step较小，扩展阶段性模型结构至下一分组结构的输出端，重复阶段性初始化操作。当全部分组结构都更新参数完毕后，完成轻量化模型的阶段性初始化。

3、轻量化模型动态诱导训练

此部分利用100次测试数据，求得原网络模型与轻量化模型的准确率，首先对输出的分类结果进行软化，将网络的预测结果输出，除以温度参数T之后、再做softmax变换，可以获得软化的概率分布，数值介于0～1之间，取值分布较为缓和，T数值越大，分布越缓和，而T越小，越容易放大错误分类的概率，引入不必要的噪声，针对较困难的分类或检测任务，T这里取1，确保原网络中正确预测的贡献，具体公式如下，其中，q为软化后的概率结果，z为原有概率结果，其中T为温度系数：

利用原网络模型与轻量化模型对Q种分类结果的概率分布情况，通过交叉熵公式计算损失函数Loss_org与Loss_qua，其中Loss_org表示的是原网络模型与轻量化模型对Q种分类结果的每一个分类概率的差异，计算交叉熵；Loss_qua是轻量化模型对Q种分类结果与实际数据标签之间的差异，计算交叉熵；依据原网络模型与轻量化模型的准确率差异，确定原网络模型分类结果的影响参数α，使用非线性关系进行转换，利用准确率差异的数值使用tanh函数进行转换，得到影响因素。利用如下公式计算整体损失函数，作为综合指导信息：

Loss_total＝α·Loss_org+(1-α)Loss_qua

综合指导信息对轻量化模型进行参数更新，并重复检测原网络模型与轻量化模型的准确率差异，直至影响因子参数α为0，且趋于稳定，说明压缩过程实现收敛，即轻量化模型已经继承原网络模型的检测性能，最终输出具有相同性能的轻量化模型。该模型具有更为优化的网络结构，更少参数规模，能够满足将规模庞大的深度网络模型移植到FPGA平台上的要求。

ResNet-18在数据集CIFAR-10上性能如下表1所示，其中Org_Acc与Org_Params为原网络模型的性能，Quan_Acc，Quan_Params为轻量化模型的性能：

表1

	Org_Acc	Org_Params	Quan_Acc	Quan_Params
					ResNet-18	93.86％	44.8M	89.60％	6.3M
ResNet-50	91.61％	382M	89.01％	102.8M

通过轻量化模型的构建、初始化和诱导训练的压缩方法。通过对原网络模型结构进行分析，选取具有一定特点的网络层结构进行优化，其余部分保留，构建结构优化的轻量化模型。再根据优化结构对模型网络层进行分组，构建由输入端到当前分组输出端的阶段性模型，提取其中包含的优化结构的结构信息，以及输出的中间结果的特征信息，比较二者综合的差异信息，指导阶段性模型进行反向传播并更新参数，直至阶段性模型与原网络模型差异信息较小，扩展阶段性模型至下一分组结构，重复进行差异信息指导优化的过程，直至轻量化模型整体初始化完成。最后，通过测试数据，获得两个模型的最终分类输出信息，对原网络模型的明确分类信息进行软化，得到模糊化的分类信息，与轻量化模型的最终分类结果，生成指导信息，对轻量化模型进行反向传播并更新参数，在此过程中，根据轻量化模型的分类结果，与原网络模型的分类结果之间的差异，动态调整影响比例参数，直至影响比例参数影响为0，即轻量化模型已经具有原网络模型相同的检测性能，输出最终性能相同的轻量化模型。本发明适用于FPGA计算的深度卷积深度网络轻量化的压缩算法，节省FPGA上的硬件资源消耗。

以上对本发明所提供的一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法，其特征在于，包括如下步骤：

2.根据权利要求1所述一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法，其特征在于，所述步骤一具体包括：

将连续排布的3至5层的卷积层，优化成2层的卷积层；

3.根据权利要求1或2所述一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法，其特征在于，所述步骤一构建的结构优化的轻量化模型要求与原网络模型的输入输出参数保持一致，包括输入输出通道数与特征图参数保证一致。

4.根据权利要求1所述一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法，其特征在于，所述步骤二具体包括：

5.根据权利要求4所述一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法，其特征在于，所述步骤(3)中原网络模型与轻量化模型的特征输出的差异信息，根据原网络模型中间结果输出的特征图参数

与相对应阶段性模型输出的特征图参数

通过计算特征图参数的平均差异值，获得特征输出差异值。

6.根据权利要求4所述一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法，其特征在于，所述步骤(3)中优化结构的阶段性模型与原网络模型结构的结构信息，分别根据各结构层输入输出端的特征图进行内积运算确定，获得含有结构信息的内积关系矩阵，若输入输出特征图参数不一致，则采用池化层进行调整；根据对应优化结构的阶段性模型与原网络模型结构的结构信息，计算内积关系矩阵和参数之间的平均差异值，获得结构信息差异值。

7.根据权利要求1所述一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法，其特征在于，所述步骤三具体包括：

利用测试数据，获取原网络模型和轻量化模型输出的分类结果，利用软化因子对原网络模型的分类结果进行软化，使其包含分类判断的模糊信息，根据轻量化模型的分类结果，与原网络模型的分类结果之间的差异，生成综合指导信息，对轻量化模型进行反向传播并更新参数，动态调整影响比例因子，直至影响比例因子影为0，即轻量化模型已经具有原网络模型相同的检测性能，输出最终与原网络模型性能相同的轻量化模型。