CN110472730A

CN110472730A - 一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法

Info

Publication number: CN110472730A
Application number: CN201910725997.XA
Authority: CN
Inventors: 马恺声; 张林峰
Original assignee: Cross Information Core Technology Research Institute (xi'an) Co Ltd
Current assignee: Cross Information Core Technology Research Institute (xi'an) Co Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2019-11-19
Also published as: WO2021023202A1

Abstract

本发明一种卷积神经网络的自蒸馏训练方法，通过使卷积神经网络的尺寸缩小而不是使网络的尺寸扩大来显著增强卷积神经网络的性能。在网络自身内蒸馏知识时网络首先被划分为几个部分；然后，网络的较深部分中的知识被挤入浅层部分中。在不以响应时间为代价的情况下，自蒸馏大幅度地提高了卷积神经网络的性能，获得了平均2.65％的精度提升；从对数据集ResNeXt中0.61％的精度提升作为最小值到VGG19中4.07％的精度提升作为最大值。再配合注意力层对浅层分类器特征的强化提取，使得浅层分类器的精度显著提高，从而能够将一个有多个输出的卷积神经网络视为多个卷积神经网络，根据不同的需求，对每个浅层分类器的输出加以利用。

Description

一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法

技术领域

本发明涉及卷积神经网络的训练，具体为一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法。

背景技术

卷积神经网络已经被广泛地部署在各种应用场景中。为了将应用的范围扩展到一些精度至关重要的领域，研究人员一直在研究通过更深或更宽的网络结构来提升精度的方法，这会为其带来计算和存储成本的指数式增长，从而会延迟响应时间。

在卷积神经网络的帮助下，诸如图像分类、对象检测和语义分割之类的应用目前正在以前所未有的速度发展。然而，在一些要求不容错的应用，诸如自动驾驶和医学图像分析中，需要进一步改进预测和分析精度，同时需要更短的响应时间。这导致当前卷积神经网络面临巨大的挑战。现有技术中的方法侧重于性能改进或减少计算资源，从而能够减少响应时间。例如，一方面，已经提出了ResNet 150或甚至更大的ResNet 1000用来改善非常有限的性能裕度，但是具有大幅计算代价。另一方面，在与尽力而为网络相比具有预定义的性能损失的情况下，已经提出了各种技术来减少计算和存储量，以匹配硬件实现所带来的限制。这样的技术包括轻量级网络设计、修剪和量化等，其中知识蒸馏(KD)是实现模型压缩的可行方法之一。

作为常见的压缩方法之一，知识蒸馏的灵感来自于从教师到学生的知识转移。其关键策略是将紧凑型学生模型定位为逼近过度参数化的教师模型。因此，学生模型可以获得显著的性能提升，有时甚至比教师的模型更好。通过用紧凑型学生模型替代过度参数化的教师模型，可以实现高压缩和快速加速；知识蒸馏的实施包括两步，第一步训练大的教师模型，以及第二步将知识从教师模型蒸馏到学生模型；但是，其也存在如下问题；第一个问题是关于知识转移的低效，这意味着学生模型几乎不会利用来自教师模型的所有知识。一个优于其教师模型的杰出学生模型仍然很少见。另一个问题是如何设计并训练适当的教师模型，现有的蒸馏框架需要大量的努力和实验才能找到教师模型的最佳架构，这会花费相对长的时间。第三个问题教师模型和学生模型分别以它们自己的方式工作，并且知识转移在不同模型之间流动，就涉及到多个模型的建立，工作繁琐，精度较低。

现有技术中通过提出的自蒸馏训练方法进行高效的训练，但是在自蒸馏过程中分类器的精度较低，并且无法自动分离自己的功能，影响了分类器功能，从而使得训练方法的精度降低。

与此同时，神经网络在处理非线性问题方面有着别的方法无法比拟的优势，而预测控制对于具有约束的卡边操作问题具有非常好的针对性，因此将神经网络与预测控制相结合，发挥各自的优势，对非线性、时变、强约束、大滞后工业过程的控制提供了一个很好的解决方法，因此卷积神经网络广泛的应用在预测领域；现有技术中基于卷积神经网络的预测都需要考虑其响应速度和预测结果的置信度，因此对于不同需求的预测要求，会同时存储多个模型的算法，针对不同的响应速度和正确率的需求，更换不同的模型，则会在切换过程中形成真空期，给现实应用带来安全隐患。

发明内容

针对现有技术中存在的问题，本发明提供一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法，设计合理，高效简单，自蒸馏训练的模型更加平坦，对参数的优化更加稳健。

本发明是通过以下技术方案来实现：

一种卷积神经网络的自蒸馏训练方法，包括如下步骤，

步骤1，根据目标卷积神经网络的深度和原始结构，以设定的深度区间将目标卷积神经网络的卷积层划分成n个部分，n为正整数且n≥2，其中第n层为最深层部分，其余层为浅层部分；

步骤2，在每个浅层部分之后分别设置浅层分类器进行分类，最深层部分之后设置最深层分类器进行分类；浅层分类器包括依次设置的瓶颈层、完全连接层和softmax层进行分类，最深层分类器包括依次设置的完全连接层和softmax层进行分类；

所述的浅层分类器的特定特征由如下的注意力模块得到，

AttentionMaps(W_conv,W_deconv,F)＝σ(φ(ψ(F,W_conv)),W_deconv)

其中，ψ和φ分别表示用于下采样的卷积层的卷积函数和用于上采样的反卷积层的反卷积函数，F表示输入特征，σ表示Sigmoid函数，W_conv表示卷积层的权重，W_deconv表示反卷积层的权重；

步骤3，在训练时，最深层部分被视为教师模型，所有带有对应分类器的浅层部分都通过从最深层部分蒸馏而被训练为学生模型，从而实现卷积神经网络的自蒸馏训练。

优选的，步骤3中，在训练时，引入如下三种损失提高学生模型的性能；

引入来自标签的交叉熵损失；根据来自训练数据集的标签和每个分类器的softmax层的输出计算得到交叉熵损失，将其引入到所有分类器中；

引入教师模型指导下的KL散度损失；根据每个学生模型和教师模型之间的softmax层输出来计算KL散度，将其对应引入到每个浅层分类器的softmax层；

引入来自提示的L2损失；通过计算最深层分类器和每个浅层分类器的特征图之间的L2损失，将其对应引入到每个浅层分类器瓶颈层。

进一步，具体的，引入来自标签的交叉熵损失由如下公式得到，

(1-α)·Cross Entropy(qⁱ，y)

其中，qⁱ表示每个分类器θ_i/C的softmax层的输出；训练集为给定来自M个类别的N个样本将对应的标签集表示为y_i∈{1,2,...,M}；α为控制KL散度损失函数比例的超参数，KL为Kullback-Leibler散度，最深层分类器的α为零，CrossEntropy为交叉熵函数。

进一步，具体的，引入教师模型指导下的KL散度损失由如下公式得到，

α·KL(qⁱ，q^C)

其中，α为控制KL散度损失函数比例的超参数，KL为Kullback-Leibler散度，qⁱ表示每个分类器θ_i/C的softmax层的输出，q^C为最深层分类器θ_C的softmax层的输出，最深层分类器的α为零。

进一步，具体的，引入来自提示的L2损失由如下公式得到，

其中，F_i和F_C分别表示每个分类器θ_i/C中的特征和最深层分类器θ_C中的特征，λ为控制特征损失函数比例的超参数，最深层分类器的λ为零。

进一步，训练时，整个卷积神经网络的损失函数由每个分类器的损失函数组成，由下式表示，

其中，qⁱ表示每个分类器θ_i/C的softmax层的输出；训练集为给定来自M个类别的N个样本将对应的标签集表示为y_i∈{1,2,...,M}；Cross Entropy为交叉熵函数；KL为Kullback-Leibler散度；q^C为最深层分类器θ_C的softmax层的输出；F_i和F_C分别表示每个分类器θ_i/C中的特征和最深层分类器θ_C中的特征，α和λ为控制KL散度损失函数与特征损失函数比例的超参数，用于最深层分类器的α和λ为零。

优选的，包括依次设置的瓶颈层、完全连接层和softmax层的浅层分类器能够在推理中移除。

一种卷积神经网络的可伸缩动态预测方法，所述的卷积神经网络为由上述任意一项所述的自蒸馏训练方法得到可伸缩卷积神经网络，其可伸缩动态预测方法包括如下步骤，

步骤1，分别设定所有浅层分类器和最深层分类器的阈值；

步骤2，根据深度从浅到深，对每一层分类器预测结果的置信度和阈值进行判断；若当前层的分类器预测结果的置信度大于当前层的分类器阈值，则认为当前层的分类器预测成功；否则，将由更深层的分类器继续预测，直到最后一层的分类器；随着深度的增加，预测正确率逐层提高；

步骤3，在满足预测置信度的要求下，根据预测需求选取最浅层的预测结果或者最优正确率的预测结果作为可伸缩动态预测的输出。

优选的，步骤1中，通过遗传算法对每一层分类器的阈值进行优化搜索；优化目标为快速的卷积神经网络模型响应速度和较高的预测正确率，优化解为可伸缩的卷积神经网络中浅层分类器对应的阈值；

步骤1.1，通过定义遗传算法中的基因到阈值的如下解码关系，对基因与阈值的相互映射关系进行定义；

其中，τ为阈值的下界，S(n)表示基因序列中第n位的值，σ表示第i个基因对应的阈值，N表示基因序列的长度；在基因序列中，“1”的数量越多，则阈值越低；

步骤1.2，根据可伸缩卷积神经网络的加速比与预测正确率得到如下的环境适宜度；

fitness＝acceleration ratio+γ·(accuracy-baseline)

其中，fitness表示每个基因对应的环境适宜度；acceleration ratio为加速比，表示可伸缩动态预测的预测响应速度与原可伸缩卷积神经网络的预测响应速度的比；accuracy与baseline分别表示可伸缩动态预测的预测正确率与原可伸缩卷积神经网络的预测正确率；γ是响应加速与预测正确率的平衡因子；

步骤1.3，根据以上定义，使用遗传算法对于阈值进行搜索；

首先，对于表示阈值的基因进行随机初始化；

其次，计算所有基因对于环境的适宜程度；将适宜程度高的基因以较大几率保留，对于适宜程度低的基因以交叉几率淘汰；

然后，将保留后的基因两两配对，得到新型的基因；

迭代地进行以上过程，最终得到的对于环境适宜度最高的基因所表示的阈值，即为优化搜索后的阈值。

优选的，当最深层分类器的预测结果优于多个分类器模型集成的时候，仅对前三个浅层分类器设置阈值，以最深层分类器的的预测结果作为最终结果。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种卷积神经网络的自蒸馏训练方法，通过使卷积神经网络的尺寸缩小而不是使网络的尺寸扩大来显著增强卷积神经网络的性能，即提高精度。不同于传统知识蒸馏——是一种网络之间的知识转移方法，其促使学生神经网络逼近预训练的教师神经网络的softmax层输出，这里提出的自蒸馏框架在网络自身内蒸馏知识。网络首先被划分为几个部分。然后，网络的较深部分中的知识被挤入浅层部分中。在不以响应时间为代价的情况下，自蒸馏大幅度地提高了卷积神经网络的性能，获得了平均2.65％的精度提升；对于不同数据集精度提升的范围为，从对数据集ResNeXt中0.61％的精度提升作为最小值到VGG19中4.07％的精度提升作为最大值。再配合注意力层对浅层分类器特征的强化提取，使得浅层分类器的精度显著提高，从而能够将一个有多个输出的卷积神经网络视为多个卷积神经网络，根据不同的需求，对每个浅层分类器的输出加以利用。

本发明所述的可伸缩动态预测方法，在上述每个浅层分类器输出可用的基础上，通过合理的调整阈值，就可以动态地调整预测正确率和响应速度之间的折中平衡，高效率地调度网络中的多个分类器；能够在部署状态下动态调节模型反应速度的能力，极大的提高了卷积神经网络在预测应用上的灵活性；在切换模型时仅需要修改阈值而无需更换模型，可以避免切换过程中模型的真空期，给现实应用带来安全上的保障。

进一步的，可伸缩动态预测中以遗传算法实现了自动化的阈值搜索，进一步提高了神经网络的加速效果，从而实现了加速与正确率的协同提高。

附图说明

图1为针对CIFAR100数据集，传统蒸馏和本发明蒸馏之间训练复杂性、训练时间和精度的对比示意图。

图2为本发明实例中所述的针对ResNet的自蒸馏方法示意图。

图3为本发明实例中所述利用不同方法训练的分类器的精度。

图4为本发明实例中所述可伸缩网络运算量与正确率关系图。

图5为本发明实例中所述可伸缩网络参数量与正确率关系图。

图6为本发明实例中所述可伸缩动态预测方法中，可伸缩动态预测加速比与正确率关系图。

图7为本发明实例中所述可伸缩神经网络中不同分类器的注意力图可视化结果。

图8为本发明实例中所述预测方法在不同数据集上得到的每个分类器完成的分类数量示意图。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

如图1所示，本发明提出了一种卷积神经网络的自蒸馏训练方法，在训练紧凑模型时能够实现尽可能高的精度并克服传统蒸馏的缺点。取代在传统蒸馏中实施两步，即，第一步训练大的教师模型，以及第二步将知识从教师模型蒸馏到学生模型；本发明方法所提供的一步自蒸馏框架，其训练直接指向学生模型。所提出的自蒸馏不仅只需要较少的训练时间(在CIFAR100上从26.98小时到5.87小时，训练时间缩短了4.6倍)，而且还可以实现更高的精度(在ResNet50上从传统蒸馏中的79.33％到81.04％)。本发明中为了能更好的在现实的应用场景中使用，通过更好的提高浅层分类器的精度来增强其性能。

如图3所示，提供了在CIFAR100上的ResNet50中训练浅层分类器的四种方法的精度比较。X轴是分类器的深度，其中x＝5指示所有分类器的集成，并且Y轴表示在CIFAR100上的Top-1正确率。观察可见，随着神经网络变浅，分类器的预测正确率迅速降低。其中，最浅层分类器与次浅层分类器分别降低13％与8％。尽管自蒸馏算法虽然已经较深度监督算法、单独训练方法有了明显提升，但仍无法满足实际应用的需求。除此之外，在第三个分类器的实验结果中，单独训练的网络正确率要优于自蒸馏算法和深度监督算法，这说明在后者对应的共享主干网络的结构中，不同分类器之间相互之间存在着消极的相互作用。由于主干网络所能获取的特征受网络频道数量的限制，不同分类器对应的特征混淆在一起。对于每一个分类器而言，自动地从混合后特征中分离属于其自己特征几乎是不可能的。

为了解决这一问题并进一步增强浅层分类器的性能，利用注意力层来从共享骨干神经网络获得特定分类器的特征，使每个分类器可以学习到如何从主干网络中获取自己需要的特征。

为保证注意力层不会带来额外的计算、存储代价，我们提出了一个简化的注意力层，其包括一个用于下采样的卷积层和一个用于上采样的反卷积层，在注意力层之后附接S形激励以便获得0和1之间的注意力图。然后，使注意力图与原始特征进行点积运算，从而产生分类器特定的特征。它的正演计算可以被公式化为：

AttentionMaps(W_conv,W_deconv,F)＝σ(φ(ψ(F,W_conv)),W_deconv)

其中，ψ和φ分别表示卷积函数和反卷积函数，F表示输入特征，σ表示S形函数。注意，这里省略了卷积和反卷积层之后的批量归一化和ReLU激励函数。

实验结果表明，如图2所示，SCAN中的注意力层在浅层分类器中实现了显著的精度提升。例如，与无注意力层的自蒸馏相比，在CIFAR100上的ResNet50中的浅层分类器上可以观察到5.46％、4.13％和5.16％的精度增益。

可伸缩神经网络通过注意力层使不同分类器从主干网络中提取适合的特征，极大地提高了浅层神经网络预测的正确率。因此，通过可视化注意力层输出的注意力图，即可观测神经网络选择特征的过程。图7展示了对于两张图像，注意力层输出的结果。其中，最左侧的图片为输入的图像。右侧的六张图像中，从左向右分别表示从浅到深三个分类器注意力层输出的结果。第一行的图片表示注意力图的热力图表示，第二行的图片表示以注意力图为掩码进行点乘操作后的输入图像。

注意力的位置：热力图中，鲨鱼和猫所在的位置的值更高，这说明不同的分类器均将主要的注意力置于输入图片中信息最重要的位置，即鲨鱼和猫的身体，而忽略了背景或其他不相关的元素。这说明即使是浅层分类器，同样有着可以判断每个像素重要性的能力。

注意力的粒度：不同分类器的注意力同样有所区别。如图7所示，浅层分类器的注意力更关注于鲨鱼、猫的轮廓，即更关注局部信息、高频信息。而深层分类器的注意力则更关注其身体、纹理，即更关注全局信息，低频信息。这一规律鱼神经网络中信息处理的机制是符合的。随着网络变深，神经网络的感受野不断变大，这赋予了深层分类器注意力层关注全局特征的能力。

作为基础，本发明中如在图2中描绘的自蒸馏方法。通过如下步骤进行自蒸馏训练，构建自蒸馏框架：首先，根据目标卷积神经网络的深度和原始结构，将目标卷积神经网络划分成几个浅层部分。例如，根据ResBlocks，将ResNet50划分成4个部分。其次，在每个浅层部分之后设置分类器，该分类器与仅在训练中使用并且可以在推理中移除的瓶颈层和完全连接层相结合。添加瓶颈层的主要考虑是减轻每个浅层分类器之间的影响，并添加来自提示的L2损失。在训练时段期间，所有带有对应分类器的浅层部分都通过从最深部分蒸馏而被训练为学生模型，这可以在概念上被视为教师模型。

如图2所示，以ResNet为例，ResNet已被根据深度划分成四个部分，在构建多个分类器的每个部分之后设置额外的瓶颈层和完全连接层；在不同精度和相应时间的情况下，能够独立的利用所有分类器；如图2所示，在三种监督下训练每个分类器，并且在推理中能够移除虚线下面的部分，所述的三种监督分别为对应损失源1的来自标签的监督，对应损失源2的来自蒸馏的监督，以及对应损失源3来自提示的监督，其对应的参与流向如图所示。

为了提高学生模型的性能，在训练过程期间引入了三种损失：

损失源1：来自标签的交叉熵损失，对于不仅是最深层分类器，而且是所有浅层分类器。它是使用来自训练数据集的标签和每个分类器的softmax层的输出而计算的。通过这种方式，直接将隐藏在训练数据集中的知识从标签引入到所有分类器。

损失源2：教师模型指导下的KL(Kullback-Leibler)散度损失。使用学生模型和教师模型之间的softmax层输出来计算KL散度，并将其引入到每个浅层分类器的softmax层。通过引入KL散度，自蒸馏框架影响教师网络模型，并且能够将其最深层分类器传递到每个浅层分类器。

损失源3：来自提示的L2损失。它可以通过计算最深层分类器和每个浅层分类器的特征图之间的L2损失来获得。借助于L2损失，将特征图中的不明确知识引入每个浅层分类器的瓶颈层，这会诱导它们的瓶颈层中的所有分类器特征图适应最深层分类器的特征图。

为此，仅在训练期间应用所有新添加的层，如图2中虚线下方的部分。它们在推理期间不施加任何影响。在推理期间添加这些部分为能量受约束的边缘设备的动态推理提供了另一种选项。

具体的，本发明所述的自蒸馏方法的具体计算如下。

给定来自M个类别的N个样本我们将对应的标签集表示为y_i∈{1,2,...,M}。被训练的卷积神经网络中的分类器，也就是所提出的自蒸馏在整个网络内具有多个分类器被表示为其中C表示卷积神经网络中的分类器的数目。并在每个分类器之后设置softmax层。

其中，是第C个分类器完全连接层在第i个类别(FC)的输出。q_i ^c∈R^M是分类器θ_i/C的第i类概率。T表示蒸馏的温度超参数，通常被设置为1。其值越大，则得到的预测概率分布更平缓。

对上述的神经网络进行自蒸馏训练，除了最深层分类器θ_C之外的每个分类器θ_i/C的监督来自三个源。使用两个超参数α和λ来使它们平衡，α和λ为控制KL散度损失函数与特征损失函数比例的超参数，用于最深层分类器的α和λ为零。

(1-α)·Cross Entropy(qⁱ，y) (2)

如式(2)，第一个源是利用qⁱ和标签Y计算的交叉熵损失。其中，qⁱ表示每个分类器θ_i/C的softmax层的输出，CrossEntropy为交叉熵函数。

α·KL(qⁱ，q^C) (3)

如上式(3)，第二个源是qⁱ和q^C之间的Kullback-Leibler散度。我们的目的是使浅层分类器逼近最深层分类器，这表明了来自蒸馏的监督。qⁱ表示每个分类器θ_i/C的softmax层的输出；q^C意指最深层分类器的softmax层的输出，α为控制KL散度损失函数比例的超参数，KL为Kullback-Leibler散度。

如上式(4)，最后的监督来自最深层分类器的提示。提示被定义为教师模型隐藏层的输出，其目的是指导学生模型的学习。它通过减小浅层分类器中的特征图和最深层分类器中的特征图之间的距离来工作。但是，由于不同深度的特征图具有不同的大小，因此应该添加额外的层以将它们对齐。取代使用卷积层，本发发明使用瓶颈架构，其显示了对模型性能的积极效果。F_i和F_C分别表示分类器θ_i/C中的特征和最深层分类器θ_C中的特征。

综上所述，整个神经网络的损失函数由每个分类器的损失函数组成，它可以被写为：

本发明提出的一种卷积神经网络的自蒸馏训练方法，通过将其与深度监督网以及先前的蒸馏方法进行比较来显示其优势。本发明放弃了先前蒸馏方法中所需的额外教师模型，并为运行时的时间-精度折衷提供了自适应深度架构。具体的通过五种卷积神经网络和两种数据集上的实验效果如下。

我们对五个卷积神经网络(ResNet、WideResNet、Pyramid ResNet、ResNeXt、VGG)和两个数据集(CIFAR100、ImageNet)评估了自蒸馏。在训练过程期间使用学习率衰减、L2正则化器和简单数据论证。所有实验都是由GPU设备上的PyTorch来实现的。

1.1.基准数据集

CIFAR100：CIFAR100数据集由小型(32x32像素)RGB图像组成，具有100个类别，并且在训练集中包含50K图像且在测试集中包含10K图像。调整神经网络的核大小和步长以适应小型图像的大小。

ImageNet：ImageNet2012分类数据集由根据WordNet的1000个类别组成。每个类别都由数千个图像来描绘。我们将它们的大小调整为256x256像素的RGB图像。注意，所报告的ImageNet的精度是在验证集上计算的。

1.2.与标准训练的比较

在表1和表2中分别显示在CIFAR100和ImageNet上的实验结果。通过简单地将softmax层的加权输出添加到每个分类器中来获得集成结果。观察到(i)所有神经网络均显著受益于自蒸馏，在CIFAR100中平均具有2.65％的增加，以及在ImageNet中平均具有2.02％的增加。(ii)神经网络越深，它们就获取越多的性能提高，例如ResNet101中4.05％的增加，以及ResNet18中2.58％的增加。(iii)一般来说，对CIFAR100来说朴素集成有效地工作，但对ImageNet影响较小且有时会产生负面影响，这可能是由于与CIFAR100相比，浅层分类器的精度下降较大导致的。(iv)分类器的深度在ImageNet中起着更为关键的作用，这表明在复杂任务中神经网络中的冗余较少。

表1 自蒸馏算法在CIFAR100数据集上不同分类器正确率表。

表2 自蒸馏算法在ImageNet数据集上不同分类器正确率表。

1.3.与蒸馏的比较

表3比较了关于CIFAR100数据集而言自蒸馏的结果与五种传统蒸馏方法的结果。在这里，我们将注意力放在当学生模型具有相同的计算和存储量时每种方法的精度提升。从表3中，我们得出以下观察结果：(i)蒸馏方法的所有性能都优于直接训练的学生网络。(ii)虽然自蒸馏不具有额外的教师，但它仍然优于大多数其余的蒸馏方法。

自蒸馏框架的一个显著优点是它不需要额外的教师。相比之下，传统蒸馏首先需要设计和训练过度参数化的教师模型。设计高质量的教师模型需要大量的实验才能找到最佳的深度和架构。此外，训练过度参数化的教师模型需要长得多的时间。在自蒸馏中可以直接避免这些问题，这里教师模型和学生模型二者都是其自身的子部分。如图1中所描绘的，与其他蒸馏方法相比，可以通过自蒸馏来实现训练时间的4.6倍加速。

表3 自蒸馏算法于传统蒸馏算法正确率对比表

1.4.与深度监督网的比较

深度监督网和自蒸馏之间的主要区别在于，自蒸馏从最深层分类器的蒸馏来训练浅层分类器，而不是从标签来训练浅层分类器。优势可以在实验中看到，如表4中所示，表4比较了在CIFAR100上通过深度监督或自蒸馏而训练的ResNet中的每个分类器的精度。观察结果可以归纳如下：(i)在每个分类器中自蒸馏优于深度监督。(ii)浅层分类器从自蒸馏中获益更多。

表4 CIFAR100数据集上本文所提出方法与深度监督算法的比较。

这种现象的原因很容易理解。在自蒸馏中，(i)添加额外的瓶颈层以检测分类器专属特征，从而避免浅层分类器和最深层分类器之间的冲突。(ii)不是用标签而是已经用蒸馏方法训练浅层分类器来提升性能。(iii)更好的浅层分类器可以获得更多的区别特征，这反过来会增强更深层分类器的性能。

1.5.本发明训练的卷积神经网络，仅在训练期间应用所有新添加的层(图2中虚线下方的部分)。它们在推理期间不施加任何影响。在推理期间添加这些部分为能量受约束的边缘设备的动态推理提供了另一种选项。能够用于适应推理的可扩展深度。

现有技术中，用来加速卷积神经网络的流行解决方案是设计一种可扩展的网络，这意味着神经网络的深度或宽度可以根据应用需求来动态变化。例如，在响应时间比精度更重要的场景中，可以在运行时放弃某些层或通道以进行加速。

在利用共享骨干网络的情况下，推理中的自适应精度-加速折衷在资源受限的边缘设备上变得可能，这意味着可以根据现实世界中的动态精度要求来自动地在应用中使用不同深度的分类器。如可以在表5中观察到：(i)通过分类器3/4，四个神经网络中的三个优于其基线，其中加速比平均为1.2倍。在使用分类器2/4时，在精度损失为3.3％的情况下可以实现3.16倍的加速比。(ii)由于不同的分类器共享一个骨干网络，所以最深层的三个分类器的集成可以在仅有0.05％的计算代价的情况下使精度的平均水平提高0.67％。

表5 CIFAR100数据集上本文所提出方法与深度监督算法的比较。

在通过与其他方法对比，分析得到自蒸馏方法的优势后，再从自蒸馏方法本身对其进行进一步的分析。以下从平坦最小值、梯度和区别特征的角度分析自蒸馏方法的优势原理。

本发明的自蒸馏方法是一种提升模型性能的训练技术，而不是用来压缩或加速模型的方法。不同于以前的大多数研究都侧重于不同模型之间的知识转移，本发明提供的自蒸馏是在一个模型内部的知识转移方法，应用前景广阔。本发明所述的自蒸馏方法可以帮助被训练模型即卷积神经网络收敛到固有地具有普适性特征的平坦最小值。自蒸馏能够防止模型碰到消失梯度问题。在自蒸馏中使用更深的分类器来提取更多区别特征。

在上述的自蒸馏训练的卷积神经网络基础上，通过对阈值的控制，实现可伸缩的动态预测方法。

深度神经网络预测结果的置信度(softmax层输出的最大值)越高，其预测的结果正确的可能性越高。本发明提出一种卷积神经网络的可伸缩动态预测方法，先使得每一个分类器均有一个对应的阈值。若当前分类器预测结果的置信度大于该阈值，则认为该分类器预测成功。否则，将由更深的分类器继续预测，直到最后一个分类器。当深层分类器的预测结果优于多个分类器Ensemble的时候，可伸缩动态预测机制仅对前三个浅层网络设置阈值，以深层分类器的预测作为最终结果。由于绝大多数浅层分类器的计算均是深层分类器计算的一部分，这样逐渐加深的动态预测几乎不会带来额外的计算量。

然而，基于阈值控制的可伸缩动态预测又引入了另外一个问题，即如何为不同分类器选择合适的阈值。合适的阈值至关重要：(一)一个较低的阈值会使大部分的预测由浅层分类器完成，可以有效降低响应时间，但同时也导致预测的正确率降低。(二)同理，较高的阈值会使绝大多数的预测由深层分类器完成，可以取得较高的预测正确率，但同时会导致响应时间较长。(三)通过合理的调整阈值，就可以动态地调整预测正确率和响应速度之间的折中平衡。为进一步挖掘加速与正确率提高的空间，本发明进一步使用遗传算法对阈值进行优化搜索。

遗传算法通过模拟不同生物个体在自然界中生存、淘汰、繁衍的行为，获得对于制定优化目标的最优解或最优解的近似。其主要流程包括：(一)初始化基因，即随机产生一定量的拥有不同基因的个体，作为第一代的生物。(二)计算环境适宜度，即对于每一个生物个体，计算由其基因决定的对于环境的适宜程度，这一计算过程由优化的目标决定。(三)淘汰，即根据上一步计算的结果淘汰对于环境不适宜的生物个体。(四)交叉配对，即将淘汰后的生物个体基因进行交叉配对，模拟生物繁殖的过程，获取下一代个体。(五)基因突变，即对于未淘汰个体的基因与新生个体的基因，由一定几率进行变化，以防止优化过程陷入局部最优点。通过多次迭代进行以上流程，遗传算法即可找到针对于优化目标的最优或较优解。

在可伸缩网络中，阈值搜索问题被建模成遗传算法解决的优化问题，优化目标为快速的神经网络模型响应速度和较高的预测正确率，优化解为可伸缩网络中浅层分类器对应的阈值。在使用遗传算法解决阈值搜索问题的过程中，需要对于基因与阈值的相互映射关系进行定义，同时根据可伸缩网络的加速比与正确率求解环境适宜度。

定义遗传算法中的基因到阈值的解码关系。遗传算法中的基因是一个二值的代码序列。在遗传算法迭代的过程中，需要将对基因进行解码获得对应的阈值，以计算该基因对于环境的适应程度。为了避免阈值太小导致正确率过低的现象，阈值的下界被设置为0.70。其解码关系可以如下所示。

其中，S(n)表示基因序列中第n位的值，σ表示第i个基因对应的阈值。N表示基因序列的长度。在基因序列中，“1”的数量越多，则阈值越低。

定义遗传算法中基因对于环境适宜程度的衡量方法。由于该算法的目标包括响应速度与预测正确率两项，其环境适宜度的定义中也应同时包含这两个指标，如下式所示。

fitness＝acceleration ratio+γ·(accuracy-baseline)

其中，fitness表示每个基因对应的环境适宜度；acceleration ratio为加速比，表示可伸缩动态预测的预测响应速度与原可伸缩卷积神经网络的预测响应速度的比，动态可伸缩预测带来的加速效果。accuracy与baseline分别表示可伸缩动态预测的预测响应速度与原可伸缩卷积神经网络的预测正确率。γ是一个响应加速与预测正确率的平衡因子。通过动态的调整γ，就可以获得不同加速比，不同正确率的多个阈值方案。

可伸缩动态预测方法所带来的收益不仅是与静态加速相比更高的加速效果，更在于它提供了一种可以在部署状态下动态调节模型反应速度的能力，这对于应用的灵活性至关重要。例如，在无人驾驶应用中，当无人车时速较高时，模型可以使用较低的阈值以保证对于更高的处理帧率。而在无人车时速较低时，模型可以使用较高的阈值获得最优的预测正确率。与传统的同时存储多个模型的算法相比，本方法在切换模型时仅需要修改阈值而无需更换模型，可以避免切换过程中模型的真空期，给现实应用带来安全上的保障。

与静态加速的方法相比，可伸缩动态预测方法不仅加速比更高，同时更具有可靠性。对于压缩后神经网络模型正确率的要求往往是神经网络压缩算法最重要的评价标准之一。然而，神经网络压缩、加速的同时往往伴随着正确率的降低。这样的结果在一些安全相关的应用场景中是无法接受的，如无人驾驶、安防系统等等。可伸缩动态预测方法中，即使所有浅层分类器的正确率都低于原可伸缩卷积神经网络模型，仍可以通过较低的阈值实现合理的分类器调度，维持神经网络原正确率。

本发明所述的卷积神经网络的可伸缩动态预测方法在CIFAR100数据集上的实验结果。如图4和图5所示，在CIFAR100数据集上7种不同深度神经网络计算量、参数量与预测正确率的关系。其中，横轴表示深度神经网络预测需要进行的乘加运算数量，纵轴表示其预测正确率。每一种灰度的虚线和点对应同一种深度神经网络。在虚线上的相同形状的标记点表示同一可伸缩网络四个(或三个)深度分类器的实验结果，虚线外的相同形状的标记点表示未使用可伸缩网络的原模型实验得到的对比结果。

由此可见，在CIFARA100数据集上：

(一)在所有情况下，可伸缩卷积神经网络的第二个浅层分类器均可以在预测正确率上超过原模型。(二)在不损失任何正确率的情况下，静态运行的可伸缩网络可以实现2.17倍的加速与3.20倍的压缩效果。(三)与原模型的对比试验结果相比，平均每种神经网络以仅4.4％的额外计算为代价提高了4.05％的预测正确率。(四)所有模型的集成预测结果较最深层分类器可以提高1.11％的正确率。(五)在同一个深度神经网络中，与深层分类器相比，浅层分类器上的正确率提高等多，这主要是由浅层分类中的注意力层带来的。(六)整体来看，神经网络越深，则其性能提升越大。

同时的，由表6中可伸缩卷积神经网络在CIFAR100数据集上不同分类器正确率表能够得到；在CIFAR100实验中，每个网络不同分类器的正确率，作为对图4和图5分析结果的数值补充。

表6 可伸缩神经网络在CIFAR100数据集上不同分类器正确率表

由表6可得，(一)在所有网络结构的实验中，即使是可伸缩神经网络中最浅层的分类器，也已经非常接近原模型的精度。平均而言，每种网络的最浅层分类器比原模型低2.8％，其中差距最大时在ResNet18中低5.25％，差距最小时在WRN44-8仅低0.19％。(二)在所有网络结构的实验中，可伸缩神经网络中次浅层的分类器就可以超过原模型的效果。平均而言，每种网络的次浅层分类器比原模型高1.8％，在WRN44-8上提升2.52％，效果最明显，在ResNet18上提升效果最小，达0.65％。(三)在所有网络结构的实验中，整体来说，可伸缩神经网络中的分类器越深其正确率越高。这种增强趋势在最浅层的分类器与次浅层分类器中表现最为明显。例如，ResNet18的前两个浅层分类器有5％以上的正确率差异。而次深层分类器与深层分类器的正确率相差无几，在部分情况下(ResNet152)，甚至出现次深层的分类器正确率高于最深层的分类器的情况。这一现象可能是由CIFAR100数据集分类任务较为简单导致的。(五)通过简单的对于多个分类器的预测结果进行集成，可伸缩网络实现了1％以上的正确率提升。(六)从静态压缩、加速的角度看，使用可伸缩神经网络训练得到的ResNet18网络正确率已经超过传统方法训练得到的ResNet152网络。在应用场景中，使用ResNet18模型替换ResNet152模型，即可实现5.33倍的参数压缩与6.27倍的加速。

表7中展示了可伸缩卷积神经网络在CIFAR10数据集上的实验结果，其整体趋势与CIFAR100相同，可以看到所有卷积神经网络均可以实现明显的正确率提升，所有进行实验的网络结构中，平均提高0.98％，最高时在VGG16(BN)上提高了1.28％，最低时在ResNet18上提高了0.71％。

CIFAR10数据集中正确率提升的绝对值较CIFAR100数据上的结果略低，导致这一现象的主要原因是原网络CIFAR10的正确率已经很高。即由于传统方法训练得到的神经网络已经可以取得较高的预测正确率，导致进一步的提高正确率的难度与CIFAR100数据集相比更大。

表7 可伸缩卷积神经网络在CIFAR10数据集上不同分类器正确率表。

表8展示了在ImageNet数据集上三种不同深度的ResNet网络里每个分类器的正确率。其趋势与CIFAR100上的结果大致相同，但仍有以下区别：

(一)平均而言，每个网络可以提高1.26％的预测正确率，效果最明显时在ResNet50上提高1.41％，最不明显时在ResNet101上提高1.08％，这一结果要差于在CIFAR100数据集上的结果。

(二)与CIFAR100上的实验结果不同，ImageNet数据集上随着神经网络分类器位置变深，其正确率会有非常大的变化。在进行实验的三种神经网络中，深层的分类器预测正确率均显著高于浅层分类器。这说明在ImageNet数据集中神经网络的深度至关重要，其参数的冗余性远小于在CIFAR10与CIFAR100数据集上训练的神经网络。这一现象极有可能是ImageNet分类的难度更高导致的。

(三)尽管最深分类器的正确率与原模型相比有所提高，但是所有的浅层分类器正确率都无法超过原模型。这一现象导致简单的使用浅层分类器替换原模型在带来加速和压缩效果的同时无法维持原模型的正确率。因此，直接用小模型替换大模型的神经网络静态压缩、加速方法在ImageNet数据集上无法使用。本文提出的可伸缩动态预测方法则通过多个分类器的合理调度解决了这一问题。

ImageNet数据集的实验结果中浅层分类器的正确率无法超过原模型，这导致在CIFAR100、CIFAR10数据集中使用的模型集成的方法并不能带来额外的正确率提升。实验结果显示，即使使用更加复杂的模型集成方式，如加权集成算法也无法对于分类正确率产生收益，因此在表8将其结果略去。

表8 可伸缩网络在ImageNet数据集上不同分类器正确率表

如图6所示，展示了在CIFAR100和ImageNet上使用不同的阈值方案时在动态可伸缩预测得到的各神经网络的正确率、加速比的关系。其中，横轴表示模型的加速比，纵轴表示模型的预测正确率。相同颜色的点表示同一种网络、同一种数据集下的实验结果。在x>1范围内的正方形表示搜索到的阈值方案对应的实验结果。在x＝1直线上的三角形表示原模型的实验结果。

由图6可知：(一)CIFAR100数据集上，在不损失正确率的前提下，ResNet18、ResNet50、ResNet152分别可以实现2.5倍，4.4倍、6.2倍左右的加速。这一结果明显优于通过简单分类器替换实现的静态加速效果。(二)ImageNet数据集上，在不损失正确率的前提下，ResNet50与ResNet101分别可以实现1.5，2.5倍的加速效果。(三)在同一种数据集上，神经网络越深其加速效果越明显。例如，在ImageNet数据集上，ResNet101的加速效果明显优于ResNet50。在CIFAR100数据集上，ResNet152的加速效果优于ResNet50，ResNet50的加速效果优于ResNet18。(四)观察每一条曲线的变化趋势，其加速比与正确率呈现明显的负相关关系。从其导数关系观察，随着加速比的上升，正确率下降的速度同样也有所提高。这一现象是由阈值控制的缺陷导致的。实验发现，尽管阈值控制的动态可伸缩预测方式不需要额外的计算，但是在阈值较低的情况下会产生判断失控的情况，即部分决策虽然高于阈值，但是最终分类结果错误，导致整体模型正确率较低。

本发明所述的预测方法，最终的加速效果是直接取决于可伸缩神经网络中每个分类器完成的分类数量。如果大量分类决策由浅层分类器完成，则整个神经网络的加速效果会非常明显。倘若大量分类决策由深层分类器完成，则系统的反应速度与原网络几乎相同。通过统计不同深度分类器的决策数量，就可以对系统的加速效果得到准确的认知。

如图8所示，在保持相同阈值方案相同神经网络(ResNet50)的前提下，四个分类器在不同数据集上的预测表现。其中。横轴的1/4到4/4分别表示从浅到深的四个分类器，纵轴的数值表示该分类器进行的预测次数占总次数的比例。

由图8可知，在CIFAR10与CIFAR100数据集中，60％以上的图像可以由最浅层的分类器完成预测，90％以上的图像分类可以由前两层分类器完成，这与实验结果中CIFAR数据集上较高的加速比是一致的。而在ImageNet数据集中，仅有20％的图像可以由最浅层分类器完成预测，接近一半数量的图像必须由较深的两个分类器进行分类，这导致了ImageNet数据集上相对不明显的加速效果。以上结论为深度可伸缩网络提供了两个潜在的应用：1、衡量神经网络的冗余性。2、衡量不同数据集的难度。

首先，不同分类器在同一数据集中进行预测的次数，可以判断不同网络层中的冗余性。例如，在CIFAR10与CIFAR100的统计结果中，次深层的分类器和最深层分类器完成的预测数量接近于零，这说明这两个分类器所在的神经网络部分在整体分类中所起作用较小，有较高的冗余性。适宜继续通过剪枝、量化等算法进行压缩。而前两个浅层分类器预测数量之和接近于百分之百，说明这两个分类器所在的神经网络部分在分类任务中作用极大，冗余性较小，不适宜继续进行更高程度的压缩或加速。

其次，不同分类器在不同数据集中进行预测的次数，可以作为不同数据集难易程度的衡量标准。比较不同数据集难易程度最简单的方法是直接比较相同网络在各个数据集上能取得的预测正确率。然而，分类任务的正确率同样受类别数量的影响。不同数据集中类别的数量不同，这种衡量的方式会受此影响，进而低估少类别分类任务的难度。深度可伸缩则提供了另外一种思路，即通过比较由浅层分类器进行分类的样本数量，比较不同数据集的难度。

Claims

1.一种卷积神经网络的自蒸馏训练方法，其特征在于，包括如下步骤，

所述的浅层分类器的特定特征由如下的注意力模块得到，

Attention Maps(W_conv,W_deconv,F)＝σ(φ(ψ(F,W_conv)),W_deconv)

2.根据权利要求1所述的一种卷积神经网络的自蒸馏训练方法，其特征在于，步骤3中，在训练时，引入如下三种损失提高学生模型的性能；

3.根据权利要求2所述的一种卷积神经网络的自蒸馏训练方法，其特征在于，具体的，引入来自标签的交叉熵损失由如下公式得到，

(1-α)·Cross Entropy(qⁱ，y)

4.根据权利要求2所述的一种卷积神经网络的自蒸馏训练方法，其特征在于，具体的，引入教师模型指导下的KL散度损失由如下公式得到，

α·KL(qⁱ，q^C)

5.根据权利要求2所述的一种卷积神经网络的自蒸馏训练方法，其特征在于，具体的，引入来自提示的L2损失由如下公式得到，

6.根据权利要求2所述的一种卷积神经网络的自蒸馏训练方法，其特征在于，训练时，整个卷积神经网络的损失函数由每个分类器的损失函数组成，由下式表示，

7.根据权利要求1所述的一种卷积神经网络的自蒸馏训练方法，其特征在于，包括依次设置的瓶颈层、完全连接层和softmax层的浅层分类器能够在推理中移除。

8.一种卷积神经网络的可伸缩动态预测方法，其特征在于，所述的卷积神经网络为由权利要去1-7任意一项所述的自蒸馏训练方法得到可伸缩卷积神经网络，其可伸缩动态预测方法包括如下步骤，

步骤1，分别设定所有浅层分类器和最深层分类器的阈值；

9.根据权利要求8所述的一种卷积神经网络的可伸缩动态预测方法，其特征在于，步骤1中，通过遗传算法对每一层分类器的阈值进行优化搜索；优化目标为快速的卷积神经网络模型响应速度和较高的预测正确率，优化解为可伸缩的卷积神经网络中浅层分类器对应的阈值；

fitness＝acceleration ratio+γ·(accuracy-baseline)

步骤1.3，根据以上定义，使用遗传算法对于阈值进行搜索；

首先，对于表示阈值的基因进行随机初始化；

然后，将保留后的基因两两配对，得到新型的基因；

10.根据权利要求8所述的一种卷积神经网络的可伸缩动态预测方法，其特征在于，当最深层分类器的预测结果优于多个分类器模型集成的时候，仅对前三个浅层分类器设置阈值，以最深层分类器的的预测结果作为最终结果。