CN112132268A

CN112132268A - 任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质

Info

Publication number: CN112132268A
Application number: CN202011030206.0A
Authority: CN
Inventors: 马恺声; 张林峰
Original assignee: Cross Information Core Technology Research Institute Xi'an Co ltd
Current assignee: Cross Information Core Technology Research Institute Xi'an Co ltd; Tsinghua University
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2020-12-25

Abstract

本发明一种任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质，以数据驱动方式进行特征蒸馏，稳定有效，能够显著提升蒸馏训练的精度。本发明在深度神经网络不同深度的下采样层之前，均增加被训练成执行与深度神经网络相同任务的辅助分类器；辅助分类器通过任务损失训练，从教师模型的整个特征中捕获面向任务特征；采用特征蒸馏损失训练，将教师模型中捕获的面向任务特征提取到学生模型中，用于任务牵引的特征蒸馏深度神经网络学习训练。通过辅助分类器，对面向任务特征通过任务损失实现提取，通过特征蒸馏损失面向任务特征的传递，实现了面向任务的特征蒸馏，用于从教师到学生的面向任务的信息的提取，实现高效可靠的知识蒸馏。

Description

任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质

技术领域

本发明涉及深度神经网络的知识蒸馏，具体为任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质。

背景技术

近年来，在自然语言处理和计算机视觉等各种应用中，深度神经网络已经取得了显著的成就。然而，神经网络的成功总是伴随着模型参数和计算的爆炸性增长，这限制了神经网络在例如移动电话和嵌入式设备之类的边缘设备上的部署。已经提出各种技术来解决此问题，包括修剪、量化、轻量化模型设计和知识蒸馏。

Hinton等人首先提出蒸馏的概念，其中训练轻量化学生模型以模拟过度参数化的教师模型的SoftMax输出，即对数。然后，提出了丰富的特征蒸馏方法，鼓励学生模型模仿教师模型的特征。由于教师模型的特征具有比对数更多的信息，因此特征蒸馏使得学生模型能够学习更丰富的信息，并且始终可以提高精度。如图1所示，现有技术中，大多数特征蒸馏方法不是直接学习教师模型的所有特征，而是首先将变换函数应用于特征以将它们转换成易于蒸馏的形式，然后将它们提取给学生。特征蒸馏是知识蒸馏中的一种主要方法，其能够使得蒸馏精度的显著提高，但是大多数现有方法通过手动设计的变换来提取教师网络中的特征；并且在此过程中，有一些不重要的信息被过滤；然而，哪种形式的信息最适合蒸馏，以及哪种变换函数可以提取这种形式的信息，这些仍然是未知的，导致现有的知识蒸馏的可靠性和精度无法满足实际的需求。

发明内容

针对现有技术中存在的问题，本发明提供一种任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质，以数据驱动方式进行特征蒸馏，设计合理，稳定有效，能够显著提升蒸馏训练的精度。

本发明是通过以下技术方案来实现：

任务牵引的特征蒸馏深度神经网络学习训练方法，包括，

在深度神经网络不同深度的下采样层之前，均增加被训练成执行与深度神经网络相同任务的辅助分类器；

所述的辅助分类器通过任务损失训练，从教师模型的整个特征中捕获面向任务特征；采用特征蒸馏损失训练，将教师模型中捕获的面向任务特征提取到学生模型中，用于任务牵引的特征蒸馏深度神经网络学习训练。

优选的，所述的辅助分类器由多个卷积层、池化层和全连接层组成。

进一步，通过对数蒸馏损失训练辅助分类器卷积层的卷积变化函数和全连接层。

再进一步，所述的对数蒸馏损失的公式如下，

其中，L_KL是KL发散损失，

为训练对象，

为对应的标签，F_i(·)表示为第i个卷积阶段的特征映射，将C_i(·)表示为第i个卷积阶段中的全连接层，上标t和s分别表示教师模型和学生模型，N为对应神经网络中卷积层的数量。

优选的，所述的辅助分类器采用如下的面向任务的特征蒸馏损失函数进行任务损失训练和特征蒸馏损失训练，

其中，α是平衡两种损失的超参数，L₂是L₂范数损失，T是卷积变化函数，

为训练对象，

为对应的标签，F_i(·)表示为第i个卷积阶段的特征映射，将C_i(·)表示为第i个卷积阶段中的全连接层，上标t和s分别表示教师模型和学生模型，N为对应神经网络中卷积层的数量，L_CE为交叉熵损失。

优选的，特征蒸馏损失训练时，采用卷积层或全连接层作为特征调整层，调整教师模型中的蒸馏特征尺寸与学生模型的相同；采用正交损失调整特征调整层的权值。

优选的，所述的正交损失的公式如下，

β·(‖W^TW-I‖+‖WW^T-I‖)

其中，β是一个调节正交损失强度的超参数，W是特征调整层的权重，W^T是其对应的转置矩阵，I是单位矩阵。

任务牵引的特征蒸馏深度神经网络学习训练系统，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行计算机程序时实现如上所述的任务牵引的特征蒸馏深度神经网络学习训练方法。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的任务牵引的特征蒸馏深度神经网络学习训练方法。

与现有技术相比，本发明具有以下有益的技术效果：

本发明所述的任务牵引的特征蒸馏深度神经网络学习训练方法，通过辅助分类器，对面向任务特征通过任务损失实现提取，通过特征蒸馏损失面向任务特征的传递，实现了面向任务的特征蒸馏，从而提出了一种新型知识蒸馏方法，用于从教师到学生的面向任务的信息的提取，实现高效可靠的知识蒸馏。

进一步的，通过对数蒸馏损失加速辅助分类器中的卷积变化函数和全连接层的训练，利用蒸馏损失和任务损失以数据驱动方式训练的卷积层作为变换函数，有效的提高了蒸馏的精度和稳定性。

进一步的，利用正交损失对知识蒸馏进行正则化，以避免在特征调整层中教师监督的信息损失，保证了面向任务的特征蒸馏的有效性。

附图说明

图1为现有技术中的特征蒸馏示意图。

图2为本发明实例中所述的面向任务的特征蒸馏示意图。

图3为本发明实例中所述的训练方法示意图。

图4为本发明实例中所述在Gram-CAM方法可视化结果上，主干层中的特征和辅助分类器捕获的面向任务的特征对比图。

图5为本发明实例中所述不同超参数α下所述方法的精度示意图。

图6为本发明实例中所述不同超参数β下所述方法的精度示意图。

图7为本发明实例中所述不同数量辅助分类器下所述方法的精度示意图。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

本发明任务牵引的特征蒸馏深度神经网络学习训练方法，如图2所示，采用面向任务的特征蒸馏(简称TOFD)的知识蒸馏的方法，将蒸馏中最重要的面向任务的信息从教师模型中传递到学生模型中，与现有技术中特征蒸馏方法的变换函数是手工设计不同，TOFD中的变换函数是通过蒸馏损失和任务损失以数据驱动方式训练的卷积层。在TOFD的训练周期中，几个辅助分类器以不同的深度附接到主干层。每个辅助分类器由几个卷积层、池化层和全连接层组成。辅助分类器被训练成执行与整个神经网络相同的任务，从而辅助分类器能够从主干层中的整体特征捕获面向任务的信息，从而实现高效的知识蒸馏。

本发明中采用所述的面向任务的特征蒸馏的方法进行深度神经网络学习训练时，如图3中所示。可以观察到，几个辅助分类器附接在深度卷积神经网络的不同深度处。每个辅助分类器由几个卷积层、池化层和全连接层组成。它们被训练成执行与整个深度神经网络相同的任务。从而使得辅助分类器中的卷积层可以从整个特征中捕获面向任务的信息。然后，这些面向任务的信息通过L₂损失被提取到学生模型。此外，为了便于训练辅助分类器，还在教师模型和学生模型之间的每对辅助分类器中应用对数蒸馏损失。注意，这些辅助分类器仅用于知识蒸馏的训练阶段。它们不涉及推断周期，因此没有额外的计算和参数。

另外，通过如下方法，确定辅助分类器的数量和确切位置。由于具有不同分辨率的特征具有不同的信息，即低分辨率特征包含较大对象的更多信息，而高分辨率特征包含较小对象的更多信息。从而在深度神经网络中的每个下采样层之前执行TOFD，因此，不同的辅助分类器可以提取具有不同分辨率的教师模型的特征；辅助分类器的数量由深度神经网络中的下采样层的数量决定。

其中，L_KL是KL发散损失，

为训练对象，

为对应的标签，F_i(·)表示为第i个卷积阶段的特征映射，将C_i(·)表示为第i个卷积阶段中的全连接层，上标t和s分别表示教师模型和学生模型，在具有N个卷积级的神经网络中，对数蒸馏损失可以被公式化为

其中，L_KL是KL发散损失。特征蒸馏的损失函数可以被公式化为

其中，L₂是L₂范数损失，T表示特征上的变换函数。在大多数以前的特征蒸馏方法中，T是例如池化和低秩分解的非参数变换。相反，所提出的TOFD中的T是几个卷积层，其参数由任务损失和蒸馏损失来训练。所提出的面向任务的特征蒸馏损失可以被公式化为

其中，α是平衡两种损失的超参数。此外，我们可以进一步引入对数蒸馏损失，以便训练卷积变换函数T和全连接层c，这可以被公式化为

在知识蒸馏的大多数情况中，学生和教师的特征具有不同的宽度、高度和通道，因此不能直接最小化他们的距离。通常应用卷积层或全连接层以调整它们的尺寸使其相等。然而，这导致了一个问题，即在特征调整的过程中可能会丢失教师的一些有用信息，从而降低了特征蒸馏的有效性。为了解决此问题，本发明TOFD中已经引入了正交损失，以调整特征调整层的权重。利用正交矩阵的性质，可以在学生训练中充分利用教师的监督。

本发明中，将正交损失应用于特征调整层的权值以缓解此问题。将教师模型的蒸馏特征表示为矢量x，特征调整层的权值表示为W，调整后的特征可以写为Wx。在特征调整过程中保持特征信息，引入了同时惩罚特征调整层中W所跨越的行空间和列空间的正交性的正交损失，即损失被定义为

β·(‖W^TW-I‖+‖WW^T-I‖)

其中，β是平衡其大小和其它损失的超参数。如果将卷积层而不是全连接层用作特征调整层，则可以首先将其权重从S×H×C×M调整为SHC×M，其中S、H、C、M分别是宽度、高度、输入通道号和输出通道号。

总而言之，总损失函数可以被公式化为

L_overall＝L_feature+L_logit+L_task+L_orthogonal

即总损失函数包括特征蒸馏损失、对数蒸馏损失、任务损失、正交损失和两个超参数。

本发明还提供了一种与方法所述对应的任务牵引的特征蒸馏深度神经网络学习训练系统，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行计算机程序时实现如上所述的任务牵引的特征蒸馏深度神经网络学习训练方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的任务牵引的特征蒸馏深度神经网络学习训练方法。

以下通过实验来证明本发明的精度。

本发明在图像分类利用包括ResNet、PreactResNet、SENet、ResNext、MobilNetV1、MobileNetV2、ShuffleNetV1、ShuffleNetV2、WideresNet的九种卷积神经网络和包括CIFAR100、CIFAR10、ImageNet的三个数据集进行图像分类实验。在CIFAR实验中，每个模型由SGD优化器以300个周期进行训练，批大小为128个。在ImageNet实验中，每个模型由SGD优化器以90个周期进行训练，批大小为256个。

在3D分类的利用在包括ModelNet10和ModelNet40的两个数据集上进行了不同深度的ResGCN点云分类实验。每个模型由Adam以100个周期进行训练，每20个周期具有学习率衰减。

比较实验比较了包括KD、FitNet、DML和自蒸馏的四种知识蒸馏方法。所有这些实验由我们自己复制。

在CIFAR10和CIFAR100上的结果

表2和表3显示了CIFAR100和CIFAR10上学生网络的准确性。可以观察到：(a)与基线模型相比，所提出的TOFD导致显著的精度提高。在CIFAR100中，平均在11个模型上可以发现5.46％的精度提高，范围从SENet50处的6.75％最大到ShuffleNetV1处的3.78％最小。在CIFAR10中，平均在11种模型上可以发现2.49％的精度提高，范围从在MobileNetV1处的3.77％最大到在ShuffleNetV1处的1.40％最小。(b)在所有模型中，所提出的TOFD在很大程度上优于第二最佳蒸馏方法。平均而言，与第二最佳蒸馏方法相比，在CIFAR10和CIFAR100上可以观察到3.13％和1.28％的精度提高。(c)所提出的TOFD不仅适用于ResNet和SENet等超参数模型，而且在MobilNet和ShuffleNet等轻量化模型中也显示出显著的有效性。平均而言，在CIFAR100和CIFAR10数据集上可以观察到轻量化模型的精度提高了4.40％和2.74％。

表2：在CIFAR100(Top-1精度/％)上的试验结果。

表3：在CIFAR10(Top-1精度/％)上的试验结果。

在ImageNet上的结果

表4示出了在ImageNet上的TOFD的实验结果。ResNet152模型被用作所有这些实验的教师模型。可以观察到：(a)平均而言，TOFD导致6个神经网络的精度提高了1.18％。(b)蒸馏的ResNet50和ResNet101分别具有比ResNet101和ResNet152的基线更高的精度。通过分别用ResNet101和ResNet152代替蒸馏的ResNet50和ResNet101，TOFD实现了1.57倍的压缩和1.81倍的加速，而没有精度损失。

表4：在ImageNet(Top-1精度/％)上的试验结果。

在ModelNet10和ModelNet40上的结果

表5和表6示出了在ModelNet10和ModelNet40上的TOFD的实验结果。可以观察到：(a)在3D分类任务中，知识蒸馏方法不如在图像分类任务中有效。在五种蒸馏方法中，只有DML和TOFD可以实现与基线相比一致的精度提高。(b)TOFD在所有模型和数据集上均优于其它知识蒸馏方法。与基线相比，使用TOFD的ModelNet10和ModelNet40平均精度提高了1.25％和0.82％。

表5：在ModelNet10(Top-1精度/％)上进行3D分类任务的试验结果。

表6：在ModelNet40(Top-1精度/％)上进行3D分类任务的试验结果。

上述充分的实验表明，所提出的TOFD在各种神经网络和数据集中均实现了一致且显著的精度提升。在5个数据集上的10种神经网络的实验表明，TOFD在图像分类和3D分类上均优于现有技术的蒸馏方法。在CIFAR100、CIFAR10、ImageNet、ModelNet10和ModelNet40数据集上，平均可以分别观察到5.46％、1.71％、1.18％、1.25％和0.82％的精度提升。此外，还进行了消融研究和超参数敏感度研究，以显示TOFD的有效性和稳定性。

本发明中引入TOFD中的辅助分类器，从学生和教师的特征中捕获面向任务的信息。如图4中所示，使用Gram-CAM方法可视化了主干层中的特征和辅助分类器捕获的面向任务的特征。可以观察到：第一，除了最后一层的特征即图d之外，主干层中的特征与分类任务没有直接关系。卷积层的注意力均匀地集中在整个图中，这表明在主干层的特征中存在许多非面向任务的信息。第二，在辅助分类器的热图中，狗的像素比背景具有更多的关注值，表明辅助分类器实际上从原始特征中捕获了面向任务的信息。

如表7中所示，对具有ResNet18的CIFAR100进行消融研究，以证明不同组分在TOFD中的个体有效性。可以观察到：(a)与特征蒸馏和对数蒸馏的组合相比，辅助分类器可以提高3.50％(82.31％-78.81％)的精度，表明面向任务的信息有利于知识蒸馏。(b)仅使用辅助分类器，与基线相比，可以观察到2.90％(77.09％-79.99％)的精度提高，表明多出口训练本身可以促进模型训练。(c)特征调整层的正交损失导致0.61％(82.92％-82.31％)的精度提高。

表7在CIFAR100(Top-1精度/％)上使用ResNet18进行消融研究。

在本发明所述的方法TOFD中引入超参数α和β以控制特征蒸馏损失和正交损失的大小。如图5和图6所示，已经在CIFAR100和ResNet18上进行了实验以研究其敏感度。可以观察到：(a)即使在最坏的情况下，当α＝0.01时，TOFD仍然实现了比基线提高了5.48％的精度，比第二最佳知识蒸馏方法SD，提高了3.93％的精度。(b)当β的范围为0.2-0.8时，TOFD的精度范围为82.51％-82.92％。即使在的最坏情况下，当β＝0.2时，TOFD仍然比基线提高了5.42％的精度，并且比第二最佳知识蒸馏方法SD提高了3.87％的精度。这些实验结果表明，TOFD对超参数值不敏感。

在TOFD中，在训练期间引入几个辅助分类器以从所有特征中捕获面向任务的信息。利用ResNet18在CIFAR100上进行了一系列实验，以显示TOFD中辅助分类器的数量如何影响模型的精度。如图7中所示，当在神经网络中少于4个辅助分类器时，每个辅助分类器导致显著的精度提高。相反，第四辅助分类器不仅不能提高模型精度，甚至导致少量的精度下降，这表明太多的辅助分类器可能导致过正则化问题。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.任务牵引的特征蒸馏深度神经网络学习训练方法，其特征在于，包括，

2.根据权利要求1所述的任务牵引的特征蒸馏深度神经网络学习训练方法，其特征在于，所述的辅助分类器由多个卷积层、池化层和全连接层组成。

3.根据权利要求2所述的任务牵引的特征蒸馏深度神经网络学习训练方法，其特征在于，通过对数蒸馏损失训练辅助分类器卷积层的卷积变化函数和全连接层。

4.根据权利要求3所述的任务牵引的特征蒸馏深度神经网络学习训练方法，其特征在于，所述的对数蒸馏损失的公式如下，

其中，L_KL是KL发散损失，

为训练对象，

5.根据权利要求1所述的任务牵引的特征蒸馏深度神经网络学习训练方法，其特征在于，所述的辅助分类器采用如下的面向任务的特征蒸馏损失函数进行任务损失训练和特征蒸馏损失训练，

为训练对象，

6.根据权利要求1所述的任务牵引的特征蒸馏深度神经网络学习训练方法，其特征在于，特征蒸馏损失训练时，采用卷积层或全连接层作为特征调整层，调整教师模型中的蒸馏特征尺寸与学生模型的相同；采用正交损失调整特征调整层的权值。

7.根据权利要求1所述的任务牵引的特征蒸馏深度神经网络学习训练方法，其特征在于，所述的正交损失的公式如下，

β·(‖W^Tw-i‖+‖wW^T-I‖)

8.任务牵引的特征蒸馏深度神经网络学习训练系统，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，其特征在于，所述处理器执行计算机程序时实现如权利要求1-7中任一项所述的任务牵引的特征蒸馏深度神经网络学习训练方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的任务牵引的特征蒸馏深度神经网络学习训练方法。