CN115204394A

CN115204394A - 用于目标检测的知识蒸馏方法

Info

Publication number: CN115204394A
Application number: CN202210785887.4A
Authority: CN
Inventors: 曹巍瀚; 陈恺; 高剑飞; 张一帆; 程安达; 程科; 程健
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-10-18

Abstract

本发明涉及目标检测技术领域，提出一种用于目标检测的知识蒸馏方法，该方法包括下列步骤：配置教师检测器以及学生检测器；以及在所述教师检测器以及所述学生检测器之间进行知识蒸馏，其中所述知识蒸馏的损失函数为皮尔斯相关系数。

Description

用于目标检测的知识蒸馏方法

技术领域

本发明总的来说涉及目标检测技术领域。具体而言，本发明涉及一种用于目标检测的知识蒸馏方法。

背景技术

知识蒸馏是一种模型压缩和加速方法，旨在将知识从教师模型转移到学生模型。Hinton等人对知识蒸馏进行了推广，随后的工作探索了其在图像分类中的有效性。

然而，将知识蒸馏应用于目标检测这一领域并不容易，因为最小化学生和教师检测器分类头输出之间的KL散度无法向学生检测器传递空间信息，只能给学生检测器带来有限的性能提升。

针对上述问题，现有技术中提出了从下列解决方案：

让蒸馏在多尺度中间特征之间进行，其可以为目标检测提供了丰富的空间信息；

采用不同的特征选择方法来克服前景-背景不平衡的问题，其中包括基于建议的、基于规则的以及基于注意力的特征选择方法；以及

通过捕获和利用不同对象之间的关系以提高检测器性能，例如通过非局部模块和全局蒸馏模块来捕获和利用不同对象之间的关系。

然而，现有的用于目标检测的知识蒸馏方法仍存在技术通用性不足以及复杂性高的问题。

发明内容

为至少部分解决现有技术中的上述问题，本发明提出一种用于目标检测的知识蒸馏方法，包括下列步骤：

配置教师检测器以及学生检测器；以及

在所述教师检测器以及所述学生检测器之间进行知识蒸馏，其中所述知识蒸馏的损失函数为皮尔斯相关系数。

在本发明一个实施例中规定，所述教师检测器包括第一骨干网络以及第一特征金字塔网络；以及

所述学生检测器包括第二骨干网络以及第二特征金字塔网络。

在本发明一个实施例中规定，所述教师检测器和所述学生检测器为异构检测器。

在本发明一个实施例中规定，所述教师检测器和所述学生检测器具有异构骨干网络、具有异构检测头或者具有不同训练策略

在本发明一个实施例中规定，所述知识蒸馏的损失函数被配置为关注学生检测器和教师检测器特征的线性相关性。

在本发明一个实施例中规定，在所述教师检测器以及所述学生检测器之间进行知识蒸馏包括下列步骤：

通过所述教师检测器提取第一特征；

通过所述学生检测器提取第二特征；

将所述第一和第二特征标准化为零均值单位方差；以及

缩小所述第一和第二特征的L2距离以进行知识传递。

本发明还提出一种计算机系统，包括：

处理器，其被配置为执行机器可执行指令；以及

存储器，其被配置为在被处理器执行时执行根据权利要求1至6之一所述的方法。

本发明还提出一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令在被处理器执行时执行根据权利要求1至6之一所述的方法。

本发明至少具有如下有益效果：本方法可以很容易地应用于异构检测器蒸馏；由于不需要执行教师检测头的前项传播过程，可以显著减少训练时间，尤其是对于具有级联检测头的教师检测器；收敛速度更快，性能更高；由于本方法对唯一的超参数——蒸馏损失权重不敏感，进一步增加了本方法的迁移能力和易用性。

附图说明

为进一步阐明本发明的各实施例中具有的及其它的优点和特征，将参考附图来呈现本发明的各实施例的更具体的描述。可以理解，这些附图只描绘本发明的典型实施例，因此将不被认为是对其范围的限制。在附图中，为了清楚明了，相同或相应的部件将用相同或类似的标记表示。

图1A-C示出了教师检测器和学生检测器的FPN提取的特征的对比示意图。

图2示出了本发明一个实施例中一个用于目标检测的知识蒸馏方法的流程示意图。

图3示出了本发明一个实施例中一个用于目标检测的知识蒸馏方法的总览图。

具体实施方式

应当指出，各附图中的各组件可能为了图解说明而被夸大地示出，而不一定是比例正确的。在各附图中，给相同或功能相同的组件配备了相同的附图标记。

在本发明中，除非特别指出，“布置在…上”、“布置在…上方”以及“布置在…之上”并未排除二者之间存在中间物的情况。此外，“布置在…上或上方”仅仅表示两个部件之间的相对位置关系，而在一定情况下、如在颠倒产品方向后，也可以转换为“布置在…下或下方”，反之亦然。

在本发明中，各实施例仅仅旨在说明本发明的方案，而不应被理解为限制性的。

在本发明中，除非特别指出，量词“一个”、“一”并未排除多个元素的场景。

在此还应当指出，在本发明的实施例中，为清楚、简单起见，可能示出了仅仅一部分部件或组件，但是本领域的普通技术人员能够理解，在本发明的教导下，可根据具体场景需要添加所需的部件或组件。另外，除非另行说明，本发明的不同实施例中的特征可以相互组合。例如，可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征，所得到的实施例同样落入本申请的公开范围或记载范围。

在此还应当指出，在本发明的范围内，“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等，而是允许一定的合理误差，也就是说，所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。以此类推，在本发明中，表方向的术语“垂直于”、“平行于”等等同样涵盖了“基本上垂直于”、“基本上平行于”的含义。

另外，本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出，各方法步骤可以以不同顺序执行。

下面结合具体实施方式参考附图进一步阐述本发明。

发明人经过研究发现，现有的用于目标检测的知识蒸馏方法仍存在技术通用性不足的问题。

具体而言，一个通用的用于目标检测的知识蒸馏方法至少需要在下列情况下均适用：

同构网络之间的蒸馏，例如通过RetinaNet-R101检测器蒸馏RetinaNet-R50检测器；

相同骨干网络不同检测头的异构网络之间的蒸馏，例如通过FCOS-R101检测器蒸馏RetinaNet-R50检测器；以及

不同骨干网络相同检测头的异构网络之间的蒸馏，例如通过MaskRCNN-SwinTransformer检测器蒸馏FasterRCNN-R50检测器。

然而现有的用于目标检测的知识蒸馏方法往往只适用于同构检测器之间的蒸馏，在异构检测器上普遍效果不佳，甚至有些蒸馏方法只能在同构网络蒸馏的场景中使用。

例如，Rank Mimicking在损失函数计算的过程中用到了标签分配(label assign)的结果，而label assign方法与检测方法强相关，这自然不适合异构网络蒸馏的。

FGD在训练的过程中使用了参数继承策略，也就是说用教师检测器的FPN层和检测头参数初始化学生检测器，这一策略会很大程度上提升FGD的性能，但却不适用于异构网络蒸馏。

目前的同构网络蒸馏的最先进的方法FRS在同构网络蒸馏中取得了优异的效果。然而，FRS提出的损失函数分为FPN layers损失和分类头Classification Head损失两部分，而由于异构检测器的检测头未必相同(大概率不同)，损失函数的第二部分无法应用在异构网络中。

由此可以看出，此前的知识蒸馏方法普遍存在通用性不足的问题，而这会导致其应用受限。因此提出一个通用的用于目标检测的知识蒸馏方法具有很大的必要。

另外，现有的用于目标检测的知识蒸馏方法还存在复杂性高的问题。

具体而言，目前的用于目标检测的知识蒸馏方法通常使用多个损失函数搭配多个蒸馏位点以进一步提升方法性能。

例如，FGD在FPN层输出特征上构建focal loss和global loss。FKD在backbone输出特征上构建通道注意力损失、空间注意力损失和全局注意力(non-local)损失。FRS将FPN层输出和检测头输出均纳为蒸馏位点。也就是说，现有的用于目标检测的知识蒸馏方法往往会提出两到三个损失函数，蒸馏位点的选择也各不相同，而这又会引入多个超参数以平衡每个损失函数对梯度的贡献大小，增加知识蒸馏方法的使用难度和迁移难度。

针对上述现有技术中的技术问题，本发明提出一种用于目标检测的知识蒸馏方法。

本发明基于发明人的如下洞察：发明人首先通过实验验证了异构检测器之间进行知识蒸馏的可行性。

RetinaNet检测器、FCOS检测器以及GFL检测器的主干网络相同，但检测头和训练策略(如标签分配)不尽相同。

可以对RetinaNet检测器、FCOS检测器以及GFL检测器进行12轮训练，然后冻结预训练的骨干网络和FPN(特征金字塔网络)，并对随机初始化的检测头进行12轮微调。在微调期间，主干和FPN中的参数被冻结，不会更新。

通过分析实验结果，发明人发现：

由于GFL检测器和FCOS检测器的特征之间没有显著的幅值差异，因此GFL-Res50检测器的预训练骨干网络和FPN可用于微调FCOS检测器的检测头并达到更高的性能；以及

当使用FCOS-Res50检测器预先训练的骨干网络和FPN微调RetinaNet检测器的检测头时，由于特征幅度差异较大，导致显著的mAP下降。

因此，在消除特征幅值差异的负面影响后，通过FPN特征模拟进行异构探测器之间的蒸馏是可行的。

本发明还基于发明人的如下洞察：直接通过缩小学生检测器和教师检测器的FPN提取得到的特征的L2距离来进行知识蒸馏并没有对学生网络性能带来较大提升，甚至有的时候还会造成性能下降。

图1A-C示出了一个教师检测器和学生检测器的FPN提取的特征对比示意图。

图1A示出了教师检测器和学生检测器的特征幅值对比示意图。如图1A所示，教师检测器和学生检测器的特征幅值大小不同，特别是对于异构探测器这点尤为明显。因此，直接迫使学生检测器学习教师检测器的特征图的全部内容可能会施加一个过于严格的约束，并对学生检测器性能造成伤害。

图1B示出了教师检测器和学生检测器的激活模式的可视化示意图。如图1B所示，教师检测器相比于学生检测器总有若干个FPN阶段的值大于其他阶段，因此具有较大值的FPN特征会主导蒸馏损失的梯度，抑制其他特征的影响，并导致次优结果。

图1C示出了教师检测器和学生检测器的特征通道的对比示意图。如图1C所示，教师检测器相比于学生检测器总有一些特征通道的数值明显大于其他通道，因此直接让学生检测器学习教师检测器特征图的全部内容可能会引入大量噪声。

图2示出了本发明一个实施例中一个用于目标检测的知识蒸馏方法的流程示意图，其中对上述教师检测器与学生检测器之间存在的特征存在幅值差异、主导训练的FPN阶段以及主导训练的特征通道的存在会导致优化收敛至次优解的问题进行了解决。

如图2所示，该方法可以包括下列步骤：

步骤201、配置教师检测器以及学生检测器；以及

步骤202、在所述教师检测器以及所述学生检测器之间进行知识蒸馏，其中所述知识蒸馏的损失函数为皮尔斯相关系数。

图3示出了本发明一个实施例中一个用于目标检测的知识蒸馏方法的总览图。如图3所示，教师检测器301可以包括第一骨干网络3011以及第一特征金字塔网络3012，学生检测器302可以包括第二骨干网络3021以及第二特征金字塔网络3022。所述教师检测器301和所述学生检测器302可以是异构检测器。

在本方法中Pearson Correlation Coefficient(皮尔斯相关系数)是一个与幅值无关的度量指标。所述皮尔斯相关系数可以关注学生检测器和教师检测器特征的线性相关性以便消除特征幅值大小不同、主导训练的FPN阶段以及主导训练的特征通道这三个问题的消极影响。

在本方法中，可以将学生检测器和教师检测器各自提取的特征标准化为零均值单位方差，并通过缩小标准化后的特征的L2距离来进行知识传递，这也等价于最大化原始特征的线性相关性。

除了能解决上述三个问题外，皮尔斯相关系数还通过消除梯度对特征幅值的依赖，对通过学生检测器的梯度流具有积极影响一一使得训练过程更加稳定。

在计算蒸馏损失的时候，先对学生和教师检测器各自提取的特征进行的标准化操作是本发明的核心。与此同时，KL散度是知识蒸馏领域最常用的一种损失函数，我们进一步从理论上证明了在高温情况下缩小标准化后的学生和教师网络的特征之间的KL散度，等价于缩小标准化后的特征之间的L2距离，进一步等价于增大标准化前的特征之间的皮尔斯相关系数。提供了一种统一的损失函数范式。实验结果证明了我们理论证明的正确性。

本发明解决了当前目标检测知识蒸馏方法缺乏通用性以及方法迁移、应用难度大的问题，并提出以下三个关键点解决对应的问题：

由于在实际应用中，只有特定结构或满足特定条件的检测器才能被部署，而最强的教师检测器往往与学生网络互为异构，因此可以应用于异构检测器的蒸馏方法十分具有应用价值。本发明通过固定骨干网络和FPN参数并微调检测头的方法，证明了异构蒸馏的可行性

提出了三个会导致蒸馏方法性能不佳的原因，分别为：教师网络与学生网络的特征存在幅值差异、主导训练的FPN阶段以及主导训练的特征通道的存在会导致优化收敛至次优解；以及

为解决上述三点问题，采用幅值不敏感的皮尔斯相关系数代替传统的L2损失作为蒸馏的损失函数，达到了当前业界最优的性能。

与现有技术相比，本方法具有以下优点：

首先，由于仅仅计算FPN输出特征的蒸馏损失，本方法可以很容易地应用于异构检测器蒸馏，包括具有异构骨干网络、异构检测头和不同训练策略(如标签分配)的模型；

其次，由于不需要执行教师检测头的前项传播过程，可以显著减少训练时间，尤其是对于具有级联检测头的教师检测器；

此外，本方法的收敛速度更快，性能更高。使用性能更强的异构检测器作为教师，学生检测器在标准COCO数据集上训练12轮的结果即可超越其他方法训练24轮的结果。

另外值得注意的是，本方法对唯一的超参数——蒸馏损失权重不敏感，进一步增加了本方法的迁移能力和易用性。

通过在标准COCO数据集上进行大量实验，验证了本方法所带来的显著性能提升。如表1所示，其中使用相同的two-stage教师检测器，基于ResNet50的RetinaNet检测器和FCOS检测器达到41.5％mAP和43.9％mAP的结果，比基线分别高出4.1％和4.8％，而且它的性能也大大优于现有的最先进的方法。

此外本方法的核心是通过标准化机制来解决教师网络与学生网络的特征存在幅值差异、主导训练的FPN阶段以及主导训练的特征通道的存在会导致优化收敛至次优解的这三个问题。基于本发明的教导，本领域技术人员采用Batch Normalization(批标准化)、Layer Normalization(层标准化)、Group Normalization(组标准化)以及InstanceNormalization(实例标准化)来解决上述技术问题也是可设想的。

尽管上文描述了本发明的各实施例，但是，应该理解，它们只是作为示例来呈现的，而不作为限制。对于相关领域的技术人员显而易见的是，可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

Claims

1.一种用于目标检测的知识蒸馏方法，其特征在于，包括下列步骤：

配置教师检测器以及学生检测器；以及

2.根据权利要求1所述的用于目标检测的知识蒸馏方法，其特征在于，所述教师检测器包括第一骨干网络以及第一特征金字塔网络；以及

3.根据权利要求2所述的用于目标检测的知识蒸馏方法，其特征在于，所述教师检测器和所述学生检测器为异构检测器。

4.根据权利要求3所述的用于目标检测的知识蒸馏方法，其特征在于，所述教师检测器和所述学生检测器具有异构骨干网络、具有异构检测头或者具有不同训练策略。

5.根据权利要求4所述的用于目标检测的知识蒸馏方法，其特征在于，所述知识蒸馏的损失函数被配置为关注学生检测器和教师检测器特征的线性相关性。

6.根据权利要求5所述的用于目标检测的知识蒸馏方法，其特征在于，在所述教师检测器以及所述学生检测器之间进行知识蒸馏包括下列步骤：

通过所述教师检测器提取第一特征；

通过所述学生检测器提取第二特征；

将所述第一和第二特征标准化为零均值单位方差；以及

缩小所述第一和第二特征的L2距离以进行知识传递。

7.一种计算机系统，包括：

处理器，其被配置为执行机器可执行指令；以及

8.一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令在被处理器执行时执行根据权利要求1至6之一所述的方法。