CN112164054A

CN112164054A - 基于知识蒸馏的图像目标检测方法和检测器及其训练方法

Info

Publication number: CN112164054A
Application number: CN202011059457.1A
Authority: CN
Inventors: 马恺声; 张林峰
Original assignee: Cross Information Core Technology Research Institute Xi'an Co ltd
Current assignee: Cross Information Core Technology Research Institute Xi'an Co ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-01

Abstract

本发明一种基于知识蒸馏的图像目标检测方法和检测器及其训练方法，基于特征蒸馏，适应性强，目标检测误差低，定位和分类能力强。其包括对检测器所采用的学生模型中的主干特征进行注意力导向知识蒸馏和非局部蒸馏的训练；将上述训练中的总蒸馏损失应用于具有不同分辨率的主干特征，完成学生模型的训练，得到对应的检测器；注意力导向蒸馏，对学生模型的主干网络特征分别在频道和空间维度中进行平均池化，得到空间和频道的注意力映射，采用注意力映射作为注意力导向蒸馏的掩码，将教师模型关键特征从教师模型蒸馏到学生模型进行训练；非局部蒸馏，通过非局部模块捕获图像中像素关系信息，将像素关系信息从教师模型蒸馏到学生模型进行训练。

Description

基于知识蒸馏的图像目标检测方法和检测器及其训练方法

技术领域

本发明涉及计算机视觉中的目标检测领域，具体为基于知识蒸馏的图像目标检测方法和检测器及其训练方法。

背景技术

随着深度学习的不断发展，其在各个领域取得了卓越的突破。然而，越先进的深度神经网络越是需要大量的计算且占用很大的内存，这限制了其在诸如自动驾驶汽车和移动电话等先进设备中的部署。为了解决该问题，研究者提出了大量技术，包括剪枝、量化、紧凑模型设计以及知识蒸馏。知识蒸馏也称为师生学习，是一种有效的模型压缩和模型精度提升技术，其目的是训练学生模型模仿教师模型，将过参数化的教师知识转移到轻量级的学生；由于训练学生模仿老师的分对数或特征，学生可以从老师那里传承暗知识，从而达到更高的准确度。由于其简单、有效，知识蒸馏被广泛地用于模型压缩和模型精度的提升。

目标检测是计算机视觉中最关键的挑战之一，对准确高效的模型有着迫切的需求。但是现有大多数用于计算机视觉的知识蒸馏方法是为图像分类而设计的，在诸如目标检测等更具有挑战性的任务中无法使用，因为其只能目标检测方面得到微小甚至负面的改进。现有技术中，知识蒸馏在目标检测中主要存在如下问题。

(1)前景与背景的像素之间不平衡。在待检测图像中，背景像素总是大于前景目标的像素。然而，在以往的知识蒸馏中，学生总是被训练来以相同的优先级模仿所有像素的特征。因此，学生主要关注背景像素特征的学习，这抑制了学生对前景目标的特征的学习。由于前景像素在检测中的重要性更高，这种看似平衡的方法，实则不平衡并且严重地损害了知识蒸馏的性能。

(2)像素之间的关系缺乏蒸馏。现有的目标检测的知识蒸馏只蒸馏单个像素的信息，不蒸馏不同像素之间的关系，从每个像素进行独立学习，虽然能够公平的对待每个像素的特征，很大程度的保留像素的特性，便于进行分类，但是对于目标筛选就弱化了因为相互关系代理的目标整体特征。

发明内容

针对现有技术中存在的问题，本发明提供一种基于知识蒸馏的图像目标检测方法和检测器及其训练方法，设计合理，结构简单，基于特征蒸馏，适应性强，目标检测误差低，定位和分类能力强。

本发明是通过以下技术方案来实现：

基于知识蒸馏的图像目标检测器训练方法，包括，

对检测器所采用的学生模型中的主干特征进行注意力导向知识蒸馏和非局部蒸馏的训练；

将上述训练中的总蒸馏损失应用于具有不同分辨率的主干特征，完成学生模型的训练，得到对应的检测器；

所述的注意力导向蒸馏，对学生模型的主干网络特征分别在频道和空间维度中进行平均池化，得到空间和频道的注意力映射，采用注意力映射作为注意力导向蒸馏的掩码，将教师模型关键特征从教师模型蒸馏到学生模型进行训练；

所述的非局部蒸馏，通过非局部模块捕获图像中像素关系信息，将像素关系信息从教师模型蒸馏到学生模型进行训练。

优选的，所述的注意力导向蒸馏，具体包括如下步骤，

对知识蒸馏中学生模型和教师模型的主干网络特征进行频道平均池化，分别得到学生的空间注意力，形成空间注意力映射；

对知识蒸馏中学生模型和教师模型的主干网络特征进行空间平均池化，分别得到学生的频道注意力，形成频道注意力映射；

分别对空间注意力映射和频道注意力映射求和，得到注意力导向蒸馏中使用的空间注意力掩码和频道注意力掩码；

基于得到的注意力掩码，得到注意力掩码损失，再结合注意力迁移损失，得到注意力导向蒸馏的损失，实现学生模型对教师模型关键特征的模仿，完成注意力导向蒸馏。

进一步，空间注意力映射为映射函数G^s:R^C，H，W→R^H，W，具体表示如下，

频道注意力映射为映射函数G^c:R^C，H，W→R^C，具体表示如下，

其中，A∈R^C，H，W来表示目标检测模型的主干的特征，C、H、W分别表示其频道数量、高度和宽度，i、j、k分别表示高度和宽度维度中的A的i_th,、j_th,、k_th片段。

再进一步，注意力掩码损失L_AM表示如下，

进一步，所述的空间注意力掩码和频道注意力掩码分别如下所示，

M^s＝HW·softmax((G^s(A^S)+G^s(A^T))/T′)；

其中，空间注意力掩码M^S，频道注意力掩码M^c，A∈R^C，H，W来表示目标检测模型的主干的特征，C、H、W分别表示其频道数量、高度和宽度，上标S和T分别表示学生和教师模型，T′是超参数，softmax表示软最大化操作。

再进一步，注意力迁移损失L_AT表示如下，

L_AT＝L₂(G^s(A^S)，G^s(A^T))+L₂(G^c(A^S),G^c(A^T))。

优选的，非局部蒸馏损失L_NLD引入作为学生模型S和教师模型T的关系信息之间的L₂损失，其可以被表示为L_NLD＝L₂(r^S,r^T)；

所述r为非局部模块捕获图像中像素之间的关系，其可以表示为，

其中，r_i,j表示获得的i_th列和j_th行像素的关系信息。i，j是其响应将被计算的输出位置的空间索引，并且i′，j′是列举所有可能位置的空间索引。f是用于计算两个像素的关系的成对函数，g是用于计算单个像素的表示的一元函数。

优选的，总蒸馏损失用公式表示为

L_Distill(A^T,A^S)＝α·L_AT+β·L_AM+γ·L_NLD；

其中，三个超参数α，β，γ来平衡不同的蒸馏损失。

基于知识蒸馏的图像目标检测器，由上述任意一项所述的训练方法训练得到。

基于知识蒸馏的图像目标检测方法，由上述的检测器对图像目标进行检测。

与现有技术相比，本发明具有以下有益的技术效果：

本发明所述训练方法，通过注意力导向蒸馏和非局部蒸馏两种知识蒸馏方法，以提高目标检测模型的性能。注意力导向的蒸馏是运用注意力机制从整个特征映射中寻找关键的像素和频道，使学生不用整个特征映射而学习这类关键的信息。非局部蒸馏使得学生不仅能够学习单个像素的信息，而且能够学习由非局部模块捕获的不同像素之间的关系。本发明所述的训练方法是一种模型不可知方法，可以在各种检测器中使用，而不需要任何修改。通过注意力导向蒸馏，使学生能够对关键的前景像素进行更多的蒸馏，并抑制无意义的背景像素上的蒸馏。通过非局部蒸馏，使学生既能从教师学到单个像素的信息，也能学到不同像素之间的关系。

附图说明

图1为本发明实例中所述注意力导向蒸馏的处理逻辑示意图。

图2为本发明实例中所述非局部蒸馏的处理逻辑示意图。

图3为本发明实例中所述非局部模块的处理逻辑示意图。

图4为本发明实例中所述方法的整体框架示意图。

图5为本发明实例中所述不同T值时，空间注意力的可视化。

图6为图5所对应的空间注意力的分布示意图。

图7为本发明实例中所述四个超参数的灵敏度验证。

图8为本发明实例中所述蒸馏方法好处的对比测试图。

图9为本发明实例中所述蒸馏和基线Faster RCNN50的误差类型分布对比图。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

本发明所述的基于知识蒸馏的图像目标检测器训练方法，通过对学生模型进行注意力导向蒸馏和非局部蒸馏的训练，得到满足要求的图像目标检测器。

注意力导向蒸馏，如图1所示，分别以频道和空间维度中的平均池化产生空间和频道的注意力。然后鼓励学生模型模仿教师模型的注意力。同时，还训练学生模仿教师的特征，避免教师的特征被学生和教师的注意力所屏蔽。

注意力导向蒸馏只蒸馏关键的前景像素，由于特征的注意力映射能够反映重要像素的位置，因此我们采用注意力映射作为知识蒸馏的掩码。将具有较高注意力值的像素视为前景目标的像素，然后通过具有高优先级的学生模型来学习。与以往的二进制掩码方法相比，在注意力导向蒸馏中，注意力映射产生的掩码粒度更细，从而获得更好的性能。与以往基于注意力的蒸馏方法相比，该方法中的注意力映射不仅用作待蒸馏信息，而且用作特征蒸馏的掩码信号。

本发明所述的基于知识蒸馏的图像目标检测器训练方法，首先，对知识蒸馏中学生模型和教师模型的主干网络特征进行频道平均池化，分别得到学生的空间注意力，形成空间注意力映射；对知识蒸馏中学生模型和教师模型的主干网络特征进行空间平均池化，分别得到学生的频道注意力，形成频道注意力映射；分别对空间注意力映射和频道注意力映射求和，得到注意力导向蒸馏中使用的空间注意力掩码和频道注意力掩码，基于得到的注意力掩码，得到注意力掩码损失，再结合注意力迁移损失，得到注意力导向蒸馏的损失，只对关键的前景像素进行蒸馏，实现学生模型对教师模型关键特征的模仿。

具体的，本发明中使用A∈R^C，H，W来表示目标检测模型的主干的特征(激活)，其中C，H，W分别表示其频道数量、高度和宽度。然后，空间注意力映射和频道注意力映射的生成相当于分别找到映射函数G^s:R^C，H，W→R^H，W和G^s:R^C，H，W→R^C。因为特征中的每个元素的绝对值暗示其重要性，所以通过将频道维度上的绝对值相加来构造G^s，并且通过将宽度维度和高度维度上的绝对值相加来构造G^c，这可以被表示为

和

其中，i，j，k分别表示高度、宽度和频道维度中的A的i_th,j_th,k_th片段。然后，可以通过对来自教师和学生模型的注意力映射求和来获得在注意力导向蒸馏中使用的空间注意力掩码M^S和频道注意力掩码M^c，这可以被公式化为

M^s＝HW·softmax((G^s(A^S)+G^s(A^T))/T′)。

其中，使用了上标S和T分别表示学生和教师模型。T’是超参数，调整注意力掩码中元素的分布，如图5和图6所示，在知识蒸馏中，T’越小越强调高注意力值的像素。softmax表示软最大化操作。注意力导向的蒸馏损失L_AGD由注意力迁移损失L_AT和注意力掩码损失L_AM两部分组成。L_AT被用来鼓励学生模型模仿教师模型的空间和频道注意力，这可以被公式化成

L_AT＝L₂(G^s(A^S)，G^s(A^T))+L₂(G^c(A^S),G^c(A^T)) (1)

L_AM被用来鼓励学生通过M^s和M^c屏蔽的L₂规范损失来模仿教师模型的特征，这可以被公式化

非局部蒸馏。

由于不同目标之间的关系以及目标与背景之间的关系在目标检测中包含有价值的信息。通过非局部模块，能够使检测器捕获并利用这些关系，提高检测器的性能。如图2所示，本发明提出了通过非局部模块实现的非局部蒸馏，负责迁移从老师到学生的关系信息。在训练期间，通过非局部模块捕获图像中像素关系信息，然后将其从教师蒸馏到学生，从而使得教师的关系信息由学生学习，并有L₂常规损失。

非局部模块通过捕获全局关系信息提高神经网络的性能，其进行具体的特征关系处理时，如图3。本发明采用非局部模块捕获图像中像素之间的关系，其可以表示为

其中，r_i,j表示获得的i_th列和j_th行像素的关系信息。i，j是其响应将被计算的输出位置的空间索引，并且i′，j′是列举所有可能位置的空间索引。f是用于计算两个像素的关系的成对函数，g是用于计算单个像素的表示的一元函数。如图2所示，本发明将所提出的非局部蒸馏损失L_NLD引入作为学生模型和教师模型的关系信息之间的L₂损失，其可以被表示为L_NLD＝L₂(r^S,r^T)。

最后，引入三个超参数α，β，γ来平衡不同的蒸馏损失。总蒸馏损失可以用公式表示为

L_Distill(A^T,A^S)＝α·L_AT+β·L_AM+γ·L_NLD (3)

总蒸馏损失是一种模型不可知的损失，可以直接加入到任何检测模型的起始训练损失中。超参数的灵敏度的验证如图7所示。

如图4所示，将总蒸馏损失应用于具有不同分辨率的主干特征，完成学生模型的训练，得到对应的检测器。本发明所述的训练方法只针对主干特征，而不涉及深度神经网络的检测头和颈。

需要注意的是，本发明的训练方法中的注意力机制和非局部模块仅在训练期间需要，因此它们在推理期间不引入额外的计算和参数。此外，由于训练的方法是基于特征的蒸馏方法，它不依赖于特定的检测算法，因此它可以直接用于各种检测器而无需任何修改。本发明提供的基于知识蒸馏的图像目标检测方法，通过训练好的检测器对所需要的图像目标进行检测。

在MS COCO2017上，平均可观察到2.9和2.9AP分别在二阶段模型和一阶段模型上的改进。在Mask RCNN上的实验表明，该方法还可以提高实例分割的性能。采用本发明所述的训练方法应用于检测器的效果，具体通过以下实验进行验证。

实验设置如下。

在MS COCO2017上对所提出的知识蒸馏方法进行了评估，MS COCO2017是包含跨越80个类别的120k多幅图像的大规模数据集。基准检测网络由二阶段检测模型和一阶段检测模型组成，二阶段检测模型包括Faster RCNN、Cascade RCNN、Dynamic RCNN和Grid RCNN，一阶段检测模型包括RetinaNet和Fsaf RetinaNet。

此外，还通过Mask RCNN相关模型上评估了本发明所述的方法，包括Mask RCNN和Cascade Mask RCNN。另外，我们还在无需锚点的RepPoints网络上进行了实验。我们采用ResNet50和ResNet101作为每种检测模型的主干网络。在ImageNet Deng等上预训练了主干模型。然后在MS COCO2017上进行微调。将本发明的方法与现有的三种目标检测知识蒸馏方法进行了比较。

本优选实例中所有实验均使用PyTorch和mmdetection框架实施。所有模型都使用8个GPU进行训练，批处理大小为16。学习速率被初始化为0.02，然后衰减两次。对于所有二阶段模型，我们都采用超参数{α＝γ＝7×10^-5,β＝4×10^-3,T＝0.1}，而对于所有一阶段模型，我们都采用{α＝γ＝7×10^-5,β＝4×10^-3,T＝0.5}。

实验结果如下。

表1使用本发明所述的蒸馏方法在MS COCO上的实验。

表2在Mask RCNN上使用本发明所述蒸馏方法在MS COCO上的实验。

表3本发明所述方法与其他蒸馏方法的比较。

表4本发明所述方法中涉及三种蒸馏损失的消融研究。

表5 Faster RCNN50上不同类型的非局部模块的结果。

非局部类型	AP
		嵌入高斯	41.5
点乘	41.4
		级联	41.5
高斯	41.3

如表1和表2中示出了基线检测器和本发明所述方法训练后模型即所述检测器的实验结果，并且将本发明所述的方法与表3中的其他三种知识蒸馏方法进行比较。观察到如下结果，

(i)在所有9种检测器上可以观察到一致的、显著的AP增强。平均起来，二阶段，一阶段检测器，无需锚点的检测器上分别有2.9、2.9、2.2AP改进。

(ii)使用本发明所提出的方法，具有ResNet50主干的学生模型的AP比具有ResNet101主干的相同模型平均高1.2。

(iii)在Mask RCNN相关模型上，平均存在2.3个边界框AP改进和2.0个掩码预测AP改进，表明所提出的方法也可用于实例分割任务。

(iv)平均而言，本发明所述的方法比第二最佳蒸馏方法高2.2的AP。

并且通过如下的消融研究和灵敏度研究，以表明每个蒸馏损失的有效性和稳定性。

消融研究。表4示出了所提出的注意力导向蒸馏(L_AT和L_AM)和非局部蒸馏(L_NLD)的消融研究。观察到(i)2.8和1.4AP改进可以分别仅通过注意力导向蒸馏和非局部蒸馏观察到。(ii)L_AT和L_AM分别导致1.2和2.4的AP改进，表明注意力导向蒸馏的大部分益处在于注意力映射屏蔽的特征损失。(iii)注意力导向蒸馏和非局部蒸馏的组合存在3.1AP改进。这些观察结果表明，在本发明所述的方法中的每个蒸馏损失具有其各自的有效性，并且其可以一起使用以实现更好的性能。

超参数灵敏度研究。本发明涉及的四个超参数，其中α，β，γ用于平衡不同蒸馏损失的量值，并且T用于调节注意力屏蔽的分布。在图7中介绍了四个超参数的灵敏度研究。观察到：与最高AP相比，最差的超参数导致0.3的AP下降，其与基线模型相比仍高出2.9，表明方法对超参数的选择不灵敏。

非局部模块类型的灵敏度研究。有四种非局部模块，包括高斯、嵌入高斯、点乘和级联。表5显示了使用不同类型的非局部模块时，本发明的方法的性能。观察到最差的非局部类型(高斯型)仅比最好的非局部类型(嵌入高斯型和级联)低0.2AP，表明方法对非局部模块的选择不灵敏。

如图8所示，先前基于掩码的检测蒸馏方法与本发明提到的注意力导向蒸馏之间的差异可总结如下：(i)本发明的方法生成具有注意力机制的掩码，同时现有技术中生成具有地面真实边界框和预设锚点的掩码。(ii)本发明的方法中的掩码是像素级掩码，而现有技术中的方法中的掩码是目标级掩码。(iii)本发明计算空间和通道注意力，而现有技术中只使用空间注意力。

总的来说，本发明提出了注意力导向蒸馏和非局部蒸馏，以解决现有技术中存在的两个问题。本发明提出注意力导向蒸馏，通过注意力机制寻找前景目标的关键像素，使学生更加努力地学习其特征。本发明提出非局部蒸馏，使学生不仅能学习单个像素的特征，还能学习非局部模块捕获的不同像素之间的关系。实验表明，该方法在一阶段和二阶段检测器上实现了一致的、显著的AP改进。例如，用我们的蒸馏方法Faster RCNN50在MS COCO上实现了41.5AP，比基线高3.1。

如图8所示，基线和蒸馏检测器之间的检测结果的比较。观察到(i)本发明所述的方法提高了对小目标的检测能力。在前三幅图中，蒸馏模型可以分别正确地检测小汽车、手提包和车内人员。(ii)本发明所述的方法防止模型为相同目标生成多个边界框。在后两幅图中，基线模型为船和列车生成多个边界框，而蒸馏的模型避免了这些误差。

通过分析了图9中的基线和蒸馏模型中的不同类型的检测误差，进行检测错误的类型分析。图例中的数字表示AUC(曲线下面积)。观察到本发明的蒸馏方法导致各种误差的误差降低。换而言之，本发明的方法可以提高定位和分类的能力。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.基于知识蒸馏的图像目标检测器训练方法，其特征在于，包括，

2.根据权利要求1所述的基于知识蒸馏的图像目标检测器训练方法，其特征在于，所述的注意力导向蒸馏，具体包括如下步骤，

3.根据权利要求2所述的基于知识蒸馏的图像目标检测器训练方法，其特征在于，空间注意力映射为映射函数G^s:R^C，H，W→R^H，W，具体表示如下，

4.根据权利要求3所述的基于知识蒸馏的图像目标检测器训练方法，其特征在于，注意力掩码损失L_AM表示如下，

5.根据权利要求2所述的基于知识蒸馏的图像目标检测器训练方法，其特征在于，所述的空间注意力掩码和频道注意力掩码分别如下所示，

M^s＝HW·softmax((G^s(A^S)+G^s(A^T))/T′)；

6.根据权利要求5所述的基于知识蒸馏的图像目标检测器训练方法，其特征在于，注意力迁移损失L_AT表示如下，

L_AT＝L₂(G^s(A^S)，G^s(A^T))+L₂(G^c(A^S),G^c(A^T))。

7.根据权利要求1所述的基于知识蒸馏的图像目标检测器训练方法，其特征在于，非局部蒸馏损失L_NLD引入作为学生模型S和教师模型T的关系信息之间的L₂损失，其可以被表示为L_NLD＝L₂(r^S,r^T)；

其中，r_i,j表示获得的i_th列和j_th行像素的关系信息；i，j是其响应将被计算的输出位置的空间索引，并且i′，j′是列举所有可能位置的空间索引；f是用于计算两个像素的关系的成对函数，g是用于计算单个像素的表示的一元函数。

8.根据权利要求1所述的基于知识蒸馏的图像目标检测器训练方法，其特征在于，总蒸馏损失用公式表示为

L_Distill(A^T,A^S)＝α·L_AT+β·L_AM+γ·L_NLD；

其中，三个超参数α，β，γ来平衡不同的蒸馏损失。

9.基于知识蒸馏的图像目标检测器，其特征在于，由权利要求1-8任意一项所述的训练方法训练得到。

10.基于知识蒸馏的图像目标检测方法，其特征在于，由权利要求9所述的检测器对图像目标进行检测。