CN114863248A

CN114863248A - 一种基于深监督自蒸馏的图像目标检测方法

Info

Publication number: CN114863248A
Application number: CN202210199571.7A
Authority: CN
Inventors: 乐鹏; 王明; 姜良存; 张晨晓
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2022-08-05
Anticipated expiration: 2042-03-02
Also published as: CN114863248B

Abstract

本发明公开了一种基于深监督自蒸馏的图像目标检测方法。该方法通过深监督自蒸馏的方式来强化火灾检测模型对旧图像集特征知识的学习能力，并重点基于损失函数权重自适应方法，指导模型在训练过程中自动均衡新旧数据集的特征重要性。从而确保模型能够实现高效的增量更新，并进一步提升模型的泛化性能。本发明方法可以有效避免灾难性遗忘问题的发生，并以自适应的方式最大程度上均衡新旧数据集特征知识的重要性，可以在不增加模型参数量、不更改模型架构的情况下实现模型的增量更新，对于模型的更新换代以及泛化性能提升具有重要意义。

Description

一种基于深监督自蒸馏的图像目标检测方法

发明领域

本发明属于计算机科学领域，涉及计算机视觉、目标检测、深度学习、增量学习(在线学习)领域，具体涉及一种基于深监督自蒸馏的图像目标检测方法。

背景技术

基于深度学习的目标检测模型性能是由数据驱动的，大规模、高质量的多源异质数据集有助于提升模型的泛化性能。然而，大量与日俱增的新数据会导致模型训练工作无法一劳永逸，需要不断进行模型训练以学习新增数据的特征分布。但是，在原有模型基础上基于离线学习的方式直接训练新增数据会出现灾难性遗忘问题，即模型学习新增数据的过程可能会遗忘掉之前学到的旧数据特征。因此，亟需一种高效的增量学习方法确保模型在保持旧数据特征不丢失的情况下学习到更多新增数据的特征。

目前，增量学习领域已经涌现出许多抑制灾难性遗忘现象的研究工作，包括模型修改、正则化、预演或重放、再平衡和知识蒸馏等方法。模型修改方法往往需要修改模型网络架构以适应新增数据；通过正则化约束参数权重的方法计算成本比较大且对于大规模数据集效果不明显；重放方法一般需要将之前的部分数据或数据特征再次输入模型进行训练，会增大内存消耗和延长训练时间；知识蒸馏方法通过将原有模型(教师模型)存储的旧数据的知识迁移到新模型(学生模型)中实现数据特征的继承，但是不恰当的知识蒸馏配置方案可能导致效果不佳；再平衡方法通过消除模型对新增数据的偏向来减轻灾难性遗忘，有助于提高增量学习性能，但是基于专家经验定义的平衡方法难以有效平衡模型对新旧数据的学习能力。

发明内容

为解决上述问题，本发明提出了一种基于深监督自蒸馏的图像目标检测方法。该方法通过深监督自蒸馏的方式来强化火灾检测模型对旧图像集特征知识的学习能力，并重点基于损失函数权重自适应方法，指导模型在训练过程中自动均衡新旧数据集的特征重要性。从而确保模型能够实现高效的增量更新，并进一步提升模型的泛化性能。该方法主要包括以下步骤：

步骤1，构建目标检测图像数据集，首先对所有数据进行数据清洗工作，并为目标图像标注标签；然后，根据数据集的具体收集情况将所有数据划分为旧数据集和新增数据集两个类别，以模拟现实环境中频繁增加和更新的流式数据状态，从而用来对比本发明方法与其他方法的检测效果以及解决灾难性遗忘问题的能力；

步骤2，搭建面向增量学习的深监督自蒸馏目标检测模型。该模型由两个架构完全一致的神经网络并行构成，分别称为教师模型和学生模型。教师模型主要负责学习旧数据集特征知识，并将其学到的知识传授给学生模型；而学生模型通过深监督的方式从教师模型中学习旧数据集特征知识，同时还会从新数据集中学习新的知识。设计权重自适应的深监督损失函数，其主要由基于深监督特征蒸馏损失、输出蒸馏损失和真值损失构成。

步骤3，训练教师模型。基于旧数据集训练教师模型，尽可能学习并储存旧数据集的特征分布知识，然后保存训练好的教师模型用于后续的学生模型损失函数的计算；

步骤4，训练学生模型。将新数据集同时作为教师模型和学生模型的输入数据，通过前向传播方式计算教师模型和学生模型的输出值，进而计算模型的深监督损失，包括教师模型特征图与学生模型特征图之间的损失(特征蒸馏损失)、教师模型预测结果与学生模型预测结果之间的损失(输出蒸馏损失)以及学生模型预测结果和真实值的损失(真值损失)，以实现后续的知识蒸馏和模型更新；

步骤5，知识蒸馏和模型更新。基于步骤4中深监督损失结果，通过反向传播的方式计算学生模型中所有权重的梯度，并根据权重的梯度对学生模型进行权重更新。然后，通过多次前向传播-反向传播过程对模型进行迭代训练，随着损失函数不断下降，逐步将新数据集的知识以及教师模型的知识蒸馏到学生模型之中，并逐步完善和优化学生模型参数，直至达到指定的迭代训练次数上限即为训练完成。通过这种深监督自蒸馏的方式，可以实现学生模型模型对新增数据集的增量学习以及模型的增量更新。利用训练好的学生模型对新数据集和旧数据集进行预测并评估其预测效果，完成面向增量学习的目标检测任务。

进一步的，在步骤2中，搭建面向增量学习的深监督自蒸馏目标检测模型的具体过程如下：

首先，选定多个教师模型和学生模型共有的特征图层作为特征蒸馏的关键层；然后，基于MSE(Mean Square Error，均方误差)设计特征蒸馏损失，以实现在教师模型和学生模型所有对应的关键层之间搭建多个用于特征蒸馏的桥梁，此损失称为深监督特征蒸馏损失；均方误差计算公式如下：

其中，y_i表示第i个样本的标签真值，

表示第i个样本的预测值，n表示样本数量。

同时，基于MSE公式在教师模型与学生模型输出结果之间构建输出蒸馏损失，用于衡量教师模型和学生模型输出结果之间的差异；此外，基于MSE公式设计真值损失用于衡量学生模型输出结果与真值的差异。需要注意的是，我们对所有特征蒸馏损失和输出蒸馏损失设置了可学习的权重参数，以便网络自适应地去平衡新旧数据集之间特征的重要性。特征蒸馏损失、输出蒸馏损失、真值损失以及权重的偏差加权求和结果共同构成了整个模型的深监督损失函数；

进一步的，模型深监督损失函数的具体计算方式如下：

其中，L_f,L_o,L_gt分别表示特征蒸馏损失、输出蒸馏损失和真值损失，

表示第i个特征蒸馏损失的权重，w_o表示输出蒸馏损失的权重。所有权重均由网络自适应学习获得，为防止权重变化幅度过大导致梯度消失或爆炸，对权重进行了如下约束：

n表示参与特征蒸馏的特征图层个数；w_o∈(0.1,10)。同时，通过

和O_bias来记录自适应权重与约束范围的偏差，

表示第i个特征蒸馏损失的权重偏差，O_bias表示输出蒸馏损失的权重偏差。将这些偏差添加到损失函数中，从而可以通过反向传播过程促使模型自动调整权重参数去符合权重的约束范围。进而，保证教师模型记忆的旧数据集知识可以迁移到学生模型中，同时学生模型还可以学习到新数据集的特征分布。

与现有技术相比，本发明方法既利用深监督自蒸馏的方式避免旧数据集检测过程中灾难性遗忘现象的发生，又基于自适应权重的方式通过迭代反馈机制使得该方法可以更好地均衡新旧数据集的特征重要性，且不需要大量重复实验确定实验参数，提高了模型的泛化能力和检测性能。相比已有方法，该方法在平均精度以及查准率和查全率等评估指标上均表现出比较明显的性能提升。

附图说明

图1本发明提出的深监督自蒸馏图像目标检测网络架构图。

图2为本发明方法与已有方法在旧数据集上的预测结果图，其中(a)为离线学习方法在示例图像上的预测结果图，(b)为基于输出结果的自蒸馏方法在示例图像上的预测结果图，(c)为本发明方法在示例图像上的预测结果图，(d)为带有真值标签的示例图像。

具体实施方式

下面对结合附图对本发明作进一步的说明。

如图1所示，本发明提出了一种基于深监督自蒸馏的图像目标检测方法，主要包括以下步骤：

步骤1，构建目标检测图像数据集。本实施例收集了101087张包含火焰和烟雾的图像用于目标检测任务，首先对所有数据进行重复图像和损坏图像去除等数据清洗工作，然后对所有清洗后的数据进行图像标签标注工作；然后，将数据集中所有普通的计算机视觉图像归类为旧数据集，并将所有的遥感图像归类为新数据集以模拟现实环境中后续收集的新增数据，从而用来对比本发明方法与其他方法的目标检测效果以及解决灾难性遗忘问题的能力；

步骤2，搭建面向增量学习的深监督自蒸馏目标检测模型。本实施例基于YOLOv5s设计了一种基于深监督自蒸馏(DSSKD，Deeply Supervised Self KnowledgeDistillation)的图像目标检测方法DSSKD-YOLOv5s。如图1所示，它由两个架构完全一样的目标检测网络YOLOv5s构成，一个称为教师模型(图1上侧网络)，另一个称为学生模型(图1下侧网络)。教师模型负责学习旧数据集的特征知识，并将学到的知识传授给学生模型；学生模型负责从教师模型中学习旧数据集特征知识，同时还会学习新数据集中的特征知识。此外，本发明方法重点针对模型损失函数进行改进和优化，并设计了权重自适应的深监督损失函数，其主要由深监督特征蒸馏损失、输出蒸馏损失和真值损失构成。首先，在YOLOv5s的主干网络中选取8个结构最复杂的特征映射层以及检测模块的3个卷积层共11个特征图作为特征蒸馏的关键层；然后，基于公式1设计特征蒸馏损失、输出蒸馏损失和真值损失；同时，基于公式2-4进行模型损失函数的总体设计，并对所有特征蒸馏损失和输出蒸馏损失设置可学习的权重参数，以便网络自适应地平衡新旧数据集之间特征的重要性；

其中，y_i表示第i个样本的标签真值，

表示第i个样本的预测值，n表示样本数量。

和O_bias来记录自适应权重与约束范围的偏差，

表示第i个特征蒸馏损失的权重偏差，O_bias表示输出蒸馏损失的权重偏差。将这些偏差添加到损失函数中，从而可以通过反向传播过程促使模型自动调整权重参数去符合权重的约束范围。进而，保证教师模型记忆的旧数据集知识可以迁移到学生模型中，同时学生模型还可以学习到新数据集的特征分布。步骤3，训练教师模型。基于旧数据集训练教师模型，尽可能学习并储存旧数据集的特征分布知识，然后保存训练好的教师模型用于后续的学生模型损失函数的计算；

步骤4，训练学生模型。将新数据集同时作为教师模型和学生模型的输入数据，通过前向传播方式计算教师模型和学生模型的输出值。进而，计算模型的深监督损失，包括教师模型特征图与学生模型特征图之间的损失(特征蒸馏损失)、教师模型预测结果与学生模型预测结果之间的损失(输出蒸馏损失)以及学生模型预测结果和真实值的损失(真值损失)，以实现后续的知识蒸馏和模型更新；

步骤5，知识蒸馏和模型更新。基于步骤4中得到的深监督损失结果，通过反向传播的方式计算学生模型中所有权重的梯度，并根据权重的梯度对学生模型进行权重更新。然后，通过多次前向传播-反向传播过程对模型进行迭代训练，随着损失函数不断下降，逐步将新数据集的知识以及教师模型的知识蒸馏到学生模型之中，并逐步完善和优化学生模型参数，直至达到指定的迭代训练次数上限(本实施例设置为300)即为训练完成。通过这种深监督自蒸馏的方式，可以实现学生模型对新增数据集的增量学习以及模型的增量更新。利用训练好的学生模型对新数据集和旧数据集进行预测并评估其预测效果，完成面向增量学习的目标检测任务。

表1展示了本发明方法与已有方法在旧数据集和新数据集上的精度评估对比结果。其中OL-YOLOv5s为离线学习(Offline Learning，OL)方法，SKD-YOLOv5s为基于输出结果的自蒸馏(Self Knowledge Distillation，SKD)方法，DSSKD-YOLOv5s为本发明提出的深监督自蒸馏方法。在旧数据集上，OL-YOLOv5s表现出了明显的灾难性遗忘现象，仅达到了9.87％的平均精度均值；与其相比，本方法在总体精度上提升了34.83％，在查准率上获得了30.75％的精度提升，在查全率上获得了30.62％的精度提升；与SKD-YOLOv5s相比，在总体精度上提升了6.24％，在查准率和查全率分别获得了6.06％和4.38％的精度提升；在新数据集上，虽然OL-YOLOv5s获取了47.82％的最高平均精度均值，但本方法也达到了与其接近的平均精度均值45.11％，且比SKD-YOLOv5s高出了3.51％。值得注意的是，本发明方法在旧数据集和新数据集上均取得了极具竞争力的检测精度，表现出了最优的特征知识平衡能力。

表1不同目标检测方法精度对比

图2展示了本发明方法与已有方法在旧数据集上的预测结果图。在OL-YOLOv5s的预测结果(图2a)中，遗漏掉了大面积的火焰和烟雾目标，清晰地展现了离线学习方法普遍存在的灾难性遗忘现象；在SKD-YOLOv5s的预测结果(图2b)中，可以检测出图像中大部分的火焰和烟雾目标，但在图像左侧的火焰和右侧的烟雾边缘部分仍表现出了少量的漏检测现象；而在本发明方法DSSKD-YOLOv5s的预测结果(图2c)中，可以比较完整地检测到图像中所有火焰和烟雾存在的目标区域，与图像标签所标示区域基本一致，表现出了良好的检测效果。

综上所述，本发明方法同时在旧数据集和新数据集上取得了令人满意的查准率、查全率以及平均精度等精度评估结果以及可视化效果，有效避免了灾难性遗忘问题的发生，并以自适应的方式最大程度上均衡了新旧数据集特征知识的重要性，可以在不增加模型参数量、不更改模型架构的情况下实现模型的增量更新，对于模型的更新换代以及泛化性能提升具有重要意义。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于深监督自蒸馏的图像目标检测方法，其特征在于，包括如下步骤：

步骤1，构建目标检测图像数据集，首先对所有数据进行数据清洗工作，并为目标图像标注标签；然后，根据数据集的具体收集情况将所有数据划分为旧数据集和新增数据集两个类别，以模拟现实环境中频繁增加和更新的流式数据状态；

步骤2，搭建面向增量学习的深监督自蒸馏目标检测模型，该模型由两个架构完全一致的神经网络并行构成，分别称为教师模型和学生模型；其中教师模型负责学习旧数据集特征知识，并将其学到的知识传授给学生模型；而学生模型通过深监督的方式从教师模型中学习旧数据集特征知识，同时还会从新数据集中学习新的知识；

步骤3，训练教师模型，基于旧数据集训练教师模型，尽可能学习并储存旧数据集的特征分布知识，然后保存训练好的教师模型用于后续的学生模型损失函数的计算；

步骤4，训练学生模型，将新数据集同时作为教师模型和学生模型的输入数据，通过前向传播方式计算教师模型和学生模型的输出值，进而计算模型的深监督损失函数，包括教师模型特征图与学生模型特征图之间的损失，即特征蒸馏损失，教师模型预测结果与学生模型预测结果之间的损失，即输出蒸馏损失，以及学生模型预测结果和真实值的损失，即真值损失，以实现后续的知识蒸馏和模型更新；

步骤5，知识蒸馏和模型更新，基于步骤4中深监督损失结果，通过反向传播的方式计算学生模型中所有权重的梯度，并根据权重的梯度对学生模型进行权重更新；然后，通过多次前向传播-反向传播过程对模型进行迭代训练，随着损失函数不断下降，逐步将新数据集的知识以及教师模型的知识蒸馏到学生模型之中，并逐步完善和优化学生模型参数，直至达到指定的迭代训练次数上限即为训练完成，利用训练好的学生模型对新数据集和旧数据集进行预测并评估其预测效果，完成面向增量学习的目标检测任务。

2.如权利要求1所述的一种基于深监督自蒸馏的图像目标检测方法，其特征在于：特征蒸馏损失的具体计算过程如下；

首先，选定多个教师模型和学生模型共有的特征图层作为特征蒸馏的关键层；然后，基于MSE设计特征蒸馏损失，以实现在教师模型和学生模型所有对应的关键层之间搭建多个用于特征蒸馏的桥梁，此模块称为深监督特征蒸馏模块；均方误差计算公式如下：

其中，y_i表示第i个样本的标签真值，

表示第i个样本的预测值，n表示样本数量。

3.如权利要求1所述的一种基于深监督自蒸馏的图像目标检测方法，其特征在于：特征蒸馏损失、输出蒸馏损失、真值损失以及权重的偏差加权求和结果共同构成了整个模型的深监督损失函数；

模型深监督损失函数的具体计算方式如下：

表示第i个特征蒸馏损失的权重，w_o表示输出蒸馏损失的权重；所有权重均由网络自适应学习获得，为防止权重变化幅度过大导致梯度消失或爆炸，对权重进行了如下约束：

n表示参与特征蒸馏的特征图层个数；w_o∈(0.1,10)；同时，通过

和O_bias来记录自适应权重与约束范围的偏差，

表示第i个特征蒸馏损失的权重偏差，O_bias表示输出蒸馏损失的权重偏差。

4.如权利要求1所述的一种基于深监督自蒸馏的图像目标检测方法，其特征在于：基于MSE公式在教师模型与学生模型输出结果之间构建输出蒸馏损失，用于衡量教师模型和学生模型输出结果之间的差异；此外，基于MSE公式设计真值损失用于衡量学生模型输出结果与真值的差异。

5.如权利要求1所述的一种基于深监督自蒸馏的图像目标检测方法，其特征在于：教师模型和学生模型均为目标检测网络YOLOv5s。

6.如权利要求2所述的一种基于深监督自蒸馏的图像目标检测方法，其特征在于：从YOLOv5s的主干网络中选取8个结构最复杂的特征映射层以及检测模块的3个卷积层共11个特征图作为特征蒸馏的关键层。