CN115546581A

CN115546581A - 一种解耦的增量目标检测方法

Info

Publication number: CN115546581A
Application number: CN202211195522.2A
Authority: CN
Inventors: 杨云; 林钰尧; 张炎
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2022-12-30

Abstract

本发明公开了一种解耦的增量目标检测方法，包括以下步骤：S1：目标检测数据集预处理：目标检测数据集由安防检测系统中基本检测目标的图像组成；基本检测目标为安防检测系统中已实现检测的旧类别；S2：对目标检测模型进行初始学习；S3：对目标检测模型进行增量学习；S4：对增量学习后的目标检测模型进行平衡微调；S5：将调整后的目标检测模型部署在安防检测系统中，调整后的目标检测模型根据输入的目标图像进行增量目标检测，并将检测结果进行保存。本发明在保留旧类别检测性能的前提下能够动态增加检测类别、不会产生检测偏好，能够更好的满足安防检测系统需要经常动态增加检测类别并快速部署的要求。

Description

一种解耦的增量目标检测方法

技术领域

本发明属于增量目标检测技术领域，特别是涉及一种解耦的增量目标检测方法。

背景技术

近年来，物体检测方法获得了很大的进步，基于卷积神经网络的物体检测方法在PASCAL VOC和COCO等基准上取得了最先进的成果。然而，现有方法的有效性是基于这样一个强烈的假设：要检测的类别是事先定义好的，并且在训练阶段所有类别的数据都是可用的。在现实中，新的兴趣类别会随着时间的推移而出现，这就要求物体检测方法能够动态地学习新的类别以满足新的应用要求。例如，在需要检测场景中是否存在电子产品的智能安防领域，检测的目标往往需要动态增加，会根据需求增加需要检测的电子产品类别。

因此，增量学习引起了人们极大的研究兴趣，它利用新类别的样本持续更新训练模型。作为研究分支之一，增量目标检测是一项比增量分类和目标检测都更具挑战性的任务。实现增量目标检测的一个自然方法是在新数据上对预训练的模型进行微调。然而，这种方法面临一个棘手的挑战--灾难性的遗忘。更具体地说，在新数据上对模型进行微调通常会导致在以前的数据上出现明显的性能下降。为了解决这个问题，大多数增量目标检测方法利用知识蒸馏来确保分类逻辑和回归目标不出现明显的变化。然而，知识蒸馏法在训练过程中所添加的额外正则化项会使其难以学习新的类别。这个问题也被称为稳定性-可塑性困境，一方面，模型需要学习更多的新知识来实现可塑性，另一方面，模型需要保留更多的旧知识来实现稳定性。

目前，Faster R-CNN被广泛用作增量物体检测方法的基本检测器。然而，它的原始结构是为传统检测设计的，缺乏对增量学习场景的专门考虑，这限制了该方法的上限。例如，Faster R-CNN包含了RPN和RCNN这两个重要组件，然而由于这两种组件需要完成的任务不同，在通过共享骨干网络在之间进行端到端的联合优化时会遇到难以优化的问题。此外，由于大多数增量目标检测方法会通过知识蒸馏提炼共享骨干网络特征，导致优化困难问题将会进一步加剧。同时，还发现Faster R-CNN在增量训练过程中会出现类别不平衡的问题。具体来说，训练方法只得到了没有或很少的旧类别的样本，但有足够的新类别的样本。在这种情况下，训练过程的重点会明显偏向于新的类别，导致分类器的权重和偏差都更有利于新的类别，从而加剧模型对于旧类的遗忘。

所以，目前在目标检测问题中，仍然存在以下三个问题：

(1)传统的目标检测方法是静态的，当需要模型识别新的类别时，模型需要使用所有的数据进行重新训练，这会导致当存储资源有限，不足以保存全部数据的时候，模型的识别精度无法保证；同时重新训练模型需要消耗大量的算力，会耗费大量的时间，同时也会付出大量的经济成本(如电费、服务器租用费等)。

(2)Faster R-CNN原始结构(如图1)是为传统检测设计的，缺乏对增量学习场景的专门考虑，这限制了现有方法的上限。具体的说，就是基于Faster R-CNN的增量目标检测方法存在骨干网络难以优化问题，很难应用于增量学习中。

(3)为了区分新类别和旧类别，模型在计算损失函数时会使用所有类别的logit。在增量学习过程中，由于数据的不平衡问题，Faster R-CNN输出层将会向新类偏移，导致与旧类有关的权重会被错误的更新。

传统目标检测的上述三个问题，在实际智能安防领域中尤为突出。其表现为智能安防领域的需求往往是动态变化的，其需要检测的物品类型会随着时间的推移逐渐增加。而传统的目标检测在每次增加检测的新类别时都需要重新开始训练，大大增加了训练的时间成本。而增量的目标检测方法能使用增量的方式为目标检测模型动态的增加检测类别，这减少了在需求变化时模型所需要的训练时间，减少训练成本的同时实现了在智能安防领域需要快速部署的需求。并且若系统为了存储等方面的考虑已经丢失大部分旧数据，那么传统的目标检测模型在重新训练后会在检测时严重偏向于新添加的类别，严重降低了目标检测的性能。

发明内容

本发明实施例的目的在于提供一种解耦的增量目标检测方法，在保留旧类别检测性能的前提下能够动态增加检测类别、不会产生检测偏好，能够更好的满足安防检测系统需要经常动态增加检测类别并快速部署的要求。

为解决上述技术问题，本发明所采用的技术方案是，一种解耦的增量目标检测方法，包括以下步骤：

S1：目标检测数据集预处理：将原始的目标检测数据集划分为训练集、验证集和测试集；同时对训练集进行数据增强操作；所述原始的目标检测数据集由安防检测系统中基本检测目标的图像组成；所述基本检测目标为安防检测系统中已实现检测的旧类别；

S2：对目标检测模型进行初始学习：将训练集输入到目标检测模型后，RPN网络提取proposal，而后将proposal提交给RCNN进行进一步处理，得到分类和回归结果，最后通过损失函数计算相应损失并通过反向传播对目标检测模型进行优化；

S3：对目标检测模型进行增量学习：利用新类数据和部分旧类数据进行训练，训练过程除了包含初始学习阶段的步骤外，还通过知识蒸馏在模型Backbone层和RCNN层进行特征蒸馏来保留相应的旧知识；所述新类数据为后续根据安防检测系统的需求需要增加的新品类的图像；所述旧类数据为安防检测系统中的基本检测目标的图像；

S4：对增量学习后的目标检测模型进行平衡微调；

S5：将调整后的目标检测模型部署在安防检测系统中，调整后的目标检测模型根据输入的目标图像进行增量目标检测，并将检测结果进行保存。

进一步地，所述目标检测模型为使用了解耦模块和Cosine分类器的Faster R-CNN模型，其中，所述解耦模块为通道级别，分别添加于RCNN和RPN之前；所述Cosine分类器位于分类层，用于获取没有分类偏好的分类结果。

进一步地，所述S2具体为：

S21:将训练集的图像输入至目标检测模型的Backbone，Backbone包含一系列卷积神经网络用来进行特征提取，经过卷积神经网络的处理，Backbone输出一个高维的FeatureMap；Feature Map再经过解耦模块，将输出分别输出Feature Map_RPN和Feature Map_RCNN；

S22:目标检测模型为Feature Map_RPN生成一系列anchor，随后RPN网络对上一步生成的Feature Map_RPN进行一个3×3的卷积操作，然后分两条路径，一条判断anchor所属的类别属于前景还是背景，另一条计算bounding box的预测值；RPN网络最后通过TopK分类提取K个分数高的anchor作为proposal输出；

S23:将proposal和Feature Map_RCNN相对应从而得到proposal feature，然后将proposal feature送入RCNN网络进行分类和回归操作，最后通过损失函数计算相应损失并通过反向传播进行目标检测模型优化。

进一步地，所述S3中的知识蒸馏包括以下步骤：

S31：加载两次步骤S2中优化的模型，其中一个模型进行冻结作为教师模型，另一个模型不进行冻结作为学生模型；

S32：收集教师模型和学生模型产生的Feature Map并通过均方根误差进行优化，从而让两者的Feature Map差异最小；

S33：分别收集教师模型和学生模型在RCNN层从Cosine分类器中输出相应的分类logic，并通过cosine Embedding Loss对属于旧类的logic进行优化，让教师模型和学生模型的分类结果最相似，从而让新学习的目标检测模型保留之前目标检测模型对于旧类别的性能。

进一步地，所述S4进行平衡微调的过程包括以下步骤：

S41：对新旧数据进行平衡处理，新旧类数据分别只保留十张作为训练数据；

S42：将学习率调节为步骤S3中增量学习阶段的百分之一，防止大幅度修改模型参数。

本发明的有益效果是：

本发明由于拥有增量特性，减少了训练的时间成本和资源成本，能够更好的适用于需要增加检测类别并需要快速进行部署的安防检测系统。

本发明能够根据实际的检测需求不断学习新的检测类别，并且在学习过程中只需提供新类的数据(如电子平板)以及少量旧类数据(如手机、手表、移动硬盘中的一个或多个)，从而缓解了数据隐私问题并极大降低了训练成本。

本发明通过在RCNN和RPN前面分别增加一个通道级的解耦模块,使骨干网络能够学习到更多可泛化和可转移的特征，解耦模块提供的额外参数又让模型具有更大的学习能力，从而改善可塑性和维持稳定性之间的权衡。

本发明使用Cosine(余弦)分类器来缓解模型对于新种类的偏好，解决数据不平衡导致的分类偏好问题。

本发明通过平衡微调，进一步提升了增量目标检测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是传统的Faster R-CNN结构图。

图2是本发明实施例的目标检测模型的训练方法图。

图3是本发明实施例的目标检测模型的网络结构图。

图4是本发明实施例的增量目标检测方法流程图。

图5是本发明实施例中初始学习15类，接下来学习5个连续的类的实验结果图。

图6是本发明实施例的初始学习15类，接下来学习其他5类的实验结果图。

图7是本发明实施例的初始学习10类，接下来学习10类的实验结果图。

图8是本发明实施例的初始学习19类，接下来学习1类实验结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图2-图3所示，本发明公开了一种使用解耦模块和Cosine分类器的Faster R-CNN增量目标检测方法，该方法首先在RCNN和RPN前各添加一个通道级别的解耦模块，现有的模型RCNN和RPN都使用同一个Feature Map，存在信息相互干扰的问题，解耦模块能够生成专门适用于RCNN和RPN的特征，缓解RCNN和RPN之间的信息干扰，有助于模型性能的提升，并减少知识的遗忘。其次在分类层使用Cosine分类器来获取没有分类偏好的分类结果。在增量阶段训练过程中，将使用知识蒸馏来捕获上一个阶段目标检测模型的特征生成情况，从而保留知识，由于本发明属于增量学习的范畴，所以将训练分为初始阶段和增量阶段。如图4所示，其具体的流程如下：

S1：目标检测数据集预处理：将原始的目标检测数据集划分为训练集、验证集和测试集。同时对训练集进行一定的数据增强操作，从而增加输入图像的可变性，使所设计的目标检测模型对在不同环境下获得的图像具有更高的鲁棒性。原始的目标检测数据集由安防检测系统中基本检测目标的图像组成；所述基本检测目标为安防检测系统中已实现检测的旧类别；

S2：初始学习阶段：初始学习阶段即为常规学习阶段，在安防检测系统中初始学习阶段是为了学习被要求检测出的基本目标种类(如手机、手表、移动硬盘。)将训练集输入到目标检测模型后，RPN网络(即Region Proposal Network，Region Proposal的中文意思是“区域选取”，RPN是用来提取候选框的网络)将提取proposal，而后将proposal提交给RCNN进行进一步处理，得到分类和回归结果，最后通过损失函数计算相应损失并通过反向传播进行模型优化。

S3：增量学习阶段：增量学习阶段是当检测的目标种类需要增加时(在智能安防领域检测出手机、手表、移动硬盘等旧类别的同时还需要检测出“电子平板”这一新的类别)所进行的学习阶段，增量学习阶段将会利用新类数据和部分旧类数据进行训练，其训练过程除了包含初始学习阶段的步骤外，还需要通过知识蒸馏在Backbone层和RCNN层进行特征蒸馏来保留相应的旧知识从而防止灾难性遗忘。所述新类数据为后续根据安防检测系统的需求需要增加的新品类(如电子平板等新类别)的图像；所述旧类数据为安防检测系统中的基本检测目标(如手机、手表、移动硬盘等旧类别)的图像；

S4：平衡微调阶段：平衡微调阶段所使用的训练数据和增量学习阶段不同，其新旧类数据的数据量将保持一致，相较于增量学习阶段，该阶段将会以更低的学习率进行学习。

S5：将调整后的目标检测模型部署在实际的应用系统中(如安防检测系统)，调整后的目标检测模型根据输入的目标图像进行增量目标检测，并将检测结果进行保存。

进一步S2的训练过程为：

S21：将图像输入至Backbone(骨架网络，用于提取图像特征)，Backbone包含一系列卷积神经网络用来进行特征提取，经过卷积神经网络的处理，Backbone将会输出一个高维的Feature Map(特征映射，是神经网络中卷积运算生成的结果)。这个Feature Map再经过解耦模块，将输出分别输出Feature Map_RPN和Feature Map_RCNN。

S22：模型会根据配置为Feature Map_RPN生成一系列anchor(预定义的边界框)，随后RPN网络会对上一步生成的Feature Map_RPN进行一个3×3的卷积操作，然后分两步走，一条去判断anchor所属的类别属于前景还是背景，另一条计算boundingbox(anchor在图像中的坐标信息)的预测值。RPN网络最后将会通过TopK分类提取K个分数高的anchor作为proposal输出。

S23：将proposal和Feature Map_RCNN相对应从而得到proposal feature(提议特征，具体是指根据proposal的坐标信息从Feature Map中提取出来的相对应的特征)，然后将proposal feature送入后续的RCNN网络进行分类和回归操作，最后通过损失函数计算相应损失并通过反向传播进行模型优化。

在本发明中，TopK分类是指，由于本发明的模型会生成一系列的anchor，对于每一个anchor，RPN网络都会为其分配一个0-1的概率值来判断它是属于前景和背景，概率值的数值越大，那么这个anchor就越可能是前景，本发明中取前K个概率值大的anchor作为proposal。

进一步S3的知识蒸馏包括以下步骤：

S31：增量学习需要使用知识蒸馏技术来保留知识，因此增量学习阶段需要加载两次之前优化的模型，其中一个模型进行冻结——教师模型，另一个模型不进行冻结——学生模型。

S32：教师模型和学生模型的Backbone都会生成相应的Feature Map，本发明将收集这两个模型产生的Feature Map并通过均方根误差进行优化，从而让两者的Feature Map差异尽可能小。

S33：教师模型和学生模型在RCNN层都会从Cosine分类器中输出相应的分类logic，本发明将收集这两个模型的logic并通过Cosine Embedding Loss(余弦相似度损失函数，用于判断输入的两个logic是否相似)对属于旧类的logic进行优化，从而让两者的分类结果尽可能相似，从而让新学习的模型保留之前模型对于旧类别的性能。

进一步S4进行平衡微调的过程包括以下步骤：

S41：平衡微调需要新旧数据进行平衡处理，新旧类数据将分别只保留十张作为训练数据。

S42：将学习率调节为增量阶段的百分之一，从而防止大幅度修改模型参数，导致模型的过拟合。

进一步地，本发明中的目标检测模型为使用解耦模块和Cosine分类器的FasterR-CNN模型，其中，所述解耦模块为通道级别，添加于RCNN和RPN之前；所述Cosine分类器位于分类层，用于获取没有分类偏好的分类结果。

实施例：

1.实验数据集

本发明使用目标检测常用的基准数据集，VOC 2007和MS Coco 2014。VOC2007是一个用于图像识别的数据集，一共包含20个类别，它总共包含9963幅图像，其中50％的数据被分割为train/val数据集，其余部分用于测试数据集。MS Coco 2014一共包含80个类别，其中训练集里有83000张图片，验证集里有41000张图片。由于MS COCO的测试集不可用，本发明使用验证集进行评估模型性能。

2.数据集划分

对于Pascal VOC，本发明按字母顺序对类进行排序，并通过将它们分组来创建多个任务。本发明考虑四个不同的设置，按照难度的递减顺序：(A)第一个任务T1包含初始的15个类，以及接下来的五个连续任务(T2···T6)，每个都包含一个新的类。(B)包含前15个类别的T1和包含其余5个类别的T2。(C)T1包含前10个类别，T2包含其他10个类别。(D)将T1中的所有初始19个类和最后一个类归类为T2。对于MS Coco，本发明使用前40个类作为任务T1，其余的作为任务T2。

3.结果评估

阈值为0.5IOU(IOU的全称为交并比(Intersection over Union)，是目标检测中使用的一个概念，IoU计算的是“预测的边框”和“真实的边框”的交叠率，即它们的交集和并集的比值。最理想情况是完全重叠，即比值为1)的平均精度均值(Map@50)被用作两个数据集的主要评估指标。对于MS Coco 2014，本发明还评估了平均精准率和召回率。

首先，本发明在VOC数据集上对IoU阈值为0.5的类平均精度和相应的平均精度均值进行了评估，如图5至图8所示。从图5至图8可以看出，本发明的方法在VOC 2007数据集上的旧类准确率和新类准确率上都表现出了良好的性能，其中所有实验配置在mAP评估指标上都达到了最优。

表1表明本发明的方法在各种评估指标中都达到了非常好的效果，除了AP^s外，其他的评估指标都达到了最优。表1中的第一行是衡量目标检测性能的评估指标，其中，AP指Average Precision，对于每一个类，都可以计算出Precision(P，分类器认为是正类并且确实是正类的部分占分类器认为是正类的比例)和Recall(R，分类器认为是正类并且确实是正类的部分占所有确实是正类的比例)，从而得到一条P-R曲线，曲线下的面积就是AP的值；AP⁵⁰指IOU阈值为0.5时的平均精度均值；AP⁷⁵指IOU阈值为0.75时的平均精度均值；AP^s指小物体的平均精度均值；AP^m指中等物体的平均精度均值；AP^l指大物体的平均精度均值；All80是增量目标检测的性能上限，iOD(Kj J,Rajasegaran J,Khan S,et al.Incrementalobject detection via meta-learning[J].IEEE Transactions on Pattern AnalysisandMachine Intelligence)是Kj J等人在2021年发表的Incremental object detectionviameta-learning中所提出的方法。

表1.Coco数据集，初始学习40类，接下来学习40类实验结果

	AP	AP<sup>50</sup>	AP<sup>75</sup>	AP<sup>s</sup>	AP<sup>m</sup>	AP<sup>l</sup>
							All80	31.2	51	33.1	14.8	34.6	41.5
iOD(2021)	23.7	40.4	24.5	11.8	26.2	30
							本发明	24.8	42.1	25.8	11.1	27.3	32.1

表2.消融实验结果

本发明通过消融实验验证了本发明中采用的Decoupling layer(解耦层)和Cosine classifier(余弦分类器)对模型性能的提升效果，具体数据如表2所示，从表2可以看出，本发明所推荐使用的Decoupling layer和Cosine classifier都有助于提升模型的性能，表明了本发明的有效性。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种解耦的增量目标检测方法，其特征在于，包括以下步骤：

S3：对目标检测模型进行增量学习：利用新类数据和部分旧类数据进行训练，训练过程除了包含初始学习阶段的步骤外，还通过知识蒸馏在模型Backbone层和RCNN层进行特征蒸馏来保留相应的旧知识；所述新类数据为后续根据安防检测系统的需求增加的新品类的图像；所述旧类数据为安防检测系统中的基本检测目标的图像；

S4：对增量学习后的目标检测模型进行平衡微调；

2.根据权利要求1所述的一种解耦的增量目标检测方法，其特征在于，所述目标检测模型为使用了解耦模块和Cosine分类器的Faster R-CNN模型，其中，所述解耦模块为通道级别，分别添加于RCNN和RPN之前；所述Cosine分类器位于分类层，用于获取没有分类偏好的分类结果。

3.根据权利要求1所述的一种解耦的增量目标检测方法，其特征在于，所述S2具体为：

4.根据权利要求1所述的一种解耦的增量目标检测方法，其特征在于，所述S3中的知识蒸馏包括以下步骤：

5.根据权利要求1所述的一种解耦的增量目标检测方法，其特征在于，所述S4进行平衡微调的过程包括以下步骤：