CN116681961A

CN116681961A - 基于半监督方法和噪声处理的弱监督目标检测方法

Info

Publication number: CN116681961A
Application number: CN202310479797.7A
Authority: CN
Inventors: 王磊; 王瑞生; 王自锄
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-09-01

Abstract

本发明提供了基于半监督方法和噪声处理的弱监督目标检测方法。所提供的基于半监督方法和噪声处理的弱监督目标检测方法，其特征在于，包括以下步骤：S1:获取弱监督目标检测数据集，其中所有图像的标签为图像级标签；S2:对弱监督目标检测数据集中的所有图像预提取候选框，用于弱监督目标检测模型的训练；S3:构建弱监督目标检测模型M_w训练并生成初始的实例级噪声伪标签；S4:构建半监督目标检测模型M_s，使用步骤S3生成的噪声伪标签训练M_s，对噪声伪标签在训练中进行处理，分为可信标签和不可信标签，对应于半监督任务中的有标签数据和无标签数据，将标签和数据送入M_s进行半监督任务训练；S5:使用训练完成的M_s预测生成新的标签信息并替换的标签信息重新送入S4步骤迭代训练，重复K次，得到最终训练完成的目标检测模型。

Description

基于半监督方法和噪声处理的弱监督目标检测方法

技术领域

本发明涉及图像处理和计算机视觉领域，特别是涉及弱监督学习下的目标检测方法。

背景技术

目标检测(Object Detect ion)是计算机视觉和数字图像处理的一个热门方向，能够实现目标物体类别和位置的自动检测，减少人力、资本的消耗，具有重要的现实意义。与更为基础的图片分类任务相比，目标检测多出一个回归任务，即不仅要用算法判断图片中是否存在对象，还要在图片中标记出它的位置，对图像上标注的标定框进行回归预测。近年来，由于深度学习的广泛运用，目标检测算法得到了较为快速的发展。然而通常的全监督目标检测模型是基于大量人工精确标注的数据集训练的，这些方法要求每一张训练的图像都有细粒度的高质量标注。往往一张图像中有多个物体实例，各自可能属于不同类别，这些都需要人工一一进行标注；有的实例更是由于本身物体较小、环境影响或图像失真导致肉眼难以辨认，更进一步地增加了数据集标注的难度和财力人力花费。

因此，为了降低大规模目标检测数据集标注带来的资源消耗，研究人员开始关注如何使用更加易于获取和标注的粗粒度标签在目标检测任务中取得好的表现。一个典型的粗粒度任务设置是数据集中的标签只具有图像级的类别信息，而缺少了实例级(Instance-Level)的定位信息，该设置能够利用已有的图像分类数据集直接开展研究工作，也可以迅速地在一个新的数据集上进行标注，大大减少标注周期、加快部署速度。现今，只有图像级(ImageLave l)标注的粗粒度数据集成为弱监督目标检测研究的一大热点。

然而由于实例信息的缺失，目前多数弱监督目标检测方法最终效果与全监督目标检测方法仍有较大差距。因此开展弱监督目标检测方法的进一步研究具有重要的意义。

发明内容

目前国内外现有弱监督目标检测方法与全监督方法相比仍有较大差距，且局限于固定的弱监督检测框架，很少在方法流程上有所创新。

基于此，本发明设计了基于半监督方法和噪声处理的弱监督目标检测方法，建立自训练的迭代式方法，使用半监督目标检测方法充分利用了弱监督任务缺少而又极为关键的实例级监督信息，并对伪标签噪声进行额外处理以保证模型性能。在公开号为CN115019133A的专利中提出了类似的迭代式自训练范式，但本发明的优越之处在于①自训练中利用了实例级伪标签(Instance-Level pseudoLabels)而非仅仅图像级伪标签(Image-Level pseudoLabels)，能够更好地提升目标检测预测性能。②在预测时不需要对图片进行候选框预提取，可使用训练好的模型立即进行预测。③创造性地结合了当前半监督目标检测的优秀成果，建立了半-弱监督框架的训练范式，在取得更好模型性能的同时对后续新的研究思路开拓有着重要意义。

本发明的具体内容如下：一种基于半监督和噪声处理的弱监督目标检测方法包括以下步骤：S1:获取弱监督目标检测数据集，其中所有图像的标签为图像级标签；S2:对弱监督目标检测数据集中的所有图像预提取候选框，用于弱监督目标检测模型的训练；S3:构建弱监督目标检测模型M_w训练并生成初始的实例级噪声伪标签；S4:构建半监督目标检测模型M_s，使用步骤S3生成的噪声伪标签训练M_s，对噪声伪标签在训练中进行处理，分为可信标签和不可信标签，对应于半监督任务中的有标签数据和无标签数据，将标签和数据送入M_s进行半监督任务训练；S5:使用训练完成的M_s预测生成新的标签信息并替换/>的标签信息重新送入S4步骤迭代训练，重复K次，得到最终训练完成的目标检测模型。

与现有技术相比，本发明具有如下创新点：

1.创新地融入了半监督目标检测方法，建立了半-弱监督框架的训练范式，能够有机结合其他领域的发展实现协同创新进步，对后续新的研究思路开拓有着重要意义。

2.将伪标签视作噪声标签，并针对噪声标签设计了有效的学习策略，避免了其中采用损失大小排序的方法时能够取得更好的模型预测效果。

3.经实验，在控制其他因素不变的情况下，NWPU VHR-10数据集(https://opendatalab.com/NWPU_VHR-10)上先前的模型平均准确度mAP(meanAveragePrecision)提升了5％，证明了方法的有效性(该模型仅用于方法有效性测试，其数值结果不代表模型实际使用效果)。

根据本申请实施例提供的方法执行流程，运行在例如个人计算机、服务器、嵌入式计算设备、云计算平台等设备中。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为根据本发明的基于半监督方法和噪声处理的弱监督目标检测方法的流程图。

图2A与2B展示了根据本申请实施例对图片数据进行目标检测的结果。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

根据本申请的实施例，所使用数据来源于NWPU VHR-10遥感影像数据集(https://opendatalab.com/NWPU_VHR-10)。遥感影像相比于生活中的一般图像有着小目标、物体排列密集、方向任意的特点，带来了更多挑战。

1.获取NWPU VHR-10遥感影像数据集。选取650张图像作为训练数据，其中65张图像保留其标注信息作为有标注数据集，585张图像作为无标注数据集。

2.对训练集中的所有图像使用选择搜索的方法预提取候选框，用于弱监督目标检测模型的训练。

3.构建基本弱监督目标检测模型M_w，其主干网络为ResNet，提取图像特征后,在特征图上截取预提取候选框区域特征，并送入区域池化层(https://arxiv.org/abs/1506.01497)对提取的特征进行规范化，每个候选区域经池化层后生成为固定长度的特征向量，接着使用多示例学习检测头将固定长度的特征向量送入两个预测分支，分类分支及检测分支，各自预测出类别概率分数后相乘得到图像级类别概率并与第i张图像的图像级标签c_i间构建交叉熵损失函数/>

其中N_c为数据集的类别总数，i代表第i张图像，代表第i张图像属于某分类类别的预测概率，例如，/>代表第i张图像属于分类类别Nc的概率，c代表图像类别，y_i＝{c_i}为图像x_i∈R^C×H×W的标签信息，其中，C为特征图通道数，H为图像的高度，W为图像的宽度，为图像级标签向量，N_c为数据集的类别总数，c_i的每个维度值表明相应的类别在当前图像中是否存在，例如为1则存在，为0则不存在；标签c_i是图像级标签而不存在实例级标签，y_ic代表数据集中标注的图像级标签中第i张图像是否属于类别c的信息，α是超参数。再将固定长度特征向量输入使用特征细化模块(例如，https://arxiv.org/abs/1704.00138)，用m个分支生成预测并自训练优化，k-1分支为第k分支生成监督信息提供训练，在预测时综合全部m个分支的结果生成最终结果；进行训练并将该最终结果视为初始的实例级标定框伪标签/>包含图像上的全部伪标签框；该伪标签由于并非完全准确的预测，故其中包含潜在的噪声信息；第i张图像的噪声伪标签/>此时迭代次数为0。噪声伪标签由算法自动生成而非经人工确认后的真值标签，且由于实例级监督信息的缺失，经过步骤3生成的标签通常是不准确的，带有噪声。

4.构建基本半监督目标检测模型M_s，使用步骤3生成的噪声伪标签训练M_s，对噪声伪标签在训练中采用置信度划分，实例类别预测概率大于阈值δ的伪标签结果被视为可信标签，否则为不可信标签(也参看图1的“标签噪声过滤”)。可信标签与不可信标签分别对应于半监督任务中的有标签数据和无标签数据。将标签和数据送入M_s进行半监督任务训练。根据标签的可信度划分为有标签数据集D_l和无标签数据集D_u两部分，在有标签数据集D_l上使用通常的分类损失/>和回归损失/>作为损失函数，有标签数据的总损失函数为/>其中i代表样本序号，N_l代表训练中使用的有标签数据集D_l的样本总数，/>指有标签数据中的第i个图像；在无标签数据集D_u上采用自训练损失优化模型，记为/>其中i代表样本序号，N_u代表训练中使用的无标签数据集D_u的样本总数，/>指无标签数据中的第i个图像，最终半监督目标检测模型M_s使用总损失函数/>进行训练。

5.使用训练好的半监督目标检测模型M_s预测生成新的标签信息并替换/>的标签信息，重新进入步骤4，并重复K次，其中i代表样本序号。记在第k次迭代中，生成的标签信息为/>用于替换第k-1次迭代中的标签信息/>K次迭代结束后得到最终训练完成的基于半监督方法和噪声处理的弱监督目标检测模型。

将待检测图片提供给经训练的根据本申请实施例的训练后的半监督目标检测模型M_s，模型输出目标识别的结果，在图2A与图2B中分别展示了对不同图片的标注结果。除了标注检测出的诸如airplane(飞机)、storage(仓库)、ship(船只)等类别，还通过方框标注了各目标的位置以及类别识别的预测概率。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于半监督方法和噪声处理的弱监督目标检测方法，其特征在于，包括以下步骤：

S1:获取弱监督目标检测数据集，其中所有图像的标签为图像级标签；

S2:对弱监督目标检测数据集中的所有图像预提取候选框，用于弱监督目标检测模型的训练；

S3:构建弱监督目标检测模型M_w训练并生成初始的实例级噪声伪标签；

S4:构建半监督目标检测模型M_s，使用步骤S3生成的噪声伪标签训练M_s，对噪声伪标签在训练中进行处理，分为可信标签和不可信标签，对应于半监督任务中的有标签数据和无标签数据，将标签和数据送入M_s进行半监督任务训练；

S5:使用训练完成的M_s预测生成新的标签信息并替换/>的标签信息重新送入S4步骤迭代训练，重复K次，得到最终训练完成的目标检测模型。

2.根据权利要求1所述的方法，其特征在于，步骤S1中，数据集其中N为数据集图像总数，x_i代表数据集中第i张图像，y_i＝{c_i}为图像x_i∈R^C×H×W的标签信息，为图像级标签向量，N_c为数据集的类别总数，c_i的每个维度值表明相应的类别在当前图像中是否存在，为1则存在，为0则不存在；标签c_i是图像级标签而不包括实例级的标签，其中，C为特征图通道数，H为图像的高度，W为图像的宽度。

3.根据权利要求1所述的方法，其特征在于，步骤S2中，使用选择搜索算法为图像预提取候选框。

4.根据权利要求1所述的方法，其特征在于，步骤S3中，基本弱监督目标检测模型结构为：

一、使用主干网络提取图像特征，并取出预提取候选框在特征图上的特征；

二、使用区域池化层对预提取候选框的特征进行规范化，得到固定长度的特征向量；

三、使用多示例学习检测头将固定长度的特征向量送入两个预测分支，分类分支及检测分支，各自预测出类别概率分数后相乘得到图像级类别概率并与图像级标签c_i间构建交叉熵损失函数/> 其中N_c为数据集的类别总数，i代表第i张图像，/>代表第i张图像属于某分类类别的预测概率，y_i＝{c_i}为图像x_i∈R^C×H×W的标签信息；

四、使用特征细化模块，使用m个分支自训练优化；k-1分支为第k分支生成监督信息提供训练，在预测时综合全部m个分支的结果生成最终结果。

5.根据权利要求1所述的方法，其特征在于，步骤S3中，使用基本弱监督目标检测模型M_w生成得到初始实例级标定框标签(迭代次数为0)，第k次迭代时生成的实例级标定框标签为/> 为第i张图像中的预测实例总数，b_n＝{x,y,w,h,s}，其中x,y为实例框中心横纵坐标，w,h为标定框的宽与高，s为实例的类别预测结果，n为第i张图像中的第n个预测实例，/>与原有得到数据集中的图像级标签向量c_i结合得到更新后的第i张图像的噪声伪标签/>k为当前迭代次数。

6.根据权利要求1所述的方法，其特征在于，步骤S4中，噪声伪标签的可信度划分依据预测得到的置信度或损失大小进行细分；采用置信度划分时，实例类别预测概率大于阈值δ的预测结果被视为可信标签，否则为不可信标签；采用损失大小划分时，在S3中计算得到损失较小(批次内排序前p％)的图像，其预测实例结果被视作可信标签；可信标签构成数据集/>不可信标签构成数据集/>

7.根据权利要求1所述的方法，其特征在于，步骤S4中，基本半监督目标检测模型使用自训练损失或一致损失结合通常的目标检测模型(如Faster RCNN，YOLO，FCOS)进行训练；输入的数据集分根据标签的可信度划分为有标签数据集D_l和无标签数据集D_u两部分，在有标签数据集D_l上使用通常的分类损失和回归损失/>作为损失函数进行训练，有标签数据的总损失函数为/>在无标签数据集D_u上，则采用自训练损失或一致性损失/>优化模型，记为/>其中，自训练方法使用教师学生模型，使用教师模型生成伪标签供学生模型训练；一致性方法使用一张图像的不同变换作为输入，计算不同变换下预测的差异；无标签数据的总损失函数为/>

8.根据权利要求1所述的方法，其特征在于，步骤S5中，迭代次数K为1～3次，每次迭代后更新现有噪声伪标签信息，不断优化伪标签质量，排除噪声；使用最终迭代的模型作为预测模型应用于各个场景。

9.一种信息处理设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，行所述程序时实现，其特征在于，所述计算机程序由处理器执行时实现如权利要求1至8任一项所述的方法。