CN115393687A

CN115393687A - 一种基于双伪标签优化学习的rgb图像半监督目标检测方法

Info

Publication number: CN115393687A
Application number: CN202210822832.6A
Authority: CN
Inventors: 魏巍; 张磊; 孙宇轩
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-11-25

Abstract

本发明公开了一种基于双伪标签优化学习的RGB图像半监督目标检测方法，对于训练批量中的有标注图像，首先对图像进行数据增广操作，然后利用真实标签监督学生模型在图像上的学习。对于无标注图像，分别获得其弱增强图像和强增强图像。使用构建的伪类别优化网络和伪包围框优化网络分别对教师模型在弱增强图像的预测结果进行优化，从而获得该图像的伪类别标签和伪包围框标签。然后利用该图像的伪类别标签和伪包围框标签监督学生模型在弱增强图像上的学习。最后，在有标注图像上构造用于训练伪类别优化网络和伪包围框优化网络的样本和，然后用相应的标签监督优化网络的学习。本发明可以显著提升高质量伪标签的数量，进而提升RGB图像目标检测的效果。

Description

一种基于双伪标签优化学习的RGB图像半监督目标检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种RGB图像半监督目标检测方法。

背景技术

RGB图像中的目标检测旨在识别图像中每个目标的类别和位置。其在计算机视觉领域如图像解译、智慧城市、安防安检、智能交通等发挥着基础性作用。深度神经网络由于其强大的表达能力，为RGB图像中的目标检测提供了一种很有前景的方法，并且在使用大量有标注的样本对模型进行训练时可以获得较好的准确率。然而在实际应用中，由于标注的成本十分昂贵，往往只能得到很少的有标注的样本，这往往会导致深度神经网络过拟合。但另一方面无标注的数据很容易得到，因此，通过半监督学习利用少量有标注数据和大量无标注数据提高深度神经网络的泛化能力以应对RGB图像目标检测中的标注成本问题越来越受到人们的重视。

根据训练过程，现有的深度半监督目标检测方法大致可分为两类。一种是基于一致性的方法，该方法主要侧重于通过驱使模型在同一图片的不同视图的输出相互靠近、保持一致。例如，文献“Jeong,Jisoo,et al."Consistency-based semi-supervisedlearning for object detection."Advances in neural information processingsystems 32(2019).”通过使模型在输入图像和输入图像的翻转视图上的分类输出和回归输出趋向一致。另一个研究方向是基于伪标签方法，该方法主要侧重于利用教师模型在无标注数据上的预测结果。例如，文献“Zhou,Qiang,et al."Instant-teaching:An end-to-end semi-supervised object detection framework."Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2021.”提出了利用MixUp和Mosaic两个数据增广方式以结合有标注数据和无标注数据进而生成大量可靠的目标。文献“Xu,Mengde,et al."End-to- end semi-supervised object detection with softteacher."Proceedings of the IEEE/CVF International Conference on ComputerVision.2021.”提出了一种新的回归质量度量方法以选择可靠的预测结果作为伪标签，并提出利用教师模型的预测置信度为学生模型的背景样本作加权，以减轻部分不准确伪标签造成的的负面影响，降低无标注数据上的负面梯度。近几年来，这两方面的研究都取得了很大的进展，并有互相结合的趋势。而且，其中最常用的网络架构是端到端的伪标签半监督框架，其使用学生模型的指数滑动平均，即学生模型在时序上的集成模型作为教师模型，并使用了强弱增强机制获得更可靠的伪标签。然而，现有方法直接利用教师模型的输出作为。由于缺乏足够的标注样本用于拟合训练模型，教师模型在无标注数据上的检测质量较差，相应地限制了通过筛选方法得到的伪标签的质量上限，进而限制了半监督目标检测的性能。

发明内容

为了克服现有技术的不足，本发明提供了一种基于双伪标签优化学习的RGB图像半监督目标检测方法，对于训练批量中的有标注图像，首先对图像进行数据增广操作，然后利用真实标签监督学生模型在图像上的学习。对于无标注图像，分别获得其弱增强图像和强增强图像。使用构建的伪类别优化网络和伪包围框优化网络分别对教师模型在弱增强图像的预测结果进行优化，从而获得该图像的伪类别标签和伪包围框标签。然后利用该图像的伪类别标签和伪包围框标签监督学生模型在弱增强图像上的学习。最后，在有标注图像上构造用于训练伪类别优化网络和伪包围框优化网络的样本和，然后用相应的标签监督优化网络的学习。本发明可以显著提升高质量伪标签的数量，进而提升RGB图像目标检测的效果。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：构建学生模型和教师模型，学生模型和教师模型均为目标检测网络；所述学生模型使用梯度更新的方式进行训练，利用指数滑动平均算法将学生模型的参数更新至教师模型，教师模型不参与梯度更新；

对于有标注的RGB图像

其中，h和w分别表示图像的高度和宽度，其标注为y_l＝{(c_i,b_i),i＝1…N}，表示输入图像x_l包含N个目标，对于第i个目标，其类别为c_i，边界框坐标为b_i；将图像x_l输入到学生模型中，对学生模型进行训练和优化；

对于无标注的RGB图像

会分别经过两次不同的图像增强操作，也就是强图像增强操作和弱图像增强操作，得到对应的强增强图像和弱增强图像：

其中，

为弱图像增强操作，

表示强图像增强操作，

和

分别为对应的弱增强图像和强增强图像；弱增强图像用于生成无标注图像的伪标签，而强增强图像和对应的伪标签则用于让学生模型进行半监督学习；

步骤2：将

输入到教师模型中并生成相应的预测结果：

其中

表示教师模型，preds为对应得到检测结果；

将分类子任务和回归子任务的伪标签解耦，分别对预测结果进行优化得到伪类别标签和伪包围框标签；

伪类别优化网络通过二次分类以校正目标所属的类别；对于一个目标，首先重新提取其位置对应的特征，然后经过三层全连接层构成的网络对类别进行重预测，并将新的预测结果与之前的结合以得到最终更准确的伪类别标签：

其中，

表示伪类别优化网络；

伪包围框优化网络通过平移和放缩以聚合上下文和边界信息，进而提升回归质量；对于一个包围框{o_u,o_d,d}，o_u为其左上点坐标，o_d为其右下点坐标，d为框对角线长度，首先将包围框沿着四个对角线方向移动γ×d长度的距离以得到四个新的框，随后将包围框扩大两次，放缩倍数分别为1+2×t×γ,t∈{1,2}；然后将原框对应位置的特征和六个新得到的框对应位置的特征通过卷积和全连接层聚合并得到优化的伪包围框结果作为伪包围框标签

其中，

表示伪包围框优化网络；

步骤3：使用步骤2得到的伪类别标签和伪包围框标签，分别对学生模型在强增强图像上的预测结果做监督：

其中，

表示学生模型预测的分类结果，

表示学生模型预测的回归结果，l_cls和l_reg分别代表目标检测中的分类损失函数和回归损失函数，N_u为训练批量中无标注图像的数量；学生模型在有标注数据上的训练损失函数则为：

其中，S(.)表示学生模型，

表示学生模型在有标注图像上预测的分类结果，

表示学生模型在有标注数据上预测的回归结果，N_l为训练批量中有标注图像的数量； l_reg(.)和l_cls(.)分别表示目标检测中的分类损失函数和回归损失函数；在训练过程中，每个训练批量都包含一定比例的有标注图像和无标注图像；

步骤4：采用随机采样方法优化网络的训练；

对于有标注的RGB图像x_l，以及其第i个目标的左上角坐标o_ui和右下角坐标o_di，通过随机采样伪框以模拟教师模型输出的伪标签：

其中，

和

分别表示采样得到的第j个伪框的左上角坐标和右下角坐标，s_i表示目标框的尺寸向量，θ是一个预定义的尺度因子以控制采样范围，

和

分别是从高斯分布中随机采样到的向量，⊙表示元素级乘法；

对于伪包围框优化网络，设置θ＝θ_reg，为每个目标框采样N_reg个伪框作为训练样本；对于伪类别优化网络，训练样本由以下三个部分组成：为每个目标框采样

个

下的伪框和

个

伪框以及教师网络的区域提议网络的输出；θ_reg表示为伪包围框优化网络采样训练样本位置的高斯分布的方差，

表示为伪类别优化网络采样正训练样本位置的高斯分布的方差，

表示为伪包围框优化网络采样负训练样本位置的高斯分布的方差；

构造好训练样本之后，通过对应的真实标签训练两个优化网络；伪包围框优化网络的损失函数为GIoU损失函数，伪类别优化网络的损失函数为标准交叉熵损失函数；最后，总的损失函数为：

其中，λ_u是平衡有标注图像上的损失函数和无标注图像上损失函数的权重系数，

为优化网络的损失函数；

为有标注图像上的损失函数，

为无标注图像上的损失函数。

优选地，所述伪类别优化网络由三层全连接层组成：第一层全连接层，用ReLU 激活；第二层全连接层，不使用激活函数；第三层为全连接层。

优选地，所述两目标检测网络阶段的Faster-R-CNN目标检测架构。

本发明的有益效果如下：

由于数量有限的标注数据，教师模型的泛化能力不足，因此直接在教师模型的预测结果上选择可靠的结果作为伪标签会导致数目较少、存在漏检等问题。通过双伪标签优化网络进行优化可以显著提升高质量伪标签的数量，进而提升RGB图像目标检测的效果。

具体实施方式

下面结合实施例对本发明进一步说明。

针对现有技术中的问题，本发明提出了一种双伪标签优化学习方法用于RGB图像的半监督目标检测。其包含两种新的伪标签优化学习模块，分别是分类子任务上的优化网络和回归子任务上的优化网络。在基础检测器的训练过程中，这两个网络通过学习和建模从伪标签到真实标签之间的映射关系，并利用这种映射关系缩小伪标签到真实标签之间的差距，进而生成更高质量的伪标签。为了成功学习这种映射关系，提出了一种高斯随机采样方法以得到合适的伪标签-真实标签样本对，并利用这些样本对训练优化网络。整个过程在一个端到端的框架中进行。通过这种方法，优化网络可以自适应地建模从教师模型的输出到真实标签之间的映射，从而提升伪标签的质量，进而提高其半监督目标检测的检测性能和泛化能力。

一种基于双伪标签优化学习的RGB图像半监督目标检测方法，包括如下步骤：

对于有标注的RGB图像

其中，h和w分别表示图像的高度和宽度，其标注为y_l＝{(c_i,b_i),i＝1…N}，表示输入图像x_l包含N个目标，对于第i个目标，其类别为c_i，边界框坐标为b_i；将图像x_l输入到学生模型中，并使用正常的目标检测损失函数对学生模型进行训练和优化；

对于无标注的RGB图像

其中，

为弱图像增强操作，

表示强图像增强操作，

和

步骤2：将

输入到教师模型中并生成相应的预测结果：

其中

表示教师模型，preds为对应得到检测结果；

其中，

表示伪包围框优化网络；

其中，

表示学生模型预测的分类结果，

其中，

表示学生模型，

表示学生模型在有标注图像上预测的分类结果，

表示学生模型在有标注数据上预测的回归结果，N_l为训练批量中有标注图像的数量；在训练过程中，每个训练批量都包含一定比例的有标注图像和无标注图像；

步骤4：采用随机采样方法优化网络的训练；

其中，

和

分别表示采样得到的第j个伪框的左上角坐标和右下角坐标，s_i表示目标框的尺寸向量(也就是长度和宽度)，θ是一个预定义的尺度因子以控制采样范围，

和

个

下的伪框和

个

伪框以及教师网络的区域提议网络的输出；

为优化网络的损失函数；

为了在端到端的训练框架中同时训练学生检测器模型和优化网络模型，同时避免两个模型之间梯度耦合造成的优化困难，使用了一种交替优化的机制以解耦梯度流。具体而言，当更新一个模型时，固定另一个模型的参数。这样的好处在于可以解耦梯度，更好地优化模型。

具体实施例：

1、数据预处理

对于给定的训练集

可以将其分为有标注数据

其数据集表示为

和无标注数据

其数据集表示为

其中

对于数据集中的有标注数据

其中

为输入图像，y＝{(c_i,b_i),i＝ 1…N}表示表示输入图像x_l包含N个目标，对于第i个目标，其类别为c_i，边界框坐标为b_i。对于无标注数据

其中

为输入图像。

此外，对有标注数据图像x_l采用随机尺度抖动、随机过曝、随机亮度抖动、随机对比度抖动、随机擦除的数据增强方式。对于无标注数据图像x_u，弱图像增强操作包括随机尺度抖动，强图像增强操作包括随机尺度抖动、随机过曝、随机亮度抖动、随机对比度抖动、随机平移、随机旋转、随机切变、随机擦除。

2、模型结构与初始化

本发明采用标准的两阶段的Faster-R-CNN目标检测架构。使用ImageNet预训练的残差网络初始化检测器的骨干网络参数。其余参数均采用随机初始化。

本发明设计了伪类别优化网络和伪包围框优化网络的结构，以获得更好的优化效果。伪类别优化网络由三层全连接层组成：第一层全连接层，输入的通道维度为 12544，输出的通道维度为1024，用ReLU激活；第二层全连接层，输入的通道维度为1024，输出的通道维度为1024，不使用激活函数；第三层全连接层，输入的通道维度为1024，输出的通道维度对应数据的类别数加一(以COCO数据集为例，输出通道维度为81)。

3、训练过程

每个训练批量都包含一定比例的有标注图像和无标注图像。使用SGD优化器对模型优化。对于训练批量中的有标注图像，首先对图像进行数据增广操作，然后利用真实标签监督学生模型在图像上的学习。对于训练批量中的无标注图像，分别获得其弱增强图像和强增强图像。使用构建的伪类别优化网络和伪包围框优化网络分别对教师模型在弱增强图像的预测结果进行优化，从而获得该图像的伪类别标签和伪包围框标签。然后利用该图像的伪类别标签和伪包围框标签监督学生模型在弱增强图像上的学习。最后，在有标注图像上构造用于训练伪类别优化网络和伪包围框优化网络的样本和，然后用相应的标签监督优化网络的学习。

4、更新教师模型

在每个训练批量的样本完成梯度回传后，使用指数滑动平均方法将学生模型的参数更新至教师模型：

其中，θ_i表示第i时刻的教师模型的参数，

表示第i时刻的学生模型的参数，α为用于控制更新速度的超参数。