CN115393687A - 一种基于双伪标签优化学习的rgb图像半监督目标检测方法 - Google Patents

一种基于双伪标签优化学习的rgb图像半监督目标检测方法 Download PDF

Info

Publication number
CN115393687A
CN115393687A CN202210822832.6A CN202210822832A CN115393687A CN 115393687 A CN115393687 A CN 115393687A CN 202210822832 A CN202210822832 A CN 202210822832A CN 115393687 A CN115393687 A CN 115393687A
Authority
CN
China
Prior art keywords
pseudo
image
network
label
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210822832.6A
Other languages
English (en)
Inventor
魏巍
张磊
孙宇轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210822832.6A priority Critical patent/CN115393687A/zh
Publication of CN115393687A publication Critical patent/CN115393687A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双伪标签优化学习的RGB图像半监督目标检测方法,对于训练批量中的有标注图像,首先对图像进行数据增广操作,然后利用真实标签监督学生模型在图像上的学习。对于无标注图像,分别获得其弱增强图像和强增强图像。使用构建的伪类别优化网络和伪包围框优化网络分别对教师模型在弱增强图像的预测结果进行优化,从而获得该图像的伪类别标签和伪包围框标签。然后利用该图像的伪类别标签和伪包围框标签监督学生模型在弱增强图像上的学习。最后,在有标注图像上构造用于训练伪类别优化网络和伪包围框优化网络的样本和,然后用相应的标签监督优化网络的学习。本发明可以显著提升高质量伪标签的数量,进而提升RGB图像目标检测的效果。

Description

一种基于双伪标签优化学习的RGB图像半监督目标检测方法
技术领域
本发明属于图像处理技术领域,具体涉及一种RGB图像半监督目标检测方法。
背景技术
RGB图像中的目标检测旨在识别图像中每个目标的类别和位置。其在计算机视觉领域如图像解译、智慧城市、安防安检、智能交通等发挥着基础性作用。深度神经网 络由于其强大的表达能力,为RGB图像中的目标检测提供了一种很有前景的方法,并 且在使用大量有标注的样本对模型进行训练时可以获得较好的准确率。然而在实际应 用中,由于标注的成本十分昂贵,往往只能得到很少的有标注的样本,这往往会导致 深度神经网络过拟合。但另一方面无标注的数据很容易得到,因此,通过半监督学习 利用少量有标注数据和大量无标注数据提高深度神经网络的泛化能力以应对RGB图 像目标检测中的标注成本问题越来越受到人们的重视。
根据训练过程,现有的深度半监督目标检测方法大致可分为两类。一种是基于一致性的方法,该方法主要侧重于通过驱使模型在同一图片的不同视图的输出相互靠近、 保持一致。例如,文献“Jeong,Jisoo,et al."Consistency-based semi-supervisedlearning for object detection."Advances in neural information processingsystems 32(2019).”通过 使模型在输入图像和输入图像的翻转视图上的分类输出和回归输出趋向一致。另一个 研究方向是基于伪标签方法,该方法主要侧重于利用教师模型在无标注数据上的预测 结果。例如,文献“Zhou,Qiang,et al."Instant-teaching:An end-to-end semi-supervised object detection framework."Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2021.”提出了利用MixUp和Mosaic两个数据增广方式以结合 有标注数据和无标注数据进而生成大量可靠的目标。文献“Xu,Mengde,et al."End-to- end semi-supervised object detection with softteacher."Proceedings of the IEEE/CVF International Conference on ComputerVision.2021.”提出了一种新的回归质量度量方法 以选择可靠的预测结果作为伪标签,并提出利用教师模型的预测置信度为学生模型的 背景样本作加权,以减轻部分不准确伪标签造成的的负面影响,降低无标注数据上的 负面梯度。近几年来,这两方面的研究都取得了很大的进展,并有互相结合的趋势。 而且,其中最常用的网络架构是端到端的伪标签半监督框架,其使用学生模型的指数 滑动平均,即学生模型在时序上的集成模型作为教师模型,并使用了强弱增强机制获 得更可靠的伪标签。然而,现有方法直接利用教师模型的输出作为。由于缺乏足够的 标注样本用于拟合训练模型,教师模型在无标注数据上的检测质量较差,相应地限制 了通过筛选方法得到的伪标签的质量上限,进而限制了半监督目标检测的性能。
发明内容
为了克服现有技术的不足,本发明提供了一种基于双伪标签优化学习的RGB图 像半监督目标检测方法,对于训练批量中的有标注图像,首先对图像进行数据增广 操作,然后利用真实标签监督学生模型在图像上的学习。对于无标注图像,分别获 得其弱增强图像和强增强图像。使用构建的伪类别优化网络和伪包围框优化网络分 别对教师模型在弱增强图像的预测结果进行优化,从而获得该图像的伪类别标签和 伪包围框标签。然后利用该图像的伪类别标签和伪包围框标签监督学生模型在弱增 强图像上的学习。最后,在有标注图像上构造用于训练伪类别优化网络和伪包围框 优化网络的样本和,然后用相应的标签监督优化网络的学习。本发明可以显著提升高 质量伪标签的数量,进而提升RGB图像目标检测的效果。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:构建学生模型和教师模型,学生模型和教师模型均为目标检测网络;所 述学生模型使用梯度更新的方式进行训练,利用指数滑动平均算法将学生模型的参 数更新至教师模型,教师模型不参与梯度更新;
对于有标注的RGB图像
Figure BDA0003742954380000021
其中,h和w分别表示图像的高度和宽度, 其标注为yl={(ci,bi),i=1…N},表示输入图像xl包含N个目标,对于第i个目标, 其类别为ci,边界框坐标为bi;将图像xl输入到学生模型中,对学生模型进行训练和 优化;
对于无标注的RGB图像
Figure BDA0003742954380000022
会分别经过两次不同的图像增强操作, 也就是强图像增强操作和弱图像增强操作,得到对应的强增强图像和弱增强图像:
Figure BDA0003742954380000023
Figure BDA0003742954380000024
其中,
Figure BDA0003742954380000025
为弱图像增强操作,
Figure BDA0003742954380000026
表示强图像增强操作,
Figure BDA0003742954380000027
Figure BDA0003742954380000028
分别为对应的弱增 强图像和强增强图像;弱增强图像用于生成无标注图像的伪标签,而强增强图像 和对应的伪标签则用于让学生模型进行半监督学习;
步骤2:将
Figure BDA0003742954380000029
输入到教师模型中并生成相应的预测结果:
Figure BDA0003742954380000031
其中
Figure BDA0003742954380000032
表示教师模型,preds为对应得到检测结果;
将分类子任务和回归子任务的伪标签解耦,分别对预测结果进行优化得到伪 类别标签和伪包围框标签;
伪类别优化网络通过二次分类以校正目标所属的类别;对于一个目标,首先 重新提取其位置对应的特征,然后经过三层全连接层构成的网络对类别进行重预 测,并将新的预测结果与之前的结合以得到最终更准确的伪类别标签:
Figure BDA0003742954380000033
其中,
Figure BDA0003742954380000034
表示伪类别优化网络;
伪包围框优化网络通过平移和放缩以聚合上下文和边界信息,进而提升回归 质量;对于一个包围框{ou,od,d},ou为其左上点坐标,od为其右下点坐标,d为框 对角线长度,首先将包围框沿着四个对角线方向移动γ×d长度的距离以得到四个新 的框,随后将包围框扩大两次,放缩倍数分别为1+2×t×γ,t∈{1,2};然后将原框 对应位置的特征和六个新得到的框对应位置的特征通过卷积和全连接层聚合并得到 优化的伪包围框结果作为伪包围框标签
Figure BDA0003742954380000035
Figure BDA0003742954380000036
其中,
Figure BDA0003742954380000037
表示伪包围框优化网络;
步骤3:使用步骤2得到的伪类别标签和伪包围框标签,分别对学生模型在强 增强图像上的预测结果做监督:
Figure BDA0003742954380000038
Figure BDA0003742954380000039
其中,
Figure BDA00037429543800000310
表示学生模型预测的分类结果,
Figure BDA00037429543800000311
表示学生模型预测的回归结果,lcls和lreg分别代表目标检测中的分类损失函数和回归损失函数,Nu为训练批量中无标注 图像的数量;学生模型在有标注数据上的训练损失函数则为:
Figure BDA00037429543800000312
Figure BDA00037429543800000313
其中,S(.)表示学生模型,
Figure BDA0003742954380000041
表示学生模型在有标注图像上预测的分类结果,
Figure BDA0003742954380000042
表 示学生模型在有标注数据上预测的回归结果,Nl为训练批量中有标注图像的数量; lreg(.)和lcls(.)分别表示目标检测中的分类损失函数和回归损失函数;在训练过程中, 每个训练批量都包含一定比例的有标注图像和无标注图像;
步骤4:采用随机采样方法优化网络的训练;
对于有标注的RGB图像xl,以及其第i个目标的左上角坐标oui和右下角坐标odi, 通过随机采样伪框以模拟教师模型输出的伪标签:
Figure BDA0003742954380000043
其中,
Figure BDA0003742954380000044
Figure BDA0003742954380000045
分别表示采样得到的第j个伪框的左上角坐标和右下角坐标,si表示 目标框的尺寸向量,θ是一个预定义的尺度因子以控制采样范围,
Figure BDA0003742954380000046
Figure BDA0003742954380000047
分别是从高斯分布中随机采样到的向量,⊙表示元素级乘法;
对于伪包围框优化网络,设置θ=θreg,为每个目标框采样Nreg个伪框作为训 练样本;对于伪类别优化网络,训练样本由以下三个部分组成:为每个目标框采样
Figure BDA0003742954380000048
Figure BDA0003742954380000049
下的伪框和
Figure BDA00037429543800000410
Figure BDA00037429543800000411
伪框以及教师网络的区域提议网络的输 出;θreg表示为伪包围框优化网络采样训练样本位置的高斯分布的方差,
Figure BDA00037429543800000412
表示为 伪类别优化网络采样正训练样本位置的高斯分布的方差,
Figure BDA00037429543800000413
表示为伪包围框优化 网络采样负训练样本位置的高斯分布的方差;
构造好训练样本之后,通过对应的真实标签训练两个优化网络;伪包围框优化 网络的损失函数为GIoU损失函数,伪类别优化网络的损失函数为标准交叉熵损失 函数;最后,总的损失函数为:
Figure BDA00037429543800000414
其中,λu是平衡有标注图像上的损失函数和无标注图像上损失函数的权重系数,
Figure BDA00037429543800000415
为优化网络的损失函数;
Figure BDA00037429543800000416
为有标注图像上的损失函数,
Figure BDA00037429543800000417
为无标注图像上的损失 函数。
优选地,所述伪类别优化网络由三层全连接层组成:第一层全连接层,用ReLU 激活;第二层全连接层,不使用激活函数;第三层为全连接层。
优选地,所述两目标检测网络阶段的Faster-R-CNN目标检测架构。
本发明的有益效果如下:
由于数量有限的标注数据,教师模型的泛化能力不足,因此直接在教师模型的预测结果上选择可靠的结果作为伪标签会导致数目较少、存在漏检等问题。通过双伪标 签优化网络进行优化可以显著提升高质量伪标签的数量,进而提升RGB图像目标检 测的效果。
具体实施方式
下面结合实施例对本发明进一步说明。
针对现有技术中的问题,本发明提出了一种双伪标签优化学习方法用于RGB图 像的半监督目标检测。其包含两种新的伪标签优化学习模块,分别是分类子任务上的 优化网络和回归子任务上的优化网络。在基础检测器的训练过程中,这两个网络通过 学习和建模从伪标签到真实标签之间的映射关系,并利用这种映射关系缩小伪标签到 真实标签之间的差距,进而生成更高质量的伪标签。为了成功学习这种映射关系,提 出了一种高斯随机采样方法以得到合适的伪标签-真实标签样本对,并利用这些样本对 训练优化网络。整个过程在一个端到端的框架中进行。通过这种方法,优化网络可以 自适应地建模从教师模型的输出到真实标签之间的映射,从而提升伪标签的质量,进 而提高其半监督目标检测的检测性能和泛化能力。
一种基于双伪标签优化学习的RGB图像半监督目标检测方法,包括如下步骤:
步骤1:构建学生模型和教师模型,学生模型和教师模型均为目标检测网络;所 述学生模型使用梯度更新的方式进行训练,利用指数滑动平均算法将学生模型的参 数更新至教师模型,教师模型不参与梯度更新;
对于有标注的RGB图像
Figure BDA0003742954380000051
其中,h和w分别表示图像的高度和宽度, 其标注为yl={(ci,bi),i=1…N},表示输入图像xl包含N个目标,对于第i个目标, 其类别为ci,边界框坐标为bi;将图像xl输入到学生模型中,并使用正常的目标检测 损失函数对学生模型进行训练和优化;
对于无标注的RGB图像
Figure BDA0003742954380000052
会分别经过两次不同的图像增强操作, 也就是强图像增强操作和弱图像增强操作,得到对应的强增强图像和弱增强图像:
Figure BDA0003742954380000053
Figure BDA0003742954380000054
其中,
Figure BDA0003742954380000061
为弱图像增强操作,
Figure BDA0003742954380000062
表示强图像增强操作,
Figure BDA0003742954380000063
Figure BDA0003742954380000064
分别为对应的弱增 强图像和强增强图像;弱增强图像用于生成无标注图像的伪标签,而强增强图像 和对应的伪标签则用于让学生模型进行半监督学习;
步骤2:将
Figure BDA0003742954380000065
输入到教师模型中并生成相应的预测结果:
Figure BDA0003742954380000066
其中
Figure BDA0003742954380000067
表示教师模型,preds为对应得到检测结果;
将分类子任务和回归子任务的伪标签解耦,分别对预测结果进行优化得到伪 类别标签和伪包围框标签;
伪类别优化网络通过二次分类以校正目标所属的类别;对于一个目标,首先 重新提取其位置对应的特征,然后经过三层全连接层构成的网络对类别进行重预 测,并将新的预测结果与之前的结合以得到最终更准确的伪类别标签:
Figure BDA0003742954380000068
伪包围框优化网络通过平移和放缩以聚合上下文和边界信息,进而提升回归 质量;对于一个包围框{ou,od,d},ou为其左上点坐标,od为其右下点坐标,d为框 对角线长度,首先将包围框沿着四个对角线方向移动γ×d长度的距离以得到四个新 的框,随后将包围框扩大两次,放缩倍数分别为1+2×t×γ,t∈{1,2};然后将原框 对应位置的特征和六个新得到的框对应位置的特征通过卷积和全连接层聚合并得到 优化的伪包围框结果作为伪包围框标签
Figure BDA0003742954380000069
Figure BDA00037429543800000610
其中,
Figure BDA00037429543800000611
表示伪包围框优化网络;
步骤3:使用步骤2得到的伪类别标签和伪包围框标签,分别对学生模型在强 增强图像上的预测结果做监督:
Figure BDA00037429543800000612
Figure BDA00037429543800000613
其中,
Figure BDA00037429543800000614
表示学生模型预测的分类结果,
Figure BDA00037429543800000615
表示学生模型预测的回归结果,lcls和lreg分别代表目标检测中的分类损失函数和回归损失函数,Nu为训练批量中无标注 图像的数量;学生模型在有标注数据上的训练损失函数则为:
Figure BDA0003742954380000071
Figure BDA0003742954380000072
其中,
Figure BDA0003742954380000073
表示学生模型,
Figure BDA0003742954380000074
表示学生模型在有标注图像上预测的分类结果,
Figure BDA0003742954380000075
表 示学生模型在有标注数据上预测的回归结果,Nl为训练批量中有标注图像的数量; 在训练过程中,每个训练批量都包含一定比例的有标注图像和无标注图像;
步骤4:采用随机采样方法优化网络的训练;
对于有标注的RGB图像xl,以及其第i个目标的左上角坐标oui和右下角坐标odi, 通过随机采样伪框以模拟教师模型输出的伪标签:
Figure BDA0003742954380000076
其中,
Figure BDA0003742954380000077
Figure BDA0003742954380000078
分别表示采样得到的第j个伪框的左上角坐标和右下角坐标,si表示 目标框的尺寸向量(也就是长度和宽度),θ是一个预定义的尺度因子以控制采样范 围,
Figure BDA0003742954380000079
Figure BDA00037429543800000710
分别是从高斯分布中随机采样到的向量,⊙表示元素级乘法;
对于伪包围框优化网络,设置θ=θreg,为每个目标框采样Nreg个伪框作为训 练样本;对于伪类别优化网络,训练样本由以下三个部分组成:为每个目标框采样
Figure BDA00037429543800000711
Figure BDA00037429543800000712
下的伪框和
Figure BDA00037429543800000713
Figure BDA00037429543800000714
伪框以及教师网络的区域提议网络的输 出;
构造好训练样本之后,通过对应的真实标签训练两个优化网络;伪包围框优化 网络的损失函数为GIoU损失函数,伪类别优化网络的损失函数为标准交叉熵损失 函数;最后,总的损失函数为:
Figure BDA00037429543800000715
其中,λu是平衡有标注图像上的损失函数和无标注图像上损失函数的权重系数,
Figure BDA00037429543800000716
为优化网络的损失函数;
为了在端到端的训练框架中同时训练学生检测器模型和优化网络模型,同时避免两个模型之间梯度耦合造成的优化困难,使用了一种交替优化的机制以解耦梯度流。 具体而言,当更新一个模型时,固定另一个模型的参数。这样的好处在于可以解 耦梯度,更好地优化模型。
具体实施例:
1、数据预处理
对于给定的训练集
Figure BDA0003742954380000081
可以将其分为有标注数据
Figure BDA0003742954380000082
其数据集表示为
Figure BDA0003742954380000083
和无标注数据
Figure BDA0003742954380000084
其数据集表示为
Figure BDA0003742954380000085
其中
Figure BDA0003742954380000086
对于数 据集中的有标注数据
Figure BDA0003742954380000087
其中
Figure BDA0003742954380000088
为输入图像,y={(ci,bi),i= 1…N}表示表示输入图像xl包含N个目标,对于第i个目标,其类别为ci,边界框坐 标为bi。对于无标注数据
Figure BDA0003742954380000089
其中
Figure BDA00037429543800000810
为输入图像。
此外,对有标注数据图像xl采用随机尺度抖动、随机过曝、随机亮度抖动、随机 对比度抖动、随机擦除的数据增强方式。对于无标注数据图像xu,弱图像增强操作 包括随机尺度抖动,强图像增强操作包括随机尺度抖动、随机过曝、随机亮度抖动、 随机对比度抖动、随机平移、随机旋转、随机切变、随机擦除。
2、模型结构与初始化
本发明采用标准的两阶段的Faster-R-CNN目标检测架构。使用ImageNet预 训练的残差网络初始化检测器的骨干网络参数。其余参数均采用随机初始化。
本发明设计了伪类别优化网络和伪包围框优化网络的结构,以获得更好的优化效果。伪类别优化网络由三层全连接层组成:第一层全连接层,输入的通道维度为 12544,输出的通道维度为1024,用ReLU激活;第二层全连接层,输入的通道维 度为1024,输出的通道维度为1024,不使用激活函数;第三层全连接层,输入的 通道维度为1024,输出的通道维度对应数据的类别数加一(以COCO数据集为例, 输出通道维度为81)。
3、训练过程
每个训练批量都包含一定比例的有标注图像和无标注图像。使用SGD优化器 对模型优化。对于训练批量中的有标注图像,首先对图像进行数据增广操作,然 后利用真实标签监督学生模型在图像上的学习。对于训练批量中的无标注图像, 分别获得其弱增强图像和强增强图像。使用构建的伪类别优化网络和伪包围框优 化网络分别对教师模型在弱增强图像的预测结果进行优化,从而获得该图像的伪 类别标签和伪包围框标签。然后利用该图像的伪类别标签和伪包围框标签监督学 生模型在弱增强图像上的学习。最后,在有标注图像上构造用于训练伪类别优化 网络和伪包围框优化网络的样本和,然后用相应的标签监督优化网络的学习。
4、更新教师模型
在每个训练批量的样本完成梯度回传后,使用指数滑动平均方法将学生模型 的参数更新至教师模型:
Figure BDA0003742954380000091
其中,θi表示第i时刻的教师模型的参数,
Figure BDA0003742954380000092
表示第i时刻的学生模型的参数,α为用于控制更新速度的超参数。

Claims (3)

1.一种基于双伪标签优化学习的RGB图像半监督目标检测方法,其特征在于,包括如下步骤:
步骤1:构建学生模型和教师模型,学生模型和教师模型均为目标检测网络;所述学生模型使用梯度更新的方式进行训练,利用指数滑动平均算法将学生模型的参数更新至教师模型,教师模型不参与梯度更新;
对于有标注的RGB图像
Figure FDA0003742954370000011
其中,h和w分别表示图像的高度和宽度,其标注为yl={(ci,bi),i=1…N},表示输入图像xl包含N个目标,对于第i个目标,其类别为ci,边界框坐标为bi;将图像xl输入到学生模型中,对学生模型进行训练和优化;
对于无标注的RGB图像
Figure FDA0003742954370000012
会分别经过两次不同的图像增强操作,也就是强图像增强操作和弱图像增强操作,得到对应的强增强图像和弱增强图像:
Figure FDA0003742954370000013
Figure FDA0003742954370000014
其中,
Figure FDA0003742954370000015
为弱图像增强操作,
Figure FDA0003742954370000016
表示强图像增强操作,
Figure FDA0003742954370000017
Figure FDA0003742954370000018
分别为对应的弱增强图像和强增强图像;弱增强图像用于生成无标注图像的伪标签,而强增强图像和对应的伪标签则用于让学生模型进行半监督学习;
步骤2:将
Figure FDA0003742954370000019
输入到教师模型中并生成相应的预测结果:
Figure FDA00037429543700000110
其中
Figure FDA00037429543700000111
表示教师模型,preds为对应得到检测结果;
将分类子任务和回归子任务的伪标签解耦,分别对预测结果进行优化得到伪类别标签和伪包围框标签;
伪类别优化网络通过二次分类以校正目标所属的类别;对于一个目标,首先重新提取其位置对应的特征,然后经过三层全连接层构成的网络对类别进行重预测,并将新的预测结果与之前的结合以得到最终更准确的伪类别标签:
Figure FDA00037429543700000112
其中,
Figure FDA00037429543700000113
表示伪类别优化网络;
伪包围框优化网络通过平移和放缩以聚合上下文和边界信息,进而提升回归质量;对于一个包围框{ou,od,d},ou为其左上点坐标,od为其右下点坐标,d为框对角线长度,首先将包围框沿着四个对角线方向移动γ×d长度的距离以得到四个新的框,随后将包围框扩大两次,放缩倍数分别为1+2×t×γ,t∈{1,2};然后将原框对应位置的特征和六个新得到的框对应位置的特征通过卷积和全连接层聚合并得到优化的伪包围框结果作为伪包围框标签
Figure FDA0003742954370000021
Figure FDA0003742954370000022
其中,
Figure FDA0003742954370000023
表示伪包围框优化网络;
步骤3:使用步骤2得到的伪类别标签和伪包围框标签,分别对学生模型在强增强图像上的预测结果做监督:
Figure FDA0003742954370000024
Figure FDA0003742954370000025
其中,
Figure FDA0003742954370000026
表示学生模型预测的分类结果,
Figure FDA0003742954370000027
表示学生模型预测的回归结果,lcls和lreg分别代表目标检测中的分类损失函数和回归损失函数,Nu为训练批量中无标注图像的数量;学生模型在有标注数据上的训练损失函数则为:
Figure FDA0003742954370000028
Figure FDA0003742954370000029
其中,
Figure FDA00037429543700000210
表示学生模型,
Figure FDA00037429543700000211
表示学生模型在有标注图像上预测的分类结果,
Figure FDA00037429543700000212
表示学生模型在有标注数据上预测的回归结果,Nl为训练批量中有标注图像的数量;lreg(.)和lcls(.)分别表示目标检测中的分类损失函数和回归损失函数;在训练过程中,每个训练批量都包含一定比例的有标注图像和无标注图像;
步骤4:采用随机采样方法优化网络的训练;
对于有标注的RGB图像xl,以及其第i个目标的左上角坐标oui和右下角坐标odi,通过随机采样伪框以模拟教师模型输出的伪标签:
Figure FDA00037429543700000213
其中,
Figure FDA00037429543700000214
Figure FDA00037429543700000215
分别表示采样得到的第j个伪框的左上角坐标和右下角坐标,si表示目标框的尺寸向量,θ是一个预定义的尺度因子以控制采样范围,
Figure FDA00037429543700000216
Figure FDA00037429543700000217
分别是从高斯分布中随机采样到的向量,⊙表示元素级乘法;
对于伪包围框优化网络,设置θ=θreg,为每个目标框采样Nreg个伪框作为训练样本;对于伪类别优化网络,训练样本由以下三个部分组成:为每个目标框采样
Figure FDA0003742954370000031
Figure FDA0003742954370000032
下的伪框和
Figure FDA0003742954370000033
Figure FDA0003742954370000034
伪框以及教师网络的区域提议网络的输出;θreg表示为伪包围框优化网络采样训练样本位置的高斯分布的方差,
Figure FDA0003742954370000035
表示为伪类别优化网络采样正训练样本位置的高斯分布的方差,
Figure FDA0003742954370000036
表示为伪包围框优化网络采样负训练样本位置的高斯分布的方差;
构造好训练样本之后,通过对应的真实标签训练两个优化网络;伪包围框优化网络的损失函数为GIoU损失函数,伪类别优化网络的损失函数为标准交叉熵损失函数;最后,总的损失函数为:
Figure FDA0003742954370000037
其中,λu是平衡有标注图像上的损失函数和无标注图像上损失函数的权重系数,
Figure FDA0003742954370000038
为优化网络的损失函数;
Figure FDA0003742954370000039
为有标注图像上的损失函数,
Figure FDA00037429543700000310
为无标注图像上的损失函数。
2.根据权利要求1所述的一种基于双伪标签优化学习的RGB图像半监督目标检测方法,其特征在于,所述伪类别优化网络由三层全连接层组成:第一层全连接层,用ReLU激活;第二层全连接层,不使用激活函数;第三层为全连接层。
3.根据权利要求1所述的一种基于双伪标签优化学习的RGB图像半监督目标检测方法,其特征在于,所述两目标检测网络阶段的Faster-R-CNN目标检测架构。
CN202210822832.6A 2022-07-12 2022-07-12 一种基于双伪标签优化学习的rgb图像半监督目标检测方法 Pending CN115393687A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210822832.6A CN115393687A (zh) 2022-07-12 2022-07-12 一种基于双伪标签优化学习的rgb图像半监督目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210822832.6A CN115393687A (zh) 2022-07-12 2022-07-12 一种基于双伪标签优化学习的rgb图像半监督目标检测方法

Publications (1)

Publication Number Publication Date
CN115393687A true CN115393687A (zh) 2022-11-25

Family

ID=84116065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210822832.6A Pending CN115393687A (zh) 2022-07-12 2022-07-12 一种基于双伪标签优化学习的rgb图像半监督目标检测方法

Country Status (1)

Country Link
CN (1) CN115393687A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661615A (zh) * 2022-12-13 2023-01-31 浙江莲荷科技有限公司 一种图像识别模型的训练方法、装置及电子设备
CN116258861A (zh) * 2023-03-20 2023-06-13 南通锡鼎智能科技有限公司 基于多标签学习的半监督语义分割方法以及分割装置
CN116452794A (zh) * 2023-04-14 2023-07-18 中国矿业大学 一种基于半监督学习的有向目标检测方法
CN116468746A (zh) * 2023-03-27 2023-07-21 华东师范大学 一种双向复制粘贴的半监督医学图像分割方法
CN116630745A (zh) * 2023-05-25 2023-08-22 中国科学院微小卫星创新研究院 用于图像的端到端半监督目标检测方法、装置和可读介质
CN116824251A (zh) * 2023-06-27 2023-09-29 博衍科技(珠海)有限公司 一种物体检测模型的训练方法、物体检测方法及装置
CN117011617A (zh) * 2023-10-07 2023-11-07 之江实验室 基于二阶段教师-学生框架的肺结节检测装置及构建方法
CN117237343A (zh) * 2023-11-13 2023-12-15 安徽大学 半监督rgb-d图像镜面检测方法、存储介质及计算机设备
CN117975241A (zh) * 2024-03-29 2024-05-03 厦门大学 一种面向指向性目标分割的半监督学习方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661615A (zh) * 2022-12-13 2023-01-31 浙江莲荷科技有限公司 一种图像识别模型的训练方法、装置及电子设备
CN116258861A (zh) * 2023-03-20 2023-06-13 南通锡鼎智能科技有限公司 基于多标签学习的半监督语义分割方法以及分割装置
CN116258861B (zh) * 2023-03-20 2023-09-22 南通锡鼎智能科技有限公司 基于多标签学习的半监督语义分割方法以及分割装置
CN116468746A (zh) * 2023-03-27 2023-07-21 华东师范大学 一种双向复制粘贴的半监督医学图像分割方法
CN116468746B (zh) * 2023-03-27 2023-12-26 华东师范大学 一种双向复制粘贴的半监督医学图像分割方法
CN116452794A (zh) * 2023-04-14 2023-07-18 中国矿业大学 一种基于半监督学习的有向目标检测方法
CN116452794B (zh) * 2023-04-14 2023-11-03 中国矿业大学 一种基于半监督学习的有向目标检测方法
CN116630745B (zh) * 2023-05-25 2024-01-30 中国科学院微小卫星创新研究院 用于图像的端到端半监督目标检测方法、装置和可读介质
CN116630745A (zh) * 2023-05-25 2023-08-22 中国科学院微小卫星创新研究院 用于图像的端到端半监督目标检测方法、装置和可读介质
CN116824251A (zh) * 2023-06-27 2023-09-29 博衍科技(珠海)有限公司 一种物体检测模型的训练方法、物体检测方法及装置
CN116824251B (zh) * 2023-06-27 2024-02-13 博衍科技(珠海)有限公司 一种物体检测模型的训练方法、物体检测方法及装置
CN117011617A (zh) * 2023-10-07 2023-11-07 之江实验室 基于二阶段教师-学生框架的肺结节检测装置及构建方法
CN117011617B (zh) * 2023-10-07 2024-03-22 之江实验室 基于二阶段教师-学生框架的肺结节检测装置及构建方法
CN117237343B (zh) * 2023-11-13 2024-01-30 安徽大学 半监督rgb-d图像镜面检测方法、存储介质及计算机设备
CN117237343A (zh) * 2023-11-13 2023-12-15 安徽大学 半监督rgb-d图像镜面检测方法、存储介质及计算机设备
CN117975241A (zh) * 2024-03-29 2024-05-03 厦门大学 一种面向指向性目标分割的半监督学习方法

Similar Documents

Publication Publication Date Title
CN115393687A (zh) 一种基于双伪标签优化学习的rgb图像半监督目标检测方法
CN113537106B (zh) 一种基于YOLOv5的鱼类摄食行为识别方法
WO2022111219A1 (zh) 一种域自适应设备运检系统和方法
CN110059694B (zh) 电力行业复杂场景下的文字数据的智能识别方法
CN110910391B (zh) 一种双模块神经网络结构视频对象分割方法
CN109919934B (zh) 一种基于多源域深度迁移学习的液晶面板缺陷检测方法
CN110555881A (zh) 一种基于卷积神经网络的视觉slam测试方法
CN107545263B (zh) 一种物体检测方法及装置
CN111583263A (zh) 一种基于联合动态图卷积的点云分割方法
Fang et al. Survey on the application of deep reinforcement learning in image processing
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN112507904B (zh) 一种基于多尺度特征的教室人体姿态实时检测方法
CN110310305A (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN112508029A (zh) 一种基于目标框标注的实例分割方法
CN115587964A (zh) 一种基于熵筛选的伪标签交叉一致性变化检测方法
CN115240259A (zh) 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统
CN111540203A (zh) 基于Faster-RCNN调节绿灯通行时间的方法
CN113450321B (zh) 基于边缘检测的单阶段目标检测方法
Zhang et al. An industrial interference-resistant gear defect detection method through improved YOLOv5 network using attention mechanism and feature fusion
CN116052149A (zh) 一种基于CS-ABCNet的电力塔牌检测识别方法
CN113065650A (zh) 一种长期记忆学习的多通道神经网方法
CN116977969B (zh) 基于卷积神经网络的驾驶员两点预瞄识别方法
CN116311102B (zh) 基于改进的知识蒸馏的铁路货车故障检测方法及系统
CN112529095B (zh) 一种基于卷积区域重配准的单阶段目标检测方法
CN117274723B (zh) 一种用于输电巡检的目标识别方法、系统、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination