CN115019133A - 基于自训练和标签抗噪的图像中弱目标的检测方法及系统 - Google Patents

基于自训练和标签抗噪的图像中弱目标的检测方法及系统 Download PDF

Info

Publication number
CN115019133A
CN115019133A CN202210685827.5A CN202210685827A CN115019133A CN 115019133 A CN115019133 A CN 115019133A CN 202210685827 A CN202210685827 A CN 202210685827A CN 115019133 A CN115019133 A CN 115019133A
Authority
CN
China
Prior art keywords
image sample
target detection
unlabeled
target
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210685827.5A
Other languages
English (en)
Inventor
李新宇
万宇森
高亮
高艺平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202210685827.5A priority Critical patent/CN115019133A/zh
Publication of CN115019133A publication Critical patent/CN115019133A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于目标检测相关技术领域,其公开了一种基于自训练和标签抗噪的图像中弱目标的检测方法及系统,方法包括:获取并预处理包括有标签图像样本和无标签图像样本的目标检测数据集;为有标签图像样本和无标签图像样本生成候选框;将有标签图像样本输入至基于MIL的弱监督目标检测模型,得到初步训练完成的弱监督目标检测模型;采用初步训练完成的弱监督目标检测模型对无标签图像样本进行预测并筛选,得到伪标签;采用有标签图像样本和伪标签的无标签图像样本对初步训练完成的模型再次训练,得到最终训练完成的模型;将待检测图像输入最终训练完成的模型即可实现弱目标的检测。本申请避免对高质量标签的依赖,提高了图像中弱目标检测的精度和效率。

Description

基于自训练和标签抗噪的图像中弱目标的检测方法及系统
技术领域
本发明属于弱监督目标检测相关技术领域,更具体地,涉及一种基于自训练和标签抗噪的图像中弱目标的检测方法及系统。
背景技术
目标检测包括分类和回归两类任务,目的在于根据图像信息得到目标物体的分类信息以及位置信息,目标检测在人脸支付、智能辅助驾驶、自动驾驶、违章查询、关键通道检测、广告检测等方便有着广泛的应用和重要的意义,已经成为计算机视觉领域最重要的研究方向之一。
随着深度学习的发展,研究者们开始探索使用深度学习进行目标检测,深度学习使用数据自动学习如何进行深度特征提取而不是由开发者手动进行,因此,深度学习在目标检测领域表现出优秀的性能,成为了目标检测任务中研究者使用最主要的算法。在目标检测领域,基于深度学习的VGG-16、YOLO、SSD、Faster-RCNN等方法成为现在研究的主流。基于深度学习的目标检测对样本标签的质量要求非常高,既需要样本中目标的分类标签还需要目标的位置标签,然而,给样本生成高质量标签需要消耗大量的时间和精力。
在现实工作中,大多数数据集并不能满足基于深度学习的目标检测的要求,因为其样本标签只包含了样本的分类标签,甚至没有标签。因此,开发一种只需要分类标签的目标检测技术,即弱监督目标检测技术成为了学者研究的重点。现有的弱监督目标检测的主要问题在于,由于只使用了样本的分类标签训练模型,其性能达不到实际应用的要求。
提供弱监督目标检测性能主要有以下几种思路:
(1)提高模型特征提取能力;(2)提高目标定位以及分类能力;(3)优化自训练算法。自训练算法具体方法为使用在有标签样本上训练的弱监督目标模型给无标签样本生成伪标签,再使用带有伪标签的无标签样本和有标签样本共同训练弱监督目标检测,这样使用无标签样本提高弱监督目标检测的性能。然而,自训练算法需要生成和使用伪标签,而伪标签和人工标记的标签相比包含很多错误信息,即标签噪声。标签噪声对于训练过程是一个巨大的干扰,因此检测精度不高,不能很好的识别图像中的弱目标。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于自训练和标签抗噪的图像弱目标的检测方法及系统,本申请可以利用无标签图像数据进行图像中弱目标的检测,避免对高质量标签的依赖,提高了图像中弱目标检测的精度和效率。
为实现上述目的,按照本发明的一个方面,提供了一种基于自训练和标签抗噪的图像中弱目标的检测方法,所述方法包括:S1:获取包括有标签图像样本和无标签图像样本的目标检测数据集,其中,所述有标签图像样本为已知目标类别的图像样本;S2:对所述目标检测数据集进行预处理,得到预处理后的有标签图像样本和预处理后的无标签图像样本;S3:为所述预处理后的有标签图像样本和预处理后的无标签图像样本生成候选框以作为待识别目标区域;S4:将步骤S3处理后的有标签图像样本作为输入,并将所述有标签图像样本的目标类别的概率作为输出对基于MIL的弱监督目标检测模型进行训练,得到初步训练完成的弱监督目标检测模型;S5:采用所述初步训练完成的弱监督目标检测模型对步骤S3处理后的无标签图像样本进行预测,得到预测结果;S6:将无标签图像样本的预测结果中属于目标类别的概率大于预设阈值的图像样本保留作为无标签图像样本的伪标签,将无标签图像样本中属于目标类别的概率小于预设阈值的图像样本舍弃;S7:将步骤S3处理后的有标签图像样本和带有伪标签的步骤S3处理后的无标签图像样本对所述初步训练完成的弱监督目标检测模型进行再次训练,当采用带有伪标签的预处理后的无标签图像样本进行训练时采用优化的损失函数来评判伪标签的标签概率与预测概率之间的差值,得到最终训练完成的弱监督目标检测模型;S8:将待检测的具有弱目标的图像输入最终训练完成的弱监督目标检测模型即可实现弱目标的检测。
优选地,步骤S7中,将步骤S3处理后的有标签图像样本和带有伪标签的步骤S3处理后的无标签图像样本对所述初步训练完成的弱监督目标检测模型进行再次训练具体为:训练过程中,当输入的图像样本为预处理后的有标签图像样本时,则使用交叉熵损失函数对初步训练完成的弱监督目标检测模型进行再次训练;当输入的图像样本为带有伪标签的步骤S3处理后的无标签图像样本时,使用优化的损失函数替代原有损失函数,所述优化的损失函数
Figure BDA0003697801080000031
为:
Figure BDA0003697801080000032
其中,
Figure BDA0003697801080000033
为第j个无标签图像样本的损失值,α为衰减系数,β为补偿系数,C为总类别数量,c为类别序号,yjc为第j个预处理后的无标签样本中第c个类别的标签,
Figure BDA0003697801080000034
为第j个预处理后的无标签图像样本包含类别c的概率。
优选地,步骤S6中具体为采用预设阈值对所述预测结果进行筛选,将预测结果中属于目标类别的概率大于预设阈值则为伪标签,将预测结果中属于目标类别的概率小于预设阈值则舍弃,伪标签y′i的具体表达式为:
y′j=[y′j1,y′j2,…,y′jc,…y′jC]∈RC×1
Figure BDA0003697801080000041
其中,y′jc为第j个图像样本中第c个类别的伪标签,RC×1为C×1维的实数空间,C为类别总数,
Figure BDA0003697801080000045
为第j个预处理后的无标签图像样本包含类别c的概率,其取值在区间[0,1]内,θ为预设阈值。
优选地,步骤S5中所述预测结果为每个标签包含预设目标类别的概率,预测结果的具体表达式为:
Figure BDA0003697801080000042
其中,
Figure BDA0003697801080000043
为所述初步训练完成的弱监督目标检测模型对第j个预处理后的无标签图像样本的预测结果;
Figure BDA0003697801080000044
为第j个预处理后的无标签图像样本包含类别c的概率,其取值在区间[0,1]内,RC×1为C×1维的实数空间。
优选地,所述预设阈值为0.6~0.99。
优选地,所述预处理包括高斯噪声、随机翻转以及尺寸缩放中的一种或多种操作。
优选地,采用选择性搜索算法为所述预处理后的有标签图像样本和预处理后的无标签图像样本生成候选框。
按照本发明的另一个方面,提供了一种基于自训练与标签抗噪的弱监督目标检测系统,所述系统包括:数据集获取单元:用于获取包括有标签图像样本和无标签图像样本的目标检测数据集,其中,所述有标签图像样本为已知目标类别的图像样本;预处理单元:用于对所述目标检测数据集进行预处理,得到预处理后的有标签图像样本和预处理后的无标签图像样本;候选框生成单元:用于采用选择性搜索算法为所述预处理后的有标签图像样本和预处理后的无标签图像样本生成候选框以作为待识别目标区域;初步训练单元:用于将候选框生成单元处理后的有标签图像样本作为输入并将所述有标签图像样本的目标类别的概率作为输出对基于MIL的弱监督目标检测模型进行训练,得到初步训练完成的弱监督目标检测模型;预测单元:用于采用所述初步训练完成的弱监督目标检测模型对候选框生成单元处理后的无标签图像样本进行预测,得到预测结果;筛选单元:用于将无标签图像样本的预测结果中属于目标类别的概率大于预设阈值的图像样本保留作为无标签图像样本的伪标签,将无标签图像样本中属于目标类别的概率小于预设阈值的图像样本舍弃;最终训练单元:用于将候选框生成单元处理后的有标签图像样本和带有伪标签的候选框生成单元处理后的无标签样本输入所述初步训练完成的弱监督目标检测模型进行再次训练,当采用带有伪标签的无标签图像样本进行训练时采用优化的损失函数来评判伪标签的标签概率与预测概率之间的差值,得到最终训练完成的弱监督目标检测模型;检测单元:用于将待检测的具有弱目标的图像输入最终训练完成的弱监督目标检测模型即可实现图像中弱目标的目标类别检测。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,本发明提供的基于自训练和标签抗噪的弱监督目标检测方法及系统具有如下有益效果:
1.本申请采用有标签样本和无标签样本对基于MIL的弱监督目标检测模型进行训练,并且采用有标签样本训练时采用现有损失函数进行训练,但采用无标签样本进行训练时对损失函数进行了优化,为得到高质量的伪标签,需要将预设阈值设置较大,但导致损失函数噪声更大,本申请优化的损失函数避免了较大预设阈值对损失函数的影响,在保证伪标签质量的前提下避免了噪声的影响,提升了对图像的检测精度,后期的应用过程中避免了对高质量标签的依赖,进而可以利用无标签图像数据进行目标检测。
2.伪标签的质量对弱监督目标检测模型的训练效果具有较大影响,因此对预测结果进行筛选得到质量较高的伪标签。
3.当训练样本为带有伪标签的无标签图像样本时,采用噪声鲁棒性更强的优化的标签抗噪损失函数,提高了弱监督目标检测模型的噪声鲁棒性,使得目标检测模型对图像中的弱监督目标的检测更加精准。
附图说明
图1是基于自训练和标签抗噪的图像中弱目标的检测方法的步骤图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
请参阅图1,本发明提供了一种基于自训练和标签抗噪的图像中的弱目标检测方法,所述检测方法包括以下步骤S1~S8。
S1:获取包括有标签图像样本和无标签图像样本的目标检测数据集,其中,所述有标签图像样本为已知目标类别的图像样本。
将多个图像样本人工分成有标签图像样本和无标签图像样本,组成目标检测数据集。同时,根据有标签样本中的目标种类,预设多种目标类别,例如,目标类别可以为人、狗、猫、汽车等,所述有标签图像样本为具有目标类别的样本。其中,有标签图像样本的标签为样本的类别标签,即给定图像样本包含哪些目标类别,其可以按以下方式给定:
yi=[yi1,yi2,…,yic,…,yiC]∈RC×1in[0,1]
其中,i为第i个有标签图像样本,yi为第i个有标签图像样本的类别标签,yic为第i个有标签图像样本关于类别c的标签,取值范围为{0,1},yic=1为第i个有标签图像样本包含属于类别c的目标,yic=0为第i个有标签图像样本不包含属于类别c的目标。
S2:对所述目标检测数据集进行预处理,得到预处理后的有标签图像样本和预处理后的无标签图像样本。
所述预处理包括但不限于高斯噪声、随机翻转、尺寸缩放等,其中,高斯噪声用于给图像加入高斯噪声,以扩充样本容量;随机翻转用于针对每一个样本图片,随机挑选水平和数值两个方向中的一个进行翻转;尺寸缩放用于将每一个样本图片的最短边优选缩放至{480,576,688,864,1200}五个给定尺寸之一,并保证长边长小于2000像素。
S3:为所述预处理后的有标签图像样本和预处理后的无标签图像样本生成候选框以作为待识别目标区域。
优选采用选择性搜索算法为预处理后的有标签图像样本和预处理后的无标签图像样本中的目标区别设置候选框,以便于后期识别。
S4:将步骤S3处理后的有标签样本作为输入并将所述有标签图像样本对应的目标类别的概率作为输出对基于MIL的弱监督目标检测模型进行训练,得到初步训练完成的弱监督目标检测模型。
基于MIL的弱监督目标检测模型是一类经典的弱监督目标检测模型,其包含一个多实例学习模块(Multi-Instance Learning,MIL)和后续的实例细化模块。多实例学习模块将样本视为一系列目标的集合,将弱监督目标检测视为对样本候选框的分类。多实例学习模块使用一个卷积神经网络作为特征提取器,从输入样本中提取出深度特征,而后使用特征金子塔从深度特征中为每个候选框提取出特征向量,并将其输入两个分支:分类分支和检测分支;两个分支使用全连接层和SoffMax层,分别为候选框生成分类分数;最终,每个候选框的分类分数求哈德玛积,得到每个候选框最终的分类分数,其中分类分数高的候选框为检测结果。
而后,将候选框的分类分数加和得到对整个样本分类分数的预测结果,分类分数按以下方式给定:
Figure BDA0003697801080000071
其中,i为第i个有标签图像样本,
Figure BDA0003697801080000072
为弱监督目标检测模型对第i个有标签图像样本分类分数的预测结果,
Figure BDA0003697801080000073
为第i个无标签图像样本包含类别c的概率,其取值区间为[0,1]。
将步骤S3处理后的有标签图像样本输入至基于MIL的弱监督目标检测模型,以对所述基于MIL的弱监督目标检测模型进行训练,训练过程中使用交叉熵损失函数衡量有标签样本的真实标签概率与预测概率之间的差异损失,交叉熵损失函数如下:
Figure BDA0003697801080000081
其中,
Figure BDA0003697801080000082
为第i个有标签图像样本在训练过程中的损失值。
S5:采用所述初步训练完成的弱监督目标检测模型对步骤S3处理后的无标签图像样本进行预测,得到预测结果。
采用上述初步训练完成的弱监督目标检测模型对所述预处理后的无标签样本进行分类分数的预测,得到对无标签样本分类分数的预测结果,预测结果为每个标签包含某一类别目标的概率。
Figure BDA0003697801080000083
其中,j为第j个无标签图像样本,
Figure BDA0003697801080000084
为初步训练完成的弱监督目标检测模型对第j个无标签图像样本的预测结果,
Figure BDA0003697801080000085
为第j个无标签图像样本包含类别c的概率,其取值范围为[0,1]。
S6:将无标签图像样本的预测结果中属于目标类别的概率大于预设阈值的图像样本保留作为无标签图像样本的伪标签,将无标签图像样本中属于目标类别的概率小于预设阈值的图像样本舍弃。
训练过程中,伪标签的质量对弱监督目标检测模型的最终训练影响较大,因此需要对预测结果进行筛选。
如上所述对无标签图像样本的预测结果为:
Figure BDA0003697801080000086
则伪标签为:
y′j=[y′j1,y′j2,…,y′jc,…y′jC]∈RC×1
Figure BDA0003697801080000091
其中,y′jc为第j个样本中第c个类别的伪标签,RC×1为C×1维的实数空间,C为类别总数,
Figure BDA0003697801080000092
为第j个预处理后的无标签图像样本包含类别c的概率,其取值在区间[0,1]内,θ为预设阈值。
若θ为0.7,假设y′j=[0,1,0]为车,y′j=[0,0,1]为马,如预测结果为[0.2,0.8,0.5]则伪标签的结果为[0,1,0],该伪标签的类别标签为车。
也即采用预设阈值对所述预测结果进行筛选,大于预设阈值则为伪标签,小于预设阈值则舍弃。预设阈值可以根据需要进行人为设定,本申请实施例中预设阈值优选为0.1~0.9,进一步优选为0.6~0.99。
S7:将步骤S3处理后的有标签图像样本和带有伪标签的预处理后的无标签图像样本对所述初步训练完成的弱监督目标检测模型进行再次训练,当采用带有伪标签的预处理后的无标签图像样本进行训练时采用优化的损失函数来评判伪标签的标签概率与预测概率之间的差值,得到最终训练完成的弱监督目标检测模型。
将预处理后的有标签图像样本和带有伪标签的预处理后的无标签图像样本共同训练初步训练完成的弱监督目标检测模型。训练过程中,当输入样本为有标签图像样本时,使用交叉熵损失函数对初步训练完成的弱监督目标检测模型进行再次训练,当输入的图像样本为带有伪标签的无标签图像样本时,使用优化的损失函数替代原有损失函数,所述优化的损失函数
Figure BDA0003697801080000093
为:
Figure BDA0003697801080000094
其中,
Figure BDA0003697801080000095
为第j个无标签图像样本的损失值,α为衰减系数,β为补偿系数,C为总类别数量,c为类别序号,yjc为第c个类别的标签,
Figure BDA0003697801080000096
为第j个预处理后的无标签图像样本包含类别c的概率。采用如上伪标签的标签概率为[0,1,0]真实标签概率,再次预测时的概率为预测概率,通过两者计算损失。
最终得到最终训练完成的弱监督目标检测模型。
在训练过程中,伪标签的质量对步骤S7的效果影响较大,而伪标签的质量与预设阈值直接相关。为了得到高质量伪标签,所以生成伪标签的预设阈值优选设定为一个较高的值,例如为0.7,这就导致当
Figure BDA0003697801080000101
为一个中等的值时,即使第j个无标签图像样本包含属于类别c的目标,y′jc也更大概率被设置为0而不是1.因此,当y′jc=0时,其有更大的概率为错误标签。所说损失函数中
Figure BDA0003697801080000102
部分有更大可能包含噪声,基于此申请人提出了上述标签抗噪损失函数。
S8:将待检测的具有弱监督目标的图像输入最终训练完成的弱监督目标检测模型即可实现图像中弱监督目标的目标类别检测。
将具有弱监督目标的图像输入最终训练完成的弱监督目标检测模型即可实现弱监督目标的精确检测。
本申请另一方面提供了一种基于自训练与标签抗噪的图像中弱目标的检测系统,所述系统包括数据集获取单元、预处理单元、候选框生成单元、初步训练单元、预测单元、筛选单元、最终训练单元、检测单元,其中:
数据集获取单元:用于获取包括有标签图像样本和无标签图像样本的目标检测数据集,其中,所述有标签图像样本为已知目标类别的图像样本;
预处理单元:用于对所述目标检测数据集进行预处理,得到预处理后的有标签图像样本和预处理后的无标签图像样本;
候选框生成单元:用于采用选择性搜索算法为所述预处理后的有标签图像样本和预处理后的无标签图像样本生成候选框以作为待识别目标区域;
初步训练单元:用于将候选框生成单元处理后的有标签图像样本作为输入并将所述有标签图像样本对应的目标类别的概率作为输出对基于MIL的弱监督目标检测模型进行训练,得到初步训练完成的弱监督目标检测模型;
预测单元:用于采用所述初步训练完成的弱监督目标检测模型对候选框生成单元处理后的无标签图像样本进行预测,得到预测结果;
筛选单元:将无标签图像样本的预测结果中属于目标类别的概率大于预设阈值的图像样本保留作为无标签图像样本的伪标签,将无标签图像样本中属于目标类别的概率小于预设阈值的图像样本舍弃;
最终训练单元:用于将候选框生成单元处理后的有标签样本和带有伪标签的候选框生成单元处理后的无标签图像样本输入所述初步训练完成的弱监督目标检测模型进行再次训练,当采用带有伪标签的无标签图像样本进行训练时采用优化的损失函数来评判图像样本真实标签概率与预测概率之间的差值,得到最终训练完成的弱监督目标检测模型;
检测单元:用于将待检测的具有弱目标的图像输入最终训练完成的弱监督目标检测模型即可实现图像中弱监督目标的目标类别检测。
具体应用
本申请采用的数据集为PASCAL VOC挑战赛中VOC2007和VOC2012数据集。PASCALVOC是一个经典的计算机视觉挑战赛,包括图像分类、目标检测、图像分割、人体布局、动作识别等内容,这些内容在现实中都有着广泛的应用。PASCAL VOC采用在现实生活中采集到的图片,并由人工生成其标签,包括分类标签、目标检测标签、分割标签等。PASCAL VOC包含多个数据集,其中VOC2007和VOC2012是目标检测领域最常用的两种。在此,本申请使用VOC2007和VOC2012来测试所提出方法的效果。
VOC2007数据集共有9963张图片,即9963个样本,其中5011个有标签样本,4952个无标签样本。VOC2012数据集共有22531个样本,其中11540个有标签样本,10991个无标签样本。表1和表2给出了本申请给出的基于自训练和标签抗噪的弱监督目标检测算法与弱监督目标检测领域其他算法的对比,包括OICR、WCCN、C-WSL、PCL。其中,本申请将PCL作为baseline。OICR在数据集VOC2007上取得了41.9%的mAP成绩,在数据集VOC2012上取得了38.7%的mAP成绩;WCCN在数据集VOC2007上取得了42.8%的mAP成绩,在数据集VOC2012上取得了37.9%的mAP成绩;C-WSL在数据集VOC2007上取得了45.6%的mAP成绩,在数据集VOC2012上取得了43.0%的mAP成绩;PCL在数据集VOC2007上取得了53.1%的mAP成绩,在数据集VOC2012上取得了48.5%的mAP成绩。由此可见,PCL在两个数据集上的表现都好于其他模型结果。而本发明提出的模型在数据集VOC2007上取得了53.7%的mAP成绩,在数据集VOC2012上取得了51.1%的mAP成绩,相比于原始的PCL有了进一步提升。
Figure BDA0003697801080000121
表1
Figure BDA0003697801080000122
表2
本发明提供的基于自训练和标签抗噪的图像中弱目标的检测方法及系统,可以利用无标签图像数据进行图像中弱目标的检测,避免对高质量标签的依赖,提高了图像中弱目标检测的精度和效率。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于自训练和标签抗噪的图像中弱目标的检测方法,其特征在于,所述检测方法包括:
S1:获取包括有标签图像样本和无标签图像样本的目标检测数据集,其中,所述有标签图像样本为已知目标类别的图像样本;
S2:对所述目标检测数据集进行预处理,得到预处理后的有标签图像样本和预处理后的无标签图像样本;
S3:为所述预处理后的有标签图像样本和预处理后的无标签图像样本生成候选框以作为待识别目标区域;
S4:将步骤S3处理后的有标签图像样本作为输入,并将所述有标签图像样本对应的目标类别的概率作为输出对基于MIL的弱监督目标检测模型进行训练,得到初步训练完成的弱监督目标检测模型;
S5:采用所述初步训练完成的弱监督目标检测模型对步骤S3处理后的无标签图像样本进行预测,得到预测结果;
S6:将无标签图像样本的预测结果中属于目标类别的概率大于预设阈值的图像样本保留作为无标签图像样本的伪标签,将无标签图像样本中属于目标类别的概率小于预设阈值的图像样本舍弃;
S7:将步骤S3处理后的有标签图像样本和带有伪标签的步骤S3处理后的无标签图像样本对所述初步训练完成的弱监督目标检测模型进行再次训练,当采用带有伪标签的预处理后的无标签图像样本进行训练时采用优化的损失函数来评判伪标签的标签概率与预测概率之间的差值,得到最终训练完成的弱监督目标检测模型;
S8:将待检测的具有弱目标的图像输入最终训练完成的弱监督目标检测模型即可实现图像中弱目标的目标类别检测。
2.根据权利要求1所述的检测方法,其特征在于,步骤S7中,将步骤S3处理后的有标签图像样本和带有伪标签的步骤S3处理后的无标签图像样本对所述初步训练完成的弱监督目标检测模型进行再次训练具体为:
训练过程中,当输入的图像样本为步骤S3处理后的有标签图像样本时,则使用交叉熵损失函数对初步训练完成的弱监督目标检测模型进行再次训练;当输入的图像样本为带有伪标签的步骤S3处理后的无标签图像样本时,使用优化的损失函数替代原有损失函数,所述优化的损失函数
Figure FDA0003697801070000021
为:
Figure FDA0003697801070000022
其中,
Figure FDA0003697801070000023
为第j个无标签图像样本的损失值,α为衰减系数,β为补偿系数,C为总类别数量,c为类别序号,yjc为第c个类别的标签,
Figure FDA0003697801070000024
为第j个预处理后的无标签图像样本包含类别c的概率。
3.根据权利要求1所述的检测方法,其特征在于,步骤S6中具体为采用预设阈值对所述预测结果进行筛选,将预测结果中属于目标类别的概率大于预设阈值的无标签样本作为伪标签,将预测结果中属于目标类别的概率小于预设阈值的无标签样本舍弃,伪标签y′i的具体表达式为:
y′j=[y′j1,y′j2,…,y′jc,…y′jC]∈RC×1
Figure FDA0003697801070000025
其中,y′jc为第j个图像样本第c个类别的伪标签,RC×1为C×1维的实数空间,C为类别总数,
Figure FDA0003697801070000026
为第j个预处理后的无标签图像样本包含类别c的概率,其取值在区间[0,1]内,θ为预设阈值。
4.根据权利要求1所述的检测方法,其特征在于,步骤S5中所述预测结果为每个标签包含预设目标类别的概率,预测结果的具体表达式为:
Figure FDA0003697801070000027
其中,
Figure FDA0003697801070000028
为所述初步训练完成的弱监督目标检测模型对第j个预处理后的无标签图像样本的预测结果;
Figure FDA0003697801070000029
为第j个预处理后的无标签图像样本包含类别c的概率,其取值在区间[0,1]内,RC×1为C×1维的实数空间。
5.根据权利要求1所述的检测方法,其特征在于,所述预设阈值为0.6~0.99。
6.根据权利要求1所述的检测方法,其特征在于,所述预处理包括高斯噪声、随机翻转以及尺寸缩放中的一种或多种操作。
7.根据权利要求1所述的检测方法,其特征在于,采用选择性搜索算法为所述预处理后的有标签图像样本和预处理后的无标签图像样本生成候选框。
8.一种基于自训练与标签抗噪的图像中弱目标的检测系统,其特征在于,所述系统包括:
数据集获取单元:用于获取包括有标签图像样本和无标签图像样本的目标检测数据集,其中,所述有标签图像样本为已知目标类别的图像样本;
预处理单元:用于对所述目标检测数据集进行预处理,得到预处理后的有标签图像样本和预处理后的无标签图像样本;
候选框生成单元:用于采用选择性搜索算法为所述预处理后的有标签图像样本和预处理后的无标签图像样本生成候选框以作为待识别目标区域;
初步训练单元:用于将候选框生成单元处理后的有标签图像样本输入至基于MIL的弱监督目标检测模型,以对所述基于MIL的弱监督目标检测模型进行训练,得到初步训练完成的弱监督目标检测模型;
预测单元:用于采用所述初步训练完成的弱监督目标检测模型对所述预处理后的无标签样本进行预测,得到预测结果;
筛选单元:用于对所述预测结果进行筛选,得到无标签样本的伪标签;
最终训练单元:用于将候选框生成单元处理后的有标签图像样本和带有伪标签的候选框生成单元处理后的无标签图像样本输入所述初步训练完成的弱监督目标检测模型进行再次训练,当采用带有伪标签的无标签图像样本进行训练时采用优化的损失函数来评判图像样本的伪标签的标签概率与预测概率之间的差值,得到最终训练完成的弱监督目标检测模型;
检测单元:用于将待检测的具有弱目标的图像输入最终训练完成的弱监督目标检测模型即可实现图像中弱监督目标的目标类别检测。
CN202210685827.5A 2022-06-16 2022-06-16 基于自训练和标签抗噪的图像中弱目标的检测方法及系统 Pending CN115019133A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210685827.5A CN115019133A (zh) 2022-06-16 2022-06-16 基于自训练和标签抗噪的图像中弱目标的检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210685827.5A CN115019133A (zh) 2022-06-16 2022-06-16 基于自训练和标签抗噪的图像中弱目标的检测方法及系统

Publications (1)

Publication Number Publication Date
CN115019133A true CN115019133A (zh) 2022-09-06

Family

ID=83074444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210685827.5A Pending CN115019133A (zh) 2022-06-16 2022-06-16 基于自训练和标签抗噪的图像中弱目标的检测方法及系统

Country Status (1)

Country Link
CN (1) CN115019133A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824275A (zh) * 2023-08-29 2023-09-29 青岛美迪康数字工程有限公司 一种实现智能模型优化的方法、装置和计算机设备
CN116935107A (zh) * 2023-07-12 2023-10-24 中国科学院自动化研究所 基于互联网搜索的检测类别自扩展目标检测方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935107A (zh) * 2023-07-12 2023-10-24 中国科学院自动化研究所 基于互联网搜索的检测类别自扩展目标检测方法及装置
CN116824275A (zh) * 2023-08-29 2023-09-29 青岛美迪康数字工程有限公司 一种实现智能模型优化的方法、装置和计算机设备
CN116824275B (zh) * 2023-08-29 2023-11-17 青岛美迪康数字工程有限公司 一种实现智能模型优化的方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN110414368B (zh) 一种基于知识蒸馏的无监督行人重识别方法
Nie et al. Pavement distress detection based on transfer learning
CN110163069B (zh) 用于辅助驾驶的车道线检测方法
CN115019133A (zh) 基于自训练和标签抗噪的图像中弱目标的检测方法及系统
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN111080597A (zh) 一种基于深度学习的轨道扣件缺陷识别算法
CN111932511B (zh) 一种基于深度学习的电子元器件质量检测方法与系统
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN110543912A (zh) 自动获取胎儿关键切面超声视频中心动周期视频的方法
CN112861917A (zh) 基于图像属性学习的弱监督目标检测方法
Ghosh et al. Automated detection and classification of pavement distresses using 3D pavement surface images and deep learning
CN116342942A (zh) 基于多级域适应弱监督学习的跨域目标检测方法
CN115984537A (zh) 图像处理方法、装置及相关设备
Khellal et al. Pedestrian classification and detection in far infrared images
CN113808123B (zh) 一种基于机器视觉的药液袋动态检测方法
CN110751005B (zh) 融合深度感知特征和核极限学习机的行人检测方法
CN116844143B (zh) 基于边缘增强的胚胎发育阶段预测与质量评估系统
CN113158878B (zh) 一种基于子空间的异构迁移故障诊断方法、系统和模型
CN113095235B (zh) 一种基于弱监督判别机制的图像目标检测方法、系统及装置
Bi et al. CASA-Net: a context-aware correlation convolutional network for scale-adaptive crack detection
Cheng et al. Capacitance pin defect detection based on deep learning
CN115082909B (zh) 一种肺部病变识别方法及系统
García et al. Automatic detection of vehicles in outdoor parking lots from zenith perspective using neural networks
Yang et al. SK-FMYOLOV3: A Novel Detection Method for Urine Test Strips
Chung et al. Is Meta-Learning Always Necessary?: A Practical ML Framework Solving Novel Tasks at Large-scale Car Sharing Platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination