CN115019133A - 基于自训练和标签抗噪的图像中弱目标的检测方法及系统 - Google Patents
基于自训练和标签抗噪的图像中弱目标的检测方法及系统 Download PDFInfo
- Publication number
- CN115019133A CN115019133A CN202210685827.5A CN202210685827A CN115019133A CN 115019133 A CN115019133 A CN 115019133A CN 202210685827 A CN202210685827 A CN 202210685827A CN 115019133 A CN115019133 A CN 115019133A
- Authority
- CN
- China
- Prior art keywords
- image sample
- target detection
- unlabeled
- target
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于目标检测相关技术领域,其公开了一种基于自训练和标签抗噪的图像中弱目标的检测方法及系统,方法包括:获取并预处理包括有标签图像样本和无标签图像样本的目标检测数据集;为有标签图像样本和无标签图像样本生成候选框;将有标签图像样本输入至基于MIL的弱监督目标检测模型,得到初步训练完成的弱监督目标检测模型;采用初步训练完成的弱监督目标检测模型对无标签图像样本进行预测并筛选,得到伪标签;采用有标签图像样本和伪标签的无标签图像样本对初步训练完成的模型再次训练,得到最终训练完成的模型;将待检测图像输入最终训练完成的模型即可实现弱目标的检测。本申请避免对高质量标签的依赖,提高了图像中弱目标检测的精度和效率。
Description
技术领域
本发明属于弱监督目标检测相关技术领域,更具体地,涉及一种基于自训练和标签抗噪的图像中弱目标的检测方法及系统。
背景技术
目标检测包括分类和回归两类任务,目的在于根据图像信息得到目标物体的分类信息以及位置信息,目标检测在人脸支付、智能辅助驾驶、自动驾驶、违章查询、关键通道检测、广告检测等方便有着广泛的应用和重要的意义,已经成为计算机视觉领域最重要的研究方向之一。
随着深度学习的发展,研究者们开始探索使用深度学习进行目标检测,深度学习使用数据自动学习如何进行深度特征提取而不是由开发者手动进行,因此,深度学习在目标检测领域表现出优秀的性能,成为了目标检测任务中研究者使用最主要的算法。在目标检测领域,基于深度学习的VGG-16、YOLO、SSD、Faster-RCNN等方法成为现在研究的主流。基于深度学习的目标检测对样本标签的质量要求非常高,既需要样本中目标的分类标签还需要目标的位置标签,然而,给样本生成高质量标签需要消耗大量的时间和精力。
在现实工作中,大多数数据集并不能满足基于深度学习的目标检测的要求,因为其样本标签只包含了样本的分类标签,甚至没有标签。因此,开发一种只需要分类标签的目标检测技术,即弱监督目标检测技术成为了学者研究的重点。现有的弱监督目标检测的主要问题在于,由于只使用了样本的分类标签训练模型,其性能达不到实际应用的要求。
提供弱监督目标检测性能主要有以下几种思路:
(1)提高模型特征提取能力;(2)提高目标定位以及分类能力;(3)优化自训练算法。自训练算法具体方法为使用在有标签样本上训练的弱监督目标模型给无标签样本生成伪标签,再使用带有伪标签的无标签样本和有标签样本共同训练弱监督目标检测,这样使用无标签样本提高弱监督目标检测的性能。然而,自训练算法需要生成和使用伪标签,而伪标签和人工标记的标签相比包含很多错误信息,即标签噪声。标签噪声对于训练过程是一个巨大的干扰,因此检测精度不高,不能很好的识别图像中的弱目标。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于自训练和标签抗噪的图像弱目标的检测方法及系统,本申请可以利用无标签图像数据进行图像中弱目标的检测,避免对高质量标签的依赖,提高了图像中弱目标检测的精度和效率。
为实现上述目的,按照本发明的一个方面,提供了一种基于自训练和标签抗噪的图像中弱目标的检测方法,所述方法包括:S1:获取包括有标签图像样本和无标签图像样本的目标检测数据集,其中,所述有标签图像样本为已知目标类别的图像样本;S2:对所述目标检测数据集进行预处理,得到预处理后的有标签图像样本和预处理后的无标签图像样本;S3:为所述预处理后的有标签图像样本和预处理后的无标签图像样本生成候选框以作为待识别目标区域;S4:将步骤S3处理后的有标签图像样本作为输入,并将所述有标签图像样本的目标类别的概率作为输出对基于MIL的弱监督目标检测模型进行训练,得到初步训练完成的弱监督目标检测模型;S5:采用所述初步训练完成的弱监督目标检测模型对步骤S3处理后的无标签图像样本进行预测,得到预测结果;S6:将无标签图像样本的预测结果中属于目标类别的概率大于预设阈值的图像样本保留作为无标签图像样本的伪标签,将无标签图像样本中属于目标类别的概率小于预设阈值的图像样本舍弃;S7:将步骤S3处理后的有标签图像样本和带有伪标签的步骤S3处理后的无标签图像样本对所述初步训练完成的弱监督目标检测模型进行再次训练,当采用带有伪标签的预处理后的无标签图像样本进行训练时采用优化的损失函数来评判伪标签的标签概率与预测概率之间的差值,得到最终训练完成的弱监督目标检测模型;S8:将待检测的具有弱目标的图像输入最终训练完成的弱监督目标检测模型即可实现弱目标的检测。
优选地,步骤S7中,将步骤S3处理后的有标签图像样本和带有伪标签的步骤S3处理后的无标签图像样本对所述初步训练完成的弱监督目标检测模型进行再次训练具体为:训练过程中,当输入的图像样本为预处理后的有标签图像样本时,则使用交叉熵损失函数对初步训练完成的弱监督目标检测模型进行再次训练;当输入的图像样本为带有伪标签的步骤S3处理后的无标签图像样本时,使用优化的损失函数替代原有损失函数,所述优化的损失函数为:
其中,为第j个无标签图像样本的损失值,α为衰减系数,β为补偿系数,C为总类别数量,c为类别序号,yjc为第j个预处理后的无标签样本中第c个类别的标签,为第j个预处理后的无标签图像样本包含类别c的概率。
优选地,步骤S6中具体为采用预设阈值对所述预测结果进行筛选,将预测结果中属于目标类别的概率大于预设阈值则为伪标签,将预测结果中属于目标类别的概率小于预设阈值则舍弃,伪标签y′i的具体表达式为:
y′j=[y′j1,y′j2,…,y′jc,…y′jC]∈RC×1
优选地,步骤S5中所述预测结果为每个标签包含预设目标类别的概率,预测结果的具体表达式为:
优选地,所述预设阈值为0.6~0.99。
优选地,所述预处理包括高斯噪声、随机翻转以及尺寸缩放中的一种或多种操作。
优选地,采用选择性搜索算法为所述预处理后的有标签图像样本和预处理后的无标签图像样本生成候选框。
按照本发明的另一个方面,提供了一种基于自训练与标签抗噪的弱监督目标检测系统,所述系统包括:数据集获取单元:用于获取包括有标签图像样本和无标签图像样本的目标检测数据集,其中,所述有标签图像样本为已知目标类别的图像样本;预处理单元:用于对所述目标检测数据集进行预处理,得到预处理后的有标签图像样本和预处理后的无标签图像样本;候选框生成单元:用于采用选择性搜索算法为所述预处理后的有标签图像样本和预处理后的无标签图像样本生成候选框以作为待识别目标区域;初步训练单元:用于将候选框生成单元处理后的有标签图像样本作为输入并将所述有标签图像样本的目标类别的概率作为输出对基于MIL的弱监督目标检测模型进行训练,得到初步训练完成的弱监督目标检测模型;预测单元:用于采用所述初步训练完成的弱监督目标检测模型对候选框生成单元处理后的无标签图像样本进行预测,得到预测结果;筛选单元:用于将无标签图像样本的预测结果中属于目标类别的概率大于预设阈值的图像样本保留作为无标签图像样本的伪标签,将无标签图像样本中属于目标类别的概率小于预设阈值的图像样本舍弃;最终训练单元:用于将候选框生成单元处理后的有标签图像样本和带有伪标签的候选框生成单元处理后的无标签样本输入所述初步训练完成的弱监督目标检测模型进行再次训练,当采用带有伪标签的无标签图像样本进行训练时采用优化的损失函数来评判伪标签的标签概率与预测概率之间的差值,得到最终训练完成的弱监督目标检测模型;检测单元:用于将待检测的具有弱目标的图像输入最终训练完成的弱监督目标检测模型即可实现图像中弱目标的目标类别检测。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,本发明提供的基于自训练和标签抗噪的弱监督目标检测方法及系统具有如下有益效果:
1.本申请采用有标签样本和无标签样本对基于MIL的弱监督目标检测模型进行训练,并且采用有标签样本训练时采用现有损失函数进行训练,但采用无标签样本进行训练时对损失函数进行了优化,为得到高质量的伪标签,需要将预设阈值设置较大,但导致损失函数噪声更大,本申请优化的损失函数避免了较大预设阈值对损失函数的影响,在保证伪标签质量的前提下避免了噪声的影响,提升了对图像的检测精度,后期的应用过程中避免了对高质量标签的依赖,进而可以利用无标签图像数据进行目标检测。
2.伪标签的质量对弱监督目标检测模型的训练效果具有较大影响,因此对预测结果进行筛选得到质量较高的伪标签。
3.当训练样本为带有伪标签的无标签图像样本时,采用噪声鲁棒性更强的优化的标签抗噪损失函数,提高了弱监督目标检测模型的噪声鲁棒性,使得目标检测模型对图像中的弱监督目标的检测更加精准。
附图说明
图1是基于自训练和标签抗噪的图像中弱目标的检测方法的步骤图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
请参阅图1,本发明提供了一种基于自训练和标签抗噪的图像中的弱目标检测方法,所述检测方法包括以下步骤S1~S8。
S1:获取包括有标签图像样本和无标签图像样本的目标检测数据集,其中,所述有标签图像样本为已知目标类别的图像样本。
将多个图像样本人工分成有标签图像样本和无标签图像样本,组成目标检测数据集。同时,根据有标签样本中的目标种类,预设多种目标类别,例如,目标类别可以为人、狗、猫、汽车等,所述有标签图像样本为具有目标类别的样本。其中,有标签图像样本的标签为样本的类别标签,即给定图像样本包含哪些目标类别,其可以按以下方式给定:
yi=[yi1,yi2,…,yic,…,yiC]∈RC×1in[0,1]
其中,i为第i个有标签图像样本,yi为第i个有标签图像样本的类别标签,yic为第i个有标签图像样本关于类别c的标签,取值范围为{0,1},yic=1为第i个有标签图像样本包含属于类别c的目标,yic=0为第i个有标签图像样本不包含属于类别c的目标。
S2:对所述目标检测数据集进行预处理,得到预处理后的有标签图像样本和预处理后的无标签图像样本。
所述预处理包括但不限于高斯噪声、随机翻转、尺寸缩放等,其中,高斯噪声用于给图像加入高斯噪声,以扩充样本容量;随机翻转用于针对每一个样本图片,随机挑选水平和数值两个方向中的一个进行翻转;尺寸缩放用于将每一个样本图片的最短边优选缩放至{480,576,688,864,1200}五个给定尺寸之一,并保证长边长小于2000像素。
S3:为所述预处理后的有标签图像样本和预处理后的无标签图像样本生成候选框以作为待识别目标区域。
优选采用选择性搜索算法为预处理后的有标签图像样本和预处理后的无标签图像样本中的目标区别设置候选框,以便于后期识别。
S4:将步骤S3处理后的有标签样本作为输入并将所述有标签图像样本对应的目标类别的概率作为输出对基于MIL的弱监督目标检测模型进行训练,得到初步训练完成的弱监督目标检测模型。
基于MIL的弱监督目标检测模型是一类经典的弱监督目标检测模型,其包含一个多实例学习模块(Multi-Instance Learning,MIL)和后续的实例细化模块。多实例学习模块将样本视为一系列目标的集合,将弱监督目标检测视为对样本候选框的分类。多实例学习模块使用一个卷积神经网络作为特征提取器,从输入样本中提取出深度特征,而后使用特征金子塔从深度特征中为每个候选框提取出特征向量,并将其输入两个分支:分类分支和检测分支;两个分支使用全连接层和SoffMax层,分别为候选框生成分类分数;最终,每个候选框的分类分数求哈德玛积,得到每个候选框最终的分类分数,其中分类分数高的候选框为检测结果。
而后,将候选框的分类分数加和得到对整个样本分类分数的预测结果,分类分数按以下方式给定:
将步骤S3处理后的有标签图像样本输入至基于MIL的弱监督目标检测模型,以对所述基于MIL的弱监督目标检测模型进行训练,训练过程中使用交叉熵损失函数衡量有标签样本的真实标签概率与预测概率之间的差异损失,交叉熵损失函数如下:
S5:采用所述初步训练完成的弱监督目标检测模型对步骤S3处理后的无标签图像样本进行预测,得到预测结果。
采用上述初步训练完成的弱监督目标检测模型对所述预处理后的无标签样本进行分类分数的预测,得到对无标签样本分类分数的预测结果,预测结果为每个标签包含某一类别目标的概率。
S6:将无标签图像样本的预测结果中属于目标类别的概率大于预设阈值的图像样本保留作为无标签图像样本的伪标签,将无标签图像样本中属于目标类别的概率小于预设阈值的图像样本舍弃。
训练过程中,伪标签的质量对弱监督目标检测模型的最终训练影响较大,因此需要对预测结果进行筛选。
如上所述对无标签图像样本的预测结果为:
则伪标签为:
y′j=[y′j1,y′j2,…,y′jc,…y′jC]∈RC×1
若θ为0.7,假设y′j=[0,1,0]为车,y′j=[0,0,1]为马,如预测结果为[0.2,0.8,0.5]则伪标签的结果为[0,1,0],该伪标签的类别标签为车。
也即采用预设阈值对所述预测结果进行筛选,大于预设阈值则为伪标签,小于预设阈值则舍弃。预设阈值可以根据需要进行人为设定,本申请实施例中预设阈值优选为0.1~0.9,进一步优选为0.6~0.99。
S7:将步骤S3处理后的有标签图像样本和带有伪标签的预处理后的无标签图像样本对所述初步训练完成的弱监督目标检测模型进行再次训练,当采用带有伪标签的预处理后的无标签图像样本进行训练时采用优化的损失函数来评判伪标签的标签概率与预测概率之间的差值,得到最终训练完成的弱监督目标检测模型。
将预处理后的有标签图像样本和带有伪标签的预处理后的无标签图像样本共同训练初步训练完成的弱监督目标检测模型。训练过程中,当输入样本为有标签图像样本时,使用交叉熵损失函数对初步训练完成的弱监督目标检测模型进行再次训练,当输入的图像样本为带有伪标签的无标签图像样本时,使用优化的损失函数替代原有损失函数,所述优化的损失函数为:
其中,为第j个无标签图像样本的损失值,α为衰减系数,β为补偿系数,C为总类别数量,c为类别序号,yjc为第c个类别的标签,为第j个预处理后的无标签图像样本包含类别c的概率。采用如上伪标签的标签概率为[0,1,0]真实标签概率,再次预测时的概率为预测概率,通过两者计算损失。
最终得到最终训练完成的弱监督目标检测模型。
在训练过程中,伪标签的质量对步骤S7的效果影响较大,而伪标签的质量与预设阈值直接相关。为了得到高质量伪标签,所以生成伪标签的预设阈值优选设定为一个较高的值,例如为0.7,这就导致当为一个中等的值时,即使第j个无标签图像样本包含属于类别c的目标,y′jc也更大概率被设置为0而不是1.因此,当y′jc=0时,其有更大的概率为错误标签。所说损失函数中部分有更大可能包含噪声,基于此申请人提出了上述标签抗噪损失函数。
S8:将待检测的具有弱监督目标的图像输入最终训练完成的弱监督目标检测模型即可实现图像中弱监督目标的目标类别检测。
将具有弱监督目标的图像输入最终训练完成的弱监督目标检测模型即可实现弱监督目标的精确检测。
本申请另一方面提供了一种基于自训练与标签抗噪的图像中弱目标的检测系统,所述系统包括数据集获取单元、预处理单元、候选框生成单元、初步训练单元、预测单元、筛选单元、最终训练单元、检测单元,其中:
数据集获取单元:用于获取包括有标签图像样本和无标签图像样本的目标检测数据集,其中,所述有标签图像样本为已知目标类别的图像样本;
预处理单元:用于对所述目标检测数据集进行预处理,得到预处理后的有标签图像样本和预处理后的无标签图像样本;
候选框生成单元:用于采用选择性搜索算法为所述预处理后的有标签图像样本和预处理后的无标签图像样本生成候选框以作为待识别目标区域;
初步训练单元:用于将候选框生成单元处理后的有标签图像样本作为输入并将所述有标签图像样本对应的目标类别的概率作为输出对基于MIL的弱监督目标检测模型进行训练,得到初步训练完成的弱监督目标检测模型;
预测单元:用于采用所述初步训练完成的弱监督目标检测模型对候选框生成单元处理后的无标签图像样本进行预测,得到预测结果;
筛选单元:将无标签图像样本的预测结果中属于目标类别的概率大于预设阈值的图像样本保留作为无标签图像样本的伪标签,将无标签图像样本中属于目标类别的概率小于预设阈值的图像样本舍弃;
最终训练单元:用于将候选框生成单元处理后的有标签样本和带有伪标签的候选框生成单元处理后的无标签图像样本输入所述初步训练完成的弱监督目标检测模型进行再次训练,当采用带有伪标签的无标签图像样本进行训练时采用优化的损失函数来评判图像样本真实标签概率与预测概率之间的差值,得到最终训练完成的弱监督目标检测模型;
检测单元:用于将待检测的具有弱目标的图像输入最终训练完成的弱监督目标检测模型即可实现图像中弱监督目标的目标类别检测。
具体应用
本申请采用的数据集为PASCAL VOC挑战赛中VOC2007和VOC2012数据集。PASCALVOC是一个经典的计算机视觉挑战赛,包括图像分类、目标检测、图像分割、人体布局、动作识别等内容,这些内容在现实中都有着广泛的应用。PASCAL VOC采用在现实生活中采集到的图片,并由人工生成其标签,包括分类标签、目标检测标签、分割标签等。PASCAL VOC包含多个数据集,其中VOC2007和VOC2012是目标检测领域最常用的两种。在此,本申请使用VOC2007和VOC2012来测试所提出方法的效果。
VOC2007数据集共有9963张图片,即9963个样本,其中5011个有标签样本,4952个无标签样本。VOC2012数据集共有22531个样本,其中11540个有标签样本,10991个无标签样本。表1和表2给出了本申请给出的基于自训练和标签抗噪的弱监督目标检测算法与弱监督目标检测领域其他算法的对比,包括OICR、WCCN、C-WSL、PCL。其中,本申请将PCL作为baseline。OICR在数据集VOC2007上取得了41.9%的mAP成绩,在数据集VOC2012上取得了38.7%的mAP成绩;WCCN在数据集VOC2007上取得了42.8%的mAP成绩,在数据集VOC2012上取得了37.9%的mAP成绩;C-WSL在数据集VOC2007上取得了45.6%的mAP成绩,在数据集VOC2012上取得了43.0%的mAP成绩;PCL在数据集VOC2007上取得了53.1%的mAP成绩,在数据集VOC2012上取得了48.5%的mAP成绩。由此可见,PCL在两个数据集上的表现都好于其他模型结果。而本发明提出的模型在数据集VOC2007上取得了53.7%的mAP成绩,在数据集VOC2012上取得了51.1%的mAP成绩,相比于原始的PCL有了进一步提升。
表1
表2
本发明提供的基于自训练和标签抗噪的图像中弱目标的检测方法及系统,可以利用无标签图像数据进行图像中弱目标的检测,避免对高质量标签的依赖,提高了图像中弱目标检测的精度和效率。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于自训练和标签抗噪的图像中弱目标的检测方法,其特征在于,所述检测方法包括:
S1:获取包括有标签图像样本和无标签图像样本的目标检测数据集,其中,所述有标签图像样本为已知目标类别的图像样本;
S2:对所述目标检测数据集进行预处理,得到预处理后的有标签图像样本和预处理后的无标签图像样本;
S3:为所述预处理后的有标签图像样本和预处理后的无标签图像样本生成候选框以作为待识别目标区域;
S4:将步骤S3处理后的有标签图像样本作为输入,并将所述有标签图像样本对应的目标类别的概率作为输出对基于MIL的弱监督目标检测模型进行训练,得到初步训练完成的弱监督目标检测模型;
S5:采用所述初步训练完成的弱监督目标检测模型对步骤S3处理后的无标签图像样本进行预测,得到预测结果;
S6:将无标签图像样本的预测结果中属于目标类别的概率大于预设阈值的图像样本保留作为无标签图像样本的伪标签,将无标签图像样本中属于目标类别的概率小于预设阈值的图像样本舍弃;
S7:将步骤S3处理后的有标签图像样本和带有伪标签的步骤S3处理后的无标签图像样本对所述初步训练完成的弱监督目标检测模型进行再次训练,当采用带有伪标签的预处理后的无标签图像样本进行训练时采用优化的损失函数来评判伪标签的标签概率与预测概率之间的差值,得到最终训练完成的弱监督目标检测模型;
S8:将待检测的具有弱目标的图像输入最终训练完成的弱监督目标检测模型即可实现图像中弱目标的目标类别检测。
2.根据权利要求1所述的检测方法,其特征在于,步骤S7中,将步骤S3处理后的有标签图像样本和带有伪标签的步骤S3处理后的无标签图像样本对所述初步训练完成的弱监督目标检测模型进行再次训练具体为:
训练过程中,当输入的图像样本为步骤S3处理后的有标签图像样本时,则使用交叉熵损失函数对初步训练完成的弱监督目标检测模型进行再次训练;当输入的图像样本为带有伪标签的步骤S3处理后的无标签图像样本时,使用优化的损失函数替代原有损失函数,所述优化的损失函数为:
5.根据权利要求1所述的检测方法,其特征在于,所述预设阈值为0.6~0.99。
6.根据权利要求1所述的检测方法,其特征在于,所述预处理包括高斯噪声、随机翻转以及尺寸缩放中的一种或多种操作。
7.根据权利要求1所述的检测方法,其特征在于,采用选择性搜索算法为所述预处理后的有标签图像样本和预处理后的无标签图像样本生成候选框。
8.一种基于自训练与标签抗噪的图像中弱目标的检测系统,其特征在于,所述系统包括:
数据集获取单元:用于获取包括有标签图像样本和无标签图像样本的目标检测数据集,其中,所述有标签图像样本为已知目标类别的图像样本;
预处理单元:用于对所述目标检测数据集进行预处理,得到预处理后的有标签图像样本和预处理后的无标签图像样本;
候选框生成单元:用于采用选择性搜索算法为所述预处理后的有标签图像样本和预处理后的无标签图像样本生成候选框以作为待识别目标区域;
初步训练单元:用于将候选框生成单元处理后的有标签图像样本输入至基于MIL的弱监督目标检测模型,以对所述基于MIL的弱监督目标检测模型进行训练,得到初步训练完成的弱监督目标检测模型;
预测单元:用于采用所述初步训练完成的弱监督目标检测模型对所述预处理后的无标签样本进行预测,得到预测结果;
筛选单元:用于对所述预测结果进行筛选,得到无标签样本的伪标签;
最终训练单元:用于将候选框生成单元处理后的有标签图像样本和带有伪标签的候选框生成单元处理后的无标签图像样本输入所述初步训练完成的弱监督目标检测模型进行再次训练,当采用带有伪标签的无标签图像样本进行训练时采用优化的损失函数来评判图像样本的伪标签的标签概率与预测概率之间的差值,得到最终训练完成的弱监督目标检测模型;
检测单元:用于将待检测的具有弱目标的图像输入最终训练完成的弱监督目标检测模型即可实现图像中弱监督目标的目标类别检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210685827.5A CN115019133A (zh) | 2022-06-16 | 2022-06-16 | 基于自训练和标签抗噪的图像中弱目标的检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210685827.5A CN115019133A (zh) | 2022-06-16 | 2022-06-16 | 基于自训练和标签抗噪的图像中弱目标的检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115019133A true CN115019133A (zh) | 2022-09-06 |
Family
ID=83074444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210685827.5A Pending CN115019133A (zh) | 2022-06-16 | 2022-06-16 | 基于自训练和标签抗噪的图像中弱目标的检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019133A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824275A (zh) * | 2023-08-29 | 2023-09-29 | 青岛美迪康数字工程有限公司 | 一种实现智能模型优化的方法、装置和计算机设备 |
CN116935107A (zh) * | 2023-07-12 | 2023-10-24 | 中国科学院自动化研究所 | 基于互联网搜索的检测类别自扩展目标检测方法及装置 |
-
2022
- 2022-06-16 CN CN202210685827.5A patent/CN115019133A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935107A (zh) * | 2023-07-12 | 2023-10-24 | 中国科学院自动化研究所 | 基于互联网搜索的检测类别自扩展目标检测方法及装置 |
CN116824275A (zh) * | 2023-08-29 | 2023-09-29 | 青岛美迪康数字工程有限公司 | 一种实现智能模型优化的方法、装置和计算机设备 |
CN116824275B (zh) * | 2023-08-29 | 2023-11-17 | 青岛美迪康数字工程有限公司 | 一种实现智能模型优化的方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414368B (zh) | 一种基于知识蒸馏的无监督行人重识别方法 | |
Nie et al. | Pavement distress detection based on transfer learning | |
CN110163069B (zh) | 用于辅助驾驶的车道线检测方法 | |
CN115019133A (zh) | 基于自训练和标签抗噪的图像中弱目标的检测方法及系统 | |
CN109783666A (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN111080597A (zh) | 一种基于深度学习的轨道扣件缺陷识别算法 | |
CN111932511B (zh) | 一种基于深度学习的电子元器件质量检测方法与系统 | |
CN110008899B (zh) | 一种可见光遥感图像候选目标提取与分类方法 | |
CN110543912A (zh) | 自动获取胎儿关键切面超声视频中心动周期视频的方法 | |
CN112861917A (zh) | 基于图像属性学习的弱监督目标检测方法 | |
Ghosh et al. | Automated detection and classification of pavement distresses using 3D pavement surface images and deep learning | |
CN116342942A (zh) | 基于多级域适应弱监督学习的跨域目标检测方法 | |
CN115984537A (zh) | 图像处理方法、装置及相关设备 | |
Khellal et al. | Pedestrian classification and detection in far infrared images | |
CN113808123B (zh) | 一种基于机器视觉的药液袋动态检测方法 | |
CN110751005B (zh) | 融合深度感知特征和核极限学习机的行人检测方法 | |
CN116844143B (zh) | 基于边缘增强的胚胎发育阶段预测与质量评估系统 | |
CN113158878B (zh) | 一种基于子空间的异构迁移故障诊断方法、系统和模型 | |
CN113095235B (zh) | 一种基于弱监督判别机制的图像目标检测方法、系统及装置 | |
Bi et al. | CASA-Net: a context-aware correlation convolutional network for scale-adaptive crack detection | |
Cheng et al. | Capacitance pin defect detection based on deep learning | |
CN115082909B (zh) | 一种肺部病变识别方法及系统 | |
García et al. | Automatic detection of vehicles in outdoor parking lots from zenith perspective using neural networks | |
Yang et al. | SK-FMYOLOV3: A Novel Detection Method for Urine Test Strips | |
Chung et al. | Is Meta-Learning Always Necessary?: A Practical ML Framework Solving Novel Tasks at Large-scale Car Sharing Platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |