CN116681961A - 基于半监督方法和噪声处理的弱监督目标检测方法 - Google Patents

基于半监督方法和噪声处理的弱监督目标检测方法 Download PDF

Info

Publication number
CN116681961A
CN116681961A CN202310479797.7A CN202310479797A CN116681961A CN 116681961 A CN116681961 A CN 116681961A CN 202310479797 A CN202310479797 A CN 202310479797A CN 116681961 A CN116681961 A CN 116681961A
Authority
CN
China
Prior art keywords
training
image
target detection
tag
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310479797.7A
Other languages
English (en)
Inventor
王磊
王瑞生
王自锄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202310479797.7A priority Critical patent/CN116681961A/zh
Publication of CN116681961A publication Critical patent/CN116681961A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供了基于半监督方法和噪声处理的弱监督目标检测方法。所提供的基于半监督方法和噪声处理的弱监督目标检测方法,其特征在于,包括以下步骤:S1:获取弱监督目标检测数据集,其中所有图像的标签为图像级标签;S2:对弱监督目标检测数据集中的所有图像预提取候选框,用于弱监督目标检测模型的训练;S3:构建弱监督目标检测模型Mw训练并生成初始的实例级噪声伪标签;S4:构建半监督目标检测模型Ms,使用步骤S3生成的噪声伪标签训练Ms,对噪声伪标签在训练中进行处理,分为可信标签和不可信标签,对应于半监督任务中的有标签数据和无标签数据,将标签和数据送入Ms进行半监督任务训练;S5:使用训练完成的Ms预测生成新的标签信息并替换的标签信息重新送入S4步骤迭代训练,重复K次,得到最终训练完成的目标检测模型。

Description

基于半监督方法和噪声处理的弱监督目标检测方法
技术领域
本发明涉及图像处理和计算机视觉领域,特别是涉及弱监督学习下的目标检测方法。
背景技术
目标检测(Object Detect ion)是计算机视觉和数字图像处理的一个热门方向,能够实现目标物体类别和位置的自动检测,减少人力、资本的消耗,具有重要的现实意义。与更为基础的图片分类任务相比,目标检测多出一个回归任务,即不仅要用算法判断图片中是否存在对象,还要在图片中标记出它的位置,对图像上标注的标定框进行回归预测。近年来,由于深度学习的广泛运用,目标检测算法得到了较为快速的发展。然而通常的全监督目标检测模型是基于大量人工精确标注的数据集训练的,这些方法要求每一张训练的图像都有细粒度的高质量标注。往往一张图像中有多个物体实例,各自可能属于不同类别,这些都需要人工一一进行标注;有的实例更是由于本身物体较小、环境影响或图像失真导致肉眼难以辨认,更进一步地增加了数据集标注的难度和财力人力花费。
因此,为了降低大规模目标检测数据集标注带来的资源消耗,研究人员开始关注如何使用更加易于获取和标注的粗粒度标签在目标检测任务中取得好的表现。一个典型的粗粒度任务设置是数据集中的标签只具有图像级的类别信息,而缺少了实例级(Instance-Level)的定位信息,该设置能够利用已有的图像分类数据集直接开展研究工作,也可以迅速地在一个新的数据集上进行标注,大大减少标注周期、加快部署速度。现今,只有图像级(ImageLave l)标注的粗粒度数据集成为弱监督目标检测研究的一大热点。
然而由于实例信息的缺失,目前多数弱监督目标检测方法最终效果与全监督目标检测方法仍有较大差距。因此开展弱监督目标检测方法的进一步研究具有重要的意义。
发明内容
目前国内外现有弱监督目标检测方法与全监督方法相比仍有较大差距,且局限于固定的弱监督检测框架,很少在方法流程上有所创新。
基于此,本发明设计了基于半监督方法和噪声处理的弱监督目标检测方法,建立自训练的迭代式方法,使用半监督目标检测方法充分利用了弱监督任务缺少而又极为关键的实例级监督信息,并对伪标签噪声进行额外处理以保证模型性能。在公开号为CN115019133A的专利中提出了类似的迭代式自训练范式,但本发明的优越之处在于①自训练中利用了实例级伪标签(Instance-Level pseudoLabels)而非仅仅图像级伪标签(Image-Level pseudoLabels),能够更好地提升目标检测预测性能。②在预测时不需要对图片进行候选框预提取,可使用训练好的模型立即进行预测。③创造性地结合了当前半监督目标检测的优秀成果,建立了半-弱监督框架的训练范式,在取得更好模型性能的同时对后续新的研究思路开拓有着重要意义。
本发明的具体内容如下:一种基于半监督和噪声处理的弱监督目标检测方法包括以下步骤:S1:获取弱监督目标检测数据集,其中所有图像的标签为图像级标签;S2:对弱监督目标检测数据集中的所有图像预提取候选框,用于弱监督目标检测模型的训练;S3:构建弱监督目标检测模型Mw训练并生成初始的实例级噪声伪标签;S4:构建半监督目标检测模型Ms,使用步骤S3生成的噪声伪标签训练Ms,对噪声伪标签在训练中进行处理,分为可信标签和不可信标签,对应于半监督任务中的有标签数据和无标签数据,将标签和数据送入Ms进行半监督任务训练;S5:使用训练完成的Ms预测生成新的标签信息并替换/>的标签信息重新送入S4步骤迭代训练,重复K次,得到最终训练完成的目标检测模型。
与现有技术相比,本发明具有如下创新点:
1.创新地融入了半监督目标检测方法,建立了半-弱监督框架的训练范式,能够有机结合其他领域的发展实现协同创新进步,对后续新的研究思路开拓有着重要意义。
2.将伪标签视作噪声标签,并针对噪声标签设计了有效的学习策略,避免了其中采用损失大小排序的方法时能够取得更好的模型预测效果。
3.经实验,在控制其他因素不变的情况下,NWPU VHR-10数据集(https://opendatalab.com/NWPU_VHR-10)上先前的模型平均准确度mAP(meanAveragePrecision)提升了5%,证明了方法的有效性(该模型仅用于方法有效性测试,其数值结果不代表模型实际使用效果)。
根据本申请实施例提供的方法执行流程,运行在例如个人计算机、服务器、嵌入式计算设备、云计算平台等设备中。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为根据本发明的基于半监督方法和噪声处理的弱监督目标检测方法的流程图。
图2A与2B展示了根据本申请实施例对图片数据进行目标检测的结果。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
根据本申请的实施例,所使用数据来源于NWPU VHR-10遥感影像数据集(https://opendatalab.com/NWPU_VHR-10)。遥感影像相比于生活中的一般图像有着小目标、物体排列密集、方向任意的特点,带来了更多挑战。
1.获取NWPU VHR-10遥感影像数据集。选取650张图像作为训练数据,其中65张图像保留其标注信息作为有标注数据集,585张图像作为无标注数据集。
2.对训练集中的所有图像使用选择搜索的方法预提取候选框,用于弱监督目标检测模型的训练。
3.构建基本弱监督目标检测模型Mw,其主干网络为ResNet,提取图像特征后,在特征图上截取预提取候选框区域特征,并送入区域池化层(https://arxiv.org/abs/1506.01497)对提取的特征进行规范化,每个候选区域经池化层后生成为固定长度的特征向量,接着使用多示例学习检测头将固定长度的特征向量送入两个预测分支,分类分支及检测分支,各自预测出类别概率分数后相乘得到图像级类别概率并与第i张图像的图像级标签ci间构建交叉熵损失函数/>
其中Nc为数据集的类别总数,i代表第i张图像,代表第i张图像属于某分类类别的预测概率,例如,/>代表第i张图像属于分类类别Nc的概率,c代表图像类别,yi={ci}为图像xi∈RC×H×W的标签信息,其中,C为特征图通道数,H为图像的高度,W为图像的宽度,为图像级标签向量,Nc为数据集的类别总数,ci的每个维度值表明相应的类别在当前图像中是否存在,例如为1则存在,为0则不存在;标签ci是图像级标签而不存在实例级标签,yic代表数据集中标注的图像级标签中第i张图像是否属于类别c的信息,α是超参数。再将固定长度特征向量输入使用特征细化模块(例如,https://arxiv.org/abs/1704.00138),用m个分支生成预测并自训练优化,k-1分支为第k分支生成监督信息提供训练,在预测时综合全部m个分支的结果生成最终结果;进行训练并将该最终结果视为初始的实例级标定框伪标签/>包含图像上的全部伪标签框;该伪标签由于并非完全准确的预测,故其中包含潜在的噪声信息;第i张图像的噪声伪标签/>此时迭代次数为0。噪声伪标签由算法自动生成而非经人工确认后的真值标签,且由于实例级监督信息的缺失,经过步骤3生成的标签通常是不准确的,带有噪声。
4.构建基本半监督目标检测模型Ms,使用步骤3生成的噪声伪标签训练Ms,对噪声伪标签在训练中采用置信度划分,实例类别预测概率大于阈值δ的伪标签结果被视为可信标签,否则为不可信标签(也参看图1的“标签噪声过滤”)。可信标签与不可信标签分别对应于半监督任务中的有标签数据和无标签数据。将标签和数据送入Ms进行半监督任务训练。根据标签的可信度划分为有标签数据集Dl和无标签数据集Du两部分,在有标签数据集Dl上使用通常的分类损失/>和回归损失/>作为损失函数,有标签数据的总损失函数为/>其中i代表样本序号,Nl代表训练中使用的有标签数据集Dl的样本总数,/>指有标签数据中的第i个图像;在无标签数据集Du上采用自训练损失优化模型,记为/>其中i代表样本序号,Nu代表训练中使用的无标签数据集Du的样本总数,/>指无标签数据中的第i个图像,最终半监督目标检测模型Ms使用总损失函数/>进行训练。
5.使用训练好的半监督目标检测模型Ms预测生成新的标签信息并替换/>的标签信息,重新进入步骤4,并重复K次,其中i代表样本序号。记在第k次迭代中,生成的标签信息为/>用于替换第k-1次迭代中的标签信息/>K次迭代结束后得到最终训练完成的基于半监督方法和噪声处理的弱监督目标检测模型。
图2A与2B展示了根据本申请实施例对图片数据进行目标检测的结果。
将待检测图片提供给经训练的根据本申请实施例的训练后的半监督目标检测模型Ms,模型输出目标识别的结果,在图2A与图2B中分别展示了对不同图片的标注结果。除了标注检测出的诸如airplane(飞机)、storage(仓库)、ship(船只)等类别,还通过方框标注了各目标的位置以及类别识别的预测概率。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (9)

1.一种基于半监督方法和噪声处理的弱监督目标检测方法,其特征在于,包括以下步骤:
S1:获取弱监督目标检测数据集,其中所有图像的标签为图像级标签;
S2:对弱监督目标检测数据集中的所有图像预提取候选框,用于弱监督目标检测模型的训练;
S3:构建弱监督目标检测模型Mw训练并生成初始的实例级噪声伪标签;
S4:构建半监督目标检测模型Ms,使用步骤S3生成的噪声伪标签训练Ms,对噪声伪标签在训练中进行处理,分为可信标签和不可信标签,对应于半监督任务中的有标签数据和无标签数据,将标签和数据送入Ms进行半监督任务训练;
S5:使用训练完成的Ms预测生成新的标签信息并替换/>的标签信息重新送入S4步骤迭代训练,重复K次,得到最终训练完成的目标检测模型。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,数据集其中N为数据集图像总数,xi代表数据集中第i张图像,yi={ci}为图像xi∈RC×H×W的标签信息,为图像级标签向量,Nc为数据集的类别总数,ci的每个维度值表明相应的类别在当前图像中是否存在,为1则存在,为0则不存在;标签ci是图像级标签而不包括实例级的标签,其中,C为特征图通道数,H为图像的高度,W为图像的宽度。
3.根据权利要求1所述的方法,其特征在于,步骤S2中,使用选择搜索算法为图像预提取候选框。
4.根据权利要求1所述的方法,其特征在于,步骤S3中,基本弱监督目标检测模型结构为:
一、使用主干网络提取图像特征,并取出预提取候选框在特征图上的特征;
二、使用区域池化层对预提取候选框的特征进行规范化,得到固定长度的特征向量;
三、使用多示例学习检测头将固定长度的特征向量送入两个预测分支,分类分支及检测分支,各自预测出类别概率分数后相乘得到图像级类别概率 并与图像级标签ci间构建交叉熵损失函数/> 其中Nc为数据集的类别总数,i代表第i张图像,/>代表第i张图像属于某分类类别的预测概率,yi={ci}为图像xi∈RC×H×W的标签信息;
四、使用特征细化模块,使用m个分支自训练优化;k-1分支为第k分支生成监督信息提供训练,在预测时综合全部m个分支的结果生成最终结果。
5.根据权利要求1所述的方法,其特征在于,步骤S3中,使用基本弱监督目标检测模型Mw生成得到初始实例级标定框标签(迭代次数为0),第k次迭代时生成的实例级标定框标签为/> 为第i张图像中的预测实例总数,bn={x,y,w,h,s},其中x,y为实例框中心横纵坐标,w,h为标定框的宽与高,s为实例的类别预测结果,n为第i张图像中的第n个预测实例,/>与原有得到数据集中的图像级标签向量ci结合得到更新后的第i张图像的噪声伪标签/>k为当前迭代次数。
6.根据权利要求1所述的方法,其特征在于,步骤S4中,噪声伪标签的可信度划分依据预测得到的置信度或损失大小进行细分;采用置信度划分时,实例类别预测概率大于阈值δ的预测结果被视为可信标签,否则为不可信标签;采用损失大小划分时,在S3中计算得到损失较小(批次内排序前p%)的图像,其预测实例结果被视作可信标签;可信标签构成数据集/>不可信标签构成数据集/>
7.根据权利要求1所述的方法,其特征在于,步骤S4中,基本半监督目标检测模型使用自训练损失或一致损失结合通常的目标检测模型(如Faster RCNN,YOLO,FCOS)进行训练;输入的数据集分根据标签的可信度划分为有标签数据集Dl和无标签数据集Du两部分,在有标签数据集Dl上使用通常的分类损失和回归损失/>作为损失函数进行训练,有标签数据的总损失函数为/>在无标签数据集Du上,则采用自训练损失或一致性损失/>优化模型,记为/>其中,自训练方法使用教师学生模型,使用教师模型生成伪标签供学生模型训练;一致性方法使用一张图像的不同变换作为输入,计算不同变换下预测的差异;无标签数据的总损失函数为/>
8.根据权利要求1所述的方法,其特征在于,步骤S5中,迭代次数K为1~3次,每次迭代后更新现有噪声伪标签信息,不断优化伪标签质量,排除噪声;使用最终迭代的模型作为预测模型应用于各个场景。
9.一种信息处理设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,行所述程序时实现,其特征在于,所述计算机程序由处理器执行时实现如权利要求1至8任一项所述的方法。
CN202310479797.7A 2023-04-28 2023-04-28 基于半监督方法和噪声处理的弱监督目标检测方法 Pending CN116681961A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310479797.7A CN116681961A (zh) 2023-04-28 2023-04-28 基于半监督方法和噪声处理的弱监督目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310479797.7A CN116681961A (zh) 2023-04-28 2023-04-28 基于半监督方法和噪声处理的弱监督目标检测方法

Publications (1)

Publication Number Publication Date
CN116681961A true CN116681961A (zh) 2023-09-01

Family

ID=87784391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310479797.7A Pending CN116681961A (zh) 2023-04-28 2023-04-28 基于半监督方法和噪声处理的弱监督目标检测方法

Country Status (1)

Country Link
CN (1) CN116681961A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912798A (zh) * 2023-09-14 2023-10-20 南京航空航天大学 基于跨模态噪声感知的自动驾驶事件相机目标检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912798A (zh) * 2023-09-14 2023-10-20 南京航空航天大学 基于跨模态噪声感知的自动驾驶事件相机目标检测方法
CN116912798B (zh) * 2023-09-14 2023-12-19 南京航空航天大学 基于跨模态噪声感知的自动驾驶事件相机目标检测方法

Similar Documents

Publication Publication Date Title
CN109741332B (zh) 一种人机协同的图像分割与标注方法
CN110909820B (zh) 基于自监督学习的图像分类方法及系统
CN109583325B (zh) 人脸样本图片标注方法、装置、计算机设备及存储介质
CN107133569B (zh) 基于泛化多标记学习的监控视频多粒度标注方法
CN114241282A (zh) 一种基于知识蒸馏的边缘设备场景识别方法及装置
CN113128478B (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
CN111488873B (zh) 一种基于弱监督学习的字符级场景文字检测方法和装置
CN115131613B (zh) 一种基于多向知识迁移的小样本图像分类方法
CN113807399A (zh) 一种神经网络训练方法、检测方法以及装置
CN116681961A (zh) 基于半监督方法和噪声处理的弱监督目标检测方法
CN113313166B (zh) 基于特征一致性学习的船舶目标自动标注方法
Shahriyar et al. An approach for multi label image classification using single label convolutional neural network
Lorentz et al. Explaining defect detection with saliency maps
CN115439700B (zh) 一种图像处理方法、装置和机器可读存储介质
CN111797935A (zh) 基于群体智能的半监督深度网络图片分类方法
CN116958512A (zh) 目标检测方法、装置、计算机可读介质及电子设备
CN115359468A (zh) 一种目标网站识别方法、装置、设备及介质
Chen et al. Ticket Text Detection and Recognition Based on Deep Learning
CN114612961A (zh) 一种多源跨域表情识别方法、装置及存储介质
Meena Deshpande License Plate Detection and Recognition using YOLO v4
Wu et al. Weighted classification of machine learning to recognize human activities
Ai et al. Analysis of deep learning object detection methods
CN117437647B (zh) 基于深度学习和计算机视觉的甲骨文字检测方法
CN116503674B (zh) 一种基于语义指导的小样本图像分类方法、装置及介质
CN112990145B (zh) 一种基于组稀疏年龄估计方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination