CN116824251B - 一种物体检测模型的训练方法、物体检测方法及装置 - Google Patents

一种物体检测模型的训练方法、物体检测方法及装置 Download PDF

Info

Publication number
CN116824251B
CN116824251B CN202310773267.3A CN202310773267A CN116824251B CN 116824251 B CN116824251 B CN 116824251B CN 202310773267 A CN202310773267 A CN 202310773267A CN 116824251 B CN116824251 B CN 116824251B
Authority
CN
China
Prior art keywords
image
label
fusion
labels
object detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310773267.3A
Other languages
English (en)
Other versions
CN116824251A (zh
Inventor
梁延研
林旭新
马辉
李国钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boyan Technology Zhuhai Co ltd
Original Assignee
Boyan Technology Zhuhai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Boyan Technology Zhuhai Co ltd filed Critical Boyan Technology Zhuhai Co ltd
Priority to CN202310773267.3A priority Critical patent/CN116824251B/zh
Publication of CN116824251A publication Critical patent/CN116824251A/zh
Application granted granted Critical
Publication of CN116824251B publication Critical patent/CN116824251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种物体检测模型的训练方法、物体检测方法及装置,训练方法包括:获取无标注的第一图像并进行弱数据增强,根据教师模型对多张弱增强图像进行物体检测,并选取各张弱增强图像中相同的预测标签作为一致性伪标签;将第一图像和经过标注的第二图像分别进行单管道强数据增强;根据学生模型分别对两张强增强图像进行特征提取,再进行特征融合,得到实例特征融合图像;根据对实例特征融合图像得到的预测结果和一致性伪标签作为训练数据,训练学生模型;当学生模型梯度回传后,根据教师模型、学生模型以及指数滑动平均策略更新教师模型。本发明可以减少伪标签中的噪音,以提高物体检测模型的预测精准度,可广泛应用于计算机视觉领域。

Description

一种物体检测模型的训练方法、物体检测方法及装置
技术领域
本发明涉及计算机视觉领域,尤其是一种物体检测模型的训练方法、物体检测方法及装置。
背景技术
物体检测是计算机视觉领域中的一个重要任务,从区域级的角度来理解图像,主要目标是对图像中的物体进行分类和定位。物体检测方法可广泛应用于人脸检测,行人检测,物体跟踪以及自动驾驶中的障碍物检测等等。当前物体检测方法需要依靠大规模的数据进行训练,数据的标注是费时且昂贵的。通过利用少量标注数据和大规模无标注数据,采用半监督的学习范式可以有效解决上述问题。
目前的半监督物体检测方法采用基于强-弱数据增强的教师-学生模型框架,现有技术由教师模型对弱数据增强后的未标记数据进行预测得到伪标签,产生的伪标签含有大量的噪声。现有的半监督物体检测方法主要通过手工设定的分数阈值或动态的分数阈值来筛选伪标签,不同检测器输出的伪标签在分数分布上存在巨大差异,当框架中的检测器被替换时,需要通过大量实验重新选择阈值,因此手工阈值限制了半监督方法只能局限于一种检测范式。动态阈值需要假设标记数据和未标记数据在数据分布上是一致的,数据分布一致性指的是标记数据中的类别比例与未标记数据的类别比例是相同的,动态阈值要求数据分布一致使得物体检测模型无法利用分布以外的无标记数据。其中,分布以外的数据,包括不一致的无标记数据和图像域不同的数据,例如城市道路图像域或办公场景室内图像域。
发明内容
有鉴于此,本发明实施例提供一种物体检测模型的训练方法、物体检测方法及装置,用于充分利用无标记数据训练物体检测模型,并减少伪标签中的噪音,以提高物体检测模型的预测精准度。
本发明实施例的一方面提供了一种物体检测模型的训练方法,包括:
将无标注的第一图像进行多管道的弱数据增强,对应得到弱数据增强后的多张无标注的弱增强图像;
根据预设的教师模型对多张所述弱增强图像进行物体检测,得到每张所述弱增强图像的多个预测标签,并选取各张所述弱增强图像中一致性预测的标签作为一致性伪标签;
将所述第一图像和经过标注的第二图像分别进行单管道强数据增强,对应得到第一强增强图像和第二强增强图像;
根据预设的学生模型分别对所述第一强增强图像和所述第二强增强图像进行特征提取,再进行特征融合,得到实例特征融合图像;
根据所述学生模型的预测头网络对所述实例特征融合图像进行预测,并将得到的预测结果和所述一致性伪标签作为训练数据,训练所述学生模型;
当所述学生模型梯度回传后,根据所述教师模型、所述学生模型以及预设的指数滑动平均策略更新所述教师模型的参数。
可选地,所述根据预设的教师模型对多张所述弱增强图像进行物体检测,得到每张所述弱增强图像的多个预测标签,并选取各张所述弱增强图像中一致性预测的标签作为一致性伪标签,包括:
根据所述教师模型对每张所述弱增强图像进行物体检测,将得到的所述预测标签保存为二维矩阵,所述二维矩阵中每行表示一张所述弱增强图像中各个物体对应的所述预测标签,每列表示同一物体对应的各个所述预测标签;
将所述二维矩阵中每列的所述预测标签进行融合,得到多个融合标签,多个所述融合标签作为融合标签集合;
将所述二维矩阵中每行的每个所述预测标签分别与所述融合标签集合中的所有所述融合标签求交并比,确定最大交并比对应的所述融合标签,根据所述最大交并比及对应的融合标签更新所述融合标签集合;
遍历每列的所述预测标签,若每列的所述预测标签的数量大于或等于弱数据增强的次数,则将该列所述预测标签对应的所述融合标签作为一致性伪标签。
可选地,所述根据所述最大交并比及对应的融合标签更新所述融合标签集合,包括:
若所述最大交并比小于预设的阈值,则所述最大交并比对应的所述预测标签添加到所述融合标签集合的尾部;
若所述最大交并比大于或等于预设的阈值,则所述最大交并比对应的所述预测标签添加到对应列中,融合所述对应列中的所有所述预测标签,得到新的融合标签,并更新所述融合标签集合。
可选地,所述根据预设的学生模型分别对所述第一强增强图像和所述第二强增强图像进行特征提取,再进行特征融合,得到实例特征融合图像,包括:
根据预设的学生模型分别对所述第一强增强图像和所述第二强增强图像进行特征提取,对应得到第一实例特征图像和第二实例特征图像;
根据预设的标签分配策略分别对所述第一实例特征图像和所述第二实例特征图像进行标签分配;
将经过标签分配后的所述第一实例特征图像和所述第二实例特征图像进行特征融合,得到实例特征融合图像。
可选地,所述根据预设的标签分配策略分别对所述第一实例特征图像和所述第二实例特征图像进行标签分配,包括:
将所述第一实例特征图中的前景特征确定为伪正标签,将所述第一实例特征图中的背景特征确定为伪负标签;
将所述第二实例特征图中的前景特征确定为真正标签,将所述第二实例特征图中的背景特征确定为真负标签。
可选地,所述将经过标签分配后的所述第一实例特征图像和所述第二实例特征图像进行特征融合,包括:
将所述伪正标签和所述真正标签对应的特征进行融合,融合表达式为:
labelf=λlabeluif+(1-λ)labellif
其中,为伪正标签对应的特征,/>为真正标签对应的特征,/>为融合后的正标签特征,λ为伪标签的预测分数,labeluif为伪正标签对应的标签值,labellif为真正标签对应的标签值,labelf为融合后的标签值;
将所述伪负标签和所述真负标签对应的特征进行融合,融合表达式为:
其中,为伪负标签对应的特征,/>为真负标签对应的特征,/>为融合后的负标签特征。
本发明实施例的另一方面还提供了一种物体检测方法,包括:
获取待检测图像;
根据物体检测模型对所述待检测图像进行物体检测,得到所述待检测图像中各物体的预测标签;
其中,所述物体检测模型为利用上述一种物体检测模型的训练方法训练得到的教师模型或学生模型。
本发明实施例的另一方面还提供了一种物体检测模型的训练装置,包括:
第一训练单元,用于将无标注的第一图像进行多管道的弱数据增强,对应得到弱数据增强后的多张无标注的弱增强图像;
第二训练单元,用于根据预设的教师模型对多张所述弱增强图像进行物体检测,得到每张所述弱增强图像的多个预测标签,并选取各张所述弱增强图像中一致性预测的标签作为一致性伪标签;
第三训练单元,用于将所述第一图像和经过标注的第二图像分别进行单管道强数据增强,对应得到第一强增强图像和第二强增强图像;
第四训练单元,用于根据预设的学生模型分别对所述第一强增强图像和所述第二强增强图像进行特征提取,再进行特征融合,得到实例特征融合图像;
第五训练单元,用于根据所述学生模型的预测头网络对所述实例特征融合图像进行预测,并将得到的预测结果和所述一致性伪标签作为训练数据,训练所述学生模型;
第六训练单元,用于当所述学生模型梯度回传后,根据所述教师模型、所述学生模型以及预设的指数滑动平均策略更新所述教师模型的参数。
本发明实施例的另一方面还提供了一种物体检测装置,包括:
第一检测单元,用于获取待检测图像;
第二检测单元,用于根据物体检测模型对所述待检测图像进行物体检测,得到所述待检测图像中各物体的预测标签;
其中,所述物体检测模型为利用上述一种物体检测模型的训练方法训练得到的教师模型或学生模型。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现所述的方法。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明的训练方法提出了一种无阈值的伪标签选择方法,即一致性伪标签选择。本发明的训练方法先将无标注的第一图像进行多管道的弱数据增强,然后教师模型对弱数据增强后的多张无标注的弱增强图像进行物体检测,进而只保留多张弱增强图像中一致性的预测结果作为高质量的伪标签,即选取各张弱增强图像中相同的预测标签作为一致性伪标签;本发明的训练方法是一种即插即用的方法,可以应用在单阶段、二阶段或基于Transformer的物体检测方法上,本发明的训练方法具备通用性;而且,本发明的训练方法不仅可以扩展在现有的物体检测方法上,还可以利用分布以外的无标注数据,为了进一步抑制伪标签存在的噪音标签,本发明的训练方法还提出了实例特征融合过程,通过经过标注的第二图像的实例特征与第一图像的实例特征进行融合,缓解了物体检测模型对噪音标签的拟合。
另外,本发明的物体检测方法所使用的物体检测模型为经过本发明的训练方法训练得到,因此,根据本发明的物体检测方法可以准确地识别出待检测图像中的物体,实现精准的物体分类。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种物体检测模型的训练方法的流程示意图;
图2为本发明实施例提供的一种选取一致性标签的代码示例图;
图3为本发明实施例提供的一种无阈值的伪标签选择和实例特征混合的半监督物体检测方法流程示意图;
图4为本发明实施例提供的一种物体检测方法的流程示意图;
图5为本发明实施例提供的一种物体检测模型的训练装置的结构框图;
图6为本发明实施例提供的一种物体检测装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
参照图1,本发明实施例提供了一种物体检测模型的训练方法,具体包括以下步骤:
S100:将无标注的第一图像进行多管道的弱数据增强,对应得到弱数据增强后的多张无标注的弱增强图像。
具体的,第一图像没有标注标签,为了与后续步骤的强数据增强形成对比,提升物体检测模型的泛化能力,本发明实施例可以对第一图像进行多次弱数据增强,每次弱数据增强可以包括非几何数据增强的调节,示例如颜色抖动、曝光度、饱和度或色调等,进而得到多张不同的弱增强图像。
S110:根据预设的教师模型对多张所述弱增强图像进行物体检测,得到每张所述弱增强图像的多个预测标签,并选取各张所述弱增强图像中一致性预测的标签作为一致性伪标签。
具体的,教师模型对每张弱增强图像进行物体检测,得到每张弱增强图像的预测结果,一种可选地实施方式下,本发明实施例中预测标签的形式可以是边框,即将检测出的物体以边框框选显示。教师模型对弱增强图像进行物体检测得到的预测标签可以作为伪标签。
进一步地,教师模型检测出预测标签后,本发明实施例可以将各张弱增强图像中相同的预测标签作为一致性伪标签,具体如下:
S1、根据所述教师模型对每张所述弱增强图像进行物体检测,将得到的所述预测标签保存为二维矩阵,所述二维矩阵中每行表示一张所述弱增强图像中各个物体对应的所述预测标签,每列表示同一物体对应的各个所述预测标签。
S2、将所述二维矩阵中每列的所述预测标签进行融合,得到多个融合标签,多个所述融合标签作为融合标签集合。
S3、将所述二维矩阵中每行的每个所述预测标签分别与所述融合标签集合中的所有所述融合标签求交并比,确定最大交并比对应的所述融合标签,根据所述最大交并比及对应的融合标签更新所述融合标签集合。
其中,根据所述最大交并比及对应的融合标签更新所述融合标签集合,包括以下过程:
S31、若所述最大交并比小于预设的阈值,则所述最大交并比对应的所述预测标签添加到所述融合标签集合的尾部。
S32、若所述最大交并比大于或等于预设的阈值,则所述最大交并比对应的所述预测标签添加到对应列中,融合所述对应列中的所有所述预测标签,得到新的融合标签,并更新所述融合标签集合。
S4、遍历每列的所述预测标签,若每列的所述预测标签的数量大于或等于弱数据增强的次数,则将该列所述预测标签对应的所述融合标签作为一致性伪标签。
为更清楚地描述选取一致性标签的过程,以预测标签为边框为例,本发明实施例示例性地提供以下说明:
1.初始化边框簇集合L,初始化融合后预测集合F,初始化伪标签集合PL,初始化高质量伪标签集合HQP。
其中,L是一个变量,初始化边框簇集合,指的是生成一个空的集合。簇指的是同一个物体预测标签的集合。F指的是生成一个空的集合,用于保存每个边框簇融合后的结果。HQP指的是一致性伪标签的集合。
2.对未标记图像进行N次随机的弱数据增强,教师模型对每个弱数据增强后的图像进行预测,将预测结果保存为二维矩阵PL,其中,行为N,列为教师模型对单张弱数据增强后的图像预测的结果集合。
3.遍历伪标签集合PL中的每次弱数据增强下的结果集合,其中的每个边框与F中的所有边框求IoU,得到最大的IoU并返回对应F边框的索引。如果IoU小于预设的阈值,则将边框添加到F的尾部中。否则,将边框添加到对应的索引的簇中,该簇进行边框和预测分数的融合得到新的边框,并更新F。
其中,IoU指的是两个边框的交并比。从PL中遍历的每个预测框,都会与F中所有的框求IoU,然后返回最大IoU的索引。
4.遍历边框L中的簇,如果簇中的边框数量大于等于预设的N次弱数据增强,将对应索引F中的伪标签添加到HQP中。
5.返回HQP。
本发明实施例还提供了一种选取一致性标签的代码示例图,具体请参照图2。
S120:将所述第一图像和经过标注的第二图像分别进行单管道强数据增强,对应得到第一强增强图像和第二强增强图像。
具体的,本发明实施例的强数据增强过程可以包括几何数据增强(拉伸等)和非几何数据增强,弱数据增强过程可以参考上述步骤S100的说明。
S130:根据预设的学生模型分别对所述第一强增强图像和所述第二强增强图像进行特征提取,再进行特征融合,得到实例特征融合图像。
具体的,第一强增强图像和第二强增强图像进行特征融合过程可以包括:
S1、根据预设的学生模型分别对所述第一强增强图像和所述第二强增强图像进行特征提取,对应得到第一实例特征图像和第二实例特征图像。
S2、根据预设的标签分配策略分别对所述第一实例特征图像和所述第二实例特征图像进行标签分配。
进一步地,标签分配过程可以包括:
S21、将所述第一实例特征图中的前景特征确定为伪正标签,将所述第一实例特征图中的背景特征确定为伪负标签。
S22、将所述第二实例特征图中的前景特征确定为真正标签,将所述第二实例特征图中的背景特征确定为真负标签。
更进一步地,本发明实施例可以采用基于IoU的分配策略,即将proposal与GT(Ground Truth)的IoU大于0.7为正标签,小于0.3为负标签。
S3、将经过标签分配后的所述第一实例特征图像和所述第二实例特征图像进行特征融合,得到实例特征融合图像。
具体的,高质量的伪标签仍然存在噪音,分为假阳性伪标签和假阴性伪标签,这些噪音伪标签为训练模型提供了错误的训练目标,因此会导致模型存在训练偏差。为了抑制高质量伪标签中存在的噪音标签,本发明实施例提出了实例特征融合的方法。实例特征融合包括了前景实例的特征融合和背景实例的特征融合,分别抑制假阳性伪标签和假阴性伪标签。训练时,无标注的第一图像的伪标签通过训练流程中的标签分配机制将标签分为伪正标签和伪负标签,有标注的第二图像的标签通过训练流程中的标签分配机制将标签分为真正标签和真负标签。
前景实例的特征融合是将伪正标签与真正标签对应的特征进行融合,融合产生了两种效果。当伪正标签不是噪音标签时,前景间的特征融合起到了数据增强效果,从而提升了模型的泛化性。当伪正标签是噪音标签时,前景间的特征融合削弱了假阳性噪音标签的标签值,从而抑制了假阳性伪标签噪音。将所述伪正标签和所述真正标签对应的特征进行融合,融合表达式为:
labelf=λlabeluif+(1-λ)labellif
其中,为伪正标签对应的特征,/>为真正标签对应的特征,/>为融合后的正标签特征,λ为伪标签的预测分数,labeluif为伪正标签对应的标签值,labellif为真正标签对应的标签值,labelf为融合后的标签值。
背景实例的特征融合是将伪负标签和真负标签对应的特征进行融合,融合产生了两种效果。当伪负标签不是噪音标签时,背景间的特征融合丰富了背景特征,从而提升了模型对背景的鉴别能力。当伪负标签是噪音标签时,背景间的融合削弱了假阴性噪音标签的标签值,从而抑制了假阴性噪声。将所述伪负标签和所述真负标签对应的特征进行融合,融合表达式为:
其中,为伪负标签对应的特征,/>为真负标签对应的特征,/>为融合后的负标签特征。
S140:根据所述学生模型的预测头网络对所述实例特征融合图像进行预测,并将得到的预测结果和所述一致性伪标签作为训练数据,训练所述学生模型。
S150:当所述学生模型梯度回传后,根据所述教师模型、所述学生模型以及预设的指数滑动平均策略更新所述教师模型的参数。
具体的,梯度回传指的是预测值与标注值求loss后,对学生模型的每个参数求梯度,然后反向传播。
可选地,本发明实施例根据以下表达式更新教师模型的参数:
Teacher Model=(α)Teacher Model+(1-α)Student Model
其中,α一般取0.999,Teacher Model表示教师模型的参数,Student Model表示学生模型的参数。
上述更新参数的过程即为对教师模型的参数进行指数滑动平均(EMA)更新。
接下来将以具体实例说明本发明的应用过程。
参照图3,本发明实施例提供了一种无阈值的伪标签选择和实例特征混合的半监督物体检测方法流程示意图。
具体的,训练时,无标注数据(即无标注的第一图像)和标注数据(即经过标注的第二图像)按照预设比例组成同一批分别输入教师模型和学生模型。首先,无标注的第一图像通过预设的多管道弱数据增强得到多张弱增强后的图像,作为弱增强图像,教师模型对多张弱增强图像进行预测得到预测标签,该预测标签作为伪标签,伪标签通过一致性伪标签选择获取其中的高质量伪标签。然后,无标注的第一图像和经过标注的第二图像通过单管道强数据得到对应的强增强图像,进而学生模型分别对强增强图像提取特征得到实例特征图,进而根据一致性伪标签对实例特征图进行标签分配。进一步,将第二图像的标签和第一图像的标签对应的特征进行实例特征融合,融合后输入学生模型预测头网络得到预测结果,用高质量的一致性伪标签与经过标注的手工标签监督学生模型的训练。学生模型梯度回传后,教师模型通过学生模型进行指数滑动平均的策略进行更新。
推理时,本发明实施例可以选择学生模型或教师模型对待检测图像进行预测。
参照图4,本发明实施例提供了一种物体检测方法,包括以下步骤:
S200:获取待检测图像。
S210:根据物体检测模型对所述待检测图像进行物体检测,得到所述待检测图像中各物体的预测标签。
其中,所述物体检测模型为如图1所示的一种物体检测模型的训练方法中经过训练的教师模型或学生模型。
参照图5,本发明实施例提供了一种物体检测模型的训练装置,包括:
第一训练单元,用于将无标注的第一图像进行多管道的弱数据增强,对应得到弱数据增强后的多张无标注的弱增强图像;
第二训练单元,用于根据预设的教师模型对多张所述弱增强图像进行物体检测,得到每张所述弱增强图像的多个预测标签,并选取各张所述弱增强图像中一致性预测的标签作为一致性伪标签;
第三训练单元,用于将所述第一图像和经过标注的第二图像分别进行单管道强数据增强,对应得到第一强增强图像和第二强增强图像;
第四训练单元,用于根据预设的学生模型分别对所述第一强增强图像和所述第二强增强图像进行特征提取,再进行特征融合,得到实例特征融合图像;
第五训练单元,用于根据所述学生模型的预测头网络对所述实例特征融合图像进行预测,并将得到的预测结果和所述一致性伪标签作为训练数据,训练所述学生模型;
第六训练单元,用于当所述学生模型梯度回传后,根据所述教师模型、所述学生模型以及预设的指数滑动平均策略更新所述教师模型的参数。
参照图6,本发明实施例提供了一种物体检测装置,包括:
第一检测单元,用于获取待检测图像;
第二检测单元,用于根据物体检测模型对所述待检测图像进行物体检测,得到所述待检测图像中各物体的预测标签;
其中,所述物体检测模型为图1所示的一种物体检测模型的训练方法中经过训练的教师模型或学生模型。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1和/或图4所示的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims (8)

1.一种物体检测模型的训练方法,其特征在于,包括:
将无标注的第一图像进行多管道的弱数据增强,对应得到弱数据增强后的多张无标注的弱增强图像;
根据预设的教师模型对多张所述弱增强图像进行物体检测,得到每张所述弱增强图像的多个预测标签,并选取各张所述弱增强图像中一致性预测的标签作为一致性伪标签;
将所述第一图像和经过标注的第二图像分别进行单管道强数据增强,对应得到第一强增强图像和第二强增强图像;
根据预设的学生模型分别对所述第一强增强图像和所述第二强增强图像进行特征提取,再进行特征融合,得到实例特征融合图像;
根据所述学生模型的预测头网络对所述实例特征融合图像进行预测,并将得到的预测结果和所述一致性伪标签作为训练数据,训练所述学生模型;
当所述学生模型梯度回传后,根据所述教师模型、所述学生模型以及预设的指数滑动平均策略更新所述教师模型的参数;
所述根据预设的教师模型对多张所述弱增强图像进行物体检测,得到每张所述弱增强图像的多个预测标签,并选取各张所述弱增强图像中一致性预测的标签作为一致性伪标签,包括:根据所述教师模型对每张所述弱增强图像进行物体检测,将得到的所述预测标签保存为二维矩阵,所述二维矩阵中每行表示一张所述弱增强图像中各个物体对应的所述预测标签,每列表示同一物体对应的各个所述预测标签;将所述二维矩阵中每列的所述预测标签进行融合,得到多个融合标签,多个所述融合标签作为融合标签集合;将所述二维矩阵中每行的每个所述预测标签分别与所述融合标签集合中的所有所述融合标签求交并比,确定最大交并比对应的所述融合标签,根据所述最大交并比及对应的融合标签更新所述融合标签集合;遍历每列的所述预测标签,若每列的所述预测标签的数量大于或等于弱数据增强的次数,则将该列所述预测标签对应的所述融合标签作为一致性伪标签;
所述根据预设的学生模型分别对所述第一强增强图像和所述第二强增强图像进行特征提取,再进行特征融合,得到实例特征融合图像,包括:根据预设的学生模型分别对所述第一强增强图像和所述第二强增强图像进行特征提取,对应得到第一实例特征图像和第二实例特征图像;根据预设的标签分配策略分别对所述第一实例特征图像和所述第二实例特征图像进行标签分配;将经过标签分配后的所述第一实例特征图像和所述第二实例特征图像进行特征融合,得到实例特征融合图像。
2.根据权利要求1所述的一种物体检测模型的训练方法,其特征在于,所述根据所述最大交并比及对应的融合标签更新所述融合标签集合,包括:
若所述最大交并比小于预设的阈值,则所述最大交并比对应的所述预测标签添加到所述融合标签集合的尾部;
若所述最大交并比大于或等于预设的阈值,则所述最大交并比对应的所述预测标签添加到对应列中,融合所述对应列中的所有所述预测标签,得到新的融合标签,并更新所述融合标签集合。
3.根据权利要求1所述的一种物体检测模型的训练方法,其特征在于,所述根据预设的标签分配策略分别对所述第一实例特征图像和所述第二实例特征图像进行标签分配,包括:
将所述第一实例特征图中的前景特征确定为伪正标签,将所述第一实例特征图中的背景特征确定为伪负标签;
将所述第二实例特征图中的前景特征确定为真正标签,将所述第二实例特征图中的背景特征确定为真负标签。
4.根据权利要求3所述的一种物体检测模型的训练方法,其特征在于,所述将经过标签分配后的所述第一实例特征图像和所述第二实例特征图像进行特征融合,包括:
将所述伪正标签和所述真正标签对应的特征进行融合,融合表达式为:
labelf=λlabeluif+(1-λ)labellif
其中,为伪正标签对应的特征,/>为真正标签对应的特征,/>为融合后的正标签特征,λ为伪标签的预测分数,labeluif为伪正标签对应的标签值,labellif为真正标签对应的标签值,labelf为融合后的标签值;
将所述伪负标签和所述真负标签对应的特征进行融合,融合表达式为:
其中,为伪负标签对应的特征,/>为真负标签对应的特征,/>为融合后的负标签特征。
5.一种物体检测方法,其特征在于,包括:
获取待检测图像;
根据物体检测模型对所述待检测图像进行物体检测,得到所述待检测图像中各物体的预测标签;
其中,所述物体检测模型为利用权利要求1至4任一项所述的一种物体检测模型的训练方法训练得到的教师模型或学生模型。
6.一种物体检测模型的训练装置,其特征在于,包括:
第一训练单元,用于将无标注的第一图像进行多管道的弱数据增强,对应得到弱数据增强后的多张无标注的弱增强图像;
第二训练单元,用于根据预设的教师模型对多张所述弱增强图像进行物体检测,得到每张所述弱增强图像的多个预测标签,并选取各张所述弱增强图像中一致性预测的标签作为一致性伪标签;
第三训练单元,用于将所述第一图像和经过标注的第二图像分别进行单管道强数据增强,对应得到第一强增强图像和第二强增强图像;
第四训练单元,用于根据预设的学生模型分别对所述第一强增强图像和所述第二强增强图像进行特征提取,再进行特征融合,得到实例特征融合图像;
第五训练单元,用于根据所述学生模型的预测头网络对所述实例特征融合图像进行预测,并将得到的预测结果和所述一致性伪标签作为训练数据,训练所述学生模型;
第六训练单元,用于当所述学生模型梯度回传后,根据所述教师模型、所述学生模型以及预设的指数滑动平均策略更新所述教师模型的参数;
所述根据预设的教师模型对多张所述弱增强图像进行物体检测,得到每张所述弱增强图像的多个预测标签,并选取各张所述弱增强图像中一致性预测的标签作为一致性伪标签,包括:根据所述教师模型对每张所述弱增强图像进行物体检测,将得到的所述预测标签保存为二维矩阵,所述二维矩阵中每行表示一张所述弱增强图像中各个物体对应的所述预测标签,每列表示同一物体对应的各个所述预测标签;将所述二维矩阵中每列的所述预测标签进行融合,得到多个融合标签,多个所述融合标签作为融合标签集合;将所述二维矩阵中每行的每个所述预测标签分别与所述融合标签集合中的所有所述融合标签求交并比,确定最大交并比对应的所述融合标签,根据所述最大交并比及对应的融合标签更新所述融合标签集合;遍历每列的所述预测标签,若每列的所述预测标签的数量大于或等于弱数据增强的次数,则将该列所述预测标签对应的所述融合标签作为一致性伪标签;
所述根据预设的学生模型分别对所述第一强增强图像和所述第二强增强图像进行特征提取,再进行特征融合,得到实例特征融合图像,包括:根据预设的学生模型分别对所述第一强增强图像和所述第二强增强图像进行特征提取,对应得到第一实例特征图像和第二实例特征图像;根据预设的标签分配策略分别对所述第一实例特征图像和所述第二实例特征图像进行标签分配;将经过标签分配后的所述第一实例特征图像和所述第二实例特征图像进行特征融合,得到实例特征融合图像。
7.一种物体检测装置,其特征在于,包括:
第一检测单元,用于获取待检测图像;
第二检测单元,用于根据物体检测模型对所述待检测图像进行物体检测,得到所述待检测图像中各物体的预测标签;
其中,所述物体检测模型为利用权利要求1至4任一项所述的一种物体检测模型的训练方法训练得到的教师模型或学生模型。
8.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至4中任一项所述的方法。
CN202310773267.3A 2023-06-27 2023-06-27 一种物体检测模型的训练方法、物体检测方法及装置 Active CN116824251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310773267.3A CN116824251B (zh) 2023-06-27 2023-06-27 一种物体检测模型的训练方法、物体检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310773267.3A CN116824251B (zh) 2023-06-27 2023-06-27 一种物体检测模型的训练方法、物体检测方法及装置

Publications (2)

Publication Number Publication Date
CN116824251A CN116824251A (zh) 2023-09-29
CN116824251B true CN116824251B (zh) 2024-02-13

Family

ID=88125339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310773267.3A Active CN116824251B (zh) 2023-06-27 2023-06-27 一种物体检测模型的训练方法、物体检测方法及装置

Country Status (1)

Country Link
CN (1) CN116824251B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882325A (zh) * 2022-07-12 2022-08-09 之江实验室 基于二阶段物体检测器的半监督物检测及训练方法、装置
CN115018852A (zh) * 2022-08-10 2022-09-06 四川大学 一种基于半监督学习的腹部淋巴结检测方法及装置
WO2022213879A1 (zh) * 2021-04-07 2022-10-13 腾讯科技(深圳)有限公司 目标对象检测方法、装置、计算机设备和存储介质
CN115393687A (zh) * 2022-07-12 2022-11-25 西北工业大学 一种基于双伪标签优化学习的rgb图像半监督目标检测方法
CN116091858A (zh) * 2022-10-31 2023-05-09 北京邮电大学 一种半监督学习电力设备目标检测模型训练方法、检测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230154167A1 (en) * 2021-11-15 2023-05-18 Nec Laboratories America, Inc. Source-free cross domain detection method with strong data augmentation and self-trained mean teacher modeling

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022213879A1 (zh) * 2021-04-07 2022-10-13 腾讯科技(深圳)有限公司 目标对象检测方法、装置、计算机设备和存储介质
CN114882325A (zh) * 2022-07-12 2022-08-09 之江实验室 基于二阶段物体检测器的半监督物检测及训练方法、装置
CN115393687A (zh) * 2022-07-12 2022-11-25 西北工业大学 一种基于双伪标签优化学习的rgb图像半监督目标检测方法
CN115018852A (zh) * 2022-08-10 2022-09-06 四川大学 一种基于半监督学习的腹部淋巴结检测方法及装置
CN116091858A (zh) * 2022-10-31 2023-05-09 北京邮电大学 一种半监督学习电力设备目标检测模型训练方法、检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Disentangling Facial Pose and Appearance Information for Face Anti-spoofing;Ajian Liu,Yanyan Liang等;《 2022 26th International Conference on Pattern Recognition (ICPR)》;全文 *
图像后处理技术在医学影像CT教学中的应用;史慧萍;李冬梅;扈;王建云;张延旭;;齐齐哈尔医学院学报(20);全文 *

Also Published As

Publication number Publication date
CN116824251A (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
US10699151B2 (en) System and method for performing saliency detection using deep active contours
Bevandić et al. Simultaneous semantic segmentation and outlier detection in presence of domain shift
Subhani et al. Learning from scale-invariant examples for domain adaptation in semantic segmentation
Höferlin et al. Inter-active learning of ad-hoc classifiers for video visual analytics
CN113920370A (zh) 模型训练方法、目标检测方法、装置、设备及存储介质
Hou et al. Bottom-up top-down cues for weakly-supervised semantic segmentation
CN111767878B (zh) 嵌入式设备中基于深度学习的交通标志检测方法及系统
CN114819186A (zh) 构建gbdt模型的方法、装置及预测方法、装置
CN111382758A (zh) 训练图像分类模型、图像分类方法、装置、设备及介质
CN113688851B (zh) 数据标注方法和装置和精细粒度识别方法和装置
CN112052818A (zh) 无监督域适应的行人检测方法、系统及存储介质
Zhukov et al. Learning actionness via long-range temporal order verification
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
Ding et al. Value of temporal dynamics information in driving scene segmentation
Chen et al. Dive deeper into box for object detection
Yang et al. Toward country scale building detection with convolutional neural network using aerial images
Liang et al. Cross-scene foreground segmentation with supervised and unsupervised model communication
CN114565803A (zh) 用于提取难样本的方法、装置及机械设备
Sánchez-Ferrer et al. An experimental study on marine debris location and recognition using object detection
CN113744280A (zh) 图像处理方法、装置、设备及介质
CN116824251B (zh) 一种物体检测模型的训练方法、物体检测方法及装置
US20230298335A1 (en) Computer-implemented method, data processing apparatus and computer program for object detection
CN116189130A (zh) 基于图像标注模型的车道线分割方法及装置
CN115809697A (zh) 一种数据修正方法、装置及电子设备
Traub et al. Learning what and where-unsupervised disentangling location and identity tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant