CN114882325A - 基于二阶段物体检测器的半监督物检测及训练方法、装置 - Google Patents

基于二阶段物体检测器的半监督物检测及训练方法、装置 Download PDF

Info

Publication number
CN114882325A
CN114882325A CN202210812617.8A CN202210812617A CN114882325A CN 114882325 A CN114882325 A CN 114882325A CN 202210812617 A CN202210812617 A CN 202210812617A CN 114882325 A CN114882325 A CN 114882325A
Authority
CN
China
Prior art keywords
training
semi
loss
candidate
object detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210812617.8A
Other languages
English (en)
Other versions
CN114882325B (zh
Inventor
程乐超
李冠彬
王阔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210812617.8A priority Critical patent/CN114882325B/zh
Publication of CN114882325A publication Critical patent/CN114882325A/zh
Application granted granted Critical
Publication of CN114882325B publication Critical patent/CN114882325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于二阶段物体检测器的半监督物检测及训练方法、装置,在半监督物体检测中,IoU匹配在训练阶段起到了筛选候选框和标注候选框的作用。由于伪标签无法囊括所有的前景物体,导致筛选候选框时,仅能选取到较为简单的前景物体。被错误分类为背景的前景物体,难以参与到训练中。此外,由于伪标签也存在着错误,导致IoU匹配对候选框进行错误标注,而错误的伪标签,将导致所有与其重合度较高的候选框产生标注错误问题。本发明通过构建合理选择机制和动态阈值化机制,分别解决了IoU匹配中的筛选和错误标注问题。本发明实现方法简便,手段灵活,在匹配方面具有优势,因此提升了半监督物体检测的效果。

Description

基于二阶段物体检测器的半监督物检测及训练方法、装置
技术领域
本发明涉及图像识别技术领域,尤其是涉及基于二阶段物体检测器的半监督物检测及训练方法、装置。
背景技术
得益于大规模标注数据集的出现,深度学习在各个领域都取得了出色的成果。然而,获取大规模的标注数据往往需要耗费大量的人力和财力,于是,半监督学习受到了越来越多的研究。半监督学习,指在有限的标注数据的基础上,利用无标注数据来提升模型的性能。在计算机视觉领域,半监督学习的研究主要集中于图像分类任务,这些半监督技术从图像分类到物体检测的迁移仍旧存在着很多悬而未决的问题。
当今的半监督物体检测方法主要遵循了基于一致性的伪标签策略。这项策略在半监督图像分类任务上取得了惊人的效果。基于一致性的伪标签策略,指对无标注图像分别进行强弱增强,先使用模型在弱增强图像上生成置信度较高的伪标签,然后再结合强增强图像和伪标签来训练模型。为了进一步地增强这个策略的效果,训练过程建立在教师-学生(Teacher-Student)框架之上。具体来讲,模型会被复制为相互独立的两个模型,一个作为教师Teacher模型,另一个作为学生Student模型。教师Teacher模型用于生成伪标签,学生Student模型则用于训练。训练导致的参数更新将会直接作用于学生Student模型,然后在每次迭代之后,学生Student模型将会通过EMA(Exponential Moving Average,指数移动平均)参数更新策略来将一小部分参数传递给教师Teacher模型。
上述方案在图像分类任务上取得了巨大的成果,然而,将其应用于物体检测任务上时,却没能取得耀眼的性能提升。其他的方法将效果不够好的原因归结于伪标签的质量不够高,毕竟物体检测任务的标注比图像分类任务要复杂很多。于是,很多提升伪标签质量的方案被设计出来,但是其效果始终不尽人意。这是因为,现存的半监督物体检测方法都没能注意到至关严重的IoU(Intersection overUnion,交并比)匹配问题。
如图1a、图1b所述,现有方法都没能注意到至关重要的IoU匹配问题。以二阶段物体检测器为例,IoU匹配是训练过程中不可或缺的操作。具体而言,在二阶段物体检测器的训练过程中,RPN(Region Proposal Network,区域生成网络)首先生成包括所有可能前景的候选框,这些候选框被送入ROI Head(感兴趣的区域头部)部分用于训练。ROI Head拿到所有的候选框之后,会将这些候选框与图像的标注进行IoU匹配。IoU分值较高,说明该候选框与标注框的重叠程度较高,于是,该候选框将会被赋予和对应的标注框一致的标签。如果候选框与所有的标注框的IoU分值都不够高,那么该候选框会被当作背景来处理。标注完所有的候选框之后,模型会按比例从中筛选前景框和背景框用于训练。上述IoU匹配过程有一项前提,那就是标注框要100%正确,否则,IoU匹配将会导致错误标注问题。很明显,在无标注图像上,其伪标签必然无法做到高度准确,基于伪标签,IoU匹配始终会对候选框产生大量的错误标注,图1a中,实线框是伪标签,虚线框是训练时的候选框,生成伪标签时所用的阈值较高,导致伪标签召回率降低,使得IoU匹配把图中的前景错分为背景,图1b中,生成伪标签时所使用的阈值较低,导致伪标签的准确率低,使得IoU匹配给图中的物体赋予错误的标签。现有的方法均未能注意到IoU匹配在无标注数据上存在的巨大隐患,使得这些方法始终无法取得突破性的提升。
综上所述,IoU匹配在训练过程中,起到了筛选候选框和标注候选框的作用。由于伪标签无法囊括所有的前景物体,这会导致IoU匹配在筛选候选框时,仅能选取到较为简单的前景物体。那些被错误分类为背景的前景物体,将会很难参与到训练过程之中。此外,由于伪标签也存在着错误,这会导致IoU匹配会对候选框进行错误标注,更为严重的是,一个错误的伪标签,将会导致所有与其重合度较高的候选框产生标注错误问题。
发明内容
为解决现有技术的不足,本发明提出本发明提出了合理选择ReasonableSelecting机制和动态阈值化Dynamic Thresholding机制,替换传统的IoU匹配,从而避免IoU匹配所导致的图像筛选和标注错误,提高物体检测的准确度,本发明采用如下的技术方案:
一种基于二阶段物体检测器的半监督物体检测训练方法,根据物体检测器建立教师-学生框架,通过有标签图像和无标签图像,构建监督和无监督分支,其中监督分支将有标签图像用于学生模型的参数更新;无监督分支对无标签图像进行强、弱增强处理,教师模型通过弱增强图像得到的类别标签,结合强增强图像来训练学生模型,再根据学生模型的参数更新教师模型,包括如下步骤:
步骤S1:构建合理选择机制,将学生模型生成的候选框送入教师模型,教师模型根据候选框及弱增强图像,得到候选框对应类别的预测分数,以背景类的预测分数作为依据,进行前景框和/或背景框的筛选,使得模型可以脱离伪标签的限制,从所有可能的前景物体中筛选前景训练图像,从根本上解决了传统的IoU匹配所导致的仅能选择简易物体用于训练的问题;
步骤S2:构建动态阈值化机制,基于教师模型为候选框生成的预测分数,生成类别的软标签,用于学生模型的训练,软标签的形式将会比one-hot类型的硬标签更加可靠,这是因为Teacher所生成的预测分数当中,会有大量置信度(置信度指预测分数中的最大值)较低的结果,为置信度较低的框生成one-hot类型的硬标签,将会导致巨大的误差,而软标签的形式避免了这样的问题。
进一步地,所述物体检测器包括区域生成RPN模块和感兴趣ROI模块,根据物体检测器复制独立的两份,一份作为教师模型,一份作为学生模型;
训练过程中的整体损失,包括监督损失和无监督损失,监督损失是基于有标签图像及其对应的标签,计算区域生成网络分类损失、区域生成网络回归损失、感兴趣区域分类损失和感兴趣区域回归损失,无监督损失是基于无标签图像及教师模型通过弱增强图像得到的标签,计算区域生成网络分类损失、区域生成网络回归损失、感兴趣区域分类损失和感兴趣区域回归损失:
Figure 790909DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
表示监督损失,
Figure 61353DEST_PATH_IMAGE004
表示有标签图像,
Figure DEST_PATH_IMAGE005
表示有标签图像对应的标签,
Figure 561604DEST_PATH_IMAGE006
表 示RPN分类损失函数,
Figure DEST_PATH_IMAGE007
表示RPN回归损失函数,
Figure 372434DEST_PATH_IMAGE008
表示ROI分类损失函数,
Figure DEST_PATH_IMAGE009
表示ROI 回归损失函数;
Figure DEST_PATH_IMAGE011
Figure 972567DEST_PATH_IMAGE012
表示无监督损失,
Figure DEST_PATH_IMAGE013
表示无标签图像,
Figure 351596DEST_PATH_IMAGE014
表示教师模型通过弱增强图像得 到的标签;
Figure 870302DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
表示整体损失被,为监督损失和无监督损失的加权和,
Figure 156927DEST_PATH_IMAGE018
表示平衡系数。
进一步地,所述学生模型更新教师模型,是将学生模型的参数,通过指数移动平均EMA策略对教师模型的参数进行更新:
Figure 218424DEST_PATH_IMAGE020
其中,
Figure DEST_PATH_IMAGE021
表示学生模型参数,
Figure 892988DEST_PATH_IMAGE022
表示教师模型参数,
Figure DEST_PATH_IMAGE023
表示比例系数。
进一步地,所述步骤S1中,将背景类的预测分数与第一阈值比较,进行前景类和背景类的划分,得到前景集和背景集,按比例筛选前景框和背景框用于训练。
进一步地,所述步骤S2中,无监督分支中的感兴趣区域分类损失采用软交叉熵,由于采用了软标签,无监督损失中,感兴趣区域分类损失的计算过程将会发生变化,从传统的独热型的交叉熵变为软交叉熵:
Figure DEST_PATH_IMAGE025
其中,
Figure 836673DEST_PATH_IMAGE026
表示无标签图像
Figure 189638DEST_PATH_IMAGE013
中,用于训练的候选框的数量,
Figure DEST_PATH_IMAGE027
表示学生模型在第j 个候选框上的预测结果,
Figure 433538DEST_PATH_IMAGE028
表示动态阈值化机制为该候选框生成的软标签,
Figure 357632DEST_PATH_IMAGE027
Figure 850930DEST_PATH_IMAGE028
均为 N+1维向量,N表示数据集中前景类的数量。
进一步地,所述步骤S2中,将N+1维的预测分数中,超过第二阈值的值提升为1,作为训练时的软标签,从而使高置信度的候选框发挥更大的作用,N表示数据集中前景类的数量;由于物体检测任务存在着天然的类别不均衡问题,导致模型对不同类别的图像存在着不同的置信度水平。所以,一个单一的阈值对于上述过程是不可靠的。模型对不同类别的图像有着不同置信度水平的原因,在于不同类别的训练图像数量不同。基于这一点,动态阈值化机制记录训练过程中不同类别的候选框的数量,并根据每个类别的训练图像数量,为每个类别维持一个独立的阈值,即第二阈值。
进一步地,所述第二阈值
Figure DEST_PATH_IMAGE029
的计算方式如下所示:
Figure DEST_PATH_IMAGE031
其中,
Figure 948199DEST_PATH_IMAGE032
是第二阈值的取值区间,向量
Figure DEST_PATH_IMAGE033
表示记录的当前已学习 的N种类别的图像的数量,数量较多的类别将会被赋予一个较大的阈值,数量较少的类别将 会被赋予较小的阈值,根据当前已学习的不同类别的图像数量,为每个类别计算得到一个 阈值,根据每个类别的阈值,动态阈值化将预测分数高于其对应阈值的值提升为1,以此来 为训练使用的候选框生成软标签。
进一步地,在训练初期,不同类别样本数量的比例关系变化巨大,导致每个类别对 应的动态阈值不太稳定,为了解决这个问题,本发明为动态阈值化机制设置了一个预热机 制,即第二阈值取值区间的
Figure 46605DEST_PATH_IMAGE034
在训练初期会从
Figure DEST_PATH_IMAGE035
开始,随着迭代次数的加深,逐渐增大 到预设的值,预设的阈值取值区间的长度为
Figure 735075DEST_PATH_IMAGE036
,预热机制的迭代次数为
Figure DEST_PATH_IMAGE037
,则 在训练初期,即
Figure 450090DEST_PATH_IMAGE037
次迭代之内,
Figure 147788DEST_PATH_IMAGE034
在第
Figure 772804DEST_PATH_IMAGE038
次迭代时的取值
Figure DEST_PATH_IMAGE039
通过如下方式计算:
Figure DEST_PATH_IMAGE041
添加了warm-up机制,每个类别所对应的动态阈值将不会在训练初期发生巨大变化。
一种基于二阶段物体检测器的半监督物体检测方法,包括:
基于所述的基于二阶段物体检测器的半监督物检测训练方法训练获得学生模型;
将待检测的物体图像输入训练好的所述学生模型,得到物体类别。
一种基于二阶段物体检测器的半监督物体检测装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现所述的基于二阶段物体检测器的半监督物体检测方法。
本发明的优势和有益效果在于:
本发明的基于二阶段物体检测器的半监督物检测及训练方法、装置,通过构建合理选择机制,使得模型可以脱离伪标签的限制,从所有可能的前景物体中筛选前景训练图像,从根本上解决了传统的IoU匹配所导致的仅能选择简易物体用于训练的问题;通过构建动态阈值化机制,使得动态阈值缓解了类别不均衡问题的有害影响,使用软标签降低了低置信度样本的有害影响的同时,又充分发挥了高置信度样本的效果。配合合理选择机制,从根本上解决了IoU匹配的筛选错误和标签错误问题。
附图说明
图1a是传统方法中由于生成伪标签的阈值较高导致图中的前景错分为背景示意图。
图1b是传统方法中由于生成伪标签的阈值较低导致图中的物体赋予错误标签示意图。
图2是本发明实施例的方法中教师-学生框架下监督分支的架构示意图。
图3是本发明实施例的方法中教师-学生框架下无监督分支的架构示意图。
图4是本发明实施例的方法中教师-学生框架下基于合理选择和动态阈值化机制的架构图。
图5是本发明实施例的方法流程图。
图6是本发明实施例的方法中动态阈值化机制的操作过程示意图。
图7是本发明实施例的装置结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明通过深度剖析物体检测器的架构,发现了IoU匹配策略在处理无标注数据时所存在的巨大问题,基于此,为了解决IoU匹配中的筛选问题,本发明提出了ReasonableSelecting机制,为了解决IoU匹配中的错误标注问题,本发明又提出了DynamicThresholding机制。这两项机制合起来,可以替换掉传统的IoU匹配。
如图2至图4所示,一种基于二阶段物体检测器的半监督物体检测训练方法,根据物体检测器建立教师-学生框架,物体检测器包括区域生成RPN模块和感兴趣ROI模块,根据物体检测器复制独立的两份,一份作为教师模型,一份作为学生模型。
通过有标签图像和无标签图像,构建监督和无监督分支,其中监督分支将有标签图像用于学生模型的参数更新;无监督分支对无标签图像进行强、弱增强处理,教师模型通过弱增强图像得到的类别标签,结合强增强图像来训练学生模型,再根据学生模型的参数更新教师模型。
学生模型更新教师模型,是将学生模型的参数,通过指数移动平均EMA策略对教师模型的参数进行更新。
训练过程中的整体损失,包括监督损失和无监督损失,监督损失是基于有标签图像及其对应的标签,计算区域生成网络分类损失、区域生成网络回归损失、感兴趣区域分类损失和感兴趣区域回归损失,无监督损失是基于无标签图像及教师模型通过弱增强图像得到的标签,计算区域生成网络分类损失、区域生成网络回归损失、感兴趣区域分类损失和感兴趣区域回归损失。
具体地,基于传统的Teacher-Student架构。首先,Student模型的RPN生成的候选框会被同时送入Teacher和Student的ROI head模块。Teacher模型根据弱增强图像的特征,为所有的候选框中的内容生成一个预测分数,该预测分数表达了该候选框属于每种类别的概率。针对IoU匹配在处理无标签数据的候选框时存在的筛选和标注问题,本发明分别提出了Reasonable Selecting 和 Dynamic Thresholding机制,Reasonable Selecting机制将会完成候选框的筛选工作,其中,所有可能的前景都会被选出来参与训练;DynamicThresholding则会根据候选框的预测结果,为每个候选框生成可靠的软标签,用于训练。
在训练过程中,每次迭代将会有一组标签数据
Figure 431843DEST_PATH_IMAGE042
和一组无标签数据
Figure DEST_PATH_IMAGE043
被用于训练。其中,
Figure 102996DEST_PATH_IMAGE044
是标签数据的数量,
Figure DEST_PATH_IMAGE045
是无标签数据的数量。
Figure 338805DEST_PATH_IMAGE046
是图 像,
Figure DEST_PATH_IMAGE047
是图像对应的标签,包括图像中所有检测框的位置和类别信息。
Teacher-Student结构
在Teacher-Student机制下,模型会被复制为独立的2份,一份作为Teacher模型, 另一份作为Student模型。每次迭代,整个架构都会从标签数据集
Figure 411803DEST_PATH_IMAGE048
和无标签数据集
Figure DEST_PATH_IMAGE049
中 随机筛选一组数据。其中,如图2所示,在每次迭代过程中,有标签图像直接用于训练 Student模型。即标签图像将会直接用于Student模型的参数更新。无标签图像会被分别进 行强弱数据增强。如图3所示,Teacher模型读入弱增强图像,生成伪标签,然后再结合强增 强图像来训练Student模型。设Teacher模型的参数为
Figure 707656DEST_PATH_IMAGE022
,Student模型的参数为
Figure 397263DEST_PATH_IMAGE021
,那么每 次迭代,上述训练过程将会直接用于更新
Figure 312129DEST_PATH_IMAGE021
,然后,
Figure 36372DEST_PATH_IMAGE022
将根据EMA策略被
Figure 644071DEST_PATH_IMAGE021
更新:
Figure 818044DEST_PATH_IMAGE020
其中,
Figure 864498DEST_PATH_IMAGE021
表示学生模型参数,
Figure 318613DEST_PATH_IMAGE022
表示教师模型参数,
Figure 221847DEST_PATH_IMAGE023
表示比例系数。
上述训练过程所使用的损失函数由两部分构成,分别是标签样本所对应的
Figure 761412DEST_PATH_IMAGE003
以 及无标签样本所对应的
Figure 673874DEST_PATH_IMAGE012
。对于标签样本,其损失函数
Figure 982495DEST_PATH_IMAGE003
由RPN分类loss,RPN回归 loss,ROI分类loss,ROI回归loss构成,即:
Figure 56630DEST_PATH_IMAGE050
Figure 817913DEST_PATH_IMAGE006
表示RPN分类损失函数,
Figure 268486DEST_PATH_IMAGE007
表示RPN回归损失函数,
Figure 431614DEST_PATH_IMAGE008
表示ROI分类损失函 数,
Figure 676651DEST_PATH_IMAGE009
表示ROI回归损失函数。
对于无标签样本,Teacher模型首先检测弱增强图像,得到该图像中所有的前景物 体的位置和类别,然后根据类别预测结果的TOP-1分值来作为置信度,以阈值
Figure DEST_PATH_IMAGE051
来生成伪标 签
Figure 784284DEST_PATH_IMAGE014
,用于计算无标签样本上的损失函数
Figure 648335DEST_PATH_IMAGE012
,即:
Figure 793533DEST_PATH_IMAGE052
最终,整体的loss被定义为监督loss和无监督loss的加权和:
Figure 350416DEST_PATH_IMAGE016
在实际操作过程中,
Figure 210925DEST_PATH_IMAGE051
建议取0.7,需要根据标签样本和无标签样本的数量比例进 行设置,如果无标签样本数量较多,建议取
Figure DEST_PATH_IMAGE053
,若数据量大概为1:1,建议取
Figure 206563DEST_PATH_IMAGE054
Figure 344283DEST_PATH_IMAGE023
建 议取0.999。
如图4、图5所示,由于IoU匹配问题的存在,导致了无监督loss中,
Figure DEST_PATH_IMAGE055
的 计算会出现很大的误差。本发明对于ROI head中的分类损失classification loss,提出 Reasonable Selecting机制和Dynamic Thresholding机制,用于替换传统的IoU匹配机制, 以避免IoU匹配所导致的筛选和标注错误。实际替换了ROI head在计算无监督loss
Figure 665543DEST_PATH_IMAGE055
时所采用的IoU匹配过程。具体训练过程包括如下步骤:
步骤S1:构建合理选择机制,将学生模型生成的候选框送入教师模型,教师模型根据候选框及弱增强图像,得到候选框对应类别的预测分数,以背景类的预测分数作为依据,进行前景框和/或背景框的筛选。将背景类的预测分数与第一阈值比较,进行前景类和背景类的划分,得到前景集和背景集,按比例筛选前景框和背景框用于训练。
Reasonable Selecting机制
基于伪标签,传统的IoU匹配将会使得大量的前景候选框被错分为背景,从而使其难以参与到训练过程中,最终导致模型只能识别较为简单的物体。为了解决这个问题,本发明提出了Reasonable Selecting机制。
Reasonable Selecting机制将Student模型的RPN生成的候选框同时送入Teacher 模型和Student模型。Teacher模型将会根据弱增强图像以及这些候选框,输出每个候选框 内内容的预测分数,该预测分数表达了候选框属于每个类别(包括背景类)的概率。在所有 的候选框中,取其在背景类上的预测分数background score来作为筛选依据,假如 background score小于某个特定的阈值
Figure 747768DEST_PATH_IMAGE056
,那么该候选框将会被当作前景。根据阈值
Figure 219201DEST_PATH_IMAGE056
将所 有的候选框分为前景集和背景集,然后再按照一定的比例,从中筛选前景框和背景框用于 训练。这样的筛选方式使得模型可以脱离伪标签的限制,从所有可能的前景物体中筛选前 景训练样本,从根本上解决了传统的IoU匹配所导致的仅能选择简易物体用于训练的问题。
Reasonable Selecting过程中,候选框的数量,选择过程的目标数量,前景和背景 的比例,和二阶段物体检测器的缺省设置保持一致即可。用于区分前景和背景的阈值
Figure 336061DEST_PATH_IMAGE056
建议 取0.8。
步骤S2:构建动态阈值化机制,基于教师模型为候选框生成的预测分数,生成类别的软标签,用于学生模型的训练。
Dynamic Thresholding机制
Reasonable Selecting机制从候选框中筛选得到了合适的前景和背景用于训练,接下来,Dynamic Thresholding机制将会为这些训练框生成软标签。
Dynamic Thresholding机制基于Teacher模型为每个候选框生成的预测分数来生成软标签。软标签的形式将会比one-hot类型的硬标签更加可靠,这是因为Teacher所生成的预测分数当中,会有大量置信度(置信度指预测分数中的最大值)较低的结果,为置信度较低的框生成one-hot类型的硬标签,将会导致巨大的误差,而软标签的形式避免了这样的问题。由于采用了软标签,无监督loss中,ROI的分类loss的计算过程将会发生变化,从传统的one-hot型的交叉熵变为Soft交叉熵;
即无监督分支中的感兴趣区域分类损失采用软交叉熵,如下所示:
Figure 297064DEST_PATH_IMAGE025
其中,
Figure 7531DEST_PATH_IMAGE026
表示无标签图像
Figure 141709DEST_PATH_IMAGE013
中,用于训练的候选框的数量,
Figure 988443DEST_PATH_IMAGE027
表示学生Student模 型在第j个候选框上的预测结果,
Figure 179734DEST_PATH_IMAGE028
表示动态阈值化Dynamic Thresholding机制为该候 选框生成的软标签,
Figure 111918DEST_PATH_IMAGE027
Figure 49787DEST_PATH_IMAGE028
均为N+1维向量,N表示数据集中前景类的数量。
Dynamic Thresholding并不是单纯地将Teacher模型生成的预测分数直接作为软标签,而是将(N+1)维的预测分数中,超过第二阈值(某个特定阈值)的值提升为1,作为训练时的软标签,从而使高置信度的候选框发挥更大的作用。由于物体检测任务存在着天然的类别不均衡问题,导致模型对不同类别的样本存在着不同的置信度水平。所以,一个单一的阈值对于上述过程是不可靠的。模型对不同类别的样本有着不同置信度水平的原因,在于不同类别的训练样本数量不同。基于这一点,Dynamic Thresholding机制记录训练过程中不同类别的候选框的数量,并根据每个类别的训练图像数量,为每个类别维持一个独立的阈值,即第二阈值。
Dynamic Thresholding为每个类别维持的第二阈值
Figure 16606DEST_PATH_IMAGE029
的计算方式如下所示:
Figure 381728DEST_PATH_IMAGE031
其中,
Figure 801208DEST_PATH_IMAGE032
是第二阈值
Figure DEST_PATH_IMAGE057
的取值区间,向量
Figure 11610DEST_PATH_IMAGE058
表示记录当前已学习 的N种类别的样本的数量。根据上式,数量较多的类别将会被赋予一个较大的阈值,数量较 少的类别将会被赋予较小的阈值。根据当前已学习的不同类别的样本数量,为每个类别计 算得到一个阈值。根据每个类别的阈值,Dynamic Thresholding将预测分数高于其对应阈 值的值提升为1,以此来为训练使用的候选框生成软标签,如图6所示。
上述Dynamic Thresholding过程存在一个缺陷,在训练初期,不同类别样本数量 的比例关系变化巨大,导致每个类别对应的动态阈值不太稳定。为了解决这个问题,本发明 为动态阈值化Dynamic Thresholding机制设置一个预热warm-up机制,即第二阈值取值区 间的
Figure 957569DEST_PATH_IMAGE034
在训练初期会从
Figure 103379DEST_PATH_IMAGE035
开始,随着迭代次数的加深,逐渐增大到预设的值,预设的阈 值取值区间的长度为
Figure DEST_PATH_IMAGE059
,预热warm-up机制的迭代次数为
Figure 603631DEST_PATH_IMAGE037
,则在训练初期, 即
Figure 883302DEST_PATH_IMAGE037
次迭代之内,
Figure 559134DEST_PATH_IMAGE034
在第
Figure 266059DEST_PATH_IMAGE038
次迭代时的取值
Figure 660132DEST_PATH_IMAGE039
通过如下方式计算:
Figure 480844DEST_PATH_IMAGE041
添加了warm-up机制,每个类别所对应的动态阈值将不会在训练初期发生巨大变化。
在实际应用当中,取值区间
Figure 276762DEST_PATH_IMAGE032
建议取
Figure 154588DEST_PATH_IMAGE060
,warm-up迭代次数
Figure 770377DEST_PATH_IMAGE037
则需 要根据训练过程中的批大小batch size以及数据集的总大小来决定。
上述Dynamic Thresholding机制通过动态阈值缓解了类别不均衡问题的有害影响,使用软标签降低了低置信度样本的有害影响的同时,又充分发挥了高置信度样本的效果。配合Reasonable Selecting机制,从根本上解决了IoU匹配的筛选错误和标签错误问题。
与前述基于二阶段物体检测器的半监督物体检测方法的实施例相对应,本发明还提供了基于二阶段物体检测器的半监督物体检测装置的实施例。
参见图7,本发明实施例提供的基于二阶段物体检测器的半监督物体检测装置,包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的基于二阶段物体检测器的半监督物体检测方法。
本发明基于二阶段物体检测器的半监督物体检测装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本发明基于二阶段物体检测器的半监督物体检测装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于二阶段物体检测器的半监督物体检测方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (10)

1.一种基于二阶段物体检测器的半监督物体检测训练方法,根据物体检测器建立教师-学生框架,通过有标签图像和无标签图像,构建监督和无监督分支,其中监督分支将有标签图像用于学生模型的参数更新;无监督分支对无标签图像进行强、弱增强处理,教师模型通过弱增强图像得到的类别标签,结合强增强图像来训练学生模型,再根据学生模型的参数更新教师模型,其特征在于包括如下步骤:
步骤S1:构建合理选择机制,将学生模型生成的候选框送入教师模型,教师模型根据候选框及弱增强图像,得到候选框对应类别的预测分数,以背景类的预测分数作为依据,进行前景框和/或背景框的筛选;
步骤S2:构建动态阈值化机制,基于教师模型为候选框生成的预测分数,生成类别的软标签,用于学生模型的训练。
2.根据权利要求1所述的基于二阶段物体检测器的半监督物体检测训练方法,其特征在于:所述物体检测器包括区域生成RPN模块和感兴趣ROI模块,根据物体检测器复制独立的两份,一份作为教师模型,一份作为学生模型;
训练过程中的整体损失,包括监督损失和无监督损失,监督损失是基于有标签图像及其对应的标签,计算区域生成网络分类损失、区域生成网络回归损失、感兴趣区域分类损失和感兴趣区域回归损失,无监督损失是基于无标签图像及教师模型通过弱增强图像得到的标签,计算区域生成网络分类损失、区域生成网络回归损失、感兴趣区域分类损失和感兴趣区域回归损失。
3.根据权利要求1所述的基于二阶段物体检测器的半监督物体检测训练方法,其特征在于:所述学生模型更新教师模型,是将学生模型的参数,通过指数移动平均EMA策略对教师模型的参数进行更新。
4.根据权利要求1所述的基于二阶段物体检测器的半监督物体检测训练方法,其特征在于:所述步骤S1中,将背景类的预测分数与第一阈值比较,进行前景类和背景类的划分,得到前景集和背景集,按比例筛选前景框和背景框用于训练。
5.根据权利要求2所述的基于二阶段物体检测器的半监督物体检测训练方法,其特征在于:所述步骤S2中,无监督分支中的感兴趣区域分类损失采用软交叉熵:
Figure DEST_PATH_IMAGE002A
其中,
Figure 18851DEST_PATH_IMAGE004
表示无标签图像
Figure 528329DEST_PATH_IMAGE006
中,用于训练的候选框的数量,
Figure 45898DEST_PATH_IMAGE008
表示学生模型在第j个候 选框上的预测结果,
Figure 414563DEST_PATH_IMAGE010
表示动态阈值化机制为该候选框生成的软标签,
Figure 574149DEST_PATH_IMAGE008
Figure 813500DEST_PATH_IMAGE010
均为N+1 维向量,N表示数据集中前景类的数量。
6.根据权利要求1所述的基于二阶段物体检测器的半监督物体检测训练方法,其特征在于:所述步骤S2中,将N+1维的预测分数中,超过第二阈值的值提升为1,作为训练时的软标签,N表示数据集中前景类的数量;记录训练过程中不同类别的候选框的数量,并根据每个类别的训练图像数量,为每个类别维持一个独立的阈值,即第二阈值。
7.根据权利要求6所述的基于二阶段物体检测器的半监督物体检测训练方法,其特征 在于:所述第二阈值
Figure 33129DEST_PATH_IMAGE012
的计算方式如下所示:
Figure DEST_PATH_IMAGE014A
其中,
Figure 685827DEST_PATH_IMAGE016
是第二阈值的取值区间,向量
Figure 380595DEST_PATH_IMAGE018
表示记录的当前已学习的N 种类别的图像的数量。
8.根据权利要求7所述的基于二阶段物体检测器的半监督物体检测训练方法,其特征 在于:为动态阈值化机制设置了一个预热机制,即第二阈值取值区间的
Figure 130245DEST_PATH_IMAGE020
在训练初期会 从
Figure 396141DEST_PATH_IMAGE022
开始,随着迭代次数的加深,逐渐增大到预设的值,预设的阈值取值区间的长度为
Figure 332873DEST_PATH_IMAGE024
,预热机制的迭代次数为
Figure 709628DEST_PATH_IMAGE026
,则在训练初期,即
Figure 313785DEST_PATH_IMAGE026
次迭代之内,
Figure 750582DEST_PATH_IMAGE020
在第
Figure 174610DEST_PATH_IMAGE028
次 迭代时的取值
Figure 214111DEST_PATH_IMAGE030
通过如下方式计算:
Figure 469511DEST_PATH_IMAGE032
9.一种基于二阶段物体检测器的半监督物体检测方法,其特征在于,所述方法包括:
基于权利要求1至8任一项所述的基于二阶段物体检测器的半监督物检测训练方法训练获得学生模型;
将待检测的物体图像输入训练好的所述学生模型,得到物体类别。
10.一种基于二阶段物体检测器的半监督物体检测装置,其特征在于:包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求9中所述的基于二阶段物体检测器的半监督物体检测方法。
CN202210812617.8A 2022-07-12 2022-07-12 基于二阶段物体检测器的半监督物检测及训练方法、装置 Active CN114882325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210812617.8A CN114882325B (zh) 2022-07-12 2022-07-12 基于二阶段物体检测器的半监督物检测及训练方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210812617.8A CN114882325B (zh) 2022-07-12 2022-07-12 基于二阶段物体检测器的半监督物检测及训练方法、装置

Publications (2)

Publication Number Publication Date
CN114882325A true CN114882325A (zh) 2022-08-09
CN114882325B CN114882325B (zh) 2022-12-02

Family

ID=82682657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210812617.8A Active CN114882325B (zh) 2022-07-12 2022-07-12 基于二阶段物体检测器的半监督物检测及训练方法、装置

Country Status (1)

Country Link
CN (1) CN114882325B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824251A (zh) * 2023-06-27 2023-09-29 博衍科技(珠海)有限公司 一种物体检测模型的训练方法、物体检测方法及装置
CN117746267A (zh) * 2023-12-14 2024-03-22 广西环保产业投资集团有限公司 一种基于半监督主动学习的树冠提取方法、装置及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256646A (zh) * 2021-04-13 2021-08-13 浙江工业大学 一种基于半监督学习的脑血管图像分割方法
WO2022001489A1 (zh) * 2020-06-28 2022-01-06 北京交通大学 一种无监督域适应的目标重识别方法
WO2022041307A1 (zh) * 2020-08-31 2022-03-03 温州医科大学 一种构建半监督图像分割框架的方法及系统
CN114332135A (zh) * 2022-03-10 2022-04-12 之江实验室 一种基于双模型交互学习的半监督医学图像分割方法及装置
CN114399683A (zh) * 2022-01-18 2022-04-26 南京甄视智能科技有限公司 一种基于改进yolov5的端到端半监督目标检测方法
CN114581350A (zh) * 2022-02-23 2022-06-03 清华大学 一种适用于单目3d目标检测任务的半监督学习方法
CN114648665A (zh) * 2022-03-25 2022-06-21 西安电子科技大学 一种弱监督目标检测方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022001489A1 (zh) * 2020-06-28 2022-01-06 北京交通大学 一种无监督域适应的目标重识别方法
WO2022041307A1 (zh) * 2020-08-31 2022-03-03 温州医科大学 一种构建半监督图像分割框架的方法及系统
CN113256646A (zh) * 2021-04-13 2021-08-13 浙江工业大学 一种基于半监督学习的脑血管图像分割方法
CN114399683A (zh) * 2022-01-18 2022-04-26 南京甄视智能科技有限公司 一种基于改进yolov5的端到端半监督目标检测方法
CN114581350A (zh) * 2022-02-23 2022-06-03 清华大学 一种适用于单目3d目标检测任务的半监督学习方法
CN114332135A (zh) * 2022-03-10 2022-04-12 之江实验室 一种基于双模型交互学习的半监督医学图像分割方法及装置
CN114648665A (zh) * 2022-03-25 2022-06-21 西安电子科技大学 一种弱监督目标检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MENGDE XU ET AL: "End-to-End Semi-Supervised Object Detection with Soft Teacher", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
王金甲等: "基于平均教师模型的弱标记半监督声音事件检测", 《复旦学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824251A (zh) * 2023-06-27 2023-09-29 博衍科技(珠海)有限公司 一种物体检测模型的训练方法、物体检测方法及装置
CN116824251B (zh) * 2023-06-27 2024-02-13 博衍科技(珠海)有限公司 一种物体检测模型的训练方法、物体检测方法及装置
CN117746267A (zh) * 2023-12-14 2024-03-22 广西环保产业投资集团有限公司 一种基于半监督主动学习的树冠提取方法、装置及介质

Also Published As

Publication number Publication date
CN114882325B (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
Kim et al. Attract, perturb, and explore: Learning a feature alignment network for semi-supervised domain adaptation
Li et al. Contour knowledge transfer for salient object detection
Oh et al. Fast video object segmentation by reference-guided mask propagation
Yuliang et al. Detecting curve text in the wild: New dataset and new solution
CN114882325B (zh) 基于二阶段物体检测器的半监督物检测及训练方法、装置
CN112183456B (zh) 基于样本生成和域适应的多场景运动目标检测方法及装置
US20210326638A1 (en) Video panoptic segmentation
Mondal et al. Revisiting CycleGAN for semi-supervised segmentation
CN109902662A (zh) 一种行人重识别方法、系统、装置和存储介质
CN114998220A (zh) 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法
CN113762269A (zh) 基于神经网络的中文字符ocr识别方法、系统、介质及应用
Liu et al. Anomaly-GAN: A data augmentation method for train surface anomaly detection
CN116092122A (zh) 一种协作多特征聚类无监督行人再识别方法和系统
CN115512169A (zh) 基于梯度和区域亲和力优化的弱监督语义分割方法及装置
Zhu et al. Object and background disentanglement for unsupervised cross-domain person re-identification
CN113177554B (zh) 甲状腺结节识别与分割方法、系统、存储介质及设备
CN114373106A (zh) 基于上下文解耦和数据增强的弱监督语义分割方法及装置
CN113743389A (zh) 一种面部表情识别的方法、装置和电子设备
CN117437423A (zh) 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置
CN111582057A (zh) 一种基于局部感受野的人脸验证方法
CN113344079B (zh) 一种图像标签半自动标注方法、系统、终端及介质
CN115457555A (zh) 通用场景文字识别数据的自动生成方法及系统
Memarmoghadam et al. Size-aware visual object tracking via dynamic fusion of correlation filter-based part regressors
CN113553874A (zh) 一种复杂环境下快递条码检测方法
Yu et al. Research on Text Recognition of Natural Scenes for Complex Situations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant