CN114882325A - 基于二阶段物体检测器的半监督物检测及训练方法、装置 - Google Patents
基于二阶段物体检测器的半监督物检测及训练方法、装置 Download PDFInfo
- Publication number
- CN114882325A CN114882325A CN202210812617.8A CN202210812617A CN114882325A CN 114882325 A CN114882325 A CN 114882325A CN 202210812617 A CN202210812617 A CN 202210812617A CN 114882325 A CN114882325 A CN 114882325A
- Authority
- CN
- China
- Prior art keywords
- training
- semi
- loss
- candidate
- object detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7784—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于二阶段物体检测器的半监督物检测及训练方法、装置,在半监督物体检测中,IoU匹配在训练阶段起到了筛选候选框和标注候选框的作用。由于伪标签无法囊括所有的前景物体,导致筛选候选框时,仅能选取到较为简单的前景物体。被错误分类为背景的前景物体,难以参与到训练中。此外,由于伪标签也存在着错误,导致IoU匹配对候选框进行错误标注,而错误的伪标签,将导致所有与其重合度较高的候选框产生标注错误问题。本发明通过构建合理选择机制和动态阈值化机制,分别解决了IoU匹配中的筛选和错误标注问题。本发明实现方法简便,手段灵活,在匹配方面具有优势,因此提升了半监督物体检测的效果。
Description
技术领域
本发明涉及图像识别技术领域,尤其是涉及基于二阶段物体检测器的半监督物检测及训练方法、装置。
背景技术
得益于大规模标注数据集的出现,深度学习在各个领域都取得了出色的成果。然而,获取大规模的标注数据往往需要耗费大量的人力和财力,于是,半监督学习受到了越来越多的研究。半监督学习,指在有限的标注数据的基础上,利用无标注数据来提升模型的性能。在计算机视觉领域,半监督学习的研究主要集中于图像分类任务,这些半监督技术从图像分类到物体检测的迁移仍旧存在着很多悬而未决的问题。
当今的半监督物体检测方法主要遵循了基于一致性的伪标签策略。这项策略在半监督图像分类任务上取得了惊人的效果。基于一致性的伪标签策略,指对无标注图像分别进行强弱增强,先使用模型在弱增强图像上生成置信度较高的伪标签,然后再结合强增强图像和伪标签来训练模型。为了进一步地增强这个策略的效果,训练过程建立在教师-学生(Teacher-Student)框架之上。具体来讲,模型会被复制为相互独立的两个模型,一个作为教师Teacher模型,另一个作为学生Student模型。教师Teacher模型用于生成伪标签,学生Student模型则用于训练。训练导致的参数更新将会直接作用于学生Student模型,然后在每次迭代之后,学生Student模型将会通过EMA(Exponential Moving Average,指数移动平均)参数更新策略来将一小部分参数传递给教师Teacher模型。
上述方案在图像分类任务上取得了巨大的成果,然而,将其应用于物体检测任务上时,却没能取得耀眼的性能提升。其他的方法将效果不够好的原因归结于伪标签的质量不够高,毕竟物体检测任务的标注比图像分类任务要复杂很多。于是,很多提升伪标签质量的方案被设计出来,但是其效果始终不尽人意。这是因为,现存的半监督物体检测方法都没能注意到至关严重的IoU(Intersection overUnion,交并比)匹配问题。
如图1a、图1b所述,现有方法都没能注意到至关重要的IoU匹配问题。以二阶段物体检测器为例,IoU匹配是训练过程中不可或缺的操作。具体而言,在二阶段物体检测器的训练过程中,RPN(Region Proposal Network,区域生成网络)首先生成包括所有可能前景的候选框,这些候选框被送入ROI Head(感兴趣的区域头部)部分用于训练。ROI Head拿到所有的候选框之后,会将这些候选框与图像的标注进行IoU匹配。IoU分值较高,说明该候选框与标注框的重叠程度较高,于是,该候选框将会被赋予和对应的标注框一致的标签。如果候选框与所有的标注框的IoU分值都不够高,那么该候选框会被当作背景来处理。标注完所有的候选框之后,模型会按比例从中筛选前景框和背景框用于训练。上述IoU匹配过程有一项前提,那就是标注框要100%正确,否则,IoU匹配将会导致错误标注问题。很明显,在无标注图像上,其伪标签必然无法做到高度准确,基于伪标签,IoU匹配始终会对候选框产生大量的错误标注,图1a中,实线框是伪标签,虚线框是训练时的候选框,生成伪标签时所用的阈值较高,导致伪标签召回率降低,使得IoU匹配把图中的前景错分为背景,图1b中,生成伪标签时所使用的阈值较低,导致伪标签的准确率低,使得IoU匹配给图中的物体赋予错误的标签。现有的方法均未能注意到IoU匹配在无标注数据上存在的巨大隐患,使得这些方法始终无法取得突破性的提升。
综上所述,IoU匹配在训练过程中,起到了筛选候选框和标注候选框的作用。由于伪标签无法囊括所有的前景物体,这会导致IoU匹配在筛选候选框时,仅能选取到较为简单的前景物体。那些被错误分类为背景的前景物体,将会很难参与到训练过程之中。此外,由于伪标签也存在着错误,这会导致IoU匹配会对候选框进行错误标注,更为严重的是,一个错误的伪标签,将会导致所有与其重合度较高的候选框产生标注错误问题。
发明内容
为解决现有技术的不足,本发明提出本发明提出了合理选择ReasonableSelecting机制和动态阈值化Dynamic Thresholding机制,替换传统的IoU匹配,从而避免IoU匹配所导致的图像筛选和标注错误,提高物体检测的准确度,本发明采用如下的技术方案:
一种基于二阶段物体检测器的半监督物体检测训练方法,根据物体检测器建立教师-学生框架,通过有标签图像和无标签图像,构建监督和无监督分支,其中监督分支将有标签图像用于学生模型的参数更新;无监督分支对无标签图像进行强、弱增强处理,教师模型通过弱增强图像得到的类别标签,结合强增强图像来训练学生模型,再根据学生模型的参数更新教师模型,包括如下步骤:
步骤S1:构建合理选择机制,将学生模型生成的候选框送入教师模型,教师模型根据候选框及弱增强图像,得到候选框对应类别的预测分数,以背景类的预测分数作为依据,进行前景框和/或背景框的筛选,使得模型可以脱离伪标签的限制,从所有可能的前景物体中筛选前景训练图像,从根本上解决了传统的IoU匹配所导致的仅能选择简易物体用于训练的问题;
步骤S2:构建动态阈值化机制,基于教师模型为候选框生成的预测分数,生成类别的软标签,用于学生模型的训练,软标签的形式将会比one-hot类型的硬标签更加可靠,这是因为Teacher所生成的预测分数当中,会有大量置信度(置信度指预测分数中的最大值)较低的结果,为置信度较低的框生成one-hot类型的硬标签,将会导致巨大的误差,而软标签的形式避免了这样的问题。
进一步地,所述物体检测器包括区域生成RPN模块和感兴趣ROI模块,根据物体检测器复制独立的两份,一份作为教师模型,一份作为学生模型;
训练过程中的整体损失,包括监督损失和无监督损失,监督损失是基于有标签图像及其对应的标签,计算区域生成网络分类损失、区域生成网络回归损失、感兴趣区域分类损失和感兴趣区域回归损失,无监督损失是基于无标签图像及教师模型通过弱增强图像得到的标签,计算区域生成网络分类损失、区域生成网络回归损失、感兴趣区域分类损失和感兴趣区域回归损失:
进一步地,所述学生模型更新教师模型,是将学生模型的参数,通过指数移动平均EMA策略对教师模型的参数进行更新:
进一步地,所述步骤S1中,将背景类的预测分数与第一阈值比较,进行前景类和背景类的划分,得到前景集和背景集,按比例筛选前景框和背景框用于训练。
进一步地,所述步骤S2中,无监督分支中的感兴趣区域分类损失采用软交叉熵,由于采用了软标签,无监督损失中,感兴趣区域分类损失的计算过程将会发生变化,从传统的独热型的交叉熵变为软交叉熵:
进一步地,所述步骤S2中,将N+1维的预测分数中,超过第二阈值的值提升为1,作为训练时的软标签,从而使高置信度的候选框发挥更大的作用,N表示数据集中前景类的数量;由于物体检测任务存在着天然的类别不均衡问题,导致模型对不同类别的图像存在着不同的置信度水平。所以,一个单一的阈值对于上述过程是不可靠的。模型对不同类别的图像有着不同置信度水平的原因,在于不同类别的训练图像数量不同。基于这一点,动态阈值化机制记录训练过程中不同类别的候选框的数量,并根据每个类别的训练图像数量,为每个类别维持一个独立的阈值,即第二阈值。
其中,是第二阈值的取值区间,向量表示记录的当前已学习
的N种类别的图像的数量,数量较多的类别将会被赋予一个较大的阈值,数量较少的类别将
会被赋予较小的阈值,根据当前已学习的不同类别的图像数量,为每个类别计算得到一个
阈值,根据每个类别的阈值,动态阈值化将预测分数高于其对应阈值的值提升为1,以此来
为训练使用的候选框生成软标签。
进一步地,在训练初期,不同类别样本数量的比例关系变化巨大,导致每个类别对
应的动态阈值不太稳定,为了解决这个问题,本发明为动态阈值化机制设置了一个预热机
制,即第二阈值取值区间的在训练初期会从开始,随着迭代次数的加深,逐渐增大
到预设的值,预设的阈值取值区间的长度为,预热机制的迭代次数为,则
在训练初期,即次迭代之内,在第次迭代时的取值通过如下方式计算:
添加了warm-up机制,每个类别所对应的动态阈值将不会在训练初期发生巨大变化。
一种基于二阶段物体检测器的半监督物体检测方法,包括:
基于所述的基于二阶段物体检测器的半监督物检测训练方法训练获得学生模型;
将待检测的物体图像输入训练好的所述学生模型,得到物体类别。
一种基于二阶段物体检测器的半监督物体检测装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现所述的基于二阶段物体检测器的半监督物体检测方法。
本发明的优势和有益效果在于:
本发明的基于二阶段物体检测器的半监督物检测及训练方法、装置,通过构建合理选择机制,使得模型可以脱离伪标签的限制,从所有可能的前景物体中筛选前景训练图像,从根本上解决了传统的IoU匹配所导致的仅能选择简易物体用于训练的问题;通过构建动态阈值化机制,使得动态阈值缓解了类别不均衡问题的有害影响,使用软标签降低了低置信度样本的有害影响的同时,又充分发挥了高置信度样本的效果。配合合理选择机制,从根本上解决了IoU匹配的筛选错误和标签错误问题。
附图说明
图1a是传统方法中由于生成伪标签的阈值较高导致图中的前景错分为背景示意图。
图1b是传统方法中由于生成伪标签的阈值较低导致图中的物体赋予错误标签示意图。
图2是本发明实施例的方法中教师-学生框架下监督分支的架构示意图。
图3是本发明实施例的方法中教师-学生框架下无监督分支的架构示意图。
图4是本发明实施例的方法中教师-学生框架下基于合理选择和动态阈值化机制的架构图。
图5是本发明实施例的方法流程图。
图6是本发明实施例的方法中动态阈值化机制的操作过程示意图。
图7是本发明实施例的装置结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明通过深度剖析物体检测器的架构,发现了IoU匹配策略在处理无标注数据时所存在的巨大问题,基于此,为了解决IoU匹配中的筛选问题,本发明提出了ReasonableSelecting机制,为了解决IoU匹配中的错误标注问题,本发明又提出了DynamicThresholding机制。这两项机制合起来,可以替换掉传统的IoU匹配。
如图2至图4所示,一种基于二阶段物体检测器的半监督物体检测训练方法,根据物体检测器建立教师-学生框架,物体检测器包括区域生成RPN模块和感兴趣ROI模块,根据物体检测器复制独立的两份,一份作为教师模型,一份作为学生模型。
通过有标签图像和无标签图像,构建监督和无监督分支,其中监督分支将有标签图像用于学生模型的参数更新;无监督分支对无标签图像进行强、弱增强处理,教师模型通过弱增强图像得到的类别标签,结合强增强图像来训练学生模型,再根据学生模型的参数更新教师模型。
学生模型更新教师模型,是将学生模型的参数,通过指数移动平均EMA策略对教师模型的参数进行更新。
训练过程中的整体损失,包括监督损失和无监督损失,监督损失是基于有标签图像及其对应的标签,计算区域生成网络分类损失、区域生成网络回归损失、感兴趣区域分类损失和感兴趣区域回归损失,无监督损失是基于无标签图像及教师模型通过弱增强图像得到的标签,计算区域生成网络分类损失、区域生成网络回归损失、感兴趣区域分类损失和感兴趣区域回归损失。
具体地,基于传统的Teacher-Student架构。首先,Student模型的RPN生成的候选框会被同时送入Teacher和Student的ROI head模块。Teacher模型根据弱增强图像的特征,为所有的候选框中的内容生成一个预测分数,该预测分数表达了该候选框属于每种类别的概率。针对IoU匹配在处理无标签数据的候选框时存在的筛选和标注问题,本发明分别提出了Reasonable Selecting 和 Dynamic Thresholding机制,Reasonable Selecting机制将会完成候选框的筛选工作,其中,所有可能的前景都会被选出来参与训练;DynamicThresholding则会根据候选框的预测结果,为每个候选框生成可靠的软标签,用于训练。
Teacher-Student结构
在Teacher-Student机制下,模型会被复制为独立的2份,一份作为Teacher模型,
另一份作为Student模型。每次迭代,整个架构都会从标签数据集和无标签数据集中
随机筛选一组数据。其中,如图2所示,在每次迭代过程中,有标签图像直接用于训练
Student模型。即标签图像将会直接用于Student模型的参数更新。无标签图像会被分别进
行强弱数据增强。如图3所示,Teacher模型读入弱增强图像,生成伪标签,然后再结合强增
强图像来训练Student模型。设Teacher模型的参数为,Student模型的参数为,那么每
次迭代,上述训练过程将会直接用于更新,然后,将根据EMA策略被更新:
上述训练过程所使用的损失函数由两部分构成,分别是标签样本所对应的以
及无标签样本所对应的。对于标签样本,其损失函数由RPN分类loss,RPN回归
loss,ROI分类loss,ROI回归loss构成,即:
对于无标签样本,Teacher模型首先检测弱增强图像,得到该图像中所有的前景物
体的位置和类别,然后根据类别预测结果的TOP-1分值来作为置信度,以阈值来生成伪标
签,用于计算无标签样本上的损失函数,即:
最终,整体的loss被定义为监督loss和无监督loss的加权和:
如图4、图5所示,由于IoU匹配问题的存在,导致了无监督loss中,的
计算会出现很大的误差。本发明对于ROI head中的分类损失classification loss,提出
Reasonable Selecting机制和Dynamic Thresholding机制,用于替换传统的IoU匹配机制,
以避免IoU匹配所导致的筛选和标注错误。实际替换了ROI head在计算无监督loss 时所采用的IoU匹配过程。具体训练过程包括如下步骤:
步骤S1:构建合理选择机制,将学生模型生成的候选框送入教师模型,教师模型根据候选框及弱增强图像,得到候选框对应类别的预测分数,以背景类的预测分数作为依据,进行前景框和/或背景框的筛选。将背景类的预测分数与第一阈值比较,进行前景类和背景类的划分,得到前景集和背景集,按比例筛选前景框和背景框用于训练。
Reasonable Selecting机制
基于伪标签,传统的IoU匹配将会使得大量的前景候选框被错分为背景,从而使其难以参与到训练过程中,最终导致模型只能识别较为简单的物体。为了解决这个问题,本发明提出了Reasonable Selecting机制。
Reasonable Selecting机制将Student模型的RPN生成的候选框同时送入Teacher
模型和Student模型。Teacher模型将会根据弱增强图像以及这些候选框,输出每个候选框
内内容的预测分数,该预测分数表达了候选框属于每个类别(包括背景类)的概率。在所有
的候选框中,取其在背景类上的预测分数background score来作为筛选依据,假如
background score小于某个特定的阈值,那么该候选框将会被当作前景。根据阈值将所
有的候选框分为前景集和背景集,然后再按照一定的比例,从中筛选前景框和背景框用于
训练。这样的筛选方式使得模型可以脱离伪标签的限制,从所有可能的前景物体中筛选前
景训练样本,从根本上解决了传统的IoU匹配所导致的仅能选择简易物体用于训练的问题。
步骤S2:构建动态阈值化机制,基于教师模型为候选框生成的预测分数,生成类别的软标签,用于学生模型的训练。
Dynamic Thresholding机制
Reasonable Selecting机制从候选框中筛选得到了合适的前景和背景用于训练,接下来,Dynamic Thresholding机制将会为这些训练框生成软标签。
Dynamic Thresholding机制基于Teacher模型为每个候选框生成的预测分数来生成软标签。软标签的形式将会比one-hot类型的硬标签更加可靠,这是因为Teacher所生成的预测分数当中,会有大量置信度(置信度指预测分数中的最大值)较低的结果,为置信度较低的框生成one-hot类型的硬标签,将会导致巨大的误差,而软标签的形式避免了这样的问题。由于采用了软标签,无监督loss中,ROI的分类loss的计算过程将会发生变化,从传统的one-hot型的交叉熵变为Soft交叉熵;
即无监督分支中的感兴趣区域分类损失采用软交叉熵,如下所示:
其中,表示无标签图像中,用于训练的候选框的数量,表示学生Student模
型在第j个候选框上的预测结果,表示动态阈值化Dynamic Thresholding机制为该候
选框生成的软标签,和均为N+1维向量,N表示数据集中前景类的数量。
Dynamic Thresholding并不是单纯地将Teacher模型生成的预测分数直接作为软标签,而是将(N+1)维的预测分数中,超过第二阈值(某个特定阈值)的值提升为1,作为训练时的软标签,从而使高置信度的候选框发挥更大的作用。由于物体检测任务存在着天然的类别不均衡问题,导致模型对不同类别的样本存在着不同的置信度水平。所以,一个单一的阈值对于上述过程是不可靠的。模型对不同类别的样本有着不同置信度水平的原因,在于不同类别的训练样本数量不同。基于这一点,Dynamic Thresholding机制记录训练过程中不同类别的候选框的数量,并根据每个类别的训练图像数量,为每个类别维持一个独立的阈值,即第二阈值。
其中,是第二阈值的取值区间,向量表示记录当前已学习
的N种类别的样本的数量。根据上式,数量较多的类别将会被赋予一个较大的阈值,数量较
少的类别将会被赋予较小的阈值。根据当前已学习的不同类别的样本数量,为每个类别计
算得到一个阈值。根据每个类别的阈值,Dynamic Thresholding将预测分数高于其对应阈
值的值提升为1,以此来为训练使用的候选框生成软标签,如图6所示。
上述Dynamic Thresholding过程存在一个缺陷,在训练初期,不同类别样本数量
的比例关系变化巨大,导致每个类别对应的动态阈值不太稳定。为了解决这个问题,本发明
为动态阈值化Dynamic Thresholding机制设置一个预热warm-up机制,即第二阈值取值区
间的在训练初期会从开始,随着迭代次数的加深,逐渐增大到预设的值,预设的阈
值取值区间的长度为,预热warm-up机制的迭代次数为,则在训练初期,
即次迭代之内,在第次迭代时的取值通过如下方式计算:
添加了warm-up机制,每个类别所对应的动态阈值将不会在训练初期发生巨大变化。
上述Dynamic Thresholding机制通过动态阈值缓解了类别不均衡问题的有害影响,使用软标签降低了低置信度样本的有害影响的同时,又充分发挥了高置信度样本的效果。配合Reasonable Selecting机制,从根本上解决了IoU匹配的筛选错误和标签错误问题。
与前述基于二阶段物体检测器的半监督物体检测方法的实施例相对应,本发明还提供了基于二阶段物体检测器的半监督物体检测装置的实施例。
参见图7,本发明实施例提供的基于二阶段物体检测器的半监督物体检测装置,包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的基于二阶段物体检测器的半监督物体检测方法。
本发明基于二阶段物体检测器的半监督物体检测装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本发明基于二阶段物体检测器的半监督物体检测装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于二阶段物体检测器的半监督物体检测方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (10)
1.一种基于二阶段物体检测器的半监督物体检测训练方法,根据物体检测器建立教师-学生框架,通过有标签图像和无标签图像,构建监督和无监督分支,其中监督分支将有标签图像用于学生模型的参数更新;无监督分支对无标签图像进行强、弱增强处理,教师模型通过弱增强图像得到的类别标签,结合强增强图像来训练学生模型,再根据学生模型的参数更新教师模型,其特征在于包括如下步骤:
步骤S1:构建合理选择机制,将学生模型生成的候选框送入教师模型,教师模型根据候选框及弱增强图像,得到候选框对应类别的预测分数,以背景类的预测分数作为依据,进行前景框和/或背景框的筛选;
步骤S2:构建动态阈值化机制,基于教师模型为候选框生成的预测分数,生成类别的软标签,用于学生模型的训练。
2.根据权利要求1所述的基于二阶段物体检测器的半监督物体检测训练方法,其特征在于:所述物体检测器包括区域生成RPN模块和感兴趣ROI模块,根据物体检测器复制独立的两份,一份作为教师模型,一份作为学生模型;
训练过程中的整体损失,包括监督损失和无监督损失,监督损失是基于有标签图像及其对应的标签,计算区域生成网络分类损失、区域生成网络回归损失、感兴趣区域分类损失和感兴趣区域回归损失,无监督损失是基于无标签图像及教师模型通过弱增强图像得到的标签,计算区域生成网络分类损失、区域生成网络回归损失、感兴趣区域分类损失和感兴趣区域回归损失。
3.根据权利要求1所述的基于二阶段物体检测器的半监督物体检测训练方法,其特征在于:所述学生模型更新教师模型,是将学生模型的参数,通过指数移动平均EMA策略对教师模型的参数进行更新。
4.根据权利要求1所述的基于二阶段物体检测器的半监督物体检测训练方法,其特征在于:所述步骤S1中,将背景类的预测分数与第一阈值比较,进行前景类和背景类的划分,得到前景集和背景集,按比例筛选前景框和背景框用于训练。
6.根据权利要求1所述的基于二阶段物体检测器的半监督物体检测训练方法,其特征在于:所述步骤S2中,将N+1维的预测分数中,超过第二阈值的值提升为1,作为训练时的软标签,N表示数据集中前景类的数量;记录训练过程中不同类别的候选框的数量,并根据每个类别的训练图像数量,为每个类别维持一个独立的阈值,即第二阈值。
9.一种基于二阶段物体检测器的半监督物体检测方法,其特征在于,所述方法包括:
基于权利要求1至8任一项所述的基于二阶段物体检测器的半监督物检测训练方法训练获得学生模型;
将待检测的物体图像输入训练好的所述学生模型,得到物体类别。
10.一种基于二阶段物体检测器的半监督物体检测装置,其特征在于:包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求9中所述的基于二阶段物体检测器的半监督物体检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210812617.8A CN114882325B (zh) | 2022-07-12 | 2022-07-12 | 基于二阶段物体检测器的半监督物检测及训练方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210812617.8A CN114882325B (zh) | 2022-07-12 | 2022-07-12 | 基于二阶段物体检测器的半监督物检测及训练方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114882325A true CN114882325A (zh) | 2022-08-09 |
CN114882325B CN114882325B (zh) | 2022-12-02 |
Family
ID=82682657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210812617.8A Active CN114882325B (zh) | 2022-07-12 | 2022-07-12 | 基于二阶段物体检测器的半监督物检测及训练方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882325B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824251A (zh) * | 2023-06-27 | 2023-09-29 | 博衍科技(珠海)有限公司 | 一种物体检测模型的训练方法、物体检测方法及装置 |
CN117746267A (zh) * | 2023-12-14 | 2024-03-22 | 广西环保产业投资集团有限公司 | 一种基于半监督主动学习的树冠提取方法、装置及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256646A (zh) * | 2021-04-13 | 2021-08-13 | 浙江工业大学 | 一种基于半监督学习的脑血管图像分割方法 |
WO2022001489A1 (zh) * | 2020-06-28 | 2022-01-06 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
WO2022041307A1 (zh) * | 2020-08-31 | 2022-03-03 | 温州医科大学 | 一种构建半监督图像分割框架的方法及系统 |
CN114332135A (zh) * | 2022-03-10 | 2022-04-12 | 之江实验室 | 一种基于双模型交互学习的半监督医学图像分割方法及装置 |
CN114399683A (zh) * | 2022-01-18 | 2022-04-26 | 南京甄视智能科技有限公司 | 一种基于改进yolov5的端到端半监督目标检测方法 |
CN114581350A (zh) * | 2022-02-23 | 2022-06-03 | 清华大学 | 一种适用于单目3d目标检测任务的半监督学习方法 |
CN114648665A (zh) * | 2022-03-25 | 2022-06-21 | 西安电子科技大学 | 一种弱监督目标检测方法及系统 |
-
2022
- 2022-07-12 CN CN202210812617.8A patent/CN114882325B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022001489A1 (zh) * | 2020-06-28 | 2022-01-06 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
WO2022041307A1 (zh) * | 2020-08-31 | 2022-03-03 | 温州医科大学 | 一种构建半监督图像分割框架的方法及系统 |
CN113256646A (zh) * | 2021-04-13 | 2021-08-13 | 浙江工业大学 | 一种基于半监督学习的脑血管图像分割方法 |
CN114399683A (zh) * | 2022-01-18 | 2022-04-26 | 南京甄视智能科技有限公司 | 一种基于改进yolov5的端到端半监督目标检测方法 |
CN114581350A (zh) * | 2022-02-23 | 2022-06-03 | 清华大学 | 一种适用于单目3d目标检测任务的半监督学习方法 |
CN114332135A (zh) * | 2022-03-10 | 2022-04-12 | 之江实验室 | 一种基于双模型交互学习的半监督医学图像分割方法及装置 |
CN114648665A (zh) * | 2022-03-25 | 2022-06-21 | 西安电子科技大学 | 一种弱监督目标检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
MENGDE XU ET AL: "End-to-End Semi-Supervised Object Detection with Soft Teacher", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
王金甲等: "基于平均教师模型的弱标记半监督声音事件检测", 《复旦学报(自然科学版)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824251A (zh) * | 2023-06-27 | 2023-09-29 | 博衍科技(珠海)有限公司 | 一种物体检测模型的训练方法、物体检测方法及装置 |
CN116824251B (zh) * | 2023-06-27 | 2024-02-13 | 博衍科技(珠海)有限公司 | 一种物体检测模型的训练方法、物体检测方法及装置 |
CN117746267A (zh) * | 2023-12-14 | 2024-03-22 | 广西环保产业投资集团有限公司 | 一种基于半监督主动学习的树冠提取方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114882325B (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Attract, perturb, and explore: Learning a feature alignment network for semi-supervised domain adaptation | |
Li et al. | Contour knowledge transfer for salient object detection | |
Oh et al. | Fast video object segmentation by reference-guided mask propagation | |
Yuliang et al. | Detecting curve text in the wild: New dataset and new solution | |
CN114882325B (zh) | 基于二阶段物体检测器的半监督物检测及训练方法、装置 | |
CN112183456B (zh) | 基于样本生成和域适应的多场景运动目标检测方法及装置 | |
US20210326638A1 (en) | Video panoptic segmentation | |
Mondal et al. | Revisiting CycleGAN for semi-supervised segmentation | |
CN109902662A (zh) | 一种行人重识别方法、系统、装置和存储介质 | |
CN114998220A (zh) | 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法 | |
CN113762269A (zh) | 基于神经网络的中文字符ocr识别方法、系统、介质及应用 | |
Liu et al. | Anomaly-GAN: A data augmentation method for train surface anomaly detection | |
CN116092122A (zh) | 一种协作多特征聚类无监督行人再识别方法和系统 | |
CN115512169A (zh) | 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 | |
Zhu et al. | Object and background disentanglement for unsupervised cross-domain person re-identification | |
CN113177554B (zh) | 甲状腺结节识别与分割方法、系统、存储介质及设备 | |
CN114373106A (zh) | 基于上下文解耦和数据增强的弱监督语义分割方法及装置 | |
CN113743389A (zh) | 一种面部表情识别的方法、装置和电子设备 | |
CN117437423A (zh) | 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置 | |
CN111582057A (zh) | 一种基于局部感受野的人脸验证方法 | |
CN113344079B (zh) | 一种图像标签半自动标注方法、系统、终端及介质 | |
CN115457555A (zh) | 通用场景文字识别数据的自动生成方法及系统 | |
Memarmoghadam et al. | Size-aware visual object tracking via dynamic fusion of correlation filter-based part regressors | |
CN113553874A (zh) | 一种复杂环境下快递条码检测方法 | |
Yu et al. | Research on Text Recognition of Natural Scenes for Complex Situations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |