CN114882325A

CN114882325A - 基于二阶段物体检测器的半监督物检测及训练方法、装置

Info

Publication number: CN114882325A
Application number: CN202210812617.8A
Authority: CN
Inventors: 程乐超; 李冠彬; 王阔
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-08-09
Anticipated expiration: 2042-07-12
Also published as: CN114882325B

Abstract

本发明公开了基于二阶段物体检测器的半监督物检测及训练方法、装置，在半监督物体检测中，IoU匹配在训练阶段起到了筛选候选框和标注候选框的作用。由于伪标签无法囊括所有的前景物体，导致筛选候选框时，仅能选取到较为简单的前景物体。被错误分类为背景的前景物体，难以参与到训练中。此外，由于伪标签也存在着错误，导致IoU匹配对候选框进行错误标注，而错误的伪标签，将导致所有与其重合度较高的候选框产生标注错误问题。本发明通过构建合理选择机制和动态阈值化机制，分别解决了IoU匹配中的筛选和错误标注问题。本发明实现方法简便，手段灵活，在匹配方面具有优势，因此提升了半监督物体检测的效果。

Description

基于二阶段物体检测器的半监督物检测及训练方法、装置

技术领域

本发明涉及图像识别技术领域，尤其是涉及基于二阶段物体检测器的半监督物检测及训练方法、装置。

背景技术

得益于大规模标注数据集的出现，深度学习在各个领域都取得了出色的成果。然而，获取大规模的标注数据往往需要耗费大量的人力和财力，于是，半监督学习受到了越来越多的研究。半监督学习，指在有限的标注数据的基础上，利用无标注数据来提升模型的性能。在计算机视觉领域，半监督学习的研究主要集中于图像分类任务，这些半监督技术从图像分类到物体检测的迁移仍旧存在着很多悬而未决的问题。

当今的半监督物体检测方法主要遵循了基于一致性的伪标签策略。这项策略在半监督图像分类任务上取得了惊人的效果。基于一致性的伪标签策略，指对无标注图像分别进行强弱增强，先使用模型在弱增强图像上生成置信度较高的伪标签，然后再结合强增强图像和伪标签来训练模型。为了进一步地增强这个策略的效果，训练过程建立在教师-学生（Teacher-Student）框架之上。具体来讲，模型会被复制为相互独立的两个模型，一个作为教师Teacher模型，另一个作为学生Student模型。教师Teacher模型用于生成伪标签，学生Student模型则用于训练。训练导致的参数更新将会直接作用于学生Student模型，然后在每次迭代之后，学生Student模型将会通过EMA（Exponential Moving Average，指数移动平均）参数更新策略来将一小部分参数传递给教师Teacher模型。

上述方案在图像分类任务上取得了巨大的成果，然而，将其应用于物体检测任务上时，却没能取得耀眼的性能提升。其他的方法将效果不够好的原因归结于伪标签的质量不够高，毕竟物体检测任务的标注比图像分类任务要复杂很多。于是，很多提升伪标签质量的方案被设计出来，但是其效果始终不尽人意。这是因为，现存的半监督物体检测方法都没能注意到至关严重的IoU（Intersection overUnion，交并比）匹配问题。

如图1a、图1b所述，现有方法都没能注意到至关重要的IoU匹配问题。以二阶段物体检测器为例，IoU匹配是训练过程中不可或缺的操作。具体而言，在二阶段物体检测器的训练过程中，RPN（Region Proposal Network，区域生成网络）首先生成包括所有可能前景的候选框，这些候选框被送入ROI Head（感兴趣的区域头部）部分用于训练。ROI Head拿到所有的候选框之后，会将这些候选框与图像的标注进行IoU匹配。IoU分值较高，说明该候选框与标注框的重叠程度较高，于是，该候选框将会被赋予和对应的标注框一致的标签。如果候选框与所有的标注框的IoU分值都不够高，那么该候选框会被当作背景来处理。标注完所有的候选框之后，模型会按比例从中筛选前景框和背景框用于训练。上述IoU匹配过程有一项前提，那就是标注框要100%正确，否则，IoU匹配将会导致错误标注问题。很明显，在无标注图像上，其伪标签必然无法做到高度准确，基于伪标签，IoU匹配始终会对候选框产生大量的错误标注，图1a中，实线框是伪标签，虚线框是训练时的候选框，生成伪标签时所用的阈值较高，导致伪标签召回率降低，使得IoU匹配把图中的前景错分为背景，图1b中，生成伪标签时所使用的阈值较低，导致伪标签的准确率低，使得IoU匹配给图中的物体赋予错误的标签。现有的方法均未能注意到IoU匹配在无标注数据上存在的巨大隐患，使得这些方法始终无法取得突破性的提升。

综上所述，IoU匹配在训练过程中，起到了筛选候选框和标注候选框的作用。由于伪标签无法囊括所有的前景物体，这会导致IoU匹配在筛选候选框时，仅能选取到较为简单的前景物体。那些被错误分类为背景的前景物体，将会很难参与到训练过程之中。此外，由于伪标签也存在着错误，这会导致IoU匹配会对候选框进行错误标注，更为严重的是，一个错误的伪标签，将会导致所有与其重合度较高的候选框产生标注错误问题。

发明内容

为解决现有技术的不足，本发明提出本发明提出了合理选择ReasonableSelecting机制和动态阈值化Dynamic Thresholding机制，替换传统的IoU匹配，从而避免IoU匹配所导致的图像筛选和标注错误，提高物体检测的准确度，本发明采用如下的技术方案：

一种基于二阶段物体检测器的半监督物体检测训练方法，根据物体检测器建立教师-学生框架，通过有标签图像和无标签图像，构建监督和无监督分支，其中监督分支将有标签图像用于学生模型的参数更新；无监督分支对无标签图像进行强、弱增强处理，教师模型通过弱增强图像得到的类别标签，结合强增强图像来训练学生模型，再根据学生模型的参数更新教师模型，包括如下步骤：

步骤S1：构建合理选择机制，将学生模型生成的候选框送入教师模型，教师模型根据候选框及弱增强图像，得到候选框对应类别的预测分数，以背景类的预测分数作为依据，进行前景框和/或背景框的筛选，使得模型可以脱离伪标签的限制，从所有可能的前景物体中筛选前景训练图像，从根本上解决了传统的IoU匹配所导致的仅能选择简易物体用于训练的问题；

步骤S2：构建动态阈值化机制，基于教师模型为候选框生成的预测分数，生成类别的软标签，用于学生模型的训练，软标签的形式将会比one-hot类型的硬标签更加可靠，这是因为Teacher所生成的预测分数当中，会有大量置信度（置信度指预测分数中的最大值）较低的结果，为置信度较低的框生成one-hot类型的硬标签，将会导致巨大的误差，而软标签的形式避免了这样的问题。

进一步地，所述物体检测器包括区域生成RPN模块和感兴趣ROI模块，根据物体检测器复制独立的两份，一份作为教师模型，一份作为学生模型；

训练过程中的整体损失，包括监督损失和无监督损失，监督损失是基于有标签图像及其对应的标签，计算区域生成网络分类损失、区域生成网络回归损失、感兴趣区域分类损失和感兴趣区域回归损失，无监督损失是基于无标签图像及教师模型通过弱增强图像得到的标签，计算区域生成网络分类损失、区域生成网络回归损失、感兴趣区域分类损失和感兴趣区域回归损失：

表示监督损失，

表示有标签图像，

表示有标签图像对应的标签，

表示RPN分类损失函数，

表示RPN回归损失函数，

表示ROI分类损失函数，

表示ROI 回归损失函数；

表示无监督损失，

表示无标签图像，

表示教师模型通过弱增强图像得到的标签；

表示整体损失被，为监督损失和无监督损失的加权和，

表示平衡系数。

进一步地，所述学生模型更新教师模型，是将学生模型的参数，通过指数移动平均EMA策略对教师模型的参数进行更新：

其中，

表示学生模型参数，

表示教师模型参数，

表示比例系数。

进一步地，所述步骤S1中，将背景类的预测分数与第一阈值比较，进行前景类和背景类的划分，得到前景集和背景集，按比例筛选前景框和背景框用于训练。

进一步地，所述步骤S2中，无监督分支中的感兴趣区域分类损失采用软交叉熵，由于采用了软标签，无监督损失中，感兴趣区域分类损失的计算过程将会发生变化，从传统的独热型的交叉熵变为软交叉熵：

其中，

表示无标签图像

中，用于训练的候选框的数量，

表示学生模型在第j 个候选框上的预测结果，

表示动态阈值化机制为该候选框生成的软标签，

和

均为 N+1维向量，N表示数据集中前景类的数量。

进一步地，所述步骤S2中，将N+1维的预测分数中，超过第二阈值的值提升为1，作为训练时的软标签，从而使高置信度的候选框发挥更大的作用，N表示数据集中前景类的数量；由于物体检测任务存在着天然的类别不均衡问题，导致模型对不同类别的图像存在着不同的置信度水平。所以，一个单一的阈值对于上述过程是不可靠的。模型对不同类别的图像有着不同置信度水平的原因，在于不同类别的训练图像数量不同。基于这一点，动态阈值化机制记录训练过程中不同类别的候选框的数量，并根据每个类别的训练图像数量，为每个类别维持一个独立的阈值，即第二阈值。

进一步地，所述第二阈值

的计算方式如下所示：

其中，

是第二阈值的取值区间，向量

表示记录的当前已学习的N种类别的图像的数量，数量较多的类别将会被赋予一个较大的阈值，数量较少的类别将会被赋予较小的阈值，根据当前已学习的不同类别的图像数量，为每个类别计算得到一个阈值，根据每个类别的阈值，动态阈值化将预测分数高于其对应阈值的值提升为1，以此来为训练使用的候选框生成软标签。

进一步地，在训练初期，不同类别样本数量的比例关系变化巨大，导致每个类别对应的动态阈值不太稳定，为了解决这个问题，本发明为动态阈值化机制设置了一个预热机制，即第二阈值取值区间的

在训练初期会从

开始，随着迭代次数的加深，逐渐增大到预设的值，预设的阈值取值区间的长度为

，预热机制的迭代次数为

，则在训练初期，即

次迭代之内，

在第

次迭代时的取值

通过如下方式计算：

添加了warm-up机制，每个类别所对应的动态阈值将不会在训练初期发生巨大变化。

一种基于二阶段物体检测器的半监督物体检测方法，包括：

基于所述的基于二阶段物体检测器的半监督物检测训练方法训练获得学生模型；

将待检测的物体图像输入训练好的所述学生模型，得到物体类别。

一种基于二阶段物体检测器的半监督物体检测装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现所述的基于二阶段物体检测器的半监督物体检测方法。

本发明的优势和有益效果在于：

本发明的基于二阶段物体检测器的半监督物检测及训练方法、装置，通过构建合理选择机制，使得模型可以脱离伪标签的限制，从所有可能的前景物体中筛选前景训练图像，从根本上解决了传统的IoU匹配所导致的仅能选择简易物体用于训练的问题；通过构建动态阈值化机制，使得动态阈值缓解了类别不均衡问题的有害影响，使用软标签降低了低置信度样本的有害影响的同时，又充分发挥了高置信度样本的效果。配合合理选择机制，从根本上解决了IoU匹配的筛选错误和标签错误问题。

附图说明

图1a是传统方法中由于生成伪标签的阈值较高导致图中的前景错分为背景示意图。

图1b是传统方法中由于生成伪标签的阈值较低导致图中的物体赋予错误标签示意图。

图2是本发明实施例的方法中教师-学生框架下监督分支的架构示意图。

图3是本发明实施例的方法中教师-学生框架下无监督分支的架构示意图。

图4是本发明实施例的方法中教师-学生框架下基于合理选择和动态阈值化机制的架构图。

图5是本发明实施例的方法流程图。

图6是本发明实施例的方法中动态阈值化机制的操作过程示意图。

图7是本发明实施例的装置结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明通过深度剖析物体检测器的架构，发现了IoU匹配策略在处理无标注数据时所存在的巨大问题，基于此，为了解决IoU匹配中的筛选问题，本发明提出了ReasonableSelecting机制，为了解决IoU匹配中的错误标注问题，本发明又提出了DynamicThresholding机制。这两项机制合起来，可以替换掉传统的IoU匹配。

如图2至图4所示，一种基于二阶段物体检测器的半监督物体检测训练方法，根据物体检测器建立教师-学生框架，物体检测器包括区域生成RPN模块和感兴趣ROI模块，根据物体检测器复制独立的两份，一份作为教师模型，一份作为学生模型。

通过有标签图像和无标签图像，构建监督和无监督分支，其中监督分支将有标签图像用于学生模型的参数更新；无监督分支对无标签图像进行强、弱增强处理，教师模型通过弱增强图像得到的类别标签，结合强增强图像来训练学生模型，再根据学生模型的参数更新教师模型。

学生模型更新教师模型，是将学生模型的参数，通过指数移动平均EMA策略对教师模型的参数进行更新。

训练过程中的整体损失，包括监督损失和无监督损失，监督损失是基于有标签图像及其对应的标签，计算区域生成网络分类损失、区域生成网络回归损失、感兴趣区域分类损失和感兴趣区域回归损失，无监督损失是基于无标签图像及教师模型通过弱增强图像得到的标签，计算区域生成网络分类损失、区域生成网络回归损失、感兴趣区域分类损失和感兴趣区域回归损失。

具体地，基于传统的Teacher-Student架构。首先，Student模型的RPN生成的候选框会被同时送入Teacher和Student的ROI head模块。Teacher模型根据弱增强图像的特征，为所有的候选框中的内容生成一个预测分数，该预测分数表达了该候选框属于每种类别的概率。针对IoU匹配在处理无标签数据的候选框时存在的筛选和标注问题，本发明分别提出了Reasonable Selecting 和 Dynamic Thresholding机制，Reasonable Selecting机制将会完成候选框的筛选工作，其中，所有可能的前景都会被选出来参与训练；DynamicThresholding则会根据候选框的预测结果，为每个候选框生成可靠的软标签，用于训练。

在训练过程中，每次迭代将会有一组标签数据

和一组无标签数据

被用于训练。其中，

是标签数据的数量，

是无标签数据的数量。

是图像，

是图像对应的标签，包括图像中所有检测框的位置和类别信息。

Teacher-Student结构

在Teacher-Student机制下，模型会被复制为独立的2份，一份作为Teacher模型，另一份作为Student模型。每次迭代，整个架构都会从标签数据集

和无标签数据集

中随机筛选一组数据。其中，如图2所示，在每次迭代过程中，有标签图像直接用于训练 Student模型。即标签图像将会直接用于Student模型的参数更新。无标签图像会被分别进行强弱数据增强。如图3所示，Teacher模型读入弱增强图像，生成伪标签，然后再结合强增强图像来训练Student模型。设Teacher模型的参数为

，Student模型的参数为

，那么每次迭代，上述训练过程将会直接用于更新

，然后，

将根据EMA策略被

更新：

其中，

表示学生模型参数，

表示教师模型参数，

表示比例系数。

上述训练过程所使用的损失函数由两部分构成，分别是标签样本所对应的

以及无标签样本所对应的

。对于标签样本，其损失函数

由RPN分类loss，RPN回归 loss，ROI分类loss，ROI回归loss构成，即：

表示RPN分类损失函数，

表示RPN回归损失函数，

表示ROI分类损失函数，

表示ROI回归损失函数。

对于无标签样本，Teacher模型首先检测弱增强图像，得到该图像中所有的前景物体的位置和类别，然后根据类别预测结果的TOP-1分值来作为置信度，以阈值

来生成伪标签

，用于计算无标签样本上的损失函数

，即：

最终，整体的loss被定义为监督loss和无监督loss的加权和：

在实际操作过程中，

建议取0.7，需要根据标签样本和无标签样本的数量比例进行设置，如果无标签样本数量较多，建议取

，若数据量大概为1：1，建议取

。

建议取0.999。

如图4、图5所示，由于IoU匹配问题的存在，导致了无监督loss中，

的计算会出现很大的误差。本发明对于ROI head中的分类损失classification loss，提出 Reasonable Selecting机制和Dynamic Thresholding机制，用于替换传统的IoU匹配机制，以避免IoU匹配所导致的筛选和标注错误。实际替换了ROI head在计算无监督loss

时所采用的IoU匹配过程。具体训练过程包括如下步骤：

步骤S1：构建合理选择机制，将学生模型生成的候选框送入教师模型，教师模型根据候选框及弱增强图像，得到候选框对应类别的预测分数，以背景类的预测分数作为依据，进行前景框和/或背景框的筛选。将背景类的预测分数与第一阈值比较，进行前景类和背景类的划分，得到前景集和背景集，按比例筛选前景框和背景框用于训练。

Reasonable Selecting机制

基于伪标签，传统的IoU匹配将会使得大量的前景候选框被错分为背景，从而使其难以参与到训练过程中，最终导致模型只能识别较为简单的物体。为了解决这个问题，本发明提出了Reasonable Selecting机制。

Reasonable Selecting机制将Student模型的RPN生成的候选框同时送入Teacher 模型和Student模型。Teacher模型将会根据弱增强图像以及这些候选框，输出每个候选框内内容的预测分数，该预测分数表达了候选框属于每个类别（包括背景类）的概率。在所有的候选框中，取其在背景类上的预测分数background score来作为筛选依据，假如 background score小于某个特定的阈值

，那么该候选框将会被当作前景。根据阈值

将所有的候选框分为前景集和背景集，然后再按照一定的比例，从中筛选前景框和背景框用于训练。这样的筛选方式使得模型可以脱离伪标签的限制，从所有可能的前景物体中筛选前景训练样本，从根本上解决了传统的IoU匹配所导致的仅能选择简易物体用于训练的问题。

Reasonable Selecting过程中，候选框的数量，选择过程的目标数量，前景和背景的比例，和二阶段物体检测器的缺省设置保持一致即可。用于区分前景和背景的阈值

建议取0.8。

步骤S2：构建动态阈值化机制，基于教师模型为候选框生成的预测分数，生成类别的软标签，用于学生模型的训练。

Dynamic Thresholding机制

Reasonable Selecting机制从候选框中筛选得到了合适的前景和背景用于训练，接下来，Dynamic Thresholding机制将会为这些训练框生成软标签。

Dynamic Thresholding机制基于Teacher模型为每个候选框生成的预测分数来生成软标签。软标签的形式将会比one-hot类型的硬标签更加可靠，这是因为Teacher所生成的预测分数当中，会有大量置信度（置信度指预测分数中的最大值）较低的结果，为置信度较低的框生成one-hot类型的硬标签，将会导致巨大的误差，而软标签的形式避免了这样的问题。由于采用了软标签，无监督loss中，ROI的分类loss的计算过程将会发生变化，从传统的one-hot型的交叉熵变为Soft交叉熵；

即无监督分支中的感兴趣区域分类损失采用软交叉熵，如下所示：

其中，

表示无标签图像

中，用于训练的候选框的数量，

表示学生Student模型在第j个候选框上的预测结果，

表示动态阈值化Dynamic Thresholding机制为该候选框生成的软标签，

和

均为N+1维向量，N表示数据集中前景类的数量。

Dynamic Thresholding并不是单纯地将Teacher模型生成的预测分数直接作为软标签，而是将（N+1）维的预测分数中，超过第二阈值（某个特定阈值）的值提升为1，作为训练时的软标签，从而使高置信度的候选框发挥更大的作用。由于物体检测任务存在着天然的类别不均衡问题，导致模型对不同类别的样本存在着不同的置信度水平。所以，一个单一的阈值对于上述过程是不可靠的。模型对不同类别的样本有着不同置信度水平的原因，在于不同类别的训练样本数量不同。基于这一点，Dynamic Thresholding机制记录训练过程中不同类别的候选框的数量，并根据每个类别的训练图像数量，为每个类别维持一个独立的阈值，即第二阈值。

Dynamic Thresholding为每个类别维持的第二阈值

的计算方式如下所示：

其中，

是第二阈值

的取值区间，向量

表示记录当前已学习的N种类别的样本的数量。根据上式，数量较多的类别将会被赋予一个较大的阈值，数量较少的类别将会被赋予较小的阈值。根据当前已学习的不同类别的样本数量，为每个类别计算得到一个阈值。根据每个类别的阈值，Dynamic Thresholding将预测分数高于其对应阈值的值提升为1，以此来为训练使用的候选框生成软标签，如图6所示。

上述Dynamic Thresholding过程存在一个缺陷，在训练初期，不同类别样本数量的比例关系变化巨大，导致每个类别对应的动态阈值不太稳定。为了解决这个问题，本发明为动态阈值化Dynamic Thresholding机制设置一个预热warm-up机制，即第二阈值取值区间的

在训练初期会从

，预热warm-up机制的迭代次数为

，则在训练初期，即

次迭代之内，

在第

次迭代时的取值

通过如下方式计算：

在实际应用当中，取值区间

建议取

，warm-up迭代次数

则需要根据训练过程中的批大小batch size以及数据集的总大小来决定。

上述Dynamic Thresholding机制通过动态阈值缓解了类别不均衡问题的有害影响，使用软标签降低了低置信度样本的有害影响的同时，又充分发挥了高置信度样本的效果。配合Reasonable Selecting机制，从根本上解决了IoU匹配的筛选错误和标签错误问题。

与前述基于二阶段物体检测器的半监督物体检测方法的实施例相对应，本发明还提供了基于二阶段物体检测器的半监督物体检测装置的实施例。

参见图7，本发明实施例提供的基于二阶段物体检测器的半监督物体检测装置，包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的基于二阶段物体检测器的半监督物体检测方法。

本发明基于二阶段物体检测器的半监督物体检测装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图7所示，为本发明基于二阶段物体检测器的半监督物体检测装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于二阶段物体检测器的半监督物体检测方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于二阶段物体检测器的半监督物体检测训练方法，根据物体检测器建立教师-学生框架，通过有标签图像和无标签图像，构建监督和无监督分支，其中监督分支将有标签图像用于学生模型的参数更新；无监督分支对无标签图像进行强、弱增强处理，教师模型通过弱增强图像得到的类别标签，结合强增强图像来训练学生模型，再根据学生模型的参数更新教师模型，其特征在于包括如下步骤：

步骤S1：构建合理选择机制，将学生模型生成的候选框送入教师模型，教师模型根据候选框及弱增强图像，得到候选框对应类别的预测分数，以背景类的预测分数作为依据，进行前景框和/或背景框的筛选；

2.根据权利要求1所述的基于二阶段物体检测器的半监督物体检测训练方法，其特征在于：所述物体检测器包括区域生成RPN模块和感兴趣ROI模块，根据物体检测器复制独立的两份，一份作为教师模型，一份作为学生模型；

3.根据权利要求1所述的基于二阶段物体检测器的半监督物体检测训练方法，其特征在于：所述学生模型更新教师模型，是将学生模型的参数，通过指数移动平均EMA策略对教师模型的参数进行更新。

4.根据权利要求1所述的基于二阶段物体检测器的半监督物体检测训练方法，其特征在于：所述步骤S1中，将背景类的预测分数与第一阈值比较，进行前景类和背景类的划分，得到前景集和背景集，按比例筛选前景框和背景框用于训练。

5.根据权利要求2所述的基于二阶段物体检测器的半监督物体检测训练方法，其特征在于：所述步骤S2中，无监督分支中的感兴趣区域分类损失采用软交叉熵：

其中，

表示无标签图像

中，用于训练的候选框的数量，

表示学生模型在第j个候选框上的预测结果，

表示动态阈值化机制为该候选框生成的软标签，

和

均为N+1 维向量，N表示数据集中前景类的数量。

6.根据权利要求1所述的基于二阶段物体检测器的半监督物体检测训练方法，其特征在于：所述步骤S2中，将N+1维的预测分数中，超过第二阈值的值提升为1，作为训练时的软标签，N表示数据集中前景类的数量；记录训练过程中不同类别的候选框的数量，并根据每个类别的训练图像数量，为每个类别维持一个独立的阈值，即第二阈值。

7.根据权利要求6所述的基于二阶段物体检测器的半监督物体检测训练方法，其特征在于：所述第二阈值

的计算方式如下所示：