CN116630745B

CN116630745B - 用于图像的端到端半监督目标检测方法、装置和可读介质

Info

Publication number: CN116630745B
Application number: CN202310599386.1A
Authority: CN
Inventors: 程睿; 石光明; 张伟; 李甫; 牛毅; 万志强
Original assignee: Xidian University; Innovation Academy for Microsatellites of CAS
Current assignee: Xidian University; Innovation Academy for Microsatellites of CAS
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2024-01-30
Anticipated expiration: 2043-05-25
Also published as: CN116630745A

Abstract

本发明提供了一种用于图像的端到端半监督目标检测方法、装置和计算机可读介质。该方法包括对无标签数据和有标签数据分别进行采样，获得第一无标签数据和第一有标签数据；对第一无标签数据进行弱数据增强处理；对第一无标签数据进行第一强数据增强处理；对第一有标签数据进行第二强数据增强处理，记录所用到的数据处理步骤；教师模型生成表征检测目标的第一预测框，学生模型生成表征检测目标的第二预测框；将第一目标预测框和第二目标预测框统一到同一个坐标系中；在坐标系中计算学生模型的加权损失函数；根据加权损失函数对学生模型进行参数更新；以及使用指数移动平均算法对学生模型的参数进行处理，并用处理后的参数更新教师模型的参数。

Description

用于图像的端到端半监督目标检测方法、装置和可读介质

技术领域

本发明主要涉及图像处理技术领域，尤其涉及一种用于图像的端到端半监督目标检测方法、装置和计算机可读介质。

背景技术

基于图像的目标检测技术已在各个应用领域中得到广泛应用。基于红外图像的目标检测技术广泛应用于军事领域的预警系统、空防系统、海防系统中，并逐渐向民用领域的医疗成像、交通管理、自动驾驶等领域发展。然而，由于红外图像具有低信噪比、纹理特征少、低分辨率等特点使得红外图像数据标注困难，同时由于缺少大规模公开数据集的支持，使得基于深度学习的目标检测网络在可见光场景下的高精度难以迁移到红外场景。

利用半监督学习技术，能够在有限的有标注红外数据下提升目标检测网络的精度。基于深度学习的目标检测方法大致可分为单阶段检测和两阶段检测。两阶段目标检测网络将检测任务拆分成先定位、后识别两个阶段，检测精度较高，但是检测速度较慢，中间需要人工干预。单阶段目标检测网络则只需要一个单一的网络就能同时完成定位和识别两件事。相比两阶段目标检测网络，单阶段目标检测网络因具有低延时特性更适合于红外场景下的实际部署应用。然而，目前大部分半监督目标检测方法针对两阶段网络设计，缺乏针对单阶段网络设计的半监督学习方法。

端到端学习指的是深度学习模型中，所有参数或原先几个步骤需要确定的参数被联合学习，而不是分步骤学习。单阶段目标检测网络具有端到端的特性，这样的网络具有训练速度、推理速度较快的优点。然而目前的单阶段目标检测网络存在但不限于以下问题：(1)在生成伪标签时使用硬置信度阈值进行过滤，使得伪标签生成质量不高以及错误累计，无法适应目标检测模型整个训练阶段的精度变化；(2)一些数据增广或增强技术对于复杂的红外场景图像缺乏鲁棒性。因此，需要设计一种适用于复杂的红外场景图像的、能适应整个训练阶段的精度变化的、检测速度快、精度高的目标检测方法。

发明内容

本发明要解决的技术问题是提供一种基于单阶段目标检测网络的针对图像的端到端半监督目标检测方法、装置和计算机可读介质。

为解决上述技术问题，本发明提供了一种用于图像的端到端半监督目标检测方法，包括：对无标签数据和有标签数据分别进行采样，获得第一无标签数据和第一有标签数据，所述有标签数据中包括用于标记所述图像中的检测目标的标签；对所述第一无标签数据进行弱数据增强处理，获得第二无标签数据；对所述第一无标签数据进行第一强数据增强处理，获得第三无标签数据；对所述第一有标签数据进行第二强数据增强处理，获得第二有标签数据，分别记录所述弱数据增强处理、所述第一强数据增强处理和所述第二强数据增强处理中所用到的数据处理步骤；构建教师模型和学生模型，所述教师模型接收所述第二无标签数据以进行模型训练，并生成表征检测目标的第一预测框，所述学生模型接收所述第三无标签数据以进行模型训练，并生成表征检测目标的第二预测框；在所述教师模型的训练过程中，对所述第一预测框进行自适应阈值过滤，包括：采用下面的公式计算自适应阈值τ：

τ＝μ+ασ；

其中，μ和σ分别代表当前训练轮次中的全部预测框的置信度的均值和标准差，α表示加权系数，α∈[0.1,1.0]；比较当前训练轮次中的全部第一预测框的置信度和所述自适应阈值，将置信度大于等于所述自适应阈值的第一预测框作为伪标签；根据所记录的所述数据处理步骤，将所述第一目标预测框和所述第二目标预测框统一到同一个坐标系中；在所述坐标系中，采用下面的公式计算所述学生模型的加权损失函数Loss：

Loss＝L_s+λL_u；

其中，L_s表示所述学生模型针对所述第一有标签数据的有监督损失函数，L_u表示所述学生模型基于所述伪标签所计算的针对所述第三无标签数据的无监督损失函数，λ表示加权系数，n表示当前训练轮数，N表示模型训练的总轮数，b为固定偏移值；根据所述加权损失函数对所述学生模型进行参数更新；以及使用指数移动平均算法对所述学生模型的参数进行处理，并用处理后的参数更新所述教师模型的参数。

在本申请的一实施例中，分别记录所述弱数据增强处理、所述第一强数据增强处理和所述第二强数据增强处理中所用到的数据处理步骤包括：分别记录所述弱数据增强处理、所述第一强数据增强处理和所述第二强数据增强处理中涉及图像几何变换的步骤顺序及其变换矩阵。

在本申请的一实施例中，计算自适应阈值τ的步骤还包括：采用指数移动平均算法对每次生成的阈值进行平滑，将经过平滑之后的自适应阈值更新为所述自适应阈值。

在本申请的一实施例中，在整体训练过程中，还包括：根据所述自适应阈值调整所述无标签数据和所述有标签数据的采样比例，其中，所述自适应阈值越大，所述无标签数据的占比越大。

在本申请的一实施例中，采用下面的公式计算所述无标签数据和所述有标签数据的采样比例P：

其中，K表示预设的加权系数，τ表示所述自适应阈值，表示向下取整。

在本申请的一实施例中，还包括：将所述整体模型训练过程分为预热阶段和半监督学习阶段，在所述预热阶段，仅对所述有标签数据进行采样，所述端到端半监督目标检测方法仅执行与所述有标签数据相关的步骤；在所述半监督学习阶段，对所述无标签数据和所述有标签数据分别进行采样，所述端到端半监督目标检测方法执行全部步骤；其中，在所述预热阶段中，当模型完成指定轮数的训练之后，进入所述半监督学习阶段。

在本申请的一实施例中，所述第一强数据增强处理和所述第二强数据增强处理分别包括剪切变换、缩放变换、旋转变换中的任意一个或多个的随机组合。

在本申请的一实施例中，所述第一强数据增强处理和所述第二强数据增强处理分别还包括混合处理、马赛克处理中的任意一个或多个的随机组合。

在本申请的一实施例中，所述弱数据增强处理包括图像亮度的随机抖动、对比度的随机抖动、图像色彩的随机抖动中的任意一个或多个的随机组合。

在本申请的一实施例中，所述图像是红外图像。

本申请为解决上述技术问题还提出一种用于图像的端到端半监督目标检测装置，包括：数据采样模块、数据处理记录模块、教师模型、学生模型、自适应阈值过滤模块和损失函数计算模块，其中，所述数据采样模块用于对无标签数据和有标签数据分别进行采样，获得第一无标签数据和第一有标签数据，所述有标签数据中包括用于标记所述图像中的检测目标的标签；所述数据处理记录模块用于对所述第一无标签数据进行弱数据增强处理，获得第二无标签数据；对所述第一无标签数据进行第一强数据增强处理，获得第三无标签数据；对所述第一有标签数据进行第二强数据增强处理，获得第二有标签数据，分别记录所述弱数据增强处理、所述第一强数据增强处理和所述第二强数据增强处理中所用到的数据处理步骤；所述教师模型用于接收所述第二无标签数据以进行模型训练，并生成表征检测目标的第一预测框；所述学生模型用于接收所述第三无标签数据以进行模型训练，并生成表征检测目标的第二预测框；所述自适应阈值过滤模块用于在所述教师模型的训练过程中，对所述第一预测框进行自适应阈值过滤，包括：采用下面的公式计算自适应阈值τ：

τ＝μ+ασ；

其中，μ和σ分别代表当前训练轮次中的全部预测框的置信度的均值和标准差，α表示加权系数，α∈[0.1,1.0]；以及比较当前训练轮次中的全部第一预测框的置信度和所述自适应阈值，将置信度大于等于所述自适应阈值的第一预测框作为伪标签；所述损失函数计算模块用于从所述数据处理记录模块获得所述数据处理步骤，根据所述数据处理步骤将所述第一目标预测框和所述第二目标预测框统一到同一个坐标系中；以及在所述坐标系中，采用下面的公式计算所述学生模型的加权损失函数Loss：

Loss＝L_s+λL_u；

其中，L_s表示所述学生模型对于所述第一有标签数据的有监督损失函数，L_u表示所述学生模型基于所述伪标签所计算的针对所述第三无标签数据的无监督损失函数，λ表示加权系数，n表示当前训练轮数，N表示模型训练的总轮数，b为固定偏移值。

在本申请的一实施例中，所述数据处理记录模块记录的数据处理步骤包括：所述弱数据增强处理、所述第一强数据增强处理和所述第二强数据增强处理中涉及图像几何变换的步骤顺序及其变换矩阵。

在本申请的一实施例中，所述自适应阈值过滤模块还被配置为：采用指数移动平均算法对每次生成的阈值进行平滑，将经过平滑之后的自适应阈值更新为所述自适应阈值。

在本申请的一实施例中，还包括平衡数据采样器，被配置为根据所述自适应阈值调整所述无标签数据和所述有标签数据的采样比例，其中，所述自适应阈值越大，所述无标签数据的占比越大。

在本申请的一实施例中，所述平衡数据采样器被配置为采用下面的公式计算所述无标签数据和所述有标签数据的采样比例P：

其中，K表示预设的加权系数，τ表示所述自适应阈值，表示向下取整；并且使所述数据采样模块根据所述采样比例P对所述无标签数据和所述有标签数据分别进行采样，使所述第一无标签数据和第一有标签数据的采样比例为P：1。

在本申请的一实施例中，还包括训练调度器，用于将整体模型训练过程分为预热阶段和半监督学习阶段，在所述预热阶段，仅对所述有标签数据进行采样；在所述半监督学习阶段，对所述无标签数据和所述有标签数据分别进行采样；其中，在所述预热阶段中，当模型完成指定轮数的训练之后，进入所述半监督学习阶段。

在本申请的一实施例中，所述图像是红外图像。

本申请为解决上述技术问题还提出一种用于图像的端到端半监督目标检测装置，包括：存储器，用于存储可由处理器执行的指令；处理器，用于执行所述指令以实现如上所述的方法。

本申请为解决上述技术问题还提出一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如上所述的方法。

本申请的端到端半监督目标检测方法、装置和计算机可读介质通过记录数据处理步骤，可以支持多种复杂的数据增广方式；通过自适应阈值滤波生成自适应伪标签，克服了现有方法使用硬置信度阈值进行过滤使得样本不足、伪标签质量不高、错误累计等问题；采用自适应伪标签用于计算加权损失函数，能够动态调节有监督损失函数和无监督损失函数的加权比率，克服了现有技术使用固定加权系数超参数设置繁琐和效率低下的问题。同时，本申请采用单阶段目标检测网络克服了多阶段目标检测网络效率低、步骤繁琐的问题。

附图说明

包括附图是为提供对本申请进一步的理解，它们被收录并构成本申请的一部分，附图示出了本申请的实施例，并与本说明书一起起到解释本发明原理的作用。附图中：

图1是本申请一实施例的用于图像的端到端半监督目标检测方法的示例性流程图；

图2是本申请一实施例的用于图像的端到端半监督目标检测装置的框图；

图3A～图3C是采用本申请的目标检测方法或目标检测装置对红外图像进行目标检测的结果；

图4是本申请一实施例的用于图像的端到端半监督目标检测装置的系统框图。

具体实施方式

为了更清楚地说明本申请的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

此外，需要说明的是，使用“第一”、“第二”等词语来限定零部件，仅仅是为了便于对相应零部件进行区别，如没有另行声明，上述词语并没有特殊含义，因此不能理解为对本申请保护范围的限制。此外，尽管本申请中所使用的术语是从公知公用的术语中选择的，但是本申请说明书中所提及的一些术语可能是申请人按他或她的判断来选择的，其详细含义在本文的描述的相关部分中说明。此外，要求不仅仅通过所使用的实际术语，而是还要通过每个术语所蕴含的意义来理解本申请。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，或将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

本申请的用于图像的端到端半监督目标检测方法、装置和计算机可读介质可以用于任意类型的图像，尤其是红外图像。

图1是本申请一实施例的用于图像的端到端半监督目标检测方法的示例性流程图。参考图1所示，该实施例的目标检测方法100包括以下步骤：

步骤S110：对无标签数据和有标签数据分别进行采样，获得第一无标签数据和第一有标签数据，有标签数据中包括用于标记图像中的检测目标的标签；

步骤S120：对第一无标签数据进行弱数据增强处理，获得第二无标签数据；对第一无标签数据进行第一强数据增强处理，获得第三无标签数据；对第一有标签数据进行第二强数据增强处理，获得第二有标签数据，分别记录弱数据增强处理、第一强数据增强处理和第二强数据增强处理中所用到的数据处理步骤；

步骤S130：构建教师模型和学生模型，教师模型接收第二无标签数据以进行模型训练，并生成表征检测目标的第一预测框，学生模型接收第三无标签数据以进行模型训练，并生成表征检测目标的第二预测框；在教师模型的训练过程中，对第一预测框进行自适应阈值过滤，包括：采用下面的公式计算自适应阈值τ：

τ＝μ+ασ；

其中，μ和σ分别代表当前训练轮次中的全部预测框的置信度的均值和标准差，α表示加权系数，α∈[0.1,1.0]；比较当前训练轮次中的全部第一预测框的置信度和自适应阈值，将置信度大于等于自适应阈值的第一预测框作为伪标签；

步骤S140：根据所记录的数据处理步骤，将所述第一预测框和所述第二预测框统一到同一个坐标系中；

步骤S150：在该坐标系中，采用下面的公式计算学生模型的加权损失函数Loss：

Loss＝L_s+λL_u；

其中，L_s表示学生模型针对第一有标签数据的有监督损失函数，L_u表示所述学生模型基于伪标签所计算的针对第三无标签数据的无监督损失函数，λ表示加权系数，n表示当前训练轮数，N表示模型训练的总轮数，b为固定偏移值；

步骤S160：根据加权损失函数对学生模型进行参数更新；以及

步骤S170：使用指数移动平均算法对学生模型的参数进行处理，并用处理后的参数更新教师模型的参数。

图2是本申请一实施例的用于图像的端到端半监督目标检测装置的框图。以下结合图1和图2对本申请的目标检测方法100和目标检测装置200进行说明。需要说明，本申请的目标检测装置200可以用于执行该目标检测方法100，但是，本申请的目标检测方法100也可以由其他的装置或产品来执行，并不局限于使用本申请的目标检测装置200来执行。

如图2所示，该目标检测装置200包括数据采样模块210、数据处理记录模块220、教师模型230、学生模型240、自适应阈值过滤模块250和损失函数计算模块260。

在本申请一实施例中，该图像是红外图像，则步骤S110中的数据都为图像数据。本申请对图像的获取方式、格式、大小等都不做限制。在其他的实施例中，该图像可以是红外遥感图像。在一些实施例中，图像可以二维、三维图像等。本说明书和附图以二维红外图像为例来对本申请的目标检测方法100和目标检测装置200进行说明，不用于限制所要处理的图像对象的具体存在方式。

参考图1，步骤S110可以由数据采样模块210来执行。有标签数据表示带有标签信息的数据，例如经过人工标记检测目标的图片。无标签数据则是不包含对检测目标的标记信息的数据，例如由成像设备获得的原始图片。通常，由于人工标记的工作量大、成本高，因此有标签数据的数量往往小于无标签数据的数量。

如图2所示，数据采集模块210经过数据采集之后分别获得了第一无标签数据Du1和第一有标签数据D1，具体地，第一无标签数据Du1是多幅无标签红外图像，第一有标签数据D1是多幅有标签红外图像。本申请对所获的第一无标签数据Du1和第一有标签数据D1的数量不做限制。在实际应用中，第一无标签数据Du1的数量远远大于第一有标签数据D1的数量。

在常用的模型训练场景下，采用有标签数据对模型进行训练，如果数据量小的话，容易出现过拟合的情况。而完全使用无标签数据进行训练的无监督模型则精度不够。因此，结合有标签数据和无标签数据进行半监督学习可以同时解决这两个问题。然而，数据量的限制仍然是半监督学习网络存在的问题。采用本申请的目标检测方法，在有标签数据量有限的情况下，能够提高检测精度，并且推理速度快，相比于其他现有技术具有明显优势。

参考图1，步骤S120可以由数据处理记录模块220来执行。如图2所示，数据处理记录模块220在图中由几条粗线条来表示为管道，在具体实现过程中，该数据处理记录模块220也被称为数据处理管道(pipeline)。由数据采集模块210所采集到的无标签红外图像经过数据处理记录模块220的无监督图像预处理之后，被分别传递给教师模型230和学生模型240；有标签红外图像经过数据处理记录模块220的有监督图像预处理之后，被传递给学生模型240。

在步骤S120中，对第一无标签数据Du1进行弱数据增强处理，获得第二无标签数据Du2，该第二无标签数据Du2被传递给教师模型230。对第一无标签数据Du1进行第一强数据增强处理，获得第三无标签数据Du3，该第三无标签数据Du3被传递给学生模型240。对第一有标签数据D1进行第二强数据增强处理，获得第二有标签数据D2，该第二有标签数据D2被传递给学生模型240。

在一些实施例中，弱数据增强处理包括图像亮度的随机抖动、对比度的随机抖动、图像色彩的随机抖动中的任意一个或多个的随机组合。这些弱数据增强处理往往改变了图像的可视效果，而不改变像素的位置坐标等属性。弱数据增强处理的目的是为了过滤噪声，突出检测目标。

在一些实施例中，第一强数据增强处理和第二强数据增强处理分别包括剪切变换、缩放变换、旋转变换中的任意一个或多个的随机组合。强数据增强处理的目的也是为了过滤噪声、突出检测目标，并且其增强效果强于弱数据增强处理的效果。强数据增强处理往往会使图像的位置坐标发生变化，涉及到图像几何变换的步骤。

第一强数据增强处理和第二强数据增强处理中所采取的处理方法可以相同也可以不同，若采用相同的处理方法，其处理顺序也可以相同或不同。第一无标签数据Du1和第一有标签数据D1在初始使可能是大小相同、分辨率相同的图像。在分别经过第一强数据增强处理和第二强数据增强处理之后，所获得的不同数据由于位置坐标发生了变换，例如经过了剪切、缩放、旋转等，导致这些数据并不能相互对应。因此，目前的目标检测方法通常仅对图像进行单一的数据增强，无法支持多种复杂的增强方式。

本申请可以在步骤S120对第一无标签数据Du1和第一有标签数据D1进行多种复杂的数据增强处理，并对所采用的数据增强步骤进行记录，例如存储在存储器中，并在后续步骤中通过所记录到的坐标变换顺序和各个步骤的变换矩阵来对处理后的数据进行空间处理，从而使所要处理的数据都处于同一坐标系下，从而使本申请的目标检测方法可以支持多种复杂的数据增强方式，有利于进一步提高检测精度。

在一些实施例中，按照下面的公式(1)进行剪切变换，其中，s为比例系数。

根据上述实施例，在步骤S120，记录剪切变换的变换矩阵。

在一些实施例中，按照下面的公式(2)进行缩放变换，其中s_x、s_y分别为x轴和y轴的缩放系数。

根据上述实施例，在步骤S120，记录缩放变换的变换矩阵。

在一些实施例中，按照下面的公式(3)进行旋转变换，其中φ为旋转角度。

根据上述实施例，在步骤S120，记录旋转变换的变换矩阵。

在一些实施例中，第一强数据增强处理和第二强数据增强处理分别还包括混合(mix-up)处理、马赛克处理中的任意一个或多个的随机组合。

在一些实施例中，第一强数据增强处理和第二强数据增强处理分别还包括本领域所常用的任意数据增强或数据增广处理方式，本申请在此不做限制。

结合图1和图2，在步骤S130，构建教师模型230和学生模型240。需要说明，本申请对何时构建教师模型230和学生模型240不做限制，可以在本目标检测方法100的起初就构建所要用到的教师模型230和学生模型240。在步骤S130教师模型230接收到第二无标签数据Du2并进行模型训练，生成表征检测目标的第一预测框；学生模型240根据接收到的第三无标签数据Du3进行训练，生成表征检测目标的第二预测框。

第一预测框和第二预测框所包括的信息包括预测框的坐标和类别。

本申请对类别的数量不做限制。当类别为一个时，则预测框的类别表示为“是目标”或“不是目标”。当类别为多个时，则预测框的类别表示为具体的类别或类别编号，例如类别A、类别B、类别C等。

在本申请的实际应用中，类别包括行人、机动车和非机动车三类。

进一步地，如图2所示，自适应阈值过滤模块250用于对第一预测框进行自适应阈值过滤。需说明，教师模型230在经过训练之后，除生成第一预测框之外，还会生成对应于每个第一预测框的置信度，这是深度学习模型的特性，在此不再展开说明。可以理解，模型的训练可以包括很多轮训练，在每个训练轮次中，采用下面的公式(4)计算自适应阈值τ：

τ＝μ+ασ (4)

其中，μ和σ分别代表当前训练轮次中的全部预测框的置信度的均值和标准差，α表示加权系数，α∈[0.1,1.0]。α是人为设定的超参数。

在一些实施例中，μ和σ采用下面的公式(5)计算：

在公式(5)中，x_i表示第i个第一预测框的置信度。

在根据公式(4)获得了自适应阈值τ之后，自适应阈值过滤模块250还用于比较当前训练轮次中的全部第一预测框的置信度和自适应阈值τ，将置信度大于等于自适应阈值τ的第一预测框作为伪标签。

在一些实施例中，自适应阈值过滤模块250还用于保留置信度大于等于自适应阈值τ的第一预测框，并舍弃置信度小于自适应阈值τ的第一预测框，也就是说，经过步骤S130中的自适应阈值过滤之后，仅保留作为伪标签的第一预测框。

在一些实施例中，计算自适应阈值τ的步骤还包括：采用指数移动平均算法(EMA,Exponential moving average)对每次生成的阈值进行平滑，将经过平滑之后的自适应阈值更新为自适应阈值τ。根据该些实施例，可以采用下面的公式(6)进行EMA计算：

τ＝υ_t＝βυ_t-1+(1-β)τ_t (6)

其中，设υ_t为t时刻的影子阈值，υ_t-1为t-1时刻的影子阈值，τ_t为t时刻由自适应阈值过滤模块250动态生成的自适应阈值，β为平滑系数，取值范围为0.9至0.99。

根据公式(6)可以对自适应阈值τ进行实时的EMA，并进行更新。

结合图1和图2所示，步骤S140可以由损失函数计算模块260来执行。在步骤S140中，可以由损失函数计算模块260从数据处理记录模块220获得其所记录的数据处理步骤，根据这些数据处理步骤可以获知第二无标签数据Du2和第三无标签数据Du3所经过的坐标变换过程，从而可以通过坐标调整来使第一预测框和第二预测框处于同一坐标系中。例如，利用记录下来的图像几何变换的变换矩阵的逆矩阵，将该逆矩阵右乘到预测框坐标上，即可将预测框坐标系变换回到原图坐标系上。当所记录的数据处理步骤包括多个几何变换步骤时，记录该多个步骤的顺序，并按照逆序，根据各个变换矩阵的逆矩阵对坐标系进行变换。对第一预测框和第二预测框分别进行坐标调整，使二者都回到原来的统一的坐标系中。

需要说明，所记录的数据处理步骤中还可以包括一些不涉及图像几何变换的步骤，在步骤S120中可以记录这些步骤，也可以不记录这些步骤。这些不涉及图像几何变化的步骤不用参与步骤S140的执行。

结合图1和图2所示，步骤S150可以由损失函数计算模块260来继续执行，在所统一的坐标系中，采用下面的公式(7)计算学生模型240的加权损失函数Loss：

Loss＝L_s+λL_u (7)

其中，L_s表示学生模型240针对第一有标签数据的有监督损失函数，L_u表示学生模型240基于伪标签所计算的针对第三无标签数据的无监督损失函数，λ表示加权系数，n表示当前训练轮数，N表示模型训练的总轮数，b为固定偏移值。

参考图2，有监督损失函数L_s可以采用下面的公式(8)来计算：

L_s＝L_cls+L_box+L_obj (8)

其中，L_cls表示针对具体类别(class)的分类损失函数，L_box表示针对边界框回归的损失函数，L_obj表示针对是否是目标的分类损失函数，L_cls、L_box、L_obj都是针对第一有标签数据有监督损失函数，其所采用的标签是人为标记的真实标签。

上述损失函数可以利用深度学习模型中所常用的损失函数方法来计算，本申请对此不做限制。

参考图2，无监督损失函数L_u可以采用下面的公式(9)来计算：

L_u＝L_cls+L_box+L_obj (9)

其中，L_cls、L_box、L_obj的含义与公式(8)中相同，但是该些损失函数是针对第三无标签数据的无监督损失函数，其所采用的标签是损失函数计算模块260所输出的伪标签。如图2所示，损失函数计算模块260输出了一些带有伪标签的图像251。

结合图1和图2所示，步骤S160可以由学生模型240来执行，即学生模型240获得实时的加权损失函数Loss，并根据该加权损失函数Loss对自身的模型参数进行更新，并在步骤S170，使用指数移动平均算法对学生模型240的模型参数进行平滑处理，并将处理后的模型参数传递给教师模型230，用于更新教师模型230的模型参数。

根据上述的步骤S110～S170可以完成一次完整的一轮模型训练过程。在此之后，可以迭代执行上述步骤来完成多轮次的模型训练，并在训练结束之后，采用经训练的整体模型对输入数据进行分类。根据上述的目标检测方法100和目标检测装置200，实现了一种针对单阶段网络的端到端半监督训练方法，克服了多阶段半监督训练方法效率低、步骤繁琐的问题，还具有以下有益效果：

(1)通过记录数据处理步骤，获得教师模型分支和学生模型分支的图像数据变换矩阵，能够使得本申请的半监督学习方法支持多种复杂的数据增广方式，在最终计算损失函数时能够方便统一到同一坐标系下，有效解决了当前学习方法仅和支持单一数据增广方式的问题，有利于提高目标检测精度。

(2)通过自适应阈值滤波，利用每一轮教师模型对无标签数据的预测结果分布计算出合适的伪标签，避免了训练过程中需要手动设定阈值的问题，同时还克服了现有方法使用硬置信度阈值进行过滤使得样本不足、伪标签质量不高、错误累计等问题。

(3)由于采用自适应阈值滤波，使得加权损失函数也成为一种自适应的加权损失函数。通过利用每一轮教师模型对无标签数据的预测结果分布计算出合适的加权损失函数，能够动态调节有监督损失函数和无监督损失函数的加权比率，克服了现有技术使用固定加权系数超参数设置繁琐和效率低下的问题。

在一些实施例中，本申请的目标检测装置200还包括平衡数据采样器(图未示)。在本申请一实施例的目标检测方法中，该平衡数据采样器可以用于根据自适应阈值τ调整无标签数据和有标签数据的采样比例，其中，自适应阈值τ越大，无标签数据的占比越大。进一步地，可以采用下面的公式(10)计算无标签数据和有标签数据的采样比例P：

其中，K表示预设的加权系数，τ表示自适应阈值，表示向下取整。

结合前述步骤，在目标检测方法100的初始时，可以预先设定无标签数据和有标签数据的采样比例为P₀，在经过第一轮的数据采集和模型训练之后，即可以通过平衡数据采样器来获得采样比例P，并在第二轮的数据采集时按照该采样比例P对无标签数据和有标签数据进行数据采样，使第一无标签数据和第一有标签数据的采样比例为P：1。P是大于1的数。

需要说明，平衡数据采样器可以包含在图2所示的数据采样模块210中，也可以是一个单独的模块，当计算出采样比例P之后，将该采样比例P传递给数据采样模块210，使数据采样模块210以该采样比例P来采集第一无标签数据和第一有标签数据。

通过采用平衡数据采样，利用模型在整个训练流程不同阶段的预测结果分布计算出合适的有标签数据和无标签数据的采样比例，能够动态控制采样比例，有效提升了模型的半监督学习效率，克服了当前方法使用固定比率进行数据采样时训练效率过低的问题。

在一些实施例中，本申请的目标检测装置200还包括训练调度器(图未示)。在本申请一实施例的目标检测方法中，训练调度器用于将整体模型训练过程分为预热阶段和半监督学习阶段，在预热阶段，仅对有标签数据进行采样；在半监督学习阶段，对无标签数据和有标签数据分别进行采样；其中，在预热阶段中，当模型完成指定轮数的训练之后，进入半监督学习阶段。

其中，预热阶段是模型训练的初期，学习率从一个较低的最小值线性增长到指定轮数并到达既定学习率，即最大值。在此阶段，可以通过训练调度器控制数据采样模块210关闭或停止对无标签数据的采样。同时，在半监督学习阶段，通过训练调度器控制数据采样模块210开启对无标签数据的采样，即同时对无标签数据和有标签数据进行采集。其中，采用下面的公式(11)计算学习率η_t：

和/>分别表示学习率的最小值和最大值，T_cur表示当前所处的轮数，T_i表示第i次训练所运行的总轮数。

以下通过仿真实验对本申请的技术效果进行进一步说明。

仿真条件为：在Intel(R)Core(TM)i7-10700K CPU@3.80GHz处理器，Nvidia(R)RTX3090显卡的电脑上，软件使用深度学习框架Pytorch完成仿真。

仿真场景设置为从红外图像中检测出行人、机动车和非机动车三类目标，可用训练数据集数量为17635张，有标签红外图像占比10％，无标签红外图像占比90％。搭建好本申请的目标检测方法和装置中所涉及的半监督训练网络后，设置训练轮数为300轮，最后训练得到的学生模型作为检测网络。

图3A～图3C是采用本申请的目标检测方法或目标检测装置对红外图像进行目标检测的结果。其中，图3A的场景为复杂场景，即场景中具有较多与检测目标无关的内容。图3B的场景为密集场景，即多个检测目标聚集，有较多重叠。图3C的场景为小目标场景。小目标场景指的是图像中包含目标面积小于32×32像素大小的场景。在图3A～图3C中，都采用水平矩形框对检测结果进行标注，如图中的白色矩形框所示。本申请还采用常规的机器学习模型作为基线对照组。图3A～图3C表明，在该3种场景下，采用本申请的目标检测方法和装置都可以获得良好的检测效果，比采用常规模型的效果更好，精度更高。同时，采用本申请的目标检测方法和装置，训练时长更短，检测效率更高。

本申请还包括一种用于图像的端到端半监督目标检测装置，包括存储器和处理器。其中，该存储器用于存储可由处理器执行的指令；处理器用于执行该指令以实现前文所述的用于图像的端到端半监督目标检测方法。

图4是本申请一实施例的用于图像的端到端半监督目标检测装置的系统框图。参考图4所示，该端到端半监督目标检测装置400可包括内部通信总线401、处理器402、只读存储器(ROM)403、随机存取存储器(RAM)404以及通信端口405。当应用在个人计算机上时，该端到端半监督目标检测装置400还可以包括硬盘406。内部通信总线401可以实现该端到端半监督目标检测装置400组件间的数据通信。处理器402可以进行判断和发出提示。在一些实施例中，处理器402可以由一个或多个处理器组成。通信端口405可以实现该端到端半监督目标检测装置400与外部的数据通信。在一些实施例中，该端到端半监督目标检测装置400可以通过通信端口405从网络发送和接受信息及数据。该端到端半监督目标检测装置400还可以包括不同形式的程序储存单元以及数据储存单元，例如硬盘406，只读存储器(ROM)403和随机存取存储器(RAM)404，能够存储计算机处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的程序指令。处理器执行这些指令以实现方法的主要部分。处理器处理的结果通过通信端口传给用户设备，在用户界面上显示。

上述的用于图像的端到端半监督目标检测方法可以实施为计算机程序，保存在硬盘406中，并可加载到处理器402中执行，以实施本申请的用于图像的端到端半监督目标检测方法。

本申请还包括一种存储有计算机程序代码的计算机可读介质，该计算机程序代码在由处理器执行时实现前文所述的用于图像的端到端半监督目标检测方法。

用于图像的端到端半监督目标检测方法实施为计算机程序时，也可以存储在计算机可读存储介质中作为制品。例如，计算机可读存储介质可以包括但不限于磁存储设备(例如，硬盘、软盘、磁条)、光盘(例如，压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如，电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外，本文描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。

应该理解，上文所描述的实施例仅是示意。本文描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现，处理器可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本文所述功能的其它电子单元或者其结合内实现。

本申请的一些方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。处理器可以是一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DAPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器或者其组合。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。例如，计算机可读介质可包括，但不限于，磁性存储设备(例如，硬盘、软盘、磁带……)、光盘(例如，压缩盘CD、数字多功能盘DVD……)、智能卡以及闪存设备(例如，卡、棒、键驱动器……)。

计算机可读介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等等、或合适的组合形式。计算机可读介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、射频信号、或类似介质、或任何上述介质的组合。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述发明披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

Claims

1.一种用于图像的端到端半监督目标检测方法，包括：

对无标签数据和有标签数据分别进行采样，获得第一无标签数据和第一有标签数据，所述有标签数据中包括用于标记所述图像中的检测目标的标签；

对所述第一无标签数据进行弱数据增强处理，获得第二无标签数据；对所述第一无标签数据进行第一强数据增强处理，获得第三无标签数据；对所述第一有标签数据进行第二强数据增强处理，获得第二有标签数据，分别记录所述弱数据增强处理、所述第一强数据增强处理和所述第二强数据增强处理中所用到的数据处理步骤；

构建教师模型和学生模型，所述教师模型接收所述第二无标签数据以进行模型训练，并生成表征检测目标的第一预测框，所述学生模型接收所述第三无标签数据以进行模型训练，并生成表征检测目标的第二预测框；在所述教师模型的训练过程中，对所述第一预测框进行自适应阈值过滤，包括：采用下面的公式计算自适应阈值τ：

；

其中，μ和σ分别代表当前训练轮次中的全部预测框的置信度的均值和标准差，α表示加权系数，；比较当前训练轮次中的全部第一预测框的置信度和所述自适应阈值，将置信度大于等于所述自适应阈值的第一预测框作为伪标签；

根据所记录的所述数据处理步骤，将所述第一预测框和所述第二预测框统一到同一个坐标系中；

在所述坐标系中，采用下面的公式计算所述学生模型的加权损失函数Loss：

；

其中，L_s表示所述学生模型针对所述第一有标签数据的有监督损失函数，L_u表示所述学生模型基于所述伪标签所计算的针对所述第三无标签数据的无监督损失函数，λ表示加权系数，，n表示当前训练轮数，N表示模型训练的总轮数，b为固定偏移值；

根据所述加权损失函数对所述学生模型进行参数更新；以及

使用指数移动平均算法对所述学生模型的参数进行处理，并用处理后的参数更新所述教师模型的参数。

2.如权利要求1所述的端到端半监督目标检测方法，其特征在于，分别记录所述弱数据增强处理、所述第一强数据增强处理和所述第二强数据增强处理中所用到的数据处理步骤包括：分别记录所述弱数据增强处理、所述第一强数据增强处理和所述第二强数据增强处理中涉及图像几何变换的步骤顺序及其变换矩阵。

3.如权利要求1所述的端到端半监督目标检测方法，其特征在于，计算自适应阈值τ的步骤还包括：采用指数移动平均算法对每次生成的阈值进行平滑，将经过平滑之后的自适应阈值更新为所述自适应阈值。

4.如权利要求1或3所述的端到端半监督目标检测方法，其特征在于，在整体训练过程中，还包括：根据所述自适应阈值调整所述无标签数据和所述有标签数据的采样比例，其中，所述自适应阈值越大，所述无标签数据的占比越大。

5.如权利要求4所述的端到端半监督目标检测方法，其特征在于，采用下面的公式计算所述无标签数据和所述有标签数据的采样比例P：

，

6.如权利要求1所述的端到端半监督目标检测方法，其特征在于，还包括：将整体模型训练过程分为预热阶段和半监督学习阶段，在所述预热阶段，仅对所述有标签数据进行采样，所述端到端半监督目标检测方法仅执行与所述有标签数据相关的步骤；在所述半监督学习阶段，对所述无标签数据和所述有标签数据分别进行采样，所述端到端半监督目标检测方法执行全部步骤；其中，在所述预热阶段中，当模型完成指定轮数的训练之后，进入所述半监督学习阶段。

7.如权利要求1所述的端到端半监督目标检测方法，其特征在于，所述第一强数据增强处理和所述第二强数据增强处理分别包括剪切变换、缩放变换、旋转变换中的任意一个或多个的随机组合。

8.如权利要求1所述的端到端半监督目标检测方法，其特征在于，所述第一强数据增强处理和所述第二强数据增强处理分别还包括混合处理、马赛克处理中的任意一个或多个的随机组合。

9.如权利要求1所述的端到端半监督目标检测方法，其特征在于，所述弱数据增强处理包括图像亮度的随机抖动、对比度的随机抖动、图像色彩的随机抖动中的任意一个或多个的随机组合。

10.如权利要求1所述的端到端半监督目标检测方法，其特征在于，所述图像是红外图像。

11.一种用于图像的端到端半监督目标检测装置，其特征在于，包括：数据采样模块、数据处理记录模块、教师模型、学生模型、自适应阈值过滤模块和损失函数计算模块，其中，

所述数据采样模块用于对无标签数据和有标签数据分别进行采样，获得第一无标签数据和第一有标签数据，所述有标签数据中包括用于标记所述图像中的检测目标的标签；

所述数据处理记录模块用于对所述第一无标签数据进行弱数据增强处理，获得第二无标签数据；对所述第一无标签数据进行第一强数据增强处理，获得第三无标签数据；对所述第一有标签数据进行第二强数据增强处理，获得第二有标签数据，分别记录所述弱数据增强处理、所述第一强数据增强处理和所述第二强数据增强处理中所用到的数据处理步骤；

所述教师模型用于接收所述第二无标签数据以进行模型训练，并生成表征检测目标的第一预测框；

所述学生模型用于接收所述第三无标签数据以进行模型训练，并生成表征检测目标的第二预测框；

所述自适应阈值过滤模块用于在所述教师模型的训练过程中，对所述第一预测框进行自适应阈值过滤，包括：采用下面的公式计算自适应阈值τ：

；

其中，μ和σ分别代表当前训练轮次中的全部预测框的置信度的均值和标准差，α表示加权系数，；以及比较当前训练轮次中的全部第一预测框的置信度和所述自适应阈值，将置信度大于等于所述自适应阈值的第一预测框作为伪标签；

所述损失函数计算模块用于从所述数据处理记录模块获得所述数据处理步骤，根据所述数据处理步骤将所述第一预测框和所述第二预测框统一到同一个坐标系中；以及在所述坐标系中，采用下面的公式计算所述学生模型的加权损失函数Loss：

；

其中，L_s表示所述学生模型对于所述第一有标签数据的有监督损失函数，L_u表示所述学生模型基于所述伪标签所计算的针对所述第三无标签数据的无监督损失函数，λ表示加权系数，，n表示当前训练轮数，N表示模型训练的总轮数，b为固定偏移值。

12.如权利要求11所述的端到端半监督目标检测装置，其特征在于，所述数据处理记录模块记录的数据处理步骤包括：所述弱数据增强处理、所述第一强数据增强处理和所述第二强数据增强处理中涉及图像几何变换的步骤顺序及其变换矩阵。

13.如权利要求11所述的端到端半监督目标检测装置，其特征在于，所述自适应阈值过滤模块还被配置为：采用指数移动平均算法对每次生成的阈值进行平滑，将经过平滑之后的自适应阈值更新为所述自适应阈值。

14.如权利要求11或13所述的端到端半监督目标检测装置，其特征在于，还包括平衡数据采样器，被配置为根据所述自适应阈值调整所述无标签数据和所述有标签数据的采样比例，其中，所述自适应阈值越大，所述无标签数据的占比越大。

15.如权利要求14所述的端到端半监督目标检测装置，其特征在于，所述平衡数据采样器被配置为采用下面的公式计算所述无标签数据和所述有标签数据的采样比例P：

，

其中，K表示预设的加权系数，τ表示所述自适应阈值，表示向下取整；

并且使所述数据采样模块根据所述采样比例P对所述无标签数据和所述有标签数据分别进行采样，使所述第一无标签数据和第一有标签数据的采样比例为P：1。

16.如权利要求11所述的端到端半监督目标检测装置，其特征在于，还包括训练调度器，用于将整体模型训练过程分为预热阶段和半监督学习阶段，在所述预热阶段，仅对所述有标签数据进行采样；在所述半监督学习阶段，对所述无标签数据和所述有标签数据分别进行采样；其中，在所述预热阶段中，当模型完成指定轮数的训练之后，进入所述半监督学习阶段。

17.如权利要求11所述的端到端半监督目标检测装置，其特征在于，所述第一强数据增强处理和所述第二强数据增强处理分别包括剪切变换、缩放变换、旋转变换中的任意一个或多个的随机组合。

18.如权利要求11所述的端到端半监督目标检测装置，其特征在于，所述第一强数据增强处理和所述第二强数据增强处理分别还包括混合处理、马赛克处理中的任意一个或多个的随机组合。

19.如权利要求11所述的端到端半监督目标检测装置，其特征在于，所述弱数据增强处理包括图像亮度的随机抖动、对比度的随机抖动、图像色彩的随机抖动中的任意一个或多个的随机组合。

20.如权利要求11所述的端到端半监督目标检测装置，其特征在于，所述图像是红外图像。

21.一种用于图像的端到端半监督目标检测装置，包括：

存储器，用于存储可由处理器执行的指令；

处理器，用于执行所述指令以实现如权利要求1-10任一项所述的方法。

22.一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如权利要求1-10任一项所述的方法。