CN114973064A

CN114973064A - 一种伪标签框生成方法、装置及电子设备

Info

Publication number: CN114973064A
Application number: CN202210464331.5A
Authority: CN
Inventors: 万方; 邵滨; 廖明祥; 许松岑; 叶齐祥
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-08-30
Also published as: WO2023207535A1

Abstract

本申请提供了一种伪标签框生成方法、装置及电子设备，涉及人工智能技术领域。该方法可以基于目标图像中目标的类别的数量，获取到与该数量相等数量的注意力图，且每个注意力图上均可以显著性的呈现出目标图像中属于同一类别的至少一个目标，并由获取到的注意力图，可以得到目标图像中各个目标的伪标签框。由于获取到的注意力图的数量是有限的，因此由注意力图得到的候选框的数量也是有限的，从而使得不需要枚举密集的、冗余的且低精度的伪标签框，从而可以便于后续的目标检测模型训练，提升目标检测精度。

Description

一种伪标签框生成方法、装置及电子设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一伪标签框生成方法、装置及电子设备。

背景技术

目标检测(object detection)任务是找出图像或视频中人们感兴趣的物体，并同时检测出它们的位置和大小。不同于图像分类任务，目标检测不仅要解决分类问题，还要解决定位问题。

虽然目标检测算法在过去取得了长足的进展，但是这些进展严重依赖大数据驱动的监督学习模式。爆炸增长的数据规模与高昂的监督信息获取成本严重制约了深度学习模型在实际场景中的应用。目前，常采用弱监督学习(weakly supervised learning)算法对用于进行目标检测的目标检测模型进行训练。但目前基于弱监督学习算法得到目标检测模型的成本较高。

发明内容

本申请提供了一种伪标签框生成方法、装置、电子设备、车辆、计算机存储介质及计算机程序产品，能够生成有限数量且高精度的伪标签框，提升了后续目标检测模型训练的速度和精度。

第一方面，本申请提供一种伪标签框生成方法，方法包括：确定目标图像中各个目标的类别，以得到N个类别；基于所述N个类别，对目标图像进行处理，以得到N个注意力图，其中，每个注意力图均与N个类别中的一个类别相关联，每个注意力图均用于显著呈现目标图像中一个类别的目标；基于N个注意力图，得到目标图像中各个目标的伪标签框。

这样，基于目标图像中目标的类别的数量，获取到与该数量相等数量的注意力图，且每个注意力图上均可以显著性的呈现出目标图像中属于同一类别的至少一个目标，并由获取到的注意力图，可以得到目标图像中各个目标的伪标签框。由于获取到的注意力图的数量是有限的，因此由注意力图得到的候选框的数量也是有限的，从而使得不需要枚举密集的、冗余的且低精度的伪标签框，进而可以便于后续的目标检测模型训练，提升目标检测精度。

在一种可能的实现方式中，对目标图像进行处理，以得到N个注意力图，具体包括：基于C个第一标记，并通过注意力机制，对目标图像中进行处理，以得到C个注意力图和C个类别的分类得分，每个第一标记均用于对一个类别的语义进行学习，C≥N；基于C个类别的分类得分，从C个注意力图中筛选出N个注意力图，其中，与N个注意力图相关联的每个类别的分类得分均高于预设分数阈值。

在一种可能的实现方式中，基于N个注意力图，得到目标图像中各个目标的伪标签框之后，方法还包括：针对任意一个伪标签框，调整任意一个伪标签框在至少一个方向上的尺寸，以得到目标伪标签框，目标伪标签框内包含有一个完整的目标。由此以过滤掉伪标签框中的噪声，提升后续模型训练的精度。

在一种可能的实现方式中，基于N个注意力图，得到目标图像中各个目标的伪标签框，具体包括：对N个注意力图中的每个注意力图均进行二值化处理，并利用连通域的方式对二值化处理后的图像进行处理，得到目标图像中各个目标的伪标签框。

在一种可能的实现方式中，方法还包括：对目标图像中所包含的目标进行检测，以得到预测标签框集合，预测标签框集合中包括目标图像中各个目标的预测标签框；基于伪标签框集合和预测标签框集合，对目标检测模型进行训练，伪标签框集合中包括目标图像中各个目标的伪标签框。由此，以得到目标检测模型，进而可以基于该目标检测模型进行目标检测。

在一种可能的实现方式中，基于伪标签框集合和预测标签框集合，对目标检测模型进行训练，具体包括：基于伪标签框集合中的各个伪标签框，从预测标签框集合中选取x个预测标签框，x的取值与伪标签框的数量相等，x个预测标签框中的中每个标签框均与伪标签框集合中的一个伪标签框相关联；基于伪标签框集合中的伪标签框和x个预测标签框，更新目标检测模型中第一网络和第二网络的网络参数，第一网络用于得到伪标签框集合，第二网络用于得到预测标签框集合。由此通过这种一对一匹配的方式，降低了后续的计算量，提升了模型训练的速度。

第二方面，本申请提供一种伪标签框生成装置，装置包括：确定模块，用于确定目标图像中各个目标的类别，以得到N个类别；处理模块，用于基于所述N个类别，对目标图像进行处理，以得到N个注意力图，其中，每个注意力图均与N个类别中的一个类别相关联，每个注意力图均用于显著呈现目标图像中一个类别的目标；处理模块，还用于基于N个注意力图，得到目标图像中各个目标的伪标签框。

在一种可能的实现方式中，处理模块在对目标图像进行处理，以得到N个注意力图时，具体用于：基于C个第一标记，并通过注意力机制，对目标图像中进行处理，以得到C个注意力图和C个类别的分类得分，每个第一标记均用于对一个类别的语义进行学习，C≥N；基于C个类别的分类得分，从C个注意力图中筛选出N个注意力图，其中，与N个注意力图相关联的每个类别的分类得分均高于预设分数阈值。

在一种可能的实现方式中，处理模块在基于N个注意力图，得到目标图像中各个目标的伪标签框之后，还用于：针对任意一个伪标签框，调整任意一个伪标签框在至少一个方向上的尺寸，以得到目标伪标签框，目标伪标签框内包含有一个完整的目标。

在一种可能的实现方式中，处理模块在基于N个注意力图，得到目标图像中各个目标的伪标签框时，具体用于：对N个注意力图中的每个注意力图均进行二值化处理，并利用连通域的方式对二值化处理后的图像进行处理，得到目标图像中各个目标的伪标签框。

在一种可能的实现方式中，处理模块，还用于：对目标图像中所包含的目标进行检测，以得到预测标签框集合，预测标签框集合中包括目标图像中各个目标的预测标签框；基于伪标签框集合和预测标签框集合，对目标检测模型进行训练，伪标签框集合中包括目标图像中各个目标的伪标签框。

在一种可能的实现方式中，处理模块在基于伪标签框集合和预测标签框集合，对目标检测模型进行训练时，具体用于：基于伪标签框集合中的各个伪标签框，从预测标签框集合中选取x个预测标签框，x的取值与伪标签框的数量相等，x个预测标签框中的中每个标签框均与伪标签框集合中的一个伪标签框相关联；基于伪标签框集合中的伪标签框和x个预测标签框，更新目标检测模型中第一网络和第二网络的网络参数，第一网络用于得到伪标签框集合，第二网络用于得到预测标签框集合。

第三方面，本申请提供一种电子设备，包括：至少一个存储器，用于存储程序；至少一个处理器，用于执行存储器存储的程序；其中，当存储器存储的程序被执行时，处理器用于执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序在处理器上运行时，使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

第五方面，本申请提供一种计算机程序产品，其特征在于，当计算机程序产品在处理器上运行时，使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

第六方面，本申请提供一种芯片，其特征在于，包括至少一个处理器和接口；至少一个处理器通过接口获取程序指令或者数据；至少一个处理器用于执行程序行指令，以实现第一方面或第一方面的任一种可能的实现方式所描述的方法。

可以理解的是，上述第二方面至第六方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

图1是本申请实施例提供的一种目标检测模型的网络结构示意图；

图2是本申请实施例提供的一种目标检测模型的训练步骤示意图；

图3是本申请实施例提供的一种目标图像的示意图；

图4是本申请实施例提供的一种目标检测模型的训练过程示意图；

图5是本申请实施例提供的一种伪标签框生成的过程示意图；

图6是本申请实施例提供的一种目标图像上候选框的示意图；

图7是本申请实施例提供的一种伪标签框生成方法的流程示意图；

图8是本申请实施例提供的一种伪标签框生成装置的结构示意图；

图9是本申请实施例提供的一种芯片的结构示意图。

具体实施方式

本文中术语“和/或”，是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系，例如A/B表示A或者B。

本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一响应消息和第二响应消息等是用于区别不同的响应消息，而不是用于描述响应消息的特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，除非另有说明，“多个”的含义是指两个或者两个以上，例如，多个处理单元是指两个或者两个以上的处理单元等；多个元件是指两个或者两个以上的元件等。

示例性的，对于利用弱监督算法进行目标检测(简称“弱监督目标检测(weaklysupervised object detection，WSOD)”)的任务，由于目标位置标注缺失，弱监督检测算法需要同时估计目标的位置和学习目标检测器。为了实现该目的，WSOD算法常采用“枚举+选择”(enumerate-and-select)的范式，例如，两阶段的“enumerate-and-select”方法和端到端的“enumerate-and-select”方法。在该范式下，WSOD算法先枚举出目标可能出现的位置，然后再选择最能区分图像类别的框作为目标位置的预测。

其中，对于两阶段的“enumerate-and-select”方法，一般是利用图像中的颜色、纹理和轮廓等先验信息来枚举目标的位置，最终为每张图像生成超过2000个目标候选框。基于上述候选框，以多示例学习算法((multiple instance learning，MIL)为基础，将每张图像视为“包”，图像中的候选框视为“示例”，结合深度神经网络，在多示例学习损失驱动下选择定位到目标的候选框。然而，由于确定出的候选框数量众多，并且候选框之间存在巨大的位置冗余，导致很难选择到准确的候选框，致使后续训练得到的目标检测模型精度较低。此外，由于该方式需要一个额外的阶段来生成候选框，其检测效率会大幅降低。

对于端到端的“enumerate-and-select”方法，相比两阶段的方法，端到端的方法利用候选框生成网络来提升检测效率。为了能够让候选框生成网络和深度框架融合，该类方法无法使用传统候选框生成方法中的底层视觉先验信息。因此，端到端的方法使用扫窗的方式，以遍历的方式对目标的位置进行枚举，在利用弱监督的信息删除低置信度的候选框。然而，该方式生成的候选框非常稠密，这大大增加了候选框筛选的难度，使得该类方法难以选择到准确的候选框，致使后续训练得到的目标检测模型精度较低。

为了能够得到精度较高的目标检测模型，且减少标注成本，本申请实施例中提供了一种伪标签框生成方法。该方法主要是基于目标图像，获取到目标数量(其与用户标注的目标的类别的数量相等)的注意力图，每个注意力图上均可以显著性的呈现出目标图像中属于同一类别的至少一个目标。接着，可以由获取到的注意力图，得到候选框(即伪标签框)。由于注意力图的数量是有限的，因此由注意力图得到的候选框的数量也是有限的，从而使得不需要枚举密集的、冗余的且低精度的伪标签框，进而可以便于后续的目标检测模型训练，提升目标检测精度。

示例性的，图1示出了一种目标检测模型的结构。可以理解，该模型可以配置在任何具有计算、处理能力的装置、设备、平台、或设备集群中。图1所示的目标检测模型主要是基于transformer模型得到。如图1所示，该目标检测模型100可以包括：骨干网110、种子候选框生成(seed proposal generation，SPG)子网120和稀疏候选框精炼(sparseproposalrefinement，SPR)子网130。

其中，骨干网110主要用于对图像进行特征提取，其可以是基于transformer的CaiT模型建立。继续参阅图1，骨干网110可以包括卷积层111和注意力层112。卷积层111主要用于对图像进行特征提取，其相当于把图片信息分割为独立的(w*h)的小切片。注意力层112主要是用于基于自注意力机制，确定卷积层111分割后的各个切片之间的相关性，以避免各个切片间的关系被弱化，解决长距离依赖问题。

卷积层111可以包括多个卷积算子。卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。

注意力层112可以包括一个与卷积层111连接的主干模块1121、一个分支模块1122和一个分支模块1123。其中，分支模块1122和分支模块1123均与主干模块1121连接。主干模块1121、分支模块1122和分支模块1123均可以由一个或多个自注意力块(self-attentionblock)构成。示例性的，主干模块1121、分支模块1122和分支模块1123中任意一个模块中的多个自注意力块均可以串联连接。在一些实施例中，通过分支模块1122和分支模块1123可以将由主干模块1121处理后的图像特征解耦，从而使得两个分支输出的特征不同，由此以提升后续处理的精度，并提升模型的泛化能力。

种子候选框生成SPG子网120主要用于基于骨干网110中分支模块1122处理后的图像特征，生成种子候选框，即得到伪标签框；另外，其也可以用于对图像进行分类。继续参阅图1，SPG子网120可以包括图像分类模块121和候选框生成模块122。图像分类模块121主要用于基于骨干网110输出的图像特征对图像进行分类，和/或，生成注意力矩阵。

图像分类模块121可以主要由两个类注意块(class-attention block)和两个全连接(fully connected layers，FC)层构成。其中，由类注意力块主要是得到注意力矩阵，由FC层主要是得到图像的分类。在通过类注意力块对图像特征进行处理时，可以引入一个可学习的类标记和C(例如C可以为事先定义的所需的类别的最大值)个可学习的语义类别感知标记，这样，最终由类注意力块可以输出用于标记原始图像的一个标记，以及输出原始图像中所包含的类别的标记，和各个标记对应的分类得分，进而可以利用这些标记并结合损失函数，对SPG子网120中的模型参数进行优化，以及由分类得分筛选出所需的类别的注意力图等。示例性的，每个语义类别感知标记均可以用于对一个类别的语义进行学习。

在一些实施例中，输出的原始图像所包含的类别的标记对应的类别可以包含于用户事先定义的C个类别内。例如，当用户事先定义的C个类别为“人物”、“车辆”和“植物”时，若原始图像中包含“人物”和“车辆”这两个类别，则可以但不限于输出“人物”和“车辆”这两个类别的标记。

候选框生成模块122主要是基于图像分类模块121输出的注意力矩阵生成种子候选框，即伪标签框。

稀疏候选框精炼SPR子网130主要是基于骨干网110中分支模块1123处理后的图像特征，对待检测图像进行检测，并输出检测到的图像中的稀疏候选框，即图像中所包含的物体的物体框。另外，SPR子网130可以基于SPG子网120输出的种子候选框进行训练，以使得SPR子网130能够达到目标进行检测的状态。继续参阅图1，SPR子网130可以包括编码器(encoder)131、解码器(decoder)132和一对一候选框匹配模块133。

编码器131和解码器132组合在一起主要是用于输出从待检测图像中预测到的稀疏候选框。其中，编码器131可以但不限于由至少一个自注意力块(self-attention block)构成。解码器132可以但不限于由至少一个交叉注意力块(cross-attention block)，以及一个前馈神经网络(feedforward neural network，FNN)构成。

一对一候选框匹配模块133主要是用于基于解码器132检测到的稀疏候选框和SPG子网120输出的种子候选框，对SPR子网130中的模型参数进行优化，以使得SPR子网130满足目标检测需求。

以上即是对本申请实施例提供的目标检测模型100的介绍。通过该目标检测模型100即可以进行目标检测。

为便于理解，下面以一幅图像举例对目标检测模型100的训练过程进行说明。

示例性的，图2示出了对目标检测模型100的训练过程。如图2所示，该训练过程可以包括包括以下步骤：

在S201，确定目标图像中各个目标的类别，以得到与类别相关的类别数据集(I)，以及设计图1中所示的SPG子网120的网络参数G(θ)和SPR子网130的网络参数G(γ)。示例性的，当目标图像为图3中所示的图像时，可以对人和摩托车进行标注，比如，将人的类别标注为“person”，将摩托车的类别标注为“mbike”。在一些实施例中，在S201中还可以设定图1中所示的SPG子网120中所需的1个类标记和C个语义类别感知标记，以及设定SPR子网130中定义K个稀疏候选框标记。示例性的额，在标注时可以人工标注，也可以机器自动标注，具体可根据实际情况而定，此处不做限定。

在S202，将目标图像输入至目标网络模型100，利用SPG子网120生成类别数据集(I)的伪标签框的伪标签框集合(A)。

在一些实施例中，如图1和图4所示，在将目标图像输入至目标网络模型100后，目标网络模型100中的卷积层111可以提取目标图像的图像特征，例如，卷积层111可以将目标图像划分为(w*h)个图像块，并标记每个图像块。接着，主干模块1121和分支模块1122可以依次基于自注意力机制对卷积层111处理后的图像特征进行处理，并将处理后的图像特征输入至SPG子网120。另外，主干模块1121和分支模块1123可以依次基于自注意力机制对卷积层111处理后的图像特征进行处理，并将处理后的图像特征输入至SPR子网130。

在SPG子网120中，可以引入可学习的类标记t_c∈R^1×D和C个语义类别感知标记t_s∈R^C×D，C表示事先定义的所需类别的最大值，D表示特征维度。接着，可以将t_c和t_s输入到SPG子网120中图像分类模块121中的类注意力块，并通过类注意力机制对获取到的图像特征进行运算，可以得到新生成的类编码

和语义感知编码

同时可以生成对应的注意力矩阵A∈R^{(C+1)×(C+N+1)}。

随后，可以将类编码

输入到图像分类模块121中的一个FC层，经该FC层处理后，可以得到目标图像的分类得分；以及，可以将语义感知编码

输入到图像分类模块121中的另一个FC层，经该FC层处理后，可以得到在S201中标注的每个类别的得分，由此以将各个类别数值化；其中，当事先定义的C个类别中的一个类别出现在目标图像中时，则该类别的得分高，反之得分则低在得到目标图像的分类得分和目标图像中所包含的各个类别的分类得分后，可以基于这些分类得分和预设的损失函数，确定出SPG子网120的预测结果与真实结果之间的差距。另外，还可以基于这些分类得分筛选出所需的注意力图。

示例性的，SPG子网120中采样的损失函数可以如下所示：

其中l_BCE(*)表示二元sigmoid交叉熵损失,w_c和w_s是上述两个用于图像分类的FC层的参数，y为类别的标签。

当SPG子网120中的图像分类模块121生成注意力矩阵A∈R^{(C+1)×(C+N+1)}后，候选框生成模块122可以基于该注意力矩阵A∈R^{(C+1)×(C+N+1)}生成种子候选框，即得到伪标签框。其中，候选框生成模块122可以通过索引注意力矩阵A∈R^{(C+1)×(C+N+1)}的前C行和中间N列(即除前C列和最后1列以外的列)获得语义感知注意力矩阵A^*∈R^C×N。然后，候选框生成模块122可以通过将A^*∈R^C×N中的第C行进行矩阵变形(reshape)，将第C行转换为(w*h)维矩阵，并将其大小调整为与目标图像的分辨率相同，这样就得到了第C个类别的注意力图A_C。这样，通过对注意力矩阵A^*∈R^C×N中的各行进行操作，即可以得到C个注意力图中，其中，每个注意力图均与C个事先定义的类别中的一个类别对应。

接着，候选框生成模块122可以基于通过FC层确定出的目标图像中包含的各个类别的分类得分，从C个注意力图中筛选出所需的注意力图，其中，这些注意力图的数量可以与目标图像中包含的类别的数量相等，也即是说，目标图像中所包含的一个类别对应一个注意力图。其中，筛选出的每个注意力图上均可以显著性的呈现出目标图像中属于同一类别的至少一个目标。示例性的，如图5所示，图5的(A)为目标图像，通过对该目标图像进行处理后，可以得到图5的(B)所示的注意力图，在图5的(B)中，可以将目标图像中的目标(即“飞机”)显著性的呈现出来。

举例来说，当用户事先定义的C(C＝3)个类别为“人物”、“车辆”和“植物”时，若目标图像中包含“人物”和“车辆”这两个类别，则可以输出“人物”和“车辆”这两个类别的分类得分为1，而“植物”这一类别的分类得分为0；由分类得分可以确定出目标图像中包含的类别为“人物”和“车辆”，因此，可以从C个类别的注意力图中选取“人物”和“车辆”这两个类别对应的注意力图为所需的注意力图。这两个注意力图中的其中一个注意力图可以显著性的将目标图像中的“人物”呈现出来，另一个注意力图可以显著性的将目标图像中的“车辆”呈现出来。

最后，候选框生成模块122可以对筛选出的注意力图进行二值化(binarization)处理，以及利用连通域的方式(比如Two-Pass算法等)对二值化处理后的图像进行处理，生成各个注意力图中所包含的各个种子候选框，从而生成类别数据集(I)的伪标签框的伪标签框集合(A)。另外，候选框生成模块122还可以标记每个种子候选框所对应的目标的类别。在一些实施例中，在使用连通域的方式时，可以设定一个约束条件，以过滤掉注意力图中的噪点，提升种子候选框生成的精度。示例性的，约束条件可以为一个注意力图中每个连通区域的面积应大于该注意力图中最大连通区域面积的N倍，0＜N＜1。示例性的，继续参阅图5，对图5的(B)所示的注意力图进行二值化处理和连通域处理后，可以得到图5的(C)所示的伪标签框，该伪标签框可以至少包围图5的(A)中所示目标图像中目标(即“飞机”)的一部分。

可理解的是，由于类标记t_c不能区分语义信息，因此其无法为每个语义类别生成注意力图，而通过添加C个语义类别感知标记t_s，则可以实现为每个语义类别生成注意力图，从而可以得到与用户标注的目标的类别的数量相等的注意力图。而再由获取到的注意力图，可以得到有限数量的候选框(即伪标签框)，从而使得不需要枚举密集的、冗余的且低精度的伪标签框，有利于后续的目标检测网络训练，提升目标检测精度。

在一些实施例中，由注意力图生成的种子候选框可能会包含定位噪声，该定位噪声会对后续的模型训练产生影响。例如，如图6的(A)所示，此时生成的种子候选框61未完全覆盖目标。为了缓解这个问题，可以通过“候选框抖动”策略增加种子候选框的尺寸，该策略主要是在四个方向上产生随机抖动的边界框，由此以实现种子候选框的精炼和检测性能的提高。

示例性的，种子候选框b_i＝(t_x,t_y,t_w,t_h)的候选框抖动过程定义为：

Γb_i＝(t_x,t_y,t_w,t_h)±(ε_xt_x,ε_yt_y,ε_wt_w,ε_ht_h)

其中，抖动系数ε_x,ε_y,ε_w,ε_h是从均匀分布U(-δ_aug,+δ_aug)中随机采样所得，δ_aug可以是一个很小的值，以确保增强种子候选框Γb_i在种子候选框b_i附近。

通过在种子候选框上应用“候选框抖动”策略，可以将种子候选框扩展到增强种子候选框，其中，增强种子候选框Γb_i的类标签和种子候选框b_i的类标签相同。由此，以通过种子候选框增强，纠正种子候选框中的噪声。示例性的，继续参阅图6，对图6的(A)中的种子候选框61进行增强后，可以得到图6的(B)中所示的增强种子候选框62。

在一些实施例中，SPR子网120中候选框生成模块122所执行的部分或全部流程，也可以在SPG子网130中执行，具体可根据实际情况而定，此处不做限定。

在SPG子网120生成种子候选框(即伪标签框集合(A))后，SPG子网120可以将生成的种子候选框输送至SPR子网130中。

在S203，利用目标检测模块100中的SPR子网130生成类别数据集(I)的预测标签框的预测标签框集合(B)。

在一些实施例中，继续参阅图1和4，SPR子网130获取到主干模块1121和分支模块1123依次基于自注意力机制对卷积层111处理后的图像特征进行处理的图像特征后，可以先利用编码器131对获取到的图像特征进行编码，然后再由解码器132对编码后的特征进行处理，得到预测标签框集合(B)。其中，在编码器132中，可以定义一组稀疏候选框标记t_p∈R^K ^×D，K为事先定义的目标检测个数的最大值。稀疏候选框标记t_p可以和编码器131编码后的特征进行条件交叉注意，得到编码之后的

随后，可以将

输入到FFN，以预测到K个稀疏候选框和各个稀疏候选框对应的类别，从而得到预测标签框集合(B)。

在S204，SPR子网130基于预测标签框集合(B)和伪标签框集合(A)，反向更新SPG子网120的网络参数G(θ)和SPR子网130的网络参数G(γ)。

在一些实施例中，SPR子网130中的一对一候选框匹配模块133可以以伪标签框集合(A)中的种子候选框作为伪目标，利用二分图匹配算法，比如匈牙利算法(hungarianalgorithm)，对伪标签框集合(A)中的种子候选框和预测标签框集合(B)中的稀疏候选框进行最佳二分匹配，从而选取预测标签框集合(B)中和伪标签框集合(A)相似度最高的同等个数预测结果。例如：若伪标签框集合(A)包含的伪标签框为a₀和a₁，预测标签框集合(B)包含的稀疏候选框为b₀、b₁和b₂，则可以先以a₀为目标，从预测标签框集合(B)中选出和a₀相似度最高的b₀，那么匹配结果就是(a₀，b₀)；接着，再以a₁为目标，从预测标签框集合(B)中选出和a₂相似度最高的b₁，那么匹配结果就是(a₁，b₁)；其中，在以a₁为目标的选取过程中，可以先从预测标签框集合(B)中剔除b₀，再进行筛选，由此以减少后续的计算量。

接着，可以基于预先设定的损失函数，对匹配结果进行处理，确定出SPR子网130的损失。最后，可以基于确定出的损失反向更新SPG子网120的网络参数G(θ)和SPR子网130的网络参数G(γ)。示例性的，SPR子网130中的损失函数可以如下所示：

其中，l_FL(*)、l_L1(*)和l_GIoU(*)分别是Focal Loss、L1 loss和Generalized IoUloss，λ_FL、λ_L1和λ_GIoU是正则化因子，o_i是第i个语义分类，b_i是第i个语义分类对应的种子候选框，

是第

个种子候选框的语义分类，

表示第i个稀疏候选框匹配到了第m个种子候选框，

是第

个种子候选框。

在一些实施例中，可以重复S202至S204直到达到预先设置好的训练次数，或者，SPR子网130基于预测标签框集合(B)和伪标签框集合(A)，确定出的损失低于预设损失。

在将目标检测模型100训练为所需的模型后，可以使用该目标检测模型100进行目标检测。在使用目标检测模型100进行目标检测时，可以将待检测的图像输入到目标网络模型100中，目标网络模型100中的卷积层111、主干模块1121、分支模块1123处理、SPR子网130中的编码器131和解码器132可以依次对该图像进行处理。最后，由SPR子网130中的编码器132输出检测结果。示例性的，检测结果中可以包括检测到的目标的物体框和类别。

示例性的，在进行目标检测时，可以只使用目标检测模型100中的SPR子网130和在骨干网110中与SPR子网130相关的模块，而无需使用SPG子网120和在骨干网110中与SPG子网120相关的模块，由此以减少目标检测模型100的计算量。

在一些实施例中，SPR子网130在处理过程中，还可以确定出图像中所包含的各个物体的类别的分数，以及由各个物体的类别的分数，对检测到的物体所对应的物体框(即检测到的候选框)进行筛选，由此以筛选出所需的物体框。示例性的，当物体的类别的分数大于预设阈值(比如0.3)时，可以确定该物体所对应的物体框是所需的物体框。

接下来，基于上文所描述的内容，对本申请实施例提供的一种伪标签框生成方法进行介绍。可以理解的是，该方法是基于上文所描述的内容提出，该方法中的部分或全部内容可以参见上文中的描述。

请参阅图7，图7是本申请实施例提供的一种伪标签框生成方法的流程示意图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图7所示，该伪标签框生成方法可以包括：

在S701，确定目标图像中各个目标的类别，以得到N个类别。示例性的，可以通过人工或机器自动标注的方式确定目标图像中各个目标的类别，以得到N个类别。示例性的，该目标图像可以但不限于为图3中所示的图像。

在S702，基于N个类别，对目标图像进行处理，以得到N个注意力图，其中，每个注意力图均与N个类别中的一个类别相关联，每个注意力图均用于显著呈现目标图像中一个类别的目标。示例性的，可以通过上文图1中所示的目标检测模型100对目标图像进行处理，以得到N个注意力图；其中，处理过程可以参考上文图2中S202所描述的过程。

作为一种可能的实现方式，可以先基于C个第一标记，并通过注意力机制，对目标图像中进行处理，以得到C个注意力图和C个类别的分类得分，每个第一标记均用于对一个类别的语义进行学习，C≥N。接着，再基于C个类别的分类得分，从C个注意力图中筛选出N个注意力图，其中，与N个注意力图相关联的每个类别的分类得分均高于预设分数阈值。由此，以得到N个注意力图。示例性的，第一标记可以为前述的语义类别感知标记，注意力图可以为图5中的(B)所示的图像。

在S703，基于N个注意力图，得到目标图像中各个目标的伪标签框。示例性的，可以对N个注意力图中的每个注意力图均进行二值化处理，并利用连通域的方式对二值化处理后的图像进行处理，以得到目标图像中各个目标的伪标签框。其中，该过程可以参考上文图2中S202所描述的过程。

由此，基于目标图像中目标的类别的数量，获取到与该数量相等数量的注意力图，且每个注意力图上均可以显著性的呈现出目标图像中属于同一类别的至少一个目标，并由获取到的注意力图，可以得到目标图像中各个目标的伪标签框。由于获取到的注意力图的数量是有限的，因此由注意力图得到的候选框的数量也是有限的，从而使得不需要枚举密集的、冗余的且低精度的伪标签框，进而可以便于后续的目标检测模型训练，提升目标检测精度。

在一些实施例中，针对获取到的任意一个伪标签框，可以调整任意一个伪标签框在至少一个方向上的尺寸，以得到目标伪标签框，目标伪标签框内包含有一个完整的目标。由此以过滤掉伪标签框中的噪声，提升后续模型训练的精度。其中，该策略可以等效于前述的“候选框抖动”策略。示例性的，继续参阅图6，图6的(A)中所示的框61可以为伪标签框，图6的(B)中所示的框62可以为目标伪标签框。

在一些实施例中，该图7中所示的方法，还可以对目标图像中所包含的目标进行检测，以得到预测标签框集合，预测标签框集合中包括目标图像中各个目标的预测标签框。以及，基于伪标签框集合和预测标签框集合，对目标检测模型进行训练，伪标签框集合中包括目标图像中各个目标的伪标签框。由此，以得到目标检测模型，进而可以基于该目标检测模型进行目标检测。示例性的，该过程可以为上文图2中S203和S204中所描述的过程。

作为一种可能的实现方式，在基于伪标签框集合和预测标签框集合，对目标检测模型进行训练时，可以先基于伪标签框集合中的各个伪标签框，从预测标签框集合中选取x个预测标签框，x的取值与伪标签框的数量相等，x个预测标签框中的中每个标签框均与伪标签框集合中的一个伪标签框相关联。然后，再基于伪标签框集合中的伪标签框和x个预测标签框，更新目标检测模型中第一网络和第二网络的网络参数，第一网络用于得到伪标签框集合，第二网络用于得到预测标签框集合。由此通过这种一对一匹配的方式，降低了后续的计算量，提升了模型训练的速度。示例性的，第一网络可以为图1中所示的SPG子网120，第二网络可以为图1中所示的SPR子网130。

基于上述实施例中的方法，本申请实施例提供了一种伪标签框生成装置。请参阅图8，图8是本申请实施例提供的一种伪标签框生成装置的结构示意图。

如图8所示，该伪标签框生成装置800，可以包括：确定模块801和处理模块802。其中，确定模块801可以用于确定目标图像中各个目标的类别，以得到N个类别。处理模块802可以用于基于N个类别，对目标图像进行处理，以得到N个注意力图，其中，每个注意力图均与N个类别中的一个类别相关联，每个注意力图均用于显著呈现目标图像中一个类别的目标。另外，处理模块802还可以用于基于N个注意力图，得到目标图像中各个目标的伪标签框。

在一些实施例中，处理模块802在对目标图像进行处理，以得到N个注意力图时，具体用于：基于C个第一标记，并通过注意力机制，对目标图像中进行处理，以得到C个注意力图和C个类别的分类得分，每个第一标记均用于对一个类别的语义进行学习，C≥N；基于C个类别的分类得分，从C个注意力图中筛选出N个注意力图，其中，与N个注意力图相关联的每个类别的分类得分均高于预设分数阈值。

在一些实施例中，处理模块802在基于N个注意力图，得到目标图像中各个目标的伪标签框之后，还用于：针对任意一个伪标签框，调整任意一个伪标签框在至少一个方向上的尺寸，以得到目标伪标签框，目标伪标签框内包含有一个完整的目标。

在一些实施例中，处理模块802在基于N个注意力图，得到目标图像中各个目标的伪标签框时，具体用于：对N个注意力图中的每个注意力图均进行二值化处理，并利用连通域的方式对二值化处理后的图像进行处理，得到目标图像中各个目标的伪标签框。

在一些实施例中，处理模块802，还用于：对目标图像中所包含的目标进行检测，以得到预测标签框集合，预测标签框集合中包括目标图像中各个目标的预测标签框；基于伪标签框集合和预测标签框集合，对目标检测模型进行训练，伪标签框集合中包括目标图像中各个目标的伪标签框。

在一些实施例中，处理模块802在基于伪标签框集合和预测标签框集合，对目标检测模型进行训练时，具体用于：基于伪标签框集合中的各个伪标签框，从预测标签框集合中选取x个预测标签框，x的取值与伪标签框的数量相等，x个预测标签框中的中每个标签框均与伪标签框集合中的一个伪标签框相关联；基于伪标签框集合中的伪标签框和x个预测标签框，更新目标检测模型中第一网络和第二网络的网络参数，第一网络用于得到伪标签框集合，第二网络用于得到预测标签框集合。

应当理解的是，上述装置用于执行上述实施例中的方法，装置中相应的程序模块，其实现原理和技术效果与上述方法中的描述类似，该装置的工作过程可参考上述方法中的对应过程，此处不再赘述。

基于上述实施例中的方法，本申请实施例提供了一种电子设备。该电子设备可以包括：至少一个存储器，用于存储程序；至少一个处理器，用于执行存储器存储的程序；其中，当存储器存储的程序被执行时，处理器用于执行上述实施例中的方法。

基于上述实施例中的方法，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序在处理器上运行时，使得处理器执行上述实施例中的方法。

基于上述实施例中的方法，本申请实施例提供了一种计算机程序产品，其特征在于，当计算机程序产品在处理器上运行时，使得处理器执行上述实施例中的方法。

基于上述实施例中的方法，本申请实施例还提供了一种芯片。请参阅图9，图9为本申请实施例提供的一种芯片的结构示意图。如图9所示，芯片900包括一个或多个处理器901以及接口电路902。可选的，芯片900还可以包含总线903。其中：

处理器901可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器901可以是通用处理器、数字通信器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

接口电路902可以用于数据、指令或者信息的发送或者接收，处理器901可以利用接口电路902接收的数据、指令或者其它信息，进行加工，可以将加工完成信息通过接口电路902发送出去。

可选的，芯片900还包括存储器，存储器可以包括只读存储器和随机存取存储器，并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(NVRAM)。

可选的，存储器存储了可执行软件模块或者数据结构，处理器可以通过调用存储器存储的操作指令(该操作指令可存储在操作系统中)，执行相应的操作。

可选的，接口电路902可用于输出处理器901的执行结果。

需要说明的，处理器901、接口电路902各自对应的功能既可以通过硬件设计实现，也可以通过软件设计来实现，还可以通过软硬件结合的方式来实现，这里不作限制。

应理解，上述方法实施例的各步骤可以通过处理器中的硬件形式的逻辑电路或者软件形式的指令完成。

可以理解的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。此外，在一些可能的实现方式中，上述实施例中的各步骤可以根据实际情况选择性执行，可以部分执行，也可以全部执行，此处不做限定。

可以理解的是，本申请的实施例中的处理器可以是中央处理单元(centralprocessing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable rom，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。

Claims

1.一种伪标签框生成方法，其特征在于，所述方法包括：

确定目标图像中各个目标的类别，以得到N个类别；

基于所述N个类别，对所述目标图像进行处理，以得到N个注意力图，其中，每个所述注意力图均与所述N个类别中的一个类别相关联，每个所述注意力图均用于呈现所述目标图像中一个类别的目标；

基于所述N个注意力图，得到所述目标图像中各个目标的伪标签框。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标图像进行处理，以得到N个注意力图，具体包括：

基于C个第一标记，并通过注意力机制，对所述目标图像中进行处理，以得到C个注意力图和C个类别的分类得分，每个所述第一标记均用于对一个类别的语义进行学习，C≥N；

基于所述C个类别的分类得分，从所述C个注意力图中筛选出所述N个注意力图，其中，与所述N个注意力图相关联的每个类别的分类得分均高于预设分数阈值。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述N个注意力图，得到所述目标图像中各个目标的伪标签框之后，所述方法还包括：

针对任意一个伪标签框，调整所述任意一个伪标签框在至少一个方向上的尺寸，以得到目标伪标签框，所述目标伪标签框内包含有一个完整的目标。

4.根据权利要求1-3任一所述的方法，其特征在于，所述基于所述N个注意力图，得到所述目标图像中各个目标的伪标签框，具体包括：

对所述N个注意力图中的每个注意力图均进行二值化处理，并利用连通域的方式对二值化处理后的图像进行处理，得到所述目标图像中各个目标的伪标签框。

5.根据权利要求1-4任一所述的方法，其特征在于，所述方法还包括：

对所述目标图像中所包含的目标进行检测，以得到预测标签框集合，所述预测标签框集合中包括所述目标图像中各个目标的预测标签框；

基于伪标签框集合和所述预测标签框集合，对目标检测模型进行训练，所述伪标签框集合中包括所述目标图像中各个目标的伪标签框。

6.根据权利要求5所述的方法，其特征在于，所述基于伪标签框集合和所述预测标签框集合，对目标检测模型进行训练，具体包括：

基于所述伪标签框集合中的各个伪标签框，从所述预测标签框集合中选取x个预测标签框，x的取值与所述伪标签框的数量相等，所述x个预测标签框中的中每个标签框均与所述伪标签框集合中的一个伪标签框相关联；

基于所述伪标签框集合中的伪标签框和所述x个预测标签框，更新所述目标检测模型中第一网络和第二网络的网络参数，所述第一网络用于得到所述伪标签框集合，所述第二网络用于得到所述预测标签框集合。

7.一种伪标签框生成装置，其特征在于，所述装置包括：

确定模块，用于确定目标图像中各个目标的类别，以得到N个类别；

处理模块，用于基于所述N个类别，对所述目标图像进行处理，以得到N个注意力图，其中，每个所述注意力图均与所述N个类别中的一个类别相关联，每个所述注意力图均用于呈现所述目标图像中一个类别的目标；

所述处理模块，还用于基于所述N个注意力图，得到所述目标图像中各个目标的伪标签框。

8.根据权利要求7所述的装置，其特征在于，所述处理模块在对所述目标图像进行处理，以得到N个注意力图时，具体用于：

9.根据权利要求7或8所述的装置，其特征在于，所述处理模块在基于所述N个注意力图，得到所述目标图像中各个目标的伪标签框之后，还用于：

10.根据权利要求7-9任一所述的装置，其特征在于，所述处理模块在基于所述N个注意力图，得到所述目标图像中各个目标的伪标签框时，具体用于：

11.根据权利要求7-10任一所述的方法，其特征在于，所述处理模块，还用于：

12.根据权利要求11所述的装置，其特征在于，所述处理模块在基于伪标签框集合和所述预测标签框集合，对目标检测模型进行训练时，具体用于：

13.一种电子设备，其特征在于，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于执行所述存储器存储的程序；

其中，当所述存储器存储的程序被执行时，所述处理器用于执行如权利要求1-6任一所述的方法。

14.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序在处理器上运行时，使得所述处理器执行如权利要求1-6任一所述的方法。

15.一种计算机程序产品，其特征在于，当所述计算机程序产品在处理器上运行时，使得所述处理器执行如权利要求1-6任一所述的方法。

16.一种芯片，其特征在于，包括至少一个处理器和接口；

所述至少一个处理器通过所述接口获取程序指令或者数据；

所述至少一个处理器用于执行所述程序行指令，以实现如权利要求1-6任一所述的方法。