CN116363459A

CN116363459A - 目标检测方法、模型训练方法、装置、电子设备及介质

Info

Publication number: CN116363459A
Application number: CN202310317276.1A
Authority: CN
Inventors: 陈子亮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-06-30

Abstract

本公开提供了目标检测方法、模型训练方法、装置、电子设备及介质，涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为：获取待检测图像，对所述待检测图像进行特征提取，获取所述待检测图像的图像特征图；通过预先训练的目标检测网络的编码器，对所述图像特征图进行编码，获取所述待检测图像的全局注意力特征；通过所述目标检测网络的第一解码器，对所述全局注意力特征进行特征映射，获取所述待检测图像的回归特征；通过所述目标检测网络的第二解码器，对所述全局注意力特征进行特征映射，获取所述待检测图像的分类特征。

Description

目标检测方法、模型训练方法、装置、电子设备及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习等技术领域。具体而言，本公开涉及一种目标检测方法、模型训练方法、装置、电子设备及介质。

背景技术

目标检测任务通常涉及两个任务，确定目标物体类别的分类任务以及确定目标物体的大小以及位置信息的回归任务。

分类任务和回归任务所需要的特征往往不一致，存在天然的冲突性。

发明内容

本公开提供了一种目标检测方法、模型训练方法、装置、电子设备及介质。

根据本公开的第一方面，提供了一种目标检测方法，该方法包括：

获取待检测图像，对所述待检测图像进行特征提取，获取所述待检测图像的图像特征图；

通过预先训练的目标检测网络的编码器，对所述图像特征图进行编码，获取所述待检测图像的全局注意力特征；

通过所述目标检测网络的第一解码器，对所述全局注意力特征进行特征映射，获取所述待检测图像的回归特征；通过所述目标检测网络的第二解码器，对所述全局注意力特征进行特征映射，获取所述待检测图像的分类特征；

将所述回归特征输入所述目标检测网络的回归预测层，获取预测框的位置；将所述分类特征输入所述目标检测网络的分类预测层，获取所述预测框内目标所属的类别。

根据本公开的第二方面，提供了一种目标检测模型的训练方法，该方法包括：

获取待训练图像、所述待训练图像中目标对应的目标框的位置、所述待训练图像中目标所属的类别；

对所述待训练图像进行特征提取，获取所述待训练图像的图像特征图；通过目标检测网络的编码器，对所述图像特征图进行编码，获取所述待训练图像的全局注意力特征；

通过所述目标检测网络的第一解码器，对所述全局注意力特征进行特征映射，获取所述待训练图像的回归特征；通过所述目标检测网络的第二解码器，对所述全局注意力特征进行特征映射，获取所述待训练图像的分类特征；

基于所述回归特征和所述分类特征确定回归损失和分类损失；根据所述回归损失和所述分类损失对所述目标检测网络进行训练。

根据本公开的第三方面，提供了一种目标检测装置，该装置包括：

主干网络模块，用于获取待检测图像，对所述待检测图像进行特征提取，获取所述待检测图像的图像特征图；

编码器模块，用于通过预先训练的目标检测网络的编码器，对所述图像特征图进行编码，获取所述待检测图像的全局注意力特征；

解码器模块，用于通过所述目标检测网络的第一解码器，对所述全局注意力特征进行特征映射，获取所述待检测图像的回归特征；通过所述目标检测网络的第二解码器，对所述全局注意力特征进行特征映射，获取所述待检测图像的分类特征；

预测模块，用于将所述回归特征输入所述目标检测网络的回归预测层，获取预测框的位置；将所述分类特征输入所述目标检测网络的分类预测层，获取所述预测框内目标所属的类别。

根据本公开的第四方面，提供了一种目标检测模型的训练装置，该装置包括：

数据获取模块，用于获取待训练图像、所述待训练图像中目标对应的目标框的位置、所述待训练图像中目标所属的类别；

特征训练模块，用于对所述待训练图像进行特征提取，获取所述待训练图像的图像特征图；通过目标检测网络的编码器，对所述图像特征图进行编码，获取所述待训练图像的全局注意力特征；

解码训练模块，用于通过所述目标检测网络的第一解码器，对所述全局注意力特征进行特征映射，获取所述待训练图像的回归特征；通过所述目标检测网络的第二解码器，对所述全局注意力特征进行特征映射，获取所述待训练图像的分类特征；

反向传播模块，用于基于所述回归特征和所述分类特征确定回归损失和分类损失；根据所述回归损失和所述分类损失对所述目标检测网络进行训练。

根据本公开的第五方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与上述至少一个处理器通信连接的存储器；其中，

存储器存储有可被上述至少一个处理器执行的指令，指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行上述目标检测方法和目标检测模型的训练方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使计算机执行上述目标检测方法和目标检测模型的训练方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述目标检测方法和目标检测模型的训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是相关技术中的一种目标检测方法的示意图；

图2是相关技术中的一种目标检测方法的示意图；

图3是本公开实施例提供的一种目标检测方法的流程示意图；

图4是本公开实施例提供的一种目标检测方法的部分步骤的流程示意图；

图5是本公开实施例提供的一种目标检测方法的一个具体实施例的示意图；

图6本公开实施例提供的一种目标检测模型的训练方法的流程示意图；

图7是本公开实施例提供的一种目标检测装置的结构示意图；

图8是本公开实施例提供的一种目标检测模型的训练装置的结构示意图；

图9是用来实现本公开实施例的目标检测方法和目标检测模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在一些相关技术中，可以以CNN(卷积神经网络)为基础的神经网络完成目标检测任务，主要包括以YOLO、SSD(The Single Shot Detector，单次探测器)为代表的One-Stage(一阶段)方法，以及以Faster_RCNN(Faster Region Convolutional Neural Network，快速区域卷积神经网络)为代表的Two-Stage(两阶段)的方法。

作为一种示例，经典的以CNN为基础的目标检测网络的结构可以如图1所示，将待检测图像作为Input(输入)，输入Backbone(主干网络)提取待检测图像的图像特征，并输入Neck(瓶颈结构)，对提取的特征进行多尺度的特征融合，将融合后的特征分别输入Classification Head(分类网络)和Regression Head(回归网络)，来使分类特征和回归特征互不干扰，在一定程度上缓解分类特征和回归特征耦合的问题。

以CNN为基础的目标检测网络的训练过程也可以如图1所示，根据ClassificationHead输出的类别与实际的目标类别的差别，获取Classification Loss(分类损失)；根据Regression Head输出的预测框与实际的目标框的差别，获取Regression Loss(回归损失)；根据Classification Loss和Regression Loss进行反向传播，对Backbone、Neck、Classification Head、Regression Head进行训练。

但以CNN为基础的神经网络都需要进行Dense(稠密)检测，然后通过NMS(非极大值抑制)来过滤多余的目标。

在一些相关技术中，可以使用以DETR(DEtection TRansformer，Transformer的视觉版本)为基础的神经网络完成目标检测任务，依赖transformer组成的encoder(编码器)和decoder(解码器)的结构，并且使用了匈牙利1对1的匹配损失来优化网络，以消除NMS步骤，简化了目标检测流程。

作为一种示例，DETR网络可以如图2所示，将待检测图像作为Input(输入)，输入Backbone(主干网络)提取待检测图像的图像特征，并输入Encode(编码器)，根据提取的特征获取全局注意力特征，将全局注意力特征输入Decoder(解码器)，将全局注意力特征映射至query(查询特征向量，即图2中填充斜线的圆)，获取包含了分类特征和回归特征的query(即图2中填充格子的圆)，将包含了分类特征和回归特征的query分别输入ClassificationHead(分类网络)和Regression Head(回归网络)，来获取预测框以及预测框内目标所属的类别。

DETR的训练过程也可以如图2所示，根据Classification Head输出的类别与实际的目标类别的差别，获取Classification Loss(分类损失)；根据Regression Head输出的预测框与实际的目标框的差别，获取Regression Loss(回归损失)；根据ClassificationLoss和Regression Loss进行反向传播，对Backbone、Encoder、Decoder、ClassificationHead、Regression Head进行训练。

以DETR为基础的神经网络，同以CNN为基础的神经网络一样，是通过分类网络和回归网络分别对特征进行处理在一定程度上缓解分类特征和回归特征耦合的问题。

这样做分类特征和回归特征的解耦并不彻底，并不能解决分类特征和回归特征耦合的问题。

本公开实施例提供的目标检测方法、目标检测模型的训练方法、目标检测装置、目标检测模型的训练装置、电子设备及计算机可读存储介质，旨在解决现有技术的如上技术问题中的至少一个。

本公开实施例提供的目标检测方法、目标检测模型的训练方法可以由终端设备或服务器等电子设备执行，终端设备可以为车载设备、用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等，所述方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。或者，可通过服务器执行所述方法。

图3示出了本公开实施例提供的一种目标检测方法的流程示意图，如图3中所示，该方法主要可以包括步骤S310、步骤S320、步骤S330、步骤S340。

在步骤S310中，获取待检测图像，对待检测图像进行特征提取，获取待检测图像的图像特征图；

在步骤S320中，通过预先训练的目标检测网络的编码器，对图像特征图进行编码，获取待检测图像的全局注意力特征；

在步骤S330中，通过目标检测网络的第一解码器，对全局注意力特征进行特征映射，获取待检测图像的回归特征；通过目标检测网络的第二解码器，对全局注意力特征进行特征映射，获取待检测图像的分类特征；

在步骤S340中，将回归特征输入目标检测网络的回归预测层，获取预测框的位置；将分类特征输入目标检测网络的分类预测层，获取预测框内目标所属的类别。

举例来说，在步骤S310中，待检测图像为需要进行目标检测的图像，该待检测图像可以为在线采集的图像，比如可以通过网络爬虫技术，在线采集待检测的目标图像，或者，待检测图像也可以为线下采集的图像，或者，待检测图像也可以为实时采集的图像，或者，待检测图像也可以为人工合成的图像，等等，本公开实施例对此并不做限制。

应当理解的是，待检测图像也可以为视频中的某一帧视频帧，可以从视频中提取待检测图像，其中，上述视频可以称为待检测视频，该待检测视频的获取方式与上述待检测图像的获取方式类似，在此不做赘述。

在一些可能的实现方式中，可以使用传统的图像处理方法，对待检测图像进行特征提取，获取待检测图像的图像特征图；

在一些可能的实现方式中，为了提升特征提取结果的准确性以及特征提取结果的可靠性，可以使用神经网络，对目标图像进行特征提取，得到待检测图像的图像特征图。

在一些可能的实现方式中，可以使用主流的CNN网络对待检测图像进行特征提取，得到图像特征图。例如，可以使用ResNet(残差网络)系列(如ResNet 34，ResNet50，ResNet101等网络)、DarkNet(使用C和CUDA编写的开源的神经网络框架)系列(比如DarkNet19，DarkNet53)等。

在一些可能的实现方式中，将提取待检测图像的CNN网络作为目标检测网络的backbone(主干分支)，与目标检测网络的其他部分一起训练。

在一些可能的实现方式中，为了实现兼顾特征提取结果的准确性和减少对资源的占用以及检测速度，可以根据业务的应用场景，选择合适的backbone对待检测图像进行特征提取。

在一些具体的实现方式中，可以根据应用场景从轻量级的结构(比如ResNet18，ResNet34，DarkNet19等)、中型结构(比如ResNet50，ResNeXt(ResNeXt是ResNet和Inception(一种卷积神经网络)的结合体)50，DarkNet53等)、重型结构(比如ResNet101，ResNeXt152)，选择backbone的具体网络结构。

在步骤S320中，在一些可能的实现方式中，目标检测网络的编码器(Encoder)可以是以Transformer模型的编码器，也可以是以Transformer变种模型的编码器。

在一些可能的实现方式中，编码器的网络结构与相关技术中DETR网络的编码器结构一致。

在一些可能的实现方式中，编码器对图像特征图进行编码，可以是编码器将图像特征图中每一个特征点与图像特征图的其他特征点计算相关度，从而将其他特征点的信息集中到该特征点中，获取全局注意力特征。

在一些具体的实现方式中，可以先将图像特征图经过1×1的卷积进行降维，再输入编码器。

在一些具体的实现方式中，编码器基于自注意力机制(Self-Attention)，以及多头自注意力机制(Multi-Head Self-Attention)等包括在图像特征图上进行全局分析，提取不同位置的不同物理之间的相互关系，获取全局注意力特征。

在步骤S330中，在一些可能的实现方式中，第一解码器和第二解码器可以是以Transformer模型的解码器(Encoder)，也可以是以Transformer变种模型的解码器。

在一些可能的实现方式中，可以将全局注意力特征映射至预设的查询特征向量(query)。

在一些可能的实现方式中，query的数量可以是预先设定的。

在一些可能的实现方式中，将全局注意力映射至预设的query可以是根据编码器输出的全局注意力特征确定内容特征(即V值)以及键值特征(即K值)，基于查询特征向量确定查询特征(即Q值)，基于内容特征、键值特征以及查询特征进行交叉注意力处理，完成特征映射，得到回归特征或分类特征。

在一些可能的实现方式中，基于内容特征、键值特征以及查询特征进行交叉注意力处理，完成特征映射可以是基于查询特征以及键值特征确定注意力权重，基于注意力权重以及内容特征，确定注意力特征，完成特征映射。

在一些可能的实现方式中，第一解码器和第二解码器可以是结构不同，权重不同的解码器。在一些可能的实现方式中，第一解码器和第二解码器也可以是结构相同，权重不同的解码器。

在一些具体的实现方式中，第一解码器和第二解码器的基本结构可以是相同的，都为Transformer模型的解码器的基本结构，第一解码器和第二解码器都可以由多个级联的Transformer模型的解码器的基本结构组成。

在一些具体的实现方式中，可以根据待检测图像的目标的属性来确定第一解码器和第二解码器包括的Transformer模型的解码器的基本结构的数量。

在一些可能的实现方式中，待检测图像的目标是形状较为规整的目标(如桌子、书本等形状确定的目标)，确定目标的大小以及位置会比较容易，对获取的回归特征的准确性要求较低，因此，可以使用较少数量的的Transformer模型的解码器的基本结构来获取回归特征。

在一些可能的实现方式中，待检测图像的目标可能是较小的目标，或者是形状比较不规整的目标(如形状比较复杂的植物等)，确定目标的大小以及位置会比较困难，对获取的回归特征要求较高，因此，可以使用较多数量的的Transformer模型的解码器的基本结构来获取回归特征。

在一些可能的实现方式中，待检测图像的目标可能是特征比较明显的目标(如自行车和汽车的特征区别就比较大，比较容易区分)，确定目标的类别会比较容易，对获取的分类特征要求较低，因此，可以使用较少数量的的Transformer模型的解码器的基本结构来获取回归特征。

在一些可能的实现方式中，待检测图像的目标可能是特征不太明显的目标(如不同种类的汽车之间的特征区别就比较小，比较不容易区分)，确定目标的类别会比较困难，对获取的分类特征要求较高，因此，可以使用较多数量的的Transformer模型的解码器的基本结构来获取回归特征。

在一些可能的实现方式中，可以通过第一解码器将全局注意力特征映射至预设的query，来获取回归query。

在一些可能的实现方式中，可以通过第二解码器将全局注意力特征映射至预设的query，来获取分类query。

在一些可能的实现方式中，第一解码器和第二解码器级联。

在一些可能的实现方式中，第一解码器和第二解码器的级联顺序为第二解码器的输出为第一解码器的输入，也就是，第二解码器连接第一解码器。

在一些可能的实现方式中，第一解码器和第二解码器的级联顺序为第一解码器的输出为第二解码器的输入，也就是，第一解码器连接第二解码器。

也就是说，在一些可能的实现方式中，可以通过第一解码器将全局注意力特征映射至预设的query，来获取回归query；可以通过第二解码器将全局注意力特征映射至回归query，来获取分类query。

在步骤S340中，在一些可能的实现方式中，目标可以包括车辆、人、物体、动物等任一目标对象，目标所属的类别可以包括车辆、人、动物、物体等类别。

在一些可能的实现方式中，回归预测层可以是进行回归预测的网络，分类预测层可以是进行类别预测的网络。

在一些可能的实现方式中，回归预测层和分类预测层可以是FFN(Feed-ForwardNetwork，前馈神经网络)，回归预测层和分类预测层可以包括串联的多个FFN。

由于分类任务和回归任务需要的特征往往不一致，分类任务需要更高级别的语义信息来确保目标能够区分成不同的类别，学习到的特征往往集中在物体的核心显著性区域；而回归任务由于是定位物体的大小以及位置，学习到的特征往往是在物体边缘区域，靠近背景的前景区域的特征比较显著，学习到的特征往往分布在物体的周围而不是在中心。

本公开实施例的目标检测方法在使用通过分类网络(即分类预测层)和回归网络(回归预测层)分别对特征进行处理在一定程度上缓解分类特征和回归特征耦合的问题的基础上，使用不同的解码器来获取分类特征和回归特征，实现了对分类query和回归query的彻底解耦，以及分类特征和回归特征的彻底解耦，使得目标检测网络可以同时聚焦于分类特征和回归特征的表达，增强目标检测网络的特征表达能力，从而提升目标检测的效果。

下面对本公开实施例的目标检测方法进行具体介绍。

如上所述，本公开实施例的目标检测方法中，第一解码器和第二解码器级联。

第一解码器和第二解码器级联组成目标检测网络的解码器，一方面可以减少本公开实施例使用的目标检测网络的网络结构与DETR的网络结构的差别，使得本公开实施例使用的目标检测网络更容易实现和应用，也更容易迁移至以DETR为基础的目标检测网络中。

在一些具体的实现方式中，可以将本公开实施例的目标检测网络迁移至DN-DETR，来解决DETR网络收敛速度慢的问题。具体的，可以在本公开实施例使用的目标检测网络的基础上添加额外的去噪任务来达到网络优化的稳定性，加快网络的收敛速度。

在一些具体的实现方式中，可以将本公开实施例的目标检测网络迁移至DAB-DETR，来解决DETR中query的概念是模糊的，纯粹是靠网络去学习，没有明确的语义信息的问题。具体的，可以在本公开实施例使用的目标检测网络的基础上通过query显式的建模成目标检测器中的anchor(锚)，使其具有明确的语义信息。

第一解码器和第二解码器级联组成目标检测网络的解码器，另一方面也可以减少预设query的数量(因为只需要为第一解码器设置预设query)，进而减少目标检测网络的资源占用，加快目标检测网络的处理速度。

在一些可能的实现方式中，可以通过第一解码器将全局注意力特征映射至预设的query，来获取回归query；可以通过第二解码器将全局注意力特征映射至回归query，来获取分类query。

图4示出了本公开实施例提供的一种目标检测方法中通过第一解码器将全局注意力特征映射至预设的query，来获取回归query，通过第二解码器将全局注意力特征映射至回归query，来获取分类query的流程示意图，如图4中所示，该方法主要可以包括步骤S410、步骤S420。

在步骤S410中，通过目标检测网络的第一解码器，将全局注意力特征映射至预设的查询特征向量，获取待检测图像的回归特征；

在步骤S420中，通过目标检测网络的第二解码器，将全局注意力特征映射至回归特征，获取待检测图像的分类特征。

在一些可能的实现方式中，在步骤S410中，将全局注意力映射至预设的query可以是根据编码器输出的全局注意力特征确定内容特征(即V值)以及键值特征(即K值)，基于查询特征向量确定查询特征(即Q值)，基于内容特征、键值特征以及查询特征进行交叉注意力处理，完成特征映射，得到回归特征(即回归query)。

在一些可能的实现方式中，在步骤S420中，将全局注意力映射至回归特征可以是根据编码器输出的全局注意力特征确定内容特征(即V值)以及键值特征(即K值)，基于回归特征向量确定查询特征(即Q值)，基于内容特征、键值特征以及查询特征进行交叉注意力处理，完成特征映射，得到分类特征(即分类query)。

先获取回归query，再获取分类query，相当于在回归query继续继续宁特征提取，获取更深层次的语义信息，是符合回归任务需要浅层的边界信息，而分类任务需要高层的语义信息的特点的，因此，先获取回归query，再获取分类query的目标检测网络的特征表达能力和目标检测效果都更好。

同时，回归query显然比预设的query包含更多的信息，对第二编码器来说，相比于在预设的query的基础上，在回归query的基础上进行特征映射，更容易获取分类所需的语义特征，因此，其结构可以更加简单。

在一些可能的实现方式中，第一解码器和第二解码器的基本结构可以是相同的，都为Transformer模型的解码器的基本结构，第一解码器和第二解码器都可以由多个级联的Transformer模型的解码器的基本结构组成。

在一些具体的实现方式中，第一解码器和第二解码器都可以包括3个级联的Transformer模型的解码器的基本结构。也就是说，本公开实施例使用的目标检测网络的解码器共有6层基本结构，其余DETR的解码器包括的基本结构层数一致，因此，使用本公开实施例的目标检测方法进行目标检测所需的时间与DETR所需的检测时间是一致的，并不会增加检测时间。

在一些具体的实现方式中，根据待检测图像的目标的属性，若可以减少第一解码器和第二解码器包含的基本结构的数量，则可以加快检测速度，减少检测需要的时间。

其中，Transformer模型的解码器的基本结构可以是任何以Transformer模型为基础的网络模型的解码器的基本结构，在此不再赘述。

图5示出了本公开实施例提供的目标检测方法的一个具体实施例中目标检测网络的示意图，参照图5，将待检测图像作为Input(输入)，输入Backbone(主干网络)提取待检测图像的图像特征，并输入Encode(编码器)，根据提取的特征获取全局注意力特征，将全局注意力特征输入REG Decoder(即第一解码器)，将全局注意力特征映射至query(查询特征向量，即图5中填充斜线的圆)，获取包含了回归特征的query(即图5中填充格子的圆)，将包含了回归特征的query输入CLA Decoder(即第二解码器)，将全局注意力特征映射至包含了回归特征的query，获取包含了分类特征的query(即图5中填充竖线的圆)。

将包含了回归特征query、输入Regression Head(即回归预测层)，来获取预测框。

将包含了分类特征query分别输入Classification Head(即分类预测层)，来获取预测框内目标所属的类别。

图6示出了本公开实施例提供的目标检测模型的训练方法的流程示意图，如图6中所示，该方法主要可以包括该方法主要可以包括步骤S610、步骤S620、步骤S630、步骤S640。

在步骤S610中，获取待训练图像、待训练图像中目标对应的目标框的位置、待训练图像中目标所属的类别；

在步骤S620中，对待训练图像进行特征提取，获取待训练图像的图像特征图；通过目标检测网络的编码器，对图像特征图进行编码，获取待训练图像的全局注意力特征；

在步骤S630中，通过目标检测网络的第一解码器，对全局注意力特征进行特征映射，获取待训练图像的回归特征；通过目标检测网络的第二解码器，对全局注意力特征进行特征映射，获取待训练图像的分类特征；

在步骤S640中，基于回归特征和分类特征确定回归损失和分类损失；根据回归损失和分类损失对目标检测网络进行训练。

举例来说，在步骤S610中，待训练图像可以为包含了目标的图像，该待训练图像可以为在线采集的图像，比如可以通过网络爬虫技术，在线采集的目标图像，或者，待训练图像也可以为线下采集的图像，或者，待训练图像也可以为人工合成(如经过旋转、缩放等处理)的图像，等等，本公开实施例对此并不做限制。

应当理解的是，待训练图像也可以为视频中的某一帧视频帧，可以从视频中提取待训练图像，其中，上述视频可以称为待训练图像，该待训练图像的获取方式与上述待检测图像的获取方式类似，在此不做赘述。

在一些可能的实现方式中，待训练图像中目标可以包括车辆、人、物体、动物等任一目标对象，目标所属的类别可以包括车辆、人、动物、物体等类别。目标哦对应的目标框可以是包含该目标的最大外接矩形。

在一些可能的实现方式中，在步骤S620中，可以使用传统的图像处理方法，对待训练图像进行特征提取，获取待训练图像的图像特征图；

在一些可能的实现方式中，为了提升特征提取结果的准确性以及特征提取结果的可靠性，可以使用神经网络，对待训练图像进行特征提取，得到待训练图像的图像特征图。

在一些可能的实现方式中，可以使用主流的CNN网络对待训练图像进行特征提取，得到图像特征图。例如，可以使用ResNet(残差网络)系列(如ResNet 34，ResNet50，ResNet101等网络)、DarkNet(使用C和CUDA编写的开源的神经网络框架)系列(比如DarkNet19，DarkNet53)等。

在一些可能的实现方式中，将提取待训练图像的CNN网络作为目标检测网络的backbone(主干分支)，与目标检测网络的其他部分一起训练。

在一些可能的实现方式中，为了实现兼顾特征提取结果的准确性和减少对资源的占用以及检测速度，可以根据业务的应用场景，选择合适的backbone对待训练图像进行特征提取。

在一些可能的实现方式中，目标检测网络的编码器(Encoder)可以是以Transformer模型的编码器，也可以是以Transformer变种模型的编码器。

在步骤S630中，在一些可能的实现方式中，第一解码器和第二解码器可以是以Transformer模型的解码器(Encoder)，也可以是以Transformer变种模型的解码器。

在一些可能的实现方式中，query的数量可以是预先设定的。

在一些可能的实现方式中，第一解码器和第二解码器可以是结构不同，权重不同的解码器。

在一些具体的实现方式中，可以根据待训练图像的目标的属性来确定第一解码器和第二解码器包括的Transformer模型的解码器的基本结构的数量。

在一些可能的实现方式中，待训练图像的目标是形状较为规整的目标(如桌子、书本等形状确定的目标)，确定目标的大小以及位置会比较容易，对获取的回归特征的准确性要求较低，因此，可以使用较少数量的的Transformer模型的解码器的基本结构来获取回归特征。

在一些可能的实现方式中，待训练图像的目标可能是较小的目标，或者是形状比较不规整的目标(如形状比较复杂的植物等)，确定目标的大小以及位置会比较困难，对获取的回归特征要求较高，因此，可以使用较多数量的的Transformer模型的解码器的基本结构来获取回归特征。

在一些可能的实现方式中，待训练图像的目标可能是特征比较明显的目标(如自行车和汽车的特征区别就比较大，比较容易区分)，确定目标的类别会比较容易，对获取的分类特征要求较低，因此，可以使用较少数量的的Transformer模型的解码器的基本结构来获取回归特征。

在一些可能的实现方式中，待训练图像的目标可能是特征不太明显的目标(如不同种类的汽车之间的特征区别就比较小，比较不容易区分)，确定目标的类别会比较困难，对获取的分类特征要求较高，因此，可以使用较多数量的的Transformer模型的解码器的基本结构来获取回归特征。

在一些具体的实现方式中，根据待训练图像的目标的属性，若可以减少第一解码器和第二解码器包含的基本结构的数量，则可以加快检测速度，减少检测需要的时间。

在一些可能的实现方式中，第一解码器和第二解码器级联。

在一些具体的实现方式中，可以将本公开实施例的目标检测网络迁移至DN-DETR，来解决DETR网络收敛速度慢的问题。具体的，可以在本公开实施例使用的目标检测网络的基础上添加额外的去噪任务来达到网络优化的稳定性，加快网络训练过程的收敛速度。

第一解码器和第二解码器级联组成目标检测网络的解码器，另一方面也可以减少预设query的数量(因为只需要为第一解码器设置预设query)，进而减少目标检测网络的资源占用，加快目标检测网络的训练速度。

在一些可能的实现方式中，通过目标检测网络的第一解码器，将全局注意力特征映射至预设的查询特征向量，获取待训练图像的回归特征；通过目标检测网络的第二解码器，将全局注意力特征映射至回归特征，获取待训练图像的分类特征。

在一些可能的实现方式中，将全局注意力映射至预设的query可以是根据编码器输出的全局注意力特征确定内容特征(即V值)以及键值特征(即K值)，基于查询特征向量确定查询特征(即Q值)，基于内容特征、键值特征以及查询特征进行交叉注意力处理，完成特征映射，得到回归特征(即回归query)。

在一些可能的实现方式中，将全局注意力映射至回归特征可以是根据编码器输出的全局注意力特征确定内容特征(即V值)以及键值特征(即K值)，基于回归特征向量确定查询特征(即Q值)，基于内容特征、键值特征以及查询特征进行交叉注意力处理，完成特征映射，得到分类特征(即分类query)。

在一些可能的实现方式中，在步骤S640中，通过将回归特征输入目标检测网络的回归预测层，获取预测框的位置，根据预测框的位置和目标框的位置确定回归损失；

通过将分类特征输入目标检测网络的分类预测层，获取预测框内目标所属的类别，根据待训练图像中目标所属的类别以及预测框内目标所属的类别确定分类损失。

回归预测层可以是进行回归预测的网络，分类预测层可以是进行类别预测的网络。

在一些可能的实现方式中，参照图5，根据预测框的位置和目标框的位置的差别，确定Regression Loss(回归损失)；根据待训练图像中目标所属的类别以及预测框内目标所属的类别的差别，确定Classification Loss(分类损失)。

根据Classification Loss和Regression Loss进行反向传播，对编码器、第一解码器、第二解码器、分类预测层、回归预测层进行训练。在一些可能的实现方式中，主干网络也是目标检测网络的组成，则方向传播也用于对主干网络进行训练。

即对图5中Backbone(主干网络)、Encoder(编码器)、REG Decoder(第一解码器)、CLA Decoder(第二解码器)、Classification Head(分类预测层)、Regression Head(回归预测层)进行训练。

本公开实施例的目标检测模型的训练方法在使用通过分类网络(即分类预测层)和回归网络(回归预测层)分别对特征进行处理在一定程度上缓解分类特征和回归特征耦合的问题的基础上，使用不同的解码器来获取分类特征和回归特征，实现了对分类query和回归query的彻底解耦，以及分类特征和回归特征的彻底解耦，使得目标检测网络可以同时聚焦于分类特征和回归特征的表达，增强目标检测网络的特征表达能力，从而提升目标检测网络的目标检测的效果。

基于与图3中所示的方法相同的原理，图7示出了本公开实施例提供的一种目标检测装置的结构示意图，如图7所示，该目标检测装置70可以包括：

主干网络模块710，用于获取待检测图像，对待检测图像进行特征提取，获取待检测图像的图像特征图；

编码器模块720，用于通过预先训练的目标检测网络的编码器，对图像特征图进行编码，获取待检测图像的全局注意力特征；

解码器模块730，用于通过目标检测网络的第一解码器，对全局注意力特征进行特征映射，获取待检测图像的回归特征；通过目标检测网络的第二解码器，对全局注意力特征进行特征映射，获取待检测图像的分类特征；

预测模块740，用于将回归特征输入目标检测网络的回归预测层，获取预测框的位置；将分类特征输入目标检测网络的分类预测层，获取预测框内目标所属的类别。

本公开实施例的目标检测装置中，在使用通过分类网络(即分类预测层)和回归网络(回归预测层)分别对特征进行处理在一定程度上缓解分类特征和回归特征耦合的问题的基础上，使用不同的解码器来获取分类特征和回归特征，实现了对分类query和回归query的彻底解耦，以及分类特征和回归特征的彻底解耦，使得目标检测网络可以同时聚焦于分类特征和回归特征的表达，增强目标检测网络的特征表达能力，从而提升目标检测网络的目标检测的效果。

可以理解的是，本公开实施例中的目标检测装置的上述各模块具有实现图3中所示的实施例中的目标检测方法相应步骤的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件，上述各模块可以单独实现，也可以多个模块集成实现。对于上述召回装置的各模块的功能描述具体可以参见图3中所示实施例中的目标检测方法的对应描述，在此不再赘述。

基于与图6中所示的方法相同的原理，图8示出了本公开实施例提供的一种目标检测模型的训练装置的结构示意图，如图8所示，该目标检测模型的训练装置80可以包括：

数据获取模块810，用于获取待训练图像、待训练图像中目标对应的目标框的位置、待训练图像中目标所属的类别；

特征训练模块820，用于对待训练图像进行特征提取，获取待训练图像的图像特征图；通过目标检测网络的编码器，对图像特征图进行编码，获取待训练图像的全局注意力特征；

解码训练模块830，用于通过目标检测网络的第一解码器，对全局注意力特征进行特征映射，获取待训练图像的回归特征；通过目标检测网络的第二解码器，对全局注意力特征进行特征映射，获取待训练图像的分类特征；

反向传播模块840，用于基于回归特征和分类特征确定回归损失和分类损失；根据回归损失和分类损失对目标检测网络进行训练。

本公开实施例的目标检测模型的训练装置中，在使用通过分类网络(即分类预测层)和回归网络(回归预测层)分别对特征进行处理在一定程度上缓解分类特征和回归特征耦合的问题的基础上，使用不同的解码器来获取分类特征和回归特征，实现了对分类query和回归query的彻底解耦，以及分类特征和回归特征的彻底解耦，使得模型训练网络可以同时聚焦于分类特征和回归特征的表达，增强模型训练网络的特征表达能力，从而提升模型训练网络的模型训练的效果。

可以理解的是，本公开实施例中的目标检测模型的训练装置的上述各模块具有实现图6中所示的实施例中的目标检测模型的训练方法相应步骤的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件，上述各模块可以单独实现，也可以多个模块集成实现。对于上述召回装置的各模块的功能描述具体可以参见图6中所示实施例中的目标检测模型的训练方法的对应描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如本公开实施例提供的目标检测方法和目标检测模型的训练方法。

该电子设备与现有技术相比，在使用通过分类网络(即分类预测层)和回归网络(回归预测层)分别对特征进行处理在一定程度上缓解分类特征和回归特征耦合的问题的基础上，使用不同的解码器来获取分类特征和回归特征，实现了对分类query和回归query的彻底解耦，以及分类特征和回归特征的彻底解耦，使得模型训练网络可以同时聚焦于分类特征和回归特征的表达，增强模型训练网络的特征表达能力，从而提升模型训练网络的模型训练的效果。

该可读存储介质为存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如本公开实施例提供的目标检测方法和目标检测模型的训练方法。

该可读存储介质与现有技术相比，在使用通过分类网络(即分类预测层)和回归网络(回归预测层)分别对特征进行处理在一定程度上缓解分类特征和回归特征耦合的问题的基础上，使用不同的解码器来获取分类特征和回归特征，实现了对分类query和回归query的彻底解耦，以及分类特征和回归特征的彻底解耦，使得模型训练网络可以同时聚焦于分类特征和回归特征的表达，增强模型训练网络的特征表达能力，从而提升模型训练网络的模型训练的效果。

该计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如本公开实施例提供的目标检测方法和目标检测模型的训练方法。

该计算机程序产品与现有技术相比，在使用通过分类网络(即分类预测层)和回归网络(回归预测层)分别对特征进行处理在一定程度上缓解分类特征和回归特征耦合的问题的基础上，使用不同的解码器来获取分类特征和回归特征，实现了对分类query和回归query的彻底解耦，以及分类特征和回归特征的彻底解耦，使得模型训练网络可以同时聚焦于分类特征和回归特征的表达，增强模型训练网络的特征表达能力，从而提升模型训练网络的模型训练的效果。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如目标检测方法和/或目标检测模型的训练方法。例如，在一些实施例中，目标检测方法和目标检测模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的目标检测方法和目标检测模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行目标检测方法和/或目标检测模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种目标检测方法，包括：

2.根据权利要求1所述的方法，其中，所述第一解码器和所述第二解码器级联组成所述目标检测网络的解码器。

3.根据权利要求2所述的方法，其中，所述通过所述目标检测网络的第一解码器，对所述全局注意力特征进行特征映射，获取所述待检测图像的回归特征，包括：

通过所述目标检测网络的第一解码器，将所述全局注意力特征映射至预设的查询特征向量，获取所述待检测图像的回归特征；

所述通过所述目标检测网络的第二解码器，对所述全局注意力特征进行特征映射，获取所述待检测图像的分类特征，包括：

通过所述目标检测网络的第二解码器，将所述述全局注意力特征映射至所述回归特征，获取所述待检测图像的分类特征。

4.根据权利要求2所述的方法，其中，所述第一解码器的结构与所述第二解码器的结构相同。

5.根据权利要求1所述的方法，其中，所述对所述待检测图像进行特征提取，获取所述待检测图像的图像特征图，包括：

通过所述目标检测网络的主干分支，对所述待检测图像进行特征提取，获取所述待检测图像的图像特征图。

6.一种目标检测模型的训练方法，包括：

7.根据权利要求6所述的方法，其中，所述基于所述回归特征和所述分类特征确定回归损失和分类损失，包括：

将所述回归特征输入所述目标检测网络的回归预测层，获取预测框的位置；将所述分类特征输入所述目标检测网络的分类预测层，获取所述预测框内目标所属的类别；

根据所述预测框的位置和所述目标框的位置确定回归损失；根据所述待训练图像中目标所属的类别以及所述预测框内目标所属的类别确定分类损失。

8.根据权利要求6所述的方法，其中，所述第一解码器和所述第二解码器级联组成所述目标检测网络的解码器。

9.根据权利要求8所述的方法，其中，所述通过所述目标检测网络的第一解码器，对所述全局注意力特征进行特征映射，获取所述待训练图像的回归特征，包括：

通过所述目标检测网络的第一解码器，将所述全局注意力特征映射至预设的查询特征向量，获取所述待训练图像的回归特征；

所述通过所述目标检测网络的第二解码器，对所述全局注意力特征进行特征映射，获取所述待训练图像的分类特征，包括：

通过所述目标检测网络的第二解码器，将所述述全局注意力特征映射至所述回归特征，获取所述待训练图像的分类特征。

10.根据权利要求8所述的方法，其中，所述第一解码器的结构与所述第二解码器的结构相同。

11.根据权利要求6所述的方法，其中，所述目标检测网络还包括主干分支；

所述对所述待训练进行特征提取，获取所述待训练图像的图像特征图，包括：

通过所述目标检测网络的主干分支，对所述待训练图像进行特征提取，获取所述待训练图像的图像特征图。

12.一种目标检测装置，包括：

13.一种目标检测模型的训练装置，包括：

14.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的目标检测方法和权利要求6-11中任一项所述的目标检测模型的训练方法。

15.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的目标检测方法和权利要求6-11中任一项所述的目标检测模型的训练方法。

16.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的目标检测方法和权利要求6-11中任一项所述的目标检测模型的训练方法。