CN115984808A

CN115984808A - 目标检测模型的训练方法、电子设备及存储介质

Info

Publication number: CN115984808A
Application number: CN202211404244.7A
Authority: CN
Inventors: 李帅霖; 汪天才
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Wuhan Kuangshi Jinzhi Technology Co ltd; Beijing Megvii Technology Co Ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-04-18

Abstract

本申请实施例提供一种目标检测模型的训练方法、电子设备及存储介质。方法包括：获取多个样本图像，多个样本图像包含不同视角下的相同目标对象；将多个样本图像分别输入相同的目标检测模型，获得与多个样本图像一一对应的预测信息；基于与多个样本图像一一对应的预测信息之间的相似度，计算相似度损失；基于相似度损失计算总损失；基于总损失对目标检测模型进行优化。这种方式训练获得的目标检测模型可以在目标对象的视角变换的情况下也能够准确地检测出目标对象的类别和位置。采用这种训练方式，可以提高目标检测模型对诸如俯仰扰动的视角扰动的鲁棒性，可以提高目标检测模型的检测性能。

Description

目标检测模型的训练方法、电子设备及存储介质

技术领域

本申请涉及图像识别领域，更具体地涉及一种目标检测模型的训练方法、电子设备及存储介质。

背景技术

在目标检测领域，采集图像的相机受到扰动导致视角变动的话，会给识别效果带来较大的影响。下面以自动驾驶领域的俯仰(pitch)扰动为例进行说明。近年来，自动驾驶领域的技术迅速发展。在现有的自动驾驶领域，车载相机俯仰扰动是很常见的现实场景。在车辆颠簸、上坡下坡、相机抖动等场景中，都会存在俯仰扰动。俯仰扰动会导致车载相机采集的图像与相机外参同时发生变化，而目标检测模型如果不针对这类情况做任何应对，那么目标检测模型输出的与车辆、行人、车道线等目标对象相关的预测信息会相对实际情况有明显的偏移，从而带来识别效果的下降。

综上所述，需要一种新的目标检测模型的训练方法来解决上述问题。

发明内容

考虑到上述问题而提出了本申请。本申请提供了一种目标检测模型的训练方法、电子设备及存储介质。

根据本申请一方面，提供了一种目标检测模型的训练方法，包括：获取多个样本图像，多个样本图像包含不同视角下的相同目标对象；将多个样本图像分别输入相同的目标检测模型，获得与多个样本图像一一对应的预测信息，预测信息是目标预测结果或用于生成目标预测结果的中间特征向量，目标预测结果包括对应样本图像中的目标对象的类别预测结果和位置预测结果；基于与多个样本图像一一对应的预测信息之间的相似度，计算相似度损失；基于相似度损失计算总损失；基于总损失对目标检测模型进行优化。

示例性地，多个样本图像形成一个或多个图像组合，每个图像组合包括至少两个样本图像，基于与多个样本图像一一对应的预测信息之间的相似度，计算相似度损失包括：对于一个或多个图像组合中的每个图像组合，将该图像组合中的各样本图像所对应的预测信息统一到同一目标视图空间；基于该图像组合中的各样本图像所对应的统一后的预测信息之间的相似度，计算与该图像组合相对应的组合相似损失；综合一个或多个图像组合所对应的组合相似损失，获得相似度损失。

示例性地，将该图像组合中的各样本图像所对应的预测信息统一到同一目标视图空间包括：将任一样本图像所对应的预测信息输入多层感知机，以将该样本图像所对应的预测信息转换到目标视图空间；基于总损失对目标检测模型进行优化包括：基于总损失，对目标检测模型和多层感知机的参数进行优化。

示例性地，多个样本图像通过两两组合的方式形成一个或多个图像组合。

示例性地，目标检测模型的输出端输出与多个样本图像一一对应的目标预测结果，其中，基于相似度损失计算总损失包括：基于与多个样本图像一一对应的类别预测结果计算类别损失；基于与多个样本图像一一对应的位置预测结果计算位置回归损失；将相似度损失、类别损失和位置回归损失相加，获得总损失。

示例性地，获取多个样本图像包括：获取初始图像，初始图像包含目标对象；利用透视变换方式对初始图像进行变换，以获得一个或多个不同视角下的一个或多个新图像；其中，一个或多个新图像与多个样本图像的数量差等于1，多个样本图像包括一个或多个新图像和初始图像；或者，一个或多个新图像与多个样本图像的数量相等，多个样本图像包括一个或多个新图像。

示例性地，预测信息是目标检测模型在中间层输出的中间特征向量，中间特征向量包括与多个候选检测框一一对应的特征向量，与任一候选检测框相对应的特征向量包括至少一个类别元素和至少一个位置元素，其中，至少一个类别元素与至少一种类别一一对应，每个类别元素用于指示对应类别的预测概率，至少一个位置元素与至少一种位置一一对应，每个位置元素用于指示当前候选检测框与该位置相对应的坐标值。

示例性地，目标检测模型是用于多视图3D目标检测的位置嵌入式转换模型，预测信息是用于多视图3D目标检测的位置嵌入式转换模型中的解码器输出的查询信息。

根据本申请的另一方面，还提供了一种电子设备，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述的目标检测模型的训练方法。

根据本申请另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述的目标检测模型的训练方法。

根据本申请实施例的目标检测模型的训练方法、电子设备及存储介质，获取包含不同视角下的相同目标对象的多个样本图像，基于与该多个样本图像一一对应的预测信息之间的相似度计算相似度损失，基于该相似度损失进一步地计算总损失，以对目标检测模型进行优化。这种方式训练获得的目标检测模型可以在目标对象的视角变换的情况下也能够准确地检测出目标对象的类别和位置。因此，采用这种训练方式，可以提高目标检测模型对诸如俯仰扰动的视角扰动的鲁棒性，可以提高目标检测模型的检测性能。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本申请实施例的目标检测模型的训练方法和装置或者目标检测方法和装置的示例电子设备的示意性框图；

图2示出了根据本申请一个实施例的目标检测模型的训练方法的示意流程图；

图3示出了根据本申请一个实施例的目标检测模型的示意图；

图4示出根据本申请一个实施例的目标检测方法的示意性框图；

图5示出了根据本申请一个实施例的目标检测模型的训练装置的示意性框图；

图6示出了根据本申请一个实施例的目标检测模型的训练装置的示意性框图；

图7示出根据本申请一个实施例的电子设备的示意性框图；以及

图8示出根据本申请一个实施例的电子设备的示意性框图。

具体实施方式

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如安全防控、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

为了使得本申请的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。基于本申请中描述的本申请实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本申请的保护范围之内。

为了至少部分地解决上述技术问题，本申请实施例提供了一种目标检测模型的训练方法、电子设备、存储介质及计算机程序产品。

首先，参照图1来描述用于实现根据本申请实施例的目标检测模型的训练方法和装置或者目标检测方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104。可选地，电子设备100还可以包括输入装置106、输出装置108、以及图像拍摄装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、微处理器中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)、图像处理器(GPU)、专用的集成电路(ASIC)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本申请实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。可选地，所述输入装置106和所述输出装置108可以集成在一起，采用同一交互装置(例如触摸屏)实现。

所述图像拍摄装置110可以采集图像，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像拍摄装置110可以是单独的相机或移动终端中的摄像头等。应当理解，图像拍摄装置110仅是示例，电子设备100可以不包括图像拍摄装置110。在这种情况下，可以利用其他具有图像采集能力的器件采集图像，并将采集的图像发送给电子设备100。

示例性地，用于实现根据本申请实施例的目标检测模型的训练方法和装置或者目标检测方法和装置的示例电子设备可以在诸如个人计算机、终端设备、考勤机、面板机、相机或远程服务器等的设备上实现。其中，终端设备包括但不限于：平板电脑、手机、PDA(Personal Digital Assistant，个人数字助理)、可触屏一体机、可穿戴设备等。

下面，将参考图2描述根据本申请实施例的目标检测模型的训练方法。图2示出根据本申请一个实施例的目标检测模型的训练方法200的示意性流程图。如图2所示，目标检测模型的训练方法200包括步骤S210、S220、S230、S240和S250。

步骤S210，获取多个样本图像，多个样本图像包含不同视角下的相同目标对象。

示例性地，样本图像可以是任意类型的图像，其包含的目标对象可以是任何物体，包括但不限于：车辆、车道线、道路指示牌、交通信号灯、人或人体的一部分(诸如人脸)、动物、建筑物等。样本图像可以是静态图像，也可以是动态视频中的任一视频帧。样本图像可以是图像采集装置(例如相机中的图像传感器)采集到的原始图像，也可以是对原始图像进行预处理(诸如数字化、归一化、平滑等)之后获得的图像。需注意，对原始图像的预处理可以包括从图像采集装置采集到的原始图像中提取包含目标对象的子图像进而获得样本图像的操作。

在多个样本图像中可以包括不同视角下的相同目标对象。比较可取的是，在多个样本图像中目标对象的形态尽量不发生变化，例如，多个样本图像中包括的是在同一时刻且不同视角下的相同目标对象。当然，在多个样本图像中目标对象的形态发生少量变化的实施例也是可行的。不同视角可以是角度类型相同但角度大小不同的视角，角度类型可以包括俯仰(pitch)角、偏摆(yaw)角和翻滚(roll)角等。例如，不同视角可以是大小不同的俯仰角、或大小不同的偏摆角、或大小不同的翻滚角等。

示例性地，多个样本图像可以通过同一相机在不同俯仰角下针对同一目标对象分别采集获得，也可以通过配置为具有不同俯仰角的多个相机分别针对同一目标对象采集获得。例如，可以获取车载相机在发生俯仰扰动期间针对同一目标车辆采集的图像作为多个样本图像。示例性地，还可以针对目标对象采集初始图像，随后通过对初始图像进行透视变换等方式变换获得多个样本图像。例如，可以利用透视变换的方式对目标车辆的单个初始图像进行变换，以获得多个样本图像。

样本图像可以由外部设备(例如云端服务器)发送到电子设备100以由电子设备100的处理器102进行处理，还可以由电子设备100包括的图像采集装置110(例如摄像头)采集并传送到处理器102进行处理，还可以由电子设备100包括的存储装置104存储并传送到处理器102进行处理。

步骤S220，将多个样本图像分别输入相同的目标检测模型，获得与多个样本图像一一对应的预测信息，预测信息是目标预测结果或用于生成目标预测结果的中间特征向量，目标预测结果包括对应样本图像中的目标对象的类别预测结果和位置预测结果。

目标检测模型可以是任何合适的现有的或将来可能出现的能够实现目标检测功能的神经网络模型，包括但不限于区域卷积神经网络(Region-based ConvolutionalNeural Network,RCNN)、快速区域卷积神经网络(Faster RCNN)、单点多尺度目标检测器(Single Shot MultiBox Detector,SSD)、单阶经典检测器(You Only Look Once,YOLO)、或多视图3D目标检测的位置嵌入式转换模型(Position embedding transformation formulti-view 3d object detection,PETR)等。

示例性地，将上述步骤S210获取的多个样本图像分别输入到相同的目标检测模型。图3示出了根据本申请一个实施例的3D目标检测模型的示意图。图3所示的目标检测模型是PETR，并且其仅是一种示例。如图3所示，目标检测模型300可以包括骨干模块、3D位置编码模块以及检测转换器(Detection Transformer,DETR)解码器。如图3所示，可以将样本图像X1、X2分别输入到目标检测模型，模型经骨干模块得到2D图像特征。而后可以将2D图像特征和3D坐标输入3D位置编码模块，生成3D位置-觉察特征。最后，可以将3D位置-觉察特征输入DETR解码器进行处理。上述3D坐标通过将所有视图共享的相机截锥(frustum)空间离散为3D网格，并将网格坐标变换到3D世界空间坐标的方式获得。经过多层解码后，可以分别获得样本图像X1和X2各自的预测信息。预测信息可以是目标检测模型在输出层输出的目标预测结果，也可以是在目标检测模型的中间层输出的中间特征向量。例如，样本图像X1对应的预测信息C1可以是样本图像X1中目标对象的类别预测结果和位置预测结果。示例性而非限制性地，位置预测结果可以用检测框的位置坐标来表示，检测框可以是用来标示目标对象的位置的矩形框。样本图像X2对应的预测信息C2可以是样本图像X2中目标对象的类别预测结果和位置预测结果。

步骤S230，基于与多个样本图像一一对应的预测信息之间的相似度，计算相似度损失。

示例性地，基于上述步骤S220获得预测信息C1和预测信息C2，可以计算相似度损失。任意两个样本图像所对应的预测信息之间的相似度可以通过不进行任何转换，直接计算二者之间的相似度确定，也可以通过将二者统一到同一视图空间之后再计算转换后的预测信息的相似度的方式确定。相似度损失可以通过任意相似度衡量方式来计算。示例性地，对于任意两个样本图像所对应的预测信息(可以称为原始预测信息)或者对于将任意两个样本图像所对应的预测信息统一到同一视图空间后获得的预测信息(可以称为统一预测信息)来说，可以通过计算原始预测信息或统一预测信息之间的夹角的余弦值的方式计算相似度损失，也可以通过计算原始预测信息或统一预测信息的均方差(MSE)的方式来计算相似度损失。

相似度损失可以理解为相似度损失值或相似度损失项，是利用相似度损失函数计算的结果。

步骤S240，基于相似度损失计算总损失。

示例性地，可以将上述相似度损失作为总损失，或者将上述相似度损失进一步与其他损失综合之后获得总损失。例如，可以通过将上述步骤S230获得的相似度损失与其他损失相加或者与其他损失一起求均值等方式，来计算总损失。

类似地，总损失可以理解为总损失值或总损失项，是利用目标检测模型的完整损失函数计算的结果。

步骤S250，基于总损失对目标检测模型进行优化。

示例性地，可以基于上述步骤S240获得的总损失，通过反向传播和梯度下降算法，对目标检测模型的参数(包括权重和偏置等)进行调整，进而对目标检测模型进行优化，以使得目标检测模型的目标预测结果与输入样本图像的标注数据之间的相似度提高。标注数据(groundtruth)包括预先标注的用于指示样本图像中的目标对象的类别的类别标注信息以及用于指示样本图像中的目标对象的位置的位置标注信息。本领域技术人员可以理解，在步骤S210中获取样本图像的同时，还可以获取各样本图像所对应的标注数据。

至少基于相似度损失对目标检测模型进行优化的方式是一种自监督学习方式。研究表明，这种相似度约束的设计可以使模型学到准确有效的表征。

根据本申请实施例的目标检测模型的训练方法、目标检测方法、电子设备、存储介质及计算机程序产品，获取包含不同视角下的相同目标对象的多个样本图像，基于与该多个样本图像一一对应的预测信息之间的相似度计算相似度损失，基于该相似度损失进一步地计算总损失，以对目标检测模型进行优化。这种方式训练获得的目标检测模型可以在目标对象的视角变换的情况下也能够准确地检测出目标对象的类别和位置。因此，采用这种训练方式，可以提高目标检测模型对诸如俯仰扰动的视角扰动的鲁棒性，可以提高目标检测模型的检测性能。研究表明，通过以上方式训练获得的目标检测模型在有俯仰扰动的测试集上可以提升2.30％平均准确率(mean average Precision,mAP)和3.14％

nuScenes检测分数(NDS)。此外，通过以上方式训练获得的目标检测模型在未受扰动的测试集上也可以提升1.26％mAP和2.50％ NDS，检测效果显著提升。

示例性地，多个样本图像形成一个或多个图像组合，每个图像组合包括至少两个样本图像，基于与多个样本图像一一对应的预测信息之间的相似度，计算相似度损失可以包括：对于一个或多个图像组合中的每个图像组合，将该图像组合中的各样本图像所对应的预测信息统一到同一目标视图空间；基于该图像组合中的各样本图像所对应的统一后的预测信息之间的相似度，计算与该图像组合相对应的组合相似损失；综合一个或多个图像组合所对应的组合相似损失，获得相似度损失。

在一个实施例中，样本图像可以是3个，分别是样本图像X1、X2、X3。这三个样本图像形成的图像组合可以是X1+X2、X1+X3、X2+X3中的任意一个或多个图像组合。可以理解，任意两个不同图像组合中可以包括部分相同的样本图像，也可以包括完全不同的样本图像。例如，样本图像X1和X2组成的图像组合以及样本图像X1和X3组成的图像组合，这两个图像组合中均包括样本图像X1。

在3D目标检测领域，存在多视图空间，本领域技术人员可以理解视图空间的含义，本文不赘述。对于一个或多个图像组合中的每个图像组合，可以进行视图空间的统一。例如，对于样本图像X1和X3组成的图像组合，可以将样本图像X1所对应的预测信息转换到与样本图像X3相同的视图空间(即目标视图空间)，或者将样本图像X3所对应的预测信息转换到与样本图像X1相同的视图空间(即目标视图空间)，或者将样本图像X1和X3所对应的预测信息各自转换到另一个相同的目标视图空间。

如上所述，对于样本图像X1和X3分别对应的统一后的预测信息，可以通过求余弦夹角或者均方差的方式计算与该图像组合相对应的组合相似损失。其他图像组合的组合相似损失也可以基于类似的方式得到，不再赘述。示例性地，可以将一个或多个图像组合所对应的组合相似损失相加或者求均值，获得目标检测模型的相似度损失。

根据上述技术方案，通过将图像组合中的各样本图像所对应的预测信息统一到同一目标视图空间，并基于统一后的预测信息分别计算每个图像组合所对应的组合相似损失，这样可以比较准确地计算相似度损失。

示例性地，将该图像组合中的各样本图像所对应的预测信息统一到同一目标视图空间可以包括：将任一样本图像所对应的预测信息输入多层感知机，以将该样本图像所对应的预测信息转换到目标视图空间；基于总损失对目标检测模型进行优化可以包括：基于总损失，对目标检测模型和多层感知机的参数进行优化。

在一个实施例中，将任一样本图像，例如，样本图像X1所对应的预测信息输入到多层感知机(MLP)进行视图空间的转换，以将样本图像X1所对应的预测信息转换到目标视图空间。返回参考图3，可以将预测信息输入预测模块进行转换，该预测模块是用于实现视图空间转换的模块，其可以可选地是MLP。

上述步骤S250基于总损失对目标检测模型进行优化除包括对目标检测模型的参数进行优化之外，还可以包括对多层感知机的参数进行优化，以使多层感知机的输出结果更好地对应目标视图空间。

示例性地，对于一个或多个图像组合中的每个图像组合，目标视图空间是该图像组合中的任一特定样本图像所处的视图空间，将该图像组合中的各样本图像所对应的预测信息统一到同一目标视图空间可以包括：对于该图像组合中的除特定样本图像以外的每个样本图像，将该样本图像所对应的预测信息转换到目标视图空间。

在一个实施例中，对于一个图像组合，该图像组合中可以包括样本图像X1、X2和X3，目标视图空间可以是该图像组合中的任意一个样本图像所处的视图空间。例如，目标视图空间可以是样本图像X2所处的视图空间，这样可以选择将样本图像X1和X3所对应的预测信息分别转换到样本图像X2所处的视图空间中。

在上述技术方案中，将图像组合中的除特定样本图像以外的每个样本图像所对应的预测信息分别转换到特定样本图像所在的视图空间，由此，可以获得所有样本图像在同一目标视图空间中的预测信息。这种方案无需对所有样本图像进行空间转换，可以在一定程度上节约计算量。

在形成图像组合时，可以将多个样本图像能够形成的所有组合都算入最后获得的一个或多个图像组合，也可以从多个样本图像能够形成的所有组合中选择部分组合作为一个或多个图像组合。在一个实施例中，样本图像可以是3个，那么图像组合可以有三个，这三个图像组合可以是样本图像X1和X2组成的图像组合、样本图像X1和X3组成的图像组合、以及样本图像X2和X3组成的图像组合。这种通过两两组合的方式形成一个或多个图像组合的方案可以将多个样本图像能够形成的所有组合算入图像组合，这样便于对各种视角下的样本图像的预测结果进行调整优化，有助于提高目标检测模型的检测性能。

示例性地，目标检测模型的输出端输出与多个样本图像一一对应的目标预测结果，其中，基于相似度损失计算总损失可以包括：基于与多个样本图像一一对应的类别预测结果计算类别损失；基于与多个样本图像一一对应的位置预测结果计算位置回归损失；将相似度损失、类别损失和位置回归损失相加，获得总损失。

在一个实施例中，在获取多个样本图像时，还可以获取每个样本图像所对应的类别标注信息以及位置标注信息(即上述标注数据)。对于目标检测模型的输出端输出的与多个样本图像一一对应的目标预测结果，可以基于目标预测结果中的类别预测结果与类别标注信息之间的差异计算类别损失，并可以基于目标预测结果中的位置预测结果与位置标注信息之间的差异计算位置回归损失。类别损失和位置回归损失均可以基于合适的损失函数计算，例如类别损失可以通过交叉熵损失函数计算，位置回归损失可以通过交并比损失函数等来计算。随后，通过将相似度损失、类别损失和位置回归损失相加的方式，可以获得总损失。

在上述技术方案中，通过将相似度损失、类别损失和位置回归损失相加的方式获得总损失，所计算的损失更加全面，基于这样的总损失对目标检测模型进行优化，能够更好地提高目标检测模型的性能。

示例性地，获取多个样本图像可以包括：获取初始图像，初始图像包含目标对象；利用透视变换方式对初始图像进行变换，以获得一个或多个不同视角下的一个或多个新图像；其中，一个或多个新图像与多个样本图像的数量差等于1，多个样本图像包括一个或多个新图像和初始图像；或者，一个或多个新图像与多个样本图像的数量相等，多个样本图像包括一个或多个新图像。

如上所述，可以获取初始图像。随后，可以利用透视变换方式对初始图像进行变换来生成更多不同视角下的样本图像。

在一个示例中，可以保留初始图像，对其进行N-1次透视变换，获得N-1个新图像。此时，N个样本图像可以包括1个初始图像和变换获得的N-1个新图像。N是大于或等于2的整数。

在另一个示例中，可以利用透视变换的方式对初始图像进行N次变换，获得N个新图像。此时，N个样本图像可以包括N个新图像。

通过透视变换的方式生成新图像进而获得样本图像，这种方案支持小样本训练，即在训练样本少的情况下也能够实现较好的目标检测模型的训练效果。

示例性地，预测信息是目标检测模型在中间层输出的中间特征向量，中间特征向量可以包括与多个候选检测框一一对应的特征向量，与任一候选检测框相对应的特征向量包括至少一个类别元素和至少一个位置元素，其中，至少一个类别元素与至少一种类别一一对应，每个类别元素用于指示对应类别的预测概率，至少一个位置元素与至少一种位置一一对应，每个位置元素用于指示当前候选检测框与该位置相对应的坐标值。

如上所述，在一个实施例中，预测信息可以包括目标检测模型在中间层，例如PETR中的DETR解码器的中间层或者Faster RCNN中的感兴趣区域(RoI)池化层，输出的中间特征特征向量。例如，中间特征向量可以是100×256维度的特征向量。其中，100可以表示100个候选检测框，每个候选检测框对应着一个1×256维度的特征向量。256个元素中有4个元素表示候选检测框的4个角点所对应的坐标值。当然，位置有多种表示方案。例如，位置元素除了全部对应角点以外，还可以部分对应角点，部分对应检测框的高和宽。例如，4个位置元素可以表示候选检测框的两个角点的坐标，以及该检测框的宽W和高H。另外251个元素可以是类别元素，表示251种类别各自对应的预测概率。

在上述技术方案中，与最终的目标预测结果相比，中间特征向量包含更高层的特征信息，因此基于中间特征向量的相似度计算损失并训练目标检测模型，有助于进一步提高目标检测模型的准确性。

示例性地，目标检测模型是PETR，预测信息是PETR中的解码器输出的查询信息。

如上所述，目标检测模型可以是PETR，此时预测信息可以是PETR的解码器输出的查询信息(Query)。

示例性地，不同视角是不同俯仰角。

在一个实施例中，不同视角可以是不同的俯仰角。示例性而非限制性，多个样本图像可以是使相机绕中心点俯仰多个不同的随机角度之后针对目标对象采集获得的或通过同一初始图像模拟相机俯仰多个不同角度之后变换获得的。例如，前文所述的两个样本图像X1和X2，样本图像X1可以是在俯仰角为10°的情况下采集的，样本图像X2可以是在俯仰角为-5°的情况下采集的。这种基于不同俯仰角下的样本图像训练获得的目标检测模型可以很好地应对自动驾驶领域存在的俯仰扰动问题。

根据本申请的另一方面，还提供了一种目标检测方法。图4示出了根据本申请一个实施例的目标检测方法400的示意图。如图4所示，该目标检测方法400可以包括步骤S410和S420。

步骤S410，获取待处理图像。

示例性地，待处理图像可以是静态图像，也可以是动态视频中的任一视频帧。待处理图像可以是图像采集装置(例如相机中的图像传感器)采集到的原始图像，也可以是对原始图像进行预处理(诸如数字化、归一化、平滑等)之后获得的图像。需注意，对原始图像的预处理可以包括从图像采集装置采集到的原始图像中提取包含目标对象的子图像进而获得待处理图像的操作。

步骤S420，将待处理图像输入上述的目标检测模型，获得目标检测模型输出的目标检测结果，目标检测结果包括目标对象的类别信息和位置信息。

示例性地，将上述步骤S410获得的待处理图像输入前文所述的目标检测模型，例如，将包括车辆的图像输入目标检测模型，可以获得车辆图像中目标车辆的类别以及在车辆图像中目标车辆的检测框。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

根据本申请另一方面，提供一种目标检测模型的训练装置。图5示出了根据本申请一个实施例的目标检测模型的训练装置500的示意性框图。

如图5所示，根据本申请实施例的目标检测模型的训练装置500包括获取模块510、输入模块520、第一计算模块530、第二计算模块540和优化模块550。各个模块可分别执行上文中图2描述的目标检测模型的训练方法的各个步骤。以下仅对该目标检测装置500的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块510用于获取多个样本图像，多个样本图像包含不同视角下的相同目标对。获取模块510可以由图1所示的电子设备中的处理器102运行存储装置105中存储的程序指令来实现。

输入模块520用于将多个样本图像分别输入相同的目标检测模型，获得与多个样本图像一一对应的预测信息，预测信息是目标预测结果或用于生成目标预测结果的中间特征向量，目标预测结果包括对应样本图像中的目标对象的类别预测结果和位置预测结果。输入模块520可以由图1所示的电子设备中的处理器102运行存储装置105中存储的程序指令来实现。

第一计算模块530用于基于与多个样本图像一一对应的预测信息之间的相似度，计算相似度损失。第一计算模块530可以由图1所示的电子设备中的处理器102运行存储装置105中存储的程序指令来实现。

第二计算模块540用于基于相似度损失计算总损失。第二计算模块540可以由图1所示的电子设备中的处理器102运行存储装置105中存储的程序指令来实现。

优化模块550用于基于总损失对目标检测模型进行优化。优化模块550可以由图1所示的电子设备中的处理器102运行存储装置105中存储的程序指令来实现。

根据本申请另一方面，提供一种目标检测装置。图6示出了根据本申请一个实施例的目标检测装置600的示意性框图。

如图6所示，根据本申请实施例的目标检测装置600包括获取模块610和输入模块620。各个模块可分别执行上文中图4描述的目标检测方法的各个步骤。以下仅对该目标检测装置600的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块610用于获取待处理图像。获取模块610可以由图1所示的电子设备中的处理器102运行存储装置106中存储的程序指令来实现。

输入模块620用于将待处理图像输入上述目标检测模型，获得目标检测模型输出的目标检测结果，目标检测结果包括目标对象的类别信息和位置信息。输入模块620可以由图1所示的电子设备中的处理器102运行存储装置106中存储的程序指令来实现。

图7示出了根据本申请一个实施例的电子设备700的示意性框图。电子设备700包括存储器710和处理器720。

存储器710存储用于实现根据本申请实施例的目标检测模型的训练方法中的相应步骤的计算机程序指令。

处理器720用于运行存储器710中存储的计算机程序指令，以执行根据本申请实施例的目标检测模型的训练方法的相应步骤。

在一个实施例中，计算机程序指令被处理器720运行时用于执行以下步骤：获取多个样本图像，多个样本图像包含不同视角下的相同目标对象；将多个样本图像分别输入相同的目标检测模型，获得与多个样本图像一一对应的预测信息，预测信息是目标预测结果或用于生成目标预测结果的中间特征向量，目标预测结果包括对应样本图像中的目标对象的类别预测结果和位置预测结果；基于与多个样本图像一一对应的预测信息之间的相似度，计算相似度损失；基于相似度损失计算总损失；基于总损失对目标检测模型进行优化。

示例性地，电子设备700还可以包括图像采集装置730。图像采集装置730用于采集样本图像。图像采集装置730是可选的，电子设备700也可以不包括图像采集装置730。此时处理器720可以通过其他方式获取样本图像，例如从外部设备或从存储器710中获取样本图像。

图8示出了根据本申请一个实施例的电子设备800的示意性框图。电子设备800包括存储器810和处理器820。

存储器810存储用于实现根据本申请实施例的目标检测方法中的相应步骤的计算机程序指令。

处理器820用于运行存储器810中存储的计算机程序指令，以执行根据本申请实施例的目标检测方法的相应步骤。

在一个实施例中，计算机程序指令被处理器820运行时用于执行以下步骤：获取待处理图像；将待处理图像输入上述目标检测模型，获得目标检测模型输出的目标检测结果，目标检测结果包括目标对象的类别信息和位置信息。

示例性地，电子设备800还可以包括图像采集装置830。图像采集装置830用于采集待处理图像。图像采集装置830是可选的，电子设备800也可以不包括图像采集装置830。此时处理器820可以通过其他方式获取待处理图像，例如从外部设备或从存储器810中获取待处理图像。

此外，根据本申请实施例，还提供了一种存储介质，在存储介质上存储了程序指令，在程序指令被计算机或处理器运行时用于执行本申请实施例的目标检测模型的训练方法的相应步骤，并且用于实现根据本申请实施例的目标检测模型的训练装置中的相应模块。存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本申请实施例的目标检测模型的训练装置的各个功能模块，并和/或者可以执行根据本申请实施例的目标检测模型的训练方法。

在一个实施例中，程序指令在运行时用于执行以下步骤：获取多个样本图像，多个样本图像包含不同视角下的相同目标对象；将多个样本图像分别输入相同的目标检测模型，获得与多个样本图像一一对应的预测信息，预测信息是目标预测结果或用于生成目标预测结果的中间特征向量，目标预测结果包括对应样本图像中的目标对象的类别预测结果和位置预测结果；基于与多个样本图像一一对应的预测信息之间的相似度，计算相似度损失；基于相似度损失计算总损失；基于总损失对目标检测模型进行优化。

此外，根据本申请实施例，还提供了一种存储介质，在存储介质上存储了程序指令，在程序指令被计算机或处理器运行时用于执行本申请实施例的目标检测方法的相应步骤，并且用于实现根据本申请实施例的目标检测装置中的相应模块。存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本申请实施例的目标检测装置的各个功能模块，并和/或者可以执行根据本申请实施例的目标检测方法。

在一个实施例中，程序指令在运行时用于执行以下步骤：获取待处理图像；将待处理图像输入上述目标检测模型，获得目标检测模型输出的目标检测结果，目标检测结果包括目标对象的类别信息和位置信息。

此外，根据本申请实施例，还提供了一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序在运行时用于执行上述目标检测模型的训练方法200或目标检测方法400。

根据本申请实施例的电子设备中的各模块可以通过根据本申请实施例的实施目标检测模型的训练或目标检测的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本申请实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

此外，根据本申请实施例，还提供了一种计算机程序，该计算机程序在运行时用于执行上述目标检测模型的训练方法200或目标检测方法400。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本申请的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本申请的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本申请的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个申请方面中的一个或多个，在对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本申请的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的目标检测模型的训练装置或目标检测装置中的一些模块的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上，仅为本申请的具体实施方式或对具体实施方式的说明，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标检测模型的训练方法，包括：

获取多个样本图像，所述多个样本图像包含不同视角下的相同目标对象；

将所述多个样本图像分别输入参数共享的多个目标检测模型，获得与所述多个样本图像一一对应的预测信息，所述预测信息是目标预测结果或用于生成所述目标预测结果的中间特征向量，所述目标预测结果包括对应样本图像中的所述目标对象的类别预测结果和位置预测结果；

基于所述与所述多个样本图像一一对应的预测信息之间的相似度，计算相似度损失；

基于所述相似度损失计算总损失；

基于所述总损失对所述目标检测模型进行优化。

2.如权利要求1所述的方法，其中，所述多个样本图像形成一个或多个图像组合，每个图像组合包括至少两个样本图像，所述基于所述与所述多个样本图像一一对应的预测信息之间的相似度，计算相似度损失包括：

对于所述一个或多个图像组合中的每个图像组合，

将该图像组合中的各样本图像所对应的预测信息统一到同一目标视图空间；

基于该图像组合中的各样本图像所对应的统一后的预测信息之间的相似度，计算与该图像组合相对应的组合相似损失；

综合所述一个或多个图像组合所对应的组合相似损失，获得所述相似度损失。

3.如权利要求2所述的方法，其中，

所述将该图像组合中的各样本图像所对应的预测信息统一到同一目标视图空间包括：

将任一样本图像所对应的预测信息输入多层感知机，以将该样本图像所对应的预测信息转换到所述目标视图空间；

所述基于所述总损失对所述目标检测模型进行优化包括：

基于所述总损失，对所述目标检测模型和所述多层感知机的参数进行优化。

4.如权利要求2或3所述的方法，其中，所述多个样本图像通过两两组合的方式形成所述一个或多个图像组合。

5.如权利要求1-3任一项所述的方法，其中，所述目标检测模型的输出端输出与所述多个样本图像一一对应的目标预测结果，其中，所述基于所述相似度损失计算总损失包括：

基于与所述多个样本图像一一对应的类别预测结果计算类别损失；

基于与所述多个样本图像一一对应的位置预测结果计算位置回归损失；

将所述相似度损失、所述类别损失和所述位置回归损失相加，获得所述总损失。

6.如权利要求1-3任一项所述的方法，其中，所述获取多个样本图像包括：

获取初始图像，所述初始图像包含所述目标对象；

利用透视变换方式对所述初始图像进行变换，以获得一个或多个不同视角下的一个或多个新图像；

其中，所述一个或多个新图像与所述多个样本图像的数量差等于1，所述多个样本图像包括所述一个或多个新图像和所述初始图像；或者，

所述一个或多个新图像与所述多个样本图像的数量相等，所述多个样本图像包括所述一个或多个新图像。

7.如权利要求1-3任一项所述的方法，其中，所述预测信息是所述目标检测模型在中间层输出的中间特征向量，所述中间特征向量包括与多个候选检测框一一对应的特征向量，与任一候选检测框相对应的特征向量包括至少一个类别元素和至少一个位置元素，其中，所述至少一个类别元素与至少一种类别一一对应，每个类别元素用于指示对应类别的预测概率，所述至少一个位置元素与至少一种位置一一对应，每个位置元素用于指示当前候选检测框与该位置相对应的坐标值。

8.如权利要求7所述的方法，其中，所述目标检测模型是用于多视图3D目标检测的位置嵌入式转换模型，所述预测信息是所述用于多视图3D目标检测的位置嵌入式转换模型中的解码器输出的查询信息。

9.一种电子设备，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至8任一项所述的目标检测模型的训练方法。

10.一种存储介质，在所述存储介质上存储了程序指令，其中，所述程序指令在运行时用于执行如权利要求1至8任一项所述的目标检测模型的训练方法。