CN116681884B

CN116681884B - 一种对象检测方法和相关装置

Info

Publication number: CN116681884B
Application number: CN202310965922.5A
Authority: CN
Inventors: 申远
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-12-08
Anticipated expiration: 2043-08-02
Also published as: CN116681884A

Abstract

本申请公开一种对象检测方法和相关装置，可应用于数字孪生、自动驾驶、辅助驾驶、智慧交通、交通仿真等领域。获取包括待检测对象的待检测图像，确定待检测图像中第一组成部分对应的第一检测框的位置信息和第二组成部分对应的第二检测框的位置信息。基于第一检测框的位置信息和第二检测框的位置信息确定第一检测框与第二检测框在图像坐标系下的第一位置关系。基于第一位置关系，利用第一检测框的位置信息和第二检测框的位置信息计算待检测对象在图像坐标系下的航向姿态。航向姿态可以更加准确地反映待检测对象在真实场景中的实际情况，提高后续处理准确性。在数字孪生场景中可以减小对象投影到3D空间的结果与真实场景中情况的差别，提高原度。

Description

一种对象检测方法和相关装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种对象检测方法和相关装置。

背景技术

对象感知技术通常是利用传感器采集对象的相关信息，进而利用相关信息进行后续处理。随着科技的发展，对象感知技术被广泛的应用到各种场景，例如自动驾驶场景、智慧交通场景、数字孪生场景等。

目前的对象感知技术在应用到各种场景时，通常是通过采集包括对象的图像，进而对图像进行检测识别，从而获取对象在图像中的位置，进而获取对象的位置信息以进行后续处理。以数字孪生场景为例，数字孪生的具体实现方式可以是获取来自图像采集设备的图像，通过目标检测技术识别对象在图像中的位置，该位置是2维（Two Dimensional，2D）位置，再通过图像采集设备的内部参数和外部参数，将图像中对象的2D位置投影到2维（Three Dimensional，3D）空间中，从而提供给实时孪生可用的对象3D位置信息。

但是上述采集到的图像是2D图像，通过上述对象感知技术获取到的是对象的2D位置信息，难以准确地反映对象的实际情况，进而影响后续处理，例如在数字孪生场景中，将会使得对象投影到3D空间的结果与对象在真实场景中的情况有很大差别。

发明内容

为了解决上述技术问题，本申请提供了一种对象检测方法和相关装置，可以从待检测图像中确定待检测对象的航向姿态，从而更加准确地反映待检测对象在真实场景中的实际情况，提高后续处理准确性。例如在数字孪生场景中，可以降低待检测对象投影到3D空间的结果与待检测对象在真实场景中的情况之间的差别，还原度大大提高。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种对象检测方法，所述方法包括：

获取待检测图像，所述待检测图像中包括待检测对象；

确定所述待检测图像中第一组成部分对应的第一检测框的位置信息，以及确定所述待检测图像中第二组成部分对应的第二检测框的位置信息，所述第一组成部分和所述第二组成部分为所述待检测对象包括的不同组成部分，所述第一组成部分和所述第二组成部分为沿着所述待检测对象的运动方向对所述待检测对象进行结构划分得到的；

基于所述第一检测框的位置信息和所述第二检测框的位置信息确定所述第一检测框与所述第二检测框在图像坐标系下的第一位置关系；

基于所述第一位置关系，利用所述第一检测框的位置信息和所述第二检测框的位置信息计算所述待检测对象在所述图像坐标系下的航向姿态。

一方面，本申请实施例提供一种对象检测装置，所述装置包括获取单元、确定单元和计算单元：

所述获取单元，用于获取待检测图像，所述待检测图像中包括待检测对象；

所述确定单元，用于确定所述待检测图像中第一组成部分对应的第一检测框的位置信息，以及确定所述待检测图像中第二组成部分对应的第二检测框的位置信息，所述第一组成部分和所述第二组成部分为所述待检测对象包括的不同组成部分，所述第一组成部分和所述第二组成部分为沿着所述待检测对象的运动方向对所述待检测对象进行结构划分得到的；

所述确定单元，还用于基于所述第一检测框的位置信息和所述第二检测框的位置信息确定所述第一检测框与所述第二检测框在图像坐标系下的第一位置关系；

所述计算单元，用于基于所述第一位置关系，利用所述第一检测框的位置信息和所述第二检测框的位置信息计算所述待检测对象在所述图像坐标系下的航向姿态。

一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

所述处理器用于根据所述计算机程序中的指令执行前述任一方面所述的方法。

一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序当被处理器执行时使所述处理器执行前述任一方面所述的方法。

一方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一方面所述的方法。

由上述技术方案可以看出，为了利用待检测对象的相关信息，可以获取包括待检测对象的待检测图像，然后确定待检测图像中第一组成部分对应的第一检测框的位置信息，以及确定待检测图像中第二组成部分对应的第二检测框的位置信息。其中，第一组成部分和第二组成部分为待检测对象包括的不同组成部分，第一组成部分和第二组成部分为沿着待检测对象的运动方向对待检测对象进行结构划分得到的，故可以基于第一检测框的位置信息和第二检测框的位置信息确定出待检测对象的航向姿态，从而从待检测图像中提取出待检测对象的更多信息，以准确地反映待检测对象的实际情况。而第一检测框和第二检测框的位置可能会影响航向姿态的确定方式，故可以先基于第一检测框的位置信息和第二检测框的位置信息确定第一检测框与第二检测框在图像坐标系下的第一位置关系，进而基于第一位置关系，利用第一检测框的位置信息和第二检测框的位置信息计算待检测对象在图像坐标系下的航向姿态。本申请可以从待检测图像中确定待检测对象的航向姿态，从而更加准确地反映待检测对象在真实场景中的实际情况，提高后续处理准确性。例如在数字孪生场景中，可以降低待检测对象投影到3D空间的结果与待检测对象在真实场景中的情况之间的差别，还原度大大提高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术成员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为相关技术提供的一种基于2D图像进行标注的示例图；

图2为本申请实施例提供的一种对象检测方法的应用场景架构图；

图3为本申请实施例提供的一种对象检测方法的流程图；

图4为本申请实施例提供的一种待检测图像中各个检测框的示例图；

图5为本申请实施例提供的第一检测框与第二检测框之间不同的第一位置关系示例图；

图6为本申请实施例提供的一种目标检测模型的网络结构示例图；

图7为本申请实施例提供的一种目标检测模型的训练方法的流程图；

图8a为本申请实施例提供的一种样本检测图像中各个检测框的示例图；

图8b为本申请实施例提供的一种归一化处理后各个检测框的示例图；

图8c为本申请实施例提供的一种伪3D的立方体的示例图；

图9为本申请实施例提供的一种对象检测装置的结构图；

图10为本申请实施例提供的一种终端的结构图；

图11为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

通过对象感知技术采集对象的相关信息，以便将对象的相关信息用于各种场景下进行后续处理。例如在数字孪生场景中，通过对象感知技术获取对象的图像，通过目标检测技术识别对象在图像中的位置，该位置是2维（Two Dimensional，2D）位置，再通过图像采集设备的内部参数和外部参数，将图像中对象的2D位置投影到3D空间中，从而提供给实时孪生可用的对象3D位置信息。

但是由于2D图片天然的缺乏3D信息的表达能力，通过上述对象感知技术获取到的是对象的2D位置信息，难以准确地反映对象的实际情况，进而影响后续处理。以对象是车辆为例，参见图1所示，通常情况下，是直接将2D全车框（例如图1中虚线矩形框所示）的底边中心点（例如图1中黑色圆点所示）作为车辆接地点，进行单应反投影，在车辆真实的航向姿态与镜头光轴存在航向夹角时候，其底边中心点并不能准确的表示车辆的接地位置，同时也不能知道这个接地位置是车辆的那个部分（车头，车尾，车侧面）的底边中心接地点，即只能表示车辆的位置信息，无法估计车辆的航向姿态，进而影响后续处理。

例如在数字孪生场景中，使得对象在图像中的不同航向姿态，投影到3D空间的结果与对象在真实场景中的情况会有很大差别，例如真实场景中车辆如图1所示，但是由于仅获取了车辆的位置信息，并未获取车辆的航向姿态，进而导致投影到3D空间时，车辆的航向姿态可能并非如图1，例如可能将底边中心点投影成车侧面的中心点，或者将底边中心点投影成车头的中心点，等等，与车辆的实际情况有很大差别。而航向姿态可以反映对象的实际情况，所以构建一种易于操作部署，普适性强，低成本的对象航向姿态表示方法，将有助于提升在对象感知技术在各种场景下的应用。

为了解决上述技术问题，本申请实施例提供一种对象检测方法，该方法可以确定待检测图像中第一组成部分对应的第一检测框的位置信息，以及确定待检测图像中第二组成部分对应的第二检测框的位置信息。由于第一组成部分和第二组成部分为待检测对象包括的不同组成部分，第一组成部分和第二组成部分为沿着待检测对象的运动方向对待检测对象进行结构划分得到的，故可以基于第一检测框的位置信息和第二检测框的位置信息确定出待检测对象的航向姿态，从而更加准确地反映待检测对象在真实场景中的实际情况，提高后续处理准确性。例如在数字孪生场景中，可以降低待检测对象投影到3D空间的结果与待检测对象在真实场景中的情况之间的差别，还原度大大提高。

需要说明的是，本申请实施例提供的对象检测方法可以可应用于各种场景，这些场景通常可能会使用对象感知技术，例如自动驾驶场景、辅助驾驶场景、自动驾驶模拟场景、智慧交通场景、数字孪生场景等，本申请实施例对对象检测方法的应用场景不做限定，本申请实施例将主要以数字孪生场景为例进行介绍。通过本申请实施例提供的方法可以确定待检测对象的航向姿态，进而基于航向姿态进行后续处理，根据应用场景的不同，后续处理的方式可能有所不同。例如在自动驾驶场景中，获取到航向姿态后，可以基于航向姿态进行车决策；在辅助驾驶场景中，获取到航向姿态后，可以基于航向姿态进行碰撞风险预测，辅助驾驶员的驾驶；在自动驾驶模拟场景中，获取到航向姿态后，可以基于航向姿态确定自动驾驶算法；在交通仿真场景中，获取到航向姿态后，可以基于航向姿态进行车辆轨迹仿真分析，从而对交通状况进行解释、分析、找出问题，以优化交通系统；在数字孪生场景中，获取到航向姿态后，可以基于航向姿态将待检测对象投影到3D空间进行展示，等等。

本申请实施例提供的对象检测方法可以由计算机设备执行，该计算机设备例如可以是服务器，也可以是终端。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端包括但不限于智能手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。

如图2所示，图2示出了一种对象检测方法的应用场景架构图，该应用场景以服务器执行本申请实施例提供的对象检测方法为例进行介绍。

在该应用场景中可以包括服务器200，该服务器200可以通过对象感知技术获取待检测对象的相关信息。

具体地，服务器200可以获取包括待检测对象的待检测图像。其中，待检测对象可以是真实场景中需要进行检测的对象，待检测对象通常是动态的、可以进行运动的对象，待检测对象例如可以是道路上的车辆、天空上的无人机等，本申请实施例对此不做限定。待检测图像可以是通过图像采集设备对真实场景中的待检测对象进行拍摄得到的图像，此时服务器获取待检测图像的方式可以是图像采集设备将采集到的待检测图像发送至服务器。图像采集设备可以是能够进行拍摄得到图像的设备，根据真实场景的不同，图像采集设备可能有所不同，例如在道路上，待检测对象可以为待检测车辆，此时图像采集设备可以是路侧相机，该路侧相机可以是自建相机设备、旧相机设备，并且不限于可见光相机，对于红外夜视相机也适用，对于非针孔模型相机，在去除畸变后，仍可以按上述方法应用；又如在天空中，待检测对象可以为无人机，此时图像采集设备可以是其他相机等。

在得到待检测图像后，服务器200可以确定待检测图像中第一组成部分对应的第一检测框的位置信息，以及确定待检测图像中第二组成部分对应的第二检测框的位置信息。其中，第一组成部分和第二组成部分为待检测对象包括的不同组成部分，第一组成部分和第二组成部分为沿着待检测对象的运动方向对待检测对象进行结构划分得到的，故可以基于第一检测框的位置信息和第二检测框的位置信息确定出待检测对象的航向姿态，从而从待检测图像中提取出待检测对象的更多信息，以准确地反映待检测对象的实际情况。第一检测框为指示第一组成部分在待检测图像中位置的检测框，第二检测框为指示第二组成部分在待检测图像中位置的检测框，其中检测框可以是各种形状，例如可以是矩形、正方形等等，本申请实施例以检测框是矩形为例。

以待检测对象是待检测车辆为例，第一组成部分为可以为待检测车辆的车头，第二组成部分可以为待检测车辆的车尾，此时第一检测框和第二检测框可以分别参见图2所示；或者，第一组成部分可以为待检测车辆的车尾，第二组成部分可以为待检测车辆的车头，本申请是实施例对此不做限定。当然，第一组成部分和第二组成部分也可以是沿着待检测对象的运动方向进行划分的其他组成部分，以待检测对象是待检测车辆为例，第一组成部分为可以为待检测车辆的车头，第二组成部分可以为待检测车辆的车厢头部。

而第一检测框和第二检测框的位置可能会影响航向姿态的确定方式，故服务器200可以先基于第一检测框的位置信息和第二检测框的位置信息确定第一检测框与第二检测框在图像坐标系下的第一位置关系，进而基于第一位置关系，利用第一检测框的位置信息和第二检测框的位置信息计算待检测对象在图像坐标系下的航向姿态。其中，第一位置关系可以指示第一检测框和第二检测框之间的相对位置情况，例如第一检测框在第二检测框的左上方、右上方、左下方、右下方等位置关系。航向姿态可以是指待检测对象在运动时，待检测对象在某一坐标系（例如图像坐标系）下的瞬时运动方向构成的矢量。以待检测对象是待检测车辆为例，航向姿态即车辆姿态，可以是指待检测车辆行驶在道路上，待检测车辆在某一坐标系（例如图像坐标系）下的瞬时运动方向构成的矢量。

通过上述方法，服务器200可以从待检测图像中确定待检测对象的航向姿态，从而更加准确地反映待检测对象在真实场景中的实际情况，提高后续处理准确性。例如在数字孪生场景中，可以降低待检测对象投影到3D空间的结果与待检测对象在真实场景中的情况之间的差别，还原度大大提高。

需要说明的是，本申请实施例提供的方法可以涉及人工智能，本申请实施例主要基于人工智能自动进行对象检测。人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。例如本申请实施例中可以利用目标检测模型进行对象识别，从而得到第一检测框、第二检测框等，而目标检测模型可以是基于机器学习训练得到的模型。

本申请实施例提供的方法可以涉及人工智能的自动驾驶技术，自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自动驾驶技术有着广泛的应用前景。

需要说明的是，在本申请的具体实施方式中，进行数据处理的过程中有可能会涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户单独同意或者单独许可，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

接下来，将以服务器执行对象检测方法为例，结合附图对本申请实施例提供的对象检测方法进行详细介绍。参见图3，图3示出了一种对象检测方法的流程图，所述方法包括：

S301、获取待检测图像。

为了利用待检测对象的相关信息，并且保证利用该相关信息进行后续处理能够得到较为准确的结果，在本申请实施例可以获取能够反映待检测对象在真实场景中实际情况的相关信息。可以理解的是，待检测对象是真实场景中需要进行检测的对象，待检测对象通常是动态的、可以进行运动的对象，待检测对象例如可以是道路上的车辆、天空上的无人机等。而待检测对象的航向姿态通常能够反映待检测对象在真实场景的实际情况，故本申请实施例需要获取的相关信息可以是航向姿态。

为了获得航向姿态，服务器可以获取包括待检测对象的待检测图像。待检测图像可以是通过图像采集设备对真实场景中的待检测对象进行拍摄得到的图像，此时服务器获取待检测图像的方式可以是图像采集设备将采集到的待检测图像发送至服务器。图像采集设备可以是能够进行拍摄得到图像的设备，根据真实场景的不同，图像采集设备可能有所不同，例如在道路上，待检测对象可以为待检测车辆，此时图像采集设备可以是路侧相机。

S302、确定所述待检测图像中第一组成部分对应的第一检测框的位置信息，以及确定所述待检测图像中第二组成部分对应的第二检测框的位置信息。

在得到待检测图像后，服务器可以确定待检测图像中第一组成部分对应的第一检测框的位置信息，以及确定待检测图像中第二组成部分对应的第二检测框的位置信息。其中，第一组成部分和第二组成部分为待检测对象包括的不同组成部分，第一组成部分和第二组成部分为沿着待检测对象的运动方向对待检测对象进行结构划分得到的，故可以基于第一检测框的位置信息和第二检测框的位置信息确定出待检测对象的航向姿态，从而从待检测图像中提取出待检测对象的更多信息，以准确地反映待检测对象的实际情况。

第一检测框为指示第一组成部分在待检测图像中位置的检测框，第二检测框为指示第二组成部分在待检测图像中位置的检测框，其中检测框可以是各种形状，例如可以是矩形、正方形等等，本申请实施例以检测框是矩形为例。第一检测框的位置信息和第二检测框的位置信息可以通过坐标表示，若检测框是矩形，则检测框的坐标可以反映检测框的一个顶点坐标以及检测框的宽度和高度，由此表示检测框的位置信息。例如，第一检测框的位置信息可以表示为（x1,y1,w1,h1），其中，（x1,y1）为第一检测框一个顶点（例如左上角的顶点）的坐标，w1为第一检测框的宽度（即第一检测框在待检测图像上的实际像素宽度），反映第一组成部分在待检测图像上的实际像素宽度，h1为第一检测框的高度（即第一检测框在待检测图像上的实际像素高度），反映第一组成部分在待检测图像上的实际像素高度；第二检测框的位置信息可以表示为（x2,y2,w2,h2），其中，（x2,y2）为第二检测框一个顶点（例如左上角的顶点）的坐标，w2为第二检测框的宽度（即第二检测框在待检测图像上的实际像素宽度），反映第二组成部分在待检测图像上的实际像素宽度，h2为第二检测框的高度（即第二检测框在待检测图像上的实际像素高度），反映第二组成部分在待检测图像上的实际像素高度。

在本申请实施例中，由于待检测对象可以是不同的对象，故待检测对象不同，第一组成部分、第二组成部分也可能有所不同，即使待检测对象相同，第一组成部分、第二组成部分也可以是待检测对象包括的不同组成部分。通常情况下，保证第一组成部分和第二组成部分沿着待检测对象的运动方向排列，能够用于表示待检测对象的航向姿态即可。在一种可能的实现方式中，待检测对象为待检测车辆，第一组成部分可以为待检测车辆的车头，此时第一检测框可以为车头检测框，第二组成部分可以为待检测车辆的车尾，此时第二检测框可以为车尾检测框；或者，第一组成部分可以为待检测车辆的车尾，此时第一检测框可以为车尾检测框，第二组成部分可以为待检测车辆的车头，此时第二检测框可以为车头检测框。

参见图4所示，图4以待检测对象为待检测车辆为例，此时第一组成部分可以是车头，第二组成部分可以是车尾，此时第一检测框可以是车头检测框（参见图4中401所示），第二检测框可以是车尾检测框（参见图4中402所示）。

上述方法通过将车头和车尾作为第一组成部分和第二组成部分，由于车头和车尾是车辆上较为容易识别的组成部分，从而提高识别的准确性，进而提高后续航向姿态计算的准确性。

需要说明的是，在得到第一检测框和第二检测框后，若第一检测框和第二检测框分别对应待检测对象的头部和尾部，例如第一检测框为车头检测框，第二检测框为车尾检测框，或者第一检测框为车尾检测框，第二检测框为车头检测框，则第一检测框和第二检测框可以形成一个伪3D结构的立方体，从而框住整个待检测对象，参见图4中虚线所形成的立方体所示。该立方体在一定程度上可以表达待检测对象的3D结构信息，从而实现在2D待检测图像上进行3D结构信息的近似表达。

需要说明的是，本申请实施例可以通过目标检测技术对待检测对象以及待检测对象的组成部分进行识别，从而得到第一检测框和第二检测框的位置信息。而当对待检测对象进行拍摄得到待检测图像时，由于待检测对象和图像采集设备之间的角度、方位等原因，待检测图像中待检测对象的组成部分未必全部可见，在这种情况下，为了保证识别的准确性，可以对待检测对象的可见组成部分进行识别。

基于此，确定待检测图像中第一组成部分对应的第一检测框的位置信息，以及确定待检测图像中第二组成部分对应的第二检测框的位置信息的方式可以是对待检测图像中的待检测对象进行识别，得到待检测对象对应的第三检测框的位置信息，以及对待检测对象的待检测组成部分进行识别，得到待检测组成部分对应的目标检测框的位置信息，待检测组成部分是第一组成部分和第二组成部分在待检测图像中可见的组成部分，待检测组成部分对应的目标检测框位于第三检测框的范围内，通过待检测对象的整体检测框（即第三检测框）的限定，可以提高目标检测框识别的准确性。然后，基于目标检测框的位置信息确定第一检测框的位置信息以及第二检测框的位置信息。

第三检测框的位置信息也可以通过坐标表示，若第三检测框是矩形，则第三检测框的坐标可以反映第三检测框的一个顶点坐标以及第三检测框的宽度和高度，由此表示第三检测框的位置信息。在这种情况下，可以以第三检测框的一个顶点作为坐标系的原点，以经过该顶点的两条边分别作为坐标系的x轴和y轴，此时，第三检测框的位置信息可以表示为（0,0,w,h），（0,0）为第三检测框一个顶点（例如左上角的顶点）的坐标，w为第三检测框的宽度（即第三检测框在待检测图像上的实际像素宽度），反映待检测对象在待检测图像上的实际像素宽度，h为第三检测框的高度（即第三检测框在待检测图像上的实际像素高度），反映待检测对象在待检测图像上的实际像素高度。

参见图4所示，在图4中401标识的可以是第一检测框，402标识的可以是第二检测框，403标识的可以是第三检测框，以第三检测框的左上角的顶点作为原点，以经过该顶点的两条边分别作为x轴和y轴构建坐标系（参见图4所示），从而在该坐标系下通过坐标表示第一检测框、第二检测框和第三检测框，具体表示方法参见上述介绍，此处不再赘述。

本申请实施例，通过对待检测对象以及待检测对象的可见组成部分进行识别，从而提高目标检测框的识别准确性，进而保证第一检测框的位置信息以及第二检测框的位置信息的准确性。

可以理解的是，由于待检测对象和图像采集设备之间的角度、方位等原因，随着角度、方位的不同，使得待检测对象的可见组成部分可能有所不同，即待检测组成部分可能有所不同，进而使得基于目标检测框的位置信息确定第一检测框的位置信息以及第二检测框的位置信息的方式可能有所不同。下面，将对待检测组成部分不同时，确定第一检测框的位置信息以及第二检测框的位置信息的方式进行介绍。

若待检测组成部分是第一组成部分，即第一组成部分在待检测图像中是可见的，则可以通过目标检测技术对待检测对象以及第一组成部分进行识别。在这种情况下，基于目标检测框的位置信息确定第一检测框的位置信息以及第二检测框的位置信息的方式可以是将目标检测框的位置信息确定为第一检测框的位置信息，并且基于第三检测框的位置信息和第一检测框的位置信息，按照刚体对称性原则确定第二检测框的位置信息。其中，刚体是指在外力作用下，形状和大小都不发生变化的物体，刚体对称性原则可以是指对刚体进行某种操作之后，该刚体保持不变的性质，例如轴对称、旋转对称等。

参见图4所示，图4以待检测对象为待检测车辆为例，此时第一组成部分可以是车头，第二组成部分可以是车尾，若待检测组成部分是第一组成部分，即识别到第三检测框（即整体检测框，也可以称为全车框）和第一检测框（即车头检测框），第三检测框的位置信息可以表示为（0,0,w,h），第一检测框的位置信息可以表示为（x1,y1,w1,h1），由于第三检测框和第一检测框是识别到的，故（0,0,w,h）和（x1,y1,w1,h1）是已知的，第二检测框的位置信息（x2,y2,w2,h2）是未知的，故可以根据第三检测框的位置信息和第一检测框的位置信息，按照刚体对称性原则确定第二检测框的位置信息。基于刚体对称性原则，参见图4所示，可以确定x2= (w – (x1 + w1))，y2 = (h – (y1 + h1))，w2 = w1，h2 = h1，故第二检测框的位置信息可以表示为（x2 = (w – (x1 + w1)), y2 = (h – (y1 + h1)), w2 = w1,h2 = h1)。

若待检测组成部分是第二组成部分，即第二组成部分在待检测图像中是可见的，则可以通过目标检测技术对待检测对象以及第二组成部分进行识别。在这种情况下，基于目标检测框的位置信息确定第一检测框的位置信息以及第二检测框的位置信息的方式可以是将目标检测框的位置信息确定为第二检测框的位置信息，并且基于第三检测框的位置信息和第二检测框的位置信息，按照刚体对称性原则确定第一检测框的位置信息。

参见图4所示，图4以待检测对象为待检测车辆为例，此时第一组成部分可以是车头，第二组成部分可以是车尾，若待检测组成部分是第二组成部分，即识别到第三检测框（即整体检测框，也可以称为全车框）和第二检测框（即车尾检测框），第三检测框的位置信息可以表示为（0,0,w,h），第二检测框的位置信息可以表示为（x2,y2,w2,h2），由于第三检测框和第二检测框是识别到的，故（0,0,w,h）和（x2,y2,w2,h2）是已知的，第二检测框的位置信息（x1,y1,w1,h1）是未知的，故可以根据第三检测框的位置信息和第二检测框的位置信息，按照刚体对称性原则确定第一检测框的位置信息。基于刚体对称性原则，参见图4所示，可以确定x1 = (w – (x2 + w2))，y1 = (h – (y2 + h2))，w1 = w2，h1 = h2，故第二检测框的位置信息可以表示为（x1 = (w – (x2 + w2))，y1 = (h – (y2 + h2))，w1 = w2，h1= h2)。

若待检测组成部分包括第一组成部分和第二组成部分，即第一组成部分和第二组成部分在待检测图像中都是可见的，则可以通过目标检测技术对待检测对象以及第一组成部分和第二组成部分进行识别，此时基于目标检测框的位置信息确定第一检测框的位置信息以及第二检测框的位置信息的方式可以是将第一组成部分对应的目标检测框的位置信息确定为第一检测框的位置信息，以及将第二组成部分对应的目标检测框的位置信息确定为第二检测框的位置信息。也就是说，第一检测框的位置信息和第二检测框的位置信息都是检测得到的、是已知的，无需通过求解的方式得到。

参见图4所示，图4以待检测对象为待检测车辆为例，此时第一组成部分可以是车头，第二组成部分可以是车尾，若待检测组成部分包括第一组成部分和第二组成部分，即识别到第三检测框（即整体检测框，也可以称为全车框）、第一检测框（即车头检测框）和第二检测框（即车尾检测框），第三检测框的位置信息可以表示为（0,0,w,h），第一检测框的位置信息可以表示为（x1,y1,w1,h1），第二检测框的位置信息可以表示为（x2,y2,w2,h2），都是已知的，无需求解。

S303、基于所述第一检测框的位置信息和所述第二检测框的位置信息确定所述第一检测框与所述第二检测框在图像坐标系下的第一位置关系。

第一检测框和第二检测框的位置可能会影响航向姿态的确定方式，故服务器可以先基于第一检测框的位置信息和第二检测框的位置信息确定第一检测框与第二检测框在图像坐标系下的第一位置关系。第一位置关系可以指示第一检测框和第二检测框之间的相对位置情况，例如第一检测框在第二检测框的左上方、右上方、左下方、右下方等位置关系，第一位置关系不同，得到的航向姿态也可能有所不同。

需要说明的是，当位置信息通过检测框的顶点以及检测框的宽度和高度表示时，确定第一位置关系的方式可以是基于第一检测框的顶点坐标以及第二检测框的顶点坐标之间的大小关系进行确定。

以第一检测框的位置信息表示为（x1,y1,w1,h1），第二检测框的位置信息表示为（x2,y2,w2,h2）为例，若x1<= x2且y1<= y2，可以确定第一位置关系为第一检测框在第二检测框的左上方，参见图5中501和502所示，此时，501可以标识第二检测框，501可以标识第一检测框，即待检测对象左舷；若x1>x2且y1<= y2，可以确定第一位置关系为第一检测框在第二检测框的右上方，参见图5中501和503所示，此时，501可以标识第二检测框，503可以标识第一检测框；若x1<= x2且y1>y2，可以确定第一位置关系为第一检测框在第二检测框的左下方，参见图5中501和504所示，此时，501可以标识第二检测框，504可以标识第一检测框；若x1>x2且y1>y2，可以确定第一位置关系为第一检测框在第二检测框的右下方，参见图5中501和505所示，此时，501可以标识第二检测框，505可以标识第一检测框。

需要说明的是，若待检测对象是待检测车辆，第一组成部分是车头，第二组成部分是车尾，则当x1<= x2且y1<= y2时，待检测图像中可见一侧的车侧弦为车辆左舷（即从车尾向车头看，车头的左侧是左舷）；当x1>x2且y1<= y2时，待检测图像中可见一侧的车侧弦为车辆右舷（即从车尾向车头看，车头的右侧是右舷）；当x1<= x2且y1>y2时，待检测图像中可见一侧的车侧弦为车辆左舷；当x1>x2且y1>y2时，待检测图像中可见一侧的车侧弦为车辆右舷。

S304、基于所述第一位置关系，利用所述第一检测框的位置信息和所述第二检测框的位置信息计算所述待检测对象在所述图像坐标系下的航向姿态。

在得到第一位置关系后，服务器可以基于第一位置关系，利用第一检测框的位置信息和第二检测框的位置信息计算待检测对象在图像坐标系下的航向姿态。根据第一位置关系的不同，利用第一检测框的位置信息和第二检测框的位置信息计算得到的航向姿态有所不同。通常情况下，可以用待检测图像中待检测对象可见一侧的侧弦的方向来表示航向姿态。

继续以上述待检测对象是待检测车辆为例，第一组成部分是车头，第二组成部分是车尾，则当x1<= x2且y1<= y2时，待检测图像中可见一侧的车侧弦为车辆左舷，故可以用车辆左舷的方向来表示航向姿态，例如图5中501和502之间的虚线箭头所示。此时，航向姿态=[(x1,y1+h1), (x2, y2+h2)]。当x1>x2且y1<= y2时，待检测图像中可见一侧的车侧弦为车辆右舷，故可以用车辆右舷的方向来表示航向姿态，例如图5中501和503之间的虚线箭头所示。此时，航向姿态=[(x1+w1 ,y1+h1), (x2+w2, y2+h2)]。当x1<= x2且y1>y2时，待检测图像中可见一侧的车侧弦为车辆左舷，故可以用车辆左舷的方向来表示航向姿态，例如图5中501和504之间的虚线箭头所示。此时，航向姿态=[(x1+w1 ,y1+h1), (x2+w2, y2+h2)]。当x1>x2且y1>y2时，待检测图像中可见一侧的车侧弦为车辆右舷，故可以用车辆右舷的方向来表示航向姿态，例如图5中501和505之间的虚线箭头所示。此时，航向姿态= [(x1,y1+h1), (x2, y2+h2)]。

本申请实施例通过可见一侧的侧弦计算待检测对象的航向姿态，可以降低误差，提高航向姿态确定的准确性。

通过本申请实施例提供的方法得到待检测对象的航向姿态后，可以在不同应用场景下，利用航向信息进行对应的处理。例如，在数字孪生场景中，对图像采集设备拍摄的待检测对象等动态障碍物进行感知提取，并将待检测对象的位置、航向姿态、类别等提供给实时孪生产品平台，基于航向姿态将待检测对象投影到3D空间，从而在虚拟的3D环境中对待检测对象的实际情况（例如待检测车辆的实际情况、轨迹等）进行孪生还原展示。

具体的，服务器可以获取图像采集设备的内部参数和外部参数，该图像采集设备用于采集上述待检测图像，进而基于图像采集设备的内部参数和外部参数，将待检测对象在图像坐标系下的航向姿态转换到三维坐标系。其中，内部参数可以是指由图像采集设备出厂时的焦距、畸变参数决定的参数矩阵；外部参数可以是指由图像采集设备的安装位置与所定义的坐标系决定的图像采集设备的位置坐标以及旋转矩阵。

与相关技术提供的基于激光雷达等 3D设备获取待检测对象的3D坐标信息相比，本申请实施例利用2D的待检测图像，而无需利用激光雷达等3D设备，就可以进行待检测对象的3D结构解析，进而将产品的业务部署售卖需求和内部算法模型迭代需求，在硬件需求上做到了统一，从而能有效降低内部研发成本。同时将待检测对象的3D结构解析与图像采集设备的内部参数和外部参数进行解耦，即在图像坐标系上估计了待检测对象的航向姿态，当需要投影到3D空间时，只需要输入图像采集设备的内部参数和外部参数，即可将该2D的图像坐标系下航向姿态转换到3D空间，该方法提升了业务算法的泛化扩展能力，同时降低了迭代算法所需要的设备成本（无需激光就可以进行3D结构解析）。

当待检测对象是待检测车辆时，从而实现对待检测车辆的车辆结构进行解析。车辆结构可以是指对待检测车辆的结构部件进行识别解析，得到的包括全车身、车头、车尾等关键语义部件。

可以理解的是，本申请实施例在对待检测对象和待检测组成部分进行识别时，可以采用目标检测技术进行识别，在一种可能的实现方式中，目标检测技术可以通过目标检测模型实现。基于此，在一种可能的实现方式中，对待检测图像中的待检测对象进行识别，得到待检测对象对应的第三检测框的位置信息，以及对待检测对象的待检测组成部分进行识别，得到待检测组成部分对应的目标检测框的位置信息的方式可以是通过目标检测模型对待检测图像中的待检测对象进行识别，得到待检测对象对应的第三检测框的位置信息，以及通过目标检测模型对待检测对象的待检测组成部分进行识别，得到待检测组成部分对应的目标检测框的位置信息。

其中，目标检测模型可以是一种机器学习模型，用于进行目标检测。本申请实施例对目标检测模型的网络结构不做限定，只要可以实现目标检测即可。在一种可能的实现方式中，目标检测模型的网络结构可以参见图6所示，主要包括601和602所标识的两个部分，601所标识的部分可以由卷积（Convolutional，Conv）层、批量归一化（BatchNormalization，BN）层和激活函数（ReLU）层组成。602所标识的部分可以由反卷积层（Deconvolution，DeConv）、BN层和ReLU层组成。

当获取到待检测图像时，可以对待检测图像进行尺寸变化，从而使得输入至目标检测模型的待检测图像的尺寸符合目标检测模型的处理需求。将经过尺寸变化的待检测图像输入至目标检测模型，通过卷积层进行特征提取，得到一定尺寸的特征图，再经过BN层和ReLU层处理得到处理后的特征图。处理后的特征图经过反卷积层、BN层和ReLU层处理后得到目标特征图，目标特征图相对于处理后的特征图尺寸变大，信息量变多，从而便于基于目标特征图准确地输出类别、第三检测框的位置信息和目标检测框的位置信息。可以理解的是，目标检测模型具有输出第一检测框的位置信息和第二检测框的位置信息的能力，只不过根据第一组成部分和第二组成部分可见情况不同，目标检测框可以是第一检测框和/或第二检测框。

可以理解的是，在通过目标检测模型进行识别时，目标检测模型的识别准确性将影响第三检测框和目标检测框的位置信息的准确性，进而影响后续计算航向姿态的准确性，因此，目标检测模型的准确性是十分重要的。而目标检测模型的准确性可以由目标检测模型的训练过程决定，基于此，为了保证目标检测模型的准确性，本申请实施例还提供一种目标检测模型的训练方法。参见图7所示，所述方法包括：

S701、获取样本图像，样本图像中标注有第一样本组成部分对应的第一标准检测框、第二样本组成部分对应的第二标准检测框、样本检测对象对应的第三标准检测框、第一样本组成部分的可见标识和第二样本组成部分的可见标识，第一样本组成部分和第二样本组成部分是样本检测对象包括的不同组成部分，第一样本组成部分和第二样本组成部分为沿着样本检测对象的运动方向对样本检测对象进行结构划分得到的，第一标准检测框和第二标准检测框位于第三标准检测框的范围内。

在本申请实施例中，为了训练得到能够输出第一检测框、第二检测框、第三检测框的位置信息，可以先对图像进行标注，从而构建样本图像。在进行标注时，主要标注第一样本组成部分对应的第一标准检测框、第二样本组成部分对应的第二标准检测框、样本检测对象对应的第三标准检测框、第一样本组成部分的可见标识和第二样本组成部分的可见标识。其中，可见标识可以用数字、符号等表示，以数字表示为例，可见标识为1表示可见，可见标识为0表示不可见，本申请实施例对可见标识的具体形式不做限定。

以样本检测对象是车辆为例，在得到车辆的图像后，可以标注车辆的全车框，在已标注的全车框中，标注车头检测框/车尾检测框，车头检测框/车尾检测框的宽度反映车辆在图像上实际像素宽度，车头检测框/车尾检测框的底边近似画到车辆底盘接地的地方，并且不能超出全车框的范围，车头检测框/车尾检测框的高度按车头/车尾实际高度绘制，由此建构得到样本图像。上述绘制结果，如图8a所示。其中，801所示的检测框为全车框（即第三标准检测框），802所示的检测框为车头检测框（即第一标准检测框），803所示的检测框为车尾检测框（即第二标准检测框）。并根据车头/车尾是否可见（自遮挡），通过可见标识来标识车头/车尾是否可见（可见标识为0-不可见，可见标识为1-可见）。

本申请实施例在标注时，不仅标注样本检测对象对应的第三标准检测框（即整体检测框），还标注第一样本组成部分对应的第一标准检测框、第二样本组成部分对应的第二标准检测框，从而使得后续训练得到的目标检测模型可以识别一个对象所包括的两个不同组成部分的检测框，且该两个组成部分为沿着样本检测对象的运动方向对样本检测对象进行结构划分得到的。这种标注方式相比于相关技术中提供的底盘关键点标注，本申请实施例提供的标注方式较为容易。

S702、基于样本图像，通过待训练模型输出目标样本组成部分对应的第一预测检测框，以及通过待训练模型输出样本检测对象对应的第二预测检测框，目标样本组成部分是第一样本组成部分和第二样本组成部分中可见标识指示可见的组成部分。

其中，第一预测检测框可以是对可见的组成部分进行预测得到的检测框，泛指第一样本组成部分和/或第二样本组成部分的预测检测框。第二预测检测框是对样本检测对象进行预测得到的反映样本检测对象整体的整体检测框。以样本检测对象是车辆、第一样本组成部分是车头、第二样本组成部分是车尾为例，第一预测检测框可以是对车头和车尾中可见的组成部分进行预测得到的检测框，第二预测检测框可以是预测得到的全车框。

S703、基于第一预测检测框的位置信息确定第一样本组成部分对应的第三预测检测框的位置信息以及第二样本组成部分对应的第四预测检测框的位置信息。

第三预测检测框是第一样本组成部分对应的检测框，用于指示第一样本组成部分；第四预测检测框是第二样本组成部分对应的检测框，用于指示第二样本组成部分。以样本检测对象是车辆、第一样本组成部分是车头、第二样本组成部分是车尾为例，第三预测检测框是车头检测框，第四预测检测框是车尾检测框。

S704、基于第三预测检测框的位置信息和第四预测检测框的位置信息确定第三预测检测框与第四预测检测框在图像坐标系下的第二位置关系。

S705、基于第二位置关系，利用第三预测检测框的位置信息和第四预测检测框的位置信息计算样本检测对象在图像坐标系下的预测航向姿态。

其中，S702-S703的具体实现方式与S302介绍的实现方式类似，S704-S705的具体实现方式与S303- S304的具体实现方式类似，此处不再赘述。

S706、根据预测航向姿态和标准航向姿态构建航向损失，并根据第三预测检测框和第一标准检测框构建第一预测损失，以及根据第四预测检测框和第二标准检测框构建第二预测损失，以及根据第二预测检测框和第三标准检测框构建第三预测损失。

在本申请实施例中，不仅可以构建每种检测框对应的预测损失，还可以基于得到的预测航向姿态构建航向损失，从而结合航向损失对待训练模型进行训练。

另外，由于目标检测模型还可以识别样本检测对象的类别，故在样本图像中还可以标注样本检测对象的标准分类结果，进而在通过待训练模型输出样本检测对象的预测分类结果后，还可以根据预测分类结果和标准分类结果构建类别损失。

在一种可能的实现方式中，航向损失可以用L1 loss表示，L1 loss的计算公式如下所示：

L1 loss= abs(Predict-GT)

其中，abs代表绝对值，Predict表示预测航向姿态，GT表示标准航向姿态。

以预测航向姿态的矢量通过（m,n）表示为例，m和n代表预测航向姿态的矢量的首尾坐标点，则预测航向姿态可以表示为Predict= atan(m,n)；以标准航向姿态的矢量通过(M,N）表示为例，M和N代表标准航向姿态的矢量的首尾坐标点，则标准航向姿态可以表示为GT= atan(M,N)。

在一种可能的实现方式中，第一预测损失、第二预测损失和第三预测损失都是预测检测框对应的损失，只不过是根据不同的预测检测框得到的。通常情况下，预测检测框对应的损失可以通过交并比（Intersection Over Union，IOU）表示，IOU计算的是预测检测框和标准检测框的交叠率，即它们的交集和并集的比值。具体的，在本申请实施例中，所使用的交并比可以是广义交并比（Generalized Intersection Over Union，GIOU）。GIOU的计算公式可以如下所示：

其中，A代表预测检测框，B代表标准检测框，先计算A和B的交并比IOU，C是A和B的最小外包络框，C\(A U B) 是 C减去（A U B）的值。

例如，当A是第三预测检测框时，B是第一标准检测框，通过上述公式构建第一预测损失；当A是第四预测检测框时，B是第二标准检测框，通过上述公式构建第二预测损失；当A是第二预测检测框时，B是第三标准检测框，通过上述公式构建第三预测损失。

可以理解的是，分类损失可以基于预测分类结果和标准分类结果之间的差别进行构建，在一种可能的实现方式中，分类损失可以通过分类交叉熵表示，分类交叉熵的计算公式可以如下所示：

Entropy = -∑P_ilog(P_i)

其中，Entropy表示分类交叉熵，P_i表示预测分类结果，具体可以是指样本检测对象属于各个类别的概率。

在一些情况下，人工标注可能存在误差，为了在后续使用时，可以保证标准检测框的准确性，在利用刚体对称性原则的情况下，可以对标注结果进行有效的归一化，从而修正人工标注是可能带来的误差。具体的，若第一标准检测框和第二标准检测框为矩形检测框，可以对第一标准检测框和第二标准检测框中的至少一个检测框进行归一化处理，得到处理后的第一标准检测框和处理后的第二标准检测框。此时根据第三预测检测框和第一标准检测框构建第一预测损失的方式可以是根据第三预测检测框和处理后的第一标准检测框构建第一预测损失，根据第四预测检测框和第二标准检测框构建第二预测损失的方式可以是根据第四预测检测框和处理后的第二标准检测框构建第二预测损失。这样，使得训练得到的目标检测模型可以在进行识别时得到归一化的数据。

在进行归一化处理时，可以以第一标准检测框和第二标准检测框中一个标准检测框为基准，使另一个标准检测框的宽度和高度分别与作为基准的标准检测框一致。通常情况下，可以以高度和宽度比较大的一个标准检测框作为基准。

以样本检测对象是车辆为例，第一样本组成部分可以是车头，第二样本组成部分可以是车尾，标注后的样本图像可以如图8a所示。在8a的基础上，利用车头检测框/车尾检测框以及全车框的范围约束，对车头检测框/车尾检测框进行归一化处理。当样本检测对象为车辆时，车头检测框和车尾检测框的宽度基本一致，而高度可能有差别，故可以不对宽度进行处理，而对高度进行归一化处理。具体方法如下：对于车头检测框/车尾检测框，两个检测框的高度不一致时，取高度较高者，作为车头检测框/车尾检测框的高度。在图8a中，车尾检测框的高度大于车头检测框的高度，故可以将车尾检测框的高度保持不变，并将车尾检测框的高度作为车头检测框的高度，从而完成归一化处理，归一化处理后，车头检测框和车尾检测框如图8b所示。这样就形成了一个伪3D的立方体框住了整个车辆，如图8c的黑色虚线围成的长方体所示。

S707、基于航向损失、第一预测损失、第二预测损失和第三预测损失对待训练模型进行训练得到目标检测模型。

在本申请实施例中，在得到航向损失、第一预测损失、第二预测损失和第三预测损失，可以基于上述损失对待训练模型进行训练得到目标检测模型。除了使用第一预测损失、第二预测损失和第三预测损失进行约束外，进一步结合航向损失约束第三预测检测框以及第四预测检测框在第二预测检测框内的位置，进而保证目标检测模型回归的第三预测检测框、第四预测检测框和第二预测检测框具备合理拓扑结构关系，提高目标检测模型的识别准确性。

若第一预测损失、第二预测损失和第三预测损失为GIOU，除上述损失之外，还得到分类损失，那么在得到航向损失、GIOU和分类损失后，可以综合以上3种损失，除了GIOU和分类损失约束外，还可以通过航向损失，来约束第三预测检测框以及第四预测检测框在第二预测检测框内的位置，以提高目标检测模型的识别准确性。

接下来，将结合实际应用场景对本申请实施例提供的对象检测方法进行介绍。该应用场景为数字孪生场景，具体为数字孪生场景的动态障碍物（例如待检测车辆）实时感知，从而在虚拟的3D环境中对道路上的车流、轨迹进行孪生还原展示。

基于此，为了实现待检测车辆的准确还原展示，可以通过路侧相机对待检测车辆进行拍摄得到待检测图像。对待检测图像中待检测车辆进行识别得到全车框的位置信息，对待检测图像中可见的车头或车尾进行识别，得到对对应的检测框的位置信息。若车头可见，则识别得到的是车头检测框的位置信息，可以基于全车框的位置信息和车头检测框的位置信息计算车尾检测框的位置信息。若车尾可见，则识别得到的是车尾检测框的位置信息，可以基于全车框的位置信息和车尾检测框的位置信息计算车头检测框的位置信息。若车头和车尾都可见，则直接识别得到车头检测框的位置信息和车尾检测框的位置信息。

在得到全车框的位置信息、车头检测框的位置信息和车尾检测框的位置信息后，可以确定车头检测框与车尾检测框在图像坐标系下的第一位置关系，进而基于第一位置关系，利用车头检测框的位置信息和车尾检测框的位置信息计算待检测对象在图像坐标系下的航向姿态，从而基于低成本的路侧相机实现航向姿态的可复用表示。

接着，将待检测车辆的位置、航向字体和类别等提供给实时孪生产品平台，在虚拟的3D环境中对道路上的车流，轨迹进行孪生还原展示。

需要说明的是，本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

基于图3对应实施例提供的对象检测方法，本申请实施例还提供一种对象检测装置900。参见图9，所述对象检测装置900包括获取单元901、确定单元902和计算单元903：

所述获取单元901，用于获取待检测图像，所述待检测图像中包括待检测对象；

所述确定单元902，用于确定所述待检测图像中第一组成部分对应的第一检测框的位置信息，以及确定所述待检测图像中第二组成部分对应的第二检测框的位置信息，所述第一组成部分和所述第二组成部分为所述待检测对象包括的不同组成部分，所述第一组成部分和所述第二组成部分为沿着所述待检测对象的运动方向对所述待检测对象进行结构划分得到的；

所述确定单元902，还用于基于所述第一检测框的位置信息和所述第二检测框的位置信息确定所述第一检测框与所述第二检测框在图像坐标系下的第一位置关系；

所述计算单元903，用于基于所述第一位置关系，利用所述第一检测框的位置信息和所述第二检测框的位置信息计算所述待检测对象在所述图像坐标系下的航向姿态。

在一种可能的实现方式中，所述确定单元902，具体用于：

从对所述待检测图像中的待检测对象进行识别，得到所述待检测对象对应的第三检测框的位置信息，以及对所述待检测对象的待检测组成部分进行识别，得到所述待检测组成部分对应的目标检测框的位置信息，所述待检测组成部分是所述第一组成部分和所述第二组成部分在所述待检测图像中可见的组成部分，所述待检测组成部分对应的目标检测框位于所述第三检测框的范围内；

基于所述目标检测框的位置信息确定所述第一检测框的位置信息以及所述第二检测框的位置信息。

在一种可能的实现方式中，所述确定单元902，具体用于：

若所述待检测组成部分是第一组成部分，将所述目标检测框的位置信息确定为所述第一检测框的位置信息；

基于所述第三检测框的位置信息和所述第一检测框的位置信息，按照刚体对称性原则确定所述第二检测框的位置信息。

在一种可能的实现方式中，所述确定单元902，具体用于：

若所述待检测组成部分是第二组成部分，将所述目标检测框的位置信息确定为所述第二检测框的位置信息；

基于所述第三检测框的位置信息和所述第二检测框的位置信息，按照刚体对称性原则确定所述第一检测框的位置信息。

在一种可能的实现方式中，所述待检测组成部分包括所述第一组成部分和所述第二组成部分，所述确定单元902，具体用于：

将所述第一组成部分对应的目标检测框的位置信息确定为所述第一检测框的位置信息，以及将所述第二组成部分对应的目标检测框的位置信息确定为所述第二检测框的位置信息。

在一种可能的实现方式中，所述确定单元902，具体用于：

通过目标检测模型对所述待检测图像中的待检测对象进行识别，得到所述待检测对象对应的第三检测框的位置信息，以及通过所述目标检测模型对所述待检测对象的待检测组成部分进行识别，得到所述待检测组成部分对应的目标检测框的位置信息。

在一种可能的实现方式中，所述装置还包括训练单元，所述训练单元，用于：

获取样本图像，所述样本图像中标注有第一样本组成部分对应的第一标准检测框、第二样本组成部分对应的第二标准检测框、样本检测对象对应的第三标准检测框、所述第一样本组成部分的可见标识和所述第二样本组成部分的可见标识，所述第一样本组成部分和所述第二样本组成部分是所述样本检测对象包括的不同组成部分，所述第一样本组成部分和所述第二样本组成部分为沿着所述样本检测对象的运动方向对所述样本检测对象进行结构划分得到的，所述第一标准检测框和所述第二标准检测框位于所述第三标准检测框的范围内；

基于所述样本图像，通过待训练模型输出目标样本组成部分对应的第一预测检测框，以及通过所述待训练模型输出所述样本检测对象对应的第二预测检测框，所述目标样本组成部分是所述第一样本组成部分和所述第二样本组成部分中可见标识指示可见的组成部分；

基于所述第一预测检测框的位置信息确定所述第一样本组成部分对应的第三预测检测框的位置信息以及所述第二样本组成部分对应的第四预测检测框的位置信息；

基于所述第三预测检测框的位置信息和所述第四预测检测框的位置信息确定所述第三预测检测框与所述第四预测检测框在图像坐标系下的第二位置关系；

基于所述第二位置关系，利用所述第三预测检测框的位置信息和所述第四预测检测框的位置信息计算所述样本检测对象在所述图像坐标系下的预测航向姿态；

根据所述预测航向姿态和标准航向姿态构建航向损失，并根据所述第三预测检测框和所述第一标准检测框构建第一预测损失，以及根据所述第四预测检测框和所述第二标准检测框构建第二预测损失，以及根据所述第二预测检测框和所述第三标准检测框构建第三预测损失；

基于所述航向损失、所述第一预测损失、所述第二预测损失和所述第三预测损失对所述待训练模型进行训练得到所述目标检测模型。

在一种可能的实现方式中，所述第一标准检测框和所述第二标准检测框为矩形检测框，所述装置还包括处理单元：

所述处理单元，用于对所述第一标准检测框和所述第二标准检测框中的至少一个检测框进行归一化处理，得到处理后的第一标准检测框和处理后的第二标准检测框；

所述训练单元，具体用于：

根据所述第三预测检测框和所述处理后的第一标准检测框构建所述第一预测损失；

根据所述第四预测检测框和所述处理后的第二标准检测框构建所述第二预测损失。

在一种可能的实现方式中，所述待检测对象为待检测车辆，所述第一组成部分为所述待检测车辆的车头，所述第一检测框为车头检测框，所述第二组成部分为所述待检测车辆的车尾，所述第二检测框为车尾检测框；或者，所述第一组成部分为所述待检测车辆的车尾，所述第一检测框为车尾检测框，所述第二组成部分为所述待检测车辆的车头，所述第二检测框为车头检测框。

在一种可能的实现方式中，所述装置还包括转换单元：

所述获取单元901，还用于在所述基于所述第一位置关系，利用所述第一检测框的位置信息和所述第二检测框的位置信息计算所述待检测对象在所述图像坐标系下的航向姿态之后，获取图像采集设备的内部参数和外部参数，所述图像采集设备用于采集所述待检测图像；

所述转换单元，用于基于所述图像采集设备的内部参数和外部参数，将所述待检测对象在所述图像坐标系下的航向姿态转换到三维坐标系。

本申请实施例还提供了一种计算机设备，该计算机设备可以执行对象检测方法。该计算机设备例如可以是终端，以终端为智能手机为例：

图10示出的是与本申请实施例提供的智能手机的部分结构的框图。参考图10，智能手机包括：射频（英文全称：Radio Frequency，英文缩写：RF）电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真（英文缩写：WiFi）模块1070、处理器1080、以及电源1090等部件。输入单元1030可包括触控面板1031以及其他输入设备1032，显示单元1040可包括显示面板1041，音频电路1060可以包括扬声器1061和传声器1062。可以理解的是，图10中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据智能手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1080是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行智能手机的各种功能和处理数据。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

在本实施例中，智能手机中的处理器1080可以执行上述任一实施例所提供的方法。

本申请实施例提供的计算机设备还可以是服务器，请参见图11所示，图11为本申请实施例提供的服务器1100的结构图，服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器，例如中央处理器（Central Processing Units，简称CPU）1122，以及存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130（例如一个或一个以上海量存储设备）。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows Server^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM等等。

在本实施例中，服务器1100中的中央处理器1122可以执行上述任一实施例所提供的方法。

根据本申请的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行前述各个实施例所述的对象检测方法。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，简称ROM）、随机存取存储器（Random Access Memory，简称RAM）、磁碟或者光盘等各种可以存储计算机程序的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术成员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种对象检测方法，其特征在于，所述方法包括：

获取待检测图像，所述待检测图像中包括待检测对象；

确定所述待检测图像中第一组成部分对应的第一检测框的位置信息，以及确定所述待检测图像中第二组成部分对应的第二检测框的位置信息，所述第一组成部分和所述第二组成部分为所述待检测对象包括的不同组成部分，所述第一组成部分和所述第二组成部分为沿着所述待检测对象的运动方向对所述待检测对象进行结构划分得到的，所述第一检测框的位置信息和所述第二检测框的位置信息均为采用目标检测模型检测得到；

基于所述第一位置关系，利用所述第一检测框的位置信息和所述第二检测框的位置信息计算所述待检测对象在所述图像坐标系下的航向姿态；

所述目标检测模型的训练方式包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述待检测图像中第一组成部分对应的第一检测框的位置信息，以及确定所述待检测图像中第二组成部分对应的第二检测框的位置信息，包括：

对所述待检测图像中的待检测对象进行识别，得到所述待检测对象对应的第三检测框的位置信息，以及对所述待检测对象的待检测组成部分进行识别，得到所述待检测组成部分对应的目标检测框的位置信息，所述待检测组成部分是所述第一组成部分和所述第二组成部分在所述待检测图像中可见的组成部分，所述待检测组成部分对应的目标检测框位于所述第三检测框的范围内；

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标检测框的位置信息确定所述第一检测框的位置信息以及所述第二检测框的位置信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述目标检测框的位置信息确定所述第一检测框的位置信息以及所述第二检测框的位置信息，包括：

5.根据权利要求2所述的方法，其特征在于，所述待检测组成部分包括所述第一组成部分和所述第二组成部分，所述基于所述目标检测框的位置信息确定所述第一检测框的位置信息以及所述第二检测框的位置信息，包括：

6.根据权利要求2所述的方法，其特征在于，所述对所述待检测图像中的待检测对象进行识别，得到所述待检测对象对应的第三检测框的位置信息，以及对所述待检测对象的待检测组成部分进行识别，得到所述待检测组成部分对应的目标检测框的位置信息，包括：

7.根据权利要求1所述的方法，所述第一标准检测框和所述第二标准检测框为矩形检测框，所述方法还包括：

对所述第一标准检测框和所述第二标准检测框中的至少一个检测框进行归一化处理，得到处理后的第一标准检测框和处理后的第二标准检测框；

所述根据所述第三预测检测框和所述第一标准检测框构建第一预测损失，包括：

所述根据所述第四预测检测框和所述第二标准检测框构建第二预测损失，包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述待检测对象为待检测车辆，所述第一组成部分为所述待检测车辆的车头，所述第一检测框为车头检测框，所述第二组成部分为所述待检测车辆的车尾，所述第二检测框为车尾检测框；或者，所述第一组成部分为所述待检测车辆的车尾，所述第一检测框为车尾检测框，所述第二组成部分为所述待检测车辆的车头，所述第二检测框为车头检测框。

9.根据权利要求1-7任一项所述的方法，其特征在于，所述基于所述第一位置关系，利用所述第一检测框的位置信息和所述第二检测框的位置信息计算所述待检测对象在所述图像坐标系下的航向姿态之后，所述方法还包括：

获取图像采集设备的内部参数和外部参数，所述图像采集设备用于采集所述待检测图像；

基于所述图像采集设备的内部参数和外部参数，将所述待检测对象在所述图像坐标系下的航向姿态转换到三维坐标系。

10.一种对象检测装置，其特征在于，所述装置包括获取单元、确定单元、计算单元和训练单元：

所述确定单元，用于确定所述待检测图像中第一组成部分对应的第一检测框的位置信息，以及确定所述待检测图像中第二组成部分对应的第二检测框的位置信息，所述第一组成部分和所述第二组成部分为所述待检测对象包括的不同组成部分，所述第一组成部分和所述第二组成部分为沿着所述待检测对象的运动方向对所述待检测对象进行结构划分得到的，所述第一检测框的位置信息和所述第二检测框的位置信息均为采用目标检测模型检测得到；

所述计算单元，用于基于所述第一位置关系，利用所述第一检测框的位置信息和所述第二检测框的位置信息计算所述待检测对象在所述图像坐标系下的航向姿态；

所述训练单元，用于：

11.根据权利要求10所述的装置，其特征在于，所述确定单元，具体用于：

12.根据权利要求11所述的装置，其特征在于，所述确定单元，具体用于：

13.根据权利要求11所述的装置，其特征在于，所述确定单元，具体用于：

14.根据权利要求11所述的装置，其特征在于，所述待检测组成部分包括所述第一组成部分和所述第二组成部分，所述确定单元，具体用于：

15.根据权利要求11所述的装置，其特征在于，所述确定单元，具体用于：

16.根据权利要求10所述的装置，其特征在于，所述第一标准检测框和所述第二标准检测框为矩形检测框，所述装置还包括处理单元：

所述训练单元，具体用于：

17.根据权利要求10-16任一所述的装置，其特征在于，所述待检测对象为待检测车辆，所述第一组成部分为所述待检测车辆的车头，所述第一检测框为车头检测框，所述第二组成部分为所述待检测车辆的车尾，所述第二检测框为车尾检测框；或者，所述第一组成部分为所述待检测车辆的车尾，所述第一检测框为车尾检测框，所述第二组成部分为所述待检测车辆的车头，所述第二检测框为车头检测框。

18.根据权利要求10-16任一所述的装置，其特征在于，所述装置还包括转换单元：

所述获取单元，还用于在所述基于所述第一位置关系，利用所述第一检测框的位置信息和所述第二检测框的位置信息计算所述待检测对象在所述图像坐标系下的航向姿态之后，获取图像采集设备的内部参数和外部参数，所述图像采集设备用于采集所述待检测图像；

19.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述处理器用于根据所述计算机程序中的指令执行权利要求1-9任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序当被处理器执行时使所述处理器执行权利要求1-9任一项所述的方法。