CN116721394A

CN116721394A - 单目三维目标检测方法、模型训练方法及对应装置

Info

Publication number: CN116721394A
Application number: CN202310623360.6A
Authority: CN
Inventors: 冯亚闯; 蔡思佳; 邓兵; 杨少鹏; 李正甲
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-09-08

Abstract

本申请实施例公开了一种单目三维目标检测方法、模型训练方法及对应装置。主要技术方案包括：获取待检测图像；对所述待检测图像进行特征提取，得到所述待检测图像的特征表示；利用所述待检测图像的特征表示，预测所述待检测图像中路面法线的向量表示；利用所述待检测图像的特征表示，预测所述待检测图像中的三维目标框；利用所述路面法线的向量表示，对所述三维目标框进行旋转处理，得到相机空间中的三维目标框。该技术方案在三维目标检测的基础上增强了对路面信息的感知能力，从而降低相机安装角度多变对三维目标检测产生的影响。

Description

单目三维目标检测方法、模型训练方法及对应装置

技术领域

本申请涉及人工智能和自动驾驶技术领域，特别是涉及一种单目三维目标检测方法、模型训练方法及对应装置。

背景技术

自动驾驶车辆依靠感知传感器、人工智能、全球定位系统等协同合作，使得车辆安全自动行驶。自动驾驶车辆的系统主要包含感知模块、决策模块和执行模块三个主要模块。其中，感知模块是自动驾驶技术中的关键环节之一。目前常用的三维感知设备是激光雷达和相机。其中激光雷达感知距离有限，易受到天气、环境等因素干扰，且价格昂贵。因此基于相机的三维感知成为自动驾驶技术重要的研究方向，其中一个重要的技术就是单目三维目标检测技术。

所谓单目三维目标检测技术就是基于相机采集的单张图像进行目标检测，得到目标在三维空间的位置、尺寸、姿态等信息的技术。目前的单目三维目标检测主要用于单车感知，即利用自动驾驶车辆的车载相机采集的图像进行目标检测。但由于单车感知范围有限且存在严重的遮挡问题，逐渐发展出了车路协同感知。车路协同感知指的是利用自动驾驶车辆的车载相机采集的图像以及路侧相机采集的图像进行目标检测，从而扩大感知范围。

然而，自动驾驶车辆的车载相机和路侧相机的安装方式存在较大差异。车载相机水平安装，因此现有的单目三维检测方法均假设相机空间中路面是水平的，目标只有航向上存在角度差异。而路侧相机为了调整到合适的观测范围，在安装时存在俯仰角和翻滚角，例如安装在杆子上的路侧相机角度朝下倾斜，这就导致相机空间中路面不是水平的，且不同的路侧相机安装角度也存在各种差异。因此现有的单目三维检测方法无法应用于路侧相机采集的图像。

发明内容

有鉴于此，本申请提供了一种单目三维目标检测方法、模型训练方法及装置，以便于降低路侧相机安装角度多变对三维目标检测的影响。

本申请提供了如下方案：

第一方面，提供了一种单目三维目标检测方法，所述方法包括：

获取待检测图像；

对所述待检测图像进行特征提取，得到所述待检测图像的特征表示；

利用所述待检测图像的特征表示，预测所述待检测图像中路面法线的向量表示；

利用所述待检测图像的特征表示，预测所述待检测图像中的三维目标框；

利用所述路面法线的向量表示，对所述三维目标框进行旋转处理，得到相机空间中的三维目标框。

根据本申请实施例中一可实现的方式，利用所述待检测图像的特征表示，预测所述待检测图像中的三维目标框包括：

利用所述待检测图像的特征表示，预测所述待检测图像中的二维目标框中心点、目标贴地点与二维目标框之间的中心点偏移信息、三维目标框的尺寸信息和航向角信息；

利用所述二维目标框中心点和所述中心点偏移信息，确定目标贴地点在所述待检测图像中的位置信息；

利用所述目标贴地点在所述待检测图像中的位置信息、三维目标框的尺寸信息和航向角信息，确定所述待检测图像中的三维目标框。

根据本申请实施例中一可实现的方式，所述方法还包括：利用所述待检测图像的特征表示，预测所述待检测图像中的路面深度信息；

利用所述目标贴地点在所述待检测图像中的位置信息、三维目标框的尺寸信息和航向角信息，确定所述待检测图像中的三维目标框包括：

利用所述目标贴地点在所述待检测图像中的位置信息和所述路面深度信息，确定目标深度信息；

利用所述目标深度信息、所述目标贴地点在所述待检测图像中的位置信息和相机内参，确定目标贴地点在相机空间中的位置；

利用所述目标贴地点在相机空间中的位置、三维目标框的尺寸信息和航向角信息，确定在所述目标贴地点在相机空间中的位置处的三维目标框。

根据本申请实施例中一可实现的方式，利用所述目标贴地点在相机空间中的位置、三维目标框的尺寸信息和航向角信息，确定在所述目标贴地点在相机空间中的位置处的三维目标框包括：

利用所述三维目标框的尺寸信息和航向角信息，在相机空间中坐标原点位置建立三维目标框；

将建立的三维目标框平移至所述目标贴地点在相机空间中的位置。

根据本申请实施例中一可实现的方式，利用所述路面法线的向量表示，对所述三维目标框进行旋转处理，得到相机空间中的三维目标框包括：

利用所述三维目标框和所述路面法线的向量表示，确定所述三维目标框对应的旋转矩阵；

利用所述旋转矩阵对所述三维目标框进行旋转处理，使所述三维目标框的底面与路面平行，得到所述相机空间中的三维目标框。

第二方面，提供了一种单目三维目标检测方法，由服务器端执行，所述方法包括：

获取路侧相机采集的待检测图像；

利用所述路面法线的向量表示，对所述三维目标框进行旋转处理，得到相机空间中的三维目标框；

利用所述相机空间中的三维目标框，生成行驶决策信息；

将所述行驶决策信息发送给自动驾驶车辆。

第三方面，提供了一种训练三维目标检测模型的方法，所述方法包括：

获取包括多个训练样本的训练数据，所述训练样本包括图像样本和对图像样本标注的标签，所述标签包括三维目标框标签和路面法线的向量标签；

利用所述训练数据训练三维目标检测模型；其中将所述图像样本输入三维目标检测模型，由三维目标检测模型对所述图像样本进行特征提取，得到所述图像样本的特征表示；利用所述图像样本的特征表示，预测所述图像样本中路面法线的向量表示；利用所述图像样本的特征表示，预测所述图像样本中的三维目标框；利用所述路面法线的向量表示，对所述三维目标框进行旋转处理，得到相机空间中的三维目标框；

所述训练的目标包括：最小化所述三维目标检测模型输出的所述相机空间中的三维目标框与对应三维目标框标签之间的差异，以及最小化所述三维目标检测模型得到的路面法线的向量表示与对应路面法线的向量标签之间的差异。

根据本申请实施例中一可实现的方式，利用所述图像样本的特征表示，预测所述图像样本中的三维目标框包括：

利用所述图像样本的特征表示，预测所述图像样本中的二维目标框中心点、目标贴地点与二维目标框之间的中心点偏移信息、三维目标框的尺寸信息和航向角信息；

利用所述二维目标框中心点和所述中心点偏移信息，确定目标贴地点在所述图像样本中的位置信息；

利用所述目标贴地点在所述图像样本中的位置信息、三维目标框的尺寸信息和航向角信息，确定所述图像样本中的三维目标框。

根据本申请实施例中一可实现的方式，所述标签还包括路面深度标签；

利用所述目标贴地点在所述图像样本中的位置信息、三维目标框的尺寸信息和航向角信息，确定所述图像样本中的三维目标框包括：利用所述图像样本的特征表示，预测所述图像样本中的路面深度信息；利用所述目标贴地点在所述图像样本中的位置信息和所述路面深度信息，确定目标深度信息；利用所述目标深度信息、所述目标贴地点在所述图像样本中的位置信息和相机内参，确定目标贴地点在相机空间中的位置；利用所述目标贴地点在相机空间中的位置、三维目标框的尺寸信息和航向角信息，确定在所述目标贴地点在相机空间中的位置处的三维目标框；

所述训练目标还包括：最小化所述三维目标检测模型得到的路面深度信息与对应路面深度标签之间的差异。

根据本申请实施例中一可实现的方式，所述标签还包括二维目标框标签；

所述三维目标检测模型进一步利用所述图像样本的特征表示，预测所述图像样本的二维目标框；

所述训练目标还包括：最小化所述三维目标检测模型得到的二维目标框与对应二维目标框标签之间的差异。

第四方面，提供了一种单目三维目标检测装置，所述装置包括：

图像获取模块，被配置为获取待检测图像；

特征提取模块，被配置为对所述待检测图像进行特征提取，得到所述待检测图像的特征表示；

法线预测模块，被配置为利用所述待检测图像的特征表示，预测所述待检测图像中路面法线的向量表示；

三维框预测模块，被配置为利用所述待检测图像的特征表示，预测所述待检测图像中的三维目标框；

旋转处理模块，被配置为利用所述路面法线的向量表示，对所述三维目标框进行旋转处理，得到相机空间中的三维目标框。

第五方面，提供了一种训练三维目标检测模型的装置，所述装置包括：

样本获取模块，被配置为获取包括多个训练样本的训练数据，所述训练样本包括图像样本和对图像样本标注的标签，所述标签包括三维目标框标签和路面法线的向量标签；

模型训练模块，被配置为利用所述训练数据训练三维目标检测模型；其中将所述图像样本输入三维目标检测模型，由三维目标检测模型对所述图像样本进行特征提取，得到所述图像样本的特征表示；利用所述图像样本的特征表示，预测所述图像样本中路面法线的向量表示；利用所述图像样本的特征表示，预测所述图像样本中的三维目标框；利用所述路面法线的向量表示，对所述三维目标框进行旋转处理，得到相机空间中的三维目标框；

根据第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面至第三方面中任一项所述的方法的步骤。

根据第七方面，提供了一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面至第三方面中任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1)本申请增加对待检测图像中路面法线的向量表示预测，并利用路面法线的向量表示对三维目标框进行旋转处理，得到相机空间中的三维目标框。该技术方案在三维目标检测的基础上增强了对路面信息的感知能力，从而降低相机安装角度多变对三维目标检测产生的影响。

2)本申请通过联合二维目标框中心点、中心点偏移信息、三维目标框的尺寸信息、航向角信息进行待检测图像中的三维目标框预测，并利用路面法线的向量表示对待检测图像中的三维目标框进行旋转，从而提高相机空间中的三维目标框与目标的贴合度。

3)本申请增加对待检测图像中路面深度信息的预测，并结合路面深度信息、三维目标框的尺寸信息、航向角信息等综合确定待检测图像中的三维目标框，从而增强目标检测的精度。

4)本申请中利用所述目标贴地点在相机空间中的位置、三维目标框的尺寸信息和航向角信息，首先在相机空间中坐标原点位置建立三维目标框，再将建立的三维目标框平移至所述目标贴地点在相机空间中的位置，这种方式能够有效降低三维目标框预测的计算量。

5)本申请能够由服务器端执行，通过对路侧相机采集的待检测图像进行对面信息的感知能力增强，降低路侧相机安装角度多变对三维目标检测产生的影响，并利用检测到的三维目标框生成行驶决策信息后提供给自动驾驶车辆，从而实现车路协同感知，利用路侧相机更广阔的采集视野，增强自动驾驶车辆对周围环境的感知能力。

6)本申请在三维目标检测模型的训练过程中，不仅使用三维目标框标签和路面法线的向量标签进行监督学习，还进一步结合路面深度标签进行监督学习，并且还能够使用二维目标框标签进行辅助的监督学习，从而提高三维目标检测模型的检测效果。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为是本申请实施例所适用的系统架构图；

图2为本申请实施例提供的单目三维目标检测方法的流程图；

图3为本申请实施例提供的三维目标检测模型的原理性结构图；

图4为本申请实施例提供的训练三维目标检测模型的方法流程图；

图5为本申请实施例提供的训练三维目标检测模型的原理性示意图；

图6为本申请实施例提供的单目三维目标检测装置的示意性框图；

图7为本申请实施例提供的训练三维目标检测模型的装置的示意性框图；

图8为本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

为了方便对本申请实施例的理解，首先对本申请实施例所基于的系统架构进行简单描述。图1示出了可以应用本申请实施例的示例性系统架构，如图1中所示，该系统主要包括位于服务端的目标检测装置、设置于道路侧的路侧相机以及自动驾驶车辆。

设置于道路侧的路侧相机能够采集图像，并将采集的图像通过网络发送给服务端的目标检测装置。本申请实施例中涉及的相机指的是视觉传感器，是比较广泛的含义，利用光学元件和成像装置获取外部环境图像的仪器。可以是传统相机、数码相机、摄像头、摄像机等。

本申请中涉及的自动驾驶车辆是一种广义的表述，可以是无人驾驶车辆，也可以是辅助驾驶车辆。自动驾驶车辆上也安装有相机，称为车载相机。

作为其中一种使用场景，目标检测装置可以如图1中所示设置于服务端，可以设置于单一的服务器中，也可以设置于多个服务器构成的服务器群组，还可以设置于云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大，服务扩展性弱的缺陷。

在该使用场景下，作为其中一种可实现的方式，目标检测装置接收来自路侧相机采集的图像，将该图像作为待检测图像，采用本申请实施例提供的方式(该方式中使用了三维目标检测模型)对待检测图像进行目标检测，确定其中的三维目标框作为目标检测结果。利用目标检测结果生成行驶决策信息，将行驶决策信息提供给自动驾驶车辆，以便自动驾驶车辆依据行驶决策信息进行行驶。

作为另一种可实现的方式，目标检测装置接收来自路侧相机采集的图像，将该图像作为待检测图像，采用本申请实施例提供的方式对待检测图像进行目标检测，确定其中的三维目标框作为目标检测结果。将该图像和目标检测结果发送给自动驾驶车辆，由自动驾驶车辆依据该图像和目标检测结果生成行驶决策信息，并依据行驶决策信息进行行驶。

通过上述两种实现方式，可以实现车路协同感知，消除路侧相机安装角度多变对三维目标检测产生的影响，将路侧相机的视野用于自动驾驶车辆的环境感知，有效增强自动驾驶车辆的驾驶安全性。

作为再一种可实现的方式，目标检测装置接收车载相机采集的图像，将该图像作为待检测图像，采用本申请实施例提供的方式对待检测图像进行目标检测，确定其中的三维目标框作为目标检测结果。利用目标检测结果生成行驶决策信息，将行驶决策信息提供给自动驾驶车辆，以便自动驾驶车辆依据行驶决策信息进行行驶。

作为另一种可实现的方式，目标检测装置接收车载相机采集的图像，将该图像作为待检测图像，采用本申请实施例提供的方式对待检测图像进行目标检测，确定其中的三维目标框作为目标检测结果。将该图像和目标检测结果发送给自动驾驶车辆，由自动驾驶车辆依据该图像和目标检测结果生成行驶决策信息，并依据行驶决策信息进行行驶。

通过上述两种实现方式，可以对车载相机采集的图像在服务器端实现感知，消除车载相机因颠簸、碰撞等因素导致车载相机安装角度发生偏移所产生的影响。

除了图1中所示地，将目标检测装置设置于服务端之外，上述地图生成装置也可以设置于自动驾驶车辆。自动驾驶车辆将车载相机采集的图像作为待检测图像，或者获取路侧相机采集的图像作为待检测图像，采用本申请实施例提供的方式对待检测图像进行目标检测，确定其中的三维目标框作为目标检测结果。利用目标检测结果生成行驶决策信息，并依据行驶决策信息进行行驶。

应该理解，图1中的目标检测装置、自动驾驶车辆、车载相机和路侧相机的数目仅仅是示意性的。根据实现需要，可以具有任意数目的目标检测装置、自动驾驶车辆、车载相机和路侧相机。

图2为本申请实施例提供的单目三维目标检测方法的流程图，该流程可以由图1所示系统中的目标检测装置执行。如图2中所示，该方法主要包括以下步骤：

步骤202：获取待检测图像。

步骤204：对待检测图像进行特征提取，得到待检测图像的特征表示。

步骤206：利用待检测图像的特征表示，预测待检测图像中路面法线的向量表示。

步骤208：利用待检测图像的特征表示，预测待检测图像中的三维目标框。

在此需要说明的是，上述步骤206和步骤208可以以任意的顺序先后执行，也可以并行执行。

步骤210：利用路面法线的向量表示，对三维目标框进行旋转处理，得到相机空间中的三维目标框。

由上述流程可以看出，本申请增加对待检测图像中路面法线的向量表示预测，并利用路面法线的向量表示对三维目标框进行旋转处理，得到相机空间中的三维目标框。该技术方案在三维目标检测的基础上增强了对路面信息的感知能力，从而降低相机安装角度多变对三维目标检测产生的影响。

下面对上述流程中的各步骤分别进行详细描述。本申请实施例中涉及的待检测图像是由相机采集到的图像。在车路协同场景下，该待检测图像可以是路侧相机采集的图像。在单车智能场景下，该待检测图像可以是车载相机采集的图像。本申请旨在从单张图像中检测三维目标框，因此步骤202获取的待检测图像是单张图像，或者虽然获取到多张图像，但将各图像分别作为待检测图像执行本申请实施例提供的三维目标检测。例如对于路侧视频采集的视频中的各帧图像或关键帧图像分别作为待检测图像执行本申请实施例提供的三维目标检测。

上述流程中的步骤204～210可以利用预先建立的三维目标检测模型实现，即将待检测图像输入三维目标检测模型，获取三维目标检测模型输出的相机空间中的三维目标框。

上述步骤204即“对待检测图像进行特征提取，得到待检测图像的特征表示”可以由图3中所示的三维目标检测模型的特征提取模块执行。其中特征提取模块可以采用诸如ResNet(Residual Network，残差网络)、DLA(Deep LayerAggregation，深层聚合)网络等卷积神经网络。

特征提取模块可以首先进行基于待检测图像中Token(元素)的Embedding(嵌入)处理，得到各Token的嵌入表示，然后对各Token的嵌入表示进行编码处理，得到待检测图像的特征表示。

图像中的Token指的是构成图像的元素。对于图像而言，将图像切分成不重叠的区块序列，则图像中的区块以及序列的起始符均为Token。其中区块可以由一个像素构成，也可以由多个像素构成。上述基于Token的Embedding处理至少包括：图像Embedding和位置Embedding。图像Embedding，即将各Token进行图向量编码，得到图向量表示。位置Embedding，即将各Token在图像序列中的位置进行编码，得到位置的表示。

上述步骤206即“利用待检测图像的特征表示，预测待检测图像中路面法线的向量表示”可以由图3中所示的三维目标检测模型中的法线预测模块执行。

所谓路面法线指的是垂直于路面的直线，路面法线的向量表示指的是采用一个向量来表示待检测图像中的路面法线，可以采用单位向量(即模为1)来进行表示。例如，路面法线的向量表示n可以为[n_x,n_y,n_z]。由于路面法线的向量表示为单位向量，因此实际上仅需要预测n_x、n_y和n_z中的两个即可。

上述步骤208即“利用待检测图像的特征表示，预测待检测图像中的三维目标框”可以由图3中所示的三维目标检测模型中的三维框预测模块执行。在该三维框预测模块中包含以下多个分支：预测热图(Heatmap)的热图预测子模块、预测偏移(Offset)的偏移预测子模块、预测尺寸的尺寸预测子模块以及预测航向角的航向角预测子模块，然后由整合子模块利用各分支(即各子模块)的预测结果，确定三维目标框。

其中，对热图的预测指的是预测待检测图像中各Token属于各预设目标类型的概率。在自动驾驶场景下，各预设目标类型可以包括诸如车辆、行人、骑行者、路障等等。通过对热图的预测，可以确定待检测图像中包括的目标类型，以及该目标类型对应的二维目标框中心点。

本申请实施例中涉及的对偏移的预测是预测目标贴地点与二维目标框之间的中心点偏移信息。所谓目标贴地点指的是目标与路面之间的交点。

对尺寸的预测指的是预测三维目标框的尺寸信息，例如长宽高。

对航向角的预测指的是预测三维目标框绕相机坐标系y轴方向旋转的角度。

作为其中一种可实现的方式，可以首先利用预测得到的二维目标框中心点和上述中心点偏移，确定目标贴地点在待检测图像中的位置信息；然后利用目标贴地点在待检测图像中的位置信息、三维目标框的尺寸信息和航向角信息，确定待检测图像中的三维目标框。

其中，在利用目标贴地点在待检测图像中的位置信息、三维目标框的尺寸信息和航向角信息，确定待检测图像中的三维目标框时，作为其中一种可实现的方式，可以在目标贴地点的位置处，按照三维目标框的尺寸信息和航向角信息来建立三维目标框。

为了提高所建立三维目标框的精确性，本申请实施例中可以进一步增加对路面深度信息的预测，该预测可以由图3中所示的三维目标检测模型中的深度预测模块执行。深度预测模块利用待检测图像的特征表示，预测待检测图像中的路面深度信息。所谓路面深度指的是路面距离相机的距离，路面深度信息的预测实际上是路面上各Token的深度信息。

作为其中一种优选的实施方式，在利用目标贴地点在待检测图像中的位置信息、三维目标框的尺寸信息和航向角信息，确定待检测图像中的三维目标框时，可以首先利用目标贴地点在待检测图像中的位置信息和路面深度信息，确定目标深度信息。例如可以将目标贴地点位置处的Token对应的路面深度信息作为目标深度信息。

然后利用目标深度信息、目标贴地点在待检测图像中的位置信息和相机内参，确定目标贴地点在相机空间中的位置。其中相机内参可以包括相机焦距、畸变参数等。例如可以采用如下公式确定目标贴地点在相机空间中的位置：

其中，x,y,z为目标贴地点在相机空间中的坐标。K为相机内参矩阵。c^w＝[x^w,y^w]为目标贴地点在待检测图像中的位置信息，该位置是一个二维表示的位置。h为目标深度信息。

最后利用目标贴地点在相机空间中的位置、三维目标框的尺寸信息和航向角信息，确定在目标贴地点在相机空间中的位置处的三维目标框。

通过上述过程中增加的对待检测图像中路面深度信息的预测，并结合路面深度信息、三维目标框的尺寸信息、航向角信息等综合确定待检测图像中的三维目标框，能够有效增强目标检测的精度。

在建立三维目标框时，可以直接在目标贴地点在相机空间中的位置处，依据三维目标框的尺寸信息和航向角信息建立三维目标框。但由于目标贴地点在距离相机空间的坐标原点较远处时，目标贴地点的坐标可能是一个较大值，建立三维目标框时具有较高的计算量。为了有效降低计算量，本申请实施例提供了一种更优选的实施方式，可以首先利用三维目标框的尺寸信息和航向角信息，在相机空间中坐标原点位置建立三维目标框；然后将建立的三维目标框平移至目标贴地点在相机空间中的位置。

除了上述本申请实施例中提供的方式之外，也可以采用其他方式，例如在进行偏移预测时，预测二维目标框与三维目标框之间的中心点偏移。利用预测得到的二维目标框中心点和该中心点偏移，确定三维目标框的中心点；然后利用三维目标框的中心点、三维目标框的尺寸信息和航向角信息，确定待检测图像中的三维目标框。

上述步骤210即“利用路面法线的向量表示，对三维目标框进行旋转处理，得到相机空间中的三维目标框”可以由图3中所示的三维目标检测模型的旋转处理模块执行。

旋转处理模块可以首先利用三维目标框和路面法线的向量表示，确定三维目标框对应的旋转矩阵；利用旋转矩阵对三维目标框进行旋转处理，使三维目标框的底面与路面平行，得到相机空间中的三维目标框。其中，虽然不同的相机可能存在安装角度上的差异，但该差异通常不会对三维目标框带来颠覆性的影响，一般仅仅是三维目标框与地面角度上的影响，因此可以认为三维目标框的底面为距离路面最近的面，该底面与底面存在一定角度，通过对三维目标框的旋转，使三维目标框的底面与路面平行。

其中，旋转矩阵(Rotation Matrix)是在乘以一个向量的时候，能够改变向量的方向但不改变向量大小的效果的矩阵。本申请实施例中，需要确定一个旋转矩阵，使得三维目标框(其姿态也可以用一个向量表示)乘以该旋转矩阵后，三维目标框的底面与路面平行，即三维目标框的底面与路面法线垂直。关于旋转矩阵的推导是目前较为公知的方法，在此不做详细说明。

在得到相机空间中的三维目标框后，可以基于该三维目标框进行自动驾驶车辆的行驶决策，用以自动驾驶车辆依据行驶决策进行进行行驶。例如，车辆避障、轨迹规划等。

还有一些场景下，需要利用图像空间中的三维目标框来生成行驶决策，例如车道定位等。这种情况下，可以进一步利用相机内参对相机空间中的三维目标框进行坐标转换，得到图像空间中的三维目标框。

图4为本申请实施例提供的训练三维目标检测模型的方法流程图，如图4中所示，该方法可以包括以下步骤：

步骤402：获取包括多个训练样本的训练数据，训练样本包括图像样本和对图像样本标注的标签，标签包括三维目标框标签和路面法线的向量标签。

本申请实施例中，可以获取一些图像样本来构建训练样本，并对图像样本进行标签的标注。其中主要包括对三维目标框和路面法线的向量表示标注的标签，即三维目标框标签和路面法线的向量标签。例如，可以利用采集车上的相机进行图像样本的采集，同时利用雷达对与图像样本相同区域内的目标进行扫描，获得目标信息，利用该目标信息就能够得到该目标在图像中对应的三维目标框，以此标注三维目标框标签。

更进一步地，上述标签还可以包括路面深度标签，将路面深度标签作为监督学习的目标之一。例如，采集车的雷达可以对路面进行扫描，获得路面与相机的距离信息，并进行深度信息的标注。或者，也可以不对路面进行扫描，由于之前已经扫描得到了目标信息，对于车辆、行人、骑行者等目标是必然与路面接触的，因此可以将目标贴地点处与相机的距离，或者目标底面与相机的距离作为地面深度信息进行标注。

上述标签还可以进一步包括二维目标框标签，该标签用以进行辅助学习，将在后续实施例中详述。

步骤404：利用训练数据训练三维目标检测模型；其中将图像样本输入三维目标检测模型，由三维目标检测模型对图像样本进行特征提取，得到图像样本的特征表示；利用图像样本的特征表示，预测图像样本中路面法线的向量表示；利用图像样本的特征表示，预测图像样本中的三维目标框；利用路面法线的向量表示，对三维目标框进行旋转处理，得到相机空间中的三维目标框；训练的目标包括：最小化三维目标检测模型输出的相机空间中的三维目标框与对应三维目标框标签之间的差异，以及最小化三维目标检测模型得到的路面法线的向量表示与对应路面法线的向量标签之间的差异。

具体地，三维目标检测模型可以包括特征提取模块、法线预测模块和三维框预测模块，还可以包括深度预测模块和旋转处理模块。

特征提取模块负责对图像样本进行特征提取，得到图像样本的特征表示。

法线预测模块负责利用图像样本的特征表示，预测图像样本中路面法线的向量表示。

三维框预测模块负责利用图像样本的特征表示，预测图像样本中的三维目标框。

作为其中一种可实现的方式，三维目标检测模型中的三维框预测模块在利用图像样本的特征表示，预测图像样本中的三维目标框时，可以首先利用图像样本的特征表示，预测图像样本中的二维目标框中心点、目标贴地点与二维目标框之间的中心点偏移信息、三维目标框的尺寸信息和航向角信息；再利用二维目标框中心点和中心点偏移信息，确定目标贴地点在图像样本中的位置信息；最后利用目标贴地点在图像样本中的位置信息、三维目标框的尺寸信息和航向角信息，确定图像样本中的三维目标框。

深度预测模块负责利用图像样本的特征表示，预测图像样本中的路面深度信息。作为其中一种较为优选的实施方式，在利用目标贴地点在图像样本中的位置信息、三维目标框的尺寸信息和航向角信息，确定图像样本中的三维目标框时，可以首先利用图像样本的特征表示，预测图像样本中的路面深度信息；利用目标贴地点在图像样本中的位置信息和路面深度信息，确定目标深度信息；利用目标深度信息、目标贴地点在图像样本中的位置信息和相机内参，确定目标贴地点在相机空间中的位置；利用目标贴地点在相机空间中的位置、三维目标框的尺寸信息和航向角信息，确定在目标贴地点在相机空间中的位置处的三维目标框。在该实施方式下，上述训练目标还可以包括：最小化三维目标检测模型得到的路面深度信息与对应路面深度标签之间的差异。也就是说，利用路面深度标签增强目标检测模型的监督学习效果。

旋转处理模块负责利用路面法线的向量表示，对三维目标框进行旋转处理，得到相机空间中的三维目标框。

作为其中一种可实现的方式，旋转处理模块可以首先利用三维目标框和路面法线的向量表示，确定三维目标框对应的旋转矩阵；利用旋转矩阵对三维目标框进行旋转处理，使三维目标框的底面与路面平行，得到相机空间中的三维目标框。

其他关于模型结构的具体细节可以参见单目三维目标检测方法实施例中关于图3的相关记载，在此不做赘述。

在本申请实施例中，可以进一步在三维目标检测模型中增加二维目标框的预测分支，即由二维框预测模块利用图像样本的特征表示，预测图像样本的二维目标框。此时的训练目标进一步包括：最小化三维目标检测模型得到的二维目标框与对应二维目标框标签之间的差异。也就是说，采用对二维目标框的预测作为目标检测模型的辅助训练任务，以增强目标检测模型的学习效果。训练结束后，删除二维框预测模块，即在实际预测过程中是没有针对二维目标框的预测分支的，其仅仅用以在模型训练阶段进行辅助训练。

在本申请实施例中，可以依据上述训练目标构造损失函数，在每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

作为其中一种可实现的方式，可以构造一个总的损失函数(L)，该损失函数是由第一损失函数(L1)、第二损失函数(L2)、第三损失函数(L3)和第四损失函数(L4)构成的，例如将第一损失函数、第二损失函数、第三损失函数和第四损失函数进行加权求和。如图5中所示。其中，第一损失函数(L1)体现三维目标检测模型输出的相机空间中的三维目标框与对应三维目标框标签之间的差异。第二损失函数(L2)体现三维目标检测模型得到的路面法线的向量表示与对应路面法线的向量标签之间的差异。第三损失函数(L3)体现三维目标检测模型得到的路面深度信息与对应路面深度标签之间的差异。第四损失函数(L4)体现三维目标检测模型得到的二维目标框与对应二维目标框标签之间的差异。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种单目三维目标检测装置。图6示出根据一个实施例的单目三维目标检测装置的示意性框图，该装置对应于图1所示架构中的目标检测装置。如图6所示，该装置600包括：图像获取模块601、特征提取模块602、法线预测模块603、三维框预测模块604和旋转处理模块605，还可以进一步包括：深度预测模块606。

图像获取模块601，被配置为获取待检测图像。

特征提取模块602，被配置为对待检测图像进行特征提取，得到待检测图像的特征表示。

法线预测模块603，被配置为利用待检测图像的特征表示，预测待检测图像中路面法线的向量表示。

三维框预测模块604，被配置为利用待检测图像的特征表示，预测待检测图像中的三维目标框。

旋转处理模块605，被配置为利用路面法线的向量表示，对三维目标框进行旋转处理，得到相机空间中的三维目标框。

上述装置可以通过图3所示的三维目标检测模型实现。

作为其中一种可实现的方式，三维框预测模块604可以具体被配置为：利用待检测图像的特征表示，预测待检测图像中的二维目标框中心点、目标贴地点与二维目标框之间的中心点偏移信息、三维目标框的尺寸信息和航向角信息；利用二维目标框中心点和中心点偏移信息，确定目标贴地点在待检测图像中的位置信息；利用目标贴地点在待检测图像中的位置信息、三维目标框的尺寸信息和航向角信息，确定待检测图像中的三维目标框。

作为其中一种优选的实现方式，深度预测模块606，被配置为利用待检测图像的特征表示，预测待检测图像中的路面深度信息。三维框预测模块604可以具体被配置为：利用目标贴地点在待检测图像中的位置信息和路面深度信息，确定目标深度信息；利用目标深度信息、目标贴地点在待检测图像中的位置信息和相机内参，确定目标贴地点在相机空间中的位置；利用目标贴地点在相机空间中的位置、三维目标框的尺寸信息和航向角信息，确定在目标贴地点在相机空间中的位置处的三维目标框。

作为其中一种可实现的方式，三维框预测模块604可以具体被配置为：利用三维目标框的尺寸信息和航向角信息，在相机空间中坐标原点位置建立三维目标框；将建立的三维目标框平移至目标贴地点在相机空间中的位置。

作为其中一种可实现的方式，旋转处理模块605可以具体被配置为：利用三维目标框和路面法线的向量表示，确定三维目标框对应的旋转矩阵；利用旋转矩阵对三维目标框进行旋转处理，使三维目标框的底面与路面平行，得到相机空间中的三维目标框。

根据再一方面的实施例，提供了一种训练三维目标检测模型的装置。图7示出根据一个实施例的训练三维目标检测模型的装置的示意性框图。如图7所示，该装置700包括：样本获取模块701和模型训练模块702。

样本获取模块701，被配置为获取包括多个训练样本的训练数据，训练样本包括图像样本和对图像样本标注的标签，标签包括三维目标框标签和路面法线的向量标签；

模型训练模块702，被配置为利用训练数据训练三维目标检测模型；其中将图像样本输入三维目标检测模型，由三维目标检测模型对图像样本进行特征提取，得到图像样本的特征表示；利用图像样本的特征表示，预测图像样本中路面法线的向量表示；利用图像样本的特征表示，预测图像样本中的三维目标框；利用路面法线的向量表示，对三维目标框进行旋转处理，得到相机空间中的三维目标框；

训练的目标包括：最小化三维目标检测模型输出的相机空间中的三维目标框与对应三维目标框标签之间的差异，以及最小化三维目标检测模型得到的路面法线的向量表示与对应路面法线的向量标签之间的差异。

作为其中一种可实现的方式，三维目标检测模型在利用图像样本的特征表示，预测图像样本中的三维目标框时，可以利用图像样本的特征表示，预测图像样本中的二维目标框中心点、目标贴地点与二维目标框之间的中心点偏移信息、三维目标框的尺寸信息和航向角信息；利用二维目标框中心点和中心点偏移信息，确定目标贴地点在图像样本中的位置信息；利用目标贴地点在图像样本中的位置信息、三维目标框的尺寸信息和航向角信息，确定图像样本中的三维目标框。

更进一步地，上述标签还可以包括路面深度标签。三维目标检测模型在利用目标贴地点在图像样本中的位置信息、三维目标框的尺寸信息和航向角信息，确定图像样本中的三维目标框时，可以利用图像样本的特征表示，预测图像样本中的路面深度信息；利用目标贴地点在图像样本中的位置信息和路面深度信息，确定目标深度信息；利用目标深度信息、目标贴地点在图像样本中的位置信息和相机内参，确定目标贴地点在相机空间中的位置；利用目标贴地点在相机空间中的位置、三维目标框的尺寸信息和航向角信息，确定在目标贴地点在相机空间中的位置处的三维目标框；此时的训练目标还可以进一步包括：最小化三维目标检测模型得到的路面深度信息与对应路面深度标签之间的差异。

更进一步地，上述标签还可以包括二维目标框标签。三维目标检测模型进一步利用图像样本的特征表示，预测图像样本的二维目标框。此时的训练目标还可以进一步包括：最小化三维目标检测模型得到的二维目标框与对应二维目标框标签之间的差异。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

其中，图8示例性的展示出了电子设备的架构，具体可以包括处理器810，视频显示适配器811，磁盘驱动器812，输入/输出接口813，网络接口814，以及存储器820。上述处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820之间可以通过通信总线830进行通信连接。

其中，处理器810可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器820可以采用ROM(Read Only Memory，只读存储器)、RAM(RandomAccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器820可以存储用于控制电子设备800运行的操作系统821，用于控制电子设备800的低级别操作的基本输入输出系统(BIOS)822。另外，还可以存储网页浏览器823，数据存储管理系统824，以及目标检测装置/模型训练装置825等等。上述目标检测装置/模型训练装置825就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器820中，并由处理器810来调用执行。

输入/输出接口813用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口814用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线830包括一通路，在设备的各个组件(例如处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，存储器820，总线830等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来，该计算机程序产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种单目三维目标检测方法，其特征在于，所述方法包括：

获取待检测图像；

2.根据权利要求1所述的方法，其特征在于，利用所述待检测图像的特征表示，预测所述待检测图像中的三维目标框包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：利用所述待检测图像的特征表示，预测所述待检测图像中的路面深度信息；

4.根据权利要求3所述的方法，其特征在于，利用所述目标贴地点在相机空间中的位置、三维目标框的尺寸信息和航向角信息，确定在所述目标贴地点在相机空间中的位置处的三维目标框包括：

5.根据权利要求1所述的方法，其特征在于，利用所述路面法线的向量表示，对所述三维目标框进行旋转处理，得到相机空间中的三维目标框包括：

6.一种单目三维目标检测方法，由服务器端执行，其特征在于，所述方法包括：

获取路侧相机采集的待检测图像；

利用所述相机空间中的三维目标框，生成行驶决策信息；

将所述行驶决策信息发送给自动驾驶车辆。

7.一种训练三维目标检测模型的方法，其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，利用所述图像样本的特征表示，预测所述图像样本中的三维目标框包括：

9.根据权利要求8所述的方法，其特征在于，所述标签还包括路面深度标签；

10.根据权利要求7所述的方法，其特征在于，所述标签还包括二维目标框标签；

11.一种单目三维目标检测装置，其特征在于，所述装置包括：

图像获取模块，被配置为获取待检测图像；

12.一种训练三维目标检测模型的装置，其特征在于，所述装置包括：

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至10中任一项所述的方法的步骤。