CN116681882A

CN116681882A - 一种单目视觉三维物体检测方法、装置、域控制器及介质

Info

Publication number: CN116681882A
Application number: CN202310558978.9A
Authority: CN
Inventors: 朱海龙
Original assignee: Shenzhen Haixing Zhijia Technology Co Ltd
Current assignee: Shenzhen Haixing Zhijia Technology Co Ltd
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-09-01

Abstract

本发明涉及自动驾驶领域，公开了一种单目视觉三维物体检测方法、装置、域控制器及介质，方法包括：通过样本图像训练得到目标检测模型，所述样本图像中的样本目标均标记了二维边框和样本目标在地面的落脚点；获取待检测图像，并通过所述目标检测模型在所述待检测图像中识别检测目标，同时标注检测目标的地面落脚点；将标注的地面落脚点转换到车身坐标系下，得到物理落脚点；通过所述物理落脚点生成不限制所述检测目标高度的三维检测信息。本发明解决了传统三维物体检测方案成本低廉和检测准确度高不能同时兼顾的问题。

Description

一种单目视觉三维物体检测方法、装置、域控制器及介质

技术领域

本发明涉及自动驾驶领域，具体涉及一种单目视觉三维物体检测方法、装置、域控制器及介质。

背景技术

三维物体检测是自动驾驶感知系统的关键技术，物体在世界坐标系下的位置和三维尺寸是碰撞预警、车道变换和障碍物轨迹预测等功能的重要依据，对于智能驾驶车辆后续的决策规划十分关键。

目前应用于智能驾驶车辆的三维物体检测技术主要分为三个主要流派，分别是基于激光雷达的三维物体检测、基于雷达三维和视觉二维融合的三维物体检测以及基于纯视觉的三维物体检测。基于激光雷达的三维物体检测具有精度高、适应性强的特点，但是识别目标类别和准确的三维信息要求激光雷达具有较高的点云密度，无论是机械式激光雷达或者固态半固态激光雷达，配置的成本都很高，且机械式激光雷达还有突出的时延问题。基于雷达三维和视觉二维融合的三维物体检测方案灵活性更高，在高分辨率传感器的配置下有最高的上限，但是成本和复杂度也更高，虽然也可以采用低分辨率雷达和相机二维融合，通过雷达对距离方位测量的高精度和相机对目标识别的优势实现互补，但是频率不同传感器之间的融合增加了检测算法的复杂度和时延不稳定性。基于纯视觉的三维物体检测可以细分为多目和单目两类，多目方案是通过多个角度不同的摄像头获取同一物体图像，根据图像之间的视角差距可以计算物体的深度信息，从而进行三维物体检测，由于多目方案需要摄像头的数量较多，相应的成本也较高。单目方案是只通过一个摄像头进行三维物体检测，具有成本低，系统复杂度相对较低的优势，但是单目相机本身提供的是场景经过透视变换后的二维图像，缺失了场景深度信息，距离的测量精度相对较低，完整的物体三维框只能依靠基于数据驱动的AI模型通过二维框进行估计，估计得到的三维信息，从而稳定性较差。

因此，亟需一种实现成本既低检测准确度又高的三维物体检测方案。

发明内容

有鉴于此，本发明提供了一种单目视觉三维物体检测方法、装置、域控制器及介质，以解决传统三维物体检测方案成本低廉和检测准确度高不能同时兼顾的问题。

第一方面，本发明提供了一种单目视觉三维物体检测方法，通过样本图像训练得到目标检测模型，所述样本图像中的样本目标均标记了二维边框和样本目标在地面的落脚点；获取待检测图像，并通过所述目标检测模型在所述待检测图像中识别检测目标，同时标注检测目标的地面落脚点；将标注的地面落脚点转换到车身坐标系下，得到物理落脚点；通过所述物理落脚点生成不限制所述检测目标高度的三维检测信息。

可选地，所述样本图像通过如下方式获取：对车身的单目相机进行参数标定，得到单目相机的逆透视变换矩阵；通过所述单目相机采集实际场景图像，并在所述实际场景图像中标记样本目标的二维边框；通过所述逆透视变换矩阵将所述实际场景图像变换为鸟瞰图，并在所述鸟瞰图中标记样本目标的四个地面落脚点和落脚点顺序，所述落脚点顺序用于表征目标的前后方向；通过所述逆透视变换矩阵将标记了地面落脚点的鸟瞰图反变换到实际场景图像，得到四个地面落脚点在实际场景图像中对应的图像坐标，同时在在实际场景图像中标记地面落脚点的可见性；获取公开三维检测数据集，并将所述公开三维检测数据集中样本目标的矩形三维边框投影到任意角度的虚拟二维图像中；在所述虚拟二维图像中通过投影的矩形三维边框标记样本目标的二维边框；将所述矩形三维边框的四个底面角点作为地面落脚点投影到所述虚拟二维图像上，得到四个底面角点在虚拟二维图像中的图像坐标，同时标记四个底面角点的顺序和可见性；通过标记后的实际场景图像和标记后的虚拟二维图像组成所述样本图像。

可选地，所述对车身的单目相机进行参数标定，得到单目相机的逆透视变换矩阵，包括：对所述单目相机的畸变参数进行标定；通过所述单目相机采集标定图像，并对所述标定图像进行畸变矫正；在矫正后的标定图像上选择不少于四个地面像素点，所述地面像素点在消失点之前，且在同一直线上的地面像素点不超过两个；在车身坐标系下测量所述地面像素点对应的地面点物理坐标；通过所述地面像素点和所述地面点物理坐标求解PnP问题得到所述逆透视变换矩阵。

可选地，所述通过样本图像训练得到目标检测模型，包括：以所述样本图像中标记的二维边框、地面落脚点、落脚点顺序和可见性作为标签，通过所述样本图像训练深度神经网络，得到用于识别二维图像中的二维边框、地面落脚点、落脚点顺序和落脚点可见性的所述目标检测模型。

可选地，所述通过所述物理落脚点生成不限制所述检测目标高度的三维检测信息，包括：提取所述物理落脚点中的可见落脚点，并通过所述可见落脚点的顺序和物理坐标计算所述检测目标的长、宽、中心位置和朝向；通过所述检测目标的长、宽生成不限制所述检测目标高度的三维模型；通过所述三维模型、所述中心位置和所述朝向组成所述三维检测信息。

可选地，所述通过所述可见落脚点的顺序和物理坐标计算所述检测目标的长、宽、中心位置和朝向，包括：当所述可见落脚点的数量不少于三个时，根据可见落脚点的顺序连线生成所述检测目标的长边和宽边，并通过可见落脚点的物理坐标分别计算所述长边和宽边的数值；根据所述可见落脚点的顺序和所述长边确定所述检测目标的朝向；通过所述可见落脚点的物理坐标计算几何中心坐标，作为所述中心位置；当所述可见落脚点的数量为两个时，通过两个可见落脚点估计一个虚拟落脚点；将两个可见落脚点和所述虚拟落脚点作为三个可见落脚点计算所述检测目标的长、宽、中心位置和朝向。

可选地，所述通过两个可见落脚点估计一个虚拟落脚点，包括：根据两个可见落脚点的顺序确定两个可见落脚点之间的位置关系，所述位置关系包括两个可见落脚点同在单边和两个可见落脚点为对角点；当两个可见落脚点同在单边时，以所述两个可见落脚点的物理坐标计算单边的数值；通过任意可见落脚点在不可见方向按照单边的数值垂直于单边进行延伸，并基于延伸终点估计虚拟落脚点的物理坐标；当两个可见落脚点为对角点时，以所述物理落脚点中距离相机视角最近的不可见落脚点作为所述虚拟落脚点。

第二方面，本发明提供了一种单目视觉三维物体检测装置，所述装置包括：模型训练模块，用于通过样本图像训练得到目标检测模型，所述样本图像中的样本目标均标记了二维边框和样本目标在地面的落脚点；落脚点识别模块，用于获取待检测图像，并通过所述目标检测模型在所述待检测图像中识别检测目标，同时标注检测目标的地面落脚点；坐标转换模块，用于将标注的地面落脚点转换到车身坐标系下，得到物理落脚点；三维信息生成模块，用于通过所述物理落脚点生成不限制所述检测目标高度的三维检测信息。

第三方面，本发明提供了一种域控制器，其特征在于，包括：感知处理单元、决策处理单元、控制处理单元和通信单元，所述感知处理单元、所述决策处理单元、所述控制处理单元和所述通信单元之间互相通信连接，所述感知处理单元中存储有计算机指令，所述感知处理单元通过执行所述计算机指令，从而执行上述第一方面或其对应的任一实施方式的方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的方法。

本申请提供的技术方案，具有如下优点：

本申请提供的技术方案，通过对样本图像中的样本目标均标记二维边框和样本目标在地面的落脚点创建大量样本图像，然后通过样本图像训练得到目标检测模型。在预测阶段，通过车身上的单目相机采集待检测图像，从而通过目标检测模型在待检测图像中识别检测目标，同时标注检测目标的地面落脚点；之后，将标注的地面落脚点转换到车身坐标系下，得到物理落脚点；最后，通过物理落脚点生成只限制目标平面轮廓而不限制检测目标高度的三维检测信息。本申请采用的目标检测模型只需要进行物体二维边框检测和图像中物体落地角点的识别，忽略了物体的高度，方法中包含的目标检测模型不需要直接估计物体或场景的深度。二维检测技术的研究和应用已经比较成熟，预测精度有保障，同时降低了用于三维物体检测的数据标注难度，能够很方便地通过对现有单目三维物体检测数据库的改造低成本的获得大量标注数据，提升物体二维边框检测和物体落地角点识别的精度。

另外，物体三维信息的估计直接从像素坐标到车身坐标系下的物理坐标，减少了坐标系转换过程，整个三维检测系统的误差能够得到比较好的控制。本发明实施方案中采用的算法部分不依赖于相机的安装配置，场景的通用性和实用性较高。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种单目视觉三维物体检测方法的流程示意图；

图2是根据本发明实施例的样本图像示意图；

图3是根据本发明实施例的鸟瞰图示意图；

图4是根据本发明实施例的一种单目视觉三维物体检测装置的结构示意图；

图5是根据本发明实施例的一种域控制器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本实施例中提供的一种单目视觉三维物体检测方法，可用于上述的域控制器，图1是根据本发明实施例的一种单目视觉三维物体检测方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，通过样本图像训练得到目标检测模型，样本图像中的样本目标均标记了二维边框和样本目标在地面的落脚点。

具体地，本发明实施例提供了一种不需要测量物体在图像中深度的新单目视觉检测方法从而生成准确的三维物体信息。首先，本发明实施例需要预训练一个目标检测模型，该目标检测模型可以采用多种深度神经网络来部署，例如mask-rcnn、YOLO系列网络等，仅以此举例不以此为限。训练得到的目标检测模型用于从二维图像中识别目标并对目标标记地面落脚点。在本发明实施例中，识别目标的过程即在二维图像中通过二维边框将目标在图像中框选出来，进而以框选的目标为对象，二次标记其地面落脚点。二维边框包括但不限于圆形边框、矩形边框、三角形边框或者紧贴目标轮廓的不规则边框等，本发明实施例采用的是矩形边框。一个具体的例子，二维边框检测部分可以采用两阶段的2D检测网络比如faster-rcnn、CenterNet、mask-rcnn等及其衍生结构，也可以采用一阶段的2D检测网络比如SSD，YOLO等，地面落脚点部分可以将经典的mask-rcnn网络的掩码生成部分用地面落脚点识别网络代替。需要注意的是，目标在地面的落脚点不一定是目标和地面实际接触的点，如图2所示，一辆卡车分为车头和挂车，其中挂车作为一个单独的目标，挂车与地面实际接触的点是轮胎，显然该点不能表征挂车在空间中的轮廓，在本实施例中，挂车的地面落脚点是挂车四个顶点在地面上的投影点，即挂车最大轮廓的投影点。从而在平面可行驶区域，忽略了物体在高度方向上的不规则轮廓变化，基于物体在地面上投影的最大轮廓生成三维检测信息，保证车辆的路径规划和速度规划方案具有绝对安全性。基于此，本步骤获取的样本图像中的样本目标均标记了二维边框和样本目标在地面的落脚点。需要注意的是，在模型训练节段，从样本图像中裁剪的特征图范围应当比二维边框范围大一些，因为某些地面落脚点由于透视变换的原因可能落在二维边框外，一般可取二维边框长宽的1.25倍大小。

在一些可选地实施方式中，本发明实施例提供的样本图像通过如下方式获取：

步骤a1，对车身的单目相机进行参数标定，得到单目相机的逆透视变换矩阵。

步骤a2，通过单目相机采集实际场景图像，并在实际场景图像中标记样本目标的二维边框。

步骤a3，通过逆透视变换矩阵将实际场景图像变换为鸟瞰图，并在鸟瞰图中标记样本目标的四个地面落脚点和落脚点顺序，落脚点顺序用于表征目标的前后方向。

步骤a4，通过逆透视变换矩阵将标记了地面落脚点的鸟瞰图反变换到实际场景图像，得到四个地面落脚点在实际场景图像中对应的图像坐标，同时在实际场景图像中标记地面落脚点的可见性。

步骤a5，获取公开三维检测数据集，并将公开三维检测数据集中样本目标的矩形三维边框投影到任意角度的虚拟二维图像中。

步骤a6，在虚拟二维图像中通过投影的矩形三维边框标记样本目标的二维边框。

步骤a7，将矩形三维边框的四个底面角点作为地面落脚点投影到虚拟二维图像上，得到四个底面角点在虚拟二维图像中的图像坐标，同时标记四个底面角点的顺序和可见性；

步骤a8，通过标记后的实际场景图像和标记后的虚拟二维图像组成样本图像。

具体地，在本发明实施例中，样本图像主要通过两种途径获取，分别是车辆单目相机实际采集的图像和公开三维检测数据集。

针对单目相机实际采集的图像，为了保证地面落脚点标注的准确率，首先对单目相机进行参数标定，包括：1.利用标定板对相机内参，畸变参数进行标定；2.对图像进行畸变矫正；3.计算单目相机的逆透视变换矩阵(逆透视变换矩阵可以通过世界坐标下的物理点和图像坐标下的像素点求解PnP问题得到)。之后，通过车辆的单目相机采集实际场景图像，并在实际场景图像中标记样本目标的二维边框，如图2所示。之后，如图3所示，通过逆透视变换矩阵将实际场景图像变换为鸟瞰图，鸟瞰图与地面物理坐标成比例具有一一对应的关系，从而在鸟瞰图中标记样本目标的四个地面落脚点，能够保证标记的点与物理坐标匹配，其一定落在地面上而不是悬空的点。另外，在某些应用场景下，物体的三维检测除了需要获取物体在空间中的三维轮廓，还需要获取物体的朝向，例如：一个场景是本车通过单目相机检测其他车辆的三维轮廓和朝向，从而预测其他车的行进路线，进而判断其他车是否会与本车相撞。基于此，本实施例还标注了各个落脚点顺序，用于表征目标的前后方向，以便于某些可选实施方式进一步确定物体的朝向。例如：用户按照预设的左前、右前、右后、左后四种循序标签逆时针标记4个地面落脚点，并设定其中左前和右前为样本目标的前方，右后和左后为样本目标的后方。之后，通过逆透视变换矩阵将标记了地面落脚点的鸟瞰图反变换到实际场景图像，得到四个地面落脚点在实际场景图像中对应的图像坐标。本实施例通过逆透视变换矩阵的计算方法，无需对全局坐标系和车身坐标系进行互相转换，只需通过车身相机采集到的图像，即可直接将实际的地面全局坐标对应计算到车身坐标系下。另外，本实施例还在实际场景图像中标记地面落脚点的可见性，可见性的含义是标注的地面落脚点是否被其他物体遮挡，例如图2中左后方的地面落脚点被轮胎挡住，从而该地面落脚点标注为不可见，其他地面落脚点标注为可见，通过可见性标注以便于一些可选实施方式根据置信度更高的可见地面落脚点生成物体的三维检测信息，来进一步提高三维检测信息的准确率。

针对公开三维检测数据集，例如kitti、nuscenes等自动驾驶数据集，是可以在物理世界坐标下360度查看的数据，其中的目标均通过高线数激光雷达标注了矩形三维边框。在本发明实施例中，还将公开三维检测数据集中的矩形三维边框投影到任意角度的虚拟二维图像中，从而快速扩充样本图像的数量，之后在虚拟二维图像中通过投影的矩形三维边框标记样本目标的二维边框。例如：任选角度将公开三维检测数据集中样本目标的矩形三维边框投影到一个平面上，该平面即虚拟二维图像，矩形三维边框的八个顶点投影到虚拟二维图像，再取一个最小矩形包围框作为二维边框的标注，能够囊括八个顶点的投影。公开三维检测数据集的矩形三维边框是真实的世界坐标，通常包含了物体的全部组成部分，故矩形三维边框的底面4个顶点相当于四个落地角点，它们在图像上的投影可以作为本发明实施例需要的四个地面落脚点标注。通过这一方案，可以快速地从公开数据集获取大量精确标注，考虑本发明实施例训练的目标检测模型预测部分与传感器的参数配置无关是纯2D检测，使公开三维检测数据集获取的数据加入训练而不受场景的影响。另外，同样对虚拟二维图像中的四个底面角点标注顺序和可见性，以便于一些可选实施方式中对三维物体的朝向进行确定，并根据置信度更高的可见地面落脚点生成物体的三维检测信息，来进一步提高三维检测信息的准确率。

最后，通过上述两类样本组成既包括目标二维边框也包括目标地面落脚点的样本图像。

在一些可选地实施方式中，上述步骤a1包括：

步骤b1，对单目相机的畸变参数进行标定。

步骤b2，通过单目相机采集标定图像，并对标定图像进行畸变矫正。

步骤b3，在矫正后的标定图像上选择不少于四个地面像素点，地面像素点在消失点之前，且在同一直线上的地面像素点不超过两个。

步骤b4，在车身坐标系下测量地面像素点对应的地面点物理坐标。

步骤b5，通过地面像素点和地面点物理坐标求解PnP问题得到逆透视变换矩阵。

具体地，为了进一步提高逆透视变换矩阵的准确性，本实施例对逆透视变换矩阵的计算过程进行了一些修改，其中步骤b1和步骤b2为现有技术，用于提高标定图像的准确度，原理不再赘述。由于本发明实施例通过逆透视变换矩阵的主要目的是确定任意物体的空间轮廓在地面上的落脚点，故本实施例在矫正后的标定图像上选择的像素点必须限定在地面上，用于降低图像中任意像素点(例如像素点实际位置悬空)对地面坐标转换的影响。另外，考虑到逆透视变换矩阵的求解目标是通过求解点对之间的变换得到地平面与图像之间的变换，是面与面的变换，需要选择的标记点尽量围成一个平面，求解的变换才准确。如果标记点均在一条直线上，点对之间的变换不唯一，不能准确反映平面的变换，无法用于其他点的变换计算，故在矫正后的标定图像上选择不少于四个地面像素点，且地面像素点在地面的消失点之前(保证地面像素点不重合)，在同一直线上的地面像素点不超过两个。之后，在车身坐标系下测量地面像素点对应的地面点物理坐标，然后通过地面像素点和地面点物理坐标求解PnP问题得到更准确的逆透视变换矩阵。

在一些可选地实施方式中，基于上述样本图像的获取方式，上述步骤S101具体包括：

步骤c1：以样本图像中标记的二维边框、地面落脚点、落脚点顺序和可见性作为标签，通过样本图像训练深度神经网络，得到用于识别二维图像中的二维边框、地面落脚点、落脚点顺序和落脚点可见性的目标检测模型。

具体地，通过上述样本图像可以训练得到用于识别二维图像中的二维边框、地面落脚点、落脚点顺序和落脚点可见性的目标检测模型，训练过程为现有技术，改进点在于训练样本的不同，关于样本的原理描述参考上述实施例，在此不再赘述。

步骤S102，获取待检测图像，并通过目标检测模型在待检测图像中识别检测目标，同时标注检测目标的地面落脚点。

具体地，在实际推理阶段，通过车身上的单目相机实时拍摄待检测图像，然后通过上述步骤S101训练的目标检测模型在待检测图像中识别检测目标，通过二维边框框选检测目标，同时针对检测目标标注地面落脚点。另外，在一个具体实施例中，为了降低地面落脚点的标注复杂度，地面落脚点均采用4个，即物体的最小外接立方体的四个底面角点在地面上的落脚点。

在一些可选地实施方式中，通过上述步骤c1训练的目标检测模型对待检测图像进行识别，从待检测图像中能够得到检测目标的二维边框、地面落脚点、落脚点顺序和落脚点可见性，以便于后续步骤能够对检测目标的三维轮廓、朝向、位置均进行确定。

步骤S103，将标注的地面落脚点转换到车身坐标系下，得到物理落脚点。

具体地，通过上述步骤在待检测图像中标记了检测目标的落脚点之后，落脚点还在图像坐标系下，此时需要将地面落脚点转换到车身坐标系下，得到物理落脚点，才能根据物理落脚点在车身周围的空间中仿真生成有用的三维检测信息，以便于车辆的路径规划。其中，地面落脚点转换到车身坐标系下的方案可以采用图像坐标系与车身坐标系的坐标系变换实现。

在一些可选地实施方式中，标注的地面落脚点还可以通过上述实施例中提供的逆透视变换矩阵进行变换得到物理落脚点，无需对全局坐标系和车身坐标系进行互相转换，只需通过车身相机采集到的图像，即可直接将实际的地面全局坐标对应计算到车身坐标系下，提高转换效率。

步骤S104，通过物理落脚点生成不限制检测目标高度的三维检测信息。

具体地，最后，本发明实施例根据上述实施例确定的物理落脚点生成不限制检测目标高度的三维检测信息，例如：将图2所示的4个地面落脚点转换为物理落脚点之后，忽略物体的高度，假设4个物理落脚点的连线在高度上形成无限高的平面，从而得到一种高度无限的三维模型。考虑到车辆的路径规划是将路面视为平面，类似港口场景，可行使区域都是平面，自动驾驶不需要考虑前方障碍物的高度，不论障碍物高低均需要躲避，那么检测的目标高度可以认为是无限高，故本实施例只需检测目标四个高度为0的落地角点就有足够的信息用于规划和控制。同时，方法中包含的目标检测模型不需要直接估计物体或场景的深度，只需检测地面落脚点，二维检测技术的研究和应用已经比较成熟，预测精度有保障，不需要增加摄像头或雷达，从而本申请提供了一种能够兼顾低生产成本和高准确度的单目视觉三维物体检测方法。

在一些可选地实施方式中，上述步骤S104包括：

步骤d1，提取物理落脚点中的可见落脚点，并通过可见落脚点的顺序和物理坐标计算检测目标的长、宽、中心位置和朝向；

步骤d2，通过检测目标的长、宽生成不限制检测目标高度的三维模型；

步骤d3，通过三维模型、中心位置和朝向组成三维检测信息。

具体地，根据上述步骤c1训练得到的目标检测模型对待检测图像进行识别，除了能够标记检测目标的四个地面落脚点外，还能够输出落脚点的顺序与可见性。例如：在标注时每个落地角点均添加了可见性的标注，从而目标检测模型通过激活函数输出的可见性预测结果是0～1范围内的分值，代表是否可见的度量，同时相当于对落脚点检测可信度的一个度量，例如分值大于0.5认为落脚点是可见的。一旦落脚点被挡住，利用图像信息进行预测得到的位置准确度会下降，不加区分的使用会导致目标位置不准确，进而本实施例根据地面落脚点的可见性从物理落脚点中提取可见落脚点(例如分值大于阈值0.5的落脚点，阈值需要根据实际应用场景确定，仅以此举例不以此为限)。然后通过可见落脚点的顺序确定目标的前后方向、目标的边缘，进而通过每个可见落脚点的物理坐标计算检测目标的长、宽、中心位置(中心位置指的是检测目标的中心物理坐标)和朝向。从而通过检测目标的长、宽生成不限制检测目标高度的三维模型，以及通过三维模型、中心位置和朝向组成三维检测信息，提高了三维检测信息的准确度。

在一些可选地实施方式中，上述步骤d1包括：

步骤e1，当可见落脚点的数量不少于三个时，根据可见落脚点的顺序连线生成检测目标的长边和宽边，并通过可见落脚点的物理坐标分别计算长边和宽边的数值。

步骤e2，根据可见落脚点的顺序和长边确定检测目标的朝向。

步骤e3，通过可见落脚点的物理坐标计算几何中心坐标，作为中心位置。

步骤e4，当可见落脚点的数量为两个时，通过两个可见落脚点估计一个虚拟落脚点。

步骤e5，将两个可见落脚点和虚拟落脚点作为三个可见落脚点计算检测目标的长、宽、中心位置和朝向。

具体地，可见落脚点的数量通常分为两种情况，一种是可见落脚点的数量不少于三个(通常是三个)，另一种是可见落脚点的数量只有两个。从而针对上述两种情况，本实施例以两类流程确定检测目标的长、宽、中心位置和朝向，来提高三维检测信息的准确度。

当可见落脚点的数量不少于三个时，可见落脚点的信息较多，计算三维模型、中心位置和朝向比较容易，具体根据可见落脚点的顺序，连线得到检测目标的长边和宽边，并通过可见落脚点的物理坐标分别计算长边和宽边的数值。例如，可见落脚点最少有左前、右前和右后三个，从而根据三个落脚点的顺序，将左前与右前两个点连接，得到检测目标的宽边，将右前和右后两个点连接，得到检测目标的长边。因为可见落脚点已经转换到车身坐标系下，故可见落脚点的物理坐标已知，通过可见落脚点的物理坐标可以计算长边和宽边的具体数值，长边和宽边用于在空间中组合生成不限制高度的三维模型。之后，根据可见落脚点的顺序和长边确定检测目标的朝向，例如：可见落脚点的顺序是左前、右前和右后三个，右前和右后的连线长边能够在车身坐标系下确定检测目标的角度，通过右前和右后的名称描述，能够确定检测目标的前方与后方，例如预先定义了右后方和左后方是检测目标的朝向，从而通过可见落脚点的顺序和长边确定检测目标的朝向。如果检测目标是一个汽车，则能够通过朝向预测汽车未来的行驶方向，判断检测目标是否会与本车发生碰撞，从而为本车的路径规划做充分准备。最后，通过可见落脚点的物理坐标计算几何中心坐标，作为中心位置，从而在车身坐标系下确定三维模型的准确位置。例如：自左到右三个连续的可见落脚点为p1、p2、p3，相应的地面点物理坐标分别为(x1,y1)，(x2,y2)，(x3,y3)，其中x轴朝向车身正前方，y轴朝向车身左侧，底面中心坐标可表示为((x1+x3)/2，(y1+y2+y3)/3，0)。其中点p2应为离车身纵向最近的点，点p1和点p3分别在点p2的左侧和右侧。

当可见落脚点的数量只有两个时，本发明实施例则通过两个可见落脚点估计一个虚拟落脚点，然后将两个可见落脚点和虚拟落脚点作为三个可见落脚点，按照上述三个可见落脚点的步骤计算检测目标的长、宽、中心位置和朝向。例如引入一个不可见落脚点作为虚拟落脚点进行计算。需要注意的是，不可见落脚点因为置信度有高有低，故在本实施例中，引入一个不可见落脚点作为虚拟落脚点，避免多个不可见落脚点影响三维检测信息的准确性。

具体地，在一实施例中，通过两个可见落脚点估计一个虚拟落脚点又分为两类情况，一种是两个可见落脚点同在单边，另一种是两个可见落脚点为对角线上的对角点。从而上述步骤e4包括：

步骤f1，根据两个可见落脚点的顺序确定两个可见落脚点之间的位置关系，位置关系包括两个可见落脚点同在单边和两个可见落脚点为对角点；

步骤f2，当两个可见落脚点同在单边时，以两个可见落脚点的物理坐标计算单边的数值；

步骤f3，通过任意可见落脚点在不可见方向按照单边的数值垂直于单边进行延伸，并基于延伸终点估计虚拟落脚点的物理坐标；

步骤f4，当两个可见落脚点为对角点时，以物理落脚点中距离相机视角最近的不可见落脚点作为虚拟落脚点。

具体地，当两个可见落脚点同在单边时，例如两个可见落脚点的连线是长边或者宽边，这类场景对应单目相机的视角是本车在检测目标的正前方、正后方、正左方或正右方，从而以两个可见落脚点的物理坐标计算单边的数值。之后，以单边的数值在不可见方向通过任意可见落脚点按照单边的数值垂直于单边进行延伸，并基于延伸终点估计虚拟落脚点的物理坐标。例如两个可见落脚点连线为长边，本车在长边的左侧，长边的右侧对于本车来说是不可见方向，从而以任意可见落脚点为起点，垂直于单边延伸相同长度，得到的终点即为一个虚拟落脚点，换言之，得到的虚拟落脚点和可见落脚点在地面上形成的形状为正方形。之后，结合各个落脚点的物理坐标按照三个可见落脚点的计算流程即可确定检测目标的长、宽、中心位置、朝向和三维模型。一方面，估计落脚点的方法简单易行，计算效率高；另一方面，不论目标检测模型识别的不可见落脚点是否准确，均可以不予考虑，降低分析复杂度，通过这种方式估计的虚拟落脚点，由于另外两个不可见落地角点在视野后方，因此生成的三维检测信息并不会影响驾驶安全。

当两个可见落脚点为对角点时，例如：假设图2中右前方落脚点前面站了一个人，右前方落脚点不可见，左后落脚点又被轮胎挡住，只有左前和右后两个落脚点可见。这类场景不能以正方形来估计虚拟落脚点，本发明实施例以物理落脚点中距离相机视角最近的不可见落脚点作为虚拟落脚点，由于距离相机视角最近的不可见落脚点距离较近，通常遮挡较少，置信度较高，从而以距离相机视角最近的不可见落脚点作为虚拟落脚点也能够在最差的检测条件下得到最准确的三维检测信息。

本申请提供的技术方案，通过对样本图像中的样本目标均标记二维边框和样本目标在地面的落脚点创建大量样本图像，然后通过样本图像训练得到目标检测模型。在预测阶段，通过车身上的单目相机采集待检测图像，从而通过目标检测模型在待检测图像中识别检测目标，同时标注检测目标的地面落脚点；之后，将标注的地面落脚点转换到车身坐标系下，得到物理落脚点；最后，通过物理落脚点生成只限制目标平面轮廓而不限制检测目标高度的三维检测信息。本申请采用的目标检测模型只需要进行物体二维边框检测和图像中物体落地角点的识别，忽略了物体的高度，方法中包含的目标检测模型不需要直接估计物体或场景的深度。二维检测技术的研究和应用已经比较成熟，预测精度有保障；降低了用于三维物体检测的数据标注难度，同时能够很方便地通过对现有单目三维物体检测数据库的改造低成本的获得大量标注数据，提升物体二维边框检测和物体落地角点识别的精度。

本实施例提供一种单目视觉三维物体检测装置，如图4所示，包括：

模型训练模块401，用于通过样本图像训练得到目标检测模型，样本图像中的样本目标均标记了二维边框和样本目标在地面的落脚点。详细内容参见上述方法实施例中步骤S101的相关描述，在此不再进行赘述。

落脚点识别模块402，用于获取待检测图像，并通过目标检测模型在待检测图像中识别检测目标，同时标注检测目标的地面落脚点。详细内容参见上述方法实施例中步骤S102的相关描述，在此不再进行赘述。

坐标转换模块403，用于将标注的地面落脚点转换到车身坐标系下，得到物理落脚点。详细内容参见上述方法实施例中步骤S103的相关描述，在此不再进行赘述。

三维信息生成模块404，用于通过物理落脚点生成不限制检测目标高度的三维检测信息。详细内容参见上述方法实施例中步骤S104的相关描述，在此不再进行赘述。

本实施例中的一种单目视觉三维物体检测装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供一种域控制器，具有上述图4所示的一种路径规划调参装置。

图5示出了本发明实施例的一种域控制器，该域控制器至少包括感知处理单元901、决策处理单元902、控制处理单元903和通信单元904，其中感知处理单元901、决策处理单元902、控制处理单元903和通信单元904之间可以通过总线或者其他方式互相通信连接，图5中以总线方式为例。

在本实施例中，感知处理单元901和决策处理单元902分别包括独立的处理器，感知处理单元901和决策处理单元902可以分别包括独立的存储器，也可以使用共享的存储器。

在本发明实施例中，感知处理单元901主要应用于工程机械场景，主要作用为对传感器数据进行感知融合处理，得到当前工程机械所处环境的环境信息，然后根据环境信息信号的数据类型将环境信息发送至控制处理单元903或者决策处理单元902。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如上述方法实施例中的方法所对应的程序指令/模块。感知处理单元901通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

决策处理单元902的作用为：结合周边环境、作业场景、车辆状态等信息融合之后，制定驾驶或作业策略，最终发出控制命令。

控制处理单元903的主要作用为：通信协议转换(CAN、以太网、LIN等)、AD转换(传感器输入)、DA转换(控制驱动)等的不同类型信号之间的转换。例如将激光雷达扫描到的信号转换为点云数据，控制处理单元903可以是美国德州仪器TI芯片TDA4VM的MCU、以色列Mobileye公司EyeQ系列芯片的MCU、日本瑞萨R-CAR芯片R-CAR H3的MCU、中国地平线公司征程系列芯片的MCU等。

通信单元904的主要作用为：进行无线通信，通信方式包括但不限于5G/4G网络通信、Wi-Fi通信、卫星通信，与云端服务器进行通信，其主要作用为：将设备相关状态以及信息上传到云端服务，请求云端服务器协助计算处理，也可以通过云端服务器下载数据，对控制器进行OTA软件升级；与附近的设备通信，可以接收其他设备的状态，协同完成作业任务。控制模块的通信单元110可以为5G模组、Wi-Fi模组、蓝牙模组等。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，实现的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种单目视觉三维物体检测方法，其特征在于，所述方法包括：

通过样本图像训练得到目标检测模型，所述样本图像中的样本目标均标记了二维边框和样本目标在地面的落脚点；

获取待检测图像，并通过所述目标检测模型在所述待检测图像中识别检测目标，同时标注检测目标的地面落脚点；

将标注的地面落脚点转换到车身坐标系下，得到物理落脚点；

通过所述物理落脚点生成不限制所述检测目标高度的三维检测信息。

2.根据权利要求1所述的方法，其特征在于，所述样本图像通过如下方式获取：

对车身的单目相机进行参数标定，得到单目相机的逆透视变换矩阵；

通过所述单目相机采集实际场景图像，并在所述实际场景图像中标记样本目标的二维边框；

通过所述逆透视变换矩阵将所述实际场景图像变换为鸟瞰图，并在所述鸟瞰图中标记样本目标的四个地面落脚点和落脚点顺序，所述落脚点顺序用于表征目标的前后方向；

通过所述逆透视变换矩阵将标记了地面落脚点的鸟瞰图反变换到实际场景图像，得到四个地面落脚点在实际场景图像中对应的图像坐标，同时在实际场景图像中标记地面落脚点的可见性；

获取公开三维检测数据集，并将所述公开三维检测数据集中样本目标的矩形三维边框投影到任意角度的虚拟二维图像中；

在所述虚拟二维图像中通过投影的矩形三维边框标记样本目标的二维边框；

将所述矩形三维边框的四个底面角点作为地面落脚点投影到所述虚拟二维图像上，得到四个底面角点在虚拟二维图像中的图像坐标，同时标记四个底面角点的顺序和可见性；

通过标记后的实际场景图像和标记后的虚拟二维图像组成所述样本图像。

3.根据权利要求2所述的方法，其特征在于，所述对车身的单目相机进行参数标定，得到单目相机的逆透视变换矩阵，包括：

对所述单目相机的畸变参数进行标定；

通过所述单目相机采集标定图像，并对所述标定图像进行畸变矫正；

在矫正后的标定图像上选择不少于四个地面像素点，所述地面像素点在消失点之前，且在同一直线上的地面像素点不超过两个；

在车身坐标系下测量所述地面像素点对应的地面点物理坐标；

通过所述地面像素点和所述地面点物理坐标求解PnP问题得到所述逆透视变换矩阵。

4.根据权利要求2所述的方法，其特征在于，所述通过样本图像训练得到目标检测模型，包括：

以所述样本图像中标记的二维边框、地面落脚点、落脚点顺序和可见性作为标签，通过所述样本图像训练深度神经网络，得到用于识别二维图像中的二维边框、地面落脚点、落脚点顺序和落脚点可见性的所述目标检测模型。

5.根据权利要求4所述的方法，其特征在于，所述通过所述物理落脚点生成不限制所述检测目标高度的三维检测信息，包括：

提取所述物理落脚点中的可见落脚点，并通过所述可见落脚点的顺序和物理坐标计算所述检测目标的长、宽、中心位置和朝向；

通过所述检测目标的长、宽生成不限制所述检测目标高度的三维模型；

通过所述三维模型、所述中心位置和所述朝向组成所述三维检测信息。

6.根据权利要求5所述的方法，其特征在于，所述通过所述可见落脚点的顺序和物理坐标计算所述检测目标的长、宽、中心位置和朝向，包括：

当所述可见落脚点的数量不少于三个时，根据可见落脚点的顺序连线生成所述检测目标的长边和宽边，并通过可见落脚点的物理坐标分别计算所述长边和宽边的数值；

根据所述可见落脚点的顺序和所述长边确定所述检测目标的朝向；

通过所述可见落脚点的物理坐标计算几何中心坐标，作为所述中心位置；

当所述可见落脚点的数量为两个时，通过两个可见落脚点估计一个虚拟落脚点；

将两个可见落脚点和所述虚拟落脚点作为三个可见落脚点计算所述检测目标的长、宽、中心位置和朝向。

7.根据权利要求6所述的方法，其特征在于，所述通过两个可见落脚点估计一个虚拟落脚点，包括：

根据两个可见落脚点的顺序确定两个可见落脚点之间的位置关系，所述位置关系包括两个可见落脚点同在单边和两个可见落脚点为对角点；

当两个可见落脚点同在单边时，以所述两个可见落脚点的物理坐标计算单边的数值；

通过任意可见落脚点在不可见方向按照单边的数值垂直于单边进行延伸，并基于延伸终点估计虚拟落脚点的物理坐标；

当两个可见落脚点为对角点时，以所述物理落脚点中距离相机视角最近的不可见落脚点作为所述虚拟落脚点。

8.一种单目视觉三维物体检测装置，其特征在于，所述装置包括：

模型训练模块，用于通过样本图像训练得到目标检测模型，所述样本图像中的样本目标均标记了二维边框和样本目标在地面的落脚点；

落脚点识别模块，用于获取待检测图像，并通过所述目标检测模型在所述待检测图像中识别检测目标，同时标注检测目标的地面落脚点；

坐标转换模块，用于将标注的地面落脚点转换到车身坐标系下，得到物理落脚点；

三维信息生成模块，用于通过所述物理落脚点生成不限制所述检测目标高度的三维检测信息。

9.一种域控制器，其特征在于，包括：感知处理单元、决策处理单元、控制处理单元和通信单元，所述感知处理单元、所述决策处理单元、所述控制处理单元和所述通信单元之间互相通信连接，所述感知处理单元中存储有计算机指令，所述感知处理单元通过执行所述计算机指令，从而执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至7中任一项所述的方法。