CN112509126A

CN112509126A - 三维物体检测的方法、装置、设备及存储介质

Info

Publication number: CN112509126A
Application number: CN202011507625.9A
Authority: CN
Inventors: 叶晓青; 谭啸; 孙昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-03-16
Also published as: EP3905124A3; US20210295013A1; EP3905124A2

Abstract

本申请公开了三维物体检测的方法、装置、设备及存储介质，涉及计算机视觉和深度学习技术等人工智能领域，可以应用于智能交通场景。具体实现方案为：检测目标物体的朝向角等参数，并针对两种遮挡类别分别预测目标物体的底面顶点预测坐标，通过基于目标物体的朝向角，选择与朝向角匹配的底面顶点预测坐标，可以准确地确定目标物体对应的遮挡类别，将目标物体对应遮挡类别下的底面顶点的预测坐标作为目标物体的底面顶点坐标，根据与朝向角匹配的底面顶点预测坐标，以及目标物体的三维参数，确定目标物体的三维包围框，能够有效提升三维物体检测的精度和鲁棒性。

Description

三维物体检测的方法、装置、设备及存储介质

技术领域

本申请涉及计算机视觉和深度学习技术等人工智能领域，可以应用于智能交通场景，尤其涉及一种三维物体检测的方法、装置、设备及存储介质。

背景技术

在智能信控、车路协同、辅助驾驶等场景下，需要基于监控装置拍摄的二维图像进行三维物体检测，以识别出其中的车辆、行人、骑行者等物体的三维包围框信息。

目前，对监控场景下的基于二维图像的三维物体检测方法中，基于车载双目数据的方法，成本高、计算复杂度高，无法满足检测实时性要求；基于雷达数据的方法，成本高，检测精度低。

发明内容

本申请提供了一种三维物体检测的方法、装置、设备及存储介质。

根据本申请的一方面，提供了一种三维物体检测的方法，包括：

对包含目标物体的二维图像进行检测，确定所述目标物体的三维参数，所述三维参数至少包括朝向角和两种遮挡类别下所述目标物体的底面顶点预测坐标，所述两种遮挡类别包括底面顶点中一个顶点被遮挡，底面顶点中两个顶点被遮挡；

根据所述两种遮挡类别下所述目标物体的底面顶点预测坐标，确定与所述朝向角匹配的底面顶点预测坐标；

根据所述与所述朝向角匹配的底面顶点预测坐标，以及所述目标物体的三维参数，确定所述目标物体的三维包围框。

根据本申请的另一方面，提供了一种三维物体检测的装置，包括：

基础检测模块，用于对包含目标物体的二维图像进行检测，确定所述目标物体的三维参数，所述三维参数至少包括朝向角和两种遮挡类别下所述目标物体的底面顶点预测坐标，所述两种遮挡类别包括底面顶点中一个顶点被遮挡，底面顶点中两个顶点被遮挡；

朝向角匹配模块，用于根据所述两种遮挡类别下所述目标物体的底面顶点预测坐标，确定与所述朝向角匹配的底面顶点预测坐标；

三维包围框确定模块，用于根据所述与所述朝向角匹配的底面顶点预测坐标，以及所述目标物体的三维参数，确定所述目标物体的三维包围框。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述所述的方法。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述所述的方法。

根据本申请的技术提高了三维物体检测的鲁棒性和精准度。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的三维物体检测系统的框架图；

图2是本申请第一实施例提供的三维物体检测的方法流程图；

图3是本申请第一实施例提供的底面顶点中一个顶点被遮挡的示意图；

图4是本申请第一实施例提供的底面顶点中两个顶点被遮挡的示意图；

图5是本申请第二实施例提供的三维物体检测的方法流程图；

图6是本申请第二实施例提供的计算朝向角预测值的示意图；

图7是本申请第三实施例提供的三维物体检测的装置示意图；

图8是用来实现本申请实施例的三维物体检测的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请提供一种三维物体检测的方法、装置、设备及存储介质，涉及计算机视觉和深度学习技术等人工智能领域，可以应用于智能交通场景，以达到提高三维物体检测的稳定性和精准度的技术效果。

本申请实施例提供的三维物体检测的方法，可以应用于如图1所示的三维物体检测系统的框架，该三维物体检测系统具体可以应用于智能信息控制、车路协同、辅助驾驶、监控系统等场景，可以为智慧交通、智能城市系统等提供可靠的三维检测结果。如图1所示，三维物体检测系统10包括图像采集装置11和三维物体检测装置12。其中，图像采集装置11用于采集包含物体的图像，可以是设置在路侧等场所的监控摄像头等，在监控视角下拍摄物体的图像，此处不做具体限定。图像采集装置11采集包含物体的图像，并发送给三维物体检测装置12。三维物体检测装置12对图像中出现的物体进行三维检测，确定物体的三维包围框。其中，物体可以是辆、行人、骑行者、障碍物等等，此处不做具体限定。

图2是本申请第一实施例提供的三维物体检测的方法流程图。如图2所示，该方法具体步骤如下：

步骤S201、对包含目标物体的二维图像进行检测，确定目标物体的三维参数，三维参数至少包括朝向角和两种遮挡类别下目标物体的底面顶点预测坐标，两种遮挡类别包括底面顶点中一个顶点被遮挡，底面顶点中两个顶点被遮挡。

其中，待检测的图像可以是智能信息控制、车路协同、辅助驾驶、监控系统等场景下采集的二维图像，该二维图像中包含的至少一个物体，可以将其中的一个或者多个物体作为目标物体进行三维物体检测，确定目标物体的三维包围框。

通常，物体的三维包围框包括4个顶面顶点和4和底面顶点。基于二维图像的拍摄视角，根据4个底面顶点的遮挡关系，可以确定两种不同的遮挡类别。其中，两种遮挡类别包括底面顶点中一个顶点被遮挡(如图2所示)，底面顶点中两个顶点被遮挡(如图3所示)。如果物体的4个底面顶点中有一个顶点被遮挡，则该物体对应于底面顶点中一个顶点被遮挡的类别。如果物体的4个底面顶点中有两个顶点被遮挡，则该物体对应于底面顶点中两个顶点被遮挡的类别。

例如，图3给出了底面顶点中一个顶点被遮挡的示意图，如图3所示，三维包围框包括编号为(1)-(8)的8个顶点，其中，编号为(1)-(4)的4个顶点为底面顶点，编号为(5)-(8)的4个顶点为顶面顶点，4个底面顶点中只有编号为(4)的顶点被遮挡。

例如，图4给出了底面顶点中两个顶点被遮挡的示意图，如图4所示，三维包围框包括编号为(1)-(8)的8个顶点，其中，编号为(1)-(4)的4个顶点为底面顶点，编号为(5)-(8)的4个顶点为顶面顶点，4个底面顶点中编号为(3)和(4)的两个顶点被遮挡。

本实施例中，目标物体的三维参数是指确定目标物体的三维包围框所需要的参数。目标物体的三维参数至少包括目标物体的朝向角和两种遮挡类别下目标物体的底面顶点预测坐标，还可以包括目标物体的长度、宽度和高度等。

由于不确定在二维图像中物体对应于哪个遮挡类别，在进行检测过程中，针对两种不同的遮挡类别，分别预测目标物体属于每种遮挡类别时的底面顶点的坐标，确定在两种遮挡类别下目标物体的底面顶点的预测坐标。

步骤S202、根据两种遮挡类别下目标物体的底面顶点预测坐标，确定与朝向角匹配的底面顶点预测坐标。

在确定目标物体的朝向角和两种遮挡类别下目标物体的底面顶点预测坐标之后，根据目标物体的朝向角与两种遮挡类别下目标物体的底面顶点预测坐标计算得出的朝向角预测值的一致性，来确定与朝向角匹配的底面顶点预测坐标。

步骤S203、根据与朝向角匹配的底面顶点预测坐标，以及目标物体的三维参数，确定目标物体的三维包围框。

本实施例中，将与朝向角匹配的底面顶点预测坐标作为目标物体的底面顶点坐标，根据目标物体的底面顶点坐标，以及目标物体的长度、宽度和高度等，可以唯一确定目标物体的三维包围框。

本申请实施例中，检测目标物体的朝向角等参数，并针对两种遮挡类别分别预测目标物体的底面顶点预测坐标，通过基于目标物体的朝向角选择与朝向角匹配的底面顶点预测坐标，可以准确地确定目标物体对应的遮挡类别，将目标物体对应遮挡类别下的底面顶点的预测坐标作为目标物体的底面顶点坐标，根据与朝向角匹配的底面顶点预测坐标，以及目标物体的三维参数，确定目标物体的三维包围框，能够有效提升三维物体检测的精度和鲁棒性。

图5是本申请第二实施例提供的三维物体检测的方法流程图。在上述第一实施例的基础上，本实施例中，将二维图像输入三维检测模型，通过三维检测模型对包含目标物体的二维图像进行检测，确定目标物体的三维参数。三维参数包括朝向角和两种遮挡类别下目标物体的底面顶点预测坐标，以及目标物体属于每种遮挡类别的概率。若概率差值大于或等于预设阈值，则将概率大的遮挡类别下目标物体的底面顶点预测坐标，作为与朝向角匹配的底面顶点预测坐标。若概率差值小于预设阈值，则根据两种遮挡类别下目标物体的底面顶点预测坐标，确定与朝向角匹配的底面顶点预测坐标。与朝向角匹配的底面顶点预测坐标可以作为目标物体的底面顶点的坐标，提高目标物体的底面顶点的坐标精准度。

如图5所示，该方法具体步骤如下：

步骤S501、将二维图像输入三维检测模型，通过三维检测模型对包含目标物体的二维图像进行检测，确定目标物体的三维参数。

其中，目标物体的三维参数是指确定目标物体的三维包围框所需要的参数。三维参数可以包括朝向角、长度、宽度、高度和两种遮挡类别下目标物体的底面顶点预测坐标，以及目标物体属于每种遮挡类别的概率。

本实施例中，可以利用预先训练好的神经网络模型，来检测二维图像中目标物体的三维参数。

将二维图像输入神经网络模型，利用神经网络模型确定并输出目标物体的朝向角、长度、宽度、高度和两种遮挡类别下目标物体的底面顶点预测坐标，以及目标物体属于每种遮挡类别的概率等参数。

可选地，神经网络模型可以采用二阶段2D(二维)检测框架，如R-CNN(Region-based Convolutional Neural Networks，区域卷积神经网络)、或者Faster R-CNN(Faster-based Region Convolutional Neural Networks，更快的区域卷积神经网络)等。神经网络模型包括两个阶段的输出：一阶段输出二维图像中目标物体的二维包围框，二阶段输出目标物体的朝向角、长度、宽度、高度和两种遮挡类别下目标物体的底面顶点预测坐标，以及目标物体属于每种遮挡类别的概率等三维参数。

示例性地，在训练神经网络模型时，首先获取训练集，其中，训练集中包括多个样本图像，以及样本图像中目标对象的标注信息，标注信息包括目标对象的二维包围框信息，三维包围框的4个底面顶点的坐标，目标对象对应的遮挡类别，目标对象的朝向角、长度、宽度和高度等。

对于每个样本图像，基于二维包围框的约束获取预测真值，确定对应的标注信息。一般监控场景下，相机视角为斜向下。

其中，样本图像中目标对象对应的遮挡类别，目标对象的朝向角、长度、宽度和高度等，都可以预先标注确定。

目标对象的三维包围框的8个顶点在相机坐标系下的坐标可以通过预先标注，例如可以其他传感器检测确定。样本图像中目标对象的三维包围框的4个底面顶点的坐标，可以将目标对象的三维包围框的4个底面顶点在相机坐标系下的坐标，投影至二维图像中得到。

具体地，样本图像中目标对象的三维包围框的顶面和底面的顶点在相机坐标系下的坐标可以表示为：

其中编号为1-4表示底面4个顶点(也即4个接地点)，编号5-8表示顶面4个顶点。

采集样本图像的相机内参可以表示为

其中，f_x与f_y分别是相机在X轴方向和Y轴方向上的像素焦距，c_x与c_y分别是相机主点在X轴方向和Y轴方向上的坐标。此外，地面方程可表示为：ax+by+cz+d＝0，地面法向量为

这样，目标对象的三维包围框的8个顶点在样本图像上的投影点的坐标可以表示为：V_i ^2d[u，v]i＝1，...，8，可以通过以下公式一计算得到：

目标对象的三维包围框底面的4个顶点在样本图像上的投影点的坐标，可以作为目标对象的4个底面顶点的坐标。

基于训练集对神经网络模型进行训练，训练好的神经网络模型作为最终的三维检测模型。

该步骤中，将待检测的二维图像输入三维检测模型，利用三维检测模型对包含目标物体的二维图像进行检测，得到目标物体的朝向角、长度、宽度、高度和两种遮挡类别下目标物体的底面顶点预测坐标，以及目标物体属于每种遮挡类别的概率等。

可选地，利用三维检测模型还可以输出目标物体的二维包围框。

步骤S502、根据三维参数中目标物体属于每种遮挡类别的概率，确定目标物体属于两种遮挡类别的概率之间的概率差值。

在利用三维检测模型检测得到二维图像中的目标物体的三维参数之后，根据其中目标物体属于每种遮挡类别的概率，计算目标物体属于两种遮挡类别的概率之间的概率差值。

例如，目标物体可以是车辆，检测到二维图像中的车辆属于一种遮挡类别的概率为P1，车辆属于另一种遮挡类别的概率为P2，那么该步骤中车辆属于两种不同的遮挡类别的概率之间的概率差值可以为：|P1-P2|。

步骤S503、判断概率差值是否小于预设阈值。

三维检测模型预测的目标物体所属的遮挡类别可能会分类错误，引起目标物体的底面顶点坐标有较大的误差，为了提高确定的目标物体所属的遮挡类别的准确性，提高目标物体的底面顶点坐标的准确性，本实施例中，不直接采用三维检测模型的预测结果，而是基于目标物体属于两种遮挡类别的概率，在确定预测结果置信度较低时，依据两种遮挡类别下的底面顶点的预测坐标估计的朝向角与三维检测模型输出的朝向角的一致性，来确定目标物体所属的遮挡类别。

若概率差值大于或等于预设阈值，则执行步骤S504，将概率大的遮挡类别下目标物体的底面顶点预测坐标，作为与朝向角匹配的底面顶点预测坐标，能够准确地确定目标物体对应的遮挡类别。

若概率差值小于预设阈值，则执行步骤S505-S507，根据两种遮挡类别下目标物体的底面顶点预测坐标，确定与朝向角匹配的底面顶点预测坐标。

步骤S504、将概率大的遮挡类别下目标物体的底面顶点预测坐标，作为与朝向角匹配的底面顶点预测坐标。

若概率差值大于或等于预设阈值，则说明目标物体所对应的遮挡类别较为明显，三维检测模型对目标物体所属的遮挡类别的预测结果置信度较高，执行步骤S504，将概率大的遮挡类别下目标物体的底面顶点预测坐标，作为与朝向角匹配的底面顶点预测坐标，能够准确地目标物体对应的遮挡类别。

步骤S505、根据两种遮挡类别下目标物体的底面顶点预测坐标，计算两种遮挡类别下目标物体的朝向角预测值。

若概率差值小于预设阈值，则说明目标物体所对应的遮挡类别不明显，三维检测模型并不能很好判断目标物体属于哪一个遮挡类别，三维检测模型对目标物体所属的遮挡类别的预测结果置信度不高，执行步骤S505-S507，根据两种遮挡类别下目标物体的底面顶点预测坐标，确定与朝向角匹配的底面顶点预测坐标，以进一步准确地确定目标物体对应的遮挡类别，从而将目标物体对应遮挡类别下的底面顶点的预测坐标作为目标物体的底面顶点坐标，提高了目标物体的底面顶点坐标的准确性。

本实施例中，该步骤具体可以采用如下方式实现：

对于任意一种遮挡类别，根据该遮挡类别下目标物体的底面顶点预测坐标、以及相机参数，将底面顶点预测坐标转换至相机坐标系下，并添加深度信息，得到在相机坐标系下目标物体的底面顶点的预测三维坐标；根据目标物体的底面顶点的预测三维坐标，确定底面顶点构成的四边形；计算四边形中两个相邻的边分别对应的朝向角预测值；确定两个相邻的边分别对应的朝向角预测值中，与朝向角偏差更小的朝向角预测值；将与朝向角偏差更小的朝向角预测值，作为该遮挡类别下目标物体的朝向角预测值。

具体地，对于任意一种遮挡类别，三维检测模型输出的目标物体的4个底面顶点的预测坐标可以表示为：V_i ^2d[u，v]i＝1，...，4，根据采集二维图像的拍摄装置的相机内参，以及如下公式二，可以将4个底面顶点的预测坐标转换至相机坐标系下，得到对应的相机坐标：

其中，K^-1为相机参数K的逆。

对应的深度为：

那么，可以确定通过以下公式三，确定在相机坐标系下目标物体的4个底面顶点的预测三维坐标V_i ^3d[X，Z，Z]，i＝1，...，4：

基于相机坐标系下目标物体的4个底面顶点的预测三维坐标，以目标物体的4个底面顶点作为顶点，可以确定一个四边形(如图6中所示的V1V2V3V4)。然后计算四边形中两个相邻的边(如图6中所示的V1V2和V2V3这两个边)分别对应的朝向角预测值。

示例性地，下面以计算如图6中所示的V1V2和V2V3这两个边对应的朝向角预测值为例，对计算四边形中任意两个相邻的边分别对应的朝向角预测值的过程进行说明：

边V1V2对应的朝向角预测值可以通过以下公式四确定：

其中，ry₁₂表示边V1V2对应的朝向角预测值，

表示以顶点V2为起点以顶点V1为终点的向量，

表示向量

在x轴方向上的分量的模，

表示向量

在z轴方向上的分量的模。

边V2V3对应的朝向角预测值可以通过以下公式五确定：

其中，ry₂₃表示边V2V3对应的朝向角预测值，

表示以顶点V2为起点以顶点V3为终点的向量，

表示向量

在x轴方向上的分量的模，

表示向量

在z轴方向上的分量的模。

此处，考虑到朝向角有周期性，将ry₁₂，ry₂₃都限制在[-π，π]范围内，且三维检测模型输出的目标物体的朝向角也在[-π，π]范围内。

在确定两个边对应的朝向角预测值之后，从中选择与三维检测模型输出的目标物体的朝向角更接近的一个(如图6中所示的Ry，可能是ry₁₂，也可能是ry₂₃)，也就是与朝向角偏差更小的朝向角预测值，作为该遮挡类别下目标物体的朝向角预测值，这样，可以准确地确定任一遮挡类别下目标物体的朝向角预测值。

步骤S506、计算两种遮挡类别下目标物体的朝向角预测值与朝向角偏差角度。

在确定两种遮挡类别下目标物体的朝向角预测值之后，分别计算两种遮挡类别下目标物体的朝向角预测值与朝向角偏差角度。

步骤S507、将偏差角度小的遮挡类别下目标物体的底面顶点预测坐标，作为与朝向角匹配的底面顶点预测坐标。

通过比较两种遮挡类别下目标物体的朝向角预测值与朝向角偏差角度的大小，可以确定目标物体的朝向角预测值与朝向角偏差角度小的遮挡类别。

目标物体的朝向角预测值与朝向角偏差角度越小，说明对应遮挡类别下目标物体的朝向角预测值与三维检测模型输出的目标物体的朝向角的一致性更强，对应遮挡类别下述目标物体的底面顶点预测坐标与目标物体的朝向角的匹配度更高。因此，将偏差角度小的遮挡类别下目标物体的底面顶点预测坐标，作为与朝向角匹配的底面顶点预测坐标。

一种可选的实施方式中，在确定与朝向角匹配的底面顶点预测坐标之后，基于4个底面顶点预测坐标，结合目标物体的长度、宽度和高度，可以唯一确定目标物体的三维包围框。

一种可选的实施方式中，在确定与朝向角匹配的底面顶点预测坐标之后，通过后续步骤S508-S510，根据与朝向角匹配的底面顶点预测坐标，以及目标物体的三维参数，确定目标物体的三维包围框，能够准确地确定目标物体的三维包围框。

步骤S508、根据与朝向角匹配的底面顶点预测坐标，确定目标物体的底面中心点的坐标。

本实施例中，可以将与朝向角匹配的底面顶点预测坐标作为目标物体的底面顶点坐标，根据与朝向角匹配的底面顶点预测坐标，确定目标物体的底面中心点的坐标。

该步骤具体可以采用如下方式实现：

根据地面方程、相机参数，将与朝向角匹配的底面顶点预测坐标转换到地面坐标系，得到地面坐标系下目标物体的底面顶点的三维坐标；根据地面坐标系下目标物体的底面顶点的三维坐标，确定目标物体的底面中心点的坐标。

进一步地，根据地面方程、相机参数，将与朝向角匹配的底面顶点预测坐标转换到地面坐标系，得到地面坐标系下目标物体的底面顶点的三维坐标，可以采用如下方式实现：

根据与朝向角匹配的底面顶点预测坐标、以及相机参数，将与朝向角匹配的底面顶点预测坐标转换至相机坐标系下，并添加深度信息，得到相机坐标系下目标物体的底面顶点的三维坐标；根据地面方程，确定相机坐标系到地面坐标系的变换矩阵；根据相机坐标系下目标物体的底面顶点的三维坐标，以及变换矩阵，确定地面坐标系下目标物体的底面顶点的三维坐标。

具体地，在上述步骤S505中，计算两种遮挡类别下目标物体的朝向角预测值的过程中，根据该遮挡类别下目标物体的底面顶点预测坐标、以及相机参数，将底面顶点预测坐标转换至相机坐标系下，并添加深度信息，得到在相机坐标系下目标物体的底面顶点的预测三维坐标。在此基础上，该步骤中，可以根据地面方程先求出相机到地面的变换矩阵，然后根据该变换矩阵，将相机坐标系下目标物体的底面顶点的预测三维坐标转换至底面坐标系下，得到地面坐标系下目标物体的底面顶点的三维坐标；进一步地根据地面坐标系下目标物体的底面顶点的三维坐标，确定目标物体的底面中心点的坐标，能够基于三维检测模型的输出的目标物体底面顶点的二维的预测坐标，确定地面坐标系下目标物体的底面顶点的三维坐标。

示例性地，根据地面方程先求出相机到地面的变换矩阵，具体可以采用如下方式实现：

设地面法向量为

则地面坐标系的Z轴法向量可以表示为

其中Norm表示对向量的归一化。相应地，将相机坐标系下的X轴上某一点P_x(1,0,0)转换到地面坐标系的方法为：

并对

做归一化。地面坐标系的y轴向量可以通过x，y，z轴向量相互垂直的特性得到：

从相机坐标系转换到地面坐标系的变换矩阵为

可以采用如下公式六，将从相机坐标系下的坐标转换到地面坐标系：

其中，V_i ^3d_ground表示地面坐标系下的坐标，

表示相机坐标系下的坐标，下标i表示对应的底面顶点，i＝1，2，3，4。

在确定地面坐标系下目标物体的底面顶点的三维坐标之后，可以通过以下公式七，确定地面坐标系下目标物体的三维包围框的底面中心点的坐标：

其中，mean()为求均值函数，V_i ^3d_ground表示地面坐标系下目标物体的底面顶点坐标，下标i表示对应的底面顶点，i＝1，2，3，4。

步骤S509、根据目标物体的高度和底面中心点的坐标，确定目标物体的中心点坐标。

其中，三维参数还包括：目标物体的长度、高度和宽度。

本实施例中，在确定地面坐标系下目标物体的底面中心点的坐标之后，可以将目标物体的底面中心点和长度、宽度、高度等尺寸信息融合，恢复目标物体的三维包围框的中心点，也即确定目标物体的中心点坐标。

示例性地，可以根据目标物体的高度和底面中心点的坐标，采用如下公式八，确定目标物体的中心点坐标：

其中，

表示地面坐标系下目标物体的中心点坐标，

表示地面坐标系下目标物体的底面中心点的坐标，h表示目标物体的高度。

步骤S510、根据目标物体的中心点坐标，以及目标物体的朝向角、长度、宽度和高度，确定目标物体的三维包围框。

本实施例中，在确定目标物体的中心点坐标之后，结合目标物体的长度、宽度和高度，可以唯一确定目标物体的三维包围框。

本申请实施例通过基于两种不同的遮挡类别，分别预测目标物体属于不同遮挡类别的底面顶点的预测坐标，以及目标物体属于两种不同遮挡类别的概率，基于属于不同遮挡类别的概率差值，并在预测结果置信度较低时，依据两种遮挡类别下的底面顶点的预测坐标估计的朝向角与三维检测模型输出的朝向角的一致性，进一步确定目标物体所属的遮挡类别，够准确地目标物体对应的遮挡类别，并将对应遮挡类别下的底面顶点的预测坐标作为目标物体的底面顶点坐标，提高了目标物体的底面顶点坐标的准确性，然后基于目标物体的底面顶点坐标确定目标物体的三维包围框，可以提高三维物体检测的鲁棒性和精准度。

图7是本申请第三实施例提供的三维物体检测的装置示意图。本申请实施例提供的三维物体检测的装置可以执行三维物体检测的方法实施例提供的处理流程。如图7所示，该三维物体检测的装置70包括：基础检测模块701，朝向角匹配模块702和三维包围框确定模块703。

具体地，基础检测模块701用于对包含目标物体的二维图像进行检测，确定目标物体的三维参数，三维参数至少包括朝向角和两种遮挡类别下目标物体的底面顶点预测坐标，两种遮挡类别包括底面顶点中一个顶点被遮挡，底面顶点中两个顶点被遮挡。

朝向角匹配模块702用于根据两种遮挡类别下目标物体的底面顶点预测坐标，确定与朝向角匹配的底面顶点预测坐标。

三维包围框确定模块703用于根据与朝向角匹配的底面顶点预测坐标，以及目标物体的三维参数，确定目标物体的三维包围框。

本申请实施例提供的装置可以具体用于执行上述第一实施例所提供的方法实施例，具体功能此处不再赘述。

在上述第三实施例的基础上，本申请第四实施例中，三维参数还包括目标物体属于每种遮挡类别的概率。

基础检测模块还用于根据两种遮挡类别下目标物体的底面顶点预测坐标，确定与朝向角匹配的底面顶点预测坐标之前，确定目标物体属于两种遮挡类别的概率之间的概率差值。

朝向角匹配模块还用于若概率差值大于或等于预设阈值，则将概率大的遮挡类别下目标物体的底面顶点预测坐标，作为与朝向角匹配的底面顶点预测坐标。

一种可选的实施方式中，基础检测模块还用于：

将二维图像输入三维检测模型，通过三维检测模型对包含目标物体的二维图像进行检测，确定目标物体的三维参数。

一种可选的实施方式中，朝向角匹配模块还用于：

若概率差值小于预设阈值，则根据两种遮挡类别下目标物体的底面顶点预测坐标，确定与朝向角匹配的底面顶点预测坐标。

一种可选的实施方式中，朝向角匹配模块还用于：

根据两种遮挡类别下目标物体的底面顶点预测坐标，计算两种遮挡类别下目标物体的朝向角预测值；计算两种遮挡类别下目标物体的朝向角预测值与朝向角偏差角度；将偏差角度小的遮挡类别下目标物体的底面顶点预测坐标，作为与朝向角匹配的底面顶点预测坐标。

一种可选的实施方式中，朝向角匹配模块还用于：

一种可选的实施方式中，三维参数还包括：目标物体的长度、高度和宽度。

一种可选的实施方式中，三维包围框确定模块还用于：

根据与朝向角匹配的底面顶点预测坐标，确定目标物体的底面中心点的坐标；根据目标物体的高度和底面中心点的坐标，确定目标物体的中心点坐标；根据目标物体的中心点坐标，以及目标物体的朝向角、长度、宽度和高度，确定目标物体的三维包围框。

一种可选的实施方式中，三维包围框确定模块还用于：

本申请实施例提供的装置可以具体用于执行上述第二实施例所提供的方法实施例，具体功能此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

根据本申请的实施例，本申请还提供了一种计算机程序产品，程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图8示出了可以用来实施本申请的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如三维物体检测的方法。例如，在一些实施例中，三维物体检测的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的三维物体检测的方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行三维物体检测的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种三维物体检测的方法，包括：

2.根据权利要求1所述的方法，其中，所述对包含目标物体的二维图像进行检测，确定所述目标物体的三维参数，包括：

将所述二维图像输入三维检测模型，通过所述三维检测模型对包含目标物体的二维图像进行检测，确定所述目标物体的三维参数。

3.根据权利要求1所述的方法，其中，所述三维参数还包括所述目标物体属于每种所述遮挡类别的概率；

所述根据所述两种遮挡类别下所述目标物体的底面顶点预测坐标，确定与所述朝向角匹配的底面顶点预测坐标之前，还包括：

确定所述目标物体属于所述两种遮挡类别的概率之间的概率差值；

若所述概率差值大于或等于预设阈值，则将概率大的遮挡类别下所述目标物体的底面顶点预测坐标，作为与所述朝向角匹配的底面顶点预测坐标。

4.根据权利要求3所述的方法，其中，所述根据所述两种遮挡类别下所述目标物体的底面顶点预测坐标，确定与所述朝向角匹配的底面顶点预测坐标，包括：

若所述概率差值小于所述预设阈值，则根据所述两种遮挡类别下所述目标物体的底面顶点预测坐标，确定与所述朝向角匹配的底面顶点预测坐标。

5.根据权利要求1-4中任一项所述的方法，其中，所述根据所述两种遮挡类别下所述目标物体的底面顶点预测坐标，确定与所述朝向角匹配的底面顶点预测坐标，包括：

根据两种遮挡类别下所述目标物体的底面顶点预测坐标，计算所述两种遮挡类别下所述目标物体的朝向角预测值；

计算所述两种遮挡类别下所述目标物体的朝向角预测值与所述朝向角偏差角度；

将偏差角度小的遮挡类别下所述目标物体的底面顶点预测坐标，作为与所述朝向角匹配的底面顶点预测坐标。

6.根据权利要求5所述的方法，其中，所述根据两种遮挡类别下所述目标物体的底面顶点预测坐标，计算所述两种遮挡类别下所述目标物体的朝向角预测值，包括：

对于任意一种所述遮挡类别，根据该遮挡类别下所述目标物体的底面顶点预测坐标、以及相机参数，将所述底面顶点预测坐标转换至相机坐标系下，并添加深度信息，得到在相机坐标系下所述目标物体的底面顶点的预测三维坐标；

根据所述目标物体的底面顶点的预测三维坐标，确定所述底面顶点构成的四边形；

计算所述四边形中两个相邻的边分别对应的朝向角预测值；

确定所述两个相邻的边分别对应的朝向角预测值中，与所述朝向角偏差更小的朝向角预测值；

将所述与所述朝向角偏差更小的朝向角预测值，作为该遮挡类别下所述目标物体的朝向角预测值。

7.根据权利要求1-4中任一项所述的方法，其中，所述三维参数还包括：所述目标物体的长度、高度和宽度。

8.根据权利要求7所述的方法，其中，所述根据所述与所述朝向角匹配的底面顶点预测坐标，以及所述目标物体的三维参数，确定所述目标物体的三维包围框，包括：

根据所述与所述朝向角匹配的底面顶点预测坐标，确定所述目标物体的底面中心点的坐标；

根据所述目标物体的高度和底面中心点的坐标，确定所述目标物体的中心点坐标；

根据所述目标物体的中心点坐标，以及所述目标物体的朝向角、长度、宽度和高度，确定所述目标物体的三维包围框。

9.根据权利要求8所述的方法，其中，所述根据所述与所述朝向角匹配的底面顶点预测坐标，确定所述目标物体的底面中心点的坐标，包括：

根据地面方程、相机参数，将所述与所述朝向角匹配的底面顶点预测坐标转换到地面坐标系，得到地面坐标系下所述目标物体的底面顶点的三维坐标；

根据地面坐标系下所述目标物体的底面顶点的三维坐标，确定所述目标物体的底面中心点的坐标。

10.根据权利要求9所述的方法，其中，所述根据地面方程、相机参数，将所述与所述朝向角匹配的底面顶点预测坐标转换到地面坐标系，得到地面坐标系下所述目标物体的底面顶点的三维坐标，包括：

根据所述与所述朝向角匹配的底面顶点预测坐标、以及相机参数，将所述与所述朝向角匹配的底面顶点预测坐标转换至相机坐标系下，并添加深度信息，得到相机坐标系下所述目标物体的底面顶点的三维坐标；

根据地面方程，确定相机坐标系到地面坐标系的变换矩阵；

根据所述相机坐标系下所述目标物体的底面顶点的三维坐标，以及所述变换矩阵，确定地面坐标系下所述目标物体的底面顶点的三维坐标。

11.一种三维物体检测的装置，包括：

12.根据权利要求11所述的装置，其中，所述基础检测模块还用于：

13.根据权利要求11所述的装置，其中，所述三维参数还包括所述目标物体属于每种所述遮挡类别的概率；

所述基础检测模块还用于根据所述两种遮挡类别下所述目标物体的底面顶点预测坐标，确定与所述朝向角匹配的底面顶点预测坐标之前，确定所述目标物体属于所述两种遮挡类别的概率之间的概率差值；

所述朝向角匹配模块还用于若所述概率差值大于或等于预设阈值，则将概率大的遮挡类别下所述目标物体的底面顶点预测坐标，作为与所述朝向角匹配的底面顶点预测坐标。

14.根据权利要求13所述的装置，其中，所述朝向角匹配模块还用于：

15.根据权利要求11-14中任一项所述的装置，其中，所述朝向角匹配模块还用于：

16.根据权利要求15所述的装置，其中，所述朝向角匹配模块还用于：

计算所述四边形中两个相邻的边分别对应的朝向角预测值；

17.根据权利要求11-14中任一项所述的装置，其中，所述三维参数还包括：所述目标物体的长度、高度和宽度。

18.根据权利要求17所述的装置，其中，所述三维包围框确定模块还用于：

19.根据权利要求18所述的装置，其中，所述三维包围框确定模块还用于：

20.根据权利要求19所述的装置，其中，所述三维包围框确定模块还用于：

根据地面方程，确定相机坐标系到地面坐标系的变换矩阵；

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。