CN111612753B

CN111612753B - 三维物体检测方法、装置、电子设备和可读存储介质

Info

Publication number: CN111612753B
Application number: CN202010412462.XA
Authority: CN
Inventors: 叶晓青; 谭啸; 孙昊; 章宏武
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2021-08-06
Anticipated expiration: 2040-05-15
Also published as: KR102605535B1; US11587338B2; JP7189270B2; EP3859661A2; CN111612753A; JP2021119528A; KR20210040849A; US20210209341A1; EP3859661A3

Abstract

本申请公开了三维物体检测方法、装置、电子设备和可读存储介质，涉及计算机视觉技术领域。具体实现方案为：根据单目相机采集的目标物体图像，确定目标物体的二维图像参数和初始三维图像参数；根据三维参数扰动范围和所述目标物体的初始三维图像参数，确定所述目标物体的候选三维图像参数；根据所述二维图像参数，从所述目标物体的候选三维图像参数中选择目标物体的目标三维图像参数，并根据所述目标三维图像参数确定所述目标物体的三维检测结果。本申请技术解决了三维物体检测过程中成本高、效率低且精度低等问题，实现了使用单目相机的高效率且高精准度的三维物体检测，降低了三维物体检测的成本。

Description

三维物体检测方法、装置、电子设备和可读存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及计算机视觉技术领域，具体涉及一种三维物体检测方法、装置、电子设备和可读存储介质。

背景技术

随着计算机视觉技术的快速发展，三维物体检测广泛应用于工作生活各个领域。例如随着城市规模的发展,车辆的需求与日俱增。三维车辆检测技术是车辆监控的基础，其在智能交通、智能城市等领域具有重要意义。

目标三维检测技术主要依赖于双目相机、激光雷达，具有复杂度高检测效率低，成本高且检测精度低等缺陷。

发明内容

提供了一种用于三维物体检测方法、装置、电子设备和可读存储介质。

根据第一方面，提供了一种三维物体检测方法，包括：

根据单目相机采集的目标物体图像，确定目标物体的二维图像参数和初始三维图像参数；

根据三维图像参数扰动范围和所述目标物体的初始三维图像参数，确定所述目标物体的候选三维图像参数；

根据所述二维图像参数，从所述目标物体的候选三维图像参数中选择目标物体的目标三维图像参数，并根据所述目标三维图像参数确定所述目标物体的三维检测结果。

根据第二方面，提供了一种三维物体检测装置，包括：

初始三维参数模块，用于根据单目相机采集的目标物体图像，确定目标物体的二维图像参数和初始三维图像参数；

候选三维参数模块，用于根据三维图像参数扰动范围和所述目标物体的初始三维图像参数，确定所述目标物体的候选三维图像参数；

三维优化模块，用于根据所述二维图像参数，从所述目标物体的候选三维图像参数中选择目标物体的目标三维图像参数，并根据所述目标三维图像参数确定所述目标物体的三维检测结果。

根据第三方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本申请实施例中任一项所述的三维物体检测方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如本申请实施例中任一项所述的三维物体检测方法。

根据本申请的技术解决了三维物体检测过程中成本高、效率低且精度低等问题，实现了使用单目相机的高效率且高精准度的三维物体检测，降低了三维物体检测的成本。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例提供的三维物体检测方法的流程示意图；

图2是根据本申请实施例提供的物体检测框的示意图；

图3是根据本申请实施例提供的三维物体检测方法的流程示意图；

图4是根据本申请实施例提供的三维物体检测方法的流程示意图；

图5是根据本申请实施例提供的三维物体检测方法的流程示意图；

图6是根据本申请实施例提供的三维物体检测装置的结构示意图；

图7是用来实现本申请实施例的三维物体检测方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请实施例提供的三维物体检测方法的流程示意图。本实施例可适用于确定对单目相机采集的物体图像中三维检测框的顶点进行优化的情况。本实施例公开的三维物体检测方法可以由电子设备执行，具体可以由三维物体检测装置来执行，该装置可以由软件和/或硬件的方式实现，配置于电子设备中。参见图1，本实施例提供的三维物体检测方法包括：

S110、根据单目相机采集的目标物体图像，确定目标物体的二维图像参数和初始三维图像参数。

其中，单目相机可以设置在需要进行三维物体检测的任意场景中，例如单目相机可以设置在车辆监控场景中，也可以作为感知传感器设置在自动驾驶车辆中。其中，目标物体是指待检测对象，可以为车辆或环境物体等。目标物体图像通过目标相机采集得到，为目标物体的二维图像。

参考图2，通过对目标物体图像进行检测，提取目标物体图像中的二维检测框11和三维检测框12，三维检测框12上有8个顶点。目标物体的二维图像参数是指目标物体的二维检测框在图像坐标系中参数，初始三维图像参数是指目标物体的三维检测框在图像坐标系中初始参数。需要说明的是，由于初始三维图像参数根据单目相机采集的二维图像确定，因此初始三维图像参数存在误差，需要进一步优化以提高三维检测的精度。

可选的，S110包括：将目标物体图像作为图像检测模型的输入，得到目标物体的二维图像参数和三维检测参数。

在一种可选实施方式中，目标物体的三维检测参数包括目标物体的尺寸、目标物体的中心点在相机坐标系下的中心点相机位置和朝向角。通过对目标物体的三维检测参数进行处理，得到目标物体中三维检测框的顶点位置，作为所述初始三维图像参数。

在一种可选实施方式中，目标物体的三维检测参数包括目标物体中三维检测框顶点在图像坐标系中位置，即图像检测模型直接输出目标物体的二维图像参数和初始三维图像参数。

S120、根据三维图像参数扰动范围和所述目标物体的初始三维图像参数，确定所述目标物体的候选三维图像参数。

其中，三维图像参数扰动范围是指目标物体的三维检测框中顶点的扰动范围。参考图2，为了便于后续处理，可以是三维检测框12中近似落在二维检测框11上的底面顶点0，底面顶点1和底面顶点2的扰动范围。具体的，预先对单目相机采集的样本物体图像进行处理，得到所述三维图像参数扰动范围。其中，目标物体的候选三维图像参数是指目标物体三维检测框中候选顶点的图像参数，例如候选底面顶点的图像位置。

具体的，根据目标物体的三维检测框中初始顶点的图像位置，结合该顶点的扰动范围，可以得到多个候选顶点的图像位置。以初始底面顶点0的图像位置(u₀,v_o)，以及u₀的扰动范围为[-10,5]且v_o的扰动范围为[-4,6]为例，则在[u₀-10,u₀+5]和[v_o-4,v_o+6]对应的像素区域中可以得到对应的多个候选顶点，类似的也可以得到其他底面顶点的多个候选顶点。

S130、根据所述二维图像参数，从所述目标物体的候选三维图像参数中选择目标物体的目标三维图像参数，并根据所述目标三维图像参数确定所述目标物体的三维检测结果。

具体的，结合二维图像参数和候选三维图像参数，对初始三维图像参数进行优化，且根据优化结果从候选三维图像参数中选择目标三维图像参数，例如选择目标底面顶点的图像位置。并且，将目标三维图像参数转换到相机坐标系，得到目标物体在相机坐标系下的三维检测结果。通过结合二维图像参数和候选三维图像参数，对含有误差的初始三维图像参数进行优化，得到目标三维图像参数，该算法复杂度低，且仅依赖单目相机即可实现物体的三维检测，相比于依赖激光雷达或双目相机的三维物体检测技术，具有成本低且效率高等优点。

在一种可选实施方式中，S130包括：根据相机内参，将所述目标三维图像参数转换到相机坐标系，得到目标三维相机参数，作为所述目标物体的三维检测结果。

其中，相机内参可以为相机的焦距、焦点位置等。具体的，根据相机内参可以确定相机坐标系与图像坐标系之间变换关系，根据二者变换关系将目标三维图像参数转换为目标三维相机参数。

本申请实施例的技术方案，通过对单目相机采集的目标图像进行检测，得到目标物体的二维图像参数和含有误差的初始三维图像参数，结合三维图像参数扰动范围和初始三维图像参数确定候选三维图像参数，并且根据二维图像参数和候选三维图像参数，对初始三维图像参数进行优化得到目标三维图像参数，从而根据目标三维图像参数得到相机坐标系下的三维检测结果。该技术实现了对单目相机采集的物体图像中三维检测框的顶点进行优化，具有成本低，效率高且准确度高等优点。

图3是根据本申请实施例提供的一种三维物体检测方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图3，本实施例提供的三维物体检测方法包括：

S210、根据单目相机采集的目标物体图像，确定目标物体的二维图像参数和初始三维图像参数。

S220、根据三维图像参数扰动范围和所述目标物体的初始三维图像参数，确定所述目标物体的候选三维图像参数。

S230、基于物体底面顶点的直角约束，对所述目标物体的候选三维图像参数进行筛选。

由于S210通过网络估计确定的初始三维图像参数存在误差，通过底面投影定义优化目标，对目标物体三维检测框的底面顶点进行优化，三维检测框的顶面顶点随之优化。

由于存在误差，三维检测框的初始底面顶点之间夹角一般不是直角，即三维检测框底面在地面坐标系上的投影可能为平行四边形甚至不规则四边形。为了使三维检测框底面在地面坐标系上的投影为长方形，通过直角约束优化使目标底面顶点之间夹角为直角，即以地面坐标系作为中间桥梁进行直角约束优化。具体的，按照三维检测框的候选底面顶点得到多个候选底面顶点组，每个候选底面顶点组包括各底面顶点，例如每组均包括底面顶点0，底面顶点1和底面顶点2。保留满足直角约束的候选底面顶点组做后续处理，滤除不满足直角约束的候选底面顶点组。通过在地面坐标系中，选择满足直角约束条件的候选三维图像参数进一步处理，能够提高三维检测的准确度。

S240、基于物体底面顶点到二维检测框之间的距离约束，根据所述二维图像参数，从满足直角约束的候选三维图像参数中选择所述目标三维图像参数，并根据所述目标三维图像参数确定所述目标物体的三维检测结果。

本申请实施例还结合三维投影与二维检测框的约束关系进行优化。确定满足直角约束的候选底面顶点组中候选底面顶点到二维检测框之间的距离，根据距离约束选择目标三维图像参数。

在一种可选实施方式中，S240包括：根据每一满足直角约束的候选底面顶点组中候选底面顶点的图像位置与所述二维检测框的图像边界，确定该候选底面顶点组到所述二维检测框的距离；将距离最小的候选底面顶点组作为所述目标底面顶点组，并根据所述目标底面顶点组中目标底面顶点的图像位置确定所述目标三维图像参数。

具体的，可以构建如下距离约束损失函数：

Loss＝abs(C₀(u)-bb_2d.u_min)+abs(C₁(v)-bb_2d·v_max)+abs(C₂(u)-bb_2d.u_max)

其中，Loss为损失值，C₀(u)为候选底面顶点组中候选底面顶点0的u轴像素位置，C₁(v)为候选底面顶点组中候选底面顶点1的v轴像素位置，C₂(u)为候选底面顶点组中候选底面顶点2的u轴像素位置，bb_2d.u_min和bb_2d.u_max分别为二维检测框的u轴最小值和u轴最大值，bb_2d.v_max为二维检测框的v轴最大值。参考图2，Loss表示候选底面顶点组到二维检测框的距离。

具体的，根据Loss值得到目标底面顶点组后，三维检测框的顶面顶点随之优化，即得到三维检测框优化后的8个目标顶点的图像位置。将8个目标顶点的图像位置转换到相机坐标系，即得到目标物体的三维检测结果。

通过将与二维检测框之间距离最小的候选底面顶点组作为目标底面顶点组，使得目标底面顶点组与二维检测框最接近，从而进一步提高了目标物体的三维检测结果的准确度。

本申请实施例的技术方案，通过将地面坐标系作为中间桥梁，结合底面直角约束和距离约束构建优化目标，使得目标底面顶点组与二维检测框最接近，从而进一步提高了目标物体的三维检测结果的准确度。

图4是根据本申请实施例提供的一种三维物体检测方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图4，本实施例提供的三维物体检测方法包括：

S310、根据单目相机采集的目标物体图像，确定目标物体的二维图像参数和初始三维图像参数。

其中，目标物体的二维图像参数可以为目标物体的二维检测框的图像参数；目标物体的初始三维图像参数可以为目标物体的三维检测框中初始顶点的图像位置，例如可以是三维检测框中三个初始底面顶点的图像位置。

S320、根据三维图像参数扰动范围和所述目标物体的初始三维图像参数，确定所述目标物体的候选三维图像参数。

其中，候选三维图像参数为三维检测框中各候选底面顶点的图像位置。

S330、将所述候选底面顶点的图像位置转换到地面坐标系，得到所述候选底面顶点的地面位置。

可选的，S330包括：

A、根据相机内参，将所述候选底面顶点的图像位置转换到相机坐标系，得到所述候选底面顶点的相机位置。

具体的，可以通过如下确定候选底面顶点的深度：

point_cam＝K^-1*Img_p；

其中，(Corner_u，Corner_v)为候选底面顶点的图像位置，Img_p为中间变量，point_cam[x]、point_cam[y]和point_cam[z]为候选底面顶点的相机位置，K为相机内参，K^-1为K的逆，Depth为候选底面顶点的深度，a，b，c和d根据地面方程为：ax+by+cz+d＝0确定；

通过如下确定候选底面顶点的相机位置：

P_c＝Depth*K^-1*Img_p

其中，P_c为候选底面顶点的相机位置。

B、根据相机坐标系与地面坐标系之间的变换关系，将所述候选底面顶点的相机位置转换到地面坐标系，得到所述候选底面顶点的地面位置。

可选的，根据地面方程和相机坐标系下x轴上任一点位置，确定所述相机坐标系与地面坐标系之间的变换关系。

具体的，设地面方程为：ax+by+cz+d＝0，地面法向量为

则地面坐标系的z轴法向量可以表示为

其中Norm表示对向量的归一化。相应的将相机坐标系下x轴上某一点P_x(1，0，0)转换到地面坐标系的方法为：

并对

做归一化。最后地面坐标系的y轴向量可以通过x，y，z轴向量相互垂直的特性得到，

最终从相机坐标系转换到地面坐标系的变换方程为

通过已知地面法向量，能够确定相机坐标系与地面坐标系的变换关系，为将地面坐标系作为中间桥梁奠定基础。

S340、根据所述候选底面顶点的地面位置，选择满足物体底面顶点的直角约束的候选底面顶点组。

其中，候选底面顶点组包括至少三个候选底面顶点，例如针对三个底面顶点，分别确定每一底面顶点的候选位置得到候选底面顶点组。

可选的，S340包括：根据所述候选底面顶点的地面位置，确定所述候选底面顶点组中的底面顶点夹角；若所述候选底面顶点组中的底面顶点夹角与直角之间差值小于角度阈值，则确定所述候选底面顶点组满足物体底面顶点的直角约束。其中，阈值一般可以在[0，5°]之间，即满足直角约束的候选底面顶点组中底面顶点夹角在[85°，95°]之间。

可选的，所述方法还包括：根据所述初始底面顶点的图像位置，确定所述初始底面顶点的深度；根据所述初始底面顶点的深度，确定所述角度阈值。

根据初始底面顶点的图像位置结合相机内参和地面方程，能够确定初始底面顶点的深度。由于不同初始底面顶点的深度相近，可以将各初始底面顶点的深度均值作为目标物体的深度。考虑到视觉识别近远小的特性，深度越小，阈值越小即阈值越严格，进一步可以提高三维识别精度。

S350、基于物体底面顶点到二维检测框之间的距离约束，根据所述二维图像参数，从满足直角约束的候选三维图像参数中选择所述目标三维图像参数，并根据所述目标三维图像参数确定所述目标物体的三维检测结果。

具体的，针对每一满足直角约束的候选底面顶点组，根据距离约束损失函数确定该候选底面顶点组的距离约束损失值，将距离约束损失值最小的候选底面顶点组作为目标底面顶点组，得到目标三维图像参数。

本申请实施例的技术方案，在结合底面直角约束和距离约束进行优化过程中，充分考虑视觉特性，进一步提高了目标物体的三维检测结果的准确度。

图5是根据本申请实施例提供的一种三维物体检测方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图5，本实施例提供的三维物体检测方法包括：

S410、根据单目相机采集的样本物体图像，确定样本物体的初始三维图像参数。

其中，样本物体图像为通过单目相机采集的二维图像，样本物体图像与目标物体图像中的物体种类一致，例如都是车辆。其中，样本物体的初始三维图像参数可以为样本物体的三维检测框中初始顶点的图像位置，与目标物体的初始三维图像参数类似，样本物体的初始三维图像参数也含有误差。

S420、根据所述样本物体的初始三维图像参数和标注三维图像参数，确定所述三维图像参数扰动范围。

其中，标注三维图像参数为样本物体的真实三维图像参数，即为样本物体的三维检测框中真实顶点的图像位置。针对样本物体的三维检测框中每一顶点，确定对应的初始顶点的图像位置与真实顶点的图像位置之间的差值，并通过统计可以得到每一顶点的图像位置误差范围，即作为三维图像参数扰动范围。通过统计准确地确定三维图像参数扰动范围，便于后续控制三维图像参数的扰动，从而提高三维检测效率。

S430、根据单目相机采集的目标物体图像，确定目标物体的二维图像参数和初始三维图像参数。

其中，目标物体的二维图像参数为目标物体的二维检测框的图像参数，初始三维图像参数为目标物体的三维检测框中顶点的图像位置。

S440、根据三维图像参数扰动范围和所述目标物体的初始三维图像参数，确定所述目标物体的候选三维图像参数。

具体的，具体的，根据目标物体的三维检测框中初始顶点的图像位置，结合该顶点的扰动范围，可以得到多个候选顶点的图像位置，即得到目标物体的候选三维图像参数。

在一种可选实施方式中，S440包括：确定目标物体的扰动步长；根据所述目标物体的初始三维图像参数、所述扰动步长和所述三维图像参数扰动范围，确定所述目标物体的候选三维图像参数。

具体的，根据目标物体的扰动步长和三维图像参数扰动范围，确定多个扰动值，根据目标物体的初始三维图像参数和多个扰动值得到目标物体的多个候选三维图像参数。

在一种可选实施方式中，所述方法还包括：根据所述初始底面顶点的图像位置，确定所述初始底面顶点的深度；根据所述初始底面顶点的深度，确定所述目标物体的扰动步长。其中，目标物体的深度越近，扰动步长越大，通过充分考虑视觉特性，能够合理确定扰动步长，进一步提高了三维检测效率。

S450、根据所述二维图像参数，从所述目标物体的候选三维图像参数中选择目标物体的目标三维图像参数，并根据所述目标三维图像参数确定所述目标物体的三维检测结果。

本申请实施例的技术方案，通过合理确定三维图像参数扰动范围，以及根据目标物体的深度确定目标物体的扰动步长，结合目标物体的扰动步长，初始三维图像参数和三维图像参数扰动范围，确定候选三维图像参数，能够提高候选三维图像参数的准确度，进而提高三维检测的效率和精度。

可选的，S420包括：将单目相机采集的目标物体图像作为图像检测模型的输入，得到所述目标物体的二维图像参数和三维检测参数；其中，所述三维检测参数包括所述目标物体的尺寸、所述目标物体的中心点在相机坐标系下的中心点相机位置和朝向角；根据所述三维检测参数，确定所述目标物体的三维检测框在图像坐标系下的顶点位置，作为所述初始三维图像参数。通过精准确定三维检测框在图像坐标系下的顶点位置，从而提高目标物体的三维检测结果的准确度。

可选的，根据所述三维检测参数，确定所述目标物体的三维检测框在图像坐标系下的顶点位置，包括：根据所述中心点相机位置，以及相机坐标系与地面坐标系之间的变换关系，确定在地面坐标系下的中心点地面位置；根据所述目标物体的尺寸，确定所述目标物体的顶点与所述中心点之间相对位置；根据所述目标物体的旋转角，构建旋转矩阵；根据所述中心点地面位置，所述相对位置和所述旋转矩阵，确定所述目标物体的三维检测框在图像坐标系下的顶点位置。

具体的，将中心点图像位置

通过T_c2g转换到地面坐标系，得到中心点地面位置

根据朝向角ry确定旋转矩阵(罗德里格斯公式)

确定地面坐标系下三维检测框中顶点与中心点

的相对位置：

在地面坐标系下，根据旋转矩阵R，相对位置

和

求三维检测框中顶点在地面坐标系下的位置P_g：

将三维检测框中顶点在地面坐标系下的位置P_g转换到相机坐标系下，得到P_c：

其中，T_c2g为从相机坐标系转换到地面坐标系的变换方程，

为T_c2g的逆。

根据三维检测框中顶点在相机坐标系下的位置P_c和相机内参，得到三维检测框中顶点在图像坐标系的位置。

需要说明的是，样本物体的三维检测参数方式的确定方式，与目标物体的三维检测参数的确定方式相同，不再赘述。

图6是根据本申请实施例提供的三维物体检测装置的结构示意图。参见图6，本申请实施例公开了三维物体检测装置500，该装置500包括：

初始三维参数模块501，用于根据单目相机采集的目标物体图像，确定目标物体的二维图像参数和初始三维图像参数；

候选三维参数模块502，用于根据三维图像参数扰动范围和所述目标物体的初始三维图像参数，确定所述目标物体的候选三维图像参数；

三维优化模块503，用于根据所述二维图像参数，从所述目标物体的候选三维图像参数中选择目标物体的目标三维图像参数，并根据所述目标三维图像参数确定所述目标物体的三维检测结果。

可选的，所述三维优化模块503包括：

直角约束筛选单元，用于基于物体底面顶点的直角约束，对所述目标物体的候选三维图像参数进行筛选；

距离约束筛选单元，用于基于物体底面顶点到二维检测框之间的距离约束，根据所述二维图像参数，从满足直角约束的候选三维图像参数中选择所述目标三维图像参数。

可选的，所述目标物体的候选三维图像参数为所述三维检测框中候选底面顶点的图像位置；

相应地，所述直角约束筛选单元包括：

地面位置子单元，用于将所述候选底面顶点的图像位置转换到地面坐标系，得到所述候选底面顶点的地面位置；

直角约束筛选子单元，用于根据所述候选底面顶点的地面位置，选择满足物体底面顶点的直角约束的候选底面顶点组；其中，所述候选底面顶点组包括至少三个候选底面顶点。

可选的，地面位置子单元具体用于：

根据相机内参，将所述候选底面顶点的图像位置转换到相机坐标系，得到所述候选底面顶点的相机位置；

根据相机坐标系与地面坐标系之间的变换关系，将所述候选底面顶点的相机位置转换到地面坐标系，得到所述候选底面顶点的地面位置。

可选的，直角约束筛选子单元具体用于：

根据所述候选底面顶点的地面位置，确定所述候选底面顶点组中的底面顶点夹角；

若所述候选底面顶点组中的底面顶点夹角与直角之间差值小于角度阈值，则确定所述候选底面顶点组满足物体底面顶点的直角约束。

可选的，所述初始三维图像参数为所述目标物体的三维检测框中初始底面顶点的图像位置；

相应地，所述直角约束筛选子单元还用于：

根据所述初始底面顶点的图像位置，确定所述初始底面顶点的深度；

根据所述初始底面顶点的深度，确定所述角度阈值。

可选的，所述目标物体的二维图像参数为所述目标物体的二维检测框的图像边界；所述目标物体的候选三维图像参数为所述三维检测框中候选底面顶点的图像位置；

相应地，所述距离约束筛选单元包括：

距离确定子单元，用于根据每一满足直角约束的候选底面顶点组中候选底面顶点的图像位置与所述二维检测框的图像边界，确定该候选底面顶点组到所述二维检测框的距离；

距离约束子单元，用于将距离最小的候选底面顶点组作为所述目标底面顶点组，并根据所述目标底面顶点组中目标底面顶点的图像位置确定所述目标三维图像参数。

可选的，所述装置还包括扰动范围模块，所述扰动范围模块具体包括：

样本初始参数单元，用于根据单目相机采集的样本物体图像，确定样本物体的初始三维图像参数；

扰动范围单元，用于根据所述样本物体的初始三维图像参数和标注三维图像参数，确定所述三维图像参数扰动范围。

可选的，候选三维参数模块502包括：

扰动步长单元，用于确定目标物体的扰动步长；

候选三维参数单元，用于根据所述目标物体的初始三维图像参数、所述扰动步长和所述三维图像参数扰动范围，确定所述目标物体的候选三维图像参数。

相应地，所述扰动步长单元具体用于：

根据所述初始底面顶点的深度，确定所述目标物体的扰动步长。

可选的，初始三维参数模块501包括：

参数检测单元，用于将单目相机采集的目标物体图像作为图像检测模型的输入，得到所述目标物体的二维图像参数和三维检测参数；其中，所述三维检测参数包括所述目标物体的尺寸、所述目标物体的中心点在相机坐标系下的中心点相机位置和朝向角；

参数确定单元，用于根据所述三维检测参数，确定所述目标物体的三维检测框在图像坐标系下的顶点位置，作为所述初始三维图像参数。

可选的，所述参数确定单元具体用于：

根据所述中心点相机位置，以及相机坐标系与地面坐标系之间的变换关系，确定在地面坐标系下的中心点地面位置；

根据所述目标物体的尺寸，确定所述目标物体的顶点与所述中心点之间相对位置；

根据所述目标物体的旋转角，构建旋转矩阵；

根据所述中心点地面位置，所述相对位置和所述旋转矩阵，确定所述目标物体的三维检测框在图像坐标系下的顶点位置。

可选的，所述装置还包括变化关系确定模块，用于根据地面方程和相机坐标系下x轴上任一点位置，确定所述相机坐标系与地面坐标系之间的变换关系。

可选的，所述三维优化模块503具体用于根据相机内参，将所述目标三维图像参数转换到相机坐标系，得到目标三维相机参数，作为所述目标物体的三维检测结果。

本申请实施例的技术方案，基于单目图像的三维物体检测，结合了二维检测框与三维检测框顶点的约束关系，以及地平面方程，对错误估计的三维检测框的初始顶点进行优化，提高了三维检测的精度和鲁棒性。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图7所示，是根据本申请实施例的三维物体检测的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的三维物体检测的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的三维物体检测的方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的三维物体检测的方法对应的程序指令/模块(例如，附图6所示的初始三维参数模块501、候选三维参数模块502和三维优化模块503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的三维物体检测的方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据三维物体检测的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至三维物体检测的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

三维物体检测的方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图7中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与三维物体检测的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，基于单目图像的三维物体检测，结合了二维检测框与三维检测框顶点的约束关系，以及地平面方程，对错误估计的三维检测框的初始顶点进行优化，提高了三维检测的精度和鲁棒性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种三维物体检测方法，其特征在于，包括：

根据单目相机采集的目标物体图像，确定目标物体的二维图像参数和初始三维图像参数；其中，所述初始三维图像参数为所述目标物体的三维检测框中初始底面顶点的图像位置；

根据所述初始三维图像参数和三维图像参数扰动范围，确定所述目标物体的候选三维图像参数的像素区域；

将所述像素区域中的至少一个候选底面顶点的图像位置确定为所述目标物体的候选三维图像参数；其中，三维图像参数扰动范围是指所述目标物体的三维检测框中顶点的扰动范围；

2.根据权利要求1所述的方法，其特征在于，根据所述二维图像参数，从所述目标物体的候选三维图像参数中选择目标物体的目标三维图像参数，包括：

基于物体底面顶点的直角约束，对所述目标物体的候选三维图像参数进行筛选；

基于物体底面顶点到二维检测框之间的距离约束，根据所述二维图像参数，从满足直角约束的候选三维图像参数中选择所述目标三维图像参数。

3.根据权利要求2所述的方法，其特征在于，所述目标物体的候选三维图像参数为所述三维检测框中候选底面顶点的图像位置；

相应地，基于物体底面顶点的直角约束，对所述目标物体的候选三维图像参数进行筛选，包括：

将所述候选底面顶点的图像位置转换到地面坐标系，得到所述候选底面顶点的地面位置；

根据所述候选底面顶点的地面位置，选择满足物体底面顶点的直角约束的候选底面顶点组；其中，所述候选底面顶点组包括至少三个候选底面顶点。

4.根据权利要求3所述的方法，其特征在于，将所述候选底面顶点的图像位置转换到地面坐标系，得到所述候选底面顶点的地面位置，包括：

5.根据权利要求3所述的方法，其特征在于，根据所述候选底面顶点的地面位置，选择满足物体底面顶点的直角约束的候选底面顶点组，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据所述初始底面顶点的深度，确定所述角度阈值。

7.根据权利要求2所述的方法，其特征在于，所述目标物体的二维图像参数为所述目标物体的二维检测框的图像边界；

相应地，基于物体底面顶点到二维检测框之间的距离约束，根据所述二维图像参数，从满足直角约束的候选三维图像参数中选择所述目标三维图像参数，包括：

根据每一满足直角约束的候选底面顶点组中候选底面顶点的图像位置与所述二维检测框的图像边界，确定该候选底面顶点组到所述二维检测框的距离；

将距离最小的候选底面顶点组作为目标底面顶点组，并根据所述目标底面顶点组中目标底面顶点的图像位置确定所述目标三维图像参数。

8.根据权利要求1所述的方法，其特征在于，根据三维图像参数扰动范围和所述目标物体的初始三维图像参数，确定所述目标物体的候选三维图像参数之前，还包括：

根据单目相机采集的样本物体图像，确定样本物体的初始三维图像参数；

根据所述样本物体的初始三维图像参数和标注三维图像参数，确定所述三维图像参数扰动范围。

9.根据权利要求1所述的方法，其特征在于，根据三维图像参数扰动范围和所述目标物体的初始三维图像参数，确定所述目标物体的候选三维图像参数，包括：

确定目标物体的扰动步长；

根据所述目标物体的初始三维图像参数、所述扰动步长和所述三维图像参数扰动范围，确定所述目标物体的候选三维图像参数。

10.根据权利要求9所述的方法，其特征在于，确定目标物体的扰动步长，包括：

11.根据权利要求1所述的方法，其特征在于，根据单目相机采集的目标物体图像，确定目标物体的二维图像参数和初始三维图像参数，包括：

将单目相机采集的目标物体图像作为图像检测模型的输入，得到所述目标物体的二维图像参数和三维检测参数；其中，所述三维检测参数包括所述目标物体的尺寸、所述目标物体的中心点在相机坐标系下的中心点相机位置和朝向角；

根据所述三维检测参数，确定所述目标物体的三维检测框在图像坐标系下的顶点位置，作为所述初始三维图像参数。

12.根据权利要求11所述的方法，其特征在于，根据所述三维检测参数，确定所述目标物体的三维检测框在图像坐标系下的顶点位置，包括：

根据所述目标物体的旋转角，构建旋转矩阵；

13.根据权利要求4或12所述的方法，其特征在于，所述方法还包括：

根据地面方程和相机坐标系下x轴上任一点位置，确定所述相机坐标系与地面坐标系之间的变换关系。

14.根据权利要求1所述的方法，其特征在于，根据所述目标三维图像参数确定所述目标物体的三维检测结果，包括：

根据相机内参，将所述目标三维图像参数转换到相机坐标系，得到目标三维相机参数，作为所述目标物体的三维检测结果。

15.一种三维物体检测装置，其特征在于，包括：

初始三维参数模块，用于根据单目相机采集的目标物体图像，确定目标物体的二维图像参数和初始三维图像参数；其中，所述初始三维图像参数为所述目标物体的三维检测框中初始底面顶点的图像位置；

候选三维参数模块，用于根据所述初始三维图像参数和三维图像参数扰动范围，确定所述目标物体的候选三维图像参数的像素区域；

16.根据权利要求15所述的装置，其特征在于，所述三维优化模块包括：

17.根据权利要求16所述的装置，其特征在于，所述目标物体的候选三维图像参数为所述三维检测框中候选底面顶点的图像位置；

相应地，所述直角约束筛选单元包括：

18.根据权利要求16所述的装置，其特征在于，所述目标物体的二维图像参数为所述目标物体的二维检测框的图像边界；所述目标物体的候选三维图像参数为所述三维检测框中候选底面顶点的图像位置；

相应地，所述距离约束筛选单元包括：

距离约束子单元，用于将距离最小的候选底面顶点组作为目标底面顶点组，并根据所述目标底面顶点组中目标底面顶点的图像位置确定所述目标三维图像参数。

19.根据权利要求15所述的装置，其特征在于，所述装置还包括扰动范围模块，所述扰动范围模块具体包括：

20.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。

21.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-14中任一项所述的方法。