CN115511944A

CN115511944A - 基于单相机的尺寸估计方法、装置、设备及存储介质

Info

Publication number: CN115511944A
Application number: CN202211159518.0A
Authority: CN
Inventors: 陈伟达; 秦政睿
Original assignee: Shanghai Xiaoma Zhixing Intelligent Technology Development Co ltd
Current assignee: Shanghai Xiaoma Zhixing Intelligent Technology Development Co ltd
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2022-12-23

Abstract

本申请涉及一种基于单相机的尺寸估计方法、装置、设备及存储介质。其中，尺寸估计方法包括：对包括障碍物的伪三维包围框和二维包围框的图像进行检测，以得到伪三维包围框的底边的两个端点，并根据两个端点确定基点；基于基点在世界坐标系中构建第一射线和第二射线；将第一射线和第二射线投影到图像上，使得第一射线和第二射线的投影分别与二维包围框的顶边和侧边交于第一交点和第二交点；根据两个端点、第一交点和第二交点，确定出障碍物的尺寸信息。通过采用本申请所提供的尺寸估计方法能够改善现有技术中尺寸估计效率不高的问题。

Description

基于单相机的尺寸估计方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种基于单相机的尺寸估计方法、装置、设备及存储介质。

背景技术

障碍物感知是自动驾驶技术中一个很重要的技术分支，自动驾驶汽车需要对周围环境中的汽车等障碍物进行识别和检测，以实现更加智能和安全的自动驾驶过程。在对障碍物进行检测时，如果能检测出障碍物的尺寸等信息，能帮助自动驾驶系统做出更加合理有效的路径规划。

目前，为了估计出障碍物的尺寸，现有技术中采用了雷达感知技术来对障碍物的包围框进行标注，并基于该包围框确定障碍物的尺寸等信息。具体的，先通过激光雷达获取障碍物的点云数据，然后利用点云数据构建点云立方体框。由于点云立方体框即障碍物的真实的三维包围框，因此可以通过测量该点云立方体框来得到障碍物的长度、宽度以及高度等信息。

但是雷达感知的方式不仅成本高，而且由于点云数据的数据量比较大，计算复杂，因此现有技术还存在着尺寸估计效率不高的问题。

发明内容

基于此，本申请提供一种基于单相机的尺寸估计方法、装置、设备及存储介质，改善现有技术中尺寸估计效率不高的问题。

第一方面，本申请提供了一种基于单相机的尺寸估计方法，该尺寸估计方法包括：对包括障碍物的伪三维包围框和二维包围框的图像进行检测，以得到伪三维包围框的底边的两个端点，并根据两个端点确定基点；基于基点在世界坐标系中构建第一射线和第二射线，其中，第一射线和第二射线分别用于指向障碍物的高和宽的方向；将第一射线和第二射线投影到图像上，使得第一射线和第二射线的投影分别与二维包围框的顶边和侧边交于第一交点和第二交点；根据两个端点、第一交点和第二交点，确定出障碍物的尺寸信息，其中，尺寸信息包括长度、宽度、高度和中心点中的至少一个。

结合第一方面，在第一方面的第一种可实施方式中，上述对包括障碍物的伪三维包围框和二维包围框的图像进行检测，以得到伪三维包围框的底边的两个端点，并根据两个端点确定基点的步骤，包括：对图像上的三维包围框的侧面底边、正面底边或背面底边进行检测；在检测到伪三维包围框的侧面底边的情况下，获取伪三维包围框的侧面底边的两个端点，并将两个端点中的一个作为基点；在未检测到伪三维包围框的侧面底边的情况下，获取伪三维包围框的正面底边或背面底边的两个端点，并将两个端点之间的中点作为基点。

结合第一方面的第一种可实施方式，在第一方面的第二种可实施方式中，上述基于基点在世界坐标系中构建第一射线和第二射线的步骤，包括：在检测到伪三维包围框的侧面底边的情况下，连接两个端点以确定障碍物的航向；在未检测到伪三维包围框的侧面底边的情况下，将相机的视线方向或者障碍物所在车道的车道线的方向作为障碍物的航向；根据基点在图像上的像素坐标得到基点的世界坐标；以基点的世界坐标为起点，构建第一射线和第二射线，其中，第一射线垂直于障碍物所在的地面且指向障碍物的顶部，第二射线垂直于航向和第一射向且指向障碍物的侧面。

结合第一方面的第一种可实施方式，在第一方面的第三种可实施方式中，上述根据两个端点、第一交点和第二交点，确定出障碍物的尺寸信息的步骤，包括：在检测到伪三维包围框的侧面底边的情况下，根据两个端点、第一交点和第二交点的像素坐标，分别转换得到两个端点、第一交点和第二交点的世界坐标，并根据两个端点、第一交点和第二交点的世界坐标确定障碍物的长度、宽度、高度和/或中心点；在未检测到伪三维包围框的侧面底边的情况下，根据两个端点的中点、第一交点和第二交点的像素坐标，分别转换得到两个端点的中点、第一交点和第二交点的世界坐标，并根据两个端点的中点、第一交点和第二交点的世界坐标确定障碍物的宽度和/或高度。

结合第一方面，在第一方面的第四种可实施方式中，上述根据两个端点、第一交点和第二交点，确定出障碍物的尺寸信息的步骤包括：根据基点的像素坐标、基点的世界坐标、第一交点的像素坐标、第一射线的单位向量确定障碍物的高度，其中，根据基点的像素坐标、基点的世界坐标、第一交点的像素坐标、第一射线的单位向量确定障碍物的高度的步骤的数学表达为：

或，

其中，L为障碍物的高度，(r₁,c₁)为基点的像素坐标，(x₁,y₁,z₁)为基点的世界坐标，(r₃,c₃)为第一交点的像素坐标，(u_x,u_y,u_z)为第一射线的单位向量，f_x和f_y为相机内参焦距参数。

结合第一方面的第一种可实施方式，在第一方面的第五种可实施方式中，在检测到伪三维包围框的侧面底边的情况下，上述根据两个端点、第一交点和第二交点，确定出障碍物的尺寸信息的步骤之后，还包括：连接基点与另一个端点，得到用于表示障碍物的长的第一线段；连接基点与第一交点，得到用于表示障碍物的高的第二线段；连接基点与第二交点，得到用于表示障碍物的宽的第三线段；根据第一线段、第二线段、第三线段恢复出障碍物的三维包围框。

结合第一方面的第二种可实施方式，在第一方面的第六种可实施方式中，上述将车道线方向或相机的视线方向作为障碍物的航向的步骤，包括：检测障碍物与相机的距离；在距离小于或等于阈值的情况下，将障碍物所在车道的车道线的方向作为障碍物的航向；在距离大于阈值的情况下，将相机的视线方向作为障碍物的航向。

第二方面，本申请提供了一种尺寸估计装置，该尺寸估计装置包括：检测单元，用于对包括障碍物的伪三维包围框和二维包围框的图像进行检测，以得到伪三维包围框的底边的两个端点，并根据两个端点确定基点；构建单元，用于基于基点在世界坐标系中构建第一射线和第二射线，其中，第一射线和第二射线分别用于指向障碍物的高和宽的方向；投影单元，用于将第一射线和第二射线投影到图像上，使得第一射线和第二射线的投影分别与二维包围框的顶边和侧边交于第一交点和第二交点；确定单元，用于根据两个端点、第一交点和第二交点，确定出障碍物的尺寸信息，尺寸信息包括长度、宽度、高度和中心点中的至少一个。

结合第二方面，在第二方面的第一种可实施方式中，上述检测单元具体用于：对图像上的三维包围框的侧面底边、正面底边或背面底边进行检测；在检测到伪三维包围框的侧面底边的情况下，获取伪三维包围框的侧面底边的两个端点，并将两个端点中的一个作为基点；在未检测到伪三维包围框的侧面底边的情况下，获取伪三维包围框的正面底边或背面底边的两个端点，并将两个端点之间的中点作为基点。

结合第二方面的第一种可实施方式，在第二方面的第二种可实施方式中，上述构建单元具体用于：在检测到伪三维包围框的侧面底边的情况下，连接两个端点以确定障碍物的航向；在未检测到伪三维包围框的侧面底边的情况下，将相机的视线方向或者障碍物所在车道的车道线的方向作为障碍物的航向；根据基点在图像上的像素坐标得到基点的世界坐标；以基点的世界坐标为起点，构建第一射线和第二射线，其中，第一射线垂直于障碍物所在的地面且指向障碍物的顶部，第二射线垂直于航向和第一射向且指向障碍物的侧面。

结合第二方面的第一种可实施方式，在第二方面的第三种可实施方式中，上述确定单元具体用于：在检测到伪三维包围框的侧面底边的情况下，根据两个端点、第一交点和第二交点的像素坐标，分别转换得到两个端点、第一交点和第二交点的世界坐标，并根据两个端点、第一交点和第二交点的世界坐标确定障碍物的长度、宽度、高度和/或中心点；在未检测到伪三维包围框的侧面底边的情况下，根据两个端点的中点、第一交点和第二交点的像素坐标，分别转换得到两个端点的中点、第一交点和第二交点的世界坐标，并根据两个端点的中点、第一交点和第二交点的世界坐标确定障碍物的宽度和/或高度。

结合第二方面，在第二方面的第四种可实施方式中，上述确定单元，具体用于：根据基点的像素坐标、基点的世界坐标、第一交点的像素坐标、第一射线的单位向量确定障碍物的高度，其中，根据基点的像素坐标、基点的世界坐标、第一交点的像素坐标、第一射线的单位向量确定障碍物的高度的步骤的数学表达为：

或，

结合第二方面的第一种可实施方式，在第二方面的第五种可实施方式中，上述尺寸估计装置还包括恢复单元，该恢复单元用于：连接基点与另一个端点，得到用于表示障碍物的长的第一线段；连接基点与第一交点，得到用于表示障碍物的高的第二线段；连接基点与第二交点，得到用于表示障碍物的宽的第三线段；根据第一线段、第二线段、第三线段恢复出障碍物的三维包围框。

结合第二方面的第二种可实施方式，在第二方面的第六种可实施方式中，上述构建单元还用于：检测障碍物与相机的距离；在距离小于或等于阈值的情况下，将障碍物所在车道的车道线的方向作为障碍物的航向；在距离大于阈值的情况下，将相机的视线方向作为障碍物的航向。

第三方面，本申请还提供了一种尺寸估计设备，该尺寸估计设备包括处理器和存储器，处理器和存储器通过总线连接；处理器，用于执行多条指令；存储器，用于存储多条指令，指令适于由处理器加载并执行如第一方面或第一方面的任意一项实施方式的尺寸估计方法。

第四方面，本申请还提供了一种计算机可读存储介质，计算机可读存储介质中存储有多条指令，指令适于由处理器加载并执行如第一方面或第一方面的任意一项实施方式的尺寸估计方法。

综上，本申请提供了一种基于单相机的尺寸估计方法、装置、设备及存储介质，其中，尺寸估计方法包括：对包括障碍物的伪三维包围框和二维包围框的图像进行检测，以得到伪三维包围框的底边的两个端点，并根据两个端点确定基点；基于基点在世界坐标系中构建第一射线和第二射线；将第一射线和第二射线投影到图像上，使得第一射线和第二射线的投影分别与二维包围框的顶边和侧边交于第一交点和第二交点；根据两个端点、第一交点和第二交点，确定出障碍物的尺寸信息。可见，本申请的尺寸估计方法仅根据单相机拍摄的图像中的伪三维包围框和二维包围框，便能恢复出障碍物在三维空间中的尺寸信息。可见，基于视觉感知技术来实现了对障碍物的尺寸估计，不仅能够准确计算障碍物的尺寸信息，而且能大大减少计算复杂度，解决了现有技术中尺寸估计效率不高的问题。

附图说明

图1为一个实施例中包括障碍物的伪三维包围框和二维包围框的图像的示意图；

图2为另一个实施例中包括障碍物的伪三维包围框和二维包围框的图像的示意图；

图3为一个实施例中伪三维包围框的示意性框图；

图4为另一个实施例中伪三维包围框的示意性框图；

图5为一个实施例中构建第一射线和第二射线的步骤的示意图；

图6为一个实施例中确定第一交点和第二交点的步骤的示意图；

图7为另一个实施例中确定第一交点和第二交点的步骤的示意图；

图8为一个实施例中确定障碍物的高度的步骤的示意图；

图9为一个实施例中构建障碍物的三维包围框的步骤的示意图；

图10为一个实施例中尺寸估计方法的流程示意图；

图11为本申请提供的一种尺寸估计装置的示意性框图；

图12为本申请提供的一种尺寸估计设备的结构性框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

由于本申请实施例涉及相对较多的专业术语，为了便于理解，下面先对本申请实施例可能涉及的相关术语和概念进行介绍。

1、二维(2Dimensions，2D)包围框

二维包围框也称为矩形框标注，二维包围框包括正矩形框和斜矩形框，本申请中的伪三维包围框指的是正矩形框，例如图1所示，该二维包围框为GCEH。

2、伪三维(3Dimensions，3D)包围框

伪三维包围框也称为2.5D包围框，伪三维包围框是对图像中的障碍物以“伪立方体形”处理的包围框。一般来说，伪三维包围框包括正侧2视角立方体和正侧俯3视角立方体等，本申请中的伪三维包围框指的是正侧2视角立方体。正侧2视角立方体包括用于表示障碍物的侧面的二维包围框，和/或用于表示障碍物的正面(背面)的二维包围框。

需要说明的是，当障碍物位于距离相机较近的侧方位时，相机不仅能拍摄到障碍物的侧面，而且还能拍摄到障碍物的背面或者正面，此情况下，例如图1所示，障碍物的伪三维包围框包括用于表示障碍物的侧面的二维包围框ABCD，以及用于表示障碍物的背面的二维包围框ADEF，该伪三维包围框包括侧面底边(线段AB)以及背面底边(线段AF)。当障碍物位于相机的正前方或正后方，或者距离相机较远的方位时，相机拍摄的只能拍到障碍物的正面或者背面，此情况下，例如图2所示，障碍物的伪三维包围框只包括用于表示障碍物的背面的二维包围框ADEF，该伪三维包围框包括背面底边(线段AF)。

3、三维(3Dimensions，3D)包围框

三维包围框指的是用于标识出障碍物的真实三维边界的六面立方体，该三维包围框显示在图像上时形如图9中的用于框出汽车所在空间的六面立方体。

需要说明的是，本申请接下来涉及到的尺寸估计设备和尺寸估计装置可以包括但不限于专用的尺寸估计设备、终端设备、计算机、处理器等，可以是集成在汽车上的一个设备，也可以是汽车上的可拆卸的独立设备。尺寸估计设备和尺寸估计装置可以与汽车上的相机进行数据交互，例如获取相机拍摄的包括障碍物的图像等。处理器可以包括但不限于中央处理器(central processing unit，CPU)，通用处理器，协处理器，数字信号处理器(digital signal processor，DSP)，专用集成电路(application-specific integratedcircuit，ASIC)，现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。处理器可以实现本申请的所描述的方法，例如对包括障碍物的伪三维包围框和二维包围框的图像进行检测等，本申请对此不再赘述。

还需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”、“纵向”、“横向”、“水平”、“内”、“外”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，亦仅为了便于简化叙述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

目前，现有技术往往会采用雷达感知技术来估计障碍物的尺寸大小。这是因为雷达检测技术可以构建出障碍物的真实的三维包围框，该三维包围框直接反映了障碍物的长度、高度和宽度等尺寸信息。虽然雷达感知技术的检测准确度比较高，但是其数据量大，计算复杂，因此在实际应用中表现出来的尺寸估计效率并不高。

对此，本申请采用了视觉感知技术来估计障碍物的尺寸大小，不仅可以准确的估计障碍物的尺寸，而且大大降低了硬件成本，简便了计算难度，从而改善了现有技术中尺寸估计效率不高的问题。

具体的，为了兼顾尺寸估计的准确度和计算的容易度，解决现有技术中尺寸估计效率不高的问题，本申请结合视觉感知技术提出了一种基于单相机的尺寸估计方法。接下来，本申请将结合图1和图2所示的包括障碍物的伪三维包围框和二维包围框的图像，并以尺寸估计设备为执行主体，对本申请所提出的尺寸估计方法进行说明。具体的：

首先，尺寸估计设备对包括障碍物的伪三维包围框和二维包围框的图像进行检测，以得到伪三维包围框的底边的两个端点，并根据两个端点确定基点，如图1所示图像包括障碍物，以及用于标注出障碍物所在位置的伪三维包围框ABCDEF和二维包围框GCEH，再如图2所示的图像包括障碍物，以及用于标注出障碍物所在位置的伪三维包围框ADEF和二维包围框GCEH。需要说明的是，尺寸估计设备在对障碍物的伪三维包围框的底边进行检测时，优先对侧面底边进行检测，在未检测到侧面底边的情况下，再对背面底边或者正面底边进行检测。这是因为相比于背面底边或者正面，侧面底边更贴近于障碍物的真实边界，更能准确的反映出障碍物的真实位置。因此，根据图像上的伪三维包围框是否包括侧面底边，本申请的尺寸估计方法的实现过程可以分为两种情况，第一种是检测到侧面底边的情况，第二种是未检测到侧面底边，但是检测到背面底边或者正面底边的情况。在第一种情况下，尺寸估计设备将伪侧面底边的两个端点中的一个作为基点，例如图3中的伪三维包围框的侧面底边为线段AB，侧面底边的两个端点为点A和点B，将点A作为基点；在第二种情况下，尺寸估计设备将背面底边或者正面底边的两个端点之间的中点作为基点，例如图4中的伪三维包围框的背面底边为线段AF，背面底边的两个端点为点A和点F，将点A和点F之间的中点P作为基点。

其次，在确定基点之后，尺寸估计设备根据基点在图像上的像素坐标得到基点的世界坐标，并以基点的世界坐标为起点，构建第一射线和第二射线，其中，第一射线垂直于障碍物所在的地面且指向障碍物的顶部，第二射线垂直于障碍物的航向和第一射向且指向障碍物的侧面，第一射线的单位向量为(0,0,1)。举例来说，如图5所示，尺寸估计设备先根据点A(基点)在图像上的像素坐标(r₁,c₁)转换得到点A在世界坐标系下的世界坐标(x₁,y₁,z₁)，也即是点a，然后尺寸估计设备以点a为起点建立垂直于地面且指向障碍物的顶部的第一射线β，并建立垂直于第一射线β和障碍物的航向α且指向障碍物的侧面的第二射线γ。需要说明的是，在上述第一种情况下，障碍物的航向即侧面底边的两个端点的连线在世界坐标下所指示的方向，例如图5所示，尺寸估计设备根据侧面底边上的点A在图像上的像素坐标(r₁,c₁)转换得到点A在世界坐标系下的世界坐标(x₁,y₁,z₁)，并根据侧面底边上的点B在图像上的像素坐标(r₂,c₂)转换得到点B在世界坐标系下的世界坐标(x₂,y₂,z₂)，然后以点a为起点，建立指向点b的目标向量，并将该目标向量作为障碍物的航向α；在上述第二种情况下，由于障碍物的侧面不可见，因此将相机的视线方向或者障碍物所在车道的车道线的方向作为障碍物的航向。还需要说明的是，在第一种情况下，第二射线指向的侧面是障碍物不可见的另一个侧面，即与基点所在侧面相对的侧面；在第二种情况下，第二射线指向的侧面是障碍物的两个侧面中的任一侧面。

再次，在世界坐标系下构建得到第一射线和第二射线之后，将第一射线和第二射线投影到图像上，使得第一射线和第二射线的投影分别与二维包围框的顶边和侧边交于第一交点和第二交点。在上述第一种情况下，如图6所示，第一射线β在图像上的投影是β'，第二射线γ在图像上的投影是γ'，第一射线的投影β'和第二射线的投影γ'分别与二维包围框GCEH的顶边CE和侧边EH相交于第一交点M和第二交点N；在上述第二种情况下，如图7所示，第一射线β在图像上的投影是β'，第二射线γ在图像上的投影是γ'，第一射线的投影β'和第二射线的投影γ'分别与二维包围框GCEH的顶边CE和侧边EH相交于第一交点M和第二交点N。

最后，在确定图像上的四个点(两个端点、第一交点和第二交点)之后，尺寸估计设备根据该四个点确定出障碍物的尺寸信息，其中，尺寸信息包括长度、宽度、高度和中心点中的至少一个。在上述第一种情况下，尺寸估计设备可以根据上述四个点确定出障碍物的长度、宽度、高度和中心点，例如图6所示，尺寸估计设备先根据点A、点B、点M和点N在图像上的像素坐标，分别转换得到点A、点B、点M和点N在世界坐标系下的世界坐标，然后根据勾股定理分别计算点A和点B的世界坐标之间的距离，得到障碍物的长度，计算点A和点M的世界坐标之间的距离，得到障碍物的高度，计算点A和点N的世界坐标之间的距离，得到障碍物的宽度，取点A、点B、点M和点N的世界坐标的中点，得到障碍物的中心点；在上述第二种情况下，尺寸估计设备可以根据上述四个点确定出障碍物的长度、宽度、高度和中心点，例如图7所示，尺寸估计设备先根据两个端点(点A和点F)的中心点P、点M和点N在图像上的像素坐标，分别转换得到点P、点M和点N在世界坐标系下的世界坐标，然后获取预设长度作为障碍物的长度，并根据勾股定理分别计算点P和点M的世界坐标之间的距离，得到障碍物的高度，计算点P和点N的世界坐标之间的距离的两倍，得到障碍物的宽度。需要说明的是，尺寸估计设备可以根据相机内参和相机外参来将图像上的任一点的像素坐标转换为世界坐标，接下来本申请对此不再赘述。

在一种实施例中，如图10所示，本申请提供了一种基于单相机的尺寸估计方法。接下来，本申请将以尺寸估计设备为执行主体，对本实施例所提供的方法进行说明。具体的：

1001：对包括障碍物的伪三维包围框和二维包围框的图像进行检测，以得到伪三维包围框的底边的两个端点，并根据两个端点确定基点。

其中，尺寸估计设备获取单相机拍摄的图像，该图像上包括障碍物，以及用于对该障碍物的位置进行标注的伪三维包围框和二维包围框。在获得图像之后，尺寸估计设备对图像上的伪三维框的侧面底边、背面底边和正面底边，以获取其中一个底边的两个端点，并根据两个端点确定基点。根据是否检测到三维包围框的侧面底边，确定基点有两种方式，具体的：

第一种，在检测到伪三维包围框的侧面底边的情况下，获取伪三维包围框的侧面底边的两个端点，并将两个端点中的一个作为基点。例如图3中的伪三维包围框的侧面底边为线段AB，侧面底边的两个端点为点A和点B，将点A作为基点。

第二种，在未检测到伪三维包围框的侧面底边的情况下，获取伪三维包围框的正面底边或背面底边的两个端点，并将两个端点之间的中点作为基点。例如图4中的伪三维包围框的正面底边为线段AF，正面底边的两个端点为点A和点F，将点A和点F之间的中点P作为基点

1002：基于基点在世界坐标系中构建第一射线和第二射线。

其中，尺寸估计设备根据该基点在图像中的像素坐标，转换得到该基点在世界坐标系中的世界坐标，并以该基点的世界坐标为起点，构建第一射线和第二射线，其中，第一射线和第二射线分别用于指向障碍物的高和宽的方向。具体的，第一射线垂直于障碍物所在的地面且指向障碍物的顶部，第二射线垂直于航向和第一射向且指向障碍物的侧面。例如图5所示，尺寸估计设备先根据点A(基点)在图像上的像素坐标(r₁,c₁)转换得到点A在世界坐标系下的世界坐标(x₁,y₁,z₁)，也即是点a，然后尺寸估计设备以点a为起点建立垂直于地面且指向障碍物的顶部的第一射线β，并建立垂直于第一射线β和障碍物的航向α且指向障碍物的侧面的第二射线γ。需要说明的是，根据是否检测到三维包围框的侧面底边，障碍物的航向可以通过两种方式确定，具体的：

第一种，在检测到伪三维包围框的侧面底边的情况下，连接两个端点以确定障碍物的航向。例如图5所示，尺寸估计设备根据侧面底边上的点A在图像上的像素坐标(r₁,c₁)转换得到点A在世界坐标系下的世界坐标(x₁,y₁,z₁)，并根据侧面底边上的点B在图像上的像素坐标(r₂,c₂)转换得到点B在世界坐标系下的世界坐标(x₂,y₂,z₂)，然后以点a为起点，建立指向点b的目标向量，并将该目标向量作为障碍物的航向α。

第二种，在未检测到伪三维包围框的侧面底边的情况下，将相机的视线方向或者障碍物所在车道的车道线的方向作为障碍物的航向。进一步的，在第二种情况下，为确定障碍物的航向，尺寸估计设备先检测障碍物与相机的距离，然后在距离小于或等于阈值的情况下，将障碍物所在车道的车道线的方向作为障碍物的航向；在距离大于阈值的情况下，将相机的视线方向作为障碍物的航向。

1003：将第一射线和第二射线投影到图像上，使得第一射线和第二射线的投影分别与二维包围框的顶边和侧边交于第一交点和第二交点。

其中，尺寸估计设备将世界坐标系下的第一射线和第二射线投影到图像上，使得第一射线与图像上的二维包围框的底边交于第一交点，使得第二射线与图像上的二维包围框交于第二交点。需要说明的是，根据是否检测到三维包围框的侧面底边，第一交点和第二交点可以通过两种方式确定，具体的：

第一种，在检测到伪三维包围框的侧面底边的情况下，如图6所示，第一射线β在图像上的投影是β'，第二射线γ在图像上的投影是γ'，第一射线的投影β'和第二射线的投影γ'分别与二维包围框GCEH的顶边CE和侧边EH相交于第一交点M和第二交点N。

第二种，在未检测到伪三维包围框的侧面底边的情况下，如图7所示，第一射线β在图像上的投影是β'，第二射线γ在图像上的投影是γ'，第一射线的投影β'和第二射线的投影γ'分别与二维包围框GCEH的顶边CE和侧边EH相交于第一交点M和第二交点N。

1004：根据两个端点、第一交点和第二交点，确定出障碍物的尺寸信息。

其中，在确定图像上的四个点(两个端点、第一交点和第二交点)之后，尺寸估计设备根据该四个点确定出障碍物的尺寸信息，其中，尺寸信息包括长度、宽度、高度和中心点中的至少一个。需要说明的是，根据是否检测到三维包围框的侧面底边，尺寸信息可以通过两种方式确定，具体的：

第一种，在检测到伪三维包围框的侧面底边的情况下，尺寸估计设备可以根据两个端点、第一交点和第二交点的像素坐标，分别转换得到两个端点、第一交点和第二交点的世界坐标，并根据两个端点、第一交点和第二交点的世界坐标确定障碍物的长度、宽度、高度和/或中心点。例如图6所示，尺寸估计设备先根据点A、点B、点M和点N在图像上的像素坐标，分别转换得到点A、点B、点M和点N在世界坐标系下的世界坐标，然后根据勾股定理分别计算点A和点B的世界坐标之间的距离，得到障碍物的长度，计算点A和点M的世界坐标之间的距离，得到障碍物的高度，计算点A和点N的世界坐标之间的距离，得到障碍物的宽度，取点A、点B、点M和点N的世界坐标的中点，得到障碍物的中心点。

第二种，在未检测到伪三维包围框的侧面底边的情况下，尺寸估计设备根据两个端点的中点、第一交点和第二交点的像素坐标，分别转换得到两个端点的中点、第一交点和第二交点的世界坐标，并根据两个端点的中点、第一交点和第二交点的世界坐标确定障碍物的宽度和/或高度。例如图7所示，尺寸估计设备先根据两个端点(点A和点F)的中心点P、点M和点N在图像上的像素坐标，分别转换得到点P、点M和点N在世界坐标系下的世界坐标，然后获取预设长度作为障碍物的长度，并根据勾股定理分别计算点P和点M的世界坐标之间的距离，得到障碍物的高度，计算点P和点N的世界坐标之间的距离的两倍，得到障碍物的宽度。

在一种可实施的方式中，上述根据两个端点、第一交点和第二交点，确定出障碍物的尺寸信息的步骤，还包括：根据基点的像素坐标、基点的世界坐标、第一交点的像素坐标、第一射线的单位向量确定障碍物的高度，其中，根据基点的像素坐标、基点的世界坐标、第一交点的像素坐标、第一射线的单位向量确定障碍物的高度的步骤的数学表达为：

或，

其中，L为障碍物的高度，(r₁,c₁)为基点的像素坐标，(x₁,y₁,z₁)为基点的世界坐标，(r₃,c₃)为第一交点的像素坐标，(u_x,u_y,u_z)为第一射线的单位向量，f_x和f_y为相机内参焦距参数。需要说明的是，本实施方式提供了一种简便的计算方式，在将第一射线映射到图像中并得到第一交点之后，直接利用第一交点的像素坐标来计算障碍物的高度，而不需要先根据第一交点的像素坐标转换得到第一交点的世界坐标之后，再利用第一交点的世界坐标来计算障碍物的高度，从而进一步降低了计算的复杂度，提高了尺寸估计的效率。

接下来，本申请将以上述检测到伪三维包围框的侧面底边的情况为例，对该步骤进行说明，如图8所示，O为相机所在点，基点A的像素坐标(r₁,c₁)、基点A的世界坐标(x₁,y₁,z₁)，第一交点M的像素坐标(r₃,c₃)，第一射线的单位向量(u_x,u_y,u_z)，相机内参焦距参数f_x和f_y都是已知的，尺寸估计设备可以将该几个已知的参数直接带入到上述数学表达式中得到障碍物的高度，即线段AM的长度。类似的，障碍物的宽度也可以按照上述计算方式，根据基点的像素坐标、基点的世界坐标、第二交点的像素坐标、第二射线的单位向量确定障碍物的宽度，具体的数学表达式可以参考上述计算障碍物的长度时的数学表达式，在此不再赘述。

在一种可实施的方式中，尺寸估计设备还可以根据前述步骤中得到的障碍物的尺寸信息来构建一个三维包围框，来反映障碍物的真实三维边界。具体的，在检测到伪三维包围框的侧面底边的情况下，上述根据两个端点、第一交点和第二交点，确定出障碍物的尺寸信息的步骤之后，还包括：连接基点与另一个端点，得到用于表示障碍物的长的第一线段；连接基点与第一交点，得到用于表示障碍物的高的第二线段；连接基点与第二交点，得到用于表示障碍物的宽的第三线段；根据第一线段、第二线段、第三线段恢复出障碍物的三维包围框。

其中，尺寸估计设备根据第一线段、第二线段和第三线段恢复出用于表示障碍物的真实三维边界的六面立方体。例如图9所示，尺寸估计设备先分别连接基点A与另一个端点B得到第一线段AB，连接基点A与第一交点M得到第二线段AM，连接基点A与第二交点N得到第三线段AN，然后根据线段AB、AM和AN恢复出三维包围框的另外几线段，从而恢复出障碍物的三维包围框。

综上，本申请的尺寸估计方法仅根据单相机拍摄的图像中的伪三维包围框和二维包围框，便能恢复出障碍物在三维空间中的尺寸信息。可见，基于视觉感知技术来实现了对障碍物的尺寸估计，不仅能够准确计算障碍物的尺寸信息，而且能大大减少计算复杂度，解决了现有技术中尺寸估计效率不高的问题。

在一个实施例中，本发明实施还提供了一种尺寸估计装置，参见图11。本发明实施例可以根据上述方法示例对设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本发明实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。如图5所示，该障碍物检测装置包括检测单元1110、构建单元1120、投影单元1130以及确定单元1140，具体的：检测单元1110，用于对包括障碍物的伪三维包围框和二维包围框的图像进行检测，以得到伪三维包围框的底边的两个端点，并根据两个端点确定基点；构建单元1120，用于基于基点在世界坐标系中构建第一射线和第二射线，其中，第一射线和第二射线分别用于指向障碍物的高和宽的方向；投影单元1130，用于将第一射线和第二射线投影到图像上，使得第一射线和第二射线的投影分别与二维包围框的顶边和侧边交于第一交点和第二交点；确定单元1140，用于根据两个端点、第一交点和第二交点，确定出障碍物的尺寸信息，尺寸信息包括长度、宽度、高度和中心点中的至少一个。

在一种可实施的方式中，上述检测单元1110具体用于：对图像上的三维包围框的侧面底边、正面底边或背面底边进行检测；在检测到伪三维包围框的侧面底边的情况下，获取伪三维包围框的侧面底边的两个端点，并将两个端点中的一个作为基点；在未检测到伪三维包围框的侧面底边的情况下，获取伪三维包围框的正面底边或背面底边的两个端点，并将两个端点之间的中点作为基点。

在一种可实施的方式中，上述构建单元1120具体用于：在检测到伪三维包围框的侧面底边的情况下，连接两个端点以确定障碍物的航向；在未检测到伪三维包围框的侧面底边的情况下，将相机的视线方向或者障碍物所在车道的车道线的方向作为障碍物的航向；根据基点在图像上的像素坐标得到基点的世界坐标；以基点的世界坐标为起点，构建第一射线和第二射线，其中，第一射线垂直于障碍物所在的地面且指向障碍物的顶部，第二射线垂直于航向和第一射向且指向障碍物的侧面。

在一种可实施的方式中，上述确定单元1140具体用于：在检测到伪三维包围框的侧面底边的情况下，根据两个端点、第一交点和第二交点的像素坐标，分别转换得到两个端点、第一交点和第二交点的世界坐标，并根据两个端点、第一交点和第二交点的世界坐标确定障碍物的长度、宽度、高度和/或中心点；在未检测到伪三维包围框的侧面底边的情况下，根据两个端点的中点、第一交点和第二交点的像素坐标，分别转换得到两个端点的中点、第一交点和第二交点的世界坐标，并根据两个端点的中点、第一交点和第二交点的世界坐标确定障碍物的宽度和/或高度。

在一种可实施的方式中，上述确定单元1140，具体用于：根据基点的像素坐标、基点的世界坐标、第一交点的像素坐标、第一射线的单位向量确定障碍物的高度，其中，根据基点的像素坐标、基点的世界坐标、第一交点的像素坐标、第一射线的单位向量确定障碍物的高度的步骤的数学表达为：

或，

在一种可实施的方式中，上述尺寸估计装置还包括恢复单元1150，该恢复单元用于：连接基点与另一个端点，得到用于表示障碍物的长的第一线段；连接基点与第一交点，得到用于表示障碍物的高的第二线段；连接基点与第二交点，得到用于表示障碍物的宽的第三线段；根据第一线段、第二线段、第三线段恢复出障碍物的三维包围框。

在一种可实施的方式中，上述构建单元1120还用于：检测障碍物与相机的距离；在距离小于或等于阈值的情况下，将障碍物所在车道的车道线的方向作为障碍物的航向；在距离大于阈值的情况下，将相机的视线方向作为障碍物的航向。

在一个实施例中，本申请还提供了一种尺寸估计设备，参见图12。该尺寸估计设备可以是但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备和服务器，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。如图所示的本实施例中的尺寸估计设备可以包括：处理器1210和存储器1220。上述处理器1210和存储器1220通过总1230连接。处理器1210，用于执行多条指令；存储器1220，用于存储多条指令，该指令适于由处理器1210加载并执行如上述实施例中的尺寸估计方法。

其中，处理器1210可以是电子调整单元(Electronic Control Unit，ECU)、中央处理器(central processing unit，CPU)，通用处理器，协处理器，数字信号处理器(digitalsignal processor，DSP)，专用集成电路(application-specific integrated circuit，ASIC)，现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。该处理器1210也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。在本实施例中，处理器1210可采用单片机，通过对单片机进行编程可以实现各种控制功能，比如在本实施例中，实现对包括障碍物的伪三维包围框和二维包围框的图像的检测功能等，处理器具有计算能力强大，处理快速的优点。具体的：处理器1210用于执行检测单元1110的功能，用于对包括障碍物的伪三维包围框和二维包围框的图像进行检测，以得到伪三维包围框的底边的两个端点，并根据两个端点确定基点；还用于执行构建单元1120的功能，用于基于基点在世界坐标系中构建第一射线和第二射线，其中，第一射线和第二射线分别用于指向障碍物的高和宽的方向；还用于执行投影单元1130的功能，用于将第一射线和第二射线投影到图像上，使得第一射线和第二射线的投影分别与二维包围框的顶边和侧边交于第一交点和第二交点；还用于执行确定单元1140的功能，用于根据两个端点、第一交点和第二交点，确定出障碍物的尺寸信息，尺寸信息包括长度、宽度、高度和中心点中的至少一个。

在一种可实施的方式中，上述处理器1210具体用于：对图像上的三维包围框的侧面底边、正面底边或背面底边进行检测；在检测到伪三维包围框的侧面底边的情况下，获取伪三维包围框的侧面底边的两个端点，并将两个端点中的一个作为基点；在未检测到伪三维包围框的侧面底边的情况下，获取伪三维包围框的正面底边或背面底边的两个端点，并将两个端点之间的中点作为基点。

在一种可实施的方式中，上述处理器1210具体用于：在检测到伪三维包围框的侧面底边的情况下，连接两个端点以确定障碍物的航向；在未检测到伪三维包围框的侧面底边的情况下，将相机的视线方向或者障碍物所在车道的车道线的方向作为障碍物的航向；根据基点在图像上的像素坐标得到基点的世界坐标；以基点的世界坐标为起点，构建第一射线和第二射线，其中，第一射线垂直于障碍物所在的地面且指向障碍物的顶部，第二射线垂直于航向和第一射向且指向障碍物的侧面。

在一种可实施的方式中，上述处理器1210具体用于：在检测到伪三维包围框的侧面底边的情况下，根据两个端点、第一交点和第二交点的像素坐标，分别转换得到两个端点、第一交点和第二交点的世界坐标，并根据两个端点、第一交点和第二交点的世界坐标确定障碍物的长度、宽度、高度和/或中心点；在未检测到伪三维包围框的侧面底边的情况下，根据两个端点的中点、第一交点和第二交点的像素坐标，分别转换得到两个端点的中点、第一交点和第二交点的世界坐标，并根据两个端点的中点、第一交点和第二交点的世界坐标确定障碍物的宽度和/或高度。

在一种可实施的方式中，上述处理器1210具体用于：根据基点的像素坐标、基点的世界坐标、第一交点的像素坐标、第一射线的单位向量确定障碍物的高度，其中，根据基点的像素坐标、基点的世界坐标、第一交点的像素坐标、第一射线的单位向量确定障碍物的高度的步骤的数学表达为：

或，

在一种可实施的方式中，上述处理器1210还用于执行恢复单元1150的功能，用于：连接基点与另一个端点，得到用于表示障碍物的长的第一线段；连接基点与第一交点，得到用于表示障碍物的高的第二线段；连接基点与第二交点，得到用于表示障碍物的宽的第三线段；根据第一线段、第二线段、第三线段恢复出障碍物的三维包围框。

在一种可实施的方式中，上述处理器1210还用于：检测障碍物与相机的距离；在距离小于或等于阈值的情况下，将障碍物所在车道的车道线的方向作为障碍物的航向；在距离大于阈值的情况下，将相机的视线方向作为障碍物的航向。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于单相机的尺寸估计方法，其特征在于，包括：

对包括障碍物的伪三维包围框和二维包围框的图像进行检测，以得到所述伪三维包围框的底边的两个端点，并根据所述两个端点确定基点；

基于所述基点在世界坐标系中构建第一射线和第二射线，其中，所述第一射线和所述第二射线分别用于指向所述障碍物的高和宽的方向；

将所述第一射线和第二射线投影到所述图像上，使得所述第一射线和第二射线的投影分别与所述二维包围框的顶边和侧边交于第一交点和第二交点；

根据所述两个端点、第一交点和第二交点，确定出所述障碍物的尺寸信息，其中，所述尺寸信息包括长度、宽度、高度和中心点中的至少一个。

2.根据权利要求1所述的方法，其特征在于，所述对包括障碍物的伪三维包围框和二维包围框的图像进行检测，以得到所述伪三维包围框的底边的两个端点，并根据所述两个端点确定基点的步骤，包括：

对图像上的三维包围框的侧面底边、正面底边或背面底边进行检测；

在检测到所述伪三维包围框的侧面底边的情况下，获取所述伪三维包围框的侧面底边的两个端点，并将所述两个端点中的一个作为基点；

在未检测到所述伪三维包围框的侧面底边的情况下，获取所述伪三维包围框的正面底边或背面底边的两个端点，并将所述两个端点之间的中点作为基点。

3.根据权利要求2所述的方法，其特征在于，所述基于所述基点在世界坐标系中构建第一射线和第二射线的步骤，包括：

在检测到所述伪三维包围框的侧面底边的情况下，连接所述两个端点以确定所述障碍物的航向；在未检测到所述伪三维包围框的侧面底边的情况下，将相机的视线方向或者所述障碍物所在车道的车道线的方向作为所述障碍物的航向；

根据所述基点在所述图像上的像素坐标得到所述基点的世界坐标；

以所述基点的世界坐标为起点，构建第一射线和第二射线，其中，所述第一射线垂直于所述障碍物所在的地面且指向所述障碍物的顶部，所述第二射线垂直于所述航向和所述第一射向且指向所述障碍物的侧面。

4.根据权利要求2所述的方法，其特征在于，所述根据所述两个端点、第一交点和第二交点，确定出所述障碍物的尺寸信息的步骤，包括：

在检测到所述伪三维包围框的侧面底边的情况下，根据所述两个端点、第一交点和第二交点的像素坐标，分别转换得到所述两个端点、第一交点和第二交点的世界坐标，并根据所述两个端点、第一交点和第二交点的世界坐标确定所述障碍物的长度、宽度、高度和/或中心点；

在未检测到所述伪三维包围框的侧面底边的情况下，根据所述两个端点的中点、第一交点和第二交点的像素坐标，分别转换得到所述两个端点的中点、第一交点和第二交点的世界坐标，并根据所述两个端点的中点、第一交点和第二交点的世界坐标确定所述障碍物的宽度和/或高度。

5.根据权利要求1所述的方法，其特征在于，所述根据所述两个端点、第一交点和第二交点，确定出所述障碍物的尺寸信息的步骤包括：

根据所述基点的像素坐标、所述基点的世界坐标、所述第一交点的像素坐标、所述第一射线的单位向量确定所述障碍物的高度，其中，所述根据所述基点的像素坐标、所述基点的世界坐标、所述第一交点的像素坐标、所述第一射线的单位向量确定所述障碍物的高度的步骤的数学表达为：

或，

其中，L为所述障碍物的高度，(r₁,c₁)为所述基点的像素坐标，(x₁,y₁,z₁)为所述基点的世界坐标，(r₃,c₃)为所述第一交点的像素坐标，(u_x,u_y,u_z)为所述第一射线的单位向量，f_x和f_y为相机内参焦距参数。

6.根据权利要求2所述的方法，其特征在于，在检测到所述伪三维包围框的侧面底边的情况下，所述根据所述两个端点、第一交点和第二交点，确定出所述障碍物的尺寸信息的步骤之后，还包括：

连接所述基点与另一个端点，得到用于表示所述障碍物的长的第一线段；

连接所述基点与所述第一交点，得到用于表示所述障碍物的高的第二线段；

连接所述基点与所述第二交点，得到用于表示所述障碍物的宽的第三线段；

根据所述第一线段、所述第二线段、所述第三线段恢复出所述障碍物的三维包围框。

7.根据权利要求3所述的方法，其特征在于，所述将车道线方向或相机的视线方向作为所述障碍物的航向的步骤，包括：

检测所述障碍物与相机的距离；

在所述距离小于或等于阈值的情况下，将所述障碍物所在车道的车道线的方向作为所述障碍物的航向；

在所述距离大于阈值的情况下，将相机的视线方向作为所述障碍物的航向。

8.一种尺寸估计装置，其特征在于，包括：

检测单元，用于对包括障碍物的伪三维包围框和二维包围框的图像进行检测，以得到所述伪三维包围框的底边的两个端点，并根据所述两个端点确定基点；

构建单元，用于基于所述基点在世界坐标系中构建第一射线和第二射线，其中，所述第一射线和所述第二射线分别用于指向所述障碍物的高和宽的方向；

投影单元，用于将所述第一射线和第二射线投影到所述图像上，使得所述第一射线和第二射线的投影分别与所述二维包围框的顶边和侧边交于第一交点和第二交点；

确定单元，用于根据所述两个端点、第一交点和第二交点，确定出所述障碍物的尺寸信息，其中，所述尺寸信息包括长度、宽度、高度和中心点中的至少一个。

9.一种尺寸估计设备，其特征在于，所述设备包括处理器和存储器，所述处理器和存储器通过总线连接；所述处理器，用于执行多条指令；所述存储介质，用于存储所述多条指令，所述指令适于由所述处理器加载并执行如权利要求1-7中任一项所述的尺寸估计方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-7中任一项所述的尺寸估计方法。