CN110119679A

CN110119679A - 物体三维信息估计方法及装置、计算机设备、存储介质

Info

Publication number: CN110119679A
Application number: CN201910262603.1A
Authority: CN
Inventors: 宋希彬; 卢飞翔; 周定富; 杨睿刚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2019-08-13
Anticipated expiration: 2039-04-02
Also published as: CN110119679B

Abstract

本发明实施例提供一种物体三维信息估计方法及装置、计算机设备及存储介质，属于信息处理领域。所述方法包括：分割步骤，对二维图像中的物体进行整体实例分割和部件级实例分割，获得分割后的多个物体实例的图像区域；稠密点对估计步骤，在每个所述物体实例的图像区域中，估计二维像素点和对应的三维模型的三维点之间的映射关系，并根据所述映射关系，获得由二维像素点和对应的三维点组成的稠密点对；以及三维信息估计步骤，基于所述稠密点对估计所述二维图像中的物体的三维信息。本发明实施例即使在物体遮挡严重的情况下，也能获得稠密的点对，可有效地估计各类场景中的物体的三维信息。

Description

物体三维信息估计方法及装置、计算机设备、存储介质

技术领域

本发明涉及信息处理领域，具体地涉及一种物体三维信息估计方法及装置、计算机设备、存储介质。

背景技术

目前，在很多领域(例如人工智能、自动驾驶车辆的感知领域)都会涉及从物体的二维图像中估计其三维信息。现有的估计方法主要分为以下三类：

1)利用二维关键点与对应的三维模型关键点匹配获取二维图像物体三维信息的方法。这类方法首先在二维图像中提取二维关键点，然后建立图像的二维关键点与三维物体模型的三维关键点之间的对应关系，再计算三维物体模型与二维图像物体之间的姿态参数，从而获得二维图像中物体的三维信息。

2)基于二维彩色图像像素值获取二维图像中物体的深度信息。这类方法通常使用机器学习等方法学习单张二维彩色图像与对应的深度图像之间的关系，建立彩色图像与对应的物体深度信息之间的映射模型，进而获得二维彩色图像对应的深度信息。

3)利用彩色图像与辅助的深度图像估计图像中物体的三维信息的方法。这类方法利用彩色图像以及辅助的深度图像进行物体的三维信息估计，获取二维图像中物体的姿态、二维及三维的包围盒等。辅助的深度信息的获取方式通常包括廉价深度扫描设备(如Kinect)、stereo技术等。

但是，上述的三种方法都具有明显的缺点，主要如下：

对于利用图像二维关键点与三维模型关键点匹配进行二维图像中物体三维信息估计的第1)种方法，其可以获得比较准确的物体三维信息估计结果。然而，在大部分场景中，二维图像的关键点容易受到遮挡等因素的影响，关键点的数量难以保证。另外，以自动驾驶领域为例，场景中车辆经常存在遮挡的情况，当二维关键点数量较少时，难以提供足够的约束，导致二维物体和三维模型匹配失败，因此该方法的鲁棒性较差。另外，由于场景中往往存在多个物体，不同物体的关键点如何区分也是该方法难以解决的问题。

对于利用单张二维彩色图像估计物体三维信息的第2)种方法，其需要的技术和数据支持较少，仅需要单张彩色图像作为输入，容易实施。然而由于缺少较强的约束信息，这类方法获得二维图像中物体的三维信息精度较差，难以满足各类应用的对三维信息的精度需求。

对于利用彩色图像和对应的深度图像估计物体三维信息的第3)种方法，其使用了辅助的深度信息作为约束，可以获得高于利用单张二维彩色图像估计物体三维信息的方法的精度。然而，由于辅助的深度图像往往质量较差，存在大量缺失，且容易受到环境光等因素的影响，精度难以保证，因此，此类方法的精度也难以保证，鲁棒性不够。同时，对于深度信息的依赖也限制了此类方法的应用。

因此，现有的方法都存在不同程度的缺陷，需要新的方法来获取二维图像中的物体的三维信息。

发明内容

本发明实施例的目的是提供一种物体三维信息估计方法及装置、计算机设备及存储介质，用于至少部分地解决上述技术问题。

为了实现上述目的，本发明实施例提供一种物体三维信息估计方法，包括：分割步骤，对二维图像中的物体进行整体实例分割和部件级实例分割，获得分割后的多个物体实例的图像区域；稠密点对估计步骤，在每个所述物体实例的图像区域中，估计二维像素点和对应的三维模型的三维点之间的映射关系，并根据所述映射关系，获得由二维像素点和对应的三维点组成的稠密点对；以及三维信息估计步骤，基于所述稠密点对估计所述二维图像中的物体的三维信息。

可选地，所述分割步骤具体包括：采用卷积神经网络对所述二维图像中物体进行整体实例分割和物体的部件级实例分割，产生每个物体的掩模及物体的每个可见部件的掩模；基于所述掩模，分别获取每个物体在所述二维图像中的图像区域及物体的每个可见部件在所述二维图像中的图像区域。

可选地，在所述稠密点对估计步骤中，所述估计二维像素点和对应的三维模型的三维点的映射关系包括：以各个图像区域中的物体的二维像素点为输入，使用卷积神经网络估计与所输入的二维像素点对应的三维模型中的纹理UV坐标；基于所述纹理UV坐标获取对应的三维模型的三维点坐标索引；以及基于所述三维点坐标索引建立所述映射关系。

可选地，所述物体三维信息估计方法还包括在所述三维信息估计步骤之前执行的分类步骤，且所述分类步骤包括：根据所述映射关系，判定物体的可见部件是否在同一平面上；以及根据判定结果，将所述二维图像中的物体分为可见部件不在同一平面上的第一类物体和可见部件在同一平面上的第二类物体；其中，所述三维信息估计步骤分别应用于所述第一类物体和所述第二类物体。

可选地，针对所述第一类物体，所述三维信息估计步骤具体包括：以所述稠密点对为输入，计算待估计的第一类物体与所述三维模型的姿态关系；以及基于所述姿态关系，估计所述第一类物体的三维信息。

可选地，针对所述第二类物体，所述三维信息估计步骤具体包括：在所述二维图像中搜索与待估计的第二类物体在图像空间中像素距离最接近的属于第一类物体的物体以作为参照物体；以所述稠密点对为输入，计算所述参照物体与所述三维模型的姿态关系；基于所述参照物体与所述三维模型的姿态关系求解所述二维图像对应的地面法向参数；基于所述地面法向参数及所述参照物体的平移参数，计算所述待估计的第二类物体的姿态参数；以及基于所述待估计的第二类物体的姿态参数，估计所述第二类物体的三维信息。

可选地，所述三维信息估计步骤还包括在所述估计所述第一类物体的三维信息或所述估计所述第二类物体的三维信息之前，执行以下步骤：根据对应的姿态关系，将所述稠密点对中的三维点投影至二维图像平面，并计算与对应的二维像素点之间的重投影误差；以及选取重投影误差最小的三维模型及其对应的姿态关系估计所述二维图像中的所述第一类物体或所述第二类物体的三维信息。

另一方面，本发明还提供一种物体三维信息估计装置，包括：分割模块，用于对二维图像中的物体进行整体实例分割和部件级实例分割，获得分割后的多个物体实例的图像区域；稠密点对估计模块，用于在每个所述物体实例的图像区域中，估计二维像素点和对应的三维模型的三维点之间的映射关系，并根据所述映射关系，获得由二维像素点和对应的三维点组成的稠密点对；以及三维信息估计模块，用于基于所述稠密点对估计所述二维图像中的物体的三维信息。

可选地，所述分割模块包括：物体分割子模块，用于采用卷积神经网络对所述二维图像中物体进行整体实例分割和物体的部件级实例分割，产生每个物体的掩模及物体的每个可见部件的掩模；以及区域获取子模块，用于基于所述掩模，分别获取每个物体在所述二维图像中的图像区域及物体的每个可见部件在所述二维图像中的图像区域。

可选地，所述稠密点对估计模块用于估计二维像素点和对应的三维模型的三维点的映射关系包括：以各个图像区域中的物体的二维像素点为输入，使用卷积神经网络估计与所输入的二维像素点对应的三维模型中的纹理UV坐标；基于所述纹理UV坐标获取对应的三维模型的三维点坐标索引；以及基于所述三维点坐标索引建立所述映射关系。

可选地，所述物体三维信息估计装置还包括分类模块，用于在所述三维信息估计模块执行三维信息估计之前，执行以下步骤：根据所述映射关系，判定物体的可见部件是否在同一平面上；以及根据判定结果，将所述二维图像中的物体分为可见部件不在同一平面上的第一类物体和可见部件在同一平面上的第二类物体；其中，所述三维信息估计模块分别对所述第一类物体和所述第二类物体进行三维信息估计。

可选地，针对所述第一类物体，所述三维信息估计模块用于基于所述稠密点对估计所述二维图像中的物体的三维信息包括：以所述稠密点对为输入，计算待估计的第一类物体与所述三维模型的姿态关系；以及基于所述姿态关系，估计所述第一类物体的三维信息。

可选地，针对所述第二类物体，所述三维信息估计模块用于基于所述稠密点对估计所述二维图像中的物体的三维信息包括：在所述二维图像中搜索与待估计的第二类物体在图像空间中像素距离最接近的属于第一类物体的物体以作为参照物体；以所述稠密点对为输入，计算所述参照物体与所述三维模型的姿态关系；基于所述参照物体与所述三维模型的姿态关系求解所述二维图像对应的地面法向参数；基于所述地面法向参数及所述参照物体的平移参数，计算所述待估计的第二类物体的姿态参数；以及基于所述待估计的第二类物体的姿态参数，估计所述第二类物体的三维信息。

可选地，所述三维信息估计模块还用于在所述估计所述第一类物体的三维信息或所述估计所述第二类物体的三维信息之前，执行以下步骤：根据对应的姿态关系，将所述稠密点对中的三维点投影至二维图像平面，并计算与对应的二维像素点之间的重投影误差；以及选取重投影误差最小的三维模型及其对应的姿态参数估计所述二维图像中的所述第一类物体或所述第二类物体的三维信息。

另一方面，本发明提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行上述的物体三维信息估计方法。

另一方面，本发明还提供一种计算机设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的物体三维信息估计方法。

通过上述技术方案，本发明通过对物体进行部件级分割，即使在物体遮挡严重的情况下也能获得稠密的点对，可有效准确地估计各类场景中的物体的三维信息，提高了二维图像中物体的三维信息估计的鲁棒性和准确性，同时也能够降低实现三维信息估计的成本。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明实施例的一种物体三维信息估计方法的流程示意图；

图2是本发明更为优选的实施例的物体三维信息估计方法的流程示意图；

图3(a)是本发明实施例中适用于第一类物体的三维信息估计方法的流程示意图；

图3(b)是本发明实施例中适用于第二类物体的三维信息估计方法的流程示意图；

图4是本发明实施例的示例中针对单张二维图像中的多个物体的三维信息估计方法的流程示意图；以及

图5是本发明实施例所述的物体三维信息估计装置的结构示意图。

附图标记说明

100、分割模块；200、稠密点对估计模块；300、三维信息估计模块；110、物体分割子模块；120、区域获取子模块。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

现有技术中从二维图像估计物体的三维信息时，二维图像的像素点(特别是关键点)容易受到遮挡等因素的影响，使得二维像素点较少，在进行二维物体与三维模型的匹配时，只能形成二维像素点与对应的三维模型的三维点之间的稀疏点对，影响匹配结果。对此，本发明实施例基于获取稠密点对的思路，提供了新的从二维图像估计物体的三维信息的方案。

图1是本发明实施例的一种物体三维信息估计方法的流程示意图。如图1所示，所述物体三维信息估计方法可以包括以下步骤：

步骤S100，对二维图像中的物体进行整体实例分割和部件级实例分割，获得分割后的多个物体实例的图像区域。

在优选的实施例中，该步骤S100具体可以包括：采用卷积神经网络对所述二维图像中物体进行整体实例分割和物体的部件级实例分割，产生每个物体的掩模及物体的每个可见部件的掩模(mask)；基于所述掩模，分别获取每个物体在所述二维图像中的图像区域及物体的每个可见部件在所述二维图像中的图像区域。

需说明的是，现有技术中在将二维图像中的二维像素点映射至三维模型的三维点时，往往是对物体的整个轮廓进行映射。但事实上，二维图像中的物体往往存在遮挡，特别是移动物体会动态地呈现不同程度的遮挡，从而会使部分轮廓无法成功映射，导致二维物体与三维模型的匹配失败。对此，该步骤S100可采用卷积神经网络将物体分割为不同部件实例，使得后续针对物体整体和物体的各个部件的图像区域的每一二维像素点，都可以进行二维像素点至三维点的映射，从而明显地提高了参与映射的二维像素点的数量，获得由二维像素点和对应的三维点组成的稠密点对。

在其他实施例中，也可采用DensePose算法代替卷积神经网络。其中，DensePose的全称为Dense Human Pose Estimation In The Wild，即用深度学习把二维RPG图像坐标映射到三维模型，再加上以每秒多帧的速度处理密集坐标，最后实现动态物体的精确定位和姿态估计。

另外，在更为优选的实施例中，可考虑根据物体的几何结构的一致性来将物体分为不同的部件，以车辆为例，根据几何结构一致性，可分为左前车门、左后车门、引擎盖、后备箱等。

需说明的是，在本发明实施例中，该步骤S100可被描述为分割步骤，而关于稠密点对的具体形成，将在后续其他步骤中进行详细描述。

步骤S200，在每个所述物体实例的图像区域中，估计二维像素点和对应的三维模型的三维点之间的映射关系，并根据所述映射关系，获得由二维像素点和对应的三维点组成的稠密点对。

在优选的实施例中，所述估计二维像素点和对应的三维模型的三维点的映射关系可以包括：以各个图像区域中的物体的二维像素点为输入，使用卷积神经网络估计与所输入的二维像素点对应的三维模型中的纹理UV坐标；基于所述纹理UV坐标获取对应的三维模型的三维点坐标索引；以及基于所述三维点坐标索引建立所述映射关系。

其中，所述纹理UV坐标也被记为纹理[U,V]坐标，UV坐标系属于三维模型常用的坐标系统，U、V分别是图像在显示器水平、垂直方向上的坐标，取值一般都是0～1，也就是：水平方向的第U个像素/图像宽度，垂直方向的第V个像素/图像高度。

另外，类似于步骤S100，在该步骤S200中，也可采用DensePose算法代替卷积神经网络。

需说明的是，在本发明实施例中，该步骤S200可被描述为稠密点对估计步骤。

步骤S300，基于所述稠密点对估计所述二维图像中的物体的三维信息。

举例而言，使用所述稠密点对作为输入，利用算法，如PnP等，可计算出三维模型和二维物体之间的姿态关系，基于该姿态关系和三维模型的参数可进一步估计出二维物体的三维信息。

其中，三维物体在空间中存在6个自由度的运动，分别为沿世界坐标系三个轴的旋转(旋转自由度)和沿世界坐标系三个轴的平移(平移自由度)。采用算法(例如PnP)进行6个自由度的参数控制(平移和旋转模型)，可以将模型旋转和平移至合适的位置，通过摄像机的投影成像，可以完成三维物体模型与二维图像中的对应物体的匹配。这6个参数即三维模型与当前摄像机之间的相对位置关系，即上述的三维模型和二维物体之间的姿态关系。

需说明的是，在本发明实施例中，该步骤S300可被描述为三维信息估计步骤。

通过步骤S100-步骤S300，在完成对当前二维图像中所有待估计三维信息的物体的模型匹配后，可输出相应的三维信息，这些三维信息例如包括对应当前二维图像中物体的深度、三维物体模型的姿态(即旋转和平移参数)以及相应的二维和三维的包围盒。

据此，本发明实施例通过对物体进行部件级分割，即使在物体遮挡严重的情况下也能获得稠密的点对，从而有效避免了物体被遮挡所导致的估计效果差的问题，适用于动态物体和静态物体，可有效准确地估计各类场景中的物体的三维信息，提高二维图像中物体的三维信息估计的鲁棒性和准确性，同时也能够降低实现三维信息估计的成本。

但是，对于严重遮挡的物体，采用上述方案获得的效果虽优于现有技术，但仍不够精确。对此，在上述实施例的基础上，本发明另一实施例提出了更为优选的物体三维信息估计方法。图2是该更为优选的实施例的物体三维信息估计方法的流程示意图。

如图2所示，该方法在图1所对应的实施例的基础上增加了步骤S210，该步骤S210可设置在步骤S200和步骤S300之间，且包括：根据所述映射关系，判定物体的可见部件是否在同一平面上，以及根据判定结果，将所述二维图像中的物体分为可见部件不在同一平面上的第一类物体和可见部件在同一平面上的第二类物体。

需说明的是，本发明实施例并不限制步骤S200和步骤S210的执行顺序，可根据实际应用场景进行选择。

举例而言，例如通过卷积神经网络进行物体部件级分割和稠密点对估计时，获取了图像中每个物体的部件信息和每个部件中二维像素点和三维点的映射关系，从而依据卷积神经网络的结果就可以判定物体的可见部分是否在同一平面，进而物体的类型归属，即属于第一类物体还是第二类物体。

如上所述，三维物体在空间中存在6个自由度的运动，从而易知对于可见部分不在同一平面的第一类物体，采用算法(例如PnP)进行6个自由度的参数控制，就能直接求解三维模型与二维物体之间的姿态关系。但是，对于第二类物体，其可见部分都处于同一平面，例如对于车辆，可见部分都处于同一个地面，则地面信息约束会控制三维模型只能在地面上进行平移和旋转，从而降低了三维物体在空间中的运动自由度参数。如此，参数约束的不足，会使得应用PnP等算法求解时存在多解的情况，会导致三维信息获取失败。

对此，在优选的实施例中，针对所述第一类物体和所述第二类物体，分别应用了所述步骤S300对应的三维信息估计方案。

图3(a)是本发明实施例中适用于第一类物体的三维信息估计方法的流程示意图。如图3(a)所示，该三维信息估计方法可以包括以下步骤：

步骤S311，以所述稠密点对为输入，计算待估计的第一类物体与所述三维模型的姿态关系。

举例而言，采用上述的PnP等算法遍历模型库以计算出所述姿态关系。

步骤S312，基于所述姿态关系，估计所述第一类物体的三维信息。

举例而言，根据所述姿态关系，可确定三维模型的3个旋转参数和3个平移参数，以及可确定待估计的第一类物体的姿态参数，从而可基于这3个旋转参数、3个平移参数以及待估计的第一类物体的姿态参数，估计出所述第一类物体的三维信息。

图3(b)是本发明实施例中适用于第二类物体的三维信息估计方法的流程示意图。如图3(b)所示，该三维信息估计方法可以包括以下步骤：

步骤S321，在所述二维图像中搜索与待估计的第二类物体在图像空间中像素距离最接近的属于第一类物体的物体以作为参照物体。

其中，进行搜索的方法优选可以包括：计算点对中的二维像素点的均值，并将该均值作为当前物体的中心点，然后遍历当前图像中第一类物体的所有二维物体的中心点，选取中心点距离最近的二维物体作为参照物体。

步骤S322，以所述稠密点对为输入，计算所述参照物体与所述三维模型的姿态关系。

举例而言，可采用上述的PnP等算法遍历模型库以计算出所述参照物体与所述三维模型的姿态关系。

步骤S323，基于所述参照物体与所述三维模型的姿态关系求解所述二维图像对应的地面法向参数。

即，使用参照物体的姿态参数求解当前图像对应的地面法向，从而可减少当前待估计的第二类物体的特求解参数，具体表现为：在地面法向确定后，将待求解的旋转参数由三个减为一个。

步骤S324，基于所述地面法向参数及所述参照物体的平移参数，计算所述待估计的第二类物体的姿态参数。

举例而言，可采用最小二乘法等算法，以地面法向参数及参照物体的平移参数作为输入，求解出当前待估计的第二类物体的姿态参数。

步骤S325，基于所述待估计的第二类物体的姿态参数，估计所述第二类物体的三维信息。

具体地，确定了第二类物体的姿态参数即相当于得到了该第二类物体与三维模型的姿态关系，根据上文，已知该姿态关系后，可估计出对应的第二类物体的三维信息。

在优选的实施例中，对于步骤S312和步骤S325，在执行它们之前，还可以执行以下步骤：根据对应的姿态关系，将所述稠密点对中的三维点投影至二维图像平面，并计算与对应的二维像素点之间的重投影误差；以及选取重投影误差最小的三维模型及其对应的姿态关系估计所述二维图像中的所述第一类物体或所述第二类物体的三维信息。如此，可以获得最为匹配的三维模型来进行当前二维图像中的物体的三维信息估计。

图4是本发明实施例的示例中针对单张二维图像中的多个物体的三维信息估计方法的流程示意图。另外，该示例所针对的应用场景是自动驾驶车辆路面行驶。下面通过该示例来具体介绍上述步骤所示出的本发明实施例的方案。

如图4所示，该示例的整个三维信息估计流程包括三个部分。

一、稠密点对估计，包括以下的步骤S411-步骤S414。

步骤S411，输入二维图像。

本示例中，所述二维图像为自动驾驶车辆的车载摄像头所拍摄的前方路面的信息，对应的多个物体包括行人、车辆、障碍物、路锥等。

步骤S412，进行物体实例分割及部件级实例分割。

其中，二维图像中的物体往往存在遮挡，而本示例中的自动驾驶车辆属于动态物体，其前方既可能有路锥等静态物体，又可能有车辆、行人等动态物体，故而受环境及各个物体之间的相互运动的影响，物体间发生遮挡的情况会更加常见，并变得非常复杂。

因此，为了保证二维物体至三维模型的映射关系的估计精度，本示例中根据物体的几何结构的一致性，把物体分为不同的部件，例如可分为左前车门、左后车门、引擎盖、后备箱等。

具体地，本示例可使用卷积神经网络进行物体可见部分的整体实例分割和部件级实例分割。

步骤S413，稠密点对估计。

具体地，承接前一步骤，针对不同的部件，以当前部件的二维像素点为输入，使用卷积神经网络估计与这些二维像素点对应的三维模型中纹理的[U,V]坐标，然后根据[U,V]坐标获取对应的模型的三维点坐标索引，进而建立二维像素点三维模型三维点的映射关系，组成稠密的点对。

步骤S414，物体类别判别。

具体地，根据卷积神经网络的结果，根据物体可见部件是否在同一平面上，可以将图像中的物体分为两类：可见部件不在同一平面上的物体，定义为第一类物体；可见部件在同一平面上的物体，定义为第二类物体。

二、二维物体与三维模型匹配，包括以下的步骤S421以及步骤S422A和步骤S422B。

步骤S421，稠密点对建立。

具体地，根据第一步估计的部件中二维像素点和三维模型纹理的UV坐标，可以获得稠密的二维像素点及对应的三维模型中三维点，组成一组点对。

步骤S422A，针对第一类物体的三维信息估计。

具体地，可以包括以下步骤：

步骤A1，进行物体姿态计算。

具体地，使用建立的稠密点对(二维点和对应的三维点)作为输入，使用算法，如Pnp等，计算三维模型与二维物体之间的姿态关系。

步骤A2，重投影误差计算。

根据步骤A2中获得的物体姿态，将建立的稠密点对中的三维点投影至二维图像平面，并与对应的二维关键点之间计算重投影误差。

步骤A3，选取最优姿态和模型。

具体地，遍历模型库中的所有模型，对于模型库中的每一个三维模型，重复步骤A1和步骤A2的操作，选取重投影误差最小的三维模型及其对应的姿态参数进行当前二维图像中的物体三维信息估计。

步骤S422B，针对第二类物体的三维信息估计。

具体地，可以包括以下步骤：

步骤B1，选取第一类物体中的参照物体。

具体地，计算点对中的二维像素点的均值以作为当前物体的中心点，然后遍历当前图像中的第一类物体中所有二维物体的中心点，选取中心点距离最近的二维物体作为参照物体。

步骤B2，求解地面法向。

具体地，使用参照物体的姿态参数求解当前图像对应的地面法向，减少当前物体的待求解参数，具体表现为将待求解的旋转参数由三个减为一个。

步骤B3，姿态求解。

具体地，以地面法向参数及参照物体的平移参数作为输入，使用算法，如最小二乘算法等，求解当前物体的姿态参数。

步骤B4，重投影误差计算。

具体地，根据步骤B3中获得姿态将点对中的三维点投影至二维平面，并与对应的二维关键点之间计算重投影误差.

步骤B5，选取最优姿态和模型。

具体地，遍历模型库中的所有模型，对于模型库中的每一个三维模型，重复步骤B1、B2和B3，选取重投影误差最小的三维模型及其对应的姿态参数进行当前二维图像中物体三维信息估计。

三、结果输出

步骤S431，进行结果输出。

具体地，通过上述第一步和第二步操作，完成了对当前二维图像中所有待估计三维信息的物体的模型匹配后，需进行结果的输出。本示例输出的结果为对应当前二维图像中物体的深度、三维物体模型的姿态(即旋转和平移参数)以及相应的二维和三维的包围盒。

需说明的是，物体的三维信息获取，特别是动态物体的三维信息获取，更特别是移动物体的三维信息是非常有挑战性的问题。并且，该问题在当前人工智能领域、自动驾驶领域受到了越来越多的关注，因为物体的三维信息可以提供与RGB信息互补的约束，同时可以反映物体与当前摄像机之间的距离。通过上述示例，可知本发明实施例的方法可以估计物体的三维信息，包括动态物体和静态物体，且同时利用二维像素点和三维模型的三维点的匹配以及地面约束，可以有效准确的估计各类场景中的物体的三维信息，获得二维图像中物体的深度、三维模型对应二维物体的姿态以及相应的二维及三维包围盒，既可以提高二维图像中物体的三维信息估计，同时也能够降低实现的成本。

基于与上述实施例的物体三维信息估计方法相同的发明思路，本发明实施例还提供了一种物体三维信息估计装置。图5是本发明实施例所述的物体三维信息估计装置的结构示意图，如图5所示，该物体三维信息估计装置包括：分割模块100，用于对二维图像中的物体进行整体实例分割和部件级实例分割，获得分割后的多个物体实例的图像区域；稠密点对估计模块200，用于在每个所述物体实例的图像区域中，估计二维像素点和对应的三维模型的三维点之间的映射关系，并根据所述映射关系，获得由二维像素点和对应的三维点组成的稠密点对；以及三维信息估计模块300，用于基于所述稠密点对估计所述二维图像中的物体的三维信息。

在优选的实施例中，所述分割模块100可以包括：物体分割子模块110，用于采用卷积神经网络对所述二维图像中物体进行整体实例分割和物体的部件级实例分割，产生每个物体的掩模及物体的每个可见部件的掩模；区域获取子模块120，用于基于所述掩模，分别获取每个物体在所述二维图像中的图像区域及物体的每个可见部件在所述二维图像中的图像区域。

在优选的实施例中，所述稠密点对估计模块200用于估计二维像素点和对应的三维模型的三维点的映射关系包括：以各个图像区域中的物体的二维像素点为输入，使用卷积神经网络估计与所输入的二维像素点对应的三维模型中的纹理UV坐标；基于所述纹理UV坐标获取对应的三维模型的三维点坐标索引；以及基于所述三维点坐标索引建立所述映射关系。

在更为优选的实施例中，所述物体三维信息估计装置还包括分类模块(图中未示出)，其用于在所述三维信息估计模块300执行三维信息估计之前，执行以下步骤：根据所述映射关系，判定物体的可见部件是否在同一平面上；以及根据判定结果，将所述二维图像中的物体分为可见部件不在同一平面上的第一类物体和可见部件在同一平面上的第二类物体；其中，所述三维信息估计模块分别对所述第一类物体和所述第二类物体进行三维信息估计。

进一步地，针对所述第一类物体，所述三维信息估计模块300用于基于所述稠密点对估计所述二维图像中的物体的三维信息包括：以所述稠密点对为输入，计算待估计的第一类物体与所述三维模型的姿态关系；以及基于所述姿态关系，估计所述第一类物体的三维信息。

进一步地，针对所述第二类物体，所述三维信息估计模块300用于基于所述稠密点对估计所述二维图像中的物体的三维信息包括：在所述二维图像中搜索与待估计的第二类物体在图像空间中像素距离最接近的属于第一类物体的物体以作为参照物体；以所述稠密点对为输入，计算所述参照物体与所述三维模型的姿态关系；基于所述参照物体与所述三维模型的姿态关系求解所述二维图像对应的地面法向参数；基于所述地面法向参数及所述参照物体的平移参数，计算所述待估计的第二类物体的姿态参数；以及基于所述待估计的第二类物体的姿态参数，估计所述第二类物体的三维信息。

更进一步地，所述三维信息估计模块300还用于在所述估计所述第一类物体的三维信息或所述估计所述第二类物体的三维信息之前，执行以下步骤：根据对应的姿态关系，将所述稠密点对中的三维点投影至二维图像平面，并计算与对应的二维像素点之间的重投影误差；以及选取重投影误差最小的三维模型及其对应的姿态参数估计所述二维图像中的所述第一类物体或所述第二类物体的三维信息。

需说明的是，本发明实施例的物体三维信息估计装置与上述实施例的物体三维信息估计方法的具体实施细节及效果相同或相似，在此不再赘述。

本发明另一实施例还提供一种计算机设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的物体三维信息估计方法。

本发明另一实施例还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行如上所述的物体三维信息估计方法。

对于计算机设备及机器可读存储介质中的物体三维信息估计方法可参考上述实施例进行理解，在此不再赘述。下面主要结合应用场景对计算机设备及机器可读存储介质进行进一步介绍。

本领域内的技术人员应明白，本发明实施例可提供为方法、装置(设备或系统)、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(设备或系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算机设备包括一个或多个处理器(CPU)、存储器、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明实施例可提供为方法、系统或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，例如改变步骤执行顺序，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种物体三维信息估计方法，其特征在于，所述物体三维信息估计方法包括：

分割步骤，对二维图像中的物体进行整体实例分割和部件级实例分割，获得分割后的多个物体实例的图像区域；

稠密点对估计步骤，在每个所述物体实例的图像区域中，估计二维像素点和对应的三维模型的三维点之间的映射关系，并根据所述映射关系，获得由二维像素点和对应的三维点组成的稠密点对；以及

三维信息估计步骤，基于所述稠密点对估计所述二维图像中的物体的三维信息。

2.根据权利要求1所述的物体三维信息估计方法，其特征在于，所述分割步骤具体包括：

采用卷积神经网络对所述二维图像中物体进行整体实例分割和物体的部件级实例分割，产生每个物体的掩模及物体的每个可见部件的掩模；以及

基于所述掩模，分别获取每个物体在所述二维图像中的图像区域及物体的每个可见部件在所述二维图像中的图像区域。

3.根据权利要求1所述的物体三维信息估计方法，其特征在于，在所述稠密点对估计步骤中，所述估计二维像素点和对应的三维模型的三维点的映射关系包括：

以各个图像区域中的物体的二维像素点为输入，使用卷积神经网络估计与所输入的二维像素点对应的三维模型中的纹理UV坐标；

基于所述纹理UV坐标获取对应的三维模型的三维点坐标索引；以及

基于所述三维点坐标索引建立所述映射关系。

4.根据权利要求1所述的物体三维信息估计方法，其特征在于，所述物体三维信息估计方法还包括在所述三维信息估计步骤之前执行的分类步骤，且所述分类步骤包括：

根据所述映射关系，判定物体的可见部件是否在同一平面上；以及

根据判定结果，将所述二维图像中的物体分为可见部件不在同一平面上的第一类物体和可见部件在同一平面上的第二类物体；

其中，所述三维信息估计步骤分别应用于所述第一类物体和所述第二类物体。

5.根据权利要求4所述的物体三维信息估计方法，其特征在于，针对所述第一类物体，所述三维信息估计步骤具体包括：

以所述稠密点对为输入，计算待估计的第一类物体与所述三维模型的姿态关系；以及

基于所述姿态关系，估计所述第一类物体的三维信息。

6.根据权利要求5所述的物体三维信息估计方法，其特征在于，针对所述第二类物体，所述三维信息估计步骤具体包括：

在所述二维图像中搜索与待估计的第二类物体在图像空间中像素距离最接近的属于第一类物体的物体以作为参照物体；

以所述稠密点对为输入，计算所述参照物体与所述三维模型的姿态关系；

基于所述参照物体与所述三维模型的姿态关系求解所述二维图像对应的地面法向参数；

基于所述地面法向参数及所述参照物体的平移参数，计算所述待估计的第二类物体的姿态参数；以及

基于所述待估计的第二类物体的姿态参数，估计所述第二类物体的三维信息。

7.根据权利要求6所述的物体三维信息估计方法，其特征在于，所述三维信息估计步骤还包括：

在所述估计所述第一类物体的三维信息或所述估计所述第二类物体的三维信息之前，执行以下步骤：

根据对应的姿态关系，将所述稠密点对中的三维点投影至二维图像平面，并计算与对应的二维像素点之间的重投影误差；以及

选取重投影误差最小的三维模型及其对应的姿态关系估计所述二维图像中的所述第一类物体或所述第二类物体的三维信息。

8.一种物体三维信息估计装置，其特征在于，所述物体三维信息估计装置包括：

分割模块，用于对二维图像中的物体进行整体实例分割和部件级实例分割，获得分割后的多个物体实例的图像区域；

稠密点对估计模块，用于在每个所述物体实例的图像区域中，估计二维像素点和对应的三维模型的三维点之间的映射关系，并根据所述映射关系，获得由二维像素点和对应的三维点组成的稠密点对；以及

三维信息估计模块，用于基于所述稠密点对估计所述二维图像中的物体的三维信息。

9.根据权利要求8所述的物体三维信息估计装置，其特征在于，所述分割模块包括：

物体分割子模块，用于采用卷积神经网络对所述二维图像中物体进行整体实例分割和物体的部件级实例分割，产生每个物体的掩模及物体的每个可见部件的掩模；以及

区域获取子模块，用于基于所述掩模，分别获取每个物体在所述二维图像中的图像区域及物体的每个可见部件在所述二维图像中的图像区域。

10.根据权利要求8所述的物体三维信息估计装置，其特征在于，所述稠密点对估计模块用于估计二维像素点和对应的三维模型的三维点的映射关系包括：

基于所述三维点坐标索引建立所述映射关系。

11.根据权利要求8所述的物体三维信息估计装置，其特征在于，所述物体三维信息估计装置还包括：

分类模块，用于在所述三维信息估计模块执行三维信息估计之前，执行以下步骤：

其中，所述三维信息估计模块分别对所述第一类物体和所述第二类物体进行三维信息估计。

12.根据权利要求11所述的物体三维信息估计装置，其特征在于，针对所述第一类物体，所述三维信息估计模块用于基于所述稠密点对估计所述二维图像中的物体的三维信息包括：

基于所述姿态关系，估计所述第一类物体的三维信息。

13.根据权利要求12所述的物体三维信息估计装置，其特征在于，针对所述第二类物体，所述三维信息估计模块用于基于所述稠密点对估计所述二维图像中的物体的三维信息包括：

14.根据权利要求13所述的物体三维信息估计装置，其特征在于，所述三维信息估计模块还用于：

选取重投影误差最小的三维模型及其对应的姿态参数估计所述二维图像中的所述第一类物体或所述第二类物体的三维信息。

15.一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行权利要求1至7中任意一项所述的物体三维信息估计方法。

16.一种计算机设备，其特征在于，该计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至7中任意一项所述的物体三维信息估计方法。