CN109902675B

CN109902675B - 物体的位姿获取方法、场景重构的方法和装置

Info

Publication number: CN109902675B
Application number: CN201811080211.5A
Authority: CN
Inventors: 刘传建; 王靓伟; 李扬彦
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2021-05-04
Anticipated expiration: 2038-09-17
Also published as: CN109902675A

Abstract

本申请提供一种物体的位姿获取方法、场景重构的方法和装置。本申请物体的位姿获取方法，包括：获取二维场景图像；通过机器学习得到图像的全局特征图；从图像中获取多个ROI，并获取各ROI的特征图；根据部分或全部ROI的特征图联合预测图像中的物体的共同上轴信息；根据目标ROI的特征图预测目标ROI中的目标物体的个体信息，目标ROI为多个ROI中包括图像中需要进行位姿获取的目标物体的ROI；根据目标ROI中目标物体的个体信息和共同上轴信息获取目标物体的位姿。本申请提高物体位姿估计的效率，保证位姿估计的准确率。

Description

物体的位姿获取方法、场景重构的方法和装置

技术领域

本申请涉及计算机视觉领域的技术，尤其涉及一种物体的位姿获取方法、场景重构的方法和装置。

背景技术

室内场景的三维重建是移动机器人自主导航、增强现实以及摄影测量领域实景三维重建系统的重要技术，其中最重要的步骤是位姿估计。目前，室内场景的三维重建包括基于激光和基于图像两种方法，前者精度高，但激光设备价格高昂，后者细节更丰富且成本低，但精度较低。

现有技术中，通常采用卷积神经网络(Convolutional Neural Networks，简称：CNN)来检测图像中的目标部件，针对每个目标部件，预测其位置，计算其与模型库中各标准模型的相似度，再利用相似度确定与其对应的标准模型，最后结合各目标部件的位置匹配关系估计目标的位姿。

但是，上述方法依赖于目标部件的检测结果，当噪声较大或遮挡严重导致无法检测出准确的目标部件时，会降低目标位姿估计的准确率，从而无法重构出三维场景。

发明内容

本申请提供一种物体的位姿获取方法、场景重构的方法和装置，以提高物体位姿估计的效率，保证位姿估计的准确率。

第一方面，本申请提供一种物体的位姿获取方法，其执行主体可以是移动机器人，也可以是服务器、云平台等，只要是具备图像计算能力的设备均可作为本申请提供的方法的执行主体。本申请提供的物体的位姿获取方法中获取一二维场景图像，该图像是通过相机拍摄得到的，可选的，该图像可以是室内场景图像，通过机器学习得到该图像的全局特征图，从图像中获取多个ROI，并获取各ROI的特征图，一个ROI中可以是某个物体的完整图像，也可以是某个区域的完整图像，此处不做具体限定。再根据部分或全部ROI的特征图联合预测图像中的物体的共同上轴信息。可选的，还可以根据部分或全部ROI的特征图和全局特征图联合预测共同上轴信息。然后根据图像中需要进行位姿获取的目标物体的ROI的特征图预测目标物体的个体信息，该个体信息可以包括目标物体的正面朝向信息和到拍摄相机的距离信息，其中，正面朝向信息可以是通常认知下一个物体的正面的方向，例如，沙发、桌子、凳子等通常认为其正前方为正面，电视机通常认为其屏幕为正面，相机通常认为其镜头为正面。距离信息可以是目标物体的中心位置到拍摄相机的中心位置还见的距离信息。最后根据目标物体的个体信息和共同上轴信息获取目标物体的位姿。可选的，在获取物体的位姿时还可以考虑上拍摄相机的高度。本申请基于单帧二维场景图像，通过机器学习对图像中的物体进行预测，并利用小孔成像原理减少了对物体的位姿预测的参数搜索空间，提高效率，而多个ROI的特征图联合预测物体的位姿保证了准确率，使得获取到的物体的位姿更符合实际情况。

在一种可能的实现方式中，根据部分或全部ROI的特征图联合预测图像中的物体的共同上轴信息，包括：联结(concate)部分或全部ROI的特征图得到联合特征图，根据联合特征图预测共同上轴信息。或者，合并部分或全部ROI的特征图得到联合特征图，根据联合特征图预测共同上轴信息，其中合并后得到的联合特征图的维度和ROI的特征图的维度相同。还可以在部分或全部ROI的特征图基础上结合全局特征图联合预测共同上轴信息。本实施例通过图像中部分或全部物体各自所在ROI的特征图联合预测图像中的物体的共同上轴信息，进而获取地面的法向，并以法向为参照预测各物体的位姿，预测的方法包括卷积和池化等，提高了位姿估计的准确性。

在一种可能的实现方式中，根据目标ROI中目标物体的个体信息和共同上轴信息获取目标物体的位姿，包括：获取拍摄相机的位置信息，该位置信息包括拍摄相机的坐标位置、拍摄相机的法向和正面朝向，再以拍摄相机的位置信息为参照，根据目标物体的正面朝向信息、目标物体到拍摄相机的距离信息和共同上轴信息计算目标物体的位姿。其中，拍摄相机的位置信息为拍摄相机的中心位置信息，目标物体到拍摄相机的距离信息为目标物体的中心位置到拍摄相机的中心位置的距离信息，则以拍摄相机的中心位置信息为参考坐标系，计算拍摄相机正面朝向到目标物体正面朝向的角度，再计算拍摄相机法向到共同上轴的角度，最后根据拍摄相机正面朝向到目标物体正面朝向的角度、拍摄相机法向到共同上轴的角度和目标物体的中心位置到拍摄相机的中心位置的距离信息计算目标物体的中心位置在参考坐标系中的位姿。

进一步的，在获取目标物体的位姿时可以结合拍摄相机的高度解决many-to-one(即多对一映射，由于相机中心发出的射线，无论距离远近，在图像平面上都是一个点，因此无法确定图像中的物体的实际大小)问题，消除位置预测不合理的物体。

第二方面，本申请提供一种场景重构的方法，包括：获取二维场景图像，该图像是通过相机拍摄得到的，可选的，该图像可以是室内场景图像，通过机器学习得到该图像的全局特征图，从图像中获取多个ROI，并获取各ROI的特征图，一个ROI中可以是某个物体的完整图像，也可以是某个区域的完整图像，此处不做具体限定。再根据部分或全部ROI的特征图联合预测图像中的物体的共同上轴信息。可选的，还可以根据部分或全部ROI的特征图和全局特征图联合预测共同上轴信息。然后根据图像中需要进行位姿获取的目标物体的ROI的特征图预测目标物体的个体信息，该个体信息可以包括目标物体的类别信息、大小信息、正面朝向信息和到拍摄相机的距离信息，其中，类别信息例如可以是沙发、桌子、凳子等，也可以是家具、家电等。大小信息即该目标物体根据其在图像中的大小预测实际大小。正面朝向信息可以是通常认知下一个物体的正面的方向，例如，沙发、桌子、凳子等通常认为其正前方为正面，电视机通常认为其屏幕为正面，相机通常认为其镜头为正面。距离信息可以是目标物体的中心位置到拍摄相机的中心位置还见的距离信息。根据类别信息和大小信息从模型仓库中获取目标物体的三维模型。根据目标物体的正面朝向信息、目标物体到拍摄相机的距离信息和共同上轴信息获取目标物体的位姿。可选的，在获取目标物体的位姿时还可以考虑上拍摄相机的高度。最后根据目标物体的位姿和三维模型重构场景。本申请基于单帧二维场景图像，通过机器学习对图像中的物体进行预测，并利用小孔成像原理减少了对物体的位姿预测的参数搜索空间，提高效率，而多个ROI的特征图联合预测物体的位姿保证了准确率，使得获取到的三维场景重构图更符合实际情况。

第三方面，本申请提供一种物体的位姿获取装置，包括：

图像获取模块，用于获取二维场景图像；

特征预测模块，用于通过机器学习得到所述图像的全局特征图；从所述图像中获取多个感兴趣区域ROI，并获取各ROI的特征图；

联合预测模块，用于根据部分或全部所述ROI的特征图联合预测所述图像中的物体的共同上轴信息；

个体预测模块，用于根据目标ROI的特征图预测所述目标ROI中的目标物体的个体信息；所述目标ROI为所述特征预测模块获取的所述多个ROI中包括所述图像中需要进行位姿获取的目标物体的ROI；

位姿获取模块，用于根据所述目标ROI中目标物体的所述个体信息和所述共同上轴信息获取所述目标物体的位姿。

在一种可能的实现方式中，所述个体预测模块，具体用于根据目标ROI的特征图预测所述目标ROI中的目标物体的正面朝向信息和到拍摄相机的距离信息。

在一种可能的实现方式中，所述联合预测模块，具体用于联结部分或全部所述ROI的特征图得到联合特征图，根据所述联合特征图预测所述共同上轴信息。

在一种可能的实现方式中，所述联合预测模块，具体用于合并部分或全部所述ROI的特征图得到联合特征图，根据所述联合特征图预测所述共同上轴信息，其中合并后得到的所述联合特征图的维度和所述ROI的特征图的维度相同。

在一种可能的实现方式中，所述联合预测模块，具体用于根据部分或全部所述ROI的特征图和所述全局特征图联合预测所述共同上轴信息。

在一种可能的实现方式中，所述特征预测模块，还用于根据所述全局特征图预测所述拍摄相机的高度；

所述位姿获取模块，具体用于根据所述拍摄相机的高度、所述目标物体的正面朝向信息、所述目标物体到拍摄相机的距离信息和所述共同上轴信息获取所述目标物体的位姿。

在一种可能的实现方式中，所述位姿获取模块，具体用于获取所述拍摄相机的位置信息，所述位置信息包括所述拍摄相机的坐标位置、所述拍摄相机的法向和正面朝向；以所述拍摄相机的位置信息为参照，根据所述目标物体的正面朝向信息、所述目标物体到拍摄相机的距离信息和所述共同上轴信息计算所述目标物体的位姿。

在一种可能的实现方式中，所述拍摄相机的位置信息为所述拍摄相机的中心位置信息；所述目标物体到拍摄相机的距离信息为所述目标物体的中心位置到所述拍摄相机的中心位置的距离信息；

所述位姿获取模块，具体用于以所述拍摄相机的中心位置信息为参考坐标系，计算所述拍摄相机正面朝向到所述目标物体正面朝向的角度；计算所述拍摄相机法向到所述共同上轴的角度；根据所述拍摄相机正面朝向到所述目标物体正面朝向的角度、所述拍摄相机法向到所述共同上轴的角度和所述目标物体的中心位置到所述拍摄相机的中心位置的距离信息计算所述目标物体的中心位置在所述参考坐标系中的位姿。

第四方面，本申请提供一种场景重构的装置，包括：

图像获取模块，用于获取二维场景图像；

个体预测模块，用于根据目标ROI的特征图预测所述目标ROI中的目标物体的个体信息，所述目标ROI为包括所述图像中需要进行位姿获取的目标物体的ROI，所述个体信息包括目标物体的类别信息、大小信息、正面朝向信息和到拍摄相机的距离信息；

位姿获取模块，用于根据所述目标物体的正面朝向信息、所述目标物体到拍摄相机的距离信息和所述共同上轴信息获取所述目标物体的位姿；

模型获取模块，用于根据所述目标物体的类别信息和大小信息获取所述目标物体的三维模型；

重构模块，用于根据所述目标物体的位姿和所述三维模型重构场景。

第五方面，本申请提供一种设备，包括存储器、一个或多个处理器及存储在存储器上并可在所述一个或多个处理器上运行的计算机程序；其中，所述一个或多个处理器执行所述程序时实现如上述第一方面或第二方面中任一所述的方法。

第六方面，本申请提供一种计算机存储介质，该计算机可读存储介质中存储有指令，所述指令可以由处理电路上的一个或多个处理器执行。当其在计算机上运行时，使得计算机执行上述第一方面或第二方面中任一所述的方法。

第七方面，本申请提供一种包含指令的计算机程序产品，其在计算机上运行时，使得计算机执行上述第一方面或第二方面中任一所述的方法。

第八方面，本申请提供一种设备，包括一个或多个处理器；其中，所述处理器用于执行上述第一方面或第二方面中任一所述的方法。

本申请物体的位姿获取方法、场景重构的方法和装置，基于单帧二维场景图像，通过机器学习对图像中的物体进行预测，并利用小孔成像原理减少了对物体的位姿预测的参数搜索空间，提高效率，而多个ROI的特征图联合预测物体的共同上轴，并基于联合预测的共同上轴计算目标物体的位姿，保证了物体位姿获取的准确率，使得获取到的物体的位姿更符合实际情况。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请物体的位姿获取方法实施例一的流程图；

图2为本申请物体的位姿获取方法实施例二的流程图；

图3为本申请物体的位姿获取方法实施例二的物体朝向示意图；

图4为本申请物体的位姿获取方法实施例二的一种预测共同上轴信息方式的示意图；

图5为本申请物体的位姿获取方法实施例二的另一种预测共同上轴信息方式的示意图；

图6为本申请物体的位姿获取方法实施例二的另一种预测共同上轴信息方式的示意图；

图7为本申请物体的位姿获取方法实施例二的另一种预测共同上轴信息方式的示意图；

图8为本申请物体的位姿获取方法实施例二的个体信息预测示意图；

图9为本申请物体的位姿获取方法实施例二的位姿获取示意图；

图10为本申请场景重构的方法实施例的流程图；

图11a为本申请场景重构的方法实施例的重构前二维图像示意图；

图11b为本申请场景重构的方法实施例的重构后三维图像示意图；

图12为本申请物体的位姿获取装置实施例的结构示意图；

图13为本申请场景重构的装置实施例的结构示意图；

图14为本申请设备实施例的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

室内场景的三维重建是移动机器人自主导航、增强现实以及摄影测量领域实景三维重建系统的重要技术，其中最重要的步骤是位姿估计。目前，室内场景的三维重建包括基于激光和基于图像两种方法，前者精度高，但激光设备价格高昂，后者细节更丰富且成本低，但精度较低。现有技术中采用CNN来预测图像中的目标部件，针对每个目标部件，预测其位置，计算其与模型库中各标准模型的相似度，再利用相似度确定与其对应的标准模型，最后结合各目标部件的位置匹配关系估计目标的位姿。但是，这种方法依赖于目标部件的检测结果，当噪声较大或遮挡严重导致无法检测出准确的目标部件时，会降低目标位姿估计的准确率，从而无法重构出三维场景。

为了解决上述技术问题，本申请提供一种物体的位姿获取方法，其执行主体可以是移动机器人，也可以是服务器、云平台等，只要是具备图像计算能力的设备均可作为本申请提供的方法的执行主体。图1为本申请物体的位姿获取方法实施例一的流程图，如图1所示，本申请提供的物体的位姿获取方法中获取一帧二维场景图像，该图像是通过相机拍摄得到的，可选的，该图像可以是室内场景图像，通过机器学习得到该图像的全局特征图(feature map)，从图像中获取多个感兴趣区域(Region of Interest，简称：ROI)，并获取各ROI的特征图，一个ROI中可以是某个物体的完整图像，也可以是某个区域的完整图像，此处不做具体限定。再根据部分或全部ROI的特征图联合预测图像中的物体的共同上轴信息。可选的，还可以根据部分或全部ROI的特征图和全局特征图联合预测共同上轴信息。然后根据图像中需要进行位姿获取的目标物体的ROI的特征图预测目标物体的个体信息，该个体信息可以包括目标物体的正面朝向信息和到拍摄相机的距离信息，其中，正面朝向信息可以是通常认知下一个物体的正面的方向，例如，沙发、桌子、凳子等通常认为其正前方为正面，电视机通常认为其屏幕为正面，相机通常认为其镜头为正面。距离信息可以是目标物体的中心位置到拍摄相机的中心位置还见的距离信息。最后根据目标物体的个体信息和共同上轴信息获取目标物体的位姿。可选的，在获取物体的位姿时还可以考虑上拍摄相机的高度。本申请基于单帧二维场景图像，通过机器学习对图像中的物体进行预测，并利用小孔成像原理减少了对物体的位姿预测的参数搜索空间，提高效率，而多个ROI的特征图联合预测物体的共同上轴，并基于联合预测的共同上轴计算目标物体的位姿，保证了物体位姿获取的准确率，使得获取到的物体的位姿更符合实际情况。

图2为本申请物体的位姿获取方法实施例二的流程图，如图2所示，本实施例的方法可以包括：

步骤101、获取二维场景图像。

具体包括，获取包括多个物体的场景图像，通常场景图像内需要包括多个具有相同法向的物体，这里所指的多个通常是指两个或两个以上。如果场景图像中只有一个，则不能用于共同上轴的预测。

步骤102、通过机器学习得到图像的全局特征图。

全局特征图是指feature map，本实施例借助于机器的深度学习方法，从事先获取的不同姿态下的训练样本中学习二维观测与三维姿态之间的对应关系，并将学习得到的决策规则或回归函数应用于样本，所得结果作为对样本的姿态估计。深度学习一般采用全局观测特征图，不需检测或识别物体的局部特征，具有较好的鲁棒性。本实施例机器学习可以采用卷积神经网络(Convolutional Neural Networks，简称：CNN)，利用CNN中的卷积和池化技术得到图像的全局特征图。

步骤103、从图像中获取多个ROI，并获取各ROI的特征图。

本实施例获取的ROI的数量可以是两个或两个以上，利用滑动窗口的方法，把全局特征图中的每个像素位置映射到图像的对应像素，以该像素为中心确定不同大小、不同宽高比的框为预选框，然后在每个预选框内使用卷积的方法预测每个预选框内包括物体的概率，并预测每个预选框与真实框的位置偏差，最后对于包括物体的概率大于设定阈值的预选框，结合其位置偏差得到ROI，根据ROI对应于图像上的位置从全局特征图中获取该ROI的特征图。基于场景重构的目的，为了提高效率，ROI选取的均是预测出是包含物体的区域。本实施例可以同时获取多个ROI的特征图，也可以是分次获取各ROI的特征图，即先只获取部分ROI的特征图用于后续步骤中联合预测图像中的物体的共同上轴信息，然后确定图像中需要进行位姿获取的目标物体，再获取目标物体所在ROI的特征图，用于获取目标物体的个体信息。

步骤104、根据部分或全部ROI的特征图联合预测图像中的物体的共同上轴信息。

图3为本申请物体的位姿获取方法实施例二的物体朝向示意图，如图3所示，室内的物体一般有共同的上朝向轴，与地面法向一致，而拍摄相机拍的拍摄角度是多变的，因此拍出来的图像中显示的地面的法向未必如图3所示均竖直向上，为了准确预测物体的位姿，本实施例通过图像中部分或全部物体各自所在ROI的特征图联合预测图像中的物体的共同上轴信息，进而获取地面的法向，并以法向为参照预测各物体的位姿，预测方式有多种，具体可以为卷积加全连接的方式。

本实施例示例性地提供了四种预测共同上轴信息的方法，需知在图像识别、视觉等领域中还可以有其他方法实现该共同上轴信息的预测，对此不做具体限定。

图4为本申请物体的位姿获取方法实施例二的一种预测共同上轴信息方式的示意图，如图4所示，联结(concate)部分或全部ROI的特征图得到联合特征图，根据联合特征图预测共同上轴信息。假设每个ROI的特征图维度为C*H*W，共有n个ROI，则联结后得到特征维度为nC*H*W的联合特征图，联结过程中可以通过卷积和池化的方式调整特征图的维度。利用该联合特征图预测共同上轴信息，预测方式有多种，具体可以为卷积加全连接的方式。

图5为本申请物体的位姿获取方法实施例二的另一种预测共同上轴信息方式的示意图，如图5所示，合并部分或全部ROI的特征图得到联合特征图，根据联合特征图预测共同上轴信息，其中合并后得到的联合特征图的维度和ROI的特征图的维度相同。假设每个ROI的特征图维度为C*H*W，共有n个ROI，合并所有ROI对应通道、对应像素位置的值，合并方法包括求和、取最大值或者取平均等，合并后得到特征维度为C*H*W的联合特征图，合并过程中可以通过卷积和池化的方式调整特征图的维度。利用该联合特征图预测共同上轴信息，预测方式有多种，具体可以为卷积加全连接的方式。

图6为本申请物体的位姿获取方法实施例二的另一种预测共同上轴信息方式的示意图，如图6所示，联结(concate)部分或全部ROI的特征图，以及全局特征图得到联合特征图，根据联合特征图预测共同上轴信息。假设每个ROI的特征图维度为C*H*W，共有n个ROI，则联结后得到的ROI联结特征图的维度为nC*H*W，再利用卷积和池化的方法将全局特征图的维度调整为m*H*W，最后将前述步骤得到维度为nC*H*W的ROI联结特征图和维度为m*H*W的全局特征图再次联结，得到联合特征图，联结过程中可以通过卷积和池化的方式调整特征图的维度。利用该联合特征图预测共同上轴信息，同样也可以为卷积加全连接的方式进行预测。

图7为本申请物体的位姿获取方法实施例二的另一种预测共同上轴信息方式的示意图，如图7所示，合并部分或全部ROI的特征图，以及全局特征图得到联合特征图，根据联合特征图预测共同上轴信息，其中合并后得到的联合特征图的维度和ROI的特征图的维度相同。假设每个ROI的特征图维度为C*H*W，共有n个ROI，合并所有ROI对应通道、对应像素位置的值，合并方法包括求和、取最大值或者取平均等，合并后得到的ROI合并特征图的维度为C*H*W，再利用卷积和池化的方法将全局特征图的维度调整为C*H*W，最后将前述步骤得到维度为C*H*W的ROI合并特征图和维度为C*H*W的全局特征图再次联结，得到联合特征图，合并过程中可以通过卷积和池化的方式调整特征图的维度。利用该联合特征图预测共同上轴信息，同样也可以为卷积加全连接的方式进行预测。

步骤105、根据目标ROI的特征图预测目标ROI中的目标物体的个体信息，目标ROI为包括图像中需要进行位姿获取的目标物体的ROI。

目标物体的个体信息包括目标ROI中的目标物体的正面朝向信息和到拍摄相机的距离信息。图8为本申请物体的位姿获取方法实施例二的个体信息预测示意图，如图8所示，对于每个ROI特征图，可以选择利用卷积和全连接方法预测物体的类别信息、大小信息、正面朝向信息以及到拍摄相机的距离信息。

步骤106、根据目标ROI中目标物体的个体信息和共同上轴信息获取目标物体的位姿。

图9为本申请物体的位姿获取方法实施例二的位姿获取示意图，如图9所示，图像是由相机拍摄的拍摄得到的，相当于图像是以相机为“眼睛”看到的，这样图像中显示的物体的位姿其实是相机这个“眼睛”所看到的，但受到相机自身的正面朝向、高度、上轴方向等影响，图像中的物体的位姿与实际情况有偏差。例如，相机的上轴方向不是竖直向上的，则拍摄的图像的地面法线可能就不是竖直向上了。再例如，相机的正面朝向发生变化，拍摄的图像中的物体呈现出来的正面朝向、相对距离、大小等都是不同的。因此本实施例先获取拍摄相机的位置信息，该位置信息包括拍摄相机的坐标位置、拍摄相机的法向和正面朝向，再以拍摄相机的位置信息为参照，根据目标物体的正面朝向信息、目标物体到拍摄相机的距离信息和共同上轴信息计算目标物体的位姿。其中，拍摄相机的位置信息为拍摄相机的中心位置信息，目标物体到拍摄相机的距离信息为目标物体的中心位置到拍摄相机的中心位置的距离信息，则以拍摄相机的中心位置信息为参考坐标系，计算拍摄相机正面朝向到目标物体正面朝向的角度，再计算拍摄相机法向到共同上轴的角度，最后根据拍摄相机正面朝向到目标物体正面朝向的角度、拍摄相机法向到共同上轴的角度和目标物体的中心位置到拍摄相机的中心位置的距离信息计算目标物体的中心位置在参考坐标系中的位姿。

示例性的，上述目标物体得位姿的计算过程可以包括如下步骤：

(1)以拍摄相机的中心位置为原点建立参考坐标系，其中，拍摄相机的法相为C_up＝(0,1,0)(y轴)，正面朝向为C_face＝(0,0,1)(z轴)，C_x＝(1,0,0)(x轴)。

(2)拍摄相机的中心位置指向目标物体的中心位置的射线用ray表示，计算C_face与射线ray在拍摄相机水平面(xoz平面)上投影ray'的夹角θ；

该步骤中目标物体的中心位置为(u,v)，射线ray可以利用小孔成像原理

反推得到，然后计算射线ray在拍摄相机水平面的投影ray'，最后计算投影ray'与C_face的夹角θ。

(3)预测目标物体的正面朝向与射线ray在相机水平面(xoz平面)上投影ray'的夹角θ'。

(4)根据夹角θ和θ'计算拍摄相机正面朝向C_face到目标物体正面朝向的角度，该角度可以通过旋转矩阵的方式表示，该步骤实际上是计算拍摄相机正面朝向C_face到目标物体的正面朝向的旋转矩阵R₁。

(5)计算拍摄相机法向C_up到共同上轴的角度，也可以通过旋转矩阵的方式表示，该步骤实际上式计算拍摄相机法向C_up到共同上轴的旋转矩阵R₂。

(6)计算目标物体相对于参考坐标系的旋转矩阵R＝R₂*R₁。

(7)根据预测的目标物体的中心位置到拍摄相机的中心位置的距离d_co，以及拍摄相机的中心位置到目标物体的中心位置的射线ray，计算目标物体的中心位置在参考坐标系中的位置c＝r*d_co。

(8)最后计算目标物体的中心位置在参考坐标系中的位姿为[R,c]。

进一步的，在上述目标物体得位姿的计算过程中的步骤(7)中，为了使预测的距离d_co更加精确，可以在预测得到距离d_co后结合预测得到的相机的高度对距离d_co进行预测调整。增加了相机高度的预测因素可以用于进一步解决many-to-one(即多对一映射，由于相机中心发出的射线，无论距离远近，在图像平面上都是一个点，因此无法确定图像中的物体的实际大小)问题，提高距离预测的精确度。

本实施例，基于单帧二维场景图像，通过机器学习对图像中的物体进行预测，并利用小孔成像原理减少了对物体的位姿预测的参数搜索空间，提高效率，而多个ROI的特征图联合预测物体的共同上轴，并基于联合预测的共同上轴计算目标物体的位姿，保证了物体位姿获取的准确率，使得获取到的物体的位姿更符合实际情况。

本申请还提供一种场景重构的方法，该场景重构的方法中包括物体的位姿获取，而位姿的获取可以采用上述任一物体的位姿获取方法实施例中的方法。图10为本申请场景重构的方法实施例的流程图，如图10所示，本申请提供的场景重构的方法中获取一帧二维场景图像，该图像是通过相机拍摄得到的，可选的，该图像可以是室内场景图像，通过机器学习得到该图像的全局特征图，从图像中获取多个ROI，并获取各ROI的特征图，一个ROI中可以是某个物体的完整图像，也可以是某个区域的完整图像，此处不做具体限定。再根据部分或全部ROI的特征图联合预测图像中的物体的共同上轴信息。可选的，还可以根据部分或全部ROI的特征图和全局特征图联合预测共同上轴信息。然后根据图像中需要进行位姿获取的目标物体的ROI的特征图预测目标物体的个体信息，该个体信息可以包括目标物体的类别信息、大小信息、正面朝向信息和到拍摄相机的距离信息，其中，类别信息例如可以是沙发、桌子、凳子等，也可以是家具、家电等。大小信息即该目标物体根据其在图像中的大小预测实际大小。正面朝向信息可以是通常认知下一个物体的正面的方向，例如，沙发、桌子、凳子等通常认为其正前方为正面，电视机通常认为其屏幕为正面，相机通常认为其镜头为正面。距离信息可以是目标物体的中心位置到拍摄相机的中心位置还见的距离信息。根据类别信息和大小信息从模型仓库中获取目标物体的三维模型。根据目标物体的正面朝向信息、目标物体到拍摄相机的距离信息和共同上轴信息获取目标物体的位姿。可选的，在获取目标物体的位姿时还可以考虑上拍摄相机的高度。最后根据目标物体的位姿和三维模型重构场景。本申请基于单帧二维场景图像，通过机器学习对图像中的物体进行预测，并利用小孔成像原理减少了对物体的位姿预测的参数搜索空间，提高效率，而多个ROI的特征图联合预测物体的共同上轴，并基于联合预测的共同上轴计算目标物体的位姿，保证了物体位姿获取的准确率，使得获取到的三维场景重构图更符合实际情况。

图11a为本申请场景重构的方法实施例的重构前二维图像示意图，图11b为本申请场景重构的方法实施例的重构后三维图像示意图，如图11a和11b所示，通过本申请提供的方法可以准确的重构出图中凳子的三维图像，在位置和姿态上几乎相差无几。

图12为本申请物体的位姿获取装置实施例的结构示意图，如图12所示，本实施例的装置可以对应于移动机器人，也可以对应于服务器、云平台等，只要是具备图像计算能力的设备均可作为本申请提供的室内场景的三维重构装置。该装置可以包括：图像获取模块11、特征预测模块12、联合预测模块13、个体预测模块14和位姿获取模块15，其中，图像获取模块11，用于获取二维场景图像；特征预测模块12，用于通过机器学习得到所述图像的全局特征图；从所述图像中获取多个感兴趣区域ROI，并获取各ROI的特征图；联合预测模块13，用于根据部分或全部所述ROI的特征图联合预测所述图像中的物体的共同上轴信息；个体预测模块14，用于根据目标ROI的特征图预测所述目标ROI中的目标物体的个体信息，所述目标ROI为包括所述图像中需要进行位姿获取的目标物体的ROI；位姿获取模块15，用于根据所述目标ROI中目标物体的所述个体信息和所述共同上轴信息获取所述目标物体的位姿。

在上述技术方案的基础上，所述个体预测模块14，具体用于根据目标ROI的特征图预测所述目标ROI中的目标物体的正面朝向信息和到拍摄相机的距离信息。

在上述技术方案的基础上，所述联合预测模块13，具体用于联结部分或全部所述ROI的特征图得到联合特征图，根据所述联合特征图预测所述共同上轴信息。

在上述技术方案的基础上，所述联合预测模块13，具体用于合并部分或全部所述ROI的特征图得到联合特征图，根据所述联合特征图预测所述共同上轴信息，其中合并后得到的所述联合特征图的维度和所述ROI的特征图的维度相同。

在上述技术方案的基础上，所述联合预测模块13，具体用于根据部分或全部所述ROI的特征图和所述全局特征图联合预测所述共同上轴信息。

在上述技术方案的基础上，所述特征预测模块12，还用于根据所述全局特征图预测所述拍摄相机的高度；所述位姿获取模块15，具体用于根据所述拍摄相机的高度、所述目标物体的正面朝向信息、所述目标物体到拍摄相机的距离信息和所述共同上轴信息获取所述目标物体的位姿。

在上述技术方案的基础上，所述位姿获取模块15，具体用于获取所述拍摄相机的位置信息，所述位置信息包括所述拍摄相机的坐标位置、所述拍摄相机的法向和正面朝向；以所述拍摄相机的位置信息为参照，根据所述目标物体的正面朝向信息、所述目标物体到拍摄相机的距离信息和所述共同上轴信息计算所述目标物体的位姿。

在上述技术方案的基础上，所述拍摄相机的位置信息为所述拍摄相机的中心位置信息；所述目标物体到拍摄相机的距离信息为所述目标物体的中心位置到所述拍摄相机的中心位置的距离信息；所述位姿获取模块15，具体用于以所述拍摄相机的中心位置信息为参考坐标系，计算所述拍摄相机正面朝向到所述目标物体正面朝向的角度；计算所述拍摄相机法向到所述共同上轴的角度；根据所述拍摄相机正面朝向到所述目标物体正面朝向的角度、所述拍摄相机法向到所述共同上轴的角度和所述目标物体的中心位置到所述拍摄相机的中心位置的距离信息计算所述目标物体的中心位置在所述参考坐标系中的位姿。

本实施例的装置，可以用于执行上述物体的位姿获取方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图13为本申请场景重构的装置实施例的结构示意图，如图13所示，本实施例的装置可以对应于移动机器人，也可以对应于服务器、云平台等，只要是具备图像计算能力的设备均可作为本申请提供的室内场景的三维重构装置。该装置可以包括：图像获取模块21、特征预测模块22、联合预测模块23、个体预测模块24、位姿获取模块25、模型获取模块26和重构模块27，其中，图像获取模块21，用于获取二维场景图像；特征预测模块22，用于通过机器学习得到所述图像的全局特征图；从所述图像中获取多个感兴趣区域ROI，并获取各ROI的特征图；联合预测模块23，用于根据部分或全部所述ROI的特征图联合预测所述图像中的物体的共同上轴信息；个体预测模块24，用于根据目标ROI的特征图预测所述目标ROI中的目标物体的个体信息，所述目标ROI为包括所述图像中需要进行位姿获取的目标物体的ROI，所述个体信息包括目标物体的类别信息、大小信息、正面朝向信息和到拍摄相机的距离信息；位姿获取模块25，用于根据所述目标物体的正面朝向信息、所述目标物体到拍摄相机的距离信息和所述共同上轴信息获取所述目标物体的位姿；模型获取模块26，用于根据所述目标物体的类别信息和大小信息获取所述目标物体的三维模型；重构模块27，用于根据所述目标物体的位姿和所述三维模型重构场景。

在上述技术方案的基础上，所述联合预测模块23，具体用于联结部分或全部所述ROI的特征图得到联合特征图，根据所述联合特征图预测所述共同上轴信息。

在上述技术方案的基础上，所述联合预测模块23，具体用于合并部分或全部所述ROI的特征图得到联合特征图，根据所述联合特征图预测所述共同上轴信息，其中合并后得到的所述联合特征图的维度和所述ROI的特征图的维度相同。

在上述技术方案的基础上，所述联合预测模块23，具体用于根据部分或全部所述ROI的特征图和所述全局特征图联合预测所述共同上轴信息。

在上述技术方案的基础上，所述特征预测模块22，还用于根据所述全局特征图预测所述拍摄相机的高度；所述位姿获取模块25，具体用于根据所述拍摄相机的高度、所述目标物体的正面朝向信息、所述目标物体到拍摄相机的距离信息和所述共同上轴信息获取所述目标物体的位姿。

在上述技术方案的基础上，所述位姿获取模块25，具体用于获取所述拍摄相机的位置信息，所述位置信息包括所述拍摄相机的坐标位置、所述拍摄相机的法向和正面朝向；以所述拍摄相机的位置信息为参照，根据所述目标物体的正面朝向信息、所述目标物体到拍摄相机的距离信息和所述共同上轴信息计算所述目标物体的位姿。

在上述技术方案的基础上，所述拍摄相机的位置信息为所述拍摄相机的中心位置信息；所述目标物体到拍摄相机的距离信息为所述目标物体的中心位置到所述拍摄相机的中心位置的距离信息；所述位姿获取模块25，具体用于以所述拍摄相机的中心位置信息为参考坐标系，计算所述拍摄相机正面朝向到所述目标物体正面朝向的角度；计算所述拍摄相机法向到所述共同上轴的角度；根据所述拍摄相机正面朝向到所述目标物体正面朝向的角度、所述拍摄相机法向到所述共同上轴的角度和所述目标物体的中心位置到所述拍摄相机的中心位置的距离信息计算所述目标物体的中心位置在所述参考坐标系中的位姿。

本实施例的装置，可以用于执行上述场景重构的方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图14为本申请设备实施例的结构示意图，如图14所示，该设备包括处理器30、存储器31、输入装置32和输出装置33；设备中处理器30的数量可以是一个或多个，图14中以一个处理器30为例；设备中的处理器30、存储器31、输入装置32和输出装置33可以通过总线或其他方式连接，图14中以通过总线连接为例。

存储器31作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的物体的位姿获取方法或者场景重构的方法对应的程序指令/模块。处理器30通过运行存储在存储器31中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的物体的位姿获取方法或者场景重构的方法。

存储器31可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器31可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器31可进一步包括相对于处理器30远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置32可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置33可包括显示屏等显示设备。

本申请实施例还提供一种用于实现上述的物体的位姿获取方法或者场景重构的方法的处理器，处理器的数量可以是一个或多个，该处理器可以通过通用芯片也可以通过专用芯片来实现，还可以通过服务器来实现。通用芯片通过运行存储在存储器中的软件程序、指令以及模块，从而执行各种功能应用以及数据处理，专用芯片通过内部逻辑器件实现各种功能应用以及数据处理。

本申请实施例还提供一种计算机存储介质，该计算机可读存储介质中存储有指令，所述指令可以由处理电路上的一个或多个处理器执行。当其在计算机上运行时，使得计算机执行上述方法实施例中涉及的物体的位姿获取方法或者场景重构的方法。

本申请实施例还提供了一种包含指令的计算机程序产品，其在计算机上运行时，使得计算机执行上述任一方法实施例中涉及的物体的位姿获取方法或者场景重构的方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种物体的位姿获取方法，其特征在于，包括：

获取二维场景图像；

通过机器学习得到所述图像的全局特征图；

从所述图像中获取多个感兴趣区域ROI，并获取各ROI的特征图；

根据部分或全部所述ROI的特征图联合预测所述图像中的物体的共同上轴信息；

根据目标ROI的特征图预测所述目标ROI中的目标物体的个体信息；所述目标ROI为所述多个ROI中包括所述图像中需要进行位姿获取的目标物体的ROI；所述个体信息包括所述目标物体的朝向信息和所述目标物体到拍摄相机的距离信息；

根据所述目标ROI中目标物体的所述个体信息和所述共同上轴信息获取所述目标物体的位姿。

2.根据权利要求1所述的方法，其特征在于，所述根据目标ROI的特征图预测所述目标ROI中的目标物体的个体信息，包括：

根据目标ROI的特征图预测所述目标ROI中的目标物体的正面朝向信息和到拍摄相机的距离信息。

3.根据权利要求1或2所述的方法，其特征在于，所述根据部分或全部所述ROI的特征图联合预测所述图像中的物体的共同上轴信息，包括：

联结部分或全部所述ROI的特征图得到联合特征图，根据所述联合特征图预测所述共同上轴信息。

4.根据权利要求1或2所述的方法，其特征在于，所述根据部分或全部所述ROI的特征图联合预测所述图像中的物体的共同上轴信息，包括：

合并部分或全部所述ROI的特征图得到联合特征图，根据所述联合特征图预测所述共同上轴信息，其中合并后得到的所述联合特征图的维度和所述ROI的特征图的维度相同。

5.根据权利要求1或2所述的方法，其特征在于，所述根据部分或全部所述ROI的特征图联合预测所述图像中的物体的共同上轴信息，包括：

根据部分或全部所述ROI的特征图和所述全局特征图联合预测所述共同上轴信息。

6.根据权利要求3所述的方法，其特征在于，所述根据部分或全部所述ROI的特征图联合预测所述图像中的物体的共同上轴信息，包括：

7.根据权利要求1或2所述的方法，其特征在于，所述目标物体的个体信息包括所述目标物体的正面朝向信息和所述目标物体到拍摄相机的距离信息；

所述根据所述目标ROI中目标物体的所述个体信息和所述共同上轴信息获取所述目标物体的位姿之前，还包括：

根据所述全局特征图预测所述拍摄相机的高度；

所述根据所述目标ROI中目标物体的所述个体信息和所述共同上轴信息获取所述目标物体的位姿，包括：

根据所述拍摄相机的高度、所述目标物体的正面朝向信息、所述目标物体到拍摄相机的距离信息和所述共同上轴信息获取所述目标物体的位姿。

8.根据权利要求3所述的方法，其特征在于，所述目标物体的个体信息包括所述目标物体的正面朝向信息和所述目标物体到拍摄相机的距离信息；

根据所述全局特征图预测所述拍摄相机的高度；

9.根据权利要求1或2所述的方法，其特征在于，所述目标物体的个体信息包括所述目标物体的正面朝向信息和所述目标物体到拍摄相机的距离信息；

获取所述拍摄相机的位置信息，所述位置信息包括所述拍摄相机的坐标位置、所述拍摄相机的法向和正面朝向；

以所述拍摄相机的位置信息为参照，根据所述目标物体的正面朝向信息、所述目标物体到拍摄相机的距离信息和所述共同上轴信息计算所述目标物体的位姿。

10.根据权利要求3所述的方法，其特征在于，所述目标物体的个体信息包括所述目标物体的正面朝向信息和所述目标物体到拍摄相机的距离信息；

11.根据权利要求9所述的方法，其特征在于，所述拍摄相机的位置信息为所述拍摄相机的中心位置信息；所述目标物体到拍摄相机的距离信息为所述目标物体的中心位置到所述拍摄相机的中心位置的距离信息；

所述以所述拍摄相机的位置信息为参照，根据所述目标物体的正面朝向信息、所述目标物体到所述拍摄相机的距离信息和所述共同上轴信息计算所述目标物体的位姿，包括：

以所述拍摄相机的中心位置信息为参考坐标系，计算所述拍摄相机正面朝向到所述目标物体正面朝向的角度；

计算所述拍摄相机法向到所述共同上轴的角度；

根据所述拍摄相机正面朝向到所述目标物体正面朝向的角度、所述拍摄相机法向到所述共同上轴的角度和所述目标物体的中心位置到所述拍摄相机的中心位置的距离信息计算所述目标物体的中心位置在所述参考坐标系中的位姿。

12.一种场景重构的方法，其特征在于，包括：

获取二维场景图像；

通过机器学习得到所述图像的全局特征图；

根据目标ROI的特征图预测所述目标ROI中的目标物体的个体信息，所述目标ROI为包括所述图像中需要进行位姿获取的目标物体的ROI，所述个体信息包括目标物体的类别信息、大小信息、正面朝向信息和到拍摄相机的距离信息；

根据所述目标物体的正面朝向信息、所述目标物体到拍摄相机的距离信息和所述共同上轴信息获取所述目标物体的位姿；

根据所述目标物体的类别信息和大小信息获取所述目标物体的三维模型；

根据所述目标物体的位姿和所述三维模型重构场景。

13.根据权利要求12所述的方法，其特征在于，所述根据部分或全部所述ROI的特征图联合预测所述图像中的物体的共同上轴信息，包括：

14.根据权利要求12所述的方法，其特征在于，所述根据部分或全部所述ROI的特征图联合预测所述图像中的物体的共同上轴信息，包括：

15.根据权利要求12-14中任一项所述的方法，其特征在于，所述根据所述目标物体的正面朝向信息、所述目标物体到拍摄相机的距离信息和所述共同上轴信息获取所述目标物体的位姿，包括：

16.根据权利要求15所述的方法，其特征在于，所述拍摄相机的位置信息为所述拍摄相机的中心位置信息；目标物体到拍摄相机的距离信息为所述目标物体的中心位置到所述拍摄相机的中心位置的距离信息；

以所述拍摄相机的中心位置信息为参考坐标系，计算所述拍摄相机正面朝向到所述各个目标物体正面朝向的角度；

计算所述拍摄相机法向到所述共同上轴的角度；

17.一种物体的位姿获取装置，其特征在于，包括：

图像获取模块，用于获取二维场景图像；

18.根据权利要求17所述的装置，其特征在于，所述个体信息包括所述目标物体的正面朝向信息和到拍摄相机的距离信息；

所述个体预测模块，具体用于根据目标ROI的特征图预测所述目标ROI中的所述目标物体的正面朝向信息和到拍摄相机的距离信息。

19.根据权利要求17或18所述的装置，其特征在于，所述联合预测模块，具体用于联结部分或全部所述ROI的特征图得到联合特征图，根据所述联合特征图预测所述共同上轴信息。

20.根据权利要求17或18所述的装置，其特征在于，所述联合预测模块，具体用于合并部分或全部所述ROI的特征图得到联合特征图，根据所述联合特征图预测所述共同上轴信息，其中合并后得到的所述联合特征图的维度和所述ROI的特征图的维度相同。

21.根据权利要求17或18所述的装置，其特征在于，所述个体信息包括所述目标物体的正面朝向信息和到拍摄相机的距离信息；

所述位姿获取模块，具体用于获取所述拍摄相机的位置信息，所述位置信息包括所述拍摄相机的坐标位置、所述拍摄相机的法向和正面朝向；以所述拍摄相机的位置信息为参照，根据所述目标物体的正面朝向信息、所述目标物体到拍摄相机的距离信息和所述共同上轴信息计算所述目标物体的位姿。

22.根据权利要求21所述的装置，其特征在于，所述拍摄相机的位置信息为所述拍摄相机的中心位置信息；所述目标物体到拍摄相机的距离信息为所述目标物体的中心位置到所述拍摄相机的中心位置的距离信息；

23.一种场景重构的装置，其特征在于，包括：

图像获取模块，用于获取二维场景图像；

个体预测模块，用于根据所述多个ROI的特征图预测所述多个ROI中的目标物体的个体信息，所述多个ROI包括所述图像中需要进行场景重构的多个目标物体，所述个体信息包括目标物体的类别信息、大小信息、正面朝向信息和到拍摄相机的距离信息；

位姿获取模块，用于根据所述正面朝向信息、所述到拍摄相机的距离信息和所述共同上轴信息获取各个目标物体的位姿；

重构模块，用于根据各个目标物体的所述位姿和所述三维模型重构场景。

24.根据权利要求23所述的装置，其特征在于，所述联合预测模块，具体用于联结部分或全部所述ROI的特征图得到联合特征图，根据所述联合特征图预测所述共同上轴信息。

25.根据权利要求23所述的装置，其特征在于，所述联合预测模块，具体用于合并部分或全部所述ROI的特征图得到联合特征图，根据所述联合特征图预测所述共同上轴信息，其中合并后得到的所述联合特征图的维度和所述ROI的特征图的维度相同。

26.根据权利要求23-25中任一所述的装置，其特征在于，所述拍摄相机的位置信息为所述拍摄相机的中心位置信息；目标物体到拍摄相机的距离信息为所述目标物体的中心位置到所述拍摄相机的中心位置的距离信息；

所述位姿获取模块，具体用于以所述拍摄相机的中心位置信息为参考坐标系，计算所述拍摄相机正面朝向到所述各个目标物体正面朝向的角度；计算所述拍摄相机法向到所述共同上轴的角度；根据所述拍摄相机正面朝向到所述目标物体正面朝向的角度、所述拍摄相机法向到所述共同上轴的角度和所述目标物体的中心位置到所述拍摄相机的中心位置的距离信息计算所述目标物体的中心位置在所述参考坐标系中的位姿。