CN114863059A

CN114863059A - 用于在3d重建中检测和组合结构特征的方法和系统

Info

Publication number: CN114863059A
Application number: CN202210505506.2A
Authority: CN
Inventors: 魏晓林; 张一夫
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2015-09-25
Filing date: 2016-09-23
Publication date: 2022-08-05
Also published as: IL291685B2; US11189093B2; AU2016327985A1; IL291685B1; KR20180059836A; JP7181977B2; AU2016327985B2; US11688138B2; IL257634B; KR102653808B1; JP6944441B2; CN108027984A; US20220122322A1; EP3353750A1; WO2017053821A1; US20170091996A1; KR20230028598A; JP2018536915A; CA2996009A1; CN108027984B

Abstract

一种用于形成重建的3D网格的方法包括：接收与场景相关联的一组捕捉的深度图，执行与该组捕捉的深度图相关联的初始相机姿态对准，以及在参考系中覆盖该组捕捉的深度图。该方法还包括检测覆盖的一组捕捉的深度图中的一个或多个形状，并更新初始相机姿态对准以提供形状感知相机姿态对准。该方法进一步包括执行形状感知体积融合并形成与场景相关联的重建的3D网格。

Description

用于在3D重建中检测和组合结构特征的方法和系统

本申请是申请号为201680054286.9的中国专利申请“用于在3D重建中检测和组合结构特征的方法和系统为(申请日为2016年9月23日)的分案申请。

相关申请的交叉引用

本申请要求于2015年9月25日提交的题为“用于在3D重建中检测和组合结构特征的方法和系统”的美国临时专利申请No.62,232,833的优先权，其公开内容在此通过引用全部并入其中用于全部目的。

发明内容

本发明通常涉及计算机化三维(3D)图像重建领域，并且更具体地，涉及用于在3D重建中检测和组合结构特征的方法和系统。

如在此所描述的，本发明的实施例旨在解决传统技术未充分解决的问题，以及通过参考结合附图的以下详细描述而提供将变得显而易见的附加特征。

在此公开的一些实施例涉及提供形状感知(shape-aware)3D重建的方法和系统。一些实施方式结合了改进的形状感知技术，诸如形状检测、形状感知姿态估计、形状感知体积融合算法等。

根据本发明的实施例，提供了一种用于形成重建的3D网格的方法。该方法包括接收与场景相关联的一组捕捉的深度图，执行与该组捕捉的深度图相关联的初始相机姿态对准，以及在参考系中覆盖该组捕捉的深度图。该方法还包括检测覆盖的一组捕捉的深度图中的一个或多个形状，并更新初始相机姿态对准以提供形状感知相机姿态对准。该方法还包括执行形状感知体积融合并形成与场景相关联的重建3D网格。

根据本发明的另一实施例，提供了一种检测场景中存在的形状的方法。该方法包括确定与包括多个捕捉的深度图的点云相关联的垂直方向，并且形成与垂直方向正交的虚拟平面。该方法还包括将点云的点投影到虚拟平面上并且计算点云的点的投影统计。该方法进一步包括根据计算的投影统计检测一条或多条线，该一条或多条线与垂直墙相关联并且根据投影统计和一条或多条检测的线检测场景中存在的形状。

根据本发明的特定实施例，提供了一种执行形状感知相机姿态对准的方法。该方法包括接收一组捕捉的深度图。捕捉的深度图中的每一个深度图与物理相机姿态相关联。该方法还包括接收一个或多个检测的形状。一个或多个检测的形状中的每一个形状由尺寸和位置/取向表征。该方法进一步包括对于一个或多个检测的形状中的每一个形状创建3D网格，并创建与局部参考系中的每一个3D网格相关联的一个或多个虚拟相机。另外，该方法包括渲染一个或多个深度图。一个或多个渲染的深度图中的每一个与每一个3D网格相关联的每一个虚拟相机相关联。此外，该方法包括通过优化一个或多个渲染的深度图与该组捕捉的深度图之间的对准来联合求解物理相机姿态和一个或多个检测的形状的每一个形状的位置/取向。

在实施例中，形状感知3D重建方法包括以下一个或多个步骤：执行一组捕捉的深度图的姿态估计；在姿态估计之后执行对准姿态的形状检测；根据检测的形状执行形状感知姿态估计；并基于对准的姿态和形状，进行形状感知体积融合以生成一个或多个3D网格。

与传统技术相比，通过本发明实现了许多益处。例如，本发明的实施例在3D网格中提供了清晰和锐利的形状和边缘，因此看起来比不使用形状感知3D重建生成的3D网格更真实。相应地，本发明实施例提供的3D网格对观看者来说更加舒适。另一个好处是，由于在3D重建过程中存在检测的形状，因此可以实现捕捉深度图的更精确和更鲁棒的对准。此外，还提供了端到端的3D重建框架，该框架应用了人造场景的先验知识，并且同时保持了场景异构方面的灵活性。结合下文和附图更详细地描述本发明的这些和其它实施例以及其许多优点和特征。

附图说明

参考以下附图详细描述根据一个或多个各种实施例的本公开。提供附图仅用于说明的目的并且仅描绘本公开的示例性实施例。提供这些附图是为了便于读者理解本公开，并且不应被视为限制本公开的广度、范围或适用性。应当注意的是，为了清楚和易于说明，这些附图不一定按比例绘制。

图1是示出用于使用捕捉的深度图的多帧创建场景的3D网格的方法的简化流程图。

图2是示出根据本发明实施例的使用捕捉的深度图的多帧生成场景的3D网格的方法的简化流程图。

图3是示出根据本发明实施例的检测点云中存在的形状的方法的简化流程图。

图4是示出根据本发明实施例的执行形状感知相机姿态对准的方法的简化流程图。

图5是示出根据本发明实施例的执行形状感知体积融合的方法的简化流程图。

图6A是示出根据本发明实施例的墙端的3D网格的简图。

图6B是示出根据本发明实施例的门框的3D网格的简图。

图7A是示出根据本发明实施例的与门框的内部视图和相关联虚拟相机相关联的渲染深度图的简化示意图。

图7B是示出根据本发明实施例的与门框的外部视图和相关联虚拟相机相关联的渲染深度图的简化示意图。

图7C是示出根据本发明实施例的与两个墙角和相关联虚拟相机相关联的渲染深度图的简化示意图。

图8A是示出根据本发明实施例的从虚拟相机渲染的门框的内部视图的渲染深度图的简化示意图。

图8B是示出根据本发明实施例的从虚拟相机渲染的门框的外部视图的渲染深度图的简化示意图。

图9A是示出覆盖捕捉的深度图的简化点云图。

图9B是示出使用由本发明的实施例提供的形状感知方法的覆盖捕捉深度图和渲染深度图的简化点云图。

图10A是示出使用关于图1描述的方法重建的第一重建3D网格的图像。

图10B是示出使用关于图2描述的方法重建的第二重建3D网格的图像。

图11A是示出使用关于图1描述的方法重建的第三重建3D网格的图像。

图11B是示出使用关于图2描述的方法重建的第四重建3D网格的图像。

图12是示出根据本发明实施例的使用捕捉的深度图来重建3D网格的系统的简化示意图。

图13是可包含实施例、结合到实施例中或用于实践本公开内发现的任何创新、实施例和/或示例的计算机系统或信息处理装置的框图。

具体实施方式

本发明的实施例涉及用于计算机化三维(3D)场景重建的方法和系统，并且更具体地，涉及用于在3D重建中检测和组合结构特征的方法和系统。

呈现以下描述以使本领域的普通技术人员能够制造和使用本发明。特定装置、技术和应用的描述仅作为示例提供。对在此所描述示例的各种修改对于本领域的普通技术人员来说将是显而易见的，并且在不脱离本发明的精神和范围的情况下，在此所限定的一般原理可以应用于其它示例和应用。因此，本发明的实施例并不旨在限于在此所描述和示出的示例，而是符合与权利要求一致的范围。

在此使用词语“示例性”来表示“用作示例或说明”。在此描述为“示例性”的任何方面或设计不一定被解释为优选或优于其它方面或设计。

现在将详细参考本技术的各方面，其示例在附图中示出，其中相同的附图标记始终表示相同的元件。

应当理解，在此公开的过程中的步骤的特定顺序或层次是示例性方法的示例。基于设计偏好，可以理解，在保持在本公开的范围内时，可以重新排列过程中的步骤的特定顺序或层次。所附方法权利要求以示例顺序给出了各个步骤的要素，并不意味着限于所给出的特定顺序或层次。

在此公开的实施例涉及提供形状感知3D重建的方法和系统。如在此所述，本发明的一些实施例结合了改进的形状感知技术，诸如形状检测、形状感知姿态估计、形状感知体积融合算法等。根据本发明的实施例，形状感知3D重建方法可以包括以下一个或多个步骤：执行一组深度图像的姿态估计；在姿态估计之后执行对准姿态的形状检测；根据检测的形状执行形状感知姿态估计；并基于对准的姿态和形状，进行形状感知体积融合以生成3D网格。

3D重建是3D计算机视觉中最受欢迎的主题之一。它将图像(例如，彩色/灰度图像、深度图像等)作为输入并生成表示观察场景的3D网格(例如，自动地)。3D重建在虚拟现实、绘图、机器人、游戏、电影制作等方面有很多应用。

作为示例，3D重建算法可以接收输入图像(例如，彩色/灰度图像、彩色/灰度图像+深度图像，或仅深度)，并且视情况处理输入图像以形成捕捉的深度图。例如，可以使用来自彩色图像的多视立体算法来生成被动深度图，并且可以使用主动感测技术(诸如结构光深度传感器)来获得主动深度图。尽管示出了前述示例，但是本发明的实施例可以被配置为处理任何类型的深度图。本领域的普通技术人员将认识到许多变化、修改和替代。

图1是示出用于使用捕捉的深度图的多帧创建场景的3D网格的方法的简化流程图。参考图1，示出了根据捕捉的深度图的多帧来创建场景的3D模型(例如，表示与场景相关联的3D表面的3D三角形网格)的方法。方法100包括接收一组捕捉的深度图(110)。捕捉的深度图是深度图像，其中每一个像素具有相关联的深度值，该深度值表示从像素到获取深度图像的相机的深度。与每像素具有三个或多个通道(channel)的彩色图像(例如，具有红色、绿色和蓝色分量的RGB图像)相比，深度图可以具有每像素单个通道(即，距相机的像素距离)。接收该组捕捉的深度图的过程可以包括处理输入图像(例如，RGB图像)以产生一个或多个捕捉的深度图，也被称为捕捉的深度图的帧。在其它实施例中，使用飞行时间相机、激光雷达(LIDAR)、立体相机等获得捕捉的深度图，并且因此由系统接收。

该组捕捉的深度图包括来自不同相机角度和/或位置的深度图。作为示例，深度图流可以由移动深度相机提供。随着移动深度相机平移(pan)和/或移动，深度图产生为深度图像流。作为另一个示例，静态深度相机可用于从不同角度和/或不同位置或其组合收集场景的部分或全部的多个深度图。

该方法同样包括在参考系中对准与一组捕捉的深度图相关联的相机姿态(112)并且在参考系中覆盖该组捕捉的深度图(112)。在实施例中，利用姿态估计过程来对准来自全部相机的深度点并且在3D世界坐标中创建局部和全局一致的点云。来自世界坐标中相同位置的深度点应尽可能彼此接近地对准。然而，由于深度图中存在不准确性，因此姿态估计通常并不完美，特别是对于诸如墙角、墙端、室内场景中的门框等的结构特征而言，当这些结构特征在生成的网格中存在时，其造成这些结构特征上的伪影。此外，当网格边界被视为遮光板(occluder)(即，遮挡背景对象的对象)时，这些不准确性可能会加剧，因为该伪影对用户来说会更加明显。

为了对准指示与每一个深度图像相关联的相机的位置和方向的相机姿态，深度图被覆盖并且相邻和/或覆盖的像素的位置的差异被减小或最小化。一旦参考系中的像素的位置已经被调节，则调节和/或更新相机姿态以将相机姿态与调节的像素位置对准。因此，相机姿态在参考系中对准(114)。换句话说，可以通过基于估计的相机姿态将所有深度图的深度点投影到参考系(例如，3D世界坐标系)来创建渲染深度图。

该方法进一步包括执行体积融合(116)以形成重建的3D网格(118)。体积融合过程可以包括将多个捕捉的深度图融合为体积表示，作为观察场景的符号距离函数的离散形式。3D网格生成可以包括使用行进立方体(marching cubes)算法或其它合适的方法从3D空间中的体积表示中提取多边形网格。

为了减少上面讨论的伪影，本发明的实施例提供了用于执行形状感知3D重建的方法和系统，其结合了改进的形状感知技术，诸如形状检测、形状感知姿态估计、形状感知体积融合算法等。

对于室内结构，由于它们是人造的，与有机户外结构相比，这些结构通常具有规则的形状。另外，便宜的深度相机可产生包含相对较高噪声水平的捕捉深度图，这导致与每一个像素相关联的深度值的误差。这些深度误差可导致相机姿态估计过程中的不准确性。这些误差可通过系统传播，导致包括重建的3D网格中的噪声和不准确性的误差。作为示例，墙角的波浪或弯曲(应该是平坦的墙的波浪状等)在视觉上令用户不满意。因此，利用本发明的实施例，重建的3D网格由增加的准确性、降低的噪声等表征，导致3D网格在视觉上令用户满意。

应该理解的是，图1中所示的特定步骤提供了根据本发明的实施例的使用捕捉的深度图的多帧来创建场景的3D网格的特定方法。根据替代实施例还可以执行其它步骤顺序。例如，本发明的替代实施例可以以不同的顺序执行上面概述的步骤。此外，图1中所示的各个步骤可以包括多个子步骤，该子步骤可以以适合于各个步骤的各种顺序执行。此外，取决于特定的应用，可以添加或移除附加步骤。本领域的普通技术人员将认识到许多变化、修改和替代。

图2是示出根据本发明实施例的使用捕捉的深度图的多帧生成场景的3D网格的方法的简化流程图。在图2中示出的方法可被认为是通过使用形状感知3D重建方法和系统从捕捉的深度图生成重建的3D网格的过程。

参考图2，方法200包括接收一组捕捉的深度图(210)。如关于图1所讨论的，该组捕捉的深度图可被接收作为深度图、深度图的处理形式，或从其它图像生成以提供一组捕捉的深度图。该方法还包括执行初始相机姿态估计(212)并且在参考系中覆盖该组捕捉的深度图(214)。在初始相机姿态估计中，深度图被覆盖并且相邻和/或覆盖的像素的位置的差异被减小或最小化。一旦参考系中的像素的位置已经被调节，则相机姿态被调节和/或更新以将相机姿态与调节的像素位置对准并提供初始相机姿态估计。

在该组捕捉的深度图的该初始细化期间，可能的是，相机姿态的初始估计包括一些不准确性。结果，特别是在结构特征的区域中，覆盖的深度图可能表现出一些未对准。因此，本发明的实施例将形状检测应用于对准的相机姿态以使用点云的点分布来检测可具有强特性的结构形状，如下面更充分描述的。如图2所示，该方法在覆盖的一组捕捉的深度图中检测形状(218)。

图3是示出根据本发明实施例的检测点云中存在的形状的方法的简化流程图。点云可以通过在参考系中覆盖一组捕捉的深度图来形成。关于图9提供了与基于捕捉的深度图、渲染的深度图或其组合的与形成点云有关的附加说明。如图3中所示的方法对于检测存在于点云中的诸如门框、窗户、墙角、墙端、墙、家具、其它人造结构等的结构是有用的。

虽然可以确定相机姿态，但相机姿态与垂直参考系的关系可能未知。在一些实施例中，参考系的z轴可以与重力方向对齐。因此，方法300包括使用点法线确定与点云相关联的垂直方向(310)。特别是对于室内场景，可以使用墙和其它结构特征的存在来确定与点云相关联的垂直方向，也称为点云的垂直方向。例如，对于点云中的给定像素，分析给定像素附近的像素以确定给定像素的法向矢量。该法向矢量被称为点法线。作为示例，对于表示墙的一部分的像素，相邻的像素将通常位于平面中。因此，该平面的法向矢量可用于限定感兴趣的像素的法向矢量。

给定点云中的一些或全部像素的法向矢量，与法向矢量正交的方向将限定垂直方向。换句话说，法向矢量通常将位于平行的、水平的平面中，其垂直方向与这些平行的、水平的平面正交。

在一些实施例中，确定垂直方向包括估计垂直方向，并且然后细化估计的垂直方向，尽管这些步骤可以组合到提供期望的垂直方向矢量的单个处理中。本领域的普通技术人员将认识到许多变化、修改和替代。

该方法还包括形成与垂直方向正交的虚拟平面(312)，并将点云中的点投影到与垂直方向正交的虚拟平面上并计算它们的投影统计(statistic)(314)。给定与重力对准的垂直方向，可以限定与垂直方向正交的平面，该平面将表示水平表面，例如房间的地板。除了术语虚拟平面之外，与垂直方向正交的该平面可以被称为投影平面。计算的投影统计的示例是可以对于虚拟平面上的每一个二维位置收集的点分布。

通过将点云中的点投影到与垂直方向正交的虚拟平面上，可以将点云中的所有点表示为二维数据集。该二维数据集将表示该点的x-y空间中的位置、投影到x-y位置上的点的高度范围以及与x-y位置相关联的点的密度。

对于投影平面中可以称为x-y空间的给定位置，投影到给定位置上的点的密度表示在给定位置之上的高度处的点云中存在的点的数量。作为示例，考虑到墙上有门的墙，墙下方位置处的点的密度会很高，密度仍然很高，直到达到门框时。在投影平面上的投影将导致沿墙底部延伸的线。门框下方位置的点密度较低(仅与门框顶部和门框之上的墙相关联的点)。一旦到达门框的另一侧，密度将再次增加。

在将点云投影到投影平面上之后，投影平面中点的密度将有效地提供场景的平面图。投影平面中的每一个像素可以具有灰度值，该灰度值指示与投影到特定像素上的特定像素相关联的点的数量。给定点分布，该方法还包括将来自投影统计的线检测为垂直墙(316)。投影统计可以被认为是投影图像的元素。

因此，本发明的实施例利用一个或多个投影统计，包括投影到2D虚拟平面上的特定x/y位置上的预定数量的点。另一个投影统计是点投影到特定x/y位置上的点的点法线的分布。此外，另一个投影统计是投影到特定x/y位置上的点的高度范围。本领域的普通技术人员将认识到许多变化、修改和替代。

基于投影统计和一条或多条检测的线，该方法包括检测一个或多个形状(例如，墙角、门框、门等)(318)。一个或多个形状可以是不同的形状(墙角和门框)或形状的多个示例(房间的不同部分中的两个墙角)。发明人已经确定大多数规则的形状与墙相关联。例如，墙角是两个正交墙的连接，墙端是墙的端部，并且门框是墙中的开口。通过分析点分布，这些结构特征被识别和检测。

该方法还包括确定一个或多个检测的形状的尺寸和位置(320)。除了投影到每一个二维位置上的点的密度之外，可以使用可用的投影平面之上的每一个二维位置的点高度分布，以确定检测的形状的垂直范围或延伸。作为示例，如果二维位置具有多个点，所有高度都大于7英尺，则该二维位置可能位于在门框的顶部开口的门框下方，然后在门框之上是实心的。可以对于每一个二维位置创建直方图，其中投影到沿着直方图设置的二维位置上的点作为它们在投影平面之上的高度的函数。

在一些实施例中，确定一个或多个检测的形状的尺寸和位置是确定每一个形状的初始尺寸和位置，其将取决于形状的类型进行参数化。例如，二维位置、方向和垂直范围对于墙角而确定。对于门框，可以确定厚度和宽度。对于门，可以确定高度和宽度。

应该理解的是，图3中所示的特定步骤提供了根据本发明实施例的检测点云中存在的形状的特定方法。根据替代实施例还可以执行其它步骤顺序。例如，本发明的替代实施例可以以不同的顺序执行上面概述的步骤。此外，图3中所示的各个步骤可以包括多个子步骤，其可以以各个步骤适合的各种顺序执行。此外，取决于特定的应用，可以添加或移除附加步骤。本领域的普通技术人员将认识到许多变化、修改和替代。

再次参考图2，在已经检测到点云(即，覆盖的一组捕捉的深度图像)中的形状之后，该方法包括执行形状感知相机姿态估计，也被称为形状感知相机姿态对准(218)。因此，本发明的实施例执行第二相机姿态对准过程，该过程通过在点云中检测的形状的存在而被通知，由此提供与一组深度图像中的每一个深度图像相关联的相机姿态，其用检测的形状优化作为约束。除了基于覆盖的捕捉的深度图之间的重叠来对准相机姿态之外，实施例还基于覆盖的捕捉的深度图与检测的形状之间的重叠来对准相机姿态。通过将深度图与检测的形状对准，作为使用检测的形状作为附加约束的结果，重建的3D网格具有更高的精度。通过使用检测的形状作为约束，可以减少或消除可通过系统传播的误差，从而提高3D网格的精度。

图4是示出根据本发明的实施例形成形状感知相机姿态对准的方法的简化流程图。关于图4所讨论的方法400可以是执行关于图2中的过程218所讨论的形状感知相机姿态对准的方法。如下所讨论，检测的形状用于相机姿态估计的优化。

方法400包括接收一组捕捉的深度图(410)。捕捉的深度图中的每一个深度图与物理相机姿态相关联。该方法还包括接收一个或多个检测的形状(412)。一个或多个检测的形状中的每一个形状由尺寸和位置/取向表征。该方法包括对于一个或多个检测的形状中的每一个创建3D网格(414)。创建的形状网格的示例可以在图6A和图6B中看到。如图6A中所示，示出了墙端的3D网格。在图6B中，示出了门框的3D网格。这些形状可以使用关于图3讨论的方法来检测。如图6B所示，门框网格由多个邻接的三角形区域组成。虽然门框可以具有不同的高度、宽度、开口宽度等，但是门框的侧面和顶部之间的角度以及其它特征通常将是规则和可预测的。与门框或其它结构特征相关联的3D网格将与由图1中的过程118所得的网格分开。如本文所述，形状感知体积融合利用与形成形状感知重建3D网格中的结构特征相关联的网格。

该方法还包括为局部(local)参考系中的每一个3D网格创建一个或多个虚拟相机(416)。在参考检测的形状的局部参考系中创建一个或多个虚拟相机。对于给定的检测形状，虚拟相机将定位在检测的形状的参考系中。如果调节了检测的形状的位置和/或取向，则虚拟相机将被调节以在参考系中保持恒定的位置。如果检测的形状的尺寸改变，例如门框厚度的减小，则与门框厚度的减小相结合，门框的相对侧上的虚拟相机将彼此更接近。因此，形状的3D网格中的每一个三角形都可以由至少一个虚拟相机观看。例如，对于墙角而言，一个虚拟相机足以覆盖所有三角形，而对于墙端或门框，通常需要至少两个虚拟相机来覆盖所有三角形。应该理解，这些虚拟相机是特殊的，因为它们具有与虚拟相机相关联的检测的形状。

参考图6B，示出了与门框相关联的3D网格。在如关于图2所讨论的检测到门框之后，创建如图6B中所示的3D网格。为了创建用于3D网格的虚拟相机，与门框相关联的渲染深度图如图7A所示形成。基于渲染的深度图，虚拟相机710可以在预定的位置和取向处创建。

图7A是示出根据本发明实施例的与门框的内部视图和相关联虚拟相机相关联的渲染深度图的简化示意图。图7B是示出根据本发明实施例的与门框的外部视图和相关联虚拟相机相关联的渲染深度图的简化示意图。渲染的深度图是点云的子集。点云通过组合深度图(即，深度图的帧)而形成。点云可以通过组合捕捉的深度图、渲染的深度图或捕捉和渲染的深度图的组合来形成。参考图7A和图7B，渲染的深度图包括与结构(即，门框)相关联的一组深度点。

从门框的内侧看，渲染的深度图705可以被认为是表示包括门框的深度图的部分的从构成门框的像素到虚拟相机710的距离。从门框的外侧看，渲染的深度图715可以被认为是表示包括门框的深度图的部分的从构成门框的像素到虚拟相机720的距离。渲染的深度图715的部分717表示一旦从门框向外摆动就打开的门。

如图7A所示，可以将虚拟相机放置在以门框为中心的位置并且距离门框例如2米的预定距离处。因此，对于每一个不同的形状，可以利用不同的相机位置和取向。

图7C是示出根据本发明实施例的与两个墙角和相关联虚拟相机相关联的渲染深度图的简化示意图。在所示实施例中，两个墙以90°的角度相交。如图7C中所示，虚拟相机730在其中两个相邻墙相交的拐角处居中。

该方法进一步包括对于每一个检测的形状合成来自每一个3D网格的每一个虚拟相机的深度图(418)。换句话说，对于检测的每一个形状，将基于形状的3D网格合成来自每一个虚拟相机的深度图。因此，实施例提供了与每一个虚拟相机相关联的深度图。

图8A是示出根据本发明实施例的从虚拟相机渲染的门框的内部视图的渲染深度图的简化示意图。图8B是示出根据本发明实施例的从虚拟相机渲染的门框的外部视图的渲染深度图的简化示意图。在这些深度图中，灰度可用于表示深度值。如图8B中所示，门在深度图的左侧上打开。相应地，打开的门遮挡了门框的左侧的一部分。应该理解的是，门框和门可以被看作两种不同的形状。本领域的普通技术人员将认识到许多变化、修改和替代。

图8A中所示的深度图与图7A中所示的虚拟相机710相关联。图8B中所示的深度图与图7B中所示的虚拟相机720相关联。

该方法还包括执行相机姿态和/或每一个检测的形状的尺寸和位置的联合优化(420)。每一个检测的形状的位置与渲染的深度图的姿态相关。尺寸是相似的。这些相机姿态对准利用来自过程414的渲染深度图以及捕捉的深度图(例如，被动或主动)作为联合优化的一部分。可以使用基于ICP的对准或其它技术来完成联合优化，其也可以被称为姿态估计/细化。值得注意的是，渲染深度图的姿态可选地作为此过程的一部分进行优化。

进一步参考图4和过程416提供的描述，形状感知相机姿态对准的过程可以包括以下步骤：

步骤1：找出每一个帧-帧对之间的最近点对。

步骤2：找出每一个帧-形状对之间的最近点对。

步骤3：利用以下目标函数联合优化每一个帧的R、T和每一个形状的F、G和D。

步骤4：从步骤1开始迭代，直到优化收敛。

目标函数：

在目标函数中，第一项涉及捕捉的深度图之间的对准。第二项涉及捕捉的深度图与渲染的深度图(即，检测的形状)之间的对准。第三和第四项涉及确保姿态轨迹平滑。

在以上等式中，

i为每一帧提供索引

j为每一个其它帧提供索引

m为每一个最近点对提供索引

pⁱ(·)和qj⁽(·)表示来自帧i的深度点p和来自帧j的其对应的最近深度点q

pⁱ(·)和h^k(·)表示来自帧i的深度点p和来自形状k的其对应的最近深度点h

R_i和T_i涉及帧i的旋转和平移(即，相机姿态)

F_k和G_k涉及形状k的旋转和平移(即，相机姿态)

D_k指定形状k的尺寸

w表示每一项的权重

在已经执行了相机姿态的联合优化之后，原始深度图像与渲染深度图对准，并且因此也与一个或多个检测的形状对准。因此，用于3D网格重建的点云将变得更加精确和一致，特别是在与明显形状和结构接近的区域中。在图9A和图9B中示出了具有和不具有检测的形状的点云对准的比较。图9A是示出覆盖捕捉的深度图的简化的点云图。图9B是示出使用由本发明的实施例提供的形状感知方法的覆盖捕捉的深度图和渲染深度图的简化点云图。可以观察到，如图9B中所示的图像所示，点与形状感知相机姿态估计更好地对准。

应该理解的是，图4中所示的特定步骤提供根据本发明实施例的形成形状感知相机姿态对准的特定方法。根据替代实施例还可以执行其它步骤顺序。例如，本发明的替代实施例可以以不同的顺序执行上面概述的步骤。此外，图4中所示的各个步骤可以包括多个子步骤，该子步骤可以以适合于各个步骤的各种顺序执行。此外，取决于特定的应用，可以添加或移除附加步骤。本领域的普通技术人员将认识到许多变化、修改和替代。

再次回到图2，方法200包括执行形状感知体积融合(220)并且使用形状感知体积融合技术形成重建的3D网格(222)。关于图5提供了与形状感知体积融合的实施方式有关的附加描述。

应该理解的是，图2中示出的特定步骤提供根据本发明实施例的使用多帧捕捉的深度图来生成场景的3D网格的特定方法。根据替代实施例还可以执行其它步骤顺序。例如，本发明的替代实施例可以以不同的顺序执行上面概述的步骤。此外，图2中所示的各个步骤可以包括多个子步骤，该子步骤可以以适合于各个步骤的各种顺序执行。此外，取决于特定的应用，可以添加或移除附加步骤。本领域的普通技术人员将认识到许多变化、修改和替代。

图5是示出根据本发明实施例的执行形状感知体积融合的方法的简化流程图。在应用这种技术时，利用检测的形状，导致比其它方法更锐利和更清晰的形状网格。

方法500包括采用优化的形状尺寸对于每一个检测的形状重新创建形状网格(510)。该方法还包括渲染来自每一个形状网格的每一个虚拟相机的深度图(512)并且采用捕捉的深度图和渲染深度图执行联合体积融合(514)。

联合体积融合(514)在体积融合的经典工作之上开发，首先在“用于从距离图像构建复杂模型的体积方法”中引入。更具体地，首先创建3D体积，该体积可以均匀地细分为体元(voxel)的3D网格，并将其映射到捕捉区域的3D物理空间。该体积表示的每一个体元将保存一个值，该值指定距实际表面的相对距离。这些值在实际表面的前面是正的以及后面是负的，因此该体积表示隐含描述了3D表面：其中值改变符号的位置。体积融合可以将一组捕捉的深度图转换为该体积表示。在每一个体元中的距离值、截断符号距离函数(TSDF)计算如下：

其中

v是体元的位置

tsdf(v)是体元的相对距离值

proj_i(v)是v在捕捉的深度图i上的投影

是投影到捕捉的深度图i上的体元v的权重

D_i(·)是捕捉的深度图i

T_i是相机i的位置

如果(1)体元v在相机i的平截头体之外或者(2)|D_i(proj_i(v))-||v-T_i|||大于预定的截断距离M，则

将总是设定为零。对于其它情况，可以将

设定为1或者捕捉的深度图中的对应点置信度值。

对于根据本发明实施例执行的形状感知体积融合，从捕捉的深度图和渲染深度图(即，检测的形状)两者计算截断符号距离函数。

其中

D_i(·)是渲染的深度图s

G_i是虚拟相机s的位置

如果(1)体元v在虚拟相机s的平截头体之外或者(2)|E_s(proj_s(v))-||v-G_s|||大于预定截断距离M，则

也将被设定为零。当它不是零时，将

设定为大于捕捉的深度图的

(即，1)的值(即，20)，使得来自渲染深度图的点将占主导。对于越来越接近检测的形状的边界的点，一些实施例还逐渐减小

的值(即从20到1)。减小边界周围的权重可以创建检测的形状(更锐利)平滑过渡到使用捕捉的深度图生成的原始网格。

在形状感知体积融合之后，最终网格中的主要结构(例如，门框、墙角、墙端等)将更锐利和更清晰。

应该理解的是，图5中所示的特定步骤提供根据本发明实施例的执行形状感知体积融合的特定方法。根据替代实施例还可以执行其它步骤顺序。例如，本发明的替代实施例可以以不同的顺序执行上面概述的步骤。此外，图5中所示的各个步骤可以包括多个子步骤，该子步骤可以以各个步骤适合的各种顺序执行。此外，取决于特定的应用，可以添加或移除附加步骤。本领域的普通技术人员将认识到许多变化、修改和替代。

图10A是示出使用关于图1描述的方法重建的第一重建3D网格的图像。图10B是示出使用关于图2描述的方法重建的第二重建3D网格的图像。因此，图10A和图10B分别提供不具有和具有形状感知3D重建技术重建的3D网格的比较。

在表示墙中的门的图10A中所示的图像中，重建的3D网格包括沿着门侧柱的左边缘以及沿着门侧柱的右边缘的波纹。在图10B中所示的图像中，示出了图10A中所示的相同的门，形状感知3D网格重建产生更清晰和更准确的输出。考虑到门侧柱的左边缘、墙看起来向观看者退出。这种不准确地表示物理场景的退出(bow)很可能是由估计相机姿态中的误差造成的。

如图10B中所示，从门框形状到网格的其余部分的过渡更平滑，明显由直的垂直门侧柱限定。因此，对于室内场景，本发明的实施例提供视觉上令人愉悦和准确的3D网格重建。

图11A是示出使用关于图1描述的方法重建的第三重建3D网格的图像。图11B是示出使用关于图2描述的方法重建的第四重建3D网格的图像。因此，图11A和图11B分别提供不具有和具有形状感知3D重建技术重建的3D网格的比较。

在表示壁龛中的展台和桌子的图11A中所示的图像中，重建3D网格包括构成壁龛左侧的墙端中的波纹以及构成壁龛右侧的墙端中的波纹。此外，壁龛之上的墙在长凳之上的墙左侧呈现波纹和不均匀性。在图11B中所示的图像中，示出了图11A中所示的相同的壁龛、长凳和桌子，形状感知3D网格重建产生更清晰和更准确的输出。特别地，构成壁龛右边缘的墙看起来延伸到图11A中的下一个壁龛中。然而，在图11B中，左墙的右侧是平坦的，具有干净的墙端，清楚地分隔相邻的壁龛并准确地表示物理场景。

图12是示出根据本发明实施例的使用深度图像来重建3D网格的系统的简化示意图。该系统包括可用于收集一系列捕捉的深度图的深度相机1220。在该示例中，采用深度相机(位置1)捕捉场景1210的第一深度图，并且当相机(1222)处于位置2时，捕捉场景1210的第二深度图。

该组捕捉的深度图被发送到可以与深度相机集成或分离的计算机系统1230。计算机系统可操作地执行在此描述的计算方法并且生成场景1210的重建3D网格以通过显示器1232显示给用户。重建的3D网格可以通过I/O接口1240发送到其它系统，用于显示、存储等。本领域的普通技术人员将认识到许多变化、修改和替代。

图13是计算机系统1300的框图。图13仅仅是说明性的。在一些实施例中，计算机系统包括单个计算机设备，其中子系统可以是计算机设备的组件。在其它实施例中，计算机系统可以包括具有内部组件的多个计算机设备，每一个计算机设备都是子系统。计算机系统1300及其任何组件或子系统可以包括配置用于执行在此描述的方法的硬件和/或软件元件。

计算机系统1300可以包括熟悉的计算机组件，诸如一个或多个数据处理器或中央处理单元(CPU)1305、一个或多个图形处理器或图形处理单元(GPU)1310、存储器子系统1315、存储子系统1320、一个或多个输入/输出(I/O)接口1325、通信接口1330等。计算机系统1300可以包括互连上述组件并提供功能的系统总线1335，诸如装置间通信的连接。

一个或多个数据处理器或中央处理单元(CPU)1305可以执行逻辑或程序代码或用于提供应用程序特定的功能。CPU 1305的一些示例可以包括一个或多个微处理器(例如，单核和多核)或微控制器、一个或多个场可编程阵列(FPGA)和专用集成电路(ASIC)。作为在此的用户，处理器包括位于同一集成芯片上的多核处理器，或者单个电路板上的或联网的多个处理单元。

一个或多个图形处理器或图形处理单元(GPU)1310可以执行与图形相关联的逻辑或程序代码或用于提供图形专用功能。GPU 1310可以包括任何传统图形处理单元，诸如由传统视频卡提供的那些。在各种实施例中，GPU 1310可以包括一个或多个矢量或并行处理单元。这些GPU可以是用户可编程的，并且包括用于编码/解码特定类型的数据(例如，视频数据)或者用于加速2D或3D绘图操作、纹理化操作、着色操作等的硬件元件。一个或多个图形处理器或图形处理单元(GPU)1310可以包括任意数量的寄存器、逻辑单元、算术单元、高速缓存、存储器接口等。

存储器子系统1315可以例如使用机器可读文章、信息存储装置或计算机可读存储介质来存储信息。一些示例可以包括随机存取存储器(RAM)、只读存储器(ROM)、易失性存储器、非易失性存储器以及其它半导体存储器。存储器子系统1315可以包括数据和程序代码1340。

存储子系统1320还可以使用机器可读文章、信息存储装置或计算机可读存储介质来存储信息。存储子系统1320可以使用存储介质1345来存储信息。由存储子系统1320使用的存储介质1345的一些示例可以包括软盘、硬盘、诸如CD-ROM、DVD和条形码的光存储介质、可移动存储装置、网络存储装置等。在一些实施例中，可以使用存储子系统1320来存储全部或部分的数据和程序代码1340。

一个或多个输入/输出(I/O)接口1325可以执行I/O操作。一个或多个输入装置1350和/或一个或多个输出装置1355可以通信地耦合到一个或多个I/O接口1325。一个或多个输入装置1350可以从计算机系统1300的一个或多个源接收信息。一个或多个输入装置1350的一些示例可以包括计算机鼠标、跟踪球、跟踪板、操纵杆、无线遥控器、绘图板、语音命令系统、眼睛跟踪系统、外部存储系统、适当地配置为触摸屏的监视器、适当地配置为收发器的通信接口等。在各种实施例中，一个或多个输入装置1350可以允许计算机系统1300的用户与一个或多个非图形或图形用户界面交互以输入评论，选择对象、图标、文本、用户界面小部件或经由命令、点击按钮等出现在监视器/显示装置上的其它用户界面元素。

一个或多个输出装置1355可以向计算机系统1300的一个或多个目的地输出信息。一个或多个输出装置1355的一些示例可以包括打印机、传真机、用于鼠标或操纵杆的反馈装置、外部存储系统、监视器或其它显示装置、适当地配置为收发器的通信接口等。一个或多个输出装置1355可以允许计算机系统1300的用户查看对象、图标、文本、用户界面小部件或其它用户界面元素。显示装置或监视器可以与计算机系统1300一起使用，并且可以包括配置用于显示信息的硬件和/或软件元件。

通信接口1330可以执行通信操作，包括发送和接收数据。通信接口1330的一些示例可以包括网络通信接口(例如，以太网、Wi-Fi等)。例如，通信接口1330可以耦合到通信网络/外部总线1360，诸如计算机网络、USB集线器等。计算机系统可以包括多个相同的组件或子系统，例如通过通信接口1330或通过内部接口连接在一起。在一些实施例中，计算机系统、子系统或设备可以通过网络进行通信。在这种情况下，一台计算机可以被认为是客户端，而另一台计算机是服务器，其中每一台可以是同一计算机系统的一部分。客户端和服务器可以分别包含多个系统、子系统或组件。

计算机系统1300还可以包括要由处理器执行以执行、进行或以其它方式实现在此公开的技术的一个或多个应用程序(例如，软件组件或功能)。这些应用程序可以被实现为数据和程序代码1340。另外，计算机程序、可执行计算机代码、人类可读的源代码、着色器代码、渲染引擎等以及诸如图像文件、包括对象的几何描述、对象的有序几何描述的模型、模型的过程描述、场景描述符文件等的数据可以存储在存储器子系统1315和/或存储子系统1320中。

这种程序还可以使用适合于经由符合各种协议(包括因特网)的有线、光学和/或无线网络传输的载波信号来编码和发送。因此，根据本发明实施例的计算机可读介质可以使用用这种程序编码的数据信号来创建。用程序代码编码的计算机可读介质可以与兼容装置一起封装或与其它装置分开提供(例如，经由因特网下载)。任何这种计算机可读介质可以驻留在单个计算机产品(例如，硬盘驱动器、CD或整个计算机系统)上或内，并且可以存在于系统或网络内的不同计算机产品上或内。计算机系统可以包括监视器、打印机或其它合适的显示器，用于向用户提供在此提到的任何结果。

在此描述的任何方法可以完全地或部分地用包括一个或多个处理器的计算机系统执行，其可以被配置为执行这些步骤。因此，实施例可以涉及被配置为执行在此描述的任何方法的步骤的计算机系统，潜在地采用执行相应步骤或相应步骤组的不同组件。尽管作为编号的步骤呈现，但是在此的方法步骤可以同时或以不同的顺序执行。另外，这些步骤的部分可以与来自其它方法的其它步骤的部分一起使用。此外，步骤的全部或部分可以是可选的。另外，可以用模块、电路或用于执行这些步骤的其它手段来执行任何方法的任何步骤。

虽然以上已经描述了本发明的各种实施例，但应该理解的是，它们仅以示例的方式呈现，而不是作为限制。类似地，各种图可以描绘用于本公开的示例性架构或其它配置，其被进行以帮助理解可以被包括在本公开中的特征和功能。本公开不限于所示出的示例性架构或配置，而是可以使用各种替代架构和配置来实现。此外，虽然以上根据各种示例性实施例和实施方式描述了本公开，但应该理解的是，在一个或多个单独实施例中描述的各种特征和功能不限于它们对它们所描述的特定实施例的适用性。相反，它们可以单独应用或以一些组合应用于本公开的一个或多个其它实施例，无论这些实施例是否被描述，以及这些特征是否被呈现为所描述的实施例的一部分。因此，本公开的广度和范围不应该被任何上述示例性实施例限制。

在该文件中，如在此所使用的术语“模块”是指软件、固件、硬件以及用于执行在此描述的相关功能的这些元件的任何组合。另外，为了讨论的目的，各种模块被描述为分立模块；然而，对于本领域的普通技术人员来说显而易见的是，可以将两个或多个模块组合以形成根据本发明的实施例执行相关功能的单个模块。

应该理解，为了清楚起见，以上描述已经参考不同的功能单元和处理器描述了本发明的实施例。然而，显而易见的是，可以使用不同功能单元、处理器或域之间的功能的任何合适的分布而不偏离本发明。例如，被说明为由单独的处理器或控制器执行的功能可以由相同的处理器或控制器执行。因此，对特定功能单元的引用仅被视为对用于提供所描述功能的合适手段的引用，而不是指示严格的逻辑或物理结构或组织。

除非另有明确说明，否则本文中使用的术语和短语及其变体应解释为开放式而不是限制性的。作为前述示例：术语“包括”应理解为意指“包括但不限于”等；术语“示例”用于提供讨论中的项目的示例性实例，而不是其详尽的或其限制性的列表；以及诸如“常规”、“传统”、“正常”、“标准”、“已知”以及类似含义的术语等的形容词不应被解释为将所描述的项目限制到给定时间段或者在给定时间的可用项目。但是，应该将这些术语理解为涵盖现在已知或将来任何时候可用的常规、传统、正常或标准技术。同样地，与连词“和”相关联的一组项目不应被理解为要求这些项目中的每一个都出现在分组中，而应被理解为“和/或”，除非另有明确说明。类似地，与连词“或”相关联的一组项目不应被理解为要求该组中的相互排他性，而应该被理解为“和/或”，除非另有明确说明。此外，尽管本公开的项目、要素或组件可以单数形式描述或要求保护，但是复数形式预期在其范围内，除非明确陈述限于单数形式。在一些情况下，诸如“一个或多个”、“至少”、“但不限于”或其它类似短语的扩展单词和短语的存在不应被解读为意味着在这种扩展短语可能不存在的实例中打算或要求较窄的情况。

还应该理解，在此描述的示例和实施例仅用于说明性目的，并且对于本领域技术人员将暗示对其进行各种修改或改变，并且将被包括在本申请的精神和范围内以及所附权利要求的范围内。

Claims

1.一种更新相机姿态的方法，所述方法包括：

在一个或多个处理器处接收一组捕捉的深度图，所述捕捉的深度图中的每个捕捉的深度图与物理相机姿态相关联，所述一组捕捉的深度图包括场景；

使用所述一个或多个处理器，检测在所述场景中存在的第一形状和第二形状，所述第一形状由第一尺寸和/或第一位置/取向来表征，以及所述第二形状由第二尺寸和/或第二位置/取向来表征；

使用所述一个或多个处理器，对于所述第一形状创建第一3D网格；

使用所述一个或多个处理器，在第一局部参考系中创建与所述第一3D网格相关联的第一虚拟相机；

使用所述一个或多个处理器渲染第一深度图，所述第一深度图与所述第一虚拟相机相关联；

使用所述一个或多个处理器，对于所述第二形状创建第二3D网格；

使用所述一个或多个处理器，在第二局部参考系中创建与所述第二3D网格相关联的第二虚拟相机；

使用所述一个或多个处理器渲染第二深度图，所述第二深度图与所述第二虚拟相机相关联；

使用所述一个或多个处理器识别捕捉的深度图的子集，所述子集中的每个捕捉的深度图至少包括所述第一形状的第一部分或所述第二形状的第二部分；以及

通过优化所述第一深度图、所述第二深度图与所述捕捉的深度图的子集之间的对准来使用所述一个或多个处理器、所述第一形状和所述第二形状联合求解所述物理相机姿态、所述第一尺寸和第一位置/取向以及所述第二尺寸和第二位置/取向，从而更新与所述捕捉的深度图的子集相关联的所述物理相机姿态以提供经更新的物理相机姿态。

2.根据权利要求1所述的方法，其中，检测所述第一形状和所述第二形状包括：

使用所述一个或多个处理器并对于点云中的多个像素确定多个水平平面，所述多个水平平面是针对所述多个像素中的每个像素由相邻像素到所述多个像素中的每个像素的点法线来限定的；

使用一个或多个处理器计算与所述多个水平面垂直的矢量，所述矢量限定与所述点云相关联的垂直方向；

使用所述一个或多个处理器形成与所述垂直方向正交的虚拟平面；

使用所述一个或多个处理器将所述点云中的点投影到所述虚拟平面上，以生成表示所述点云中的与所述虚拟平面中的预定位置相关联的多个点的二维数据集；

使用所述一个或多个处理器计算所述点云中的点的投影统计；

使用所述一个或多个处理器，根据所计算的投影统计来检测多条线，所述多条线与垂直墙相关联；以及

使用所述一个或多个处理器，根据所述投影统计和所检测到的多条线来检测所述第一形状和所述第二形状。

3.根据权利要求1所述的方法，其中，与所述捕捉的深度图的子集相关联的所述物理相机姿态包括第一物理相机姿态和第二物理相机姿态，所述第一物理相机姿态与所述捕捉的深度图的子集中的第一捕捉的深度图相关联，所述第二物理相机姿态与所述捕捉的深度图的子集中的第二捕捉的深度图相关联，并且其中，所述第一捕捉的深度图对应于所述第一深度图的一部分，以及所述第二捕捉的深度图对应于所述第二深度图的一部分。

4.根据权利要求1所述的方法，其中，优化所述第一深度图、所述第二深度图与所述捕捉的深度图的子集之间的对准包括：

优化所述第一深度图与所述第二深度图之间的对准；

优化所述第一深度图与所述捕捉的深度图的子集之间的对准；以及

优化所述第二深度图与所述捕捉的深度图的子集之间的对准。

5.根据权利要求1所述的方法，其中，针对所述第一形状的所述第一3D网格包括多个三角形，并且其中，所述多个三角形的至少一部分在所述第一虚拟相机的第一视场中。

6.根据权利要求5所述的方法，还包括：

使用所述一个或多个处理器创建与所述第一3D网格相关联的第三虚拟相机，其中，所述多个三角形的第二部分在所述第三虚拟相机的第二视场中，并且其中，所述多个三角形中的每个三角形在所述第一视场和所述第二视场中的至少一个中。

7.根据权利要求1所述的方法，其中，所述第一局部参考系包括所述第一形状的第一参考系。

8.根据权利要求1所述的方法，其中，所述第二局部参考系包括所述第二形状的第二参考系。

9.根据权利要求1所述的方法，其中，所述一组捕捉的深度图是从相对于场景的不同位置获得。

10.根据权利要求1所述的方法，其中，所述一组捕捉的深度图是在不同时间从相对于场景的单个位置获得。

11.一种用于更新相机姿态的系统，所述系统包括：

深度相机；以及

一个或多个处理器，其通信地耦合到所述深度相机，其中，所述一个或多个处理器被配置为执行包括以下的操作：

通过所述深度相机获得一组捕捉的深度图，所述捕捉的深度图中的每个捕捉的深度图与物理相机姿态相关联，所述一组捕捉的深度图包括场景；

检测在所述场景中存在的第一形状和第二形状，所述第一形状由第一尺寸和/或第一位置/取向来表征，以及所述第二形状由第二尺寸和/或第二位置/取向来表征；

对于所述第一形状创建第一3D网格；

在第一局部参考系中创建与所述第一3D网格相关联的第一虚拟相机；

渲染第一深度图，所述第一深度图与所述第一虚拟相机相关联；

对于所述第二形状创建第二3D网格；

在第二局部参考系中创建与所述第二3D网格相关联的第二虚拟相机；

渲染第二深度图，所述第二深度图与所述第二虚拟相机相关联；

识别捕捉的深度图的子集，所述子集中的每个捕捉的深度图至少包括所述第一形状的第一部分或所述第二形状的第二部分；以及

通过优化所述第一深度图、所述第二深度图与所述一组捕捉的深度图的子集之间的对准来使用所述第一形状和所述第二形状联合求解所述物理相机姿态、所述第一尺寸和第一位置/取向以及所述第二尺寸和第二位置/取向，从而更新与所述捕捉的深度图的子集相关联的所述物理相机姿态以提供经更新的物理相机姿态。

12.根据权利要求11所述的系统，其中，所述一个或多个处理器被配置为通过执行包括以下的附加操作来检测所述第一形状和所述第二形状：

对于点云中的多个像素确定多个水平平面，所述多个水平平面是针对所述多个像素中的每个像素由相邻像素到所述多个像素中的每个像素的点法线来限定的；

计算与所述多个水平面垂直的矢量，所述矢量限定与所述点云相关联的垂直方向；

使用所述一个或多个处理器，形成与所述垂直方向正交的虚拟平面；

将所述点云中的点投影到所述虚拟平面上，以生成表示所述点云中的与所述虚拟平面中的预定位置相关联的多个点的二维数据集；

计算所述点云中的点的投影统计；

根据所计算的投影统计来检测多条线，所述多条线与垂直墙相关联；以及

根据所述投影统计和所检测到的多条线来检测所述第一形状和所述第二形状。

13.根据权利要求11所述的系统，其中，与所述捕捉的深度图的子集相关联的所述物理相机姿态包括第一物理相机姿态和第二物理相机姿态，所述第一物理相机姿态与所述捕捉的深度图的子集中的第一捕捉的深度图相关联，所述第二物理相机姿态与所述捕捉的深度图的子集中的第二捕捉的深度图相关联，并且其中，所述第一捕捉的深度图对应于所述第一深度图的一部分，以及所述第二捕捉的深度图对应于所述第二深度图的一部分。

14.根据权利要求11所述的系统，其中，所述一个或多个处理器被配置为通过执行包括以下的附加操作来优化所述第一深度图、所述第二深度图与所述捕捉的深度图的子集之间的对准：

优化所述第一深度图与所述第二深度图之间的对准；

15.根据权利要求11所述的系统，其中，针对所述第一形状的所述第一3D网格包括多个三角形，并且其中，所述多个三角形的至少一部分在所述第一虚拟相机的第一视场中。

16.根据权利要求15所述的系统，其中，所述一个或多个处理器被配置为执行包括以下的附加操作：

创建与所述第一3D网格相关联的第三虚拟相机，其中，所述多个三角形的第二部分在所述第三虚拟相机的第二视场中，并且其中，所述多个三角形中的每个三角形在所述第一视场和所述第二视场中的至少一个中。

17.一种用于形成重建的3D网格的系统，所述系统包括：

深度相机；以及

通过所述深度相机获取与场景相关联的一组捕捉的深度图；

执行与所述一组捕捉的深度图中的每个捕捉的深度图相关联的初始相机姿态对准；

在参考系中覆盖所述一组捕捉的深度图；

检测所覆盖的一组捕捉的深度图中的一个或多个形状，从而提供一个或多个所检测到的形状；

使用所述一个或多个所检测到的形状，基于所覆盖的一组捕捉的深度图与所述一个或多个所检测到的形状之间的重叠，更新所述初始相机姿态对准，以提供与所述一组捕捉的深度图中的每个捕捉的深度图相关联的形状感知相机姿态对准；

使用所述一个或多个所检测到的形状执行形状感知体积融合；以及

形成与所述场景相关联的所述重建的3D网格。

18.根据权利要求17所述的系统，其中，所述参考系包括所述一个或多个所检测到的形状之一的参考系。

19.根据权利要求17所述的系统，其中，所检测到的一个或多个形状包括墙角或门框中的至少一个。

20.根据权利要求17所述的系统，其中，所述一个或多个处理器被配置为通过执行包括以下的附加操作来提供与所述一组捕捉的深度图中的每个捕捉的深度图相关联的所述形状感知相机姿态对准：

对于所述一个或多个所检测到的形状中的每一个形状创建3D网格；其中，所覆盖的一组捕捉的深度图与物理相机姿态相关联，并且所述一个或多个所检测到的形状中的每一个形状由尺寸和位置/取向来表征；

在局部参考系中创建与每一个3D网格相关联的一个或多个虚拟相机；

渲染一个或多个深度图，所渲染的一个或多个深度图中的每一个与每个3D网格所关联的每个虚拟相机相关联；以及

通过优化所渲染的一个或多个深度图与所述一组捕捉的深度图之间的对准，联合求解所述物理相机姿态以及所述一个或多个所检测到的形状中的每一个形状的位置/取向。