CN110070556B

CN110070556B - 使用深度传感器的结构建模

Info

Publication number: CN110070556B
Application number: CN201910105226.0A
Authority: CN
Inventors: 迪特尔·施马尔施蒂格; 格哈德·赖特迈尔; 青·国·阮; 拉斐尔·大卫·安德烈·格拉赛特; 托比思·马丁·朗洛茨; 哈特穆特·赛西特
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-09-11
Filing date: 2014-09-11
Publication date: 2023-09-12
Anticipated expiration: 2034-09-11
Also published as: EP3044757A1; JP2016536715A; EP3044757B1; JP6469706B2; KR20160055177A; CN105637559B; CN110070556A; WO2015038765A1; US9934611B2; US10789776B2; EP4152253C0; EP4152253A1; US20150070387A1; EP4152253B1; KR102216736B1; CN105637559A; EP3496036A1; EP3496036B1; US20180182176A1

Abstract

本申请涉及使用深度传感器的结构建模。本发明呈现用于构建物理环境的数字表示的技术。在一些实施例中，一种方法包含获得指示所述物理环境的图像数据；基于所获得的所述图像数据从对应于所述物理环境中的至少一个位置的用户接收手势输入数据；检测所述物理环境中靠近对应于所接收到的所述手势输入数据的所述至少一个位置的至少一个不连续性；以及基于所接收到的所述手势输入数据和所述至少一个不连续性产生对应于所述物理环境中的表面的数字表面。

Description

使用深度传感器的结构建模

分案申请的相关信息

本案是分案申请。该分案的母案是申请日为2014年09月11日、申请号为201480049214.6、发明名称为“使用深度传感器的结构建模”的发明专利申请案。

技术领域

本发明总体而言涉及增强现实环境，且更具体来说，涉及实时建模实体环境。

背景技术

在增强现实(AR)环境中，用户可希望获得他的物理环境的模型以启用AR功能。举例来说，用户可希望将他的办公室的视图的主要结构建模，所述视图可包含墙面、地板和天花板的表面，以及桌子的台面表面。建模现实物理环境的当前方法可能不具有将不同表面彼此区分开的能力，且实际上仅产生指示与来自摄像机视图的每个点相关联的深度的点的密集重构。此外，此组点可不含有区分哪些点属于墙面或哪些点属于桌子等的任何方式。不具有此类语义意义使得AR壁面或桌子表面难以交互。此外，产生此组点可为非常处理器密集型且不大适用于实时使用。

本发明的实施例解决此问题和其它问题。

发明内容

介绍用于基于直观用户输入和用户的物理环境在移动装置上实时建模增强现实(AR)环境的方法和设备。在一些实施例中，用户可基于本发明的系统和方法产生表示用户的物理环境的表面的几何形状。在一些实施例中，仅此类表面的大致指示由用户需要，且快速不精确输入在一些情况下可为可接受的。在一些实施例中，移动装置的传感器功能性(例如，来自深度摄像机的输入)可用于推断用户并未充分指定的表面的其余部分。在一些实施例中，方法和应用包含手动用户接口，而在其它实施例中，可采用更“半自动”的用户接口。

使用业界中的已知方法，深度传感器可产生包含极其详细的信息的三维(3D)重建，从而产生可含有不具有任意语义的多个几何图元的模型。然而，对于多个应用，可能需要的全部应用为由少数多边形组成的几何模型，所述几何模型表示环境的重要结构，而非大量细节。建模结构可包含由几何面、边和顶点构成的多边形模型以及简单体积。此类几何模型可被称作结构模型。举例来说，简单房间可包含四个墙面、地板、天花板、门和窗户，总计八个多边形。应注意，此等几何结构具有低复杂度且通常具有例如正确角度或平行边的约束。

此外，使语义意义与结构结合可为重要的。举例来说，门可用于进出相邻房间，或虚拟物件可经约束以停留在真实表面上，或窗户可向上及向下滑动。对于增强现实(AR)中的相互相用，具有相关信息的简化结构模型可在移动装置上启用与结构模型相关联的资讯的实时处理。因此，本发明的实施例提出通过几个多边形(例如，用于门的单一矩形)表示来自现实世界的重要元素。

一种用于构建物理环境的数字表示的实例方法可包含获得指示物理环境的图像数据；基于所获得的图像数据接收对应于物理环境中的至少一个位置的用户输入数据图像数据；检测靠近对应于所接收到的用户输入数据的至少一个位置的物理环境中的至少一个不连续性；以及基于所接收到的用户输入数据和至少一个不连续性产生对应于物理环境中的表面的数字表面。在方法的一些实施例中，所接收到的用户输入数据指定数字表面的至少一个边。在其它实施例中，所接收到的用户输入数据指定数字表面的至少一个平面。在又其它实施例中，所接收到的用户输入数据包括物理环境内的多个点，基于所获得的图像数据，所述多个点被包含为数字表面的部分。

在某些实施例中，图像数据可包含关于物理环境的几何深度信息。在一些实施方案中，实例方法可侦测检测至少一个不连续性，其可包含在物理环境中检测至少两个平面表面相交之处。在某一实施方案中，所接收到的用户输入数据可包含2维坐标形式的输入数据，且所产生的数字表面可包含3维坐标形式的输出数据。实例方法可进一步包含接收定义与数字表面相关联的至少一个函数的语义输入。

一种用于构建物理环境的数字表示的实例移动装置可包含耦合到移动装置以用于获得指示物理环境的图像数据的摄像机。此外，移动装置可包含处理器，其耦合到存储器以用于基于所获得的图像数据接收对应于物理环境中的至少一个位置的用户输入数据；检测靠近对应于所接收到的用户输入数据的至少一个位置的物理环境中的至少一个不连续性；以及基于所接收到的用户输入数据和至少一个不连续性产生对应于物理环境中的表面的数字表面。在移动装置的一些实施例中，所接收到的用户输入数据指定数字表面的至少一个边。在其它实施例中，所接收到的用户输入数据指定数字表面的至少一个平面。在又其它实施例中，所接收到的用户输入数据包括物理环境内的多个点，基于所获得的图像数据，所述多个点被包含为数字表面的部分。

在某些实施例中，图像数据可包含关于物理环境的几何深度信息。在一些实施方案中，实例移动装置的组件可检测至少一个不连续性，其可包含在物理环境中检测至少两个平面表面相交之处。在一些实施方案中，所接收到的用户输入数据可包含2维坐标形式的输入数据，且所产生的数字表面可包含3维坐标形式的输出数据。实例移动装置可进一步包含用于接收定义与数字表面相关联的至少一个函数的语义输入的组件。

在某些实施例中，图像数据可包含关于物理环境的几何深度信息。在一些实施方案中，实例移动装置的组件可检测至少一个不连续性，其可包含在物理环境中检测至少两个平面表面相交之处。在某一实施方案中，所接收到的用户输入数据可包含2维坐标形式的输入数据，且所产生的数字表面可包含3维坐标形式的输出数据。实例移动装置可进一步包含用于接收定义与数字表面相关联的至少一个函数的语义输入的组件。

一种实例非暂时性计算机可读存储媒体，其中所述非暂时性计算机可读存储媒体包括可由处理器执行的指令，包括用于构建物理环境的数字表示的指令的指令可包含以下能力：获得指示物理环境的图像数据；基于所获得的图像数据接收对应于物理环境中的至少一个位置的用户输入数据；检测靠近对应于所接收到的用户输入数据的至少一个位置的物理环境中的至少一个不连续性；以及基于所接收到的用户输入数据和至少一个不连续性产生对应于物理环境中的表面的数字表面。在非暂时性计算机可读存储媒体的一些实施例中，所接收到的用户输入数据指定数字表面的至少一个边。在其它实施例中，所接收到的用户输入数据指定数字表面的至少一个平面。在又其它实施例中，所接收到的用户输入数据包括物理环境内的多个点，基于所获得的图像数据，所述多个点被包含为数字表面的部分。

在某些实施例中，图像数据可包含关于物理环境的几何深度信息。在一些实施方案中，存储于非暂时性计算机可读存储媒体上的指令可检测至少一个不连续性，其可包含在物理环境中检测至少两个平面表面相交之处。在一些实施方案中，所接收到的用户输入数据可包含2维坐标形式的输入数据，且所产生的数字表面可包含3维坐标形式的输出数据。实例非暂时性计算机可读存储媒体可进一步包含用于接收定义与数字表面相关联的至少一个函数的语义输入的指令。

一种用于构建物理环境的数字表示的实例设备可包含用于获得指示物理环境的图像数据的装置；用于基于所获得的图像数据接收对应于物理环境中的至少一个位置的用户输入数据的装置；用于检测靠近对应于所接收到的用户输入数据的至少一个位置的物理环境中的至少一个不连续性的装置；以及用于基于所接收到的用户输入数据和至少一个不连续性产生对应于物理环境中的表面的数字表面的装置。在设备的一些实施例中，所接收到的用户输入数据指定数字表面的至少一个边。在其它实施例中，所接收到的用户输入数据指定数字表面的至少一个平面。在又其它实施例中，所接收到的用户输入数据包括物理环境内的多个点，基于所获得的图像数据，所述多个点被包含为数字表面的部分。

在某些实施例中，图像数据可包含关于物理环境的几何深度信息。在一些实施方案中，实例设备可包含用于检测至少一个不连续性的装置，其可包含用于在物理环境中检测至少两个平面表面相交之处的装置。在一些实施方案中，所接收到的用户输入数据可包含2维坐标形式的输入数据，且所产生的数字表面可包含3维坐标形式的输出数据。实例设备可进一步包含用于接收定义与数字表面相关联的至少一个函数的语义输入的装置。

前文已经相当广泛地概述了实例的特征和技术优点，以便使以下的具体实施方式可以得到更好理解。将在下文中描述另外的特征及优点。所揭示的概念和具体实例可以容易地用作用于修改或设计用于执行本发明的相同目的的其它结构的基础。此类等效构造不脱离所附权利要求书的精神和范围。当结合附图考虑时，关于本发明的组织和操作方法的被认为是本文中所揭示的概念的特性的特征与相关联的优点一起将从以下描述得到更好理解。图式中的每一者都仅出于说明和描述的目的提供且并不提供为对权利要求书的限制的界定。

附图说明

通过实例来说明本发明的各方面。参考图式提供以下描述，其中类似参考标号始终用以指类似元件。虽然本文中描述一或多个技术的各种细节，但其它技术也是可能的。在一些情况下，以框图形式展示熟知结构及装置以便促进描述各种技术。

可参照说明书及图式的剩余部分来实现对由本发明提供的实例的性质及优点的进一步理解，其中贯穿若干图式使用类似参考标号来指代类似组件。在一些情况下，子标签与参考标号相关联以表示多个类似组件中的一者。当在无说明书的情况下将参考标号与现有子标签进行参考时，参考标号是指全部此类相似组件。

图1为可实施本发明的各种实施例的实例装置。

图2(A)、2(B)和2(C)展示根据一些实施例的实例使用范例。

图3说明移动装置上的十字准线光标和对应于移动装置摄像机的当前视图的投影。

图4A、4B和4C说明通过用户选择边的实例过程。

图5说明通过用户指定平面的实例过程。

图6A、6B和6C说明用于选择面和平面的不同实例光标类型。

图7A和7B说明将自由度(DOF)与结构模型中的对象相关联。

图8说明用于将三个DOF与对象相关联的实例。

图9A和9B说明指定几何面的实例过程。

图10A和10B说明用于通过将光标大致地指向关注区域而指定平面的实例。

图11说明用于实施于根据本发明的一个实施例的移动装置中的实例模块的框图。

图12为说明根据一些实施例的方法的实例流程图。

图13为根据一些实施例的计算装置的框图。

具体实施方式

现将根据形成其一部分的附图来描述若干例示性实施例。虽然下文描述可实施本发明的一个或一个以上方面的特定实施例，但可使用其它实施例，且可在不脱离本发明的范围或所附权利要求书的精神的情况下进行各种修改。

介绍用于基于直观用户输入和用户的物理环境在移动装置上实时建模增强现实(AR)环境的方法和设备。在一些实施例中，用户可基于本发明的系统和方法产生表示用户的物理环境的表面的几何形状。在一些实施例中，仅此类表面的大致指示由用户需要，且快速不精确输入在一些情况下可为可接受的。在一些实施例中，移动装置的传感器功能性(例如，来自深度摄像机的输入)可用于推断用户并未充分指定的表面的其余部分。在一些实施例中，方法和应用包含手动用户接口，而在其他实施例中，可采用更“半自动”的用户接口。

使用业界中的已知方法，深度传感器可产生包含极其详细的信息的3D重建，从而产生可含有不具有任意语义的多个几何图元的模型。廉价的深度传感器可提供室内环境的实时密集重构。所得3D模型可用于增强现实(AR)；然而几何模型具有公厘级细节和消耗显著处理和存储资源。

对于多个应用，可能需要的全部应用为由少数多边形组成的几何模型，所述几何模型表示环境的重要结构，而非大量细节。建模结构可包含由几何面、边和顶点构成的多边形模型以及简单体积。此类几何模型可被称作结构模型。举例来说，简单房间可包含四个墙面、地板、天花板、门和窗户，总计八个多边形。应注意，此等几何结构具有低复杂度且通常具有例如正确角度或平行边的约束。此外，使语义意义与结构结合可为重要的。举例来说，门可用于进出相邻房间，或虚拟物件可经约束以停留在真实表面上，或窗户可向上及向下滑动。对于增强现实(AR)中的相互相用，具有相关信息的简化结构模型可在移动装置上启用与结构模型相关联的资讯的实时处理。因此，本发明的实施例提出通过几个多边形(例如，用于门的单一矩形)表示来自现实世界的重要元素。

本发明的方法及设备说明根据一些实施例使用深度传感器用于AR建模用户接口，其中接口使得用户能够通过“虚拟激光指针”隐喻跟踪几何形状以输入结构模型。在一些实施方案中，快速不精确输入可为可接受的，由于系统可从3D重构中推断用户预期的几何结构。此外，移动装置可经配置以将实时视觉反馈提供至用户。

本发明说明合成通过扫过环境中的深度摄像机设备获得的密集网格的估计值以及通过移动用户接口将网格精制至结构模型中的空间AR建模技术。在一些实施例中，网格可指3D维度空间的多个数据点。移动用户接口可经配置以检测3D手势或用户输入以判定AR视图中的顶点、边和平面。移动用户接口可经进一步配置以将语义与AR视图中的结构相关联。举例来说，下拉菜单可允许用户将门与出自数个其它语义(例如窗户、框架等)的“门”语义相关联。下文将更详细地描述此等实例和其它。

参考图1，实例计算装置100可经配置以实施本发明的一或多个方面。举例来说，计算装置100可为智能手机、平板计算机、个人数字助理，或配备有一或多个传感器的其它移动装置，所述一或多个传感器允许计算装置100接收图像数据或其它数据作为一种形式的的输入。在另一实例中，计算装置100可为头戴式装置或任何其它计算装置。在一些实施例中，计算装置100不是移动装置，且可为(例如)台式计算机、游戏机、静止传感器或摄像机，或无线或有线耦合在一起的机器的系统。计算装置100可为配备有、连通地耦合到和/或另外包含一或多个前置或后置摄像机110、单镜头摄像机、深度摄像机、激光传感器、声纳传感器及/或其它传感器。移动装置还可包含用于与装置交互的一或多个用户接口。举例来说，移动装置可包含用户可与其交互以输入数据的触摸屏120。此类接口可使得用户能够定义和概述几何结构。另一接口可包含用于检测手势以及将手势解译为移动装置的命令的手势识别系统。除包含一或多个传感器以外，计算装置100还可包含一或多个处理器、存储器单元和/或其它硬件组件，如下文更详细描述。

在一或多个布置中，计算装置100可基于图像或用于定义物理边界的其它装置单独或组合使用此等传感器任一者和/或全部来获得关于计算装置100的自然周围环境的数据。举例来说，计算装置100可使用一或多个摄像机来获得计算装置100的自然周围环境的一或多个图形视图。作为更复杂的实例，计算装置100中的与一或多个摄像机组合的一或多个处理器可用于通过随时间记录和/或接收的多个图像查看自然周围环境。在具体实例中，自然周围环境可包含桌子或其它平坦表面，放置在桌子顶部上的多个对象。计算装置100可利用一或多个摄像机来从多个角度或视角查看桌子，从而提供关于桌子和其上的对象的图像数据的多个框架。当此处描述的此等图像数据作为实例时，通过计算装置100(无论通过计算装置100中的一或多个传感器，还是通过无线装置或有线装置)获得的任何其它类别的数据可视为实施本发明的一或多个方面的部分。

图2(A)说明实例办公室空间。图2(B)说明通过通过深度传感器启用的移动装置显示的办公室空间的图示。图2(C)说明办公室空间的重构模型。根据本发明的实施例，移动装置100可产生结构模型。

参考图2(A)，使用移动装置100的用户可将房间200建模。在此实例中，用户可使移动装置100对准(如图2(B)中所展示)感兴趣区域(图2(A)中的两个墙面204和206之间的边)。本发明的实施例可通过估计正交边(显示于装置100上的正交空间光标)即刻提供视觉反馈以及突出显示当前估计平面(突出显示的矩形204’和206’)的支持区域。图2(C)说明所重构的平面。在一些实施例中，如图2(B)中所展示，移动装置将所重构结构模型覆盖在办公室空间的视图的顶部上，以使得用户能够将来自图2(C)的结构(例如，矩形)与来自图2(A)的现实世界对象相关联。

根据图2(A)、2(B)和2(C)中所展示的实例使用范例，本发明的实施例在有深度传感器框架辅助时为用户提供用户接口以交互式地实现结构模型的产生。描述使得用户能够通过低认知工作逐渐地建立恰当结构模型的一组实例手势。如图2(B)中所展示，在一些实施例中，反馈可通过移动装置100的显示器上的AR接口中所展示的注册图形即刻提供。

本发明的实施例组合不大精密和苛刻的用户交互与来自深度传感器的3D信息的自动重构以产生结构模型。组合用户交互与自动重构在无需用户进行冗长交互的情况下实现结构模型的快速和精密构建且在大多数情况下将即时反馈提供至用户。此外，根据一些实施例，用户输入(例如手势)可用于所提出的系统内以将环境中的对象建模以及将语义指配给被建模对象。

在一些实施例中，通过单独指定边，用户可精确、有效和直观地控制通过极少工作产生的结构模型的几何结构。举例来说，用户可简单地逐边“绘制”多边形的轮廓。根据本发明的实施例，可自动推断出另外的几何结构。本发明的实施例(例如所提供的接口)允许更好地控制和提供用于在移动装置100处产生结构模型的计算上轻量的技术。

此外，本发明的实施例允许用户即刻创建结构模型且在移动装置上将语义与各种结构实时相关联。举例来说，移动装置可将窗户的结构模型产生为矩形且为用户提供接口以将矩形与窗户的语义相关联。举例来说，窗户的语义可包含窗户由玻璃制成且因此为透明的或其可在一个方向上滑动。由于移动装置可产生结构模型且实时地以语义标注结构模型，因此用户可即刻在增强现实环境中使用具有其语义的结构模型。

此类增强现实环境的实例应用程式可包含用户试图重建模房屋的区段。一旦房间中的不同结构经识别并用语义标注，则接口可进一步向用户提供操控那些结构的能力。举例来说，在以上实例中，一旦窗户经识别且用语义标注，则用户可指示移动装置加宽窗户且将增强现实表示中的加宽窗户覆盖在移动装置的显示器上。

在一些实施方案中，移动装置可向用户提供手动用户接口，然而在其它实施方案中，移动装置可向用户提供半自动用户接口。手动接口使得用户能够通过指定边明确和充分地控制建模过程，而半自动接口允许用户从自动估计基础局部结构中即刻选择选项。

参考图3，图示300展示显示于移动装置上100上的十字准线光标302和移动装置摄像机的当前视图中的3D对应部位的投影。图3说明用来通过明确指定边界边创建面的手动用户接口。在一个实例中，当用户将移动装置100扫过场景时，移动装置100相对于场景被追踪，同时用户正在执行手势输入。通过在画面上展示十字准线光标302，用户可将移动装置100缓慢扫过场景且因此经由箱体的边移动十字准线光标302。在一个实施方案中，每次的光标位置可通过从摄像机中心经过十字准线投射射线306且使此射线与环境相交来展示。

在一个实例实施方案中，通过移动光标和选择适当的手势类型，用户可创建结构模型。手势类型选择可通过在示意时利用拇指按压触摸屏上的软按钮即刻进行，因此只要按压按钮，即可仅激活所述手势。然而，在不脱离本发明的范围的情况下，还可采用用于选择的任何其它技术(菜单等)。

返回参考图3，用户可将光标大致地指向起始角(310)且随后(在由箭头304指示的方向上)将移动装置100和十字准线光标缓慢移动至结束角以选择“边”(参见图4A至4C)。沿着用户手势，系统估计通过起始光标位置和当前光标位置确定的覆盖区域中的边(如由312所指示)。这些光标位置定义存在边的潜在迹象的覆盖区域。基于覆盖区域，系统随后解决边的最佳表示。在一些实施例中，边必须为空间中的直线，所述直线靠近于由用户指示的射线，但边也应靠近于重构中的深度或普通不连续性。此实例相互相用技术需要用户大致地指出角，但允许用户在角之间的空间中自由移动光标。

参考图4A、4B和4C，用户通过大致地指向起始角(402)且随后指向边的所需端点或结束角(404)来指定边。在当前光标位置处，系统估计并将关于边的反馈提供至用户(由图4A和4C中的双边指示)。图4A和4C说明用户可粗略估计边。即使用户可经由边大致地移动光标，运行于移动装置上的边检测系统可检测边，因为边表示由两个平面相交指示的强几何特征。举例来说，在图4B中，即使光标从边移开且边可不瞬时展示为显示器中所检测的那样(如图4B所展示)，边可仍被检测到，只要光标大致地返回至所述边且因此朝向所需端点移动(如图4C中所指示)。

几何结构的边可依序由移动装置识别，结构的面也可在边的端点足够接近于第一边缘的起点时被识别。在此类情况中，边回线可自动封闭且面被识别。在一个实施例中，用户还可按压“制作面”按钮以通过从当前边序列的端点返回至起点插入额外边来立即创建面。

在一实施例中，如果尚未指定矩形的边，用户还可按压“制作矩形”按钮来指示矩形应使用指定边创建。在此情况下，系统优化序列使得矩形可创建。如果仅两个或三个边当前在序列中，移动装置可确定缺失边。

参考图5，图示500展示用户如何通过连续指向且将光标扫过平面的平整区域来指定平面。如图5中所展示，对象的面可通过选择“平面”选项且将光标(由502指示)扫过特定平坦表面来指定。在一些实施例中，系统检查光标周围的锥形中的表面点且计算主要平面。用户可利用“加”和“减”选项扩大或减少选择。“平面”选项可有助于具有更复杂的几何结构的情况。此外，用户能够通过扫过平面连接不平坦的平面。举例来说，门可具有限制门被识别为单一结构的雕饰。在此类情况下，用户可扫过门的不平坦的边以产生用于门的单一矩形。

在一些情况下，在此情况下结果可不为面，但为无穷大平面。平面可意图支持面的标准。如果面被定义为一系列边，系统可比较面与全部平面。如果面充分接近于平面，平面约束可添加到面的标准。换句话说，用户可通过也指定平面来帮助系统确定具有更好精度的面，但此可能不是必需的。

在一些实施方案中，本发明的实施例可允许指定挤压体积。举例来说，如果用户在已指定面(“底”面)之后按压“挤压”选项，用户可指定空间中的“顶”点。棱柱可通过在其垂直方向上挤压面而构建，使得棱柱的“顶”面位于“顶”点的平面中。

在一些实施例中，作为手动用户接口的替代方案，可采用半自动用户接口以用于即时操作。通过此接口，可给予用户更多选项，且可动态推断出用户输入的更多参数。用户可允许以任意次序定义一些结构，且系统可算出关于其自身的更多信息。举例来说，在房间中，用户能够指向三个平面交叉的天花板角。移动装置可推断三个平面且自动产生结构模型。

图6A说明用于指定面的平面上光标。其显示器估计边、垂直角，或面上的正交角。举例来说，如602处所展示，基于几何结构，移动装置的组件可解释，由于两个边之间的角度大约为零，所以光标指向边。类似地，如604和606所展示，移动装置的组件可解释，基于边之间的角度光标相应地指向垂直角或正交角。

图6B说明在用户在空间中且经由感兴趣的局部结构自由移动光标时显示一个平面、两个正交平面或三个正交平面的角的正交空间光标。图6C说明除其正交性性质以外，垂直空间光标可类似于正交空间的程度。

在一些实施方案中，用户可具备所述选项以选择允许用户指定额外约束的一个或一个以上光标。在一些情况下，平面上光标可假设用户已指定平面，且让用户输入边、任意角或正确角度的角。正交空间光标可通过指向面、边或角允许用户输入一个、两个或三个相邻多边形。此外，垂直空间光标可类似于正交空间光标，但可不假设正确角度。

当前光标类型可由用户(手动模式)设定或自动确定(自动模式)。在自动模式中，系统可依据当前估计局部结构(例如光标位置周围的经重构场景)确定光标类型。可视化光标图像可适合于估计当前局部结构。举例来说，图6A说明在光标图像适合于估计角时的当前平面上垂直角光标。

根据本发明的某些实施例，任何两个对象可被定义为硬性附属物(如以上实例中所论述)或非硬性附属物。非硬性附属物对象可将移动部分(例如门或窗户)建模。本发明的实施例可描述多个非硬性类型，举例来说，如图7A和7B中相应地所图示转动和滑动。对于转动，可指定两个参数、旋转向量和转动的范围。滑动可接收仅一个参数，滑动方向向量。一般来说，为正确地展示与装置相关联的DOF(自由度)，对象的初始状态和结束状态可展示以用于移动装置的组件推断与对象相关联的DOF。

图7A说明将能够围绕另一固定对象转动的对象建模的附属物结构模型。举例来说，图7A可说明围绕墙面上的合叶枢转的门。图7B说明附属物结构模型，所述附属物结构模型说明可沿着另一固定对象滑动的对象。举例来说，图7B可说明推拉门，其中门中的一者被固定。

如图7A和7B中所展示，提供非硬性附属物建模可使得用户能够将移动部分(例如门或窗户)建模。在图7A中，对于转动附属物，用户可首先定义能够转动的对象与固定对象之间的附属物边(此还为此附属物的旋转轴)。随后，用户可通过以大致类似旋转轴旋转移动装置100来定义旋转的范围。系统可相应地将装置旋转自动映射至1DOF(自由度)转动旋转。

在图7B中，对于滑动附属物，用户首先需要选择滑动平面(滑动对象和固定对象之间的接触面)。随后，用户相对于固定对象的主要定向平移移动装置100以定义滑动方向。移动装置可允许用户调整当前估计局部结构的定向或位置。此可通过相应地旋转或平移移动装置100以将估计结构调整到所需定向或位置来完成。

图8说明用户可如何根据先前论述的实例实施例通过相应地旋转或平移处理装置来操控对象的定向或位置。举例来说，通过将初始状态和预期结束状态提供至移动装置，移动装置的组件能够推断三个DOF，如图8中所展示。

图9A说明用于在实例高级操作模式中指定复杂面的手势的实例路径的开始。如图9A中所展示，用户可将光标对准面的边界。如由曲线902所指示，当用户大致在角(两者正交或否)或边(两者笔直或否)周围移动光标时，系统自动对其到估计当前光标位置周围的区域的局部结构的指示边(906、908、910和912)的关注点。举例来说，双线边(例如图9A中的边904)可指示由装置识别且显示给用户的边。系统可通过观察适当光标形状(例如，使用来自图6的平面上光标)将关于估计结构的反馈提供至用户。用户可按压按钮以确认当前估计结构。用户还可通过间接操纵调整结构的定向。模糊地，用户还可在执行手势时通过点击特定光标类型来直接指定局部结构(如果系统知道其处于光标手动模式下)。

图9B说明使用来自用户的手势的结构模型的映射的结束。图9B中的曲线902的延长部分(由用户绘制)通过执行将光标对准在关注区域和指示边(914、916和918)的额外关注点或面的边界(若需要)处的连续手势而产生面。根据一些实施例，在手势期间，系统自动估计光标位置周围的局部结构，且即刻将具有对应光标图像的反馈提供至用户。

如图10A中所展示，用户将光标定位至关注局部结构以定义若干平面和平面之间的约束(例如，正交性)。类似于指定3D平面上的边，当用户沿着路径1002移动光标时，系统自动估计潜在对应局部3D结构且算出平面边界。系统通过观察适当光标图像(图示为图6中的正交空间或垂直空间光标)和对应平面来将反馈提供至用户。用户可按压按钮以接受当前估计结构。此外，用户可使用间接操纵技术调整当前突出显示结构的定向。当然，用户还可通过点击特定光标类型直接指定局部结构。

参考图10A和图10B，用户通过将光标大致指向关注区域指定平面(一次一个、两个或三个平面)(图10A展示较早阶段期间的路径1002，然而图10B展示稍后阶段期间的路径1004)。系统通过观察适当调适光标图像和对应平面即刻提供估计局部结构的反馈。举例来说，反馈系统可在视觉上突出显示(图中未展示)建模的结构。

存在本发明优于现有方法的数个优势意图实现类似目的。举例来说，有意义的模型在用于移动装置的最新的应用(例如AR应用)中变得越来越要求高。然而，来自研究和产业界最新尝试未能以直观方式实现此类模型。相比而言，本发明的实施例利用用户输入和自动估计的组合来实现定量和定性的结构模型。通过将控制和易于输入难以计算的参数组合在用户接口内，利用来自深度传感单元的易于计算(但另外冗长手动输入)的参数/量测值的精度和自动确定，本发明的实施例允许高效结构建模。因此，本发明的实施例使得用户能够在提供相当精确性的同时，比当前目前先进技术更快和更高效地产生具有语义意义的结构模型。

图11说明用于实施于根据本发明的一个实施例的移动装置100中的实例模块的框图。移动装置可为使用图13中所描述的一或多个组件而实施的计算机装置。图11中所描述的模块可使用软体软件、固件、硬件或其其它组合实施。在一个实施例中，图11中所描述的模块可作为软件模块存储在计算机可读媒体1100上，所述计算机可读媒体可为任何磁性、电子、光学或其它计算机可读存储媒体。在一个实施方案中，计算机可读存储媒体1100可包含用户输入模块1102、摄像机和传感器模块1104、手势识别模块1106、结构模型产生器1108以及显示和反馈模块1110。

用户输入模块1102可经配置以通过用户接口接收用户输入。举例来说，在一个实施方案中，用户可在移动装置100的触摸屏处提供输入以用于选择适当模式和适当光标类型，且操控如以上图中所描述的光标

摄像机和传感器模块1104可经配置以从移动装置100的摄像机组件接收摄像机信息且从移动装置100上的深度传感器接收深度信息。

手势识别模块1106可经配置以从摄像机和传感器模块1104接收摄像机和深度信息。手势识别模块1106可使用来自摄像机的信息确定手势且将命令与手势相关联。举例来说，用户可做出手势以选择适当模式，选择适当光标类型且操控如以上图中所描述的光标。

结构模型产生器1108可经配置以接收用于用户输入模块1102、摄像机和传感器模块1104和手势识别模块的信息。结构模型产生器1108可经配置以将用户输入(经由触摸屏和/或手势)和摄像机和深度传感器信息组合以产生结构模型。另外，结构模型产生器1108还可通过请求用户注释信息而用语义标注来自结构模型的结构。

显示和反馈模块1110可经配置以在移动装置100的屏幕上显示增强现实。显示和反馈模块1110可从摄像机和传感器模块1104接收摄像机输入且将来自结构模型产生器1108的结构模型叠加在显示器上。显示和反馈模块1110还可将光标和光标的路径叠加在现实的显示器上方。此外，显示和反馈模块1110可在装置上突出显示增强现实视图中的几何结构以将关于已经从装置的视图建模的结构的反馈提供至用户。

图12为说明用于根据本发明的一或多个说明性方面执行本发明的实施例的方法的流程图。根据一个或一个以上方面，本文中所描述的方法和/或方法步骤中的任一者和/或全部可由和/或在移动装置100(举例来说，例如移动装置100和/或图13中更详细地描述的装置)中实施。在一个实施例中，下文关于图12所描述的方法步骤中的一或多者通过移动装置1300的处理器(例如处理器1310或另一处理器)实施。另外或或者，本文中所描述的方法和/或方法步骤中的任一者和/或全部可以计算机可读指令(例如存储在计算机可读媒体(例如存储器1335、储存装置1325或另一计算机可读媒体)上的计算机可读指令)实施。

流程图1200说明根据一些实施例的用于构建物理环境的数字表示的实例方法流程。在框1202处，指示物理环境的图像数据可获得。在框1204处，可基于所获得的图像数据从用户接收用户输入数据，对应于物理环境中的至少一个位置的手势输入数据。实例用户输入数据可包含本文中所描述的实例手势和输入的类型中的任一者。其它类型的用户输入或基于用户输入的功能对于所属领域的技术人员可为显而易见的，且实施例不受如此限制。在框1206处，可在靠近对应于所接收到的用户输入数据的至少一个位置的物理环境中检测到至少一个不连续性。在框1208处，对应于物理环境中的表面的数字表面可基于所接收到的用户输入数据和至少一个不连续性而产生。本文中所描述的实例方法可与先前图和描述中的任一者中所描述的公开内容中的任一者一致。用于实施本文中的实例方法的实例装置可为先前图和描述中的任一者中先前提及的实例装置中的任一者。

应了解，根据本发明的实施例，图12中所图示的特定步骤提供在操作模式之间切换的特定方法。步骤的其它序列还可相应地在替代实施例中执行。举例来说，本发明的替代实施例可以不同次序执行以上概述的步骤。此外，额外步骤或步骤的变体可依据特定应用添加或移除。所属领域的技术人员将识别和理解所述过程的多个变体、更改和替代方案。

根据特定要求可做出许多实施例。举例来说，还可能使用定制硬件，且/或可能将特定元件实施于硬件、软件(包含便携式软件，例如小程序等)或两者中。另外，可采用到例如网络输入/输出装置等其它计算装置的连接。

已描述定义AR环境中的平面表面的密集表示的多个方面，现在将关于图13描述可在其中实施本发明的各种方面的计算系统的实例。根据一个或一个以上方面，如图13中所图示的计算机系统可并入作为移动装置100的部分，所述移动装置可实施、执行和/或执行本文中所描述的特征、方法和/或方法步骤中的任一者和/或全部。举例来说，计算机系统1300可表示移动装置100的组件中的一些。移动装置可为具有输入感测单元的任何计算装置，例如无线接收器或调制解调器。移动装置的实例包含但不限于视频游戏控制台、平板计算机、智能电话、电视、AR护目镜、头戴式装置和移动台。在一些实施例中，系统1300经配置以实施上文所描述的方法中的任一者。图13提供计算机系统1300的一个实施例的示意性说明，所述计算机系统可执行如本文所描述的通过各种其他实施例提供的方法，和/或可充当主控计算机系统、远程查询一体机/终端、销售点装置、移动装置、机顶盒及/或计算机系统。图13仅意图提供对各种组件的一般化说明，可按需要利用所述组件中的任一者及/或全部。因此，图13大体上说明可如何以相对分离或相对更集成的方式实施个别系统元件。

展示计算机系统1300包括可经由总线1305电耦合(或可以其它方式在适当时进行通信)的硬件元件。硬件元件可包含一或多个处理器1310，包含但不限于一或多个通用处理器和/或一或多个专用处理器(例如，数字信号处理芯片、图形加速处理器和/或类似者)；一或多个输入装置1315，其可包含但不限于无线接收器、无线传感器、鼠标、键盘和/或类似者；以及一或多个输出装置1320，其可包含但不限于显示单元、打印机和/或类似者。此外，硬件元件还可包含用于获得图像数据的一或多个摄像机1355以及用于接收摄像机的视野的深度信息的一或多个深度传感器1360。

在一些实施例中，一或多个处理器1310可经配置以执行上文关于图13所描述的功能的子集或全部。举例来说，处理器1310可包括通用处理器和/或应用程序处理器。在一些实施例中，处理器集成到处理视觉跟踪装置输入和无线传感器输入的元件中。

计算机系统1300可进一步包括以下各者(和/或与以下各者通信)：一或多个非暂时性存储装置1325，所述非暂时性存储装置可包括(不限于)本地和/或网络可接入的存储装置，和/或可包含(但不限于)磁盘驱动器、驱动阵列、光学存储装置、例如随机存取存储器(“RAM”)和/或只读存储器(“ROM”)等固态存储装置，其可为可编程的、可快闪更新的和/或其类似者。此类存储装置可经配置以实施任何适当数据存储，包含但不限于各种文件系统、数据库结构及/或其类似者。

计算机系统1300还可包含通信子系统1330，其可包含但不限于调制解调器、网卡(无线或有线)、红外通信装置、无线通信装置和/或芯片组(例如，装置、802.11装置、WiFi装置、WiMax装置、蜂窝式通信设备等)和/或类似装置。通信子系统1330可准许与网络(例如，作为一个实例，下文所描述的网络)、其它计算机系统及/或本文中所描述的任何其它装置交换数据。在许多实施例中，计算机系统1300将进一步包括非暂时性工作存储器1335，其可包含RAM或ROM装置，如上文所描述。在一些实施例中，通信子系统1330可与收发器1350介接，所述收发器经配置以从接入点或移动装置发射及接收信号。一些实施例可包含单独的接收器或多个接收器，及单独的发射器或多个发射器。

计算机系统1300还可包括展示为当前位于工作存储器1335内的软件元件，包含操作系统1340、装置驱动器、可执行库和/或例如一或多个应用程序1345的其它代码，其可包括由各种实施例提供和/或可经设计以实施方法和/或配置系统、由其它实施例提供的计算机程序，如本文中所描述。仅举例来说，关于上文所论述的方法(例如，如关于图13所描述)而描述的一或多个程序可能实施为可由计算机(及/或计算机内的处理器)执行的代码及/或指令；在一方面中，接着，此类代码及/或指令可用以配置及/或调适通用计算机(或其它装置)以根据所描述的方法执行一或多个操作。

这些指令及/或代码的集合可存储在计算机可读存储媒体(例如上文所描述的存储装置1325)上。在一些情况下，存储媒体可并入于计算机系统(例如，计算机系统1300)内。在其它实施例中，存储媒体可与计算机系统分离(例如，可装卸式媒体(例如，压缩光盘)，和/或提供于安装包中，使得存储媒体可用以编程、配置和/或调适其上存储有指令/代码的通用计算机。这些指令可采用可由计算机系统1300执行的可执行代码形式，及/或可采用源和/或可安装代码的形式，所述源和/或可安装代码在由计算机系统1300编译及/或安装于所述计算机系统上后(例如，使用多种大体可用编译程序、安装程序、压缩/解压缩公用程序等中的任一者)，接着采用可执行代码的形式。

可根据特定要求做出实质性变化。举例来说，还可能使用定制硬件，且/或可能将特定元件实施于硬件、软件(包含便携式软件，例如小程序等)或两者中。另外，可采用到例如网络输入/输出装置等其它计算装置的连接。

一些实施例可以采用计算机系统(例如计算机系统1300)来执行根据本发明的方法。举例来说，所描述方法的过程的一些或全部可由计算机系统1300响应于处理器1310执行工作存储器1335中所含有的一或多个指令(其可能并入到操作系统1340和/或其它代码中，例如，应用程序1345)的一或多个序列来执行。可将此类指令从另一计算机可读媒体(例如，存储装置1325中的一或多者)读取到工作存储器1335中。仅举例来说，工作存储器1335中所含有的指令序列的执行可能致使处理器1310执行本文所描述的方法的一或多个过程，例如关于图13所描述的方法。

如本文中所使用，术语“机器可读媒体”和“计算机可读媒体”指参与提供使机器以特定方式操作的数据的任何媒体。在使用计算机系统1300实施的实施例中，在将指令/代码提供到处理器1310以用于执行中可能涉及各种计算机可读媒体，及/或各种计算机可读媒体可用以存储及/或载运此类指令/代码(例如，作为信号)。在许多实施方案中，计算机可读媒体为物理及/或有形存储媒体。此媒体可以采用许多形式，包含但不限于非易失性媒体、易失性媒体和发射媒体。非易失性媒体包含(例如)光盘和/或磁盘，例如存储装置1325。易失性媒体包含(但不限于)例如工作存储器1335的动态存储器。发射媒体包含(但不限于)同轴电缆、铜线及光纤，包含包括总线1305的电线，以及通信子系统1330的各种组件(和/或通信子系统1330借以提供与其它装置的通信的媒体)。因此，发射媒体还可呈波的形式(包含(但不限于)无线电、声波和/或光波，例如，在无线电波和红外数据通信期间产生的那些波)。

常见形式的物理和/或有形计算机可读媒体包含(例如)软性磁盘、柔性磁盘、硬盘、磁带或任何其它磁性媒体、CD-ROM、任何其它光学媒体、打孔卡、纸带、具有孔图案的任何其它物理媒体、RAM、PROM、EPROM、快闪EPROM、任何其它存储器芯片或盒带、如下文所描述的载波，或计算机可从其读取指令和/或代码的任何其它媒体。

在将一或多个指令的一或多个序列携载到处理器1310以用于执行时可涉及各种形式的计算机可读媒体。仅举例来说，最初可将指令携载于远程计算机的磁盘和/或光盘上。远程计算机可将指令载入到其动态存储器中，并经由发射媒体将指令作为信号进行发送以由计算机系统1300接收及/或执行。根据本发明的各种实施例，可能呈电磁信号、声学信号、光学信号和/或其类似者的形式的这些信号均为可在其上编码指令的载波的实例。

通信子系统1330(和/或其组件)通常将接收信号，且总线1305可接着将信号(和/或由信号所载运的数据、指令等)载运到处理器1310从其检索并执行指令的工作存储器1335。由工作存储器1335接收的指令可任选地在由处理器1310执行之前或之后存储在非暂时性存储装置1325上。存储器1335可含有根据本文所描述的数据库及方法中的任一者的至少一个数据库。因此存储器1335可存储当前揭示内容中的任一者中论述的任意值，包含图1、2、3、4、5、6、7、8、9、10、11、12以及相关描述。

图12中所描述的方法可通过图13中的各种框实施。举例来说，处理器1310可经配置以执行流程图1200中的框的功能中的任一者。存储装置1325可经配置以存储中间结果，例如在本文提及的块中的任一者内论述的全局独特属性或局部独特属性。存储装置1325还可含有与任何当前揭示内容一致的数据库。存储器1335可类似地经配置以记录执行在本文提及的块中的任一者中描述的功能中的任一者所必要的信号、信号的表示或数据库值。可能需要存储在例如RAM等临时或易失性存储器中的结果也可以包含在存储器1335中，且可包含类似于可存储在存储装置1325中的内容的任何中间结果。输入装置1315可经配置以根据本文所描述的本发明从卫星和/或基站接收无线信号。输出装置1320可经配置以根据任何揭示内容显示图像、打印文本、传输信号和/或输出其它数据。

上文所论述的方法、系统和装置为实例。各种实施例可在恰当时省略、取代或添加各种程序或组件。举例来说，在替代配置中，所描述的方法可以不同于所描述的次序来执行，和/或可添加、省略和/或组合各种阶段。关于某些实施例描述的特征可组合在不同其它实施例中。可以类似方式组合实施例的不同方面和元件。技术在发展，且因此许多元件为实例，其并不将本发明的范围限制于那些特定实例。

在描述中给出具体细节以提供对实施例的透彻理解。然而，可在没有这些特定细节的情况下实施各实施例。举例来说，已在没有不必要的细节的情况下展示熟知电路、过程、算法、结构及技术以便避免混淆所述实施例。此描述仅提供示例实施例，且并不旨在限制本发明的范围、适用性或配置。实际上，实施例的前述描述将为所属领域的技术人员提供了用于实施本发明的实施例的启迪性描述。可在不脱离本发明的精神及范围的情况下对元件的功能及布置进行各种改变。

而且，将一些实施例描述为以流程图或框图形式描绘的过程。尽管每一流程图或框图可将操作描述为循序过程，但许多操作可并行地或同时执行。此外，可以重新布置操作的次序。过程可具有不包含在图式中的额外步骤。此外，可通过硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合来实施方法的实施例。当在软件、固件、中间件或微码中实施时，用以进行相关任务的程序代码或代码段可存储在如存储媒质等计算机可读媒质中。处理器可进行相关联的任务。

已描述若干实施例，可在不脱离本发明的精神的情况下使用各种修改、替代构造及等效物。举例来说，以上元件可以仅为较大系统的组件，其中其它规则可以优先于本发明的应用或以其它方式修改本发明的应用。可在考虑以上元件之前、期间或之后进行许多步骤。因此，以上描述并不限制本发明的范围。

已描述各种实例。这些和其它实例在以下权利要求书的范围内。

Claims

1.一种用于在移动设备上构建物理环境的数字表示的方法，所述方法包括：

由用户输入模块通过用户接口接收用户输入数据；

由摄像机和传感器模块接收来自摄像机的图像数据并且接收来自深度传感器的深度信息，或者接收来自深度摄像机的图像数据和深度信息；

由结构模型产生器模块接收来自所述用户输入模块的所述用户输入数据以及来自所述摄像机和传感器模块的所述图像数据和所述深度信息；其中所述结构模型产生器模块被进一步配置为：

组合所述用户输入数据和所述图像数据以及所述深度信息以生成所述物理环境的结构模型，其中所述结构模型包括至少一个建模结构；以及

基于所述用户输入数据来将所述至少一个建模结构与语义信息相关联，

其中所述语义信息定义所述至少一个建模结构的至少一个函数，其中所述至少一个函数包括以下各项中的至少一项：透明度、旋转向量、旋转的范围、位置约束和滑动方向向量。

2.根据权利要求1所述的方法，其中所述至少一个建模结构将所述物理环境内的物理对象表示为多边形模型。

3.根据权利要求1或2所述的方法，进一步包括：

由手势识别模块接收来自所述摄像机和传感器模块的所述图像数据和所述深度信息；

由所述手势识别模块使用所述图像数据和所述深度信息来确定用户手势；以及

由所述手势识别模块将命令与所述手势相关联。

4.根据权利要求3所述的方法，进一步包括：

由显示和反馈模块在显示器上显示增强现实；

由所述显示和反馈模块接收来自所述摄像机和传感器模块的摄像机输入；以及

由所述显示和反馈模块将所述结构模型与所述摄像机输入在所述显示器上重叠。

5.根据权利要求3所述的方法，其中由所述显示和反馈模块在所述移动设备的所述屏幕上突出显示在所述增强现实中的几何结构，以向所述用户提供关于所述至少一个结构的反馈。

6.一种移动设备，包括：

被配置为获得指示物理环境的图像数据的摄像机以及被配置为获得所述摄像机的视野的深度信息的深度传感器；或者

深度摄像机，其被配置为获得指示物理环境的图像数据和所述深度摄像机的视野的深度信息；以及

用户接口，其被配置为获得用户输入；以及

处理器，其耦合到存储器并且经配置以：

通过所述用户接口来接收用户输入数据；

接收来自所述摄像机的图像数据和来自所述深度传感器的深度信息，或者接收来自所述深度摄像机的图像数据和深度信息；

其中所述语义信息被配置为定义所述至少一个建模结构的至少一个函数，其中所述至少一个函数包括以下各项中的至少一项：透明度、旋转向量、旋转的范围、位置约束和滑动方向向量。

7.根据权利要求6所述的移动设备，其中所述用户接口还被配置为向所述用户提供操控所述至少一个建模结构的能力。

8.根据权利要求7所述的移动设备，其中所述操控所述至少一个建模结构的能力包括：

操控所述至少一个建模结构的位置、大小和/或取向。

9.根据权利要求8所述的移动设备，其中耦合到所述存储器的所述处理器还经配置以：

基于所获得的图像数据，接收与所述物理环境中的至少一个位置相对应的用户输入数据；

检测在与所接收的用户输入数据相对应的所述至少一个位置附近的所述物理环境中的至少一个不连续性；以及

基于所接收的用户输入数据和所述至少一个不连续性，产生与所述物理环境中的表面相对应的数字表面。

10.根据权利要求8所述的移动设备，其中所接收的用户输入数据指定所述数字表面的至少一个边缘，和/或其中所接收的用户输入数据指定所述数字表面的至少一个平面。

11.根据权利要求6-10中任一项所述的移动设备，其中，基于所获得的图像数据，所接收的用户输入数据包括在所述物理环境内的多个点，所述多个点被包含为所述数字表面的部分。

12.根据权利要求6-10中任一项所述的移动设备，其中所接收的用户输入数据包括二维坐标中的输入数据，并且所生成的数字表面包括三维坐标中的输出数据。

13.根据权利要求9-10中任一项所述的移动设备，其中检测所述至少一个不连续性包括：在所述物理环境中检测至少两个平面表面相交之处。

14.一种其上存储有指令的非暂时性计算机可读介质，所述指令在由一或多个处理器执行时使得所述一或多个处理器执行根据权利要求1-5中任一项所述的方法。