CN108369742B

CN108369742B - 使用传感器融合的经优化对象扫描

Info

Publication number: CN108369742B
Application number: CN201780004838.XA
Authority: CN
Inventors: M·斯卡维泽; A·汤姆林; 蔡锐; 李志伟
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-02-08
Filing date: 2017-02-07
Publication date: 2022-09-06
Anticipated expiration: 2037-02-07
Also published as: WO2017139238A1; CN108369742A; US20190379885A1; US10257505B2; EP3414742A1; EP3414742B1; US20170230641A1; US10674142B2; CN115509352A

Abstract

传感器融合被用在诸如头戴式显示(HMD)设备的电子设备中，所述电子设备具有配备有不同的传感器的传感器封装，从而对所捕捉的在现实世界环境中的对象或场景的2D图像进行补充的信息可被用于确定图像立体对的经优化变换并丢弃误差数据，否则这些误差数据将妨碍用于在例如虚拟世界应用中构建3D模型的成功扫描。这样的补充信息可以包括世界位置、世界旋转、来自扩展视野(FOV)的图像数据或深度图数据中的一个或多个。

Description

使用传感器融合的经优化对象扫描

背景

对象扫描可以用于将对象的多个二维(2D)图像变换成三维(3D)计算描述模型。一种特定的对象扫描技术利用对象上的特征点，以便确定如何将多个2D图像组合成3D模型。然而，在一些情况中，这种技术的应用可以是次优的，因为没有足够细节的对象可能难以扫描。

概述

传感器融合被用在诸如头戴式显示(HMD)设备的电子设备中，所述电子设备具有配备有不同的传感器的传感器封装，这样，对所捕捉的在现实世界环境中的对象或场景的2D图像进行补充的信息可被用于确定图像立体对的经优化变换并丢弃误差数据，否则这些误差数据将妨碍用于在例如虚拟世界应用中构建3D模型的成功扫描。这样的补充信息可以包括世界位置、世界旋转、来自扩展视野(FOV)的图像数据或深度图数据中的一个或多个。

在各种说明性示例中，来自跟踪相机(即图像传感器)和/或惯性传感器的世界跟踪信息提供了用于姿态优化的初始点，并且当计算的姿态与所跟踪的位置和旋转不一致时可以丢弃不正确的姿态。扩展FOV相机可以被用于2D姿态确定，同时高分辨率相机可以捕捉具有附加独特细节的2D图像，所述细节可以被用于针对3D模型将图像拼接在一起。2D图像捕捉可以在特定时间被触发以允许进一步的扫描优化。例如，世界跟踪可以被用于确定设备的运动，使得当所述设备静止或具有最小化模糊效果的最少运动时能捕捉各图像。世界跟踪也使得2D图像能够在现实世界环境中的等间隔的位置处被捕捉，以因为在各个位置的每个位置处所生成的深度图中的类似误差特性而提高所构建的3D模型的质量。

通过采用传感器融合来利用来自多个传感器的补充信息，在构造3D模型时与仅仅使用惯性数据以提供如何组合2D图像的提示相比，可获得更加稳健和精确的数据。另外，使用传感器融合的对象扫描可以通过使计算资源能够被更加有效地利用来改善电子设备自身在典型应用中的操作。例如，来自世界跟踪的姿势优化和不正确姿势的丢弃可以在标识给定3D模型的局部最小值时减少处理迭代和存储器使用率。类似地，使用更少(但均匀间隔)图像的3D模型构造可以导致降低的处理器使用率以及存储器消耗。

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并非旨在标识出要求保护的主题的关键特征或必要特征，亦非旨在用作辅助确定要求保护的主题的范围。此外，所要求保护的主题不限于解决在本公开的任一部分中所提及的任何或所有缺点的实现。应当理解，上述主题可被实现为计算机控制的装置、计算机进程、计算系统或诸如一个或多个计算机可读存储介质等制品。通过阅读下面的详细描述并审阅相关联的附图，这些及各种其他特征将变得显而易见。

附图描述

图1示出说明性虚拟现实环境，在HMD设备的用户视野内呈现了该虚拟现实环境的一部分；

图2示出其中定位有HMD设备的用户的说明性现实世界环境；

图3是虚拟现实或混合现实HMD设备的说明性示例的图形视图；

图4示出了虚拟现实或混合现实HMD设备的说明性示例的功能框图；以及

图5描绘了正被HMD设备捕捉的与现实世界环境相关联的表面重构数据；

图6示出HMD设备所支持的说明性用户界面以及由HMD传感器封装提供的说明性数据；

图7示出了说明性表面重构流水线的框图；

图8示出了对在用户的现实世界环境中的对象的多个图像的捕捉；以及

图9示出了描绘用于使用图像捕捉设备捕捉对象的图像的说明性过程的流程图。

图10示出了描绘用于检测正被扫描的对象已经相对于在其中跟踪扫描系统的坐标系改变了取向的示例性过程的流程图。

各附图中相同的附图标记指示相同的元素。除非另外指明否则各元素不是按比例绘制的。

详细描述

用户通常可以通过在对应的现实世界物理环境内移动(例如，通过某种形式的运动)来在由HMD设备所呈现的虚拟现实环境内进行探索、导航和移动。在说明性示例中，如图1所示，用户102可以使用HMD设备104来体验可视地以3维(3D)呈现并在一些实现中可以包括音频和/或触觉/触摸感觉的虚拟现实环境100。在这一特定非限制性示例中，在HMD设备104上执行的应用支持虚拟现实环境100，它包括具有各种建筑、商店等的城市街道。当如在图2所示那样用户改变他的头部的位置或取向和/或在物理现实世界环境200内移动时，他的虚拟现实环境100的视图可以改变。(由图1中的虚线区域110表示的)视野可被设定尺寸和形状，并且可以控制该设备的其它特性来使得HMD设备体验可视地沉浸式体验以为用户提供在虚拟世界的强烈存在感。尽管虚拟现实环境在图1中被示出且在此处描述，但本发明的原理也可以应用于混合现实环境和场景。

显示系统可采取任何合适的形式，包括但不限于诸如那些使用HMD设备和/或其他便携式/移动设备的近眼设备。图3示出了透视、混合现实显示系统300的一个特定说明性示例，而图4显示了系统300的功能框图。然而，要强调的是，尽管在一些实现中可以使用透视显示器，但在其它实现中使用例如基于相机的穿透或面向外的传感器的不透明(即非透视)显示器可以被使用。

显示系统300包括形成透视显示子系统304的一部分的一个或多个透镜302，使得图像可以使用透镜302(例如，使用到透镜302上的投影、结合入透镜302中的一个或多个波导系统和/或以任何其他合适的方式)来显示。显示系统300进一步包括被配置成获取正在被用户查看的背景场景和/或物理环境的图像的一个或多个面向外的图像传感器306，并可包括被配置成检测声音(诸如来自用户的语音命令)的一个或多个话筒308。面向外的图像传感器306可包括一个或多个深度传感器和/或一个或多个二维图像传感器。在替换安排中，如上所述，代替合并透视显示子系统，虚拟现实或混合现实显示系统可以通过面向外的图像传感器的取景器模式来显示混合现实图像。

显示系统300可进一步包括被配置成检测用户的每个眼睛的注视方向或焦点的方向或位置的注视检测子系统310，如上文所描述的。注视检测子系统310可被配置以任何合适方式确定用户每个眼睛的注视方向。例如，在所例示的说明性示例中，注视检测子系统310包括被配置成导致光的闪烁从用户的每个眼球反射的一个或多个闪光源312(诸如红外光源)，以及被配置成捕捉用户的每个眼球的图像的一个或多个图像传感器314(诸如面向内的传感器)。根据使用(诸)图像传感器314收集的图像数据所确定的用户眼球的闪烁和/或用户光瞳的位置中的变化可被用于确定注视的方向。

此外，从用户眼睛投射的注视线与外部显示器交叉的位置可被用于确定用户正注视的对象(例如，所显示的虚拟对象和/或真实的背景对象)。注视检测子系统310可具有任何合适数量和布置的光源以及图像传感器。在一些实现中，可省略注视检测子系统310。

显示系统300还可包括附加传感器。例如，显示系统300可包括全球定位系统(GPS)子系统316，以允许确定显示系统300的位置。这可以帮助标识可以位于用户的毗邻物理环境中的现实世界的对象(诸如建筑物等等)。

显示系统300可进一步包括一个或多个运动传感器318(例如惯性、多轴陀螺仪或加速度传感器)，以在用户穿戴着作为增强现实HMD设备的部件的所述系统时检测用户头部的移动和位置/取向/姿势。运动数据可潜在地与眼睛跟踪闪烁数据和面向外的图像数据一起被使用来用于注视检测以及用于图像稳定化，以帮助校正来自(诸)面向外的图像传感器306的图像中的模糊。运动数据的使用可允许注视位置的变化被跟踪，即使不能解析来自(诸)面向外的图像传感器306的图像数据。

此外，运动传感器318，以及话筒308和注视检测子系统310还可被用作用户输入设备，使得用户可经由眼睛、颈部和/或头部的姿势，以及在一些情况中经由语音命令来与显示系统300进行交互。可以理解，在图3和4中示出并在附随的文本中描述的传感器出于示例的目的被包括，而不旨在以任何方式进行限制，因为任何其他合适的传感器和/或传感器的组合可被利用来满足增强现实HMD设备的特定实现的需求。例如，生物特征传感器(例如用于检测心脏和呼吸速率、血压、大脑活动、体温等)或环境传感器(例如用于检测温度、湿度、海拔、UV(紫外线)光等级等)可以在一些实现中被使用。

显示系统300可以进一步包括通过通信子系统326与传感器、注视检测子系统310、显示子系统304，和/或其他组件进行通信的具有逻辑子系统322和数据存储子系统324的控制器320。通信子系统326还可促进显示系统与位于远程的资源(例如处理、存储、功率、数据和服务)结合操作。即，在一些实现中，HMD设备可被作为一种系统的部分来操作，该系统可以在不同的组件和子系统间分布资源和功能。

存储子系统324可以包括存储在其上的指令，这些指令能被逻辑子系统322执行例如用以：接收并解释来自传感器的输入、标识用户的位置和移动、使用表面重构和其他技术来标识现实对象，以及基于到对象的距离来调暗/淡出显示以便允许对象被用户看到，以及其他任务。

显示系统300被配置有一个或多个音频换能器328(例如扬声器、耳机等)，使得音频可以被用作增强现实体验的部分。功率管理子系统330可包括一个或多个电池332和/或保护电路模块(PCM)以及相关联的充电器接口334和/或用于对显示系统300中的组件供电的远程电源接口。

可以理解，所描绘的显示设备104和300是出于示例的目的来描述的，并由此不旨在是限制性的。还应理解，显示设备可包括除所示出的那些之外的附加的和/或替换的传感器、相机、麦克风、输入设备、输出设备等，而不会背离本布置的范围。附加地，显示设备及其各传感器和子组件的物理配置可采取各种不同的形式，而不会背离本安排的范围。

如图5所示，HMD设备104被配置为通过使用集成传感器封装505来感测物理环境200内的用户位置来获得表面重构数据500。所述传感器封装，如下更加详细地描述，可以包括深度传感器或深度-感测相机系统。在替换实现中，可以使用合适的立体图像分析技术来导出深度数据。

如图6所示，传感器封装505可以支持包括表面重构610的各种功能。表面重构可以被用于，例如，构建主体/对象、物理环境或其各部分的虚拟3D模型。在一些应用中，表面重构还可被用于世界和/或头部追踪以确定在物理现实世界环境200内的用户头部的3D(三维)位置和取向615(包括头部姿势)，从而可以确定虚拟世界的查看位置。在一些情况中，表面重构可以通过补充使用例如惯性传感器的其它头部跟踪技术来用于世界跟踪。使用表面重构或其它通过跟踪相机和类似传感器的基于相机的技术的世界跟踪可以被用于确定被用作补充信息的HMD设备在物理环境200内的世界位置和/或世界旋转。在一些情况中，世界跟踪还可以使用其它传感器或使用融合的传感器的组合来确定，尽管在单独使用的一些情形中来自惯性测量单元(IMU)的惯性传感器数据可以是不精确的。这些内容的非限制性示例包括磁性6自由度位置传感器、扫描房间的基于灯塔的激光扫描系统或在所跟踪的对象上的在特定时刻被触发的光电二极管，从而允许姿势被计算。

在一些实现中，传感器封装还可以支持注视追踪620以查明用户注视的方向625，用户注视的方向625可以与头部位置和取向数据一起使用。HMD设备104可以被进一步配置为展示可以显示系统消息、提示等等的用户界面(UI)630，以及展示用户可以操纵的控件。所述控件在一些情况中可以是虚拟或物理的。UI 630还可以被配置为使用例如语音命令或自然语言与所感测的手势和语音一起操作。

图7示出用于获得现实世界环境200的表面重构数据的说明性表面重构数据流水线700。需要强调的是所公开的技术是说明性的，并且根据特定实现的要求可以使用其它技术和方法。原始深度传感器数据702被输入到传感器的3D(三维)姿势估计中(框704)。传感器姿势跟踪可以例如使用在预测表面和当前传感器测量之间的ICP(迭代最近点)算法来实现。传感器的每个深度测量可以使用例如被编码为符号距离场(SDF)的表面被积分(框706)到容积表示中。使用循环，SDF被光线投射(框708)入所估计的系中以提供所述深度图与之对齐的密集表面预测。这样，当用户102环顾虚拟世界时，与现实世界环境200相关联的表面重构数据可以被采集并分析。表面重构数据的一种用途可以是确定用户的头部位置和取向。

在说明性示例中，通过对象的多个2D图像的组合来执行扫描以形成3D网格或表示所扫描的对象的其它计算化模型。例如，对象上的可标识特征点在各个视图中被定位。特征点的位置从一个2D图像到另一个2D图像的改变以及在连续的2D图像内的各个特征点之间的位置的改变可以被用于推断三维的特征点的位置以及因而推断对象的表面。

描述HMD设备104的位置和取向的位置数据被用在姿势估计704中。例如，位置和取向数据可以由传感器封装505导出，在其中可以包括运动传感器318和/或GPS子系统316。而且，诸如位置数据、图像数据(包括2D和3D深度图像数据)的传感器数据可以包括时间戳元数据。因此，各种类型的传感器数据(例如图像、位置和/或运动)可以在时间上相关。

由运动传感器318所提供的数据可以被用于提供关于如何组合图像的提示。然而，由运动传感器318(例如IMU)所单独提供的数据往往是不稳健或不精确的，如上所述。在说明性实现中，来自传感器封装505组件的任意组件的位置、取向和旋转数据被用作初始起始点，以基于各种2D图像执行位置积分(integration)，如上所述。因此，通过使用所述位置信息，整个位置计算被更快且更有效地完成。

在一些实现中，对用于3D计算模型的2D图像的捕捉可以通过鉴于某些运动、位置和/或取向数据仅在最优时间捕捉图像而得到改善。例如，在其中2D图像被卷帘快门相机捕捉的情况下，当相机不处于运动时由于避免了失真或模糊而获得更高质量的图像。另外，在某些低光亮情形中，曝光周期可能较长以实现适当的图像亮度。还有，在低光亮情况中，当相机不移动或较为缓慢地移动时在2D图像中存在较少的模糊。可接受的运动的最大阈值可以被设定为确定可接受的图像。或者，阈值可以通过将同时期的运动传感器318数据与图像捕捉数据相比较来确定，该阈值可以被用于在数个图像中选择具有最低相对同时期运动的图像。所选的2D图像将趋向于具有更高质量、分辨力和/或锐度。

图8示出了在其中用户102操作HMD设备104以捕捉在用户102的现实世界环境200中的对象802的多个图像的说明性示例。图像数据可以由传感器封装505(例如，使用图像传感器306)来捕捉，并被用作构建用于在虚拟环境100中合并和使用的对象802的3D网格表示的基础。而且，HMD设备104可以引导或指引用户102如何相对于对象802移动以便例如通过用户界面630捕捉更好的输入图像。

在一些实现中，基于从传感器封装(例如示例运动传感器318)导出的位置和取向信息来选择图像以在3D模型构建中使用。具体而言，取自各位置或有利视点的图像(统一地标示为804或个别地标示为804a、804b、804c等)可被使用。在模型构建中使用的图像的位置804彼此间隔开。在一些情况中，位置804可以围绕对象802被均匀间隔开，或者尽可能接近均匀地间隔可以基于位置元数据连同包括对象802的多个图像来获得。而且，位置804和HMD设备104相对于对象802的取向可以被认为是一种姿势，在图8中由箭头806a、806b或806c中的一个指示。均匀分隔的、规则的姿势可以产生对建模所述对象802的所得到的3D网格的更好质量的合成，这至少部分归因于在所生成的深度图之间的类似的误差特性。

这样，对象802的扫描过程可以使用每个所捕捉的图像的相机位置的知识，通过相机的精确位置和取向来改善。使用更少的图像构建3D模型、同时使得它们大致均匀间隔可以导致降低的处理时间和存储器消耗，这可以改善HMD设备104的整体性能。另外，知晓相机相对于与后续姿势、或相机的取向和位置共享的特定坐标系的先前经优化的位置和取向，提供了用于优化在立体图像对之间的相关变换的起始点。例如，如果最小化了系统的全局误差，则它可以是以个别姿势之间的误差为代价。这些姿势用作仅针对3D对象重构使用主要数据的优化问题的种子。此知识可以帮助防止稀疏特征引发成为虚假的局部最小值的优化。该结果可以是更加精确且准确的图像到图像的姿势计算或甚至针对轮廓数据的拒绝提供参考。因此，需要更少的迭代来达成正确的最小值。

在另一个说明性示例中，多个图像传感器306可以在HMD设备104中被组合以给出提供增加的角度分辨率的现实世界环境的合成扩展视野(FOV)，或者单个图像传感器可以配置有扩展FOV。这样的扩展FOV可以使得HMD设备104能够更加稳健地知晓扫描相机在现实世界环境中的何处，即使当扫描相机非常接近对象802和/或对象802不具有足够的独特细节的特征来将给定图像与其它相邻图像拼接在一起时亦如此。扩展FOV给予系统更加稳健的能力来提供对与更少FOV传感器类似的准确性和精确度的估计。这允许使用否则由于不能定位内容而不可使用的数据。因此，在一些实现中，用户102可以在扫描期间将扫描相机定位得更加接近对象802以捕捉所得到的模型中的更多细节。在其它实现中，扫描相机可以被配置为更高质量的相机和/或被配置有用于捕捉对象中的附加和/或精细细节的更高成像分辨率。

现在参考图9，示出了用于通过使用传感器融合的经优化扫描捕捉对象的图像的说明性过程900的流程图。除非明确说明，否则流程图中所示并且在伴随的文本中描述的方法或步骤不限于特定的次序或顺序。此外，一些方法或其步骤可同时发生或被执行，并且取决于给定实现的要求，在此类实现中不是所有方法或步骤均需要被执行，并且一些方法或步骤可任选地被使用。

图像捕捉设备(例如如上所述的HMD设备)包括图像传感器306。通过使用所述图像传感器306，在步骤902捕捉对象802的多个图像。与每个图像的捕捉同时期地，在步骤904整体地使用例如GPS子系统316、运动传感器318和/或面向外的图像传感器306中的一个或多个来检测图像捕捉设备的位置、运动或取向(PMO)中的一个或多个。关于从在步骤902所捕捉的图像中选择图像的规则包906被创建。规则包906可以包括与HMD设备104的PMO有关的规则。例如，位置规则908指引了HMD设备的期望位置以供捕捉一个或多个图像。类似地，取向规则910涉及HMD设备104的期望取向。位置规则908和取向规则910可以被组合以定义指示对象802的期望姿势的姿势规则912。

规则包906中的规则还可以包括运动规则914。运动规则914可以例如定义图像捕捉设备的运动在预定阈值处或之下。在步骤916，规则包906的应用告知了从在步骤902所捕捉的多个图像中进行图像选择。在步骤916选择的图像可以在对象802的计算模型的构建中利用，如在步骤918中所执行的。用于模型构建的一个示例性过程如上参考图7和伴随其的说明所述。

在一些实现中，在步骤904捕捉的PMO数据可以在反馈环路中使用。基于在步骤904捕捉的PMO数据的反馈和在步骤916的图像选择中的规则包的应用可以在步骤920被返回给HMD设备104的用户102。在步骤920的这样的反馈可以用于在HMD104或其它图像捕捉设备的操作中引导用户102以便促成在步骤902的与规则包906相一致的图像的捕捉。

在使用传感器融合的经优化的对象扫描的另一个说明性示例中，正被重构的对象上的特征点可以被用于优化相机姿势。那些特征点可以从对象的图像中(例如从深度图或对象特征的立体对应性中)被导出。如果该对象相对于背景没有移动，则来自图像序列的所有特征对于该过程是有用的。然而，如果所述对象是在连续图像之间突然重新改变方向(例如平移或旋转)，此后获得的对象的新图像将生成与来自先前图像的特征位置的模型不相一致的特征。在常规的扫描技术中，对象的新的完整扫描将典型地必须从重新改变方向的点处被执行，从而增加了该过程的时间。

利用本发明的经优化的对象扫描，有可能检测到相对于在其中跟踪扫描系统的坐标系而言对象已经改变了取向。当在扫描期间对象重新取向时，仅对象自身上的特征被移动并且环境的特征保持在原处。标识跨扫描仍然保持一致性的特征使得它们被归类成“背景特征”。因此，背景特征可以从正被重构的3D对象中分割出来。

在3D对象上的特征变得不一致的点使得系统能够将3D模型的姿势估计分隔成群，其中针对对象的每次重新取向有一个群。对于每组特征，与其它姿势相关的取向可以使用迭代最近点(ICP)算法或其它类似的技术(包括基于补丁的特征匹配)来计算。已经从每个群中计算了每个姿势的重取向，它们之间的对应性的直接线性变换是可能的，从而采用相机的已知的内在特性来获得从一个群到另一个的姿势的旋转和/或平移。一旦确定了多个取向，特征可以被融合在一起以获得单个高质量模型。

现在参考图10，示出了描述用于检测正被扫描的对象已经相对于在其中跟踪扫描系统的坐标系改变了取向的示例性过程1000的流程图。在步骤1002，用户将要被扫描的有形对象放置在现实世界环境中。在步骤1004，例如通过从多个有利点取得对象的多个图像、在一些实例中使用HMD设备或其它合适的设备以及可选地在用户界面的引导下，扫描所述对象。

在对象扫描1004期间或之后的某个点处，在步骤1006重新定位所述对象。所述重新定位可以是在一些实例中可能通过用户或在其它实例中可能通过某个其它代理的对对象的旋转或平移。在步骤1008用户可以在无需考虑重新定向的情况下继续所述扫描，而不需要从其新位置开始对重新取向的对象的新扫描。当在上述的说明性示例中，通过用户界面的用户反馈可以引导扫描，包括参考检测到的重新取向。可选地，步骤1006的扫描连续可以包括重新取向对象的完整第二次扫描以利用通过重新取向暴露的表面，并且在对象的计算模型中包括那些新暴露的表面。通过从扫描取得图像数据，对具有所有表面(包括例如顶和底表面两者)的对象的3D重构可以在步骤1010被重构。在步骤1010的对象重构可以包括从所捕捉的用于3D重构的图像中移除被确定为是静态的或来自背景环境中的点。

本发明的使用传感器融合的经优化对象扫描的各种示例性实施例现在通过说明的方式而不是作为所有实施例的穷尽性列表来被呈现。一个示例包括一种使用图像捕捉设备捕捉对象的图像的方法，所述图像捕捉设备具有被配置为检测图像捕捉设备在物理环境内的位置的位置传感器，所述方法包括：使用放置在图像捕捉设备中的图像传感器，从多个有利点捕捉在物理环境中的主体的多个图像；与所述多个图像的每个图像的捕捉同时期地使用图像捕捉设备的位置传感器，检测图像捕捉设备在所述物理环境内的位置、运动或取向；以及从所述多个所捕捉的图像中选择要从其构建对象的三维计算模型的子集，所述选择基于在每个图像捕捉位置处检测到的图像捕捉设备的位置、运动或取向。

在另一个示例中，所述方法还包括基于检测到的最接近对象的一个或多个预定姿势的位置来选择所述多个图像的所述子集。在另一个示例中，所述方法还包括基于检测到的最接近对象的一个或多个预定姿势的取向来选择所述多个图像的所述子集。在另一个示例中，所述方法还包括基于图像捕捉设备的检测到的运动在预定阈值处或之下来选择所述多个图像的所述子集。在另一个示例中，所述方法进一步包括：展现与图像捕捉设备通信的用户界面，所述用户界面被配置为引导图像捕捉设备的用户控制图像捕捉设备的位置、运动或取向中的一个或多个以便促成图像的捕捉。在另一个示例中，所述方法还包括使用来自图像捕捉设备的位置传感器的数据来引导用户。在另一个示例中，所述方法进一步包括：将在多个图像中的跨所有图像一致定位的点标识为背景点；并且过滤在所述多个图像中的点以移除所述背景点来避免在对象的三维计算模型的构造中使用。在另一个示例中，所述方法进一步包括：检查经过滤的点以确定在对象的特征中的位置差异，所述特征与在捕捉所述多个图像的每个图像的同时期时检测到的图像捕捉设备在物理环境内的位置、运动或取向不一致；将所述多个图像分割成按位置差异的显现划分的群；并且解析位置差异以基于将背景点移除的经过滤的点形成对象的一致计算模型。

另外的示例包括操作上使用传感器融合执行对象扫描的设备，包括：面向外的图像传感器，操作以捕捉在一个空间中的场景的图像；位置传感器，操作以检测设备在所述空间内的位置、运动或取向中的一个或多个；一个或多个处理器；数据存储系统，操作以存储来自面向外的图像传感器的图像，并且存储来自位置传感器的位置、运动或取向数据；以及机器可读存储器设备，操作以存储指令，当其被执行时使得一个或多个处理器：从所述空间内的相应位置捕捉场景的多个图像，在捕捉所述场景的多个图像的每个图像的同时检测所述设备在所述空间内的位置、运动或取向，基于在相应捕捉位置处检测到的所述设备的位置、运动或取向丢弃所述多个捕捉的图像中的一个或多个。

在另一个示例中，面向外的图像传感器包括二维图像传感器、立体图像传感器和深度传感器中的至少一个。在另一个示例中，所述设备还包括提供听觉、视觉或触觉反馈中的至少一个给用户，并对用户的口头、触觉或姿态输入进行响应的用户界面。在另一个示例中，所述位置传感器包括跟踪相机、惯性传感器、磁性6自由度位置传感器中的一个；基于灯塔的激光扫描系统以及与被跟踪的对象同步的光电二极管。在另一个示例中，所述设备被合并入头戴式显示设备。在另一个示例中，所述指令使得一个或多个处理器使用所捕捉的图像，而不是丢弃的图像来构造三维模型。在另一个示例中，所述指令使得所述一个或多个处理器将检测到的所述设备的位置、运动或取向中的一个或多个用作用于确定所捕捉的图像的变换的初始条件。在另一个示例中，所述设备还包括具有超出图像捕捉传感器的视野(FOV)的扩展FOV图像传感器，在其中扩展FOV图像传感器被配置为确定所捕捉的图像的姿态。

另外的示例包括机器可读存储器设备，其操作以存储指令，当其由置于电子设备的一个或多个处理器执行时，使得所述电子设备：通过从多个相应的有利点使用置于电子设备中的第一相机捕捉对象的多个图像来执行对象扫描；使用置于电子设备中的相对于第一相机具有扩展视野的第二相机确定所述扫描的对象姿势；在每个有利点生成用于电子设备的世界跟踪元数据；并且利用所述世界跟踪元数据来将多个所捕捉的图像的子集组合到对象的三维模型中。

在另一个示例中，第一相机具有较高的角度分辨率或被配置为捕捉相对于第二相机而言增加水平的细节，并且使用合并在电子设备中的跟踪相机或惯性传感器中的一个或多个生成跟踪元数据。在另一个示例中，所述指令使得电子设备从来自每个有利点的所捕捉的图像生成深度图。在另一个示例中，所述指令使得所述电子设备操作第一相机以捕捉在均匀间隔的各有利点处的图像以便最小化所生成的深度图中的误差特性中的差异。

基于上述内容，可领会，本文已经公开了用于使用传感器融合实现经优化对象扫描的技术。虽然用计算机结构特征、方法和变换动作、特定计算机器、以及计算机可读存储介质专用的语言描述了本文中所描述的主题，但是应当理解，所附权利要求书中所定义的本发明不必限于本文中所描述的具体特征、动作、或介质。相反，这些具体特征、动作和介质是作为实现权利要求的示例形式来公开的。

以上所述的主题仅作为说明提供，并且不应被解释为限制。在不背离所附权利要求中阐述的本发明的真实精神和范围的情况下，可以对本文所描述的主题作出各种修改和改变，而不必遵循所例示和描述的示例实施例及应用。

Claims

1.一种使用图像捕捉设备捕捉对象的图像的方法，其中从所述图像中构造所述对象的三维模型，所述方法包括：

使用置于所述图像捕捉设备中的图像传感器，从多个有利点捕捉在物理环境中的所述对象的多个图像；

将在所述多个图像中的跨所有图像一致定位的点标识为背景点；

过滤在所述多个图像中的点以移除所述背景点来避免在所述对象的所述三维模型的构造中使用；

使用与所述图像捕捉设备相关联的至少一个传感器，检测关于下述一项或多项的信息：所述图像捕捉设备的运动或姿态；

基于所检测到的信息选择所捕捉的多个图像中的个别图像；以及

将所捕捉的多个图像中的所选个别图像发送给用于构造所述对象的所述三维模型的过程；

其中所述方法还包括：

检查经过滤的点以确定在所述对象的特征中的位置差异，所述特征与在捕捉所述多个图像的每个图像的同时期时检测到的所述图像捕捉设备在所述物理环境内的位置、运动或取向不一致；

将所述多个图像分割成按所述位置差异的显现划分的群；以及

解析位置差异以基于将背景点移除的经过滤的点形成所述对象的一致计算模型。

2.如权利要求1所述的方法，其特征在于，进一步包括：基于检测到的所述图像捕捉设备的最接近所述图像捕捉设备的一个或多个预定姿势的位置或取向或姿势来选择所述多个图像的所述个别图像。

3.如权利要求1所述的方法，其特征在于，进一步包括：基于检测到的在预定阈值处或之下的与所述多个图像的所述个别图像的捕捉相关联的所述图像捕捉设备的运动来选择所述多个图像的所述个别图像。

4.如权利要求1所述的方法，其特征在于，进一步包括基于所述图像捕捉设备的检测到的运动在预定阈值处或之下来选择所述多个图像的子集。

5.如权利要求1所述的方法，其特征在于，还包括：

展现与图像捕捉设备通信的用户界面，所述用户界面被配置为引导图像捕捉设备的用户控制图像捕捉设备的位置、运动或取向中的一个或多个以便促成图像的捕捉，从所述图像中构造所述对象的所述三维模型。

6.如权利要求5所述的方法，其特征在于，还包括：

使用来自与所述图像捕捉设备相关联的所述至少一个传感器的数据来引导所述用户。

7.一种操作以使用传感器融合执行对象扫描的设备，包括：

面向外的图像传感器，操作以捕捉图像；

至少一个传感器，操作以检测所述设备在空间内的位置、运动或取向中的一个或多个；数据存储系统，操作以存储来自所述面向外的图像传感器的图像，并且存储来自所述至少一个传感器的位置、运动或取向数据；以及

机器可读存储器设备，操作地存储指令，当所述指令被执行时使得所述一个或多个处理器执行下述操作：

从所述空间内的相应位置捕捉场景的多个图像；

检测与所述场景的所述多个图像的每个图像的捕捉相关联的所述设备在所述空间内的位置、运动或取向，以及

基于在相应捕捉位置处检测到的所述设备的位置、运动或取向丢弃所述多个捕捉的图像中的一个或多个；

其中所述操作还包括：

检查经过滤的点以确定在所述对象的特征中的位置差异，所述特征与在捕捉所述多个图像的每个图像的同时期时检测到的所述图像传感器在物理环境内的位置、运动或取向不一致；

8.如权利要求7所述的设备，其特征在于，所述面向外的图像传感器包括二维图像传感器、立体图像传感器和深度传感器中的至少一个。

9.如权利要求7所述的设备，其特征在于，还包括：提供听觉、视觉或触觉反馈中的至少一个给用户，并对所述用户的口头、触觉或姿态输入进行响应的用户界面。

10.如权利要求7所述的设备，其特征在于，所述传感器包括跟踪相机、惯性传感器、磁性6自由度位置传感器中的一个；基于灯塔的激光扫描系统以及与被跟踪的对象同步的光电二极管。

11.如权利要求7所述的设备，其特征在于，所述设备被合并在头戴式显示设备中。

12.如权利要求7所述的设备，其特征在于，所述指令使得所述一个或多个处理器使用所捕捉的图像，而不是丢弃的图像来构造三维模型。

13.如权利要求7所述的设备，其特征在于，所述指令使得所述一个或多个处理器将检测到的所述设备的位置、运动或取向中的一个或多个用作用于确定所捕捉的图像的变换的初始条件。

14.如权利要求7所述的设备，其特征在于，还包括具有超出所述图像捕捉传感器的视野FOV的扩展FOV图像传感器，其中所述扩展FOV图像传感器被配置为确定所述图像捕捉传感器的姿态，在所述图像捕捉传感器中捕捉适用于构造所述对象的三维模型的图像。

15.一种机器可读存储器设备，操作上存储指令，当所述指令由置于电子设备中的一个或多个处理器执行时，使得所述电子设备执行下述操作：

通过从多个相应的有利点使用置于所述电子设备中的第一相机捕捉对象的多个图像来执行对象扫描；

使用置于所述电子设备中的相对于所述第一相机具有扩展视野的第二相机确定所述扫描的对象姿势；

在每个有利点处生成用于所述电子设备的世界跟踪元数据；以及

利用所述世界跟踪元数据来将所述多个所捕捉的图像的子集组合到所述对象的三维模型中，其中，所述第一相机具有较高的角度分辨率或被配置为捕捉相对于所述第二相机而言增加水平的细节，并且使用合并入所述电子设备的跟踪相机或惯性传感器中的一个或多个生成所述跟踪元数据；

其中所述操作还包括：

检查经过滤的点以确定在所述对象的特征中的位置差异，所述特征与在捕捉所述多个图像的每个图像的同时期时检测到的图像捕捉设备在物理环境内的位置、运动或取向不一致；

16.如权利要求15所述的机器可读存储器设备，其特征在于，所述指令使得所述电子设备从来自每个有利点的所捕捉的图像生成深度图。

17.如权利要求16所述的机器可读存储器设备，其特征在于，所述指令使得所述电子设备操作所述第一相机以捕捉在均匀间隔的各有利点处的图像以便最小化在所生成的深度图中的误差特性中的差异。