CN105103542B

CN105103542B - 手持型便携式光学扫描仪和使用的方法

Info

Publication number: CN105103542B
Application number: CN201380066056.0A
Authority: CN
Inventors: M.克卢萨; R.斯普林
Original assignee: DotProduct LLC
Current assignee: DotProduct LLC
Priority date: 2012-10-17
Filing date: 2013-10-17
Publication date: 2017-10-13
Anticipated expiration: 2033-10-17
Also published as: US20140104387A1; US9332243B2; EP2910021A1; EP2910021A4; US20160210753A1; WO2014062874A1; US10448000B2; HK1217584A1; CN105103542A

Abstract

一种用于使用手持型便携式设备以及使用用于多种应用的结果对RGB‑D图像数据的实时或准实时的处理和后处理的系统和方法。本公开是基于在能够使用高优化的计算机视觉算法执行复杂的空间推理任务的独立单元中的现货供应的设备（例如RGB‑D照相机和智能手机/平板计算机）的组合。公开了使用所获得的即时结果以及用于远程合作的主设备的无线连通性的新的应用。一个方法包括将圆点图案从光源投影到景象上的多个点上，测量到点的距离，以及数字化重构诸如景象的3D视图的景象的一个图像或多个图像的步骤。多个图像还可以被拼接在一起以重定位景象视图的方向。

Description

手持型便携式光学扫描仪和使用的方法

技术领域

本公开的领域是用于通过手持型便携式光学成像扫描仪获取图像数据的系统和方法以及用于通过不同的方法处理图像和深度数据的方法的领域。

背景技术

本技术基于成像系统。

发明内容

一个实施例是用于实时捕获景象的多种图像并且确定每一个图像中多个点在坐标系中的精确位置的手持型成像系统。该系统包括用于捕获和存储多个数字图像的图像捕获设备，用于实时推导图像中多个任意点的深度信息的深度计算系统，具有处理器、带用户接口控制的显示器、以及通信模块的手持型计算机系统，其中处理器与所述图像捕获设备和深度计算系统通信。该系统还包括具有在其上已编码的一组指令的非暂时性计算机可读介质，所述指令可被处理器执行以导致图像捕获设备、光点定位系统和通信模块执行一个或更多的操作，该指令包括在景象的数字数据中捕获多个数字图像并且从图像捕获设备以及从深度计算系统捕获所述景象中多个点的位置、存储所述数字数据、将多个图像合并在一起以形成单一的3D模型、在移动手持型设备中显示单一的3d模型、以及根据基于用户的到处理和控制系统的输入来处理单一3D模型的数字文件数据。

另一个实施例是用于拍摄多个图像的方法。该方法包括的步骤有：在景象的数字数据中捕获多个数字图像并且从图像捕获设备以及从光点定位系统捕获所述景象中多个点的位置，存储所述数字数据，将多个图像合并在一起以形成单一的3D模型，在移动手持型设备中显示单一的3d模型，并且根据基于用户的到处理和控制系统中的输入来处理数字文件数据。

再另一个实施例是用于实时捕获景象的多种图像并且确定每一个图像中多个点在坐标系中的精确位置的手持型成像系统。该系统包括用于捕获和存储多个数字图像的图像捕获设备，用于实时推导图像中多个任意点的深度信息的深度计算系统，具有处理器、带有用户界面控制的显示器和通信模块的手持型计算机系统，其中该处理器与所述图像捕获设备和光点定位系统通信。该系统还包括在其上已经编码了一组指令的非暂时性计算机可读介质，所述指令可被处理器执行以导致图像捕获设备、光点定位系统和通信模块执行一个或更多的操作，该指令用于在景象的数字数据中捕获多个数字图像并且从图像捕获设备以及从光点定位系统捕获所述景象中的多个任意点的位置、存储所述数字数据、将多个图像合并在一起以形成单一的3D模型、并且根据基于用户的到处理和控制系统的输入来处理数字文件数据，其中所述处理步骤包括将照相机位置和姿态与真实世界坐标参照系相关联。

这些示例并非意在限制性，而是示意性地描述我们的系统的能力。

附图说明

本公开和以下对它的某些实施例的详细描述可以参照下图来理解：

图1描述了本公开的实施例中的系统框图。

图2A-2B描述了本公开的组件的实施例的系统框图，所述组件包括图像捕获和深度图确定器。

图3描述了对本公开的操作性使用的流程图。

图4A-4D描述了在推导景象的三维表示时由图像捕获操作系统执行的内部步骤的一系列流程图。

图5是公开的几个实施例中不同程序的列表。

具体实施方式

以下是用这样完整、清楚、简洁和准确的术语对本公开以及对制造和使用它的方式与处理的书面描述，以便其所属领域内的或与之最相关的领域内的任何技术人员都能够制造和使用其，并且阐述由实现本公开的发明者所预期的最佳模式。

用于在记录结构的完工情况或对象的形状和轮廓中使用的图像捕获系统在技术领域中众所周知。然而，大多数系统并不能实时运行并且未被配置用于在现场的密集图像处理。本公开包括能够在几秒内创建随时可用的3D模型的便携式、手持型3D图像捕获系统。本公开的系统提供具有高捕获帧速的高分辨率、实时的3D图像。因此，它能够在进行移动的部件的情况下或当图像捕获设备本身处于运动中时捕获景象。以毫米和次毫米的精确度提供对象和特性的高精准的位置。

用于操作和集成到在3D图像捕获中所涉及的日常任务组中的工作流程是已合理化与简化的，从而提高了用户生产力。3D图像捕获系统是小的、重量轻的、并且极其容易使用的。用户可以使景象的3D模型存储于存储器中并且在几秒钟内显示在本地屏幕上。典型的工作流程的示例示出在图4A-4D中。

产品的主要组件在图1的系统框图100中示出。用户希望捕获所关注的景象101。图像捕获和深度确定器102用来和深度图一起为每一个景象捕获景象的多个图像。手持型平板或智能手机110被用于实现3D渲染系统及操作整个系统。平板或智能手机被配置以使用户能够操作图像捕获设备、能够获得具有用于图像的深度图信息的图像的数据流、并且能够基于可用于平板/智能手机计算机的附加软件执行任何数量的图像处理，其中，所述深度图信息可以包括图像中预先确定的光点的深度信息。手持型计算机具有用于其内部操作的程序，以及用于管理图像捕获和不同的处理任务的应用程序。用于改进的图像处理140的软件包括可以捕获和传送图像和深度信息、将多个图像合并到单一的3D模型中用于查看、分析和管理的程序。用于图像和模型实时处理以及管理的软件160是本公开的另一个主要实施例。附加软件可用于为了多种目的而在所捕获和合并的图像上执行许多其他的功能。这些组件中的每一个的特性和功能接下来被详细描述。

图像捕获和深度图确定器102

在实施例中，3D成像器包括通过并且以平板计算机或智能手机操作的作为主传感器的红-绿-蓝-深度（RGB-D）照相机。照相机被配置成以结构光深度图确定系统操作。可替代地，照相机可以被配置成以飞行时间深度图生成器操作。传感器使用廉价组件实时提供深度图数据。

作为他们的产品供应的一部分，结构光深度图成像系统可从PrimeSense获得，所述PrimeSense是向微软Kinects系统供给用于检测用户身体部位位置和动作的组件的以色列公司。更多的信息可以在www.primesense.com上找到。专用红外光束系统103向所关注的景象播送圆点图案，传送一系列在景象中照射对象的小圆点。圆点的数量和间隔定义了能获得的分辨率。与在数字照相机中发现的成像器类似，成像器104在被称为PS1080的特殊传感器中捕获景象和照射圆点。成像器104包括图像捕获透镜和CMOS传感器。传感器驱动同步的深度图像、彩色图像、以及可选地驱动音频数据流。

另外的细节见图2A-2B。图2A描述了PrimeSense图像捕获和深度图确定器200的组件的框图。组件包括具有IR光传输能力203和深度确定CMOS功能205的微处理器201。如果需要音频，那么音频区块208可包括一个或更多的麦克风209以及一个或更多的、可能是若干个音频源211，用于生成和检测声音以伴随所拍摄的一个图像或多个像组。系统还可以包括单独的存储器213或便携式存储器215，诸如所示的USB闪存驱动器。对于每一个被捕获的图像，实时创建深度图。模块102还可以包括定制处理器105，所述定制处理器可以包括用于色彩和深度信息的存储107和控制部分106。图2B描述了PrimeSense图像捕获和深度图确定器系统230。该系统包括光源231和光检测器233以照射所关注的目标235并且检测从目标235反射的光。系统控制237可以包括具有它自己的存储器241以及输入/输出系统243的微处理器239。

相似地，用于执行飞行时间（TOF）距离测量而无需任何移动部分的完全集成的传感器108可从位于德国锡根（Siegen）的PMD技术公司（PMD Technologies Co.）获得。更多关于这些系统的信息可以在www.pmdtec.com上找到。传感器生成了调制的光学信号，并且直接测量飞行时间。

例如，PMD PhotonICs 19k-S3芯片组立即获得到每一个像素的距离测量结果，从而既在景象中以可见方式提供每个像素的3D表示，又同时提供灰度级照射数据。来自芯片组的数据可以以15M像素/秒的速率被读出。PMDTech还提供了被称为CamBoard的完整的照相机系统，所述照相机系统是第一个USB供电的单板3D TOF照相机。具有相似产品的其他公司包括SoftKinetic和MESA成像。这些传感器的捕获速率允许在高达60帧/秒（fps）的速率处的图像帧捕获。这些传感器并不提供与更复杂和更昂贵的扫描仪所能提供的相同级别的分辨率。然而，由于在本公开的不同实施例中所采用的合并系统，许多限制被克服了。

可以使用多个图像捕获设备，并且将它们的数据流传送到手持型/平板或智能手机计算机设备。也可以采用来自可替代的供应商的图像捕获设备来传送图像数据。例如，可以在诸如隧道或排水系统的难以到达的地方采用承载成像器的机器人。

用于实现3D渲染系统并操作整个系统的手持型平板/智能手机

在本公开的实施例中，在110处所示的平板计算机、手持型计算机、或智能手机担当用于控制图像传感器和深度捕获传感器子系统102的用户接口。平板计算机可以是市场上所提供的任何产品，诸如由苹果电脑（Apple Computer）所提供的iPad、由三星（Samsung）所提供的Galaxy III、以及许多其他的产品。相似地，本公开的实施例可以用诸如由苹果电脑所提供的iPhone、或由三星所提供的智能手机的Galaxy家族，或由台湾的HTC公司所提供的不同的安卓手机、或由摩托罗拉（Motorola）所提供的Razr等智能手机来实现。所有这些产品都包含被配置以运行和管理平板自身的操作系统130，并且被配置以实施应用（应用为诸如本公开的实施例中的那些）的主机。

手持型计算机的必要元素是在单手或双手持有它时操作它而无需任何额外的支持的能力；能够在显示器116上看到如被图像/深度捕获模块102所捕获的那样的合成的二维（2D）图像的能力；以及能够或通过触屏（也在116处）或者通过在117处的可选的键盘输入控制信息和命令的能力。即使不是绝对必要的，音频输出118也是值得要的。在当前平板计算机中可用的处理器111具有高于1.0-1.4GHz的、有助于图像/深度捕获系统的实时操作及处理图像和深度数据的适当快速的时钟操作，从而以准实时到实时的方式提供可视图像。在当今可获得的大多数（如果不是所有的）这样的手持型计算机中常见的并且被在总线112上连接的附加特性和功能可以包括第二内部照相机113、通信系统114，所述通信系统114还包括蜂窝电话链路、蜂窝数据链路以及Wi-Fi链路中的至少一个。

诸如操作系统130的软件包含用于操作这些附属功能的应用，与在ROM119，RAM120以及可以包括像USB记忆棒的外部存储器设备、或任何其他适合的非易失性存储介质的数据存储121中的数据管理和存储一起。除了操作系统以外，软件可以包括图像处理软件套件140、图像和数据管理软件套件160、以及一套用于成像器校准的软件190。如下面所概述的，这些软件中的每一个都可以包括多种单独的程序。在本公开的实施例中，通过定制处理器105的音频捕获以及通过操作系统130中的软件的音频回放也使在图像捕获期间能捕获和回放声音。如果需要的话，该特性在执行图像数据捕获时有助于言语笔记记录。虽然计算机可以是手持型的，但本地定位系统115或瞄准系统也可以被使用。

用于图像捕获和渲染以形成3D数据集的软件

在本公开中有用的许多软件程序列在图5中。在实施例中，图像处理软件140被提供用于使用RGB-D视频帧流以形成合并的3D数据集。这些包括程序141，即图像捕获和预处理，其为应用群组140，即计算机视觉和扫描套件中的一个。对于捕获和渲染，套件包括实时RGB-D图像可视化程序，即作为图像处理套件140的一部分而在图5中所示的程序142。软件可以被配置成在像平板计算机或智能手机的便携式手持型设备上运行。

在实施例中，新的拼接或合并软件用以自动将两个或更多的图像结合在一起以形成合成的3D模型。由于该软件工具，模型可以从一个或更多的从景象中不同视点拍摄的图像创建。结果形成用于创建全景图像的基础。该处理被实时、动态地完成，使得用户可以在任何时间，甚至是在捕获期间，从多种视点查看所形成的3D模型。这包括了所附照相机的当前视点，导致增强现实风格可视化。即时的3D模型形成使用户能够确切地看到附加的数据点可能在哪里被拍摄，并且使用户在需要更多细节时能够将照相机指向所期望的区域。换句话说，景象的图像中的洞可以动态地被修正。此外，景象中数据的质量可以被评估，并且来自不同视点的附加图像可根据需要被获得。

软件的元件包括对于用户初始化行为的建议以完成扫描图像的一部分，包括对瞄准图像捕获设备的指导。由于所使用的合并算法的能力，包括3D重构的能力，从其他仪器获得的具有不同细节水平的图像也可以被输入到平板或智能手机计算机系统中。快速合并或建模的优势意味着现场调整和重拍可以通过这些其他仪器以及通过即时系统准实时地完成。诸如那些由天宝导航有限公司（Trimble Navigation Limited）、FARO、Z+F、以及诸如此类的公司所建造的图像捕获设备可以被输入到该系统中，所述图像捕获设备还可以产生3D深度图以及灰度级或彩色图像。

软件提供了完整性度量以指示何时没有足够的数据来执行得体的合并或3D建模操作，或是没有足够数据以特定图像中在先声明的配准点获得对该图像的配准。所声明的配准点可以从任意模型中获得，或是从计算机辅助设计（CAD）模型或是从3D点云模型中。随着景象被合并或建模，当景象中没有足够的捕获数据时，用户接口以用户看见或被通知的方式改变。

在实施例中，例如在程序143中，软件被配置用于3D推导数据与RGB图像的实时对准，从而通过3D推导的空间数据将高分辨率照片图像放入空间背景中。在另一个实施例中，程序144中的软件被配置以使用户能够将所收集的或成像的数据与RGB帧比较，当数据与RGB位置不匹配时，以在用户接口（UI）上向用户示出的方式或方法示出区别。这可以是由于测距系统没有能力基于色彩、反射或景象的其他环境条件提取图像帧中的每一个照射圆点的距离。这可以是由于多种原因，诸如表面照射的缺乏、过多照射、表面边缘的劈裂或撕裂、或者对于更多图像数据的需求。例如在增强现实（AR）情况下，这可以通过所显示的和使之可用的结果实时完成。在实时结果和以AR应用显示的能力的情况下，程序145包括用于在后处理操作中处理和配准图像的附加能力。

用于实时图像处理和管理的软件

一套软件程序160对于用户可用，用于在所捕获的和/或所处理的图像上以相关联的3D信息执行许多不同的操作。在一个实施例中，当用户捕获数据时，3D建模器软件算法，程序161在手持型计算机系统上处理实时RGB-D，范围或深度图数据流以创建所记录的景象的3D模型。当设备移动穿过景象时，帧或帧群组被用来重构景象。与点27到29中所描述的发明对比，该点描述了在其中所形成的3d模型是由基本的几何基元（如常用CAD系统中所使用的多边形、平面、圆柱体、方块等）组成的发明，与由单独的3d点组成的相反。在构建3D-基元模型时，并非来自每一帧的所有点都可以被使用，而是选择最好的点，其可以包括图像中作为从帧到帧的拼接或配准的参考的或者在进行地理参考时其他数据中作为配准锚点使用的所有点。3D建模器程序也可以在无缝合并时将它的数据添加到RGB图像数据。3D建模器程序可以将它的数据添加到点云3d模型和/或全景拼接图像。

在程序162（套件160）中已有的3d CAD模型或3D点云模型以和当前景象捕获有关的方式被获得和显示。例如虚拟模型可以被以刚刚捕获的、处理的和融合的3D模型配准。为了可视化，使用可以在任何所期望的视点上拍摄的虚拟照相机。如果在捕获期间照相机的当前视点被用于可视化，可视化模式一般被称为增强现实（AR）。现有的模型可以通过通信链路从远程库或存储设施下载，就像可在云存储中被找到那样。在另一个实施例中，新数据被捕获并且被添加到现有模型。用户可以通过如在用户接口上所示的从景象的数据中选择来选择一个或多个点、或点的群组；可替代地，用户可以选择预先确定的一组范围数据。用户可以将例如具有或当前地理参考位置或点、点的群组、或从一组点推导的位置的某种已知类型的球体或目标的数据中的已知值定义成已知变换。

在另一个实施例中。诸如套件160中的程序163的软件算法被提供以使用户能够从所捕获的景象图像中提取已知的形状或特定的几何体，并且能够输出允许该形状在另一个远程设备上被重构的定义，所述另一个远程设备比如为台式计算机、或另一个智能手机或平板。可替代地，所提取和建模的形状可以被存储在远程存储设施中，并且被使用在将对象放置在当前景象的指定的地理参考模型中的另一个程序中。

在可用的软件算法另一个实施例，即套件160中的程序164中，用户可以操作程序，所述程序被配置以确定和可视化地显示被扫描的捕获的模型与预先存在的模型之间的区别。这对于将结构或对象的完工情况与所要求的设计规格比较特别有用。

在可用的软件算法的实施例，即程序165中，用户可以操作程序，所述程序被配置以执行将针对特定景象捕获的数据变换成外部提供的针对这种景象的所期望设计的模型。由该程序，新近捕获的景象数据可以被匹配到设计坐标参考帧。

在可用的软件算法的另一个实施例，即程序166中，用户可以操作程序，所述程序被配置以通过通信链路执行实时数据串流到远程存储设施、或到用于显示和被另一个人操作的远程计算机。对于涉及做出改变、采取新的图像捕获操作、以及共享关于结果的观察的改进的工作流程，该操作实现了即时图像数据的联合共享。通信链路可以被配置以包括语音通信以及图像数据通信。这种类型的基于通信的图像/操作性信息共享使中央管理器能够实时或准实时地监管和审核一个或更多的远程数据收集操作。附加特性包括自其他图像捕获设备以及向其他图像捕获设备的直接数据传输的能力，如可与给定的手持型计算机系统相关联的那样。

在可用的软件算法的另一个实施例，即程序167中，一个或更多的基本RGB-D图像可被直接传输而无需在捕获计算机中执行RGB-D帧到3d模型中的集成。反而，模型创建可以在基于云的服务器上被远程执行并且可以通过云访问使之对其他关注方可用。该传输和转换过程可以在数据被收集时实时完成。可替代地，这可以在后处理操作中完成，并且任何或全部数据都可以从存储设施中提取，在平板上本地提取、或存储于诸如基于云的服务的远程存储设施中，并且在远程位置中被另一个关注方处理。

此外，如上面所描述的，在实施例中，一个或更多的基本RGB-D帧可以被压缩并以流的方式传送到远程位置用于存储和进一步处理。在另一个实施例中，程序被配置以使用户能够选择用于传输到远程设施以便存储或查看和处理的单独帧。在另一个实施例中，程序168可用于提供配准地理参考点以包含和匹配到在所捕获的图像中所选择的位置点。

在另一个实施例中，可用的程序169被配置以用新近记录的3D数据扩展和填充现有的3D模型。新数据被软件算法处理从而它与先前存在的数据无缝混合。在另一个实施例中，程序170可用于从所捕获的RGB-D像实时提取表面角度，并且提供表面角度的即时可视化。该程序被进一步配置以创建增强现实（AR）形式用于角度的显示。

手持型便携式计算机：平板、智能手机或笔记本

如上面所述的手持型计算机可以包括这类可从苹果电脑、ASUS、三星、黑莓、微软等可获得的平板计算机。手持型计算机可以包括由苹果电脑、三星、诺基亚、HTC、黑莓以及诸如此类的公司所提供的类型的智能手机。手持型计算机可以包括具有用于手持型操作和处理的适合的形式因数的笔记本类型的便携式计算机，诸如由ASUS、夏普（Sharp）、惠普（HP）、戴尔（Dell）等所提供的。手持型计算机可以被配置以顺序地或同时地从一个或更多的图像捕获设备记录和显示数据。

显示软件程序171可用于提供一个或更多的图形用户接口用于操作前文提及的不同的程序。图形用户接口（GUIs）可以被嵌入在每一个操作程序中。诸如改变用于模型的视点、修正或扩展数据、在格式之间转换、寻找和显示附加信息、运行仿真的整理功能被包括。程序172被配置以提供和管理屏幕上的图像用于后捕获可视化。

程序套件190被配置以提供程序的校准套件用于校准成像器。它包括了用于校准投影图像的程序191，以及用于为结构光系统校准深度的程序192。

流程图

图3描述了展示在典型的现场操作中用于成像器/计算机系统的多个操作的工作流程的流程图300。通过对快速硬件和快速软件的合并可能进行的实时捕获和处理使图3中描述的所有步骤成为可能。工作流程的开始在该示例中始于有RGB/图像能力的平板计算机、或其他适合的数字成像器。如果所关注的景象被远程查看301，那么图像帧（一个或多个）就被以流的形式传送到远程系统303。如果远端是云服务器305，那么就在云服务器上使用来自远程平板或计算机的算法合并一个景象或多个景象313。如果图像不是被实时查看311（例如，用户正在以存储的数据工作），还是通过远程系统311，那么景象或图像就如所指出的，在云服务器上使用来自平板或其他适合的计算机的算法而被合并313。图像然后可被用作或受到进一步后处理。如果图像正被实时查看307，那么使用允许用户将帧从数据中抽出的帧工具，从而将所期望数量的帧抽出以制作模型或点云309用于所期望的一个图像或多个图像。图像优选地符合工业标准格式315。如果图像确实符合，那么使用用于图像的工业标准点云格式来保存数据317。如图3中所指出的，这些可以包括许多的工程/建造格式318、诸如游戏格式的娱乐格式320、或诸如那些用于执法机关或军方的安全格式322。

另一方面，如果用户出现在景象，那么帧或图像就被实时合并321，并且3D模型被创建以及被存储在本地或在远程驱动器上。如果诸如用于创建合成的图像或用于处理图像的附加处理被期望，那么关于将诸如允许拼接的允许一个图像或多个图像的配准的数据（例如位置或定位数据）是否存在的检查就可以进行323。如不需要，景象或图像被原样保存325。如果将允许配准的数据存在，那么一个或更多的现有图像、景象、点或CAD数据就被用作地理参考系统327。数据进而通过在现有数据上成像以定义变换而被实时地对准或配准到基础或锚点数据329，并且数据进而被保存325。参考系统包括但不限于：GPS、WGS-84和NAD83。参考系统还可以包括诸如从县参考系统的本地北进和东进，并且还可包括任何方便的数据，诸如本地现场参考点，像新建筑的地基、人眼的瞳孔等。

用于图像处理的附加流程图还在图4A-4D中被详述。在图4A中，步骤被公开用于图像捕获和处理的内部操作。对于图4A的处理400包括了第一步骤401，在所述第一步骤401中，新的RGB-D帧被拍摄并且可用于处理。深度可以根据照相机校准被修正402。灰度值从图像色彩通道中创建或提取，并且图像金字塔被创建既用于灰度通道又用于深度通道404。在下一个步骤中，如果速度是所期望的，则使用更粗糙的金字塔值分析当前RGB-D帧的结构405。计算景象拟合（fitness）值。拟合值描述了系统使用给定的RGB-D帧执行实时帧对准的能力。使用视觉预测器、来自系统陀螺仪或者线性运动模型的数据预测当前照相机姿态406。姿态是空间中的位置或方向，诸如例如具有其倾斜角和罗盘方向的照相机姿态、或关键帧姿态。然后，一组N个现有的关键帧被选择用于与对当前照相机姿态的估算对准407。并行采取下一个步骤，其中用于可视化和降噪的数据上传到图形处理器单元（GPU）408。在同时，使用预测的姿态作为起始点将当前RGB-D帧对准到所选择的组中的关键帧的每一个409。该步骤的结果是所需数量（N个）的姿态更新，一个用于组中的每一个关键帧，以及在当前RGB-D帧和特定的关键帧之间的相同数量（N个）的重叠值。

用于图像捕获和图像处理的处理的另一部分在图4B中被公开。该处理或过程使用相对的关键帧姿态（它们在空间中的位置和方向）的过去的测量结果，并且将它们相对于彼此设置（约束建设）从而为关键帧推导一组新的姿态，所述新姿态相对于内部约束更加一致。该处理430应用于还没有与后续的姿态-图形优化精确对准的N个所选择的关键帧中的每一对帧。第一步骤431计算两个关键帧的相对姿态使得它们能被精确对准。位于两个关键帧之间的姿态因此被计算，并且使用姿态和指定的距离放置虚拟的目标433。来自虚拟的目标姿态的当前RGB-D数据的可见度然后被计算435。如果目标姿态的适合度或可见度是可接受的，那么使用来自先前对准过程的估算的姿态更新重计算两个关键帧的相对姿态437，并且重计算的相对姿态被存储为测量结果。如果测量结果的数量大于预先确定的阈值，那么两个关键帧的新的、精确的相对姿态被计算439，并且使用新的相对姿态启动姿态-图形优化。

用于图像捕获和图像处理的方法的另一部分的第三流程460在图4C中被描述。基于计算机重叠、当前估算的照相机姿态、以及所选择的组中N个关键帧的姿态，如果某些先决条件被满足，那么就可使用该处理。在第一个步骤中，新的关键帧被从当前RGB-D数据和当前估算的姿态中创建461，并且被包括在模型中。对准被检查463。如果存在对准失败，那么关键帧就应被重新本地化465，并且该过程重启。如果对准正确且一切正常，那么两个步骤应并行发生。应从传感器请求和加载新的RGB-D帧用于下一帧467。此外，使用当前估算的照相机姿态和已经被上传到GPU的空间景象数据绘制增强现实可视化469。后续地，在GPU上，使用当前估算的姿态和照相机校准模型，当前帧深度数据被重投影到N个所选择的关键帧中的每一个中471。关键帧的深度数据被重计算包含了来自于当前帧的新测量的深度数据。

第四流程在图4D中被描述。这是用于图像捕获和图像处理的步骤的简略的、替代的过程。第一步骤是使用成像器捕获新的RGB-D帧481。根据特定的成像器校准预处理所捕获的RGB-D帧482。进而分析校准的RGB-D帧并提取一般景象信息483。然后，该帧用于相对于一个或更多的RGB-D参考帧确定当前照相机姿态或方向484，也就是对准帧。对准的结果进而被用来分析姿态估算的质量485。在系统请求时，估算的姿态和当前RGB-D帧进而被用来精确对准现有参考帧486，并且进而从当前RGB-D帧生成新的参考帧487。估算的姿态和当前RGB-D帧进而被用来扩展、改进和/或雕刻现有的3D模型488。屏幕上的用户接口然后被以新近计算的结果更新488。该结果可以适合的设备被用于可选的增强现实风格可视化。此外，为了更好的对准，该处理可以每当需要就被重复490。

用于人类相貌的特写工具（closeup utility）

在实施例中，集成的3D成像器可以用来捕获和提供人类或动物相貌的测量。对于眼镜和隐形眼镜的测量，可以以毫米级精确度容易地获得。头、角膜、眼睛、耳朵等的详细的图可以在几秒钟内被捕获。相似地，其他身体部分的3D像可以被获得用于在制作假体中使用，或者用于被整形医生在创建模型中使用以便对一个人的相貌做出调整或者以便为事故或其他损伤提供手术修复。

如典型的操作的示例，一个人可以首先测量人的眼睛和鼻子。从该信息中，可以发现眼睛之间的间距、瞳孔间的距离。可以发现鼻子的形状和尺寸。可以发现相对于眼睛和鼻子的位置的耳朵的位置和尺寸，包括距离，因此可以指定一副眼镜腿。眼镜框架的模型可以由买家从目录中选择。框架的数字化存储的3D模型可以覆盖在图像中以检查适合度并且看它们是否适合买家。这样的服务可以是出售眼部护理产品的辅助。在另一个实施例中，人脸的图像可以被反转使得人看到他在镜子中所能看到的。

一般原则

虽然仅示出和描述了几个本公开的实施例，但对本领域技术人员而言明显的是可在不背离如所附的权利要求所描述的本公开的精神与范围的情况下，对其做出很多改变和修改。所有专利申请和专利，无论外国的还是国内的，以及所有其他在此引用的出版物都以它们整体以及被法律许可的完整延伸而并入本文。虽然已经关于某些优选的实施例描述了本公开，其他实施例将被本领域的普通技术人员所理解并且被包含在此。

通过在处理器上执行计算机软件、程序代码、和/或指令的机器，在此描述的方法和系统可以被部分地或整体地采用。本公开可以被实施为机器上的方法、实施为机器的一部分的系统或装置或与机器有关的系统或装置、或实施为体现于计算机可读介质中的在一个或更多的机器上执行的计算机程序产品。处理器可以是服务器、客户端、网络基础设施、移动计算平台、固定计算平台、或其他计算平台的一部分。处理器可以是任何类型的能够执行程序指令、代码、二进制指令以及诸如此类的计算或处理设备。处理器可以是或包括可直接或间接有助于执行存储于其上的程序代码或程序指令的信号处理器、数字处理器、嵌入式处理器、微处理器或任何诸如协处理器（数学协处理器、图形协处理器、通信协处理器等）的变体等等。此外，处理器可使多个程序、线程、和代码能够执行。

如果不止一个处理核可用，那么线程就可以被同时执行以增强处理器的性能并有助于应用的同步操作。经由实施，在此所述的方法、程序代码、程序指令等都可实现在一个或更多线程中。线程可以产生其他可能具有已分配的与它们相关联的优先权的线程；处理器可以基于优先权执行这些线程或基于程序代码中提供的指令执行任何其他命令。如在此和其他地方所描述的，处理器可以包括存储方法、代码、指令和程序、非暂时性数据的存储器。如在此和其他地方所描述的，处理器可以通过接口访问可存储方法、代码和指令的存储介质。用于存储方法、程序、代码、程序指令或者能够被计算或处理设备执行的其他类型的指令的与处理器相关联的存储介质可以包括但不限于一个或更多的CD-ROM、DVD、存储器、硬盘、闪存、RAM、ROM、缓存等。

处理器可以包括一个或更多的可以增强多处理器的速度和性能的核。在实施例中，处理可以是合并两个或更多的独立核（称为小片）的双核处理器、四核处理器、其他芯片级多处理器等。通过在服务器、客户端、防火墙、网关、集线器、路由器或其他这样的计算机和/或网络硬件上执行计算机软件的机器，在此所描述的方法和系统可以部分地或整体地被采用。软件程序可以与服务器相关联，所述服务器可以包括文件服务器、打印服务器、域服务器、因特网服务器、内部互联网服务器以及诸如副服务器、主服务器、分布式服务器等的其它变型。服务器可以包括存储器、处理器、计算机可读介质、存储介质、端口（物理的和虚拟的）、通信设备、以及能够通过有线的或无线的介质访问其他服务器、客户端、机器和设备的接口等中的一个或更多。如在此和其他地方所描述的方法、程序或代码可以被服务器执行。此外，用于执行如本申请中所描述的方法所需要的其他设备可以被考虑作为与服务器相关联的基础设施的一部分。

服务器可以给其他设备提供接口，该其他述设备包括但不限于客户端、其他服务器、打印机、数据库服务器、打印服务器、文件服务器、通信服务器、分布式服务器等。此外，该耦接和/或连接可以有助于跨网络远程执行程序。在不偏离本公开范围的情况下，将这些设备中的一些或全部进行网络连接可以有助于在一个或更多的位置并行处理程序或方法。此外，通过接口附接到服务器的任何设备可以包括至少一个能够存储方法、程序、代码和/或指令的存储介质。中央资源库可以提供要在不同设备上执行的程序指令。在该实现中，远程资源库可以担当用于程序代码、指令和程序的存储介质。

软件程序可以与客户端相关联，所述客户端可以包括文件客户端、打印客户端、域客户端、因特网客户端、内部互联网服务器以及诸如副户端、主客户端、分布式客户端等的其他变体。客户端可以包括存储器、处理器、计算机可读介质、存储介质、端口（物理的和虚拟的）、通信设备、以及能够通过有线的或无线的介质访问其他客户端、服务器、机器、和设备的接口等等中的一个或更多个。在此和其他地方所描述的方法、程序或代码可以被客户端执行。此外，用于执行在本申请中所描述的方法所需的其他设备可以被认为是与客户端相关联的基础设施的一部分。

客户端可以向包括但不限于服务器、其他客户端、打印机、数据库服务器、打印服务器、文件服务器、通信服务器、分布式服务器等的其他设备提供接口。另外，该耦接和/或连接可以有助于跨网络远程执行程序。在不偏离本公开的范围的情况下，将这些设备中的一些或全部的进行网络连接可有助于在一个或更多的位置并行处理程序或方法。此外，通过接口附接到客户端的任何设备可以包括至少一个能够存储方法、程序、应用、代码和/或指令的存储介质。中央资源库可以提供要在不同设备上执行的程序指令。在该实现中，远程资源库可以担当程序代码、指令和程序的存储介质。

通过网络基础设施，在此所描述的方法和系统可以部分地或整体地被采用。网络设施可以包括诸如计算设备、服务器、路由器、集线器、防火墙、客户端、个人计算机、通信设备、路由设备、以及其他本领域已知的有源和无源的设备、模块和/或组件的元件。除了其他组件之外，与网络基础设施相关联的计算和/或非计算设备（一个或多个）可以包括诸如闪存、缓冲区、栈、RAM、ROM等非暂时性存储介质。在此和其他地方所描述的处理、方法、程序代码、指令可以被一个或更多的网络基础设施元件执行。

在此和其他地方所描述的方法、程序代码和指令可以在具有多个蜂窝的蜂窝网络上被实施。蜂窝网络可以或是频分多址（FDMA）网络或是码分多址（CDMA）网络。蜂窝网络可以包括移动设备、蜂窝站、基站、中继器、天线、通信塔等。蜂窝网络可以是GSM、GPRS、3G、EVDO、无线网格（mesh）、或其他网络类型。

在此和其他地方所描述的方法、程序代码和指令可以在移动设备上或者通过移动设备实施。移动设备可以包括导航设备、蜂窝电话、移动电话、移动个人数字助理、笔记本、掌上电脑、上网本、传呼机、电子书阅读器、音乐播放器等。除了其他组件以外，这些设备可以包括诸如闪存、缓冲区、RAM、ROM以及一个或更多的计算设备的存储介质。与移动设备相关联的计算设备可以能够执行存储于其上的程序代码、方法和指令。可替代地，移动设备可以被配置以与其他设备合作执行指令。移动设备可以与和服务器面接的基站通信并且被配置以执行程序代码。移动设备可以在点对点网络、无线网格网络、或其他通信网络上通信。程序代码可以被存储在与服务器相关联的存储介质上，并且被嵌入在服务器内的计算设备执行。基站可以包括计算设备和存储介质。存储介质可以存储被与基站相关联的计算设备执行的程序代码和指令。

计算机软件、程序代码、和/或指令可以在机器可读介质上被存储和/或访问，所述机器可读介质可以包括：计算机组件、设备和将用于计算的数字数据保留一定时间间隔的记录介质；被称为随机访问内存（RAM）的半导体存储；通常用于更多永久性存储的大容量存储，诸如光盘、磁性存储形式，所述磁性存储形式像硬盘、磁带、磁鼓、磁卡和其他类型；处理器寄存器、缓冲存储器、易失性存储器、非易失性存储器；诸如CD、DVD的光存储；诸如闪存（例如USB棒或密钥）、软盘、磁带、纸带、穿孔卡、单机RAM盘、Zip驱动器、可移除的大容量存储、离线以及诸如此类的可移除的介质；存储器诸如动态存储器、静态存储器、读/写存储、可变的存储、只读、随机访问、顺序访问、位置可寻址的、文件可寻址的、内容可寻址的、网络附接存储、存储区域网络、条形码、磁性墨水等其他计算机。

在此所描述的方法和系统可以将物理的和/或无形的物品从一种状态向另一种状态变换。在此所描述的方法和系统还可以将代表物理的和/或无形的物品的数据从一种状态向另一种状态变换。贯穿附图的包括在流程图和框图中的在此所描述和描绘的元件暗示元件之间的逻辑边界。然而，根据软件或硬件工程实践，所描绘的其元件和功能可以通过计算机可执行介质在机器上被实施，该计算机可执行介质具有能够执行存储于其上的程序指令的作为单片机软件结构、作为单机软件模块、或作为采用外部路由、代码、服务等的模块、或这些的任意组合的处理器，并且所有这样的实现可以是在本公开的范围内。这样的机器的示例可以包括但不受限于个人数字助理、膝上型计算机、个人计算机、移动电话、其他手持型计算设备、医疗设备、有线的或无线的通信设备、转换器、芯片、计算器、卫星、平板PC、电子书、小机电、电子设备、具有人工智能的设备、计算设备、网络设备服务器、路由器等。此外，流程图和框图中所描绘的元件或任何其它的逻辑组件可以在能够执行程序指令的机器上实施。因此，虽然前述图和描述说明了所公开的系统的功能性方面，但除非根据上下文明确说明或另外澄清，不应该从这些描述中推断出实施这些功能性方面的软件的特定布置。

相似地，将意识到上面所标识和描述的不同的步骤可以变化，并且步骤的顺序可以适应于在此所公开的技术的特定应用。所有这样的变化和修改意在落在本公开的范围内。如此，除非被特定的应用所要求，或是根据上下文明确陈述或另外澄清，对于不同步骤的顺序的描绘和/或描述不应该被理解为要求对那些步骤的特定顺序的执行。

上面所述的方法和/或处理以及它们的步骤可以在硬件、软件或适合于特定应用的硬件和软件的任何组合中被实现。硬件可以包括通用计算机和/或专用计算设备或指定计算设备或指定计算设备的特定方面或组件。处理可以在一个或更多的微处理器、微控制器、嵌入式微控制器、可编程数字信号处理器或其他可编程设备、以及内部和/或外部存储器中被实现。处理还可以或反而被嵌入在应用指定集成电路、可编程门阵列、可编程阵列逻辑、或任何其他可以被配置以处理电子信号的设备或设备的组合中。还应当理解的是一个或更多的处理可以被实现为能够在机器可读介质上被执行的计算机可执行代码。

计算机可执行代码可以使用诸如C的结构化编程语言、诸如C++的面向对象编程语言、或任何其他可以被存储、编译或翻译以在上述设备中的一个、以及处理器的异构组合、处理器架构、或不同硬件和软件的组合、或任何其他能够执行程序指令的机器上运行的高级或低级编程语言（包括汇编语言、硬件描述语言、和数据库编程语言和技术）来创建。

因此，在一方面，上述每一个方法和其组合都可以实现在当执行在一个或更多的计算设备上时执行其步骤的计算机可执行代码中。在另一方面，方法可以实现在执行其步骤的系统中，并且可以以许多方式跨设备分布，或者所有功能可以被集成到专用、单片设备或其他硬件中。在另一方面，上述用于执行与处理相关联的步骤的装置可以包括上文描述的任何硬件和/或软件。所有这样的排列和组合意在落于本公开的范围内。

虽然本公开已公开了关于被示出和详细描述的优选的实施例，在其上不同的修改和改进对于本领域的技术人员而言将变得明显。因此，本公开的精神和范围并不受限于前述示例，而是将被以法律可容许的最广义的方式理解。在此引用的所有文件通过引用的方式并入本文。

Claims

1.一种用于通过实时捕获景象的多个图像创建环境的数字3D模型的移动手持型成像系统，其包括：

图像/深度捕获模块，用于捕获多个数字图像以获得与所述多个数字图像中的每一个捕获的数字图像相对应的深度信息与色彩信息；

具有处理器、带有用户接口控制的显示器、以及通信模块的手持型计算机系统，其中所述处理器与所述图像/深度捕获模块通信；以及

具有已编码在其上的一组指令的非暂时性计算机可读介质，所述指令可被所述处理器执行以执行一个或更多的操作，所述操作包括：

捕获景象的所述多个数字图像；

采用所述多个数字图像的初始数字图像来初始化3D模型；

对于所述多个捕获的数字图像中的每一个捕获的数字图像，在相应的捕获时为图像/深度捕获模块计算相应的相对姿态的估算值，所述姿态是位置和方向，其中，所述多个捕获的数字图像中的每一个是在采用所述多个数字图像的初始数字图像来初始化所述3D模型以后从图像/深度捕获模块获取的，其中所述估算值通过使用相应的初始预测的姿态按照在所述非暂时性计算机可读介质上数字表示的所述3D模型的至少一个子组顺序地配准每一个捕获的数字图像来计算；

通过将新点的位置转换成3D模型的坐标系来扩展所述3D模型，以及将所述新点加到所述3D模型中仅在基于计算的重叠的某些先决条件被满足的情况下被执行，否则丢弃当前捕获的数字图像的多个新点中的至少一个，其中，所述新点来自在所述初始数字图像以后捕获的多个随后捕获的数字图像中的至少一个，其中，将所述新点的所述位置转换成3D模型的坐标系统是使用当前捕获的数字图像的所计算的姿态的估算值来完成的；

使用所有多个捕获的数字图像的姿态、及所述深度信息与色彩信息的估算值、通过3D模型的全局配准来优化输入姿态及所述深度信息和色彩信息，从而增加所捕获的3D模型的准确性及光学品质，其中，所述所有多个捕获的数字图像已经被用于初始化或扩展所述3D模型且一起表现所述3D模型；以及

在所述移动手持型成像系统中，以所述3D模型可视化的形式显示所述多个捕获的数字图像的渲染效果。

2.根据权利要求1所述的系统，其中所述移动手持型系统是从由平板计算机、蜂窝电话、照相机、被配置以向蜂窝电话传送数据的照相机、以及运动-照片捕获照相机组成的群组中选择的。

3.根据权利要求1所述的系统，其中所述图像/深度捕获模块以达到60帧每秒的用户可选择速率获得图像。

4.根据权利要求1所述的系统，其中所述图像/深度捕获模块被配置成捕获用户可选择的数据组，其中范围是从100,000到2百万数据点每张图像。

5.根据权利要求1所述的系统，其中a)所述图像/深度捕获模块对于每一个图像帧实时地产生所述信息，并且b)所合并的3d模型被实时地生成和形成，并且c)给所述用户的扫描有关的信息的显示实时地更新。

6.根据权利要求1所述的系统，其中所述图像/深度捕获模块对于每一个图像帧准实时地产生所述信息。

7.根据权利要求1所述的系统，其中所述图像/深度捕获模块包括用于相对于照相机位置确定X、Y、和Z位置信息的结构光深度图确定系统。

8.根据权利要求1所述的系统，其中所述图像/深度捕获模块被配置以从至少2个被捕获的深度图像中确定照相机姿态。

9.根据权利要求1所述的系统，其中所述图像/深度捕获模块包括用于确定深度信息的飞行时间系统以及用于相对于照相机位置确定X和Y位置信息的扫描系统。

10.根据权利要求1所述的系统，其中所述处理器包括多核类型。

11.根据权利要求1所述的系统，其中所述处理器被配置成操作程序以将增强现实图像重叠在拼接的图像上或在任何其他图像上，并且相对于它被重叠于其上的图像调节所述增强现实图像的对准。

12.根据权利要求11所述的系统，其中所述处理器还被配置以通过无线链路向远程存储位置传输所述拼接的图像。

13.根据权利要求1所述的系统，其中所述处理器被配置以将存储在存储器中的任何图像传输到远程目的地。

14.根据权利要求1所述的系统，其中对单一3D模型的数字文件数据的处理通过到触摸感应显示器的基于触摸的输入来完成。

15.根据权利要求1所述的系统，其中所述3D模型被用于获得对模型化对象的测量结果。

16.根据上述权利要求中任意一项所述的系统，其中，所述处理器被配置成执行对至少两个或更多图像的自动融合从而形成组合的3D模型。

17.根据权利要求1所述的系统，还包括通过将来自所述随后捕获的数字图像的新点与所述3D模型结合来使用所估算的、所计算的随后捕获的数字图像的姿态以提炼所述3D模型。

18.一种用于通过实时捕获景象的多种图像并且确定每一个图像中多个点在坐标系中的精确位置来创建环境的数字3D模型的方法，其包括：

经由图像/深度捕获模块捕获场景的多个数字图像以获得用于每一个捕获的数字图像的深度信息与色彩信息；

采用所述多个数字图像的初始数字图像来初始化3D模型；

对于所述多个捕获的数字图像中的每一个，在捕获时为图像/深度捕获模块计算相应的姿态的估算值，所述姿态是位置和方向，其中，所述多个捕获的数字图像中的每一个是在采用所述多个数字图像的初始数字图像来初始化所述3D模型以后从图像/深度捕获模块获取的，其中所述估算值通过使用相应的初始预测的姿态按照所述3D模型的至少一个图像子组顺序地配准所述多个捕获的数字图像中的每一个来计算；

通过将新点的位置转换成3D模型的坐标系来扩展所述3D模型，以及仅在基于所计算的重叠的某些先决条件满足的情况下将所述新点加到所述3D模型中，否则丢弃当前捕获的数字图像的多个新点中的至少一个，其中，所述新点来自在所述初始数字图像以后捕获的多个随后捕获的数字图像中的至少一个；

将所有多个捕获的数字图像的姿态、及所述深度信息与色彩信息的估算值用来通过3D模型的全局配准优化输入姿态及所述深度信息和色彩信息从而增加所捕获的3D模型的准确性及光学品质，其中，所述所有多个捕获的数字图像已被用于初始化或扩展所述3D模型且一起表现所述3D模型；以及

在移动手持型成像系统中，经由显示器以3D模型可视化的形式显示所述多个捕获的数字图像的渲染效果。

19.根据权利要求18所述的方法，其中，根据被输入到处理和控制系统的基于用户的输入处理单一3D模型的数字文件数据。