CN110140347B

CN110140347B - 深度图像供应装置和方法

Info

Publication number: CN110140347B
Application number: CN201780031816.2A
Authority: CN
Inventors: N·霍雷斯
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-06-22
Filing date: 2017-05-16
Publication date: 2022-06-14
Anticipated expiration: 2037-05-16
Also published as: CN110140347A; WO2017222677A1; US10609359B2; US20170374352A1; DE112017003143T5; KR102461093B1; KR20190039667A

Abstract

描述了用于提供对象的深度图像的装置、方法和存储介质。在一些实施例中，装置可包括：投影仪，用于执行受控运动，以在不同的时间实例将光图案投射在场景的不同部分上；以及成像设备，与投影仪耦合，该成像设备用于响应于光图案投射在对应部分上而生成场景的不同部分的多对图像(从第一视角生成对中的第一图像，以及从第二视角生成该对中的第二图像)。该装置可包括与投影仪和成像设备耦合的处理器，该处理器用于控制投影仪的运动，并且基于对场景的多个部分的所生成的多对图像的处理来生成场景中的对象的深度图像。也描述和要求保护其他实施例。

Description

深度图像供应装置和方法

相关申请的交叉引用

本申请要求于2016年6月22日提交的题为“DEPTH IMAGE PROVISION APPARATUSAND METHOD(深度图像供应装置和方法)”的美国专利申请第15/190,031号的优先权。

技术领域

本公开涉及计算和成像领域，具体而言，涉及与深度图像的供应相关联的装置、方法和存储介质。

背景技术

当前的三维(3D)深度相机包括常规相机、红外激光投影仪以及红外相机(并且有时包括话筒阵列)，以测量图像的深度，从而实现基于姿势的交互、面部识别、沉浸式视频会议和协作、游戏和3D扫描。红外投影仪可(以对人类眼不可见的红外线)将网格投射到场景上，并且红外相机可记录该网格以计算深度信息。3D相机可以是独立式的，并且可被集成到计算机中，该计算机诸如台式机、膝上型计算机、平板、二合一计算机、游戏控制台等等。当前的深度相机在使用时可能要求来自成像仪和处理单元的大量的能耗。进一步地，当前的深度相机可能遭受空间分辨率和可从由相机所捕获的图像标识的最小对象尺寸的限制。

附图简述

通过下列具体实施方式、结合所附附图，将容易地理解实施例。为了便于该描述，同样的附图标记指示同样的结构元件。在附图的各图中，通过示例的方式而非通过限制的方式来图示实施例。

图1是图示出根据一些实施例的用于供应对象的深度图像的示例装置的框图。

图2是图示出根据一些实施例的图1的装置的一些方面的示例示意图。

图3图示出根据一些实施例的由图1的装置获取的图像对中的图像的示例片段。

图4是根据一些实施例的使用本公开的技术所生成的场景中的对象的示例图像。

图5图示出根据一些实施例的用于供应对象的深度图像的示例过程。

图6图示出根据一些实施例的、用于如参考图1-图5所描述地处理所获取的图像对以生成对象的深度图像的示例过程。

图7图示出根据一些实施例的、用于如参考图1-图5所描述地处理所获取的图像对以生成对象的深度图像的另一示例过程。

图8图示出根据各实施例的适合于使用来实施本公开的多个方面的示例计算设备，诸如用于供应深度图像的装置。

具体实施方式

本公开的实施例包括针对用于提供对象的深度图像的装置和方法的技术和配置。在一些实施例中，装置可包括投影仪，用于执行受控运动，以在不同的时间实例将光图案投射在场景的不同部分上。该装置可进一步包括与投影仪耦合的成像系统，用于响应于光图案投射在相应部分上而生成场景的不同部分的多对图像。生成多对图像可包括：从第一视角获取对中的第一图像，并且从第二视角获取该对中的第二图像，其中，第一和第二视角可以是不同的视角。装置可进一步包括与投影仪和成像设备耦合的处理器，用于控制投影仪的运动，并且至少部分基于对所生成的场景的不同部分的多对图像的处理来生成场景中的对象的深度图像。

在下列具体实施方式中，参考了形成本文一部分的所附附图，其中，自始至终，同样的附图标记表示同样的部分，并且其中通过可实施的说明性实施例来示出。将会理解，可利用其他实施例，并且可作出结构或逻辑改变而不背离本公开的范围。因此，以下具体实施方式不旨在作为限制，并且实施例的范围由所附权利要求及其等效方案来限定。

为了本公开的目的，短语“A和/或B”意指(A)、(B)、(A)或(B)、或者(A和B)。为了本公开的目的，短语“A、B、和/或C”意指(A)、(B)、(C)、(A和B)、(A和C)、(B和C)或(A、B和C)。

本说明书可使用短语“在实施例中”或“在多个实施例中”，这些短语各自可指相同或不同实施例中的一个或多个。此外，如对于本公开的实施例所使用的术语“包含”、“包括”、“具有”等是同义的。

本文中可使用术语“与……耦合”及其派生词。“耦合的”可意指下列各项中的一项或多项。“耦合的”可意指两个或更多个元件处于直接物理的、电气的或光学的接触。然而，“耦合的”还可意指两个或更多个元件彼此间接接触，但仍彼此协作或交互，并且可意指一个或多个其他元件被耦合或连接在被说成彼此耦合的元件之间。

图1是图示出根据一些实施例的用于供应对象的深度图像的示例装置的框图。在实施例中，装置100可包括与投影仪104耦合的成像设备102。投影仪104可被配置成用于执行受控运动，以在不同的时间实例将光图案124投射在场景120的不同部分上。该受控运动可包括对形成光图案的光束的光束引导，以按照受控的方式移动该图案。光图案124可包括例如可采用不同尺寸和形状(例如，如所示的矩形、圆形或其他形状)的光斑，并提供所期望的对比度值。存在可使用的许多可能的投影仪图案。在实施例中，投影仪运动可以是基本上连续的，以覆盖图像的区域(部分)。当要获取图像系列时(如下文更完整地所描述)，对于该投影仪的运动期间的像素，该系列在沿着具有期望视差范围的同一外极线(epipolarline)(即，经纠正的图像中的图像线)的其他系列中可以是唯一的。如图所示，场景120可包括一个或多个对象122，这一个或多个对象122可包括静止的和/或移动的对象，诸如该说明性示例中的人。场景120的多个部分的多对图像可响应于光图案的投射而被获取。可根据本文中所描述的个实施例来处理场景120的部分的所获取的多对图像，并且可基于该处理的结果来生成场景120中的对象122的对应的深度图像。

一般而言，投影仪104可包括可使其按照受控方式例如连续地或周期性地跨场景120移动光图案的任何投影仪。例如，可使得投影仪104在多次连续的图像获取之间、在一个方向(例如，水平或竖直方向)上、以特定尺寸(例如，一个实施例中的光斑的尺寸或者另一实施例中的像素尺寸)的步长(光斑之间的距离)来投射光图案124、126、128。一般而言，可使得投影仪104以随机方式将光图案投射在场景120的多个部分上。在实施例中，如参考图2更详细地所描述，投影仪104可与致动器110耦合并可由致动器110操作，以控制投影仪104的运动。

成像设备102可被配置成用于：响应于由投影仪将光图案投射在场景120的多个部分上，生成场景120的不同部分的多对图像，以对该场景的、由投影仪104使其变亮的部分进行成像。成像设备102可包括红外(IR)相机或常规相机。在实施例中，成像设备102可包括第一(例如，左)相机106和设置在距第一相机106距离B处的第二(例如，右)相机108。相机106和108可生成从不同的视角拍摄的场景120的多个部分的多对图像。这些视角可部分地由相机106与108之间的距离B和/或分别从相机106、108到场景120中的特定点(例如，150)的距离D1、D2来限定。相应地，如图1中所示，相机106可从第一视角获取图像对中的第一图像，并且相机108可从第二视角获取该图像对中的第二图像，其中，第一和第二视角可以是不同的视角。

在实施例中，成像设备102可包括与投影仪104耦合的一个相机(例如，106或108)。该相机可获取该图像对中的一个图像。因为投影仪的几何形状已知，因此可通过例如将所投射的图案的合成图像用作立体对中的第二图像来从单个视图计算深度图。换言之，可校准投影仪104，使得在由相机106或108获取图像的每个时间实例处该投影仪104的位置是一只的，并且因此可合成图案的对应图像，并可从单个图像推断精确的深度图，例如，如按照结构化的光方法所完成。

装置100可进一步包括与投影仪104(例如，经由致动器110)以及成像设备102耦合的处理器130。处理器130可被配置成用于利用致动器110来控制投影仪104的运动。处理器130可进一步被配置成用于处理由成像设备102获取的多对图像，并且至少部分地基于对所生成的场景120的多个部分的多对图像的处理来生成场景120中的对象122的深度图像。下文详细描述图像处理和对象的深度图像的生成。

取决于装置100的配置，可将所得到的图像122的深度图像提供给显示器132和/或存储在装置100的存储器134中。存储器134可存储指令(例如，存储在控制模块140中)，这些指令用于操作处理器130来执行投影仪104运动控制并处理所获取的场景120的多个部分的多对图像，从而生成场景120中的对象122的深度图像。

图1表示投影仪与相机的共面设置。这可在不失一般性的情况下完成，因为可纠正图像并且使其共面。纠正的过程可包括根据相机-投影仪系统的几何形状而对图像进行的几何变换。此过程的结果可以是共面的并且不失真的虚拟相机。在实施例中，可基于相机106、108之间的基准距离B对每个所提供的像素的深度数据(例如，从相机106(108)到对象122上对应于所提供的像素的点的距离)进行三角测量，并且可相应地创建深度图像。

装置100可被具体化为适合于图像生成和供应的外部的外围设备(例如，与计算设备通信地耦合)或集成设备。可包括装置100的计算设备的示例可包括但不限于平板计算机、智能电话、膝上型计算机、游戏和媒体设备、移动工作站、一体化设备、二合一设备或台式计算机。在实施例中，装置100可包括独立式设备，诸如，3D静止相机、摄像机、网络摄像头、红外(IR)相机、或者能够生成视频和/或图像的另一设备。

一般而言，装置100的所图示的组件中的任一个或全部可与计算设备分开或远离于计算设备，但与该计算设备通信地耦合。进一步地，诸如处理能力和/或存储器容量之类的装置100的功能中的一些或全部可与相关联的计算设备一起使用或共享。

图2是图示出根据一些实施例的图1的装置的一些方面的示例示意图。为了易于理解，图1与图2中的同样的组件由同样的附图标记来指示。

如图所示，投影仪104可包括图案化光发射器202，该图案化光发射器202被配置成用于发射光图案124(光斑)，以便由透镜204将该光图案124成像在场景(未示出)的部分上。控制器(例如，处理器130)可与致动器110耦合，以沿平面206对光发射器202的运动进行操作，从而控制光图案124在场景的部分上的投射。在一些实施例中，作为对控制光发射器202的运动的补充或替代，控制器可控制透镜204的运动(例如，对透镜元件中的一些进行致动)，以便控制光束引导，从而平移场景的部分上所投射的图案。

一般而言，投影仪104可包括设置在x-y机械平移底座上的图案化投影仪阵列。图案可由竖直腔表面发射激光器(VCSEL)阵列生成。该阵列可由单个半导体芯片制成，并且可生成激光源。该阵列布局可以是伪随机布置。激光源可以是从表面定向到垂直方向的。光学元件(例如，透镜)可用于将光投射到场景中(“逆成像(inverse imaging)”)。致动器110可包括机械致动器以在平行方向上将激光阵列移动到该机械致动器的位置，该机械致动器诸如传感器移位设置。投影仪的受控运动(光束引导)可为如下：投影仪可将图案(例如，光斑)投射在场景上，并且图像对可被拍摄；可使得投影仪将图案移动到场景中的不同位置并停止，并且另图像对可被拍摄；等等。控制器可关闭光源，并且仅当投影仪已到达所期望的位置时将该光源激活预定的时间。典型地，在立体相机图像处理中，可从场景的部分的图像对中的一个图像(例如，左图像)取得模板图像块(例如，图像的部分，诸如像素邻域或某个尺寸的窗口)。该图像块可沿同一虚线匹配于来自另一(例如，右)图像的图像块。该对应的线也被称为外极线。相机的几何形状可以是已知的，所以可纠正这些图像。此后，将假定图像被纠正。

存在用于匹配图像块的各种度量，诸如归一化互相关、绝对差之和、平方和以及其他度量。当找到良好的匹配时，在右图像平面中测量模板块与匹配块之间的距离(视差)。随后可使用下列等式来计算从相机到块的距离：z＝f*B/d，其中，z为距相机的距离，f为相机的焦距，B为基准(如图1中所示的两个相机之间的距离)，且d为视差(针对平面设置)。一般而言，B可以是在图像已被纠正之后在多个虚拟相机之间的距离。利用此方法的主要问题是关于图像块中的信息量。当图像块在具有低对比度的区域(例如，均匀区域)中时，可能没有足够的信息来在另一图像中找到匹配的图像块。为了解决此问题，可使用主动式立体相机，其可将IR图案投射到场景上，以便在整个图像中创建对比度(或纹理)。

然而，主动式深度相机可能遭受空间分辨率和可由相机标识的最小对象尺寸的限制。当图像块过小时，其可能不一定包含充足的信息以具有区别性匹配。另一方面，当图像块过大时，其可能包含来自可具有不同深度值的图像区域的信息，并且因此包含不同的视差值。大的块尺寸可导致对视差值的不精确的计算或完全没有匹配。此外，块的大小还可确定相机能够分辨的最小对象尺寸和有效分辨率。例如，具有8x 8窗口尺寸的640x 480视频图形阵列(VGA)分辨率立体相机可能能够分辨小于8x 8的最小尺寸的对象，并且有效分辨率(独立深度测量的数量)可能是80x 60。换言之，已知的方案可能需要采用更大的投影仪和更大的成像仪两者来提供所期望的精确度的深度图像，这可能增加设备的尺寸、成本和功耗。

为了减小块尺寸(并因此增加深度图分辨率)而不损害深度质量，可能需要创建可与光学系统可解析的一样密集的投射图案。所描述的实施例可通过控制投影仪的运动来提供图像深度精确度的改善，这可创建依赖于时间的投射图案。得到的图案可具有比由传统方案所提供的图案更高的密集度。相比于常规方法，处理使用本文中所描述的投影仪的受控运动而获取的图像可提供场景中的对象的高分辨率三维深度图像。在一些实施例中，处理响应于光图案投射在场景的部分上而生成的多对图像可包括下列技术。投影仪能以特定的步长(以多次连续图像获取之间的特定距离)来移动所投射的图像，并且可包括场景的部分的同一图像元素(例如，块或像素)的多对图像可被拍摄。例如，参考图1，诸如斑点150之类的对应于场景部分的图像元素可在与在对应的时间实例拍摄的光斑124和126对应的多对图像中被找到。

图3图示出根据一些实施例的由图1的装置获取的图像对中的图像的示例片段。以像素的顺序的位置表示X轴和Y轴。如图所示，对于单个图像元素(例如，例如由附图标记302所指示的像素)，可在同一像素“邻域”(空间配置)中在不同的(例如，连续的)时间实例处生成多个图像(例如，304、306)，该多个图像可包括图像元素302的至少部分。作为示例，投影仪可在时刻t1将图案(光斑)投射在场景上，并且对应于该斑点的块的图像对可被生成。随后，投影仪可(例如，以小于图案斑点的尺寸的距离)移动该光斑，并且在时刻t2，(连续的)另图像对可被获得。该操作可在时间实例t1、t2、t3、...tN重复数次。因此，图像元素(或其部分)可存在于在该元素的空间邻域中并且在不同的时间实例拍摄的图像中的每个图像中。每个图像可具有与存在于该图像中的图像元素相关联的光强度值。

相应地，根据在不同(例如，连续的)时刻t1、t2、t3...tN和在对应于由投影仪所投射的光图案的相邻(或重叠的)空间处拍摄的一系列图像对，可从空间和时间两者上的图像元素(例如，像素302)“邻域”构建图像块系列。换言之，可从多个图像并且针对每个图像块创建时间序列，例如，在不同时间实例处的不同光强度值的向量。如上文所描述，通过标识针对系列中的对应的图像对的视差，可对这些时间系列执行标准立体匹配(而不是根据常规方法对单个块或空间窗口执行)。基于匹配的结果，可生成对象的高分辨率深度图像。

在其他实施例中，对响应于光图案投射在场景的部分上而生成的图像对的处理可按如下方式执行。可预定义图像的特征，并将其存储在存储器134中，以便可由装置100的处理器130访问。特征可包括具有预定义的特性(例如，光强度值)的图像的部分。例如，特征可以是定义图像块(例如，对应于图3中的斑点304或306)的光强度值的集合。例如，特征可包括由多个点组成的图案，每个点具有对应的光强度值。为了处理的目的，可预定义并存储图像的一个或多个特征。

可沿从场景获取的多个帧来跟踪特征(或多个特征)。多对图像可被定义为[L1,R1]、[L2,R2]、…、[LN,RN]，其中，L和R可对应于由成像设备的左相机和右相机获取的图像。如果已经在图像中的一个图像(例如，L1)中标识了特征，则可在对应的图像R1中标识匹配特征。这可例如通过上文所描述的标准立体匹配来实现。进一步地，可以建立针对每个时间实例t的特征的视差值，其中视差(由d(t)表示)可以是特征的x坐标的差。

进一步地，可检测视差d(t)中的不连续性。不连续性是数学概念。即，图案的运动中的小的改变(无限小)可产生视差中的大的改变(非无限小)。不连续性可限定场景中对象的边界、对象之间的边界等等。对象之间的边界(或对象与场景的背景之间的边界)可通过对深度图像中的不连续性的检测来标识。在本文中所描述的实施例中，可在多个图像中检测不连续性，这可提供深度图像的更好的分辨率。由于可以按照子像素的方式、利用标准特征跟踪技术(例如，Lucas-Kanade)来完成对特征的跟踪，不连续性位置(x,y坐标)可容易地按子像素精确度。

换言之，能以分数像素分辨率检测边界的位置，例如，可以在像素坐标(例如，x＝100.25像素，y＝75.1像素)处确定对象与背景之间的边界。如果投影仪可被移动以在两个连续图像对的获取之间以小于像素尺寸的距离来投射图案(光斑)，则可实现子像素精确度。图4是根据一些实施例的使用本公开的技术所生成的场景中的对象的示例图像。该对象可对应于图1的场景120中的对象122(人)。根据本公开的实施例所生成的图4的深度图像能以远高于通过常规方法获得的图像的空间(x-y)分辨率来提供深度信息。在常规立体匹配中，可对某个尺寸(例如，8×8像素)的图像块进行匹配，这意味着基本上小于该尺寸的对象可不被标识。进一步地，可在该尺寸(例如，8×8窗口)上对深度信息求平均。例如，对于640×480红外图像，可获得80×60个非重叠的块，并且因此可执行80×60个独立的深度测量。假定对象和相机是静止的，则所描述的实施例可对单个像素(在很少的图像帧上)工作，因此，不对x-y而仅在时间上求平均。因此，x-y分辨率将高得多。换言之，可获得针对每个像素的独立的深度测量。图5图示出根据一些实施例的用于供应对象的深度图像的示例过程。过程500可例如由参考图1所描述的装置100执行。更具体地，过程500可响应于用于提供深度图像的、可存储在存储器134中指令的执行而由处理器130执行。

过程500可开始于框502，并且可包括：使得投影仪(例如，投影仪104)执行受控运动，以在不同时间实例将光图案(例如，124)投射在场景(例如，120)的不同部分上。

在框504处，过程500可包括：接收由与投影仪140耦合的成像设备102响应于光图案投射在相应部分上而生成的场景120的不同部分的多对图像。这可包括：接收从第一视角获取的对中的第一图像，以及接收从第二视角获取的该对中的第二图像，其中，第一和第二视角可以是不同的视角。

在框506处，过程500可包括：处理场景的多个部分的所生成的多对图像。该处理能以上文所描述的不同的方式完成。例如，如参考图6进一步所描述，该处理可通过图像对的时间系列的立体匹配来执行。在另一示例中，如参考图7进一步所描述，该处理可通过跟踪多对图像中的图像特征来执行。

在框508处，过程500可包括：至少部分地基于处理的结果来生成场景中的对象的深度图像。

图6图示出根据一些实施例的用于如参考图1-图5所描述地处理所获取的多对图像以生成对象的深度图像的示例过程。过程600可例如由参考图1所描述的装置100执行。更具体地，过程600可响应于用于提供深度图像的、可存储在存储器134中的指令的执行而由处理器130执行。

过程600可开始于框602，并且可包括：对于包括图像元素的至少一些所生成的图像对，针对场景的部分的图像元素确定多个光强度值。

在框604处，过程600可包括：标识图像元素在至少一些所生成的图像对的每个图像对中的对应位置。

在框606处，过程600可包括：至少部分地基于所确定的多个强度值和图像元素的对应位置来生成对象的深度图像的至少部分。

图7图示出根据一些实施例的用于如参考图1-图5所描述地处理所获取的图像对以生成对象的深度图像的另一示例过程。过程700可例如由参考图1所描述的装置100执行。更具体地，过程700可响应于用于提供深度图像的、可存储在存储器134中的指令的执行而由处理器130执行。

过程700可开始于框702，并且可包括：在至少一些图像对中的至少一些第一和第二图像中标识场景的部分的特征。该特征可包括与第一或第二图像的图像元素相关联的预定的光强度值的集合。

在框704处，过程700可包括：对于第一和第二图像中的每个图像，针对该特征确定视差值。

在框706处，过程700可包括：至少部分地基于特征的所确定的视差值来生成对象的深度图像的至少部分。

图8图示出根据各实施例的适合于使用来实施本公开的多个方面的示例计算设备800，诸如用于供应深度图像的装置。如图所示，计算设备800可包括一个或多个处理器802以及系统存储器804，每个处理器802具有一个或多个处理器核。处理器802可被实现为具有单个核或多核的集成电路，例如，多核微处理器。

计算设备800可包括大容量存储设备806(诸如，固态驱动器、易失性存储器(例如，动态随机存取存储器(DRAM))等等)。一般而言，系统存储器804和/或大容量存储设备806可以是任何类型的暂时的和/或持久性的存储，包括但不限于，易失性和非易失性存储器、光学的、磁性的和/或固态大容量存储等等。易失性存储器可包括但不限于静态和/或动态随机存取存储器。非易失性存储器可包括但不限于电可擦除可编程只读存储器、相变存储器、电阻存储器等等。系统存储器804和/或大容量存储设备806可包括被配置成用于执行与装置100有关的操作的编程指令的相应副本，例如，它们被共同表示为计算逻辑822。

计算设备800可进一步包括输入/输出(I/O)设备808(诸如，显示器(例如，图1的显示器132)、软键盘、触敏屏幕、图像捕捉设备，等等)和通信接口810(诸如，网络接口卡、调制解调器、红外接收机、无线电接收机(例如，近场通信(NFC)、蓝牙、WiFi、4G/8G长期演进(LTE)等等)。在实施例中，计算设备800可包括图1的装置100，或者包括图1的装置100的组件。在一些实施例中，如参考图1所描述，I/O设备可包括成像设备102(其可包括相机106和108)和投影仪104。

通信接口810可包括通信芯片(未示出)，该通信芯片可被配置成用于根据全球移动通信系统(GSM)、通用分组无线业务(GPRS)、通用移动电信系统(UMTS)、高速分组接入(HSPA)、演进的HSPA(E-HSPA)或LTE网络来操作设备800。通信芯片还可被配置为根据用于GSM演进的增强型数据(EDGE)、GSM EDGE无线电接入网络(GERAN)、通用陆地无线电接入网络(UTRAN)或演进的UTRAN(E-UTRAN)来操作。通信芯片可被配置为根据码分多址(CDMA)、时分多址(TDMA)、数字增强型无绳电信(DECT)、演进数据优化(EV-DO)、它们的衍生物以及被指定为3G、4G、5G及更高世代的任何其他无线协议来操作。在其他实施例中，通信接口810可根据其他无线协议操作。

以上所描述的计算设备800元件可经由系统总线812彼此耦合，该系统总线812可表示一个或多个总线。在多个总线的情况下，可由一个或多个总线桥(未示出)来桥接它们。这些元件中的每个元件可执行在本领域中的其已知的常规功能。具体而言，可采用系统存储器804和大容量存储设备806来存储实现与图1的装置100相关联的操作的编程指令的工作副本和永久副本。可由(多个)处理器802支持的汇编程序指令或可被编译成此类指令的高级语言来实现各种元件。

例如，可通过诸如紧凑盘(CD)之类的分发介质(未示出)或通过通信接口810(从分布式服务器(未示出))、在工厂中或在现场将计算逻辑822的编程指令的永久副本置于永久存储设备806中。即，可采用具有代理程序的实现的一个或多个非暂态分发介质来分发代理，并且对各计算设备进行编程。在实施例中，该分发介质可以是暂态的，例如，以指令进行编码的信号。

取决于计算设备800用作诸如机顶盒或台式计算机之类的固定计算设备还是诸如平板计算设备、膝上型计算机、游戏控制台或智能电话之类的移动计算设备，元件808、810、812的数量、能力和/或容量可变化。它们的构造以其他方式已知，并且因此将不进一步描述。

处理器802中的至少一个可与具有计算逻辑822的存储器封装在一起，该计算逻辑822被配置成用于实施参考图1-7所描述的实施例的诸方面。对于一个实施例，处理器802中的至少一个可与具有计算逻辑822的存储器封装在一起以形成系统级封装(SiP)或芯片上系统(SoC)。对于至少一个实施例，可采用SoC来形成图1的控制模块140。

在各实现方式中，计算设备800可包括膝上型计算机、上网本、笔记本、超极本、智能电话、平板、个人数字助理(PDA)、超移动PC、移动电话、台式计算机、服务器、打印机、扫描仪、监视器、机顶盒、游戏控制台、娱乐控制单元、数码相机、便携式音乐播放器或数字视频记录仪。在进一步的实现方式中，计算设备800可以是处理数据的以及利用由图1的装置100提供的对象的深度图像的任何其他电子设备。

下列段落描述各实施例的示例。

示例1可以是一种用于提供场景中的对象的深度图像的装置，包括：投影仪，用于在不同的时间实例对场景的不同部分执行光图案的受控引导；成像设备，与投影仪耦合，该成像设备用于响应于光图案投射在相应的部分上而生成场景的不同部分的多对图像，其中，用于生成多对图像包括：针对场景的部分，用于从第一视角获取对中的第一图像，并且从第二视角获取该对中的第二图像，其中，第一视角和第二视角是不同的视角；以及处理器，与投影仪和成像设备耦合，该处理器用于控制光图案的引导，并且至少部分地基于对场景的多个部分的所生成的多对图像的处理来生成该场景中的对象的深度图像。

示例2可包括如示例1所述的主题，其中，装置进一步包括与投影仪耦合的致动器，其中，处理器用于操作该致动器，以控制投影仪的运动，从而将光图案投射在场景周围。

示例3可包括如示例1所述的主题，其中，成像设备包括第一相机和第二相机，该第二相机设置在距第一相机一定距离处并与第一相机处于平面中，其中，第一视角和第二视角至少部分地由第一相机与第二相机之间的距离限定。

示例4可包括如示例1所述的主题，其中，成像设备包括相机，其中，该相机用于获取对中的第一图像或第二图像中的一个图像，并且处理器用于至少部分地基于在光图案投射在场景的相应部分的时间实例投影仪相对于场景的位置来生成该对中的第一图像或第二图像中的另一个图像。

示例5可包括如示例4所述的主题，其中，相机包括红外(IR)相机。

示例6可包括如示例1所述的主题，其中，光图案包括一个或多个光斑。

示例7可包括如示例1所述的主题，其中，投影仪用于在不同时间实例将光图案投射在场景的不同部分上包括用于：移动该投影仪，以便以随机的方式将光图案投射在场景周围。

示例8可包括如示例1所述的主题，其中，处理器用于处理所生成的多对图像，其中，用于处理包括：对于包括场景的部分的图像元素的至少一些所生成的图像对，针对该图像元素确定多个光强度值；标识该图像元素在至少一些所生成的图像对中的每个图像对中的相应图像中的对应位置；以及至少部分地基于所确定的多个强度值以及该图像元素的对应位置来生成对象的深度图像的至少部分。

示例9可包括如示例8所述的主题，其中，图像元素包括场景的部分的图像的一个或多个像素。

示例10可包括如示例8所述的主题，其中，投影仪用于执行受控引导包括用于：使得光图案在两个连续图像对的获取之间移动小于图像元素的尺寸的距离。

示例11可包括如示例1所述的主题，其中，处理器用于处理所生成的多对图像，其中，用于处理包括：在至少一些图像对中的至少一些第一图像和第二图像中标识场景的部分的特征；对于至少一些图像对中的每个图像对，针对该特征确定视差值；以及至少部分地基于该特征的所确定的视差值来生成对象的深度图像的至少部分，其中，该特征包括与第一图像或第二图像的图像元素相关联的预定的光强度值的集合。

示例12可包括如示例11所述的主题，其中，用于标识特征包括用于：从可由处理器访问的存储器检取指示特征的数据集；以及将所检取的特征数据集与同场景的部分的第一和第二图像相关联的对应的数据集进行比较。

示例13可包括如示例11所述的主题，其中，图像元素包括像素，其中，投影仪用于执行受控引导包括用于：使得光图案在两个连续图像对的获取之间移动小于该像素的尺寸的距离。

示例14可包括如示例11所述的主题，其中，用于处理进一步包括用于至少部分地基于视差值来针对特征检测不连续性。

示例15可以是一种用于提供场景中的对象的深度图像的计算设备实现的方法，该方法包括：由计算设备使得投影仪执行受控引导，以在不同的时间实例将光图案投射在场景的不同部分上；由计算设备接收由与投影仪耦合的成像设备响应于光图案投射在相应部分上而生成的场景的不同部分的多对图像，该接收步骤包括：针对该场景的部分，接收从第一视角获取的对中的第一图像，并且接收从第二视角获取的该对中的第二图像，其中，第一视角与所述第二视角是不同的视角；由计算设备处理该场景的多个部分的所生成的多对图像；以及由计算设备至少部分地基于处理的结果来生成场景中的对象的深度图像。

示例16可包括如示例15所述的主题，其中，处理步骤包括：对于包括场景的部分的图像元素的至少一些所生成的图像对，由计算设备针对该图像元素确定多个光强度值；由计算设备标识该图像元素在至少一些所生成的图像对中的每个图像对中的相应图像中的对应位置；以及由计算设备至少部分地基于所确定的多个强度值以及该图像元素的对应位置来生成对象的深度图像的至少部分。

示例17可包括如示例16所述的主题，其中，图像元素包括场景的部分的图像的一个或多个像素，其中，使得投影仪执行受控引导的步骤包括：由计算设备使得光图案在两个连续图像对的获取之间移动小于该图像元素的尺寸的距离。

示例18可包括如示例15所述的主题，其中，处理步骤包括：由计算设备在至少一些图像对中的至少一些第一图像和第二图像中标识场景的部分的特征；由计算设备对于至少一些图像对中的每个图像对、针对该特征确定视差值；以及由计算设备至少部分地基于该特征的所确定的视差值来生成对象的深度图像的至少部分，其中，该特征包括与第一图像或第二图像的图像元素相关联的预定的光强度值的集合。

示例19可包括如示例18所述的主题，其中，标识场景的部分的特征的步骤包括：由计算设备从可由处理器访问的存储器检取指示该特征的数据集；以及由计算设备将所检取的数据集与同场景的部分的第一和第二图像相关联的对应的数据集进行比较。

示例20可包括如示例18所述的主题，其中，图像元素包括像素，其中，使得投影仪执行受控引导的步骤包括：由计算设备使得光图案在两个连续图像对的获取之间移动小于该像素的尺寸的距离。

示例21可以是一种或多种非暂态计算设备可读介质，具有存储于其上的用于提供场景中的对象的深度图像的指令，这些指令响应于在计算设备上执行而使得该计算设备：使得投影仪执行受控引导，以在不同的时间实例将光图案投射在场景的不同部分上；接收由与投影仪耦合的成像设备响应于光图案投射在相应部分上而生成场景的不同部分的多对图像，该接收包括：针对该场景的部分，接收从第一视角获取的对中的第一图像，并且接收从第二视角获取的该对中的第二图像，其中，第一视角与所述第二视角是不同的视角；处理该场景的部分的所生成的多对图像；以及至少部分地基于处理的结果来生成场景中的对象的深度图像。

示例22可包括如示例21所述的主题，其中，使得计算设备处理场景的部分的所生成的多对图像的指令进一步使得该计算设备：对于包括场景的部分的图像元素的至少一些所生成的图像对，针对该图像元素确定多个光强度值；标识该图像元素在至少一些所生成的图像对中的每个图像对中的相应图像中的对应位置；以及至少部分地基于所确定的多个强度值以及该图像元素的对应位置来生成对象的深度图像的至少部分。

示例23可包括如示例22所述的主题，其中，图像元素包括场景的部分的图像的一个或多个像素，其中，使得投影仪执行受控引导的指令进一步使得计算设备发起光图案在两个连续图像对的获取之间移动小于该图像元素的尺寸的距离。

示例24可包括如示例21所述的主题，其中，使得计算设备处理场景的多个部分的所生成的多对图像的指令进一步使得该计算设备：在至少一些图像对中的至少一些第一图像和第二图像中标识场景的部分的特征；对于至少一些图像对中的每个图像对，针对该特征确定视差值；以及至少部分地基于该特征的所确定的视差值来生成对象的深度图像的至少部分，其中，该特征包括与第一图像或第二图像的图像元素相关联的预定的光强度值的集合。

示例25可包括如示例24所述的主题，其中，使得计算设备标识场景的部分的特征的指令进一步使得该计算设备：从可由处理器访问的存储器检取指示该特征的数据集；以及将所检取的特征数据集与同场景的部分的第一和第二图像相关联的对应的数据集进行比较。

示例26可以是一种用于提供场景中的对象的深度图像的设备，该设备包括：用于使得投影仪执行受控引导以在不同的时间实例将光图案投射在场景的不同部分上的装置；用于接收由与投影仪耦合的成像设备响应于光图案投射在相应部分上而生成的场景的不同部分的多对图像的装置，该接收包括：针对该场景的部分，接收从第一视角获取的对中的第一图像，并且接收从第二视角获取的该对中的第二图像，其中，第一视角与所述第二视角是不同的视角；用于处理该场景的多个部分的所生成的多对图像的装置；以及用于至少部分地基于处理的结果来生成场景中的对象的深度图像的装置。

示例27可包括如示例26所述的主题，其中，用于处理的装置包括：用于对于包括场景的部分的图像元素的至少一些所生成的图像对、针对该图像元素确定多个光强度值的装置；用于标识该图像元素在至少一些所生成的图像对中的每个图像对中的相应图像中的对应位置的装置；以及用于至少部分地基于所确定的多个强度值以及该图像元素的对应位置来生成对象的深度图像的至少部分的装置。

示例28可包括如示例27所述的主题，其中，图像元素包括场景的部分的图像的一个或多个像素，其中，用于使得投影仪执行受控引导的装置包括用于使得光图案在两个连续图像对的获取之间移动小于该图像元素的尺寸的距离的装置。

示例29可包括如示例26所述的主题，其中，用于处理的装置包括：用于在至少一些图像对中的至少一些第一图像和第二图像中标识场景的部分的特征的装置；用于对于至少一些图像对中的每个图像对针对该特征确定视差值的装置；以及用于至少部分地基于该特征的所确定的视差值来生成对象的深度图像的至少部分的装置，其中，该特征包括与第一图像或第二图像的图像元素相关联的预定的光强度值的集合。

示例30可包括如示例29所述的主题，其中，用于标识场景的部分的特征的装置包括：用于从可由处理器访问的存储器检取指示该特征的数据集的装置；以及用于将所检取的特征数据集与同场景的部分的第一和第二图像相关联的对应的数据集进行比较的装置。

示例31可包括如示例29所述的主题，其中，图像元素包括像素，其中，用于使得投影仪执行受控引导的装置包括用于使得光图案在两个连续图像对的获取之间移动小于该像素的尺寸的距离的装置。

虽然出于描述的目的已经说明和描述了某些实施例，但经计算以实现相同目的的各种各样的替代和/或等价实施例或实现方式可替代所示和所描述的实施例，而不背离本公开的范围。本申请旨在涵盖本文中讨论的实施例的任何改编或变型。因此，明确地旨在仅由权利要求来限定本文中所描述的实施例。

Claims

1.一种用于提供场景中的对象的深度图像的装置，包括：

投影仪，用于在不同的时间实例对所述场景的不同部分执行光图案的受控引导；

成像设备，与所述投影仪耦合，所述成像设备用于响应于所述光图案投射在相应的部分上而生成所述场景的所述不同部分的多对图像，其中，用于生成多对图像包括：针对所述场景的部分，用于从第一视角获取对中的第一图像，并且从第二视角获取所述对中的第二图像，其中，所述第一视角和所述第二视角是不同的视角；以及

处理器，与所述投影仪和所述成像设备耦合，所述处理器用于控制所述光图案的所述引导，并且至少部分地基于对所述场景的多个部分的所生成的多对图像的处理来生成所述场景中的所述对象的所述深度图像，

其中，所述投影仪用于执行受控引导包括用于：使得所述光图案在两个连续图像对的获取之间移动小于所述场景的部分的图像元素的尺寸的距离。

2.如权利要求1所述的装置，其中，所述装置进一步包括与所述投影仪耦合的致动器，其中，所述处理器用于操作所述致动器，以控制所述投影仪的运动，从而将所述光图案投射在所述场景周围。

3.如权利要求1所述的装置，其中，所述成像设备包括第一相机和第二相机，所述第二相机设置在距所述第一相机一定距离处并与所述第一相机处于平面中，其中，所述第一视角和所述第二视角至少部分地由所述第一相机与所述第二相机之间的距离来限定。

4.如权利要求1所述的装置，其中，所述成像设备包括相机，其中，所述相机用于获取所述对中的所述第一图像或所述第二图像中的一个图像，并且所述处理器用于：在所述光图案投射在所述场景的相应部分的时间实例，至少部分地基于所述投影仪相对于所述场景的位置来生成所述对中的所述第一图像或所述第二图像中的另一个图像。

5.如权利要求4所述的装置，其中，所述相机包括红外(IR)相机。

6.如权利要求1所述的装置，其中，所述光图案包括一个或多个光斑。

7.如权利要求1所述的装置，其中，所述投影仪用于在不同时间实例将光图案投射在场景的不同部分上包括：用于移动所述投影仪，以便以随机的方式将所述光图案投射在所述场景周围。

8.如权利要求1所述的装置，其中，所述处理器用于处理所生成的多对图像，其中，用于处理包括：

对于包括所述图像元素的至少一些所生成的图像对，针对所述图像元素确定多个光强度值；

标识所述图像元素在所述至少一些所生成的图像对中的每个图像对中的相应图像中的对应位置；以及

至少部分地基于所确定的多个强度值以及所述图像元素的对应位置来生成所述对象的所述深度图像的至少部分。

9.如权利要求8所述的装置，其中，所述图像元素包括所述场景的部分的图像的一个或多个像素。

10.如权利要求1所述的装置，其中，所述处理器用于处理所生成的多对图像，其中，用于处理包括：

在至少一些图像对中的至少一些第一图像和第二图像中标识所述场景的部分的特征；

对于所述至少一些图像对中的每个图像对，针对所述特征确定视差值；以及

至少部分地基于所述特征的所确定的视差值来生成所述对象的所述深度图像的至少部分，

其中，所述特征包括与所述第一图像或所述第二图像的图像元素相关联的预定的光强度值的集合。

11.如权利要求10所述的装置，其中，用于标识特征包括用于：

从能由所述处理器访问的存储器检取指示所述特征的数据集；以及

将所检取的特征数据集与同所述场景的部分的所述第一图像和所述第二图像相关联的对应的数据集进行比较。

12.如权利要求10所述的装置，其中，所述图像元素包括像素，其中，所述投影仪用于执行受控引导包括用于：使得所述光图案在两个连续图像对的获取之间移动小于所述像素的尺寸的距离。

13.如权利要求10所述的装置，其中，用于处理进一步包括用于：至少部分地基于所述视差值来针对所述特征检测不连续性。

14.一种用于提供场景中的对象的深度图像的计算设备实现的方法，包括：

由计算设备使得投影仪执行受控引导，以在不同的时间实例将光图案投射在所述场景的不同部分上；

由所述计算设备接收由与所述投影仪耦合的成像设备响应于所述光图案投射在相应部分上而生成的所述场景的所述不同部分的多对图像，所述接收步骤包括：针对所述场景的部分，接收从第一视角获取的对中的第一图像，并且接收从第二视角获取的所述对中的第二图像，其中，所述第一视角与所述第二视角是不同的视角；

由所述计算设备处理所述场景的多个部分的所生成的多对图像；以及

由所述计算设备至少部分地基于所述处理的结果来生成所述场景中的所述对象的所述深度图像，

其中，使得投影仪执行受控引导的步骤包括：由所述计算设备使得所述光图案在两个连续图像对的获取之间移动小于所述场景的部分的图像元素的尺寸的距离。

15.如权利要求14所述的计算设备实现的方法，其中，处理步骤包括：

由所述计算设备对于包括所述图像元素的至少一些所生成的图像对、针对所述图像元素确定多个光强度值；

由所述计算设备标识所述图像元素在所述至少一些所生成的图像对中的每个图像对中的相应图像中的对应位置；以及

由所述计算设备至少部分地基于所确定的多个强度值以及所述图像元素的对应位置来生成所述对象的所述深度图像的至少部分。

16.如权利要求15所述的计算设备实现的方法，其中，所述图像元素包括所述场景的部分的图像的一个或多个像素。

17.如权利要求14所述的计算设备实现的方法，其中，处理步骤包括：

由所述计算设备在至少一些图像对中的至少一些第一图像和第二图像中标识所述场景的部分的特征；

由所述计算设备对于所述至少一些图像对中的每个图像对、针对所述特征确定视差值；以及

由所述计算设备至少部分地基于所述特征的所确定的视差值来生成所述对象的所述深度图像的至少部分，

18.如权利要求17所述的计算设备实现的方法，其中，标识所述场景的部分的特征的步骤包括：

由所述计算设备从能由处理器访问的存储器检取指示所述特征的数据集；以及

由所述计算设备将所检取的特征数据集与同所述场景的部分的所述第一图像和所述第二图像相关联的对应的数据集进行比较。

19.如权利要求17所述的计算设备实现的方法，其中，所述图像元素包括像素，其中，使得所述投影仪执行受控引导的步骤包括：由所述计算设备使得所述光图案在两个连续图像对的获取之间移动小于所述像素的尺寸的距离。

20.一种用于提供场景中的对象的深度图像的设备，包括：

用于使得投影仪执行受控引导以在不同的时间实例将光图案投射在所述场景的不同部分上的装置；

用于接收由与所述投影仪耦合的成像设备响应于所述光图案投射在相应部分上而生成的所述场景的所述不同部分的多对图像的装置，所述接收包括：针对所述场景的部分，接收从第一视角获取的对中的第一图像，并且接收从第二视角获取的所述对中的第二图像，其中，所述第一视角与所述第二视角是不同的视角；

用于处理所述场景的多个部分的所生成的多对图像的装置；以及

用于至少部分地基于所述处理的结果来生成所述场景中的所述对象的所述深度图像的装置，

其中，用于使得投影仪执行受控引导的装置包括：用于使得所述光图案在两个连续图像对的获取之间移动小于所述场景的部分的图像元素的尺寸的距离的装置。

21.如权利要求20所述的设备，其中，用于处理的装置包括：

用于对于包括所述图像元素的至少一些所生成的图像对、针对所述图像元素确定多个光强度值的装置；

用于标识所述图像元素在所述至少一些所生成的图像对中的每个图像对中的相应图像中的对应位置的装置；以及

用于至少部分地基于所确定的多个强度值以及所述图像元素的对应位置来生成所述对象的所述深度图像的至少部分的装置。

22.如权利要求21所述的设备，其中，所述图像元素包括所述场景的部分的图像的一个或多个像素。

23.如权利要求20所述的设备，其中，用于处理的装置包括：

用于在至少一些图像对中的至少一些第一图像和第二图像中标识所述场景的部分的特征的装置；

用于对于所述至少一些图像对中的每个图像对、针对所述特征确定视差值的装置；以及

用于至少部分地基于所述特征的所确定的视差值来生成所述对象的所述深度图像的至少部分的装置，

24.如权利要求23所述的设备，其中，用于标识所述场景的部分的特征的装置包括：

用于从能由处理器访问的存储器检取指示所述特征的数据集的装置；以及

用于将所检取的特征数据集与同所述场景的部分的所述第一图像和所述第二图像相关联的对应的数据集进行比较的装置。