CN107111746B

CN107111746B - 根据原始飞行时间图像的模型拟合

Info

Publication number: CN107111746B
Application number: CN201580059389.XA
Authority: CN
Inventors: A·W·菲兹吉邦; P·科利; R·S·B·诺沃津; T·夏普; J·D·J·肖顿; J·J·泰勒; S·伊扎迪
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-10-30
Filing date: 2015-10-27
Publication date: 2020-10-23
Anticipated expiration: 2035-10-27
Also published as: EP3213254A1; US20160127715A1; WO2016069509A1; US10110881B2; CN107111746A

Abstract

描述了根据原始飞行时间图像数据的模型拟合，其用于例如追踪人手或其他实体的位置和取向。在各种示例中，从飞行时间相机接收描绘实体的原始图像数据。访问实体的3D模型，并且使用3D模型从3D模型中渲染描绘具有规定姿势/形状的实体的原始飞行时间图像数据的模拟。比较模拟的原始图像数据和所接收的原始图像数据的至少部分，并且基于比较来计算实体的参数。

Description

根据原始飞行时间图像的模型拟合

背景技术

飞行时间(TOF)相机越来越多地用于各种应用中，例如人机交互、汽车应用、测量应用和机器视觉。TOF相机可以用于生成深度图，其包含与场景中的对象到相机的深度相关的信息。深度是指距离在从相机延伸的假想线上的投影，其中距离是绝对径向距离。TOF相机处的光源照亮场景，并且光被场景中的对象反射。相机接收反射光，该反射光取决于对象到相机的距离，并且经历延迟。假设光速是已知的，则可以生成深度图。

以下描述的实施例不限于解决已知飞行时间相机或飞行时间图像处理系统的任何或所有缺点的实现。

发明内容

以下呈现本公开的简要概述，以便向读者提供基本理解。该概述不是本公开的全面综述，并且不标识关键/重要的元件或描绘本说明书的范围。其唯一目的是以简化的形式呈现本文中所公开的概念的选择，作为稍后呈现的更详细描述的序言。

描述了根据原始飞行时间图像数据的模型拟合，其用于例如追踪人手或其他实体的位置、取向、形状中的任一种。在各种示例中，从飞行时间相机接收描绘实体的原始图像数据。访问实体的3D模型，并且利用模型的规定参数值使用3D模型并从3D模型渲染描绘实体的原始飞行时间图像数据的模拟。比较模拟的原始图像数据和所接收的原始图像数据的至少部分，并且基于比较来计算实体的参数。

很多伴随的特征将更容易理解，因为这些特征通过参考结合附图考虑的以下详细描述会变得更好理解。

附图说明

从根据附图阅读的以下详细描述将能更好地理解本说明书，在附图中：

图1是捕获在环境中的用户的手的原始图像数据的飞行时间相机、以及根据原始飞行时间图像数据来计算手的参数的追踪器的示意图；

图2是图1的追踪器的更详细的示意图；

图3是图2的模型拟合引擎的更详细的示意图；

图4是在诸如图2的比较部件处的方法的流程图；

图5是在渲染器处的用于渲染合成的原始飞行时间图像的方法的流程图；

图6是飞行时间相机的示意图；

图7是在图6的飞行时间相机处计算3D模型参数的方法的流程图；以及

图8示出了其中可以实现追踪器和可选的深度图计算逻辑的实施例的基于计算的示例性设备。

相同的附图标记在附图中用于表示相同的部件。

具体实施方式

以下结合附图提供的详细描述旨在作为对本示例的描述，而非旨在表示可以构造或利用本示例的仅有形式。该描述阐述了示例的功能以及用于构造和操作示例的步骤序列。然而，相同或等同的功能和序列可以通过不同的示例来实现。

图1是捕捉在环境中作出复杂手势的用户的手106的原始图像数据108的飞行时间相机100、以及根据由相机100捕获的原始飞行时间数据108的帧计算手的姿势和/或形状114的追踪器112的示意图。在该示例中，示出了一只手106。然而，实际上，在相机100的视野中可以存在任何一个或多个对象或对象的部分。例如，在场景中可以存在来自一个或多个用户的多个手。在另一示例中，游戏的玩家的身体姿势被追踪器追踪。在另一示例中，诸如咖啡杯等对象在相机的视场中，并且计算其姿势和/或形状。

尽管图1的示例涉及用户手的追踪参数，但是本文中所描述的方法和装置也可以用于追踪其他实体的3D模型参数，诸如面部、整个身体、或者其他刚性或可变形对象。

通过直接根据原始飞行时间图像计算姿势和/或形状(或其他3D模型参数)，而不需要根据原始飞行时间数据计算深度，获得了各种益处。例如，可以增加3D模型参数追踪的速度，因为直接根据原始飞行时间计算姿势、形状或其他参数可以比根据原始飞行时间计算深度并且然后使用深度来计算姿势或形状或其他量的计算密集度更小。提高了3D模型参数追踪的准确性。这是因为原始飞行时间图像通常比根据原始飞行时间图像计算的深度图具有更少的噪声。通过直接根据原始飞行时间图像计算参数，减小了噪声对所得到的追踪参数的影响。

对象或对象的一部分的3D模型的参数至少包括姿势参数和/或形状参数。术语“姿势”用于指代对象或对象的一部分的全局位置和全局取向。在诸如手或人体等关节式对象的情况下，姿势还可以包括关节式运动对象的运动学模型的多个关节角度。例如，根据所使用的运动学手模型的细节和复杂性，手姿势可以包括多于10或多于20个自由度。在一些示例中，姿势被表示为姿势参数的矢量。

在本文中认识到，根据原始传感器数据112计算深度在诸如存储器和处理能力等计算资源方面以及在时间方面是资源密集型的。图1的新处理流水线使得能够以更有效的方式分配计算资源和存储器。这是通过使追踪器112能够将正被追踪的实体的3D模型直接拟合到原始飞行时间图像数据而不需要计算深度来实现的。

根据飞行时间传感器的原始图像是多个传感器测量值，诸如照明强度值、快门定时、相位测量。在使用相位调制飞行时间相机的示例中，可以针对飞行时间传感器的单个帧感测多个原始图像，多个调制频率中的每个调制频率一个原始图像。在使用门控飞行时间相机的示例中，可以针对飞行时间传感器的单个帧感测多个原始图像，多个原始图像中的每个用于多个曝光时间中的一个。在一些示例中，来自飞行时间传感器的原始图像是在飞行时间相机的主动照明关闭的期间捕获光的环境图像。

来自追踪器112的参数值114被输入到下游系统116，诸如自然用户界面120、游戏系统118、增强现实系统122或姿势识别系统124。这些仅是示例，可以使用其他下游系统116。在图1的示例中，参数值114是姿势和/或形状参数。然而，可以使用其他类型的参数。

追踪器112可以与飞行时间相机100整体或部分地集成。追踪器112可以是诸如PC、智能电话、平板计算机或膝上型计算机等终端用户计算设备的一部分。在一些示例中，追踪器112中的部分或全部位于云中，并且可由诸如终端用户计算设备等的终端用户设备访问。

在图1所示的示例中，为了清楚起见，追踪器112被示出为在飞行时间相机100外部。然而，追踪器112可以与飞行时间相机整体或部分地整合。这将在下面参考图6进行说明。在其他示例中，追踪器112在能够例如使用有线或无线通信链路或以其它方式从飞行时间相机接收数据的计算设备(诸如图8的计算设备)中。在一些示例中，追踪器位于云中的计算设备处。

飞行时间相机100可以是相位调制飞行时间相机，或使用快门定时的门控飞行时间相机。其包括光源102和接收器104。也可以使用其他类型的飞行时间相机。

在相位调制飞行时间相机的情况下，光源102发射调制光。在示例中，调制光源102可以是发射用调制频率为f_mod的信号调制的透射光106的非相干光源。在示例中，来自设备的光可以以高频(例如在MHz范围内)被调制，使得照明量周期性地改变。在示例中，照明的周期性变化可以采用正弦函数的形式。

在相位调制飞行时间示例中，调制光源102以多个调制频率(例如三个调制频率)发射光。可以选择光源102，使得发射的光的波长对于特定应用是最合适的波长。在示例中，光源可以是不可见光源，例如，近红外光源。在另一示例中，光源可以是可见光源。在实施例中，光源可以被选择为具有用于其预期的应用的适当波长的光源。

在门控(也称为基于脉冲的)飞行时间相机的情况下，光源102发射极短的照明脉冲。例如使用发射皮秒持续时间的光脉冲的强大的激光光源。在门控飞行时间相机的情况下，接收器104包括具有能够分辨光源102的短脉冲的分辨率的高速距离传感器。例如，接收器104具有皮秒分辨率。

光源102可以照明在相机的视场内的对象106，并且至少一些光从对象被朝向相机反射回来。在示例中，检测到的对象可以是人或人的一部分，如图1的示例；然而，可以计算任何对象或对象的一部分的参数。反射光110可以由接收器104检测。

在相位调制飞行时间中，反射光也被调制，并且由于光在相机和对象之间的返回行程上行进的距离引起的延迟，反射光110可以与透射光不同相。在相位调制飞行时间中，可以为每个记录的通道确定接收机104的每个像素、相对于发射光的接收信号的幅度和相位差。可以使用三个或另一数目的记录通道，每个通道具有其自己的相移。

在门控飞行时间中，针对一个或多个不同的曝光周期来测量接收器104的像素寄存的反射光的量。曝光周期是飞行时间相机100的光电传感器的像素主动感测(与“关闭”相对)的时间间隔。在曝光周期期间从视场中的表面反射的光的量用于计算表面到相机的距离。这可以通过将所感测的反射光的量与在校准过程期间获得的相机行为的模型进行比较来完成。

图2是诸如图1的追踪器等计算机实现的追踪器202的示意图。追踪器202将原始飞行时间数据200的至少一帧作为输入。在一些示例中，输入的是帧流。输入帧来自至少一个捕获设备208，捕获设备208包括至少一个飞行时间相机，并且还可以包括其他类型的相机，诸如RGB视频相机。

追踪器202产生所追踪的参数值218的流作为输出，其中参数是图像中描绘的实体的3D模型的参数。例如，参数可以是姿势或形状。在示例中，姿势被表示为值的矢量(或其他格式)，被追踪的姿势的每个自由度有一个值。例如，10个或更多个、或20个或更多个值。在一个示例中，姿势向量包括用于全局旋转分量的3个自由度、用于全局平移分量的3个自由度、和用于多个关节变换中的每个的4个自由度。关节变换可以在手的运动学模型中规定，其可以是或可以不是解剖学上有效的。

在一些示例中，模型参数218包括被参数化为运动模型的关节上的直接缩放的形状参数。在一些示例中，模型参数218包括使用包含对应于全局大小、手指厚度、手指长度或其他量的自由度的参数形状基础的形状参数。

在一些示例中，追踪器202将输出发送到显示器104，诸如图1所示的显示器，尽管这不是必需的。输出可以包括正被追踪的对象的合成图像，其根据当前追踪的姿势和/或对象的形状从3D模型渲染。

追踪器202包括感兴趣区域部件204(其是可选的)、模型拟合引擎206、渲染器212和正被追踪的对象类型的3D模型210。

感兴趣区域部件204处理原始数据，例如，以提取描绘用户的手或身体或其他感兴趣对象的前景区域。可以使用任何公知的前景提取技术。例如，前景提取技术可以使用由捕捉设备102捕捉的彩色图像中的颜色信息来检测和提取描绘用户的手的图像元素。

3D模型210是要追踪参数的对象类型的任何3D模型。在多种类型的对象的情况下可以存在多于一个3D模型。在一些示例中，3D模型是三角形网格模型，但是可以使用其他类型的3D模型。

渲染器212可以使用图形处理单元或任何其它合适的技术来实现。渲染器是新类型的渲染器，其能够使用候选参数值从3D模型210渲染合成的原始飞行时间图像。在一些示例中，3D模型是具有基本姿势的手或身体的三角形网格模型，但是可以使用其他类型的3D模型。下面参考图5更详细地描述渲染器。

模型拟合引擎206使用比较过程以在3D模型210和观察到的原始飞行时间数据200之间搜索良好的拟合。例如，通过从模型渲染合成的原始飞行时间图像，并且将它们与观察到的原始飞行时间数据进行比较。

替代地或另外地，追踪器的功能可以至少部分地由一个或多个硬件逻辑部件执行。例如但不限于，可以使用的硬件逻辑部件的说明性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)、图形处理单元(GPU)。

参考图3，模型拟合引擎206包括比较部件300、搜索过程302和可选的候选解预测器304。模型拟合引擎可以访问3D模型210并且与渲染器212通信。它接收原始飞行时间数据108，其可以是原始飞行时间数据的整个帧或从原始飞行时间数据提取的感兴趣区域。其针对飞行时间数据108的每一帧计算在飞行时间数据中描绘的对象的参数值218。

搜索过程302搜索可能的参数值以找到好的解。使用比较部件300进行参数值集合的质量的评估。

比较部件300使用距离度量或距离函数来评估模型210和观察到的原始飞行时间数据对特定参数值集合的一致程度。例如，度量可以包括计算在图像像素上的渲染图像和观察图像之间的绝对差值或平方差的和。在一些示例中，总和应用有鲁棒惩罚项，例如Geman-McClure或Cauchy，以帮助减少异常值的影响。在另一示例中，距离度量与逐像素的L1范数或L2范数相关。稍后给出关于比较部件的更多细节。

搜索302可以包括一个或多个搜索算法以便于搜索良好的参数值集合。例如，搜索过程可以使用随机优化器，其是用于通过迭代地优化候选参数池和随机生成候选值来从该池中找到参数值的良好候选集合的迭代过程。在一些示例中，随机优化器可以是粒子群优化器、遗传算法处理、粒子群优化器和遗传算法处理的混合、或迭代地优化候选值池的任何其他随机优化器。粒子群优化器是一种通过以考虑其他候选解(群中的粒子)的方式迭代地尝试改进候选解来搜索对问题的解的方式。根据数学公式，在搜索空间中移动被称为粒子的候选解的群体。每个粒子的运动受其局部最佳已知位置的影响，但是也被引导到搜索空间中的最好的已知位置，其随着其它粒子找到更好的位置而更新。这预计会将群体向最佳解移动。遗传算法过程是一种通过使用继承、拼接和其他由进化启发的技术生成候选解来搜索问题的解的方式。

搜索过程可以采用基于梯度的优化器，例如Levenberg-Marquart算法或L-BFGS。然而，这不是必要的。

搜索过程可以搜索随机生成的(如上所述)和/或由候选解预测器304预测的候选参数值。例如，候选解预测器可以使用根据在先帧计算的关于姿势和/或形状的历史数据，并且干扰历史姿势和/或形状以创建预测姿势和/或形状。在另一示例中，候选解预测器可以使用运动模型，该运动模型描述预期被追踪的对象将如何移动。运动模型可以用于预测候选姿势解。在另一示例中，候选解预测器通过使用机器学习部件来预测候选姿势和/或候选形状，机器学习部件已经被训练以学习原始飞行时间数据与在原始飞行时间数据中描绘的对象的姿势和/或形状之间的关联。

图4是在比较部件处的方法的流程图。它接收400观察到的原始飞行时间数据的感兴趣区域。比较部件将期望比较的参数值(或质量分数)发送402给渲染器，并且作为响应接收一个或多个合成原始图像。例如，其可以接收用于单个通道(其中通道是调制频率或曝光周期)的一个合成原始图像，或者可以接收与一个合成帧相关联的不同通道的多个合成原始图像。

在一些示例中，比较部件缩减404观察到的原始飞行时间数据，以便减少观察到的原始飞行时间数据中的噪声。然而，缩减不是必需的。在一些示例中，比较部件对观察到的原始飞行时间数据进行子采样。然而，子采样不是必需的。在一些示例中，通过将飞行时间相机布置为仅捕获原始数据的子采样——即通过仅使传感器的像素位置的子样本有效来节省功率。

比较部件计算406观察到的原始飞行时间数据(其可能已经缩减或子采样)和合成原始图像之间的比较度量。在存在用于不同通道的多个合成原始图像的情况下，将观察到的数据依次与每个合成原始图像进行比较，并且聚合结果。或者，首先聚合合成原始图像，然后进行比较。

现在参考图5给出关于渲染器212的更多细节。渲染器可以根据以下公式计算合成原始飞行时间图像：

其可以被文字表述为：渲染器212输出的渲染图像

(其中渲染器使用参数d(表示深度)和ρ(表示表面反射率))，等于表面反射率乘以飞行时间相机的理想响应(表示为

)。飞行时间相机的理想响应是描述在没有噪声的情况下随着反射接收到的光的表面到传感器的距离d的变化相机传感器输出如何行为的函数。

在实践中，存在噪声。因此，在一些示例中，渲染器212通过向渲染图像添加噪声来考虑噪声，并且这可以表示为

然而，考虑噪声不是必要的。

噪声至少包括由于接收到的光的量化性质而发生的并且不能被减少的随机散粒噪声、和作为将在相机传感器处接收的模拟信号转换为数字信号的结果而发生的读取噪声。也可以存在其他类型的噪声。在本文中，这些类型的噪声中的所有或一些可以由符号ε表示。合成噪声ε的散粒噪声分量可以由渲染器212已知。例如，散粒噪声分量在飞行时间相机的制造期间的校准阶段期间计算。读取噪声例如根据传感器的像素的尺寸、传感器中使用的半导体的类型以及环境温度和其他环境条件而变化。在一些示例中，渲染器212使用考虑读取噪声和散粒噪声两者的噪声模型。例如，可以使用泊松-高斯噪声模型或任何其它合适的噪声模型。

表面反射率ρ取决于光从其反射到飞行时间相机中的表面的材料的特性以及相对于光源和相机位置的表面取向。渲染器212可以具有用于不同类型的表面(例如皮肤、头发、衣服、地毯、发光地板砖、层压桌面等)的表面反射率函数的库。这些函数值通常都小于1，因为大多数家用材料反射的光比它们接收的光少。3D模型可以与关于表面类型的信息相关联，使得渲染器能够根据被建模的表面的类型查找适当的表面反射率值。

渲染器接收诸如姿势和可选地还有形状参数等参数500，并且访问502 3D模型。它使用公知的渲染器技术计算504合成深度图。在一些示例中，渲染器212在计算合成深度图时考虑遮挡。这是使用众所周知的渲染器技术(例如z缓冲或画家算法)实现的。深度图是其中每个像素包括表示从相机到由相机观看的场景中的表面的距离的深度值的图像。合成深度图提供上述公式中的值d。渲染器212然后能够访问表面反射率506(例如，使用纹理映射)、噪声模型508(如果使用的话)和相机响应510。渲染器在上述公式中使用该数据来计算512多个合成的原始飞行时间图像

例如，在门控飞行时间相机的情况下，多个不同曝光周期中的每个曝光时间一个。例如，在相位调制飞行时间相机的情况下，针对多个不同相移中的每个相移一个。在不同曝光周期的情况下，渲染器对于不同的曝光周期使用不同的理想相机响应。在不同调制频率的情况下，渲染器针对不同调制频率使用不同的理想相机响应。对于不同的记录通道，理想的相机响应是不同的，因为记录通道相对于发射光处于不同的相位/频率。所有记录通道的噪声可能不同。

在示例中，噪声模型N用于规定在给定由通道i的渲染器渲染的图像的情况下在通道i上观察到的飞行时间数据

对于理想无噪声响应Ri的似然性。

在本文中的数学表达式中，～符号表示“从...模拟”，其表示概率分布的实现样本。

比较部件可以通过如下计算最大似然来比较观察到的飞行时间数据和合成数据：

对于姿势参数θ，最大化在感兴趣区域内的像素上的、在通道的总数上的、作为观察到的原始飞行时间数据的参数给出的噪声模型N的输出的对数的和，以及渲染器的输出。。

随着计算合成原始飞行时间数据的过程的复杂性增加，存在增加的计算负担。因此，在一些示例中，省略了计算合成原始飞行时间数据的过程的以下方面中的一个或多个：

表面反射率

相机的噪声模型

以便权衡精度与追踪速度。

在一些示例中，渲染器212基于光线追踪而不是上面参考图5描述的过程，给出原始飞行时间图像的更详细的模拟。在这种情况下，不直接计算深度图。在该示例中，渲染器212计算被发射到场景中、被反弹离开3D模型或已知处于场景中的其他表面并且最终反射回飞行时间传感器的模拟光线。渲染器212处的光线追踪器记录每个光线所行进的距离，并且计算相机响应或相位偏移的估计。这实现了噪声效应，诸如多径反射，因此给出了准确的结果。

图6是飞行时间深度相机600的示意图，其可以是相位调制飞行时间深度相机或门控飞行时间深度。飞行时间相机600包括传输光源602。在示例中，传输光源是非相干光源。在另一示例中，传输光源是相干光源。适当的光源的示例是近红外激光器或LED，然而可以使用另一适当的光源。在相位调制飞行时间相机的情况下，透射光可以以调制频率被调制。在示例中，调制频率可以是在kHz-GHz范围内的RF频率，例如调制频率可以在MHz范围内。在门控飞行时间相机的情况下，透射光可以是脉冲的，其中脉冲可以具有皮秒持续时间。

飞行时间深度相机还可以包括接收从场景内的对象反射的光的图像传感器604。图像传感器604可以包括CCD传感器、CMOS传感器，例如光子混合器装置(PMD)传感器或其他适当的传感器，其可以被布置成检测从相机范围内的对象、人和表面反射的光。在门控飞行时间相机的情况下，图像传感器604具有与由光源发射的脉冲的持续时间相容的分辨率。

相机还可以包括光学系统606，其被布置成收集来自环境的反射光并且将其聚焦到图像传感器604上。在示例中，光学系统可以包括光学带通滤波器，其可以仅使得与光源具有相同波长的光被传感器接收。使用光学带通滤波器可以帮助抑制背景光。相机还可以包括驱动器电子装置608，其控制光源和图像传感器二者，例如以使得能够进行高精度的相位差测量，或者使得能够发射一串光脉冲，并且使得图像传感器能够“快门”开关。图像传感器可以电子地快门开关而不具有物理快门。

在一个示例中，相机可以包括计算逻辑610。在实施例中，计算逻辑可以被布置为执行本文中参考图4、图5和图7描述的方法。

计算逻辑还可以包括集成的深度图计算逻辑612和追踪器614。在示例中，深度图计算逻辑612可以被布置成根据光源发射的光和在接收器处接收的光之间的相位差来估计对象的距离。在另一示例中，深度图计算逻辑612可以被布置成根据在曝光周期期间感测的光量与相机的行为的模型之间的相似性来估计对象的距离。

替代地或另外地，图6的功能可以至少部分地由一个或多个硬件逻辑部件执行。例如而非限制，可以使用的硬件逻辑部件的说明性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、系统级芯片系统(SOC)、复杂可编程逻辑器件(CPLD)、图形处理单元(GPU)。

图7是操作图6的飞行时间相机的方法的流程图。飞行时间深度相机处的光源照亮700一个或多个附近对象。在相位调制飞行时间相机的情况下，光源以一个或多个频率被调制。在门控飞行时间相机的情况下，光源是脉冲的。接收702从附近对象反射的光。接收原始传感器数据。在相位调制飞行时间相机的情况下，原始传感器数据包括例如至少一个调制频率的红外强度图像。在这种情况下，根据强度图像计算704幅度和相位测量。

在门控飞行时间相机的情况下，原始传感器数据包括在至少一个曝光周期的红外强度图像。在这种情况下，省略步骤704。

在一些示例中，在单个帧的原始传感器数据包括多个不同通道上的图像的情况下，可以跨越通道聚合图像。聚合的数据然后可以用于模型拟合处理。

在其他示例中，如果单个帧的原始传感器数据包括多个不同通道上的图像，则对每个通道分别进行模型拟合(即模型参数值估计)。例如，在单个帧内，每个通道在稍微不同的时间(每个连续地)被接收，并且可以具有与其相关联的时间戳。追踪器在多个通道上接收原始图像数据，每个通道具有不同的时间戳，并且执行渲染，以针对每个通道独立地比较(渲染的图像和感兴趣的原始区域)和计算(计算模型参数值)。通过将3D模型独立地拟合到这些时间步长中的每个(利用原始图像的时间戳的知识)，可以显著地有效地增加模型拟合的帧速率。这给出了更准确和更平滑的结果。

可以将单个帧的原始传感器数据(在步骤702接收的)的至少部分输入到区域提取器，区域提取器检测原始飞行时间图像中的零个、一个或多个感兴趣区域。感兴趣区域是其中大多数像素描绘具有规定特性的场景的部分的图像区域，例如手、前景、身体。使用区域提取器不是必要的。如果使用区域提取器，则可以使用任何公知的区域提取处理。

处理来自步骤702的感兴趣区域的原始传感器数据以计算708诸如所检测的感兴趣区域中的每个感兴趣区域的对象的姿势和/或形状等参数。例如，原始传感器数据(在一些示例中在通道上聚合)被输入到诸如图2的模型拟合引擎并且用于计算708在传感器数据中描绘的对象的3D模型的参数，如本文所述。在一些示例中，可以仅使用一个接收的通道。

因此，在各种示例中，图7的方法用于计算参数估计708而不需要计算深度。以这种方式，仅需要一个接收的通道。例如，在相位调制飞行时间的情况下的一个相位调制频率。例如，在门控飞行时间的情况下的一个曝光持续时间。通过以这种方式使用较少的接收通道，降低了功耗和/或制造/运行成本。通过使用更少的接收通道，可以增加飞行时间相机的帧速率，同时仍然以与飞行时间相机的帧速率兼容的速度实现图7的方法的操作。

在三个或更多个接收通道可用的示例中，除了参数估计708之外，还可以根据飞行时间数据计算深度。在相位调制飞行时间相机的情况下，深度图计算逻辑(图6的612或图8的810)可以被布置成通过计算相机接收器的每个像素的距离测量来根据反射光的测量的幅度和相位来计算深度图。在每个像素处接收的光的幅度可以用于生成强度图或2-D图像。到相机的对象的深度可以根据反射光相对于透射光的相移来确定。假定光速是已知常数，则可以根据相移(以弧度为单位)计算对象的深度(以米为单位)：

其中c(单位为米/秒)为光速，f_mod(单位为MHz)为调制频率，

(单位为弧度)为相移。因此，可以为接收器的每个像素确定强度和距离，并且可以以取决于接收器的分辨率的分辨率生成深度图，即，与根据在具有1000个像素的接收器处接收的调制光生成的深度图相比，根据在具有10000个像素的接收器处接收的调制光生成的深度图将具有更高的分辨率。

如果仅使用单个频率，则量c/(2f_mod)是深度相机可以明确地测量的最大距离。因此，可以选择一个或多个调制频率以提供最适合于正在使用的应用的距离测量。在一个示例中，如果深度相机与游戏系统一起使用，则可以选择一个或多个调制频率以提供近似等于房间的尺寸的最大明确的距离测量。例如，如果所要求的最大明确距离测量在4-10米的范围内，则可以选择在15-37.5MHz的范围内的调制频率。然而，在另一示例中，可以组合多个调制频率以给出明确的测量。

在相位调制飞行时间相机的情况下，深度图计算逻辑(图6的612或图8的810)可以被布置成通过计算相机接收器的每个像素的距离测量根据不同的曝光周期所测量的反射光的强度来计算深度图。这通过将测量的强度与在校准阶段中获得的相机行为的一个或多个模型进行比较来完成。

图8示出了可以被实现为任何形式并且其中可以实现从原始飞行时间图像的参数追踪的实施例的计算和/或电子设备的示例性基于计算的设备800的各种部件。

基于计算的设备800包括一个或多个处理器802，其可以是微处理器、控制器、或用于处理计算机可执行指令以控制设备的操作以便在飞行时间图像中检测感兴趣区域的任何其它合适类型的处理器。在一些示例中，例如在使用片上系统架构的情况下，处理器802可以包括用硬件(而不是软件或固件)实现从原始飞行时间图像的参数追踪方法的一部分的一个或多个固定功能块(也称为加速器)。例如，用于计算深度图和参数追踪的计算逻辑808可以用硬件实现。可以在基于计算的设备处提供包括操作系统804或任何其他合适的平台软件的平台软件，以使得应用软件806能够在设备上执行。在示例中，基于计算的设备800还可以包括计算逻辑808。计算逻辑808还可以包括集成的深度图计算逻辑810和追踪器812。在示例中，深度图计算逻辑810可以被布置成根据光源发射的光与在接收器接收的光之间的相位差或者基于快门定时来估计对象的距离。

可以使用由基于计算的设备800可访问的任何计算机可读介质来提供计算机可执行指令。计算机可读介质可以包括例如诸如存储器816和通信介质等计算机存储介质。诸如存储器816等计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EPROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光学存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备、或者可以用于存储信息以供计算设备访问的任何其它非传输介质。相比之下，通信介质可以在调制的数据信号(例如载波或其他传输机制)中实施计算机可读指令、数据结构、程序模块或其他数据。如本文所定义的，计算机存储介质不包括通信介质。因此，计算机存储介质本身不应当被解释为传播信号。传播信号可以存在于计算机存储介质中，但是传播信号本身不是计算机存储介质的示例。虽然在基于计算的设备800内示出了计算机存储介质(存储器816)，但是应当理解，存储可以是分布式的或远程定位的，并且经由网络或其它通信链路(例如，使用通信接口808)来访问。

基于计算的设备800还包括输入/输出控制器820，其被布置为向显示设备824输出显示信息，显示设备824可以与基于计算的设备800分离或集成。显示信息可以提供图形用户接口。输入/输出控制器820还被布置为接收和处理来自诸如飞行时间相机814和用户输入设备822(例如，鼠标、键盘、相机、麦克风或其它传感器)等一个或多个设备的输入。在一些示例中，用户输入设备822可以检测语音输入、用户手势或其他用户动作，并且可以提供自然用户界面(NUI)。在实施例中，如果显示设备824是触敏显示设备，则显示设备824还可以用作用户输入设备822。输入/输出控制器820还可以向除显示设备以外的设备(例如本地连接的打印装置(图8中未示出))输出数据。

输入/输出控制器820、显示设备824和用户输入设备822中的任何一个可以包括NUI技术，其使得用户能够以自然的方式与基于计算的设备交互，而不受例如鼠标、键盘、遥控器等输入设备强加的人工约束。可以提供的NUI技术的示例包括但不限于依赖于以下各项的技术：语音和/或声音识别、触摸和/或触控笔识别(触敏显示器)、屏幕上和屏幕上的手势识别、空中手势、头部和眼睛追踪、语音和声音、视觉、触摸、手势和机器智能。可以使用的NUI技术的其它示例包括意图和目标理解系统、使用深度相机的运动手势检测系统(诸如立体相机系统、红外相机系统、RGB相机系统及其组合)、使用加速度计/陀螺仪的运动手势检测、面部识别、3D显示、头部、眼睛和凝视追踪、沉浸式增强现实和虚拟现实系统、以及使用电场感测电极(EEG和相关方法)感测大脑活动的技术。

示例提供了一种追踪实体的参数的方法，包括：

从飞行时间相机接收描绘实体的原始图像数据；

访问实体的3D模型，3D模型具有模型参数；

从具有模型参数的规定值的所述3D模型渲染描绘实体的原始飞行时间图像数据的模拟；

将所模拟的原始图像数据和所接收的原始图像数据的至少部分相比较；

基于比较来计算所追踪的所述实体的参数的值。

例如，在不需要从接收的原始图像数据计算深度的情况下计算所追踪的实体的参数的值。

例如，所追踪的参数包括以下中的任一个：姿势参数、形状参数。

在一个示例中，上述方法包括接收与由飞行时间相机发射的光的调制频率相关联或与飞行时间相机的曝光周期相关联的一个或多个强度图像形式的原始图像数据。

例如，仅从一个通道接收原始图像数据。例如相位调制频率或曝光持续时间。

例如，在多个通道上接收原始图像数据，并且在进行比较之前，在通道上聚合数据。

在示例中，该过程在多个通道上接收原始图像数据，每个通道具有不同的时间戳，并且对每个通道独立地执行渲染、比较和计算。

在示例中，计算所追踪的实体的参数的值包括通过重复比较来在很多可能性中搜索所追踪的实体的参数的值。

在示例中，上述方法包括通过根据模型参数的规定值从3D模型渲染深度图并且使用深度图计算模拟来渲染模拟。

在示例中，该方法包括以考虑遮挡的方式渲染深度图。

在示例中，该方法包括以考虑实体的表面反射率的方式使用深度图计算模拟。

在使用深度图来计算模拟的示例中，包括将深度图输入到飞行时间相机的相机响应函数，相机响应函数描述当将光反射到相机中的表面的深度变化时相机的传感器的行为。

在示例中，该方法包括以考虑摄像机的噪声模型的方式使用深度图计算模拟。

在示例中，该方法包括通过计算被发出到场景中、被反弹离开3D模型或已知在场景中的其他表面并且最终被反射回飞行时间相机的模拟光线来渲染模拟。

示例性方法通过计算模拟的原始图像数据和接收的原始图像数据之间的绝对差值或平方差的图像像素的和，并且应用鲁棒惩罚项来比较模拟的原始图像数据和接收的原始图像数据。

一些示例包括在比较模拟的原始图像数据与所接收的原始图像数据之前缩减或子采样所接收的原始图像数据。

另一示例提供了一种计算系统，其包括：

被布置为接收描绘实体的原始图像数据的输入/输出控制器，原始图像数据来自飞行时间相机；

存储实体的3D模型的存储器，3D模型具有模型参数；以及

被布置为获取描绘实体的原始飞行时间图像数据的模拟的模型拟合引擎，模拟利用模型参数的规定值而已经从实体的3D模型中被渲染；

模型拟合引擎被布置为比较模拟的原始图像数据和接收的原始图像数据并且基于比较计算实体的参数。

例如，模型拟合引擎包括渲染模拟的渲染器。

例如，渲染器包括飞行时间相机的相机响应函数。

计算系统可以集成在飞行时间相机中。

另一示例提供了一种存储指令的计算机可读介质，指令在由计算设备执行时控制设备：

从飞行时间相机接收描绘实体的原始图像数据；

访问实体的3D模型，3D模型具有模型参数；

从具有模型参数的规定值的3D模型渲染描绘实体的原始飞行时间图像数据的模拟；

比较模拟的原始图像数据和所接收的原始图像数据的至少部分；

基于比较，计算实体的参数，而不需要根据接收的原始图像数据计算深度。

本文中使用的术语“计算机”或“基于计算的设备”是指具有处理能力使得其可以执行指令的任何设备。本领域技术人员将认识到，这样的处理能力被并入很多不同的设备中，因此术语“计算机”和“基于计算的设备”各自包括PC、服务器、移动电话(包括智能电话)、平板计算机、机顶盒、媒体播放器、游戏控制台、个人数字助理和很多其他设备。

本文中所描述的方法可以由有形存储介质上的机器可读形式的软件执行，例如，包括计算机程序代码装置的形式，当该程序在计算机上运行时，该计算机程序代码装置适于执行本文中所描述的任何方法的所有步骤，并且其中计算机程序可以在计算机可读介质上实施。有形存储介质的示例包括包括计算机可读介质的计算机存储设备，诸如磁盘、拇指驱动器、存储器等，并且不包括传播信号。传播信号可以存在于有形存储介质中，但是传播信号本身不是有形存储介质的示例。软件可以适于在并行处理器或串行处理器上执行，使得方法步骤可以以任何合适的顺序或同时执行。

这承认软件可以是有价值的可单独交易的商品。其旨在涵盖在“无信息处理能力的”或标准硬件上运行或控制以执行期望功能的软件。还旨在包括“描述”或定义用于设计硅芯片或用于配置通用可编程芯片以执行期望功能的硬件(诸如HDL(硬件描述语言)软件)的配置的软件。

本领域技术人员将认识到，用于存储程序指令的存储设备可以分布在网络上。例如，远程计算机可以存储被描述为软件的过程的示例。本地或终端计算机可以访问远程计算机并且下载软件的一部分或全部以运行程序。或者，本地计算机可以根据需要下载软件的部分，或者在本地终端处执行一些软件指令，并且在远程计算机(或计算机网络)处执行一些软件指令。本领域技术人员还将认识到，通过利用本领域技术人员已知的常规技术，软件指令的全部或一部分可以由专用电路来执行，例如DSP、可编程逻辑阵列等。

本文中给出的任何范围或器件值可以扩展或改变而不失去所寻求的效果，这对本领域技术人员是显而易见的。

尽管已经用对结构特征和/或方法动作专用的语言描述了主题，但是应当理解，所附权利要求中定义的主题不一定限于上述具体特征或动作。相反，上面描述的具体特征和动作被公开作为实现权利要求的示例形式。

将理解，上述的益处和优点可以涉及一个实施例或者可以涉及若干实施例。实施例不限于解决任何或所有所述问题的那些实施例，或者具有任何或全部所述益处和优点的实施例。还应当理解，提到“一个(an)”项目是指这些项目中的一个或多个。

本文中所描述的方法的步骤可以以任何合适的顺序进行，或在适当时同时进行。另外，在不脱离本文中所描述的主题的精神和范围的情况下，可以从任何方法中删除各个块。上述任何示例的各方面可以与所描述的任何其他示例的各方面组合以形成另外的示例而不失去所寻求的效果。

术语“包括”在本文中用于表示包括所识别的方法块或元素，但是这样的块或元素不包括排他性列表，并且方法或装置可以包含额外的块或元素。

术语“子集”在本文中用于指代正确的子集，使得集合的子集不包括集合的所有元素(即，集合的元素中的至少一个元素从子集中丢失)。

应当理解，上述描述仅以示例的方式给出，并且本领域技术人员可以进行各种修改。上述说明书、示例和数据提供了示例性实施例的结构和使用的完整描述。虽然以上已经以某种程度的特殊性或者参考一个或多个单独的实施例描述了各种实施例，但是本领域技术人员可以在不脱离本说明书的精神或范围的情况下对所公开的实施例进行多种改变。

Claims

1.一种追踪第一类型的实体的参数的方法，包括：

从飞行时间相机接收描绘所述实体的第一原始图像数据；

访问所述第一类型的实体的所存储的3D模型，所述3D模型具有所追踪的模型参数；

选择用于所追踪的所述模型参数的候选值，其中所述选择包括：

选择第一组候选值以及第二组候选值；

使用所述第一组候选值以及所述第二组候选值，根据所述3D模型来渲染相应的第二模拟原始飞行时间图像数据以及第三模拟原始飞行时间图像数据，所述第二模拟原始飞行时间图像数据和所述第三模拟原始飞行时间图像数据包括历史数据，所述历史数据被干扰以生成第一预测姿势和第二预测姿势，所述第一预测姿势和所述第二预测姿势分别对应于具有所述第一组候选值和所述第二组候选值的所述3D模型；

将所述第二模拟原始飞行时间图像数据与所接收的所述第一原始图像数据的至少部分相比较，并且将所述第三模拟原始飞行时间图像数据与所接收的所述第一原始图像数据的至少部分相比较；以及

确定对应于具有所述第一组候选值的所述3D模型的、用于生成所述第一预测姿势的所述第二模拟原始飞行时间图像数据比对应于具有所述第二组候选值的所述3D模型的、用于生成所述第二预测姿势的所述第三模拟原始飞行时间图像数据更接近于所述第一原始图像数据；以及响应于确定所述第二模拟原始飞行时间图像数据更接近于所述第一原始图像数据，选择所述第一预测姿势作为所述实体的估计的姿势；以及

输出所述实体的所述估计的姿势，

其中所追踪的所述实体的参数的值被计算而不需要根据所接收的所述第一原始图像数据来计算深度。

2.根据权利要求1所述的方法，其中所追踪的参数包括一个或多个姿势参数或形状参数。

3.根据权利要求1所述的方法，包括接收与由所述飞行时间相机发射的光的调制频率相关联或者与所述飞行时间相机的曝光周期相关联的一个或多个强度图像形式的所述第一原始图像数据。

4.根据权利要求1所述的方法，包括从仅一个通道接收所述第一原始图像数据。

5.根据权利要求1所述的方法，包括在多个通道上接收所述第一原始图像数据并且在做出所述比较之前跨通道聚合所述第一原始图像数据。

6.根据权利要求1所述的方法，包括在多个通道上接收所述第一原始图像数据，每个通道具有不同的时间戳，并且针对每个通道独立地执行所述渲染、比较和计算。

7.根据权利要求1所述的方法，包括通过根据所述模型参数的所述第一组候选值和所述第二组候选值来根据所述3D模型渲染深度图并且使用所述深度图计算所述第二模拟原始飞行时间图像数据和所述第三模拟原始飞行时间图像数据，来渲染所述第二模拟原始飞行时间图像数据和所述第三模拟原始飞行时间图像数据。

8.根据权利要求7所述的方法，包括以将遮挡考虑在内的方式来渲染所述深度图。

9.根据权利要求7所述的方法，包括以将所述实体的表面反射率考虑在内的方式来使用所述深度图渲染所述第二模拟原始飞行时间图像数据和所述第三模拟原始飞行时间图像数据。

10.根据权利要求7所述的方法，其中使用所述深度图来渲染所述第二模拟原始飞行时间图像数据和所述第三模拟原始飞行时间图像数据包括向所述飞行时间相机的相机响应函数输入所述深度图，所述相机响应函数描述当将光反射到所述飞行时间相机中的表面的深度变化时所述飞行时间相机的传感器的行为。

11.根据权利要求7所述的方法，包括以将所述飞行时间相机的噪声模型考虑在内的方式来使用所述深度图渲染所述第二模拟原始飞行时间图像数据和所述第三模拟原始飞行时间图像数据。

12.根据权利要求1所述的方法，包括通过计算模拟光线来渲染所述第二模拟原始飞行时间图像数据和所述第三模拟原始飞行时间图像数据，所述模拟光线被发出到场景中、被反弹离开所述3D模型或者已知在所述场景中的其他表面、并且最终被反射回到所述飞行时间相机中。

13.根据权利要求1所述的方法，包括通过计算所述第二模拟原始飞行时间图像数据和所述第三模拟原始飞行时间图像数据与所接收的所述第一原始图像数据之间的绝对差或平方差的图像像素上的和并且应用鲁棒惩罚项，来将所述第二模拟原始飞行时间图像数据和所述第三模拟原始飞行时间图像数据中的每个原始飞行时间图像数据与所接收的所述第一原始图像数据比较。

14.根据权利要求1所述的方法，包括在将所述第二模拟原始飞行时间图像数据和所述第三模拟原始飞行时间图像数据中的每个原始飞行时间图像数据与所接收的所述第一原始图像数据比较之前缩减或子采样所接收的所述第一原始图像数据。

15.一种计算系统，包括：

处理器；

存储器，所述存储器存储能够由所述处理器执行的指令，所述指令当被所述处理器执行时，配置所述计算系统以执行操作，所述操作包括：

从飞行时间相机接收描绘第一类型的实体的第一原始图像数据；

选择第一组候选值以及第二组候选值；

确定对应于具有所述第一组候选值的所述3D模型的、用于生成所述第一预测姿势的所述第二模拟原始飞行时间图像数据比对应于具有所述第二组候选值的所述3D模型的、用于生成所述第二预测姿势的所述第三模拟原始飞行时间图像数据更接近于所述第一原始图像数据；以及

响应于确定所述第二模拟原始飞行时间图像数据更接近于所述第一原始图像数据，选择所述第一预测姿势作为所述实体的估计的姿势；以及

输出所述实体的所述估计的姿势，

16.根据权利要求15所述的计算系统，其中所述操作包括通过根据所述模型参数的所述第一组候选值和所述第二组候选值来根据所述3D模型渲染深度图并且使用所述深度图计算所述第二模拟原始飞行时间图像数据和所述第三模拟原始飞行时间图像数据，来渲染所述第二模拟原始飞行时间图像数据和所述第三模拟原始飞行时间图像数据。

17.根据权利要求15所述的计算系统，所述计算系统被集成在飞行时间相机中。

18.一种非瞬态计算机存储介质，所述计算机存储介质存储计算机可执行指令，所述计算机可执行指令当被计算机设备执行时，控制所述计算机设备：

选择第一组候选值以及第二组候选值；

输出所述实体的所述估计的姿势，