CN102129152B

CN102129152B - 具有集成vcsel阵列的深度投影仪系统

Info

Publication number: CN102129152B
Application number: CN201010619973.5A
Authority: CN
Inventors: S·麦克尔道尼
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2009-12-21
Filing date: 2010-12-21
Publication date: 2015-09-02
Anticipated expiration: 2030-12-21
Also published as: CN102129152A; US20120051588A1; US8320621B2

Abstract

公开了在3-D成像设备中使用的投影仪。该投影仪包括由垂直腔表面发射激光器，即VCSEL阵列形成的光源。VCSEL阵列包括用于照亮捕捉区域的光源。来自VCSEL阵列的光从捕捉区域中的对象上反射，并在诸如3-D照相机等传感设备内接收。该投影仪还可包括用于聚焦从阵列中的每一VCSEL发射的光的准直透镜阵列，以及用于图案化来自准直透镜的光以使传感设备能生成捕捉区域中的对象的3-D图像的DOE。

Description

具有集成VCSEL阵列的深度投影仪系统

背景技术

三维光学成像系统能够提供捕捉区域内的对象的距离测量和深度图像。此类系统当前例如用在游戏和多媒体应用程序中以提供人类标识和姿势识别，以及用在各种各样的其他应用中，如对半导体和其他商品的检查、CAD验证、机器人视觉以及地理勘测。一般而言，三维(3-D)成像系统包括具有用于照亮场景(目标)的光源的投影仪。3-D成像系统还包括接收器，如用于接收从目标反射的光并用于从反射光形成目标的3-D图像的3-D照相机。

实现深度投影仪的现有方法利用组装为具有准直光学器件和衍射光学元件(DOE)的晶体管外形封装(TO-Can)的激光二极管来将光编码为图案以使其能被接收器系统读取。将这些组件组装在一起是耗时且高成本的，并且所组装的投影仪也易受损坏和故障。

发明内容

此处所描述的是在3-D成像设备中使用的投影仪。该投影仪包括由垂直腔表面发射激光器，即VCSEL阵列形成的光源。该VCSEL阵列提供了用于照亮捕捉区域的光源。来自该VCSEL阵列的光从捕捉区域中的对象反射，并在诸如3-D照相机等传感设备内接收。该投影仪还可包括用于聚焦从该阵列中的每一VCSEL发射的光的准直透镜阵列，以及用于将来自准直透镜阵列的光图案化以使传感设备能够生成捕捉区域中的对象的3-D图像的DOE。

在各实施例中，该投影仪可作为在人类的自然环境中识别人类的系统的一部分来包括，该系统无需附连到主体的特殊传感设备，并在三维空间中唯一标识且跟踪人类。所得的表示作为实时传递的多点骨架模型来直接呈现给应用程序。包括该投影仪的系统通过理解人类的肌肉-骨架系统的自然力学和能力来高效地跟踪人类及其自然移动。该系统还唯一地识别个人以允许多人经由其肢体的自然移动以及语音命令/响应来与该系统交互。使用该系统，人类可按自然方式来与娱乐和计算机平台交互。唯一地标识的人类以可由各种各样的应用程序/体验使用的简单、直观的人类骨架结构来表示。

附图说明

图1A-1B示出伴随用户玩游戏的目标识别、分析和跟踪系统的示例实施例。

图2示出了可在目标识别、分析和跟踪系统中使用的捕捉设备的示例实施例。

图3示出了包括用于提供光源的VCSEL阵列的捕捉设备的投影仪的各组件。

图4是发射相干光束的VCSEL的局部透视图。

图5示出了可用于解释目标识别、分析和跟踪系统中的一个或多个姿势的计算环境的示例实施例。

图6示出了可用于解释目标识别、分析和跟踪系统中的一个或多个姿势的计算环境的另一示例实施例。

图7描绘了用于扫描可在视觉上跟踪的目标的示例方法的流程图。

图8示出了深度图像的示例实施例。

图9示出了具有经泛色填充的人类目标的深度图像的示例实施例。

图10示出了具有匹配一模式的、经泛色填充的人类目标的深度图像的示例实施例。

图11示出了被扫描来生成模型的人类目标的深度图像的示例实施例。

图12示出了表示所扫描的人类目标的骨架模型的示例实施例。

图13A-13E示出了为人类目标的骨架模型调整的关节的示例实施例。

图14示出了用于表示人类目标的示例性身体模型。

图15示出了用于表示人类目标的示例性骨架模型的基本上正面的视图。

图16示出了用于表示人类目标的示例性骨架模型的斜视图。

图17示出了用于表示人类目标的示例性网格模型。

图18示出了在视觉上跟踪目标的示例方法的流程图。

图19示出了示例性的所观察的深度图像。

图20示出了示例性的合成深度图像。

图21示意性地示出了构成合成深度图像的像素中的某一些。

图22A-22B示意性地示出了向模型的受力位置施加力以及施加力的结果。

图23A-23B示出了从图22A-22B的模型渲染的玩家化身。

图24描绘了用于捕捉人类目标的运动的示例方法的流程图。

图25A-25C示出了可在各个时间点捕捉的模型的示例实施例。

图26A-26C示出了可基于可在各个时间点捕捉的模型来制作动画的化身或游戏人物的示例实施例。

图27描绘了用于身体姿态估计的示例方法的流程图。

图28描绘了示例深度特征测试的流程图。

图29描绘了在深度特征/概率测试中测量的像素的示例实施例。

图30描绘了深度特征/概率测试树的示例实施例的流程图。

图31描绘了在身体姿态估计中使用的分段身体的示例实施例。

图32描绘了可在训练程序中使用来创建特征测试的用户姿态和相应的分段图像的示例实施例。

图33描绘了使用多个特征测试来分配与身体部位相关联的概率的示例实施例。

图34描绘了身体姿态估计中的身体部位的重心/关节/结节的示例实施例。

图35A示出了从图1A-2的目标识别、分析和跟踪系统生成的用户的骨架映射。

图35B示出了图2所示的姿势识别器体系结构的进一步细节。

图36A-36B示出了可如何堆叠姿势过滤器来创建更复杂的姿势过滤器。

图37A-37E示出了用户502在橄榄球视频游戏中可以作出以便发出“完全接球”信号的示例姿势。

图38A-38E示出了在解析每一图像数据帧来产生用户的骨架图时图5的示例“完全接球”姿势。

图39示出了用于使用姿势识别器体系结构来向至少一个应用程序提供姿势的示例性操作过程。

具体实施方式

现在将参考图1A到39来描述本发明的技术的各实施例，本发明的技术一般涉及包括利用VCSEL阵列的投影系统的3-D捕捉设备。图1A和1B示出了系统50的一个示例，其中根据本发明的技术的3-D捕捉设备60可用于识别、分析和/或跟踪诸如人类目标等对象，如用户58。系统50的各实施例还包括用于执行游戏或其他应用程序的计算环境52，以及用于从游戏或其他应用程序提供音频和视觉表示的视听设备56。该计算环境从捕捉设备60接收反馈，并使用该反馈来控制游戏或其他应用程序。如下所解释的，捕捉设备60包括根据本发明的技术的使用VCSEL阵列的投影仪。

计算环境52的各实施例在以下参考图5和6来解释，但是一般而言，系统50的计算环境52可以是个人计算机、游戏控制台或其他通用计算环境。此类环境包括例如膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机、包括任何以上系统或设备的分布式计算环境等等。计算环境52可以连接到诸如电视机、监视器、高清电视机(HDTV)等可向用户58提供游戏或应用程序视觉和/或音频的视听设备56。例如，计算环境52可包括诸如图形卡等视频适配器和/或诸如声卡等音频适配器，这些适配器可提供与游戏应用程序、非游戏应用程序等相关联的视听信号。视听设备56可从计算环境52接收视听信号，然后可向用户58输出与该视听信号相关联的游戏或应用程序视觉形象和/或音频。根据一实施例，视听设备56可经由例如，S-视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆等连接到计算环境52。

如图1A和1B所示，系统50可用于识别、分析和/或跟踪诸如用户58等的人类目标。例如，可使用捕捉设备60来跟踪用户58，以使得可将用户58的移动解释为可用于影响由计算机环境52执行的应用程序的控制命令。因而，根据一个实施例，用户58可移动他或她的身体来控制应用程序。

图1A和1B的示例实施例在用户58可能正在玩的拳击游戏的上下文中使用捕捉设备60。例如，计算环境52可使用视听设备56在显示屏54上向用户58提供拳击对手62的视觉表示。计算环境52还可使用视听设备56来提供用户58可通过他的或她的移动来控制的玩家化身64的视觉表示。例如，如图1B所示，用户58可在物理空间中挥重拳来使得玩家化身64在游戏空间中挥重拳。因此，根据一示例实施例，系统50的计算机环境52和捕捉设备60可用于识别和分析用户58在物理空间中的重拳，从而使得该重拳可被解释为对游戏空间中的玩家化身40的游戏控制。

在各实施例中，用户化身64可以是专用于用户58的。用户58可以玩任何数量的游戏，每一游戏可允许使用用户化身64。在一个实施例中，化身64可以由捕捉设备60来创建，该捕捉设备60检测用户58的一个或多个方面，诸如例如用户的发色、身高、大小、衬衫颜色或用户58的任何其他特征，然后基于用户58的各方面来提供化身。在另一实施例中，用户可从菜单选项列表中创建化身64。作为另一示例，化身64可作为捕捉设备所捕捉的用户的表示开始，用户然后可按任何方式，通过添加或移除任何特征、添加想象元素等来更改该化身。

用户58的移动或姿态还可被解释为其他控制命令或动作，如奔跑、行走、加速、减速、停止、换挡或武器、瞄准、开火、闪避、跳跃、夺取、关闭、拨弄、玩耍、挥臂、倚靠、注视、轻拍、迂回行进、曳脚走、格挡、猛刺、挥出各种不同力度的重拳等等。控制化身或另外控制计算机环境可能需要的任何其他控制命令或动作都被包括在内。此外，某些移动或姿态可被解释为可对应于除控制玩家化身64之外的动作的控制命令。例如，用户可使用移动或姿态来进入、退出、打开或关闭系统、暂停、自愿、切换虚拟端口、保存游戏、选择级别、简档或菜单、查看高分、与朋友通信等等。另外，用户58的全范围运动可以用任何合适的方式来获得、使用并分析以与应用程序进行交互。这些移动和姿态可以是对用户可用的任何移动或姿态，并且可包括进入和退出捕捉区域。例如，在一个实施例中，进入捕捉区域可以是目标识别、分析和跟踪系统中的进入姿势或命令。

根据其他示例实施例，系统50还可用于将目标移动解释为游戏领域之外的操作系统和/或应用程序控制命令。例如，事实上操作系统和/或应用程序的任何可控方面可由诸如用户58等目标的移动来控制。

以上描述旨在提供其中可使用本发明的技术的3-D捕捉设备的系统的一个示例。可以理解，本系统的3-D捕捉设备可在各种各样的其他应用中使用。这些应用包括但不限于其他游戏和多媒体应用程序、电视和其他显示器、对半导体和其他商品的检查、CAD验证、机器人视觉、地理勘测以及医学和研究过程。尽管上述系统50除捕捉设备之外还包括计算环境52和视听设备56，但可以理解，本发明的技术可在没有计算环境52和/或视听设备56的系统中使用。此外，如上所述，3-D捕捉设备所捕捉的主体可以是除人类用户58以外的物体。

现在将参考图2到4来更详细描述本发明的技术的包括3-D照相机的捕捉设备60。图2示出了可用于识别捕捉区域中的任何和非人类目标(无需附连到主体的特殊传感设备)、在3-D空间中唯一地标识他们并跟踪他们的捕捉设备60的示例实施例。根据一示例实施例，捕捉设备60可被配置成捕捉带有深度信息的视频，该深度信息用于经由任何合适的技术——包括例如结构化光、飞行时间、立体图像等——来形成深度图像。根据一实施例，捕捉设备60可将所计算的深度信息组织为“Z层”，即可与从深度照相机沿其视线延伸的Z轴垂直的层。

如图2所示，根据一示例实施例，捕捉设备60可包括具有投影仪72、3-D照相机74和RGB照相机76的图像照相机组件70。根据本发明的技术，投影仪72如下所解释地从VCSEL提供光源。3-D照相机74和任选的RGB照相机76可用于接收从照亮的捕捉区域内的对象反射回来的光，以形成包括该捕捉区域中的对象在内的该捕捉区域的深度图像。

投影仪72的一个实施例在图3中示出。根据本发明的技术，投影仪72可以被形成为集成光学封装。具体地，在一个实施例中，投影仪72包括使用集成电路制造技术形成的VCSEL 80的阵列、准直透镜阵列102以及衍射光学元件104。阵列中的每一VCSEL 80是已知构造，并且可通过已知的半导体制造技术来形成。图4示出了单个VCSEL 80的一个示例，其可以是在半导体晶片81上进行批处理，其一部分在图4中示出。一般而言，VCSEL 80包括底部反射镜81、顶部反射镜84和激光腔86。底部反射镜82和顶部反射镜84可以是99％数量级上的高反射性，并且例如可以是分布式布拉格反射器(DBR)。DBR的各层可以通过放下交替的具有显著的折射系数差的半导体层或介电材料层来形成。激光腔包括一对氧化物层88、90，其间夹有增益区92。

当对电极层94有电流i时，VCSEL 80可发射例如从大约750纳米(nm)到大约2000nm的近红外相干光束96。构想了该范围之外的其他波长。光束96垂直于底部反射镜82和顶部反射镜84来发射。单个VCSEL 80可输出大约5-10毫瓦的功率。因此，为了增大功率输出，可使用VCSEL 80的阵列。该阵列例如可以是4x5阵列，但在其他实施例中可以是其他大小和维度。在一个实施例中，例如在上述游戏应用程序中，VCSEL阵列可输出200毫瓦，但在其他实施例中来自VCSEL阵列的输出可以高于或低于以上游戏应用程序或其他应用程序的功率输出。在给定VCSEL能够输出较高功率的情况下，可在VCSEL阵列中包括较少数量的VCSEL。投影仪72中的VCSEL 80的阵列可以形成于从晶片81切块的单个芯片上。或者，可将两组或更多组VCSEL设置在投影仪72中使用的两个或更多芯片上。

对VCSEL的使用提供了优于传统边缘发射激光二极管的益处。边缘发射二极管需要复杂的封装来将发射边缘表面朝向照明目标来定向。VCSEL的包装优于发射表面的垂直本质而被简化。在使用集成封装的情况下，VCSEL提供了另外的益处。首先，对垂直发射VCSEL阵列的使用简化了制造过程并降低了制造成本和复杂度。例如，使用VCSEL阵列，光源允许省略边缘发射激光二极管中所需的45°折叠镜。此外，不像边缘发射激光二极管，VCSEL可被集成到晶片上的任何所需大小的二维阵列中。再者，不像边缘发射激光二极管，VCSEL可在晶片级进行测试。VCSEL阵列还具有比边缘发射器更高的可靠性和寿命期望。

VCSEL阵列的另一特征在于它们减少了在常规的激光二极管光源中发现的光斑问题。当从3-D成像中存在的粗糙表面反射激光二极管的空间上相干的光源时，该激光器的光波可从目标表面漫反射。该现象是由于入射光束的具有随机相对光学相位的不同反射部分的干涉引起的。这可导致视觉上随机的颗粒图案。然而，对于VCSEL阵列而言，输出是多模的，并且从阵列中的不同VCSEL发射的光的波长可具有略微不同的波长，这显著地减少了光斑对比度比率。

再次参考图3，来自VCSEL 80阵列的光通过由多个透镜构成的准直微透镜阵列102来聚焦，对每一VCSEL有一个透镜。微透镜阵列用于将来自VCSEL 80阵列的光束96聚焦并引导到DOE 104。DOE 104将光束96形成为各种光图案106中的任一种，这进而允许以下所解释的3-D成像。

在一个实施例中，DOE 104可将光束96图案化成结构化光成像技术中使用的网格图案或条纹图案。在这些技术中，光图案106可被投影到捕捉区域。在撞击到捕捉区域中的一个或多个目标或对象的表面时，作为响应，图案可变形。图案的这一变形可由例如3-D照相机74以及任选地由RGB照相机76来捕捉。反射光的图案可如已知的那样由3-D照相机74和RGB照相机76来检测并分析以确定从捕捉设备到目标或对象上的特定位置的物理距离。

关于捕捉区域的3-D成像的另一实施例可通过飞行时间技术来操作。在此类实施例中，捕捉设备60的投影仪72可以将光图案106发射到捕捉区域上，然后使用3-D照相机74和/或RGB照相机76来检测从捕捉区域中的一个或多个目标和对象的表面反向散射的光。在某些实施例中，VCSEL 80阵列可以发射脉冲光，从而可以测量出射光脉冲与相应的入射光脉冲之间的时间并将其用于确定从捕捉设备60到捕捉区域中的目标或对象上的特定位置的物理距离。另外，在其他示例实施例中，可将入射光波的相位与出射光波的相位进行比较来确定相移。然后可以使用相移来确定从捕捉设备到对象或目标上的特定位置的距离。

再次参考图2，捕捉设备60还可包括话筒78。话筒78可包括可接收声音并将其转换成电信号的变换器或传感器。根据一实施例，话筒78可用于减少目标识别、分析和跟踪系统50中的捕捉设备60与计算环境52之间的反馈。另外，话筒78可用于接收也可由用户提供的音频信号，以控制可由计算环境52执行的诸如游戏应用程序、非游戏应用程序等应用程序。

捕捉设备60还可包括反馈组件79。反馈组件79可包括诸如LED或灯泡等灯、扬声器等等。反馈设备可执行改变颜色、打开或关闭、增加或减少亮度、以及以变化的速度闪烁中的至少一个。反馈组件79还可包括可提供一个或多个声音或噪音作为一个或多个状态的反馈的扬声器。反馈组件还可结合计算环境52或处理器75工作来通过捕捉设备、目标识别、分析和跟踪系统等的任何其他元件向用户提供一种或多种形式的反馈。

在一示例实施例中，捕捉设备60还可包括可与图像照相机组件70进行有效通信的处理器75。处理器75可包括可执行指令的标准处理器、专用处理器、微处理器等，指令可以是用于存储简档的指令、用于接收深度图像的指令、用于确定合适的目标是否可被包括在深度图像中的指令、用于将合适的目标转换成该目标的骨架表示或模型的指令、或任何其他合适的指令。

捕捉设备60还可包括存储器组件77，存储器组件77可存储可由处理器75执行的指令、3-D照相机或RGB照相机所捕捉的图像或图像的帧、用户简档、或任何其他合适的信息、图像等等。根据一示例实施例，存储器组件77可包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪存、硬盘、或任何其他合适的存储组件。如图2所示，在一实施例中，存储器组件77可以是与图像捕捉组件70和处理器75进行通信的单独的组件。根据另一实施例，存储器组件77可被集成到处理器75和/或图像捕捉组件70中。在一个实施例中，图2所示的捕捉设备60的组件70、72、74、76、78、79、75和77中的部分或全部被容纳在单个外壳81中。外壳可以是塑料的、金属的、或任何其他合适的材料的。

如图2所示，捕捉设备60可经由通信链路84与计算环境52进行通信。通信链路84可以是包括例如USB连接、火线连接、以太网电缆连接等的有线连接和/或诸如无线802.11b、802.11g、802.11a或802.11n连接等无线连接。根据一实施例，计算环境52可经由通信链路84向捕捉设备60提供可用于确定例如何时捕捉场景的时钟。

另外，捕捉设备60可将由例如3-D照相机74和/或RGB照相机76捕捉的深度信息和图像经由通信链路84提供给计算环境52。计算环境52然后可使用深度信息和所捕捉的图像来例如创建虚拟屏幕、改变用户界面、以及控制诸如游戏或文字处理程序等应用程序。例如，如图2所示，计算环境52可包括姿势库192。姿势库192可包括姿势过滤器集合，每一姿势过滤器包括关于骨架模型可执行(在用户移动时)的姿势的信息。姿势识别器引擎190可将由照相机76、74和设备60捕捉的骨架模型以及与其相关联的移动形式的数据与姿势库192中的姿势过滤器进行比较来标识用户(如骨架模型所表示的)何时执行了一个或多个姿势。那些姿势可与应用程序的各种控制命令相关联。因此，计算环境52可使用姿势库192来解释骨架模型的移动并基于该移动来控制应用程序。

投影仪72如上所述被描述为包括VCSEL 80阵列作为光源。然而，在替换实施例中，光源可以是垂直外部腔表面发射激光器(VECSEL)。不像其中将两个高反射镜合并到激光器结构中来形成光学腔的VCSEL，在VECSEL中，两个反射镜中的一个在二极管结构的外部。结果，该腔包括自由空间区域。VECSEL阵列可按与上述VCSEL 80阵列相同的方式来使用。

如上所述，包括VCSEL(或VECSEL)阵列的投影仪可用作光的源以便在各种各样应用中照亮用于3-D成像的捕捉区域。这些应用中的某一些涉及包括计算环境52和视听设备56的游戏系统，并且用于VCSEL阵列投影仪的某些应用不涉及游戏系统，且可省略计算环境52和/或视听设备56。然而，以下是包括捕捉设备60以及计算环境52和视听设备56的游戏系统的进一步细节。

图5示出了可用于实现图1A-2的计算环境52的计算环境100的示例实施例。图5的计算环境100可以是诸如游戏控制台等多媒体控制台100。如图5所示，多媒体控制台100具有含有1级高速缓存102、2级高速缓存104和闪存ROM(只读存储器)106的中央处理单元(CPU)101。1级高速缓存102和2级高速缓存104临时存储数据并因此减少存储器访问周期数，由此改进处理速度和吞吐量。CPU 101可以设置成具有一个以上的核，以及由此的附加的1级和2级高速缓存102和104。闪存ROM 106可存储在多媒体控制台100通电时在引导进程的初始化阶段加载的可执行代码。

图形处理单元(GPU)108和视频编码器/视频编解码器(编码器/解码器)114形成用于高速、高分辨率图形处理的视频处理流水线。数据经由总线从图形处理单元108输送到视频编码器/视频编解码器114。视频处理流水线将数据输出到A/V(音频/视频)端口140以传输到电视机或其它显示器。存储器控制器110连接到GPU 108以方便处理器访问各种类型的存储器112，诸如但不局限于RAM(随机存取存储器)。

多媒体控制台100包括较佳地在模块118上实现的I/O控制器120、系统管理控制器122、音频处理单元123、网络接口控制器124、第一USB主控制器126、第二USB控制器128和前面板I/O子部件130。USB控制器126和128用作外围控制器142(1)-142(2)、无线适配器148、和外置存储器设备146(例如闪存、外置CD/DVD ROM驱动器、可移动介质等)的主机。网络接口124和/或无线适配器148提供对网络(例如，因特网、家庭网络等)的访问并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等的各种不同的有线和无线适配器组件中任何一种。

提供系统存储器143来存储在引导进程期间加载的应用程序数据。提供媒体驱动器144且其可包括DVD/CD驱动器、硬盘驱动器、或其它可移动媒体驱动器等。媒体驱动器144对于多媒体控制台100可以内置或外置。应用程序数据可经由媒体驱动器144访问，以由多媒体控制台100执行、回放等。媒体驱动器144经由诸如串行ATA总线或其它高速连接(例如IEEE 1394)等总线连接到I/O控制器120。

系统管理控制器122提供涉及确保多媒体控制台100的可用性的各种服务功能。音频处理单元123和音频编解码器132形成具有高保真度和立体声处理的对应的音频处理流水线。音频数据经由通信链路在音频处理单元123与音频编解码器132之间传输。音频处理流水线将数据输出到A/V端口140以供外置音频播放器或具有音频能力的设备再现。

前面板I/O子部件130支持暴露在多媒体控制台100的外表面上的电源按钮150和弹出按钮152以及任何LED(发光二极管)或其它指示器的功能。系统供电模块136向多媒体控制台100的组件供电。风扇138冷却多媒体控制台100内的电路。

CPU 101、GPU 108、存储器控制器110、和多媒体控制台100内的各个其它组件经由一条或多条总线互连，包括串行和并行总线、存储器总线、外围总线、和使用各种总线架构中任一种的处理器或局部总线。作为示例，这种架构可以包括外围部件互连(PCI)总线、PCI-快速总线等。

当多媒体控制台100通电时，应用程序数据可从系统存储器143加载到存储器112和/或高速缓存102、104中并在CPU 101上执行。应用程序可呈现在导航到多媒体控制台100上可用的不同媒体类型时提供一致的用户体验的图形用户界面。在操作中，媒体驱动器144中包含的应用程序和/或其它媒体可从媒体驱动器144启动或播放，以向多媒体控制台100提供附加功能。

多媒体控制台100可通过将该系统简单地连接到电视机或其它显示器而作为独立系统来操作。在该独立模式中，多媒体控制台100允许一个或多个用户与该系统交互、看电影、或听音乐。然而，随着通过网络接口124或无线适配器148可用的宽带连接的集成，多媒体控制台100还可作为较大网络社区中的参与者来操作。

当多媒体控制台100通电时，可以保留设定量的硬件资源以供多媒体控制台操作系统作系统使用。这些资源可以包括存储器保留(例如，16MB)、CPU和GPU周期(例如，5％)、网络带宽(例如，8kbs)等。因为这些资源是在系统引导时保留的，所以所保留的资源对应用程序而言是不存在的。

具体地，存储器保留较佳地足够大，以包含启动内核、并发系统应用程序和驱动程序。CPU保留较佳地为恒定，使得若所保留的CPU用量不被系统应用程序使用，则空闲线程将消耗任何未使用的周期。

对于GPU保留，通过使用GPU中断来显示由系统应用程序生成的轻量消息(例如，弹出窗口)，以调度代码来将弹出窗口呈现为覆盖图。覆盖图所需的存储器量取决于覆盖区域大小，并且覆盖图较佳地随屏幕分辨率缩放。在并发系统应用程序使用完整用户界面的情况下，优选使用独立于应用程序分辨率的分辨率。定标器可用于设置该分辨率，从而无需改变频率，也就不会引起TV重新同步。

在多媒体控制台100引导且系统资源被保留之后，就执行并发系统应用程序来提供系统功能。系统功能被封装在一组在上述所保留的系统资源中执行的系统应用程序中。操作系统内核标识是与游戏应用程序线程相对的系统应用程序线程的线程。系统应用程序优选地被调度为在预定时间并以预定时间间隔在CPU 101上运行，以便为应用程序提供一致的系统资源视图。进行调度是为了把由在控制台上运行的游戏应用程序所引起的高速缓存中断最小化。

当并发系统应用程序需要音频时，则由于时间敏感性而异步调度音频处理给游戏应用程序。多媒体控制台应用程序管理器(如下所述)在系统应用程序活动时控制游戏应用程序的音频水平(例如，静音、衰减)。

输入设备(例如，控制器142(1)和142(2))由游戏应用程序和系统应用程序共享。输入设备不是所保留的资源，但却在系统应用程序和游戏应用程序之间切换以使其各自具有设备的焦点。应用程序管理器较佳地控制输入流的切换，而无需知晓游戏应用程序的知识，并且驱动程序维持有关焦点切换的状态信息。照相机74和76以及捕捉设备60可为控制台100定义附加输入设备。

图6示出了可用于实现图1A-2所示的计算环境52的计算环境220的另一示例实施例。计算系统环境220只是合适的操作环境的一个示例，并且不旨在对所公开的主题的使用范围或功能提出任何限制。也不应该将计算环境220解释为对示例性操作环境220中示出的任一组件或其组合有任何依赖性或要求。在某些实施例中，所描绘的各种计算元素可包括被配置成实例化本公开的具体方面的电路。例如，本公开中使用的术语电路可包括被配置成执行固件或开关的功能的专用硬件组件。在其他示例实施例中，术语电路可包括由软件指令配置的实施可用于执行功能的逻辑的通用处理单元、存储器等。在电路包括硬件与软件组合的示例实施例中，实现者可编写实施逻辑的源代码且该源代码可被编译成可由通用处理单元处理的机器可读代码。因为本领域技术人员可以明白现有技术已经进化到硬件、软件或硬件/软件组合之间几乎没有差别的地步，因而选择硬件或是软件来实现具体功能是留给实现者的设计选择。更具体地，本领域技术人员可以明白软件进程可被变换成等价的硬件结构，而硬件结构本身可被变换成等价的软件进程。因此，对于硬件实现还是软件实现的选择是设计选择之一并留给实现者。

在图6中，计算环境220包括计算机241，计算机241通常包括各种计算机可读介质。计算机可读介质可以是能由计算机241访问的任何可用介质，而且包含易失性和非易失性介质、可移动和不可移动介质。系统存储器222包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器(ROM)223和随机存取存储器(RAM)260。基本输入/输出系统224(BIOS)包括如在启动时帮助在计算机241内的元件之间传输信息的基本例程，它通常储存在ROM 223中。RAM 260通常包含处理单元259可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制，图6示出操作系统225、应用程序226、其他程序模块227和程序数据228。

计算机241也可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图6示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器238，从可移动、非易失性磁盘254中读取或向其写入的磁盘驱动器239，以及从诸如CD ROM或其他光学介质等可移动、非易失性光盘253中读取或向其写入的光盘驱动器240。可以在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器238通常由不可移动存储器接口，诸如接口234连接至系统总线221，磁盘驱动器239和光盘驱动器240通常由可移动存储器接口，诸如接口235连接至系统总线221。

以上讨论并在图6中示出的驱动器及其相关联的计算机存储介质为计算机241提供了对计算机可读指令、数据结构、程序模块和其他数据的存储。在图6中，例如，硬盘驱动器238被示为存储操作系统258、应用程序257、其他程序模块256和程序数据255。注意，这些组件可以与操作系统225、应用程序226、其他程序模块227和程序数据228相同，也可以与它们不同。操作系统258、应用程序257、其他程序模块256和程序数据255在这里被标注了不同的标号是为了说明至少它们是不同的副本。用户可以通过输入设备，诸如键盘251和定点设备252——通常被称为鼠标、跟踪球或触摸垫——向计算机241输入命令和信息。其他输入设备(未示出)可以包括麦克风、游戏杆、游戏手柄、碟形卫星天线、扫描仪等等。这些和其他输入设备通常由耦合至系统总线的用户输入接口236连接至处理单元259，但也可以由其他接口和总线结构，诸如并行端口、游戏端口或通用串行总线(USB)连接。照相机74、76和捕捉设备60可为计算机241定义附加输入设备。监视器242或其他类型的显示设备也经由接口，诸如视频接口232连接至系统总线221。除监视器以外，计算机也可以包括其它外围输出设备，诸如扬声器244和打印机243，它们可以通过输出外围接口233连接。

计算机241可使用至一个或多个远程计算机，如远程计算机246的逻辑连接在网络化环境中操作。远程计算机246可以是个人计算机、服务器、路由器、网络PC、对等设备或其他常见网络结节，并且通常包括许多或所有以上关于计算机241所描述的元件，尽管在图6中仅示出了存储器存储设备247。图4中所示的逻辑连接包括局域网(LAN)245和广域网(WAN)249，但也可以包括其他网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。

当在LAN联网环境中使用时，计算机241通过网络接口或适配器237连接至LAN 245。当在WAN联网环境中使用时，计算机241通常包括调制解调器250或用于通过诸如因特网等WAN 249建立通信的其他装置。调制解调器250可以是内置或外置的，它可以经由用户输入接口236或其他适当的机制连接至系统总线221。在网络化环境中，关于计算机241所描述的程序模块或其部分可被储存在远程存储器存储设备中。作为示例而非限制，图6示出远程应用程序248驻留在存储器设备247上。可以理解，所示的网络连接是示例性的，且可以使用在计算机之间建立通信链路的其他手段。

身体扫描

如此处所描述的，身体扫描是捕捉设备60可捕捉可包括人类目标的捕捉区域的深度信息的过程。例如，可接收并观察捕捉区域的深度图像。该深度图像然后可被分析来确定该深度图像是否包括人类目标和/或非人类目标。该深度图像的各部分可被泛色填充并与一模式进行比较来确定该目标是否是人类目标。如果该深度图像中的一个或多个目标包括人类目标，则可扫描该人类目标。然后可基于该扫描来生成人类目标的模型。

图7描绘了用于扫描可在视觉上跟踪的目标的示例方法300的流程图。示例方法300可使用例如，参考图1A-4所描述的目标识别、分析和跟踪系统50的捕捉设备60和/或计算环境52来实现。根据一示例实施例，目标可以是人类目标、人类目标与一物体、两个或更多人类目标等，这些目标可被扫描来生成诸如骨架模型、网格人类模型、或其任何其他合适的表示等模型。模型然后被用于与可由以上关于图1A-1B描述的计算环境52执行的应用程序进行交互。根据一示例实施例，当例如在计算环境52上启动或运行应用程序时，和/或在例如计算环境52上的应用程序的执行期间周期性地，可扫描目标来生成模型。

例如，如上所述，目标可包括以上关于图1A-1C描述的用户58可扫描目标来生成例如用户58的骨架模型，可跟踪用于58使得用户58的物理移动或运动可用作调整和/或控制诸如电子游戏等应用程序的参数的实时用户接口。例如，所跟踪的用户的运动可用于在电子角色扮演游戏中移动屏幕上的人物或化身、在电子赛车游戏中控制屏幕上的车辆、在虚拟环境中控制物体的建筑或组织、或执行应用程序的任何其他合适的控制。

根据一实施例，在305，可接收深度信息。例如，目标识别、分析和跟踪系统可包括诸如参考图1A-2描述的捕捉设备60等的捕捉设备。捕捉设备可捕捉或观察可包括一个或多个目标的捕捉区域。在一示例实施例中，捕捉设备可以是深度照相机，该深度相机被配置成使用诸如飞行时间分析、结构化光分析、立体视觉分析等任何合适的技术来获得与捕捉区域中的一个或多个目标相关联的深度信息。

根据一示例实施例，深度信息可包括深度图像。深度图像可以是多个观测到的像素，其中每个观测到的像素具有观测到的深度值。例如，深度图像可包括所捕捉的场景的二维(2-D)像素区域，其中2-D像素区域中的每一像素可表示深度值，诸如例如以厘米、毫米等计的、所捕捉的场景中的对象距捕捉设备的长度或距离。

图8示出了可在305处接收的深度图像400的示例实施例。根据一示例实施例，深度图像400可以是由例如参考图2所描述的捕捉设备60的3-D照相机74和/或RGB照相机76所捕捉的捕捉区域的图像或帧。如图8中所示，深度图像400可包括所捕捉的场景中的人类目标402和一个或多个非人类目标404，诸如墙壁、桌子、监视器等。如上所述，深度图像400可包括多个观测到的像素，其中每一观测到的像素具有与其相关联的观测到的深度值。例如，深度图像400可包括所捕捉的场景的二维(2-D)像素区域，其中2-D像素区域中的每一像素可表示深度值，诸如例如以厘米、毫米等计的、所捕捉的场景中的对象或目标距捕捉设备的长度或距离。在一实施例中，深度图像400可被着色从而使得深度图像的像素的不同颜色对应于人类目标402和非人类目标404离捕捉设备的不同距离。例如，根据一个实施例，深度图像中与最接近捕捉设备的目标相关联的像素可用红色和/或橙色阴影来着色，而深度图像中与较远的目标相关联的像素可用绿色和/或蓝色阴影来着色。

回头参考图7，在一个实施例中，在305处接收到具有例如深度信息的深度图像之后，可将该深度图像降采样到较低的处理分辨率，使得该深度图像可用更少的计算开销来被更容易地使用和/或更快地处理。另外，可从深度图像中移除和/或平滑掉一个或多个高变度和/或含噪声的深度值；可填入和/或重构缺少的和/或移除的深度信息的部分；和/或可对所接收的深度信息执行任何其他合适的处理，使得该深度信息可用于生成诸如骨架模型等模型，如将在下文更详细描述的。

在310，目标识别、分析和跟踪系统可确定深度图像是否包括人类目标。例如，在310，可对深度图像中的每一目标或对象进行泛色填充并将其与一模式进行比较来确定该深度图像是否包括人类目标。

图9示出了其中人类目标被泛色填充的深度图像400的示例实施例。根据一实施例，在接收到深度图像400之后，可对该深度图像400中的每一目标进行泛色填充。例如，在一个实施例中，可确定深度图像400的所捕捉的场景中的诸如人类目标402和非人类目标404等每一目标的边。如上所述，深度图像400可包括所捕捉的场景的二维(2-D)像素区域，其中2-D像素区域中的每一像素可表示深度值，诸如例如以厘米、毫米等计的、所捕捉的场景中的对象距照相机的长度或距离。根据一示例实施例，边可以通过将与例如深度图像400中的相邻或邻近的像素相关联的各种深度值进行比较来确定。如果正被比较的各种深度值大于预定边容差，则这些像素可定义一条边。在一实施例中，预定边容差可以是例如100毫米。如果表示1000毫米的深度值的像素与表示1200毫米的深度值的相邻像素相比，则这些像素可定义目标的一条边，因为像素之间的长度或距离之差大于100mm的预定边容差。

另外，如上所述，捕捉设备可将包括深度图像的所计算的深度信息组织成“Z层”，即可垂直于沿着其视线从照相机延伸到观察者的Z轴的层。可基于所确定的边来对Z层的可能Z值进行泛色填充。例如，与所确定的边相关联的像素以及所确定的边内的区域的像素可互相关联来定义可与模式进行比较的捕捉区域中的目标或对象，这将在下文中更详细描述。

根据另一实施例，在接收到深度图像400之后，可对该深度图像400上的预定点或区域进行泛色填充来确定该深度图像400是否包括人类目标402。例如，可以比较深度图像400的所选区域或点中的像素的各种深度值来确定如上所述可定义目标或对象的边。可基于所确定的边来对Z层的可能Z值进行泛色填充。例如，与所确定的边相关联的像素以及该边内的区域的像素可互相关联来定义可与模式进行比较的捕捉区域中的目标或对象，这将在下文中更详细描述。

在一示例实施例中，预定点或区域可均匀地分布在深度图像上。例如，预定点或区域可包括深度图像中心的点或区域、深度图像的左侧边与中心之间的两个点或区域、深度图像的右侧边与中心之间的两个点或区域，等等。

图10示出了具有匹配一模式的、经泛色填充的人类目标402的深度图像，如深度图像400的示例实施例。根据一示例实施例，诸如人类目标402和非人类目标404等每一经泛色填充的目标可与一模式进行匹配来确定捕捉区域中的目标是否包括和/或哪一目标包括人类。该模式可包括例如与各种位置或姿态(诸如手臂在两侧的典型站立姿态)中的人类相关联的预定身体模型的机器表示。

根据一示例实施例，该模式可包括可具有共同定义人类的典型身体的一组变量的一个或多个数据结构，使得与例如人类目标402和非人类目标404的像素相关联的信息可与各变量进行比较来确定目标是否是以及哪一目标是人类。在一个实施例中，该组中的每一变量可基于身体部位来加权。例如，模式中诸如头和/或肩等各个身体部位可具有与其相关联的、可大于诸如腿等其他身体部位的权重值。根据一实施例，权重值可在将诸如人类目标402和非人类目标404等目标与变量进行比较来确定目标是否是以及哪一目标是人类时使用。例如，变量与目标之间的具有较大权重值的匹配可产生比具有较小权重值的匹配更大的该目标是人类的可能性。

另外，在一示例实施例中，可计算一置信值，该置信值指示例如深度图像400中的每一经泛色填充的目标与模式对应的准确度。该置信值可包括每一经泛色填充的目标是人类的概率。根据一实施例，该置信值可用于进一步确定经泛色填充的目标是否是人类。例如，可将该置信值与阈值进行比较，以使如果该置信值超过该阈值，则与其相关联的经泛色填充的目标可被确定为是人类目标。

回头参考图7，在315，如果该深度图像不包括人类目标，则可在305接收捕捉区域的新深度图像，使得目标识别、分析和跟踪系统可在310确定该新深度图像是否包括人类目标。

在315，如果该深度图像包括人类目标，则在320可扫描该人类目标以寻找一个或多个身体部位。根据一实施例，可扫描该人类目标以提供与诸如以上参考图1A和1B所描述的用户58等用户的一个或多个身体部位相关联的度量，如长度、宽度等，使得可基于这些度量来生成用户的准确模型，这将在下文更详细描述。

在一示例实施例中，可隔离该人类目标，并且可创建该人类目标的位掩码来扫描一个或多个身体部位。该位掩码可通过例如对人类目标进行泛色填充，使得该人类目标可以与捕捉区域元素中的其他目标或对象分离来创建。随后可分析该位掩码来寻找一个或多个身体部位，以生成人类目标的模型，如骨架模型、网格人类模型等。

图11示出了包括被扫描来生成模型的人类目标402的深度图像400的示例实施例。例如，在深度图像400中找到诸如人类目标402等有效人类目标之后，可移除深度图像中不与人类目标匹配的背景或区域。然后可为人类目标402生成位掩码，该位掩码可包括该人类目标沿着例如X、Y和Z轴的值。根据一示例实施例，可从例如头部开始扫描人类目标402的位掩码来寻找各个身体部位，以生成人类目标402的骨架模型。

如图11所示，可扫描诸如位、像素等与匹配的人类目标402相关联的信息来确定与人类目标402的身体的各个部位相关联的各个位置，如扫描bp1-扫描bp6。例如，在移除了深度图像中人类目标402周围的背景或区域之后，该深度图像400可包括隔离的人类目标402。然后可为隔离的人类目标402生成可包括X、Y和Z值的位掩码。可扫描人类目标402的位掩码来确定各个身体部位。例如，最初可确定人类目标402的位掩码的顶部。如图11所示，人类目标402的位掩码的顶部可以与如扫描bp1所指示的头的顶部的位置相关联。在确定了头的顶部之后，可以向下扫描位掩码继而确定人类目标402的颈的位置、人类目标402的肩的位置，以此类推。

根据一示例实施例，为了确定人类目标402的颈、肩等的位置，可以将例如被扫描的位置处的位掩码的宽度与关联于例如颈、肩等的典型宽度的阈值进行比较。在替换实施例中，可以使用离位掩码中先前扫描的并与身体部位相关联的位置的距离来确定颈、肩等的位置。

在一个实施例中，为了确定肩的位置，可将图11中由扫描bp3指示的位置处的位掩码的宽度与阈值肩值进行比较。例如，可以将图11中的扫描bp3指示的位置处的位掩码的X值处的两个最外部Y值之间的距离与例如人类的肩之间的典型距离的阈值肩值进行比较。由此，根据一示例实施例，该阈值肩值可以是与人类的身体模型的肩相关联的典型宽度或宽度范围。

在另一实施例中，为了确定肩的位置，可从头向下解析一特定距离的位掩码。例如，可与头的顶部相关联的位掩码的顶部可具有与其相关联的X值。然后可以将所存储的与从人类身体的头的顶部到肩的顶部的典型距离相关联的值加到头的顶部的X值来确定肩的X值。由此，在一个实施例中，可将所存储的值加到与图11所示的扫描bp1相关联的X值来确定与扫描bp3处的肩相关联的X值。

在一实施例中，诸如腿、脚等的某些身体部位可基于例如其他身体部位的位置来计算。例如，如上所述，可以扫描诸如与人类目标402相关联的位、像素等的信息来确定由图11中的扫描bp1-扫描bp6表示的人类目标402的各个身体部位的位置。基于这些位置，随后可以为人类目标402计算诸如腿、脚等的后续身体部位。

根据一示例实施例中，在确定例如诸如身体部位等的值后，可以创建可包括诸如与人类目标402的位掩码的扫描相关联的身体部位的长度、宽度等的度量值的数据结构。在一实施例中，该数据结构可包括从多个深度图像平均的扫描结果。例如，诸如以上参考图1A-2所描述的捕捉设备60等的捕捉设备可按帧来对捕捉区域进行捕捉。每一帧可包括一深度图像。可如上所述分析每一帧的深度图像来确定是否包括人类目标。如果帧的深度图像包括人类目标，则可以在320处扫描与该帧相关联的深度图像的人类目标的位掩码来寻找一个或多个身体部位。然后可以对为每一帧所确定的身体部位的值求平均，从而使得该数据结构可包括诸如与每一帧的扫描相关联的身体部位的诸如长度、宽度等的平均度量值。根据另一实施例，可调整所确定的身体部位的度量值，如放大、缩小等，使得数据结构中的度量值更接近地对应于典型的人类身体模型。

回头参考图7，在325，然后可基于扫描来生成人类目标的模型。例如，根据一实施例，可使用由所扫描的位掩码确定的度量值来定义骨架模型中的一个或多个关节。该一个或多个关节可用于定义可对应于人类的身体部位的一个或多个骨骼。

图12示出了表示所扫描的人类目标的骨架模型405的示例实施例。根据一示例实施例，骨架模型405可包括一个或多个数据结构，这些数据结构可将例如以上参照图8-10描述的人类目标402表示为三维模型。每个身体部位可被表征为定义骨架模型405的关节和骨骼的数学矢量。

如图12中所示的，骨架模型405可包括一个或多个关节n1-n18。根据一示例实施例，关节n1-n18中的每一个可使得在这些关节之间定义的一个或多个身体部位能相对于一个或多个其他身体部位移动。例如，表示人类目标的模型可包括多个刚性和/或可变形身体部位，这些身体部位由一个或多个诸如“骨骼”等结构件来定义，而关节n1-n18位于相邻骨骼的交叉点处。关节n1-n18可使得与骨骼和关节n1-n18相关联的各个身体部位能够彼此独立地移动。例如，如图12中所示的，关节n7与n11之间定义的骨骼对应于前臂，该前臂可独立于例如关节n15与n17之间的骨骼——其对应于小腿——移动。

图13A-13E示出了调整关节来生成以上参考图11-12描述的人类目标402的骨架模型405的示例实施例。根据图13A所示的示例实施例，对位掩码的初始扫描可呈现表示左肩关节的关节n4′。如图13A所示，关节n4′不能准确地表示人类的左肩关节的典型位置。然后可调整关节n4′，使得该关节可沿着例如X、Y和Z轴重新定位以更准确地表示人类的左肩关节的典型位置，如图13E中的关节n4所示。

根据一示例实施例，为重新定位关节n4′，可将与所扫描的人类目标402的肩的顶部的参考点与关节n4′之间的距离相关联的dY值和与人类目标402的边的参考点与关节n4′之间的距离相关联的dX值进行比较。如果dY值大于dX值，则可在第一方向上，诸如沿着Y轴向上将关节n4′移动dX值，以生成由图13B中的关节n4″表示的新左肩关节。或则，如果dX值大于dY值，则可在第二方向上，如沿着X轴向右将关节n4′移动dY值。

根据一实施例，关节n4′可被重定位以呈现13B和13C所示的后续关节n4″和n4″′，直到重新定位的关节具有在例如肩胛到图13E中的关节n4所示的关节的典型距离的范围之内的s值。例如，如上所述，可将关节n4′沿着Y轴向上移动dX值来生成图13B中的关节n4″。然后可比较关节n4″的dX和dY值。如果dY值大于dX值，则可将关节n4″沿着Y轴向上移动dX值。或者，如果dX值大于dY值，则可将关节n4″沿着X轴向右移动dY值来生成图13C中的关节n4″′表示的另一新的左肩关节。在一示例实施例中，然后可如上所述地调整关节n4″′来生成另一新的左肩关节，使得可生成并调整后续的新的左肩关节，直到例如新的左肩关节之一的dX和dY值等于图13D中的关节n4″″表示的所定义的肩容差或在其范围之内。根据一示例实施例，然后可将关节n4″″以例如诸如45度角等角度朝向或远离肩的边移动，以生成图13E所示的包括在例如肩胛到关节的典型长度的范围之内的s值的关节n4。

由此，根据一示例实施例，可调整一个或多个关节，直到这些关节在人类的关节和身体部位之间的典型距离范围之内，以生成更准确的骨架模型。根据另一实施例，可基于例如与所接收的人类目标相关联的高度来进一步调整该模型，以生成更准确的骨架模型。例如，可以基于与所接收的人类目标相关联的高度来重定位或缩放关节和骨骼。

在330，然后可跟踪该模型。例如，根据一示例实施例，诸如以上参考图11描述的骨架模型405等骨架模型可以是诸如以上参考图1A和1B描述的用户58等用户的表示。当用户在物理空间中移动时，可使用来自诸如以上参考图1A和1B描述的捕捉设备60等捕捉设设备的信息来调整骨架模型，使得该骨架模型可更准确地表示用户。具体地，可向该骨架模型的一个或多个受力方面施加一个或多个力，来将该骨架模型调整成更接近地对应于物理空间中的人类目标的姿态的姿态。

在一实施例中，如上所述，该骨架模型可由捕捉设备来生成。可将包括与需要作出的调整相关联的任何信息的骨架模型提供给诸如以上参考图1A-6描述的计算环境52等计算环境。该计算环境可包括可用于基于骨架模型中的各个身体部位的位置来确定要在应用程序内执行的控制的姿势库。

然后可响应于跟踪对骨架模型的改变来改变屏幕上人物的视觉外观。例如，可由此处描述的游戏控制台来跟踪诸如以上参考图1A和1B描述的在游戏控制台上玩电子游戏的用户58等用户。具体地，可使用诸如骨架模型等身体模型来对目标用户建模，并且可使用该身体模型来呈现屏幕上的用户化身。当用户伸直一条手臂时，游戏控制台可跟踪该运动，并响应于所跟踪的运动来相应地调整身体模型。游戏控制台还可将一个或多个约束施加到身体模型的移动。在作出此类调整并施加此类约束之后，游戏控制台可显示经调整的用户化身。

骨架跟踪

本节提供了关于如何跟踪人类目标的骨架模型的附加信息。图14示出了示例身体模型406的非限制视觉表示。身体模型406是所建模的目标(例如，图1A和1B的用户58)的机器表示。该身体模型可包括一个或多个数据结构，这些数据结构包括以游戏或其他应用程序/操作系统的语言来共同定义所建模的目标的一组变量。

目标的模型可在不脱离本发明的范围的情况下不同地配置。在某些示例中，模型可包括将目标表示为包括刚性和/或可变形形状，即身体部位的三维模型的一个或多个数据结构。每一身体部位可被表征为数学图元，其示例包括但不限于球体、各向异性地缩放的球体、圆柱体、各向异性圆柱体、平滑圆柱体、方形、斜面方形、棱柱等。

例如，图14的身体模型406包括身体部位bp1到bp14，其每一个都表示所建模的目标的一不同部分。每一身体部位是一三维形状。例如，bp3是表示所建模的目标的左手的矩形棱柱，而bp5是表示所建模的目标的左上臂的八边形棱柱。身体模型406的示例性表现在身体模型可包含任何数量的身体部位，其每一个都可以是所建模的目标的对应部分的任何机器可理解表示。

包括两个或更多身体部位的模型还可包括一个或多个关节。每一关节可允许一个或多个身体部位相对于一个或多个其他身体部位移动。例如，表示人类目标的模型可包括多个刚性和/或可变形身体部位，其中某些身体部位可表示人类目标的对应的解剖学身体部位。此外，该模型的每一身体部位可包括一个或多个结构件(即，“骨骼”)，且关节位于相邻骨骼的交叉点处。可以理解，某些骨骼可对应于人类目标中的解剖学骨骼，和/或某些骨骼可能不具有人类目标中的对应的解剖学骨骼。

骨骼和关节可共同构成骨架模型，其可以是该模型的构成元素。骨架模型可包括对应于每一身体部位的一个或多个骨架构件以及相邻骨架构件之间的关节。示例性骨架模型407和示例性骨架模型408分别在图15和16中示出。图15示出了从前方看的具有关节j1到j33的骨架模型407。图16示出了从斜视图看的也具有关节j1到j33的骨架模型408。骨架模型407还包括滚动关节j34到j47，其中每一滚动关节可用于跟踪轴向滚动角。例如，轴向滚动角可用于相对于其源四肢和/或躯干来定义四肢的旋转定向。例如，如果骨架模型示出手臂的轴向旋转，则可使用滚动关节j40来指示相关联的腕所指向的方向(例如，手掌向上)。由此，尽管关节可受力并调整骨架模型，但如下所述，可改为构造并利用滚动关节来跟踪轴向滚动角。更一般地，通过检查四肢的相对于其源四肢和/或躯干的定向，可确定轴向滚动角。例如，如果正在检查小腿，则可检查小腿的相对于相关联的大腿和臀的定向来确定轴向滚动角。

如上所述，某些模型可包括用作所建模的目标的机器表示的骨架和/或身体部位。在某些实施例中，模型可另选地或另外地包括线框网格，该线框网格可包括刚性多边形网格、一个或多个可变形网格或两者的任意组合的分层结构。作为一个非限制性示例，图17示出了包括排列成定义身体模型的形状的网格的多个三角形(例如，三角形412)的模型410。这一网格可包括每一多边形边处的弯曲限制。当使用网格时，可选择共同构成该网格的三角形和/或其他多边形的数量来达到质量和计算开销之间的所需平衡。更多三角形可提供更高的质量和/或更准确的模型，而更少三角形可需要更少的计算。包括多边形网格的身体模型不需要包括骨架，但在某些实施例中可包括骨架。

上述身体部位模型、骨架模型和多边形网格是可用作所建模的目标的机器表示的非限制示例模型类型。其他模型也在本发明的范围之内。例如，某些模型可包括片、非均匀旋转B样条、或其他高阶表面。模型还可包括表面纹理和/或其他信息来更准确地表示所建模的目标的衣着、头发和/或其他方面。

如上所述，模型用作诸如图1A和1B中的用户58等目标的表示。当目标在物理空间中移动时，来自诸如图1A和1B中的捕捉设备60等捕捉设备的信息可用于调整模型，以使其准确地表示该目标。具体地，可向该模型的一个或多个受力方面施加一个或多个力，来将该模型调整成更接近地对应于物理空间中的目标的姿态的姿态。取决于所使用的模型的类型，可向模型的关节、身体部位的重心、三角形的顶点、或任何其他合适的受力方面施加力。此外，在某些实施例中，在确定力的方向和/或大小时可使用两个或更多不同的计算。如以下更详细描述的，捕捉设备所检索的目标的所观察图像与模型的光栅化(即，合成)图像之间的差别可用于确定施加于该模型的力以将身体调整到不同的姿势。

图18示出了使用模型(例如，图14的身体模型406)来跟踪目标的示例方法420的流程图。在某些实施例中，该目标可以是人类，并且该人类可以是所跟踪的两个或更多目标中的一个。由此，在某些实施例中，方法420可由计算系统(例如，目标识别、分析和跟踪系统50、如图1A-2所示的计算环境52、图5中的多媒体控制台100和/或图6中所示的计算系统220)来执行，以跟踪与正在计算系统上玩的电子游戏交互的一个或多个用户。如以上所介绍的，对用户的跟踪允许这些用户的物理移动用作调整和/或控制电子游戏的参数的实时用户接口。例如，所跟踪的用户的运动可用于移动电子角色扮演游戏中的屏幕上的人物或化身。在另一示例中，所跟踪的用户的运动可用于控制电子赛车游戏中的屏幕上的车辆。在又一示例中，所跟踪的用户的运动可用于控制虚拟环境中的物体的建筑或组织。

在422，方法420包括接收来自如上所述的深度照相机的目标的所观察的深度图像。图19示出了示例性的所观察的深度图像460的视觉表示。如图所示，所观察的深度图像460捕捉手臂上举站立的人(例如，用户58)的示例性的所观察的姿态。

如图18的424处所示，在接收到所观察的深度图像之后，方法420可任选地包括将所观察的深度图像降采样到较低的处理分辨率。降采样到较低处理分辨率可允许更容易地以更少的计算开销来使用所观察的深度图像和/或更快速地处理所观察的深度图像。

如426处所示，在接收到所观察的深度图像之后，方法420可任选地包括从所观察的深度图像中移除背景。移除背景可包括将所观察的深度图像的各个区域分隔成背景区域和目标的图像所占据的区域。背景区域可从图像中移除或被标识以使其可在一个或多个后续处理步骤期间被忽略。

如428处所示，在接收到所观察的深度图像之后，方法420可任选地包括从所观察的深度图像中移除和/或平滑掉一个或多个高变度和/或含噪声的深度值。所观察的深度图像中的此类高变度和/或含噪声的深度值可源自多个不同来源，如在图像捕捉过程期间发生的随机和/或系统性误差、因捕捉设备而导致的缺陷和/或畸变等等。由于此类高变度和/或含噪声的深度值可以是图像捕捉过程的伪像，因此在图像的任何将来的分析中包括这些值会使结果偏斜和/或使计算变慢。由此，移除此类值可为将来的计算提供更好的数据完整性。

如430处所示，方法420可任选地包括填入和/或重构丢失和/或移除的深度信息的各部分。此类回填可通过对最近邻居求平均、过滤和/或任何其他合适的方法来实现。

如图18的432处所示，方法420可包括获得模型(例如，图14的身体模型406)。如上所述，该模型可包括一个或多个多边形网格、一个或数学图元、一个或多个片、一个或多个非均匀旋转B样条、和/或用于提供目标的机器表示的其他特征。此外，该模型可作为计算系统上存在的一个或多个数据结构的实例来存在。

在方法420的一些实施例中，该模型可以是从前一时间步获得的模型。例如，如果方法420是连续执行的，则可获得从方法420的前一次迭代得到的、对应于前一时间步的模型。

在其他实施例中，该模型可以从数据库和/或其他程序获得。例如，模型可能无法在方法420的第一次迭代期间获得，在这一情况下该模型从包括一个或多个模型的数据库获得。在这一情况下，来自数据库的模型可使用被设计成展示与目标的姿势相似的姿势的模型的搜索算法来选择。即使来自前一时间步的模型是可用的，也可使用来自数据库的模型。例如，如果目标的姿态改变超过预定阈值，和/或根据其他准则，则可在特定帧数之后使用来自数据库的模型。

在其他实施例中，可合成模型或其部分。例如，如果目标的身体核心(躯干、上腹部和臀)是由可变形多边形模型来表示的，则该模型可在最初使用所观察的深度图像的内容来构造，其中该图像中的目标的轮廓(即，侧面影像)可用于形成X和Y维度中的网格。另外，在这一方法中，所观察的深度图像的该区域中所观察的深度值可用于在模型的XY方向以及Z方向上“塑造”网格，以更令人满意地表示目标的身体形状。

方法420还可包括使用合适的方法来表示出现在目标上的任何衣物。这一合适的方法可包括向模型添加图元或多边形网格形式的辅助几何结构，以及任选地基于姿态来调整该辅助几何来反映重力、衣料仿真等等。这一方法可方便将模型塑造成目标的更真实表示。

如434所示，方法420可任选地包括项模型应用动力算法。由于目标的各个部分的动力可以预测图像序列的变化，因此这一算法可用于帮助获得模型。动力算法可使用模型的每一关节或顶点在多个固定数量的先前帧上的轨迹，以帮助获得模型。

在某些实施例中，目标的不同部分可以在一时间帧(例如，一秒的1/30或1/60)内移动有限距离的知识可用作获得模型时的约束。这一约束可用于在前一帧已知时排除特定姿态。

在图18的436，方法420还可包括将模型光栅化成合成深度图像。光栅化允许由数学图元、多边形网格或其他对象描述的模型被转换成由多个像素描述的合成深度图像。

光栅化可以使用一个或多个不同的技术和/或算法来进行。例如，光栅化模型可包括将模型的表示投影到二维平面上。在包括多个身体部位形状的模型(例如，图14的模型406)的情况下，光栅化可包括将身体部位形状的集合投影并光栅化到二维平面上。对于模型投影到其上的二维平面中的每一像素，可存储各种不同类型的信息。

图20示出了对应于图14的身体模型406的示例性合成深度图像的视觉表示462。图21示出了同一合成深度图像的一部分的像素矩阵470。如480所指示的，合成深度图像中的每一合成像素可包括合成深度值。对应于给定合成像素的合成深度值可以是来自由该合成像素表示的模型的对应部位的深度值。换言之，如果前臂身体部位(例如，图14的前臂身体部位bp4)的一部分被投影到二维平面上，则对应的合成像素(例如，图21的合成像素472)可被给予等于前臂身体部位的该部分的深度值的合成深度值(例如，图21的合成深度值474)。在所示示例中，合成像素472具有合成深度值382cm。同样，如果相邻的手身体部位(例如，图14的手身体部位bp3)被投影到二维平面上，则对应的合成像素(例如，图21的合成像素476)可被给予等于手身体部位的该部分的深度值的合成深度值(例如，图21的合成深度值488)。在所示示例中，合成像素476具有合成深度值383cm。可以理解，以上是作为示例提供的。合成深度值可以用任何度量单位来保存，或作为无量纲数来保存。

如480处所指示的，合成深度图像中的每一合成像素可包括一身体部位索引。这一身体部位索引可指示像素对应于模型的哪些身体部位。在图21所示的示例中，合成像素472具有身体部位索引bp4，而合成像素476具有身体部位索引bp3。在某些实施例中，如果合成像素不对应于目标的身体部位(例如，背景像素)，则合成像素的身体部位索引可以为0。在某些实施例中，不对应于身体部位的合成像素可被给予一不同类型的索引。

如480处所示，合成深度图像中的每一合成像素可包括玩家索引，该玩家索引对应于该目标。例如，如果有两个目标，则对应于第一目标的合成像素将具有第一玩家索引，而对应于第二目标的合成像素将具有第二玩家索引。在所示示例中，像素矩阵470仅对应于一个目标，因此合成像素472具有玩家索引P1，且合成像素476具有玩家索引P1。可使用其他类型的索引系统而不背离本发明的范围。

如480处所指示的，合成深度图像中的每一合成像素可包括一像素地址。该像素地址可定义像素相对于其他像素的位置。在所示示例中，合成像素472具有像素地址[5，7]，而合成像素476具有像素地址[4，8]。可以理解，可使用其他定址方案而不背离本发明的范围。

以上提供的示例类型的像素信息并非限制。可存储各种不同类型的信息来作为每一像素的一部分。可被分配给每一像素的其他类型的像素信息的非限制示例包括但不限于，关节索引、骨骼索引、顶点索引、三角形索引、重心索引等等。

在438，图18的方法420可任选地包括增大或折断身体部位索引和/或玩家索引。换言之，可扩大合成深度图像以使某些像素的身体部位索引和/或玩家索引改变来试图更接近地对应于所建模的目标。

在执行上述光栅化时，可构造一个或多个Z缓存和/或身体部位/玩家索引图。作为一个非限制示例，这一缓存/图的第一版本可通过执行如下Z测试来构造：选择最接近观看者(例如，深度照相机)的表面并且将与该表面相关联的身体部位索引和/或玩家索引写入对应的像素。这一缓存/图的第二版本可通过执行如下Z测试来构造：选择最接近该像素处的所观察的深度值的表面，并且将与该表面相关联的身体部位索引和/或玩家索引写入对应的像素。可约束这些测试，以便拒绝合成深度值和所观察的深度之间超过预定阈值的Z距离。在某些实施例红，可维护两个或更多Z缓存和/或两个或更多身体部位玩家索引，从而允许进行两个或更多上述测试。

缓存/图的第三版本可通过增大和/或纠正身体部位/玩家索引图来构造。以上述缓存/图的第二版本的副本开始，可在预定Z距离内在任何“未知”值上增大各值，使得被目标占据但未被身体模型占据的空间可以用正确的身体部位/玩家索引来填充。这一方法还可包括如果标识了更满意的匹配则不取已知值。

这一缓存/图的第三版本可以从在所复制的图的合成像素上过一遍来检测具有带有不同身体部位/玩家索引的相邻像素的像素开始。这些可被认为是“边”像素，即，可任选地沿着其来传播值的边际。如上所述，增大像素值可包括增大为“未知”或“已知”像素。对于“未知”像素，例如，在一个场景中，身体部位/玩家索引值之前可能为0，但是现在可具有非零相邻像素。在这一情况下，可检查四个直接相邻像素，并且可选择具有更接近地类似于感兴趣的像素的深度值的所观察的深度值的相邻像素并将其分配给感兴趣的像素。在“已知”像素的情况下，可能是如果具有已知非零身体部位/玩家索引值的像素的一个相邻像素具有在光栅化期间写入的、比该像素的合成深度值更接近地匹配感兴趣像素的所观察的深度值的深度值，则不取该具有已知非零身体部位/玩家索引值的像素。

另外，出于效率的目的，更新合成像素的身体部位/玩家索引值可包括将其相邻的四个像素添加到要在后一遍重新访问的像素的队列。由此，值可沿着边际持续传播而不用在所有像素上完整地过一遍。

此外，任何身体部位/玩家索引对象(例如，图14的左前臂身体部位bp4)可增大的像素数量可基于预期这一对象占据多少像素(例如，给定其形状、距离和角度)对比缓存/图的第二版本中有多少像素被分配该身体部位/玩家索引来限制。另外，上述方法可包括对于某些姿态添加优点或缺点来偏斜对某些身体部位的增大以使增大更正确。

如果确定来自身体部位的像素的分布分组成一个深度，而来自同一身体部位的像素的另一分布分组成另一深度，从而在这两个分布之间存在间隙，则可以作出逐步的折断调整。例如，在躯干前面挥动和靠近躯干挥动的手臂可“溢出到”躯干中。这一情况可产生一组具有一身体部位索引的躯干像素，该身体部位索引指示它们是手臂像素，而实际上它们应是躯干像素。通过检查较低的手臂中的合成深度值的分布，可以确定某些手臂像素可分组成一个深度，而其余可分组成另一深度。这两组深度值之间的间隙指示手臂像素和应该是躯干像素的像素之间的跳跃。由此，响应于标识这一间隙，然后可通过向溢出像素分配躯干身体部位索引来修补该溢出。

在440，图18的方法420可任选地包括从所观察的深度图像和合成深度图像创建高度图。该高度图可用于示出所观察的深度图像和合成深度图像之间的深度值之差。这一高度图的梯度，和/或这一高度图的模糊版本可在确定要对模型作出的调整的方向时使用，如下文所描述的。另选地或另外地，可执行所有方向上的搜索来标识可应用调整的最接近关节和/或要作出这一调整的方向。当使用高度图时，可以在以下描述的像素类确定之前、之后或同时创建。

合成深度图像和所观察的深度图像可能不是相同的，且因此合成深度图像可使用调整或修改以使其更接近地匹配所观察的深度图像且因此更准确地表示目标。因此，可采取多种不同方法来修改合成深度图像。在一种方法中，可获得并光栅化两个或更多不同模型来产生两个或更多合成深度图像。每一合成深度图像然后可以通过一组预定比较度量来与所观察的深度图像进行比较。可选择展示出与所观察的深度图像最接近的匹配的合成深度图像，且该过程可任选地重复来改进该模型。

在另一方法中，可经由内插或外插来混合两个或更多合成深度图像以产生混合的合成深度图像。在又一方法中，可按使得混合技术和参数跨混合的合成深度图像变化的方式来混合两个或更多合成深度图像。例如，如果第一合成深度图像在一个区域中令人满意地匹配到所观察的深度图像，而第二合成深度图像在第二区域中令人满意地匹配，则混合的合成深度图像中所选的姿态可以是类似于第一区域中的第一合成深度图像并类似于第二区域中的第二合成深度图像的混合。

在再一方法中，如图18的442处所示，可将合成深度图像与所观察的深度图像进行比较。合成深度图像的每一合成像素可基于比较的结果来分类。这一分类可被称为为每一像素确定像素例(pixel case)。用于创建合成深度图像的模型(例如，图14的身体模型406)可根据所确定的像素例来系统地调整。具体地，可基于所确定的像素例来计算力矢量(大小和方向)，并且取决于模型的类型，可将所计算的力矢量施加于最接近的关节、身体部位的中心、三角形的顶点、或用于生成合成深度图像的模型的另一预定受力位置。

可以基于一个或多个因素为每一合成像素选择一像素例，这些因素包括但不限于，对于该合成像素的所观察的深度值和合成深度值之差；该合成像素的身体部位/玩家索引；和/或与该合成像素在438处所示且在上文描述的增大/修补操作之后的身体部位/玩家索引相比，该合成像素在光栅化之后的身体部位/玩家索引。

如图18的444处所示，确定像素例可包括选择细化z像素例。细化z像素例可在所观察的深度图像的所观察的像素(或所观察的像素的区域中)的所观察的深度值不匹配合成深度图像中的合成深度值、但足够接近而可能属于两个图像中的同一对象，且身体部位索引匹配或对应于相邻身体部位时选择。如果合成像素的所观察的深度值和合成深度值之差在预定范围内且该合成像素对应于除了手臂之外的身体部位，则可对该合成像素选择细化z像素例。该细化z像素例对应于可对模型施加力来将模型移至正确位置的所计算的力矢量。所计算的力矢量可沿着垂直于图像平面的Z轴、沿着模型的一方面(例如，对应身体部位的脸部)的法向的矢量、和/或沿着附近的所观察像素的法向的矢量来施加。

如图18的446处所示，确定像素例可包括选择吸引力像素例。吸引力像素例可在与以上对细化z像素例相似的条件下选择，除了吸引力像素例可在所检查的合成像素对应于预定的身体部位子集(例如，手臂，或图14的bp3、bp4、bp5、bp7、bp8和bp9)时使用。尽管作为示例来提供手臂，但在某些场景中其他身体部位可任选地与吸引力像素例相关联。同样，在某些场景中，手臂可能不与吸引力像素例相关联。

如果合成像素对应于预定身体部位，并且任选地，该合成像素的所观察的深度值和合成深度值之差在预定范围内，则可以为该合成像素选择吸引力像素例。吸引力例对应于可在模型上施加的三维(3-D)力的计算的力矢量，使得模型的最接近或“满意匹配的”受力部位可被拉向所观察的深度图像中的像素组。该计算的3-D力矢量可使用任何合适的方法来计算，如通过标识从模型上的最接近或“满意匹配的”受力位置到所观察的深度图像的所观察的像素的矢量，使得当被施加时，该计算的力矢量可移动模型，使得对应的模型更令人满意地匹配所观察的图像中所示的目标。吸引力像素例的一个优点是其对诸如手臂等灵活身体部位表现良好的能力。

如图18的448和450处所示，确定像素例可包括选择拉像素例和/或推像素例。这些像素例可在合成和所观察的深度值可能严重失配的轮廓处调用。拉像素例和退像素例可在如合成深度图像中所示的模型(或身体部位)的轮廓不匹配所观察的深度图像的轮廓时使用。在这一情况下，所观察的深度图像中的模型的一侧上的深度值低于(即，更接近)合成深度图像中所示的目标的深度值。相反，所观察的深度图像中的模型的另一侧上的深度值可能更远。在这一情况下，可对模型施加计算的三维力矢量，以将其推或拉到更准确地匹配所观察的深度图像中的目标的位置的位置。这一推和/或拉的方向通常主要在XY平面中，但在某些场景中可项该力添加Z分量。该力的方向可任选地通过跟随上述高度图或其模糊版本的梯度来确定。

如果合成像素的所观察的深度值和合成深度值之差在预定范围外且所观察的深度值小于合成深度值，或者对于该像素没有光栅化任何深度值，则可对该合成像素选择拉像素例。由此，当像素不是作为模型的一部分来呈现，而是通过邻近度并通过使用上述缓存/图的第三版本认为所观察的深度图像的该像素处的所观察的深度值可能属于该模型所表示的目标时，所计算的力矢量可将模型拉向所观察的深度图像的对应的所观察的深度值。在某些实施例中，该模型可任选地在Z方向上调整。

如果合成像素的所观察的深度值和合成深度值之差在预定范围外且所观察的深度值大于合成深度值，则可对该合成像素选择推像素例。由此，当像素作为模型的一部分来呈现，但该像素处的所观察的深度值要远得多时，该模型可被部分地绘制在背景上。当施加时，所计算的力矢量使得绘制在背景上的像素在正确的XY方向上将模型推向目标，以使模型的轮廓更令人满意地匹配所观察的轮廓。在某些实施例中，该模型可任选地在Z方向上调整。

如图18的452和454处所示，确定像素例可包括选择自遮蔽推和/或拉像素例。尽管在上述推和拉像素例中身体部位可在前景中相对于背景移动，但自遮蔽推和拉像素例考虑了其中身体部位在另一身体部位的前方(例如，一条腿在另一条腿前方，或者手臂在躯干前方)的场景。在这些情况下，力的方向可被设为向着所观察的深度图像中的相关联的身体部位起作用，而非利用高度图。

如图18的456处所示，确定像素例可包括对合成像素不选择任何像素例。经常会不需要对合成深度图像的所有合成像素计算力矢量。例如，远离合成深度图像中所示的身体模型的合成像素以及远离所观察的深度图像中所示的目标的所观察的像素(即，背景像素)可能不会影响任何受力位置或身体部位。不需要对这些像素确定像素例，但在某些场景中也可以确定。作为另一示例，合成像素的所观察的深度值和合成深度值之差可能低于预定阈值(例如，模型已经匹配了所观察的图像)。由此，不需要对这些像素确定像素例，但在某些场景中也可以确定。

以下提供的表详述了上述像素例与图16的骨架模型408中所示的关节之间的示例关系。在该表中，像素例1-7被如下缩写：1-拉(正常)、2-拉(遮蔽)、3-推(正常)、4-推(遮蔽)、5-细化Z、6-吸引力拉、以及7-遮蔽(无动作)。“受力？”列中的“是”条目指示该行的关节可接受来自力矢量的力。像素例列中的“X”条目表示该行的关节可接受来自对应于该列的像素例的力矢量的力。可以理解，下表是作为示例提供的。其不被认为是限制。可建立模型和像素例之间的其他管理而不背离本发明的范围。

在458，图18的方法420包括对为其确定了像素例的每一合成像素，基于为该合成像素选择的像素例来计算力矢量。如上所述，每一像素例对应于用于选择力矢量的大小、方向和/或受力位置的不同算法和/或方法。力矢量可在任何坐标空间，如自然空间、屏幕空间(预Z划分)、投影空间(后Z划分)、模型空间等中计算和/或累积。

在458，方法420包括将每一计算的力矢量映射到模型的一个或多个受力位置。映射可包括将所计算的力矢量映射到“最匹配”受力位置。对模型的最匹配受力位置的选择取决于为对应的像素选择的像素例。最匹配受力位置可以是例如最接近的关节、顶点或重心。在某些实施例中，可向模型施加力矩(即，旋转力)。

一般而言，平移可因具有相似方向的力作用于模型的受力位置而导致，而旋转可因不同方向的力作用于模型的受力位置而导致。对于可变形对象，力矢量的某些分量可用于将模型在其变形限制内变形，并且力矢量的其余分量可用于平移和/或旋转模型。

在某些实施例中，力矢量可被映射到最匹配的刚性或可变形对象、子对象、和/或对象的多边形集。因此，力矢量的一部分可用于将模型变形，而力矢量的其余分量可用于执行模型的刚性平移。这一技术可导致“破裂的”模型(例如，手臂可从身体切断)。如以下更详细讨论的，然后可使用校正步骤来将平移变换成旋转和/或应用约束以将身体部位连接回到一起。

图22A和22B示出了向模型——所示示例中为骨架模型490施加力矢量的非常简化的示例。为简明起见，所示示例中仅示出了两个力矢量。每一这样的力矢量可以是从两个或更多不同像素的像素例确定和力矢量计算中所得的两个或更多不同力矢量相加的结果。通常，模型将通过许多不同的力矢量来调整，每一力矢量是从许多不同像素的像素例确定和力矢量计算所得的许多不同力矢量之和。

图22A示出了骨架模型490，其中出于使骨架模型490的一条手臂伸直来更接近地匹配所观察的深度图像的目的，力矢量492被施加于关节j18(即，肘)，而力矢量494被施加于关节j20(即，腕)。图22B示出了在施加力后的骨架模型490。图22B示出所施加的力如何调整模型的姿态。如图22B所示，可保持骨架构件的长度。如进一步示出的，关节j2的位置保持在骨架模型的肩部，这是对于伸直手臂的人类的情况所预期的。换言之，在施加力之后骨架模型保持完整。在施加力时维持骨架模型的完整性是从所应用的一个或多个约束导致的，如以下更详细讨论的。可实施各种不同的约束来维持不同的可能模型类型的完整性。

在462，图18的模型420任选地包括将模型校正到满足一个或多个约束的姿态。如上所述，在收集了所计算的力矢量并将其映射到模型的受力位置之后，然后可将所计算的力矢量施加到模型。如果是在没有约束的情况下执行的，则这会使模型“破裂”，将其不成比例地拉长和/或将身体部位移至对于目标的实际身体无效的配置。然后可使用各种功能的迭代来将新模型位置“放松”到“附近的”合法配置。在校正模型的每一次迭代期间，约束可被逐渐地和/或逐步地应用于姿态，以便将该组姿态限制到在物理上可由一个或多个目标的一个或多个实际身体来表达的姿态。在其他实施例中，这一校正步骤可以按非迭代方式来完成。

在某些实施例中，约束可包括以下各项中的一个或多个：骨架构件长度约束、关节角度约束、多边形边角约束、以及碰撞测试，如下文所讨论的。

作为使用骨架模型的一个示例，可应用骨架构件(即，骨骼)长度约束。可被检测的力矢量(即，在关节和/或身体部位可见且未被遮挡的位置处的力矢量)可沿着骨架模型的骨架构件网来传播。通过应用骨架构件长度约束，一旦所有骨架构件是可接受的长度，所传播的力就可“迁入”。在某些实施例中，允许一个或多个骨架构件长度在预定范围内可变。例如，构成躯干两侧的骨架构件的长度可以变化以模拟可变形的上腹部。作为另一示例，构成上臂的骨架构件的长度可以变化以模拟复杂的肩窝。

骨架模型可另外地或另选地通过基于目标计算每一骨架构件的长度，使得这些长度可被用作校正期间的约束来约束。例如，目标的身体的各个部位的尺寸(例如，手臂长度、臀宽度、头部大小等)可通过渲染身体模型的各个版本、在每一次渲染时使用变化的尺寸、以及根据一个或多个合适的度量选择最接近地匹配目标的渲染的尺寸来确定。在另一示例中，可进行单次渲染，并且可通过分析渲染匹配以及不匹配所观察的深度图像的特定区域来推断正确的身体尺寸。

在某些实施例中，在校正之前的关节位置可以与校正之后的关节位置进行比较。如果确定在每一帧中正对骨架模型作出一组一致的调整，则方法420可使用该信息来对骨架模型执行“渐进式细化”。例如，通过比较校正之前和之后的关节位置，可以确定在校正期间，在每一帧中肩正被推得相距更宽。这一一致的调整暗示骨架模型的肩要小于所表示的目标的肩，并且因此，在校正期间对每一帧调整肩宽来纠正此问题。在这一情况下，可作出诸如增大骨架模型的肩宽等渐进式细化来纠正骨架模型。

关于关节角度约束，可以限制特定四肢和身体部位相对于相邻身体部位的运动范围。另外，该运动范围可基于相邻身体部位的定向来改变。因此，应用关节角度约束可允许在给定源四肢和/或身体部位的定向的情况下将四肢段约束到可能的配置。

可应用碰撞测试来防止模型穿透其自身。例如，碰撞测试可防止前臂/手的任何部位穿透到躯干，或防止前臂/手彼此穿透。在其他示例中，碰撞测试可防止一条腿穿透另一条腿。在某些实施例中，碰撞测试可被应用于两个或更多用户的模型来防止相似的场景在模型之间出现。在某些实施例中，碰撞测试可被应用于身体模型和/或骨架模型。在某些实施例中，碰撞测试可被应用于网格模型的某些多边形。

碰撞测试可以按任何合适的方式来应用。一种方法检查一个“体线段”与另一个的碰撞，其中体线段可以是具有向外延伸到3-D中的半径的线段。这一碰撞测试的一个示例可以是检查一条前臂对另一条前臂。在某些实施例中，体线段在该线段的每一端可具有不同的半径。

另一种方法检查体线段与摆好姿态的多边形对象的碰撞。这一碰撞测试的一个示例可以是检查一条前臂对躯干。在某些实施例中，摆好姿态的多边形对象可以是变形的多边形对象。

在某些实施例中，目标的不同部分可以在一时间帧(例如，一秒的1/30或1/60)内移动有限距离的知识可用作约束。这一约束可用于排除因将力施加于模型的像素接收位置而得到的某些姿态。

如464处所示，在调整并任选地约束了模型之后，该过程可循环回到开始新一次将模型光栅化成新的合成深度图像，该新的合成深度图像然后可以与所观察的深度图像进行比较以便对模型作出进一步的调整。以此方式，该模型可被渐进地调整以更接近地表示所建模的目标。在每一帧可完成实际上任何次数的迭代。更多迭代可得到更准确的结果，但更多的迭代也可需要更多的计算开销。在许多场景中认为每一帧两次或三次迭代是适当的。

在466，图18的方法420任选地包括响应于对模型的改变，如图22B所示的改变，来改变屏幕上人物(例如，图23A的玩家化身500)的视觉外观。例如，目标识别、分析和跟踪系统可如此处所示地跟踪正在多媒体控制台(例如，图5的多媒体控制台100)上玩电子游戏的用户。具体地，可使用包括骨架模型(例如，图22A的骨架模型290)的身体模型(例如，图14的身体模型406)来对目标用户建模，并且可使用该身体模型来渲染屏幕上玩家化身。当用户伸直一条手臂时，游戏控制台可跟踪该运动，并响应于所跟踪的运动来如图20B所示地调整模型490。游戏控制台还可如上所述地应用一个或多个约束。在作出此类调整并应用此类约束之后，游戏控制台可显示经调整的用户化身，如图23B所示。这也在图1A中作为示例示出，其中玩家化身64被示为响应于用户58在真实空间中挥出重拳而对对手62重拳出击。

如上所述，可出于除了改变屏幕上人物或化身的视觉外观之外的其他目的来执行视觉目标识别。由此，不需要在所有实施例中都改变屏幕上人物或化身的视觉外观。

如468处所示，可对后续的帧重复上述过程。

运动捕捉

图24描绘了用于捕捉用户在捕捉区域中的运动的示例方法510的流程图。示例方法510可使用例如，参考图1A-6所描述的目标识别、分析和跟踪系统50的捕捉设备60和/或计算环境52来实现。在一示例实施例中，示例方法500可采取可由例如参考图1A-6所描述的目标识别、分析和跟踪系统50的捕捉设备60和/或计算环境52执行的程序代码(即指令)的形式。

根据一实施例，在512，如上所述可接收图像。例如，图像可从捕捉设备60接收。该图像可包括如上参考图8的深度图像400所描述的深度图像。

如图24所示，在一个实施例中，在512处接收到图像之后，可将该图像降采样到较低的处理分辨率，使得该深度图像可用更少的计算开销来被更容易地使用和/或更快地处理。另外，可从深度图像中移除和/或平滑掉一个或多个高变度和/或含噪声的深度值；可填入和/或重构缺少的和/或移除的深度信息的部分；和/或可对所接收的深度信息执行任何其他合适的处理，使得该深度信息可用于生成诸如骨架模型等模型，如将在下文更详细描述的。

在514，如上所述，可以生成图像中的用户的模型。以上图12示出了可例如在514处为人类目标生成的模型405的一个示例实施例。根据一示例实施例，模型405可包括一个或多个数据结构，这些数据结构可将例如以上参照图8描述的人类目标402表示为三维模型。每个身体部位可被表征为定义模型405的关节和骨骼的数学矢量。

如以上图12所描述的，模型405可包括可具有相关联的矢量的一个或多个关节n1-n18。回头参考图24，在516，可跟踪该模型，使得该模型可基于用户的移动来调整。根据一示例实施例，诸如以上参考图12描述的模型405等模型可以是诸如以上参考图1A和1B描述的用户58等用户的表示。目标识别、分析和跟踪系统可观察或捕捉可用于调整模型的、来自诸如用户58等用户的移动。

例如，诸如以上参考图1A-2描述的捕捉设备60等捕捉设备可以观察或捕捉可用于调整模型的捕捉区域的多个图像，如深度图像、RGB图像等。根据一实施例，可基于所定义的频率来观察或捕捉每一图像。例如，捕捉设备可每毫秒、每微秒等来观察捕捉区域的新图像或对其进行捕捉。

在接收到每一图像后，可将与特定图像相关联的信息与和模型相关联的信息进行比较来确定用户是否已经执行了移动。例如，在一个实施例中，该模型可被光栅化成诸如合成深度图像等合成图像。合成图像中的像素可以与和每一接收到的图像中的人类目标相关联的像素进行比较来确定所接收的图像中的人类目标是否已移动。

根据一示例实施例，可以基于在合成图像和所接收的图像之间比较的像素来计算一个或多个力矢量。可向该模型的诸如关节等一个或多个受力方面施加或映射一个或多个力，来将该模型调整成更接近地对应于物理空间中的人类目标或用户的姿态的姿态。

根据另一实施例，可调整该模型以适合每一所接收的图像中的人类目标的掩码或表示，来基于用户的移动调整模型。例如，在接收到每一所观察的图像后，可基于每一所接收的图像中的人类目标的掩码来调整可定义每一骨骼和关节的包括X、Y和Z值的矢量。例如，该模型可基于与每一所接收的图像中的人类的掩码的像素相关联的X和Y值在X方向和/或Y方向上移动。另外，可基于与每一所接收的图像中的人类目标的掩码的像素相关联的深度值在Z方向上旋转该模型的关节和骨骼。

图25A-25C示出了基于诸如以上参考图1A和1B所描述的用户58等用户的移动或姿势来调整模型的示例实施例。如图25A-25C所示，可基于如上所述在各个时间点接收到的深度图像中观察和捕捉的各个点处的用户的移动或姿势来调整以上参考图12所描述的模型405。例如，如图25A所示，通过施加一个或多个力矢量或调整模型来适合如上所述在各个时间点处接收的图像中的人类目标的掩码，可调整模型405的关节n4、n8和n12以及它们之间定义的骨骼来表示当用户举起他或她的左臂时的姿态530。当用户通过移动他或她的左前臂来挥手时，关节n8和n12以及它们之间定义的骨骼可被进一步调整到如图25B-25C所示的姿态532和534。由此，根据一示例实施例，定义与前臂以及它们之间的二头肌相关联的关节n4、n8和n12以及骨骼的数学矢量可包括具有X值、Y值和Z值的矢量，这些值可通过如上所述施加力矢量或将模型适合在掩码内而被调整为对应于姿态530、532和534。

回头参考图24，在518，可生成所跟踪的模型的运动捕捉文件。例如，目标识别、分析和跟踪系统可呈现并存储可包括特定于诸如以上参考图1A和1B描述的用户58等用户的一个或多个运动的运动捕捉文件，这些运动如挥手运动、诸如高尔夫挥杆等挥臂运动、重拳运动、行走运动、奔跑运动等。根据一示例实施例，可基于与所跟踪的模型相关联的信息来实时生成运动捕捉文件。例如，在一个实施例中，该运动捕捉文件可包括例如包括X、Y和Z值的矢量，这些矢量可定义在各个时间点跟踪模型时该模型的关节和骨骼。

在一个示例实施例中，可提示用户执行可在运动捕捉文件中捕捉的各种运动。例如，可显示可提示用户例如行走或进行高尔夫挥杆运动的界面。如上所述，所跟踪的模型然后可基于各个时间点的这些运动来调整，并且可生成并存储对应于所提示的运动的该模型的运动捕捉文件。

在另一实施例中，该运动捕捉文件可捕捉在与目标识别、分析和跟踪系统交互的用户进行自然移动期间所跟踪的模型。例如，可生成运动捕捉文件，使得该运动捕捉文件可自然地捕捉用户在与目标识别、分析和跟踪系统交互期间进行的任何移动或运动。

根据一实施例，该运动捕捉文件可包括对应于例如用户在不同时间点的运动的快照的帧。在捕捉了所跟踪的模型之后，可在运动捕捉文件的一帧中呈现与模型相关联的信息，包括在一特定时间点的任何移动以及应用于模型的调整。该帧中的信息可包括例如包括X、Y和Z值的矢量以及一时间戳，这些矢量可定义所跟踪的模型的关节和骨骼，该时间戳可指示例如用户执行了对应于所跟踪的模型的姿态的移动的时间点。

例如，如上参考图25A-25C所描述的，可跟踪并调整模型405来形成可以指示用户在特定时间点挥动他或她的左手的姿态530、532和534。与对应于姿态530、532和534的、模型405的关节和骨骼相关联的信息可以在运动捕捉文件中捕捉。

例如，图25A所示的模型405的姿态530可以对应于用户最初举起他或她的左臂的时间点。包括诸如对应于姿态530的关节和骨骼的X、Y和Z值等信息的姿态530可例如在运动捕捉文件中具有与用户举起他或她的左臂之后的时间点相关联的第一时间戳的第一帧中呈现。

类似地，图25B和25C所示的模型405的姿态532和534可对应于用户挥动他或她的左手的时间点。包括诸如对应于姿态532和534的关节和骨骼的X、Y和Z值等信息的姿态532和534可例如在运动捕捉文件中分别具有与用户挥动他或她的左手的不同时间点相关联的第二和第三时间戳的第二和第三帧中呈现。

根据一示例实施例，与姿态530、532和534相关联的第一、第二和第三帧可以在运动捕捉文件中在相应的第一、第二和第三时间戳处以顺序时间次序来呈现。例如，对姿态530呈现的第一帧可具有用户举起他或她的左臂时的第一时间戳0秒，对姿态532呈现的第二帧可具有在用户在朝外的方向上移动他或她的左手来开始挥手运动之后的第二时间戳1秒，而对姿态534呈现的第三帧具有用户在向内的方向上移动他或她的左手来完成挥手运动时的第三时间戳2秒。

在520，可将运动捕捉文件应用于化身或游戏人物。例如，目标识别、分析和跟踪系统可将运动捕捉文件中捕捉的所跟踪的模型的一个或多个运动应用于化身或游戏人物，使得可对该化身或游戏人物制作动画来模拟诸如以上参考图1A和1B描述的用户58等用户执行的运动。在一示例实施例中，运动捕捉文件中捕捉的模型中的关节和骨骼可被映射到游戏人物或化身的特定部分。例如，与右肘相关联的关节可被映射到化身或游戏人物的右肘。然后在运动捕捉文件的每一帧中对该右肘制作动画来模拟与用户的模型相关联的右肘的运动。

根据一示例实施例，目标分析、识别和跟踪系统可在运动捕捉文件中捕捉运动时应用一个或多个运动。由此，当在运动捕捉文件中呈现一帧时，可将该帧中捕捉的运动应用于化身或游戏人物，使得可对该化身或游戏人物制作动画来立即模拟该帧中捕捉的运动。

在另一示例实施例中，目标分析、识别和跟踪系统可在运动捕捉文件中捕捉了运动之后应用一个或多个运动。例如，诸如行走运动等运动可由用户执行并在运动捕捉文件中捕捉和存储。诸如行走运动等运动然后可在例如每次用户随后执行被识别为与诸如用户的行走运动等运动相关联的控制命令的姿势时应用于该化身或游戏人物。例如，当用户提起他或她的左腿时，可发起使得化身行走的命令。该化身然后可开始行走，并且可基于与用户相关联且存储在运动捕捉文件中的行走运动来对其制作动画。

图26A-26C示出了可基于例如520处的运动捕捉文件来制作动画的化身或游戏人物540的示例实施例。如图26A-26C所示，可对化身或游戏人物540制作动画来模拟对以上参考图25A-25C所描述的所跟踪的模型405捕捉的挥手运动。例如，图25A-25C中所示的模型405的关节n4、n8和n12以及它们之间定义的骨骼可被映射到如图26A-26C所示的化身或游戏人物540的左肩关节w4′、左肘关节w8′、以及左腕关节w12′和对应的骨骼。然后可对化身或游戏人物540制作动画成模拟图25A-25C所示的分别在运动捕捉文件中的第一、第二和第三时间戳处的模型405的姿态530、532和534的姿势542、544和546。

由此，在一示例实施例中，可响应于运动捕捉文件来改变屏幕上人物的视觉外观。例如，可由此处描述的游戏控制台来跟踪诸如以上参考图1A和1B描述的在游戏控制台上玩电子游戏的用户58等用户。当用户挥动手臂时，游戏控制台可跟踪该运动，并且然后响应于所跟踪的运动，相应地调整诸如骨架模型、网格模型等与用户相关联的模型。如上所述，所跟踪的模型可进一步在运动捕捉文件中捕捉。该运动捕捉文件然后可被应用于屏幕上人物，使得可对该屏幕上人物制作动画来模拟用户挥动他的手臂的实际运动。根据各示例实施例，可对屏幕上人物制作动画来例如如用户挥动他或她的手臂那样在游戏中挥动高尔夫球杆、球拍或重拳出击。

身体姿态估计

也可执行身体姿态估计。如上所述，捕捉设备20和/或计算环境52可对深度图执行一个或多个过程来将深度图上的像素分配给用户身体的各段。从这些所分配的身体部位，计算环境可获得身体部位的结节、重心或关节位置，并且可将结节、关节或重心提供给一个或多个过程来创建身体姿态的3-D模型。在一方面，身体姿态是与用户相关联的该组身体部位的三维位置。在另一方面，姿态包括身体部位的三维位置以及它所指向的方向、身体段或关节的旋转以及身体部位或段的任何其他方面。

图27是示出用于执行身体姿态估计的方法的一个实施例的流程图550。在552，可由目标识别、分析和跟踪系统接收诸如深度图400等深度图。在554，可以将与一个或多个虚拟身体部位相关联的概率分配给深度图上的像素。在556，可以为与虚拟身体部位(可以是结节、关节或重心)相关联的各组相关联的像素计算重心。重心可以是身体的关节或结节的表示，并且可以使用任何数学算法来计算，这些数学算法包括例如对深度图中具有与一身体部位相关联的阈值概率的每一像素的坐标求平均，或者作为另一示例，线性回归技术。在558，可将与身体部位相关联的各个结节、关节或重心组合到模型中，该模型可被提供给目标识别、分析和跟踪系统中的一个或多个程序。该模型不仅可包括关节或身体部位的三维位置，而且还可包括关节的旋转或关于身体部位的指向的任何其他信息。

可为多个用户估计身体姿态。在一个实施例中，这可通过假设用户分段来实现。例如，可将值分配给图像，使得值0表示背景，值1表示用户1，值2表示用户2，以此类推。给定这一用户分段图像，可能对所有用户1像素分类并进行重心寻找，然后对后续用户重复该过程。在另一实施例中，可以执行背景减法，并且然后可对剩余的前景像素(属于多个用户)进行分类。当计算重心时，可以确保每一重心在空间上定位，使得对每一用户存在一相应的身体部位。然后可通过例如在每一用户的整个身体中连接相邻身体部位来将重心组合到相干模型中。

图28描绘了用于将与虚拟身体部位相关联的概率分配给深度图的示例流程图。在一示例实施例中，图28的过程可以在图27的554处执行。过程560可以采用在552处接收的深度图来在554处分配与虚拟身体部位相关联的概率。可以在562处建立深度图上的一个或多个背景深度。例如，一个背景深度可对应于房间背部的墙，其他背景深度可对应于房间中的其他人或物体。这些背景深度可在稍后在图28的流程图中使用来确定深度图上的像素是否是特定用户的身体的一部分，或像素是否与背景相关联。

在564，可在深度图中选择第一位置。可在566处确定第一位置的深度。在568，可将第一位置的深度与一个或多个背景深度进行比较。如果第一位置深度与背景深度相同或在背景深度的指定阈值范围内，则在570，确定第一位置是背景的一部分而不是其他身体部位的一部分。如果第一位置不是背景深度或不在背景深度的指定阈值范围内，则可在572处选择相对于第一位置参考的偏移位置。在574，可以确定偏移位置的深度，并且可执行深度测试来确定偏移位置是否为背景。在576，确定是否需要任何附加偏移位置。

对是否要选择附加偏移位置的以及附加偏移位置距离第一位置的的角度和距离的确定可以部分地基于先前的相对于第一位置和/或背景的偏移位置的深度来作出。这些确定也可基于诸如以下描述的训练模块等其他因素来作出。在一个实施例中，偏移将随深度一起缩放。例如，如果用户非常接近捕捉区域中的检测器，则可在距离第一像素的大偏移距离处测量深度。如果用户要远离检测器移动其两倍距离，则偏移距离可减小两倍。在一个实施例中，该缩放使得深度偏移测试是不变的。可选择任意数量的偏移位置并对其进行深度测试，之后在578处计算第一位置与一个或多个身体部位相关联的概率。该计算可以部分地基于第一位置的深度以及相对于一个或多个背景深度的偏移位置。该计算也可基于诸如以下描述的训练模块等其他因素来作出。

在另一实施例中，可以不执行562。在该实施例中，在566处检查深度图中的每一像素的深度，然后该方法直接前进到在572处选择偏移位置。在这一示例中，可检查深度图中的每一像素的深度或检查其与一个或多个身体部位和/或背景相关联的概率。从在第一像素和偏移位置处作出的确定，可以将概率与一个或多个像素相关联。

图29描绘了图28所涉及的流程图的实例。在图28的流程图中，可使用一系列特征测试来确定深度图中的像素与一个或多个身体部位相关联的概率。在580处选择第一位置像素。在582处检查第一偏移像素，并且在584处检查第二偏移像素。随着检查更多像素的深度，特定像素与身体部位相关联的概率可减小或增大。该概率可被提供给目标识别、分析和跟踪系统中的其他过程。

在图29描绘的另一实例中，在580处选择深度图的第一位置像素，其中该深度图具有该深度图中的每一像素与已经分配给每一像素的一个或多个身体部位相关联的概率。在584处检查第二偏移像素的相关联的概率。随着检查更多像素的相关联的概率，与第一像素相关联的概率处过第二遍可提供与该像素相关联的身体部位的更准确的确定。该概率可被提供给目标识别、分析和跟踪系统中的其他过程。

图30描绘了身体姿态估计中的特征测试的另一示例实现的流程图。在590处接收深度图并选择第一像素位置。这可以是图30中作为第一位置来描绘的像素。如果第一像素在背景深度，则与每一身体部位相关联的概率可以是0。然而，如果第一像素不在背景深度，则可在592处选择与第二像素的角度和距离。

在另一实施例中，不确定背景深度，改为在每一像素处执行深度测试和周围偏移深度树测试，而不管其深度。

在另一实施例中，在590处接收的深度图已经具有每一像素与分配给每一像素的一个或多个身体部位相关联的概率。因此，代替在第一像素和偏移位置处测试深度，可测试概率。

在594处可以对第二像素执行深度/概率测试。如果第二像素未通过深度/概率测试(即，它在背景深度/概率、第二用户的深度概率、不在用户身体的范围内、等等)，则在598处选择位置F-1。然而，如果第二像素通过了深度/概率测试(即，它在身体深度/概率的阈值内)，则在596处选择位置P-1。然后可在596或598处对第三像素执行深度/概率测试，并且基于第三像素是通过还是未通过深度/概率测试，在600、602、604或606中的一个处选择其他像素位置。尽管这些位置在某些情况下是相同的，但它们的位置也可基于深度/概率测试的结果而极大地变化。

在一示例实施例中，对任意数量的像素的深度/概率测试可以参考单个像素来执行。例如，可执行16个测试，其中每一深度/概率测试在一不同像素处。通过执行相同数量的深度/概率测试，可将一像素与每一身体部位相关联的概率分配给每一像素。作为另一示例，仅需要对特定像素执行一次测试来确定其与一个或多个身体部位相关联的概率。

图31描绘了可从诸如捕捉设备60等捕捉设备、图形包或其他3-D渲染得到的示例图像以及该示例图像的分段身体图像。原始图像610可以是来自捕捉设备的深度图或其他图像。在一示例实施例中，可将身体的图像分段成如分段图像612中的多个部位，并且可将深度图中的每一像素与图31中的每一段的概率相关联。该概率可使用相对于图28、29和30描述的方法、过程和系统来确定。

图32描绘了来自一个或多个用户的一系列姿态图像。对于每一姿态，可从诸如捕捉设备60等捕捉设备接收的图像与被分段成各部位的姿态的图像相邻地示出。

在第一实施例中，目标识别、分析和跟踪系统可接收非分段图像620、624、628和632，并使用图28、29和30中描述的过程来确定图像中的每一像素与每一分段的身体部位相关联的概率。图28、29和30中描述的过程的目的可以是将身体分段成622、626、630和634处示出的部位中的每一个。这些分段的部位可由一个或多个计算机过程来确定用户的身体姿态。

在第二实施例中，这些图像可在特征测试训练模块中使用来确定图28、29和30的特征测试。从图28、29和30回想，可对像素执行深度测试，并且该测试或者通过或者失败，且基于通过或失败，选择下一位置。在一个实施例中，所选下一位置不是任意的，而是基于训练模块来选择的。训练模块可涉及将诸如图32所示的数千、数十万、数百万或任意数量的大量分段姿态输入到程序中。该程序可对该天量姿态执行一不或多个操作来为整个量或某些所选姿态对每一通过或失败确定最优特征测试。该一系列优化的特征测试可被称为特征测试树。

输入到特征测试训练模块中的大量姿态可能不包含用户的每一可能的姿态。此外，创建若干特征测试训练模块，且每一模块基于单独的一个量的身体姿态可提高该程序的效率。因此，特征测试树的每一步处的特征测试可以是不同的，并且测试树的结束处的与身体的每一段相关联的最终概率也可以是不同的。在一个实施例中，为每一像素提供若干特征测试树，并且可对从每一测试树输出的概率求平均或以其他方式组合这些概率以提供身体姿态的分段图像。

图33描绘了在人类身体姿态估计中确定与每一像素相关联的身体段概率的示例流程图。在650，可从捕捉设备60接收诸如以上图8中示出的深度图等深度图。该深度图可在652处被提供给一系列特征测试树。在图33中，各自在不同量的身体姿态上训练的三个特征测试树测试深度图的每一像素。在654，确定每一像素与身体的每一段相关联的概率作为软身体部位。在一示例实施例中，该过程在此停止，并且可在556处使用这些概率来获得图27的关节/结节/重心。

在另一实施例中，在656，可再次将深度图提供给一系列特征测试树，每一特征测试树可使用不同量的身体姿态图像来创建。在图33中，该第二系列特征测试包含三个树，每一树可输出深度图中每一像素与身体的每一段相关联的概率。在658，可通过求平均或某种其他方法来组合第二组特征测试树的概率656和来自654的软身体部位来确定身体部位的第二遍。图33示出了两组三个特征测试数，然而，特征测试树的数量不受数量3的限制，遍数也不受图33的限制。可以有任意数量的特征测试树和任意数量的遍。

在另一实施例中，在656，提供给该系列特征测试树的深度图可具有深度图的每一像素与已经与每一像素相关联的一个或多个身体部位相关联的概率。例如，在652处由特征测试树确定的概率图可在656处提供给特征测试树。在这一情况下，代替深度测试训练程序和树，系统改为利用概率测试训练程序和树。树和遍的数量绝不限制，并且树可以是深度和概率特征测试的任何组合。

图34描绘了分段身体姿态图像，其中每一段包含诸如在556处参考图27描述的结节/关节/重心。这些关节/结节/重心可通过在执行了图28、29、30和33的特征测试之后取与身体部位段相关联的所有像素的重心来确定。也可使用其他方法来确定结节/重心/关节的位置。例如，过滤过程可移除离群像素等，之后可进行一过程来确定关节/结节/重心的位置。

图34的关节/结节/重心可用于构造骨架模型或以其他方式表示用户的身体姿态。该模型可由目标识别、分析和跟踪系统以任何方式使用，包括确定一个或多个用户的姿势命令、标识一个或多个用户等等。

姿势识别

系统50还可包括姿势识别，使得用户可通过执行一个或多个姿势来控制在计算环境52(如上所述可以是游戏控制台、计算机等)上执行的应用程序。在一个实施例中，姿势识别器引擎(其架构在以下更完全描述)用于从用户的骨架模型确定用户何时作出了特定姿势。

图35A描绘了用户的示例骨架映射，如图12中所示的映射，该映射可从捕捉设备60以上述方式生成。在该示例中，标识各种关节和骨骼：每一手702、每一前臂704、每一肘706、每一二头肌708、每一肩710、每一臀712、每一大腿714、每一膝716、每一小腿718、每一足720、头722、躯干724、脊椎的顶部726和底部728以及腰730。在跟踪多个点的情况下，可标识另外的特征，如手指或脚趾的骨骼和关节，或脸部的各个特征，如鼻和眼。

用户可通过移动他的身体创建姿势。姿势包括用户的运动或姿态，其可被捕捉为图像数据并解析其意义。姿势可以是动态的，包括运动，如模仿扔球。姿势可以是静态姿态，如在一个人的躯干724前面交叉握住他的前臂704。姿势也可包含道具，如通过挥动仿制的剑。姿势可包括多于一个身体部位，如拍双手702，或是较微小的运动，如撅起一个人的嘴唇。

姿势可用于一般计算上下文中的输入。例如，手702或其他身体部位的各种运动可对应于常见的系统级任务，如在分层列表中向上或向下导航、打开文件、关闭文件和保存文件。姿势也可在视频游戏专用上下文中取决于游戏来使用。例如，对于驾驶游戏，手702和脚720的各种运动可对应于在一方向上操控车辆、换挡、加速和刹车。

用户可通过自己在原地行走或奔跑来生成对应于行走或奔跑的姿势。用户可另选地提起并放下每一腿712-720来在不移动的情况下模拟行走。系统可通过分析每一臀712和每一大腿714来解析该姿势。当一个臀-大腿角(如相对于垂直线测量的，其中站立的腿具有0°的臀-大腿角，而向前水平伸展的腿具有90°的臀-大腿角)超过相对于另一大腿的特定阈值时，可识别一步。行走或奔跑可在交替的腿的某一数量的连续步之后被识别。两个最近的步之间的时间可被认为是周期。在不满足阈值角度的某一数量的周期之后，系统可确定行走或奔跑姿势已停止。

给定行走或奔跑摂姿势，应用程序可为与该姿势相关联的参数设定值。这些参数可包括上述阈值角度、发起行走或奔跑姿势所需的步数、结束姿势的没有发生步的周期数、以及确定姿势是行走还是奔跑的阈值周期。快周期可对应于奔跑，因为用户将快速地移动他的腿，而较慢的周期可对应于行走。

姿势最初可以与一组默认参数相关联，应用程序可用其自己的参数来覆盖该组默认参数。在这一场景中，不迫使应用程序提供参数，但是应用程序可改为使用一组允许在没有应用程序定义的参数的情况下识别姿势的默认参数。

有各种可以与姿势相关联的输出。可以有关于姿势是否正在发生的基线“是或否”。还可以有置信水平，其对应于用户跟踪的移动对应于姿势的可能性。这可以是范围为0和1之间(包括端点)的浮点数的线性标度。在接收该姿势信息的应用程序不能接受假肯定作为输入的应用程序中，它可仅使用具有高置信水平，如至少.95的已识别的姿势。在应用程序必须识别姿势的每一实例、甚至是以假肯定为代价的情况下，它可使用至少具有低得多的置信水平的姿势，如仅仅大于.2的那些姿势。姿势可具有关于两个最近步之间的时间的输出，并且在仅注册第一步的情况下，这可被设为保留值，如-1(因为任何两步之间的时间必须为正)。姿势也可具有关于在最近一步期间达到的最高大腿角的输出。

另一示例性姿势是“脚跟提起跳”。在该姿势中，用户可通过将他的脚跟提离地面，但保持他的脚趾着地来创建该姿势。另选地，用户可跳向空中，其中他的脚720完全离开地面。该系统可通过分析肩710、臀712和膝716的角度关系来解析该姿势的骨架，以查看它们是否在等于直立的对齐位置。然后，可监视这些点和较高726和较低728脊椎点来查看任何向上加速。足够的加速组合可触发跳跃姿势。

给定该“脚跟提起跳”姿势，应用程序可为与该姿势相关联的参数设定值。参数可包括上述加速阈值，其确定用户的肩710、臀712和膝716的某种组合必须向上移动多快来触发该姿势；以及肩710、臀712和膝716之间仍可触发跳跃的最大对齐角。

输出可包括置信水平，以及用户在跳跃时的身体角度。

基于将接收姿势的应用程序的细节来为姿势设定参数对于准确地标识姿势而言是重要的。正确地标识姿势以及用户的意图极大地有助于创建积极的用户体验。在姿势识别器系统太敏感、甚至手702的微小向前运动被解释为投掷的情况下，用户可能变得沮丧，因为在他没有作出姿势的意图的情况下却识别出姿势，因此他缺乏对系统的控制。在姿势识别器系统不够敏感的情况下，系统可能未识别出用户作出投掷姿势的刻意尝试，从而类似地使用户感到沮丧。在敏感度范围的任一端，用户都会变得沮丧，因为他不能正确地向系统提供输入。

对于姿势的另一参数可以是移动的距离。在用户的姿势控制虚拟环境中的化身的动作的情况下，该化身可以是手臂离球的长度。如果用户希望与该球交互并抓住它，则这可要求用户伸展他的手臂702-710到全长同时作出抓握姿势。在这一情形中，用户仅部分地伸展他的手臂702-710的类似的抓握姿势可能无法达到与球交互的结果。

姿势或其一部分可具有它必须在其中发生的空间体来作为参数。在姿势包括身体移动的情况下，该空间体通常可相对于身体来表达。例如，对于惯用右手的用户的橄榄球投掷姿势可仅在不低于右肩710a、且与投掷手臂702a-710a在头722的相同侧的空间体中识别。可能不必要定义空间体的所有边界，如对于该投掷姿势，其中从身体向外的边界留着不被定义，并且该空间体无限地向外延伸，或者延伸到正被监视的捕捉区域的边缘。

图35B提供了图2的姿势识别器引擎190的一个示例性实施例的进一步细节。如图所示，姿势识别器引擎190可包括至少一个过滤器742来确定一个或多个姿势。过滤器742包括定义姿势750(以下称为“姿势”)以及该姿势的参数752或元数据的信息。过滤器可包括可识别姿势或以其他方式处理深度、RGB或骨架数据的代码和相关联的数据。例如，包括一只手从身体后部后面开始越过身体前方的运动的投掷可被实现为包括表示用户的一只手从身体后部后面开始越过身体前方的运动的信息的姿势750，该移动将由深度照相机来捕捉。然后可为该姿势750设定参数752。在姿势750是投掷的情况下，参数752可以是该手必须达到的阈值速度、该手必须行进的距离(绝对的，或对于用户的整体大小相对的)、以及识别器引擎对发生姿势的置信评级。用于姿势752的这些参数750可以在各应用程序之间、在单个应用程序的各上下文之间、或在一个应用程序的一个上下文内随着时间而变化。

过滤器可包括可识别姿势或以其他方式处理深度、RGB或骨架数据的代码和相关联的数据。过滤器可以是模块化的或是可互换的。在一个实施例中，过滤器具有多个输入，这些输入中的每一个具有一类型；以及多个输出，这些输出中的每一个具有一类型。在这一情形中，第一过滤器可用具有与第一过滤器相同数量和类型的输入和输出的第二过滤器来替换而不更改识别器引擎体系结构的其他方面。例如，可以有用于驾驶的第一过滤器，该第一过滤器取骨架数据作为输入并输出与该过滤器相关联的姿势正在发生的置信度以及转向角。在希望用第二驾驶过滤器来替换该第一驾驶过滤器的情况下——这可能是因为第二驾驶过滤器更高效且需要更少的处理资源——则可以通过简单地用第二过滤器替换第一过滤器来这样做，只要第二过滤器具有相同的输入和输出—骨架数据类型的一个输入，以及置信度类型和角度类型的两个输出。

过滤器不需要具有参数。例如，返回用户的高度的“用户高度”过滤器可能不允许任何可调节的参数。替换的“用户高度”过滤器可具有可调节参数，如在确定用户的高度时是否考虑用户的鞋、发型、头饰以及体态。

对过滤器的输入可包括诸如关于用户的关节位置的关节数据、如在关节处相交的骨所形成的角度、来自捕捉区域的RGB色彩数据、以及用户的一方面的变化率等内容。来自过滤器的输出可包括诸如正作出给定姿势的置信度、作出姿势运动的速度、以及作出姿势运动的时间等内容。

上下文可以是文化上下文，并且可以是环境上下文。文化上下文指的是使用系统的用户的文化。不同的文化可使用相似的姿势来赋予显著不同的含义。例如，希望叫另一个用户“看”或“使用他的眼睛”的美国用户可将他的食指放在他头上靠近他的眼睛的远端处。然而，对意大利用户而言，该姿势可被解释为对黑手党的引用。

类似地，在单个应用程序的不同环境之中可能有不同的上下文。取涉及操作摩托车的第一人称射击游戏。当用户在走路时，将手指朝向地面握拳并向前且从身体向外伸出拳头可表示重拳姿势。当用户在驾驶上下文中时，相同的运动可表示“换挡”姿势。可能还有一个或多个菜单环境，其中用户可保存他的游戏、在他的人物装备之间选择或执行类似的不包括直接玩游戏的动作。在该环境中，该游戏姿势可具有第三个含义，如选择某样东西或前进到另一屏幕。

姿势识别器引擎190可具有向姿势过滤器742提供功能的基础识别器引擎740。在一实施例中，识别器引擎740实现的功能包括跟踪所识别的姿势和其他输入的随时间输入(input-over-time)存档、隐马尔可夫模型实现(其中模型化系统被假定为具有未知参数的马尔可夫过程—其中当前状态封装了确定将来状态所需的任何过去状态信息，因此不必为此目的而维护任何其它过去状态信息的过程，并且隐藏参数从可观察数据来确定)、以及求解姿势识别的特定实例所需的其他功能。

过滤器742在基础识别器引擎740之上加载并实现，并且可利用引擎740提供给所有过滤器742的服务。在一实施例中，基础识别器引擎740处理所接收到的数据来确定它是否满足任何过滤器742的要求。由于这些诸如解析输入等所提供的服务是由基础识别器引擎740一次性提供而非由每一过滤器742提供的，因此这一服务在一段时间内只需被处理一次而不是对该时间段对每一过滤器742处理一次，因此减少了确定姿势所需的处理。

应用程序可使用姿势识别器引擎190所提供的过滤器742，或者它可提供其自己的过滤器742，该过滤器被插入到基础识别器引擎740中。在一实施例中，所有过滤器742具有启用该插入特性的通用接口。此外，所有过滤器742可利用参数752，因此可使用如下所述的单个姿势工具来诊断并调节整个过滤器系统742。

这些参数752可由姿势工具744为应用程序或应用程序的上下文来调节。在一实施例中，姿势工具744包括多个滑块746以及身体748的图表示，每一滑块746对应于一参数752。当用相应的滑块746来调整参数752时，身体748可展示将用这些参数752被识别为姿势的动作以及使用这些参数752将不被识别为姿势的动作，如所标识的。姿势的参数752的这一可视化提供了调试并细化调节姿势的有效手段。

图36描绘了从堆叠的姿势或过滤器742创建的更复杂的姿势或过滤器742。姿势可堆叠在彼此之上。即，用户一次可表达多于一个姿势。例如，并非在作出投掷姿势时不允许除了投掷之外的任何输入，或要求用户除了该姿势的分量之外保持不动(例如，在作出仅涉及一条手臂的投掷姿势时站着不动)。在姿势堆叠时，用户可同时作出跳跃姿势和投掷姿势，并且这两个姿势都将被姿势引擎识别出。

图36A描绘了根据堆叠范例的简单姿势过滤器742。I过滤器760是可在每一姿势过滤器中使用的基本过滤器742。I过滤器760取用户位置数据762，并输出姿势已发生的置信水平764。它还将该位置数据762馈入方向盘(SteeringWheel)过滤器766，该过滤器768取该位置数据作为输入，并输出用户正在转向的角度(例如，向用户当前方向右侧40度)768。

图36B描绘了将过滤器742堆叠到图36A的姿势过滤器上的更复杂的姿势。除了I过滤器760和方向盘766之外，还存在I跟踪(ITracking)过滤器512，该过滤器512接收来自I过滤器760的位置数据762，并输出用户通过姿势所作出的进展量514。I跟踪512还将位置数据762馈送到润滑油减轻(GreaseLightning)770和E刹车772，这些是关于可在操作车辆时如使用紧急刹车作出的其他姿势的过滤器742。

图37A-37E描绘了用户802在橄榄球视频游戏中可以作出以便发出“完全接球”信号的示例姿势。这些图描绘了各个时间点的用户，其中图37A是第一时间点，而图37E是最后一个时间点。这些图中的每一个可对应于深度照相机402捕捉的图像数据的一个快照或帧，但不必是连续的图像数据帧，因为深度照相机402能够比用户可覆盖该距离更快地捕捉帧。例如，该姿势可在3秒的时间段内发生，并且在深度照相机以每秒40帧来捕捉数据的情况下，在用户802作出该完全接球姿势时它将捕捉60个图像数据帧。

在图37A中，用户802以他的手臂804向下放于两侧开始。他然后将手臂举起超过肩膀，如图37B所描绘的，然后进一步向上到大约他的头部的水平，如图37C所描绘的。从那里，他将他的手臂804降下到肩膀水平，如图37D所描绘的，然后再一次将手臂举起到大约他的头部的水平，如图37E所描绘的。在系统捕捉用户802的这些位置而没有可发出该姿势被取消或正在作出另一姿势的信号的任何居间位置的情况下，可能会使得完全接球姿势过滤器输出用户802作出了完全接球姿势的高置信水平。

图38描绘了在解析每一图像数据帧来产生用户的骨架图时图36的示例“完全接球”姿势。该系统在从用户的深度图像产生了骨架图之后，现在可确定用户的身体如何随时间而移动，并且可从中解析姿势。

在图38A中，用户的肩膀710在他的肘706上方，而肘306又在他的手702上方。肩710、肘706和手702然后在图38B中处于一致水平。系统然后在图38C中检测到手702在肘上方，而肘在肩710上方。在图38D中，用户返回到图38B的位置，其中肩710、肘706和手702处于一致水平。在该姿势的最终位置，如图38E所示，用户返回到图38C的位置，其中手702在肘上方，而肘在肩710上方。

尽管捕捉设备60捕捉了一系列静止图像，使得在任何一个图像中用户看似为静止的，但用户在执行该姿势的过程中在移动(而非如上所述的静止姿势)。该系统能够取每一静止图像中的该一系列姿态，并从中确定用户正在作出的移动姿势的置信水平。

在执行姿势时，用户可能无法创建如他的右肩710a、右肘706a和右手702a所形成的角度，例如在140°和145°之间。因此，对完全接球姿势750使用过滤器742的应用程序可调节相关联的参数752来最好地满足应用程序的细节。例如，图38C和38E中的位置可在用户将其手702放在其肩710上方的任何时刻被识别出，而不关注肘706的位置。更严格的一组参数可能要求手702在头710上方，并且肘706既在肩710上方又在头722和手702之间。另外，用于完全接球姿势750的参数752可能要求用户在诸如1.5秒等一段指定时间内从图38A的位置移动到图38E的位置，并且如果用户花费了多于1.5秒来移动通过这些位置，则它将不被识别为完全接球750，并且可输出非常低的置信水平。

图39描绘了用于使用姿势识别器体系结构来向多个应用程序中的至少一个应用程序提供姿势的示例性操作过程。

操作805描绘了将表示姿势的过滤器提供给第一应用程序，该过滤器包括关于该姿势的基本信息。该姿势可包括各种各样姿势。例如，它可以是蹲伏、跳跃、倚靠、抓手过背摔、投掷、挥臂、躲避、踢和阻挡中的任一个。同样，该姿势可对应于用户界面的导航。例如，用户可手指向上指并且手指面向深度照相机地保持他的手。他然后可以将手指朝向手掌收拢来形成拳头，并且这可以是指示基于窗口的用户界面计算环境中的焦点窗口应被关闭的姿势。

由于姿势可用于指示从化身应重拳出击到窗口应被关闭的任何内容，因此从视频游戏到文本编辑器的各种各样的应用程序可利用姿势。

姿势可被一起分组到可能由该游戏中的应用程序使用的互补姿势风格包中。互补姿势—或者如通常一起使用的那些姿势中那样是互补的，或者如一个姿势的参数改变将改变另一姿势的参数中那样是互补的一被一起分组到风格包中。这些包被提供给应用程序，应用程序可选择至少其中一个。应用程序可调节或修改姿势的参数来最佳地适合应用程序的独特方面。当调节该参数时，也调节该姿势或第二姿势的第二互补参数(在相互依赖的意义上)使得这些参数保持互补。用于视频游戏的风格包可包括诸如第一人称射击、动作、驾驶和体育等风格。

参数可基于应用程序所在的上下文来变化。为此，应用程序可将多个值分配给姿势的参数，每一值对应于一不同的上下文。如上所讨论的，该上下文可以是文化上下文或环境上下文。

在一实施例中，应用程序提供姿势识别器引擎使用的姿势。在该实施例中，在每一姿势包括公共输入和输出的情况下，应用程序可提供遵守这些约定的姿势，并通过商定的协议将该姿势传递给识别器引擎。

操作805描绘了接收捕捉设备60捕捉的数据，如上所述，该数据对应于第一应用程序。该数据可对应于第一应用程序是因为它是为其生成输入的当前活动的应用程序。

操作807描绘了将过滤器应用于数据并从关于姿势的基本信息中确定输出。在一实施例中，输出包括已经执行对应于过滤器的姿势的置信水平。该置信水平可被输出一次，或者它可响应于所接收的数据来连续地输出。在一实施例中，这包括确定独立于任何参数的、用户以满足姿势的任何要求(如手在头上方)的方式移动的置信水平。在一实施例中，该输出可包括关于是否发生了对应于过滤器的姿势的布尔判定。

在过滤器包括参数的情况下，该参数可以是阈值，如手臂速度大于X。它可以是绝对值，如手臂速度等于X。可以有容错，如手臂速度等于X的Y内。它还可以包括范围，如手臂速度大于或等于X但小于Z。从所接收的数据中，可确定应用于参数的数据的特性，然后将其与参数的要求进行比较。

在一实施例中，用户还使用他的语音来做出、扩大、区分或阐明姿势。在该实施例中，操作807包括接收语音数据并确定数据和该语音数据的组合是否指示了姿势。例如，用户能够通过打开并关闭他的嘴来作出唱歌姿势，但还可通过唱出音符来指定该唱歌姿势的特定音符。另外，用户能够通过在作出另外的“常规重拳”姿势的同时喊叫来作出与“常规重拳”姿势相对的“有力重拳”姿势。

在一实施例中，姿势可包括多个姿势。例如，用户可作出对应于移到其侧面并同时卸下他的火炮的运动。在该实施例中，限制用户在移动时不得卸下火炮可能是不令人赞成的，因此检测到用户同时作出的多个姿势。

操作808描绘了向第一应用程序发送置信水平。在一实施例中，这可包括向该应用程序发送发生姿势的时间或时间段。在另一实施例中，在应用程序需要时间信息的情况下，应用程序可使用接收到该姿势已发生的指示的时间来作为该时间信息。在一实施例中，该操作包括向该应用程序发送关于该姿势的特性的信息，如移动速度、释放点、距离、以及作出该姿势的身体部位。例如，给定棒球视频游戏，其中投手可按50mph和105mph(包含端点)之间的任何整数速度投掷，且该速度基于用户在作出该姿势时的最大手臂速度，为这56个可能的速度中的每一个定义一组单独的参数可能是麻烦的。相反，可向应用程序给予姿势已发生的指示以及用户的最大手臂速度，然后应用程序可使用内部逻辑来确定对应的投手应多快地投掷。

可任选操作810描绘了从第一应用程序接收至少一个参数的值，并且其中从关于姿势的基本信息以及每一参数中确定置信水平包括从参数的值中确定置信水平。参数可包括姿势的各种各样特性中的任一个，如身体部位、空间量、速度、移动方向、角度、以及移动发生的地方。

在一实施例中，参数的值由应用程序的最终用户通过作出姿势来确定。例如，应用程序可允许用户训练它，使得用户能够指定他认为姿势应包括什么运动。这对于允许没有对其运动技能的良好控制的用户能够将他能作出的运动与对应的姿势相链接是有益的。如果这一特征不可用，则用户可能变得沮丧，因为他无法使其身体以应用程序所需的方式移动来产生姿势。

在其中存在互补姿势—具有相互关系的参数的多个姿势—的实施例中，从应用程序接收参数的值可包括用该值来设置参数，以及基于该值来设置互补姿势的互补参数。例如，可以决定以特定方式投出橄榄球的用户可能也以特定方式投出棒球。因此，在确定特定参数应以特定方式设置的情况下，可基于如何设置该第一参数来设置其他互补参数。

这可能不需要是给定参数的相同值，或甚至跨各姿势的相同类型的参数。例如，情况可以是当橄榄球投掷必须以正向手臂速度X m/s来作出时，橄榄球接球必须以手距离躯干至少Y m距离来作出。

操作812描绘了从第二应用程序接收表示姿势的第二过滤器的至少一个参数的第二值的操作，该第二过滤器包括关于该姿势的基本信息，该第二值不同于从第一应用程序接收到的值；接收由照相机捕捉的第二数据；将第二过滤器应用于第二数据并从关于姿势的基本信息以及第二过滤器的每一参数中确定第二数据指示姿势被执行的置信水平；以及向第二应用程序发送该置信水平。

每一应用程序或应用程序内的上下文可指定其自己的对于单个姿势的参数，并且姿势识别器190将对每一应用程序的细节作出响应。例如，一个第一人称射击者可能需要演示开火姿势，因为弹药是有限的，或者秘密在游戏中起主要作用，而开火产生大噪声。然而，第二个第一人称射击者可允许用于开火的小得多的运动，因为演示运动太接近该游戏为重拳运动所定义的运动。

可任选操作814描绘了响应于接收到由捕捉设备捕捉的指示选自下组的一项的数据来用第二值设置参数的可任选操作：第一用户的疲劳增加、第一用户的能力增加、以及第二用户替代第一用户，其中从应用程序接收参数的值包括用该值来设置参数，并且接收由捕捉设备捕捉的数据包括从第一用户接收数据。

用户作出来传达姿势的运动或姿态可随着时间改变，并且这可创建上下文的改变。例如，用户可能变得疲劳并且不再跳得像他在其会话开始时那样高来传达跳跃姿势。并且，用户可通过实践来变得更擅长作出与姿势相关联的运动或姿态，因此对参数的可接受的变化可减小，以使两个不同姿势较不可能被一组运动或姿态识别。应用程序还可能希望在用户变得更熟练时给予用户更具挑战性的体验，以便不失去其注意力。在另一实施例中，应用程序可给予用户对姿势的更精细控制或给予用户更多姿势来使用。例如，网球视频游戏的初学者可能仅关注将球击过网，而不对其施加任何旋转。然而，随着网球应用程序检测到用户正在进步，它可介绍或识别除了标准击球之外的用于上旋或下旋的姿势。

并且，第二用户可替代第一用户作为提供输入的人，并且第二用户可具有显著不同的传达姿势的方式。在一实施例中，可解析所接收的深度图像来确定第二用户在传达姿势的捕捉区域中。在一实施例中，可以有用户可用于向应用程序指示的保留姿势。并且，识别器引擎可通过作出来传达姿势的运动或姿态的改变来确定第二用户的存在。

当确定了这些改变时，每一改变可如上下文的改变那样来对待，并且可鉴于此相应地改变参数。

操作816描绘了以下可任选操作：改变上下文；接收照相机捕捉的指示用户的第一姿势正被执行的第二数据；从第二数据中确定由第二过滤器表示的第二姿势正被执行的置信水平大于来自第二数据的由过滤器所表示的姿势正被执行的置信水平。

在不同的上下文中，用户作出的一个运动或姿态可对应于不同姿势。例如，在搏斗游戏中，当处于游戏的搏斗模式时，用户可在其躯干前方交叉前臂。在该搏斗上下文中，这可对应于“格挡攻击”姿势。然而，如果用户暂停该游戏并进入菜单屏幕，则该菜单屏幕包括不同的上下文。在该菜单屏幕上下文中，相同的交叉前臂可对应于“退出菜单屏幕”姿势。

结论

如可以从以上描述中理解的，可在诸如捕捉设备60等单个捕捉设备中具体化的系统可包含可单独工作或与其他元件并行工作的多个元件。例如，这些元件可包括以上结合图2描述的IR光组件、三维(3-D)照相机、以及RGB照相机。元件还可包括捕捉设备的话筒、处理器和存储器。如此处所描述的，这些元件协同工作来独特地识别捕捉区域中的目标而无需附连到目标的特殊传感器设备，以便在空间中跟踪目标并使用目标的姿态和姿势来控制计算环境。

作为这些元件所提供的协作的示例，考虑IR光组件和3-D照相机可提供捕捉区域的深度图像，但是在某些情形中，单独的深度图像可能不足以辨别人类目标的位置或移动。在这些情形中，RGB照相机可“接管”或补充来自3-D照相机的信息以便能够对人类目标的移动或位置作出更完整的识别。例如，RGB照相机可用于识别与一个或多个目标相关联的色彩等等。如果用户正穿着有图案的衬衫而深度照相机不能检测到该图案，则可使用RGB照相机来跟踪该图案并提供关于用户正在作出的移动的信息。作为另一示例，如果用户扭曲，则可使用RGB照相机来补充来自一个或多个其他传感器的信息来确定用户的运动。作为又一个示例，如果用户在诸如墙或第二目标等另一对象旁边，则可使用RGB数据来在两个对象之间进行区分。RGB照相机还能够确定用户的精细方面，如面部识别、发色等，这可用于提供附加信息。例如，如果用户向后转，则RGB照相机可使用发色和/或面部特征的缺少来确定用户没有面对捕捉设备。

也可以实现其它协作。例如，捕捉设备中的话筒也可用于提供关于目标的附加和补充信息以使系统能够更好地辨别目标的位置或移动的各方面。例如，话筒可包括方向话筒或方向话筒阵列，其可用于进一步辨别人类目标的位置或在两个目标之间进行区分。例如，如果两个用户是相似形状或大小并且在捕捉区域中，则可使用话筒来提供关于用户的信息，使得用户可以例如基于其单独语音的识别来彼此区分。作为另一示例，话筒可用于向用户提供关于用户的简档，或在“语音—文本”型环境中，至少一个话筒可用于在计算系统中创建文本。

在捕捉设备中包括处理能力使得用户的多点骨架模型可实时传递，不需要昂贵的外部后处理来使应用程序能消化该信息。在一个实施例中，对捕捉设备的多个组件中的每一个可以有一单独的处理器，或者可以有单个中央处理器。作为另一示例，可以有中央处理器以及至少一个其他相关联的处理器。如果有高成本计算任务，则两个或更多处理器可按任何方式来共享处理任务。处理器可包括如上所述的存储器且存储器可存储一个或多个用户简档。这些简档可存储身体扫描、典型的使用或玩游戏模式、年龄、身高、体重信息、姓名、化身、高分或任何其他与用户和系统使用相关联的信息。

同样如上所述，在捕捉设备中和相关联的计算环境上还可包括各种不同软件，以便于人类和非人类目标的识别、分析和跟踪。软件可用于创建并存储简档、随时间跟踪用户、提供训练模块、控制捕捉设备和计算环境的各方面，等等。在一个实施例中，软件可使用从两个或更多传感器接收到的信息来创建协作，使得目标跟踪、识别和分析系统可准确且实时地跟踪至少一个目标。

尽管已经结合较佳方面按各附图所示描述了本发明，但要理解，可使用其它相似方面或者可对所述方面进行修改或添加来执行本发明的相同功能而不脱离本发明。因此，本发明应当不限于任何单一方面，而应按照所附权利要求书的宽度与范围来解释。例如，本文描述的各种过程可用硬件或软件、或两者的组合来实现。因此，所公开的各实施例的方法和装置或其某些方面或部分可采用在诸如软盘、CD-ROM、硬盘驱动器或任何其他机器可读存储介质等有形介质中具体化的程序代码(即，指令)的形式。当程序代码被加载到诸如计算机等机器并由其执行时，该机器变为被配置成实施所公开的各实施例的装置。除了此处明确阐述的具体实现之外，考虑此处所公开的说明书，其它方面和实现将对本领域的技术人员是显而易见的。说明书和所示实现旨在仅被认为是示例。

Claims

1.一种用于提供捕捉区域的深度图像的深度捕捉设备，包括：

具有用于提供照亮所述捕捉区域的光源的VCSEL阵列的投影仪；

用于接收从所述捕捉区域中的一个或多个对象反射回来的光的成像设备，所述成像设备包括至少一个3-D照相机和至少一个RGB照相机；

用于将所述成像设备所接收到的光处理成所述捕捉区域中的一个或多个对象的3-D图像的处理器；以及

用于将所述成像设备所接收到的光处理成所述捕捉区域中的一个或多个对象的RGB图像的处理器。

2.如权利要求1所述的深度捕捉设备，其特征在于，所述投影仪还包括：

透镜阵列，对所述VCSEL阵列中的每一VCSEL有一个透镜；以及

用于图案化从所述透镜阵列接收到的光的衍射光学元件。

3.如权利要求2所述的深度捕捉设备，其特征在于，所述衍射光学元件将从所述透镜阵列接收到的光图案化成使得能够通过结构化光技术来对所述一个或多个对象进行3-D成像的图案。

4.一种用于识别、分析和跟踪捕捉区域中的至少一个用户的系统，包括：

提供所述捕捉区域的深度图像的至少一个深度照相机；

提供所述捕捉区域的RGB图像的至少一个RGB照相机；以及

接收所述深度图像和所述RGB图像并处理所述深度图像和所述RGB图像来识别所述至少一个用户并随时间跟踪所述至少一个用户的移动的至少一个处理器。

5.如权利要求4所述的系统，其特征在于，所述投影仪还包括：

透镜阵列，对所述VCSEL阵列中的每一VCSEL有一个透镜；以及

用于图案化从所述透镜阵列接收到的光的衍射光学元件。

6.如权利要求5所述的系统，其特征在于，所述至少一个处理器使用结构化光过程和飞行时间过程之一来处理所述深度图像和所述RGB图像。

7.如权利要求4所述的系统，其特征在于，所述系统还包括用于存储预定义姿势的库，所述系统能够将由所述系统识别的用户移动匹配到所述库中存储的预定义姿势。

8.如权利要求4所述的系统，其特征在于，还包括容纳所述至少一个深度照相机、所述至少一个RGB照相机、至少一个话筒和所述至少一个处理器的外壳。

9.如权利要求4所述的系统，其特征在于，所述至少一个处理器至少部分地基于所述深度图像来生成所述用户的骨架模型。

10.如权利要求9所述的系统，其特征在于，所述至少一个处理器使用从所述深度图像中导出的骨架模型来随时间跟踪所述用户的移动。

11.如权利要求10所述的系统，其特征在于，当所述至少一个处理器无法从所述深度图像中跟踪所述用户的移动时，所述处理器使用所述RGB图像来补充所述深度图像。

12.如权利要求4所述的系统，其特征在于，所述用户的移动至少部分地基于人类肌肉-骨架系统的已知力学来随时间跟踪。

13.如权利要求12所述的系统，其特征在于，所述至少一个处理器基于所跟踪的模型实时地生成所述用户的移动的运动捕捉文件。

14.如权利要求13所述的系统，其特征在于，所述至少一个处理器将所述运动捕捉文件应用于化身。

15.如权利要求4所述的系统，其特征在于，还包括至少一个方向话筒，所述至少一个话筒包括方向话筒，其中所述至少一个话筒提供的声音信息由所述至少一个处理器使用来基于对每一用户语音的识别在所述捕捉区域中的多个用户之间进行区分。

16.一种用于跟踪捕捉区域中的人类用户的方法，包括：

用从VCSEL阵列发射并由衍射光学元件图案化的光来照亮所述捕捉区域；

从至少一个深度照相机接收由所述VCSEL阵列照亮的捕捉区域的深度图像；

从至少一个RGB照相机接收所述捕捉区域的RGB图像；以及

基于所述深度图像和所述RGB图像随时间识别并跟踪所述捕捉区域中的用户的移动。

17.如权利要求16所述的方法，其特征在于，所述方法由设置在外壳内的至少一个处理器与所述VCSEL阵列、所述至少一个深度照相机、至少一个话筒和所述至少一个RGB照相机一起执行。

18.如权利要求16所述的方法，其特征在于，还包括从至少一个话筒接收关于从所述捕捉区域发出的声音的信息的步骤，并且其中所述识别和跟踪包括基于所述深度图像、所述RGB图像和所述声音信息中的至少两个的组合来随时间跟踪所述捕捉区域中的用户的移动。

19.如权利要求16所述的方法，其特征在于，还包括从所述深度图像生成所述用户的骨架模型，并使用所述骨架模型来至少部分地基于人类肌肉-骨架系统的已知力学随时间跟踪所述用户的移动的步骤。

20.如权利要求19所述的方法，其特征在于，还包括基于所跟踪的所述用户的移动和所存储的预定义姿势的库来识别所述用户的预定义姿势的步骤。