CN105144240B

CN105144240B - 使用深度图像的用户质心和质量分布提取

Info

Publication number: CN105144240B
Application number: CN201480009005.9A
Authority: CN
Inventors: D.肯尼特; J.胡夫; A.艾哈迈德
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-02-15
Filing date: 2014-02-13
Publication date: 2017-12-08
Anticipated expiration: 2034-02-13
Also published as: EP2956909B1; CN105144240A; EP2956909A1; US9052746B2; US20140232650A1; WO2014127077A1

Abstract

本文所述的实施例使用深度图像来提取用户行为，其中，每个深度图像指定多个像素对应于用户。针对对应于用户的多个像素确定基于深度的质心位置。附加地，还可以针对对应于用户的多个像素确定基于深度的惯性张量。在某些实施例中，对应于用户的多个像素被划分到象限中，并且针对每个象限确定基于深度的象限质心位置。附加地，可以针对每个象限确定基于深度的象限惯性张量。基于所述基于深度的质心位置、基于深度的惯性张量、基于深度的象限质心位置或基于深度的象限惯性张量中的一个或多个，更新应用。

Description

使用深度图像的用户质心和质量分布提取

背景技术

诸如计算机游戏、多媒体应用等许多计算应用使用控制来允许用户操纵应用的游戏人物或其它方面。传统地，这样的控制使用例如控制器、遥控器、键盘、鼠标等来输入。遗憾的是，这样的控制可能难以学习，因此创建了在用户与这样的游戏和应用之间的障碍。此外，这样的控制可不同于实际游戏动作或该控制被用于其中的其它应用动作。例如，促使游戏人物挥动棒球棍的游戏控制可能会不对摆动棒球棍的实际运动进行响应。最近，相机已经被用来允许用户在不需要传统手持式游戏控制器的情况下操纵应用的游戏人物或其它方面。更具体地，计算系统已经被适配于标识由相机捕获的用户，并检测用户的运动或其它行为。典型地，这样的计算系统已依赖于骨骼跟踪（ST）技术来检测运动或其它用户行为。然而，虽然对检测某些类型的用户行为有用，但ST技术已被证明对于检测其它类型的用户行为是不可靠的。例如，典型地，ST技术对于检测其中用户在地板上面或附近躺着或坐着的用户行为是不可靠的。

发明内容

本文公开的是用于从深度图像提取用户行为的系统和方法。可以使用这样的系统和方法来代替或补充常常被用来检测诸如用户运动之类的用户行为的骨骼跟踪（ST）技术。

根据实施例，使用位于与用户相距一段距离处的捕获设备（例如，相机）获取的每个深度图像指定深度图像的多个像素对应于用户。附加地，每个深度图像针对对应于用户的每个像素指定像素位置和像素深度，其中，像素深度指示捕获设备与由像素所表示的用户部分之间的距离。基于深度图像，提取指示用户行为的信息，并且使用这样的信息来更新应用。

在实施例中，针对对应于用户的多个像素来确定基于深度的质心位置。这可以通过针对对应于用户的每个像素确定像素质量来实现，所述像素质量计及由像素所表示的用户部分与用来获取深度图像的捕获设备之间的距离。然后，基于所确定的像素质量，以计及在像素所表示的用户部分与用来获取深度图像的捕获设备之间的距离的方式来确定基于深度的质心位置。在没有这种计及距离的情况下，如果用户的手握在捕获设备附近，则从捕获设备的角度看，用户的手可具有与用户身体的其余部分一样大或更大的可见区域。这可能会带来不准确的质心位置。基于该基于深度的质心位置，可以确定指示用户位置的信息。附加地，通过在多个深度图像范围内跟踪基于深度的质心位置的改变，用户位置的改变可以被检测到，并被用来更新应用。

在实施例中，使用所确定的基于深度的质心位置来将对应于用户的多个像素划分到象限中。然后，针对每个象限确定单独的基于深度的象限质心位置，并且可以使用该基于深度的象限质心位置来确定不同用户身体部分的位置。通过在多个深度图像范围内跟踪基于深度的象限质心位置的改变，不同用户身体部分的移动可以被检测到，并被用来更新应用。

在实施例中，还针对对应于用户的多个像素确定基于深度的惯性张量。附加地，可以使用如下的假设来缩放基于深度的惯性张量，即：对应于用户的像素具有预定质量（例如，75 kg）。基于该基于深度的惯性张量，可以确定指示用户的质量分布的信息。附加地，通过在多个深度图像范围内跟踪基于深度的惯性张量的改变，用户的质量分布的改变可以被检测到并被用来更新应用。在对应于用户的多个像素被划分到象限中的实施例中，可以针对每个象限确定单独的基于深度的象限惯性张量，并且所述的基于深度的象限惯性张量可以被用来更新应用。

在实施例中，应用接收指示基于深度的质心位置、基于深度的惯性张量、基于深度的象限质心位置和/或基于深度的象限惯性张量的信息，并且基于这样的信息来更新应用。例如，这样的信息可以用来跟踪用户执行某些锻炼（诸如下蹲、向前冲刺、俯卧撑、跳跃或分腿跳（jumping jack）），使得可以控制用户的化身，可以对用户授予点数和/或可以向用户提供反馈。在应用是指导用户执行某些锻炼的游戏的情况下，应用可以确定用户是否已经以正确的形式执行了锻炼，并且在用户没有以正确的形式执行锻炼的情况下，可以向用户提供关于用户可以如何改善其形式的反馈。

提供本概要来以简化的形式来介绍概念的选择，这些概念将在下面的详细描述中进一步描述。本概要并不意图标识所要求保护的主题的关键特征或本质特征，其也不意图用作确定所要求保护的主题的范围的协助。此外，所要求保护的主题不限于解决在本公开内容的任何部分中指出的任何或所有缺点的实施方式。

附图说明

图1A和IB图示出跟踪系统以及正在玩游戏的用户的示例性实施例。

图2A图示出可用作跟踪系统的一部分的捕获设备的示例性实施例。

图2B图示出在图2A中介绍的深度图像处理和对象报告模块的示例性实施例。

图3图示出可用来跟踪用户行为并基于用户行为来更新应用的计算系统的示例性实施例。

图4图示出可用来跟踪用户行为并基于所跟踪的用户行为来更新应用的计算系统的另一示例性实施例。

图5图示出示例性深度图像。

图6描述了示例性深度图像中的示例性数据。

图7A和7B图示出根据特定实施例的用来概括用于确定基于深度的质心位置、基于深度的惯性张量、基于深度的象限质心位置以及基于深度的象限惯性张量的方法的高水平流程图。

图8A示出了表示对应于执行分腿跳的（深度图像的）用户的多个像素的轮廓，该图8A用来图示出示例性基于深度的质心位置和示例性基于深度的象限质心位置。

图8B示出了表示对应于执行俯卧撑的（深度图像的）用户的多个像素的轮廓，该图8B用来图示出示例性基于深度的质心位置和示例性基于深度的象限质心位置。

图9图示出用来概括可以如何基于根据参考图7A—8B所述的实施例确定的信息来更新应用的高水平流程图。

具体实施方式

本文所述的实施例使用深度图像来提取用户行为，其中，每个深度图像指定多个像素对应于用户。针对对应于用户的所述多个像素确定基于深度的质心位置。附加地，还可以针对对应于用户的所述多个像素确定基于深度的惯性张量。在某些实施例中，对应于用户的所述多个像素被划分到象限中，并且针对每个象限确定基于深度的象限质心位置。附加地，可以针对每个象限确定基于深度的象限惯性张量。基于所述基于深度的质心位置、基于深度的惯性张量、基于深度的象限质心位置或基于深度的象限惯性张量中的一个或多个来更新应用。

图1A和1B图示出跟踪系统100以及玩拳击视频游戏的用户118的示例性实施例。在示例性实施例中，可使用跟踪系统100来识别、分析和/或跟踪人类目标，诸如跟踪系统100的范围内的用户118或其它对象。如图1A中所示，跟踪系统100包括计算系统112和捕获设备120。如下面将附加地详细地描述的，可以使用捕获设备120来获取深度图像或彩色图像（也称为RGB图像），其可以被计算系统112使用，以标识一个或多个用户或其它对象并且跟踪运动和/或其它用户行为。可以使用所跟踪的运动和/或其它用户行为来更新应用。因此，用户可以通过使用用户身体和/或用户周围的对象的移动而不是使用控制器、遥控器、键盘、鼠标等（或除此之外）来操纵应用的游戏人物或其它方面。例如，视频游戏系统可以基于对象的新位置来更新视频游戏中所显示的图像的位置或者基于用户的运动来更新化身。

计算系统112可以是计算机、游戏系统或控制台等。根据示例性实施例，计算系统112可包括硬件部件和/或软件部件，使得计算系统112可用来执行应用，诸如游戏应用、非游戏应用等。在一个实施例中，计算系统112可包括诸如标准化处理器、专用处理器、微处理器等的处理器，其可以执行存储在处理器可读存储设备上的指令以便执行本文所述的过程。

捕获设备120可以是例如相机，其可用来在视觉上监测一个或多个用户（诸如用户118）使得可捕获、分析以及跟踪由一个或多个用户执行的手势和/或移动，以在应用内执行一个或多个控制或动作和/或使得化身或屏幕上的人物动画化，如下面将更详细地描述的。

根据一个实施例，可将跟踪系统100连接到视听设备116（诸如电视、监视器、高清晰度电视（HDTV）等），其可向诸如用户118之类的用户提供游戏或应用视觉和/或音频。例如，计算系统112可包括诸如图形卡之类的视频适配器和/或诸如声卡之类的音频适配器，其可提供与游戏应用、非游戏应用等相关联的视听信号。视听设备116可从计算系统112接收视听信号，并且然后可向用户118输出与视听信号相关联的游戏或者应用视觉和/或音频。根据一个实施例，可经由例如S视频（S-Video）电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆、部件视频电缆等将视听设备16连接到计算系统112。

如图1A和1B中所示，可使用跟踪系统100来识别、分析和/或跟踪诸如用户118之类的人类目标。例如，可使用捕获设备120来跟踪用户118，使得可捕获用户118的手势和/或移动，以使得化身或屏幕上的人物动画化和/或可解释为可用来影响由计算系统112执行的应用的控制。因此，根据一个实施例，用户118可移动他或她的身体以控制应用和/或使得化身或屏幕上的人物动画化。

在图1A和1B中所描绘的示例中，在计算系统112上执行的应用可以是用户118正在玩的拳击游戏。例如，计算系统112可使用视听设备116来向用户118提供拳击对手138的视觉表示。计算系统112还可使用视听设备116来提供用户118可用他或她的移动来控制的玩家化身140的视觉表示。例如，如图1B中所示，用户118可在物理空间中出拳猛击以促使玩家化身140在游戏空间中出拳猛击。因此，根据示例性实施例，计算机系统112和捕获设备120识别并分析用户118在物理空间中的猛击，使得可将该猛击解释为游戏空间中的玩家化身140的游戏控制和/或可使用猛击的运动来将游戏空间中的玩家化身140动画化。

还可将用户118的其它移动解释为其它控制或动作和/或用来将玩家化身动画化，诸如控制进行轻敲（bob）、迂回而行（weave）、拖着脚走（shuffle）、阻挡、刺或以各种各样不同的力量出拳猛击。此外，可将某些移动解释为可对应于除控制玩家化身140之外的动作的控制。例如，在一个实施例中，玩家可使用移动来结束、暂停或保存游戏、选择级别、查看高分、与朋友通信等。根据另一实施例，玩家可使用移动来从主用户界面选择游戏或其它应用。因此，在示例性实施例中，用户118的完整范围运动可以是可用的、可以被使用并可以以任何适当的方式分析以与应用相交互。

在示例性实施例中，诸如用户118之类的人类目标可具有对象。在这样的实施例中，电子游戏的用户可能正在握着该对象，使得可使用玩家和对象的运动来调整和/或控制游戏的参数。例如，握着球拍的玩家的运动可被跟踪，并被用于控制电子体育游戏中的屏幕上的球拍。在另一示例性实施例中，握着对象的玩家的运动可被跟踪，并被用于控制电子战斗游戏中的屏幕上的武器。还可以跟踪未被用户握着的对象，诸如被用户（或不同的用户）投掷、推动或滚动的对象以及自力推进的对象。除拳击之外，还可以实现其它游戏。

根据其它示例性实施例，还可使用跟踪系统100来将目标移动解释为在游戏领域外的操作系统和/或应用控制。例如，可由诸如用户118之类的目标的移动来控制操作系统和/或应用的几乎任何可控方面。

图2A图示出可在跟踪系统100中使用的捕获设备120的示例性实施例。根据示例性实施例，可将捕获设备120配置成经由任何适当的技术以包括深度图像的深度信息来捕获视频，所述深度图像可包括深度值，所述任何适当技术包括例如飞行时间、结构光、立体图像等。根据一个实施例，捕获设备120可将深度信息组织成“Z”层或可垂直于从深度相机沿着其视线延伸的Z轴的层。

如图2A中所示，捕获设备120可包括图像相机部件222。根据示例性实施例，图像相机部件222可以是可捕获场景的深度图像的深度相机。深度图像可包括所捕获场景的二维（2-D）像素区，其中，2-D像素区中的每个像素可表示来自相机的所捕获的场景中的对象的深度值，诸如以例如厘米、毫米等为单位的距离。

如图2A中所示，根据示例性实施例，图像相机部件222可包括红外（IR）光部件224、三维（3-D）相机226以及可用来捕获场景的深度图像的RGB相机228。例如，在飞行时间分析中，捕获设备120的IR光部件224可向场景上发射红外光，并且然后可使用传感器（未示出）而通过使用例如3-D相机226和/或RGB相机228来检测来自场景中的一个或多个目标和对象的表面的反向散射光。在某些实施例中，可使用脉冲红外光，使得传出的光脉冲与相应的传入的光脉冲之间的时间可被测量，并被用来确定从捕获设备120到场景中的目标或对象上的特定位置的物理距离。附加地，在其它示例性实施例中，可将传出的光波的相位与传入的光波的相位相比较，以确定相移。然后可使用该相移来确定从捕获设备到目标或对象上的特定位置的物理距离。

根据另一示例性实施例，飞行时间分析可被用来通过经由各种技术分析随时间推移的反射光束强度而间接地确定从捕获设备120到目标或对象上的特定位置的物理距离，所述各种技术包括例如快门光脉冲成像。

在另一示例性实施例中，捕获设备120可使用结构光来捕获深度信息。在这样的分析中，可经由例如IR光部件224将图案化的光（即，显示为已知图案的光，诸如网格图案、条带图案或不同图案）投射到场景上。在照到场景中的一个或多个目标或对象的表面时，图案可作为响应而变成变形的。图案的这样的变形可被例如3-D相机226和/或RGB相机28捕获，并且然后可进行分析以确定从捕获设备到目标或对象上的特定位置的物理距离。在某些实施方式中，IR光部件224从相机226和228移位，并且因此可以使用三角测量来确定离相机226和228的距离。在某些实施方式中，捕获设备120将包括专用IR传感器，以感测IR光。

根据另一实施例，捕获设备120可包括两个或更多个物理上分离的相机，其可从不同的角度观看场景以获取到可被分辨以生成深度信息的视觉立体数据。还可以使用其它类型的深度图像传感器来创建深度图像。

捕获设备120还可包括麦克风130。麦克风130可包括可接收声音并将其转换成电信号的换能器或传感器。根据一个实施例，麦克风130可用来在目标识别、分析以及跟踪系统100中减少捕获设备120与计算系统112之间的反馈。附加地，麦克风30可用来接收音频信号（例如，话音命令），其也可由用户提供以控制可由计算系统112执行的应用，诸如游戏应用、非游戏应用等。

在示例性实施例中，捕获设备120还可包括可与图像相机部件222进行操作通信的处理器232。处理器232可包括可执行指令的标准化处理器、专用处理器、微处理器等，所述指令包括例如用于接收深度图像、生成适当数据格式（例如，帧）并将数据传输到计算系统112的指令。

捕获设备120还可包括存储器部件234，其可存储可由处理器232执行的指令、由3-D相机和/或RGB相机捕获的图像或图像帧或者任何其它适当的信息、图像等。根据示例性实施例，存储器部件234可包括随机存取存储器（RAM）、只读存储器（ROM）、高速缓存器、闪存、硬盘或任何其它适当的存储部件。如图2A中所示，在一个实施例中，存储器部件234可以是与图像捕获部件222和处理器232通信的单独部件。根据另一实施例，可将存储器部件234集成到处理器232和/或图像捕获部件222中。

如图2A中所示，捕获设备120可经由通信链路236与计算系统212通信。通信链路236可以是有线连接和/或无线连接，所述有线连接包括例如USB连接、火线（Firewire）连接、以太网电缆连接等，所述无线连接诸如无线802.11b、g、a或n连接。根据一个实施例，计算系统112可向捕获设备120提供时钟，其可用来确定何时经由通信链路236来例如捕获场景。附加地，捕获设备120经由通信链路236将由例如3-D相机226和/或RGB相机228捕获的深度图像和彩色图像提供给计算系统112。在一个实施例中，以每秒30帧传输深度图像和彩色图像。计算系统112然后可使用模型、深度信息以及所捕获的图像来例如控制应用（诸如游戏或字处理器）和/或使得化身或屏幕上的人物动画化。

计算系统112包括手势库240、结构数据242、深度图像处理和对象报告模块244和应用246。深度图像处理和对象报告模块244使用深度图像来跟踪对象（诸如用户及其它对象）的运动。为了帮助跟踪对象，深度图像处理和对象报告模块244使用手势库240和结构数据242。

结构数据242包括关于可跟踪的对象的结构信息。例如，可存储人类的骨骼模型以帮助理解用户的移动并识别身体部分。还可存储关于无生命对象的结构信息以帮助识别那些对象并帮助理解移动。

手势库240可包括手势过滤器的集合，每个手势过滤器包括关于可由骨骼模型（随着用户移动）执行的手势的信息。可将由相机226、228和捕获设备120以骨骼模型和与其相关联的移动的形式而捕获的数据与手势库240中的手势过滤器相比较，以标识用户（如骨骼模型所表示的）何时执行了一个或多个手势。那些手势可与应用的各种控制相关联。因此，计算系统112可使用手势库240来解释骨骼模型的移动，并基于该移动来控制应用246。这样，手势库可被深度图像处理和对象报告模块244和应用246使用。

应用246可以是视频游戏、生产力应用等。在一个实施例中，深度图像处理和对象报告模块244将向应用246报告检测到的每个对象的标识和用于每帧的对象的位置。应用246将使用该信息来更新显示器中的化身或其它图像的位置或移动。

图2B图示出在图2A中介绍的深度图像处理和对象报告模块244的示例性实施例。参考图2B，将深度图像处理和对象报告模块244示为包括深度图像分割模块252、基于深度的质心模块254、基于深度的惯性张量模块256和缩放器258。在实施例中，深度图像分割模块252被配置成检测深度图像内的一个或多个用户（例如，人类目标），并将分割值与每个像素相关联。这样的分割值被用来指示哪些像素对应于用户。例如，可以向对应于第一用户的所有像素指派1的分割值，可以向对应于第二用户的所有像素指派2的分割值，并且可以向并未对应于用户的像素指派任意预定值（例如，255）。还可能的是，可以向在深度图像内标识的、除用户之外的对象指派分割值，所述对象诸如但不限于网球拍、跳绳、球、地板等。在实施例中，由于由深度图像分割模块252执行的分割过程，所以深度图像中的每个像素将具有与该像素相关联的四个值，其包括：x位置值（即，水平值）；y位置值（即，垂直值）；z位置值（即，深度值）；以及分割值，其刚刚在上文解释过。换言之，在分割之后，深度图像可以指定多个像素对应于用户，其中，这样的像素还可以称为用户的基于深度的轮廓。附加地，深度图像可以针对对应于用户的每个像素来指定像素位置和像素深度。可以由x位置值（即，水平值）和y位置值（即，垂直值）来指示像素位置。可以由z位置值（也称为深度值）来指示像素深度，所述z位置值指示用来获取深度图像的捕获设备（例如，120）与像素所表示的用户的部分之间的距离。

仍参考图2B，在实施例中，使用基于深度的质心模块254来确定针对对应于用户的多个像素的基于深度的质心位置，其计及在像素所表示的用户部分与用来获取深度图像的捕获设备之间的距离。下面参考图7A—8B来描述关于确定基于深度的质心位置的附加细节。在实施例中，使用基于深度的惯性张量模块256基于针对对应于用户的所述多个像素的所确定的基于深度的质心位置来确定针对对应于用户的所述多个像素的基于深度惯性张量。下面参考图7A—8B来描述关于确定基于深度的惯性张量的附加细节。如参考图7A—8B附加地详细地描述的，可以使用缩放器258来使用对应于用户的多个像素具有预定质量（例如，75 kg）的假设而缩放所确定的基于深度的惯性张量。

图3图示出可以是图1A—2B中所示的、被用来跟踪运动和/或使由应用显示的化身或其它屏幕上的对象动画化（或以其它方式更新）的计算系统112的计算系统的示例性实施例。上文相对于图1A—2描述的诸如计算系统112之类到计算系统可以是多媒体控制台，诸如游戏控制台。如图3中所示，多媒体控制台300具有中央处理单元（CPU）301，其具有等级1的高速缓存器102、等级2的高速缓存器304以及闪速ROM（只读存储器）306。等级1的高速缓存器302和等级2的高速缓存器304临时地存储数据并因此减少存储器访问循环的数目，从而改善处理速度和吞吐量。可提供具有多于一个核并且因此具有附加的等级1的高速缓存器302和等级2的高速缓存器304的CPU 301。闪速ROM 306可存储可执行代码，当多媒体控制台300被通电时，在启动过程的初始阶段期间，加载所述可执行代码。

图形处理单元（GPU）308和视频编码器/视频编解码器（编码器/解码器）314形成视频处理管线，以用于高速度和高分辨率的图形处理。数据被经由总线从图形处理单元308载送至视频编码器/视频编解码器314。视频处理管线向A/V（音频/视频）端口340输出数据，以用于传输到电视或其它显示器。存储器控制器310被连接到GPU 308以促进处理器对各种类型的存储器312（诸如但不限于RAM（随机存取存储器））的访问。

多媒体控制台300包括I/O控制器320、系统管理控制器322、音频处理单元323、网络接口324、第一USB主机控制器326、第二USB控制器328和前面板I/O子组件330，这些优选地在模块318上实现。USB控制器326和328充当用于外围控制器342（1）—342（2）、无线适配器348以及外部存储设备346（例如，闪存、外部CD/DVD ROM驱动器、可移除介质等）的主机。网络接口324和/或无线适配器348提供对网络（例如，互联网、家庭网络等）的访问，并且可以是多种多样的各种有线或无线适配器部件中的任何一个，所述有线或无线适配器部件包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等。

提供系统存储器343来存储在启动过程期间加载的应用数据。提供了媒体驱动器344，且其可包括DVD/CD驱动器、蓝光驱动器、硬盘驱动器或其它可移除媒体驱动器等。媒体驱动器344可在多媒体控制台300的内部或外部。可经由媒体驱动器344来访问应用数据，以用于由多媒体控制台300执行、重放等。媒体驱动器344经由总线连接到I/O控制器320，所述总线诸如串行ATA总线或其它高速连接（例如，IEEE 1394）。

系统管理控制器322提供与确保多媒体控制台300的可用性有关的各种各样的服务功能。音频处理单元323和音频编解码器332形成具有高保真度和立体声处理的相应音频处理管线。经由通信链路而在音频处理单元323与音频编解码器332之间载送音频数据。音频处理管线向A/V端口340输出数据，以用于由具有音频能力的外部音频播放器或设备再现。

前面板I/O子组件330支持电源按钮350和弹出按钮352以及任何LED（发光二极管）或暴露在多媒体控制台300的外表面上的其它指示器的功能性。系统电力供应模块336向多媒体控制台300的部件提供电力。风扇338冷却多媒体控制台300内的电路。

多媒体控制台300内的CPU 301、GPU 308、存储器控制器310以及各种其它部件经由一个或多个总线互连，所述总线包括使用各种各样总线架构中的任何一个的串行和并行总线、存储器总线、外围总线以及处理器或本地总线。举例来说，这样的架构可以包括外围部件互连（PCI）总线、PCI-Express总线等。

当多媒体控制台300通电时，可将应用数据从系统存储器343加载到存储器312和/或高速缓存器302、304中，并在CPU 301上执行。应用可呈现图形用户界面，其在导航到在多媒体控制台300上可用的不同媒体类型时提供一致的用户体验。在操作中，可从媒体驱动器344启动或播放包含在媒体驱动器344内的应用和/或其它媒体，以向多媒体控制台300提供附加功能性。

多媒体控制台300可通过简单地将系统连接到电视或其它显示器而操作为独立的系统。在这个独立的模式下，多媒体控制台300允许一个或多个用户与系统相交互、观看电影或收听音乐。然而，随着通过网络接口324或无线适配器348而使得可用的宽带连通性的集成，多媒体控制台300还可操作为较大网络社区中的参与者。

当多媒体控制台300被通电时，预留设定量的硬件资源，以供由多媒体控制台操作系统的系统使用。这些资源可包括如下项的预留，即：存储器（例如，16MB）、CPU和GPU循环（例如，5%）、网络带宽（例如，8 Kbps）等。由于这些资源是在系统启动时预留的，所以从应用的角度来看，所预留的资源不存在。

特别地，优选地，存储器预留足够大以包含启动内核、并发系统应用和驱动程序。CPU预留优选地是恒定的，使得如果所预留的CPU使用未被系统应用使用，则空闲线程将消耗任何未使用的循环。

关于GPU预留，通过使用GPU中断来调度代码以在覆盖层中展现弹出窗口而显示由系统应用生成的轻量级消息（例如，弹出窗口）。覆盖层所要求的存储器的量取决于覆盖层区域的尺寸，并且该覆盖层优选地随屏幕分辨率而缩放。在全用户界面被并发系统应用使用的情况下，优选的是，使用独立于应用分辨率的分辨率。可使用缩放器来设定该分辨率，使得对改变频率和引起TV重新同步的需要被消除。

在多媒体控制台300启动且系统资源被预留之后，并发系统应用执行以提供系统功能性。该系统功能性被封装在一组系统应用中，其在上述所预留的系统资源内执行。操作系统内核标识系统应用线程与游戏应用线程的线程。系统应用优选地被调度为在预定时间和间隔在CPU 301上运行，以便向应用提供一致的系统资源视图。该调度将使得对于在控制台上运行的游戏应用的高速缓存器中断最小化。

当并发系统应用要求音频时，由于时间灵敏度而与游戏应用异步地调度音频处理。多媒体控制台应用管理器（下面描述）在系统应用活动时控制游戏应用音频水平（例如，静音、减弱）。

输入设备（例如，控制器342（1）和342（2））被游戏应用和系统应用共享。该输入设备不是所预留的资源，而是在系统应用与游戏应用之间切换，使得其每个将具有设备的焦点。应用管理器优选地控制输入流的切换，而不知晓游戏应用程序的知识，并且驱动程序保持关于焦点切换的状态信息。相机226、228和捕获设备120可经由USB控制器326或其它接口来定义用于控制台300的附加输入设备。

图4图示出计算系统420的另一示例性实施例，该计算系统420可以是图1A—2B中所示的、用来跟踪运动和/或使得由应用所显示的化身或其它屏幕上的对象动画化（或以其他方式更新）的计算系统112。计算系统420仅仅是适当计算系统的一个示例，并且并不意图暗示关于当前公开主题的使用范围或功能性的任何限制。也不应将计算系统420解释为具有关于在示例性计算系统420中所图示的部件中的任何一个或组合的任何依赖性或要求。在某些实施例中，各种所描绘的计算元件可包括被配置成将本公开内容的特定方面实例化的电路。例如，在本公开内容中所使用的术语电路可以包括被配置成由固件或开关来执行（一个或多个）功能的专用硬件部件。在其它示例性实施例中，术语电路可以包括由体现可操作以执行（一个或多个）功能的逻辑的软件指令所配置的通用处理单元、存储器等。在电路包括硬件和软件的组合的示例性实施例中，实现者可编写体现逻辑的源代码，并且可以将源代码编译成可以被通用处理单元处理的机器可读代码。由于本领域的技术人员可以认识到现有技术已经演进到在硬件、软件或硬件/软件的组合之间存在很小差异的程度，所以用以实现特定功能的硬件与软件的选择是留给实现者的设计选择。更具体地，本领域的技术人员可以认识到，可以将软件过程变换成等价硬件结构，并且可以将硬件结构本身变换成等价软件过程。因此，硬件实施方式与软件实施方式的选择是设计选择之一，并被留给实现者处理。

计算系统420包括计算机441，其典型地包括各种各样的计算机可读介质。计算机可读介质可以是可被计算机441访问的任何可用介质，并且包括易失性和非易失性介质、可移除和不可移除介质。系统存储器422包括易失性和/或非易失性存储器形式的计算机存储介质，诸如只读存储器（ROM）423和随机存取存储器（RAM）460。基本输入/输出系统424（BIOS）典型地被存储在ROM 423中，所述基本输入/输出系统424包含诸如在启动期间帮助在计算机441内的元件之间传递信息的基本例程。RAM 460典型地包含处理单元459立即可访问和/或当前在处理单元459上操作的数据和/或程序模块。作为示例而非限制的方式，图4图示出操作系统425、应用程序426、其它程序模块427以及程序数据428。

计算机441还可包括其它可移除/不可移除、易失性/非易失性计算机存储介质。仅作为示例，图4图示出从不可移除、非易失性磁介质读取或向其写入的硬盘驱动器438、从可移除、非易失性磁盘454读取或向其写入的磁盘驱动器439以及从诸如CD ROM或其它光学介质之类的可移除、非易失性光盘453读取或向其写入的光盘驱动器440。在示例性操作环境中可以使用的其它可移除/不可移除、易失性/非易失性计算机存储介质包括但不限于盒式磁带、闪存卡、数字多用盘、数字视频磁带、固态RAM、固态ROM等。硬盘驱动器438典型地通过诸如接口434之类的不可移除存储器接口连接到系统总线421，并且磁盘驱动器439和光盘驱动器440典型地通过可移除存储器接口（诸如接口435）连接到系统总线421。

上文讨论并在图4中图示出的驱动器及其关联的计算机存储介质提供了计算机可读指令、数据结构、程序模块和用于计算机441的其它数据的存储。在图4中，例如，将硬盘驱动器438图示为存储操作系统458、应用程序457、其它程序模块456以及程序数据455。请注意，这些部件可以与操作系统425、应用程序426、其它程序模块427以及程序数据428相同或不同。在这里向操作系统458、应用程序457、其它程序模块456以及程序数据455给出了不同数字，以图示出其至少是不同的副本。用户可通过诸如键盘451和指向设备452（一般地称为鼠标、轨迹球或触控板）之类的输入设备向计算机441中键入命令和信息。其它输入设备（未示出）可包括麦克风、操纵杆、游戏板、碟形卫星天线、扫描仪等。这些及其它输入设备常常通过耦合到系统总线的用户输入接口436而连接到处理单元459，但是其也可以被其它接口和总线结构连接，诸如并行端口、游戏端口或通用串行总线（USB）。相机226、228和捕获设备120可定义经由用户输入接口436连接的、用于计算系统420的附加输入设备。监视器442及其它类型的显示设备还经由接口（诸如视频接口432）连接到系统总线421。除监视器之外，计算机还可包括其它外围输出设备，诸如扬声器444和打印机443，其可通过输出外围接口433连接。捕获设备120可经由输出外围接口433、网络接口437或其它接口而连接到计算系统420。

计算机441可使用对一个或多个远程计算机（诸如远程计算机446）的逻辑连接而在联网环境中操作。远程计算机446可以是个人计算机、服务器、路由器、网络PC、对等设备或其它常见网络节点，并且典型地包括上文相对于计算机441描述的元件中的许多或所有元件，虽然在图4中仅图示出存储器存储设备447。所描绘的逻辑连接包括局域网（LAN）445和广域网（WAN）449，但是还可包括其它网络。这样的联网环境在办公室、企业范围的计算机网络、内部网以及互联网中是普遍的。

当在LAN联网环境中使用时，计算机441通过网络接口437连接到LAN 445。当在WAN联网环境中使用时，计算机441典型地包括调制解调器450和用于通过诸如互联网之类的WAN 449来建立通信的其它装置。可经由用户输入接口436或其它适当机制将可在内部或外部的调制解调器450连接到系统总线421。在联网环境中，可将相对于计算机441或其一部分所描绘的程序模块存储在远程存储器存储设备中。作为示例而非限制的方式，图4将应用程序448图示为常驻于存储器设备447上。将认识到的是，所示的网络连接是示例性的，并且可使用在计算机之间建立通信链路的其它装置。

如上文所解释的，捕获设备120向计算系统112提供RGB图像（也称为彩色图像）和深度图像。深度图像可以是多个所观测的像素，其中，每个所观测的像素具有所观测的深度值。例如，深度图像可包括所捕获的场景的二维（2-D）像素区，其中，2-D像素区中的每个像素可具有深度值，诸如来自捕获设备的所捕获的场景中的对象的以例如厘米、毫米等为单位的长度或距离。

如上所提及的，常常使用骨骼跟踪（ST）技术来检测用户的运动或其它用户行为。然而，虽然对检测某些类型的用户行为有用，但ST技术已被证明对于检测其它类型的用户行为是不可靠的。例如，典型地，ST技术对于检测用户在地板上面或附近躺着或坐着的用户行为是不可靠的。本文所述的某些实施例依赖于深度图像来检测用户行为。基于深度基础图像所检测的这样的用户行为可以替代于用于检测用户行为的ST技术使用或被用来补充用于检测用户行为的ST技术。因此，在附加地详细地讨论这样的实施例之前，首先提供深度图像的附加细节将是有用的。

图5图示出可在计算系统112处从捕获设备120接收到的深度图像的示例性实施例。根据示例性实施例，深度图像可以是由例如上文相对于图2A描述的捕获设备120的3-D相机226和/或RGB相机228捕获的场景的图像和/或帧。如图5中所示，深度图像可包括对应于例如用户（诸如上文相对于图1A和1B所述的用户118）的人类目标和一个或多个非人类目标，诸如在所捕获的场景中的墙壁、桌子、监视器等。如上所述，深度图像可包括多个所观测的像素，其中，每个所观测的像素具有与其相关联的所观测的深度值。例如，深度图像可包括所捕获的场景的二维（2-D）像素区，其中，2-D像素区中的特定x值和y值处的每个像素可具有深度值，诸如来自捕获设备的所捕获的场景中的目标或对象的以例如厘米、毫米等为单位的长度或距离。换言之，如上文在图2B的讨论中所解释的，深度图像可以针对深度图像中的每个像素指定像素位置和像素深度。在例如由深度图像处理和对象报告模块244执行的分割过程之后，深度图像中的每个像素还可具有与其相关联的分割值。可以由x位置值（即，水平值）和y位置值（即，垂直值）来指示像素位置。可以由z位置值（也称为深度值）来指示像素深度，所述z位置值指示用来获取深度图像的捕获设备（例如，120）与像素所表示的用户部分之间的距离。该分割值用来指示像素是对应于特定用户还是不对应于用户。

在一个实施例中，深度图像可以是彩色化的或灰度的，使得深度图像的像素的不同色彩或明暗度对应于和/或在视觉上描绘目标与捕获设备120的不同距离。在接收到图像后，可以将一个或多个高方差和/或噪声深度值从深度图像中移除和/或平滑化；可以填充和/或重构缺失的和/或已移除的深度信息的部分；和/或可对接收到的深度图像执行任何其它适当处理。

图6提供了深度图像的另一视图/表示（并不对应于与图5相同的示例）。图6的视图将对于每个像素的深度数据示为整数，其表示对于该像素而言目标到捕获设备120的距离。图6的示例性深度图像示出了24×24个像素；然而，很可能将使用更大分辨率的深度图像。

取决于正在跟踪什么用户行为，能够确定并跟踪对于用户的质心位置有时将是有用的。例如，这样的信息可以用来跟踪执行某些锻炼（诸如下蹲、向前冲刺、俯卧撑、跳跃或分腿跳）的用户，使得可以控制用户的化身，可以对用户授予点数和/或可以向用户提供反馈。下面讨论的某些实施例涉及用于基于深度图像来确定质心位置的技术，并且因此在下文中将位置称为基于深度的质心位置。

下面示出了传统的质心等式：

(等式 1)

其中，P是最终质心位置，M是质量的和（M = ），n是身体部分的数目，m_i是特定身体部分的质量，并且R_i是身体部分的质心的位置（在三维空间中）。以上等式可以例如由确定质心位置的ST系统来使用。

根据实施例，当替代于将各身体部分插入以上等式中而基于深度图像来计算质心时，使用像素。每个像素对应于三维空间中的位置，其可以使用标准自然用户界面（NUI）坐标变换来计算。每个像素的“质量”或“重量”是依赖于深度的。在实施例中，为了确定像素的质量，对像素的深度值求平方，如下所示：

m = d * d （等式2）

其中，“m”是像素的质量，并且“d”是像素的深度值。净效应是增加较远的像素的“重量”，并减小较近的像素的“重量”。其原因是因为相机（例如，226）经由视图平截头体（frustum）来看世界，相同数目的更远的像素会比更近的像素覆盖更多的真实世界“面积”，并且其覆盖的面积与被取平方的距离成比例。换言之，深度图像的像素取决于距离而具有不同的有效表面面积。在本文所述的某些实施例中，以补偿该距离的方式来计算基于深度的质心位置。在没有对距离的该补偿的情况下，如果用户的手握在相机（例如，226）附近，则从相机的角度看，用户的手可具有与用户身体的其余部分一样大或更大的可见区域。这可以导致不准确的质心位置。用距离补偿，对应于用户的手的像素中的每个像素将具有比与离相机更远的用户身体部分相对应的像素更小的加权，从而使得能够确定更准确的基于深度的质心位置。

根据实施例，当确定基于深度的质心位置时，仍使用以上在等式1中所示的传统质心等式，除了n是对应于用户的像素的数目（替代于身体部分的数目），并且质量m_i是使用以上的等式2针对每个像素计算的（替代于针对每个身体部分确定质量）。R是使用标准NUI坐标变换技术计算的像素的位置（在三维空间中）。M是m_i的和，即，。

完全地基于深度图像来确定基于深度的质心位置的优点是：即使当ST技术失败时，也可以确定基于深度的质心位置。另一优点是：一旦深度图像在处理管线上可用，则可以确定基于深度的质心位置，从而减少了等待时间，因为不需要执行ST技术。

现在将使用图7A的高水平流程图来概述根据实施例的用于确定基于深度的质心位置的方法。更具体地，图7A是描述用于确定针对与用户相对应的多个像素的基于深度的质心位置的过程的一个实施例的流程图，该基于深度的质心位置计及像素所表示的用户部分与用来获取深度图像的捕获设备之间的距离。在步骤702处，接收深度图像，其中，所述深度图像指定多个像素对应于用户。可以使用位于与用户（例如，118）相距一段距离处的捕获设备（例如，120）来获取深度图像。更一般地，可以由本文所述的捕获设备120中的传感器中的任何传感器或本领域中已知的其它适当传感器来捕获深度图像和彩色图像。在一个实施例中，深度图像与彩色图像分开地捕获。在某些实施方式中，同时地捕获深度图像和彩色图像，而在其它实施方式中，深度图像和彩色图像是顺序地或在不同的时间捕获的。在其它实施例中，深度图像与彩色图像一起捕获或与彩色图像组合为一个图像文件，使得每个像素具有R值、G值、B值和Z值（距离）。可以将这样的深度图像和彩色图像传输到计算系统112。在一个实施例中，以每秒30帧传输深度图像和彩色图像。在某些示例中，深度图像与彩色图像分开地传输。在其它实施例中，可以将深度图像和彩色图像一起传输。由于本文所述的实施例主要（或单独地）依赖于深度图像的使用，所以其余讨论主要集中于深度图像的使用，并且因此不讨论彩色图像。

在步骤702处接收到的深度图像还可以针对对应于用户的每个像素指定像素位置和像素深度。如上所提及的，在图2B的讨论中，可以由x位置值（即，水平值）和y位置值（即，垂直值）来指示像素位置。可以由z位置值（也称为深度值）来指示像素深度，所述z位置值指示用来获取深度图像的捕获设备（例如，120）与像素所表示的用户部分之间的距离。出于本描述的目的，假设在步骤702处接收到的深度图像已经受到了确定哪些像素对应于用户和哪些像素不对应于用户的分割过程的处理。替换地，如果在步骤702处接收到的深度图像尚未通过分割过程，则分割过程可以在步骤702和704之间发生。

在步骤704处，访问深度图像的像素。在步骤706处，存在所访问的像素是否对应于要确定针对其的基于深度的质心的用户的确定。如果对步骤706处的确定的回答为否，则流程转到步骤712。如果对步骤706的确定的回答为是，则流程转到步骤708。在步骤708处，计算像素的质量。如上文参考等式2所讨论的，可以通过对针对像素的深度值求平方来计算像素的质量。用于确定像素质量的替换技术也是可能的并且位于实施例范围内，所述替换技术诸如查找表的使用或计及在用来获取深度图像的捕获设备（例如，120）与像素所表示的用户部分之间的距离的替换等式的使用。在步骤710处，像素的所计算的或者以其它方式确定的质量被存储（例如，在存储器中）。

在步骤712处，存在如下的确定，即：是否存在需要考虑的深度图像的任何更多像素（即，至少再多一个像素）。如果对步骤712处的确定的回答为否，则流程转到步骤714。如果对步骤712处的确定的回答为是，则流程转到步骤704，并访问深度图像的另一像素。

在考虑了深度图像的所有像素之后，在步骤714处，针对对应于用户的多个像素确定基于深度的质心位置。更具体地，在步骤714处，基于针对对应于用户的每个像素所确定的像素质量来确定针对对应于用户的多个像素的基于深度的质心位置，其计及在像素所表示的用户部分与用来获取深度图像的捕获设备之间的距离。用于计算基于深度的质心位置的等式在上文被描述，并且因此需要被再次描述。在步骤714处，在步骤710的实例处存储的像素质量可以被访问并被应用于上述等式。

根据某些实施例，除确定基于深度的质心之外，还可以基于深度图像来确定基于深度的惯性张量。当确定基于深度的惯性张量时，将每个像素视为质点（particle），并且相对于所确定的基于深度的质心位置来确立基于深度的惯性张量。更具体地，在实施例中，使用以下等式来计算基于深度的惯性张量：

（等式3）

其中，I是总体3×3的基于深度的惯性张量，n是对应于用户的像素的数目，m_i是对应于用户的特定像素的质量（例如，使用上述等式2计算），r_i是从像素到基于深度的质心质量的三维向量，E是3×3的单位矩阵，“▪”是点积运算符，并且“”是叉积运算符。

根据某些实施例，然后根据玩家的轮廓的质量是标准质量（例如75kg）的假设，缩放基于深度的惯性张量。在特定实施例中，通过计算mi的和并用标准质量除以该和来计算标量，如以下等式中所示：

（等式4）

其中，M_s是标准质量（例如75kg）。然后用该标量来缩放基于深度的惯性张量，如以下等式中所示：

（等式5）。

对于缩放基于深度的惯性张量的原因是使得对应用（正在向其报告所缩放的基于深度的惯性张量）的更新不受用户尺寸的影响。换言之，该缩放使得应用（例如，246）能够与应用解释相对瘦弱的用户的移动或其它行为的相似方式来解释相对魁梧的用户的移动或其它行为。对于缩放基于深度的惯性张量的另一个原因是使得对应用（正在向其报告所缩放的基于深度的惯性张量）的更新不受到用户相对于捕获设备定位的接近程度的影响。换言之，该缩放使得应用（例如，246）能够以与应用解释相对更加远离捕获设备而定位的用户的移动或其它行为的相似方式来解释相对接近于捕获设备而定位的用户的移动或其它行为。所缩放的基于深度惯性张量还可以被称为基于深度的惯性张量的缩放版本。

在深度图像中表示多于一个用户的情况下，可以针对每个用户执行图7A（和下面讨论的图7B）的方法的单独实例。例如，假设深度图像中的第一组像素对应于第一用户，并且相同深度图像中的第二组像素对应于第二用户。这将带来针对对应于第一用户的多个像素的第一基于深度的质心位置，其计及在第一组像素所表示的第一用户部分与用来获取深度图像的捕获设备之间的距离。这还将带来对于对应于第二用户的多个像素的第二基于深度的质心位置，其计及在第二组像素所表示的第二用户部分与用来获取深度图像的捕获设备之间的距离。附加地，这可以带来针对对应于第一用户的多个像素的第一基于深度的惯性张量和针对对应于第二用户的第二基于深度的惯性张量。

参考图7A所述的方法可以针对附加深度图像重复进行，从而带来针对多个深度图像中的每一个深度图像而确定的基于深度的质心位置以及基于深度的惯性张量。在深度图像中表示多于一个用户的情况下，每次重复该方法时，可以针对在深度图像中表示的每个用户来确定单独的基于深度的质心位置和基于深度的惯性张量。所确定的基于深度的质心位置和基于深度的惯性张量和/或其中的改变可以用来跟踪用户行为以及用户行为的改变。例如，可以将所确定的基于深度的质心位置和/或基于深度的惯性张量报告给应用（例如，246），如在步骤716和720处所指示的，并且可以基于被报告给应用的基于深度的质心位置和/或基于深度的惯性张量来更新应用。如在步骤719处所指示的，可以在将基于深度的惯性张量报告给应用之前对所述基于深度的惯性张量进行缩放，如以上在等式5的讨论中所述的。

在实施例中，基于深度的惯性张量的主轴可以被确定，并被用来在用户伸展时（例如，站立、处于俯卧撑位置或处于平板支撑（plank）位置）标识用户的“长轴”。更具体地，可以将基于深度的惯性张量分解成特征向量和特征值。然后可以通过标识最短特征值的特征向量来标识用户的“长轴”。例如，当用户站立时，与最小特征值相关联的特征向量将笔直向上。针对另一示例，当用户处于俯卧撑或平板支撑位置时，与最小特征值相关联的特征向量将沿着用户的身体线条。

对于某些应用而言，基于深度的质心位置和/或基于深度的惯性张量可为应用提供足够的信息来更新所述应用。对于其它应用而言，基于深度的质心位置和/或基于深度的惯性张量可为应用提供不足以更新所述应用的信息。例如，在应用尝试确定用户是否正在适当地执行分腿跳类型的锻炼时，仅仅使应用跟踪基于深度的质心位置和/或基于深度的惯性张量可能是不够的。

现在参考图7B，如在步骤722和724处所指示的，根据某些实施例，为了从深度图像收集附加的有用信息，将对应于用户的多个像素划分到象限中，并且针对每个象限确定单独的基于深度的象限质心位置。附加地，可以针对每个象限确定单独的基于深度的象限惯性张量，如在步骤728处所指示的。所确定的基于深度的象限质心位置和基于深度的象限惯性张量和/或其中的改变可以用来跟踪用户行为以及用户行为的改变。更具体地，可以将所确定的基于深度的象限质心位置和/或基于深度的象限惯性张量报告给应用（例如，246），如在步骤726和730处所指示的，并且可以基于被报告给应用的基于深度的象限质心位置和/或基于深度的象限惯性张量来更新应用。跟踪基于深度的象限质心位置和/或基于深度的象限惯性张量的改变使得能够跟踪特定身体部分的位置（和因此的运动）的改变和/或用户的质量分布的改变，如可以从下面讨论的图8A和8B认识到的。

在实施例中，当在步骤724处将对应于（深度图像的）用户的多个像素划分到象限中时，使用在步骤714处确定的基于深度的质心位置作为其中全部的四个象限的拐角彼此相遇的点。换言之，在步骤724处，可以使用交叉在步骤714处所确定的基于深度的质心位置处的两条线来将对应于（深度图像的）用户的多个像素划分到象限中。在实施例中，一条这样的线可以是垂直线，其笔直向上和向下并与在步骤714处确定的基于深度的质心位置交叉，而另一条线可以是水平线，其垂直于该垂直线并在基于深度的质心位置处与该垂直线交叉。然而，使用这样的任意画出的线来将对应于（深度图像的）用户的多个像素划分到象限中并未考虑到用户的实际位置。根据替换实施例，另一技术将标识基于深度的惯性张量的主轴，并且选择主轴之一以用作是将对应于（深度图像的）用户的多个像素纵向地划分的线。然后可以将垂直于与基于深度的质心位置（在步骤714处确定）交叉的主轴中的所选的一个主轴（用作是前述的划分线）的线使用为将对应于（深度图像的）用户的多个像素横向地划分的线。从图8A和8B的以下讨论可以进一步认识到这些技术。

参考图8A，其中所示的轮廓表示对应于深度图像的用户的多个像素。轮廓的中间的白色“x”表示针对对应于用户的多个像素而确定的基于深度的质心位置。在白色“x”处与该轮廓交叉的水平和垂直白色线图示出可以用来将对应于用户的多个像素划分到象限中的线。四个白色“＋”表示针对相应的象限确定的基于深度的象限质心位置。在深度图像中表示的用户正在执行分腿跳类型的锻炼。如果仅仅正在针对多个连续深度图像跟踪基于深度的质心位置（用白色“x”表示），则基于深度的质心位置可随时间推移而上下移动。然而，仅仅基于上下移动的基于深度的质心位置将难以确定用户是简单地上下跳（而没有如在适当的分腿跳中应做的那样移动其手臂和腿）还是正在执行适当的分腿跳。在针对每个象限来确定基于深度的象限质心位置的情况下，可以收集附加的有用信息，如可以从图8A认识到的。例如，可预期每个基于深度的象限质心位置将在用户执行适当的分腿跳时沿着可预测路径来回移动。通过针对每个象限确定基于深度的象限惯性张量，可以收集甚至更多的有用信息。例如，可以使用基于深度的象限惯性张量来确定用户是否正在朝着捕获设备或远离捕获设备移动特定肢体。这些仅仅是可以通过分析基于深度的象限质心位置和/或基于深度的象限惯性张量来解密的用户行为类型的几个示例。阅读本描述的本领域的技术人员将认识到，还可以基于基于深度的象限质心位置和/或基于深度的象限惯性张量来标识种种其它行为。

图8B用来图示出为什么使用在步骤718处确定的基于深度的惯性张量的主轴之一作为纵向地划分对应于（深度图像的）用户的多个像素的线是有益的。参考图8B，其中所示的轮廓表示对应于深度图像的用户的多个像素，其中，用户正在执行俯卧撑类型的锻炼。在图8B中，从轮廓的头延伸到脚的白色线对应于基于基于深度的惯性张量而确定的主轴中的一个。图8B中所示的、垂直于上述主轴并与基于深度的质心位置（在步骤714处确定）交叉的另一白色线被用作是将对应于（深度图像的）用户的多个像素横向地划分的线。针对每个象限确定的示例性基于深度的象限质心位置被图示为白色“＋”。在图8B中，像素所表示的用户正在做俯卧撑，如上所提及的。可以从图8B认识到，如果使用任意的水平和垂直线来将对应于用户的多个像素划分到象限中，则象限中的至少一个可包括相对少量的像素，将难以从其中收集有用的信息。

仍参考图8B，将（对应于用户的）多个像素划分到象限中的两条线之一被用来将两个上象限与两个下象限分开。取决于实施方式且取决于用户的位置，这条线（将两个上象限从两个下象限划分出来）可以是主轴或者垂直于主轴的线。

如上所提及的，深度图像和RGB图像可以使用捕获设备120来获取，并以每秒三十帧的速率或以某个其它速率传输到计算系统112。深度图像可以与RGB图像分开地传输，或者两个图像可以被一起传输。继续上述示例，可以针对每个深度图像帧确定上述基于深度的质心位置以及上述基于深度的惯性张量，并且因此可以每秒确定三十个基于深度的质心位置以及三十个基于深度的惯性张量。附加地，针对每个深度图像帧，可以确定基于深度的象限质心位置和基于深度的象限惯性张量。这样的确定可以由上文参考图2A和2B所讨论的深度图像处理和对象报告模块244执行。甚至更具体地，可以使用参考图2B讨论的基于深度的质心模块254和基于深度的惯性张量模块256来执行这样的确定。

参考回图2A，深度图像处理和对象报告模块244可以将其确定报告给应用246。上文还参考图7A和7B中的步骤716、720、726和730讨论了这样的报告。现在参考图9，在步骤902处，应用接收指示基于深度的质心位置、基于深度的惯性张量、基于深度的象限质心位置和/或基于深度的象限惯性张量的信息。如在步骤904处所示，基于这样的信息来更新应用。例如，如上所提及的，这样的信息可以用来跟踪执行某些锻炼（诸如下蹲、向前冲刺、俯卧撑、跳跃或分腿跳）的用户，使得可以控制用户的化身，可以对用户授予点数和/或可以向用户提供反馈。针对更特定的示例，在应用246是指导用户执行某些锻炼的游戏的情况下，应用246可以确定用户是否已经以正确的形式执行了锻炼，并且在其没有以正确的形式执行锻炼的情况下，可以向用户提供关于用户可以如何改善其形式的反馈。

还可能的是，深度图像处理和对象报告模块244与手势库240相交互，以将基于深度图像而跟踪的运动或其它行为与基于深度的手势过滤器相比较，以确定用户（如由深度图像的像素所表示的）是否已执行了一个或多个手势。那些手势可与应用246的各种控制相关联。因此，计算系统112可使用手势库240来解释基于深度图像而检测到的移动，并且基于所述移动来控制应用246。这样，手势库可被深度图像处理和对象报告模块244和应用246使用。

可使被用来获取深度图像的相机（例如，226）相对于用户正在其上站立或者以其它方式支撑他们自己的地板倾斜。为了计及这样的相机倾斜，可以从传感器（例如，加速计）或以某个其它方式获取重力向量，并在计算基于深度的质心位置、基于深度的惯性张量、基于深度的象限质心位置和/或基于深度的象限惯性张量时将所述重力向量计算在内。可以在对应于用户的像素被用来以上述方式确定基于深度的质心位置、基于深度的惯性张量、基于深度的象限质心位置和/或基于深度的象限惯性张量之前，对这样的像素执行这样的计及相机倾斜（也称为倾斜校正）。在某些实施例中，通过计算使重力向量旋转成单位y向量的旋转矩阵来执行倾斜校正，并且在像素被用来确定基于深度的质心位置、基于深度的惯性张量、基于深度的象限质心位置和/或基于深度的象限惯性张量之前对像素应用所计算的旋转矩阵。例如，如果x、y、z重力矩阵是（0.11，0.97，0.22），则所计算的旋转矩阵将使重力矩阵旋转成为（0.0，1.0，0.0）。在替换实施例中，在没有倾斜校正的情况下计算基于深度的质心位置、基于深度的惯性张量、基于深度的象限质心位置和/或基于深度的象限惯性张量，并且然后在已经确定了基于深度的确定之后对其应用所计算的旋转矩阵，从而使结果消除倾斜。仍在其它实施例中，替代于使用旋转矩阵来执行倾斜校正，可以使用四元数来执行倾斜校正。可以使用众所周知的标准技术来执行旋转矩阵或四元数的计算，如阅读本描述的本领域的技术人员将认识到的。因此，可以认识到，如上所述的被用来更新应用的任何基于深度的质心位置、基于深度的惯性张量、基于深度的象限质心位置和/或基于深度的象限惯性张量可能已经被倾斜校正了。

虽然以特定于结构特征和/或方法动作的语言描述了本主题，但应理解的是，在所附权利要求中限定的主题不一定局限于上述特定特征或动作。而是，上文描述的特定特征和动作是作为实现权利要求的示例性形式而公开的。意图在于由所附权利要求来限定技术的范围。

Claims

1.一种用于使用深度图像来提取用户行为的方法，包括：

接收深度图像，其指定多个像素对应于用户，

其中，使用位于与用户相距一段距离处的捕获设备来获取深度图像，

其中，所述深度图像还针对对应于用户的每个像素指定像素位置和像素深度，以及

其中，针对对应于用户的每个像素而指定的像素深度指示在捕获设备与像素所表示的用户部分之间的距离；

针对对应于用户的每个像素来确定像素质量，所述像素质量计及在像素所表示的用户部分与用来获取深度图像的捕获设备之间的距离；以及

基于针对对应于用户的每个像素而确定的像素质量，确定针对对应于用户的所述多个像素的基于深度的质心位置，其计及在像素所表示的用户部分与用来获取深度图像的捕获设备之间的距离。

2.根据权利要求1所述的方法，其中：

对于每个像素的像素深度由深度值指定；以及

针对对应于用户的每个像素而确定的像素质量通过对指定针对所述像素的像素深度的深度值求平方来确定。

3.根据权利要求1或权利要求2所述的方法，进一步包括：

使用所确定的基于深度的质心位置来将对应于用户的所述多个像素划分到象限中；以及

针对每个象限来确定单独的基于深度的象限质心位置。

4.根据权利要求1或权利要求2所述的方法，进一步包括：

基于针对对应于用户的所述多个像素的所确定的基于深度的质心位置，确定针对对应于用户的所述多个像素的基于深度的惯性张量。

5.根据权利要求4所述的方法，进一步包括：

使用对应于用户的所述多个像素具有预定质量的假设，缩放所确定的基于深度的惯性张量；以及

使用所缩放的基于深度的惯性张量来更新应用。

6.一种使用深度图像来提取用户行为的系统，包括：

捕获设备，其获取深度图像；

一个或多个存储设备，其存储深度图像；

显示器接口；以及

一个或多个处理器，其与所述一个或多个存储设备和所述显示器接口通信，其中，所述一个或多个处理器被配置成针对多个深度图像中的每一个深度图像确定：

针对对应于用户的深度图像的多个像素的基于深度的质心位置，以及

针对对应于用户的深度图像的多个像素的基于深度的惯性张量。

7.根据权利要求6所述的系统，其中，所述基于深度的质心位置和所述基于深度的惯性张量以计及在像素所表示的用户部分与用来获取深度图像的捕获设备之间的距离的方式来确定。

8.根据权利要求6或7所述的系统，其中，所述一个或多个处理器使用所确定的基于深度的质心位置或所确定的基于深度的惯性张量中的一个或多个来更新在系统上运行的应用，并在显示器接口上提供指示对应用的更新的信号。

9.根据权利要求6或7所述的系统，其中，所述一个或多个处理器还被配置成：

使用所确定的基于深度的质心位置和所确定的基于深度的惯性张量来将对应于用户的多个像素划分到象限中；

针对每个象限确定单独的基于深度的象限质心位置；以及

使用所确定的基于深度的象限质心位置中的一个或多个来更新在系统上运行的应用，并在显示器接口上提供指示对应用的更新的信号。

10.根据权利要求6或7所述的系统，其中，所述一个或多个处理器还被配置成：

针对每个象限确定单独的基于深度的象限质心位置；以及

针对每个象限确定单独的基于深度的象限惯性张量；以及

使用所确定的基于深度的象限惯性张量或其缩放版本中的一个或多个来更新在系统上运行的应用，并在显示器接口上提供指示对应用的更新的信号。