CN102707797A

CN102707797A - 通过自然用户界面控制多媒体系统中的电子设备

Info

Publication number: CN102707797A
Application number: CN2012100520702A
Authority: CN
Inventors: J·克拉维
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2011-03-02
Filing date: 2012-03-01
Publication date: 2012-10-03
Anticipated expiration: 2032-03-01
Also published as: US20120226981A1; CN102707797B

Abstract

本发明涉及通过自然用户界面控制多媒体系统中的电子设备。提供了使用自然用户界面来控制多媒体系统中的一个或多个电子设备的技术。多媒体系统中的设备的一些示例是向用户输出多媒体内容的音频和视觉设备，像电视机、视频播放器、立体声系统、扬声器、音乐播放器、和多媒体控制台计算系统。计算环境通信地耦合到捕捉来自用户的表示命令的物理动作(像声音输入或姿势)的数据的设备。在环境中执行的软件确定用户命令适用于哪个设备并向该设备发送命令。在一个实施例中，计算环境使用HDMI连接的消费电子产品通道(CEC)将命令传递给一个或多个设备。

Description

通过自然用户界面控制多媒体系统中的电子设备

技术领域

本发明涉及控制多媒体系统中的电子设备，尤其是通过自然用户界面控制多媒体系统中的电子设备。

背景技术

在普通的家庭中，通常存在一起连接在多媒体系统中的输出音频、视觉或视听内容的若干电子设备。这种设备的示例是家庭影院或娱乐系统的娱乐设备。这些设备的某些示例是电视机、高清晰度显示设备、音乐播放器、立体声系统、扬声器、卫星接收器、机顶盒以及游戏控制台计算机系统。通常，这种设备经由一个或多个手持式遥控器上的按钮来控制。

发明内容

本技术提供使用自然用户界面来控制多媒体系统中的一个或多个电子设备。用户的物理动作(其示例是声音和姿势)可由用户的身体作出，并且可以表示对多媒体系统中的一个或多个设备的命令。自然用户界面包括通信地耦合到计算环境的捕捉设备。捕捉设备捕捉物理动作命令的数据，而计算环境解释该命令并将其发送给系统中合适的设备。在某些实施例中，计算环境通过命令和控制通道与多媒体系统中的其他电子设备通信，该通道的一个示例是高清晰度多媒体接口(HDMI)消费电子产品通道(CEC)。

在一个实施例中，本技术提供了使用另一个设备的自然用户界面来控制多媒体系统中一个或多个电子设备的计算机实现的方法，包括通过自然用户界面来感测用户的一个或多个物理动作。该方法还包括第一电子设备从表示一个或多个物理动作的数据中标识关于至少一个其他设备的设备命令，并且第一设备向至少一个其他电子设备发送该命令。

在另一实施例中，本技术提供了包括捕捉设备和计算环境的多媒体系统，该捕捉设备用于捕捉用户的物理动作的数据，该数据指示了对多媒体系统中的一个或多个电子设备的命令。计算环境包括处理器和存储器，并通信地耦合到捕捉设备以便接收指示命令的数据。多媒体系统中的一个或多个其他设备与计算环境通信。计算环境还包括处理器可执行的用于确定该命令适用于一个或多个其他设备中的哪个并将该命令发送到该适用的设备的软件。另外，计算环境包括用于基于表示捕捉设备所捕捉的一个或多个物理特性的数据来标识用户的用户识别软件。表示一个或多个物理特性的数据可以是声音数据、图像数据或二者兼有。

在另一实施例中，计算机可读存储介质其上存储有使一个或多个处理器执行用于使用自然用户界面来控制多媒体系统中的一个或多个电子设备的计算机实现的方法。该方法包括由第一电子设备接收关于多媒体系统中的至少一个其他设备的设备命令，并且在经由自然用户界面所捕捉的数据中检测一个或多个用户。标识所检测到的用户的一个或多个，包括发出命令的用户。作出关于发出命令的用户是否具有超过其他所检测到的用户的优先级的判断。响应于发出命令的用户具有超过其他所检测到的用户的优先级，向至少一个其他电子设备发送命令。

提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

附图说明

图1A和1B示出其中用户正在玩游戏的目标识别、分析及跟踪系统的实施例。

图2示出用于在多媒体系统中使用另一个设备的自然用户界面来控制一个或多个电子设备的系统的实施例。

图3A示出了可用于在目标识别、分析和跟踪系统中解释一个或多个物理动作的计算环境的实施例。

图3B示出了可用于在目标识别、分析和跟踪系统中解释一个或多个物理动作的计算环境的另一个实施例。

图4示出可利用本技术的多媒体系统的实施例。

图5示出了由所公开的技术执行的用以通过用户交互在多媒体系统中自动地激活计算环境的示例操作集。

图6是用于在多媒体系统中注册一个或多个设备以便接收命令的计算环境的方法的实施例的流程图。

图7是用于在多媒体系统中使用自然用户界面来控制一个或多个电子设备的方法的实施例的流程图。

图8是用于确定是否使用第二设备来处理第一设备的命令的方法的实施例的流程图。

图9是根据用户偏好来执行命令的方法的实施例的流程图。

图10是用于请求对命令历史的显示的方法的实施例的流程图。

具体实施方式

公开了其他电子设备可藉由其在多媒体系统中接收命令的技术，该命令由通过另一个设备的自然用户界面捕捉的用户的物理动作来指示。多媒体系统的一个示例是消费者电子产品的家庭视听系统，像输出音频和视觉内容的电视机、DVD播放器和立体声系统。系统中的设备经由命令和控制协议来通信。在一个实施例中，每个设备具有用于启用(有线或无线的)HDMI连接的HDMI硬件芯片，该芯片包括消费电子产品通道(CEC)。在CEC通道上，针对设备的命令的标准化代码用于传递用户命令。计算环境还可以向其他设备自动地发送命令，该命令有助于为第一设备实现或处理从用户接收的命令。例如，可以接收打开数字录像机(DVR)或卫星接收器的命令。在计算环境中执行的软件还确定电视机是否已开，并且若未开，则打开该电视机。此外，软件可使电视机频道被设置到显示来自DVR或卫星接收器的输出的频道。

除向其他设备传递命令以外，某些实施例提供存储命令的历史以及该命令的日期和时间的时间记录。其他实施例还利用图像识别或语音识别或这二者来标识用户及其偏好，以供由命令可控制的对系统中设备的操作。另外，对用户的标识允许用户之间的优先级方案，以便控制电子设备。

图1A-2示出了可由所公开的技术用来识别、分析和/或跟踪诸如用户18等的人类目标的目标识别、分析和跟踪系统10。目标识别、分析和跟踪系统 10的各实施例包括用于执行游戏或其他应用的计算环境12，以及用于从游戏或其他应用提供音频和视觉表示的视听设备16。系统10还包括用于检测设备20捕捉的用户的姿势的捕捉设备20，计算环境接收并使用姿势来控制游戏或其他应用。此外，计算环境可以解释是设备命令的姿势。如下面所讨论的，目标识别、分析和跟踪系统10还可包括话筒，作为用于检测还可单独地或与姿势结合来指示命令的语音和其他声音的音频捕捉设备。下面将更详细地解释这些组件中的每一个。

如图1A和1B所示，在一示例中，在计算环境12上执行的应用可以是用户18可能正在玩的拳击游戏。例如，计算环境12可使用视听设备16来向用户18提供拳击对手22的视觉表示。计算环境12还可使用视听设备16来提供用户18可通过他的或她的移动来控制的玩家化身24的视觉表示。例如，如图1B所示，用户18可在物理空间中挥重拳来使得玩家化身24在游戏空间中挥重拳。因此，根据一示例实施例，目标识别、分析和跟踪系统10的计算环境12和捕捉设备20可用于识别和分析用户18在物理空间中的重拳，从而使得该重拳可被解释为对游戏空间中的玩家化身24的游戏控制。

用户18的其他移动也可被解释为其他控制或动作，诸如上下快速摆动、闪避、滑步、格挡、直拳或挥动各种不同力度的拳等控制。此外，如以下所解释的，一旦系统确定姿势是重拳、上下快速摆动、闪避、滑步、格挡等中的一个，则可确定该姿势在物理空间中的附加性质方面。这些性质方面可影响该姿势(或其他音频或视觉特征)如何在游戏空间中显示，如以下所解释的。

在各示例实施例中，诸如用户18等人类目标可持有一物体。在这些实施例中，电子游戏的用户可手持物体，使得可使用玩家和物体的运动来调整和/或控制游戏的参数、或多媒体系统中的电子设备。例如，可以跟踪并利用玩家手持球拍的运动来控制电子运动游戏中的屏幕上球拍。在另一示例实施例中，可以跟踪并利用玩家手持物体的运动来控制电子格斗游戏中的屏幕上武器。

图2示出用于在多媒体系统中使用另一个设备的自然用户界面来控制一个或多个电子设备的系统的实施例。在该实施例中，系统是目标识别、分析和跟踪系统10。根据一示例性实施例，捕捉设备20可被配置为通过包括例如飞行时间、结构化光、立体图像等的任何合适的技术来捕捉包括深度图像的带有深度信息的视频，该深度图像包括深度值。在其他实施例中，可从二维图像数据确定用于设备命令的姿势

如图2所示，捕捉设备20可包括图像相机组件22，该组件22可包括用于捕捉场景的深度图像的IR光组件24、三维(3-D)相机26、以及RGB相机28。深度图像可包括被捕捉的场景的二维(2-D)像素区域，其中2-D像素区域中的每一个像素都可以(例如以厘米、毫米等等为单位)表示来自相机的被捕捉的场景中的物体的长度。

例如，在飞行时间分析中，捕捉设备20的IR光组件24可将红外光发射到场景上，并且随后可使用传感器(未示出)、用例如3-D相机26和/或RGB相机28来检测从场景中的一个或多个目标和物体的表面反向散射的光。根据另一实施例，捕捉设备20可包括可以从不同的角度观察场景的两个或更多个在物理上分开的相机，以获取可以被解析以生成深度信息的视觉立体数据。

在一个实施例中，捕捉设备20可包括一个或多个传感器36。一个或多个传感器36可包括诸如运动传感器、震动传感器、电场传感器等之类的可通过周期性地扫描捕捉区域来检测捕捉区域中的用户的存在的被动式传感器。对于相机，其捕捉区域可以是视野。对于话筒，其捕捉区域可以是与话筒的距离。对于传感器，其捕捉区域可以是与传感器的距离，并且还可存在与传感器或话筒相关联的方向性区域。可以参考计算环境对传感器、相机和话筒定位以在捕捉区域内感测用户，例如在为计算环境所定义的距离和方向边界内。计算环境的捕捉区域还可随用作命令并感测捕捉设备的物理动作的形式而变化。例如，语音或声音命令方案可具有由话筒的灵敏度以及声音可穿墙传播的事实所确定的较大的捕捉区域。被动式传感器可在非常低的功率级或待机功率级操作，以检测捕捉区域中的用户的存在，从而启动系统组件的高效功率利用。

一旦检测到用户的存在，传感器36中的一个或多个可被激活以检测用户的与计算环境交互的意图。在一个实施例中，可基于诸如像来自用户的拍手声之类的音频输入的物理动作、轻量级有限词汇语音识别、或例如以1Hz速率寻找站在捕捉设备20前或面向捕捉设备20的用户等的轻量级图像处理来检测用户与计算环境12交互的意图。基于指示用户交互意图的物理动作的数据，可以自动地变化计算环境12的功率级，并且可例如通过将功率级从待机模式改为活动模式，来为用户激活计算环境12。在下面所讨论的过程实施例中更详细地讨论所公开的技术所执行的操作。

捕捉设备20还可包括话筒30。话筒30可包括可接收声音并将其转换成电信号的变换器或传感器，该电信号可作为处理器或计算机可读数据来存储。话筒30可用于接收用户所提供的音频信号，以得到设备命令或控制可由计算环境12执行的诸如游戏应用、非游戏应用等应用。

在一示例性实施例中，捕捉设备20还可包括可与图像相机组件22可操作地通信的处理器32。处理器32可包括标准化处理器、专用处理器、微处理器等，它们可执行用于接收深度图像、判断合适的目标是否可被包括在深度图像中、将合适的目标转换为目标的骨架表示或模型的指令，或任何其他适合的指令。

捕捉设备20还可包括存储器组件34，存储器组件34可存储可由处理器32执行的指令、3-D相机或RGB相机捕捉到的图像或图像的帧、或任何其他合适的信息、图像等。根据一个示例性实施例，存储器组件34可包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪存、硬盘、或任何其他合适的存储组件。如图2所示，在一个实施例中，存储器组件34可以是与图像捕捉组件22和处理器32通信的单独的组件。根据另一实施例，存储器组件34可被集成到处理器32和/或图像捕捉组件22中。

如图2所示，捕捉设备20可以经由通信链路36与计算环境12通信。通信链路36可以是包括例如USB连接、火线连接、以太网电缆连接等的有线连接和/或诸如无线802.11b、802.11g、802.11a或802.11n连接等的无线连接。根据一个实施例，计算环境12可以经由通信链路36向捕捉设备20提供时钟，该时钟可用于确定何时捕捉例如场景。

附加地，捕捉设备20可以通过通信链路36向计算环境12提供深度信息和由例如3-D相机26和/或RGB相机28捕捉到的图像、以及可以由捕捉设备20生成的骨架模型。计算环境12随后可使用该骨架模型、深度信息和所捕捉的图像来识别用户以及用于设备命令或应用控制的用户姿势。

如图所示，在图2中，计算环境12可包括姿势识别引擎190。姿势识别引擎190可被实现为包括用以执行所公开的技术的操作的可执行指令的软件模块。姿势识别器引擎190可包括姿势过滤器46的集合，每一姿势过滤器包括关于可由骨架模型执行的姿势的信息，该姿势可表示用户的身体所表现的移动或姿态。可以将由捕捉设备20的相机26、28捕捉的、骨架模型形式的数据及同它相关联的移动、姿态与姿势识别引擎190中的姿势过滤器进行比较，以标识(如由骨架模型所表示的)用户何时表现一个或多个姿势。那些姿势可与应用的各种控制和设备命令相关联。因此，计算环境12可使用姿势识别引擎190来解释骨架模型的移动或姿态，并基于该移动或姿态来控制应用或另一个电子设备45。在一实施例中，计算环境12可从捕捉设备20接收姿势信息，姿势识别引擎190可从该信息标识姿势和姿势风格。

使用深度图像来跟踪骨架的一个合适的示例在Craig等人2009年10月21日提交的美国专利申请12/603,437“Pose Tracking Pipeline(姿态跟踪流水线)”(以下称为’437申请)中提供，该申请的全部内容通过引用结合于此。在下列四个美国专利申请中还公开了合适的跟踪技术，所述专利的全部内容都通过引用结合于此：于2009年5月29日提交的美国专利申请12/475,308“Device for Identifying and Tracking Multiple Humans Over Time(用于随时间标识和跟踪多个人类的设备)”；于2010年1月29日提交的美国专利申请12/696,282“Visual Based Identity Tracking(基于视觉的身份跟踪)”；于2009年12月18日提交的美国专利申请12/641,788“Motion Detection Using Depth Images(使用深度图像的运动检测)”；以及于2009年10月7日提交的美国专利申请12/575,388“Human Tracking System(人类跟踪系统)”。

关于姿势识别引擎190的实施例的更多信息可以在2009年4月13日提交的美国专利申请12/422,661“Gesture Recognizer System Architecture(姿势识别器系统架构)”中找到，该申请通过整体引用合并于此。关于识别姿势的更多信息还可在以下美国专利申请中找到，所有这些专利申请的全部内容都通过引用并入本文：2009年2月23日提交的美国专利申请12/391,150“Standard Gestures(标准姿势)”；2009年5月29日提交的美国专利申请12/474,655“Gesture Tool(姿势工具)”；以及2009年12月18日提交的美国专利申请序列号第12/642,589号。

处理器32将话筒30所感测的一个或多个声音以数字格式发送到计算环境 12，声音识别软件194处理该一个或多个声音以便识别是用于设备命令的语音或其他声音。

计算环境还包括标识自然用户界面所检测到的用户的用户识别软件196。用户识别软件196可基于捕捉设备在捕捉区域中所捕捉到的物理特性来标识用户。在某些实施例中，用户识别软件196例如使用语音识别数据来从声音数据识别用户。在某些实施例中，用户识别软件196从图像数据识别用户。在其他实施例中，用户识别软件196将标识基于声音、图像以及可用的其他数据，像进行用户标识的登录凭证。

对于基于图像数据的对用户的标识，用户识别软件196可将来自从捕捉设备20接收的视觉图像的用户的面部与可存储在过滤46或用户简档数据40中的参考视觉图像相关，以便确定用户的身份。在某些实施例中，图像捕捉设备捕捉二维数据，并且用户识别软件196对图像执行面部检测，并对所标识的任何面部执行面部识别技术。例如，在使用声音命令来控制设备的系统中，还可基于捕捉区域可用的图像数据来执行对用户的检测。

在某些实施例中，用户识别软件将跟踪姿势的骨架模型与用户相关联。例如，为在处理器32上执行的软件所检测到的每个像人类的形状生成骨架模型。每个所生成的骨架模型的标识符可用于跨软件组件来跟踪相应的骨架模型。可以跟踪骨架模型至图像帧内的位置，例如像素位置。骨架模型的头可被跟踪至图像帧中的特定位置，并且来自该帧的位于该特定头位置的视觉图像数据可对照参考图像被比较或分析，以供面部识别。与参考图像的匹配指示了该骨架模型表示其简档包括参考图像的用户。用户的骨架模型还可用于标识用户的特性，例如用户的身高和体型。用户的参考骨架模型可在用户的简档数据中并用于比较。在一个示例中，用户识别软件196向设备控制单元540发送消息，该消息包括用户标识符、骨架模型标识符和哪个消息指示了所标识的骨架模型是所标识的用户。在其他示例中，还可向姿势识别软件190发送消息，该姿势识别软件190可向设备控制单元540发送也包括用户标识符的、带有对命令姿势的通知的消息。

对于其用户简档不可用的所检测到的用户，用户识别软件196可存储未标识的用户的图像数据和/或声音数据，并且提供用户标识符以供跟踪所捕捉的数据中的未标识的个人。

在创建用户标识数据的一个实施例中，可以要求用户通过站在计算系统12之前来标识他们自己，因此捕捉设备20可以捕捉每个用户的深度图像和视觉图像。例如，可以要求用户站在捕捉设备20之前、转身、并摆出各种姿态。在计算系统12获得可用作标识用户的基础的数据以后，向用户提供标识该用户的标识符及密码。关于标识用户的更多信息可在美国专利申请序列号12/696,282“Visual Based Identity Tracking(基于视觉的身份跟踪)”，以及美国专利申请序列号12/475,308“Device for Identifying and Tracking Multiple Humans over Time(用于随时间标识和跟踪多个人类的设备)”中找到，这两个申请的全部内容通过引用并入本申请。

在使用由人类语音发出的语音命令或声音的实施例中，可为用户创建声音或语音参考文件。当声音识别软件194标识命令时，用户识别软件196可以应声音识别软件194的请求而执行语音识别。用户识别软件196基于语音识别技术(例如，与用户简档数据40中的参考声音文件的比较)的结果返回指示用户的标识符的消息。同样，如果不存在用户简档数据40的声音文件的匹配，则该命令可被存储为声音文件并与该未知用户的已分配标识符相关联。因此可跟踪该未知用户的命令。

在某些实施例中，在设置期间，说出命令的不同用户的声音记录文件可被记录并存储在用户简档数据40中。声音识别软件194可将这些文件用作确定语音命令的参考，并当匹配发生时，声音识别软件向设备控制单元540发送包括与(例如，文件元数据中的)参考文件相关联的用户标识符的消息。对于未标识的用户，声音识别软件194可向如上所述为未知用户设置标识符的用户识别软件196发送请求。另外，用户识别软件196可执行所请求的语音识别，以供标识在捕捉区域中被检测到的但未发出命令的用户。

在某些实施例中，还可基于经由一个或多个用户输入设备48的像登录凭证的来自用户的输入来确定用户的身份。用户输入设备的某些示例有定点设备、游戏控制器、键盘或生物测定传感系统(例如，指纹或虹膜扫描验证系统)。用户可使用游戏控制器来登录，并且在登录期间所捕捉的用户骨架和图像数据与此后在用户的姿势控制一个或多个设备或应用时的该用户登录凭证相关联。

在计算环境12的存储器中存储的用户简档数据40可包括关于用户的信息，诸如与用户相关联的用户标识符和口令、用户的姓名和与用户有关的其他人口统计信息。在某些示例中，用户简档数据40还可存储以下各项中的一个或多个或者存储与其存储位置的关联以便标识用户：图像、语音、生物测定和骨架模型数据。

用于标识用户并将用户与命令数据相关联的以上示例仅是众多实现示例的某些说明性示例。

如图2中进一步示出的，计算环境还可包括设备控制单元540。在一个实现中，设备控制单元540可以是包括可执行指令的软件模块，该可执行指令用于在通信地耦合到计算环境12的多媒体系统中控制一个或多个电子设备45。在一个实施例中，设备控制单元540可从声音识别软件194、姿势识别引擎190、或二者接收已经检测到声音(即语音)输入的物理动作和/或设备命令姿势的通知或消息。设备控制单元540还可经由处理器32将已在图像捕捉设备20的视野内感测到用户的存在的消息或其他通知从一个或多个传感器36接收到计算环境12，因此单元540可以调整计算环境12和捕捉设备20的功率级以便接收用户的物理动作所指示的命令。

设备控制单元540访问存储与设备和命令相关的数据的设备数据存储42。例如，它存储哪些设备位于多媒体系统中、设备的操作状态、每个设备的命令数据集，该数据集包括各个设备处理的命令。在某些示例中，设备数据存储42存储标识哪些设备支持对其他设备的哪些命令的处理的查找表或其他关联数据格式。例如，数据可以标识哪些设备提供每个相应设备的内容的输入或输出。例如，电视机显示器16通过显示DVD播放器所播放的电影数据来输出内容。可以存储设备操作的默认设置，也可以存储与设备的操作和特征相关的任何其他数据。

在某些实施例中，计算环境12的存储器存储跟踪与设备命令相关的数据的命令历史数据，诸如何时接收设备命令，发出命令的用户，发出命令时在捕捉设备的捕捉区域中检测到的用户，为哪个设备接收命令，命令的时间和日期，以及命令的执行状态。执行状态可包括命令是否未被执行以及所影响的设备在消息中提供出错描述的可能的原因。

如下面进一步讨论的，在某些实施例中，设备控制单元540在用户简档数据40或设备数据42、或两个数据存储的组合中存储一个或多个用户的设备偏好。设备偏好的一个示例是例如电视机或立体声系统的音量或频道设置。另一个示例是一个内容输入或输出设备与另一个设备协作以实现或处理对其他设备的命令的偏好。作为内容输入设备的示例，用户可能偏好收听因特网无线电或音乐网站，而不是本地的广播站。设备控制单元540打开因特网路由器以便于“定位”因特网无线电“站”对于偏好本地广播站的另一个用户，设备控制单元540不打开路由器。在另一个示例中，一个用户可能偏好在电视机显示器上查看内容，而内容的音频是通过联网立体声系统的扬声器输出的，因此设备控制单元540也打开立体声系统并向该立体声系统发送命令以在从视听TV显示单元16接收音频输出的端口上播放内容。偏好可以基于监视一个或多个用户随时间使用的设置和支持设备，以及确定在给出用于设备操作的命令时用户最经常使用哪些设置和支持设备。

将在下面的过程图中更详细地讨论设备控制单元540可执行的一些操作。

图3A示出了可用于在目标识别、分析和跟踪系统中解释一个或多个物理动作的计算环境的实施例。以上参考附图1A-2所描述的诸如计算环境12的计算环境可以是多媒体控制台102，诸如游戏控制台。控制台102具有中央处理单元(CPU)200以及便于处理器访问各种存储器的存储器控制器202，这些存储器包括闪存只读存储器(ROM)204、随机存取存储器(RAM)206、硬盘驱动器208，以及便携式媒体驱动器106。在一种实现中，CPU 200包括1级高速缓存210和2级高速缓存212，这些高速缓存用于临时存储数据并因此减少对硬盘驱动器208进行的存储器访问周期的数量，从而提高了处理速度和吞吐量。

CPU 200、存储器控制器202、以及各种存储器设备经由一个或多个总线(未示出)互连在一起。在本实现中所使用的总线的细节对理解此处所讨论的关注主题不是特别相关。然而，应该理解，这样的总线可以包括串行和并行总线、存储器总线、外围总线、使用各种总线体系结构中的任何一种的处理器或局部总线中的一个或多个。作为示例，这样的体系结构可以包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线、以及也称为夹层总线的外围部件互连 (PCI)总线。

在一个实施方式中，CPU 200、存储器控制器202、ROM 204、以及RAM206被集成到公用模块214上。在此实施方式中，ROM 204被配置为通过PCI总线和ROM总线(两者都没有示出)连接到存储器控制器202的闪速ROM。RAM 206被配置为多个双倍数据速率同步动态RAM(DDR SDRAM)模块，它们被存储器控制器202通过分开的总线(未示出)独立地进行控制。硬盘驱动器208和便携式媒体驱动器106被示为通过PCI总线和AT附加(ATA)总线216连接到存储器控制器202。然而，在其他实现中，也可以备选地应用不同类型的专用数据总线结构。

三维图形处理单元220和视频编码器222构成了视频处理流水线，用于进行高速度和高分辨率(例如，高清晰度)图形处理。数据通过数字视频总线(未示出)从图形处理单元220传输到视频编码器222。音频处理单元224和音频编解码器(编码器/解码器)226构成了对应的音频处理流水线，用于对各种数字音频格式进行多通道音频处理。通过通信链路(未示出)在音频处理单元224和音频编解码器226之间传输音频数据。视频和音频处理流水线向A/V(音频/视频)端口228输出数据，以便传输到电视机或其他显示器。在所示出的实现中，视频和音频处理组件220-228安装在模块214上。

图3A示出包括USB主控制器230和网络接口232的模块214。USB主控制器230被示为通过总线(例如，PCI总线)与CPU 200和存储器控制器202进行通信，并作为外围控制器104(1)-104(4)的主机。网络接口232提供对网络(例如因特网、家庭网络等)的访问，并且可以是包括以太网卡、调制解调器、无线接入卡、蓝牙模块、电缆调制解调器等各种有线或无线接口组件中的任一种。

在图3A中所描绘的实现中，控制台102包括用于支持四个控制器104(1)-104(4)的控制器支持子部件240。控制器支持子部件240包括支持与诸如，例如，媒体和游戏控制器之类的外部控制设备的有线和无线操作所需的任何硬件和软件组件。前面板I/O子部件242支持电源按钮112、弹出按钮114，以及任何LED(发光二极管)或暴露在控制台102的外表面上的其他指示器等多个功能。子部件240和242通过一个或多个电缆部件244与模块214进行通信。在其他实现中，控制台102可以包括另外的控制器子部件。所示出的实现还示出了被配置成发送和接收可以传递到模块214的信号的光学I/O接口235。

存储器单元MU 140(1)和140(2)被示为可以分别连接到MU端口“A”130(1)和“B”130(2)。附加MU(例如，MU 140(3)-140(6))被示为可连接到控制器104(1)和104(3)，即每一个控制器两个MU。控制器104(2)和104(4)也可以被配置成接纳MU(未示出)。每一个MU 140都提供附加存储，在其上面可以存储游戏、游戏参数、及其他数据。在一些实现中，其他数据可以包括数字游戏组件、可执行的游戏应用，用于扩展游戏应用的指令集、以及媒体文件中的任何一种。当被插入到控制台102或控制器中时，MU 140可以被存储器控制器202访问。系统供电模块250向游戏系统100的组件供电。风扇252冷却控制台102内的电路。

在一实施例中，控制台102还包括微控制器单元254。微控制器单元254可在例如通过用户按下控制台102的电源按钮112或弹出按钮114等的用户物理激活控制台102时被激活。一旦激活，微控制器单元254就可以非常低的功率状态或待机功率状态操作，以根据所公开的技术的各实施例执行控制台102的各种组件的智能功率控制。例如，微控制器单元254可基于各种组件执行的功能的类型或各种组件通常操作的速度来执行控制台102的各种组件的智能功率控制。在另一实施例中，一旦接收到定时器形式的控制台设备激活请求、控制台102的用户的远程请求或离线请求，或响应于确定用户打算与控制台102交互(例如，参见图5)，微控制器单元254还可将控制台102中的一个或多个组件激活到更高的功率级。或者，微控制器单元254可从远程服务器接收采用例如局域网(LAN)查验(ping)形式的控制台设备激活请求，以改变控制台102中的组件的功率级。

包括机器指令的应用260被存储在硬盘驱动器208上。当控制台102被接通电源时，应用260的各个部分被加载到RAM 206，和/或高速缓存210以及212中以在CPU 200上执行，其中应用260是一个这样的示例。各种应用可以存储在硬盘驱动器208上以用于在CPU 200上执行。

可通过简单地将游戏和媒体系统连接到视听设备16(图1)、电视机、视频投影仪、或其他显示设备，游戏和媒体系统100可作为独立的系统来操作。在此独立模式下，游戏和媒体系统100允许一个或多个玩家玩游戏或欣赏数字媒体，例如观看电影或欣赏音乐。然而，随着宽带连接的集成通过网络接口232而成为可能，游戏和媒体系统100还可以作为较大的网络游戏社区的参与者来操作。

图3B示出了可用于目标识别、分析和跟踪系统中的计算环境的另一示例实施例。图3B示出了诸如个人计算机等合适的计算系统环境300的示例。参考图3B，用于实现本发明的一个示例性系统包括计算机310形式的通用计算设备。计算机310的组件可包括，但不限于，处理单元320、系统存储器330、以及将包括系统存储器的各种系统组件耦合到处理单元321的系统总线320。系统总线321可以是若干类型的总线结构中的任一种，包括使用各种总线体系结构中的任一种的存储器总线或存储器控制器、外围总线、以及局部总线。作为示例而非限制，这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线，以及也称为夹层(Mezzanine)总线的外围部件互连(PCI)总线。

计算机310通常包括各种计算机可读介质。计算机可读介质可以是能被计算机310访问的任何可用介质，而且包含易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制，计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不限于，RAM、ROM、EEPROM、闪存或其他存储器技术，CD-ROM、数字多功能盘(DVD)或其他光盘存储设备，磁带盒、磁带、磁盘存储设备或其他磁存储设备，或者能用于存储所需信息且可以由计算机310访问的任何其他介质。通信介质通常以诸如载波或其他传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据，并包括任意信息传送介质。术语“已调制数据信号”是指具有以在信号中编码信息的方式被设定或改变其一个或多个特征的信号。作为示例而非限制，通信介质包括诸如有线网络或直接线连接之类的有线介质，以及诸如声学、RF、红外及其他无线介质之类的无线介质。上述中任一组合也应包括在计算机可读介质的范围之内。

系统存储器330包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器(ROM)331和随机存取存储器(RAM)332。包含诸如在启动期间帮助在计算机310内的元件之间传输信息的基本例程的基本输入/输出系统333(BIOS)通常储存储在ROM 331中。RAM 332通常包含处理单元320可立即访问和/或当前正在操作的数据和/或程序模块。作为示例，而非限制，图3B示出了操作系统334、应用程序335、其它程序模块336和程序数据337。

计算机310也可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图3B示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器341，从可移动、非易失性磁盘352中读取或向其写入的磁盘驱动器351，以及从诸如CD ROM或其它光学介质等可移动、非易失性光盘356中读取或向其写入的光盘驱动器355。可在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器341通常通过诸如接口340之类的不可移动存储器接口连接到系统总线321，并且磁盘驱动器351和光盘驱动器355通常通过诸如接口350之类的可移动存储器接口连接到系统总线321。

上面讨论并在图3B中示出的驱动器及其相关联的计算机存储介质为计算机310提供了对计算机可读指令、数据结构、程序模块和其它数据的存储。例如，在图3B中，硬盘驱动器341被示为存储操作系统344、应用程序345、其它程序模块346和程序数据347。注意，这些组件可与操作系统334、应用程序335、其他程序模块336和程序数据337相同，也可与它们不同。在此操作系统344、应用程序345、其他程序模块346以及程序数据347被给予了不同的编号，以说明至少它们是不同的副本。用户可以通过输入设备，例如键盘362和定点设备361——通常是指鼠标、跟踪球或触摸垫——向计算机20输入命令和信息。其他输入设备(未示出)可包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些以及其他输入设备通常通过耦合到系统总线的用户输入接口360连接到处理单元320，但也可通过诸如并行端口、游戏端口或通用串行总线(USB)之类的其他接口和总线结构来连接。监视器391或其他类型的显示设备也通过诸如视频接口390之类的接口连接至系统总线321。除了监视器以外，计算机还可包括诸如扬声器397和打印机396之类的其他外围输出设备，它们可通过输出外围接口390来连接。

在一实施例中，计算机310还可包括如图3A中所讨论的微控制器单元254，以执行计算机310的各种组件的智能功率控制。计算机310可使用到一个或多个远程计算机(诸如，远程计算机380)的逻辑连接而在联网环境中操作。远程计算机380可以是个人计算机、服务器、路由器、网络PC、对等设备或其它常见的网络节点，且通常包括上文相对于计算机310描述的许多或所有元件，尽管在图3B中只示出存储器存储设备381。图3B中所示的逻辑连接包括局域网(LAN)371和广域网(WAN)373，但也可以包括其它网络。此类联网环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。

当在LAN联网环境中使用时，计算机310通过网络接口或适配器371连接到LAN 370。当在WAN联网环境中使用时，计算机310通常包括调制解调器372或用于通过诸如因特网等WAN 373建立通信的其他手段。调制解调器372可以是内置的或外置的，可经由用户输入接口360或其他适当的机制连接到系统总线321。在联网环境中，相对于计算机310所示的程序模块或其部分可被存储在远程存储器存储设备中。作为示例而非局限，图3B示出驻留在存储器设备381上的远程应用程序385。应当理解，所示的网络连接是示例性的，并且可使用在计算机之间建立通信链路的其他手段。

图4示出可利用本技术的多媒体系统的实施例。上述参考图3A描述的诸如计算环境12之类的计算环境例如可以是像用于在多媒体系统530中执行游戏或其他应用的多媒体控制台102的电子设备。如所示的，多媒体系统530还可包括诸如像紧致盘(CD)播放器508的音乐播放器、录像机和像DVD/视频带记录器(DVD/VCR)播放器510的视频播放器、音频/视频(A/V)放大器512、电视机(TV)514以及个人计算机(PC)516之类的一个或多个其他设备。

设备(508-516)可经由通信链路518与计算环境12通信，该通信链路508可包括例如包括USB连接、火线连接、以太网电缆连接等有线连接和/或诸如无线802.11b、802.11g、802.11a或802.11n连接等无线连接。在其他实施例中，每个设备(508-516)包括HDMI接口，并通过HDMI有线(例如，HDMI电缆连接)或无线连接518进行通信。HDMI连接518包括其中可传送设备命令的标准化代码的标准消费电子产品通道(CEC)。计算环境12还可包括A/V(音频/视频)端口228(图3A所示)以供传输到TV 514或PC 516。可为耦合到TV 514或PC 516的显示监视器上的高清晰度多媒体接口“HDMI”端口的通信来配置诸如端口228的A/V(音频/视频)端口。

捕捉设备20可定义用于计算环境12的附加输入设备。将理解，多媒体系统530中的各种设备(508-516)、计算环境12以及捕捉设备20之间的互连是示例性的，根据多媒体系统530的要求可使用在设备(508-516)之间建立通信链路的其他手段。在一实施例中，系统530可经网络520连接到游戏网络服务522，以允许与其他系统上的用户交互以及对用户数据的存储和检索。

通常构成视听内容输出设备的多媒体系统的消费者电子设备已经开发出常用的或标准化的命令集。在图2的实施例中，这些命令集可被存储在设备数据存储42中。可用设备标识符和命令代码以及可应用的任何子字段对数据包进行格式化。

在一个实现中，多媒体系统530中的设备之间的用以执行所公开的技术的操作的通信可使用高清晰度多媒体接口(HDMI)来执行，HDMI是用于在电子设备之间传输未经压缩的数字数据的小型音频/视频接口。如将理解的，HDMI在单条电缆上支持包括标准、增强和高清晰度视频的多种TV或PC视频格式，多达8个通道的数字音频和消费电子控制(CEC)连接。消费电子控制(CEC)连接使HDMI设备能够彼此控制并允许用户同时操作多个设备。

在一个实施例中，HDMI标准的CEC被具体化为通过标准HDMI电缆对视听设备进行耦合的单线广播总线。存在用于物理地址和逻辑地址发现、仲裁、重传、广播和路由控制的自动协议。消息操作码标识特定的设备和一般的特征(例如，用于功率、信号路由，遥控穿过、和屏幕上显示)。在使用HDMI(CEC)的某些实施例中，设备控制单元540所使用的命令可结合CEC用来降低用户必须发出或提供更多选项的命令数量的一个或多个命令。在其他实施例中，HDMI(CEC)总线可由无线技术来实现，其某些示例有蓝牙和其他IEEE 802.11标准。

对于设备的某些示例，设备控制单元540可在不同实施例中使用的命令集的某些示例是如下所示：

开/关-通用(所有设备打开/关闭)

DVR、DVD/VCR播放器-播放、倒带、快进、菜单、场景选择、下一个、前一个、开、关、暂停、弹出、停止、记录等；

CD播放器、数字音乐播放器-播放、倒带、快进、菜单、轨道选择、跳过、下一个、前一个、开、关、暂停、弹出、停止、记录、静音、重复、随机等；

计算机-开、关、因特网连接、和与上面示例中的CD/DVD播放器或其他数字媒体播放器相关联的其他命令；打开文件，关闭文件、退出应用等。

电视机、立体声系统-开、关、上一频道、下一频道、频道编号、静音、扫描(向上或下)、音量增大、音量减小、音量级别、节目指南或菜单等；

这些示例集并非穷举。在某些实现中，命令集可包括用于特定类型的设备的这些命令的子集，并还可包括此处未列出的命令。

参考图2和4所示的系统，出于说明性目的，讨论了图5至10的方法实施例。其他系统实施例也可以使用这些方法实施例。

图5示出了由所公开的技术执行的用以通过用户交互在像图4所示的多媒体系统530中自动地激活计算环境12的示例操作集。在步骤399，通信地耦合到计算环境12的一个或多个传感器周期性地扫描与计算环境12相关联的捕捉区域，以检测捕捉区域中用户的存在。如图2中所讨论的，例如，以非常低的功率级或待机功率级操作的多个传感器36中的一个或多个被动式传感器可周期性地扫描与计算环境相关联的捕捉区域，以检测用户的存在。在步骤400，作出检查以确定是否检测到用户的存在。如果没有检测到用户的存在，则如步骤399中所讨论的那样，传感器可继续周期性地扫描捕捉区域以检测用户的存在。例如，运动传感器可以检测移动。如果检测到用户的存在，则在步骤402，接收与用户和计算环境的交互相关的数据。

在步骤404，作出检查以确定与用户交互相关的数据是否是同用户与计算环境交互的意图相对应的物理动作。用户交互可包括例如来自用户的姿势、语音输入或二者兼有。可基于各种因素来确定用户与计算环境交互的意图。例如，用户朝向计算环境12的捕捉区域的移动可指示出用户与计算环境12交互的意图的更高可能性。另一方面，如果用户一般处于一个位置并且看上去非常静止，则用户与计算环境12交互的意图可能是低的。或者，例如用户穿过计算环境12的捕捉区域的快速移动或用户离开捕捉区域的移动可指示出用户不与计算环境12交互的意图。

在另一示例中，用户可在捕捉设备20处举起他的或她的手臂并挥动，以指示与计算环境12交互的意图。或者，用户可发出诸如“开始”或“准备”或“打开”之类的话音命令以指示参与计算环境12的意图。语音输入可包括说出的单词、口哨、喊叫或其他发声。诸如拍手之类的非口声声音也可由捕捉设备20检测。例如，耦合到捕捉设备20的诸如话筒30的音频捕捉设备可任选地用于检测从中检测到声音的方向，并将其与用户的所检测到的位置相关以提供关于用户打算参与计算环境12的可能性的更为可靠的度量。此外，语音数据的存在可以与用户打算参与电子设备的增加的概率相关。此外，语音数据的音量或响度可以与用户打算参与设备的增加的概率相关。同样，可以检测言语，使得诸如“打开设备”、“开始”或“准备”等命令指示参与设备的意图。用户参与设备的意图还可包括检测指示出参与设备的意图的言语和/或检测指示出参与设备的意图的语音音量。

在一个实施例中，可基于诸如来自用户的拍手声之类的音频输入、轻量级有限词汇语音识别、和/或基于例如以1Hz速率寻找站在捕捉设备前或面向捕捉设备的用户等由捕捉设备执行的轻量级图像处理来检测用户与计算环境(例如100、12)交互的意图。例如，每秒一帧的边缘检测可指示人体。可以基于面部区域周围的基于照片图像数据的色差来确定人是否面向前。在另一示例中，对是否面向前方的确定可以基于身体部分的位置。用户识别软件196还可使用所检测到的用户的图像数据与参考图像的模式匹配来标识用户。

如果在步骤404中确定用户打算与计算环境交互，则在步骤408中，如果计算环境尚未处于特定级别，则将计算环境的功率级设置为该特定级别以允许用户与计算环境的交互。如果在步骤404确定用户不打算与计算环境交互，则在步骤406，将计算环境的功率级保持在当前功率级。

图6是用于在多媒体系统中注册一个或多个设备以便接收命令的计算环境的方法的实施例的流程图。出于说明性目的，在图2和4的系统实施例的上下文中讨论示例。当新设备被添加到多媒体系统530时，在步骤602，计算环境12的设备控制单元540通过通信链路518接收多媒体系统中的新设备的消息，并在步骤604在设备数据存储42中创建新设备的数据集。例如，设备标识符被分配给该新设备并用于索引到设备数据存储42中的它的数据集。在步骤606，设备控制单元从消息中确定该新设备的设备类型。例如，消息中的头部可具有指示CD播放器508或DVD/VCR播放器510的代码。在步骤608，设备控制单元将新设备的设备类型存储在设备数据存储42的它的数据集中。在步骤610，根据从设备接收的一个或多个消息，确定关于新设备的新的命令，并且设备控制单元540将新设备的命令存储在设备数据存储612的它的数据集中。

用户的物理动作表示命令。在某些实施例中，预先确定或预定义与每个设备的命令集相对应的物理动作。在其他示例中，用户可以定义物理动作或至少从他或她希望用不同的命令来标识的动作列表中进行选择。设备控制单元540可导致在设置模式中为用户在屏幕14上显示对在多媒体系统中发现的电子设备的显示。在实践由捕捉设备20捕捉用户的声音的情形中，物理动作可作为音频来显示或输出，或者用户可以执行他们本身的物理动作以被链接到系统530中一个或多个设备的命令。

可在过滤器46中表示预定义的物理姿势。在用户预定义的姿势的情形中，设备控制单元540跟踪用户在捕捉时段期间正为哪个设备和命令提供姿势输入(例如，向用户显示指令以在开始和停止之间执行)，并且通知姿势识别引擎190来为在捕捉时段期间要被捕捉的姿势生成新的过滤器46。姿势识别引擎190生成新姿势的过滤器46，并经由它已完成生成新过滤器46的消息以及该过滤器的标识符来通知设备控制单元540。设备控制单元540随后可将过滤器标识符链接到设备数据存储42中一个或多个适用的设备的命令。在一个实施例中，设备数据存储42是可经由多个字段来搜索的数据库，字段的一些示例是命令标识符、设备标识符、过滤器标识符和用户标识符。在某些示例中，用户定义的姿势对于单个用户而言可以是个人的。在其他示例中，姿势也可由其他用户用来指示命令。

类似地，声音识别软件194通过为设备数据存储42中的命令和适用的设备生成并存储声音文件，来响应设备控制单元540请求以制作在一时间段期间发出声音的用户的声音文件。在语音话语输入是物理动作或其一部分的某些实施例中，声音识别软件194可寻找独立于话语顺序的触发词语。例如，“DVD，播放”，“播放DVD播放器”，或“播放DVD”将全部导致被发送到DVD播放器的播放命令。在某些实施例中，可在设备命令的物理动作中使用声音和姿势的组合。例如，可以作出用于常见命令(例如，开、关、播放)的姿势并说出设备名称，反之亦然，说出常见命令并作出指示设备的姿势。

物理动作声音文件或过滤器还可以与设备数据存储42中的特定用户相关联。该信息还可由用户识别软件196和/或设备控制单元540用来标识提供命令的用户。该信息可用于基于所接收的命令来提供设备操作的用户偏好，如下面所描述的。

在某些示例中，为每个设备分配物理动作，并随后标识设备的每个命令的物理动作。在另一示例中，物理动作可以与常见命令(例如，开、关、播放、音量增大)相关联，并且任一物理动作(例如，像已说出的设备的名称、或像口哨或拍手的声音的姿势或声音识别，或姿势与声音的组合)与特定的设备或设备集合相关联。例如，用户可说出“关”，并执行对应于通用的关命令的与在多媒体系统中链接的全部设备集合相关联的姿势。

还可存在用户预定义或定义的物理动作，指示打开或关闭多媒体系统中的全部设备。设备508-516可被关闭，并且计算环境可以处于待机或睡眠模式，一旦检测到用户存在和对用户打算与系统交互的指示，该计算环境就从待机或睡眠模式转移到活动模式。这种命令的一个示例是打开计算环境的姿势。

图7是用于在多媒体系统中使用自然用户界面来控制一个或多个电子设备的方法的实施例的流程图。在步骤702，自然用户界面感测到用户的一个或多个物理动作。在图2的示例中，捕捉设备20与计算环境12及其软件识别组件190、194和196作为自然用户界面来操作。图像组件22可以感测姿势的物理动作。话筒30可以感测来自用户的声音或语音输入。例如，用户可发出诸如“打开电视”之类的命令以指示出参与多媒体系统530中的TV 514的意图。传感器36可以感测被表示为有助于姿势识别处理的数据的存在或移动。对这些传感设备30、22、36中的一个或多个的已感测到的物理输入被转换成电信号，该电信号被格式化并作为表示一个或多个物理动作的处理器可读数据来存储。例如，图像组件22将光数据(例如，可见的和红外的)转换成数字数据，而话筒30或传感器36将声音、振动等转换成处理器32可读取的数字数据并传送到计算环境，以供其软件识别组件190、194和196处理。

在图2的说明性示例中，计算环境12担任标识多媒体系统中其他电子设备45的命令的第一电子设备。在其他示例中，包括自然用户界面的组件或耦合到其的组件的另一类型的设备可以担任第一电子设备。在步骤704，在计算环境12中执行的诸如声音194或姿势识别软件组件190的软件从至少一个其他设备的一个或多个物理动作中标识设备命令，并通知设备控制单元540。

可选地，在步骤706，识别软件组件190、194和196可以标识一个或多个所检测到的用户，包括发出命令的用户。对于其用户简档数据不存在的所检测到的用户，如前面示例中提到的，用户识别软件196可将声音或图像数据作为标识数据来存储，并且生成声音194和/或姿势识别组件190可将其与命令相关联的用户标识符。稍后可在下面讨论的命令历史中检索用户软件196在用户简档数据40中存储的标识数据。可在捕捉设备的捕捉区域中捕捉未被标识的用户的声音或图像数据。对于相机，捕捉区域可以是视野。对于话筒，捕捉区域可以是与话筒的距离。用户识别软件196向设备控制单元540发送标识所检测到的用户的消息。在某些示例中，姿势识别软件190或声音识别软件194发送指示命令已作出的数据以及向设备控制单元540发出命令的用户的标识符，该设备控制单元540可使用用户标识符来访问可存储在用户简档数据40中、设备数据42中或二者中的用户偏好、用户优先级和其他与用户相关数据。当所检测到的用户已经离开捕捉区域时，用户识别软件196还可发送指示用户离开的时间的更新消息。例如，在捕捉设备20中执行的软件可通知用户识别软件196，当不存在骨架模型的更多数据、或边缘检测指示不再存在人类形态时，用户识别软件196可通过移除与模型或不再存在的人类形态相关联的用户来更新所检测到的用户状态。另外，用户识别软件196可以在发出命令时执行其识别技术，并通知设备控制单元540发出命令时谁位于与计算环境12相关联的捕捉区域中。

在某些实施例中，在设置设备命令期间，用户可通过与设备控制单元540 所显示的显示界面交互来存储用户的优先级方案以便控制多媒体系统中的设备，该显示界面允许用户按照优先级顺序输入用户的身份。在用户是控制器或远程的自然用户界面中，该优先级方案可防止为远程而战。例如，双亲之一可设置优先级方案。可选地，一个或多个识别软件组件190、194、196标识执行物理动作的用户，并且设备控制单元540在步骤708确定执行动作的用户是否具有超过其他所检测到的用户的优先级。若否，则设备控制单元540在步骤712中确定该命令是否与具有较高优先级的用户的命令相抵触。例如，如果来自孩子的命令是与双亲之一的无立体声的常设命令相抵触的打开立体声系统，则不向立体声系统发送“开”命令，但是可选地，可用立体声命令的数据集来更新设备命令历史存储，包括日期和时间的时间记录、请求命令的用户、其执行状态、和命令类型。在孩子命令的示例中，执行状态可指示不发送对立体声系统的命令。

如果用户具有高于其他所检测到的用户的优先级，或者该命令不与具有较高优先级的用户的命令相抵触，则设备控制单元540在步骤710中向至少一个其他电子设备发送该命令。可选地，设备控制单元540用诸如设备、命令类型、时间、日期、所检测到的用户的标识数据、发出命令的用户的标识数据、和至少一个设备的执行状态等数据来更新设备数据存储42中的设备命令历史数据。

图8是用于确定是否使用第二设备来处理第一设备的命令的方法的实施例的流程图。图8可以是步骤710的实现，或包含分开的处理。在步骤716，设备控制单元540确定接收命令的设备是否依赖于支持对命令的处理的至少一个其他设备。例如，第二设备依赖于第三设备以便输入或输出命令所处理的内容。如上所述，当用户命令“播放”DVD播放器或DVR时，在电视机或其他显示设备上显示电影或其他视频数据的输出。在一个示例中，设备控制单元540读取在设备数据存储42中存储的查找表，该查找表指示用于输入和输出针对特定命令的一个设备的内容。在另一示例中，A/V放大器512可以具体化音频扬声器。A/V放大器的支持设备的查找表可将CD播放器508、DVD/VCR播放器510、电视机514、计算环境12、个人计算机516或游戏网络服务522作为内容输入设备来存储。一旦确定接收命令的设备不依赖于支持处理的至少一个其他设备(例如，提供内容输入或输出、功率访问路径或网络连接)，则设备控制单元540在步骤718中向至少一个其他设备发送一个或多个命令，以支持接收命令的设备对该命令的处理。例如，这些一个或多个命令使至少一个其他设备打开(若未开)，并于在命令中支持的设备可以访问的端口上接收或传送内容。如果接收命令的设备不依赖于该命令的支持设备，则设备控制单元540在步骤720返回控制直到自然用户界面标识了另一个命令。

图9是根据用户偏好来执行命令的方法的流程图。图9可以是步骤710的实现，或包含分开的处理。在步骤721，设备控制单元540确定是否存在与实现该命令的一个或多个设备的操作相关的偏好。例如，用户可能已经指示了打开立体声系统。命令包可允许频道号或音量级别的子字段。用户可将所偏好的频道和音量级别存储在链接到设备数据存储42中的立体声系统数据集的他或她的用户简档数据40中。

如果不存在所指示的用户偏好，则设备控制单元在步骤724向实现命令的一个或多个设备发送一个或多个命令，以便根据默认的设置来操作。如果存在用户偏好，则设备控制单元在步骤722向实现命令的一个或多个设备发送一个或多个命令，以便根据用户偏好来操作。可以为给出命令的用户和/或尚未提供命令的所检测到的用户来应用用户偏好。在上面提到的一个示例中，一个用户在电视机上观看内容时可能偏好通过A/V放大器512来输出音频，而另一个用户则不会。如果实现了用户优先级模式，则实现了优先级用户的用户偏好。如果没有合适的模式，但两个用户的用户偏好都存在，则可以实现发出命令的用户的偏好。

在某些实施例中，用户可以使用手持式遥控器或其他输入设备48(例如，游戏控制器)来代替物理动作，以向计算环境12提供命令，并且仍然利用用户优先级处理、用户偏好处理和对设备命令历史的查看。捕捉设备20的自然用户界面和计算环境12仍可基于用户的语音和图像数据以及登录凭证(若提供)来标识用户。该标识数据仍可用于提供对图8、9和10的处理。

图10是用于请求对命令历史的显示的方法的实施例的流程图。设备控制单元540在步骤726中接收用户对基于显示准则来显示设备命令历史的请求，并在步骤728中，设备控制单元540基于显示准则来显示设备命令历史。可以远程地访问并显示设备命令历史。例如，双亲之一可以远程地登录到游戏网络服务522，并在像她的移动设备的远程显示器上显示命令历史。显示准则的一些示例可包括命令类型、设备、时间或日期、给出命令的用户，并且还可给出在一时间段内的在设备操作期间所检测到的用户(即使用户未给出命令)。未被标识的用户的一个或多个物理特性的数据可作为可用命令历史来检索的标识数据来存储。

在特定的情况下，用户还可能期望经由图4所示的网络520与多媒体系统530中的计算环境12和其他设备(508-516)交互。因此，多媒体系统530中的计算环境12还可接收来自经网络520连接到游戏网络服务522的用户的指示与计算环境12交互的意图的语音输入。在另一示例中，输入可以是从对命令的远程显示中远程地选择的、或使用像键盘、触摸屏或鼠标等输入设备键入的数据命令。计算环境12的功率级可被改变，并且即使当用户位于计算环境12的捕捉区域以外时，也可为用户激活计算环境12。此外，基于来自用户的语音输入或其他远程命令，计算环境还可发出其他命令，例如关闭一个或多个设备(508-516)的功率级。

以上附图中示出的示例计算机系统包括计算机可读存储介质的示例。计算机可读存储介质也是处理器可读存储介质。这样的介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不限于，RAM、ROM、EEPROM、高速缓存、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、记忆棒或卡、磁带盒、磁带、媒体驱动器、硬盘、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。

本技术可具体化为其他具体形式而不背离其精神或本质特征。同样，对于应用、模块、例程、特征、属性、方法和其他方面的特定命名和划分并非是强制性的，且实现本技术或其特征的机制可具有不同的名称、划分和/或格式。此外，如本领域技术人员将显而易见的，所公开的实施例的应用、模块、例程、特征、属性、方法和其他方面可被实现为软件、硬件、固件或三者的任意组合。当然，在组件(其示例是应用)被实现为软件的情况下，该组件可被实现为独立的程序、更大程序的一部分、多个单独的程序、静态或动态链接库、内核可加载模块、设备驱动程序、和/或编程技术领域中的技术人员现在已知或将来知晓的每一个和任何其他方式。

尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims

1.一种使用另一个设备的自然用户界面来控制多媒体系统中的一个或多个电子设备的计算机实现的方法，包括：

由所述自然用户界面感测用户的一个或多个物理动作(702)；

由第一电子设备从表示所述一个或多个物理动作的数据中标识关于至少一个其他设备的设备命令(704)；以及

所述第一设备向所述至少一个其他电子设备发送所述命令(710)。

2.如权利要求1所述的计算机实现的方法，其特征在于：

所述第一设备向所述至少一个其他电子设备发送所述命令包括向第二设备发送所述命令，并向支持所述第二设备对所述命令的处理的第三设备发送另一个命令(718)。

3.如权利要求1所述的计算机实现的方法，其特征在于：

所述第一设备向所述至少一个其他电子设备发送所述命令还包括向实现所述命令的一个或多个设备发送一个或多个命令(722)，以便根据用户偏好来操作。

4.如权利要求1所述的计算机实现的方法，其特征在于，所述物理动作包括姿势或语音输入中的至少一个。

5.如权利要求1所述的计算机实现的方法，其特征在于，还包括：

标识由所述自然用户界面所检测到的一个或多个用户(706)，包括发出所述命令的用户；以及

将所述自然用户界面所检测到的未被标识的用户的一个或多个物理特性的数据作为标识数据来存储。

6.如权利要求5所述的计算机实现的方法，其特征在于，还包括：

确定发出所述命令的用户是否具有超过其他所检测到的用户的优先级(708)；

响应于发出所述命令的用户具有超过其他所检测到的用户的优先级，向所述至少一个其他电子设备发送所述命令(710)；

响应于发出所述命令的用户缺少超过至少一个其他所检测到的用户的优先级，确定所述命令是否与具有较高优先级的至少一个其他用户的先前命令相抵触(712)；以及

响应于所述命令不与所述先前命令相抵触，向所述至少一个其他电子设备发送所述命令(710)。

7.如权利要求5所述的计算机实现的方法，其特征在于，还包括：

存储所述命令和所述命令的时间记录(714)，所述时间记录指示与所述命令相关联的日期和时间、关于所述命令的设备、发出所述命令的用户、和设备命令历史中的任何其他所检测到的用户；以及

响应于接收请求基于显示准则来显示一个或多个命令的设备命令历史的用户输入(726)，基于所述显示准则来显示一个或多个命令的命令历史(728)。

8.一种多媒体系统，包括：

用于捕捉用户的物理动作的数据的捕捉设备(20)，所述数据指示对所述多媒体系统中的一个或多个电子设备的命令；以及

计算环境(12)，包括：

处理器(200、320)和存储器(206、106、208、140、310、341、352、356、381)，并与所述捕捉设备通信(36)以接收指示所述命令的数据，且与所述多媒体系统中的一个或多个其它电子设备通信(518)，

处理器可执行的软件(540)，用于确定所述命令适用于一个或多个其他设备中的哪个并将所述命令发送到所适用的设备，

用户识别软件(196)，所述用户识别软件用于基于表示所述捕捉设备所捕捉的一个或多个物理特性的数据来标识用户，表示一个或多个物理特性的所述数据包括声音数据或图像数据中的至少一个，以及

姿势识别软件(190)，所述姿势识别软件被存储在存储器中，并且当由所述处理器执行时基于包括姿势的物理动作来标识所述命令。

9.如权利要求8所述的多媒体系统，其特征在于，还包括通信地耦合到所述捕捉设备的、用于检测与所述计算环境相关联的捕捉区域中的用户的存在的一个或多个传感器(36)。

10.如权利要求8所述的多媒体系统，其特征在于，所述计算环境经由包括消费电子产品通道(CEC)的HDMI连接(518)，来与所述多媒体系统中的一个或多个其他设备通信。