CN102306051B

CN102306051B - 复合姿势-语音命令

Info

Publication number: CN102306051B
Application number: CN201110177728.8A
Authority: CN
Inventors: C·克莱因; A·M·瓦赛尔; J·S·弗莱克斯; V·拉尔科; T·M·苏摩
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-06-18
Filing date: 2011-06-17
Publication date: 2016-03-16
Anticipated expiration: 2031-06-17
Also published as: US8296151B2; US20110313768A1; US10534438B2; US20130027296A1; CN102306051A; US20170228036A1

Abstract

本发明涉及复合姿势-语音命令。一种多媒体娱乐系统将姿势和语音命令组合以提供增强的控制方案。用户的身体位置或运动可被识别为姿势，且可被用于提供用于识别用户生成的声音(诸如语音输入)的上下文。同样，语音输入可被识别为语音命令，且可被用于提供用于将身体位置或运动识别为姿势的上下文。权重可被赋给这些输入以促进处理。当姿势被识别出时，加载与识别出的姿势相关联的语音命令的有限集合以供使用。此外，语音命令的附加集合可按分层方式被结构化，以使得说出来自语音命令的一个集合的语音命令导致系统加载下一集合的语音命令。

Description

复合姿势-语音命令

技术领域

本发明涉及计算机系统的控制，尤其涉及使用结合了声音(诸如语音或拍手)和身体位置(诸如姿态或姿势)两者的复合命令的系统和方法。

背景技术

通常向计算机游戏和其他多媒体应用的用户提供用户控制，用户控制允许用户完成基本功能(诸如浏览和选择内容)以及执行更复杂的功能(诸如操纵游戏人物)。通常，这些控制通过诸如鼠标、键盘、话筒、图像源、音频源、遥控器等输入设备作为输入被提供给控制器。遗憾的是，学习和使用此类控制命令可能是困难或麻烦的，由此造成了用户与完全享受此类游戏、应用及其特征之间的障碍。

发明内容

公开了用于使用结合了声音(诸如语音或拍手)和身体位置(诸如姿态或姿势)两者的复合命令的系统和方法。多媒体对象被显示在用户界面上。用户界面的控制器包括用于捕捉由用户产生的任何声音以及用户的静态和动态身体位置(包括姿态或姿势)的捕捉设备。该控制器处理所捕捉的数据以识别身体位置命令和声音命令。

有利地，使用身体位置命令和声音命令的组合允许用分布在不同的操作状态级别上的较小命令集合来实现该系统。因此，处理身体位置命令和声音命令的组合增强了识别软件的可靠性和准确性。

例如，捕捉设备可捕捉与身体位置移动有关的输入并将该移动识别为所定义的姿势。给定所捕捉的输入，与识别出的姿势相关联的语音或声音命令的有限集合可被标识并被加载到控制器中。在接收到声音输入时，基于所加载的声音命令集合识别声音输入。最后，基于识别出的姿势以及识别出的声音命令的组合执行动作。

有利地，可在用户界面上提供上下文菜单以帮助用户列出可用的语音或声音命令，且这些上下文菜单本质上可以是分层的。例如，第一姿势可导致使用第一语音库。然而，一旦说出来自第一语音库的语音命令，另一语音命令集合可变得可用，且第二语音库可被加载到控制器中。以类似方式，可在适当时在上下文菜单中向用户介绍不同级别的语音命令。

捕捉设备可大致同时捕捉身体位置输入和声音输入。在这种情形中，身体位置输入可被用于提供用于验证声音命令的上下文，或者声音命令可被用于提供用于验证身体位置命令的上下文。此外，权重可被赋给识别出的命令以帮助提供用于决定身体位置输入和/或声音输入的正确解释的上下文。

提供本概述以便以简化形式介绍将在以下的具体实施方式中进一步描述的一些概念。对本文公开的设备和方法的性质和优点的进一步理解可通过参考完整说明书和附图来实现。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本发明的任一部分中提及的任何或所有缺点的实现。

附图说明

图1示出具有用于捕捉和跟踪用户身体位置和移动以及接收用户声音输入的捕捉设备的示例性多媒体环境中的用户。

图2是示出耦合到计算设备的捕捉设备的一个实施例的框图。

图3是正被跟踪的骨架的示意表示。

图4是示出用于处理从捕捉设备接收的数据的计算系统的一个实施例的框图。

图5是示出用于处理从捕捉设备接收的数据的计算系统的另一个实施例的框图。

图6是描述用于使用语音命令与计算系统进行用户交互的过程的一个实施例的流程图。

图7A是描述用于使用手势和语音命令与计算系统进行用户交互的过程的一个实施例的流程图。

图7B是描述除了图7A中所示的那些步骤以外的用于使用手势和语音命令与计算系统进行用户交互的其他步骤的流程图。

图7C-7D是描述图7A所示的过程中用于识别手势的附加细节的流程图。

图7E是描述图7A所示的过程中用于识别语音命令的附加细节的流程图。

图8A是描述用于使用手势和语音命令与计算系统进行用户交互的过程的替换实施例的流程图。

图8B是描述根据图8A将姿势与语音命令相关的一种选项的流程图。

图8C是描述根据图8A将姿势与语音命令相关的另一种选项的流程图。

图8D是描述根据图8A将姿势与语音命令相关的另一种选项的流程图。

图9A是描述用于使用手势和语音命令与计算系统进行用户交互的过程的替换实施例的流程图。

图9B是描述用于使用手势和语音命令与计算系统进行用户交互的过程的替换实施例的流程图。

图9C是描述用于使用特定的手势和上下文语音命令与计算系统进行用户交互的过程的一个实施例的流程图。

图10A是实现图7A的流程图的第一级用户界面的图示。

图10B是实现图7B的流程图的第二级用户界面的图示。

图10C是第三级用户界面的图示。

具体实施方式

用于多媒体娱乐系统的复合命令可结合声音命令和身体位置命令两者。多媒体对象被显示在用户界面上。用户界面的控制器包括用于捕捉用户的身体位置和任何移动、以及由用户产生的任何声音的捕捉设备。该控制器处理所捕捉的信息以识别预定义的声音命令和身体位置命令，包括姿态、姿势和语音命令。如本文中所使用的，术语“姿势”旨在涵盖所有身体位置命令，无论是由静态姿态还是动态移动(诸如手势)构成。

在一个实施例中，一旦姿势被识别出，则随后将与该姿势有关的声音或语音命令的集合加载到控制器中。这样，可以向用户提供声音或语音命令的更加有限和精确的集合。例如，用户讲话，控制器将该讲话识别为语音命令。响应于识别出的语音命令，执行预定义的动作。可在界面上显示帮助菜单/消息，其示出操作状态以及与所显示的对象有关的可用声音/语音命令。

在另一实施例中，第一语音命令被用于将后续语音命令的集合缩小为与第一语音命令相关联的语音命令的较小子集。例如，当用户说出第一语音命令时，可显示向用户指示能遵循第一语音命令的语音命令的集合的帮助消息或菜单。在接收和识别相关语音命令的整个集合时，可执行必要的动作。替换地，姿势和部分语音命令的组合可使用有帮助的上下文菜单引导用户通过每一级命令。

在另一实施例中，姿势和语音命令实质上是同时被接收的(或换言之在时间上重叠)，且将两种识别方案相关，从而与识别相关联的准确性和置信度得以提高。此外，对于应用的每个增量部分，特定操作状态的可用姿势和语音命令的数量要小得多，由此简化了对系统的使用以及处理方案两者。

图1示出用户18在拳击视频游戏中与多媒体娱乐系统10交互。有利地，系统10被配置成捕捉、分析和跟踪由用户18在系统10的捕捉设备20的范围内作出的移动和声音。这允许用户使用语音命令、姿势、或姿势与语音命令的组合与系统10交互，如以下进一步描述的。

系统10包括运行拳击应用的控制器12。控制器12是计算系统，诸如计算机、游戏系统、多媒体控制台等。在一个实施例中，计算系统12包括硬件组件和/或软件组件，从而计算系统12被用于执行诸如游戏应用或其他应用等的应用。在一个实施例中，计算系统12包括执行存储在处理器可读存储设备上的用于执行以下描述的过程的指令的处理器，如标准化处理器、专用处理器、微处理器等。例如，由捕捉设备20捕捉的移动和声音被发送给控制器12进行处理，其中识别软件将分析该移动和声音以确定其在该应用的上下文中的意义。

捕捉设备20可包括相机或成像设备23，其在视觉上监视诸如用户18的一个或多个用户，从而可以捕捉、分析并跟踪诸如用户所执行的姿态、姿势和/或其他移动之类的身体位置和移动，来执行应用中的一个或多个动作或控制和/或动画化化身或屏上人物。此外，捕捉设备20可包括用于检测用户18发出的语音命令和其他声音(诸如拍手)的话筒30。捕捉设备的细节在2010年3月12日提交的题为“BionicMotion(仿生学运动)”并通过整体引用合并于此的共同待审美国申请号12/722,587中描述。

系统10连接到视听设备16，视听设备16包括用于应用图形的显示设备15(诸如电视、监视器、高清晰度电视(HDTV)、或其他显示设备)和/或音频回放设备(诸如扬声器14)。例如，控制器12可包括诸如图形卡之类的视频适配器和/或诸如声卡之类的音频适配器，这些适配器提供与在控制器12上运行的应用相关联的音频和视频信号。视听设备16从控制器12接收音频和视频信号并播放内容。根据一个实施例，视听设备16可经由诸如S-视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆、分量视频电缆等标准连接被连接到控制器12，从而从控制器接收的视频信号被显示在显示监视器15上，而从控制器接收的音频信号通过扬声器14被回放。

在图1中描绘的拳击游戏应用中，控制器12还驱动视听设备16为用户18提供拳击对手22的视觉表示。有利地，控制器12还提供用户18的视觉表示或化身24，且用户通过他或她自己的移动来控制该化身。例如，用户18可在物理空间中挥拳猛击，这使得用户化身24在游戏空间中挥拳猛击。因此，根据一示例实施例，计算机系统12和捕捉设备20识别并分析物理空间中用户18的重拳从而使得该重拳可被解释为对游戏空间中的用户化身24的游戏控制和/或该重拳的运动可用于动画化游戏空间中的用户化身24。

用户18的其他移动也可被解释为应用中的其他控制或动作，和/或用于动画化用户化身，诸如上下快速摆动、闪避、滑步、封堵、用拳猛击或挥动各种不同力量的重拳的控制。此外，某些移动可被解释为可对应于除控制用户化身24之外的动作的控制。例如，在一实施例中，用户可使用移动来结束、暂停或保存游戏、选择级别、查看高分、与朋友交流等。

根据其他实施例，用户18可使用姿态或移动来从主用户界面选择游戏或其他应用，诸如指向该对象。因此，在示例实施例中，用户18的全范围运动可以用任何合适的方式来获得、使用和分析以与应用进行交互、以及静态定位(诸如指向姿势)。

根据其他示例实施例，跟踪系统10还可用于将目标移动解释为游戏领域之外的操作系统和/或应用控制。例如，事实上操作系统和/或应用的任何可控方面可由诸如用户18等目标的移动来控制。

图2示出耦合到计算设备12的捕捉设备20的一个实施例。捕捉设备20被配置成捕捉音频和视频信息两者，诸如由用户18作出的姿态或移动、或者如用户18发出的声音命令之类的声音。所捕捉的视频具有包括深度图像的深度信息，深度图像可包括用任何合适的技术，包括例如飞行时间、结构化光、立体图像、或其他已知方法获得的深度值。根据一个实施例，捕捉设备20可将深度信息组织为“Z层”，即与从深度相机沿着其视线延伸的Z轴正交的层。

捕捉设备20包括相机组件23，诸如捕捉场景的深度图像的深度相机。深度图像包括所捕捉的场景的二维(2D)像素区域，其中2D像素区域中的每一像素可表示深度值，诸如所捕捉的场景中的物体距相机的以厘米、毫米等计的距离。

如图2的实施例中所示，相机组件23包括用于捕捉场景的深度图像的红外(IR)光组件25、三维(3D)相机26、和RGB(视觉图像)相机28。例如，在飞行时间分析中，捕捉设备20的IR光组件25可以将红外光发射到场景上，然后，使用例如3D相机26和/或RGB相机28来感测从场景中的一个或多个目标和对象的表面反向散射的光。某些实施例中，可使用脉冲式红外光从而可以测量出射光脉冲和对应的入射光脉冲之间的时间并将其用于确定从捕捉设备20到场景中目标或对象上的特定位置的物理距离。此外，在其他示例实施例中，可比较出射光波的相位与入射光波的相位以确定相移。然后可以使用相移来确定从捕捉设备到目标或对象上的特定位置的物理距离。

根据另一示例实施例，可使用飞行时间分析通过经由包括例如快门式光脉冲成像的各种技术分析反射光束随时间的强度变化来间接地确定从捕捉设备20到目标或对象上特定位置的物理距离。

在另一示例实施例中，捕捉设备20可使用结构化光来捕捉深度信息。在这样的分析中，图案化光(即，被显示为诸如网格图案、条纹图案、或不同图案等已知图案的光)可经由例如IR光组件25被投影到场景上。在撞击到场景中一个或多个目标或对象的表面时，作为响应，图案可变形。图案的这种变形可由例如3-D相机26和/或RGB相机28(和/或其他传感器)来捕捉，然后可被分析以确定从捕捉设备到目标或对象上的特定位置的物理距离。在一些实现中，IR光组件25与相机28和26分开，使得可以使用三角测量来确定距相机28和26的距离。在一些实现中，捕捉设备20将包括感测IR光的专用IR传感器或具有IR滤波器的传感器。

根据另一实施例，捕捉设备20可包括两个或更多物理上分开的相机，这些相机可从不同角度查看场景来获得可被解析以生成深度信息的视觉立体数据。其他类型的深度图像传感器也可被用来创建深度图像。

更多细节可参见以下美国专利申请，其皆通过整体引用合并于此：2009年4月13日提交的题为“GestureRecognizerSystemArchitecture(姿势识别器系统架构)”的美国专利申请号12/422,661；2010年3月12日提交的题为“BionicMotion(仿生学运动)”的美国专利申请号12/722,587；2009年2月23日提交的题为“StandardGestures(标准姿势)”的美国专利申请号12/391,150；以及2009年5月29日提交的题为“GestureTool(姿势工具)”的美国专利申请号12/474,655。

捕捉设备20还包括话筒30。话筒30包括接收声音并以公知方式将其转换成电信号的变换器或传感器。根据一个实施例，话筒30被用来减少系统10中的捕捉设备20和控制器12之间的反馈。此外，话筒30可用于接收包括由用户18生成以用于选择和控制应用(包括由控制器12执行的游戏和其他应用)的语音命令的声音。

捕捉设备20还包括存储器组件34，存储器组件34存储由处理器32执行的指令、由3-D相机26和/或RGB相机28所捕捉的图像或图像帧、由话筒30捕捉的声音信号、或任何其他合适的信息、图像、声音等等。根据一示例实施例，存储器组件34可包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪存、硬盘、或任何其他合适的存储组件。如图2所示，在一个实施例中，存储器组件34可以是与图像捕捉组件23和处理器32进行通信的单独的组件。根据另一实施例，存储器组件34可被集成到处理器32和/或图像捕捉组件23中。

如图2所示，捕捉设备20可经由通信链路36与控制器或计算系统12进行通信。通信链路36可以是包括例如USB连接、火线连接、以太网电缆连接等的有线连接和/或例如无线802.11b、g、a或n连接等的无线连接。根据一个实施例，计算系统12可经由通信链路36向捕捉设备20提供可用于确定何时捕捉例如场景的时钟。另外，捕捉设备20将由例如3-D相机26和/或RGB相机28捕捉的深度信息和视觉(例如，RGB)图像经由通信链路36提供给计算系统12。在一个实施例中，深度图像和视觉图像以30帧每秒的速率传送。计算系统12然后可使用该模型、深度信息、以及所捕捉的图像来例如控制诸如游戏或文字处理程序等的应用和/或动画化化身或屏上人物。

图2描绘了各种软件模块。例如，计算系统12包括深度图像处理和骨架跟踪模块50，该模块使用深度图像来跟踪可由深度相机检测的一个或多个人。深度图像处理和骨架跟踪模块50向应用196提供跟踪信息，该应用可以是视频游戏、生产性应用、通信应用或其他软件应用等。音频数据和视觉图像数据也被提供给应用52和深度图像处理和骨架跟踪模块50。应用52将跟踪信息、视觉图像数据提供给姿势识别器引擎54以及将音频数据提供给语音识别器引擎56。在另一实施例中，姿势识别器引擎54从深度图像处理和骨架跟踪模块50直接接收跟踪信息，以及从捕捉设备20直接接收视觉图像数据，并且语音识别器引擎56从捕捉设备20直接接收音频数据。

姿势识别器引擎54与过滤器60、62、64、……、66的集合相关联，每一过滤器具有关于可由捕捉设备20检测的任何人或对象执行的姿势、动作或状况的信息。例如，来自捕捉设备20的数据可由过滤器60、62、64、……、66处理，以便标识一个用户或一组用户何时执行了一个或多个姿势或其他动作，诸如姿态或其他静态身体位置。那些姿势可与应用52的各种控制、对象或状况相关联。由此，计算环境12可借助过滤器使用姿势识别器引擎54来解释移动。

同样，语音识别器引擎56与语音库70、72、74、……、76的集合相关联，每一个语音库具有关于与可用捕捉设备20检测的用户所执行的特定姿势相关联的语音命令的信息。例如，来自捕捉设备20的数据可由过滤器70、72、74、……、76处理，以便标识当一个用户或一组用户执行了由系统10识别的特定姿势时可用的语音命令或其他声音命令的特定且有限的集合。姿势和语音命令的组合可与应用52的各种控制、对象或状况相关联。因此，计算环境12可以借助过滤器使用姿势识别器引擎54来解释姿态或移动，并且可借助语音库使用语音识别器引擎56来解释声音。

图2的捕捉设备20向计算系统12提供RGB图像(或其他格式或色彩空间的视觉图像)和深度图像。深度图像可以是多个观测到的像素，其中每个观测到的像素具有观测到的深度值。例如，深度图像可包括所捕捉的场景的二维(2-D)像素区域，其中2-D像素区域中的每一像素可具有深度值，如所捕捉的场景中的对象距捕捉设备的距离。

系统将使用RGB图像和深度图像来跟踪用户的位置和/或移动。例如，系统将使用深度图像来跟踪人的骨架。可以使用许多方法通过使用深度图像来跟踪人的骨架。使用深度图像跟踪骨架的一个合适的示例在2009年10月21日提交的题为“PoseTrackingPipeline(姿势跟踪流水线)”的美国专利申请号12/603,437中提供，该申请通过整体引用合并于此。‘437申请中公开的过程包括获取深度图像，对数据进行降采样，移除和/或平滑高变度噪声数据，标识并移除背景，以及将前景像素中的每一个分配给身体的不同部位。基于这些步骤，系统将使一模型拟合到该数据并创建骨架。该骨架将包括一组关节和这些关节之间的连接。图3示出了具有15个关节(j0、j1、j2、j3、j4、j5、j6、j7、j8、j9、j10、j11、j12、j13和j14)的示例骨架。这些关节中的每一个表示骨架中该骨架可以在x、y、z方向上枢转的位置或身体上关注的位置。也可使用用于跟踪的其他方法。合适的跟踪技术也在以下美国专利申请中公开，所有这些申请通过整体引用结合于此：2009年5月29日提交的题为“DeviceforIdentifyingandTrackingMultipleHumansOverTime(用于随时间标识并跟踪多个人的设备)”的美国专利申请号12/475,308；2010年1月29日提交的题为“VisualBasedIdentityTracking(基于视觉的身份跟踪)”的美国专利申请号12/696,282；2009年12月18日提交的题为“MotionDetectionUsingDepthImages(使用深度图像的运动检测”的美国专利申请号12/641,788；以及2009年10月7日提交的题为“HumanTrackingSystem(人类跟踪系统)”的美国专利申请号12/575,388。

(图2所描绘的计算系统12的)姿势识别器引擎54包括多个过滤器60、62、64、……、66来确定姿势或动作。过滤器包括定义姿势、动作或状况的信息以及该姿势、姿态、动作或状况的参数或元数据。例如，包括一只手从身体背后到身体前方的运动的投掷可被实现为包括表示用户的一只手从身体背后到身体前方的移动的信息的姿势，该移动将由深度相机来捕捉。然后可为该姿势设定参数。在姿势是投掷的情况下，参数可以是该手必须达到的阈值速度、该手必须行进的距离(绝对的，或相对于用户的整体大小)、以及识别器引擎对发生了该姿势的置信评级。用于姿势的这些参数可以随着时间在各应用之间、在单个应用的各上下文之间、或在一个应用的一个上下文内变化。

过滤器可以是模块化的或是可互换的。在一个实施例中，过滤器具有多个输入(这些输入中的每一个具有一类型)以及多个输出(这些输出中的每一个具有一类型)。第一过滤器可用具有与第一过滤器相同数量和类型的输入和输出的第二过滤器来替换而不更改识别器引擎架构的任何其他方面。例如，可以有用于驾驶的第一过滤器，该第一过滤器取骨架数据作为输入并输出与该过滤器相关联的姿势正在发生的置信度以及转向角。在希望用第二驾驶过滤器来替换该第一驾驶过滤器的情况下——这可能是因为第二驾驶过滤器更高效且需要更少的处理资源——则可以通过简单地用第二过滤器替换第一过滤器来这样做，只要第二过滤器具有相同的输入和输出——骨架数据类型的一个输入、以及置信度类型和角度类型的两个输出。

过滤器不需要具有参数。例如，返回用户的高度的“用户高度”过滤器可能不允许任何可调节的参数。替换的“用户高度”过滤器可具有可调节参数，如在确定用户的高度时是否考虑用户的鞋、发型、头饰以及体态。

对过滤器的输入可包括诸如关于用户的关节位置的关节数据、在关节处相交的骨所形成的角度、来自场景的RGB色彩数据、以及用户的某一方面的变化速率等内容。来自过滤器的输出可包括诸如正作出给定姿势的置信度、作出姿势运动的速度、以及作出姿势运动的时间等内容。

姿势识别器引擎54可具有向过滤器提供功能的基本识别器引擎。在一实施例中，姿势识别器引擎54实现的功能包括跟踪所识别的姿势和其他输入的随时间输入(input-over-time)存档、隐马尔可夫模型实现(其中模型化系统被假定为马尔可夫过程——其中当前状态封装了确定将来状态所需的任何过去状态信息，因此不必为此目的而维护任何其他过去状态信息的过程——该过程具有未知参数，并且隐藏参数是从可观察数据来确定的)、以及求解姿势识别的特定实例所需的其他功能。

过滤器60、62、64、……、66在姿势识别器引擎54之上加载并实现，并且可利用姿势识别器引擎54提供给所有过滤器60、62、64、……、66的服务。在一个实施例中，姿势识别器引擎54接收数据来确定该数据是否满足任何过滤器60、62、64、……、66的要求。由于这些所提供的诸如解析输入等服务是由姿势识别器引擎54一次性提供而非由每一过滤器60、62、64、……、66提供的，因此这一服务在一段时间内只需被处理一次而不是在该时间段对每一过滤器处理一次，因此减少了确定姿势所需的处理。

应用52可使用随姿势识别器引擎54提供的过滤器60、62、64、……、66，或者它可提供其自己的、插入到姿势识别器引擎54中的过滤器。在一实施例中，所有过滤器具有启用该插入特性的通用接口。此外，所有过滤器可利用参数，因此可使用以下单个姿势工具来诊断并调节整个过滤器系统。

关于姿势识别器引擎54的更多信息参见2009年4月13日提交的美国专利申请12/422,661“GestureRecognizerSystemArchitecture(姿势识别器系统架构)”，该申请通过整体引用合并于此。关于识别姿势的更多信息参见2009年2月23日提交的美国专利申请12/391,150“StandardGestures(标准姿势)”；以及2009年5月29日提交的美国专利申请12/474,655“GestureTool(姿势工具)”，这两个申请都通过整体引用结合于此。

图4示出实现为多媒体控制台100(诸如游戏控制台)的图1中所示的控制器12的一个实施例。多媒体控制台100包括具有一级高速缓存102、二级高速缓存104和闪存ROM(只读存储器)106的中央处理单元(CPU)101。一级高速缓存102和二级高速缓存104临时存储数据并因此减少存储器访问周期数，由此改进处理速度和吞吐量。CPU101可被提供为具有一个以上的核，以及由此的附加的一级和二级高速缓存102和104。闪存ROM106可存储在多媒体控制台100通电时在引导进程初始阶段加载的可执行代码。

图形处理单元(GPU)108和视频编码器/视频编解码器(编码器/解码器)114形成用于高速、高分辨率图形处理的视频处理流水线。数据经由总线从图形处理单元108输送到视频编码器/视频编解码器114。视频处理流水线将数据输出到A/V(音频/视频)端口140以传输到电视机或其他显示器。存储器控制器110被连接到GPU108以方便处理器访问各种类型的存储器112，例如但不局限于RAM(随机存取存储器)。

多媒体控制台100包括较佳地在模块118上实现的I/O控制器120、系统管理控制器122、音频处理单元123、网络接口控制器124、第一USB主控制器126、第二USB控制器128和前面板I/O子部件130。USB控制器126和128用作外设控制器142(1)-142(2)、无线适配器148、和外置存储器设备146(例如闪存、外置CD/DVDROM驱动器、可移动介质等)的主机。网络接口124和/或无线适配器148提供对网络(例如，因特网、家庭网络等)的访问并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等的各种不同的有线和无线适配器组件中的任何一种。

提供系统存储器143来存储在引导进程期间加载的应用程序数据。提供介质驱动器144，且其可包括DVD/CD驱动器、蓝光驱动器、硬盘驱动器、或其他可移动介质驱动器等。介质驱动器144可位于多媒体控制台100的内部或外部。应用数据可经由介质驱动器144访问，以由多媒体控制台100执行、回放等。介质驱动器144经由例如串行ATA总线或其他高速连接(例如IEEE1394)等总线连接到I/O控制器120。

系统管理控制器122提供涉及确保多媒体控制台100的可用性的各种服务功能。音频处理单元123和音频编解码器132形成具有高保真度和立体声处理的对应的音频处理流水线。音频数据经由通信链路在音频处理单元123与音频编解码器132之间传输。音频处理流水线将数据输出到A/V端口140以供外部音频用户或具有音频能力的设备再现。

前面板I/O子部件130支持暴露在多媒体控制台100的外表面上的电源按钮150和弹出按钮152以及任何LED(发光二极管)或其它指示器的功能。系统供电模块136向多媒体控制台100的组件供电。风扇138冷却多媒体控制台100内的电路。

CPU101、GPU108、存储器控制器110、和多媒体控制台100内的各个其它组件经由一条或多条总线互连，包括串行和并行总线、存储器总线、外围总线、和使用各种总线架构中任一种的处理器或局部总线。作为示例，这些架构可以包括外围部件互连(PCI)总线、PCI-Express总线等。

当多媒体控制台100通电时，应用数据可从系统存储器143加载到存储器112和/或高速缓存102、104中并在CPU101上执行。应用可呈现在导航到多媒体控制台100上可用的不同媒体类型时提供一致的用户体验的图形用户界面。在操作中，介质驱动器144中包含的应用和/或其它媒体可从介质驱动器144启动或播放，以向多媒体控制台100提供附加功能。

多媒体控制台100可通过将该系统简单地连接到电视或其它显示器而作为独立系统来操作。在该独立模式中，多媒体控制台100允许一个或多个用户与该系统交互、看电影、或听音乐。然而，随着通过网络接口124或无线适配器148可用的宽带连接的集成，多媒体控制台100还可作为较大网络社区中的参与者来操作。

当多媒体控制台100通电时，可以保留设定量的硬件资源以供多媒体控制台操作系统作系统使用。这些资源可包括预留存储器(例如，16MB)、CPU和GPU周期(例如，5％)、网络带宽(例如，8kbs)等等。因为这些资源是在系统引导时保留的，所以所保留的资源从应用的角度而言是不存在的。

具体地，存储器保留较佳地足够大，以包含启动内核、并发系统应用和驱动程序。CPU保留较佳地为恒定，使得若所保留的CPU用量不被系统应用使用，则空闲线程将消耗任何未使用的周期。

对于GPU保留，通过使用GPU中断来显示由系统应用程序生成的轻量消息(例如，弹出窗口)，以调度代码来将弹出窗口呈现为覆盖图。覆盖图所需的存储器量取决于覆盖区域大小，并且覆盖图较佳地与屏幕分辨率成比例缩放。在并发系统应用使用整个用户界面的情况下，优选使用独立于应用分辨率的分辨率。定标器可用于设置该分辨率，从而消除了对改变频率并引起TV重新同步的需要。

在多媒体控制台100引导且系统资源被保留之后，就执行并发系统应用来提供系统功能。系统功能被封装在一组在上述所保留的系统资源中执行的系统应用中。操作系统内核标识是系统应用线程而非游戏应用线程的线程。系统应用优选地被调度为在预定时间并以预定间隔在CPU101上运行，以便为应用提供一致的系统资源视图。调度是为了把由在控制台上运行的游戏应用所引起的高速缓存分裂最小化。

当并发系统应用需要音频时，则由于时间敏感性而异步调度音频处理给游戏应用。多媒体控制台应用管理器(如下所述)在系统应用活动时控制游戏应用的音频水平(例如，静音、衰减)。

输入设备(例如，控制器142(1)和142(2))由游戏应用和系统应用共享。输入设备不是所保留的资源，但却在系统应用和游戏应用之间切换以使其各自具有该设备的焦点。应用管理器较佳地控制输入流的切换，而无需知晓游戏应用的知识，并且驱动程序维持有关焦点切换的状态信息。例如，相机26、28和捕捉设备20可经由USB控制器126或其他接口来定义控制台100的附加输入设备。

图5示出实现为计算系统220的控制器12的另一示例实施例。计算系统环境220只是合适的计算系统的一个示例，并且不旨在对所公开的主题的使用范围或功能提出任何限制。也不应该将计算系统220解释为对示例性操作系统220中示出的任一组件或其组合有任何依赖性或要求。在一些实施例中，各种所描绘的计算元件可包括被配置成实例化本公开的特定方面的电路。例如，本公开中使用的术语电路可包括被配置成通过固件或开关来执行功能的专用硬件组件。在其他示例实施例中，术语“电路”可包括通过体现可操作以执行功能的逻辑的软件指令配置的通用处理单元、存储器等等。在其中电路包括硬件和软件的组合的示例实施例中，实施者可以编写体现逻辑的源代码，且源代码可以被编译为可以由通用处理单元处理的机器可读代码。由于所属领域技术人员可以理解，现有技术已经发展到在硬件、软件或硬件/软件的组合之间差别微小的程度，为实现特定功能而选择硬件还是软件是交由实施者处理的设计选择。更具体而言，本领域技术人员可以理解，可以将软件进程转换成等效的硬件结构，也可以将硬件结构本身转换成等效的软件进程。如此，选择硬件实现还是软件实现是一种设计选择，并交由实施者处理。

计算系统220包括计算机241，计算机241通常包括各种计算机可读介质。计算机可读介质可以是能由计算机241访问的任何可用介质，而且包含易失性和非易失性介质、可移动和不可移动介质。系统存储器222包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器(ROM)223和随机存取存储器(RAM)260。基本输入/输出系统224(BIOS)包括如在启动时帮助在计算机241内的元件之间传输信息的基本例程，它通常储存在ROM223中。RAM260通常包含处理单元259可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制，图5示出了当前驻留在RAM中的操作系统225、应用程序226，其他程序模块227和程序数据228。

计算机241还可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图5示出了对不可移动、非易失性磁介质进行读写的硬盘驱动器238，对可移动、非易失性磁盘254进行读写的磁盘驱动器239，以及对例如CDROM或其它光学介质等可移动、非易失性光盘253进行读写的光盘驱动器240。可以在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器238通常由例如接口234等不可移动存储器接口连接至系统总线221，而磁盘驱动器239和光盘驱动器240通常由例如接口235等可移动存储器接口连接至系统总线221。

上文所讨论的并且在图5中所示出的驱动器以及它们的相关联的计算机存储介质为计算机241提供了计算机可读指令、数据结构、程序模块及其他数据的存储。例如，图5中，硬盘驱动器238被示为存储操作系统258、应用程序257、其它程序模块256和程序数据255。注意，这些组件可以与操作系统225、应用程序226、其他程序模块227和程序数据228相同，也可以与它们不同。此处给操作系统258、应用程序257、其他程序模块256以及程序数据255提供了不同的编号，以说明至少它们是不同的副本。用户可以通过输入设备，例如键盘251和定点设备252通常被称为鼠标、跟踪球或触摸垫——向计算机241输入命令和信息。其他输入设备(未示出)可以包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等等。这些和其他输入设备通常通过耦合至系统总线的用户输入接口236连接至处理单元259，但也可以由其他接口和总线结构，例如并行端口、游戏端口或通用串行总线(USB)来连接。例如，包括相机26、28和话筒30在内的捕捉设备20可定义经由用户输入接口236连接的附加输入设备。监视器242或其他类型的显示设备也通过接口，例如视频接口232，连接至系统总线221。除监视器之外，计算机还可以包括可以通过输出外围接口233连接的诸如扬声器244和打印机243之类的其他外围输出设备。捕捉设备20可经由输出外围接口233、网络接口237或其他接口连接到计算系统220。

计算机241可以使用到一个或多个远程计算机(如远程计算机246)的逻辑连接在联网环境中操作。远程计算机246可以是个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点，且通常包括上文参考计算机241所描述的许多或全部元件，虽然图5中只示出了存储器存储设备247。图中所示逻辑连接包括局域网(LAN)245和广域网(WAN)249，但也可以包括其它网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。

当在LAN联网环境中使用时，计算机241通过网络接口或适配器237连接至LAN245。当在WAN联网环境中使用时，计算机241通常包括调制解调器250或用于通过例如因特网等WAN249建立通信的其他手段。调制解调器250可以是内置或外置的，它可以经由用户输入接口236或其他适当的机制连接至系统总线221。在联网环境中，相对于计算机241所描述的程序模块或其部分可被存储在远程存储器存储设备中。作为示例而非局限，图5示出应用程序248驻留在存储器设备247上。可以理解的是，所示的网络连接是示例性的，并且可以使用在计算机之间建立通信链路的其他手段。

图4或5的系统中的任一个或不同计算系统可用于实现图1-2中所示的控制器12。如上所述，控制器12捕捉用户的身体位置和/或移动和声音，以及将这些输入识别为身体命令和声音命令，并采用这些识别出的身体命令和声音命令来控制视频游戏或其他应用。例如，用户的运动可用于控制视频游戏中的化身和/或对象，或者它们可与语音命令组合地用于相同目的。在某些实施例中，系统可同时跟踪多个用户，并允许多个用户的运动和声音控制应用。在其他实施例中，用户的运动可被识别为指向所显示的项目的列表中的特定项目的手势，且用户的语音可被识别为对被指向的特定项目采取动作的语音命令。在另一实施例中，姿势可以只不过是手的定位，从而在监视器上建立光标位置。随后，诸如语音命令等声音输入与光标位置组合地用于提供应用内的控制。例如，当光标位于显示器上的对象(诸如某一电影)上时，“播放它”的语音命令将使该电影被播放。

图6是描述用于基于语音命令与用户进行交互的过程300的一个实施例的简化流程图。最初，系统10被置于“被动听”模式，准备好接收语音命令。用户说出命令，并且在步骤304，系统确定该命令是否为识别出的完整短语语音命令，诸如“Xbox去往视频库”。若是，则系统立即在步骤306中执行该命令，并返回步骤302的被动听状态。

若所说的命令并未被识别为完整短语语音命令，则系统在步骤308确定所说的命令是否为部分短语语音命令。若是，则系统在步骤310以“主动听”模式继续听进一步的语音命令。当在步骤314说出并识别出结束短语时，系统前进到步骤306中执行该命令。若没有说结束短语，则系统在步骤316检查该部分短语是否为有效命令的一部分。若是，则系统返回步骤310的主动听模式。若所说的命令并未被识别为部分短语语音命令，则在步骤318的短暂超时之后，系统返回步骤302的被动听模式。

若用户不熟悉该系统及其命令，则该用户可能难以说出合适的命令。因此，有利地，系统还在显示监视器15上以用户界面(“UI”)的形式向用户提供帮助，其中在识别出部分命令并进入主动听模式之后在步骤312中显示该UI。该UI显示可供与在步骤308中接收的识别出的部分命令一起使用的附加命令的集合。因此，用户可根据个人知识说出命令，或等待UI列出可用选择。

图7A是描述用于使用姿势和语音命令与控制器12进行用户交互的过程400的实施例的流程图。在步骤410，由系统10在显示监视器15上显示对象，诸如游戏、电影或其他多媒体内容。在步骤412，捕捉设备20捕捉用户移动，以及在步骤414，系统将该移动识别为所定义的命令姿势，例如手势。识别出该姿势之后，在步骤416，系统选择具有与该姿势相对应的语音命令的有限集合的语音库(诸如图2中所示的语音库70、72……76)。对应于识别出的姿势的语音命令随后在步骤418被加载到语音识别器引擎56中。在步骤419，在监视器15上显示上下文帮助菜单，其显示可供与识别出的姿势一起使用的语音命令。

在步骤420，捕捉设备20中的话筒30捕捉用户所说的语音输入。使用已加载到语音识别器引擎56中的语音库，系统在步骤422中将该语音输入识别为语音命令。在步骤424，系统执行与识别出的语音命令相关联的动作。

进一步的处理步骤可如图7B中所示地执行。例如，在步骤430(其在步骤424之后执行)，系统确定是否存在与步骤422中识别出的语音命令相对应的另一级语音命令。若无，则过程返回步骤7A上的步骤410。若存在另一级语音命令，则在步骤432选择用于下一级语音命令的语音库，且在步骤434将这些语音命令加载到语音识别器引擎56中。在步骤435，显示上下文帮助菜单，其列出可与识别出的语音命令一起使用的可用语音命令。在步骤436，捕捉来自用户的语音输入。在步骤438处理和识别该语音输入，并在步骤440执行与识别出的语音输入相关联的动作。在步骤440之后，该过程返回步骤430以确定是否存在另一层次级别的语音命令。

图7C是描述用于接收运动数据并识别姿势的过程的流程图。图7C中描绘的过程是图7A的步骤412和414的一种示例实现。在步骤750感测/接收深度图像并在步骤452将其发送给控制器12。在步骤454，RGB相机28感测视觉图像并在步骤456将该图像发送给控制器12。在步骤458，来自相机26和28的图像被用于更新运动跟踪算法。接下来，在步骤460，将经更新的运动跟踪信息以及深度图像和视觉图像提供给姿势识别器引擎54。在步骤462，姿势识别器引擎54处理该数据，以及在步骤464，调用合适的过滤器。

图7D是描述用于标识姿势的过程的流程图。图7D中描绘的过程是图7B的步骤462和464的一种示例实现。在步骤470，姿势识别器引擎54从跟踪模块50接收骨架跟踪数据。在步骤472，姿势识别器引擎54从跟踪模块50接收先前骨架跟踪数据。在步骤474，使用该骨架跟踪数据和合适的过滤器，引擎54尝试识别该姿势。若在步骤476识别出该姿势，则在步骤478，该姿势将被回报给应用。若该姿势未被识别出，则在步骤480，其不被报告给该应用。

图7E是描述用于识别语音命令的过程的流程图。图7E中描绘的过程是图7A的步骤422的一种示例实现。来自图7A的步骤420重现在图7E上，其中控制器12接收从话筒30捕捉的语音输入并发起对所捕捉的语音输入的处理。在步骤484，控制器12从该语音输入生成关键词文本串，随后在步骤486，该文本串被解析成片断。在步骤488，将每一片断与在图7A的步骤416中选择的所选语音库中的相关命令作比较。在步骤490，若该片断与语音库之间存在匹配，则该片断被添加到语音命令帧，且该过程在步骤494检查更多片断。若步骤490中不存在匹配，则该过程简单地跳到步骤494以检查更多片断。若存在更多片断，则在步骤496选择下一片断并在步骤488将其与语音库作比较。当在步骤494不存在更多片断时，该语音命令帧完成，且该语音命令已被标识。

图8A是描述用于基于身体位置命令和声音命令与用户进行交互的过程的替换实施例的流程图。在图8A中，实质上同时接收身体位置命令和声音命令，因此可将身体位置命令与声音命令相关或反之，以增强与作出关于经由身体位置和声音输入实际上接收到什么命令的确定相关联的可靠性和置信度。在步骤502，在显示监视器15上显示对象，诸如游戏、电影或其他多媒体内容。在步骤504，捕捉设备20捕捉用户的身体位置和/或移动，以及在步骤506，系统将该身体位置和/或移动识别为所定义的命令，例如手势。实质上在同时，在步骤508，捕捉设备20中的话筒30捕捉由用户生成的声音输入。使用语音识别器引擎56的语音库，系统在步骤510中将该声音输入识别为语音命令。在步骤512，系统通过使用该姿势确认该语音命令、和/或使用该语音命令确认该姿势来将该姿势与该语音命令相关。更多细节在下图8B-8D中提供。在另一示例中，姿势可被解释为拍手，且声音输入也可被解释为拍手，在这种情形中，作为这两个命令一致的结果，对该复合命令的解释被给予高置信度值。通过利用所捕捉的姿势和声音/语音命令两者的解释出的含义，系统对于该解释出的含义是准确的具有增加的置信度值。在步骤514，系统执行与识别出的姿势和语音命令的组合相关联的动作。

图8B是描述用于在图8A的步骤512中将姿势与语音命令相关的一种选项的流程图。例如，在图8A的步骤506中识别出姿势之后，可在步骤550确定与识别出的姿势相关联的语音命令的集合。接下来，在步骤552确定在图8A的步骤510中识别出的语音命令是否是与识别出的姿势相关联的语音命令之一。若是，则在步骤554，该语音命令已得到验证。若否，则在步骤556，尝试将接收到的语音输入和与识别出的姿势相关联的集合中的语音命令之一相匹配。若在步骤558中该尝试导致成功匹配，则该语音命令在步骤554中得到验证。若否，则该识别方案不成功且在步骤559错误地结束。

图8C是描述用于在图8A的步骤512中将姿势与语音命令相关的另一种选项的流程图。例如，在图8A的步骤510中识别出语音命令之后，可在步骤560确定与识别出的语音命令相关联的姿势的集合。接下来，步骤562确定在图8A的步骤506中识别出的姿势是否是与识别出的语音命令相关联的姿势之一。若是，则在步骤564，该姿势已得到验证。若否，则在步骤566，尝试将接收到的运动输入和与识别出的语音命令相关联的集合中的姿势之一相匹配。若在步骤568中该尝试导致成功匹配，则该姿势在步骤564中得到验证。若否，则该识别方案不成功且在步骤569错误地结束。

图8D是描述用于在图8A的步骤512中将姿势与语音命令相关的另一种选项的流程图。例如，在图8A的步骤506中识别出姿势并在步骤510中识别出语音命令(在此重复)之后，在步骤570中向该姿势赋权重，并在步骤571中向该语音命令赋权重。在一个实施例中，权重是基于数据的质量和/或关于对识别出的姿势或语音命令的确定的可靠性来赋予的。例如，若话筒感测的声音有很多噪声，则权重较低。若姿势识别器引擎确信识别出的姿势，则权重可以较高。

在步骤572，确定哪个识别出的命令具有较高权重。若姿势具有较高权重(因此具有较高置信度值)，则在步骤573，确定与识别出的姿势相关联的语音命令的集合。在步骤574，确定识别出的语音命令是否在与识别出的姿势相关联的语音命令的集合内。若是，则在步骤575，该语音命令得到验证。若否，则在步骤576，控制器12尝试将语音输入和与识别出的姿势相关联的语音命令的集合中的任何语音命令相匹配。若步骤577中存在匹配，则该语音命令在步骤575中得到验证，若不存在匹配，则该识别方案导致错误。

若在步骤572中语音命令比姿势具有更高权重，则在步骤577，确定与识别出的语音命令相关联的姿势的集合。在步骤578，确定识别出的姿势是否在与识别出的语音命令相关联的姿势的集合内。若是，则在步骤579，该姿势得到验证。若否，则在步骤580，控制器12尝试将运动输入和与识别出的语音命令相关联的姿势的集合中的任何姿势相匹配。若步骤581中存在匹配，则该姿势在步骤579中得到验证，若不存在匹配，则该识别方案导致错误。

图9A是描述用于基于姿势和语音命令与用户进行交互的过程的另一个实施例的流程图。图9A类似于图7A-7B的实施例，不同之处在于识别出的姿势导致系统改变状态，如以下进一步描述的。在步骤520，由系统10在显示监视器15上显示游戏或其他对象。在步骤522，捕捉设备20捕捉用户移动，以及在步骤524，系统将该移动识别为所定义的手势。在步骤526，系统基于识别出的姿势改变状态。例如，若用户选择电影，则系统将状态改变为电影回放状态。系统随后在步骤528更新显示器以显示其他对象或特征，诸如对电影回放状态的控制。系统随后在步骤530选择具有可用于该状态且因此对应于步骤416中的姿势的语音命令的合适且有限的集合的语音库(诸如图2中所示的语音库70、72……76)，并将这些语音命令加载到语音识别器引擎56中。在步骤532，捕捉设备20中的话筒30捕捉来自用户的语音输入。在步骤534，系统基于语音命令识别器56中的处理而将该语音输入识别为语音命令。在步骤536，系统执行与识别出的姿势和语音命令的组合相关联的动作，并更新显示器以反映当前状态。

在步骤538，系统确定是否存在与识别出的姿势/语音命令组合相对应的另一级语音命令。若否，则该过程返回步骤522，准备接收来自捕捉设备的进一步输入。若存在另一级语音命令，则在步骤540选择用于下一级语音命令的语音库并将其加载到语音识别器引擎56中。该过程返回到步骤532，准备捕捉进一步的语音输入。

姿势和语音命令的组合由此旨在提高与捕捉设备20所捕捉的数据相关联的可靠性和置信度。例如，单个姿势可与有限数量的命令一起使用以提供直观且易于学习和使用的有效控制工具。用户界面的一些示例将进一步示出与将姿势和语音命令组合相关联的优点。

图9B是描述用于基于姿势和语音命令与用户进行交互的过程的另一个实施例的流程图。图9B类似于图9A，不同之处在于识别出的语音命令导致系统改变状态，如以下进一步描述的。

在步骤620，由系统10在显示监视器15上显示对象。在步骤622，捕捉设备20中的话筒30捕捉声音，以及在步骤624，系统将该声音识别为所定义的语音命令。在步骤626，系统基于识别出的语音命令改变状态。例如，若用户说“播放”，则系统将状态改变为电影回放状态。系统随后在步骤628更新显示器以在显示器上示出光标。系统随后在步骤630选择具有可用于该状态的姿势的合适且有限的集合的姿势过滤器(诸如图2中所示的过滤器60、62……66)，并将这些姿势加载到姿势识别器引擎56中。在步骤632，捕捉设备20中的相机23捕捉来自用户的身体位置和姿势输入。在步骤634，系统基于姿势识别器引擎54中的处理而将该身体位置输入识别为预定义的姿势。在步骤636，系统执行与识别出的姿势和语音命令的组合相关联的动作，并更新显示器以反映当前状态。

图9C是描述使用特定的“扫动姿势”与控制器12进行用户交互的实施例的流程图，即其中用户在向外或圆周运动中扫动其手以指示对象的列表应在运动中被设置，例如滚动通过对象的列表中的所有选择。该实施例类似于图7A中描述的实施例，不同之处在于构想了特定姿势。

在步骤640，由系统10在显示监视器15上显示对象。在步骤642，捕捉设备20捕捉用户移动，即以上描述的“扫动姿势”，以及在步骤644，系统将该“扫动”移动识别为所定义的命令姿势。识别出该姿势之后，在步骤646，系统选择具有与在步骤644中识别出的扫动姿势相对应的语音命令的有限集合的语音库(诸如图2中所示的语音库70、72……76)。随后在步骤648将对应于识别出的姿势的语音命令加载到语音识别器引擎56中，以及在步骤650，在监视器15上显示上下文帮助菜单，其显示可供与识别出的姿势一起使用的语音命令。

在步骤652，捕捉设备20中的话筒30捕捉由用户生成的语音输入。使用已加载到语音识别器引擎56中的语音库，系统在步骤654中将该语音输入识别为语音命令。在步骤656，系统随后对该对象的列表或对特定的所选对象执行与识别出的语音命令相关联的动作。

图10A是作为图7A的流程图的过程的一部分实现的第一级用户界面600的图示。因此，根据步骤410在界面600中显示多个对象602，诸如电影或视频游戏，其中这些对象跨该界面的宽度分布。特写的对象602a在该界面前面中心，且通过指向该对象(步骤412)——这被识别为选择步骤(步骤414)——而被选择。用户界面可包括包含该特写的对象的高亮框604。根据步骤419，在界面600的左下角显示有帮助的用户语音命令菜单606，且显示系统的当前状态的可用语音命令。例如，该菜单可包括词“说”以向用户表明该菜单中邻近的词可用于语音命令，且在此状态中，可用语音命令为“去往”、“寻找”和“播放”。因此，用户可“去往”另一操作状态或模式，或者可能希望“寻找”或“播放”特定标题。在显示画面的顶部提供该系统的可用状态或模式的列表608，且用户可在这些选择中滚动以例如通过指向运动来选择一状态。在图10A中，所选状态为“聚光灯”，其可用于例如对新内容进行特写。可使用合适的姿势和/或语音命令来选择诸如“我的XBOX”或“游戏”或“视频”等其他选择。例如，指向列表608并环形地挥手的运动可在步骤414中被识别为在该列表中滚动的命令。

图10B是实现图7B的流程图的下一级用户界面600a的图示。例如，若你响应于图10A中的菜单606的显示而说“去往”，则当在图7A的步骤422中识别出该命令时，该动作如在步骤424中被执行，且若存在与当前状态相关联的另一级语音命令(图7B中的步骤430)，则在步骤432选择另一语音库，且如步骤434中将语音命令的下一集合加载到识别器引擎56中。在步骤435，显示画面被更新以在菜单606a中显示这些新选择。因此，响应于语音命令“去往”，帮助菜单被更新以列出下一组语音命令选择，即用户能去往的地方的列表。

图10C是下一级用户界面600c的图示。例如，若用户响应于图10B中的菜单606a的显示而说了“视频市场”(或替换地，响应于图10A中的菜单606的显示而说了整个命令“去往视频市场”)，则如步骤435中显示新界面600c，其具有经更新的下一级语音命令菜单607和新状态菜单609。该示例示出了可提供分层结构，从而可在该方案的每一级别加载语音命令的有限集合供识别。另外，在该实施例中，在该界面中以稍微不同的方式显示对象603，但可根据设计偏好以任何期望方式来显示对象。

在该实施例中，示出手指针605。在一些应用中，控制器12可呈现手指针605以跟踪用户的手的移动。响应于手指针605选择对象603c——如在图7A的步骤412和414中捕获和识别出的，如步骤419中在对象603c周围显示上下文菜单，用相对于该对新昂贵的语音命令列出所有可用动作选择。例如，在所示界面600c中，在所选对象603c周围安排了5个小按钮610、611、612、613、614，列出可应用于该对象的语音命令。在该状态中，用户可选择说“发送”、“购买”、“租”、“预览”或“评级”，且该动作将被应用于所选对象603c。

一般而言，本公开相关领域的技术人员将认识到，以上描述的具体特征或动作是说明性的而非限制性的。更确切而言，上述具体特征和动作是作为实现权利要求的示例形式公开的。因此，本发明的范围由所附权利要求定义。

Claims

1.一种用于使用声音命令的集合来控制计算系统的方法，包括：

在显示监视器上显示一个或多个对象(410)；

从传感器接收身体位置数据(412)；

基于接收的身体位置数据识别与所述一个或多个对象有关的姿势(414)；

基于识别出的姿势选取声音命令的集合的子集(416)，所述声音命令的集合包括多个子集，每个子集与一个或多个姿势以及相应子集的声音命令识别数据相关联；

加载所选取的声音命令的子集的声音命令识别数据(418)；

从话筒接收声音输入(420)；

使用所加载的声音命令识别数据从所述声音输入识别声音命令(422)；

基于经加权的所述识别出的姿势以及经加权的识别出的声音命令而将所述识别出的姿势与所述识别出的声音命令相关；以及

响应于识别出的声音命令执行动作(424)，

其中将所述识别出的姿势与所述识别出的声音命令相关包括：

如果所述识别出的姿势的权重高于所述识别出的声音命令的权重，则通过确定所述识别出的声音命令是否在与所述识别出的姿势相关联的声音命令的集合内来验证所述识别出的声音命令；

如果所述识别出的声音命令的权重高于所述识别出的姿势的权重，则通过确定所述识别出的姿势是否在与所述识别出的声音命令相关联的姿势的集合内来验证所述识别出的姿势。

2.如权利要求1所述的方法，其特征在于，还包括：

显示所选取的声音命令的子集。

3.如权利要求2所述的方法，其特征在于，所述识别出的姿势选择所显示的对象，且其中靠近所选择的所显示对象来显示所选取的声音命令的子集。

4.如权利要求1所述的方法，其特征在于，还包括：

在响应于识别出的声音命令执行所述动作之后，加载所选取的声音命令的子集的相关子集的附加声音命令识别数据；

接收进一步的声音命令；

使用所加载的附加声音命令识别数据来识别所述进一步的声音命令；以及

响应于识别出的进一步的声音命令执行动作。

5.如权利要求1所述的方法，其特征在于，还包括：

基于识别出的姿势改变所述计算系统的状态；以及

提供与所述计算系统的改变后的状态有关的声音命令的分层子集。

6.如权利要求5所述的方法，其特征在于，每个识别出的姿势对应于所述计算系统的一不同状态，且其中所述计算系统的每个状态的声音命令识别数据定义声音命令的一分层子集，且每个声音命令的每个分层子集仅在所述识别出的姿势要求时才被加载。

7.如权利要求1所述的方法，其特征在于，所述姿势为所述声音命令提供上下文或者所述声音命令为所述姿势提供上下文。

8.如权利要求1所述的方法，其特征在于，从所述声音输入识别声音命令的步骤包括：

向所述识别声音命令的步骤赋予加权的置信度值；以及

在识别出的姿势与所述声音命令一致时增大所述加权的置信度值。

9.如权利要求1所述的方法，其特征在于，所述姿势增强所述声音命令被正确识别的置信度，且所述声音命令增强所述姿势被正确识别的置信度。

10.一种用于控制多媒体系统的接口系统，包括：

监视器(15)，用于显示多媒体内容；

传感器(23)，用于捕捉用户姿势；

话筒(30)，用于捕捉用户声音；以及

计算机(12)，所述计算机连接到所述传感器(23)、所述话筒(30)和所述监视器(15)，所述计算机驱动所述监视器显示一组对象(602)，所述计算机从所述传感器接收表示姿势的图像数据，所述计算机将所述姿势识别为从该组对象(602)中选择第一对象(602a)，所述计算机更新所述监视器(15)以显示第一上下文菜单(606)，所述第一上下文菜单显示能针对所述第一对象(602a)使用的声音命令的子集，所述计算机从所述话筒(30)接收表示声音命令的声音数据，所述计算机基于所述声音数据来将声音命令识别为来自所述声音命令的子集，所述声音命令指示关于所述第一对象(602a)的期望动作，所述计算机执行所述期望动作，所述计算机基于经加权的识别出的姿势以及经加权的识别出的声音命令而将所述识别出的姿势与所述识别出的声音命令相关，

其中所述计算机将所述识别出的姿势与所述识别出的声音命令相关包括：

11.如权利要求10所述的系统，其特征在于：

所述声音命令的子集被组织成一个或多个分层级别，其中每一个分层级别仅在处理姿势需要时才被加载到所述计算机中。

12.如权利要求11所述的系统，其特征在于：

仅在已识别出来自前一个分层级别的声音命令且采取与所述声音命令相关联的期望动作之后才加载和显示后续分层级别的声音命令。

13.如权利要求10所述的系统，其特征在于：

所述姿势被所述计算机用于促进对所述声音命令的识别，而所述声音命令被所述计算机用于促进对所述姿势的识别。

14.如权利要求10所述的系统，其特征在于：

所述计算机在所述监视器上显示渐进用户界面，其中所述用户界面在所述计算机执行所述期望动作之后被更新以包括声音命令的相关子集。