CN102541438A

CN102541438A - 集成话音命令模态的用户界面

Info

Publication number: CN102541438A
Application number: CN2011103584379A
Authority: CN
Inventors: V·拉尔科; A·T·沈; M·H-Y·基姆
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-11-01
Filing date: 2011-10-31
Publication date: 2012-07-04
Also published as: US20120110456A1

Abstract

本发明涉及集成话音命令模态的用户界面。公开了用于提供包括语音揭示模式的NUI系统的系统和方法，其中显示器上具有相关联的话音命令的可视对象被突出显示。由于在对象与它作为话音命令的可用性之间存在直接关联，这允许用户快速且方便地标识可用的话音命令，并且还提升了用户学习话音命令的能力。

Description

集成话音命令模态的用户界面

技术领域

本发明涉及用户界面，尤其涉及自然用户界面系统和方法。

背景技术

在过去，诸如计算机游戏和多媒体应用等计算应用使用控制器、遥控器、键盘、鼠标等来允许用户操纵游戏人物或应用的其他方面。近来，计算机游戏和多媒体应用已开始使用相机和软件姿势识别引擎来提供自然用户界面(“NUI”)。使用NUI，用户姿势和语音(speech)检测、解释并将被用于控制游戏人物或应用的其他方面。

NUI系统允许用户经由口头命令来与系统进行交互。当前，向用户显示提供可用命令列表的菜单或新页面。然而，这样的菜单遮挡了用户正试图操作的原始内容。如果命令列表是长的，则它可能遮挡整个屏幕或将用户定向到不同页面，从而造成将命令从其上下文中取消关联。这有损于对NUI系统的用户体验。

发明内容

概略而言，本技术涉及多模自然用户界面系统。在第一模态中，与自然用户界面相关联的屏幕显示图形图标，用户可使用姿势和话音(voice)命令用图形图标进行交互。在第二个语音揭示模态中，屏幕突出显示具有相关联的话音命令的所有图形对象。突出显示的图形对象可以是文本，使得当用户说出突出显示的文本时，与口头命令相关联的动作被执行。突出显示的图形对象可另选地是除文本以外的对象。用户可以用口头命令、对屏幕上图标的选择、或通过执行NUI系统可识别的某一物理姿势来进入或退出语音揭示模态。

在一个示例中，本发明涉及一种配置包括与显示器上所提供的一个或多个可视元素相关联的语音命令的自然用户界面的方法。该方法包括以下步骤：(a)显示具有相关联的语音命令的至少一个可视元素，所述语音命令结合该至少一个可视元素来执行自然用户界面中的某命令；以及(b)显示与该至少可视元素中的一个可视元素相关联的可视指示符，该可视指示符指示该可视元素具有相关联的语音命令，并且该可视指示符将该可视元素与不具有相关联的语音命令的可视元素区分开。

在又一示例中，本发明涉及一种计算机可读存储介质，该计算机可读存储介质用于对处理器进行编程以执行一种提供包括与显示器上所提供的一个或多个可视元素相关联的语音命令的多模自然用户界面的方法。该方法包括以下步骤：(a)在操作的正常模式期间，显示具有相关联的语音命令的至少一个可视元素，该语音命令结合该至少一个可视元素来在自然用户界面中执行某动作；(b)接收从操作的正常模式切换到语音揭示模式的指示；以及(c)在步骤(b)中接收到该指之后，显示与该至少可视元素中的一个可视元素相关联的可视指示符，该可视指示符指示该可视元素具有相关联的语音命令。

在又一示例中，本发明涉及一种具有图形用户界面和可用于与该图形用户界面进行交互的自然用户界面的计算机系统，以及一种提供该图形用户界面和该自然用户界面的方法，包括(a)在该图形用户界面上显示至少一个可视元素，该至少一个可视元素具有相关联的语音命令，该语音命令结合该至少一个可视元素来执行该自然用户界面中的某动作；(b)经由该自然用户界面接收进入语音揭示模式的指示；以及(c)在步骤(b)中接收到该指示之后，用突出显示来显示该可视元素，该突出显示指示该可视元素具有相关联的语音命令。

提供发明内容以便以简化形式介绍将在以下的具体实施方式中进一步描述的一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本发明的任一部分中提及的任何或所有缺点的实现。

附图说明

图1示出了目标识别、分析和跟踪系统的示例实施例。

图2示出了目标识别、分析和跟踪系统的进一步示例实施例。

图3示出了可以在目标识别、分析和跟踪系统中使用的捕捉设备的示例实施例。

图4是呈现用于揭示哪些命令可用作语音命令的常规系统的屏幕显示的图示。

图5A和5B是本系统的一实施例的操作流程图。

图6是根据本系统的一实施例的屏幕显示的图示，其中具有相关联的语音命令的可视元素被突出显示。

图7是根据本系统的一实施例的屏幕显示的图示，其中具有相关联的语音命令的文本和其他对象被突出显示。

图8是根据本系统的一实施例的屏幕显示的图示，其中文本对象被添加到图形对象，且具有相关联的语音命令文本对象被突出显示。

图9是根据本系统的一实施例的屏幕显示的图示，其中显示了具有相关联的语音命令的可视元素但没有突出显示。

图10A示出了可用于解释目标识别、分析和跟踪系统中的一个或多个姿势的计算设备的示例实施例。

图10B示出了可用于解释目标识别、分析和跟踪系统中的一个或多个姿势的计算设备的另一示例实施例。

具体实施方式

现在将参考附图1-10B描述本技术的各实施例，各实施例一般涉及包括语音揭示模式的NUI系统，其中显示器上具有相关联的话音命令的可视元素被突出显示。由于在对象与它作为话音命令的可用性之间存在直接关联，这允许用户快速且方便地标识可用的语音命令，并且还提升了用户学习话音命令的能力。

首先参考图1-3，用于实现本技术的硬件包括目标识别、分析，及跟踪系统10，该系统10可以被用来识别、分析，和/或跟踪诸如用户18之类的人目标。目标识别、分析和跟踪系统10的实施例包括用于执行游戏或其他应用程序的计算环境12。计算环境12可以包括硬件组件和/或软件组件，使得计算系统12可以用于执行诸如游戏应用程序和非游戏应用程序之类的应用程序。在一个实施例中，计算环境12可以包括诸如标准化处理器、专用处理器、微处理器等之类的处理器，该处理器可以执行存储在处理器可读存储设备上的用于执行在此所述的过程的指令。

系统10还包括捕捉设备20，该捕捉设备20用于捕捉与由捕捉设备所感测的一个或多个用户和/或对象有关的图像和音频数据。在实施例中，捕获设备20可以用于捕获与一个或多个用户的移动、姿势和话音相关的信息，所述信息被计算环境接收并且被用于呈现游戏或其他应用程序的方面、与所述方面交互和/或控制所述方面。下面更详细地解释计算环境12和捕捉设备20的示例。

目标识别、分析和跟踪系统10的实施例可以连接到具有显示器14的音频/视觉设备16。设备16例如可以是可以向用户提供游戏或应用程序视觉和/或音频的电视机、监视器、高清电视机(HDTV)等。例如，计算环境12可以包括诸如图形卡之类的视频适配器和/或诸如声卡之类的音频适配器，这些适配器可提供与游戏或其他应用程序相关联的音频/视觉信号。音频/视觉设备16可以从计算环境12接收音频/视觉信号，并且然后可以向用户18输出与该音频/视觉信号相关联的游戏或应用程序视觉和/或音频。根据一个实施例，音频/视觉设备16可以通过例如S-视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆、分量视频电缆等等连接到计算环境12。

在各实施例中，计算环境12、A/V设备16和捕捉设备20可以协作以在显示器14上呈现化身或屏幕上的人物19。在各实施例中，化身19模仿用户18在现实世界空间中的移动，以使得用户18可以执行控制化身19在显示器14上的移动和动作的移动和姿势。

如图1和2所示，在一示例实施例中，在计算环境12上执行的应用可以是用户18可能正在玩的足球游戏。例如，计算环境12可以使用视听显示器14来提供以由该用户控制的足球运动员形式的化身19的视觉表示。图1的实施例是根据本发明的技术的可以在计算环境12上运行的许多不同应用程序中的一个。运行在计算环境12上的应用可以是各种其他游戏应用和非游戏应用。此外，系统10还可以用于将用户18运动和/或口头命令解释成处于游戏或运行在计算环境12上的特定应用的领域之外的操作系统和/或应用控制。作为图2中示出的一个示例，用户可以滚动通过并且控制与呈现在显示器14上的各种菜单选项的交互。事实上，操作系统和/或应用程序的任何可控方面都可以由用户18的移动来控制。

系统10及其组件的适合的示例在以下共同待审的专利申请中找到，所有这些专利申请都特此通过引用并入本申请：于2009年5月29日提交的名称为“Environment And/Or Target Segmentation(环境和/或目标分割)”的美国专利申请序列号No.12/475,094；于2009年7月29日提交的名称为“Auto Generating a Visual Representation”(自动生成视觉表示)”的美国专利申请序列号No.12/511,850；于2009年5月29日提交的名称为“Gesture Tool(姿势工具)”的美国专利申请序列号No.12/474,655；于2009年10月21日提交的名称为“Pose Tracking Pipeline(姿态跟踪流水线)”的美国专利申请序列号No.12/603,437；于2009年5月29日提交的名称为“Device for Identifying and Tracking Multiple Humans Over Time(用于随时间标识和跟踪多个人类的设备)”的美国专利申请序列号No.12/475,308；于2009年10月7日提交的名称为“Human Tracking System(人类跟踪系统)”的美国专利申请序列号No.12/575,388；于2009年4月13日提交的名称为“Gesture Recognizer System Architecture(姿势识别器系统架构)”的美国专利申请序列号No.12/422,661；于2009年2月23日提交的名称为“Standard Gestures(标准姿势)”的美国专利申请序列号No.12/391,150；以及于2009年5月29日提交的名称为“Gesture Tool(姿势工具)”的美国专利申请序列号No.12/474,655。

图3示出了可以在目标识别、分析和跟踪系统10中使用的捕捉设备20的示例实施例。在示例实施例中，捕捉设备20可以被配置为经由任何合适的技术来捕捉具有可以包括深度值的深度图像的视频，这些技术包括例如飞行时间、结构化光、立体图像等。根据一个实施例，捕捉设备20可将所计算的深度信息组织为“Z层”，或与从深度相机沿其视线延伸的Z轴垂直的层。

如图3所示，捕捉设备20可以包括图像相机组件22。根据一个示例实施例，图像相机组件22可以是可捕捉场景的深度图像的深度相机。深度图像可包括所捕捉的场景的二维(2-D)像素区域，其中2-D像素区域中的每一像素可表示深度值，诸如例如以厘米、毫米等计的、所捕捉的场景中的对象距相机的长度或距离。

如图3所示，根据一示例实施例，图像相机组件22可包括可用于捕捉场景的深度图像的IR光组件24、三维深度相机26、和RGB相机28。例如，在飞行时间分析中，捕捉设备20的IR光组件24可以将红外光发射到场景上，然后，可以使用传感器(未示出)，用例如3-D相机26和/或RGB相机28，来检测从场景中的一个或多个目标和物体的表面反向散射的光。

在某些实施例中，可以使用脉冲红外光，使得可以测量出射光脉冲和相应的入射光脉冲之间的时间差并将其用于确定从捕捉设备20到场景中的目标或物体上的特定位置的物理距离。附加地，在其他示例性实施例中，可将出射光波的相位与入射光波的相位进行比较来确定相移。然后可以使用该相移来确定从捕获设备20到目标或物体上特定位置的物理距离。

根据另一示例实施例，可使用飞行时间分析，通过经由包括例如快门式光脉冲成像在内的各种技术来分析反射光束随时间的强度变化以间接地确定从捕捉设备20到目标或物体上的特定位置的物理距离。

在另一示例实施例中，捕捉设备20可使用结构化光来捕捉深度信息。在这样的分析中，图案化光(即被显示成诸如网格图案或条纹图案的已知图案的光)可以经由例如IR光组件24被投射到场景上。在落到场景中的一个或多个目标或物体的表面上时，作为响应，图案可变形。图案的这样的变形可以被例如3-D相机26和/或RGB相机28捕捉，然后可以被分析以确定从捕捉设备20到目标或物体上的特定位置的物理距离。

根据另一实施例，捕捉设备20可包括可以从不同的角度观察场景的两个或更多个在物理上分开的照相机，以获取可以被解析以生成深度信息的视觉立体数据。在另一示例实施例中，捕捉设备20可使用点云数据(point cloud data)和目标数字化技术来检测用户的特征。

捕捉设备20还可包括话筒30。话筒30可包括可接收声音并将其转换成电信号的换能器或传感器。根据一个实施例，话筒30可以被用来减少目标识别、分析及跟踪系统10中的捕捉设备20和计算环境12之间的反馈。另外，话筒30可用于接收也可由用户提供的音频信号，以控制可由计算环境12执行的诸如游戏应用、非游戏应用等应用。

在示例实施例中，捕捉设备20还可以包括可与图像相机组件22进行可操作的通信的处理器32。处理器32可包括可执行指令的标准处理器、专用处理器、微处理器等，这些指令可包括用于接收深度图像的指令、用于确定合适的目标是否可被包括在深度图像中的指令、用于将合适的目标转换成该目标的骨架表示或模型的指令、或任何其他合适的指令。

捕捉设备20还可以包括存储器组件34，该存储器组件34可以存储可以由处理器32执行的指令、由3-D相机或RGB相机捕捉到的图像或图像的帧、或任何其他合适的信息、图像等等。根据一个示例实施例，存储器组件34可包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪存、硬盘或任何其他合适的存储组件。如图3所示，在一个实施例中，存储器组件34可以是与图像照相机组件22和处理器32通信的单独的组件。根据另一个实施例，存储器组件34可以集成到处理器32和/或图像相机组件22中。

如图3所示，捕捉设备20可以经由通信链路36与计算环境12通信。通信链路36可以是包括例如USB连接、火线连接、以太网电缆连接等的有线连接和/或诸如无线802.11b、802.11g、802.11a或802.11n连接等的无线连接。根据一个实施例，计算环境12可以经由通信链路36向捕捉设备20提供时钟，可以使用该时钟来确定何时捕捉例如场景。

另外，捕捉设备20可以通过通信链路36向计算环境12提供深度信息和由例如3-D相机26和/或RGB相机28捕捉到的图像，以及可以由捕捉设备20生成的骨架模型。存在用于判断由捕捉设备20检测到的目标或对象是否与人类目标相对应的各种已知技术。骨架映射技术因而可用于确定该用户的骨架上的各个点，手、腕、肘、膝、鼻、踝、肩的关节，以及骨盆与脊椎相交之处。其他技术包括将图像转换为人的人体模型表示以及将图像转换为人的网格模型表示。

然后，可以将骨架模型提供给计算环境12，使得计算环境可以执行各种动作。计算环境还可基于例如从骨架模型中识别出的用户的姿势来确定在计算机环境上执行的应用中要执行哪些控制命令。例如，如图3所示，计算环境12可包括用于确定用户何时执行了预定义姿势的姿势识别引擎190。在上面并入的申请中描述了姿势识别引擎190的各种实施例。计算环境12还可包括用于识别语音命令的语音识别引擎196，以及用于突出显示具有相关联的语音命令的可视对象的语音揭示模式引擎198。在另外的实施例中，姿势识别引擎190、语音识别引擎194和/或语音揭示引擎198的部分或全部可以驻留在捕获设备20上并且由处理器33来执行。

如背景技术部分中所讨论的常规系统具有语音揭示模式，但这些系统通过向用户显示菜单或附加页面来工作。常规系统的示例在图4中示出，该图示出了具有可视元素154的屏幕显示150的图示。图4还示出菜单156，该菜单示出了口头命令对于显示在屏幕显示150上的可视元素154是可用的。呈现菜单156覆盖至少一部分的屏幕显示150，并且使用户不能看到菜单156后面的内容。此外，在分开的菜单上列出可用的语音命令取消了具有语音命令的元素154与语音命令的关联。研究表明这一取消关联使得更难记住语音命令。

由此，根据本系统，语音命令的可用性被集成到主屏幕显示中。现在参考图5A和6B的流程图以及图6至8的屏幕图示来解释本系统的各样本实施例。在一个实施例中，本技术提供多模系统。即，用户自由选择该系统是否显示可用的语音命令。在操作的“正常模式”期间，用户可能希望将可用的语音命令显示在显示器14上。由此，在正常模式中，显示器14不提供对可用的语音命令的指示。用户使用物理姿势作为控制来与系统进行交互。即使没有示出特定语音命令的可用性，用户也可在操作的正常模式中使用语音命令。

另选地，有时可能用户希望查看哪些语音命令是可用的。用户会由此进入如下所述的“语音揭示模式”。在其他实施例中，构想了系统在单个模式中操作，其中特定可用的语音命令总是在显示器14中被指示。

现在参考图5A的流程图，在多模系统中，用户可通过执行某一启动动作来在步骤200进入语音揭示模式。这一动作可以使讲出某一口头命令，例如预定义的单词，计算设备已知该口头命令是用于触发语音揭示模式。当口头命令被讲出且被话音识别引擎194解释时，语音揭示模式引擎198可运行。可以理解，启动动作可以是口头命令以外的动作。例如，启动动作可以是姿势识别引擎190已知的用于触发语音揭示模式的物理姿势。在其他实施例中，可在显示器14上提供图标，对该图标的选择启动语音揭示模式。

在步骤200中启动语音揭示模式之后，在步骤204中语音揭示模式引擎将在显示器上提供具有相关联的语音命令的可视元素上的可视指示符。该情况的一个示例在图6中示出，该图示出了图形用户界面或屏幕显示160，它具有包括图形对象164a和文本对象164b的可视元素164。在一个实施例中，语音揭示模式引擎198在具有相关联的语音命令的所有文本对象164b周围提供可视指示符168。在各实施例中，文本对象164b内的文本是用户需要讲出的以使得与给定语音命令相关联的动作被执行。这一动作可涉及启动相关联的应用，尽管在其他实施例中语音命令可具有其他相关联的动作。

将可视指示符168与特定文本对象164b相关联使得用户需要讲什么来执行给定语音命令变得清楚。然而，在其他实施例中，可视指示符168可与其他可视元素相关联。图6示出彼此连续的若干图形对象164a和文本对象164b。在这样的实施例中，可视指示符可以在图形和文本对象两者周围(围绕两个对象的外围)。

此外，可视指示符168可单独在图形对象周围。例如，如图7中所示，屏幕显示160可包括图形后退和前进按钮(屏幕显示的右上方)。这些图形对象可包括围绕其外围的可视指示符168。

图6和7示出图形对象和/或图形文本可如何包括可视指示符168以指示该对象具有相关联的语音命令的一个示例。然而，可以理解，显示器14上所显示的任何图形对象和/或图形文本可包括可视指示符168以指示存在与该对象相关联的语音命令。

在各实施例中，可视指示符168在可视元素164(图形对象164a和/或文本对象164b)的边界周围可突出显示。然而，可以理解，在其他实施例中可视指示符168可以是各种其他指示符。例如，可附加地或另选地突出显示可视元素的内部。作为又一示例，可为可视元素的边界和/或内部提供颜色或阴影，或可给予不同的视觉效果，诸如在显示器上闪烁。在各实施例中，根据这些示例中的任一个的可视指示符168可仅在用户“悬停”在可视元素164上方时可见。在例如非多模(即一直在语音揭示模式)的实施例中，这可能是有用的。如上所述，用户可通过用他或她的身体移动来定向光标以悬停在对象上方。可视指示符可以是将具有相关联的语音命令与哪些不具有相关联的语音命令的可视元素区分开的各种其他效果。

再次参考图5A的流程图，在步骤206中，语音揭示模式引擎198还可显示系统处于语音揭示模式中的横幅或其他指示。例如，如图6和7上所示，可视显示160包括告诉用户突出显示的可视元素中的任一个都具有相关联的语音命令的横幅170。在本系统的其他实施例中，可省略步骤206和横幅170。

在某些实施例中，所显示的图形对象164a可不具有相关联的文本对象164b，但仍然具有相关联的语音命令。例如，图6和7上的后退和前进按钮不具有相关联的文本对象164b，但仍可作为口头命令被讲出。在步骤208中，对于此类图形对象，语音揭示模式引擎198添加文本对象164b，并在图形对象164a和/或文本对象164周围提供可视指示符。这样的示例在图8中示出。可以理解，各种各样的其他图形对象可具有相关联的语音命令，但在正常模式中不具有相关联的文本对象。当用户进入语音揭示模式时，文本对象可被添加到这样的图形对象，并且随后可将可视指示符168提供给该文本和/或图形对象。在其他实施例中，将文本对象添加到图形对象的步骤208可被省略。

在步骤212，该系统寻找语音命令。如果都没被接收到(或都没被理解)，则系统查看语音揭示模式是否要终止，如以下参考图5B的步骤230来解释的。然而，如果识别出的语音命令在步骤212中被接收，则系统可分别在步骤216和222中隐式地或显式地提示用户确认语音命令。某些语音命令可提示用户以便隐式确认，而其他会提示用户以便显式确认。给定语音命令是要被隐式地确认还是显式地确认可在系统内基于语音命令来预定义。某些语音命令可既不要求隐式确认也不要求显式确认。对于这样的语音命令，系统可从步骤216/222前进至执行与语音命令相关联的动作的步骤228。

在其他实施例中，步骤216至确认语音命令的224可一起被省略，在该情况下，所有接收到的语音命令都被自动执行而无需确认。其他实施例可以仅用隐式确认(无显式确认)或仅用显式确认(无隐式确认)来操作。

在给定语音命令在步骤216中要被隐式地确认的情况下，该语音命令在步骤212中被识别出之后，系统可提示用户以便隐式确认。隐式确认是在除非用户干预否则与语音命令相关联的动作将被自动执行的情况下的确认。例如，系统将显示(例如在横幅170中)：“正启动[应用x]”，用户具有用于取消的选项(例如通过说出单词“取消”或执行某一其他取消动作)。在步骤218中系统可等待预定时间段以便取消，并且如果没有接收到这样的取消，则系统可前进至执行与语音命令相关联的动作的步骤228。另一方面，在用户指示期望在预定时间段内取消语音命令的情况下，系统跳过步骤228，并且查看语音揭示模式是否要终止，如以下参考图5B的步骤230来解释的。

在给定语音命令在步骤222中要被显式地确认的情况下，该语音命令在步骤212中被识别出之后，系统可提示用户以便命令的显式确认。隐式确认是在需要某一用户动作或将不执行语音命令的情况下的确认。例如，系统将显示(例如在横幅170中)：“你希望启动[应用x]吗？”，并且提示用户输入是或否的指示(例如，通过说出单词“是”或“否”或执行某一其他肯定或否定指示)。在步骤224，系统将为关于是否执行语音命令的是或否指示等待一预定时间段。如果在预定时间段没有接收到指示，则系统可跳过步骤228，并查看语音揭示模式是否要终止，如以下参考图5B的步骤230来解释的。另一方面，如果在步骤224用户确认语音命令，则在步骤228系统执行与语音命令相关联的动作。

在步骤228执行该动作之后，或如果在步骤218中被取消或在步骤224中没有被确认则跳过该动作之后，该系统在步骤230(图5B)接着检查是否接收到终止命令。在步骤210，语音揭示模式引擎198可查找结束语音揭示模式并返回到正常模式的终止命令。终止命令可以是口头的、物理姿势或显示屏160上的图标。如果在步骤230中检测到这样的终止命令，则任何可视指示符168、横幅170(和可能已添加的文本框)可被移除，以便显示屏160再次运行在正常模式中。图9示出运行在正常模式中的屏幕显示的示例。

如果没有接收到确认终止命令，则在某一预定时间段已经过而没有用户采取任何动作的情况下，系统仍可终止语音揭示模式。在步骤234，语音揭示模式引擎198可检查预定时间段是否已过去。如果没有过去，则系统可返回到在图5A中的步骤212以查找领域语音命令。在另一方面，如果在步骤234预定时间段已超时，则可移除可视指示符168、横幅170(和可能已添加的文本框)，使得显示屏160再次运行在正常模式中，如图9中所示。

将可视指示符直接集成在具有语音命令的可视元素上的系统提供了若干优点。首先，诸如系统不遮挡显示器上的其他图形元素。此外，通过将指示符直接集成在可视元素上，不存在取消语音命令与可视元素的关联(如在使用菜单和附加页面来展示可用语音命令的常规系统中发生的)。由此，用户更快速且方便地学习哪些可视元素具有相关联的语音命令。

图6-8示出其中口头命令可与启动应用程序相关联的若干示例。用于系统10的登录和登出的图形对象也可具有语音命令，并且接收可视指示符168，例如，如图6-8中的屏幕显示160的左下角所示。此外，可以理解，本系统可用在各应用内以指示具有语音命令的可视元素。例如，在游戏应用中，作为游戏的一部分的所显示的对象可具有相关联的语音命令。各示例包括球棒、球、枪、卡片、身体部分以及各种各样的其他对象。在这样的情形中，用户可进入语音揭示模式，随之可如上所述地将可视指示符添加到任何这样的对象。

图10A示出诸如例如计算系统12之类的计算环境的一示例实施例，该计算环境可用于运行姿势识别引擎190、语音识别引擎194和语音揭示模式引擎198。计算设备12可以是诸如游戏控制台的多媒体控制台300。如图10A所示，多媒体控制台300具有中央处理单元(CPU)301，所述CPU具有一级高速缓存302、二级高速缓存304，以及闪存ROM 306。一级高速缓存302和二级高速缓存304临时存储数据并因此减少存储器访问周期数，由此改进处理速度和吞吐量。CPU 301可以设置成具有一个以上的内核，以及由此的附加的一级和二级高速缓存302和304。闪存ROM 306可存储在多媒体控制台300通电时引导过程的初始阶段期间加载的可执行代码。

图形处理单元(GPU)308和视频编码器/视频编解码器(编码器/解码器)314形成用于高速、高分辨率图形处理的视频处理流水线。数据经由总线从GPU308传送到视频编码器/视频编解码器314。视频处理流水线向A/V(音频/视频)端口340输出数据，以便传输到电视机或其他显示器。存储器控制器310连接到GPU 308，以便于处理器对各种类型的存储器312、诸如但不限于RAM的访问。

多媒体控制台300包括优选地在模块318上实现的I/O控制器320、系统管理控制器322、音频处理单元323、网络接口控制器324、第一USB主控制器326、第二USB主控制器328以及前面板I/O子部件330。USB控制器326和328用作外围控制器342(1)-342(2)、无线适配器348、和外置存储器设备346(例如闪存、外置CD/DVD ROM驱动器、可移动介质等)的主机。网络接口324和/或无线适配器348提供对网络(例如，因特网、家庭网络等)的访问并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等的各种不同的有线或无线适配器组件中任何一种。

提供系统存储器343来存储在引导过程期间加载的应用数据。提供媒体驱动器344，该媒体驱动器可以包括DVD/CD驱动器、硬盘驱动器，或其他可移动媒体驱动器等。媒体驱动器344可以内置或外置于多媒体控制台300。应用数据可经由媒体驱动器344访问，以由多媒体控制台300执行、回放等。介质驱动器344经由诸如串行ATA总线或其他高速连接(例如IEEE 1394)等总线连接到I/O控制器320。

系统管理控制器322提供涉及确保多媒体控制台300的可用性的各种服务功能。音频处理单元323和音频编解码器332形成具有高保真度和立体声处理的对应的音频处理流水线。音频数据经由通信链路在音频处理单元323与音频编解码器332之间传输。音频处理流水线将数据输出到A/V端口340以供外置音频播放器或具有音频能力的设备再现。

前面板I/O子部件330支持暴露在多媒体控制台300的外表面上的电源按钮350和弹出按钮352以及任何LED(发光二极管)或其他指示器的功能。系统供电模块336向多媒体控制台300的组件供电。风扇338冷却多媒体控制台300内的电路。

CPU 301、GPU 308、存储器控制器310、和多媒体控制台300内的各个其他组件经由一条或多条总线互连，包括串行和并行总线、存储器总线、外围总线、和使用各种总线架构中任一种的处理器或局部总线。作为示例，这些架构可以包括外围部件互连(PCI)总线、PCI-Express总线等。

当多媒体控制台300通电时，应用数据可从系统存储器343加载到存储器312和/或高速缓存302、304中并在CPU 301上执行。应用可呈现在导航到多媒体控制台300上可用的不同媒体类型时提供一致的用户体验的图形用户界面。在操作中，媒体驱动器344中包含的应用和/或其他媒体可从媒体驱动器344启动或播放，以向多媒体控制台300提供附加功能。

多媒体控制台300可通过将该系统简单地连接到电视机或其他显示器而作为独立系统来操作。在该独立模式中，多媒体控制台300允许一个或多个用户与该系统交互、看电影、或听音乐。然而，随着通过网络接口324或无线适配器348可用的宽带连接的集成，多媒体控制台300还可作为较大网络社区中的参与者来操作。

当多媒体控制台300通电时，可以保留设定量的硬件资源以供由多媒体控制台操作系统作系统使用。这些资源可以包括存储器保留量(例如，16MB)、CPU和GPU周期保留量(例如，5％)、网络带宽保留量(例如，8kbs)等。因为这些资源是在系统引导时保留的，所以所保留的资源从应用的角度而言是不存在的。

具体而言，存储器保留优选地足够大，以包含启动内核、并发系统应用和驱动程序。CPU保留优选地为恒定，使得若所保留的CPU用量不被系统应用使用，则空闲线程将消耗任何未使用的周期。

对于GPU保留，通过使用GPU中断来调度代码来将弹出窗口呈现为覆盖图以显示由系统应用程序生成的轻量消息(例如，弹出窗口)。覆盖图所需的存储器量取决于覆盖区域大小，并且覆盖图优选地与屏幕分辨率成比例缩放。在完整的用户界面被并发系统应用使用的情况下，优选地使用独立于应用分辨率的分辨率。定标器可用于设置该分辨率，从而无需改变频率并引起TV重新同步。

在多媒体控制台300引导且系统资源被保留之后，就执行并发系统应用来提供系统功能。系统功能被封装在上述所保留的系统资源中执行的一组系统应用中。操作系统内核标识是系统应用线程而非游戏应用线程的线程。系统应用优选地被调度为在预定时间并以预定时间间隔在CPU 301上运行，以便为应用提供一致的系统资源视图。进行调度是为了把由在控制台上运行的游戏应用所引起的高速缓存中断最小化。

当并发系统应用需要音频时，则由于时间敏感性而将音频处理异步地调度给游戏应用。多媒体控制台应用管理器(如下所述)在系统应用活动时控制游戏应用的音频水平(例如，静音、衰减)。

输入设备(例如，控制器342(1)和342(2))由游戏应用和系统应用共享。输入设备不是所保留的资源，但却在系统应用和游戏应用之间切换以使其各自都将具有设备的焦点。应用管理器优选地控制输入流的切换，而无需知道游戏应用的知识，并且驱动程序维护关于焦点切换的状态信息。相机26、28和捕捉设备20可为控制台300定义额外的输入设备。

图10B示出了计算环境720的另一示例实施例，它可以是用来解释目标识别、分析和跟踪系统中的一个或多个位置和运动的图1A-2中示出的计算环境12。计算系统环境720只是合适的计算环境的一个示例，并且不旨在对所公开的主题的使用范围或功能提出任何限制。也不应该将计算环境720解释为对示例性操作环境720中示出的任一组件或其组合有任何依赖性或要求。在某些实施例中，各个所描绘的计算元素可包括被配置成实例化本公开的具体方面的电路。例如，本公开中使用的术语电路可包括被配置成通过固件或开关来执行功能的专用硬件组件。在其他示例实施例中，术语“电路”可包括通过体现可操作以执行功能的逻辑的软件指令配置的通用处理单元、存储器等等。在其中电路包括硬件和软件的组合的示例实施例中，实施者可以编写体现逻辑的源代码，且源代码可以被编译为可以由通用处理单元处理的机器可读代码。因为本领域技术人员可以明白现有技术已经进化到硬件、软件或硬件/软件组合之间几乎没有差别的地步，因而选择硬件或是软件来实现具体功能是留给实现者的设计选择。更具体地，本领域技术人员可以明白软件进程可被变换成等价的硬件结构，而硬件结构本身可被变换成等价的软件进程。因此，对于硬件实现还是软件实现的选择是设计选择并留给实现者。

在图10B中，计算环境420包括通常包括各种计算机可读介质的计算机441。计算机可读介质可以是能由计算机441访问的任何可用介质，而且包含易失性和非易失性介质、可移动和不可移动介质。系统存储器422包括诸如ROM 423和RAM 460等易失性和/或非易失性存储器形式的计算机存储介质。基本输入/输出系统424(BIOS)包含诸如在启动期间帮助在计算机441内的元件之间传输信息的基本例程，基本输入/输出系统424(BIOS)通常储存储在ROM 423中。RAM 460通常包含处理单元459可立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制，图10B示出了操作系统425、应用程序426、其他程序模块427，以及程序数据428。图10B还包括具有用于高速和高分辨率的图形处理和存储的相关联的视频存储器430的图形处理器单元(GPU)429。GPU 429可通过图形接口431连接到系统总线421。

计算机441也可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。只作为示例，图10B示出了读写不可移动非易失性磁性介质的硬盘驱动器438、读写可移动非易失性磁盘454的磁盘驱动器439、以及读写诸如CD ROM或其他光学介质之类的可移动的非易失性光盘453的光盘驱动器440。可在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。

硬盘驱动器438通常由诸如接口434等不可移动存储器接口连接至系统总线421，并且磁盘驱动器439和光盘驱动器440通常由诸如接口435等可移动存储器接口连接至系统总线421。

上面所讨论的并且在图10B中所示出的驱动器以及它们的相关联的计算机存储介质，为计算机441提供了计算机可读的指令、数据结构、程序模块及其他数据的存储。例如，在图10B中，硬盘驱动器438被示为存储了操作系统458、应用程序457，其他程序模块456，以及程序数据455。注意，这些组件可以与操作系统425、应用程序426、其他程序模块427和程序数据428相同，也可以与它们不同。在此操作系统458、应用程序457、其他程序模块456以及程序数据455被给予了不同的编号，以说明至少它们是不同的副本。用户可以通过输入设备，如键盘451和定点设备452(通常指鼠标、跟踪球或触摸垫)向计算机441输入命令和信息。其他输入设备(未示出)可包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些和其他输入设备通常通过耦合至系统总线的用户输入接口436连接至处理单元459，但也可以由其他接口和总线结构，例如并行端口、游戏端口或通用串行总线(USB)来连接。相机26、28和捕捉设备20可为控制台400定义额外的输入设备。监视器442或其他类型的显示设备也通过诸如视频接口432之类的接口连接至系统总线421。除监视器之外，计算机也可包括诸如扬声器444和打印机443之类的其他外围输出设备，它们可以通过输出外围接口433来连接。

计算机441可以使用到一个或多个远程计算机(如远程计算机446)的逻辑连接，以在联网环境中操作。远程计算机446可以是个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点，通常包括上文参考计算机441所描述的许多或全部元件，但是图10B中只示出了存储器存储设备447。图10B中所描绘的逻辑连接包括局域网(LAN)445和广域网(WAN)449，但是也可以包括其他网络。这些联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。

当用于LAN网络环境中时，计算机441通过网络接口或适配器437连接到LAN 445。当在WAN联网环境中使用时，计算机441通常包括调制解调器450或用于通过诸如因特网等WAN 449建立通信的其他手段。调制解调器450，可以是内置的或外置的，可以经由用户输入接口436或其他适当的机制，连接到系统总线421。在联网环境中，相对于计算机441所描述的程序模块或其部分可被存储在远程存储器存储设备中。作为示例而非限制，图10B示出了驻留在存储器设备447上的远程应用程序448。应当理解，所示的网络连接是示例性的，并且可使用在计算机之间建立通信链路的其他手段。

本发明系统的前述详细描述是出于说明和描述的目的而提供的。这并不旨在穷举本发明系统或将本发明系统限于所公开的精确形式。鉴于上述教导，许多修改和变型都是可能的。选择所述实施例以最好地解释本发明系统的原理及其实践应用，从而允许本领域技术人员能够在各种实施例中并采用各种适于所构想的特定用途的修改来最好地利用本发明系统。本发明系统的范围旨在由所附权利要求书来定义。

Claims

1.一种配置自然用户界面的方法，所述自然用户界面包括与显示器(150)上所提供的一个或多个可视元素(164)相关联的语音命令，包括：

(a)显示具有相关联的语音命令的至少一个可视元素(164)，所述相关联的语音命令结合所述至少一个可视元素来执行所述自然用户界面中的某动作；以及

(b)显示(步骤206)与所述一个或多个可视元素中的可视元素(164)相关联的可视指示符(168)，所述可视指示符(168)指示所述可视元素(164)具有相关联的语音命令，并且所述可视指示符(168)将所述可视元素与不具有相关联的语音命令的可视元素区分开。

2.如权利要求1所述的方法，其特征在于，显示具有相关联的语音命令的至少一个可视元素的所述步骤(a)包括显示文本对象的步骤，所述步骤(b)显示与所述文本对象相关联的可视指示符。

3.如权利要求1所述的方法，其特征在于，显示具有相关联的语音命令的至少一个可视元素的所述步骤(a)包括显示图形对象的步骤，所述步骤(b)显示与所述图形对象相关联的可视指示符。

4.如权利要求1所述的方法，其特征在于，显示具有相关联的语音命令的至少一个可视元素的所述步骤(a)包括显示图形对象的步骤，所述方法还包括步骤(c)添加与所述图形对象相关联的文本对象以及显示与所添加的文本对象相关联的可视对象。

5.如权利要求1所述的方法，其特征在于，显示与所述可视元素相关联的可视指示符的所述步骤(b)包括向所述可视元素的内部和/或边界提供区别性颜色的步骤。

6.一种用于对处理器(301、459)进行编程以执行一种方法的计算机可读存储介质(312、346、438、453)，所述方法提供包括与显示器上所提供的一个或多个可视元素相关联的语音命令的多模自然用户界面，所述方法包括：

(a)在操作的正常模式期间，显示具有相关联的语音命令的至少一个可视元素(164)，所述相关联的语音命令结合所述至少一个可视元素(164)来执行所述自然用户界面中的某动作；

(b)接收(步骤200)从所述操作的正常模式切换到语音揭示模式的指示；以及

(c)在所述步骤(b)中接收到所述指示之后，显示(步骤206)与所述至少可视元素中的可视元素(164)相关联的可视指示符(168)，所述可视指示符(168)指示所述可视元素(164)具有相关联的语音命令。

7.如权利要求6所述的计算机可读存储介质，其特征在于，显示具有相关联的语音命令的至少一个可视元素的所述步骤(a)包括显示文本对象和图形对象中的至少一个的步骤，所述步骤(c)显示与所述文本和/或图形对象相关联的可视指示符。

8.如权利要求6所述的计算机可读存储介质，其特征在于，显示具有相关联的语音命令的至少一个可视元素的所述步骤(a)包括显示图形对象的步骤，所述方法还包括步骤(d)在语音揭示模式时添加与所述图形对象相关联的文本对象以及显示与所添加的文本对象相关联的可视对象。

9.在具有图形用户界面和用于与所述图形用户界面进行交互的自然用户界面的计算机系统(10)中，一种提供所述图形用户界面和所述自然用户界面的方法，包括：

(a)在所述图形用户界面上显示至少一个可视元素(164)，所述至少一个可视元素(164)具有相关联语音命令，所述相关联的语音命令结合所述至少一个可视元素来执行所述自然用户界面中的某动作；

(b)经由所述自然用户界面来接收(步骤200)进入语音揭示模式的指示；以及

(c)在所述步骤(b)中接收到所述指示之后，用突出显示(168)来显示(步骤206)所述可视元素(164)，所述突出显示指示所述可视元素具有相关联的语音命令。

10.如权利要求9所述的方法，其特征在于，还包括以下步骤：

(d)接收语音命令；

(e)标识与所述语音命令相关联的动作；以及

(f)执行与所述语音命令相关联的所述动作。