CN105074620A

CN105074620A - 用于指派语音和手势命令区域的系统和方法

Info

Publication number: CN105074620A
Application number: CN201480009014.8A
Authority: CN
Inventors: G.J.安德森
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2013-03-15
Filing date: 2014-03-05
Publication date: 2015-11-18
Anticipated expiration: 2034-03-05
Also published as: EP2972685A4; US20140282273A1; EP2972685A1; KR20150130986A; JP2016512632A; CN105074620B; KR101688359B1

Abstract

本文公开了用于指派用户输入命令区域以便接收用户语音和空中手势命令，并且允许计算装置的多个应用程序的用户交互和控制的系统和方法。系统包括配置成允许用户在用于多个应用程序的每个应用程序的计算环境内指派三维用户输入命令区域的语音和空中手势捕捉系统。语音和空中手势捕捉系统配置成接收由计算环境中一个或更多个传感器捕捉的数据，并且基于数据，识别用户输入，包括在一个或更多个用户输入命令区域内的用户语音和/或空中手势命令。语音和空中手势捕捉系统还配置成基于识别的用户输入命令区域，识别对应于用户输入的应用程序，并且基于用户输入，允许与识别的应用程序的用户交互。

Description

用于指派语音和手势命令区域的系统和方法

技术领域

本公开内容涉及用户界面，并且更具体地说，涉及用于指派语音和空中手势命令区域以便在计算环境中与多个应用程序交互和控制多个应用程序的系统和方法。

背景技术

当前计算系统提供在显示器内向用户呈现大量信息的方式。通常，计算系统的图形用户界面(GUI)在内容框或“窗口”内向用户显示信息。通常，每个窗口可显示信息和/或包含用于与在计算系统上执行的对应应用程序交互和控制对应应用程序的接口。例如，一个窗口可对应于字处理应用程序，并且显示在进行的信件，而另一窗口可对应于web浏览器，并且显示web页面，同时另一窗口可对应于媒体播放器应用程序并且显示视频。

窗口可在用户的计算机显示器上称为“桌面”的区域中呈现。当前计算系统允许用户在显示器上保持多个打开的窗口，使得与每个窗口相关联的信息持续、轻易地可用于用户。多个窗口同时显示时，它们可同时独立显示，或者可相互部分或完全重叠。显示器上多个窗口的呈现可产生窗口杂乱的显示器，并且可能要求用户持续操控每个窗口以控制与每个窗口相关联的内容。

显示器内多个窗口的管理和与其进行的用户交互可在包含用户执行的空中手势输入技术的计算系统中进一步变得复杂。一些当前计算系统通过用户执行的空中手势接受用户输入以便与计算系统上的应用程序交换并且控制应用程序。通常，这些用户执行的空中手势称为空中手势（而不同于触摸屏手势）。

在一些情况下，无关的空中手势可造成与多个运行的应用程序之一不需要的交互和输入。用户在多窗口显示器中尝试空中手势时，情况特别是如此，其中，用户想只与多个打开的窗口之一交互。例如，用户可能想控制具有另外打开的窗口的显示器上当前打开的媒体播放器窗口上歌曲的重放。用户可执行与用于媒体播放器的“播放”命令相关联的空中手势，诸如用户的手以预定义动作的挥动。然而，相同空中手势可表示用于另一应用程序的不同命令。例如，在媒体播放器上表示“播放”命令的空中手势也可表示用于web浏览器的“退出”命令。因此，由于是多窗口显示器，用户的空中手势可相对于用户想控制的特定应用程序是不确定的。计算系统可能不能识别用户的空中手势想控制媒体播放器，并且转而可促使用户的空中手势控制不同和非预期的应用程序。这可使用户特别沮丧，并且要求与计算系统更大程度的用户交互以便控制所需应用程序和程序。

附图说明

从下面与所述主题一致的实施例的详细描述中，将明白所述主题的特征和优点，描述应参照附图理解，其中：

图1是示出与本公开内容一致，用于指派语音和空中手势命令区域的系统的一个实施例的框图；

图2是示出与本公开内容一致，用于指派语音和空中手势命令区域的系统的另一实施例的框图；

图3是更详细示出图1的系统的框图；

图4示出与本公开内容一致，包括具有上面显示了多个窗口并且用于与多个窗口交互的指派的语音和空中手势命令区域的示范图形用户界面(GUI)的电子显示器；

图5示出与本公开各种实施例一致，包括电子显示器、GUI、图4的指派的语音和空中手势命令区域及用于经命令区域与GUI交互的用户的透视图；以及

图6是示出与本公开内容一致，用于指派语音和空中手势命令区域的一个实施例的流程图。

具体实施方式

通过概述，本公开内容一般涉及用于指派用户输入命令区域以便接收用户语音和空中手势命令，并且基于指派的用户输入命令区域，允许多个应用程序的用户交互和控制的系统和方法。系统包括配置成监视在计算环境内经GUI与一个或更多个应用程序的用户交互的语音和空中手势捕捉系统。GUI例如可包括在电子显示器上呈现的多个打开的窗口，其中，每个窗口对应于一个打开且在运行的应用程序。语音和空中手势捕捉系统配置成允许用户指派用于对应于例如多个窗口的每个窗口的一个或更多个应用程序的用户输入命令区域，其中，每个用户输入命令区域定义在计算环境内且与至少电子显示器有关的三维空间。

语音和空中手势捕捉系统配置成接收由计算环境中一个或更多个传感器捕捉的数据，其中，数据包括在一个或更多个用户输入命令区域内的用户语音和/或空中手势命令。语音和空中手势捕捉系统还配置成基于捕捉的数据的分析，识别用户输入。更具体地说，语音和空中手势捕捉系统配置成识别用户执行的语音和/或空中手势命令及语音和/或空中手势命令发生的对应用户输入命令区域。语音和空中手势捕捉系统还配置成至少部分基于识别的用户输入命令区域，识别对应于用户输入的应用程序，并且基于用户输入，允许用户与识别的应用程序交互，并且控制该应用程序。

与本公开内容一致的系统为用户提供了通过在计算环境内指派的用户输入命令区域，管理多种应用程序并与其交互的改进方式。例如，就与具有在电子显示器上呈现的多个窗口的同时显示的GUI的用户交互而言，系统配置成提供控制与每个窗口相关联的应用程序的有效和高效方式。具体而言，系统配置成允许用户指派对应于在显示器上呈现的每个窗口的三维命令区域，使得用户可基于在对应三维命令区域内执行的语音和/或空中手势命令，与每个窗口和相关联的应用程序交互，并且控制每个窗口和相关联的应用程序。相应地，与本公开内容一致的系统允许用户通过在指派的用户输入命令区域之一内执行此类命令，利用相同的语音和/或空中手势命令控制多种不同窗口，由此减少不确定性的可能性和与非预期窗口和相关联应用程序交互的可能性。

转到图1，图中概括示出与本公开内容一致的系统10的一个实施例。系统包括计算装置12、语音和空中手势捕捉系统14、一个或更多个传感器16及电子显示器18。如本文中更详细所述，语音和空中手势捕捉系统14配置成监视计算环境，并且识别用户输入和与计算环境内电子显示器18上呈现的图形用户界面(GUI)的交互。更具体地说，语音和空中手势捕捉系统14配置成允许用户有效和高效地管理在电子显示器18上呈现的GUI的多个打开窗口，其中，每个窗口对应于计算装置12的打开和在运行的应用程序。

语音和空中手势捕捉系统14配置成允许用户指派用于每个窗口的用户输入命令区域，其中，每个用户输入命令区域定义在计算环境内且与至少电子显示器18（在图5和4中示出）有关的三维空间。语音和空中手势捕捉系统14配置成接收由计算环境中的一个或更多个传感器16捕捉的数据。如本文中更详细所述，一个或更多个传感器16可配置成捕捉计算环境的一个或更多个指派的用户输入命令区域内用户语音和空中手势命令至少之一。

在接收和处理一个或更多个传感器16捕捉的数据时，语音和空中手势捕捉系统14配置成基于捕捉的数据，识别用户输入。识别的用户输入可包括用户执行的特定语音和/或空中手势命令及语音和/或空中手势命令发生的对应用户输入命令区域。语音和空中手势捕捉系统14还配置成至少部分基于识别的用户输入命令区域，识别对应于用户输入的窗口，并且基于用户输入，允许用户与识别的窗口和相关联的应用程序交互，并且控制窗口和应用程序。

计算装置12、语音和空中手势捕捉系统14、一个或更多个传感器16和电子显示器18可配置成经任何已知有线或无线通信传送协议相互进行通信。

如通常理解的一样，计算装置12可包括硬件组件和/或软件组件，使得计算装置12可用于执行应用程序，如游戏应用程序、非游戏应用程序或诸如此类。在本文中描述的一些实施例中，一个或更多个运行应用程序可包括在电子显示器18的用户界面上呈现的相关联的窗口。计算装置12可包括但不限于个人计算机(PC)（例如，台式或笔记本计算机）、平板计算机、上网本计算机、智能电话、便携式视频游戏装置、视频游戏控制台、便携式数字助理(PDA)、便携式媒体播放器(PMP)、电子图书、移动因特网装置、个人导航装置及其它计算装置。

电子显示器18可包括配置成接收来自计算装置12和语音和空中手势捕捉系统14的输入，并且提供与输入有关的视觉和/或音频信息的任何视听显示装置。例如，电子显示器18配置成提供在计算装置12上执行并且基于来自语音和空中手势捕捉系统14的用户输入的一个或更多个应用程序的画面和/或音频。电子显示器18可包括但不限于电视、监视器、电子公告牌、高清晰度电视(HDTV)或诸如此类。

在所示实施例中，语音和空中手势捕捉系统14、一个或更多个传感器16和电子显示器18相互是独立的。应注意的是，在其它实施例中，如本领域技术人员通常理解的一样，计算装置12可例如如图2的系统10a中所示，选择性地包括一个或更多个传感器16和/或电子显示器18。作为计算装置12的一部分的一个或更多个传感器16和/或电子显示器18的可选包括而不是计算装置12外部的元素在图2中通过虚线示出。另外，如通常理解的一样，语音和空中手势捕捉系统14可独立于计算装置12。

转到图3，图中更详细示出图1的系统10。如前面所述，语音和空中手势捕捉系统14配置成接收从至少一个传感器16捕捉的数据。如图所示，系统10可包括配置成捕捉计算环境内至少一个用户的各种属性的多种传感器，如包括用户的身体的一个或更多个部分的移动等用户的物理特性和包括来自用户的语音输入等可听特性。例如，在所示实施例中，系统10包括配置成捕捉计算环境和其内一个或更多个用户的数字图像的至少一个相机20和配置成捕捉包括一个或更多个用户的语音数据等环境的声音数据的至少一个麦克风22。

图3还更详细示出图1的语音和空中手势捕捉系统14。应领会的是，图3所示语音和空中手势捕捉系统14是与本公开内容一致的语音和空中手势捕捉系统14的一个示例。因此，与本公开内容一致的语音和空中手势计算系统可具有比所示更多或更少的组件，可组合两个或更多个组件，或者可具有组件的不同配置或布置。图3所示各种组件可在硬件、软件或硬件和软件的组合中实现，包括一个或更多个信号处理和/或专用集成电路。

如图所示，相机20和麦克风22配置成提供输入到语音和空中手势捕捉系统14的相机和音频框架模块24。相机和音频框架模块24可包括通常定义明确并且可用于控制至少相机20和麦克风22的定制、专有、已知和/或以后开发的图像处理和/或音频代码（或指令集）。例如，相机和音频框架模块24可促使相机20和麦克风22捕捉和录制图像、到计算环境内对象和用户的距离和/或声音，可处理图像和/或声音，可促使图像和/或声音再现等。视语音和空中手势捕捉系统14，并且更具体地说，在语音和空中手势捕捉系统14和/或计算装置12中运行的操作系统(OS)而定，相机和音频框架模块24可有所不同。

语音和空中手势捕捉系统14还包括配置成接收至少一个传感器16捕捉的数据并且基于捕捉的数据，确立用户输入28的语音和手势识别模块26。在所示实施例中，语音和手势识别模块26配置成接收由至少一个相机20捕捉的一个或更多个数字图像。相机20包括用于捕捉表示计算环境和计算环境内一个或更多个用户的数字图像的（已知或以后发现的）任何装置。

例如，相机20可包括静态相机（即，配置成捕捉静态照片的相机）或视频相机（即，配置成在多个帧中捕捉多个移动图像的相机）。相机20可配置成捕捉在可见光中的图像，或者通过电磁光谱（例如但不限于红外光谱、紫外光谱等）的其它部分捕捉图像。诸如本文中更详细所述，相机20可还配置成捕捉带有深度信息的数字图像，如由用于确定深度值的（已知或以后发现的）任何技术确定的深度值。例如，相机20可包括可配置成捕捉计算环境内场景的深度图像的深度相机。相机20也可包括配置成捕捉场景的深度图像的三维(3D)相机和/或RGB相机。

相机20可包含在计算装置12和/或语音和空中手势捕捉装置14内，或者可以是配置成经有线或无线通信，与计算装置12和语音和空中手势捕捉系统14进行通信的单独装置。相机120的具体示例可包括如可与计算机、视频监视器等相关联的有线（例如，通用串行总线(USB)、以太网、火线等）或无线（例如，WiFi、蓝牙等）web相机、移动装置相机（例如，集成在例如前面讨论的示例计算装置中的蜂窝电话或智能电话相机）、集成膝上型计算机相机、集成平板计算机相机等。

在一个实施例中，系统10可包括在计算环境内定位在所需位置的单个相机20，如与电子显示器18（图5中示出）相邻，并且配置成捕捉计算环境和靠近电子显示器18内的计算环境内一个或更多个用户的图像。在其它实施例中，系统10可包括定位在计算环境内各种位置以从不同角度捕捉计算环境内一个或更多个用户的图像，以便获得例如用于确定深度信息的立体视觉的多个相机20。

在接收来自相机20的图像时，语音和手势识别模块26可配置成识别相机20提供的图像内用户身体的一个或更多个部分，并且跟踪此类识别的身体部分的移动以确定用户执行的一个或更多个空中手势。例如，语音和手势识别模块26可包括通常定义明确，并且可用于接收图像（例如但不限于RGB彩色图像），并且至少在一定程度上识别图像中用户的手，以及通过一系列图像跟踪检测的手以基于手的移动来确定空中手势的定制、专有、已知和/或以后开发的识别和检测代码（或指令集）、硬件和/或固件。语音和手势识别模块26可配置成识别和跟踪多个身体部分和区域的移动，包括但不限于头、躯干、手臂、手、脚、足部和场景内用户的总体位置。

语音和手势识别模块26还可配置成识别用户识别的身体部分的移动发生的计算环境内的特定空间区域。例如，语音和手势识别模块26可包括通常定义明确，并且可用于至少在一定程度上识别诸如用户的手等识别的用户身体部分的移动发生的多个用户输入命令区域之一的定制、专有、已知和/或以后开发的空间识别代码（或指令集）、硬件和/或固件。

语音和手势识别模块26还配置成接收由至少一个麦克风22捕捉的计算环境中用户的语音数据。麦克风22包括用于捕捉一个或更多个人的语音数据的（已知或以后发现的）任何装置，并且可具有适当的数字分辨率以进行一个或更多个人的语音分析。应注意的是，麦克风22可包含在计算装置12和/或语音和空中手势捕捉系统14内，或者可以是配置成经任何已知有线或无线通信，与媒体语音和空中手势捕捉系统14进行通信的单独装置。

在接收来自麦克风22的语音数据时，语音和手势识别模块26可配置成使用任何已知语音分析方法识别语音数据的特定主体。例如，语音和手势识别模块26可包括通常定义明确，并且可用于接收语音数据，并且将语音转化成文本数据的定制、专有、已知和/或以后开发的语音识别和特性代码（或指令集）、硬件和/或固件。如本领域技术人员通常理解的一样，语音和手势识别模块26可配置成识别来自用户的一个或更多个口述命令，以便与电子显示器上GUI的一个或更多个窗口交互。

语音和手势识别模块26还可配置成识别用户的语音输入被投射或发生在其内的计算环境内的特定空间区域。例如，语音和手势识别模块26可包括通常定义明确，并且可用于至少在一定程度上识别用户的语音输入被投射到或位于其内的多个用户输入命令区域之一的定制、专有、已知和/或以后开发的空间识别代码（或指令集）、硬件和/或固件。

在一个实施例中，系统10可包括配置成捕捉计算环境内的语音数据的单个麦克风。在其它实施例中，系统10可包括定位在整个计算环境内的一系列麦克风，每个麦克风配置成捕捉计算环境的特定区域的语音数据，由此允许空间识别。例如，第一麦克风可定位在电子显示器18的一侧上，并且配置成只捕捉被导向显示器18的该侧的语音输入。类似地，第二麦克风可定位在电子显示器18的侧相对上，并且配置成只捕捉被导向显示器的该相对侧的语音输入。

在接收和分析来自传感器16的捕捉的数据，包括图像和/或语音数据时，语音和手势识别模块26配置成基于捕捉的数据的分析，生成用户输入28。用户输入28可包括但不限于基于用户移动而识别的空中手势、空中手势发生的对应用户输入命令区域、语音命令和语音命令被导向或在其内发生的对应用户输入命令区域。

语音和空中手势捕捉系统14还包括配置成允许用户与电子显示器18上呈现的每个窗口和相关联的应用程序交互的应用程序控制模块30。更具体地说，应用程序控制模块30配置成接收来自语音和识别模块26的用户输入28，并且基于用户输入28，识别要控制的一个或更多个应用程序。

如图所示，语音和空中手势捕捉系统14包括配置成允许用户指派用于配置成在计算装置12上执行的多个应用程序或功能的一个对应应用程序或功能的用户输入命令区域的输入映射模块32。例如，输入映射模块32可包括通常明确定义，并且可用于允许用户指派计算环境的预定义的用户输入命令区域到来自应用程序数据库34的对应应用程序，使得指派的用户输入命令区域内的任何用户输入（例如，语音和/或空中手势命令）将产生对应应用程序的一个或更多个参数的控制的定制、专有、已知和/或以后开发的培训代码（或指令集）、硬件和/或固件，。

应用控制模块30可配置成比较与收到的用户输入28有关的数据和与输入映射模块32中存储的一个或更多个指派简档33(l)-33(n)关联的数据，以识别与用户输入28相关联的应用程序。具体而言，应用程序控制模块30可配置成比较用户输入28的识别的用户输入命令区域和指派的简档33(l)-33(n)，以便查找具有匹配用户输入命令区域的简档。每个指派简档33可通常包括与计算环境的多个用户输入命令区域之一和该一个输入命令区域被指派到的对应应用程序有关的数据。例如，计算环境可包括6个不同用户输入命令区域，其中，每个命令区域可与单独应用程序相关联。因此，在特定用户输入命令区域内执行的任何语音和/或空中手势将只控制与特定用户输入命令区域相关联的应用程序的参数。

在通过任何已知或以后发现的匹配技术在输入映射模块32中找到匹配简档时，应用程序控制模块30配置成基于匹配简档的数据，从应用程序数据34识别语音和/或手势命令发生的用户输入命令区域被指派到的应用程序。应用程序控制模块30还配置成基于用户输入28（例如，语音和/或空中手势命令），允许在运行的应用程序的一个或更多个参数的用户控制。如通常理解的一样，每个应用程序可具有来自用于控制应用程序的各种参数的对应语音和手势数据库36的已知语音和手势命令的预定义集。

语音和空中手势捕捉系统14还包括配置成接收来自应用程序控制模块30的包括用于控制一个或更多个在运行的应用程序的用户输入命令的输入的显示再现模块38，并且提供视听信号到电子显示器18以及允许与在运行的应用程序相关联的窗口的用户交互和控制。语音和空中手势捕捉系统14可还包括配置成执行与语音和空中手势捕捉系统14及其中包括的一个或更多个模块相关联的操作的一个或更多个处理器40。

现在转发到图4和5，概述示出计算装置100的一个实施例。图4示出具有上面显示了多个窗口104(l)-104(n)的示范图形用户界面(GUI)102的电子显示器18的一个实施例的前视图。如前面所述，每个窗口104通常对应于在计算装置102上执行的一个应用程序。例如，窗口104(1)可对应于媒体播放应用程序，窗口104(2)可对应于视频游戏应用程序，窗口104(3)可对应于web浏览器，以及窗口104(n)可对应于字处理应用程序。应注意的是，配置成在计算装置12上执行的一些应用程序不可包括在显示器18上呈现的相关联的窗口。因此，可将一些用户输入命令区域指派到此类应用程序。

如图所示，用户输入命令区域A-D包括在计算环境100内。如前面所述，用户输入命令区域A-D通常定义与电子显示器18和一个或更多个传感器16有关的三维（如图5所示）空间，在空间中，用户可执行特定语音和/或空中手势命令以控制一个或更多个应用程序和对应窗口104(l)-104(n)。

图5概括示出图4的计算环境100的透视图。如图所示，计算环境100包括具有上面呈现了多个窗口104(l)-104(n)的GUI102的电子显示器18。一个或更多个传感器16（以相机20和麦克风22的形式）定位在计算环境100内以捕捉环境100内的用户移动和/或语音。计算环境100还包括指派的语音和空中手势命令区域A-E和经命令区域A-E与多窗口GUI102交互的用户106。如图所示，每个用户输入命令区域A-E定义计算环境100内并且与至少电子显示器18有关的三维空间。如前面所述，在用户希望与电子显示器上的特定窗口104交互时，用户只需在与特定窗口104相关联的指派的用户输入命令区域A-E内执行一个或更多个语音和/或空中手势命令。

例如，用户106可能要与窗口104(1)的媒体播放器应用程序交互和与窗口104(3)的web浏览器交互。如前面所述，用户可能已利用语音和空中手势捕捉系统14以指派用户输入命令区域C对应于窗口104(1)，并且指派用户输入命令区域E对应于窗口104(3)。用户可说话和/或通过诸如计算环境100内的其手臂和手等其身体的一个或更多个部分执行一个或更多个动作。具体而言，用户106可朝向用户输入命令区域C说出预定义的语音命令，并且在用户输入命令区域E内执行预定义的空中手势（例如，向上挥动其手臂）。

如前面所述，相机20和麦克风22配置成捕捉与用户的语音和/或空中手势命令有关的数据。语音和空中手势捕捉系统14配置成接收和处理捕捉的数据以识别用户输入，包括由用户106执行的预定义的语音和空中手势命令和执行用户的语音和空中手势命令的特定用户输入命令区域（分别为区域C和E）。语音和空中手势捕捉系统14又配置成识别对应于识别的用户输入命令区域（分别为区域C和E）的窗口104(1)和104(3)，并且基于用户输入，还允许用户106控制与窗口104(1)和104(3)相关联的应用程序（例如，分别为媒体播放器和web浏览器）的一个或更多个参数。

在所示实施例中，用户输入命令区域A-E定位在电子显示器18的所有侧（例如，上、下、左和右）及电子显示器18的中心上。应注意的是，在其它实施例中，语音和空中手势捕捉系统14可配置成在与电子显示器18有关的多个不同维数和位置中指派多个不同用户输入命令区域，并且不限于图4和5所示的布置。

现在转到图6，概括示出用于指派语音和空中手势命令区域的方法600的一个实施例的流程图。方法包括监视计算环境和其内试图与用户界面交互的至少一个用户（操作610）。计算环境可包括上面显示用户界面的电子显示器。用户界面可具有多个打开的窗口，其中，每个打开的窗口可对应于一个打开并且在运行的应用程序。方法还包括捕捉与用户语音和/或与用户界面的空中手势交互有关的数据（操作620）。数据可由计算环境中的一个或更多个传感器捕捉，其中，数据包括在一个或更多个指派的用户输入命令区域内的用户语音和/或空中手势命令。每个用户输入命令区域定义计算环境内并且与至少电子显示器有关的三维空间。

方法还包括基于捕捉的数据的分析，识别用户输入和多个用户输入命令区域之一（操作630）。用户输入包括用户执行的识别的语音和/或空中手势命令及识别的语音和/或空中手势命令发生的对应用户输入命令区域。方法还包括至少部分基于识别的用户输入命令区域，识别在电子显示器上呈现的相关联的应用程序（操作640）。方法还包括基于用户输入，提供识别的相关联的应用程序的用户控制（操作650）。

虽然图6示出根据各种实施例的方法，但要理解的是，在任何实施例中，并非所有这些操作是必需的。实际上，本文中完全考虑了在本公开内容的其它实施例中，图6所示操作可以任何图形中未明确示出的方式组合，但仍与本公开内容完全一致。因此，涉及在一个图形中未确切示出的特征和/或操作的声明被认为是在本公开内容的范围和内容内。

另外，用于实施例的操作还已参照上述图形和伴随示例描述。一些图形可包括逻辑流程。虽然本文中所示的此类图形可包括特定的逻辑流，但可理解的是，逻辑流只提供可如何实现本文中所述的一般功能性的示例。此外，除非另有指示，否则，给定逻辑流不必一定以所示顺序执行。另外，给定逻辑流可通过硬件元件、由处理器执行的软件元件或其任何组合实现。实施例并不限于此上下文。

在本文中任何实施例中使用时，术语“模块”可指配置成执行任何上面提及的操作的软件、固件和/或电路。软件可实施为录制在非暂时性计算机可读存储介质上的软件包、代码、指令、指令集和/或数据。固件可实施为在存储器装置中硬编码（例如，非易失性）的代码、指令或指令集和/或数据。“电路”在本文中任何实施例中使用时可例如单独或以任何组合方式包括硬连线电路、诸如包括一个或更多个单独指令处理核的计算机处理器等可编程电路、状态机器电路和/或存储可编程电路执行的指令的固件。模块可全体或单独实施为形成例如，集成电路(IC)、系统芯片(SoC)、台式计算机、膝上型计算机、平板计算机、服务器、智能电话等的更大系统的一部分的电路。

本文中所述任何操作可在包括一个或多个存储介质的系统中实现，存储介质上单独或组合存储有在由一个或多个处理器执行时执行方法的指令。此处，处理器例如可包括服务器CPU、移动装置CPU和/或其它可编程电路。

因此，预期本文中所述操作可跨诸如在不止一个不同物理位置的处理结构等多个物理装置分布。存储介质可包括任何类型的有形介质，例如任何类型的磁盘，包括硬盘、软盘、光盘、压缩盘只读存储器(CD-ROM)、可重写压缩盘(CD-RW)及磁光盘、诸如只读存储器(ROM)的半导体装置、诸如动态和静态RAM的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存、固态磁盘(SSD)、磁卡或光学卡或适用于存储电子指令的任意类型的介质。其它实施例可实现为由可编程控制装置执行的软件模块。存储介质可以为非暂时性。

如本文中所述，各种实施例可使用硬件元素、软件元素或其任何组合实现。硬件元素的示例可包括处理器、微处理器、电路、电路元素（例如，晶体管、电阻器、电容器、电感器等等）、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD),、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体装置、芯片、微芯片、芯片集等等。

此说明书通篇对“一个实施例”或“一实施例”的引用指结合该实施例描述的特定特征、结构或特性包括在至少一个实施例中。因此，在此说明书通篇各个位置出现的“在一个实施例”或“在一实施例中”短语不一定全部指同一实施例。此外，特定的特征、结构或特性可在一个或多个实施例中以任何适合的方式组合。

以下示例涉及其它实施例。在一个示例中，提供了一种用于指派语音和空中手势命令区域的设备。设备可包括识别模块，识别模块配置成接收与计算环境和其内至少一个用户有关的至少一个传感器捕捉的数据，并且基于捕捉的数据，识别用户的一个或更多个属性。识别模块还配置成基于用户属性，确立用户输入，其中用户输入包括语音命令和空中手势命令至少之一和语音或空中手势命令发生的多个用户输入命令区域的一个对应区域。设备可还包括应用程序控制模块，应用程序控制模块配置成至少部分基于用户输入发生的用户输入命令区域，接收和分析用户输入和要由用户输入控制的应用程序。应用程序控制模块还配置成基于用户输入，允许与识别的应用程序的用户交互和识别的应用程序的一个或更多个参数的控制。

可进一步配置上述示例设备，其中至少一个传感器是配置成捕捉计算环境和至少一个用户的一个或更多个图像的相机。在此配置中，可进一步配置示例设备，其中识别模块配置成基于捕捉的图像，识别和跟踪一个或更多用户身体部分的移动，并且确定对应于识别的用户身体部分移动的一个或更多个空中手势命令，以及识别每个空中手势命令发生的对应用户输入命令区域。

可单独或与上述其它配置组合，进一步配置上述示例设备，其中至少一个传感器是配置成捕捉计算环境内用户的语音数据的麦克风。在此配置中，可进一步配置示例设备，其中识别模块配置成基于捕捉的语音数据，识别来自用户的一个或更多个语音命令，并且识别每个语音命令发生或被导向的对应用户输入命令区域。

单独或与上述其它配置组合，上述示例设备可还包括配置成允许用户指派多个用户输入命令区域之一到多个应用程序的一个对应应用程序的输入映射模块。在此配置中，可进一步配置示例设备，其中输入映射模块包括一个或更多个指派简档，每个指派简档包括与多个用户输入命令区域之一和该一个用户输入命令区域被指派到的对应应用程序有关的数据。在此配置中，可进一步配置示例设备，其中应用程序控制模块配置成比较从识别模块收到的用户输入和每个指派简档以识别应用程序相关联的用户输入。在此配置中，可进一步配置示例设备，其中应用程序控制模块配置成比较用户输入的识别的用户输入命令区域和每个指派简档的用户输入命令区域，并且基于比较，识别匹配指派简档。

可单独或与上述其它配置组合，进一步配置上述示例设备，其中每个用户输入命令区域包括计算环境内的三维空间，并且相对于上面呈现多窗口用户界面的电子显示器定位，其中一些窗口对应于应用程序。

在另一示例中，提供了一种用于指派语音和空中手势命令区域的方法。方法可包括监视计算环境和计算环境内试图与用户界面交互的至少一个用户；接收计算环境内至少一个传感器捕捉的数据；基于捕捉的数据，识别计算环境中至少一个用户的一个或更多个属性并且基于用户属性，确立用户输入，用户输入包括语音命令和空中手势命令至少之一和语音或空中手势命令发生的多个用户输入命令区域的一个对应区域；以及至少部分基于对应用户输入命令区域，识别用户输入要控制的应用程序。

上述示例方法可还包括基于用户输入，允许识别的相关联的应用程序的一个或更多个参数的用户控制。

单独或与上述其它配置组合，上述示例方法可还包括指派多个用户输入命令区域之一到多个应用程序的一个对应应用程序，并且生成指派简档，指派简档具有与多个用户输入命令区域之一和该一个用户输入命令区域被指派到的对应应用程序有关的数据。在此配置中，可进一步配置示例方法，其中识别要由用户输入控制的应用程序包括比较用户输入和具有与某个应用程序和指派到该应用程序的多个用户输入命令区域之一有关的数据的多个指派简档，并且基于比较，识别具有匹配用户输入的数据的指派简档。在此配置中，可进一步配置示例方法，其中识别匹配指派简档包括比较用户输入的识别的用户输入命令区域和每个指派简档的用户输入命令区域，并且识别具有匹配用户输入命令区域的指派简档。

在另一示例中，提供了至少一种上面存储有指令的计算机可访问介质，指令在由机器执行时，促使机器执行任何上述示例方法的操作。

在另一示例中，提供了一种布置成执行任何上述示例方法的系统。

在另一示例中，提供了一种用于指派语音和空中手势命令区域的系统。系统可包括用于监视计算环境和计算环境内试图与用户界面交互的至少一个用户的部件；用于接收计算环境内至少一个传感器捕捉的数据的部件；用于基于捕捉的数据，识别计算环境中至少一个用户的一个或更多个属性并且基于用户属性，确立用户输入的部件，用户输入包括语音命令和空中手势命令至少之一和语音或空中手势命令发生的多个用户输入命令区域的一个对应区域；以及用于至少部分基于对应用户输入命令区域，识别用户输入要控制的应用程序的部件。

上述示例系统可还包括用于基于用户输入，允许识别的相关联的应用程序的一个或更多个参数的用户控制的部件。

单独或与上述其它配置组合，上述示例系统可还包括用于指派多个用户输入命令区域之一到多个应用程序的一个对应应用程序的部件和用于生成指派简档的部件，指派简档具有与多个用户输入命令区域之一和该一个用户输入命令区域被指派到的对应应用程序有关的数据。在此配置中，可进一步配置示例系统，其中识别要由用户输入控制的应用程序包括用于比较用户输入和具有与某个应用程序和指派到该应用程序的多个用户输入命令区域之一有关的数据的多个指派简档的部件和用于基于比较，识别具有匹配用户输入的数据的指派简档的部件。在此配置中，可进一步配置示例系统，其中识别匹配指派简档包括用于比较用户输入的识别的用户输入命令区域和每个指派简档的用户输入命令区域，并且识别具有匹配用户输入命令区域的指派简档的部件。

本文中已采用的术语和表述用作描述的语言而不是限制，并且在此类术语和表述中，无意排除所示和所述的特征（或其部分）的任何等效物，以及可认识到各种修改在权利要求书的范围内是可能的。相应地，权利要求书旨在包括所有此类等效物。

Claims

1.一种用于指派语音和空中手势命令区域的设备，所述设备包括：

识别模块，配置成接收与计算环境和其内至少一个用户有关的至少一个传感器捕捉的数据，并且基于所述捕捉的数据，识别所述用户的一个或更多个属性以及基于所述用户属性，确立用户输入，其中所述用户输入包括语音命令和空中手势命令至少之一和所述语音或空中手势命令发生的多个用户输入命令区域的一个对应区域；以及

应用程序控制模块，配置成至少部分基于所述用户输入发生的所述用户输入命令区域，接收和分析所述用户输入和要由所述用户输入控制的应用程序，并且基于所述用户输入，允许与所述识别的应用程序的用户交互和所述识别的应用程序的一个或更多个参数的控制。

2.如权利要求1所述的设备，其中所述至少一个传感器是配置成捕捉所述计算环境和所述至少一个用户的一个或更多个图像的相机。

3.如权利要求2所述的设备，其中所述识别模块配置成基于所述捕捉的图像，识别和跟踪一个或更多用户身体部分的移动，并且确定对应于所述识别的用户身体部分移动的一个或更多个空中手势命令，以及识别每个空中手势命令发生的对应用户输入命令区域。

4.如权利要求1所述的设备，其中所述至少一个传感器是配置成捕捉在所述计算环境内所述用户的语音数据的麦克风。

5.如权利要求4所述的设备，其中所述识别模块配置成基于所述捕捉的语音数据，识别来自所述用户的一个或更多个语音命令，并且识别每个语音命令发生或被导向的对应用户输入命令区域。

6.如权利要求1所述的设备，还包括配置成允许用户指派所述多个用户输入命令区域之一到多个应用程序的一个对应应用程序的输入映射模块。

7.如权利要求6所述的设备，其中所述输入映射模块包括一个或更多个指派简档，每个指派简档包括与所述多个用户输入命令区域之一和所述一个用户输入命令区域被指派到的对应应用程序有关的数据。

8.如权利要求7所述的设备，其中所述应用程序控制模块配置成比较从所述识别模块收到的用户输入和每个所述指派简档以识别应用程序相关联的所述用户输入。

9.如权利要求8所述的设备，其中所述应用程序控制模块配置成比较所述用户输入的识别的用户输入命令区域和每个所述指派简档的用户输入命令区域，并且基于所述比较，识别匹配指派简档。

10.如权利要求1-9任一项所述的设备，其中每个用户输入命令区域包括所述计算环境内的三维空间，并且相对于上面呈现多窗口用户界面的电子显示器定位，其中一些所述窗口对应于相关联的应用程序。

11.一种用于指派语音和空中手势命令区域的方法，所述方法包括：

监视计算环境和所述计算环境内尝试与用户界面交互的至少一个用户；

接收所述计算环境内至少一个传感器捕捉的数据；

基于所述捕捉的数据，识别所述计算环境中所述至少一个用户的一个或更多个属性以及基于所述用户属性，确立用户输入，所述用户输入包括语音命令和空中手势命令至少之一和所述语音或空中手势命令发生的多个用户输入命令区域的一个对应区域；以及

至少部分基于所述对应用户输入命令区域，识别所述用户输入要控制的应用程序。

12.如权利要求11所述的方法，还包括基于所述用户输入，允许所述识别的相关联的应用程序的一个或更多个参数的用户控制。

13.如权利要求11所述的方法，还包括：

将所述多个用户输入命令区域之一指派到多个应用程序的一个对应应用程序；以及

生成具有与所述多个用户输入命令区域的所述一个区域和所述用户输入命令区域被指派到的所述对应应用程序有关的数据的指派简档。

14.如权利要求13所述的方法，其中所述识别要由所述用户输入控制的应用程序包括：

比较用户输入和具有与某个应用程序和指派到所述应用程序的所述多个用户输入命令区域之一有关的数据的多个指派简档；以及

基于所述比较，识别具有匹配所述用户输入的数据的指派简档。

15.如权利要求14所述的方法，其中所述识别匹配指派简档包括：

比较所述用户输入的识别的用户输入命令区域和每个所述指派简档的用户输入命令区域，并且识别具有匹配用户输入命令区域的指派简档。

16.至少一种上面存储有指令的计算机可访问介质，所述指令在由机器执行时，促使所述机器执行如权利要求11-15任一项所述的方法。

17.一种布置成执行如权利要求11-15任一项所述方法的系统。