CN104838335B

CN104838335B - 使用凝视检测的设备的交互和管理

Info

Publication number: CN104838335B
Application number: CN201380038063.XA
Authority: CN
Inventors: C.L.帕克; M.L.W.奧汉隆; A.罗维特; J.R.法默
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2012-05-18
Filing date: 2013-05-09
Publication date: 2018-04-24
Anticipated expiration: 2033-05-09
Also published as: CN104838335A; US10067563B2; US20130307771A1; US20180341330A1; EP2850504B1; US10845871B2; US20180059781A1; EP2850504A2; WO2013173148A3; WO2013173148A2; US9823742B2

Abstract

用户凝视信息可以包括用户视线、用户焦点、或者用户不在看的区域，用户凝视信息根据用户的身体、头、眼睛和虹膜定位而被确定。用户凝视信息被使用来为用户选择上下文和交互集。交互集可以包括用于语音识别系统的语法、用于手势识别系统的运动、用于用户健康参数检测系统的生理状态、或者其它可能的输入。当用户聚焦在所选择的对象或者区域时，与该对象或者区域相关联的交互集得以激活，并且被用来解译用户输入。交互集也可以基于用户不在查看的区域而被选择。多个设备可以共享凝视信息，以使得设备不需要其自身的凝视检测器。

Description

使用凝视检测的设备的交互和管理

背景技术

设备允许用户以多种方式输入信息，诸如使用键盘、定点设备和专用硬件按钮。对于定点设备，设备可以从鼠标和/或触摸板接收用户输入。如果配置有数字转换器，则也可以通过感测指示笔的接近度和触摸而进行输入（例如，经由笔或者手指来送入）。一些诸如基于平板的个人计算机那样的设备具有建造在显示屏中的数字转换器。这样的设备可以利用或者不利用键盘来操作。语音命令、眼球运动数据和凝视检测可以通过使用话筒和相机来被检测为对设备的输入，而不需要用户物理地触摸设备。

用户界面可以提供若干可供用户选择的选项或者选择对象。所显示的选项或者选择对象可以基于用户界面、设备或者用户环境、先前的选择等等的当前上下文而被确定。在当前系统中，上下文和显示选项或者选择对象全部需要对设备的主动用户输入，诸如通过按钮按压、鼠标移动或者点击、听得见的命令、程序交互等等。例如，使用通过触摸屏幕的手工输入或者通过语音检测器的话音输入，用户可以控制设备或者用户输入。用户可以应用话音或者手工输入来导航到子菜单中。每个子菜单典型地依赖于用户先前的输入，并且可以提供基于用户的最后输入的、减少数量的选项或者一组选择对象。

一些设备允许用户使用口语单词来送入命令。在一些情况下，相同的话音命令可以用在若干不同的上下文中。然而，用户必须在讲话之前手工地指明或者选择该命令与之相关联的上下文。

发明内容

本概要被提供来以简化的形式介绍概念的选择，这些概念还将在下面的详细说明中进行描述。本概要既不打算标识所要求保护的主题的关键特征或必要特征，也不打算被用来限制所要求保护的主题的范围。

在一个实施例中，设备基于用户的凝视来确定用于用户界面的合适的上下文，或者确定可用的用户输入，用户的凝视可以包括用户的视线和/或焦点。可用的用户输入可以包括例如指令集、语法和识别动作。指令集可以代表经由用户界面提供的菜单选择、显示选项或者按钮组。语法可以代表设备将检测的单词或者语音输入的组。识别动作可以代表对于触摸屏的可感触（tactile）输入、对于设备的触觉（haptic）输入、或者设备将识别的手势或者运动。

设备检测用户的凝视，并且将基于用户的视线或者焦点而选取合适的指令集、语法或者识别动作。例如，如果用户看着显示器上的按钮并且说“按钮设定”，那么设备将知道基于用户的凝视而诸如通过选择可用的命令单词的子集来减少语法，并且还可以基于凝视而调整显示上下文，诸如可用的按钮。在另一个示例中，图形用户界面（GUI）将指令集显示给用户。当检测到用户的凝视落在GUI上时，诸如图标、符号、菜单项、文本等等那样的GUI上的对象的顺序可以基于是用户凝视的焦点的对象而在显示器上被重新排序。

通过使用基于用户的焦点或者视线的视觉线索，在话音、手势或触摸使能的应用或者系统中的上下文选择得以改进。在一个看即是说（look-to-talk）的实施例中，基于用户的凝视来选择被使能用于系统的话音控制的上下文语法。在一个看即是触摸（look-to-touch）的实施例中，将被系统识别的触摸使能的动作是基于用户的凝视。在一个看即是手势（look-to-gesture）的实施例中，被使能用于应用或者系统的手势是基于用户的凝视。这些和其它实施例提供了看即是交互（look-to-interact）的系统，其通过将视觉线索与适合上下文的语音表达、语法、手势或者触摸相结合来形成完整的命令结构，缩短了到任何所期望的结果的通信路径。

在各种实施例中，用户的凝视可以被使用来例如：

-调整语音、手势、凝视、或者触摸识别器的上下文、用户界面或者其它检测设备；

-开启或者关闭用于语音、手势或者触摸识别器的当前识别集或者上下文库；

-对录制的语音分段，以使得能够进行连续语音识别的设备可以恰当地辨别将被视作输入或者命令的语音段；

-停止或者开始语音、手势或者触摸识别器；

-确定上下文；

-调整语音、手势或者触摸识别器中的语法；

-阻止语音、手势或者触摸识别器识别语音、手势或者触摸；

-确定动作或者用户输入的适用性；和/或

-确定用户不在看什么，并且使用其来调整语音、手势或者触摸和上下文。

用户的头、脸、眼睛和虹膜位置以及身体姿势和诸如语音或者手势那样的其它线索可以用来确定焦点、视线或者凝视。

在其它实施例中，多个设备和系统可以彼此传达凝视信息。这允许不具有凝视检测能力的设备获得凝视信息，凝视信息可被使用来选择或者修改上下文或者交互集。在多个设备之间的凝视信息的交换也可以被设备使用来确定不在看哪些设备，并且因此确定哪些设备不应该响应于输入。附加地，上下文选择和交互可以在一个设备上发生，而对语法、交互集或者识别动作组的调整在另一个设备上发生。多个设备可以彼此协同工作来确定适用于一个或者多个用户的凝视、上下文和语法。

附图说明

为了进一步阐明本发明的实施例的以上和其它优点及特征，将参考附图来呈递本发明实施例的更详细的描述。要理解的是，这些附图仅描绘出本发明的典型实施例，因此不被认为是限制其范围。将通过附图的使用，利用附加的特异性和细节来描述并解释本发明，其中：

图1是使用凝视检测来管理用户交互的系统的高级别方框图。

图2A和2B图示当用户看着显示器的不同区域时对显示的改变。

图3图示按照一个实施例的、采用凝视检测的汽车用信息娱乐（infotainment）系统。

图4A-4C图示按照一个实施例的、基于用户的凝视的软按钮面板的改变。

图5是图示按照示例实施例的系统的组件的方框图。

图6是图示共享凝视信息的多个设备的方框图。

图7是图示按照一个实施例的、用于使用凝视信息的方法或者过程的流程图。

图8是图示按照另一个实施例的、用于使用凝视信息的方法或者过程的流程图。

具体实施方式

设备可以基于用户的焦点，做出关于用户与其交互的意图的判定。用户凝视信息影响用于其它语音、手势或者触摸识别任务的上下文和交互集。交互集可以是例如在语音识别系统中使用的语法或者词典、在手势识别系统中使用的手势或者运动的库、或者在触摸识别系统中使用的一组动作或者触觉输入。凝视检测器确定用户正在看什么（即，用户的焦点）和/或用户正在看什么方向（即，用户的视线）。凝视信息被提供给可以与用户交互的设备。通过使用辨别用户正在看什么（或者不在看什么）的凝视信息，系统可以减少对于用户可用的交互集语法。例如，系统可以减少在语音识别系统中使用的语法，由于对可能的识别目标（例如，语句、短语、单词等等）的调整，这可以增加对于所检测的语音的识别概率。可替换地，系统可以减少将被识别的触摸输入，这限制用户仅使用允许的输入。系统还可以为手势设定上下文，这将允许简单的手势取决于上下文和用户的凝视而具有多个含义。也可以基于用户的凝视的焦点，安排或者重新安排显示器上的屏幕、菜单或者按钮的顺序。

在其它实施例中，可以检测来自用户的脑电波。交互集包括可以被用作对系统的输入的脑电波图案。在某些上下文中，脑电波交互集可以基于用户的凝视而选择。

用户的眼睛位置、眼球运动和眨眼速率也可以被检测。交互集可以包括所选择的、可以被用作对系统的输入的眼睛位置、眼球运动和眨眼速率。凝视检测器最初可以被使用来辨别用户的凝视信息，诸如焦点，并且随后可以基于凝视信息而选择基于眼睛的交互集。

凝视检测不限于眼睛和虹膜的位置，而是也可以包括头和脸的位置、身体姿势和其它有助于辨别用户的焦点或者视线的视觉线索。凝视检测可以例如通过处理用户的可见的、红外线的或者声纳的图像而完成。图像可以使用例如深度相机、数字或者模拟摄像机、红外线传感器和/或超声传感器来捕获。用户的身体、头和眼睛的位置和取向以及用户虹膜的相对位置可以从图像中提取，并且被使用来确定用户的焦点或视线。

图1是使用凝视检测来管理用户交互的系统101的高级别方框图。系统101包括将信息提供给用户的显示器102。显示器102可以是独立（self-contained）的单元（诸如CRT、LED或者LCD监视器）或者投影显示器（诸如CRT、LCD或者DLP投影仪）。用户界面控制器103将内容提供给显示器102。内容可以例如来自在处理器104或者固件105上运行的应用或者软件。

输入接口106允许用户将输入提供给系统101。输入可以是例如语音、手势、触摸或者其它动作中的一个或者多个。语音检测器107可以包括用来捕获用户声音的话筒。这些声音随后与已知单词的词典或者语法相比较，以辨别用户的口语输入或者命令。口语输入或者命令被提供到界面控制器103供进一步处理。手势检测器108可以包括用来捕获用户的运动或者手势（诸如手臂、手、头、腿、或者身体运动）的相机或者其它图像检测设备。这些运动或者手势与已知手势的库相比较，并且所识别的手势被提供给用户界面控制器103。触摸检测器109可能是构成显示器102所需的，显示器102可以是触摸屏或者可以是单独的组件，诸如绘图板、平板或者触觉控制器。触摸检测器109感测用户的物理动作，诸如用手或者一个或者多个手指触摸或者滑动（swipe）触摸屏。触摸检测器109也可以感测摇动、转动或者以其它方式移动触觉控制器。这些触摸输入可以与多组已知运动或者动作相比较。所识别的触摸或动作输入被提供给用户界面控制器103。

诸如任何人机界面设备（HID）110那样的其它输入设备可以视情况而与系统101一同使用。HID110可以是键盘、小键盘、触摸板、轨迹球、定点设备、控制器、或者生理传感器，诸如血压、脉搏、呼吸、体温、皮肤电阻率或者其它传感器。附加地，系统101也可以接收来自外部源111的用户输入。在一些实施例中，系统101不具有其自身的输入接口106，而必须使用外部用户输入111。

系统101还包括凝视检测器112，其监测用户的身体、头、眼睛和/或虹膜位置，以确定用户的视线和/或焦点。凝视信息可以包括视线数据（例如，指示用户正在看着哪个方向的方位角和仰角）和焦点数据（例如，空间中用户聚焦的特定对象或者点的身份）的任一项或两者。凝视信息被提供给用户界面控制器103，其可以使用凝视信息来选择用于显示器102的上下文，和/或选择与输入接口106一同使用的一组交互功能。系统101也可以接收来自外部凝视检测器113的用户输入。在一些实施例中，系统101不具有其自身的凝视检测器112并且必须使用外部凝视检测器113或者必须从其它设备接收凝视信息。

系统101可以包括用以存储用于与输入接口106一同使用的交互集114的存储器或者其它存储设备。每个输入检测器107-110可能能够检测许多不同的输入。例如，语音检测器107可以使用声音（它将其识别为输入的单词）的词典或者语法集，手势检测器108可以使用已知手势的库，而触摸检测器109可以使用多组已知运动或者动作。交互集114可以包括针对每个输入的整个词典、语法或者库，以及全集的子集。子集可以代表用于每个检测器的所选择输入的不同组合。例如，语音检测器107可以使用它能够识别的所有单词的整个语法集，或者可以使用对于特定情形是关键的几个选择单词的子集。整个语法集可能包括数以百计的单词，但是子集可能仅包括几个单词。例如，一个子集可能只是包括单词“开”和“关”，而另一个子集可能只是包括单词“开始”、“停止”、“倒回”、“快进”和“弹出”。

存储器或者存储设备存储交互策略115，用户界面控制器103使用交互策略115来确定在给定时间内或者在某些条件下使用哪个上下文或者交互集114。交互策略可以辨别例如当检测到不同类型的凝视信息时，使用哪个输入接口106和哪个交互集114。

在并不打算限制本发明范围的示例性实施例中，系统101可以在车辆中使用。显示器102可以是仪表组或者平视显示器（HUD，heads up display）的一部分。凝视检测器112可以是一个或者多个被安置来捕获车辆内驾驶员和/或乘客的图像的相机。凝视检测器112确定驾驶员已经聚焦于显示器102或者显示器102中的区域。用户界面控制器103可以把显示器102改变成呈现被选择用于驾驶员已经聚焦的显示器区域的上下文。用户界面控制器103可以进一步选择对应于驾驶员已经聚焦的区域的交互集114，以使得为该区域优化由驾驶员说出的任何命令。

通过辨别驾驶员聚焦的显示器区域，系统可以以用户预期的结果（诸如具有与驾驶员的聚焦区域有关的附加对象的新显示）来响应。例如，处理器104可能正运行在显示器102上呈现导航信息（诸如地图）的导航应用。凝视检测器112分析驾驶员的头和眼睛的位置。当凝视检测器112确定驾驶员正看着地图显示器102时，它将凝视信息发送到用户界面控制器103，从而将地图辨别为驾驶员的焦点。用户界面控制器103随后选择用于地图显示或者用于导航上下文的合适的交互集114。如果驾驶员随后说“找到家”，则语音检测器107识别命令，并且经由用户界面控制器103将命令提供给导航应用。导航应用然后计算到驾驶员家的地点的路线，并且在显示器102上显示该路线。如果驾驶员改而通过HUD看着建筑物并且用户说“找到家”，则HUD可以闪烁、显示光标、或者以某种其它方式指示街上的哪个房子是他们的“家”。

在接受话音命令、但是不具有凝视信息的当前车辆导航系统中，必须协商一组未加工的命令和响应，以达到相同的结果。附加地，驾驶员典型地必须在说话前按压话音命令按钮或者必须首先说出关键字从而以信号向系统通知话音命令到来。例如，当驾驶员按下话音命令按钮时，系统可以声明“说命令”。驾驶员说“导航”，那么系统通过声明“正在导航”进行确认。驾驶员随后说“寻找地点”，那么系统声明“正在寻找地点”来确认该命令。当驾驶员提供地址、请求路线并且选择优选的路线时，这些提示/命令/确认序列继续进行。

通过使用凝视信息，系统101可以假设驾驶员对导航感兴趣，并且一旦系统确定驾驶员正在看着地图，就将把其自身限制到一组导航命令中。通过选择合适的交互集，系统将改进辨别合期望的命令的概率。例如，因为系统知道驾驶员在看着地图，所以它将选择导航交互集。当语音检测器辨别口语命令“找到家”时，系统将查找地址，因为它已经被限制于导航输入。结果，系统将不必确定“找到家”命令是否与其它车载系统——诸如电话系统——相关联。因此，系统可以把“找到家”命令限制于导航场景，而不是不正确地尝试找到家的电话号码或者发出附加提示来澄清命令。系统可以临时地或者永久地被设定成所选择的上下文或语法。在该示例中，对于在驾驶员的凝视从地图上移开后的预先选择的持续期间，或者直到选择另一个上下文或者语法，只要驾驶员的凝视信息已经聚焦在地图显示器上，就可以设定导航上下文和/或语法。

应理解的是，系统101可以与两个或者更多个用户交互。凝视检测器112可能能够辨别多个用户和他们各自的视线或者焦点。可替换地，可以使凝视检测器112指向一个用户，诸如驾驶员，而可以使附加的或者外部的凝视检测器113指向另一个用户，诸如车辆里的乘客。两个用户可以同时与系统交互。每个用户具有系统可以识别的独特的焦点或者视线。系统可以基于用户各自的凝视信息（诸如每个用户正注视的对象）为每个用户选择合适的交互集。系统随后听取每个用户的命令并且针对该用户的焦点或者视线执行合适的响应。例如，如果驾驶员看着电话屏幕并且说“呼叫家”，那么启动对驾驶员家的电话号码的呼叫。如果乘客看着地图显示器并且说“找到我附近的食物”，那么系统将在地图上显示靠近当前地点的餐厅。

对多个用户的识别和对他们独立的凝视信息的辨别允许系统同时为多个用户服务。附加地，这种多用户能力允许系统确定哪个用户正在对系统说话和/或哪个用户没有对系统说话。例如，如果用户都没有看着地图显示器并且其中一个用户说“找到家”，那么系统可以不对这些作为导航命令的单词做出响应。交互策略115可以被使用来建立辨别何时将把某些潜在输入视作命令的规则。导航策略可以要求用户看着地图显示器，以便启动例如某些命令。对于不同用户，交互策略和交互集可以不同。例如，可以允许乘客拥有比驾驶员更详细的导航交互集，以便限制驾驶员在车辆内分心。

在另一个示例性实施例中，用户可以是信息工作者，而系统101可以被使用来显示文档。用户聚焦在所显示的文档上，并且使用挥动（waving）手势来一个页面一个页面地移动。手势检测器108将挥动运动辨别为潜在的输入。因为凝视检测器112已经将用户的焦点辨别为所显示的文档，所以系统将响应于挥动运动而改变页面。

用户也可以有同样合并了基于手势的输入的电话。电话可以将挥动运动解译为例如把入站呼叫发送到语音邮件的信号。当用户接收到呼叫时，电话将振铃并且用户的注意力转向电话。凝视检测器112辨别出新的、不是所显示文档的焦点。如果用户现在做出相同的挥动运动，则系统将不会改变文档的页面。替代地，可能具有或者可能不具有凝视检测器的电话将识别出手势，并且将把呼叫发送到语音邮件。用户随后将他或她的注意力转回到显示器102，并且可以继续使用挥动运动来翻阅文档。该手势信息可以从文档显示设备或者从检测手势的附加第三设备发送到电话。

用户也可以使用话音命令与设备交互。正显示在被用户阅读的文档的设备可以将单词“语音邮件”理解为命令，以打开语音邮件应用并通过设备播放语音邮件。当用户看着电话时，用户的电话将单词“语音邮件”识别为命令，以将进入的呼叫发送到语音邮件。当呼叫进来时，用户的凝视从文档转移到电话上，并且用户说“语音邮件”。因为用户没有看着文档，所以语音邮件应用不打开。替代地，电话将呼叫发送到语音邮件。文档设备可以将凝视信息发送到电话，从而指示用户正在看着电话，并且因此用户的语音应该由电话来识别。之后，当用户对文档设备说“语音邮件”时，文档设备通知不具有凝视检测器的电话：话音命令当前针对文档设备，并且因此电话不对语音命令起作用。在另外的实施例中，电话不具有语音识别器。当文档观看器确定电话是焦点并且用户说“语音邮件”时，文档设备将向电话通知这个交互，并且电话将采取合适的动作。

交互集或者上下文可以基于用户凝视的持续时间来选择。如果用户的凝视匆匆看过对象、区域或者显示器，则系统可以不对短暂的一瞥反应。然而，如果用户的凝视停留在一个对象、区域或者显示器的时间长于预定的持续时间，那么系统将基于凝视信息而调整上下文。这防止了对显示器和交互集的不必要的改变。

用户凝视的持续时间可以触发附加的响应。例如，短时间看着显示器可导致第一上下文被选择，而较长时间看着显示器可能导致第二上下文被选择。该第二上下文可以是子集、超集、独立集或者其它上下文的任何组合，但是不要求它具有重叠的来自第一上下文的特征。另一方面，如果用户太长时间地看着显示器并提供了附加输入或者没有提供附加输入，则系统可以提供反馈以警告用户：他或者她已经花费了太长时间看着显示器。这可以在车辆中使用，例如，如果在车辆移动时用户太长时间地看着导航屏幕，则其提供音响警告或者方向盘震动。相似地，如果系统确定用户的凝视没有以某个频度聚焦在道路上或者如果用户已经注视任何对象达长于预定持续时间的时间，则系统可以为用户提供反馈。

在各种实施例中，用户在特定方向上或对特定对象（或者不在特定方向上或不对特定对象）的凝视的持续时间可以设定或者重新设定上下文和交互集。例如，用户可以看着显示器达预定的持续时间，以触发特定的上下文/交互集。当用户转移目光时，所选择的上下文/交互集可以保留直到重新设定为止，或者保留达有限的间隔。上下文/交互集选择可以基于凝视的持续时间，但是也可以在用户转移目光后设定。

图2A和2B图示正在看着系统202上的显示器201的用户200，系统正呈现数个选项，包括媒体203、电话204和导航205。这些选项可以作为显示器201上的按钮、图块或者简单的单词而被呈现。凝视检测器206监测用户200，并且辨别用户的焦点。如在图2A中所图示的，用户的凝视207聚焦于媒体选项203。相应地，系统202知道用户当前对媒体子系统感兴趣，而不是对电话或者导航子系统感兴趣。系统202选择媒体交互集，其可以是与语音识别系统208一同使用的语法，语法包括媒体控制术语，诸如单词“开始”、“停止”、“倒回”、“快进”以及艺术家及歌曲名称和术语的列表。当用户200说“芝加哥”时，媒体系统列出来自音乐剧《芝加哥》的歌曲。

图2B图示用户200的凝视从媒体选项203改变到导航选项205。凝视检测器206辨别出凝视209的这个改变，以把导航选项205辨别为用户的焦点。系统202随后将由语音识别系统208使用的语法改变为包括街道、城市和其它地理术语的导航集。现在，当用户200看着导航选项203并且说“芝加哥”时，系统查找芝加哥的城市或者称作芝加哥的附近街道。

在一些实施例中，在对潜在输入做出反应之前，系统可以为了命令的进一步澄清或者确认而提示用户。例如，当用户说“芝加哥”时，系统可以以要求用户确认他或者她想要改变显示的提示进行响应，而不是立刻从当前所显示的路线转移成导航显示。系统的语法选择不总是隐含地或者明显地暗示或者要求系统无需验证便立刻行动。

图3图示按照一个实施例采用凝视检测的自动信息娱乐系统。当在本文中使用时，术语信息娱乐系统是指提供信息和娱乐的系统，信息是诸如导航和远程信息（telematics）数据，而娱乐是诸如音乐、视频、无线电广播和其它媒体。驾驶员看向挡风玻璃301外而看见道路302、信息标牌303和平视显示器（HUD）信息304。HUD信息304可以通过导航系统被投射到挡风玻璃301上，并且可以包括例如路线数据、速度数据、娱乐数据或者任何可能对驾驶员有帮助的其它信息。凝视检测相机305被使用来确定驾驶员的凝视信息。仪表面板306包括若干用于显示车辆信息的显示器或者刻度盘307。话筒308可被语音检测系统使用来捕获来自驾驶员的口语命令。信息娱乐屏幕308可被使用来显示导航数据（例如，地图或者路线信息）、娱乐数据（例如，电影视频或者媒体信息）或者其它数据（例如，视频呼叫或者互联网浏览器）。界面310为驾驶员提供若干软按钮、图块、图标或者文本，用来对信息娱乐系统选择各种选项。

在一个实施例中，仅当检测到驾驶员的凝视落在某些组件上（诸如仪表面板306、信息娱乐屏幕309或者软按钮屏幕310）时，才激活语音识别。例如，当驾驶员一直向前看向挡风玻璃301外并且尝试使用语音命令控制系统时，系统将不处于识别模式，并且因此将不接受口语命令。这允许驾驶员和乘客自由地交谈，而不会意外地触发任何系统功能。然而，当检测到驾驶员的凝视落在某些内部组件上时，那么系统将对驾驶员的口语命令做出反应。例如，如果用户随后看着信息娱乐屏幕309，那么系统将选择与信息娱乐组件相关联的交互集。如果驾驶员说“为我显示导航方向”，那么显示器将改变到地图、路线数据或者方向。

在另一个实施例中，用户的凝视可被检测为聚焦在公路标牌303上。系统可以随后选择合适的导航交互集，其被优化来提供与公路标牌303相关联的信息。交互集可以支持将会帮助驾驶员确定是否离开公路的命令，诸如提供油位（fuel level）、在需要加油前要走的英里数、或者到目的地的距离的命令。系统也可以改变信息娱乐屏幕309或者软按钮屏幕310的上下文。当检测到用户的凝视落在公路标牌303上时，信息娱乐屏幕309可以显示到标牌303上所示目的地的路线，或者可以列出在即将到来的出口所提供的商业或者服务。

软按钮310可以被选择成对应于公路标牌303。通过基于驾驶员的凝视而优化经由软按钮310可用的选项，系统可以使驾驶员必须看向车辆内部且将目光从路上移开的时间量最小化。例如，当驾驶员聚焦于仪表面板306时，软按钮301可以提供选项以调整仪表面板照明、改变在显示器307上示出的信息或者运行引擎检查。

在其它实施例中，车辆制造商或者信息娱乐OEM可以具有使上下文或者交互集选择无效的能力。例如，在某些情况下，制造商可以为了安全或者其它原因，决定限制驾驶员对信息娱乐系统的使用。

驾驶员的生理状态或者健康状况（诸如脉搏速率、血压和皮肤传导性）可以被监测。如果用户的凝视被检测为聚焦于另一个驾驶员或者车辆，那么辨别出可能生气、紧张、或者有路怒症（road-rage）的驾驶员。生理交互集可以被选择，并且驾驶员的血压被测量。如果驾驶员的血压高于预先设定的限制，那么系统将改变上下文来使驾驶员放松，诸如播放舒缓的音乐来避免路怒症事故。在另一个实施例中，如果驾驶员看着特定的点，那么选择用于生理测量的上下文。

软按钮显示可以基于驾驶员的在显示器本身上的焦点而改变。图4A图示按照一个实施例的一组示例性软按钮面板400。圆圈401代表当驾驶员看着软按钮面板时由凝视检测器所确定的驾驶员的焦点。在一些实施例中，圆圈401可以在面板400上显示，用来将反馈提供给驾驶员。然而，在图4A的示例中，圆圈401仅用来图示驾驶员的焦点。凝视检测器确定驾驶员正聚焦在用于“卫星广播”的软按钮或者图块402上。该系统可以以数种方式对该信息做出反应。在一个实施例中，系统可以简单地将车辆中的卫星广播开启或者关闭。

在另一个实施例中，系统可以选择与卫星广播相关联的交互集。该交互集可以是支持卫星广播话音命令的语法。可以将语法优化来辨别涉及音量设定和频道选择或者搜索（例如，“更大声”、“更安静”、“频道上调（channel up）”、“频道下调（channel down）”、或者“寻找__”）的口语单词。该交互集也可以是驾驶员运动的手势库，其可以用来控制卫星广播，运动是诸如使得卫星广播的音量或者频道改变的手、手臂或者头的运动。

替代（或者附加于）响应驾驶员对软按钮面板400的凝视而选择交互集，显示自身可以改变。当系统辨别出驾驶员的在卫星广播图块401上的凝视区域或者焦点401时，显示可以改变，如在图4B中所图示的。软按钮面板410包括与卫星广播选项401明确地相关联的选项。驾驶员可以通过触摸面板410上合适的按钮而选择预设的频道1-8、调整广播音量、或者开启/关闭广播。这将允许驾驶员用仅一次按钮按压即可做出广播选择。在先前的系统中，驾驶员必须进行多次按钮按压来到达相同的菜单410。如果驾驶员继续看着显示器但是不按压按钮的话，那么软按钮面板的附加层可以在面板410之后呈现。下一个面板例如可以是另外的预设频道9-16的列表，或者是允许驾驶员说出频道的名称或者号码的搜索菜单。

在一些情况下，系统可能不能辨别是驾驶员焦点的特定按钮，诸如按钮402。在这样的情况下，系统可以创建对在驾驶员的凝视或者视线之内的按钮进行扩展的新显示。例如，在图4A中，卫星广播、视频、FM广播和USB按钮都可以处在驾驶员的凝视401的误差容限之内。图4C图示替换的软按钮面板420，在其上扩展了在凝视区域401下的四个按钮。驾驶员看着新显示420，并且系统确定新的凝视区域或者焦点403。由于按钮大小增加，在图4C中更明显的是，驾驶员正看着卫星广播按钮404。系统可以随后选择卫星广播交互集或者呈现如图4B所示的卫星广播选项。

图5是图示按照示例性实施例的系统的组件的方框图。凝视检测器501接收用户凝视信息502，其可以是凝视检测器501处理的用户图像数据和/或视线数据（例如，指示用户正在看着哪个方向的方位角和仰角）和/或焦点数据（例如，空间中用户聚焦的特定对象或者点的身份）。

音频选择器503接收音频信息504，诸如用户的口语命令。音频选择器503确保将最佳的音频信号呈现给系统。例如，波束形成器和话筒阵列、大量的单独的话筒、或者单个话筒可以被使用来捕获和选择用户音频。音频选择器503也可以包括对输入音频504进行清理（clean）并且整形的数字信号处理组件。由音频选择器503进行的处理可以基于来自凝视检测器501的信号，诸如指示用户是否正面对着话筒或者指示几个用户中哪些在说话的信号。

按钮组件506是物理按钮或者软按钮，其可以被按压或者选择506，从而使凝视信息无效。在一个实施例中，按钮506是即按即说（push-to-talk）按钮。按钮505既可以影响对用于语音识别器的信息的选择，又可以影响对该信息的选通。

选通（gate）和分段器组件507通过开启和关闭语音识别器508（选通）来控制它。选通和分段器组件507也将音频信号分段并且将音频段与凝视信息中的改变配对。例如，用户可以在看着第一对象时说出一系列命令，并且随后在看着第二对象时说出其它命令。选通和分段器组件507将每组命令与合适的对象相链接。这些音频段被发送到语音识别器508以供识别。

凝视检测信息被提供给上下文引擎509，其可以影响语音识别。上下文引擎509理解凝视信息如何与显示器的某些组件、对象或者部分相联系，并且可以将用户凝视的改变应用到语音识别器508的操作。

语法调整510修改由语音识别器508使用的语法，从而改进对与用户当前的凝视相关的命令的识别，这诸如通过为凝视信息选择合适的交互集来进行。可替换地，语法调整510可加入对上下文独特的特殊识别目标。

动作调整511使用上下文信息和识别输出来执行由用户请求的特定动作。例如，术语“家”在不同的上下文中可以意味着不同的事物。在凝视信息的影响下，动作调整511将所识别的语音输出映射到正确的动作。

虽然图5图示了使用音频输入和用于接收用户命令的语音识别器，但应理解的是，在其它实施例中，可以附加于或者代替音频处理而使用任何输入。例如，替代音频选择器503，触摸选择器可以捕获来自触摸屏上的手指触摸和/或滑动的输入，或者相机可以捕获运动或者手势。可以使用触摸或者手势识别器而不是语音识别器508来解译由触摸或者手势指示的命令。

图6是图示共享凝视信息的多个设备的方框图。设备601和602都各自包括凝视检测器603和604。设备605不具有其自身的凝视检测器。每个设备601、602、605都具有一个或者多个输入检测器606。每个设备上的输入检测器可以被适配用于相同类型的输入，诸如语音、手势或者运动，或者每个设备可以具有不同类型的输入检测器。设备601、602、605还具有收发器模块607，其允许设备使用任何合适的通信技术、协议或者标准（诸如蓝牙、WiFi、红外线或者蜂窝无线电技术）来彼此间无线地通信。

收发器607允许设备除其它数据以外尤其交换凝视信息和输入信息。设备可以合作地使用凝视和/或输入信息。例如，设备601可以是智能电话，设备602可以是平板计算机，而设备605可以是电子书。每个设备都可以属于相同的用户。智能手机601和平板计算机602都具有相机，并且因此可以处理用户的图像以生成凝视信息。这些设备601和602可以使用它们自己的凝视信息来选择用于输入检测器606的合适的交互集。

附加地，设备601和602可以交换凝视信息，以帮助设备生成或者澄清凝视信息。例如，如果用户正看着设备601，那么凝视检测器603应该将设备601辨别为焦点。凝视检测器604应该确定设备602不是焦点。设备601可以发送指示它是焦点（即，“正看着我”）的信号或者含有特定凝视信息——诸如用户正在看着的焦点、地点或者方向——的信号。设备602可以发送指示它不是焦点（即，“没在看我”）的信号，并且可以包括特定的凝视信息。当设备601也检测到输入（诸如口语命令、手势或者其它动作）时，它将对输入做出反应，因为它知道它是焦点（并且具有来自设备602的确认：它不是焦点）。相似地，设备602可以检测对于设备601的输入，并且不应响应于该输入，因为它已经确定它不是焦点（并且具有来自设备601的确认：它是焦点）。

不具有其自身的凝视检测能力的设备605可以依赖于来自设备601和602的凝视信息而确定其是否应该响应于所检测到的输入。例如，设备可以彼此链接并且可以彼此知道。当设备605接收到来自设备601和602的关于它们不是焦点的信号时，那么设备605可以假设它是焦点，并且可以响应于任何所检测到的输入。可替换地，设备601和/或602可以将特定的凝视信息发送到设备605，所述凝视信息诸如是用户正看着的焦点、地点或者方向。这个特定的凝视信息可以允许设备605确定它实际上是用户的聚焦的点。例如，特定的凝视信息可以被联系到公共基准点、GPS坐标、或者允许设备将焦点匹配到其自身地点的其它数据。

图7是图示按照一个实施例的、用于使用凝视信息的方法或者过程的流程图。在步骤701，用户凝视信息被设备接收。用户凝视信息可以是用户正看的方向或者用户的焦点或者是这两者。用户凝视信息可以辨别未被用户的凝视所覆盖的区域。用户凝视信息可以由内部或者外部的设备或者相机提供。附加地，用户的凝视信息可以包括持续时间，其指示用户的凝视聚焦于感兴趣点或者聚焦在一个方向上有多长时间。

在步骤702，基于用户凝视信息来修改设备与用户交互的方式。修改设备如何与用户交互可以包括在步骤703选择特定用户界面上下文和/或在步骤704选择交互集。用户界面上下文可以包括例如像用户界面菜单或者用户界面组件的安排。交互集可以包括例如用来解译用户语音输入的语法集、用来解译用户手势的手势集、用来监测用户的健康因素的用户生理集。

在步骤705，所有可用的用户交互的子集可以被选为对设备的可能输入。例如，语法集可被收窄到与用于设备的特定特征的命令相关联的单词的子集。在另一个实施例中，用户交互的子集可以包括对在显示器上的项的重新安排，诸如在显示器上添加项目、删除项目、和/或放大或者缩小。

在步骤706，设备接收用户的输入，诸如语音、手势或者其它动作。在步骤707，如果用户的输入落入所选择的交互集或者子集，那么输入被设备接受。例如，如果用户的语音对应于所选择语法集中的单词，那么设备将接受该语音以作为输入或者命令。

图8是图示按照另一个实施例的、用于使用凝视信息的方法或者过程的流程图。在步骤801，定义可以用来与设备交互的一组用户输入。这组用户输入可以包括例如以下的一项或者多项：语音输入、手势输入、动作输入、人机界面设备输入或者用户生理输入。在步骤802，来自一个或者多个用户的凝视信息被设备接收。在步骤803，这组用户输入基于来自一个或者多个用户的凝视信息而被过滤。在步骤804，从已过滤的用户输入集中辨别出将被设备接受的用户输入的子集。

在步骤805，辨别用户动作。用户动作可以包括例如语音、手势、或者其它动作、或者其它对键盘、定点设备、触摸板或者其它输入设备的输入。在步骤806，用户动作与用户动作的子集相比较。在步骤807，设备确定动作是否将被处理。

用户凝视信息可以被使用来辨别将被系统接受的用户手势的子集。用户手势随后将被分析，以确定运动是否与子集内的手势相匹配。在一个实施例中，用户可以被限制为：对于预先确定的时段，仅使用用户输入的子集而不使用其它输入与设备交互。

应理解的是，图7所示的过程的步骤701-707和图8所示的过程的步骤801-807可以同时地执行和/或顺序地执行。应进一步理解的是，每个步骤可以以任何顺序执行，并且可以只执行一次或者重复执行。

一些实施例针对用于调整用户界面元素和/或更改用户界面的方法、系统和计算机程序产品。在一些实施例中，访问用户凝视信息。感兴趣的用户界面元素基于该凝视信息被辨别。调整用户界面元素中的一个或者多个，以便基于凝视信息来优化与用户界面的用户交互。一个或者多个所辨别的用户元素在用户界面内被调整。相应地，一个或者多个所辨别的用户界面元素的呈现在显示设备上被改变。用户界面屏幕描绘出改变了元素的大小、间距和颜色的用户界面调整，如在待决的美国专利申请No. 13/316,101中描述的，所述美国专利申请No. 13/316,101名称为“Adjusting User Interface Elements”，于2011年12月9日提交，其全部公开内容通过引用合并到本文中。

另外的实施例针对用于调整用户界面屏幕顺序和构成的方法、系统和计算机程序产品。基于用户凝视信息从屏幕流内辨别出一个或者多个感兴趣的用户界面元素。鉴于凝视信息而规划对于一个或者多个屏幕上的流的调整，以便利于对屏幕流之内的规定的用户界面元素的更合适的访问。按照所规划的调整来调整屏幕流，以便更适当地访问某些用户界面元素。在一些实施例中，当规划屏幕流调整时，替换地或者组合地使用上下文信息。上下文信息可以代表用于应用的操作上下文。基于操作上下文和用户凝视信息，把要被调整的一个或者多个感兴趣的用户界面元素从屏幕流内辨别出来，如在待决的美国专利申请No. 13/316,211中所描述的，所述美国专利申请No. 13/316,211名称为“Adjusting UserInterface Screen Order and Composition”，于2011年12月9日提交，其全部公开内容通过引用合并到本文中。

下文的非限制性示例图示可以合并凝视检测技术的系统的不同实施例。

在第一个非限制性示例中，用户与具有屏幕和若干软件按钮的系统交互。系统实施凝视检测，从而其可以确定用户是否正与按钮或者屏幕相交互。当用户凝视按钮并且说出按钮设定时，系统基于凝视信息而知道用户正看着按钮。系统随后使用按钮的上下文来识别口语设定。如果系统没有使用凝视信息，则用户将必须手工导航，例如从根->控制->设定->按钮。

在第二个非限制性示例中，用户可能正在使用具有左、右和中间三个显示器的机器。左边的显示器显示用于该机器的技术手册，中间的显示器显示机器控制，而右边的显示器显示机器状态。在这个实施例中，语音识别器可以连续运行。在操作期间，用户看左边并且说“打开流”，随后看中间并且说“打开流”，以及最后看右边并且说“打开流”。语音识别器使用头部位置（head position）来将用户连续的（running）语音分段。因此，系统使用左边显示器上下文来打开手册中的流章节，使用中间显示器上下文来打开对于给机器的电流的控制，并且使用第三个显示器上下文来打开与到工具的流的历史有关的统计数字。

在第三个非限制性示例中，购买者处于嘈杂的商场环境中。数字标牌或者信息亭位于商场中部，并且被适配成响应口语命令或者查询。当购物者走过标牌或者信息亭时，他们被监测，并且他们的凝视被跟踪。在这种情况下，系统仅响应于当购物者直接看着标牌或者信息亭时所给出的命令或者查询。

在第三个非限制性示例的一个变形中，标牌或者信息亭可以具有用于通知购物者如何交互的明显方法。例如，在标牌上可以存在贴纸或者布告，写明购物者必须看着标牌上的具体点，以便与设备交互。在这种情况下，标牌将排除所有不在看着通知的用户。这将防止正看着标牌或者正看向标牌方向、但是与同伴购物者交谈的人们改变标牌的状态。

在第三个非限制性示例的另一个变形中，标牌是商场的地图，而购物者正看着地图。用户看着地图上的第一个商店，并且说“置于中心”。系统通过跟踪购物者的凝视而知道他或者她正看着哪里，并且响应于“置于中心”的命令，把购物者正在看的第一个商店置于地图的中心。购物者随后看着地图上的第二个商店并且说“信息”。系统随后显示用于用户曾在看的第二个商店的信息，而不把第二个商店重新置于地图的中心。

在第四个非限制性示例中，计算机控制房间内的所有的或者大部分的电子装置。用户指定与计算机的交互将通过诸如反射罩（bowl）的指定对象发生。计算机具有凝视检测器，其确定用户是否聚焦于反射罩上。如果用户正看着反射罩并且说了什么，那么语音识别器处理语音，以便理解所讲述的命令。例如，用户可以看着反射罩并且说“开灯”，从而打开房间的灯。如果用户没有看着反射罩（或者其它所指定的对象），那么用户不能命令房间内的计算机或者电子设备。

在第五个非限制性示例中，车内的信息娱乐系统只有当用户正看着信息娱乐显示器时或者当驾驶员已经按压PTT按钮时，才将与用户交互。如果驾驶员按压PTT按钮，那么系统将只听从驾驶员的。在其它情况下，正看着信息娱乐显示器的人（例如，驾驶员或者乘客）具有使用语音来命令系统的能力。例如，如果乘客和驾驶员在谈论可能的目的地，那么系统将不会尝试使用驾驶员或者乘客的语音进行导航，除非他们中的一个人正凝视着显示器或者如果驾驶员是在压下PTT按钮之后说话。

在第六个非限制性示例中，数字标牌位于商场中部。该标牌确定购物者没有看着它，但是检测到购物者说“为我显示地图”。知道了购物者没有看着它，标牌辨别出为购物者显示地图的可替换方式。标牌可以将具有到地图的链接的通知推送到购物者的电话，或者将地图本身发送到购物者的电话。

在第七个非限制性示例中，凝视检测系统安装在工厂各处。凝视检测器注意到工人的凝视聚焦于零件架子上。工人具有加固的平板（ruggedized tablet）并且按压平板上标签为“库存”的按钮。平板随后运行用于工人正在看着的架子上的零件的库存应用。

在第八个非限制性示例中，消费者携带背面（指向远离消费者的方向）具有摄像机和前面（面对消费者）具有凝视检测系统的触摸设备。消费者将摄像机瞄准场景，并且场景显示在设备上。凝视检测系统确定消费者的焦点在显示器的哪里，将该焦点与场景相关，并且提供关于消费者正在看的对象的上下文特定的信息。

在第九个非限制性示例中，驾驶员看着公路出口标牌。系统具有现用的导航路线并且确定驾驶员正看的标牌不是路线的一部分。系统为驾驶员提供到下一个转弯的距离，并且如果HUD可用的话，将红色X投射在标牌上，以使驾驶员不离开公路。

在第十个非限制性示例中，系统可以运行多个操作系统。系统确定哪个用户正在看着屏幕并显示那个用户的操作系统和相关联的界面。系统也可以为每个用户选择不同的交互集或者语法，和/或允许针对每个用户的不同的控制范围。

在第十一个非限制性示例中，街道相机执行凝视检测，并且将凝视信息发送给路过的车。通过使用该凝视信息，车随后实现对合适的上下文的选择或者交互集选择。凝视检测可以来自于任何外部源。

在第十二个非限制性示例中，诸如云服务那样的外部源为设备提供上下文。诸如语法那样的交互集被存储在设备上，并且基于由外部源提供的上下文而被选择。凝视信息可以被使用来进一步选择上下文和/或交互集。凝视信息可以与云服务交换，从而辨别上下文。

在另外的非限制性示例中，单词“打开”可以对应于车辆系统中的若干不同命令。取决于用户的焦点或者凝视的方向，单词“打开”可以使得系统解锁车辆的门、打开电动门（power door）或者掀背式车（hatchback）、打开车库门、打开音乐文件夹、或者打开CD抽屉。

再次参考图1和本文公开的其它实施例，系统101仅是用于实施凝视检测的适当环境的一个示例，并且其不打算提出任何关于本发明的用途或者功能性的范围的限制。本发明可与许多其它通用或专用计算系统环境或者配置一起来操作。可以适合与本发明一同使用的众所周知的计算系统、环境和/或配置的示例包括但不限于：个人计算机、服务器计算机、手持式或者膝上型设备、平板设备、多处理器设备、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型计算机、大型计算机、包括任何上述系统或者设备的分布式计算环境等等。

可以在诸如程序模块那样的由计算机执行的计算机可执行指令的一般上下文中描述本发明。一般地，程序模块包括执行特定任务或者实施特定抽象数据类型的例程、程序、对象、组件、数据结构等等。本发明也可以在分布式计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中，程序模块可以位于本地和/或远程计算机存储介质中，其包括存储器存储设备。

用于实现本发明的各个方面的示范性系统可以包括具有计算机形式的通用计算设备。组件可以包括但不限于：各种硬件组件（诸如处理单元）、数据存储装置（诸如系统存储器）、和把包括数据存储装置的各种系统组件耦合到处理单元的系统总线。系统总线可以是若干类型的总线结构的任何一种，总线结构包括存储器总线或者存储器控制器、外围总线、和使用多种多样的总线架构的任一种的本地总线。作为示例而不是限制，这样的架构包括工业标准结构（ISA）总线、微通道结构（MCA）总线、增强型ISA（EISA）总线、视频电子标准协会（VESA）本地总线、以及也被通称为夹层（Mezzanine）总线的外围组件互连（PCI）总线。

计算机典型地包括多种多样的计算机可读介质。计算机可读介质可以是任何可由计算机访问的可用介质，并且包括易失性和非易失性介质、以及可拆卸和不可拆卸介质，但是排除传播的信号。作为示例而不是限制，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或者技术实施的、用于存储诸如计算机可读指令、数据结构、程序模块或其它数据那样的信息的易失性和非易失性、可拆卸和不可拆卸介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪速存储器或者其它存储器技术、CD-ROM、数字多功能盘（DVD）或者其它光学盘存储装置、盒式磁带、磁带、磁盘存储装置或者其它磁存储设备、或者可被用来存储期望的信息并且可被计算机访问的任何其它介质。通信介质典型地将计算机可读指令、数据结构、程序模块、或其它数据具体化为诸如载波或其它输送机制那样的调制的数据信号，并且包括任何信息传递介质。术语“调制的数据信号”是指使它的特性中的一个或多个以如下方式设置或改变的信号，即：将信息编码在信号中。作为示例而不是限制，通信介质包括有线介质和无线介质，有线介质诸如是有线网络或者直接连线的连接，无线介质诸如是声学、RF、红外线和其它无线介质。以上的任一项的组合也可以被包括在计算机可读介质的范围内。计算机可读介质可以被具体化为计算机程序产品，诸如存储在计算机存储介质上的软件。

数据存储装置或者系统存储器包括具有易失性和/或非易失性存储器形式的计算机存储介质，诸如只读存储器（ROM）和随机访问存储器（RAM）。基本输入/输出系统（BIOS）（包含比如在启动期间帮助在计算机内元件之间传递信息的基本例程）典型地存储在ROM中。RAM典型地包含能被处理单元直接访问和/或当前正被处理单元操作的数据和/或程序模块。作为示例但不是限制，数据存储装置存放操作系统、应用程序以及其它程序模块和程序数据。

数据存储装置也可以包括其它可拆卸/不可拆卸、易失性/非易失性计算机存储介质。仅作为示例，数据存储装置可以是：硬盘驱动器，其从不可拆卸的非易失性磁介质中读取或者向其中写入；磁盘驱动器，其从可拆卸的非易失性磁盘中读取或者向其中写入；以及光盘驱动器，其从可拆卸的非易失性光盘中读取或者向其中写入，可拆卸的非易失性光盘是诸如CD ROM或者其它光学介质。可在示范性操作环境中使用的其它可拆卸/不可拆卸、易失性/非易失性计算机存储介质包括但不限于：盒式磁带、闪速存储卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。驱动器及其相关联的计算机存储介质提供了对于计算机可读指令、数据结构、程序模块和用于计算机的其它数据的存储。

用户可以通过用户界面或者其它输入设备输入命令和信息，其它输入设备是诸如平板、电子数字转换器、话筒、键盘，和/或一般被称为鼠标的定点设备、跟踪球或者触摸板。其它输入设备可以包括控制杆、游戏板、圆盘式卫星电视天线（satellite dish）、扫描仪等等。附加地，话音输入、使用手或手指的手势输入、或者其它自然用户界面（NUI）也可以与诸如话筒、相机、平板、触摸板、手套或者其它传感器之类的适当输入设备一同使用。这些和其它输入设备经常通过与系统总线相耦合的用户输入接口而被连接到处理单元，但是可以通过其它接口或总线结构而被连接，诸如通过并行端口、游戏端口或者通用串行总线（USB）来连接。监视器或者其它类型的显示设备也经由诸如视频接口那样的接口而被连接到系统总线。监视器也可以与触摸屏面板等等集成在一起。要指出的是，比如在平板类型个人计算机中，监视器和/或触摸屏面板可以物理地耦合到外壳，计算设备被合并在外壳中。附加地，诸如计算设备那样的计算机也可以包括其它外围输出设备，诸如扬声器和打印机，其可以通过输出外围接口等等而被连接。

计算机可以通过使用到一个或多个远程设备（诸如远程计算机）的逻辑连接而在联网的或者云计算的环境中操作。远程计算机可以是个人计算机、服务器、路由器、网络PC、对等设备或者其它公共网络节点，并且典型地包括以上相对于计算机描述的许多或者所有的元件。逻辑连接可以包括一个或者多个局域网（LAN）和一个或者多个广域网（WAN），但是也可以包括其它网络。这样的联网环境在办公室、企业范围的计算机网络、内联网和互联网中是常见的。

当在联网的或者云计算的环境中使用时，计算机可以通过网络接口或者适配器连接到公共或者私有网络。在一些实施例中，调制解调器或者其它装置用于通过网络建立通信。调制解调器（可以是内部的或者外部的）可以经由网络接口或者其它合适的机制连接到系统总线。诸如包括接口和天线的无线联网组件可以通过适当的设备（诸如接入点或者对等计算机）耦合到网络。在联网的环境中，相对于计算机描绘的程序模块或者其一些部分可以被存储在远程存储器存储设备中。可以意识到的是，所示的网络连接是示范性的，且可以使用在计算机之间建立通信链接的其它手段。

虽然本主题是以特定于结构特征和/或方法动作的语言描述的，但应当理解在所附权利要求中限定的主题不是必然地局限于上述的特定特征或动作。而是，上述的特定特征和动作是作为实施权利要求的示例性形式而公开的。

Claims

1.一种用于使用凝视信息的方法，包括：

在由用户操作的设备上接收该用户的用户凝视信息，和

响应于该凝视信息指示该用户正凝视该设备的一部分，选择交互集作为对该设备的可能的输入且由该设备响应该用户的输入，其中该交互集是用来解译用户语音输入的语法集、被用来解译用户手势的手势集、或者被用来监测用户生理因素的用户生理集；以及

响应于该凝视信息指示该用户未在凝视该设备的任何部分，经由该用户操作的另一设备来响应该用户的输入。

2.如权利要求1的方法，其中用户凝视信息是该用户正在看的方向、或者是该用户的焦点、或者是这两者。

3.如权利要求1的方法，其中用户凝视信息辨别未被用户的凝视所覆盖的区域。

4.如权利要求2的方法，其中用户的焦点由外部的设备或者外部的相机提供。

5.如权利要求1的方法，其中用户凝视信息包括凝视持续时间。

6.如权利要求1的方法，其中用户语音输入包括一个或多个口语命令。

7.如权利要求1的方法，进一步包含：

定义可以被用来与设备交互的一组用户输入；并且

基于来自一个或者多个用户的凝视信息，过滤该组用户输入，从而辨别将被所述设备接受的用户输入的子集。

8.一种用于使用凝视信息的设备，包括：

凝视检测器，其适于生成凝视信息，所述凝视信息辨别用户视线或者用户焦点或者用户没有在查看的区域；以及

用户界面控制器，其耦合到或者集成到该设备，该用户界面控制器适于：

响应于该凝视信息指示该用户正凝视该设备的一部分，而激活由该设备可识别的一组音频输入，识别由该用户说出的音频命令且经由该设备来提供对该音频命令的音频响应；以及

响应于该凝视信息指示该用户未在凝视该设备的任何部分，经由另一个设备来向该用户提供信息。

9.如权利要求8的设备，进一步包括：

用户输入检测器，其适于识别用户动作，和辨别所述动作是否在该组音频输入内。