CN104321718A

CN104321718A - 用于人类自然命令控制的多模态行为感知

Info

Publication number: CN104321718A
Application number: CN201380028066.5A
Authority: CN
Inventors: N.卢; A.K.鲍夫米克
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2012-06-29
Filing date: 2013-05-31
Publication date: 2015-01-28
Also published as: US20140007115A1; WO2014003977A1; EP2867746A4; EP2867746A1

Abstract

通过使用以多模态的自然命令来控制计算机系统。在一个示例中，一种方法包括：接收以第一模态的第一命令，接收以第二模态的第二命令，确定第二命令是否证实第一命令，并且如果第二命令证实第一命令则执行第一命令。

Description

用于人类自然命令控制的多模态行为感知

技术领域

本公开涉及通过使用自然命令来控制计算机系统，并且具体地涉及检测多个模式的人类行为以作为命令。

背景技术

语音和姿势命令已经在各种各样的领域中被开发用于人机交互。已经开发了识别语音命令的软件应用。语音命令可以由计算机或者更最近地在远程服务器处被解释，所述远程服务器然后将命令提供回到本地设备。还已经开发了识别姿势命令的各种系统。这些最近对于游戏已经变得商业上流行起来，但是还已经被开发用于呈现软件和其它目的。

在将语音或姿势用作人机接口时，总是存在这样的风险：用户可能正在与另一个人或甚至另一个机器交谈，但是机器将人类行为解释为命令。对于可靠的操作，计算机应当知道何时命令真的旨在作为用于计算机执行的指令或仅仅是正常人类活动的部分。口头命令可以例如碰巧是某人正在视频会议呼叫中讲述的故事的一部分。为了避免用户命令或姿势的误解，一些系统使用一种机制，用户利用所述机制可以寻址机器。为了向机器指示用户意图语音命令、姿势或其它类型的输入，一些地址或键盘命令首先被提供。

为了完全避免误解命令，机器操作者可以使用键盘和鼠标设备。这些允许命令被精确地做出并且精确地指向特定机器。然而，它们对于人机交互而言不是自然的并且是非直观的。在使用姿势或语音命令的一些系统中，用户约束他们的行为以适应于机器。例如，用户可以在任何命令之前插入代词或恰当的名称作为主体，诸如在每个命令之前呼叫“计算机”。这允许计算机听取其声音的地址或名称并且避免执行在正常对话或呈现中所包含的命令。另一途径是要求用户在延长的时间内保持姿势。这是非正常的姿势，因此计算机将不把它与其它正常姿势混淆。这些途径需要用户做一些特别的事以从正常人类行动中区分计算机命令。结果，在平常的行动或言语之外，使得计算机交互感觉不自然并且不直观。

附图说明

作为示例并且不是作为限制地在附图的各图中图示了本发明的实施例，其中同样的参考标号指代类似的元件。

图1是根据本发明的第一实施例的本发明的硬件实现的框图。

图2是根据本发明的第二实施例的本发明的硬件实现的框图。

图3是根据本发明的实施例的用于通过使用第二命令来确认第一命令的过程流程图。

图4是根据本发明的实施例的适合于实现本公开的过程的计算机系统的框图。

具体实施方式

在下述一些示例中，计算机将多个模态组合在一起以便计算机具有更好和更准确的基础来确定何时用户想要陈述或姿势成为用于计算机的命令。这可以使得系统适配于用户，而不是让用户适配于系统。结果，整个人机接口体验对于用户而言更自然并且直观。在一个示例中，这可以通过使用用户意图感知组件来进行，所述用户意图感知组件过滤掉可能对计算机而言看起来像命令信号但不是的非故意信号。

本发明的实施例可以应用于使用相机作为主输入设备的任何无键盘PC（个人计算机）设计或无键盘用户接口设计，并且其中导航或应用命令由多个模态控制。它还可以应用于从用户感知的视角来看涉及多层通电策略的任何PC设计。虽然在PC的上下文中描述了实施例，但是所描述的实施例可以应用于接收用户命令的任何设备，包括计算机、演示系统或娱乐系统。

命令结构典型地具有若干层操作。如图1中所示，命令结构系统100具有某种类型的传感器110，典型地为键盘、鼠标、触摸板或触摸屏。另外，还可以使用相机和麦克风。通过监控器112、针对命令来监控传感器。在一些情况下，传感器生成被转发给中断检测器116的中断113。监控器112经由传感器110来连续并恒定地或者以间隔而监控环境。它基于传感器的类型而生成不同类型的警告或中断信号。对于键盘，存在针对不同键的不同信号。对于触摸板，可以存在针对不同水平的按压和速度的不同水平。在其它情况下，传感器可以是电容或电阻测量电路、水位计量仪、温度计、湿度计、质谱仪等等。

在报告层级，如果所监控的传感器生成事件，这样的对轮询信号的响应或中断，那么这被检测116并且被指示给报告系统114。报告层级处理所监控的信号并且生成对应的命令。在PC的情况下，敲击特定键被解释为字母或命令符号。转化器118接收报告并且将那些指令转化成可行动的控制信号。命令控制装置120然后根据命令的性质和特定系统的配置来履行或执行所期望的行动。

该系统100允许一种使用场景，其中，例如用户正在键入文档。用户然后通过说“删除上一个字”或“将光标往后移动两行”而使用语音命令来编辑文档。这可以大大地改善使用系统的便利性。这样的结构针对命令而监控112单个传感器110。系统具有单个模态，或者是键盘和鼠标、或是触摸屏、或是姿势、或是语音等。一些系统可以允许不同的模态被用作可替换方案。结果，存在这样的风险：命令可能被误解或者并非意图作为命令的某事物可能被解释为命令。这可以通过使用模态的组合来避免。可以通过将附加传感器耦合到监控器112或者通过重复命令结构系统来支持每种附加传感器类型而支持附加的模态。

模态的组合允许系统消除非故意的命令指令的执行。可以在演示幻灯片展示或混合媒体演示的上下文中考虑多个模态的简单使用示例。用户可以组合例如卷动手势与短语“下一张幻灯片”，而不是仅仅陈述“下一张幻灯片”。手势例如易于执行并且防止演示系统在非意图的时候改变幻灯片。在这种情况下，手的卷动姿势可以是在演示期间或在正常对话期间使用的常见自然姿势。类似地，短语“下一张幻灯片”可能在讨论幻灯片而没有意图所显示的幻灯片改变到下一张幻灯片时使用。通过要求大约同时做出姿势和陈述二者，系统允许用户在非常小的误解机会的情况下容易地移到下一张幻灯片。

另一使用场景还组合了接收口头命令的麦克风与观察操作者的相机。对于任何应用，用户可以告诉计算机“关闭窗口！”。这可以是对计算机的命令，但它可能代替地是向房间中位于打开的窗户附近的某人说的。相机可以用于人脸检测。相机可以用于确保说话者正看着具有打开的窗口的计算机屏幕，而不是移开目光看着房间的另一部分或者看向另一监控器上的不同窗口。相机可以不仅用于注意力的方向，而且还用于确保当接收到“关闭窗口”音频时，看着计算机屏幕的人也正在讲话。

除了使用多于一个模态之外，系统可以此外通过使用证实来确保发出了命令。在以上示例中，两个不同的传感器模式被组合以确保发出了命令。传感器、麦克风和相机在典型系统中总是活动的。作为可替换方案，可以使用证实，其在用信号通知候选命令控制之后被激活。

证实可以是隐式或显式的。隐式证实得到关于用户的主动意图的信息而不需要来自用户的任何特定行动。可以以这样的方式来查看“关闭窗口”示例。如果主动意图证实失败，于是接收命令的应用可以具有丢弃该命令的选项。可替换地，可以使用其它隐式证实或发起的显式证实。

显式证实需要来自用户的一些行动。这样的显式证实的示例是由系统发起的提示以证实命令。简单的示例将是系统呈现是或否的问题。作为示例，计算机可以生成音频信号来重复它从用户陈述中推断的命令。在这样的情况下，计算机陈述“你真的想关闭当前窗口吗？”如果用户回答是，那么命令得到证实。使用对用户意图的隐式和显式证实的智能实现避免侵扰用户体验并且还消除了在非故意的命令被执行的情况下的用户挫败。

图2示出了命令结构系统200的示例，其中所观察的以一个模态的命令可以由所观察的以另一模态的命令来证实。在210处，一个或多个传感器用于检测话语姿势、眼睛追踪、以及以一个或多个模态的其它类型的命令输入。传感器数据被应用于监控器212、222、232。监控器中的每一个被示出为耦合到相同的传感器数据，然而，不同的传感器数据可以专用于每个监控器，这取决于特定实现。

每个监控器将输出提供给判定框213、223、233，其注意看监控器是否已产生了中断。当发现中断时，那么中断被馈送到队列242中，所述队列242将所述中断馈送到报告模块214。定序队列基于何时生成了中断来为中断定序。在一些实现中，定序队列可以将一些类型的中断定序在其它类型的中断之前，以使得这些中断接收更快的注意。例如，键盘输入可以被提供有更高的优先级。对于一种系统，如上所述，其中以不同的模态提供命令，首先使用的模态可以被给予更高的优先级。如果系统被配置成接收伴随有手势的有声或话语命令“下一张幻灯片”，那么麦克风传感器可以被定序成第一。以这种方式，系统当它接收到用于手势的中断时对手势的证实有所准备。可替换地，判定框可以并入到监控器中或者定序队列中。

定序队列以特定的次序将中断发送到报告模块214。报告模块接收中断并且处理中断以向系统生成命令。话语命令“下一张幻灯片”被转换成去往演示程序中的命令来以向下翻页、向下箭头或鼠标按压将会是的相同方式移到下一张幻灯片。报告模块将命令供应到转化器218，其将该更高层级的命令转化成控制信号。

控制信号然后触发隐式证实模块246。正当话语命令“下一张幻灯片”已被报告并转化时，伴随的手势也将导致对定序尾接指令（cue）的中断，以及来自报告模块的命令，以及然后来自转化器的对应控制信号。隐式证实，在接收到“下一张幻灯片”时将等待直到它接收到手势为止。如果它接收到该隐式证实，那么在248处，“下一张幻灯片”控制信号被提供给命令控制装置220以供执行。因此，隐式证实模块246中断对所接收命令的执行直到它接收到那些命令的证实为止。

如果隐式证实模块246没有接收到隐式证实，那么第一命令或以第一模态的命令被发送到显式证实模块250。证实判定可以被定时。换言之，可以存在用于隐式证实的定时器（未示出），以使得必须在所选时间间隔内接收到证实，否则命令要么被拒绝要么被发送到显式证实模块250。对于将会几乎同时被提供的两个模态，时间间隔可以非常短，也许少于一秒。对于用户以特定顺序执行的两个模态，那么可以提供几秒。

显式证实模块250将向用户提供提示，诸如视频或屏幕提示或音频提示。显式证实模块250于是将等待答复在传感器210处被检测、通过监控器212被发送，并且通过报告被馈送，转化，以及监控器阶段在显式证实模块250处被接收。如果显式证实被接收252，那么以第一模态的命令被提供作为控制信号以供执行220。否则命令被拒绝。用户可能发现所意图的命令尚未被执行并且于是可以再次尝试。然而，更频繁地，并非意图成为命令的用户行动将被系统丢弃并且不作为命令而执行。这提供了更好的总体用户体验。

虽然口头命令“下一张幻灯片”和手势被用作示例，但是本文所提供的其它示例中的任一个可以以相同或类似的方式处置。作为示例，用户可以做出由相机观察的用于“下一页”的挥手姿势并且然后系统将通过使用相机用于眼睛追踪来搜寻隐式证实。如果没有接收到隐式证实，于是系统可以在显示装置上提供提示，诸如“你是意指下一页吗？如果是的话就举起一根手指。”相机监控器然后将搜寻一根手指以用于显式证实。可以使用多种多样的不同命令组合，这取决于特定实现以及系统所意图的用途。

图3是由上述系统100、200所执行的操作的过程流程图。可以为每个接收的命令以及为每个命令的解释重复该过程流程。在310处，第一命令以第一模态被接收。如以上提及的，命令可以是有声命令、姿势、外围设备的激活或者各种其它命令模态中的任一种。命令可以由麦克风、相机或任何其它用户输入设备来检测。在312处，第二命令以第二模态被接收。

在314处，确定第二命令是否证实第一命令。如果不是，那么在318处针对显式证实来提示用户，或者在另一实施例中，在322处，第一命令被拒绝。可替换地，第二命令可以与第一命令无关，而代替地是需要证实的另一第一命令。

存在各种不同方式来评估第一和第二命令。在一个示例中，系统具有经认可命令及其相关联的经认可证实的列表。可以在接收到第一命令时或之后访问该列表。所接收的第一命令然后可以用于确定第一命令如何可以被证实。所接收的第二命令然后可以与所访问的经认可的命令证实的列表进行比较。如果存在与列表上的证实的匹配，那么在316处执行第一命令。如果所接收的第二命令不与经认可的证实相匹配，那么它可以被应用于所述列表作为第一命令来看看它是否已由稍后接收的命令证实。

可替换地，如果在314处第二命令没有被确定为是经认可的命令证实，那么在318处，针对第一命令的显式证实来提示用户。如果在320处，响应于提示而从用户接收到显式证实，那么在316处执行第一命令。如果既不存在隐式也不存在显式证实，那么第一命令被拒绝322。

如图3中所示，系统在执行命令之前使用以不同模态的命令来证实用户的意图。与需要以相同模态的两个命令相比，这提供了对命令的更自然的感受。以第一模态的命令例如可以是口头命令并且以第二模态的命令可以是手势。这对应于伴随有手势的说“下一张幻灯片”的示例。在这样的情况下，第一模态是话语并且第二命令的第二模态是所观察的用户行为。类似的示例是在挥手姿势的情况下说“下一页”或者说“下一页”的同时看着监控器。在另一示例中，第一模态是手势并且第二模态是对提示的响应。

提示可以是来自系统的视觉提示或者来自系统的音频提示或者各种其它提示中的任一种。响应于提示的显式证实可以是口头命令、姿势、用户输入外围设备的操作或者任何其它期望的响应。响应可以由提示来建议，如以上示例中那样，或者它可以从提示的性质中理解到。

注意到，虽然图3可能暗示了在第二命令之前接收第一命令，但是可以在第一命令之前接收第二命令。命令可以是在定时上的第一和第二，但是在本示例中它们是在优先级上的第一和第二。第一命令是主要命令，因为它指示要执行的命令。第二命令是次要的，因为它证实第一命令。在手势的情况下说“下一张幻灯片”的示例中，用户可以开始姿势并且甚至在说“下一张幻灯片”之前完成姿势。如果要么话语要么姿势都可以被首先提供并且将发生相同的结果，则系统将会感觉起来更自然。在这样的实现中，哪个首先进行或完成并不重要，而重要的仅仅是两个命令都被接收到。

为了提高系统的准确性并且因此改善用户体验，加权系统可以用于分析所接收的命令。在以上示例中，通过使用用于每个模态的二进制判定来测量命令。使用加权系统的命令控制可以用于仅仅在过程中的最终步骤或其它步骤切割阈值，这取决于实现。

在每种情况下，将存在某个数量的不同模态，N，对于每一个模态n，可以指派两个状态参数：

P(n,0)是特定模态n未被检测到的概率。没有命令已被接收。换言之，这是模态n具有状态0的概率。

P(n,1)是模态n与命令控制相关联并且完全被检测到的概率。命令已被接收。换言之，是模态n具有状态1的概率。

为每个命令预定义概率。因此，在任何时刻T接收到命令的总体概率P(T)可以被给出为：

，

其中p(n)是在时间间隔和T时检测到与命令控制相关联的第n个模态的概率，并且其中是对于第n个模态被认为是活动的所允许的时间间隔。非活动的第n个模态将具有P(n,0)= P(n,1)=1。（1意味着没有概率）。在时间间隔内测量的概率允许命令的证实被限于特定时间间隔内。如果在初始时间T之后太晚接收到命令证实，那么初始命令被拒绝。

为了将多模态用作彼此的替换：

对于所有n，对于某些大数量K，设P(n,0)=，并且P(n,1)=K^N-1。

为了一起使用多模态以确保它们证实彼此：

对于所有n，设P(n,0)=0，并且P(n,1)=1。

可以通过使用多种多样的不同机器来实现上述自然的人机接口，所述机器包括计算机、演示系统和个人媒体设备。其组合多个输入源，包括但不限于姿势、话语和情感，并且从这些源导出有意义的输入信号。每个源允许命令以多于一个模态被呈现。在一些实施例中，它使用所连接的显示设备作为输入过程的不可分离的部分以得到更可靠的输入。显示装置可以呈现用于定为目标的用途的提示和证实。

在许多实现中，一旦系统被开启，用户就不需要物理地位于系统外围设备的任何部分的可够得到的距离内。通过使用语音和姿势作为输入，键盘和定点设备可以被留在某距离远处。这可以通过使用专用人类行为感知组件来管理并配置所有输入传感器以服务所有应用而被实现。为了甚至更多的响应性和准确性，加权的方法可以用于组合多个模态。

图4是计算系统的框图，诸如个人计算机、游戏操纵台、智能电话或便携式游戏设备。计算机系统900可以指代电子设备的许多示例并且可以无限制地包括移动设备、个人数字助理、移动计算设备、智能电话、蜂窝式电话、手持机、单向寻呼机、双向寻呼机、消息传递设备、计算机、个人计算机（PC）、台式计算机、膝上型计算机、笔记本计算机、手持式计算机、平板式计算机、服务器、服务器阵列或服务器农场、web服务器、网络服务器、因特网服务器、工作站、迷你计算机、大型计算机、超级计算机、网络器具、web器具、分布式计算系统、多处理器系统、基于处理器的系统、消费电子器件、可编程消费电子器件、电视、数字电视、机顶盒、无线接入点、基站、订户站、移动订户中心、无线电网络控制器、路由器、集线器、网关、网桥、交换机、机器或它们的组合。

计算机系统900包括用于传送信息的总线或其它通信装置901，以及与总线901耦合以用于处理信息的处理装置，诸如微处理器902。在所图示的示例中，处理设备被示出在虚线内，而通信接口被示出在虚线外，然而组件的特定配置可以被适配成适宜于不同应用。计算机系统可以扩充有特别用于通过并行流水线来渲染图形的图形处理器903以及用于如上所述计算物理交互的物理处理器905。这些处理器可以并入到中央处理器902中或被提供作为一个或多个分离的处理器。计算机系统900此外包括主存储器904，诸如随机存取存储器（RAM）或其它动态数据存储设备，其耦合到总线901以用于存储信息和指令以供处理器902执行。主存储器还可以用于存储在由处理器对指令的执行期间的临时变量或其它中间信息。计算机系统还可以包括非易失性存储器906，诸如只读存储器（ROM）或其它静态数据存储设备，其耦合到总线以用于存储静态信息和用于处理器的指令。

大容量存储器907，诸如磁盘、光碟、或固态阵列及其对应的驱动装置，也可以耦合到计算机系统的总线以用于存储信息和指令。计算机系统还可以经由总线耦合到显示设备或监控器921，诸如液晶显示器（LCD）或有机发光二极管（OLED）阵列，以用于向用户显示信息。例如，除了以上讨论的各种视图和用户交互之外，安装状态、操作状态的图形和文本指示以及其它信息可以在显示设备上被呈现给用户。

典型地，用户输入设备922，诸如具有字母数字、功能和其它键的键盘，可以耦合到总线以用于向处理器传送信息和命令选择。附加的用户输入设备可以包括光标控制输入设备，诸如鼠标、追踪球、追踪板，或光标指引键可以耦合到总线以用于向处理器传送指引信息和命令选择以及在显示装置921上控制光标移动。

相机和麦克风阵列923耦合到总线以观察姿势、记录音频和视频并且接收视觉和音频命令，如上所述的那样。

通信接口925也耦合到总线901。通信接口可以包括调制解调器、网络接口卡、或其它众所周知的接口设备，诸如用于耦合到以太网的那些、令牌环、或为了提供通信链路以支持例如局域网或广域网（LAN或WAN）的目的的其它类型的物理有线或无线附接。以这种方式，计算机系统还可以经由常规网络基础设施（例如包括内联网或互联网）耦合到多个外围设备、其它客户端、控制表面或操纵台、或服务器。

对于某些实现方式，可以优选比以上描述的示例更少或更多配备的系统。因此，示例性系统900的配置将从实现方式到实现方式地变化，这取决于众多因素，诸如价格约束、性能需求、技术改进、或其它情况。

实施例可以被实现为以下各项中的任一种或其组合：通过使用母板（parentboard）互连的一个或多个微芯片或集成电路、硬连线的逻辑、由存储器设备存储并且由微处理器执行的软件、固件、专用集成电路（ASIC）和/或现场可编程门阵列（FPGA）。术语“逻辑”作为示例可以包括软件或硬件和/或软件和硬件的组合。

实施例可以例如被提供为可以包括一个或多个机器可读介质的计算机程序产品，所述机器可读介质具有在其上存储的机器可执行指令，所述机器可执行指令当由一个或多个机器（诸如计算机、计算机的网络、或其它电子设备）执行时可以致使所述一个或多个机器实行根据本发明的实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM（紧致盘只读存储器）、和磁光盘、ROM（只读存储器）、RAM（随机存取存储器）、EPROM（可擦除可编程只读存储器）、EEPROM（电可擦除可编程只读存储器）、磁性或光学卡、闪速存储器、或适合于存储机器可执行指令的其它类型的介质/机器可读介质。

此外，实施例可以作为计算机程序产品而被下载，其中程序可以经由通信链路（例如，调制解调器和/或网络连接）、通过体现在载波或其它传播介质中和/或由载波或其它传播介质调制的一个或多个数据信号的方式而从远程计算机（例如服务器）传递到进行请求的计算机（例如客户端）。因此，如本文所使用的，机器可读介质可以但并不被要求包括这样的载波。

对“一个实施例”、“实施例”、“示例实施例”、“各种实施例”等的提及指示：如此描述的本发明的（多个）实施例可以包括特定特征、结构或特性，但是不是每个实施例都必定包括这些特定特征、结构或特性。此外，一些实施例可以具有针对其它实施例所描述的特征中的一些、全部或没有一个。

在以下描述和权利要求中，可以使用术语“耦合”连同其派生词。“耦合”用于指示两个或更多元件与彼此协作或交互，但是它们可以或可以不在其之间具有居间物理的或电的组件。

如权利要求中所使用的，除非另行指定，否则使用序数形容词“第一”、“第二”、“第三”等等来描述共同元件仅仅指示正提及同样元件的不同实例，而不旨在意味着如此描述的元件必须按给定顺序，要么时间上要么空间上，按等级，或以任何其它方式。

以下示例关于另外的实施例。示例中的具体细节可以使用在一个或多个实施例中的任何地方。在一个实施例中，方法包括：接收以第一模态的第一命令，接收以第二模态的第二命令，确定第二命令是否证实第一命令，并且如果第二命令证实第一命令则执行第一命令。

在另外的实施例中，第二命令是所观察的用户行为中的至少一个，其响应于来自系统的视觉提示，响应于来自系统的音频提示，并且在第一命令之前被接收。

在另外的实施例中，第一模态是口头命令并且第二模态是手势，或者第一模态是手势并且第二模态是对提示的响应。对提示的响应可以是口头命令。

在另外的实施例中，方法还包括：在接收到第一命令之后访问经认可的命令证实的列表，将所接收的第二命令与所访问的经认可命令证实的列表进行比较，并且如果基于比较第二命令被确定成是经认可的命令证实则执行第一命令。

方法还可以包括：如果第二命令没有被确定成是经认可的命令证实，则针对第一命令的显式证实来提示用户。

方法还可以包括：如果响应于提示从用户接收到显式证实，则执行第一命令。

在另一实施例中，非暂时性计算机可读介质具有指令，所述指令当由计算机操作时，使得计算机执行包括以下各项的操作：接收以第一模态的第一命令，接收以第二模态的第二命令，确定第二命令是否证实第一命令，并且如果第二命令证实第一命令则执行第一命令。

在另外的实施例中，第二命令是响应于来自系统的视觉和音频提示中的至少一个。

在另外的实施例中，操作还包括：在接收到第一命令之后访问经认可的命令证实的列表，将所接收的第二命令与所访问的经认可命令证实的列表进行比较，并且如果基于比较第二命令被确定成是经认可的命令证实则执行第一命令。

在另外的实施例中，操作还包括：如果第二命令没有被确定成是经认可的命令证实，则针对第一命令的显式证实来提示用户，并且如果响应于提示从用户接收到显式证实，则执行第一命令。

在另一实施例中，一种装置包括用以接收以第一模态的第一命令的第一监控器、用以接收以第二模态的第二命令的第二监控器，以及处理器，其用以确定第二命令是否证实第一命令并且如果第二命令证实第一命令则执行第一命令。

在另外的实施例中，第一监控器耦合到麦克风并且第一模态是来自用户的口头命令。第二监控器耦合到相机并且第二模态是视觉模态，包括姿势、眼睛追踪和手部信号中的至少一个。

在另外的实施例中，装置包括用以响应于第一命令而将视觉提示呈现给用户的显示装置，所述提示用以提示用户提供第二命令。另外，提示可以是在显示装置上被呈现给用户的问题。

附图和前述描述给出实施例的示例。本领域技术人员将领会到所述元件中的一个或多个可以很好地被组合成单个功能元件。可替换地，某些元件可以被拆分成多个功能元件。来自一个实施例的元件可以添加至另一实施例。例如，本文描述的过程的次序可以改变并且不限于本文描述的方式。此外，任何流程图的行动不需要按所示次序来实现；也不是所有动作都必定需要被执行。而且，不取决于其它动作的那些动作可以与其它动作并行地执行。实施例的范围决不由这些具体示例所限制。众多变型，无论在说明书中明确给出或否，诸如结构、尺寸和材料使用上的差异，都是可能的。实施例的范围至少与所附权利要求所给出的一样宽。

Claims

1. 一种方法，包括：

接收以第一模态的第一命令；

接收以第二模态的第二命令；

确定第二命令是否证实第一命令；以及

如果第二命令证实第一命令则执行第一命令。

2. 根据权利要求1所述的方法，其中第二命令是所观察的用户行为。

3. 根据权利要求1所述的方法，其中第二命令是响应于来自系统的视觉提示。

4. 根据权利要求1所述的方法，其中第二命令是响应于来自系统的音频提示。

5. 根据权利要求1所述的方法，其中第二命令在第一命令之前接收。

6. 根据权利要求1所述的方法，其中第一模态是口头命令并且第二模态是手势。

7. 根据权利要求1所述的方法，其中第一模态是手势并且第二模态是对提示的响应。

8. 根据权利要求7所述的方法，其中对提示的响应是口头命令。

9. 根据权利要求1所述的方法，此外包括：

在接收到第一命令之后访问经认可的命令证实的列表；

将所接收的第二命令与所访问的经认可命令证实的列表进行比较；以及

如果基于比较第二命令被确定成是经认可的命令证实，则执行第一命令。

10. 根据权利要求9所述的方法，此外包括如果第二命令没有被确定成是经认可的命令证实，则针对第一命令的显式证实来提示用户。

11. 根据权利要求10所述的方法，此外包括如果响应于提示从用户接收到显式证实，则执行第一命令。

12. 一种包括非暂时性计算机可读介质的制品，所述非暂时性计算机可读介质具有指令，所述指令当由计算机操作时，使得计算机执行包括以下各项的操作：

接收以第一模态的第一命令；

接收以第二模态的第二命令；

确定第二命令是否证实第一命令；以及

如果第二命令证实第一命令，则执行第一命令。

13. 根据权利要求12所述的介质，其中第二命令是响应于来自系统的视觉和音频提示中的至少一个。

14. 根据权利要求12所述的介质，所述操作此外包括：

在接收到第一命令之后访问经认可的命令证实的列表；

15. 根据权利要求14所述的介质，所述操作此外包括：

如果第二命令没有被确定成是经认可的命令证实，则针对第一命令的显式证实来提示用户；以及

如果响应于提示从用户接收到显式证实，则执行第一命令。

16. 一种装置，包括：

第一监控器，用以接收以第一模态的第一命令；

第二监控器，用以接收以第二模态的第二命令；以及

处理器，用以确定第二命令是否证实第一命令并且如果第二命令证实第一命令则执行第一命令。

17. 根据权利要求16所述的装置，其中第一监控器耦合到麦克风，并且其中第一模态是来自用户的口头命令。

18. 根据权利要求16所述的装置，其中第二监控器耦合到相机，并且其中第二模态是视觉模态，包括姿势、眼睛追踪、和手部信号中的至少一个。

19. 根据权利要求16所述的装置，此外包括显示装置，用以响应于第一命令而将视觉提示呈现给用户，所述提示用以提示用户提供第二命令。

20. 根据权利要求19所述的装置，其中所述提示是在显示装置上被呈现给用户的问题。