CN104679471A

CN104679471A - 用于检测可听输入中的中止的装置、设备及方法

Info

Publication number: CN104679471A
Application number: CN201410558907.XA
Authority: CN
Inventors: 拉塞尔·斯佩格特·范布恩; 苏珊娜·玛丽恩·博蒙; 罗德·大卫·沃特曼
Original assignee: Lenovo Singapore Pte Ltd
Current assignee: Lenovo Singapore Pte Ltd
Priority date: 2013-12-03
Filing date: 2014-10-20
Publication date: 2015-06-03
Anticipated expiration: 2034-10-20
Also published as: GB201420978D0; GB2522748B; GB2522748A; CN104679471B; US20180374501A1; US20150154983A1; US10269377B2; DE102014117343A1; US10163455B2; DE102014117343B4

Abstract

本发明提供了一种用于检测可听输入中的中止的装置、设备及方法。所述装置包括：处理器和存储器，所述存储器能够被所述处理器访问并且承载有能够由所述处理器执行的指令，以对装置的用户提供的可听输入序列进行处理，至少部分地基于来自与所述装置通信的至少一个摄像头的第一信号来确定在提供的可听输入序列期间发生了中止，响应于确定发生了中止而停止处理所述可听输入序列，至少部分地基于来自摄像头的第二信号来确定已恢复提供所述可听输入序列；以及响应于确定已恢复提供可听输入序列，来恢复对所述可听输入序列的处理。

Description

用于检测可听输入中的中止的装置、设备及方法

技术领域

本申请总体上涉及检测装置的可听输入中的中止。

背景技术

当对于诸如计算机的装置输入诸如命令的可听输入序列时，可听输入序列中的中止可能导致计算机停止“接听”该可听输入序列，这是因为例如装置停止处理序列和/或超时，从而不能完全地处理命令。

此外，在一些实例中，被装置确定为可听输入序列中的中止的可能实际上为用户结束了提供可听输入序列之后、等待装置处理该可听输入序列的空白(silence)。在这样的实例中，这可能导致装置处理并非要输入至该装置的音频并且甚至可能例如不必要地消耗该装置的电池。

发明内容

因此，在第一方面中，一种装置包括：处理器；存储器，所述存储器能够被所述处理器访问并且承载有能够被所述处理器执行以实现如下操作的指令：处理可听输入序列，所述可听输入序列由所述装置的用户提供；至少部分地基于来自与所述装置通信的至少一个摄像头的第一信号来确定在提供所述可听输入序列期间发生了中止；响应于确定发生了所述中止，停止处理所述可听输入序列；至少部分地基于来自所述摄像头的第二信号来确定已恢复提供所述可听输入序列；以及响应于确定已恢复提供所述可听输入序列，恢复对所述可听输入序列的处理。

在一些实施方式中，中止可以包括装置不能理解的可听序列分隔符。此外，可以至少部分地基于对至少第一信号执行读唇软件，将可听序列分隔符确定为是不能理解的，其中，可以响应于采集用户的面部的至少一部分的至少一个图像的摄像头，由摄像头生成第一信号。

此外，在一些实施方式中，指令还能够由所述处理器执行，从而除非还在对来自所述装置上的加速度计的信号进行处理时至少基本上同时接收到所述可听序列分隔符，则响应于处理来自所述装置上的加速度计的信号而确定停止处理所述可听输入序列。

另外，如果需要，则中止包括在用户向装置提供可听输入期间的中止。因此，至少部分地基于第一信号确定发生了中止可以包括：确定用户的当前面部表情表示不是将要提供可听输入。在一些实施方式中，确定用户的当前面部表情表示不是将要提供可听输入可以包括：确定用户的嘴至少大部分是闭合的。

此外，如果需要，则至少部分地基于第二信号确定已恢复提供可听输入序列包括：确定用户的嘴是张开的。

在另一方面中，一种方法包括：在装置处接收可听输入序列，所述可听输入序列由所述装置的用户提供；响应于接收到来自与所述装置通信的至少一个摄像头的第一信号以及响应于接收到来自与所述装置至少通信的触控显示器的输入，而确定所述用户已经停止提供所述可听输入序列；以及确定所述用户已经恢复提供所述可听输入序列。

在又一方面中，一种设备包括：第一处理器；网络适配器；存储装置，所述存储装置承载有经由所述网络适配器通过网络传输的、以通过第二处理器实现如下操作的指令：处理可听输入命令，所述可听输入命令由与所述第二处理器关联的装置的用户提供，对所述可听输入命令的处理响应于如下操作：基于来自与所述第二处理器通信的至少一个摄像头的至少一个信号确定在所述用户正沿所述装置的方向看的同时所述用户的嘴正在活动；以及执行所述可听输入命令。

参照附图可以最好地理解本原理关于其结构和操作的细节，在附图中，相同的附图标记指代相同的部件，以及在附图中：

附图说明

图1是根据本原理的示例性装置的框图；

图2是由根据本原理的装置执行的逻辑的示例流程图；以及

图3至图6是在根据本原理的装置上可呈现的示例用户界面(UI)。

具体实施方式

本公开内容总体上涉及基于用户信息的装置(例如，消费电子产品(CE))。对于本文所描述的任何计算机系统，系统可以包括服务器部件和客户端部件，服务器部件和客户端部件通过网络相连接以使得数据可以在服务器部件和客户端部件之间进行交换。客户端部件可以包括一个或更多个计算装置，包括电视(例如，智能TV，连网TV)、计算机(诸如膝上型计算机和平板计算机)以及包括智能电话的其它移动装置。作为非限定性示例，这些客户端装置可以采用来自苹果、谷歌或微软的操作系统。可以使用UNIX操作系统。这些操作系统可以执行一个或更多个浏览器(诸如由微软或谷歌或摩斯拉或其它浏览器程序制成的浏览器)，所述浏览器可以通过诸如因特网、本地内联网或虚拟个人网络的网络来访问由因特网服务器提供的网络应用。

本文所使用的指令是指用于处理系统中的信息的计算机实现的步骤。可以以软件、固件或硬件来实施指令，因此，按照它们的功能来阐述示例性的部件、块、模块、电路和步骤。

处理器可以是能够凭借各种线(诸如地址线、数据线和控制线)以及寄存器和移位寄存器执行逻辑的任何常规的通用的单片处理器或多片处理器。此外，除了通用的处理器之外，本文所描述的任何逻辑块、模块和电路可以在下述装置中或者由下述装置实现或执行：数字信号处理器(DSP)、现场可编程门阵列(FPGA)或其它可编程逻辑装置，诸如专用集成电路(ASIC)、分立门或晶体管逻辑、分立硬件部件、或被设计为执行本文所描述的功能的前述的任何组合。处理器可以通过控制器或状态机或计算装置的组合来实现。

本文中以流程图和/或用户界面的形式所描述的软件和/或应用可以包括各种子例程、过程等。应该理解，被公开为由例如模块执行的逻辑可以被重新分配给其它软件模块和/或被合并到单个模块中和/或变得在共享库中可获得。

当以软件实现逻辑时，可以使用适合的语言(例如C#或C++，但不限于此)编写逻辑，并且可以将逻辑存储在计算机可读存储介质上或通过计算机可读存储介质传输(例如，其可以不是载波)，计算机可读存储介质例如为随机存取存储器(RAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、致密盘只读存储器(CD-ROM)或其它光学盘存储装置(如数字多功能光盘(DVD))、磁盘存储装置或其它磁存储装置(包括可移动拇指驱动器)等。连接可以建立计算机可读介质。作为示例，这样的连接可以包括包含光学光纤和同轴线以及双绞线的硬线电缆。这样的连接可以包括包含红外和无线电的无线通信连接。

在一个示例中，处理器可以通过其输入线从诸如计算机可读存储介质的数据存储装置存取信息，和/或处理器可以通过激活用于发送数据和接收数据的无线收发器来从因特网服务器无线地存取信息。数据通常在被接收时通过天线与处理器的寄存器之间的电路系统从模拟信号转换成数字信号，并且在被发射时从数字信号转换为模拟信号。然后，处理器通过其移位寄存器处理数据以在输出线上输出计算出的数据，以在装置上呈现计算出的数据。

包括在一个实施方式中的部件可以以任何适合的组合形式用在其它实施方式中。例如，可以对本文所描述的和/或在附图中所描绘的各种部件中的任何部件进行组合、交换或将其从其它实施方式中排除。

“具有A、B和C中的至少一个的系统”(同样地“具有A、B或C中的至少一个的系统”以及“具有A、B、C中的至少一个的系统”)包括仅具有A、仅具有B、仅具有C、具有A和B两者、具有A和C两者、具有B和C两者、和/或具有A、B和C三者的系统等。

在摘要、说明书和/或权利要求书中使用了术语“电路”或“电路系统”。如本领域的技术人员已知的，术语“电路系统”包括所有层级的可用的集成电路(例如，从分立的逻辑电路到诸如超大规模集成电路(VLSI)的最高层级的电路集成)，并且包括被编程用以执行实施方式的功能的可编程逻辑部件以及被编程有用于执行这些功能的指令的通用处理器或专用处理器。

现在，具体地参照图1，图1示出了计算机系统100的示例性框图，例如，计算机系统100诸如为联网的计算机控制的电话(例如，智能电话)、平板计算机、笔记本或台式计算机、诸如智能手表的联网的计算机控制的可穿戴式装置、诸如智能电视(TV)的计算机控制的TV等。因此，在一些实施方式中，系统100可以是台式计算机系统(例如由位于北卡罗来纳州莫里斯维尔市的联想(美国)公司销售的系列或系列之一的个人计算机)或工作站计算机(例如，由位于北卡罗来纳州莫里斯维尔市的联想(美国)公司销售的)。然而，根据本文的描述明显可知，根据本原理的客户端装置、服务器或其它机器可以包括其它特征或仅包括系统100的一些特征。

如图1所示，系统100包括所谓的芯片集110。芯片集是指被设计用于一起工作的一组集成电路或芯片。芯片集通常作为单独产品出售(例如，考虑以等品牌出售的芯片集)。

在图1的示例中，芯片集110具有可以依据品牌或制造商而在某种程度上不同的特定架构。芯片集110的架构包括经由例如直接管理接口或直接媒体接口(DMI)142或链接控制器144交换信息(例如数据、信号、命令等)的核和存储器控制组120以及I/O控制器集线器150。在图1的示例中，DMI 142是芯片-芯片接口(有时被称为“北桥(northbridge)”与“南桥(southbridge)”之间的链接)。

核和存储器控制组120包括经由前端总线(FSB)124交换信息的一个或更多个处理器122(例如单核或多核)和存储器控制器集线器126。如本文所述，可以将核和存储器控制组120的各种部件集成在单个处理器晶片上以例如制成代替传统“北桥”式架构的芯片。

存储器控制器集线器126与存储器140接口。例如，存储器控制器集线器126可以为双倍速率同步动态随机存储器(DDR SDRAM)存储器(例如，DDR、DDR2、DDR3等)提供支持。通常，存储器140为随机存取存储器(RAM)类型。存储器140通常被称为“系统存储器”。

存储器控制器集线器126还包括低压差分信号接口(LVDS)132。LVDS 132可以是用于支持显示装置192(例如，阴极射线管CRT、平板、投影仪、触控显示器等)的所谓的LVDS显示器接口(LDI)。块138包括可以通过LVDS接口132支持的技术的一些示例，例如串行数字视频、高清晰度多媒体接口(HDMI)/数字视频接口(DVI)、显示端口。存储器控制器集线器126还包括例如用于支持独立显卡136的一个或更多个PCI扩展接口(PCI-E)134。使用PCI-E接口的独立显卡已经变成加速图形接口(AGP)的替换方法。例如，存储器控制器集线器126可以包括用于外部的基于PCI-E的显卡(包括例如更多GPU中的一个GPU)的16路(×16)PCI-E端口。示例性系统可以包括用于支持图形的AGP或PCI-E。

I/O控制器集线器150包括各种接口。图1的示例包括串行高级技术附件(SATA)接口151、一个或更多个PCI-E接口152(可选地，一个或更多个传统的PCI接口)、一个或更多个通用串行总线(USB)接口153、局域网(LAN)接口154(更普遍地，用于在处理器122的管理下在诸如因特网、广域网(WAN)、LAN等的至少一个网络上通信的网络接口)、通用I/O接口(GPIO)155、低管脚数(LPC)接口170、电力管理接口161、时钟发生器接口162、音频接口163(例如使扬声器194输出音频)、操作总成本(TCO)接口164、系统管理总线接口165(例如，多主机串行计算机总线接口)以及在图1的示例中包括基本输入输出系统(BIOS)168和启动代码190的串行外设闪存存储器/控制器接口(SPI闪存)166。关于网络连接，I/O控制器集线器150可以包括与PCI-E接口端口复用的综合的千兆位以太网控制器线。其它网络特征可以独立于PCI-E接口来操作。

I/O控制器集线器150的接口提供与各种装置、网络等的通信。例如，SATA接口151提供对一个或更多个驱动器180(诸如HDD、SDD或及组合)上的信息的读取、读取或写入以及写入，但是在任何情况下驱动器180被理解为例如可以不是载波的有形计算机可读存储介质。I/O集线器控制器150还可以包括用于支持一个或更多个驱动器180的高级主机控制器接口(AHCI)。PCI-E接口152允许到装置、网络等的无线连接182。USB接口153提供输入装置184，诸如键盘(KB)、鼠标和各种其它装置(例如，摄像头、电话、存储装置、媒体播放器等)。

在图1的示例中，LPC 170提供对下述部件的使用：专用集成电路(ASIC)171、可信平台模块(TPM)172、超级I/O 173、固件集线器174、BIOS支持175以及各种类型的存储器176(诸如ROM 177、闪存178以及非易失性RAM(NVRAM)179)。关于TPM 172，该模块可以是可用于对软件和硬件装置进行认证的芯片的形式。例如，TPM能够进行平台认证并且可以用于验证试图访问的系统是预期的系统。

系统100在通电时可以被配置成执行存储在SPI闪存166内的用于BIOS 168的启动代码190，此后，在一个或更多个操作系统和应用软件(例如存储在系统存储器140中)的控制下处理数据。操作系统可以存储在多种位置中的任意位置，并且例如根据BIOS 168的指令而被访问。

除了上述之外，系统100还可以包括至少一个触摸传感器195，触摸传感器195向处理器122提供输入并且根据本原理被配置成在用户例如持有或触摸系统100时感测用户的触摸。在一些实施方式中，例如装置100为智能电话，触摸传感器195可以沿着用于定义例如与显示装置192的前表面垂直的平面的相应侧壁而被放置在系统100上。系统100还可以包括接近传感器、红外传感器、声纳传感器和/或热传感器196。传感器196用于向处理器122提供输入，并且根据本原理被配置成感测例如人的体温和/或人的至少一部分(例如，人的面颊或面部)到系统100的至少一部分(例如传感器196自身)的距离。

此外，在一些实施方式中，系统100可以包括用于向处理器122提供输入的一个或更多个摄像头197。摄像头197可以是例如热成像摄像头、诸如网络摄像头的数字摄像头和/或集成在系统100中并且根据本原理由处理器122可控制以采集图片/图像和/或视频的摄像头(例如，采集用户的面部、嘴、眼睛等的一个或更多个图像)。此外，系统100例如可以包括用于将诸如可听输入序列(例如，可听命令)的可听输入键入到系统100以控制系统100的音频接收器/麦克风198。另外，系统100可以包括根据本原理向处理器122提供输入的一个或更多个运动传感器199(例如，加速度计、陀螺仪、圆弧测定器、磁传感器、诸如无源红外(IR)传感器的红外运动传感器、光学传感器、速度和/或节奏传感器、姿势传感器(例如，用于感测姿势命令)等)。

在转到图2之前以及如本文所描述的，应该理解，示例性客户端装置或其它机器/计算机可以包括比图1的系统100上所示出的特征更少或更多的特征。在任何情况下，至少基于前述应该理解，系统100被配置成实现本原理(例如，接收来自用户的可听输入、存储并执行和/或实现以下所描述的逻辑和/或进行本文所描述的任何其它功能和/或操作)。

现在参照图2，图2示出了要由诸如以上根据本原理描述的系统100的装置执行的逻辑的示例流程图。在块200处开始，逻辑启动可听输入应用(例如，电子“私人助理”)，以根据本原理(诸如，例如从用户可听地提供的命令)处理可听输入和/或执行响应于可听输入的功能。例如，可以响应于用于选择与可听输入应用相关的图标的用户输入而自动地启动该可听输入应用，并且将该可听输入应用呈现在诸如以上描述的显示装置192的触控显示器上。在任何情况下，逻辑从块200前进到判定菱形框202，在判定菱形框202处，逻辑基于例如由用于实现图2的逻辑的装置(在参照图2的其余描述中被称为“装置”)的麦克风感测的可听输入和/或基于来自与装置通信的摄像头的至少一个图像，来确定在装置处是否接收了可听输入和/或用户是否向装置提供了可听输入(例如，用于确定用户的嘴唇在装置的阈值距离以内正在相对装置运动并且因此正将可听输入提供给装置)。如果逻辑确定用户没有正在提供这样的可听输入和/或装置没有接收到这样的可听输入，则逻辑可以继续进行菱形框202的判断直到做出肯定的判断为止。

一旦在菱形框202处做出肯定的判断，则逻辑前进到判定菱形框204，在判定菱形框204处，逻辑(例如，基于来自与装置通信的摄像头的信号)确定用户的嘴和/或眼睛是否指示用户向装置提供可听输入(例如，使用读唇软件、眼睛跟踪软件等)。因此，例如，可以通过装置针对用户的嘴是否张开来对来自用于采集用户的图像并将图像提供给装置的处理器的摄像头的一个或更多个信号进行分析、检查等，用户的嘴张开可以被装置的处理器确定成(例如，基于嘴跟踪软件和/或基于使用将嘴的位置与嘴的位置的指示进行关联的查找表格)表示用户正在提供或将要提供可听输入。作为另一示例，可以通过装置针对用户的眼睛甚至更具体地针对用户的瞳孔是否是对准装置、对准装置附近或者朝向装置(这可以使用眼睛跟踪软件确定)，来对来自用于采集用户的图像并且将图像提供给装置的处理器的摄像头的一个或更多个信号进行分析、检查等，用户的眼睛对准装置、对准装置附近或者朝向装置可以表示用户正基于用户的眼睛对准装置来提供或将要提供的可听输入。相反地，如果确定用户的眼睛例如不是看着装置、看着装置附近或朝向装置(例如，盯着远方和/或用户的面部从装置转开(例如，在转开时相对于例如由用户的视线建立的矢量与装置成预先确定的和/或阈值度数))，则可能即使从用户接收到了音频也使逻辑确定用户没有向装置提供可听输入，并且因而不应该进行处理。

无论如何，如果在菱形框204处逻辑确定用户的嘴和/或眼睛不是表示提供可听输入或将要提供可听输入，则逻辑可以返回菱形框202并从此前进。然而，如果在菱形框204处逻辑确定用户的嘴和/或眼睛表示提供可听输入或将要提供可听输入，则逻辑替代地进行到块206。在块206处，逻辑开始处理可听输入序列(和/或等待提供可听输入序列)和/或响应于接收到可听输入序列而执行功能。此后，逻辑进行到判定菱形框208，在判定菱形框208处，逻辑确定是否接收到了“语音分隔符”，“语音分隔符”尽管是由用户输入的，但例如不构成可听输入序列的一部分(例如，有意的部分)，其对于装置而言是错误的输入，对于装置而言是无意义的和/或无法理解的，和/或不构成对于装置的命令的一部分。

可以通过装置像这样来辨识这样的“语音分隔符”：例如，响应于确定该“语音分隔符”相对于可听输入的其它部分(例如，与大部分输入和/或用户说出的作为输入的第一个词或多个词不同的部分)为不同语言的词；响应于确定所输入的“语音分隔符”不是在提供输入的其它部分时所说的语言中的真实的词，和/或响应于确定用户所输入的“语音分隔符”与语音分隔符数据表中的如下语音分隔符匹配，例如在处理可听命令序列时，该语音分隔符被装置忽略。除了前述方式以外或替代前述方式，可以通过装置像这样响应于如下确定来辨识“语音分隔符”：至少部分地基于对由装置的摄像头采集的用户的面部的至少一个图像应用读唇软件而确定尽管装置正在接收音频，然而该音频是来自例如紧闭的嘴和/或不动的/静止的嘴的、不构成真实词部分的声音，从而确定该“语音分隔符”是不能理解的。在任何情况下，应该理解的是，例如响应于像这样被辨识的“语音分隔符”输入，装置忽略该“语音分隔符”输入，排除该“语音分隔符”作为将要处理的可听输入序列的部分，和/或以相反不将它作为其中提供该“语音分隔符”的可听输入序列和/或命令的部分进行处理。

例如，在对于装置的输入为“Please find the nearest uhh restaurant”的情况下，可以将输入中的每个单词与英语单词表进行比对，其中，例如基于将输入的单词与英语单词表中的各个相应的条目进行匹配而确定“nearest”和“restaurant”是英语单词(例如，和/或基于作为与初始单词“please”相同语言的单词而被确定为构成命令的一部分)，而确定“uhh”不是英语单词因此不应作为命令的一部分进行处理(例如，和/或在由装置处理时从可听输入序列中去除“uhh”)。除上述方式之外或替代前述方式，可以基于“uhh”在“语音分隔符”表中和/或“uhh”是不能理解的输入而将“uhh”辨识为装置要忽略的输入。

仍然参照图2，如果在菱形框208处做出了肯定的判断，则逻辑可以返回块206并继续处理可听输入序列，并且/或者忽略和/或拒绝将“语音分隔符”包括为序列的一部分同时仍将来自用户的音频的其它部分处理为序列的一部分。在这方面，如以下将会进一步描述的那样，“语音分隔符”可以延长可听输入序列应用的音频处理而没有中止(例如，连续的和/或基本连续的)。然而，如果在菱形框208处做出了否定的判断，则逻辑替代地前进到判定菱形框210。

在判定菱形框210处，逻辑确定用户是否正在进行装置上的其它操作(例如，其它应用)。例如，如果逻辑确定用户正在操作装置的触控显示器以使用浏览器应用浏览互联网，则逻辑可以前进到块212，在块212处，逻辑例如在用户正在操作其它应用(例如，浏览器应用)期间中止对可听输入序列的处理，以例如不对不构成和/或不意欲构成对于装置的命令的一部分的音频进行处理。

虽然没有根据图2的表面证实，但是应该理解，在一些实施方式中，根据本原理确定正执行另一操作可以与确定用户已停止提供可听输入序列(例如，和/或完全地停止提供音频)相结合，以依然不中止或不停止处理可听输入，因为装置可能还是继续“接听”来自下述序列的输入，在用户例如针对对可听输入序列有用的信息浏览因特网时已经至少部分地提供了该序列。

然而，如在图2的示例性逻辑中所示，逻辑可以响应于确定用户正在执行装置的另一操作和/或应用而前进到块212以例如不论用户是否仍在说话和/或提供可听输入都中止处理，或者基于在菱形框210处的肯定的判断结合用户已停止提供任何音频(例如，基于对用户的图像执行读唇软件确定了用户的嘴唇不再动来判定用户已经停止说话，因而确定用户不再对该装置提供输入)的确定而前进到块212。

无论哪种情况，注意，在菱形框210处的否定判断使逻辑前进到判定菱形框214。在菱形框214处，逻辑确定来自装置的加速度计和/或来自装置的表面接近传感器的一个或更多个信号是否表示装置在距离阈值以外和/或正移至距离阈值以外，其中针对阈值的距离是相对于装置与用户的面部之间的距离。因此，例如，基于用户由于例如不打算向装置提供任何进一步输入而将其面部区域从装置移开(例如，移开至少预定义的距离)，在菱形框214处可以做出肯定的判断。然而，不管前述如何，在一些实施方式中，如果尽管用户相对于装置在距离阈值之外，但在菱形框214处还确定用户继续说话(例如，即便所说的音频是“语音分隔符”)，则在菱形框214处逻辑仍然可以前进到判定菱形框216(将在以下描述)。

在任何情况下，应该理解，响应于肯定的判断，逻辑返回到块212。然而，在菱形框214处的否定的判断使逻辑行进到判定菱形框216，在判定菱形框216处逻辑确定在可听输入序列中是否发生了可听中止。例如，可听中止可以是用户中止说话(例如，完全地中止和/或不提供任何声音)和/或停止向装置提供可听输入。基于根据用户的嘴至少几乎全部闭合(和/或不动/静止)，用户的嘴闭合(和/或不动/静止)，和/或用户的嘴至少部分地张开(例如，但是不动/静止)而确定用户的当前面部表情(基于由装置的摄像头采集的用户的图像)表示不是要提供可听输入，可以进行菱形框216处的判断。

如果在菱形框216处做出否定的判断，则逻辑可以返回块206。然而，如果在菱形框216处做出肯定的判断，则逻辑替代地返回到块212并且如本文所描述的那样中止处理可听输入。然后，(例如，不管从哪个判定菱形框到达块212)图2的逻辑从块212继续到判定菱形框218。在菱形框218处，逻辑确定触控显示器没有接收到触摸输入的阈值时间是否期满，触控显示器没有接收到触摸输入的阈值时间期满可以表示用户(例如，在如本文阐述的使用触控显示器进行装置的另一操作之后)例如恢复或将要恢复向装置提供可听输入(例如，在用户使用因特网浏览器找出用于提供可听输入的有用信息之后)。因此，在用户执行装置的另一操作的实例中，可以到达判定菱形框218，而在其它实施方式中逻辑可以从块212直接进行到将要描述的判定菱形框220。在任何情况下，在菱形框218处的否定的判断可以使逻辑继续进行菱形框218处的判断直到做出肯定的判断的时间为止。然后，当在菱形框218处做出肯定的判断时，逻辑前进到判定菱形框220。

在判定菱形框220处，逻辑基于例如在装置在距用户的面部阈值距离以内时对音频的检测，基于如本文所阐述在用户看着装置、看着装置附近或朝向装置看时对音频的检测，和/或基于如本文所阐述的在用户的嘴正在活动时对音频的检测等，来确定是否正再次向装置提供可听输入。菱形框220处的否定的判断可以使逻辑继续进行菱形框220的判断直到做出肯定的判断为止。菱形框220处的肯定的判断使逻辑前进到块222，在块222处，逻辑恢复对可听输入序列的处理和/或执行在所提供的可听输入序列中提供的命令和/或从所提供的可听输入序列获得的命令。

现在参照图3继续详细描述，图3示出了如本文所阐述的当例如确定正在发生可听输入中的中止时可以呈现在实现本原理的装置上的示例性用户界面(UI)300。如从图3可以理解的，UI 300包括标题/题目302，标题/题目302指示例如启动了根据本技术的用于接收可听命令和/或可听输入序列的应用并且正在装置上运行该应用，以及指示例如UI 300与其相关联。还注意到，示出了主页选择元素304，其可以被选择用以在没有进一步的用户输入的情况下自动地使例如装置的主页画面(例如，为装置的应用的呈现按钮)呈现。

UI 300还包括状态指示器306和关联文本308，状态指示器306和关联文本308在本示例性实例中指示应用已中止和/或指示正在等待来自用户的可听输入(例如，响应于在呈现UI 300的时段期间和/或之前没有提供可听输入的判断)。因此，示例性文本308指示装置和/或应用正在“等待【用户的】输入…”。还示出了诸如麦克风的示例性图像和/或图示310以指示例如用户应该在呈现UI 300的装置处或附近说话以提供可听输入以及例如提供应该由用户进行以执行该应用的动作(例如，说话)的图示。注意在接收可听输入序列时，可以呈现具有相同的选择元素中的一些选择元素(例如，将要描述的元素314)的UI，以及如UI 300上所示，麦克风310的至少一部分可以将颜色从正接收可听输入时的第一颜色改变到等待输入可听输入应用时的、不同于第一颜色的第二颜色。

在任何情况下，UI 300还可以包括例如由用于呈现UI 300的装置上的摄像头和/或与该装置通信的摄像头所采集的用户的示例性图像312。图像312可以是例如以规律的间隔(例如，每十分之一秒)被更新为由摄像头采集的用户的新图像的当前图像，因此至少基本上可以是用户的实时图像。注意，在图像312中，用户的嘴是张开的但被理解为是例如不动的和/或静止的，例如导致装置确定没有在提供可听输入。示出了用于呈现UI300的装置的用于应用、功能、和/或操作的不同于可听输入应用的多个选择元素314，使得例如用户可以在仍然例如使可听输入应用打开和/或中止的同时在可听输入应用和其它应用之间进行切换。因此，下述选择元素中的每个选择元素被理解为可以被选择，以在没有进一步用户输入的情况下自动地开始和/或使与所选择的特定选择元素关联的应用例如启动并且使下述关联的UI呈现在装置的显示器上：用于例如因特网浏览器应用的浏览器选择元素316、用于例如地图应用的地图选择元素318、和/或用于例如联系应用和/或联系列表的联系选择元素320。注意，还呈现了查看其它应用选择元素322，并且查看其它应用选择元素322可被选择以在没有用户进一步用户输入的情况下自动地呈现如下UI(例如，主页画面UI、与电子邮件应用关联的电子邮件UI等)，该UI呈现在可听输入应用“中止”时可以选择的另外的其它应用的图标。

除了前述以外，UI 300还包括指令324，该指令324指示如果用户期望关闭在装置检测到中止之前由用户输入的可听输入应用和/或结束特定可听输入应用，可以通过将装置从用户的面部附近移开(例如，远离用户的面部的至少一部分的阈值距离)来对装置输入(例如，自动地)用于这样做的命令。然而，注意，指令324还可以指示可以通过例如下述的其它方式关闭应用：输入可听命令以关闭应用和/或结束对可听输入序列的处理，在阈值时间段内进行装置的其它应用和/或操作以关闭应用和/或结束对可听输入序列的处理(例如，在阈值时间期满之后)，在阈值时间内不提供可听输入(例如，提供可听中止和/或不说话)以关闭应用和/或结束对可听输入序列的处理(例如，在阈值时间期满之后)，在阈值时间段内不向呈现UI 300的显示器提供触摸输入以关闭应用和/或结束对可听输入序列的处理等(例如，在阈值时间期满之后)。

现在转到图4，图4示出了示例性UI 400，响应于从UI 300选择了元素316，例如在没有进一步用户输入的情况下在根据本原理的装置上自动地呈现UI 400。在本实例中，UI 400用于因特网浏览器。注意，UI 400包括选择元素402，选择元素402可选择用以在没有进一步用户输入的情况下自动地呈现例如UI 300或针对根据本原理的可听输入应用的其它UI。

因此，作为示例，用户可以在提供可听输入序列的中间和/或提供可听输入序列的同时决定应该使用浏览器应用从因特网访问用于完成可听输入序列的信息。用户可以选择元素316，使用浏览器应用浏览因特网以得到例如来自新加坡联想公司网站的联系信息，然后返回可听输入应用以使用包括新加坡联想公司的联系信息的输入完成可听输入序列提供。本实例中的示例性可听输入序列可以是例如“请使用电话应用拨打…【在用户使用因特网浏览器时输入中的中止】…电话号码555联想1。”以数值形式，电话号码应该是例如(555)536-6861。

参照图5继续详细描述，图5示出了根据本原理的与可听输入应用关联的示例性UI 500。注意，标题/题目502被示出为可以在功能和配置方面与标题302基本上类似，主页选择元素504被示出为可以在功能和配置方面与主页元素304基本上类似，多个选择要素506被示出为可以在功能和配置方面分别与图3的元素314类似，以及图像512被示出为可以在功能和配置方面与图像312基本上类似(例如，具有下述例外：所示的实时图像包括用户的嘴是闭合的，因此反映了用户没有在提供可听输入)。

UI 500还示出了状态指示器508和关联文本510，状态指示器508和关联文本510在本示例性实例中指示装置和/或可听输入应用没有在(例如，当前)接收可听输入并且指示可听输入序列的处理将结束(例如，不管装置是否确定已经接收了完整的可听输入序列)。UI 500还可以包括下述选择元素中的一个或更多个选择元素：恢复先前输入序列元素514，其可选择用以在没有进一步用户输入的情况下自动地使可听输入应用例如打开和/或恢复对例如在序列的处理结束之前部分地输入的可听输入序列的处理，以使得用户可以完成提供序列；新输入序列元素516，其可选择用以在没有进一步用户输入的情况下自动地使可听输入应用例如开始“接听”新的可听输入序列；以及关闭应用元素518，其可选择用以在没有进一步用户输入的情况下自动地使可听输入应用例如关闭可听输入应用和/或返回装置的主画面。

现在转到图6，图6示出了根据本原理的与可听输入应用关联的示例性UI 600。注意，标题/题目602被示出为可以在功能和配置方面与标题302基本上类似，主页选择元素604被示出为可以在功能和配置方面与主页元素304基本上类似，多个选择要素606被示出为可以在功能和配置方面分别与图3的元素314类似，以及虽然没有示出，但是还可以在UI 600上呈现在功能和配置方面与图像312基本上类似的图像。

UI 600还示出了状态指示器608和关联文本610，本示例性实例中的状态指示器608和关联文本610指示(例如，由根据本原理的装置确定)用户已经从装置转移目光和/或用户的嘴不再活动，但用户仍然使装置位于例如用户的面部的距离阈值以内以提供可听输入。在这样的实例中，可听输入应用可以根据本原理中止处理可听输入序列并且等待用户恢复提供可听输入序列，以及还可以呈现选择元素612以及选择元素614，选择元素612可选择用以在没有进一步用户输入的情况下自动地给装置提供输入以继续等待接收可听输入序列，选择元素614可选择用以在没有进一步用户输入的情况下自动地结束正被输入到装置的可听输入序列的可听输入应用的处理和/或关闭可听输入应用自身。

在没有参照任何特定附图的情况下，应该理解，虽然例如根据本原理的可听输入应用可以和装置一起出售，但是应该理解，本原理适用在可听输入应用是例如通过如因特网的网络从服务器下载到装置的实例中。

还是在没有参照任何附图的情况下，本原理承认，执行可听输入应用的装置可以感测和使用该装置的移动和/或装置相对于用户的位置，以根据本原理确定是否正在或将要提供可听输入。此外，例如可以响应于下述项来确定用户将要提供可听输入并且因此将要启动可听输入应用和/或开始“接听”可听输入：响应于确定用户已经例如提供能够被装置识别为指示用户正在或将要给可听输入应用提供可听输入的姿势的由装置的摄像头检测的姿势；和/或响应于确定用户已经将装置从例如用户的面部的阈值距离之外移动到阈值距离之内并且此后保持装置在预定方向静止(例如，能够由可听输入应用和/或装置识别为用户将要提供可听输入的指示并且因此引起装置和/或应用开始“听”输入(例如，响应于来自例如装置上的方向传感器和/或触摸传感器的信号))；和/或确定用户已经将装置放置在某距离处(例如，保持不动或至少基本不动例如在英寸范围以内)以在该距离处(例如，其中只要装置保持在该距离处，装置就根据本原理“接听”)提供可听输入。

仍然根据本原理，应该理解，本文所描述的眼睛跟踪可以被用于下述实例：在该实例中，例如用户正在提供可听输入序列时在装置处接收到文本消息，响应于确定用户的眼睛正注意在文本消息的至少一部分和/或确定用户已经停止提供可听输入和/或完全停止说话，装置决定其要中止对可听输入序列的处理，然后响应于确定用户正再次给装置提供可听输入和/或确定关闭了或相反退出了呈现文本消息的画面，装置恢复对可听输入序列的处理。

如另一示例，假设用户根据本原理开始提供可听输入序列，用户中止提供该序列以进行装置的另一操作，然后基于对被提供且处理的可听输入的重新开始来确定序列的上下文和/或之前的输入部分应该被改变。在这样的实例中，装置可以例如识别由用户提供的“关键”词以例如在没有进一步的用户输入的情况下自动地响应于该“关键”词而忽略在中止之前的最近提供的单词并且因此拒绝将在中止之前的最近提供的单词处理为在中止之后将要结束的可听输入序列的部分。除了前述以外或代替前述，装置可以例如将在提供可听输入时被用户的中止分开的两个单词识别为相似的和/或矛盾的，在可听输入中它们两个都不能被一致地处理以执行命令(例如，两个单词都是名词，两个单词都是不同城市名但是序列的上下文是指单个城市的信息等)。但是不管怎样，在一些在中止之后改变上下文的实施方式中，作为在中止之后被修改的上下文和/或在中止之后输入的单词被作为与序列相关的操作词进行处理。

还要注意，虽然没有提供为附图，但是可以在用于执行可听输入应用的装置上呈现与可听输入应用关联的设置UI，从而配置装置的一个或更多个设置。例如，可以由用户设置其它操作和/或应用的特定选择元素以在UI(例如UI 300)上呈现，用于确定在可听输入中是否已经发生中止以及确定何时如以上所描述已经恢复可听输入的操作中的一个或更多个操作可以被启动或不能启动(如，基于切换开/关元件)等。

虽然本文示出并且详细描述了具体的“检测对于装置的可听输入中的中止”，但是应该理解的是本申请包含的主题仅被权利要求限制。

Claims

1.一种用于检测可听输入中的中止的装置，包括：

处理器，

存储器，所述存储器能够被所述处理器访问并且承载有能够被所述处理器执行以实现如下操作的指令：

处理可听输入序列，所述可听输入序列由所述装置的用户提供；

至少部分地基于来自与所述装置通信的至少一个摄像头的第一信号来确定在提供所述可听输入序列期间发生了中止；

响应于确定发生了所述中止，停止处理所述可听输入序列；

至少部分地基于来自所述摄像头的第二信号来确定已恢复提供所述可听输入序列；以及

响应于确定已恢复提供所述可听输入序列，恢复对所述可听输入序列的处理。

2.根据权利要求1所述的装置，其中，所述中止包括所述装置不能理解的可听序列分隔符。

3.根据权利要求2所述的装置，其中，所述指令还能够由所述处理器执行，从而除非还在对来自所述装置上的加速度计的信号进行处理时至少同时接收到所述可听序列分隔符，则响应于处理来自所述装置上的加速度计的信号而确定停止处理所述可听输入序列。

4.根据权利要求2所述的装置，其中，至少部分地基于对至少所述第一信号执行读唇软件来将所述可听序列分隔符确定为不能理解的，所述第一信号是所述摄像头响应于所述摄像头采集所述用户的面部的至少一部分的至少一个图像而生成的。

5.根据权利要求1所述的装置，其中，所述第一信号和所述第二信号分别由所述摄像头响应于所述摄像头采集所述用户的面部的至少一部分的至少一个图像而生成。

6.根据权利要求1所述的装置，其中，所述中止包括所述用户向所述装置提供可听输入序列期间的中止。

7.根据权利要求6所述的装置，其中，所述至少部分地基于所述第一信号确定发生了中止包括：确定所述用户的当前面部表情表示不是将要提供可听输入。

8.根据权利要求7所述的装置，其中，所述确定用户的当前面部表情不是表示将要提供可听输入包括：确定所述用户的嘴至少大部分闭合。

9.根据权利要求8所述的装置，其中，所述确定用户的当前面部表情不是表示将要提供可听输入包括：确定所述用户的嘴是闭合的。

10.根据权利要求1所述的装置，其中，所述至少部分地基于所述第二信号来确定已恢复提供所述可听输入序列包括：确定所述用户的嘴是张开的。

11.根据权利要求1所述的装置，其中，所述至少部分地基于所述第一信号确定已发生了中止包括：确定所述用户的嘴是张开的并且至少是静止的。

12.根据权利要求1所述的装置，其中，所述至少部分地基于所述第一信号确定已发生了中止包括：确定所述用户的眼睛没有在看所述装置或没有朝向所述装置看。

13.一种用于检测装置的可听输入中的中止的方法，包括：

在所述装置处接收可听输入序列，所述可听输入序列由所述装置的用户提供；

响应于接收到来自与所述装置通信的至少一个摄像头的第一信号以及响应于接收到来自与所述装置至少通信的触控显示器的输入，而确定所述用户已经停止提供所述可听输入序列；以及

确定所述用户已经恢复提供所述可听输入序列。

14.根据权利要求13所述的方法，其中，所述确定用户已经恢复提供所述可听输入序列包括：响应于接收到所述可听输入序列而确定所述用户已经恢复提供可听输入。

15.根据权利要求13所述的方法，其中，所述确定用户已经恢复提供所述可听输入序列包括：基于来自所述摄像头的第二信号确定所述用户已经恢复提供可听输入。

16.根据权利要求13所述的方法，其中，所述确定用户已经恢复提供所述可听输入序列包括：响应于确定在触控显示器上没有接收到触摸输入的阈值时间已期满，而确定所述用户已经恢复提供所述可听输入序列。

17.根据权利要求13所述的方法，所述方法还包括：响应于确定所述用户已经恢复提供所述可听输入序列，继续在所述装置处接收所述可听输入序列。

18.根据权利要求13所述的方法，所述方法还包括：响应于确定所述用户已经恢复提供所述可听输入序列，继续执行如下可听输入序列应用：所述可听输入序列应用被启动以接收所述可听输入序列，其中，所述可听输入序列应用在确定所述用户已经停止提供所述可听输入序列之前处理所述可听输入序列，以及其中，所述可听输入序列应用继续在所述装置处使用所述可听输入序列应用接收所述可听输入序列。

19.根据权利要求18所述的方法，其中，所述确定用户已经停止提供所述可听输入序列包括：基于来自所述摄像头的所述第一信号确定所述用户已经停止提供可听输入，以及基于来自所述触控显示器的输入确定所述用户正在进行所述装置的其它操作。

20.一种用于检测可听输入中的中止的设备，包括：

第一处理器；

网络适配器；

存储装置，所述存储装置承载有经由所述网络适配器通过网络传输的、用以由第二处理器执行以实现如下操作的指令：

处理可听输入命令，所述可听输入命令由与所述第二处理器关联的装置的用户提供，对所述可听输入命令的处理响应于如下操作：基于来自与所述第二处理器通信的至少一个摄像头的至少一个信号确定在所述用户正沿所述装置的方向看的同时所述用户的嘴正在活动；以及

执行所述可听输入命令。