CN103930945B

CN103930945B - 用于移动计算设备中的连续话音识别和检测的系统和方法

Info

Publication number: CN103930945B
Application number: CN201280056118.5A
Authority: CN
Inventors: B.E.布林格特; P.J.霍奇森; P.皮特利卡; S.蒂克纳; R.Z.科恩; H.彭哈; L.扎诺林; D.伯克
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2011-09-30
Filing date: 2012-09-27
Publication date: 2017-10-31
Anticipated expiration: 2032-09-27
Also published as: US20130085755A1; US20160180851A1; US8452597B2; CN103930945A; WO2013049358A1; US20140244253A1; EP2761615A1

Abstract

本申请描述了用于移动计算设备的连续话音识别的系统、制品和方法。一个实施例包括判定移动计算设备是在从外部电源还是从电池电源接收操作电力，并且响应于判定移动计算设备在从外部电源接收电力而激活触发字词检测子例程。在一些实施例中，触发字词检测子例程在移动计算设备在从外部电源接收电力时连续地操作。触发字词检测子例程包括判定经由麦克风接收的多个口说字词是否包括一个或多个触发字词，并且响应于判定多个口说字词包括至少一个触发字词，启动与多个口说字词中包括的至少一个触发字词相对应的应用。

Description

用于移动计算设备中的连续话音识别和检测的系统和方法

相关申请的交叉引用

本专利申请要求2011年9月30日递交的61/542,074号美国临时申请的优先权，这里通过引用将该美国临时申请的内容全部并入，就好像在本申请中完全记载了一样。

背景技术

通常，激活移动计算设备上的语音命令接口要求用户对语音命令接口的某种物理激活。例如，为了激活移动计算设备上的语音命令接口，用户可能需要按压或按住移动计算设备的外表上的物理按钮或开关，或者用户可能需要激活与移动计算设备相关联的图形用户接口上的虚拟按钮或开关。

发明内容

经由语音命令控制移动计算设备在用户不能容易地在物理上与移动计算设备交互时经常是有用的。例如，经由语音命令控制移动计算设备在用户驾驶车辆时或者在移动计算设备离用户有一些距离时(例如在房间那头或者因其他原因而不能被用户立即触及)可能是有用的。

用于控制移动计算设备的语音命令接口一般要求操作麦克风或其他话音输入设备来从用户接收话音，并且在移动计算设备上运行话音识别和检测算法以检测和识别经由麦克风接收的话音。然而，连续地操作麦克风和连续地在移动计算设备上运行话音检测和识别应用在许多情形中可能是不合需要的，因为操作麦克风和连续地执行检测和识别算法所需要的电力可能迅速地耗尽移动计算设备的电池。

本申请公开了系统和方法，其允许了用户享受经由语音命令来控制移动计算设备的优点，而没有如现有设备所要求的那样必须按压或按住移动计算设备上的物理按钮或开关或者手动激活移动计算设备的图形用户接口上的虚拟按钮或开关的限制。

在操作中，根据所公开的系统和方法的一些实施例的移动计算设备被配置为：(i)检测与外部电源的耦合，以及(ii)响应于该检测，激活话音识别模式。一些实施例包括用于检测与外部电源的耦合的电力监视例程。类似地在一些实施例中，在话音识别模式中操作的移动计算设备可包括触发字词检测子例程。检测与外部电源的耦合和激活话音识别模式的组合使得所公开的实施例能够克服现有设备的限制，并且在许多情形中对移动计算设备的电池的影响可忽略。

一些实施例包括判定移动计算设备是在从外部电源还是从电池接收操作电力。如果移动计算设备在从外部电源接收电力，则移动计算设备激活话音识别模式。在一些实施例中，话音识别模式包括触发字词检测子例程。外部电源可以是用于移动计算设备的壁式充电器或者用于移动计算设备的坞接站，例如桌面或车载坞接站。一些实施例还可包括当移动计算设备在从电池接收操作电力时从话音识别模式退出(和/或可能对触发字词检测子例程解除激活)。

在操作中，触发字词检测子例程包括判定经由麦克风接收的口说字词是否包括一个或多个触发字词的集合中的至少一个触发字词。响应于判定口说字词包括至少一个触发字词，触发字词检测子例程启动与口说字词中包括的至少一个触发字词相对应的应用。在一些实施例中，只要移动计算设备继续从外部电源接收电力，触发字词检测子例程就连续地操作。

在一些实施例中，启动的与检测到的(一个或多个)触发字词相对应的应用可以是被配置为从用户接收语音命令的语音命令提示。当语音命令提示被启动时，用户可经由一个或多个语音命令来控制移动计算设备。(一个或多个)触发字词之后的语音命令可包括动作和该动作的对象。例如，启动语音命令提示应用的触发字词可以是“Android”，并且语音命令可包括“呼叫”(动作)和“简·史密斯”(动作的对象)。语音命令如本文所述可包括额外的字词。

在其他实施例中，启动的应用可以是特定的通信应用、多媒体应用或者用于配置移动计算设备的设定的应用。在这些实施例中，触发字词甚至可以是应用的名称。例如，启动电话拨号程序的触发字词可以是“呼叫”。响应于检测到触发字词“呼叫”，移动计算设备可被配置为启动电话拨号程序，然后或者(i)等待接收期望的被叫方的名字，或者(ii)使用“呼叫”触发字词之后的字词作为期望的被叫方的名字。电话拨号程序(或者其他启动的应用)可被配置为在其被启动之后接收额外的语音命令。如本文所述，命令的类型可取决于特定的应用而有所不同。

在一些实施例中，触发字词检测例程可响应于将设备耦合到外部电源、而不是响应于任何其他类型的输入(例如，触摸输入、手动按钮按压，等等)而被启动。在这些实施例中，话音识别模式和/或触发字词检测例程可以仅当移动计算设备在从外部电源接收电力时才被自动激活。在一些实施例中，话音识别模式可以仅当移动计算设备在从外部电源接收操作电力时才被激活，并且话音识别模式可以总是在移动计算设备在从电池接收操作电力时被解除激活。

其他实施例可包括从用户接收激活(或解除激活)触发字词检测子例程的手动输入，而无论移动计算设备是在从外部电源还是从电池接收操作电力。在这些实施例中，即使移动计算设备可能在从电池接收操作电力，移动计算设备仍可激活触发字词检测子例程。当触发字词检测子例程被用户手动激活时(例如，触摸输入、手动按钮按压，等等)，触发字词检测子例程在移动计算设备在从电池接收电力时仍可连续地操作。

在一些实施例中，所公开的方法的特征和功能可与移动计算设备的操作系统相集成。在其他实施例中，所公开的实施例的特征和功能可以是被移动计算设备安装和执行的应用的组件，例如从在线应用商店下载的应用。

本文描述的任何方法可以以存储在非暂态有形计算机可读介质上的指令的形式实现。当被移动计算设备执行时，这些指令可使得移动计算设备执行所公开的方法的一个或多个功能。另外的示例也可包括包含编码有计算机可读指令的有形非暂态计算机可读介质的制品。这些指令可包括执行本文描述的方法的一个或多个功能的指令。

计算机可读介质可包括非暂态计算机可读介质，例如像寄存器存储器、处理器缓存和随机访问存储器(random access memory，RAM)那样短时间存储数据的计算机可读介质。计算机可读介质还可包括非暂态介质，例如次级或永久性长期存储装置，比如只读存储器(read only memory，ROM)、光盘或磁盘、致密盘只读存储器(compact-disc read onlymemory，CD-ROM)。计算机可读介质也可以是任何其他易失性或非易失性存储系统。在一些实施例中，计算机可读介质可被认为是例如计算机可读存储介质，或者有形存储介质。

此外，所公开的方法的一些方面可由被配置为执行本文描述的任何过程或方法中的逻辑功能的电路来执行。在其他示例中，许多类型的设备可以被使用或配置来执行本文描述的任何过程或方法中的逻辑功能。在另外的示例中，许多类型的设备(和/或设备的组件或子组件)可以被使用或配置为用于执行本文描述的任何方法(或者本文描述的方法的任何部分)的功能的装置。

附图说明

图1示出了根据一些实施例的移动计算设备的简化框图的示例。

图2A示出了根据一些实施例的电力检测例程的示例算法。

图2B示出了根据一些实施例的触发字词检测子例程的示例算法。

图3A-3C示出了根据一些实施例的移动计算设备300响应于检测到触发字词而启动应用的示例。

图4示出了根据一些实施例的示例方法。

图5示出了根据一些实施例的示例方法。

具体实施方式

以下详细描述包括对附图的参照。在附图中，相似的标号通常标识相似的组件，除非上下文另有规定。详细描述、附图和权利要求中概述的示例实施例并不打算进行限定。在不脱离本文给出的主题的范围的情况下，可以利用其他实施例，并且可以进行其他改变。容易理解，本文概括描述并且在附图中图示的本公开的各方面可按许多种不同的配置来布置、替换、组合、分离和设计，所有这些在这里都已明确设想到。

图1示出了根据一些实施例的移动计算设备100的简化框图的示例。在一些实施例中，移动计算设备100可以是移动电话、蜂窝电话、智能电话或者现在已知或以后开发的可经由语音命令来控制的类似的移动通信设备。在其他实施例中，移动计算设备100可以是膝上型计算机、平板计算机或者现在已知或以后开发的可经由语音命令来控制的其他类型的移动计算设备。

移动计算设备100包括多个组件，例如一个或多个处理器101、数据存储装置102、电力管理子系统103、用户输入/输出接口104、通信接口105和传感器106。个体组件经由一个或多个数据总线115或者被配置为使得个体组件能够向移动计算设备100的其他组件发送数据和从移动计算设备100的其他组件接收数据的类似通信连接而连接。个体组件还经由配电总线116或者被配置为向移动计算设备100的个体组件提供操作电力的类似连接而连接到电力管理子系统103。

一个或多个处理器101可包括现在已知或以后开发的任何类型的通用处理器(例如来自Intel、Advanced Micro Devices(AMD)等等的处理器)或者任何类型的专用处理器(例如，专用集成电路(application specific integrated circuit，ASIC)、数字信号处理器(digital signal processor，DSP)、编码器/解码器(编解码器CODEC)，等等)。

数据存储装置102被配置为存储数据以及计算机可读程序指令108。数据存储装置102可包括本文描述的任何类型的数据存储装置，包括用于在程序代码或指令的执行期间存储数据和/或程序代码或指令的短期易失性存储器(例如RAM)和/或用于存储数据和/或程序代码或指令的长期非易失性存储器(例如ROM)。在一些实施例中，数据存储装置可实现为固态和/或闪速存储器或者其他类似类型的小外形参数存储介质。

电力管理子系统103包括电池电力接口112、外部电力接口113和电源选择器114。电池电力接口112被配置为从电池源接收操作电力，该电池源例如是内部电池、与移动计算设备100电耦合的可移除电池或者现在已知或以后开发的任何其他种类的电池或者类似类型的便携式电源。经由电池接口112为移动计算设备100供应操作电力的电池可以是可再充电的或不可再充电的。

外部电力接口113被配置为从外部电源为移动计算设备100接收电力。外部电源的示例包括壁装电源插座、桌面坞接站(docking station)、车载坞接站或电源线、带有坞接站的闹钟或娱乐系统、或者被配置为向移动计算设备100提供操作电力以便移动计算设备100不需要依赖于经由电池接口112来自电池的操作电力的任何其他类型的连接或设备。

在一些实施例中，电源选择器114可被配置为选择性地从电池接口112或外部电力接口113之一提供操作电力。在具有可再充电电池的实施例中，当经由外部电力接口113连接了外部电源时，电源选择器114可被配置为既(i)经由外部电力接口113从外部电力供应向移动计算设备100提供操作电力，又(ii)通过提供从外部电力接口113到电池接口112的电连接来用来自外部电力供应的电力对电池充电。

用户输入/输出接口104包括多个输入和输出组件，例如声音输入/输出组件107、显示输入/输出组件108和可选的键盘109。声音组件107可包括麦克风或者被配置为检测和接收声波的现在已知或以后开发的其他类似类型的声音检测设备。声音组件107还可包括一个或多个扬声器或被配置为生成声波的现在已知或以后开发的类似的声音生成设备。

显示输入/输出组件108可包括液晶显示器(Liquid Crystal Display，LCD)、等离子显示器或者被配置为向用户显示图形用户接口和/或其他信息的现在已知或以后开发的类似类型的显示设备。在一些实施例中，显示器108可包括触摸屏接口或其他触敏组件以使得用户能够向移动计算设备100输入命令或其他信息(或以其他方式与移动计算设备100交互)。在一些实施例中，显示器108可被配置为生成和显示虚拟键盘来供用户进行数据输入。在其他实施例中，移动计算设备100可以可选地包括物理键盘109。然而，键盘(虚拟的或物理的)在所有实施例中都不是必需的。一些实施例还可包括一个或多个外部开关或按钮(未示出)，以开启或关闭移动计算设备100、将设备从睡眠状态唤醒、控制音量或其他类似的功能。

通信接口105可包括一个或多个无线通信接口110和一个或多个有线接口111。无线接口110可包括被配置为根据多种不同的无线通信协议中的任何一种来发送和接收数据的任何类型的无线通信接口，所述无线通信协议例如是：蓝牙、IEEE802.11(IEEE802.11可以指IEEE802.11-2007、IEEE802.11n-2009或者任何其他IEEE802.11修订版)或者其他Wi-Fi变体、码分多址(Code-Division Multiple Access，CDMA)、全球移动通信系统(GlobalSystem for Mobile Communications，GSM)、第3代(3rd Generation，3G)、第4代(4thGeneration，4G)、第3代合作伙伴计划—长期演进(3rd Generation PartnershipProject--Long Term Evolution，3GPP-LTE)、微波接入全球互通(WorldwideInteroperability for Microwave Access，WiMAX)、Zigbee、通用分组无线电服务(General Packet Radio Service，GPRS)、演进数据优化(Evolution-Data Optimized，EV-DO)、高速下行链路分组接入(High-Speed Downlink Packet Access，HSDPA)或者现在已知或以后开发的任何其他类型的无线通信协议。有线接口111可包括被配置为根据多种不同通信协议中的任何一种来发送和接收数据的任何类型的有线通信接口(例如电的、光的等等)，所述通信协议例如是通用串行总线(Universal Serial Bus，USB)、以太网、IEEE1394、Firewire、Thunderbolt或者现在已知或以后开发的任何其他类型的串行或并行数据通信协议。无线接口110和有线接口111可被配置为经由网络——例如因特网——与其他计算或通信设备通信，和/或经由蓝牙、USB或类似的连接与外围设备通信，其中外围设备例如是盘驱动器、外部监视器、鼠标或轨迹球/轨迹板设备以及外部键盘等等。在一些示例中，移动计算设备100可使用有线接口110和/或无线接口111来与代表移动计算设备100执行话音识别的服务器通信。

在一些实施例中，有线通信接口111还可被配置为如电力连接117所示经由外部电力接口113从有线接口111向外部电力接口113提供操作电力。例如，USB是可被配置为既提供通信也提供电力的一类有线通信接口。

移动计算设备100的一些实施例还可包括一个或多个传感器106。传感器106可包括任何一个或多个相机或其他图像传感器、加速度计、全球定位系统(Global PositioningSystem，GPS)传感器、温度传感器或者可能希望与移动计算设备100集成的现在已知或以后开发的任何其他类型的传感器。

如以上简要描述的，根据所公开的实施例配置的移动计算设备可使得用户能够享受经由语音命令来控制移动计算设备的优点，而没有必须按压或按住移动计算设备上的物理按钮或开关或者手动激活移动计算设备的图形用户接口上的虚拟按钮或开关的限制。在一个实施例中，上述优点可经由移动计算设备100执行的电力检测例程和触发字词检测子例程的组合来实现。

图2A示出了根据一些实施例的电力检测例程201的示例算法，并且图2B示出了根据一些实施例的触发字词检测子例程210的示例算法。对图2A和2B的算法的描述包括对本文参考图1示出和描述的示例移动计算设备100及其相应组件的参照。在一些实施例中，电力检测例程201和/或触发字词检测子例程210可以是移动计算设备100的操作系统的组件。在其他实施例中，电力检测例程201和/或触发字词检测子例程210可以是安装在移动计算设备100上的应用或窗口小部件(widget)的组件，例如从在线应用商店下载的应用或窗口小部件。

在一些实施例中，电力检测例程201可被配置为在移动计算设备100上连续地(或至少基本上连续地)操作。一些实施例也可允许用户对电力检测例程201进行激活或解除激活。在一些实施例中，电力检测例程201可被用户选择性地激活或解除激活。

在图2A和2B的实施例中，触发字词检测子例程210是电力检测例程201的“子例程”，因为触发字词检测子例程210是由电力检测例程201在某些条件下激活的，如本文所述。然而，触发字词检测能力并不需要在所有实施例中都实现为电力检测例程的子例程。

电力检测例程开始于块202。在块203，电力检测例程201判定移动计算设备100的操作电力是(1)经由外部电力接口113从外部电源接收的，还是(2)经由电池接口112从电池电源接收的。在一些实施例中，该判定可由电源选择器114作出。在其他实施例中，该判定可由被配置为监视电池接口112、外部电力接口113和/或电源选择器114中的任何一个的一个或多个处理器101作出。如果未检测到外部电源(即，移动计算设备100在从电池源接收操作电力)，则电力检测例程201结束于块207。在结束于块207之后，电力检测例程201在块202重新开始，该重新开始是立即进行的以使得电力检测例程201连续地操作(或者是在短暂的等待时段之后进行的以使得电力检测例程201至少基本上连续地操作)。

然而，如果在块203，电力检测例程201判定移动计算设备100在经由外部电力接口113从外部电源接收操作电力，则电力检测例程201前进到块204。在块204，电力检测例程201激活触发字词检测子例程210。一旦其在块204被电力检测例程201激活，触发字词检测子例程210就可被配置为连续地(或至少基本上连续地)执行，直到其被解除激活为止。

在在块204激活触发字词检测子例程210之后，电力检测例程前进到块205。在块205，电力检测例程201判定通信设备100是否在经由外部电力接口113从外部电源接收操作电力。在一些实施例中，该判定可由电源选择器114作出。在其他实施例中，该判定可由被配置为监视电池接口112、外部电力接口113和/或电源选择器114中的任何一个的一个或多个处理器101作出。

如果移动计算设备100在从外部电源接收其操作电力，则电力检测例程201返回到块205。但如果电力检测例程201判定移动计算设备100不再从外部电源接收其操作电力(即，外部电源已与外部电力接口113断开连接和/或移动计算设备100已切换到电池电力)，则电力检测例程201前进到块206。在块206，电力检测例程201对触发字词检测子例程210解除激活。电力检测例程201随后结束于块207。在结束于块207之后，电力检测例程201在块202重新开始，该重新开始是立即进行的以使得电力检测例程201连续地操作(或者是在短暂的等待时段之后进行的以使得电力检测例程201至少基本上连续地操作)。

图2B示出了触发字词检测子例程210的示例算法。如联系图2A所述，一旦电力检测例程201在块204激活了触发字词检测子例程210，触发字词检测子例程210就被配置为连续地(或至少基本上连续地)执行，直到其被解除激活为止。如上所述，触发字词检测子例程210可在块206被电力检测例程201解除激活。在一些实施例中，触发字词检测子例程210可被用户选择性地激活和/或解除激活。

触发字词检测子例程210开始于块212。在块213，触发字词检测子例程接收声音样本。可经由移动计算设备100的声音输入107接收声音样本。在一些实施例中，声音输入107可包括麦克风或其他类型的声音输入或检测设备。一些实施例可包括触发对麦克风的激活的声音检测器。一旦被激活，麦克风就捕捉声音样本。在其他实施例中，麦克风可被配置为，一旦触发字词检测子例程210被激活，就连续地(或至少基本上连续地)捕捉声音样本。

在块214，触发字词检测子例程210判定在块213接收的声音样本是否包括话音。判定声音样本是否包括话音可由现在已知或以后开发的多种话音检测算法中的任何一种来完成。在一些实施例中，话音检测算法可由一个或多个处理器101执行。在其他实施例中，话音检测算法可由声音输入107的一个或多个组件执行。

如果声音样本不包括话音，则触发字词检测子例程210结束于块217，并且在此之后在块212(立即或在短暂的等待时间之后)重新开始以在块213接收另外一个声音样本。然而，如果声音样本包括话音，则触发字词检测子例程210前进到块215。

在块215，分析来自声音样本的话音以判定话音是否包括一个或多个触发字词的集合中的至少一个。联系图3A-3C来更详细描述触发字词。可利用现在已知或以后开发的多种声音或语音识别算法中的任何一种来分析声音样本。例如，可对口说输入执行话音识别以获得文本，并且可分析该文本来判定该文本是否包括一个或多个触发字词。话音识别可由移动计算设备100执行、由移动计算设备100与之通信的服务器执行、或者由两者的组合来执行。

如果话音不包括至少一个触发字词，则触发字词检测子例程结束于块217，并且在此之后在块212(立即或在短暂的等待时间之后)重新开始以在块213接收另外一个声音样本。然而，如果接收到的话音包括至少一个触发字词，则触发字词检测子例程前进到块216。在块216，触发字词检测子例程210启动与在块215判定的至少一个触发字词相对应的应用。在在块216启动应用之后，触发字词检测子例程210结束于块217。在结束于块217之后，触发字词检测子例程210在块212(立即或在短暂的等待时间之后)重新开始以在块213接收新的声音样本。

如上所述，触发字词检测子例程210以这种方式连续地(或至少基本上连续地)继续，直到触发字词检测子例程210被电力检测例程201或用户解除激活为止。

图3A-3B示出了根据一些实施例的移动计算设备300响应于检测到触发字词而启动应用的示例。移动计算设备300可与联系图1示出和描述的移动计算设备100类似。类似地，移动计算设备300可被配置为执行联系图2A-2B示出和描述的电力检测例程201和/或触发字词检测子例程210。

在图3A-3B中，移动计算设备300经由线缆301从与移动计算设备300连接的外部电源接收操作电力。移动计算设备300的显示器303上的电力图标302指示出移动计算设备300在从外部电源接收电力。因为移动计算设备300在从外部电源接收操作电力，所以电力检测例程201(图2A)将激活了触发字词检测子例程210(图2B)。如本文所述，一旦被激活，触发字词检测子例程210就被配置为连续地(或至少基本上连续地)操作，直到其被电力检测例程201或用户解除激活为止。

在被激活时，触发字词检测子例程210经由移动计算设备300的麦克风304接收声音样本。当移动计算设备300判定经由其麦克风304接收的声音样本包括一个或多个触发字词的集合中的至少一个触发字词时，移动计算设备300被配置为启动与所判定的至少一个触发字词相对应的应用。

在一些实施例中，移动计算设备300可被配置为检测单个触发字词。例如，该触发字词可以是“安卓”(或者可能某种其他的由用户限定的触发字词或字词群组)。在操作中，当移动计算设备300检测到该触发字词(或字词群组时)，移动计算设备可启动语音命令提示。图3A示出了移动计算设备300响应于检测到与语音命令提示305相对应的触发字词而启动语音命令提示305的示例。

在语音命令提示305被启动之后，用户随后可向移动计算设备300发出口说命令串。例如，口说命令串可包括“呼叫…简·史密斯…办公室”。这里，该命令包括动作(“呼叫”)，动作的对象(“简·史密斯”)，以及参数(“办公室”)。响应于接收到口说命令串，移动计算设备300可以：(i)启动与该动作(以及可能与该动作相关联的一个或多个参数)相对应的应用，以及(ii)基于动作的对象(以及可能与该动作的对象相关联的一个或多个参数)执行该应用。图3B示出了移动计算设备300响应于经由语音命令提示305接收的口说命令串(图3A)而启动电话应用306并且呼叫“简·史密斯”的办公室号码。

在其他实施例中，移动计算设备300可被配置为响应于经由语音命令提示305接收的特定口说命令串而启动其他类型的应用。在一个示例中，移动计算设备300可被配置为对特定的应用、特征或服务进行激活或解除激活。例如，移动计算设备300可被配置为响应于诸如“配置振铃静音”之类的命令串而使其振铃静音或解除激活。在另一示例中，移动计算设备300可被配置为响应于经由语音命令提示305接收的口说命令串而启动多媒体播放器并且播放特定的歌曲或视频。例如，口说命令串“播放歌曲All You Need Is Love”可使得移动计算设备300启动多媒体播放器并播放Beatles的歌曲“All You Need Is Love”。

如上所述，口说命令串可包括与动作或对象相关联的一个或多个参数以以减轻或以其他方式最小化含糊。在图3B所示的示例中，“呼叫”是动作，“简·史密斯”是对象，并且“办公室”是与对象“简·史密斯”相关联的参数。参数“办公室”指定要呼叫简·史密斯的号码中的哪一个(即，家庭、办公室、移动，等等)。

在前述示例中，触发字词是“安卓”并且命令串是“呼叫简·史密斯办公室”。在一些实施例中，用户可能需要在触发字词之后稍微暂停一下才说出命令串，以允许移动计算设备300有时间启动语音命令提示305。类似地，用户在为语音命令提示说出“动作”之后可能需要稍微暂停一下，以允许移动计算设备300有时间启动与该动作相对应的应用，例如此示例中的电话应用。

然而，在其他实施例中，移动计算设备300可被配置为缓存口说字词的简短历史，例如多达大约5-30秒的口说字词，或者可能可配置数目的字词，例如多达10-20个口说字词，这取决于配置。在缓存口说字词的简短历史的实施例中，计算设备300可被配置为分析缓存中的字词以识别可跟随在(一个或多个)触发字词之后的动作、对象和参数。缓存口说字词的简短历史的一个优点在于用户在触发字词之后或者在“动作”之后可不需要长时间暂停(或者根本不需要暂停)来等待移动计算设备300响应于触发字词而启动语音命令提示或者响应于经由语音命令提示接收的“动作”而启动应用。

在一些实施例中，移动计算设备300可被配置为检测多个触发字词(或者字词的群组，即触发短语)，其中个体触发字词(或短语)对应于不同的应用或在特定应用中要采取的不同动作。在先前示例中，单个触发字词(或者可能触发短语)，例如“安卓”，可使得移动计算设备300启动语音命令提示305(图3A)。一旦语音命令提示305被启动，移动计算设备300就可接收口说命令串以启动其他应用(即，如图3B所示的电话应用)。但在移动计算设备300被配置为检测多个触发字词(或者触发字词或短语的多个集合)的实施例中，与可依赖于单个触发字词来先打开语音命令提示305、然后才接收口说命令串来启动应用的实施例相比，移动计算设备300可能够更快速地启动应用并处理命令。

在一些实施例中，触发字词的集合可包括用于语音命令提示的(一个或多个)特定触发字词、用于电话应用的(一个或多个)特定触发字词、用于文本消息应用的(一个或多个)特定触发字词、用于电子邮件应用的(一个或多个)特定触发字词、以及用于多媒体播放器应用的(一个或多个)特定触发字词，等等。在操作中，移动计算设备300可具有与许多不同的应用和/或功能相对应的许多不同的触发字词或短语。在一些实施例中，用户可能够配置或定制特定的触发字词或短语并将这些定制的触发字词或短语与特定的应用或其他计算、通信或娱乐任务关联起来。例如，用户可配置触发短语“最爱的歌曲”来使得移动计算设备启动多媒体播放器并播放Beatles的歌曲“All You Need Is Love”。

虽然以上联系响应于经由语音命令提示接收的口说命令串而启动电话应用来描述了图3B，但图3B也可对应于移动计算设备300响应于检测到与电话应用相对应的触发字词而启动电话应用的示例。例如，与电话应用相对应的触发字词可以是“呼叫”。当移动计算设备300检测到触发字词“呼叫”时，移动计算设备可启动电话应用，然后聆听进一步指令，例如要呼叫的号码或人。

图3C示出了移动计算设备300响应于检测到与电子邮件应用307相对应的触发字词而启动电子邮件应用307的示例。在此示例中，与电子邮件应用307相对应的触发字词可以是“邮件”，并且在检测到“邮件”触发字词后，移动计算设备300可启动电子邮件应用307，然后聆听进一步指令，例如电子邮件消息的接收者、主题和正文。

图4示出了根据一些实施例的示例方法400。方法400开始于块401，在这里移动计算设备判定其是否在从以下之一接收操作电力：(i)外部电源，或(ii)被配置为为移动计算设备供电的一个或多个电池。移动计算设备可与本文别处描述的移动计算设备中的任何一个类似。在此示例中，移动设备包括可由用户输入来激活或者可响应于判定移动计算设备在接收外部电力而自动激活的触发字词检测子例程。

在块402，移动计算设备响应于判定其在从外部电源接收电力而激活触发字词检测子例程。触发字词检测子例程在块402a–402d中示出，下文更详细描述这些块。在一些实施例中，移动计算设备可以额外地或替换地即使在移动计算设备在从一个或多个电池接收电力时也响应于接收到来自用户的激活触发字词检测子例程的输入而激活触发字词检测子例程。

在块403，移动计算设备响应于判定其在从一个或多个电池接收操作电力而对触发字词检测子例程解除激活。在一些实施例中，移动计算设备可以额外地或替换地即使在移动计算设备在从外部电源接收电力时也响应于接收到用户的对触发字词检测子例程解除激活的输入而对触发字词检测子例程解除激活。

触发字词检测子例程在块402a–402d中示出。在操作中，一旦被激活，触发字词检测子例程就可被配置为连续地(或至少基本上连续地)执行，直到其在步骤403或者被用户解除激活为止。

触发字词检测子例程开始于块402a，在这里移动计算设备经由麦克风接收口说输入。在块402b，移动计算设备基于对口说输入执行的话音识别，获得与口说输入相对应的文本。话音识别可由移动计算设备执行。或者，话音识别可全部或部分由移动计算设备外部的一个或多个设备执行。例如，移动计算设备可将口说输入发送给服务器，服务器可对口说输入执行话音识别以确定相应的文本，并且移动计算设备可从服务器获得该文本。

在块402c，移动计算设备分析该文本以判定该文本是否包括一个或多个预定义的触发字词的集合中的至少一个。在块402d，响应于判定该文本包括一个或多个预定义的触发字词的集合中的至少一个，移动计算设备启动与文本中包括的至少一个触发字词相对应的应用。

在一些实施例中，与至少一个触发字词相对应的应用可以是被配置为从用户接收语音命令的语音命令提示应用。语音命令可包括以下各项中的一个或多个：(i)动作，(ii)动作的对象，以及(iii)与动作或对象相关联的一个或多个参数。语音命令提示和经由语音命令提示接收的语音命令可与本文别处描述的语音命令提示和语音命令类似。

在其他实施例中，与至少一个触发字词相对应的应用可以是以下各项中的任何一个：语音命令提示、通信应用、多媒体应用、或者用于配置移动计算设备的设定的应用。

在一些实施例中，通过将移动计算设备耦合到外部电源可激活移动计算设备的话音识别模式。图5示出了根据这种实施例的示例方法500。方法500开始于块501，此时移动计算设备检测到移动计算设备与外部电源的耦合。响应于检测到的耦合，在块502，移动计算设备激活话音识别模式。块502–505描述了话音识别模式在被激活之后可如何操作的示例。

在块503，移动计算设备经由麦克风接收口说输入。在块504，移动计算设备判定口说输入是否包括一个或多个触发字词。如上所述，这可涉及由移动计算设备和/或由服务器执行的话音识别。响应于判定口说输入包括至少一个触发字词，在块505，移动计算设备启动与该至少一个触发字词相对应的应用。

虽然本文已公开了各种方面和实施例，但本领域技术人员将清楚其他方面和实施例。本文公开的各种方面和实施例只是为了说明，而并不打算进行限定，真实的范围和精神由权利要求指示。

Claims

1.一种用于移动计算设备中的连续话音识别和检测的方法，包括：

判定移动计算设备是否在从外部电源接收操作电力，其中所述移动计算设备具有能够由用户输入来激活并且能够响应于判定所述移动计算设备在接收外部电力而自动激活的触发字词检测子例程；以及

响应于判定所述移动计算设备在从所述外部电源接收操作电力，激活所述触发字词检测子例程，其中所述触发字词检测子例程包括：

经由所述移动计算设备的麦克风接收口说输入，

基于对所述口说输入执行的话音识别获得文本，

判定所述文本是否包括与语音命令提示应用相关联的一个或多个触发字词，以及

响应于判定所述文本包括与语音命令提示应用相关联的一个或多个触发字词，启动所述语音命令提示应用，其中所述语音命令提示应用被配置为经由所述麦克风接收使得所述移动计算设备启动一个或多个其他应用的口说命令串，并且其中启动所述语音命令提示应用包括在所述移动计算设备上显示语音命令提示。

2.如权利要求1所述的方法，还包括：连续地执行所述触发字词检测子例程，直到其被解除激活为止。

3.如权利要求1所述的方法，还包括：响应于判定所述移动计算设备在从一个或多个电池接收操作电力，对所述触发字词检测子例程解除激活。

4.如权利要求1所述的方法，还包括：

接收所述用户输入；以及

响应于接收到所述用户输入而激活所述触发字词检测子例程，无论所述移动计算设备是否在从所述外部电源接收操作电力。

5.如权利要求1所述的方法，其中，所述一个或多个其他应用包括以下各项中的至少一个：通信应用、多媒体应用、或者用于配置所述移动计算设备的设定的应用。

6.如权利要求1所述的方法，其中，所述外部电源是与所述移动计算设备相关联的充电器和用于所述移动计算设备的坞接站之一。

7.如权利要求1所述的方法，其中，判定步骤、激活步骤和所述触发字词检测子例程中的一个或多个是移动计算设备操作系统的组件。

8.如权利要求1所述的方法，还包括：在启动所述语音命令提示应用之后，经由所述麦克风接收口说命令串，其中所述口说命令串包括动作和该动作的对象；以及响应于接收到所述口说命令串，在所述移动计算设备上启动至少与所述动作相对应的应用并且至少基于所述动作的对象在所述移动计算设备上执行所述应用。

9.如权利要求8所述的方法，其中，所述口说命令串还包括与所述动作相关联的一个或多个参数，并且其中，在所述移动计算设备上启动至少与所述动作相对应的应用包括：在所述移动计算设备上启动与所述动作和与所述动作相关联的一个或多个参数相对应的应用。

10.如权利要求8所述的方法，其中，所述口说命令串还包括与所述动作的对象相关联的一个或多个参数，并且其中，在所述移动计算设备上至少基于所述动作的对象执行所述应用包括：在所述移动计算设备上基于所述动作的对象和与所述动作的对象相关联的一个或多个参数执行所述应用。

11.一种移动计算设备，包括：

声音检测器；

显示器；

电力选择器，用于选择性地从外部电源或一个或多个电池中的一者为所述移动计算设备供电；以及

一个或多个处理器，用于当所述电力选择器在从所述外部电源为所述移动计算设备供电时连续地执行触发字词检测子例程以及当所述电力选择器在从所述一个或多个电池为所述移动计算设备供电时停止所述触发字词检测子例程的执行，

其中，所述触发字词检测子例程包括判定经由所述声音检测器接收的口说输入是否包括与语音命令提示应用相关联的一个或多个触发字词，以及响应于判定所述口说输入包括与所述语音命令提示应用相关联的一个或多个触发字词，启动所述语音命令提示应用，其中所述语音命令提示应用被配置为经由所述声音检测器接收使得所述移动计算设备启动一个或多个其他应用的口说命令串，并且其中启动所述语音命令提示应用包括在所述显示器上显示语音命令提示。

12.如权利要求11所述的移动计算设备，还包括：

用户接口，用于当所述电力选择器在从所述一个或多个电池为所述移动计算设备供电时从用户接收激活所述触发字词检测子例程的输入。

13.如权利要求11所述的移动计算设备，其中，所述一个或多个其他应用包括以下各项之一：通信应用、多媒体应用、或者用于配置所述移动计算设备的设定的应用。

14.如权利要求11所述的移动计算设备，其中，所述一个或多个处理器还用于：响应于包括动作和该动作的对象的所述口说命令串，启动至少与所述动作相对应的应用并且至少基于所述动作的对象来执行所述应用。

15.如权利要求14所述的移动计算设备，其中，所述口说命令串还包括与所述动作相关联的一个或多个参数，并且其中，启动至少与所述动作相对应的应用包括启动与所述动作和与所述动作相关联的一个或多个参数相对应的应用。

16.如权利要求14所述的移动计算设备，其中，所述口说命令串还包括与所述动作的对象相关联的一个或多个参数，并且其中，至少基于所述动作的对象来执行所述应用包括在所述移动计算设备上基于所述动作的对象和与所述动作的对象相关联的一个或多个参数来执行所述应用。

17.一种用于移动计算设备中的连续话音识别和检测的装置，包括：

用于判定移动计算设备是否在从外部电源接收操作电力的装置，其中所述移动计算设备具有能够由用户输入来激活并且能够响应于判定所述移动计算设备在接收外部电力而自动激活的触发字词检测子例程；以及

用于响应于判定所述移动计算设备在从所述外部电源接收操作电力来激活所述触发字词检测子例程的装置，其中所述触发字词检测子例程包括：

经由所述移动计算设备的麦克风接收口说输入，

基于对所述口说输入执行的话音识别获得文本，

用于响应于判定所述文本包括与语音命令提示应用相关联的一个或多个触发字词来启动所述语音命令提示应用的装置，其中所述语音命令提示应用被配置为经由所述麦克风接收使得所述移动计算设备启动一个或多个其他应用的口说命令串，并且其中启动所述语音命令提示应用包括在所述移动计算设备上显示语音命令提示。

18.如权利要求17所述的装置，还包括：用于连续地执行所述触发字词检测子例程直到其被解除激活为止的装置。

19.如权利要求17所述的装置，还包括：用于响应于判定所述移动计算设备在从一个或多个电池接收操作电力来对所述触发字词检测子例程解除激活的装置。

20.如权利要求17所述的装置，还包括：

用于接收所述用户输入的装置；以及

用于响应于接收到所述用户输入而激活所述触发字词检测子例程而无论所述移动计算设备是否在从所述外部电源接收操作电力的装置。

21.如权利要求17所述的装置，其中，所述一个或多个其他应用包括以下各项中的至少一个：通信应用、多媒体应用、或者用于配置所述移动计算设备的设定的应用。

22.如权利要求17所述的装置，其中，所述外部电源是与所述移动计算设备相关联的充电器和用于所述移动计算设备的坞接站之一。

23.如权利要求17所述的装置，其中，判定步骤、激活步骤和所述触发字词检测子例程中的一个或多个是移动计算设备操作系统的组件。

24.如权利要求17所述的装置，还包括：用于在启动所述语音命令提示应用之后，经由所述麦克风接收口说命令串的装置，其中所述口说命令串包括动作和该动作的对象；以及

用于响应于接收到所述口说命令串，在所述移动计算设备上启动至少与所述动作相对应的应用并且至少基于所述动作的对象在所述移动计算设备上执行所述应用的装置。

25.如权利要求17所述的装置，其中，所述口说命令串还包括与所述动作相关联的一个或多个参数，并且其中，在所述移动计算设备上启动至少与所述动作相对应的应用包括：在所述移动计算设备上启动与所述动作和与所述动作相关联的一个或多个参数相对应的应用。

26.如权利要求17所述的装置，其中，所述口说命令串还包括与所述动作的对象相关联的一个或多个参数，并且其中，在所述移动计算设备上至少基于所述动作的对象执行所述应用包括：在所述移动计算设备上基于所述动作的对象和与所述动作的对象相关联的一个或多个参数执行所述应用。