CN105960673A

CN105960673A - 多个设备上的热词检测

Info

Publication number: CN105960673A
Application number: CN201580006769.7A
Authority: CN
Inventors: 雅各布·尼古劳斯·弗尔斯特; 亚历山大·H·格伦斯坦
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2014-10-09
Filing date: 2015-09-29
Publication date: 2016-09-21
Anticipated expiration: 2035-09-29
Also published as: EP3136381B1; US10665239B2; JP2017126317A; EP3136381A1; CN105960673B; EP3100260B1; US11024313B2; US20160104483A1; US9990922B2; US10347253B2; JP6261751B2; JP6251343B2; US20240233727A1; US20180315424A1; US9424841B2; EP3483877B1; KR20160121585A; US20190385604A1; KR20160105847A; CN111105784A

Abstract

公开了用于多个设备上的热词检测的方法、系统、和装置，包括在计算机存储介质上编码的计算机程序。在一个方面，一种方法包括由计算设备接收对应于话语的音频数据的动作。该动作进一步包括确定该话语包括热词的可能性。该动作进一步包括确定该音频数据的响度分值。该动作进一步包括基于该响度分值来确定延迟时间量。该动作进一步包括在已经流逝该延迟时间量之后传送指示该计算设备将发起对该音频数据的语音识别处理的信号。

Description

多个设备上的热词检测

技术领域

本说明书总体上涉及用于识别人正在说的词语的系统和技术，其还被称为语音识别。

背景技术

支持语音的住所或其它环境—也就是用户在其中仅需要出声地讲出查询或命令并且基于计算机的系统将处理并应答该查询和/或致使命令得以执行的住所或其他环境—的现实正在到来。支持语音的环境(例如住所、工作场所、学校等)能够使用分布在该环境的各个房间或区域各处的被连接的麦克风设备的网络来实现。通过这样的麦克风的网络，用户有能力从基本上该环境中的任何地方口头查询系统而无需在他/她的前方或者甚至在其附近具有计算机或其它设备。例如，当在厨房中烹饪时，用户可以询问系统“三杯是多少毫升？”，并且作为响应而从系统接收到回答，例如以合成语音输出的形式的回答。替选地，用户可以询问系统诸如“离我最近的加油站什么时候关门”或者在准备离开房子时询问“我今天应当穿外套吗？”。

此外，用户可以询问系统的查询和/或发出命令，所述查询或命令涉及用户的个人信息。例如，用户可以询问系统“我与John何时会面？”或者命令系统“当我回家时提醒我给John打电话。”

发明内容

对于支持语音的系统，用户与系统交互的方式被设计为主要—如果不是专门地—凭借语音输入来进行。因此，可能拾取周围环境中所发出的包括并非指向系统的那些话语在内的所有话语的系统必须以某些方式来辨别任何给定的话语何时是指向该系统而不是例如指向出现在该环境中的个人。一种实现该目的的方式是使用热词，该热词通过环境中的用户间的协定被预留作为预定词语，其被讲出以唤起系统的注意。在示例环境中，用来唤起系统的注意的热词是词语“OK computer(OK计算机)”。因此，每次词语“OK computer”被讲出时，其就被麦克风所拾取，传达至系统，该系统执行语音识别技术来确定热词是否被讲出，并且如果是，则等待随后的命令或查询。因此，指向系统的话语采用[热词][查询]的一般形式，其中本示例中的“热词”是“OKcomputer”并且“查询”能够是任何问题、命令、声明、或者能够由系统单独或者经由网络与服务器结合来进行语音识别、解析、以及按照其实施动作的其它请求。

根据本说明书中所描述的主题的一个创新方面，一种计算设备接收用户所讲出的话语。该计算设备确定该话语包括热词的可能性并且计算该话语的响度分值。在邻近处的其它计算设备也接收到该话语，确定该话语包括热词的可能性，并且计算该话语的响度分值。每个计算设备还基于该响度分值来计算延迟，使得该延迟的长度与该响度分值成反比。由于距话语的源最近的计算设备通常将具有最高的响度分值，所以该最近的设备应当具有最短的延迟。在已经流逝与给定计算设备相关联的延迟之后，除非相应的计算设备在该延迟时期期间接收到通知信号，否则该计算设备将向其它计算设备传送通知信号。因此，具有最小延迟(并且因此最可能距用户最近)的计算设备向其它计算设备传送信号以指示该计算设备将对该热词之后的附加音频进行处理。在该实例中，进行传送的计算设备对该热词之后的附加音频进行处理。如果该计算设备在延迟期间接收到来自其它计算设备中的一个计算设备的指示另一个设备将对该热词之后的附加音频进行处理的信号，则该计算设备停止处理音频。

总体上，本说明书中所描述的主题的另一个创新方面可以被包含在一种方法中，所述方法包括以下动作：由计算设备接收对应于话语的音频数据；确定该话语包括热词的可能性；确定该音频数据的响度分值；基于该响度分值，确定延迟时间量；在已经流逝该延迟时间量之后，传送指示该计算设备将发起对该音频数据的语音识别处理的信号。

这些和其它实施例均能够可选地包括以下特征中的一个或多个特征。该动作进一步包括：由该计算设备接收对应于附加话语的附加音频数据；确定该附加话语包括热词的第二可能性；确定该附加音频数据的第二响度分值；基于该第二响度分值，确定第二延迟时间量；以及在已经流逝该延迟时间量之前，接收第二信号，该第二信号指示：(i)第二计算设备将发起对该附加音频数据的语音识别处理，以及(ii)该计算设备不应当发起对该附加音频数据的语音识别处理。该动作进一步包括：基于接收到该第二信号，确定该计算设备的激活状态为非活跃状态。

该动作进一步包括：基于传送该信号，确定该计算设备的激活状态为活跃状态。该信号包括超声信号或短距离无线电信号。该信号被另一个计算设备所接收并且向其它计算设备指示不发起对该音频数据的语音识别处理。该动作进一步包括：基于确定该话语包括热词的可能性，准备接收指示另一个计算设备将发起对该音频数据的语音识别处理的信号。该响度分值与该延迟时间量成比例。在该响度分值满足阈值时该延迟时间为零。确定该音频数据的响度分值的动作进一步包括：确定该话语包括该热词的所述可能性包括可能性阈值。

该方面的其它实施例包括对应的系统、装置、以及记录在计算机存储设备上的计算机程序，它们均被配置为执行该方法的操作。

本说明书中所描述的主题的特定实施例能够被实现以便实现以下优势中的一种或多种。多个设备能够检测热词并且仅一个设备将对热词作出响应。

在附图和以下的描述中阐述了本说明书中所描述主题的一个或多个实施例的细节。该主题的其它特征、方面、和优势从说明书、附图、和权利要求书将变得显而易见的。

附图说明

图1是用于热词检测的示例系统的示图。

图2是用于热词检测的示例过程的示图。

图3示出了计算设备和移动计算设备的示例。

各图中相似的附图标记和名称指示相似的要素。

具体实施方式

本说明书描述了基于响度的协议，其允许监听热词的多个计算设备来确定哪个设备应当作出响应。有利的是，该协议能够基于本地交互来实现，例如使用音频信号或短距离无线电信号来实施，并且不需要任何服务器侧的通信。这可以是有益的，因为使用本地交互能够允许对响应进行协商而不会引发与服务器的通信延时。

图1是用于热词检测的示例系统100的示图。总体上，系统100图示了讲出话语104的用户，该话语104被计算设备106、108、和110的麦克风检测到。计算设备106、108、和110对话语104进行处理以确定话语104包括热词的可能性，以及确定该话语的响度分值。计算设备106、108、和110计算与该响度分值成比例的延迟时间。一旦已经流逝计算设备的延迟时间之一，该计算设备就向其它计算设备传送信号。该信号向其它计算设备指示进行传送的计算设备将对与该话语相对应的音频数据执行语音识别。

更为详细地，用户102讲出话语104“OK computer”，并且计算设备106、108、和110通过相应的诸如麦克风的音频输入设备来接收该话语104。计算设备106是用户102拿在该用户手中的电话。计算设备108是位于桌上的平板计算机。计算设备110则是位于墙壁上的恒温器。计算设备106最靠近用户，接下来计算设备108是下一个最靠近的，并且最后计算设备110距离用户最远。计算设备106、108、和110每个都包括麦克风114、116、或118。每个麦克风向相应的音频子系统提供音频数据。该音频子系统对从麦克风所接收的音频数据进行缓冲、滤波、和数字化。在一些实施方式中，每个计算设备可以对音频数据执行端点指示(endpointing)和说话者识别。在一些实施方式中，计算设备106、108、和110可以是能够接收并处理音频数据的任何设备，诸如在以下关于图3所描述的设备。

每个音频子系统将经处理的音频数据提供至热词器，诸如热词器120、122、或124。各热词器对经处理的音频数据执行分类处理，所述音频数据能够使用已知的热词的话语进行了解或训练。各热词器计算话语104包括热词的可能性。各热词器可以从经处理的音频数据中提取音频特征，诸如滤波器组能量或Mel频率倒谱系数。各热词器可以使用分类窗口来处理这些音频特征，诸如通过使用支持向量机或神经网络来进行处理。基于对音频特征的处理，各热词器计算话语104包括热词的可能性。在一些实施方式中，该可能性可以由置信度分值来反映。置信度分值可以被标准化到1至100的范围，其中越高的数字指示话语104包括热词的置信度越大。

在一些实施方式中，各热词器将置信度分值与阈值进行比较。如果置信度分值满足阈值，则计算设备继续处理音频数据。如果置信度分值不满足阈值，则计算设备停止处理音频数据。例如，如果置信度分值为0.8而阈值为0.7，则计算设备将继续处理音频数据。在音频数据对应于“OK,computer”时，置信度分值可能为0.8。如果置信度分值为0.5而阈值为0.7，则计算设备将停止处理音频数据。在音频数据对应于“dinner time”时，置信度分值可能为0.5。

热词器将音频数据提供至响度评分器。响度评分器计算该音频数据的响度分值。通常，响度分值将反映用户与每个计算设备的距离。例如，计算设备106的响度评分器126所计算的响度分值可以为0.9。计算设备108的响度评分器128所计算的响度分值可以为0.6。计算设备110的响度评分器130所计算的响度分值可以为0.5。在一些实施方式中，音频子系统将该音频数据提供至响度评分器。在这种实例下，热词器可以与响度评分器计算响度分值并行地计算话语104包括热词的可能性。

响度评分器可以使用生成与响度成比例的值的任何合适的技术来计算音频数据的响度，例如以下技术的组合或其中的一种技术。一种技术可以是在用户讲出话语时计算由麦克风所接收到的最大或平均声压或声压级。声压或声压级越高，响度就越大。第二种技术是计算音频数据的均方根。音频数据的均方根值越高，响度就越高。第三种技术是计算音频数据的声强。音频数据的声强越高，响度就越高。第四种技术是计算音频数据的声功率。声功率越高，响度就越高。

响度评分器将响度分值提供至延迟计算模块。基于该响度分值，该模块计算出计算设备在进一步处理音频数据并且通知其它计算设备该计算设备将处理音频数据之前所应当等待的延迟时间。例如，响度评分器126将响度分值0.9提供至延迟计算模块132，并且模块132计算出50毫秒的延迟时间。响度评分器128将响度分值0.6提供至延迟计算模块134，并且延迟计算模块134计算出延迟时间为200毫秒。响度评分器130将响度分值0.5提供至延迟计算模块136，并且延迟计算模块136计算出延迟时间为200毫秒。

之后，计时器对该延迟时间进行倒计时，并且一旦已经流逝延迟时间，则该计时器致使计算设备箱向计算设备的扬声器传送信号以供该扬声器发射通知信号。该计时器可以被包括在延迟计算模块中，或者该计时器可以从延迟计算模块分离。例如，该通知信号可以是超声或可听的音频信号，或者是诸如蓝牙的短距离无线电信号。该通知信号被其它计算设备所接收并且向该其它计算设备指示发射该通知信号的计算设备将负责对该音频数据进行处理。例如，延迟计算模块132在指令扬声器138发射通知信号之前等待50毫秒。由于计算设备108和110在它们的计时器完成其相应延迟时间的倒计时之前接收到该通知信号，所以计算设备108和110停止该音频数据的处理并且扬声器140和142不发射通知信号。在一些实施方式中，该通知信号可以包括特定的频率和/或模式。例如，通知信号可以为20千赫以指示计算设备将对音频数据执行语音识别。

在一些实施方式中，在发射通知信号后，计算设备106还可以设置其设备状态138。由于计算设备106是对音频数据进行处理的设备，所以设备状态138被设置为活跃或“唤醒”。计算设备108和110的设备状态140和142被设置为非活跃或“睡眠”，因为这两个设备中的任何一个都不进一步处理该音频数据。

在一些实施方式中，计算设备的设备状态可以不受影响。测量最响的音频数据并且进而最快发射通知信号的计算设备可以开始进一步处理音频数据，而其它计算设备保持唤醒或者进入唤醒状态。例如，用户102可能在计算设备108上观看电影并且在该用户的手中有计算设备106。当用户102讲出“OK,computer”时，计算设备106检测到该音频数据，并且在50毫秒后，计算设备106发射通知信号以指示计算设备106将进一步处理该音频数据。计算设备108接收到该通知信号并且继续播放电影。

在一些实施方式中，计算设备可以在发射或接收到通知信号之前对音频数据执行语音识别。在发射或接收到通知信号之前执行识别允许计算设备快速完成话语的语音识别。例如，如果话语是“OK,computer,call Alice(OK，计算机，给Alice打电话)”，则计算设备能够开始识别出用户讲出了“call Alice”，使得如果该计算设备保持活跃状态则该计算设备能够更快地作出响应。如果计算设备的设备状态是非活跃的，则该计算设备可以不显示其对“call Alice”执行了语音识别的指示。在图1中，使用该技术将致使计算设备106、108、和110对音频数据以及在该音频数据之后的任何音频数据执行语音识别。当扬声器138传送通知信号时，则计算设备106将继续执行语音识别并且显示结果。当扬声器116和118接收到该通知信号时，则计算设备106和108将停止执行语音识别且不显示结果。计算设备106和108向用户102显现为保持在非活跃状态。

图2是用于热词检测的示例过程200的示图。过程200可以由诸如来自图1的计算设备108的计算设备来执行。过程200计算：(i)话语包括热词的可能性；以及(ii)与话语相对应的音频数据的响度分值。过程200计算出计算设备在向其它计算设备通知该计算设备正在对音频数据进行处理之前等待的延迟时间。

计算设备接收对应于话语的音频数据(210)。用户讲出话语并且计算设备的麦克风接收该话语的音频数据。计算设备通过对该音频数据进行缓冲、滤波、端点指示、和数字化来对该音频数据进行处理。作为示例，用户可以说出“OK,computer”并且该计算设备的麦克风将接收到对应于“OK,computer”的音频数据。计算设备的音频子系统将对该音频数据进行采样、缓冲、滤波、和端点指示以用于由该计算设备进一步进行处理。

该计算设备确定该话语包括热词的可能性(220)。该计算设备通过将话语的音频数据与包括热词的音频样本群组进行比较和/或通过对话语的音频数据的音频特性进行分析来确定该话语包括热词的可能性。在一些实施方式中，话语包括热词的可能性可以由置信度分值来表示。置信度分值可以被标准化到1至100的范围，其中100指示话语包括热词的最高可能性。该计算设备可以将置信度分值与阈值进行比较。如果置信度分值满足阈值，则该计算设备将继续处理该音频数据。如果置信度分值并不满足阈值，则该计算设备将停止处理音频数据。在一些实施方式中，为了计算设备继续进行处理，该置信度分值应当高于阈值。例如，如果置信度分值为0.9而阈值为0.7，则计算设备将继续处理该音频数据。

在一些实施方式中，计算设备准备接收指示另一个计算设备将发起对音频数据的语音识别处理的信号。为了接收该信号，计算设备可以确保该计算设备的麦克风保持活跃，确保短距离无线电接收器为活跃，或者确保诸如局域无线无线电的另一个无线电为活跃。计算设备可能有必要准备接收该信号以使得该计算设备在另一个计算设备显示音频数据的语音识别的结果时不显示该结果。

计算设备确定音频数据的响度分值(230)。计算设备可以使用以下技术的组合或其中的一种技术来计算音频数据的响度分值。一种技术可以是计算在用户正在讲出话语时由麦克风接收到的声压或声压级。声压或声压级越高，响度就越大。第二种技术是计算音频数据的均方根。音频数据的均方根值越高，响度就越高。第三种技术是计算音频数据的声强。音频数据的声强越高，响度就越高。第四种技术是计算音频数据的声功率。声功率越高，响度就越高。计算设备所接收到的音频数据的响度可以反映出计算设备与音频源之间的距离。对于直接路径信号传播而言，响度大致与源和接收器之间的距离的平方成反比。在一些实施方式中，计算设备仅在话语包括热词的可能性满足阈值的情况下才计算响度分值。如果话语不太可能包括热词，则计算设备不计算响度分值。

计算设备基于响度分值来确定延迟时间量(240)。在一些实施方式中，该延迟时间与响度分值成反比。例如，响度分值90可以对应于50毫秒的延迟时间，并且响度分值0.6可以对应于200毫秒的延迟时间。在一些实施方式中，如果响度分值不满足阈值，则没有延迟时间，即计算设备停止处理音频信号并且在任何时间都不传送通知。在一些实施方式中，如果响度超过阈值，则延迟时间将为0，这意味着对应的计算设备继续处理音频信号并且立即向其它设备发出通知信号。可以使用任何合适的方法来确定这些阈值，诸如通过实验来经验地确定。

计算设备在已经流逝延迟时间量之后传送指示该计算设备将发起对音频数据的语音识别处理的通知信号(250)。一旦计算设备计算出延迟时间，则该计算设备的计时器对该延迟时间进行倒计时。当已经流逝延迟时间时，该计算设备向附近的其它计算设备传送诸如超声、短距离无线电信号、或局域无线信号的信号，以指示该计算设备正在发起对音频数据的语音识别处理。例如，该计算设备在接收到音频数据之后处于活跃或“唤醒”状态并且其它计算设备在接收到该信号之后处于非活跃或“睡眠”状态。

在一些实施方式中，该计算设备从另一个计算设备接收其它计算设备将发起对音频数据的语音识别处理的信号。在这种实例下，该计算设备在计时器对延迟时间进行倒计时的同时接收到该信号。当计算设备接收到该信号时，该计算设备将不执行或不继续执行该音频数据的语音识别。例如，如果计算设备计算出延迟时间为200毫秒，并且在该计算设备的计时器正在进行200毫秒倒计时的同时，该计算设备接收到来自另一个计算设备的通知信号，则该计算设备将不对音频数据执行语音识别。在接收到该信号之后该计算设备现在可以处于非活跃或“睡眠”状态。

在一些实施方式中，计算设备检测处于附近并且能够对热词作出响应的其它计算设备。该计算设备可以定期传送请求响应的超声或无线电信号。例如，该计算设备可以在搜索识别热词的邻近计算设备时传送20.5千赫的超声。作为响应，接收到该20.5千赫超声的计算设备可以利用21千赫超声作出响应。当计算设备没有检测到识别热词的邻近计算设备时，该计算设备在对音频数据执行语音识别之前可以不计算响度分值和延迟时间。

在一些实施方式中，该计算设备可以识别属于相同用户的其它计算设备。在设置新的计算设备时，该设置流程的一部分可以是识别属于相同用户的其它计算设备。这可以通过检测该用户所登录的其它设备来完成。一旦计算设备识别出另一个计算设备，则该计算设备可以交换标明该计算设备在识别热词时能够进行交换的超声频率模式或比特流的数据。该超声频率模式可以通过扬声器进行传送并且该比特流可以通过无线电进行传送。例如，用户可以设置恒温器并且该设置过程的一部分是搜索处于附近并且对热词作出响应的其他计算设备。该恒温器可以识别该用户所登录的电话和平板计算机。作为示例，该恒温器、电话、和平板电脑可以使用以20.5千赫下1毫秒、21千赫下1毫秒、以及21.5千赫下1毫秒的斜坡频率模式来交换数据。该模式允许发起对音频数据的语音识别处理的计算设备向属于用户的其它计算设备进行通知且不抑制可能属于另一个用户的其它设备上的语音识别。

图3示出了能够被用来实现这里所描述的技术的计算设备300和移动计算设备350。计算设备300意图表示各种形式的数字计算机，诸如膝上计算机、桌面计算机、工作站、个人数字助理、服务器、刀片服务器、大型主机、或其它适当的计算机。移动计算设备350意图表示各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能电话、和其它类似计算设备。这里所示的组件、其连接和关系、以及其功能仅意图作为示例，而并不意味着作为限制。

计算设备300包括处理器302、存储器304、存储设备306、连接到存储器304和高速扩展端口310的高速接口308、以及连接到低速扩展端口314和存储设备306的低速接口312。处理器302、存储器304、存储设备306、高速接口308、高速扩展端口310、和低速接口312中的每一个都使用各种总线互连，并且可以安装在公用主板上或者以其它适当方式进行安装。处理器302能够对用于在计算设备300内执行的指令进行处理，所述指令包括存储在存储器304中或存储设备306上以显示用于外部输入/输出设备上的GUI的图形信息的指令，所述外部输入/输出设备诸如耦合到高速接口308的显示器316。在其它实施方式中，可以视情况使用多个处理器和/或多个总线，连同多个存储器以及多种类型的存储器。而且，可以连接多个计算设备，其中每个设备提供必要操作的一部分(例如作为服务器组、刀片服务器群、或者多处理器系统)。

存储器304存储计算设备300内的信息。在一些实施方式中，存储器304是一个或多个易失性存储单元。在一些实施方式中，存储器304是一个或多个非易失性存储单元。存储器304还可以是另一形式的计算机可读介质，诸如磁盘或光盘。

存储设备306能够提供用于计算设备300的大型存储。在一些实施方式中，存储设备306可以是计算机可读介质或包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备、或磁带设备、闪存或其它类似的固态存储器设备、或者设备阵列，包括在存储区域网络或其它配置中的设备。指令能够被存储在信息载体中。该指令当被一个或多个处理设备(例如处理器302)执行时执行诸如以上所描述的那些的一种或多种方法。该指令还能够由诸如计算机或机器可读介质的一个或多个存储设备(例如存储器304、存储设备306、或者处理器302上的存储器)来存储。

高速接口308对计算设备300的带宽密集型操作进行管理，而低速控制器312对较低带宽密集型操作进行管理。这样的功能分配仅是示例性的。在一些实施方式中，高速接口308耦合到存储器304、显示器316(例如通过图形处理器或加速器来耦合)，并且耦合到可以接受各种扩展卡(未示出)的高速扩展端口310。在所述实施方式中，低速接口312耦合到存储设备306和低速扩展端口314。可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)的低速扩展端口314可以耦合到诸如键盘、指示设备、扫描仪的一个或多个输入/输出设备，或者例如通过网络适配器耦合到诸如交换机或路由器的联网设备。

如图所示，可以以多种不同形式来实现计算设备300。例如，计算设备300可以被实现为标准服务器320，或者多次被实现在这样的服务器的群组中。此外，计算设备300可以在诸如膝上型计算机322的个人计算机中实现。计算设备300也可以被实现为机架式服务器系统324的一部分。替选地，来自计算设备300的组件可以与诸如移动计算设备350的移动设备(未示出)中的其它组件进行组合。这样的设备中的每一个可以包含计算设备300和移动计算设备350中的一个或多个，并且整个系统可以由相互通信的多个计算设备组成。

除其它组件之外，移动计算设备350包括处理器352、存储器364、诸如显示器354的输入/输出设备、通信接口366、以及收发器368。设备350还可以提供有诸如微型驱动器或其它设备的存储设备以提供额外的存储。处理器352、存储器364、显示器354、通信接口366、和收发器368中的每一个使用各种总线互连，并且组件中的若干可以被安装在公用主板上或者以其它适当方式安装。

处理器352能够执行计算设备350内的指令，包括存储在存储器364中的指令。处理器可以被实现为包括单独的和多个模拟和数字处理器的芯片的芯片组。例如，处理器352可以提供对设备350的其它组件的协调，诸如对用户接口、移动计算设备350所运行的应用、以及移动计算设备350所进行的无线通信的控制。

处理器352可以通过耦合到显示器354的控制接口358和显示接口356与用户进行通信。例如，显示器354可以是TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器或者其它适当的显示技术。显示接口356可以包括用于驱动显示器354以向用户呈现图形和其它信息的适当电路。控制接口358可以接收来自用户的命令并且对该命令进行转换以用于向处理器352提交。此外，可以提供与处理器352通信的外部接口362，以便使得设备350能够与其它设备进行近区域通信。例如，以太接口363在一些实施方式中可以提供有线通信，或者在其它实施方式中提供无线通信，并且还可以使用多个接口。

存储器364存储移动计算设备350内的信息。存储器364可以被实现为一个或多个计算机可读介质或媒体、一个或多个易失性存储单元、或者一个或多个非易失性存储单元。也可以提供扩展存储器374并通过扩展接口372连接至设备350，例如所述扩展接口可以包括SIMM(单列直插内存模块)卡接口。扩展存储器374可以为移动计算设备350提供额外的存储空间，或者还可以存储用于移动计算设备350的应用和其它信息。具体地，扩展存储器374可以包括指令以执行或补充以上所描述的过程，并且还可包括安全信息。因此，例如，扩展存储器374可以作为移动计算设备350的安全模块来提供，并且可以被编程有许可对移动计算设备350进行安全使用的指令。此外，安全应用连同附加信息可以经由SIMM卡来被提供，诸如以不可非法侵入的方式在SIMM卡上设置标识信息。

如以下所讨论的，例如，存储器可以包括闪存和/或NVRAM存储器(非易失性随机存取存储器)。在一些实施方式中，指令被存储在信息载体中。该指令当被一个或多个处理设备(例如处理器352)执行时，执行诸如以上所描述的那些方法中的一种或多种方法。该指令还能够被诸如一个或多个计算机可读或机器可读介质的一个或多个存储设备(例如存储器364、扩展存储器374、或者处理器352上的存储器)所存储。在一些实施方式中，例如，该指令能够通过收发器368或外部接口362来以传播信号的方式被接收。

在必要的情况下，移动计算设备350可以通过通信接口366来无线地通信，所述通信接口366可以包括数字信号处理电路。通信接口366可以提供在各种模式或协议下的通信，除其它之外，诸如GSM语音通话(全球移动通信系统)、SMS(短消息服务)、EMS(增强型消息服务)、或MMS(多媒体消息服务)消息发送、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000、或GPRS(通用分组无线电服务)。例如，这样的通信可以通过收发器368使用射频来发生。此外，诸如使用蓝牙、WiFi、或其它这样的收发器(未示出)可以发生短距离通信。此外，GPS(全球定位系统)接收器模块370可以向移动计算设备350提供附加的导航相关和位置相关的无线数据，所述无线数据可由在移动计算设备350上运行的应用程序视情况使用。

移动计算设备350还可以使用音频编解码器360可听地通信，所述音频编解码器360可以接收来自用户的语音信息并将其转换为可使用的数字信息。同样，音频编解码器360可以诸如通过例如移动计算设备350的送受话器中的扬声器为用户生成可听的声音。这样的声音可以包括来自语音电话呼叫的声音，可以包括已记录的声音(例如语音消息、音乐文件等)，并且还可以包括在移动计算设备350上操作的应用所生成的声音。

如图所示，可以以多种不同形式来实现移动计算设备350。例如，移动计算设备350可以被实现为蜂窝电话380。移动计算设备350还可以被实现为智能电话382、个人数字助理、或其它类似移动设备的一部分

这里所描述的系统和技术的各种实施方式可以以数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件、和/或以上的组合来实现。这些各种实施方式可以包括一个或多个计算机程序中的实施方式，所述计算机程序可以在包括至少一个可编程处理器、至少一个输入设备和至少一个输出设备的可编程系统上执行和/或解释，所述可编程处理器是专用或通用的，被耦合以从存储系统接收数据和指令并且向所述存储系统传送数据和指令。

这些计算机程序(也被称作程序、软件、软件应用程序、或代码)包括用于可编程处理器的机器指令，并且可以以高级程序语言和/或面向对象的编程语言、和/或汇编/机器语言来实现。如本文所使用的，术语机器可读介质和计算机可读介质是指被用来向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))，包括接收作为机器可读信号的机器指令的机器可读介质。术语机器可读信号是指用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，这里所描述的系统和技术可在具有下述的计算机上实现：用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)，以及用户通过其可以向计算机提供输入的键盘和指示设备(例如，鼠标或轨迹球)。还可使用其它类型的设备来提供与用户的交互；例如，提供给用户的反馈可以为任何形式的感官反馈(例如，视觉反馈、听觉反馈、或触觉反馈)；并且可以以任何形式来接收来自用户的输入，所述形式包括以声音、语音、或触觉输入。

这里所描述的系统和技术可以以计算系统来实现，所述计算系统包括：后端组件(例如作为数据服务器)，或者包括中间组件(例如应用服务器)，或者包括前端组件(例如，具有用户通过其可以与这里所描述的系统和技术的实施方式进行交互的图形用户界面或Web浏览器的客户端计算机)，或者这样的后端、中间件、或前端组件的组合。所述系统的组件能够通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(LAN)、广域网(WAN)、和互联网。

计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络进行交互。客户端和服务器的关系依靠在各自计算机上运行并且彼此具有客户端－服务器关系的计算机程序产生。

虽然上文中已经详细描述了一些实施方式，但是其它修改也是可能的。例如，虽然客户端应用被描述为访问(一个或多个)委托，但是在其它实施方式中，(一个或多个)委托可以被一个或多个处理器所实现的其它应用所采用，所述其他应用诸如在一个或多个服务器上执行的应用。此外，在图中所描绘的逻辑流不需要所示出的特定顺序或连续顺序来实现所期望的结果。此外，可以提供其它动作，或者可以从所描述的流中消除动作，并且可以向所描述的系统添加其他组件或者从其去除其他组件。因此，其它实施方式在以下的权利要求书的范围之内。

Claims

1.一种计算机实现的方法，包括：

由计算设备接收对应于话语的音频数据；

确定所述话语包括热词的可能性；

确定所述音频数据的响度分值；

基于所述响度分值来确定延迟时间量；

在已经流逝所述延迟时间量之后，传送指示所述计算设备将发起对所述音频数据的语音识别处理的信号。

2.根据权利要求1所述的方法，包括：

由所述计算设备接收对应于附加话语的附加音频数据；

确定所述附加话语包括热词的第二可能性；

确定所述附加音频数据的第二响度分值；

基于所述第二响度分值来确定第二延迟时间量；以及

在已经流逝所述延迟时间量之前，接收第二信号，所述第二信号指示：(i)第二计算设备将发起对所述附加音频数据的语音识别处理，以及(ii)所述计算设备不应当发起对所述附加音频数据的语音识别处理。

3.根据权利要求2所述的方法，包括：

基于接收到所述第二信号，确定所述计算设备的激活状态为非活跃状态。

4.根据权利要求1所述的方法，包括：

基于传送所述信号，确定所述计算设备的激活状态为活跃状态。

5.根据权利要求1所述的方法，其中，所述信号包括超声信号或短距离无线电信号。

6.根据权利要求1所述的方法，其中，所述信号被另一个计算设备所接收以及向其它计算设备指示不发起对所述音频数据的语音识别处理。

7.根据权利要求1所述的方法，包括：

基于确定所述话语包括热词的可能性，准备接收指示另一个计算设备将发起对所述音频数据的语音识别处理的信号。

8.根据权利要求1所述的方法，其中，所述响度分值与所述延迟时间量成比例。

9.根据权利要求1所述的方法，其中，在所述响度分值满足阈值时所述延迟时间为零。

10.根据权利要求1所述的方法，其中，确定所述音频数据的响度分值包括：

确定所述话语包括所述热词的所述可能性包括可能性阈值。

11.一种系统，包括：

一个或多个计算机和存储指令的一个或多个存储设备，所述指令在被所述一个或多个计算机所执行时可操作为使所述一个或多个计算机执行操作，所述操作包括：

由计算设备接收对应于话语的音频数据；

确定所述话语包括热词的可能性；

确定所述音频数据的响度分值；

基于所述响度分值来确定延迟时间量；

12.根据权利要求11所述的系统，其中，所述操作进一步包括：

由所述计算设备接收对应于附加话语的附加音频数据；

确定所述附加话语包括热词的第二可能性；

确定所述附加音频数据的第二响度分值；

基于所述第二响度分值来确定第二延迟时间量；以及

13.根据权利要求11所述的系统，其中，所述操作进一步包括：

14.根据权利要求11所述的系统，其中，所述信号包括超声信号或短距离无线电信号。

15.根据权利要求11所述的系统，其中，所述信号被另一个计算设备所接收以及向其它计算设备指示不发起对所述音频数据的语音识别处理。

16.根据权利要求11所述的系统，其中，所述操作进一步包括：

17.根据权利要求11所述的系统，其中，所述响度分值与所述延迟时间量成比例。

18.根据权利要求11所述的系统，其中，在所述响度分值满足阈值时所述延迟时间为零。

19.根据权利要求11所述的系统，其中，确定所述音频数据的响度分值包括：

确定所述话语包括所述热词的所述可能性满足可能性阈值。

20.一种存储软件的非暂时性计算机可读介质，所述软件包括能够由一个或多个计算机执行的指令，所述指令在这样的执行时使所述一个或多个计算机执行操作，包括：

由计算设备接收对应于话语的音频数据；

确定所述话语包括热词的可能性；

确定所述音频数据的响度分值；

基于所述响度分值来确定延迟时间量；