CN105723450B

CN105723450B - 用于话语检测的包络比较的方法和系统

Info

Publication number: CN105723450B
Application number: CN201480062249.3A
Authority: CN
Inventors: 马修·谢里菲; 多米尼克·罗博列克; 桑迪普·西达尔塔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2013-11-13
Filing date: 2014-07-24
Publication date: 2019-09-10
Anticipated expiration: 2034-07-24
Also published as: WO2015073071A1; CN105723450A; EP3069336B1; US8775191B1; EP3069336A1

Abstract

包括在计算机存储介质上编码的计算机程序的用于将话语分类的方法、系统以及装置。该方法、系统以及装置包括获得表示用户的话语的音频输入信号的动作。附加动作可包括确定所述音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配。其它动作可包括至少基于确定所述音频输入信号的所述至少一部分的形状与和关键字相对应的所述音频触发信号的所述至少一部分的形状匹配而将话语分类为与关键字相对应的触发话语。

Description

用于话语检测的包络比较的方法和系统

技术领域

本公开一般地涉及使用语音命令来控制计算机。

背景技术

计算机可分析用户的话语并可作为响应而执行动作。例如，用户可说出“什么时间了？”且计算机可回答“下午4:30”。

发明内容

一般地，在本说明书中描述的主题的方面可涉及用于语音控制使能系统至少基于确定话语的波长表示的形状与和关键字相对应的触发信号的形状相匹配，来将话语分类为候选语音命令的过程，所述候选语音命令例如可能在用于系统的命令之前的触发话语。

为了使“始终在线”系统对来自用户的话语进行响应，使用往往在计算上昂贵的过程来连续地记录和评估音频输入，例如由麦克风捕获的声音的波形表示。例如，在尝试在语义上解释音频输入时，系统可使用端点确定过程或者“端点确定”来隔离个体词或短语在音频输入内在何处开始和结束，并且可将端点器的输出传递至自动化语音识别(ASR)过程或引擎，以生成文本转录。

然而，虽然音频输入系统可包括表示用于系统的命令的话语，但音频输入还可包括不应被解释为命令的声音，诸如并不旨在是命令的话语、由并非系统的授权用户的人说出的话语、以及背景或其它噪声。通过绕过对这些声音的端点确定，可节省计算资源。

用于节省计算资源的一个方法是仅在音频输入满足指定响度或能量水平阈值时执行端点确定。然而，即使当音频输入响度或能量水平满足阈值时，例如在嘈杂环境中，音频输入也可能不与命令相对应，并且端点器可能被不必要地触发。

用于节省计算资源的另一方法是仅仅在音频输入的转录包括特定“热字”，例如预定的或用户指定的关键字或短语(诸如“OK计算机”)时执行语义解释。然而，识别音频输入中的热字或“热字确定”的过程仍常常要求对所有音频输入、甚至不包括热字的那些音频输入执行端点确定和/或语音识别。要求热字作为语音命令的开始的一个优点是允许更高效地且更可靠地检测语音命令，因为对于系统而言与其将识别可能是语音命令的一部分的所有个体词相比，识别音频输入中的单个热字可更容易且不那么计算上昂贵。

根据在本说明书中描述的主题的一个特定实施方式，仅在确定音频输入的各部分包括与特定关键字的话语的波形的形状相匹配的声音波形且可将其分类为用于系统的候选命令之后，执行端点确定、识别、和/或语义解释。例如，系统可确定与局部最大值点和最小值点相对应的音频信号的各部分是否与和音频触发信号中的局部最大值点和最小值点相对应的型式(pattern)匹配。如果系统确定形状不匹配，例如与在预定值内相等或不相似，则系统可绕过音频输入的进一步端点确定、识别、和/或语义解释。

如果系统确定形状确实匹配，则系统然后可继续处理音频输入，例如执行音频输入的端点确定、识别、和/或语义解释。例如，系统然后可通过经由识别在音频输入的匹配部分之前几百毫秒开始并在音频输入的匹配部分之后几百毫秒结束的音频输入的一部分而指定可包括触发话语的音频输入的一部分，来对音频输入进行端点确定。只有那时所指定部分才将被识别器转录，并且如果在转录中出现热字，话语将被分类为要提供给语义解释器以用于进一步评估和处理的候选命令。

在一些方面，可用可包括获得表示用户话语的音频输入信号的动作的方法来体现在本说明书中描述的主题。附加动作可包括确定音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配。其它动作可包括至少基于确定音频输入信号的所述至少一部分的形状与和关键字相对应的音频触发信号的所述至少一部分的形状匹配，来将话语分类为与关键字相对应的触发话语。

其它版本包括在计算机存储设备上编码的被配置成执行方法的动作的对应系统、装置以及计算机程序。

这些及其它版本可每个可选地包括以下特征中的一个或多个。例如，在一些实施方式中，将话语分类为与关键字相对应的触发话语至少基于执行识别音频输入信号的部分中的一个或多个潜在个体词的端点确定。分类可另外至少基于根据确定音频输入信号的所述至少一部分的形状与和关键字相对应的音频触发信号的所述至少一部分的形状匹配而从音频输入信号的经端点确定的部分生成用户的话语的至少一部分的转录。分类可进一步基于确定关键字出现在转录中，以及基于确定关键字出现在转录中，将话语分类为与关键字相对应的触发话语。

在某些方面，将话语分类为与关键字相对应的触发话语至少基于执行识别音频输入信号的部分中的一个或多个潜在个体词的端点确定。分类可另外至少基于根据确定音频输入信号的所述至少一部分的形状与和关键字相对应的音频触发信号的所述至少一部分的形状匹配而从音频输入信号的经端点确定的部分生成用户的话语的至少一部分的转录。分类可进一步基于确定关键字出现在转录中，以及基于确定关键字出现在转录中，将话语分类为与关键字相对应的触发话语。

在某些方面，确定音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配包括确定音频输入信号的部分中的一个或多个最大值与音频输入信号的部分中的一个或多个最小值之间的关系满足多于一个条件。

在一些实施方式中，确定音频输入信号的部分中的一个或多个最大值和音频输入信号的部分中的一个或多个最小值之间的关系满足多于一个条件包括至少确定最大值与最小值之间的比率满足阈值。

在一些方面中，确定音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配包括将音频输入信号部分中被一个或多个局部最小值分隔的多个局部最大值分组，并确定第一局部最大值与第二局部最大值之间的比率满足阈值。

在一些方面中，确定音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配包括识别音频输入信号的部分中的最大值、生成所识别的最大值处的音频输入信号的频谱的表示、并确定该表示与音频触发信号中的对应最大值处的音频触发信号的频谱的表示匹配。

在一些实施方式中，确定音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配包括对音频输入信号的所述至少一部分进行平滑化并确定平滑化的音频输入信号的所述至少一部分与音频触发信号的所述至少一部分的形状匹配。

在附图和以下描述中阐述了在本说明书中描述的本主题的一个或多个实施方式的细节。根据本描述、附图以及权利要求，本主题的其它潜在特征、方面、以及优点将变得显而易见。

附图说明

图1是用于将话语分类的示例系统的框图。

图2是示例音频输入信号的图表。

图3是示例平滑化的音频输入信号的图表。

图4是具有标记极值的示例平滑化的音频输入信号的图表。

图5是用于将话语分类的示例过程的流程图。

各图中的相同附图标记指示相同元件。

具体实施方式

图1是用于将话语分类的示例系统100的框图。一般地，系统100可包括将音频输入信号102的形状与音频触发信号122的形状相比较的形状匹配器120、例如基于该比较将话语分类为候选语音命令或不是候选语音命令的话语分类器140、以及基于话语的分类而进一步处理音频输入信号102的端点器/识别器/语义解释器160。

音频输入信号102可以是可被音频捕获设备捕获到的用户的话语的声音波形的表示，所述音频捕获设备将声音转换成电信号，例如麦克风。例如，音频输入信号102可以是来自用户104的音频输入信号105，其可表示话语“OK计算机，呼叫妈妈”。该特定话语包括关键字“OK计算机”，其向系统100指示随后的词是用于针对系统的命令“呼叫妈妈”。本示例中的特定命令将呼叫用户通讯录中的与标识符“妈妈”相关联的联系人。

音频输入信号102可以替选地是来自另一用户106的另一音频输入信号107，其可表示话语“HEY妹妹，呼叫妈妈”。该特定话语可能不是用于系统的命令。例如，用户106可能正在告诉他妹妹呼叫他们的母亲。系统可基于话语并未从关键字“OK计算机”开始的分类，而将话语分类为不是用于系统的命令。

形状匹配器120可获得音频输入信号102并将该音频输入信号102的形状与音频触发信号122的预期形状相比较。音频触发信号122可与关键字“OK计算机”相对应。例如，音频触发信号122可表示“OK计算机”的话语的声音波形。形状匹配器120可确定音频输入信号102的至少一部分的形状是否与和关键字相对应的音频触发信号122的至少一部分的形状匹配。

例如，形状匹配器120可获得表示话语“OK计算机，呼叫妈妈”的音频输入信号105，并确定音频输入信号105的至少一部分的形状与和关键字“OK计算机”相对应的音频触发信号122的形状匹配。在另一示例中，形状匹配器120可获得音频输入信号107“HEY妹妹，呼叫妈妈”，并确定音频输入信号107中没有形状与和关键字“OK计算机”相对应的音频触发信号122的形状匹配。

话语分类器140可获得由形状分类器120进行的确定的指示，并且至少基于该确定来将音频输入信号102所表示的话语分类。例如，话语分类器140可从形状匹配器120获得音频输入信号105“OK计算机，呼叫妈妈”与音频触发信号122匹配的指示，并且可将音频输入信号105分类为候选语音命令。同样地，话语分类器140可从形状匹配器120获得音频输入信号107“HEY妹妹，呼叫妈妈”与音频触发信号122不匹配的指示，并且可将音频输入信号107分类为不是候选语音命令。

至少基于由形状匹配器120进行的确定，话语分类器140可将“OK计算机，呼叫妈妈”中的话语“OK计算机”分类为和关键字相对应的触发话语。例如，基于接收到音频输入信号105中的形状与音频触发信号122的形状匹配的指示，话语分类器140可确定进一步处理音频输入信号105以将话语“OK计算机”分类为触发话语。

基于话语分类器的输出，端点器/识别器/语义解释器160可确定音频输入信号105的与“OK计算机”相对应的部分的开始标志着潜在触发话语的开始，并且该潜在触发话语可在音频输入信号105中的稍后的点处结束，例如在“OK计算机”开始之后几百毫秒、“OK计算机”结束之后几百毫秒、或者一旦音频输入信号105连续地在特定阈值响度或能量水平以下达几百毫秒。端点器/识别器/语义解释器160可通过对音频输入信号的所确定部分执行端点确定以识别可与个体词相对应的音频输入的部分，并对音频输入信号105的经端点确定的部分执行话音到文本过程，来进一步处理音频输入信号105的所确定的部分。

端点器/识别器/语义解释器160然后可基于识别关键字是否出现在转录中来确定该转录是否包括关键字。如果该转录包括关键字，则端点器/识别器/语义解释器160可将话语分类为触发话语。如果转录不包括关键字，则端点器/识别器/语义解释器160可将话语分类为不是触发话语，即使形状匹配器120确定音频输入信号105中的形状与音频触发信号122的形状匹配。

至少基于由形状匹配器120进行的确定，话语分类器140可将话语或话语的任何部分“HEY妹妹，呼叫妈妈”分类为不是与关键字相对应的触发话语。例如，基于接收到音频输入信号107中没有形状与音频输入触发器122的形状匹配的指示，话语分类器140可将话语分类为不是触发话语，而无需端点器/识别器/语义解释器160进行任何进一步处理以确定话语是否包括关键字(例如不执行话音到文本识别)，并停止话语166的进一步处理。因此，系统100可例如通过避免用于端点确定的附加不必要处理来减少将话语分类所需的计算量，这可减少花费在并非用于系统100的命令的话语上的计算量。

在一些实施方式中，形状匹配器120和话语分类器140甚至可在用户完成说出关键字之前将话语分类为触发信号。例如，话语分类器140可将话语“OK计算-”分类为触发话语。在用户完成说出关键字之前将触发话语分类可使系统100更积极地响应。

端点器/识别器/语义解释器160可接收音频输入信号105，其包括话语“OK计算机，呼叫妈妈”和话语分类器140将话语的“OK计算机”部分分类为触发话语的指示。端点器/识别器/语义解释器160然后可将整个话语转录并确定话语与命令“呼叫妈妈”相对应。端点器/识别器/语义解释器160然后可发起其中呼叫与标识符“妈妈”相关联的号码的呼叫操作，并通过输出“正在呼叫妈妈”162来发起向用户指示正在呼叫用户的妈妈的操作。

在形状匹配器120、话语分类器140、以及端点器/识别器/语义解释器160的功能可被组合、进一步分隔、分布、或互换的情况下可使用系统100的不同配置。系统100可在单个设备中实现或者跨多个设备分布。

图2是示例音频输入信号的图表200。音频输入信号可对应于与话语“OK计算机”相对应的所捕获的声音波形。图表200的X轴可指示以毫秒为单位的时间，并且Y轴可指示由声音波形引起的大气压力的变化程度的幅度。

“O”声音可在210处与峰值相对应，“K”声音可在220处与峰值相对应，“COM”声音可在230处与峰值相对应，并且“PUTER”可在240处与峰值相对应。如在图表200中可以看到的，“O”和“K”声音具有比其它声音更高的峰值，因为“O”和“K”声音更大。“K”声音还在时间方面与“O”声音和“COM”声音分开几毫秒。

图3是示例平滑化的音频输入信号的图表300。可从图2的图表200中所示的可以是非平滑化的音频输入信号来生成平滑化的音频输入信号。可使用具有五十毫秒窗口的有限脉冲响应滤波器对非平滑化的音频输入信号的绝对值进行平滑化来生成平滑化的音频输入信号。

可基于在平滑化的音频输入信号中的峰值的每一侧的特定窗口(例如六十毫秒窗口)内找到极值而在平滑化的音频输入信号中找到局部最小值点和局部最大值点。图表300示出与在“O”声音开始之前相对应的320A处的最小值、与“O”声音达到峰值时相对应的310A处的最大值、与“O”声音结束之后和“K”声音开始之前的暂停相对应的320B处的最小值、与“K”声音达到峰值时相对应的310B处的最大值、当“K”声音结束时且在“COM”声音开始之前的320C处的最小值、以及当“COM”声音达到峰值时的310C处的最大值。

形状匹配器120可比较与平滑化的信号相关联的局部最大值和最小值点的形状或型式。例如，形状匹配器120可接收非平滑化的音频输入信号、将音频输入信号平滑化、并且然后将平滑化的音频输入信号与可平滑化的音频触发信号相比较。另外或替选地，形状匹配器120可接收平滑化的音频输入信号并将平滑化的音频输入信号与平滑化的触发信号相比较。

图4是具有标记极值的示例平滑化的音频输入信号的图表400。标记极值可包括局部最大值和局部最小值。例如，标记极值可包括图3的图表300中描述的最小值和最大值。图表400可包括标志线420A—C和410A—C，其可以是在图表300中的标记最小值和最大值的垂直线。标志线420A—C可标记最小值320A—C且410A—C可标记最大值310A—C。

形状匹配器120可基于在信号中匹配极值来确定音频输入信号的形状是否与音频触发信号的形状匹配。例如，如果音频触发信号中的最大值和最小值与音频输入信号中的最大值和最小值相对应，例如具有相似的相对幅度和相似的相对时序，则形状匹配器120可确定音频输入信号的形状与音频触发信号的形状匹配。另一方面，如果音频触发信号中的最大值和最小值并未与音频输入信号中的最大值和最小值相对应，则形状匹配器可确定音频输入信号的形状与音频触发信号的形状不匹配。

在信号中匹配极值时，形状匹配器120可将极值分组。形状匹配器120可基于与音频触发信号的形状匹配的分组来将极值分组。例如，用于关键字“OK计算机”的音频触发信号可包括分别表示“O”、“K”、和“COM”的三个最大值，其由可表示静默的两个最小值分隔。

形状匹配器120可确定满足分组准则的极值组与音频触发信号的形状匹配。分组准则可以是(i)由两个最小值分隔的三个最大值，(ii)所有最大值分开至少一百毫秒，并且分开不超过五百毫秒，(iii)最小值在最大值之间大致上居于中心，(iv)所有最大值大于所有最小值，并且(v)最大的最大值明显大于最小的最小值。该准则可基于不同的关键字而不同。例如，该准则可以是四个最大值被三个最小值分隔或者所有最大值分开至少两百毫秒。还可使用附加准则或较少的准则。

如果形状匹配器120并未在音频输入信号中识别到满足分组准则的一组极值，则形状匹配器120可将音频输入信号分类为不具有与音频触发信号的形状匹配的形状。如果形状匹配器120确实在音频输入信号中识别到满足分组准则的一组或多组极值，则形状匹配器120可执行进一步处理以将音频输入信号分类。

例如，形状匹配器120可基于比较最大值和最小值的幅度而对音频输入信号进行评分。例如，形状匹配器120可基于最大的最大值与最小的最小值之间的比率的组合来生成分数。最大的最大值与最小的最小值之间的大的比率可与较大的分数相关联，因为该比率可指示最大的最大值比最小的最小值声音大得多。形状匹配器120可另外将最大和最小的最大值之间的比率考虑在内。最大和最小的最大值之间的大的比率可与较小的分数相关联，因为该比率可指示最大值并不是始终如一的。

形状匹配器120可基于分数将音频输入信号分类。例如，如果分数大于阈值分数，则形状匹配器120可将音频输入信号分类为具有与音频触发信号的形状匹配的形状。另一方面，如果该分数低于或等于阈值分数，则形状匹配器120可将音频输入信号分类为不具有与音频触发信号的形状匹配的形状。

还可使用不同的评分算法。例如，可将所有最大值的平均值或中值与所有最小值的平均值或中值相比较。另外或替选地，可将分组准则与评分算法相结合，使得形状匹配器120基于确定不满足分组准则而减小分数并基于确定满足分组准则而增加分数。

形状匹配器120可基于该关键字而生成分组准则。形状匹配器120可获得音频触发信号、识别音频触发信号中的最大值和最小值、识别最大值与最小值之间的关系(例如时序差和幅度差)、并基于所识别的关系来生成准则。例如，形状匹配器可获得与关键字“HOCUS-POCUS”相对应的音频触发信号，并生成被三个最小值分隔且第二最大值和第四最大值在幅度方面大致上相等的四个最大值的准则。另外或替选地，形状匹配器120可获得基于关键字的分组准则。

形状匹配器120可另外或替选地基于识别到音频输入信号的部分中的最大值、生成所识别最大值处的音频输入信号的频谱的表示、并确定该表示与音频触发信号中的对应最大值处的音频触发信号的频谱的表示匹配来确定形状是否匹配。因此，系统100可基于围绕着表示话语的音频输入信号中的峰值而提取的频谱来将话语分类。

例如，形状匹配器120可将在分组中的第一最大值处所示的音频输入信号的频谱与音频触发信号中的第一最大值相比较。另外或替选地，形状匹配器120可比较其它最小值或最大值的频谱，例如第一最小值、第二最大值、以及第二最小值的频谱。可将具有类似频谱的形状评分为是更加类似的形状。

在使用频谱来进一步减少发送到话音识别器的音频量的更详细示例中，如果形状匹配器120确定音频输入信号的分数满足阈值分数，则形状匹配器120可在触发话音识别之前进一步处理前两个最大值。该进一步处理可包括计算用于围绕前两个最大值的小窗口(例如，三十二毫秒)的Mel频率倒谱系数(MFCC)的一个切片。然后可将MFCC的两个切片分类以给出可以是音节的前两个最大值是否与“O”和“K”相对应的指示。

话语分类器140还可在确定要转录的音频输入信号的部分时使用由形状匹配器120识别的极值。例如，话语分类器140可转录与音频触发信号匹配的从在第一最大值之前一秒到在第一最大值之后三秒的部分。另外或替选地，话语分类器140可转录与音频触发信号匹配的从在第一最大值之前一秒到在最后最大值之后一秒的部分。

图5是用于将话语分类的示例过程500的流程图。下面将处理500描述为由参考图1所述的系统100的组件执行。然而，过程500可由其它系统或系统配置执行。

过程500可包括获得表示用户的话语的音频输入信号(510)。例如，形状匹配器120可获得音频输入信号105，其表示话语“OK计算机，呼叫妈妈”。另外或替选地，形状匹配器120可获得表示话语“HEY妹妹，呼叫妈妈”的音频输入信号107。

过程500可包括确定音频输入信号的形状与和关键字相对应的音频触发信号的形状匹配(520)。例如，形状匹配器120可确定输入信号105的形状与与关键字“OK计算机”相对应的音频触发信号122的形状匹配。另外或替选地，形状匹配器120可确定输入信号107的形状与音频触发信号122的形状不匹配。

过程500可包括将话语分类为与关键字相对应的触发话语(530)。例如，话语分类器140可至少基于由形状匹配器120确定输入信号105的形状与音频触发信号122的形状匹配而将“OK计算机，呼叫妈妈”中的话语“OK计算机”分类为触发话语。另外或替选地，话语分类器140可至少基于由形状匹配器120确定输入信号105的形状与音频触发信号122的形状不匹配而将话语“HEY妹妹，呼叫妈妈”确定为不是触发话语。

可以以数字电子电路、以有形地体现的计算机软件或固件、以计算机硬件(包括在本说明书中公开的结构及其结构等价物)、或者以其中的一个或多个的组合来实现在本说明书中描述的主题、功能操作和过程的实施例。可以将在本说明书中描述的主题的实施例实现为一个或多个计算机程序，即在有形非易失性程序载体上编码以用于由数据处理装置执行或控制其操作的计算机程序指令的一个或多个模块。替选地或另外地，可以在人工生成的传播信号上对程序指令进行编码(例如，机器生成的电、光或电磁信号)，该人工生成的传播信号被生成为将信息编码以用于发射到适当的接收器装置以用于由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或其中的一个或多个的组合。

术语“数据处理装置”涵盖用于处理数据的所有装置、设备、以及机器，举例来说，包括可编程处理器、计算机、或多个处理器或计算机。该装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除硬件之外，该装置还可以包括创建用于正在讨论中的计算机程序的执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统、或其中的一个或多个的组合的代码。

可以用任何形式的编程语言(包括编译或解释语言、或者说明或过程语言)来编写计算机程序(其也可称为或描述为程序、软件、软件应用、模块、软件模块、脚本、或代码)，并且其可以以任何形式部署，包括作为独立程序或者作为模块、组件、子例程、或适合于在计算环境中使用的其它单元。计算机程序可以但不需要与文件系统中的文件相对应。可以将程序存储在保持其它程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中、专用于正在讨论中的程序的单个文件中、或者在多个协同文件(例如，存储一个或多个模块、子程序、或代码部分的文件)中。可以将计算机程序部署成在一个计算机上或者在位于一个地点处或跨多个地点分布并被通信网络互连的多个计算机上。

在本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程计算机执行。该过程和逻辑流程还可以由专用逻辑电路执行，并且还可以将装置实现为专用逻辑电路，该专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适合于计算机程序执行的计算机包括，举例来说，可以基于通用或专用微处理器或者两者或者任何其它种类的中央处理单元。一般地，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必不可少的元件是用于执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。一般地，计算机还将包括或者被操作耦合以从其接收或向其传输或两者的用于存储数据的一个或多个大容量存储设备(例如磁、磁光盘、或光盘)。然而，计算机不需要具有这样的设备。此外，可以将计算机嵌入另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、或便携式存储设备(例如，通用串行总线(USB)闪速驱动)，仅举几个例子。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质、或存储器设备，举例来说包括半导体存储器设备，例如，EPROM、EEPROM、以及闪速存储器设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。可以用专用逻辑电路来补充处理器和存储器或者结合在其中。

为了提供与用户的交互，在本说明书中描述的主题的实施例可以在计算机上实现，该计算机具有用于向用户显示信息的显示器设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)和用户可以用来向计算机提供输入的键盘和指示设备，例如鼠标或轨迹球。也可以使用其它种类的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如，视觉反馈、听觉反馈、或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声学、话音、或触觉输入。另外，计算机可以通过向用户所使用的设备发送文档和从其接收文档来与用户相交互；例如，通过响应于从web浏览器接收到的请求而向用户的客户端设备上的web浏览器发送网页。

在本说明书中描述的主题的实施例可以在计算系统中实现，该计算系统包括后端组件(例如作为数据服务器)、或者包括中间件组件(例如应用服务器)、或者包括前端部件(例如具有用户可以通过其与在本说明书中描述的主题的实施方式相交互的图形用户接口或web浏览器的客户端计算机)、或者一个或多个这样的后端、中间件、或前端组件的任何组合。可以用数字数据通信的任何形式或介质(例如，通信网络)来将系统的组件互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般地相互远离并通常通过通信网络进行交互。客户端和服务器的关系借助于在各计算机上运行且相互具有客户-服务器关系的计算机程序发生。

虽然本说明书包含许多特定实施方式细节，但不应将这些理解为对可要求保护的内容的范围的限制，而是作为可以为特定实施例所特有的特征的描述。在本说明书中在分立实施例的场境下描述的某些特征也可以组合地在单个实施例中实现。相反地，在单个实施例的场境下描述的各种特征也可以分立地或以任何适当的子组合在多个实施例中实现。此外，虽然上文将特征描述为以某些组合的方式作用甚至最初同样地要求保护，但在某些情况下可以从该组合移除来自要求保护的组合的一个或多个特征，并且要求保护的组合可以是指向子组合或子组合的变化。

同样地，虽然在图中按照特定顺序描绘了各操作，但不应将其理解为要求按照所示的特定顺序或按照连续顺序来执行这样的操作，或者执行所有的所图示操作以实现期望的结果。在某些情况下，多任务和并行处理可以是有利的。此外，不应将上述实施例中的各种系统组件的分立理解为在所有实施例中都要求这样的分立，并且应理解的是所述程序组件和系统一般地可以在单个软件产品中被集成在一起或者封装到多个软件产品中。

已描述了本主题的特定实施例。其它实施例在以下权利要求的范围内。例如，在权利要求中记载的动作可以按照不同的顺序执行且仍实现期望的结果。作为一个示例，在附图中描绘的过程不一定要求所示的特定顺序或连续顺序以实现期望的结果。在某些实施方式中，多任务和并行处理可以是有利的。可提供其它步骤，或者可从所述过程消除步骤。因此，其它实施方式在以下权利要求的范围内。

Claims

1.一种用于话语检测的包络比较的计算机实现的方法，包括：

获得表示用户的话语的音频输入信号；

确定所述音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配；以及

至少基于确定所述音频输入信号的所述至少一部分的形状与和所述关键字相对应的音频触发信号的所述至少一部分的形状匹配，将所述话语分类为与所述关键字相对应的触发话语，

其中，将所述话语分类为与所述关键字相对应的触发话语至少基于：

执行识别在所述音频输入信号的所述一部分中的一个或多个潜在个体词的端点确定；

基于确定所述音频输入信号的所述至少一部分的形状与和所述关键字的音频触发信号的所述至少一部分的形状匹配，从所述音频输入信号的经端点确定的部分生成所述用户的所述话语的至少一部分的转录；

确定所述关键字出现在所述转录中；以及

基于确定所述关键字出现在所述转录中，将所述话语分类为与所述关键字相对应的触发话语。

2.根据权利要求1所述的方法，其中，确定所述音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配包括：

确定所述音频输入信号的所述一部分中的一个或多个最大值与所述音频输入信号的所述一部分中的一个或多个最小值之间的关系满足多于一个条件。

3.根据权利要求2所述的方法，其中，确定所述音频输入信号的所述一部分中的一个或多个最大值与所述音频输入信号的所述一部分中的一个或多个最小值之间的关系满足多于一个条件包括：

至少确定最大值与最小值之间的比率满足阈值。

4.根据权利要求1所述的方法，其中，确定所述音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配包括：

将所述音频输入信号的所述一部分中的被一个或多个局部最小值分隔的多个局部最大值分组；

确定第一局部最大值与第二局部最大值之间的比率满足阈值。

5.根据权利要求1所述的方法，其中，确定所述音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配包括：

识别所述音频输入信号的所述一部分中的最大值；

生成所识别的最大值处的所述音频输入信号的频谱的表示；以及

确定所述表示与所述音频触发信号中的对应最大值处的所述音频触发信号的频谱的表示匹配。

6.根据权利要求1所述的方法，其中，确定所述音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配包括：

将所述音频输入信号的所述至少一部分平滑化；以及

确定平滑化的音频输入信号的至少一部分的形状与所述音频触发信号的所述至少一部分的形状匹配。

7.一种用于话语检测的包络比较的系统，包括：

一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时能够操作为使得所述一个或多个计算机执行操作，所述操作包括：

获得表示用户的话语的音频输入信号；

基于确定所述音频输入信号的所述至少一部分的形状与和所述关键字相对应的音频触发信号的所述至少一部分的形状匹配，从所述音频输入信号的经端点确定的部分生成所述用户的所述话语的至少一部分的转录；

确定所述关键字出现在所述转录中；以及

8.根据权利要求7所述的系统，其中，确定所述音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配包括：

9.根据权利要求8所述的系统，其中，确定所述音频输入信号的所述一部分中的一个或多个最大值与所述音频输入信号的所述一部分中的一个或多个最小值之间的关系满足多于一个条件包括：

至少确定最大值与最小值之间的比率满足阈值。

10.根据权利要求7所述的系统，其中，确定所述音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配包括：

11.根据权利要求7所述的系统，其中，确定所述音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配包括：

识别所述音频输入信号的所述一部分中的最大值；

生成所识别的最大值处的音频输入信号的频谱的表示；以及

12.根据权利要求7所述的系统，其中，确定所述音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配包括：

将所述音频输入信号的所述至少一部分平滑化；以及

13.一种存储软件的计算机可读介质，所述软件包括能够由一个或多个计算机执行的指令，所述指令在这样的执行时使得所述一个或多个计算机执行操作，所述操作包括：

获得表示用户的话语的音频输入信号；

确定所述关键字出现在所述转录中；以及

14.根据权利要求13所述的介质，其中，确定所述音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配包括：

15.根据权利要求14所述的介质，其中，确定所述音频输入信号的所述一部分中的一个或多个最大值与所述音频输入信号的所述一部分中的一个或多个最小值之间的关系满足多于一个条件包括：

至少确定最大值与最小值之间的比率满足阈值。

16.根据权利要求13所述的介质，其中，确定所述音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配包括：

17.根据权利要求13所述的介质，其中，确定所述音频输入信号的至少一部分的形状与和关键字相对应的音频触发信号的至少一部分的形状匹配包括：

识别所述音频输入信号的所述一部分中的最大值；

生成所识别的最大值处的音频输入信号的频谱的表示；以及