CN105006235B

CN105006235B - 基于词比较的语音端点定位

Info

Publication number: CN105006235B
Application number: CN201510195100.9A
Authority: CN
Inventors: M·布坎南; P·K·古普塔; C·B·坦迪奥诺
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2014-04-23
Filing date: 2015-04-22
Publication date: 2020-07-17
Anticipated expiration: 2035-04-22
Also published as: US9607613B2; US10546576B2; EP3188183A1; US20200043466A1; US20210248995A1; EP3767620A3; EP2937860B1; EP3767620A2; US11636846B2; EP2937860A1; CN111627424A; US20230237988A1; US20160260427A1; CN105006235A; US10140975B2; US20190043480A1; US11004441B2; US20150310879A1

Abstract

本发明的各实施例涉及基于词比较的语音端点定位。描述了用于基于词比较的语音端点定位的方法、系统以及包括编码在计算机存储介质上的计算机程序的装置。在一个方面，一种方法包括获得话语的转录的动作。动作进一步包括将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的数量确定为第一值。动作进一步包括将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的数量确定为第二值。动作进一步包括至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语。

Description

基于词比较的语音端点定位

相关申请的交叉引用

本申请要求于2014年4月23日提交的、申请号为61/983,025的美国专利申请的权益，其内容通过引用并入。

技术领域

本公开内容总体上涉及语音识别，并且一个特定实现方式涉及对语音进行端点定位(endpointing)。

背景技术

自然语言处理系统通常使用端点器(endpointer)来确定用户何时开始以及结束说话。一些传统的端点器在确定话语何时开始或者结束时对词之间的停顿的持续时间进行评价。例如，如果用户说“what is<长停顿>for dinner”，则传统的端点器可以在长停顿处分割话音输入，并且可以指令自然语言处理系统尝试处理不完整的短语“what is”，而不是处理完整的短语“what is for dinner”。如果端点器为话音输入指定了错误的开始点或者结束点，则使用自然语言处理系统处理语音的结果可能是错误的或者不符合需要的。

发明内容

根据在本说明书中所描述的主题内容的创新的方面，一种计算设备可以接收由用户说出的话语的话音输入，并且可以使用连续语音识别器来递增地转录话语。计算设备比较递增地识别的转录与来自文本样本的汇集(诸如，由其他用户之前提交给搜索引擎的搜索查询的汇集)中的文本样本进行比较，以确定转录更可能表示完整的查询还是不完整的查询。

根据一个方式，确定转录更可能表示完整的查询还是不完整的查询包括：确定与转录匹配并且不包括任何附加的词语(term)的文本样本的数量，并且确定与转录匹配并且包括一个或者多个附加的词语的文本样本的数量。计算设备可以然后基于那两个数量确定比率并且比较确定的比率与阈值比率。如果确定的比率不满足阈值比率，则计算设备将话语分类为很可能不完整的话语。如果确定的比率满足阈值比率，则计算设备将话语分类为非很可能不完整的话语。

基于将话语分类为很可能完整的话语或者不完整的话语，设备可以对话音输入进行端点定位，或者可以去激活麦克风或者将麦克风维持在激活状态。如果话语被分类为很可能不完整的话语，则设备可以将麦克风维持在激活状态以接收附加的话语，或者可以在对话音输入进行端点定位之前进一步等待。如果话语被分类为非很可能不完整的话语，则设备可以去激活麦克风并且处理话语，或者可以在对话音输入进行端点定位之前不进行进一步等待。

一般来说，在本说明书中所描述的主题内容的另一个创新的方面可以被实施为方法，这些方法包括以下动作：获得话语的转录；将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的数量确定为第一值；将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的数量确定为第二值；并且至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语。

这些和其他实施例可以各自可选地包括以下特征中的一个或者多个特征。将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的数量确定为第一值的动作包括：在每个文本样本中确定与转录匹配的词语以与在转录中相同的顺序出现。将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的数量确定为第二值的动作包括：在每个文本样本中确定与转录匹配的词语在每个文本样本的前缀处出现。

至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语的动作包括：确定第一值与第二值的比率；确定比率满足阈值比率；并且基于确定比率满足阈值比率来将话语分类为很可能不完整的话语。至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语的动作包括：将话语分类为很可能不完整的话语；并且基于将话语分类为很可能不完整的话语来将麦克风维持在激活状态以接收附加的话语。

至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语的动作包括：将话语分类为非很可能不完整的话语；并且基于将话语分类为非很可能不完整的话语来去激活麦克风。这些动作进一步包括接收指示话语完整的数据；其中至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语包括：将话语分类为很可能不完整的话语；并且基于将话语分类为很可能不完整的话语来覆盖指示话语完整的数据。

这一方面的其他实施例包括对应的系统、装置以及记录在计算机存储设备上的计算机程序，每个均被配置为执行该方法的操作。

一般来说，在本说明书中所描述的主题内容的另一个创新的方面可以被实施为方法，这些方法包括以下动作：获得话语的转录；确定在文本样本的汇集中，与话语所匹配的相比，话语是更经常地与(i)包括与转录匹配的词语并且不包括任何附加的词语的文本样本匹配，还是更经常地与(ii)包括与转录匹配的词语并且包括一个或者多个附加的词语的文本样本匹配；并且基于该确定来确定话语是否很可能不完整。

在本说明书中所描述的主题内容的特定实施例可以被实施以使得实现以下优点中的一个或者多个优点。用户可以使用计算设备的话音输入能力并且以对用户来说舒适的速度说话。话语可以在话语的预期的结束处被端点定位，从而得到更精确的或更希望的自然语言处理输出，并且得到自然语言处理系统的更快的处理。在背景噪声存在的情况下，话语可以在话语的预期的结束处被端点定位。

在本说明书中所描述的主题内容的一个或者多个实施例的细节在以下的附图和描述中被阐明。主题内容的其他特征、方面和优点将从描述、附图以及权利要求书变得显而易见。

附图说明

图1A至图1C是话语和在对话语是否很可能不完整进行分类中使用的示例信号的示图。

图2是将话语分类为很可能完整或者很可能不完整示例系统的示图。

图3是用于对话语是否很可能不完整进行分类的示例过程的示图。

在各个附图中相同的附图标记和标示指示相同的元件。

具体实施方式

图1是话语和在对话语是否很可能不完整进行分类中使用的示例信号的示图100。一般来说，示图100图示了在计算设备110处理传入音频输入102时由计算设备110生成或者检测到的信号102至108。计算设备110通过计算设备的麦克风或者其他音频输入设备来接收音频输入102，并且对音频输入102是很可能完整的话语还是很可能不完整的话语进行分类。

计算设备110接收音频输入102并且以预先指定的频率和分辨率对音频输入102采样。例如，计算设备110可以在8kHz、16kHz、44.1kHz或任何其他采样率对音频输入102采样，并且分辨率可以是16比特、32比特或任何其他分辨率。音频输入102图示了基于来自用户114的话语112的采样的模拟数据。在图1A中所图示的示例中，用户114对着计算设备110说出“What is…the meaning of life？”计算设备110可以记录并且存储对应于话语112的音频输入102。

计算设备110转录由用户114说出的话语112。在一些实现方式中，计算设备110使用运行自动语音识别(ASR)软件的计算设备110的处理器来转录话语112的词。例如，计算设备110可以在计算设备110本地确定初始部分音频输入102包含词语120“what”。随着计算设备110从用户接收话语112，ASR软件接收音频输入102。随着ASR软件在音频输入102中识别词语，ASR软件继而将提供该词语以用于向计算设备110输出。计算设备110记录在ASR软件返回ASR软件识别的词语之间的时间量。例如，ASR软件可以返回词语120“what”，然后一百毫秒之后返回词语122“is”，并且然后两百毫秒之后返回词语124“the”。计算设备110记录词语122“is”在一百毫秒之后跟随词语120“what”并且词语124“the”在两百毫秒之后跟随词语122“is”。在一些实现方式中，通过网络可访问的服务器可以运行ASR软件。在这种情况下，计算设备在网络上向服务器传输音频输入102，从服务器接收词语并且记录在服务器返回词语之间的时间量。

随着计算设备110转录话语112的词语120至130，计算设备110从通用端点器接收通用端点器信号104。计算设备110向通用端点器提供从ASR软件接收的词语和在每个词语之间的记录的时间。通用端点器比较记录的时间与阈值。如果在两个词语之间的记录的时间中的一个记录的时间满足阈值，则通用端点器在将端点标识为在两个词语之间。例如，阈值可以是一百五十毫秒。通用端点器比较在词语120“what”与词语122“is”之间的一百毫秒的时间。因为一百毫秒小于一百五十毫秒的阈值，所以通用端点器不在词语120“what”与词语122“is”之间添加端点。通用端点器也比较在词语122“is”与词语124“the”之间的两百毫秒的时间。因为两百毫秒大于一百五十毫秒的阈值，所以通用端点器在词语122“is”与词语124“the”之间添加端点。通用端点器信号104将端点图示为在活跃的信号与不活跃的信号之间的过渡。通用端点器信号在词语120“what”与词语122“is”之间活跃，并且在词语122“is”与词语124“the”之间变成不活跃。

在一些实现方式中，通用端点器等待在词语的结束之后、在通用端点器标识端点之前的时间的特定时段。在每个词语从ASR软件被接收之后或者在通用端点器接收到ASR标识了词语的指示之后，通用端点器进行等待。如果等待时间满足阈值，等通用端点器标识端点。例如，阈值可以是一百五十毫秒。如果通用端点器接收ASR软件已经标识了词语(诸如词语120“what”)的指示，则通用端点器将开始定时器。一百毫秒之后，通用端点器接收ASR软件已经标识了另一个词语(诸如词语122“is”)的指示。因为通用端点器的定时器没有达到一百五十毫秒的阈值，所以通用端点器在词语120“what”之后不标识端点。作为另一示例，通用端点器接收ASR软件已经标识了词语(诸如词语122“is”)的指示并且通用端点器开始定时器。如果一百五十毫秒之后，通用端点器没有接收到随后的词语的指示，则通用端点器在词语122“is”之后标识端点。

计算设备110使用ASR软件从音频输入102标识的词语来将词语分类为很可能不完整的话语或者非很可能不完整的话语。很可能不完整的话语信号106图示了这一分类的结果。为了将话语112的标识的词语分类为很可能不完整的话语，计算设备110比较标识的词语与文本样本的汇集中的文本样本。计算设备110确定以话语112的标识的词语开始并且包含附加的词语的文本样本的汇集中的文本样本的数量。换句话说，计算设备110确定文本样本的汇集中的包含与话语112的标识的词语匹配的前缀的文本样本的数量。例如，ASR软件将话语112的前两个词语标识为“what is”。计算设备110确定文本样本的汇集中，两千个文本样本以前缀“what is”开始并且包含附加的词语。计算设备还标识文本样本的汇集中的与话语112的标识的词语匹配并且不包含任何附加的词语的文本样本的数量。例如，计算设备110确定文本样本的汇集中，五个文本样本包含词语“what is”并且不包含附加的词语。

利用文本样本的汇集中的以话语112的标识的词语开始的文本样本的数量和包含话语112的标识的词语的文本样本的数量，计算设备110比较两个数量的比率与阈值比率。比较表示包含标识的词语并且不包含其他词语的文本样本的数量与以标识的词语开始并且包含附加的词语的文本样本的数量的比较。如果比率小于阈值比率，则计算设备110将标识的词语分类为表示很可能不完整的话语。如果比率大于阈值比率，则计算设备110将标识的词语分类为不表示很可能不完整的话语。例如，如果比率是5:2000并且阈值比率是1:200，则计算设备110将标识的词语分类为表示很可能不完整的话语。

在一些实现方式中，计算设备110可以在数量中的一个或者两个数量都不满足阈值的情况下使比较无效。例如，如果包含标识的词语并且不包含其他词语的文本样本的数量与以标识的词语开始并且包含附加的词语的文本样本的数量的比率是1:2，则计算设备可以基于以标识的词语开始并且包含附加的词语的文本样本的数量低于五的阈值来使比较无效。作为另一示例，如果包含标识的词语并且不包含其他词语的文本样本的数量与以标识的词语开始并且包含附加的词语的文本样本的数量的比率是11,000:12,000，则然后计算设备110可以基于包含标识的词语并且不包含其他词语的文本样本的数量或者以标识的词语开始并且包含附加的词语的文本样本的数量或者这两者高于一万的阈值(如可能是具有诸如“so”等词语的情况)来使比较无效。

在一些实现方式中，除非通用端点器指示在两个词语之间存在端点，否则计算设备110不比较标识的词语与文本样本的汇集。例如，因为通用端点器信号104在词语120“what”之后是活跃的，所以计算设备110可以不比较词语120“what”与文本样本的汇集。作为另一示例，因为通用端点器信号在词语122之后是不活跃的，所以计算设备可以比较词语120至122“what is”与文本样本的汇集。

在一些实现方式中，除非在词语之间的停顿满足阈值，否则计算设备110不比较标识的词语与文本样本的汇集。例如，如果在词语之间的停顿大于一百五十毫秒，则计算设备110可以比较标识的词语。如果用户114在词语120“what”与词语122“is”之间停顿了一百毫秒，则计算设备将不比较词语120“what”与文本样本的汇集。如果用户114在词语122“is”与词语124“the”之间停顿了两百毫秒，则计算设备比较“what is”与文本样本的汇集。

基于在包含标识的词语并且不包含其他词语的文本样本的数量与以标识的词语开始并且包含附加的词语的文本样本的数量的比率与阈值比率之间的比较，计算设备110标识话语很可能不完整，直到在词语130“life”之后。响应于通用端点器信号104不活跃，计算设备110可能已经利用词语120和122“what is”比较了数量的比率与阈值比率，并且确定了“what is”表示很可能不完整的话语。响应于通用端点器信号104不活跃，计算设备110可能已经利用词语120至130“what is the meaning of life”比较了数量的比率与阈值比率，并且确定了“what is the meaning of life”不表示很可能不完整的话语。计算设备110可能已经确定了词语120至130对应于一百个文本样本的开始并且确定了词语120至130对应于一千个完整的样本。比率将是1000:100，其大于1:200的阈值比率。因此，计算设备110将词语120至130分类为非很可能不完整的话语。如在图1A中所示出的，话语112很可能是不完整的，直到在词语130“life”之后。

如在话语信号108的结束中所图示的，计算设备110断定话语112完整。一旦计算设备110断定话语112完整，计算设备110就将话语112输出为转录135。例如，计算设备110可以将“what is the meaning of life”输出为话语112的转录135。

在一些实现方式中，计算设备110基于将话语分类为很可能不完整来覆盖通用端点定位确定。例如，计算设备110将“what is”分类为很可能不完整的话语。在确定话语的结束被到达之前，计算设备110覆盖通用端点定位确定。

图1B是话语和在对话语是否很可能不完整进行分类中使用的示例信号的示图150。示图150图示了处理对应于由用户164说出的话语162“who is Barack Obama”的音频输入152的计算设备160。与图1A中的计算设备110类似，计算设备160接收用于音频输入152的通用端点器信号154。计算设备160从通用端点器接收通用端点器信号154，其中通用端点器基于在词语120至126之间的时间来标识端点。例如，计算设备160确定在词语170“who”与词语172“is”之间的时间是五十毫秒，并且确定在词语172“is”与词语174“Barack”之间的时间是两百毫秒。如果由用于通用端点定位的通用端点器使用的阈值是一百五十毫秒，则通用端点器在词语172“is”与词语174“Barack”之间标识端点，并且在词语170“who”与词语172“is”之间不标识端点。通用端点器信号154图示了在词语170和词语174之前并且在词语172和176之后的这些端点。

随着ASR软件标识话语162的词语并且通用端点器标识端点，计算设备160生成很可能不完整的话语信号156。与图1A中的计算设备110类似，计算设备160确定文本样本的汇集中的与标识的词语匹配的文本样本的数量和文本样本的汇集中的以标识的词语开始并且包含附加的词语的文本样本的数量。例如，计算设备160确定词语170和172“who is”与文本样本的汇集中的五十个文本样本匹配。为了图示，文本样本的汇集可以包含词语128“whois”的五十个样本。计算设备160确定词语170和172“who is”与文本样本的汇集中的三千个文本样本的开头匹配。为了图示，文本样本的汇集可以包含样本，诸如“who is thepope”、“who is my congressman”以及“who is Barack Obama”。

计算设备160计算文本样本的汇集中的与标识的词语匹配的文本样本的数量与文本样本的汇集中的以标识的词语开始的文本样本的数量的比率。计算设备比较这个比率与阈值比率以确定标识的词语是否表示很可能不完整的查询。在这一示例中，比率是50:3000。如以上所描述的，阈值比率可以是1:200。因为50:3000的比率大于1:200的阈值比率，所以如由词语178“whois”所图示的，计算设备160确定词语170和172为非很可能不完整的话语，并且在词语178处的音频输入152的结束处的很可能不完整的话语信号156是少量。

一旦计算设备160不再将标识的词语分类为很可能不完整的话语，计算设备160就确定话语的结束已经被到达。话语信号158的结束指示计算设备160已经在词语178处的音频输入152处标识了话语的结束。计算设备160将词语178输出为话语185。

在一些实现方式中，计算设备160基于标识的词语为非很可能不完整的分类来去激活计算设备160的麦克风。例如，一旦计算设备160确定词语178“whois”为非很可能不完整的词语，计算设备160就可以去激活用来接收音频输入152的麦克风。在一些实现方式中，一旦计算设备将词语标识为非很可能不完整，计算设备160就将端点添加到标识的词语。例如，计算设备可以在词语178“whois”之后对话语进行端点定位。

在一些实现方式中，计算设备可以基于文本样本的汇集中的与标识的词语匹配的文本样本的数量与文本样本的汇集中的以标识的词语开始的文本样本的数量的比率来去激活麦克风。如果比率不满足特定范围，则计算设备可以去激活麦克风，如果比率满足特定范围，则使得麦克风激活特定时段，或者如果比率不满足特定范围，则使得麦克风激活，直到计算设备再次确定话语很可能不完整。例如，比率的特定范围可以是1:200到1:30。如果确定的比率是5:2000，其小于1:200，则计算设备确定使得麦克风激活。如果确定的比率是5:300，其在1:200到1:30之间，则计算设备确定使得麦克风激活特定时段，诸如两秒。如果计算设备在两秒之前接收附加的音频输入，则计算设备处理附加的音频输入。如果计算设备在两秒内没有接收到附加的音频输入，则计算设备去激活麦克风。如果确定的比率是1:20，则计算设备去激活麦克风。

在图1B中，计算设备160在第二点处确定话语为非很可能不完整的。计算设备160确定词语174和176“Brack Obama”对应于非很可能不完整的话语，并且因此计算设备160如利用话语信号158的结束所图示的，在词语176“Obama”之后确定话语的结束。计算设备160输出转录185“whois”和转录188“Brack Obama”两个转录。

图1C是话语和用于在将话语分类为很可能不完整或者非很可能不完整中使用的示例信号的示图200。一般来说，示图200图示了在背景噪声存在的情况下，当计算设备处理传入音频信号时，由计算设备210生成或者检测到的信号202至208。计算设备210通过计算设备210的麦克风或者其他音频输入设备来接收音频输入202和背景噪声，并将音频输入202分类为很可能不完整或者非很可能不完整的话语。在示图200中所图示的示例中，背景噪声是音乐218。

除了计算设备210接收的附加的音乐218之外，在图1C中所图示的示例与在图1A中所图示的示例类似。在图1C中，用户214说出话语212“what is...the meaning of life”。计算设备210接收音频输入202和音乐218并且生成通用端点器信号204。用于音频输入202的初始端点对应于词语220“what”。利用在背景中的音乐218，因为音频输入202的信号强度不会降到阈值以下，所以计算设备210不能标识用于音频输入202的附加的端点。如由通用端点定位信号204所图示的，甚至在用户214完成说出话语212之后，通用端点定位信号204保持活跃。

尽管在音乐218存在的情况下，计算设备210或者在计算设备210上执行的通用端点器不能生成通用端点器信号204，计算设备210还是标识话语212的词语220至230。如上，计算设备210比较标识的词语与文本样本的汇集。计算设备210计算文本样本的汇集中的以话语212的标识的词语开始的文本样本的数量和包含话语212的标识的词语的文本样本的数量。计算设备210确定具有词语220至222“what is”的比率是5:2000和具有词语220至230“what is the meaning of life”的比率是1000:100。如由很可能不完整的话语信号206所图示的，计算设备210比较词语与1:200的阈值，并且确定词语220至230“what is themeaning of life”不对应于很可能不完整的话语。计算设备210基于不对应于很可能不完整的话语的词语220至230“what is the meaning of life”来断定话语212已经到达了话语的结束。计算设备210然后输出转录235“what is the meaning of life”。

图2是将话语分类为很可能完整或者很可能不完整的示例系统300的示图。系统300的组件可以被包含在计算设备中，诸如，计算设备110、160或者210。系统300包括音频子系统305。音频子系统305可以从外部源(诸如，人类的语音)接收音频信号310。音频子系统305包括麦克风315以接收音频信号310。音频子系统使用模数转换器320将通过麦克风315接收的音频转换成数字信号。音频子系统305也包括缓冲器325。缓冲器325可以存储数字化的音频，例如，为系统300的进一步处理做准备。

话语检测器的增强的结束330从音频子系统305接收并处理数字化的音频。话语检测器的增强的结束330通过使用连续语音识别器350来标识数字化的音频的词语并且比较标识的词语与文本语料库345来将数字化的音频分类为很可能不完整的话语或者非很可能不完整的话语。此外，话语检测器的增强的结束330使用通用端点器340来标识用于数字化的音频的通用端点。

随着话语检测器的增强的结束330接收数字化的音频，话语检测器的增强的结束330使用连续语音识别器350来标识对应于数字化的音频的词语。连续语音识别器350使用自动的语音识别来标识对应于数字化的音频的词语。在一些实现方式中，连续语音识别器350可以被本地实现在接收音频信号310的设备上。在一些实现方式中，连续语音识别器350被实现在服务器上，并且接收音频信号310的设备通过网络向服务器传送数字化的音频。随着服务器标识数字化的音频的词语，服务器然后发送回它们。话语检测器的增强的结束330记录在从连续语音识别器350接收词语之间的时间。例如，连续语音识别器350标识词语“what”，向连续语音识别器350传送该词语并且一百毫秒之后标识词语“is”并向连续语音识别器350传送该词语。

随着话语检测器的增强的结束330接收数字化的音频，话语检测器的增强的结束330使用来自通用端点器340的数据以标识对应于数字化的音频的通用端点。在一些实现方式中，通用端点器340分析数字化的音频的能量水平以确定端点。如果能量水平降低到阈值至少特定的时间量，则通用端点器340可以对数字化的音频进行端点定位。例如，如果数字化的音频对应于用户说出“what is”并且然后沉默三百毫秒，则通用端点器340确定沉默低于能量阈值，并且沉默的时段三百毫秒至少长于两百毫秒的阈值时间。在这种情况下，通用端点器340确定在数字化的音频的结束处存在对应于“is”的端点。

在一些实现方式中，通用端点器340接收由连续语音识别器350标识的词语和在每个词语之间的时间。如果在两个词语之间的时间满足阈值，则通用端点器340在这些两个词语之间添加端点。例如，如果在“what”与“is”之间是一百毫秒的时段并且阈值是一百五十毫秒，则因为时间时段低于阈值，所以通用端点器可以不在“what”与“is”之间添加端点。作为另一示例，如果在“is”与“the之间是两百毫秒的时段并且阈值是一百五十毫秒，则因为时间时段高于阈值，所以通用端点器可以在“is”与“the”之间添加端点。

当数字化的音频的能量水平高于阈值时，通用端点器340也可以标识通用端点。例如，如果数字化的音频对应于由说出“the”的用户跟随的沉默，则通用端点器340可以确定对应于“the”的数字化的音频的能量高于阈值。在这种情况下，通用端点器340确定在对应于“the”开始的数字化的音频中存在端点。

话语检测器的增强的结束330使用前缀或者完整的话语计数器335将对应于音频信号310的话语分类为很可能完整的话语或者非很可能完整的话语。在一些实现方式中，随着话语检测器的增强的结束330从连续语音识别器350接收标识的词语，话语检测器的增强的结束330比较那些标识的词语与文本语料库345。文本语料库345可以包括由多个用户执行的搜索查询或者由特定用户执行的搜索查询。在一些实现方式中，话语检测器的增强的结束330确定文本语料库345中的与标识的词语匹配的文本样本的数量和文本语料库345中的以标识的词语开始并且不包含附加的词语的文本样本的数量。例如，如果标识的词语是“what”，则话语检测器的增强的结束330确定“what”与文本语料库345中的文本样本中的三文本样本匹配并且“what”是文本语料库345中的三千个文本样本的前缀。如果标识的词语是“what is”，则话语检测器的增强的结束330确定“what is”与文本语料库345中的文本样本中的三个文本样本匹配并且“what is”是文本语料库345中的两千个文本样本的前缀。

在一些实现方式中，当标识的词语由满足阈值的停顿跟随时，话语检测器的增强的结束330确定文本语料库345中的与标识的词语匹配的文本样本的数量。例如，阈值可以是一百五十毫秒。如果标识的词语是“what”并且接着五十毫秒，则话语检测器的增强的结束330不能确定文本语料库345中的与“what”匹配的文本采样的数量和文本语料库345中的以“what”开始的文本采样的数量。作为另一示例，如果标识的词语是“what is”并且接着两百毫秒，则话语检测器的增强的结束330确定“what is”与文本语料库345中的文本样本中的三个文本样本匹配并且“what is”是文本语料库345中的两千个文本样本的前缀。在一些实现方式中，话语检测器的增强的结束330使用来自通用端点器340的通用端点定位信号，而不是标识由满足阈值的停顿跟随的词语。

前缀或者完整的话语计算器335使用确定的文本样本的数量来将标识的词语分类为很可能不完整的话语或者非很可能不完整的话语。前缀或者完整的话语计算器335使用文本语料库345中的与标识的词语匹配的文本样本的数量和文本语料库345中的以标识的词语开始的文本样本的数量来计算比率。前缀或者完整的话语计算器335比较确定的比率与阈值比率。如果计算出的比率满足阈值比率，则标识的词语为非很可能不完整的话语。如果计算出的比率不满足阈值比率，则标识的词语是很可能不完整的话语。例如，如果阈值比率是1:200并且标识的词语是“what is”，则确定的比率将是3:2000。在这种情况下，计算的比率小于阈值比率，因此前缀或者完整的话语计算器335将标识的词语分类为很可能不完整的话语。作为另一示例，如果阈值比率是1:200并且标识的词语是“who is”，则计算的比率将是1:150。在这种情况下，计算的比率大于阈值比率，因此前缀或者完整的话语计算器335将标识的词语分类为非很可能不完整的话语。

在一些实现方式中，一旦前缀或者完整的话语计算器335将话语分类为非很可能不完整的，话语检测器的增强的结束330就去激活麦克风315，从而使得音频子系统305不接收附加的音频信号。在一些实现方式中，一旦前缀或者完整的话语计算器335将话语分类成很可能不完整，话语检测器的增强的结束330就将麦克风315维持在激活的状态，从而使得音频子系统305接收附加的音频信号。

一旦话语检测器的增强的结束330将话语分类为非很可能不完整的，话语检测器的增强的结束330就将标识的词语输出为转录或者音频片段355。在一些实现方式中，转录或者音频片段355是话语检测器的增强的结束330分类为非很可能不完整的标识的词语的转录。例如，转录或者音频片段355可以是词语“what is the meaning of life”。在一些实现方式中，转录或者音频片段355是话语检测器的增强的结束330分类为非很可能不完整的标识的词语的音频片段。例如，转录或者音频片段355可以是对应于词语“whois”的音频片段。音频片段可以被缩短以仅包括音频信号310的包含标识的词语的部分。音频片段可以带有转录或者附加的元数据。

图3是用于对话语是否很可能不完整进行分类的示例过程的示图。过程400可以由计算设备(诸如来自图1A的计算设备110)执行。过程400分析音频数据并且使用词比较将话语分类为很可能不完整的或者非很可能不完整的。

计算设备获得话语的转录(410)。话语可以从向设备的麦克风中说话的用户以及接收对应于用户说话的音频信号的设备被接收。设备处理音频信号以标识用户正在说出的词语的转录。在一些实现方式中，设备可以记录指定在转录的词语之间的时间的定时数据。

计算设备将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的数量确定为第一值(420)。文本样本的汇集可以是可以关联于特定用户或者由多个用户生成的搜索查询的汇集。在一些实现方式中，设备标识以与转录相同的顺序包括词语的文本样本的数量。例如，转录是“what is”。设备标识包括词语“what”和“is”并且不包括其他词语的文本样本的汇集中的五个文本样本。设备标识那些文本样本中的三个文本样本以与“what is”相同的顺序包括“what”和“is”。在这一示例中，第一值是三。

计算设备将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的数量确定为第二值(430)。在一些实现方式中，设备标识包括转录的词语作为文本样本的前缀的文本样本的数量。例如，转录是“what is”。设备标识包括词语“what is”作为前缀的文本样本的汇集中的三千个文本样本。例如，“what is theweather”包括前缀“what is”。设备也可以标识包括词语“what is”作为中缀的文本样本的汇集中的五十个文本样本。例如，“most popular movie what is it”包括“what is”作为中缀。设备也可以标识包括“what is”作为后缀的文本样本的汇集中的两个文本样本。例如，“scary monster what is”包括“what is”作为后缀。在这一示例中，第二值是三千。

计算设备至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语(440)。在一些实现方式中，设备计算第一值与第二值的比率并且比较计算出的比率与阈值比率。基于计算出的比率与阈值比率的比较，设备可以将话语分类为很可能不完整的。例如，如果第一值与第二值的计算出的比率是3:3000并且阈值比率是1:200，则其中计算出的比率小于阈值比率，设备将话语分类为很可能不完整的。如果第一值与第二值的计算出的比率是1:150并且阈值比率是1:200，则其中计算出的比率大于阈值比率，设备将话语分类为不大可能不完整的。

在一些实现方式中，设备将话语分类为很可能不完整的并且将设备的麦克风维持在激活状态以接收附加的话语。在一些实现方式中，设备将话语分类为非很可能不完整的并且去激活设备的麦克风并且开始处理话语。在一些实现方式中，设备可以基于在说话之后用户停顿长时间来将话语分类为完整的。例如，设备可以通过使用通用端点器来断定有长停顿跟随的“what is”是完整的话语。如果设备比较“what is”与文本样本的汇集并且将“what is”分类为很可能不完整的话语，则设备可以覆盖话语完整的初始结论。设备可以将麦克风维持在激活状态中以接收附加的话语。

在一些实现方式中，设备将话语分类为非很可能不完整的并且处理话语。设备可以向搜索引擎或者其他自然语言处理引擎提交话语的转录。在一些情况下，搜索引擎或者其他自然语言处理引擎可以确定对话语的适当的响应并且向设备输出响应以用于向用户回放。搜索引擎或者其他自然语言处理引擎可以确定具有从用户引出答复的可能性的响应。在那种情况下，搜索引擎或者其他自然语言处理引擎可以在响应中包括供设备将麦克风维持在激活状态以使得用户可以回答的标志。例如，设备向搜索引擎提交话语“whattime is it”并且搜索引擎确定是三点钟。在这一示例中，存在较少的可能性用户将在对时间的响应上具有跟随。因此，搜索引擎向设备提供数据以使得设备告诉用户时间是“threeo’clock”并且数据包括供设备在告诉用户时间之后不将麦克风维持在激活状态中的标志。作为另一示例，设备向搜索引擎提交话语“when is the next baseball game”并且搜索引擎确定适当的响应是“The baseball game is on Sunday.Would you like to set areminder？”。在这一示例中，存在较高的可能性用户将在对关于设置提醒的问题的响应上具有跟随。因此，搜索引擎向设备提供数据以使得设备告诉用户“The baseball game ison Sunday.Would you like to set a reminder？”并且数据包括供设备在告诉用户时间之后将麦克风维持在激活状态中的标志，以使得用户在不用手动地激活麦克风或者不使用热词的情况下可以说出答案。

可以在数字电子电路中或者在计算机软件、固件或者硬件(包括在本说明书中所公开的结构及其结构等效物)中或者在它们中的一项或者多项的组合中实施在本说明书中描述的主题内容和操作的实施例。可以将在本说明书中描述的主题内容的实施例实施为一个或者多个计算机程序，即，编码在计算机存储介质上的用于由数据处理装置执行或者控制数据处理装置的操作的一个或者多个计算机程序指令模块。备选地或者附加地，可以在人为生成的传播的信号(例如，机器生成的电、光或者电磁信号)上对程序指令编码，该信号被生成用于对信息编码以用于向适当接收器设备传输以供数据处理装置执行。计算机存储介质可以是或者被包括在计算机可读存储设备、计算机可读存储衬底、随机或者串行访问存储器阵列或者设备或者它们中的一项或者多项的组合。此外，虽然计算机存储介质不是传播的信号，但是计算机存储介质可以是被编码在人工生成的传播的信号中的计算机程序指令的源或者目的地。计算机存储介质也可以是或者被包括在一个或者多个分离的物理组件或者介质(例如，多个CD、磁盘或者其他存储设备)中。

本说明书中所描述的操作可以被实施为在存储在一个或者多个计算机可读存储设备中或者从其他源接收的数据上由数据处理装置执行的操作。

词语“数据处理装置”涵盖各种用于处理数据的装置、设备和机器，举例而言包括可编程处理器、计算机、片上系统、或者多个或者前述的组合。该装置可以包括专用逻辑电路装置，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。该装置除了硬件之外也可以包括为讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统的代码、跨平台运行环境、虚拟机或者它们中的一项或者多项的组合。装置和执行环境可以实现各种不同的计算模型基础设施，诸如web服务、分布式计算以及网格计算基础设施。

计算机程序(也被称为程序、软件、软件应用、脚本或者代码)可以用任何形式的编程语言(包括编译或者解译语言、说明或者过程语言)编写，并且计算机程序可以用任何形式被部署，包括被部署为独立程序或者被部署为适合于在计算环境中使用的模块、组件、子例程、对象或者其他单元。计算机程序可以但是无需对应于文件系统中的文件。程序可以被存储于保持其他程序或者数据的文件(例如，存储于标记语言文档中的一个或者多个脚本)的一部分中、专用于讨论的程序的单个文件中，或者多个协同文件(例如，存储一个或者多个模块、子程序或者代码部分的文件)中。计算机程序可以被部署用于在一个计算机上或者在位于一个地点或者跨多个地点分布并且由通信网络互连的多个计算机上执行。

本说明书中所描述的过程和逻辑流可以由一个或者多个可编程处理器执行，该一个或者多个可编程处理器执行一个或者多个计算机程序以通过对输入数据操作并且生成输出来执行动作。该过程和逻辑流也可以由专用逻辑电路装置(例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路))执行并且也可以将设备实施为专用逻辑电路。

举例而言，适合于执行计算机程序的处理器可以包括通用微处理器和专用微处理器二者、以及任何之类的数字计算机中的任何一个或者多个处理器。一般而言，处理器将从只读存储器或者随机访问存储器或者二者接收指令和数据。计算机的必要元件是用于执行根据指令的动作的处理器以及用于存储指令和数据的一个或者多个存储器设备。一般而言，计算机还将包括用于存储数据的一个或者多个海量存储设备(例如，磁盘、磁光盘或者光盘)或者被操作地耦合用于从该一个或者多个海量存储设备接收数据或者向该一个或者多个海量存储设备传送数据或者接收和传送二者。然而，计算机无需具有这样的设备。另外，计算机可以被嵌入于另一设备中，聊举数例，例如，移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏控制台、全球定位系统(GPS)接收器或者便携存储设备(例如，通用串行总线(USB)闪存驱动)。适合于存储计算机程序指令和数据的设备包括各种形式的非易失性存储器、介质、存储器设备，举例而言包括半导体存储设备，例如，EPROM、EEPROM以及闪存设备；磁盘，例如，内部硬盘或者可拆卸磁盘；磁光盘；CD-ROM、以及DVD-ROM磁盘。处理器和存储器可以被补充到或者并入专用逻辑电路中。

为了提供与用户的交互，可以在计算机上实施在本说明书中描述的主题内容的实施例，该计算机具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)以及用户可以用来向计算机提供输入的键盘和指点设备，例如，鼠标或者轨迹球。其他种类的设备也可以用来提供与用户的交互；例如，向用户提供的反馈可以是任何形式的感官反馈，例如，视觉反馈、听觉反馈或者触觉反馈；并且可以接收来自用户的包括声音、语音或者触觉输入的任何形式的输入。此外，计算机可以通过向用户使用的设备发送文档和从该设备接收文档(例如，通过响应于从用户的客户端设备上的web浏览器接收的请求向web浏览器发送网页)来与用户交互。

本说明书中所描述的主题内容的实施例可以在计算系统中被实施，该计算系统包括例如作为数据服务器的后端组件或者包括中间件组件(例如，应用服务器)或者包括前端组件(例如，具有图形用户接口或者Web浏览器(用户可以通过该图形用户接口或者Web浏览器与在本说明书中描述的主题内容的实现方式交互)的客户端计算机)或者一个或者多个这样的后端、中间件或者前端部件的任何组合。系统的组件可以通过任何数字数据通信形式或者介质(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，互联网络(例如，因特网)以及对等网络(例如，自组织对等网络)。

由于具有安装在操作中的系统上的软件、固件、硬件或者它们的组合引起系统执行动作，一个或者多个计算机的系统可以被配置为执行特定操作或者动作。由于包括当由数据处理装置执行时引起装置执行动作的指令，一个或者多个程序可以被配置为执行特定操作或者动作。

计算系统可以包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助在相应计算机上运行并且相互具有客户端-服务器关系的计算机程序而产生。在一些实施例中，(例如，出于显示数据并且从与客户端设备交互的用户接收用户输入的目的)服务器向客户端设备传送数据(例如，HTML页面)。在客户端设备处生成的数据(例如，用户交互的结果)可以从服务器处的客户端设备被接收。

尽管本说明书包含许多具体实现方式细节，但是不应将这些解释为限制可以要求保护的或者任何创新的内容的范围，而是应解释为对特定创新的特定实施例特有的特征的解释。在本说明书中在分离的实施例的背景中描述的某些特征也可以在单个实施例中被组合实施。相反地，在单个实施例的背景中描述的各种特征也可以在多个实施例中分离地或者在任何适当子组合中被实施。另外，虽然上文可以将特征描述为在某些组合中动作并且甚至起初这样要求保护，但是来自要求保护的组合的一个或者多个特征可以在一些情况下从该组合中被删除，并且要求保护的组合可以涉及子组合或者子组合的变型。

类似地，尽管在附图中以特定顺序描绘操作，但是这不应被理解为要求以所示特定顺序或者以依次顺序执行这样的操作或者执行所有所示操作以实现希望的结果。在某些境况中，多任务和并行处理可以是有利的。另外，在上文描述的实施例中的各种系统部件的分离不应被理解为在所有实施例中要求这样的分离，并且应当理解描述的程序组件和系统一般可以被一起集成于单个软件产品中或者被封装到多个软件产品中。

因此，已经描述了主题内容的特定实施例。其他实施例在所附权利要求的范围内。在一些情况下，在权利要求中记载的动作可以按不同顺序被执行而仍然实现希望的结果。此外，在附图中描绘的过程未必需要所示特定顺序或者依次顺序以实现希望的结果。在某些实现方式中，多任务和并行处理可以是有利的。

Claims

1.一种计算机实现的用于对语音进行端点定位的方法，包括：

获得话语的转录；

确定文本样本的汇集中的(i)包括与所述转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的第一数量；

确定文本样本的所述汇集中的(i)包括与所述转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的第二数量；

比较所述第一数量和第二数量；

至少基于比较所述第一数量与所述第二数量来将所述话语分类为很可能不完整的话语或者非很可能不完整的话语；以及

基于将所述话语分类为很可能不完整的话语，维持麦克风处于激活状态以接收附加的话语，或者基于将所述话语分类为非很可能不完整的话语，去激活所述麦克风。

2.根据权利要求1所述的方法，其中，确定文本样本的汇集中的(i)包括与所述转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的第一数量包括：

在每个文本样本中确定与所述转录匹配的词语以与在所述转录中相同的顺序出现。

3.根据权利要求1所述的方法，其中，确定文本样本的所述汇集中的(i)包括与所述转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的第二数量包括：

在每个文本样本中确定与所述转录匹配的所述词语在每个文本样本的前缀处出现。

4.根据权利要求1所述的方法，其中，

比较所述第一数量和第二数量包括：

确定所述第一数量与所述第二数量的比率，

确定所述比率满足阈值比率；并且

至少基于比较所述第一数量与所述第二数量来将所述话语分类为很可能不完整的话语或者非很可能不完整的话语包括：

基于确定所述比率满足所述阈值比率来将所述话语分类为很可能不完整的话语。

5.根据权利要求1所述的方法，包括：

接收指示话语完整的数据；

其中至少基于比较所述第一数量与所述第二数量来将所述话语分类为很可能不完整的话语或者非很可能不完整的话语包括：将所述话语分类为很可能不完整的话语；并且

基于将所述话语分类为很可能不完整的话语来覆盖指示话语完整的所述数据。

6.根据权利要求1所述的方法，其中，所述文本样本的汇集是搜索查询的汇集。

7.一种用于对语音进行端点定位的系统，包括：

一个或者多个计算机和一个或者多个存储设备，所述存储设备存储可操作的指令，所述指令当由所述一个或者多个计算机执行时，使得所述一个或者多个计算机执行操作，所述操作包括：

获得话语的转录；

比较所述第一数量和第二数量；

8.根据权利要求7所述的系统，其中，确定文本样本的汇集中的(i)包括与所述转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的第一数量包括：

9.根据权利要求7所述的系统，其中，确定文本样本的所述汇集中的(i)包括与所述转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的第二数量包括：

10.根据权利要求7所述的系统，其中，

比较所述第一数量和第二数量包括：

确定所述第一数量与所述第二数量的比率，

确定所述比率满足阈值比率；并且

11.根据权利要求7所述的系统，所述操作还包括：

接收指示话语完整的数据；

12.一种存储软件的非瞬态的计算机可读介质，所述软件包括由一个或者多个计算机可执行的指令，所述指令在这样的执行时，使得所述一个或者多个计算机执行操作，所述操作包括：

获得话语的转录；

比较所述第一数量和第二数量；

13.根据权利要求12所述的介质，其中，确定文本样本的汇集中的(i)包括与所述转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的第一数量包括：

14.根据权利要求12所述的介质，其中，

比较所述第一数量和第二数量包括：

确定所述第一数量与所述第二数量的比率，

确定所述比率满足阈值比率；并且

15.根据权利要求12所述的介质，所述操作还包括：

接收指示话语完整的数据；