CN110800045A

CN110800045A - 用于不间断应用唤醒和语音识别的系统和方法

Info

Publication number: CN110800045A
Application number: CN201780092563.XA
Authority: CN
Inventors: 郭立颋; 胡刚涛
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2017-10-24
Filing date: 2017-10-24
Publication date: 2020-02-14
Also published as: US11164584B2; US20200035243A1; WO2019079974A1

Abstract

提供了用于应用唤醒和语音识别的系统和方法。该系统(102、500)可以包括麦克风(103、108、512)，被配置为记录音频队列中的音频。该系统(102、500)还可以包括处理器(104、504)，该处理器被配置用于监视音频队列以获得唤醒短语，响应于检测唤醒短语，从音频队列获取音频片段，并将获得的音频片段发送到服务器(109)。音频的记录从唤醒短语的开始到音频片段的结束可以是连续的。

Description

用于不间断应用唤醒和语音识别的系统和方法

技术领域

本申请一般涉及用于应用唤醒和语音识别的方法和技术。

背景技术

人机交互的进步可以让人们用自己的声音来实现控制。例如，通过语音可以实现通过键盘，鼠标或触摸筛选的传统指令输入以触发各种应用或过程。尽管如此，还是需要克服许多障碍才能简化这一过程。

发明内容

本申请的各种实施例包括用于应用唤醒和语音识别的系统，方法和非暂时性计算机可读介质。示例性系统可以包括麦克风，被配置为在音频队列中记录音频。该系统还可以包括处理器，该处理器被配置用于监视音频队列为唤醒短语，响应于检测唤醒短语，从音频队列中获取音频片段，并将获得的音频片段发送到服务器。从唤醒短语的开始到音频片段的结束的音频的记录可以是连续的。

在一些实施例中，示例性系统可以在包括移动电话的移动设备上实现。可以使服务器在音频片段上执行语音识别，并基于语音识别将信息返回到移动设备。

在一些实施例中，示例性系统还可以包括用于显示返回信息的显示器。返回的信息可以包括对应于音频片段的机器识别的语音的文本。

在一些实施例中，音频队列可以与时间相关联。为了监视音频队列为唤醒短语，处理器可以被配置为筛选记录的音频与唤醒短语相匹配。

在一些实施例中，音频队列中的音频的记录在唤醒短语的检测的整个过程中可以是连续的。

在一些实施例中，为了从所述音频队列中获取音频片段以响应于检测到所述唤醒短语，所述处理器可以被配置为监视所述音频队列为语音活动的第一缺失，其中所述语音活动的第一缺失对应于在超过第一预设阈值没有语音记录的唤醒短语之后在所述音频队列中的第一检测的持续时间。所述处理器还可以被配置为响应于检测到超过第一预设阈值的所述语音活动的第一缺失，监视在所述语音活动的第一缺失之后的所述音频队列为语音活动的第一存在，其中所述语音活动的第一存在对应于在所述语音活动的第一缺失之后在音频队列中存在语音记录的第一检测的持续时间。所述处理器还可以被配置为响应于从所述唤醒短语的结束未检测到在第二预设阈值内的所述语音活动的第一存在，获取所述音频片段，所述音频片段包括从所述唤醒短语的结束到所述语音活动的第一缺失的开始的所述语音队列的至少一部分。

在一些实施例中，音频片段还包括唤醒短语。

在一些实施例中，为了从所述音频队列中获取音频片段以响应于检测到所述唤醒短语，所述处理器被配置为监视所述音频队列为语音活动的第一缺失，其中所述语音活动的第一缺失对应于在超过第一预设阈值没有语音记录的唤醒短语之后在所述音频队列中的第一检测的持续时间。所述处理器还可以被配置为响应于检测到未超过第一预设阈值的所述语音活动的第一缺失，监视在所述语音活动的第一缺失之后的所述音频队列为语音活动的第一存在，其中所述语音活动的第一存在对应于在所述语音活动的第一缺失之后在音频队列中存在语音记录的第一检测的持续时间。所述处理器进一步被配置为响应于从所述唤醒短语的结束未检测到在第二预设阈值内的所述语音活动的第一存在，监视所述音频队列为语音活动的第二缺失，其中所述语音活动的第二缺失对应于在超过第一预设阈值没有语音记录在所述语音活动的第一存在后的在音频队列中的第一检测的持续时间。所述处理器进一步被配置为响应于检测所述语音活动的第二缺失，获取所述语音片段，所述语音片段包括从所述语音活动的第一存在的开始到所述语音活动的第一存在的结束的所述语音活动的至少一部分。

在一些实施例中，第一预设阈值可以是700毫秒，并且第二预设阈值可以比第一预设阈值长。

通过参考附图来考虑以下描述和所附权利要求，本文披露的系统、方法和非暂时性计算机可读介质的这些和其他特征，以及结构的相关元件的操作和功能以及部件的组合和制造经济的功能将更加显而易见，本发明的所有附图均构成说明书的一部分，其中相同的附图标记表示各个附图中的相应部分。然而，应清楚地理解，附图仅用于说明和描述的目的，并不旨在作为本发明的限制的定义。

附图说明

本技术的各种实施例的某些特征在所附权利要求中具体阐述。通过参考以下具体实施方式及其附图，将更好地理解本技术的特征和优点，其中具体实施方式详尽介绍了利用本发明原理的说明性实施例，所述附图包括：

图1示出了根据各种实施例的用于不间断应用唤醒和语音识别的示例环境。

图2示出了根据各种实施例的用于不间断应用唤醒和语音识别的示例系统。

图3示出了根据各种实施例的由不间断的应用唤醒和语音识别识别的示例语音。

图4A-4B示出了根据各种实施例的用于不间断应用唤醒和语音识别的示例方法的流程图。

图5示出了示例性的可以实现本文描述的任何实施例的计算机系统的框图。

具体实施方式

现有的应用唤醒和语音识别是单独和不连续地执行的，导致不准确的识别和不一致的用户体验。例如，当与音频捕获设备通话以执行某些指令时，用户必须在阶段(1)说出某个关键字以唤醒应用，以及暂停设备以识别唤醒短语，在阶段(2)说出指令之前)。对于当前技术，暂停对于设备结束阶段(1)语音捕获，识别唤醒短语以及唤醒相应的应用以准备通过开始阶段(2)语音捕获来识别指令是必要的。暂停可能需要几秒钟。相应地，音频捕获设备打开阶段(1)的录音机，并在检测到唤醒短语时关闭录音机。直到阶段(2)，录音机才会重新打开。因此，为了符合当前的技术设置，用户被迫以不自然的方式说话。如果用户在没有暂停的情况下在两个阶段之间连续说话，则可能在阶段(1)而不是阶段(2)中意外地捕获一些指令，或者关键字(唤醒短语)的一部分可能落入阶段(2)而不是阶段(1)，引起干扰和不准确识别唤醒短语和指令。即使用户暂停，如果暂停不够长，仍可能发生各种检测错误。因此，目前的技术不足以提供无缝、自然、方便的应用唤醒和语音识别。

下面描述的各种实施例可以克服在应用唤醒和语音识别领域中出现的这些问题。实施例可以在各种场景中实现，例如步行、车辆呼叫、导航驾驶、驾驶时搜索互联网，或者当打字不现实或不方便的其他情况。例如，为了订购用于运输的车辆服务，当激活相应的应用时，用户可以连续地向移动电话讲话(例如，“XYZ，让我乘坐到地铁中心”)。基于所公开的系统，移动电话可以基于识别唤醒短语“XYZ”唤醒功能并获得“让我乘坐地铁中心”的指令。移动电话可以进一步发送指令“让我乘车到地铁中心“到服务器，使服务器确定对应于”地铁中心“的地址和实现这种运输的车辆。在从服务器接收到相应信息时，移动电话可以向“地铁中心”显示接受运输请求的指示，车辆信息和接送装置。用户可以但不必在唤醒短语“XYZ”和指令“让我......”之间暂停。所公开的系统和方法可以自动确定用户是否打算结束指令或仅在说出指令之前暂停，适应各种用户场景。因此，可以用更高的准确度无缝地完成音频捕获和语音识别。

在各种实施例中，用于应用唤醒和语音识别的示例性系统可包括麦克风，被配置以记录音频队列中的音频。该系统还可以包括处理器，该处理器被配置为监视音频队列为唤醒短语，响应于检测唤醒短语，从音频队列中获取音频片段，并将获得的音频片段发送到服务器。从唤醒短语的开始到音频片段的结束的音频的记录可以是连续的。

在一些实施例中，示例性系统可以在包括移动电话的移动设备上实现。可以使服务器在音频片段上执行语音识别，并基于语音识别将信息返回到移动设备。在一些实施例中，示例性系统还可以包括用于显示返回的信息的显示器。返回的信息可以包括对应于音频片段的机器识别的语音的文本。

在一些实施例中，音频队列可以与时间相关联。为了监视音频队列尾为唤醒短语，处理器可以被配置为筛选记录的音频与唤醒短语相匹配。在一些实施例中，音频队列中的音频的记录在唤醒短语的检测的整个过程中可以是连续的。

在一些实施例中，为了从所述音频队列中获取音频片段以响应于检测到所述唤醒短语，所述处理器可以被配置为监视所述音频队列为语音活动的第一缺失，其中所述语音活动的第一缺失对应于在超过第一预设阈值没有语音记录的唤醒短语之后在所述音频队列中的第一检测的持续时间。所述处理器进一步被配置为响应于检测到超过第一预设阈值的所述语音活动的第一缺失，监视在所述语音活动的第一缺失之后的所述音频队列为语音活动的第一存在，其中所述语音活动的第一存在对应于在所述语音活动的第一缺失之后在音频队列中存在语音记录的第一检测的持续时间。所述处理器进一步被配置为响应于从所述唤醒短语的结束未检测到在第二预设阈值内的所述语音活动的第一存在，获取所述音频片段，所述音频片段包括从所述唤醒短语的结束到所述语音活动的第一缺失的开始的所述语音队列的至少一部分。在一些实施例中，音频片段还包括唤醒短语。

在一些实施例中，为了从所述音频队列中获取音频片段以响应于检测到所述唤醒短语，所述处理器被配置为监视所述音频队列为语音活动的第一缺失，其中所述语音活动的第一缺失对应于在超过第一预设阈值没有语音记录的唤醒短语之后在所述音频队列中的第一检测的持续时间。所述处理器进一步被配置为响应于检测到超过第一预设阈值的所述语音活动的第一缺失，监视在所述语音活动的第一缺失之后的所述音频队列为语音活动的第一存在，其中所述语音活动的第一存在对应于在所述语音活动的第一缺失之后在音频队列中存在语音记录的第一检测的持续时间。所述处理器进一步被配置为响应于从所述唤醒短语的结束未检测到在第二预设阈值内的所述语音活动的第一存在，监视所述音频队列为语音活动的第二缺失，其中所述语音活动的第二缺失对应于在超过第一预设阈值没有语音记录在所述语音活动的第一存在后的在音频队列中的第一检测的持续时间。所述处理器进一步被配置为响应于检测所述语音活动的第二缺失，获取所述语音片段，所述语音片段包括从所述语音活动的第一存在的开始到所述语音活动的第一存在的结束的所述语音活动的至少一部分。在一些实施例中，第一预设阈值为700毫秒，以及第二预设阈值比所述第一预设阈值长。

图1示出了根据各种实施例的用于不间断应用唤醒和语音识别的示例环境100。如图1所示，示例性环境100可以包括至少一个计算系统102，其包括一个或以上处理器104和内存106。内存106可以是非暂时性的并且是计算机可读的。内存106可以存储指令，当指令被一个或以上处理器104执行时，使得一个或以上处理器104执行本文描述的各种操作。系统102还可以包括麦克风103，其被配置为捕获音频输入(例如，人类语音或声音)。这里，任何其他替代音频捕获设备可以用作麦克风103。可以从计算设备107或用户101捕获音频输入。计算设备107(例如，手机、平板电脑、计算机、可穿戴设备(智能手表))可以向系统102发送和/或播放信息(例如，记录的音频)。用户101可以在麦克风103的检测范围内说话以进行音频捕获。可选地，系统102还可以包括被配置为显示信息的显示器105(例如，所识别的语音的文本)。显示器105可以包括触摸筛选。系统102可以在诸如手机、平板电脑、计算机、可穿戴设备(智能手表)等各种设备上实现。上面的系统102可以安装适当的软件(例如，应用、平台程序等)和/或硬件(例如，电线、无线连接等)以访问环境100的其他设备。

环境100可以包括可访问系统102的一个或以上数据存储(例如，数据存储108)和一个或以上计算设备(例如，计算设备109)。在一些实施例中，系统102可以被配置为与数据存储108和/或计算设备109交换数据或信息。例如，数据存储108可以安装在用于存储地址信息的计算机中。计算设备109可以是被配置为执行语音识别的服务器。服务器可以被配置为接收音频输入并将各种模型(例如，隐马尔可夫模型、基于动态时间扭曲的语音识别、神经网络)应用于音频输入以识别一个或以上的声音(例如，人类的声音)并获得声音对应的文本。

在一些实施例中，数据存储108和/或计算设备109可以实现在线信息或服务平台。该服务可以与车辆(例如，汽车、自行车、船、飞机等)相关联，并且该平台可以被称为车辆服务呼叫平台。平台可以接受对运输的请求、识别满足请求的车辆、安排搭车以及处理交易。例如，用户可以使用系统102(例如，安装有与平台相关联的应用的移动电话)来访问平台。一些平台数据(例如，车辆信息、车辆司机信息、地址信息等)可以存储在内存106中或者可以从数据存储108和/或计算设备109中检索。在一些实施例中，用户可以与系统102通话以提交请求(例如，车辆呼叫请求)。如本文所述，系统102、数据存储108和/或计算设备109可以一起工作以捕获和处理用户的语音以完成请求。

在一些实施例中，系统102和一个或以上计算设备(例如，计算设备109)可以集成在一个单独的设备或系统中。或者，系统102和计算设备可以作为单独的设备操作。数据存储可以位于可访问系统102的任何位置，例如，在内存106中、在计算设备109中、在耦合到系统102的另一设备(例如，网络存储设备)中，或其他存储位置(例如，基于云的存储系统、网络文件系统等)等。尽管计算设备109在该图中被示为单个组件，但是应当理解，计算设备109可以实现为单个设备或耦合在一起的多个设备(例如，计算机、服务器等)。计算设备可以耦合到系统102之类的多个系统并与之交互。通常，系统102、计算设备109和数据存储108能够通过一个或以上有线或无线网络(例如，因特网)彼此通信，通过该网络可以传送数据。下面参考图2至图5描述环境100的各个方面。

图2示出了根据各种实施例的用于不间断应用唤醒和语音识别的示例系统200。图2中所示并在下文呈现的操作旨在用于说明。图2中的各种设备和组件类似于图1中描述的那些，除了为简单起见而移除了数据存储108和计算设备107。

在各种实施例中，系统102可以在包括移动电话的移动设备上实现。系统102的一个或以上组件(例如，麦克风108、处理器104和/或内存106)可以被配置用于在音频队列中记录音频(例如，音频202)。音频202可以包括人类说出的语音(例如，句子、短语、单词)。语音可以是任何语言的。处理器104可以被配置为控制记录的开始和停止。例如，当如上所述，在设备上输入应用的预设界面或打开应用时，可以开始记录。处理器104可以控制系统102的模数转换器(analogue to digital converter,ADC)(在该图中未示出)以将捕获的音频转换成数字格式，并存储在音频队列中。音频队列可以与时间相关联，并且可以包括捕获的音频的时间序列数据。音频队列可以以各种音频文件格式(例如，WAV文件)存储。音频队列可以存储在内存106中，高速缓存中或其他存储介质中。音频队列可以不限于特定的操作系统，并且可以使用各种替代的音频缓冲器，音频高速缓存，音频流或音频回调技术来代替音频队列。音频队列可以被配置为仅捕获最新的音频(例如，音频捕获的最后一分钟、最后的1G音频文件等)。例如，捕获的音频可以连续地流传输到有限大小的高速缓存，并且超过限制的最新音频部分写在最老的音频部分上。

在一些实施例中，系统102的一个或多个组件(例如，处理器104和/或内存106)可以被配置为监视音频队列为唤醒短语，响应于检测到唤醒短语，从音频队列获取音频片段，并且将获得的音频片段(例如，音频片段204)发送到计算设备109(例如，服务器)。在一些实施例中，上述音频的记录至少从唤醒短语的开始到音频片段的结束可以是连续且不间断的。下面参考图3描述用于获得音频片段的细节。

在一些实施例中，处理器104和/或系统102的内存106可以被配置为实时地在音频队列上执行语音识别以筛选唤醒短语。为了监视唤醒短语的音频队列，处理器可能被配置为筛选记录的音频与唤醒短语相匹配。唤醒短语可包括一个或以上的单词或短语。唤醒短语可以被认为是用户在用户语音中说出的语音的一部分。唤醒短语可以包括名称或问候语(例如，“Hello XYZ”)，并且可以与应用、预设程序、功能或过程(例如，应用XYZ)相关联。例如，系统102可以在检测到音频队列中的唤醒短语时触发步骤以获得音频片段。这里，“唤醒”不一定意味着从“睡眠模式”唤醒。在唤醒之前，系统102可以休眠、空闲或执行其他任务。无论是否检测到唤醒短语，麦克风108都可以继续执行记录，并且系统102可以不停止或暂停记录。也就是说，音频队列中的音频的记录在唤醒短语的整个检测中是连续的(例如，从检测唤醒短语之前到之后，只要停留在上述预设界面中或者处于类似的预设状态)。系统102可以获得音频片段204以响应于检测到唤醒短语，并将获得的音频片段204发送到计算设备109。音频片段204还可以包括用户在用户语音中说出的语音的一部分。音频片段204可以包括或不包括唤醒短语。

在一些实施例中，可以使计算设备109对音频片段204执行语音识别，并且至少基于语音识别将信息206(例如，识别的语音的文本)返回到系统102。系统102的显示器105可以被配置用于显示返回的信息。返回的信息可以包括对应于音频片段的机器识别的语音的文本。

这样，语音识别可以在系统102和/或计算设备109处执行。语音识别可以通过诸如服务器、计算机或移动电话之类的机器将口语和短语的音频信号识别和翻译成文本。原则上，机器可以从音频(例如，音频队列、音频片段)提取特征以生成语音指纹。机器可以将所生成的语音指纹与来自单词指纹模板中的(例如，存储在内存106中的词典、存储在计算设备109中的另一个词典)进行比较，以选择最匹配的单词。词典包含书面表示与单词或短语的发音之间的映射。词典可以被称为声学模型的一部分。声学模型可以表示捕获的语音的音频信号与构成语音的音素或其他语言单元之间的关系，从而将音频信号与单词相关联。声学模型(例如，维特比算法、隐马尔可夫模型)可基于提取字符向量和模型训练来识别与音频信号最匹配的文本。此外，机器可以将所选择的单词与句子指纹模板(例如，存储在内存106中的语法和语义模型、存储在计算设备109中的另一种语法和语义模型)进行比较，以选择最匹配的句子以区分听起来相似的单词和短语。语法和语义模型可以被称为语音模型的一部分。语音模型表示在一系列单词上的概率分布，每个单词由声学模型确定。例如，句子的概率可以表示为句子中所有单词的概率的链产物。特别是，N-gram模型可以用作语音模型。在获得识别的语音输出(例如，短语、句子)之后，比较和选择步骤(例如，算法)可以通过反馈输出(无论是正确的还是不正确的)来训练。

虽然两者都利用语音识别的原理，但系统102上的语音识别模型可以比计算设备109上的语音识别模型更简单。系统102可能必须仅对来自捕获的音频的一个短语进行筛选：预设的唤醒短语。因此，系统102可以仅需要声学模型来进行单词比较和选择。即使系统102同时使用声学模型和语音模型，它们也可以更简单，因为用于识别的任务量较小。如下所述，唤醒短语可以使系统102获得来自音频队列的唤醒短语之后的语音，并将它们发送到计算设备109，使得计算设备109识别语音。

图3示出了根据各种实施例的由不间断的应用唤醒和语音识别识别的示例语音。训练300可以在各种环境中实现，包括例如图1的环境100。图3中示出的音频捕获和语音识别以及下面参考每个音频队列描述的各个步骤可以通过环境100的一个或以上组件(例如，处理器104和/或系统102的内存106)来实现。图3的描述旨在是说明性的，并且可以根据实现方式以各种方式进行修改。

图3示出了在音频捕获的各个阶段的音频队列301-306(水平条)和在x轴方向上的连续时间序列中的语音识别。一些音频队列标有相应的演讲。在图3中，预设的唤醒短语是“DDABC”。可以在相应的音频队列上标记各种时间戳(例如，A1，C4)。

参考音频队列301，在一些实施例中，捕获的音频可以存储在音频队列301中，当捕获最近的音频时，音频队列301在x轴方向上延伸。

参考音频队列302，在一些实施例中，在检测到唤醒短语“DDABC”时，可以可选地删除在唤醒短语之前的音频队列中记录的音频数据，同时继续捕获即将到来的音频数据。在分别检测到音频队列303的唤醒短语A1至A2、音频队列304的B1至B2、音频队列305的C1至C2，以及音频队列306的D1至D2，可以对音频队列303-306执行类似的删除操作。删除可以为即将到来的音频创建空间。在一些实施例中，可以不执行删除。通过标记唤醒短语开始的时间戳并将其用作音频队列中的参考点，可以从音频队列获取在标记的时间戳之后的音频数据作为语音识别的相关数据，而不受在标记的时间戳之前标记的音频数据的干扰和过多数据的负担。通过任一种方法，可以获得并存储唤醒短语的开始和结束的时间戳(例如，A1、A2、B1、B2、C1、C2、D1、D2)。

在一些实施例中，参考音频队列303-306，为了从所述音频队列中获取音频片段以响应于检测到所述唤醒短语，(如上参考图2所述)，音频队列可以被监视为语音活动的第一缺失，其中所述语音活动的第一缺失对应于在超过第一预设阈值没有语音记录的唤醒短语之后在所述音频队列中的第一检测的持续时间。例如，在唤醒短语之后的第一检测的持续时间可以为在语音“将我带到地铁中心”之后的语音队列303的A31至A32、在“K小镇”之后的语音队列的B31至B32、在唤醒短语“DDABC”之后的语音队列305的C2至C3、或在唤醒短语“DDABC”之后的语音队列306的D1至D2。这一步可称为语音活动检测(voice activitydetection,VAD)来检测语音的结束或语音的一小部分的结束。VAD可以通过包括降低噪点、特征提取和应用分类规则的步骤来实现。这里，通过检测足够长的语音缺失(例如，对于超过该图中所示的第一预设阈值)，可以确定结束。第一预设阈值可以是可配置的(例如，如图所示，700毫秒)。通过来自现实生活的音频样本的统计分析，大约700毫秒的持续时间可以适合于VAD的确定。

在一些实施例中，响应于检测到超过第一预设阈值的所述语音活动的第一缺失，监视在所述语音活动的第一缺失之后的所述音频队列为语音活动的第一存在，其中所述语音活动的第一存在对应于在所述语音活动的第一缺失之后在音频队列中存在语音记录的第一检测的持续时间。例如，在语音活动的第一缺失之后的第一检测的持续时间可以是A4至被标记为“随机会话”的音频队列303之前、B4至被标记为“随机”的音频队列304之前、被标记为“带我到地铁中心”的音频队列305的C4至C5、或D5至被标记为“带我去......”的音频队列306之前。可以获取并存储在语音活动的第一缺失之后的第一检测的持续时间的开始的时间戳(例如，A4、B4、C4、D5)。类似地，可以基于它们对应的时间戳获取对应于语音活动的存在和如下所述的活动的缺失的各种持续时间以及它们之间的比较。例如，可以通过从A1至A4减去A1至A2来获得从A2到A4的持续时间。

在一些实施例中，响应于从所述唤醒短语的结束未检测到在第二预设阈值内的所述语音活动的第一存在，获取所述音频片段，所述音频片段包括从所述唤醒短语的结束到所述语音活动的第一缺失的开始的所述语音队列的至少一部分。例如，对于音频队列303，如果A2到A4大于第二预设阈值，则可以获得音频片段以至少包括A2到A31。音频片段可替代地包括至少A1到A31(从唤醒短语的开始到语音活动的第一缺失的开始)。在音频片段中包含唤醒短语可以通过消除A2的不准确的确定来提高检测准确度。太早确定A2(例如，在唤醒短语内)可能将唤醒短语的一部分带入“带我到地铁中心”的指令中，导致服务器错误地至少确定指令的开始。当服务器对不完整的指令执行语音识别时，太晚确定A2(例如，缺少第一个单词“take”)也会导致错误。

在一些实施例中，如下面参考音频队列305所描述的，第二预设阈值可用于确定用户是否打算结束语音，或者仅仅在唤醒短语和其他语音(例如，指令)之间暂停。对于先前的情况，如参考音频队列303或304所示，仅需要一轮捕获。对于后一种情况，如参考音频队列305所示，需要两轮捕获。两轮并不意味着停止和恢复音频记录，因为如上所述，记录是连续且不间断的。由于VAD检测超过第一预设阈值，因此可以生成对应于捕获的“第一轮”的指示初步停止的信号。但是停止是基于对应于捕获的“第二轮”的第二预设阈值来确认的。因此，在用户捕获完整的“唤醒短语+指令”的过程中，机器可以将“轮”解释为内部过程标签。第二预设阈值可以是可配置的(例如，对于音频队列306，音频队列303-305，4200毫秒＝700毫秒+500毫秒+3000毫秒，1200毫秒＝700毫秒+500毫秒)。对于普通情况，说“带我到地铁中心”通常需要500毫秒以上，因此无论A32到A4有多长，A2到A4都可以超过1200毫秒的第二预设阈值。因此，只需要执行一轮左右的捕获。额外的500毫秒可用于覆盖在唤醒短语之后发出短语的情况，如下面参考音频队列304所讨论的。

参考音频队列304，在一些实施例中，从唤醒短语的结束到语音活动的第一缺失的开始(“K镇”的B2到B31)的部分音频队列可以是500毫秒，B2至B4可以超过1200毫秒的第二预设阈值。短语(例如，诸如“K镇”之类的短地址)通常可能需要大约500毫秒或更长时间才能发出。因此，B2至B32将超过1200毫秒的第二预设阈值，并且仅需要执行一次捕获。这里，所有持续时间500毫秒、700毫秒、1200毫秒和3000毫秒仅仅是一个示例，并且可以调整到任何长度(例如，500毫秒可以调整到300毫秒以适应更短的地址)。

参考音频队列305，在一些实施例中，音频队列可以被监视为语音活动的第一缺失，其中语音活动的第一缺失对应于在超过第一预设阈值没有语音记录的唤醒短语之后在所述音频队列中的第一检测的持续时间。响应于检测到超过第一预设阈值的所述语音活动的第一缺失(例如，C2到C3超过700毫秒)，可以监视语音队列为在所述语音活动的第一缺失之后的语音活动的第一存在，其中所述语音活动的第一存在对应于在所述语音活动的第一缺失之后在音频队列中存在语音记录的第一检测的持续时间。响应于从所述唤醒短语的结束(例如，C2到C4小于1200毫秒)检测到在第二预设阈值内的所述语音活动(C4到C5的C4)的第一存在，可以监视所述音频队列为语音活动的第二缺失，其中所述语音活动的第二缺失对应于在超过第一预设阈值(例如，C5到C6超过700毫秒)没有语音记录在所述语音活动的第一存在后的在音频队列中的第一检测的持续时间。响应于检测所述语音活动的第二缺失，获取所述语音片段。所述语音片段包括从所述语音活动的第一存在的开始到所述语音活动(C4到C5)的第一存在的结束的所述语音活动的至少一部分。音频片段可替代地包括至少C1到C5(从唤醒短语的开始到语音活动的第二缺失的开始)，并且唤醒短语的融合可以增加语音识别准确度，如上所述。

音频队列306类似于音频队列305，除了添加第三预设阈值(例如，D4到D5为3000毫秒)以适应更长的暂停。这里，在确定超过第二预设阈值之后，系统102可以监视音频队列306在第三预设阈值内的语音活动的第一存在，类似于在音频队列305中语音活动的第一存在的监视。如果在第三预设阈值内确定语音活动的第一存在，则可以执行第二轮捕获。

比较音频队列303、304和305，第一预设阈值可用于初步确定语音的暂停，并且第二预设阈值可用于确定用户是否打算结束语音(如在音频队列303中)或者304，其中仅需要一个捕获周围)或者仅仅在说出指令之前暂停(如在音频队列305或306中，其中需要两个捕获周围)。由于习惯、用户需要时间回忆地址或其他各种原因，用户可能会在说出唤醒短语后暂停。因此，可能需要第一预设阈值来确定语音的结束，并且可能需要第二预设阈值以在唤醒短语之后具有暂停的情况下改善语音的准确捕获。此外，第二预设阈值的应用涵盖了短地址。在音频队列303的A4、音频队列3/4的B4、音频队列305的C6之后，系统102可以回退到监视语音队列为唤醒短语的原始状态。

鉴于上述情况，用户可以与设备通话以输入信息并提交各种指令。可以基于捕获的语音自动确定指令的开始和结束，而无需使用传统的输入方法，例如键入、按压、触摸或以其他方式与设备物理接触。也就是说，用户既不必触摸设备的一部分(例如，触摸筛选的某个区域)，也不必按下设备的一部分(例如，按钮或键)来发信号通知指令的开始和结束。此外，记录至少从唤醒短语的开始到音频片段的结束可以是连续的，其可以一起发送到服务器以用于语音识别，从而提高指令识别的准确性。

图4A示出了根据本申请的各种实施例的示例方法400的流程图。图4B示出了根据本申请的各种实施例的示例方法410的流程图。方法400和410可以在各种环境中实现，包括例如图1的环境100。示例方法400和410可以由系统102的一个或以上组件(例如，处理器104、内存106)实现。下文呈现的方法400的操作旨在用于说明。取决于实施例，示例方法400和410可以包括以各种顺序或并行执行的附加、更少或替代步骤。

对于方法400，在框402处，可以将音频记录在音频队列中。例如，麦克风可以记录音频，并且处理器可以获得记录的音频。在框404处，可以监视音频队列为唤醒短语。在框406，响应于检测到唤醒短语，可以从音频队列获取音频片段。框406还可以包括下面描述的方法410。在框408处，可以将所获得的音频片段发送到服务器。可以使服务器在音频片段上执行语音识别。音频的记录可以是至少从唤醒短语的开始到音频片段的结束是连续且不间断的。

对于方法410，在方框411，可以监视音频队列为语音活动的第一缺失，其中所述语音活动的第一缺失对应于在超过第一预设阈值没有语音记录的唤醒短语之后在所述音频队列中的第一检测的持续时间。在框412，响应于检测到超过第一预设阈值的所述语音活动的第一缺失，监视所述音频队列为语音活动为在所述语音活动的第一缺失之后的语音活动的第一存在，其中所述语音活动的第一存在对应于在所述语音活动的第一缺失之后在音频队列中存在语音记录的第一检测的持续时间。在步骤413，响应于未检测到在第二预设阈值内的所述语音活动的第一存在，可以获取包括从所述唤醒短语的结束到所述语音活动的第一缺失的开始的所述语音队列的至少一部分的语音片段。在框414，响应于检测到在第二预设阈值内的所述语音活动的第一存在，监视所述音频队列为语音活动的第二缺失，其中所述语音活动的第二缺失对应于在超过第一预设阈值没有语音记录在所述语音活动的第一存在后的在音频队列中的第一检测的持续时间。在框415，响应于检测到所述语音活动的第二缺失，可以获取包括从所述语音活动的第一存在的开始到所述语音活动的第一存在的结束的所述语音活动的至少一部分的语音片段。

这里描述的技术由一个或以上专用计算设备实现。专用计算设备可以包括一个或以上硬件处理器，其被编程为根据固件、存储器、其他存储器或组合中的程序指令来执行技术。专用计算设备可以是台式计算机系统、服务器计算机系统、便携式计算机系统、手持设备、网络设备或包含硬连线和/或程序逻辑以实现该技术的任何其他设备或设备的组合。计算设备通常由操作系统软件控制和协调。传统的操作系统控制和安排用于执行的计算机进程、执行存储器管理、提供文件系统、网络、输入/输出服务、以及提供用户界面功能，例如图形用户界面(“GUI”)等。

图5是示出示例性的可以实现本文描述的任何实施例的计算机系统500的框图。系统500可以对应于上述系统102。计算机系统500包括总线502或用于交流信息的其他通信机制、一个或以上与总线502耦合的用于处理信息的硬件处理器504。硬件处理器504可以是，例如，一个或以上通用微处理器。处理器504可以对应于上述处理器104。

计算机系统500还包括与总线502耦合的用于存储由处理器504执行的信息和指令的主内存506，例如随机存取存储器(RAM)、缓存和/或其他动态存储设备。主内存506还可以用于在处理器504执行待执行指令期间存储临时变量或其他中间信息。当上述指令存储在处理器504可访问的存储介质中时，可使计算机系统500成为专用机器，该专用机器被定制为执行指令中指定的操作。计算机系统500还包括只读存储器(ROM)508或耦合到总线502的其他静态存储设备，用于存储处理器504的静态信息和指令。提供存储器510，例如磁盘、光盘或USB拇指驱动器(闪存驱动器)等，并将其耦合到总线502，用于存储信息和指令。主内存506、ROM 508和/或存储器510可以对应于上述内存106。

计算机系统500可以使用定制的硬连线逻辑、一个或以上的专用集成电路(ASIC)或现场可编程门阵列(FPGA)、固件和/或程序逻辑来实现本文描述的技术，其与计算机系统组合使计算机系统500成为或被编程为特殊用途机器。根据一个实施例，响应于处理器504执行主内存506中包含的一个或以上指令中的一个或以上序列，计算机系统500会执行本申请书中的技术。这些指令可以从另一存储介质(例如存储器510)读入主内存506。执行主内存506中包含的指令的序列使得处理器504执行本文描述的处理步骤。在备选实施例中，可以使用硬连线电路代替软件指令或与软件指令组合。

主内存506、ROM 508和/或存储器510可以包括非暂时性存储介质。这里使用的术语“非暂时性介质”和类似术语是指存储使机器以特定方式操作的数据和/或指令的任何介质。这种非暂时性介质可以包括非易失性介质和/或易失性介质。非易失性介质包括，例如光盘或磁盘，如存储器510。易失性介质包括动态存储器，例如主内存506。非暂时性介质的常见形式包括，例如，软盘、软性磁盘、硬盘、固态驱动器、磁带、或任何其他磁性数据存储介质、只读光盘驱动器(CD-ROM)、任何其他光学数据存储介质、具有孔图案的任何物理介质、RAM、可编程序只读存储器(PROM)和可擦除可编程只读存储器(EPROM)、快擦编程只读存储器(FLASH-EPROM)、非易失性随机访问存储器(NVRAM)、任何其他存储器芯片或盒式磁带、以及它们的网络版本。

计算机系统500还包括麦克风512或替代的音频捕获设备。麦克风512可以对应于上述麦克风103。

计算机系统500还包括耦合到总线502的通信接口518。通信接口518提供耦合到连接到一个或以上本地网络的一个或以上网络链路的双向数据通信。例如，通信接口518可以是综合业务数字网(ISDN)卡、线缆调制解调器、卫星调制解调器、或用于提供与相应类型的电话线路进行数据通信连接的调制解调器。又例如，网络接口518可以是局部区域网络(LAN)卡以提供与兼容的LAN之间的数据通信连接(或WAN组件以与WAN通信)。网络接口518也可以实现无线链路。在任何这样的实施方式中，网络接口518发送和接收携带代表各类信息的数字数据流的电信号、电磁信号或光信号。

计算机系统500可以通过网络、网络链路和网络接口518发送消息并接收包括程序代码的数据。以因特网为例，服务器可以通过因特网、互联网服务提供商(ISP)、本地网络和网络接口518为应用发送请求代码。

所接收的代码可以收到后由处理器504执行、和/或存储在存储器510或其他非易失性存储器中以供稍后执行。

在前面部分中描述的每个过程、方法和算法可以由代码模块实现，并且通过该代码模块实现完全自动化或半自动化，所述代码模块通过一个或以上包括计算机硬件的计算机系统或计算机处理器执行。上述过程和算法可由应用特定电路部分地或完全地实现。

上述各种特征和过程可以彼此独立地使用，或者可以以各种方式组合。所有可能的组合和子组合旨在落入本申请的范围内。另外，在一些实现中可以省略某些方法或过程块。本文描述的方法和过程也不限于任何特定顺序，与其相关的框或状态可以以其他合适顺序执行。例如，所描述的块或状态可以以不同于具体披露的顺序执行，或者多个块或状态可以组合为单个块或状态。示例性块或状态可以串行、并行或以其他方式执行。可以向所公开的示例实施例添加块或状态或从其中移除块或状态。这里描述的示例系统和组件可以与所描述的不同地配置。例如，相比于与所披露的示例实施例，可以添加、移除或重新布置元件。

本文描述的示例方法的各种操作可以至少部分地由一个或以上处理器执行，所述一个或以上处理器可以临时配置(例如，通过软件)为或永久配置为执行相关操作。无论是临时配置还是永久配置，所述处理器都可以构成由处理器实现的引擎，其运行以执行本文描述的一个或以上操作或功能。

类似地，本文描述的方法可以至少部分地由一个特定处理器或一组处理器(作为硬件示例)实现。例如，方法的至少一部分操作可以由一个或以上处理器或处理器实现的引擎来执行。此外，一个或以上处理器还可以运行以发挥“云计算”环境中的相关操作的支护性能或实现“软件即服务”(SaaS)。例如，至少一些操作可以由一组计算机(作为包括处理器的机器的示例)执行，这些操作可以通过网络(例如，因特网)和通过一个或以上适当的接口(例如，应用接口(API))。

某些操作的性能可以在处理器之间分配，不仅驻留在单个机器内，而且部署在多个机器上。在一些示例实施例中，处理器或处理器实现的引擎可以位于单个地理位置(例如，在家庭环境、办公室环境或服务器群内)。在其他示例实施例中，处理器或处理器实现的引擎可以分布在多个地理位置。

在整个说明书中，多个实例可以实现被描述为单个实例的组件，操作或结构。尽管一个或以上方法的各个操作被示出并描述为单独的操作，但是可以同时执行各个操作的一个或以上，并且不需要以所示的顺序执行操作。在示例配置中作为单独组件呈现的结构和功能可以实现为组合结构或组件。类似地，作为单个组件呈现的结构和功能可以实现为单独的组件。这些和其他变化，修改，添加和改进都落入本文主题的范围内。

尽管已经参考特定示例性实施例概述了本文主题，但是可以在不脱离本申请的实施例的较宽范围的情况下对这些实施例进行各种修改和改变。本文主题的这些实施例可单独地或共同地由术语“发明”指代，此举仅为描述方便，而不旨在当实际有多余一个披露或概念被披露时主动将本申请的范围限制于任何单个的披露或概念。

本文所示的实施例已被描述的足够详尽，使得本领域技术人员能够实践所披露的教导。其他实施例也可以从所披露的教导中推出并使用，使得可以在不脱离本申请的范围的情况下，对本文实施例作出结构和逻辑上的替换和改变。因此，具体实施方式不应被视为具有限制意义，并且各种实施例的范围仅由所附权利要求以及这些权利要求所赋予的等价物的全部范围来限定。

本文所述和/或附图中描绘的流程图中的任何过程描述、元素或框应理解为潜在地表示模块、部件、或部分代码，这些模块、部件、或部分代码包括用于实现特定逻辑功能或过程步骤的一个或以上可执行指令。本领域技术人员可以理解的是，本文描述的实施例的范围内还包括备选实施方式，在这些备选实施方式中，元件或功能可以被删除，或取决于所涉及的功能而不由所示出的或论述的顺序来执行，包括实质上同时执行或以相反的顺序执行。

如本文所用，术语“或”可以解释为包含性或排他性含义。此外，可以为在此描述为单个实例的资源、操作或结构提供多个实例。另外，各种资源、操作、引擎和数据存储之间的边界在某种程度上是任意的，并且在特定说明性配置的上下文中示出了特定操作。设想的其他功能的分配可以落入本申请的各种实施例的范围内。通常，在示例配置中作为单独资源呈现的结构和功能可以以组合结构或组合资源实现。类似地，作为单独资源呈现的结构和功能可以以多个分离的资源实现。这些以及其他变化、修改、添加和改进均落入由所附权利要求表示的本申请的实施例的范围内。相应地，说明书和附图应被视为说明性的而非限制性的。

条件语言，例如，除其他之外，“可以”或“可能”，除非另有明确说明，或者在所使用的上下文中以其他方式理解，通常旨在表达某些实施例包括，而其他实施例不包括某些特征、元素和/或步骤。因此，这种条件语言通常不旨在暗示一个或以上实施例以任何方式需要特征、元素和/或步骤，或者一个或以上实施例必须包括用于在有或没有用户输入或提示的情况下决定的逻辑，这些特征、元素和/或步骤包括在或将在任何特定的实施例中执行。

Claims

1.一种应用唤醒和语音识别的计算系统，包括：

麦克风，被配置为记录音频队列中的音频；以及

处理器，被配置为：

监视所述音频队列为唤醒短语；

响应于检测到所述唤醒短语，从所述音频队列中获取音频片段；以及

将所述获得的音频片段发送到服务器，其中从所述唤醒短语的开始到所述音频片段的结束的所述音频的记录是连续的。

2.根据权利要求1所述的系统，其特征在于：

所述系统在包括移动电话的移动设备上实现；

所述服务器在所述音频片段上执行语音识别，并基于所述语音识别将信息返回给所述移动设备。

3.根据权利要求2所述的系统，还包括：

显示器，被配置为显示所述返回的信息，其中所述返回的信息包括对应于所述音频片段的机器识别的语音的文本。

4.根据权利要求1所述的系统，其特征在于：

所述音频队列与时间有关；以及

为了监视所述音频队列为所述唤醒短语，所述处理器被配置为筛选所述记录的音频与所述唤醒短语相匹配。

5.根据权利要求4所述的系统，其特征在于：

所述音频队列中的所述音频的记录在所述唤醒短语的所述检测的整个过程中是连续的。

6.根据权利要求4所述的系统，其特征在于：

为了从所述音频队列中获取音频片段以响应于检测到所述唤醒短语，所述处理器被配置为：

监视所述音频队列为语音活动的第一缺失，其中所述语音活动的第一缺失对应于在超过第一预设阈值没有语音记录的唤醒短语之后在所述音频队列中的第一检测的持续时间；

响应于检测到超过第一预设阈值的所述语音活动的第一缺失，监视所述音频队列为语音活动为在所述语音活动的第一缺失之后的语音活动的第一存在，其中所述语音活动的第一存在对应于在所述语音活动的第一缺失之后在音频队列中存在语音记录的第一检测的持续时间；

响应于从所述唤醒短语的结束未检测到在第二预设阈值内的所述语音活动的第一存在，获取包括从所述唤醒短语的结束到所述语音活动的第一缺失的开始的所述语音队列的至少一部分的音频片段。

7.根据权利要求6所述的系统，其特征在于：

所述音频片段还包括所述唤醒短语。

8.根据权利要求4所述的系统，其特征在于：

响应于检测到超过第一预设阈值的所述语音活动的第一缺失，监视在所述语音活动的第一缺失之后的所述音频队列为语音活动的第一存在，其中所述语音活动的第一存在对应于在所述语音活动的第一缺失之后在音频队列中存在语音记录的第一检测的持续时间；

响应于从所述唤醒短语的结束检测到在第二预设阈值内的所述语音活动的第一存在，监视所述音频队列为语音活动的第二缺失，其中所述语音活动的第二缺失对应于在超过第一预设阈值没有语音记录在所述语音活动的第一存在后的在音频队列中的第一检测的持续时间；以及

响应于检测到所述语音活动的第二缺失，获取包括从所述语音活动的第一存在的开始到所述语音活动的第一存在的结束的所述语音活动的至少一部分的音频片段。

9.根据权利要求8所述的系统，其特征在于：

所述第一预设阈值是700毫秒；以及

所述第二预设阈值比所述第一预设阈值长。

10.一种应用唤醒和语音识别的方法，包括：

记录音频队列中的音频；以及

监视所述音频队列为唤醒短语；

响应于检测到所述唤醒短语，从所述音频队列获取音频片段；以及

将所述获得的音频片段发送到服务器，其中所述音频的所述记录从所述唤醒短语的开始到所述音频片段的结束是连续的。

11.根据权利要求10所述的方法，其特征在于：

所述方法由包括移动电话的移动设备实现；

12.根据权利要求11所述的方法，进一步包括：

显示所述返回的信息，其中所述返回的信息包括对应于所述音频片段的机器识别的语音的文本。

13.根据权利要求10所述的方法，其特征在于：

所述音频队列与时间有关；以及

监视所述音频队列为所述唤醒短语包含筛选所述记录的音频与所述唤醒短语相匹配。

14.根据权利要求13所述的方法，其特征在于，

15.根据权利要求13所述的方法，其特征在于：

从所述音频队列中获取音频片段以响应于检测到所述唤醒短语包括：

16.根据权利要求15所述的方法，其特征在于：

所述音频片段还包括所述唤醒短语。

17.根据权利要求13所述的方法，其特征在于：

从所述音频队列中获取音频片段以响应于检测到所述唤醒短语，所述处理器被配置为：

18.根据权利要求17所述的方法，其特征在于：

所述第一预设阈值是700毫秒；以及

所述第二预设阈值比所述第一预设阈值长。

19.一种用于应用唤醒和语音识别的非暂时性计算机可读介质，包括存储在其中的指令，其中所述指令在由一个或以上处理器执行时使所述一个或以上处理器执行方法，该方法包括：

获取音频队列中的记录的音频；以及

监视所述音频队列为唤醒短语；

响应于检测所述唤醒短语，从所述音频队列中获取音频片段；以及

20.根据权利要求19所述的非暂时性计算机可读介质，其特征在于，响应于检测到所述唤醒短语，从所述音频队列中获取所述音频片段包括：

监视所述音频队列为超过第一预设阈值的语音活动的第一缺失，其中所述语音活动的第一缺失对应于在超过第一预设阈值没有语音记录的唤醒短语之后在所述音频队列中的第一检测的持续时间；以及

响应于检测到超过第一预设阈值的所述语音活动的第一缺失，从所述唤醒短语的末端到所述语音活动的第一缺失的开始，获取包括从所述唤醒短语的结束到所述语音活动的第一缺失的开始的所述语音队列的至少一部分的语音片段。