CN109155132B

CN109155132B - 说话者验证方法和系统

Info

Publication number: CN109155132B
Application number: CN201780019553.3A
Authority: CN
Inventors: 斯里·哈利·克里希南·帕塔萨拉蒂; 伯恩·霍夫迈斯特; 布赖恩·金; 罗兰·麦斯
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2016-03-21
Filing date: 2017-02-21
Publication date: 2023-05-30
Anticipated expiration: 2037-02-21
Also published as: US20170270919A1; CN109155132A; EP3433855A1; WO2017165038A1; US10373612B2; US20200035231A1; US11514901B2; EP3433855B1; JP2019514045A; JP6705008B2

Abstract

一种被配置来处理语音命令的系统可将传入音频分类成期望语音、不期望的语音或非语音。期望语音是来自与参考语音是同一说话者的语音。可从配置会话或者从输入语音的包括唤醒词的第一部分来获得所述参考语音。可使用递归神经网络(RNN)编码器来对所述参考语音进行编码以创建参考特征向量。所述参考特征向量和传入音频数据可由训练神经网络分类器来处理，以关于每个帧是否由与所述参考语音相同的说话者说出而标记所述传入音频数据(例如，逐帧地)。所述标记可被传递到自动语音辨识(ASR)部件，所述自动语音辨识部件可允许所述ASR部件将其处理集中在所述期望语音上。

Description

说话者验证方法和系统

相关申请的交叉引用

本申请要求2016年6月29日提交的标题为“ANCHOREDSPEECH DETECTION ANDSPEECH RECOGNITION”的美国专利申请序列号15/196，228以及2016年3月21日提交的标题为“ANCHORED SPEECH DETECTION ANDSPEECH RECOGNITION”的美国专利申请序列号62/311,082的优先权。以上申请的全部内容通过引用并入本文。

背景技术

语音辨识系统已发展到人们可使用语音与计算设备交互的程度。此类系统采用由人类用户基于接收的音频输入的各种质量来识别说出词语的技术。结合自然语言理解处理技术的语音辨识使得用户能够基于语音控制计算设备来基于用户的说出命令执行任务。语音辨识和自然语言理解处理技术的组合通常称为语音处理。语音处理还可将用户的语音转换成文本数据，随后可将所述文本数据提供给各种基于文本的软件应用程序。

语音处理可由计算机、手持设备、电话计算机系统、信息亭和各种各样的其他设备使用，以改善人机交互。

附图说明

为了更全面地理解本公开，现在参考以下结合附图进行的描述：

图1示出了根据本公开的实施方案的被配置来使用点阵的递归神经网络表示来执行语音辨识的系统。

图2是根据本公开的实施方案的语音处理系统的概念图。

图3示出了根据本公开实施方案的用于语音辨识的神经网络。

图4示出了根据本公开实施方案的用于语音辨识的神经网络。

图5示出了根据本公开的实施方案的音素处理和文字处理。

图6示出了根据本公开的实施方案的语音辨识点阵。

图7示出了根据本公开的实施方案的遍历图6的点阵的不同方式。

图8示出了根据本公开的实施方案的与图6的点阵相关联的N个最佳假设列表。

图9示出了根据本公开的实施方案的编码器的操作。

图10示出了根据本公开的实施方案的识别输入音频数据中的唤醒词。

图11示出了根据本公开的实施方案的从输入音频数据的唤醒词部分识别参考音频数据。

图12示出了根据本公开的实施方案的从预先存储的音频数据识别参考音频数据。

图13示出了根据本公开的实施方案的从第一输入音频数据识别参考音频数据。

图14示出了根据本公开的实施方案的将参考音频数据编码成特征向量。

图15示出了根据本公开的实施方案的使用参考特征向量来对输入音频数据进行分类。

图16A示出了根据本公开的实施方案的使用输入音频数据和对应于输入音频数据的标签来执行声音活动检测。

图16B示出了根据本公开的实施方案的使用输入音频数据和对应于输入音频数据的标签来执行ASR。

图17示出了根据本公开的实施方案的对输入音频数据进行分类。

图18示出了根据本公开的实施方案的存储的并且与用户配置文件相关联的数据。

图19是概念性地示出了根据本公开的实施方案的设备的示例性部件的框图。

图20是概念性地示出了根据本公开的实施方案的服务器的示例性部件的框图。

图21示出了用于与系统一起使用的计算机网络的示例。

具体实施方式

自动语音辨识(ASR)是计算机科学、人工智能和语言学领域，涉及将与语音相关联的音频数据转换成代表所述语音的文本。类似地，自然语言理解(NLU)是计算机科学、人工智能和语言学领域，涉及使得计算机能够从包含自然语言的文本输入中获得意义。ASR和NLU经常一起用作语音处理系统的一部分。

ASR和NLU在计算上可能昂贵。也就是说，可能需要大量计算资源来在合理的时间内处理ASR和NLU。因此，在执行语音处理时可使用分布式计算环境。典型的分布式环境可涉及具有一个或多个麦克风的本地设备，所述麦克风被配置来从用户说话中捕获声音并将这些声音转换成音频信号。因此，包括音频的机械声波可被转换成音频信号/数据，所述音频信号/数据是表示音频的数据，例如脉冲编码调制(PCM)音频数据。音频信号/数据可随后发送到下游远程设备以便进行进一步处理，诸如将音频信号转换成最终命令。所述命令可随后由远程和本地设备的组合来执行，这取决于命令本身。

在某些情况下，说出语音命令的环境可能拥挤、喧吵或者否则以可能干扰语音处理的方式嘈杂。例如，用户可说出包含用于系统执行的命令的话语，但是捕获用户的话语的设备可能处于具有其他也正在讲话的个人的环境中。在这种情况下，系统可能难以识别对应于说出命令的用户(即，期望的说话者)的音频，使得可对所述期望的音频执行语音辨识，而不是对来自未向系统说出命令的其他人的语音执行语音辨识。

提供的系统和方法提高了系统在与用户进行的命令交互期间识别来自期望用户的语音的能力，其方式未显著影响等待时间但仍允许系统将期望语音与不期望语音进行区分。

图1示出了根据本公开实施方案的被配置来使用改进的期望说话者检测来执行语音辨识的系统100。尽管图1和下图/讨论以特定顺序示出了系统的操作，但所描述的步骤可以不同的顺序(以及移除或添加的某些步骤)执行而不背离本公开的意图。如图1所示，系统100可包括：在期望用户10本地的一个或多个设备110；以及一个或多个网络199和跨越网络199连接到设备110的一个或多个服务器120。服务器120(可为一个或多个不同的物理设备)可能够执行如本文所述的传统语音处理(诸如ASR、NLU、查询解析等)。单个服务器可能够执行所有语音处理，或者多个服务器120可组合来执行语音处理。此外，服务器120可被配置来执行某些命令，诸如回答用户10说出的查询。此外，某些语音检测或命令执行功能可由设备110执行。

如图1所示，设备110接收对应于来自期望用户10的说出话语的音频输入11。输入音频11也可包括来自也在设备110本地的其他人15的语音或其他噪声。设备110可将音频11转换成音频数据111并将音频数据发送到服务器120。服务器120可随后经由网络199接收(130)对应于说出命令的音频数据111。服务器120确定(132)对应于输入音频数据111的期望说话者的参考音频数据。参考音频数据可为输入音频数据111的第一部分，或者可为如下讨论的其他参考音频数据。服务器120对参考音频数据进行编码(134)以获得编码的参考音频数据。如果参考音频数据提前可用，则这可在接收音频数据111之前发生。如果从音频数据111获取参考音频数据，则可在接收音频数据111之后进行编码。可使用各种编码技术，包括以下参考图9讨论的那些技术。服务器120随后使用编码的参考音频数据来处理(136)另外的输入音频数据(诸如对应于另外的音频帧的音频特征向量)。音频帧对应于特定的一组音频数据，例如价值25ms的PCM或类似音频数据。例如，服务器120可使用分类器或其他训练的机器学习模型通过使用编码的参考音频数据来确定传入的音频特征向量是否表示来自与参考音频数据中的语音是同一说话者的语音。服务器随后将每个音频特征向量(和/或对应的音频帧)标记(138)为包括期望语音、不期望的语音或非语音。所述标记可包括为每个音频特征向量/输入音频帧分配特定音频帧对应于期望语音的第一概率、特定音频帧对应于不期望的语音的第二概率以及特定音频帧对应于非语音的第三概率。可针对每个音频特征向量重复所述过程。系统随后使用编码的参考音频数据和/或个别的帧标签/概率对输入音频帧(或对应的音频特征向量)执行(140)ASR处理。这可使得系统能够将其ASR处理集中在输入音频的对应于期望说话者10的部分上。系统可随后确定(142)ASR结果、对ASR结果执行NLU(144)并且执行(146)命令，所述命令应对应于期望用户10的说出话语。

在讨论图2的整体语音处理系统之后，以下讨论使用本改进执行语音辨识的另外细节。图2是传统上如何处理说出话语从而允许系统捕获和执行用户说出的命令(诸如可在唤醒词之后的说出命令)的概念图。所示出的各种部件可位于相同或不同的物理设备上。图2中所示出的各种部件之间的通信可直接发生或者跨越网络199发生。诸如设备110的麦克风的音频捕获部件捕获对应于说出话语的音频11。设备110随后使用唤醒词检测模块220来处理音频或对应于音频的音频数据，以确定是否在音频中检测到关键词(诸如唤醒词)。在检测到唤醒词之后，设备将对应于话语的音频数据111发送到包括ASR模块250的服务器120。可在传输之前从位于设备110上的声学前端(AFE)256输出音频数据111。或者音频数据111可呈不同的形式，以便由远程AFE256(诸如以ASR模块250定位的AFE256)进行处理。

唤醒词检测模块220结合设备的其他部件(例如麦克风(未示出))工作，以检测音频11中的关键词。例如，设备110可将音频11转换成音频数据，并且利用唤醒词检测模块220来处理音频数据以确定是否检测到语音，并且如果检测到语音，则确定包括语音的音频数据是否与对应于特定关键词的音频签名和/或模型匹配。

设备110可使用各种技术来确定音频数据是否包含语音。一些实施方案可应用由声音活动检测器222实现的声音活动检测(VAD)技术。此类技术可基于音频输入的各种定量方面来确定音频输入中是否存在语音，所述定量方面诸如音频输入的一个或多个帧之间的频谱斜率；一个或多个频谱带中的音频输入的能级；一个或多个频谱带中的音频输入的信噪比；或者其他定量方面。在其他实施方案中，设备110可实现有限分类器，所述有限分类器被配置来将语音与背景噪声区分开。所述分类器可通过诸如线性分类器、支持向量机和决策树等的技术来实现。在其他实施方案中，可应用隐马尔可夫模型(HMM)或高斯混合模型(GMM)技术来将音频输入与语音存储装置中的一个或多个声学模型进行比较，所述声学模型可包括对应于语音、噪声(诸如环境噪声或背景噪声)或静音的模型。可使用其他技术来确定语音是否存在于音频输入中。

一旦在由设备110接收的音频中检测到声音活动(或者与语音检测分开)，设备110就可使用唤醒词检测模块220来执行唤醒词检测以确定用户何时打算向设备110说出命令。所述过程也可称为关键词检测，其中唤醒词是关键词的特定示例。具体地，通常在不执行语言分析、文本分析或语义分析的情况下执行关键词检测。相反，分析传入音频(或音频数据)以确定音频的特定特征是否匹配预先配置的声学波形、音频签名或者其他数据，以确定传入音频是否“匹配”对应于关键词的存储的音频数据。

因此，唤醒词检测模块220可将音频数据与存储的模型或数据进行比较以检测唤醒词。一种用于唤醒词检测的方法应用通用大词汇量连续语音辨识(LVCSR)系统来对音频信号进行解码，其中在所得到的点阵或混淆网络中进行唤醒词搜索。LVCSR解码可能需要相对较高的计算资源。另一种用于唤醒词检出的方法分别为每个关键的唤醒词和非唤醒词语音信号构建隐马尔可夫模型(HMM)。非唤醒词语音包括其他说出词语、背景噪声等。可存在被构建来对非唤醒词语音特征进行建模的一个或多个HMM，称为填充模型。维特比(Viterbi)解码用于搜索解码图中的最佳路径，并且进一步处理解码输出以做出关于关键词存在的决定。通过并入有混合DNN-HMM解码框架，所述方法可扩展成包括鉴别信息。在另一个实施方案中，唤醒词检出系统在不涉及HMM的情况下可直接构建在深度神经网络(DNN)/递归神经网络(RNN)结构上。这种系统可通过在DNN的语境窗内堆叠帧或者使用RNN来估计具有语境信息的唤醒词的后验。接下来的后验阈值调整或平滑化被应用于决策制定。也可使用用于唤醒词检测的其他技术，诸如本领域已知的技术。

一旦检测到唤醒词，本地设备110就可“唤醒”并开始将对应于输入音频11的音频数据111发送到服务器120以便进行语音处理。对应于所述音频的音频数据可发送到服务器120以便路由到接收设备，或者可发送到服务器以便进行语音处理以解释所包含的语音(用于实现声音通信的目的和/或用于执行语音中的命令的目的)。音频数据111可包括对应于唤醒词的数据，或者可在发送之前由本地设备110移除音频数据的对应于唤醒词的部分。

在由服务器120接收时，系统100可使用各种技术来确定将要处理的语音的开始和结束。出于说明的目的，在系统100中，语音的起始点被描述为由设备110来确定，并且语音的终止点被描述为由服务器120来确定(在从设备110接收对应的音频数据之后)，但是不同的部件可在不背离本公开的情况下执行起始点确定/终止点确定。

为了确定音频命令的起始点或终止点，可使用许多技术。在一个实施方案中，系统可确定说出词语中的暂停，并且可将那些暂停解释为会话中的潜在中断。因此，虽然本文的讨论可涉及确定或声明终止点，但是系统所做的是基于本文描述的各种考虑因素来估计说出命令已结束(即，到达终止点)。会话中的中断可认为是话语之间的中断，并且因此被认为是话语的开始(起始点)或结束(终止点)。也可使用语音/声音特征来检测话语的开始/结束。其他技术也可用于确定话语的开始(也称为起始点确定)或话语的结束(终止点确定)。起始点确定/终止点确定例如可基于静音/非语音音频帧的数量，例如连续静音/非语音帧的数量。例如，一些系统可采用基于能量或基于声学模型的VAD技术。此类技术可基于音频输入的各种定量方面来确定音频输入中是否存在语音，所述定量方面诸如音频输入的一个或多个帧之间的频谱斜率；一个或多个频谱带中的音频输入的能级(诸如音量、强度、幅度等)；过零率；一个或多个频谱带中的音频输入的信噪比；或者其他定量方面。可将这些因素与一个或多个阈值进行比较，以确定是否已发生有资格作为起始点/终止点的语音中断。此类阈值可根据用户输入来设置，或者可由设备来设置。在一些实施方案中，起始点确定/终止点确定可进一步被配置来确定音频输入在至少阈值持续时间内具有满足阈值的能级。在此类实施方案中，可忽略相对短的持续时间的高能量音频输入，所述高能量音频输入可对应于相对不太可能包含语音的突然噪声。起始点确定/终止点确定可将能级与能级阈值(以及可选地与阈值持续时间)进行比较，以确定是否满足能级阈值。

在某些实施方案中，可应用HMM或GMM技术来将音频输入与语音存储装置中的一个或多个声学模型进行比较，所述声学模型可包括对应于语音、噪声(诸如环境噪声或背景噪声)或静音/非语音的模型。非语音帧可能不一定表示完全静音(例如，某些噪声可能仍然存在于音频中)，但是这些帧可能缺乏语音典型的声学特征，并且因此可认为是非语音帧。可使用其他技术来确定语音是否在输入音频数据中开始/结束。

足以将暂停限定为起始点/终止点的暂停的长度可取决于说话者的身份。如果系统被配置来执行说话者识别(本领域中已知的技术)，则系统可识别说话者并相应地调整足以确定终止点的暂停长度。所述系统还可被配置来学习不同说话者的暂停倾向并且相应地调整其终止点确定处理。例如，在系统训练/登记期间，可记录话语之间或主题之间的说话者的暂停倾向并且用于训练系统的终止点确定处理。这种倾向也可在运行时记录并且用于进一步调整系统。也可针对不同的口语来配置不同的暂停长度，因为暂停长度可根据所说的语言而变化(例如，会话英语中的暂停可与会话西班牙语中的暂停不同)。话语的开始/结束也可由语音的各种特征来确定，包括语音的音调、韵律、音量、节奏、压力、语调、倒谱等，其可由设备的音频和/或语音处理部件来确定。例如，声音的上升或下降音调可指示新的话语、命令的结束等。系统可训练指示话语何时结束以及因此何时应由系统标记语音结束的声音特征(其也可或可不与说话者身份关联)。这些技术可用于修改/定制以上讨论的语言模型，使得语言模型中的预期暂停可基于说话者的身份。

通过使用上述技术的变型，起始点确定/终止点确定可确定置信水平，所述置信水平的值对应于所讨论的点(即，发生起始点确定/终止点确定时音频数据中的点)的位置表示说话/命令的开始/结束的可能性。置信度得分可取决于诸如用于确定标记、暂停的长度，说话者身份等的技术的因素。例如，如果置信水平满足置信水平阈值，则可确定检测到的静音是足够的(例如，语音中的暂停的长度超过阈值)、所述语音存在于音频输入中并且可标记话语开始/结束。然而，如果置信水平不满足置信水平，则系统可确定音频输入中不存在语音。

一旦检测到唤醒词/起始点，设备110就可开始将音频数据发送到服务器120。服务器120将继续对音频数据进行语音处理，直到检测到终止点为止。因此，当对话语执行语音处理时，系统100考虑从起始点到终止点的音频数据。

在某些配置中，用于终止点确定的过程类似于如上所述的用于起始点确定的过程。然而，终止点确定与起始点确定之间的一个区别在于，在终止点确定过程中，系统对终止点确定的话语的内容有一定的了解。因此，虽然在不存在先前语音时有时可能发生起始点确定，但是当存在先前语音(即其终止点被检测到的话语的语音)时，发生终止点确定。

此外，某些VAD或仅依赖于暂停长度的其他技术的一个缺点在于它们难以区分中间话语暂停和真正指示话语结束的暂停。此外，某些系统在噪声环境中可能遇到困难，其中将语音与噪声分离会影响适当的暂停检测。

一旦识别出对应于语音的音频数据，ASR模块250就可将音频数据111转换成文本。ASR将音频数据转录成文本数据，所述文本数据表示包含在音频数据中的语音的字词。文本数据可随后由其他部件出于诸如执行系统命令、输入数据等的各种目的来使用。音频数据中的说出话语被输入到被配置来执行ASR的处理器中，所述ASR随后基于话语与存储在ASR模型存储装置252c中的预先建立的语言模型254之间的相似性来解释话语。例如，ASR过程可将输入音频数据与声音模型(例如，子词单元或音素)和声音序列进行比较，以识别与音频数据的话语中说出的声音的序列匹配的字词。

可解释说出话语的不同方式(即，不同的假设)可各自被分配概率或置信度得分，所述概率或置信度得分表示特定组字词与话语中说出的那些字词匹配的可能性。置信度得分可基于多种因素，包括例如话语中的声音与语言声音的模型(例如，存储在ASR模型存储装置252中的声学模型253)的相似性，以及与声音匹配的特定字词(例如，使用语言或语法模型)将包含在特定位置处的句子中的可能性。因此，说出话语的每个潜在的文本解释(假设)与置信度得分相关联。基于所考虑的因素和所分配的置信度得分，ASR过程250输出在音频数据中辨识的最有可能的文本。ASR过程还可以点阵或N最佳列表的形式输出多个假设，其中每个假设对应于置信度得分或其他得分(诸如概率得分等)。

执行ASR处理的一个或多个设备可包括声学前端(AFE)256和语音辨识引擎258。声学前端(AFE)256将来自麦克风的音频数据转换成数据以供语音辨识引擎来处理。语音辨识引擎258将语音辨识数据与声学模型253、语言模型254以及其他数据模型和信息进行比较，以便辨识在音频数据中传达的语音。AFE可减少音频数据中的噪声并且将数字化的音频数据分成帧，所述帧表示AFE确定表示音频数据的质量的多个值(称为特征)以及表示帧内的音频数据的特征/质量的一组这些值(称为音频特征向量)的时间间隔。在一种配置中，每个音频帧包括25ms的音频，并且帧以10ms的间隔开始，从而产生滑动窗，其中相邻的音频帧包括15ms的重叠音频。如本领域中已知的，可确定特定帧的许多不同特征，并且每个特征表示可用于ASR处理的一些音频质量。AFE可使用多种方法来处理音频数据，诸如梅尔倒谱系数(MFCC)、感知线性预测(PLP)技术、神经网络特征向量技术、线性鉴别分析、半绑定协方差矩阵或者本领域技术人员已知的其他方法。因此，AFE可创建包括表示特定音频帧的各种数据的音频特征向量。

语音辨识引擎258可参考存储在语音/模型存储装置(252)中的信息来处理来自AFE 256的输出。替代地，除了内部AFE之外，可由从另一个源执行ASR处理的设备来接收后前端处理数据(诸如音频特征向量)。例如，设备110可(例如，使用设备上AFE 256)将音频数据处理成音频特征向量，并且跨越网络199将所述信息发送到服务器以便进行ASR处理。音频特征向量可到达编码的服务器，在这种情况下，它们可在由执行语音辨识引擎258的处理器进行处理之前被解码。

语音辨识引擎258试图将所接收的音频特征向量与存储的声学模型253和语言模型254中已知的语言音素和字词进行匹配。语音辨识引擎258基于声学信息和语言信息来计算音频特征向量的辨识得分。声学信息用于计算声学得分，所述声学得分表示由一组音频特征向量表示的预期声音与语言音素匹配的可能性。语言信息用于通过考虑在彼此的语境中使用哪些声音和/或字词来调整声学得分，从而提高ASR过程将输出语法上有意义的语音结果的可能性。所使用的特定模型可为通用模型，或者可为对应于诸如音乐、银行等的特定域的模型。

语音辨识引擎258可使用多种技术来将音频特征向量与音素匹配，例如使用隐马尔可夫模型(HMM)来确定音频特征向量可与音素匹配的概率。所接收的声音可表示为HMM的状态之间的路径，并且多个路径可表示针对同一声音的多个可能的文本匹配。代替(或除了)音素，可将多元音素用作声学单元。多元音素是音素的声学实现。每个音素可具有许多不同的声音，这取决于其语境(例如，周围音素)。虽然英语可具有大约50个音素，但却具有几千个多元音素。在ASR处理中使用多元音素可允许改进的ASR结果。

在ASR处理之后，ASR结果可由语音辨识引擎258发送到其他处理部件，所述处理部件可在执行ASR和/或跨越网络199分布的设备本地。例如，ASR产生语音的单个文本表示的形式，包括多个假设和相应得分、点阵等的N个最佳列表可发送到服务器(诸如服务器120)，以用于自然语言理解(NLU)处理，诸如由设备110、由服务器120或者由另一设备(诸如运行特定应用的服务器，如搜索引擎等)将文本转换成用于执行的命令。

执行NLU处理260的设备(例如，服务器120)可包括各种部件，包括可能专用的处理器、存储器、存储装置等。被配置用于NLU处理的设备可包括命名实体辨识(NER)模块252和意图分类(IC)模块264、结果排名和分配模块266以及NLU存储装置273。NLU过程还可利用存储在实体库存储装置282中的地名辞典信息(284a-284n)。地名辞典信息可用于实体解析，例如将ASR结果与不同实体(诸如歌曲名称、联系人姓名等)匹配。地名辞典可链接到用户(例如，特定地名辞典可与特定用户的音乐收藏相关联)、可链接到某些域(诸如购物)或者可以各种其他方式来组织。

NLU过程采用文本输入(诸如基于话语11从ASR 250处理)并且尝试对文本进行语义解释。也就是说，NLU过程基于个别字词来确定文本背后的含义，并且随后实现所述含义。NLU处理260解释文本串以从用户导出意图或期望的动作以及文本中允许设备(例如，设备110)完成所述动作的相关条信息。例如，如果使用ASR250处理说出话语并输出文本“呼叫妈妈”，则NLU过程可确定用户打算在他/她的设备中激活电话并且发起与和所述实体“妈妈”匹配的联系人的呼叫。

NLU可处理与同一话语有关的若干文本输入。例如，如果ASR250输出N个文本段(作为N个最佳列表的一部分)，则NLU可处理所有N个输出以获得NLU结果。

NLU过程可被配置来解析和标记以将文本注释为NLU处理的一部分。例如，对于文本“呼叫妈妈”，“呼叫”可被标记为命令(用于执行电话呼叫)，并且“妈妈”可被标记为特定实体和命令的目标(并且对应于存储在联系人列表中的“妈妈”的所述实体的电话号码可包括在注释结果中)。

为了正确地执行语音输入的NLU处理，NLU过程260可被配置来确定话语的“域”，以便确定和缩小由终止点设备(例如，服务器120或设备110)提供的哪些服务可为相关的。例如，终止点设备可提供与和电话服务、联系人列表服务、日历/日程安排服务、音乐播放器服务等的交互有关的服务。单个文本查询中的字词可暗示多于一种服务，并且一些服务可为功能链接的(例如，电话服务和日历服务都可利用来自联系人列表的数据)。

名称实体辨识模块262接收呈ASR结果形式的查询并且试图识别可用于解释含义的相关语法和词语信息。为此，名称实体辨识模块262可通过识别可能与所接收的查询有关的潜在域而开始。NLU存储装置273可包括识别与特定设备相关联的域的设备(274a-274n)的数据库。例如，设备110可与用于音乐、电话、日历、联系人列表和设备特定通信但不是视频的域相关联。此外，实体库可包括关于特定设备上的特定服务的数据库条目，所述条目由设备ID、用户ID或家庭ID或者一些其他指示符来进行索引。

域可表示具有共同主题的一组离散活动，诸如“购物”、“音乐”、“日历”等。因此，每个域可与特定语言模型和/或语法数据库(276a-276n)、一组特定的意图/动作(278a-278n)以及特定的个性化辞典(286)相关联。每个地名辞典(284a-284n)可包括与特定用户和/或设备相关联的域索引词语信息。例如，地名辞典A(284a)包括域索引词语信息286aa至286an。例如，用户的音乐域词语信息可能包括专辑标题、艺术家姓名和歌曲名称，而用户的联系人列表词语信息可能包括联系人的姓名。由于每个用户的音乐收藏和联系人列表可能不同，因此这种个性化信息改进了实体解析。

通过应用适用于每个识别域的规则、模型和信息来处理查询。例如，如果查询可能涉及通信和音乐两者，则查询将使用语法模型和用于通信的词语信息来进行NLU处理，并且将使用语法模型和音乐的词语信息来进行处理。对基于由每组模型产生的查询的响应进行评分(以下进一步讨论)，其中通常选择来自所有应用域的总体最高排名的结果作为正确结果。

意图分类(IC)模块264解析查询以确定每个识别域的一个或多个意图，其中意图对应于响应于查询将要执行的动作。每个域与链接到意图的字词的数据库(278a-278n)相关联。例如，音乐意图数据库可将诸如“安静”、“音量关闭”和“静音”的字词和短语链接到“静音”意图。IC模块264通过将查询中的字词与意图数据库278中的字词和短语进行比较来识别每个识别域的潜在意图。

为了生成特定的解释响应，NER262应用与相应域相关联的语法模型和词语信息。每个语法模型276包括在关于特定域的语音中常见的实体(即，名词)的名称(即，通用术语)，而来自地名辞典284的词语信息286针对用户和/或设备而个性化。例如，与购物域相关联的语法模型可包括当人们讨论购物时常用的字词的数据库。

由IC模块264识别的意图被链接到域特定的语法框架(包括在276中)，其中“时隙”或“字段”将被填充。例如，如果“播放音乐”是已识别的意图，则一个或多个语法(276)框架可对应于句子结构，诸如“播放{艺术家姓名}”、“播放{专辑名称}”、“播放{歌曲名称}、“通过{艺术家姓名}播放{歌曲名称}”等。但是，为了使识别更加灵活，这些框架通常将不会被构造成句子，而是基于与语法标签相关联的时隙。

例如，在辨识命名实体之前，NER模块260可解析查询以基于语法规则和模型来将字词识别为主语、宾语、动词、介词等。所识别的动词可由IC模块264用来识别意图，随后由NER模块262用来识别框架。用于“播放”意图的框架可指定适用于播放所识别的“对象”的时隙/字段的列表以及任何对象修饰符(例如，介词短语)，诸如{艺术家姓名}、{专辑名称}、{歌曲名称}等。NER模块260随后搜索域特定且个性化辞典中的对应字段，从而试图将查询中的标记为语法对象或对象修饰符的字词和短语与数据库中标识的那些字词和短语进行匹配。

所述过程包括语义标记，所述语义标记是根据字词的类型/语义含义来标记字词或字词组合。可使用启发式语法规则来执行解析，或者可使用诸如隐马尔可夫模型、最大熵模型、对数线性模型、条件随机域(CRF)等的技术来构造NER模型。

例如，“播放滚石乐队的妈妈的小助手”的查询可能被解析并将标记为{动词}：“播放”，{对象}：“妈妈的小助手”，{对象介词}：“由”，和{对象修饰符}：“滚石乐队”。此时，在所述过程中，“播放”被识别为基于与音乐域相关联的字词数据库的动词，IC模块264将确定所述动词对应于“播放音乐”意图。未作出关于“妈妈的小助手”和“滚石乐队”的含义的确定，但是基于语法规则和模型，确定这些短语与查询的语法对象有关。

随后使用链接到意图的框架来确定应搜索哪些数据库字段来确定这些短语的含义，诸如搜索与框架时隙相似的用户的公报。因此，用于“播放音乐意图”的框架可能指示试图基于{艺术家姓名}、{专辑名称}和{歌曲名称}来解析所识别的对象，并且用于同一意图的另一框架可能指示试图基于{艺术家姓名}来解析对象修饰符，并且基于链接到识别的{艺术家姓名}的{专辑名称}和{歌曲名称}来解析对象。如果对地名辞典的搜索没有使用地名辞典信息来解析时隙/字段，则NER模块262可搜索与(NLU存储装置273中的)域相关联的通用字词的数据库。因此，例如，如果查询是“播放滚石乐队的歌曲”，则在未能通过“滚石乐队”来确定名为“歌曲”的专辑名称或歌曲名称之后，NER 262可在域词汇中搜索字词“歌曲”。在替代方案中，可在地名辞典信息之前检查通用字词，或者可尝试两者，从而可能产生两种不同的结果。

由NER模块262使用的比较过程可对数据库条目如何密切地与标记的查询字词或短语进行比较、所述查询的语法结构如何密切地对应于所应用的语法框架以及是否基于数据库指示条目与标识的信息之间的关系以填充框架的其他时隙来进行分类(即，评分)。

NER模块262还可使用语境操作规则来填充时隙。例如，如果用户先前已请求暂停特定歌曲并且此后请求语音控制设备“请取消暂停我的音乐”，则NER模块262可应用基于推断的规则来填充与用户当前希望播放的歌曲名称(即在用户请求暂停音乐时所播放的歌曲)相关联的时隙。

可标记NLU处理的结果以赋予查询含义。因此，例如，“播放滚石乐队的妈妈的小助手”可能产生以下结果：{域}音乐、{意图}播放音乐、{艺术家姓名}“滚石乐队”、{媒体类型}歌曲、以及{歌曲名称}“妈妈的小助手”。作为另一示例，“播放滚石乐队的歌曲”可能产生：{域}音乐、{意图}播放音乐、{艺术家姓名}“滚石乐队”以及{媒体类型}歌曲。

随后可将来自NLU处理的输出(其可包括标记的文本、命令等)发送到命令处理器290，所述命令处理器可作为系统100的一部分位于同一或单独的服务器120上。可基于NLU输出来确定目的地命令处理器290。例如，如果NLU输出包括播放音乐的命令，则目的地命令处理器290可为被配置来执行音乐播放命令的音乐播放应用程序，诸如位于设备110上或音乐播放设备中的应用程序。如果NLU输出包括搜索请求，则目的地命令处理器290可包括被配置来执行搜索命令的搜索引擎处理器，诸如位于搜索服务器上的搜索引擎处理器。

神经网络可用于执行ASR处理，包括声学模型处理和语言模型处理。用于ASR的示例性神经网络在图3中示出。神经网络可由输入层302、中间层304和输出层306构成。中间层也可称为隐藏层。隐藏层的每个节点连接到输入层中的每个节点和输出层中的每个节点。尽管在图3中示出具有单个隐藏层，神经网络可包括多个中间层。在这种情况下，隐藏层中的每个节点将连接到下一个较高层和下一个较低层中的每个节点。输入层的每个节点表示神经网络的潜在输入，并且输出层的每个节点表示神经网络的潜在输出。从下一层中的一个节点到另一个节点的每个连接可与权重或得分相关联。神经网络可输出单个输出或者一组加权的可能输出。

在一个方面，神经网络可用循环连接构造，使得网络的隐藏层的输出再次针对下一组输入反馈回隐藏层中。这种神经网络在图4中示出。输入层402的每个节点连接到隐藏层404的每个节点。隐藏层404的每个节点连接到输出层406的每个节点。如图所示，隐藏层404的输出被反馈回隐藏层中以便处理下一组输入。并入有循环连接的神经网络可称为循环神经网络(RNN)。

在声学模型使用神经网络的情况下，神经网络输入层的每个节点可表示声学特征的音频特征向量的声学特征，诸如可在第一遍执行语音辨识之后输出的那些声学特征，并且输出层的每个节点表示对应于子字单元(诸如音素、三音素等)的得分和/或可对应于由音频特征向量表示的声音的相关联状态。对于神经网络的给定输入，它输出许多潜在的输出，每个输出具有指定得分，所述得分表示在给定特定输入的情况下特定输出是正确输出的概率。随后可将声学模型神经网络的最高得分输出馈送到HMM中，所述HMM可在将结果传递到语言模型之前确定声音之间的转换。

在语言模型使用神经网络的情况下，神经网络输入层的每个节点可表示先前的字词，并且输出层的每个节点可表示由训练的神经网络语言模型确定的潜在的下一个字词。由于语言模型可被配置成递归神经网络，所述递归神经网络并入有由诸如图4所示的网络的神经网络处理的一些历史字词，所以潜在的下一个字词的预测可基于话语中的先前字词而不仅仅基于最近的字词。语言模型神经网络还可输出下一个字词的加权预测。

神经网络的处理由每个节点输入上的学习权重和网络的结构来确定。在给定特定输入的情况下，神经网络一次确定一层输出，直到计算整个网络的输出层为止。

在训练期间，神经网络最初可学习连接权重，其中给定输入与已知输出相关联。在一组训练数据中，各种训练示例被馈送到网络中。每个示例通常将从输入到输出的正确连接的权重设置为1，并且赋予所有连接权重0。当训练数据中的示例由神经网络处理时，可将输入发送到网络并且与相关联的输出进行比较，以确定网络性能如何与目标性能进行比较。使用诸如反向传播的训练技术，可更新神经网络的权重以减少在处理训练数据时由神经网络产生的错误。在某些情况下，在处理整个点阵时，神经网络可用整个点阵来训练以改进语音辨识。

如上所述，在语音辨识期间，ASR模块250/语音辨识引擎258可利用声学模型253来确定与传入音频数据特征向量匹配的可能音素或其他语音单元。可能的音素和相关的多种状态/一种状态转换可形成为遍历潜在音素的点阵的路径。每个路径表示可能与由音频特征向量表示的音频数据匹配的音素的进展。一个路径可与一个或多个其他路径重叠，这取决于针对每个音素计算的辨识得分。某些概率与从状态到状态的每次转变相关联。还可为每个路径计算累积路径得分。基于音频特征向量确定得分的所述过程可称为声学建模。当将得分作为ASR处理的一部分而组合时，可将得分相乘(或以其他方式组合)以达到期望的组合得分，或者可将概率转换成对数域并且添加来辅助处理。

语音辨识引擎258还可基于语言模型或语法来计算路径分支的得分。语言建模涉及确定哪些字词可能一起使用以形成连贯字词和句子的得分。语言模型的应用可提高ASR模块250正确地解释包含在音频数据中的语音的可能性。例如，对于像“你好”这样的输入音频声音，可通过语言模型调整返回“HELO”、“HALO”和“YELO”的潜在音素路径的声学建模处理，以基于说出话语内的每个字词的语言语境来调整“HELO”(解释为字词“你好”)、“HALO”(解释为字词“光环”)以及“YELO”(解释为字词“黄色”)的辨识得分。

图5示出了声学建模与语言建模之间的关系。如图所示，包括在路径502中的每个处理音素与声学模型得分AM₁至AM₇相关联。随后应用语言模型以将路径504中的每个字词与语言模型得分LM₁或LM₂相关联。

作为语言建模的一部分(或者在ASR处理的其他阶段中)，由于根据语言模型的低辨识得分或出于其他原因，语音辨识引擎258可为了节省计算资源而删除和丢弃低辨识得分状态或者几乎不可能对应于说出话语的路径。此类删除的路径被认为是不活动的。此外，在ASR处理期间，语音辨识引擎258可迭代地对先前处理的话语部分执行附加处理经过。后来的经过可并入有早期经过的结果，以完善和改进结果。当前正在处理并且被视为系统的潜在输出的路径被认为是主动假设。

语音辨识引擎258可将潜在路径组合成表示语音辨识结果的点阵。样本点阵如图6所示。点阵602示出了语音辨识结果的多个潜在路径。大节点之间的路径表示潜在的字词(例如“你好”、“黄色”等)，并且较小节点之间的路径表示潜在音素(例如“H”、“E”、“L”、“O”以及“Y”、“E”、“L”、“O”)。出于说明的目的，仅针对点阵的前两个字词示出个别音素。节点604与节点606之间的两条路径表示两种潜在的字词选择，“你好怎么样”或者“黄色现在”。节点之间的每个路径点(诸如潜在字词)与辨识得分相关联。遍历点阵的每条路径也可被分配辨识得分。辨识得分是声学模型得分、语言模型得分和/或其他因素的组合的最高辨识得分路径可由语音辨识引擎258作为相关联的音频特征向量的ASR结果而返回。

不同的弧也可与同一时间数据相关联。例如，弧“你好”可与第一组音频帧的时间数据相关联，所述第一组音频帧由语音辨识引擎258处理以遍历对应于“你好”的弧。在所述弧对应于“你好”时，在相同的第一组音频帧被处理以遍历弧“黄色”时，同一时间数据也可与弧“黄色”相关联，也就是说，语音辨识引擎258确定可对应于所述第一组音频的两个潜在字词。出于点阵602的矩阵/向量表示的目的，时间数据可与那些弧相关联。

图7中示出了沿着点阵602的不同的潜在路径。如图7所示，路径702产生“你好怎么样”，路径704产生“黄色现在是”，并且路径706产生“黄色哇我们”。如可看出的，即使在较小的示例性点阵602中，许多此类路径也是可能的。图8中示出了这种路径802-810的示例。在执行语音处理时，语音辨识过程考虑成千上万条不同的路径(即，假设)并不少见。每个假设可与得分相关联，将其相对于其他假设进行排名。得分可基于输入音频数据、来自声学模型的处理、语言模型的训练等。如上所述，ASR部件可输出N个最佳列表，诸如图8所示的潜在结果的列表，可输出单个最高得分答案(例如，802)，或者可输出整个点阵。

编码是用于将特征序列投影到向量空间中的通用技术。编码的一个目标在于将数据点投影到多维向量空间中，使得可对向量组合执行各种操作以确定它们(或它们包含的数据)彼此之间的关系。例如，如果使用诸如“今天的天气怎样？”和“今天会下雨吗？”的两个句子被投影到向量空间中(其中每个向量都填充有表示句子使用方式和时间的数据点)，则这两个句子将可能最终在向量投影空间中彼此接近，从而表示两个句子的类似使用。将某些特征编码到向量空间中以执行各种操作可能是有价值的。

在数学符号中，给定一系列特征数据表示x₁，...x_n，...x_N，其中x_n是D维向量(其中D表示每个特征数据表示中的特定值的可配置数量)，编码器E(x₁，...x_N)＝y将特征序列投影到y，其中y是F维向量。F是向量的固定长度，并且可根据编码向量的用户和其他系统配置来进行配置。例如，F可为在100与1000之间用于语音处理的值，但是可使用任何大小。任何特定编码器950将被配置来输出相同大小的向量，从而确保来自任何特定编码器950的输出编码向量大小的连续性(尽管不同的编码器可输出不同固定大小的向量)。值y可称为序列x₁，…x_N的嵌入。x_n和y的长度是固定且先验已知的，但是特征序列x₁，...x_N的N的长度不一定是先验已知的。编码器E可实现为递归神经网络(RNN)，例如作为长短期记忆RNN(LSTM-RNN)或者作为门控递归单元RNN(GRU-RNN)。RNN是一种工具，由此节点网络可用数字表示，并且其中每个节点表示包括关于网络的先前部分的信息。例如，RNN执行特征向量序列的线性变换，其将序列转换成固定大小的向量。所得的向量在简化向量空间中维持序列的特征，否则可为任意长。在消耗特征数据值的序列之后的RNN的输出是编码器输出。RNN编码器有多种方式来消耗编码器输出，包括但不限于：

线性，一个方向(向前或向后)，

双线性，基本上是前向和后向嵌入的串联，或者

树、基于序列的解析树，

此外，可使用注意模型，所示注意模型是学习将注意力“吸引”到输入的某些部分的另一个RNN或DNN。注意模型可与上述消耗输入的方法结合使用。

图9示出了RNN编码器950的操作。从特征值x₁902开始、继续通过特征值x_n904并且以特征值x_N906结束的输入特征值序列被输入到RNN编码器950中。RNN编码器950可如上所述地处理输入特征值。RNN编码器950输出编码特征向量y910，其是长度为F的固定长度特征向量。如下所示，诸如950的编码器可与语音处理一起使用。

对于ASR处理，基本输入通常是呈对应于音频帧的音频特征向量形式的音频数据。如上所述，通常确定声学特征(诸如对数滤波器组能量(LFBE)特征、MFCC特征或其他特征)并且用于为每个音频帧创建音频特征向量。可使用快速傅里叶变换(FFT)的幅值和(相位)频谱或者将音频信号投影到数据序列中的其他技术来将音频数据馈送到RNN中。如果存在声学特征的对准，则可将其添加为附加输入。可使用维特比对准来将对准信息提供为独热向量，或者使用鲍姆-韦尔奇(Baum-Welch)对准来将对准信息提供为所有可能状态的概率分布。可在多元音素、音素的级别或者适用于所述应用的任何其他级别提供对准。

对于NLU处理，基本输入通常是呈字词序列形式的文本。字词序列通常表示为一系列独热向量(即，Z大小的向量表示辞典中的Z个可用字词，其中一个位较高以表示序列中的特定字词)。独热向量经常用来自其他模型的信息来增强，这些信息已经过大量通用数据的训练，包括但不限于表示个别字词如何在文本语料库中使用的字词嵌入、来自标记器的标签(例如，词类(POS)或命名实体标记器)、来自解析器的标签(例如，语义或依赖关系解析器)等等。

例如，为了使用RNN对字词序列进行编码，RNN编码器逐一呈现序列中的每个字词。RNN处理第一个字词，随后第二个字词，依此类推。RNN具有保持其状态的机制，所述机制具有来自所有先前状态的所有信息。因此，对于每个字词，RNN处理所述字词及其内部状态，从而以循环方式来操作。在最后一个字词之后，最终状态是对应于字词序列的整个向量的表示。现在，字词序列在向量空间中表示为固定大小向量(即，编码器输出)并且相应地来操作。

可使用已知技术来训练编码器RNN，例如利用反向传播通过时间(BTT)算法的随机梯度下降(SGD)方法，以通过序列传播误差信号从而学习编码器网络的参数。

分类器是已知的基于机器学习的工具，其用于将输入分类成某些配置的类。可以使用以上讨论的RNN编码向量的方式来训练分类器。因此，可训练分类器以将一组输入特征x₁，...x_N分类成固定数量的类1...C(其中C可为二，并且分类器可被配置来简单地将输入特征向量分类为一个类别或另一个类别)。为了将分类器配置来对RNN编码数据进行操作，可使用具有柔性最大值传输函数(softmax)层和RNN编码器的DNN。依据输出尺寸，可使用本领域已知的分层柔性最大值传输函数层。DNN将RNN编码器输出作为输入，并且在可选择得分最高的类的所有类上产生概率分布。在数学符号中，假若给出序列x₁，...x_N和编码器E，分类器H可表示为：

H_E(x₁，...x_N)：＝argmaxp(c|E(x₁，...x_N)) (1)

其中p(c|y)实现为DNN。

可使用利用交叉熵目标函数和反向传播通过时间(BTT)算法的SGD方法来联合训练编码器RNN E和分类器H。可将适用于学习神经网络的任何其他机器学习技术代替SGE应用于BTT。可对特征数据的样本序列训练编码器E。可对示例性特征向量输出连同编码器E训练分类器H。已知的机器学习技术可用于训练H和E，例如使用梯度反馈技术来更新H和E中的参数/权重。

上述编码技术可用于改进许多语音处理任务。具体地，它可用于对语音的参考部分进行编码，随后可将其用于某些下游任务，例如语音检测和语音辨识。语音检测是确定输入音频是否包含语音还是非语音(即，静音、噪声等)的任务。此外，语音检测还可包括确定检测到的语音是否是如来自特定人的语音而不是来自任何其他人的语音(或噪声)中的“期望”语音的任务。语音辨识是确定在输入音频中检测到哪些字词的任务。语音辨识还可包括确定输入音频中的哪些字词对应于“期望”说话者而不是由不期望的说话者说出的字词的任务，诸如来自房间中的其他个人的语音或者否则可由语音处理部件检测的语音。

为了协助语音检测和语音辨识，可使用参考音频数据来帮助系统确定哪个输入语音对应于期望的说话者。这种参考音频数据(也称为锚点音频数据)可对应于期望说话者的语音(即，锚点音频片段)。通过使用上述编码器技术，系统可计算固定大小的向量空间中的参考音频数据的嵌入，这有助于语音检测器或语音辨识器将期望的语音与不期望的语音和/或噪声区分开。

例如，在某种情况下，系统可能希望(或被配置来)仅检测/辨识来自说话者S的语音。因此，假若给出来自说话者S的参考语音样本，可获得相同语音的音频帧x′1...x′_m。这些帧可称为参考音频数据。

可以多种方式获得参考语音样本。在第一示例中，对于用户说出与系统的交互的特定传入话语，话语可以唤醒词开始。例如，“Alexa，播放音乐”可为让系统播放音乐的话语，其中“Alexa”是唤醒词。在这种情况下，系统可能想要隔离唤醒词的说话者的语音，因为所述个人是可能命令系统的个人，并且因此成为用于语音检测/ASR的目的的期望说话者。因此，对于唤醒词触发的交互，系统可确定唤醒词的开始和结束时间，并且因此可隔离对应于说出唤醒词音频的音频数据。所述隔离的音频数据可用作参考音频数据。

例如，如图10所示，输入音频数据111可由唤醒词确认模块1020来处理，以使用诸如上述的唤醒词/关键词检测技术来识别输入音频数据111中的唤醒词。唤醒词确认模块1020可随后输出在输入音频数据111中检测到或未检测到唤醒词的确认1030。如果检测到唤醒词，则可将输入音频数据传递到下游部件(诸如ASR模块250)以便进一步处理。另外，唤醒词确认模块1020可确定对应于输入音频数据111中的唤醒词开始时间1032和唤醒词结束时间1034的时间戳。时间戳1032和1034可为开始/结束帧或者对应于唤醒词的音频特征向量的指示符，或者唤醒词/的开始/结束时间的其他指示符。因此，如图11所示，时间戳1032和1034因此可用于在输入音频数据111中划分唤醒词部分。

音频数据的唤醒词部分可包括音频数据的第一部分。如图11所示，开始时间戳1032可指示唤醒词的开始，并且结束时间戳1034可指示唤醒词的结束。因此，音频数据1102的第一部分可在开始位置处开始并且在结束位置处结束，并且可包括其间的多个第一音频特征向量。(注意，输入音频数据111可包括由于缓冲或其他处理配置而在唤醒词之前产生的一些音频数据。这种音频数据可被处理，或者可作为语音处理的一部分而忽略。)因此，音频数据111可被划分成至少两个部分，即，包括唤醒词的第一部分1102，以及包括另外的音频数据的第二部分1104。输入音频数据111的非唤醒词部分有时称为有效载荷，其可为下游语音处理的焦点。有效载荷可包括第二部分、第三部分、第四部分等。个别部分可包括音频特征向量。可选择构成第一部分1102的音频特征向量(即，对应于唤醒词的特征向量)作为参考音频数据。

在第二示例中，唤醒词可不一定开始诸如在非唤醒词系统中或者在话语中的特定的传入音频数据信号，所述话语是与不需要唤醒词的系统的正在进行的会话的一部分。在这种情况下，可在辨识输入音频中的字词时进行第一遍ASR过程。系统可确定所述输入音频的某个第一部分对应于期望的说话者，诸如第一字词、前两个字词、前三个字词等。输入音频的早期部分可被确定为参考音频，并且对应于早期部分的帧可为参考音频数据。随后可如下详述地使用所述参考音频数据来进行进一步的处理，诸如语音检测、第二遍ASR等。因此，在图11的图示中，即使音频数据1102的第一部分不包括唤醒词，它仍可用作参考音频数据。

在第三示例中，参考音频数据可从期望的说话者的先前记录中获取，例如在语音训练会话期间进行的记录。例如，如图12所示，在配置会话期间，系统服务器120可将提示音频数据1202发送到本地设备110。提示音频数据可包括例如对应于向用户10提示“请说出样本句子”的音频数据。本地设备110可输出对应于所述提示的音频。用户10可随后说出诸如“你好，我的名字是Jo”的样本句子。对应于样本句子的音频11可由设备110捕获并转换成本地设备110发送给服务器120的音频数据1204。随后可将音频数据1204发送到用户配置文件存储装置1802以存储在与用户10相关联的用户配置文件中。对于来自与用户10相关联的设备(诸如设备110或者可能是电话、平板电脑或与用户10的用户配置文件相关联的其他设备)的另外命令，音频数据1204可用作参考音频数据。

在第四示例中，系统可假设说出对系统的先前句子(例如，由特定输入设备接收的先前话语)的说话者是期望说话者。因此，来自先前句子的输入音频数据的一部分可用作参考音频数据。例如，如图13所示，在运行时，设备110可捕获对应于第一话语的音频，诸如“Alexa，设置定时器”。设备110可将对应于第一话语的第一音频数据1302发送到服务器120以便进行语音处理。服务器120可对第一音频数据1302执行语音处理，并且可确定执行命令所需的另外的信息。系统可随后确定并发送由设备110输出的提示音频数据1304，诸如“持续多长时间？”。设备110可随后捕获对应于第二话语的第二音频，诸如“五分钟”。设备110可将对应于第二话语的第二音频数据1306发送到服务器120，以便进行语音处理。服务器120可了解第二音频数据1306是与第一音频数据1302相同会话或交换的一部分，并且可使用第一音频数据1302作为参考音频数据。

一旦确定，参考音频数据(包括特征向量x′₁...x′_m)就可由编码器编码以产生编码的参考音频数据E(x′₁...x′_m)。所述编码的参考音频数据(可为编码的特征向量)随后可用于语音检测和/或语音辨识。例如，如图14所示，用于参考音频数据的音频特征向量可包括音频特征向量x′₁1402至音频特征向量x′_m 1404。在对应于唤醒词的参考音频数据的示例中，音频特征向量x′₁ 1402可对应于唤醒词开始时间1032，并且音频特征向量x′_m1404可对应于唤醒词结束时间1034。音频特征向量可由RNN编码器1450处理以创建编码的参考特征向量y_参考1410，其借助于RNN编码表示从单个特征向量中的音频特征向量x′₁1402到音频特征向量x′_m 1404的整个参考音频数据。RNN编码器1450可被配置来首先处理第一输入音频特征向量(例如，输入音频特征向量x′₁1402)，或者可被配置来依据系统配置以相反的顺序处理输入音频特征向量(例如，首先是输入音频特征向量x′_m 1404)。RNN编码器1450可包括门控递归单元(GRU)、长短期记忆(LSTM)RNN或者具有回溯(例如，循环)特性的其他可能模型。

可使用具有对数滤波器组能量(LFBE)特征的编码器1450对参考音频数据进行编码，所述特征通过应用常规的递归对数幅度平均减法(LAMS)来归一化。编码器可被配置来捕获期望语音片段的固定长度的向量表示。随后可使用所述向量来确定另外的音频数据是否与参考音频数据的说话者匹配。例如，如下所述，参考特征向量1410可与话语的传入音频数据的特征一起使用，以做出关于帧是否包含期望语音的帧级决策。

如上所述，输入音频数据可包括一系列音频帧，其中每个帧由从声学信号导出的一系列特征构成。典型的特征包括对数滤波器组能量(LFBE)、梅尔倒谱系数(MFCC)、感知线性预测(PLP)或者可从包括数字化音频信号本身的音频信号导出的任何其他有意义的特征。语音检测的一个目标是将每个输入音频帧标记为(1)期望语音、(2)不期望的语音或者(3)非语音。具体地，系统可为对应于上述三种类别中的一种的每个音频帧分配不同的概率。因此，下游过程可使用标签和/或不同概率来在期望语音对不期望的语音对非语音的情况下进行不同的事情。

实时系统中的语音检测(即，在没有过度延迟的情况下合理快速地按照原来对输入音频帧进行分类的系统)可能是因果性的。也就是说，系统可在对当前帧进行分类时考虑过去的音频帧，但是除了小的固定大小的前瞻窗之外可不考虑大量的未来音频。

逐帧语音检测器可具有H(n；x₁...x_n+d)的形式，并且可预测Pr的概率(第n帧是“期望语音”|x₁...x_n+d)。H可以不同的方式来实现，常见的现代化选择是将H实现为(深度)神经网络(DNN)或递归神经网络(RNN)。H还可实现来使用编码的参考音频数据向量作为输入。因此，系统可使用编码器方法将锚点片段投影到固定大小的向量空间中，随后将其作为附加特征馈送到逐帧语音检测器中：

H(n；x₁...x_n+d，E(x′₁...x′_m)) (2)

其中H认为编码的参考音频数据向量、将要分类/标记的特定音频帧、特定音频帧之前的特定数量的音频帧以及特定音频帧之后的特定数量的音频帧作为输入。因此，当标记任何特定音频帧时，音频帧的滑动窗可用于向分类器H提供一些语境。

如图15所示，对于特定音频帧n，对应于帧n的音频特征向量x_n1502连同在音频特征向量x_n之前出现在输入音频数据中的若干音频特征向量(例如，音频特征向量x_n-d 1504至音频特征向量x_n-1(未示出))以及在音频特征向量x_n之后出现在输入音频数据中的若干音频特征向量(例如，音频特征向量x_n+1(未示出)至特征向量x_n+d 1506)一起馈送到分类器H1520中。在一个示例中，滑动窗大小是五个帧，因此帧n的特征向量被馈入有音频特征向量x_n之前的两个音频特征向量以及音频特征向量x_n之后的两个音频特征向量。也可配置其他窗大小。

分类器H的输出可包括针对每个期望标签的不同得分1530，例如特定音频数据帧对应于期望语音的第一得分、特定音频数据帧对应于不期望语音的第二得分以及特定音频数据帧对应于非语音的第三得分。替代地，分类器H可简单地为用于特定音频帧的标签1540，关于特定帧对应于哪个类别(例如，期望的语音)以及特定得分。所述实现方式可认为是给定特定音频帧为1的第一概率、为0的第二概率以及为0的第三概率。可针对多个输入音频帧重复分类/标记过程。标签可包括特定音频帧n(和/或音频特征向量x_n)对应于期望语音(即，来自与参考音频数据是同一说话者的语音)、不期望语音(即，来自与参考音频数据是不同的说话者的语音)或非语音的指示。

虽然某些系统配置可引起分类器H 1520被训练来输出对应于特定音频特征向量x_n的标签，在其他配置中，输出标签(和/或得分)可对应于输入到分类器H 1520中的特征向量组。因此，系统可将多帧数据值作为一组来评估(而不是使用滑动窗布置逐帧地评估)。输出标签和/或得分可随后用于各种下游目的。

E(x′₁...x′_m)包含关于期望语音“看起来像什么”的信息，并且x₁...x_n+d包含当前语音“看起来像什么”的信息。因此，编码的参考音频数据向量为H提供参考点，以便以音频帧对应于期望语音的概率来对每个音频帧进行分类。

H可实现为DNN或RNN(可为LSTM-RNN或GRU-RNN或任何其他RNN变型)。可使用随机梯度下降(SGD)方法和反向传播通过时间(BTT)算法或任何其他合适的学习算法来联合训练H和E。在训练时，包含期望语音的帧被标记为正例，而其他帧被标记为反例(即，对应于不期望的语音或非语音)。可与RNN编码器1450同时训练分类器H1520，使得编码器1450产生对分类器1520有用的参考特征向量，并且因此分类器1520学习如何使用呈由RNN编码器1450输出的形式的向量来对输入进行分类。

在本公开的其他实施方案中，编码的参考音频数据可以其他方式用于确定语音检测。例如，系统可估计对数滤波器组能量(LFBE)域中的参考音频数据的平均值，随后将其从相同话语的所有后续音频特征向量中减去，以便暴露出相对于参考音频数据的能级差异。所述方法可称为对数幅度平均减法(LAMS)。随后将归一化特征用于基于前馈深度神经网络(DNN)的分类。因此，对于参考音频数据(其可对应于唤醒词或者可对应于来自期望用户的其他语音)，系统可通过从输入音频数据中减去信息来提取特定于期望用户的可使用的足够信息，以充分地测试输入音频数据是否对应于来自期望用户的语音。

一种用于使语音处理系统对噪声条件稳健的技术是倒谱平均减法。倒谱系数是通过计算时域音频信号的短时傅里叶变换(STFT)、将滤波器组能量组合成梅尔间隔滤波器组、取系数的对数并且随后用离散余弦变换(DCT)对它们进行变换而创建的。本系统可使用对数滤波器组能量(LFBE)，其遵循与倒谱系数相同的处理链，但是不具有应用于它们的最终DCT变换。归一化技术可为LAMS。

LAMS有助于归一化语音传递函数特征。将语音信号建模为X_t＝S_t*H_t，其中X_t、S_t和H_t是时域远场音频数据(X_t)、语音信号(S_t)和传递函数(H_t)。利用静态传递函数，语音信号的估计值可检索为：

可以离线和在线方式估计传递函数。在离线方法中，首先在期望的语音片段

上计算每个特征均值。随后从原始特征中减去每个特征均值。

上述系统在语音和噪声特性相对平稳的环境中在整个分析片段中工作良好。在在线系统或更具动态的声学环境中，平均统计数据反而会随着时间的推移不断更新。一种流行的选择是使用自回归/递归更新来更新时变平均估计值。

对于

选择α以允许估计器捕获静态或缓慢变化的环境特征，而不捕获更快速移动的语音特征。不断更新的在线LAMS估计可将期望的和干扰的语音特征转变成看上去更为相似，这与我们的目标相反。例如，在存在锚点词随后是干扰语音并且随后是期望语音的情况下，递归LAMS使干扰和期望语音中的能量峰值重叠。

LAMS方法可允许系统将特征保持在期望范围内并且用于更好地区分期望语音与干扰语音之间的特征。对于平均值估计器，系统可在参考音频数据上计算平均特征值。对于从期望讲话者辨识语音的任务，这种约束是有利的。参考音频数据可用作期望讲话者的语音的示例，并且随后通过减去LAMS，系统可将对应于期望讲话者的特征移位成更接近为零均值。这允许系统训练分类器，例如DNN，以更好地对期望讲话者的语音进行分类。所述方法可认为是特征归一化方法，其取决于话语的锚点词的特征。这种方法允许针对每个话语以动态方式对特征进行归一化，因为始终针对每个新的参考音频数据来估计LAMS。

因此，系统可从期望用户获得参考音频数据。参考音频数据可为对应于运行时话语的唤醒词部分的音频数据。系统可随后估计LFBE域中的参考音频数据的平均值。随后可从同一话语的后续特征音频特征向量中减去所述平均值，这将导致特定音频特征向量与参考音频数据之间的能级差异。这种技术可称为对数幅度平均减法。随后可将能级差异(由于减法而归一化)馈送到前馈深度神经网络(DNN)或者其他机器学习训练模型中，以便进行分类。所述模型可被配置来将能级差异分类成表示属于(说出参考音频数据的)期望用户的语音，或者表示属于不同人的非语音或语音。

语音辨识(即ASR)的目标是辨识对应于输入音频数据的说出词语。语音辨识的统计方法解决了在给出观察特征x₁，...x_N的情况下找到最可能的字词序列W的任务：

W＝argmax_W p(W|x₁，...x_N) (5)

ASR的精确目标是辨识对应于输入音频数据的期望字词序列。“期望”字词序列可认为涵盖输入音频数据中的任何语音，或者可认为涵盖来自期望特定人的语音，而不是来自任何其他人(其他说话者)的语音。这个问题可表达为：

状态s_n是指HMM对字词或电话或者多元音素或任何其他子字词单元进行建模的状态。以手机为例，量p(s_n＝A|x₁...x_n+d)是在位置“n”处说话的手机“A”的概率估计值，p(s_n＝B|x₁...x_n+d)是在位置“n”处说话的手机“B”的概率估计值等等。一个或几个特定“手机”用于表示静音和噪声。

如上关于语音检测，编码的参考音频数据向量E(x′₁...x′_m)可提供为附加输入以将语音辨识系统“引导”朝向期望的字词序列。因此，

W＝argmax_W p(W|x₁，...x_N；E(x′₁...x′_m)) (7)

一种实现方式是在ASR期间根据E(x′₁...x′_m)来计算逐帧状态概率：

p(S_n|x₁...x_n+d，E(x′₁...x′_m)) (8)

在本文，p可实现为DNN或RNN(可为LSTM-RNN或GRU-RNN或任何其他RNN变型)，并且如上所述地联合训练p和E。语音检测之间的一个差别在于，在语音辨识中，不仅在(期望)语音与非语音之间做出决策，而且在语音单元(手机、多元音素等)之间做出决策。如果在训练数据上对p和E进行训练，其中不期望的语音被映射到现有的非语音类或新定义的不期望的语音类，则所述方法可学习忽略不期望的语音并改善语音单元之间以及语音与噪声之间的区别。如果训练数据不包含任何不期望的语音，则所述方法可能学习说话者和/或声学条件适应，即改善语音单元之间以及语音与噪声之间的区别。

系统可使用来自图15的语音标签的标签/得分，以执行语音活动检测(VAD)。例如，如图16A所示，对应于音频特征向量1502的标签1540(和/或得分1530)可输入到VAD模块222中。(音频特征向量1502本身也可根据系统配置输入到VAD模块222中)。VAD模块222可因此考虑音频特征向量是否被标记为期望语音或不期望语音，是否声明检测到所述语音活动，从而触发语音处理系统的进一步的下游操作。例如，如果输入音频对应于语音，但不一定对应于期望语音，则VAD模块222可被配置来不声明检测到语音，以便不引起系统处理不期望语音。以这种方式，可训练VAD模块222以仅在检测到足够数量的期望语音时声明检测到语音。

出于ASR的目的，系统还可使用从语音标记过程确定的标签/得分作为ASR模块的输入。例如，如图16B所示，对应于音频特征向量1502的标签1540(和/或得分1530)可输入到ASR模块250(以及因此语音辨识引擎258)中。(音频特征向量1502本身也可根据系统配置输入到ASR模块250中)。ASR模块250可随后在执行ASR时考虑标签1540和/或得分1530。例如，被标记为对应于期望语音的音频特征向量可比被标记为对应于不期望语音(或非语音)的音频特征向量更重地加权(即，更可能最终影响到上面的假设)。出于ASR的目的，分类器H1520可采用声学模型的形式，其中标签/得分1530(或标签1540)可对应于特定语音单元。例如，声学模型分类器H 1520可输出多元音素(或其他声学单元)的列表以及每个特定多元音素的对应得分(也可对应于经训练以输出可用于这种复杂声学建模的参考特征向量1410的编码器1450)。多元音素和得分的所得的输出列表随后可由ASR模块250的下游语言模型或其他ASR部件部分使用，以产生ASR输出的文本。

图17示出了使用包括唤醒词的参考数据将输入音频数据分类成期望语音或不期望语音的示例。在这个示例中，第一用户说出话语“Alexa，播放......一些音乐。”然而，在第一用户说话时，第二用户走进房间并说“你好。”然而，第二用户说出“你好”发生在第一用户说出“播放”与“一些”之间。因此，转录的音频数据111将产生“Alexa播放你好一些音乐”的文本。“在执行NLU并对这种文本进行进一步处理时可能产生第一用户的期望动作(具体地是如果用户希望系统播放Adele的“Hello”，则第一用户的默认音乐选择可能是另外一些东西，从而导致第二用户的话语会干扰第一用户的预期命令。

如图所示，音频数据111包括音频数据的第一部分1102，所述第一部分包括由第一用户说出的唤醒词“Alexa”。如上所述，第一部分可随后用于创建对应于参考音频数据1702的参考编码特征向量，所述参考音频数据在对音频数据的第二部分1104的帧进行分类时来使用。通过使用分类技术，系统将能够确定对应于字词“播放”(1704)和“一些音乐”(1708)的音频数据与“Alexa”的说话者的声音匹配，并且从而对应于期望语音，同时对应于字词“你好”(1706)的音频数据不与“Alexa”的说话者的声音匹配，并且因此对应于不期望的语音。系统可因此忽略“你好”并且仅处理由第一用户说出的文本“Alexa，播放一些音乐”。

虽然系统还可试图识别唤醒词的说话者的身份(或传入音频的其他部分)，称为说话者识别的技术，本文的技术将音频标记为期望语音/不期望的语音/非语音并使用此类标签是与说话者识别分开的，因为不需要说话者的身份，并且因此可在不执行说话者识别的情况下执行所描述的技术。

此外，虽然RNN编码器1450和分类器1520被示出为被配置来对参考音频数据进行编码以用于对用于语音检测的传入音频数据进行分类，并且因此可位于ASR模块250的上游，但是它们也可被实现为ASR模块250的一部分，并且因此可产生不同的特征，所述特征包括在编码向量中以用于执行基于参考的语音辨识的目的。此外，由分类器1520确定的标签1540可用于其他目的。终止点确定模块可使用标签来声明语音终止点。例如，如果连续数量的帧/音频特征向量被分类成不期望的语音或非语音，则终止点确定模块可声明已到达期望语音的终点。

服务器120可包括或涉及关于用户账户的数据，由图18所示的用户配置文件存储装置1802示出。用户配置文件存储装置可位于服务器120附近，或者可以其他方式(例如通过网络165)与各种部件通信。用户配置文件存储装置1802可包括与和系统100交互的个别用户、家庭、账户等相关的各种信息。为了说明，如图18所示，用户配置文件存储装置1802可包括关于与特定个人用户账户1804相关联的设备的数据。在一个示例中，用户配置文件存储装置1802是基于云的存储装置。这种数据可包括用于不同设备的设备标识符(ID)和互联网协议(IP)地址信息以及用户可通过其来提及设备的名称。还可列出描述设备的另外的限定符以及设备的对象类型的描述。此外，用户账户1804可包括样本用户语音或者与样本用户语音相关联，所述样本用户语音可用作如以上参考图12所述的参考音频数据。此外，虽然用户配置文件存储装置1802可包括存储的参考音频数据1204，但是它还可或者替代地存储对应于存储的参考音频数据1204的编码的参考特征向量1410，使得在运行时，系统可简单地参考存储的编码参考特征向量1410而不是必须在运行时对参考音频数据进行编码。

图19是概念性地示出了可与所描述的系统一起使用的本地设备110的框图。图20是概念性地示出了远程设备(诸如可辅助ASR、NLU处理或命令处理的远程服务器120)的示例性部件的框图。如以下将进一步讨论的，多个此类服务器120可包括在系统中，诸如用于训练ASR模型的一个服务器120、用于执行ASR的一个服务器、用于执行NLU的一个服务器120等。在操作中，这些设备(或设备组)中的每一个可包括驻留在相应设备(110/120)上的计算机可读和计算机可执行指令。

这些设备(110/120)中的每一个可包括一个或多个控制器/处理器(1904/2004)，其可各自包括用于处理数据和计算机可读指令的中央处理单元(CPU)以及用于存储相应设备的数据和指令的存储器(1906/2006)。存储器(1906/2006)可个别地包括易失性随机存取存储器(RAM)、非易失性只读存储器(ROM)、非易失性磁阻(MRAM)和/或其他类型的存储器。每个设备还可包括数据存储部件(1908/2008)，以用于存储数据和控制器/处理器可执行指令。每个数据存储部件可个别地包括一种或多种非易失性存储装置类型，诸如磁存储装置、光存储装置、固态存储装置等。每个设备也可通过相应的输入/输出设备接口(1902/2002)连接到可移除或外部非易失性存储器和/或存储装置(诸如，可移除存储卡、存储器密钥驱动器、网络存储装置等)。

用于操作每个设备(110/120)及其各种部件的计算机指令可由相应设备的控制器/处理器(1904/2004)执行，在运行时使用存储器(1906/2006)作为临时“工作”存储装置。设备的计算机指令可以非暂时性方式存储在非易失性存储器(1906/2006)、存储装置(1908/2008)或外部设备中。替代地，除了或代替软件，一些或所有可执行指令可嵌入在相应设备上的硬件或固件中。

每个设备(110/120)包括输入/输出设备接口(1902/2002)。如以下将进一步讨论的，可通过输入/输出设备接口连接各种部件。此外，每个设备(110/120)可包括地址/数据总线(1924/2024)，以用于在相应设备的部件间传送数据。除了(或代替)连接到跨越总线(1924/2024)的其他部件，设备(110/120)内的每个部件还可直接连接到其他部件。

参考图19的设备110，设备110可包括显示器1918，所述显示器可包括触摸界面1919。或者设备110可为“无头的”，并且可主要依赖于说出命令来进行输入。作为向用户指示已打开与另一设备之间的连接的方式，设备110可配置有可视指示器，诸如LED或类似部件(未示出)，其可改变颜色、闪光或者以其他方式通过设备110来提供视觉指示。设备110还可包括连接到各种部件的输入/输出设备接口1902，所述部件诸如音频输出部件、诸如扬声器1960、有线耳机或无线耳机(未示出)或者能够输出音频的其他部件。设备110还可包括音频捕获部件。音频捕获部件可为例如麦克风1950或麦克风阵列、有线耳机或无线耳机(未示出)等。麦克风1950可被配置来捕获音频。如果包括麦克风阵列，则可基于由阵列的不同麦克风捕获的声音之间的时间和幅度差异来对到原始位置的声音点的近似距离执行声学定位。设备110(使用麦克风1950、唤醒词检测模块220、ASR模块250等)可被配置来确定对应于检测的音频数据的音频数据。设备110(使用输入/输出设备接口1902、天线1914等)也可被配置来将音频数据发送到服务器120以便进一步处理或者使用诸如唤醒词检测模块220的内部部件来处理所述数据。

例如，经由天线，输入/输出设备接口1902可经由无线局域网(WLAN)(诸如WiFi)无线电、蓝牙和/或无线网络无线电而连接到一个或多个网络199，所述无线网络无线电诸如能够与无线通信网络通信的无线电，诸如长期演进(LTE)网络、WiMAX网络、3G网络等。也可支持诸如以太网的有线连接。通过网络199，语音处理系统可跨越整个网络环境分布。

设备110和/或服务器120可包括ASR模块250。设备110中的ASR模块可具有有限的或扩展的能力。ASR模块250可包括存储在ASR模型存储部件252中的语言模型254，以及执行自动语音辨识过程的ASR模块250。如果包括有限的语音辨识，则ASR模块250可被配置来识别有限数量的字词，诸如由设备检测到的关键词，而扩展语音辨识可被配置来辨识更大范围的字词。ASR模块250(或另一部件)还可被配置来使用上述技术来检查ASR置信度。

设备110和/或服务器120可包括有限的或扩展的NLU模块260。设备110中的NLU模块可具有有限的或扩展的能力。NLU模块260可包括名称实体辨识模块262、意图分类模块264和/或其他部件。NLU模块260还可包括存储的知识交换和/或实体库，或者可单独定位那些存储装置。

设备110和/或服务器120还可包括命令处理器290，所述命令处理器被配置来执行与如上所述的说出命令相关联的命令/功能。

设备110可包括声音活动检测(VAD)模块222，其执行如上所述的声音活动检测。如参考图16A讨论的，VAD模块222可并入有上述技术，包括考虑音频特征向量和对应的标签。

设备110可包括唤醒词检测模块220，其可为单独的部件或者可包括在ASR模块250中。唤醒词检测模块220接收音频信号并检测音频中的特定表达(诸如配置的关键词)的出现。这可包括检测特定时间段内的频率变化，其中频率的变化产生系统辨识为对应于关键词的特定音频签名。关键词检测可包括分析个别定向音频信号，诸如在适用的情况下经过波束成形后处理的那些信号。也可使用关键词检测领域中已知的其他技术(也称为关键词检出)。在一些实施方案中，设备110可被共同被配置来识别其中检测到唤醒表达或者其中可能已发生唤醒表达的一组定向音频信号。

唤醒词检测模块220接收捕获的音频并处理音频(例如，使用模型232)以确定音频是否对应于设备110和/或系统100可辨识的特定关键词。存储装置1908可存储与关键词和功能有关的数据，以使得唤醒词检测模块220能够执行上述算法和方法。在设备110被配置来由用户访问网络之前，可基于已知信息来预先配置本地存储的语音模型。例如，模型基于用户配置文件等可为特定于用户设备被运送或预测将要定位的区域的语言和/或口音或者用户他/她自己的特定语言和/或口音。在一个方面，模型可使用来自另一设备的用户的语音或音频数据来预先训练。例如，用户可拥有用户经由说出命令来操作的另一个用户设备，并且所述语音数据可与用户配置文件相关联。随后可利用来自其他用户设备的语音数据并且在用户设备110被递送给用户或被配置来由用户访问网络之前用于训练设备110的本地存储的语音模型。唤醒词检测模块220可访问存储装置1108并且使用音频比较、模式辨识、关键词检出、音频签名和/或其他音频处理技术来将捕获的音频与存储的模型和音频序列进行比较。

服务器还可包括RNN编码器950，以用于将数据编码成如上所述的向量形式。服务器还可包括模型训练部件2070，以用于训练或重新训练以上讨论的各种模型或分类器。可使用各种机器学习技术来执行上述各种步骤，例如训练/重新训练RC、实体标记器、语义解析器等。可根据各种机器学习技术来训练和操作模型。此类技术可包括例如神经网络(诸如深度神经网络和/或递归神经网络)、推理引擎、训练分类器等。训练分类器的示例包括支持向量机(SVM)、神经网络、决策树、与决策树组合的AdaBoost(简称“自适应提升”)以及随机森林法。以SVM为例，SVM是一种利用相关的学习算法的监督学习模型，其分析数据并辨识数据中的模式，并且通常用于分类和回归分析。假若给出一组训练示例，每个示例被标记为属于两种类别之一，SVM训练算法构建将新示例分配到一种类别或另一种类别的模型，从而使其成为非概率二元线性分类器。可利用识别多于两种类别的训练集来构建更复杂的SVM模型，其中SVM确定哪种类别与输入数据最相似。可映射SVM模型，以便通过明确的间隙来划分单独类别的示例。随后将新的示例映射到同一空间，并且基于它们所处的间隙的侧来预测属于一种类别。分类器可发出“得分”，从而指示数据最匹配的类别。得分可提供数据与类别匹配程度的指示。

为了应用机器学习技术，需要训练机器学习过程本身。在这种情况下，训练机器学习部件，诸如第一模型或第二模型之一，需要为训练示例建立“基础事实”。在机器学习中，术语“基础事实”是指对于监督学习技术训练集的分类的准确性。可使用各种技术来训练模型，包括反向传播、统计学习、监督学习、半监督学习、随机学习或其他已知技术。

服务器120还可包括唤醒词确认模块1020，所述唤醒词确认模块可如以上参考图10所描述地来操作。服务器120还可包括语音标记模块2050，所述语音标记模块可使用如以上参考图15描述的分类器1520来标记传入音频数据。语音标记模块2050还可包括RNN编码器1450以创建编码的参考特征向量1410。

如上所述，可在单个语音处理系统中采用多个设备。在这种多设备系统中，每个设备可包括用于执行语音处理的不同方面的不同部件。多个设备可包括重叠部件。如图19和图20所示，设备110和服务器120的部件是示例性的，并且可位于独立设备中，或者可整体或部分地包括为较大设备或系统的部件。

如图21中所示，多个设备(120、120x、110a至110f)可包含系统100的部件，并且设备可通过网络199连接。网络199可包括本地或专用网络，或者可包括诸如互联网的宽网络。设备可通过有线或无线连接而连接到网络199。例如，语音控制设备110a、平板计算机110b、智能手机110c、冰箱110d、智能手表110e和/或车辆110f可通过无线服务提供商、通过WiFi或蜂窝网络连接等而连接到网络199。包括其他设备作为网络连接的支持设备，诸如服务器120、应用程序开发者设备120x或者其他设备。支持设备可通过有线连接或无线连接而连接到网络199。联网设备110可使用一个或多个内置或连接的麦克风1950或音频捕获设备来捕获音频，其中由ASR、NLU或经由网络199连接的同一设备或另一设备的其他部件来执行处理，诸如一个或多个服务器120的ASR 250、NLU 260等。

本文公开的概念可应用于许多不同的设备和计算机系统内，包括例如通用计算系统、语音处理系统和分布式计算环境。

本公开的上述方面意味着是说明性的。选择它们是为了解释本公开的原理和应用，而并非旨在穷举或限制本公开。所公开方面的许多修改和变化对于本领域技术人员而言是显而易见的。计算机和语音处理领域的普通技术人员应认识到，本文描述的部件和处理步骤可与其他部件或步骤或部件或步骤的组合互换，并且仍然实现本公开的益处和优点。此外，对于本领域技术人员应显而易见的是，可在没有本文公开的一些或所有具体细节和步骤的情况下实践本公开。

公开的系统的各方面可实现为计算机方法或者诸如存储器设备或非暂时性计算机可读存储介质的制品。计算机可读存储介质可为由计算机可读的，并且可包括用于引起计算机或其他设备执行本公开中描述的过程的指令。计算机可读存储介质可由易失性计算机存储器、非易失性计算机存储器、硬盘驱动器、固态存储器、闪存驱动器、可移除磁盘和/或其他介质来实现。此外，一个或多个模块和引擎的部件可实现为固件或硬件，诸如声学前端256，除了别的之外其包括模拟和/或数字滤波器(例如，被配置为数字信号处理器(DSP)的固件的滤波器)。

如在本公开中使用的，除非另外特别说明，否则术语“一个”或“一种”可包括一个或多个项目。此外，除非另外特别说明，否则短语“基于”旨在表示“至少部分地基于”。

条款

1.一种用于识别来自期望说话者的语音以便进行自动语音辨识(ASR)的计算机实现的方法，所述方法包括：

接收对应于语音的音频数据，所述音频数据包括多个音频帧；

处理所述多个音频帧以确定对应于所述音频数据的第一部分的多个第一音频特征向量以及对应于所述音频数据的第二部分的多个第二音频特征向量；

确定所述多个第一音频特征向量对应于唤醒词；

利用递归神经网络编码器来处理所述多个第一音频特征向量，以确定对应于来自期望说话者的语音的参考特征向量；

使用神经网络分类器来处理所述多个第二音频特征向量和所述参考特征向量，以确定对应于所述多个第二音频特征向量中的第一音频特征向量的第一得分，所述第一得分对应于所述第一音频特征向量对应于由所述期望说话者说出的音频的可能性；

确定所述得分高于阈值；

创建所述第一特征向量对应于来自所述期望说话者的语音的指示；

基于对应于来自所述期望说话者的语音的所述第一特征向量来确定对应于所述第一特征向量的第一权重；以及

使用所述第一权重和所述第一特征向量来执行ASR。

2.根据条款1所述的计算机实现的方法，其还包括：

处理所述多个音频帧的至少一部分以确定对应于所述第二部分的多个第三音频特征向量；

使用所述神经网络分类器来处理所述多个第三音频特征向量和所述参考特征向量，以确定对应于所述多个第三音频特征向量中的第二音频特征向量的第二得分，所述第二得分对应于所述第二音频特征向量对应于由所述期望说话者说出的音频的可能性；

确定所述第二得分低于所述阈值；

创建所述第三特征向量对应于来自与所述唤醒词不同的说话者的的语音的第二指示；以及

基于对应于来自与所述唤醒词不同的说话者的语音的所述第三特征向量来确定对应于所述第三特征向量的第二权重，其中所述第二权重小于所述第一权重。

3.根据条款1所述的计算机实现的方法，其还包括：

识别对应于在对应于所述第一特征向量的第一音频帧之前定位的音频帧的第一对特征向量；

识别对应于在所述第一音频帧之后定位的音频帧的第二对特征向量，

其中使用所述神经网络分类器处理所述多个第二音频特征向量和所述参考特征向量还包括处理所述第一对特征向量、所述第一特征向量和所述第二对特征向量，以确定所述第一得分。

4.一种计算机实现的方法，其包括：

接收输入音频数据；

识别参考音频数据；

利用递归神经网络来处理所述参考音频数据以确定参考特征向量；以及

使用分类器来处理所述输入音频数据的一部分和所述参考特征向量，以确定所述部分是否对应于来自与所述参考音频数据是同一说话者的语音。

5.根据条款4所述的计算机实现的方法，其还包括：

确定所述输入音频数据的第一部分包括关键词；以及

选择所述第一部分作为所述参考音频数据。

6.根据条款4所述的计算机实现的方法，其中接收输入音频数据包括接收第一音频数据作为与第一设备的第一交互的一部分，并且接收第二音频数据作为与所述第一设备的第二交互的一部分，并且其中所述方法还包括：

选择所述第一音频数据作为所述参考音频数据；以及

选择所述第二音频数据作为所述输入音频数据的所述部分。

7.根据条款4所述的计算机实现的方法，其还包括：

在接收所述输入音频数据之前，存储对应于第一说话者的训练音频数据，

其中识别所述参考音频数据包括选择所述训练音频数据作为所述参考音频数据。

8.根据条款7所述的计算机实现的方法，其中：

利用递归神经网络处理参考音频数据包括使用所述递归神经网络来处理所述训练音频数据，以在接收所述输入音频数据之前确定所述参考特征向量。

9.根据条款4所述的计算机实现的方法，其还包括：

识别对应于所述输入音频数据的所述部分的多个特征向量，

其中使用所述分类器来处理所述输入音频数据的所述部分和所述参考特征向量包括处理所述多个特征向量以确定第一得分，所述第一得分对应于所述多个特征向量中的第一特征向量是否对应于来自与所述参考音频数据是同一说话者的语音。

10.根据条款9所述的计算机实现的方法，其还包括：

基于所述第一得分来确定对应于所述第一特征向量的第一权重；以及

使用所述第一权重和所述第一特征向量来执行语音辨识。

11.根据条款10所述的计算机实现的方法，其还包括：

识别对应于所述输入音频数据的第二部分的多个第二特征向量；

使用所述分类器来处理所述音频数据的所述第二部分和所述参考特征向量以确定第二得分，所述第二得分对应于所述多个第二特征向量中的第二特征向量是否对应于来自与所述参考音频数据是同一说话者的语音，其中所述第二得分低于所述第一得分；以及

确定对应于所述第二特征向量的第二权重，其中所述第二权重小于所述第一权重。

12.根据条款4所述的计算机实现的方法，其中所述递归神经网络被配置来输入多个音频特征向量并输出单个向量，所述单个向量并入有来自所述多个音频特征向量中的每一个的信息。

13.一种计算系统，其包括：

至少一个处理器；以及

存储器设备，所述存储器设备包括指令，所述指令可操作来由所述至少一个处理器执行以将所述系统配置为：

接收输入音频数据；

识别参考音频数据；

14.根据条款13所述的计算系统，其还包括指令，所述指令将所述系统配置为：

确定所述输入音频数据的第一部分包括关键词；以及

选择所述第一部分作为所述参考音频数据。

15.根据条款13所述的计算系统，其中将所述系统配置为接收输入音频数据的所述指令包括：将所述系统配置为接收第一音频数据作为与第一设备的第一交互的一部分并且接收第二音频数据作为与所述第一设备的第二交互的一部分的指令，并且所述计算系统还包括将所述系统配置为进行以下各项的指令：

选择所述第一音频数据作为所述参考音频数据；以及

选择所述第二音频数据作为所述输入音频数据的所述部分。

16.根据条款13所述的计算系统，其中所述指令将所述系统配置为：

其中将所述系统配置为识别所述参考音频数据的所述指令包括：将所述系统配置为选择所述训练音频数据作为所述参考音频数据的指令。

17.根据条款13所述的计算系统，其中将所述系统配置为利用递归神经网络来处理参考音频数据的所述指令包括：将所述系统配置为使用所述递归神经网络来处理所述训练音频数据以在接收所述输入音频数据之前确定所述参考特征向量的指令。

18.根据条款13所述的计算系统，其还包括指令，所述指令将所述系统配置为：

识别对应于所述输入音频数据的所述部分的多个特征向量，

其中将所述系统配置为使用所述分类器来处理所述输入音频数据的所述部分和所述参考特征向量的所述指令包括：将所述系统配置为处理所述多个特征向量以确定第一得分的指令，所述第一得分对应于所述多个特征向量中的第一特征向量是否对应于来自与所述参考音频数据是同一说话者的语音。

19.根据条款13所述的计算系统，其还包括指令，所述指令将所述系统配置为：

使用所述第一权重和所述第一特征向量来执行语音辨识。

20.根据条款19所述的计算系统，其还包括指令，所述指令将所述系统配置为：

21.根据条款13所述的计算系统，其中所述递归神经网络被配置来输入多个音频特征向量并输出单个向量，所述单个向量并入有来自所述多个音频特征向量中的每一个的信息。

Claims

1.一种用于语音辨识的计算机实现的方法，其包括：

接收输入音频数据，其中，所述输入音频数据包括第一部分和第二部分；

处理所述输入音频数据的所述第一部分以确定参考音频数据；

使用分类器来处理所述输入音频数据的所述第二部分和所述参考特征向量，以确定所述第二部分是否对应于来自与所述参考音频数据是同一说话者的语音。

2.根据权利要求1所述的用于语音辨识的计算机实现的方法，其还包括：

确定所述输入音频数据的所述第一部分包括关键词；以及

选择所述第一部分以确定所述参考音频数据。

3.根据权利要求1所述的用于语音辨识的计算机实现的方法，其中接收输入音频数据包括接收第一音频数据作为与第一设备的第一交互的一部分，并且接收第二音频数据作为与所述第一设备的第二交互的一部分，并且其中所述方法还包括：

选择所述第一音频数据以确定所述参考音频数据；以及

选择所述第二音频数据作为所述输入音频数据的所述第二部分。

4.根据权利要求1所述的用于语音辨识的计算机实现的方法，其还包括：

在接收所述输入音频数据之前，存储对应于第一说话者的第二参考音频数据；

接收第二输入音频数据；以及

处理所述第二输入音频数据和所述第二参考音频数据以确定所述第二输入音频数据对应于所述第一说话者。

5.根据权利要求1所述的用于语音辨识的计算机实现的方法，其还包括：

识别对应于所述输入音频数据的所述第二部分的多个特征向量，

其中使用所述分类器来处理所述输入音频数据的所述第二部分和所述参考特征向量包括处理所述多个特征向量以确定第一得分，所述第一得分对应于所述多个特征向量中的第一特征向量是否对应于来自与所述参考音频数据是同一说话者的语音。

6.根据权利要求5所述的用于语音辨识的计算机实现的方法，其还包括：

使用所述第一权重和所述第一特征向量来执行语音辨识。

7.根据权利要求1所述的用于语音辨识的计算机实现的方法，其中所述递归神经网络被配置来输入多个音频特征向量并输出单个向量，所述单个向量并入有来自所述多个音频特征向量中的每一个的信息。

8.一种用于语音辨识的计算系统，其包括：

至少一个处理器；以及

9.根据权利要求8所述的用于语音辨识的计算系统，其还包括指令，所述指令将所述系统配置为：

确定所述输入音频数据的所述第一部分包括关键词；以及

选择所述第一部分以确定所述参考音频数据。

10.根据权利要求8所述的用于语音辨识的计算系统，其中将所述系统配置为接收输入音频数据的所述指令包括：将所述系统配置为接收第一音频数据作为与第一设备的第一交互的一部分并且接收第二音频数据作为与所述第一设备的第二交互的一部分的指令，并且所述计算系统还包括将所述系统配置为进行以下各项的指令：

选择所述第一音频数据以确定所述参考音频数据；以及

11.根据权利要求8所述的用于语音辨识的计算系统，其中所述指令将所述系统配置为：

接收第二输入音频数据；以及

12.根据权利要求11所述的用于语音辨识的计算系统，其中将所述系统配置为处理所述第二输入音频数和所述第二参考音频数据以确定所述第二输入音频数据对应于所述第一说话者的所述指令包括：将所述系统配置为使用所述递归神经网络来处理所述第二参考音频数据以在接收所述第二输入音频数据之前确定第二参考特征向量的指令；以及处理所述第二输入音频数据和所述第二参考特征向量以确定所述第二输入音频数据对应于所述第一说话者。

13.根据权利要求8所述的用于语音辨识的计算系统，其还包括指令，所述指令将所述系统配置为：

其中将所述系统配置为使用所述分类器来处理所述输入音频数据的所述第二部分和所述参考特征向量的所述指令包括：将所述系统配置为处理所述多个特征向量以确定第一得分的指令，所述第一得分对应于所述多个特征向量中的第一特征向量是否对应于来自与所述参考音频数据是同一说话者的语音。

14.根据权利要求13所述的用于语音辨识的计算系统，其还包括指令，所述指令将所述系统配置为：

使用所述第一权重和所述第一特征向量来执行语音辨识。

15.根据权利要求8所述的用于语音辨识的计算系统，其中所述递归神经网络被配置来输入多个音频特征向量并输出单个向量，所述单个向量并入有来自所述多个音频特征向量中的每一个的信息。