CN117378005A

CN117378005A - 用于自动语音识别的多语言重新评分模型

Info

Publication number: CN117378005A
Application number: CN202280037641.7A
Authority: CN
Inventors: 尼拉杰·高尔; 陈同舟; 伊赫桑·瓦兰尼; 布瓦那·拉马巴德兰; 帕里莎·哈哈尼; 佩德罗·J·莫雷诺门希瓦尔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-03-26
Filing date: 2022-03-22
Publication date: 2024-01-09
Also published as: KR102637025B1; JP2024512071A; EP4295362A1; WO2022204218A1; US20220310081A1; KR20240024345A; JP2024050983A; US20240203409A1; KR20230152170A

Abstract

一种方法(400)包括接收从与话语(106)对应的音频数据提取的声学帧的序列(110)。在第一通道期间(301)，所述方法包括处理声学帧的序列以生成所述话语的N个候选假设(204)。在第二通道期间(302)，并且对于每个候选假设，所述方法包括：生成相应的未归一化似然得分(325)；生成相应的外部语言模型得分(315)；生成对对应候选假设的先验统计进行建模的独立得分(205)；以及基于未归一化似然得分、外部语言模型得分和独立得分为候选假设生成相应的总得分(355)。所述方法还包括从N个候选假设中选择相应的总得分最高的候选假设作为话语的最终转录(120)。

Description

用于自动语音识别的多语言重新评分模型

技术领域

本公开涉及用于自动语音识别的多语言重新评分模型。

背景技术

自动语音识别(ASR)系统提供了一种通常用于移动设备和其它设备的技术。一般来说，ASR系统试图提供用户对移动设备所说内容的准确转录。更具体地说，ASR系统会生成多个候选转录，并输出最有可能与语音输入相匹配的候选转录。在某些情况下，ASR系统会输出与用户实际所说内容不匹配的不准确转录。在这种情况下，ASR系统可以对多个候选转录进行重新评分，然后输出与语音输入相匹配的准确转录。然而，重新评分的一个挑战是，ASR系统依赖语音输入的语言信息来准确地重新评分多个候选转录。因此，ASR系统在多语言语音环境中执行重新评分往往非常麻烦。

发明内容

本公开的方面提供了一种计算机实现的方法，该方法在数据处理硬件上执行时使得数据处理硬件进行使用多语言重新评分模型进行自动语音识别的操作。该操作包括接收从与话语对应的音频数据提取的声学帧的序列。在第一通道期间，操作包括使用多语言语音识别模型处理声学帧的序列以为话语生成N个候选假设。在第二通道期间，对于N个候选假设中的每个候选假设，该方法包括使用神经甲骨文搜索(NOS)模型，基于声学帧的序列和对应的候选假设生成相应的未归一化似然得分；使用外部语言模型生成相应的外部语言模型得分；生成独立得分，独立得分对在第一通道期间生成的对应的候选假设的先验统计进行建模；以及基于未归一化似然得分、外部语言模型得分和独立得分，为候选假设生成相应的总得分。操作还包括从N个候选假设中选择相应的总得分最高的候选假设作为话语的最终转录。

本公开的实施方案可以包括以下一个或多个可选特征。在一些实施方案中，N个候选假设中的每个候选假设包括单词或子单词标签的相应的序列。这里，每个单词或子单词标签由相应的嵌入向量表示。外部语言模型是在纯文本数据上训练的。在某些示例中，NOS模型包括语言特定的NOS模型。在这些示例中，操作进一步包括接收指示话语的语言的语言标识符，以及从多个语言特定的NOS模型中选择语言特定的NOS模型，每个语言特定的NOS模型是在不同的相应语言上训练的。

可选地，NOS模型可以包括多语言NOS模型。在一些实施方案中，外部语言模型包括语言特定的外部语言模型。在这些实施方式中，操作进一步包括接收指示话语的语言的语言标识符，以及从多个语言特定的外部语言模型中选择语言特定的外部语言模型，每个语言特定的外部语言模型是在不同的相应语言上训练的。NOS模型可包括两个单向长短期记忆(LSTM)层。在一些示例中，语音识别模型包括编码器-解码器架构，编码器-解码器架构包括具有多个Conformer层的Conformer编码器和具有两个LSTM层的LSTM解码器。

本公开的另一方面提供了一种系统，该系统包括数据处理硬件和存储指令的存储硬件，指令在数据处理硬件上执行时会导致数据处理硬件执行操作。操作包括接收从与话语对应的音频数据提取的声学帧的序列。在第一通道期间，操作包括使用多语言语音识别模型(200)处理声学帧的序列以为话语生成N个候选假设。在第二通道期间，对于N个候选假设中的每个候选假设，该方法包括使用神经甲骨文搜索(NOS)模型，基于声学帧的序列和对应的候选假设生成相应的未归一化似然得分；使用外部语言模型生成相应的外部语言模型得分；生成独立得分，独立得分对在第一通道期间生成的对应的候选假设的先验统计进行建模；以及基于未归一化似然得分、外部语言模型得分和独立得分，为候选假设生成相应的总得分。操作还包括从N个候选假设中选择相应的总得分最高的候选假设作为话语的最终转录。

本公开的实施方案可以包括以下一个或多个可选特征。在一些实施方案中，N个候选假设中的每个候选假设包括单词或子单词标签的相应的序列。这里，每个单词或子单词标签由相应的嵌入向量表示。外部语言模型是在纯文本数据上训练的。在某些示例中，NOS模型包括语言特定的NOS模型。在这些示例中，操作进一步包括接收指示话语的语言的语言标识符，从多个语言特定的NOS模型中选择语言特定的NOS模型，每个语言特定的NOS模型是在不同的相应语言上训练的。

可选地，NOS模型可以包括多语言NOS模型。在一些实施方案中，外部语言模型包括语言特定的外部语言模型。在这些实现中，操作进一步包括接收指示话语的语言的语言标识符，以及从多个语言特定的外部语言模型中选择语言特定的外部语言模型，每个语言特定的外部语言模型是在不同的相应语言上训练的。NOS模型可以包括两个单向长短期记忆(LSTM)层。在一些示例中，语音识别模型包括编码器-解码器架构，编码器-解码器架构包括具有多个Conformer层的Conformer编码器和具有两个LSTM层的LSTM解码器。

本公开的一个或多个实现的细节在附图和以下描述中阐述。从说明书和附图以及从权利要求书中，其它方面，特征和优点将是显而易见的。

附图说明

图1是实施示例语音识别模型的语音环境的示意图。

图2是图1示例语音识别模型的示意图。

图3A是使用多个特定语言神经甲骨文搜索(NOS)模型的重新评分过程示例的示意图。

图3B是使用多语言神经甲骨文搜索(NOS)模型的重新评分过程示例的示意图。

图4是使用多语言重新评分模型进行自动语音识别的方法的示例操作安排流程图。

图5是可用于实现本文所述系统和方法的计算设备示例的示意图。

各附图中的同类参考符号表示同类元素。

具体实施方式

自动语音识别(ASR)系统在用户设备中越来越流行，因为ASR系统不断提供用户所说内容的更准确的转录转录。然而，在某些情况下，ASR系统会生成不准确的转录，错误地识别用户实际说话的内容。在某些配置中，ASR系统会为所说话语生成N个最佳候选假设，并将最佳候选假设作为最终转录输出。然而，N个最佳候选假设配置与一个最佳假设配置相比，词错误率(WER)几乎低50％。因此，在某些实施方案中，ASR系统会通过整合额外信息对N个最佳候选假设进行重新评分以提高WER。这些重新评分实施依赖于多语言语音环境中的语言信息(即用户所说的语言标识符)，并且只能提供微不足道的WER改进。上述挑战表明，使用N个最佳候选假设配置的ASR系统与使用一个最佳候选配置的ASR系统在WER性能上存在差距。

因此，本文的实施方案针对的是执行重新评分过程的方法和系统，该重新评分过程为对应的话语生成N个候选假设，并选择最可能的候选假设作为最终转录输出。具体而言，在第一通道期间，重新评分过程使用多语言语音识别模型生成N个候选假设。此后，在第二通道期间，对于每个候选假设，重新评分过程使用神经甲骨文搜索(NOS)模型生成相应的未归一化似然得分，生成外部语言模型得分，并生成对候选假设的先验统计进行建模的独立得分。如下文所述，NOS模型可以是特定语言的NOS模型，也可以是多语言的NOS模型。此外，在第二通道期间，重新评分过程会基于未归一化似然评分、外部语言模型得分和独立得分，为每个候选假设生成总得分。重新评分过程选择总得分最高的候选假设作为话语的最终转录。

图1是语音环境100的示例。在语音环境100中，用户104与计算设备(例如用户设备10)交互的方式可以是通过语音输入。用户设备10被配置为捕获语音环境100中的一个或多个用户104的声音(例如，流音频数据)。在此，流音频数据可指用户104的所说话语106，该口语可用作用户设备10的可听查询、命令或用户设备10捕获的可听交流。用户设备10的语音支持系统可通过回答查询和/或使一个或多个下游应用执行/完成命令来处理查询或命令。

用户设备10可以对应于与用户104相关联并能够接收音频数据的任何计算设备。用户设备10的一些示例包括但不限于移动设备(例如手机、平板电脑、笔记本电脑等)、计算机、可穿戴设备(例如智能手表)、智能家电、物联网(IoT)设备、车载信息娱乐系统、智能显示器、智能扬声器等。用户设备10包括数据处理硬件12和与数据处理硬件12通信的存储硬件14，并存储有指令，当指令被数据处理硬件12执行时，会导致数据处理硬件12执行一个或多个操作。用户设备10还包括音频系统16，该系统具有音频捕获设备(例如麦克风)16、音频捕获设备16a，用于捕获语音环境100中的所说话语106并将其转换为电信号；还包括语音输出设备(例如扬声器)16、语音输出设备16b，用于传输可听音频信号(例如，作为用户设备10的输出音频数据)。虽然用户设备10在所示示例中实现了单个音频捕获设备16a，但用户设备10可以实现音频捕获设备16a的阵列，而不脱离本公开的范围，其中阵列中的一个或多个捕获设备16a可以不实际驻留在用户设备10上，而是与音频系统16通信。

在语音环境100中，实现语音识别模型(即ASR模型)200的自动语音识别(ASR)系统118位于用户104的用户设备10上和/或通过网络40与用户设备10通信的远程计算设备60上(例如，在云计算环境中执行的分布式系统的一个或多个远程服务器)。ASR系统118还可以实现一个或多个外部语言模型310和神经甲骨文搜索(NOS)模型320。用户设备10和/或远程计算设备(即远程服务器)60还包括音频子系统108，该音频子系统108被配置为接收由用户104说出并由音频捕获设备16a捕获的话语106，并将话语106转换为与输入声学帧110相关的、能够由ASR系统118处理的对应数字格式。在所示示例中，用户说出相应话语106，音频子系统108将话语106转换成对应的音频数据(如声学帧)110，输入到ASR系统118。此后，语音识别模型200接收与话语106相对应的音频数据110作为输入，并生成/预测话语106的对应转录120(例如语音识别结果/假设)作为输出。如下文更详细描述的那样，语音识别模型200可以包括用可变前瞻音频上下文训练的端到端语音识别模型200，以允许模型200在推理过程中，根据话语106指定的查询对延迟的敏感程度和/或用户106对延迟的容忍度，在执行语音识别时设置不同的前瞻音频上下文持续时间。例如，在用户设备10上执行的数字助理应用50可根据话语106指定的查询对延迟的敏感程度和/或用户106对延迟的容忍度来要求语音识别。

在一些实现中，语音识别模型200在第一通道中对音频数据110执行流式语音识别以生成N个候选假设204(图3)，而NOS和语言模型310、320在第二通道中对N个候选假设204重新评分以生成最终转录120。例如，在所示示例中，语音识别模型200对音频数据110执行流式语音识别，以生成部分语音识别结果(即部分转录)120、120a(基于N个候选假设204)，语言和NOS模型310、320对N个候选假设204重新评分，生成最终语音识别结果(即最终转录)120、120b。值得注意的是，语音识别模型200可使用可设置为零(或约240毫秒)的第一前瞻音频上下文来生成部分语音识别结果120a。因此，输入话语106的最终语音识别结果120b可延迟于输入话语的部分语音识别结果120a。

用户设备10和/或远程计算设备60还执行用户界面生成器109，该用户界面生成器109被配置为向用户设备10的用户104展示话语106的转录120的表示。如下文所述，用户设备生成器109可以在时间1中以流式方式显示部分语音识别结果120a，随后在时间2中显示最终语音识别结果120b。在某些配置中，ASR系统118输出的转录120例如被在用户设备10或远程计算设备60上执行的自然语言理解(NLU)模块处理，以执行由话语106指定的用户命令/查询。附加地或替代地，(例如，在用户设备10或远程计算设备60的任意组合上执行的)文本到语音系统(未显示)可以将转录转换为合成语音，供用户设备10和/或其他设备进行可听输出。

在所示示例中，用户104与数字助理应用50通信，数字助理应用50在用户设备10的屏幕上显示数字助理界面18，以描述用户104与数字助理应用50之间的对话。在本示例中，用户104问数字助理应用50：“What time is the concert tonight？”用户104的这个问题是由音频捕获设备16a捕获并由用户设备10的音频系统16处理的所说话语106。在本示例中，音频系统16接收所说话语106并将其转换为声学帧110以输入到ASR系统118。

继续本示例，在接收用户104说话时与话语106对应的声学帧(即音频数据)110的同时，语音识别模型200对声学帧110进行编码，然后将编码后的声学帧110解码为部分语音识别结果120a。在时间1中，用户界面生成器109通过数字助理界面18以流式方式向用户设备10的用户104呈现话语106的部分语音识别结果120a的表示，即单词、单词片段和/或单个字符一经说出就会出现在屏幕上。

在第二通道期间，在接收到与话语106对应的所有声音帧110之后，ASR系统118使用语言和NOS模型310、320对N个候选假设204中的每个候选假设204重新评分，并从N个候选假设204中选择最有可能是话语106的准确转录120的候选假设204。在时间2中，用户界面生成器109通过数字助理界面18向用户设备10的用户105展示话语106的最终语音识别结果120b的表示。在某些实施方案中，用户界面生成器109用最终语音识别结果120b的表示替换部分语音识别结果120a的表示。例如，由于假定最终语音识别结果120b比未利用前瞻音频上下文生成的部分语音识别结果120a更准确，因此最终显示为转录120的最终语音识别结果120b可以修复部分语音识别结果120a中可能被误识的任何术语。在本示例中，由语音识别模型200输出并在时间1显示在用户设备10屏幕上的流式部分语音识别结果120a与低延迟有关，并为用户104提供了响应能力，使其知道自己的查询正在得到处理，而在时间2显示在屏幕上的最终语音识别结果120b在准确性方面提高了语音识别质量，但延迟增加了。不过，由于部分语音识别结果120a是在用户说出话语106时显示的，因此用户104不会注意到与生成并最终显示最终识别结果相关的较高延迟。

在图1所示的示例中，数字助理应用50可使用自然语言处理对用户104提出的问题做出响应。自然语言处理一般是指解释书面语言(例如，部分语音识别结果120a和/或最终语音识别结果120b)并确定书面语言是否提示任何操作的过程。在本示例中，数字助理应用50使用自然语言处理来识别用户104的问题涉及用户的日程安排，尤其是用户日程安排中的音乐会。通过自然语言处理识别出这些细节后，自动助理会针对用户的询问返回响应19，其中响应19指出：“Venue doors open at 6:30PM and concert starts at 8PM”。在某些配置中，自然语言处理发生在与用户设备10的数据处理硬件12通信的远程服务器60上。

参照图2，基于帧对齐的换能器模型200a的示例包括递归神经网络-换能器(RNN-T)模型架构，其符合与交互式应用相关的延迟限制。RNN-T模型架构的使用是示例性的，基于帧对齐的换能器模型200可以包括其他架构，如Transformer-换能器和Conformer-换能器模型架构等。与传统的ASR架构相比，RNN-T模型200的计算占用空间较小，所需的内存也较少，因此RNN-T模型架构适合完全在用户设备102上执行语音识别(例如，无需与远程服务器通信)。RNN-T模型200包括编码器网络210、预测网络220和联合网络230。大致类似于传统ASR系统中的声学模型(AM)的编码器网络210，可包括堆叠长短期(LSTM)层的递归网络。例如，编码器读取d维特征向量序列(如声学帧110(图1))x＝(X₁、X₂、...、X_T)，其中并在每个输出步骤产生高阶特征表示。

这个高阶特征表示记为

同样，预测网络220也是LSTM网络(即LSTM解码器)，它与语言模型(LM)一样，将迄今为止由最后的Softmax层240输出的非空白符号序列(即标签历史)245，即y₀，...，y_ui-1处理为密集表示最后，利用RNN-T模型架构，编码器网络210和预测/解码器网络220产生的表示由联合网络230结合。预测网络220可由嵌入查找表代替，通过输出查找的稀疏嵌入来代替处理密集表示，从而提高延迟。然后，联合网络预测/>这是下个输出符号的分布。换句话说，联合网络230在每个输出步长(例如时间步长)生成可能的语音识别假设的概率分布。这里，"可能的语音识别假设"对应于一组输出标签，每个标签代表指定自然语言中的符号/字符。例如，当自然语言为英语时，一组输出标签可能包括二十七(27)个符号，例如，英语字母表中26个字母各有一个标签，还有一个标签表示空格。因此，联合网络230可以输出一组值，指示预定的一组输出标签中的每个标签出现的可能性。这组值可以是矢量，可以指示输出标签集的概率分布。在某些情况下，输出标签是字符(如单个字符，也可能是标点符号和其他符号)，但一组输出标签并不受此限制。例如，一组输出标签可包括词块和/或整个单词，此外还可包括或代替词素。联合网络230的输出分布可以包括每个不同输出标签的后验概率值。因此，如果有100个不同的输出标签代表不同的词素或其他符号，联合网络230的输出y_i可以包括100个不同的概率值，每个输出标签一个值。然后，在确定转录120的束搜索过程中(例如，由Softmax层240)，可以使用概率分布来选择候选正字法元素(例如，词素、词片和/或单词)并为其分配得分。

Softmax层240可以采用任何技术，选择分布中概率最高的输出标签/符号作为RNN-T模型200在对应输出步长预测的下一个输出符号。通过这种方式，RNN-T模型200并不做条件独立性假设，相反，每个符号的预测不仅以声学为条件，还以迄今为止输出的标签序列为条件。RNN-T模型200确实假定输出符号与未来的声学帧110无关，这使得RNN-T模型能以流式方式使用。

在一些示例中，RNN-T模型200的编码器网络(即音频编码器)210包括编码器-解码器架构，其具有包括Conformer层的堆叠的基于Conformer的编码器。在这里，每个Conformer层包括一系列多头自注意力层、深度卷积层和前馈层。在某些示例中，基于Conformer的编码器可以包括17个Conformer层的堆叠。编码器网络210可以包括具有多头自注意力机制的其他类型编码器。例如，编码器网络210可以是基于Transformer的编码器或基于轻量级卷积(LConv)的编码器。编码器网络210也可以基于RNN，包括一系列LSTM层。预测网络220可以是具有两个2,048维LSTM层的LSTM解码器，每个LSTM层后面还有640维投影层。另外，预测网络220还可以包括Transformer或Conformer块的堆叠，或嵌入查找表，以代替LSTM层。最后，联合网络230也可以有640个隐藏单元。Softmax层240可以由统一的词块或词素集组成，该词块或词素集是利用多个训练数据集中的所有独特词块或词素生成的。

现在参考图3A和图3B，在一些实施方案中，远程服务器60(图1)执行示例重新评分过程300以重新评分由ASR模型200在第一通道301中生成的N个候选假设204。或者，除了或代替远程服务器60(图1)，用户设备10(图1)也可以执行示例重新评分过程300，或者代替远程服务器60(图1)执行示例重新评分过程300。重新评分过程300包括第一通道301，其为与话语106对应的声学帧110的序列(X₁、X₂、...、X_T)生成N个候选假设204、204a-n(H₁、H₂、...、H_N)。此外，重新评分过程300还包括第二通道302，其通过整合附加信息源对N个候选假设204中的每个候选假设204进行重新评分。因此，第二通302道包括序列分类目标，其被配置为从N个候选假设204中选择最有可能是话语106的准确转录的候选假设204。

具体而言，ASR模型200接收从音频数据中提取的与话语106相对应的声学帧110的序列。在第一通道301中，ASR模型200处理声学帧110的序列，为话语106生成N个候选假设204。在这里，每个候选假设204都与话语106的候选转录120对应，并由单词、子单词和/或词素标签的相应序列表示，单词、子单词和/或词素标签由相应的嵌入向量表示。此外，每个候选假设204都包括独立得分205，该独立得分205对对应候选假设204的先验统计进行建模。也就是说，独立得分205可以表示对应候选假设204是话语106的准确转录的置信度。独立得分205的置信度还可以表示之前实现的话语106的频率(例如，候选假设204之前被说出的次数)。

ASR模型200可以生成任意数量的候选假设204(例如，N可以是任意整数值)。在一些示例中，ASR模型200基于预定义参数输出指定数量的候选假设204。例如，ASR模型200为每个所说话语106输出五(5)个候选假设204(即N＝5)。例如，N个候选假设204可以与N个最佳候选假设列表对应，该列表与具有最高独立得分205的N个候选假设相关联。在其他示例中，ASR模型200输出具有满足阈值的独立得分205的所有候选假设204。

在所示示例中，ASR模型200处理与用户104所说的话语106"play next song"相对应的声学帧110的序列，并生成三个候选假设204(即N＝3)。也就是说，候选假设204包括独立得分205为0.6的“play next song”、独立得分205为0.3的“hey next long”和独立得分205为0.8的“play next pong”。在此，重新评分过程300可以输出候选假204“play nextpong”作为部分转录120a(图1)，因为它具有最高的独立得分205。或者，重新评分过程300可以不输出部分转录，直到重新评分过程生成最终转录。值得注意的是，在本例中，具有最高独立得分205的候选假设204是对用户104所说的话语106的不准确转录。

ASR模型200可以是多语言ASR模型，其被配置为识别以多种语言说出的话语106。也就是说，单个ASR模型200可以接收第一语言的话语106并生成第一语言的N个候选假设204，还可以接收不同的第二语言的另一个话语106并生成第二语言的N个候选假设204。此外，单个ASR模型还可以接收包含代码混合语音的话语106，代码混合语音包括第一语言和第二语言两者的术语。因此，重新评分过程300可以在多语言语音环境中实现单一多语言ASR模型200。

在某些实现中，第二通道302可以接收来自第一通道301的N个候选假设204，并通过整合每个候选假设204的附加信息生成对应的总得分355。对于每个候选假设204是否是准确的转录，总得分355可以指示比第一通道301的独立得分205更准确的置信度。此后，第二步302可以选择总得分355最高的候选假设204作为转录120(即最终转录120b(图1))。

更具体地说，在第二通道302期间，外部语言模型(LM)310接收N个候选假设204，并为每个候选假设204生成相应的外部语言模型得分315。在一些实施方案中，外部LM310包括RNN LM。在这里，外部LM310可以包括多个特定语言的外部LM310、310a-n，每个外部LM都是在特定语言的纯文本数据(即未配对数据)上训练的。因此，外部LM310和特定语言的外部LM310在此可以互换使用。因此，每个特定语言的外部LM310被配置为为相应语言的话语106生成外部语言模型得分(即语言模型得分)315。例如，以纯英文文本数据进行训练的第一个特定语言的外部LM310、310a为以英文说出的话语106生成语言模型得分315，而以纯西班牙文文本数据进行训练的第二个特定语言的外部LM310、LM310b为以西班牙文说出的话语106生成语言模型得分315。多个外部LM310可以用任意数量的语言进行训练，其中每个外部LM310用不同语言的纯文本数据进行训练。

对应地，外部LM310可以接收指示话语106的语言的语言标识符107，以便从与话语106的语言相对应的多个语言特定的外部LM310中选择语言特定的外部LM310。换句话说，重新评分过程300可以根据语言标识符107选择语言特定的外部LM310。在某些示例中，ASR模型200会根据对话语106的声学帧110的序列的处理来确定语言标识符107。在其他示例中，ASR模型200从外部来源获取语言标识符107。例如，用户可以为特定语言配置ASR模型。在其他情况下，ASR模型200可以确定说出话语106的用户104的身份，并基于与所确定的用户104相关联的语言来识别语言标识符107。

对应地，在第二通道302期间，重新评分过程300根据语言标识符107选择与话语106的语言相对应的外部LM310，并为每个候选假设204生成语言模型得分315。语言模型得分315表示候选假设204中的假设术语序列由用户104说出的可能性。例如，相对于候选假设204“What is the weather hooray？”，LM310会为候选假设204“What is the weathertoday？”生成较高的语言模型得分315。特别是，LM310会为“What is the weather today？”生成较高的语言模型得分315，因为纯文本训练数据中包含的这一假设术语序列可能比“What is the weather hooray？”更频繁。

示例重新评分过程300还包括神经甲骨文搜索(neural oracle search，NOS)模型320，该模型接收N个候选假设204、声学帧序列110和标签历史245(例如，之前输出的单词、单词片段和/或音节)。标签历史245(y_0:i-1)可由ASR模型200、重新评分过程300的第二通道302(例如，通过重新评分器350)或它们的某些组合输出。在某些示例中，标签历史245包括用户104之前的说出的话语106的转录。例如，用户104之前可能说过“do I have anymeetings today？”的前一个话语106，该话语代表了“what about tomorrow？”的当前话语106的标签历史记录245。在其他例子中，标签历史记录245包括当前话语标签之前的所有术语。例如，对于“play my playlist”的话语106，标签历史245可以对应“play my”，其中话语106中的当前术语(例如下一个假设术语)是“playlist”。可选地，NOS模型320可以接收语言标识符107，表示用户104所说的话语106的语言。

图3A示出了包括多个语言特定的NOS模型320S、320Sa-n的重新评分过程300、300a的示例。这里，每个特定语言的NOS模型320S都是在特定语言的成对数据(即转录的音频训练数据)上训练的。因此，在第二通道302期间，重新评分过程300根据语言标识符107从多个语言特定的NOS模型320S中选择与话语106的语言相对应的语言特定的NOS模型320S。因此，示例重新评分过程300a假定语言标识符107可用来选择正确的特定语言NOS模型320S。

或者，图3B示出了包括多语言NOS模型320、320M的重新评分过程300、300b的示例。在本示例中，多语言NOS模型320M是在任意语言数量的成对数据(即转录的音频训练数据)上训练的。因此，示例重新评分过程300b可以在多语言语音环境中实现单个多语言NOS模型320M。值得注意的是，由于不需要选择与话语106的语言相关联的特定语言NOS模型320S(如参考图3A所述)，因此示例重新评分过程300b不需要使用任何语言标识符107。因此，话语106可以包括多语言话语，其中包括两种或更多种语言的语音编码混合。如本文所用，NOS模型320可以包括重新评分过程300a根据语言标识符107选择的特定语言NOS模型320S(图3A)或多语言NOS模型(图3B)。

继续参考图3A和3B，NOS模型320包括给定标签历史245预测下一个标签Yi的之前的模型。也就是说，之前的模型根据之前识别的单词、单词片段和/或音节预测下一个标签的之前的得分。NOS模型320的之前的模型可包括一个双层、每层512个单元的单向LSTM。之前的模型使用标注的音频训练数据和交叉熵损失进行训练。此外，NOS模型320还包括一个后置模型，该模型以标签同步的方式将标签历史245与来自第一通道301的声音帧110序列相结合，从而预测后置得分。NOS模型320的后置模型可包括一个两层、每层512个单元的单向LSTM，以及一个两层、每层128个单元的标签同步注意机制。后置模型使用带标签的音频训练数据和交叉熵损失进行训练，以预测给定标签历史245和声音帧110序列的下一个标签Y_i。NOS模型320将标记级之前的得分和标记级后验得分相加，生成未归一化似然得分325。因此，未归一化似然得分325是一个序列级得分，由以下求和表示：

在等式1中，代表未归一化似然得分325，

重新评分器350接收N个候选假设204中的每个候选假设204的独立得分205、语言模型得分315和未归一化似然评分325，并生成相应的总得分355。具体而言，重新评分器350根据独立得分205、语言模型得分315和未归一化似然得分325的任意组合，为每个候选假设204生成总得分355。在一些示例中，重新评分器350将独立得分205、语言模型得分315和未归一化似然评分325线性相加，以确定序列级总得分355，其表示方式为：

在等式3中，代表未归一化似然得分325，/>代表外部语言模型得分315，/>代表独立得分205。为了在训练过程中优化重新评分器350的模型参数，重新评分过程300使用了后验得分和序列级地面真实分布之间的交叉熵目标。在某些示例中，训练过程将全部地面实况分布分配给地面实况转录，并将所有其他候选假设分配为零。在其他示例中，训练过程将总的地面实况分布均匀分配给字错误率(WER)低于最佳候选假设(即地面实况转录)的所有候选假设。在另一些示例中，训练过程将Softmax函数应用于每个候选假设与地面实况转录之间的负编辑距离。

此后，重新评分器350从N个候选假设204中选择总得分最高的候选假设204，作为话语106的最终转录120。在所示示例中，候选假设204包括总得分205为0.9的“play nextsong”、总得分205为0.3的“hey next long”和总得分205为0.5的“play next pong”。继续举例说明，评审员250选择总得分205为0.9的最高候选假设204“play next song”(用实线框表示)作为转录120(例如，最终转录120b(图1))。值得注意的是，具有最高独立得分205(即成为正确转录的可能性)的候选假设204并不是正确的候选假设204，而具有最高总得分355的候选假设才是来自第二通道302的正确转录。

图4是将多语言重新评分模型用于自动语音识别的计算机实现的方法400的示例性操作安排的流程图。在操作402，方法400包括接收从音频数据中提取的声学帧110的序列，该音频数据与话语106对应。在操作404中，在第一通301中，方法400包括处理声学帧110的序列，以使用多语言语音识别模型(即ASR模型)200为话语106生成N个候选假设204、204a-n。在第二通道302期间，对于N个候选假设204中的每个候选假设204，方法400执行操作406-412。在操作406中，方法400包括使用NOS模型320生成相应的未归一化似然得分325。在此，NOS模型320根据声学帧110的序列和对应的候选假设204生成未归一化似然得分325。在操作408中，方法400包括使用语言模型310生成对应的外部语言模型得分315。在操作410中，方法400包括生成独立得分205，该得分对在第一通道301中生成的对应候选假设204的先验统计进行建模。在操作412中，方法400包括根据未归一化似然得分325、外部语言模型得分315和独立得分205为候选假设255生成相应的总得分355。在操作414中，方法400包括从N个候选假设204中选择相应总得分355最高的候选假设204作为话语106的最终转录120。

图5是示例计算设备500的示意图，该示例计算设备可用于实现本文中描述的系统和方法。计算设备500意在表示各种形式的数字计算机，例如笔记本电脑、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。此处显示的组件、它们之间的连接和关系以及它们的功能仅为示例性的，并不意味着限制本文中描述和/或声称的发明的实施。

计算设备500包括处理器510、存储器520、存储设备530、连接到存储器520和高速扩展端口550的高速接口/控制器540以及连接到低速总线570和存储设备530的低速接口/控制器560。每个组件510、组件520、组件530、组件540、组件550和组件560都通过各种总线相互连接，并可安装在一个公共主板上或以其他适当的方式安装。处理器510可以处理用于在计算设备500中执行的指令，包括存储在存储器520或存储设备530中的指令，以便在外部输入/输出设备(例如连接到高速接口540的显示器580)上显示图形用户界面(GUI)的图形信息。在其他实施方案中，可以酌情使用多个处理器和/或多条总线，以及多个存储器和多种类型的存储器。此外，还可以连接多个计算设备500，每个设备提供部分必要的操作(例如，作为服务器库、一组刀片服务器或多处理器系统)。

存储器520在计算设备500中非短暂地存储信息。存储器520可以是计算机可读介质、易失性存储器单元或非易失性存储器单元。非易失性存储器520可以是用于临时或永久存储程序(例如，指令序列)或数据(例如，程序状态信息)的物理设备，供计算设备500使用。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，如引导程序)。易失性存储器的例子包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备530能够为计算设备500提供大容量存储。在某些实施方案中，存储设备530是计算机可读介质。在各种不同的实施方案中，存储设备530可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储设备，或者是设备阵列，包括存储区域网络或其他配置中的设备。在其他实施方案中，计算机程序产品有形地体现在信息载体中。计算机程序产品包含的指令在执行时可执行一种或多种方法，如上述方法。信息载体是计算机或机器可读介质，例如存储器520、存储设备530或处理器510上的存储器。

高速控制器540管理计算设备500的带宽密集型操作，而低速控制器560则管理带宽密集型较低的操作。这种职责分配只是示例性的。在某些实施方案中，高速控制器540与存储器520、显示器580(例如，通过图形处理器或加速器)以及高速扩展端口550相连，后者可以接受各种扩展卡(未显示)。在某些实施方案中，低速控制器560与存储设备530和低速扩展端口590相连。低速扩展端口590可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)，可以耦合到一个或多个输入/输出设备，例如键盘、指向设备、扫描仪或网络设备，例如交换机或路由器，例如通过网络适配器。

如图所示，计算设备500可以以多种不同的形式实现。例如，它可以作为标准服务器500a或一组此类服务器500a中的多个服务器、笔记本电脑500b或机架服务器系统500c的一部分来实现。

本文所述系统和技术的各种实现方式可以通过数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合来实现。这些不同的实现方式可包括在一个或多个计算机程序中实现，这些程序可在可编程系统上执行和/或解释，该系统包括至少一个可编程处理器，该处理器可以是专用或通用的，可从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，并将数据和指令传输到存储系统。

这些计算机程序(也称为程序、软件、软件应用程序或代码)包括可编程处理器的机器指令，可以用高级程序语言和/或面向对象编程语言和/或汇编/机器语言实现。本文所用术语“机器可读介质”和“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、非暂态计算机可读介质、装置和/或设备(如磁盘、光盘、存储器、可编程逻辑器件(PLD))，包括作为机器可读信号接收机器指令的机器可读介质。术语"机器可读信号"是指用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中描述的流程和逻辑流可由一个或多个可编程处理器(也称为数据处理硬件)执行，这些处理器可执行一个或多个计算机程序，通过操作输入数据和生成输出来执行功能。这些流程和逻辑流也可由专用逻辑电路执行，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。例如，适合执行计算机程序的处理器包括通用和专用微处理器，以及任何一种数字计算机的一个或多个处理器。一般来说，处理器会从只读存储器或随机存取存储器或两者中接收指令和数据。计算机的基本要素是一个用于执行指令的处理器和一个或多个用于存储指令和数据的存储设备。一般来说，计算机还包括一个或多个用于存储数据的大容量存储设备，如磁盘、磁光盘或光盘，或与之相连接，以接收数据或向其传输数据，或两者兼而有之。但是，计算机不一定需要这些设备。适用于存储计算机程序指令和数据的计算机可读介质包括各种形式的非易失性存储器、介质和存储设备，例如包括半导体存储设备，如EPROM、EEPROM和闪存设备；磁盘，如内置硬盘或可移动磁盘；磁光盘；以及CDROM和DVD-ROM磁盘。处理器和存储器可由特殊用途的逻辑电路补充或集成。

为了提供与用户的交互，本公开的一个或多个方面可以在计算机上实现，该计算机具有用于向用户显示信息的显示设备，例如CRT(阴极射线管)、LCD(液晶显示器)或触摸屏，以及用户可以向计算机提供输入的键盘和指向设备，例如鼠标或轨迹球。其他类型的设备也可用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感官反馈，如视觉反馈、听觉反馈或触觉反馈；用户的输入可以以任何形式接收，包括声音、语音或触觉输入。此外，计算机还可以通过向用户使用的设备发送文档和从该设备接收文档的方式与用户进行交互；例如，响应从网络浏览器接收到的请求，向用户客户端设备上的网络浏览器发送网页。

已经描述了许多实施方案。然而，可以理解的是，在不脱离本公开的精神和范围的前提下，可以进行各种修改。因此，其他实施方案属于以下权利要求的范围。

Claims

1.一种计算机实施的方法(400)，其特征在于，当所述计算机实施的方法(400)在数据处理硬件(510)上执行时使得所述数据处理硬件(510)进行操作，所述操作包括：

接收从与话语(106)对应的音频数据提取的声学帧的序列(110)；

在第一通道(301)期间，使用多语言语音识别模型(200)处理所述声学帧的序列(110)以为所述话语(106)生成N个候选假设(204)；

在第二通道(302)期间，对于所述N个候选假设(204)中的每个候选假设(204)：

使用神经甲骨文搜索(NOS)模型(320)，基于所述声学帧的序列(110)和对应的所述候选假设(204)生成相应的未归一化似然得分(325)；

使用外部语言模型(310)生成相应的外部语言模型得分(315)；

生成独立得分(205)，所述独立得分(205)对在所述第一通道(301)期间生成的对应的所述候选假设(204)的先验统计进行建模；以及

基于所述未归一化似然得分(325)、所述外部语言模型得分(315)和所述独立得分(205)，为所述候选假设(204)生成相应的总得分(355)；以及

从所述N个候选假设(204)中选择所述相应的总得分(355)最高的所述候选假设(205)作为所述话语(106)的最终转录(120)。

2.根据权利要求1所述的方法(400)，其特征在于，所述N个候选假设(204)中的每个候选假设(204)包括单词或子单词标签的相应的序列，每个单词或子单词标签由相应的嵌入向量表示。

3.根据权利要求1或2所述的方法(400)，其特征在于，所述外部语言模型(310)是在纯文本数据上训练的。

4.根据权利要求1-3中任一项所述的方法(400)，其特征在于，所述NOS模型(320)包括语言特定的NOS模型(320S)。

5.根据权利要求4所述的方法(400)，其特征在于，所述操作进一步包括：

接收指示所述话语(106)的语言的语言标识符(107)；以及

从多个语言特定的NOS模型(320S)中选择所述语言特定的NOS模型(320S)，每个所述语言特定的NOS模型(320S)是在不同的相应语言上训练的。

6.根据权利要求1-3中任一项所述的方法(400)，其特征在于，所述NOS模型(320)包括多语言NOS模型(320M)。

7.根据权利要求1-6中任一项所述的方法(400)，其特征在于，所述外部语言模型(310)包括语言特定的外部语言模型(310)。

8.根据权利要求7所述的方法(400)，其特征在于，所述操作进一步包括：

接收指示所述话语(106)的语言的语言标识符(107)；以及

从多个语言特定的外部语言模型(310)中选择所述语言特定的外部语言模型(310)，每个语言特定的外部语言模型(310)是在不同的相应语言上训练的。

9.权利要求1-8中任一项所述的方法(400)，其特征在于，所述NOS模型(320)包括两个单向长短期记忆(LSTM)层。

10.权利要求1-9中任一项所述的方法(400)，其特征在于，所述语音识别模型(200)包括编码器-解码器架构，所述编码器-解码器架构包括具有多个Conformer层的Conformer编码器和具有两个LSTM层的LSTM解码器。

11.一种系统(500)，其特征在于，包括：

数据处理硬件(510)；以及

与所述数据处理硬件(510)通信的存储器硬件(520)，所述存储器硬件(520)存储指令，所述指令在所述数据处理硬件(510)上执行时使得所述数据处理硬件(510)进行操作，所述操作包括：

接收从与话语(106)对应的音频数据提取的声学帧的序列(110)；

使用外部语言模型(310)生成相应的外部语言模型得分(315)；

12.根据权利要求11所述的系统(500)，其特征在于，所述N个候选假设(204)中的每个候选假设(204)包括单词或子单词标签的相应的序列，每个单词或子单词标签由相应的嵌入向量表示。

13.根据权利要求11或12所述的系统(500)，其特征在于，所述外部语言模型(310)是在纯文本数据上训练的。

14.权利要求11-13中任一项所述的系统(500)，其特征在于，所述NOS模型(320)包括语言特定的NOS模型(320S)。

15.根据权利要求14所述的系统(500)，其特征在于，所述操作进一步包括：

接收指示所述话语(106)的语言的语言标识符(107)；以及

16.根据权利要求11-13中任一项所述的系统(500)，其特征在于，所述NOS模型(320)包括多语言NOS模型(320M)。

17.根据权利要求11-16中任一项所述的系统(500)，其特征在于，所述外部语言模型(310)包括语言特定的外部语言模型(310)。

18.根据权利要求17所述的系统(500)，其特征在于，所述操作进一步包括：

接收指示所述话语(106)的语言的语言标识符(107)；以及

19.根据权利要求11-18中任一项所述的系统(500)，其特征在于，所述NOS模型(320)包括两个单向长短期记忆(LSTM)层。

20.根据权利要求11-19中任一项所述的系统(500)，其特征在于，所述语音识别模型(200)包括编码器-解码器架构，所述编码器-解码器架构包括具有多个Conformer层的Conformer编码器和具有两个LSTM层的LSTM解码器。