CN115039171A

CN115039171A - 使用有效文字标准化的语言无关的多语言建模

Info

Publication number: CN115039171A
Application number: CN202180011577.0A
Authority: CN
Inventors: 阿林德里马·达塔; 布瓦那·拉马巴德兰; 杰西·埃蒙德; 布赖恩·罗克
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-01-28
Filing date: 2021-01-19
Publication date: 2022-09-09
Also published as: EP4361897A2; US20210233510A1; US20230223009A1; EP4085451A1; WO2021154544A1; EP4085451B1; US11615779B2

Abstract

一种方法(600)包括获得多个训练数据集(202)，每个训练数据集与相应原生语言相关联并且包括多个相应训练数据样本(204)。对于相应所述原生语言的每个所述训练数据集(202)的每个相应所述训练数据样本(204)：方法包括转译相应所述原生文字的对应的所述转录为表示目标文字的对应的所述音频的相应所述原生语言的对应的转译文本(121)以及将目标文字的对应的转译文本与相应原生语言的对应的音频(210)相关联以生成相应标准化训练数据样本(240)。方法还包括使用该标准化训练数据样本，训练多语言E2E ASR模型(300)，以预测目标文字中的语音识别结果(120)，用于以与多个训练数据集相关联的不同原生语言中的任何所述原生语言说出的对应的语音话语(106)。

Description

使用有效文字标准化的语言无关的多语言建模

技术领域

本公开涉及使用有效文字标准化的语言无关的多语言建模。

背景技术

能够将语音转录成多种语言的自动语音识别(ASR)系统被称为多语言ASR系统，作为扩大ASR对世界语言的覆盖范围的有效方式而广受欢迎。通过跨不同语言共享模型元素的学习，传统的多语言ASR系统已经显示出优于单语言ASR系统，特别是对于那些可用的训练数据较少的语言。

传统的多语言ASR系统可以使用显著简化的基础设施来实施，这是由于可以仅用单个语音模型而不是用多个单独的模型来支持多种自然语言。然而，在大多数现有技术的多语言ASR系统中，仅声学模型(AM)实际上是多语言的，并且仍然需要单独的特定语言语言模型(LM)及其相关联的词典。

最近，端到端(E2E)模型已经显示出ASR的巨大前景，与传统的设备上ASR系统相比，它表现出改进的字错误率(WER)和延迟指标。这些E2E模型将AM、发音模型(PM)和LM折叠到一个网络中以直接学习语音到文本的映射，与具有单独AM、PM和LM的传统ASR系统相比，显示出具有竞争力的结果。代表性的E2E模型包括基于单词的连接主义时间分类(CTC)模型、循环神经网络转换器(RNN-T)模型和基于注意力的模型，例如听-注意-拼写(Listen,Attend,and Spell(LAS))。

虽然在语言信息上调节多语言E2E模型允许模型跟踪话语中的语言切换、调整语言采样率和/或基于训练数据分布添加其他参数，但对语言信息的依赖限制了多语言E2E模型的能力扩展到新的语言。此外，对于语码转换很常见的说话风格，例如在印度语言中，第二语言(例如英语)与主要母语(例如泰米尔语、孟加拉语、坎纳达语或印地语)的使用量的差异，调节模型对语言信息的依赖性也使得难以对发生语码转换的上下文以及口语单词应该被分配的语言进行建模。

发明内容

本公开的一个方面提供了一种用于训练多语言端到端(E2E)语音识别模型的计算机实施的方法。该计算机实施的方法，当在数据处理硬件上执行时，导致数据处理硬件执行操作，操作包括获得多个训练数据集，每个训练数据集与不同于其他训练数据集的相应原生语言的相应原生语言相关联。每个训练数据集包括多个相应的训练数据样本，每个训练样本包括以相应的原生语言说出的音频和表示相应原生语言的相应原生文字的音频的对应的转录。对于相应原生语言的每个训练数据集的每个相应训练数据样本：该操作还包括转译相应原生文字的对应的转录为表示目标文字的对应的音频的相应原生语言的对应的转译文本，以及将目标文字的对应的转译文本与相应原生语言的对应的音频相关联以生成相应标准化训练数据样本。该标准化的训练数据样本。相应的标准化训练数据样本包括以相应原生语言说出的音频和目标文字中相应的转译文本。该操作还包括使用从每个训练数据集的每个相应训练数据样本生成的标准化训练数据样本，并且在不提供任何语言信息的情况下，训练多语言E2E语音识别模型，以预测目标文字中的语音识别结果，用于以与多个训练数据集相关联的不同原生语言中的任何原生语言说出的对应的语音话语。

本公开的实现可以包括以下可选特征中的一个或多个。在一些实施方式中，转译相应原生文字的对应的转录为对应的转译文本包括使用与相应原生文字相关联的相应转译转换器将相应原生文字的对应的转录转译为目标文字的对应的转译文本。与相应原生文字相关联的转译转换器可以包括：输入转换器，输入转换器被配置为将相应原生文字中的Unicode符号输入为对语言模型中的符号；二元对语言模型转换器，二元对语言模型转换器被配置为在相应原生文字和目标文字中的符号之间进行映射；和输出转换器，输出转换器配置为将对语言模型中的符号映射到目标文字中的输出符号。在这些实施方式中，操作还可以包括，操作还包括在转译相应原生语言的对应的转录之前，使用基于一致性的数据预处理来训练每个相应转译转换器仅处理给定原生词的在转译文本的目标文字中具有至少一个拼写的转译对，给定原生词在与训练数据集相关联的相应原生语言中的每个原生语言中是通用的。备选地，操作可以可选地包括，操作还包括在转译相应原生语言的对应的转录之前，使用基于频率的数据预处理来训练每个相应转译转换器仅处理给定原生词的在转译文本的目标文字中具有拼写的转译对，给定原生词满足频率阈值。

在其他实施方式中，将相应原生文字的对应的转录转译成对应的转译文本包括或者使用有限状态转换器(FST)网络转译相应原生文字的对应的转录为对应的转译文本，或者使用语言无关的转译转换器将相应原生文字的对应的转录转译为目标文字的对应的转译文本。多语言E2E语音识别模型可以包括序列到序列神经网络。例如，多语言E2E语音识别模型可以包括循环神经网络转换器(RNN-T)。

在一些示例中，训练多语言E2E语音识别模型包括使用随机优化算法来训练多语言E2E语音识别模型。这些操作还可以包括，在训练多语言E2E ASR模型之前，对从每个训练数据集的每个相应训练数据样本生成的标准化训练数据样本进行混洗。在一些实施方式中，操作还包括，在训练多语言E2E ASR模型之后，将训练的多语言E2E ASR模型推送到多个用户设备，每个用户设备被配置为：使用与用户设备通信的至少一个麦克风来捕获用户设备的相应用户以与训练数据集相关联的相应原生语言的任意组合说出的话语；以及使用训练的多语言E2E ASR模型，为捕获的相应用户说出的话语生成目标文字的对应的语音识别结果。在这些实施方式中，多个用户设备中的至少一个用户设备可以还被配置为将目标文字的对应的语音识别结果转译为转译文字。

本公开的另一方面提供了一种用于训练多语言端到端(E2E)语音识别系统的系统。该系统包括用户设备的数据处理硬件和与数据处理硬件通信并存储指令的存储器硬件，该指令在由数据处理硬件执行时使数据处理硬件执行操作，该操作包括获得多个训练数据集每个训练数据集与不同于其他训练数据集的相应原生语言的相应原生语言相关联。每个训练数据集包括多个相应的训练数据样本，每个训练样本包括以相应的原生语言说出的音频和表示相应原生语言的相应原生文字的音频的对应的转录。对于相应原生语言的每个训练数据集的每个相应训练数据样本：该操作还包括转译相应原生文字的对应的转录为表示目标文字的对应的音频的相应原生语言的对应的转译文本，以及将目标文字的对应的转译文本与相应原生语言的对应的音频相关联以生成相应标准化训练数据样本。该标准化的训练数据样本。相应的标准化训练数据样本包括以相应原生语言说出的音频和目标文字中相应的转译文本。该操作还包括使用从每个训练数据集的每个相应训练数据样本生成的标准化训练数据样本，并且在不提供任何语言信息的情况下，训练多语言E2E语音识别模型，以预测目标文字中的语音识别结果，用于以与多个训练数据集相关联的不同原生语言中的任何原生语言说出的对应的语音话语。

本公开的该方面可以包括以下可选特征中的一个或多个。在一些实施方式中，转译相应原生文字的对应的转录为对应的转译文本包括使用与相应原生文字相关联的相应转译转换器将相应原生文字的对应的转录转译为目标文字的对应的转译文本。与相应原生文字相关联的转译转换器可以包括：输入转换器，输入转换器被配置为将相应原生文字中的Unicode符号输入为对语言模型中的符号；二元对语言模型转换器，二元对语言模型转换器被配置为在相应原生文字和目标文字中的符号之间进行映射；和输出转换器，输出转换器配置为将对语言模型中的符号映射到目标文字中的输出符号。在这些实施方式中，操作还可以包括，操作还包括在转译相应原生语言的对应的转录之前，使用基于一致性的数据预处理来训练每个相应转译转换器仅处理给定原生词的在转译文本的目标文字中具有至少一个拼写的转译对，给定原生词在与训练数据集相关联的相应原生语言中的每个原生语言中是通用的。备选地，操作可以可选地包括，操作还包括在转译相应原生语言的对应的转录之前，使用基于频率的数据预处理来训练每个相应转译转换器仅处理给定原生词的在转译文本的目标文字中具有拼写的转译对，给定原生词满足频率阈值。

本公开的一个或多个实施方式的细节在附图和以下描述中阐述。通过说明书、和附图、以及权利要求书，其他方面、特征和优点将变得显而易见。

附图说明

图1是示例性语言无关的多语言语音识别系统的示意图。

图2是训练图1的多语言语音识别系统的示例性训练过程。

图3是示例性循环神经网络转换器(RNN-T)架构。

图4是与相应原生语言相关联的示例性转译转换器的示意图。

图5是说明有限状态转换器网络的示例的图解的示意图。

图6是用于训练语言无关的端到端语音识别模型的方法的示例性操作布置的流程图。

图7是可用于实现本文描述的系统和方法的示例计算设备的示意图。

在各个附图中，相同的附图符号表示相同的元件。

具体实施方式

图1示出了自动语音识别(ASR)系统100，该自动语音识别(ASR)系统100实施了驻留在各种印度语(Indic)用户104、104a-d的用户设备102、102a-d上的语言无关的端到端(E2E)ASR模型300。具体地，用户设备102a的用户104a说孟加拉语(Bengali)作为他/她相应的原生语言(native language)，第二用户设备102b的用户104b将说印地语(Hindi)作为他/她相应的原生语言，用户设备102c的用户104c说坎纳达语(Kannada)作为他/她相应的原生语言，以及用户设备102d的用户104d说泰米尔语(Tamil)作为他/她相应的原生语言。虽然所示示例描绘了驻留在用户设备102上的ASR系统100，但ASR系统100的一些或所有组件可以驻留在与用户设备102通信的远程计算设备上(例如，在云计算环境中执行的分布式系统的一个或多个服务器)。此外，其他用户104可以说其他印度语或其他方言的语言，例如但不限于英语、法语、西班牙语、汉语、德语和/或日语。尽管用户设备102被描绘为移动电话，但用户设备102可以对应于任何类型的计算设备，例如但不限于平板设备、膝上型/台式计算机、可穿戴设备、数字助理设备、智能扬声器/显示器、智能家电、车用信息娱乐系统或物联网(IoT)设备。

每个用户设备102包括音频子系统108，该音频子系统108被配置为接收用户104以他们相应的原生语言说出的话语106(例如，用户设备102可以包括一个或多个麦克风，用于记录说出的话语106)并将话语106转换成与能够由ASR系统100处理的输入声学帧110相关联的对应数字格式。在所示示例中，每个用户104以英语单词“Discovery”的相应原生语言说出相应的话语106、106a-d”并且音频子系统108将每个话语106、106a-d转换为相应的声学帧110、110a-d以输入到ASR系统100。这里，声学帧110a与以相应孟加拉语原生语言说出的音频相关联，声学帧110b与以相应印地语原生语言说出的音频相关联，声学帧110c与以相应坎纳达语原生语言说出的音频相关联，以及声学帧110d与以相应泰米尔语原生语言说出的音频相关联。此后，多语言E2E ASR模型300接收对应于每个话语106的声学帧110作为输入，并且生成/预测目标文字(script)的话语106的对应的转录(例如，识别结果)120作为输出。因此，每个对应的转录120代表用相同目标文字的对应话语/音频106的相应原生语言。如本文所用，术语“文字(script)”一般指包括用于表示自然语言的符号系统的书写系统。示例文字包括拉丁文(Latin)、西里尔文(Cyrillic)、希腊文(Greek)、阿拉伯文(Arabic)、印度文(Indic)或任何其他书写系统。在所示示例中，目标文字包括拉丁文，使得每个对应的识别结果120a、120b、120c、120d表示相同目标文字拉丁文的对应的话语106a、106b、106c、106d的相应原生语言。因此，当每个用户104以包括孟加拉语、印地语、坎纳达语和泰米尔语的相应原生语言说出英语单词“Discovery”的话语106时，多语言E2EASR模型300被配置为生成/预测相应的拉丁文的相同目标文字的语音识别结果120，使得每个识别结果120a、120b、120c、120d用拉丁文的相同目标文字，例如“Discovery”。在一些示例中，一个或多个用户104讲混码(codemixed)话语106，其包括以他们各自的原生语言以及诸如英语、另一种印度语或一些其他自然语言的第二语言的词的混码。在这些示例中，对于接收到的每个混码话语106，ASR模型300将类似地生成/预测相同目标文字，例如拉丁文，的的对应语音识别结果。

在一些配置中，ASR系统100可选地包括转译模块400，该转译模块400被配置为将从用目标文字的多语言E2E ASR模型300输出的语音识别结果120转译成任何合适的转译文字121。例如，转译模块400可以转译以下的每一个：将与说孟加拉语的用户104a相关的语音识别结果120a从拉丁文目标文字转译成孟加拉语文字121a；将与说印地语的用户104b相关联的语音识别结果120b从拉丁文目标文字转译成印地语文字121b；将与说坎纳达语的用户104c相关联的语音识别结果120c从拉丁文目标文字转译成坎纳达语文字121c；将与说泰米尔语的用户104d相关联的语音识别结果120d从拉丁文目标文字转译成泰米尔语文字121d。转译模块400可以使用有限状态转换器(FST)网络来执行转译。

在所示示例中，用户设备102还执行用户界面生成器107，用户界面生成器107被配置为向用户设备102的相应用户104呈现ASR系统100的语音识别结果120、121的表示。在一些配置中，从ASR系统100输出的目标文字和/或转译文字121的语音识别结果120，例如，由在用户设备102或远程设备上执行的自然语言理解(NLU)模块处理，以执行用户命令。在一个示例中，转译模块400将与说第一相应原生语言(例如，孟加拉语)的第一用户104a相关联的目标文字的语音识别结果120转译成表示由第二用户104a说的第二不同的相应原生语言(例如，印地语)的转译文字121。在该示例中，转译文字121可以表示第二用户104b所说的第二相应原生语言，用于第一用户104a以第一相应原生语言说出的可听话语106a。这里，第二用户设备102b上的用户界面生成器107可以将转译文字121呈现给第二用户104。另外或替代地，文本到语音系统(例如，在第一用户设备104a、第二用户设备102b或远程系统的任何组合上执行)可以将转译文字121转换成合成语音，以供第二用户设备102b以第二用户104b所说的第二相应原生语言(例如印地语)的可听输出。

当ASR系统100包括转译模块400时，转译文字的语言可以基于与提供对应的话语106的用户相关联的原生语言、或与接收用户104b相关联的原生语言，与说出源话语106的原生语言相比，该接收用户104b说不同的原生语言。有多种方式来确定转译文字121的语言。例如，用户的语言偏好可以由用户在其用户设备上执行语音识别程序时明确设置。同样，提供话语的用户可以在语言翻译的上下文中明确设置/输入接收用户的原生语言。在另外的示例中，用户的语言偏好可以基于用户设备102所在的地理区域。或者，语言识别系统可以基于每个话语来识别始发话语的语言，使得用目标文字的语音识别结果可以被转译回话语的用户所说的始发语言。

多语言E2E ASR模型300可以实现任何类型的序列到序列神经网络架构。例如，多语言E2E ASR模型300实现了听-注意-拼写(LAS)神经网络架构。在一些实施方式中，多语言E2E ASR模型300使用遵循与交互式应用相关联的延迟约束的循环神经网络转换器(RNN-T)模型架构。参考图3，示例多语言E2E ASR模型300包括编码器网络310、预测网络320和联合网络(joint network)330。编码器网络310大致类似于传统ASR系统中的声学模型(AM)，包括堆叠的长短期记忆(LSTM)层的循环网络。例如，编码器读取d维特征向量的序列(例如，声学帧110(图1))向量x＝(x₁,x₂,···,x_T)，其中

并且在每个时间步(timestep)产生更高阶的特征表示。

这种更高阶的特征表示表示为

类似地，预测网络320也是LSTM网络，其像语言模型(LM)一样将由最终柔性最大值(Softmax)层340目前为止输出的非空白符号序列，y₀,...,y_ui-1,处理成稠密表示(denserepresentation)

最后，利用RNN-T模型架构，由编码器和预测网络310、320产生的表示由联合网络330组合。然后联合网络预测

这是在下一个输出符号上的分布。柔性最大值层340可以采用任何技术来选择分布中具有最高概率的输出符号作为模型300预测的下一个输出符号。以这种方式，多语言RNN-T模型300不做出条件独立性假设，相反，每个符号的预测不仅取决于声学，还取决于目前为止输出的标签序列。多语言RNN-T模型300确实假设输出符号独立于未来的声学帧110，这允许以串流方式(streamingfashion)使用多语言RNN-T模型。

在一些示例中，多语言RNN-T模型300的编码器网络310由八个2,048维LSTM层组成，每个层后跟一个640维投影层。预测网络320可以有两个2048维的LSTM层，每个层后跟一个640维的投影层。最后，联合网络330也可以有640个隐藏单元。柔性最大值层可以由来自所有语言的统一字素集(即总共988个字素)组成，其是使用多个训练数据集202(图2)中的所有独一字素(unique grapheme)生成的。

与需要在训练期间使用音频输入对语言信息进行编码的大多数最先进的多语言模型相反，本文的实施方式针对语言无关的多语言E2E ASR模型300，使得没有语言信息(例如，嵌入(embedding)、向量、标签等)与输入声学帧110一起提供以识别与输入声学帧110相关联的语言。此外，如下文更详细讨论的，多语言E2E ASR模型300不是在训练期间以任何语言信息为条件，使得模型300被配置为接收任何自然语言的训练音频并学习预测音频的目标文字的语音识别结果120，该音频与独立于与该音频相关的相应自然语言的相同目标文字的相应参考转录相匹配。显而易见，将多语言E2E ASR模型300训练为与语言无关，允许模型的所有参数在表示输入声学帧110的所有自然语言之间共享。模型的这种数据和参数共享不仅改进了计算成本、改进延迟和减少模型300的内存限制，模型300还能够为数据稀缺的语言提供好处，并能够随时在新的或不同的语言上训练模型300，从而提供可扩展的和在多种不同的多元文化社会中多语言语音识别的统一模型，在这样的多元文化社会中，几种语言经常一起使用(但通常使用不同的书写系统呈现)。也就是说，通过不依赖于语言信息限制，语言无关的多语言E2E ASR模型300可以扩展到较新的语言，并适用于接受在训练期间使用的语言中所说的混码话语。

此外，对于印度语言，由于第二语言(例如，通常是英语)与泰米尔语、孟加拉语或印地语等原生语言的一同使用存在相当大的变化性，因此会话中的语码转换带来了额外的挑战。因此，很难对发生语码转换的上下文以及口语单词应该分配到的语言进行建模。不一致的转录和文本标准化进一步加剧了这个问题。尽管由于语族关系和/或母语者的地理和文化接近度，印度语言在声学和词汇内容上经常重叠，但各自的书写系统占用不同的Unicode块，导致转录不一致。也就是说，在原生语言书写系统中，一个常见的词、作用段(workpiece)或音素可以用多种变体来实现，从而导致在训练模型300时数据共享的混乱和效率低下。

参考图2，用于构建/训练语言无关的多语言E2E ASR模型300的示例训练过程200包括通过多对一转译模块400将用于训练模型的所有语言转换成一个书写系统(例如，目标文字)。通过转译成一个共同的书写系统，ASR模型300将能够将相似的发声声响(soundingacoustics)映射到一个单一的、规范的字素目标序列，与传统的依赖于语言的多语言模型相比，有效地分离建模和渲染问题。如本文所用，转译是指旨在将文本/文字从一种书写系统转换为另一种书写系统的序列到序列映射问题

计算设备201，例如在云计算环境中的分布式系统上执行的远程服务器，可以执行训练过程200并且随后将训练的语言无关的多语言E2E ASR模型300推送到用户设备102以在设备上生成语音识别结果。附加地或替代地，训练模型300可以在计算设备201上执行，用于基于从用户设备102接收的声学帧110生成目标文字的语音识别结果120。

训练过程200获得多个训练数据集202、202a-n，每个训练数据集与不同于其他训练数据集202的相应原生语言的相应原生语言相关联。这里，每个训练数据集202包括多个相应的训练数据样本204、204a-n，其中每个训练样本204包括以相应的原生语言说出的音频210(例如，可听话语)和表示相应原生语言的相应原生文字的音频210的对应的转录220。

对于相应原生语言的每个训练数据集202的每个相应训练数据样本204，训练过程200将相应原生语言中的对应的转录220转译成相应的转译文本221，该转译文本221表示目标文字的对应的音频210的相应原生语言。也就是说，训练过程将所有不同原生语言的转录的原生文字转译成相同的目标文字，由此目标文字与不同的书写系统相关联，而不是与关联于每个原生文字的书写系统相关联。在一些示例中，目标文字包括表示拉丁文书写系统的拉丁文字。在所示示例中，训练过程200使用多对一转译模块400将原生文字的转录220转译成目标文字的对应转译文本221。

参考图2和图4，在一些实施方式中，转译模块400包括多个转译转换器400、400a-n，每个都与相应的原生语言相关联，用于将表示相应原生语言的相应原生文字转译成目标文字的转译文本221。例如，图4示出了与相应原生文字相关联并且包括三个转换器的组合的每个转译转换器400a-n：I°P°O，其中I包括被配置为将Unicode符号映射到对语言模型(pair language model)中的符号的输入转换器,P包括一个二元对语言模型转换器，其被配置为在相应原生文字和目标文字(例如，孟加拉文-拉丁文；印地文-拉丁文；坎纳达文-拉丁文；和泰米尔文-拉丁文)中的符号之间进行映射，以及O包括输出转换器，其被配置为将对语言模型符号映射到目标文字的目标输出符号(例如，拉丁文)。每个对语言模型转换器P包括一个基于“对”符号的n元(n-gram)模型，该符号具有与输出Unicode代码点配对的输入Unicode代码点。因此，与字素到音素的转换一样，给定一个输入词典，包括原生文字单词和这些单词的拉丁文字实现(例如，称为罗马字记法(Romanizations))，期望最大化用于导出原生和拉丁文字中符号之间的成对对齐(pairwise alignments)。图5显示了将梵文书写文字转译成拉丁文字的示例转译转换器。通过将来自转译转换器的联合概率除以所有输入和输出序列上的边缘化和(marginalization sum)来获得转译词(例如，浏览器)的条件概率。该计算通过计算转译转换器400中的最短路径有效地实现。

如上所述，用于训练每个转译转换器400的每对语言模型转换器P的输入包括由原生文字单词和可能的拉丁文字罗马字记法形成的相应转译对。如本文所用，“转译对”(可互换地称为“转译对”或“原生转译词对”)是指原生文字中的单词(例如，孟加拉语、印地语、坎纳达语、或泰米尔语中的相应单词)与目标文字中相应的单词拼写配对(例如，拉丁文字罗马字记法)。然而，可能的拉丁文字罗马字记法可能会导致单词以各种不同的方式拼写，因为拉丁文字中没有标准的拼写法。表1显示了英语单词“discovery”在孟加拉语、印地语、坎纳达语和泰米尔语四种印度语言中的每一种的原生语言拼写，并在转换器训练数据中证明了该单词的罗马字记法。

表1

表1显示，虽然英语单词的实际拼写在所有四种印度原生语言中都得到了证实，但每种语言的注释器可能在他们建议的罗马字记法的数量和种类上有所不同。注释器的这种差异可能由许多因素驱动，包括发音差异或简单的个体差异。不幸的是，当用转译文本221训练多语言ASR模型300时，转译文本221中跨语言的拼写不一致会造成混淆并减少跨语言的预期知识共享。为了减轻转译转换器为同一个单词转译多个不同的目标文字拼写的这些不一致，可以采用基于一致性(agreement-based)的数据预处理技术或基于频率(frequency-based)的数据预处理技术。

在基于一致性的数据预处理中，与相应原生语言相关联的每个转译转换器400被配置为仅处理在转译文本221的目标文字中具有至少一个共同拼写的转译对。例如，在以上示例中其中“Discovery”的目标文字拼写在孟加拉语、印地语、坎纳达语和泰米尔语四种印度语言中的每一种中都是通用的，与该四种印度语言中的每一种相关联的转译转换器400可以被训练为仅处理目标文字拼写“Discovery”，同时保留所有其他拼写未处理。即，在基于一致性的预处理中，用于将孟加拉语转译为拉丁文的转译转换器400a被训练为仅处理目标文字拼写“Discovery”而不处理“discoveri”、“diskovary”、“diskovery”和“diskoveri”的其他可能拼写。下面的表2提供了用于在基于一致性的预处理技术上训练转译转换器400的示例算法。

表2

除了原生转译词对之外，训练数据还包含相应原生文字中单词的所有转译形式的出现频率。通过利用这些出现频率，基于频率的数据预处理技术可以转换每种语言的所有转译对。此外，基于频率的数据预处理也可能依赖于经验观测，即形成的最频繁转译对通常与专有名词的常用拼写和/或英语单词的实际字典拼写相关。因此，当训练数据包括给定原生单词的转译文本221的目标文本中的多个不同拼写时，每个相应的转译转换器400被配置为仅处理/保留具有满足频率阈值的拼写的目标文字并弃置其余部分。在一些示例中，频率阈值包括训练数据中每个原生单词的平均转译频率。下面的表3提供了用于在基于频率的预处理技术上训练转译转换器400的示例算法。

表3

返回参考图2，在另外的实施方式中，多对一转译模块400包括独立于语言的转译转换器，其被配置为将每个相应的原生文字的每个对应的转录220转译成目标文字的对应的转译文本221。因此，不必单独训练各自与相应语言相关联的单独的转译转换器400。

在将相应原生文字的相应转录220转译成表示目标文字的对应的音频210的相应原生语言的对应的转译文本221之后，图2示出了将目标文字的对应的转译文本221与相应原生语言的对应的音频210相关联以生成相应标准化训练数据样本240的训练过程200。这里，标准化器230从相应的训练数据样本204接收以相应原生语言说出的音频210和从转译模块400输出的对应的转译文本221，以生成相应的标准化训练数据样本240。虽然该示例显示目标文字的转译文本221替换相应原生文字的对应的转录220，但标准化训练数据样本240还可以在对应的音频210和转译文本221之外包括转录220。此后，数据存储260(例如，驻留在计算系统201的存储器硬件上)可以存储对应于接收到的训练数据集202中的各个数据的标准化训练集205、205a-n,202a-n。也就是说，每个标准化训练集205包括多个相应的标准化训练样本240、240a-n，由此每个相应的标准化训练样本240包括以相应原生语言说出的音频210(例如，可听话语)和表示目标文字的音频210的相应原生语言的对应的转译文本221。

在所示示例中，训练过程200使用从每个训练数据集202的每个相应训练数据样本204生成的标准化训练数据样本240并且不提供任何语言信息，来训练多语言E2E ASR模型300，以预测目标文字(例如，拉丁文)的语音识别结果120，用于以与多个训练数据集202相关联的任何不同的原生语言(例如，孟加拉语、印地语、坎纳达语和泰米尔语)中的任何一种说的对应的语音话语106。如上所述，模型300被训练而不以与作为输入提供的标准化训练数据样本240相关联的任何语言信息为条件，使得模型300无关于作为输入提供的音频210的自然语言。在一些示例中，训练多语言E2E ASR模型300包括混洗标准化训练数据样本240，使得作为训练输入接收的标准化训练数据样本240序列包括以自然语言的任何组合和顺序随机选择的音频210。这样做时，模型300的多语言训练可以被优化，使得模型300在模型是通过根据相应原生语言来对标准化训练数据样本240进行分组来训练的的情况中时，不学习应用偏重于一种特定语言的权重。

多语言E2E ASR模型300的训练通常包括使用随机优化算法，例如随机梯度下降，以通过反向传播来训练模型300的神经网络架构。这里，随机优化算法基于神经网络的实际输出(例如，目标文字的识别结果120)与期望输出(例如，表示目标文字的音频210的相应原生语言的转译文本221)之间的差异来定义损失函数(例如，交叉熵损失函数)。例如，为一批训练示例计算损失函数，然后针对模型300中的每个权重进行差异。

此外，训练过程200考虑了跨多个数据集202的数据不平衡。数据不平衡是世界语言中说话者的不同分布的自然结果。拥有更多发言者的语言往往更容易产生转录数据。虽然一些ASR系统可能只在转录语音数据上训练AM，但多语言E2E模型中的所有组件都在转录语音数据上训练。因此，多语言E2E模型可能对数据不平衡更加敏感。也就是说，多语言E2EASR模型300往往更容易受到训练数据集202中过表达(over-represented)的原生语言的影响。过度影响的幅度在没有提供语言信息/标识符的即时情况下更为明显(例如，没有与训练音频或语言模型一起编码的语言标识符)。

在一些实施方式中，为了解决跨多个数据集202的数据不平衡，训练过程首先用不同的噪声样式(styles)来扩充多个训练数据集202。在这些实施方式中，通过观察与导致模型300性能下降的最低资源语言(例如，坎纳达语)相关联的训练数据集202中的噪声副本的计数来凭经验确定每种语言的数据增强程度。基于噪声副本的计数，与剩余的原生语言相关联的训练数据集202被增加目标数量的噪声样式，以致使用于训练模型300的每种原生语言的等量数据。

图6提供了用于训练语言无关的多语言E2E ASR模型300的方法600的示例操作布置的流程图。在操作602，方法600包括获得多个训练数据集202，每个训练数据集与不同于其他训练数据集202关联的相应原生语言的相应原生语言相关联。这里，每个训练数据集202包括多个相应的训练数据样本204，每个训练样本204包括以相应的原生语言说出的音频210和表示相应原生语言的相应原生文字的音频的对应的转录220。

对于相应原生语言的每个训练数据集的每个相应训练数据样本204，方法600包括，在操作604，将相应原生语言的对应的转录220转译成对应的转译文本221。这里，转译文本221表示目标文字的相应音频210的相应原生语言。此后，对于相应原生语言的每个训练数据集202的每个相应训练数据样本204，方法600包括，在操作606，将目标文字的对应的转译文本221与相应原生语言的对应的音频210相关联，以生成相应的标准化训练数据样本240。这里，相应标准化训练数据样本240包括以相应原生语言说出的音频210和目标文字的对应的转译文本221。

在操作608，方法600包括使用从每个训练数据集的每个相应训练数据样本生成的标准化训练数据样本，并且在不提供任何语言信息的情况下，训练多语言E2E ASR模型300，以预测目标文字的语音识别结果120，用于以与多个训练数据集202相关联的不同原生语言中的任何所述原生语言说出的对应的语音话语106。训练模型300可以包括使用随机优化算法，例如随机梯度下降。

软件应用(即，软件资源)可以指使计算设备执行任务的计算机软件。在一些示例中，可以将软件应用称为“应用”、“应用程序”、或者“程序”。示例应用包括：但不限于，系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息应用、媒体流应用、社交网络应用、和游戏应用。

非易失性存储器可以是用于在暂时或者持久基础上存储供计算设备使用的程序(例如，指令序列)或者数据(程序状态信息)的物理设备。非易失性存储器可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括，但不限于：闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除编程只读存储器(EPROM)/电可擦除编程只读存储器(EEPROM)(例如，通常用于诸如为引导程序的固件)。易失性存储器的示例包括：但不限于，随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)、以及光盘或者磁带。

图7是可用于实现本文档描述的系统和方法的示例计算设备700的示意图。计算设备700旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片式服务器、大型计算机、和其它合适的计算机。本文所示的部件、它们的连接和关系、以及它们的功能仅仅旨在作为示例，并且不旨在限制本文档中描述的和/或者要求保护的本发明的实施。

计算设备700包括：处理器710(例如，数据处理硬件)、存储器720、存储设备730、连接至存储器720和高速扩展端口750的高速接口/控制器740、和连接至低速总线770和存储设备730的低速接口/控制器760。通过使用不同的总线将每个部件710、720、730、740、750、和760互相连接，并且可以将上述每个部件安装在公共主板上、或者根据需要以其它的方式安装上述每个部件。处理器710可以对在计算设备700内执行的指令进行处理，指令包括存储在存储器720中或者存储设备730上以在外部输入/输出设备上显示图形用户界面(GUI)的图形信息的指令，外部输入/输出设备诸如为耦合至高速接口740的显示器780。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多种存储器一起使用。同样，可以连接多个计算设备700，每个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。

存储器720将信息非暂时性地存储在计算设备700内。存储器720可以是计算机可读介质、(多个)易失性存储器单元、或者(多个)非易失性存储器单元。非易失性存储器720可以是用于在暂时或者持久基础上存储供计算设备700使用的程序(例如，指令序列)或者数据(程序状态信息)的物理设备。非易失性存储器的示例包括，但不限于：闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除编程只读存储器(EPROM)/电可擦除编程只读存储器(EEPROM)(例如，通常用于诸如为引导程序的固件)。易失性存储器的示例包括：但不限于，随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)、以及光盘或者磁带。

存储设备730能够为计算设备700提供海量存储。在一些实施方式中，存储设备730是计算机可读介质。在各种不同的实施方式中，存储设备730可以是软盘设备、硬盘设备、光盘设备、或者磁带设备、闪存或者其它相似的固态存储器设备、或者设备阵列，包括：在存储区域网络或者其它配置中的设备。在附加实施方式中，计算机程序产品有形地体现为信息载体。计算机程序产品包含指令，该指令在被执行时执行一种或者多种方法，诸如，上文描述的方法。信息载体是计算机可读介质或者机器可读介质，

诸如，存储器720、存储设备730、或者在处理器710上的存储器。

高速控制器740管理计算设备700的带宽密集型操作，而低速控制器760管理较低带宽的密集型操作。这种功能分配仅仅是示例性的。在一些实施方式中，高速控制器740耦合至存储器720、显示器780(例如，通过图形处理器或者加速器)耦合至高速扩展端口750，该高速扩展端口1150可以接受各种扩展卡(未示出)。在一些实施方式中，低速控制器760耦合至存储设备730和低速扩展端口790。低速扩展端口790可以包括各种通信端口(例如，USB、蓝牙、以太网，和无线以太网)，可以，例如通过网络适配器，耦合至一个或者多个输入/输出设备，例如，键盘、指向设备、扫描器、或者诸如交换机或者路由器的网络设备。

如图所示，可以利用多种形式来实施计算设备700。例如，可以将它实施为标准服务器700a、或者多次实施在一组这种服务器700a中、或者实施为膝上型计算机700b、或者实施为机架式服务器系统700c的一部分。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统和/或光学电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用的，可以从存储系统、至少一个输入设备、和至少一个输出设备接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入设备、和该至少一个输出设备。

这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、非暂时性计算机可读介质、设备、和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

可以通过一个或者多个可编程处理器来执行本说明书中所描述的过程和逻辑流程，该一个或者多个可编程处理器执行一个或者多个计算机程序以通过操作输入数据并且生成输出来执行功能。也可以通过诸如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)的专用逻辑电路来执行过程和逻辑流程。适合执行计算机程序的处理器包括：例如，通用微处理器、专用微处理器、以及任何种类的数字计算机的任何一个或者多个处理器。一般而言，处理器将接收来自只读存储器或者随机存取存储器或者两者的指令和数据。计算机的必要元件是：用于执行指令的处理器、和用于存储指令和数据的一个或者多个存储器设备。一般而言，计算机还将包括用于存储数据的一个或者多个海量存储设备，或者计算机可以操作地耦合以接收来自该一个或者多个海量存储设备的数据或者将数据传输至该一个或者多个海量存储设备或者进行两者,该海量存储设备例如为磁盘、磁光盘、或者光盘。然而，计算机不必具有这种设备。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，包括，例如，半导体存储设备(例如EPROM，EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动磁盘)、磁光盘、以及CD ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路系统补充或者可以并入该专用逻辑电路系统中。

为了提供与用户的交互，可以在计算机上实施本公开的一个或者多个方面，该计算机具有：用于向用户显示信息的显示设备，例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器、或者触摸屏、以及可选地包括键盘和指向设备(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向设备来将输入提供给计算机。其它种类的设备可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈，例如，视觉反馈、听觉反馈或者触觉反馈；并且可以用包括声输入、语音输入或者触觉输入的任何形式来接收来自用户的输入。另外，计算机可以通过将文档发送到用户所使用的设备并且接收来自该设备的文档，来与用于交互，例如，通过响应于从网络浏览器接收的请求来将网页发送至在用户的客户端设备上的网络浏览器。

已经描述了多个实施方式。然而，可理解的是，在不脱离本公开的精神和范围的情况下，可以进行各种修改。因此，其他实施方式在所附权利要求的范围内。

Claims

1.一种计算机实施的方法(600)，其特征在于，当在数据处理硬件(710)上执行时，使所述数据处理硬件(710)执行操作，所述操作包括：

获得多个训练数据集(202)，每个所述训练数据集与不同于其他训练数据集(202)的相应原生语言的相应所述原生语言相关联，每个所述训练数据集(202)包括多个相应训练数据样本(204)，每个相应所述训练数据样本(204)包括以相应所述原生语言说出的音频(210)和以表示相应所述原生语言的相应原生文字的所述音频(210)的对应的转录(220)；

对于以相应所述原生语言的每个所述训练数据集(202)的每个相应所述训练数据样本(204)：

将以相应所述原生文字的对应的所述转录(220)转译为以目标文字的表示对应的所述音频(210)的相应所述原生语言的对应的转译文本(221)；以及

将以所述目标文字的对应的所述转译文本(221)与以相应所述原生语言的对应的所述音频(210)相关联，以生成相应的标准化训练数据样本(240)，相应的所述标准化训练数据样本(240)包括以相应所述原生语言说出的所述音频(210)和以所述目标文字的对应的所述转译文本(221)；和

使用从每个所述训练数据集(202)的每个相应所述训练数据样本(204)所生成的所述标准化训练数据样本(240)，并且在不提供任何语言信息的情况下，训练多语言端到端语音识别模型(300)，以预测用于以与多个所述训练数据集(202)相关联的不同所述原生语言中的任何所述原生语言说出的对应的语音话语(106)的以所述目标文字的语音识别结果(120)。

2.根据权利要求1所述的计算机实施的方法(600)，其特征在于，转译以相应所述原生文字的对应的所述转录(220)包括，使用有限状态转换器(FST)网络将以相应所述原生文字的对应的所述转录(220)转译为对应的所述转译文本(221)。

3.根据权利要求1所述的计算机实施的方法(600)，其特征在于，将以相应所述原生文字的对应的所述转录(220)转译为对应的所述转译文本(221)包括，使用与相应所述原生文字相关联的相应转译转换器(400)将以相应所述原生文字的对应的所述转录(220)转译为以目标文字的对应的所述转译文本(221)。

4.根据权利要求3所述的计算机实施的方法(600)，其特征在于，与相应所述原生文字相关联的所述转译转换器(400)包括：

输入转换器，所述输入转换器被配置为将相应所述原生文字中的Unicode符号输入为对语言模型中的符号；

二元对语言模型转换器，所述二元对语言模型转换器被配置为在相应所述原生文字和所述目标文字中的符号之间进行映射；和

输出转换器，所述输出转换器配置为将所述对语言模型中的符号映射到所述目标文字中的输出符号。

5.根据权利要求3或4所述的计算机实施的方法(600)，其特征在于，所述操作还包括，在转译以相应所述原生语言的对应的所述转录(220)之前，使用基于一致性的数据预处理来训练每个相应所述转译转换器(400)，以仅处理对于给定原生词在所述转译文本(221)的所述目标文字中具有至少一个拼写的转译对，所述给定原生词在与所述训练数据集(202)相关联的相应所述原生语言中的每个所述原生语言中是通用的。

6.根据权利要求3或4所述的计算机实施的方法(600)，其特征在于，所述操作还包括，在转译以相应所述原生语言的对应的所述转录(220)之前，使用基于频率的数据预处理来训练每个相应所述转译转换器(400)，以仅处理对于给定原生词在所述转译文本(221)的所述目标文字中具有拼写的转译对，所述给定原生词满足频率阈值。

7.根据权利要求1-6中任一项所述的计算机实施的方法(600)，其特征在于，将以相应所述原生文字的对应的所述转录(220)转译为对应的所述转译文本(221)包括，使用语言无关的转译转换器(400)将以相应所述原生文字的对应的转录(220)转译为以所述目标文字的对应的所述转译文本(221)。

8.根据权利要求1-7中任一项所述的计算机实施的方法(600)，其特征在于，所述多语言端到端语音识别模型(300)包括序列到序列神经网络。

9.根据权利要求1-8中任一项所述的计算机实施的方法(600)，其特征在于，所述多语言端到端语音识别模型(300)包括循环神经网络转换器(RNN-T)。

10.根据权利要求1-9中任一项所述的计算机实施的方法(600)，其特征在于，训练所述多语言端到端语音识别模型(300)包括使用随机优化算法来训练所述多语言端到端语音识别模型(300)。

11.根据权利要求1-10中任一项所述的计算机实施的方法(600)，其特征在于，所述操作还包括，在训练所述多语言端到端语音识别模型(300)之前，对从每个所述训练数据集(202)的每个相应所述训练数据样本(204)所生成的所述标准化训练数据样本(240)进行混洗。

12.根据权利要求1-11中任一项所述的计算机实施的方法(600)，其特征在于，所述操作还包括，在训练所述多语言端到端语音识别模型(300)之后，推送训练的所述多语言端到端语音识别模型(300)到多个用户设备(102)，每个所述用户设备(102)被配置为：

使用与所述用户设备(102)通信的至少一个麦克风来捕获所述用户设备(102)的相应用户以与所述训练数据集(202)相关联的相应所述原生语言的任意组合说出的话语(106)；以及

使用训练的所述多语言端到端语音识别模型(300)，生成用于捕获的相应所述用户说出的所述话语(106)的以所述目标文字的对应的所述语音识别结果(120)。

13.根据权利要求12所述的计算机实施的方法(600)，其特征在于，多个所述用户设备(102)中的至少一个所述用户设备(102)还被配置为将以所述目标文字的对应的所述语音识别结果(120)转译为所述转译文字(121)。

14.一种系统(100)，其特征在于，包括：

数据处理硬件(710)；和

与所述数据处理硬件通信的存储硬件(720)，所述存储硬件(720)存储指令，所述指令在所述数据处理硬件上执行时使所述数据处理硬件执行以下操作：

获得多个训练数据集(202)，每个所述训练数据集与不同于其他训练数据集(202)的相应原生语言的相应所述原生语言相关联，每个所述训练数据集(202)包括多个相应训练数据样本(204)，每个相应所述训练数据样本包括以相应所述原生语言说出的音频(210)和以表示相应所述原生语言的相应原生文字的所述音频(210)的对应的转录(220)；

15.根据权利要求14所述的系统(100)，其特征在于，转译以相应所述原生文字的对应的所述转录(220)包括，使用有限状态转换器(FST)网络将以相应所述原生文字的对应的所述转录(220)转译为对应的所述转译文本(221)。

16.根据权利要求14所述的系统(100)，其特征在于，将以相应所述原生文字的对应的所述转录(220)转译为对应的所述转译文本(221)包括，使用与相应所述原生文字相关联的相应转译转换器(400)将以相应所述原生文字的对应的所述转录(220)转译为以目标文字的对应的所述转译文本(221)。

17.根据权利要求16所述的系统(100)，其特征在于，与相应所述原生文字相关联的所述转译转换器(400)包括：

18.根据权利要求16或17所述的系统(100)，其特征在于，所述操作还包括，在转译以相应所述原生语言的对应的所述转录(220)之前，使用基于一致性的数据预处理来训练每个相应所述转译转换器(400)，以仅处理对于给定原生词在所述转译文本(221)的所述目标文字中具有至少一个拼写的转译对，所述给定原生词在与所述训练数据集(202)相关联的相应所述原生语言中的每个所述原生语言中是通用的。

19.根据权利要求16或17所述的系统(100)，其特征在于，所述操作还包括，在转译以相应所述原生语言的对应的所述转录(220)之前，使用基于频率的数据预处理来训练每个相应所述转译转换器(400)，以仅处理对于给定原生词在所述转译文本(221)的所述目标文字中具有拼写的转译对，所述给定原生词满足频率阈值。

20.根据权利要求14-19中任一项所述的系统(100)，其特征在于，将以相应所述原生文字的对应的所述转录(220)转译为对应的所述转译文本(221)包括，使用语言无关的转译转换器(400)将以相应所述原生文字的对应的转录(220)转译为以所述目标文字的对应的所述转译文本(221)。

21.根据权利要求14-20中任一项所述的系统(100)，其特征在于，所述多语言端到端语音识别模型(300)包括序列到序列神经网络。

22.根据权利要求14-21中任一项所述的系统(100)，其特征在于，所述多语言端到端语音识别模型(300)包括循环神经网络转换器(RNN-T)。

23.根据权利要求14-22中任一项所述的系统(100)，其特征在于，训练所述多语言端到端语音识别模型(300)包括使用随机优化算法来训练所述多语言端到端语音识别模型(300)。

24.根据权利要求14-23中任一项所述的系统(100)，其特征在于，所述操作还包括，在训练所述多语言端到端语音识别模型(300)之前，对从每个所述训练数据集(202)的每个相应所述训练数据样本(204)所生成的所述标准化训练数据样本(240)进行混洗。

25.根据权利要求14-24中任一项所述的系统(100)，其特征在于，所述操作还包括，在训练所述多语言端到端语音识别模型(300)之后，推送训练的所述多语言端到端语音识别模型(300)到多个用户设备(102)，每个所述用户设备(102)被配置为：

26.根据权利要求25所述的系统(100)，其特征在于，多个所述用户设备(102)中的至少一个所述用户设备(102)还被配置为将以所述目标文字的对应的所述语音识别结果(120)转译为所述转译文字(121)。