CN113692616A

CN113692616A - 用于在端到端模型中的跨语言语音识别的基于音素的场境化

Info

Publication number: CN113692616A
Application number: CN202080028777.2A
Authority: CN
Inventors: 胡珂; 安托万·让·布吕盖; 塔拉·N·赛纳特; 罗希特·普拉卡什·普拉巴瓦尔卡尔; 戈兰·蓬达克
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-05-03
Filing date: 2020-04-28
Publication date: 2021-11-23
Anticipated expiration: 2040-04-28
Also published as: JP7092953B2; KR20210138776A; EP3948849A1; KR20220038514A; CN113692616B; US11942076B2; US20200349923A1; US20220172706A1; US11270687B2; JP2022523883A; CN117935785A; KR102375115B1; WO2020226948A1

Abstract

一种方法(500)包括接收对由第一语言的母语讲话者(110)讲出的话语(106)进行编码的音频数据，以及接收包括不同于第一语言的第二语言的一个或多个项的偏移项列表(105)。该方法还包括使用语音识别模型(200)处理从音频数据推导的声学特征(105)以生成第一语言的词条和对应音素序列的语音识别分数。该方法还包括基于偏移项列表中的一个或多个项对音素序列的语音识别分数重新评分，以及使用词条的语音识别分数和音素序列的重新评分的语音识别分数执行解码图(400)以生成对话语的转录(116)。

Description

用于在端到端模型中的跨语言语音识别的基于音素的场境化

技术领域

本公开涉及用于在端到端模型中的跨语言语音识别的基于音素的场境化(contextualization)。

背景技术

识别语音的场境(context)是自动语音识别(ASR)系统的目标。然而，鉴于人们可能讲出的各式各样的词以及口音和发音的许多变化，识别语音中的场境的能力是有挑战性的。在许多情况下，人讲出的词和短语的类型取决于该人他自己或她自己所处的场境而变化。

场境自动语音识别(ASR)涉及使语音识别向给定场境偏移(bias)，诸如向用户自己的播放列表、联系人或地理地名偏移。场境信息通常包括要被识别的相关短语的列表，该列表经常包括在训练中不经常看到的罕见短语或甚至外语词。为了执行场境偏移，常规ASR系统有时使用n元语法加权有限状态转换器(WFST)在独立场境语言模型(LM)中对场境信息进行建模，并且将独立场境LM与基线LM组成在一起以用于即时(OTF)重新评分。

近来，端到端(E2E)模型已经显示出用于ASR的巨大希望，与常规设备上模型相比，展示出改进的词错误率(WER)和时延度量。将声学模型(AM)、发音模型(PM)和LM合并到单个网络中以直接学习语音至文本映射的这些E2E模型与具有分开的AM、PM和LM的常规ASR系统相比已经显示出了有竞争性结果。代表性E2E模型包括基于词的连接主义时间分类(CTC)模型、循环神经网络转换器(RNN-T)模型以及诸如听、注意和拼写(LAS)的基于注意力的模型。因为E2E模型在波束搜索解码期间维持有限数量的识别候选，所以场境的ASR对E2E模型来说能够是有挑战性的。

发明内容

本公开的一个方面提供一种用于使语音识别结果向偏移项列表中存在的项偏移的方法。该方法包括：在数据处理硬件处，接收对由第一语言的母语讲话者讲出的话语进行编码的音频数据；以及在数据处理硬件处，接收包括与第一语言不同的第二语言的一个或多个项的偏移项列表。该方法还包括：由数据处理硬件使用语音识别模型来处理从音频数据推导的声学特征，以生成第一语言的词条和对应音素序列两者的语音识别分数。该方法还包括：由数据处理硬件基于偏移项列表中的一个或多个项对音素序列的语音识别分数重新评分。该方法还包括：由数据处理硬件使用词条的语音识别分数和经重新评分的音素序列的语音识别分数来执行解码图以生成对话语的转录。

本公开的实施方式可以包括以下任选的特征中的一个或多个。在一些实施方式中，对音素序列的语音识别分数重新评分包括使用偏移有限状态转换器(FST)对音素序列的语音识别分数重新评分。在这些实施方式中，该方法还可以包括：由数据处理硬件将偏移项列表中的每个项分词成第二语言的对应音素序列；由数据处理硬件将第二语言的对应音素序列映射到第一语言的对应音素序列；以及由数据处理硬件基于第一语言的每个对应音素序列该生成偏移FST。

在一些示例中，语音识别模型包括端到端词条-音素模型。在特定示例中，端到端词条-音素模型包括循环神经网络-转换器(RNN-T)。

在一些实施方式中，在解码图的执行期间，解码图使转录偏移以有利于偏移项列表中的一个或多个项中的任一个。语音识别模型可以在仅第一语言的训练话语上被训练。另外，没有该偏移项列表中的项可以被用于训练语音识别模型。

数据处理硬件和语音识别模型可以驻留在用户设备或与该用户设备通信的远程计算设备上。当数据处理硬件和语音识别模型驻留在远程计算设备上时，接收对话语进行编码的音频数据可以包括从用户设备接收对话语进行编码的音频数据。

本公开的另一方面提供一种用于使语音识别结果向偏移项列表中存在的项偏移的系统。该系统包括：数据处理硬件；以及存储器硬件，该存储器硬件与数据处理硬件通信并且存储指令，当在数据处理硬件上执行时，该指令使数据处理硬件执行操作。该操作包括：接收对由第一语言的母语讲话者讲出的话语进行编码的音频数据；接收包括与第一语言不同的第二语言的一个或多个项的偏移项列表；以及使用语音识别模型处理从音频数据推导的声学特征，以生成第一语言的词条和对应音素序列两者的语音识别分数。这些操作还包括：基于偏移项列表中的一个或多个项对音素序列的语音识别分数重新评分；以及使用词条的语音识别分数和重新评分的音素序列的语音识别分数来执行解码图以生成对话语的转录。

该方面可以包括以下任选的特征中的一个或多个。在一些实施方式中，对音素序列的语音识别分数重新评分包括使用偏移有限状态转换器(FST)对音素序列的语音识别分数重新评分。在这些实施方式中，这些操作还可以包括：将偏移项列表中的每个项分词成第二语言的对应音素序列；将第二语言的对应音素序列映射到第一语言的对应音素序列；以及基于第一语言的每个对应音素序列来生成偏移FST。

在一些实施方式中，在解码图的执行期间，解码图使转录偏移以有利于偏移项列表中的一个或多个项中的任一个。语音识别模型可以在仅第一语言的训练话语上被训练。另外，没有偏移项列表中的项可以被用于训练语音识别模型。

在附图和下面的描述中阐述了本公开的一种或多种实施方式的细节。从描述和附图以及从权利要求中，其他方面、特征和优点将是明显的。

附图说明

图1是示例自动语音识别系统的示意图，该自动语音识别系统包括将语音识别结果向在偏移项列表中存在的项偏移的语音识别模型。

图2是图1的语音识别模型的示例架构的示意图。

图3是示例偏移有限状态换能器的示意图。

图4是基于词条和对应的音素序列的示例解码图的示意图。

图5是用于将语音识别结果向偏移项列表中存在的项偏移的方法的操作的示例布置的流程图。

图6是可以被用于实现本文中描述的系统和方法的示例计算设备的示意图。

各图中相同的参考符号指示相同的元件。

具体实施方式

本文中的实施方式针对增强场境自动语音识别(ASR)模型以通过将外语语言音素集映射到ASR模型的语言(例如，美国英语)的音素集以能够在音素级偏移有限状态转换器(FST)中对外语词进行建模等操作来识别外语词。另外的实施方式针对ASR模型，该ASR模型在建模空间中并入包括ASR模型的语言(例如，美国英语)的词条和音素的词条-音素模型。作为示例，场境ASR模型被配置成使用词条-音素模型和场境偏移FST来对讲出的话语进行解码以在场境上使话语的转录向一个或多个外语词偏移。例如，美国英语讲话者可能讲出“Directions to Créteil(前往克雷泰伊的路线指引)”，其中词Créteil是法语词，并且即使场境ASR模型从未以除美国英语以外的语言的任何词被训练，利用词条音素模型和场境偏移FST的场境ASR模型也可以使转录偏移以识别外语词Créteil。在此示例中，外语词Créteil可以是包含在基于当前场境的偏移词列表中的多个法语词中的一个。例如，如果用户目前位于法国并在驾驶，则当前场境可以指示法国城市/地区名称是相关的，并且因此，场境ASR模型可以向这些法国城市/地区名称偏移。

参考图1，在一些实施方式中，增强ASR系统100被增强以识别外语词。在所示出的示例中，ASR系统100驻留在用户110的用户设备102上和/或在与用户设备通信的远程计算设备201(例如，在云计算环境中执行的分布式系统的一个或多个服务)上。尽管用户设备102被描绘为移动计算设备(例如，智能电话)，但是用户设备102可以对应于任何类型的计算设备，诸如但不限于平板设备、膝上型/台式计算机、可穿戴设备、数字助理设备、智能扬声器/显示器、智能器具、汽车信息娱乐系统或物联网(IoT)设备。

用户设备102包括被配置成接收由用户104讲出的话语106的音频子系统103(例如，用户设备102可以包括用于记录所讲出的话语106的一个或多个麦克风)并且将话语106转换成与能够被ASR系统100处理的参数化输入声学帧104相关联的对应数字格式。在所示出的示例中，用户讲出短语“Directions to Créteil”的相应话语106并且音频子系统108将话语106转换成对应声学帧104以用于输入到ASR系统100。例如，声学帧104可以是一系列参数化的输入声学帧，每个参数化的输入声学帧包括利用例如25ms的短窗口计算的并且每隔例如10毫秒的几毫秒移位的80维log-Mel特征。

此后，ASR系统100接收与话语106相对应的声学帧104作为输入，并且生成/预测对话语106的对应转录(例如，识别结果/假设)116作为输出。在所示出的示例中，用户设备102和/或远程计算设备201还执行被配置成在用户设备102的用户界面136中向用户104呈现话语106的转录116的表示的用户界面生成器107。在一些示例中，用户界面136可以被显示在与用户设备102通信的屏幕上。

在一些配置中，从ASR系统100输出的转录116例如由在用户设备102或远程计算设备201上执行的自然语言理解(NLU)模块处理，以执行用户命令。另外或替代地，文本至语音系统(例如，在用户设备102或远程计算设备201的任何组合上执行)可以将转录转换成合成语音以用于由另一设备可听地输出。例如，原始话语106可以对应于用户104正在向朋友发送的消息，其中转录116被转换为用于可听地输出到朋友以收听在原始话语106中传达的消息的合成语音。

增强ASR系统100包括偏移组件115、具有词条-音素模型200和偏移FST 300的语音识别器150以及训练组件114。偏移组件115被配置成生成偏移FST 300并且训练组件114被配置成训练词条-音素模型200和偏移FST 300以通过对外语词重新评分来在音素级执行场境偏移。如将变得明显的，语音识别器150通过使用训练后的词条-音素模型200和偏移FST300向外语词偏移来执行场境语音识别。

训练组件114包括具有例如美国英语的单一语言的文本的语料库的词典117、频率检查器118和模型训练器120。频率检查器118被配置成确定单一语言的项在语料库的文本当中的相对频率，然而模型训练器120被配置成基于文本语料库中的项的词条和音素两者来训练词条-音素模型200，以在建模空间中包括词条和音素两者。在一些示例中，词条-音素模型200由模型训练器120使用训练数据被端到端训练，该训练数据包括来自仅例如美国英语的单一语言的词条-音素集，并且排除来自其他语言的词条-音素集。模型训练器120可以采用基于词频的采样策略来使用词典117将罕见词随机地分词(tokenize)成目标序列中的音素。在阶段A，训练组件114使用来自词典117的文本来训练词条-音素模型200。

在一些示例中，词典117包含一百万词的大约一半，其中它们的频率被用于确定何时使用音素序列。词典117包含来自训练数据的词及其频率，并且通过去除同音词(例如“flower(花)”和“flour(面粉)”)、同形异义词(例如作为动词或形容词的“live(活)”)和发音变体(例如“either(或者)”)被修整。词典117因此仅包含在进行从拼写到发音或相反方向时无歧义的条目。

在一些实施方式中，模型训练器120将训练输入话语划分成以10ms的速率加窗和移位的25-ms帧。80维log-Mel特征在每个帧处被提取，并且将当前帧和左边的两帧级联以产生240维对数梅尔特征。然后这些特征在30ms的速率下被采样。

在一些实施方式中，词条-音素模型200包括序列至序列模型。在一些示例中，词条-音素模型200包括循环神经网络-转换器(RNN-T)序列至序列模型架构。在其他示例中，模型200包括听、注意、拼写序列至序列模型架构。

词条-音素模型200与仅词条模型的不同在于，几个词可以在训练中被选择性地分解为音素。模型的输出是其符号集为词条和音素符号的并集的单一softmax。发音词典被用于获得词的音素序列。由于音素在识别罕见词时展示优势，所以这些词更经常地被呈现为音素。在目标句子中，第i个词被随机地呈现为具有概率

的音素，其中p₀和T是常数并且c(i)是表示词在我们整个训练语料库中出现的次数的整数。出现T次或更少次的词将被呈现为具有概率p₀的音素。对于出现超过T次的词，它们的频率越高，它们越可能被呈现为音素。在一些示例中，T等于10并且p₀等于0.5，但是在其他示例中能够选择不同的值。注意，在每次梯度迭代时随机地做出是否使用词条或音素的决定，并且因此给定句子可能在不同的时期具有不同的目标序列。在一些实施方式中，音素是场境无关的音素。

参考图2，词条-音素模型200可以包括遵守与交互式应用相关联的时延约束的端到端(E2E)RNN-T模型200。RNN-T模型200提供小计算足迹并且利用比常规ASR架构更少的存储器要求，从而使RNN-T模型架构适合于完全在用户设备102上执行语音识别(例如，不需要与远程服务器的通信)。RNN-T模型200包括编码器网络210、预测网络220和联合网络230。大致类似于传统ASR系统中的声学模型(AM)的编码器网络210包括堆叠长短期记忆(LSTM)层的循环网络。例如，编码器读取d维特征向量(例如，声学帧104(图1))的序列x＝(x₁,x₂,···,x_T)，其中x_t∈R_d，并且在每个时间步产生更高阶特征表示。该更高阶特征表示被表示为

类似地，预测网络220也是LSTM网络，其像语言模型(LM)一样，将到目前为止由最终Softmax层240输出的非空符号的序列y₀、...、y_ui-1处理成密集表示

最后，利用RNN-T模型架构，由编码器210和预测网络220产生的表示由联合网络230组合。联合网络然后预测

其是在下一输出符号上的分布。换句话说，联合网络230在每个输出步(例如，时间步)生成在可能的语音识别假设的上的概率分布。这里，“可能的语音识别假设”对应于各自表示指定自然语言中的符号/字符的输出标签的第一集和各自表示指定自然语言中的音素的输出标签的第二集。因此，联合网络230可以输出指示预定的输出标签集中的每一个的出现的可能性的值集。该值集能够是向量并且能够指示在输出标签集上的概率分布。在一些情况下，输出标签是第一集中的字素(例如，个别字符以及潜在地标点符号和其他符号)和第二集中的音素，但是输出标签集不被如此限制。联合网络230的输出分布能够包括不同的输出标签中的每一个的后验概率值。因此，如果存在表示不同的字素或其他符号的100个不同的输出标签，则联合网络230的输出y_i能够包括100个不同的概率值，每个输出标签各一个。然后概率分布能够被用于在波束搜索过程中(例如，通过Softmax层240)为候选拼字元素(例如，字素、词条、词、音素)选择和指派分数以用于确定转录116。

Softmax层240可以采用任何技术来选择在分布中具有最高概率的输出标签/符号作为由模型200在对应的输出步预测的下一输出符号。以这种方式，RNN-T模型200不做出条件独立假设，而是每个符号的预测不仅以声学为条件，而且还以到目前为止输出的标签的序列为条件。RNN-T模型200假设输出符号与将来的声学帧110无关，这允许RNN-T模型以流方式被采用。

在一些示例中，RNN-T模型200的编码器网络210由八个2,048维LSTM层组成，每个层跟随了640维投影层。可以在编码器的第二LSTM层之后插入减少因子为2的时间缩减层以减少模型时延。预测网络220可以具有两个2,048维LSTM层，其中的每个层也跟随了640维投影层。最后，联合网络230也可以具有640个隐藏单元，跟随了4,096softmax输出。具体地，输出单元包含41个场境无关的音素并且其余部分是词条。

返回参考图1，ASR系统100的偏移组件115包括：分词器121，其被配置成对来自外语的偏移项列表105的将被偏移成外语音素的项进行分词；音素映射器123，其被配置成将分词后的项的外语音素映射成与例如美国英语的单一语言相关联的类似音素。音素映射器123可以由包含人类生成的源语言到目标语言音素对的字典表示，并且X-SAMPA音素集被用于所有语言。值得注意的是，当词条-音素模型200包含仅与例如美国英语的单一语言相关联的音素时，音素映射器123是有用的。

例如，给定用于导航查询“directions to Créteil”的话语106并且假设法语词“Créteil”在偏移项列表105中，“Créteil”首先由分词器121分词为法语音素为“k R e t Ej”，然后由音素映射器123映射到英语音素“kr\E t E j”以用于在生成音素级偏移FST 300时使用。由于词条-音素模型200仅包括来自例如美国英语的单一语言的音素作为建模单元，音素映射被使用。

本公开不限于什么项被包括在偏移项列表105中或者项如何被选择用于包括在偏移项列表105中。偏移项列表105可以基于相关场境动态地更新。例如，场境信息可以指示什么应用在用户设备102上被打开并被使用、来自用户的联系人列表的联系人姓名、用户110的媒体库中的艺术家/专辑名称、用户110的位置等。例如，用户102可以讲美国英语，并且基于指示在用户设备102上打开导航/地图应用并且用户102的位置是在法国的场境信息，偏移项列表105可以包括与法国的城市和/或地区名称相关联的项。

偏移组件115还包括被配置成基于母语(例如，美国英语)中的表示偏移项列表105中的外语(例如，法语)项中的每一个的音素序列来生成偏移FST 300的音素级偏移FST生成器125。在一些示例中，偏移生成器125使用权重推送在音素级指派权重，并且添加失败弧以避免过度偏移。在一些实施方式中，在解码中，所有偏移词都被用于构建每个弧具有相同的权重的场境FST。可以为不同的模型独立地调整这些权重。

语音识别器200使用由偏移组件115生成的偏移FST 300来对由词条-音素模型200输出的音素重新评分，同时解码器图400消耗经重新评分的来自偏移FST 300的音素和由词条-音素模型200输出的词条以生成用于包括在转录116中的词条。解码器图400可以对应于确定用于话语106的一个或多个候选转录的波束搜索解码过程。

在一些示例中，在由模型200解码期间，偏移FST 300可以消耗由词条-音素模型200输出的英语音素符号并且使用外语词典和音素映射，即，“k r\E t E j”→Créteil，来产生词条。由解码器图400输出的词条由级联器134级联成转录116的词，这些词被输出到用户设备102的其他组件，例如到用户界面生成器107或到其他自然语言处理组件。

图3示出在音素级用于词“Créteil”的示例偏移FST 300。偏移FST然后被用于使用以下等式(1)来对词条-音素模型的音素输出即时地重新评分：

在等式(1)中，x表示声学观察结果，y表示子词单元序列，P表示来自E2E模型的概率估计，并且P_c是偏移重新评分概率。λ在重新评分时控制场境LM的权重。

返回参考图1，词条-音素模型200并入音素以及词条作为建模单元，并且使用偏移FST 300以便向偏移项列表105中的外语项场境偏移。通过与全音素模型对比，对音素和词条进行建模的词条-音素模型200减轻在识别常规词上的回归。

在阶段A训练模型200之后，在阶段B，用户110对设备102讲出话语106“directinosto Créteil”。在阶段C，音频子系统103例如使用麦克风来接收话语，并且将接收到的话语转换为一系列参数化输入声学帧104。例如，参数化输入声学帧104可以各自包括利用例如25ms的短窗口计算并且每隔例如10毫秒的几毫秒移位的80维log-Mel特征。

在阶段D，ASR系统100如上所述处理参数化输入声学帧，并且输出场境偏移的转录116，即，文本“directions to Créteil”。在阶段E，用户界面生成器系统107生成用于包括转录的表示的图形用户界面136的计算机代码，并且在阶段F，将该计算机代码传送到移动设备102以用于显示在用户界面136上。

由ASR系统100执行的附加细节可以在阶段D期间发生。例如，在阶段D’期间，偏移组件115基于接收到包括项“Créteil”的偏移项列表120来生成偏移FST 300。在阶段D”，语音识别器150的训练后的词条-音素模型200基于用户110的话语106来生成词条和对应音素序列的语音识别分数，在阶段D”’，音素的语音识别分数由偏移FST 300重新评分和重新映射并且词条和重新评分/重新映射的音素由解码器图400消耗以生成用于在转录116中输出的词条。解码器图400和级联器134生成场境偏移的转录116，并且提供转录以用于输出，例如，输出到用户界面生成器系统107以用于显示在用户设备102的GUI 136中。值得注意的是，解码器图400在偏移FST 300对与偏移项列表105中的项中的任一个相对应的音素序列重新评分。因此，偏移项列表105中与外语词相对应的具有低语音识别分数的词条未被过早地删减。

在测试期间，采用词条-音素模型200和偏移FST 300在场境上使识别结果向偏移项列表105中的项偏移的语音识别器150已被示出为成功地识别具有显著地好于仅字素偏移模型和仅词条偏移模型两者的WER率的外语词。词条-音素模型200还具有如下优点：它能够被直接应用于其他外语以用于在没有模型可扩展性问题的情况下偏移。

图4示出语音识别器150执行在场境上偏移语音识别结果的示例解码图400。具体地，示例解码图400描绘对具有英语跨语言发音“k r\E S”的词“crèche”(英语中的“daycare”)和具有发音“k r\E t E j”的“créteil”(法国的城市)的解码。为了清楚，状态0的大多数词条被省略。

解码图400被配置成接收从词条-音素模型200输出的音素和词条作为输入。语音解码过程搜索解码图400以生成词作为输出。在所示出的示例中，解码FST在状态0周围具有词条循环，但是也具有发音FST，即，状态一(1)至十四(14)，该发音FST包括以音素作为输入并且以对应词条作为输出的前缀树。发音FST使用在对所有偏移项进行偏移时使用的相同发音被构建。总是词条的最终输出符号被级联(例如，由图1的级联器134)成词。

图4的解码图400向整体解码策略提供两个附加改进。首先，鉴于解码图400的性质，有可能存在以相同成本消耗相同输入但是不具有相同输出的若干假设。例如，以状态7结束的假设将具有与以状态9结束的假设相同的成本。这引起问题，因为波束被全部等价的许多假设填满。本说明书中描述的增强ASR技术因此通过仅保持以状态9结束的假设来删减为波束。

第二改进涉及合并的路径。鉴于训练和解码的性质，给定词能够直接以词条被输出，或者从音素转换为词条。等价假设是通过添加它们的概率、将总概率指派给最可能的假设、并且从波束中丢弃其他假设被跟踪和重组的。

测试已被执行将词条-音素模型200的偏移结果与仅字素模型和仅词条模型的偏移结果进行比较。后两个模型具有与词条-音素模型200相同的结构，不同是字素模型具有76个字素作为输出而词条模型具有4096个词条。该不同分别为字素模型和词条模型导致大约117M和120M个参数。注意，两个模型的输出符号是英语的并且它们使用全英语数据被训练。对于这两个模型，偏移单独使用法语偏移词的英语音译版本在字素级或词条级被完成。

通常，测试指示所有三个模型在没有偏移的情况下类似地表现。这是因为地名是法语并且在训练中从未看到过它们，即，词OOV率为接近100％。此外，所有模型都在偏移情况下大体上更好地表现。当与无偏移情况相比时，WER减少是显著的。

比较不同的偏移策略，词条-音素模型200演示了最好的性能，操作显著地好于字素模型和词条模型两者。词条-音素模型的优越性能归因于音素对OOV词的稳定性。由于词条-音素模型200包含词条和音素两者作为建模单元，所以除了基于音素的偏移之外，还能够通过构建除音素FST之外的词条FST来执行词条偏移。该词条FST的添加已经被演示为进一步减少WER，显示词条偏移和音素偏移是相互补充的。被用于音素和词条偏移的权重可以是相同或不同的。观察已经显示，由于匹配较长单元时的稀疏性问题，词条可能比字素更好地表现。

测试已经显示，偏移能够帮助识别外语地名。例如，偏移帮助产生正确的法语词，并且相比之下，当在没有偏移的情况下时产生语音上类似但错误的英语词。所犯的错误经常是由于法语中语音上类似的词而导致的。

为了更好地确保在无偏移场景中没有回归，针对对常规英语话语进行解码，三个模型被比较。在解码时，通过使用空偏移短语列表来关闭偏移机制。测试已经显示，词条模型表现好于字素模型。词条-音素模型表现得比字素模型好一点，这可以归因于训练期间词条的更高频率。与词条模型相比，词条-音素模型具有非常轻微的退化。这是由于在建模中引入电话而导致的。用于改进回归的一种潜在方法是在重新评分中为音素并入英语外部语言模型，类似于基于词条的重新评分。然而，回归显著地小于全音素模型。

图5是在场境上使转录向偏移项列表中的外语项偏移的方法的操作的示例布置的流程图。在操作502，方法500包括接收对由第一语言的母语讲话者110讲出的话语106进行编码的音频数据。话语106可以包括与第一语言不同的第二语言的一个或多个外语词。在操作504，方法500包括接收包括第二语言的一个或多个项的偏移项列表105。

在操作506，方法500还也包括使用语音识别模型200来处理从音频数据推导的声学特征104以生成第一语言的词条和对应音素序列两者的语音识别分数。在操作508，方法500还包括基于偏移项列表中的一个或多个项来对音素序列的语音识别分数重新评分。在操作506，方法500包括使用词条的语音识别分数和经重新评分的音素序列的语音识别分数来执行解码图400以生成对话语106的转录116。

软件应用(即，软件资源)可以指使计算设备执行任务的计算机软件。在一些示例中，软件应用可以被称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息传递应用、媒体流应用、社交联网应用和游戏应用。

非暂时性存储器可以是用于在临时或永久基础上存储程序(例如，指令序列)或数据(例如，程序状态信息)以用于计算设备使用的物理设备。非暂时性存储器可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或者磁带。

图6是可以被用于实现本文档中所描述的系统和方法的示例计算设备600的示意图。计算设备600旨在表示各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机以及其它适当的计算机。本文所示的组件、它们的连接和关系以及它们的功能仅是示例性的，并不意味着限制本文档中描述和/或要求保护的发明的实施方式。

计算设备600包括处理器610、存储器620、存储设备630、连接到存储器620和高速扩展端口650的高速接口/控制器640，以及连接到低速总线670和存储设备630的低速接口/控制器660。组件610、620、630、640、650和660中的每个组件使用各种总线互连，并且可以被安装在公共主板上或酌情以其它方式被安装。处理器610能够处理用于在计算设备600内执行的指令，包括存储在存储器620中或存储在存储设备630上的指令，以在诸如耦合到高速接口640的显示器680的外部输入/输出设备上显示用于图形用户界面(GUI)的图形信息。在其它实施方式中，多个处理器和/或多个总线可以酌情被使用，连同多个存储器和存储器类型。此外，多个计算设备600可以被连接，其中每个设备提供必要操作的部分(例如，作为服务器组、刀片服务器组或多处理器系统)。

存储器620在计算设备600内非暂时性地存储信息。存储器620可以是计算机可读介质、(多个)易失性存储器单元或(多个)非易失性存储器单元。非暂时性存储器620可以是用于在临时或永久基础上存储程序(例如，指令序列)或数据(例如，程序状态信息)以用于计算设备600使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦可编程只读存储器(EPROM)/电子可擦可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备630能够为计算设备600提供大容量存储。在一些实施方式中，存储设备630可以是计算机可读介质。在各种不同的实施方式中，存储设备630可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其它类似的固态存储设备，或设备阵列，包括在存储区域网络或其它配置中的设备。在另外的实施方式中，计算机程序产品被有形地体现为信息载体。该计算机程序产品包含指令，所述指令在被执行时执行一种或多种方法，诸如上述那些方法。信息载体是计算机或机器可读介质，诸如存储器620、存储设备630或处理器610上的存储器。

高速控制器640管理计算设备600的带宽密集型操作，而低速控制器660管理较低的带宽密集型操作。这种职责分配仅是示例性的。在一些实施方式中，高速控制器640被耦合到存储器620、显示器680(例如，通过图形处理器或加速器)和可以接受各种扩展卡(未示出)的高速扩展端口650。在一些实施方式中，低速控制器660被耦合到存储设备630和低速扩展端口690。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口690可以例如通过网络适配器被耦合到一个或多个输入/输出设备，诸如键盘、定点设备、扫描仪或联网设备，诸如交换机或路由器。

如图所示，可以以多种不同形式来实现计算设备600。例如，其可以被实现为标准服务器600a或在这样的服务器600a的组中多次实现，被实现为膝上型计算机600b或被实现为机架服务器系统600c的一部分。

本文中所描述的系统和技术的各种实施方式能够以数字电子和/或光学电路、集成电路、专门设计的ASIC(应用专用集成电路)、计算机硬件、固件、软件和/或其组合被实现。这些各种实施方式能够包括在一个或多个计算机程序中的实施方式，该计算机程序在包括至少一个可编程处理器的可编程系统上是可执行的和/或可解释的，该可编程处理器可以是专用的或通用的，被耦合以从存储系统、至少一个输入设备以及至少一个输出设备接收数据和指令，并将数据和指令传送到这些设备。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且能够以高级过程和/或面向对象的编程语言和/或以汇编/机器语言被实现。如本文中使用的，术语“机器可读介质”和“计算机可读介质”是指任何计算机程序产品、非暂时性计算机可读介质、用于向可编程处理器提供机器指令和/或数据的装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中所描述的过程和逻辑流程能够由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程处理器，也被称为数据处理硬件，被执行。过程和逻辑流程也能够由专用逻辑电路执行，例如FPGA(现场可编程门阵列)或ASIC(应用专用集成电路)。例如，适合于执行计算机程序的处理器包括通用和专用微处理器，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储设备。通常，计算机还将包括一个或多个用于存储数据的例如磁盘、磁光盘或光盘的大容量存储设备或可操作地耦合至该大容量存储设备以从其接收数据或向其传输数据，或者两者。然而，计算机不必须具有这种设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如包括半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充或被并入专用逻辑电路中。

为了提供与用户的交互，本公开的一个或多个方面能够在具有显示设备或用于向用户显示信息的触摸屏以及可选的键盘和定点设备的计算机上实现，该显示设备例如是CRT(阴极射线管)、LCD(液晶显示器)监视器，该定点设备例如是鼠标和轨迹球，用户能够通过其向计算机提供输入。其它类型的设备也能够被用于提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且来自用户的输入能够以任何形式被接收，包括声音、语音或触觉输入。另外，计算机能够通过向用户使用的设备发送文档以及从用户使用的设备接收文档来与用户进行交互；例如，通过响应于从web浏览器收到的请求将网页发送到用户客户端设备上的web浏览器。

已经描述了许多实施方式。然而，应理解，在不脱离本公开的精神和范围的情况下，可以做出各种修改。因而，其它实施方式也在所附权利要求的范围内。

Claims

1.一种方法(500)，包括：

在数据处理硬件(610)处，接收对由第一语言的母语讲话者(110)讲出的话语(106)进行编码的音频数据；

在所述数据处理硬件(610)处，接收包括与所述第一语言不同的第二语言的一个或多个项的偏移项列表(105)；

由所述数据处理硬件(610)使用语音识别模型(200)来处理从所述音频数据推导的声学特征(104)，以生成所述第一语言的词条和对应音素序列两者的语音识别分数；

由所述数据处理硬件(610)基于所述偏移项列表(105)中的一个或多个项对所述音素序列的语音识别分数重新评分；以及

由所述数据处理硬件(610)使用所述词条的所述语音识别分数和所述音素序列的重新评分的语音识别分数来执行解码图(400)以生成对所述话语(106)的转录(116)。

2.根据权利要求1所述的方法(500)，其中，对所述音素序列的所述语音识别分数重新评分包括使用偏移有限状态转换器FST对所述音素序列的所述语音识别分数重新评分。

3.根据权利要求2所述的方法(500)，进一步包括：

由所述数据处理硬件(610)将所述偏移项列表(105)中的每个项分词成所述第二语言的对应音素序列；

由所述数据处理硬件(610)将所述第二语言的每个对应音素序列映射到所述第一语言的对应音素序列；以及

由所述数据处理硬件(610)基于所述第一语言的每个对应音素序列来生成所述偏移FST(300)。

4.根据权利要求1-3中的任一项所述的方法(500)，其中，所述语音识别模型(200)包括端到端词条-音素模型(200)。

5.根据权利要求4所述的方法(500)，其中，所述端到端词条-音素模型(200)包括循环神经网络-转换器(RNN-T)。

6.根据权利要求1-5中的任一项所述的方法(500)，其中，在所述解码图(400)的执行期间，所述解码图(400)使所述转录(116)偏移以有利于所述偏移项列表(105)中的所述一个或多个项中的任一个。

7.根据权利要求1-6中的任一项所述的方法(500)，其中，所述语音识别模型(200)在仅所述第一语言的训练话语上被训练。

8.根据权利要求1-7中的任一项所述的方法(500)，其中，没有所述偏移项列表(105)中的所述项被用于训练所述语音识别模型(200)。

9.根据权利要求1-8中的任一项所述的方法(500)，其中，所述数据处理硬件(610)和所述语音识别模型(200)驻留在用户设备(102)上。

10.根据权利要求1-9中的任一项所述的方法(500)，其中：

所述数据处理硬件(610)和所述语音识别模型(200)驻留在远程计算设备(201)上；以及

接收对所述话语(106)进行编码的所述音频数据包括从与所述远程计算设备(201)通信的用户设备(102)接收对所述话语(106)进行编码的所述音频数据。

11.一种系统(100)，包括：

数据处理硬件(610)；以及

存储器硬件(620)，所述存储器硬件(620)与所述数据处理硬件(610)通信，所述存储器硬件存储指令，所述指令当在所述数据处理硬件(610)上执行时，使所述数据处理硬件(610)执行操作，所述操作包括：

接收对由第一语言的母语讲话者(110)讲出的话语(106)进行编码的音频数据；

接收包括与所述第一语言不同的第二语言的一个或多个项的偏移项列表(105)；

使用语音识别模型(200)来处理从所述音频数据推导的声学特征(104)，以生成所述第一语言的词条和对应音素序列两者的语音识别分数；

基于所述偏移项列表(105)中的所述一个或多个项对所述音素序列的所述语音识别分数重新评分；以及

使用所述词条的所述语音识别分数和所述音素序列的重新评分的语音识别分数来执行解码图(400)以生成对所述话语(106)的转录(116)。

12.根据权利要求11所述的系统(100)，其中，对所述音素序列的所述语音识别分数重新评分包括使用偏移有限状态转换器FST对所述音素序列的所述语音识别分数重新评分。

13.根据权利要求12所述的系统(100)，其中，所述操作进一步包括：

将所述偏移项列表(105)中的每个项分词成所述第二语言的对应音素序列；

将所述第二语言的每个对应音素序列映射到所述第一语言的对应音素序列；以及

基于所述第一语言的每个对应音素序列来生成所述偏移FST(300)。

14.根据权利要求11-13中的任一项所述的系统(100)，其中，所述语音识别模型(200)包括端到端词条-音素模型(200)。

15.根据权利要求14所述的系统(100)，其中，所述端到端词条-音素模型(200)包括循环神经网络-转换器(RNN-T)。

16.根据权利要求11-15中的任一项所述的系统(100)，其中，在解码图(400)的执行期间，所述解码图(400)使所述转录(116)偏移以有利于所述偏移项列表(105)中的所述一个或多个项中的任一个。

17.根据权利要求11-16中的任一项所述的系统(100)，其中，所述语音识别模型(200)在仅所述第一语言的训练话语上被训练。

18.根据权利要求11-17中的任一项所述的系统(100)，其中，没有所述偏移项列表(105)中的所述项被用于训练所述语音识别模型(200)。

19.根据权利要求11-18中的任一项所述的系统(100)，其中，所述数据处理硬件(610)和所述语音识别模型(200)驻留在用户设备(102)上。

20.根据权利要求11-19中的任一项所述的系统(100)，其中：

所述数据处理硬件(610)和所述语音识别模型(200)驻留在远程计算设备(201)上；并且