CN118076997A

CN118076997A - 用于罕见词语音辨识的大规模语言模型数据选择

Info

Publication number: CN118076997A
Application number: CN202180102837.5A
Authority: CN
Inventors: 罗尼·黄; 塔拉·N·赛纳特
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-09-30
Filing date: 2021-12-13
Publication date: 2024-05-24
Also published as: US20230096821A1; EP4388527A1; WO2023055409A1; US12014725B2; KR20240065125A

Abstract

一种训练用于罕见词语音辨识的语言模型(206)的方法(500)包括：获得训练文本样本(422)的集合；以及，获得用于训练语音辨识模型(200)的训练话语(452)的集合。多个训练话语中的每个训练话语包括对应于话语的音频数据(454)和该话语的对应转录(456)。该方法还包括：对训练文本样本的集合应用罕见词过滤，以识别包括未出现在来自训练话语的集合的转录中或出现在来自训练话语的集合的转录中少于阈值次数的词的罕见词训练文本样本(432)的子集。该方法还包括：在来自该训练话语的集合的转录和所识别的罕见词训练文本样本的子集上训练外部语言模型。

Description

用于罕见词语音辨识的大规模语言模型数据选择

技术领域

本公开涉及用于罕见词语音辨识的大规模语言模型数据选择。

背景技术

自动语音辨识(ASR)系统已经从每个模型具有专用目的的多个模型演化到使用单个神经网络将音频波形(即，输入序列)直接映射到输出句子(即，输出序列)的集成模型。这种集成已经产生了序列到序列的方式，当给定音频特征序列时，该方式生成词(或字素)序列。通过集成结构，模型的所有组件可以作为单个端到端(E2E)神经网络被联合训练。这里，端到端模型是指其架构完全由神经网络构建的模型。完全神经网络无需外部和/或手动设计的组件(例如，有限状态传感器、词典或文本规范化模块)即可运行。另外，在训练E2E模型时，这些模型通常不需要从决策树引导或从单独的系统进行时间对齐。这些端到端自动语音辨识(ASR)系统取得了巨大进步，在包括单词错误率(WER)在内的几个常见基准测试上超越了传统ASR系统。E2E ASR模型的架构很大程度上是应用相关的。例如，许多涉及用户交互的应用(诸如语音搜索或设备上听写)要求模型以流式传输方式执行辨识。其他应用(如离线视频字幕)不需要模型进行流式传输，并且能够利用未来的上下文来提高性能。附加地，现有的E2E模型在辨识训练期间未见过的罕见词方面经历很高失败率。通过在大规模训练数据集上训练外部语言模型来改进罕见词辨识。

发明内容

本公开的一个方面提供了一种训练用于罕见词语音辨识的语言模型的计算机实现的方法。当在数据处理硬件上执行时，该计算机实现的方法使得数据处理硬件执行操作，该操作包括：获得训练文本样本的集合；以及，获得用于训练自动语音辨识(ASR)模型的训练话语的集合。多个训练话语中的每个训练话语包括对应于话语的音频数据和该话语的对应转录。这些操作还包括：对训练文本样本的集合应用罕见词过滤，以识别罕见词训练文本样本的子集，该子集包括未出现在来自训练话语的集合的转录中或者出现在来自训练话语的集合的转录中少于阈值次数的词。该操作还包括在来自训练话语的集合的转录和所识别的罕见词训练文本样本的子集上训练外部语言模型。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，获得训练文本样本的集合包括：接收训练文本样本语料库；对训练文本样本语料库执行重采样函数以识别训练文本样本语料库中出现的高频文本样本；以及，通过从训练文本样本语料库中去除所识别的高频文本样本来获得训练文本样本的集合。在一些示例中，重采样函数包括简单功率重采样函数、强制功率重采样函数或软对数重采样函数之一。

在一些实施方式中，该操作还包括：对训练文本样本的集合应用对比过滤以识别与关联于训练话语的集合的目标域匹配的目标域训练文本样本的子集。这里，在来自训练话语的集合的转录和所识别的罕见词训练文本样本的子集上训练外部语言模型还包括在与所述目标域匹配的所识别的目标域训练文本样本的子集上训练外部语言模型。在一些示例中，外部语言模型包括外部神经语言模型。在这些示例中，外部神经语言模型可以包括conformer层或transformer层的堆叠。

在一些实施方式中，该操作还包括将所训练的外部语言模型与ASR模型集成。所训练的外部语言模型被配置为对由所训练的ASR模型预测的可能语音辨识假设上的概率分布重新评分。在这些实施方式中，ASR模型包括第一编码器、第二编码器和解码器。该第一编码器被配置为接收声学帧序列作为输入，并且在多个输出步中的每一个处生成声学帧序列中的对应声学帧的第一高阶特征表示。该第二编码器被配置为接收由第一编码器在多个输出步中的每一个处生成的第一高阶特征表示作为输入，并且在多个输出步中的每一个处生成对应的第一高阶特征帧的第二高阶特征表示。解码器被配置为接收由第二编码器在多个输出步中的每一个处生成的第二高阶特征表示作为输入，并且在多个时间步中的每个时间步处生成在可能语音辨识假设上的第一概率分布。

在这些实施方式中，解码器还可以被配置为接收由第一编码器在多个输出步中的每一个处生成的第一高阶特征表示作为输入，并且在多个时间步中的每个时间步处生成在可能语音辨识假设上的第二概率分布。附加地，解码器可以包括预测网络和联合网络。当ASR模型以流式传输模式操作时，预测网络被配置为接收由预测网络在多个输出步中的每一个处生成的平均嵌入以及由第一编码器在多个输出步中的每个输出步处生成的第一高阶特征表示作为输入，以及在多个输出步中的每个输出步处生成在可能语音辨识假设上的第二概率分布。替代地，当ASR模型以非流式传输模式操作时，预测网络被配置为接收由预测网络在多个输出步中的每一个处生成的平均嵌入以及由第二编码器在多个输出步中的每个输出步处生成的第二高阶特征表示作为输入，并且生成在可能语音辨识假设上的第一概率分布。

附加地或替代地，第一编码器可以包括因果编码器，该因果编码器包括conformer层的初始堆叠。这里，第二编码器可以包括非因果编码器，该非因果编码器包括覆盖在conformer层的初始堆叠上的conformer层的最终堆叠。可以使用混合自回归换能器分解来训练ASR模型的第一编码器和第二编码器，以促进基于纯文本数据训练的外部语言模型的集成，纯文本数据包括来自训练话语的集合的转录和所识别的罕见词训练文本样本的子集。

本公开的另一方面提供了一种用于训练用于罕见词语音辨识的语言模型的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令，该指令当在数据处理硬件上执行时，使得数据处理硬件执行包括下述操作的操作：获得训练文本样本的集合；以及，获得用于训练自动语音辨识(ASR)模型的训练话语的集合。多个训练话语中的每个训练话语包括对应于话语的音频数据以及话语的对应转录。该操作还包括：对训练文本样本的集合应用罕见词过滤以识别罕见词训练文本样本的子集，该子集包括未出现在来自训练话语的集合的转录中或者出现在来自训练话语的集合的转录中少于阈值次数的词。这些操作还包括：在来自训练话语的集合的转录和所识别的罕见词训练文本样本子集上训练外部语言模型。

这一方面可以包括以下可选特征中的一个或多个。在一些实施方式中，获取训练文本样本的集合包括：接收训练文本样本语料库；对训练文本样本语料库执行重采样函数以识别训练文本样本语料库中出现的高频文本样本；以及，通过从训练文本样本语料库中去除所识别的高频文本样本来获取训练文本样本的集合。在一些示例中，重采样函数包括简单功率重采样函数、强制功率重采样函数或软对数重采样函数之一。

在一些实施方式中，该操作还包括：对训练文本样本的集合应用对比过滤以识别与关联于训练话语的集合的目标域匹配的目标域训练文本样本的子集。这里，在来自训练话语的集合的转录和所识别的罕见词训练文本样本的子集上训练外部语言模型还包括在与目标域匹配的所识别的目标域训练文本样本的子集上训练外部语言模型。在一些示例中，外部语言模型包括外部神经语言模型。在这些示例中，外部神经语言模型可以包括conformer层或transformer层的堆叠。

在一些实施方式中，该操作还包括所训练的外部语言模型与ASR模型集成。所训练的外部语言模型被配置为对由所训练的ASR模型预测的可能语音辨识假设上的概率分布重新评分。在这些实施方式中，ASR模型包括第一编码器、第二编码器和解码器。第一编码器被配置为接收声学帧序列作为输入，并且在多个输出步中的每一个处生成声学帧序列中的对应声学帧的第一高阶特征表示。第二编码器被配置为接收由第一编码器在多个输出步中的每一个处生成的第一高阶特征表示作为输入，并且在多个输出步中的每一个处生成对应的第一高阶特征帧的第二高阶特征表示。解码器被配置为接收由第二编码器在多个输出步中的每一个处生成的第二高阶特征表示作为输入，并且在多个时间步中的每个时间步处生成在可能语音辨识假设上的第一概率分布。

在这些实施方式中，解码器还可以被配置为接收由第一编码器在多个输出步中的每一个处生成的第一高阶特征表示作为输入，并且在多个时间步中的每个时间步处生成在可能语音辨识假设上的第二概率分布。附加地，解码器可以包括预测网络和联合网络。当ASR模型以流式传输模式操作时，预测网络被配置为接收由预测网络在多个输出步中的每一个处生成的平均嵌入以及由第一编码器在多个输出步中的每个输出步处生成的第一高阶特征表示作为输入，以及在多个输出步中的每个输出步处生成在可能语音辨识假设上的第二概率分布。替代地，当ASR模型以非流式传输模式下操作时，预测网络被配置为接收由预测网络在多个输出步中的每一个处生成的平均嵌入以及由第二编码器在多个输出步中的每个输出步处生成的第二高阶特征表示作为输入，并且生成在可能语音辨识假设上的第一概率分布。

附加地或替代地，第一编码器可以包括因果编码器，该因果编码器包括conformer层的初始堆叠。这里，第二编码器可以包括非因果编码器，该非因果编码器包括覆盖在conformer层的初始堆叠上的conformer层的最终堆叠。可以使用混合自回归换能器分解来训练ASR模型的第一编码器和第二编码器，以促进在纯文本数据上训练的外部语言模型的集成，该纯文本数据包括来自训练话语的集合的转录和所识别的罕见词训练文本样本的子集。

本公开的一个或多个实施方式的细节在附图和下面的描述中阐述。其他方面、特征和优点将从描述和附图以及权利要求中变得显而易见。

附图说明

图1A和1B是使用用于自动语音辨识的语音辨识模型和外部语言模型架构的示例语音环境的示意图。

图2是图1的语音辨识模型和语言模型架构的示意图。

图3是图2的语音辨识模型的预测网络的示例捆绑和缩减的预测层的示意图。

图4是用于训练语言模型的数据选择管线的示意图。

图5是训练语言模型的方法的示例操作布置的示意图。

图6是可以被用于实现本文中描述的系统和方法的示例计算设备的示意图。

各个附图中相同的附图标记指示相同的元件。

具体实施方式

端到端(E2E)自动语音辨识(ASR)模型传统上被构造为以流式传输模式或非流式传输模式操作。传统上，端到端ASR模型包括编码器和解码器作为主要组件。涉及最终用户交互的应用(例如语音搜索或设备上的听写)可能需要模型以流式传输方式执行辨识，其中，期望在说出单词时以尽可能短的延迟输出单词。这阻止使用未来上下文来提高准确性的模型的使用，诸如双向LSTM。作为对比，诸如离线视频字幕的应用不需要流式传输辨识，并且可以充分利用任何可用的未来上下文来提高性能。此外，与训练传统模型所利用的超过1000亿个文本话语相比，仅基于一小部分音频文本对训练传统的E2E ASR模型，因此在长尾专有名词和罕见词上表现不佳。

本文中的实施方式针对与基于被选择以提高ASR模型对罕见词的辨识质量的数据而训练的设备上神经语言模型组合的单个E2E ASR模型。更具体地，本文中的实施方式涉及用于选择适合训练语言模型以提高罕见词和长尾专有名词的辨识质量的足够的训练数据子集的数据选择管线。ASR模型可以使用包括流式传输和非流式传输编码器的级联编码器以及单个解码器，单个解码器学习使用流式传输或非流式传输编码器的输出进行解码，以使ASR模型能够以流式传输或非流式传输操作。除了ASR模型之外，该架构还能够应用于其他模型，诸如实现流式传输和非流式传输模式的机器翻译。

图1A和1B是语音环境100、100a-b的示例。在语音环境100中，用户104与诸如用户设备10的计算设备交互的方式可以是通过语音输入。用户设备10(通常也称为设备10)被配置为从语音环境100内的一个或多个用户104捕获声音(例如，流式传输音频数据)。这里，流式传输音频数据可以指用户104的口述话语106，其用作可听查询、针对设备10的命令、或由设备10捕获的可听通信。设备10的语音启用系统可以通过回答查询和/或导致命令由一个或多个下游应用执行/完成来表达所述查询或命令。

用户设备10可以对应于与用户104相关联并且能够接收音频数据的任何计算设备。用户设备10的一些示例包括但不限于移动设备(例如，移动电话、平板电脑、笔记本电脑等)、计算机、可穿戴设备(例如，智能手表)、智能电器、物联网(IoT)设备、车辆信息娱乐系统、智能显示器、智能扬声器等。用户设备10包括数据处理硬件12和与数据处理硬件12通信并存储指令的存储器硬件14，该指令当由数据处理硬件12执行时，使数据处理硬件12执行一项或多项操作。用户设备10还包括音频系统16，音频系统16具有：音频捕获设备(例如麦克风)16、16a，其用于捕获语音环境100内的口述话语106并将其转换为电信号；以及，语音输出设备(例如扬声器)16，16b，其用于传送可听音频信号(例如，作为来自设备10的输出音频数据)。尽管在所示示例中用户设备10实现了单个音频捕获设备16a，但是用户设备10可以实现音频捕获设备16a的阵列而不脱离本公开的范围，由此阵列中的一个或多个捕获设备16a可以物理上不驻留在用户设备10上，但是与音频系统16通信。

在语音环境100中，实现与外部语言模型(LM)206集成的ASR模型200(也称为模型200)的自动语音辨识(ASR)系统109驻留在用户104的用户设备10上和/或经由网络40与用户设备10通信的远程计算设备60(例如，在云计算环境中执行的分布式系统的一个或多个远程服务器)上。远程计算设备60可以包括远程资源，诸如远程数据处理硬件62(例如，远程服务器或CPU)和/或远程存储器硬件64(例如，远程数据库或其他存储硬件)。用户设备10和/或远程计算设备60还包括音频子系统108，音频子系统108被配置为接收由用户104说出并由音频捕获设备16a捕获的话语106，并且将话语106转换为与能够由ASR系统109处理的输入声学帧110相关联的对应数字格式。在如图1A所示的示例中，用户104说出相应的话语106，并且音频子系统108将话语106转换成对应的音频数据(例如，声学帧)110，以用于输入到ASR系统109。此后，模型200接收对应于话语106的音频数据110作为输入，并且生成/预测话语106的对应转录120(也称为辨识结果/假设120)作为输出。

模型200还包括在其编码器之间共享的解码器204(图2)(也称为共享解码器204)，这使得模型200能够成为能够以流式传输和非流式传输模式操作的单个模型(例如，与两个分开的模型对比，其中，每个模型专用于流式传输模式或非流式传输模式)。例如，如图1A所示，在用户设备10上执行的数字助理应用50可能需要流式传输语音辨识，使得一旦说出单词、单词片段和/或单个字符，其就出现在屏幕上。另外，用户设备10的用户104在发出对于要执行的数字助理应用50的查询时也可能对延迟具有低容忍度。在应用要求最小延迟的这些场景中，模型200以流式传输模式操作，其中，模型200可以在用户104正在说出话语106时实时提供流式传输转录能力。另一方面，当用户104对语音辨识延迟具有较高的容忍度和/或要辨识的话语106与长形式语音(即，指的是由完整段落或多个句子组成的语音)相关联时，则同一模型200可以以非流式传输模式操作，并且可以利用预测网络来提供准确的转录120，但是会导致增加的延迟。

另外，用户104要求用户设备10的ASR系统109能够准确地识别罕见词或长尾专有名词，这能够通过使用LM 206与模型200来实现，以帮助偏置当检测罕见词或专有名词时模型200的输出。如下面参考图4更详细地描述的，可以利用通过不同数据选择策略获取的数据集来训练LM 206，以减少训练LM 206所需的纯文本训练数据量，从而准确地偏置模型200的输出以检测罕见词或专有名词。因此，ASR系统109可以实现包括用于多个不同的语音辨识任务的级联编码器210、220的单个ASR模型，以提供流式传输和非流式传输转录能力两者，而不必在逐个任务的基础上利用分开训练的ASR模型，同时当话语106包括罕见词或长尾专有名词时，还使用LM 206来提高转录120的准确性。

在一些实施方式中，模型200首先对音频数据110执行流式传输编码，然后对流式传输编码器的输出执行非流式传输编码。例如，在所示的示例中，模型200使用第一编码器(即，低延迟编码器)对音频数据110执行流式传输语音辨识以产生部分语音辨识结果120、120a，并且使用第二编码器(即，高延迟编码器)对音频数据110执行非流式传输语音辨识以产生最终语音辨识结果120、120b。值得注意的是，第一编码器产生部分语音辨识结果120a，而第二编码器等待第一编码器的输出以产生最终语音辨识结果120b。因此，输入话语106的最终语音辨识结果120b可以比输入话语的部分语音辨识结果120a延迟一段持续时间。

用户设备10和/或远程计算设备60还执行用户界面生成器107，其被配置为向用户设备10的用户104呈现话语106的转录120的表示。如下面更详细地描述的，用户界面生成器107可以在时间1期间以流式传输方式显示部分语音辨识结果120a并且随后在时间2期间显示最终语音辨识结果120b。在一些配置中，例如，通过在用户设备10或远程计算设备60上执行的自然语言理解(NLU)模块来处理从ASR系统109输出的转录120以执行由话语106指定的用户命令/查询。附加地或替代地，文本到语音系统(未示出)(例如，在用户设备10或远程计算设备60的任何组合上执行)可以将转录120转换成合成语音以供用户设备10和/或另一设备进行可听输出。

在图1A的示例中，语音环境100a中的用户104与使用ASR系统109的用户设备10的程序或应用50(例如，数字助理应用50a)交互。例如，图1A描绘了用户104与数字助理应用50a通信，并且数字助理应用50a在用户设备10的屏幕上显示数字助理界面18以描绘用户10与数字助理应用50a的数字助理之间的对话。在该示例中，用户104询问数字助理应用50a“What year was Serendipity released(Serendipity是哪一年发布的)？”。来自用户104的这个问题是由音频捕获设备16a捕获并由用户设备10的音频系统16处理的口述话语106。在该示例中，音频系统16接收口述话语106并将其转换成声学帧110以用于输入到ASR系统109。

继续该示例，模型200在接收与用户104说话时的话语106相对应的声学帧110的同时，使用第一编码器210(即，图2)对声学帧110进行编码，然后使用解码器204(图2)将声学帧110的编码表示解码成部分语音辨识结果120a。在时间1期间，用户界面生成器107经由数字助理界面18以流式传输方式向用户设备10的用户104呈现话语106的部分语音辨识结果120a的表示，使得单词、单词片段和/或单个字符一旦其被说出就出现在屏幕上。

在接收到对应于话语106的所有(或一定量)声学帧110并且第一编码器210已经对这些声学帧110进行编码之后，第二编码器220(即，图2A)对来自第一编码器210的编码输出进行编码以生成与已经由第一编码器210编码的话语106相对应的声学帧110的集合的编码。然后解码器204对已经由第二编码器220编码的声学帧110进行解码并使用LM 206处理解码后的声学帧110，LM 206对解码后的声学帧重新评分并生成最终语音辨识结果120b。例如，当第一编码器210对与话语106相对应的所有声学帧110进行编码时(例如，当接收到声学帧110时)，第二编码器220对已经由第一编码器220编码的所有声学帧110进行编码。在这方面，通过对多个编码后的声学帧110进行编码，第二编码器210能够以非流式传输方式提供更好的上下文感知(例如，通过接收话语106的所有声学帧110的表示)，其可以潜在地协调或纠正由第一编码器210的流式传输特性遗漏或误解的话语106的(多个)方面。

在一些示例中，识别用户104已经完成说出话语106的指示(诸如端点)用于触发模型200的第二编码器220对所有声学帧110进行编码。在其他示例中，第二编码器220与第一编码器210对声学帧110进行并行地编码，并且第一编码器210识别话语106末端处的端点，从而触发第二编码器220发出最终语音辨识结果120b。由第一编码器210识别的端点可以同时触发麦克风关闭事件。在时间2期间，用户界面生成器107经由数字助理界面18向用户设备10的用户104呈现话语106的最终语音辨识结果120b的表示。在一些实施方式中，用户界面生成器107用最终语音辨识结果120b的表示来替换(或修改)部分语音辨识结果120a的表示。在该示例中，用户104的话语106包含模型200尚未在其上被训练的罕见词“Serendipity”。因此，由模型200输出并在时间1显示在屏幕上的部分语音辨识结果120a错误地预测用户104的话语106是“What year was serene released？(Serene是哪一年发布的？)”。由模型200输出并在时间2以增加的延迟显示在屏幕上的最终语音辨识结果120b通过识别用户104说“Serendipity”而在准确性方面提高了语音辨识质量。然而，由于用户界面生成器107在用户说出话语106时显示部分语音辨识结果，因此与产生并最终显示最终语音辨识结果120b相关联的较高延迟对于用户104来说不太明显。

在一些实施方式中，模型200利用预提取技术，其通过在最终语音辨识结果120b可用之前提取语音辨识结果来减少延迟。这里，如果部分语音辨识结果120a与最终语音辨识结果120b匹配，则能够立即发出针对部分语音辨识结果120a获取的响应，以节省通常在最终语音辨识结果120b完成之后发生的执行延迟。

在图1A所示的示例中，数字助理应用50a可以使用自然语言处理来响应用户104提出的问题。自然语言处理通常是指解释书面语言(例如，部分语音辨识结果120a和/或最终语音辨识结果120b)并确定书面语言是否提示任何动作的过程。在该示例中，数字助理应用50a使用自然语言处理来辨识来自用户10的问题涉及用户的环境，并且更具体地涉及在用户附近播放的歌曲。通过使用自然语言处理辨识这些细节，自动化助理返回对用户查询的响应19，其中，响应19陈述“Serendipity was released in 2001(Serendipity在2001年发布)”。在一些配置中，自然语言处理发生在与用户设备10的数据处理硬件12通信的远程计算设备60上。

图1B是利用语音环境100b的ASR系统109进行语音辨识的另一个示例。如该示例中所示，用户104与在用户设备10的屏幕上显示语音邮件应用界面18、18b的语音邮件应用50、50b交互，以转录Jane Doe留给用户104的语音邮件。在该示例中，延迟并不重要；然而，在处理长尾专有名词或罕见词时，转录的准确性很重要。ASR系统109的模型200和LM 206能够通过等待直至生成对应于语音邮件的所有声学帧110来利用音频的完整上下文。该语音邮件场景还说明了模型200如何能够处置长形式语音，因为语音邮件通常是多个句子或甚至几个段落。处置长形式语音的能力比其他ASR模型(诸如具有LAS解码器的两通道模型)特别有利，因为这些两通道模型在应用于长形式条件时经常遇到长形式问题(例如，长形式语音上较高的单词删除率)。例如，通过使用RNN-T解码器作为与级联编码器202(例如，第一编码器210和第二编码器220)组合的解码器204，模型200针对长形式语音和短形式语音两者进行操作，而没有长形式的挫折。

继续参考图1B，如关于图1A所讨论的，模型200在接收声学帧110的同时使用第一编码器210对声学帧110进行编码。在模型200接收到所有声学帧110并利用第一编码器210对它们进行编码之后，模型200提供第一编码器输出作为第二编码器220的输入。第二编码器220在解码器204生成嵌入之前对第一编码器输出进行编码，并且LM 206对解码器204输出重新评分以生成最终语音辨识结果120b。在时间3期间，用户界面生成器107经由数字助理界面18b呈现最终语音辨识结果120b的表示，而不首先显示部分语音辨识结果120a。例如，最终语音辨识结果120b是来自陈述“Do you want to watch Serendipity tonight？Give me a call back when you get this.(今晚您想观看Serendipity吗？收到后给我回电话)”的Jane Doe的长形式语音邮件的转录。

图2包括能够以流式传输和非流式传输模式的各种组合进行操作的示例模型200。具体地，模型200包括级联编码器202、解码器204和外部LM 206。级联编码器202指的是一种模型结构，其中，编码路径包括两个编码器210、220，其级联使得一个编码器210的输出在解码之前馈送另一个编码器220的输入。这里，编码器210、220能够被级联，而不管每个编码器的底层架构如何。在一些示例中，编码器210、220包括512维conformer层的堆叠。因果卷积和左上下文注意力层可以用于每个conformer层，以严格限制模型不使用未来的输入。多头(例如，8头)注意力机制可以用在自注意力层中。级联编码器210、220可以包括17个conformer层。这里，因果编码器210可以包括15个conformer层，而非因果编码器210可以包括采用附加右上下文(例如，5.04秒)的两个conformer层。可选地，可以使用变压器层来代替conformer层。

在其他实施方式中，一个编码器用LSTM结构构造，而另一编码器使用双向LSTM层或conformer层(例如，conformer换能器)构造。换句话说，编码器210、220可以具有不同的架构或类似的架构。例如，级联编码器202可以大致类似于传统ASR系统中的声学模型(AM)，并且可以包括堆叠的长短期记忆(LSTM)层的循环网络。这里，第一编码器210是包括单向长短期记忆(LSTM)层的流式传输编码器，而第二编码器220是包括双向LSTM层或conformer层的非流式传输编码器。在级联编码器202中，其中，两个编码器210、230都包括LSTM层，接收第一编码器210的输出的第二编码器220可以利用第一编码器210的LSTM层，使得第二编码器220包括比第一编码器210更少的LSTM层(和比完全非流式传输模型少的LSTM层)。通过具有更少的LSTM层，级联编码器202可以减少计算成本更高的双向层的数量，使得模型200比简单地组合传统流式传输模型与传统非流式传输模型更加精简。在一些实施方式中，为了限制级联编码器模型200看到的未来上下文的量，第二编码器220使用具有特定量的正确上下文(例如，五秒的时间的正确上下文)的一定数量的conformer层(例如，两层)，而第一编码器210继续使用LSTM层。对于这些实施方式，第二编码器220中的每个conformer层可以具有640个单元来匹配LSTM层并添加大约1000万个附加参数。

仍参考图2，第一编码器210读取d维特征向量的序列(例如，图1A和图1B中所示的声学帧110)x＝(x₁,x₂,···,x_T)，其中，并且在每个时间步处产生第一高阶特征表示。该第一高阶特征表示被表示为e^s。类似地，第二编码器220级联连接到第一编码器210，并且被训练以接收第一高阶特征e^s作为输入，并且输出第二高阶特征表示。该第二高阶特征表示被表示为e^a。第一编码器210和第二编码器220两者都直接连接到解码器204并且由解码器204共享。因此，解码器204接收第一高阶特征表示e^s和第二高阶特征表示e^a两者作为输入。

解码器204可以包括具有联合层230和预测网络300的循环神经网络-换能器(RNN-T)架构。解码器204使用联合层230来组合(即，当模型200以非流式传输模式操作时)级联编码器202输出的第一和第二高阶特征表示e^s、e^a，以及来自先前预测y_r–1的嵌入查找300的嵌入输出，以便产生解码器输出。然后，解码器输出被传递到外部LM 206，外部LM 206利用诸如网格重新评分或n个最佳重新排序的技术来重新评分/改进来自解码器204的初始输出。换句话说，解码器204产生预测，并且外部LM 206通过提高对罕见词或长尾专有名词的辨识准确度来最终确定预测。当模型200以流式传输模式操作时，联合层230接收嵌入查找300的输出并且仅接收从第一编码器210输出的第一高阶特征表示e^s。

给定N个先前非空白符号301先前单元{y_i-1,...,y_i–N}的序列和输入x，解码器输出能够是当前子字单元y_i上的概率分布P(y_i|y_i-1,...,y₀,x)。尽管未图示，模型200可以包括接收解码器204的输出的Softmax层。在一些实施方式中，Softmax层与解码器204分离并且处理来自解码器204的输出y_r。然后在波束搜索过程中使用Softmax层的输出来选择正交元素。在一些实施方式中，Softmax层与解码器204集成，使得解码器204的输出y_r表示Softmax层的输出。

在一些示例中，预测网络300具有两个2048维LSTM层，每个层后面还跟随有640维投影层，使得基于LSTM的嵌入查找300可以具有大约2340万个参数。当预测网络300包括LSTM层时，为了有助于在不牺牲模型200的准确性/性能的情况下减小预测网络300的大小的技术，预测网络300可以包括无状态预测网络，其接收限制于最终Softmax层输出的N个先前非空白符号301的、非空白符号y_ui-n,...,y_ui-1的有限历史序列。例如，图3示出了模型200的无状态预测网络300，其接收限制于最终Softmax层输出的N个先前非空白符号301a-n的、非空白符号y_ui-n,...,y_ui-1的序列作为输入。在一些示例中，N等于二。在其他示例中，N等于五，然而，本公开是非限制性的并且N可以等于任何整数。非空白符号301a-n的序列指示初始语音辨识结果120a(图1)。在一些实施方式中，预测网络300包括多头注意力机制302，其跨多头注意力机制的每个头302A-302H共享共享嵌入矩阵304。在一个示例中，多头注意力机制302包括四个头。然而，多头注意力机制302可以采用任意数量的头。值得注意的是，多头注意力机制显著地提高了性能，同时模型大小的增加最小。如下文更详细描述的，每个头302A-H包括其自己的位置向量308的行，并且不是通过级联来自所有头的输出318A-H来导致模型大小的增加，而是将输出318A-H通过头平均模块322平均。

参考多头注意力机制302的第一头302A，头302A使用共享嵌入矩阵304为在多个时间步中的对应时间步处作为输入接收到的非空白符号y_ui-n,...,y_ui-1的序列中的每个非空白符号301生成对应的嵌入306、306a–n(例如，)。值得注意的是，由于跨多头注意力机制302的所有头共享共享嵌入矩阵304，所以其他头302B-H都为每个非空白符号生成相同的对应嵌入306。头302A还将相应的位置向量PV_Aa–An 308、308Aa–An(例如，)分配给非空白符号y_ui-n,...,y_ui-1的序列中的每个对应的非空白符号。分配给每个非空白符号的相应位置向量PV 308指示非空白符号的序列的历史中的位置(例如，由最终Softmax层输出的N个先前非空白符号)。例如，第一位置向量PV_Aa被分配给历史中的最近位置，而最后位置向量PV_An被分配到由最终Softmax层输出的N个先前非空白符号的历史中的最后位置。值得注意的是，每个嵌入306可以包括与每个位置向量PV 308相同的维度(即，维度大小)。

而对于非空白符号的序列301a-n，y_ui-n,...,y_ui-1中的每个非空白符号301，由共享嵌入矩阵304生成的对应嵌入在多头注意力机制302的所有头302A-H处是相同的，每个头302A-H定义位置向量308的不同组/行。例如，第一头302A定义行位置向量PV_Aa-An 308Aa-An的行，第二头302B定义位置向量PV_Ba–Bn 308_Ba–Bn的不同行，...，并且第H头302H定义位置向量PV_Ha–Hn 308_Ha–Hn的另一不同行。

对于接收到的非空白符号301a-n的序列中的每个非空白符号，第一头302A还经由权重层310对对应的嵌入306与对应的嵌入和分配给其的相应位置向量PV 308之间的相似度成比例地加权。在一些示例中，相似度包括余弦相似度(例如，余弦距离)。在所示的示例中，权重层310输出加权嵌入312、312Aa-An的序列，每个加权嵌入关联于与分配给其的相应位置向量PV 308成比例地加权的对应嵌入306。换句话说，由权重层310针对每个嵌入306输出的加权嵌入312可以对应于嵌入306和相应位置向量PV 308之间的点积。加权嵌入312可以被解释为与它们与关联于其相应的位置向量PV 308的定位的相似程度成比例地注意嵌入。为了提高计算速度，预测网络300包括非循环层，并且因此，加权嵌入312Aa-An的序列不被级联，而是由加权平均模块316平均以生成由下式表示的加权嵌入312Aa-An的加权平均318A作为第一头302A的输出：

在等式1中，h表示头302的索引，n表示上下文中的位置，并且e表示嵌入维度。另外，在等式1中，H、N和d_e包括对应维度的大小。位置向量PV 308不必是可训练的并且可以包括随机值。值得注意的是，即使加权嵌入312被平均，位置向量PV 308也能够潜在地保存位置历史信息，从而减轻在预测网络300的每一层处提供循环连接的需要。

上面关于第一头302A描述的操作由多头注意力机制302的每个其他头302B-H类似地执行。由于由每个头302定义的不同组的定位向量PV 308，权重层310在每个其他头302B-H处输出加权嵌入312Ba-Bn、312Ha-Hn的序列，其与第一头302A处的加权嵌入312Aa-Aa的序列不同。此后，加权平均模块316生成非空白符号的序列的对应加权嵌入312的相应加权平均318B-H作为来自每个其他对应头302B-H的输出。

在所示的示例中，预测网络300包括头平均模块322，其对从对应头302A-H输出的加权平均值318A-H进行平均。具有SWISH的投影层326可以接收来自头平均模块322的输出324作为输入，输出324对应于加权平均值318A-H的平均值，并且具有SWISH的投影层326生成投影输出328作为输出。最终层归一化330可以对投影输出328进行归一化以在多个时间步中的对应时间步处提供单个嵌入向量Pu_i350。预测网络300在初始时间步之后的多个时间步中的每一个处仅生成单个嵌入向量Pu_i 350。

在一些配置中，预测网络300不实现多头注意力机制302并且仅执行上面关于第一头302A描述的操作。在这些配置中，加权嵌入312Aa-An的加权平均值318A简单地通过投影层326和层归一化330以提供单个嵌入向量Pu_i 350。

在其他配置中，预测网络300可以替代地包括代替LSTM层的conformer层或transformer层。在其他示例中，预测网络300包括代替LSTM、transformer或conformer层的网络的V2嵌入查找。在每个时间步处，V2嵌入查找可以接收由联合层230输出的前两个预测(例如，单热向量)作为输入，计算前两个预测中的每一个的相应嵌入d₁、d₂，并向联合层230提供级联输出[d₁,d₂]。相比之下，V2嵌入查找可能仅具有大约两(2)百万个参数，而基于LSTM的预测网络可以包括大约2340万个参数。最后，联合层230也可以是具有640个隐藏单元的单层神经网络。Softmax层可以由使用多个训练数据集中的所有独特单词片段或字素生成的统一单词片段或字素集组成。

解码器204被配置为在每个输出步生成在可能语音辨识假设上的概率分布。换句话说，联合层230在每个输出步(例如，时间步)生成在可能语音辨识假设上的概率分布。这里，“可能语音辨识假设”对应于输出标签/符号的集合(也称为“语音单元”)，每个输出标签/符号表示特定自然语言中的字素(例如，符号/字符)或单词片段。例如，当自然语言是英语时，该输出标签的集合可以包括二十七(27)个符号，例如，用于英语字母表中的26个字母中的每个字母的一个标签和指定空格的一个标签。因此，联合层230可以输出指示预定的输出标签的集合中的每一个的出现可能性的值的集合。该值的集合能够是向量(例如，单热向量)并且能够指示在输出标签的集合上的概率分布。在某些情况下，输出标签是字素(例如，单个字符，以及潜在地标点符号和其他符号)，但输出标签的集合不限于此。例如，除字素之外或代替字素，该输出标签的集合能够包括单词片段和/或整个单词。输出标签也可以是其他类型的语音单元，诸如音素或子音素。联合层230的输出分布能够包括每个不同输出标签的后验概率值。因此，如果存在表示不同字素或其他符号的100个不同的输出标签，则联合层230的输出能够包括100个不同的概率值，每个输出标签一个概率值。然后，概率分布能够被用于在波束搜索过程(例如，通过Softmax层)中选择和分配分数给候选正交元素(例如，字素、单词片段和/或单词)，以确定转录120。

在一些实施方式中，LM 206包括单向conformer器，其回看每个输出单词片段模型预测的预定数量的标记(例如，七个标记)。conformer器LM 206可以具有层的堆叠(例如，12层)，其中，每层包括模型维度768、前馈层维度2048和六头注意力。在这些实施方式中，训练conformer器LM 206来预测4,096个单词。

将ASR模型与外部LM集成通常需要浅融合。然而，级联编码器202和解码器204的过度置信度能够使得加权变得困难并且经常导致单词的大量删除。因此，可以利用混合自回归换能器(HAT)模型来分解出模型200的内部损失语言模型得分p_ILM(y)，使得模型200的有效得分能够被表示如下。

logp(x|y)≈logp(y|x)-logplm(y) (2)

因此，HAT分解允许模型200与外部LM 206的集成，而不需要如下的覆盖惩罚。

y^*＝argmax_y[λ₁logp(y|x)-λ₂logpilm(y)+logplm(y)] (3)

其中，λ₁和λ₂分别表示分配给外部LM 206和内部语言模型的权重。通过在训练过程300期间使用HAT分解，LM 206更好地与级联编码器202和解码器204集成。

继续图2中的示例，在一些实施方式中，模型200以流式传输和非流式传输模式并行地操作。当同时以流式传输和非流式传输模式操作时，模型200首先使用第一编码器210对音频数据110执行流式传输语音辨识，以为第二编码器220和解码器204两者生成第一高阶表示e^s。解码器204然后产生部分语音辨识结果120、120a。模型200还对编码音频数据110执行非流式传输语音辨识，其中，第二编码器220使用从第一编码器210接收到的第一高阶表示e^s来生成第二高阶表示e^a。解码器204然后产生语音辨识结果，其然后由LM 206重新评分以产生最终语音辨识结果120、120b。如time所示，第一编码器210产生部分语音辨识结果120a，而第二编码器220等待第一编码器210的输出。最后，LM 206可以对来自解码器204的输出进行偏置以生成最终语音辨识结果120b.因此，输入话语106的最终语音辨识结果120b可以比输入话语的部分语音辨识结果120a延迟。如前所述，第一编码器210可以识别触发麦克风关闭事件并触发发出最终语音辨识结果120b的话语106的端点。

在一些实施方式中，为了进一步减小解码器204(即，预测网络300和联合层230)的大小，应用在预测网络300和联合层230之间的参数绑定。具体地，对于词汇大小|V|以及嵌入维度d_e，预测网络300处的共享嵌入矩阵304是同时，最后一个隐藏层在联合层230处包括维度大小d_h，从隐藏层到输出logits的前馈投影权重将是其具有词汇中的附加的空白标记。因此，对应于联合层230的最后一层的前馈层包括权重矩阵[d_h,|V]|。通过使预测网络300将嵌入维度de的大小与联合层230的最后隐藏层的维度d_h联系起来，联合层230的前馈投影权重和预测网络300的共享嵌入矩阵304能够经由简单的转置变换来共享所有非空白符号的其权重。由于两个矩阵共享它们的所有值，因此解码器204仅需要在存储器上存储这些值一次，而不是存储两个单独的矩阵。通过将嵌入维度d_e的大小设置为等于隐藏层维度d_h的大小，解码器204减少了等于嵌入维度d_e和词汇大小|V|的乘积的参数数量。这种权重绑定对应于正则化技术。

图4示出了用于训练ASR系统109的外部LM 206的数据选择管线400的示例。通常，诸如训练文本样本412、412a-n的语料库的大训练数据集用于训练在不受处理、内存/存储和功率约束限制的计算环境(例如云)中执行的语言模型。然而，在一些配置中，ASR系统109驻留在用户104的用户设备10上，从而限制LM 206中的参数的数量，并且因此限制用于训练LM 206的训练集中的训练样本的数量。为了解决这个问题，数据选择管线400处理训练文本样本412的语料库以减少训练LM 206以准确地辨识罕见词所需的训练数据(即，训练文本样本)的量，从而允许包括外部LM 206的ASR系统109在处理和/或内存/存储资源有限的设备上运行。换句话说，数据选择管线400从语料库中过滤训练文本样本以识别足以改进罕见词辨识的训练样本子集。训练文本样本412的语料库可以包括大小约为12TB的2130亿个句子，其中，72亿个样本是不同的。管线400可以将语料库中的样本412的数量减少到大约仅四(4)十亿个句子来训练LM 206，其比原始语料库小53倍并且不会降低LM 206在单词错误率(WER)方面的整体性能。

如图4所示，数据选择管线400使用重采样过滤器420、罕见词过滤器430和对比过滤器440来减少用于训练LM 206的训练文本样本语料库412中的训练文本话语的数量。数据选择管线400获得存储在训练文本数据存储410中的训练文本样本412、412a-n的语料库以及存储在训练话语数据存储450中的多个训练话语452、452a-n。存储在训练话语数据存储450中的训练话语452被用于训练ASR模型200，并且每个训练话语452包括对应于话语的音频数据454和该话语的对应转录456。虽然图4示出了采用重采样过滤器420、罕见词过滤器430和对比过滤器440中的每一个来选择训练文本数据的管线400，该管线可以仅使用重采样过滤器420、罕见词过滤器430和对比过滤器440中的一个或两个用于选择训练文本数据。

重采样过滤器420接收存储在训练文本数据存储410中的训练文本样本语料库412，并且执行重采样函数以通过从语料库识别和去除高频训练文本样本以输出低频训练文本样本422的集合(也称为“训练文本样本的集合”)(其对应于来自包括罕见词的训练文本样本语料库412的样本)来识别语料库中的罕见词(例如，出现频率较低的词)。在所示的示例中，为了简单起见，重采样过滤器420测量句子级别而不是单词级别的频率。然而，在不脱离本公开的范围的情况下，重采样过滤器420可以从其自己的单词的聚合来测量句子的罕见度。如本文中所使用的，当单词或句子相对于其他单词或句子在语料库中具有较低频率(其出现较少)时，该单词或句子更罕见。术语“尾数”可以用于描述出现在训练文本样本412的语料库中的罕见词的相对量。训练文本样本412的语料库整体上的频率分布在双对数图上是线性的并且通过下式被表达：

distinct_count(f)≈Af^-∝ (4)

其中，f表示频率，A表示不同训练文本样本412的数量(即，频率f为1)。通过改变幂α，分布改变。例如，较大的α会导致罕见词出现频率较高的分布。α接近无穷大的示例指示在多个训练文本样本412中不存在重复的训练文本412。然而，存储在训练文本数据存储410中的多个训练文本样本412包括1.1-2.5的α。此外，以过高的频率出现的训练文本样本412(例如，Maps域中的“家”)偏离频率分布的线性分布。

为了从训练文本样本412的语料库中过滤高频训练文本，从而增加低频训练文本样本422的集合中的罕见词的数量，重采样过滤器420可以执行重采样函数，包括以下之一：简单功率重采样函数、强制功率重采样函数或软对数重采样函数。简单功率重采样可以包括通过应用参数β来调整频率分布distinct_count(f)的稀有度。简单功率频率分布因此可以表达为Af^–αβ。在其他实施方式中，强制功率重采样用于通过强制每个训练文本412拟合直线拟合来管理训练文本样本412的语料库中的过高频率的训练文本样本。例如，Maps域的线拟合可以指示与频率10⁶相对应的不同计数1。在这些示例中，对于distinct_count为1的每个训练文本样本，其重采样频率f₁将是10⁶，无论其原始频率f₀如何。在此示例中，具有高原始频率f₀(例如10⁸)的训练文本样本被强制为重采样频率f₁ 10⁶。这种强制功率重采样操作被表示为：

替代地，重采样过滤器420可以执行软对数重采样函数，其匹配训练文本样本412的语料库的原始频率分布distinct_count(f)，并且然后从语料库中去除超过阈值的训练文本。软对数函数被表示为：

其中，f_c表示阈值频率。

一旦重采样过滤器420从训练文本样本412的语料库中去除高频训练文本以输出包括罕见词的训练文本样本422的集合，则将训练文本样本422的集合作为输入提供给罕见词过滤器430和对比过滤器440。值得注意的是，从语料库中去除高频训练文本样本是可期望的，因为这些样本将提供分布偏差，该分布偏差可以防止LM 206学习包括许多罕见词的语料库的长尾。罕见词过滤器430识别罕见词训练文本样本432的子集，该子集包括未出现在来自训练话语452的集合的转录456中或出现在来自训练话语452的集合的转录456中少于阈值次数的单词。同样地，对比过滤器440识别训练文本样本422的集合内的目标域训练文本样本442的子集，其匹配与用于训练ASR模型200的训练话语452相关联的目标域。训练话语452可以被称为ASR训练话语452，每个ASR训练话语452包括与对应的ASR转录456配对的ASR音频数据454。数据选择管线400然后将ASR转录456、罕见词训练文本样本432和目标域训练文本样本442组合成小批量，以供语言模型训练器480使用来训练LM 206。可以根据采样比(例如，对于ASR转录456/罕见词训练文本样本432/目标域训练文本样本442为20％/40％/40％)来组合小批量。

罕见词过滤器430使用频率阈值f_t(例如，15)直接从包括出现在训练文本样本422的集合中的单词的ASR训练话语452的集合过滤转录456，以识别要包含在罕见词训练文本样本432的子集中的训练文本样本。罕见词过滤器420还识别未出现在转录456中的任何训练文本样本422以包含在罕见词训练文本样本432的子集中。对比过滤器440对重采样过滤器420输出的低频训练文本样本422的集合应用对比选择/过滤，以识别与关联于用于训练ASR模型200的训练话语452的集合的目标域匹配的目标域训练文本样本442的子集。训练文本样本412的语料库可以包括从与ASR模型200被训练来辨识语音的域不同的域收集到的文本样本。例如，可以从包含更多网站名称的键入的搜索查询收集文本样本，而ASR模型200的目标域对应于包含更多语音命令的语音搜索。对于低频训练文本样本422的集合中的每个训练文本样本，通过下式计算该对比选择：

其中，表示训练文本样本422的对数困惑度，target表示目标LM 206，background表示在完全去重复的训练数据集上训练的背景语言模型。然后在训练话语452的转录456上调谐对比选择以产生目标LM 206。当训练文本样本更接近用于训练ASR模型200的训练话语452的转录456时，训练文本样本的分数将较低。对比过滤器440然后可以丢弃高于阈值的训练文本样本422，以从低于阈值的低频训练文本样本422的集合中识别目标域训练文本442的子集。如本文中所使用的，与训练话语相关联的目标域可以包括辅助查询、语音搜索查询、导航查询或与任何其他域相关联的话语。值得注意的是，基于训练话语452训练图1-3的ASR模型200，每个训练话语452包括对应话语的音频数据454和用作音频数据454的真实标签的话语的对应转录456。

图5包括训练用于罕见词语音辨识的语言模型206的方法500的示例操作布置的流程图。在操作502处，方法500包括获得训练文本样本412的集合。在操作504处，方法500还包括获得用于训练ASR模型200的训练话语452的集合，多个训练话语452中的每个训练话语452包括对应于话语的音频数据454和该话语的对应转录456。

在操作506处，方法500包括对训练文本样本412的集合应用罕见词过滤以识别罕见词训练文本样本432的子集。罕见词训练文本样本432的子集包括未出现在来自训练话语452的集合的转录456中或者出现在来自训练话语452的集合的转录456中少于阈值次数的词。在操作508处，方法500进一步包括，在来自训练话语452的集合的转录456和所识别的罕见词训练文本样本432的子集上训练外部语言模型206。

图6是可以被用于实现在本文件中描述的系统和方法的示例计算设备600的示意图。计算设备600旨在表示各种形式的数字计算机，诸如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。这里示出的组件、它们的连接和关系以及它们的功能仅意味着是示例性的，并且并不意味着限制本文档中描述和/或所要求保护的实施方式的实施方式。

计算设备600包括处理器610、存储器620、存储设备630、连接到存储器620和高速扩展端口650的高速界面/控制器640以及连接到低速总线670和存储设备630的低速界面/控制器660。组件610、620、630、640、650和660的每一个使用各种总线互连，并且可以被安装在公共主板上或以其他适当的方式安装。处理器610(也称为“数据处理硬件610”，其可以包括用户设备10的数据处理硬件12或远程计算设备60的数据处理硬件62)能够处理用于在计算设备600内执行的指令，其包括这样的指令：存储在存储器620中或存储设备630上，以在外部输入/输出设备(诸如耦合到高速界面640的显示器680)上显示用于图形用户界面(GUI)的图形信息。在其他实施方式中，可以酌情使用多个处理器和/或多条总线以及多个存储器和存储器类型。此外，可以连接多个计算设备600，每个设备提供必要操作的部分(例如，作为服务器组、一组刀片服务器或多处理器系统)。

存储器620(也称为“存储器硬件620”，其可以包括用户计算设备10的存储器硬件14或远程计算设备60的存储器硬件64)将信息非暂时性地存储在计算设备600内。存储器620可以是计算机可读介质、(多个)易失性存储器单元或(多个)非易失性存储器单元。非暂时性存储器620可以是用于临时或永久存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备600使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备630能够为计算设备600提供大容量存储。在一些实施方式中，存储设备630是计算机可读介质。在各种不同的实施方式中，存储设备630可以是软盘设备、硬盘设备、光盘设备、或磁带设备、闪存或其他类似的固态存储设备、或设备阵列，包括在存储区域网络或其他配置中的设备。在附加的实施方式中，计算机程序产品有形地体现在信息载体中。该计算机程序产品包含指令，该指令当被执行时，执行一种或多种方法，例如上面描述的那些方法。信息载体是计算机或机器可读介质，诸如存储器620、存储设备630或处理器610上的存储器。

高速控制器640管理计算设备600的带宽密集型操作，而低速控制器660管理较低带宽密集型操作。这种职责分配仅是示例性的。在一些实施方式中，高速控制器640耦合到存储器620、显示器680(例如，通过图形处理器或加速器)，并且耦合到高速扩展端口650，高速扩展端口650可以接受各种扩展卡(未示出)。在一些实施方式中，低速控制器660耦合到存储设备630和低速扩展端口690。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口690可以例如通过网络适配器耦合到一个或多个输入/输出设备，诸如键盘、定点设备、扫描仪或诸如交换机或路由器的联网设备。

计算设备600可以以多种不同的形式实现，如图所示。例如，它可以被实现为标准服务器600a或者在一组这样的服务器600a中多次实现为膝上型计算机600b、或者实现为机架服务器系统600c的一部分。

本文中描述的系统和技术的各种实施方式可以以数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合来实现。这些各种实施方式可以包括在包括至少一个可编程处理器的可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式，该可编程处理器可以是专用的或通用的，被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令以及向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。

软件应用(即，软件资源)可以指使计算设备执行任务的计算机软件。在一些示例中，软件应用可以被称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息传送应用、媒体流式传输应用、社交网络应用和游戏应用。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且能够以高级过程和/或面向对象的编程语言和/或汇编/机器语言实现。如本文中所使用的，术语“机器可读介质”和“计算机可读介质”是指任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑器件(PLD))，其用于将机器指令和/或数据提供给可编程处理器，该可编程处理器包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中描述的过程和逻辑流程能够由执行一个或多个计算机程序的一个或多个可编程处理器(也称为数据处理硬件)执行，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程还能够由专用逻辑电路(例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路))执行。例如，适合于执行计算机程序的处理器包括通用和专用微处理器，以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，或者可操作地耦合以从其接收数据或向其传送数据或两者。然而，计算机不必须具有这样的设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，包括例如：半导体存储设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内置硬盘或可移动磁盘；磁光盘；以及，CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，本公开的一个或多个方面可以在计算机上实现，该计算机具有：用于向用户显示信息的显示设备(例如，CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏)；以及可选地，用户能够通过其向计算机提供输入的键盘和定点设备(例如，鼠标或轨迹球)。其他类型的设备也能够被用于提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且，来自用户的输入能够以任何形式被接收，包括声音、语音或触觉输入。另外，计算机能够通过向由用户使用的设备发送文档以及从由用户使用的设备接收文档来与用户交互；例如，通过响应于从网络浏览器接收到的请求将网页发送到用户客户端设备上的网络浏览器。

已经描述了多种实施方式。然而，应当理解，在不脱离本公开的精神和范围的情况下可以做出各种修改。因此，其他实施方式也在所附权利要求的范围内。

Claims

1.一种用于训练外部语言模型(206)以辨识语音中的罕见词的计算机实现的方法(500)，所述计算机实现的方法(500)当在数据处理硬件(610)上执行时，使得所述数据处理硬件(610))执行包括以下的操作：

获得训练文本样本(422)的集合；

获得用于训练自动语音辨识(ASR)模型(200)的训练话语(452)的集合，所述多个训练话语(452)中的每个训练话语(452)包括对应于话语的音频数据(454)以及所述话语的对应转录(456)；

对所述训练文本样本(422)的集合应用罕见词过滤以识别罕见词训练文本样本(432)的子集，所述子集包括未出现在来自所述训练话语(452)的集合的所述转录(456)中或者出现在来自所述训练话语(452)的集合的所述转录(456)中少于阈值次数的词；以及

在来自所述训练话语(452)的集合的所述转录(456)和所识别的罕见词训练文本样本(432)的子集上训练所述外部语言模型(206)。

2.根据权利要求1所述的计算机实现的方法(500)，其中，获得所述训练文本样本(422)的集合包括：

接收训练文本样本语料库(412)；

对所述训练文本样本语料库(412)执行重采样函数以识别所述训练文本样本语料库(412)中出现的高频文本样本；以及

通过从所述训练文本样本语料库(412)中去除所识别的高频文本样本来获得所述训练文本样本(422)的集合。

3.根据权利要求1或2所述的计算机实现的方法(500)，其中，所述重采样函数包括简单功率重采样函数、强制功率重采样函数或软对数重采样函数之一。

4.根据权利要求1-3中任一项所述的计算机实现的方法(500)，其中，所述操作还包括：

对所述训练文本样本(422)的集合应用对比过滤以识别与关联于所述训练话语(452)的集合的目标域匹配的目标域训练文本样本(442)的子集，

其中，在来自所述训练话语(452)的集合的所述转录(456)和所识别的罕见词训练文本样本(432)的子集上训练所述外部语言模型(206)还包括在与所述目标域匹配的所识别的目标域训练文本样本(442)的子集上训练所述外部语言模型(206)。

5.根据权利要求1-4中任一项所述的计算机实现的方法(500)，其中，所述外部语言模型(206)包括外部神经语言模型。

6.根据权利要求5所述的计算机实现的方法(500)，其中，所述外部神经语言模型包括conformer层或transformer层的堆叠。

7.根据权利要求1-6中任一项所述的计算机实现的方法(500)，其中，所述操作还包括将所训练的外部语言模型(206)与所述ASR模型(200)集成，所训练的外部语言模型(206)被配置为对由所训练的ASR模型(200)预测的可能语音辨识假设上的概率分布重新评分。

8.根据权利要求7所述的计算机实现的方法(500)，其中，所述ASR模型(200)包括：

第一编码器(210)，所述第一编码器(210)被配置为：

接收声学帧(110)序列作为输入；以及

在多个输出步中的每一个处生成所述声学帧(110)序列中的对应声学帧(110)的第一高阶特征表示；

第二编码器(220)，所述第二编码器(220)被配置为：

接收由所述第一编码器(210)在所述多个输出步中的每一个处生成的所述第一高阶特征表示作为输入；以及

在所述多个输出步中的每一个处生成对应的第一高阶特征帧的第二高阶特征表示；以及

解码器(204)，所述解码器(204)被配置为：

接收由所述第二编码器(220)在所述多个输出步中的每一个处生成的所述第二高阶特征表示作为输入；以及

在所述多个时间步中的每一个处生成在可能语音辨识假设上的第一概率分布(120a)。

9.根据权利要求7或8所述的计算机实现的方法(500)，其中，所述解码器(204)还被配置为：

在所述多个时间步中的每一个处生成在可能语音辨识假设上的第二概率分布(120b)。

10.根据权利要求7-9中任一项所述的计算机实现的方法(500)，其中，所述解码器(204)包括：

预测网络(300)，所述预测网络(300)被配置为在所述多个时间步中的每一个处：

接收由最终Softmax层输出的N个先前非空白符号的序列作为输入；

对于所述N个先前非空白符号的序列中的每个非空白符号，生成相应嵌入(306)；以及

通过对所述相应嵌入(306)进行平均来生成平均嵌入(312)；以及

联合网络(230)，所述联合网络(230)被配置为：

接收由所述预测网络(300)在所述多个输出步中的每一个处生成的所述平均嵌入(312)以及以下中的一个作为输入：

当所述ASR模型(200)以流式传输模式操作时，由所述第一编码器(210)在所述多个输出步中的每一个处生成的所述第一高阶特征表示；或者

当所述ASR模型(200)以非流式传输模式操作时，由所述第二编码器(220)在所述多个输出步中的每一个处生成的所述第二高阶特征表示；以及

在所述多个输出步中的每一个处生成以下中的一个：

当所述ASR模型(200)以所述流式传输模式操作时，在可能语音辨识假设上的所述第二概率分布(120b)；或者

当所述ASR模型(200)以所述非流式传输模式操作时，在可能语音辨识假设上的所述第一概率分布(120a)。

11.根据权利要求8-10中任一项所述的计算机实现的方法(500)，其中：

所述第一编码器(210)包括因果编码器，所述因果编码器包括conformer层的初始堆叠；以及

所述第二编码器(220)包括非因果编码器，所述非因果编码器包括覆盖在所述conformer层的初始堆叠上的conformer层的最终堆叠。

12.根据权利要求8-11中任一项所述的计算机实现的方法(500)，其中，使用混合自回归换能器分解来训练所述ASR模型(200)的所述第一编码器(210)和所述第二编码器(220)，以促进在纯文本数据上训练的所述外部语言模型(206)的集成，所述纯文本数据包括来自所述训练话语(452)的集合的所述转录(456)和所辨识的罕见词训练文本样本(432)的子集。

13.一种系统，包括：

数据处理硬件(610)；以及

存储指令的存储器硬件(620)，所述指令在所述数据处理硬件(610)上执行时使得所述数据处理硬件(610)执行包括以下的操作：

获得训练文本样本(422)的集合；

14.根据权利要求13所述的系统，其中，获得所述训练文本样本(422)的集合包括：

接收训练文本样本语料库(412)；

15.根据权利要求13或14所述的系统，其中，所述重采样函数包括简单功率重采样函数、强制功率重采样函数或软对数重采样函数之一。

16.根据权利要求13-15中任一项所述的系统，其中，所述操作还包括：

17.根据权利要求13-16中任一项所述的系统，其中，所述外部语言模型(206)包括外部神经语言模型。

18.根据权利要求17所述的系统，其中，所述外部神经语言模型包括conformer层或transformer层的堆叠。

19.根据权利要求13-18中任一项所述的系统，其中，所述操作还包括将所训练的外部语言模型(206)与所述ASR模型(200)集成，所训练的外部语言模型(206)被配置为对由所训练的ASR模型(200)预测的可能语音辨识假设上的概率分布重新评分。

20.根据权利要求19所述的系统，其中，所述ASR模型(200)包括：

第一编码器(210)，所述第一编码器(210)被配置为：

接收声学帧(110)序列作为输入；以及

第二编码器(220)，所述第二编码器(220)被配置为：

解码器(204)，所述解码器(204)被配置为：

21.根据权利要求19或20所述的系统，其中，所述解码器(204)还被配置为：

22.根据权利要求19-21中任一项所述的系统，其中，所述解码器(204)包括：

通过对所述相应嵌入(306)进行平均来生成平均嵌入(312)；以及

联合网络(230)，所述联合网络(230)被配置为：

在所述多个输出步中的每一个处生成以下中的一个：

23.根据权利要求20-22中任一项所述的系统，其中：

24.根据权利要求20-23中任一项所述的系统，其中，使用混合自回归换能器分解来训练所述ASR模型(200)的所述第一编码器(210)和所述第二编码器(220)，以促进在纯文本数据上训练的所述外部语言模型(206)的集成，所述纯文本数据包括来自所述训练话语(452)的集合的所述转录(456)和所辨识的罕见词训练文本样本(432)的子集。