CN114981884A

CN114981884A - 基于注意力的联合声学和文本设备上端到端模型

Info

Publication number: CN114981884A
Application number: CN202180009937.3A
Authority: CN
Inventors: 塔拉·N·赛纳特; 庞若鸣; 罗恩·维斯; 何彦璋; 邱中镇; 特雷弗·施特勒曼
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-01-22
Filing date: 2021-01-21
Publication date: 2022-08-30
Also published as: US20210225362A1; JP2023175029A; US11594212B2; US20230186901A1; JP2023511390A; WO2021150791A1; EP4078573A1; JP7375211B2; KR20220128401A

Abstract

一种方法(300)包括：接收两遍流送神经网络模型(200)的倾听‑注意‑拼写(LAS)解码器(230)的训练示例(203)，以及确定该训练示例是对应于监督的音频‑文本对还是不成对的文本序列。当训练示例对应于不成对的文本序列时，该方法还包括基于与训练示例的语言上下文向量(246)相关联的对数概率来确定交叉熵损失。该方法还包括基于所确定的交叉熵损失来更新LAS解码器和语言上下文向量。

Description

基于注意力的联合声学和文本设备上端到端模型

技术领域

本公开涉及两遍端到端语音识别。

背景技术

现代自动语音识别(ASR)系统不仅关注于提供高质量(例如，低的单词错误率(WER))，而且关注于提供低延时(例如，用户说话与转录出现之间的短延迟)。此外，当现今使用ASR系统时，存在ASR系统以对应于实时或者甚至比实时更快的流送方式解码话语的需求。举例来说，当ASR系统被部署在体验直接用户交互性的移动电话上时，使用ASR系统的移动电话上的应用可能需要语音识别是流送的，使得单词一被说出就出现在屏幕上。这里，也可能是移动电话的用户对延时的容忍度低。由于这种低容忍度，语音识别努力以最小化来自可能不利地影响用户体验的延时和不准确性的影响的方式在移动设备上运行。

发明内容

本公开的一个方面提供一种计算机实现的方法，该计算机实现的方法当在数据处理硬件上执行时使得该数据处理硬件执行操作，操作包括：接收两遍流送神经网络模型的倾听-注意-拼写(LAS)解码器的训练示例，以及确定该训练示例是对应于监督的音频-文本对还是不成对的文本序列。当训练示例对应于不成对的文本序列时，操作还包括：基于与训练示例的上下文向量相关联的对数概率来确定交叉熵损失，以及基于所确定的交叉熵损失来更新LAS解码器和上下文向量。

本公开的实现方式可以包括以下任选特征中的一个或多个。在一些实现方式中，操作还包括：接收两遍流送神经网络的LAS解码器的第二训练示例，确定第二训练示例对应于监督的音频-文本对，以及基于声学上下文向量的对数概率来更新LAS解码器和与声学上下文向量相关联的声学上下文向量参数。在一些示例中，确定训练示例是对应于监督的音频-文本对还是不成对的文本序列包括标识指示训练示例是对应于监督的音频-文本对还是不成对的文本序列的域标识符。

在附加实现方式中，更新LAS解码器降低两遍流送神经网络模型关于长尾实体的单词错误率(WER)。对数概率可以由从声学上下文向量生成的第一相应对数概率与从文本上下文向量生成的第二相应对数概率的插值来定义。此外，LAS解码器可以基于在两遍流送神经网络模型的第一遍期间由循环神经网络转换器(RNN-T)解码器生成的假设来以波束搜索模式操作。在一些示例中，操作还包括利用注意力机制来生成训练示例的上下文向量，该注意力机制被配置成从编码的声学帧中概括编码器特征。

本公开的另一方面提供一种计算机实现的方法，该计算机实现的方法当在数据处理硬件上执行时使得该数据处理硬件执行操作，操作包括：接收两遍流送神经网络模型的倾听-注意-拼写(LAS)解码器的训练示例，确定该训练示例是对应于监督的音频-文本对还是不成对的训练数据，当训练示例对应于不成对的训练数据时生成不成对的训练数据的缺失部分以形成生成的音频-文本对，以及基于生成的音频-文本对来更新LAS解码器和与不成对的数据相关联的上下文向量。

此方面可以包括以下任选特征中的一个或多个。在一些实现方式中，操作还包括：基于生成的音频-文本对来确定声学上下文向量，以及确定从声学上下文向量生成的第一相应对数概率与从文本上下文向量生成的第二相应对数概率的插值。在这些实现方式中，更新LAS解码器是进一步基于第一相应对数概率与第二相应对数概率的插值。

在一些示例中，确定该训练示例是对应于监督的音频-文本对还是不成对的训练数据包括标识指示该训练示例是对应于监督的音频-文本对还是不成对的训练数据的域标识符。此外，更新LAS解码器可以降低两遍流送神经网络模型关于长尾实体的单词错误率(WER)。在一些实现方式中，操作还包括使用注意力机制来生成训练示例的上下文向量，该注意力机制被配置成从编码的声学帧中概括编码器特征。

本公开的又一方面提供一种系统，该系统包括数据处理硬件和存储器硬件，该存储器硬件与数据处理硬件通信并存储指令，指令在由数据处理硬件执行时使得该数据处理硬件执行包括操作，操作包括：接收两遍流送神经网络模型的倾听-注意-拼写(LAS)解码器的训练示例，以及确定该训练示例是对应于监督的音频-文本对还是不成对的文本序列。当训练示例对应于不成对的文本序列时，操作还包括基于与训练示例的上下文向量相关联的对数概率来确定交叉熵损失，以及基于所确定的交叉熵损失来更新LAS解码器和上下文向量。

此方面可以包括以下任选特征中的一个或多个。在一些实现方式中，操作还包括：接收两遍流送神经网络的LAS解码器的第二训练示例，确定第二训练示例对应于监督的音频-文本对，以及基于声学上下文向量的对数概率来更新LAS解码器和与声学上下文向量相关联的声学上下文向量参数。在一些示例中，确定该训练示例是对应于监督的音频-文本对还是不成对的文本序列包括标识指示该训练示例是对应于监督的音频-文本对还是不成对的文本序列的域标识符。

本公开的又一方面提供一种系统，该系统包括数据处理硬件和存储器硬件，该存储器硬件与数据处理硬件通信并存储指令，指令在由数据处理硬件执行时使得该数据处理硬件执行操作，操作包括：接收两遍流送神经网络模型的倾听-注意-拼写(LAS)解码器的训练示例，确定该训练示例是对应于监督的音频-文本对还是不成对的训练数据，当训练示例对应于不成对的训练数据时生成不成对的训练数据的缺失部分以形成生成的音频-文本对，以及基于生成的音频-文本对来更新LAS解码器和与不成对的数据相关联的上下文向量。

在附图和以下描述中阐述本公开的一个或多个实现方式的细节。其他方面、特征和优点将从描述和附图以及从权利要求显而易见。

附图说明

图1A和图1B是使用具有联合声学和文本模型的两遍架构的示例语音环境的示意图。

图2A是用于语音识别的示例传统两遍架构的示意图。

图2B是并入到图2A的用于语音识别的两遍架构中的示例联合声学和文本模型的示意图。

图3是用于实现并入了联合声学和文本模型的图2B的两遍架构的方法的操作的示例布置的流程图。

图4是用于实现并入了联合声学和文本模型的图2B的两遍架构的方法的操作的示例布置的流程图。

图5是可以用于实现本文描述的系统和方法的示例计算设备的示意图。

各个附图中的相同附图标记指示相同的元件。

具体实施方式

语音识别不断演变，以满足移动环境的自由和灵活需求。新的语音识别架构或对现有架构的改进不断被开发，试图提高自动语音识别系统(ASR)的质量。举例来说，语音识别最初采用多个模型，其中每个模型都有一个专用的目的。例如，ASR系统包括声学模型(AM)、发音模型(PM)和语言模型(LM)。声学模型将音频段(即，音频帧)映射到音素。发音模型将这些音素连接在一起以形成单词，而语言模型用于表达给定短语的可能性(即，单词序列的概率)。然而，尽管这些单独的模型一起工作，但每个模型都是独立训练的，并且通常是在不同的数据集上手动设计的。

单独的模型的方法使得语音识别系统能够相当准确，特别是当给定模型的训练语料库(即，训练数据的主体)迎合模型的有效性时，但是独立地训练单独的模型的需要引入了其自身的复杂性，并且导致具有整合模型的架构。这些整合模型试图使用单个神经网络来将音频波形(即，输入序列)直接映射到输出句子(即，输出序列)。这得到序列到序列的方法，当给定音频特征序列时，该方法生成单词(或字素)序列。序列到序列模型的示例包括“基于注意力的”模型和“倾听-注意-拼写(listen-attend-spell)”(LAS)模型。LAS模型使用倾听器组件、注意器组件和拼写器组件将语音话语转录成字符。这里，倾听器是循环神经网络(RNN)编码器，其接收音频输入(例如，语音输入的时间-频率表示)并将音频输入映射到更高级的特征表示。注意器注意更高级的特征以学习在输入特征与预测的子词单元(例如，字素或单词片段(wordpiece))之间的对齐。拼写器是基于注意力的RNN解码器，其通过在假设的单词的集合上生成概率分布来根据输入生成字符序列。利用整合结构，模型的所有组件可以作为单个端到端(E2E)神经网络来联合训练。这里，E2E模型指的是其架构完全由神经网络构建的模型。全神经网络在没有外部和/或手动设计的组件(例如，有限状态转换器、词典或文本规范化模块)的情况下运作。此外，当训练E2E模型时，这些模型通常不需要从决策树引导或者与单独的系统进行时间对准。

尽管早期的E2E模型被证明是准确的，并且是对单独训练的模型的训练改进，但是这些E2E模型(诸如LAS模型)通过在生成输出文本之前审查整个输入序列来运作，并且因此，当接收到输入时，不允许流送输出。在没有流送传输能力的情况下，LAS模型就无法执行实时语音转录。由于这一缺陷，针对延时敏感和/或需要实时语音转录的语音应用部署LAS模型可能会带来问题。这使得单单LAS模型对于经常依赖于实时应用(例如，实时通信应用)的移动技术(例如，移动电话)来说不是理想的模型。

此外，使声学模型、发音模型和语言模型或者此类模型组成在一起的语音识别系统可能依赖于解码器，该解码器必须搜索与这些模型相关联的相对较大的搜索图。在利用大的搜索图的情况下，将这种类型的语音识别系统完全托管在设备上是不利的。这里，当语音识别系统被托管在“设备上”时，接收音频输入的设备使用其处理器来执行语音识别系统的功能性。例如，当语音识别系统被完全托管在设备上时，设备的处理器不需要与任何设备外的计算资源协调来执行语音识别系统的功能性。不完全在设备上执行语音识别的设备依赖于远程计算(例如，远程计算系统或云计算)并因此依赖于在线连接性来执行语音识别系统的至少一些功能。例如，语音识别系统使用与基于服务器的模型的网络连接来执行利用大的搜索图的解码。

遗憾的是，依赖于远程连接使得语音识别系统易受通信网络的延时问题和/或固有的不可靠性的影响。为了通过避免这些问题来提高语音识别的有用性，语音识别系统再次演变成一种称为循环神经网络转换器(RNN-T)的序列到序列模型的形式。RNN-T不采用注意力机制，并且与通常需要处理整个序列(例如，音频波形)以产生输出(例如，句子)的其他序列到序列模型不同，RNN-T连续地处理输入样本并流送传输输出符号，这是对实时通信特别有吸引力的特征。例如，利用RNN-T的语音识别可以在说出时逐个地输出字符。这里，RNN-T使用将由模型预测的符号反馈回其自身以预测下一个符号的反馈回路。因为解码RNN-T包括通过单个神经网络而不是大的解码器图的波束搜索，所以RNN-T可以缩放到基于服务器的语音识别模型的尺寸的一小部分。随着尺寸的减小，RNN-T可以被完全部署在设备上，并且能够离线运行(即，没有网络连接)；因此，避免了关于通信网络的不可靠性问题。

除了语音识别系统以低延时操作之外，语音识别系统还需要准确地识别语音。通常对于执行语音识别的模型，可以定义模型的准确性的度量是单词错误率(WER)。WER是指与实际说出的单词数相比有多少单词被改变的度量。通常，这些单词变化指的是替换(即，当单词被替代时)、插入(即，当单词被添加时)和/或删除(即，当单词被省略时)。举例来说，说话者说“car”，但是ASR系统将单词“car”转录为“bar”。这是因语音相似性而引起的替换的示例。当与其他ASR系统相比测量ASR系统的能力时，WER可以指示相对于另一系统或某个基线的改进或质量能力的某个度量。

尽管RNN-T模型示出作为设备上语音识别的强大候选模型的前景，但是单单RNN-T模型在质量(例如，语音识别准确性)方面仍然落后于大型最先进的常规模型(例如，具有单独的AM、PM和LM的基于服务器的模型)。然而，非流送E2E、LAS模型具有可与大型最先进的常规模型相当的语音识别质量。为了利用非流送E2E LAS模型的质量，开发了两遍语音识别系统(例如，如图2A所示)，其包括RNN-T网络的第一遍组件，后面跟着LAS网络的第二遍组件。利用这种设计，两遍模型受益于具有低延时的RNN-T模型的流送性质，同时通过并入了LAS网络的第二遍来提高RNN-T模型的准确性。虽然LAS网络与仅RNN-T模型相比增加了延时，但延时的增加相当轻微，并且符合设备上操作的延时约束。关于准确性，与单单RNN-T相比，两遍模型实现了17-22％的WER减少，而与大型常规模型相比，具有相似的WER。

遗憾的是，这种具有RNN-T网络第一遍和LAS网络第二遍的两遍模型具有一些缺陷。例如，这种类型的两遍模型的缺点是仅在监督的音频-文本对上进行训练。由于仅在监督的音频-文本对上进行训练，两遍模型在罕见单词或长尾实体上表现不佳。长尾实体是指文本语料库中实例相对较少(即，频率较低)的大量实体。换句话说，不常见的罕见单词因此在较小的训练数据集中也固有地不常见。当训练流送E2E模型(诸如两遍模型)时，使用常规声学模型(AM)的训练集进行训练，该训练集是用于训练常规语言模型(LM)的文本数据的尺寸的一小部分。尽管已经提出了一些技术来提高两遍模型在罕见单词上的性能，但是许多提出的技术显著增加了模型尺寸(例如，将循环神经网络语言模型(RNN-LM)并入到语音识别系统中)、训练时间(例如，利用无监督的音频-文本对进行训练)和/或推断成本。

为了增加两遍模型在罕见单词上的有效性，本文的实现方式涉及将联合声学和文本解码器(JATD)并入到两遍模型架构中。JATD功能提供指示训练示例是对应于监督的音频-文本对还是从不成对的数据(例如，纯文本样本或纯音频样本)生成的音频-文本示例的域标识符(ID)。对于不成对的数据，可以使用文本到语音(TTS)系统来生成缺失的音频部分，或者使用ASR系统来生成缺失的文本部分，来合成该对的缺失的一半。在训练期间，当编码器接收到成对的示例时，编码器生成要馈送到解码器中的声学上下文向量。这里，声学上下文向量的成功生成表示或形成指示成对的数据的域ID。另一方面，当解码器遇到不成对的示例时，使用固定但可学习的上下文向量域ID来绕过编码器网络。然后，这两个示例都被用于在解码器处的训练；允许解码器在成对的数据和不成对的数据上同时被训练，而不增加模型尺寸。此外，代替仅基于输入源改变编码器的输入参数的跨所有模式共享注意力和解码器参数的方法，这种JATD方法仅共享解码器参数并且使用不同的注意力上下文参数。在各种专有名词和罕见单词测试集上，与仅在成对的数据上训练的两遍架构相比，JATD模型已经实现了3-10％的WER相对减少。

图1A和图1B是语音环境100的示例。在语音环境100中，用户10与诸如用户设备110的计算设备交互的方式可以是通过语音输入。用户设备110(通常也称为设备110)被配置成捕捉来自语音启用环境100内的一个或多个用户10的声音(例如，流送音频数据)。这里，流送音频数据12可以指用户10的口头话语，其用作设备110的可听查询、命令或设备110捕捉的可听通信。设备110的语音启用系统可以通过回答查询和/或使命令被执行来回应查询或命令。

用户设备110可以对应于与用户10相关联并且能够接收音频数据12的任何计算设备。用户设备110的一些示例包括，但不限于，移动设备(例如，移动电话、平板型计算机、膝上型计算机等)、计算机、可穿戴设备(例如，智能手表)、智能家电、物联网(IoT)设备、智能扬声器等。用户设备110包括数据处理硬件112和存储器硬件114，该存储器硬件114与数据处理硬件112通信并存储指令，这些指令在由数据处理硬件112执行时，使得数据处理硬件112执行一个或多个操作。用户设备110进一步包括音频子系统116，该音频子系统116具有用于捕捉语音启用系统100内的口头话语12并将该口头话语转换成电信号的音频捕捉设备(例如，麦克风)116、116a和用于传达可听音频信号(例如，作为来自设备110的输出音频数据)的语音输出设备(例如，扬声器)116、116b。虽然在所示的示例中用户设备110实现了单个音频捕捉设备116a，但是用户设备110可以在不脱离本公开的范围的情况下实现音频捕捉设备116a的阵列，由此阵列中的一个或多个捕捉设备116a可以在物理上未驻存在用户设备110上，而是与音频子系统116通信。用户设备110(例如，使用硬件112、114)进一步被配置成使用语音识别器200对流送音频数据12执行语音识别处理。在一些示例中，包括音频捕捉设备116a的用户设备110的音频子系统116被配置成接收音频数据12(例如，口头话语)，并将音频数据12转换成与语音识别器200兼容的数字格式。数字格式可以对应于声学帧(例如，参数化的声学帧)，诸如梅尔(mel)帧。例如，参数化的声学帧对应于对数梅尔滤波器组能量。

在一些示例中，诸如图1A，用户10与使用语音识别器200的用户设备110的程序或应用118交互。例如，图1A描绘用户10与自动助理应用通信。在此示例中，用户10询问自动助理，“What time is the concert tonight？(今晚的音乐会是什么时间？)”来自用户10的这个问题是由音频捕捉设备116a捕捉并由用户设备110的音频子系统116处理的口头话语12。在此示例中，用户设备110的语音识别器200接收“what time is the concert tonight(今晚的音乐会是什么时间)”的音频输入202(例如，作为声学帧)，并将音频输入202转录成转录204(例如，“what time is the concert tonight？(今晚的音乐会是什么时间？)”的文本表示)。这里，应用118的自动助理可以使用自然语言处理来响应用户10提出的问题。自然语言处理通常指解释书面语言(例如，转录204)并确定书面语言是否提示任何动作的过程。在此示例中，自动助理使用自然语言处理来识别来自用户10的问题涉及用户的时间表，并且更具体地涉及用户时间表上的音乐会。通过利用自然语言处理来识别这些细节，自动助理返回对用户查询的响应，其中响应说明，“Doors open at 8:30pm for the concerttonight(今晚的音乐会在晚上8:30开门)。”在一些配置中，自然语言处理可以发生在与用户设备110的数据处理硬件112通信的远程系统上。

图1B是具有语音识别器200的语音识别的另一示例。在此示例中，与用户设备110相关联的用户10正在利用通信应用118与名为Jane Doe的朋友通信。这里，名为Ted的用户10通过使语音识别器200转录他的语音输入来与Jane通信。音频捕捉设备116捕捉这些语音输入，并将它们以数字形式(例如，声音帧)传达给语音识别器200。语音识别器200将这些声学帧转录成文本，该文本经由通信应用118被发送给Jane。因为这种类型的应用118经由文本进行通信，所以来自语音识别器200的转录204可以被发送给Jane而无需进一步处理(例如，自然语言处理)。

在一些示例中，诸如图2A和图2B，语音识别器200被配置成两遍架构。大体来说，语音识别器200的两遍架构包括至少一个共享编码器210、RNN-T解码器220和LAS解码器230。这里，图2A描绘传统的两遍架构，而图2B描绘并入了JATD模型240的增强的两遍架构。如从这些图中能够看出的，图2B的增强的两遍架构建立在图2A的基本两遍结构上。在两遍解码中，第二遍208(例如，示出为LAS解码器230)可以利用诸如网格重打分或n最佳重新排序的技术来改进来自第一遍206(例如，示出为RNN-T解码器220)的初始输出。换句话说，RNN-T解码器220生成流送预测，并且LAS解码器230完成该预测。这里，具体地，LAS解码器230对来自RNN-T解码器220的流送传输的假设y_R 222进行重打分。尽管通常讨论的是LAS解码器230以对来自RNN-T解码器220的流送传输的假设y_R 222进行重打分的重打分模式运作，但是LAS解码器230也能够根据设计或其他因素(例如，话语长度)以不同的模式(诸如波束搜索模式)操作。

至少一个编码器210被配置成接收对应于流送音频数据12的声学帧作为音频输入202。声学帧可以由音频子系统116预先处理成参数化的声学帧(例如，梅尔帧和/或频谱帧)。在一些实现方式中，参数化的声学帧对应于具有对数梅尔特征的对数梅尔滤波器组能量。例如，由音频子系统116输出并被输入到编码器210中的参数化的输入声学帧可以被表示为x＝(x₁,...,x_T)，其中

是对数梅尔滤波器组能量，T表示x中的帧的数量，并且d表示对数梅尔特征的数量。在一些示例中，每个参数化的声学帧包括在短移位窗口(例如，32毫秒并且每10毫秒移位)内计算的128维对数梅尔特征。每个特征可以与先前帧(例如，三个先前帧)堆叠，以形成更高维的向量(例如，使用三个先前帧的512维向量)。形成向量的特征然后可以被降采样(例如，到30毫秒的帧速率)。基于音频输入202，编码器210被配置成生成编码e。例如，编码器210生成编码的声学帧(例如，编码的梅尔帧或声学嵌入)。

尽管编码器210的结构可以以不同的方式实现，但是在一些实现方式中，编码器210是长短期记忆(LSTM)神经网络。例如，编码器210包括八个LSTM层。这里，每层可以具有2048个隐藏单元，后面跟着640维投影层。在一些示例中，在编码器210的第二LSTM层之后插入缩减因子N＝2的时间缩减层。

在一些配置中，编码器210是共享编码器网络。换句话说，代替每遍206、208具有其自身的单独的编码器，每遍网络206、208共享单个编码器210。通过共享编码器，使用两遍架构的ASR语音识别器200可以减少其模型尺寸和/或其计算成本。这里，模型尺寸的减小可以帮助使得语音识别器200能够完全在设备上良好地运作。

在一些示例中，图2A的语音识别器200还包括附加编码器，诸如声学编码器250，以使编码器210的输出212适合于LAS解码器230的第二遍208。声学编码器250被配置成将输出212进一步编码成编码的输出252。在一些实现方式中，声学编码器250是LSTM编码器(例如，两层LSTM编码器)，其对来自编码器210的输出212进行进一步编码。通过包括附加编码器，编码器210仍然可以被保留为遍206、208之间的共享编码器。

在第一遍206期间，编码器210接收音频输入202的每个声学帧并生成输出212(例如，示出为声学帧的编码e)。RNN-T解码器220接收每帧的输出212，并在每个时间步长处以流送方式生成输出222，被示出为假设y_R。在一些实现方式中，RNN-T解码器220包括预测网络和联合网络。这里，预测网络可以具有每层2048个隐藏单元和640维投影的两个LSTM层以及128个单元的嵌入层。编码器210和预测网络的输出212可以被馈送到包括softmax预测层的联合网络中。在一些示例中，RNN-T解码器220的联合网络包括640个隐藏单元，后面跟着预测4096个混合大小写单词片段的softmax层。

在图2A的两遍模型中，在第二遍208期间，LAS解码器230接收每帧的来自编码器210的输出212(或编码的输出252)，并生成指定为假设y_L的输出232。当LAS解码器230以波束搜索模式操作时，LAS解码器230仅从输出212(或输出252)生成输出232；忽略RNN-T解码器220的输出222。当LAS解码器230以重打分模式操作时，LAS解码器230从RNN-T解码器220获得前K个假设，并且然后LAS解码器230以教师强制模式在每个序列上运行，同时注意力在输出212(或输出252)上，以计算分数。例如，分数将序列的对数概率与注意力覆盖惩罚相组合。LAS解码器230选择具有最高分数的序列作为输出232。这里，在重打分模式中，LAS解码器230可以包括多头注意力(例如，具有四个头)来注意输出212(或输出252)。此外，LAS解码器230可以是具有用于预测的softmax层的两层LAS解码器230。例如，LAS解码器230的每层具有2048个隐藏单元，后面跟着640维投影。softmax层可以包括4096个维度，以从RNN-T解码器220的softmax层预测相同的混合大小写单词片段。

在一些实现方式中，训练图2A的两遍模型分两个阶段进行。在第一阶段期间，编码器210和RNN-T解码器220被训练以最大化

在第二阶段中，编码器210是固定的，并且LAS解码器230被训练以最大化

当两遍模型包括附加编码器250时，附加编码器250在第二阶段中被训练以最大化

而编码器210是固定的。

参考图2B，第一遍206保持不变，但是第二遍208使用JATD模型240，JATD模型240包括在LAS解码器230处解码之前的注意力机制242。这里，注意力机制242接收编码输出212(或输出252)，并确定概括每个输出步骤的编码特征的上下文向量c、c_A、c_L。注意力机制242被配置成根据输入训练数据的类型来改变传递给LAS解码器230的上下文向量c。换句话说，当输入训练数据(即，特定训练示例)是监督的音频-文本对时，注意力机制242生成声学上下文向量244c_A，以及当输入训练数据(例如，训练示例203)是不成对的文本序列时，注意力机制242生成固定语言上下文向量246c_L。随着JATD模型240与LAS解码器230整合，JATD模型240改变LAS解码器230的推断和训练两者，以利用成对的数据和/或不成对的数据。

在推断期间，LAS解码器230基于下面的等式计算对数概率。例如，对于声学输入，声学上下文向量c_a确定LAS解码器230在每个解码器步长u处的对数概率。这里，y_u-1∶1＝{y_u-1，...，y₁}指示在推断期间单个假设的先前解码的标签。类似地，对于基于文本的输入，语言上下文向量c_L确定LAS解码器230在每个解码器步长处的对数概率。在这两种情况下，对数概率仅基于先前的标签来预测标签，使得音频特征被完全忽略。换句话说，通过从声学上下文向量或语言上下文向量c生成对数概率，这些概率通常指示声学分数和/或语言分数。因此，每个解码器时间步长可以被表示为使用混合权重λ的基于声学的对数概率与基于语言的对数概率的插值(例如，其中混合权重对应于声学样本与语言样本的比率)。在一些示例中，当LAS解码器230以重打分模式或波束搜索模式操作时，这种推断适用。基于利用各种数据源和测试集的迭代，0.05左右的混合权重对于推断可能是最佳的。

λlogp(y_u|x，c_a，y_u-1：1)+(1-λ)logp(y_u|c_L，y_u-1∶1) (1)

在训练期间，RNN-T解码器220以与传统的两遍架构相同的方式进行训练。换句话说，RNN-T解码器220利用监督的音频-文本成对数据进行训练。然而，当训练LAS解码器230时，可以使用多于一种训练策略。例如，第一训练策略是单独训练策略，而第二训练策略是联合训练策略。在单独训练策略中，当使用音频-文本对时，LAS解码器230使用声学上下文向量c_a 244基于等式(2a)的确定来进行更新。这里，除了LAS解码器230更新之外，等式(2a)的解更新声学上下文向量参数。另一方面，当使用不成对的数据时，训练损失减少到从等式(2b)计算的交叉熵损失，其中c_L是可训练的上下文向量。在此情况下，仅LAS解码器230和上下文向量更新。

使用联合训练策略，在一些实现方式中，从声学上下文向量和语言上下文向量244、246生成的对数概率的插值以类似于推断的方式定义训练损失。这里，监督的音频数据被表示为x^a。在包括监督的音频-文本对的示例中，LAS解码器230和声学注意力参数基于logp(y_u|x，c_a，y_u-1∶1)和logp(y_u|c_L，y_u-1∶1)的插值来进行更新。对于不成对的数据，缺少声学上下文向量c_a来确定适当的对数概率。当这种情况发生时，存在两种可能的选项。首先，常规模型可以在获得真实音频之后生成假设的文本(例如，文本转录)。这里，使用转录的音频类似于模型蒸馏。在第二种方法中，第一种方法可以反过来，使得类似TTS的系统从真实文本合成声学信号。使用这些方法，不成对的数据不再缺少声学上下文向量c_a。因此，利用求解的声学上下文向量c_a，语音识别器200可以对不成对的数据的对数概率进行插值。基于此插值，语音识别器200更新LAS解码器230和固定上下文向量参数。在一些实现方式中，语音识别器200调整混合权重λ以避免偏置注意力机制242的声学注意力参数。

图3是用于执行自动语音识别(例如，ASR)的方法300的示例性操作布置的流程图。在操作302处，方法300接收两遍流送神经网络模型的LAS解码器230的训练示例。在操作304处，方法300确定该训练示例是对应于监督的音频-文本对还是不成对的文本序列。当训练示例对应于不成对的文本序列时，在操作306处，方法300基于与训练示例的上下文向量c相关联的对数概率来确定交叉熵损失。在操作308处，方法300基于所确定的交叉熵损失来更新LAS解码器230和上下文向量c。

图4是用于执行自动语音识别(例如，ASR)的方法400的示例性操作布置的另一流程图。在操作402处，方法400接收两遍流送神经网络模型的LAS解码器230的训练示例。这里，训练示例被配置成训练LAS解码器230。在操作404处，方法400确定该训练示例是对应于监督的音频-文本对还是不成对的训练数据。当训练示例对应于不成对的训练数据时，在操作406处，方法400生成不成对的训练数据的缺失部分以形成生成的音频-文本对。在操作408处，方法400基于生成的音频-文本对来更新LAS解码器230和与不成对的数据相关联的上下文向量c。

图5是可以用于实现本文档中描述的系统(例如，语音识别器200)和方法(例如，方法300、400)的示例计算设备500的示意图。计算设备500旨在表示各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。本文所示的组件、其连接和关系、以及其功能意图仅为示例性的，并且并不意图限制本文档中描述和/或要求保护的本发明的实现方式。

计算设备500包括处理器510(例如，数据处理硬件)、存储器520(例如，存储器硬件)、存储设备530、连接到存储器520和高速扩展端口540的高速接口/控制器540、和连接到低速总线570和存储设备530的低速接口/控制器560。组件510、520、530、540、550和560中的每个都使用各种总线来互连，并且可以被安装在公共主板上或以其他适当方式安装。处理器510能够处理用于在计算设备500内执行的指令，包括存储在存储器520中或存储设备530上的指令，以在外部输入/输出设备(诸如耦合到高速接口540的显示器580)上显示用于图形用户界面(GUI)的图形信息。在其他实现方式中，可以适当地使用多个处理器和/或多个总线，以及多个存储器和多种类型的存储器。而且，可以连接多个计算设备500，其中每个设备提供必要的操作的部分(例如，作为服务器组、一组刀片服务器、或多处理器系统)。

存储器520在计算设备500内非暂时性地存储信息。存储器520可以是计算机可读介质、易失性存储器单元或非易失性存储器单元。非暂时性存储器520可以是用于临时或永久存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备500使用的物理设备。非易失性存储器的示例包括，但不限于，闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括，但不限于，随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备530能够提供用于计算设备500的大容量存储。在一些实现方式中，存储设备530是计算机可读介质。在各种不同的实现方式中，存储设备530可以是软盘设备、硬盘设备、光盘设备、或磁带设备、闪存或其他类似的固态存储器设备、或设备阵列，包括存储区域网络或其他配置中的设备。在附加实现方式中，计算机程序产品被有形地体现在信息载体中。计算机程序产品包括在被执行时执行诸如上文所描述的一个或多个方法的指令。信息载体是计算机可读介质或机器可读介质，诸如存储器520、存储设备530、或处理器510上的存储器。

高速控制器540管理用于计算设备500的带宽密集操作，而低速控制器560管理较低带宽密集操作。此类职责分配只是示例性的。在一些实现方式中，高速控制器540耦合到存储器520、显示器580(例如，通过图形处理器或加速器)，并且耦合到可以接受各种扩展卡(未图示)的高速扩展端口550。在一些实现方式中，低速控制器560耦合到存储设备530和低速扩展端口590。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口590可以例如通过网络适配器而耦合到一个或多个输入/输出设备，诸如键盘、定点设备、扫描仪、或网络设备(诸如交换机或路由器)。

计算设备500可以以许多不同的形式来实现，如图中所示。例如，它可以被实现为标准服务器500a或者在一组此类服务器500a中被实现多次，作为膝上型计算机500b，或者作为机架服务器系统500c的一部分。

本文描述的系统和技术的各种实现方式能够被实现在数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中。这些各种实现方式能够包括以在可编程系统上可执行和/或可解释的一个或多个计算机程序的实现方式，该可编程系统包括可以是专用或通用的至少一个可编程处理器，其被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令以及将数据和指令传输到存储系统、至少一个输入设备和至少一个输出设备。

这些计算机程序(还被称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且能够用高级程序化和/或面向对象的编程语言和/或用汇编/机器语言来实现。如本文所使用的，术语“机器可读介质”和“计算机可读介质”是指用于将机器指令和/或数据提供到可编程处理器的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于将机器指令和/或数据提供到可编程处理器的任何信号。

本说明书中描述的过程和逻辑流能够由执行一个或多个计算机程序的一个或多个可编程处理器来执行，从而通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流还能够由专用逻辑电路执行，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。适合于执行计算机程序的处理器包括例如通用微处理器和专用微处理器两者以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将接收来自只读存储器或随机存取存储器或两者的指令和数据。计算机的基本元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)，或者以操作方式耦合以接收来自一个或多个大容量存储设备的数据或将数据传送到一个或多个大容量存储设备或两者都有。然而，计算机不需要具有此类设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如包括：半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移除盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器能够通过专用逻辑电路来补充或并入专用逻辑电路中。

为了提供与用户的交互，本公开的一个或多个方面能够在计算机上实现，该计算机具有显示设备，例如CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏，用于向用户显示信息，并且任选地具有键盘和定点设备，例如鼠标或轨迹球，用户能够通过其向计算机提供输入。也能够使用其他种类的设备来提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且能够以任何形式接收来自用户的输入，包括声学输入、语音输入或触觉输入。此外，计算机能够通过向用户使用的设备发送文档并从用户使用的设备接收文档来与用户进行交互；例如，通过响应于从web浏览器接收到的请求而将网页发送到用户的客户端设备上的web浏览器。

已经描述了许多实现方式。然而，将理解可以在不脱离本公开的精神和范围的情况下进行各种修改。因此，其他实现方式是在随附权利要求的范围之内。

Claims

1.一种计算机实现的方法(300)，所述计算机实现的方法当在数据处理硬件(112)上执行时使得所述数据处理硬件(112)执行操作，所述操作包括：

接收两遍流送神经网络模型(200)的倾听-注意-拼写LAS解码器(230)的训练示例(203)；

确定所述训练示例(203)是对应于监督的音频-文本对还是不成对的文本序列；

当所述训练示例(203)对应于不成对的文本序列时，基于与所述训练示例(203)的语言上下文向量(246)相关联的对数概率来确定交叉熵损失；以及

基于所确定的交叉熵损失来更新所述LAS解码器(230)和所述语言上下文向量(246)。

2.根据权利要求1所述的计算机实现的方法(300)，其中，所述操作进一步包括：

接收所述两遍流送神经网络模型(200)的所述LAS解码器(230)的第二训练示例(203)；

确定所述第二训练示例(203)对应于所述监督的音频-文本对；以及

基于声学上下文向量(244)的对数概率来更新所述LAS解码器(230)和与所述声学上下文向量(244)相关联的声学上下文向量参数。

3.根据权利要求1或2所述的计算机实现的方法(300)，其中，确定所述训练示例(203)是对应于所述监督的音频-文本对还是所述不成对的文本序列包括：标识域标识符，所述域标识符指示所述训练示例(203)是对应于所述监督的音频-文本对还是所述不成对的文本序列。

4.根据权利要求1-3中的任一项所述的计算机实现的方法(300)，其中，更新所述LAS解码器(230)降低了所述两遍流送神经网络模型(200)针对长尾实体的单词错误率WER。

5.根据权利要求1-4中的任一项所述的计算机实现的方法(300)，其中，通过从声学上下文向量(244)生成的第一相应对数概率与从所述语言上下文向量(246)生成的第二相应对数概率的插值，来定义所述对数概率。

6.根据权利要求1-5中的任一项所述的计算机实现的方法(300)，其中，基于在所述两遍流送神经网络模型(200)的第一遍(206)期间由循环神经网络转换器RNN-T解码器(220)生成的假设，所述LAS解码器(230)以波束搜索模式操作。

7.根据权利要求1-6中的任一项所述的计算机实现的方法(300)，其中，所述操作进一步包括：利用注意力机制(242)来生成所述训练示例(203)的所述语言上下文向量(246)，所述注意力机制(242)被配置成从编码的声学帧(212)中概括编码器(210)特征。

8.一种计算机实现的方法(400)，所述计算机实现的方法当在数据处理硬件(112)上执行时使得所述数据处理硬件(112)执行操作，所述操作包括：

确定所述训练示例(203)是对应于监督的音频-文本对还是不成对的训练数据；

当所述训练示例(203)对应于所述不成对的训练数据时，生成所述不成对的训练数据的缺失部分以形成生成的音频-文本对；以及

基于所述生成的音频-文本对来更新所述LAS解码器(230)和与所述不成对的数据相关联的所述语言上下文向量(244)。

9.根据权利要求8所述的计算机实现的方法(400)，其中，所述操作进一步包括：

基于所述生成的音频-文本对来确定声学上下文向量(244)；以及

确定从所述声学上下文向量(244)生成的第一相应对数概率与从所述语言上下文向量(246)生成的第二相应对数概率的插值，

其中，更新所述LAS解码器(230)是进一步基于所述第一相应对数概率与所述第二相应对数概率的所述插值。

10.根据权利要求8或9所述的计算机实现的方法(400)，其中，确定所述训练示例(203)是对应于所述监督的音频-文本对还是所述不成对的训练数据包括：标识域标识符，所述域标识符指示所述训练示例(203)是对应于所述监督的音频-文本对还是所述不成对的训练数据。

11.根据权利要求8-10中的任一项所述的计算机实现的方法(400)，其中，更新所述LAS解码器(230)降低了所述两遍流送神经网络模型(200)针对长尾实体的单词错误率WER。

12.根据权利要求8-11中的任一项所述的计算机实现的方法(400)，其中，所述操作进一步包括：使用注意力机制(242)来生成所述训练示例(203)的所述语言上下文向量(246)，所述注意力机制(242)被配置成从编码的声学帧(212)中概括编码器(210)特征。

13.一种系统(500)，包括：

数据处理硬件(112)；以及

与所述数据处理硬件(112)通信的存储器硬件(114)，所述存储器硬件(114)存储指令，所述指令当在所述数据处理硬件(112)上执行时使得所述数据处理硬件(112)执行操作，所述操作包括：

14.根据权利要求13所述的系统(500)，其中，所述操作进一步包括：

15.根据权利要求13或14所述的系统(500)，其中，确定所述训练示例(203)是对应于所述监督的音频-文本对还是所述不成对的文本序列包括：标识域标识符，所述域标识符指示所述训练示例(203)是对应于所述监督的音频-文本对还是所述不成对的文本序列。

16.根据权利要求13-15中的任一项所述的系统(500)，其中，更新所述LAS解码器(230)降低了所述两遍流送神经网络模型(200)针对长尾实体的单词错误率WER。

17.根据权利要求13-16中的任一项所述的系统(500)，其中，通过从声学上下文向量(244)生成的第一相应对数概率与从所述语言上下文向量(246)生成的第二相应对数概率的插值，来定义所述对数概率。

18.根据权利要求13-17中的任一项所述的系统(500)，其中，基于在所述两遍流送神经网络模型(200)的第一遍(206)期间由循环神经网络转换器RNN-T解码器(220)生成的假设，所述LAS解码器(230)以波束搜索模式操作。

19.根据权利要求13-18中的任一项所述的系统(500)，其中，所述操作进一步包括：利用注意力机制(242)来生成所述训练示例(203)的所述语言上下文向量(246)，所述注意力机制(242)被配置成从编码的声学帧(212)中概括编码器(210)特征。

20.一种系统(500)，包括：

数据处理硬件(112)；以及

当所述训练示例(203)对应于不成对的训练数据时，生成所述不成对的训练数据的缺失部分以形成生成的音频-文本对；以及

基于所述生成的音频-文本对来更新所述LAS解码器(230)和与所述不成对的数据相关联的语言上下文向量(246)。

21.根据权利要求20所述的系统(500)，其中，所述操作进一步包括：

确定从所述声学上下文向量(244)生成的第一相应对数概率与从文本上下文向量(246)生成的第二相应对数概率的插值，

22.根据权利要求20或21所述的系统(500)，其中，确定所述训练示例(203)是对应于所述监督的音频-文本对还是所述不成对的训练数据包括：标识域标识符，所述域标识符指示所述训练示例(203)是对应于所述监督的音频-文本对还是所述不成对的训练数据。

23.根据权利要求20-22中的任一项所述的系统(500)，其中，更新所述LAS解码器(230)降低了所述两遍流送神经网络模型(200)针对长尾实体的单词错误率WER。

24.根据权利要求20-23中的任一项所述的系统(500)，其中，所述操作进一步包括：使用注意力机制(242)来生成所述训练示例(203)的所述语言上下文向量(246)，所述注意力机制(242)被配置成从编码的声学帧(212)中概括编码器(210)特征。