CN115004296A

CN115004296A - 基于审议模型的两轮端到端言语辨识

Info

Publication number: CN115004296A
Application number: CN202180009642.6A
Authority: CN
Inventors: 胡珂; 塔拉·N·赛纳特; 庞若鸣; 罗希特·普拉卡什·普拉巴瓦尔卡尔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-01-21
Filing date: 2021-01-14
Publication date: 2022-09-02
Also published as: JP2023513430A; EP4062400A1; US20230186907A1; US20210225369A1; KR20220130699A; JP2023041867A; JP7488381B2; WO2021150424A1; JP7222153B1; US11908461B2

Abstract

一种使用两轮审议架构执行言语辨识的方法包括接收第一轮假设和编码的声学帧，以及在假设编码器处对所述第一轮假设进行编码。由循环神经网络(RNN)解码器模型生成所述第一轮假设以用于所述编码的声学帧。所述方法还包括：使用致力于所述编码的声学帧的第一注意力机制生成第一场境矢量，以及使用致力于所述编码的第一轮假设的第二注意力机制生成第二场境矢量。该方法还包括在场境矢量解码器处对第一场境矢量和第二场境矢量进行解码，以形成第二轮假设。

Description

基于审议模型的两轮端到端言语辨识

技术领域

本公开涉及两轮端到端言语辨识。

背景技术

现代自动言语辨识(ASR)系统不仅专注于提供高质量(例如，低单词错误率(WER))，而且还专注于低时延(例如，用户说话与文字记录出现之间的短暂延迟)。此外，现在当使用ASR系统时，需要ASR系统以对应于实时甚至比实时更快的串流方式对话语进行解码。举例来说，当ASR系统被部署在体验直接用户交互性的移动电话上时，使用ASR系统的移动电话上的应用可能要求言语辨识是串流式的，以使得单词一被说出就出现在屏幕上。在此，移动电话用户也可能对时延的容忍度较低。由于这种低容忍度，言语辨识力求在移动设备上以最小化可能不利地影响用户体验的时延和不准确性的影响的方式运行。

发明内容

本公开的一个方面提供了一种计算机实现的方法，当在数据处理硬件上执行所述方法时，致使数据处理硬件执行操作，包括接收第一轮假设和编码的声学帧，以及在假设编码器处对第一轮假设进行编码。由循环神经网络(RNN)解码器模型生成第一轮假设以用于编码的声学帧。所述操作还包括：使用致力于编码的声学帧的第一注意力机制生成第一场境矢量，以及使用致力于编码的第一轮假设的第二注意力机制生成第二场境矢量。该操作还包括在场境矢量解码器处对第一场境矢量和第二场境矢量进行解码，以形成第二轮假设。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，对第一场境矢量和第二场境矢量进行解码包括解码第一场境矢量和第二场境矢量的级联。对第一轮假设进行编码可以包括在假设编码器处对第一轮假设进行双向编码以从第一轮假设生成场境信息。在此，假设编码器可以包括长短期记忆(LSTM)网络。

在一些示例中，操作还包括在共享的编码器处对声学帧进行编码，以及基于从共享的编码器传达的编码的声学帧而在RNN解码器模型处生成第一轮假设。在这些示例中，操作还可以包括基于从共享的编码器传达的编码的声学帧而在单向音频编码器处生成声学嵌入。在此，单向音频编码器可以包括可能具有至少两个层的长短期记忆(LSTM)网络。

在一些实施方式中，操作还包括训练RNN解码器模型和训练审议解码器，同时经训练的RNN解码器模型的参数保持固定。审议解码器包括假设编码器、第一注意力机制、第二注意力机制和场境矢量解码器。在这些实施方式中，操作还可以包括在训练RNN解码器模型和审议解码器模型期间最小化单词错误率。

在其他实施方式中，操作包括联合训练RNN解码器模型和审议解码器，所述审议解码器包括假设编码器、第一注意力机制、第二注意力机制和场境矢量解码器。在这些实施方式中，操作还可以包括在RNN解码器模型和审议解码器模型的联合训练期间最小化单词错误率。数据处理硬件可以驻留在用户设备上。

本公开的另一方面提供了一种系统，该系统包括数据处理硬件和存储器硬件，所述存储器硬件与数据处理硬件通信并存储指令，所述指令当由数据处理硬件执行时，致使数据处理硬件执行操作，所述操作包括接收第一轮假设和编码的声学帧，以及在假设编码器处对第一轮假设进行编码。由循环神经网络(RNN)解码器模型生成第一轮假设以用于编码的声学帧。所述操作还包括：使用致力于编码的声学帧的第一注意力机制生成第一场境矢量，以及使用致力于编码的第一轮假设的第二注意力机制生成第二场境矢量。该操作还包括在场境矢量解码器处对第一场境矢量和第二场境矢量进行解码，以形成第二轮假设。

该方面可以包括以下可选特征中的一个或多个。在一些实施方式中，对第一场境矢量和第二场境矢量进行解码包括解码第一场境矢量和第二场境矢量的级联。对第一轮假设进行编码可以包括在假设编码器处对第一轮假设进行双向编码以从第一轮假设生成场境信息。在此，假设编码器可以包括长短期记忆(LSTM)网络。

在附图和以下描述中阐述了本公开的一个或多个实施方式的细节。根据描述和附图以及根据权利要求，其他方面、特征和优点将是显而易见的。

附图说明

图1A和图1B是使用审议两轮架构的示例言语环境的示意图。

图2A是用于言语辨识的示例传统两轮架构的示意图。

图2B是图1A的用于言语辨识的示例审议两轮架构的示意图。

图3是使用图2B的审议两轮架构来执行言语辨识的方法的操作的示例布置的流程图。

图4是可用于实现本文描述的系统和方法的示例计算设备的示意图。

各附图中相同的附图标记指示相同的元件。

具体实施方式

言语辨识继续演变以满足移动环境的不受束缚和灵活的需求。新的言语辨识架构或对现有架构的改进不断发展，以寻求提高自动言语辨识系统(ASR)的质量。举例来说，言语辨识最初采用了多个模型，其中每个模型都有专门的用途。举例来说，ASR系统包括声学模型(AM)、发音模型(PM)和语言模型(LM)。声学模型将音频的片段(即，音频帧)映射到音素。发音模型将这些音素连接在一起以形成单词，而语言模型用于表达给定短语的可能性(即，单词序列的概率)。然而，虽然这些个别模型一起工作，但每个模型都是独立训练的，并且通常是在不同的数据集上手动设计的。

单独模型的方法使言语辨识系统能够相当准确，尤其是当给定模型的训练语料库(即，训练数据体)迎合模型的有效性时。然而，独立训练单独模型的需要引入了其自身的复杂性，并导致了具有一体式模型的架构。这些一体式模型试图使用单个神经网络将音频波形(即，输入序列)直接映射到输出句子(即，输出序列)。这导致了一种序列到序列方法，当给定音频特征的序列时，该方法会生成单词的序列(或字素)。序列到序列模型的示例包括“基于注意力的”模型和“收听-注意-拼写”(LAS)模型。LAS模型使用收听器组件、注意装置组件和拼写器组件将言语话语转录为字符。在此，收听器是循环神经网络(RNN)编码器，所述编码器接收音频输入(例如，言语输入的时频表示)并将音频输入映射到更高级别的特征表示。注意装置致力于更高级别的特征以学习输入特征与预测的子词单元(例如，字素或词块)之间的对准。拼写器是基于注意力的RNN解码器，该解码器通过在假设的单词的集合上产生概率分布从输入中生成字符序列。在一体式结构的情况下，可以将模型的所有组件作为单个端到端(E2E)神经网络进行联合训练。在此，E2E模型是指其架构完全由神经网络构成的模型。完全神经网络无需外部和/或手动设计的组件(例如，有限状态变换器、词典或文本规范化模块)来起作用。另外，当训练E2E模型时，这些模型通常不需要来自决策树的引导指令或来自单独系统的时间对准。

虽然早期的E2E模型被证明是准确的并且训练改进了个别地训练的模型，但是这些E2E模型(诸如，LAS模型)通过在生成输出文本之前检查整个输入序列来起作用，并且因此在接收到输入时不允许串流输出。在没有串流能力的情况下，LAS模型就无法执行实时语音转录。由于该缺陷，针对时延敏感和/或需要实时语音转录的言语应用部署LAS模型可能会带来问题。这使得单独的LAS模型对于常常依赖实时应用(例如，实时通信应用)的移动技术(例如，移动电话)来说并不是理想的模型。

另外，具有声学、发音和语言模型或组合在一起的此类模型的言语辨识系统可能依赖于必须搜索与这些模型相关联的相对较大的搜索图的解码器。在大搜索图的情况下，不利于将这种类型的言语辨识系统完全托管在设备上。在此，当言语辨识系统被托管在“设备上”时，接收音频输入的设备使用其处理器来执行言语辨识系统的功能性。举例来说，当言语辨识系统被完全托管在设备上时，设备的处理器不需要与任何设备外的计算资源协调来执行言语辨识系统的功能性。不完全在设备上执行言语辨识的设备依赖于远程计算(例如，远程计算系统的远程计算或云计算)，并且因此依赖于在线连接性来执行言语辨识系统的至少某种功能。例如，言语辨识系统使用具有基于服务器的模型的网络连接，通过大型搜索图执行解码。

遗憾的是，依赖于远程连接使得言语辨识系统容易受到时延问题和/或通信网络固有的不可靠性的影响。要通过避免这些问题来提高言语辨识的有用性，言语辨识系统再次演变成一种被称为循环神经网络变换器(RNN-T)的序列到序列模型的形式。RNN-T不采用注意力机制，并且与通常需要处理整个序列(例如，音频波形)以产生输出(例如，句子)的其他序列到序列模型不同，RNN-T连续处理输入样本并串流输出符号，这一特征对于实时通信特别有吸引力。举例来说，利用RNN-T的言语辨识可以将字符一个接一个地输出为口语。在此，RNN-T使用反馈回路，该反馈回路将由模型预测的符号反馈回自身以预测接下来的符号。因为对RNN-T进行解码包括通过单个神经网络而不是大型解码器图的波束搜索，所以RNN-T可以扩展到基于服务器的言语辨识模型大小的一部分。在大小减小的情况下，RNN-T可以完全部署在设备上并能够离线运行(即，无需网络连接)；因此，避免了通信网络的不可靠性问题。

除了以低时延操作的言语辨识系统之外，言语辨识系统还需要准确地辨识言语。通常，对于执行言语辨识的模型而言，可以定义模型准确性的度量是单词错误率(WER)。WER是指与实际说出的单词数量相比，改变了多少单词的量度。通常，这些词的改变是指替换(即，当取代了单词时)、插入(即，当添加了单词时)和/或删除(即，当省略了单词时)。举例来说，说话者说“汽车”，但ASR系统将“汽车”一词转录为“酒吧”。这是由于音标相似性的替换示例。当衡量ASR系统与其他ASR系统相比的能力时，WER可能会指示相对于另一系统或某个基线的改进或质量能力的某种度量。

虽然RNN-T模型显示出作为设备上言语辨识的强大候选模型的前景，但单独的RNN-T模型在质量(例如，言语辨识准确性)方面仍然落后于大型最先进的常规模型(例如，具有单独的AM、PM和LM的基于服务器的模型)。然而，非串流式E2E LAS模型的言语辨识质量可与大型最先进的常规模型相媲美。要利用非串流式E2E LAS模型的质量，本文的实施方式针对包括RNN-T网络的第一轮组件且然后是LAS网络的第二轮组件的两轮言语辨识系统(例如，在图2A中示出)。在这种设计的情况下，两轮模型受益于具有低时延的RNN-T模型的串流性质，同时通过并入LAS网络的第二轮提高了RNN-T模型的准确性。虽然与仅RNN-T模型相比，LAS网络增加了时延，但时延的增加相当轻微，并且符合设备上操作的时延约束。在准确性方面，与单独的RNN-T相比，两轮模型达成了17％到22％的WER减少，并且与大型常规模型相比具有相似的WER。

在两轮模型中，非串流式LAS模型例如对来自第一轮的串流式假设进行重新评分。这种第二轮LAS模型方法致力于音响效果以便对假设进行重新评分。相比之下，被称为一种类别的神经校正模型的替代方法使用文本而不是音响效果来生成假设。换句话说，为了在第二轮中细化假设，可能需要致力于不同的变量。为此，本文提出的模型是关于RNN-T/LAS两轮模型的变形。该变形使用审议网络，该网络结合了音响效果和用于两轮模型的第二轮的第一轮文本假设。通过使用审议网络，与没有审议网络的两轮模型(例如，如图2A中所示)相比，两轮模型(例如，如图2B中所示)可变得更准确，并且还比大型常规言语辨识模型更准确。举例来说，在一些测试中，与没有审议网络的两轮模型相比，审议两轮模型达成12％的相对WER减少，并且与大型常规言语辨识模型相比，达成了近21％的相对WER减少。

图1A和图1B是言语环境100的示例。在言语环境100中，用户10与诸如用户设备110的计算设备交互的方式可以是通过语音输入。用户设备110(通常也称为设备110)被配置成从启用言语的环境100内的一个或多个用户10捕获声音(例如，串流音频数据)。在此，串流音频数据12可能是指用户10的用作可听查询、设备110的命令或由设备110捕获的可听通信的口头话语。设备110的启用了言语的系统可以通过回答查询和/或致使命令被执行来提出查询或命令。

用户设备110可以对应于与用户10相关联并且能够接收音频数据12的任何计算设备。用户设备110的一些示例包括但不限于移动设备(例如，移动电话、平板计算机、笔记本计算机等)、计算机、可穿戴设备(例如，智能手表)、智能电器、物联网(IoT)设备、智能扬声器等。用户设备110包括数据处理硬件112和存储器硬件114，所述存储器硬件与数据处理硬件112通信并且存储指令，所述指令当由数据处理硬件112执行时，致使数据处理硬件112执行一个或多个操作。用户设备110还包括：具有音频捕获设备(例如，麦克风)116、116a的音频子系统116，所述音频捕获设备用于捕获启用了言语的系统100内的口语话语12并将其转换为电信号；以及言语输出设备(例如，扬声器)116、116b，用于传达可听音频信号(例如，作为来自设备110的输出音频数据)。虽然用户设备110在示出的示例中实现了单个音频捕获设备116a，但用户设备110可以在不脱离本公开的范围的情况下实现音频捕获设备116a的阵列，由此阵列中的一个或多个捕获设备116a可能不物理地驻留在用户设备110上，而是与音频子系统116通信。用户设备110(例如，使用硬件112、114)还被配置成使用言语辨识器200对串流式音频数据12执行言语辨识处理。在一些示例中，用户设备110的包括音频捕获设备116a的音频子系统116被配置成接收音频数据12(例如，口头话语)并将音频数据12转换成与言语辨识器200相兼容的数字格式。数字格式可以对应于声学帧(例如，参数化声学帧)，诸如mel帧。举例来说，参数化声学帧对应于log-mel滤波器组能量。

在诸如在图1A的一些示例中，用户10与使用言语辨识器200的用户设备110的程序或应用118交互。例如，图1A描绘了用户10与自动化助理应用通信。在该示例中，用户10问自动化助理：“What time is the concert tonight(今晚的音乐会是几点)？”。来自用户10的这个问题是由音频捕获设备116a捕获并由用户设备110的音频子系统116处理的口头话语12。在该示例中，用户设备110的言语辨识器200接收“What time is the concerttonight”的音频输入202(例如，作为声学帧)，并将音频输入202转录成文字记录204(例如，“What time is the concert tonight？”的文本表示)。在此，应用118的自动化助理可以使用自然语言处理来响应由用户10提出的问题。自然语言处理通常是指解释书面语言(例如，文字记录204)并确定书面语言是否提示任何动作的过程。在该示例中，自动化助理使用自然语言处理来辨识来自用户10的问题是关于用户的日程安排，且更特别地是关于用户日程安排上的音乐会。通过用自然语言处理辨识这些细节，自动化助理会返回对用户查询的响应，其中响应状态为“Doors open at 8:30pm for the concert tonight(今晚的音乐会在晚上8:30开始)”。在一些配置中，自然语言处理可以发生在与用户设备110的数据处理硬件112通信的远程系统上。

图1B是使用言语辨识器200进行言语辨识的另一示例。在该示例中，与用户设备110相关联的用户10正在与名为Jane Doe的朋友使用通信应用118进行通信。在此，名为Ted的用户10通过让言语辨识器200转录他的语音输入来与Jane通信。音频捕获设备116捕获这些语音输入并且以数字形式(例如，声学帧)将它们传达给言语辨识器200。言语辨识器200将这些声学帧转录成经由通信应用118发送给Jane的文本。因为这种类型的应用118经由文本进行通信，所以来自言语辨识器200的文字记录204可以被发送给Jane而无需进一步处理(例如，自然语言处理)。

在诸如图2A和图2B的一些示例中，言语辨识器200被配置成两轮架构。一般来说，言语辨识器200的两轮架构包括至少一个编码器210、RNN-T解码器220和LAS解码器230。在此，图2A描绘了传统的两轮架构，而图2B描绘了具有审议网络240的增强型两轮架构。如在这些图中可以看出，图2B的增强型两轮架构建立在图2A的基本两轮结构之上。在两轮解码中，第二轮208(例如，被示出为LAS解码器230)可以使用诸如点阵重新评分或n最佳重新排名等技术来改善来自第一轮206(例如，被示出为RNN-T解码器220)的初始输出。换言之，RNN-T解码器220产生串流预测，并且LAS解码器230最终确定预测。在此，具体地，LAS解码器230对来自RNN-T解码器220的串流式假设222y_R进行重新评分。虽然通常讨论的是LAS解码器230在重新评分模式下起作用，但是该重新评分模式对来自RNN-T解码器220的串流式假设222y_R进行重新评分，LAS解码器230还能够根据设计或其他因素(例如，话语长度)以不同的模式(诸如，波束搜索模式)操作。

至少一个编码器210被配置成接收对应于串流音频数据12的声学帧作为音频输入202。声学帧可能先前被音频子系统116处理成参数化的声学帧(例如，mel帧和/或光谱帧)。在一些实施方式中，参数化声学帧对应于具有log-mel特征的log-mel滤波器组能量。举例来说，由音频子系统116输出并输入到编码器210中的参数化输入声学帧可以表示为x＝(x₁,...,x_T)，其中

是log-mel滤波器组能量，T表示x中的帧数量，而d表示log-Mel特征的数量。在一些示例中，每个参数化声学帧包括在短移窗口(例如，32毫秒和每10毫秒被移的)内计算的128维log-Mel特征。每个特征可以与先前的帧(例如，三个先前的帧)堆叠以形成更高维的矢量(例如，使用三个先前帧的512维矢量)。然后可以对形成矢量的特征进行下采样(例如，到30毫秒的帧速率)。基于音频输入202，编码器210被配置成生成编码e。例如，编码器210生成编码的声学帧(例如，编码的mel帧或声学嵌入)。

虽然编码器210的结构可以以不同的方式加以实现，但是在一些实施方式中，编码器210是长短期记忆(LSTM)神经网络。举例来说，编码器210包括八个LSTM层。在此，每个层可能具有2048个隐藏单元，后面跟着640维的投影层。在一些示例中，在编码器210的第二LSTM层之后插入具有减少系数N＝2的时间减少层。

在一些配置中，编码器210是共享的编码器网络。换言之，每个轮206、208共享单个编码器210，而不是每个轮网络206、208具有其自身的单独编码器。通过共享编码器，使用两轮架构的ASR言语辨识器200可以减小其模型大小和/或其计算成本。在此，模型大小的减少可以帮助使言语辨识器200能够完全在设备上很好地起作用。

在第一轮206期间，编码器210接收音频输入202的每个声学帧并生成输出212(例如，被示出为声学帧的编码e)。RNN-T解码器220接收每个帧的输出212，并在每个时间步以串流方式生成输出222，其被示出为假设y_R。在一些实施方式中，RNN-T解码器220包括预测网络和联合网络。在此，预测网络可能具有：两个LSTM层，每个层具有2048个隐藏单元和640维投影；以及具有128个单元的嵌入层。编码器210和预测网络的输出212可以被馈送到包括softmax预测层的联合网络中。在一些示例中，RNN-T解码器220的联合网络包括640个隐藏单元，后面跟着预测4096个大小写混合词块的softmax层。

在图2A的两轮模型中，在第二轮208期间，LAS解码器230从编码器210接收针对每个帧的输出212，并生成被指定为假设y_L的输出232。当LAS解码器230在波束搜索模式下操作时，LAS解码器230仅从输出212产生输出232；忽略RNN-T解码器220的输出222。当LAS解码器230在重新评分模式下操作时，LAS解码器230从RNN-T解码器220获得前K个假设，并且然后LAS解码器230以教师强制模式在每个序列上运行，其中注意力在输出212上，以计算得分。例如，得分结合了序列的对数概率和注意力覆盖罚分。LAS解码器230选择具有最高得分的序列作为输出232。在此，在重新评分模式中，LAS解码器230可以包括多头注意力(例如，具有四个头)以致力于输出212。此外，LAS解码器230可以是具有用于预测的softmax层的两层LAS解码器230。举例来说，LAS解码器230的每个层都具有2048个隐藏单元，后面跟着640维的投影。Softmax层可以包括4096个维度来预测来自RNN-T解码器220的softmax层的相同的大小写混合词块。

参看图2B，第一轮206保持不变，但第二轮208使用审议解码器240，除了LAS解码器230之外，该审议解码器还包括审议编码器242和两个注意力机制244、246、假设注意力机制244和声学注意力机制246。在此，与图2A的言语辨识器200相比，图2B的言语辨识器200通过致力于声学注意力机制246处的编码器210的输出212来致力于两种音响效果，并且通过致力于假设注意力机制244处的RNN-T解码器220的输出222来致力于第一轮假设。相比之下，图2A的言语辨识器200仅通过致力于LAS解码器自身处的编码器210的输出212来致力于音响效果。通过致力于两种音响效果(例如，表示为e的输出212)和第一轮假设，审议解码器240生成输出248(例如，预测序列)。在此，每个注意力机制244、246形成输入到审议解码器240的LAS解码器230中的场境矢量245、247(例如，声学场境矢量247和假设场境矢量245)。这些场境矢量245、247可以被级联作为到LAS解码器230中的输入。与上述LAS解码器230固有的注意力机制非常相似，注意力机制244、246可以具有相似的结构，以使得每个注意力机制244、246包括多头注意力(例如，四个头)。

审议编码器242对RNN-T解码器220的输出222(即，第一轮206的输出222)进行进一步编码，以形成编码的假设243(例如，被示出为h_B)。当对输出222进行进一步编码时，审议编码器242还可以对输出222进行编码以获得有用的场境信息，以包括在编码的假设243中。例如，审议编码器242是能够包括场境信息的双向编码器。审议编码器242还可以被配置成对多个假设222进行编码。举例来说，审议编码器242单独地对每个假设222进行编码，并且然后将每个编码的假设级联在一起。在结构上，审议编码器242可以是LSTM编码器(例如，2层双向LSTM编码器)。作为LSTM编码器，审议编码器242的每个层可以包括2048个隐藏单元，后面跟着320维投影。

在第二轮208期间，图2B的言语辨识器200可以执行波束搜索模式或重新评分模式以生成输出248。在重新评分模式中，审议解码器240可以以教师强制模式在输出222上运行。另外或替代地，当处于重新评分模式时，使用双向审议编码器242可以帮助改进审议解码器两轮架构的相对WER。

在一些示例中，图2B的言语辨识器200还包括声学编码器250。举例来说，审议编码器242和LAS解码器230可能具有某种程度的不兼容性，这可以通过使用声学编码器250来克服。换言之，声学编码器250可以对输出212进行进一步编码。在一些实施方式中，声学编码器250是对来自编码器210的输出212进行进一步编码的LSTM编码器(例如，两层LSTM编码器)。通过包括额外编码器，编码器210仍然可以被保存作为轮206、208之间的共享编码器。另外或替代地，声学编码器250可以是单向编码器以减少增强的两轮架构内的潜在时延。

通常通过定义损失函数(例如，交叉熵损失函数)的反向传播来训练神经网络。举例来说，损失函数被定义为网络的实际输出与网络的期望输出之间的差异。在此，可以使用交叉熵损失方法或联合训练方法来训练言语辨识器200。在交叉熵损失方法中，在两步训练过程中训练诸如带有审议解码器240的言语辨识器200(即，基于审议的辨识器200)的审议模型。在训练过程的第一步骤期间，训练了RNN-T解码器220。在已经训练了RNN-T解码器220之后，RNN-T解码器220的参数是固定的，并且仅训练了审议解码器240和额外编码器层(例如，审议编码器242和声学编码器250)。

相比之下，有时在固定RNN-T解码器220的参数的同时训练审议解码器240不是最佳的，因为基于审议的辨识器200的组件没有被联合更新。作为替代的训练方法，可以使用由以下等式表示的组合损失方法来联合训练基于审议的辨识器200：

L_joint(θ_e，θ₁，θ₂)＝L_RNNT(θ_e，θ₁)+λL_CE(θ_e，θ₂) (1)

其中L_RNNT(-)是RNN-T损失，而λL_CE(-)是审议解码器240的交叉熵损失。θ_e、θ₁和θ₂分别表示编码器210、RNN-T解码器220和审议解码器230的参数。在此，联合训练与“深度微调”的概念相似，但没有预训练的解码器。

在这些方法中的任一种之后，可以使用最小WER(MWER)损失来进一步训练言语辨识器200，以通过使用n最佳假设来优化预期单词错误率。这种MWER损失训练可以用以下等式表示：

其中

是来自审议解码器240的第i个假设248，而

是

关于地面实况目标y^*的单词错误数量。

是第i个假设在所有其他假设上归一化以求和为1的概率。B是波束大小。当交叉熵损失与MWER损失相结合时，以下等式可以用于稳定训练，其中α＝0.01：

L′_MWER(x,y^*)＝L_MWER(x,y^*)+αL_CE(x,y^*) (3)

图3是使用审议两轮架构执行自动化言语辨识(例如，ASR)的方法300的操作的示例布置的流程图。在操作302处，方法300接收第一轮假设222和编码的声学帧212。在此，由RNN解码器220生成第一轮假设222以用于编码的声学帧212。在操作304处，方法300包括在假设编码器242处对第一轮假设222进行编码。在操作306处，方法300包括使用第一注意力机制246生成第一场境矢量247，并且使用第二注意力机制244生成第二场境矢量245。第一注意力机制246致力于编码的声学帧212。第二注意力机制244致力于编码的第一轮假设243。在操作308处，方法300包括在场境矢量解码器230处对第一场境矢量247和第二场境矢量245进行解码，以形成第二轮假设248。

图4是可用于实现本文献中描述的系统(例如，言语辨识器200)和方法(例如，方法300)的示例计算设备400(例如，系统400)的示意图。计算设备400意在表示各种形式的数字计算机，诸如笔记本计算机、台式机、工作站、个人数字助理、服务器、刀片式服务器、大型机和其他适当的计算机。此处示出的组件、它们的连接和关系以及它们的功能仅是示例性的，且并不意味着限制本文献中描述和/或要求保护的发明的实施方式。

计算设备400包括处理器410(例如，数据处理硬件410)、存储器420(例如，存储器硬件520)、存储设备430、连接到存储器420的高速接口/控制器440和高速扩展端口440，以及连接到低速总线470和存储设备430的低速接口/控制器460。组件410、420、430、440、450和460中的每个使用各种总线互连，并且可以安装在公共母板上或以其他适当的方式进行安装。处理器410可以处理用于在计算设备400内执行的指令，包括存储在存储器420或存储设备430上的指令，以在诸如联接到高速接口440的显示器480的外部输入/输出设备上显示有关图形用户界面(GUI)的图形信息。在其他实施方式中，可以酌情使用多个处理器和/或多个总线以及多个存储器和多种类型的存储器。而且，可以连接多个计算设备400，其中每个设备提供部分必要操作(例如，作为服务器组、一组刀片服务器或多处理器系统)。

存储器420在计算设备400内非暂时性地存储信息。存储器420可以是计算机可读介质、易失性存储器单元或非易失性存储器单元。非暂时性存储器420可以是用于在临时或永久基础上存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备400使用的物理设备。非易失性存储器的示例包括但不限于闪速存储器和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备430能够为计算设备400提供大容量存储。在一些实施方式中，存储设备430是计算机可读介质。在各种不同的实施方式中，存储设备430可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪速存储器或其他相似的固态存储器设备或设备阵列，包括在存储区域网中或呈其他配置的设备。在额外的实施方式中，计算机程序产品有形地体现在信息载体中。计算机程序产品包含指令，当执行所述指令时执行一种或多种方法，诸如上述那些方法。信息载体是计算机或机器可读介质，诸如存储器420、存储设备430或处理器410上的存储器。

高速控制器440管理计算设备400的带宽密集型操作，而低速控制器460管理较低带宽密集型操作。此种职责分配只是示例性的。在一些实施方式中，高速控制器440联接到存储器420、显示器480(例如，通过图形处理器或加速器)，并且联接到可以接受各种扩展卡(未示出)的高速扩展端口450。在一些实施方式中，低速控制器460联接到存储设备430和低速扩展端口490。可能包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口490可以例如通过网络适配器联接到一个或多个输入/输出设备，诸如键盘、指向设备、扫描仪或联网设备(诸如，交换机或路由器)。

如附图中所示，计算设备400可以以若干不同的形式实现。例如，它可以被实现为标准服务器400a或在一组此类服务器400a中多次实现，实现为笔记本计算机400b，或实现为机架服务器系统400c的一部分。

本文描述的系统和技术的各种实施方式可以在数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或它们的组合中实现。这些各种实施方式可以包括在一个或多个计算机程序中的实施方式，所述计算机程序在包括至少一个可编程处理器的可编程系统上是可执行和/或可解释的，该可编程处理器可能是专用或通用的，可联接以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，并且将所述数据和指令传输到存储系统、至少一个输入设备和至少一个输出设备。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以以高级过程和/或面向对象的编程语言和/或以汇编/机器语言实现。如本文所使用的，术语“机器可读介质”和“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器执行，所述一个或多个可编程处理器执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行各功能。过程和逻辑流程也可以由专用逻辑电路执行，所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。适合于执行计算机程序的处理器包括，例如，通用微处理器和专用微处理器两者，以及任何类别的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或操作性地联接以从用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)接收数据，或向其传递数据，或两者。然而，计算机不必具有此类设备。适合用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如包括半导体存储器设备，例如EPROM、EEPROM和闪速存储器设备；磁盘，例如内部硬盘或可移除磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入在专用逻辑电路中。

要提供与用户的交互，本公开的一个或多个方面可以在具有显示设备(例如，CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏)的计算机上实现，所述显示设备用于向用户显示信息，并且可选地是键盘和指向设备(例如，鼠标或轨迹球)，用户可以通过它们向计算机提供输入。也可以使用其他类别的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；可以以任何形式接收来自用户的输入，包括声学输入、言语输入或触觉输入。另外，计算机可以通过向用户使用的设备发送文档和从其接收文档来与用户交互；例如，通过响应于从web浏览器接收到的请求，而将web页发送到用户客户端设备上的web浏览器。

已经描述了若干实施方式。然而，应当理解，在不背离本公开的精神和范围的情况下可以做出各种修改。因此，其他实施方式在以下权利要求的范围内。

Claims

1.一种计算机实现的方法(300)，当在数据处理硬件(112)上执行所述方法时，所述方法致使所述数据处理硬件(112)执行操作，所述操作包括：

接收第一轮假设(222)和编码的声学帧(212)，由循环神经网络RNN解码器模型(220)生成所述第一轮假设(222)以用于所述编码的声学帧(212)；

在假设编码器(242)处对所述第一轮假设(222)进行编码；

使用致力于所述编码的声学帧(212)的第一注意力机制(246)生成第一场境矢量(247)；

使用致力于所述编码的第一轮假设(222)的第二注意力机制(244)生成第二场境矢量(245)；以及

在场境矢量解码器(230)处对所述第一场境矢量(247)和所述第二场境矢量(245)进行解码，以形成第二轮假设(222)。

2.根据权利要求1所述的计算机实现的方法(300)，其中，对所述第一场境矢量(247)和所述第二场境矢量(245)进行解码包括解码所述第一场境矢量(247)和所述第二场境矢量(245)的级联。

3.根据权利要求1或2所述的计算机实现的方法(300)，其中，对所述第一轮假设(222)进行编码包括在所述假设编码器(242)处对所述第一轮假设(222)进行双向编码，以从所述第一轮假设(222)生成场境信息。

4.根据权利要求3所述的计算机实现的方法(300)，其中，所述假设编码器(242)包括长短期记忆LSTM网络。

5.根据权利要求1至4中的任一项所述的计算机实现的方法(300)，其中，所述操作还包括：

在共享的编码器(210)处对所述声学帧(212)进行编码；以及

基于从所述共享的编码器(210)传达的所述编码的声学帧(212)在所述RNN解码器模型(220)处生成所述第一轮假设(222)。

6.根据权利要求5所述的计算机实现的方法(300)，其中，所述操作还包括基于从所述共享的编码器(210)传达的所述编码的声学帧(212)在单向音频编码器(250)处生成声学嵌入(232)。

7.根据权利要求6所述的计算机实现的方法(300)，其中，所述单向音频编码器(250)包括长短期记忆LSTM网络。

8.根据权利要求7所述的计算机实现的方法(300)，其中，所述LSTM网络包括至少两个层。

9.根据权利要求1至8中的任一项所述的计算机实现的方法(300)，其中，所述操作还包括：

训练所述RNN解码器模型(220)；以及

训练审议解码器(240)，同时经训练的RNN解码器模型(220)的参数保持固定，所述审议解码器(240)包括所述假设编码器(242)、所述第一注意力机制(246)、所述第二注意力机制(244)和所述场境矢量解码器(230)。

10.根据权利要求9所述的计算机实现的方法(300)，其中，所述操作还包括在训练所述RNN解码器模型(220)和所述审议解码器(240)期间最小化单词错误率。

11.根据权利要求1至10中的任一项所述的计算机实现的方法(300)，其中，所述操作还包括联合训练所述RNN解码器模型(220)和审议解码器(240)，所述审议解码器(240)包括所述假设编码器(242)、所述第一注意力机制(246)、所述第二注意力机制(244)和所述场境矢量解码器(230)。

12.根据权利要求11所述的计算机实现的方法(300)，其中，所述操作还包括在所述RNN解码器模型(220)和所述审议解码器(240)的联合训练期间最小化单词错误率。

13.根据权利要求1至12中的任一项所述的计算机实现的方法(300)，其中，所述数据处理硬件(112)驻留在用户设备(110)上。

14.一种系统(400)，包括：

数据处理硬件(112)；以及

存储器硬件(114)，所述存储器硬件与所述数据处理硬件(112)通信，所述存储器硬件(114)存储指令，所述指令在所述数据处理硬件(112)上执行时致使所述数据处理硬件(112)执行操作，所述操作包括：

在假设编码器(242)处对所述第一轮假设(222)进行编码；

15.根据权利要求14所述的系统(400)，其中，对所述第一场境矢量(247)和所述第二场境矢量(245)进行解码包括解码所述第一场境矢量(247)和所述第二场境矢量(245)的级联。

16.根据权利要求14或15所述的系统(400)，其中，对所述第一轮假设(222)进行编码包括在所述假设编码器(242)处对所述第一轮假设(222)进行双向编码，以从所述第一轮假设(222)生成场境信息。

17.根据权利要求16所述的系统(400)，其中，所述假设编码器(242)包括长短期记忆LSTM网络。

18.根据权利要求14至17中的任一项所述的系统(400)，其中，所述操作还包括：

在共享的编码器(210)处对所述声学帧(212)进行编码；以及

19.根据权利要求18所述的系统(400)，其中，所述操作还包括基于从所述共享的编码器(210)传达的所述编码的声学帧(212)在单向音频编码器(250)处生成声学嵌入(232)。

20.根据权利要求19所述的系统(400)，其中，所述单向音频编码器(250)包括长短期记忆LSTM网络。

21.根据权利要求20所述的系统(400)，其中，所述LSTM网络包括至少两个层。

22.根据权利要求14至21中的任一项所述的系统(400)，其中，所述操作还包括：

训练所述RNN解码器模型(220)；以及

23.根据权利要求22所述的系统(400)，其中，所述操作还包括在训练所述RNN解码器模型(220)和所述审议解码器(240)期间最小化单词错误率。

24.根据权利要求14至23中的任一项所述的系统(400)，其中，所述操作还包括联合训练所述RNN解码器模型(220)和审议解码器(240)，所述审议解码器(240)包括所述假设编码器(242)、所述第一注意力机制(246)、所述第二注意力机制(244)和所述场境矢量解码器(230)。

25.根据权利要求24所述的系统(400)，其中，所述操作还包括在所述RNN解码器模型(220)和所述审议解码器(240)的联合训练期间最小化单词错误率。

26.根据权利要求14至25中的任一项所述的系统(400)，其中，所述数据处理硬件(112)驻留在用户设备(110)上。