CN108960277B

CN108960277B - 使用语言模型对序列到序列模型进行冷聚变

Info

Publication number: CN108960277B
Application number: CN201810460442.2A
Authority: CN
Inventors: 安鲁普·西瑞兰姆; 俊熙雄; 桑吉夫·萨西斯; 亚当·科茨
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2017-05-19
Filing date: 2018-05-15
Publication date: 2023-01-24
Anticipated expiration: 2038-05-15
Also published as: US20210027767A1; CN108960277A; US10867595B2; US20180336884A1; US11620986B2

Abstract

本文中描述了用于使用具有注意力的序列到序列(Seq2Seq)模型生成自然语言句子的系统和方法。Seq2Seq模型可以在诸如机器翻译、图像字幕生成和语音识别的应用中实施。通过利用未标注的数据(通常是以语言模型的形式)，性能得到了进一步的改进。本文中公开了在训练期间利用预训练的语言模型的“冷聚变”架构实施方式。具有冷聚变的Seq2Seq模型实施方式能够更好的利用享有更快收敛的语言信息，更好的泛化，并且虽然使用较少标注的训练数据，却几乎完全转移到新的域。

Description

使用语言模型对序列到序列模型进行冷聚变

技术领域

本公开总体涉及用于计算机学习的系统和方法，该系统和方法可以提供改进的计算机性能、特征和使用。

背景技术

序列到序列(Seq2Seq)模型已在许多序列标注问题上使用，包括自动语音识别、神经机器翻译、会话建模等。这些模型可以将来自输入域的序列(例如，音频)转换为标注域中的序列(例如。与音频相对应的文本)。

由于语言模型不需要标注的数据，因此它们可以在数十亿甚至数万亿的表征上进行训练，并学习比在标注的语料库上训练的任何Seq2Seq模型更好的标注空间模型。因此，Seq2Seq模型通常与语言模型(LM)结合以提高泛化。

将Seq2Seq模型与LM整合的算法可以称为“聚变(fusion)”算法。整合语言模型的标准方式，其可称作为“浅聚变”，是将特定于任务的Seq2Seq模型的得分与辅助语言模型的得分线性组合，以指导束搜索。该方法的改进称之为“深度聚变”，即在两个模型独立训练之后，学习将Seq2Seq解码器的隐藏状态与具有门控机制的神经语言模型进行聚变。虽然已经证明这些模型提高了基线上的性能，但是它们具有若干限制。

例如，虽然已经证明深度聚变方法提高了基线上的性能，但是它具有若干限制。首先，由于Seq2Seq模型被训练以在没有语言模型的情况下输出完整的标注序列，它的解码器从训练标注中学习隐式语言模型，占用了解码器容量的显著部分来学习冗余信息。其次，融入到Seq2Seq解码器中的剩余语言模型偏向于平行语料库的训练标注。例如，如果完全在法律文件上训练的Seq2Seq模型稍后与医学语言模型进行聚变，则解码器仍然具有固有倾向以遵循在法律文本中发现的语言结构。因此，为了适应新的域，最低程度地，深度聚变必须首先学习斟酌语言的隐性知识。

因此，需要的是克服这些限制以更好地利用语言信息，提供更快的收敛和更好的泛化，并更好地允许转移到新的域的系统和方法。

发明内容

在本公开的一方面，提供了用于训练序列到序列模型的计算机实现的方法，所述方法包括：

使用一组训练数据对语言模型预训练；

基于输入序列获取所述序列到序列模型的隐藏状态；

将从预训练的语言模型获得的语言模型隐藏状态与从所述序列到序列模型获得的所述隐藏状态组合成组合隐藏状态；以及

使用从所述组合隐藏状态获得的输出来训练所述序列到序列模型。

在本公开的另一方面，提供了用于使用语言模型训练序列到序列模型的计算机实现的方法，所述方法包括：

在所述序列到序列模型的编码器处接收源域中的输入序列；

通过所述编码器生成所述输入序列的中间表示；

使用所述序列到序列模型的解码器内的至少一个递归层接收所述中间表示；

至少基于所述中间表示，通过所述至少一个递归层生成所述序列到序列模型的隐藏状态；

将所生成的隐藏状态与来自所述语言模型的语言模型隐藏状态组合成组合隐藏状态；以及

基于所述组合隐藏状态，通过所述解码器在目标域中生成分对数输出。

在本公开的再一方面，提供了用于训练序列到序列模型的计算机实现的方法，所述方法包括：

接收对所述序列到序列模型的输入序列；

生成所述序列到序列模型的隐藏状态；

至少基于所述序列到序列模型的所生成的隐藏状态和跨多个语言模型的概率投影获取组合隐藏状态；以及

使用来自所述组合隐藏状态的输出训练所述序列到序列模型。

附图说明

将参考本发明的实施方式，它们的示例可示于附图中。这些附图旨在是说明性的而非进行限制。尽管本发明大体上在这些实施方式的上下文中描述，但应理解，本发明的范围并不旨在限于这些特定实施方式。附图中的项未必按比例绘制。

图1描绘了根据本公开的实施方式的以训练Seq2seq模型和语言模型的“冷聚变”方法。

图2描绘了根据本公开的实施方式的将Seq2Seq隐藏状态和语言模型隐藏状态两者用作为门计算的输入的方法。

图3描绘了根据本公开的实施方式的使用细粒(FG)门控机制进行冷聚变的方法。

图4描绘了根据本公开的实施方式的使用语言模型概率进行冷聚变的方法。

图5描绘了根据本公开的实施方式的冷聚变机制。

图6描绘了根据本公开的实施方式的具有冷聚变的示例性Seq2Seq架构。

图7描绘了根据本公开的实施方式的基线模型和冷聚变模型在dev集上的交叉熵损失与训练迭代之间的函数关系。

图8描绘了根据本公开的实施方式的计算设备/信息处理系统的简化框图。

具体实施方式

在以下描述中，出于解释目的，阐明了具体细节以便提供对本发明的理解。然而，将对本领域的技术人员显而易见的是，可在没有这些细节的情况下实践本发明。此外，本领域的技术人员将认识到，下文描述的本发明的实施方式可以以各种方式(例如过程、装置、系统、设备或方法)在有形的计算机可读介质上实施。

附图中示出的组件或模块是本发明示例性实施方式的说明，并且意图避免使本发明不清楚。还应理解，在本论述的全文中，组件可描述为单独的功能单元(可包括子单元)，但是本领域的技术人员将认识到，各种组件或其部分可划分成单独组件，或者可整合在一起(包括整合在单个的系统或组件内)。应注意，本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。

此外，附图内的组件或系统之间的连接并不旨在限于直接连接。相反，在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外，可以使用另外或更少的连接。还应注意，术语“联接”、“连接”、或“通信地联接”应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。

在本说明书中对“一个实施方式”、“优选实施方式”、“实施方式”或“多个实施方式”的提及表示结合实施方式所描述的具体特征、结构、特性或功能包括在本发明的至少一个实施方式中，以及可包括在多于一个的实施方式中。另外，在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。

在本说明书的各个地方使用某些术语目的在于说明，并且不应被理解为限制。服务、功能或资源并不限于单个服务、单个功能或单个资源；这些术语的使用可指代相关服务、功能或资源的可分布或聚合的分组。

术语“包括”、“包括有”、“包含”和“包含有”应理解为开放性的术语，并且其后任何列出内容都是实例，而不旨在限于所列项目。本文所使用的任何标题仅是为了组织目的，并且不应被用于限制说明书或权利要求的范围。本专利文献中提到的每个文献/参考文献以其全文通过引用并入本文。

此外，本领域的技术人员应认识到：(1)某些步骤可以可选地执行；(2)某些步骤可不限于本文中所阐述的特定次序；(3)某些步骤可以以不同次序执行；以及(4)某些步骤可同时地进行。

A.介绍

序列到序列(Seq2Seq)模型已在许多序列标注问题上使用，包括自动语音识别、神经机器翻译、会话建模等。这些模型学习从可变长度序列的输入数据(例如，语音或另一种语言的相同文本)生成的可变长度序列的表征(token)(例如，文本)。有了足够大的标注的数据集，常规(或普通)Seq2Seq可以很好地对序列映射进行建模，但是它常常使用语言模型进行扩充，以进一步帮助度量所生成的文本的流畅性。

因为语言模型可以从大量可获得的无监督文本语料库中得到训练，该无监督文本语料库可以具有多达10亿个表征，所以利用标注域的丰富的语言信息可以显著提高Seq2Seq的性能。整合语言模型的标准方式是将特定于任务的Seq2Seq模型的得分与辅助语言模型的得分线性组合，以指导束搜索。在独立地训练两个模型之后，深度聚变算法(诸如在Gulcehre等，“On Using Monolingual Corpora in Neural Machine Translation(在神经机器翻译中使用单语语料库)”arXiv preprint arXiv:1503.03535,2015中所讨论的)已提出使Seq2Seq解码器的隐藏状态和具有门控机制的神经语言模型进行聚变。如前所述，这种方法具有以下限制，包括：(1)其解码器学习隐式语言模型，占用了解码器容量的显著部分来学习冗余信息；以及(2)对训练标注的偏移。

在这个专利文献中，公开了新模型方法的实施方式(本文中通常可称为“冷聚变”)以克服这两个限制。冷聚变实施方式鼓励Seq2Seq解码器在训练期间学习使用外部语言模型。在冷聚变模型实施方式中，Seq2Seq可自然地利用潜在无限的无监督文本数据，使其特别熟练于适应新域。在实践中这尤其重要，因为模型被训练的域可能与其部署用于的实际使用案例不同。在实验中，冷聚变实施方式能够几乎完全转移到用于具有少10倍数据的语音识别任务的新域。另外，在实施方式中，解码器只须学习任务相关信息，并从而训练得更快。

专利文献组织如下：B节概述了相关工作。C节呈现了冷聚变方法的实施方式。D节公开了关于语音识别任务的一些详细实验，这些实验演示了冷聚变的泛化和域适应能力。

B.相关工作

1.序列到序列模型

基本Seq2Seq模型包括编码器和解码器，其中，编码器将输入序列映射为中间表示h，以及解码器从h依次生成输出序列。解码器还可以使用注意力机制来注意编码器状态的某些部分。如果注意力机制使用内容和先前的上下文两者来计算下一上下文，则注意力机制称为混合注意力。如果与从编码器状态当中选择片段相对比，它计算对编码器状态的期望，则它是柔性的。

对于自动语音识别(ASR)任务，Seq2Seq模型被称作声学模型(AM)，并且将从语音信号提取的一序列谱图特征映射到字符。

2.推理和语言模型整合

在推理期间，将最可能的序列

计算为：

此处，p(y|x)是特定于任务的Seq2Seq模型分配给给出输入序列的序列的概率。在实践中，argmax运算是难解的，因此使用了左至右的束搜索算法。在实施方式中，从起始符号开始维持一束K部分假设。在每个时间步，波束可通过一个附加字符延伸，并且仅保持顶部的K假设。解码可继续直到发出停止符号，在停止符号发出的点处，假设可添加到已完成的假设组中。

将语言模型与Seq2Seq解码器整合的标准方式是将推理任务改变为：

其中，p_LM(y)是分配给标注序列的语言模型概率。Wu Chorowski&Jaitly(“TowardsBetter Decoding and Language Model Integration in Sequence To Sequence Models(序列到序列模型迈向更好的解码和语言模型整合)”，arXiv preprint arXiv:1612.02695，2016)和Wu等(“Google’s neural machine translation system:Bridgingthe gap between human and machine translation(谷歌的神经机器翻译系统：弥合人类与机器翻译之间的鸿沟)”，arXiv preprint arXiv:1609.08144，2016)描述了可用于改进这个基本算法的若干启发。在该专利文献中，所有的这些方法统称为“浅聚变”，因为仅在推理期间使用。

Gulcehre等(“On Using Monolingual Corpora in Neural MachineTranslation(关于神经机器翻译中使用单语语料库)”，arXiv preprint arxiv:1503.03535，2015)提议将“深度聚变”用于机器翻译，“深度聚变”通过使解码器和语言模型的状态与参数化门控相组合而使解码器与语言模型之间的连接更紧密：

其中，s_t、

和

是特定任务模型、语言模型和总深度聚变模型的状态。在方程式(3c)中，DNN可以是具有任何层数的深度神经网络。函数是矢量和的连接。

在深度聚变中，Seq2Seq模型和语言模型首先独立地训练，稍后在如方程式(3)中一样组合。参数和在使模型的其余部分保持固定的少量数据上进行训练，并且允许门决定模型中的每个对于当前时间步是多么重要。

深度聚变的最大缺点中的一个是特定于任务的模型是与语言模型独立训练的。这意味着Seq2Seq解码器需要从训练数据标注中学习语言模型，相比于可用于语言模型训练的大型文本语料库，训练数据标注可以是相当简化的。因此，方程式(3)的聚变输出层应学习克服这种偏移以合并新的语言信息。这还意味着相当大部分的解码器容量被浪费了。

3.Seq2Seq模型中的半监督式学习

提出了用于在目标域中利用未标注的文本语料库的一些方法，以便更好地进行泛化和域转移。

Sennrich等(“Improving neural machine translation models withmonolingual data(使用单语数据改进神经机器翻译模型)”，《计算语言学协会第54届年会论文集》，第86-96页，2015)提出了反向翻译作为使用非标注数据进行机器翻译的方法。反向翻译通过自动翻译未标注的目标域文本来增大神经机器翻译模型的平行训练语料库，从而提高“BLEU”(双语评估研究)的得分。然而，该技术不能很好的适用于其它任务，在其它任务中反向翻译不可行或具有极低质量(像图像字幕生成或语音识别)。

Ramachandran等(“Improving neural machine translation models withmonolingual data(使用单语数据改进神经机器翻译模型)”，《计算语言学协会第54届年会论文集》，第86-96页，2015)提出了从在源和目标域上单独训练的语言模型热启动Seq2Seq模型。无监督的预训练可以显示出BLEU得分的改善。虽然这可能是很有前途的方法，但是由于在平行语料库上的训练可能会有效地擦除对语言模型的认识而结束，因此这种方法对于转移任务是潜在难以利用的。

反向翻译和无监督的预训练两者都是在架构方面不需要有所变化的简单方法。

C.冷聚变的实施方式

冷聚变方法与诸如深度聚变的其它模型之间的最大差异中的一个是，在冷聚变实施方式中Seq2Seq模型是与固定的预训练语言模型从头开始一起训练。

在该节中，简要地描述了冷聚变方法实施方式。图1描绘了根据本公开的实施方式的以训练Seq2seq模型和语言模型的冷聚变方法。

在实施方式中，使用一组训练数据对语言模型(LM)进行预训练(105)。基于对Seq2Seq模型的输入序列，可以获得Seq2Seq模型的隐藏状态(110)。在实施方式中，将从语言模型获得的语言模型隐藏状态与从Seq2Seq模型获得的隐藏状态进行组合(115)，以形成组合隐藏状态。

在实施方式中，将从对标注数据起作用的组合隐藏状态获得的输出用于训练Seq2Seq模型，也用于训练组合隐藏状态(120)。在实施方式中，可选地，具有组合隐藏状态的Seq2Seq模型的一部分可以使用新的域数据进行进一步的微调(125)。微调的细节在D节中进行进一步描述。

因为在整个训练过程中Seq2Seq模型都知道语言模型，所以它学习对语言特定信息使用语言模型，并捕获有助于从源映射到目标序列的相关信息。这种分离可以显著增大模型的有效能力。这种效应在D节中进行了经验式演示，其中冷聚变模型实施方式即使使用很小的解码器也能很好地执行。

聚变机制的下列改进的建模选择中的一个或多个可用于实施方式中：

1.图2描绘了根据本公开的实施方式的将Seq2Seq隐藏状态和语言模型隐藏状态两者用作为门计算的输入的方法。在实施方式中，Seq2Seq隐藏状态和语言模型隐藏状态可用作为门计算的输入(205)。特定任务模型的嵌入包括与编码器状态有关的信息，它允许聚变过程决定(210)其对语言模型的依赖，诸如在输入不确定的情况下。例如，当输入语音是嘈杂的或呈现了未被Seq2Seq模型看见的表征时，聚变机制会学习更多地注意语言模型。

2.图3描绘了根据本公开的实施方式的使用细粒(FG)门机制进行冷聚变的方法。可使用FG门机制，诸如被杨等人在“Words or characters？Fine-Grained Gating forReading Comprehension(文字或字符？用于阅读理解的细粒门控)”,(arXiv preprintarXiv:1611.01724(2016))中所讨论的一个FG门机制。通过对语言模型状态的每个隐藏节点使用(305)不同的门值，在整合语言模型时允许更大的灵活性，因为聚变算法可以选择(310)其需要语言模型的哪个方面在每个时间步中进行更多的强调。

3.图4描绘了根据本公开的实施方式的使用语言模型概率进行冷聚变的方法。在实施方式中，使用语言模型概率代替(405)语言模型的隐藏状态。对于不同的语言模型和数据，的分布和动力学可以显著不同。作为具体的示例，使用LM状态的任何聚变机制对于状态隐藏节点的置换都不是无变化的。这限制了泛化至新的LM的能力。通过将表征分布投影(410)到公共嵌入空间上，在没有状态差异问题的情况下，对该语言具有新颖使用的LM仍可进行整合。这还意味着冷聚变模型实施方式在推理期间可使用n-gram LM进行训练或在n-gram LM上交换。

冷聚变架构的实施方式(包括训练的方法)可如下工作：

是语言模型的分对数输出，s_t是特定任务模型(例如，Seq2Seq模型)的状态，b是偏差，以及

是用于生成输出的最终聚变状态。由于分对数可具有任意偏移，因此在实施方式中，最大值在送入层中之前被减去。方程式中(4c)中的函数是矢量之间的逐元素相乘(element-wise multiplication)。在方程式(4a)和(4d)中，DNN可以是具有任何层数的深度神经网络。在方程式(4b)中，Seq2Seq隐藏状态和语言模型隐藏状态两者可用作为门计算的输入。在实验期间，发现单个仿射(affine)层(神经网络中完全连接的层)在softmax之前具有ReLUR(整流线性单元)激活部是有益的。

图5描绘了根据本公开的实施方式的关于方程(4a)–(4e)的冷聚变机制500。在实施方式中，语言模型的分对数输出送入第一DNN 510中，以生成语言模型的隐藏状态，在本公开中，诸如到的转化可表示为“概率预测”。Seq2Seq模型的隐藏状态和语言模型的隐藏状态两者可用作为进行门计算的门520的输入。逐元素相乘525在门计算结果与隐藏状态之间实施。将相乘结果和Seq2Seq隐藏状态串接530，以生成最终聚变状态，该最终聚变状态送入第二DNN 535中，以基于该聚变状态生成分对数输出。另一个DNN 535起到学习从聚变隐藏状态映射到输出分布的作用。分对数输出最后送入softmax层540中，以便为模型训练生成概率输出。

D.各种实验

应注意的是，在该专利文件中这些实验和结果以说明的方式提供，并且使用一个或更多个的具体实施方式在具体条件下执行；因此，这些实验或其结果不应当用于限制本专利文件的公开的范围。

1.设置

通过各种实验，在语音识别任务上对冷聚变方法的实施方式进行测试。使用评估集上的字符差错率(CER)和错字率(WER)对结果进行比较。对于所有在源域上进行训练的模型，源CER和WER表示在域内的性能，而目标CER和WER表示在域外的性能。

在实施方式中，收集了两个数据集：一个基于作为源域的搜索查询，另一个基于作为目标域的影片副本。对于每个数据集，使用Amazon Mechanical Turk收集朗读文本的发言者的录音。为了确保两个数据集仅在文本域中有所不同，所有的Turker都给予了相同的指令。源数据集包括411,000个发言(约650小时的音频)，以及目标数据集包括345,000个发言(约676小时的音频)。使用来自每个域的2048个发言进行评估。

这两个数据集的文本明显不同。表1示出在数据集中的每个上训练基于字符的递归神经网络语言模型并对两个数据集进行评估的结果。语言模型非常容易过度适合(overfit)训练分布，因此在一个语料库上训练的模型在不同的分布上将执行地不佳。从表1可以看出，为源域优化的模型在目标分布上具有更糟的困惑度(perplexity)。

表1.对于在不同的数据集上训练的字符RNN语言模型在源域和目标域上的Dev集困惑度。注意：i)在源域上训练的模型在目标域上表现很差，以及反之亦然，表明这两个域是非常不同的，以及ii)两个域上的最佳模型是在两个语料库的超集上训练的更大的模型。将在完整的数据集(包括源数据集和目标数据集以及一些附加文本)上训练的模型用于所有的LM整合实验。

2.神经网络架构的实施方式

表1的最后一行中描述的语言模型使用了约2500万词进行训练。在实施方式中，该模型包括具有1024维度隐藏状态尺寸的三层门控递归单元(GRU)。对模型进行训练，以使预测给出先前字符的下一字符的交叉熵最小化。使用批尺寸为512的Adam优化器。模型在源数据上得到2.49的困惑度，以及在目标数据上为2.325。

图6描绘了根据本公开的实施方式的具有冷聚变的示例性Seq2Seq架构600。该架构600包括Seq2Seq模型605和语言模型670，其使用未标注的训练数据进行预训练。Seq2Seq模型605包括编码器610和解码器640。编码器610接收输入序列并将中间表示输出至解码器640。在实施方式中，编码器610包括一个或多个递归层(615、625和635)。该一个或多个递归层可以是长短期记忆(LSTM)层。在实施方式中，LSTM层可以是双向LSTM(BLSTM)层。在实施方式中，编码器610还包括耦合在BLSTM之间的至少一个最大池化(max pooling)层(620和630)。最大池化层将多个(诸如，两个)时间帧组合为一个帧，并获取每个帧的最大点。在实施方式中，解码器640包括具有注意力的至少一个递归层(诸如，GRU层)645。该至少一个GRU层645接收中间表示，并输出隐藏状态(与方程式中4的相对应)。

在实施方式中，语言模型(LM)670为RNN模型，包括一个或多个门控递归单元(GRU)675、DNN 685和softmax 690，以便生成概率输出。在实施方式中，当聚变架构训练或部署用于生产时，GRU 675使用“未标注的训练数据”进行预训练以设置GRU参数。GRU 675将语言模型的隐藏状态680输出至DNN 685和softmax 690，softmax 690将LM分对数或LM概率695输出至Seq2Seq模型605，使得隐藏状态和来自LM 670的输出可以组合成组合隐藏状态650。在组合过程期间，可实施不同的组合方法或算法，诸如方程式(4)和图5中所示的实施方式。组合隐藏状态用于进一步的处理。在实施方式中，解码器640还包括深度神经网络(DNN)655和softmax 660以进一步处理组合隐藏状态，以便生成概率输出。在实施方式中，DNN 655包括在softmax之前的仿射层。在实施方式中，Seq2Seq模型通过多种方式与语言模型进行聚变。在一个实施方式中，从LM模型670输出的LM分对数在框650中与Seq2Seq模型聚变成组合隐藏状态，这包括图5中示出的框510、框520、框525和框530的过程。这种聚变机制可以表示为“LM分对数聚变”。在另一实施方式中，从LM模型670输出的LM状态在框650中与Seq2Seq模型聚变成组合隐藏状态。这种聚变机制可以表示为“LM状态聚变”，其中，LM隐藏状态680直接用于框650中的聚变，这仅包括框520、框525和框530中的过程。

在实施方式中，对于声学模型，使用具有温和注意力的Seq2Seq架构。编码器由6个双向LSTM(BLSTM)层组成，每个层具有480维度。在实施方式中，最大池化层还在头两个BLSTM层之后沿着时间维度以2步幅的方式使用，并且为BLSTM层中的每个增加剩余连接(由He等，“Deep Residual Learning for Image Recognition(用于图像识别的深度剩余学习)”，arXiv preprint arXiv:1512.03385，2015公开的)以帮助加快训练过程。解码器由具有混合注意力的单层960维度门控递归单元(GRU)组成(由Chorowski等在2015年的《神经信息处理系统中的进展》中的第577–585页的“Attention-Based Models For SpeechRecognition(用于语音识别的基于注意力的模型)”中公开)。

在实施方式中，最终的冷聚变机制具有一个256单元的致密层，该致密层后面是ReLU，然后是softmax。

3.训练的实施方式

在实施方式中，输入序列包括40个梅尔尺度(mel-scale)滤波器组特征。数据集随着噪声的增强而扩展；随机背景噪声在0和15分贝之间的均匀随机SNR下以40％的概率增加。除了噪声增强之外，没有使用其它的调整形式。

在实施方式中，整个系统使用64批尺寸的Adam进行端对端的训练。每个模型的学习速率分别用随机搜索来调整。为了早期的稳定训练，通过在第一历元中增大输入序列长度来对训练示例排序。在推理期间，将具有128固定波束尺寸的束搜索用于所有的实验。

还以在整个训练期间保持固定的0.2的采样率使用计划的样品。由于训练和推理机制中的差异，计划的样品有助于减少暴露偏差的影响。

4.改进的泛化的实施方式

利用对兴趣的分布具有更好困惑度的语言模型，将直接意味着用于ASR任务的改进的WER。在该节中，比较了实现该效果的不同的聚变方法。

由于C节中激发的状态差异问题，将语言模型转换为深度聚变是不可能的。因此，所有的聚变模型使用相同的语言模型进行训练和评估，其中，该相同的语言模型在源域和目标域两者上实现较低的困惑度(见表1)。以这种方式，可以测量由于训练和架构变化而对深度聚变在转移能力上的改进。

表2比较深度聚变和冷聚变实施方式在源保持(held-out)集和目标保持集上的性能。明显地，冷聚变在两个量度上在两个域上性能一致地优于基线。对于域内的预测任务，基线模型得到14.68％的词误差，而最佳的冷聚变模型相对于这个数字得到了超过21％的相对改进。甚至与深度聚变模型相比较，最佳的冷聚变模型得到了15％的相对改进。

在域外结果中，获得了甚至更大的改进。基线注意力模型，当在源域上进行训练但在目标域上进行评估时，得到43.5％的WER。这显著劣于可通过将相同的模型在目标数据集上进行训练所获得的17.6％。域适应的目标是缩小这些数字之间的间隔。表2中的最后一列示出了作为每个模型的差异分数的剩余间隔。

表2.在该文件中讨论的各种模型的语音识别结果

深度聚变模型仅可以使域差距变窄至76.57％，而冷聚变方法实施方式可以将其减小至38.17％。同一表还显示了对冷聚变方法实施方式所做的三种架构变化的增量效果。应注意，将相同的变化应用至深度聚变方法不会产生很大的改进，这表示了冷启动使用语言模型训练的Seq2Seq训练的好处。在实施方式中，在聚变层中使用概率投影代替语言模型状态实质上有助于泛化。直观上，与隐藏状态空间不同，字符概率空间在不同的语言模型中共享相同的结构。

5.与解码器效率相关的实施方式

关于冷聚变是否确实能缓解学习语言模型的解码器，已实施了测试。通过检查解码器容量的下降如何影响误差率来进行测试。如表3中所证实的，随着解码器单元尺寸减小，冷聚变模型的性能逐渐降低，而注意力模型的性能在某点上突然劣化。值得注意的是，冷聚变解码器仍然性能优于具有4×更少数量参数的全注意力解码器。

此外，发现训练加速了三分之一(见图7)。在图7中，作为训练迭代函数的基线Seq2Seq模型和冷聚变模型在dev集上的交叉熵损失分别表示为线705和线710。注意力模型通常可能需要几十万次的迭代来收敛。训练时间中的大部分花费在学习注意力机制上。人们可以通过绘制注意上下文与时间的关系来观察这种行为，并看到在后面的迭代中出现了对角线对齐模式。由于预训练的、固定的语言模型使模型灌输有较低水平的语言特点(例如词的可能拼写)，因此误差信号更直接地传播到注意上下文中。

表3.解码器维度对模型性能的影响。冷聚变模型的性能随着解码器尺寸减小而更加缓慢地下降。这印证了解码器仅须学习任务而非标注生成的事实。其有效任务容量比在没有聚变的情况下大得多。

6.用于域适应的微调的实施方式

面对来自目标分布的有限数据，对用于域转移的模型进行微调往往是很有前途的方法。在该专利文件中，已对来自目标分布的多少标注数据优选地用于冷聚变模型以有效地关闭域适应间隔进行各种测试。

在实施方式中，将来自节D.4的、在源域和目标域两者上训练的相同语言模型用于所有的微调实验。学习速率恢复到其初始值。然后，仅对来自表2的最佳冷聚变模型的聚变机制在各种量的标注目标数据集上进行了微调。

结果呈现于表4中。通过仅仅0.6％的标注数据，域间隔从38.2％减小至21.3％。通过小于10％的数据，该间隔下降至仅8％。应注意的是，由于Seq2Seq参数在微调阶段期间保持固定，因此从微调的所有改进都来自于更好地将声学模型和语言模型组合。通过对所有参数进行微调，有可能获得更大的增益，这在实施的实验中还未进行，因为当前的焦点是研究语言模型聚变在Seq2Seq解码器中的效果。

表4.在目标训练数据的子集上微调声学模型(来自表2的最后一行)的结果。＊最终一行表示在所有目标域数据上进行训练的注意力模型。

一些示例呈现于表5中。应注意的是，所有的模型是在由搜索查询的阅读语音组成的源域上进行训练，并在影片副本的阅读语音上进行评估，以测量域外性能。由于搜索查询倾向于句子片段，所以我们观察到，对vanilla的注意力和深度聚变的主要误差模式是由于语法知识薄弱。另一方面，冷聚变实施方式演示了对语法的更好理解，并能够完成句子。

表5.通过深度聚变和冷聚变模型的一些预测示例

E.一些结论

在该专利文献中，呈现了新的常规Seq2Seq模型(冷聚变)架构的实施方式。在该架构的实施方式中，解码器与预训练的语言模型一起训练。研究并确认了用于促进对来自语言模型的信息利用的模型的架构变化。通过利用RNN语言模型，冷聚变模型实施方式与深度聚变相比使错字率降低多达18％。另外，已证明冷聚变模型可以更加容易地转移至新的域，并且仅使用10％的标注数据几乎完全地转移至新域。

F.系统实施方式

在实施方式中，本专利文献的方面可涉及、可包括一个或多个信息处理系统/计算系统或者可在一个或多个信息处理系统/计算系统上实施。出于本公开的目的，计算系统可以包括出于商业、科学、控制或其他目的可操作来计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、智能或数据的任何手段或手段的组合。例如，计算系统可为或可包括个人计算机(例如，膝上型计算机)、平板电脑、平板手机、个人数字助理(PDA)、智能手机、智能手表、智能包装、服务器(例如，刀片式服务器或机架式服务器)、网络存储设备或任何其他合适设备，并且可在大小、形状、性能、功能和价格方面改变。计算系统可以包括随机存取存储器(RAM)、一个或多个处理资源(例如中央处理单元(CPU)或硬件或软件控制逻辑)、ROM和/或其他类型的存储器。计算系统的另外组件可以包括一个或多个盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出(I/O)设备(例如键盘、鼠标、触摸屏和/或视频显示器)。计算系统还可包括可操作为在各种硬件组件之间传输通信的一个或多个总线。

图8描绘根据本公开的实施方式的计算设备/信息处理系统(或是计算系统)的简化框图。应理解，计算系统可不同地配置并且包括不同组件，包括具有少于或多于如图8中描述的部件，但应理解，针对系统800所示出的功能可操作为支持计算系统的各种实施方式。

如图8所示，计算系统800包括一个或多个中央处理单元(CPU)801，CPU 801提供计算资源并控制计算机。CPU 801可实施有微处理器等，并且还可包括一个或多个图形处理单元(GPU)817和/或用于数学计算的浮点协处理器。系统800还可包括系统存储器802，系统存储器802可呈随机存取存储器(RAM)、只读存储器(ROM)、或两者的形式。

如图8所示，还可提供多个控制器和外围设备。输入控制器803表示至各种输入设备804的接口，例如键盘、鼠标、触摸屏和/或触笔。计算系统可包括扫描仪控制器805，该扫描仪控制器805与扫描仪806通信。系统800还可包括存储控制器807，该存储控制器807用于与一个或多个存储设备808对接，存储设备中的每个包括存储介质(诸如磁带或盘)或光学介质(其可用于记录用于操作系统、实用工具和应用程序的指令的程序，它们可包括实施本发明的各方面的程序的实施方式)。存储设备808还可用于存储经处理的数据或是将要根据本发明处理的数据。系统800还可包括显示控制器809，该显示控制器809用于为显示设备811提供接口，显示设备811可为阴极射线管(CRT)、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或其他类型的显示器。计算系统800还可包括用于与打印机813通信的打印机控制器812。通信控制器814可与一个或多个通信设备815对接，这使系统800能够通过各种网络(包括互联网、云资源(例如以太云、经以太网的光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN))中的任一网络，或通过任何合适电磁载波信号(包括红外信号)来连接至远程设备。

在示出的系统中，所有主要系统组件可连接至总线816，总线816可以表示多于一个的物理总线。然而，各种系统组件可在物理上彼此接近或可不在物理上彼此接近。例如，输入数据和/或输出数据可远程地从一个物理位置传输到另一物理位置。另外，实现本发明的各方面的程序可经由网络从远程位置(例如，服务器)访问。此类数据和/或程序可通过各种机器可读介质中的任一机器可读介质来传送，机器可读介质包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及硬件设备，该硬件设备专门被配置成存储或存储并执行程序代码，该硬件设备例如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。

本发明的实施方式可以利用用于一个或多个处理器或处理单元以使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应注意，一个或多个非暂态计算机可读介质应当包括易失性存储器和非易失性存储器。应注意，替代实现方式是可能的，其包括硬件实现方式或软件/硬件实现方式。硬件实施的功能可使用ASIC、可编程的阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“手段”旨在涵盖软件实现方式和硬件实现方式两者。类似地，如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序的软件和/或硬件或它们的组合。利用所构想的这些替代实现方式，应当理解，附图以及随附描述提供本领域的技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理所要求的功能信息。

应当注意，本发明的实施方式还可涉及具有其上具有用于执行各种计算机实施的操作的计算机代码的非暂态有形计算机可读介质的计算机产品。介质和计算机代码可为出于本发明的目的而专门设计和构造的介质和计算机代码，或者它们可为相关领域中的技术人员已知或可用的。有形计算机可读介质的示例包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件设备，例如，专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。计算机代码的示例包括机器代码(例如，编译器产生的代码)以及包含可由计算机使用解释器来执行的更高级代码的文件。本发明的实施方式可整体地或部分地实施为可在由处理设备执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布的计算环境中，程序模块可物理上定位在本地、远程或两者的设定中。

本领域的技术人员将认识到，计算系统或编程语言对本发明的实践来说均不重要。本领域的技术人员将还将认识到，多个上述元件可物理地和/或在功能上划分成子模块或组合在一起。

本领域技术人员将理解，前文的示例和实施方式是示例性的，并且不限制本公开的范围。旨在说明的是，在本领域的技术人员阅读本说明书并研究附图后将对本领域的技术人员显而易见的本发明的所有、置换、增强、等同、组合或改进包括在本公开的真实精神和范围内。还应注意，任何权利要求书的元素可不同地布置，包括具有多个从属、配置和组合。

Claims

1.用于对生成自然语言的序列到序列模型进行训练的计算机实现的方法，所述方法包括：

使用一组训练数据对语言模型预训练；

基于输入序列获取未预训练的序列到序列模型的隐藏状态；

将从预训练的语言模型获得的语言模型隐藏状态与从所述未预训练的序列到序列模型获得的所述隐藏状态组合成组合隐藏状态；以及

2.根据权利要求1所述的计算机实现的方法，其中，所述一组训练数据是未标注的训练数据。

3.根据权利要求1所述的计算机实现的方法，其中，所述语言模型在所述序列到序列模型的源域和目标域中的至少一个中训练。

4.根据权利要求1所述的计算机实现的方法，其中，将来自所述预训练的语言模型的所述语言模型隐藏状态与来自所述序列到序列模型的所述隐藏状态组合包括门控计算，所述门控计算将来自所述语言模型的所述隐藏状态和来自所述序列到序列模型的所述隐藏状态两者用作为输入。

5.根据权利要求1所述的计算机实现的方法，其中，将来自所述预训练的语言模型的所述语言模型隐藏状态与来自所述序列到序列模型的所述隐藏状态组合包括对所述预训练的语言模型的状态的每个隐藏节点使用不同的门值。

6.根据权利要求1所述的计算机实现的方法，还包括基于从所述组合隐藏状态获得的所述输出，使用深度神经网络生成分对数输入。

7.根据权利要求6所述的计算机实现的方法，其中，所述分对数输入送入softmax中，以生成用于所述序列到序列模型训练的概率分布。

8.用于使用预训练的语言模型对用于生成自然语言的未预训练的序列到序列模型进行训练的计算机实现的方法，所述方法包括：

在所述未预训练的序列到序列模型的编码器处接收源域中的输入序列；

通过所述编码器生成所述未预训练的输入序列的中间表示；

使用所述未预训练的序列到序列模型的解码器内的至少一个递归层接收所述中间表示；

至少基于所述中间表示，通过所述至少一个递归层生成所述未预训练的序列到序列模型的隐藏状态；

将所生成的隐藏状态与来自所述预训练的语言模型的语言模型隐藏状态组合成组合隐藏状态；以及

9.根据权利要求8所述的计算机实现的方法，其中，所述序列到序列模型的所述解码器内的所述至少一个递归层是门控递归单元层。

10.根据权利要求8所述的计算机实现的方法，还包括使用不同于所述源域和所述目标域的域中的新数据对所述序列到序列模型进行微调。

11.根据权利要求8所述的计算机实现的方法，其中，所述编码器包括一个或多个递归层以生成所述中间表示。

12.根据权利要求11所述的计算机实现的方法，其中，所述一个或多个递归层是双向长短期记忆层。

13.根据权利要求11所述的计算机实现的方法，其中，所述编码器还包括耦合在所述一个或多个递归层之间的至少一个最大池化层。

14.根据权利要求8所述的计算机实现的方法，其中，将所生成的隐藏状态与来自所述语言模型的所述隐藏状态组合包括门控计算，所述门控计算将来自所述语言模型的所述隐藏状态和来自所述序列到序列模型的所述隐藏状态两者用作为输入。

15.根据权利要求14所述的计算机实现的方法，其中，对于相乘结果，使用逐元素相乘将来自所述门控计算的输出与来自所述语言模型的隐藏状态相结合。

16.根据权利要求15所述的计算机实现的方法，其中，所述相乘结果和所述序列到序列模型的所述隐藏状态串接以生成所述组合隐藏状态。

17.根据权利要求8所述的计算机实现的方法，其中，基于所述组合隐藏状态的所述分对数输出通过所述解码器内的深度神经网络生成。

18.根据权利要求17所述的计算机实现的方法，其中，所述深度神经网络还包括在softmax之前的仿射层，所述仿射层与整流线性单元激活部整合。

19.用于对生成自然语言的序列到序列模型进行训练的计算机实现的方法，所述方法包括：

接收对未预训练的序列到序列模型的输入序列；

生成所述未预训练的序列到序列模型的隐藏状态；

至少基于所述未预训练的序列到序列模型的所生成的隐藏状态和跨多个预训练的语言模型的概率投影获取组合隐藏状态；以及

20.根据权利要求19所述的计算机实现的方法，其中，所述概率投影包括将表征分布投影到公共嵌入空间上。