CN111386537A

CN111386537A - 基于注意力的仅解码器的序列转换神经网络

Info

Publication number: CN111386537A
Application number: CN201880075803.XA
Authority: CN
Inventors: 诺姆·M·沙泽尔; 卢卡什·米奇斯瓦夫·凯泽; 艾蒂安·波特; 穆罕默德·萨利赫; 本·大卫·古德里奇; 彼得·J·柳; 瑞安·赛帕斯
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-10-27
Filing date: 2018-10-29
Publication date: 2020-07-07
Also published as: US20240211751A1; EP3688672B1; US11556786B2; EP3688672A1; US20240211752A1; US11886998B2; US20200342316A1; WO2019084551A1; US20230153613A1

Abstract

用于从输入序列生成输出序列的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。该方法之一包括，在多个生成时间步中的每个时间步处：为该生成时间步生成包括输入序列的组合序列，该输入序列后面是截至该生成时间步已经生成的输出令牌；使用自注意力解码器神经网络处理组合序列以生成时间步输出，该时间步输出定义关于可能输出令牌集合的得分分布；以及使用时间步输出，从可能输出令牌集合中选择输出令牌作为输出序列中的下一个输出令牌。

Description

基于注意力的仅解码器的序列转换神经网络

相关申请的交叉引用

本申请要求于2017年10月27日提交的美国专利申请序列号62/578,358的优先权，其全部内容通过引用合并于此。

技术领域

本说明书涉及使用神经网络转换(transduce)序列。

背景技术

神经网络是采用一个或多个层的非线性单元来针对接收到的输入预测输出的机器学习模型。一些神经网络除了包括输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作对网络中的下一个层的输入，所述下一个层即下一个隐藏层或输出层。网络的每个层根据相应的参数集合的当前值根据接收到的输入生成输出。

发明内容

本说明书描述一种系统，该系统被实现为在一个或多个位置上的一个或多个计算机上的计算机程序，该系统从输入序列生成输出序列，该输出序列包括按输出顺序的多个位置中的每个位置处的相应输出，该输入序列包括按输入顺序的多个位置中的每个位置处的相应输入，即，将输入序列转换成输出序列。特别地，系统使用基于自注意力的解码器神经网络生成输出序列。

可以实现本说明书中描述的主题的特定实施例，使得实现以下优点中的一个或多个。

在本说明书中描述的系统的仅解码器架构可以有效且可扩展地注意比传统的序列转换系统长得多的很长的序列。因此，系统可以更有效地执行需要处理长输入序列、生成长输出序列或两者的序列转换任务。例如，该系统在需要生成多个文档的较长摘要的表达性摘要任务上可能会胜过常规系统。这样的任务和其他长序列转换任务可能需要从包括10,000或更多令牌的输入序列中处理和提取信息，以有效地生成输出序列。但是，因为该系统完全或主要基于注意力的，所以该系统仍与现有技术一样计算高效，或者在许多情况下比现有技术更计算高效。

另外，因为所描述的系统仅使用解码器神经网络并且不需要单独的编码器网络，参数的数量并且因此通过使用神经网络存储和运行推理所消耗的内存相对于其他能够在序列转换任务上表现出色的系统大大减少。

此外，通过利用本说明书中描述的局部注意力、存储器压缩注意力或两者，所描述的系统能够在非常长的序列上有效地执行序列转换，而无需消耗过多量的计算资源。

更一般地，由于使用自注意力，所描述的系统也优于许多现有系统。使用神经网络进行序列转换的许多现有方法在编码器和解码器中都使用递归神经网络。尽管这些种类的网络可以在序列转换任务上实现良好的性能，但是它们的计算本质上是顺序排列，即，递归神经网络在当前时间步生成输出，其以在之前时间步处的递归神经网络的隐藏状态为条件。这种顺序性质会阻止并行化，从而导致较长的训练和推理时间，并且因此导致使用大量计算资源的工作负载。

另一方面，因为所描述的系统的解码器是基于注意力的，所以该系统可以更快地转换序列，被更快地训练或两者，因为可以更容易地并行化网络的操作。也就是说，因为所描述的神经网络完全依赖于注意力机制来取得输入和输出之间的全局依存关系并且不采用任何递归神经网络层，所以由递归神经网络层的顺序性质造成的长训练和干扰时间和高资源使用率的问题被缓解。

此外，所描述的神经网络比基于卷积层或递归层的现有网络可以更准确地转换序列，即使训练和推理时间较短。特别地，在常规模型中，关联来自两个任意输入或输出位置的信号所需的操作数量随着位置之间的距离而增长，例如，取决于模型架构，线性地或对数地增长。这使在训练期间学习远距离位置之间的依存关系变得更加困难。在当前描述的神经网络中，由于在不依赖于递归或卷积的同时使用注意力(并且尤其是自注意力)，所以将这种操作的数量减少为恒定数量的操作。自注意力有时也称为内注意力，是一种与单序列的不同位置相关的注意力机制，以便于计算序列的表示。注意力机制的使用允许神经网络在训练期间有效地学习远距离处位置之间的依存关系，从而改进神经网络在各种转换任务，例如，机器翻译上的准确性。所描述的神经网络还可以展示出优于常规序列转换神经网络的性能而无需通过使用注意力机制进行任务特定的调整。

在下面的附图和描述中阐述本说明书中描述的主题的一个或多个实施例的细节。根据说明书、附图和权利要求书，主题的其它特征、方面和优点将变得显而易见。

附图说明

图1示出示例神经网络系统。

图2A是示出由解码器神经网络的子网络中的注意力子层应用的注意力机制的图。

图2B是示出减少处理长序列的计算成本的注意力机制的图。

图3是用于从输入序列生成输出序列的示例过程的流程图。

在各个附图中的相似的附图标记和标号指示相似的元件。

具体实施方式

本说明书描述一种系统，该系统被实现为在一个或多个位置上的一个或多个计算机上的计算机程序，该系统生成目标序列，该目标序列包括来自输入序列的按输出顺序的在多个位置中的每个位置处的相应输出，该输入顺序包括按输入顺序在多个位置中的每个位置处的相应输入，即，将输入序列转换成目标序列。

例如，该系统可以是神经机器翻译系统。也就是说，如果输入序列是原始语言的单词序列，例如，句子或短语，则目标序列可以是输入序列到目标语言的翻译，即，表示原始语言中的单词序列的目标语言的单词序列。

作为另一个示例，该系统可以是语音识别系统。即，如果输入序列是表示口头话语的音频数据序列，则目标序列可以是表示该话语的音素、字符或单词的序列，即，是输入序列的转录。

作为另一个示例，该系统可以是自然语言处理系统。例如，如果输入序列是原始语言的单词序列，例如，句子或短语，则目标序列可以是原始语言的输入序列的摘要，即，具有比输入序列更少的单词但是保留输入序列的基本含义的序列。作为另一示例，如果输入序列是形成问题的单词序列，则目标序列可以是形成问题的答案的单词序列。

作为另一个示例，该系统可以是计算机辅助医学诊断系统的部分。例如，输入序列可以是来自电子病历的数据序列，而目标序列可以是预测治疗序列。

作为另一个示例，该系统可以是图像处理系统的部分。例如，输入序列可以是图像，即，来自图像的颜色值的序列，而输出可以是描述图像的文本序列。作为另一个示例，输入序列可以是文本序列或不同的上下文，而输出序列可以是描述该上下文的图像。

作为另一个示例，该系统可以是提取摘要系统的部分。特别地，输入序列可以是来自多个输入文档的文本，并且可选地，可以是文档的主题，并且输出序列可以是输入文档的文本摘要。

特别地，神经网络是基于自注意力的解码器神经网络。在一些情况下，解码器不包括任何卷积层或任何递归层。

图1示出示例性神经网络系统100。神经网络系统100是被实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，其中可以实现以下所述的系统、组件和技术。

神经网络系统100接收输入序列102并处理输入序列102以将输入序列102转换成输出序列152。

输入序列102具有按输入顺序在多个输入位置中的每个输入位置处的相应的输入令牌，并且输出序列152具有按输出顺序在多个输出位置中的每个输出位置处的相应的输出令牌。即，输入序列102具有根据输入顺序排列的多个输入，并且输出序列152具有根据输出顺序排列的多个输出。

如上所述，神经网络系统100可以执行需要处理顺序输入以生成顺序输出的各种任务中的任何一个。在神经网络系统100执行表达性概要的特定示例中，输入序列可以包括来自多个文档的文本，并且输出序列可以是概括多个文档的文本。可选地，输入序列还可以例如在输入序列的开始处包括用于摘要文本的期望主题，即，指定多个文档所涉及的主题的文本。

神经网络系统100包括自注意力解码器神经网络150。如将在下面更详细地描述的，自注意力解码器神经网络150包括多个神经网络层，该多个神经网络层包括多个被掩码的(masked)自注意力神经网络层。

解码器神经网络150被配置成以自回归方式生成输出序列。

也就是说，解码器神经网络150通过在多个生成时间步中的每个生成时间步处在相应的输出位置处生成输出令牌来生成通过输出来输出的输出序列。即，在每个生成时间步处，解码器神经网络150生成在按照输入序列为条件的输出顺序的下一输出位置处的新的输出令牌，以及在按照输出顺序在下一输出位置之前的输出位置处的输出令牌。

特别地，对于给定的输出位置，解码器神经网络150生成时间步输出，该时间步输出定义在给定的输出位置处关于可能输出令牌的概率分布。

然后系统100可以通过从概率分布中进行采样或者通过选择具有最高概率的输出令牌来选择该输出位置的网络输出。

更具体地，在每个生成时间步处，系统100生成该生成时间步的组合序列108。

组合序列108包括输入序列，随后是截至到该生成时间步已经生成的输出令牌，即，按输出顺序在之前位置处的输出令牌。在一些实施方式中，已经生成的输出令牌紧跟在组合序列108中的输入序列令牌之后。在一些其他实施方式中，输入序列和截至生成时间步已经生成的输出令牌被组合序列108中的预定的特定分隔符令牌分隔。

换句话说，系统100将输入序列和已经生成的输出共同表示为单个组合序列，消除了在输入序列的转换期间采用编码器神经网络的需要。

然后解码器神经网络150处理组合序列108以生成输出，该输出定义了在输出位置处关于可能输出令牌的概率分布。

因为解码器神经网络150是自回归的，所以在每个生成时间步处，解码器150对在该生成时间步之前已经生成的输出令牌——即，按照输出顺序在相应输出位置之前的输出位置处的输出——进行操作。在一些实施方式中，为了确保在推理和训练期间都是这种情况，在每个生成时间步处，解码器神经网络150将已经生成的输出向右位移了一个输出顺序位置(即，将一个位置偏移引入到已经生成的网络输出序列)并且(如下面将更详细描述的)掩码某些操作，使得位置只能注意直到并且包括输出序列中的该位置的位置(并且不注意后续位置)。尽管下面的描述的其余部分描述，当在给定的输出位置处生成给定的输出时，解码器150的各个组件对给定的输出位置之前的输出位置处的数据进行操作(并且不对任何其他输出位置处的数据进行操作)，将会理解的是，可以使用上述移位来有效地实现这种类型的调节。

解码器神经网络150包括嵌入层120、一个或多个解码器子网络130的序列、线性层180和softmax层190。特别地，如图1中所示，解码器神经网络包括N个解码器子网络130。

嵌入层120被配置成，针对组合序列中的每个令牌，将令牌映射到嵌入空间中的令牌的数字表示，例如，映射到嵌入空间中的向量。然后，嵌入层120将令牌的数字表示提供给解码器子网络130的序列中的第一子网络，即，提供给N个解码器子网络130中的第一解码器子网络130。

特别地，在一些实施方式中，嵌入层120被配置成将每个令牌映射到网络输入的嵌入表示，并且然后将令牌的嵌入表示与组合序列中的令牌的位置的位置嵌入组合，例如，求和、求平均值或拼接(concatenate)，以生成令牌的组合嵌入表示。也就是说，组合序列中的每个位置具有对应的嵌入，并且对于每个令牌，嵌入层120将令牌的嵌入表示与在组合序列中的令牌位置的嵌入进行组合。

在一些情况下，学习位置嵌入。如本说明书中所使用的，术语“学习的”意指在训练解码器神经网络150期间已经调整了操作或值。下面参考图3描述训练解码器神经网络150。

在一些其它情况下，位置嵌入是固定的，并且对于每个位置是不同的。例如，嵌入可以由不同频率的正弦和余弦函数组成，并且可以满足：

其中pos是位置，i是位置嵌入内的维度，并且d_model是位置嵌入(以及由神经网络150处理的其他向量)的维数。

然后，将组合嵌入表示用作令牌的数字表示。

每个解码器子网络130被配置成接收多个组合序列位置中的每一个的相应解码器子网络输入，并且生成多个组合序列位置中的每一个的相应的子网络输出。

然后，将序列中的最后一个解码器子网络生成的解码器子网络输出作为输入提供给线性层180。

对于序列中的第一解码器子网络，解码器子网络输入是由嵌入层120生成的数字表示，并且对于序列中的除了第一解码器子网络之外的每个解码器子网络，解码器子网络输入是序列中的之前解码器子网络的解码器子网络输出。

每个解码器子网络130包括解码器掩码的自注意力子层132。解码器自注意力子层132被配置成，在每个生成时间步处接收对应输出位置之前——即，当前正在为其生成输出令牌的输出位置之前——的每个组合序列位置的输入，并且对于每个特定的组合序列位置，使用从特定输出位置处的输入中得出的一个或者多个查询对在该对应位置之前的组合序列位置处的输入应用注意力机制，以生成针对该特定输出位置的更新表示。

也就是说，解码器自注意力子层172应用被掩码的注意力机制，使得其不注意或以其它方式处理组合序列中的不在当前输出位置之前的位置处的任何数据。

下面将参考图2更详细地描述掩码的注意力机制以及解码器自注意力子层132如何应用注意力机制。

在一些示例中，不同解码器子网络130中的不同解码器自注意子层132采用不同的注意力机制。例如，如将在下面参考图2A和图2B描述的那样，一些自注意力子层可以采用局部注意力，而其他一些则采用存储器压缩的注意力。特别地，在一些实施方式中，注意力的类型在子网络之间交替，即，每隔一个子网络采用存储器压缩的注意力，并且子网络的其余部分使用局部注意力。

在一些实施方式中，每个解码器子网络130还包括残差连接层，该残差连接层将解码器自注意力子层的输出与到解码器自注意力子层的输入进行组合以生成解码器自注意力残差输出和层归一化层，该层归一化层将层归一化应用于解码器自注意力残差输出。这两个层在图1中被统称为“Add&Norm(加&归一化)”操作。

解码器子网络中的一些或所有也可以包括逐位置的前馈层134，其被配置成单独地在组合序列中的每个位置上进行操作。特别地，对于每个组合序列位置，前馈层134被配置成接收组合序列位置处的输入，并且将变换序列应用于组合序列位置处的输入，以生成组合序列位置的输出。例如，变换序列可以包括两个或更多个学习的线性变换，每个线性变换被激活函数分隔，该激活函数例如是非线性逐元素激活函数，例如ReLU激活函数。逐位置的前馈层134接收到的输入可以是当包括残差和层归一化层时的层归一化层的输出，或者是当残差和层归一化层不被包括时的解码器自注意力子层132的输出。对于每个输入位置，由层134应用的变换通常将是相同的(但是不同子网络中的不同前馈层将应用不同的变换)。

在解码器子网络130包括逐位置的前馈层134的情况下，解码器子网络也可以包括：残差连接层，该残差连接层将逐位置的前馈层的输出与到逐位置的前馈层的输入相结合以生成解码器逐位置的残差输出；以及层归一化层，该层归一化层将层归一化应用于解码器逐位置的残差输出。在图1中，这两个层也统称为“Add&Norm”操作。然后此层归一化层的输出可以用作解码器子网络130的输出。

在每个生成时间步处，线性层180将学习的线性变换应用于最后一个解码器子网络130的输出，以便于将最后一个解码器子网络130的输出投影到适当的空间中以供softmax层190处理。然后，softmax层190在线性层180的输出上应用softmax函数，以生成在生成时间步处的关于可能网络输出的概率分布。

如果在给定的生成时间步处的选择的输出令牌是预定的序列结束令牌，则系统100可以确定输出序列152是完成的，并提供截至该生成时间步已经生成的输出令牌作为输入序列102的最终输出序列152。

因此，从图1中可以看出，不是如在某些常规系统中发生的依赖于编码器神经网络首先对输入序列进行编码并且然后生成以输入序列的编码为条件的输出序列，系统100在每个生成时间步通过组合序列的方式对输入序列进行操作。组合序列的这种使用允许系统100有效地处理长输入序列，即，因为来自整个输入序列的信息在每个生成时间步处是直接可用的，同时仍具有比常规系统少的参数，即，因为系统100不具有编码器神经网络。

尽管在图1中未示出，但是在一些情况下，为了增加解码器神经网络150的计算能力而不过度增加处理时间或计算成本，解码器神经网络150可以包括一个或多个专家混合层。在每个时间步处，专家混合层选择大量专家中的小子集，并且组合来自专家的小子集的输出以生成时间步的层输出。专家混合层在Noam Shazeer,Azalia Mirhoseini,KrzysztofMaziarz,Andy Davis,Quoc Le,Geoffrey Hinton,and Jeff Dean.Outrageously largeneural networks:The sparsely-gated mixture-of-experts layer.arXiv preprintarXiv:1701.06538,2017(Noam Shazeer、Azalia Mirhoseini、Krzysztof Maziarz、AndyDavis、Quoc Le、Geoffrey Hinton和Jeff Dean。异常庞大的神经网络：稀疏门控的专家混合层。arXiv arXiv预印本arXiv：1701.06538，2017)中进行了更详细的描述。

图2A是示出由解码器神经网络150的子网络中的注意力子层应用的注意力机制的图200。

通常，注意力机制将查询和键-值对集合映射到输出，其中查询、键和值都是向量。将输出计算为值的加权总和，其中通过查询与对应键的兼容性函数(compatibilityfunction)来计算分配给每个值的权重。

更具体地，每个注意力子层应用缩放的点积注意力机制。在缩放的点积注意力中，对于给定的查询，注意力子层计算该查询与所有键的点积，将每个点积除以缩放因子，例如，除以该查询和键的维度的平方根，并且然后在缩放的点积上应用softmax函数以获取对该值的权重。然后，注意力子层根据这些权重计算值的加权和。因此，对于缩放的点积注意力，兼容性函数是点积，并且通过缩放因子进一步对兼容性函数的输出进行缩放。

在操作中并且如图2的左手侧中所示，注意力子层同时计算在查询集合上的注意力。特别是，注意力子层将查询打包到矩阵Q中，将键打包到矩阵K中，并且将值打包到矩阵V中。欲将向量集合打包到矩阵中，注意力子层可以生成包含向量作为矩阵行的矩阵。

然后，注意力子层执行矩阵Q与矩阵K的转置之间的矩阵乘法，以生成兼容性函数输出的矩阵。

然后，注意力子层缩放兼容性函数输出矩阵，即，通过将矩阵的每个元素除以缩放因子来缩放。

然后，注意力子层在缩放后的输出矩阵上应用softmax，以生成权重矩阵，并在权重矩阵和矩阵V之间执行矩阵乘法以生成包括针对每个值的注意力机制的输出的输出矩阵。

因为解码器注意力子层使用掩码，所以注意力子层在应用softmax之前掩码缩放后的输出矩阵。也就是说，注意力子层将对应于当前输出位置之后的位置的缩放后的输出矩阵中的所有值掩码(设置为负无穷大)。

在一些实施方式中，为了允许注意力子层共同注意来自不同位置处的不同表示子空间的信息，注意力子层采用多头(multi-head)注意力，如图2的右手侧中所图示。

特别地，为了实现多头注意力，注意力子层并行地应用h个不同的注意力机制。换句话说，注意力子层包括h个不同的注意力层，同一注意力子层中的每个注意力层都接收相同的原始查询Q、原始键K和原始值V。

每个注意力层被配置成使用学习的线性变换来变换原始查询、键和值，并且然后将注意力机制应用于变换后的查询、键和值。每个注意力层通常将学习与同一注意力子层中每个其他注意力层不同的变换。

特别地，每个注意力层被配置成将学习的查询线性变换应用于每个原始查询以为每个原始查询生成特定于层的查询，将学习的键线性变换应用于每个原始键以为每个原始键生成特定于层的键，并将学习的键线性变换应用于每个原始值以为每个原始值生成特定于层的值。然后，注意力层使用这些特定于层的查询、键和值来应用上述注意机制，以生成该注意力层的初始输出。

然后，注意力子层组合注意力层的初始输出以生成注意力子层的最终输出。如图2中所示，注意力子层拼接注意力层的输出，并将学习的线性变换应用于拼接后的输出以生成注意力子层的输出。

在一些情况下，注意力子层应用的学习的变换会减少原始键和值以及可选地查询的维数。例如，当原始键、值和查询的维数为d并且子层中存在h个注意力层时，子层可以将原始键、值和查询的维数减少到d/h。这使多头注意力机制的计算成本与以全维数执行注意力机制一次的成本保持相似，同时增加注意力子层的代表能力。

对于每个解码器自注意力子层，解码器中的每个位置注意在该位置之前的解码器中的所有位置。因此，所有键、值和查询都来自同一位置，并且在这种情况下，解码器中先前子网络的输出，或者对于第一解码器子网络中的解码器自注意力子层，组合的序列令牌的嵌入已经生成。因此，对于按照输出顺序在当前位置之前的每个位置都存在相应的键、值和查询。

当解码器自注意力子层实现多头注意力时，解码器自注意力子层中的每个注意力层被配置成，在每个生成时间步处，将学习的查询线性变换应用于对应输出位置之前的每个组合序列位置处的输入以生成每个组合序列位置的相应的查询，将学习的键线性变换应用于对应输出位置之前的每个组合序列位置处的每个输入以生成每个输出位置的相应的键，将学习的值线性变换应用于对应输出位置之前的每个组合序列位置处的每个输入以生成每个输出位置的相应的键，并且然后使用查询、键和值应用注意力机制(即，上述缩放的点积注意力机制)以确定每个输出位置的初始解码器自注意力输出。然后，子层组合如上所述的注意力层的初始输出。

在一些实施方式中，为了允许解码器神经网络更有效地处理长的组合序列，通过限制Q和K之间的点积来修改注意力机制，以便于在保持高质量输出生成的同时降低注意力机制的计算成本。

图2B是示出注意机制的示例图，该注意力机制减少处理长序列的计算成本。

特别地，图2B示出三种不同类型的注意力机制：上述掩码的多头注意力机制250、存储器压缩注意力270和局部注意力290。

如上所述，对于掩码的多头注意力250，确定矩阵V、K和Q，并且然后应用掩码的多头注意力。

另一方面，在存储器压缩注意力270中，在如上所述的确定矩阵V、K和Q之后，通过对V和K矩阵应用跨步卷积(“Conv”)来减少键和值的数量。Q矩阵中的查询数量保持不变。此修改将激活数量除以基于核大小和跨步卷积跨步因子的压缩因子。例如，卷积内核的大小可以为3并且跨步卷积的因子的跨步可以为3。然后将掩码的多头注意力如上所述应用于已减少的V和K矩阵。

因此，由于应用跨步卷积，因此相对于标准多头注意力机制250，存储器压缩注意力机制270能够以减少的计算成本在整个序列上全局交换信息。

与存储器压缩注意力270和多头注意力250不同，局部注意力290在组合序列的多个块中的每个块内独立地执行注意力。特别地，对于局部注意力，将组合的序列令牌划分为相似长度的块(或“子序列”)，并在每个块中独立地执行注意力。因为在此方案中每个块的注意力存储成本是恒定的，所以此修改使激活数量相对于序列长度保持线性，但不允许每个位置注意整个序列。更详细地，对于局部注意力，对注意力机制的输入序列被分割成块(“分割”)，并且在每个块内独立地应用如上所述的多头注意力。然后将每个块的注意力输出拼接(“合并”)，以生成局部注意力机制的输出。

如上所述，在一些实施方式中，不同解码器子网络130中的不同解码器自注意力子层132采用不同的注意力机制。例如，一些自注意力子层可以采用局部注意力，而其他的采用存储器压缩注意力。特别地，在一些实施方式中，注意力的类型在子网络之间交替，即，每隔一个，即，每一隔一个，子网络采用存储器压缩注意力，而其余的子网络采用局部注意力。让一些层应用存储器压缩注意力而同时其他层采用局部注意力，即使当组合序列很长时，解码器神经网络也可以注意整个组合序列而无需消耗过多量的计算资源。

图3是用于从输入序列生成输出序列的示例过程的流程图。为了方便起见，将过程300描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，神经网络系统，例如，根据此说明书适当编程的图1的神经网络系统100可以执行过程300。

系统可以在多个生成时间步中的每个生成时间步处执行过程300，以使用自注意力解码器神经网络生成输出序列。解码器神经网络配置成以自回归方式从输入序列生成输出序列。即，解码器神经网络在每个生成时间步处从输出序列生成一个输出。因此，通过在多个生成时间步中的每个处执行过程300，系统生成输出序列中的所有输出令牌。

系统为生成时间步生成包括输入序列的组合序列，该输入序列随后是截至该生成时间步已经生成的输出令牌(步骤310)。

系统使用自注意力解码器神经网络处理组合序列以生成时间步输出，该时间步输出定义关于可能输出令牌集合的得分分布(步骤320)。

系统使用时间步输出从可能输出令牌集合中选择输出令牌作为输出序列中的下一个输出令牌(步骤330)。

系统可以针对输入序列执行过程300，对于该输入序列，期望的输出——即，系统应该为输入序列生成的输出序列——是未知的。在这种情况下，系统针对所有生成时间步顺序地执行过程300。

系统还可以对训练数据集合中的输入序列执行过程300，即，应由系统针对其生成输出序列的输入集合是已知的，以便于训练解码器以确定解码器的参数的训练值。可以对选自训练数据集合的输入重复地执行过程300作为常规机器学习训练技术的一部分来训练初始神经网络层，例如利用使用常规优化器的反向传播训练技术的梯度下降，该常规优化器例如是Adam优化器。在训练过程期间，系统可以包括多种技术来改进训练过程的速度、效果或两者。例如，系统可以使用丢弃(dropout)、标签平滑或两者来减少过度拟合。作为另一示例，系统可以使用分布式架构来执行训练，该分布式架构并行地训练序列转换神经网络的多个实例。

然而，在训练期间，由于整个地面真相(ground true)输出序列在训练过程开始时可用，所以系统可以为每个生成时间步并行生成时间步输出，即，系统不需要以对每个生成时间步顺序地执行过程300。换句话说，系统可以将包括被在整个已知的输出序列跟随的输入序列的组合序列作为输入提供给解码器神经网络，并且可以为所有生成时间步并行生成时间步输出。然后，系统可以使用机器学习训练技术更新解码器参数，以优化最大似然目标，该最大似然目标取决于在每个时间步分配给正确的输出令牌的得分。

另外，在一些实施方式中，在训练期间，系统还将输入序列中的下一个令牌的预测包括在最大似然目标中。换句话说，在训练期间，解码器还针对每个输入位置生成关于输入序列中的之前位置处的输入令牌为条件的可能输入令牌的得分分布。然后，系统将分配给每个输入位置处的正确输入令牌的得分包括在最大似然目标中。这样做，模型被迫准确地预测输入中的下一个令牌以及输出中的下一个令牌，并且在训练期间中从输入和输出位置传播误差信号，从而在模型被训练后改善模型的性能。

本说明书连同系统和计算机程序组件一起使用术语“被配置”。对于要被配置成执行特定操作或动作的一个或多个计算机的系统意指系统已在其上安装了在操作中使该系统执行这些操作或动作的软件、固件、硬件或软件、固件、硬件的组合。对于要被配置成执行特定操作或动作的一个或多个计算机程序意指该一个或多个程序包括指令，所述指令当由数据处理装置执行时，使该装置执行操作或动作。

本说明书中描述的主题和功能操作的实施例可用数字电子电路、用有形地具体实现的计算机软件或固件、用包括本说明书中公开的结构及其结构等同物的计算机硬件或者用它们中的一个或多个的组合来实现。本说明书中描述的主题的实施例可作为一个或多个计算机程序被实现，所述一个或多个计算机程序即在有形非暂时性存储介质上编码以供由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或多个模块。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行访问存储设备或它们中的一个或多个的组合。替换地或此外，可将程序指令编码在人工生成的传播信号上，所述传播信号例如是机器生成的电、光或电磁信号，该传播信号被生成来对信息进行编码以用于传输到适合的接收器装置以供由数据处理装置执行。

术语“数据处理装置”指代数据处理硬件并且包含用于处理数据的所有种类的装置、设备和机器，作为示例包括可编程处理器、计算机或多个处理器或计算机。装置还可以是或者进一步包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。装置除了包括硬件之外还可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

也可以被称为或者描述为程序、软件、软件应用、app、模块、软件模块、脚本或代码的计算机程序可用包括编译或解释语言或声明或过程语言的任何形式的编程语言编写；并且它可被以任何形式部署，包括作为独立程序或者作为模块、组件、子例行程序或适合于在计算环境中使用的其它单元。程序可以但是不必对应于文件系统中的文件。程序可以被存储在保持其它程序或数据的文件的一部分中，例如存储在标记语言文档中的一个或多个脚本；在专用于所述程序的单个文件中或者在多个协调文件中，例如存储代码的一个或多个模块、子程序或部分的文件。可将计算机程序部署成在一个计算机上或者在位于一个站点处或者分布在多个站点上并通过数据通信网络互连的多个计算机上执行。

在本说明书中，术语“数据库”广泛地用于指代任何数据集：数据不需要被以任何特定方式构造，或者根本不构造，并且它可被存储在一个或多个位置中的存储设备上。因此，例如，索引数据库可包括多个数据集，其中的每一个可以被不同地组织和访问。

类似地，在本说明书中术语“引擎”广泛地用于指代被编程来执行一个或多个具体功能的基于软件的系统、子系统或过程。通常，引擎将作为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件被实现。在一些情况下，一个或多个计算机将专用于特定引擎；在其它情况下，可在同一计算机或多个计算机上安装并运行多个引擎。

本说明书中描述的过程和逻辑流程可由执行一个或多个计算机程序的一个或多个可编程计算机执行以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程还可由例如是FPGA或ASIC的专用逻辑电路执行，或者通过专用逻辑电路和一个或多个编程计算机的组合来执行。

适合于执行计算机程序的计算机可基于通用微处理器或专用微处理器或两者，或任何其它种类的中央处理器。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行或者实行指令的中央处理单元以及用于存储指令和数据的一个或多个存储设备。中央处理单元和存储器可由专用逻辑电路补充或者并入在专用逻辑电路中。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，或者操作上被耦合以从所述一个或多个大容量存储设备接收数据或者将数据传送到所述一个或多个大容量存储设备，或者两者以用于存储数据。然而，计算机不必具有这样的设备。此外，计算机可被嵌入在另一设备中，所述另一设备例如是移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制器、全球定位系统(GPS)接收器或便携式存储设备，例如通用串行总线(USB)闪存驱动器等。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，作为示例包括半导体存储设备，例如EPROM、EEPROM和闪速存储器设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD ROM和DVD-ROM盘。

为了提供与用户的交互，可在计算机上实现本说明书中描述的主题的实施例，所述计算机具有用于向用户显示信息的显示设备以及用户可用来向该计算机提供输入的键盘和定点设备，所述显示设备例如是CRT(阴极射线管)或LCD(液晶显示器)监视器，所述定点设备例如是鼠标或轨迹球。其它种类的设备也可用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以任何形式接收来自用户的输入，包括声、语音或触觉输入。此外，计算机可通过向由用户使用的设备发送文档并从由用户使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收到请求而向用户的设备上的web浏览器发送网页。另外，计算机可通过向个人设备发送文本消息或其它形式的消息并且继而从用户接收响应消息来与用户交互，所述个人设备例如是正在运行消息传送应用的智能电话。

用于实现机器学习模型的数据处理装置还可包括例如用于处理机器学习训练或生产——即推理，工作负载——的公共和计算密集部分的专用硬件加速器单元。

可使用机器学习框架来实现和部署机器学习模型。所述机器学习框架例如是TensorFlow框架、Microsoft Cognitive Toolkit框架、Apache Singa框架或Apache MXNet框架。

本说明书中描述的主题的实施例可被实现在计算系统中，所述计算系统包括后端组件，例如作为数据服务器；或者包括中间件组件，例如应用服务器；或者包括前端组件，例如具有用户可用来与本说明书中描述的主题的实现方式交互的图形用户界面、web浏览器或app的客户端计算机；或者包括一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可通过例如通信网络的任何形式或介质的数字数据通信来互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如互联网。

计算系统可包括客户端和服务器。客户端和服务器一般地彼此远离并通常通过通信网络来交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中，服务器向用户设备传输例如HTML页面的数据例如以用于向与作为客户端的设备交互的用户显示数据并从该用户接收用户输入的目的。可在服务器处从设备接收在用户设备处生成的数据，例如，用户交互的结果。

虽然本说明书包含许多具体实施方式细节，但是这些不应该被解释为对任何发明的或可能要求保护的范围的限制，而是相反地被解释为对可能特定于特定发明的特定实施例的特征的描述。也可在单个实施例中组合地实现在本说明书中在单独的实施例的上下文中描述的某些特征。相反地，也可单独地或者按照任何适合的子组合在多个实施例中实现在单个实施例的上下文中描述的各种特征。此外，尽管特征可能在上面被描述按照某些组合起作用并且甚至最初被如此要求保护，但是来自要求保护的组合的一个或多个特征可在一些情况下被从该组合中除去，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然按照特定次序在附图中描绘并在权利要求书中记载操作，但是这不应该被理解为要求按照所示的特定次序或者按照顺序次序执行这样的操作，或者要求执行所有图示的操作以实现所预期的结果。在某些情况下，多任务处理和并行处理可以是有利的。此外，上述实施例中的各种系统模块和组件的分离不应该被理解为在所有实施例中要求这样的分离，并且应该理解的是，所描述的程序组件和系统一般地可被一起集成在单个软件产品中或者包装到多个软件产品中。

已描述了主题的特定实施例。其它实施例在所附权利要求的范围内。例如，权利要求中记载的动作可被以不同的次序执行并仍然实现所预期的结果。作为一个示例，附图中描绘的过程不一定要求所示的特定次序或顺序次序以实现所预期的结果。在一些情况下，多任务处理和并行处理可以是有利的。

Claims

1.一种从包括多个输入令牌的输入序列生成包括多个输出令牌的输出序列的方法，所述方法包括在多个生成时间步中的每个生成时间步处：

为该生成时间步生成包括所述输入序列的组合序列，所述输入序列后面是截至该生成时间步已经生成的输出令牌；

使用自注意力解码器神经网络来处理所述组合序列，其中，所述自注意力解码器神经网络包括多个神经网络层，所述多个神经网络层包括多个掩码的自注意力神经网络层，并且其中，所述自注意力解码器神经网络被配置成通过所述多个神经网络层来处理所述组合序列以生成时间步输出，所述时间步输出定义关于可能输出令牌集合的得分分布；以及

使用所述时间步输出从所述可能输出令牌集合中选择输出令牌作为所述输出序列中的下一个输出令牌。

2.根据权利要求1所述的方法，其中，所述掩码的自注意力神经网络层被掩码，使得所述时间步输出仅取决于所述输入序列和截至该生成时间步已经生成的输出令牌，并且不取决于在所述输出序列中已经生成的最后一个令牌之后的任何输出令牌。

3.根据权利要求1或2中的任意一项所述的方法，其中，所述输入序列和截至该生成时间步已经生成的输出令牌由所述组合序列中的预定特殊分隔符令牌分隔。

4.根据权利要求1-3中的任意一项所述的方法，其中，所述多个掩码的自注意力神经网络层是掩码的多头注意力层。

5.根据权利要求1-4中的任意一项所述的方法，其中，所述多个掩码的自注意力神经网络层包括至少一个局部注意力层，并且其中，每个局部注意力层包括局部注意力子层，所述局部注意力子层被配置成：

接收包括多个层输入的层输入序列；

将所述层输入序列划分成多个子序列；

针对子序列，通过对所述子序列中的所述层输入执行自注意力来生成子序列输出；并且

合并所述子序列输出以生成层输出序列。

6.根据权利要求1-5中的任意一项所述的方法，其中，所述多个掩码的自注意力神经网络层包括至少一个存储器压缩注意力层，并且其中，每个存储器压缩注意力层包括存储器压缩子层，所述存储器压缩子层被配置成：

获得包括多个键、值和查询的注意力输入；

对所述键应用跨步卷积以生成减少的键集合；

对所述值应用跨步卷积以生成减少的值集合；

通过使用所述减少的键集合、所述减少的值集合和所述多个查询执行自注意力来生成层输出序列。

7.根据权利要求6所述的方法，其中，获得所述注意力输入包括：

接收包括多个层输入的层输入序列；和

使用相应的投影矩阵来将所述层输入序列投影到所述键、所述值和所述查询。

8.根据权利要求1至7中的任意一项所述的方法，其中，所述输入序列包括来自多个文档的文本，并且其中，所述输出序列是概括所述多个文档的文本。

9.根据权利要求8所述的方法，其中，所述输入序列还包括指定所述多个文档所涉及的主题的文本。

10.根据权利要求1至9中的任意一项所述的方法，还包括：

确定该时间步的所选择的输出是预定的序列结束令牌；和

作为响应，提供截至该生成时间步已经生成的所述输出令牌作为所述输入序列的最终输出序列。

11.根据权利要求1至10中的任意一项所述的方法，其中，所述多个神经网络层包括一个或多个专家混合层。

12.一种系统，包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1-11中的任意一项所述的方法的操作。

13.一个或多个存储指令的计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1-11中的任意一项所述的方法的操作。