CN110192206A

CN110192206A - 基于注意力的序列转换神经网络

Info

Publication number: CN110192206A
Application number: CN201880007309.XA
Authority: CN
Inventors: N.M.沙泽尔; A.N.戈梅兹; L.M.凯瑟; J.D.乌兹科雷特; L.O.琼斯; N.J.帕马; I.波洛苏金; A.T.瓦斯瓦尼
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-05-23
Filing date: 2018-05-23
Publication date: 2019-08-30
Also published as: JP7423828B2; RU2749945C1; JP2021121952A; JP7214784B2; EP3542316A1; US20200372357A1; EP4156030A1; AU2018271931A1; US20180341860A1; US10452978B2; US10719764B2; BR112019014822A2; US20190392319A1; AU2022221389B2; CA3050334C; KR20230151047A; US20210019624A1; KR20190089980A; AU2020213318B2; KR102180002B1

Abstract

用于从输入序列生成输出序列的、包括编码在计算机存储介质上的计算机程序的方法、系统和装置。在一个方面，系统中的一个包括被配置为接收输入序列并生成网络输入的编码表示的编码器神经网络，编码器神经网络包括一个或多个编码器子网的序列，每个编码器子网被配置为接收输入位置中的每一个的各自的编码器子网输入并生成输入位置中的每一个的各自的子网输出，并且每个编码器子网包括：编码器自注意力子层，被配置为接收输入位置中的每一个的子网输入，并且对于按照输入顺序的每个特定输入位置：使用从特定输入位置处的编码器子网输入导出的一个或多个查询，在编码器子网输入上应用注意力机制。

Description

基于注意力的序列转换神经网络

相关申请的交叉引用

本申请是2017年5月23日提交的美国临时专利申请第62/510,256号和2017年8月4日提交的美国临时专利申请第62/541,594号的非临时申请，并要求其优先权。前述申请的全部内容通过引用并入于此。

背景技术

本说明书涉及使用神经网络来转换序列。

神经网络是采用一层或多层非线性单元来预测接收的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一层的输入，即下一隐藏层或输出层的输入。网络的每一层根据各自的参数集中的当前值从接收的输入中生成输出。

发明内容

本说明书描述了被实施为一个或多个位置处的一个或多个计算机上的计算机程序的系统，该系统从输入序列生成输出序列，即，将输入序列转换成输出序列，该输出序列包括按照输出顺序的多个位置中的每一个位置处的各自的输出，该输入序列包括按照输入顺序的多个位置中的每一个位置处的各自的输入。具体地，该系统使用编码器神经网络和解码器神经网络生成输出序列，这两种神经网络都是基于注意力(attention-based)的。

可以实施本说明书中描述的主题的特定实施例，以便实现一个或多个以下优点。

使用神经网络的序列转换的许多现有方法在编码器和解码器两者中都使用递归神经网络。虽然这些类型的网络可以在序列转换任务上获得良好的性能，但是它们的计算在本质上是顺序的，即递归神经网络以递归神经网络在前述时间步骤上的隐藏状态为条件在当前时间步骤上生成输出。这种顺序性质排除了并行化，导致训练和推理时间较长，以及相应地利用大量计算资源的工作负载。

另一方面，因为所描述的序列转换神经网络的编码器和解码器是基于注意力的，所以序列转换神经网络可以更快地转换序列，更快地被训练，或者两者兼有，因为网络的操作可以更容易地并行化。也就是说，因为所描述的序列转换神经网络完全依赖于注意力机制来得出输入和输出之间的全局依赖性，并且不采用任何递归神经网络层，所以由递归神经网络层的顺序性质引起的训练和推理时间长以及资源使用高的问题得以缓解。

此外，序列转换神经网络可以比基于卷积层或递归层的现有网络更精确地转换序列，即使训练和推理时间更短。具体地，在传统模型中，将来自两个任意输入或输出位置的信号相关联所需的操作数量随着位置之间的距离而增加，例如，取决于模型体系结构线性地或对数地增加。这使得在训练期间学习远处位置之间的依赖性变得更加困难。在目前描述的序列转换神经网络中，由于在不依赖于递归或卷积的同时使用注意力(并且具体地，自注意力)，操作的数量减少到恒定数量的操作。自注意力(self-attention)，有时称为内部注意力(intra-attention)，是将单个序列的不同位置相关联以便计算序列的表示的注意力机制。注意力机制的使用允许序列转换神经网络在训练期间有效地学习远处位置之间的依赖性，提高序列转换神经网络在各种转换任务(例如机器翻译)上的准确性。实际上，所描述的序列转换神经网络可以在机器翻译任务上获得最先进的结果，尽管比传统的机器翻译神经网络更容易训练和更快生成输出。通过使用注意力机制，序列转换神经网络在没有特定任务的调节的情况下也可以表现出优于传统的机器翻译神经网络的性能。

本说明书主题的一个或多个实施例的细节在附图和以下描述中阐述。从说明书、附图和权利要求书中，主题的其他特征、方面和优点将变得显而易见。

附图说明

图1示出示例神经网络系统。

图2是示出由编码器神经网络和解码器神经网络的子网中的注意力(attention)子层所应用的注意力机制的图。

图3是用于从输入序列生成输出序列的示例过程的流程图。

各个附图中相似的附图标记和名称指示相似的元件。

具体实施方式

本说明书描述了被实施为一个或多个位置处的一个或多个计算机上的计算机程序的系统，该系统从输入序列生成输出序列，即，将输入序列转换成输出序列，该输出序列包括按照输出顺序的多个位置中的每一个位置处的各自的输出，该输入序列包括按照输入顺序的多个位置中的每一个位置处的各自的输入。

例如，该系统可以是神经机器翻译系统。也就是说，如果输入序列是用原始语言的单词序列，例如句子或短语，则输出序列可以是输入序列到目标语言的翻译，即用目标语言的单词序列，其表示用原始语言的单词序列。

作为另一示例，该系统可以是语音识别系统。也就是说，如果输入序列是表示所说的话语的音频数据序列，则输出序列可以是表示该话语的字形、字符或单词序列，即输入序列的转录。

作为另一示例，该系统可以是自然语言处理系统。例如，如果输入序列是用原始语言的单词序列，例如句子或短语，则输出序列可以是用原始语言的输入序列的摘要，即比输入序列具有更少单词但保留输入序列基本含义的序列。作为另一示例，如果输入序列是形成问题的单词序列，则输出序列可以是形成对该问题的答案的单词序列。

作为另一示例，该系统可以是计算机辅助医疗诊断系统的一部分。例如，输入序列可以是来自电子病历的数据序列，并且输出序列可以是预测治疗的序列。

作为另一示例，该系统可以是图像处理系统的一部分。例如，输入序列可以是图像，即来自图像的颜色值的序列，并且输出可以是描述该图像的文本的序列。作为另一示例，输入序列可以是文本的序列或不同的上下文，并且输出序列可以是描述该上下文的图像。

具体地，神经网络包括编码器神经网络和解码器神经网络。一般地，编码器和解码器两者都是基于注意力的，即，在转换输入序列时，两者都在它们各自的接收的输入上应用注意力机制。在某些情况下，编码器和解码器都不包括任何卷积层或任何递归层。

图1示出了示例神经网络系统100。神经网络系统100是被实施为在一个或多个位置处的一个或多个计算机上的计算机程序的系统的示例，其中可以实施下面描述的系统、组件和技术。

神经网络系统100接收输入序列102，并处理输入序列102，以将输入序列102转换成输出序列152。

输入序列102具有按照输入顺序的多个输入位置中的每一个位置处的各自的网络输入，并且输出序列152具有按照输出顺序的多个输出位置中的每一个位置处的各自的网络输出。即，输入序列102具有根据输入顺序排列的多个输入，并且输出序列152具有根据输出顺序排列的多个输出。

如上所述，神经网络系统100可以执行需要处理顺序输入以生成顺序输出的各种任务中的任何一种。

神经网络系统100包括基于注意力的序列转换神经网络108，序列转换神经网络108进而包括编码器神经网络110和解码器神经网络150。

编码器神经网络110被配置为接收输入序列102，并生成输入序列中的每个网络输入的各自的编码表示。一般地，编码表示是向量或其他有序的数值的集合。

解码器神经网络150然后被配置为使用网络输入的编码表示来生成输出序列152。

一般地，以及如下面将更详细描述的，编码器110和解码器150两者都是基于注意力的。在某些情况下，编码器和解码器都不包括任何卷积层或任何递归层。

编码器神经网络110包括嵌入层120和一个或多个编码器子网130的序列。具体地，如图1所示，编码器神经网络包括N个编码器子网130。

嵌入层120被配置为，对于输入序列中的每个网络输入，将网络输入映射到嵌入空间中的网络输入的数值表示，例如，映射到嵌入空间中的向量。嵌入层120然后将网络输入的数值表示提供给编码器子网130的序列中的第一子网，即，提供给N个编码器子网130中的第一编码器子网130。

具体地，在一些实施方式中，嵌入层120被配置为将每个网络输入映射到网络输入的嵌入表示，并且然后将网络输入的嵌入表示与网络输入的输入位置的位置嵌入按照输入顺序进行组合(例如，求和或求平均)以生成网络输入的组合嵌入表示。也就是说，输入序列中的每个位置具有相应的嵌入，并且对于每个网络输入，嵌入层120将输入序列中网络输入的嵌入表示与网络输入的位置嵌入进行组合。这种位置嵌入可以使模型充分利用输入序列的顺序，而不依赖于递归或卷积。

在某些情况下，位置嵌入被学习。如在本说明书中所使用的，术语“被学习”意味着在序列转换神经网络108的训练期间已经调整了操作或值。下面参照图3描述训练序列转换神经网络108。

在其他一些情况下，位置嵌入是固定的，并且对于每个位置是不同的。例如，嵌入可以由不同频率的正弦和余弦函数组成，并且可以满足：

其中pos是位置，i是位置嵌入内的维度(dimension)，以及d_model是位置嵌入的维数(dimensionality)(以及由神经网络108处理的其他向量的维数)。正弦位置嵌入的使用可以允许模型外推(extrapolate)至更长的序列长度，这可以增加可以采用该模型的应用的范围。

然后，组合的嵌入表示被用作网络输入的数值表示。

编码器子网130中的每一个编码器子网被配置为接收多个输入位置中的每一个输入位置的各自的编码器子网输入，并为多个输入位置中的每一个输入位置生成各自的子网输出。

序列中由最后的编码器子网生成的编码器子网输出随后被用作网络输入的编码表示。

对于序列中的第一编码器子网，编码器子网输入是由嵌入层120生成的数值表示，并且对于序列中除第一编码器子网之外的每个编码器子网，编码器子网输入是序列中在前的编码器子网的编码器子网输出。

每个编码器子网130包括编码器自注意力子层132。编码器自注意力子层132被配置为接收多个输入位置中的每一个输入位置的子网输入，并且对于按照输入顺序的每个特定输入位置，使用从特定输入位置处的编码器子网输入导出的一个或多个查询，在输入位置处的编码器子网输入上应用注意力机制，以生成特定输入位置的各自的输出。在某些情况下，注意力机制是多头(multi-head)注意力机制。下面将参考图2更详细地描述注意力机制以及编码器自注意力子层132如何应用注意力机制。

在一些实施方式中，编码器子网130中的每一个还包括残余连接层(residualconnection layer)和层归一化层(layer normalization layer)，残余连接层将编码器自注意力子层的输出与编码器自注意力子层的输入进行组合以生成编码器自注意力残余输出，层归一化层将层归一化应用于编码器自注意力残余输出。这两个层在图1中统称为“添加和归一化(Add&Norm)”操作。

编码器子网中的一些或所有还可以包括按位置前馈层(position-wise feed-forward layer)134，按位置前馈层134被配置为在输入序列中的每个位置上分开操作。具体地，对于每个输入位置，前馈层134被配置为接收输入位置处的输入，并将变换的序列(asequence of transformation)应用于输入位置处的输入以生成输入位置的输出。例如，该变换的序列可以包括两个或更多学习的线性变换，每个学习的线性变换由激活函数(例如，非线性按元素激活函数，例如ReLU激活函数)分开，这可以允许在大型和复杂数据集上更快和更有效的训练。当包括残余和层归一化层时由按位置前馈层134接收的输入可以是层归一化层的输出，或者当不包括残余和层归一化层时由按位置前馈层134接收的输入可以是编码器自注意力子层132的输出。由层134应用的变换对于每个输入位置一般是相同的(但是不同子网中的不同前馈层将应用不同的变换)。

在编码器子网130包括按位置前馈层134的情况下，编码器子网还可以包括残余连接层和层归一化层，残余连接层将按位置前馈层的输出与按位置前馈层的输入进行组合以生成编码器按位置残余输出，层归一化层将层归一化应用于编码器按位置残余输出。这两个层在图1中也被统称为“添加和归一化”操作。然后，层归一化层的输出可以用作编码器子网130的输出。

一旦编码器神经网络110已经生成编码表示，解码器神经网络150就被配置为以自回归(auto-regressive)方式生成输出序列。

也就是说，解码器神经网络150通过在多个生成时间步骤中的每一个步骤处，以(i)编码表示和(ii)按照输出顺序的输出位置之前的输出位置处的网络输出为条件生成相应的输出位置的网络输出，来生成输出序列。

具体地，对于给定的输出位置，解码器神经网络生成定义给定输出位置处可能的网络输出上的概率分布的输出。解码器神经网络然后可以通过从概率分布中采样或者通过选择具有最高概率的网络输出来为输出位置选择网络输出。

因为解码器神经网络150是自回归的，所以在每个生成时间步骤，解码器150对在生成时间步骤之前已经生成的网络输出进行操作，即，对按照输出顺序的相应的输出位置之前的输出位置处的网络输出进行操作。在一些实施方式中，为了确保推理和训练期间都是这种情况，在每个生成时间步骤处，解码器神经网络150将已经生成的网络输出向右移位一个输出顺序位置(即，将一个位置偏移引入到已经生成的网络输出序列中)，并且(如将在下面更详细描述的)屏蔽(mask)某些操作，使得位置只能关注输出序列中直到并包括该位置的位置(而不是后续位置)。虽然以下描述的其余部分描述了，当在给定输出位置生成给定输出时，解码器150的各种组件对给定输出位置之前的输出位置处的数据进行操作(而不是对任何其他输出位置处的数据进行操作)，但是应当理解，这种类型的调节(conditioning)可以使用上述移位来有效地实现。

解码器神经网络150包括嵌入层160、解码器子网170的序列、线性层180和softmax层190。具体地，如图1所示，解码器神经网络包括N个解码器子网170。然而，虽然图1的示例示出包括相同数量的子网的编码器110和解码器150，但是在一些情况下，编码器110和解码器150包括不同数量的子网。也就是说，解码器150可以包括比编码器110更多或更少的子网。

嵌入层160被配置为，在每个生成时间步骤处，对于按照输出顺序的在当前输出位置之前的输出位置处的每个网络输出，将网络输出映射到嵌入空间中的网络输出的数值表示。嵌入层160然后将网络输出的数值表示提供给解码器子网的序列中的第一子网170，即提供给N个解码器子网中的第一解码器子网170。

具体地，在一些实施方式中，嵌入层160被配置为将每个网络输出映射到网络输出的嵌入表示，并将网络输出的嵌入表示与网络输出的输出位置的位置嵌入按照输出顺序进行组合，以生成网络输出的组合嵌入表示。然后，组合嵌入表示被用作网络输出的数值表示。嵌入层160以与上面参考嵌入层120描述的相同方式生成组合嵌入表示。

每个解码器子网170被配置为：在每个生成时间步骤处，接收相应的输出位置之前的多个输出位置中的每一个输出位置的各自的解码器子网输入，并且为相应的输出位置之前的多个输出位置中的每一个输出位置生成各自的解码器子网输出(或者等同地，当输出序列已经向右移位，每个网络输出在直到并包括当前输出位置的位置)。

具体地，每个解码器子网170包括两个不同的注意力子层：解码器自注意力子层172和编码器-解码器注意力子层174。

每个解码器自注意力子层172被配置为，在每个生成时间步骤处，接收相应的输出位置之前的每个输出位置的输入，并且对于每个特定输出位置，使用从特定输出位置处的输入导出的一个或多个查询，在相应的位置之前的输出位置处的输入上应用注意力机制，以生成特定输出位置的更新表示。也就是说，解码器自注意力子层172应用被屏蔽的注意力机制，使得它不关注或处理不在输出序列中当前输出位置之前的位置的任何数据。

另一方面，每个编码器-解码器注意力子层174被配置为，在每个生成时间步骤处，接收相应的输出位置之前的每个输出位置的输入，并且对于输出位置中的每一个输出位置，使用从输出位置的输入导出的一个或多个查询，在输入位置处的编码表示上应用注意力机制，以生成输出位置的更新表示。因此，编码器-解码器注意力子层174对编码表示应用注意力，而编码器自注意力子层172对输出位置处的输入应用注意力。

下面将参考图2更详细地描述这些注意力子层中的每一个所应用的注意力机制。

在图1中，解码器自注意力子层172被示为在解码器子网170内的处理顺序中位于编码器-解码器注意力子层之前。然而，在其他示例中，解码器自注意力子层172可以在解码器子网170内的处理顺序中位于编码器-解码器注意力子层174之后，或者不同的子网可以具有不同的处理顺序。

在一些实施方式中，在解码器自注意力子层172之后、在编码器-解码器注意力子层174之后、或者在两个子层中的每一个之后，每个解码器子网170包括残余连接层和层归一化层，残余连接层将注意力子层的输出与注意力子层的输入进行组合以生成残余输出，层归一化层将层归一化应用于残余输出。图1示出了在两个子层中的每一个之后插入的这两个层，这两个层都被称为“添加和归一化”操作。

解码器子网170的一些或全部还包括被配置为以与来自编码器110的按位置前馈层134类似的方式操作的按位置前馈层176。具体地，层176被配置为在每个生成时间步骤处：对于相应的输出位置之前的每个输出位置：接收在输出位置处的输入，并且对在输出位置处的输入上应用变换的序列以生成输出位置的输出。例如，变换的序列可以包括两个或更多学习的线性变换，每个学习的线性变换由激活函数(例如，非线性按元素激活函数，例如ReLU激活函数)分开。当包括残余和层归一化层时由按位置前馈层176接收的输入可以是层归一化层(在子网络170中的最后的注意力子层之后)的输出，或者当不包括残余和层归一化层时由按位置前馈层176接收的输入可以是子网170中的最后的注意力子层的输出。

在解码器子网170包括按位置前馈层176的情况下，解码器子网还可以包括残余连接层和层归一化层，残余连接层将按位置前馈层的输出与对按位置前馈层的输入进行组合以生成解码器按位置残余输出，层归一化层将层归一化应用于解码器按位置残余输出。这两个层在图1中也被统称为“添加和归一化”操作。然后，层归一化层的输出可以用作解码器子网170的输出。

在每个生成时间步骤处，线性层180将学习的线性变换应用于最后的解码器子网170的输出，以便将最后的解码器子网170的输出投影到适当的空间中以供softmax层190处理。softmax层190然后在线性层180的输出上应用softmax函数以在生成时间步骤处生成可能的网络输出上的概率分布。如上所述，解码器150然后可以使用概率分布从可能的网络输出中选择网络输出。

图2是示出由编码器神经网络110和解码器神经网络150的子网中的注意力子层所应用的注意力机制的图200。

一般地，注意力机制将查询以及键-值对(key-value pair)集合映射到输出，其中查询、键和值都是向量。输出被计算为值的加权总和，其中分配给每个值的权重由具有相应的键的查询的兼容性函数来计算。

更具体地，每个注意力子层应用缩放的点积注意力机制230。在缩放的点积注意力中，对于给定的查询，注意力子层计算具有所有键的查询的点积，用缩放因子(例如，用查询和键的维度的平方根)除(divide)点积中每一个，然后对缩放的点积应用softmax函数以获得值上的权重。注意力子层然后根据这些权重计算值的加权总和。因此，对于缩放的点积注意力，兼容性函数是点积，并且兼容性函数的输出被缩放因子进一步缩放。

在操作中，并且如图2左手侧所示，注意力子层同时计算查询的集合的注意力。具体地，注意力子层将查询打包成矩阵Q，将键打包成矩阵K，并将值打包成矩阵V。为了将向量的集合打包成矩阵，注意力子层可以生成包括作为矩阵行的向量的矩阵。

注意力子层然后在矩阵Q和矩阵K的转置之间执行矩阵乘法(MatMul)，以生成兼容性函数输出的矩阵。

注意力子层然后缩放兼容性函数输出矩阵，即通过用缩放因子除矩阵的每个元素。

注意力子层然后在缩放后的输出矩阵上应用softmax，以生成权重矩阵，并在权重矩阵和矩阵V之间执行矩阵乘法(MatMul)，以生成包括每个值的注意力机制的输出的输出矩阵。

对于使用屏蔽的子层(即解码器注意力子层)，注意力子层在应用softmax之前屏蔽缩放的输出矩阵。也就是说，注意力子层屏蔽掉(设置为负无穷大)缩放输出矩阵中与当前输出位置之后的位置相对应的所有值。

在一些实施方式中，为了允许注意力子层共同关注来自不同位置处的不同表示子空间的信息，注意力子层采用多头注意力，如图2的右侧所示。

具体地，为了实施多头注意力，注意力子层并行应用h个不同的注意力机制。换句话说，注意力子层包括h个不同的注意力层，同一注意力子层内的每个注意力层接收相同的原始查询Q、原始键K和原始值V

每个注意力层被配置为使用学习的线性变换来变换原始查询、键和值，并且然后将注意力机制230应用于变换后的查询、键和值。每个注意力层一般会从相同的注意力子层中的每个其它注意力层学习不同的变换。

具体地，每个注意力层被配置为将学习的查询线性变换应用于每个原始查询以生成每个原始查询的层特定查询，将学习的键线性变换应用于每个原始键以生成每个原始键的层特定键，并将学习的值线性变换应用于每个原始值以生成每个原始值的层特定值。然后，注意力层使用这些层特定的查询、键和值来应用上述注意力机制以生成注意力层的初始输出。

注意力子层然后组合注意力层的初始输出以生成注意力子层的最终输出。如图2所示，注意力子层将注意力层的输出进行连结(concat)，并将学习的线性变换应用于连结的输出以生成注意力子层的输出。

在某些情况下，由注意力子层应用的学习的变换降低了原始键和值的维数，并且可选地降低了查询的维数。例如，当原始键、值和查询的维数是d并且在子层中有h个注意力层时，子层可以将原始键、值和查询的维数降低到d/h。这使得多头注意力机制的计算成本保持类似于在完全维数下执行一次注意力机制的成本，同时增加注意力子层的代表性容量。

虽然每个注意力子层所应用的注意力机制是相同的，但是对于不同类型的注意力，查询、键和值是不同的。也就是说，不同类型的注意力子层对于由注意力子层接收作为输入的原始查询、键和值使用不同的源。

具体地，当注意力子层是编码器自注意力子层时，所有的键、值和查询来自相同的地方，在这种情况下，来自编码器中的先前子网的输出，或者，对于第一子网中的编码器自注意力子层，输入的嵌入和编码器中的每个位置可以关注按照输入顺序的所有位置。因此，存在对于按照输入顺序的每个位置的各自的键、值和查询。

当注意力子层是解码器自注意力子层时，解码器中的每个位置关注解码器中的该位置之前的所有位置。因此，所有的键、值和查询来自相同的地方，在这种情况下，来自解码器中的先前子网的输出，或者，对于第一解码器子网中的解码器自注意力子层，来自已经生成的输出的嵌入。因此，存在对于按照输出顺序的当前位置之前的每个位置的各自的键、值和查询。

当注意力子层是编码器-解码器注意力子层时，查询来自解码器中的先前的组件，并且键和值来自编码器的输出，即来自编码器生成的编码表示。这允许解码器中的每个位置注意力输入序列中的所有位置。因此，对于按照输出顺序的当前位置之前的每个位置存在每一个的各自的查询，并且对于按照输入顺序的每个位置存在每一个的各自的键和各自的值。

更详细地，当注意力子层是编码器自注意力子层时，对于按照输入顺序的每个特定输入位置，编码器自注意力子层被配置为使用从特定输入位置处的编码器子网输入导出的一个或多个查询，在输入位置处的编码器子网输入上应用注意力机制，以生成特定输入位置的各自的输出。

当编码器自注意力子层实施多头注意力时，编码器自注意力子层中的每个编码器自注意力层被配置为：将学习的查询线性变换应用于每个输入位置处的每个编码器子网输入以生成每个输入位置的各自的查询，将学习的键线性变换应用于每个输入位置处的每个编码器子网输入以生成每个输入位置的各自的键，将学习的值线性变换应用于每个输入位置处的每个编码器子网输入以生成每个输入位置的各自的值，并且然后使用查询、键和值来应用注意力机制(即，上述缩放的点积注意力机制)，以确定每个输入位置的初始编码器自注意力输出。子层然后如上所述组合注意力层的初始输出。

当注意力子层是解码器自注意力子层时，解码器自注意力子层被配置为在每个生成时间步骤处：接收相应的输出位置之前的每个输出位置的输入，并且对于每个特定输出位置，使用从特定输出位置处的输入导出的一个或多个查询，在相应的位置之前的输出位置处的输入上应用注意力机制，以生成特定输出位置的更新表示。

当解码器自注意力子层实施多头注意力时，解码器自注意力子层中的每个注意力层被配置为在每个生成时间步骤处，将学习的查询线性变换应用于相应的输出位置之前的每个输出位置处的输入以生成每个输出位置的各自的查询，将学习的键线性变换应用于相应的输出位置之前的每个输出位置处的每个输入以生成每个输出位置的各自的键，将学习的值线性变换应用于相应的输出位置之前的每个输出位置处的每个输入以生成每个输出位置的各自的键，并且然后使用查询、键和值来应用注意力机制(即，上述缩放的点积注意力机制)，以确定每个输出位置的初始解码器自注意力输出。子层然后如上所述组合注意力层的初始输出。

当注意力子层是编码器-解码器注意力子层时，编码器-解码器注意力子层被配置为在每个生成时间步骤处：接收相应的输出位置之前的每个输出位置的输入，并且对于每个输出位置，使用从输出位置的输入导出的一个或多个查询，在输入位置处的编码表示上应用注意力机制，以生成输出位置的更新表示。

当编码器-解码器注意力子层实施多头注意力时，每个注意力层被配置为在每个生成时间步骤处：将学习的查询线性变换应用于相应的输出位置之前的每个输出位置处的输入以生成每个输出位置的各自的查询，将学习的键线性变换应用于每个输入位置处的每个编码表示以生成每个输入位置的各自的键，将学习的值线性变换应用于每个输入位置处的每个编码表示以生成每个输入位置的各自的值，并且然后使用查询、键和值来应用注意力机制(即，上述缩放的点积注意力机制)，以确定每个输入位置的初始编码器-解码器注意力输出。子层然后如上所述组合注意力层的初始输出。

图3是用于从输入序列生成输出序列的示例过程的流程图。为方便起见，过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书适当编程的神经网络系统(例如，图1的神经网络系统100)可以执行过程300。

系统接收输入序列(步骤310)。

系统使用编码器神经网络处理输入序列以生成输入序列中的每个网络输入的各自的编码表示(步骤320)。具体地，系统通过嵌入层处理输入序列，以生成每个网络输入的嵌入表示，并且然后通过编码器子网的序列来处理嵌入表示，以生成网络输入的编码表示。

系统使用解码器神经网络处理编码表示以生成输出序列(步骤330)。解码器神经网络被配置为以自回归方式从编码表示生成输出序列。也就是说，解码器神经网络在每个生成时间步骤处从输出序列生成一个输出。在正在生成给定输出的给定生成时间步骤处，系统通过解码器中的嵌入层处理输出序列中给定输出之前的输出，以生成嵌入表示。然后，系统通过解码器子网的序列、线性层和softmax层处理嵌入表示，以生成给定的输出。因为解码器子网包括编码器-解码器注意力子层以及解码器自注意力子层，所以当生成给定输出时，解码器利用已经生成的输出和编码表示两者。

系统可以对针对不知其所需输出(即，系统针对输入序列应该生成的输出序列)的输入序列执行过程300。

为了训练编码器和解码器来确定编码器和解码器的参数的训练值，系统还可以对训练数据集(即，输入集，其中已知系统针对其应该生成的输出序列)中的输入序列执行过程300。过程300可以作为传统的机器学习训练技术的一部分对从训练数据集中选择的输入重复地执行以训练初始神经网络层，例如，使用传统优化器(例如，亚当(Adam)优化器)的反向传播训练技术的梯度下降。在训练期间，系统可以并入任何数量的技术来提高训练过程的速度、效率或两者。例如，系统可以使用漏码(dropout)、标记平滑或两者来减少过度拟合。作为另一示例，系统可以使用并行训练序列转换神经网络的多个实例的分布式架构来执行训练。

本说明书结合系统和计算机程序组件来使用术语“配置”。对于被配置为执行特定的操作或动作的一个或多个计算机的系统，这意味着系统已经在其上安装了软件、固件、硬件或它们的组合，这些软件、固件、硬件或它们的组合在操作中使得系统执行操作或动作。对于被配置为执行特定操作或动作的一个或多个计算机程序，这意味着一个或多个程序包括指令，当指令由数据处理装置执行时使得该装置执行操作或动作。

本说明书中描述的主题和功能操作的实施例可以在数字电子电路、有形体现的计算机软件或固件、计算机硬件(包括本说明书中公开的结构及其结构等同物)、或者在它们中的一个或多个的组合中实施。本说明书中描述的主题的实施例可以实施为一个或多个计算机程序，即编码在有形的非暂时性存储介质上的计算机程序指令的一个或多个模块，用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基底、随机或串行访问存储器设备、或者它们中的一个或多个的组合。可替换地或附加地，程序指令可以被编码在人工生成的传播信号上(例如，机器生成的电、光或电磁信号)，该传播信号被生成以编码信息，用于传输到合适的接收器装置以由数据处理装置执行。

术语“数据处理装置”指的是数据处理硬件，并且包括用于处理数据的各种装置、设备和机器，包括例如可编程处理器、计算机、或者多个处理器或计算机。该装置还可以是或进一步包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置可以可选地包括为计算机程序创建运行环境的代码，例如，构成处理器固件的代码、协议栈、数据库管理系统、操作系统或者它们中的一个或多个的组合。

也可以被称为或描述为程序、软件、软件应用、应用、模块、软件模块、脚本或代码的计算机程序，可以用任何形式的编程语言编写，包括编译或解释语言，或者声明性或程序性语言；并且它可以以任何形式部署，包括作为独立程序或作为模块、组件、子程序或适合在计算环境中使用的其他单元。程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中，可以存储在专用于所讨论的程序的单个文件中，或者可以存储在多个协调文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。计算机程序可以被部署为在一个计算机上执行或在位于一个站点或跨多个站点分布并通过数据通信网络互连的多个计算机上执行。

在本说明书中，术语“数据库”被广泛用于指代任何数据集合：数据不需要以任何特定的方式结构化，或者根本不需要结构化，并且它可以存储在一个或多个位置的存储设备上。因此，例如，索引数据库可以包括多个数据集合，每个数据集合可以被不同地组织和访问。

类似地，在本说明书中，术语“引擎”被广泛用于指被编程为执行一个或多个特定功能的基于软件的系统、子系统或过程。一般地，引擎将被实施为安装在一个或多个位置的一个或多个计算机上的一个或多个软件模块或组件。在某些情况下，一个或多个计算机将专用于特定的引擎；在其他情况下，可以在相同的计算机上或在多个计算机上安装和运行多个引擎。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程计算机执行，该可编程计算机运行一个或多个计算机程序，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(例如，FPGA或ASIC)，或者由专用逻辑电路和一个或多个编程的计算机的组合来执行。

适于计算机程序的运行的计算机可以基于通用或专用微处理器或两者，或者任何其他类型的中央处理单元。一般地，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或并入到专用逻辑电路中。一般地，计算机还将包括一个或多个用于存储数据的大容量存储设备(例如，磁盘、磁光盘或光盘)，或者被可操作地耦合到这样的大容量存储设备以从其接收数据或向其传送数据或两者兼有。然而，计算机不需要具有这样的设备。此外，计算机可以嵌入到另一设备中，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器或便携式存储设备(例如，通用串行总线(USB)闪存驱动器)，仅举几个示例。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如：半导体存储器设备，例如，EPROM(电可编程序只读存储器)、EEPROM(电可擦可编程只读存储器)和闪存设备；磁盘，例如，内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD ROM盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在计算机上实施，该计算机具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器))，以及用户可以通过其向计算机提供输入的键盘和定点设备(例如，鼠标或轨迹球)。也可以使用其他类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。此外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从网络浏览器接收的请求，向用户设备上的网络浏览器发送网页。此外，计算机可以通过向个人设备(例如，运行消息传递应用的智能手机)发送文本消息或其他形式的消息，并且作为交换从用户接收响应消息来与用户交互。

用于实施机器学习模型的数据处理装置还可以包括，例如，用于处理机器学习训练或生产(即推理、工作负载)的公共和计算密集型部分的专用硬件加速器单元。

机器学习模型可以使用机器学习框架来实施和部署，例如TensorFlow框架、微软认知工具包(Microsoft Cognitive Toolkit)框架、Apache Singa框架或Apache MXNet框架。

本说明书中描述的主题的实施例可以在计算系统中实施，该计算系统包括后端组件(例如，作为数据服务器的后端组件)，或者包括中间件组件(例如，应用服务器)，或者包括前端组件(例如，具有图形用户界面、网络浏览器、或通过其用户可以与本说明书中描述的主题的实施方式交互的应用的客户端计算机)，或者一个或多个这样的后端、中间件或前端组件的任意组合。系统的组件可以通过数字数据通信的任何形式或介质相互连接，例如，通信网络。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如，因特网。

计算系统可以包括客户端和服务器。客户端和服务器一般彼此远离，并且典型地通过通信网络进行交互。客户端和服务器的关系是通过运行在各自的计算机上的并且彼此之间具有客户端-服务器关系计算机程序产生的。在一些实施例中，服务器将数据(例如，HTML页面)传输到用户设备，例如，用于向与充当客户端的设备交互的用户显示数据和从该用户接收用户输入。可以在服务器处从设备接收在用户设备处生成的数据(例如，用户交互的结果)。

虽然本说明书包含许多具体的实施方式细节，但这些不应被解释为对任何发明的范围或可能要求保护的范围的限制，而是对可以特定于特定发明的特定实施例的特征的描述。本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独或以任何合适的子组合来实施。此外，尽管上述特征可以被描述为以某些组合起作用，并且甚至最初被要求如此保护，但是在一些情况下，来自所要求保护的组合的一个或多个特征可以从该组合中删除，并且所要求保护的组合可以指向子组合或子组合的变体。

类似地，虽然在附图中描述了操作，并且在权利要求中以特定顺序叙述了操作，但是这不应该被理解为要求这些操作以所示的特定顺序或顺序执行，或者要求执行所有所示的操作，以获得期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施例中各种系统模块和组件的分离不应理解为在所有实施例中都要求这种分离，并且应理解，所描述的程序组件和系统一般可以集成在单个软件产品中或者打包到多个软件产品中。

已经描述了主题的特定实施例。其他实施例在以下权利要求的范围内。例如，权利要求中叙述的动作可以以不同的顺序执行，并且仍然获得期望的结果。作为一个示例，附图中描述的过程不一定要求所示的特定顺序或顺序来获得期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。

Claims

1.一种包括一个或多个计算机和存储指令的一个或多个存储设备的系统，当所述指令由所述一个或多个计算机执行时，使得所述一个或多个计算机实施用于将具有按照输入顺序的多个输入位置中的每一个输入位置处的各自的网络输入的输入序列转换为具有按照输出顺序的多个输出位置中的每一个输出位置处的各自的网络输出的输出序列的序列转换神经网络，所述序列转换神经网络包括：

编码器神经网络，被配置为接收输入序列并生成输入序列中的每个网络输入的各自的编码表示，所述编码器神经网络包括一个或多个编码器子网的序列，每个编码器子网被配置为接收多个输入位置中的每一个输入位置的各自的编码器子网输入，并生成多个输入位置中的每一个输入位置的各自的子网输出，并且每个编码器子网包括：

编码器自注意力子层，被配置为接收多个输入位置中的每一个输入位置的子网输入，并且对于按照输入顺序的每个特定输入位置：

使用从特定输入位置处的编码器子网输入导出的一个或多个查询，在输入位置处的编码器子网输入上应用注意力机制，以生成特定输入位置的各自的输出；和

解码器神经网络，被配置为接收编码表示并生成输出序列。

2.根据权利要求1所述的系统，其中，所述编码器神经网络还包括：

嵌入层，被配置为：

对于输入序列中的每个网络输入，

将网络输入映射到网络输入的嵌入表示，以及

将网络输入的嵌入表示与网络输入的输入位置的位置嵌入按照输入顺序进行组合，以生成网络输入的组合嵌入表示；以及

提供网络输入的组合嵌入表示作为所述编码器子网的序列中的第一编码器子网的编码器子网输入。

3.根据权利要求1或2中任一项所述的系统，其中，所述网络输入的各自的编码表示是由所述序列中的最后的编码器子网生成的编码器子网输出。

4.根据权利要求1-3中任一项所述的系统，其中，对于所述序列中除第一编码器子网之外的每个编码器子网，编码器子网输入是所述序列中在前的编码器子网的编码器子网输出。

5.根据权利要求1-4中任一项所述的系统，其中，所述编码器子网中的至少一个还包括：

按位置前馈层，被配置为：

对于每个输入位置：

接收输入位置处的输入，以及

对输入位置处的输入应用变换的序列，以生成输入位置的输出。

6.根据权利要求5所述的系统，其中，所述序列包括由激活函数分开的两个学习的线性变换。

7.根据权利要求5或6中任一项所述的系统，其中，所述至少一个编码器子网还包括：

残余连接层，其将按位置前馈层的输出与对按位置前馈层的输入进行组合，以生成编码器按位置残余输出，以及

层归一化层，其将层归一化应用于编码器按位置残余输出。

8.根据权利要求1-7中任一项所述的系统，其中，每个编码器子网还包括：

残余连接层，其将编码器自注意力子层的输出与编码器自注意力子层的输入进行组合，以生成编码器自注意力残余输出，以及

层归一化层，其将层归一化应用于编码器自注意力残余输出。

9.根据权利要求1-8中任一项所述的系统，其中，每个编码器自注意力子层包括多个编码器自注意力层。

10.根据权利要求9所述的系统，

其中，每个编码器自注意力层被配置为：

将学习的查询线性变换应用于每个输入位置处的每个编码器子网输入，以生成每个输入位置的各自的查询，

将学习的键线性变换应用于每个输入位置处的每个编码器子网输入，以生成每个输入位置的各自的键，

将学习的值线性变换应用于每个输入位置处的每个编码器子网输入，以生成每个输入位置的各自的值，以及

对于每个输入位置，

通过在对输入位置的查询和键之间应用比较函数来确定输入位置中的每一个输入位置的各自的输入位置特定权重，以及

通过确定由输入位置的相应输入位置特定权重加权的值的加权总和来确定输入位置的初始编码器自注意力输出。

11.根据权利要求10所述的系统，其中，所述编码器自注意力子层被配置为，对于每个输入位置，组合由所述编码器自注意力层生成的输入位置的初始编码器自注意力输出，以生成所述编码器自注意力子层的输出。

12.根据权利要求9至11中任一项所述的系统，其中，所述编码器自注意力层并行操作。

13.根据权利要求1-12中任一项所述的系统，其中，所述解码器神经网络通过在多个生成时间步骤中的每一个生成时间步骤处，以编码表示和按照输出顺序的输出位置之前的输出位置处的网络输出为条件，生成相应的输出位置处的网络输出，来自回归地生成输出序列。

14.根据权利要求13所述的系统，其中，所述解码器神经网络包括解码器子网的序列，每个解码器子网被配置为：在每个生成时间步骤处，接收相应的输出位置之前的多个输出位置中的每一个输出位置的各自的解码器子网输入，并且为对应的输出位置之前的多个输出位置中的每一个输出位置生成各自的解码器子网输出。

15.根据权利要求14所述的系统，其中，所述解码器神经网络还包括：

嵌入层，被配置为：在每个生成时间步骤处：

对于按照输出顺序的输出位置之前的输出位置处的每个网络输出：

将网络输出映射到网络输出的嵌入表示，以及

将网络输出的嵌入表示与网络输出的输出位置的位置嵌入按照输出顺序进行组合，以生成网络输出的组合嵌入表示；以及

将网络输出的组合嵌入表示作为输入提供给解码器子网的序列中的第一解码器子网。

16.根据权利要求14或15中任一项所述的系统，其中，所述解码器子网中的至少一个包括：

按位置前馈层，被配置为：在每个生成时间步骤处：

对于相应的输出位置之前的每个输出位置：

接收输出位置处的输入，以及

对输出位置处的输入应用变换的序列，以生成输出位置的输出。

17.根据权利要求16所述的系统，其中，所述序列包括由激活函数分开的两个学习的线性变换。

18.根据权利要求16或17中任一项所述的系统，其中，所述至少一个解码器子网还包括：

残余连接层，其将按位置前馈层的输出与对按位置前馈层的输入进行组合，以生成残余输出，以及

层归一化层，其将层归一化应用于残余输出。

19.根据权利要求10-13中任一项所述的系统，其中，每个解码器子网包括：

编码器-解码器注意力子层，其被配置为：在每个生成时间步骤处：

接收相应的输出位置之前的每个输出位置的输入，并且对于输出位置中的每一个输出位置：

使用从输出位置的输入中导出的一个或多个查询，在输入位置处的编码表示上应用注意力机制，以生成输出位置的更新表示。

20.根据权利要求15所述的系统，其中，每个编码器-解码器注意力子层包括多个编码器-解码器注意力层，并且其中，每个编码器-解码器注意力层被配置为：在每个生成时间步骤处：

将学习的查询线性变换应用于相应的输出位置之前的每个输出位置处的输入，以生成每个输出位置的各自的查询，

将学习的键线性变换应用于每个输入位置处的每个编码表示，以生成每个输入位置的各自的键，

将学习的值线性变换应用于每个输入位置处的每个编码表示，以生成每个输入位置的各自的值，以及

对于相应的输出位置之前的每个输出位置，

通过在对输出位置的查询和键之间应用比较函数来确定输入位置中的每一个输入位置的各自的输出位置特定权重，以及

通过确定由输入位置的相应的输出位置特定权重加权的值的加权总和来确定输出位置的初始编码器-解码器注意力输出。

21.根据权利要求20所述的系统，其中，所述编码器-解码器注意力子层被配置为：在每个生成时间步骤处，组合由所述编码器-解码器层生成的编码器-解码器注意力输出，以生成所述编码器-解码器注意力子层的输出。

22.根据权利要求20或21中任一项所述的系统，其中，所述编码器-解码器注意力层并行操作。

23.根据权利要求19-22中任一项所述的系统，其中，每个解码器子网还包括：

残余连接层，其将编码器-解码器注意力子层的输出与编码器-解码器注意力子层的输入进行组合，以生成残余输出，以及

层归一化层，其将层归一化应用于残余输出。

24.根据权利要求14-23中任一项所述的系统，其中，每个解码器子网包括：

解码器自注意力子层，被配置为：在每个生成时间步骤处：

接收相应的输出位置之前的每个输出位置的输入，并且对于每个特定输出位置：

使用从特定输出位置处的输入导出的一个或多个查询，在相应的位置之前的输出位置处的输入上应用注意力机制，以生成特定输出位置的更新表示。

25.根据权利要求24所述的系统，其中，每个解码器自注意力子层包括多个解码器自注意力层，并且其中，每个解码器自注意力层被配置为：在每个生成时间步骤处：

将学习的键线性变换应用于相应的输出位置之前的每个输出位置处的每个输入，以生成每个输出位置的各自的键，

将学习的值线性变换应用于相应的输出位置之前的每个输出位置处的每个输入，以生成每个输出位置的各自的键，以及

对于相应的输出位置之前的每个输出位置，

通过在对输出位置的查询和键之间应用比较函数来确定输出位置中的每一个输出位置的各自的输出位置特定权重，以及

通过确定由输出位置的相应的输出位置特定权重加权的值的加权总和来确定输出位置的初始解码器注意力输出。

26.根据权利要求25所述的系统，其中，所述编码器-解码器注意力子层被配置为：在每个生成时间步骤处，组合由所述编码器-解码器层生成的编码器-解码器注意力输出，以生成所述编码器-解码器注意力子层的输出。

27.根据权利要求25或26中任一项所述的系统，其中，编码器-解码器注意力层并行操作。

28.根据权利要求24-27中任一项所述的系统，其中，每个解码器子网还包括：

残余连接层，其将解码器自注意力子层的输出与解码器自注意力子层的输入进行组合，以生成残余输出，以及

层归一化层，其将层归一化应用于残余输出。

29.一个或多个存储指令的计算机存储介质，当所述指令由一个或多个计算机执行时使得所述一个或多个计算机实施根据权利要求1-28中任一项所述的序列转换神经网络。

30.一种方法，包括：

接收具有按照输入顺序的多个输入位置中的每一个输入位置处的各自的输入的输入序列；

通过根据权利要求1-28中任一项所述的编码器神经网络来处理输入序列，以生成输入序列中的每个输入的各自的编码表示；以及

通过根据权利要求1-28中任一项所述的解码器神经网络来处理编码表示，以生成具有按照输出顺序的多个输出位置中的每一个输出位置处的各自的输出的输出序列。

31.一种包括一个或多个计算机和存储指令的一个或多个存储设备的系统，当所述指令由所述一个或多个计算机执行时，使得所述一个或多个计算机执行根据权利要求30所述的方法的操作。

32.一个或多个存储指令的计算机存储介质，当所述指令由一个或多个计算机执行时，使得所述一个或多个计算机执行根据权利要求31所述的方法的操作。