CN110506279B

CN110506279B - 采用隐树注意力的神经机器翻译

Info

Publication number: CN110506279B
Application number: CN201880024708.7A
Authority: CN
Inventors: J·布拉德伯里
Original assignee: Shuo Power Co
Current assignee: Shuo Power Co
Priority date: 2017-04-14
Filing date: 2018-04-11
Publication date: 2024-04-05
Anticipated expiration: 2038-04-11
Also published as: US20200117861A1; US11520998B2; JP2020518891A; US10565318B2; US20180300317A1; WO2018191344A1; EP3610419A1; JP6943975B2; JP2021192298A; CN110506279A

Abstract

我们介绍了一种用于机器翻译任务的注意力神经机器翻译模型，该模型实现了自然语言处理的长期目标，以利用语言的层次结构而无需先验注释。该模型包括具有新型注意力RNNG解码器的循环神经网络语法(RNNG)编码器，并应用策略梯度强化学习以在源序列和目标序列上诱导无监督树结构。当对没有明确分割或解析注释的字符级数据集进行训练时，模型学习似乎合理的分割和浅层解析，获得接近注意力基线的性能。

Description

采用隐树注意力的神经机器翻译

其他申请的交叉引用

本申请要求于2018年2月21日提交的美国专利申请No.15/901,722和2017年4月14日提交的美国临时专利申请No.62/485,856的优先权，其每一个的全部内容均通过引用并入本文。

引用

以下材料通过引用并入本文，如同在此完全阐述：

Chris Dyer，Miguel Ballesteros，Wang Ling，Austin Matthews和Noah ASmith。2016a。采用堆栈长短期记忆的基于转移的依赖性解析(Transition-baseddependency parsing with stack long short-term memory)。在EMNLP(“Dyer等人，2016a”)；

Chris Dyer，Adhiguna Kuncoro，Miguel Ballesteros和Noah Smith。2016b。循环神经网络语法(Recurrent neural network grammars)。在NAACL(“Dyer等人，2016b”)；

Adhiguna Kuncoro，Miguel Ballesteros，Lingpeng Kong，Chris Dyer，GrahamNeubig和Noah A.Smith。2017。循环神经网络语法语法学习关于语法的内容是什么？(Whatdo recurrent neural network grammars learn about syntax？)在EACL(“Kuncoro等人”)；

Junyoung Chung，Sungjin Ahn和Yoshua Bengio。2017。分层多尺度循环神经网络(Hierarchical multiscale recurrent neural networks)。在ICLR；

Akiko Eriguchi，Kazuma Hashimoto和Yoshimasa Tsuruoka。2016。树到序列注意力神经机器翻译(Tree-to-sequence attentional neural machine translation)。在ACL；以及

CS224D：NLP的深度学习(Deep Learning for NLP)，讲义：第一部分，第二部分，第三部分，第四部分和第五部分(“Socher等人”)。

所公开技术的领域

所公开的技术涉及人工智能型计算机和数字数据处理系统以及用于仿真智能的相应数据处理方法和产品(即，基于知识的系统、推理系统和知识获取系统)；并包括具有不确定性的用于推理的系统(例如，模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。所公开的技术使用深度神经网络(诸如长短期记忆(LSTM)网络)来进行自然语言处理任务。

背景技术

本节中讨论的主题不应仅仅因为在本节中提及而被认为是现有技术。类似地，不应将本节中提到的或与作为背景提供的主题相关的问题假定为先前已在现有技术中被认识到。本节中的主题仅表示不同的方法，这些方法本身也可以对应于所要求保护的技术的实现。

自然语言处理任务(如机器翻译)中开发语言层次结构的许多努力都利用了从人类注释的树库训练的自包含解析器系统的输出。第二种方法旨在共同学习手头的任务和语言层次结构的相关方面，从未注释的训练数据集诱导可以对应于或可以不对应于树库注释实践的解析树。

旨在利用语言层次结构的自然语言处理的大多数深度学习模型集成了外部解析器，可以规定神经网络的递归结构，或可以为预测自身结构的网络提供监督信号或训练数据。一些深度学习模型采用第二种方法，将层次结构视为潜变量，对基于图的条件随机字段应用推理、直通估计器或策略梯度强化学习，以解决基于梯度的学习不适用于具有离散的潜在状态的问题。

对于机器翻译的任务，句法通知模型已经在深度学习上下文内外显示出了希望，基于分层短语的模型经常优于传统模型，采用形态句法输入特征神经机器翻译模型得到增强，树结构化编码器和联合训练的解析器，每个解析器都优于纯顺序基线。

有机会实现自然语言处理的长期目标，以在没有先验注释的情况下利用语言的层次结构。可导致改进的自然语言处理。

附图的简要说明

图1示出了环境的一种实现，注意力神经机器翻译系统在所述环境中操作。

图2示出了消耗第一语言(例如，德语)的源序列的RNNG编码器的一种实现。

图3描绘了处理源序列的RNNG编码器的一种实现。

图4示出了发射第二语言(例如，英语)的目标序列的基于注意力的RNNG解码器的一种实现。

图5描绘了处理目标序列的基于注意力的RNNG解码器的一种实现。

图6是由基于注意力的RNNG解码器应用于处理目标序列的注意力的一个示例。

图7示出了由注意力神经机器翻译系统解析的基于注意力的短语结构的一种实现。

图8是由注意力神经机器翻译系统应用的注意力的可视化的一种实现。

图9示出了可用于实现注意力神经机器翻译系统的计算机系统的一种实现。

详细描述

呈现以下讨论以使得本领域技术人员能够制造和使用所公开的技术，并且在特定应用及其需求的背景下提供。对于本领域技术人员来说，对所公开的实现的各种修改是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，本文定义的一般原理可以应用于其他实现和应用。因此，所公开的技术不旨在限于所示的实现，而是符合与本文公开的原理和特征的最宽范围相一致。

介绍

我们引入了一种用于机器翻译任务的注意力神经机器翻译模型，该模型实现了自然语言处理的长期目标，以利用语言的层次结构而无需先验注释。该模型包括具有新型注意力RNNG解码器的循环神经网络语法(RNNG)编码器，并应用策略梯度强化学习以在源序列和目标序列上诱导(induce)无监督树结构。当对没有明确分割或解析注释的字符级数据集进行训练时，模型学习合理的分割和浅层解析，获得接近注意力基线的性能。

模型的编码器和解码器RNNG都是树形结构的神经网络，其在消耗或发出文本时预测它们自己的成分结构。编码器和解码器网络在字符级摄取文本时产生不受约束数量的树结构，允许模型发现并利用词内的结构。编码器和解码器RNNG的解析决策通过使用两个目标的加权和训练的随机策略来参数化：语言模型损失项和树注意力项，语言模型损失项奖励(reward)预测具有高可能性的下一个字符，树注意力项奖励编码器和解码器RNNG中的成分之间的一对一注意力对应关系。

我们在flickr30k数据集的德语-英语语言对上评估该模型，其中，它获得与强字符级基线类似的性能。对编码器和解码器RNNG产生的隐树(latent tree)的分析表明，该模型学习了合理的分割和浅解析，并且在摄取德语输入句子时构造的大多数短语级成分与生成英语输出时构建的成分有意义地对应。

环境

图1示出了注意力神经机器翻译系统102在其中操作的环境100的一种实现。系统102包括循环神经网络语法(RNNG)编码器112和基于注意力的RNNG解码器122，它们构建在循环神经网络(RNN)架构上。关于RNNG及其变体的其他细节，如仅堆叠循环神经网络语法(s-RNNG)，可以在Dyer等人，2016b和Kuncoro等人的文献中分别找到，其通过引用并入本文，如同在此完全阐述一样。关于RNN架构的其他细节，例如长短期记忆(LSTM)和门控递归单元(GRU)，可以在Socher等人的文献中找到，其通过引用并入本文，如同在此完全阐述一样。基于注意力的RNNG解码器122包括：参与者132。参与者132包括比较器142、指数归一化器152和凸组合器162。

系统102将第一语言(例如，德语)的源序列翻译成第二语言(例如，英语)的目标序列。系统102由训练器138在训练数据105上训练。训练数据105包括源序列115和目标序列118。训练器138包括教师强迫器(teacher forcer)148和强化学习器158。环境100还包括用于评估系统102的验证数据(未示出)。

在训练和部署之后，系统102经由在一个或更多个客户端165(例如，GoogleTranslate ^TM)上运行的web应用程序接收推断数据155。也就是说，系统102接收识别第一语言的源序列的翻译请求，并通过向一个或更多个客户端165发送第二语言的目标序列来实时响应翻译请求。

环境100的系统组件由在不同类型的计算设备上运行的软件实现。示例设备是工作站、服务器、计算集群、刀片服务器和服务器农场。一个或更多个网络125耦合环境100的系统组件，所有系统组件彼此通信(由实线双箭头线指示)。实际的通信路径可以是公共和/或专用网络上的点对点。通信可以在各种网络上发生，例如，专用网络、VPN、MPLS电路或因特网，并且可以使用适当的应用程序编程接口(API)和数据交换格式，例如，具象状态转移(REST)、JavaScript对象注释(JSON)、可扩展标记语言(XML)、简单对象访问协议(SOAP)、Java消息服务(JMS)和/或Java平台模块系统。所有通信都可以加密。通信通常经由诸如EDGE、3G、4G LTE、Wi-Fi和WiMAX之类的协议通过网络进行，诸如LAN(局域网)、WAN(广域网)、电话网(公共交换电话网(PSTN))、会话发起协议(SIP)、无线网络、点对点网络、星形网络、令牌环网络、集线器网络、互联网，包括移动互联网。此外，可以使用各种授权和认证技术，诸如用户名/密码、开放授权(OAuth)、Kerberos、SecureID、数字证书等来保护通信。

已经描述了环境100的系统组件，现在讨论转向RNNG编码器112及其处理。

RNNG编码器

如上所讨论的，编码器112和解码器122是彼此耦合的循环神经网络语法(RNNG)网络。在一个实现中，RNNG编码器112是仅堆栈RNNG(在Kuncoro等人的文献中描述)，并且RNNG解码器122是采用成分级注意力(例如，字符级注意力)增强的仅堆栈RNNG。

关于循环神经网络语法(RNNG)，RNNG是一种自上而下的基于转移的模型，其共同构建句子表示和解析树，用Stack LSTM(在Dyer等人，2016a中描述)表示解析器状态，并使用双向LSTM(Bi-LSTM)作为成分组合功能。

RNNG定义了字符串终结符(terminal)和短语结构非终结符上的联合概率分布。形式上，RNNG由三元组<N,Σ,Θ>定义，其中N表示非终结符集(NP(名词短语)、VP(动词短语)等)，Σ表示所有终结符集，以及Θ表示模型参数集。RNNG不是依靠手动设计的规则来构成更细粒度的短语表示，而是隐含地对通过短语组合(在Θ和神经网络架构中)传递的信息进行参数化，从而削弱了经典概率无上下文语法中的强独立性假设。

RNNG基于抽象状态机，类似于在基于转移的解析中使用的那些，其算法状态包括(i)部分完成的成分的堆栈，(ii)已生成的终结符的缓冲区，以及(iii)过去动作列表。为了生成句子x及其短语结构树y，RNNG对一系列动作进行采样以自上而下构建y。给定y，在监督训练期间使用了一个这样的序列a＝<a₁,...,a_n>。RNNG的三个组件中的每一个都嵌入有LSTM，并且至少一个LSTM的隐藏状态用于预测当前时间步长的所有可行动作的softmax。

RNNG使用三种不同的动作：

·NT(非终结符)：其在堆栈上引入开放的非终结符，例如“(NP”)；

·GEN(生成)：其生成终结符并将其放在堆栈和缓冲区中；以及

·RED(减少)：其指示成分现已完成。包括当前成分(返回到最后开放的非终结符)的堆栈的元素被弹出，并且由双向LSTM(Bi-LSTM)执行组合函数(composition function)，从而产生单个明确的组合表示，其被推送到堆栈上。

在每个时间步长，模型对堆栈、缓冲器和过去的动作进行编码，每个组件都有一个单独的LSTM作为特征，用于定义要采取的下一个动作的分布(以完整的算法状态为条件)。RNNG的关键元素是组合函数，它将完整的成分或成分的部分和非终结符标签缩减或转换为堆栈上的单个显式元素。该函数使用Bi-LSTM计算新成分的向量表示。

由于RNNG是一种生成式模型，它试图最大化字符串和树的联合分布p(x,y)，其定义如下：

换句话说，p(x,y)被定义为局部概率的积，以过去的所有动作为条件。联合概率估计p(x,y)可以用于短语结构解析(找到argmax_y p(y|x))和语言建模(通过边缘化x的可能的解析集来找到p(x))两者。两个推理问题都可以使用重要性采样程序来解决(在Dyer等人，2016b和Kuncoro等人的文献中描述)。

在一个实现中，RNNG编码器112与Dyer等人，2016b的不同之处在于，它缺少用于不同短语类型的单独的新的非终结符令牌，因此不包括作为由Bi-LSTM实现的组合函数的输入的短语类型。相反，编码器的x_i的值固定为常数x^enc，而RNNG解码器122的的值通过下面参照图5描述的注意力程序确定。

如最初所述，RNNG使用具有三个级联的输入的单层tanh感知器来预测解析器转移：堆栈内容上的单向LSTM的最后状态，未解析令牌的反向缓冲器上的单向LSTM的最后状态，以及LSTM对过去转移的结果。使用Dyer等人，2016a中描述的Stack LSTM算法，可以使用每解析器转移最多一个LSTM步骤来计算所有这三个状态。

但是，这样的基线RNNG优于解析器转移仅以堆栈表示为条件的那个，即，仅堆栈RNNG(在Kuncoro等人的文献中描述)。在一些实现中，将我们的模型限制到这种仅堆栈情况允许使用语言模型损失来监督RNNG编码器112和RNNG解码器122，同时允许模型通过未解析的令牌的反向缓冲器访问单向LSTM的最后状态，使其成为预测下一个字符并获得零损失的有效方法。

以下关于图2、图3、图4和图5的讨论集中于在将德国源序列“Die hungrige Katzeweht”翻译成英语目标序列“The hungry cat meows”的背景下所公开的注意力机制。

图2示出了RNNG编码器112消耗200第一语言(例如，德语)的源序列的一种实现。图3描绘了RNNG编码器112处理300源序列的一种实现。

在图2中，示例性德国源序列是“Die hungrige Katze weht”。在所示实现中，RNNG编码器112采取六个NT(非终结符)动作。RNNG编码器112的每个NT动作被向量化、编码或嵌入为x^enc。在一个实现中，x^enc是常量或固定向量，其用作源序列的短语树结构的不同短语类型成分的公共嵌入。短语类型成分的示例包括名词短语(NP)、动词短语(VP)、介词短语(PP)和句子(S)。换句话说，根据该实现，在编码的不同时间步长，嵌入NT动作的向量的值在编码时间步长上保持固定为x^enc并且不改变。跨编码时间步长的公共嵌入x^enc的传播也在图3中示出。

RNNG编码器112在采取NT动作的“紧接在前”的状态或隐藏状态由表示。换句话说，/>表示在预测源序列的短语树结构的短语类型时(紧接在前)识别编码器状态的编码器树节点。在图3所示的实现中，示出了六个这样的隐藏状态或编码器树节点(例如，在编码时间步长t₀,t₁,t₂,t₈,t₁₉,t₂₉)，其中每个由所谓的编码器组合嵌入/>之一补充，其作为RNNG编码器112采取RED(减少)动作(例如，在编码时间步长t₆,t₁₇,t₂₅,t₂₇,t₃₄,t₃₅)的结果而产生。在一个实现中，在采取RED动作时，RNNG编码器112使用双向LSTM(Bi-LSTM)来编码返回到最后一个开放短语类型非终结符的源序列的短语树结构的当前令牌成分，而不编码开放短语类型成分x^enc。Bi-LSTM的输出是编码器组合嵌入/>例如，在编码时间步长t₆时，图3中的第一RED动作使得Bi-LSTM对德语单词“Die”中的字符令牌x^D+i+e进行双向编码。双向编码产生编码器组合嵌入/>其在采取第三NT动作之前立即补充RNNG编码器112的隐藏状态/>

关于源序列的令牌，当RNNG编码器112采取GEN(生成)动作时，它们被消耗。在图3所示的实现中，令牌是基于字符的令牌嵌入x^tokens。在一个实现中，可以使用实值(real-valued)向量来密集编码基于字符的令牌嵌入x^tokens。在另一实现中，可以使用独热(one-hot)向量对基于字符的令牌嵌入x^tokens进行稀疏编码。

关于图3中的输入/输出工作流程，RNNG编码器112以随机或预定的隐藏状态初始化。在每个编码时间步长，RNNG编码器112的隐藏状态(编码器状态)被馈送到编码器softmax层，其确定下一个动作是RED、GEN还是NT。当编码器softmax层响应于处理RNNG编码器112的当前隐藏状态而在当前编码时间步长处输出NT动作时，获得固定嵌入x^enc并在下一个编码时间步长处作为输入馈送到RNNG编码器112，用于门控LSTM类型处理以产生下一个隐藏状态(在Socher等人的文献中描述)。

当编码器softmax层响应于处理RNNG编码器112的当前隐藏状态而在当前编码时间步长处输出RED动作时，通过Bi-LSTM的组合函数产生编码器组合嵌入并在下一个编码时间步长处作为输入馈送到RNNG编码器112，用于门控LSTM类型处理以产生下一个隐藏状态(在Socher等人的文献中描述)。Bi-LSTM的输入是当前短语结构的成分令牌的基于字符的令牌嵌入x^tokens，以正向和反向方向馈送到Bi-LSTM而没有短语类型固定嵌入x^enc。

当编码器softmax层响应于处理RNNG编码器112的当前隐藏状态而在当前编码时间步长处输出GEN动作时，生成基于字符的令牌x^token，并在下一个编码时间步长处将其作为输入馈送到下一个RNNG编码器112，用于进行门控LSTM类型处理，以产生下一个隐藏状态(在Socher等人的文献中描述)。在一个实现中，当选择GEN动作时，RNNG编码器112通过单层词汇表softmax感知器传递当前编码器状态，给出下一个令牌是词汇表中的每个字符的概率。

已经描述了RNNG编码器112及其处理，现在讨论转向基于注意力的RNNG解码器122及其处理。

基于注意力的RNNG解码器

虽然RNNG编码器112使用单个令牌x^enc来表示新的非终结符，但是RNNG解码器122表示堆栈上的新的非终结符，作为由编码器产生的所有非终结符树节点的短语表示的结构注意力加权的总和。在一个实现中，我们使用解码器堆栈表示与每个编码器节点/>处的堆栈表示之间的归一化点积(即，解码器堆栈LSTM的隐藏状态，多达并包括/>但不包括)作为与编码器节点对应的短语嵌入/>的加权和的系数：

编码器和解码器堆栈表示之间的点积是当前解码器状态与编码器状态(的左上下文)之间的结构相似性的度量。在特定的解码器非终结符内，该模型简化为普通的序列到序列转移。从相应的非终结符的编码器表示或这些表示的加权组合开始，解码器逐个发出子成分(非终结符和终结符)的翻译序列-仅在发射子非终结符时才应用注意力。

图4示出了基于注意力的RNNG解码器122发射400第二语言(例如，英语)的目标序列的一种实现。图5描绘了基于注意力的RNNG解码器122处理500目标序列的一种实现。

在图4中，RNNG解码器122发出的示例性英语目标序列是“The hungry catmeows”。在所示实现中，RNNG解码器122采取六个NT(非终结符)动作。RNNG解码器122的NT动作被向量化、编码或嵌入为其在本文中被称为用于目标序列的短语树结构的预测短语类型的“解码器嵌入”。解码器嵌入/>由参与者132实现的注意力机制确定(上面讨论并且还参考图5和图6进一步更详细讨论)。预测短语类型的示例包括名词短语(NP)、动词短语(VP)、介词短语(PP)和句子(S)。

在采取NT动作“紧接在前”的RNNG解码器122的状态或隐藏状态由表示。换句话说，/>表示在预测目标序列的短语树结构的短语类型时(紧接在前)识别解码器状态的解码器树节点。在图5中所示的实现中，示出了六个这样的隐藏状态或解码器树节点(例如，在解码时间步长t₀,t₁,t₂,t₈,t₁₇,t₂₅处)，其中的每一个由作为RNNG解码器122采取RED(减少)动作(例如，在解码时间步长t₆,t₁₅,t₂₁,t₂₃,t₃₂,t₃₃处)的结果产生的所谓的解码器组合嵌入之一补充。在一个实现中，在采取RED动作时，RNNG解码器122使用双向LSTM(Bi-LSTM)来编码目标序列的短语树结构的当前令牌成分，其返回到最后的开放短语类型非终结符，而没有编码开放短语类型成分/>Bi-LSTM的输出是解码器组合嵌入/>例如，在解码时间步长t₆处，图5中的第一RED动作导致由Bi-LSTM双向编码英语单词“The”中的字符令牌x^T ^+h+e。双向编码产生解码器组合嵌入/>其在采取第三NT动作之前立即补充RNNG解码器122的隐藏状态/>

关于目标序列的令牌，当RNNG解码器122采取GEN(生成)动作时，它们被发射。在图5所示的实现中，令牌是基于字符的令牌嵌入x^tokens。在一个实现中，可以使用实值向量对基于字符的令牌嵌入x^tokens进行密集编码。在另一实现中，可以使用独热向量对基于字符的令牌嵌入x^tokens进行稀疏编码。

关于图5中的输入/输出工作流，RNNG解码器122以随机或预定的隐藏状态初始化。在一个实现中，源序列的最终或最后编码器组合嵌入(例如，/>)被用作针对目标序列的最初预测的短语类型(例如，/>)的解码器嵌入。也就是说，/>如图4和图5所示。在每个解码时间步长，RNNG解码器122的隐藏状态(解码器状态)被馈送到解码器softmax层，该解码器softmax层确定下一个动作是RED、GEN还是NT。当解码器softmax层响应于处理RNNG解码器122的当前隐藏状态而在当前解码时间步长输出NT动作时，解码器嵌入/>由参与者132实现的注意力机制确定，并在下一个解码时间步长处作为输入馈送到RNNG解码器122，用于进行门控LSTM类型处理，以产生下一个隐藏状态(在Socher等人的文献中描述)。

当解码器softmax层响应于处理RNNG解码器122的当前隐藏状态而在当前解码时间步长处输出RED动作时，通过Bi-LSTM的组合函数产生解码器组合嵌入并在下一个解码时间步长处作为输入馈送到RNNG解码器122，用于进行门控LSTM类型处理，以产生下一个隐藏状态(在Socher等人的文献中描述)。Bi-LSTM的输入是当前短语结构的成分令牌的基于字符的令牌嵌入x^tokens，在没有短语类型解码器嵌入/>的情况下以正向和反向馈送到Bi-LSTM。在一个实现中，编码器和解码器共享公共Bi-LSTM，并且在另一实现中，它们使用单独的Bi-LSTM。

当解码器softmax层响应于处理RNNG解码器122的当前隐藏状态而在当前解码时间步长处输出GEN动作时，生成基于字符的令牌x^token，并在下一个解码时间步长处将其作为输入馈送到RNNG解码器122，用于进行门控LSTM类型处理，以产生下一个隐藏状态(在Socher等人的文献中描述)。在一个实现中，当选择GEN动作时，RNNG解码器122通过一层词汇表softmax感知器传递当前解码器状态，给出下一个令牌是词汇表中的每个字符的概率。

注意力

图6是由基于注意力的RNNG解码器122应用的用于处理目标序列的注意力600的一个示例。如上所讨论的，RNNG解码器122包括参与者132。参与者132包括比较器142、指数归一化器152和凸组合器162。比较器142比较表示当前解码器状态的解码器树节点(例如，图6中的)与表示编码期间不同的编码器状态(例如，在图6中的/>)的编码器树节点。

比较器142可以使用内积、双线性函数和单层神经网络中的至少一个来执行比较。比较器142的比较可以测量源序列的短语树结构和目标序列的短语树结构之间的句法结构相似度。

比较器142的比较结果是所谓的注意力值。注意力值是非归一化标量(在图6中示出为λ₁至λ₆)。指数归一化器152(例如，softmax层)指数地归一化注意力值以产生注意力权重。注意力权重是正归一化标量，其加起来为统一(unity)(在图6中示出为α₁至α₆)。比较器142在源序列和目标序列的句法上最相似的短语树结构(例如，图6中和/>)之间的比较可以产生最高的注意力权重，即最接近于1(例如，图6中的α₁)，因为德语中的“Die”一词在句法上与英语中的“The”最相似。在另一示例中，比较器142在源序列和目标序列的句法上最相似的短语树结构(例如，/>和/>)之间的比较可以产生最高的注意力权重，即最接近于1，因为德语中的“hungrige”一词是在句法上最类似于英语中的“hungry”一词，因为这两个词之前都有定冠词，并且都是名词短语的开头。

通过上面讨论的步骤(a)在数学上描述了比较和指数归一化。

凸组合器162使用指数归一化结果作为相应的注意力权重(例如，图6中的α₁至α₆)来计算或确定与编码器树节点(例如，图6中)相对应的编码器组合嵌入的加权和。换句话说，针对目标序列的每个短语树结构的预测短语类型(例如，在图5中的解码时间步长t₃)的解码器嵌入(例如，图6中/>)是由注意力权重(例如，图6中的α₁至α₆)缩放的编码器组合嵌入(例如，图6中的/>)的凸组合。通过上面讨论的步骤(b)在数学上描绘凸组合。

已经描述了基于注意力的RNNG解码器122及其处理，现在讨论转向基于注意力600的短语结构解析。

基于注意力的短语结构解析

图7示出了注意力神经机器翻译系统102对基于注意力的短语结构解析700的一种实现。

在编码或解码期间的给定时间步长处，存在三种可能的转变(尽管可以禁止一种或更多种)：开始新的非终结符成分(NT)，预测和摄取终结符(GEN)，或结束当前的非终结符(REDUCE)。如果所选择的转移是NT，则RNNG将新的非终结符令牌添加到活动成分并开始新的非终结符成分。如果转移是GEN，则RNNG预测下一个令牌，并从光标位置处的上下文缓冲区添加地面实况下一个令牌。如果转移为REDUCE，则将活动非终结符的内容传递给组合函数，将新的非终结符令牌替换为组合的结果，并且Stack LSTM回滚到先前活动的成分。在所有三种情况下，Stack LSTM然后前进一步。

已经描述了基于注意力的短语结构解析700，现在讨论转向注意力神经机器翻译系统102的训练。

训练

我们将我们的模型表示为随机计算图，导致训练范例(由训练器138实现)，其结合了反向传播(其通过确定性节点提供精确梯度并且由教师强迫器148实现)和vanilla策略梯度(其通过随机节点提供用于梯度的蒙特卡罗估计并且由强化学习器158实现)。我们的模型中有几种训练信号。首先，当编码器或解码器选择GEN动作时，它通过一层softmax感知器传递当前堆栈状态，给出下一个令牌是词汇表中每个字符的概率。每个生成的令牌的语言模型损失L_k是分配给地面实况下一个令牌的负对数概率。另一个可区分的训练信号是覆盖损失L_c，它是注意力权重与一对一映射的理想偏差多少的度量。此惩罚(penalty)计算为三个MSE项的总和：

使用可微分损失的反向传播仅影响输出softmax感知器的权重。这些权重的总损失函数是所有L_k项和L_c的加权和：

另外还存在不可微分的奖励r，其使模型朝向或远离某些种类的树结构偏向(bias)。这里，负数对应于惩罚。当模型预测仅具有一个子成分的REDUCE(禁止具有零子成分的REDUCE)或者预测一行中的两个REDUCE或NT转移时，我们将树奖励指定为-1。这使模型偏向于一元分支，并降低了产生专门的左或右分支树结构的可能性。此外，对于除根之外的所有成分，我们基于其子项的大小和类型分配树奖励。如果n和t是非终结符和子终结符的数量，如果所有子项都是终结符，则奖励为4t，否则为9√n。像这样的奖励结构使模型偏向于在同一成分内自由混合终结符和非终结符，并且提供了在训练早期建立实质树结构的激励，因此模型不会陷入小范围局部最小值(trivial local minimal)。在编码器和解码器内，如果动作是REDUCE(或者为零)，则每个随机动作节点具有对应的树奖励r_k，如果动作是GEN(或者为零)，则每个随机动作节点具有相应的语言模型损失L_k。我们从每个树奖励和额外的指数移动平均基线中减去指数移动平均基线-为词汇表中的每个字符z独立计算，因为我们希望减少字符频率的影响-来自语言模型损失。如果GEN(k)是动作1到k之间的GEN转移的数量，并且γ是衰减常数，则动作k的具有m∈{enc，dec}的最终奖励是：

这些奖励定义了梯度，每个随机节点(具有归一化动作概率和所选动作a_k)在反向传播期间根据标准多项式得分函数估计(REINFORCE)，产生该梯度：

已经描述了注意力神经机器翻译系统102的训练，现在讨论转向注意力神经机器翻译系统102所应用的注意力的可视化800。

注意力可视化

图8是由注意力神经机器翻译系统102应用的注意力的可视化800的一种实现。示出了来自开发集的两个句子的注意力可视化。两个成分之间的注意力由阴影矩形表示，其在x轴和y轴上的投影分别覆盖编码器和解码器成分。

我们在flickr30k数据的德语-英语语言对上评估了我们的模型，flickr30k数据是WMT Multimodal Translation(WTM多模型翻译)共享任务的文本成分。来自OpenNMT项目的具有两层和384个隐藏单元的注意力序列到序列模型在字符级作为基线运行，获得具有贪婪推理的32.0测试BLEU。我们的模型，其具有相同的隐藏大小和贪婪推理，在移除重复的双字母后实现了28.5的测试BLEU。我们在PyTorch中实现了该模型，受益于其对动态和随机计算图的强大支持，并使用批大小10和Adam优化器进行训练，并在12个时期之后提前停止。字符嵌入和编码器的嵌入被初始化为随机的384维向量。γ的值和基线指数移动平均值的衰减常数均设为0.95。

翻译的随机选择包括在补充材料中，而两个注意力图显示在图8中。图8还示出了模型的常见异常状态，其中在解码相应解码器成分的标题词期间将注意短语编码器成分，而编码器成分的标题词在对应于整个短语的解码器成分的解码期间将被注意。另一种常见异常状态是翻译中重复的句子片段，这些片段可能是因为模型不能使将来的注意力直接取决于过去的注意力权重(“输入馈送”方法)而产生的。由于我们选择了仅使用堆栈的RNNG，因为具有堆栈和缓冲区输入的RNNG与语言模型损失不兼容，因此翻译质量也会受到影响。在编码期间，模型在句子的最开始处决定嵌入第一个字符的深度。但是对于仅堆栈的RNNG，它会随机做出这个决定，因为它无法使用包含整个句子的缓冲区表示。

已经描述了由注意力神经机器翻译系统102应用的注意力的可视化800的训练，现在讨论转向可以用于实现注意力神经机器翻译系统102的计算机系统900。

计算机系统

图9示出了可用于实现注意力神经机器翻译系统102的计算机系统900的一种实现。计算机系统900包括至少一个中央处理单元(CPU)972，其通过总线子系统955与多个外围设备通信。这些外围设备可以包括存储子系统910，其包括例如存储器设备和文件存储子系统936，用户接口输入设备939，用户接口输出设备976和网络接口子系统974。输入和输出设备允许用户与计算机系统900交互。网络接口子系统974提供到外部网络的接口，包括到其他计算机系统中相应接口设备的接口。注意力神经机器翻译系统102可以可通信地链接到存储子系统910和用户接口输入设备938。

用户接口输入设备938可包括键盘；指点设备，如鼠标、轨迹球、触摸板或图形输入板；扫描仪；包含在显示器中的触摸屏；音频输入设备，如语音识别系统和麦克风；以及其他类型的输入设备。通常，术语“输入设备”的使用旨在包括所有可能类型的设备和将信息输入计算机系统900的方式。

用户接口输出设备976可以包括显示子系统、打印机、传真机或非可视显示器(诸如音频输出设备)。显示子系统可包括LED显示器、阴极射线管(CRT)、平板装置(诸如液晶显示器(LCD))、投影装置或用于产生可见图像的一些其他机制。显示子系统还可以提供非可视显示，例如音频输出设备。通常，术语“输出设备”的使用旨在包括所有可能类型的设备和将信息从计算机系统900输出到用户或另一个机器或计算机系统的方式。

存储子系统910存储编程和数据构造，其提供本文描述的一些或所有模块和方法的功能。这些软件模块通常由深度学习处理器978执行。

深度学习处理器978可以是图形处理单元(GPU)或现场可编程门阵列(FPGA)。深度学习处理器978可以由深度学习云平台托管，诸如Google Cloud Platform^TM、Xilinx^TM和Cirrascale^TM。深度学习处理器978的示例包括谷歌的Tensor处理单元(TPU)^TM，机架式解决方案，如GX4Rackmount Series^TM、GX9 Rackmount Series^TM、NVIDIA DGX-1^TM、微软的Stratix V FPGA^TM、Graphcore的智能处理器单元(IPU)^TM、高通的采用Snapdragon处理器^TM的Zeroth Platform^TM、NVIDIA的Volta^TM、NVIDIA的DRIVE PX^TM、NVIDIA的JETSON TX1/TX2MODULE^TM、英特尔的Nirvana^TM、Movidius VPU^TM、Fujitsu DPI^TM、ARM的DynamicIQ^TM、IBMTrueNorth^TM等。

存储子系统910中使用的存储器子系统922可以包括多个存储器，其包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)932和其中存储固定指令的只读存储器(ROM)934。文件存储子系统936可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移除介质、CD-ROM驱动器、光盘驱动器或可移除介质盒。实现某些实现的功能的模块可以由文件存储子系统936存储在存储子系统910中，或者存储在处理器可访问的其他机器中。

总线子系统955提供用于使计算机系统900的各种组件和子系统按预期彼此通信的机制。虽然总线子系统955被示意性地示为单个总线，但是总线子系统的替代实现可以使用多个总线。

计算机系统900本身可以是各种类型，包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视、大型机、服务器农场，广泛分布的松散联网计算机组或任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质，图9中描绘的计算机系统900的描述仅用作说明本发明优选实施例的目的的具体例子。计算机系统900的许多其他配置可能具有比图9中描绘的计算机系统更多或更少的组件。

提供前面的描述以使得能够制造和使用所公开的技术。对所公开的实现的各种修改将是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，本文定义的一般原理可以应用于其他实现和应用。因此，所公开的技术不旨在限于所示的实现，而是符合与本文公开的原理和特征的最宽范围相一致。所公开的技术的范围由所附权利要求限定。

特定实现

我们描述了用于将第一语言的源序列翻译成第二语言的目标序列的注意力神经机器翻译模型的系统和各种实现。实现的一个或更多个特征可以与基础实现组合。不相互排斥的实现被教导是可组合的。实现的一个或更多个特征可以与其他实现组合。本公开定期提醒用户这些选项。重复这些选项的一些实施方案的省略不应被视为限制前面部分中教导的组合-这些叙述通过引用结合到以下每个实现中。

我们介绍了一种在自然语言处理任务(如机器翻译)中利用无监督树结构的新方法。我们的实验表明，小规模机器学习数据集包含足够的训练信号来推断潜在的语言结构。在一些实现中，值函数基线可以代替指数移动平均值，纯粹强化学习可以代替教师强制，并且可以使用定向搜索来代替贪婪推理。所呈现的翻译异常状态的解决方案可以使用教师模型替换为变异推理，该教师模型可以看到缓冲区并且有助于训练仅堆栈的学生模型。

所公开的技术提出了一种注意力神经机器翻译系统，用于将第一语言的源序列翻译成第二语言的目标序列。注意力神经机器翻译系统在许多并行处理器上运行。

注意力神经机器翻译系统包括编码器。编码器可以是第一仅堆栈循环神经网络语法(s-RNNG)网络，其在许多并行处理器之一上运行。编码器对源序列的令牌和源序列的短语树结构进行编码。源序列的短语树结构中的至少一个包括：(i)编码器树节点，其在预测源序列的所述短语树结构的短语类型时表示编码器状态，以及(ii)编码器组合嵌入，其表示所述源序列的所述短语树结构的成分。

注意力神经机器翻译系统包括基于注意力的解码器。基于注意力的解码器可以是在许多并行处理器之一上运行的第二s-RNNG网络。基于注意力的解码器输出目标序列的令牌和目标序列的短语树结构。用于目标序列的每个短语树结构的预测短语类型的解码器嵌入是由注意力权重缩放的编码器组合嵌入的凸组合。

系统可以将表示当前解码器状态的解码器树节点与表示编码期间不同的编码器状态的编码器树节点进行比较。这是通过以下来实现的：(i)指数地归一化比较结果(所谓的注意力值)和(ii)使用指数归一化结果作为相应的注意力权重，计算对应于编码器树节点的编码器组合嵌入的加权和。

所公开的该系统实现和其他系统可选地包括以下特征中的一个或更多个。系统还可以包括结合所公开的方法描述的特征。为了简明起见，系统特征的替代组合不是单独列举的。对于每个法定类别的基本特征组，不重复适用于系统、方法和制品的特征。读者将理解本节中确定的特征如何容易地与其他法定类别中的基本特征相结合。

可以使用内积、双线性函数和单层神经网络中的至少一个来执行比较。该比较可以测量源序列的短语树结构与目标序列的短语树结构之间的句法结构相似度。源序列和目标序列的句法上最相似的短语树结构之间的比较可以产生最高的注意力权重。

令牌可以是基于字符的令牌。在一个实现中，可以使用实值向量对基于字符的令牌进行密集编码。在另一实现中，可以使用独热向量对基于字符的令牌进行稀疏编码。

系统可以使用固定向量作为源序列的短语树结构的不同短语类型成分的公共嵌入。

编码器组合嵌入可以编码一个或更多个基于字符的令牌成分，而不编码短语类型成分。

系统可以使用源序列的最终编码器组合嵌入作为用于最初预测的目标序列的短语类型的解码器嵌入。

系统可以使用策略梯度强化学习来诱导源序列和目标序列两者的无监督短语树结构。

编码器和基于注意力的解码器可以是长短期记忆(LSTM)网络。

编码器和基于注意力的解码器均可包括计算编码器和解码器组合嵌入的双向LSTM(Bi-LSTM)。

短语树结构可以是成分解析树结构。短语树结构可以是依赖性解析树结构。

其他实现可以包括存储可由处理器执行以执行上述系统的动作的指令的非暂时性计算机可读存储介质。用于其他实现的特定实现部分中讨论的每个特征同样适用于该实现。如上所述，这里不重复所有其他特征，并且应该通过引用视为重复。

所公开的技术提出了一种基于循环神经网络语法(RNNG)的机器翻译系统，用于将第一语言的源序列翻译成第二语言的目标序列。基于RNNG的机器翻译系统在许多并行处理器上运行。

基于RNNG的机器翻译系统包括RNGG编码器，其在众多并行处理器之一上运行。RNNG编码器通过将每个短语树结构的基于字符的令牌成分嵌入编码器组合向量中，来编码源序列的令牌和源序列的短语树结构。

基于RNNG的机器翻译系统包括基于注意力的RNGG解码器，其在众多并行处理器之一上运行。基于注意力的RNNG解码器输出目标序列的令牌和目标序列的由短语类型分类的短语树结构，其中向量表示通过注意编码器组合向量计算的短语类型，其注意力取决于当前的RNNG解码器状态和编码期间的RNNG编码器状态之间的比较。

用于其他实现的特定实现部分中讨论的每个特征同样适用于该实现。如上所述，这里不重复所有其他特征，并且应该通过引用视为重复。

系统可以通过使用多个目标函数的加权和训练的随机策略来参数化RNNG编码器和基于注意力的RNNG解码器的解析决策。目标函数可以是语言模型损失项，其奖励预测下一个基于字符的令牌具有高可能性。目标函数可以是树注意力项，其奖励RNNG编码器与基于注意力的RNNG解码器的成分之间的一对一注意力对应关系。

其他实现可以包括非暂时性计算机可读存储介质，其存储可由处理器执行以执行上述系统的动作的指令。

所公开的技术提出了一种注意力神经机器翻译方法，该方法将第一语言的源序列翻译成第二语言的目标序列。

该方法包括使用循环神经网络语法(RNNG)编码器对源序列的令牌和源序列的短语树结构进行编码。源序列的短语树结构中的至少一个包括：(i)编码器树节点，其表示当预测源序列的所述短语树结构的短语类型时的编码器状态，以及(ii)编码器组合嵌入，其表示所述源序列的所述短语树结构的成分。

该方法包括使用基于注意力的RNNG解码器输出目标序列的令牌和目标序列的短语树结构。针对目标序列的每个短语树结构的预测短语类型的解码器嵌入是由注意力权重缩放的编码器组合嵌入的凸组合。

其他实现可以包括存储可由处理器执行以执行上述方法的指令的非暂时性计算机可读存储介质(CRM)。又一实现可以包括一种系统，该系统包括存储器和一个或更多个处理器，其可操作以执行存储在存储器中的指令，以执行上述方法。用于其他实现的特定实现部分中讨论的每个特征同样适用于该实现。如上所述，这里不重复所有其他特征，并且应该通过引用视为重复。

所公开的技术提出了一种基于循环神经网络语法(RNNG)的机器翻译方法，其将第一语言的源序列翻译成第二语言的目标序列。

该方法包括使用RNNG编码器通过将每个短语树结构的基于字符的令牌成分嵌入编码器组合向量中，来编码源序列的令牌和源序列的短语树结构。

该方法包括使用基于注意力的RNNG解码器来输出目标序列的令牌和目标序列的由短语类型分类的短语树结构，其中向量表示通过注意编码器组合向量计算的短语类型，注意力取决于当前的RNNG解码器状态与编码期间的RNNG编码器状态之间的比较。

Claims

1.一种基于循环神经网络语法的机器翻译系统，用于将第一语言的源序列翻译成第二语言的目标序列，包括：

编码器，其编码所述源序列的令牌和所述源序列的短语树结构，其中所述源序列的所述令牌中的每个对应于来自所述源序列的字符，并且其中所述源序列的所述短语树结构中的至少一个包括：

编码器树节点，其在预测所述源序列的所述短语树结构的短语类型时表示编码器状态，以及

编码器组合嵌入，其表示所述源序列的所述短语树结构的成分；以及

基于注意力的解码器，其输出所述目标序列的令牌和所述目标序列的短语树结构，其中所述目标序列的每个所述短语树结构的预测短语类型的解码器嵌入是由注意力权重缩放的编码器组合嵌入的凸组合；

其中：

所述编码器使用组合函数将完整的成分或所述完整的成分的部分和非终结符标签转换为单个元素；和

所述编码器在编码时间步长上缺少用于不同短语类型的单独的非终结令牌并且不包括作为所述组合函数的输入的所述短语类型，使得与所述非终结令牌对应的值根据常数向量被固定。

2.如权利要求1所述的系统，其中所述编码器和所述基于注意力的解码器是长短期记忆(LSTM)网络。

3.如权利要求1所述的系统，其中所述编码器和所述基于注意力的解码器每个包括计算编码器组合嵌入和解码器组合嵌入的双向LSTM(Bi-LSTM)。

4.如权利要求1所述的系统，其中所述编码器和所述基于注意力的解码器是仅堆栈循环神经网络语法(s-RNNG)网络。

5.如权利要求1-4中任一项所述的系统，还被配置为：

使用所述源序列的最后编码器组合嵌入作为用于所述目标序列的最初预测的短语类型的解码器嵌入。

6.如权利要求1-4中任一项所述的系统，还被配置为：

使用策略梯度强化学习来诱导所述源序列和所述目标序列两者的无监督短语树结构。

7.如权利要求1-4中任一项所述的系统，其中所述短语树结构是成分解析树结构。

8.如权利要求1-4中任一项所述的系统，其中所述短语树结构是依赖性解析树结构。

9.如权利要求1-4中任一项所述的系统，还包括：

比较器装置，用于将表示当前解码器状态的解码器树节点与表示编码期间的不同编码器状态的编码器树节点进行比较；

归一化器，用于指数归一化所述比较的结果；以及

组合器装置，用于使用所述指数归一化的结果作为所述注意力权重来计算对应于所述编码器树节点的编码器组合嵌入的加权和。

10.如权利要求9所述的系统，其中使用内积、双线性函数和单层神经网络中的至少一个来执行所述比较。

11.如权利要求10所述的系统，其中所述比较测量所述源序列的所述短语树结构与所述目标序列的所述短语树结构之间的句法结构相似度。

12.如权利要求11所述的系统，其中所述源序列和所述目标序列的句法上最相似的短语树结构之间的比较产生最高的注意力权重。

13.如权利要求1-4中任一项所述的系统，其中所述令牌是基于字符的令牌。

14.如权利要求13所述的系统，其中使用实值向量对所述基于字符的令牌进行密集编码。

15.如权利要求13所述的系统，其中使用独热向量对所述基于字符的令牌进行稀疏编码。

16.如权利要求1-4中任一项所述的系统，其中所述源序列和所述目标序列两者的短语树结构包括一个或更多个基于字符的令牌成分和短语类型成分。

17.如权利要求16所述的系统，还被配置为使用固定向量作为所述源序列的所述短语树结构的不同短语类型成分的公共嵌入。

18.如权利要求16所述的系统，其中编码器组合嵌入编码一个或更多个基于字符的令牌成分，而不编码短语类型成分。

19.如权利要求1所述的系统，其中：

所述编码器是RNNG编码器，用于通过在编码器组合向量中嵌入每个短语树结构的基于字符的令牌成分，来编码所述源序列的所述令牌和所述源序列的所述短语树结构；以及

所述基于注意力的解码器是基于注意力的RNNG解码器，用于输出所述目标序列的所述令牌和所述目标序列的由短语类型分类的所述短语树结构，其中向量表示通过注意编码器组合向量计算的所述短语类型，所述注意力取决于当前的RNNG解码器状态和编码期间的RNNG编码器状态之间的比较。

20.如权利要求19所述的系统，其中使用内积、双线性函数和单层神经网络中的至少一个来执行所述比较。

21.如权利要求19-20中任一项所述的系统，其中所述比较测量所述源序列的所述短语树结构与所述目标序列的所述短语树结构之间的句法结构相似度。

22.如权利要求19-20中任一项所述的系统，其中所述源序列和所述目标序列的句法上最相似的短语树结构之间的比较产生最高的注意力权重。

23.如权利要求19-20中任一项所述的系统，还被配置为通过使用多个目标函数的加权和训练的随机策略来参数化所述RNNG编码器和所述基于注意力的RNNG解码器的解析决策。

24.如权利要求23所述的系统，其中目标函数是语言模型损失项，其奖励预测具有高可能性的下一个基于字符的令牌。

25.如权利要求23所述的系统，其中目标函数是树注意力项，其奖励所述RNNG编码器与所述基于注意力的RNNG解码器的成分之间的一对一注意力对应关系。

26.一种将第一语言的源序列翻译成第二语言的目标序列的注意力神经机器翻译方法，包括：

使用RNNG编码器编码所述源序列的令牌和所述源序列的短语树结构，其中所述源序列的所述令牌中的每个对应于来自所述源序列的字符，并且其中所述源序列的所述短语树结构中的至少一个包括：

使用RNNG解码器输出所述目标序列的令牌和所述目标序列的短语树结构，其中用于所述目标序列的每个所述短语树结构的预测短语类型的解码器嵌入是由注意力权重缩放的编码器组合嵌入的凸组合；

其中：

通过所述RNNG编码器输出所述令牌包括使用组合函数将完整的成分或所述完整的成分的部分和非终结符标签转换为单个元素；和

通过所述RNNG编码器编码所述令牌在编码时间步长上缺少用于不同短语类型的单独的非终结令牌并且不包括作为所述组合函数的输入的所述短语类型，使得与所述非终结令牌对应的值根据常量向量被固定。

27.如权利要求26所述的方法，还包括：

使用所述源序列的最终编码器组合嵌入作为用于所述目标序列的最初预测的短语类型的解码器嵌入。

28.如权利要求26所述的方法，还包括：

29.如权利要求26-28中任一项所述的方法，其中所述短语树结构是成分解析树结构。

30.如权利要求26-28中任一项所述的方法，其中所述短语树结构是依赖性解析树结构。

31.如权利要求26-28中任一项所述的方法，还包括：

将表示当前解码器状态的解码器树节点与表示编码期间的不同编码器状态的编码器树节点进行比较；

指数归一化所述比较的结果；以及

使用所述指数归一化的结果作为所述注意力权重，计算对应于所述编码器树节点的编码器组合嵌入的加权和。

32.如权利要求31所述的方法，其中使用内积、双线性函数和单层神经网络中的至少一个来执行所述比较。

33.如权利要求32所述的方法，其中所述比较测量所述源序列的所述短语树结构与所述目标序列的所述短语树结构之间的句法结构相似度。

34.如权利要求33所述的方法，其中所述源序列和目标序列的句法上最相似的短语树结构之间的比较产生最高的注意力权重。

35.如权利要求26-28中任一项所述的方法，其中所述令牌是基于字符的令牌。

36.如权利要求35所述的方法，其中使用实值向量对所述基于字符的令牌进行密集编码，或者使用独热向量对所述基于字符的令牌进行稀疏编码。

37.如权利要求26-28中任一项所述的方法，其中所述源序列和所述目标序列两者的短语树结构包括一个或更多个基于字符的令牌成分和短语类型成分。

38.如权利要求37所述的方法，还包括使用固定向量作为所述源序列的所述短语树结构的不同短语类型成分的公共嵌入。

39.如权利要求37所述的方法，其中编码器组合嵌入编码一个或更多个基于字符的令牌成分，而不编码短语类型成分。

40.如权利要求26所述的方法，还包括：

使用RNNG编码器以通过在编码器组合向量中嵌入每个短语树结构的基于字符的令牌成分，来编码所述源序列的所述令牌和所述源序列的短语树结构；以及

使用基于注意力的RNNG解码器输出所述目标序列的所述令牌和所述目标序列的由短语类型分类的短语树结构，其中向量表示通过注意编码器组合向量计算的短语类型，其中所述注意力取决于当前的RNNG解码器状态和编码期间的RNNG编码器状态之间的比较。

41.如权利要求40所述的方法，还包括使用内积、双线性函数和单层神经网络中的至少一个来执行比较。

42.如权利要求40-41中任一项所述的方法，其中所述比较测量所述源序列的所述短语树结构与所述目标序列的所述短语树结构之间的句法结构相似度。

43.如权利要求40-41中任一项所述的方法，其中所述源序列和所述目标序列的句法上最相似的短语树结构之间的比较产生最高的注意力权重。

44.如权利要求40-41中任一项所述的方法，还包括：通过使用多个目标函数的加权和训练的随机策略来参数化所述RNNG编码器和所述基于注意力的RNNG解码器的解析决策。

45.如权利要求40所述的方法，其中目标函数是语言模型损失项，其奖励预测具有高可能性的下一个基于字符的令牌。

46.如权利要求40所述的方法，其中目标函数是树注意力项，其奖励所述RNNG编码器与所述基于注意力的RNNG解码器的成分之间的一对一注意力对应关系。

47.一种非暂时性计算机可读介质，具有执行权利要求1-4中任一项所述的翻译系统的动作的计算机可执行指令。

48.一种非暂时性计算机可读介质，具有实现权利要求26-28中任一项所述的方法的计算机可执行指令。