CN111488742A

CN111488742A - 用于翻译的方法和装置

Info

Publication number: CN111488742A
Application number: CN201910765052.0A
Authority: CN
Inventors: 唐赟; 黄静; 何晓冬; 周伯文
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2020-08-04
Anticipated expiration: 2039-08-19
Also published as: CN111488742B

Abstract

本公开公开了用于翻译的方法和装置。该用于翻译的方法包括：获取输入的第一语言文本；将第一语言文本输入机器翻译模型，得到机器翻译模型输出的第二语言文本；其中，机器翻译模型为多头注意力模型，多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。本公开提高了机器翻译模型正确编码第一语言文本至中间表示、以及解码中间表示至第二语言文本的准确率。

Description

用于翻译的方法和装置

技术领域

本公开涉及计算机网络技术领域，具体涉及机器翻译技术领域，尤其涉及用于翻译的方法和装置。

背景技术

神经机器翻译(NMT)已成为最流行的机器翻译任务技术，并在各种翻译任务中展示了最先进的结果。该技术本身在过去几年中迅速发展，从基于复现的模型开始，到卷积架构以及最近的Transformer 模型。

由于Transformer模型的简单性和强大的性能，Transformer模型现在广泛应用于许多其他自然语言任务并取得了巨大成功。

Transformer在NMT上最先进的一部分性能来自于通过明确地关注自我关注层中的所有标记来更好地建模全局依赖性。通过注意权重来完成加权平均操作以从整个句子收集上下文信息。

发明内容

本公开的实施例提供了用于翻译的方法和装置。

第一方面，本公开的实施例提供了用于翻译的方法，包括：获取输入的第一语言文本；将第一语言文本输入机器翻译模型，得到机器翻译模型输出的第二语言文本；其中，机器翻译模型为多头注意力模型，多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。

在一些实施例中，基于第一语言文本的句法知识确定的注意力约束图包括：基于第一语言文本的词的关系确定的注意力约束图，第一语言文本的词的关系包括局部关系和/或全局关系。

在一些实施例中，基于第一语言文本的句法知识确定的注意力约束图包括：基于第一语言文本的依赖树所确定的注意力约束图。

在一些实施例中，多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中包括以下至少一项：多头注意力模型将基于第一语言文本的依赖树所确定的第一注意力约束图集成至编码器层的自注意层的注意头中；以及多头注意力模型将基于第一语言文本的依赖树所确定的第二注意力约束图集成至解码器层与编码器层之间的关注层的注意头中。

在一些实施例中，第一注意力约束图基于以下步骤确定：将第一语言文本的每个元素确定为第一注意力约束图中的节点；基于第一语言文本的依赖树中的词的关联关系确定第一注意力约束图中的边连接。

在一些实施例中，基于第一语言文本的依赖树中的词的关联关系确定第一注意力约束图中的边连接包括：响应于第一语言文本的依赖树中的两个词为父子关系，确定两个词在第一注意力约束图中具有边连接；响应于第一语言文本的依赖树中的两个词具有同一个父节点，确定两个词在第一注意力约束图中的具有边连接；确定第一语言文本的依赖树中的词在第一注意力约束图中具有指向自己的边连接。

在一些实施例中，第二注意力约束图基于以下步骤确定：将第一语言文本中的以下节点与第二语言文本中的查询节点相连接：非叶子节点；具有依赖结构类别的名词性节点；标点符号节点。

第二方面，本公开的实施例提供了一种用于翻译的装置，包括：获取单元，被配置成获取输入的第一语言文本；输出单元，被配置成将第一语言文本输入机器翻译模型，得到机器翻译模型输出的第二语言文本；其中，机器翻译模型为多头注意力模型，多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。

在一些实施例中，输出单元中基于第一语言文本的句法知识确定的注意力约束图包括：基于第一语言文本的词的关系确定的注意力约束图，第一语言文本的词的关系包括局部关系和/或全局关系。

在一些实施例中，输出单元中基于第一语言文本的句法知识确定的注意力约束图包括：基于第一语言文本的依赖树所确定的注意力约束图。

在一些实施例中，输出单元中的多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中包括以下至少一项：多头注意力模型将基于第一语言文本的依赖树所确定的第一注意力约束图集成至编码器层的自注意层的注意头中；以及多头注意力模型将基于第一语言文本的依赖树所确定的第二注意力约束图集成至解码器层与编码器层之间的关注层的注意头中。

在一些实施例中，输出单元中的第一注意力约束图基于以下步骤确定：将第一语言文本的每个元素确定为第一注意力约束图中的节点；基于第一语言文本的依赖树中的词的关联关系确定第一注意力约束图中的边连接。

在一些实施例中，连接确定单元中基于第一语言文本的依赖树中的词的关联关系确定第一注意力约束图中的边连接包括：响应于第一语言文本的依赖树中的两个词为父子关系，确定两个词在第一注意力约束图中具有边连接；响应于第一语言文本的依赖树中的两个词具有同一个父节点，确定两个词在第一注意力约束图中的具有边连接；确定第一语言文本的依赖树中的词在第一注意力约束图中具有指向自己的边连接。

在一些实施例中，输出单元中的第二注意力约束图基于以下步骤确定：将第一语言文本中的以下节点与第二语言文本中的查询节点相连接：非叶子节点；具有依赖结构类别的名词性节点；标点符号节点。

第三方面，本公开的实施例提供了一种电子设备/终端/服务器，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上任一所述的方法。

第四方面，本公开的实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一所述的方法。

第五方面，本公开的实施例提供了一种服务器，包括：接口；存储器，其上存储有一个或多个程序；以及一个或多个处理器，在操作上连接到上述接口和上述存储器，用于：获取输入的第一语言文本；将第一语言文本输入机器翻译模型，得到机器翻译模型输出的第二语言文本；其中，机器翻译模型为多头注意力模型，多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。

第六方面，本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当上述计算机程序被一个或多个处理器执行时，使得上述一个或多个处理器：获取输入的第一语言文本；将第一语言文本输入机器翻译模型，得到机器翻译模型输出的第二语言文本；其中，机器翻译模型为多头注意力模型，多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。

本公开的实施例提供的用于翻译的方法和装置，首先获取输入的第一语言文本；之后，将第一语言文本输入机器翻译模型，得到机器翻译模型输出的第二语言文本；其中，机器翻译模型为多头注意力模型，多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。本公开的实施例提供的用于翻译的方法和装置，由于在多头注意力模型的注意头中添加了额外的基于第一语言文本的句法知识确定的注意力约束图，提高了机器翻译模型正确编码第一语言文本至中间表示、以及解码中间表示至第二语言文本的准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的一些实施例可以应用于其中的示例性系统架构图；

图2a是根据本公开的用于翻译的方法的一些实施例的示例性流程图；

图2b示出了第一语言文本为英语时的依赖树的示例性结构图；

图2c示出了第一注意力约束图中的针对编码器层输入的“caught”的相应边连接；

图2d示出了第二注意力约束图中针对解码器层的单个元素与编码器层输入的各个元素的相应边连接；

图3a是根据本公开的实施例的用于翻译的方法的一些应用场景的示意图；

图3b示出了本公开实施例的用于翻译的方法的一个应用场景所得到的翻译结果与其它翻译结果的对比示例；

图4根据本公开的用于翻译的装置的一些实施例的示例性结构图；

图5是适于用来实现本公开的实施例的电子设备/终端/服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。本领域技术人员还将理解的是，虽然本公开中可使用用语“第一”、 “第二”等来描述各种语言文本等，但是这些语言文本不应被这些用语限制。这些用语仅用于将一个语言文本与其它语言文本区分开。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

图1示出了可以应用本公开的实施例的用于翻译的方法、装置以及用于翻译的方法、装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105 交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如搜索类应用、深度学习应用、购物类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是支持各类客户端应用的各种电子设备，包括但不限于平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、 102、103提供支持的后台服务器。后台服务器可以对接收到的请求等数据进行分析等处理，并将处理结果反馈给终端设备。

需要说明的是，在实践中，本公开的实施例所提供的用于翻译的方法可以由终端设备101、102、103执行，也可以由服务器105执行。相应地，用于翻译的装置可以设置于终端设备101、102、103中，也可以设置于位于服务器105中。在此不做具体限定。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端、网络和服务器。

继续参考图2a，图2a示出了根据本公开的用于翻译的方法的一些实施例的示意性流程图。

如图2a所示，用于翻译的方法200，包括：

在步骤210中，获取输入的第一语言文本。

在本实施例中，用于翻译的方法的执行主体(例如图1所示的终端或服务器)可以首先获取人工或机器输入的第一语言文本。

在这里，第一语言文本为机器翻译模型可以翻译的任意一种语言。例如，第一语言文本可以为汉语、法语、俄语、西班牙语、阿拉伯语或英语等。

在步骤220中，将第一语言文本输入机器翻译模型，得到机器翻译模型输出的第二语言文本。

在本实施例中，机器翻译模型为多头注意力模型，多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。

其中，机器翻译模型是训练后具有语言翻译能力的机器学习模型，用于将第一语言文本作为输入，对第一语言文本进行分词，之后将每个词的信息转化为词向量序列，从而得到第一语言文本对应的向量矩阵，之后将向量矩阵输入编码器，得到编码器输出的中间表示，最后采用解码器解码中间表示，输出第二语言文本。

机器学习的英文全称为Machine Learning，简称ML。机器学习模型可以通过样本学习具备翻译能力。机器学习模型可以采用神经网络模型、支持向量机或者逻辑回归模型等。神经网络模型比如卷积神经网络、循环神经网络、Transformer模型、反向传播神经网络、反馈神经网络、径向基神经网络或者自组织神经网络等。

多头注意力模型，是指具有多个注意头的采用注意力(Attention) 机制的模型。Attention机制的本质来自于人类视觉注意力机制。 Attention函数的本质可以被描述为一个查询(Query)到一系列键-值 (Key-Value)对的映射。

采用多头注意力模型的机器翻译模型，可以将多头注意力模型应用于机器翻译模型的编码器层和/或解码器层。

在计算注意力时，可以将输入序列中的构成元素(包括词、标点符号等)想象成是由一系列的<Key,Value>数据对构成，此时给定输出序列中的某个元素查询(Query)，可以执行以下三个步骤：第一步骤是将Query和每个Key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；第二个步骤一般是使用一个softmax函数对这些权重进行归一化；第三个步骤是将权重和相应的键值Value进行加权求和得到最后的Attention。所以，Attention机制本质上是对输入序列中元素的Value值进行加权求和，而Query和Key用来计算对应Value的权重系数。目前在自然语言处理(NLP)研究中，Key 和Value通常相同，即Key＝Value。

在获得多头注意力(Multi-head Attention)的结果时，每个注意头用于总结输入序列中的词的上下文信息的不同部分。首先，Query， Key，Value需要做k次变换，每一次变换对应一个注意头。并且，每次Query，Key，Value进行线性变换的参数矩阵W各不相同。然后，可以将k次的放缩点积的Attention结果进行拼接。之后，将拼接结果再进行一次线性变换得到的值作为多头Attention的结果。这一获得多头注意力的结果的过程，可以允许模型在不同的表示子空间里学习到相关的信息。

应当理解，当多头注意力模型用于机器翻译模型的编码器层时，上述的输入序列为第一语言文本对应的向量矩阵，输出序列为中间表示；当多头注意力模型用于机器翻译模型的解码器层时，输入序列为中间表示，输出序列为第二语言文本。

当基于第一语言文本的句法知识确定的注意力约束图时，可以根据第一语言文本的各个组成元素以及各个组成元素在句子中的排列顺序，得到约束图的顶点和连接关系。

例如，可以根据第一语言文本的所有组成元素得到约束图的顶点，以及根据第一语言文本的所有组成元素在句子中的排列顺序得到约束图的顶点之间的连接关系。

又例如，可以根据第一语言文本的部分重要的组成元素得到约束图的顶点，以及根据第一语言文本的部分重要的组成元素在句子中的排列顺序得到约束图的顶点之间的连接关系。

基于此，上述本公开的实施例提供的用于翻译的方法，由于在多头注意力模型的注意头中添加了额外的基于第一语言文本的句法知识确定的注意力约束图，提高了机器翻译模型正确编码第一语言文本至中间表示、以及解码中间表示至第二语言文本的准确率。

在上述实施例的一些可选实现方式中，上述基于第一语言文本的句法知识确定的注意力约束图包括：基于第一语言文本的词的关系确定的注意力约束图，第一语言文本的词的关系包括局部关系和/或全局关系。

在本实现方式中，第一语言文本的词的关系可以为词的位置关系、依存关系等。第一语言文本的词的关系可以包括第一语言文本的词的局部关系。

在这里，局部关系是指查询的词与输入的词位置相邻或语义上存在依存关系。

备选地或附加地，第一语言文本的词的关系可以包括第一语言文本的词的全局关系。在这里，全局关系是指查询的词与第一语言文本中所有的元素的关系。

本实现方式中的用于翻译的方法，通过在实现机器翻译模型的多头注意力模型中，将基于第一语言文本的词的局部关系和/或全局关系确定的注意力约束图集成至注意头中，在翻译时考虑了第一语言文本中与输出的词相邻的词对输出的词的影响和/或第一语言文本中所有的词对输出的词的影响，从而提高了将第一语言文本翻译为第二语言文本的准确性。

在本实施例的一些可选实现方式中，上述基于第一语言文本的句法知识确定的注意力约束图包括：基于第一语言文本的依赖树所确定的注意力约束图。

在本实现方式中，第一语言文本的依赖树，是指表示第一语言文本中的元素的依存关系的树形图，又叫做“依存树”(dependency tree)。依赖树是机器翻译中句子结构形式的描述方式。依赖树是通过句子中的词表示句子内部的句法结构，以及表示词之间的关系的一组相关的有向连接。

示例性地，图2b示出了第一语言文本为英语时的依赖树的示例性结构图。

在图2b中，输入的第一语言文本为“When they left,I packed a suitcase andcaught the frst train to London.”其中，第一语言文本进行分词后得到的元素分别包括：“When”、“they”、“left”、“,”、“I”、“packed”、 “a”、“suitcase”、“and”、“caught”、“the”、“frst”、“train”、“to”、“London”、 “.”。

在依赖树中，最高级别的头部依赖关系，是依赖树中的子节点的根节点，可以被视为谓词与其在句子中的自变量之间的语义关系的近似。例如，图2b中的“I packedsuitcase caught”。

对于依赖树的较低级别，子节点可以被视为对父节点的修饰语和对父节点的约束。例如，子节点“frst”和子节点“London”可以被视为对父节点“train”的修饰语和对父节点“train”的约束。

本实现方式中的用于翻译的方法，通过在实现机器翻译模型的多头注意力模型中，将基于第一语言文本的依赖树所确定的注意力约束图集成至注意头中，从而在翻译时考虑了输入序列中的元素之间所存在的依存关系对输出的元素的影响，从而提高了将第一语言文本翻译为第二语言文本的准确性。

在本实施例的一些可选实现方式中，上述实施例中的多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中包括以下至少一项：多头注意力模型将基于第一语言文本的依赖树所确定的第一注意力约束图集成至编码器层的自注意层的注意头中；以及多头注意力模型将基于第一语言文本的依赖树所确定的第二注意力约束图集成至解码器层与编码器层之间的关注层的注意头中。

在本实现方式中，多头注意力模型包括堆叠的编码器层和解码器层。单个编码器层包括自注意层和位置前馈层。单个解码器层类似于编码器层，但在编码器层和解码器层之间具有额外的关注层。在给定当前解码器状态的情况下，该关注层被应用于编码器层的输出序列。

在将注意力约束图C添加至注意头中时，注意力约束图C可以指导机器翻译模型的输入序列x中所选的元素对的注意权重。C_i是指注意力约束图中的第i个顶点。

在将注意力约束图添加至注意头中之前，对于给定的具有N个元素的输入序列x＝(x₁,x₂,…,x_N)，以及具有M个元素的查询序列 y＝(y₁,y₂,…,y_M)，编码器层的自注意力层、解码器层与编码器层之间的关注层的注意力结果可以表示为如下公式：

在这里，x_i,y_j∈R^d，也即x_i,y_j分别属于d维实数空间，分别为一个d维的向量；注意力的输出序列为：z＝(z₁,z₂,…,z_M)；

是第 i个元素的注意力输出；d_z＝d/k，其中，d为词向量序列的维度，k为多头注意力模型在添加注意力约束图之前的原始注意头的个数；

为机器翻译模型中针对输出序列、输入序列和注意力结果序列进行线性参数变换的矩阵；j是连接操作。

在上述的编码器层的自注意力层中，查询序列y＝(y₁,y₂,…,y_M)等于输入序列x＝(x₁,x₂,…,x_N)。

将k个注意力头连接起来，可以得到注意力机制最终的注意力输出公式：

O＝(O₁,O₂,…,O_M)，O_i∈R^d。其中，

O_i＝[z_i,1|z_i,2,…|z_i,k]W_O (4)

在这里，z_i,k是多头注意力模型的第i个元素的k个注意头输出，

是维度为d_z×d的进行线性参数变换的矩阵。

在将注意力约束图C添加至注意头中之后，注意力约束图C可以进一步指导多头注意力模型计算输入序列x＝(x₁,x₂,…,x_N)中的元素相对于被查询的元素的注意力权重。对于注意力约束图C所增加的注意头输出的注意力，上述的公式(1)、(2)，将被改写为以下公式：

这些注意力约束图C所增加的注意头输出的注意力，用于增加原始注意头输出的注意力。将注意力约束图的注意头添加至原始注意头，可以在从依赖树派生的约束图有解析错误时和/或在从依赖树派生的约束图过滤掉输入序列x＝(x₁,x₂,…,x_N)中的某些元素出现信息丢失时，避免输出错误的翻译结果。通过修改公式(4)，可以得到以下公式：

是约束图C的约束下的第i个元素的第

个注意头输出，

为约束图C所增加的注意头的数量。

本实现方式中的用于翻译的方法，通过在实现机器翻译模型的多头注意力模型中，将基于第一语言文本的依赖树所确定的第一注意力约束图集成至编码器层的自注意层的注意头中，以及将基于第一语言文本的依赖树所确定的第二注意力约束图集成至解码器层与编码器层之间的关注层的注意头中，在翻译的编码和解码过程中分别考虑了输入序列中各个元素与输出的元素之间的依存关系对输出的元素的影响，从而提高了将第一语言文本翻译为第二语言文本的准确性。

在本实施例的一些可选实现方式中，第一注意力约束图基于以下步骤确定：将第一语言文本的每个元素确定为第一注意力约束图中的节点；基于第一语言文本的依赖树中的词的关联关系确定第一注意力约束图中的边连接。

在本实现方式中，基于依赖树，可以确定以下信息：1)词与其父节点，子节点和兄弟节点具有相对密切的关系；2)非叶节点处的词由句子的骨结构组成，并提供主句信息；叶节点中的单词与句子细节更相关。因此，基于依赖树的句法知识，可以根据输入序列中的元素在树中的位置来定义两个输入序列中的词的接近程度；并且可以根据它们在树中的位置来选择句子中词的重要性。

进一步地，可以先将第一语言文本中的元素确定为第一注意力约束图中的节点；再基于第一语言文本的依赖树中的词的关联关系确定第一注意力约束图中的边连接，从而得到第一注意力约束图。例如，可以将第一语言文本中的所有元素或部分重要的元素确定为第一注意力约束图中的节点；基于第一语言文本的依赖树中的词的所有关联关系或对应部分重要的元素的全部或部分关联关系来确定第一注意力约束图中的边连接。具体地，第一语言文本的依赖树中的词的部分关联关系，可以为所有关联关系中最为重要的部分关联关系。

在一些具体的示例中，基于第一语言文本的依赖树中的词的关联关系确定第一注意力约束图中的边连接可以包括：响应于第一语言文本的依赖树中的两个词为父子关系，确定两个词在第一注意力约束图中具有边连接；响应于第一语言文本的依赖树中的两个词具有同一个父节点，确定两个词在第一注意力约束图中的具有边连接；确定第一语言文本的依赖树中的词在第一注意力约束图中具有指向自己的边连接。

在本示例的编码器层中，基于第一注意力约束图的注意头被应用于每个编码器层中的自注意层。输入序列x中的每个元素x_j被视为第一注意力约束图中的节点。在第一语言文本的依赖树中高度相关的元素，可以通过第一注意力约束图中的边连接。该第一注意力约束图源自依赖树，如下公式所示：

如果只有e_i，j＝1，则元素j∈C_i。在依赖树中，父节点与子节点之间存在有向连接，连接的类型显示父节点与子节点在句子中的关系。

此外，节点及其兄弟节点通过语法树中的父节点连接。它们在依赖树中只有两跳，通常与父节点一起成为有意义的短语，不过忽略了一些小细节。这些兄弟节点高度相关，可以在派生的注意力约束图中连接它们。需要注意的是，派生的注意力约束图是无向图而不是作为依赖树的有向图，因此注意力约束图天然地适合于注意层。

图2c示出了第一注意力约束图针对编码器层输入的“caught”的相应边连接。节点“packed”是依赖关系树中的根节点，它也是节点“caught”的父节点。节点“and”和节点“train”是节点“caught”的子节点。节点“left”、“，”、 “I”、“su@@”、“it@@”、“case”、“.”是节点“packed”的所有子节点，并且它们是节点“caught”的兄弟节点。注意，“suitcase”一词通过字节对编码 (BPE)分为三个子词“su@@”，“it@@”和“case”。它们与原始单词“suitcase”共享相同的父节点，子节点和兄弟节点。

所有这些节点形成公式(8)中节点“caught”的约束集C。编码器约束图由基于公式(8)的所有节点的所有边组成。应当理解，在图2c中，仅示出了与节点“caught”相关联的边，并且忽略其它节点对之间的边缘以避免形成拥挤的图形。

本实现方式中的用于翻译的方法，通过在实现机器翻译模型的多头注意力模型中，将基于第一语言文本的依赖树所确定的第一注意力约束图集成至编码器层的自注意层的注意头中，在翻译的编码过程中考虑了输入序列中与输出的元素之间的高度相关的各个元素对输出的元素的影响，从而提高了将第一语言文本翻译为第二语言文本的准确性。

在本实施例的一些可选实现方式中，第二注意力约束图基于以下步骤确定：将第一语言文本中的以下节点与第二语言文本中的查询节点相连接：非叶子节点；具有依赖结构类别的名词性节点；标点符号节点。

在本实现方式中，编码器和解码器之间的关注层采用第二注意力约束图来增强。在每个解码器层，解码器层与编码器层之间的关注层由来自源序列x的节点和来自当前解码器层状态为y_i的节点组成。该连接仅存在于所选节点x_j和查询节点y_i之间。

如图2d所示，图2d示出了第二注意力约束图中针对解码器层的单个元素与编码器层输入的各个元素的相应边连接。约束应用于编码器层的状态序列(Encoder States)x，并且只有下面列出的节点将具有连接解码器层的状态(Decoder State)y_i的边：非叶子节点；具有依赖结构类别的名词性节点；以及标点符号节点。

其中，非叶子节点为解析树中具有子节点的那些节点，例如图2b 中的“left”,“packed”，“su@@”、“it@@”、“case”、“caught”、“train”和 “London”。

与解码器层状态节点连接的第二类节点是具有标称dependent1的节点，例如句子中的主语和宾语。这些节点与名词或名词短语相关，并包含输入句子的唯一信息。在图2d中，节点“they”和“I”是具有依赖结构类别的名词性节点。

与解码器状态节点连接的最后一类节点是与标点符号相关联的节点，因为标点符号通常充当聚合中枢以收集句子的级别信息。示例性地，这些节点可以包含在如图2d所示的第二注意力约束图中的节点“，” 和“.”。

在解码期间，所有解码器层的状态序列共享给定第一语言文本的元素的第二注意力约束图，例如，在公式(5)和(6)中的C_i≡C。

本实现方式中的用于翻译的方法，通过在实现机器翻译模型的多头注意力模型中，将基于第一语言文本的依赖树所确定的第二注意力约束图集成至解码器层与编码器层之间的关注层的注意头中，在翻译的解码过程中考虑了输入序列中与输出的元素之间的相关的各个元素对输出的元素的影响，从而提高了将第一语言文本翻译为第二语言文本的准确性。

以下结合图3a，描述本公开的用于翻译的方法的示例性应用场景。

如图3a所示，图3a示出了根据本公开的用于翻译的方法的一些应用场景的示意性流程图。

如图3a所示，用于翻译的方法300运行于电子设备310中，可以包括：

首先，获取输入的第一语言文本301；

之后，将第一语言文本301输入机器翻译模型302，得到机器翻译模型302输出的第二语言文本303；其中，机器翻译模型302为多头注意力模型3021，多头注意力模型3021将基于第一语言文本的句法知识确定的注意力约束图3011集成至注意头3022中。

应当理解，上述图3a中所示出的用于翻译的方法的应用场景，仅为对于用于翻译的方法的示例性描述，并不代表对该方法的限定。例如，上述将第一语言文本301输入机器翻译模型302，得到机器翻译模型302输出的第二语言文本303，可以通过更多的数据处理步骤来实现，本公开对此不做限定。

如图3b所示，图3b示出了本公开实施例的用于翻译的方法的一个应用场景所得到的翻译结果与其它翻译结果的对比示例。

采用上述实施例中的用于翻译的方法，对于WMT(Workshop on MachineTranslation)任务，基础Transformer模型用作基线。有6个编码器和解码器层，8个注意头，嵌入维度d＝512和d_z＝64。前馈内层维度为1024。英语-法语的丢失为0.1，英语-德语的丢失为0.25。英语-法语任务需要20个时期训练。英语-德语任务需要100个时期训练。对于用注意力约束图增强的系统，使用StanfordNLP包提取依赖树。如果没有具体提及，则为每个注意力层或关注层增加默认的2个额外注意头。

上述WMT任务所得到的试验结果如图3b所示，显示了针对英语 -德语和英语-法语任务的newstest2014测试集的测试结果。基线模型是Transformer基础模型(表中的第一行)。竞争基线(表中的第一行) 用于与我们提出的用于翻译的方法进行比较。

图3b中的第二到第四行分别是“+GCA(Enc.)”，“+GCA(Dec.)” 和“+GCA”Transformer模型，分别在编码器层，解码器层和两者处都有注意力约束图(GCA)。

结果如图3b所示，表明在编码器层或解码器层添加额外的GCA 头可以使两个任务的波勒(BLEU)分数始终提高0.5-0.7。此外，在编码器层和解码器层模型中添加GCA头时会产生协同效应：英语-德语和英语-法语任务的BLEU分数再增加0.3到0.4。总共分别在这两个WMT任务中观察到0.8和1.1的BLEU分数改进。

本公开上述实施例提供的用于翻译的方法，由于在翻译第一语言文本时，将基于第一语言文本的句法知识确定的注意力约束图集成至实现机器翻译模型的多头注意力模型的注意头中，从而采用具有约束的注意力机制提高了将第一语言文本翻译为第二语言文本的准确性。

进一步参考图4，作为对上述各图所示方法的实现，本公开提供了一种用于翻译的装置的一些实施例，该装置实施例与图2-图3所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例的用于翻译的装置400可以包括：获取单元410，被配置成获取输入的第一语言文本；输出单元420，被配置成将第一语言文本输入机器翻译模型，得到机器翻译模型输出的第二语言文本；其中，机器翻译模型为多头注意力模型，多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。

在本实施例的一些可选实现方式中，输出单元420中基于第一语言文本的句法知识确定的注意力约束图包括：基于第一语言文本的词的关系确定的注意力约束图，第一语言文本的词的关系包括局部关系和/或全局关系。

在本实施例的一些可选实现方式中，输出单元420中基于第一语言文本的句法知识确定的注意力约束图包括：基于第一语言文本的依赖树所确定的注意力约束图。

在本实施例的一些可选实现方式中，输出单元420中的多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中包括以下至少一项：多头注意力模型将基于第一语言文本的依赖树所确定的第一注意力约束图集成至编码器层的自注意层的注意头中；以及多头注意力模型将基于第一语言文本的依赖树所确定的第二注意力约束图集成至解码器层与编码器层之间的关注层的注意头中。

在本实施例的一些可选实现方式中，输出单元420中的第一注意力约束图基于以下步骤确定：将第一语言文本的每个元素确定为第一注意力约束图中的节点；基于第一语言文本的依赖树中的词的关联关系确定第一注意力约束图中的边连接。

在本实施例的一些可选实现方式中，输出单元420中的基于第一语言文本的依赖树中的词的关联关系确定第一注意力约束图中的边连接包括：响应于第一语言文本的依赖树中的两个词为父子关系，确定两个词在第一注意力约束图中具有边连接；响应于第一语言文本的依赖树中的两个词具有同一个父节点，确定两个词在第一注意力约束图中的具有边连接；确定第一语言文本的依赖树中的词在第一注意力约束图中具有指向自己的边连接。

在本实施例的一些可选实现方式中，输出单元中420的第二注意力约束图基于以下步骤确定：将第一语言文本中的以下节点与第二语言文本中的查询节点相连接：非叶子节点；具有依赖结构类别的名词性节点；标点符号节点。

本公开的实施例还提供了一种电子设备/终端/服务器，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上任一所述的方法。

本公开的实施例还提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一所述的方法。

本公开的实施例还提供了一种服务器，包括：接口；存储器，其上存储有一个或多个程序；以及一个或多个处理器，在操作上连接到上述接口和上述存储器，用于：获取输入的第一语言文本；将第一语言文本输入机器翻译模型，得到机器翻译模型输出的第二语言文本；其中，机器翻译模型为多头注意力模型，多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。

本公开的实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当上述计算机程序被一个或多个处理器执行时，使得上述一个或多个处理器：获取输入的第一语言文本；将第一语言文本输入机器翻译模型，得到机器翻译模型输出的第二语言文本；其中，机器翻译模型为多头注意力模型，多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。

下面参考图5，其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器或终端设备)500的结构示意图。本公开的实施例中的终端设备可以包括但不限于诸如笔记本电脑、台式计算机等。图5示出的终端设备/服务器仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中，还存储有电子设备 500操作所需的各种程序和数据。处理装置501、ROM502以及RAM503 通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置 506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置 509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图5中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM502被安装。在该计算机程序被处理装置501执行时，执行本公开的实施例的方法中限定的上述功能。需要说明的是，本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取输入的第一语言文本；将第一语言文本输入机器翻译模型，得到机器翻译模型输出的第二语言文本；其中，机器翻译模型为多头注意力模型，多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。

可以以一种或多种程序设计语言文本或其组合来编写用于执行本公开的实施例的操作的计算机程序代码，所述程序设计语言文本包括面向对象的程序设计语言文本—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言文本—诸如“C”语言文本或类似的程序设计语言文本。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络 ——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元和输出单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取输入的第一语言文本的单元”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于翻译的方法，包括：

获取输入的第一语言文本；

将所述第一语言文本输入机器翻译模型，得到所述机器翻译模型输出的第二语言文本；其中，所述机器翻译模型为多头注意力模型，所述多头注意力模型将基于所述第一语言文本的句法知识确定的注意力约束图集成至注意头中。

2.根据权利要求1所述的方法，其中，所述基于所述第一语言文本的句法知识确定的注意力约束图包括：

基于所述第一语言文本的词的关系确定的注意力约束图，所述第一语言文本的词的关系包括局部关系和/或全局关系。

3.根据权利要求1所述的方法，其中，所述基于所述第一语言文本的句法知识确定的注意力约束图包括：基于所述第一语言文本的依赖树所确定的注意力约束图。

4.根据权利要求3所述的方法，其中，所述多头注意力模型将基于所述第一语言文本的句法知识确定的注意力约束图集成至注意头中包括以下至少一项：

所述多头注意力模型将基于所述第一语言文本的依赖树所确定的第一注意力约束图集成至编码器层的自注意层的注意头中；以及

所述多头注意力模型将基于所述第一语言文本的依赖树所确定的第二注意力约束图集成至解码器层与编码器层之间的关注层的注意头中。

5.根据权利要求4所述的方法，其中，所述第一注意力约束图基于以下步骤确定：

将所述第一语言文本的每个元素确定为第一注意力约束图中的节点；

基于所述第一语言文本的依赖树中的词的关联关系确定第一注意力约束图中的边连接。

6.根据权利要求5所述的方法，其中，所述基于所述第一语言文本的依赖树中的词的关联关系确定第一注意力约束图中的边连接包括：

响应于所述第一语言文本的依赖树中的两个词为父子关系，确定所述两个词在第一注意力约束图中具有边连接；

响应于所述第一语言文本的依赖树中的两个词具有同一个父节点，确定所述两个词在第一注意力约束图中的具有边连接；

确定所述第一语言文本的依赖树中的词在第一注意力约束图中具有指向自己的边连接。

7.根据权利要求4所述的方法，其中，所述第二注意力约束图基于以下步骤确定：

将所述第一语言文本中的以下节点与所述第二语言文本中的查询节点相连接：非叶子节点；具有依赖结构类别的名词性节点；标点符号节点。

8.一种用于翻译的装置，包括：

获取单元，被配置成获取输入的第一语言文本；

输出单元，被配置成将所述第一语言文本输入机器翻译模型，得到所述机器翻译模型输出的第二语言文本；其中，所述机器翻译模型为多头注意力模型，所述多头注意力模型将基于所述第一语言文本的句法知识确定的注意力约束图集成至注意头中。

9.一种服务器，包括：接口；

存储器，其上存储有一个或多个程序；以及

一个或多个处理器，在操作上连接到上述接口和上述存储器，用于：获取输入的第一语言文本；将第一语言文本输入机器翻译模型，得到机器翻译模型输出的第二语言文本；其中，机器翻译模型为多头注意力模型，多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。

10.一种计算机可读存储介质，其上存储有计算机程序，其中，当上述计算机程序被一个或多个处理器执行时，使得上述一个或多个处理器：获取输入的第一语言文本；将第一语言文本输入机器翻译模型，得到机器翻译模型输出的第二语言文本；其中，机器翻译模型为多头注意力模型，多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。