CN111310485A

CN111310485A - 机器翻译方法、装置及存储介质

Info

Publication number: CN111310485A
Application number: CN202010172133.2A
Authority: CN
Inventors: 黄书剑; 莫绪言; 何亮; 戴新宇; 张建兵; 陈家骏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-06-19
Anticipated expiration: 2040-03-12
Also published as: CN111310485B

Abstract

本公开涉及机器翻译领域，尤其涉及一种机器翻译方法、装置及存储介质。所述方法包括：根据待翻译的源端文本序列，调用编码器进行编码得到编码向量；根据编码向量，调用解码器进行解码得到中间结果；根据中间结果，通过总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布，翻译概率分布用于指示多个候选词各自对应的选取概率；根据源端文本序列中各个词语的翻译概率分布，生成源端文本序列对应的目标译文。本公开实施例通过在包括编码器和解码器的机器翻译模型中增加一层总结层的方式，避免了相关技术中使用对多头注意力做剪枝、得到的注意力作为拷贝的注意力的情况，在保证解码速度的同时，提高了机器翻译模型的翻译质量。

Description

机器翻译方法、装置及存储介质

技术领域

本公开涉及机器翻译领域，尤其涉及一种机器翻译方法、装置及存储介质。

背景技术

机器翻译(Machine Translation，MT)为通过计算机设备将一种自然语言的句子翻译成另一种自然语言的句子的翻译方式。

相关技术中，机器翻译通常采用序列到序列(Sequence to sequence，seq2seq)结构的模型，该模型由编码器(英文：encoder)和解码器(英文：decoder)组成。当该模型接收到一个文本序列时，编码器将该文本序列编码为编码向量，将编码向量输入到解码器中。该解码器从该编码向量中逐词解码出对应的译文。为了缓解一定训练不足和未登录词的影响，还可以利用预定义的双语词典在源端和目标端之前建立联系，并在该模型中引入了拷贝机制让模型学习词典中的关系。

但是上述方法中依靠注意力机制提供的软对齐方式进行拷贝，在基于注意力机制的机器翻译模型中编码器-解码器层中使用的注意力是多头的，一般使用对整个多头注意力做剪枝得到的注意力作为拷贝的注意力，导致拷贝使用的注意力和生成使用的注意力不一致，从而影响最终的翻译质量。

发明内容

有鉴于此，本公开提出了一种机器翻译方法、装置及存储介质。所述技术方案如下：

根据本公开的一方面，提供了一种机器翻译方法，用于基于注意力机制的机器翻译模型中，所述机器翻译模型包括编码器、解码器和总结层，所述方法包括：

根据待翻译的源端文本序列，调用所述编码器进行编码得到编码向量；

根据所述编码向量，调用所述解码器进行解码得到中间结果；

根据所述中间结果，通过所述总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布，所述翻译概率分布用于指示多个候选词各自对应的选取概率；

根据所述源端文本序列中各个词语的所述翻译概率分布，生成所述源端文本序列对应的目标译文。

在一种可能的实现方式中，所述编码器和所述解码器中采用的注意力为多头注意力，所述总结层用于将采用的注意力从所述多头注意力转化为具有多头注意力信息的所述单头注意力。

在另一种可能的实现方式中，所述根据所述中间结果，通过所述总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布，包括：

将所述中间结果输入至所述总结层中，得到词典词语概率分布、生成概率和注意力概率分布，所述词典词语概率分布和所述生成概率是基于所述总结层输出的结果确定的，所述注意力概率分布是基于所述总结层的注意力层得到的结果确定的；

根据所述词典词语概率分布、所述生成概率和所述注意力概率分布，计算得到当前时刻的词语对应的所述翻译概率分布。

在另一种可能的实现方式中，所述方法还包括：

获取训练样本集，所述训练样本集包括所述至少一组样本数据组，每组所述样本数据组包括样本文本序列和预先标注的正确译文；

对于所述至少一组样本数据组中的每组所述样本数据组，采用误差反向传播算法训练得到所述机器翻译模型。

在另一种可能的实现方式中，所述方法还包括：

对于至少一组所述样本数据组，为所述样本文本序列的指定词语添加预设标签，所述预设标签用于指示所述指定词语为待拷贝的词语。

在另一种可能的实现方式中，所述方法还包括：

在所述样本文本序列中加入额外词向量，所述额外词向量用于指示所述样本文本序列中的每个词语的词属性，所述词属性用于指示所述词语属于所述样本文本序列或者属于预设双语词典。

在另一种可能的实现方式中，所述方法还包括：

获取约束处理后的所述源端文本序列，所述约束处理为基于预设双语词典对所述源端文本序列中的指定词语进行约束翻译的处理；

根据约束处理后的所述源端文本序列，调用所述编码器中的所述词预测模型得到任务标签序列，所述任务标签序列用于指示约束处理后的所述源端文本序列中的各个词语是否属于所述预设双语词典。

在另一种可能的实现方式中，所述方法还包括：

获取分词模型，所述分词模型为基于至少两种分词方式进行训练得到的神经网络模型；

根据所述源端文本序列，调用所述分词模型进分词得到所述源端文本序列中的所述各个词语。

根据本公开的另一方面，提供了一种机器翻译装置，用于基于注意力机制的机器翻译模型中，所述机器翻译模型包括编码器、解码器和总结层，所述装置包括：

编码模块，用于根据待翻译的源端文本序列，调用所述编码器进行编码得到编码向量；

解码模块，用于根据所述编码向量，调用所述解码器进行解码得到中间结果；

中间层模块，用于根据所述中间结果，通过所述总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布，所述翻译概率分布用于指示多个候选词各自对应的选取概率；

生成模块，用于根据所述源端文本序列中各个词语的所述翻译概率分布，生成所述源端文本序列对应的目标译文。

在另一种可能的实现方式中，所述中间层模块，用于：

在另一种可能的实现方式中，所述装置还包括：模型训练模块；所述模型训练模块，用于：

在另一种可能的实现方式中，所述装置还包括：标签添加模块；所述标签添加模块，用于对于至少一组所述样本数据组，为所述样本文本序列的指定词语添加预设标签，所述预设标签用于指示所述指定词语为待拷贝的词语。

在另一种可能的实现方式中，所述装置还包括：词向量添加模块，所述词向量添加模块，用于在所述样本文本序列中加入额外词向量，所述额外词向量用于指示所述样本文本序列中的每个词语的词属性，所述词属性用于指示所述词语属于所述样本文本序列或者属于预设双语词典。

在另一种可能的实现方式中，所述装置还包括：辅助标签模块；所述辅助标签模块，用于：

在另一种可能的实现方式中，所述装置还包括：分词模块；所述分词模块，用于：

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述的方法。

本公开实施例通过在包括编码器和解码器的机器翻译模型中增加一层总结层的方式，在对待翻译的源端文本序列依次进行编码和解码后，根据解码得到的中间结果，通过新增的总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布，根据源端文本序列中各个词语的翻译概率分布，生成源端文本序列对应的目标译文；避免了相关技术中使用对多头注意力做剪枝、得到的注意力作为拷贝的注意力的情况，相较于相关技术中的模型，本公开实施例提供的机器翻译模型在评价指标上更佳，在保证解码速度的同时，提高了机器翻译模型的翻译质量。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出了相关技术中机器翻译方法的原理示意图；

图2示出了本公开一个示例性实施例提供的机器翻译模型的结构框图；

图3示出了本公开一个示例性实施例提供的机器翻译方法涉及的原理示意图；

图4示出了本公开一个示例性实施例提供的机器翻译方法的流程图；

图5示出了本公开另一个示例性实施例提供的机器翻译装置的结构示意图；

图6示出了本公开一个示例性实施例提供的机器翻译方法中增加噪音的原理示意图；

图7示出了本公开一个示例性实施例提供的机器翻译方法中分词方式的原理示意图；

图8示出了本公开一个示例性实施例提供的机器翻译装置的结构示意图；

图9示出了本公开一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

随着经济全球化的快速发展，跨语言交流日益频繁，机器翻译技术作为沟通不同语言之间的桥梁发挥着举足轻重的作用。机器翻译经过多年的发展，从传统的统计机器翻译(Statistic Machine Translation,SMT)发展成为现在基于神经网络的神经机器翻译(Neural Machine Translation,NMT)。相关技术中NMT的模型架构是一个端到端的结构，主要由一个编码器和一个解码器构成，编码器将源端句子编码为高维的向量，解码器再从这个高维的向量中逐词解码出对应的译文。得益于NMT使用连续的词向量表示，模型能够利用语义相近词和上下文相关信息的统计特征提升翻译质量，但同时这种方法带来了另外一种问题，即模型会生成在上下文中看起来很自然但在源端的句子中没有出现的词，例如地名和品牌名的错译，尤其在许多场景下许多专有名词，例如品牌名有着固定的翻译，错误的翻译可能会引起一些商业纠纷；同时由于NMT模型是一个端到端的模型，可以看作是一个黑盒，我们很难控制模型的输出，而在实际情境下我们可能需要一些需要保留不翻译的情况，如IBM。受限生成机器翻译(英文：Constrained Neural Machine Translation)希望在机器的训练过程让模型受到一定的约束来翻译出质量更高的句子，双语词典约束是约束中的一种。目前受限生成机器翻译主要有两个方向，第一个方向为在训练过程中利用词典信息辅助模型学习词表对应关系，第二个方向为在解码过程中通过束搜索让指定的片段出现在翻译结果中。这样在给定双语词典的情况下，可以大大改善翻译错误的问题。

目前常用的神经机器翻译方法主要分为两个模块，第一个模块是编码器，即从待翻译的源端句子编码出高维的向量，第二个模块是解码器，根据编码器得到的高维的向量并结合其他机制(如注意力机制)解码出对应的译文。注意力机制是一种软对齐的方法，部分技术利用注意力的方法为模型提供拷贝机制使得可以生成正确的短语。编码器和解码器有传统的使用循环神经网络(Recurrent Neural Network,RNN)的方法，也有使用多头的自注意力(英文：Multi-head Self-attention)的方法。

相关技术中，如图1所示，基于注意力机制的机器翻译模型10接收待翻译的句子12和约束双语对14，根据待翻译的句子12和约束双语对14通过编码器进行编码以及通过解码器进行解码后，通过特征映射网络进行特征映射，并通过softmax网络确定输出的翻译结果16。由于机器翻译模型10中编码器-解码器层中使用的注意力是多头的，一般使用对整个多头注意力做剪枝得到的注意力作为拷贝的注意力，导致拷贝使用的注意力和生成使用的注意力不一致，从而影响最终的翻译质量。

为此，本公开实施例通过在包括编码器和解码器的机器翻译模型中增加一层总结层的方式，在对待翻译的源端文本序列依次进行编码和解码后，根据解码得到的中间结果，通过新增的总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布，根据源端文本序列中各个词语的翻译概率分布，生成源端文本序列对应的目标译文；避免了相关技术中使用对多头注意力做剪枝、得到的注意力作为拷贝的注意力的情况，相较于相关技术中的模型，本公开实施例提供的机器翻译模型在评价指标上更佳，在保证解码速度的同时，提高了机器翻译模型的翻译质量。

首先，对本公开实施例中涉及的名词进行介绍：

机器翻译：是指通过计算机设备将一种自然语言的句子翻译成另一种自然语言的句子的翻译方式。通常，该机器翻译是通过训练好的机器翻译模型对句子进行翻译，示意性的，通过大量的翻译语料样本对机器翻译模型进行训练，该翻译语料样本中包括多组第一自然语言的语料和第二自然语言的语料之间的对应关系，每个第一自然语言的语料对应一个第二自然语言的语料作为翻译结果，训练完成后，用户将第一自然语言的源端句子输入该机器翻译模型后，输出得到第二自然语言的目标端句子，其中源端句子也称为源端文本序列，目标端句子也成为目标译文。

示意性的，将中文句子翻译为英文句子，中文句子即为源端句子，英文句子即为目标端句子；比如，机器翻译模型将句子“我必须解决这个问题。”翻译为句子“I must solvethe problem.”，则句子“我必须解决这个问题。”是源端句子，句子“I must solve theproblem.”是目标端句子。

编码：把一个源端文本序列表示成一个或多个编码向量，这里源端文本序列一般是不定长的文本序列。

解码：根据输入的源端文本序列对应的编码向量，输出相应的输出结果。

注意力机制：一个向量跟多个向量计算权重，并根据权重加权平均。

拷贝生成网络：一种新的文本产生系统，能自动从输入文本中复制文本片段到产生的文本中，或生成新的文本片段。

长短时记忆网络(Long Short-Term Memory，LSTM)，是一种时间循环神经网络，是为了解决一般的RNN存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。

请参考图2，其示出了本公开一个示例性实施例提供的机器翻译模型的结构框图。

该机器翻译模型通过注意力机制对序列进行建模，该机器翻译模型包括编码器21、解码器22和中间层23。编码器21与解码器22相连，解码器22与中间层23相连。

该机器翻译模型为基于拷贝机制的神经机器翻译模型。使用源语言和目标语言的平行语料进行训练，除正常的解码得到词典词语概率分布外，该模型还存在一个利用注意力的拷贝机制得到的注意力概率分布，通过门机制组合在一起，得到最终词语的翻译概率分布，使得解码生成相对应的目标端句子概率最大。

编码器21用于接收输入的待翻译的源端文本序列，根据待翻译的源端文本序列进行编码得到编码向量，将编码向量输出至解码器22。

解码器22用于接收编码器21输出的编码向量，根据编码向量，调用解码器进行解码得到中间结果，将中间结果输出至总结层。

总结层23用于接收解码器22输出的中间结果，根据中间结果，通过总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布，将当前时刻的词语对应的翻译概率分布输出。其中，翻译概率分布用于指示多个候选词各自对应的选取概率。

该机器翻译模型还用于根据源端文本序列中各个词语的翻译概率分布，生成源端文本序列对应的目标译文。

即在原有的解码器22之上再加上一层总结层23，对于源端文本序列中的每个词语，用这只有一个头的注意力做生成和拷贝，将输出结果映射到词表维度上，使用门机制将解码得到的词典词语概率分布和拷贝得到的注意力概率分布组合到一起，得到最终解码后的解码词，将源端文本序列中各个词语对应的解码词进行组合得到目标译文。

该机器翻译模型也称为神经机器翻译模型。可选的，该机器翻译模型为利用预设双语词典的受限机器翻译模型。在一个示意性的例子中，如图3所示，约束信息为英文词语“breadboard”与中文词语“电路板”存在约束关系，机器翻译模型的输入参数为英文句子“Iwant a breadboard.”，一般的输出参数为“我想要一个切面包板。”，若该机器翻译模型为包括上述约束信息的受限机器翻译模型则约束输出参数为“我想要一个电路板。”。

示意性的，本公开涉及的应用场景至少包括如下场景：

1、该机器翻译模型应用于即时通信程序中，即时通信程序能够实现实时语音翻译；如：通过上述机器翻译模型能够实现即时通信程序语音/视频过程中的实时语音翻译；

2、该机器翻译模型应用于视频播放程序中，视频播放程序能够在视频播放过程中实现对第一自然语言的字幕进行实时翻译，得到第二自然语言的字幕；

3、该机器翻译模型应用于文档翻译软件中，可以用于实现对文档类内容快速准确的翻译；

4、该机器翻译模型应用于文章资讯阅读中，可以用于实现对国外资讯、文章或将自有内容进行翻译；

5、该机器翻译模型应用于外文网站翻译中，可以用于实现对国外电商网站、海淘服务网站的便捷访问

6、该机器翻译模型应用于电子词典中，能够实现各种语言的快速准确的翻译查询；

7、该机器翻译模型应用于翻译机等实时翻译工具时，用户能够通过该实时翻译工具实现快速应答，如：在跨国会议场景中、境外旅游中。

需要说明的是，上述应用场景仅为示意性的举例，本公开实施例对此不加以限定。

图4示出了本公开一个示例性实施例提供的机器翻译方法的流程图，以该方法应用于计算机设备中为例进行说明，该计算机设备包括如上述图2提供的机器翻译模型，如图4所示，该方法包括：

步骤401，根据待翻译的源端文本序列，调用编码器进行编码得到编码向量。

可选的，计算机设备根据待翻译的源端文本序列，调用编码器进行编码得到编码向量。

计算机设备根据分词方式对源端文本序列进行分词后，将每个词语对应的词向量进行拼接后得到的源端文本序列的词向量即源端词向量，将源端词向量输入至编码器中，输出得到高维的特征向量即编码向量。

可选的，通过编码器的自注意力机制并使用残差网络编码源端文本序列。通过反向传播算法，词向量和句子的表示会自动学到每个词语和句子的信息。

可选的，计算机设备对待翻译的源端文本序列进行预处理，预处理包括将源端文本序列中与目标端存在关联关系的词语替换成目标端的词语。

源端文本序列为第一自然语言的文本序列，目标译文为第二自然语言的文本序列，第一自然语言不同于第二自然语言。比如，第一自然语言为英文，第二自然语言为中文。本实施例对此不加以限定。

步骤402，根据编码向量，调用解码器进行解码得到中间结果。

可选的，计算机设备根据编码向量，调用解码器进行解码得到中间结果。

可选的，计算机设备将编码向量和前一刻的解码信息输入至解码器中的拷贝生成网络进行解码，得到中间结果。

可选的，计算机设备根据编码向量，基于注意力机制调用解码器进行解码得到中间结果。其中，注意力机制采用的注意力为多头注意力。

步骤403，根据中间结果，通过总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布，翻译概率分布用于指示多个候选词各自对应的选取概率。

可选的，计算机设备将中间结果输入至总结层中，得到词典词语概率分布、生成概率和注意力概率分布；根据词典词语概率分布、生成概率和注意力概率分布，计算得到当前时刻的词语对应的翻译概率分布。

其中，词典词语概率分布和生成概率是基于总结层输出的结果确定的，注意力概率分布是基于总结层的注意力层得到的结果确定的。

词典词语概率分布用于指示对预处理后的源端文本序列的注意力分布，生成概率用于指示词典词语概率分布在翻译概率分布中的比重，注意力概率分布用于指示基于单头注意力的拷贝词语的概率分布。

其中，编码器和解码器中采用的注意力为多头注意力，总结层用于将采用的注意力从多头注意力转化为具有多头注意力信息的单头注意力。

步骤404，根据源端文本序列中各个词语的翻译概率分布，生成源端文本序列对应的目标译文。

对于源端文本序列中的每个词语，计算机设备通过总结层采用单头注意力得到该词语对应的翻译概率分布，根据翻译概率分布将概率最大的候选词作为该词语的解码词。计算机设备将源端文本序列中各个词语对应的解码词进行组合得到目标译文。

综上所述，本公开实施例通过在包括编码器和解码器的机器翻译模型中增加一层总结层的方式，在对待翻译的源端文本序列依次进行编码和解码后，根据解码得到的中间结果，通过新增的总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布，根据源端文本序列中各个词语的翻译概率分布，生成源端文本序列对应的目标译文；避免了相关技术中使用对多头注意力做剪枝、得到的注意力作为拷贝的注意力的情况，相较于相关技术中的模型，本公开实施例提供的机器翻译模型在评价指标上更佳，在保证解码速度的同时，提高了机器翻译模型的翻译质量。

基于图2提供的机器翻译模型，该机器翻译模型包括编码器21、解码器22和总结层23，请参考图5，其中，编码器21中包括多头注意力模块211和前馈神经网络模块212；解码器22中包括遮掩多头注意力模块221、多头注意力模块222以及前馈神经网络模块223；总结层23中包括遮掩多头注意力模块231、注意力层232以及前馈神经网络模块233。该机器翻译模块100中还包括softmax网络24。

计算机设备获取待翻译的源端文本序列，将源端文本序列的词向量输入至机器翻译模型100。

机器翻译模型100的输入参数是源端文本序列的词向量，该源端文本序列的词向量是根据分词方式对源端文本序列进行分词后，将每个词语对应的词向量进行拼接后得到的。

源端文本序列的词向量通过编码器21进行编码以及通过解码器22进行解码后，通过总结层23的注意力层得到的结果确定注意力概率分布；通过总结层23得到输出结果，该输出结果通过特征映射网络进行特征映射，并通过softmax网络24确定词典词语概率分布和生成概率。计算机设备根据词典词语概率分布、生成概率和注意力概率分布，通过门机制计算得到当前时刻的词语对应的翻译概率分布。

即词典词语概率分布和生成概率是基于总结层23输出的结果确定的，注意力概率分布是基于总结层23的注意力层得到的结果确定的。

该机器翻译模型用于通过反向传播(Back Propagation，BP)自动学习注意力概率分布和词典词语概率分布以及生成概率。

以生成概率为p_gen为例，通过如下公式计算得到当前时刻的词语对应的翻译概率分布：翻译概率分布＝词典词语概率分布*p_gen+注意力概率分布*(1-p_gen)。

在一种可能的实现方式中，机器翻译模型的训练过程包括但不限于以下几个步骤：计算机设备获取训练样本集，训练样本集包括至少一组样本数据组，每组样本数据组包括样本文本序列和预先标注的正确译文；对于至少一组样本数据组中的每组样本数据组，采用误差反向传播算法训练得到机器翻译模型。

基于上述的模型，为了加强拷贝的成功率以及拷贝的准确性，本公开实施例提供了如下几种加强拷贝机制的方法：1、通过在数据上加上人工标签与在训练时加入噪音的做法，让机器翻译模型自动学习；2、通过加入额外词向量的方式，强化机器翻译模型学习需要复制的词语；3、通过联合训练加强总结层中的注意力的软对齐机制；4、拷贝时存在拷贝连续多个词会导致复制不准确，使用分词模型将文本分为字节对编码(byte pair encoder，BPE)的结果和拷贝总体的结果，方便拷贝注意力进行直接拷贝。下面仅采用示例性的实施例依次对这几种加强拷贝机制的方法进行介绍。

在一种可能的实现方式中，通过添加预设标签的方式强制机器模型去学习预设标签所指示的规则。

可选的，对于机器翻译模型中的训练样本集的至少一组样本数据组，为样本文本序列的指定词语添加预设标签，预设标签用于指示该指定词语为待拷贝的词语。

为需要拷贝的词语即指定词语添加预设标签，预设标签用于指示拷贝功能。比如，需要拷贝的词语即指定词语为“电路板”，为“电路板”添加预设标签后得到“[sot]电路板[eot]”。本公开实施例对指定词语和标签设置方式均不加以限定。

在一个示意性的例子中，如图6所示，在编码器21的词向量中增加噪音，比如“e₁……e_t”，在解码器22的词向量中引入噪音“f₀……f_T”，噪音与位置和当前状态有关，这样可以割裂一些源端词向量和目标端词向量的关系，强制机器翻译模型去学习预设标签所指示的规则。

在另一种可能的实现方式中，通过在输入的词向量中加入额外词向量，以区分该输入的词向量是来自输入的句子还是来自预设词典，更有利于模型的拷贝机制学习复制什么词，要不要复制的问题。

可选的，对于机器翻译模型中的训练样本集的至少一组样本数据组，在样本文本序列的样本词向量中加入额外词向量，额外词向量用于指示样本文本序列中的每个词语的词属性，词属性用于指示词语属于样本文本序列或者属于预设双语词典。

样本词向量为根据分词方式对样本文本序列进行分词后，将每个词语对应的词向量进行拼接后得到的样本文本序列的词向量。

在另一种可能的实现方式中，在拷贝机制中，使用词对齐的辅助任务帮助机器模型学习更加正确的词对齐注意力。

可选的，计算机设备获取约束处理后的源端文本序列，约束处理为基于预设双语词典对源端文本序列中的指定词语进行约束翻译的处理；根据约束处理后的源端文本序列，调用编码器中的词预测模型得到任务标签序列，任务标签序列用于指示约束处理后的源端文本序列中的各个词语是否属于预设双语词典。

词预测模型为类似命名实体识别(Named Entity Recognition,NER)任务的模型。词预测模型用于指示约束处理后的源端文本序列中的各个词语是否属于预设双语词典。

任务标签序列包括约束处理后的源端文本序列中的各个词语对应的标签。

可选的，当词语的标签为第一标签时用于指示该词语属于预设双语词典，当词语的标签为第二标签时用于指示该词语不属于预设双语词典。第一标签不同于第二标签。

可选的，当词语的标签为第一标签时用于指示该词语为源端文本序列中的第一个复制词，当词语的标签为第二标签时用于指示该词语为源端文本序列中的除第一个复制词以外的其他复制词，当词语的标签为第三标签时用于指示该词语为源端文本序列中的词语。第一标签、第二标签、第三标签为不同的三个标签。比如，第一标签为标签B，第二标签为标签I，第三标签为标签O。本实施例对此不加以限定。

在另一种可能的实现方式中，使用分词模型将文本分为字节对编码(byte pairencoder，BPE)的结果和拷贝总体的结果，方便拷贝注意力进行直接拷贝。

可选的，计算机设备获取分词模型，分词模型为基于至少两种分词方式进行训练得到的神经网络模型；根据源端文本序列，调用分词模型进分词得到源端文本序列中的各个词语。

分词模型为用于切分字词的模型，比如分词模型为BPE模型。

由于相关技术中在拷贝过程中，拷贝的准确率随着连续复制词语的增多而下降。但是在BPE之后词语大多被切为连续的词语，不益于拷贝机制；但同时词语对于生成而言非常重要，生成可以通过切分词语认识原本不认识的词语。所以本公开实施例提出一种能够综合两者优势的做法。

在一种示意性的例子中，如图7所示，源端文本序列为“他是一个有leadership的人”，使用BPE模型切分字词，即通过一种切词方式将该源端文本序列切分为8个词语，分别为“他”、“是”、“一个”、“有”、“leader@”、“@ship”、“的”、“人”；通过另一种切词方式将该源端文本序列切分为7个词语，分别为“他”、“是”、“一个”、“有”、“leadership”、“的”、“人”。计算机设备通过训练BPE模型的方式综合两者的优点。

需要说明的是，上述四种可能的实现方式可以单独实现，也可以任意两个结合实现，还可以任意三个结合实现，还可以全部四个结合实现。本实施例对此不加以限定。

综上所述，从技术层面来说，本公开的技术方案带来的有益效果包括但不限于以下几个方面：(1)、通过融合预设双语词典的信息，不需要额外的人工干预，机器翻译模型可以自动选择正确的翻译结果。(2)、引入拷贝机制，显式的使用拷贝机制从源端拷贝目标词语，加上词向量之间的联系，提高拷贝几率。(3)、通过增加一个总结层的方法，将最终使用的注意力从多头的注意力转化为具有多头注意力信息的单头注意力，使得生成和拷贝使用同一个注意力。(4)、同时，通过训练过程中预设双语词典的限制，缓解了机器翻译模型在翻译任务中可能出现翻译出错的问题。(5)、在解码端没有过多的限制，保证了机器翻译模型的解码翻译速度。

从应用层面来说，本公开的技术方案带来的有益效果包括但不限于以下几个方面：(1)、在给定预设双语词典的情况下，可以利用约束词典的受限机器翻译模型提高生成译文的概率。这样可以缓解在实际使用中因为领域适应问题或者是上下文而误译的问题。(2)、由于在解码端并没有使用束搜索加以限制，所以保证了较快的翻译生成速度。(3)、实际使用时可以根据所在的领域调整词表，缓解了机器翻译模型在生成的结果上出现的领域偏置问题。(4)、引入拷贝机制，使得模型注意力得到一定训练且可以从源端较准确的拷贝词语，提高生成词语即译文的准确率且可以缓解未登录词和稀有词的影响。

以下为本公开实施例的装置实施例，对于装置实施例中未详细阐述的部分，可以参考上述方法实施例中公开的技术细节。

请参考图8，其示出了本公开一个示例性实施例提供的机器翻译装置的结构示意图。该机器翻译装置可以通过软件、硬件以及两者的组合实现成为计算机设备的全部或一部分。该机器翻译装置用于基于注意力机制的机器翻译模型中，机器翻译模型包括编码器、解码器和总结层，该装置包括：编码模块810、解码模块820、中间层模块830和生成模块840；

编码模块810，用于根据待翻译的源端文本序列，调用编码器进行编码得到编码向量；

解码模块820，用于根据编码向量，调用解码器进行解码得到中间结果；

中间层模块830，用于根据中间结果，通过总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布，翻译概率分布用于指示多个候选词各自对应的选取概率；

生成模块840，用于根据源端文本序列中各个词语的翻译概率分布，生成源端文本序列对应的目标译文。

在一种可能的实现方式中，编码器和解码器中采用的注意力为多头注意力，总结层用于将采用的注意力从多头注意力转化为具有多头注意力信息的单头注意力。

在另一种可能的实现方式中，中间层模块830，用于：

将中间结果输入至总结层中，得到词典词语概率分布、生成概率和注意力概率分布，词典词语概率分布和生成概率是基于总结层输出的结果确定的，注意力概率分布是基于总结层的注意力层得到的结果确定的；

根据词典词语概率分布、生成概率和注意力概率分布，计算得到当前时刻的词语对应的翻译概率分布。

在另一种可能的实现方式中，该装置还包括：模型训练模块；模型训练模块，用于：

获取训练样本集，训练样本集包括至少一组样本数据组，每组样本数据组包括样本文本序列和预先标注的正确译文；

对于至少一组样本数据组中的每组样本数据组，采用误差反向传播算法训练得到机器翻译模型。

在另一种可能的实现方式中，该装置还包括：标签添加模块；标签添加模块，用于对于至少一组样本数据组，为样本文本序列的指定词语添加预设标签，预设标签用于指示指定词语为待拷贝的词语。

在另一种可能的实现方式中，该装置还包括：词向量添加模块，词向量添加模块，用于在样本文本序列中加入额外词向量，额外词向量用于指示样本文本序列中的每个词语的词属性，词属性用于指示词语属于样本文本序列或者属于预设双语词典。

在另一种可能的实现方式中，该装置还包括：辅助标签模块；辅助标签模块，用于：

获取约束处理后的源端文本序列，约束处理为基于预设双语词典对源端文本序列中的指定词语进行约束翻译的处理；

根据约束处理后的源端文本序列，调用编码器中的词预测模型得到任务标签序列，任务标签序列用于指示约束处理后的源端文本序列中的各个词语是否属于预设双语词典。

在另一种可能的实现方式中，该装置还包括：分词模块；分词模块，用于：

获取分词模型，分词模型为基于至少两种分词方式进行训练得到的神经网络模型；

根据源端文本序列，调用分词模型进分词得到源端文本序列中的各个词语。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各个功能模块的划分进行举例说明，实际应用中，可以根据实际需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

请参考图9，其示出了本公开一个示例性实施例提供的计算机设备的结构示意图，该计算机设备为终端或者服务器。该计算机设备包括：处理器91、接收器92、发送器93、存储器94和总线95。存储器94通过总线95与处理器91相连。

处理器91包括一个或者一个以上处理核心，处理器91通过运行软件程序以及模块，从而执行各种功能应用以及信息处理。

接收器92和发送器93可以实现为一个通信组件，该通信组件可以是通信芯片，通信芯片中可以包括接收模块、发射模块和调制解调模块等，用于对信息进行调制和/或解调，并通过无线信号接收或发送该信息。

存储器94可用于存储处理器91可执行指令。

存储器94可存储至少一个功能所述的应用程序模块96。应用程序模块96可以包括：编码模块961、解码模块962、中间层模块963和生成模块964。

处理器91用于执行编码模块961以实现上述各个方法实施例中由计算机设备执行的有关编码步骤的功能；处理器91用于执行解码模块962以实现上述各个方法实施例中由计算机设备执行的有关解码步骤的功能；处理器91用于执行中间层模块963以实现上述各个方法实施例中由计算机设备执行的有关中间层计算步骤的功能；处理器91用于执行生成模块964以实现上述各个方法实施例中由计算机设备执行的有关生成步骤的功能。

此外，存储器94可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随时存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

本公开实施例还提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令被处理器执行时实现上述各个方法实施例中的方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种机器翻译方法，其特征在于，用于基于注意力机制的机器翻译模型中，所述机器翻译模型包括编码器、解码器和总结层，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述编码器和所述解码器中采用的注意力为多头注意力，所述总结层用于将采用的注意力从所述多头注意力转化为具有多头注意力信息的所述单头注意力。

3.根据权利要求1所述的方法，其特征在于，所述根据所述中间结果，通过所述总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：

9.一种机器翻译装置，其特征在于，用于基于注意力机制的机器翻译模型中，所述机器翻译模型包括编码器、解码器和总结层，所述装置包括：

10.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至8中任意一项所述的方法。