CN111401080A

CN111401080A - 神经机器翻译方法以及神经机器翻译装置

Info

Publication number: CN111401080A
Application number: CN201811533465.8A
Authority: CN
Inventors: 张家俊; 周玉; 赵阳; 宗成庆; 杨里
Original assignee: Institute of Automation of Chinese Academy of Science; Boeing Co
Current assignee: Institute of Automation of Chinese Academy of Science; Boeing Co
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2020-07-10

Abstract

本申请公开了神经机器翻译方法以及神经机器翻译装置。该神经机器翻译方法，包括：获取待翻译的源语句以及作为源语句的候选译文的目标语句，以形成原始训练语料，计算源语句中包含的每个单词的翻译熵；判断每个单词的翻译熵是否大于预定阈值；根据判断结果，将翻译熵大于预定阈值的单词确定为易漏翻的单词；将易漏翻的单词的候选译文替换为预先设定的字符，以形成新目标语句；根据源语句与新目标语句形成新训练语料；基于原始训练语料和新训练语料来对神经机器翻译模型进行参数训练，以及利用经参数训练的神经机器翻译模型执行机器翻译。

Description

神经机器翻译方法以及神经机器翻译装置

技术领域

本发明涉及自然语言处理技术领域，更具体地，涉及能够降低漏翻率的神经机器翻译方法以及装置。

背景技术

近年来，利用深度学习模型所构建的神经机器翻译(NMT，Neural MachineTranslation)越来越受到人们的关注。神经机器翻译是指直接采用神经以端到端(End-to-End)方式进行翻译建模的机器翻译方法，其基本思想是使用神经直接将源语言映射成目标语言文本。英国牛津大学的Nal Kalchbrenner和Phil Blunsom于2013年首先提出了端到端的神经翻译模型。他们为机器翻译提出了一个“编码器-解码器”的新框架：给定一个源语言句子，首先使用一个编码器将其映射为一个连续、稠密的向量，然后再使用一个解码器将该向量转化为一个目标语言句子。随着深度学习技术的发展，神经机器翻译模型被广泛研究，并展现出了相较于统计机器翻译模型的巨大优势。

神经机器翻译在翻译性能上的不断提升，也促进了工业界机器翻译的发展。Junczys-Dowmunt等人在联合国平行语料库(United Nations Parallel Corpus v1.0)30个语言对上开展了对比工作。实验表明，以BLEU值为评测指标，与传统的统计机器翻译相比，神经机器翻译具有压倒性的优势：神经机器翻译在27个语言对上超过了基于短语的统计机器翻译，仅在2 个语言对上以微弱的劣势落败。值得注意的是，神经机器翻译在涉及汉语的翻译任务上比基于短语的统计机器翻译系统能够提高4至9个BLEU 点，性能提高尤其显著。从2015年以来，神经机器翻译已经取代统计机器翻译成为百度、谷歌、搜狗等商用在线翻译系统的核心技术。

然而，机器翻译这一人工智能的分支还远未得到完全解决。虽然端到端神经机器翻译近年来获得了迅速的发展，但仍存在许多重要问题有待解决。神经机器翻译采用自回归的解码方式，当编码器对源语言编码完成之后，解码器按照从左到右依次生成目标语言单词。也就是说，目标端预测当前时刻单词时，仅仅能依靠目标端先前产生的单词和源语言，而不能充分利用未来信息，从而存在单词漏翻问题。基于单词漏翻问题，在原始的模型的基础上引入了注意力机制而发展成注意力模型(attention model)，然而，在实际使用过程中，发现注意力模型依然存在漏翻的问题，继而发展了覆盖模型(coverage model)和重构模型(reconstruction model)。其中，覆盖模型是在注意力模型的基础上还考虑覆盖向量，所谓覆盖向量是由之前状态的注意力向量累加而成，用来衡量某个源语言单词的覆盖度，并将前一时刻的覆盖向量去影响下一时刻的注意力权重。重构模型是希望编码器端的信息能够完全传递到解码器端，希望编码器端的隐层状态能够完全恢复出源语言。

然而，覆盖模型和重构模型都无法完全解决神经机器中的漏翻问题，并且现有的覆盖模型和重构模型仅仅关注到模型层面，增加了模型复杂度，但漏翻现象仍然存在。

因此，期望一种能够降低漏翻的神经机器翻译方法而并不会增加模型的复杂度。

发明内容

基于上述技术问题，本申请的发明人通过统计分析，发现熵高的单词容易漏翻，因此通过构造一种中间语言来降低单词的熵，并利用构造的中间语言来缓解漏翻现象。

根据本发明的一个实施方式，提供一种神经机器翻译方法，包括：获取待翻译的源语句以及作为源语句的候选译文的目标语句，以形成原始训练语料，计算源语句中包含的每个单词的翻译熵；判断每个单词的翻译熵是否大于预定阈值；根据判断结果，将翻译熵大于预定阈值的单词确定为易漏翻的单词；将易漏翻的单词的候选译文替换为预先设定的字符，以形成新目标语句；根据源语句与新目标语句形成新训练语料；基于原始训练语料和新训练语料来对神经机器翻译模型进行参数训练，以及利用经参数训练的神经机器翻译模型执行机器翻译。

在一个示例中，计算源语句中包含的每个单词的翻译熵包括：获取每个单词的多个候选译文和每个候选译文的翻译概率，翻译概率表示候选译文是对应的单词的目标译文的概率，根据每个单词的候选译文的数量以及各个候选译文的翻译概率计算每个单词的翻译熵，其中，翻译熵的计算公式表达为如下：

其中，s指示单词，K表示单词s的候选译文的数量，p_k表示每个候选译文的翻译概率，以及E(s)表示单词s的翻译熵。

在一个示例中，基于原始训练语料和新训练语料来对神经机器翻译模型进行参数训练包括：基于原始训练语料和新训练语料，采用极大似然目标函数，使用梯度下降法对神经机器翻译模型进行参数训练。

在一个示例中，原始训练语料由

表示，新训练语料由

表示，极大似然目标函数为：

其中，N代表源语句数量，n表示第n个语句，X^{n}表示源语句，Y^{n}表示目标语句，Z^{n}表示新目标语句，λ为修正系数，p()表示通过神经机器翻译模型得到的翻译概率，θ表示神经机器翻译模型的参数，D表示所有语料并且 D＝D_xy∪D_xz。

在一个示例中，修正系数为0.4～0.6。

在一个示例中，该方法还包括：建立每个易漏翻的单词与针对每个易漏翻的单词的预先设定的字符的对应关系信息库，以及将对应关系信息库存储于存储器中。

在一个示例中，将易漏翻的单词的候选译文替换为预先设定的字符包括：从对应关系信息库查询针对每个易漏翻的单词的预先设定的字符，以及根据对齐关系将易漏翻的单词的候选译文替换为对应的预先设定的字符。

在一个示例中，神经机器翻译模型包括端到端模型、编码器-解码器模型、覆盖率模型以及重构模型。

在一个示例中，预定数值大于等于4。

根据本申请的另一实施方式，提供一种神经机器翻译装置，包括：获取单元，被配置为获取待翻译的源语句以及作为源语句的候选译文的目标语句，以形成原始训练语料；计算单元，被配置为计算来自获取单元的源语句中包含的每个单词的翻译熵；判断单元，被配置为从计算单元接收每个单词的翻译熵并判断每个单词的翻译熵是否大于预定阈值；确定单元，被配置为根据判断单元的判断结果，将翻译熵大于预定阈值的单词确定为易漏翻的单词；替换单元，被配置为从确定单元接收易漏翻的单词并将易漏翻的单词的候选译文替换为预先设定的字符，以形成新目标语句，其中，根据源语句与新目标语句形成新训练语料；训练单元，被配置为从获取单元接收原始训练语料以及从替换单元接收新训练语料，并基于原始训练语料和新训练语料来对神经机器翻译模型进行参数训练；以及翻译单元，被配置为利用经参数训练的神经机器翻译模型执行机器翻译。

本发明的范围由权利要求限定，这些权利要求通过引用方式结合到该部分中。通过考虑一个或多个实施方式的以下详细描述，本领域技术人员将更加全面地理解本发明的实施方式，以及实现其附加优点。

附图说明

已讨论的特征、功能和优势可以各种实施方式独立实现或也可结合在其他实施方式中，参考以下描述和附图可了解其更多细节：

图1是示出了根据本申请的实施方式的神经机器翻译方法的流程图；

图2是示出了根据本申请的另一实施方式的神经机器翻译方法的流程图；

图3是示出了根据本申请的实施方式的神经机器翻译装置的框图。

具体实施方式

本申请的实施方式意识并考虑到神经机器翻译容易漏翻高熵词，原因如下：i)一般而言，高熵词的候选译文比较多，相比于低熵词，神经机器翻译则更难学习到高熵词与其候选译文的对应关系，这样导致高熵词容易漏翻。ii)相比低熵词而言，高熵词的正确译文的翻译概率往往较低，机器翻译在解码阶段往往会选择具有最大翻译概率的句子作为最终结果，这就导致高熵词的候选翻译在解码阶段被丢掉，从而导致高熵词的漏翻。

本申请的实施方式意识并考虑到给定训练数据，通过原始的统计方法，可以获得每个单词的候选翻译以及与之相对应的翻译概率，假设一个单词s具有K个候选翻译，每个候选翻译的翻译概率分别记为p_k，那么翻译熵被计算为：

将翻译熵高于一定阈值的单词定义为易漏翻的单词，然后根据对齐关系(通过之前的统计方法，https://github.com/clab/fast_align.)，将易漏翻的单词的候选翻译全部替换为某个特殊字符，形成中间目标语言，随后利用所形成的中间目标语言进行预训练来优化原始的神经机器翻译模型。试验证明经过优化的神经机器翻译模型能够缓解漏翻现象。具体地，给定平行语料(源语言和目标语言)，通过fast_align工具，可以得到源语言单词和目标语言单词之间是否互为翻译，由此称之为对齐关系。

具体地，如图1所示，其中图1是示出了根据本申请的实施方式的神经机器翻译方法的流程图。神经机器翻译方法包括：步骤S100，获取待翻译的源语句以及作为源语句的候选译文的目标语句，以形成原始训练语料；步骤S101，计算源语句中包含的每个单词的翻译熵；步骤S102，判断每个单词的翻译熵是否大于预定阈值；步骤S103，根据判断结果，将翻译熵大于预定阈值的单词确定为易漏翻的单词；步骤S104，将易漏翻的单词的候选译文替换为预先设定的字符，以形成新目标语句；步骤S105，根据源语句与新目标语句形成新训练语料；步骤S106，基于原始训练语料和新训练语料来对神经机器翻译模型进行参数训练；以及步骤S107，利用经参数训练的神经机器翻译模型执行机器翻译。

具体地，这里我们将利用如下例子进行说明，假设训练数据中存在如下两句平行句对作为原始训练语料。

句子1：源语句:我打篮球目标语句:I play basketball。

句子2：源语句：他打了我目标语句:he hit me。

其中单词“打”的熵很高，超过了预定阈值，因此被视为易漏翻的单词，这时我们将单词“打”的候选翻译全部替换成为“stoken4da”，此时，新的训练语料变为:

句子1：源语句:我打篮球目标语句:I stoken4da basketball。

句子2：源语句：他打了我目标语句:he stoken4da me。

将原始训练语料表示为

新的训练语料表示为：

根据多任务学习的框架，同时利用D_xy和D_xz去指导神经翻译模型的参数θ的学习，即，用神经翻译模型同时在D_xy和D_xz中学习来优化现有的神经翻译模型。此时的目标函数为： L(θ)＝logp(Y|X,θ)+λlogp(Z|X,θ)。

最后，利用经参数训练的神经机器翻译模型执行机器翻译。对于每一个测试句子，根据训练好的翻译模型，使用柱搜索方法解码将打分最高的句子作为模型的输出。具体实施方式如下：针对每一个测试句子，首先使用编码器对测试句子进行编码，然后依次解码出目标语言单词，当解码到结束标志<EOS>时停止解码。

理解到，由于神经机器翻译模型是现有的语言翻译模型，本申请并未对现有的语言翻译模型进行创造性改进，而是通过形成的中间目标语言来重新训练和优化现有的语言翻译模型，例如，端到端模型、编码器-解码器模型、覆盖率模型以及重构模型。因此，本文中并未对现有的语言翻译模型进行过多地阐述以避免使本申请的发明构思晦涩。

图2是示出了根据本申请的另一实施方式的神经机器翻译方法的流程图，以下将参照图2来描述根据本申请的另一实施方式的神经机器翻译方法的流程。

具体地，如图2所示，神经机器翻译方法包括：

步骤S200，获取待翻译的源语句以及作为源语句的候选译文的目标语句，以形成原始训练语料；

步骤S201，获取每个单词的多个候选译文和每个候选译文的翻译概率，翻译概率表示候选译文是对应的单词的目标译文的概率；

S202，根据每个单词的候选译文的数量以及各个候选译文的翻译概率计算每个单词的翻译熵，其中，翻译熵的计算公式表达为如下：

其中，s指示单词，K表示单词s的候选译文的数量，p_k表示每个候选译文的翻译概率，以及E(s)表示单词s的翻译熵；

步骤S203，将计算得到的每个单词s的翻译熵E(s)与预定数值进行比较以确定单词s是否为高熵词；

步骤S204，根据判断结果，将翻译熵大于预定阈值的单词确定为易漏翻的单词，，例如，当预定数值为4时，当计算得到的单词s的翻译熵 E(s)大于4时，将单词s确定为高熵词；

步骤S205，将易漏翻的单词的候选译文替换为预先设定的字符，以形成新目标语句；

假设有N个单词为高熵词s_n，由此作为易漏翻的单词，n＝1,2,…,N，则建立每个易漏翻的单词与针对每个易漏翻的单词的预先设定的字符 stoken4s_n的对应关系信息库并将对应关系信息库存储于存储器中。例如，对应关系信息库类似于一个字典。然后根据这个字典去替换。

具体地，从对应关系信息库查询针对每个易漏翻的单词的预先设定的字符，然后，根据对齐关系(也是通过之前的统计方法， https://github.com/clab/fast_align.)将易漏翻的单词的候选译文替换为对应的预先设定的字符。

步骤S206，根据源语句与新目标语句形成新训练语料；

步骤S207，基于原始训练语料和新训练语料来采用极大似然目标函数，使用梯度下降法对神经机器翻译模型进行参数训练；

具体地，假设训练数据中存在如下两句平行句对作为原始训练语料。

句子1：源语句:我打篮球目标语句:I play basketball。

句子2：源语句：他打了我目标语句:he hit me。

其中单词“打”的熵很高，被视为易漏翻的单词，这时我们将单词“打”的候选翻译全部替换成为“stoken4da”，此时，新的训练语料变为:

句子1：源语句:我打篮球目标语句:I stoken4da basketball。

句子2：源语句：他打了我目标语句:he stoken4da me。

原始训练语料由

表示，新训练语料由

表示，极大似然目标函数为：

其中，N代表源语句数量，n表示第n个语句，X^{n}表示源语句，Y^{n}表示目标语句，Z^{n}表示新目标语句，λ为修正系数，p()表示通过神经机器翻译模型得到的翻译概率，具体地，p()表示通过神经机器翻译模型得到的各个目标语句的翻译概率θ表示神经机器翻译模型的参数，D表示所有平行句对的集合并且D＝D_xy∪D_xz。其中，修正系数可以根据经验选取为0.4～0.6，在这个范围内，可以极好地改善神经机器翻译模型的漏翻率。

然后，可通过随机梯度下降法(SGD)来求解模型参数θ。

虽然此处描述了通过随机梯度下降法(SGD)来求解模型参数θ，但也可以通过例如Adam或Adadelta等其他优化方法来求解模型参数θ。

步骤S208，对于每一个测试句子，根据训练好的翻译模型，使用柱搜索方法解码将打分最高的句子作为模型的输出。具体实施方式如下：针对每一个测试句子，首先使用编码器对测试句子进行编码，然后依次解码出目标语言单词，当解码到结束标志<EOS>时停止解码。

以下表1给出了采用本申请的神经机器翻译方法得到的试验结果。在实验中我们从语言数据联盟(Linguistic Data Consortium)发布的中-英训练数据中抽取200万对齐句对作为中英训练语料，使用机器翻译评测 (NIST MT Evaluation)中从2003年至2006年的所有测试集MT03-MT06作为开发集和测试集。其中MT03作为我们的开发集。在对比实验中，我们使用大小写不敏感的BLEU-4作为评测指标。

附表1给出了本发明与标准神经机器翻译系统在5组测试数据(MT03、 MT04、MT05、MT06、MT08)上的表现。可以看到，在采用本申请的方法优化机器翻译模型之后，本发明在机器自动给出的评价指标(BLEU) 上相比于标准的神经机器翻译系统有所提高。这充分说明了本发明的方法对神经机器翻译方法的优化的有效性和优越性。

总之，实验结果表明本发明极大地改善了模型漏翻这一严重问题，提升了模型的翻译质量。

表1不同方法的BLEU值(中英翻译)

由于本发明的方法不是针对两种特定的语言而提出的，所以本发明的方法具有普遍的适用性。本发明虽然只在中英翻译方向上进行了实验，但本发明同时也适用于其它语言对，如英语到汉语、汉语到法语翻译方向等。

根据本申请的另一实施方式，提供一种神经机器翻译装置。图3是示出了根据本申请的实施方式的神经机器翻译装置的框图。如图3所示，根据本申请的实施方式的神经机器翻译装置3包括：获取单元301，被配置为获取待翻译的源语句以及作为源语句的候选译文的目标语句，以形成原始训练语料；计算单元302，被配置为计算来自获取单元301的源语句中包含的每个单词的翻译熵；判断单元303，被配置为从计算单元302接收每个单词的翻译熵并判断每个单词的翻译熵是否大于预定阈值；确定单元 304，被配置为根据判断单元303的判断结果，将翻译熵大于预定阈值的单词确定为易漏翻的单词；替换单元305，被配置为从确定单元304接收易漏翻的单词并将易漏翻的单词的候选译文替换为预先设定的字符，以形成新目标语句，其中，根据源语句与新目标语句形成新训练语料；训练单元306，被配置为从获取单元301接收原始训练语料以及从替换单元305 接收新训练语料，并基于原始训练语料和新训练语料来对神经机器翻译模型进行参数训练；以及翻译单元307，被配置为利用经参数训练的神经机器翻译模型执行机器翻译，以例如对于每一个测试句子，根据训练好的翻译模型，使用柱搜索方法解码将打分最高的句子作为模型的输出。

根据本申请的神经机器翻译装置能够执行图1所示的神经机器翻译方法并且同样能够有效提高翻译效果。

在适用的情况下，可使用硬件、软件或硬件和软件的组合实现本公开提供的各种实施方式。同样在适用的情况下，在不脱离本公开的精神的情况下，本文阐述的各种硬件部件和/或软件部件可组合成包括软件、硬件和 /或两者的复合部件。在适用的情况下，在不脱离本公开的精神的情况下，可将本文阐述的各种硬件部件和/或软件部件分成包括软件、硬件或两者的子部件。另外，在适用的情况下，预期软件部件可实现为硬件部件，反之亦然。

根据本公开的软件(诸如程序代码和/或数据)可存储在一个或多个计算机可读介质上。还预期使用一个或多个联网的通用或专用计算机和/或计算机系统和/或以其他方式可实现本文识别的软件。在适用的情况下，本文描述的各种步骤的顺序可改变，组合成复合步骤，和/或分成子步骤以提供本文描述的特征。

上述实施方式说明但不限制本发明。还应该理解，根据本发明的原理的许多修改和变化是可能的。因此，本发明的范围仅由以下权利要求限定。

Claims

1.一种神经机器翻译方法，其特征在于，包括：

获取待翻译的源语句以及作为所述源语句的候选译文的目标语句，以形成原始训练语料，

计算所述源语句中包含的每个单词的翻译熵；

判断每个单词的所述翻译熵是否大于预定阈值；

根据判断结果，将翻译熵大于所述预定阈值的单词确定为易漏翻的单词；

将所述易漏翻的单词的候选译文替换为预先设定的字符，以形成新目标语句；

根据所述源语句与所述新目标语句形成新训练语料；

基于所述原始训练语料和所述新训练语料来对神经机器翻译模型进行参数训练，以及

利用经参数训练的神经机器翻译模型执行机器翻译。

2.根据权利要求1所述的神经机器翻译方法，其特征在于，计算所述源语句中包含的每个单词的翻译熵包括：

获取每个单词的多个候选译文和每个候选译文的翻译概率，所述翻译概率表示所述候选译文是对应的所述单词的目标译文的概率，

根据每个单词的候选译文的数量以及各个候选译文的翻译概率计算每个单词的翻译熵，其中，所述翻译熵的计算公式表达为如下：

3.根据权利要求1或2所述的神经机器翻译方法，其特征在于，基于所述原始训练语料和所述新训练语料来对神经机器翻译模型进行参数训练包括：

基于所述原始训练语料和所述新训练语料，采用极大似然目标函数，使用梯度下降法对所述神经机器翻译模型进行参数训练。

4.根据权利要求3所述的神经机器翻译方法，其特征在于，所述原始训练语料由

表示，所述新训练语料由

表示，所述极大似然目标函数为：

其中，N代表源语句数量，n表示第n个语句，X^{n}表示源语句，Y^{n}表示目标语句，Z^{n}表示新目标语句，λ为修正系数，p()表示通过所述神经机器翻译模型得到的翻译概率，θ表示所述神经机器翻译模型的参数，D表示所有语料并且D＝D_xy∪D_xz。

5.根据权利要求4所述的神经机器翻译方法，其特征在于，所述修正系数为0.4～0.6。

6.根据权利要求1或2所述的神经机器翻译方法，其特征在于，还包括：

建立每个所述易漏翻的单词与针对每个所述易漏翻的单词的预先设定的字符的对应关系信息库，以及

将所述对应关系信息库存储于存储器中。

7.根据权利要求6所述的神经机器翻译方法，其特征在于，将所述易漏翻的单词的候选译文替换为所述预先设定的字符包括：

从所述对应关系信息库查询针对每个所述易漏翻的单词的所述预先设定的字符，以及

根据对齐关系将所述易漏翻的单词的候选译文替换为对应的所述预先设定的字符。

8.根据权利要求1所述的神经机器翻译方法，其特征在于，所述神经机器翻译模型包括端到端模型、编码器-解码器模型、覆盖率模型以及重构模型。

9.根据权利要求1所述的神经机器翻译方法，其特征在于，所述预定阈值大于等于4。

10.一种神经机器翻译装置，其特征在于，包括：

获取单元，被配置为获取待翻译的源语句以及作为所述源语句的候选译文的目标语句，以形成原始训练语料，

计算单元，被配置为计算来自所述获取单元的所述源语句中包含的每个单词的翻译熵；

判断单元，被配置为从所述计算单元接收每个单词的翻译熵并判断每个单词的所述翻译熵是否大于预定阈值；

确定单元，被配置为根据所述判断单元的判断结果，将所述翻译熵大于所述预定阈值的单词确定为易漏翻的单词；

替换单元，被配置为从所述确定单元接收所述易漏翻的单词并将所述易漏翻的单词的候选译文替换为预先设定的字符，以形成新目标语句，其中，根据所述源语句与所述新目标语句形成新训练语料；

训练单元，被配置为从所述获取单元接收所述原始训练语料以及从所述替换单元接收所述新训练语料，并基于所述原始训练语料和所述新训练语料来对神经机器翻译模型进行参数训练；以及

翻译单元，被配置为利用经参数训练的神经机器翻译模型执行机器翻译。