CN110674648A

CN110674648A - 基于迭代式双向迁移的神经网络机器翻译模型

Info

Publication number: CN110674648A
Application number: CN201910933203.9A
Authority: CN
Inventors: 苏劲松; 曾嘉莉; 罗斌; 尹永竞; 王安特; 辛春蕾
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-01-10
Anticipated expiration: 2039-09-29
Also published as: CN110674648B

Abstract

基于迭代式双向迁移的神经网络机器翻译模型，涉及自然语言处理。通过建立源领域和目标领域之间的多次双向迁移，利用双方的有效交互和相关知识的有益流动，不断完善不同领域的模型能力，从而达到更佳的翻译效果。由一对一的领域迁移推广到多对一的领域迁移，并提出了多对一的领域迁移中，不同源领域到目标领域的迁移顺序问题的有效解决方案，使模型能够更充分地利用多领域的语料资源。训练过程利用知识蒸馏的方法来更有效地指导模型的收敛，避免了灾难性遗忘和知识稀疏问题，实现两个领域翻译模型的“双赢”。

Description

基于迭代式双向迁移的神经网络机器翻译模型

技术领域

本发明涉及自然语言处理，尤其是涉及低资源领域的基于迭代式双向迁移的神经网络机器翻译模型。

背景技术

自然语言处理是计算机学科人工智能的一个重要研究方向。它研究如何使得人与计算机之间能够使用自然语言进行有效通信，是一门融语言学、计算机科学、数学于一体的学科。

其中，神经机器翻译是一个不容忽视的重要任务。近年来，神经机器翻译引起了学术界和工业界的广泛关注。神经网络机器翻译模型能取得良好的性能得益于大规模的、高质量的双语平行训练语料，在实际运用中，各个领域的双语训练语料规模大小不一，如新闻领域，由于来源广泛，产量多，所以能够轻易获取大规模的双语训练语料，但其他领域，如论文、小说等，其大规模、高质量的训练语料通常难以获取，需耗费大量的人力物力。领域迁移正是缓解这个问题的有效方法。

目前，基于领域迁移的神经网络机器翻译的相关工作主要分为两部分：1、一对一的领域迁移，如图1。即将包含大规模语料的源领域的信息迁移到目标领域，以提升目标领域机器翻译模型的性能。代表工作有模型微调(Fine-tuning)[1][2]，基于混合数据的模型微调(Mixed Fine-tuning)[3]，权重区分(Cost Weighting)[4]，以及句子挑选(DataSelection)[5][6]；特别地，一对一的领域迁移也可推广到多对一的情况，如图3，即混合其他领域数据辅助训练目标领域翻译模型。2、多领域的神经网络机器翻译模型。即利用所有领域的数据组成的混合领域数据，共同训练建模一个统一的、面向多个领域机器翻译任务的神经网络机器翻译模型[7][8][9][10][11][12]。

如何充分探索大规模源领域的双语语料库中的有效信息，来提升特定低资源领域的神经网络机器翻译模型的性能。现有的解决方案存在以下两个问题：1)现有的领域迁移模型大多只关注单向的，即源领域到目标领域的单向迁移，没有目标领域到源领域的反馈途径，缺少两者的交互；2)领域之间由于文本风格和使用环境的不同，其领域信息间的差距也不同。对于源领域和目标领域差距较大的，如新闻领域迁移到小说领域，这种强制的一次性迁移是无效的，甚至可能导致目标领域的性能降低，产生“负迁移”；3)在问题2)的基础上，当存在多个大规模语料的源领域时，如何区分不同源领域的迁移强度，是一个亟待解决的问题。

因此，如何建模源领域和目标领域的反馈机制，充分挖掘源领域的双语语料库中对目标领域的神经网络机器翻译模型有效的翻译信息，仍是一个值得研究的问题。

参考文献:

[1]Minh-Thang Luong and Christopher D Manning.2015.Stanford neuralmachine translation systems for spoken language domains.In Proc.of IWSLT2015.

[2]Barret Zoph,Deniz Yuret,Jonathan May,and KevinKnight.2016.Transfer learning for low-resource neural machinetranslation.Proc.of EMNLP 2016.

[3]Chenhui Chu,Raj Dabre,and Sadao Kurohashi.2017.An empiricalcomparison of domain adaptation methods for neural machine translation.

[4]Boxing Chen,Colin Cherry,George Foster,and Samuel Larkin.2017.Costweighting for neural machine translation domain adaptation.In Proc.of WMT2018.

[5]Rui Wang,Andrew Finch,Masao Utiyama,and EiichiroSumita.2017a.Sentence embedding for neural machine translation domainadaptation.In Proc.of ACL 2017.

[6]Xuan Zhang,Pamela Shapiro,Gaurav Kumar,Paul McNamee,MarineCarpuat,and Kevin Duh.2019a.Curriculum learning for domain adaptation inneural machine translation.In Proc.of NAACL 2019.

[7]Catherine Kobus,Josep Crego,and Jean Senellart.2016.Domain controlfor neural machine translation.CoRR abs/1612.06140.

[8]Sander Tars and Mark Fishel.2018.Multi-domain neural machinetranslation.CoRR abs/1805.02282.

[9]M.Amin Farajian,Marco Turchi,Matteo Negri,and MarcelloFederico.2017.Multi-domain neural machine translation through unsupervisedadaptation.In Proc.of WMT 2017.

[10]Reid Pryzant,Denny Britz,and Q Le.2017.Effective domain mixingfor neural machine translation.In Proc.of WMT 2017.

[11]Jiali Zeng,Jinsong Su,Huating Wen,Yang Liu,Jun Xie,Yongjing Yin,and Jianqiang Zhao.2018.Multi-domain neural machine translation with word-level domain context discrimination.In Proc.of EMNLP 2018.

[12]Ankur Bapna and Orhan Firat.2019.Non-parametric adaptation forneural machine translation.In Proc.of NAACL 2019.

发明内容

本发明的目的在于针对低资源领域的神经网络机器翻译的领域迁移方法存在的上述缺陷，提供通过双向、多轮迭代的领域迁移的方式，利用源领域和目标领域的之间的充分交互和反馈，实现两个领域翻译模型的“双赢”，同时可避免灾难性遗忘和知识稀疏等问题的一种基于迭代式双向迁移的神经网络机器翻译模型。

本发明包括以下步骤：

1)利用源领域的训练语料训练得到一个面向源领域的翻译任务的神经网络机器翻译模型，即源领域机器翻译模型，并利用目标领域的训练语料训练得到一个面向目标领域的翻译任务的神经网络机器翻译模型，即目标领域机器翻译模型，并以此作为最初的两个领域的最优模型；

2)利用源领域的双语语料训练集训练当前的目标领域机器翻译模型，在最优的源领域机器翻译模型的指导下，利用知识蒸馏的方法，从目标领域迁移得到新的源领域机器翻译模型；

3)利用目标领域的双语语料训练集训练步骤2)中得到的源领域机器翻译模型，在最优的目标领域机器翻译模型的指导下，利用知识蒸馏的方法，从源领域迁移得到新的目标领域机器翻译模型；

4)利用源领域的开发集验证步骤2)中得到的源领域机器翻译模型，若性能有所提升，则将其作为源领域的最优模型用于后续迁移过程的训练指导；利用目标领域的开发集验证步骤3)中得到的目标领域机器翻译模型，若性能有所提升，则将其作为目标领域的最优模型用于后续迁移过程的训练指导；

5)重复步骤2)～4)直到迭代次数达到预设最大迭代次数K；

6)当推广到多对一的领域迁移情境下，步骤2)～4)中涉及到迁移顺序问题，按照领域相关程度，由低到高逐个与目标领域进行双向迁移。

在步骤6)中，当推广到多对一的领域迁移情境下，考虑到多领域迁移时领域之间的相关性，将源领域依次迁移到目标领域，通过有效衡量源领域与目标领域领域之间的相关性，按照相关性由低到高的顺序逐个进行领域迁移，从而权衡目标领域受其他领域的影响程度，得到最优模型。

现有的单向、单次的领域迁移方法不足以充分利用多领域的共享知识，而本发明充分考虑了领域迁移过程中领域之间的紧密联系和迁移过程难以控制的问题，与传统的单向一次迁移不同，本发明通过双向、多轮迭代的领域迁移的方式，利用领域双向多次迭代的方法，源领域和目标领域的之间充分交互和反馈，使模型充分学习到了领域之间的共通性，实现两个领域翻译模型的“双赢”。迭代过程中，利用知识蒸馏的方法，通过将当前训练步骤中的目标(源)领域最优参数作为“老师”，指导目标(源)领域模型的收敛方向，优化训练过程；配合最优参数指导训练，避免由于误差导致性能的不可控衰减问题。在推广到多对一的领域迁移问题时，本发明按照源领域与目标领域的领域相关性，由低到高逐个进行双向的领域迁移过程，通过权衡各源领域对目标领域影响的权重，使模型从中最大程度地获取翻译知识。

本发明模型结构明确、思路清晰，可以提高模型对不同领域共享信息的利用程度，使之更好地作用于机器翻译任务。除此之外，本发明并不受限于具体的翻译模型结构，因此，有着更广泛的应用范围，并为其他任务提供了领域迁移的有效参考方案。

附图说明

图1为传统的单次单向领域迁移模型框架。

图2为一对一双向迭代迁移的模型框架。

图3为传统的多领域集成模型框架。

图4为多对一迭代迁移的模型框架。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。

本发明通过建立源领域和目标领域之间的多次双向迁移，利用双方的有效交互和相关知识的有益流动，不断完善不同领域的模型能力，从而达到更佳的翻译效果。与此同时，本发明成功地由一对一的领域迁移(一个源领域的信息迁移到一个目标领域的神经网络翻译模型，如图2)推广到多对一的领域迁移(多个源领域的信息迁移到一个目标领域的神经网络机器翻译模型，如图4)，并提出了多对一的领域迁移中，不同源领域到目标领域的迁移顺序问题的有效解决方案，使模型能够更充分地利用多领域的语料资源。除此之外，训练过程利用知识蒸馏的方法来更有效地指导模型的收敛，避免了灾难性遗忘和知识稀疏问题。

本发明包括以下步骤：

2)利用源领域的双语语料训练集训练当前的目标领域机器翻译模型，在最优的源领域机器翻译模型的指导下，利用知识蒸馏的方法，从目标领域迁移得到新的源领域机器翻译模型(即图2中从右向左的迁移过程)；

3)利用目标领域的双语语料训练集训练步骤2)中得到的源领域机器翻译模型，在最优的目标领域机器翻译模型的指导下，利用知识蒸馏的方法，从源领域迁移得到新的目标领域机器翻译模型(即图2中自左向右的迁移过程)；

5)重复步骤2)～4)直到迭代次数达到预设最大迭代次数K；

6)当推广到多对一的领域迁移情境下，步骤2)～4)中涉及到迁移顺序问题，按照领域相关程度，由低到高逐个与目标领域进行双向迁移，如图4。

本发明具体实施方式如下：

模型初始化，独立训练源领域和目标领域的语言模型，并分别作为最初的最优模型。

一对一迭代迁移，将目标领域迁移到源领域，然后以类似方式将源领域迁移到目标领域。

多对一迭代迁移，按照源领域与目标领域的相关度升序依次进行一对一迭代迁移。

以下给出关键步骤的实现细节：

1)模型初始化

对于各个领域，利用各自语料库进行独立训练，以训练得到的模型(源语言机器翻译模型和一或多个目标语言机器翻译模型)分别作为最优的初始模型。

目标函数如下：

其中，

表示目标领域(in-domain)，表示源领域(out-domain)。D_in为目标语料库，D_out为源语料库，(x，y)表示语料库中的训练样本，即源语言与目标语言对。

为目标领域模型参数，

为源领域模型参数。

设目标领域最优模型参数为

源领域最优模型参数为

2)一对一迭代迁移

初始化模型后，迭代模型从目标领域到源领域、从源领域到目标领域的迁移过程，直到达到最大迭代次数K。

如图2，以第k次迭代为例。首先利用源领域的双语语料训练集训练当前的目标领域机器翻译模型，从目标领域迁移得到新的源领域机器翻译模型。过程如下：

此时，若新模型优于源领域最优模型(在验证集上，新模型的效果更佳)，则更新源领域最优参数

类似地，从源领域到目标领域的迁移的第k次迭代过程如下：

若新模型优于目标领域最优模型，则更新目标领域最优参数

对于目标函数的设计，在考虑翻译正确性的同时，引入知识蒸馏的思想，用最优模型指导模型收敛，利用KL散度衡量模型与当前步骤最优模型预测结果的差异，从而优化模型结果：

3)多对一迭代迁移

从一对一迭代迁移推广到多对一迭代迁移时，各个源领域迁移到目标领域的方法与上述一对一迁移相同(如图4)，但涉及到模型迁移的顺序问题。直觉上，领域越相关的模型，学习的价值越高。因此，首先衡量各个源领域与目标领域的相关程度，再根据领域相关度由小到大的顺序对多个源领域依次进行一对一迭代迁移，使模型能够从中最大程度地获取翻译知识，避免最有价值的知识在不断迁移的过程中被遗忘。

领域相关度衡量方法为A-distance([13]Yaroslav Ganin,Evgeniya Ustinova,Hana Ajakan,Pascal Germain,Hugo Larochelle,Franc，ois Laviolette,MarioMarchand,and Victor S.Lempitsky.2015.Domain-adversarial training of neuralnetworks.Machine Learning Research,17.[14]Reid Pryzant,Denny Britz,and QLe.2017.Effective domain mixing for neural machine translation.In Proc.of WMT2017)：

其中，∈代表线性词袋SVM分类器的生成误差。根据

值大小，即源领域训练语料库到目标领域语料库的距离大小，由小到大排序得到

作为迁移顺序，依次在目标领域模型和源领域模型之间执行双向知识迁移，共迭代K次。

本发明提供一种基于迭代式双向迁移的神经网络机器翻译模型。该方法通过建立源领域和目标领域之间的多次双向迁移，利用双方的有效交互和相关知识的有益流动，不断完善不同领域的模型能力，从而达到更佳的翻译效果。与此同时，本发明成功地由一对一的领域迁移(一个源领域的信息迁移到一个目标领域的神经网络翻译模型)推广到多对一的领域迁移(多个源领域的信息迁移到一个目标领域的神经网络机器翻译模型)，并提出了多对一的领域迁移中，不同源领域到目标领域的迁移顺序问题的有效解决方案，使模型能够更充分地利用多领域的语料资源。除此之外，训练过程利用知识蒸馏的方法来更有效地指导模型的收敛，避免了灾难性遗忘和知识稀疏问题。本发明模型结构明确、思路清晰，可以提高模型对不同领域共享信息的利用程度，使之更好地作用于机器翻译任务。除此之外，该方法并不受限于具体的翻译模型结构，因此有着更广泛的应用范围，并为其他任务提供了领域迁移的有效参考方案。

Claims

1.基于迭代式双向迁移的神经网络机器翻译模型，其特征在于包括以下步骤：

5)重复步骤2)～4)直到迭代次数达到预设最大迭代次数K；

2.如权利要求1所述基于迭代式双向迁移的神经网络机器翻译模型，其特征在于在步骤6)中，当推广到多对一的领域迁移情境下，考虑到多领域迁移时领域之间的相关性，将源领域依次迁移到目标领域，通过有效衡量源领域与目标领域领域之间的相关性，按照相关性由低到高的顺序逐个进行领域迁移，从而权衡目标领域受其他领域的影响程度，得到最优模型。