CN114580445A

CN114580445A - 基于领域感知的掩码子结构的多领域自适应神经机器翻译方法

Info

Publication number: CN114580445A
Application number: CN202210240961.4A
Authority: CN
Inventors: 余正涛; 黄双宏; 郭军军; 文永华
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-03
Anticipated expiration: 2042-03-10
Also published as: CN114580445B

Abstract

本发明涉及基于领域感知的掩码子结构的多领域自适应神经机器翻译方法，属自然语言处理领域。本发明先构建一个多领域基模型，其次利用各个特定领域的数据对基模型进行微调，得到各个特定领域的领域感知掩码组件，再通过融合策略，集成得到的各个特定领域的领域感知掩码组件，得到领域感知的掩码子结构，最后利用领域感知的掩码子结构以及中英通用领域数据和特定领域的数据训练得到多领域神经机器翻译模型。本发明对中英多领域自适应神经机器翻译实现有效的性能提升，为后续领域自适应神经机器翻译等研究提供强有力的支撑，解决了对于领域自适应中存在的领域偏移和领域间的参数干扰以及通用领域灾难性遗忘等问题会造成模型泛化能力不佳的问题。

Description

基于领域感知的掩码子结构的多领域自适应神经机器翻译方法

技术领域

本发明涉及基于领域感知的掩码子结构的多领域自适应神经机器翻译方法，属于自然语言处理技术领域。

背景技术

目前，在大规模平行语料可得到的情况下，机器翻译技术已经取得了很大的突破，然而，机器翻译的性能不仅依赖大规模的双语数据，还很大程度上取决于训练和测试数据之间的领域匹配程度。具有丰富数据资源领域的机器翻译性能不断提高，但是由于数据资源获取困难等原因，某些特殊领域的翻译效果还不够理想，如何利用领域外的丰富平行语料库和领域内的单语语料库来提升特定领域的翻译质量具有重要意义。

近几年，已有多种训练方法来利用领域外平行语料库和领域内的单语语料库来提升特定领域的翻译质量，例如利用微调的方法，利用领域内的数据在领域外的模型上微调得到特定领域的模型，而这种方法虽提升了领域内的模型质量，但这种方式对领域外模型造成灾难性遗忘问题。后续提出混合微调的方法，改善了领域外模型灾难性遗忘问题，但实际上，对于不同领域之间其实包含很多公共的不变的领域知识，而训练的时候只需要学习私有的特定的领域知识，现有的方法虽能在一定程度上缓解领域偏移和通用领域灾难性遗忘问题，但不能避免领域知识信息的丢失，难以准确表达出领域的特征。

发明内容

为解决上述问题，本发明提供了基于领域感知的掩码子结构的多领域自适应神经机器翻译方法，本发明BLEU指标表现上均优于基线系统，并且精确率普遍都有所提升。

本发明的技术方案是：基于领域感知的掩码子结构的多领域自适应神经机器翻译方法，所述方法的具体步骤如下：

Step1、收集中英各领域平行句对数据并按照机器翻译清洗规则进行预处理，同时为区分各领域平行句对，对各领域平行句对进行领域标签划分；

Step2、利用领域标签划分的中英各领域平行句对数据，结合多任务训练的策略得到多领域神经机器翻译基模型，该模型对所有领域具有一定的翻译能力；

Step3、根据领域划分的中英各领域平行句对数据对得到的基模型分别进行微调，进而得到各领域的翻译模型，各领域翻译模型在其领域翻译性能超过基模型；

Step4、利用各领域翻译模型生成各领域的掩码子结构组件，同时融合各领域的掩码子结构组件得到领域感知的掩码子结构；

Step5、通过领域标签划分的中英各领域平行句对数据，以及领域感知的掩码子结构，结合多任务训练的策略得到最终的多领域神经机器翻译模型。

进一步地，所述Step1的具体步骤如下：

从WMT和CCMT等机器翻译大赛网站收集得到大规模通用领域的数据，从UM-Corpus语料库中收集多个特定领域的数据，包括教育、法律、新闻、科学、口语、字幕和论文领域；

对通用领域数据和各个特定领域数据按照一般的神经机器翻译数据处理规则进行清洗；

对各领域的源句子和目标句子加上所属的领域标签；

通过上述步骤得到的各领域数据语料，能够在数据预处理阶段最大限度的保留各领域信息，防止在模型训练之前丢失领域知识从而影响模型性能；

进一步地，所述Step2的具体步骤如下：

通过Transformer模型对构建并清洗好的各领域数据语料，结合多任务学习的训练策略进行训练，从而得到一个多领域神经机器翻译基模型；其中能使用Facebook的FairSeq序列建模工具实现。

使用Adam作为模型优化器；

使用标签平滑交叉熵作为损失函数对模型进行评估；

通过上述步骤得到的多领域神经机器翻译基模型，能够在一定程度上适配各领域数据语料，但其“平均”性极大影响了对特定领域的表征；

进一步地，所述Step3的具体步骤如下：

使用各特定领域的数据语料对得到的多领域神经机器翻译基模型进行微调；

使用Adam作为模型优化器；

使用标签平滑交叉熵作为损失函数对模型进行评估；

通过上述步骤得到的各特定领域的神经机器翻译模型，能够对各自领域数据语料进行有效的适配，并且其表征能力超过多领域神经机器翻译基模型；

进一步地，所述Step4的具体步骤如下：

通过各个特定领域的神经机器翻译模型生成各个领域的掩码子结构组件；

通过各个领域的掩码子结构组件进行融合得到领域感知的掩码子结构；

进一步地，所述Step4中还包括：领域感知的掩码子结构由领域感知的自适应编码端和领域感知的自适应解码端两部分构成；

对于领域感知的自适应编码端和领域感知的自适应解码端，除了具有多头注意力机制、全连接前馈网络，以及在每个子层周围采用残差连接和层归一化的一般Transformer模型编码端组件外，还应用了基于掩码的多领域注意力机制。

进一步地，所述Step5的具体步骤如下：

通过Transformer模型对构建并清洗好的各领域数据语料、领域感知的掩码子结构，结合多任务学习的训练策略进行训练，从而得到最终的多领域神经机器翻译模型；其中能使用Facebook的FairSeq序列建模工具实现。

使用Adam作为模型优化器；

使用标签平滑交叉熵作为损失函数对模型进行评估；

通过上述步骤得到的多领域神经机器翻译模型，能够有效地对各个领域数据语料进行自适应，并且不会丢失领域信息；

本发明的有益效果是：

本发明创造性的提出了一种基于领域感知的掩码子结构的多领域自适应神经机器翻译方法，通过领域感知的掩码子结构能够共享大部分公共的不变的领域知识，并且学习小部分私有的特定的领域知识，从而能够有效地缓解领域间的参数干扰问题，进而更好地解决领域偏移问题，同时，很大程度上能够缓解了以往发生在通用领域灾难性遗忘地问题，极大地提高了模型整体的翻译性能；

本发明所提出的方法在实验结果上较之前的研究工作有一定的提升，并且其拓展新领域实验表明本发明提出的方法的易用性和易拓展性，同时进一步表明本发明提出的方法的有效性和创新性。

附图说明

图1为本发明中的具体流程框图；

图2为本发明中的领域词嵌入示意图；

图3为本发明中的基模型微调示意图；

图4为本发明中的领域感知的掩码子结构示意图；

图5为本发明中的整体训练示意图；

图6为本发明中的流程图。

具体实施方式

实施例1：如图1-图6所示，基于领域感知的掩码子结构的多领域自适应神经机器翻译方法，图6为本发明的流程图，所述方法中包括以下步骤：A步骤：通过对收集到的中英各领域平行句对数据并按照机器翻译清洗规则进行预处理，同时为区分各领域平行句对，对各领域平行句对进行领域标签划分，利用领域标签划分的中英各领域平行句对数据，利用Transformer模型并结合多任务训练的策略训练得到多领域神经机器翻译基模型；B步骤：根据领域划分的中英各领域平行句对数据对得到的基模型分别进行微调，进而得到各领域的翻译模型，各领域翻译模型在其领域翻译性能超过基模型；C步骤：利用各领域翻译模型生成各领域的掩码子结构组件，同时融合各领域的掩码子结构组件得到领域感知的掩码子结构；D步骤：通过领域标签划分的中英各领域平行句对数据，以及融合的领域感知的掩码子结构，结合多任务训练的策略训练得到最终的多领域神经机器翻译模型。图1提供了基于领域感知的掩码子结构的多领域自适应神经机器翻译方法的具体流程框图。

在A步骤中，本发明的实验数据集来源主要是从WMT和CCMT等机器翻译比赛网站收集得到的大规模通用领域的数据，以及从UM-Corpus网站获取得到的教育、法律、新闻、科学、口语、字幕和论文等特定领域的数据。对通用领域数据和各个特定领域数据按照一般的神经机器翻译数据处理规则进行清洗；

对于各领域数据，利用领域标签对其进行划分，具体词嵌入示意图如图2所示，同时词嵌入过程用下述公式所示：

Emb_d(d_i)＝Embedding_d(domain tags) (1)

Emb_s＝Emb_d(d_i)+Emb_x(x_j) (4)

Emb_t＝Emb_d(d_i)+Emb_y(y_j) (5)

其中，d_i∈{d₁，d₂，…，d_n}表示领域标签，(x_j，y_j)表示对应领域句对。

以往机器翻译中的词嵌入通常对源语言和目标语言句对使用BOS(Begin OfSentence)、PAD(Padding Word)、UNK(Unknown Word)和EOS(End Of Sentence)标签，为更好地表示源语言和目标语言句对所对应的领域，在本文中，我们将BOS替换成DTS(DomainTags)，如图2所示，因此我们提出的领域词嵌入表示由领域标签嵌入和词嵌入两部分构成。

后续将处理完毕的源语言和目标语言句对输入到Transformer模型中，同时结合多任务训练的策略得到多领域神经机器翻译基模型。

在B步骤中，由于A步骤中得到的多领域神经机器翻译基模型是一种“平均”的性能，虽能在一定程度上翻译各个领域的语料，但其准确度却不是很高，因此利用各个领域的数据对得到的基模型进行微调，即可得到各个特定领域的性能较好的模型，如图3所示，其领域模型对各自领域的私有的特定领域知识表征较基模型而言相对较好。

微调过程中，在基模型的基础上，将处理完毕的各个领域数据的源语言和目标语言句对输入到Transformer模型中进行训练。

在C步骤中，本发明利用各个特定领域模型在其各自领域表征能力较好的特点，通过生成掩码代码得到各个特定领域的模型的掩码子结构组件，并且利用简单的融合策略将各个掩码子结构组件进行合并，最终得到一个领域感知的掩码子结构，其具有共享公共的不变的领域知识以及学习私有的特定的领域知识的能力。

领域感知的掩码子结构由领域感知的自适应编码端和领域感知的自适应解码端两部分构成，具体如图1中虚线放大部分所示。

对于领域感知的自适应编码端，除了具有多头注意力机制、全连接前馈网络，以及在每个子层周围采用残差连接和层归一化的一般Transformer模型编码端组件外，在本发明中我们还应用了基于掩码的多领域注意力机制，如图4所示，同时编码端中的注意力公式如下所示：

其中，f表示使用掩码

处理

的过程，α表示一个超参数，d表示对应的各自领域，另外，在领域感知的自适应掩码

中的值为1时表示保留该权重参数，为0则表示舍弃该权重参数。

对于领域感知的自适应解码端，与领域感知的自适应编码端类似，除了在Transformer模型解码端一般的组件外，解码端同样应用了基于掩码的多领域注意力机制，其组成与编码端示意图类似，如图4所示，同时解码端中的注意力公式如下所示：

其中，f表示使用掩码

处理

的过程，α表示一个超参数，d表示对应的各自领域。

在D步骤中，通过利用得到领域感知的掩码子结构，将经过处理的大规模通用领域的数据和小规模特定领域的数据，输入到Transformer模型中，并结合多任务的训练策略进行训练，得到最终的多领域神经机器翻译模型。

本发明整体训练流程如图5所示，训练策略步骤见算法1，对于训练和微调过程当中的损失函数定义如下：

其中，(x，y)表示来自各领域的句对，θ表示神经机器翻译模型参数。

表1为训练策略步骤

本发明的实验数据集来源主要是从WMT和CCMT等机器翻译比赛网站收集得到的大规模通用领域的数据，以及从UM-Corpus网站获取得到的教育、法律、新闻、科学、口语、字幕和论文等特定领域的数据。其中，对于中文，使用斯坦福分词工具进行分词，对于英文，使用MOSES脚本工具对英文句子进行分词(Tokenize)和英文小写化(Lowercase)，并且将中英文平行句对保持在比例1.5和句子最大长度限制为200，此外利用子词切分技术(Byte PairEncoding，BPE)对中英平行句对切分子词，我们构建的中英词典的规模分别为40000和30000。对于各领域数据集的划分，如表2所示。

表2实验数据

实验参数的设置将直接影响最后的实验结果以及模型性能，其中Transformer模型和实验具体参数的设置，如表3、4所示。

表3 Transformer参数设置

表4实验参数设置

为了体现本发明所提出的方法有效性以及多领域神经机器翻译模型的性能，本发明将Vaswani等人提出的Transformer模型，Luong等人提出的Fine-tune(FT)方法，Chu等人提出的Mix Fine-tune(MFT)方法，Tars和Fishel提出的Mix with Domain Tags(MDT)方法，以及Gu等人提出的Pruning Then Expand(PTE)方法进行了对比试验。结果如表5所示：

表5实验模型对比

从结果可以看出，本发明提出的基于领域感知的掩码子结构的多领域自适应神经机器翻译方法在大多数特定领域上都优于其他模型或方法，这证实了本发明提出方法的有效性，其次通过对比FT、MFT和PTE，虽都在一定程度上缓解了灾难性遗忘的问题，但本发明提出的方法效果更加显著。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于领域感知的掩码子结构的多领域自适应神经机器翻译方法，其特征在于：所述方法的具体步骤如下：

Step2、利用领域标签划分的中英各领域平行句对数据，结合多任务训练的策略得到多领域神经机器翻译基模型；

Step3、根据领域划分的中英各领域平行句对数据对得到的基模型分别进行微调，进而得到各领域的翻译模型；

2.根据权利要求1所述的基于领域感知的掩码子结构的多领域自适应神经机器翻译方法，其特征在于：所述Step1的具体步骤如下：

从机器翻译大赛网站收集得到通用领域的数据，从UM-Corpus语料库中收集多个特定领域的数据，包括教育、法律、新闻、科学、口语、字幕和论文领域；

对通用领域数据和各个特定领域数据按照一般的神经机器翻译数据处理规则进行清洗；对各领域的源句子和目标句子加上所属的领域标签。

3.根据权利要求1所述的基于领域感知的掩码子结构的多领域自适应神经机器翻译方法，其特征在于：所述Step2的具体步骤如下：

通过Transformer模型对构建并清洗好的各领域数据语料，结合多任务学习的训练策略进行训练，从而得到一个多领域神经机器翻译基模型；

使用Adam作为模型优化器；使用标签平滑交叉熵作为损失函数对模型进行评估。

4.根据权利要求1所述的基于领域感知的掩码子结构的多领域自适应神经机器翻译方法，其特征在于：所述Step3包括：

5.根据权利要求1所述的基于领域感知的掩码子结构的多领域自适应神经机器翻译方法，其特征在于：所述Step4包括：

通过各个领域的掩码子结构组件进行融合得到领域感知的掩码子结构。

6.根据权利要求1所述的基于领域感知的掩码子结构的多领域自适应神经机器翻译方法，其特征在于：所述Step5的具体步骤如下：

通过Transformer模型对构建并清洗好的各领域数据语料、领域感知的掩码子结构，结合多任务学习的训练策略进行训练，从而得到最终的多领域神经机器翻译模型；

7.根据权利要求1所述的基于领域感知的掩码子结构的多领域自适应神经机器翻译方法，其特征在于：所述Step4中还包括：领域感知的掩码子结构由领域感知的自适应编码端和领域感知的自适应解码端两部分构成；