CN114139561A

CN114139561A - 一种多领域神经机器翻译性能提升方法

Info

Publication number: CN114139561A
Application number: CN202111493216.2A
Authority: CN
Inventors: 杨迪; 姜炎宏
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-04

Abstract

本发明公开一种多领域神经机器翻译性能提升方法，步骤为：爬取海量数据作为模型训练语料，分为特定领域语料库和多领域平行语料库；计算多领域平行语料库中每个句子与各个特定领域语料库的相似度；从多领域平行语料库中筛选与多个特定领域语料库平均相似度高的句子作为多领域模型的训练集；构建多领域深层神经机器翻译模型和多个特定领域的深层神经机器翻译模型进行训练并存储模型参数；计算各个特定领域语料库与多领域平行语料库的相似度，对多领域模型和各个特定领域模型进行循环知识精炼，最终得到性能提升的多领域神经机器翻译模型。本发明方法减少了训练过程中不同领域间的干扰，最终达到提升多领域神经机器翻译模型的翻译性能的目的。

Description

一种多领域神经机器翻译性能提升方法

技术领域

本发明涉及一种多领域神经机器翻译性能提升技术，具体为一种多领域神经机器翻译性能提升方法。

背景技术

机器翻译(Machine Translation或MT)是利用电子计算机在各种自然语言之间进行自动翻译的实验科学。具体地说，是利用计算机将一门自然语言(源语言)转换为另一种自然语言(目标语言)的过程。长期以来，机器翻译技术被认为是解决各个语言间翻译问题的终极手段之一，在世界全球化的今天，机器翻译技术的实际应用需求非常强烈，这也引起了各个国家在这一关键领域进行科技投资，中国政府将包括机器翻译技术在内的自然语言理解研究纳入国家中长期科技开发计划的纲要中。由美国国防部主导的“2049”计划使用机器翻译作为现代信息技术重要技术之一。这些都反映了机器翻译的巨大价值和技术应用前景。

机器翻译的方法分为两种，一种是基于规则的机器翻译，另一种是基于语料库的机器翻译。具体来说，基于语料库的机器翻译可分为基于实例的机器翻译，统计机器翻译和神经机器翻译。早期人们主要使用规则进行机器翻译。然而，随着研究的深入，基于规则的方法逐渐暴露出手工书写规则覆盖范围有限，规则数量增加引起冲突，语言扩展困难等问题。虽然随后的基于案例的方法可以在一定程度上缓解上述问题，但问题还没有从根本上得到解决。

早期的机器翻译主要依靠人工来定义规则，但是之后人们发现这种人工定义的规则对于语料库覆盖度有限，而且大量的规则很难维护，之后机器翻译研究有了突破性进展，是由于统计机器翻译思想的诞生，由IBM和AT&T等机构于上世纪九十年代初提出，而统计机器翻译还是需要人工的去定义一些规则。近年来，随着深度学习的兴起，基于深度学习的神经机器翻译方法被提出，简称神经机器翻译。该方法直接用神经网络对机器翻译问题进行建模，并以端到端的方式完成模型学习，整个过程不需要人工特征的设计。

以自注意(Self-attention)机制为基础的神经机器翻译系统，是使不同位置词汇间的信息直接传达的方法，在更远的信息传达距离情况下更具有优势，因而在很多同种系统中受到关注。这种神经机器翻译模型能够更充分地表示序列中不同位置的词汇之间的复杂关系。其中心思想是，通过考虑来源或目标语句任意位置的词汇间的关联度，获得词汇间的关联性，并将其作为不同词汇或片断信息统合过程中的重要度。最终，可以得到源语中的语义信息表现。

这种基于注意力机制的神经机器翻译模型虽然在性能上相较于之前的模型有了不错的提升，但是随着神经机器翻译在工业届的应用，训练一个成型的机器翻译模型通常需要使用大规模的多领域混合的数据，而这些混合数据涵盖了不同领域和文体的语料，具体包括了政治、新闻、科技和体育等各大门类在内，除此之外，还相应地包括书面文体、口语文体和网络语言等等。由于训练数据主要集中在通用领域，虽然使用多领域数据进行训练得到的系统通用性较好，但并不能在某一特定领域得到足够让人满意的结果。而使用单一领域的数据训练得到的系统只在该领域上效果较好，当用于处理其他领域时的结果往往不足以令人接受。

出于对特定领域机器翻译的需求，人们提出了领域适应技术，来提高特定领域上神经网络模型的性能。然而在实际应用中，往往需要的是多个领域的机器翻译系统。如果需要大规模不同特定领域的翻译模型，按照传统的方法建立机器翻译模型，那么将会需要大量的模型存储空间，如果100个领域翻译则需要100个翻译系统，如果每个模型需要100G的存储空间的话那么模型存储就需要9.77T，并且这里还没有计算多个语言对。同时，如果某些领域并没有大量的用户，而用户一旦有翻译需求，这时翻译系统如果想要提升翻译的实时性，要么只有降低整体翻译速度的吞吐量，要么增加额外的设备数量，而如果不要求实时性，那么用户体验将变得很差，不利于机器翻译的推广。

构建多领域神经机器翻译的主要难点有以下几条：

(1)数据稀缺：特定领域数据的匮乏一直是制约领域适应技术效果的关键原因之一，导致在特定领域机器翻译效果不佳。以往的处理手段是制造伪数据，虽然该方法在一定程度上缓解了数据匮乏带来的影响，但是却没有充分利用到所有数据。

(2)多个领域：以往的领域适应技术研究针对单个领域性能提升，但本研究对多领域性能同时提升，在保证单个领域性能的前提下研究同时提升多个领域性能较为困难。

(3)互相干扰：不同领域的语言之间存在异质性，在训练过程中会互相干扰，导致无法充分学习到全部知识。

目前，能够克服上述难点的领域神经机器翻译性能提升方法尚未见报道。

发明内容

针对现有技术中多领域机器翻译模型存在领域之间的互相干扰导致性能下降等不足，本发明要解决的技术问题是提供一种多领域神经机器翻译性能提升方法，该方法能够减少模型训练中各个领域之间的互相干扰，从而提升多领域机器翻译模型各个领域的翻译性能。

本发明采用的技术方案如下：

本发明提供一种多领域神经机器翻译性能提升方法，包括以下步骤：

1)通过网络爬虫技术从含有外文数据的网络中爬取海量数据作为模型训练语料，将数据分为特定领域语料库和多领域平行语料库；

2)采用句向量计算方法计算多领域平行语料库中每个句子与各个特定领域语料库的相似度；

3)根据步骤2)中得到的相似度从多领域平行语料库中筛选与多个特定领域语料库平均相似度高于前百分之二十的句子作为多领域模型的训练集；

4)构建基于注意力机制的多领域深层神经机器翻译模型和多个特定领域的深层神经机器翻译模型，将训练集输入到多领域深层神经机器翻译模型和特定领域的深层神经机器翻译模型进行训练直到在校验集合上收敛，同时按照一定训练的轮数存储模型参数；

5)采用分类误差计算方法计算各个特定领域语料库与多领域平行语料库的相似度；

6)根据步骤5)得到的相似度从大到小的顺序对多领域模型和各个特定领域模型进行循环知识精炼，最终得到性能提升的多领域神经机器翻译模型。

步骤1)中，需要对爬取的海量数据进行清洗过滤、分词、子词切分预处理，并将具有明确领域标签的数据分为不同领域存储为特定领域语料库，无明确领域标签的数据存为多领域平行语料库。

步骤2)中采用句向量计算方法计算多领域平行语料库中每个句子与各个特定领域语料库的相似度，具体步骤为：

201)从每个特定领域语料库中随机抽取100000个句子；

202)选择双语数据中单种语言进行计算，将多领域平行语料库的句子和特定领域语料库抽取出的句子转化为句向量；

203)对句子中的每个词计算tf-idf权重，对每个句子中所有词做tf-idf加权平均得到加权句向量；

204)使用余弦相似度计算每个多领域平行语料库句子的句向量与特定领域语料库句子的句向量的相似度。

步骤5)中，采用分类误差计算方法计算各个特定领域语料库与多领域平行语料库的相似度，具体步骤为：

501)使用多领域平行语料库训练一个判断句子是否属于当前领域语料库的分类器；

502)将各个特定领域语料库的句子输入到分类器进行分类；

503)分类器判断出句子属于当前领域语料库概率越高，则分类误差越大，相似度越高。

步骤6)中，根据步骤5)得到的相似度从大到小的顺序对多领域模型和各个特定领域模型进行循环知识精炼，具体为：

601)使用多领域模型解码特定领域语料库源语言得到双语句对；

602)使用得到的双语句对对特定领域模型进行调优，得到新的特定领域模型；

603)使用新的特定领域模型解码多领域平行语料库源语言得到双语句对；

604)使用得到的双语句对多领域模型进行调优，得到新的多领域模型；

605)根据相似度从大到小的顺序，每个特定领域重复以上步骤至少两次。

本发明具有以下有益效果及优点：

1.本发明在传统的神经机器翻译模型的基础上，利用多个领域的平行语料库，训练一个模型实现多个领域的翻译，从减少不同领域之间信息干扰的角度出发，提出先利用各个领域数据训练模型，再对模型进行循环知识精炼，从而减少训练过程中不同领域间的干扰，最终达到提升多领域神经机器翻译模型的翻译性能的目的。

2.本发明大大减少多个特定领域翻译需要的存储空间，同时还能增加服务器整体的吞吐量，减少运行内存，极大地节省了运维成本。

3.本发明更充分地利用了无领域标签的数据，并且通过领域知识共享有效缓解了数据稀缺问题。

4.本发明简单有效，且不易和其他优化特定领域翻译性能方法相斥，同时能应用在主流的神经机器翻译系统上，并且构建了强大的基线系统，可以简单微调提升单个特定领域的性能。

附图说明

图1为本发明中多领域机器翻译系统训练集构建图示；

图2为本发明中训练数据清洗处理流程图示；

图3为本发明中各领域与多领域数据相似度图示；

图4为本发明中多领域机器翻译系统构建过程图示。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明提供一种多领域神经机器翻译性能提升方法，使用最新的Transformer模型，并从多领域之间相似度的角度出发，使用知识精炼的方法，减少训练过程中模型中多个领域之间的相互干扰，搭建了翻译性能非常强大的多领域翻译系统，性能优于市面上可用的全部翻译系统，可以满足用户对多个特定领域的翻译需求，保证翻译质量，大大提升了有该类需求用户的用户体验。

本发明提出的多领域神经机器翻译方法具有大量的应用价值，目前产业界对于这种多领域的机器翻译有巨大需求，所以对本发明是很有意义的。

步骤1)中，对数据进行清洗过滤、分词、子词切分等预处理，并将具有明确领域标签的数据分为不同领域存储为特定领域语料库，无明确领域标签的数据存为多领域平行语料库。

步骤2)中根据句向量计算多领域平行语料库中每个句子与各个特定领域语料库的相似度，具体步骤为：

201)从每个特定领域语料库中随机抽取m个(本实施例中采用10万个)句子；

502)将各个特定领域语料库的句子输入到分类器进行分类；

如图1所示，首先通过网络爬虫技术从含有外文数据的网络中爬取海量双语数据，然后对双语数据进行清洗过滤、分词、子词切分预处理，得到处理后的双语数据，通过数据爬虫脚本，共获取了260,000,000条数据，然而获取到的数据并不能直接用来进行系统的训练，还需要进行分词和数据清洗。本实施例使用moses分词作为中文和英文的分词工具，该工具较好的完成了分词工作，使数据中大部分词语被识别出来。使用了NiuTrans开源数据清洗工具，如图2所示，经过长度比过滤、去除HTML标签、乱码过滤、单词黏连过滤、大写过滤和重复翻译过滤后余下160,000,000条数据用于后续训练、校验、测试。将具有明确领域标签的数据分为不同领域存储为特定领域语料库，无明确领域标签的数据存为多领域平行语料库，其中多领域平行语料库语料库有数据140,000,000条，特定领域1(医药)有数据1635440条，特定领域2(字幕)有数据5485683条，特定领域3(法律)有数据3078982条，特定领域4有数据348730条(圣经)，特定领域5(体育)有数据3657667条，特定领域6(新闻)有数据5793495条。假设以3个多领域平行语料库句对为例，计算其与多个特定领域的相似度，如表1所示；通过表1中的对比，优先选择相似度较高的句子1。

本实施例中句子1为China welcomes Equatorial Guinea to join the GlobalDevelopment Initiative and stands ready to work with all African countries toachieve the sustainable and common progress of developing nations,he said.句子2为The transportation volume reached the loads of more than 40,000trucks.句子3为In 2018,106studies on Hainan issues were completed,which providedsuggestions for the construction of the Hainan FTP.

表1相似度对比

如图3所示，根据分类误差计算出各个领域与多领域平行语料库的相似度，然后对中文和英文的数据，使用统一的子词切分方式和词表，最终的词表大小为32001，使用transformer big模型结构训练翻译模型，依照图3计算出的相似度从大到小的顺序，如图4所示，进行知识精炼，具体为先使用多领域模型解码特定领域语料库源语言得到双语句对，再使用得到的双语句对对特定领域模型进行调优，得到新的特定领域模型，然后使用新的特定领域模型解码多领域平行语料库源语言得到双语句对，再使用得到的双语句对多领域模型进行调优，得到新的多领域模型，每个特定领域重复以上步骤至少两次，本实施例中为三次。

本发明在传统的神经机器翻译模型的基础上，利用多个领域的平行语料库，训练一个模型实现多个领域的翻译，从减少不同领域之间信息干扰的角度出发，提出先利用各个领域数据训练模型，再对模型进行循环知识精炼，从而减少训练过程中不同领域间的干扰，最终达到提升多领域神经机器翻译模型的翻译性能的目的。

本发明大大减少多个特定领域翻译需要的存储空间，同时还能增加服务器整体的吞吐量，减少运行内存，极大地节省了运维成本。

本发明简单有效，且不易和其他优化特定领域翻译性能方法相斥，同时能应用在主流的神经机器翻译系统上，并且构建了强大的基线系统，可以简单微调提升单个特定领域的性能。

Claims

1.一种多领域神经机器翻译性能提升方法，其特征在于包括以下步骤：

2.按权利要求1所述的多领域神经机器翻译性能提升方法，其特征在于：步骤1)中，需要对爬取的海量数据进行清洗过滤、分词、子词切分预处理，并将具有明确领域标签的数据分为不同领域存储为特定领域语料库，无明确领域标签的数据存为多领域平行语料库。

3.按权利要求1所述的多领域神经机器翻译性能提升方法，其特征在于：步骤2)中采用句向量计算方法计算多领域平行语料库中每个句子与各个特定领域语料库的相似度，具体步骤为：

201)从每个特定领域语料库中随机抽取100000个句子；

4.按权利要求1所述的多领域神经机器翻译性能提升方法，其特征在于：步骤5)中，采用分类误差计算方法计算各个特定领域语料库与多领域平行语料库的相似度，具体步骤为：

502)将各个特定领域语料库的句子输入到分类器进行分类；

5.按权利要求1所述的多领域神经机器翻译性能提升方法，其特征在于：步骤6)中，根据步骤5)得到的相似度从大到小的顺序对多领域模型和各个特定领域模型进行循环知识精炼，具体为：