CN113657122B

CN113657122B - 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法

Info

Publication number: CN113657122B
Application number: CN202111044287.4A
Authority: CN
Inventors: 苏依拉; 司赟; 朱苏东; 杨蕾; 仁庆道尔吉; 吉亚图
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2023-12-15
Anticipated expiration: 2041-09-07
Also published as: CN113657122A

Abstract

一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法，通过大规模的英汉平行语料库训练一个英汉神经机器翻译模型；对蒙古语进行预处理后构建蒙汉神经机器翻译模型；将训练好的英汉神经机器翻译模型的模型参数权重迁移到蒙汉神经机器翻译模型中；将现有的蒙汉平行语料库对蒙汉神经机器翻译模型进行完善训练，用完善好的蒙汉神经机器翻译模型对现有的蒙汉平行语料库中的汉语单语语料进行回译、加噪，形成一个伪平行语料库D1；将伪平行语料库D1和现有的蒙汉平行语料库融合形成伪平行语料库D；用伪平行语料库D重新训练完善好的蒙汉神经机器翻译模型，得到最终的蒙汉神经机器翻译模型；利用所述最终的蒙汉神经机器翻译模型进行蒙汉翻译。

Description

一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法

技术领域

本发明属于机器翻译技术领域，特别涉及一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法。

背景技术

机器翻译又称为自动翻译，是利用计算机把一种自然源语言转变为另一种自然目标语言的过程，一般指自然语言之间词句和全文的翻译。

近些年来机器翻译迅速发展，但是想要训练出高效准确的翻译模型就必须依赖大规模的平行语料库。而蒙汉翻译平行语料库规模较小，训练出来的模型不够理想。那么选择恰当的方法增加平行语料库的规模就成了提高蒙汉机器翻译的一个亟待解决的问题。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法，采用迁移学习，回译，加噪等方式构造伪平行语料库，再基于伪平行语料库进行训练得到翻译模型。

为了实现上述目的，本发明采用的技术方案是：

一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法，包括如下步骤：

步骤1，使用双注意力机制使得模型对语料库有更好的特征提取，通过大规模的英汉平行语料库训练一个英汉神经机器翻译模型；对蒙古语进行预处理后构建蒙汉神经机器翻译模型；

步骤2，将训练好的英汉神经机器翻译模型的模型参数权重迁移到蒙汉神经机器翻译模型中；

步骤3，将现有的蒙汉平行语料库对蒙汉神经机器翻译模型进行完善训练，用完善好的蒙汉神经机器翻译模型对现有的蒙汉平行语料库中的汉语单语语料进行回译、加噪，形成一个伪平行语料库D1；

步骤4，将伪平行语料库D1和现有的蒙汉平行语料库融合形成伪平行语料库D；

步骤5，用伪平行语料库D重新训练完善好的蒙汉神经机器翻译模型，得到最终的蒙汉神经机器翻译模型；

步骤6，利用所述最终的蒙汉神经机器翻译模型进行蒙汉翻译。

优选地，所述步骤1中构建英汉神经机器翻译模型时，对数据进行如下预处理操作：

1)用中文分词工具对中文语料进行分词操作；

2)用英文预处理工具对英文语料进行词性标注和分词操作。

优选地，所述步骤1中构建英汉神经机器翻译模型时，对于登录词，基于前缀词典实现词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)，根据动态规划查找最大概率路径，找出基于此的最大切分组合；对于未登录词，采用基于汉字成词能力的HMM模型，使用Viterbi算法，将中文词汇按照BEMS四个状态来标记，B是开始位置，E是结束位置，M是中间位置，S是单独成词位置。

所述步骤1中，分别从词级别和特征级别两种视角提取出评论文本中的重要信息。词注意力机制通过融合词的上下文信息，衡量单词的重要性，过滤出相对于全局重要的单词，同时增加推荐的可解释性。特征突显机制通过抑制相似通道，捕捉特征通道中独立性较强的通道。从而提高模型对评论文本中的重要信息的关注，使其具有更好的特征提取能力。

优选地，所述步骤2中，利用英汉平行语料训练英汉神经机器翻译模型学到的模型参数权重，对蒙汉神经机器翻译模型进行参数初始化，取代随机初始化，将模型参数权重迁移到蒙汉神经机器翻译模型。

优选地，所述步骤3中，利用现有的蒙汉平行语料库训练蒙汉神经机器翻译模型时，将蒙汉神经机器翻译模型的词典，词向量，隐藏层等参数设置成训练好的英汉神经机器翻译模型的参数。

优选地，所述加噪的方式包括：

1)同义词替换

不考虑停止词，在现有的汉语单语语料的句子中随机抽取n个词，然后从同义词词典中随机抽取同义词，并进行替换；

2)随机插入

不考虑停止词，从现有的汉语单语语料的句子中随机抽取一个词，然后在该词的同义词集合中随机选择一个，插入原句子中的随机位置，该过程重复n2次；

3)随机交换

从现有的汉语单语语料的句子中，随机选择两个词，位置交换，该过程重复n3次；

4)随机删除

在从现有的汉语单语语料的句子中的每个词，以概率p随机删除。

优选地，所述步骤4中，将伪平行语料库D1和现有的蒙汉平行语料库混合形成伪平行语料库D，利用软上下文数据增强方法对伪平行语料库D中的蒙语句子中某个词或多个词的词义表示进行最后增强。

优选地，英汉神经机器翻译模型中，用BLEU值作为评估机器翻译译文质量的工具，N-gram表示n个单词长度的词组集合，每个N-gram的计算公式为：

其中s_j是标准翻译的人工译文，j∈M，M表示共有M个参考答案，c_i表示机器翻译译文，i∈F，F表示共有F个翻译，h_k(c_i)表示第k个词组在c_i中出现的次数，h_k(s_j)表示第k个词组在s_j中出现的次数，k∈K，K表示词组数，min_j∈Mh_k(s_j)指第k个词组在s_j中的最小次数，即寻找最相似候选句子；

BLEU的公式为：

其中BP代表译文较短惩罚因子，P_n代表n元语法准确率，w_n代表加权，M^′是机器翻译译文和人工标准参考译文的组成词语的数量，上限取值为4，即最多只统计4-gram的精度。

与现有技术相比，本发明在模型训练方式上进行了改进，为了在低资源神经机器翻译任务上可以有较好的性能提升，用迁移学习得到的参数来替代蒙汉神经机器翻译模型的初始化参数权重，并通过该模型用回译，加噪等方式构建伪平行语料库。本发明可以在蒙汉神经机器翻译方面展示出较好的功能和优点，训练出的模型显著提高了翻译质量。

附图说明

图1是本发明整体框架图。

图2是英文预处理过程。

图3是迁移学习过程。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法，包括如下步骤：

步骤1，首先构造特征提取网络进行文本特征提取，将CNN作为特征提取的基础，相较于传统的机器学习方法，CNN具有提取复杂特征的优势，可以自动提取评论文本中的语义特征，不依赖于人工，从而有效地避免了人工提取特征的不足，学习到更鲁棒的特征表示.为了使模型有更好的特征提取能力，提出词级别的WAM以及特征级别的FHM.如使用双注意力机制实现对特征的提取，学习到更鲁棒性的特征表示。然后通过大规模的英汉平行语料库训练一个英汉神经机器翻译模型。对蒙古语进行预处理后构建蒙汉神经机器翻译模型。

具体地，如图2所示，构建英汉神经机器翻译模型时，需对数据进行如下预处理操作：

1)用中文分词工具Hanlp，Jieba等对中文语料进行分词操作；

2)用英文预处理工具geniatagger等对英文语料进行词性标注和分词操作。

对于中文分词，将一个中文句子以独立的词为单位分开。例如，我想吃米饭。分词成“我想吃米饭”。对于登录词，基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)。根据动态规划查找最大概率路径，找出基于此的最大切分组合。对于未登录词，采用基于汉字成词能力的HMM模型，使用Viterbi算法，将中文词汇按照BEMS四个状态来标记，B是开始位置，E是结束位置，M是中间位置，S是单独成词位置。比如：

输入：好客山东欢迎您，这里是孔子的故乡。

输出：SSBESSS，SSSBESSS.

根据中英文的特点，对中英文分别进行预处理工作，对中文数据进行分字以及字粒度切分。构建包含编码器和解码器的RNN循环神经机器翻译模型架构。利用英汉的大规模平行语料进行英汉神经机器翻译模型的训练。训练过程中利用SGD对参数进行优化。

英汉神经机器翻译模型公式为：

其中，β是模型参数，ψ是非线性函数，y_n是当前目标语言词，x是源语言句子，是已经生成的目标语言句子，y是词汇表中现在所处的位置，V_y是目标语言词向量，E是目标语言词汇表，Z_s是源语言上下文向量，Z_t是目标语言上下文向量。

英汉神经机器翻译模型中，用BLEU值作为评估机器翻译译文质量的工具，N-gram表示n个单词长度的词组集合，每个N-gram的计算公式为：

BLEU的公式为：

在对蒙古语进行预处理时，主要是对其切分。蒙古语属于黏着语，一个蒙古语词由一个词干与多个词缀构成。蒙古语切分用BPE为工具。

步骤2，将训练好的英汉神经机器翻译模型的模型参数权重迁移到蒙汉神经机器翻译模型中。

具体地，如图3所示，利用英汉平行语料训练英汉神经机器翻译模型学到的模型参数权重，对蒙汉神经机器翻译模型进行参数初始化，取代随机初始化，如图2所示，实现将训练学到的模型参数权重迁移到蒙汉神经机器翻译模型。

步骤3，将现有的蒙汉平行语料库对蒙汉神经机器翻译模型进行完善训练，用完善好的蒙汉神经机器翻译模型对现有的蒙汉平行语料库中的汉语单语语料进行回译、加噪，形成一个伪平行语料库D1。

利用现有的蒙汉平行语料库训练蒙汉神经机器翻译模型时，将蒙汉神经机器翻译模型的词典，词向量，隐藏层等参数设置成训练好的英汉神经机器翻译模型的参数。

回译加噪等方式常作为现有NLP传统文本数据增强的思路。加噪的方式包括：

1)同义词替换

2)随机插入

3)随机交换

4)随机删除

步骤4，将伪平行语料库D1和现有的蒙汉平行语料库融合形成伪平行语料库D。

将伪平行语料库D1和现有的蒙汉平行语料库混合形成伪平行语料库D，利用软上下文数据增强方法对伪平行语料库D中的蒙语句子中某个词或多个词的词义表示进行最后增强。

步骤5，用伪平行语料库D重新训练完善好的蒙汉神经机器翻译模型，得到最终的蒙汉神经机器翻译模型。

本发明提供了一个具体的翻译实例：以翻译“今天是晴天”为例。将源语言句子切分成“-，今天，是，晴天”。对应的将平行语料库(标准译文)“It's sunny today”切分成“It’s,sunny,today”。将训练好的英汉神经机器翻译模型的参数对蒙汉神经机器翻译模型进行参数初始化。然后对应的将蒙汉平行语料库切分成训练好的蒙汉神经机器翻译模型再对现有的汉语单语语料进行回译、加噪得到新的伪平行语料库D1，最后将现有的精确蒙汉平行语料库混合形成伪平行语料库D，最后用伪平行语料库D对蒙汉神经机器翻译模型进行进一步的完善，则本发明的目的达成。

Claims

1.一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法，其特征在于，包括如下步骤：

步骤1，使用双注意力机制来进行特征提取，然后通过大规模的英汉平行语料库训练一个英汉神经机器翻译模型；对蒙古语进行预处理后构建蒙汉神经机器翻译模型；

其中，构建英汉神经机器翻译模型时，对于登录词，基于前缀词典实现词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图DAG，根据动态规划查找最大概率路径，找出基于此的最大切分组合；对于未登录词，采用基于汉字成词能力的HMM模型，使用Viterbi算法，将中文词汇按照BEMS四个状态来标记，B是开始位置，E是结束位置，M是中间位置，S是单独成词位置；

步骤3，将现有的蒙汉平行语料库对蒙汉神经机器翻译模型进行完善训练，用完善好的蒙汉神经机器翻译模型对现有的蒙汉平行语料库中的汉语单语语料进行回译、加噪，形成一个伪平行语料库D1；其中，利用现有的蒙汉平行语料库训练蒙汉神经机器翻译模型时，将蒙汉神经机器翻译模型的词典，词向量，隐藏层参数设置成训练好的英汉神经机器翻译模型的参数；

2.根据权利要求1所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法，其特征在于，所述步骤1中构建英汉神经机器翻译模型时，对数据进行如下预处理操作：

1)用中文分词工具对中文语料进行分词操作；

2)用英文预处理工具对英文语料进行词性标注和分词操作。

3.根据权利要求1所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法，其特征在于，所述步骤2中，利用英汉平行语料训练英汉神经机器翻译模型学到的模型参数权重，对蒙汉神经机器翻译模型进行参数初始化，取代随机初始化，将模型参数权重迁移到蒙汉神经机器翻译模型。

4.根据权利要求1所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法，其特征在于，所述加噪的方式包括：

1)同义词替换

2)随机插入

3)随机交换

4)随机删除

5.根据权利要求1所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法，其特征在于，所述步骤4中，将伪平行语料库D1和现有的蒙汉平行语料库混合形成伪平行语料库D，利用软上下文数据增强方法对伪平行语料库D中的蒙语句子中某个词或多个词的词义表示进行最后增强。

6.根据权利要求1所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法，其特征在于，英汉神经机器翻译模型中，用BLEU值作为评估机器翻译译文质量的工具，N-gram表示n个单词长度的词组集合，每个N-gram的计算公式为：

BLEU的公式为：