CN112287694A

CN112287694A - 基于共享编码器的汉越无监督神经机器翻译方法

Info

Publication number: CN112287694A
Application number: CN202010985908.8A
Authority: CN
Inventors: 余正涛; 薛振宇; 文永华; 郭军军; 王振晗; 相艳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2021-01-29

Abstract

本发明涉及基于共享编码器的汉越无监督神经机器翻译方法。本发明只使用汉语和越南语的单语语料，用无监督的方式进行训练。首先使用数字对齐作为种子词典训练汉越双语词嵌入。然后再将该双语词嵌入应用到共享编码器模型中，将汉语和越南语映射到同一语义空间，然后再分别使用解码器对越南语和汉语分别解码，实现基于共享编码器的汉越无监督神经机器翻译。本发明在极低资源下汉越无监督神经机器翻译模型相较于GNMT和Transformer有很大的优势，并且在该无监督模型基础上加入少量平行语料后训练的半监督的翻译模型超过了直接使用相同量的平行语料训练的有监督翻译模型。

Description

基于共享编码器的汉越无监督神经机器翻译方法

技术领域

本发明涉及基于共享编码器的汉越无监督神经机器翻译方法，属于自然语言处理技术领域。

背景技术

在越南语自然语言处理领域中，对于汉越机器翻译而言，由于汉语和越南语的语言差异性相对较大，不存在同源词，并且双语平行语料稀缺而单语语料充足，缺少大规模、高质量平行语料库是一个实际问题。汉语到越南语的翻译是典型的低资源机器翻译情况。目前有人利用枢轴语言和半监督的方法解决低资源问题，但是这些方法仍然需要大量的跨语言信息。因此对只利用单语语料的无监督汉越机器翻译方法进行了研究，并对基于共享编码器的汉越无监督的神经机器翻译方法进行了实现。

发明内容

本发明提供了基于共享编码器的汉越无监督神经机器翻译方法，用于解决和提升在双语语言差异性大且双语平行语料稀缺，缺少大规模、高质量平行语料库的情况下的低资源神经机器翻译的性能和效果。

本发明的技术方案是：基于共享编码器的汉越无监督神经机器翻译方法，所述方法包括如下：

Step1、分别训练汉语和越南语的单语词嵌入，找到最佳的映射矩阵，使得映射后的源语言(汉语)与目标语言在同一语义空间下距离最近；

Step2、将汉语(源语言)与越南语(目标语言)的词嵌入映射到同一空间之中后，把距离最近的源语言与目标语言词对添加到词典中，进行词典自学习；

Step3、构建基于共享编码器的汉越无监督神经机器翻译模型，同时实现从汉语到越南语和从越南语到汉语的两个翻译方向的翻译功能。

作为本发明的进一步方案，所述步骤Step1的具体步骤为：

Step1.1、分别利用汉语和越南语的单语语料训练单语词嵌入矩阵X和Y，X_i*为第i个源语言词嵌入，Y_j*为第j个目标语言词嵌入；

Step1.2、将种子词典以二进制矩阵D的形式表示，当源语言中的第i个词和目标语言中的第j个词相互对齐时，D_ij＝1，利用公式找到最佳的映射矩阵W^*，该最佳映射矩阵可以使映射后的X_i*和Y_j*的欧几里得距离最短。

作为本发明的进一步方案，所述步骤Step2的具体步骤：

Step2.1、首先将训练的汉语(源语言)与越南语(目标语言)的词嵌入映射到同一空间之中，再通过邻近检索的方式，对每一个源语言的单词匹配一个意思最相近的目标语言单词，最后将这种对齐的源语言与目标语言词对添加到词典中，重新进行距离的计算，不断扩展词典，以此进行反复迭代，直到最终收敛为止。

作为本发明的进一步方案，所述步骤Step3的具体步骤为：

Step3.1、构建的模型是由一个含有汉越双语词嵌入的共享编码器以及两个解码器组合而成，两个解码器分别为汉语解码器和越南语解码器，编码器为双层的双向循环神经网络BiGRU，解码器为双层的单向循环神经网络UniGRU；对于汉语(L1)中的每个句子，系统交替训练，用L1解码器重建它，并进行动态反向翻译，它是以推理模式翻译句子(用共享编码器对其进行编码并用越南语(L2)解码器解码)然后用共享编码器优化编码该翻译语句的概率，并用L1解码器恢复原始句子，训练在L1和L2中的句子之间交替进行；

Step3.2、在输入汉语(L1)句中引入随机噪声；

利用相同的自动编码器去噪原理，系统经过训练能重建损坏的输入句子的原始版本，通过在连续单词之间进行随机交换来改变输入句子的单词顺序，对于N个元素的序列，进行这种N/2个随机交换来学习该语言的内部结构以恢复正确的词序，同时，也能阻止系统过分依赖输入序列的词序；

Step3.3、基于回译方法，提出对偶结构形式的翻译模型体系；

与使用独立模型一次反向翻译整个语料库的标准反向翻译相反，使用正在训练的模型即时反向翻译每个小批量句子，这样，随着训练的进行和模型的改进，它将通过反向翻译产生更好的合成句子对，这将有助于在随后的迭代中进一步改进模型。

本发明的有益效果是：本发明提出的基于共享编码器的汉越无监督神经机器翻译方法，证明了在极低资源下汉越无监督神经机器翻译模型相较于GNMT和Transformer有很大的优势，并且在该无监督模型基础上加入少量平行语料后训练的半监督的翻译模型超过了直接使用相同量的平行语料训练的有监督翻译模型。为低资源神经机器翻译等工作提供了强有力的支撑。

附图说明

图1为本发明中的总的模型结构图；

图2为本发明中的使用数字对齐进行词映射示意图；

具体实施方式

如图1-2所示，基于共享编码器的汉越无监督神经机器翻译方法，所述基于共享编码器的汉越无监督神经机器翻译方法的具体步骤如下：

Step1、首先分别获取汉语和越南语的单语语料。分别利用汉语和越南语的单语语料训练单语词嵌入矩阵X和Y，X_i*为第i个源语言词嵌入，Y_j*为第j个目标语言词嵌入。将词典以二进制矩阵D的形式表示，当源语言中的第i个词和目标语言中的第j个词相互对齐时D_ij＝1。其中学习词映射的目标是找到最佳的映射矩阵W*，这个最佳映射矩阵可以使映射后的X_i*和Y_j*的欧几里得距离最短，公式如下：

对词嵌入矩阵X和Y进行长度归一化和中心化，并将W约束为正交矩阵。在这种正交性约束下，最小化欧几里德距离就等于最大化点积。即：

其中，Tr表示矩阵的迹(主对角线中所有元素的总和)。通过求解可以得到最优结果为W*＝UV^T(U、V表示两个正交矩阵)，对其进行奇异值分解后得到公式：X^TDY＝U∑V^T，同时由于D具有一定的稀疏性，可以在线性时间内得到最终的解；

Step2、进行词典自学习，如图2中所示，最先开始给定的数字对齐词典中的词为(1-a，2-b)，然后训练双语词嵌入，将源语言映射到目标语言的空间。使得映射后的“1”与“a”以及“2”与“b"之间在向量空间中的的距离最近。再使用最近邻检索的方法寻找最近距离的对应词，如图2中“3”与“c”的距离较近，把它再加入词典中得到新的词典(1-a，2-b，3-c)作为新的种子词典，重新进行距离的计算，不断扩展词典。对训练完后的词典用集束搜索(Beam Search)进行翻译；

Step3、构建基于共享编码器的汉越无监督神经机器翻译模型，该模型是由一个含有汉越双语词嵌入的共享编码器以及两个解码器组合而成，两个解码器分别为汉语解码器和越南语解码器，编码器为双层的双向循环神经网络(BiGRU)，解码器为双层的单向循环神经网络(UniGRU)。对于汉语(L1)中的每个句子，在输入汉语(L1)句中引入随机噪声。系统交替训练，用L1解码器重建它，并进行动态反向翻译每个小批量句子，然后用共享编码器优化编码该翻译语句的概率，之后再用L1解码器恢复原始句子。训练在L1和越南语(L2)中的句子之间交替进行。该模型结构为对偶结构形式，同时实现了从汉语到越南语和从越南语到汉语的两个翻译方向的翻译功能。

上述架构主要使用以下两种策略以无监督的方式进行训练：

一.去噪：在输入源语言句子中引入随机噪声。这个想法是利用相同的自动编码器去噪原理，系统经过训练可以重建损坏的输入句子的原始版本。为此，通过在连续单词之间进行随机交换来改变输入句子的单词顺序。对于N个元素的序列，进行这种N/2个随机交换。这样，该模型需要学习该语言的内部结构以恢复正确的词序。同时，通过阻止系统过分依赖输入序列的词序，可以更好地解释跨语言的实际词序差异。

二.回译：与使用独立模型一次反向翻译整个语料库的标准反向翻译相反，本模型所提出的体系结构是对偶结构，使用正在训练的模型即时反向翻译每个小批量句子。这样，随着训练的进行和模型的改进，它将通过反向翻译产生更好的合成句子对，这将有助于在随后的迭代中进一步改进模型。在训练过程中，我们将这些不同的培训目标从小批量交替到小批量。给定两种语言L1和L2，每次迭代将对L1进行一次小批量去噪，对L2进行另一次去噪，从L1到L2进行一次小批量的即时反向转换，另一次从L2到L1。此外，通过进一步假设我们可以访问小的平行语料库，系统也可以通过组合这些步骤以直接预测该平行语料库中的翻译而以半监督方式训练，就像在标准NMT中一样。

实验语料是从互联网上爬取的，爬取单语语料清洗后，获得汉语5800万句，越南语单语语料3100万句，汉越平行语料10万句对。对于语料预处理，首先对越南语使用underthesea越南语nlp分词工具对越南语进行分词，使用jieba分词工具对中文进行分词，使用word2vec训练单语数据的词嵌入。

汉语、越南语和英语分别都训练300维的词嵌入。300维的词嵌入是使用skip-gram模型训练的。用于加入词典之后训练双语词嵌入。之后分别将汉语和越南语单语词嵌入映射到共享空间训练汉越双语词嵌入。模型使用Adam作为优化器，学习率为A＝0：0002。在训练期间，使用丢失正则化，dropout为0.3，迭代300,000步，实验中测试集为在爬取的10万个汉越平行句对中随机抽取的2000个平行句对，实验使用multi-bleu.perl脚本计算BLEU值作为评价指标。

实验主要分为以下三个部分：汉越无监督神经机器翻译翻译、无监督机器翻译模型基础上再分别加入1万和10万平行语料的半监督汉越神经机器翻译、直接使用1万和10万的平行语料在GNMT和Transformer上的有监督汉越机器翻译模型训练。

汉越无监督神经机器翻译模型训练：仅使用汉语和越南语单语语料训练翻译系统。半监督汉越神经机器翻译模型训练：大多数情况下，研究的语种常常会有少量的平行语料，可以使用这些平行语料来提升本模型的性能，但它的语料规模不足以直接训练完整的传统NMT系统。所以除了单语语料库之外，本章还加入了少量的平行语料训练半监督神经机器翻译模型汉越。在本文提出的方法基础上又使用1万和10万个平行句对进行实验。对于有监督的汉越神经机器翻译模型训练：用上述半监督实验中加入的1万和10万个平行句对训练传统的有监督神经机器翻译模型，用来与半监督的实验进行对比，不同方式的实验结果的对比如表1所示。

表1不同方法汉越机器翻译实验BLUEU值对比结果

从实验结果第1行可以看出，实现了只是用汉语和越南语单语的汉越神经机器无监督模型，汉语到越南语翻译BLEU值为5.86、越南语到汉语的翻译BLEU值为9.56，说明汉越无监督神经机器翻译是可行的；第2行和第3行分别是在无监督翻译模型基础上分别加入1万和10万汉越平行句对实验结果，第4-7行是只是用平行句对训练的汉越神经机器翻译模型；对比第2、4、6行不难看出在汉越无监督神经机器翻译基础上加入一万汉越平行句对的半监督模型的性能高于只是用1万平行句对训练的有监督的神经机器翻译，也说明在极低资源下汉越无监督神经机器翻译模型相较于GNMT和Transformer有很大的优势；对比第3、5、7行可以看出相较于GNMT模型对比，无监督的汉越神经机器翻译模型加入10万平行句对时在汉语到越南语翻译方向上有2.47个BLEU的提、在越南语到汉语翻译方向上有3.05个BLEU的提升，但是略低于Transformer模型的翻译性能原因是因为本章使用的模型是在GNMT模型上修改而来，未能达到Transformer模型性能，也侧面反映出模型没能成分利用平行语料，半监督的翻译还有待改进。

针对汉越语言差异性较大没有同源词，模型选用从数字对齐关系出发的无监督的学习汉越双语词嵌入在共享编码器编码模型上实现汉越无监督神经机器翻译，实验结果看模型在汉越无监督机器翻译上的性能虽然还不够理想，但是在无监督模型基础上加入平行语料训练半监督的翻译模型性能超过了直接使用平行语料训练的有监督翻译模型的性能，因此本模型对于低资源下的神经机器翻译研究有重要的参考意义。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于共享编码器的汉越无监督神经机器翻译方法，其特征在于：所述方法包括如下：

Step1、分别训练汉语和越南语的单语词嵌入，找到最佳的映射矩阵，使得映射后的源语言与目标语言在同一语义空间下距离最近；

Step2、将源语言与目标语言的词嵌入映射到同一空间之中后，把距离最近的源语言与目标语言词对添加到词典中，进行词典自学习；

2.根据权利要求1所述的基于共享编码器的汉越无监督神经机器翻译方法，其特征在于：所述步骤Step1的具体步骤为：

Step1.2、将种子词典以二进制矩阵D的形式表示，当源语言中的第i个词和目标语言中的第j个词相互对齐时，D_ij＝1；利用公式找到最佳的映射矩阵W*，该最佳映射矩阵可以使映射后的X_i*和Y_j*的欧几里得距离最短。

3.根据权利要求1所述的基于共享编码器的汉越无监督神经机器翻译方法，其特征在于：所述步骤Step2的具体步骤：

Step2.1、首先将训练的源语言与目标语言的词嵌入映射到同一空间之中，再通过邻近检索的方式，对每一个源语言的单词匹配一个意思最相近的目标语言单词，最后将这种对齐的源语言与目标语言词对添加到词典中，重新进行距离的计算，不断扩展词典，以此进行反复迭代，直到最终收敛为止。

4.根据权利要求1所述的基于共享编码器的汉越无监督神经机器翻译方法，其特征在于：所述步骤Step3的具体步骤为：

Step3.1、构建的模型是由一个含有汉越双语词嵌入的共享编码器以及两个解码器组合而成，两个解码器分别为汉语解码器和越南语解码器，编码器为双层的双向循环神经网络BiGRU，解码器为双层的单向循环神经网络UniGRU；对于汉语L1中的每个句子，系统交替训练，用L1解码器重建它，并进行动态反向翻译，它是以推理模式翻译句子然后用共享编码器优化编码该翻译语句的概率，并用L1解码器恢复原始句子，训练在L1和L2中的句子之间交替进行；

Step3.2、在输入汉语L1句中引入随机噪声；

Step3.3、基于回译方法，提出对偶结构形式的翻译模型体系；