CN112507732A

CN112507732A - 融入双语词典的无监督汉-越神经机器翻译方法

Info

Publication number: CN112507732A
Application number: CN202011224944.9A
Authority: CN
Inventors: 余正涛; 王可超; 郭军军; 王振晗; 文永华; 相艳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-03-16

Abstract

本发明涉及融入双语词典的无监督汉‑越神经机器翻译方法，属于自然语言处理技术领域。本发明所提方法的具体思路为：分别收集汉语、英语和越南语的单语语料，并对语料进行预处理；利用基于英语枢轴的方法从单语中学习汉越双语词典；利用双语词典初始化翻译模型；翻译单语句子，对翻译的句子加噪，训练栈式自编码器；将通过训练学习到的参数给翻译模型，进一步完成迭代，以提高翻译模型的性能。本发明方法，将学习到的汉越词典作为跨语言信息融入到汉越无监督机器翻译中，在此基础上改进去噪自编码器的重构能力来提升模型的鲁棒性。最终，提升基于枢轴词典的汉越神经机器翻译质量。

Description

融入双语词典的无监督汉-越神经机器翻译方法

技术领域

本发明涉及融入双语词典的无监督汉-越神经机器翻译方法，属于自然语言处理技术领域。

背景技术

神经机器翻译是目前机器翻译领域最热门的翻译方法。在大规模训语料的情况下神经机器翻译可以获得很好的翻译效果，但是在只有小规模训练数据的情况下，神经机器翻译的翻译效果并不理想。汉语和越南语之间的平行语料稀少且不容易获取，所以汉-越机器翻译是典型的低资源语言机器翻译。但是汉语和越南语拥有大量的单语语料，本发明研究只利用单语语料实现汉-越无监督神经机器翻译。

在无监督汉-越神经机器翻译模型中，汉-越双语词典构建及语言模型的选择对汉-越机器翻译效果具有较大影响。因此，我们将构建的汉-越双语词典融入无监督神经机器翻译模型中，对现有的语言翻译做了一些改进，提升翻译质量。

发明内容

本发明提供了融入双语词典的无监督汉-越神经机器翻译方法，以用于解决由于汉-越平行语料资源匮乏和只利用单语数据训练神经机器翻译模型造成的汉-越神经机器翻译性能不佳等问题。

本发明的技术方案是：融入双语词典的无监督汉-越神经机器翻译方法，所述方法包括：

Step1、分别收集汉语、越南语、英语的单语语料，并将收集到的语料进行预处理；

Step2、利用基于英语枢轴的方法从单语中学习汉越双语词典；

Step3、利用Step2构建的汉越双语词典初始化翻译模型；

Step4、利用Step3训练的翻译模型，翻译单语句子，然后对翻译的句子加噪，训练栈式自编码器，目标函数使模型能够更好学习编码器和解码器；

Step5、将通过训练学习到的编码器和解码器的参数给翻译模型，进一步来完成迭代，以提高翻译模型的性能。

作为本发明的进一步方案，所述步骤Step1的具体步骤为：

Step1.1、通过编写网络爬虫程序，收集整理汉语、越南语、英语单语语料；

Step1.2、将网络上爬取的语料进行过滤、去重、删除较短语句操作，得到高质量的单语句子；

Step1.3、利用分词工具分别对三种单语语料进行分词处理。

作为本发明的进一步方案，所述步骤Step2的具体步骤为：

Step2.1、利用基于种子词典的方法将汉越词向量分别对齐到英语词向量空间；

Step2.2、在英语词向量共享空间中通过对抗网络学习汉越词向量之间的映射关系；

Step2.3、通过计算映射后的源语言词向量和目标语言词向量抽取汉-越词向量，构建汉-越双语词典。

作为本发明的进一步方案，所述步骤Step3的具体步骤为：

Step3.1、在只使用单语语料的无监督机器翻译的基础上，使用汉越双语词典初始化翻译模型，学习到一个汉越词翻译模型，使得翻译结果比原词翻译模型具有更强的挖掘汉语、越南语单语语料中的跨语言信息的能力。

作为本发明的进一步方案，所述步骤Step4的具体步骤为：

Step4.1、利用训练好的词翻译模型翻译单语句子，并对翻译的句子进行加噪声处理；

Step4.2、使用翻译后加噪处理的句子训练栈式自编码器，目标函数使模型能够更好学习编码器和解码器，使得它们能够从加噪的翻译中重构原句。

作为本发明的进一步方案，所述步骤Step5的具体步骤为：

Step5.1、通过加噪训练的栈式去噪自编码器将学习到的编码器和解码器的参数反馈给翻译模型，再次进行Step4的过程，进一步来完成迭代，以提高翻译模型的性能。

作为本发明的进一步方案，所述Step2.1中，将源句子与目标句子分别输入Fasttext模型中得到各自的词向量，将基于种子词典的方法分别学习汉-英、越-英的映射矩阵，将汉语词向量以及英语词向量分别对齐到英语词向量共享空间中，得到汉-英词向量以及越-英词向量，分别重新定义为源词向量以及目标词向量。

作为本发明的进一步方案，所述Step2.2中，将构建一个包含生成器G与判别器D的对抗网络，将源词向量输入对抗网络，调节源语言词向量到目标语言词向量的映射矩阵，在英语词向量共享空间中，将映射后的源语言词向量与目标语言词向量输入判别器D，判别词向量来源，将不断迭代生成器G与判别器D模型参数，通过无监督选择标准获取一个模型。

作为本发明的进一步方案，所述Step2.3中，通过NN/CSLS距离公式计算映射后的源语言词向量与目标语言词向量抽取汉-越词向量构建汉-越双语词典。

本发明的有益效果是：

1、本发明只利用单语数据，不需要任何的汉越监督信号，避免了对平行语料的依赖，通过实验对比，无论与有监督的方法，还是现有的无监督的方法相比，本方法都明显的提升了汉越神经机器翻译的性能；

2、本发明提出的融入双语词典的汉-越神经机器翻译方法，在只使用单语语料的无监督机器翻译的基础上，使用双语词典初始化翻译模型，使得翻译结果比原词翻译模型具有更强的挖掘汉语、越南语单语语料中的跨语言信息的能力；

3、本发明还通过将去噪自编码器改为栈式去噪自编码器来改进汉-越神经机器翻译的语言模型，使得该模型比原语言模型具有更好的鲁棒性和稳定性。

附图说明

图1为本发明中的融入双语词典的汉-越神经机器翻译整体框架图；

图2为本发明中的自编码与翻译流程图；

图3为本发明流程图；

图4为栈式去噪自编码器结构图。

具体实施方式

实施例1：如图1-4所示，融入双语词典的无监督汉-越神经机器翻译方法，图1提供了融入双语词典的无监督汉-越神经机器翻译方法的整体框架图，该方法主要包含以下步骤：

A步骤：分别收集汉语、越南语、英语的单语语料，并将收集到的语料进行预处理；B步骤：利用基于英语枢轴的方法从单语中学习汉越双语词典；C步骤：在B步骤的基础上，利用双语词典初始化词翻译模型；D步骤：利用C步骤训练的翻译模型，翻译单语句子，然后对翻译的句子加噪，训练栈式自编码器，目标函数使模型能够更好学习编码器和解码器；E步骤：将学习到的编码器和解码器的参数给翻译模型，进一步来完成迭代，以提高翻译模型的性能。

进一步地，在A步骤中，包含以下步骤：A01步骤：通过编写网络爬虫程序，收集整理汉语、越南语、英语单语语料；A02步骤：将网络上爬取的语料进行过滤、去重、删除较短语句等操作，得到高质量单语句子；A03步骤：利用分词工具分别对三种单语语料进行分词处理。

进一步地，在B步骤中，包含以下步骤：B01步骤：利用基于种子词典的方法将汉越词向量分别对齐到英语词向量空间；B02步骤：在英语词向量共享空间中通过对抗网络学习汉越词向量之间的映射关系；B03步骤：通过计算映射后的源语言词向量和目标语言词向量抽取汉-越词向量，构建汉-越双语词典。

在B01步骤中，将源句子与目标句子分别输入Fasttext模型中得到各自的词向量。将基于种子词典的方法分别学习汉-英、越-英的映射矩阵，将汉语词向量以及英语词向量分别对齐到英语词向量共享空间中，通过上述步骤可得汉-英词向量以及越-英词向量，分别重新定义为源词向量以及目标词向量。

在B02步骤中，将构建一个包含生成器G与判别器D的对抗网络，将源词向量输入对抗网络，调节源语言词向量到目标语言词向量的映射矩阵，在英语词向量共享空间中，将映射后的源语言词向量与目标语言词向量输入判别器D，判别词向量来源，将不断迭代生成器G与判别器D模型参数，通过无监督选择标准获取一个模型。

在B03步骤中，通过NN/CSLS距离公式计算映射后的源语言词向量与目标语言词向量抽取汉-越词向量构建汉-越双语词典。

进一步地，在D步骤中，包含以下步骤：D01步骤：通过使用回译能够获得翻译的句子；D02步骤：使用两种方式给翻译的句子加噪声，分别通过随机删除词和交换词语顺序的方式加噪；D03步骤：训练栈式去噪自编码器，使得模型能够将源域/目标域l₁的句子映射到目标域/源域l₁。

融入双语词典的汉-越神经机器翻译整体框架图如图1所示。该模型结构是一个序列到序列的模型，编码器和解码器都在两种语言上运行，输入语言标识符取决交换查找表。顶部是栈式去噪自编码器：使用栈式去噪自编码器能在更高的维度上提取特征，而且模型更具稳定性与鲁棒性。然后对每个域中的句子进行去噪。底部是翻译流程：首先，初始化，基于英语枢轴的方法从单语中学习汉越双语词典，然后使用学习到的模型构建汉越词翻译模型，然后对翻译的句子进行加噪，训练栈式去噪自编码器。图1中的椭圆表示对抗网络和自编码的损失函数。

如图4所示，为本发明中的栈式去噪自编码器的结构图。首先，去噪自编码器的原理为：其中x是原句子，

是加噪后的句子，f_θ为编码函数，加噪后的句子的隐藏表示为

g_θ为解码函数。加噪后恢复的定义为

Δ重构误差。去噪自编码器器目标函数是最小化x和隐藏状态y重建后的误差。仍然是最大化x和y的互信息的下限。去噪自编码器(DAE)由于层次较浅，不能提取到语言高维的特征，因此学习到数据的语言结构有限。为了解决这个问题我们采用了栈式去噪自编码器(SDAE)，栈式去噪自编码器(SDAE)是自编码网络的进阶版，是一个多层训练的自编码器组成的神经网络，网络的每一层都是单独训练，多级自编码器级联，以便逐层提取特征，提取到的特征更具代表性，维度更小。如图4所示，第一级的去噪自动编码器学习编码函数f_θ，学习到的特征，作为下一级的输入，用于训练第二级的编码器函数

栈式去噪自编码器目标函数是去限制模型，使得模型能够将源域/目标域l₁的句子映射到目标域/源域l₂。训练的原则是采样一个句子

并且在l₂域中生成一个损坏版本翻译，这个损坏版本翻译将被当前的翻译模型M翻译得来，例如一个句子翻译后的结果y＝M(x)。然后对这个损坏版本的翻译加噪为C(y)，如图2右图。目标函数使得模型能够更好学习编码器和解码器，使得它们能够从加噪的翻译C(y)中重构x，跨域损失函数如下公式所示。

其中，Δ为词级的交叉熵损失和。

进一步地，在E步骤中，包含以下步骤：

在高层次上，该模型从无监督的翻译模型开始，该模型是通过使用基于英语枢轴的汉越双语词典构建方法对句子进行逐词翻译而获得的，然后，在每次迭代中，通过最小化目标函数来训练编码器和解码器，该目标函数测量从输入训练语句的噪声版本重建和翻译的能力。在自动编码任务的情况下，通过删除和交换单词来获得加噪的输入，翻译结果是前一个迭代的模型翻译的结果。为了促进句子在源域和目标域中的潜在分布的对齐，我们的方法还同时学习了对抗网络中的判别器。然后在下一次迭代中使用最新学习的编码器/解码器生成新的翻译，直到算法收敛为止。在测试时，尽管训练时缺少并行数据，但编码器和解码器可以组成标准的机器翻译系统。

通常当神经机器翻译系统的输入是由它所训练的编码器产生，或者当输入来自分布非常接近的编码器时，神经机器翻译系统的解码器性能会很优异。因此，我们希望不考虑输入语句的实际语言，编码器在相同的空间中输出特性，如果满足这样的条件，我们的解码器可能能够以某种语言解码，而不管编码器输入语句是来自源语言还是目标语言。

本发明中提出的方法以及有监督方法的正向翻译(汉-越)实验结果进行了对比实验，并将本发明提出的融入枢轴词典的汉越神经机器翻译命名为Adv+Pivot Dictionary+NMT。实验结果如表1所示。

从表1可以看出，基于对抗网络的汉-越神经机器翻译方法在使用大量单语资源和少量词典的情况下的BLEU值上比有监督方法的模型有所提升，达到如此的性能，因为本发明模型通过对抗网络能较好的约束汉越词对齐关系，即提升了词翻译模型的性能，之后又通过迭代训练不断提升原语言模型的重构能力。

另外，为了证明本发明方法优于Alexis等人的基准模型方法(即无监督翻译方法)，我们将本发明模型与Alexis等人模型的翻译性能的进行了(正反两个方向)比较，实验结果如表2所示。

从表2可知，本发明模型与基准模型对比，进一步证明了本发明方法比基线模型的无监督机器翻译模型有了明显的提升。证明了本发明词典与语言模型对其有较大的提升作用。

本发明提出了一种融入双语词典的无监督汉-越神经机器翻译方法，传统的神经机器翻译系统，很大程度依赖大量的平行语料，在该方法中，文本使用大量的单语语料也能达到与10W平行语料规模训练的神经机器翻译的性能。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融入双语词典的无监督汉-越神经机器翻译方法，其特征在于：所述方法包括：

Step3、利用Step2构建的汉越双语词典初始化翻译模型；

2.根据权利要求1所述的融入双语词典的无监督汉-越神经机器翻译方法，其特征在于：所述步骤Step1的具体步骤为：

Step1.3、利用分词工具分别对三种单语语料进行分词处理。

3.根据权利要求1所述的融入双语词典的无监督汉-越神经机器翻译方法，其特征在于：所述步骤Step2的具体步骤为：

4.根据权利要求1所述的融入双语词典的无监督汉-越神经机器翻译方法，其特征在于：所述步骤Step3的具体步骤为：

5.根据权利要求1所述的融入双语词典的无监督汉-越神经机器翻译方法，其特征在于：所述步骤Step4的具体步骤为：

6.根据权利要求1所述的融入双语词典的无监督汉-越神经机器翻译方法，其特征在于：所述步骤Step5的具体步骤为：

7.根据权利要求3所述的融入双语词典的无监督汉-越神经机器翻译方法，其特征在于：所述Step2.1中，将源句子与目标句子分别输入Fasttext模型中得到各自的词向量，将基于种子词典的方法分别学习汉-英、越-英的映射矩阵，将汉语词向量以及英语词向量分别对齐到英语词向量共享空间中，得到汉-英词向量以及越-英词向量，分别重新定义为源词向量以及目标词向量。

8.根据权利要求3所述的融入双语词典的无监督汉-越神经机器翻译方法，其特征在于：所述Step2.2中，将构建一个包含生成器G与判别器D的对抗网络，将源词向量输入对抗网络，调节源语言词向量到目标语言词向量的映射矩阵，在英语词向量共享空间中，将映射后的源语言词向量与目标语言词向量输入判别器D，判别词向量来源，将不断迭代生成器G与判别器D模型参数，通过无监督选择标准获取一个模型。

9.根据权利要求3所述的融入双语词典的无监督汉-越神经机器翻译方法，其特征在于：所述Step2.3中，通过NN/CSLS距离公式计算映射后的源语言词向量与目标语言词向量抽取汉-越词向量构建汉-越双语词典。