CN108920473A

CN108920473A - 一种基于同类词与同义词替换的数据增强机器翻译方法

Info

Publication number: CN108920473A
Application number: CN201810723531.1A
Authority: CN
Inventors: 汪鸣; 汪一鸣; 熊德意; 秦文杰; 程国艮
Original assignee: Chinese Translation Language Through Polytron Technologies Inc
Current assignee: Chinese Translation Language Through Polytron Technologies Inc
Priority date: 2018-07-04
Filing date: 2018-07-04
Publication date: 2018-11-30
Anticipated expiration: 2038-07-04
Also published as: CN108920473B

Abstract

本发明属于自然语言的处理或转换技术领域，公开了一种基于同类词与同义词替换的数据增强机器翻译方法，利用词向量最终会被很好地聚类的特性，得到质量较高的同类词表与同义词表；用大语种训练过程中得到的词向量构建同类词表与同义词表，再对稀缺的小语种中同类词与同义词进行替换；扩充小语种的平行语料，再采用编码‑解码结构和注意力机制的神经网络训练小语种的神经网络机器翻译模型。扩充了训练数据，神经网络翻译模型的参数能够在足够多的数据中得到很好的学习，并且可以缓解神经机器翻译中未登录词这一问题，使得翻译模型的翻译质量得到提升。当整个网络在开发集上的翻译质量不再有明显提升时，网络参数已经得到了很好的学习。

Description

一种基于同类词与同义词替换的数据增强机器翻译方法

技术领域

本发明属于自然语言的处理或转换技术领域，尤其涉及一种基于同类词与同义词替换的数据增强机器翻译方法。

背景技术

目前，业内常用的现有技术是这样的：随着计算机计算能力的提高以及大数据的应用，深度学习取得进一步的应用，基于深度学习的Neural Machine Translation越来越受到人们的关注。机器翻译作为人工智能的一个研究热点，具有十分重要的科研价值和实用价值。在NMT领域中，最常用的一种翻译模型是带有注意力机制(attention-based)的encoder-decoder模型。其主要思想是将待翻译的语句(在下文中统称为”源语句”)经过编码器(encoder)编码成为一个向量表示，然后利用解码器(decoder)对源语句的向量表示进行解码，翻译成为其对应的译文(在下文中统称为”目标语句”)。事实上，这种 encoder-decoder框架是深度学习的核心思想，同样的，encoder-decoder框架也是NMT系统常用的一个基本架构。目前主流的NMT系统，encoder和decoder 都利用RNN(recurrent neuralnetworks)，RNN在处理时序信息时有着得天独厚的优势，它能够处理任意长度的输入并将其转换成为一个固定维度的向量。翻译的流程包括：首先，编码器将输入的源语句转换成为一个词向量序列作为循环神经网络的输入，编码器会输出一个固定长度的密集向量，称为上下文向量。然后，解码器以上下文向量作为输入，利用另外一个循环神经网络结合一个Softmax分类器，输出目标语句的词向量序列。最后，利用词典把词向量映射成为目标语言词，完成翻译过程。但是，NMT系统的翻译质量在很大程度上取决于相当大的平行语料库的可用性。对于低资源语言即小语种对来说，情况并非如此，所以一般来讲小语种的NMT系统的翻译质量较差。由于小语种的平行语料的稀疏性，训练得到的NMT翻译模型并不能很好地拟合未见数据，即语料的稀疏性会导致NMT翻译系统词典的稀疏性，在测试集上的翻译结果往往会生成很多的UNK(未登录词)，而且由于语料的稀疏，BPE也不能使翻译质量得到很好的提高。因为BPE方法将原来的单词进行拆分，形成子单词级别的词表，这种方法可以保证大部分的单词都可以出现在词表中，很大程度上缓解译文中生成UNK的现象。但是由于语料的稀缺导致的单词的稀缺，所以BPE形成的子词表在很大概率上也会是稀缺的。另外，BPE的作用大小也受限于语种，再加上小语种的语料稀缺问题，所以BPE方法对小语种的翻译质量的提升未必会有很大的帮助。此外，最重要的一点是由于训练语料的稀缺，NMT翻译模型也很难学到源端与目标端两种语言相应的语言规律，从而导致翻译结果的流畅性降低。综上，这些问题的根源都可以归结为训练语料的稀缺。这也是小语种翻译系统亟待解决的问题。

综上所述，现有技术存在的问题是：

(1)大规模、高质量的双语平行语料很难获取，而人工翻译构建高质量双语平行语料的成本较高。

(2)缺乏大规模、高质量的双语平行语料，导致小语种的神经网络机器翻译模型训练数据不充分、性能较差，难以构建高性能的机器翻译系统。

解决上述技术问题的难度和意义：NMT系统模型的训练严重依赖大规模双语平行语料。但是大规模、高质量的双语平行语料很难获取，而人工翻译构建高质量双语平行语料的成本较高，这一问题在小语种的NMT翻译系统中尤为严重，由于缺乏大规模、高质量的双语平行语料，导致小语种的神经网络机器翻译模型训练数据不充分、性能较差，难以构建高性能的机器翻译系统，这也是现有神经网络机器翻译模型面临的瓶颈问题之一。

本发明在通过基于同类词与同义词替换的方法在保障扩充语料的质量的前提下，对小语种的训练数据进行了极大的扩充，从而有效地提高了小语种的神经翻译系统的翻译质量。随着世界各国之间的交流日益紧密，语言的沟通成为一种必然的需求，翻译作为实现各国之间交流的一种必要手段。但作为小语种，不管是翻译人才还是翻译系统都十分稀缺。

发明内容

针对现有技术存在的问题，本发明提供了一种基于同类词与同义词替换的数据增强机器翻译方法。

本发明是这样实现的，一种基于同类词与同义词替换的数据增强机器翻译方法，所述基于同类词与同义词替换的数据增强机器翻译方法利用词向量最终会被很好地聚类的特性，得到质量较高的同类词表与同义词表；用大语种训练过程中得到的词向量构建同类词表与同义词表，再对稀缺的小语种中同类词与同义词进行替换；扩充小语种的平行语料，再采用编码-解码结构和注意力机制的神经网络训练小语种的神经网络机器翻译模型。

其中，同义词与同类词表除了利用神经网络中词向量的聚类特性来得到，也可以结合之前的技术手段，综合考量最终确定一个高质量的同义词与同类词表。这里，在本发明中可以考虑结合计算文本的特征向量夹角的余弦或奇异分解文本和关键词的关联矩阵等方法进一步得到高质量的同义词与同类词表。

计算文本的特征向量夹角的余弦：

由于虚词与助词对某一文本所要表达的意思影响较小，所以一下只考虑莫一文本中所有实词的TF-IDF值按照对应实词在词汇表中的位置以此排列，从而得到该文本的特征向量。同一类文本一定是某些主题词用得比较多，另一些主题词则用的比较少，比如金融类的文本，股票、债券、基金、利息等词出现的频率就很高，这样某一类文本之间的特征向量的在某几维度的值都比较大，而在其他维度的值较小。而不同类的文本之间的特征向量，值较大的维度应该没有什么交集。这样，两个文本的特征向量夹角的余弦大小则表明了它们之间内容的相似度。那么，利用文本的特征向量夹角的余弦计算则可以对文本进行分类，这也是不同类别文本的主题词之间的一个聚类过程，这样同一类别的文本的TF-IDF值最高的Top-N可以作为同类词表的补充。

奇异分解文本和关键词的关联矩阵：

首先，定义一个大矩阵来描述语料中成千上万篇文章和几十上百万词的关联性即文本和关键词的关联矩阵。在这个矩阵中，每一行对应一篇文章，每一列对应一个词，如果有N个词，M篇文章，则可以得到一个M×N的矩阵，如下所示。

其中，第i行、第j列的元素a_ij，是字典中第j个词在第i篇文章中出现的加权词频(比如用词的TF-IDF值)。然后对这样一个大矩阵进行奇异值分解，即分解成三个小矩阵相乘如下所示(假设M＝1000000，N＝500000)。

[A]_{1000000×500000}＝[X]_1000000×100[B]_100×100[Y]_100×500000

第一个矩阵X是对词分类的的一个结果，它的每一行表示一个词，每一列表示一个语义相近的词类。最后一个矩阵Y是对文本的分类结果，它的每一列对应一篇文本，每一行对应一个主题。中间的矩阵B则表示词的类和文章的类之间的相关性。

如果把文本和关键词的关联矩阵即A旋转90度，进行奇异分解，或者对每一个词为文本作为维度，建立一个向量，再进行向量的聚类，那么得到就是对词的一个分类而不是对文本的分类。这样此方法也可以对同义词与同类词表进行补充。

进一步，所述基于同类词与同义词替换的数据增强机器翻译方法具体包括以下步骤：

步骤一，构建一个小语种翻译模型所需的同义词表与同类词表；对原有的稀缺语料进行去重、分词预处理；

步骤二，利用同义词与同类表，将源端语言和目标端语言的语料进行两端的同义词与同类词替换，两端保持对齐，语料扩充完成。

步骤三，完成语料扩充后，将得到的新的语料作为训练语料，训练小语种的机器翻译模型。

进一步，分布式词表示将词典中的词的索引映射到高维空间中的词向量；词向量的每个维度都与多个概念相关联，通过反向传播算法训练模型，不断更新一开始随机初始化的词向量，得到聚类很好的词向量。

进一步，给定语料T中的一个单词序列S＝[w_i-n...w_i...w_i+n]，通过随机挑选语料词表中的单词w_j用于替换序列S中的单词w_i来构造伪序列S′，然后对每个序列即短语进行评分，如果S′的得分比S的得分要高，通过铰链损失函数J(T)惩罚模型，得到一个聚合很好的词向量；

给定一个单词w_i，根据其他单词与w_i的欧氏距离对单词进行排序，并显示最接近的五个相邻单词作为w_i的同义词或同类词；对词汇表中的每一个单词翻译进行上述操作，得到一个大小与词汇表等同的同义词与同类词表。

将得到的大语种的同义词表和同类词表翻译成所需训练的小语种翻译模型的同义词表与同类词表。

本发明的另一目的在于提供一种应用所述基于同类词与同义词替换的数据增强机器翻译方法的神经机器翻译系统。

综上所述，本发明的优点及积极效果为：目前在小语种翻译方面主要有以下几个技术手段：迁移学习(Transfer Learning)、回翻(back-translation)以及其他数据增强的技术等。但Transfer Learning要求学习的小语种与用来预训练的大语种之间比较相近或者为同一语系，比如用英语-俄语的翻译模型帮助英语- 乌克兰语的翻译模型，但是英语-俄语的翻译模型对提升英语-泰米尔语的翻译模型就几乎没有任何的帮助，所以TransferLearning对小语种的语言类型有所要求不具备普适性。同样，back-translation也不是对小语种都适用。比如，利用英语-泰米尔语的翻译模型将大量的英语单语语料翻译为泰米尔语，从而构成新的双语语料与原先小规模的训练语料合并训练泰米尔语-英语的翻译模型，实验证明这种方法在泰米尔语-英语上有所效果，但是在乌克兰语-英语上却没有效果。另外，back-translation利用英语-泰米尔语的翻译模型得到的新的双语语料质量难以保证，并且Transfer Learning和back-translation都不会引入新的词，所以对缓解UNK问题也不会有很效果。

本发明的基于同类词与同义词替换的数据增强技术，在传统基于神经网机器翻译的基础上，利用词向量的聚类特性得到大语种两端的同义词表与同类词表，再翻译为小语种的同义词表与同类词表，对原有的稀缺小语种进行同义词与同类词的两端对齐的替换处理，得到质量较高的小语种的扩充平行语料；用于训练小语种机器翻译的神经网络所采用的模型是传统的基于“编码-解码”的注意力机制神经网络翻译模型，其作用是根据输入的源语言句子，生成相应的目标语言句子。

本发明实施例提供的基于基于同类词与同义词替换的数据增强技术，在原有的语料中引入大量的新词，扩充了训练数据，神经网络翻译模型的参数能够在足够多的数据中得到很好的学习，并且在一定程度上可以缓解神经机器翻译中未登录词这一问题，使得翻译模型的翻译质量得到提升。当整个网络在开发集上的翻译质量不再有明显提升时，即网络参数已经得到了很好的学习，代表训练完成，此时的翻译模型可以作为最终的神经机器翻译模型。

附图说明

图1是本发明实施例提供的基于同类词与同义词替换的数据增强机器翻译方法流程图。

图2是本发明实施例提供的基于同类词与同义词替换的数据增强机器翻译方法实现流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供的基于同类词与同义词替换的数据增强机器翻译方法包括以下步骤：

S101：利用词向量最终会被很好地聚类的特性，得到质量较高的同类词表与同义词表；

S102：用大语种训练过程中得到的词向量构建同类词表与同义词表，再对稀缺的小语种中同类词与同义词进行替换；

S103：扩充小语种的平行语料，再采用“编码-解码”结构和注意力机制的神经网络训练小语种的神经网络机器翻译模型。

分布式词表示(word embedding)将词典中的词的索引映射到高维空间中的特征向量即词向量。词向量的每个维度都与多个概念相关联(如词性、词义等)，每个概念都是由这些维度子集的组合来表示的。这种映射可以通过反向传播算法训练模型，不断更新一开始随机初始化的词向量，最终得到聚类很好的词向量。通常选择这样的任务，在语言建模的情况下，预测由n个单词组成的短语的最后一个单词，即训练语言模型。

给定语料T中的一个单词序列S＝[w_i-n...w_i...w_i+n]，通过随机挑选语料词表中的单词w_j用于替换序列S中的单词w_i来构造伪序列S′，然后对每个序列即短语进行评分，如果S′的得分比S的得分要高，那么通过铰链损失函数J(T)惩罚模型，最终得到一个聚合很好的词向量。

在神将网络学习从源语言到目标语言的翻译模型参数的过程中，系统也同时将训练语料中的单词以词向量的形式很好地按照类别、含义与词性等特征聚类在一个高维空间，即最终系统也会生成一个聚类很好的词向量。给定一个单词w_i，根据其他单词与w_i的欧氏距离对单词进行排序，并显示最接近的五个相邻单词作为w_i的同义词或同类词。对词汇表中的每一个单词翻译进行上述操作，则会得到一个大小与词汇表等同的同义词与同类词表。

将得到的大语种的同义词表和同类词表翻译成所需训练的小语种翻译模型的同义词表与同类词表(单词级别的翻译质量一般很高，所以最终得到的小语种的同义词表与同类词表质量也会有所保证)。

本发明实施例提供的基于同类词与同义词替换的数据增强方法，具体包括：

构建一个小语种翻译模型所需的同义词表与同类词表；对原有的稀缺语料进行去重、分词等预处理；

利用同义词与同类表，将源端语言和目标端语言的语料进行两端的同义词与同类词替换，两端保持对齐，语料扩充完成。

完成语料扩充后，将得到的新的语料作为训练语料，训练小语种的机器翻译模型。

下面结合具体实施例对本发明的应用原理作进一步的描述。

由词向量之间欧氏距离的计算可以得到中文的同义词与同类词表中的：

牛、羊、马、鹿；

经单词级别的翻译可以得到泰米尔语的同义词与同类词表中的：

若原训练语料中有：

将源端语言和目标端语言的语料进行两端的同义词与同类词替换，扩充语料后可以得到如下的平行语料：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于同类词与同义词替换的数据增强机器翻译方法，其特征在于，所述基于同类词与同义词替换的数据增强机器翻译方法利用词向量最终会被很好地聚类的特性，得到质量较高的同类词表与同义词表；用大语种训练过程中得到的词向量构建同类词表与同义词表，再对稀缺的小语种中同类词与同义词进行替换；扩充小语种的平行语料，再采用编码-解码结构和注意力机制的神经网络训练小语种的神经网络机器翻译模型。

2.如权利要求1所述的基于同类词与同义词替换的数据增强机器翻译方法，其特征在于，所述基于同类词与同义词替换的数据增强机器翻译方法具体包括以下步骤：

步骤二，利用同义词与同类表，将源端语言和目标端语言的语料进行两端的同义词与同类词替换，两端保持对齐，语料扩充完成；

3.如权利要求1所述的基于同类词与同义词替换的数据增强机器翻译方法，其特征在于，分布式词表示将词典中的词的索引映射到高维空间中的词向量；词向量的每个维度都与多个概念相关联，通过反向传播算法训练模型，不断更新一开始随机初始化的词向量，得到聚类很好的词向量。

4.如权利要求3所述的基于同类词与同义词替换的数据增强机器翻译方法，其特征在于，给定语料T中的一个单词序列S＝[w_i-n...w_i...w_i+n]，通过随机挑选语料词表中的单词w_j用于替换序列S中的单词w_i来构造伪序列S′，然后对每个序列即短语进行评分，如果S′的得分比S的得分要高，通过铰链损失函数J(T)惩罚模型，得到一个聚合很好的词向量；

给定一个单词w_i，根据其他单词与w_i的欧氏距离对单词进行排序，并显示最接近的五个相邻单词作为w_i的同义词或同类词；对词汇表中的每一个单词翻译进行上述操作，得到一个大小与词汇表等同的同义词与同类词表；

5.一种应用权利要求1～4任意一项所述基于同类词与同义词替换的数据增强机器翻译方法的神经机器翻译系统。