CN110502758A

CN110502758A - 一种基于短语的汉-越伪平行句对生成方法

Info

Publication number: CN110502758A
Application number: CN201910628228.8A
Authority: CN
Inventors: 余正涛; 薛明亚; 高盛祥; 赖华; 翟家欣; 朱恩昌; 陈玮
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-11-26

Abstract

本发明涉及一种基于短语的汉‑越伪平行句对生成方法。本发明首先进行语料收集；使用网络爬虫爬取汉越平行句对；语料预处理；对汉‑越平行句对进行短语结构句法分析，得到短语句法结构树；对汉越平行语料进行处理得到汉越词对齐信息；构建汉越对齐短语集合；根据汉越词对齐信息和平行句对的短语句法结构树获取汉越对齐短语集合；生成汉‑越句对；将汉越平行句对的短语句法结构树的对应节点的短语替换为汉越对齐短语集合中其他短语，生成汉‑越句对；对于生成的新的汉‑越句对需要通过RNN语言模型来进一步的验证筛选，得到最终用于汉越神经机器翻译的汉越伪平行句对。本发明能够有效地生成大量的汉‑越伪平行句对，提升汉越神经机器翻译的性能。

Description

一种基于短语的汉-越伪平行句对生成方法

技术领域

本发明涉及一种基于短语的汉-越伪平行句对生成方法，属于自然语言处理技术领域。

背景技术

神经机器翻译需要大规模平行语料支撑才能取得较好的效果，汉越神经机器翻译是典型的资源稀缺型神经机器翻译，短时间内难以获取大规模的汉越平行语料。伪平行句对生成是扩展伪平行语料的重要方法之一，已有许多研究表明伪平行语料同样能够有效提高资源稀缺型神经机器翻译性能，对于因语料不足导致泛化能力差的汉越神经机器翻译来说，汉越伪平行语料生成是值得一试的方法。

在语料生成方面，国内外研究学者对不引入额外资源的生成语料的方法进行研究，并取得了一系列成果。和为等人提出了一种基于依存分析和句子生成的复述方法，对句子进行依存分析得到依存树，然后从依存树生成多个自然语言句子，生成的句子与原句相比没有词汇上的改变，但在词序方面进行了变换，在不引进额外资源的情况下，提高了机器翻译的质量；Fadae等人提出了翻译数据增强(TDA，Translation Data Augmentation)的方法生成伪平行句对，该方法首先将平行句对的中常见的词同时替换为同一个稀有词，得到伪平行句对，为保证新得到的伪平行句对在语法和语义上的正确性，再经过语言模型进行筛选，通过筛选的则为可用于神经机器翻译的伪平行句对；蔡子龙等人利用数据增强技术实现对资源稀缺型的语种的训练数据进行扩充，该方法首先对句子进行分块，然后找到句子中最相似的两个模块，通过对调他们的位置形成新的句子，实现伪平行句对的扩展。

基于依存分析和句子生成的复述方法，生成的句子与原句相比没有词汇上的改变，只是词序进行了调换；Fadae等人、蔡子龙等人都是基于数据增强的思想生成伪平行语料，选取的可替换单元分别是单词和最小翻译单元。单词因为粒度过小，并在词对齐的过程中往往存在一对多的问题，在替换的过程中容易出现生成的句子存在语法语义上的错误的问题；同时还存在替换的对齐词在句子环境中不匹配的问题。最小翻译单元是几个词的组成，不容易出现一对多的问题，但是由于句子结构的复杂性，在没有句法信息的指导下进行替换，容易出现语法上的错误。

发明内容

本发明提供了一种基于短语的汉-越伪平行句对生成方法，以用于扩充了低资源神经机器翻译语料，提高了汉越神经机器翻译的性能。引入短语句法结构信息选择短语以及指导短语替换过程来构建伪平行语料。这样扩展的伪平行语料不仅可以有效避免替换模块因粒度过小导致的一对多的问题，同时能够避免替换过程中句法上的错误。该方法能够有效地生成大量的汉-越伪平行句对，提升神经机器翻译的性能。

本发明的技术方案是：一种基于短语的汉-越伪平行句对生成方法，所述基于短语的汉-越伪平行句对生成方法的具体步骤如下：

Step1、语料收集；使用网络爬虫爬取汉-越平行句对；汉-越平行句对主要来自越南语学习网站；

Step2、对汉-越平行句对进行短语结构句法分析，得到短语句法结构树；对汉越平行语料进行处理得到汉越词对齐信息；

进一步地，所述步骤Step2的具体步骤为：

Step2.1、分析汉语和越南语，用分词和句法分析工具进行中文和越南语平行语料的分词处理和短语结构句法分析，从而得到两棵相似的短语结构句法树；

对语料进行短语句法分析，汉语和越南语的主要句法成分的排列顺序相同，修饰成分的排列顺序在多数情况下不一致。从现代语言学发现，世界上所有的语言似乎都拥有相同的构造，包括汉语和越南语，将他们进行短语结构句法解析后，可以得到两棵相似的短语结构句法树。

句子的结构可以用以下几条规则概括：

(a)一个句子(ROOT)由至少一个简单从句(IP)构成；

ROOT→IP^* (1)

(b)一个简单从句(IP)是由一个名词短语(NP)和一个动词短语(VP)构成的；

IP→NP VP (2)

(c)一个名词短语(NP)是由一个可有可无的限定词(det)、数目不限的形容词(A)和一个名词(N)构成的；

NP→(det)A^*N (3)

(d)一个动词短语(VP)由一个名词短语(NP)和一个动词(V)组成。

VP→NP VP (4)

汉语和越南语句子中还存在其他短语结构，如介词短语(PP)等。本发明主要使用名词性短语(NP)和动词性短语(VP)作为短语，特别的是，这里的名词性短语(NP)存在只有一个单词的情况。

Step2.2、用词对齐工具进行汉越词对齐处理，获得汉越词对齐信息。

获取汉越词词对齐信息，汉语句子中词与词之间并没有天然的间隔符，而越南语句子中虽然有空格，但空格是作为音节的间隔符，一个音节很可能并不是一个单独的词。

Step3、构建汉越对齐短语集合；在步骤Step2的基础上，根据汉越词对齐信息和平行句对的短语句法结构树获取汉越对齐短语集合；根据汉越平行句对相似的短语句法结构树和词对齐信息，可以避免一对多的问题，得到汉越短语对齐集合。

将汉越平行句对经过句法解析后，能够获取平行句对的句法信息。图2(a)是经过句法解析得到的中文短语结构句法树，图2(b)是对应的越南语短语结构句法树，汉越平行句对的短语结构句法树相似，句子中对应的NP短语和VP短语都在树中相同的深度，并且组成这些短语的成分相似。

根据汉越平行句对具有相似的句法结构树这一特性，找出树中的所有NP节点和VP节点，并以每个NP节点和VP节点作为根节点形成多个子树，每个子树就是本发明中的短语，再根据词对齐信息、节点的深度信息以及每棵子树的节点信息共同进行短语对齐，表1则为汉越平行句对对齐后的短语。

表1汉越平行句对中的对齐短语

对于至少由两个词组成的短语，直接将其加入到汉越对齐短语集合中；对于只包含一个词的NP短语，若这个词为稀有词(在语料中出现频数小于C)，那么将这个NP短语块加入到汉越对齐短语集合中。

Step4、生成汉-越句对；在步骤Step2和Step3的基础上，将汉越平行句对的短语句法结构树的对应节点的短语替换为汉越对齐短语集合中其他短语，生成汉-越句对；生成的句子较原句子发生了词汇的变化并且避免替换结构一对多和新生成的句对在语法上的错误；

短语结构句法分析将句子转化为树的结构，这种树的结构能将各个单词安放到合适的位置，并且树的结构是模块化的。在短语句法结构树中，名词短语NP、动词短语VP就像某种形状的组件，根据短语结构句法树的规则，可以将一个组件(短语)任意插入或替换另一个组件(短语)。

短语替换的方式主要为：

①相同的短语进行替换，即句子中的NP短语只能用NP短语进行替换，VP短语只能用VP短语进行替换。

②每次只对句子中的一个短语进行替换，对同一个句子不同时进行两个或多个短语替换。

这种替换方式不仅可以改变语料的词频信息，也能够改变句子的结构信息。当将只由一个稀有词组成的名词性短语替换掉其他短语块时，能够提高稀有词的出现频率，增强对稀有词的泛化能力；当不同大小的短语进行替换的同时，也改变了句子的结构信息。

图3(a)为改变词频信息的短语替换，图3(b)为改变句法结构的短语替换。

图3(a)中，同时将平行的汉越句子中的NP短语替换成汉越对齐短语集合中的一个NP短语，改变了语料词频信息；图3(b)中，用一个更复杂的NP短语替换句子中由一个词组成的NP短语，改变了句子的结构信息。

Step5、在步骤Step4的基础上，对于生成的新的汉-越句对需要通过RNN语言模型来进一步的验证筛选，得到最终用于汉越神经机器翻译的汉越伪平行句对。有效避免了生成伪平行句对语义信息上的错误。

短语结构句法信息指导下生成的汉越句对在语法上的错误较少，但很多句对存在语义上的错误。为了判断通过短语替换得到的汉语、越南语句子是否更符合语法和语义特征，使用了基于RNN的语言模型验证机制。该验证机制根据文字的上下文序列来预测下一个词出现的概率，并可以进一步计算出整个句子出现的概率。

为了确保生成的汉越句对在语法和语义上是正确的，同时构建了汉语和越南语的语言模型来进行验证。具体过程如图4所示。

图4是基于RNN的语言模型验证机制的流程，对于生成的汉越句对，分别使用汉语语言模型和越南语语言模型对汉语句子和越南语句子进行打分。这个分数则为句子出现的概率，分数越高，句子出现的概率越高，句子在语法语义上正确的可能性也就越高。当句子的分数小于设定的阈值，就认为该句子是错误的句子，过滤掉该汉越句对；仅当汉越句对中的汉语句子和越南语句子都通过语言模型的筛选时，将该汉越句对作为用于训练汉越神经机器翻译模型的汉越伪平行语料。

对于语言模型阈值的选取，使用语言模型对对应语种的单语语料进行打分，分别统计单语语料中的最低分，将该分数作为对应语言模型的阈值。

本发明的有益效果是：

本发明的方法为了避免替换结构一对多和新生成的语料在语法上的错误，使用短语结构句法分析结果中的名词短语(NP)和动词短语(VP)作为待替换的模块。根据汉越平行句对相似的短语结构句法树和词对齐信息，可以避免一对多的问题，得到汉越短语对齐集合；并且使用短语结构句法信息指导短语替换过程，有效避免句法上的错误，本发明能够有效地生成大量的汉-越伪平行句对，提升神经机器翻译的性能。

附图说明

图1是本发明提出的基于短语的汉-越伪平行句对生成方法的流程图；

图2是本发明的中文句法结构树；

图3是本发明的短语替换规则；

图4是本发明的语言模型验证机制。

具体实施方式

实施例1：如图1-4所示，一种基于短语的汉-越伪平行句对生成方法，所述基于短语的汉-越伪平行句对生成方法的具体步骤如下：

Step1、首先获取平行语料：从互联网上爬取的12万汉-越平行句对作为初始语料，进行伪平行语料的扩充；

Step2、语料预处理分为句法分析和获取词对齐信息。句法分析：对汉语和越南语句子进行短语结构句法解析，得到短语句法结构树；对汉越平行语料进行处理得到汉越词对齐信息；

进一步地，所述步骤Step2的具体步骤为：

Step2.1、分析汉语和越南语，用分词和句法分析工具进行中文和越南语平行语料的分词处理和短语结构句法分析，从而得到两棵相似的短语结构句法树；其中：

对句子的结构总结有4条规则ROOT→IP^*、IP→NPVP、NP→(det)A^*N、VP→NPVP概括，其中ROOT表示一个句子，IP表示简单从句，NP表示名词短语，VP表示动词短语，det表示限定词，A表示形容词，N表示名词，V表示一个动词；

Step3、构建汉越对齐短语集合；在步骤Step2的基础上，根据汉越词对齐信息和平行句对的短语句法结构树获取汉越对齐短语集合；

进一步地，步骤Step3的具体步骤为：

根据汉越平行句对具有相似的句法结构树这一特性，找出树中的所有NP节点和VP节点，并以每个NP节点和VP节点作为根节点形成多个子树，每个子树就是短语，再根据词对齐信息、节点的深度信息以及每棵子树的节点信息共同进行短语对齐从而得到汉越对齐短语集合。

Step4、生成汉-越句对；在步骤Step2和Step3的基础上，将汉越平行句对的短语句法结构树的对应节点的短语替换为汉越对齐短语集合中其他短语，生成汉-越句对；

进一步地，步骤Step4中：

对12万汉-越平行句对中的短语进行替换。即将汉越平行句对的短语句法结构树的对应节点的短语替换为集合中其他短语。

短语替换的两种方式为：①只对相同的短语进行替换，即句子中的NP短语只能用NP短语进行替换，VP短语只能用VP短语进行替换；②每次只对句子的一个短语进行替换，且对同一个句子不同时替换两个或多个短语。然后利用RNN语言模型约束生成的句对，得到的伪平行语料规模为60万。

Step5、在步骤Step4的基础上，对于生成的新的汉-越句对需要通过RNN语言模型来进一步的验证筛选，得到最终用于汉越神经机器翻译的汉越伪平行句对。

进一步地，步骤Step5中：

基于RNN语言模型的验证主要是使用汉语语言模型和越南语语言模型分别对生成的汉越句对中的汉语句子和越南语句子进行打分，通过阈值分数过滤掉语法语义错误的句对，保留正确的句对作为训练汉越神经机器翻译模型的汉越伪平行语料。

利用实验验证生成伪平行语料的作用。将汉-越平行语料与汉-越伪平行语料按照不同比例进行混合，验证生成的汉-越伪平行语料对汉越神经机器翻译的影响。本发明的基准实验为RNNSearch、GNMT和Transformer，基准实验的汉-越神经机器翻译由汉越平行语料训练，语料规模为120k平行句对。按照平行语料：伪平行语料分别为2∶1、1∶1、1∶2、1∶5的比例将两种语料进行混合，然后用混合的语料进行了RNNSearch、GMT和Transformer模型的训练，表2为基准模型与加入伪平行语料后的实验结果，评价指标为BLEU值。

表2加入伪平行语料的实验结果

加入汉-越伪平行语料后，汉越神经机器翻译的性能普遍得到提升。对于RNNSearch模型，在汉越平行语料：汉越伪平行语料1∶2的情况下，BLEU值最高；对于GNMT模型，在汉越平行语料：汉越伪平行语料1∶5的情况下，BLEU值最高；对于Transformer模型，在汉越平行语料：汉越伪平行语料1∶5的情况下，BLEU值最高。按照实验结果一般来说，生成的伪平行语料越多，越有助于汉-越神经机器翻译性能的提升。

表3为本发明提出的基于短语替换生成伪平行句对的一部分伪平行句对

从实验结果来看，新生成的汉越伪平行句对具有较高的质量，其中虽也有可能因为词对齐误差产生的并不能绝对互译的汉越句对，因为所占比重较小，因此认为生成的汉越伪平行句对具有较高的质量。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于短语的汉-越伪平行句对生成方法，其特征在于：所述基于短语的汉-越伪平行句对生成方法的具体步骤如下：

Step1、语料收集；使用网络爬虫爬取汉越平行句对；

Step2、语料预处理；在步骤Step1的基础上，对汉-越平行句对进行短语结构句法分析，得到短语句法结构树；对汉越平行语料进行处理得到汉越词对齐信息；

2.根据权利要求1所述的基于短语的汉-越伪平行句对生成方法，其特征在于：所述步骤Step2的具体步骤为：

对句子的结构总结有4条规则ROOT→IP^*、IP→NP VP、NP→(det)A^*N、VP→NP VP概括，其中ROOT表示一个句子，IP表示简单从句，NP表示名词短语，VP表示动词短语，det表示限定词，A表示形容词，N表示名词，V表示一个动词；

3.根据权利要求1所述的基于短语的汉-越伪平行句对生成方法，其特征在于：步骤Step3的具体步骤为：

4.根据权利要求1所述的基于短语的汉-越伪平行句对生成方法，其特征在于：步骤Step4中：

汉越对齐短语按照如下两种方式进行替换，两条方式为：①只对相同的短语进行替换，即句子中的NP短语只能用NP短语进行替换，VP短语只能用VP短语进行替换；②每次只对句子的一个短语进行替换，对同一个句子不同时进行两个短语的替换。

5.根据权利要求1所述的基于短语的汉-越伪平行句对生成方法，其特征在于：步骤Step5中：