CN110377918A

CN110377918A - 融合句法解析树的汉-越神经机器翻译方法

Info

Publication number: CN110377918A
Application number: CN201910635895.9A
Authority: CN
Inventors: 余正涛; 王振晗; 高盛祥; 何健雅琳; 文永华
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-10-25
Anticipated expiration: 2039-07-15
Also published as: CN110377918B

Abstract

本发明涉及融合句法解析树的汉‑越神经机器翻译方法，属于自然语言处理技术领域。本发明能够实现汉语‑越南语、越南语‑汉语的机器翻译。通过从互联网爬取和人工翻译的方式构建的汉语‑越南语双语平行语料作为训练数据集。为解决目前汉‑越机器翻译中由于训练语料不足导致的翻译错误；本发明首先对源语言进行分词、词性标记以及句法解析，得到源语言的句法树。然后将句法标签向量化并融合到机器翻译模型训练的编码过程，训练机器翻译模型。所得模型可以有效完成汉语和越南语之间的翻译。实验结果表明，相比未融合句法解析树的基准系统该方法得到的译文更加流畅，并获得了0.6个BLEU值的提升。

Description

融合句法解析树的汉-越神经机器翻译方法

技术领域

本发明涉及融合句法解析树的汉-越神经机器翻译方法，属于自然语言处理技术领域。

背景技术

机器翻译是利用计算机自动将一种语言转化成另一种语言的过程，属于自然语言处理领域的热点和难点问题。目前存在的机器翻译技术主要有两种：统计机器翻译和神经机器翻译。统计机器翻译是通过对大量的平行语料进行统计分析，从而构建翻译模型。近年来随着深度学习技术的兴起，采用基于深度学习的神经机器翻译方法得到的机器翻译模型性能显著提高。神经机器翻译是Sutskever等人在2014年提出的一种机器翻译方法，采用编码器-解码器的模型架构。首先利用双语平行语料，分别生成源语言与目标语言的词表，根据双语词表生成双语数据的向量化表示。通过编码器将代表源语言的向量编码成隐藏向量表示，再利用解码器将该隐藏向量信息解码还原成目标语言，通过不断训练神经网络最终得到源语言映射到目标语言的翻译模型。

现有的神经机器翻译模型构建过程中需要使用大规模的双语平行语料进行训练，从而使模型充分学习不同语言之间的对齐关系。在语料资源丰富的语言对上，该方法能够取得很好的效果。越南语属于典型的资源稀缺型语言，构建一定规模的汉语-越南语双语平行语料十分困难，目前汉-越机器翻译的效果并不理想。考虑到现有神经机器翻译方法未能有效利用源语言的句法结构信息，得到的译文不符合目标语言的语法规则，本发明提出并实现了一种融合句法解析树的汉-越神经机器翻译方法。

发明内容

本发明提供了融合句法解析树的汉-越神经机器翻译方法，以用于解决双语平行语料不足所导致的汉-越神经机器翻译模型性能不佳的问题。

本发明的技术方案是：融合句法解析树的汉-越神经机器翻译方法，该方法将传统自然语言处理任务中词法、句法解析方法与深度学习技术相结合。利用网络爬虫和人工标注的方法构建一定规模的汉语-越南语双语平行语料库。然后利用汉语-越南语双语平行语料训练神经机器翻译模型。

在神经机器翻译模型构建过程中，首先对源语言进行句法解析，得到源语言的句法解析树，然后利用深度优先遍历，获得源语言句子中每个单词对应的句法标签序列并将句法标签序列转化成向量的表征方式。在神经网络的编码器端，将以上得到的标签序列向量与源语言词嵌入向量及位置嵌入向量拼接，作为训练神经网络的输入。本方法中模型编码器采用了多层卷积神经网络，解码器采用LSTM网络。以上将源语言的词法、句法信息通过向量化表征有效融入到神经机器翻译模型中，使神经机器翻译模型在训练过程中能够学习得到源语言的语法结构信息，得到融合句法解析树的神经机器翻译模型。采用深度学习框架Tensorflow开发神经机器翻译模型的解码引擎。

本发明所述方法的具体步骤如下：

Step1、汉语-越南语双语平行语料主要采用网络爬虫并结合人工标注的方式进行构建，收集汉语-越南语双语平行语料作为训练语料；

Step2、训练语料的预处理：对汉语、越南语的训练语料进行去停用词处理以及使用JIEBA中文分词工具对汉语进行分词,使用基于CRF的越南语分词及词性标记模型对越南语进行分词及词性标记，然后使用MOSES对全部训练数据进行tokenization、lowercase以及clean最终保留长度在80个词以内的句对；

Step3、生成句法解析树：利用斯坦福的汉语句法解析模型(ChinesePCFG)对汉语进行句法解析,得到了汉语句法解析树。采用李英等人提出的越南语短语句法解析工具对越南语进行句法解析,得到越南语句法解析树；

Step4、获取句法标签序列：对得到的汉语、越南语句法解析树进行深度优先遍历，对于每个叶子都存在从根节点到该叶子节点的一条路径，那么通过对句法解析树根节点到叶子节点的深度优先遍历，得到句子中每个单词的句法标签序列；

Step5、对步骤Step4得到的汉语、越南语进行向量化的表示，采用数字为每种句法标签定义特征编码，然后根据定义的特征编码对每个单词对应的句法标签序列进行向量化表示；

作为本发明的进一步方案，所述步骤Step5中，根据句法标签序列生成句法标签向量的具体步骤如下：

(1)为每种句法标签定义唯一的数字表示作为标签的特征编码；

(2)根据定义的标签特征编码将每个单词对应的句法标签序列表示为向量形式；

(3)将所有句法标签序列向量转化为64维的向量表征，采用自左向右的填充方式，空白处用0表示。

Step6、将步骤Step5得到的句法标签向量与源语言词嵌入向量、位置嵌入向量拼接作为编码器的输入，训练汉语-越南语神经机器翻译模型，并采用BLEU值评估模型的性能；

通过步骤Step5的方法获得每个单词对应的句法标签序列。对于输入序列中各单词对应的句法标签序列s＝(s₁,s₂,…,s_m)利用GLU方法进行嵌入，其中s_i∈R^d，计算方法如公式2所示。

在基准模型中，采用向量加法将词向量与位置向量相加作为模型的输入，考虑到不同位置向量与词向量相加之后的结果可能相同会影响模型的性能，因此在编码端将源语言词嵌入向量、位置嵌入向量及句法标签向量进行拼接，然后采用全连接网络对拼接后的向量进行压缩作为编码器的输入，输入向量I表示方法如公式3所示。

I＝[(e₁+p₁+s₁),…,(e_m+p_m+s_m)] (3)

将以上得到的向量I作为神经机器翻译模型编码器的输入，训练神经机器翻译模型。神经机器翻译模型的编码器与解码器的嵌入维度设置为768维。编码器设置为15层的卷积神经网络，解码器采用LSTM网络。编码器中前9层的隐含单元数为512个，后6层的隐含单元数为1024个，批次大小为64。

Step7、重复循环步骤Step2-Step5，对输入文本进行预处理，得到输入的词向量序列与句法标签向量序列；

Step8、将步骤Step6得到的汉语-越南语神经机器翻译模型载入神经机器翻译解码引擎，将步骤Step7得到的输入的词向量与句法标签向量拼接并输入神经机器翻译解码引擎，输出解码得到的译文。

本发明的有益效果是：

1、本发明将源语言的句法信息融入到神经机器翻译模型中，以常规的神经机器翻译模型为基础，对汉语、越南语进行句法解析，得到句法解析树。然后将句法解析树转换为向量化的表示，并将源语言的词嵌入向量与句法向量拼接作为神经机器翻译模型的输入训练翻译模型。实验结果证明该方法比未融入句法解析树的翻译模型相比获得了0.6个BLEU值的提升，译文在流畅度和准确率方面均得到了改善，充分证明了该方法的有效性。

2、本发明能够实现汉语-越南语、越南语-汉语的机器翻译，在汉-越机器翻译中具有较高的鲁棒性和泛化能力，对构成相对复杂的句子，能够较为准确地翻译。另外，能够根据需求快速实现模型在不同领域之间的迁移与二次开发。使得该技术能够快速在不同应用场景中实现产品化。

附图说明

图1为本发明中的流程框图；

图2为本发明的汉语句法解析树示例图；

图3为本发明的句法标签序列生成图示例图；

图4为本发明的句法标签向量化示例图。

具体实施方式

实施例1：如图1-4所示，融合句法解析树的汉-越神经机器翻译方法，所述方法的具体步骤如下：

模型构建过程：

Step1、通过互联网爬取、人工翻译等方式收集得到的146K平行句对,从中随机抽取144K的平行语料作为训练集和开发集训练翻译模型，2K的平行语料作为测试集，用于评估实验结果；

Step2、训练语料的预处理：首先利用中文分词工具对汉语进行分词,然后对全部训练数据进行tokenization、lowercase以及clean最终保留长度在80个词以内的句对；

Step3、利用斯坦福的汉语句法解析模型(ChinesePCFG)对汉语进行句法解析，得到了汉语句法解析树，如图2所示。采用李英等人提出的越南语短语句法解析工具对越南语进行句法解析，得到越南语句法解析树；

Step4、对得到的汉语、越南语句法解析树进行深度优先遍历，对于每个叶子都存在从根节点到该叶子节点的一条路径.采用这种方法分别得到汉语和越南语句子中每单词的句法标签序列，如图3所述；

Step5、对步骤Step4得到的汉语、越南语进行向量化的表示，采用数字为每种句法标签定义特征编码，然后根据定义的特征编码对每个单词对应的句法标签序列进行向量化表示：通过步骤Step4的方法获得每个单词对应的句法标签序列。为了对以上句法标签进行向量化表示，对每种句法标签定义固定的特征编码，如:{(ROOT,1),(IP,2),(VP,3)……}。根据定义的标签编码可以将每个单词对应的句法标签序列表示为以下形式:

g_i＝((w₁l₁+b₁)，(w₂l₂+b₂)，…，(w_tl_t+b_t)) (1)

其中，g_i表示原句中第i个单词的句法标签向量，l＝{l₁,l₂,…,l_t}为句法标签序列中预定义的每个标签编码，t为每个词对应的句法标签数量，b＝{b₁,b₂,…,b_t}表示偏置项，初始值为0。对于每个句法标签对应的权重w_t，根据标签所在句法解析树的层次对权重进行初始化，越靠近叶子节点的标签对当前节点的影响越大，因此将权值w＝{w₁,w₂,…,w_t}初始化为{0.1,0.2,…,0.1*t}。在本发明中将句法标签向量定义为64维的向量表征，采用自左向右的填充方式，空白处用0表示，如图4所示。

Step6、将步骤Step5得到的句法标签向量与源语言词嵌入向量、通过向量拼接的方式融合输入到机器翻译模型的编码器中，训练汉语-越南语神经机器翻译模型，并采用BLEU值评估模型的性能；

机器翻译过程：

Step7、对于一个需要翻译的句子，预处理过程与模型训练的预处理过程相似，重复循环步骤Step2-Step5；首先对输入的句子进行分词、词性标记、句法解析，然后对句子进行遍历得到每个单词对应的句法标签序列，根据定义的标签编码获得每个单词对应的句法标签序列；得到输入的词向量序列与句法标签向量序列；

Step8、将步骤Step6得到的汉语-越南语神经机器翻译模型载入神经机器翻译解码引擎，将源语言句法标签向量与词嵌入向量相加并输入神经机器翻译解码引擎，输出解码得到的译文。

为了验证本发明的有效性，在实验中将RNNsearch模型、不具有任何外部信息的CNN模型、融入位置信息(位置嵌入向量)的CNN模型(CNN+P)、具有句法解析树信息的CNN模型(CNN+S)以及本发明同时具有位置信息与句法解析树信息的CNN模型(CNN+P+S)进行对比；

采用BLEU值对翻译结果进行评测，由表1可以看出，本文融入句法解析树信息及位置信息能够有效提升神经机器翻译的性能。

表1为实验结果

	RNNsearch	CNN	CNN+P	CNN+S	CNN+P+S
						汉-越	20.31	18.82	21.52	21.61	22.36
越-汉	13.92	18.07	21.02	21.16	21.65

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融合句法解析树的汉-越神经机器翻译方法，其特征在于：

所述方法的具体步骤如下：

Step1、收集汉语-越南语双语平行语料作为训练语料；

Step2、训练语料的预处理：对汉语、越南语的训练语料进行去停用词、分词及词性标记；

Step3、利用句法解析工具对经过预处理的训练语料进行句法解析，得到汉语、越南语的句法解析树；

Step4、对得到的汉语、越南语句法解析树进行深度优先遍历，获得每个单词对应的句法标签序列；

Step7、重复循环步骤Step2-Step5，对输入文本进行预处理，得到输入的词向量序列、位置嵌入向量与句法标签向量序列；

Step8、将步骤Step6得到的汉语-越南语神经机器翻译模型载入神经机器翻译解码引擎，将步骤Step7得到的输入的词向量、位置嵌入向量与句法标签向量拼接并输入神经机器翻译解码引擎，输出解码得到的译文。

2.根据权利要求1所述的融合句法解析树的汉-越神经机器翻译方法，其特征在于：所述步骤Step2中，对越南语训练语料进行分词及词性标记时采用了基于CRF的越南语分词及词性标记模型对越南语进行分词及词性标记。

3.根据权利要求1所述的融合句法解析树的汉-越神经机器翻译方法，其特征在于：所述步骤Step4中，获取句法标签序列时，通过对句法解析树根节点到叶子节点的深度优先遍历，得到句子中每个单词的句法标签序列。

4.根据权利要求1所述的融合句法解析树的汉-越神经机器翻译方法，其特征在于：所述步骤Step5中，根据句法标签序列生成句法标签向量的具体步骤如下：

5.根据权利要求4所述的融合句法解析树的汉-越神经机器翻译方法，其特征在于：所述步骤Step5中，通过步骤Step4获得每个单词对应的句法标签序列后，为了对以上句法标签进行向量化表示，对每种句法标签定义固定的特征编码，再根据定义的标签编码将每个单词对应的句法标签序列表示为以下形式:

g_i＝((w₁l₁+b₁)，(w₂l₂+b₂)，…，(w_tl_t+b_t)) (1)

其中，g_i表示原句中第i个单词的句法标签向量，l＝{l₁,l₂,…,l_t}为句法标签序列中预定义的每个标签编码，t为每个词对应的句法标签数量，b＝{b₁,b₂,…,b_t}表示偏置项，初始值为0；对于每个句法标签对应的权重w_t，根据标签所在句法解析树的层次对权重进行初始化，越靠近叶子节点的标签对当前节点的影响越大，因此将权值w＝{w₁,w₂,…,w_t}初始化为{0.1,0.2,…,0.1*t}，将句法标签向量定义为64维的向量表征，采用自左向右的填充方式，空白处用0表示。

6.根据权利要求1所述的融合句法解析树的汉-越神经机器翻译方法，其特征在于：所述步骤Step6中，将每个单词的词嵌入向量、位置嵌入向量与句法标签序列向量通过向量拼接的方式融合，然后输入到机器翻译模型的编码器中，训练神经机器翻译模型。