CN105740234A

CN105740234A - 一种基于mst算法的越南语依存树库构建方法

Info

Publication number: CN105740234A
Application number: CN201610063686.8A
Authority: CN
Inventors: 郭剑毅; 李发杰; 余正涛; 线岩团; 毛存礼; 文永华
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2016-01-29
Filing date: 2016-01-29
Publication date: 2016-07-06

Abstract

本发明涉及一种基于MST算法的越南语依存树库构建方法，属于自然语言处理技术领域。本发明包括步骤：首先构建越南语依存树库训练语料库；再利用越南语依存树库训练语料库的语料训练得到MST模型，再利用MST模型训练越南语句子得到越南语依存树库；对得到的越南语依存树库语料库进行校正。本发明所构建的越南语依存树库对越南语语言的句法分析、机器翻译及息获取等上层应用能提供有力支撑；可以构建10万句越南语依存树库；本发明的方法避免了人工收集和标注越南语依存树库的过程，节省了人力和构建树库的时间；本发明的方法相比采用CRFParser和借助汉?越双语词对齐语料构建越南语依存树库方法准确率明显提高。

Description

一种基于MST算法的越南语依存树库构建方法

技术领域

本发明涉及一种基于MST算法的越南语依存树库构建方法，属于自然语言处理技术领域。

背景技术

越南与云南山水相连，两国人民之间的交往历史悠久，语言沟通在双方人民友好往来与相处、相互学习方面起到了十分重要的作用。因此，针对汉越双语的研究工作具有重要的现实意义。在越南语和汉语的互译过程中，越南语的句法分析是十分重要的基础工作。完全句法分析要求通过一系列分析过程，最终得到句子的完整的句法树；而浅层句法分析不要求得到完全的句法分析树，只要求识别其中的某些结构相对简单的成分，即它将句法分析分解为两个子任务：语块的识别和分析；语块之间的依附关系分析。由于采用完全句法分析难度相对比较大，因此浅层句法分析成为当前句法分析主流。依存句法分析属于浅层句法分析，也是器分析语言句法特征非常有效的方法之一。大规模越南语依存树库的构建，已经成为整个越南语依存分析的核心工作，如果能对该问题加以有效合理的解决，将对汉-越双语的双向翻译和信息检索提供有力的支撑。

发明内容

本发明提供了一种基于MST算法的越南语依存树库构建方法，以解决人工标注越南语依存树库耗时费力的难题，弥补大规模越南语依存树库稀缺的问题，本发明提出的越南语依存树库构建方法对将对汉-越双语的双向翻译和信息检索提供有力的支撑。

本发明的技术方案是：一种基于MST算法的越南语依存树库构建方法，所述基于MST算法的越南语依存树库构建方法的具体步骤如下：

Step1、首先构建越南语依存树库训练语料库；

所述步骤Step1中，构建越南语依存树库训练语料库的具体步骤为：

Step1.1、首先对汉越平行句对进行词对齐处理，得到汉越词对齐平行句对库；

Step1.2、对汉越词对齐平行句对库进行中文句子依存句法分析处理得到中文依存树语料库；

Step1.3、把构建好的中文依存树语料库中的中文依存关系通过汉越词对齐平行句对库映射到越南语的句子中去，从而得到越南语依存树库训练语料库。

Step2、利用越南语依存树库训练语料库的训练语料训练得到MST模型，再利用MST模型训练越南语句子得到越南语依存树库；

所述步骤Step2中，利用MST模型训练越南语句子得到越南语依存树库的具体步骤为：

Step2.1、利用得到的越南语依存树库训练语料库的训练语料使用MST算法训练得到MST模型；

Step2.2、利用MST模型训练越南语句子得到越南语依存树库。

Step3、对得到的越南语依存树库语料库进行校正。

所述步骤Step3中，利用依存关系校正器对得到的越南语依存树库的语料进行校正的具体步骤为：

Step3.1、首先分析总结依存树库中存在的错误的分类，然后将这些错误进行分析和整理，为后面的校正做准备；

Step3.2、利用依存关系校正器对越南语依存树库进行校正，最后得到高质量规模的越南语依存树库。

本发明的有益效果是：

1、构建的越南语依存树库对越南语的句法分析、机器翻译、信息获取等上层应用能提供有力支撑；

2、构建了10万句越南语依存树库；

3、本发明提出的构建依存树的方法省略了人工标注越南语依存树库的过程，大大的节省了人力和构建树库的时间；

4、本发明提出的构建依存树的方法在语料规模较大的情况下相比采用借助汉-越双语词对齐语料构建越南语依存树库的方法准确率明显提高。

附图说明

图1是本发明中的流程图；

图2是本发明的中文依存关系示意图；

图3是本发明越南语依存关系构建过程示意图。

具体实施方式

实施例1：如图1-3所示，一种基于MST算法的越南语依存树库构建方法，所述方法的具体步骤为：

Step1、首先构建越南语依存树库训练语料库；

Step3、对得到的越南语依存树库语料进行校正。

实施例2：如图1-3所示，一种基于MST算法的越南语依存树库构建方法，所述方法的具体步骤为：

Step1、首先构建越南语依存树库训练语料库；

Step3、对得到的越南语依存树库语料进行校正。

实施例3：如图1-3所示，一种基于MST算法的越南语依存树库构建方法，所述方法的具体步骤为：

Step1、首先构建越南语依存树库训练语料库；

Step3、对得到的越南语依存树库语料进行校正。

所述步骤Step2的具体步骤为：

Step2.2、利用MST模型训练越南语句子得到越南语依存树库。

实施例4：如图1-3所示，一种基于MST算法的越南语依存树库构建方法，所述方法的具体步骤为：

Step1、首先构建越南语依存树库训练语料库；

Step3、利用依存关系校正器对得到的越南语依存树库的语料进行校正。

所述步骤Step2的具体步骤为：

Step2.2、利用MST模型训练越南语句子得到越南语依存树库。

实施例5：如图1-3所示，一种基于MST算法的越南语依存树库构建方法，所述方法的具体步骤为：

Step1、首先构建3万句越南语依存树库训练语料库；

所述步骤Step1中首先构建越南语依存树库作为训练语料：

构建一部分越南语依存树库语料作为训练语料是构建依存句法分析是机器的基础。只有建设出高质量的训练语料，才能以之为基础进行信息化开发工作。依存树库语料也是进行句法分析不可缺少的一个组成部分，当然也是构建大规模越南语依存树库的重要前提，依存树库语料的构建决定了最后的依存树库的效果。构建依存树库训练语料具体步骤如下：

1)、首先对汉越平行句对进行词对齐处理；

首先通过网络爬取、双语书籍扫描等手段收集汉越双语平行句对，针对已有的汉越平行句对，通过整理和去重等处理我们得到了规模大约在30000句的汉越依存平行句对库。然后在此基础上使用GIZA++进行词对齐训练，最后再通过人工调整得到汉越词对齐平行句对库。

2)、对汉越词对齐平行句对库进行中文句子依存句法分析处理；

依存关系可以用树形图来表示，表示依存关系的树形图，叫做“依存树”(dependency tree)。依存树对句法分析、机器翻译、信息获取等上层应用可以提供有力支撑。目前已经构建了一个包含大约30000句汉语句子的依存树库，这是构建越南语依存树库的前提。主要实现思想如下：利用LTP语言处理平台训练依存树功能得到中文的依存树。具体的中文依存树如图2所示；其中，“爱上”为整句话的核心词用“ROOT”表示。“聪明”依存于“的”，它们之间的已存关系为右附加关系用“RAD”表示。“倩倩”依存于“聪明”，它们之间的依存关系为定中关系用“ATT”表示。“爱上”依存于“倩倩”，它们之间的依存关系为主谓关系用“SBV”表示。“爱上”依存于“倩倩”，它们之间的依存关系为主谓关系用“SBV”表示。“爱上”依存于“不由自主”，它们之间的依存关系为状中关系用“ADV”表示。“不由自主”依存于“地”，它们之间的依存关系为右附加关系用“RAD”表示。“爱上”依存于“了”，它们之间的依存关系为右附加关系用“RAD”表示。“爱上”依存于“马纳”，它们之间的依存关系为动宾关系用“VOB”表示。“愚笨”依存于“的”，它们之间的依存关系为右附加关系用“RAD”表示。“马纳”依存于“愚笨”，它们之间的依存关系为定中关系用“ATT”表示。

3)、把构建好的中文依存树语料库中的中文的依存关系通过汉越词对齐平行句对库映射到越南语的句子中去，从而得到越南语依存树库；

基于前述的汉语—越南语词对齐以及针对汉语的句法分析，接下来要做的就是从汉语到越南语的依存关系映射，即根据汉语依存句法树和汉语—越南语词对齐的关系，进一步生成越南语的依存句法树。对两种语言进行研究发现，虽然越南语子中的词序与汉语句子中的词序不一致，但是依存关系却是一致的，所以可以把汉语句子的依存关系直接映射到越南句子上，具体方法如图3所示；其中，“她”对应于“先生”对应于“工作”对应于“在”对应于“加拿大”对应于“Canada”。因此中文句子中两个词之间存在的依存关系可以直接映射到越南语句子上，最后得到越南语依存树。其中，为整句话的核心词用“ROOT”表示。依存于它们之间的依存关系为定中关系用“ATT”表示。依存于它们之间的依存关系为主谓关系用“SBV”表示。依存于它们之间的依存关系为状中关系用“ADV”表示。依存于“Canada”，它们之间的依存关系为介宾关系用“POB”表示。

Step2.2、利用MST模型训练越南语句子得到越南语依存树库。

所述Step2中利用MST模型训练新的越南语依存树库语料：

基于前面构建的越南语依存树语料，这里使用MST算法训练得到依存关系模型，然后利用得到的模型对新的越南语句子进行训练，这里我们将越南语依存树库的规模扩充到20万句。

1)、使用MST算法训练得到模型；

MST法采用全句的依存树进行训练，依存分析时使用最大生成树搜索整句的最优依存树。我们将一个越南语句子S＝{s₁,s₂,...,s_n}的依存关系树表示为一个有向图G＝(V,E)，其中越南语句子中的词构成G的顶点集合V＝{v₁,v₂,...,v_n}，表示越南语词间依存关系的连线。若依存树中有一条从顶点i指向顶点j的有向连线，则顶点i,j∈V间就有一条有向边(i,j)∈E，每一条有向边权重定义为score(i,j,y)，即j依存于i的概率。其中y为依存关系类型。一棵依存关系树的权重即为这棵树中有向边权重的总和。那么，判别式的依存分析方法将寻找最优结果转化为在有向图G＝(V,E)中搜索最大生成树问题：

T = \underset{G = (V, E)}{argmax} \underset{(i, j) &Element; E}{Σ} s c o r e (i, j, y)

2)、利用MST模型训练新的越南语句子得到规模较大的越南语依存树库；

这里我们利用训练得到的模型对新的越南语句子进行训练从而扩充新的越南语依存树库语料，这里我将语料库的量增加到了20万句。

Step3、对得到的越南语依存树库语料进行校正。

所述步骤Step3中，对得到的越南语依存树库语料库进行校正的具体步骤为：

Step3.2、利用依存关系校正器对依存树库进行校正，最后得到高质量规模的越南语依存树库。

所述步骤Step3中对新生成的越南语依存树库语料库中的语料进行校正：

1)、分析总结依存树库中存在的错误分为哪几类；

这里我们通过测试语料来分析越南语依存树库存在哪几类的错误，然后将一些比较常见的错误进行分析和整理，为后面的校正做准备。

2)、利用依存关系校正器对依存树库进行校正，最后得到质量较高规模较大的越南语依存树库；

通过上一步对树库中存在的错误的分析和整理，我们使用依存关系校正器对越南语依存关系进行校正。

本发明以3,0000条采用汉语为中介构建越南语依存树库的方法得到的数据集，加以后期的人工校正得到准确率较高的依存树语料，然后使用CRFParser和MSTParser工具对其进行机器学习建模，生成依存树模型，再用生成的越南语依存树模型对越南语句子进行扩展。实验中扩展了200,000句越南语依存树库。同时，采用汉语为中介构建越南语依存树库的方法使用的是10,000条汉语越南语词对齐平行句子对；汉语的依存句法分析是采用哈尔滨工业大学的LTP平台完成的，LTP工具的标注集我们按照实验的要求和越南语的特点进行了统一的改动；通过汉语—越南语的映射生成10,000条越南句子的依存树库。

实验结果如表1所示。表1中可以看出，在越南语语料相对比较多的情况下，采用以基于MST算法的越南语依存树库构建方法所生成的越南语依存树库，准确率相比采用 CRFParser和以汉语为中介构建的越南语依存树库的方法明显提高。

其中，整句依存句法分析评测指标选择：依存弧准确率(Unlabeled Attachment Score,UAS)、标识准确率(Labeled Attachment Score，LAS)和根节点正确率(Root Accuracy，RA)，定义如下：

表1其他方法和本发明方法的比较

方法	UAS％	LAS％	RA％
				采用汉语为中介构建的越南语依存树库	74.12	73.92	81.59
CRFParser构建的越南语依存树库	76.56	74.12	82.35
				MSTParser构建的越南语依存树库	79.03	75.66	83.59

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于MST算法的越南语依存树库构建方法，其特征在于：所述基于MST算法的越南语依存树库构建方法的具体步骤如下：

Step1、首先构建越南语依存树库训练语料库；

Step3、对得到的越南语依存树库语料库进行校正。

2.根据权利要求1所述的基于MST算法的越南语依存树库构建方法，其特征在于：所述步骤Step1中，构建越南语依存树库训练语料库的具体步骤为：

3.根据权利要求1所述的基于MST算法的越南语依存树库构建方法，其特征在于：所述步骤Step2的具体步骤为：

Step2.2、利用MST模型训练越南语句子得到越南语依存树库。

4.根据权利要求1所述的基于MST算法的越南语依存树库构建方法，其特征在于：所述步骤Step3中，对得到的越南语依存树库的语料进行校正的具体步骤为：

Step3.2、利用依存关系校正器对越南语依存树库进行校正。

5.根据权利要求1所述的基于MST算法的越南语依存树库构建方法，其特征在于：所述步骤Step3中，对得到的越南语依存树库的语料进行校正的具体方法为：利用依存关系校正器对得到的越南语依存树库的语料进行校正。