CN104991890A

CN104991890A - 一种基于汉越词对齐语料构建越南语依存树库的方法

Info

Publication number: CN104991890A
Application number: CN201510413781.1A
Authority: CN
Inventors: 余正涛; 李发杰; 郭剑毅
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2015-07-15
Filing date: 2015-07-15
Publication date: 2015-10-21

Abstract

本发明涉及一种基于汉越词对齐语料构建越南语依存树库的方法，属于自然语言处理技术领域。本发明首先构建汉越词对齐平行句对库，再构建中文依存树语料库，根据构建好的汉越词对齐平行句对库、中文依存树语料库，构建了越南语依存树语料库。本发明构建的越南语依存树库对越南语的句法分析、机器翻译、信息获取等上层应用能提供有力支撑；构建了双语平行依存树库语料；本发明提出的构建依存树的方法简化了人工收集和标注越南语依存树库的过程，节省了人力和构建树库的时间；本发明提出的构建依存树的方法相比采用机器学习的方法准确率明显提高。

Description

一种基于汉越词对齐语料构建越南语依存树库的方法

技术领域

本发明涉及一种基于汉越词对齐语料构建越南语依存树库的方法，属于自然语言处理技术领域。

背景技术

中国—东盟自由贸易区是世界上人口最多的自由贸易区，“桥头堡战略”是推进我国向西南开发、实现与东盟国家睦邻友好的战略需要，云南是中国向西南开放的重要桥头堡，语言上的沟通是实现中国与东盟国家之间政治、文化、经济交流的前提。东盟成员国越南与云南山水相连，两国人民之间的交往历史悠久，语言沟通在双方边境人民友好相处，相互学习方面起到了十分重要的作用。所以，针对双语方面的研究工作就显得尤为重要。越南语和汉语的互译过程中，句法分析是十分重要的工作。越南语的结构相对比较简单，词语之间的从属关系清晰明确，所以相对于短语树的句法分析，越南语更适合采用依存树的方法进行句法分析；越南语依存标注体系和越南语依存树库的构建，已经成为整个越南语依存分析的核心工作，如果能对该问题加以有效合理的解决，那么对对越南语的句法分析、机器翻译、信息获取等上层应用可以提供有力支撑。

发明内容

本发明提供了一种基于汉越词对齐语料构建越南语依存树库的方法，以用于解决现有技术对于研究越南语的依存句法分析比较困难的问题，构建越南语依存树库比较稀缺的问题，本发明构建的越南语依存树库对越南语的句法分析、机器翻译、信息获取等上层应用能提供有力支撑。

本发明基于汉越词对齐语料构建越南语依存树库的方法是这样实现的：所述基于汉越词对齐语料构建越南语依存树库的方法的具体步骤如下：

Step1、首先构建汉越词对齐平行句对库；

Step1.1、首先收集汉越平行句对；

Step1.2、带有词对齐的汉越平行句对库建设；对汉越平行句对使用GIZA++进行词对齐训练，然后再通过人工调整得到汉越词对齐平行句对库；

Step2、构建中文依存树语料库；

Step2.1、对汉越词对齐平行句对库进行中文句子分词处理；

Step2.2、对汉越词对齐平行句对库进行中文句子分词处理后的中文句子进行词性标注处理；

Step2.3、对词性标注后的中文句子训练得到中文依存树库；

Step3、根据构建好的汉越词对齐平行句对库、中文依存树语料库，构建了越南语依存树语料库；

Step3.1、建设越南语依存树库；把构建好的中文依存树语料库中的中文的依存关系通过汉越词对齐平行句对库映射到越南语的句子中去，从而得到越南语依存树库；

Step3.2、对得到的越南语依存树进行调优；把越南语依存树库构建越南语句子依存关系，再进行人工校正调整，得到最终的越南语依存树库。

所述步骤Step1.1中，主要通过在互联网上爬取汉越平行句对、扫描书籍及文件材料以及人工翻译等方式得到汉越平行句对。

所述步骤Step2中，采用LTP语言处理平台构建了中文的依存树库。

本发明的有益效果是：

1、构建的越南语依存树库对越南语的句法分析、机器翻译、信息获取等上层应用能提供有力支撑；

2、构建了双语平行依存树库语料；

3、本发明提出的构建依存树的方法简化了人工收集和标注越南语依存树库的过程，节省了人力和构建树库的时间；

4、本发明提出的构建依存树的方法相比采用机器学习的方法准确率明显提高。

附图说明

图1为本发明中的流程图；

图2为本发明的中文依存关系示意图；

图3为本发明越南语依存关系构建过程示意图。

具体实施方式

实施例1：如图1-3所示，一种基于汉越词对齐语料构建越南语依存树库的方法，所述基于汉越词对齐语料构建越南语依存树库的方法的具体步骤如下：

Step1、首先构建汉越词对齐平行句对库；

Step1.1、首先收集汉越平行句对；

Step2、构建中文依存树语料库；

Step2.1、对汉越词对齐平行句对库进行中文句子分词处理；

Step2.3、对词性标注后的中文句子训练得到中文依存树库；

实施例2：如图1-3所示，一种基于汉越词对齐语料构建越南语依存树库的方法，所述基于汉越词对齐语料构建越南语依存树库的方法的具体步骤如下：

Step1、首先构建汉越词对齐平行句对库；

Step1.1、首先收集汉越平行句对；

Step2、构建中文依存树语料库；

Step2.1、对汉越词对齐平行句对库进行中文句子分词处理；

Step2.3、对词性标注后的中文句子训练得到中文依存树库；

其中，所述步骤Step1中首先构建汉越词对齐平行句对库：

平行句对库是汉语到越南语的句对信息集合库，是构建越南语依存树库的基础。只有建设出高质量的平行句对，才能以之为基础进行信息化开发工作。平行句对库也是进行句法分析不可缺少的一个组成部分，当然也是构建越南语依存树库的重要前提，平行句对的构建决定了最后的依存树库的效果。构建汉越词对齐平行句对库具体步骤如下：

1)、首先收集汉越平行句对；

汉越平行句对的收集主要是通过网络爬取、书籍扫描以及人工翻译校正等方法实现。首先通过网络爬虫到带有双语的网站中爬取平行句对，然后再由相关专业人员进行整理。其次，再寻找相关的双语书籍扫描得到准确率高、可用度好的平行句对，然后我们再利用扫描软件将扫描得到的句对图片转化成文本，随后通过人工整理校正得到句对库。我们还利用周边从事与越南语相关工作人员提供的大量的汉语到越南语的翻译资料整理得到一部分平行句对；

2)、带有词对齐的汉越平行句对库建设；

针对已有的汉越平行句对，通过整理和去重等处理我们得到了规模大约在11000句的汉越依存平行句对库，如表1所示。主要实现思想如下：把中文句子和越南语句子进行分词标号，然后采用数据库技术建立汉语--越南语双语句对表和词对齐表，句对表中共有id(序号)、cnnumsentence(带有词汇编号的中文句子)、cnsentence(中文句子)、splitcnsentence(分词后的中文句子)、splitvnsentence(分词后的越语句子)、vnnumsentence(带有词汇编号的越语句子)、vnsentence(越语句子)；cnnum中文词汇编号、cnword中文词汇、sentenceid句子编号、vnnum越南语词汇编号、vnword越南语词汇等，从而实现数据规范化管理。具体的汉越词对齐平行句对库如表2所示：

表1汉越依存平行句对库

表2汉越词对齐平行句对库

其中，所述Step2中构建中文依存树语料库：

依存关系可以用树形图来表示，表示依存关系的树形图，叫做“依存树”(dependency tree)。依存树对句法分析、机器翻译、信息获取等上层应用可以提供有力支撑。目前已经构建了一个包含大约11000句汉语句子的依存树库，这是构建越南语依存树库的前提。主要实现思想如下：利用LTP语言处理平台训练依存树功能得到中文的依存树。具体的中文依存树如下图2所示；其中，“工作”为整句话的核心词用“ROOT”表示。“她”依存于“的”，它们之间的已存关系为右附加关系用“RAD”表示。“先生”依存于“她”，它们之间的依存关系为定中关系用“ATT”表示。“工作”依存于“先生”，它们之间的依存关系为主谓关系用“SBV”表示。“在”依存于“加拿大”，它们之间的依存关系为介宾关系用“POB”表示。“工作”依存于“在”，它们之间的依存关系为状中关系用“ADV”表示。

其中，所述步骤Step3中根据构建好的汉越词对齐平行句对库、中文依存树语料库，构建了越南语依存树语料库：

中文依存树库是建设越南语依存树库的主要依据文件，该文件是一个编码格式为UTF8的文本文件，包含了全部中文句子的依存信息，是对整个中文依存树库的完整描述。越南语依存树库的建设主要思想：首先，按顺序从含有中文依存树库的文本中读取表示依存关系的信息，然后获得中文句子中的词语标号，再到越南语句子中检索到对应的越南语词语，最后将读取到的中文依存关系映射到对应的越南语词语上，重复上述操作就得到了越南语的依存树语料库。构建越南语依存树过程如下图3所示；其中，“她”对应于“先生”对应于“工作”对应于“在”对应于“加拿大”对应于“Canada”。因此中文句子中两个词之间存在的依存关系可以直接映射到越南语句子上。最后得到其中，为整句话的核心词用“ROOT”表示。依存于它们之间的依存关系为定中关系用“ATT”表示。依存于它们之间的依存关系为主谓关系用“SBV”表示。依存于它们之间的依存关系为状中关系用“ADV”表示。依存于“Canada”，它们之间的依存关系为介宾关系用“POB”表示。

采用汉语为中介构建越南语依存树库的方法使用的是11,000条汉语越南语词对齐平行句子对；汉语的依存句法分析是采用哈尔滨工业大学的LTP平台完成的，LTP工具的标注集我们按照实验的要求和越南语的特点进行了统一的改动；通过汉语—越南语的映射生成11,000条越南句子的依存树库。

同时，本文以3,000条人工标注的越南语句子为初始集，用MaltParser和MSTParser工具对其进行机器学习建模，生成依存树模型，再用生成的越南语依存树模型对越南语句子进行扩展。实验中扩展了11,000句越南语依存树库。这样，我们就有了基于统计机器学习方法生成的依存树库。使其与采用汉语为中介构建的越南语依存树库的实验方法进行比较。实验结果如表3所示。表3中可以看出，在越南语语料相对比较少的情况下，采用以汉语依存库为基础，基于规则的映射方法所生成的越南语依存树库，准确率相比采用机器学习的方法明显提高。

其中，整句依存句法分析评测指标选择：依存弧准确率(Unlabeled AttachmentScore,UAS)、标识准确率(Labeled Attachment Score，LAS)和根节点正确率(Root Accuracy，RA)，定义如下：

表3其他方法和本发明方法的比较

方法	UAS％	LAS％	RA％
				MaltParser构建的越南语依存树库	76.08	71.66	81.79
MSTParser构建的越南语依存树库	75.03	71.12	80.85
				采用汉语为中介构建的越南语依存树库	78.93	74.22	83.32

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于汉越词对齐语料构建越南语依存树库的方法，其特征在于：所述基于汉越词对齐语料构建越南语依存树库的方法的具体步骤如下：

Step1、首先构建汉越词对齐平行句对库；

Step1.1、首先收集汉越平行句对；

Step2、构建中文依存树语料库；

Step2.1、对汉越词对齐平行句对库进行中文句子分词处理；

Step2.3、对词性标注后的中文句子训练得到中文依存树库；

2.根据权利要求1所述的基于汉越词对齐语料构建越南语依存树库的方法，其特征在于：所述步骤Step1.1中，主要通过在互联网上爬取汉越平行句对、扫描书籍及文件材料以及人工翻译等方式得到汉越平行句对。

3.根据权利要求1所述的基于汉越词对齐语料构建越南语依存树库的方法，其特征在于：所述步骤Step2中，采用LTP语言处理平台构建了中文的依存树库。