CN106250367B

CN106250367B - 基于改进的Nivre算法构建越南语依存树库的方法

Info

Publication number: CN106250367B
Application number: CN201610599528.4A
Authority: CN
Inventors: 余正涛; 邱国柯; 郭剑毅; 文永华; 王红斌; 陈玮
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2016-07-27
Filing date: 2016-07-27
Publication date: 2019-04-09
Anticipated expiration: 2036-07-27
Also published as: CN106250367A

Abstract

本发明涉及基于改进的Nivre算法构建越南语依存树库的方法，属自然语言处理技术领域。本发明首先构建初始训练语料、扩展语料和测试语料；然后利用构建的初始训练语料基于改进的Nivre算法训练出两个依存分析弱学习器S1和S2作为两个充分冗余的视图；再利用训练出的两个弱学习器S1和S2对扩展语料进行依存分析并构建越南语依存树库模型；最后对测试语料进行依存分析测试并最终构建出越南语依存树库。本发明能够对越南语的句法分析、机器翻译和信息获取等上层应用提供有力支撑；能有效避免了人工标记越南语句子依存关系的过程，节省了人力物力的时间；能够有效利用大量无标记的越南语句子级语料提升依存分析的准确率。

Description

基于改进的Nivre算法构建越南语依存树库的方法

技术领域

本发明涉及基于改进的Nivre算法构建越南语依存树库的方法，属于自然语言处理技术领域。

背景技术

在越南语信息处理研究领域，当前在词法和双语对齐方法等方面都取得了一些成果，但在依存句法分析和依存树库构建等方面的工作还很少。随着统计学习的迅速发展，目前采用统计学习来研究语言信息处理已成为主流。其中，Lai等人在2001年基于span的思想通过统计学习的方法解决了汉语依存分析的问题；Yamada等人在2003年将Penn Treebank中的英文句子完全转换为依存结构，然后通过统计学习的方法对句子进行建模分析，获得了90.3％的准确率；马金山在2004年通过有标记的汉语依存树库构建了SVM依存句法分析模型，实现了汉语依存句法分析。以上这些方法分析依存关系主要依靠依存树库资源通过有监督学习来实现。P.T.Nguyen等人在2013年将Penn Treebank中的1万句短语树转换为依存树，但它的规模还相对较小。由于依存句法分析的基础是依存树库的建设，但依存树库的标记工作比较困难，而且当前还没有比较成熟的依存句法分析器。对越南语依存树库构建来说，通过人工标记是非常困难的，这需要耗费大量的人力物力；而且在实际情况中存在大量的无标记粗语料，这些语料未经过任何加工处理。因此，如何有效利用这些语料来构建越南语依存树库是当前越南语依存句法分析的一个重要问题。

发明内容

本发明提供了基于改进的Nivre算法构建越南语依存树库的方法，以用于解决越南语句子依存关系标记困难的问题，以及以用于有效利用大量无标记越南语句子级语料进行树库建设，能够解决因初始训练语料规模较小给树库建设带来的困难；以用于有效避免人工标记越南语句子依存关系的繁琐过程，充分节省了人力物力的时间；以用于有效提高越南语依存分析的准确率；以用于对越南语的句法分析、机器翻译和信息获取等上层应用提供有力支撑。

本发明的技术方案是：基于改进的Nivre算法构建越南语依存树库的方法，所述基于改进的Nivre算法构建越南语依存树库的方法的具体步骤如下：

Step1、首先构建初始训练语料、扩展语料和测试语料；

Step2、然后利用构建的初始训练语料基于改进的Nivre算法训练出两个依存分析弱学习器S1和S2作为两个充分冗余的视图；因为Nivre模型为数据驱动模型，这样可以将其中一个弱学习器的预测结果作为另一个弱学习器的训练语料来促进两个弱学习器的相互学习，以此来提高训练模型的质量，从而能达到两个模型相互学习的目的。

Step3、再利用训练出的两个弱学习器S1和S2对扩展语料进行依存分析并构建越南语依存树库模型；

Step4、最后利用构建的越南语依存树库模型对测试语料进行依存分析测试并最终构建出越南语依存树库。因为越南语句子的依存关系标记比较困难，需要耗费大量的人力物力，而且利用其它方法构建的越南语依存树库的规模比较小，所以本发明利用改进的Nivre算法解决了越南语句子依存关系标记困难的问题，从而构建出大规模的越南语依存树库。

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、首先利用爬虫程序从越南之声广播电台爬取若干新闻粗语料，得到越南语文本级语料样本。这些新闻覆盖了政治、经济、军事、体育、娱乐等各方面，确保了实验数据的多样性。因为语料是自然语言处理研究领域一个非常重要的概念，语料既是标记的对象，又是实验的对象，所以语料的选择对树库构建十分重要；

Step1.2、然后人工对Step1.1得到的越南语文本级语料样本进行反复加工处理，得到3万个标准的越南语句子，从而形成越南语句子级语料样本。因为直接从越南之声广播电台爬取的新闻粗语料是文本级的语料样本，不利于本文的实验，所以要人工对它们进行反复加工处理，包括去重、去除垃圾广告等处理，最后形成句子级的语料样本，便于本文的实验；

Step1.3、其次通过分析越南语语法，制定出符合越南语语言特点的14种依存关系标记规范表，如表1所示；该依存关系标记规范表包含两个内容：一是在一个越南语句子中，哪些词语之间会存在依存关系；二是如何定义它们的依存关系类型；

表1越南语依存关系标记规范表

优选地，所述步骤Step1.3制定越南语依存关系标记规范表的具体步骤如下：

Step1.3.1、首先从语义角度出发。在一个句子中，语义层面上存在某种联系的词语之间应该存在依存关系；也就是说，词语之间产生依存关系才能促使新语义的产生，本发明称之为语义原则。在进行依存关系标注时，语义原则应优先考虑。

如图2所示，越南语句子“là(她)(是)xinh(美丽的)gái(女孩)”。其中：(是)和gái(女孩)这两个词产生关系才能构成新的语义，所以两词之间存在依存关系。

Step1.3.2、其次在一个句子中，一些词语对句子意思的表达起主导作用，在句子中不可或缺，属主要的词；而有些词语在句子中起辅助作用，只起到修饰主干成分的作用，即使去掉也不会影响整体语义的表达，属次要的词。在对依存关系进行标注时，应尽量保证主干词在依存关系中处于核心位置，其它修饰词应依存于这些核心词，本发明称之为主干原则。这样在后续应用中，通过依存关系便可提取到句子的主干。越南语依存句法分析主要以谓语为主导，分析其他词与谓语动词之间的关系。

Step1.3.3、最后则是定义它们的依存关系类型，即构建依存关系规范表。为了能够更好地覆盖多种语法现象，而又不至于因关系类型过多导致标注困难和数据稀疏等问题。经分析，本发明制定出符合越南语语言特点的14种依存关系规范，如表1所示。

Step1.4、然后利用Step1.3中得到的越南语依存关系标记规范表将Step1.2中得到的一部分越南语句子级语料样本人工地进行越南语依存关系标记，并进行反复校对，得到初始训练语料和测试语料，将剩下的一部分未标记的越南语句子级语料样本用作实验扩展语料；

Step1.5、最后进行特征的选取；选取当前词W0、其前一个词W-1、前两个词W-2、后一个词W1、后两个词W2，以及当前词的词性POS0、其前一个词的词性POS-1、前两个词的词性POS-2、后一个词的词性POS1、后两个词的词性POS2作为特征。特征选取如表2所示。因为经过对越南语的研究发现，其结构相对比较单一，所以这种特征选取方式充分结合了越南语的语言特点，对越南语语言特点的覆盖性较好，因为它在具备了一般性的同时有效地避免了由于选取特征过多而带来的数据稀疏问题。

表2特征选取表

1	Wn	不同位置的词,n＝-2,-1,0,1,2
			2	POSn	不同位置的词性,n＝-2,-l,0,l,2

优选地，所述步骤Step2用到的改进的Nivre算法的具体说明如下：

Nivre算法是基于状态转移过程进行依存分析的。该算法通过训练获得依存分析模型，该模型根据输入的句子和以往决策中的特征，结合当前的状态来预测下一个状态。在句法分析阶段，分析器从一个原始的状态开始，根据模型的预测集贪婪地向其后续状态转移，直至达到终止状态才停止。

确定性的Nivre算法对Reduce操作和Shift操作的划分不十分准确。针对这个问题，本发明提出一种改进的确定性的Nivre算法。

在Nivre算法中，解析器可以表示成一个三元组<S,I,A>，其中S和I是堆栈，I中是待解析的输入序列，A是一个集合，存放在解析过程中确定下来的依存关系项。假设给定一个输入序列Sen，解析器首先被初始化成解析器解析栈S的栈顶元素t和栈I的栈顶元素n的依存关系，然后采取相应的动作，操作栈中的元素移动和算法迭代直至栈I为空。此时，解析器停止迭代，输出集合A中的依存关系序列。Nivre算法一共定义了4个操作：

(1)Right。在当前三元组<t|S,n|I,A>中，假如存在依存关系t→n，即t依存于n，则在集合A中添加项(t→n)，同时弹出S的栈顶元素t，于是三元组变为<S,n|I,A∪{(t→n)}>。

(2)Left。在当前三元组<t|S,n|I,A>中，假如存在依存关系n→t，则在集合A中添加项(n→t)，同时把元素n压入到栈S中，于是三元组变成为<n|t|S,I,A∪{(n→t)}>。

如果n和t不存在依存关系，改进的Nivre算法对Reduce操作和Shift操作做了明确的定义。

(3)Reduce。假如两栈顶元素n和t不存在依存关系，t有父节点在其左侧，并且该父节点与n存在依存关系，解析器从栈S中弹出t，于是三元组变成为<S,n|I,A>。

(4)Shift。当Right，Left，Reduce操作条件都不满足时，将n压入栈S中，于是三元组变成<n|t|S,I,A>。

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、首先从Step1得到的扩展语料中随机抽取少量越南语句子作为集合A和集合B，再分别用Step2训练得到的两个弱学习器S1和S2对集合A和集合B中的越南语句子进行依存预测；

Step3.2、然后从扩展语料中选取100个未标记的越南语句子为一个单位，先用弱学习器S1对这100个句子进行预测，然后采用公式1挑选出20个置信度高的句子进行标记，接着再把这些已标记过的句子加入到弱学习器S2中训练更新；

其中，H1为K-Best结果中任意两个不同结果的分值差的和的倒数，score_i和score_j是弱学习器S1对第i个和第j个句子预测结果的得分；

Step3.3、其次再继续以新的100个未标记的越南语句子为一个单位，用弱学习器S2进行预测，再根据公式1从中挑选出20个置信度高的句子进行标记，接着再将这20个已标记过的句子加入到弱学习器S1中训练更新；

Step3.4、如此反复循环Step3.2和Step3.3，直到弱学习器S1和弱学习器S2的参数不变为止，即待构建的越南语依存树库模型的参数收敛为止；

Step3.5、再利用两个弱学习器对Step1得到的扩展语料进行依存分析并构建越南语依存树库模型；

作为本发明的优选方案，所述步骤Step3.5中，两个弱学习器需要对扩展语料中的句子进行预测，进而得到句子相应的预测结果，因为预测结果是否一致是判断依存分析结果是否正确的前提；其求取预测结果的具体步骤如下所示：

在构建越南语依存树库模型的过程中，若两个弱学习器的预测结果一致，则认为依存分析的结果是正确的；若结果不一致，则用公式2和公式3来计算置信度；

其中，公式2中：score₁表示弱学习器对第1个句子预测结果的得分，score₂表示弱学习器对第2个句子预测结果的得分，H2表示K-Best置信度判别方法中score₁相对于score₂的增长率的倒数；公式3中：表示scorei相对于k个句子预测结果得分总和的比值；其中，score_i表示弱学习器对第i个句子预测结果的得分，score_j表示弱学习器对第j个句子预测结果的得分，k表示句子的个数，H3表示k个结果的熵；

Step3.6、最后用公式1、公式2和公式3分别对两个弱学习器的预测结果打取平均分，并选取分值较高的作为正确的预测结果。

具体的，在对未标记越南语句子的预测过程中，置信度的判别方式尤为重要。因为弱学习器在对句子进行预测的时候，预测结果会出现不一致的情况，这时就需要进行置信度的计算，从而反映出预测结果的可信程度；置信度越高，说明预测结果越准确；反之，置信度越低，说明预测结果越不准确。为了度量预测结果，本发明采用K-Best方法来判断预测结果的置信度：即若句子预测结果的K个权重分值越接近，就说明结果越容易混淆，置信度就越低；若预测结果的权重分值差异越大，则认为预测结果较为准确，进而选择权重分值最高的结果作为待标记越南语句子的标记结果。

本发明采用以下三种方式来计算置信度：

方式一 K-Best结果中任意两个不同结果的分值差的和的倒数：

其中score_i和score_j是弱学习器对第i个和第j个句子预测结果的得分。

方式二 K-Best结果中1-Best相对于2-Best的增长率的倒数：

方式三取K个结果的熵：

其中，

方式一和方式二说明学习器预测结果的差异越大，置信度越高；方式三则是通过熵的大小来判断置信度的大小。

本发明的有益效果是：

1.本发明构建的越南语依存树库能够对越南语的句法分析、机器翻译和信息获取等上层应用提供有力支撑；依存树库的构建是这些上层应用的基础。

2.本发明提出的构建越南语依存树库的方法有效避免了人工标记越南语句子依存关系的繁琐过程，充分节省了人力物力的时间；

3.由于实际情况中存在大量的越南语无标记句子级语料，本发明提出的构建越南语依存树库的方法能够有效利用这些大量无标记的越南语句子级语料进行树库建设，解决了因初始训练语料规模较小给树库建设带来的困难。

4.本发明具有更好的依存关系标记效果，并具有稳定的解析性能，有效地提高了越南语依存分析的准确率。

附图说明

图1为本发明中的流程图；

图2为本发明中依存树库实例图。

具体实施方式

实施例1：如图1-2所示，基于改进的Nivre算法构建越南语依存树库的方法，所述基于改进的Nivre算法构建越南语依存树库的方法的具体步骤如下：

所述基于改进的Nivre算法构建越南语依存树库的方法的具体步骤如下：

Step1、首先构建初始训练语料、扩展语料和测试语料；

Step2、然后利用构建的初始训练语料基于改进的Nivre算法训练出两个依存分析弱学习器S1和S2作为两个充分冗余的视图；

Step4、最后利用构建的越南语依存树库模型对测试语料进行依存分析测试并最终构建出越南语依存树库。

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、首先利用爬虫程序爬取若干新闻粗语料，得到越南语文本级语料样本；

Step1.2、然后人工对Step1.1得到的越南语文本级语料样本进行反复加工处理，得到标准的越南语句子，从而形成越南语句子级语料样本；

Step1.3、其次通过分析越南语语法，制定出符合越南语语言特点的14种依存关系标记规范表，该依存关系标记规范表包含两个内容：一是在一个越南语句子中，哪些词语之间会存在依存关系；二是如何定义它们的依存关系类型；

Step1.5、最后进行特征的选取；选取当前词W0、其前一个词W-1、前两个词W-2、后一个词W1、后两个词W2，以及当前词的词性POS0、其前一个词的词性POS-1、前两个词的词性POS-2、后一个词的词性POS1、后两个词的词性POS2作为特征。

作为本发明的优选方案，所述步骤Step3的具体步骤为：

实施例2：如图1-2所示，基于改进的Nivre算法构建越南语依存树库的方法，所述基于改进的Nivre算法构建越南语依存树库的方法的具体步骤如下：

Step1、首先构建初始训练语料、扩展语料和测试语料；

作为本发明的优选方案，所述步骤Step1的具体步骤为：

表1越南语依存关系标记规范表

Step1.4、然后利用Step1.3中得到的越南语依存关系标记规范表将Step1.2中得到的越南语句子级语料样本中的5000个越南语句子人工地进行越南语依存关系标记，并进行反复校对，得到初始训练语料和测试语料，它们都是一个小规模的越南语依存树库，且均包含了2500个已标记过的越南语句子。将剩下的25000个未标记的越南语句子用作实验扩展语料；

表2特征选取表

Step2、然后利用构建的初始训练语料所包含的2500个越南语句子并基于改进的Nivre算法训练出两个依存分析弱学习器S1和S2作为两个充分冗余的视图；因为Nivre模型为数据驱动模型，这样可以将其中一个弱学习器的预测结果作为另一个弱学习器的训练语料来促进两个弱学习器的相互学习，以此来提高训练模型的质量，从而能达到两个模型相互学习的目的。

确定性的Nivre算法对Reduce操作和Shift操作的划分不十分准确。针对这个问题，本发明提出一种改进的Nivre算法。

在改进的Nivre算法中，解析器可以表示成一个三元组<S,I,A>，其中S和I是堆栈，I中是待解析的输入序列，A是一个集合，存放在解析过程中确定下来的依存关系项。假设给定一个输入序列Sen，解析器首先被初始化成解析器解析栈S的栈顶元素t和栈I的栈顶元素n的依存关系，然后采取相应的动作，操作栈中的元素移动和算法迭代直至栈I为空。此时，解析器停止迭代，输出集合A中的依存关系序列。Nivre算法一共定义了4个操作：

Step3、再利用训练出的两个弱学习器S1和S2对扩展语料所包含的25000个越南语句子进行依存分析并构建越南语依存树库模型；

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.5、再利用两个弱学习器对Step1得到的扩展语料所包含的25000个越南语句子进行依存分析并构建越南语依存树库模型；

Step4、最后利用构建的越南语依存树库模型对测试语料所包含的2500个越南语句子进行依存分析测试并最终构建出越南语依存树库。因为越南语句子的依存关系标记比较困难，需要耗费大量的人力物力，而且利用其它方法构建的越南语依存树库的规模比较小，所以本发明利用改进的Nivre算法解决了越南语句子依存关系标记困难的问题，从而构建出大规模的越南语依存树库。

实验中，本发明把依存弧准确率(Unlabeled Attachment Score，UAS)、标识准确率(Labeled Attachment Score，LAS)和根节点准确率(Root Accuracy，RA)作为整句依存句法分析的评测指标。它们的定义如下：

为了验证基于改进的Nivre算法能够有效利用大量无标记的越南语句子级语料，提高依存分析的准确率，本发明将其与不同的学习算法进行了比较，实验结果如表3所示。

表3实验结果对比表

实验结果表明：基于改进的Nivre算法构建的越南语依存树库在UAS、LAS和RA方面的准确率比其它算法要高，而确定性的Nivre算法是基于状态转移过程进行训练，依存分析时搜索局部最优转移状态直至整句解析结束，因此具有局部性和贪婪性，这是其准确率低的原因。而本发明基于改进的Nivre算法将一个模型的分析结果作为另一个模型的输入，当两个模型的分析正确率相差不大时，改进的Nivre算法显著提高了原来确定性Nivre算法在UAS、LAS和RA方面的准确率。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于改进的Nivre算法构建越南语依存树库的方法，其特征在于：所述基于改进的Nivre算法构建越南语依存树库的方法的具体步骤如下：

Step1、首先构建初始训练语料、扩展语料和测试语料；

Step4、最后利用构建的越南语依存树库模型对测试语料进行依存分析测试并最终构建出越南语依存树库；

所述步骤Step1的具体步骤为：

Step1.5、最后进行特征的选取；选取当前词W0、其前一个词W‐1、前两个词W‐2、后一个词W1、后两个词W2，以及当前词的词性POS0、其前一个词的词性POS‐1、前两个词的词性POS‐2、后一个词的词性POS1、后两个词的词性POS2作为特征；

所述步骤Step3的具体步骤为：

其中，H1为K‐Best结果中任意两个不同结果的分值差的和的倒数，score_i和score_j是弱学习器S1对第i个和第j个句子预测结果的得分；

所述步骤Step3.5中，两个弱学习器需要对扩展语料中的句子进行预测，进而得到句子相应的预测结果，因为预测结果是否一致是判断依存分析结果是否正确的前提；其求取预测结果的具体步骤如下所示：

其中，公式2中：score₁表示弱学习器对第1个句子预测结果的得分，score₂表示弱学习器对第2个句子预测结果的得分，H2表示K‐Best置信度判别方法中score₁相对于score₂的增长率的倒数；公式3中：表示scorei相对于k个句子预测结果得分总和的比值；其中，score_i表示弱学习器对第i个句子预测结果的得分，score_j表示弱学习器对第j个句子预测结果的得分，k表示句子的个数，H3表示k个结果的熵；