CN104516874A

CN104516874A - 一种对名词短语进行依存句法分析的方法及系统

Info

Publication number: CN104516874A
Application number: CN201410837967.5A
Authority: CN
Inventors: 滕顺祥; 陈永波; 姬东鸿; 白旭
Original assignee: DIGITAL TELEVISION TECHNOLOGY CENTER BEIJING PEONY ELECTRONIC GROUP Co Ltd
Current assignee: DIGITAL TELEVISION TECHNOLOGY CENTER BEIJING PEONY ELECTRONIC GROUP Co Ltd
Priority date: 2014-12-29
Filing date: 2014-12-29
Publication date: 2015-04-15

Abstract

本发明涉及一种对名词短语进行依存句法分析的方法及系统，其方法包括：步骤1：基于语料数据库对权值向量和SVM分类器进行训练，得到稳定的权值向量和稳定SVM分类器；步骤2：接收待分析的短语进行预处理，得到至少两个规定格式的词语；步骤3：对所有词语进行分析处理，得到依存句法分析树。可以将该方法分解为两个步骤，即首先识别出句中的复杂名词短语，并利用本方法进行依存句法分析；然后用得到的子结构置换原句中的复杂名词短语，从而降低句子的复杂性。由于本算法是简单边优先算法的改进，保持了该算法高效的优点。针对名词短语长度较短，特征不够明显的特点，引进了SVM分类器用于依存关系方向的确定，保证了算法的有效性。

Description

一种对名词短语进行依存句法分析的方法及系统

技术领域

本发明涉及一种对名词短语进行依存句法分析的方法及系统，属于语言处理技术领域。

背景技术

依存句法分析最近几年在自然语言处理领域如信息抽取和机器翻译等领域受到越来越多的关注。理论上，它植根于依存语法，关注的是词语之间的句法依存关系。

对于名词短语语义结构研究，目前主要集中在NN名词短语的语义解释上，主要任务是自动获取修饰语和中心词之间隐含的语义关系。一般有两种策略：

自上而下的策略(top-down strategy)，这种方法首先定义好一组关系集合，然后为每个名词短语分配适当的关系。

自下而上的策略(bottom-up strategy)，这种方法不定义名名关系，而是通过大规模的语料去发现词语组合时隐含的语义关系，一般选择包含相关动词的释义语句来解释名名关系。

依存句法分析一直是自然语言处理领域的热点和难点问题之一，近年来受到了越来越多的关注。CONLL国际会议已连续多年将依存句法分析评测列入其共享任务。目前主流的依存句法分析算法可以归为三类：基于转换的句法分析方法、基于图的句法分析方法和同时基于图与转换的句法分析方法。

基于转换的依存句法分析方法自左向右扫描输入的对象，利用局部特征逐步完成对象依存关系的获取。该方法速度快，却是局部最优的，即在分析的过程中它能很好地应用待分析节点的左边特征以及历史分析所得到的特征，却无法充分利用右侧文本特征：一般只能用到右边一到两个词距离范围内的特征。这也直接导致其错误传播和准确率的下降。

基于图的依存句法分析方法对一个句子所有可能的依存句法分析树进行分析并分别给予相应的分值，取分值最高者为依存句法分析树的边。该方法能充分利用全局特征从而达到全局最优，然而因计算的时间复杂度太高(O(n3l ogn))而影响了分析的效率。

结合以上两种方法即得到同时基于转换和图的方法。这种方法能结合以上两种方法的优点，并已经得到了广泛应用。此外针对中文的依存句法分析，目前已经提出了基于最大熵的依存句法分析、基于词汇支配度的中文依存句法分析等等。

Yoav等结合两种思想，提出了计算复杂度为O(n2l ogn)的简单边优先算法，图4为简单边算法的测试结果。并证明该算法对完整句子进行依存句法分析结果的准确率接近最大生成树算法。

发明内容

本发明所要解决的技术问题是，基于传统的依存句法分析算法多着眼于整句的分析，导致当遇到结构比较复杂的句子时，分析的准确率的不到保证的不足；提供一种结合基于转换的方法和图的方法，在简单边优先算法的基础上进行改进的对名词短语进行依存句法分析的方法及系统。使该算法能较好地应用于中文复杂名词短语的依存句法分析。

本发明解决上述技术问题的技术方案如下：一种对名词短语进行依存句法分析的方法，具体包括以下步骤：

步骤1：基于语料数据库对权值向量和SVM分类器进行训练，得到稳定的权值向量和稳定SVM分类器；

步骤2：接收待分析的短语进行预处理，得到至少两个规定格式的词语；

步骤3：对所有词语进行分析处理，得到依存句法分析树。

本发明的有益效果是：本方法可以分解为两个步骤，即首先识别出句中的复杂名词短语，并利用本方法进行依存句法分析；然后用得到的子结构置换原句中的复杂名词短语，从而降低句子的复杂性。由于本算法是简单边优先算法的改进，保持了该算法高效的优点。同时，针对名词短语长度较短，特征不够明显的特点，引进了SVM分类器用于依存关系方向的确定，保证了算法的有效性。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述步骤1具体包括以下步骤：

步骤1.1：对语料数据库中的已知依存关系的短语进行标注，得到训练语料；

步骤1.2：SVM分类器调用SVM自带的训练函数，基于训练语料完成训练，得到稳定SVM分类器；

步骤1.3：基于训练函数采用判别式的算法对初始值为零的权值向量进行迭代，直到权值向量稳定，得到稳定权值向量。

进一步，所述步骤2具体包括以下步骤：

步骤2.1：接收待待分析的短语，将所述短语进行分词；

步骤2.2：对所有词语进行词性标注，得到至少两个规定格式的词语。

进一步，所述步骤3具体包括以下步骤：

步骤3.1：基于权值向量对所有词语匹配出其最具依赖关系的一个词语，每两个具有依赖关系的词语构成一个子树；

步骤3.2：合并子树使子树数量变少，直到数量减少到一，构成依存句法分析树。

进一步，所述步骤3.2具体包括以下步骤：

步骤3.2.1：基于权值向量对所有子树匹配出最具依赖关系的一个子树，每两个最具依赖关系的子树构成一个子树对；

步骤3.2.2：基于SVM分类器确定子树对之间的依赖关系方向；并按照依赖关系方向合并子树对为一个子树；

步骤3.2.3：判断当前子树数量是否为一，如果是，执行步骤3.2.4；否则，执行步骤3.2.1；

步骤3.2.4：当前子树构成依存句法分析树。

本发明解决上述技术问题的技术方案如下：一种对名词短语进行依存句法分析的系统，包括训练模块、预处理模块和分析模块；

所述训练模块用于基于语料数据库对权值向量和SVM分类器进行训练，得到稳定的权值向量和稳定SVM分类器；

所述预处理模块用于接收待分析的短语进行预处理，得到至少两个规定格式的词语；

所述分析模块用于对所有词语进行分析处理，得到依存句法分析树。

本发明的有益效果是：本系统首先识别出句中的复杂名词短语，并利用本方法进行依存句法分析；然后用得到的子结构置换原句中的复杂名词短语，从而降低句子的复杂性。由于本系统是简单边优先算法的改进，保持了该算法高效的优点。同时，针对名词短语长度较短，特征不够明显的特点，引进了SVM分类器用于依存关系方向的确定，保证了有效性。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述训练模块包括语料模块、SVM训练模块和向量训练模块；

所述语料模块用于对语料数据库中的已知依存关系的短语进行标注，得到训练语料；

所述SVM训练模块用于使SVM分类器调用SVM自带的训练函数，基于训练语料完成训练，得到稳定SVM分类器；

所述向量训练模块基于训练函数采用判别式的算法对初始值为零的权值向量进行迭代，直到权值向量稳定，得到稳定权值向量。

进一步，所述预处理模块包括接收模块和标注模块；

所述接收模块用于接收待待分析的短语，将所述短语进行分词；

所述标注模块用于对所有词语进行词性标注，得到至少两个规定格式的词语。

进一步，所述分析模块包括子树构建模块和合并模块；

所述子树构建模块基于权值向量对所有词语匹配出其最具依赖关系的一个词语，每两个具有依赖关系的词语构成一个子树；

所述合并模块用于合并子树使子树数量变少，直到数量减少到一，构成依存句法分析树。

进一步，所述合并模块包括子树对模块、子树合并模块和判断模块；

所述子树对模块基于权值向量对所有子树匹配出最具依赖关系的一个子树，每两个最具依赖关系的子树构成一个子树对；

所述子树合并模块基于SVM分类器确定子树对之间的依赖关系方向；并按照依赖关系方向合并子树对为一个子树；

所述判断模块用于判断当前子树数量是否为一，如果是，当前子树构成依存句法分析树；否则，触发子树对模块。

依存句法分析的方法主要是利用统计的方法，利用名词短语中词语的词、词性以及上下文特征，确定词与词之间的依存关系。通过训练得到的特征向量和权值向量可以确定哪两个词之间存在依存关系；利用SVM可以确定该依存关系的方向，即将上一步的到的无向边转换为有向边。最终得到以一个词为树根的句法分析树。

附图说明

图1为本发明所述的一种对名词短语进行依存句法分析的方法流程图；

图2为本发明所述的一种对名词短语进行依存句法分析的系统结构框图；

图3为应用本发明所述的方法对具体短语进行具体分析的过程图；

图4为现有技术中简单边算法的测试结果图；

图5为本发明的测试结果图。

附图中，各标号所代表的部件列表如下：

1、训练模块，2、预处理模块，3、分析模块，11、语料模块，12、SVM训练模块，13、向量训练模块，21、接收模块，22、标注模块，31、子树构建模块，32、合并模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明所述的一种对名词短语进行依存句法分析的方法，具体包括以下步骤：

步骤1：对语料数据库中的已知依存关系的短语进行标注，得到训练语料；

步骤2：SVM分类器调用SVM自带的训练函数，基于训练语料完成训练，得到稳定SVM分类器；

步骤3：基于训练函数采用判别式的算法对初始值为零的权值向量进行迭代，直到权值向量稳定，得到稳定权值向量；

步骤4：接收待待分析的短语，将所述短语进行分词；

步骤5：对所有词语进行词性标注，得到至少两个规定格式的词语；

步骤6：基于权值向量对所有词语匹配出其最具依赖关系的一个词语，每两个具有依赖关系的词语构成一个子树；

步骤7：基于权值向量对所有子树匹配出最具依赖关系的一个子树，每两个最具依赖关系的子树构成一个子树对；

步骤8:基于SVM分类器确定子树对之间的依赖关系方向；并按照依赖关系方向合并子树对为一个子树；

步骤9：判断当前子树数量是否为一，如果是，执行步骤10；否则，执行步骤7；

步骤10：当前子树构成依存句法分析树。

如图3所示，为应用本发明所述的一种对名词短语进行依存句法分析的方法的具体分析过程图，具体为对短语“小狐狸欢快的跳”的分析过程。

如图2所示，为本发明所述的一种对名词短语进行依存句法分析的系统，包括训练模块1、预处理模块2和分析模块3；

所述训练模块1用于基于语料数据库对权值向量和SVM分类器进行训练，得到稳定的权值向量和稳定SVM分类器；

所述预处理模块2用于接收待分析的短语进行预处理，得到至少两个规定格式的词语；

所述分析模块3用于对所有词语进行分析处理，得到依存句法分析树。

所述训练模块1包括语料模块11、SVM训练模块12和向量训练模块13；

所述语料模块11用于对语料数据库中的已知依存关系的短语进行标注，得到训练语料；

所述SVM训练模块12用于使SVM分类器调用SVM自带的训练函数，基于训练语料完成训练，得到稳定SVM分类器；

所述向量训练模块13基于训练函数采用判别式的算法对初始值为零的权值向量进行迭代，直到权值向量稳定，得到稳定权值向量。

所述预处理模块2包括接收模块21和标注模块22；

所述接收模块21用于接收待待分析的短语，将所述短语进行分词；

所述标注模块22用于对所有词语进行词性标注，得到至少两个规定格式的词语。

所述分析模块3包括子树构建模块31和合并模块32；

所述子树构建模块31基于权值向量对所有词语匹配出其最具依赖关系的一个词语，每两个具有依赖关系的词语构成一个子树；

所述合并模块32用于合并子树使子树数量变少，直到数量减少到一，构成依存句法分析树。

所述合并模块32包括子树对模块、子树合并模块和判断模块；

实现本发明目的的研究路线是：

1.分析已有的算法，重点关注简单边优先算法应用于中文复杂名词短语的效果；

2.针对该算法的不足，针对性的做出改进；

3.将SVM引入依赖关系的识别，形成完整的方法，并用语料进行测试。

实现本发明目的的关键技术有：

1.子树：复杂名词短语的下级结构，即由位置上邻接的词语之间构成的子结构，以树根所代表的词为该部分的中心词，子树包含了大量的特征信息；

本发明分析用到的子树特征如表1所示，

表1本发明分析用到的子树特征表

2.无向依存边：描述词与词之间是否具有依存关系，若A与B存在依存关系，则可以表示为arc(A,B)。

3.有向依存边：描述词与词之间的依存关系的方向，若有词语A依赖于词语B，则可以表示为arc<A,B>。

本发明的创新之处在于：

1.中文复杂名词短语：目前的依存句法分析算法主要着眼于完整的句子甚至文章，而没有针对复杂名词短语进行依存句法分析的算法，本发明可以使对句子的依存分析工作分解为复杂名词短语的识别和分析，然后针对剩余部分进行分析；

2.分析方法：对简单边优先算法做了改进，使其适用于中文复杂名词短语的分析针对名词短语长度较短的限制，引入了SVM作为有向边分类器有效地提高了算法的准确率。

对复杂名词短语进行依存句法分析的过程等效于构建二叉树的过程。操作的基本单位是二叉树的节点。故初始阶段可以将短语中的每一个词作为节点。每个节点包含众多的特征：中心词即树根所代表的词和词性的特征、左右子树的词和词性特征、子特征的结合构成的新特征等等。分析的过程中，最明显具有依存关系的两棵子树首先被合并成为一棵子树并替代该两棵子树，短语的长度减小1，然后继续对新的短语结构进行操作直至长度减小为1。

方法的实施主要分为以下几个步骤：第一，标注训练语料，由人工对语料库中的短语进行标注以供训练；第二，训练语料，语料训练包含两个方面，权值向量的训练和SVM分类器的训练。SVM的训练可以直接调用SVM自带的训练函数利用语料完成，权值向量的训练则主要利用判别式的算法对初始化为0向量的权值向量进行迭代，直至稳定状态。第三，分析，该步骤又分为两步，即首先对待分析的短语进行分词的词性标注，然后利用权值向量，在每一步中根据子树特征获取最具依赖关系的子树，并用SVM确定两子树的依赖关系的方向，合并子树从而使短语长度不断减小直至为1。得到复杂名词短语的依存句法分析树，图5为本发明所述方法的测试结果图。

本发明与ctbparser的效果比较如表2所示，

表2本发明与ctbparser的效果比较表

以下描述了分析的算法步骤：

第一步：初始化。

Arcs＝{}

pending＝{word1,word2,…,wordn}

第二步：循环直至pending的长度为1

1.利用score()函数计算pending中每一对相邻子树之间的无向边的分值，并取其中得分最高者，记为arc_best；

2.取arc_best左右两边子树的根节点，记为left_word和right_word，然后利用SVM确定该边的方向，得到边arc(parent,child)；

3.将arc加入到集合Arc中，并在pending中移除child。

第三步：输出Arcs中的边，得到依存树。且pending中所剩子树的根节点即为复杂名词短语依存句法分析树的根节点。

训练算法的具体过程如下所示：

第一步：初始化。

Arcs＝{}

pending＝{word1,word2,…,wordn}

Gold＝{arc|arc∈corpus}

第二步：循环直至pending的长度为1

1.得到“严格合法”的边的集合

allowed＝{arc|is_legal(arc,Gold,Arcs)}

2.利用score()函数选择当前的最优边arc_best，并判断：

a.如果arc_best∈allowed：则根据语料提供的方向构造边arc加入到Arcs中，更新pending，并将该条边的方向和arc_best的特征向量加入到SVM的训练集合中。

b.如果allowed，则在allowed集合中选择分值最高的边arc_allowed。更新ω。

第三步：退出循环，返回ω。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对名词短语进行依存句法分析的方法，其特征在于，具体包括以下步骤：

步骤3：对所有词语进行分析处理，得到依存句法分析树。

2.根据权利要求1所述的一种对名词短语进行依存句法分析的方法，其特征在于，所述步骤1具体包括以下步骤：

3.根据权利要求1所述的一种对名词短语进行依存句法分析的方法，其特征在于，所述步骤2具体包括以下步骤：

步骤2.1：接收待待分析的短语，将所述短语进行分词；

4.根据权利要求1-3任一项所述的一种对名词短语进行依存句法分析的方法，其特征在于，所述步骤3具体包括以下步骤：

5.根据权利要求4所述的一种对名词短语进行依存句法分析的方法，其特征在于，所述步骤3.2具体包括以下步骤：

步骤3.2.4：当前子树构成依存句法分析树。

6.一种对名词短语进行依存句法分析的系统，其特征在于，包括训练模块、预处理模块和分析模块；

7.根据权利要求6所述的一种对名词短语进行依存句法分析的系统，其特征在于，所述训练模块包括语料模块、SVM训练模块和向量训练模块；

8.根据权利要求6所述的一种对名词短语进行依存句法分析的系统，其特征在于，所述预处理模块包括接收模块和标注模块；

9.根据权利要求6-8任一项所述的一种对名词短语进行依存句法分析的系统，其特征在于，所述分析模块包括子树构建模块和合并模块；

10.根据权利要求9所述的一种对名词短语进行依存句法分析的系统，其特征在于，所述合并模块包括子树对模块、子树合并模块和判断模块；