CN107391488A

CN107391488A - 一种最小生成树统计融合的汉语依存句法分析方法

Info

Publication number: CN107391488A
Application number: CN201710631948.0A
Authority: CN
Inventors: 邵玉斌; 黄美思; 龙华; 杜庆治
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2017-11-24

Abstract

本发明涉及一种最小生成树统计融合的汉语依存句法分析方法，属于自然语言处理技术领域。本发明首先对输入的待测句子进行预处理分析，具体包括：首先建立依存关系频率表；其次，分词、词性标注、依存关系概率统计；然后，把分词后分得的各个词作为节点，并加入一个虚节点，两节点间依存关系概率的负对数作为连接两节点的代价；接着，再利用最小生成树生成方法来生成依存关系树；最后分析出该句子的依存关系树。本发明对句子的分析提供一种精确、高效、便捷的分析方案，不仅节约了分析的时间，且有效提高了句法分析的正确率。本发明的可行性高并适用于一般自然语言的句法分析中。

Description

一种最小生成树统计融合的汉语依存句法分析方法

技术领域

本发明涉及一种最小生成树统计融合的汉语依存句法分析方法，属于自然语言处理技术领域。

背景技术

语言学家乔姆斯基证明了世界上实际只有一种人类语言。而且，多年前就有人提出世界上所有语言必属于三种类型(SVO、SOV以及VSO)之一，例如汉语、英语语种属于SVO类型，日语语种属于SOV类型，但句子成分都离不开主谓宾的主干成分，句法分析在机器翻译、信息抽取中扮演着很重要的角色。句法分析在自然语言处理中有着重要作用。因此如何高效，准确的进行汉语依存句法的分析就很重要了。

发明内容

本发明提供了一种最小生成树统计融合的汉语依存句法分析方法，以用于简化汉语依存句法分析的复杂度；提高汉语依存句法分析的精确度。

本发明的技术方案是：一种最小生成树统计融合的汉语依存句法分析方法，首先对输入的待测句子进行预处理分析，具体包括：首先建立依存关系频率表；其次，分词、词性标注、依存关系概率统计；然后，把分词后分得的各个词作为节点，并加入一个虚节点，两节点间依存关系概率的负对数作为连接两节点的代价；接着，再利用最小生成树生成方法来生成依存关系树；最后分析出该句子的依存关系树。

所述方法的具体步骤如下：

Step1.1、对待测句子进行预处理分析：输入句子，通过分词工具进行分词及词性标注；

Step1.2、Step1.1的句子经过分词后得到词，把分得的词作为节点并加入一个虚节点；

Step2：确定连接两节点的代价：

Step2.1、根据Step1中得到的节点，并从依存网络语料库建立每两个节点间的依存关系概率表；

Step2.2、统计每两个节点间的依存关系概率，并对依存关系概率求负对数，其便为连接两节点的代价；

Step3：最小生成树生成，具体方法步骤如下：

Step3.1、建立节点集合V，建立边集合为E,E包含所有连接节点的边；

Step3.2、初始化：

V_new＝{x}

其中x为集合V中的任一节点(起始点)；

E_new＝{}

E_new为空；

Step3.3、选边：

重复下列操作，直到V_new＝V：

在集合E中选取代价w最小的边＜a_i,a_j＞，其中a_i为集合V_new中的元素，而a_j不在V_new集合当中，并且a_j∈V，如果存在有多条满足前述条件即具有相同权值的边，则任意选取其中之一；将a_j加入集合V_new中，将＜a_i,a_j＞边加入集合E_new中；当V_new＝V时，V_new和E_new便是所求得最小生成树；

Step4、根据Step3的最小生成树得到汉语依存关系树，分析出句子的依存关系树。

进一步的，将句子拆解成单个词语，寻找之间依存关系概率，根据词与词之间的依存关系确定权值。

进一步的，以词为节点，依存关系的概率的负对数作为权值，建立最小生成树。

进一步的，以生成的最小生成树得出句子的依存关系树，分析出句子的依存关系。

本发明的有益效果是：

将句子分析问题转化为最小生成树的建立问题，大大简化了分析的复杂度；通过使用语义依存网络语料库提高了句子依存分析方法的精确度。

本发明基于最小生成树算法与统计相融合的方法，通过最小生成树算法简化了汉语依存语法的分析方法的复杂度，通过词性标注，分词处理，大规模的依存概率统计，提高了汉语依存语法分析的精确性。本发明的可行性高并适用于一般自然语言的汉语依存句法分析。

附图说明

图1为本发明的整体流程图；

图2,3,4,5为本发明的最小生成树算法演示图。

图6为本发明的汉语依存句法分析树。

具体实施方式

实施例1：如图1-6所示，一种最小生成树统计融合的汉语依存句法分析方法，所述方法的具体步骤为：

Step1.1、对待测句子进行预处理分析：输入句子，通过分词工具进行分词及词性标注，假定在待测句子分词后有n个词，为a₁,a₂,……,a_n。

Step1.2、从Step1.1可得出一句话经过分词后得到n个词，把分得的n个词作为节点再加一个虚节点，那么一句话里就有n+1个节点。

Step1.3、由于依存句法树中有虚根的存在，所以为其加入一个虚节点a₀。将w(a_i,a_j)定义为连接节点a_i和节点a_j的代价。

Step2：确定w(a_i,a_j)：

Step2.1、根据Step1.1中得到的节点，并从语义依存网络语料库建立每两个节点间的依存关系概率表；

Step2.2、统计每两个节点间的依存关系概率，依存关系包括：连接节点a_i和节点a_j，节点a_i表施事的概率为P₁(a_i,a_j)；连接节点a_i和节点a_j，节点a_i表受事的概率为P₂(a_i,a_j)；连接节点a_i和节点a_j，节点a_i表核心成分的概率为P₃(a_i,a_j)；并对依存关系概率求负对数。则：

连接节点a_i和节点a_j，a_i表施事的代价w₁(a_i,a_j)：

连接节点a_i和节点a_j，a_i表受事的代价w₂(a_i,a_j)：

连接节点a_i和节点a_j，a_i表核心成分的代价w₃(a_i,a_j)：

Step3：最小生成树生成方法：

Step3.1、建立节点集合:

V＝{a₀,a₁,a₂,...,a_n}

建立边集合为E,E包含所有连接节点的边；

Step3.2、初始化:

V_new＝{x}

其中x为集合V中的任一节点(起始点)；

E_new＝{}

E_new为空；

Step3.3、选边:

重复下列操作，直到V_new＝V：

在集合E中选取代价w最小的边<a_i,a_j>，其中a_i为集合V_new中的元素，而a_j不在V_new集合当中，并且a_j∈V，(如果存在有多条满足前述条件即具有相同权值的边，则可任意选取其中之一)；将a_j加入集合V_new中，将<a_i,a_j>边加入集合E_new中；当V_new＝V时，V_new和E_new便是我们所求得最小生成树。

Step4、根据Step3的最小生成树得到汉语依存树，分析出句子。

Step1、输入一条语句，例如“我吃米饭”，利用分词工具对输入的句子进行分词，分得的词为“我，吃，米饭”记为a，b，c；由于句法分析都存在虚根，加入一个虚节点d，则句子中便有a，b，c，d四个节点。

Step2、寻找词与词之间依存关系频次，得到概率并对其求负对数，如表1所示。把其求得的负对数作为连接两个节点的代价。

表1为词与词之间的依存关系概率的负对数。例如“我(a)到吃(b)”一行在“我(a)”表依存关系为“施事”一列中的概率的负对数为21.06。

表1

Step3、连接所有节点并使生成的树为最小生成树。一个加权连通图，其中顶点集合为V，边集合为E。初始化：V_new＝{x}，其中x为集合V中的任一节点(起始点)，E_new＝{}为空；重复A，B步骤，直到V_new＝V：

A.在集合E中选取权值最小的边<u,v>，其中u为集合V_new中的元素，而v不在V_new集合当中，并且v∈V(如果存在有多条满足前述条件即具有相同权值的边，则可任意选取其中之一)；

B.将v加入集合V_new中，将<u,v>边加入集合E_new中；

输出：使用集合V_new和E_new来描述所得到的最小生成树。

图2为加权连通图。顶点代表分词后的每个节点，每条边上的数字代表两个词之间的依存关系的概率的负对数(即连接两节点的代价w)。

顶点a为被任意选为起始点。顶点b，c，d都与a相连。从图3中可看出边1是连接a权值最小的边，边1的两边分别是a，b；所以把b加入V_new，这时V_new＝{a，b}，E_new＝{1}，此时权值为21.06；

下一个顶点选取离a或者b最近的点，从图4可看出边34是连接a或者b权值最小的边，边34的两端分别连接着b，c；所以把c加入V_new，这时V_new＝{a,b,c}，E_new＝{1，34}，此时权值为21.75；

下一个顶点选取离a或者b或者c最近的点，从图5中可看出边21是连接a或者b或者c权值最小的边，边21的两端分别是b，d；所以把d加入V_new，这时V_new＝{a，b，c，d}，E_new＝{1，34，21}；这时V_new＝V；所有顶点已包括，故V_new＝{a，b，c，d}，E_new＝{1，34，21}；是我们所求得的最小生成树，在此例中，最小生成树的权值之和为23.54。

Step7、得到最小生成树后，将所分析的句子，即组成的“我吃米饭”根据最小生成树得到其依存关系树，如图6所示。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种最小生成树统计融合的汉语依存句法分析方法，其特征在于：首先对输入的待测句子进行预处理分析，具体包括：首先建立依存关系频率表；其次，分词、词性标注、依存关系概率统计；然后，把分词后分得的各个词作为节点，并加入一个虚节点，两节点间依存关系概率的负对数作为连接两节点的代价；接着，再利用最小生成树生成方法来生成依存关系树；最后分析出该句子的依存关系树。

2.根据权利要求1所述的最小生成树统计融合的汉语依存句法分析方法，其特征在于：所述方法的具体步骤如下：

Step2：确定连接两节点的代价：

Step3：最小生成树生成，具体方法步骤如下：

Step3.2、初始化：

V_new＝{x}

其中x为集合V中的任一节点(起始点)；

E_new＝{}

E_new为空；

Step3.3、选边：

重复下列操作，直到V_new＝V：

3.根据权利要求1所述的最小生成树统计融合的汉语依存句法分析方法，其特征在于：将句子拆解成单个词语，寻找之间依存关系概率，根据词与词之间的依存关系确定权值。

4.根据权利要求1所述的最小生成树统计融合的汉语依存句法分析方法，其特征在于：以词为节点，依存关系的概率的负对数作为权值，建立最小生成树。

5.根据权利要求1所述的最小生成树统计融合的汉语依存句法分析方法，其特征在于：以生成的最小生成树得出句子的依存关系树，分析出句子的依存关系。