CN101329666A

CN101329666A - 基于语料库及树型结构模式匹配的汉语句法自动分析方法

Info

Publication number: CN101329666A
Application number: CNA2008101226508A
Authority: CN
Inventors: 陈家骏; 张亮; 戴新宇; 尹存燕
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2008-06-18
Filing date: 2008-06-18
Publication date: 2008-12-24

Abstract

本发明公开了一种基于语料库及树型结构模式匹配的汉语句法自动分析方法，该方法在对汉语标注语料库进行深度分析与完全切分的基础上，根据从语料库中抽取出的句法模式和相应的语义搭配关系，与待处理句进行模式匹配与模式转换处理，并经过语义排歧处理，最后得到最优句法分析结果。本发明的句法自动分析系统包括句法树库中句法模式的抽取、存储、调用模块，句型统计模块、句法模式匹配模块，近似模式局部转换模块，语义排歧模块。实验证明本发明的汉语句法自动分析方法与传统的句法分析相比，注重句法模式的整体匹配与局部转换相结合，处理的粒度大，效率高，平均准确率和召回率有约10％的提高。

Description

基于语料库及树型结构模式匹配的汉语句法自动分析方法

技术领域

本发明涉及自然语言处理技术领域，特别是一种新汉语句法自动分析方法和处理系统，即基于语料库及树型结构模式匹配的汉语句法自动分析方法及系统。

背景技术

所谓句法自动分析，从形式上看是将一个语言元素(词)的线性序列，转化为具有语块划分的层次分明的立体结构；从逻辑上看是确定出句子中各语言元素及其组合之间的内在关系。

句法分析(Syntactic Parsing)是自然语言处理研究中的关键技术之一，句法分析结果的好坏直接影响对自然语言句子的理解。而自然语言理解又是机器翻译、信息抽取、信息检索、自动问答以及语料自动处理等众多语言处理技术的基础。同时，句法分析中所使用的技术还可以用于解决生物信息识别领域诸如RNA分析探测等与句法分析类似的问题。

由于汉语的语言特质，如相对于西方语言，没有严格的时态语态特征，语句结构松散，省略多等等，因此汉语句法分析的研究虽然历史较长，但是一直没有大的突破，离实际应用尚有相当的距离，同时也严重影响了进一步的语义分析，从某种意义上说句法分析是目前汉语自然语言理解研究的瓶颈。

目前句法分析技术大体上分为两大类，即基于规则的方法和基于统计的方法。

基于规则的方法是以知识为主体的理性主义(Rationalism)方法，该方法以语言学理论为基础，强调语言学家对语言现象的认识，采用非歧义的规则形式描述或解释歧义行为或歧义特性。代表性的理论和技术有广义短语结构语法(GPSG)、中心语驱动的短语结构语法(HPSG)、词汇功能语法(LFG)、树邻连接法(TAG)等，规则方法研究时间最长，一直没有很好的突破，其主要问题是知识颗粒度大、规则冲突和知识获取困难、对语言知识自身的内部联系与层次关系的研究不足等。

基于统计的方法实质是一个评价句法分析结果的概率评价函数，即对于任意一个输入句子s和它的句法分析结果t，给出一个条件概率P(t|s)，并由此找出该句法分析模型认为概率最大的句法分析结果，即找到argmax P(t|s)，句法分析问题的样本空间为S×T，其中S为所有句子的集合，T为所有句法分析结果的集合。常见的有概率型上下文无关模型(PCFG)、基于历史的分析模型、分层渐近式句法分析模型、头驱动的统计句法分析模型等。统计方法的主要问题是数据稀疏问题、忽略上下文结构信息、计算量巨大、忽略语言自身的语义约束与关联等。

目前，句法标注语料库的构建(如清华大学、国家语委、滨州大学的句法树库等)为句法分析研究提供了一个重要的平台，为新的理论和技术的探索创造了条件。

发明内容

发明目的：本发明突破传统的规则和概率统计模型，提出一种新的高效实用的汉语句法分析方法，即以语料库为平台，以树型结构模式匹配为主线，结合句型分析、概率统计和语义排岐等方法来进行句法分析。

技术方案：本发明包括训练过程和分析过程：

其中训练过程包括：

a)从句法标注语料库中抽取出句法模式及其对应的句法规约树，并建立对应的索引库。

b)统计分析句法树中的句型，得到其概率信息。

分析过程包括：

aa)将待处理句与模式库中的模式进行匹配，如成功则转dd)，否则转bb)；

bb)根据转换结点最少优先原则和句型框架内转换优先原则，进行模式局部转换规约；

cc)试探在bb)的基础上，能否进行完全模式匹配，如成功则转dd)，否则转bb)；

dd)如果得到一个匹配模式，则其对应规约树即为句法分析结果；如果得到多个匹配模式，则计算相应模式中词间语义搭配的概率，概率最大的模式对应的句法规约树即为处理结果。

训练过程中，步骤a)从句法分析的角度定义句法模式，在语料库中的树及其子树中抽取出全部的句法模式和对应的规约树。

训练过程中，步骤b)以树根结点为原点，计算树库中句法树相互之间的相似度，以深度优先、虚词搭配优先的原则，抽取句法树中出现的规约结构，句型即为规约树的叶子结点序列。

分析过程中，步骤bb)判断待处理句中的隐含的句型特征，根据转换结点最少优先原则和句型框架内转换优先原则，进行模式局部转换规约。

分析过程中，步骤cc)在步骤步骤bb)的基础上，将简化了待处理句再次与模式库中的模式进行匹配。

分析过程中，步骤dd)在得到多个匹配模式，计算相应模式中词间语义搭配的概率，通过语义分析进行消岐处理。

本发明是将标注句法树句法片段作为包含句法处理知识的模式，句法分析的过程即为模式匹配、模式转换、模式规约的过程。本发明主要基于如下事实：在计算机上输入汉语时，单个的汉字输入既慢又易出错，而词组的输入则又快又准，究其原因是词组的重码率低，也就是减少了歧义发生率，本发明的核心技术句法模式匹配与转换与此类似。在从句法标注语料库中获取大量句法模式的基础上，本发明中的句法分析不再象以往的概率模型，计算各种组合的最大概率，而是从大处着眼，快速识别处理对象中包含的句法模式或可能隐含的句法模式。从本质上讲，本发明中的基于模式匹配的句法分析是对人的处理方式的模仿(人做句法分析可以左看右看，把握整体，注重平衡，因而是二维的，而以往的计算机句法分析是线性的一维的)，可以较为充分地发挥大规模语料库蕴含的处理各类句法现象的能力。

句法树可以看作是一种知识树，其中不仅显式地含有句法规则知识，还隐含句法规则组合应用的知识，句法树库越大，所覆盖的句法知识就越全面，反言之，面对一个待分析的句子，一般总是可以从句法树库中直接或间接地抽取相应的知识或知识的组合对其进行正确的处理。

有益效果：本发明的汉语句法自动分析方法与传统的句法分析相比，注重模式整体匹配与局部转换相结合，处理的粒度大，效率高，平均准确率和召回率有约10％的提高。

附图说明

图1是一棵句法树中几种模式示例。

图2是图1(c)中的模式及其规约树。

图3是近似模式的一个示例，注：除去黑体部分，两模式其余各点依序对应相等。

图4是一个结构局部转换的示例。

图5是基于模式匹配的句法分析系统结构图。

具体实施方式

一、构建模式匹配的数据支撑平台。

以句法树库为语料资源，通过相关的处理算法，派生出句法子树库、句法模式库、句法子模式库、模式规约库、模式索引库、统计句型库等，为基于树型结构模式匹配的句法分析提供处理平台。由于本发明中的核心数据结构是树型结构模式，因此对其进行严格定义。

句法模式的定义：对于一个句法树，从左向右画一条只穿过树中结点的线，这条线上的结点如果满足以下约束条件，则其结点序列即为一个句法模式。

这条线上的结点是树上全部结点D的一个真子集C，并且：

(1)C中没有一个结点处在由C中其他结点开始的任何一条后继结点路径上；

(2)D中没有其他结点可以加入C而不违背规则(1)。

如图1所示，虚线上的结点序列是句法树S(dj(np(n(奥里诺科河))vp((p(在)np(r(哪儿))))))中的几种模式，其中(d)为非法模式，因为在序列(奥里诺科河p vp)中结点p是结点vp的子孙，不能满足模式定义的约束。按模式定义，这棵句法树中共包含25个模式。

一个模式的规约是句法树中该模式与树根结点之间的部分，图1(c)中模式为(np p 哪儿)，对应的模式规约为S(dj(np vp(pp(p np(r(哪儿))))))，如图2所示。从本质上讲，句法分析的过程是从叶子结点向根结点过渡的过程，而模式及其规约正是对句法树库标注过程的动态记录。

二、模式匹配中涉及的关键技术。

(1)模式抽取。

对句法树库的每一个树及其派生子树，进行句法模式的抽取、排序、去重处理，记录模式对应的规约。该算法应用于后台处理，是构建数据支撑平台的基础。

模式抽取的具体过程如下：

输入：一个以括号的形式表示的句法结构S。

输出：该句法结构对应的所有句法模式组成的模式列表。

(注：在实现算法中，结构树在内存中以中序优先的形式存储)

1)读取处理对象S，初始化实参列表List，用以存放模式序列，用以存放临时序列；

2)对S进行句法解析，获得结构链表S′，并将S′赋值给临时链表S″；

3)初始化形式参量列表List_temp1、List_temp2；

4)初始化P，P为一个新的指向结构链表S″的指针；

5)如果P为空，则转13)

6)如果P的父结点不等于S′，则7)，否则8)

7)P赋值为其后一个结点

8)List_temp1添加P结点名；

9)P赋值给S″，List_temp1赋值给List，转3)

10)如果List_temp2为空，则List_temp1的内容赋值给List_temp2，否则转12)；

11)List_temp1清空；

12)如果List_temp1的内容不为空，则计算List_temp1和List_temp2的笛卡儿集，转5)；

13)List_temp2的内容赋值给List

14)……

算法结束后List中的内容即为所求的句法结构S中包含的所有模式序列。

(2)模式匹配。

判断待处理语句是否与模式库中的模式相匹配，如匹配，且其对应的规约树唯一，则该规约树即为句法分析结果；否则判断近似模式(即模式中有部分不匹配，图3为一示例，近似模式匹配不同于多模式匹配，因为待处理语句和模式中任何部分之间都可能进行匹配)，从句型框架结构、匹配长度等方面考虑，抽取最优的近似模式，做局部转换处理。

本发明中的句法分析是建立在大规模模式库的基础上，涉及大量的模式匹配和距离计算，主要的对应策略是：a、建立多级模式索引；b、句型判断，判断是否包含某些常见的长距离搭配关系即句型；c、启发式筛选、Hash散列计算等。同时挖掘模式自身潜在的属性，包括强模式(句法树中具有较大规约概率且满足一定深度和长度条件的模式)的判别、模式分段特性(即一个大模式中包含若干子模式，这涵盖了长句包含子句的情况)等，并且在匹配中兼顾规约深度优先的原则、规约总次数最少优先的原则、最后规约均衡的原则等。

(3)局部转换。

对近似模式中不匹配的部分进行特别的转换和归并，目标是得到一个完整的匹配模式。如图4所示，待处理对象0(a1 a2 a3′ a4 a5 a6 a7)与模式A(a1 a2 a3 a4 a5 a6 a7)中的a3不能匹配上，则试探包含a3的上位结点b，且与模式A距离最近的模式B(a1 a2 b a5 a6 a7)，若处理对象0中局部转换a3′a4→b成立，则模式B即为所求完整模式。

由于可能存在多种不同的局部转换选择，转换的原则是：(a)转换结点最少优先；(b)句型框架内转换优先。

(4)句型统计。

本发明中的句型是广义的统计句型。以根结点为原点，计算树库中句法树相互之间的相似度，以深度优先、虚词搭配优先的原则，抽取句法树中出现的规约结构，句型即为规约树的叶子结点序列。句型反映了句法模式中的长距离搭配关系，在大尺度上，为分析序列分段，缩短模式匹配的长度，使得句法模式的局部转换处理在句型框架内进行，降低句法分析的出错概率。

(5)语义排岐算法。

同一个模式，可能会对应一个以上的句法规约，如“装修/v图书馆/n的/u大厅/n”和“装修/v图书馆/n的/u工人/n”，两者在词性标注序列上，是一样的，即都是模式“v n u n”，但是应该有两个不同的划分，即“v(n u n)”和“(v n)u n”，模式尤其较短的模式，存在大量的歧义规约的情况，本发明通过分析词的语义搭配，选取与语料库中语义搭配相似度最近的模式规约。

语义词典《知网》以概念为描述对象，揭示概念与概念之间以及概念所具有的属性之间的关系。概念的最小意义单位“义原”，及其所反映的语义层次关系(如上下位关系、同义关系、属性-宿主关系、事件-角色关系等)，为语义排岐计算提供了帮助。本发明的语义计算分为两种情况：(a)自身语义搭配关系的合理性计算；(b)与树库中语句的语义搭配相似度计算。

(6)系统实施规划。

本发明在探索和挖掘大规模语料库潜在的知识处理能力的基础上，研究与设计了一个较为完整的高质量的句法分析运行系统，图5是基于模式匹配的句法分析的系统结构图，其中数据支撑平台是后台实现的，处理的数据量较大，句法分析是实时处理，由于有后台大量的索引及其快速匹配算法，因此有较高的分析效率。

预处理主要是词法分析工作，目前国内外词法分析水平普遍很高，预处理的质量可以保证。模式匹配成功则直接进行模式规约处理，否则需要抽取最优的近似模式，进行局部转换处理。系统的复杂性涉及时间和空间两个方面，由于计算机硬件的快速发展，高性能CPU和大容量内存以及本发明中的空间换时间处理策略，保证了本发明的汉语句法分析系统的高效率。

Claims

1、一种基于语料库及树型结构模式匹配的汉语句法自动分析方法，其特征是该方法包括训练过程和分析过程；

其中训练过程包括：

a)从句法标注语料库中抽取出句法模式及其对应的句法规约树，并建立对应的索引库；

b)统计分析句法树中的句型，得到其概率信息；

分析过程包括：

2、根据权利要求1所述的基于语料库及树型结构模式匹配的汉语句法自动分析方法，其特征是在训练过程中，其中步骤a)从句法分析的角度定义句法模式，在语料库中的树及其子树中抽取出全部的句法模式和对应的规约树。

3、根据权利要求1所述的基于语料库及树型结构模式匹配的汉语句法自动分析方法，其特征是在训练过程中，其中步骤b)以树根结点为原点，计算树库中句法树相互之间的相似度，以深度优先、虚词搭配优先的原则，抽取句法树中出现的规约结构，句型即为规约树的叶子结点序列。

4、根据权利要求1所述的基于语料库及树型结构模式匹配的汉语句法自动分析方法，其特征是在分析过程中，其中步骤bb)判断待处理句中的隐含的句型特征，根据转换结点最少优先原则和句型框架内转换优先原则，进行模式局部转换规约。

5、根据权利要求1所述的基于语料库及树型结构模式匹配的汉语句法自动分析方法，其特征是在分析过程中，其中步骤cc)在步骤步骤bb)的基础上，将简化了待处理句再次与模式库中的模式进行匹配。

6、根据权利要求1所述的基于语料库及树型结构模式匹配的汉语句法自动分析方法，其特征是在分析过程中，其中步骤dd)在得到多个匹配模式，计算相应模式中词间语义搭配的概率，通过语义分析进行消岐处理。