CN101446943A

CN101446943A - 一种中文处理中基于语义角色信息的指代消解方法

Info

Publication number: CN101446943A
Application number: CNA2008102436062A
Authority: CN
Inventors: 朱巧明; 周国栋; 孔芳; 李培峰; 钱龙华; 李军辉; 钱培德
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2008-12-10
Filing date: 2008-12-10
Publication date: 2009-06-03

Abstract

本发明公开了一种中文处理中基于语义角色信息的指代消解方法，包括下列步骤：(1)对文本进行预处理，所述预处理包括：段落、语句识别；命名实体识别；词性标注；组块识别；句法分析；语义角色标注；(2)根据组对规则生成正负例，在生成过程中针对数、性、语义类别进行简单的正负例的过滤；按分类器的算法要求，根据特征模板生成训练文件；采用训练文件对分类器进行训练，生成分类器模型；(3)对待处理的文本采用步骤(1)的方式进行预处理；按特征模板生成特征向量；将特征向量依次提交给已经训练生成的分类器模型进行分类，所得结果大于阈值，判断为正例，即具有指代关系，否则为负例，即无指代关系。本发明极大地提升了指代消解的性能，且其提升是稳定的。

Description

一种中文处理中基于语义角色信息的指代消解方法

技术领域

本发明涉及一种自然语言的语义处理的方法，尤其涉及一种对中文的处理中基于语义角色信息进行指代消解的方法，属于计算语言学中的自然语言处理领域。

背景技术

指代(Anaphora)是自然语言中广泛存在的一种现象，它可分为两种：回指(Anaphora)，是指当前的指代语与上下文出现的词、短语或句子(句群)存在密切的意义关联性；共指(Coreference)，是指两个实体指向真实世界中的同一参照物。目前的指代消解研究主要侧重于共指消解，即要解决的主要问题是寻找出文章中不同名词性短语是否指向同一个实体。

指代消解是自然语言处理的关键和热点问题之一，在自然语言的篇章理解中举足轻重。一篇引人入胜的文章必然采用多样的表达方式来表示同一个实体，随着篇章理解的相关应用日益广泛，指代消解也显示出前所未有的重要性，它是自然语言处理中不可缺少的部分，在文本总结(Text Summarization)、机器翻译(Machine Translation)、多语言信息处理(Multilingual InformationProcessing)和信息提取(Information Extraction)等诸多应用中都涉及到指代消解问题。因此，1997年的EACL和1999年的ACL年会都设立了指代消解的专题会议，而且指代消解也是MUC和ACE信息抽取评测体系中的一个主要任务。因此必须加强指代消解的研究，通过指代消解的研究，可以实现相关信息的融合，从而获得相应信息在单/多文本中的完整描述。

指代消解的研究历史悠久。许多早期的方法侧重于理论探索，运用大量手工构建的语言甚至领域知识，进行指代消解的研究。近十年来，随着自然语言处理技术的发展，对指代消解技术的应用需求越来越迫切，研究者开始转向基于弱语言知识的方法，侧重于实用的指代消解技术的研究开发，并取得了一定的进展。但由于受制于弱语言知识，指代消解技术近年来在性能的继续提高上遇到了不小的瓶颈，研究人员开始把焦点转向了基于自动产生的深层语言知识，特别是结构化句法信息方向，以期望取得性能上的突破。

早期指代消解研究主要利用大量手工构建的领域和语言知识形成逻辑规则进行消解，降低了系统的可移植性和自动化程度。随着标注语料库的出现以及Internet的迅速发展，实验语料的获得越来越方便，目前大多数的指代消解研究趋向于基于语料库的指代消解方法。

与国际上指代消解的长期研究相比，自然语言处理领域的中文指代消解的研究只是刚刚起步，主要集中在人称代词的消解研究方面。相关的研究可分为两类：

第一类是引用国际上流行的研究方案进行中文指代消解的研究。相关的代表性研究有：王厚峰等(2001)根据中文人称代词的语义角色和对应的先行语可能的语义角色，给出了消解人称代词的基本规则；王凌飞等(2000)提出了指代确定的9个限制条件，探讨了基于中心理论的指代消解在汉英机器翻译中的应用；张威等(2002)实现了基于中心理论的元指代消解；孔祥勇等(2003)结合了规则和统计方法，解决代词和定指短语的指代问题；王晓斌等(2004)进行了基于语篇表述理论的人称代词的消解研究；王厚峰等(2005)采用了近似Mitkov(1998)的基于弱化语言知识的方法，解决人称代词的消解；杨佳等(2005)使用遗传算法消解人称代词；李国臣等(2005)使用决策树机器学习算法，结合优先选择策略，进行指代消解的研究。

第二类是根据中文的特点提出的具有中文特色的研究方案。相关的研究有：许敏等(1999)利用格框架，提出了在上下文相关语义环境中进行指代分类解决的思想，并给出了相应的算法。王厚峰(2000)提出了基于HNC的指代消解方法，利用各种语义块的类型特点和语义块之间的结构特点，在语义块内部和语义块之间使用排除规则，并使用局部焦点优先的原则(与中心理论类似)进行优先选择，实现语句序列之间人称代词的消解。

从指代消解的国内外研究现状可以看到，随着机器学习方法的引入，结合相关的领域知识(多以规则的形式体现)，指代消解有了长足的发展，但还存在一些问题，例如：深层次语义信息在指代消解领域的应用不够充分。自然语言处理中，语义信息起了至关重要的作用。然而目前，许多应用都是通过使用类似WordNet这样的语义字典来获取语义信息，但数据库中的语义信息毕竟是有限的，数据稀疏问题必然存在。

发明内容

本发明目的是本发明的目的是提供一种高性能的指代消解方法，通过充分利用语义信息，提高在中文信息处理中的指代消解的性能。

为达到上述目的，本发明采用的技术方案是：一种中文处理中基于语义角色信息的指代消解方法，包括下列步骤：

(1)对文本进行预处理，所述预处理包括：段落、语句识别；命名实体识别；词性标注；组块识别；句法分析；语义角色标注；

(2)根据组对规则生成正负例，在生成过程中针对数、性、语义类别进行简单的正负例的过滤；按分类器的算法要求，根据特征模板生成训练文件；采用训练文件对分类器进行训练，生成分类器模型；

所述特征模板包括：

指代消解特征集：

新增特征集：

(3)对待处理的文本采用步骤(1)的方式进行预处理；按特征模板生成特征向量；将特征向量依次提交给已经训练生成的分类器模型进行分类，所得结果大于阈值，判断为正例，即具有指代关系，否则为负例，即无指代关系。

指代消解中选用的特征能否较好的描述照应语和现行候选词在篇章中的关系是进行指代消解的关键，目前最好的英文指代消解系统的F-指数只能达到60％左右(国际公认的评测语料ACE 2003上实验得到的结果)，因此指代消解的性能还有待进一步的提升。本方案的基本思想是充分利用SRL中蕴含的丰富的语法、语义信息更加合理、便捷地表述照应语和现行候选词间的关系。

与目前流行的指代消解方案类似，本方案也将指代消解过程理解成一个二元分类问题，使用了由Soon等2001提出的指代消解的基本框架，将指代消解平台分成三大块：预处理模块(包括句子识别-识别出篇章中的段落、句子，为后续处理做好准备；命名实体识别-识别出篇章中的专有名词，并根据上下文判断出该实体具体表示的是人名、地名或机构等语义类别；词性标注-以句子为单位进行句法分析，为句子中的每一个成分识别出其对应的词性；组块识别-对词进行合并，形成短语信息)；训练生成分类器模型(记录下标注语料中的指代信息，提取预处理后的语料中的名词性短语，并将它们组对构成实例，根据设定好的特征模板提取实例的相关特征，根据记录的指代信息判断实例对间是否有指代关系，若有则构成正例，没有则形成负例。将形成的正负例训练文件交由SVM、最大熵等分类器算法进行训练，形成对应的分类器模型-注，本方案生成正负例的过程可根据使用的分类器算法进行相应调整，因此不拘泥于使用某一分类器算法，申请后面部分给出的实验数据都是使用了SVM分类器进行处理所获得的)；测试判断各照应语、现行候选词间是否具有指代关系，即分类(对生语料先进行预处理，与训练时类似生成实例，形成实例的特征文件，按顺序将特征向量提交各分类器算法，在训练已经生成的分类器模型的指导下根据特征向量进行分类，形成的正例表示实例对间有指代关系，否则没有指代关系)。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

本发明将指代消解问题理解成一个二元分类问题，在处理过程中充分考虑照应语和先行候选词在语句中承担的语义角色，以及它们在篇章中的凸显性。在中心理论的指导下，将该理论从语法角色层面拓展到语义角色层面，并根据中心理论的相关规则设计了一个先行候选词的凸显度计算算法，并将该算法计算得到的凸显度和“实施者”的语义角色一同引入指代消解的训练和分类过程。在ACE 2003这一国际标准语料上进行的各种实验所得的结果均表明，本方案能极大地提升指代消解的性能；通过在三个不同的语料集上进行测试，结果表明，采用本发明的方法获得的指代消解性能的提升是稳定的。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例：本方案使用的指代消解平台与Soon等2001年提出的框架结构类似，包括的主要模块有：预处理模块(具体包括语句识别、命名实体识别、词性标注、句法分析、语义角色标注、词组标注构成)、分类器模型训练模块(具体包括产生训练实例和利用分类器算法生成分类器模型两部分构成)、指代消解模块(由产生测试样例、利用已经生成的分类器模型进行分类，判断两个实体间是否存在指代关系两个环节组成)。本方案的具体实施方式如下：

1.预处理结果文件的生成：从纯文本开始，使用各类已经成熟的自然语言工具进行预处理，包括：

●段落、语句识别；

●命名实体识别；

●词性标注；

●组块识别；

●句法分析；

●语义角色标注

2.分类器模型文件的生成：

●根据组对规则生成正负例，在生成过程中针对数、性、语义类别进行简单的正负例的过滤

●按不同分类器算法要求，根据特征模板生成训练文件；

●将训练文件交由分类器算法，训练生成分类器模型；

3.对需要处理的篇章，与训练生成分类器模型类似，以此进行：

●预处理；

●生成训练文件：与训练时不同，此时不能判断组对的两个实体间是否具有指代关系，即正负例无法判断，只能按特征模板生成特征向量；

●将特征向量依次提交给已经训练生成的分类器模型进行分类。所得结果大于阈值，判断为正例(具有指代关系)，否则为负例(无指代关系)。

对分类结果进行评测。

1.特征模板的设定：

本方案首先使用了已经被广泛实验证明是非常有效的一组特征，具体的特征及其取值情况如表1所示。从表1中可以看到，指代消解是一项非常困难的工作，它需要使用到语法、语义和语用多方面的知识。本方案主要针对其中的语义特征进行了进一步的挖掘，引入了SRL的相关信息。

使用表1给出的这些有效特征，我们构建了一个指代消解基准平台，平台在ACE 2003上取得的实验结果如表2所示。为了进一步对构建的指代消解系统进行全面的分析，我们又针对专有名词、代词等各种不同类别的名词在ACE2003的NWIRE语料上进行了分项实验，具体的实验结果如表3所示。

表1 指代消解特征集

表2 基准系统在ACE2003语料上的评测结果

表3 基准系统在ACE2003NWIRE语料集上的分类评测结果

表2给出的实验结果与目前相关文献报道的结果相比相差大约1％左右。而就表3给出的分项实验结果来看，占总名词量大份额的主要是代词和专有名词，而相对而言，对专有名词的指代消解性能已经较好，而代词还有相当的提升空间。因此本方案首先研究了中心理论的相关知识(中心理论主要研究代词在篇章中的使用规则，主要针对语法层面的研究)，考虑到指代消解中对语义信息的极大依赖(目前指代消解领域的很多研究都表明语义信息对指代消解的性能起到了很大的影响作用)，本方案选择了既能体现语法角色，又能表达一定的语义信息的SRL作为研究对象。

语义角色是句子中的名词短语在相应动词驱动下所承担的语义成分，可以利用语义角色标注(Semantic Role Labeling，SRL)来获得语义角色。SRL是浅层语义分析(Shallow Semantic Parsing)的一种实现方式。浅层语义分析是指根据句子的句法结构和句中每个实体的词义推导出能够反映这个句子意义的某种形式化表示。例如下面的例子，虽然它们的表述形式不同，但表示成语义的形式却统一为：“hit(John，Bill)”。

核心的语义角色包括六种，其中Arg0通常表示动作的施事者，Arg1通常表示动作的影响等等，其余的语义角色为附加语义角色，使用ArgM表示，例如ArgM-LOC表示地点，ArgM-TMP表示时间等等。目前绝大多数的SRL工具对Arg0和Arg1的标注结果较好，准确率都达到了90％以上。考虑到系统对SRL的依赖度，另外基准系统中我们使用的语义类别是否一致的特征在一定程度上与ArgM-LOC、ArgM-TMP等附加角色体现的语义类别信息类似，因此本方案仅考虑了Arg0和Arg1这两个语义角色。此外，驱动动词在语义角色信息描述中具有非常重要的作用，同一个名词短语可能是动词A驱动下的Arg0角色，同时又是动词B驱动下的Arg1角色。因此在描述语义角色相关特性时，我们还引入了两个与驱动动词相关的特征。表4给出了新方案中新增的与语义角色相关的特征。

表4 语义角色相关的特征集合

在指代消解中直接使用表1和表4给出的特征模板，最终指代消解的性能有一定程度的提升，但仔细分析中心理论发现，这种直接引入语义角色的方式并不能达到最佳效果。因此，本方案在中心理论的指导下，设计了一个基于语义角色的先行词候选凸显度计算算法，利用该算法计算得出候选词的凸显度，再将该凸显度作为特征模板的成员引入指代消解。

2.先行候选词凸显算法的设计及使用：

根据中心理论，语句中出现的所有话语实体都是语篇的中心，这些中心在前后语句中的突显程度以及它们的语言实现形式都会影响到语篇的连贯性，而指代的出现，一方面需要多样化、简洁明了的表达篇章中的话语实体，另一方还需要保障语篇的连贯性。语篇是以中心为基础连接前后语句的，每一语句都有两种中心：前向中心(forward-looking center，Cf)和回溯中心(back-lookingcenter，Cb)。Cf提供了与后继语句联系的纽带，包括一系列的对象，这些对象按照在注意状态中突显度的不同形成一定的等级排列。Cb只包含一个对象，它与先前语句建立联系。

中心理论有一条重要的规则：识别Cb的条件。它认为前一语句Cf中突显度最高的一个对象就是本句的Cb。并且当本句包含其他代词时，Cb必须以代词的形式来表示。如违反这一规则就会造成这句话阅读时间的增加。Grosz，Sinder等人(1993，1995)进一步研究发现，在语句中Cb不受出现的先后次序和实施/受施等元角色的影响，表层位置也不会影响Cb。但表层位置和句法位置会影响Cf中对象突显度的不同。从这一规则可以看到，一篇连贯性较好、便于读者阅读的文本中，必然有以下一些特征：

·前一句Cf中突显度最高的一个对象是本句的Cb，而Cf中对象的突显性与表面位置、语义角色等诸多要素相关。因此在指代消解中，对先行语信息的描述应尽可能的详细。另一方面，前一句的Cf凸显度，对本句中Cb的指代关系的判断非常重要。

●当本句包含其他代词时，语句中的Cb必须以代词的形式出现。因此在代词指代消解中可引入“语句中是否含有多个代词”这一特征。

●Cb不受位置、语义角色等特性的影响。通常我们认为语法上具有最多与照应语相似特征的先行语最可能与照应语具有同指关系，但当照应语是代词形式的Cb时，根据中心理论，Cb不受表面特征的影响，对称加入照应语和先行语的描述信息，可能会带来更多的噪音。

在上述中心理论思想的指导下，我们首先根据先行候选词承担的语义角色情况设计了先行候选词凸显度计算算法，具体算法如下所示，并将计算得到的凸显度表示成特征Rank。

经过凸显度计算后，再结合中心理论给出的其他几条规则，我们设计新增了如表5所示的特征，与表1给出的特征相结合，就形成了我们方案的特征模板。

表5 中心理论指导下的新增特征

本方案在新形成的特征模板下进行训练和测试，在ACE2003的语料上进行了与基准系统类似的实验，最终的结果如表6、7所示。

表6 使用新特征模板后的指代消解系统在ACE 2003语料上的评测结果

表7 使用新特征模板后的指代消解系统在ACE 2003 NWIRE语料集上的分类评测结果

从表6和表7所示的结果可以看出，SRL信息的引入能极大的提升指代消解的性能。在三个语料上的测试结果也表明，这种提升是稳定的。