CN106445911B

CN106445911B - 一种基于微观话题结构的指代消解方法及系统

Info

Publication number: CN106445911B
Application number: CN201610156465.5A
Authority: CN
Inventors: 奚雪峰; 周国栋; 孔芳; 吴宏杰
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-03-18
Filing date: 2016-03-18
Publication date: 2022-02-22
Anticipated expiration: 2036-03-18
Also published as: CN106445911A

Abstract

本发明涉及一种基于微观话题结构的指代消解方法及系统，首先获取文本并对文本进行篇章基本话题单元切割构成篇章微观话题结构；然后从篇章微观话题结构中识别主述位；再以主述位为连接端口识别篇章基本话题单元之间的衔接关系；最后根据识别的衔接关系，将照应语中候选先行语的范围落在与其所在主述位结构相衔接的前一个篇章基本话题的主位或述位中，减少消解对的数量，再提取限定范围内的名词所拥有的词性、句法及语义特征，最后利用最大熵分类算法完成消解单元的识别。该方法是基于主位和述位，以话题为中心，立足于小句层面的指代消解方法，利用主述位结构及主位推进模式，缩小了指代消解对的数量，降低计算的复杂度，从而提高指代消解性。

Description

一种基于微观话题结构的指代消解方法及系统

技术领域

本发明涉及一种指代消解方法及系统，尤其涉及一种基于微观话题结构的指代消解方法及系统。

背景技术

最大熵分类是给定一个概率分布，则熵的定义为：Hp＝-p(x)logp(x)，信息熵用来表示不确定度的度量，不确定度越大，熵值越大。极限情况，当一个随机变量均匀分布时，熵值最大；完全确定时，熵值为0。

决策树(Decision Tree)是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy＝系统的凌乱程度，使用算法ID3,C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

决策树中包括决策点、状态节点和结果节点：

决策点，是对几种可能方案的选择，即最后选择的最佳方案。如果决策属于多级决策，则决策树的中间可以有多个决策点，以决策树根部的决策点为最终决策方案。

状态节点，代表备选方案的经济效果(期望值)，通过各状态节点的经济效果的对比，按照一定的决策标准就可以选出最佳方案。由状态节点引出的分支称为概率枝，概率枝的数目表示可能出现的自然状态数目每个分枝上要注明该状态出现的概率。

结果节点，将每个方案在各种自然状态下取得的损益值标注于结果节点的右端。

马尔科夫模型是利用概率建立一种随机型的时序模型，并用于进行市场趋势分析的方法，其基本模型为：X(k+1)＝X(k)×P，公式中：X(k)表示趋势分析与预测对象在t＝k时刻的状态向量，P表示一步转移概率矩阵，X(k+1)表示趋势分析与预测对象在t＝k+1时刻的状态向量。

采用消解对模式(Mention-pair)，引入照应语和候选先行语的特征集，构建二元分类器实现指代消解，最早由[Aone and Bennett,1995]and[McCarthy and Lehnert,1995]提出，是目前指代消解的主流方式之一。但这种方式存在两种固有缺陷，一是因为在构建指代消解对的过程中，理论上每个照应语与其前面的候选先行语都可能构成消解对，因此消解对的数量较大；二是训练实例中的样本正例很少，而由消解对的构建规则来看看，总体消解对数量又较多，因而训练样本集较为稀疏，数量上反例远远超过正例。

目前大多数基于消解对模式的指代消解研究[Soon et al.,2001；Ng andCardie,2002；Lassalle and Denis,2013]都侧重于分类学习算法及特征抽取方面，较少对上述消解对样本实例以及如何降低待消解对的数量从而降低消解对问题空间的大小问题开展研究。

发明内容

本发明所要解决的技术问题是，克服现有技术的缺点，提供一种基于微观话题结构的指代消解方法及系统，利用主述位结构及主位推进模式，缩小指代消解对的数量，降低消解对问题空间的大小，提高指代消解性能。

为了解决以上技术问题，本发明提供一种基于微观话题结构的指代消解方法及系统，方法包括：

获取文本并对文本进行篇章基本话题单元切割构成篇章微观话题结构；

从篇章微观话题结构中识别主述位；

以主述位为连接端口识别篇章基本话题单元之间的衔接关系；

根据识别的衔接关系，将照应语中候选先行语的范围落在与其所在主述位结构相衔接的前一个篇章基本话题的主位或述位中，减少消解对的数量，再提取限定范围内的名词所拥有的词性、句法及语义特征，最后利用最大熵分类算法完成消解单元的识别。

本发明进一步限定的技术方案是：篇章基本话题单元切割采用逗号切割法，逗号切割法将文本中所有逗号的功能划分为：

根据逗号是否可以标记篇章基本话题单元分为可以标记话题单元的逗号(RELATION)和不能标记话题单元的逗号(OTHER)；

根据逗号分隔的语篇单元之间的关系进一步将逗号分为分隔并列关系语篇单元的逗号(COORD)和分隔从属关系语篇单元的逗号(SUBORD)；

根据逗号所在句法树中的层次结构以及此单元担当的句法角色，

并列关系语篇单元的逗号(COORD)细分为：用于分隔句子边界的逗号(SB)；用于分隔两个并列IP结构的逗号(COIP)；用于分隔两个并列VP结构的逗号(COVP)和用于分隔宾语中两个并列IP结构的逗号(OBJ)；

分隔从属关系语篇单元的逗号(SUBORD)细分为：用于分隔动词与长宾语的逗号(COMP)和用于分隔附属从句和主句的逗号(ADJ)；

最后通过提取逗号所处上下文的特征进行基于机器学习方法的逗号消岐，并最终根据逗号消岐的结果进行篇章基本话题单元的分割并构成篇章微观话题结构。

进一步的，篇章微观话题结构为三元组，

MTS＝(S_n,S_n+1,δ_n)

其中，S_n∈{T∪R}，S_n+1∈{T∪R},T为一个篇章中的篇章基本话题的主位集合；R为同一个篇章中的篇章基本话题的述位集合，MTS为篇章微观话题结构集合；δ_n∈Γ，Γ为同一个篇章中的微观话题联接的集合。

更进一步的，机器学习方法为决策树。

进一步的，从篇章微观话题结构中识别主述位的方法是将篇章基本话题单元中的第一个谓词作为主述位划分的标记，通过谓词所处上下文的特征，利用最大熵分类算法实现主述位识别。

进一步的，识别篇章基本话题单元之间的衔接关系采用基于马尔科夫模型的微观话题联接识别方法，依据衔接关系采用的主位推进模式，将衔接关系分成主位同一型、述位同一型、线性主位发展型和交叉型四类，并确定5个标注集合：t表示主位同一型、r表示述位同一型、l表示线性主位发展型、x表示交叉型和o表示不属于联接关系；确定标注集合后，根据衔接特性通过马尔科夫模型进行微观话题联接的识别，当主述位之间形成微观话题联接时，上下句之间的关联关系成立。

进一步的，微观话题联接为上下文篇章基本话题内主述位之间语义关联的表示，体现篇章之间的衔接特性，包括照应、省略、替代、重复、同义/反义、上下义、局部/整体和搭配。

进一步的，主位同一型为各个子句的主位相关联，而述位各不相同；

述位同一型为后一子句的述位和前一子句的述位相关联；

线性主位发展型为前一句的述位或述位的一部分与后一句的主位形成联系关系；

交叉型为后一句的述位与前一句的主位形成关联。

一种基于微观话题结构的指代消解系统，包括：

篇章基本话题识别模块，用于获取文本并对文本进行篇章基本话题单元切割构成篇章微观话题结构；

主述位识别模块，用于从篇章微观话题结构中识别主述位；

衔接关系识别模块，用于以主述位为连接端口识别篇章基本话题单元之间的衔接关系；

消解单元识别模块，用于根据识别的衔接关系，将照应语中候选先行语的范围落在与其所在主述位结构相衔接的前一个篇章基本话题的主位或述位中，减少消解对的数量，再提取限定范围内的名词所拥有的词性、句法及语义特征，最后利用最大熵分类算法完成消解单元的识别。

本发明的有益效果是：该方法从样本实例开展研究，是基于主位和述位，以话题为中心，立足于小句层面的指代消解方法，利用主述位结构及主位推进模式，缩小了指代消解对的数量，降低计算的复杂度以及消解对问题空间的大小，从而提高指代消解性能。指代关系实质上搭建起篇章的话题结构,从内容层面实现篇章内句与句之间的衔接(cohesion)。指代消解准确性等性能的提高，能保证对篇章语义的整体理解,这对于信息抽取(information extraction)、自动文摘(automatic summarization)、自动问答(questionanswering)以及机器翻译(machine translation)等自然语言应用系统都有极为重要的基础支撑作用。

附图说明

图1为本发明的流程示意图。

图2为本发明的逗号分类图。

图3为本发明的逗号分类流程图。

图4为本发明的四类衔接关系的常用主位推进模式图。

图5为本发明实施例1的可视化微观阀话题构图。

具体实施方式

实施例1

本实施例提供的一种基于微观话题结构的指代消解方法及系统，如图1所示，方法包括：

从篇章微观话题结构中识别主述位；

篇章基本话题单元切割在英语中，相关的研究工作较多，也取得了很好的性能。代表性的工作包括：Soricut&Marcu(2003)采用概率模型p(b|w,t)(w为文本中的每个单词，t为句法树，b为二元变量{边界，非边界})，结合最大似然估计，并采用相应的数据平滑算法进行文本切分，在自动句法分析树的结果上获得了F值为83.1％的EDU识别效果，而在标准句法树上F值可达84.7％。但是，Soricut&Marcu的方法并不包括线索词，因此无法准确地辨识复杂句子的边界。LeThanh et al.(2004a)提出了一种基于句法和线索词的EDU分割方法，识别结果的F值为86.9％。不过，由于测试集较小(只有8篇文章)，因此，该结果没有可比性，也不具备代表性。Tofiloski et al.(2009)利用句法和词汇等特征对篇章进行分割，获得了较高的准确率，且其分割模型与训练语料没有依赖性，其中一个原因是作者使用了边界信息。

篇章基本话题单元切割在汉语中本方法采用逗号切割法，如图2和图3所示，逗号切割法将文本中所有逗号的功能划分为：

最后通过提取逗号所处上下文的特征进行基于决策树的逗号消岐，并最终根据逗号消岐的结果进行篇章基本话题单元的分割并构成篇章微观话题结构。

逗号消歧的特征如表1所示：

篇章微观话题结构为三元组，

MTS＝(S_n,S_n+1,δ_n)

从篇章微观话题结构中识别主述位的方法是将篇章基本话题单元中的第一个谓词作为主述位划分的标记，通过谓词所处上下文的特征，利用最大熵分类算法实现主述位识别。

识别篇章基本话题单元之间的衔接关系采用基于马尔科夫模型的微观话题联接识别方法，依据衔接关系采用的主位推进模式，将衔接关系分成主位同一型、述位同一型、线性主位发展型和交叉型四类，四类链接关系的常用主位推进模式如图4所示，并确定5个标注集合：t表示主位同一型、r表示述位同一型、l表示线性主位发展型、x表示交叉型和o表示不属于联接关系；确定标注集合后，根据衔接特性通过马尔科夫模型进行微观话题联接的识别，当主述位之间形成微观话题联接时，上下句之间的关联关系成立。

主位同一型为各个子句的主位相关联，而述位各不相同；

述位同一型为后一子句的述位和前一子句的述位相关联；

交叉型为后一句的述位与前一句的主位形成关联。

微观话题联接为上下文篇章基本话题内主述位之间语义关联的表示，体现篇章之间的衔接特性，包括照应、省略、替代、重复、同义/反义、上下义、局部/整体和搭配。

其中，照应--指的是一个主述位作为另一个基本话题中主述位的参照点

省略--指的是把一个基本话题中的主述位省去不提，是一种避免重复，突出新信息，并使语篇上下紧凑的一种语法手段。

替代--指的是用替代词去取代基本话题中的主述位，替代词的语义来自于所替代的成分。

重复--指的是基本话题中的主述位多次出现。

同义/反义--指的是关联上下两个基本话题结构中的主述位是一对同义词/反义词。

上下义--指的是表示抽象和具体关系的两个基本话题中的主述位。

局部/整体--指的是一个基本话题中的主述位是另一基本话题主述位的局部表示。

搭配--指的是词汇同现，即一组语义上有联系的词汇关联上下基本话题结构中的主述位。

一种基于微观话题结构的指代消解系统，包括：

主述位识别模块，用于从篇章微观话题结构中识别主述位；

本实施例以“a张三(T₁)才30出头，||b【】(T₂)<而且>既没有什么学历，|||c【】(T₃)又没有多少新的工作经验，|d但是【】(T₄)不论干什么，|||e他(T₅)都非常认真，||f所以，领导(T₆)总是把一些重要的任务交给他。”为例，其微观话题结构如图5所示，篇章基本话题包括6个，分别以a～f标注，这里所提到的篇章基本话题结构，从形式上与修辞结构理论(RST)中篇章子句的定义是一致的。篇章微观话题结构共有5个，分别以微观话题联接相关联，可以表示为(T₁,T₂,δ₁)，(T₂,T₃,δ₂)，(T₃,T₄,δ₃)，(T₄,T₅,δ₄)，(T₅,R₆,δ₅)。在该语句中存在5个篇章微观话题联接，其中4个联接采用了第(I)类主位同一型；1个联接采用了第(IV)类交叉型。

指代消解中的mention定义为名词、名词短语、人称代词，这是一种词汇级的定义范畴。而此方法基于主位和述位定义的微观话题结构，以话题为中心，是一种高于词汇级的小句层面，更多体现包含语义的话题结构。从语法角度看，因为小句是包含词汇的，因此小句层面的微观话题结构就包含了传统指代消解中的mention概念。

利用主述位结构及主位推进模式，缩小了指代消解对的数量，可以降低计算复杂度，从而提高指代消解性能。实验表明，此模型F值达到89.84，相比于传统指代消解方法提高了5个百分点。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

Claims

1.一种基于微观话题结构的指代消解方法，其特征在于，方法包括：

从篇章微观话题结构中识别主述位；

根据识别的衔接关系，将照应语中候选先行语的范围落在与其所在主述位结构相衔接的前一个篇章基本话题的主位或述位中，减少消解对的数量，再提取限定范围内的名词所拥有的词性、句法及语义特征，最后利用最大熵分类算法完成消解单元的识别；

篇章基本话题单元切割包括逗号切割法，逗号切割法将文本中所有逗号的功能划分为：

最后通过提取逗号所处上下文的特征进行基于机器学习方法的逗号消歧，并最终根据逗号消歧的结果进行篇章基本话题单元的分割并构成篇章微观话题结构；

从篇章微观话题结构中识别主述位的方法是将篇章基本话题单元中的第一个谓词作为主述位划分的标记，通过谓词所处上下文的特征，利用最大熵分类算法实现主述位识别；

识别篇章基本话题单元之间的衔接关系采用基于马尔科夫模型的微观话题联接识别方法，依据衔接关系采用的主位推进模式，将衔接关系分成主位同一型、述位同一型、线性主位发展型和交叉型四类，并确定5个标注集合：t表示主位同一型、r表示述位同一型、l表示线性主位发展型、x表示交叉型和o表示不属于联接关系；确定标注集合后，根据衔接特性通过马尔科夫模型进行微观话题联接的识别，当主述位之间形成微观话题联接时，上下句之间的关联关系成立。

2.根据权利要求1所述的一种基于微观话题结构的指代消解方法，其特征在于，篇章微观话题结构为三元组，

MTS＝(S_n,S_n+1,δ_n)

3.根据权利要求1所述的一种基于微观话题结构的指代消解方法，其特征在于，机器学习方法为决策树。

4.根据权利要求1所述的一种基于微观话题结构的指代消解方法，其特征在于，微观话题联接为上下文篇章基本话题内主述位之间语义关联的表示，体现篇章之间的衔接特性，包括照应、省略、替代、重复、同义/反义、上下义、局部/整体和搭配。

5.根据权利要求4所述的一种基于微观话题结构的指代消解方法，其特征在于，

主位同一型为各个子句的主位相关联，而述位各不相同；

述位同一型为后一子句的述位和前一子句的述位相关联；

交叉型为后一句的述位与前一句的主位形成关联。

6.一种基于微观话题结构的指代消解系统，其特征在于，包括：

主述位识别模块，用于从篇章微观话题结构中识别主述位；

消解单元识别模块，用于根据识别的衔接关系，将照应语中候选先行语的范围落在与其所在主述位结构相衔接的前一个篇章基本话题的主位或述位中，减少消解对的数量，再提取限定范围内的名词所拥有的词性、句法及语义特征，最后利用最大熵分类算法完成消解单元的识别；