CN104462053B

CN104462053B - 一种文本内的基于语义特征的人称代词指代消解方法

Info

Publication number: CN104462053B
Application number: CN201310431571.6A
Authority: CN
Inventors: 仲兆满; 姜剑; 陈宗华; 陈永江; 乔磊
Original assignee: JIANGSU JINGE NETWORK TECHNOLOGY Co Ltd
Current assignee: JIANGSU JINGE NETWORK TECHNOLOGY Co Ltd
Priority date: 2013-09-22
Filing date: 2013-09-22
Publication date: 2018-10-12
Anticipated expiration: 2033-09-22
Also published as: CN104462053A

Abstract

本发明公开了一种文本内的基于语义特征的人称代词指代消解方法，具体步骤如下：(1)人物识别。对文本进行预处理，所述预处理包括：段落、语句识别、命名实体识别、词性标注；对处理后的文本，确定人物及代词在文本内中的位置。(2)语义特征提取。对识别出的人物及代词根据其各自所在语句及段落信息，提取语义关联词，构建人名及代词语义特征。(3)候选人物选择。针对人物及代词的性别、单复数、距离进行过滤，为代词选择若干符合条件的候选人物。(3)指代关系计算。计算代词与候选人物的语义特征相关度，结合语义特征相关度及两者间的距离，确定代词的指代人物。本发明方法实现了文本内的人称代词指代消解。

Description

一种文本内的基于语义特征的人称代词指代消解方法

技术领域

本发明属于信息系统建模和知识工程领域，具体地说是文本内的基于语义特征的人称代词指代消解方法。

背景技术

随着社会信息化的迅猛发展，网络已经成为人们获取信息的重要来源。而网络信息具有海量，复杂，非结构化等特点，为网络信息的获取以及基于网络信息搜集的分析与研究工作都带来了很大困难。本体(Ontology)的概念起源于哲学领域，指的是对客观存在系统的解释和说明，近几十年来，在人工智能、计算机科学和知识工程等诸多领域得到了迅速发展。本体可以实现某种程度的知识共享和重用，使得计算机对信息和对语言的理解上升到语义层次，并在一定程度上解决语义异构问题，在信息互操作、知识理解和信息集成等领域具有很大的应用前景。

文本内的基于语义特征的人称代词指代消解方法，一方面应用于舆情管理领域，对搜索采集进行扩展；另一方面，可以根据本体对采集信息的进行分类。

现有构建本体方法主要分为两类：手工构建和半自动构建。手工构建是以本体描述捕获方法为代表，将本体构建的过程分为目标和团队建立、原始素材采集、素材分析、本体初步构建、本体精化和验证等5个步骤，每一步都由人手工完成。半自动构建又称本体学习，由计算机程序自动地从文本中抽取出表示概念、概念间关系等的术语，形成初步的本体，再经过人手工精化和验证。然而，目前计算机程序自动构建的初步本体在质量上通常很差，并不能有效降低对人工的依赖，因此手工构建仍是主流方法。

发明内容

鉴于以上所述现有技术存在的问题和不足，本发明要解决的技术问题是提供一种可以有效的指导搜索采集信息的文本内的基于语义特征的人称代词指代消解方法。

本发明所要解决的技术问题是通过下述技术方案来实现的，本发明是一种文本内的基于语义特征的人称代词指代消解方法，其特点是：首先识别文本中的人物；其次提取人物语义特征；再次选择代词的候选人物；最终计算代词与候选人物的指代关系确定代词的指代人物，其具体步骤如下：

A：人物识别：对文本进行预处理，所述预处理包括：分词、命名实体识别、词性标注；对处理后的文本，确定人物（包括人名及代词）在文本内中的位置；其操作步骤如下：

A1：对文本进行分词处理，其中包括词性标注；

A2：顺序提取词性标注为nr（代表人名）及r（代表代词）的人物词语，并确定人物词语在文本中的位置；

B：语义特征提取：对识别出的人物根据其各自所在语句及段落信息，提取语义关联词，构建人名及代词语义特征；其操作步骤如下：

B1：确定当前人物在文本中的有效关联范围；

B2：在人物有效关联范围内的字符串中，根据分词结果，去停用词，提取人物关联词，构建人物的语义特征；

C：候选人物选择：针对人名及代词的性别、单复数、距离进行过滤，为代词选择若干符合条件的候选人物；其操作步骤如下：

C1：判断代词的性别、单复数属性；

C2：选择代词的先遣人物，判断先遣人物的性别、单复数属性及先遣人物与代词的句子距离属性；

C3：根据候选人物选择规则，过滤不满足条件的先遣人物；

D：指代关系计算：计算代词与候选人物的语义特征相关度，结合语义特征相关度及两者间的距离，确定代词的指代人物；其操作步骤如下：

D1：计算代词与每一个候选人物的语义特性相关度；

D2：根据相关度阈值及两者间的距离属性，确定代词的指代人物；

一种文本内的基于语义特征的人称代词指代消解方法到此结束。

本发明的一种文本内的基于语义特征的人称代词指代消解方法，在处理过程中利用分词、词性标注等文本预处理方法，充分利用代词与候选人物在文本中的语义环境，以及它们的属性特征。根据规则及语义相关性计算方法，选择候选人物，计算代词与候选人物的语义特征相关度。将计算得到的语义特征相关度与代词、候选人物之间的句子距离，一同引入指代消解的判断过程。在收集整理的新闻类文本中，实验结果能够达到准确率不低于68.0%，F值不低于66.3%。结果表明，采用本发明的方法获得的指代消解性能是稳定的。

附图说明

图1是本发明的一种文本内的基于语义特征的人称代词指代消解方法的流程图。

图2是图1中步骤02所述的候选人物选择的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的描述。

实施例1，一种文本内的基于语义特征的人称代词指代消解方法，首先识别文本中的人物；其次提取人物语义特征；再次选择代词的候选人物；最终计算代词与候选人物的指代关系确定代词的指代人物，其具体步骤如下：

A1：对文本进行分词处理，其中包括词性标注；

B1：确定当前人物在文本中的有效关联范围；

C1：判断代词的性别、单复数属性；

C3：根据候选人物选择规则，过滤不满足条件的先遣人物；

D1：计算代词与每一个候选人物的语义特性相关度；

D2：根据相关度阈值及两者间的距离属性，确定代词的指代人物。

实施例2，参照图1，一种文本内的基于语义特征的人称代词指代消解方法进行的操作实验，步骤如下：

步骤01：人物识别。对文本进行预处理，所述预处理包括：分词、命名实体识别、词性标注；对处理后的文本，确定人物（包括人名及代词）在文本内中的位置。

步骤02：语义特征提取。对识别出的人物根据其各自所在语句及段落信息，提取语义关联词，构建人名及代词语义特征。

步骤03：候选人物选择。针对人名及代词的性别、单复数、距离进行过滤，为代词选择若干符合条件的候选人物。

步骤04：指代关系计算。计算代词与候选人物的语义特征相关度，结合语义特征相关度及两者间的距离，确定代词的指代人物。

步骤01、人物及代词识别，其具体如下：

使用中科院计算所汉语分词软件系统ICTCLAS，对文本进行分词，识别人名及代词相关人物命名实体。即顺序提取人名nr及人称代词r，记录其在文本中的位置。

在人称代词的提取中，去除中文人称代词有特殊用法。例如“管他冬夏与春秋”中“他”不需要消解。排除“他乡”、“他伤”、“管他”，“自我”等代词特殊用法。

步骤02、语义特征提取，其具体如下：

选择文本内人物所在位置前后限定关联范围内的特定词性词语。对于同一个句子出现的人名及代词，区分当前人物与先遣人物及后续人物之间的各自有效关联范围。在人物有效关联范围内提取关联词，判断方法如下：

1) 首先对于第一个出现人物，判断人物位置前部的重要词语为该人物的关联词。

2) 如果该人物不是最后一个出现，那提取当前人物与后续人物之间的文本字符串；判断字符串中当前人物与后续人物的关联范围，在各自的关联范围内提取关联词；

3) 如果是最后一个出现的人物，其所在句子中位置后部的字符串中重要词语，均为其关联词。

步骤03、候选人物选择，参照图2，其具体如下：

代词候选人物，可能包括人名（如张三）和已被消解的人称代词，并且在代词的前部。利用人物的性别、单复数、距离相关属性构建判断规则，对出现在代词前的人物进行过滤。

●性别一致性S1

通过“先生、妹妹”等明显的人物关联性别特征词来进行人名的性别识别。如果代词与该人物的性别是一致的为1，有一项性别无法判断的为0.5，两项的性别不一致为0。

●单复数一致性S2

单复数主要分为单数、复数和无单复数三类，对于那些无法判断单复数属性的待消解项就赋值为无单复数。比较代词与候选先行词的单复数，两者单复数一致的话，为1。若有一方无单复数属性则为0.5，不一致则为0。

●距离属性S3

该属性值可能的值是0，1，2…为代词与先遣人物间隔句子个数。考查代词与先遣人物的句子距离，取值为它们所属句子编号之差的绝对值。

判断规则如下：

a．若S3>2，该人物不为当前代词候选人物。

b．若S1或S2属性词均为0，该人物不为代词的候选人物，排除。

步骤04、指代关系计算，其具体如下：

（1）计算代词与候选人物的语义特征相关度

如果计算得到的相关度大于阈值，则表示代词与候选先行词的语义联系很紧密。而语义联系最高者即为该代词的最优指代结果。

本方法中利用知网作为语义特征相关度计算的工具，对于两个人物R1和R2，如果R1有n个关联词：W11，W12，……，W1n，R2有m个关联词：W21，W22，……，W2m，R1和R2的相似度是各个概念的相似度之最大值：

（1）

计算人物关联词的相似度，取关联词相似度最大值为人物的语义特征相关度。

（2）指代关系确定规则

对于有多个候选先行词的代词，其候选先行词选择及过滤规则如下：

a）如果候选集中候选人物或代词没有关联词，这两者的语义特征相关度默认为相关度阈值。

b）若候选集中只有一个候选人物，则该候选先行词即为消解结果，不再进行语义判断。

c）候选集中候选人物的关联词分别与代词关联词计算相关度，取相关度大于阈值的候选人物中与代词相关性最大的为代词的指代消解结果。

d）如果有两个候选人物与代词的相关度相同，则取距离代词最近的候选人物；如果候选人物与代词的相关度均小于阈值，取距离代词最近的候选人物为指代结果。

本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出的其它的实施方式，同样属于本发明的技术创新范围。

Claims

1.一种文本内的基于语义特征的人称代词指代消解方法，其特征在于：首先识别文本中的人物；其次提取人物语义特征；再次选择代词的候选人物；最终计算代词与候选人物的指代关系确定代词的指代人物，其具体步骤如下：

A：人物识别：对文本进行预处理，所述预处理包括：分词、命名实体识别、词性标注；对处理后的文本，确定人物的人名及代词在文本内中的位置；其操作步骤如下：

A1：对文本进行分词处理，其中包括词性标注；

A2：顺序提取词性标注为人名nr及代词r的人物词语，并确定人物词语在文本中的位置；

B1：确定当前人物在文本中的有效关联范围；

C1：判断代词的性别、单复数属性；

C3：根据候选人物选择规则，过滤不满足条件的先遣人物；

其具体如下：

代词候选人物，包括人名和已被消解的人称代词，并且在代词的前部；利用人物的性别、单复数、距离相关属性构建判断规则，对出现在代词前的人物进行过滤；

性别一致性S1：通过明显的人物关联性别特征词来进行人名的性别识别；如果代词与该人物的性别是一致的为1，有一项性别无法判断的为0.5，两项的性别不一致为0；

单复数一致性S2：单复数主要分为单数、复数和无单复数三类，对于那些无法判断单复数属性的待消解项就赋值为无单复数；比较代词与候选先行词的单复数，两者单复数一致的话，为1；若有一方无单复数属性则为0.5，不一致则为0；

距离属性S3：该属性值可能的值是0，1，2…为代词与先遣人物间隔句子个数；考查代词与先遣人物的句子距离，取值为它们所属句子编号之差的绝对值；

判断规则如下：

a．若S3>2，该人物不为当前代词候选人物；

b．若S1或S2属性词均为0，该人物不为代词的候选人物，排除；

D1：计算代词与每一个候选人物的语义特征相关度；

指代关系计算具体如下：

（1）计算代词与候选人物的语义特征相关度

如果计算得到的相关度大于阈值，则表示代词与候选先行词的语义联系很紧密；而语义联系最高者即为该代词的最优指代结果；

利用知网作为语义特征相关度计算的工具，对于两个人物R₁和R₂，如果R₁有n个关联词：W₁₁，W₁₂，……，W_1n，R₂有m个关联词：W₂₁，W₂₂，……，W_2m，R₁和R₂的相似度是各个概念的相似度之最大值：

（1）

计算人物关联词的相似度，取关联词相似度最大值为人物的语义特征相关度；

（2）指代关系确定规则

a）如果候选集中候选人物或代词没有关联词，这两者的语义特征相关度默认为相关度阈值；

b）若候选集中只有一个候选人物，则该候选先行词即为消解结果，不再进行语义判断；

c）候选集中候选人物的关联词分别与代词关联词计算相关度，取相关度大于阈值的候选人物中与代词相关性最大的为代词的指代消解结果；