CN104462053B - 一种文本内的基于语义特征的人称代词指代消解方法 - Google Patents
一种文本内的基于语义特征的人称代词指代消解方法 Download PDFInfo
- Publication number
- CN104462053B CN104462053B CN201310431571.6A CN201310431571A CN104462053B CN 104462053 B CN104462053 B CN 104462053B CN 201310431571 A CN201310431571 A CN 201310431571A CN 104462053 B CN104462053 B CN 104462053B
- Authority
- CN
- China
- Prior art keywords
- pronoun
- personage
- candidate
- text
- semantic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种文本内的基于语义特征的人称代词指代消解方法,具体步骤如下:(1)人物识别。对文本进行预处理,所述预处理包括:段落、语句识别、命名实体识别、词性标注;对处理后的文本,确定人物及代词在文本内中的位置。(2)语义特征提取。对识别出的人物及代词根据其各自所在语句及段落信息,提取语义关联词,构建人名及代词语义特征。(3)候选人物选择。针对人物及代词的性别、单复数、距离进行过滤,为代词选择若干符合条件的候选人物。(3)指代关系计算。计算代词与候选人物的语义特征相关度,结合语义特征相关度及两者间的距离,确定代词的指代人物。本发明方法实现了文本内的人称代词指代消解。
Description
技术领域
本发明属于信息系统建模和知识工程领域,具体地说是文本内的基于语义特征的人称代词指代消解方法。
背景技术
随着社会信息化的迅猛发展,网络已经成为人们获取信息的重要来源。而网络信息具有海量,复杂,非结构化等特点,为网络信息的获取以及基于网络信息搜集的分析与研究工作都带来了很大困难。本体(Ontology)的概念起源于哲学领域,指的是对客观存在系统的解释和说明,近几十年来,在人工智能、计算机科学和知识工程等诸多领域得到了迅速发展。本体可以实现某种程度的知识共享和重用,使得计算机对信息和对语言的理解上升到语义层次,并在一定程度上解决语义异构问题,在信息互操作、知识理解和信息集成等领域具有很大的应用前景。
文本内的基于语义特征的人称代词指代消解方法,一方面应用于舆情管理领域,对搜索采集进行扩展;另一方面,可以根据本体对采集信息的进行分类。
现有构建本体方法主要分为两类:手工构建和半自动构建。手工构建是以本体描述捕获方法为代表,将本体构建的过程分为目标和团队建立、原始素材采集、素材分析、本体初步构建、本体精化和验证等5个步骤,每一步都由人手工完成。半自动构建又称本体学习,由计算机程序自动地从文本中抽取出表示概念、概念间关系等的术语,形成初步的本体,再经过人手工精化和验证。然而,目前计算机程序自动构建的初步本体在质量上通常很差,并不能有效降低对人工的依赖,因此手工构建仍是主流方法。
发明内容
鉴于以上所述现有技术存在的问题和不足,本发明要解决的技术问题是提供一种可以有效的指导搜索采集信息的文本内的基于语义特征的人称代词指代消解方法。
本发明所要解决的技术问题是通过下述技术方案来实现的,本发明是一种文本内的基于语义特征的人称代词指代消解方法,其特点是:首先识别文本中的人物;其次提取人物语义特征;再次选择代词的候选人物;最终计算代词与候选人物的指代关系确定代词的指代人物,其具体步骤如下:
A:人物识别:对文本进行预处理,所述预处理包括:分词、命名实体识别、词性标注;对处理后的文本,确定人物(包括人名及代词)在文本内中的位置;其操作步骤如下:
A1:对文本进行分词处理,其中包括词性标注;
A2:顺序提取词性标注为nr(代表人名)及r(代表代词)的人物词语,并确定人物词语在文本中的位置;
B:语义特征提取:对识别出的人物根据其各自所在语句及段落信息,提取语义关联词,构建人名及代词语义特征;其操作步骤如下:
B1:确定当前人物在文本中的有效关联范围;
B2:在人物有效关联范围内的字符串中,根据分词结果,去停用词,提取人物关联词,构建人物的语义特征;
C:候选人物选择:针对人名及代词的性别、单复数、距离进行过滤,为代词选择若干符合条件的候选人物;其操作步骤如下:
C1:判断代词的性别、单复数属性;
C2:选择代词的先遣人物,判断先遣人物的性别、单复数属性及先遣人物与代词的句子距离属性;
C3:根据候选人物选择规则,过滤不满足条件的先遣人物;
D:指代关系计算:计算代词与候选人物的语义特征相关度,结合语义特征相关度及两者间的距离,确定代词的指代人物;其操作步骤如下:
D1:计算代词与每一个候选人物的语义特性相关度;
D2:根据相关度阈值及两者间的距离属性,确定代词的指代人物;
一种文本内的基于语义特征的人称代词指代消解方法到此结束。
本发明的一种文本内的基于语义特征的人称代词指代消解方法,在处理过程中利用分词、词性标注等文本预处理方法,充分利用代词与候选人物在文本中的语义环境,以及它们的属性特征。根据规则及语义相关性计算方法,选择候选人物,计算代词与候选人物的语义特征相关度。将计算得到的语义特征相关度与代词、候选人物之间的句子距离,一同引入指代消解的判断过程。在收集整理的新闻类文本中,实验结果能够达到准确率不低于68.0%,F值不低于66.3%。结果表明,采用本发明的方法获得的指代消解性能是稳定的。
附图说明
图1是本发明的一种文本内的基于语义特征的人称代词指代消解方法的流程图。
图2是图1中步骤02所述的候选人物选择的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的描述。
实施例1,一种文本内的基于语义特征的人称代词指代消解方法,首先识别文本中的人物;其次提取人物语义特征;再次选择代词的候选人物;最终计算代词与候选人物的指代关系确定代词的指代人物,其具体步骤如下:
A:人物识别:对文本进行预处理,所述预处理包括:分词、命名实体识别、词性标注;对处理后的文本,确定人物(包括人名及代词)在文本内中的位置;其操作步骤如下:
A1:对文本进行分词处理,其中包括词性标注;
A2:顺序提取词性标注为nr(代表人名)及r(代表代词)的人物词语,并确定人物词语在文本中的位置;
B:语义特征提取:对识别出的人物根据其各自所在语句及段落信息,提取语义关联词,构建人名及代词语义特征;其操作步骤如下:
B1:确定当前人物在文本中的有效关联范围;
B2:在人物有效关联范围内的字符串中,根据分词结果,去停用词,提取人物关联词,构建人物的语义特征;
C:候选人物选择:针对人名及代词的性别、单复数、距离进行过滤,为代词选择若干符合条件的候选人物;其操作步骤如下:
C1:判断代词的性别、单复数属性;
C2:选择代词的先遣人物,判断先遣人物的性别、单复数属性及先遣人物与代词的句子距离属性;
C3:根据候选人物选择规则,过滤不满足条件的先遣人物;
D:指代关系计算:计算代词与候选人物的语义特征相关度,结合语义特征相关度及两者间的距离,确定代词的指代人物;其操作步骤如下:
D1:计算代词与每一个候选人物的语义特性相关度;
D2:根据相关度阈值及两者间的距离属性,确定代词的指代人物。
实施例2,参照图1,一种文本内的基于语义特征的人称代词指代消解方法进行的操作实验,步骤如下:
步骤01:人物识别。对文本进行预处理,所述预处理包括:分词、命名实体识别、词性标注;对处理后的文本,确定人物(包括人名及代词)在文本内中的位置。
步骤02:语义特征提取。对识别出的人物根据其各自所在语句及段落信息,提取语义关联词,构建人名及代词语义特征。
步骤03:候选人物选择。针对人名及代词的性别、单复数、距离进行过滤,为代词选择若干符合条件的候选人物。
步骤04:指代关系计算。计算代词与候选人物的语义特征相关度,结合语义特征相关度及两者间的距离,确定代词的指代人物。
步骤01、人物及代词识别,其具体如下:
使用中科院计算所汉语分词软件系统ICTCLAS,对文本进行分词,识别人名及代词相关人物命名实体。即顺序提取人名nr及人称代词r,记录其在文本中的位置。
在人称代词的提取中,去除中文人称代词有特殊用法。例如“管他冬夏与春秋”中“他”不需要消解。排除“他乡”、“他伤”、“管他”,“自我”等代词特殊用法。
步骤02、语义特征提取,其具体如下:
选择文本内人物所在位置前后限定关联范围内的特定词性词语。对于同一个句子出现的人名及代词,区分当前人物与先遣人物及后续人物之间的各自有效关联范围。在人物有效关联范围内提取关联词,判断方法如下:
1) 首先对于第一个出现人物,判断人物位置前部的重要词语为该人物的关联词。
2) 如果该人物不是最后一个出现,那提取当前人物与后续人物之间的文本字符串;判断字符串中当前人物与后续人物的关联范围,在各自的关联范围内提取关联词;
3) 如果是最后一个出现的人物,其所在句子中位置后部的字符串中重要词语,均为其关联词。
步骤03、候选人物选择,参照图2,其具体如下:
代词候选人物,可能包括人名(如张三)和已被消解的人称代词,并且在代词的前部。利用人物的性别、单复数、距离相关属性构建判断规则,对出现在代词前的人物进行过滤。
●性别一致性S1
通过“先生、妹妹”等明显的人物关联性别特征词来进行人名的性别识别。如果代词与该人物的性别是一致的为1,有一项性别无法判断的为0.5,两项的性别不一致为0。
●单复数一致性S2
单复数主要分为单数、复数和无单复数三类,对于那些无法判断单复数属性的待消解项就赋值为无单复数。比较代词与候选先行词的单复数,两者单复数一致的话,为1。若有一方无单复数属性则为0.5,不一致则为0。
●距离属性S3
该属性值可能的值是0,1,2…为代词与先遣人物间隔句子个数。考查代词与先遣人物的句子距离,取值为它们所属句子编号之差的绝对值。
判断规则如下:
a.若S3>2,该人物不为当前代词候选人物。
b.若S1或S2属性词均为0,该人物不为代词的候选人物,排除。
步骤04、指代关系计算,其具体如下:
(1)计算代词与候选人物的语义特征相关度
如果计算得到的相关度大于阈值,则表示代词与候选先行词的语义联系很紧密。而语义联系最高者即为该代词的最优指代结果。
本方法中利用知网作为语义特征相关度计算的工具,对于两个人物R1和R2,如果R1有n个关联词:W11,W12,……,W1n,R2有m个关联词:W21,W22,……,W2m,R1和R2的相似度是各个概念的相似度之最大值:
(1)
计算人物关联词的相似度,取关联词相似度最大值为人物的语义特征相关度。
(2)指代关系确定规则
对于有多个候选先行词的代词,其候选先行词选择及过滤规则如下:
a)如果候选集中候选人物或代词没有关联词,这两者的语义特征相关度默认为相关度阈值。
b)若候选集中只有一个候选人物,则该候选先行词即为消解结果,不再进行语义判断。
c)候选集中候选人物的关联词分别与代词关联词计算相关度,取相关度大于阈值的候选人物中与代词相关性最大的为代词的指代消解结果。
d)如果有两个候选人物与代词的相关度相同,则取距离代词最近的候选人物;如果候选人物与代词的相关度均小于阈值,取距离代词最近的候选人物为指代结果。
本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出的其它的实施方式,同样属于本发明的技术创新范围。
Claims (1)
1.一种文本内的基于语义特征的人称代词指代消解方法,其特征在于:首先识别文本中的人物;其次提取人物语义特征;再次选择代词的候选人物;最终计算代词与候选人物的指代关系确定代词的指代人物,其具体步骤如下:
A:人物识别:对文本进行预处理,所述预处理包括:分词、命名实体识别、词性标注;对处理后的文本,确定人物的人名及代词在文本内中的位置;其操作步骤如下:
A1:对文本进行分词处理,其中包括词性标注;
A2:顺序提取词性标注为人名nr及代词r的人物词语,并确定人物词语在文本中的位置;
B:语义特征提取:对识别出的人物根据其各自所在语句及段落信息,提取语义关联词,构建人名及代词语义特征;其操作步骤如下:
B1:确定当前人物在文本中的有效关联范围;
B2:在人物有效关联范围内的字符串中,根据分词结果,去停用词,提取人物关联词,构建人物的语义特征;
C:候选人物选择:针对人名及代词的性别、单复数、距离进行过滤,为代词选择若干符合条件的候选人物;其操作步骤如下:
C1:判断代词的性别、单复数属性;
C2:选择代词的先遣人物,判断先遣人物的性别、单复数属性及先遣人物与代词的句子距离属性;
C3:根据候选人物选择规则,过滤不满足条件的先遣人物;
其具体如下:
代词候选人物,包括人名和已被消解的人称代词,并且在代词的前部;利用人物的性别、单复数、距离相关属性构建判断规则,对出现在代词前的人物进行过滤;
性别一致性S1:通过明显的人物关联性别特征词来进行人名的性别识别;如果代词与该人物的性别是一致的为1,有一项性别无法判断的为0.5,两项的性别不一致为0;
单复数一致性S2:单复数主要分为单数、复数和无单复数三类,对于那些无法判断单复数属性的待消解项就赋值为无单复数;比较代词与候选先行词的单复数,两者单复数一致的话,为1;若有一方无单复数属性则为0.5,不一致则为0;
距离属性S3:该属性值可能的值是0,1,2…为代词与先遣人物间隔句子个数;考查代词与先遣人物的句子距离,取值为它们所属句子编号之差的绝对值;
判断规则如下:
a.若S3>2,该人物不为当前代词候选人物;
b.若S1或S2属性词均为0,该人物不为代词的候选人物,排除;
D:指代关系计算:计算代词与候选人物的语义特征相关度,结合语义特征相关度及两者间的距离,确定代词的指代人物;其操作步骤如下:
D1:计算代词与每一个候选人物的语义特征相关度;
D2:根据相关度阈值及两者间的距离属性,确定代词的指代人物;
指代关系计算具体如下:
(1)计算代词与候选人物的语义特征相关度
如果计算得到的相关度大于阈值,则表示代词与候选先行词的语义联系很紧密;而语义联系最高者即为该代词的最优指代结果;
利用知网作为语义特征相关度计算的工具,对于两个人物R1和R2,如果R1有n个关联词:W11,W12,……,W1n,R2有m个关联词:W21,W22,……,W2m,R1和R2的相似度是各个概念的相似度之最大值:
(1)
计算人物关联词的相似度,取关联词相似度最大值为人物的语义特征相关度;
(2)指代关系确定规则
对于有多个候选先行词的代词,其候选先行词选择及过滤规则如下:
a)如果候选集中候选人物或代词没有关联词,这两者的语义特征相关度默认为相关度阈值;
b)若候选集中只有一个候选人物,则该候选先行词即为消解结果,不再进行语义判断;
c)候选集中候选人物的关联词分别与代词关联词计算相关度,取相关度大于阈值的候选人物中与代词相关性最大的为代词的指代消解结果;
d)如果有两个候选人物与代词的相关度相同,则取距离代词最近的候选人物;如果候选人物与代词的相关度均小于阈值,取距离代词最近的候选人物为指代结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310431571.6A CN104462053B (zh) | 2013-09-22 | 2013-09-22 | 一种文本内的基于语义特征的人称代词指代消解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310431571.6A CN104462053B (zh) | 2013-09-22 | 2013-09-22 | 一种文本内的基于语义特征的人称代词指代消解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104462053A CN104462053A (zh) | 2015-03-25 |
CN104462053B true CN104462053B (zh) | 2018-10-12 |
Family
ID=52908125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310431571.6A Active CN104462053B (zh) | 2013-09-22 | 2013-09-22 | 一种文本内的基于语义特征的人称代词指代消解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462053B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106445911B (zh) * | 2016-03-18 | 2022-02-22 | 苏州大学 | 一种基于微观话题结构的指代消解方法及系统 |
CN107402913B (zh) | 2016-05-20 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 先行词的确定方法和装置 |
CN106528534A (zh) * | 2016-11-09 | 2017-03-22 | 天津赛因哲信息技术有限公司 | 基于专有名词的关联词提取方法 |
CN106776570A (zh) * | 2016-12-27 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 一种人称标注方法 |
CN107168947A (zh) * | 2017-04-19 | 2017-09-15 | 成都准星云学科技有限公司 | 一种新型实体指代消解的方法及其系统 |
CN107357925A (zh) * | 2017-07-26 | 2017-11-17 | 深圳中泓在线股份有限公司 | 微博微信中人名分类方法 |
CN107590123B (zh) * | 2017-08-07 | 2022-07-05 | 大众问问(北京)信息科技有限公司 | 车载中地点上下文指代消解方法及装置 |
CN108446268A (zh) * | 2018-02-11 | 2018-08-24 | 青海师范大学 | 藏文人称代词指代消解系统 |
CN108920500B (zh) * | 2018-05-24 | 2022-02-11 | 众安信息技术服务有限公司 | 一种时间解析方法 |
CN109492223B (zh) * | 2018-11-06 | 2020-08-04 | 北京邮电大学 | 一种基于神经网络推理的中文缺失代词补全方法 |
CN109726389B (zh) * | 2018-11-13 | 2020-10-13 | 北京邮电大学 | 一种基于常识和推理的中文缺失代词补全方法 |
CN109543021B (zh) * | 2018-11-29 | 2022-03-18 | 北京光年无限科技有限公司 | 一种面向智能机器人的故事数据处理方法及系统 |
CN110111787B (zh) * | 2019-04-30 | 2021-07-09 | 华为技术有限公司 | 一种语义解析方法及服务器 |
CN110674630B (zh) * | 2019-09-24 | 2023-03-21 | 北京明略软件系统有限公司 | 指代消解方法和装置、电子设备及存储介质 |
CN111859971A (zh) * | 2020-07-23 | 2020-10-30 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法、装置、设备和介质 |
CN112069268A (zh) * | 2020-08-14 | 2020-12-11 | 京华信息科技股份有限公司 | 一种基于语义关联性的文本错误识别方法及系统 |
CN112131343B (zh) * | 2020-09-14 | 2023-07-07 | 新讯数字科技(杭州)有限公司 | 一种中文小说对话人物识别方法 |
CN112183060B (zh) * | 2020-09-28 | 2022-05-10 | 重庆工商大学 | 多轮对话系统的指代消解方法 |
CN112380866A (zh) * | 2020-11-25 | 2021-02-19 | 厦门市美亚柏科信息股份有限公司 | 一种文本话题标签生成方法、终端设备及存储介质 |
CN113011162B (zh) * | 2021-03-18 | 2023-07-28 | 北京奇艺世纪科技有限公司 | 一种指代消解方法、装置、电子设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446943A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种中文处理中基于语义角色信息的指代消解方法 |
CN103150405A (zh) * | 2013-03-29 | 2013-06-12 | 苏州大学 | 一种分类模型建模方法、中文跨文本指代消解方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101796508B (zh) * | 2007-08-31 | 2013-03-06 | 微软公司 | 歧义敏感自然语言处理系统中的共指消解 |
-
2013
- 2013-09-22 CN CN201310431571.6A patent/CN104462053B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446943A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种中文处理中基于语义角色信息的指代消解方法 |
CN103150405A (zh) * | 2013-03-29 | 2013-06-12 | 苏州大学 | 一种分类模型建模方法、中文跨文本指代消解方法和系统 |
Non-Patent Citations (2)
Title |
---|
《采用优先选择策略的中文人称代词的指代消解》;李国臣等;《中心信息学报》;20051231;第19卷(第4期);24-30 * |
《鲁棒性的汉语人称代词消解》;王厚峰等;《软件学报》;20051231;第16卷(第5期);700-707 * |
Also Published As
Publication number | Publication date |
---|---|
CN104462053A (zh) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462053B (zh) | 一种文本内的基于语义特征的人称代词指代消解方法 | |
CN109145712B (zh) | 一种融合文本信息的gif短视频情感识别方法及系统 | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
CN109376251A (zh) | 一种基于词向量学习模型的微博中文情感词典构建方法 | |
CN107291684B (zh) | 语言文本的分词方法和系统 | |
CN104572958A (zh) | 一种基于事件抽取的敏感信息监控方法 | |
CN105095190B (zh) | 一种基于中文语义结构和细分词库结合的情感分析方法 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN108038205A (zh) | 针对中文微博的观点分析原型系统 | |
CN105138570A (zh) | 网络言论数据疑似犯罪度计算方法 | |
CN108763348A (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
KR20160010746A (ko) | 소셜 네트워크 서비스 사용자의 감성 분석 시스템 및 그 방법 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN108829661A (zh) | 一种基于模糊匹配的新闻主体名称提取方法 | |
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
CN112434164A (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
Đogić et al. | Sign Language Recognition using Neural Networks. | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN109284381A (zh) | 融合表情符号库和主题模型的方面观点褒贬态度挖掘方法 | |
CN102063497B (zh) | 一种开放式知识共享平台及其词条处理方法 | |
CN110738047B (zh) | 基于图文数据与时间效应的微博用户兴趣挖掘方法及系统 | |
JP2018025956A (ja) | モデル作成装置、推定装置、方法、及びプログラム | |
CN110851733A (zh) | 基于网络拓扑和文档内容的社团发现和情感解释方法 | |
CN108090040A (zh) | 一种文本信息分类方法及系统 | |
CN105337842B (zh) | 一种与内容无关的垃圾邮件过滤方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |