CN111027314A - 一种基于语篇的人物属性抽取方法 - Google Patents

一种基于语篇的人物属性抽取方法 Download PDF

Info

Publication number
CN111027314A
CN111027314A CN201911259714.3A CN201911259714A CN111027314A CN 111027314 A CN111027314 A CN 111027314A CN 201911259714 A CN201911259714 A CN 201911259714A CN 111027314 A CN111027314 A CN 111027314A
Authority
CN
China
Prior art keywords
attribute
character
sentences
sentence
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911259714.3A
Other languages
English (en)
Inventor
程南昌
邹煜
杨柳
滕永林
宋康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN201911259714.3A priority Critical patent/CN111027314A/zh
Publication of CN111027314A publication Critical patent/CN111027314A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语篇的人物属性抽取方法,包括如下步骤:S101:制定以篇章知识为指导逐级分类的人物属性抽取策略,利用传记类文本往往开篇点题,确定以人名为标准两分文本,分成被抽取人物为主要叙述对象文本和被抽取人物为非主要叙述对象文本;S102:对于被抽取人物为主要叙述对象文本,首先将文档中所有句子分成有属性标记句和无属性标记句,无属性标记句抛弃;S103:有属性标记句再按是否含有多个描述人物为标准两分,分成单人物句和多人物句;S104:单人物句只需确认该句中的人物是否被抽取人物,是则确认归属,否则抛弃。本发明简化了分析手续,对准确度的提高起到了积极的作用。

Description

一种基于语篇的人物属性抽取方法
技术领域
本发明涉人物属性抽取方法,具体为一种基于语篇的人物属性抽取方法。
背景技术
TAC的KBP评测中的槽填充任务旨在从非结构化或半结构化的文本中抽取人物、企业等的属性,填充到事先设置的槽中。如前所述,属性抽取主要包括两个问题:一是属性识别,主要是命名实体的识别,由于英语的命名实体具有一定的形式标记,其研究已较为成熟,一些系统采用了现有的识别器(Agirre et al.,2009);二是属性归属判定,涉及较深层的句法、语义分析。从这些年的评测来看,成绩并不乐观,以2014年TAC的KBP槽填充评测为例,31支队伍报名,共18支提交结果,最好成绩的Fl值仅为0.367(Surdeanu et al.,2014)。自2015年之后,槽填充评测属性类别不再严格地限制为25类(Viswanathan et al., 2015;Yu Dian et al.,2016)。目前采用的方法主要有问答(QA,question answer) 与信息抽取(IE,information extraction)相结合的方法、基于隐性语义挖掘的远监督的方法、基于规则的方法等。
(一)国际上相关研究
1.QA与IE相结合的方法
槽填充任务基本上就是QA与IE两者的结合(Heng Jiet al.,2011),因此,有较多的参赛系统采用QA与IE的思路来做属性抽取(Byrne et al.,2010)。该方法把要填充的槽看成固定的提问,以“parents”为例,只要把问题设计成“钱伟长的父亲(或母亲)是谁?”,就可转化成QA模式,而在答案提取时则可采用E的方法。对属性抽取来说,所抽取的属性需要放到不同的槽中,由于要抽取的类别较多,并且有的类别之间还有一定的相似性,比如“受雇”(employee of) 和“成员”(member of),所以属性分类是一件困难的事情。但通过QA的方法来做属性抽取,却不需要区分属性的类别,因为所提的问题中已经包含了类别信息(McNamee et al.,2010)。因此,该方法具有一定的优势,比如Byrne等 (2010)取得了准确率为66%的成绩。问答系统的不足是所设计的问题难以涵盖所有情况,故召回率有待提高。
2.远监督的机器学习方法
在属性抽取中,由于人工标注语料很困难,短时间内获得大规模有标签的训练语料用于机器学习并不容易,所以有监督的机器学习方法无法发挥优势。近年来,较多的系统采用了远监督的学习方法(Mintz et al.,2009)。该方法假设:如果两个实体之间有某种语义关系,则所有包含它们的句子都在一定程度上表达了这种关系。基于该假设,该方法仅需少量的训练语料为种子,从海量互联网信息中获取大规模训练语料。远监督的方法具有不受限于领域、不造成过度拟合的优点,为大规模从网上获取训练语料提供了方便(Mintz etal.,2009)。近几年的评测中,该方法被广泛采用(Agirre et al.,2009;Viswanathan etal., 2015)。该方法的不足主要表现在所获得的语料较粗糙,噪声信息的过滤仍需进一步研究。
3.规则的方法
规则的方法是基于语言学知识的,评测中有部分系统采用了规则的方法,比如Chada等(2010)采用语言学规则、多维知识表征与语义搭配限制多种方式相结合的方法,在2010年的KBP评测槽填充中取得了好的成绩。
(二)国内相关研究
孟新萍等(2010)通过700句人工标注的语料对五个类别的人物属性抽取进行了有意义的探索。张巧等(2015)针对包含人物属性质量较高的个人主页,提出了一种基于弱监督学习的人物属性抽取方法。叶正等(2007)提出了一种从维基百科中自动获取人物属性的方法。
当前基于统计或规则的方法大部分是在句子范围内操作,基于此,本发明考虑利用篇章层面的全局知识为指导,探寻人物属性抽取的新方法。
发明内容
本发明的目的在于提供一种基于语篇的人物属性抽取方法,本发明以全局性的篇章知识作指导,从文本到句子逐级分类,把属性与人物的共现定位到相对单一的语境中,简化了分析手续,对准确度的提高起到了积极的作用,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:。
一种基于语篇的人物属性抽取方法,包括如下步骤:
S101:制定以篇章知识为指导逐级分类的人物属性抽取策略,利用传记类文本往往开篇点题、一般不用指代以及零形指代基于篇名预设等篇章知识,确定以人名为标准两分文本,分成被抽取人物为主要叙述对象文本和被抽取人物为非主要叙述对象文本;
S102:对于被抽取人物为主要叙述对象文本,首先将文档中所有句子分成有属性标记句和无属性标记句,无属性标记句抛弃;
S103:有属性标记句再按是否含有多个描述人物为标准两分,分成单人物句和多人物句;
S104:单人物句只需确认该句中的人物是否被抽取人物,是则确认归属,否则抛弃。
进一步地,所述属性识别包括:
属性类别、特征词和准属性词附码说明;
调整分词软件;
标记特征词语。
进一步地,所述属性归属包括文本分类、句子分类、属性归属判定。
进一步地,所述调整分词软件包括增加附码与补充词汇和调整规则。
进一步地,所述句子分类分成完整人名、单用姓或者名、亲属称谓、人称代词。
进一步地,所述属性归属判定包括单人物句处理、多人物句处理、人称代词消解。
进一步地,所述单人物句处理包括被抽取人物认定和属性抽取。
进一步地,所述多人物句处理包括最小共现切片和最近距离原则。
与现有技术相比,本发明的有益效果是:
本发明以全局性的篇章知识作指导,从文本到句子逐级分类,把属性与人物的共现定位到相对单一的语境中,简化了分析手续,对准确度的提高起到了积极的作用。
具体实施方式
以下将详细说明本发明实施例,然而,本发明实施例并不以此为限。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于语篇的人物属性抽取方法,包括如下步骤:
S101:制定以篇章知识为指导逐级分类的人物属性抽取策略,利用传记类文本往往开篇点题、一般不用指代以及零形指代基于篇名预设等篇章知识,确定以人名为标准两分文本,分成被抽取人物为主要叙述对象文本和被抽取人物为非主要叙述对象文本;
S102:对于被抽取人物为主要叙述对象文本,首先将文档中所有句子分成有属性标记句和无属性标记句,无属性标记句抛弃;
S103:有属性标记句再按是否含有多个描述人物为标准两分,分成单人物句和多人物句;
S104:单人物句只需确认该句中的人物是否被抽取人物,是则确认归属,否则抛弃。
本发明中的属性识别,为辅助属性识别工作,制定了特征词和准属性词两类附码,并在此基础上调整分词软件,以充分识别命名实体,标注特征词语,保证某些命名实体属性身份的准确判定。
(一)属性类别、特征词和准属性词附码说明
本发明所抽取的人物属性(别名、年龄和头衔等)共25类,主要依据TAC 的KBP评测中的槽填充任务和CIPS-SIGHAN2014的中文人物属性抽取任务。属性往往与相对固定的特征词共现,这些特征词便可以作为属性识别的重要线索,比如别名的特征词有“笔名、艺名、原名、绰号”等,每一类属性都有其对应的特征词附码,比如“出生(bir)、配偶(spo)和年龄(age)等”。而“董事长”“科学家”一类的词很有可能是人物的头衔,本发明称之为准属性词,也为其制定了相应的附码,比如头衔(tx)、居住国家(gj)和居住州省(zs)等。
(二)调整分词软件
命名实体识别主要在分词这一步完成,因此调整分词软件是关键性的一步。本发明使用的是中国传媒大学开发的自动分词软件CUCBst。调整主要包括以下两点:
1.增加附码与补充词汇
在CUCBst原词典中,像“董事长、发明家、检察长”这样的“头衔”类词语和其他名词一样都标注为“n”,为方便识别,采用准属性词附码对其进行了标注。补充词汇分两个阶段:一是系统开发阶段,收集并整理了多部词典,将其中的头衔名称、国家名称和地名等补充到分词词典中。二是评测阶段,对评测语料进行了新词自动识别,把未登录词加入分词词典中。
2.调整规则
CUCBst分词系统具有粗粒度与细粒度两种分词方式,主要通过规则来实现。比如:
①斯托曼1953年出生于美国纽约曼哈顿地区的犹太人家庭。
在不调整规则的情况下,分词系统对该句分词结果如下:
粗粒度:斯托曼/nr 1953年/t出生/v于/p美国纽约曼哈顿地区/ns的/u犹太人/n家庭/n。
细粒度:斯托曼/nr 1953年/t出生/v于/p美国/ns纽约/ns曼哈顿/ns地区 /s的/u犹太人/n家庭/n。
根据评测大纲,其中应包含两个属性,分别是出生国家:美国;出生城市:纽约曼哈顿地区。因此,上述粗粒度和细粒度的处理都不能一步到位地将其提取出来,需要对规则进行调整。调整后分词结果如下:
斯托曼/nr 1953年/t出生/v于/p美国/gj纽约曼哈顿地区/zs的/u犹太人 /n家庭/n。这样就极大地方便了属性的识别与抽取。
(三)标记特征词语
在分词这一步已经对命名实体进行了附码,但并不是所有标记出来的命名实体都是人物属性,比如“1998年”并不一定就是人物的出生或死亡日期,也有可能是某个事件发生的时间。
因此需要通过特征词语来判定其属性身份。以出生时间为例:
②张幼仪/nr生于/bir 1900年/t,/w比/p徐志摩/nr小/a 4/m岁/q。/w (张幼仪)。
③鲁桂珍/nr 1904年/t生于/bir南京/ns。/w(鲁桂珍)将“生于”标记为“bir”,表示它是与出生时间相关的特征词语,当句子中出现bir时,其附近极有可能会有人物属性与其共现。
本发明的属性归属,属性归属指的是准确地建立属性与抽取人物之间的关联,上文已介绍了处理策略,下面从文本分类开始论述属性归属判定的具体过程。
(一)文本分类
通过篇章知识可知:人物介绍类文章一般会在开篇点明要叙述的人物是谁,即开篇点题;人物首次出现一般用人物的姓名而不是用代词表示;根据预设理论,当文档标题是被叙述人物时,也可开篇不点明人物而直接叙述。基于此,本发明从所有文本中提取第一个句子,以人名作为主要形式特征两分文本:当文档中第一个句子仅含有抽取人物以外的其他人名时,判定该文档叙述的主要人物不是被抽取人物,此外的文档(包括首句含有被抽取人物名字和无任何人名两种情况)均判定为主要叙述人物为被抽取人物。在234篇文档上进行了实验,准确率达到97%,可见该方法效果较好。对被抽取人物为主要叙述对象的文本,只抛弃无属性标记的句子,而另一类则只保留被抽取人物名字与属性标记共现的句子。
(二)句子分类
对句子的分类包括两个层次,首先以是否含有属性标记两分句子,然后对含有属性标记的句子再以是否含有多个描述人物为标准两分。
1.两分所有句子
通过分词,已将所有的属性和特征词语都添加了标记,以这些标记为特征,对文档中所有句子进行两分,不含属性标记的句子直接抛弃,含有属性标记的句子则留下来进一步分析。
2.两分属性标记句
对含有属性标记的句子,按句子中是否含有两个及以上描述人物分为单人物句和多人物句两类。实现这一步的关键是人物识别。可以用来进行人物识别的形式特征主要有完整人名、单用姓或名、亲属称谓、人称代词四种,前三种可以是先行词,也可以是回指,人称代词只能作为回指。
(1)完整人名
人名是判定人物的最重要特征,例如:
④1973年7月19日,冯白驹在北京逝世。
⑤次年1月,王文明病逝,冯白驹继任中共琼崖特委书记。
例④只有一个人名“冯白驹”,属单人物句,例⑤有两个人名“王文明”和“冯白驹”,属多人物句。
(2)单用“姓”或者“名”
外国人名,除第一次用人物全名外,回指时一般用姓来称呼。比如:
⑥莫奈1840年11月14日出生于法国巴黎45街拉菲特第九郡,是阿道夫和路易斯的第二个儿子。当用姓指代人物会发生混淆时用名来指代,比如在介绍双胞胎兄弟迈克·布莱恩和鲍勃·布莱恩时;
⑦等到鲍勃和迈克开始真正对网球产生了浓厚兴趣,也拿起球拍开始了网球生涯后,布莱恩夫妇又给他们订了个规矩:在17岁之前,这对双胞胎都不可以在比赛中对抗。(迈克·布赖恩)中国人名一般用全名,也有单独用姓或名的,比如:
⑧七七事变后,日本人邀请他组建“中日友好协会”,梁意识到,要想不当汉奸,必须立即离开北平。
⑨我与泽涵兄交往多了,与他的家人都处得很熟。
(3)亲属称谓
在介绍被抽取人物时,经常会提到人物的亲属,比如父母、妻子、兄弟等,有时也会提到他的老师、朋友和领导等。其中亲属称谓关系密切,具有属性特征,可将其作为判断人物的特征。例如:
⑩布兰切特的降生充满了浪漫色彩,爸爸是美国前海军军官,军舰在澳洲墨尔本停靠时,与布兰切特的母亲相识。
例⑩提到了布兰切特、爸爸、母亲,总共有三个人,是多人物句。
而其他称谓就不一样了。如果要描述被抽取人物的老师、学生、朋友和领导的某些属性时,一般要交待该人物的名字,当只是用老师、学生、教授等泛称谓时,一般与属性抽取关联不大,可以不把其当作一个人物。例如:
Figure DEST_PATH_BDA0002311280660000091
梅耶的死让很多人震惊,他的同事和学生认为他是一个非常有才华的科学家和教师。
Figure DEST_PATH_BDA0002311280660000092
需要提出的是,卡罗瑟斯的学生Paul J.Flory(1910-1985),在总结研究卡罗瑟斯的基础上,出版了影响整个世界的《高分子化学原理》一书,该书依然是今天高分子领域主要的理论基础。
Figure 410244DEST_PATH_BDA0002311280660000091
中的“同事、学生”属于泛称谓情况,因而是单人物句;例(12)交代了卡罗瑟斯的学生Paul J.Flory的出生与死亡日期和其他一些情况,因此给出了具体的名字,属于多人物句。
(4)人称代词
人称代词用来回指人物,是一种重要的回指现象,在人物属性抽取中,其形式特征较为明显,可作为判定人物的特征之一。下面例(13)是多人物句。
Figure DEST_PATH_BDA0002311280660000104
1987年,他应邀访问日本,演出了他的作品《纳西一奇》,由日本作曲家芥川也寸志指挥。
在判断人物时,同一个单人称代词(他、她、我、你)在一个句子中,不管出现几次,只算一个人物,因为在同一个句子中,相同的代词指代不同的人物一般很少见。如果一个句子中有两个以上的分句,人名在前,第三人称代词在后,并分布在不同的分句中,该代词往往指称的是前面的人名,因此,该类句子归为单人物句。如:
Figure DEST_PATH_BDA0002311280660000102
当莫奈来到巴黎卢浮宫,他亲眼看到许多画家在模仿著名艺术家的作品。含有“、你们、他们、她们”等复数人称代词的句子一般包含多个人物,算多人物句。
Figure DEST_PATH_BDA0002311280660000101
比如:瑏瑥李约瑟一如既往忠于他的爱妻:“执子之手、与子偕老。”直到 1987年德萝西91岁时去世,他们夫妇共同生活了整整64年。
如果一个带有属性标记的句子中没有上述四种人物特征,则看作是零形回指,归为单人物句。比如:
Figure DEST_PATH_BDA0002311280660000105
1916年入复旦大学法文系半工半读,1917年留学日本学习美术。
根据以上形式特征,本发明从所有测试文档中按每个文档抽取1-3个句子的比例,随机抽取了422个含有属性标记的句子,计算机自动判断的准确率达到了0.95。错误主要由于人名识别失败和一些情况比较复杂的句子,比如:“在当地接受高中教育后,于1679年进入耶拿大学的医学院,和弗里德里希·霍夫曼是同学,1684年他被授予博士学位。(格奥尔格·恩斯特·斯塔尔)”该句被错判成单人物句,句中人称代词前面的人名不是被抽取人物。
经统计,422句中单人物句占76%,要远远多于多人物句,单人物句的处理难度要小于多人物句,而处理结果的准确率要远远高于多人物句,这也是所采取策略的优势所在。为考察上述四个特征对句子分类的影响,本发明在实验中依次去除四个属性中的一个,实验结果如表1。表1显示,去除“完整人名”这一特征后准确率最低,说明该特征对句子分类影响最大,其次是人称代词,然后是亲属称谓,影响最小的是单用“姓”或者“名”。
表1特征对分类的影响
去除的特征 准确率(%)
完整人名 40
姓或名 79
亲属称谓 67
人称代词 42
(三)属性归属判定
使用上述人物识别的形式特征对句子进行分类,可以得到单人物句和多人物句两个集合。
1.单人物句处理
(1)被抽取人物认定
对于含有人名(包括单用名或姓)的句子,可以用被抽取人物的名字匹配,难点在于人称代词和零形式的句子。如前所述,以被抽取人物为主要叙述对象的文本,文章的话题一般围绕被抽取人物展开,述及被抽取人物的亲属、老师和朋友等人物时,形成独立话题并跨越句子范围的情况比较少见。基于此,本发明假设:当这些单人物句含有人称代词和零形式时,可直接将其属性判给被抽取人物。为了验证该假设,自动抽取了所有含有“他”的单人物句,共369句;因零形回指数量较多,只随机抽取193个句子。对抽取句子进行了人工判定,结果如表2。
表2第三人称“他”和“零形式”回指情况统计
Figure 1
表2显示,第三人称单数回指被抽取人物的准确率达99%,零形式则全部回指被抽取人物,说明上述假设基本符合实际。第三人称单数回指其他人物的情况来自两个人物自述的文档,全文采用第一人称叙述,第三人称指代的自然是非被抽取人物。如果能在判断之前增加文本的叙述视角判定,效果可能会更好。
(2)属性抽取
人物认定完成后,如果人物是非抽取对象,将该句抛弃;如果是抽取对象,则抽取其属性,根据标记加入不同属性列表中。例如:
Figure RE-GDA0002380176930000122
1943年11月/t,/w白某某/nr出生/bir于/p河北省/zs乐亭县/sx。/w 根据特征词语“出生”和属性标记把属性“1943年11月、河北省、乐亭县”分别归入被抽取人物“白某某”的出生时间、出生省份和出生城市的列表中。
2.多人物句处理
多人物句的属性归属判定是这次任务的难点,例如:
Figure RE-GDA0002380176930000123
李某某升为军长,陈某某升任第十一师师长。
其中,“军长”是李某某的头衔,“师长”才是待抽取人物陈某某的头衔。主要采用被抽取人物与属性最小共现语言片段切分和最近距离原则两个方法来判定,下面分别论述。
(1)最小共现切片
当人物与属性在同一个尽可能小的语法单位之内共现,并且只有一个人物时,属性一般属于该人物。基于此,本发明首先以标点符号(逗号、顿号等)对句子进行切片,比如例瑏瑩中的两个小句“黄永胜任司令”与“丁盛任二十四师师长”。当切片内还有多个人物时,以连词(“和、与”等)为形式特征切片。
Figure RE-GDA0002380176930000131
1947年4月冀察热辽军区部队改编为东北民主联军第八纵队,黄某某任司令,丁某任二十四师师长,之后参加了辽沈战役。
Figure RE-GDA0002380176930000132
1935年,蒋中正调张学良东北军剿共。
(2)最近距离原则
当人物与属性之间距离较远且有多个人物出现时,一般情况下,属性属于与之距离最近的人物。例如:
Figure RE-GDA0002380176930000133
钱三强的父亲钱玄同是中国近代著名的语言文字学家。
Figure RE-GDA0002380176930000134
我从小就知道江泽涵是北京大学一位鼎鼎大名的数学教授,却无缘见面,但他们的堂姐江冬秀我却在孩童时就见过。
Figure RE-GDA0002380176930000135
中,头衔“语言文字学家”属于与其距离较近的“钱玄同”,而不是“钱三强”。同理,例(22)中的头衔“教授”属于与其距离较近的“江泽涵”,而不是“我”。但最近距离原则并不总是有效,下面的句子则无法用该方法来判定:
Figure RE-GDA0002380176930000136
中共四大后,彭述之以中央委员身份接替多病的蔡和森担任中央宣传部长。
Figure RE-GDA0002380176930000137
中,头衔“部长”属于距离较远的彭述之而不是被抽取人物蔡和森,该句需要较深层的句法或语义分析,目前处理起来有点困难。
3.人称代词消解
单人物句基本不需要指代消解,但多人物句指代消解任务较重。因被抽取人物是已定的,其姓名和性别都可以事先标注,这为指代消解提供了较多的方便。例如:
Figure RE-GDA0002380176930000142
1940年,钱三强取得了法国国家博士学位,又继续跟随第二代居里夫妇当助手。
Figure RE-GDA0002380176930000143
1946年,他与同一学科的才女何泽慧结婚。
Figure RE-GDA0002380176930000144
中的居里夫妇是复数,因此例(25)中的“他”指代前一句中的男性单数钱三强。
以上述系统CASIA_CUC_PAES参加了CIPS-SIGHAN2014国际评测中人物属性抽取任务,成绩如表3所示。
Figure RE-GDA0002380176930000141
表3显示,本团队所代表的系统在评测中取得了最好成绩,参与本次评测的其他团队在评测中也取得了不错的成绩。Zhang Kailun等通过对大量维基百科人物信息的分析,采用触发词、词典和规则相结合的方法,最终取得了调和平均值宽严结果分别为0.36和0.35的成绩。BLCU-PAE系统是一个有监督学习和规则相结合的人物属性抽取系统,最终取得的调和平均值宽严结果分别为0.31 和0.29的成绩。也有团队使用依存模式匹配的方法抽取人物属性,由于汉语的依存分析本身具有较高难度,错误蔓延等造成其最终取得的结果不很理想。
人物的传记、百科和专访等最有可能含有人物属性,某一语境范围内只有一个人物的情况下,属性与人物之间的关系最容易判断。因此,排除与抽取人物无关的文本,并进一步排除无属性的句子,在此基础上将剩余句子分成单人物句与多人物句,分别采取不同处理方式,使分析手续简明化,这就是本发明解决属性抽取问题的策略。
以某个人物为主要叙述对象的文本,整个文本只出现一个人物的情况较少,在叙述主要人物时,文章往往会提及与之相关的亲属或朋友,这显然增加了属性抽取的难度。但是这些文本在篇章组织上是有规律的:话题往往是围绕该人物来组织,述及其他人物而形成独立话题并超过句子层面的情况较为少见。因此,回指其他人物的人称代词一般不超过句子范围,那些仅含代词的单人物句中的代词大部分是回指主要人物的。
基于以上考虑,本发明制定了以篇章知识为指导逐级分类的人物属性抽取策略,利用传记类文本往往开篇点题、一般不用指代以及零形指代基于篇名预设等篇章知识,确定以人名为标准两分文本,分成“被抽取人物为主要叙述对象文本”和“被抽取人物为非主要叙述对象文本”。对前者,首先将文档中所有句子分成有属性标记句和无属性标记句,无属性标记句抛弃;其次,有属性标记句再按“是否含有多个描述人物”为标准两分,分成单人物句和多人物句;最后,单人物句只需确认该句中的人物是否被抽取人物,是则确认归属,否则抛弃;多人物句需要进行属性归属判定,本发明主要采用最小切片和最短距离法,在人物与属性共现的最小语言片断中判定属性归属。对后者,即被抽取人物为非主要叙述对象文本,只处理被抽取人物姓名与属性标记共现的句子,处理过程同前者的第二步和第三步。
人物属性抽取是一项难度较大的任务,在命名实体识别中,分词软件CUCBst起了较大的作用,为属性抽取奠定了比较坚实的基础。在属性归属判定时,本发明以全局性的篇章知识作指导,从文本到句子逐级分类,把属性与人物的共现定位到相对单一的语境中,简化了分析手续,对准确度的提高起到了积极的作用。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于语篇的人物属性抽取方法,其特征在于,包括如下步骤:
S101:制定以篇章知识为指导逐级分类的人物属性抽取策略,利用传记类文本往往开篇点题、一般不用指代以及零形指代基于篇名预设等篇章知识,确定以人名为标准两分文本,分成被抽取人物为主要叙述对象文本和被抽取人物为非主要叙述对象文本;
S102:对于被抽取人物为主要叙述对象文本,首先将文档中所有句子分成有属性标记句和无属性标记句,无属性标记句抛弃;
S103:有属性标记句再按是否含有多个描述人物为标准两分,分成单人物句和多人物句;
S104:单人物句只需确认该句中的人物是否被抽取人物,是则确认归属,否则抛弃。
2.根据权利要求1所述的基于语篇的人物属性抽取方法,其特征在于,所述属性识别包括:
属性类别、特征词和准属性词附码说明;
调整分词软件;
标记特征词语。
3.根据权利要求1所述的基于语篇的人物属性抽取方法,其特征在于,所述属性归属包括文本分类、句子分类、属性归属判定。
4.根据权利要求2所述的基于语篇的人物属性抽取方法,其特征在于,所述调整分词软件包括增加附码与补充词汇和调整规则。
5.根据权利要求3所述的基于语篇的人物属性抽取方法,其特征在于,所述句子分类分成完整人名、单用姓或者名、亲属称谓、人称代词。
6.根据权利要求3所述的基于语篇的人物属性抽取方法,其特征在于,所述属性归属判定包括单人物句处理、多人物句处理、人称代词消解。
7.根据权利要求6所述的基于语篇的人物属性抽取方法,其特征在于,所述单人物句处理包括被抽取人物认定和属性抽取。
8.根据权利要求6所述的基于语篇的人物属性抽取方法,其特征在于,所述多人物句处理包括最小共现切片和最近距离原则。
CN201911259714.3A 2019-12-10 2019-12-10 一种基于语篇的人物属性抽取方法 Pending CN111027314A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911259714.3A CN111027314A (zh) 2019-12-10 2019-12-10 一种基于语篇的人物属性抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911259714.3A CN111027314A (zh) 2019-12-10 2019-12-10 一种基于语篇的人物属性抽取方法

Publications (1)

Publication Number Publication Date
CN111027314A true CN111027314A (zh) 2020-04-17

Family

ID=70205425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911259714.3A Pending CN111027314A (zh) 2019-12-10 2019-12-10 一种基于语篇的人物属性抽取方法

Country Status (1)

Country Link
CN (1) CN111027314A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859970A (zh) * 2020-07-23 2020-10-30 北京字节跳动网络技术有限公司 用于处理信息的方法、装置、设备和介质
CN112487806A (zh) * 2020-11-30 2021-03-12 桂林电子科技大学 一种英语文本概念理解方法
CN113988077A (zh) * 2021-11-09 2022-01-28 新华智云科技有限公司 一种行政职位、职级姓名纠错方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239433A1 (en) * 2006-04-06 2007-10-11 Chaski Carole E Variables and method for authorship attribution
CN108959630A (zh) * 2018-07-24 2018-12-07 电子科技大学 一种面向英文无结构文本的人物属性抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239433A1 (en) * 2006-04-06 2007-10-11 Chaski Carole E Variables and method for authorship attribution
CN108959630A (zh) * 2018-07-24 2018-12-07 电子科技大学 一种面向英文无结构文本的人物属性抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程南昌等: "篇章知识与逐级分类相结合的人物属性抽取方法研究" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859970A (zh) * 2020-07-23 2020-10-30 北京字节跳动网络技术有限公司 用于处理信息的方法、装置、设备和介质
CN111859970B (zh) * 2020-07-23 2022-05-17 北京字节跳动网络技术有限公司 用于处理信息的方法、装置、设备和介质
CN112487806A (zh) * 2020-11-30 2021-03-12 桂林电子科技大学 一种英语文本概念理解方法
CN112487806B (zh) * 2020-11-30 2023-05-23 桂林电子科技大学 一种英语文本概念理解方法
CN113988077A (zh) * 2021-11-09 2022-01-28 新华智云科技有限公司 一种行政职位、职级姓名纠错方法和系统

Similar Documents

Publication Publication Date Title
CN105045778B (zh) 一种汉语同音词错误自动校对方法
Abdul-Hamid et al. Simplified feature set for Arabic named entity recognition
CN107180025B (zh) 一种新词的识别方法及装置
Ceska et al. The influence of text pre-processing on plagiarism detection
CN111027314A (zh) 一种基于语篇的人物属性抽取方法
Bustamante et al. No data to crawl? monolingual corpus creation from PDF files of truly low-resource languages in Peru
CN107908712A (zh) 基于术语提取的跨语言信息匹配方法
CN107329960A (zh) 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法
Wu et al. Bilingual collocation extraction based on syntactic and statistical analyses
Osmelak et al. The denglisch corpus of German-English code-switching
Alotaiby et al. Processing large Arabic text corpora: Preliminary analysis and results
CN103744840B (zh) 一种文档翻译难度的分析方法
Kapočiūtė-Dzikienė et al. Character-based machine learning vs. language modeling for diacritics restoration
Shrestha Incremental n-gram approach for language identification in code-switched text
CN115310433A (zh) 一种针对中文文本校对的数据增强方法
Torres et al. Using machine learning methods to avoid the pitfall of cognates and false friends in Spanish-Portuguese word pairs
Leng et al. Analysis and research on lexical errors in machine translation in Chinese and Korean translation
KR101104114B1 (ko) 대용어 참조해소 시스템 및 대용어 참조해소 방법
Zantout et al. Obstacles facing Arabic machine translation: building a neural network-based transfer module
Liu A Corpus-Based Study on Nanchang Red Tourism Translation under the Background of the “100th Anniversary of the Founding of the Communist Party of China”
Aksan et al. A corpus-based word frequency list of Turkish: Evidence from the subcorpora of Turkish National Corpus project
Mărănduc et al. Rodia project of a regional and historical corpus for romanian
Bao Design and implementation of Cyrillic Mongolian syllable text corpus system
Fengxia et al. Research on AI Translation Based on Natural Language Processing
Wang et al. The Identification and Classification of Abnormal Collocations in Network Micro-language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200417