CN104657750A - 一种用于人物关系抽取的方法和装置 - Google Patents

一种用于人物关系抽取的方法和装置 Download PDF

Info

Publication number
CN104657750A
CN104657750A CN201510127450.1A CN201510127450A CN104657750A CN 104657750 A CN104657750 A CN 104657750A CN 201510127450 A CN201510127450 A CN 201510127450A CN 104657750 A CN104657750 A CN 104657750A
Authority
CN
China
Prior art keywords
people entities
page
text
tlv triple
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510127450.1A
Other languages
English (en)
Other versions
CN104657750B (zh
Inventor
钱龙华
朱苏阳
李军辉
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Zhangjiagang Institute of Industrial Technologies Soochow University
Original Assignee
Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangjiagang Institute of Industrial Technologies Soochow University filed Critical Zhangjiagang Institute of Industrial Technologies Soochow University
Priority to CN201510127450.1A priority Critical patent/CN104657750B/zh
Publication of CN104657750A publication Critical patent/CN104657750A/zh
Application granted granted Critical
Publication of CN104657750B publication Critical patent/CN104657750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种用于人物关系抽取的方法和装置。该方法在获取属于人物实体的页面后,对页面中的人物实体构建人物实体列表。进而,在对文本中的人物实体进行标注时,采用人物实例列表与文本中的人物实体名称进行匹配,完成对人物实体的标注。同时,将已知的用于表征人物实体之间关系的家庭关系三元组映射到文本中,实现对文本中的人物实体之间的人物关系的标注,得到训练语料,并利用训练语料建立分类模型,抽取文中的新的人物实体关系。与现有技术相比,本发明无需人工对人物实体和人物实体之间的人物关系标注时,省时省力,提高了工作效率。

Description

一种用于人物关系抽取的方法和装置
技术领域
本发明涉及自然语言处理技术领域,更具体的说是涉及一种用于人物关系抽取的方法和装置。
背景技术
人物关系抽取是信息抽取领域和自然语言处理领域中的一项重要研究内容,其任务是从自然语言文本中获取两个人物实体间的人物关系。作为一项应用基础性研究,人物关系抽取对自然语言处理的许多应用,如问题回答、信息融合、社会网络构建以及知识挖掘等都具有重要的意义。
目前采用的有监督学习方法在对人物关系进行抽取时通常需要建立一个分类模型来判断一个实例中是否包含人物关系。然而,在生成训练语料过程中,有监督学习方法的抽取性能受到标注语料的规模、质量以及领域的限制,对于网络上的大规模自然语言文本,需要人工对人物实体和人物实体之间的人物关系进行标注,工作效率低。
发明内容
有鉴于此,本发明提供一种用于人物关系抽取的方法和装置,通过建立人物实体列表以及将已知的用于表征人物关系的家庭关系三元组映射到文本中,实现对人物实体和人物实体之间人物关系的标注,从而提高对工作效率。
为实现上述目的,本发明提供如下技术方案:
一种用于人物关系抽取的方法,包括:
获取属于人物实体的页面,并对页面中的人物实体构建人物实体列表;
提取所述人物实体页面中的文本以及用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义;
利用所述人物实体列表对所述文本中的人物实体进行标注,并将定义后的所述家庭关系三元组映射到所述文本中,得到训练语料;
根据所述训练语料建立分类模型,利用所述分类模型对所述文本进行分类,得到所述文本中的新的人物关系。
优选的,所述获取属于人物实体的页面,包括:
获取数据库中存储所有的页面,并从所述页面中获取每个页面包含的页面分类信息;
根据所述页面分类信息对页面进行分类,从中筛选出属于人物实体的页面。
优选的,所述提取用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义,包括:
获取每个人物实体页面的信息盒表项,生成属性三元组;
从所述属性三元组中筛选用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义。
优选的,所述利用所述人物实体列表对所述文本中的人物实体进行标注,并将定义后的所述家庭关系三元组映射到所述文本中,得到训练语料,包括:
对提取的文本进行分句、分词预处理;
针对预处理后的文本,根据所述人物实例列表中的人物名称通过词匹配的方式标注出人物实体所在位置;
利用预处理后的文本构建关系实例集合;
将定义后的所述家庭关系三元组映射到所述关系实例集合中,得到正例训练语料;
根据预设的负例训练语料判断规则,获取所述关系实例集合中的负例训练语料。
优选的,所述根据所述训练语料建立分类模型,包括:
根据所述正例训练语料和所述负例训练语料建立分类模型。
一种用于人物关系抽取的装置,包括:
信息采集单元,用于获取属于人物实体的页面,并对页面中的人物实体构建人物实体列表;
信息提取单元,用于提取所述人物实体页面中的文本以及用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义;
训练语料获取单元,用于利用所述人物实体列表对所述文本中的人物实体进行标注,并将定义后的所述家庭关系三元组映射到所述文本中,得到训练语料;
人物关系抽取单元,用于根据所述训练语料建立分类模型,利用所述分类模型对所述文本进行分类,抽取所述文本中的新的人物关系。
优选的,所述信息采集单元包括:
页面采集子单元,用于获取数据库中存储所有的页面,并从所述页面中获取每个页面包含的页面分类信息;
页面筛选子单元,用于根据所述页面分类信息对页面进行分类,从中筛选出属于人物实体的页面;
人物实体列表构建子单元,用于对人物实体构建人物实体列表。
优选的,所述信息提取单元包括:
文本提取子单元,用于提取所述人物实体页面中的文本;
家庭关系三元组提取子单元,用于提取所述人物实体页面中用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义。
优选的,所述家庭关系三元组提取子单元包括:
信息盒表项采集子单元,用于获取每个人物实体页面的信息盒表项,生成属性三元组;
筛选及定义子单元,用于从所述属性三元组中筛选用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义。
优选的,所述训练语料获取单元包括:
文本预处理子单元,用于对提取的文本进行分句、分词预处理;
人物实体标注子单元,用于针对预处理后的文本,根据所述人物实体列表中的人物名称通过词匹配的方式标注出人物实体所在位置;
关系实例构建子单元,用于利用预处理后的文本构建关系实例集合;
正例训练语料获取子单元,用于将定义后的所述家庭关系三元组映射到所述关系实例集合中,得到正例训练语料;
负例训练语料获取子单元,用于根据预设的负例训练语料判断规则,获取所述关系实例集合中的负例训练语料。
经由上述的技术方案可知,本发明公开了一种用于人物关系抽取的方法和装置。该方法在获取属于人物实体的页面后,对页面中的人物实体构建人物实体列表。进而,在对文本中的人物实体进行标注时,采用人物实例列表与文本中的人物实体名称进行匹配,完成对人物实体的标注。同时,将已知的用于表征人物实体之间关系的家庭关系三元组映射到文本中,实现对文本中的人物实体之间的人物关系的标注,得到训练语料,并利用训练语料建立分类模型,抽取文中的新的人物实体关系。与现有技术相比,本发明无需人工对人物实体和人物实体之间的人物关系标注时,省时省力,提高了工作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明一个实施例公开的一种用于抽取人物关系的方法的流程示意图;
图2示出了本发明实施例中一种用于抽取人物关系的装置的结构示意图;
图3示出了本发明实施例公开的一种信息信息采集单元的结构示意图;
图4示出了本发明另外一个实施例中公开的一种训练语料获取单元的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1示出了本发明一个实施例公开的一种用于抽取人物关系的方法的流程示意图。
由图1可知,该方法包括:
101:获取属于人物实体的页面,并对页面中的人物实体构建人物实体列表。
获取在网络数据库,如百度百科和维基百科的数据库中存储的所有页面,从所有页面中筛选出属于人物实体的页面。
可选的,可根据所述页面分类信息对页面进行分类,从中筛选出属于人物实体的页面。
其筛选过程为:对每个页面所包含的每一条页面类型与“出生”、“逝世”、“人物”、“生年不详”、“卒年不详”、“角色”、“人物小作品”七个词做右部匹配,即从页面分类词的最右侧开始可以找到上述七个词的匹配。若该页面的分类能够与上述七个词成功右侧匹配至少一次,则认为该页面属于人物实体的页面。该规则的依据是中文里一个短语的中心词通常位于该短语的最右侧。例如页面“李靖”包含的页面类型中,“571年出生”可以与“出生”成功右侧匹配,因此可以认为页面“李靖”属于人物实体的页面。
对所述属于人物实体的页面构建人物实体列表。本发明考虑到人物实体的多名问题,利用重定向列表获取这些人物实体的其它名称,最后得到一个每个表项不等长,且每个表项包含人物实体的一个或多个名称的人物实体列表。例如表项[苏轼、东坡居士、苏子瞻、苏东坡、苏和仲、文忠、诗神、苏文忠]包含了人物实体“苏轼”的所有名称(本名和别名等)。
102:提取所述人物实体页面中的文本以及用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义。
网络数据库的信息盒中,一条信息盒表项描述了人物实体的一个属性。在描述人物实体家庭关系信息的信息盒表项前添加该人物实体名称得到的家庭关系三元组(首元实体,家庭关系,末元实体),其中首元实体即人物实体的名称,家庭关系和末元实体分别对应信息盒表项的属性名和属性值,如(郭沫若,父亲,郭朝沛)。
根据家里关系三元组,对人物实体的家庭关系进行关系定义,如(郭沫若,父亲,郭朝沛)即属于亲子关系。在本实施例中本发明定义了亲子关系、配偶关系、兄弟姐妹关系、旁系亲属关系、祖孙关系、姻亲关系。
103:利用所述人物实体列表对所述文本中的人物实体进行标注,并将定义后的所述家庭关系三元组映射到所述文本中,得到训练语料。
根据人物实体列表中的人物名称通过词匹配的方式标注出人物实体所出现的位置。例如:
例句1:[足利义昭]是室町幕府的第12代将军[足利义晴]的次子,其母亲是[近卫尚通]的女儿[庆寿院]。
其中包含4个人物实体“足利义昭”、“足利义晴”、“近卫尚通”、“庆寿院”,分别用括号[]标出。
104:根据所述训练语料建立分类模型,利用所述分类模型对所述文本进行分类,抽取所述文本中的新的人物关系。
由以上实施例可知,在本实施例中该方法在获取属于人物实体的页面后,对页面中的人物实体构建人物实体列表。进而,在对文本中的人物实体进行标注时,采用人物实例列表与文本中的人物实体名称进行匹配,完成对人物实体的标注。同时,将已知的用于表征人物实体之间关系的家庭关系三元组映射到文本中,实现对文本中的人物实体之间的人物关系的标注,得到训练语料,并利用训练语料建立分类模型,抽取文中的新的人物实体关系。与现有技术相比,本发明无需人工对人物实体和人物实体之间的人物关系标注时,省时省力,提高了工作效率。
可选的,在本发明的另一个实施例中,在获取训练语料时需要获取文本中的正例训练语料和负例训练语料,其过程为:
1、对提取的文本进行分句、分词等预处理工作。本发明以句号、问号和感叹号作为句子的分隔符对文本进行分句,再使用现有的分词工具对句子进行分词。
2、利用预处理后的句子构建一个关系实例的集合。本发明申请采用以下方法构建该句子集合:
若一句句子中包含的不同的人物实体数目大于等于2,则取这些人物实体的两两组合数n,由该句子产生n个关系实例。将这些关系实例加入到集合中。例句1中的4个人物实体就可以产生6对人物的关系实例。
若一句句子中有且仅有1个人物实体,且该实体不是句子所在页面所对应的人物实体,则将该句子作为一个关系实例加入到集合中。这一规则考虑到一个页面中有可能存在省略了主语的句子,例如页面“长孙无忌”中的下列句子:
祖父[长孙兕],北周开府仪同三司,平原县侯。
这句句子省略了本该位于句首的主语,亦即该页面所对应的人物实体“长孙无忌”。
3、将家庭关系三元组映射到属于同一个人物页面的关系实例中获取正例语料,并根据预设的负例训练语料判断规则,获取所述关系实例集合中的负例训练语料。
本发明申请采用以下方法构建训练语料的正例。
a、对于一个关系实例,若其句子中同时包含了某一个家庭关系三元组的首元实体和末元实体,则认为该实例是该家庭关系三元组所属家庭关系类型的一个正例。例如:[郑少秋]和[沈殿霞]两人在加拿大结婚。
由于存在家庭关系三元组(郑少秋,配偶,沈殿霞),因此满足这条规则。
b、对于一个关系实例,若其句子中仅包含某一个家庭关系三元组的末元实体,却同时包含了该家庭关系三元组的关系名称或与该关系名称同属于一类关系的其它关系名称,则认为该实例是该家庭关系三元组所属家庭关系类型的一个正例。这一规则是考虑到句子中省略主语的情况。
从构建得到的关系实例集合中获取训练语料的负例。将句子中没有出现任何关系名称的句子认为是一个可能的负例。对于句子中没有出现任何关系名称的实例,本发明申请采用以下方法构建训练语料的负例。
a、对于一个关系实例,若其句子中仅包含一个人物实体,则认为该实例为一个负例。例如:在此期间,他还结识了[孙科]。
其中只有一个人物实体且不出现关系名称,满足这条规则,认为这是一个负例。
b、对于一个关系实例,若其句子中包含多个人物实体,且其实体对中的两个实体不同时在正例中出现,则认为该实例为一个负例。例如:
例句5:贞观六年,[唐太宗]在丹霞殿设宴,叫[王珪]评品诸大臣。
其中不出现关系名称,且人物实体“唐太宗”和“王珪”未同时在正例中出现,满足这条规则,认为这是一个负例。
从全体关系实例从筛选出正例训练语料与负例训练语料之后,剩余的关系实例作为未知实例,以后可以使用分类模型对其进行分类以挖掘未知的家庭关系。
需要说明的是,本发明的另一个实施例还公开了一种用于抽取人物关系的装置。
参见图2示出了本发明实施例中一种用于抽取人物关系的装置的结构示意图。
由图2可知,该装置包括:
信息采集单元1,用于获取属于人物实体的页面,并对页面中的人物实体构建人物实体列表。
信息提取单元2,用于提取所述人物实体页面中的文本以及用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义。
可选的,在本发明的其他实施例中该信息提取单元包括:文本提取子单元和家庭关系三元组提取子单元。其中,文本提取子单元用于提取所述人物实体页面中的文本。家庭关系三元组提取子单元用于提取所述人物实体页面中用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义。
所述家庭关系三元组提取子单元具体包括:
信息盒表项采集子单元,用于获取每个人物实体页面的信息盒表项,生成属性三元组;
筛选及定义子单元,用于从所述属性三元组中筛选用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义。
训练语料获取单元3,用于利用所述人物实体列表对所述文本中的人物实体进行标注,并将定义后的所述家庭关系三元组映射到所述文本中,得到训练语料。
人物关系抽取单元4,用于根据所述训练语料建立分类模型,利用所述分类模型对所述文本进行分类,抽取所述文本中的新的人物关系。
可选的,在本发明公开的另一实施例中该信息采集单元包括多个子单元。参见图3示出了本发明实施例公开的一种信息信息采集单元的结构示意图。
由图3可知,该信息采集单元包括:
页面采集子单元11,用于获取数据库中存储所有的页面,并从所述页面中获取每个页面包含的页面分类信息;
页面筛选子单元12,用于根据所述页面分类信息对页面进行分类,从中筛选出属于人物实体的页面;
人物实体列表构建子单元13,用于对人物实体构建人物实体列表。
参见图4示出了本发明另外一个实施例中公开的一种训练语料获取单元的结构示意图。
该训练语料获取单元包括:
文本预处理子单元31,用于对提取的文本进行分句、分词预处理。
人物实体标注子单元32,用于针对预处理后的文本,根据所述人物实体列表中的人物名称通过词匹配的方式标注出人物实体所在位置。
关系实例构建子单元33,用于利用预处理后的文本构建关系实例集合。
正例训练语料获取子单元34,用于将定义后的所述家庭关系三元组映射到所述关系实例集合中,得到正例训练语料。
负例训练语料获取子单元35,用于根据预设的负例训练语料判断规则,获取所述关系实例集合中的负例训练语料。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种用于人物关系抽取的方法,其特征在于,包括:
获取属于人物实体的页面,并对页面中的人物实体构建人物实体列表;
提取所述人物实体页面中的文本以及用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义;
利用所述人物实体列表对所述文本中的人物实体进行标注,并将定义后的所述家庭关系三元组映射到所述文本中,得到训练语料;
根据所述训练语料建立分类模型,利用所述分类模型对所述文本进行分类,得到所述文本中的新的人物关系。
2.根据权利要求1所述的方法,其特征在于,所述获取属于人物实体的页面,包括:
获取数据库中存储所有的页面,并从所述页面中获取每个页面包含的页面分类信息;
根据所述页面分类信息对页面进行分类,从中筛选出属于人物实体的页面。
3.根据权利要求1所述的方法,其特征在于,所述提取用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义,包括:
获取每个人物实体页面的信息盒表项,生成属性三元组;
从所述属性三元组中筛选用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义。
4.根据权利要求1所述的方法,其特征在于,所述利用所述人物实体列表对所述文本中的人物实体进行标注,并将定义后的所述家庭关系三元组映射到所述文本中,得到训练语料,包括:
对提取的文本进行分句、分词预处理;
针对预处理后的文本,根据所述人物实例列表中的人物名称通过词匹配的方式标注出人物实体所在位置;
利用预处理后的文本构建关系实例集合;
将定义后的所述家庭关系三元组映射到所述关系实例集合中,得到正例训练语料;
根据预设的负例训练语料判断规则,获取所述关系实例集合中的负例训练语料。
5.根据权利要求4所述的方法,其特征在于,所述根据所述训练语料建立分类模型,包括:
根据所述正例训练语料和所述负例训练语料建立分类模型。
6.一种用于人物关系抽取的装置,其特征在于,包括:
信息采集单元,用于获取属于人物实体的页面,并对页面中的人物实体构建人物实体列表;
信息提取单元,用于提取所述人物实体页面中的文本以及用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义;
训练语料获取单元,用于利用所述人物实体列表对所述文本中的人物实体进行标注,并将定义后的所述家庭关系三元组映射到所述文本中,得到训练语料;
人物关系抽取单元,用于根据所述训练语料建立分类模型,利用所述分类模型对所述文本进行分类,得到所述文本中的新的人物关系。
7.根据权利要求6所述的装置,其特征在于,所述信息采集单元包括:
页面采集子单元,用于获取数据库中存储所有的页面,并从所述页面中获取每个页面包含的页面分类信息;
页面筛选子单元,用于根据所述页面分类信息对页面进行分类,从中筛选出属于人物实体的页面;
人物实体列表构建子单元,用于对人物实体构建人物实体列表。
8.根据权利要求6所述的装置,其特征在于,所述信息提取单元包括:
文本提取子单元,用于提取所述人物实体页面中的文本;
家庭关系三元组提取子单元,用于提取所述人物实体页面中用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义。
9.根据权利要求8所述的装置,其特征在于,所述家庭关系三元组提取子单元包括:
信息盒表项采集子单元,用于获取每个人物实体页面的信息盒表项,生成属性三元组;
筛选及定义子单元,用于从所述属性三元组中筛选用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义。
10.根据权利要求6所述的装置,其特征在于,所述训练语料获取单元包括:
文本预处理子单元,用于对提取的文本进行分句、分词预处理;
人物实体标注子单元,用于针对预处理后的文本,根据所述人物实体列表中的人物名称通过词匹配的方式标注出人物实体所在位置;
关系实例构建子单元,用于利用预处理后的文本构建关系实例集合;
正例训练语料获取子单元,用于将定义后的所述家庭关系三元组映射到所述关系实例集合中,得到正例训练语料;
负例训练语料获取子单元,用于根据预设的负例训练语料判断规则,获取所述关系实例集合中的负例训练语料。
CN201510127450.1A 2015-03-23 2015-03-23 一种用于人物关系抽取的方法和装置 Active CN104657750B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510127450.1A CN104657750B (zh) 2015-03-23 2015-03-23 一种用于人物关系抽取的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510127450.1A CN104657750B (zh) 2015-03-23 2015-03-23 一种用于人物关系抽取的方法和装置

Publications (2)

Publication Number Publication Date
CN104657750A true CN104657750A (zh) 2015-05-27
CN104657750B CN104657750B (zh) 2018-04-27

Family

ID=53248849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510127450.1A Active CN104657750B (zh) 2015-03-23 2015-03-23 一种用于人物关系抽取的方法和装置

Country Status (1)

Country Link
CN (1) CN104657750B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法
CN106649324A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 网站校对信息的建立方法及装置
CN106776544A (zh) * 2016-11-24 2017-05-31 四川无声信息技术有限公司 人物关系识别方法及装置和分词方法
CN108763507A (zh) * 2018-05-30 2018-11-06 北京百度网讯科技有限公司 企业关联关系挖掘方法和装置
CN108959418A (zh) * 2018-06-06 2018-12-07 中国人民解放军国防科技大学 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质
CN109033166A (zh) * 2018-06-20 2018-12-18 国家计算机网络与信息安全管理中心 一种人物属性抽取训练数据集构建方法
CN109062894A (zh) * 2018-07-19 2018-12-21 南京源成语义软件科技有限公司 中文自然语言实体语义关系的自动辨识算法
CN109783775A (zh) * 2019-01-18 2019-05-21 广东小天才科技有限公司 一种标记用户语料的内容的方法及系统
CN110275966A (zh) * 2019-07-01 2019-09-24 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN110457603A (zh) * 2019-08-16 2019-11-15 中国电子信息产业集团有限公司第六研究所 用户关系抽取方法、装置、电子设备及可读存储介质
CN110674637A (zh) * 2019-09-06 2020-01-10 腾讯科技(深圳)有限公司 一种人物关系识别模型训练方法、装置、设备及介质
CN110704427A (zh) * 2019-09-09 2020-01-17 中国华戎科技集团有限公司 核心家庭关系补全方法、系统、存储介质及计算机设备
CN110705301A (zh) * 2019-09-30 2020-01-17 京东城市(北京)数字科技有限公司 实体关系抽取方法及装置、存储介质、电子设备
CN113361280A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 训练模型的方法、预测方法、装置、电子设备以及存储介质
CN114610819A (zh) * 2022-03-17 2022-06-10 中科世通亨奇(北京)科技有限公司 长文本中人物属性关系抽取数据库的建立方法、实体抽取方法,装置及数据库

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308493A (zh) * 2007-05-18 2008-11-19 亿览在线网络技术(北京)有限公司 实体关系展现方法和系统
CN101425065A (zh) * 2007-10-31 2009-05-06 日电(中国)有限公司 实体关系挖掘设备和方法
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
US20140089315A1 (en) * 1997-01-29 2014-03-27 Philip R. Krause Method and Apparatus for Enhancing Electronic Reading by Identifying Relationships between Sections of Electronic Text
CN104182535A (zh) * 2014-08-29 2014-12-03 苏州大学 一种人物关系抽取方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140089315A1 (en) * 1997-01-29 2014-03-27 Philip R. Krause Method and Apparatus for Enhancing Electronic Reading by Identifying Relationships between Sections of Electronic Text
CN101308493A (zh) * 2007-05-18 2008-11-19 亿览在线网络技术(北京)有限公司 实体关系展现方法和系统
CN101425065A (zh) * 2007-10-31 2009-05-06 日电(中国)有限公司 实体关系挖掘设备和方法
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN104182535A (zh) * 2014-08-29 2014-12-03 苏州大学 一种人物关系抽取方法和装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649324A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 网站校对信息的建立方法及装置
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法
CN106776544A (zh) * 2016-11-24 2017-05-31 四川无声信息技术有限公司 人物关系识别方法及装置和分词方法
CN108763507A (zh) * 2018-05-30 2018-11-06 北京百度网讯科技有限公司 企业关联关系挖掘方法和装置
US11397778B2 (en) 2018-05-30 2022-07-26 Beijing Baidu Netcom Service and Technology Co., Ltd. Method and device for mining an enterprise relationship
CN108959418A (zh) * 2018-06-06 2018-12-07 中国人民解放军国防科技大学 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质
CN109033166B (zh) * 2018-06-20 2022-01-07 国家计算机网络与信息安全管理中心 一种人物属性抽取训练数据集构建方法
CN109033166A (zh) * 2018-06-20 2018-12-18 国家计算机网络与信息安全管理中心 一种人物属性抽取训练数据集构建方法
CN109062894A (zh) * 2018-07-19 2018-12-21 南京源成语义软件科技有限公司 中文自然语言实体语义关系的自动辨识算法
CN109783775A (zh) * 2019-01-18 2019-05-21 广东小天才科技有限公司 一种标记用户语料的内容的方法及系统
CN110275966A (zh) * 2019-07-01 2019-09-24 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN110457603B (zh) * 2019-08-16 2021-08-06 中国电子信息产业集团有限公司第六研究所 用户关系抽取方法、装置、电子设备及可读存储介质
CN110457603A (zh) * 2019-08-16 2019-11-15 中国电子信息产业集团有限公司第六研究所 用户关系抽取方法、装置、电子设备及可读存储介质
CN110674637A (zh) * 2019-09-06 2020-01-10 腾讯科技(深圳)有限公司 一种人物关系识别模型训练方法、装置、设备及介质
CN110704427A (zh) * 2019-09-09 2020-01-17 中国华戎科技集团有限公司 核心家庭关系补全方法、系统、存储介质及计算机设备
CN110705301A (zh) * 2019-09-30 2020-01-17 京东城市(北京)数字科技有限公司 实体关系抽取方法及装置、存储介质、电子设备
CN113361280A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 训练模型的方法、预测方法、装置、电子设备以及存储介质
CN113361280B (zh) * 2021-06-30 2023-10-31 北京百度网讯科技有限公司 训练模型的方法、预测方法、装置、电子设备以及存储介质
CN114610819A (zh) * 2022-03-17 2022-06-10 中科世通亨奇(北京)科技有限公司 长文本中人物属性关系抽取数据库的建立方法、实体抽取方法,装置及数据库

Also Published As

Publication number Publication date
CN104657750B (zh) 2018-04-27

Similar Documents

Publication Publication Date Title
CN104657750A (zh) 一种用于人物关系抽取的方法和装置
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN110674311A (zh) 一种基于知识图谱的电力资产异构数据融合方法
J Lesthaeghe et al. Cohabitation and marriage in the Americas: Geo-historical legacies and new trends
CN112131275A (zh) 全息城市大数据模型和知识图谱的企业画像构建方法
CN101777060B (zh) 基于网页视觉特征的网页分类方法及其系统
CN102708096A (zh) 一种基于语义的网络智能舆情监测系统及其工作方法
CN106357942A (zh) 基于上下文对话语义识别的智能应答方法及系统
CN105138652A (zh) 一种企业关联关系识别方法及系统
CN106570191A (zh) 基于维基百科的中英文跨语言实体匹配方法
Ha et al. Barriers to green building implementation in Malaysia: A systematic review
CN107608948A (zh) 一种文本信息抽取模型的构建方法及装置
Klosa et al. New German words: Detection and description
CN104408083A (zh) 一种社会化媒体分析系统
CN104050331A (zh) 建立基于工艺结构树的三维机加工艺模型的方法
CN105279208B (zh) 一种数据标示方法和管理系统
CN103853746A (zh) 词库生成方法及其系统、输入法及输入系统
CN105224520A (zh) 一种中文专利文献术语自动识别方法
CN116187323A (zh) 一种数控机床领域知识图谱及其构建方法
CN104731946A (zh) 一种互联网信息数据挖掘方法
CN105718457A (zh) 基于电子票据的信息推送方法及系统
CN103488819A (zh) 一种实现对知识地图进行多维展现的多维模型设计器
CN110162684A (zh) 基于深度学习的机器阅读理解数据集构建以及评估方法
CN114722829A (zh) 一种基于语言模型的修辞古诗自动生成方法
Arcos-Pumarola et al. The concept of literary heritage: a definition through bibliographic review

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180316

Address after: No. 10, mayor Jinglu Road, Zhangjiagang, Suzhou, Jiangsu

Applicant after: Zhangjiagang Institute of Industrial Technologies Soochow University

Applicant after: Soochow University

Address before: Zhangjiagang mayor Jingyang Road Suzhou City, Jiangsu province 215600 No. 10

Applicant before: Zhangjiagang Institute of Industrial Technologies Soochow University

GR01 Patent grant
GR01 Patent grant