CN104657750A

CN104657750A - 一种用于人物关系抽取的方法和装置

Info

Publication number: CN104657750A
Application number: CN201510127450.1A
Authority: CN
Inventors: 钱龙华; 朱苏阳; 李军辉; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-03-23
Filing date: 2015-03-23
Publication date: 2015-05-27
Anticipated expiration: 2035-03-23
Also published as: CN104657750B

Abstract

本发明公开了一种用于人物关系抽取的方法和装置。该方法在获取属于人物实体的页面后，对页面中的人物实体构建人物实体列表。进而，在对文本中的人物实体进行标注时，采用人物实例列表与文本中的人物实体名称进行匹配，完成对人物实体的标注。同时，将已知的用于表征人物实体之间关系的家庭关系三元组映射到文本中，实现对文本中的人物实体之间的人物关系的标注，得到训练语料，并利用训练语料建立分类模型，抽取文中的新的人物实体关系。与现有技术相比，本发明无需人工对人物实体和人物实体之间的人物关系标注时，省时省力，提高了工作效率。

Description

一种用于人物关系抽取的方法和装置

技术领域

本发明涉及自然语言处理技术领域，更具体的说是涉及一种用于人物关系抽取的方法和装置。

背景技术

人物关系抽取是信息抽取领域和自然语言处理领域中的一项重要研究内容，其任务是从自然语言文本中获取两个人物实体间的人物关系。作为一项应用基础性研究，人物关系抽取对自然语言处理的许多应用，如问题回答、信息融合、社会网络构建以及知识挖掘等都具有重要的意义。

目前采用的有监督学习方法在对人物关系进行抽取时通常需要建立一个分类模型来判断一个实例中是否包含人物关系。然而，在生成训练语料过程中，有监督学习方法的抽取性能受到标注语料的规模、质量以及领域的限制，对于网络上的大规模自然语言文本，需要人工对人物实体和人物实体之间的人物关系进行标注，工作效率低。

发明内容

有鉴于此，本发明提供一种用于人物关系抽取的方法和装置，通过建立人物实体列表以及将已知的用于表征人物关系的家庭关系三元组映射到文本中，实现对人物实体和人物实体之间人物关系的标注，从而提高对工作效率。

为实现上述目的，本发明提供如下技术方案：

一种用于人物关系抽取的方法，包括：

获取属于人物实体的页面，并对页面中的人物实体构建人物实体列表；

提取所述人物实体页面中的文本以及用于表征人物实体之间关系的家庭关系三元组，并对所述家庭关系三元组进行关系定义；

利用所述人物实体列表对所述文本中的人物实体进行标注，并将定义后的所述家庭关系三元组映射到所述文本中，得到训练语料；

根据所述训练语料建立分类模型，利用所述分类模型对所述文本进行分类，得到所述文本中的新的人物关系。

优选的，所述获取属于人物实体的页面，包括：

获取数据库中存储所有的页面，并从所述页面中获取每个页面包含的页面分类信息；

根据所述页面分类信息对页面进行分类，从中筛选出属于人物实体的页面。

优选的，所述提取用于表征人物实体之间关系的家庭关系三元组，并对所述家庭关系三元组进行关系定义，包括：

获取每个人物实体页面的信息盒表项，生成属性三元组；

从所述属性三元组中筛选用于表征人物实体之间关系的家庭关系三元组，并对所述家庭关系三元组进行关系定义。

优选的，所述利用所述人物实体列表对所述文本中的人物实体进行标注，并将定义后的所述家庭关系三元组映射到所述文本中，得到训练语料，包括：

对提取的文本进行分句、分词预处理；

针对预处理后的文本，根据所述人物实例列表中的人物名称通过词匹配的方式标注出人物实体所在位置；

利用预处理后的文本构建关系实例集合；

将定义后的所述家庭关系三元组映射到所述关系实例集合中，得到正例训练语料；

根据预设的负例训练语料判断规则，获取所述关系实例集合中的负例训练语料。

优选的，所述根据所述训练语料建立分类模型，包括：

根据所述正例训练语料和所述负例训练语料建立分类模型。

一种用于人物关系抽取的装置，包括：

信息采集单元，用于获取属于人物实体的页面，并对页面中的人物实体构建人物实体列表；

信息提取单元，用于提取所述人物实体页面中的文本以及用于表征人物实体之间关系的家庭关系三元组，并对所述家庭关系三元组进行关系定义；

训练语料获取单元，用于利用所述人物实体列表对所述文本中的人物实体进行标注，并将定义后的所述家庭关系三元组映射到所述文本中，得到训练语料；

人物关系抽取单元，用于根据所述训练语料建立分类模型，利用所述分类模型对所述文本进行分类，抽取所述文本中的新的人物关系。

优选的，所述信息采集单元包括：

页面采集子单元，用于获取数据库中存储所有的页面，并从所述页面中获取每个页面包含的页面分类信息；

页面筛选子单元，用于根据所述页面分类信息对页面进行分类，从中筛选出属于人物实体的页面；

人物实体列表构建子单元，用于对人物实体构建人物实体列表。

优选的，所述信息提取单元包括：

文本提取子单元，用于提取所述人物实体页面中的文本；

家庭关系三元组提取子单元，用于提取所述人物实体页面中用于表征人物实体之间关系的家庭关系三元组，并对所述家庭关系三元组进行关系定义。

优选的，所述家庭关系三元组提取子单元包括：

信息盒表项采集子单元，用于获取每个人物实体页面的信息盒表项，生成属性三元组；

筛选及定义子单元，用于从所述属性三元组中筛选用于表征人物实体之间关系的家庭关系三元组，并对所述家庭关系三元组进行关系定义。

优选的，所述训练语料获取单元包括：

文本预处理子单元，用于对提取的文本进行分句、分词预处理；

人物实体标注子单元，用于针对预处理后的文本，根据所述人物实体列表中的人物名称通过词匹配的方式标注出人物实体所在位置；

关系实例构建子单元，用于利用预处理后的文本构建关系实例集合；

正例训练语料获取子单元，用于将定义后的所述家庭关系三元组映射到所述关系实例集合中，得到正例训练语料；

负例训练语料获取子单元，用于根据预设的负例训练语料判断规则，获取所述关系实例集合中的负例训练语料。

经由上述的技术方案可知，本发明公开了一种用于人物关系抽取的方法和装置。该方法在获取属于人物实体的页面后，对页面中的人物实体构建人物实体列表。进而，在对文本中的人物实体进行标注时，采用人物实例列表与文本中的人物实体名称进行匹配，完成对人物实体的标注。同时，将已知的用于表征人物实体之间关系的家庭关系三元组映射到文本中，实现对文本中的人物实体之间的人物关系的标注，得到训练语料，并利用训练语料建立分类模型，抽取文中的新的人物实体关系。与现有技术相比，本发明无需人工对人物实体和人物实体之间的人物关系标注时，省时省力，提高了工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本发明一个实施例公开的一种用于抽取人物关系的方法的流程示意图；

图2示出了本发明实施例中一种用于抽取人物关系的装置的结构示意图；

图3示出了本发明实施例公开的一种信息信息采集单元的结构示意图；

图4示出了本发明另外一个实施例中公开的一种训练语料获取单元的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1示出了本发明一个实施例公开的一种用于抽取人物关系的方法的流程示意图。

由图1可知，该方法包括：

101：获取属于人物实体的页面，并对页面中的人物实体构建人物实体列表。

获取在网络数据库，如百度百科和维基百科的数据库中存储的所有页面，从所有页面中筛选出属于人物实体的页面。

可选的，可根据所述页面分类信息对页面进行分类，从中筛选出属于人物实体的页面。

其筛选过程为：对每个页面所包含的每一条页面类型与“出生”、“逝世”、“人物”、“生年不详”、“卒年不详”、“角色”、“人物小作品”七个词做右部匹配，即从页面分类词的最右侧开始可以找到上述七个词的匹配。若该页面的分类能够与上述七个词成功右侧匹配至少一次，则认为该页面属于人物实体的页面。该规则的依据是中文里一个短语的中心词通常位于该短语的最右侧。例如页面“李靖”包含的页面类型中，“571年出生”可以与“出生”成功右侧匹配，因此可以认为页面“李靖”属于人物实体的页面。

对所述属于人物实体的页面构建人物实体列表。本发明考虑到人物实体的多名问题，利用重定向列表获取这些人物实体的其它名称，最后得到一个每个表项不等长，且每个表项包含人物实体的一个或多个名称的人物实体列表。例如表项[苏轼、东坡居士、苏子瞻、苏东坡、苏和仲、文忠、诗神、苏文忠]包含了人物实体“苏轼”的所有名称(本名和别名等)。

102：提取所述人物实体页面中的文本以及用于表征人物实体之间关系的家庭关系三元组，并对所述家庭关系三元组进行关系定义。

网络数据库的信息盒中，一条信息盒表项描述了人物实体的一个属性。在描述人物实体家庭关系信息的信息盒表项前添加该人物实体名称得到的家庭关系三元组(首元实体，家庭关系，末元实体)，其中首元实体即人物实体的名称，家庭关系和末元实体分别对应信息盒表项的属性名和属性值，如(郭沫若，父亲，郭朝沛)。

根据家里关系三元组，对人物实体的家庭关系进行关系定义，如(郭沫若，父亲，郭朝沛)即属于亲子关系。在本实施例中本发明定义了亲子关系、配偶关系、兄弟姐妹关系、旁系亲属关系、祖孙关系、姻亲关系。

103：利用所述人物实体列表对所述文本中的人物实体进行标注，并将定义后的所述家庭关系三元组映射到所述文本中，得到训练语料。

根据人物实体列表中的人物名称通过词匹配的方式标注出人物实体所出现的位置。例如：

例句1：[足利义昭]是室町幕府的第12代将军[足利义晴]的次子，其母亲是[近卫尚通]的女儿[庆寿院]。

其中包含4个人物实体“足利义昭”、“足利义晴”、“近卫尚通”、“庆寿院”，分别用括号[]标出。

104：根据所述训练语料建立分类模型，利用所述分类模型对所述文本进行分类，抽取所述文本中的新的人物关系。

由以上实施例可知，在本实施例中该方法在获取属于人物实体的页面后，对页面中的人物实体构建人物实体列表。进而，在对文本中的人物实体进行标注时，采用人物实例列表与文本中的人物实体名称进行匹配，完成对人物实体的标注。同时，将已知的用于表征人物实体之间关系的家庭关系三元组映射到文本中，实现对文本中的人物实体之间的人物关系的标注，得到训练语料，并利用训练语料建立分类模型，抽取文中的新的人物实体关系。与现有技术相比，本发明无需人工对人物实体和人物实体之间的人物关系标注时，省时省力，提高了工作效率。

可选的，在本发明的另一个实施例中，在获取训练语料时需要获取文本中的正例训练语料和负例训练语料，其过程为：

1、对提取的文本进行分句、分词等预处理工作。本发明以句号、问号和感叹号作为句子的分隔符对文本进行分句，再使用现有的分词工具对句子进行分词。

2、利用预处理后的句子构建一个关系实例的集合。本发明申请采用以下方法构建该句子集合：

若一句句子中包含的不同的人物实体数目大于等于2，则取这些人物实体的两两组合数n，由该句子产生n个关系实例。将这些关系实例加入到集合中。例句1中的4个人物实体就可以产生6对人物的关系实例。

若一句句子中有且仅有1个人物实体，且该实体不是句子所在页面所对应的人物实体，则将该句子作为一个关系实例加入到集合中。这一规则考虑到一个页面中有可能存在省略了主语的句子，例如页面“长孙无忌”中的下列句子：

祖父[长孙兕]，北周开府仪同三司，平原县侯。

这句句子省略了本该位于句首的主语，亦即该页面所对应的人物实体“长孙无忌”。

3、将家庭关系三元组映射到属于同一个人物页面的关系实例中获取正例语料，并根据预设的负例训练语料判断规则，获取所述关系实例集合中的负例训练语料。

本发明申请采用以下方法构建训练语料的正例。

a、对于一个关系实例，若其句子中同时包含了某一个家庭关系三元组的首元实体和末元实体，则认为该实例是该家庭关系三元组所属家庭关系类型的一个正例。例如：[郑少秋]和[沈殿霞]两人在加拿大结婚。

由于存在家庭关系三元组(郑少秋，配偶，沈殿霞)，因此满足这条规则。

b、对于一个关系实例，若其句子中仅包含某一个家庭关系三元组的末元实体，却同时包含了该家庭关系三元组的关系名称或与该关系名称同属于一类关系的其它关系名称，则认为该实例是该家庭关系三元组所属家庭关系类型的一个正例。这一规则是考虑到句子中省略主语的情况。

从构建得到的关系实例集合中获取训练语料的负例。将句子中没有出现任何关系名称的句子认为是一个可能的负例。对于句子中没有出现任何关系名称的实例，本发明申请采用以下方法构建训练语料的负例。

a、对于一个关系实例，若其句子中仅包含一个人物实体，则认为该实例为一个负例。例如：在此期间，他还结识了[孙科]。

其中只有一个人物实体且不出现关系名称，满足这条规则，认为这是一个负例。

b、对于一个关系实例，若其句子中包含多个人物实体，且其实体对中的两个实体不同时在正例中出现，则认为该实例为一个负例。例如：

例句5：贞观六年，[唐太宗]在丹霞殿设宴，叫[王珪]评品诸大臣。

其中不出现关系名称，且人物实体“唐太宗”和“王珪”未同时在正例中出现，满足这条规则，认为这是一个负例。

从全体关系实例从筛选出正例训练语料与负例训练语料之后，剩余的关系实例作为未知实例，以后可以使用分类模型对其进行分类以挖掘未知的家庭关系。

需要说明的是，本发明的另一个实施例还公开了一种用于抽取人物关系的装置。

参见图2示出了本发明实施例中一种用于抽取人物关系的装置的结构示意图。

由图2可知，该装置包括：

信息采集单元1，用于获取属于人物实体的页面，并对页面中的人物实体构建人物实体列表。

信息提取单元2，用于提取所述人物实体页面中的文本以及用于表征人物实体之间关系的家庭关系三元组，并对所述家庭关系三元组进行关系定义。

可选的，在本发明的其他实施例中该信息提取单元包括：文本提取子单元和家庭关系三元组提取子单元。其中，文本提取子单元用于提取所述人物实体页面中的文本。家庭关系三元组提取子单元用于提取所述人物实体页面中用于表征人物实体之间关系的家庭关系三元组，并对所述家庭关系三元组进行关系定义。

所述家庭关系三元组提取子单元具体包括：

训练语料获取单元3，用于利用所述人物实体列表对所述文本中的人物实体进行标注，并将定义后的所述家庭关系三元组映射到所述文本中，得到训练语料。

人物关系抽取单元4，用于根据所述训练语料建立分类模型，利用所述分类模型对所述文本进行分类，抽取所述文本中的新的人物关系。

可选的，在本发明公开的另一实施例中该信息采集单元包括多个子单元。参见图3示出了本发明实施例公开的一种信息信息采集单元的结构示意图。

由图3可知，该信息采集单元包括：

页面采集子单元11，用于获取数据库中存储所有的页面，并从所述页面中获取每个页面包含的页面分类信息；

页面筛选子单元12，用于根据所述页面分类信息对页面进行分类，从中筛选出属于人物实体的页面；

人物实体列表构建子单元13，用于对人物实体构建人物实体列表。

参见图4示出了本发明另外一个实施例中公开的一种训练语料获取单元的结构示意图。

该训练语料获取单元包括：

文本预处理子单元31，用于对提取的文本进行分句、分词预处理。

人物实体标注子单元32，用于针对预处理后的文本，根据所述人物实体列表中的人物名称通过词匹配的方式标注出人物实体所在位置。

关系实例构建子单元33，用于利用预处理后的文本构建关系实例集合。

正例训练语料获取子单元34，用于将定义后的所述家庭关系三元组映射到所述关系实例集合中，得到正例训练语料。

负例训练语料获取子单元35，用于根据预设的负例训练语料判断规则，获取所述关系实例集合中的负例训练语料。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用于人物关系抽取的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取属于人物实体的页面，包括：

3.根据权利要求1所述的方法，其特征在于，所述提取用于表征人物实体之间关系的家庭关系三元组，并对所述家庭关系三元组进行关系定义，包括：

获取每个人物实体页面的信息盒表项，生成属性三元组；

4.根据权利要求1所述的方法，其特征在于，所述利用所述人物实体列表对所述文本中的人物实体进行标注，并将定义后的所述家庭关系三元组映射到所述文本中，得到训练语料，包括：

对提取的文本进行分句、分词预处理；

利用预处理后的文本构建关系实例集合；

5.根据权利要求4所述的方法，其特征在于，所述根据所述训练语料建立分类模型，包括：

根据所述正例训练语料和所述负例训练语料建立分类模型。

6.一种用于人物关系抽取的装置，其特征在于，包括：

人物关系抽取单元，用于根据所述训练语料建立分类模型，利用所述分类模型对所述文本进行分类，得到所述文本中的新的人物关系。

7.根据权利要求6所述的装置，其特征在于，所述信息采集单元包括：

8.根据权利要求6所述的装置，其特征在于，所述信息提取单元包括：

文本提取子单元，用于提取所述人物实体页面中的文本；

9.根据权利要求8所述的装置，其特征在于，所述家庭关系三元组提取子单元包括：

10.根据权利要求6所述的装置，其特征在于，所述训练语料获取单元包括：