CN111538849B

CN111538849B - 一种基于深度学习的人物关系图谱构建方法及系统

Info

Publication number: CN111538849B
Application number: CN202010358399.6A
Authority: CN
Inventors: 李瑞轩; 张纯鹏; 辜希武; 李玉华
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2023-04-07
Anticipated expiration: 2040-04-29
Also published as: CN111538849A

Abstract

本发明公开了一种基于深度学习的人物关系图谱构建方法及系统，所属方法包括：爬取电子文本，得到初始语料，所述初始语料包括人物信息；对所述初始语料中人物属性进行标注，得到样本数据并进行预处理；设置模型超参数，结合预处理后的样本数据建立深度学习模型；定义具有层次化的人物信息模板，并基于所述深度学习模型提取人物属性信息，对所述人物属性信息进行筛选，并填充所述人物信息模板；利用填充好的人物信息模板以及预先定义好的人物关系实体，构建人物关系图谱。如此，本发明能够解决多值人物属性以及存在于分散文本的人物关系发现与提取问题，进而提高了人物关系图谱构建的准确性和信息丰富度。

Description

一种基于深度学习的人物关系图谱构建方法及系统

技术领域

本发明涉及人工智能技术领域，更具体地，涉及一种基于深度学习的人物关系图谱构建方法及系统。

背景技术

人物关系图谱，即从文本中抽取出人物的各种属性，以结构化的形式描述客观世界中与人物相关的概念、实体及其关系。伴随着互联网的发展，信息呈现爆炸式增长的态势，依靠人工分析、处理和理解海量文本数据，已经不现实。人物关系图谱为人们从海量文本中高效分析、处理和理解人物之间的关系提供了解决方案，在金融、法律、科研等多个行业扮演着越来越重要的角色，为智能问答、决策分析等应用提供可靠的依据，成为了学术界和工业界的研究热点。

现有的人物关系图谱的构建主要包含以下步骤：

1.人物关系图谱的模式层构建，从最顶层的概念开始定义人物的各种属性，以及人物之间的各种关系。

2.知识抽取，利用模式识别或者机器学习等相关技术自动或者半自动的从一些开放的多源数据中提取人物关系图谱的关系、人物属性等要素；知识抽取的准确率和召回率将直接影响人物关系图谱的质量。

3.模式填充，将知识抽取得到的关系及人物属性匹配填充到所构建的模式层中，完成数据的填充。

以上流程构建的人物关系图谱，存在着一些问题，即人物属性值大多为单值，无法准确表示出含有多值属性的情况；其次人物关系的提取大多直接从文本中发现人物之间的关系，然而大部分情况下，人物关系信息零散的分布在多个文本中，无法直接提取到。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于深度学习的人物关系图谱构建方法及系统，其目的在于解决现有的人物关系图谱构建方法无法准确表示出含有多值属性，以及如何发现与提取存在于分散文本的人物关系的技术问题。

为实现上述目的，本发明提供了一种基于深度学习的人物关系图谱构建方法，包括以下步骤：

S1：爬取电子文本，得到初始语料，所述初始语料包括人物信息；对所述初始语料中人物属性进行标注，得到样本数据并进行预处理；

S2：设置模型超参数，结合步骤S1预处理后的样本数据建立深度学习模型；

S3：定义具有层次化的人物信息模板，所述人物信息模板包括多个元组，所述元组由一个或多个人物属性组成；基于所述深度学习模型提取人物属性信息，对所述人物属性信息进行筛选，并填充所述人物信息模板；

S4：利用步骤S3填充好的人物信息模板以及预先定义好的人物关系实体，构建人物关系图谱。

进一步地，所述步骤S1中对样本数据进行预处理包括：

S11：定义人物属性标签集合，记为L＝{l₁,l₂,…,l_m}，其中m为标签数量；

S12：将每个样本数据的文本信息e，按照句子s进行分割，即e＝{s₁,s₂,…,s_p}，其中p为句子数量；再对句子s，按照每个字符t进行分割，即s＝{t₁,t₂,…,t_q}，其中q为句子中字符的数量；

S13：用(t,l)的元组形式在所有样本数据中标记出所有人物属性信息，其中t表示文本信息中的每一个字符，l表示字符对应的人物属性标签；

S14：将标记好的样本数据划分为训练集、验证集与测试集。

进一步地，所述步骤S2包括：

S21：设置模型超参数，所述模型超参数包括：句子长度、batch size大小以及模型的学习率；

S22：将步骤S14得到的训练集，作为训练数据，输入所述深度学习模型中，对所述深度学习模型进行训练；其中，所述深度学习模型为逐个输出汉字BIO类型标签的神经网络模型；

S23：将步骤S14得到的验证集，作为验证数据，输入步骤S22训练好的模型中，得到初步验证结果；若所述验证结果不满足要求，则调整所述模型超参数，继续进行模型训练，若所述验证结果满足要求，则进行步骤S24；

S24：将步骤S14得到的测试集，作为测试数据，输入步骤S23优化后的模型中，得到每个字符的预测标签。

进一步地，所述步骤S24中，

将所述测试数据输入Embedding层，分别经过Token Embedding、SegmentEmbedding、Position Embedding融合字符的预训练信息、段落信息以及位置信息，最终得到d维向量；其中，d的取值范围为768～1024；

将所述d维向量输入Encoder层，经过多个自编码器，每个自编码器分别抽取不同特征，最终将每个自编码器的输出进行拼接融合，从而得到融合上下文语义信息的不同特征的字符向量；

将所述字符向量输入Classification层，通过一个全连接网络接一个SoftMax分类器，对所述字符向量进行多标签分类，从而得到每个字符对应的预测标签。

进一步地，所述步骤S3包括：

S31：定义具有层次化的人物信息模板，记为M＝{a₁,a₂,…,a_r|r≤m}，元组a由一个或者多个人物属性组成，即a＝{l_i,l_i+1,…,l_j|i≤j}；

S32：根据步骤S23得到的深度学习模型，得到每个字符对应的BIO标签，从而得到初步结构化的人物属性信息；

S33：统计经步骤S32处理后得到的人物属性信息，确定每个人物属性出现的次数，记为N＝{n₁,n₂,…,n_m}，其中m为标签数量；

S34：根据步骤S31定义的人物模板信息，填充人物模板；对于由单个人物属性构成的元组，直接填充即可；对于由多个人物属性构成的元组，列出元组包含的所有人物属性对应的值的组合，再进行填充；

S35：确定元组的向量表示，具体为：每个元组由x个人物属性构成，记为tuple＝{l_i,l_i+1,…,l_j|i+x-1＝j}，其中每个人物属性由k个字符构成，即l_i＝{t₁,t₂,…,t_k}，则每个人物属性的向量表示为label_v_i＝MaxPooling{v₁,v₂,…,v_k}，其中，MaxPooling为向量的最大池化操作；将每个人物属性的向量表示进行拼接，得到元组的向量表示，即tuple_v_i＝(label_v_i,label_v_i+1,…,label_v_j)；

S36：对于每个由多个人物属性构成的元组，都预先定义一个概率模型，用于输出当前元组元素为正确元素的概率；

S37：将步骤S35得到的tuple_v_i输入到步骤S36定义的概率模型中，通过人工标记的真实元素标签，进行训练，得到每个元组元素为真实元素的概率；

S38：对于每个由多个人物属性构成的元组，其最大元素数量由元组中包含的最多人物属性数量确定，即max_num＝max({n_i,n_i+1,…,n_j|i≤j})；选取max_nun个由步骤S37得到的概率值相对较大的元组元素，作为元组的最终元素；

S39：根据步骤S38确定的每一个元组元素，得到完整的人物模板信息。

进一步地，所述步骤S4包括：

S41：预先定义好人物关系实体；

S42：结合预先定义好的人物关系实体，对步骤S3填充好的人物信息模板进行处理，得到人物之间的关系；

S43：将步骤S3填充好的人物信息模板和步骤S42得到的人物之间的关系，导入到图数据库；

S44：根据所述图数据库可视化输出人物关系图谱。

进一步地，所述步骤S1中人物属性包括以下至少之一：

姓名、性别、年龄、出生日期、国籍、民族、境外居留权、政治面貌、获奖时间、颁奖机构、奖项名称、职称/资质时间、职称/资质、入学时间、毕业时间、毕业院校、专业背景、学历、入职时间、离职时间、曾任/现任/至今、就职单位、就职部门、职位。

进一步地，所述步骤S4中人物关系实体包括以下至少之一：

同学关系、同事关系、同行关系。

本发明另一方面提供了一种基于深度学习的人物关系图谱构建系统，包括：

预处理模块，用于爬取电子文本，得到初始语料，所述初始语料包括人物信息；对所述初始语料中人物属性进行标注，得到样本数据并进行预处理；

深度学习模型建立模块，用于设置模型超参数，结合所述预处理模块处理后的样本数据建立深度学习模型；

人物信息模板填充模块，用于定义具有层次化的人物信息模板，所述人物信息模板包括多个元组，所述元组由一个或多个人物属性组成；基于所述深度学习模型提取人物属性信息，对所述人物属性信息进行筛选，并填充所述人物信息模板；

人物关系图谱构建模块，用于利用填充好的人物信息模板以及预先定义好的人物关系实体，构建人物关系图谱。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明通过获取包含人物信息的文本，对文本进行一些预处理，运用深度学习方法结合文本的上下文信息以及字符的位置信息，能够较为准确地提取出人物属性值；同时通过定义人物层次化信息模板，使用得到的人物属性值填充人物层次化信息模板，结合人物属性识别与抽取过程中得到的字符向量表示，运用概率模型筛选人物层次化信息，获得了较为准确和信息丰富的层次化人物信息，进而解决了现有的人物关系图谱构建方法无法准确表示出含有多值属性，以及如何发现与提取存在于分散文本的人物关系的技术问题。

(2)本发明采用多个自编码器，每个自编码器分别抽取不同特征，最终将每个自编码器的输出进行拼接融合，从而得到融合上下文语义信息的不同特征的字符向量，能够更加准确的表示字符的语义信息，从而得到更加准确的人物属性。

(3)本发明通过概率模型，对包含多个人物属性的元组进行比较准确的筛选，更好地解决了层次化人物模板的信息填充问题。

附图说明

图1是本发明提供的一种基于深度学习的人物关系图谱构建方法的流程示意图；

图2是本发明实施例中人物属性识别与抽取的模型结构图；

图3是本发明实施例中人物信息模板填充的流程示意图；

图4是本发明实施例中人物关系图谱构建的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。此外，以下所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明一方面提供了一种基于深度学习的人物关系图谱构建方法，如图1所示，整个流程主要包括获取人物文本信息并进行预处理、识别与抽取人物属性、填充人物信息模板以及构建人物关系图谱，具体包括：

具体的，可以利用Python中的Urllib2爬取电子文本，得到初始语料；其中，电子文本可以是人物简历等文本信息，人物属性可以是人员姓名、性别、年龄、出生日期、国籍、民族、境外居留权、政治面貌、获奖时间、颁奖机构、奖项名称、职称/资质时间、职称/资质、入学时间、毕业时间、毕业院校、专业背景、学历、入职时间、离职时间、曾任/现任/至今、就职单位、就职部门、职位等。

对样本数据进行预处理包括：

S14：将标记好的样本数据划分为训练集、验证集与测试集，一般按照8:1:1的比例进行划分。

S23：将步骤S14得到的验证集，作为验证数据，输入步骤S22训练好的模型中，得到初步验证结果；若所述验证结果没有达到准确率、召回率及F值的要求，则调整所述模型超参数，继续进行模型训练，若所述验证结果达到理想的准确率、召回率及F值，则进行步骤S24；

其中，将步骤S14得到的测试集，作为测试数据，对测试数据进一步的处理，得到模型输入特征，如图2所示，所述输入特征经过Embedding层，在Embedding层，分别经过TokenEmbedding、Segment Embedding、Position Embedding融合字符的预训练信息、段落信息以及位置信息，最终得到768维的Embedding向量，将Embedding层得到的768维向量送入Encoder层，在Encoder层经过多个自编码器Encoder，每个Encoder分别抽取不同特征，最终将每个Encoder的输出进行拼接融合，获得融合上下文语义信息的不同特征的字符向量TokenVector，将Encoder层输出的TokenVector送入最终的Classification层，通过一个全连接网络接一个SoftMax分类器，对字符向量进行多标签分类，得到字符对应的预测标签，最终得到文本中每个字符的预测标签。如图2所示的Encoder层的输出即为句子中每个字符对应的768维向量编码，记为V＝{v₁,v₂,…,v_q}。

S3：定义具有层次化的人物信息模板，所述人物信息模板包括多个元组，所述元组由一个或多个人物属性组成；基于所述深度学习模型提取人物属性信息，对所述人物属性信息进行筛选，并填充所述人物信息模板，如图3所示；

S38：对于每个由多个人物属性构成的元组，其最大元素数量由元组中包含的最多人物属性数量确定，即max_num＝max({n_i,n_i+1,…,n_j|i≤j})；选取max_num个由步骤S37得到的概率值相对较大的元组元素，作为元组的最终元素；

S4：利用步骤S3填充好的人物信息模板以及预先定义好的人物关系实体，构建人物关系图谱，如图4所示。

S41：预先定义好人物关系实体；其中，人物关系实体可以是同学关系、同事关系、同行关系；

S44：根据所述图数据库可视化输出人物关系图谱。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例，只是用于帮助理解本发明，并不用以限制本发明，对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的人物关系图谱构建方法，其特征在于，所述方法包括以下步骤：

所述步骤S3包括：

S32：根据所述深度学习模型，得到每个字符对应的BIO标签，从而得到初步结构化的人物属性信息；

S38：对于每个由多个人物属性构成的元组，其最大元素数量由元组中包含的最多人物属性数量确定，即max_num＝max({n_i,n_i+1,…,n_j|i≤j})；选取max_num个由步骤S37得到的概率值最大的元组元素，作为元组的最终元素；

S39：根据步骤S38确定的每一个元组元素，得到完整的人物模板信息；

2.根据权利要求1所述的基于深度学习的人物关系图谱构建方法，其特征在于，所述步骤S1中对样本数据进行预处理包括：

S14：将标记好的样本数据划分为训练集、验证集与测试集。

3.根据权利要求2所述的基于深度学习的人物关系图谱构建方法，其特征在于，所述步骤S2包括：

4.根据权利要求3所述的基于深度学习的人物关系图谱构建方法，其特征在于，所述步骤S24中，

将所述测试数据输入Embedding层，分别经过Token Embedding、Segment Embedding、Position Embedding融合字符的预训练信息、段落信息以及位置信息，最终得到d维向量；其中，d的取值范围为768～1024；

5.根据权利要求1所述的基于深度学习的人物关系图谱构建方法，其特征在于，所述步骤S4包括：

S41：预先定义好人物关系实体；

S44：根据所述图数据库可视化输出人物关系图谱。

6.根据权利要求1所述的基于深度学习的人物关系图谱构建方法，其特征在于，所述步骤S1中人物属性包括以下至少之一：

7.根据权利要求1所述的基于深度学习的人物关系图谱构建方法，其特征在于，所述步骤S4中人物关系实体包括以下至少之一：

同学关系、同事关系、同行关系。

8.一种基于深度学习的人物关系图谱构建系统，其特征在于，包括：

所述人物信息模板填充模块具体用于执行以下步骤：