CN111538849B - 一种基于深度学习的人物关系图谱构建方法及系统 - Google Patents

一种基于深度学习的人物关系图谱构建方法及系统 Download PDF

Info

Publication number
CN111538849B
CN111538849B CN202010358399.6A CN202010358399A CN111538849B CN 111538849 B CN111538849 B CN 111538849B CN 202010358399 A CN202010358399 A CN 202010358399A CN 111538849 B CN111538849 B CN 111538849B
Authority
CN
China
Prior art keywords
character
tuple
information
person
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010358399.6A
Other languages
English (en)
Other versions
CN111538849A (zh
Inventor
李瑞轩
张纯鹏
辜希武
李玉华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202010358399.6A priority Critical patent/CN111538849B/zh
Publication of CN111538849A publication Critical patent/CN111538849A/zh
Application granted granted Critical
Publication of CN111538849B publication Critical patent/CN111538849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的人物关系图谱构建方法及系统,所属方法包括:爬取电子文本,得到初始语料,所述初始语料包括人物信息;对所述初始语料中人物属性进行标注,得到样本数据并进行预处理;设置模型超参数,结合预处理后的样本数据建立深度学习模型;定义具有层次化的人物信息模板,并基于所述深度学习模型提取人物属性信息,对所述人物属性信息进行筛选,并填充所述人物信息模板;利用填充好的人物信息模板以及预先定义好的人物关系实体,构建人物关系图谱。如此,本发明能够解决多值人物属性以及存在于分散文本的人物关系发现与提取问题,进而提高了人物关系图谱构建的准确性和信息丰富度。

Description

一种基于深度学习的人物关系图谱构建方法及系统
技术领域
本发明涉及人工智能技术领域,更具体地,涉及一种基于深度学习的人物关系图谱构建方法及系统。
背景技术
人物关系图谱,即从文本中抽取出人物的各种属性,以结构化的形式描述客观世界中与人物相关的概念、实体及其关系。伴随着互联网的发展,信息呈现爆炸式增长的态势,依靠人工分析、处理和理解海量文本数据,已经不现实。人物关系图谱为人们从海量文本中高效分析、处理和理解人物之间的关系提供了解决方案,在金融、法律、科研等多个行业扮演着越来越重要的角色,为智能问答、决策分析等应用提供可靠的依据,成为了学术界和工业界的研究热点。
现有的人物关系图谱的构建主要包含以下步骤:
1.人物关系图谱的模式层构建,从最顶层的概念开始定义人物的各种属性,以及人物之间的各种关系。
2.知识抽取,利用模式识别或者机器学习等相关技术自动或者半自动的从一些开放的多源数据中提取人物关系图谱的关系、人物属性等要素;知识抽取的准确率和召回率将直接影响人物关系图谱的质量。
3.模式填充,将知识抽取得到的关系及人物属性匹配填充到所构建的模式层中,完成数据的填充。
以上流程构建的人物关系图谱,存在着一些问题,即人物属性值大多为单值,无法准确表示出含有多值属性的情况;其次人物关系的提取大多直接从文本中发现人物之间的关系,然而大部分情况下,人物关系信息零散的分布在多个文本中,无法直接提取到。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于深度学习的人物关系图谱构建方法及系统,其目的在于解决现有的人物关系图谱构建方法无法准确表示出含有多值属性,以及如何发现与提取存在于分散文本的人物关系的技术问题。
为实现上述目的,本发明提供了一种基于深度学习的人物关系图谱构建方法,包括以下步骤:
S1:爬取电子文本,得到初始语料,所述初始语料包括人物信息;对所述初始语料中人物属性进行标注,得到样本数据并进行预处理;
S2:设置模型超参数,结合步骤S1预处理后的样本数据建立深度学习模型;
S3:定义具有层次化的人物信息模板,所述人物信息模板包括多个元组,所述元组由一个或多个人物属性组成;基于所述深度学习模型提取人物属性信息,对所述人物属性信息进行筛选,并填充所述人物信息模板;
S4:利用步骤S3填充好的人物信息模板以及预先定义好的人物关系实体,构建人物关系图谱。
进一步地,所述步骤S1中对样本数据进行预处理包括:
S11:定义人物属性标签集合,记为L={l1,l2,…,lm},其中m为标签数量;
S12:将每个样本数据的文本信息e,按照句子s进行分割,即e={s1,s2,…,sp},其中p为句子数量;再对句子s,按照每个字符t进行分割,即s={t1,t2,…,tq},其中q为句子中字符的数量;
S13:用(t,l)的元组形式在所有样本数据中标记出所有人物属性信息,其中t表示文本信息中的每一个字符,l表示字符对应的人物属性标签;
S14:将标记好的样本数据划分为训练集、验证集与测试集。
进一步地,所述步骤S2包括:
S21:设置模型超参数,所述模型超参数包括:句子长度、batch size大小以及模型的学习率;
S22:将步骤S14得到的训练集,作为训练数据,输入所述深度学习模型中,对所述深度学习模型进行训练;其中,所述深度学习模型为逐个输出汉字BIO类型标签的神经网络模型;
S23:将步骤S14得到的验证集,作为验证数据,输入步骤S22训练好的模型中,得到初步验证结果;若所述验证结果不满足要求,则调整所述模型超参数,继续进行模型训练,若所述验证结果满足要求,则进行步骤S24;
S24:将步骤S14得到的测试集,作为测试数据,输入步骤S23优化后的模型中,得到每个字符的预测标签。
进一步地,所述步骤S24中,
将所述测试数据输入Embedding层,分别经过Token Embedding、SegmentEmbedding、Position Embedding融合字符的预训练信息、段落信息以及位置信息,最终得到d维向量;其中,d的取值范围为768~1024;
将所述d维向量输入Encoder层,经过多个自编码器,每个自编码器分别抽取不同特征,最终将每个自编码器的输出进行拼接融合,从而得到融合上下文语义信息的不同特征的字符向量;
将所述字符向量输入Classification层,通过一个全连接网络接一个SoftMax分类器,对所述字符向量进行多标签分类,从而得到每个字符对应的预测标签。
进一步地,所述步骤S3包括:
S31:定义具有层次化的人物信息模板,记为M={a1,a2,…,ar|r≤m},元组a由一个或者多个人物属性组成,即a={li,li+1,…,lj|i≤j};
S32:根据步骤S23得到的深度学习模型,得到每个字符对应的BIO标签,从而得到初步结构化的人物属性信息;
S33:统计经步骤S32处理后得到的人物属性信息,确定每个人物属性出现的次数,记为N={n1,n2,…,nm},其中m为标签数量;
S34:根据步骤S31定义的人物模板信息,填充人物模板;对于由单个人物属性构成的元组,直接填充即可;对于由多个人物属性构成的元组,列出元组包含的所有人物属性对应的值的组合,再进行填充;
S35:确定元组的向量表示,具体为:每个元组由x个人物属性构成,记为tuple={li,li+1,…,lj|i+x-1=j},其中每个人物属性由k个字符构成,即li={t1,t2,…,tk},则每个人物属性的向量表示为label_vi=MaxPooling{v1,v2,…,vk},其中,MaxPooling为向量的最大池化操作;将每个人物属性的向量表示进行拼接,得到元组的向量表示,即tuple_vi=(label_vi,label_vi+1,…,label_vj);
S36:对于每个由多个人物属性构成的元组,都预先定义一个概率模型,用于输出当前元组元素为正确元素的概率;
S37:将步骤S35得到的tuple_vi输入到步骤S36定义的概率模型中,通过人工标记的真实元素标签,进行训练,得到每个元组元素为真实元素的概率;
S38:对于每个由多个人物属性构成的元组,其最大元素数量由元组中包含的最多人物属性数量确定,即max_num=max({ni,ni+1,…,nj|i≤j});选取max_nun个由步骤S37得到的概率值相对较大的元组元素,作为元组的最终元素;
S39:根据步骤S38确定的每一个元组元素,得到完整的人物模板信息。
进一步地,所述步骤S4包括:
S41:预先定义好人物关系实体;
S42:结合预先定义好的人物关系实体,对步骤S3填充好的人物信息模板进行处理,得到人物之间的关系;
S43:将步骤S3填充好的人物信息模板和步骤S42得到的人物之间的关系,导入到图数据库;
S44:根据所述图数据库可视化输出人物关系图谱。
进一步地,所述步骤S1中人物属性包括以下至少之一:
姓名、性别、年龄、出生日期、国籍、民族、境外居留权、政治面貌、获奖时间、颁奖机构、奖项名称、职称/资质时间、职称/资质、入学时间、毕业时间、毕业院校、专业背景、学历、入职时间、离职时间、曾任/现任/至今、就职单位、就职部门、职位。
进一步地,所述步骤S4中人物关系实体包括以下至少之一:
同学关系、同事关系、同行关系。
本发明另一方面提供了一种基于深度学习的人物关系图谱构建系统,包括:
预处理模块,用于爬取电子文本,得到初始语料,所述初始语料包括人物信息;对所述初始语料中人物属性进行标注,得到样本数据并进行预处理;
深度学习模型建立模块,用于设置模型超参数,结合所述预处理模块处理后的样本数据建立深度学习模型;
人物信息模板填充模块,用于定义具有层次化的人物信息模板,所述人物信息模板包括多个元组,所述元组由一个或多个人物属性组成;基于所述深度学习模型提取人物属性信息,对所述人物属性信息进行筛选,并填充所述人物信息模板;
人物关系图谱构建模块,用于利用填充好的人物信息模板以及预先定义好的人物关系实体,构建人物关系图谱。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明通过获取包含人物信息的文本,对文本进行一些预处理,运用深度学习方法结合文本的上下文信息以及字符的位置信息,能够较为准确地提取出人物属性值;同时通过定义人物层次化信息模板,使用得到的人物属性值填充人物层次化信息模板,结合人物属性识别与抽取过程中得到的字符向量表示,运用概率模型筛选人物层次化信息,获得了较为准确和信息丰富的层次化人物信息,进而解决了现有的人物关系图谱构建方法无法准确表示出含有多值属性,以及如何发现与提取存在于分散文本的人物关系的技术问题。
(2)本发明采用多个自编码器,每个自编码器分别抽取不同特征,最终将每个自编码器的输出进行拼接融合,从而得到融合上下文语义信息的不同特征的字符向量,能够更加准确的表示字符的语义信息,从而得到更加准确的人物属性。
(3)本发明通过概率模型,对包含多个人物属性的元组进行比较准确的筛选,更好地解决了层次化人物模板的信息填充问题。
附图说明
图1是本发明提供的一种基于深度学习的人物关系图谱构建方法的流程示意图;
图2是本发明实施例中人物属性识别与抽取的模型结构图;
图3是本发明实施例中人物信息模板填充的流程示意图;
图4是本发明实施例中人物关系图谱构建的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。此外,以下所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明一方面提供了一种基于深度学习的人物关系图谱构建方法,如图1所示,整个流程主要包括获取人物文本信息并进行预处理、识别与抽取人物属性、填充人物信息模板以及构建人物关系图谱,具体包括:
S1:爬取电子文本,得到初始语料,所述初始语料包括人物信息;对所述初始语料中人物属性进行标注,得到样本数据并进行预处理;
具体的,可以利用Python中的Urllib2爬取电子文本,得到初始语料;其中,电子文本可以是人物简历等文本信息,人物属性可以是人员姓名、性别、年龄、出生日期、国籍、民族、境外居留权、政治面貌、获奖时间、颁奖机构、奖项名称、职称/资质时间、职称/资质、入学时间、毕业时间、毕业院校、专业背景、学历、入职时间、离职时间、曾任/现任/至今、就职单位、就职部门、职位等。
对样本数据进行预处理包括:
S11:定义人物属性标签集合,记为L={l1,l2,…,lm},其中m为标签数量;
S12:将每个样本数据的文本信息e,按照句子s进行分割,即e={s1,s2,…,sp},其中p为句子数量;再对句子s,按照每个字符t进行分割,即s={t1,t2,…,tq},其中q为句子中字符的数量;
S13:用(t,l)的元组形式在所有样本数据中标记出所有人物属性信息,其中t表示文本信息中的每一个字符,l表示字符对应的人物属性标签;
S14:将标记好的样本数据划分为训练集、验证集与测试集,一般按照8:1:1的比例进行划分。
S2:设置模型超参数,结合步骤S1预处理后的样本数据建立深度学习模型;
S21:设置模型超参数,所述模型超参数包括:句子长度、batch size大小以及模型的学习率;
S22:将步骤S14得到的训练集,作为训练数据,输入所述深度学习模型中,对所述深度学习模型进行训练;其中,所述深度学习模型为逐个输出汉字BIO类型标签的神经网络模型;
S23:将步骤S14得到的验证集,作为验证数据,输入步骤S22训练好的模型中,得到初步验证结果;若所述验证结果没有达到准确率、召回率及F值的要求,则调整所述模型超参数,继续进行模型训练,若所述验证结果达到理想的准确率、召回率及F值,则进行步骤S24;
S24:将步骤S14得到的测试集,作为测试数据,输入步骤S23优化后的模型中,得到每个字符的预测标签。
其中,将步骤S14得到的测试集,作为测试数据,对测试数据进一步的处理,得到模型输入特征,如图2所示,所述输入特征经过Embedding层,在Embedding层,分别经过TokenEmbedding、Segment Embedding、Position Embedding融合字符的预训练信息、段落信息以及位置信息,最终得到768维的Embedding向量,将Embedding层得到的768维向量送入Encoder层,在Encoder层经过多个自编码器Encoder,每个Encoder分别抽取不同特征,最终将每个Encoder的输出进行拼接融合,获得融合上下文语义信息的不同特征的字符向量TokenVector,将Encoder层输出的TokenVector送入最终的Classification层,通过一个全连接网络接一个SoftMax分类器,对字符向量进行多标签分类,得到字符对应的预测标签,最终得到文本中每个字符的预测标签。如图2所示的Encoder层的输出即为句子中每个字符对应的768维向量编码,记为V={v1,v2,…,vq}。
S3:定义具有层次化的人物信息模板,所述人物信息模板包括多个元组,所述元组由一个或多个人物属性组成;基于所述深度学习模型提取人物属性信息,对所述人物属性信息进行筛选,并填充所述人物信息模板,如图3所示;
S31:定义具有层次化的人物信息模板,记为M={a1,a2,…,ar|r≤m},元组a由一个或者多个人物属性组成,即a={li,li+1,…,lj|i≤j};
S32:根据步骤S23得到的深度学习模型,得到每个字符对应的BIO标签,从而得到初步结构化的人物属性信息;
S33:统计经步骤S32处理后得到的人物属性信息,确定每个人物属性出现的次数,记为N={n1,n2,…,nm},其中m为标签数量;
S34:根据步骤S31定义的人物模板信息,填充人物模板;对于由单个人物属性构成的元组,直接填充即可;对于由多个人物属性构成的元组,列出元组包含的所有人物属性对应的值的组合,再进行填充;
S35:确定元组的向量表示,具体为:每个元组由x个人物属性构成,记为tuple={li,li+1,…,lj|i+x-1=j},其中每个人物属性由k个字符构成,即li={t1,t2,…,tk},则每个人物属性的向量表示为label_vi=MaxPooling{v1,v2,…,vk},其中,MaxPooling为向量的最大池化操作;将每个人物属性的向量表示进行拼接,得到元组的向量表示,即tuple_vi=(label_vi,label_vi+1,…,label_vj);
S36:对于每个由多个人物属性构成的元组,都预先定义一个概率模型,用于输出当前元组元素为正确元素的概率;
S37:将步骤S35得到的tuple_vi输入到步骤S36定义的概率模型中,通过人工标记的真实元素标签,进行训练,得到每个元组元素为真实元素的概率;
S38:对于每个由多个人物属性构成的元组,其最大元素数量由元组中包含的最多人物属性数量确定,即max_num=max({ni,ni+1,…,nj|i≤j});选取max_num个由步骤S37得到的概率值相对较大的元组元素,作为元组的最终元素;
S39:根据步骤S38确定的每一个元组元素,得到完整的人物模板信息。
S4:利用步骤S3填充好的人物信息模板以及预先定义好的人物关系实体,构建人物关系图谱,如图4所示。
S41:预先定义好人物关系实体;其中,人物关系实体可以是同学关系、同事关系、同行关系;
S42:结合预先定义好的人物关系实体,对步骤S3填充好的人物信息模板进行处理,得到人物之间的关系;
S43:将步骤S3填充好的人物信息模板和步骤S42得到的人物之间的关系,导入到图数据库;
S44:根据所述图数据库可视化输出人物关系图谱。
本发明另一方面提供了一种基于深度学习的人物关系图谱构建系统,包括:
预处理模块,用于爬取电子文本,得到初始语料,所述初始语料包括人物信息;对所述初始语料中人物属性进行标注,得到样本数据并进行预处理;
深度学习模型建立模块,用于设置模型超参数,结合所述预处理模块处理后的样本数据建立深度学习模型;
人物信息模板填充模块,用于定义具有层次化的人物信息模板,所述人物信息模板包括多个元组,所述元组由一个或多个人物属性组成;基于所述深度学习模型提取人物属性信息,对所述人物属性信息进行筛选,并填充所述人物信息模板;
人物关系图谱构建模块,用于利用填充好的人物信息模板以及预先定义好的人物关系实体,构建人物关系图谱。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例,只是用于帮助理解本发明,并不用以限制本发明,对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度学习的人物关系图谱构建方法,其特征在于,所述方法包括以下步骤:
S1:爬取电子文本,得到初始语料,所述初始语料包括人物信息;对所述初始语料中人物属性进行标注,得到样本数据并进行预处理;
S2:设置模型超参数,结合步骤S1预处理后的样本数据建立深度学习模型;
S3:定义具有层次化的人物信息模板,所述人物信息模板包括多个元组,所述元组由一个或多个人物属性组成;基于所述深度学习模型提取人物属性信息,对所述人物属性信息进行筛选,并填充所述人物信息模板;
所述步骤S3包括:
S31:定义具有层次化的人物信息模板,记为M={a1,a2,…,ar|r≤m},元组a由一个或者多个人物属性组成,即a={li,li+1,…,lj|i≤j};
S32:根据所述深度学习模型,得到每个字符对应的BIO标签,从而得到初步结构化的人物属性信息;
S33:统计经步骤S32处理后得到的人物属性信息,确定每个人物属性出现的次数,记为N={n1,n2,…,nm},其中m为标签数量;
S34:根据步骤S31定义的人物模板信息,填充人物模板;对于由单个人物属性构成的元组,直接填充即可;对于由多个人物属性构成的元组,列出元组包含的所有人物属性对应的值的组合,再进行填充;
S35:确定元组的向量表示,具体为:每个元组由x个人物属性构成,记为tuple={li,li+1,…,lj|i+x-1=j},其中每个人物属性由k个字符构成,即li={t1,t2,…,tk},则每个人物属性的向量表示为label_vi=MaxPooling{v1,v2,…,vk},其中,MaxPooling为向量的最大池化操作;将每个人物属性的向量表示进行拼接,得到元组的向量表示,即tuple_vi=(label_vi,label_vi+1,…,label_vj);
S36:对于每个由多个人物属性构成的元组,都预先定义一个概率模型,用于输出当前元组元素为正确元素的概率;
S37:将步骤S35得到的tuple_vi输入到步骤S36定义的概率模型中,通过人工标记的真实元素标签,进行训练,得到每个元组元素为真实元素的概率;
S38:对于每个由多个人物属性构成的元组,其最大元素数量由元组中包含的最多人物属性数量确定,即max_num=max({ni,ni+1,…,nj|i≤j});选取max_num个由步骤S37得到的概率值最大的元组元素,作为元组的最终元素;
S39:根据步骤S38确定的每一个元组元素,得到完整的人物模板信息;
S4:利用步骤S3填充好的人物信息模板以及预先定义好的人物关系实体,构建人物关系图谱。
2.根据权利要求1所述的基于深度学习的人物关系图谱构建方法,其特征在于,所述步骤S1中对样本数据进行预处理包括:
S11:定义人物属性标签集合,记为L={l1,l2,…,lm},其中m为标签数量;
S12:将每个样本数据的文本信息e,按照句子s进行分割,即e={s1,s2,…,sp},其中p为句子数量;再对句子s,按照每个字符t进行分割,即s={t1,t2,…,tq},其中q为句子中字符的数量;
S13:用(t,l)的元组形式在所有样本数据中标记出所有人物属性信息,其中t表示文本信息中的每一个字符,l表示字符对应的人物属性标签;
S14:将标记好的样本数据划分为训练集、验证集与测试集。
3.根据权利要求2所述的基于深度学习的人物关系图谱构建方法,其特征在于,所述步骤S2包括:
S21:设置模型超参数,所述模型超参数包括:句子长度、batch size大小以及模型的学习率;
S22:将步骤S14得到的训练集,作为训练数据,输入所述深度学习模型中,对所述深度学习模型进行训练;其中,所述深度学习模型为逐个输出汉字BIO类型标签的神经网络模型;
S23:将步骤S14得到的验证集,作为验证数据,输入步骤S22训练好的模型中,得到初步验证结果;若所述验证结果不满足要求,则调整所述模型超参数,继续进行模型训练,若所述验证结果满足要求,则进行步骤S24;
S24:将步骤S14得到的测试集,作为测试数据,输入步骤S23优化后的模型中,得到每个字符的预测标签。
4.根据权利要求3所述的基于深度学习的人物关系图谱构建方法,其特征在于,所述步骤S24中,
将所述测试数据输入Embedding层,分别经过Token Embedding、Segment Embedding、Position Embedding融合字符的预训练信息、段落信息以及位置信息,最终得到d维向量;其中,d的取值范围为768~1024;
将所述d维向量输入Encoder层,经过多个自编码器,每个自编码器分别抽取不同特征,最终将每个自编码器的输出进行拼接融合,从而得到融合上下文语义信息的不同特征的字符向量;
将所述字符向量输入Classification层,通过一个全连接网络接一个SoftMax分类器,对所述字符向量进行多标签分类,从而得到每个字符对应的预测标签。
5.根据权利要求1所述的基于深度学习的人物关系图谱构建方法,其特征在于,所述步骤S4包括:
S41:预先定义好人物关系实体;
S42:结合预先定义好的人物关系实体,对步骤S3填充好的人物信息模板进行处理,得到人物之间的关系;
S43:将步骤S3填充好的人物信息模板和步骤S42得到的人物之间的关系,导入到图数据库;
S44:根据所述图数据库可视化输出人物关系图谱。
6.根据权利要求1所述的基于深度学习的人物关系图谱构建方法,其特征在于,所述步骤S1中人物属性包括以下至少之一:
姓名、性别、年龄、出生日期、国籍、民族、境外居留权、政治面貌、获奖时间、颁奖机构、奖项名称、职称/资质时间、职称/资质、入学时间、毕业时间、毕业院校、专业背景、学历、入职时间、离职时间、曾任/现任/至今、就职单位、就职部门、职位。
7.根据权利要求1所述的基于深度学习的人物关系图谱构建方法,其特征在于,所述步骤S4中人物关系实体包括以下至少之一:
同学关系、同事关系、同行关系。
8.一种基于深度学习的人物关系图谱构建系统,其特征在于,包括:
预处理模块,用于爬取电子文本,得到初始语料,所述初始语料包括人物信息;对所述初始语料中人物属性进行标注,得到样本数据并进行预处理;
深度学习模型建立模块,用于设置模型超参数,结合所述预处理模块处理后的样本数据建立深度学习模型;
人物信息模板填充模块,用于定义具有层次化的人物信息模板,所述人物信息模板包括多个元组,所述元组由一个或多个人物属性组成;基于所述深度学习模型提取人物属性信息,对所述人物属性信息进行筛选,并填充所述人物信息模板;
所述人物信息模板填充模块具体用于执行以下步骤:
S31:定义具有层次化的人物信息模板,记为M={a1,a2,…,ar|r≤m},元组a由一个或者多个人物属性组成,即a={li,li+1,…,lj|i≤j};
S32:根据所述深度学习模型,得到每个字符对应的BIO标签,从而得到初步结构化的人物属性信息;
S33:统计经步骤S32处理后得到的人物属性信息,确定每个人物属性出现的次数,记为N={n1,n2,…,nm},其中m为标签数量;
S34:根据步骤S31定义的人物模板信息,填充人物模板;对于由单个人物属性构成的元组,直接填充即可;对于由多个人物属性构成的元组,列出元组包含的所有人物属性对应的值的组合,再进行填充;
S35:确定元组的向量表示,具体为:每个元组由x个人物属性构成,记为tuple={li,li+1,…,lj|i+x-1=j},其中每个人物属性由k个字符构成,即li={t1,t2,…,tk},则每个人物属性的向量表示为label_vi=MaxPooling{v1,v2,…,vk},其中,MaxPooling为向量的最大池化操作;将每个人物属性的向量表示进行拼接,得到元组的向量表示,即tuple_vi=(label_vi,label_vi+1,…,label_vj);
S36:对于每个由多个人物属性构成的元组,都预先定义一个概率模型,用于输出当前元组元素为正确元素的概率;
S37:将步骤S35得到的tuple_vi输入到步骤S36定义的概率模型中,通过人工标记的真实元素标签,进行训练,得到每个元组元素为真实元素的概率;
S38:对于每个由多个人物属性构成的元组,其最大元素数量由元组中包含的最多人物属性数量确定,即max_num=max({ni,ni+1,…,nj|i≤j});选取max_num个由步骤S37得到的概率值最大的元组元素,作为元组的最终元素;
S39:根据步骤S38确定的每一个元组元素,得到完整的人物模板信息;
人物关系图谱构建模块,用于利用填充好的人物信息模板以及预先定义好的人物关系实体,构建人物关系图谱。
CN202010358399.6A 2020-04-29 2020-04-29 一种基于深度学习的人物关系图谱构建方法及系统 Active CN111538849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010358399.6A CN111538849B (zh) 2020-04-29 2020-04-29 一种基于深度学习的人物关系图谱构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010358399.6A CN111538849B (zh) 2020-04-29 2020-04-29 一种基于深度学习的人物关系图谱构建方法及系统

Publications (2)

Publication Number Publication Date
CN111538849A CN111538849A (zh) 2020-08-14
CN111538849B true CN111538849B (zh) 2023-04-07

Family

ID=71975293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010358399.6A Active CN111538849B (zh) 2020-04-29 2020-04-29 一种基于深度学习的人物关系图谱构建方法及系统

Country Status (1)

Country Link
CN (1) CN111538849B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926325A (zh) * 2021-02-14 2021-06-08 北京工业大学 基于bert神经网络的中文人物关系抽取构建方法
CN114610819B (zh) * 2022-03-17 2022-10-11 中科世通亨奇(北京)科技有限公司 一种实体关系抽取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3316185A1 (en) * 2016-10-28 2018-05-02 Facebook, Inc. Generating recommendations using a deep-learning model
CN109033166A (zh) * 2018-06-20 2018-12-18 国家计算机网络与信息安全管理中心 一种人物属性抽取训练数据集构建方法
CN109739983A (zh) * 2018-12-23 2019-05-10 北京明朝万达科技股份有限公司 识别公安笔录人物关系的方法、装置及计算机可读介质
CN110516012A (zh) * 2019-08-30 2019-11-29 广东工业大学 一种人物关系图谱构建方法
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11151175B2 (en) * 2018-09-24 2021-10-19 International Business Machines Corporation On-demand relation extraction from text

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3316185A1 (en) * 2016-10-28 2018-05-02 Facebook, Inc. Generating recommendations using a deep-learning model
CN109033166A (zh) * 2018-06-20 2018-12-18 国家计算机网络与信息安全管理中心 一种人物属性抽取训练数据集构建方法
CN109739983A (zh) * 2018-12-23 2019-05-10 北京明朝万达科技股份有限公司 识别公安笔录人物关系的方法、装置及计算机可读介质
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110516012A (zh) * 2019-08-30 2019-11-29 广东工业大学 一种人物关系图谱构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
鄂海红 ; 张文静 ; 肖思琪 ; 程瑞 ; 胡莺夕 ; 周筱松 ; 牛佩晴 ; .深度学习实体关系抽取研究综述.软件学报.2019,(06),全文. *
靳延安 ; 李瑞轩 ; 文坤梅 ; 辜希武 ; 卢正鼎 ; 段东圣 ; .社会标注及其在信息检索中的应用研究综述.中文信息学报.2010,(04),全文. *

Also Published As

Publication number Publication date
CN111538849A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111177326B (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN109885672A (zh) 一种面向在线教育的问答式智能检索系统及方法
CN112149421A (zh) 一种基于bert嵌入的软件编程领域实体识别方法
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
CN110532398B (zh) 基于多任务联合神经网络模型的家族图谱自动构建方法
CN106446954A (zh) 一种基于深度学习的字符识别方法
CN111538849B (zh) 一种基于深度学习的人物关系图谱构建方法及系统
CN110580287A (zh) 基于迁移学习和on-lstm的情感分类方法
CN110335653A (zh) 基于openEHR病历格式的非标准病历解析方法
CN112883175B (zh) 结合预训练模型及模板生成的气象服务交互方法及系统
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN114942991B (zh) 一种基于隐喻识别的情感分类模型构建方法
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN114648031B (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN116932661A (zh) 一种面向网络安全的事件知识图谱构建方法
CN114757183B (zh) 一种基于对比对齐网络的跨领域情感分类方法
CN117112782A (zh) 一种招标公告信息提取方法
CN113836891A (zh) 基于多元标注策略的结构化信息抽取方法和装置
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN116777607A (zh) 一种基于nlp技术的智能审计方法
CN115063119A (zh) 基于招聘行为数据的自适应性的招聘决策系统及方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN117539996A (zh) 一种基于用户画像的咨询问答方法及系统
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant