CN110222199A

CN110222199A - 一种基于本体和多种神经网络集成的人物关系图谱构建方法

Info

Publication number: CN110222199A
Application number: CN201910534969.XA
Authority: CN
Inventors: 贺英; 云红艳; 林莉; 张秀华; 胡欢
Original assignee: Qingdao University
Current assignee: Qingdao University
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-09-10

Abstract

本发明是一种基于本体和多种神经网络集成的人物关系图谱构建方法，包括以下步骤：爬取互联网中某领域与人物有关的数据；建立领域人物本体；从含多类实体且有重复实体的结构化数据表中，抽取数据构建规范化实体表；通过语义映射算法将人物本体模型两个类名与两个实体表名匹配，自动获得所有实体关系，并以图结构存储在Neo4j数据库；针对结构化表中的文本数据，利用滑动窗口、实体位置特征和双向门控循环神经网络进行人物实体识别和关系抽取；将新增关系更新当前图结构，形成领域人物关系知识图谱。本发明可以在原始关系型数据和文本数据上提取人物关系高级特征，不用依赖人工设计，提高识别效果，提升复杂网页文本构建人物关系图谱的效率。

Description

一种基于本体和多种神经网络集成的人物关系图谱构建方法

技术领域

本发明属于互联网大数据处理领域，特别涉及一种基于本体和多种神经网络集成的人物关系图谱构建方法。

背景技术

随着互联网技术的蓬勃发展和数据的爆炸式增长，人们已经能够通过搜索引擎获取到很多相关知识，大量知识隐藏于网页中的非结构化文本和半结构化表格内。面对海量的网页文本信息，人们需自己从互联网上提取出自己所需的知识，但随着知识的不断增长，这种知识获取的方式已经无法满足人们需求。人们期望以更智能的方式组织互联网上的资源,可以更加快速、准确、智能地获取到自己需要的信息。

为了满足这种需求,知识图谱应运而生。

在知识的存储方面，使用最广泛的是关系型数据库，但面对知识图谱中大量存在的知识，关系型数据库局限于固定的表结构，不易进行扩展，查询效率易受影响。考虑到知识图谱中知识是图的连接形式，本项目采用强大的图形数据库Neo4j，相对于传统关系型数据库，对于数据的格式十分灵活没有固定的表结构，不易受到数据形式的影响，并且擅长于对关系的查询，提升查询效率。

目前，虽然通过知识图谱可以建立起知识之间的关联，但用户却无法直观的看到知识图谱中所蕴含的知识内容，需通过可视化将大量的知识转化为一种视觉表现形式，加强人类认知，增加人们的理解。人物关系图谱可视化能够从多角度展现数据内容，帮助政府、企业从海量数据中找到线索，帮助政府、企业制定政策方案、客户策略，实现更有效的管理。

因此，如何“以人为中心”的构建面向政府、企业领域的人物关系图谱，将政府和互联网中的大数据高效的利用起来，将孤立的数据节点融合到统一的知识库中，为用户提供一个友好、人性化的信息决策服务平台尤为重要。

发明内容

本发明是在原始关系型数据和文本数据上提取人物关系高级特征，不用依赖人工设计，从而达到实体识别的目的，提升查询效率，提高识别效果和准确率的基于本体和多种神经网络集成的人物关系图谱构建方法。

为实现上述目的，本发明的技术方案是：一种基于本体和多种神经网络集成的人物关系图谱构建方法，包括以下步骤：

步骤1：爬取互联网中某个领域与人物有关的文本信息；

步骤2：分析领域中的概念和属性，根据所述与人物有关的文本信息和结构化数据进行领域人物本体建模；

步骤3：针对结构化数据，对有重复实体的数据表进行规范化；将包含直接关系的两个实体数据表，分别通过表名和主键，根据领域人物本体模型，进行各表与本体类和关系的对应；将包含间接关系的关系表与两个实体数据表根据关键字段进行关联，根据领域人物本体模型，进行本体类关系的自动语义映射，获得本体中人物规范的关系名称；

步骤4：针对非结构化的文本数据，基于滑动窗口的深度神经网络实体识别方法进行人名实体识别；基于实体位置特征的双向门控循环神经网络关系抽取方法进行人名实体间的关系分类；形成不同人物实体之间的三元组；

步骤5：根据步骤3和步骤4的实体关系抽取结果，组合构建人物关系知识图谱；

步骤6：使用HTML5和Echarts相关技术，结合Neo4j数据库和MySQL数据库，实现人物关系图谱存储和可视化。

进一步的，步骤1中所述获取互联网中与人物有关的文本信息，

包括：获取互联网中与人物有关的各类数据，并将获取的互联网中的与人物有关的各类数据进行融合形成知识库；所述获取互联网中某个领域的人物相关表格、文本信息，包括：采用scrapy框架分布式爬取方式获取该领域人物的各类数据，人物关系为所述人物与所述关联人物之间的人际关系，对数据进行结构化存储。

进一步的，步骤2所述本体建模采用自顶向下与自底向上相结合的构建方式，包括以下步骤：

步骤2.1：采用自顶向下的构建方式进行类以及类层次的构建：根据具体领域的概念体系，采用“人、事、物、点、组织”基本要素作为基础类。从基础类开始，以多叉树的结构进行展开，构建类之间的层级关系，直到最小粒度。对于关系型数据源直接从数据表字段中抽取人物本体类的属性；对于非关系型数据源，则通过特征词抽取人物本体类的属性；

步骤2.2：采用自底向上相结合的方式进行本体类的关系构建：根据结构化的表格文件或关系型数据库中的多表之间的关系，构建本体中的抽象类关系；以人物关系为主，进一步构建不同角色类的交叉关系，包括互斥、交集、并集、补集以及继承关系；且每个属性至少对应一个实体，每个实体至少属于一个类；形成人物本体模型owl文件。

4、根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法，其特征在于：步骤3所述针对结构化数据，对有重复实体的数据表进行规范化；将包含直接关系的两个实体数据表，分别通过表名和主键，根据领域人物本体模型，进行各表与本体类和关系的对应；将包含间接关系的关系表与两个实体数据表根据关键字段进行关联，根据领域人物本体模型，进行本体类关系的自动语义映射，获得本体中人物规范的关系名称，包括以下步骤；

步骤3.1：对存在实体关系的数据表进行重复实体筛选，若表有重复实体，则单独建立主键唯一的规范化的该类实体数据表；

步骤3.2：采用图数据库Neo4j的Cypher语言的Load语句，将外部整理好的结构化表，包括CSV等格式的文件，作为一类实体信息添加到图数据库；例如，LOAD CSV WITHHEADERS FROM"file:///tablea.csv"AS row CREATE(n:HelpPerson)SET n＝row；

步骤3.3：根据包含直接关系的两个表名称和主键名称，确定源数据表、目的数据表，确定本体中对应的两个类名，自动根据本体模型，匹配两个类的关系，并通过Cypher语言的Match语句，建立图数据库中每个实体节点之间的关系；例如，MATCH(a:tablea),(f:tablef)WHERE b.id＝f.fid CREATE(a)-:tablef{relation:f.guanxi}]->(f)

步骤3.4：确定包含间接关系的中间关系表名称，以及规范化后的两个实体数据表名称；基于领域人物本体模型，将源数据表、目的数据表的实体名称与本体中的类名称自动匹配，且根据主键自动关联中间关系表，根据本体类名称自动语义映射获得两个人物之间的规范化关系名称；通过Match语句，建立图数据库中每个实体节点之间的关系；例如，MATCH(b:tableb),(b1:tableb1),(h:tableh)WHERE b.id＝h.hid AND h.name＝b1.nameCREATE(b1)-[:relation{time:h.time}]->(b)；

5、根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法，其特征在于：步骤4所述针对非结构化的文本数据，基于滑动窗口的深度神经网络实体识别方法进行人名实体识别；基于实体位置特征的双向门控循环神经网络关系抽取方法进行人名实体间的关系分类；形成不同人物实体之间的三元组，包括以下步骤：

步骤4.1：对非结构化的文本数据，采用jieba中文分词工具，将句子划分为细粒度的词，在自定义词典中加入新词，确保专有名词和新词的正确分词；分词后结构如下所示：

分词前：樊明本人残疾，女儿樊小平残疾，妻子任丽容在家务农；

分词后：樊明\本人\残疾\，\女儿\樊小平\残疾\，\妻子\任丽容\在家\务农\；

步骤4.2：将预处理分词后的所有文本当做语料，输入词向量训练工具Word2Vec，通过Skip-Gram方法将分词后的词语映射到同一坐标系，获得词语的数值向量表示。例如，将词语映射为50维度的向量表示，形式如下：

父母：0.172414-0.091063 0.255125-0.837163 0.434872-0.499848……

祖孙：-0.972818-0.236247-0.652281 0.406852 0.849602-0.685552……

设置输出的词向量维度大小以及需要训练词语的最小出现次数，将产生的词向量保存到文本与中文词汇形成一一对应的形式，在后续神经网络训练时可对句子中词语的词向量进行查找。

步骤4.3：将数据整理成每行一个词语，每行词语与词向量一一对应，词语所属实体类别为输出标签，标签采用One-hot编码，将该数据作为神经网络的训练数据，形式如下：T＝{(x1,y₁)，(x₂,y₂)，…，(x_n,y_n)}；x代表需要进行实体标注的词语序列，y代表的是输入词语序列对应的实体类别标签；识别的类型包括人名、地名、机构名；

步骤4.4：实体识别深度神经网络由输入层、隐藏层、输出层构成；将上下文定义为一个“窗口”，输入词语采用滑动窗口方式，窗口大小为2n+1，即获取当前词以及其前n个和后n个词的向量拼接为：

X^(t)＝[X_t-1,X,X_t+1]；

随机初始化神经网络权值，计算输出，通过反向传播算法和Adam优化迭代器，循环学习，得到最优权值参数，即人物实体识别模型；例如，窗口为3，每个词向量50维，则输入为150维向量，隐藏层设置神经元个数为100个；根据隐层值和softmax函数，计算：

输出为1和0，分别表示人名实体和非人名实体两类：

步骤4.5：对每个新文本中句子通过神经网络模型识别人名实体后，利用Word2Vec将每个词映射为100维度的词向量；计算句子中两个实体的偏移位；根据实体1的位置x，选取左右边界长度length的词语；将人名实体所在句子标注为如下格式：{实体1,实体2,实体1位置,实体2位置,关系类别}；

步骤4.6：采用双向门控循环神经网络进行实体关系抽取；双向门控循环神经网络BiGRU模型结构有四层，包括输入层、BiGRU层、注意层和输出层；计算GRU单元正向输出z_t＝sigmoid(w_zhh_t-1+w_zxx_t+b_z)和反向输出

r_t＝sigmoid(w_rhh_t-1+w_rxx_t+b_r)，计算总输出g_t＝tanh(w_gh(r_t·h_t-1)+w_gxx_t+b_g)；计算注意力层输出γ＝Hα^T和α＝softmax(w^TM)，将正反双向句子级别的特征向量结合起来作为Softmax层的输入，计算出y_i类别的概率，得到最后的关系类型为：p(y_i|S)＝softmax(W^(S)h^*+b^(S))；设置正则化系数和BiGRU层、注意层的过拟合dropout参数，计算输出的交叉熵和均方误差，根据adamoptimizer方法，更新权重和偏差，得到人物实体关系抽取模型；

步骤4.7：当循环次数达到最大值时停止循环，将结果保存为三元组格式的Neo4j数据库:{实体1,实体2,关系}。

6、根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法，其特征在于：步骤5所述根据步骤4的实体关系抽取结果，构建人物关系知识图谱，包括：

根据实体关系抽取结果确定节点和边，根据度大小给节点赋权值，根据共现次数给边赋权值，将如上节点和边以及节点的权值和边的权值作为输入，使用网络构建工具读取输入文档并构建出特定行为共现网，由此得到所关注的某些人物、人物所在的地理位置信息以及与人物相关联的组织机构信息；

定义一个人名类，该类包含与人名相关联的属性信息，只保留特定行为共现网中的人名节点以及人名节点之间的共现关系，每个人名节点都存储各自的属性信息，从而构建出特定行为共现网中的人物共现关系图谱。

7、根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法，其特征在于：步骤6所述使用HTML5和Echarts相关技术，结合Neo4j数据库和MySQL数据库，实现人物关系知识图谱可视化，包括：系统整体采用B/S结构，后端采用Spring Boot框架构建微服务，提供RESTful接口，前端采用HTML5和Echarts

相关技术构建可视化界面，采用Neo4j数据库和MySQL数据库，通过构建解释器将RDF数据导入Neo4j图数据库，实现RDF数据的存储和可视化。

采用本发明，能够解决政府、企业从互联网中查找线索数据难的问题，解决政府和互联网中的大数据存在孤立的数据节点无法融合到统一的知识库中，帮助政府、企业制定政策方案、客户策略，实现更有效的管理，“以人为中心”的构建面向政府、企业领域的人物关系图谱，将政府和互联网中的大数据高效的利用起来，不用依赖人工设计，从而达到实体识别的目的，提升查询效率，提高识别效果和准确率。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合附图实施例，对本发明做进一步描述：

实施例1

本发明的简要步骤参见图1，包括：

(1)获取互联网中与人物有关的文本信息；

获取互联网中与人物有关的各类数据，并将获取的互联网中的与人物有关的各类数据进行融合形成知识库；

通过自然语言技术从所述知识库中获取关联人物有关的各类数据；

将所述人物与所述关联人物进行匹配形成关联关系；采用分布式爬虫爬取方式获取互联网各类数据；对所述获取的互联网中的各类数据进行细化类别，然后进行标签自动归并，并将类别进行统一。

具体的，互联网中与人物有关的文本信息可以是用户的固有属性，也可以是用户的动态属性，还可以是两者的结合，可以根据不同的业务场景获取不同的标签信息。其中，固有属性包括用户的年龄、性别、职业、收入水平、婚育状况等属性。

获取互联网各类数据时采用分布式爬虫爬取方式，所述分布式爬虫采用主从模式部署，主控节点将用户设置的统一资源定位符(URL)抓取任务分发到各爬虫节点，爬虫节点负责具体的网页下载解析任务，主控节点根据各工作节点的负载情况进行负载均衡。同时，此种方式具有良好的可伸缩性，当系统过载时，通过增加爬虫节点来分担爬取任务。爬虫通过执行定时任务来实现所爬内容的不断自动更新。

获取的各种互联网数据包括以下几大类：政府大数据平台、门户网站，视频网站，电商网站，旅游网站，论坛，微博、微信等。此时由于数据量巨大，为便于构建用户标签，将互联网数据融合打通时，首先对互联网数据细化类别，然后进行标签自动归并，将类别进行统一。

(2)根据所述与人物有关的文本信息进行本体建模；

根据互联网大数据领域所涵盖的数据来源以及业务特征进行本体建模。建模内容包括：类以及类层次构建、关系以及关系关联构建、属性以及属性与类关联关系的构建。构建方式采用自顶向下与自底向上相结合的方式。包括：

步骤2.1：采用自顶向下的构建方式进行类以及类层次的构建：

采用具体领域“人、事、物、点、组织”基本要素作为基础类，再根据数据源特征以及实际业务，从基础类开始，以多叉树的结构进行展开，构建类之间的层级关系，直到最小粒度；类以及类层次关系构建完毕后，进一步的构建类的交叉关系。本体构建中类以及类层级的构建方式，如下：

针对具体领域“人”这一要素进行类以及类层级构建。“人”这一类作为基础类。根据实际的查询业务，对“人”这一类继续进行展开，分为“亲属”与“非亲属”。对“亲属”以及“非亲属”继续进行展开，“亲属”划分为“父母”、“祖孙”等，“非亲属”划分为“帮扶人”与“同事”等。

步骤2.2：采用自顶向下的构建方式进行类以及类层次的构建：根据具体领域的概念体系，采用“人、事、物、点、组织”基本要素作为基础类。从基础类开始，以多叉树的结构进行展开，构建类之间的层级关系，直到最小粒度。对于关系型数据源直接从数据表字段中抽取人物本体类的属性；对于非关系型数据源，则通过特征词抽取人物本体类的属性；

步骤2.3：采用自底向上相结合的方式进行本体类的关系构建：根据结构化的表格文件或关系型数据库中的多表之间的关系，构建本体中的抽象类关系；以人物关系为主，进一步构建不同角色类的交叉关系，包括互斥、交集、并集、补集以及继承关系；且每个属性至少对应一个实体，每个实体至少属于一个类；形成人物本体模型owl文件。

每个类均包含一套本类的属性以及属性层级，且子类可以继承父类的属性以及属性层级。所述类的属性划分为“唯一属性”与“非唯一属性”，所述“唯一属性”为属性值为唯一值的属性。其中“唯一属性”与“非唯一属性”又根据实际公共安全业务的需要，划分为“基础属性”、“社会属性”，“物品属性”等。示例中，“唯一属性”中“基础属性”又继续划分为“身份证号”以及“护照号”等。

(3)针对结构化数据，对有重复实体的数据表进行规范化；将包含直接关系的两个实体数据表，分别通过表名和主键，根据领域人物本体模型，进行各表与本体类和关系的对应；将包含间接关系的关系表与两个实体数据表根据关键字段进行关联，根据领域人物本体模型，进行本体类关系的自动语义映射，获得本体中人物规范的关系名称；

对存在实体关系的数据表进行重复实体筛选，若表有重复实体，则单独建立主键唯一的规范化的该类实体数据表；

采用图数据库Neo4j的Cypher语言的Load语句，将外部整理好的结构化表，包括CSV等格式的文件，作为一类实体信息添加到图数据库；例如，LOAD CSV WITH HEADERSFROM"file:///tablea.csv"AS row CREATE(n:HelpPerson)SET n＝row；

根据包含直接关系的两个表名称和主键名称，确定源数据表、目的数据表，确定本体中对应的两个类名，自动根据本体模型，匹配两个类的关系，并通过Cypher语言的Match语句，建立图数据库中每个实体节点之间的关系；例如，MATCH(a:tablea),(f:tablef)WHERE b.id＝f.fid CREATE(a)-:tablef{relation:f.guanxi}]->(f)

确定包含间接关系的中间关系表名称，以及规范化后的两个实体数据表名称；基于领域人物本体模型，将源数据表、目的数据表的实体名称与本体中的类名称自动匹配，且根据主键自动关联中间关系表，根据本体类名称自动语义映射获得两个人物之间的规范化关系名称；通过Match语句，建立图数据库中每个实体节点之间的关系；例如，MATCH(b:tableb),(b1:tableb1),(h:tableh)WHERE b.id＝h.hid AND h.name＝b1.name CREATE(b1)-[:relation{time:h.time}]->(b)；

(4)针对非结构化的文本数据，基于深度神经网络和双向门控循环神经网络集成的人物实体识别和关系抽取方法，形成多个人物实体之间的三元组数据；

对非结构化的文本数据，采用jieba中文分词工具，将句子划分为细粒度的词，在自定义词典中加入新词，确保专有名词和新词的正确分词；分词后结构如下所示：

分词后：樊明\本人\残疾\，\女儿\樊小平\残疾\，\妻子\任丽容\在家\务农\；将预处理分词后的所有文本当做语料，输入词向量训练工具Word2Vec，通过Skip-Gram方法将分词后的词语映射到同一坐标系，获得词语的数值向量表示。例如，将词语映射为50维度的向量表示，形式如下：

父母：0.172414-0.091063 0.255125-0.837163 0.434872-0.499848……

祖孙：-0.972818-0.236247-0.652281 0.406852 0.849602-0.685552……

将数据整理成每行一个词语，每行词语与词向量一一对应，词语所属实体类别为输出标签，标签采用One-hot编码，将该数据作为神经网络的训练数据，形式如下：T＝{(x₁,y₁)，(x₂,y₂)，…，(x_n,y_n)}；x代表需要进行实体标注的词语序列，y代表的是输入词语序列对应的实体类别标签；识别的类型包括人名、地名、机构名；

实体识别深度神经网络由输入层、隐藏层、输出层构成；将上下文定义为一个“窗口”，输入词语采用滑动窗口方式，窗口大小为2n+1，即获取当前词以及其前n个和后n个词的向量拼接为：

X^(t)＝[X_t-1,X,X_t+1]；

输出为1和0，分别表示人名实体和非人名实体两类：

对每个新文本中句子通过神经网络模型识别人名实体后，利用Word2Vec将每个词映射为100维度的词向量；计算句子中两个实体的偏移位；根据实体1的位置x，选取左右边界长度length的词语；将人名实体所在句子标注为如下格式：{实体1,实体2,实体1位置,实体2位置,关系类别}；

采用双向门控循环神经网络进行实体关系抽取；双向门控循环神经网络BiGRU模型结构有四层，包括输入层、BiGRU层、注意层和输出层；计算GRU单元正向输出z_t＝sigmoid(w_zhh_t-1+w_zxx_t+b_z)和反向输出

当循环次数达到最大值时停止循环，将结果保存为三元组格式的Neo4j数据库:{实体1,实体2,关系}。

(5)根据步骤4的实体关系抽取结果，构建人物关系知识图谱；根据上一步实体识别的结果，执行关系抽取模型，抽取实体与实体之间的关系，读取实体识别的结果，调用后台基于深度学习的自然语言处理的关系抽取方法，将各个实体之间的关系从文本数据中抽取出来显示在显示区域。

根据实体关系抽取的结果，确定了节点和边之后，可以根据度大小给节点赋权值，根据共现次数给边赋权值；将如上节点和边以及节点的权值和边的权值作为输入，使用网络构建工具读取输入文档并构建出特定行为共现网，由此就可以直观的显示出所关注的某些人物、人物所在的地理位置信息以及与人物相关联的组织机构信息。

首先定义一个人名类，该类包含与人名相关联的属性信息，如地理位置信息、组织机构信息和节点权值。将特定行为共现网中的地名和组织名作为与其相连的人名的属性信息，只保留特定行为共现网中的人名节点及人名节点之间的共现关系，每个人名节点都存储各自的地理位置、组织机构和节点权值等属性信息，从而构建出特定行为共现网中的人物共现关系图谱。另外，根据社会网络中的度中心性原理，

一个节点的节点度越大就意味着这个节点的度中心性越高，该节点在网络中就越重要，利用节点的权值，可以过滤出人物共现关系图谱中的关键人物和关键人物之间的共现关系，提高网络中信息的可信度。

(6)使用HTML5和Echarts相关技术，结合Neo4j数据库和MySQL数据库，实现人物关系知识图谱可视化，包括：系统整体采用B/S结构，后端采用Spring Boot框架构建微服务，提供RESTful接口，前端采用HTML5和Echarts相关技术构建可视化界面，采用Neo4j数据库和MySQL数据库，通过构建解释器将RDF数据导入Neo4j图数据库，实现RDF数据的存储和可视化。

人物关系查询是通过接口向Neo4j图数据库查询，返回以此人物为中心的图结构，包括人物基本信息，与该人物直接相关的其他人物及关系名称。从Neo4j图数据库中获取数据，通过组织json数据传到前端，前端使用echarts组件进行渲染，显示在前端提供给用户查看。

包括人物之间的多个关联关系、人物基本属性，以及相关实体的基本属性，为用户提供一种能够表达原始数据中隐含关联关系的直观可视化呈现。

关系路径查询是向Neo4j图数据库查询他们之间的关系，并返回图结果。若两个人物没有关系，则返回两个孤立的结点。用户可以选择一个节点，拖动该节点，通过节点之间的边缘标签查看字符与其他字符之间的关系，并使用多深度关系查询方法挖掘更深的关系。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于本体和多种神经网络集成的人物关系图谱构建方法，其特征在于：包括以下步骤：

步骤1：爬取互联网中某个领域与人物有关的文本信息；

2.根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法，其特征在于：步骤1中所述获取互联网中某个领域的人物相关表格、文本信息，包括：采用scrapy框架分布式爬取方式获取该领域人物的各类数据，人物关系为所述人物与所述关联人物之间的人际关系，对数据进行结构化存储。

3.根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法，其特征在于：步骤2中所述采用自顶向下与自底向上相结合的构建方式构建领域人物本体，包括以下步骤：

4.根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法，其特征在于：步骤3所述针对结构化数据，对有重复实体的数据表进行规范化；将包含直接关系的两个实体数据表，分别通过表名和主键，根据领域人物本体模型，进行各表与本体类和关系的对应；将包含间接关系的关系表与两个实体数据表根据关键字段进行关联，根据领域人物本体模型，进行本体类关系的自动语义映射，获得本体中人物规范的关系名称，包括以下步骤；

步骤3.2：采用图数据库Neo4j的Cypher语言的Load语句，将外部整理好的结构化表，包括CSV等格式的文件，作为一类实体信息添加到图数据库；例如，LOAD CSV WITH HEADERSFROM"file:///tablea.csv"AS row CREATE(n:HelpPerson)SET n＝row；

步骤3.4：确定包含间接关系的中间关系表名称，以及规范化后的两个实体数据表名称；基于领域人物本体模型，将源数据表、目的数据表的实体名称与本体中的类名称自动匹配，且根据主键自动关联中间关系表，根据本体类名称自动语义映射获得两个人物之间的规范化关系名称；通过Match语句，建立图数据库中每个实体节点之间的关系；例如，MATCH(b:tableb),(b1:tableb1),(h:tableh)WHERE b.id＝h.hid AND h.name＝b1.nameCREATE(b1)-[:relation{time:h.time}]->(b)。

5.根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法，其特征在于：步骤4所述针对非结构化的文本数据，基于滑动窗口的深度神经网络实体识别方法进行人名实体识别；基于实体位置特征的双向门控循环神经网络关系抽取方法进行人名实体间的关系分类；形成不同人物实体之间的三元组，包括以下步骤：

父母：0.172414-0.091063 0.255125-0.837163 0.434872-0.499848……

祖孙：-0.972818-0.236247-0.652281 0.406852 0.849602-0.685552……

步骤4.3：将数据整理成每行一个词语，每行词语与词向量一一对应，词语所属实体类别为输出标签，标签采用One-hot编码，将该数据作为神经网络的训练数据，形式如下：T＝{(x₁,y₁)，(x₂,y₂)，…，(x_n,y_n)}；x代表需要进行实体标注的词语序列，y代表的是输入词语序列对应的实体类别标签；识别的类型包括人名、地名、机构名；

X^(t)＝[X_t-1,X,X_t+1]；

输出为1和0，分别表示人名实体和非人名实体两类：

步骤4.6：采用双向门控循环神经网络进行实体关系抽取；双向门控循环神经网络BiGRU模型结构有四层，包括输入层、BiGRU层、注意层和输出层；计算GRU单元正向输出z_t＝sigmoid(w_zhh_t-1+w_zxx_t+b_z)和反向输出r_t＝sigmoid(w_rhh_t-1+w_rxx_t+b_r)，计算总输出g_t＝tanh(w_gh(r_t·h_t-1)+w_gxx_t+b_g)；计算注意力层输出γ＝Hα^T和α＝softmax(w^TM)，将正反双向句子级别的特征向量结合起来作为Softmax层的输入，计算出y_i类别的概率，得到最后的关系类型为：p(y_i|S)＝softmax(W^(S)h^*+b^(S))；设置正则化系数和BiGRU层、注意层的过拟合dropout参数，计算输出的交叉熵和均方误差，根据adamoptimizer方法，更新权重和偏差，得到人物实体关系抽取模型；

6.根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法，其特征在于：步骤5所述根据步骤4的实体关系抽取结果，构建人物关系知识图谱，包括：

7.根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法，其特征在于：步骤6所述使用HTML5和Echarts相关技术，结合Neo4j数据库和MySQL数据库，实现人物关系知识图谱可视化，包括：系统整体采用B/S结构，后端采用Spring Boot框架构建微服务，提供RESTful接口，前端采用HTML5和Echarts