CN115329151A

CN115329151A - 图数据库的优化方法、装置、电子设备及存储介质

Info

Publication number: CN115329151A
Application number: CN202211264247.5A
Authority: CN
Inventors: 张婧莹
Original assignee: North Health Medical Big Data Technology Co ltd
Current assignee: North Health Medical Big Data Technology Co ltd
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2022-11-11
Anticipated expiration: 2042-10-17
Also published as: CN115329151B

Abstract

本发明提供一种图数据库的优化方法、装置、电子设备及存储介质，涉及数据处理技术领域，该方法包括：基于待融合数据源中待融合实例的语义信息，将待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，对数据融合后的目标图数据库中的各节点进行关系挖掘，根据挖掘结果，建立数据融合后的目标图数据库中第一目标节点对之间的关系，获得优化后的目标图数据库；第一目标节点对包括一个新增节点和目标图数据库中的一个原有节点。本发明提供的图数据库的优化方法、装置、电子设备及存储介质，能更准确、更高效地实现图数据库与多源数据的融合和减少图数据库中错漏的数据关系，提高了图数据库的优化效率，能提升图数据库中的数据质量。

Description

图数据库的优化方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种图数据库的优化方法、装置、电子设备及存储介质。

背景技术

随着大数据技术的快速发展，大数据技术在金融、销售、医疗、物联网以及区块链等多个领域有着广泛应用。包括海量数据并可支撑高效搜索的数据库，可以用于满足不同需求的数据挖掘和数据分析。

图数据库是以“点”、“边”为基础存储单元，以高效存储、查询图数据为设计原理的数据管理系统。其中，“点”可以表示实体或实例；“边”可以表示“点”之间的关系。由于图数据库可以直观地可视化关系，使得图数据库能够快速响应复杂关联查询，是存储、查询、分析高度互联数据的较优办法。

但是，图数据库易出现重复数据较多、数据关系错漏等问题，对图数据库进行优化，提升图数据库中的数据质量，对于提高图数据库的可用性具有重要意义。现有技术中，通常基于人工抽检、人工记录以及人工纠错等方式优化图数据库，优化效率较低。因此，如何更高效的优化图数据库，是本领域亟待解决的技术问题。

发明内容

本发明提供一种图数据库的优化方法、装置、电子设备及存储介质，用以解决现有技术中对图数据库进行优化的效率较低的缺陷，实现更高效的优化图数据库。

本发明提供一种图数据库的优化方法，包括：

基于待融合数据源中待融合实例的语义信息，将所述待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，获得数据融合后的目标图数据库；

对所述数据融合后的目标图数据库中的各节点进行关系挖掘，根据挖掘结果，建立所述数据融合后的目标图数据库中第一目标节点对之间的关系，获得优化后的目标图数据库；

其中，所述第一目标节点对包括一个新增节点和所述目标图数据库中的一个原有节点。

根据本发明提供的一种图数据库的优化方法，所述基于待融合数据源中待融合实例的语义信息，将所述待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，获得数据融合后的目标图数据库之前，还包括：

根据所述目标图数据库中原有根节点的语义信息，为所述目标图数据库中的原有根节点赋值唯一的身份标识；

其中，所述目标图数据库中语义信息相同的原有根节点身份标识相同。

根据本发明提供的一种图数据库的优化方法，所述对所述数据融合后的目标图数据库中的各节点进行关系挖掘，包括：

基于资源描述框架、扩展资源描述框架或万维网本体语言框架，对所述数据融合后的目标图数据库中的各节点进行关系挖掘。

根据本发明提供的一种图数据库的优化方法，所述基于待融合数据源中待融合实例的语义信息，将所述待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，包括：

在基于所述待融合实例的语义信息和所述目标图数据库中原有节点的语义信息，确定所述待融合实例与所述目标图数据库中的目标根节点具有关联关系的情况下，将所述待融合实例作为所述目标根节点的新增子节点，添加至所述目标图数据库中。

在基于所述待融合实例的语义信息和所述目标图数据库中原有节点的语义信息，确定所述待融合实例与所述目标图数据库中的任一原有节点不具有关联关系且所述目标图数据库中不存在所述待融合实例的语义信息的情况下，将所述待融合实例作为根节点，添加至目标图数据库中。

根据本发明提供的一种图数据库的优化方法，所述将所述待融合实例作为新增根节点，添加至目标图数据库中之后，还包括：

为所述新增根节点赋值唯一的身份标识。

对所述目标图数据库中的各节点进行关系挖掘和关系查验，根据挖掘结果和查验结果，建立所述目标图数据库中第二目标节点对之间的关系，和/或，删除第三目标节点对之间的关系；

其中，所述第二目标节点对包括所述目标图数据库中两个不同的原有节点；所述第三目标节点对包括所述目标图数据库中两个不同的原有节点。

本发明还提供一种图数据库的优化装置，包括：

数据融合模块，用于基于待融合数据源中待融合实例的语义信息，将所述待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，获得数据融合后的目标图数据库；

关系挖掘模块，用于对所述数据融合后的目标图数据库中的各节点进行关系挖掘，根据挖掘结果，建立所述数据融合后的目标图数据库中第一目标节点对之间的关系，获得优化后的目标图数据库；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述图数据库的优化方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述图数据库的优化方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述图数据库的优化方法。

本发明提供的图数据库的优化方法、装置、电子设备及存储介质，通过基于待融合数据源中待融合实例的语义信息，将待融合实例作为新增子节点或新增根节点添加至目标图数据库中，获得数据融合后的目标图数据库之后，对上述数据融合后的目标图数据库中的各节点进行关系挖掘，根据挖掘结果，建立上述数据融合后的目标图数据库中第一目标节点对之间的关系，获得优化后的目标图数据库，第一目标节点对包括一个新增节点和目标图数据库中的一个原有节点，能更准确、更高效地实现图数据库与多源数据的融合，能更准确、更高效的减少图数据库中错漏的数据关系，提高了图数据库的优化效率，能提升图数据库中的数据质量，进而能提高图数据库的可用性，能提高基于图数据库进行数据查询的效率和准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的图数据库的优化方法的流程示意图；

图2是本发明提供的图数据库的优化方法中身份标识的示意图；

图3是本发明提供的图数据库的优化装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，随着大数据技术的快速发展，大数据技术在金融、销售、医疗、物联网以及区块链等多个领域有着广泛应用，例如金融行业中的欺诈检测分析服务，销售行业中的精准营销服务，医疗行业中的药品、疾病相关的查询问答服务等，均需要依托大数据技术实现。包含海量数据且支持高效搜索的高质量数据库，对于更好的提供不同需求的数据挖掘和分析服务具有重要意义。

传统的行式或列式关系型数据库虽然可以存储海量数据，但由于关系型数据库不擅长处理数据之间点到点的关系，导致基于关系型数据库进行数据查询的过程繁琐，查询耗时过长。

由于图数据库可以直观地可视化关系，使得图数据库能够快速响应复杂关联查询，从而可以基于图数据库更高效、更简单的进行数据查询。

但是，多源数据易导致图数据库中的重复数据较多，图数据库中数据关系错综复杂、不易梳理，图数据库中易出现数据关系错漏等，严重影响图数据库中的数据质量。

对此，本发明提供一种图数据库的优化方法。基于本发明提供的图数据库的优化方法，可以更高效地减少图数据库中的重复数据和错漏的数据关系，提高图数据库的优化效率，可以提升图数据库中的数据质量，进而可以提高图数据库的可用性，可以提高基于图数据库进行数据查询的效率和准确率。

图1是本发明提供的图数据库的优化方法的流程示意图。下面结合图1描述本发明的图数据库的优化方法。如图1所示，该方法包括：步骤101、基于待融合数据源中待融合实例的语义信息，将待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，获得数据融合后的目标图数据库。

需要说明的是，本发明实施例的执行主体为图数据库的优化装置。

需要说明的是，目标图数据库为本发明提供的图数据库的优化方法的优化对象。目标图数据库可以是基于下游业务的任务需求和/或预先确定的设计目标预先构建的。目标图数据库中框架数据与实体数据分离，实体数据按照标签、关系、次级关系等分为多个部分。

可选地，本发明实施例中的目标图数据库可以用于医疗领域。

基于本发明提供的图数据库的优化方法对目标图数据库进行优化时，首先可以对待融合数据源和目标图数据库进行数据融合。

需要说明的是，本发明实施例中待融合数据源的数量可以为一个或多个。

本发明实施例中可以将待融合数据源中的每一实例依次作为待融合实例，并可以通过自然语言处理技术，对上述待融合实例进行语义分析，获取上述待融合实例的语义信息。

获取上述待融合实例的语义信息之后，可以基于上述待融合实例的语义信息，以及目标图数据库中每一原有节点的语义信息，进行条件判断，并可以基于条件判断结果，将上述待融合实例作为目标图数据库中某一原有根节点的新增子节点，或者将待融合实例作为新增根节点添加至目标图数据库中，进而可以获取的数据融合后的目标图数据库。

可选地，上述条件判断，可以包括判断上述待融合实例是否为目标图数据库中某一原有根节点的子节点、判断上述待融合实例的语义信息是否与目标图数据库中的任一原有节点的语义信息相同以及判断上述待融合实例的语义信息是否与目标图数据库中的任一原有根节点的语义信息相同中的至少一个。

需要说明的是，本发明实施例中的节点，可以为根节点或子节点。任一根节点可以包括多个层级的子节点，任一层级中子节点的数据可以为一个或多个。

需要说明的是，目标图数据库中的原有根节点可以基于概念实例构建，例如：可以将概念实例“2型糖尿病”，作为一个原有根节点。

需要说明的是，在基于条件判断结果，确定上述待融合实例的语义信息，与目标图数据库中某一原有根节点的语义相同的情况下，则不将上述待融合实例添加至目标图数据库。其中，目标图数据库中任一节点的语义信息，可以是基于自然语言处理技术获得的。

步骤102、对数据融合后的目标图数据库中的各节点进行关系挖掘，根据挖掘结果，建立数据融合后的目标图数据库中第一目标节点对之间的关系，获得优化后的目标图数据库。

其中，第一目标节点对包括一个新增节点和目标图数据库中的一个原有节点。

可以理解的是，在数据融合时，虽然可以基于待融合数据的语义信息，将上述待融合实例作为目标图数据库中某一原有根节点的新增子节点，或者将待融合实例作为新增根节点添加至目标图数据库中，但是上述新增节点与目标图数据库中的原有节点依然存在潜在关系未被挖掘和补充。

例如：对于新增根节点“A疾病”，目标图数据库中的一个原有节点“B药物”为“A疾病”的治疗药物，但上述数据融合后的目标图数据库中，并未建立相应的反向关系，即根节点“A疾病”并未建立与原有节点“B药物”之间的关系；

又例如：对于目标图数据库中原有根节点“B药物”的新增子节点“B药物的适应症”，“B药物”还为“A疾病”的治疗药物，而上述数据融合后的目标图数据库中，新增子节点“B药物的适应症”并未建立与原有节点“A疾病”之间的关系。

可选地，上述潜在关系可以包括但不限于排他关系（disjoint With）、等同于关系（same As）以及属性相反关系（inverse Of）等。例如：药品的适应症与药品的副作用之间存在排他关系；概念与术语之间存在等同于关系；药品的适应症和疾病的药物治疗之间存在属性相反关系。

具体地，对待融合数据库和目标图数据库进行数据融合，获得数据融合后的目标图数据库之后，可以通过多种方式对上述数据融合后的目标图数据库中的各节点进行关系挖掘，挖掘上述数据融合后的目标图数据库中的新增节点与目标图数据库中的原有节点之间的潜在关系。

例如：本发明实施例中可以基于知识本体设计工具编写SWRL（Semantic Web RuleLanguage）规则，并可以基于上述SWRL规则对上述数据融合后的目标图数据库中的各节点进行关系挖掘；或者，还可以基于图嵌入技术和深度学习技术，对上述数据融合后的目标图数据库中的各节点进行关系挖掘。本发明实施例中对对上述数据融合后的目标图数据库中的各节点进行关系挖掘的具体方法不作限定。

对上述数据融合后的目标图数据库中的各节点进行关系挖掘之后，若根据挖掘结果，确定上述数据融合后的目标图数据库中的任一新增节点，与目标图数据库中的某一原有节点之间存在潜在关系，则可以将上述新增节点和上述原有节点确定为一个第一目标节点对，并可以建立上述新增节点与上述原有节点之间的关系，从而可以实现上述新增节点与上述原有节点之间的关系补充，获得优化后的目标图数据库。

需要说明的是，本发明实施例中目标图数据库中的各原有节点已完成关系挖掘和关系查验。

基于优化后的图数据库可以更准确、更高效的提供数据查询服务。例如：基于优化后的图数据库进行数据查询时，若需要查询新增根节点“A疾病”的治疗药物，则可以基于优化后的图数据库中新增根节点“A疾病”与原有节点“B药物”之间的关系，直接获得查询结果，而在优化前的图数据库中未建立新增根节点“A疾病”与原有节点“B药物”之间关系的情况下，需要首先查询各药物的适应症，再在各药物的适应症中确定适应症包括“A疾病”的“B药物”，从而获得查询结果，可以节约数据查询时间，提高数据查询效率。

本发明实施例通过基于待融合数据源中待融合实例的语义信息，将待融合实例作为新增子节点或新增根节点添加至目标图数据库中，获得数据融合后的目标图数据库之后，对上述数据融合后的目标图数据库中的各节点进行关系挖掘，根据挖掘结果，建立上述数据融合后的目标图数据库中第一目标节点对之间的关系，获得优化后的目标图数据库，第一目标节点对包括一个新增节点和目标图数据库中的一个原有节点，能更准确、更高效地实现图数据库与多源数据的融合，能更准确、更高效的减少图数据库中错漏的数据关系，提高了图数据库的优化效率，能提升图数据库中的数据质量，进而能提高图数据库的可用性，能提高基于图数据库进行数据查询的效率和准确率。

基于上述各实施例的内容，基于待融合数据源中待融合实例的语义信息，将待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，获得数据融合后的目标图数据库之前，还包括：根据目标图数据库中根节点的语义信息，为目标图数据库中的根节点赋值唯一的身份标识。

其中，目标图数据库中语义信息相同的原有根节点身份标识相同。

具体地，为了解决图数据库中易出现数据重复的问题，本发明实施例中在构建目标图数据库之后，在对待融合数据源和目标图数据库进行数据融合之前，可以基于目标图数据库中每一原有根节点的语义信息，为目标图数据库中的每一原有根节点赋值唯一的身份标识，并确保语义信息相同的原有根节点标识相同。

其中，上述身份标识可以包括ID和/或URI。例如：目标图数据库中的原有根节点“2型糖尿病”的ID为1487638，URI为http://test.org/xxx#1487638。

例如：对于目标图数据库中的原有根节点“2型糖尿病”、原有根节点“二型糖尿病”和原有根节点“糖尿病(II型)”，上述原有根节点的语义信息均为“2型糖尿病”，仅存在术语表述的区别。因此，原有根节点“2型糖尿病”、原有根节点“二型糖尿病”和原有根节点“糖尿病(II型)”的身份标识均相同。图2是本发明提供的图数据库的优化方法中身份标识的示意图。如图2所示，语义信息为“2型糖尿病”的原有根节点的身份标识均相同。

可选地，为了降低目标图数据库中存储的数据量，提高目标图数据库的运算效率，本发明实施例中还可以根据目标图数据中每一原有根节点的语义信息，将语义信息相同的各原有根节点合并为一个原有根节点。

本发明实施例中根据目标图数据库中根节点的语义信息，为目标图数据库中的根节点赋值唯一的身份标识，并确保目标图数据库中语义信息相同的根节点身份标识相同，能更高效地减少图数据库中的重复数据，能提高图数据库的优化效率，能提升图数据库中的数据质量。

基于上述各实施例的内容，对数据融合后的目标图数据库中的各节点进行关系挖掘，包括：基于资源描述框架、扩展资源描述框架或万维网本体语言框架，对数据融合后的目标图数据库中的各节点进行关系挖掘。

需要说明的是，资源描述（Resource Description Framework，RDF）框架采用“资源-属性-属性值”的“主谓宾”结构（或称三元组），提供一种框架容器，并通过XML定义了一套形式化的方法，为机器语义理解的结构基础，是一个使用XML语法来表示的资料模型（Data Model）。

由于RDF框架的表达能力有限，无法区分类和对象，也无法定义和描述类的关系/属性，因此RDF框架是对具体事物的描述，缺乏抽象能力，无法对同一类别的事物进行定义和描述。扩展资源描述（RDF Schema，RDFS）框架作为RDF框架的扩展，具有更好的表达能力。

由于通过RDFS框架可以表达一些简单的语义，但在更复杂的场景下，RDFS框架语义表达能力不足，缺少诸多常用的特征，包括对局部值域的属性定义，类、属性、个体的等价性，不相交类的定义，基数约束，关于属性特征的描述等。万维网本体语言（Web OntologyLanguage，OWL）框架作为RDFS框架的扩展，添加了额外的预定义词汇，具有更好的表达能力。

具体地，本发明实施例中可以基于RDF框架、RDFS框架和OWL框架中的任意一种，对上述数据融合后的目标图数据库中的各节点进行关系挖掘。

可选地，可以基于RDF框架、RDFS框架和OWL框架中的任意一种，利用知识本体设计工具编写SWRL规则，从而可以通过执行上述SWRL规则，实现对上述数据融合后的目标图数据库中的各节点的关系挖掘。该方法的优点包括可支持规则编写纠错功能，且挖掘过程完整清晰，可支持可视化，可支持数据留痕和数据追踪，便于排查纠错；

可选地，还可以通过编写并执行脚本，实现对上述数据融合后的目标图数据库的解析，进而可以基于解析结果，以及RDF框架、RDFS框架和OWL框架中的任意一种，利用知识本体设计工具编写SWRL规则，从而可以通过执行上述SWRL规则，实现对上述数据融合后的目标图数据库中的各节点的关系挖掘。该方法的优点包括可批量处理大文本数据，并且处理速度较快。

可选地，还可以通过编写并执行脚本，利用图嵌入技术和深度学习技术，基于上述数据融合后的目标图数据库中各节点之间的已有关系，实现对上述数据融合后的目标图数据库中的各节点的关系挖掘。该方法的优点包括可以关系挖掘的准确率较高，遗漏率较低。

本发明实施例能基于资源描述框架、扩展资源描述框架或万维网本体语言，更准确、更高效地对数据融合后的目标图数据库中的各节点进行关系挖掘。

基于上述各实施例的内容，基于待融合数据源中待融合实例的语义信息，将待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，包括：在基于待融合实例的语义信息和目标图数据库中原有节点的语义信息，确定待融合实例与目标图数据库中的目标根节点具有关联关系的情况下，将待融合实例作为目标根节点的新增子节点，添加至目标图数据库中。

具体地，基于待融合实例的语义信息和目标图数据库中每一原有节点的语义信息，可以将目标图数据库中与待融合实例具有三元组关系的原有节点，确定为目标节点。若上述目标节点为根节点，则可以将上述目标节点确定为目标根节点；若上述目标节点为子节点，则可以将上述目标节点的根节点，确定为目标根节点。

可选地，基于待融合实例的语义信息和目标图数据库中每一原有节点的语义信息，可以基于命名实体识别的方式在目标图数据库中确定与待融合实例具有三元组关系的原有节点，作为目标节点。基于命名实体识别方式在目标图数据库中确定与待融合实例具有三元组关系的原有节点时，分词和词的嵌入可以基于预训练模型进行嵌入，或者还可以基于构建目标图数据库的过程中逐步扩充词表。其中，命名实体识别（Named EntityRecognition，简称NER），又称作“专名识别”，是指识别文本中具有特定意义的实体。

可选地，基于目标图数据库中每一原有节点的语义信息可以构建数据字典，从而可以基于待融合实例的语义信息，通过数据字典查询的方式，在目标图数据库中确定与待融合实例具有三元组关系的原有节点，作为目标节点。

可选地，基于待融合实例的语义信息和目标图数据库中每一原有节点的语义信息，利用知识本体设计工具的entityIRI属性，在目标图数据库中确定与待融合实例具有三元组关系的原有节点，作为目标节点。该方法的有点包括自定义和自动化程度高，在数据融合的同时，可有选择性的保留、去除、修订以及指定节点及关系。

本发明实施例通过基于待融合实例的语义信息和目标图数据库中原有节点的语义信息，在确定待融合实例与目标图数据库中的目标根节点具有关联关系的情况下，将待融合实例作为上述目标根节点的新增子节点，添加至目标图数据库中，能基于待融合实例与目标图数据库中节点的三元体关系，更准确、更高效地实现图数据库与多源数据的融合。

基于上述各实施例的内容，基于待融合数据源中待融合实例的语义信息，将待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，包括：在基于待融合实例的语义信息和目标图数据库中原有节点的语义信息，确定待融合实例与目标图数据库中的任一原有节点不具有关联关系且目标图数据库中不存在待融合实例的语义信息的情况下，将待融合实例作为新增根节点，添加至目标图数据库中。

具体地，若基于待融合实例的语义信息和目标图数据库中每一原有节点的语义信息，确定待融合实例与目标图数据库中的任一原有节点不具有关联关系，并且目标图数据库中不存在待融合实例的语义信息，则可以说明待融合实例为新数据，可以将待融合实例作为新增根节点，添加至目标图数据库中，从而能更准确、更高效地实现图数据库与多源新数据的融合。

基于上述各实施例的内容，将待融合实例作为新增根节点，添加至目标图数据库中之后，还包括：为新增根节点赋值唯一的身份标识。

具体地，在将待融合实例作为新增根节点添加至目标图数据库中之后，可以为上述新增额定赋值唯一的身份标识，从而能更高效地减少图数据库中的重复数据。

基于上述各实施例的内容，基于待融合数据源中待融合实例的语义信息，将待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，获得数据融合后的目标图数据库之前，还包括：对目标图数据库中的各节点进行关系挖掘和关系查验，根据挖掘结果和查验结果，建立目标图数据库中第二目标节点对之间的关系，和/或，删除第三目标节点对之间的关系。

其中，第二目标节点对包括目标图数据库中两个不同的原有节点；第三目标节点对包括目标图数据库中两个不同的原有节点。

具体地，在构建目标图数据库之后，在对待融合数据源和目标图数据库进行数据融合之前，可以对目标图数据库中的各节点进行关系挖掘，挖掘目标图数据库中任意两个原有节点之间的潜在关系。

对目标图数据库中的各节点进行关系挖掘之后，若根据挖掘结果，确定目标图数据库中的任意两个原有节点之间存在潜在关系，则可以将上述任意两个原有节点确定为一个第二目标节点对，并可以建立上述任意两个原有节点之间的关系，从而可以实现上述任意两个原有节点之间的关系补充。

在构建目标图数据库之后，在对待融合数据源和目标图数据库进行数据融合之前，可以对目标图数据库中的各节点进行关系查验。

可选地，可以基于排他关系对目标图数据库中的各节点进行一致性查验，例如药品的适应症与药品的副作用存在排他关系，因此“胰岛素”不应同时为“2型糖尿病”的适应症和副作用。

对目标图数据库中的各节点进行关系查验之后，若根据查验结果，确定目标图数据库中的任意两个原有节点之间存在错误关系，则可以将上述任意两个原有节点确定为一个第三目标节点对，并可以删除上述任意两个原有节点之间的关系，从而可以提高目标图数据库中的数据质量。

本发明实施例中在构建目标图数据库之后，在对待融合数据源和目标图数据库进行数据融合之前，对目标图数据库中的各节点进行关系挖掘和关系查验，从而根据挖掘结果和查验结果，建立目标图数据库中第二目标节点对之间的关系，和/或，删除第三目标节点对之间的关系，能进一步提高优化后的目标图数据库中的数据质量。

图3是本发明提供的图数据库的优化装置的结构示意图。下面结合图3对本发明提供的图数据库的优化装置进行描述，下文描述的图数据库的优化装置与上文描述的本发明提供的图数据库的优化方法可相互对应参照。如图3所示，该装置包括：数据融合模块301和关系挖掘模块302。

数据融合模块301，用于基于待融合数据源中待融合实例的语义信息，将待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，获得数据融合后的目标图数据库。

关系挖掘模块302，用于对数据融合后的目标图数据库中的各节点进行关系挖掘，根据挖掘结果，建立数据融合后的目标图数据库中第一目标节点对之间的关系，获得优化后的目标图数据库。

具体地，数据融合模块301和关系挖掘模块302电连接。

数据融合模块301可以用于基于上述待融合实例的语义信息，以及目标图数据库中每一原有节点的语义信息，进行条件判断，并可以基于条件判断结果，将上述待融合实例作为目标图数据库中某一原有根节点的新增子节点，或者将待融合实例作为新增根节点添加至目标图数据库中，进而可以获取的数据融合后的目标图数据库。

关系挖掘模块302可以用于通过多种方式对上述数据融合后的目标图数据库中的各节点进行关系挖掘，挖掘上述数据融合后的目标图数据库中的新增节点与目标图数据库中的原有节点之间的潜在关系。若根据挖掘结果，确定上述数据融合后的目标图数据库中的任一新增节点，与目标图数据库中的某一原有节点之间存在潜在关系，则可以将上述新增节点和上述原有节点确定为一个第一目标节点对，并可以建立上述新增节点与上述原有节点之间的关系，从而可以实现上述新增节点与上述原有节点之间的关系补充，获得优化后的目标图数据库。

可选地，图数据库的优化装置还包括赋值模块。

赋值模块可以用于根据目标图数据库中原有根节点的语义信息，为目标图数据库中的原有根节点赋值唯一的身份标识；其中，目标图数据库中语义信息相同的原有根节点身份标识相同。

可选地，关系挖掘模块302可以具体用于基于资源描述框架、扩展资源描述框架或万维网本体语言框架，对数据融合后的目标图数据库中的各节点进行关系挖掘。

可选地，数据融合模块301可以具体用于在基于待融合实例的语义信息和目标图数据库中原有节点的语义信息，确定待融合实例与目标图数据库中的目标根节点具有关联关系的情况下，将待融合实例作为目标根节点的新增子节点，添加至目标图数据库中。

可选地，数据融合模块301还可以具体用于在基于待融合实例的语义信息和目标图数据库中原有节点的语义信息，确定待融合实例与目标图数据库中的任一原有节点不具有关联关系且目标图数据库中不存在待融合实例的语义信息的情况下，将待融合实例作为根节点，添加至目标图数据库中。

相应地，赋值模块还可以用于为新增根节点赋值唯一的身份标识。

可选地，图数据库的优化装置还包括挖掘和查验模块。

挖掘和查验模块可以用于对目标图数据库中的各节点进行关系挖掘和关系查验，根据挖掘结果和查验结果，建立目标图数据库中第二目标节点对之间的关系，和/或，删除第三目标节点对之间的关系；其中，第二目标节点对包括目标图数据库中两个不同的原有节点；第三目标节点对包括目标图数据库中两个不同的原有节点。

本发明实施例中的图数据库的优化装置，通过基于待融合数据源中待融合实例的语义信息，将待融合实例作为新增子节点或新增根节点添加至目标图数据库中，获得数据融合后的目标图数据库之后，对上述数据融合后的目标图数据库中的各节点进行关系挖掘，根据挖掘结果，建立上述数据融合后的目标图数据库中第一目标节点对之间的关系，获得优化后的目标图数据库，第一目标节点对包括一个新增节点和目标图数据库中的一个原有节点，能更准确、更高效地实现图数据库与多源数据的融合，能更准确、更高效的减少图数据库中错漏的数据关系，提高了图数据库的优化效率，能提升图数据库中的数据质量，进而能提高图数据库的可用性，能提高基于图数据库进行数据查询的效率和准确率。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器（processor）410、通信接口（Communications Interface）420、存储器（memory）430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行图数据库的优化方法，该方法包括：基于待融合数据源中待融合实例的语义信息，将待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，获得数据融合后的目标图数据库；对数据融合后的目标图数据库中的各节点进行关系挖掘，根据挖掘结果，建立数据融合后的目标图数据库中第一目标节点对之间的关系，获得优化后的目标图数据库；其中，第一目标节点对包括一个新增节点和目标图数据库中的一个原有节点。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的图数据库的优化方法，该方法包括：基于待融合数据源中待融合实例的语义信息，将待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，获得数据融合后的目标图数据库；对数据融合后的目标图数据库中的各节点进行关系挖掘，根据挖掘结果，建立数据融合后的目标图数据库中第一目标节点对之间的关系，获得优化后的目标图数据库；其中，第一目标节点对包括一个新增节点和目标图数据库中的一个原有节点。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的图数据库的优化方法，该方法包括：基于待融合数据源中待融合实例的语义信息，将待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，获得数据融合后的目标图数据库；对数据融合后的目标图数据库中的各节点进行关系挖掘，根据挖掘结果，建立数据融合后的目标图数据库中第一目标节点对之间的关系，获得优化后的目标图数据库；其中，第一目标节点对包括一个新增节点和目标图数据库中的一个原有节点。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图数据库的优化方法，其特征在于，包括：

2.根据权利要求1所述的图数据库的优化方法，其特征在于，所述基于待融合数据源中待融合实例的语义信息，将所述待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，获得数据融合后的目标图数据库之前，还包括：

3.根据权利要求1所述的图数据库的优化方法，其特征在于，所述对所述数据融合后的目标图数据库中的各节点进行关系挖掘，包括：

4.根据权利要求1所述的图数据库的优化方法，其特征在于，所述基于待融合数据源中待融合实例的语义信息，将所述待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，包括：

5.根据权利要求1所述的图数据库的优化方法，其特征在于，所述基于待融合数据源中待融合实例的语义信息，将所述待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，包括：

6.根据权利要求5所述的图数据库的优化方法，其特征在于，所述将所述待融合实例作为新增根节点，添加至目标图数据库中之后，还包括：

为所述新增根节点赋值唯一的身份标识。

7.根据权利要求1至6任一所述的图数据库的优化方法，其特征在于，所述基于待融合数据源中待融合实例的语义信息，将所述待融合实例作为新增子节点或新增根节点，添加至目标图数据库中，获得数据融合后的目标图数据库之前，还包括：

8.一种图数据库的优化装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述图数据库的优化方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图数据库的优化方法。