CN112182238A

CN112182238A - 一种基于图数据库的知识图谱构建系统和方法

Info

Publication number: CN112182238A
Application number: CN202010999621.0A
Authority: CN
Inventors: 路智钦
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2021-01-05
Anticipated expiration: 2040-09-22
Also published as: CN112182238B

Abstract

本发明公开了一种基于图数据库的知识图谱构建系统和方法，包括：识别图数据库中的图数据类型，将不同类型的所述图数据分批次加载到CPU内存中；将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段，获得知识图谱的字段，并提取信息字段；将所述信息字段按照比重建立数据维度内层模型，基于所述数据维度内层模型建立数据维度外层模型；根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化，获得知识图谱数据库；建立知识查询Web接口，解析查询命令，返回知识图谱数据库中调取结果数据。本发明实现一键式的查询和毫秒级的响应，尽可能降低了对图数据进行知识挖掘的难度，极大的提高了构建知识图谱的效率。

Description

一种基于图数据库的知识图谱构建系统和方法

技术领域

本发明涉及知识图谱构建技术领域，更具体地说，本发明涉及一种基于图数据库的知识图谱构建系统和方法。

背景技术

知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。在涉及构建知识图谱的场景中，由于需要对复杂的进行分析并提取有用的知识信息，过程冗长，效率极低，而且因为对考虑不全面，往往导致知识发掘结果的准确性较低。因此，有必要提出一种基于图数据库的知识图谱构建系统和方法，以至少部分地解决现有技术中存在的问题。

发明内容

在发明内容部分中引入了一系列简化形式的概念，这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征，更不意味着试图确定所要求保护的技术方案的保护范围。

为至少部分地解决上述问题，本发明提供了一种基于图数据库的知识图谱构建方法，包括：

识别图数据库中的图数据类型，将不同类型的所述图数据分批次加载到CPU内存中；

将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段，获得知识图谱的字段，并提取信息字段；

将所述信息字段按照比重建立数据维度内层模型，基于所述数据维度内层模型建立数据维度外层模型；

根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化，获得知识图谱数据库；

建立知识查询Web接口，解析查询命令，返回知识图谱数据库中调取结果数据。

进一步地，所述识别图数据库中的图数据类型，将不同类型的所述图数据分批次加载到CPU内存中，包括：

加载图数据的配置文件，识别图数据库中的图数据的类型；

对所述配置文件实时监控，随所述配置文件的修改动态变更所述图数据的加载策略；

调用与不同类型的所述图数据对应的API，将所述图数据按照所述加载策略加载到所述CPU内存中。

进一步地，对所述配置文件实时监控，随所述配置文件的修改动态变更所述图数据的加载策略，包括：

采用动态监控所述配置文件，所述配置文件修改则动态变更所述图数据的加载策略；

利用添加监控将丢失的所述图数据重新从数据源文件中进行加载。

进一步地，所述调用与不同类型的所述图数据对应的API，将所述图数据按照所述加载策略加载到所述CPU内存中，包括：

使用flume将所述图数据导入到kafka主题中；

调用与不同类型的所述图数据对应的API，将所述图数据按照所述加载策略从所述kafka主题中加载到所述CPU内存中。

进一步地，将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段，获得知识图谱的字段，并提取信息字段，包括：

判断所述图数据中是否有指定的所述属性关联字段；

将全部所述属性关联字段或指定的所述属性关联字段进行解析、分割、提取和过滤，得到结果属性关联字段；

将所述图数据逐个进行识别并标记所述结果属性关联字段，获得知识图谱的字段；

从所述知识图谱的字段中提取信息字段。

进一步地，将所述信息字段按照比重建立数据维度内层模型，基于所述数据维度内层模型建立数据维度外层模型，包括：

利用所述知识图谱的字段中提取的所述信息字段，以唯一对应的信息字段为中心起点，以多个不唯一对应的信息字段为终点，按照比重建立多个数据向量，多个所述数据向量组成的全量数据集作为数据维度内层模型；

利用所述数据维度内层模型中的所述全量数据集为中心起点，以针对所述全量数据集不同策略的统计结果为终点，建立多个全数据向量，多个所述全数据向量组成的数据集作为数据维度外层模型。

进一步地，根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化，获得知识图谱数据库，包括：

将所述数据维度内层模型和所述数据维度外层模型中的数据持久化，得到最终持久化数据；

判断加载的图数据的配置文件中是否指定了最终持久化数据的数据库类型；

将没有指定数据库类型的所述最终持久化数据划分到hive分区表中，获得知识图谱数据库；将有指定数据库类型的所述最终持久化数据通过调用对应的API，将所述最终持久化数据划分到指定的数据库中，获得知识图谱数据库。

进一步地，在所述知识图谱数据库中，针对所述数据维度内层模型和数据维度外层模型分别建立不同的分区和表；使用solr或者es为分区和表创建索引字段。

进一步地，所述建立知识查询Web接口，解析查询命令，返回知识图谱数据库中调取结果数据，包括：

构建Web为用户提供数据查询界面；

解析优化用户提供的SQL查询语言，返回知识图谱数据库中提取查询结果，调取结果数据。

一种基于图数据库的知识图谱构建系统，包括：

图数据连接模块，用于识别图数据库中的图数据类型，将不同类型的所述图数据分批次加载到CPU内存中；

信息标注模块，用于将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段，获得知识图谱的字段，并提取信息字段；

数据魔方构建模块，用于将所述信息字段按照比重建立数据维度内层模型，基于所述数据维度内层模型建立数据维度外层模型；

数据魔方持久化模块，用于根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化，获得知识图谱数据库；

知识图谱查询模块，用于建立知识查询web接口，解析查询命令，返回知识图谱数据库中调取结果数据。

相比现有技术，本发明至少包括以下有益效果：

本发明所述的一种基于图数据库的知识图谱构建系统和方法通过识别图数据库中图数据的类型，将图数据分批加载到CPU中，提高了加载效率，将图数据进行逐个标记获得知识图谱的字段，在其中提取所需要的信息字段，利用信息字段建立数据维度内层模型和数据维度外层模型，可提高知识发掘结果的准确性，并且有效的缩短了对复杂的图数据进行分析并提取有用的知识信息的过程，提高了效率，并且将模型中的数据持久化后可以长期保存数据，防止数据丢失；能够在对图数据进行知识挖掘的时候，用户通过界面上知识图谱的查询Web接口，输入查询命令，查询命令经解析后返回知识图谱数据库中，再将所要查询的信息反馈至界面，实现一键式的查询和毫秒级的响应，尽可能降低了对图数据进行知识挖掘的难度，极大的提高了构建知识图谱的效率。

本发明所述的一种基于图数据库的知识图谱构建系统和方法，本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明所述的一种基于图数据库的知识图谱构建方法的流程图。

图2为本发明所述的一种基于图数据库的知识图谱构建系统和方法的原理流程图。

具体实施方式

下面结合附图以及实施例对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1所示，本发明提供了一种基于图数据库的知识图谱构建方法，包括：

S1、识别图数据库中的图数据类型，将不同类型的所述图数据分批次加载到CPU内存中；

S2、将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段，获得知识图谱的字段，并提取信息字段；

S3、将所述信息字段按照比重建立数据维度内层模型，基于所述数据维度内层模型建立数据维度外层模型；

S4、根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化，获得知识图谱数据库；

S5、建立知识查询Web接口，解析查询命令，返回知识图谱数据库中调取结果数据。

上述技术方案的工作原理：首先根据用户指定的图数据类型，将图数据库中不同类型的图数据分别采用与之对应的连接器，将图数据分批加载到CPU内存中，然后将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段，获得知识图谱的字段，并提取信息字段；随后，将所述信息字段按照比重建立数据维度内层模型，并在数据维度内层模型基础上按照用户指定的规则将所有可能的结果数据进行数据维度外层模型的建立；最后，根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化到数据库中，其中数据库可以为非结构化数据库或结构化数据库，进而获得知识图谱数据库；用户输入配置文件的路径，通过建立知识查询Web接口，为用户提供查询界面，用户在客户端的查询界面输入查询命令经解析后返回知识图谱数据库中，则在可视化界面上展示出统计策略构建的统计图和具体统计表信息。

上述技术方案的有益效果：通过识别图数据库中图数据的类型，将图数据分批加载到CPU中，提高了加载效率，将图数据进行逐个标记获得知识图谱的字段，在其中提取所需要的信息字段，利用信息字段建立数据维度内层模型和数据维度外层模型，可提高知识发掘结果的准确性，并且有效的缩短了对复杂的图数据进行分析并提取有用的知识信息的过程，提高了效率，并且将模型中的数据持久化后可以长期保存数据，防止数据丢失；能够在对图数据进行知识挖掘的时候，用户通过界面上知识图谱的查询Web接口，输入查询命令，查询命令经解析后返回知识图谱数据库中，再将所要查询的信息反馈至界面，实现一键式的查询和毫秒级的响应，尽可能降低了对图数据进行知识挖掘的难度，极大的提高了构建知识图谱的效率。

在一个实施例中，所述识别图数据库中的图数据类型，将不同类型的所述图数据分批次加载到CPU内存中，包括：

S101、加载图数据的配置文件，识别图数据库中的图数据的类型；

S102、对所述配置文件实时监控，随所述配置文件的修改动态变更所述图数据的加载策略；

S103、调用与不同类型的所述图数据对应的API，将所述图数据按照所述加载策略加载到所述CPU内存中。

上述技术方案的工作原理：首先加载用户提供的图数据配置文件，并识别图数据库中的图数据类型；同时，对所述配置文件进行实时监控，一旦配置文件修改，则随所述配置文件的修改动态变更所述图数据的加载策略；然后，根据数据库中不同类型的图数据调用与之相对应API(指Application Programming Interface，应用程序接口)，将不同类型的所述图数据按照所述加载策略加载到所述CPU内存中。

上述技术方案的有益效果：可对加载的配置文件实时监控，一旦配置文件修改，则动态变更图数据的加载策略，可随时调整调用与不同类型的图数据对应的API(指Application Programming Interface，应用程序接口)，可快速有效的处理数据，按照对应的加载策略加载到所述CPU内存中，可提高加载图数据的速度，进而提高效率。

在一个实施例中，对所述配置文件实时监控，随所述配置文件的修改动态变更所述图数据的加载策略，包括：

S1021、采用动态监控所述配置文件，所述配置文件修改则动态变更所述图数据的加载策略；

S1022、利用添加监控将丢失的所述图数据重新从数据源文件中进行加载。

上述技术方案的工作原理：采用动态监控所述配置文件，一旦配置文件修改，则动态变更所述图数据的加载策略，同时利用添加监控，实时监控图数据是否有丢失的情况，一旦图数据丢失则重新从数据源文件中进行加载丢失的图数据。

上述技术方案的有益效果：动态监控所述配置文件可提高数据加载的效率，节省数据加载的时间，为用户提供便利，并且利用添加监控可防止数据丢失造成的不良结果，保证最后构建的知识图谱的完整性。

在一个实施例中，所述调用与不同类型的所述图数据对应的API，将所述图数据按照所述加载策略加载到所述CPU内存中，包括：

S1031、使用flume将所述图数据导入到kafka主题中；

S1032、调用与不同类型的所述图数据对应的API，将所述图数据按照所述加载策略从所述kafka主题中加载到所述CPU内存中。

上述技术方案的工作原理：首先利用flume(日志收集系统)将所述图数据导入到kafka(分布式发布订阅消息系统)主题中，然后调用与不同类型的所述图数据对应的API，将所述图数据按照所述加载策略从所述kafka主题中加载到所述CPU内存中。

上述技术方案的有益效果：flume具有高可用和高可靠性，保证了数据在传送和接收时的一致性，减少了导入数据时出现错误的概率，kafka可保证数据的稳定性，并且是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据，可以支持每秒数百万的消息，保证了图数据的存储量和稳定性，提高了数据处理效率。

在一个实施例中，将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段，获得知识图谱的字段，并提取信息字段，包括：

S201、判断所述图数据中是否有指定的所述属性关联字段；

S202、将全部所述属性关联字段或指定的所述属性关联字段进行解析、分割、提取和过滤，得到结果属性关联字段；

S203、将所述图数据逐个进行识别并标记所述结果属性关联字段，获得知识图谱的字段；

S204、从所述知识图谱的字段中提取信息字段。

上述技术方案的工作原理：首先，判断所述图数据中是否有用户指定的所述属性关联字段，若判断结果为图数据中没有用户指定的所述属性关联字段则将全部所述属性关联字段进行解析、分割、提取和过滤，得到结果属性关联字段并用于构建知识图谱的字段，若判断结果为图数据中有用户指定的所述属性关联字段则仅将指定的所述属性关联字段进行解析、分割、提取和过滤，得到结果属性关联字段并用于构建知识图谱的字段；然后，将所述图数据逐个进行识别并标记所述结果属性关联字段，获得知识图谱的字段；最后，从所述知识图谱的字段中提取信息字段。

上述技术方案的有益效果：若图数据库中有用户指定的所述属性关联字段，则将不需要将全部所述属性关联字段进行数据处理，减少了数据处理时间，提高了得到结果属性关联字段的效率，然后再将图数据逐个进行标记，获得知识图谱的字段，防止对图数据标记不全面，而导致准确性较低。

在一个实施例中，将所述信息字段按照比重建立数据维度内层模型，基于所述数据维度内层模型建立数据维度外层模型，包括：

S301、利用所述知识图谱的字段中提取的所述信息字段，以唯一对应的信息字段为中心起点，以多个不唯一对应的信息字段为终点，按照比重建立多个数据向量，多个所述数据向量组成的全量数据集作为数据维度内层模型；

S302、利用所述数据维度内层模型中的所述全量数据集为中心起点，以针对所述全量数据集不同策略的统计结果为终点，建立多个全数据向量，多个所述全数据向量组成的数据集作为数据维度外层模型。

上述技术方案的工作原理：首先，利用所述知识图谱的字段中提取的所述信息字段，以唯一对应的信息字段为中心起点，以多个不唯一对应的信息字段为终点，按照用户指定的不唯一对应的信息字段的比重建立多个数据向量，如果用户没有指定不唯一对应的信息字段的比重，则将比重平均分配给每个不唯一对应的信息字段，建立多个数据向量，多个数据向量组成的全量数据集作为数据维度内层模型，其中每个所述唯一对应的信息字段都将关联多个与其在二层关系之内的其他唯一对应的信息字段的信息；然后，结合用户指定的统计策略，利用所述数据维度内层模型中的所述全量数据集为中心起点，以针对所述全量数据集不同策略的统计结果为终点，建立多个全数据向量，多个所述全数据向量组成的数据集作为数据维度外层模型，如果用户没有指定统计策略，则自动根据所述信息字段的类型生成全方位统计策略，建立数据维度外层模型。

上述技术方案的有益效果：可保证对知识发掘结果的准确性，并且每个所述唯一对应的信息字段都将关联多个与其在二层关系之内的其他唯一对应的信息字段的信息，可以快速定位到与一个唯一对应的信息字段关联的多个其他唯一对应的信息字段信息，使用户可以轻而易举的发现所关心的社交关系，提高了构建知识图谱的效率。

在一个实施例中，根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化，获得知识图谱数据库，包括：

S401、将所述数据维度内层模型和所述数据维度外层模型中的数据持久化，得到最终持久化数据；

S402、判断加载的图数据的配置文件中是否指定了最终持久化数据的数据库类型；

S403、将没有指定数据库类型的所述最终持久化数据划分到hive分区表中，获得知识图谱数据库；将有指定数据库类型的所述最终持久化数据通过调用对应的API，将所述最终持久化数据划分到指定的数据库中，获得知识图谱数据库。

上述技术方案的工作原理：首先，将所述数据维度内层模型和所述数据维度外层模型中的数据持久化，得到最终持久化数据；然后判断加载的用户图数据的配置文件中是否指定了最终持久化数据的数据库类型，如果用户没有指定数据库类型，则将所述最终持久化数据划分到hive(指数据仓库分析系统)分区表中，获得知识图谱数据库；如果用户指定了数据库类型，则将所述最终持久化数据通过调用对应的API(指ApplicationProgramming Interface，应用程序接口)，将所述最终持久化数据划分到用户指定的数据库中，获得知识图谱数据库。

上述技术方案的有益效果：将模型中的数据持久化到对应的数据库中，可以长时间保存数据，防止丢失，在一定程度上保持了知识图谱的完整性和准确性，人们能更好的更高效的查询到相关信息。

在一个实施例中，在所述知识图谱数据库中，针对所述数据维度内层模型和数据维度外层模型分别建立不同的分区和表；使用solr或者es为分区和表创建索引字段。

上述技术方案的工作原理：在所述知识图谱数据库中，针对所述数据维度内层模型和数据维度外层模型分别建立不同的分区和表，然后使用solr(企业级搜索应用服务器)或者es(指Elasticsearch，搜索服务器)为分区和表创建索引字段。

上述技术方案的有益效果：将两个模型分别建立不同的分区和表，再为分区和表创建索引字段，方便用户在查询相关信息时，快速关联索引字段，快速响应用户的查询命令，并且保证查询结果的准确性和完整性；并且使用solr或es能够达到实时搜索，稳定，可靠，快速，安装使用方便的优势。

在一个实施例中，所述建立知识查询Web接口，解析查询命令，返回知识图谱数据库中调取结果数据，包括：

S501、构建Web为用户提供数据查询界面；

S502、解析优化用户提供的SQL查询语言，返回知识图谱数据库中提取查询结果，调取结果数据。

上述技术方案的工作原理：通过构建知识查询Web接口，为用户提供数据查询界面，用户在客户端的查询界面输入查询命令，解析优化用户提供的SQL(指StructuredQuery Language，结构化查询语言)查询语言后，返回知识图谱数据库中提取查询结果，调取结果数据，则在可视化界面上展示出统计策略构建的统计图和具体统计表信息。

上述技术方案的有益效果：SQL具有极大的灵活性和强大的数据查询功能，方便解析用户输入的查询命令，快速在知识图谱数据库中调取对应的结果数据，为用户在可视化界面上更高效的展示出统计策略构建的统计图和具体统计表信息。

如图2所示，本发明提供了一种基于图数据库的知识图谱构建系统，包括：

上述技术方案的工作原理：图数据连接模块根据用户指定的图数据类型，将图数据库中不同类型的图数据分别采用与之对应的连接器，将图数据分批加载到CPU内存中，以供后续处理，通过信息标注模块将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段，获得知识图谱的字段，并提取信息字段用于构建数据魔方；再利用数据魔方构建模块将所述信息字段按照比重建立数据维度内层模型，并在数据维度内层模型基础上按照用户指定的规则将所有可能的结果数据进行数据维度外层模型的建立；通过数据魔方持久化模块根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化到数据库中，其中数据库可以为非结构化数据库或结构化数据库，进而获得知识图谱数据库。用户输入配置文件的路径，采用知识图谱查询模块建立知识查询Web接口，为用户提供查询界面，用户在查询界面输入命令经解析后返回知识图谱数据库中，则在界面上展示出统计策略构建的统计图和具体统计表信息。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节与这里示出与描述的图例。

Claims

1.一种基于图数据库的知识图谱构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于图数据库的知识图谱构建方法，其特征在于，所述识别图数据库中的图数据类型，将不同类型的所述图数据分批次加载到CPU内存中，包括：

加载图数据的配置文件，识别图数据库中的图数据的类型；

3.根据权利要求2所述的一种基于图数据库的知识图谱构建方法，其特征在于，对所述配置文件实时监控，随所述配置文件的修改动态变更所述图数据的加载策略，包括：

4.根据权利要求2所述的一种基于图数据库的知识图谱构建方法，其特征在于，所述调用与不同类型的所述图数据对应的API，将所述图数据按照所述加载策略加载到所述CPU内存中，包括：

使用flume将所述图数据导入到kafka主题中；

5.根据权利要求1所述的一种基于图数据库的知识图谱构建方法，其特征在于，将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段，获得知识图谱的字段，并提取信息字段，包括：

判断所述图数据中是否有指定的所述属性关联字段；

从所述知识图谱的字段中提取信息字段。

6.根据权利要求1所述的一种基于图数据库的知识图谱构建方法，其特征在于，将所述信息字段按照比重建立数据维度内层模型，基于所述数据维度内层模型建立数据维度外层模型，包括：

7.根据权利要求1所述的一种基于图数据库的知识图谱构建方法，其特征在于，根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化，获得知识图谱数据库，包括：

8.根据权利要求7所述的一种基于图数据库的知识图谱构建方法，其特征在于，在所述知识图谱数据库中，针对所述数据维度内层模型和数据维度外层模型分别建立不同的分区和表；使用solr或者es为分区和表创建索引字段。

9.根据权利要求1所述的一种基于图数据库的知识图谱构建方法，其特征在于，所述建立知识查询Web接口，解析查询命令，返回知识图谱数据库中调取结果数据，包括：

构建Web为用户提供数据查询界面；

10.一种基于图数据库的知识图谱构建系统，其特征在于，所述系统包括：