CN112182238A - 一种基于图数据库的知识图谱构建系统和方法 - Google Patents

一种基于图数据库的知识图谱构建系统和方法 Download PDF

Info

Publication number
CN112182238A
CN112182238A CN202010999621.0A CN202010999621A CN112182238A CN 112182238 A CN112182238 A CN 112182238A CN 202010999621 A CN202010999621 A CN 202010999621A CN 112182238 A CN112182238 A CN 112182238A
Authority
CN
China
Prior art keywords
data
graph
knowledge
fields
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010999621.0A
Other languages
English (en)
Other versions
CN112182238B (zh
Inventor
路智钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010999621.0A priority Critical patent/CN112182238B/zh
Publication of CN112182238A publication Critical patent/CN112182238A/zh
Application granted granted Critical
Publication of CN112182238B publication Critical patent/CN112182238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图数据库的知识图谱构建系统和方法,包括:识别图数据库中的图数据类型,将不同类型的所述图数据分批次加载到CPU内存中;将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段,获得知识图谱的字段,并提取信息字段;将所述信息字段按照比重建立数据维度内层模型,基于所述数据维度内层模型建立数据维度外层模型;根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化,获得知识图谱数据库;建立知识查询Web接口,解析查询命令,返回知识图谱数据库中调取结果数据。本发明实现一键式的查询和毫秒级的响应,尽可能降低了对图数据进行知识挖掘的难度,极大的提高了构建知识图谱的效率。

Description

一种基于图数据库的知识图谱构建系统和方法
技术领域
本发明涉及知识图谱构建技术领域,更具体地说,本发明涉及一种基于图数据库的知识图谱构建系统和方法。
背景技术
知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。在涉及构建知识图谱的场景中,由于需要对复杂的进行分析并提取有用的知识信息,过程冗长,效率极低,而且因为对考虑不全面,往往导致知识发掘结果的准确性较低。因此,有必要提出一种基于图数据库的知识图谱构建系统和方法,以至少部分地解决现有技术中存在的问题。
发明内容
在发明内容部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
为至少部分地解决上述问题,本发明提供了一种基于图数据库的知识图谱构建方法,包括:
识别图数据库中的图数据类型,将不同类型的所述图数据分批次加载到CPU内存中;
将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段,获得知识图谱的字段,并提取信息字段;
将所述信息字段按照比重建立数据维度内层模型,基于所述数据维度内层模型建立数据维度外层模型;
根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化,获得知识图谱数据库;
建立知识查询Web接口,解析查询命令,返回知识图谱数据库中调取结果数据。
进一步地,所述识别图数据库中的图数据类型,将不同类型的所述图数据分批次加载到CPU内存中,包括:
加载图数据的配置文件,识别图数据库中的图数据的类型;
对所述配置文件实时监控,随所述配置文件的修改动态变更所述图数据的加载策略;
调用与不同类型的所述图数据对应的API,将所述图数据按照所述加载策略加载到所述CPU内存中。
进一步地,对所述配置文件实时监控,随所述配置文件的修改动态变更所述图数据的加载策略,包括:
采用动态监控所述配置文件,所述配置文件修改则动态变更所述图数据的加载策略;
利用添加监控将丢失的所述图数据重新从数据源文件中进行加载。
进一步地,所述调用与不同类型的所述图数据对应的API,将所述图数据按照所述加载策略加载到所述CPU内存中,包括:
使用flume将所述图数据导入到kafka主题中;
调用与不同类型的所述图数据对应的API,将所述图数据按照所述加载策略从所述kafka主题中加载到所述CPU内存中。
进一步地,将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段,获得知识图谱的字段,并提取信息字段,包括:
判断所述图数据中是否有指定的所述属性关联字段;
将全部所述属性关联字段或指定的所述属性关联字段进行解析、分割、提取和过滤,得到结果属性关联字段;
将所述图数据逐个进行识别并标记所述结果属性关联字段,获得知识图谱的字段;
从所述知识图谱的字段中提取信息字段。
进一步地,将所述信息字段按照比重建立数据维度内层模型,基于所述数据维度内层模型建立数据维度外层模型,包括:
利用所述知识图谱的字段中提取的所述信息字段,以唯一对应的信息字段为中心起点,以多个不唯一对应的信息字段为终点,按照比重建立多个数据向量,多个所述数据向量组成的全量数据集作为数据维度内层模型;
利用所述数据维度内层模型中的所述全量数据集为中心起点,以针对所述全量数据集不同策略的统计结果为终点,建立多个全数据向量,多个所述全数据向量组成的数据集作为数据维度外层模型。
进一步地,根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化,获得知识图谱数据库,包括:
将所述数据维度内层模型和所述数据维度外层模型中的数据持久化,得到最终持久化数据;
判断加载的图数据的配置文件中是否指定了最终持久化数据的数据库类型;
将没有指定数据库类型的所述最终持久化数据划分到hive分区表中,获得知识图谱数据库;将有指定数据库类型的所述最终持久化数据通过调用对应的API,将所述最终持久化数据划分到指定的数据库中,获得知识图谱数据库。
进一步地,在所述知识图谱数据库中,针对所述数据维度内层模型和数据维度外层模型分别建立不同的分区和表;使用solr或者es为分区和表创建索引字段。
进一步地,所述建立知识查询Web接口,解析查询命令,返回知识图谱数据库中调取结果数据,包括:
构建Web为用户提供数据查询界面;
解析优化用户提供的SQL查询语言,返回知识图谱数据库中提取查询结果,调取结果数据。
一种基于图数据库的知识图谱构建系统,包括:
图数据连接模块,用于识别图数据库中的图数据类型,将不同类型的所述图数据分批次加载到CPU内存中;
信息标注模块,用于将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段,获得知识图谱的字段,并提取信息字段;
数据魔方构建模块,用于将所述信息字段按照比重建立数据维度内层模型,基于所述数据维度内层模型建立数据维度外层模型;
数据魔方持久化模块,用于根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化,获得知识图谱数据库;
知识图谱查询模块,用于建立知识查询web接口,解析查询命令,返回知识图谱数据库中调取结果数据。
相比现有技术,本发明至少包括以下有益效果:
本发明所述的一种基于图数据库的知识图谱构建系统和方法通过识别图数据库中图数据的类型,将图数据分批加载到CPU中,提高了加载效率,将图数据进行逐个标记获得知识图谱的字段,在其中提取所需要的信息字段,利用信息字段建立数据维度内层模型和数据维度外层模型,可提高知识发掘结果的准确性,并且有效的缩短了对复杂的图数据进行分析并提取有用的知识信息的过程,提高了效率,并且将模型中的数据持久化后可以长期保存数据,防止数据丢失;能够在对图数据进行知识挖掘的时候,用户通过界面上知识图谱的查询Web接口,输入查询命令,查询命令经解析后返回知识图谱数据库中,再将所要查询的信息反馈至界面,实现一键式的查询和毫秒级的响应,尽可能降低了对图数据进行知识挖掘的难度,极大的提高了构建知识图谱的效率。
本发明所述的一种基于图数据库的知识图谱构建系统和方法,本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明所述的一种基于图数据库的知识图谱构建方法的流程图。
图2为本发明所述的一种基于图数据库的知识图谱构建系统和方法的原理流程图。
具体实施方式
下面结合附图以及实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1所示,本发明提供了一种基于图数据库的知识图谱构建方法,包括:
S1、识别图数据库中的图数据类型,将不同类型的所述图数据分批次加载到CPU内存中;
S2、将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段,获得知识图谱的字段,并提取信息字段;
S3、将所述信息字段按照比重建立数据维度内层模型,基于所述数据维度内层模型建立数据维度外层模型;
S4、根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化,获得知识图谱数据库;
S5、建立知识查询Web接口,解析查询命令,返回知识图谱数据库中调取结果数据。
上述技术方案的工作原理:首先根据用户指定的图数据类型,将图数据库中不同类型的图数据分别采用与之对应的连接器,将图数据分批加载到CPU内存中,然后将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段,获得知识图谱的字段,并提取信息字段;随后,将所述信息字段按照比重建立数据维度内层模型,并在数据维度内层模型基础上按照用户指定的规则将所有可能的结果数据进行数据维度外层模型的建立;最后,根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化到数据库中,其中数据库可以为非结构化数据库或结构化数据库,进而获得知识图谱数据库;用户输入配置文件的路径,通过建立知识查询Web接口,为用户提供查询界面,用户在客户端的查询界面输入查询命令经解析后返回知识图谱数据库中,则在可视化界面上展示出统计策略构建的统计图和具体统计表信息。
上述技术方案的有益效果:通过识别图数据库中图数据的类型,将图数据分批加载到CPU中,提高了加载效率,将图数据进行逐个标记获得知识图谱的字段,在其中提取所需要的信息字段,利用信息字段建立数据维度内层模型和数据维度外层模型,可提高知识发掘结果的准确性,并且有效的缩短了对复杂的图数据进行分析并提取有用的知识信息的过程,提高了效率,并且将模型中的数据持久化后可以长期保存数据,防止数据丢失;能够在对图数据进行知识挖掘的时候,用户通过界面上知识图谱的查询Web接口,输入查询命令,查询命令经解析后返回知识图谱数据库中,再将所要查询的信息反馈至界面,实现一键式的查询和毫秒级的响应,尽可能降低了对图数据进行知识挖掘的难度,极大的提高了构建知识图谱的效率。
在一个实施例中,所述识别图数据库中的图数据类型,将不同类型的所述图数据分批次加载到CPU内存中,包括:
S101、加载图数据的配置文件,识别图数据库中的图数据的类型;
S102、对所述配置文件实时监控,随所述配置文件的修改动态变更所述图数据的加载策略;
S103、调用与不同类型的所述图数据对应的API,将所述图数据按照所述加载策略加载到所述CPU内存中。
上述技术方案的工作原理:首先加载用户提供的图数据配置文件,并识别图数据库中的图数据类型;同时,对所述配置文件进行实时监控,一旦配置文件修改,则随所述配置文件的修改动态变更所述图数据的加载策略;然后,根据数据库中不同类型的图数据调用与之相对应API(指Application Programming Interface,应用程序接口),将不同类型的所述图数据按照所述加载策略加载到所述CPU内存中。
上述技术方案的有益效果:可对加载的配置文件实时监控,一旦配置文件修改,则动态变更图数据的加载策略,可随时调整调用与不同类型的图数据对应的API(指Application Programming Interface,应用程序接口),可快速有效的处理数据,按照对应的加载策略加载到所述CPU内存中,可提高加载图数据的速度,进而提高效率。
在一个实施例中,对所述配置文件实时监控,随所述配置文件的修改动态变更所述图数据的加载策略,包括:
S1021、采用动态监控所述配置文件,所述配置文件修改则动态变更所述图数据的加载策略;
S1022、利用添加监控将丢失的所述图数据重新从数据源文件中进行加载。
上述技术方案的工作原理:采用动态监控所述配置文件,一旦配置文件修改,则动态变更所述图数据的加载策略,同时利用添加监控,实时监控图数据是否有丢失的情况,一旦图数据丢失则重新从数据源文件中进行加载丢失的图数据。
上述技术方案的有益效果:动态监控所述配置文件可提高数据加载的效率,节省数据加载的时间,为用户提供便利,并且利用添加监控可防止数据丢失造成的不良结果,保证最后构建的知识图谱的完整性。
在一个实施例中,所述调用与不同类型的所述图数据对应的API,将所述图数据按照所述加载策略加载到所述CPU内存中,包括:
S1031、使用flume将所述图数据导入到kafka主题中;
S1032、调用与不同类型的所述图数据对应的API,将所述图数据按照所述加载策略从所述kafka主题中加载到所述CPU内存中。
上述技术方案的工作原理:首先利用flume(日志收集系统)将所述图数据导入到kafka(分布式发布订阅消息系统)主题中,然后调用与不同类型的所述图数据对应的API,将所述图数据按照所述加载策略从所述kafka主题中加载到所述CPU内存中。
上述技术方案的有益效果:flume具有高可用和高可靠性,保证了数据在传送和接收时的一致性,减少了导入数据时出现错误的概率,kafka可保证数据的稳定性,并且是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据,可以支持每秒数百万的消息,保证了图数据的存储量和稳定性,提高了数据处理效率。
在一个实施例中,将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段,获得知识图谱的字段,并提取信息字段,包括:
S201、判断所述图数据中是否有指定的所述属性关联字段;
S202、将全部所述属性关联字段或指定的所述属性关联字段进行解析、分割、提取和过滤,得到结果属性关联字段;
S203、将所述图数据逐个进行识别并标记所述结果属性关联字段,获得知识图谱的字段;
S204、从所述知识图谱的字段中提取信息字段。
上述技术方案的工作原理:首先,判断所述图数据中是否有用户指定的所述属性关联字段,若判断结果为图数据中没有用户指定的所述属性关联字段则将全部所述属性关联字段进行解析、分割、提取和过滤,得到结果属性关联字段并用于构建知识图谱的字段,若判断结果为图数据中有用户指定的所述属性关联字段则仅将指定的所述属性关联字段进行解析、分割、提取和过滤,得到结果属性关联字段并用于构建知识图谱的字段;然后,将所述图数据逐个进行识别并标记所述结果属性关联字段,获得知识图谱的字段;最后,从所述知识图谱的字段中提取信息字段。
上述技术方案的有益效果:若图数据库中有用户指定的所述属性关联字段,则将不需要将全部所述属性关联字段进行数据处理,减少了数据处理时间,提高了得到结果属性关联字段的效率,然后再将图数据逐个进行标记,获得知识图谱的字段,防止对图数据标记不全面,而导致准确性较低。
在一个实施例中,将所述信息字段按照比重建立数据维度内层模型,基于所述数据维度内层模型建立数据维度外层模型,包括:
S301、利用所述知识图谱的字段中提取的所述信息字段,以唯一对应的信息字段为中心起点,以多个不唯一对应的信息字段为终点,按照比重建立多个数据向量,多个所述数据向量组成的全量数据集作为数据维度内层模型;
S302、利用所述数据维度内层模型中的所述全量数据集为中心起点,以针对所述全量数据集不同策略的统计结果为终点,建立多个全数据向量,多个所述全数据向量组成的数据集作为数据维度外层模型。
上述技术方案的工作原理:首先,利用所述知识图谱的字段中提取的所述信息字段,以唯一对应的信息字段为中心起点,以多个不唯一对应的信息字段为终点,按照用户指定的不唯一对应的信息字段的比重建立多个数据向量,如果用户没有指定不唯一对应的信息字段的比重,则将比重平均分配给每个不唯一对应的信息字段,建立多个数据向量,多个数据向量组成的全量数据集作为数据维度内层模型,其中每个所述唯一对应的信息字段都将关联多个与其在二层关系之内的其他唯一对应的信息字段的信息;然后,结合用户指定的统计策略,利用所述数据维度内层模型中的所述全量数据集为中心起点,以针对所述全量数据集不同策略的统计结果为终点,建立多个全数据向量,多个所述全数据向量组成的数据集作为数据维度外层模型,如果用户没有指定统计策略,则自动根据所述信息字段的类型生成全方位统计策略,建立数据维度外层模型。
上述技术方案的有益效果:可保证对知识发掘结果的准确性,并且每个所述唯一对应的信息字段都将关联多个与其在二层关系之内的其他唯一对应的信息字段的信息,可以快速定位到与一个唯一对应的信息字段关联的多个其他唯一对应的信息字段信息,使用户可以轻而易举的发现所关心的社交关系,提高了构建知识图谱的效率。
在一个实施例中,根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化,获得知识图谱数据库,包括:
S401、将所述数据维度内层模型和所述数据维度外层模型中的数据持久化,得到最终持久化数据;
S402、判断加载的图数据的配置文件中是否指定了最终持久化数据的数据库类型;
S403、将没有指定数据库类型的所述最终持久化数据划分到hive分区表中,获得知识图谱数据库;将有指定数据库类型的所述最终持久化数据通过调用对应的API,将所述最终持久化数据划分到指定的数据库中,获得知识图谱数据库。
上述技术方案的工作原理:首先,将所述数据维度内层模型和所述数据维度外层模型中的数据持久化,得到最终持久化数据;然后判断加载的用户图数据的配置文件中是否指定了最终持久化数据的数据库类型,如果用户没有指定数据库类型,则将所述最终持久化数据划分到hive(指数据仓库分析系统)分区表中,获得知识图谱数据库;如果用户指定了数据库类型,则将所述最终持久化数据通过调用对应的API(指ApplicationProgramming Interface,应用程序接口),将所述最终持久化数据划分到用户指定的数据库中,获得知识图谱数据库。
上述技术方案的有益效果:将模型中的数据持久化到对应的数据库中,可以长时间保存数据,防止丢失,在一定程度上保持了知识图谱的完整性和准确性,人们能更好的更高效的查询到相关信息。
在一个实施例中,在所述知识图谱数据库中,针对所述数据维度内层模型和数据维度外层模型分别建立不同的分区和表;使用solr或者es为分区和表创建索引字段。
上述技术方案的工作原理:在所述知识图谱数据库中,针对所述数据维度内层模型和数据维度外层模型分别建立不同的分区和表,然后使用solr(企业级搜索应用服务器)或者es(指Elasticsearch,搜索服务器)为分区和表创建索引字段。
上述技术方案的有益效果:将两个模型分别建立不同的分区和表,再为分区和表创建索引字段,方便用户在查询相关信息时,快速关联索引字段,快速响应用户的查询命令,并且保证查询结果的准确性和完整性;并且使用solr或es能够达到实时搜索,稳定,可靠,快速,安装使用方便的优势。
在一个实施例中,所述建立知识查询Web接口,解析查询命令,返回知识图谱数据库中调取结果数据,包括:
S501、构建Web为用户提供数据查询界面;
S502、解析优化用户提供的SQL查询语言,返回知识图谱数据库中提取查询结果,调取结果数据。
上述技术方案的工作原理:通过构建知识查询Web接口,为用户提供数据查询界面,用户在客户端的查询界面输入查询命令,解析优化用户提供的SQL(指StructuredQuery Language,结构化查询语言)查询语言后,返回知识图谱数据库中提取查询结果,调取结果数据,则在可视化界面上展示出统计策略构建的统计图和具体统计表信息。
上述技术方案的有益效果:SQL具有极大的灵活性和强大的数据查询功能,方便解析用户输入的查询命令,快速在知识图谱数据库中调取对应的结果数据,为用户在可视化界面上更高效的展示出统计策略构建的统计图和具体统计表信息。
如图2所示,本发明提供了一种基于图数据库的知识图谱构建系统,包括:
图数据连接模块,用于识别图数据库中的图数据类型,将不同类型的所述图数据分批次加载到CPU内存中;
信息标注模块,用于将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段,获得知识图谱的字段,并提取信息字段;
数据魔方构建模块,用于将所述信息字段按照比重建立数据维度内层模型,基于所述数据维度内层模型建立数据维度外层模型;
数据魔方持久化模块,用于根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化,获得知识图谱数据库;
知识图谱查询模块,用于建立知识查询web接口,解析查询命令,返回知识图谱数据库中调取结果数据。
上述技术方案的工作原理:图数据连接模块根据用户指定的图数据类型,将图数据库中不同类型的图数据分别采用与之对应的连接器,将图数据分批加载到CPU内存中,以供后续处理,通过信息标注模块将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段,获得知识图谱的字段,并提取信息字段用于构建数据魔方;再利用数据魔方构建模块将所述信息字段按照比重建立数据维度内层模型,并在数据维度内层模型基础上按照用户指定的规则将所有可能的结果数据进行数据维度外层模型的建立;通过数据魔方持久化模块根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化到数据库中,其中数据库可以为非结构化数据库或结构化数据库,进而获得知识图谱数据库。用户输入配置文件的路径,采用知识图谱查询模块建立知识查询Web接口,为用户提供查询界面,用户在查询界面输入命令经解析后返回知识图谱数据库中,则在界面上展示出统计策略构建的统计图和具体统计表信息。
上述技术方案的有益效果:通过识别图数据库中图数据的类型,将图数据分批加载到CPU中,提高了加载效率,将图数据进行逐个标记获得知识图谱的字段,在其中提取所需要的信息字段,利用信息字段建立数据维度内层模型和数据维度外层模型,可提高知识发掘结果的准确性,并且有效的缩短了对复杂的图数据进行分析并提取有用的知识信息的过程,提高了效率,并且将模型中的数据持久化后可以长期保存数据,防止数据丢失;能够在对图数据进行知识挖掘的时候,用户通过界面上知识图谱的查询Web接口,输入查询命令,查询命令经解析后返回知识图谱数据库中,再将所要查询的信息反馈至界面,实现一键式的查询和毫秒级的响应,尽可能降低了对图数据进行知识挖掘的难度,极大的提高了构建知识图谱的效率。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节与这里示出与描述的图例。

Claims (10)

1.一种基于图数据库的知识图谱构建方法,其特征在于,所述方法包括:
识别图数据库中的图数据类型,将不同类型的所述图数据分批次加载到CPU内存中;
将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段,获得知识图谱的字段,并提取信息字段;
将所述信息字段按照比重建立数据维度内层模型,基于所述数据维度内层模型建立数据维度外层模型;
根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化,获得知识图谱数据库;
建立知识查询Web接口,解析查询命令,返回知识图谱数据库中调取结果数据。
2.根据权利要求1所述的一种基于图数据库的知识图谱构建方法,其特征在于,所述识别图数据库中的图数据类型,将不同类型的所述图数据分批次加载到CPU内存中,包括:
加载图数据的配置文件,识别图数据库中的图数据的类型;
对所述配置文件实时监控,随所述配置文件的修改动态变更所述图数据的加载策略;
调用与不同类型的所述图数据对应的API,将所述图数据按照所述加载策略加载到所述CPU内存中。
3.根据权利要求2所述的一种基于图数据库的知识图谱构建方法,其特征在于,对所述配置文件实时监控,随所述配置文件的修改动态变更所述图数据的加载策略,包括:
采用动态监控所述配置文件,所述配置文件修改则动态变更所述图数据的加载策略;
利用添加监控将丢失的所述图数据重新从数据源文件中进行加载。
4.根据权利要求2所述的一种基于图数据库的知识图谱构建方法,其特征在于,所述调用与不同类型的所述图数据对应的API,将所述图数据按照所述加载策略加载到所述CPU内存中,包括:
使用flume将所述图数据导入到kafka主题中;
调用与不同类型的所述图数据对应的API,将所述图数据按照所述加载策略从所述kafka主题中加载到所述CPU内存中。
5.根据权利要求1所述的一种基于图数据库的知识图谱构建方法,其特征在于,将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段,获得知识图谱的字段,并提取信息字段,包括:
判断所述图数据中是否有指定的所述属性关联字段;
将全部所述属性关联字段或指定的所述属性关联字段进行解析、分割、提取和过滤,得到结果属性关联字段;
将所述图数据逐个进行识别并标记所述结果属性关联字段,获得知识图谱的字段;
从所述知识图谱的字段中提取信息字段。
6.根据权利要求1所述的一种基于图数据库的知识图谱构建方法,其特征在于,将所述信息字段按照比重建立数据维度内层模型,基于所述数据维度内层模型建立数据维度外层模型,包括:
利用所述知识图谱的字段中提取的所述信息字段,以唯一对应的信息字段为中心起点,以多个不唯一对应的信息字段为终点,按照比重建立多个数据向量,多个所述数据向量组成的全量数据集作为数据维度内层模型;
利用所述数据维度内层模型中的所述全量数据集为中心起点,以针对所述全量数据集不同策略的统计结果为终点,建立多个全数据向量,多个所述全数据向量组成的数据集作为数据维度外层模型。
7.根据权利要求1所述的一种基于图数据库的知识图谱构建方法,其特征在于,根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化,获得知识图谱数据库,包括:
将所述数据维度内层模型和所述数据维度外层模型中的数据持久化,得到最终持久化数据;
判断加载的图数据的配置文件中是否指定了最终持久化数据的数据库类型;
将没有指定数据库类型的所述最终持久化数据划分到hive分区表中,获得知识图谱数据库;将有指定数据库类型的所述最终持久化数据通过调用对应的API,将所述最终持久化数据划分到指定的数据库中,获得知识图谱数据库。
8.根据权利要求7所述的一种基于图数据库的知识图谱构建方法,其特征在于,在所述知识图谱数据库中,针对所述数据维度内层模型和数据维度外层模型分别建立不同的分区和表;使用solr或者es为分区和表创建索引字段。
9.根据权利要求1所述的一种基于图数据库的知识图谱构建方法,其特征在于,所述建立知识查询Web接口,解析查询命令,返回知识图谱数据库中调取结果数据,包括:
构建Web为用户提供数据查询界面;
解析优化用户提供的SQL查询语言,返回知识图谱数据库中提取查询结果,调取结果数据。
10.一种基于图数据库的知识图谱构建系统,其特征在于,所述系统包括:
图数据连接模块,用于识别图数据库中的图数据类型,将不同类型的所述图数据分批次加载到CPU内存中;
信息标注模块,用于将加载到所述CPU内存中的所述图数据逐个进行识别并标记结果属性关联字段,获得知识图谱的字段,并提取信息字段;
数据魔方构建模块,用于将所述信息字段按照比重建立数据维度内层模型,基于所述数据维度内层模型建立数据维度外层模型;
数据魔方持久化模块,用于根据所述数据维度内层模型和所述数据维度外层模型分别将模型中的数据持久化,获得知识图谱数据库;
知识图谱查询模块,用于建立知识查询web接口,解析查询命令,返回知识图谱数据库中调取结果数据。
CN202010999621.0A 2020-09-22 2020-09-22 一种基于图数据库的知识图谱构建系统和方法 Active CN112182238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010999621.0A CN112182238B (zh) 2020-09-22 2020-09-22 一种基于图数据库的知识图谱构建系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010999621.0A CN112182238B (zh) 2020-09-22 2020-09-22 一种基于图数据库的知识图谱构建系统和方法

Publications (2)

Publication Number Publication Date
CN112182238A true CN112182238A (zh) 2021-01-05
CN112182238B CN112182238B (zh) 2022-12-27

Family

ID=73956124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010999621.0A Active CN112182238B (zh) 2020-09-22 2020-09-22 一种基于图数据库的知识图谱构建系统和方法

Country Status (1)

Country Link
CN (1) CN112182238B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312410A (zh) * 2021-06-10 2021-08-27 平安证券股份有限公司 数据图谱的构建方法、数据查询方法及终端设备
CN113407578A (zh) * 2021-07-12 2021-09-17 上海数慧系统技术有限公司 一种数据处理方法及装置
CN113722549A (zh) * 2021-09-03 2021-11-30 优维科技(深圳)有限公司 一种基于图的数据状态融合存储系统及方法
CN113918733A (zh) * 2021-12-16 2022-01-11 中科雨辰科技有限公司 一种获取目标知识图谱的数据处理系统
CN116069982A (zh) * 2023-02-15 2023-05-05 北京欧拉认知智能科技有限公司 基于图的主数据管理方法、系统、计算设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345647A (zh) * 2018-01-18 2018-07-31 北京邮电大学 基于Web的领域知识图谱构建系统及方法
CN108549731A (zh) * 2018-07-11 2018-09-18 中国电子科技集团公司第二十八研究所 一种基于本体模型的知识图谱构建方法
CN109670089A (zh) * 2018-12-29 2019-04-23 颖投信息科技(上海)有限公司 知识图谱系统及其图服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345647A (zh) * 2018-01-18 2018-07-31 北京邮电大学 基于Web的领域知识图谱构建系统及方法
CN108549731A (zh) * 2018-07-11 2018-09-18 中国电子科技集团公司第二十八研究所 一种基于本体模型的知识图谱构建方法
CN109670089A (zh) * 2018-12-29 2019-04-23 颖投信息科技(上海)有限公司 知识图谱系统及其图服务器

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312410A (zh) * 2021-06-10 2021-08-27 平安证券股份有限公司 数据图谱的构建方法、数据查询方法及终端设备
CN113312410B (zh) * 2021-06-10 2023-11-21 平安证券股份有限公司 数据图谱的构建方法、数据查询方法及终端设备
CN113407578A (zh) * 2021-07-12 2021-09-17 上海数慧系统技术有限公司 一种数据处理方法及装置
CN113722549A (zh) * 2021-09-03 2021-11-30 优维科技(深圳)有限公司 一种基于图的数据状态融合存储系统及方法
CN113722549B (zh) * 2021-09-03 2022-06-21 优维科技(深圳)有限公司 一种基于图的数据状态融合存储系统及方法
CN113918733A (zh) * 2021-12-16 2022-01-11 中科雨辰科技有限公司 一种获取目标知识图谱的数据处理系统
CN113918733B (zh) * 2021-12-16 2022-03-04 中科雨辰科技有限公司 一种获取目标知识图谱的数据处理系统
CN116069982A (zh) * 2023-02-15 2023-05-05 北京欧拉认知智能科技有限公司 基于图的主数据管理方法、系统、计算设备和存储介质

Also Published As

Publication number Publication date
CN112182238B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN112182238B (zh) 一种基于图数据库的知识图谱构建系统和方法
US11269834B2 (en) Detecting quasi-identifiers in datasets
Davis Jr et al. Inferring the location of twitter messages based on user relationships
US20080109419A1 (en) Computer apparatus, computer program and method, for calculating importance of electronic document on computer network, based on comments on electronic document included in another electronic document associated with former electronic document
US9135647B2 (en) Methods and systems for flexible and scalable databases
CN108958959B (zh) 检测hive数据表的方法和装置
US10324917B2 (en) Methods and systems for data management
US8775423B2 (en) Data mining across multiple social platforms
US10496645B1 (en) System and method for analysis of a database proxy
CN114385620A (zh) 数据处理方法、装置、设备及可读存储介质
CN110110172B (zh) 信息展示方法和装置
CN113094492A (zh) 评论信息显示方法、处理系统、装置、设备和存储介质
CN111221785A (zh) 一种多源异构数据的语义数据湖构建方法
CN115438087A (zh) 基于缓存库的数据查询方法、装置、存储介质和设备
CN112528067A (zh) 图数据库的存储方法、读取方法、装置及设备
CN114218211A (zh) 数据处理系统、方法、计算机设备以及可读存储介质
CN107679097B (zh) 一种分布式数据处理方法、系统和存储介质
CN112836124A (zh) 一种画像数据获取方法、装置、电子设备及存储介质
CN116955856A (zh) 信息展示方法、装置、电子设备以及存储介质
JP7213890B2 (ja) 高速化された大規模な類似度計算
CN114880308A (zh) 一种基于大数据的元数据处理方法、装置、介质
CN110704481A (zh) 展示数据的方法和装置
CN114385821A (zh) 资源检索方法和装置、存储介质及电子设备
CN113495891A (zh) 一种数据处理方法和装置
CN111324800A (zh) 业务事项展示方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant