CN110263225A - 一种千亿级知识图库的数据加载、管理、检索系统 - Google Patents

一种千亿级知识图库的数据加载、管理、检索系统 Download PDF

Info

Publication number
CN110263225A
CN110263225A CN201910378522.8A CN201910378522A CN110263225A CN 110263225 A CN110263225 A CN 110263225A CN 201910378522 A CN201910378522 A CN 201910378522A CN 110263225 A CN110263225 A CN 110263225A
Authority
CN
China
Prior art keywords
data
segment
point
diagram data
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910378522.8A
Other languages
English (en)
Inventor
吕志军
刘成军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Wisdom Atlas Information Technology Co Ltd
Original Assignee
Nanjing Wisdom Atlas Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Wisdom Atlas Information Technology Co Ltd filed Critical Nanjing Wisdom Atlas Information Technology Co Ltd
Priority to CN201910378522.8A priority Critical patent/CN110263225A/zh
Publication of CN110263225A publication Critical patent/CN110263225A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing

Abstract

本发明公开了一种干亿级知识图库的数据加载、管理、检索系统,包括图数据加载子系统、图数据管理子系统、图数据检索子系统,其中:使用图数据加载方法,能够以高吞吐量的方式转换和加载图数据到知识图库中;使用图数据管理方法,使得图库在海量数据下,具备速批量删除数据;同时加速图的检索;使用图数据检索方法,使得图库具备图关联扩展/数据任意维度/全文检索的能力;同时具备基于数据来源的扩展和基于复杂条件关系(属性的等于/包含/大于/小于/不包含)扩展与查询的能力。有效解决现有技术中数据快速更新、高吞吐量计算与加载、图关联扩展/数据任意维度/全文检索问题。

Description

一种千亿级知识图库的数据加载、管理、检索系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种千亿级知识图库的数据加载、管理、检索系统。
背景技术
图数据库是基于图关系(Graph,非图像)模型建立的数据库,其中存储的数据以点和边的方式组织。例如社交网络中的好友关系,其中每个人以点表示、好友关系以边表示。图库能够提供常规关系数据库的二维关系查询功能(例如查询与某个人是好友的人),还能够提供图遍历(例如某个点的N跳邻居)、两点之间的最短路径、全文检索等功能。
市面上常见的图数据库有Neo4j、GraphX等,每一种数据库有自己的特色。Ne04j支持快速的数据更新,GraphX适合高吞吐量的访问与计算。在干亿数据情况下,如何兼容考虑数据快速更新、高吞吐量计算与加载、图关联扩展/数据任意维度/全文检索,对图数据是一种挑战,现有技术没有一种完善的解决方案。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种千亿级知识图库的数据加载、管理、检索系统,有效解决现有技术中数据快速更新、高吞吐量计算与加载、图关联扩展/数据任意维度/全文检索问题。
为实现上述目的,本发明提供了一种干亿级知识图库的数据加载、管理、检索系统,包括图数据加载子系统、图数据管理子系统、图数据检索子系统,其中
图数据加载子系统包括:
S11、数据读取模块,将外部数据源读取到内部的支持的文件系统中;
S12、图数据提取模块,依据外部数据结构、点/边的数据描述、图数据提取映射描述,提取生成点数据/边数据和图关联扩展索引数据;
S13、图数据加载模块,将生成的图和图关联扩展索引数据导入图库中;
图数据管理子系统包括:
S21、图数据合并模块,将现有的segment合并,包含点segment/边的segment/图关联扩展索引的segment,合并成功后,更新图数据元数据管理单元中的数据;
S22、图数据删除模块,根据图数据元数据管理单元中批次的映射信息,删除图库中该批次下包含的所有数据,包含内部原始数据和图库存储引擎内部的数据;其中图数据包括点的segment/边的segment/点的全文索引数据/边的全文索引数据/图关联扩展索引的segment;
S23、图数据重做模块,选择某个批次,将该批次下图库中的数据重做,重做的数据包括点数据、边数据、点的全文索引,数据、边的全文索引,数据、图关联扩展索引数据;
图数据检索子系统包括:
S31、图关联扩展模块,提供关联关系的扩展查询服务;
S32、图数据检索模块,提供全文检索和复杂条件的检索服务。
进一步地,所述图数据提取模块包括:
S121、图数据提取单元,用于提取出需要构建的点/边对象,每一次构建,拥有一个唯一的批编号,该编号下包含的输出数据有点数据/边数据;该批下的数据输出到分布式文件系统中;
S122、图关联扩展索引提取单元,基于图数据提取单元输出的点数据/边数据,计算图关联扩展索引,生成图关联索引数据,并输出到分布式文件系统中;该批次的索引使用图数据提取单元中的批编号。
进一步地,所述图数据加载模块包括:
S131、图数据元数据管理单元,管理图库中对外提供服务的图数据;
S132、点/边数据导入任务编排单元,用于生成数据导入任务,包含的任务有:1、点/边数据导入任务计划;2、图关联扩展索引数据导入计划;3、元数据管理更新计划;4、点/边全文索引数据导入计划;
S133、数据的执行单元,按照编排的计划,执行数据的导入任务,数据导入后称为segment,包含点的segment/边的segment/图关联扩展的segment,并记录segment与批的对应关系到图数据元数据管理单元中。
进一步地,所述图数据合并模块包括:
图数据自动合并单元,依据segment的生成日期时间顺序、segment的合并策略,顺序地执行合并,合并步骤为:1、判定现有的segment是否有7天内的segment,有则合并;2、没有满足的,跳转步骤4;3、继续执行步骤1;4、判定是否有满足28天的segment,有则合并;5、没有满足的,自动合并结束;6、继续执行步骤5;
图数据手动合并单元,手动选择多个segment合并,所选择的segment为连续时间的segment。
进一步地,所述图关联扩展模块包括:
S311、简单条件的图关联扩展查询单元,通过查询图关联索引数据获取结果,步骤包括:1、依据查询条件,生成查询执行计划,计划包含多个的独立的图关联所有查询请求;2、顺序执行关联查询请求;3、在内存中汇聚查询结果,再次执行查询请求,再在内存中汇聚结果,一直重复,直至查询计划执行完成;4、依据查询汇聚结果,查询点/边数据,整合后,返回完整的结果;
S312、自定义属性条件过滤的扩展查询单元,通过查询点/边的全文索引获取结果,步骤包括:1、依据查询条件,生成查询执行计划,计划包含多个的独立的全文索引查询请求;2、顺序执行查询请求;3、在内存中汇聚查询结果,再次执行查询请求,再在内存中汇聚结果,一直重复,直至查询计划执行完成;4、返回完整的结果。
进一步地,所述图数据检索模块包括:
S321、聚合统计单元,提供基于属性的聚合统计查询功能,通过点/边全文索引数据获取;
S322、全文检索单元,提供点/边数据的全文检索查询功能,通过点/边全文索引数据获取;
S323、属性检索单元,提供点/边数据的中,基于属性条件过滤的查询功能,通过点/边全文索引数据获取。
本发明的有益效果是:
1、使用图数据加载方法,能够以高吞吐量的方式转换和加载图数据到知识图库中;
2、使用图数据管理方法,使得图库在海量数据下,具备速批量删除数据;同时加速图的检索;
3、使用图数据检索方法,使得图库具备图关联扩展/数据任意维度/全文检索的能力;同时具备基于数据来源的扩展和基于复杂条件关系(属性的等于/包含/大于/小于/不包含)扩展与查询的能力。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的总体结构示意图。
具体实施方式
实施例1
如图1所示,一种千亿级知识图库的数据加载、管理、检索系统,包括图数据加载子系统、图数据管理子系统、图数据检索子系统,其中
图数据加载子系统包括:
S11、数据读取模块,将外部数据源读取到内部的支持的文件系统中;
S12、图数据提取模块,依据外部数据结构、点/边的数据描述、图数据提取映射描述,提取生成点数据/边数据和图关联扩展索引数据;
S13、图数据加载模块,将生成的图和图关联扩展索引数据导入图库中;
图数据管理子系统包括:
S21、图数据合并模块,将现有的segment合并,包含点segment/边的segment/图关联扩展索引的segment,合并成功后,更新图数据元数据管理单元中的数据;支持segment的多次合并,即合并后的segment,可以再次被合并为新的segment。合并过程中,遵守规范包括:1、同一时刻,同一类的segment,只有一个合并任务在运行;2、先生成合并后的新segment,点segment、边的segment和图关联扩展索引的segment;3、锁定图库的读锁,即阻断读操作;4、更新图数据元数据管理单元的数据;5、释放图库的读锁,即允许读操作;
S22、图数据删除模块,根据图数据元数据管理单元中批次的映射信息,删除图库中该批次下包含的所有数据,包含内部原始数据和图库存储引擎内部的数据;其中图数据包括点的segment/边的segment/点的全文索引数据/边的全文索引数据/图关联扩展索引的segment;
S23、图数据重做模块,选择某个批次,将该批次下图库中的数据重做,重做的数据包括点数据、边数据、点的全文索引,数据、边的全文索引,数据、图关联扩展索引数据;
图数据检索子系统包括:
S31、图关联扩展模块,提供关联关系的扩展查询服务;
S32、图数据检索模块,提供全文检索和复杂条件的检索服务。
进一步地,所述图数据提取模块包括:
S121、图数据提取单元,用于提取出需要构建的点/边对象,每一次构建,拥有一个唯一的批编号,该编号下包含的输出数据有点数据/边数据;该批下的数据输出到分布式文件系统中;
S122、图关联扩展索引提取单元,基于图数据提取单元输出的点数据/边数据,计算图关联扩展索引,生成图关联索引数据,并输出到分布式文件系统中;该批次的索引使用图数据提取单元中的批编号。
进一步地,所述图数据加载模块包括:
S131、图数据元数据管理单元,管理图库中对外提供服务的图数据;
S132、点/边数据导入任务编排单元,用于生成数据导入任务,包含的任务有:1、点/边数据导入任务计划;2、图关联扩展索引数据导入计划;3、元数据管理更新计划;4、点/边全文索引数据导入计划;图库中以批为单位管理数据,受管理的数据包括点数据、边数据、点的全文索引数据、边的全文索引数据和图关联扩展索引数据。
S133、数据的执行单元,按照编排的计划,执行数据的导入任务,数据导入后称为segment,包含点的segment/边的segment/图关联扩展的segment,并记录segment与批的对应关系到图数据元数据管理单元中。
进一步地,所述图数据合并模块包括:
图数据自动合并单元,依据segment的生成日期时间顺序、segment的合并策略,顺序地执行合并。合并策略采用多级配置,例如第一级配置为7天、第二级配置为28天,合并步骤为:1、判定现有的segment是否有7天内的segment,有则合并;2、没有满足的,跳转步骤4;3、继续执行步骤1;4、判定是否有满足28天的segment,有则合并;5、没有满足的,自动合并结束;6、继续执行步骤5;
图数据手动合并单元,手动选择多个segment合并,所选择的segment为连续时间的segment。
进一步地,所述图关联扩展模块包括:
S311、简单条件的图关联扩展查询单元,通过查询图关联索引数据获取结果,步骤包括:1、依据查询条件,生成查询执行计划,计划包含多个的独立的图关联所有查询请求;2、顺序执行关联查询请求;3、在内存中汇聚查询结果,再次执行查询请求,再在内存中汇聚结果,一直重复,直至查询计划执行完成;4、依据查询汇聚结果,查询点/边数据,整合后,返回完整的结果;
S312、自定义属性条件过滤的扩展查询单元,通过查询点/边的全文索引获取结果,步骤包括:1、依据查询条件,生成查询执行计划,计划包含多个的独立的全文索引查询请求;2、顺序执行查询请求;3、在内存中汇聚查询结果,再次执行查询请求,再在内存中汇聚结果,一直重复,直至查询计划执行完成;4、返回完整的结果。
进一步地,所述图数据检索模块包括:
S321、聚合统计单元,提供基于属性的聚合统计查询功能,通过点/边全文索引数据获取;
S322、全文检索单元,提供点/边数据的全文检索查询功能,通过点/边全文索引数据获取;
S323、属性检索单元,提供点/边数据的中,基于属性条件过滤的查询功能,通过点/边全文索引数据获取。
实施例2
图库中存储的数据包含三个部分:点/边数据,点/变全文索引和图关联扩展索引。
其中点/边数据是是返回给用户的具体数据,包括:1、点数据,由点的唯一编号、点的数据源标识、点的类型、点的标签、点的自定义属性(0或多个)组成;2、边数据,边的唯一编号、由A端点的唯一编号、B端点的唯一编号、边的标签、边的类型、边的自定义属性(0或多个);
其中点/边全文索引,存储点/边中需要参与属性检索和全文检索的字段的索引;
其中图关联扩展索引,存储的是图关联扩展的索引,由A端点唯一编号、B端点唯一编号、该关联扩展发生日期(可选,若非事件型的边,不填)、聚合列表。聚合列表包含0或多个边的连接标识,每个边的连接标识包含,边的发生时间(可选,若非事件型的边,不填)、边的资源标识。
如图1所示,图库中数据的处理有三个阶段,包括:
S1、图数据加载装置,完成数据的入库存储;
S2、图数据管理装置,完成图库中已存储的图数据的管理;
S3、图数据检索装置,对外提供知识的查询功能。
进一步地,在上述图数据加载方法中,如图1所示,包括:
S11数据读取模块,将外部的结构化数据读取到内部的分布式文件系统中。采用开源的HDFS文件系统;
S12图数据提取模块,依据输入的源数据、点/边的数据描述、图数据提取映射描述,提取点/边数据和图关联扩展数据索引数据,并存储到分布式文件系统中。采用开源的Spark计算框架提取点/边数据和图关联扩展索引数据;分布式文件系统采用开源的HDFS文件系统;
S13图数据加载模块,将上述图数据提取模块生成的数据,加载到图库中,包含如下步骤1、点数据加载到点数据存储中;2、边数据加载到边数据存储中;3、更新图数据元数据管理单元;4、点数据加载到点全文索引存储中;5、边数据加载到边全文索引存储中;6、图关联扩展索引数据添加到图关联扩展索引存储中;7、最终更新图数据元数据管理单元。具体描述包括:
其中点数据加载到点存储数据步骤,每一批运行,点存到一张新表中。表使用开源的HBase存储作为存储引擎;
其中边数据加载到边数据存储步骤,每一批数据,边保存到一张新表中。表使用快元的HBase存储作为存储引擎;
其中更新图数据元数据管理单元步骤,更新图数据源数据管理单元的数据,标记点/边数据导入完成;
其中点数据加载到点全文索引存储步骤,将点数据导入到全文索引引擎中,使用开源的Solr或ElasticSearch作为存储引擎。若使用So1r,所有点数据共享一个solr的collection;若使用ElasticSearch,所有点数据共享一个E1asticSearch的Index;
其中边数据加载到点全文索引存储步骤,将边数据导入到全文索引引擎中,使用开源的Solr或ElasticSearch作为存储引擎。若使用So1r,所有边数据共享一个solr的collection;若使用ElasticSearch,所有边数据共享一个E1asticSearch的Index;
其中图关联扩展索引数据添加到图关联扩展索引存储步骤中,将图关联扩展索引导入到图关联扩展索引存储中,使用开源的HBase作为存储引擎。每一批数据,保存到一张新表中;
其中最终更新图数据元数据管理单元步骤,更新图数据元数据管理单元的数据,标记点/边数据导入完成。
进一步地,在上述图数据管理方法中,包括:
S21图数据合并模块,包括点数据合并、边数据合并和图关联扩展索引数据合并、更新图数据元数据管理单元。具体描述包括:
可选地,其中点数据合并,将多个点的segment合并为一个新的segment。使用spark/MapReudce/Flink计算框架,读取HDFS中选中segment对应的点数据文件,生成合并后的数据,写入到HBase中,形成新的点segment;
可选地,其中边数据合并,将多个边的segment合并为一个新的segment。使用spark/MapReduce/Flink计算框架,读取HDFS中选中segment对应的边数据文件,生成合并后的数据,写入到HBase中,形成新的边segment;
可选地,其中图关联扩展索引数据合并,将多个图关联扩展索引segment合并为一个新的segment。使用spark/MapReduce/Flink计算框架,都HDFS中选中的segment对应的图关联扩展索引数据文件,生成合并后的数据,写入到HBase中,形成新的图关联扩展索引segment;
其中更新图数据元数据管理单元,对于合并操作都成功完成的情况下,更新图数据元数据管理单元,并删除HBase中之前对应的老的segment(点segment/边segment/图关联扩展索引segment);对于合并失败操作,删除已生成的新segment(点segment/边segment/图关联扩展索引segment)。
S22图数据删除模块,根据图数据元数据管理单元中批次的映射信息,删除图库中该批次下包含的所有数据,包括点的segment、边的segment、点的全文索引数据、边的全文索引数据和图关联扩展索引的segment。删除情况包括:没有合并后的批次、归属合并后的批次。具体描述包括:
可选地,其中没有合并后的批次,该批次对应的segment没有经过合并。包含步骤1、读取存储在HDFS上对于的点数据/边数据,差分计算需要剔除的点索全文索引数据/边全文索引数据,得出仅在该批次下出现的点数据和边数据。使用Spark/MapReduce/Flink框架计算;2、删除点全文索引存储或边全文索引存储中的数据。使用Spark/MapReduce/Flink框架;3、更新图数据元数据管理单元数据;4、可选地,删除该批次对应的所有segment(点segment/边segment/图关联索引segment);
可选地,归属合并后的批次,该批次对应的segment已经经过合并。包含步骤1、读取存储在HDFS上对应的点数据/边数据,差分计算需要剔除的点索全文索引数据/边全文索引数据,得出仅在该批次下出现的点数据和边数据。使用Spark/MapReduce/Flink框架计算;2、读取存储在HDFS上对应图关联扩展索引数据,差分计算需要提出的图关联扩展索引数据,得出仅在该批次下出现的图关联扩展索引数据。使用Spark/MapReduce/Flink框架计算;3、删除点全文索引存储或边全文索引存储中的数据。使用Spark/MapReduce/Flink框架;4、删除合并后点segment/合并后边segment/合并后图关联扩展索引segment中。使用Spark/MapReduce/Flink框架。
S23图数据重做模块,选择某个批次,将该批次下图库中的数据重做,重做的数据包括点数据、边数据、点的全文索引数据、边的全文索引数据和图关联扩展索引数据。包括两类情况:该批次没有合并过、该批次已经合并过。具体描述包括:
可选地,其中该批次没有合并过。该情况下,包含步骤1、点数据加载到点数据存储中,生成一个新的点segment;2、边数据加载到边数据存储中,生成一个新的边segment;3、图关联扩展索引数据添加到图关联扩展索引存储中,生成一个新的图关联索引segment;4、更新图数据元数据管理单元,删除旧的segment信息,添加新的segment信息;5、点数据加载到点全文索引存储中;6、边数据加载到边全文索引存储中;7、删除旧的segment,包含点segment/边segment/图扩展关联索引segment;
可选地,其中该批次已经合并过。该情况下,包含步骤1、点数据加载到点数据存储中,写入到合并后的点segment中;2、边数据加载到边数据存储中,写入到合并后的边segment;3、图关联扩展索引数据添加到图关联扩展索引存储中,写入到合并后的图关联索引segment;5、点数据加载到点全文索引存储中;6、边数据加载到边全文索引存储中。
进一步地,在上述图数据检索装置中,包括:
S31图关联扩展模块,提供关联关系的扩展查询服务。包括简单条件的图关联扩展查询单元和自定义属性条件过滤的扩展查询单元。详细情况包括:
可选地,其中,在简单条件的图关联扩展查询单元中,依据图数据元数据管理单元中的数据,读取所有图关联扩展索引segment;
可选地,其中,在自定义属性条件过滤的扩展查询单元中。包含的步骤1、直接读取Solr/ElasticSearch中对应的边索引数据2、在内存中汇聚,读取HBase中点/边索引数据。点/边的数据依据图数据元数据管理单元中的数据,读取所有点segment/边segment;3、返回完整结果。
S32图数据检索模块,提供全文检索和复杂条件的检索服务。包括聚合统计单元、全文检索单元和属性检索单元。详细情况包括:
可选地,其中,在聚合统计单元中,读取Solr/ElasticSearch的数据来获取统计信息;
可选地,其中,在全文检索单元中,读取Solr/ElasticSearch中全文检索字段和HBase中点/边数据来获取结果;HBase中需要读取的所有在图数据元数据管理单元中注册的点segment/边segment;
可选地,其中,在属性检索单元中,读取Solr/ElasticSearch中自定义属性字段和HBase中点/边数据来获取结果;HBase中需要读取的所有在图数据元数据管理单元中注册的点segment/边segment。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (6)

1.一种千亿级知识图库的数据加载、管理、检索系统,其特征在于,包括图数据加载子系统、图数据管理子系统、图数据检索子系统,其中
图数据加载子系统包括:
S11、数据读取模块,将外部数据源读取到内部的支持的文件系统中;
S12、图数据提取模块,依据外部数据结构、点/边的数据描述、图数据提取映射描述,提取生成点数据/边数据和图关联扩展索引数据;
S13、图数据加载模块,将生成的图和图关联扩展索引数据导入图库中;
图数据管理子系统包括:
S21、图数据合并模块,将现有的segment合并,包含点segment/边的segment/图关联扩展索引的segment,合并成功后,更新图数据元数据管理单元中的数据;
S22、图数据删除模块,根据图数据元数据管理单元中批次的映射信息,删除图库中该批次下包含的所有数据,包含内部原始数据和图库存储引擎内部的数据;其中图数据包括点的segment/边的segment/点的全文索引数据/边的全文索引数据/图关联扩展索引的segment;
S23、图数据重做模块,选择某个批次,将该批次下图库中的数据重做,重做的数据包括点数据、边数据、点的全文索引,数据、边的全文索引,数据、图关联扩展索引数据;
图数据检索子系统包括:
S31、图关联扩展模块,提供关联关系的扩展查询服务;
S32、图数据检索模块,提供全文检索和复杂条件的检索服务。
2.如权利要求1所述的一种千亿级知识图库的数据加载、管理、检索系统,其特征在于,所述图数据提取模块包括:
S121、图数据提取单元,用于提取出需要构建的点/边对象,每一次构建,拥有一个唯一的批编号,该编号下包含的输出数据有点数据/边数据;该批下的数据输出到分布式文件系统中;
S122、图关联扩展索引提取单元,基于图数据提取单元输出的点数据/边数据,计算图关联扩展索引,生成图关联索引数据,并输出到分布式文件系统中;该批次的索引使用图数据提取单元中的批编号。
3.如权利要求1所述的一种千亿级知识图库的数据加载、管理、检索系统,其特征在于,所述图数据加载模块包括:
S131、图数据元数据管理单元,管理图库中对外提供服务的图数据;
S132、点/边数据导入任务编排单元,用于生成数据导入任务,包含的任务有:1、点/边数据导入任务计划;2、图关联扩展索引数据导入计划;3、元数据管理更新计划;4、点/边全文索引数据导入计划;
S133、数据的执行单元,按照编排的计划,执行数据的导入任务,数据导入后称为segment,包含点的segment/边的segment/图关联扩展的segment,并记录segment与批的对应关系到图数据元数据管理单元中。
4.如权利要求1所述的一种千亿级知识图库的数据加载、管理、检索系统,其特征在于,所述图数据合并模块包括:
图数据自动合并单元,依据segment的生成日期时间顺序、segment的合并策略,顺序地执行合并,合并步骤为:1、判定现有的segment是否有7天内的segment,有则合并;2、没有满足的,跳转步骤4;3、继续执行步骤1;4、判定是否有满足28天的segment,有则合并;5、没有满足的,自动合并结束;6、继续执行步骤5;
图数据手动合并单元,手动选择多个segment合并,所选择的segment为连续时间的segment。
5.如权利要求1所述的一种千亿级知识图库的数据加载、管理、检索系统,其特征在于,所述图关联扩展模块包括:
S311、简单条件的图关联扩展查询单元,通过查询图关联索引数据获取结果,步骤包括:1、依据查询条件,生成查询执行计划,计划包含多个的独立的图关联所有查询请求;2、顺序执行关联查询请求;3、在内存中汇聚查询结果,再次执行查询请求,再在内存中汇聚结果,一直重复,直至查询计划执行完成;4、依据查询汇聚结果,查询点/边数据,整合后,返回完整的结果;
S312、自定义属性条件过滤的扩展查询单元,通过查询点/边的全文索引获取结果,步骤包括:1、依据查询条件,生成查询执行计划,计划包含多个的独立的全文索引查询请求;2、顺序执行查询请求;3、在内存中汇聚查询结果,再次执行查询请求,再在内存中汇聚结果,一直重复,直至查询计划执行完成;4、返回完整的结果。
6.如权利要求1所述的一种千亿级知识图库的数据加载、管理、检索系统,其特征在于,所述图数据检索模块包括:
S321、聚合统计单元,提供基于属性的聚合统计查询功能,通过点/边全文索引数据获取;
S322、全文检索单元,提供点/边数据的全文检索查询功能,通过点/边全文索引数据获取;
S323、属性检索单元,提供点/边数据的中,基于属性条件过滤的查询功能,通过点/边全文索引数据获取。
CN201910378522.8A 2019-05-07 2019-05-07 一种千亿级知识图库的数据加载、管理、检索系统 Pending CN110263225A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910378522.8A CN110263225A (zh) 2019-05-07 2019-05-07 一种千亿级知识图库的数据加载、管理、检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910378522.8A CN110263225A (zh) 2019-05-07 2019-05-07 一种千亿级知识图库的数据加载、管理、检索系统

Publications (1)

Publication Number Publication Date
CN110263225A true CN110263225A (zh) 2019-09-20

Family

ID=67914423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910378522.8A Pending CN110263225A (zh) 2019-05-07 2019-05-07 一种千亿级知识图库的数据加载、管理、检索系统

Country Status (1)

Country Link
CN (1) CN110263225A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538804A (zh) * 2020-04-20 2020-08-14 北京京安佳新技术有限公司 一种基于HBase的图数据处理方法和设备
CN111639082A (zh) * 2020-06-08 2020-09-08 成都信息工程大学 基于Ceph的十亿级节点规模知识图谱的对象存储管理方法及系统
CN112527950A (zh) * 2020-12-18 2021-03-19 北京明略软件系统有限公司 一种基于MapReduce的图数据删除方法及系统
CN112818181A (zh) * 2021-01-25 2021-05-18 杭州绿湾网络科技有限公司 图数据库检索方法、系统、计算机设备和存储介质
US20220335086A1 (en) * 2021-04-15 2022-10-20 Vesoft Inc. Full-text indexing method and system based on graph database

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622371A (zh) * 2011-01-28 2012-08-01 成都致远诺亚舟教育科技有限公司 一种历史关联库系统及其实现方法和电子学习设备
CN103336808A (zh) * 2013-06-25 2013-10-02 中国科学院信息工程研究所 一种基于bsp模型的实时图数据处理系统及方法
US20140222826A1 (en) * 2013-02-07 2014-08-07 Enigma Technologies, Inc. Data system and method
CN104679764A (zh) * 2013-11-28 2015-06-03 方正信息产业控股有限公司 一种图数据检索方法和装置
CN105045790A (zh) * 2015-03-13 2015-11-11 北京航空航天大学 图数据搜索系统、方法和设备
CN105260465A (zh) * 2015-10-16 2016-01-20 晶赞广告(上海)有限公司 一种图数据处理服务的方法、装置
CN105975488A (zh) * 2016-04-25 2016-09-28 哈尔滨工程大学 一种关系数据库中基于主题类簇单元的关键词查询方法
US20170308621A1 (en) * 2016-04-25 2017-10-26 Oracle International Corporation Hash-based efficient secondary indexing for graph data stored in non-relational data stores
CN107341215A (zh) * 2017-06-07 2017-11-10 北京航空航天大学 一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法
US20180052887A1 (en) * 2016-08-16 2018-02-22 Netscout Systems Texas, Llc Optimized merge-sorting of data retrieved from parallel storage units
CN108549731A (zh) * 2018-07-11 2018-09-18 中国电子科技集团公司第二十八研究所 一种基于本体模型的知识图谱构建方法
CN109271458A (zh) * 2018-09-14 2019-01-25 南威软件股份有限公司 一种基于图数据库的关系网查询方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622371A (zh) * 2011-01-28 2012-08-01 成都致远诺亚舟教育科技有限公司 一种历史关联库系统及其实现方法和电子学习设备
US20140222826A1 (en) * 2013-02-07 2014-08-07 Enigma Technologies, Inc. Data system and method
CN103336808A (zh) * 2013-06-25 2013-10-02 中国科学院信息工程研究所 一种基于bsp模型的实时图数据处理系统及方法
CN104679764A (zh) * 2013-11-28 2015-06-03 方正信息产业控股有限公司 一种图数据检索方法和装置
CN105045790A (zh) * 2015-03-13 2015-11-11 北京航空航天大学 图数据搜索系统、方法和设备
CN105260465A (zh) * 2015-10-16 2016-01-20 晶赞广告(上海)有限公司 一种图数据处理服务的方法、装置
CN105975488A (zh) * 2016-04-25 2016-09-28 哈尔滨工程大学 一种关系数据库中基于主题类簇单元的关键词查询方法
US20170308621A1 (en) * 2016-04-25 2017-10-26 Oracle International Corporation Hash-based efficient secondary indexing for graph data stored in non-relational data stores
US20180052887A1 (en) * 2016-08-16 2018-02-22 Netscout Systems Texas, Llc Optimized merge-sorting of data retrieved from parallel storage units
CN107341215A (zh) * 2017-06-07 2017-11-10 北京航空航天大学 一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法
CN108549731A (zh) * 2018-07-11 2018-09-18 中国电子科技集团公司第二十八研究所 一种基于本体模型的知识图谱构建方法
CN109271458A (zh) * 2018-09-14 2019-01-25 南威软件股份有限公司 一种基于图数据库的关系网查询方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHATHURA KANKANAMGE ET AL.: "Graphflow:An Active Graph Database", 《PROCEEDINGS OF THE 2017 ACM INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA》 *
李友焕 等: "图数据流的模型、算法和系统", 《大数据》 *
陈汉: "HBase支持图数据的存储与查询", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538804A (zh) * 2020-04-20 2020-08-14 北京京安佳新技术有限公司 一种基于HBase的图数据处理方法和设备
CN111639082A (zh) * 2020-06-08 2020-09-08 成都信息工程大学 基于Ceph的十亿级节点规模知识图谱的对象存储管理方法及系统
CN111639082B (zh) * 2020-06-08 2022-12-23 成都信息工程大学 基于Ceph的十亿级节点规模知识图谱的对象存储管理方法及系统
CN112527950A (zh) * 2020-12-18 2021-03-19 北京明略软件系统有限公司 一种基于MapReduce的图数据删除方法及系统
CN112818181A (zh) * 2021-01-25 2021-05-18 杭州绿湾网络科技有限公司 图数据库检索方法、系统、计算机设备和存储介质
US20220335086A1 (en) * 2021-04-15 2022-10-20 Vesoft Inc. Full-text indexing method and system based on graph database

Similar Documents

Publication Publication Date Title
CN110263225A (zh) 一种千亿级知识图库的数据加载、管理、检索系统
CN104881424B (zh) 一种基于正则表达式的电力大数据采集、存储及分析方法
CN110704453B (zh) 一种数据查询方法、装置、存储介质及电子设备
CN104462084B (zh) 基于多个查询提供搜索细化建议
CN110765272B (zh) 基于知识图谱的签约方法、装置、计算机设备及计算机存储介质
CN109978546A (zh) 一种联盟区块链架构及其分级存储和交易穿孔方法
US10394799B2 (en) System and method of extracting data from structured and unstructured sources of data using automated joins
CN109725926B (zh) 管理基线的方法和装置以及数据处理方法
Ho et al. Distributed graph database for large-scale social computing
Ruiz et al. Facilitating document annotation using content and querying value
CN104021205A (zh) 一种建立微博索引的方法及装置
CN108268614A (zh) 一种森林资源空间数据的分布式管理方法
Zhang et al. SUMMA: subgraph matching in massive graphs
CN115858513A (zh) 数据治理方法、装置、计算机设备和存储介质
CN102193988A (zh) 一种图形数据库节点数据的检索方法及系统
CN107943412A (zh) 一种分区分裂、删除分区中数据文件的方法、装置及系统
Muangon et al. Case-based reasoning for design patterns searching system
CN107862166A (zh) 一种智能的仿真实验设计系统及设计方法
CN106257447A (zh) 云存储服务器的视频存储及检索方法、视频云存储系统
CN114510491B (zh) 一种动态随访量表设计方法和系统
CN107004036A (zh) 用以搜索包含大量条目的日志的方法和系统
Adeleye et al. A fitness-based evolving network for web-apis discovery
CN107291875B (zh) 一种基于元数据图的元数据组织管理方法和系统
CN106055690A (zh) 一种基于属性匹配的快速检索与获取数据特征方法
Nouaouria et al. From adaptation-guided retrieval to reuse-guided retrieval: application to case retrieval net memory model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190920

WD01 Invention patent application deemed withdrawn after publication