CN110263225A

CN110263225A - 一种千亿级知识图库的数据加载、管理、检索系统

Info

Publication number: CN110263225A
Application number: CN201910378522.8A
Authority: CN
Inventors: 吕志军; 刘成军
Original assignee: Nanjing Wisdom Atlas Information Technology Co Ltd
Current assignee: Nanjing Wisdom Atlas Information Technology Co Ltd
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2019-09-20

Abstract

本发明公开了一种干亿级知识图库的数据加载、管理、检索系统，包括图数据加载子系统、图数据管理子系统、图数据检索子系统，其中：使用图数据加载方法，能够以高吞吐量的方式转换和加载图数据到知识图库中；使用图数据管理方法，使得图库在海量数据下，具备速批量删除数据；同时加速图的检索；使用图数据检索方法，使得图库具备图关联扩展/数据任意维度/全文检索的能力；同时具备基于数据来源的扩展和基于复杂条件关系(属性的等于/包含/大于/小于/不包含)扩展与查询的能力。有效解决现有技术中数据快速更新、高吞吐量计算与加载、图关联扩展/数据任意维度/全文检索问题。

Description

一种千亿级知识图库的数据加载、管理、检索系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种千亿级知识图库的数据加载、管理、检索系统。

背景技术

图数据库是基于图关系(Graph，非图像)模型建立的数据库，其中存储的数据以点和边的方式组织。例如社交网络中的好友关系，其中每个人以点表示、好友关系以边表示。图库能够提供常规关系数据库的二维关系查询功能(例如查询与某个人是好友的人)，还能够提供图遍历(例如某个点的N跳邻居)、两点之间的最短路径、全文检索等功能。

市面上常见的图数据库有Neo4j、GraphX等，每一种数据库有自己的特色。Ne04j支持快速的数据更新，GraphX适合高吞吐量的访问与计算。在干亿数据情况下，如何兼容考虑数据快速更新、高吞吐量计算与加载、图关联扩展/数据任意维度/全文检索，对图数据是一种挑战，现有技术没有一种完善的解决方案。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种千亿级知识图库的数据加载、管理、检索系统，有效解决现有技术中数据快速更新、高吞吐量计算与加载、图关联扩展/数据任意维度/全文检索问题。

为实现上述目的，本发明提供了一种干亿级知识图库的数据加载、管理、检索系统，包括图数据加载子系统、图数据管理子系统、图数据检索子系统，其中

图数据加载子系统包括：

S11、数据读取模块，将外部数据源读取到内部的支持的文件系统中；

S12、图数据提取模块，依据外部数据结构、点/边的数据描述、图数据提取映射描述，提取生成点数据/边数据和图关联扩展索引数据；

S13、图数据加载模块，将生成的图和图关联扩展索引数据导入图库中；

图数据管理子系统包括：

S21、图数据合并模块，将现有的segment合并，包含点segment/边的segment/图关联扩展索引的segment，合并成功后，更新图数据元数据管理单元中的数据；

S22、图数据删除模块，根据图数据元数据管理单元中批次的映射信息，删除图库中该批次下包含的所有数据，包含内部原始数据和图库存储引擎内部的数据；其中图数据包括点的segment/边的segment/点的全文索引数据/边的全文索引数据/图关联扩展索引的segment；

S23、图数据重做模块，选择某个批次，将该批次下图库中的数据重做，重做的数据包括点数据、边数据、点的全文索引，数据、边的全文索引，数据、图关联扩展索引数据；

图数据检索子系统包括：

S31、图关联扩展模块，提供关联关系的扩展查询服务；

S32、图数据检索模块，提供全文检索和复杂条件的检索服务。

进一步地，所述图数据提取模块包括：

S121、图数据提取单元，用于提取出需要构建的点/边对象，每一次构建，拥有一个唯一的批编号，该编号下包含的输出数据有点数据/边数据；该批下的数据输出到分布式文件系统中；

S122、图关联扩展索引提取单元，基于图数据提取单元输出的点数据/边数据，计算图关联扩展索引，生成图关联索引数据，并输出到分布式文件系统中；该批次的索引使用图数据提取单元中的批编号。

进一步地，所述图数据加载模块包括：

S131、图数据元数据管理单元，管理图库中对外提供服务的图数据；

S132、点/边数据导入任务编排单元，用于生成数据导入任务，包含的任务有：1、点/边数据导入任务计划；2、图关联扩展索引数据导入计划；3、元数据管理更新计划；4、点/边全文索引数据导入计划；

S133、数据的执行单元，按照编排的计划，执行数据的导入任务，数据导入后称为segment，包含点的segment/边的segment/图关联扩展的segment，并记录segment与批的对应关系到图数据元数据管理单元中。

进一步地，所述图数据合并模块包括：

图数据自动合并单元，依据segment的生成日期时间顺序、segment的合并策略，顺序地执行合并，合并步骤为：1、判定现有的segment是否有7天内的segment，有则合并；2、没有满足的，跳转步骤4；3、继续执行步骤1；4、判定是否有满足28天的segment，有则合并；5、没有满足的，自动合并结束；6、继续执行步骤5；

图数据手动合并单元，手动选择多个segment合并，所选择的segment为连续时间的segment。

进一步地，所述图关联扩展模块包括：

S311、简单条件的图关联扩展查询单元，通过查询图关联索引数据获取结果，步骤包括：1、依据查询条件，生成查询执行计划，计划包含多个的独立的图关联所有查询请求；2、顺序执行关联查询请求；3、在内存中汇聚查询结果，再次执行查询请求，再在内存中汇聚结果，一直重复，直至查询计划执行完成；4、依据查询汇聚结果，查询点/边数据，整合后，返回完整的结果；

S312、自定义属性条件过滤的扩展查询单元，通过查询点/边的全文索引获取结果，步骤包括：1、依据查询条件，生成查询执行计划，计划包含多个的独立的全文索引查询请求；2、顺序执行查询请求；3、在内存中汇聚查询结果，再次执行查询请求，再在内存中汇聚结果，一直重复，直至查询计划执行完成；4、返回完整的结果。

进一步地，所述图数据检索模块包括：

S321、聚合统计单元，提供基于属性的聚合统计查询功能，通过点/边全文索引数据获取；

S322、全文检索单元，提供点/边数据的全文检索查询功能，通过点/边全文索引数据获取；

S323、属性检索单元，提供点/边数据的中，基于属性条件过滤的查询功能，通过点/边全文索引数据获取。

本发明的有益效果是：

1、使用图数据加载方法，能够以高吞吐量的方式转换和加载图数据到知识图库中；

2、使用图数据管理方法，使得图库在海量数据下，具备速批量删除数据；同时加速图的检索；

3、使用图数据检索方法，使得图库具备图关联扩展/数据任意维度/全文检索的能力；同时具备基于数据来源的扩展和基于复杂条件关系(属性的等于/包含/大于/小于/不包含)扩展与查询的能力。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的总体结构示意图。

具体实施方式

实施例1

如图1所示，一种千亿级知识图库的数据加载、管理、检索系统，包括图数据加载子系统、图数据管理子系统、图数据检索子系统，其中

图数据加载子系统包括：

图数据管理子系统包括：

S21、图数据合并模块，将现有的segment合并，包含点segment/边的segment/图关联扩展索引的segment，合并成功后，更新图数据元数据管理单元中的数据；支持segment的多次合并，即合并后的segment，可以再次被合并为新的segment。合并过程中，遵守规范包括：1、同一时刻，同一类的segment，只有一个合并任务在运行；2、先生成合并后的新segment，点segment、边的segment和图关联扩展索引的segment；3、锁定图库的读锁，即阻断读操作；4、更新图数据元数据管理单元的数据；5、释放图库的读锁，即允许读操作；

图数据检索子系统包括：

S31、图关联扩展模块，提供关联关系的扩展查询服务；

进一步地，所述图数据提取模块包括：

进一步地，所述图数据加载模块包括：

S132、点/边数据导入任务编排单元，用于生成数据导入任务，包含的任务有：1、点/边数据导入任务计划；2、图关联扩展索引数据导入计划；3、元数据管理更新计划；4、点/边全文索引数据导入计划；图库中以批为单位管理数据，受管理的数据包括点数据、边数据、点的全文索引数据、边的全文索引数据和图关联扩展索引数据。

进一步地，所述图数据合并模块包括：

图数据自动合并单元，依据segment的生成日期时间顺序、segment的合并策略，顺序地执行合并。合并策略采用多级配置，例如第一级配置为7天、第二级配置为28天，合并步骤为：1、判定现有的segment是否有7天内的segment，有则合并；2、没有满足的，跳转步骤4；3、继续执行步骤1；4、判定是否有满足28天的segment，有则合并；5、没有满足的，自动合并结束；6、继续执行步骤5；

进一步地，所述图关联扩展模块包括：

进一步地，所述图数据检索模块包括：

实施例2

图库中存储的数据包含三个部分：点/边数据，点/变全文索引和图关联扩展索引。

其中点/边数据是是返回给用户的具体数据，包括：1、点数据，由点的唯一编号、点的数据源标识、点的类型、点的标签、点的自定义属性(0或多个)组成；2、边数据，边的唯一编号、由A端点的唯一编号、B端点的唯一编号、边的标签、边的类型、边的自定义属性(0或多个)；

其中点/边全文索引，存储点/边中需要参与属性检索和全文检索的字段的索引；

其中图关联扩展索引，存储的是图关联扩展的索引，由A端点唯一编号、B端点唯一编号、该关联扩展发生日期(可选，若非事件型的边，不填)、聚合列表。聚合列表包含0或多个边的连接标识，每个边的连接标识包含，边的发生时间(可选，若非事件型的边，不填)、边的资源标识。

如图1所示，图库中数据的处理有三个阶段，包括：

S1、图数据加载装置，完成数据的入库存储；

S2、图数据管理装置，完成图库中已存储的图数据的管理；

S3、图数据检索装置，对外提供知识的查询功能。

进一步地，在上述图数据加载方法中，如图1所示，包括：

S11数据读取模块，将外部的结构化数据读取到内部的分布式文件系统中。采用开源的HDFS文件系统；

S12图数据提取模块，依据输入的源数据、点/边的数据描述、图数据提取映射描述，提取点/边数据和图关联扩展数据索引数据，并存储到分布式文件系统中。采用开源的Spark计算框架提取点/边数据和图关联扩展索引数据；分布式文件系统采用开源的HDFS文件系统；

S13图数据加载模块，将上述图数据提取模块生成的数据，加载到图库中，包含如下步骤1、点数据加载到点数据存储中；2、边数据加载到边数据存储中；3、更新图数据元数据管理单元；4、点数据加载到点全文索引存储中；5、边数据加载到边全文索引存储中；6、图关联扩展索引数据添加到图关联扩展索引存储中；7、最终更新图数据元数据管理单元。具体描述包括：

其中点数据加载到点存储数据步骤，每一批运行，点存到一张新表中。表使用开源的HBase存储作为存储引擎；

其中边数据加载到边数据存储步骤，每一批数据，边保存到一张新表中。表使用快元的HBase存储作为存储引擎；

其中更新图数据元数据管理单元步骤，更新图数据源数据管理单元的数据，标记点/边数据导入完成；

其中点数据加载到点全文索引存储步骤，将点数据导入到全文索引引擎中，使用开源的Solr或ElasticSearch作为存储引擎。若使用So1r，所有点数据共享一个solr的collection；若使用ElasticSearch，所有点数据共享一个E1asticSearch的Index；

其中边数据加载到点全文索引存储步骤，将边数据导入到全文索引引擎中，使用开源的Solr或ElasticSearch作为存储引擎。若使用So1r，所有边数据共享一个solr的collection；若使用ElasticSearch，所有边数据共享一个E1asticSearch的Index；

其中图关联扩展索引数据添加到图关联扩展索引存储步骤中，将图关联扩展索引导入到图关联扩展索引存储中，使用开源的HBase作为存储引擎。每一批数据，保存到一张新表中；

其中最终更新图数据元数据管理单元步骤，更新图数据元数据管理单元的数据，标记点/边数据导入完成。

进一步地，在上述图数据管理方法中，包括：

S21图数据合并模块，包括点数据合并、边数据合并和图关联扩展索引数据合并、更新图数据元数据管理单元。具体描述包括：

可选地，其中点数据合并，将多个点的segment合并为一个新的segment。使用spark/MapReudce/Flink计算框架，读取HDFS中选中segment对应的点数据文件，生成合并后的数据，写入到HBase中，形成新的点segment；

可选地，其中边数据合并，将多个边的segment合并为一个新的segment。使用spark/MapReduce/Flink计算框架，读取HDFS中选中segment对应的边数据文件，生成合并后的数据，写入到HBase中，形成新的边segment；

可选地，其中图关联扩展索引数据合并，将多个图关联扩展索引segment合并为一个新的segment。使用spark/MapReduce/Flink计算框架，都HDFS中选中的segment对应的图关联扩展索引数据文件，生成合并后的数据，写入到HBase中，形成新的图关联扩展索引segment；

其中更新图数据元数据管理单元，对于合并操作都成功完成的情况下，更新图数据元数据管理单元，并删除HBase中之前对应的老的segment(点segment/边segment/图关联扩展索引segment)；对于合并失败操作，删除已生成的新segment(点segment/边segment/图关联扩展索引segment)。

S22图数据删除模块，根据图数据元数据管理单元中批次的映射信息，删除图库中该批次下包含的所有数据，包括点的segment、边的segment、点的全文索引数据、边的全文索引数据和图关联扩展索引的segment。删除情况包括：没有合并后的批次、归属合并后的批次。具体描述包括：

可选地，其中没有合并后的批次，该批次对应的segment没有经过合并。包含步骤1、读取存储在HDFS上对于的点数据/边数据，差分计算需要剔除的点索全文索引数据/边全文索引数据，得出仅在该批次下出现的点数据和边数据。使用Spark/MapReduce/Flink框架计算；2、删除点全文索引存储或边全文索引存储中的数据。使用Spark/MapReduce/Flink框架；3、更新图数据元数据管理单元数据；4、可选地，删除该批次对应的所有segment(点segment/边segment/图关联索引segment)；

可选地，归属合并后的批次，该批次对应的segment已经经过合并。包含步骤1、读取存储在HDFS上对应的点数据/边数据，差分计算需要剔除的点索全文索引数据/边全文索引数据，得出仅在该批次下出现的点数据和边数据。使用Spark/MapReduce/Flink框架计算；2、读取存储在HDFS上对应图关联扩展索引数据，差分计算需要提出的图关联扩展索引数据，得出仅在该批次下出现的图关联扩展索引数据。使用Spark/MapReduce/Flink框架计算；3、删除点全文索引存储或边全文索引存储中的数据。使用Spark/MapReduce/Flink框架；4、删除合并后点segment/合并后边segment/合并后图关联扩展索引segment中。使用Spark/MapReduce/Flink框架。

S23图数据重做模块，选择某个批次，将该批次下图库中的数据重做，重做的数据包括点数据、边数据、点的全文索引数据、边的全文索引数据和图关联扩展索引数据。包括两类情况：该批次没有合并过、该批次已经合并过。具体描述包括：

可选地，其中该批次没有合并过。该情况下，包含步骤1、点数据加载到点数据存储中，生成一个新的点segment；2、边数据加载到边数据存储中，生成一个新的边segment；3、图关联扩展索引数据添加到图关联扩展索引存储中，生成一个新的图关联索引segment；4、更新图数据元数据管理单元，删除旧的segment信息，添加新的segment信息；5、点数据加载到点全文索引存储中；6、边数据加载到边全文索引存储中；7、删除旧的segment，包含点segment/边segment/图扩展关联索引segment；

可选地，其中该批次已经合并过。该情况下，包含步骤1、点数据加载到点数据存储中，写入到合并后的点segment中；2、边数据加载到边数据存储中，写入到合并后的边segment；3、图关联扩展索引数据添加到图关联扩展索引存储中，写入到合并后的图关联索引segment；5、点数据加载到点全文索引存储中；6、边数据加载到边全文索引存储中。

进一步地，在上述图数据检索装置中，包括：

S31图关联扩展模块，提供关联关系的扩展查询服务。包括简单条件的图关联扩展查询单元和自定义属性条件过滤的扩展查询单元。详细情况包括：

可选地，其中，在简单条件的图关联扩展查询单元中，依据图数据元数据管理单元中的数据，读取所有图关联扩展索引segment；

可选地，其中，在自定义属性条件过滤的扩展查询单元中。包含的步骤1、直接读取Solr/ElasticSearch中对应的边索引数据2、在内存中汇聚，读取HBase中点/边索引数据。点/边的数据依据图数据元数据管理单元中的数据，读取所有点segment/边segment；3、返回完整结果。

S32图数据检索模块，提供全文检索和复杂条件的检索服务。包括聚合统计单元、全文检索单元和属性检索单元。详细情况包括：

可选地，其中，在聚合统计单元中，读取Solr/ElasticSearch的数据来获取统计信息；

可选地，其中，在全文检索单元中，读取Solr/ElasticSearch中全文检索字段和HBase中点/边数据来获取结果；HBase中需要读取的所有在图数据元数据管理单元中注册的点segment/边segment；

可选地，其中，在属性检索单元中，读取Solr/ElasticSearch中自定义属性字段和HBase中点/边数据来获取结果；HBase中需要读取的所有在图数据元数据管理单元中注册的点segment/边segment。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种千亿级知识图库的数据加载、管理、检索系统，其特征在于，包括图数据加载子系统、图数据管理子系统、图数据检索子系统，其中

图数据加载子系统包括：

图数据管理子系统包括：

图数据检索子系统包括：

S31、图关联扩展模块，提供关联关系的扩展查询服务；

2.如权利要求1所述的一种千亿级知识图库的数据加载、管理、检索系统，其特征在于，所述图数据提取模块包括：

3.如权利要求1所述的一种千亿级知识图库的数据加载、管理、检索系统，其特征在于，所述图数据加载模块包括：

4.如权利要求1所述的一种千亿级知识图库的数据加载、管理、检索系统，其特征在于，所述图数据合并模块包括：

5.如权利要求1所述的一种千亿级知识图库的数据加载、管理、检索系统，其特征在于，所述图关联扩展模块包括：

6.如权利要求1所述的一种千亿级知识图库的数据加载、管理、检索系统，其特征在于，所述图数据检索模块包括：