CN112685419A

CN112685419A - 一种可保持janusGraph数据一致性的分布式高效并行加载方法

Info

Publication number: CN112685419A
Application number: CN202011622773.5A
Authority: CN
Inventors: 谢铭; 蒲路; 孟宪文
Original assignee: Beijing Scistor Technologies Co ltd
Current assignee: Beijing Scistor Technologies Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-20
Anticipated expiration: 2040-12-31
Also published as: CN112685419B

Abstract

本发明公开了一种可保持janusGraph实时数据一致性的高效并行加载方法，属于分布式图数据库领域，首先构建分布式结构；创建两个空的分布式队列；然后，实时接收数据并解析后存入队列一中；数据处理模块逐条取出，调用分布式索引模块中存在对应ID的数据加载到图数据库中，并将无法调用ID的点的唯一标志存入队列二中，点处理模块判断能否获取各标志对应的ID，如果能，则继续获取下一个进行判断；否则，将各标志加载到图数据库中，并产生对应的ID；同时将S与ID的对应关系保存；集群管理模块找寻主节点，并对各子节点分发任务，各子节点并行处理各自的分布式队列分区中的数据。本发明保证数据一致性的同时提高实时数据的并行加载。

Description

一种可保持janusGraph数据一致性的分布式高效并行加载方法

技术领域

本发明属于分布式图数据库领域，具体是一种可保持janusGraph数据一致性的分布式高效并行加载方法。

背景技术

随着计算机技术的不断发展和信息化程度的不断提高，数据量在迅速增长，数据结构也在逐渐复杂化，传统的关系型数据库在很多场景下难以使用，因此诞生了各种非关系型数据库。

图数据库是非关系型数据库中的一种，擅长存储各种关系网络数据，在众多图数据库中，janusGraph是一个非常优秀的分布式图数据库，具有极高的可扩展性，通过扩大集群大小线性地提高图存储的上限，可支持超级大的图的存储检索。

在很多场景下janusGraph都是一个非常优秀好用的图数据库，但是在处理实时数据时，为了保证数据的一致性只能进行单节点，单进程，单线程加载，因此实时数据加载效率具有很大局限性，不能满足大流量实时数据的加载需求。

发明内容

针对图数据库在处理大流量实时数据时的低效不安全性的问题，本发明提供了一种可保持janusGraph数据一致性的分布式高效并行加载方法，通过增加节点数量实现加载速度近线性提升，在保持数据一致性的前提下极大提高数据加载效率。

所述的高效并行加载方法，具体步骤如下：

步骤一、构建包括集群管理模块、消息队列模块、数据处理模块、点处理模块和分布式索引模块的高效加载分布式结构；

集群管理模块负责给各节点分配要处理的队列任务区间，消息队列模块负责数据的跨节点传输，数据处理模块与分布式索引模块配合工作，负责从消息队列获取图数据并进行加载，点处理模块和分布式索引模块配合工作，负责从消息队列获取点数据并进行处理。

集群管理模块，消息队列模块和分布式索引模块都同时连接数据处理模块和点处理模块；

步骤二、初始化消息队列模块，创建两个空的消息队列：第一分布式队列和第二分布式队列；

第一分布式队列用于存放原始图数据；第二分布式队列用于存放处理时的点数据；每个消息队列里有若干分区。

步骤三、终端用户调用API接口，从CSV文件或其他消息队列中实时接收数据，并解析后存入第一分布式队列中；

解析是指将接收的数据解析为json结构；

每条数据由点边点结构组成，具体包括：起始点的属性，终止点的属性，边的属性，起始点的标签，终止点的标签，边的标签，起始点的唯一标志和终止点的唯一标志；

步骤四、数据处理模块从第一分布式队列中逐条取出数据，调用分布式索引模块将数据加载或更新到图数据库中；

分布式索引模块中存储的是每个点的唯一标志和该点ID之间的映射关系；

具体为：

首先，针对当前数据a，根据起始点a1和终止点b1的唯一标志，利用分布式索引模块找到两个点的映射ID；

然后，判断两个ID是否都存在于图数据库中，如果是，将当前数据a的所有信息更新到图数据库中；否则，数据a重新回到第一分布式队列中继续排队，并将未获取到ID的点对应的唯一标志放入第二分布式队列的指定分区中；

数据a中未获取到ID的点放入哪个分区，是由点对应的唯一标志的哈希值对第二分布式队列的分区数取模决定。

步骤五、点处理模块从第二分布式队列中逐条获取各点的唯一标志，针对当前点对应的唯一标志S，判断能否从分布式索引模块获取S对应的ID，如果能，则继续获取下一个标志进行判断；否则，将S加载到图数据库中，并产生对应的ID；同时将S与ID的对应关系放入分布式索引模块中，然后选择下一个标志进行判断；

步骤六、集群管理模块找寻主节点，并对各子节点分发任务，各子节点并行处理各自的分布式队列分区中的数据，实现实时数据一致性的高效并行加载。

加入集群最早的节点为主节点；每个子节点都包括第一分布式队列和第二分布式队列中的分区，不同子节点对应不同的分区区间；

本发明的优点在于：本发明可保证数据一致性的同时，提高janusGraph实时数据的并行加载性能。

附图说明

图1为本发明一种可保持janusGraph数据一致性的分布式高效并行加载的分布式结构图；

图2为本发明一种可保持janusGraph数据一致性的分布式高效并行加载方法原理图；

图3为本发明一种可保持janusGraph数据一致性的分布式高效并行加载方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种分布式加载实时数据的方法，在保证数据一致性的前提下极大地提高了janusGraph实时数据的加载性能；如图2和图3所示，具体步骤包括：

针对janusGraph图数据库构建一种可以保持数据一致性的分布式并行加载结构，如图1 所示，包括5个模块，各模块独自或交互完成部分功能，从而实现整体上加载效率的提升。具体为：集群管理模块、消息队列模块、数据处理模块、点处理模块和分布式索引模块。

集群管理模块同时连接数据处理模块和点处理模块，负责给各节点分配要处理的队列任务区间；分布式索引模块同时连接数据处理模块和点数据处理模块，数据处理模块与分布式索引模块配合工作，负责从消息队列获取图数据并进行加载，点处理模块和分布式索引模块配合工作，负责从消息队列获取点数据并进行处理。数据处理模块同时连接消息队列模块，从消息队列模块中读取数据，并返回数据；消息队列模块同时返回消息给点处理模块；消息队列模块负责数据的跨节点传输。

集群管理模块，负责感知各节点变化，并在节点变化时由主节点计算各子节点所负责的任务区间并进行分发。

消息队列模块，负责接收和缓存需要被处理的数据，初始化时会创建两个消息队列，每个消息队列里有多个数据分区，数据在单个分区内是严格有序的。

数据处理模块，即ID转换模块，负责从消息队列模块中的第一分布式队列取出数据，尝试调用分布式索引模块并将数据中的点加载或更新到图数据库中；

点处理模块，负责从第二分布式队列中取出点数据，并进行加载，并在加载完成后将点的唯一标志及其ID对应关系添加进分布式索引模块中。

第一分布式队列用于存放原始图数据；第二分布式队列用于存放处理时的点数据；每个消息队列里有若干数据分区。

解析是指将接收的数据解析为json结构；

每条数据由点边点结构组成，json结构明确标识哪些字段属于起始点，终止点和边上的属性、哪些字段属于起始点，终止点和边上的标签、哪个字段是起始点和终止点的唯一标志；

ID指的是图数据库在新添加一个点时会为其分配一个long类型的ID，根据这个ID可以在图数据库中快速唯一定位这个点，并对这个点执行操作；如给该点添加和修改属性，以及添加边等操作；

点的唯一标志是原始图数据的属性，唯一标志能在入图数据库之前将该点与别的点区分开，比如对于短信数据，手机号就是点的唯一标志，根据点的唯一标志并不能快速在图数据库中定位到该点。

映射关系需要被添加到分布式索引模块中，以便后续能够根据点的唯一标志来查询这个点的ID；

具体为：

首先，针对当前数据a，根据起始点a1和终止点b1的唯一标志，判断是否在分布式索引模块中找到两个点分别对应的映射ID；如果是，将当前数据a的所有信息更新到图数据库中；否则，数据a重新回到第一分布式队列中继续排队，并将未获取到ID的点对应的唯一标志放入第二分布式队列的指定分区中；

加入集群最早的节点为主节点；主节点一个独立的线程计算任务区间并分发任务到所有子节点，该线程独立运行，分发的任务为节点应该处理的分布式队列分区的分区区间。

每个子节点都包括第一分布式队列和第二分布式队列中的分区，不同子节点对应不同的分区区间。

Claims

1.一种可保持janusGraph数据一致性的分布式高效并行加载方法，其特征在于，具体步骤如下：

集群管理模块负责给各节点分配要处理的队列任务区间，消息队列模块负责数据的跨节点传输，数据处理模块与分布式索引模块配合工作，负责从消息队列获取图数据并进行加载，点处理模块和分布式索引模块配合工作，负责从消息队列获取点数据并进行处理；

解析是指将接收的数据解析为json结构；

具体为：

2.如权利要求1所述的一种可保持janusGraph数据一致性的分布式高效并行加载方法，其特征在于，步骤一中所述集群管理模块，消息队列模块和分布式索引模块都同时连接数据处理模块和点处理模块。

3.如权利要求1所述的一种可保持janusGraph数据一致性的分布式高效并行加载方法，其特征在于，步骤二中所述的第一分布式队列用于存放原始图数据；第二分布式队列用于存放处理时的点数据；每个消息队列里有若干分区。

4.如权利要求1所述的一种可保持janusGraph数据一致性的分布式高效并行加载方法，其特征在于，所述步骤四中，数据a中未获取到ID的点放入哪个分区，是由点对应的唯一标志的哈希值对第二分布式队列的分区数取模决定。

5.如权利要求1所述的一种可保持janusGraph数据一致性的分布式高效并行加载方法，其特征在于，所述步骤六中，加入集群最早的节点为主节点；每个子节点都包括第一分布式队列和第二分布式队列中的分区，不同子节点对应不同的分区区间。