CN112765177A

CN112765177A - 一种基于负载驱动的分布式图数据分割和复制方法

Info

Publication number: CN112765177A
Application number: CN202110101657.7A
Authority: CN
Inventors: 涂宏伟; 刘梦赤
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-07
Anticipated expiration: 2041-01-26
Also published as: CN112765177B

Abstract

本发明提出了一种基于工作负载驱动的分布式图数据分割和复制方法。本发明对图数据集中的数据通过哈希表的方法分别存储至服务器集群中；结合用户的工作负载信息，在顶点数据集中结合源服务器负载判定构建活跃顶点集，然后每个活跃顶点结合服务器集群根据打分函数评分，构建目标服务器评分列表，通过目标服务器负载判定，确定目标迁移服务器；结合活跃顶点集和对应的目标迁移服务器，通过阈值判定活跃顶点是否为高读顶点，若活跃顶点不为高读顶点则进一步通过最大复制因子动态调整活跃顶点的副本数据。本发明利用工作负载动态变化的特性，动态调整图顶点数据的位置，提高了查询效率，保证了查询的低延迟和高吞吐量。

Description

一种基于负载驱动的分布式图数据分割和复制方法

技术领域

本发明属于计算机领域，尤其涉及一种基于负载驱动的分布式图数据分割和复制方法。

背景技术

近年来，随着社交网络和万维图数据规模在不断扩大，同时多用户访问的需求在不断扩张，目前常见的单个的数据库服务器难以在现有资源下满足多用户的高质量访问服务。传统的解决方案是采用数据的垂直扩展和完整的复制，由此带来的高昂代价是难以令人满意的，因此分布式数据存储方式应运而生。分布式数据存储基于廉价的服务器集群进行水平分区扩展和部分复制备份，并提供了并发式的图数据处理。面对分布并行数据存储，如何把图数据合理的存储在不同的节点，使得用户单次查询效率提高，同时提供一定的数据容灾功能，这是相关领域研究的热点问题和进一步发展的方向。

在线查询工作负载通常包含大量的相似类型的数据查询，并根据查询模式探索输入图的有限子集。换而言之，在一段时间内，那些被频繁访问和遍历的节点和边集合可以称作活动节点和活动边。通过这些信息我们可以获得两个重要参数，节点权重以及边割信息。节点权重指的是节点访问次数，这是确定是否热点数据的重要指标。边割指的是图数据进行查询操作时，由于图数据的层次性，访问数据可能从一个服务器节点到另一个服务器节点，相当于一条边被分割在不同的服务器器节点上。边割会导致极大的通信开销，影响用户数据查询的效率。因此，在于平衡服务器集群之间的不同顶点的同时，需要尽可能减小割边的数目。

和传统的关系型数据不同的是，图数据是由一个个节点和边构成的层次网络的非关系型数据，如何把这些数据节点和边合理的分配到不同的服务器节点中，这就是图数据分割算法。现有的图分割算法大部分是基于静态图设计实现的。当它们被用在节点和边都会连续变化的动态图时，例如，语义网和社交网络，它往往需要在一批节点和边更改后进行再一次的重量级的重新分割。面对大规模图，该算法往往要花费数小时的时间，这是无法接受的。尽管现在存在通过机器学习去寻找图特征优化时间，但是结果仍然不尽如人意。因此，对于动态图而言，由于查询工作负载、图拓扑和弹性系统容量等的动态变化，实际图中的分区的质量会随着时间的推移而不断的降低。这种动态变化会给系统带来一定的开销，同时可能会降低在线查询的效率和吞吐量。因此，在时间和内存需求方面，动态自适应策略应该是“轻量级”的。

另一个问题则是分布式图数据的容灾问题，为了防止由于系统出现操作失误或系统故障导致数据丢失，我们需要进行数据备份，也就是数据复制。传统的解决方案是根据固定的复制因子对全部的数据进行完整备份，由此带来昂贵的网络和存储开销。事实上不同的数据丢失的概率是不一样的，面对频繁操作的热点数据，其丢失概率更高，而一些冷数据则概率更低。根据数据的类型，通过动态的调整复制因子来进行数据复制，从而减少响应的开销。

发明内容

本发明针对现有技术的不足，提供一种基于工作负载驱动的分布式图数据分割和复制方法。

本发明的技术方案为一种基于工作负载驱动的分布式图数据分割和复制方法，包含以下步骤：

步骤1，通过多个顶点、边构建图数据集，将多个顶点的数据及其关联边数据通过哈希表的方法分别存储至多台服务器中，多台服务器通过环状方式构成服务器集群，得到服务器集群中每台服务器的顶点数据集；

步骤2，结合用户输入的工作负载信息，在图数据集的顶点数据集中选择候选顶点构建候选活跃顶点集，在候选活跃顶点集结合源服务器负载判定选取活跃顶点，以构建活跃顶点集，然后活跃顶点集中每个活跃顶点依次结合服务器集群中每个服务器根据打分函数计算服务器集群中每个服务器的评分，根据每个服务器对应的评分构建目标服务器评分列表，通过目标服务器负载情况判定，确定每个活跃顶点的目标迁移服务器；

步骤3，结合活跃顶点集和对应的迁移目标服务器，步骤3所述通过可配置的阈值判定活跃顶点集中活跃顶点是否为高读顶点，若活跃顶点集中活跃顶点不为高读顶点则进一步通过最大复制因子动态调整活跃顶点的副本数目及对应的活跃顶点数据。

作为优选，步骤1所述图数据集为：

G(V,E)

V＝{v_i}

E＝{e_i,j},i∈[1,L]，j∈[1,L]

其中，L表示图数据集中顶点的数量，V表示图数据集中顶点集合，E表示图数据集中边集合，v_i表示图数据集中第i个顶点，e_i,j表示图数据集中第i个顶点与第j个顶点之间的边，node_i表示图数据集中第i个顶点的数据，k_i,j表示图数据集中第i个顶点与第j个顶点之间边的属性；

步骤1所述服务器集群为：

[S₁,S₂,…,S_N]

其中，S_n表示服务器集群中第n台服务器；

通过一个可配置的复制因子F_min,将所述服务器集群每台服务器的顶点数据集通过环状的方式依次拷贝到其他服务器节点；

步骤1所述服务器集群中每台服务器的顶点数据集为：

data_n

n∈[1,N]，L＞N

步骤1所述服务器集群中每台服务器的顶点集合为：

步骤1所述服务器集群中每台服务器节点的顶点权值集合为：

其中，N为服务器集群中服务器的数量，data_n表示服务器集群中第n台服务器的顶点数据集，net_n表示服务器集群中第n台服务器的顶点集合，weight_n表示服务器集群中第n台服务器的顶点权值集合，M_n表示服务器集群中第n台服务器中顶点的数量，

表示服务器集群中第n台服务器的顶点数据集中第t个顶点数据,

表示服务器集群中第n台服务器的顶点数据集中第t个顶点，t∈[1,M_n]；

作为优选，步骤2所述的候选活跃顶点集为：

j∈[1,H]

其中，V_candinate表示候选活跃顶点集，H表示候选活跃顶点集中活跃顶点的数量，V表示图数据集的顶点数据集，

表示候选活跃顶点集中第s个活跃顶点即图数据集中第k_s个顶点，候选活跃顶点集中第j个活跃顶点的权值为

且

步骤2所述在候选活跃顶点集结合源服务器负载判定选取活跃顶点为：

步骤2所述的源服务器为：若

属于net_n，则S_n是顶点

的源服务器，n∈[1,N]

其中，N为服务器集群中服务器的数量，

表示服务器集群中第n台服务器的顶点集合，M_n表示服务器集群中第n台服务器中顶点的数量，

步骤2所述源服务器负载判定为：

根据源服务器公式进行判定，条件为真，说明S_n的负载处于正常区间，将

作为活跃顶点；

所述的源服务器公式为：

其中，W(S_n)表示服务器集群中第n台服务器上候选活跃顶点的权值的总和；

其中，

表示候选活跃顶点

的权值，即

的访问频次，且

是属于net_n；

Φ表示服务器节点的不平衡程度，范围为[1,2]，Ω代表着全部服务器的平均活动权重,Φ和Ω定义如下：

步骤2所述的活跃顶点集为：

j∈[1,K]

其中，V_Active表示活跃顶点集，K表示活跃顶点集中活跃顶点的数量，V表示图数据集的顶点数据集，

表示活跃顶点集中第j个活跃顶点即图数据集中第k_j个顶点，活跃顶点集中第j个活跃顶点的权值为

且

步骤2所述计算服务器集群中每个服务器的评分为：

表示活跃顶点集中第j个活跃顶点指向第n个服务器的关联边的权值和：

其中，

表示图数据集中第k_j个顶点与服务器集群中第n台服务器的顶点数据集中第t个顶点之间的边的权值，即

和

之间的边的访问频次，其中顶点

属于net_n，当顶点

和顶点

之间不存在边时，

的值为0；

n∈[1,N]

其中，N为服务器集群中服务器的数量，M_n表示服务器集群中第n台服务器中顶点的数量，

W(S_n)表示服务器集群中第n台服务器上候选活跃顶点的权值的总和；

其中，

表示图数据集中第n_t个顶点的权值，即

的访问频次，且

是属于net_n；

SUM_n表示服务器集群中第n个服务器上候选活跃顶点的数量,通过统计net_n中候选活跃顶点的数量得到；

步骤2所述的服务器分数为：

其中，

表示活跃顶点

在服务器节点S_pi上使用打分函数获取的分数值；

结合服务器分数和对应的服务器节点我们组成一个服务器评分信息为：

其中，

表示一个评分表项，由一个分数值和对应的服务器节点组成，

表示活跃顶点

在服务器节点

上使用打分函数获取的分数值，

表示服务器节点；

步骤2所述目标服务器评分列表为：

其中

表示活跃顶点

在全部服务器上的评分表项集合，且该集合是根据每个表项中的分数值从大到小进行排序的；

步骤2所述目标服务器负载情况判定为：

通过进行依次遍历目标服务器列表

并使用目标服务器公式，当公式为真且目标服务器

不等于源服务器S_k时，此时的服务器

确定为最终的目标服务器；

所述的目标服务器公式为：

其中，

表示服务器节点

上全部候选活跃顶点的权值的总和；

其中，

表示图数据集中第n_t个顶点的权值，即

的访问频次，且

是属于

步骤2所述每个活跃顶点的目标迁移服务器为：

其中

表示给定的打分函数，且S_k！＝S_n，S_n表示活跃顶点

的原目标服务器；

作为优选，步骤3所述通过可配置的阈值判定活跃顶点集中活跃顶点是否为高读顶点，具体为：

其中，

表示活跃顶点

的权值，

表示当前顶点

的副本数目，N表示服务器节点的总数目，θ为自定义的阈值；

步骤3所述通过最大复制因子动态调整活跃顶点的副本数目及对应的活跃顶点数据为：

首先，添加对应的迁移目标服务器

中活跃顶点

的数据，若活跃顶点集中活跃顶点为高读顶点，则则副本数目f_v加一；若活跃顶点集中活跃顶点不为高读顶点，删除服务器集群中源服务器即S_n对应的活跃顶点即

的数据，然后通过进一步判定活跃顶点的副本数目是否大于最大复制因子，具体为：

若

表示活跃顶点的副本数目大于最大复制因子，则删除最低访问服务器节点中活跃顶点

的数据，同时副本数目f_v减1；

所述最低访问服务器节点的定义为：

其中

表示顶点

在服务器节点S_i的权值；

所述最低访问服务器节点指的是：

一个活跃顶点可能在不同服务器节点存在副本，每个副本中的权值是不同的，选择顶点权值最低对应的服务器节点。

本发明利用工作负载动态变化的特性，通过实际测试自适应调整分布式图顶点的初始位置，采取流式分配策略评估，从而减少了用户数据查询时的边割数目，提高了查询效率，保证了查询的低延迟和高吞吐量。

附图说明

图1：是本发明实施例的自适应图分割和复制方法的流程图。

图2：是本发明实施例的动态图分割流程图。

图3：是本发明实施例的动态复制流程图。

具体实施方式

本发明主要基于计算机图形拓扑学，考虑动态图特性和用户工作负载特性，提出的一种自适应分布式图数据分割和复制的实验方法及系统。本方法充分考虑了不同用户在不同的工作负载的情形下，通过自适应调整图顶点的存储位置已达到用户在单次查询中尽可能少的访问多个服务器节点，提高查询效率，保证查询的低延迟和高吞吐量。通过本发明获得的结果更加科学，更加精确。

本发明提供的方法能够用计算机软件技术实现流程。参见图1，实施例集群分布式图数据分割和复制为例对本发明的流程进行一个具体的阐述，如下：

一种基于工作负载驱动的分布式图数据分割和复制方法，包含以下步骤：

步骤1所述图数据集为：

G(V,E)

V＝{v_i}

E＝{e_i,j},i∈[1,L]，j∈[1,L]

其中，L＝1000表示图数据集中顶点的数量，V＝1000表示图数据集中顶点集合，E＝10000表示图数据集中边集合，v_i表示图数据集中第i个顶点，e_i,j表示图数据集中第i个顶点与第j个顶点之间的边，node_i表示图数据集中第i个顶点的数据，k_i,j表示图数据集中第i个顶点与第j个顶点之间边的属性；

步骤1所述服务器集群为：

[S₁,S₂,…,S_N]

其中，S_n表示服务器集群中第n台服务器；

通过一个可配置的复制因子F_min＝2,将所述服务器集群每台服务器的顶点数据集通过环状的方式依次拷贝到其他服务器节点；

步骤1所述服务器集群中每台服务器的顶点数据集为：

data_n

n∈[1,N]，L＞N

步骤1所述服务器集群中每台服务器的顶点集合为：

步骤1所述服务器集群中每台服务器节点的顶点权值集合为：

其中，N＝10为服务器集群中服务器的数量，data_n表示服务器集群中第n台服务器的顶点数据集，net_n表示服务器集群中第n台服务器的顶点集合，weight_n表示服务器集群中第n台服务器的顶点权值集合，M_n表示服务器集群中第n台服务器中顶点的数量，

实施具体的实施过程说明如下：

图数据集是由RDF三元组数据构成，每个实体由主体，预测和客体三个部分主成，部分数据如下表1所示：表中的第一列和第三列分别为图两端的顶点，而第二列则是连接两个顶点的边的标记。

表1

首先对全部subject和object进行转换为数字类型，每一个图顶点存在唯一对应的整数值，也就是哈希值，然后使用简单的哈希策略，例如一致性哈希法，把每个顶点均匀的分布在服务器集群节点S上，比如说存在10个服务器节点，1000个图顶点，那么平均每个服务器节点保存了100个图顶点。我们采用以节点为中心的数据分割方法，将每个源顶点及其关联边分配到同一个分区中，也就是说我们在每个服务器节点Si中保数据的源顶点和相关联的边。最后把每个顶点的关联边数据保存到服务器节点上。配置最低复制F_min，例如设置F_min＝2，那么每个节点最低存在两个副本，并且F_min值不能大于服务器集群的数目。

步骤2所述的候选活跃顶点集为：

j∈[1,H]

其中，V_candinate表示候选活跃顶点集，H＝100表示候选活跃顶点集中活跃顶点的数量，V＝1000表示图数据集的顶点数据集，

且

步骤2所述的源服务器为：若

属于net_n，则S_n是顶点

的源服务器，n∈[1,N]

其中，N＝10为服务器集群中服务器的数量，

步骤2所述源服务器负载判定为：

作为活跃顶点；

所述的源服务器公式为：

其中，

表示候选活跃顶点

的权值，即

的访问频次，且

是属于net_n；

步骤2所述的活跃顶点集为：

j∈[1,K]

其中，V_Active表示活跃顶点集，K＝20表示活跃顶点集中活跃顶点的数量，V＝1000表示图数据集的顶点数据集，

且

步骤2所述计算服务器集群中每个服务器的评分为：

其中，

和

之间的边的访问频次，其中顶点

属于net_n，当顶点

和顶点

之间不存在边时，

的值为0；

n∈[1,N]

其中，N＝10为服务器集群中服务器的数量，M_n表示服务器集群中第n台服务器中顶点的数量，

其中，

表示图数据集中第n_t个顶点的权值，即

的访问频次，且

是属于net_n；

步骤2所述的服务器分数为：

其中，

表示活跃顶点

在服务器节点

上使用打分函数获取的分数值；

其中，

表示活跃顶点

在服务器节点

上使用打分函数获取的分数值，

表示服务器节点；

步骤2所述目标服务器评分列表为：

其中

表示活跃顶点

步骤2所述目标服务器负载情况判定为：

通过进行依次遍历目标服务器列表

并使用目标服务器公式，当公式为真且目标服务器

不等于源服务器S_k时，此时的服务器

确定为最终的目标服务器；

所述的目标服务器公式为：

其中，

表示服务器节点

上全部候选活跃顶点的权值的总和；

其中，

表示图数据集中第n_t个顶点的权值，即

的访问频次，且

是属于

步骤2所述每个活跃顶点的目标迁移服务器为：

其中

表示给定的打分函数，且S_k！＝S_n，S_n表示活跃顶点

的原目标服务器；

实施具体的实例如下所示：

首先当服务器获取用户的工作负载信息时，面对请求的顶点v时，需要获取顶点v保存的服务器的位置，此时有三种情况:(1)当前服务器节点为v最初的服务器,并且保存着节点v,因此，请求在本地直接获取结果,(2)这是v的初始服务器，由于v的重新分配，它承载了v的查找变量。因此，请求被重定向到由查找变量引用的服务器(3)这不是v的初始服务器，先根据节点v的哈希值找到初始服务器，然后根据顶点查找变量表获取顶点v保存在那些服务器节点上。

模拟一个简单的数据动态分割方法如下，给定图初始化数据，server1保存节点v1,v2，server2保存顶点v3,v4,v5，server3保存顶点v6，L(v)值信息如下表2所示：

顶点	Server1	Server2	Server3
				v1	0	2	0
v2	0	0	0
				v3	1	0	2
v4	0	1	0
				v5	1	1	0
v6	0	2	0

初始分区质量参数ξ为0.2，选定顶点v3。根据打分函数F，我们可以得到S₃的分数值最高，然后原目标服务器S₂不存在负载不足，且目标服务器S₃不存在过载情形，此时可以确定将顶点v3从服务器节点S₂重分配服务器节点S₃。分配前后，质量参数ξ从0.2到了0.6,并且不平衡系数ф从1.8降低到了1.5，分区质量有了明显提高。

步骤3，结合活跃顶点集和对应的迁移目标服务器，步骤3所述通过可配置的阈值判定活跃顶点集中活跃顶点是否为高读顶点，若活跃顶点集中活跃顶点不为高读顶点则进一步通过最大复制因子动态调整活跃顶点的副本数目及对应的活跃顶点数据；

步骤3所述通过可配置的阈值判定活跃顶点集中活跃顶点是否为高读顶点，具体为：

其中，

表示活跃顶点

的权值，

表示当前顶点

的副本数目，N＝10表示服务器节点的总数目，θ为自定义的阈值；

若活跃顶点集中活跃顶点不为高读顶点，删除服务器集群中第n个服务器即S_n对应的活跃顶点即

的数据，然后通过进一步判定活跃顶点的副本数目是否大于最大复制因子F_max＝5，具体为：

若

的数据，同时副本数目f_v减1；

添加对应的迁移目标服务器

中活跃顶点

的数据，若顶点为高度顶点，则副本数目f_v加一；

所述最低访问服务器节点的定义为：

其中

表示顶点

在服务器节点S_i的权值；

所述最低访问服务器节点指的是：

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。