CN106777351B

CN106777351B - 基于art树分布式系统图存储计算系统及其方法

Info

Publication number: CN106777351B
Application number: CN201710033810.0A
Authority: CN
Inventors: 章成飞; 张一鸣; 李东升
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2017-01-17
Filing date: 2017-01-17
Publication date: 2019-08-09
Anticipated expiration: 2037-01-17
Also published as: CN106777351A

Abstract

本发明公开了一种基于ART树分布式系统图存储计算系统及其方法，其涉及分布式图计算技术领域，所述系统包括数据源单元、数据分区单元、数据存储单元、以及图计算单元；所述数据源单元设有数据采集模块，所述数据采集模块用于采集图数据；所述数据存储单元包括有数据库、文件系统、分布式文件系统和HBase；所述数据分区单元包括数据加载模块和自适应分区算法模块。所述系统包括数据源单元、数据分区单元、数据存储单元、以及图计算单元；所述数据源单元设有数据采集模块，所述数据采集模块用于采集图数据；所述数据存储单元包括有数据库、文件系统、分布式文件系统和HBase；所述数据分区单元包括数据加载模块和自适应分区算法模块。

Description

基于ART树分布式系统图存储计算系统及其方法

技术领域

本发明涉及分布式图计算技术领域，特指一种基于ART树分布式系统图存储计算系统及其方法。

背景技术

大规模图计算对从自然语言处理到社交网络等广泛的机器学习(machinelearning)和数据挖掘(data mining)应用都是至关重要的。人们已经对单机图计算模型进行了深入地研究，并且许多系统，例如GridGraph，GraphQ，GraphChi和X-Stream都已经达到了非常高的计算性能。目前，数据集规模的快速增长给单机模型带来了严峻的挑战，但同时它又促进了图并行系统的开发，例如Pregel，GraphLab，PowerGraph，GraphX和PowerLyra。

GraphX(d Gonzalez,Joseph E.,et al.“Graphx:Graph processing in adistributed dataflow framework.”11th USENIX Symposium on Operating SystemsDesign and Implementation(OSDI 14).2014.)和PowerGraph是点分割系统，通过分割顶点而不是子图之间的边来均匀地分配高维度点的边，点分割系统会将所有与顶点相关的边都放置到一起。Pregel(Malewicz,Grzegorz,et al.“Pregel:a system for large-scalegraph processing.”Proceedings of the 2010 ACM SIGMOD International Conferenceon Management of data.ACM,2010.)和GraphLab(Low,Yucheng,et al.“DistributedGraphLab:a framework for machine learning and data mining in the cloud.”Proceedings of the VLDB Endowment 5.8(2012):716-727.)是边分割系统，它们是通过切断子图之间的边来均匀地分配顶点。PowerLyra(Chen,Rong,et al.“Powerlyra:Differentiated graph computation and partitioning on skewed graphs.”Proceedings of the Tenth European Conference on Computer Systems.ACM,2015.)提出了混合分割的算法来分别处理低维度和高维度点，它包含了边分割和点分割系统的优点。

真实世界的自然图，例如社交网络和web等，都具有典型的倾斜幂率分布的特点，也就是倾斜幂率分布处的高维度顶点只是图中顶点的一个小的子集，但是它们会有大量的邻居结点。这种特点使得自然图在分布式环境下难以进行表示和分区。边分割系统是通过切断子图之间的边来均匀地分配顶点，但是对于高维度点，它将会造成计算和通信时的负载不均衡。点分割系统通过分割顶点而不是子图之间的边来均匀地分配高维度点的边，但是对于低维度点，这将会导致高的通信开销。混合分割系统的黑白哲学可能会导致相当数量的中维度点产生次优选择，由于很难确定精确的阈值，并且在无序的大规模图中，提前计算出顶点的维度(用来决定使用什么样的分割策略)是很耗时的过程，另外，差异化处理显著增加了系统设计的难度。

Adaptive Radix Tree(ART)是一种专门针对基于内存数据库的索引技术。基数树与常见的搜索树比较有如下特点：(1)基数树的高度(高度即表示搜索的复杂度)取决于键的长度(占几个bit)而不是取决于树中元素的个数；(2)基数树不要Rebalance操作，所有的插入操作都是在相同的结构上进行；(3)键存储都是有序的(字典有序)；(4)叶节点的路径就代表了叶子节点的键，键被隐含地存储了，可以从路径进行构建。

发明内容

针对上述技术问题，本发明提出一种图计算效率更高、通信开销更低的基于ART树分布式系统图存储计算系统及其方法，其主要面向有倾斜幂率分布的大规模图数据的存储和计算。

本发明的具体技术方案是：

一种基于ART树分布式系统图存储计算系统，所述系统包括数据源单元、数据分区单元、数据存储单元、以及图计算单元；所述数据源单元设有数据采集模块，所述数据采集模块用于采集图数据；所述数据存储单元包括有数据库、文件系统、分布式文件系统和HBase；所述数据分区单元包括数据加载模块和自适应分区算法模块。

一种基于ART树分布式系统图存储计算方法，该方法包括所述一种基于ART树分布式系统图存储计算系统，具体操作步骤如下：

1)利用所述数据采集模块采集网络应用产生的图数据，并将采集得到的所述图数据持久化到数据存储单元中；

2)进行数据分区，包括数据加载和采用自适应分区算法进行数据划分，所述数据加载过程中根据分配的计算节点的数目，然后在每个节点都启动数据加载，并行地将数据读入内存中；在数据加载的同时会调用自适应的分区算法对数据进行shuffle，将数据按照对应的分区算法重新映射到分配的物理服务器上；在进行数据加载同时进行数据分区，数据加载完成，数据划分也完成；

其中，所述自适应分区算法包含序号连续的SmartHash函数、全局的分区表和物理服务器容量值，所述全局分区表记录所有的分区情况，根据全局分区表记录情况与物理服务器容量值的比较，调用SmartHash函数进行物理服务器号分配，然后按照分配的物理服务器号，将边数据发送到对应的物理服务器；

3)经过数据分区操作之后，每个物理服务器都会分到原始图数据集的一个子图，子图在每个分区上的存储采用的就是基于ART-Index的邻接表结构；根据MapReduce、BSP和GAS等不同的分布式图计算框架进行并行的图计算，每台物理服务器在进行计算时都是用在本地缓存的子图数据，每轮迭代之后会在物理服务器间进行一次消息同步操作，消息同步操作完之后进行下一次迭代计算，直到计算结果收敛，或者计算次数达到用户设置值为止；

4)迭代计算结束后会将最终结果写回到数据存储系统中进行持久化。

作为本发明技术方案的优化，本发明采用ART-indexed邻接表结构对图数据进行存储索引，具体包括：(1)采用邻接表结构来存储单个物理服务器上的所有图数据；对所有源点的出度边采用邻接表存储，邻接表中分别是该源点的目的顶点集合，邻接表的存储开销是O(E_n+V_n)，其中E_n和V_n分别表示图中边和顶点数目；(2)使用自适应基数树来索引边的源点，所述自适应基数树保留了索引数据的顺序，可以执行区块的查询；并且当删除和增加新的节点时不需要重新平衡树和重新哈希顶点，图在部分更新时，使用共享的结构的方式来实现增量的更新。

作为本发明技术方案的优化，所述自适应分区算法模块有一组独立的哈希函数并且每一台物理服务器有一个阈值η来限制它应该被赋予的最大边的个数，并且每台物理服务器维护了一个本地分区表用来记录每个顶点以及这些点对应的哈希函数序号；

在图数据并行加载阶段，对每条边e，首先使用第一个哈希函数散列边e的源顶点s，映射边e到物理服务器m₁，如果分配到物理服务器m₁的边的个数小于阈值η，那么将边e分配到m₁，并且边e的处理过程完成；否则，使用第二个哈希函数来散列边e的源顶点s，并且映射边e到另外一个物理服务器m₂，如果m₂的边的个数比η小，那么边e会被映射到m₂；否则通过对等推理，以顶点s为源点的边有d条边，通过用p个哈希函数将该d条边分配到各个物理服务器，每台物理服务器最多有顶点s的η条边；对每个顶点s，记录当前使用的哈希函数；在图加载完成之后，所有的本地分区表将会被写入全局分区表中，每个顶点s和它们对应的哈希函数的最大个数p以键值对(s,p)的格式存储在全局分区表中。

与现有技术相比，本发明的有益效果是：

1、本发明利用ART对图数据进行索引，提升了索引效率，减小了内存占用量。

2、本发明实现了同时处理高维度和低维度点，通过设计一个统一的哈希函数处理，在处理的过程中不需要去提前统计高维度和低维度的维度信息，从而大大减少了图的预处理时间。

3、通过对图数据的高效分区和索引，提升了图计算每次迭代时间，节省了计算资源。

附图说明

图1本发明的自适应分区方法的流程图。

图2本发明的自适应分区处理流程实例(η＝3)。

图3基于ART-index的邻接表存储结构。

图4基于结构共享的存储结构。

具体实施方式

本发明提供一种ART树分布式系统图存储计算系统的具体实施例，其为在Spark上实现了一个独立的图计算引擎GraphA，它提供了一个能自适应的，统一的图分区算法，它通过使用序号递增的hash函数来达到以负载均衡的方式分割数据集的目的，并且在图系统上引入了ART-index的邻接表存储算法，实现了高效的存储。实验结果显示，不论对于真实世界的自然图和人工合成的图，在存储开销，图加载和分区时间，及图计算时间方面，GraphA都优于目前已经的一些图计算系统，比如GraphX。

所述系统包括数据源单元、数据分区单元、数据存储单元、以及图计算单元；所述数据源单元设有数据采集模块，所述数据采集模块用于采集图数据；所述数据存储单元包括有数据库、文件系统、分布式文件系统和HBase；所述数据分区单元包括数据加载模块和自适应分区算法模块。

大规模图数据集的分布有两种情况，一种是倾斜的幂率图，一种是正常图。对于第一种情况缩水自适应分区算法模块会通过自适应的方式，同时处理高维度和低纬度点，让通信开销达到最小，并且图数据传送到每个分区之后会使用本发明的存储单元，减少存储开销。对于正常图，由于不存在高低维度点之分，所以通过分区算法模块当成一种维度点进行分区，同样可以达到很好的分区效果。

本发明系统的操作处理流程的整体逻辑执行框架如图1所示，算法框架主要包括四个主要部分，数据源、数据存储、数据分区和图计算，具体流程步骤如下：

具体流程步骤如下：

(1)云计算主要的服务对象可能是搜索引擎、社交网络、生物科学和自然科学等，所以大部分图数据都是来自这些领域应用，这些就是真实的数据源。

(2)针对这些应用需要有一个数据采集模块，将应用产生的图数据，包括网页数据、社交网络数据和生物信息数据等等，进行收集。

(3)将收集的数据持久化到数据存储系统中，数据存储系统主要有数据库、文件系统、分布式文件系统和HBase等，目前比较通用的做法是将数据保存到分布式文件系统中，如HDFS等。

(4)进行数据分区(数据分割)，其中数据分区部分由两部分组成，分别是数据加载和自适应分区算法。所述数据加载过程会根据分配的计算节点的数目，然后在每个节点都启动数据加载，并行地将数据读入内存中。

(5)在数据加载的同时会调用自适应的分区算法对数据进行shuffle，将数据按照对应的分区算法重新映射到分配的物理服务器上。自适应的分区算法是一种在线的划分策略，一边进行数据加载，一边进行分区，数据加载完成，数据划分也完成，这种划分策略的图分割时间比较短。

(6)自适应分区算法主要包含序号连续的哈希函数族(SmartHash函数)、全局的分区表和物理服务器容量值。全局分区表记录所有的分区情况，根据全局分区表记录情况与物理服务器容量值的比较，调用SmartHash函数进行物理服务器号分配，然后按照分配的物理服务器号，将边数据发送到对应的物理服务器。

(7)经过数据分区操作之后，每个物理服务器都会分到原始图数据集的一个子图，如图1中的子图1、子图2和子图3。这些子图在每个分区上的存储采用的就是基于ART-Index的邻接表结构。

(8)然后根据MapReduce、BSP和GAS等不同的分布式图计算框架进行并行的图计算，每台物理服务器在进行计算时都是用在本地缓存的子图数据，每轮迭代之后会在物理服务器间进行一次消息同步操作，消息同步操作完之后进行下一次迭代计算，直到计算结果收敛，或者计算次数达到用户设置值为止。

(9)迭代计算结束后会将最终结果写回到数据存储系统中进行持久化。

本发明的自适应分区算法模块有一组独立的哈希函数并且每一台物理服务器有一个阈值η来限制它应该被赋予的最大边的个数。本具体实施例简单计算阈值为大规模图边的总数除以物理服务器的数目，然而其他的因素(例如物理服务器的经验能力)也可以在细粒度控制时考虑。

在图并行加载阶段，对每条边e，首先使用第一个哈希函数散列边e的源顶点s，映射边e到物理服务器m₁，如果分配到物理服务器m₁的边的个数小于阈值η，那么将边e分配到m₁，并且边e的处理过程完成；否则，重新使用第二个哈希函数来散列边e的源顶点s，并且映射边e到另外一个物理服务器m₂，如果m₂的边的个数比η小，那么边e会被映射到m₂；否则通过对等推理，以顶点s为源点的边有d条边，通过用p个哈希函数将这些边分配到各个物理服务器，每台物理服务器最多有顶点s的η条边；对每个顶点s，GraphA记录了当前用于散列边e的源顶点s的哈希函数，因此，它可以直接使用函数f而不是在散列顶点s的其它边的时候从第一个函数开始尝试。因此，承载顶点边的物理服务器数目正比于顶点的维度。

GraphA需要记录每个顶点使用的hash函数的个数来实现对这些顶点所有边的并行访问。每台物理服务器维护了一个本地分区表用来记录每个顶点以及这些顶点对应的hash函数序号。在图加载完成之后，所有的本地分区表将会被写入全局键-值表，类似分布式哈希表(distributed hash table，简称DHT)，每个顶点(v)和它们hash函数的最大个数(p)以键值对(v,p)的格式存储在表中。因此，在顶点v的计算阶段，前p个hash函数将会被用来并行定位顶点v的所有边。

图2给出了GraphA自适应分区过程的示例。图2左侧显示出数据集(以有序边的形式)和数据加载之前可用的分区。每台物理服务器可容纳的最大边的个数η是3。图2右侧演示了边分区的过程。第一个hash函数H1被用来将边<2,5>和<2,4>分配给P7分区，边<1,2>，<1,11>和<1,9>被分配给P1分区，边<3,1>，<3,2>和<3,9>被分配给P3分区。由于P1分区的边的个数达到了阈值(η＝3)，第二个函数被用来分配边<1,12>,<1,3>和<1,5>到P5分区。以此类推，第3个函数被用来分配边<1,7>到P8分区。图2的右侧也描绘出了全局键-值表，它显示了所有源顶点和与之对应的最大函数序号。

基于ART-index的连接表存储结构如图3所示。图3左边是GraphX的存储结构，采用的是“键-键-值”的存储方式，右边对应的是本发明GraphA的存储方式。

本发明使用邻接表来实现在单机内对边信息的高效存储。如图3右侧所示，对于8个源顶点，每个顶点都有一个链表，链表的每个结点代表所在源顶点对应的一个目标顶点。邻接表的存储开销是O(E_n+V_n)，其中E_n和V_n分别代表边和顶点的数量。相反，键-键-值(GraphX采用的方法，原理如图3左侧所示)和邻接矩阵(GraphLab,PowerGrap和PowerLyra采用的方法)的存储开销分别是O(2E_n)和O(V_n ²)。

为了提升类似插入删除等操作的效率，我们使用了ART来索引边的源顶点。ART保留了它索引数据的顺序来使GraphA的查询操作更高效。当有新的顶点加入的时候，它不需要重新平衡树(rebalance)，也不需要重新哈希(rehash)顶点。当图部分更新的时候，使用共享的结构的方式来实现增量的更新例如从源顶点1的链表中删除目标顶点5，只有顶点1对应的分支受到了影响。

对增量操作，目前已经存在的解决方案有如下几种：(1)直接更新对应的值，这种处理方式虽然效率很高，但如果一旦失败会出现不一致的状态无法解决；(2)原子的批量更新操作，这种方式最常见的是在数据库更新操作中，虽然这种能够保证数据最终的一致性，但必须在数据库中保存一个较长生命周期的snapshot；(3)全拷贝方式，在进行更新之前先对原数据进行一次深拷贝得到一个副本，然后再操作该副本，操作完成之后再返回该副本，这种方式对于小数据的更新效率非常低。

为了满足增量更新的要求，通过共享结构不改变已存在的点的值，从而可以达到细粒度的写时拷贝的目的。图4给出了结构共享的存储结构的更新过程，灰色块表示要更新的块，通过重新构建修改叶子节点的父节来实现增量更新。

为了加速GraphA的删除操作，本具体实施例设计了位向量，每位代表物理服务器中存储的源顶点的状态。如图3右侧所示，例如8位向量(MASK)代表8个顶点的状态。当一个顶点的所有边(比如顶点1)都被删除，只需要设置第一个比特位为0，不需要更新树。

本发明基于ART树结构实现了图数据的分布式存储，进而设计一种高效的分布式图计算方法；通过使用序号递增的hash函数来达到以负载均衡的方式分割数据集的目的；通过扩展Spark中弹性分布式数据集的结构并且设计了图操作APIs实现了独立的图计算引擎GraphA；与边分割系统、点分割系统以及混合分割系统相比，不论是对于真实世界的自然图还是人工合成的图，在存储开销、图加载分区时间和图计算时间方面，本发明的图计算效率更高，通信开销更低。本领域技术人员将清楚本发明的范围不限制于以上讨论的示例，有可能对其进行若干改变和修改，而不脱离所附权利要求书限定的本发明的范围。尽管己经在附图和说明书中详细图示和描述了本发明，但这样的说明和描述仅是说明或示意性的，而非限制性的。本发明并不限于所公开的实施例。

Claims

1.一种基于ART树分布式系统图存储计算方法，其特征在于，所述方法基于一存储计算系统实现，所述存储计算系统包括数据源单元、数据分区单元、数据存储单元、以及图计算单元；所述数据源单元设有数据采集模块，所述数据采集模块用于采集图数据；所述数据存储单元包括有数据库、文件系统、分布式文件系统和HBase；所述数据分区单元包括数据加载模块和自适应分区算法模块；

所述方法包括如下步骤：

2)进行数据分区，包括数据加载和采用自适应分区算法进行数据划分，所述数据加载过程中根据分配的计算节点的数目，然后在每个节点都启动数据加载，并行地将数据读入内存中；在数据加载的同时会调用自适应的分区算法对数据进行洗牌(shuffle)，将数据按照对应的分区算法重新映射到分配的物理服务器上；在进行数据加载同时进行数据分区，数据加载完成，数据划分也完成；

3)经过数据分区操作之后，每个物理服务器都会分到原始图数据集的一个子图，子图在每个分区上的存储采用的就是基于ART-Index的邻接表结构；根据MapReduce分布式图计算框架、BSP分布式图计算框架和GAS分布式图计算框架进行并行的图计算，每台物理服务器在进行计算时都是用在本地缓存的子图数据，每轮迭代之后会在物理服务器间进行一次消息同步操作，消息同步操作完之后进行下一次迭代计算，直到计算结果收敛，或者计算次数达到用户设置值为止；

2.根据权利要求1所述的一种基于ART树分布式系统图存储计算方法，其特征在于，采用ART-indexed邻接表结构对图数据进行存储索引，具体包括：(1)采用邻接表结构来存储单个物理服务器上的所有图数据；对所有源点的出度边采用邻接表存储，邻接表中分别是该源点的目的顶点集合，邻接表的存储开销是O(E_n+V_n)，其中E_n和V_n分别表示图中边和顶点数目；(2)使用自适应基数树来索引边的源点，所述自适应基数树保留了索引数据的顺序用以执行区块的查询；并且当删除和增加新的节点时不需要重新平衡树和重新哈希顶点，图在部分更新时使用共享的结构的方式来实现增量的更新。

3.根据权利要求2所述的一种基于ART树分布式系统图存储计算方法，其特征在于，所述自适应分区算法模块有一组独立的哈希函数并且每一台物理服务器有一个阈值η来限制它应该被赋予的最大边的个数，并且每台物理服务器维护了一个本地分区表用来记录每个顶点以及这些顶点对应的哈希函数序号；在图数据并行加载阶段，对每条边e，首先使用第一个哈希函数散列边e的源顶点s，映射边e到物理服务器m₁，如果分配到物理服务器m₁的边的个数小于阈值η，那么将边e分配到m₁，并且边e的处理过程完成；否则，使用第二个哈希函数来散列边e的源顶点s，并且映射边e到另外一个物理服务器m₂，如果m₂的边的个数比η小，那么边e会被映射到m₂；否则通过对等推理，以顶点s为源点的边有d条边，通过用p个哈希函数将该d条边分配到各个物理服务器，每台物理服务器最多有顶点s的η条边；对每个顶点s，记录当前使用的哈希函数；在图加载完成之后，所有的本地分区表将会被写入全局分区表中，每个顶点s和它们对应的哈希函数的最大个数p以键值对(s,p)的格式存储在全局分区表中。