CN105653204A

CN105653204A - 一种基于磁盘的分布式图计算方法

Info

Publication number: CN105653204A
Application number: CN201510988839.5A
Authority: CN
Inventors: 王芳; 程永利; 冯丹; 汪修能; 张永选; 戎佳磊
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2015-12-24
Filing date: 2015-12-24
Publication date: 2016-06-08
Anticipated expiration: 2035-12-24
Also published as: CN105653204B

Abstract

本发明公开了一种基于磁盘的分布式图计算方法，该方法采用基于磁盘的分布式计算模型，用图分割算法将原始图分割成P个子图，通过N次迭代完成一个图算法作业，子图的一次执行为一个任务，共包括(P×N)个任务；一个任务包括(1)子图加载和构建；(2)子图的计算；(3)结果存储、向其它子图发送相关数据的步骤；本方法以流水的方式调度任务，通过任务之间的重叠执行，可隐藏系统执行过程中磁盘读写与通讯的时延，这种执行过程使整个系统的运行时间几乎缩短到计算时间，大大提高了系统的性能，面对不同规模的图，系统可始终保持极小的系统规模，从而大大节省系统的硬件成本。

Description

一种基于磁盘的分布式图计算方法

技术领域

本发明属于计算机技术领域，更具体地，涉及一种基于磁盘的分布式图计算方法。

背景技术

图(graph)是计算机科学中最常用的一类抽象数据结构，在结构和语义方面比线性表和树更加复杂，更具有一般性表示能力。在当今大数据的背景下，呈现出越来越多的大规模图分析应用需求；对于各种大规模图计算的应用要求，多采用计算模型处理；计算模型关系到图处理系统的硬件成本、性能、效率等重要特征，目前的图处理系统主要采用以下几种计算模型：

基于内存的大规模同步并行处理模型(BulkSynchronousParallelmodel，BSP)：把一个图计算作业(job)分为多个超步，每个超步以顶点为单位进行并行计算；在每个超步中，每个顶点(vertex)v根据它的邻居顶点在上一个超步发给它的消息来更新它自己的状态，并根据新的状态产生消息，然后把消息发送给它的邻居；每个超步结束时，系统需要执行一个高代价的同步，确保所有的消息都被成功接收；这种方式把图驻留大规模集群的内存中，目的是可以利用大规模集群的并行处理能力；但具有以下缺陷：

一是每个超步结束后，系统需要执行一个高代价的同步过程，用于顶点之间的消息交换；二是只能观察到前一个超步的计算结果，降低了计算的收敛速度，甚至有些图算法不能收敛；三是图数据顶点间的强耦合性以及图算法本身缺乏并行性的特征很难使大规模集群的并行处理能力发挥作用；四是自然图的度分布极度不均匀，即极少数顶点拥有大部分度，这些“度高”的顶点在BSP计算模型中成为一个重要的性能瓶颈，系统要等最慢的顶点计算完成后才能进行同步消息交换；因此，该模型效能较低，且随着所处理图的规模增大，这种劣势越明显。

基于内存的大规模异步并行计算模型(BulkAsynchronousParallelmodel，BAP)：BAP计算模型也以顶点为单位进行并行计算，顶点在计算过程中可以观察到本轮迭代邻居顶点的最新值；BAP计算模型取消了同步的消息交换过程，顶点在计算过程中直接更新其邻居顶点及边的值；该方法存在以下缺陷：两个顶点不能同时对同一个顶点进行更新操作，顶点间数据相关性使大规模并行处理能力得不到充分发挥，系统效能低，对于越大规模的图，系统需要越大规模的集群。

基于磁盘单节点的串行计算模型：该计算模型把图的顶点分割成多个不相连的区间(interval)，在一轮迭代中系统串行执行这多个区间；每个区间的执行分为三个阶段：(1)子图的加载与构建，(2)计算(CPU时间)，(3)保存结果；该方式节约硬件成本，系统效率很高；但是，由于每执行一个区间时，系统需要把子图从磁盘加载到内存，计算完成后又需要将结果保存到磁盘，系统的读写时间通常达到整个运行时间的90％，高昂的读写开销拉低了系统的性能。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于磁盘的分布式图计算方法，其目的在于提高大规模图处理系统的效能。

为实现上述目的，按照本发明的一个方面，提供了一种基于磁盘的分布式图计算方法；与基于内存的大规模并行图计算模型不同的是，本发明提供的基于磁盘的分布式图计算方法的每个计算节点管理多个子图，子图被存贮在磁盘；具体包括以下步骤：

(1)预处理，将图分割成P个能被装进各计算节点内存的子图；其中，P>1；

(2)通过N次迭代完成一个图计算作业；N≥1；

(3)输出结果：主节点将各计算节点的计算结果进行合并，并输出给用户。

优选地，上述步骤(2)具体包括如下子步骤：

(2.1)子图指派：主节点采用以下哈希函数将P个子图依次指派到M个计算节点；其中，M>1，M≤P；

H(s)＝smodM，s为子图s的ID号，0≤s≤P-1；

(2.2)任务指派：主节点采用以下哈希函数将(N×P)个任务依次指派到各计算节点；各计算节点把收到的任务依次放入一个任务队列；

H(t)＝tmodM，其中t为第t个任务的ID号，0≤t≤N×(P-1)；

(2.3)任务与子图关联：计算节点采用以下哈希函数关联任务队列的任务与子图；

H(t)＝tmodP，其中t为任务的ID号，H(t)为认为所关联子图的ID；

(2.4)由主节点对(N×P)个任务进行调度，向各计算节点发出“开始执行”指令；

(2.5)各计算结点取出任务，并根据该任务关联的子图构建子图数据结构，并行处理该子图的所有顶点，并按优先级发送保持数据块；

该步骤中，采用一个轻量级的集群以流水的方式执行图计算任务，各任务的计算阶段按顺序执行，而各任务的子图加载和构建与结果存储和数据发送两个阶段与其它任务的子图计算阶段并行执行；

优选地，步骤(2.5)具体包括以下子步骤：

(2.5.1)各计算节点从任务队列中取出任务，从磁盘加载该任务关联的子图，并在内存中构建该子图的数据结构；

(2.5.2)判断前一个任务的计算阶段是否完成，若是，则进入步骤(2.5.3)；若否，则等待，直到前一个任务的计算阶段完成，再进入步骤(2..5.3)；

(2.5.3)计算节点根据用户定义并行处理该子图的所有顶点；

(2.5.4)计算节点根据各子图所依赖数据块的个数设置子图的优先级，并按优先级从高到低的顺序，将子图所依赖的数据块发送给其它(P-1)个子图；

由此，优先级高的子图对应的任务可以尽可能快地结束等待过程，进入计算阶段；

(2.5.5)判断是否达到用户设定的结束条件或任务队列为空，若是，则向主结点发送本计算结点的计算结果；若否，则进入步骤(2.5.1)。

优选地，上述优先级，根据子图所依赖数据块的个数确定，子图所依赖数据块的个数越小，子图的优先级越高。

本发明中，分布式图处理方法采用的是一种基于磁盘的分布式计算模型，其中，一个有向图G＝(V，E)由顶点集合V和边集合E组成；每个顶点v(v∈V)关联一个用户定义的值；对于一条边e(u,v)而言，e是v的入边，是u的出边；每条边e被关联一个用户定义的值；

用图分割算法把原始图分割成P个子图，一个图算法作业由N次迭代组成，子图的一次执行为一个任务，共有(P×N)个任务；

一个任务的执行分三个阶段：(1)子图加载和构建；(2)子图的计算；(3)结果存储、向其它子图发送相关数据；

采用一个轻量级的集群以流水的方式执行图计算任务，各任务的计算阶段按顺序执行，任意时刻只有一台计算机处于子图的计算阶段；而每个任务的子图加载和构建阶段与结果存储和数据发送阶段与其它任务的子图计算阶段并行执行；

通过任务之间的重叠执行，可隐藏系统执行过程中磁盘读写与通讯的时延，这种执行过程使整个系统的运行时间几乎缩短到计算时间(CPU时间)，大大提高了系统的性能，其有益效果在于，面对不同规模的图，系统始终保持极小的系统规模。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、系统的硬件成本大幅降低：采用大规模并行处理模型的系统，其集群的规模随着图规模的增大而增大；本发明所提供的基于磁盘的分布式图计算方法，将图分割子图，由轻量级集群的若干台机器执行图计算任务，系统只需要少量普通计算机就能处理规模不同的图，并且随着图规模的增大系统也能保持良好的性能；

2、高性能与良好的可扩展性，本发明中，通过将任务的计算与其它任务的网络通讯以及磁盘读写进行重叠，从而使得整个作业的执行时间几乎缩短到接近于各任务的计算时间之和；

另外，与大规模同步并行处理模型相比，本发明所基于的计算模型的相邻迭代之间没有明显界限，前一轮迭代的计算阶段完成后，下一轮迭代可以立即执行计算部分；

因此，当处理不同规模图时，系统总能持续保持良好性能，而使用的机器数量却保持不变。另外，每个计算节点管理一定数量子图，子图都存储在磁盘上，任何时刻只有当前执行任务的子图加载到内存中；因此，系统所能处理图的规模取决于各计算节点硬盘容量总和；实测表明，当系统规模为14，每个worker节点安装了2个1TB的硬盘，其28TB的存储空间可以存储9000亿条边的超大规模图；

3、高效能(Efficiency)：采用下式表述效能(Efficiency)，其中，WorkLoad表示系统完成一个作业的工作量，量化为处理顶点个数的累积和；M表示系统的机器数量，Runtime表示完成该工作量所需要的时间；效能可以进一步被量化为租金(云环境下)，耗电量等，表示每投入一个单位租金或每投入一度电，系统能处理顶点的数量；本发明所提供的基于磁盘的分布式图计算方法，所基于的模型具有硬件投入低和性能高明显特点，完成相同工作量的情况下，系统的效能远远高于现有的大规模图处理系统；

4、当处理更大规模图时，采用大规模并行计算模型的图处理系统需要更多的机器；而本发明在不需要增加机器的前提下，能够保持与大规模并行计算模型相当的系统性能，图规模越大，越能发挥本发明所提供的基于磁盘的分布式图计算方法的高效能优势。

附图说明

图1是实施例中任务执行的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例中，根据本发明所基于的图计算模型建了一个图系统处理(XGraph)，由一台主节点和3台计算节点组成；其中，主节点负责任务调度、协同计算节点工作等；计算节点负责执行被指派的任务；XGraph使用LiveJournal图执行谷歌公司的网页排名算法。

在预处理阶段，原始图被分割、组织成6个子图，每个子图均可被装入各计算节点的内存；该图计算作业由2次迭代组成；每次迭代由6个任务(Task)组成，一个Task是一个子图的一次执行过程，因此该图计算作业由12个Task组成。

一个Task执行过程分为三个阶段：(1)子图加载与子图构建；(2)计算；(3)保存结果和通信；Taskt的三个阶段标记为Lt,Ct,St，0≤t≤11。例如，Task0执行过程的三个阶段标记为L0，C0，S0。

图1所示，是该实施例中任务的执行过程，具体包括以下步骤：

(1)预处理，将图分割成6子图；

(2)通过2次迭代完成一个子图计算作业，每次迭代包括子图指派、任务指派、任务与子图关联、任务调度和任务执行；

步骤(2)具体包括以下子步骤：

(2.1)子图指派：主节点用以下哈希函数把6个子图依次指派到各计算节点；

H(s)＝smod3，s为子图s的ID号，0≤s≤5；

(2.2)任务指派：主节点用以下哈希函数把12个Task依次指派到3计算节点，各计算节点把收到的任务依次放入一个任务队列；

H(t)＝tmod3，其中t为Taskt的ID号，0≤t≤11；

(2.3)将任务与子图关联：计算节点用以下哈希函数把任务队列的各任务与一个子图关联：H(t)＝tmod6，其中t为Taskt的ID号，H(t)为Taskt所关联子子图的ID，0≤t≤11；

(2.4)主节点通知各计算节点开始执行任务队列中的任务；

(2.5)各计算结点从其任务队列中取出任务，并根据该任务关联的子图构建子图数据结构，并行处理该子图的所有顶点，并按优先级发送保持数据块；具体包括以下子步骤：

(2.5.1)各计算节点从磁盘加载该任务关联的子图，并在内存中构建该子图的数据结构；

(2.5.2)判断前一个任务的计算阶段是否完成，若是，则进入步骤(2.5.3)；若否，则等待，直到前一个任务的计算阶段完成，再进入步骤(2.5.3)；

(2.5.3)计算：计算节点行处理该子图的所有顶点；各顶点的执行过程由用户自定义；

(2.5.4)发送、保存数据块：计算节点根据各子图所依赖数据块的个数设置该子图的优先级，依赖数据块的个数越小优先级越高；计算节点按优先级从高到低发送依赖数据块给其它5个子图；优先级高的子图对应的任务可尽可能快地结束等待过程，进入计算阶段；

(2.5.5)判断任务队列是否为空，若是，则向主结点发送本计算结点的计算结果；若否，则进入步骤(2.5.1)；

(3)当执行完任务队列中所有的任务后，计算节点把计算结果发送给主节点，主节点把各计算节点的计算结果进行合并，并输出给用户。

本实施例中，系统在只在3台计算结点的集群上采用LiveJournall图执行了2次迭代的谷歌网页排名算法，用时2.3秒，达到目前基于内存的图处理系统的性能。然而，所用的机器数量却明显少于基于内存的图处理系统，例如，机器数量通常只有斯坦福大学的GPS图处理系统的25％。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于磁盘的分布式图计算方法，其特征在于，包括以下步骤：

(1)将图分割成P个能被装进各计算节点内存的子图；P>1；

(2)通过N次迭代完成一个图计算作业；N≥1；

(3)主节点将各计算节点的计算结果进行合并后输出。

2.如权利要求1所述的分布式图计算方法，其特征在于，所述步骤(2)具体包括如下子步骤：

(2.1)主节点采用哈希函数H(s)＝smodM将P个子图依次指派到M个计算节点；

(2.2)主节点采用哈希函数H(t)＝tmodM把(N×P)个任务依次指派到各计算节点，各计算节点将收到的任务依次放入任务队列；

(2.3)计算节点采用哈希函数H(t)＝tmodP将任务队列里的任务与所述子图关联起来；

(2.5)各计算结点取出任务，并根据该任务关联的子图构建子图数据结构，并行处理该子图的所有顶点，按优先级发送并保存数据块；

其中，s为子图s的ID号，t为第t个任务的ID号，H(t)为任务所关联子图的ID；0≤t≤N×(P-1)，1<M≤P；0≤s≤P-1。

3.如权利要求1或2所述的分布式图计算方法，其特征在于，所述步骤(2.5)具体包括以下子步骤：

(2.5.1)各计算节点从任务队列中取出一个任务，从磁盘加载该任务所关联的子图，并在内存中构建该子图的数据结构；

(2.5.3)计算节点根据用户定义并行处理该子图的所有顶点；

4.如权利要求3所述的分布式图计算方法，其特征在于，所述优先级，根据子图所依赖数据块的个数确定，子图所依赖数据块的个数越小，子图的优先级越高。