CN113419861B

CN113419861B - 一种面向gpu卡群的图遍历混合负载均衡方法

Info

Publication number: CN113419861B
Application number: CN202110749977.3A
Authority: CN
Inventors: 罗鑫; 吴冬冬
Original assignee: Beijing Ruixin High Throughput Technology Co ltd
Current assignee: Beijing Zhongke Flux Technology Co ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2023-10-24
Anticipated expiration: 2041-07-02
Also published as: CN113419861A

Abstract

本发明公开了一种面向GPU卡群的图遍历混合负载均衡方法，用于解决大规模图数据处理中存在的负载不均衡问题，在图数据划分过程中，先对图数据中的顶点按照度进行排序并重编号，之后使用优化的静态shuffle方案进行划分，以保证划分后的子图节点和边所携带的信息量相近。在子图遍历过程中，Top‑Down算法中使用基于边粒度的动静混合负载划分方案，Bottom‑Up算法中使用度排序、顶点边表排序和度感知等方法，以解决图数据遍历中的数据不规则、局部性差、负载不均衡等问题。通过使用多种混合负载均衡方案，能够显著提升GPU卡群上图遍历的性能。

Description

一种面向GPU卡群的图遍历混合负载均衡方法

技术领域

本发明涉及大数据处理领域，具体而言，涉及一种面向GPU卡群的图遍历混合负载均衡方法。

背景技术

随着大数据时代的到来，图数据的关联分析已被广泛应用于多个领域，例如社交网络关系挖掘、医疗数据查询、蛋白质序列分析等。图数据可以很好地表达事物之间复杂的依赖关系，故现实生活中的很多问题都能抽象成图数据进行处理，这使得图数据的处理及优化技术备受关注，成为海量数据处理的研究重点。

宽度优先搜索(Breadth First Search，BFS)算法是解决图应用问题的基础算法。其遍历的方式包括“自上而下(Top-Down)”和“自下而上(Buttom-Up)”两种，“自上而下”即从已遍历的节点(父节点)出发，扩展遍历未访问的邻边节点(子节点)，“自下而上”则从未遍历的节点(子节点)出发，扩展确定其父节点是否在上层访问节点中，如果在，则将其加入到当前层遍历节点中。在当前层节点数较少的情况下使用Top-Down算法，在未访问节点较少的情况下使用Bottom-Up算法，能够显著提高图遍历的性能。

尽管如此，图遍历在通用的CPU(Central Processing Unit)平台下仍然存在数据依赖性强、访存不规则、并行效率差等问题，难以获得较好性能。而异构并行平台GPU(Graphics Processing Unit)由于性能功耗比较CPU更好，故更多的图计算研究集中在GPU上。GPU拥有数千万个计算核心，而图数据遵循幂律分布，顶点间度数差异大，这使得如何解决GPU上图遍历的负载均衡成为难题。此外，随着图数据规模的不断增长，单GPU下图数据的处理已经不能满足现实需求。而多GPU下，大规模图数据的划分会造成一定的负载不均衡。综上，如何降低GPU卡群上图数据处理的负载不均衡，进一步提升图数据遍历的性能，显然成为近年来研究的重点。

为解决GPU卡群上大规模图数据遍历中存在的负载不均衡问题，相关领域专业人士提出了多种解决方案。这些方案，其核心是围绕“图数据划分”和“图数据的遍历”两个过程展开。

对于“图数据划分”而言，当前主要基于顶点执行划分。如何划分顶点，使得分配到各子图中的边和顶点数据量相近，显得至关重要。对此，业界人士先后提出了以下如图1a-图1c所示的几种划分方式：图1a所示为“基于原始顶点直接划分”方案，图1b所示为“基于排序重编号的顶点，随机抽取划分”方案，图1c所示为“基于排序重编号后的顶点，使用静态shuffle方案进行划分”方案。其中，图1a和图1b的方案具有一定的随机性，不能从根本上解决图数据划分带来的负载不均衡问题。图1c的方案显然较前两种能够减少图数据划分造成的负载不均衡问题，但该方案在数据选择中使用一致的shuffle方式，将图数据按照统一规则进行划分，这在一定程度上还会导致小部分的负载不均衡，同时该方案只在高通量集群上得到了应用，而未在GPU集群上得到应用。

另外，当前在GPU上图数据的遍历，多数基于图的顶点数来分配线程数，但图数据的幂律性使得GPU上图数据的处理中存在严重的负载不均衡。对此，Sabet等人为解决GPU上图数据处理中存在的负载不均衡问题，提出了CSR的变换结构——虚图，通过转换后图内每个虚节点的度数都能维持在一定的数K以下，保证每个顶点的负载相近，并通过开启固定的线程进行处理。Liu等人提出针对顶点出度进行分类，形成四种级别的队列，分别为Smallqueue、Middle queue、Large queue、Exterme queue，不同队列的图数据在遍历过程中，使用GPU上不同的线程级别Thread，Warp，CTA，Grid进行处理。

上述Sabet和Liu等人提出的两种方案都能在一定程度上解决GPU上图遍历存在的负载不均衡问题，但是，这两种方案都存在一定的缺陷，具体为：

Sabet的方案中，构建虚图的过程中，会增加图数据对内存的需求，造成冗余的访存开销；

Liu的方案中，基于顶点出度进行分类并分配不同级别线程进行处理过程中，需多次启动kernel并进行同步，同时，在遍历过程中需要扫描所有顶点的状态来生成下层队列，这会带来额外的访存计算开销。

发明内容

本发明提供一种面向GPU卡群的图遍历混合负载均衡方法，用以克服上述现有技术存在的不足。

为达到上述目的，本发明提供了一种面向GPU卡群的图遍历混合负载均衡方法，其包括以下步骤：

S1:生成一图数据；

S2:将图数据加载至GPU卡群，并且将图数据以CSR的格式存储在GPU显存中；

S3:删除图数据中度为零的节点，对图数据中的节点进行重新编号；

S4:删除图数据中冗余的边；

S5:对图数据中顶点的边节点进行排序，以及对图数据中的顶点按照度的大小进行排序；

S6:对图数据依次进行正向混洗和反向混洗，其中，在Top-Down算法中使用列划分的图数据，在Bottom-Up算法中使用行划分的图数据；

S7:对GPU卡群节点上的子图数据进行遍历，其中，当前层节点数较少时，使用Top-Down遍历方法进行遍历，当节点数逐渐增多时，则切换为使用度感知的Bottom-Up遍历方法进行遍历，随着当前层点数的减少，再切换为Bottom-Up遍历方法或Top-Down遍历方法，

Top-Down遍历方法中，使用基于边粒度的动态负载划分和静态负载划分，动态负载划分和静态负载划分依据顶点的数目以及边数进行切换，

动态负载划分的过程中，首先依据顶点数目创建主Kernel，之后根据节点的边度数和当前Kernel的数目决定是否启动子Kernel，若为是，则启动子Kernel执行节点邻居搜索，若为否，则执行节点邻居搜索，执行完上述步骤后，搜索并筛选状态为未访问的邻居节点并扩展到下层队列

静态负载划分的过程中，计算边界顶点度的前缀和数组，然后将需要处理的边划分到每个线程块，线程通过二分搜索定位所属的顶点，以实现邻接点的搜索与扩展，

Bottom-Up遍历方法中，采用对顶点进行度排序和度感知的方式进行，以使得顶点度相近的频繁访问邻居节点在搜索过程中能够提前停止；

S8:图数据的每一层遍历后，对GPU卡群上的内部节点进行数据同步，数据同步过程中，基于Cuda-Aware的Openmpi实现GPU节点间数据的通信，

Top-Down遍历方法中，每层数据遍历后，同步各个子图的nextFrontier，数据通信使用MPI_Allgatherv实现，

Bottom-Up遍历方法中，每层数据遍历后，对bitNext信息进行同步，数据通信使用MPI_Allgather实现，

每层遍历后，统计节点总数，使用MPI_Allreduce、MPI_Allgather进行同步。

在本发明的一实施例中，所述图数据是基于Graph500基础测试程序生成并且所述图数据中的边与顶点比例为16。

本发明为解决GPU卡群上，大规模图数据处理中存在的负载不均衡问题，提出在图数据划分过程中，先对图数据中的顶点按照度进行排序并重编号，之后使用优化的静态shuffle方案进行划分，以保证划分后的子图节点和边所携带的信息量相近。在子图遍历过程中，Top-Down算法中使用基于边粒度的动静混合负载划分方案，Bottom-Up算法中使用度排序、顶点边表排序和度感知等方法，以解决图数据遍历中的数据不规则、局部性差、负载不均衡等问题。通过使用多种混合负载均衡方案，能够显著提升GPU卡群上图遍历的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为图数据划分的“基于原始顶点直接划分”方案；

图1b为图数据划分的“基于排序重编号的顶点，随机抽取划分”方案；

图1c为图数据划分的“基于排序重编号后的顶点，使用静态shuffle方案进行划分”方案；

图2a为静态shuffle划分方案示意图；

图2b为优化shuffle划分方案示意图；

图3为优化的混合BFS算法的示意图；

图4为Top-Down动态负载划分的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种面向GPU卡群的图遍历混合负载均衡方法，其包括以下步骤：

S1:生成一图数据；

由于原始图数据中存在一部分度为零的顶点，这些顶点在图数据遍历过程中不会被访问到，如果保存在图数据中，在Bottom-Up遍历方法过程中，会增加不必要的状态检测，故此处需要删除度为零的点，并进行重编号。

S4:删除图数据中冗余的边；

删除度为零的图数据中，仍会存在重复的边，这些冗余的边会增加冗余的数据访问，故需要将其删除。

Bottom-Up遍历方法中，充分考虑提高图数据的数据局部性和高频繁访问顶点聚集在数组中索引值小的位置能够提高缓存等特性，需对图数据中顶点的边节点进行排序，同时也需对顶点按度进行排序。

以上S1-S5步骤为对图数据进行预处理，要实现在GPU卡群上处理大规模图数据，需对图数据进行划分。在图数据划分中，充分考虑划分过程的负载均衡以及子图遍历的性能，本发明使用优化的静态shuffle方案和基于行与列的双向一维图数据划分。优化的静态shuffle方案，充分考虑到先前静态shuffle中存在的问题，在划分中，先正向进行shuffle，然后在反向进行shuffle即可。其对应shuffle方案如图2a、图2b所示。而数据一维划分中，考虑子图使用Top-Down和Bottom-Up算法遍历中的独立性，本发明Top-Down算法使用列划分的图数据，Bottom-Up算法使用行划分的图数据。

以上对子图数据进行遍历的过程使用的是优化的混合BFS算法，如图3所示为优化的混合BFS算法的示意图。

子图遍历需要解决GPU上图数据处理中存在的负载不均衡问题，为此，Top-Down遍历方法中，使用基于边粒度的动态负载划分和静态负载划分，动态负载划分和静态负载划分依据顶点的数目以及边数进行切换，

动态负载划分的过程中，首先依据顶点数目创建主Kernel，之后根据节点的边度数和当前Kernel的数目决定是否启动子Kernel，若为是，则启动子Kernel执行节点邻居搜索，若为否，则执行节点邻居搜索，执行完上述步骤后，搜索并筛选状态为未访问的邻居节点并扩展到下层队列，如图4所示为Top-Down动态负载划分的示意图；

静态负载划分的过程中，是以边为粒度进行划分，计算边界顶点度的前缀和数组，然后将需要处理的边划分到每个线程块，线程通过二分搜索定位所属的顶点，以实现邻接点的搜索与扩展，

Bottom-Up遍历方法中，为了提高单个GPU资源的利用率，采用对顶点进行度排序和度感知的方式进行，以使得顶点度相近的频繁访问邻居节点在搜索过程中能够提前停止，从而减少访问和计算冗余，提高图遍历性能；

Top-Down遍历方法中，每层数据遍历后，同步各个子图的nextFrontier，由于子图的nextFrontier长度不等，故数据通信使用MPI_Allgatherv实现，

本发明中，所述图数据是基于Graph500基础测试程序生成并且所述图数据中的边与顶点比例为16。

本发明中，步骤S6中，前期图数据的划分可以使用基于块的二维数据划分代替双向一维数据划分。步骤S8中，也可以使用P2P通信方式代替MPI通信。

本发明通过使用多种负载均衡方案，能使GPU卡群上负载更均衡，硬件资源利用更合理，从而显著提升图遍历的性能。这对使用图应用算法高效、准确地解决实际问题具有重要意义。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种面向GPU卡群的图遍历混合负载均衡方法，其特征在于，包括以下步骤：

S1:生成一图数据；

S4:删除图数据中冗余的边；

动态负载划分的过程中，首先依据顶点数目创建主Kernel，之后根据节点的边度数和当前Kernel的数目决定是否启动子Kernel，若为是，则启动子Kernel执行节点邻居搜索，若为否，则执行节点邻居搜索，执行完上述步骤后，搜索并筛选状态为未访问的邻居节点并扩展到下层队列；

2.根据权利要求1所述的面向GPU卡群的图遍历混合负载均衡方法，其特征在于，所述图数据是基于Graph500基础测试程序生成并且所述图数据中的边与顶点比例为16。