CN110187968A

CN110187968A - 异构计算环境下的图数据处理加速方法

Info

Publication number: CN110187968A
Application number: CN201910428567.1A
Authority: CN
Inventors: 李超; 王鹏宇; 张路; 过敏意; 朱浩瑾
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-08-30
Anticipated expiration: 2039-05-22
Also published as: CN110187968B

Abstract

一种异构计算环境下的图数据处理加速方法，通过对顶点数据迭代地进行工作项转换、图数据处理、收敛判断更新以实现加速处理，其中：工作项转换是指将待处理顶点动态分配至至少一个GPU线程；图数据处理的起始阶段，将GPU上运行的顶点为中心的遍历函数所有分配的顶点数据读取并暂存入共享内存。本发明能够在相同硬件平台上显著提升图数据处理的性能，包括提高GPU缓存命中率和GPU内存吞吐量，以及减少整体运行时间。

Description

异构计算环境下的图数据处理加速方法

技术领域

本发明涉及的是一种图形处理领域的技术，具体是一种异构计算环境下的图数据处理加速方法。

背景技术

图算法是运筹学、推荐系统、数据挖掘、网络安全等众多领域应用的关键计算任务。在大数据时代，图数据规模越来越大，对其进行快速、低成本地处理至关重要。图形处理器(GPU)因其大规模并行和高内存带宽等特点，可被用来作为图数据处理的加速器。

现有针对多GPU的图算法虽然能够进行并行处理(例如：一种基于多GPU的图数据处理系统及方法)，但这类技术无法很好的解决处理度数不同的顶点的负载均衡问题，使得不同的数据集和算法无法实现最优化适配，导致运算效率无法满足需求。

发明内容

本发明针对现有技术存在的上述不足，提出一种异构计算环境下的图数据处理加速方法，能够在相同硬件平台上显著提升图数据处理的性能，包括提高GPU缓存命中率和GPU内存吞吐量，以及减少整体运行时间。

本发明是通过以下技术方案实现的：

本发明涉及一种异构计算环境下的图数据处理加速方法，通过对顶点数据迭代地进行工作项转换、图数据处理、收敛判断更新以实现加速处理，其中：工作项转换是指将待处理顶点动态分配至至少一个GPU线程；图数据处理的起始阶段，将GPU上运行的顶点为中心的遍历函数所有分配的顶点数据读取并暂存入共享内存。

所述的动态分配，根据出度数组中顶点的出度大小与预设的度数阈值的比值，动态地将待处理顶点分配给至少一个GPU线程进行处理，其中出度为有向图中各顶点的指向其他顶点的边的数目，度数阈值K通常指派为10，以便可高效地处理常见的图数据。

所述的动态分配具体为：

①分配工作集和虚拟工作集的空间，工作集对应图处理算法激活的顶点，虚拟工作集对应各GPU线程待处理的工作项。

②在每次图数据处理的起始阶段，通过转换函数将工作集的顶点根据固定的度数阈值K转化为虚拟工作项，其中：一个顶点的出度为d，是向上取整操作。

所述的共享内存中，各线程的存储地址起点由线程的序号和一致顶点划分的度数阈值的乘积决定，即将某个工作项的出边信息存入当前线程块的共享内存的a*K到a*K+K的位置，其中：a为一个线程的线程块内序号。

附图说明

图1为本发明系统整体流程图；

图2为本发明每轮迭代示意图；

图3为本发明工作集到虚拟工作集转换过程示意图；

图中：转换过程的主体为GPU线程；

图4为本发明共享内存预取示意图；

图中：过程的主体为GPU线程。

具体实施方式

本实施例涉及一种使用工作集和虚拟工作集辅助迭代过程，通过工作集指示每轮迭代待处理的顶点，采用虚拟工作集指示每轮迭代中各GPU线程要处理的虚拟工作项，工作集和虚拟工作集支持插入元素、初始化等操作。

所述的虚拟工作项包括：顶点序号、出边索引的起始位置。

所述的工作集和虚拟工作集预先空间大小为顶点数目的常数倍大小，此常数为其中d′为图数据的所有顶点出度的平均值。

如图1所示，本实施例具体包括以下步骤：

步骤1：从内存或磁盘中读取图数据；

步骤2：将读取图数据转化为Compressed Sparse Row(CSR)格式；

步骤3：将数据转移到GPU端；

步骤4：如图2所示，进行迭代过程，具体包括：

步骤4.1：将工作集转换为虚拟工作集，每一工作集中工作项转化出的虚拟工作项的数目为所有产生的虚拟工作项加入虚拟工作集，其中：表示向上取整操作。

步骤4.2：根据虚拟工作集的大小启动GPU端的处理函数，当虚拟工作集的大小为m，预定义的线程块大小为s，则GPU核函数启动参数为<<<m/s+1，s>>>，其中：<<<>>>中数字表示线程块个数和线程块大小。

步骤4.3：检查工作集的大小，当工作集为空，则迭代已完成；否则返回步骤1进行下一轮迭代。

如图3所示，为工作集到虚拟工作集转换过程，该过程的主体为GPU线程，具体包括：

步骤4.1.1：检查处理顶点的出度大小，当出度为0则结束。

步骤4.1.2：确定转换的虚拟工作项个数n，其中

步骤4.1.3：当当前虚拟工作集的个数为m，则采用原子操作将其更新为m+n。

步骤4.1.4：将n个虚拟工作项放入虚拟工作集的m到m+n-1的位置。

如图4所示，为共享内存预取过程，该过程的主体为GPU线程，具体包括：

步骤4.2.1：根据各线程序号计算地址偏移量。

步骤4.2.2：将虚拟工作项的出边读入共享内存，地址为地址偏移量

步骤4.2.3：依据目标算法，依次处理各出边。

步骤5：待迭代收敛后，将结果传输回CPU端。

本实施例上述方法在一个配备Intel Xeon E5-2620 CPU,128GB内存和NVIDIAGTX1080Ti GPU的服务器环境下，以K＝10为参数、运行BFS算法，使用上述方法处理常用的LiveJournal数据集，所得到的结果为：包括数据从CPU转移到GPU和GPU端图数据处理的总时间为60ms，与最新的单GPU加速系统Tigr相比，实现了1.7倍加速比。与现有技术相比，本方法显著提高了GPU cache和内存吞吐量。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种异构计算环境下的图数据处理加速方法，其特征在于，通过对顶点数据迭代地进行工作项转换、图数据处理、收敛判断更新以实现加速处理，其中：工作项转换是指将待处理顶点动态分配至至少一个GPU线程；图数据处理的起始阶段，将GPU上运行的顶点为中心的遍历函数所有分配的顶点数据读取并暂存入共享内存。

2.根据权利要求1所述的方法，其特征是，所述的动态分配，根据出度数组中顶点的出度大小与预设的度数阈值的比值，动态地将待处理顶点分配给至少一个GPU线程进行处理，其中出度为有向图中各顶点的指向其他顶点的边的数目，度数阈值K通常指派为10，以便可高效地处理常见的图数据。

3.根据权利要求1或2所述的方法，其特征是，所述的动态分配具体为：

①分配工作集和虚拟工作集的空间，工作集对应图处理算法激活的顶点，虚拟工作集对应各GPU线程待处理的工作项；

4.根据权利要求3所述的方法，其特征是，所述的共享内存中，各线程的存储地址起点由线程的序号和一致顶点划分的度数阈值的乘积决定，即将某个工作项的出边信息存入当前线程块的共享内存的a*K到a*K+K的位置，其中：a为一个线程的线程块内序号。

5.根据权利要求3所述的方法，其特征是，所述的度数阈值K为10。

6.根据权利要求1所述的方法，其特征是，所述的工作项转换，具体包括：

步骤4.1.1：检查处理顶点的出度大小，当出度为0则结束；

步骤4.1.2：确定转换的虚拟工作项个数n，其中

步骤4.1.3：当当前虚拟工作集的个数为m，则采用原子操作将其更新为m+n；

7.根据权利要求1所述的方法，其特征是，所述的暂存，具体包括：

步骤4.2.1：根据各线程序号计算地址偏移量；

步骤4.2.2：将虚拟工作项的出边读入共享内存，地址为地址偏移量；

步骤4.2.3：依据目标算法，依次处理各出边。