CN111553834A

CN111553834A - 基于fpga的并发图数据预处理方法

Info

Publication number: CN111553834A
Application number: CN202010332908.8A
Authority: CN
Inventors: 李超; 王靖; 王鹏宇; 朱浩瑾; 过敏意
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-18
Anticipated expiration: 2040-04-24
Also published as: WO2021212933A1; CN111553834B

Abstract

一种基于FPGA的并发图数据预处理方法，从图数据格式信息输入集合和算法信息输入集合中提取源图数据块和图数据特征并生成图数据与图算法组合矩阵，进行的图数据格式预转换；然后根据图数据的幂律性，通过流式驱动调度确定进程分配方式后，再根据异构平台中FPGA加速器的属性参数进行匹配的数据分块与并行设计；从而实现整个并行图处理过程在FPGA上的数据预处理与调度优化的实现流程。本发明通过结合GPU和FPGA加速平台的并发调度策略，在选择最优的数据格式后通过整体预处理和调度优化得到了资源利用率和整体性能的显著提升，保证了图计算过程的高效性。

Description

基于FPGA的并发图数据预处理方法

技术领域

本发明涉及的是一种嵌入式系统数据处理领域的技术，具体是一种基于FPGA的并发图数据预处理方法。

背景技术

在大规模图计算的环境下，并发的图查询和图分析的处理常出现因数据结构不适应当前算法引发的延迟高的问题。现有的解决方案能够从单一的图计算效率、设计易于增删改查的图数据结构及优化并发调度资源共享等方面考虑解决方案，但忽略了一种图算法在处理不同的图数据时性能差异大且同一种图数据在使用多种图算法处理时也会遇到性能瓶颈，在实际应用中单一的数据结构往往不能适用大多数遇到的并发图处理问题。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于FPGA的并发图数据预处理方法，通过结合GPU和FPGA加速平台的并发调度策略，在选择最优的数据格式后通过整体预处理和调度优化得到了资源利用率和整体性能的显著提升，保证了图计算过程的高效性。

本发明是通过以下技术方案实现的：

本发明涉及一种基于FPGA的并发图数据预处理方法，从图数据格式信息输入集合和算法信息输入集合中提取源图数据块和图数据特征并生成图数据与图算法组合矩阵，进行的图数据格式预转换；然后根据图数据的幂律性，通过流式驱动调度确定进程分配方式后，再根据异构平台中FPGA加速器的属性参数进行匹配的数据分块与并行设计；从而实现整个并行图处理过程在FPGA上的数据预处理与调度优化的实现流程。

所述的并发图是指在指定时间段内，有数个针对不同数据结构的图计算应用同时等待处理的情况。

所述的图数据特征包括：数据的节点数、边数、各节点的度数。

所述的异构平台是指：主机和FPGA加速器组成的异构架构，其中：主机是指以CPU为计算核心的机器；FPGA加速器是指以FPGA为计算核心并与CPU通过PCIe交换数据的加速板卡。

所述的图数据格式预转换是指：根据并发的图数据信息D，识别其数据格式(V_s,V_d,weight)，计算图数据特征参数，即图数据D_i的节点数V_i、边数E_i、图密度

根据图数据特征参数的大小预估备选数据格式；根据算法信息确定源算法类型和算法特征参数，即算法是否待改动数据结构、算法是否全局遍历、计算模型类型并从备选数据格式中对应选择最佳数据格式。

所述的备选数据格式包括：矩阵、邻接表、Tree、链表、CSR、CSC格式。

所述的流式驱动调度是指：

i)建立图数据与图算法组合的计算矩阵C_M×N并使用P标记，其中：P为算法待数据改动标记，图数据与图算法组合的计算矩阵C_M×N中，横轴表示各个算法id，纵轴表示运行在该算法上的数据id，其中每一项C_ij表示在图数据D_i上运行图算法A_j的计算，当运行过程中图数据待改动则使用P标记表示。

ii)当算法具有标记P，加入Z调度队列，没有标记P的算法加入W调度队列，其中：Z调度队列为待数据改动的计算队列，W调度队列为不需数据改动的计算队列。

iii)对于每个算法A_j，将其数据D_i按照V_i大小将D₁～D_M变为从小到大排列D_s～D_s+m-1。

iv)根据步骤v)先调用Z中的算法，再调用W中的算法。

v)对于Z调度队列或者W调度队列中的算法序列，依次按照调度顺序，执行完当前算法A_j的所有对应数据D_i，具体为：每个数据D_s～D_s+m-1，每一个D_k进行匹配的数据分块与并行设计后再顺序处理，直到队列中所有算法的所有数据执行结束后再停止。

所述的匹配的数据分块与并行设计是指：根据FPGA加速器的内存大小、核数和最大进程数，设计对应的算法的流式处理和数据块的流式驱动调度方式，具体包括如下步骤：

①对于图数据D_i上运行图算法A_j的计算，通过D_i上计算相邻节点offset的差计算D_x上节点的最大度数deg_max和平均度数deg_avg，当图数据不够均匀或者律性大时，即deg_max>2·deg_avg，预设一个适当的度数deg₀，切割度数超过deg₀的节点为多个新的虚拟节点，直至每个新节点的度数deg_part≤deg₀。

②当图数据D_i的边数大于FPGA加速器的内存main memory时，即E_i>f₂时，根据f₂的值将数据平均分块，预设参数0<α<1，使得每一个数据块的大小E_i/p<α·f₂，其中：函数中main memory的大小由参数f₂表示，E_i/p代表每个数据块的大小。

③给定的算法A_j，通过预估待占用的逻辑资源面积设计f3和f4的值，f3≥N，其中在板上顺序分配部署完全并行的每个算法A_j，并且按照算法P5的顺序部署算法。其中：参数f3代表FPGA上的执行内核数，参数f4代表并行执行的pipeline个数。

技术效果

本发明整体解决了一次性自动化处理多个算法上的多个数据集，自动转换图数据格式并进行数据划分的技术问题。本发明系统地考虑图数据格式、不同的调度模式以适应异构计算环境，使得到来的图计算任务在并发的状态下能够自动调整数据格式与调度顺序，以保证任务稳定、可靠、高效的运行。本发明能够通过图数据的分块和数据格式识别转换。在每一批算法和数据到来之时，对每一项数据都会先进行预处理并且判断当前算法适应于哪一种数据格式，提前的转换和识别能够提高并发图处理效率，降低图数据读取和修改的开销。

与现有技术相比，本发明显著提升FPGA处理并发图计算效率和并发调度队列的优化，以及使用因地制宜的图数据结构以及对数据的划分所带来的内存访问命中率的提升。

附图说明

图1为本发明系统结构示意流程图；

图2为本发明中根据图数据特征评估备选的数据格式的算法流程图；

图3为本发明中根据算法特征选择性转换数据格式的算法流程图；

图4为本发明中在FPGA上的并发图规划调度顺序的算法流程图；

图5为本发明中在FPGA上的数据分块与并行设计的算法流程图。

具体实施方式

如图1所示，为本实施例涉及的一种基于FPGA的并发图数据预处理方法，包括如下步骤：

步骤1)根据数据信息D，该策略识别源数据格式，默认为三元组(V_s,V_d,weight)，并计算图数据信息D相关特征参数，包括图数据节点数V_i，边数E_i，密度

步骤2)根据步骤1)中的图数据特征信息，预估备选的数据格式，该数据格式包括矩阵，邻接表、Tree、链表、CSR或CSC格式。

所述的预估备选具体步骤包括：

2.1)计算图数据信息D相关特征参数，包括图数据节点数V_i，边数E_i，密度

2.2)将计算出的密度ρ_i和与预设的ρ₀比较，当ρ_i<ρ₀，则使用源数据的三元组格式。

2.3)当ρ_i≥ρ₀，则比较节点数V_i和预设的V₀，当V_i<V₀，则使用二维矩阵的方式存储。

2.4)预设n值，当V_i≥V₀且V_i<n·V₀，则数据格式采用邻接表、Tree、链表、CSR或CSC格式，并根据下一步算法具体确定要转换的数据格式。

步骤3)根据算法信息A，确定算法特征参数。该策略需确定源算法类型，提供算法特征参数，包括算法是否需要改动数据结构，算法是否全局遍历，计算模型为pull或push。

步骤4)根据步骤1)中的图数据节点数V_i、步骤2)中的预估备选数据格式、步骤3)中的算法特征参数进行图数据格式转换，具体步骤包括：

4.1)当算法需要改动数据结构，则按照以下要求转换数据格式。

4.1.1)当V_i≥V₀且V_i<n·V₀，数据格式采用邻接表、Tree、自定义链表、CSR时，图数据格式选择Tree式。

4.1.2)当V_i≥n·V₀，数据格式采用邻接表、CSR、CSC格式时，图数据格式选择自定义链表Dolha式。

4.2)当算法不需要改动数据结构，判断算法是否需要全局遍历，按照以下条件进行数据格式转换。

4.2.1)当不需要全局遍历，数据格式选为邻接表格式。

4.2.2)当需要全局遍历且V_i≥V₀，则判断算法计算模型为push或pull。

4.2.3)判断算法计算模型时，当为push则使用CSC格式，当为push则使用CSR格式。

步骤5)如图4所示，根据并发的图数据与算法的组合运行矩阵C_M×N，针对FPGA加速器确定并行设计调度顺序，确定进程分配方式，具体步骤包括：

5.1)用P标记图数据与图算法组合矩阵C_M×N中所有待改动数据结构的算法。

5.2)当算法具有标记P，加入Z队列，没有标记P的算法加入W队列。

5.3)对于每个A_j，按照V_i大小将D₁～D_M变为从小到大排列D_s～D_s+m-1。

5.4)以算法流为主线，数据流为驱动，先调用Z中的算法，再调用W中的算法。

5.5)对于Z中的算法，从D_s～D_s+m-1，每一个D_k根据步骤6)分块后再流式处理。

5.6)对于W中的算法，从D_s～D_s+m-1，每一个D_k根据步骤6)分块后再流式处理。

步骤6)如图5所示，根据异构平台FPGA加速器H的加速器类型，共享内存大小，内核数量，最大进程数进行数据分块，实例化步骤5)所述的并行设计调度顺序和进程分配，具体步骤包括：

6.1)算法A_j在数据D_x上，计算D_x上节点的最大度数deg_max和平均度数deg_avg，当deg_max>2·deg_avg，说明图数据不够均匀(幂律性大，)预设deg₀，切割大度数的节点，使得deg_part≤deg₀。

6.2)当边数大于所给的FPGA片上寄存器中SRAM的大小，即E_i>f₂时，根据sharememory大小f₂将数据分块，预设参数0<α<1，使得E_i/p<α·f₂。

6.3)按照f4分配完全并行的Y任务组，按照f3分配X任务组。

6.4)算法A_j在数据D_x上，当边数大于所给的FPGA片上寄存器中SRAM的大小，即E_i>f₂时，预设参数0<α<1，使得E_i/p<α·f₂。

6.5)按照内核数f3和最大进程数f4，按照算法P5顺序分配W和Z队列中的算法。

经过具体实际实验，在的Xilinx Alveo U200板卡+具体环境设置下，以算法为BFS、PageRank、SSSP作为算法输入，SNAP上的标准图数据节点0.7M到4.85M不等，边的个数从5M到69M不等，采用了4个算法并行处理两个数据集，运行上述方法，能够得到的比逐个部署并运行缩短大量的编译与部署时间。

与现有技术相比，本方法使用自适应的数据结构转换，并通过并发调度，缩短开发部署编译的时间。同时能够尽可能使用已有带宽以提升吞吐量。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于FPGA的并发图数据预处理方法，其特征在于，从图数据格式信息输入集合和算法信息输入集合中提取源图数据块和图数据特征并生成图数据与图算法组合矩阵，进行的图数据格式预转换；然后根据图数据的幂律性，通过流式驱动调度确定进程分配方式后，再根据异构平台中FPGA加速器的属性参数进行匹配的数据分块与并行设计；从而实现整个并行图处理过程在FPGA上的数据预处理与调度优化的实现流程；

所述的图数据特征包括：数据的节点数、边数、各节点的度数；

所述的图数据格式预转换是指：根据并发的图数据信息D，识别其数据格式(V_s，V_d，weight)，计算图数据特征参数，即图数据D_i的节点数V_i、边数E_i、图密度

根据图数据特征参数的大小预估备选数据格式；根据算法信息确定源算法类型和算法特征参数，即算法是否待改动数据结构、算法是否全局遍历、计算模型类型并从备选数据格式中对应选择最佳数据格式；

2.根据权利要求1所述的基于FPGA的并发图数据预处理方法，其特征是，所述的流式驱动调度是指：

i)建立图数据与图算法组合的计算矩阵C_M×N并使用P标记，其中：P为算法待数据改动标记，图数据与图算法组合的计算矩阵C_M×N中，横轴表示各个算法id，纵轴表示运行在该算法上的数据id，其中每一项C_ij表示在图数据D_i上运行图算法A_j的计算，当运行过程中图数据待改动则使用P标记表示；

ii)当算法具有标记P，加入Z调度队列，没有标记P的算法加入W调度队列，其中：Z调度队列为待数据改动的计算队列，W调度队列为不需数据改动的计算队列；

iii)对于每个算法A_j，将其数据D_i按照V_i大小将D₁～D_M变为从小到大排列D_s～D_s+m-1；

iv)根据步骤v)先调用Z中的算法，再调用W中的算法；

3.根据权利要求1所述的基于FPGA的并发图数据预处理方法，其特征是，所述的匹配的数据分块与并行设计是指：根据FPGA加速器的内存大小、核数和最大进程数，设计对应的算法的流式处理和数据块的流式驱动调度方式，具体包括如下步骤：

①对于图数据D_i上运行图算法A_j的计算，通过D_i上计算相邻节点offset的差计算D_x上节点的最大度数deg_max和平均度数deg_avg，当图数据不够均匀或者律性大时，即deg_max＞2·deg_avg，预设一个适当的度数deg₀，切割度数超过deg₀的节点为多个新的虚拟节点，直至每个新节点的度数deg_part≤deg₀；

②当图数据D_i的边数大于FPGA加速器的内存main memory时，即E_i＞f₂时，根据f₂的值将数据平均分块，预设参数0＜α＜1，使得每一个数据块的大小E_i/p＜α·f₂，其中：函数中mainmemory的大小由参数f₂表示，E_i/p代表每个数据块的大小；

③给定的算法A_j，通过预估待占用的逻辑资源面积设计f3和f4的值，f3≥N，其中在板上顺序分配部署完全并行的每个算法A_j，并且按照算法P5的顺序部署算法；其中：参数f3代表FPGA上的执行内核数，参数f4代表并行执行的pipeline个数。

4.根据权利要求1所述的基于FPGA的并发图数据预处理方法，其特征是，所述的预估备选包括：

2.2)将计算出的密度ρ_i和与预设的ρ₀比较，当ρ_i＜ρ₀，则使用源数据的三元组格式；

2.3)当ρ_i≥ρ₀，则比较节点数V_i和预设的V₀，当V_i＜V₀，则使用二维矩阵的方式存储；

2.4)预设n值，当V_i≥V₀且V_i＜n·V₀，则数据格式采用邻接表、Tree、链表、CSR或CSC格式，并根据下一步算法具体确定要转换的数据格式。

5.根据权利要求1所述的基于FPGA的并发图数据预处理方法，其特征是，所述的图数据格式转换，具体步骤包括：

4.1)当算法需要改动数据结构，则按照以下要求转换数据格式；

4.1.1)当V_i≥V₀且V_i＜n·V₀，数据格式采用邻接表、Tree、自定义链表、CSR时，图数据格式选择Tree式；

4.1.2)当V_i≥n·V₀，数据格式采用邻接表、CSR、CSC格式时，图数据格式选择自定义链表Dolha式；

4.2)当算法不需要改动数据结构，判断算法是否需要全局遍历，按照以下条件进行数据格式转换；

4.2.1)当不需要全局遍历，数据格式选为邻接表格式；

4.2.2)当需要全局遍历且V_i≥V₀，则判断算法计算模型为push或pull；

6.根据权利要求2所述的基于FPGA的并发图数据预处理方法，其特征是，所述的调度顺序，通过以下方式实现：

5.1)用P标记图数据与图算法组合矩阵C_M×N中所有待改动数据结构的算法；

5.2)当算法具有标记P，加入Z队列，没有标记P的算法加入W队列；

5.3)对于每个A_j，按照V_i大小将D₁～D_M变为从小到大排列D_s～D_s+m-1；

5.4)以算法流为主线，数据流为驱动，先调用Z中的算法，再调用W中的算法；

5.5)对于Z中的算法，从D_s～D_s+m-1，每一个D_k根据数据分块后再流式处理；

5.6)对于W中的算法，从D_s～D_s+m-1，每一个D_k根据数据分块后再流式处理。

7.根据上述任一权利要求所述的基于FPGA的并发图数据预处理方法，其特征是，所述的数据分块，通过以下方式实现：

6.1)算法A_j在数据D_x上，计算D_x上节点的最大度数deg_max和平均度数deg_avg，当deg_max＞2·deg_avg时，通过预设deg₀切割大度数的节点，使得deg_part≤deg₀；

6.2)当边数大于所给的FPGA片上寄存器中SRAM的大小，即E_i＞f₂时，根据share memory大小f₂将数据分块，预设参数0＜α＜1，使得E_i/p＜α·f₂；

6.3)按照f4分配完全并行的Y任务组，按照f3分配X任务组；

6.4)算法A_j在数据D_x上，当边数大于所给的FPGA片上寄存器中SRAM的大小，即E_i＞f₂时，预设参数0＜α＜1，使得E_i/p＜α·f₂；