CN111553834A - 基于fpga的并发图数据预处理方法 - Google Patents
基于fpga的并发图数据预处理方法 Download PDFInfo
- Publication number
- CN111553834A CN111553834A CN202010332908.8A CN202010332908A CN111553834A CN 111553834 A CN111553834 A CN 111553834A CN 202010332908 A CN202010332908 A CN 202010332908A CN 111553834 A CN111553834 A CN 111553834A
- Authority
- CN
- China
- Prior art keywords
- data
- algorithm
- graph
- graph data
- fpga
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000007781 pre-processing Methods 0.000 title claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 116
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims abstract description 15
- 238000013461 design Methods 0.000 claims abstract description 11
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 238000000638 solvent extraction Methods 0.000 claims abstract description 5
- 238000009826 distribution Methods 0.000 claims abstract description 3
- 230000000903 blocking effect Effects 0.000 claims description 7
- 238000005520 cutting process Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 2
- 230000001133 acceleration Effects 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Devices For Executing Special Programs (AREA)
- Complex Calculations (AREA)
Abstract
一种基于FPGA的并发图数据预处理方法,从图数据格式信息输入集合和算法信息输入集合中提取源图数据块和图数据特征并生成图数据与图算法组合矩阵,进行的图数据格式预转换;然后根据图数据的幂律性,通过流式驱动调度确定进程分配方式后,再根据异构平台中FPGA加速器的属性参数进行匹配的数据分块与并行设计;从而实现整个并行图处理过程在FPGA上的数据预处理与调度优化的实现流程。本发明通过结合GPU和FPGA加速平台的并发调度策略,在选择最优的数据格式后通过整体预处理和调度优化得到了资源利用率和整体性能的显著提升,保证了图计算过程的高效性。
Description
技术领域
本发明涉及的是一种嵌入式系统数据处理领域的技术,具体是一种基于FPGA的并发图数据预处理方法。
背景技术
在大规模图计算的环境下,并发的图查询和图分析的处理常出现因数据结构不适应当前算法引发的延迟高的问题。现有的解决方案能够从单一的图计算效率、设计易于增删改查的图数据结构及优化并发调度资源共享等方面考虑解决方案,但忽略了一种图算法在处理不同的图数据时性能差异大且同一种图数据在使用多种图算法处理时也会遇到性能瓶颈,在实际应用中单一的数据结构往往不能适用大多数遇到的并发图处理问题。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于FPGA的并发图数据预处理方法,通过结合GPU和FPGA加速平台的并发调度策略,在选择最优的数据格式后通过整体预处理和调度优化得到了资源利用率和整体性能的显著提升,保证了图计算过程的高效性。
本发明是通过以下技术方案实现的:
本发明涉及一种基于FPGA的并发图数据预处理方法,从图数据格式信息输入集合和算法信息输入集合中提取源图数据块和图数据特征并生成图数据与图算法组合矩阵,进行的图数据格式预转换;然后根据图数据的幂律性,通过流式驱动调度确定进程分配方式后,再根据异构平台中FPGA加速器的属性参数进行匹配的数据分块与并行设计;从而实现整个并行图处理过程在FPGA上的数据预处理与调度优化的实现流程。
所述的并发图是指在指定时间段内,有数个针对不同数据结构的图计算应用同时等待处理的情况。
所述的图数据特征包括:数据的节点数、边数、各节点的度数。
所述的异构平台是指:主机和FPGA加速器组成的异构架构,其中:主机是指以CPU为计算核心的机器;FPGA加速器是指以FPGA为计算核心并与CPU通过PCIe交换数据的加速板卡。
所述的图数据格式预转换是指:根据并发的图数据信息D,识别其数据格式(Vs,Vd,weight),计算图数据特征参数,即图数据Di的节点数Vi、边数Ei、图密度根据图数据特征参数的大小预估备选数据格式;根据算法信息确定源算法类型和算法特征参数,即算法是否待改动数据结构、算法是否全局遍历、计算模型类型并从备选数据格式中对应选择最佳数据格式。
所述的备选数据格式包括:矩阵、邻接表、Tree、链表、CSR、CSC格式。
所述的流式驱动调度是指:
i)建立图数据与图算法组合的计算矩阵CM×N并使用P标记,其中:P为算法待数据改动标记,图数据与图算法组合的计算矩阵CM×N中,横轴表示各个算法id,纵轴表示运行在该算法上的数据id,其中每一项Cij表示在图数据Di上运行图算法Aj的计算,当运行过程中图数据待改动则使用P标记表示。
ii)当算法具有标记P,加入Z调度队列,没有标记P的算法加入W调度队列,其中:Z调度队列为待数据改动的计算队列,W调度队列为不需数据改动的计算队列。
iii)对于每个算法Aj,将其数据Di按照Vi大小将D1~DM变为从小到大排列Ds~Ds+m-1。
iv)根据步骤v)先调用Z中的算法,再调用W中的算法。
v)对于Z调度队列或者W调度队列中的算法序列,依次按照调度顺序,执行完当前算法Aj的所有对应数据Di,具体为:每个数据Ds~Ds+m-1,每一个Dk进行匹配的数据分块与并行设计后再顺序处理,直到队列中所有算法的所有数据执行结束后再停止。
所述的匹配的数据分块与并行设计是指:根据FPGA加速器的内存大小、核数和最大进程数,设计对应的算法的流式处理和数据块的流式驱动调度方式,具体包括如下步骤:
①对于图数据Di上运行图算法Aj的计算,通过Di上计算相邻节点offset的差计算Dx上节点的最大度数degmax和平均度数degavg,当图数据不够均匀或者律性大时,即degmax>2·degavg,预设一个适当的度数deg0,切割度数超过deg0的节点为多个新的虚拟节点,直至每个新节点的度数degpart≤deg0。
②当图数据Di的边数大于FPGA加速器的内存main memory时,即Ei>f2时,根据f2的值将数据平均分块,预设参数0<α<1,使得每一个数据块的大小Ei/p<α·f2,其中:函数中main memory的大小由参数f2表示,Ei/p代表每个数据块的大小。
③给定的算法Aj,通过预估待占用的逻辑资源面积设计f3和f4的值,f3≥N,其中在板上顺序分配部署完全并行的每个算法Aj,并且按照算法P5的顺序部署算法。其中:参数f3代表FPGA上的执行内核数,参数f4代表并行执行的pipeline个数。
技术效果
本发明整体解决了一次性自动化处理多个算法上的多个数据集,自动转换图数据格式并进行数据划分的技术问题。本发明系统地考虑图数据格式、不同的调度模式以适应异构计算环境,使得到来的图计算任务在并发的状态下能够自动调整数据格式与调度顺序,以保证任务稳定、可靠、高效的运行。本发明能够通过图数据的分块和数据格式识别转换。在每一批算法和数据到来之时,对每一项数据都会先进行预处理并且判断当前算法适应于哪一种数据格式,提前的转换和识别能够提高并发图处理效率,降低图数据读取和修改的开销。
与现有技术相比,本发明显著提升FPGA处理并发图计算效率和并发调度队列的优化,以及使用因地制宜的图数据结构以及对数据的划分所带来的内存访问命中率的提升。
附图说明
图1为本发明系统结构示意流程图;
图2为本发明中根据图数据特征评估备选的数据格式的算法流程图;
图3为本发明中根据算法特征选择性转换数据格式的算法流程图;
图4为本发明中在FPGA上的并发图规划调度顺序的算法流程图;
图5为本发明中在FPGA上的数据分块与并行设计的算法流程图。
具体实施方式
如图1所示,为本实施例涉及的一种基于FPGA的并发图数据预处理方法,包括如下步骤:
步骤2)根据步骤1)中的图数据特征信息,预估备选的数据格式,该数据格式包括矩阵,邻接表、Tree、链表、CSR或CSC格式。
所述的预估备选具体步骤包括:
2.2)将计算出的密度ρi和与预设的ρ0比较,当ρi<ρ0,则使用源数据的三元组格式。
2.3)当ρi≥ρ0,则比较节点数Vi和预设的V0,当Vi<V0,则使用二维矩阵的方式存储。
2.4)预设n值,当Vi≥V0且Vi<n·V0,则数据格式采用邻接表、Tree、链表、CSR或CSC格式,并根据下一步算法具体确定要转换的数据格式。
步骤3)根据算法信息A,确定算法特征参数。该策略需确定源算法类型,提供算法特征参数,包括算法是否需要改动数据结构,算法是否全局遍历,计算模型为pull或push。
步骤4)根据步骤1)中的图数据节点数Vi、步骤2)中的预估备选数据格式、步骤3)中的算法特征参数进行图数据格式转换,具体步骤包括:
4.1)当算法需要改动数据结构,则按照以下要求转换数据格式。
4.1.1)当Vi≥V0且Vi<n·V0,数据格式采用邻接表、Tree、自定义链表、CSR时,图数据格式选择Tree式。
4.1.2)当Vi≥n·V0,数据格式采用邻接表、CSR、CSC格式时,图数据格式选择自定义链表Dolha式。
4.2)当算法不需要改动数据结构,判断算法是否需要全局遍历,按照以下条件进行数据格式转换。
4.2.1)当不需要全局遍历,数据格式选为邻接表格式。
4.2.2)当需要全局遍历且Vi≥V0,则判断算法计算模型为push或pull。
4.2.3)判断算法计算模型时,当为push则使用CSC格式,当为push则使用CSR格式。
步骤5)如图4所示,根据并发的图数据与算法的组合运行矩阵CM×N,针对FPGA加速器确定并行设计调度顺序,确定进程分配方式,具体步骤包括:
5.1)用P标记图数据与图算法组合矩阵CM×N中所有待改动数据结构的算法。
5.2)当算法具有标记P,加入Z队列,没有标记P的算法加入W队列。
5.3)对于每个Aj,按照Vi大小将D1~DM变为从小到大排列Ds~Ds+m-1。
5.4)以算法流为主线,数据流为驱动,先调用Z中的算法,再调用W中的算法。
5.5)对于Z中的算法,从Ds~Ds+m-1,每一个Dk根据步骤6)分块后再流式处理。
5.6)对于W中的算法,从Ds~Ds+m-1,每一个Dk根据步骤6)分块后再流式处理。
步骤6)如图5所示,根据异构平台FPGA加速器H的加速器类型,共享内存大小,内核数量,最大进程数进行数据分块,实例化步骤5)所述的并行设计调度顺序和进程分配,具体步骤包括:
6.1)算法Aj在数据Dx上,计算Dx上节点的最大度数degmax和平均度数degavg,当degmax>2·degavg,说明图数据不够均匀(幂律性大,)预设deg0,切割大度数的节点,使得degpart≤deg0。
6.2)当边数大于所给的FPGA片上寄存器中SRAM的大小,即Ei>f2时,根据sharememory大小f2将数据分块,预设参数0<α<1,使得Ei/p<α·f2。
6.3)按照f4分配完全并行的Y任务组,按照f3分配X任务组。
6.4)算法Aj在数据Dx上,当边数大于所给的FPGA片上寄存器中SRAM的大小,即Ei>f2时,预设参数0<α<1,使得Ei/p<α·f2。
6.5)按照内核数f3和最大进程数f4,按照算法P5顺序分配W和Z队列中的算法。
经过具体实际实验,在的Xilinx Alveo U200板卡+具体环境设置下,以算法为BFS、PageRank、SSSP作为算法输入,SNAP上的标准图数据节点0.7M到4.85M不等,边的个数从5M到69M不等,采用了4个算法并行处理两个数据集,运行上述方法,能够得到的比逐个部署并运行缩短大量的编译与部署时间。
与现有技术相比,本方法使用自适应的数据结构转换,并通过并发调度,缩短开发部署编译的时间。同时能够尽可能使用已有带宽以提升吞吐量。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
Claims (7)
1.一种基于FPGA的并发图数据预处理方法,其特征在于,从图数据格式信息输入集合和算法信息输入集合中提取源图数据块和图数据特征并生成图数据与图算法组合矩阵,进行的图数据格式预转换;然后根据图数据的幂律性,通过流式驱动调度确定进程分配方式后,再根据异构平台中FPGA加速器的属性参数进行匹配的数据分块与并行设计;从而实现整个并行图处理过程在FPGA上的数据预处理与调度优化的实现流程;
所述的图数据特征包括:数据的节点数、边数、各节点的度数;
所述的图数据格式预转换是指:根据并发的图数据信息D,识别其数据格式(Vs,Vd,weight),计算图数据特征参数,即图数据Di的节点数Vi、边数Ei、图密度根据图数据特征参数的大小预估备选数据格式;根据算法信息确定源算法类型和算法特征参数,即算法是否待改动数据结构、算法是否全局遍历、计算模型类型并从备选数据格式中对应选择最佳数据格式;
所述的备选数据格式包括:矩阵、邻接表、Tree、链表、CSR、CSC格式。
2.根据权利要求1所述的基于FPGA的并发图数据预处理方法,其特征是,所述的流式驱动调度是指:
i)建立图数据与图算法组合的计算矩阵CM×N并使用P标记,其中:P为算法待数据改动标记,图数据与图算法组合的计算矩阵CM×N中,横轴表示各个算法id,纵轴表示运行在该算法上的数据id,其中每一项Cij表示在图数据Di上运行图算法Aj的计算,当运行过程中图数据待改动则使用P标记表示;
ii)当算法具有标记P,加入Z调度队列,没有标记P的算法加入W调度队列,其中:Z调度队列为待数据改动的计算队列,W调度队列为不需数据改动的计算队列;
iii)对于每个算法Aj,将其数据Di按照Vi大小将D1~DM变为从小到大排列Ds~Ds+m-1;
iv)根据步骤v)先调用Z中的算法,再调用W中的算法;
v)对于Z调度队列或者W调度队列中的算法序列,依次按照调度顺序,执行完当前算法Aj的所有对应数据Di,具体为:每个数据Ds~Ds+m-1,每一个Dk进行匹配的数据分块与并行设计后再顺序处理,直到队列中所有算法的所有数据执行结束后再停止。
3.根据权利要求1所述的基于FPGA的并发图数据预处理方法,其特征是,所述的匹配的数据分块与并行设计是指:根据FPGA加速器的内存大小、核数和最大进程数,设计对应的算法的流式处理和数据块的流式驱动调度方式,具体包括如下步骤:
①对于图数据Di上运行图算法Aj的计算,通过Di上计算相邻节点offset的差计算Dx上节点的最大度数degmax和平均度数degavg,当图数据不够均匀或者律性大时,即degmax>2·degavg,预设一个适当的度数deg0,切割度数超过deg0的节点为多个新的虚拟节点,直至每个新节点的度数degpart≤deg0;
②当图数据Di的边数大于FPGA加速器的内存main memory时,即Ei>f2时,根据f2的值将数据平均分块,预设参数0<α<1,使得每一个数据块的大小Ei/p<α·f2,其中:函数中mainmemory的大小由参数f2表示,Ei/p代表每个数据块的大小;
③给定的算法Aj,通过预估待占用的逻辑资源面积设计f3和f4的值,f3≥N,其中在板上顺序分配部署完全并行的每个算法Aj,并且按照算法P5的顺序部署算法;其中:参数f3代表FPGA上的执行内核数,参数f4代表并行执行的pipeline个数。
5.根据权利要求1所述的基于FPGA的并发图数据预处理方法,其特征是,所述的图数据格式转换,具体步骤包括:
4.1)当算法需要改动数据结构,则按照以下要求转换数据格式;
4.1.1)当Vi≥V0且Vi<n·V0,数据格式采用邻接表、Tree、自定义链表、CSR时,图数据格式选择Tree式;
4.1.2)当Vi≥n·V0,数据格式采用邻接表、CSR、CSC格式时,图数据格式选择自定义链表Dolha式;
4.2)当算法不需要改动数据结构,判断算法是否需要全局遍历,按照以下条件进行数据格式转换;
4.2.1)当不需要全局遍历,数据格式选为邻接表格式;
4.2.2)当需要全局遍历且Vi≥V0,则判断算法计算模型为push或pull;
4.2.3)判断算法计算模型时,当为push则使用CSC格式,当为push则使用CSR格式。
6.根据权利要求2所述的基于FPGA的并发图数据预处理方法,其特征是,所述的调度顺序,通过以下方式实现:
5.1)用P标记图数据与图算法组合矩阵CM×N中所有待改动数据结构的算法;
5.2)当算法具有标记P,加入Z队列,没有标记P的算法加入W队列;
5.3)对于每个Aj,按照Vi大小将D1~DM变为从小到大排列Ds~Ds+m-1;
5.4)以算法流为主线,数据流为驱动,先调用Z中的算法,再调用W中的算法;
5.5)对于Z中的算法,从Ds~Ds+m-1,每一个Dk根据数据分块后再流式处理;
5.6)对于W中的算法,从Ds~Ds+m-1,每一个Dk根据数据分块后再流式处理。
7.根据上述任一权利要求所述的基于FPGA的并发图数据预处理方法,其特征是,所述的数据分块,通过以下方式实现:
6.1)算法Aj在数据Dx上,计算Dx上节点的最大度数degmax和平均度数degavg,当degmax>2·degavg时,通过预设deg0切割大度数的节点,使得degpart≤deg0;
6.2)当边数大于所给的FPGA片上寄存器中SRAM的大小,即Ei>f2时,根据share memory大小f2将数据分块,预设参数0<α<1,使得Ei/p<α·f2;
6.3)按照f4分配完全并行的Y任务组,按照f3分配X任务组;
6.4)算法Aj在数据Dx上,当边数大于所给的FPGA片上寄存器中SRAM的大小,即Ei>f2时,预设参数0<α<1,使得Ei/p<α·f2;
6.5)按照内核数f3和最大进程数f4,按照算法P5顺序分配W和Z队列中的算法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010332908.8A CN111553834B (zh) | 2020-04-24 | 2020-04-24 | 基于fpga的并发图数据预处理方法 |
PCT/CN2021/072377 WO2021212933A1 (zh) | 2020-04-24 | 2021-01-18 | 基于fpga的并发图数据预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010332908.8A CN111553834B (zh) | 2020-04-24 | 2020-04-24 | 基于fpga的并发图数据预处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111553834A true CN111553834A (zh) | 2020-08-18 |
CN111553834B CN111553834B (zh) | 2023-11-03 |
Family
ID=72002469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010332908.8A Active CN111553834B (zh) | 2020-04-24 | 2020-04-24 | 基于fpga的并发图数据预处理方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111553834B (zh) |
WO (1) | WO2021212933A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021212933A1 (zh) * | 2020-04-24 | 2021-10-28 | 上海交通大学 | 基于fpga的并发图数据预处理方法 |
CN115658975A (zh) * | 2022-10-27 | 2023-01-31 | 西安邮电大学 | 用于实现负载均衡的图数据划分方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704360B (zh) * | 2019-09-29 | 2022-03-18 | 华中科技大学 | 一种基于异构fpga数据流的图计算优化方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567508A (zh) * | 2011-12-20 | 2012-07-11 | 南京大学 | 基于抽象数据模型的海量栅格数据格式转换并行方法 |
US20160188391A1 (en) * | 2014-12-31 | 2016-06-30 | International Business Machines Corporation | Sophisticated run-time system for graph processing |
US20160188385A1 (en) * | 2014-12-31 | 2016-06-30 | International Business Machines Corporation | Optimized system for analytics (graphs and sparse matrices) operations |
CN109636709A (zh) * | 2018-11-28 | 2019-04-16 | 华中科技大学 | 一种适用于异构平台的图计算方法 |
CN110704360A (zh) * | 2019-09-29 | 2020-01-17 | 华中科技大学 | 一种基于异构fpga数据流的图计算优化方法 |
CN110990638A (zh) * | 2019-10-28 | 2020-04-10 | 北京大学 | 基于fpga-cpu异构环境的大规模数据查询加速装置及方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10387037B2 (en) * | 2016-12-31 | 2019-08-20 | Intel Corporation | Microarchitecture enabling enhanced parallelism for sparse linear algebra operations having write-to-read dependencies |
CN108776649A (zh) * | 2018-06-11 | 2018-11-09 | 山东超越数控电子股份有限公司 | 一种基于cpu+fpga异构计算系统及其加速方法 |
CN110750265B (zh) * | 2019-09-06 | 2021-06-11 | 华中科技大学 | 一种面向图计算的高层次综合方法及系统 |
CN111553834B (zh) * | 2020-04-24 | 2023-11-03 | 上海交通大学 | 基于fpga的并发图数据预处理方法 |
-
2020
- 2020-04-24 CN CN202010332908.8A patent/CN111553834B/zh active Active
-
2021
- 2021-01-18 WO PCT/CN2021/072377 patent/WO2021212933A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567508A (zh) * | 2011-12-20 | 2012-07-11 | 南京大学 | 基于抽象数据模型的海量栅格数据格式转换并行方法 |
US20160188391A1 (en) * | 2014-12-31 | 2016-06-30 | International Business Machines Corporation | Sophisticated run-time system for graph processing |
US20160188385A1 (en) * | 2014-12-31 | 2016-06-30 | International Business Machines Corporation | Optimized system for analytics (graphs and sparse matrices) operations |
CN109636709A (zh) * | 2018-11-28 | 2019-04-16 | 华中科技大学 | 一种适用于异构平台的图计算方法 |
CN110704360A (zh) * | 2019-09-29 | 2020-01-17 | 华中科技大学 | 一种基于异构fpga数据流的图计算优化方法 |
CN110990638A (zh) * | 2019-10-28 | 2020-04-10 | 北京大学 | 基于fpga-cpu异构环境的大规模数据查询加速装置及方法 |
Non-Patent Citations (2)
Title |
---|
PENGYU WANG等: "Excavating the Potential of GPU for Accelerating Graph Traversal" * |
罗飞等: "MPSoc上动静态结合的SPM分配策略" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021212933A1 (zh) * | 2020-04-24 | 2021-10-28 | 上海交通大学 | 基于fpga的并发图数据预处理方法 |
CN115658975A (zh) * | 2022-10-27 | 2023-01-31 | 西安邮电大学 | 用于实现负载均衡的图数据划分方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021212933A1 (zh) | 2021-10-28 |
CN111553834B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111553834B (zh) | 基于fpga的并发图数据预处理方法 | |
US11288221B2 (en) | Graph processing optimization method based on multi-FPGA accelerator interconnection | |
Khorasani et al. | Scalable simd-efficient graph processing on gpus | |
CN110704360B (zh) | 一种基于异构fpga数据流的图计算优化方法 | |
US20120233486A1 (en) | Load balancing on heterogeneous processing clusters implementing parallel execution | |
CN109388486B (zh) | 一种针对异构内存与多类型应用混合部署场景的数据放置与迁移方法 | |
Teymourifar et al. | Extracting new dispatching rules for multi-objective dynamic flexible job shop scheduling with limited buffer spaces | |
Schlag et al. | Scalable edge partitioning | |
WO2023087893A1 (zh) | 对象处理方法、装置、计算机设备、存储介质及程序产品 | |
CN106033442B (zh) | 一种基于共享内存体系结构的并行广度优先搜索方法 | |
EP4375844A1 (en) | Neural network on-chip mapping method and device based on tabu search algorithm | |
CN111639054B (zh) | 一种海洋模式与资料同化的数据耦合方法、系统及介质 | |
Wu et al. | Hierarchical task mapping for parallel applications on supercomputers | |
CN114756483A (zh) | 基于核间存储访问的子图分段优化方法及应用 | |
Lee et al. | Task parallelism-aware deep neural network scheduling on multiple hybrid memory cube-based processing-in-memory | |
Zhang et al. | Data-aware task scheduling for all-to-all comparison problems in heterogeneous distributed systems | |
CN113535381B (zh) | 基于改进遗传算法的服务功能链映射方法、装置及设备 | |
Pérez et al. | Parallel/distributed implementation of cellular training for generative adversarial neural networks | |
CN108108242B (zh) | 基于大数据的存储层智能分发控制方法 | |
CN112560392A (zh) | 用于处理电路版图的方法、设备和存储介质 | |
Wang et al. | Edge computing for artificial intelligence | |
CN116795508A (zh) | 一种平铺加速器资源调度方法及系统 | |
Huang et al. | Wena: Deterministic run-time task mapping for performance improvement in many-core embedded systems | |
US20220164189A1 (en) | Systems and methods for improved mapping of computational loops on reconfigurable architectures | |
Kong et al. | Energy saving strategy for task migration based on genetic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |