CN109213587A

CN109213587A - GPU平台下的多Stream并行DAG图任务映射策略

Info

Publication number: CN109213587A
Application number: CN201811063152.0A
Authority: CN
Inventors: 王学成; 马金全; 彭华; 岳春生; 王雅琪
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2019-01-15
Anticipated expiration: 2038-09-12
Also published as: CN109213587B

Abstract

本发明涉及并行计算技术领域，尤其涉及GPU平台下的多Stream并行DAG图任务映射策略。本发明的GPU平台下的多Stream并行DAG图任务映射策略，包括：根据应用任务的数据流向将应用任务抽象成一个DAG图，并对DAG图中的节点和有向边的属性进行赋值；根据DAG图中的节点与节点之间的数据依赖关系，将DAG图实现并行；将并行的DAG图映射到不同粒度的GPU编程模型中。本发明GPU平台下的多Stream并行DAG任务映射策略实现了CPU+GPU异构平台上的单DAG图的任务映射，将节点的依赖关系与GPU并行能力相结合，有效的提升了CPU+GPU异构平台的执行效率。

Description

GPU平台下的多Stream并行DAG图任务映射策略

技术领域

本发明涉及并行计算技术领域，尤其涉及GPU平台下的多Stream并行DAG图任务映射策略。

背景技术

伴随着通用并行计算架构(compute unified device architecture，CUDA)的推出，高性能计算技术得到了迅猛的发展。并行计算作为实现高性能计算(high performancecomputing，HPC)的重要手段，探索实现并行计算技术与图形处理器(graphic processunit，GPU)与中央处理器(computing processor unit，CPU)异构平台的高效耦合，成为国内外并行计算领域中的一个研究热点。应用程序在CPU+GPU异构平台上的执行效率不仅取决于硬件平台的计算能力，而且受限于任务的映射策略。一个高效的映射策略可以降低对硬件资源的需求的同时，还可以有效的提高应用程序的执行效率。任务映射依据任务之间是否存在依赖关系，可分为独立任务映射和依赖任务映射,依赖任务映射通常也被称为相关任务映射。典型的相关任务映射模型都是建立在图的基础上的，通常称它们为任务图，最常用的任务图是有向无环图(Direction Asyclic Graph，DAG)，因此任务映射的优化问题常被建模为图优化问题。

CUDA将平台分为两部分：host端(CPU)和device端(GPU)，host端主要进行初始化、设备的管理、数据的传输控制，device端进行任务的执行，在device端上执行的函数称为kernel函数。在device端运行程序之前，需要先从host端完成数据的拷贝，数据完成后host端调用kernel函数，而kernel函数调用是一种异步的方式，即调用kernel函数后，host控制权返回。而CUDA可以通过多Stream并行的方式，实现多kernel函数的并行执行。根据CUDA提供的多种并行模式，就可以在单GPU上实现多任务的并行，这是CPU+GPU异构平台与其他异构平台最大的不同。而在单GPU上合理安排任务的执行顺序成为了一个亟待解决的问题，而任务映射策略的目的就是通过一定的方式合理的安排任务的执行顺序，实现应用的高效执行。

发明内容

针对上述问题，本发明提出了GPU平台下的多Stream并行DAG图任务映射策略，提升了执行效率。

为了实现上述目的，本发明采用以下技术方案：

GPU平台下的多Stream并行DAG图任务映射策略，包括以下步骤：

步骤1：根据应用任务的数据流向将应用任务抽象成一个DAG图，并对DAG图中的节点和有向边的属性进行赋值；

步骤2：根据DAG图中的节点与节点之间的数据依赖关系，将DAG图实现并行；

步骤3：将并行的DAG图映射到不同粒度的GPU编程模型中。

进一步地，所述DAG图用四元组[V,E,C,T]表示，其中V为节点集合，每个节点表示一个子任务，E为数据流向集合，C为V中节点对应的计算复杂度集合，T为节点之间数据流的传输时间集合。

进一步地，所述节点与节点之间的数据依赖关系包括：

流依赖关系：且R(v_i)发生在W(v_j)之后，则称节点v_i流依赖于节点v_j；

反依赖关系：且R(v_i)发生在W(v_j)之前，则称节点v_i反依赖于节点v_j；

输出依赖关系：即：两个节点v_i和v_j先后对数据δ进行写入，则称两个节点v_i和v_j是输出依赖关系；

输入依赖关系：即：两个节点v_i和v_j先后对数据δ进行读取，则称两个节点v_i和v_j是输入依赖关系；

其中v_i和v_j表示两个节点，R(v_i)表示v_i节点对数据δ的读取，W(v_i)表示v_i节点对数据δ的写入。

进一步地，所述步骤2包括：

通过DAG图中节点与节点之间的连接关系确定DAG图中节点与节点之间的数据依赖关系；

通过DAG图中节点与节点之间的数据依赖关系，划分DAG层；

依据DAG图中的节点与节点之间的数据依赖关系，将流依赖关系、反依赖关系以及输出依赖关系对应的节点分别放入到同一并行分支中，将输入依赖关系对应的两个节点划分到不同的并行分支中。

进一步地，所述步骤3包括：

对于并行的DAG图，根据所述DAG层和所述数据依赖关系，选择不同的GPU并行粒度，将不同的并行分支分别映射到不同的Stream中；

对于分配到一个Stream中的不同的子任务，分配不同的线程块和线程数量，实现细粒度并行；

结合CUDA编程模型的异步数据传输和异步数据调度，在CPU的配合下，实现基于CPU+GPU异构平台多Stream流水线并行多粒度混合下的DAG图的任务映射。

与现有技术相比，本发明具有的有益效果：

本发明提出了GPU平台下的多Stream并行DAG任务映射策略，根据应用的执行关系，抽象建模出数据传递的DAG图，依据数据之间的依赖关系优化抽象出来的DAG图模型，实现任务在GPU平台上的任务映射。在DAG图的建模过程中引入数据间的依赖关系的数学抽象，为进一步定义DAG图中的节点之间的关系提供了基础，为进一步优化DAG图任务映射模型提供了支撑。将GPU中的多流并行与DAG图相互结合，将硬件的并行计算能力与DAG图模型高度耦合，可以有效的提高算法的执行效率，提高硬件资源的利用率。本发明GPU平台下的多Stream并行DAG任务映射策略实现了CPU+GPU异构平台上的单DAG图的任务映射，将节点的依赖关系与GPU并行能力相结合，有效的提升了CPU+GPU异构平台的执行效率。

附图说明

图1为本发明实施例的GPU平台下的多Stream并行DAG图任务映射策略的基本流程图。

图2为本发明实施例的任务分层及Stream划分示意图。

图3为本发明实施例的多Stream流水线并行示意图。

图4为本发明实施例的随机DAG图。

图5为本发明实施例的HEFT算法时间线图。

图6为本发明实施例的GPU平台下的多Stream并行DAG图任务映射策略时间线图。

图7为本发明实施例的不同节点数HEFT算法和GPU平台下的多Stream并行DAG图任务映射策略(MS-DAG任务映射策略)对比图。

图8为本发明实施例的节点数为100的条件下不同处理器数HEFT算法与GPU平台下的多Stream并行DAG图任务映射策略(MS-DAG任务映射策略)对比图。

图9为本发明实施例的处理器性能相同的条件下HEFT算法与GPU平台下的多Stream并行DAG图任务映射策略(MS-DAG任务映射策略)对比图。

图10为本发明实施例的Pinned Memory与Pageable Memory数据传输对比图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

实施例一：

如图1所示，本发明的一种GPU平台下的多Stream并行DAG图任务映射策略，包括以下步骤：

步骤S101：根据应用任务的数据流向将应用任务抽象成一个DAG图，并对DAG图中的节点和有向边的属性进行赋值；

步骤S102：根据DAG图中的节点与节点之间的数据依赖关系，将DAG图实现并行；

步骤S103：将并行的DAG图映射到不同粒度的GPU编程模型中。

具体地，所述DAG图用四元组[V,E,C,T]表示，其中V为节点集合，每个节点表示一个子任务，E为数据流向集合，C为V中节点对应的计算复杂度集合，T为节点之间数据流的传输时间集合。

具体地，所述节点与节点之间的数据依赖关系包括：

具体地，所述步骤S102包括：

通过DAG图中节点与节点之间的数据依赖关系，划分DAG层；

具体地，所述步骤S103包括：

本发明提出了GPU平台下的多Stream并行DAG任务映射策略，根据应用的执行关系，抽象建模出数据传递的DAG图，依据数据之间的依赖关系优化抽象出来的DAG图模型，实现任务在GPU平台上的任务映射。在DAG图的建模过程中引入数据间的依赖关系的数学抽象，为进一步定义DAG图中的节点之间的关系提供了基础，为进一步优化DAG图任务映射模型提供了支撑。将GPU中的多流并行与DAG图相互结合，将硬件的并行计算能力与DAG图模型高度耦合，可以有效的提高算法的执行效率，提高硬件资源的利用率。GPU平台下的多Stream并行DAG任务映射策略实现了CPU+GPU异构平台上的单DAG图的任务映射，将节点的依赖关系与GPU并行能力相结合，有效的提升了CPU+GPU异构平台的执行效率。

实施例二：

本发明的另一种GPU平台下的多Stream并行DAG图任务映射策略，包括：

步骤S201：根据应用任务的数据流向将应用任务抽象成一个DAG图，并对DAG图中的节点和有向边的属性进行赋值，包括：

任务映射分为独立任务映射和依赖任务映射。依赖任务映射通常也被称为相关任务映射。典型的相关任务映射模型都是建立在图的基础上的，通常称它们为任务图，最常用的任务图是DAG图，因此任务映射策略的研究常被转化为DAG图的优化问题。

在数学和计算机科学中，DAG图是由集合的顶点和有向边组成，根据任务的特点需要，赋予节点和有向边不同的属性。而任务映射的优化正是通过节点和有向边的属性设计映射策略实现高效的任务模型。

任务映射DAG图可以用四元组表示:DAG＝[V,E,C,T],其中，V＝{v₀，v₁，…，v_n}作为节点集合，每个节点表示一个子任务，E＝{e_ij}表示有向边的连接关系集合，e_ij表示数据流向是从i节点流向j节点，C＝{c₀,c₁,…,c_n}表示E中对应节点的计算复杂度集合，T＝{t_ij}表示由数据由i节点流向j节点所需要的传输时间集合。

根据节点之间的连接关系可以确定数据之间的依赖关系；数据之间的依赖关系主要分为流依赖、反依赖、输出依赖以及输入依赖四种。假设有两个节点v_i和v_j，R(v_i)表示v_i节点对数据δ的读取，W(v_i)表示v_i节点对数据δ的写入。则节点的依赖关系可以表示为：

(1)流依赖关系：且R(v_i)发生在W(v_j)之后，则称节点v_i流依赖于节点v_j；

(2)反依赖关系：且R(v_i)发生在W(v_j)之前，则称节点v_i反依赖于节点v_j；

(3)输出依赖：即：两个节点v_i和v_j先后对数据δ进行写入，则称两个节点v_i和v_j是输出依赖关系；

(4)输入依赖：即：两个节点v_i和v_j先后对数据δ进行读取，则称两个节点v_i和v_j是输入依赖关系。

在DAG图的建模过程中引入数据间的依赖关系的数学抽象，为进一步定义DAG图中的节点之间的关系提供了基础，为进一步优化DAG图任务映射模型提供了支撑。

步骤S202：根据DAG图中的节点与节点之间的数据依赖关系，将DAG图实现并行，包括：

步骤S2021：通过DAG图中节点与节点之间的连接关系确定DAG图中节点与节点之间的数据依赖关系，通过DAG图中节点与节点之间的数据依赖关系划分DAG层：

当在DAG图中出现跨Stream交互且具有流依赖关系的任务节点时，以该节点为新一层的开始进行分层。并根据每一层的输出节点数量确定任务执行的Stream。对于下层的输出节点需要用到上层不同输出节点的结果，采用事件驱动的Stream交互方式。当Stream中的任务队列中的任务节点需要调用其他层或者其他Stream中的计算结果时，条件未满足之前该Stream处于阻塞状态，直到条件满足继续执行，而其他输出节点的Stream执行队列不受影响。

步骤S2022：通过节点与节点之间的连接关系确定数据依赖关系，依据DAG图中的节点与节点之间的数据依赖关系，将流依赖关系、反依赖关系以及输出依赖关系对应的节点分别放入到同一并行分支中，将输入依赖关系对应的两个节点划分到不同的并行分支中：

在处理同一层任务节点的并行分支的时候，会涉及到读数据和写数据两部分操作，为了保证应用执行的正确性，需要保证节点对数据的操作符合应用执行顺序。而流依赖关系、反依赖关系以及输出依赖关系存在读取的先后顺序，将对应的节点放入到同一任务队列中。而输入依赖关系，由于两个节点对同一部分数据进行读取操作，未对数据进行修改，可以将输入依赖关系的两个节点划分到不同的任务队列中。整体的流程如图2所示。其中，v₀、v₁₀、v_1n、v₁₀₀、v₁₀₀₀、v₁₀₀₁、v₂、v₃表示不同的节点、即不同的子任务，Stream10、Stream1001、Stream1n、Stream2、Stream3表示不同的任务流，不同的任务流包含有不同的任务队列。其中v₀到v₁₀₀₀由于存在数据的流依赖关系，因此将v₀到v₁₀₀₀节点任务部署到Stream10中执行，而v₁₀₀₀、v₁₀₀₁都使用的是v₁₀₀计算后的数据，属于输入依赖关系，因此，将两个节点分别分配到Stream10和Stream1001两个Stream中执行，和v₁₀₀₀、v₁₀₀₁类似关系的节点还有v₁₀、v_1n，因此，v₁₀、v_1n两个节点分别分配到Stream10和Stream1n中执行；由于v₂、v₃的执行需要两个不同Stream中执行的节点的支撑，所以以v₂、v₃为界，进行分层并分配不同的Stream进行执行。

步骤S203：将并行的DAG图映射到不同粒度的GPU编程模型中；

步骤S2031：对于并行的DAG图，根据所述DAG层和所述数据依赖关系，选择不同的GPU并行粒度，将不同的并行分支分别映射到不同的Stream中；

步骤S2032：对于分配到一个Stream中的不同的子任务，分配不同的线程块和线程数量，实现细粒度并行；CUDA的出现使得GPU并行开发逐渐简单，它为用户提供了多层次的内存结构和多粒度的并行模式。而多Stream流水线并行开发方式，需要结合应用的不同要求，合理的规划内存结构和划分并行粒度；

步骤S2033：结合CUDA编程模型的异步数据传输和异步数据调度，在CPU的配合下，实现基于CPU+GPU异构平台多Stream流水线并行多粒度混合下的DAG图的任务映射；

通过分析CUDA提供的数据传输方式，选择合适的CPU到GPU数据传输方式。CUDA为CPU端的数据存放提供了两种内存模式：Pageable Memory和Pinned Memory，以及两种数据传输的方式：同步数据传输和异步数据传输。同步传输和异步传输最大区别是控制权的返回时间，同步数据传输的控制权只有等数据传输完毕后才会返回，而异步数据传输，命令调用后控制权就返回。从CPU端的Memory结构中发现，使用Pinned Memory进行异步数据传输的安全性要高于Pageable Memory，由于Pageable Memory中的数据在进行异步传输时，可能会发生数据转移而造成数据传输错误。应用在GPU上执行时，需要先将应用所需的数据拷贝到GPU的显存中，而数据的异步传输适合于可以将数据分批处理的应用，而某些必须要完成所有数据传输后才能开始进行各项数据处理的应用来说，异步传输和同步传输的效果差距较小。对于可以分批处理的应用，利用多Stream的流水线并行，异步传输与异步调用相结合，实现数据传输和数据处理的折叠，提高效率，其传输和处理的流程如图3所示。

具体地，为了评估GPU平台下的多Stream并行DAG图任务映射策略的性能，为了表述方便，将GPU平台下的多Stream并行DAG图任务映射策略简写为MS-DAG(multiple StreamDirection Asyclic Graph)任务映射策略，将MS-DAG任务映射策略与HEFT算法进行对比，通过随机的DAG图测试两个算法在应对不同节点数以及不同处理器数量和性能条件下的随机DAG图任务映射效率。并对CUDA中提供的Pageable Memory和Pinned Memory两种内存进行数据传输测试，评估两种内存的传输性能。所述HEFT算法具体参见文献1(Topcuoglu H,Hariri S,Wu M Y.Performance-effective and low-complexity task scheduling forheterogeneous computing[J].IEEE Transactions on Parallel&Distributed Systems,2002,13(3):260-274.)。

a.不同处理器条件下的HEFT算法和MS-DAG任务映射策略对比

为了测试本发明的GPU平台下的多Stream并行DAG图任务映射策略，即GPU平台下的MS-DAG任务映射策略的性能，利用文献1中随机生成的DAG图做模拟，比较MS-DAG任务映射策略与HEFT算法性能。HEFT模拟三个不同处理器对随机DAG图的任务映射，三个处理器在处理不同节点的计算代价如表1所示。随机DAG图如图4所示，其中v1-v10表示不同的节点、即不同的子任务，节点与节点之间的连线上的数字表示不同的计算代价，数字越大计算代价越高。

表1计算代价

分别利用HEFT算法和MS-DAG任务映射策略对图4中的随机DAG图进行任务部署。以表1中节点在各个处理器上的最高时间代价为CPU+GPU多Stream处理的时间代价，由于MS-DAG任务映射策略中任务的处理是在单GPU上完成，因此，任务与任务之间的数据传输时间可以忽略不计，HEFT算法和MS-DAG任务映射策略的时间流水线分别如图5、图6所示，其中v1-v10表示不同的节点、即不同的子任务，Stream1-Stream6表示不同的任务流，0-90表示时钟周期，P1、P2、P3分别表示三个不同处理器：

分析实验结果，可以看出HEFT算法完成图4任务映射需要花费80个时钟周期，MS-DAG任务映射策略只需要花费76个时钟周期，并且，仿真MS-DAG任务映射策略时假设多Stream中的节点计算效率要弱于HEFT中的各个处理器的处理速度，通过图5和图6的任务映射时间线可以看出MS-DAG任务映射策略在进行DAG图任务映射时，效率优于HEFT算法。

为了探究随机DAG图中节点数量以及处理器的数量对任务映射策略效率的影响，利用HEFT算法和MS-DAG任务映射策略进行测试。由于MS-DAG使用的是单GPU进行测试，因此，将多处理器对各个节点最大的计算代价作为MS-DAG任务映射策略的计算代价，在测试处理器数量对算法性能的影响时，固定节点的数量为100。进行仿真测试。

通过图7和图8的实验结果可以看出，MS-DAG任务映射策略在不同节点数下的处理代价小于HEFT算法。在不同节点数量的DAG图任务映射时，MS-DAG任务映射策略执行效率较HEFT算法提高了大约10％。而对于随机的DAG图，传输代价为随机值，造成对于不同处理器下的HEFT算法性能波动较大，但由于MS-DAG任务映射策略是在单GPU上进行任务映射，任务之间的交互代价较小，使得MS-DAG任务映射策略相比于HEFT算法性能更优。

b.相同处理器条件下的HEFT算法和MS-DAG任务映射策略对比

当处理器性能一致时，HEFT算法效果较差，为了探究两个算法在处理器性能一致的条件下的性能效果，分别测试了HEFT算法和MS-DAG任务映射策略在处理器数量固定，各个处理器性能一致的条件下，不同节点数下随机DAG图的任务映射效率。测试结果如下：

通过图9的实验结果可以看出，HEFT算法在处理器性能一致的情况下，各个节点在不同处理器上的代价一致，对于节点的优先级的定义效果较差，数据之间的交互代价较大，严重的影响了算法的性能。MS-DAG任务映射是针对单GPU的任务映射算法，是根据节点之间的依赖关系确定任务执行顺序，且数据存储在单GPU上，数据之间的交互代价较小。通过仿真对比，可以看出：MS-DAG任务映射策略与在处理器性能相同的条件下的HEFT算法相比，性能有了约30％的提升。

c.数据传输测试

由于CPU+GPU异构平台中GPU在进行密集型计算之前需要将数据从CPU上传递到GPU中，因此，为了测试不同的CPU端的内存存储方式对实验的影响，设计了Pinned Memory与Pageable Memory两种内存传输效率的测试。将两种内存存放相同数量的double型数据，采用同样的传输方式，调用相同的cudaMemcpy()函数进行数据的传输，记录传输10000次数据后的总时间，求其均值，得到近似的单次传输时间。其结果如下：

通过图10可以看出，在小数据量的传输过程中，两种内存的传输效率近乎相同，随着数据量的增加，可以很明显的看出：Pinned Memory的传输效率要远远高于PageableMemory的传输效率。因此，使用Pinned Memory来进行数据的存储可以有效提高CPU+GPU异构平台的数据传输效率，实现更高的实时性。

本发明针对CPU+GPU异构平台上的单GPU的任务映射策略算法提出了GPU平台下的多Stream并行DAG任务映射策略，根据应用的执行关系，抽象建模出数据传递的DAG图，依据数据之间的依赖关系优化抽象出来的DAG图模型，实现任务在GPU平台上的任务映射。在DAG图的建模过程中引入数据间的依赖关系的数学抽象，为进一步定义DAG图中的节点之间的关系提供了基础，为进一步优化DAG图任务映射模型提供了支撑。将GPU中的多流并行与DAG图相互结合，将硬件的并行计算能力与DAG图模型高度耦合，可以有效的提高算法的执行效率，提高硬件资源的利用率。GPU平台下的多Stream并行DAG任务映射策略实现了CPU+GPU异构平台上的单DAG图的任务映射，将节点的依赖关系与GPU并行能力相结合，有效的提升了CPU+GPU异构平台的执行效率。性能对比分析结果表明，MS-DAG任务映射策略的任务映射效率相比于处理器性能不一致条件下的HEFT算法有了约10％的提升，相比于处理器性能一致条件下的HEFT算法有了约30％的提升，对于GPU阵列条件下的任务映射策略研究具有重要的指导意义。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.GPU平台下的多Stream并行DAG图任务映射策略，其特征在于，包括以下步骤：

步骤2：利用CUDA提供的多Stream流水线并行，实现多Stream并行DAG图任务映射策略；

步骤3：将并行的DAG图映射到不同粒度的GPU编程模型中。

2.根据权利要求1所述的GPU平台下的多Stream并行DAG图任务映射策略，其特征在于，所述DAG图用四元组[V,E,C,T]表示，其中V为节点集合，每个节点表示一个子任务，E为数据流向集合，C为V中节点对应的计算复杂度集合，T为节点之间数据流的传输时间集合。

3.根据权利要求1所述的GPU平台下的多Stream并行DAG图任务映射策略，其特征在于，所述节点与节点之间的数据依赖关系包括：

4.根据权利要求3所述的GPU平台下的多Stream并行DAG图任务映射策略，其特征在于，所述步骤3包括：

通过DAG图中节点与节点之间的数据依赖关系，划分DAG层；

5.根据权利要求4所述的GPU平台下的多Stream并行DAG图任务映射策略，其特征在于，所述步骤3包括：