CN110942504B

CN110942504B - 一种众核平台上面向规则网格问题的结构化着色方法

Info

Publication number: CN110942504B
Application number: CN201911047165.3A
Authority: CN
Inventors: 刘芳芳; 吴丽鑫; 马文静; 汪荃; 王志军; 孙家昶; 杨超
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2021-07-27
Anticipated expiration: 2039-10-30
Also published as: CN110942504A

Abstract

本发明公开一种众核平台上面向规则网格问题的结构化着色方法，包括如下步骤：步骤一、依赖特性分析：对按照stencil模板格式生成的计算问题中的各计算任务之间的依赖特性进行分析，包括依赖传递特性分析和强弱依赖方向分析；步骤二、参数搜索：根据依赖特性分析结果，使用四种参数搜索模式进行最优的着色规则参数搜索；步骤三、计算任务划分：根据最优的着色规则参数为每个计算任务着色，并将相同颜色的计算任务分为一组，不同颜色的计算任务分为不同组，总的颜色数即为计算任务的总的划分组数，完成计算任务的划分；本发明保证了在相同颜色数的限制下，保留更多的核心依赖关系，从而有效减少了计算的整体迭代次数，并提高了着色质量。

Description

一种众核平台上面向规则网格问题的结构化着色方法

技术领域

本申请涉及众核平台上的着色领域，具体涉及一种众核平台上面向规则网格问题的结构化着色方法。

背景技术

stencil计算是高性能计算领域的重要计算模式之一。stencil本身是数值分析领域的一个概念，由一组在几何空间中以当前点为中心的点组成，这些点定义了更新当前点需要参与计算的依赖点集合。使用这些依赖点对计算问题进行差分离散化，就可以生成稀疏方程组进行问题的求解。不同的stencil因为考虑了几何空间中不同位置的点来形成迥异的依赖关系，所以不同的stencil适合于模拟不同的计算问题。

由于stencil计算用于模拟的计算问题通常规模巨大，而普通的计算机往往不具备这样的求解能力，所以这些应用通常需要借助众核结构的超级计算机来进行超大规模计算问题的求解。HPCG(High Performance Conjugate Gradient，高性能共轭梯度法)基准测试作为超级计算机的评估指标之一，不同于HPL(High Performance Linpack)指标只侧重于衡量系统的浮点运算能力，而是加强了对程序中不规则的内存访问模式的模拟，更强调系统在浮点运算、通信带宽与读写延迟之间的性能平衡，能够更好地度量超级计算机系统在stencil计算这种访存受限的应用程序中的实际性能，并且通过扩展HPCG支持的stencil格式，使其适用于所有截断式边界条件的结构网格计算问题。

在HPCG的CG(Conjugate Gradient，共轭梯度法)求解方法中，SpMV(SparseMatrix-Vector Multiplication，稀疏矩阵向量乘法)和SymGS(Symmetric Gauss–Seidel，对称高斯-赛德尔迭代法)为核心操作，其中SymGS更是占用了60％以上的运行时间，是CG算法优化工作的关键。标准的串行版SymGS严格地保持了计算任务之间的原始数据依赖，在参考版程序运行50轮迭代时便可以达到一个较低的残差水平，而该残差将作为后续优化版程序的残差阈值。

在SymGS中使用level scheduled方法可以实现计算核心的并行化，并且能够较好地保持原始的数据依赖，但是该方法提供的并行度往往非常有限，为了达到更高的并行度，可以使用着色方法对计算任务进行分解，让相同颜色的计算任务并行更新，不同颜色的计算任务按照颜色次序依次更新。

虽然着色方法能够为程序提供足够的并行度，让程序更大程度地发挥众核系统的性能，但是该方法只能确保邻居点的数据依赖，而其他计算任务间的依赖关系保持或者破坏则由着色方法给出的具体着色方案决定，所以使用不同的着色方法将会影响CG算法的迭代次数，而不同着色方法给出的并行方案的颜色数不同，即为SymGS计算核心提供的并行度不同，导致SymGS计算核心的性能也存在差异，这两方面的影响决定了在CG计算中使用不同的着色方法进行计算任务的划分和重排将会得到完全不同的最终性能。此外，着色过程的时间也包含在整体的运行时间中，所以该指标同样需要被考量。因此着色方法为CG计算提供的着色方案的优劣可以通过迭代次数、颜色数、着色性能这三个指标来进行全面的衡量。

对于图着色方法的研究，Luby在1992年基于最大独立集问题提出了一种蒙特卡罗的并行求解算法MIS，因为着色问题的并行求解可以转换成多轮最大独立集求解问题的组合，因此该工作也在不经意间为并行着色方法奠定了基础。随后，Mark T.Jones和PaulE.Plassmann基于MIS算法存在的两点不足提出改进，从而得到了经典的JPL(JonesPlassmann Luby)算法。而2012年，NVIDIA公司的研究员Jonathan Cohen又在JPL算法的基础上提出了使用hash函数替换随机数、同时求解最大最小独立集、使用多个hash函数三点改进，并将该算法命名为CC算法，该算法能够更快地求解着色方案，被多次用在了NVIDIA公司发表的各项工作中。

虽然在图着色领域有众多的着色方法被提出，但是现有的着色方法优化仅针对单一的颜色数或者着色性能指标来进行优化，并没有针对迭代次数、颜色数、着色性能这三个指标来进行全面的衡量，导致现有的着色方法并不完全适用于结构网格计算问题。因此，针对众核平台上面向截断式边界条件的结构网格计算问题的特殊性，为其探索更适合的着色方法显得尤为重要。

发明内容

本发明的目的是提供一种众核平台上面向规则网格问题的结构化着色方法，以解决上述现有技术存在的问题，实现了在保证较少颜色数即较高并行度的同时，有效提升整体着色质量。

为实现上述目的，本发明提供了如下方案：

本发明提供一种众核平台上面向规则网格问题的结构化着色方法，包括如下步骤：

步骤一、依赖特性分析：对按照stencil模板格式生成的计算问题中的各计算任务之间的依赖特性进行分析，包括依赖传递特性分析和强弱依赖方向分析；

步骤二、参数搜索：根据步骤一中依赖特性分析结果，使用四种参数搜索模式进行最优的着色规则参数搜索；

步骤三、计算任务划分：根据步骤二获取的最优的着色规则参数为每个计算任务着色，并将相同颜色的计算任务分为一组，不同颜色的计算任务分为不同组，总的颜色数即为计算任务的总的划分组数，完成计算任务的划分。

优选地，所述计算任务之间的依赖传递特性分析方法为：

对于输入的三维数据，采用(n，n，n)三维规则着色，在x、y、z三个方向上每间隔n-1个点均使用相同的颜色进行着色；当n＝k时，保持k-1层的依赖关系，k＞2；记录当n＝[2，k]时CG计算对应的迭代次数，并使用实验数据画出迭代次数随n变化的曲线，如果迭代次数随着n的增加有下降的变化趋势，则验证了当前的计算问题存在依赖传递特性。

优选地，所述计算任务之间的强、弱依赖方向分析方法为：

首先根据计算问题所采用的stencil格式中各个依赖点相较于中心点的x、y、z偏移量中的最大值生成d；然后对于x、y、z三个方向中的每一个方向，固定其他两个方向的维度在着色规则中对应位置的值为d，当前方向的维度在着色规则中对应位置的值为m，其中m＝[d，N]，N＞d，使用实验数据分别画出三个方向的迭代次数随m变化的曲线，将三组数据中变化较为明显的方向设定为强依赖方向，而变化较小的方向设定为弱依赖方向。

优选地，所述四种参数搜索模式包括：点搜索模式、层搜索模式、方向搜索模式和网格搜索模式。

优选地，步骤二中最优的着色规则参数搜索方法为：

根据设定的搜索模式及其对应的参数在参数空间中生成一系列的着色规则参数，然后遍历每一个着色规则，按照给定的着色规则进行计算任务的划分和重排，选择使得整体迭代次数最少的着色规则参数(n'_x,n'_y,n'_z)。

优选地，步骤三中执行未引入分块策略的着色过程为每个计算任务着色；当着色规则参数存在一维或者多维为1时，还能够选择性地执行引入了分块策略的着色过程为每个计算任务着色。

本发明公开了以下技术效果：

(1)本发明通过设计各计算任务之间的两种依赖特性分析方案，能够验证计算任务之间的依赖传递现象并指出计算问题中的强、弱依赖方向，在强依赖方向上考虑更多层的依赖，在弱依赖方向上考虑较少层的依赖，保证了在相同颜色数的限制下，保留更多的核心依赖关系，从而有效减少了计算的整体迭代次数，并提高了着色质量；同时，本发明提出了四种参数搜索模式，便于进行最优着色规则参数的搜索，有效提高了着色质量。

(2)本发明着色过程简单，易于实现，能够快速移植到各种众核平台。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明面向规则网格问题的结构化着色方法整体流程示意图；

图2为四种参数搜索模式对应的搜索空间示意图；

图3为未引入分块策略的着色流程示意图；

图4为引入分块策略的着色流程示意图；

图5为八种stencil对应的空间结构图；

图6为本发明规则着色方法与其他图着色方法在不同stencil中的着色效果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照附图1-6所示，本实施例提供一种众核平台上面向规则网格问题的结构化着色方法，包括如下步骤：

计算任务之间的依赖传递特性的具体分析方法为：

对于输入的三维数据，采用(n，n，n)三维规则着色，在x、y、z三个方向上每间隔n-1个点均使用相同的颜色进行着色。当n＝2时，可以保持3D点域中的一层依赖关系，n的值每增加一，就多保持一层的依赖关系，即当n＝k时，就可以保持k-1层的依赖关系，k＞2。记录当n＝[2，k]时CG计算对应的迭代次数，并使用实验数据画出迭代次数随n变化的曲线，如果迭代次数随着n的增加有下降的变化趋势，则验证了当前的计算问题存在依赖传递特性，并进一步进行计算问题中的强、弱依赖方向的分析。

计算任务之间的强、弱依赖方向的具体分析方法为：

首先根据计算问题所采用的stencil格式中各个依赖点相较于中心点的x、y、z偏移量中的最大值生成d；然后对于x、y、z三个方向中的每一个方向，固定其他两个方向的维度在着色规则中对应位置的值为d，当前方向的维度在着色规则中对应位置的值为m，其中m＝[d，N]，N＞d。使用实验数据分别画出三个方向的迭代次数随m变化的曲线，将三组数据中变化较为明显的方向设定为强依赖方向，而变化较小的方向设定为弱依赖方向。

其中参数搜索模式包括点搜索模式、层搜索模式、方向搜索模式和网格搜索模式四种，四种搜索模式对应的搜索空间示意图如图2所示，具体工作流程为：

点搜索模式：针对给定的着色规则(x，y，z)行测试。

层搜索模式：针对给定的最小依赖层数v.min、最大依赖层数v.max和层数跨度v.stride参数在参数空间中生成包含起始点(v.min，v.min，v.min)、终止点(v.max，v.max，v.max)和两者之间按跨度(v.stride，v.stride，v.stride)均匀分布的一系列着色规则，从而进行多轮的CG测试。

方向搜索模式：针对设定的固定方向依赖层数fv、非固定方向最小依赖层数u.min、最大依赖层数u.max和层数跨度u.stride以及选定的方向k参数在参数空间中生成平行于k轴的线段上的一系列具有固定间隔的着色规则，从而进行多轮的CG测试。

网格搜索模式：通过设定三个维度的最小依赖层数x.min、y.min、z.min和最大依赖层数x.max、y.max、z.max给定一个三维的搜索区间，并通过设定三个维度的层数跨度x.stride、y.stride、z.stride来设置搜索网格；还可以通过设定最小颜色数、最大颜色数和起始搜索点来缩减搜索空间，从而加速参数搜索过程。

步骤三、计算任务划分：根据步骤二获取的最优的着色规则参数(n'_x,n'_y,n'_z)，如果(n'_x,n'_y,n'_z)的每一维都不为1，则执行未引入分块策略的着色过程，如果(n'_x,n'_y,n'_z)存在一维或者多维为1时，可以执行未引入分块策略的着色过程，还可以选择性地执行引入了分块策略的着色过程，从而得到颜色数组和重排数组。其中，颜色数组存放每个计算任务索引对应的颜色索引，而重排数组则按照颜色索引顺序存放计算任务索引。根据颜色数组和重拍数组完成着色后，将相同颜色的计算任务分为一组，不同颜色的计算任务分为不同组，总的颜色数即为计算任务的总的划分组数，实现了计算任务的划分。

未引入分块策略的着色过程如图3所示，具体如下：

(1)通过如下公式来计算为每个计算任务所赋予的颜色C(i)：

C(i)＝idx％n’_x+(idy％n’_y)*n’_x+(idz％n’_z)*n’_x*n’_y

其中，n'_x，n'_y，n'_z分别表示在x、y、z三个方向上保持依赖的层数；idx，idy，idz分别表示计算任务在3D点域中x、y、z三个方向的3D索引值。如果已经将计算任务的索引按照x、y、z的次序组织成了1D索引的形式，则可以通过下面的公式来进行1D索引到3D索引的转换：

其中dx，dy分别表示输入数据的x、y维度的大小。

(2)计算每个颜色对应的计算任务总数，并按照颜色索引顺序进行前缀和累加，从而得到每个颜色对应的起始存储位置索引。

(3)对于每个计算任务，在颜色数组中获取当前任务v的颜色索引C(v)，然后根据C(v)获取提前计算好的当前颜色对应的起始存储位置索引，并且计算当前任务在当前颜色里的局部位置索引，最后根据这两个位置索引就可以得到当前顶点需要写入到重排数组中的具体位置索引。

(4)根据计算出来的重排数组位置索引写入当前计算任务索引。

引入了分块策略的着色过程如图4所示，具体如下：

(1)根据着色规则计算块大小(bx，by，bz)，将n'_x，n'_y，n'_z中为1的维度对应的大小设置为数据规模中该维对应的大小，其他维的块大小则设置为1。

(2)按照块大小对计算任务进行三维划分，然后以块为单位调用未引入分块策略的着色过程，得到块颜色数组和块重排数组。

(3)根据块颜色数组生成点颜色数组。根据如下公式计算出每个计算任务点对应的块索引bid，然后使用块索引得到当前块的颜色

作为当前顶点的颜色写入到点颜色数组中。

bid＝idz/bz*cx*cy+idy/by*cx+idx/bx

其中bx，by，bz分别表示x、y、z三个方向上块的大小，cx，cy，cz分别表示数据分块后x、y、z三个方向上块数量。

(4)根据块重排数组生成点重排数组。在引入分块着色后，重排数组需要在按照颜色索引递增顺序进行排序的基础上，同一个颜色内还需要按照块索引递增的顺序进行排序。首先对块重排数组进行索引反转，然后计算每一个计算任务点对应的块索引和块内位置索引，根据块索引获取当前计算任务所在块在重排数组中的起始位置，并定位当前计算任务需要写入到重排数组中的具体位置，从而将当前计算任务的索引写入到点重排数组的对应位置中。其中要注意的是，索引反转结束后需要进行一次全局同步。

本实施例采用AMD的GPU平台对面向规则网格问题的结构化着色方法进行验证，选取包含HPCG的27点stencil在内的八种stencil格式进行测试，八种stencil格式对应的空间结构如图5所示，测试采用的计算规模为(128,128,128)。在八种stencil格式生成的计算问题下，本发明规则着色方法和现有技术中经典的SG方法、JPL方法和CC方法的着色效果对比如图6所示，可以看出，在大多数情况下，本发明规则着色方法都可以给出相较于其它着色方法相同甚至更优的着色效果；并且从整体上看，本发明规则着色方法始终可以达到更少的HPCG迭代次数，而且达到相同迭代次数的着色方案对应的颜色数也更少，以参考版程序的50次迭代所达到的残差为阈值，规则着色方法最多可以减少4次迭代，平均减少2.25次迭代。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种众核平台上面向规则网格问题的结构化着色方法，其特征在于，包括如下步骤：

步骤二、参数搜索：根据步骤一中依赖特性分析结果，使用四种参数搜索模式进行最优的着色规则参数搜索；最优的着色规则参数搜索方法为：

根据设定的搜索模式及其对应的参数在参数空间中生成一系列的着色规则参数，然后遍历每一个着色规则，按照给定的着色规则进行计算任务的划分和重排，选择使得整体迭代次数最少的着色规则参数(n'_x,n'_y,n'_z)，n'_x，n'_y，n'_z分别表示在x、y、z三个方向上保持依赖的层数；

步骤三、计算任务划分：根据步骤二获取的最优的着色规则参数为每个计算任务着色，并将相同颜色的计算任务分为一组，不同颜色的计算任务分为不同组，总的颜色数即为计算任务的总的划分组数，完成计算任务的划分；

所述计算任务之间的依赖传递特性分析方法为：

对于输入的三维数据，采用(n，n，n)三维规则着色，在x、y、z三个方向上每间隔n-1个点均使用相同的颜色进行着色；当n＝k时，保持k-1层的依赖关系，k＞2；记录当n＝[2，k]时CG计算对应的迭代次数，并使用实验数据画出迭代次数随n变化的曲线，如果迭代次数随着n的增加有下降的变化趋势，则验证了当前的计算问题存在依赖传递特性；

所述计算任务之间的强、弱依赖方向分析方法为：

首先根据计算问题所采用的stencil格式中各个依赖点相较于中心点的x、y、z偏移量中的最大值生成d；然后对于x、y、z三个方向中的每一个方向，固定其他两个方向的维度在着色规则中对应位置的值为d，当前方向的维度在着色规则中对应位置的值为m，其中m＝[d，N]，N＞d，使用实验数据分别画出三个方向的迭代次数随m变化的曲线，将三组数据中变化最大的方向设定为强依赖方向，而变化最小的方向设定为弱依赖方向。

2.根据权利要求1所述的众核平台上面向规则网格问题的结构化着色方法，其特征在于，所述四种参数搜索模式包括：点搜索模式、层搜索模式、方向搜索模式和网格搜索模式。

3.根据权利要求1所述的众核平台上面向规则网格问题的结构化着色方法，其特征在于，步骤三中执行未引入分块策略的着色过程为每个计算任务着色；当着色规则参数存在一维或者多维为1时，还能够选择性地执行引入了分块策略的着色过程为每个计算任务着色。