CN116226587A

CN116226587A - 一种辐射流体力学方程组amg并行优化方法及系统

Info

Publication number: CN116226587A
Application number: CN202310209538.2A
Authority: CN
Inventors: 田敏; 刘岳; 杜伟; 张赞军; 王英龙; 杨美红; 潘景山
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-06-06

Abstract

本公开提供了一种辐射流体力学方程组AMG并行优化方法及系统，涉及数据计算处理技术领域，方法包括构建辐射流体力学方程组，读入方程组并初始化基本参数；利用代数多重网格法AMG对所述辐射流体力学方程组进行求解；其中，在所述代数多重网格法AMG的求解过程中，在从核中采用优化后的混合GS光滑算子进行光滑计算，包括为每个从核动态构建缓存数组；根据构建的缓存数组，将计算任务从主核分配后索引映射到每个从核；所述每个从核对需要参与计算的数据进行遍历计算，然后将迭代结果回传至主核。本公开加快了RHD方程的求解速度。

Description

一种辐射流体力学方程组AMG并行优化方法及系统

技术领域

本公开涉及数据计算处理技术领域，具体涉及一种辐射流体力学方程组AMG并行优化方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

辐射流体力学是描述热辐射在流体中的传播以及该辐射对一般流体运动的影响的学科，辐射流体力理论在天体物理，激光核聚变以及超新星爆炸理论等领域应用广泛。高能量密度状态下的流体运动与能量传输是一个非常复杂的过程，可由一组辐射流体力学方程组(Radiation Hydrodynamics,RHD)来描述。此类问题由于物理结构、多尺度等因素影响，方程组求解有很大难度，是重要的计算挑战性问题。

代数多重网格法(Algebraic Multigrid,AMG)是求解RHD问题最有效的方法之一，同时也是线性椭圆型微分方程求解中常用的收敛性最好的预调节器之一。大规模方程组求解在高性能计算机上进行计算时，常规的迭代求解方法对低频误差的收敛速度较慢，此时使用AMG方法进行粗细网格的交替使用弥补这些迭代方法的缺陷，通过一个光滑过程将迭代误差中的高频分量消除，剩余低频分量则通过在粗网格上求解一个规模更小的线性系统进行消除(粗网格校正)。对粗网格上的线性系统，递归同样的过程，直到粗网格规模足够小为止。其中，光滑算子的作用是通过光滑基础误差从而在较粗的网格上准确有效地近似，通常采用雅可比(Jacobi)或高斯赛德尔(Gauss-Seidel，GS)等松弛迭代方法实现。

完整的AMG算法可分为建立(Setup)和求解(Solve)两个阶段，建立阶段获得网格层次结构并构建限制算子、插值算子等要素，求解阶段通过从细网格到粗网格再到细网格的V型循环(V-cycle)或者进行多次粗细网格交替的W型循环(W-cycle)的方式等实现多层网格的循环求解。

在AMG计算过程中，光滑模块是耗时最长的模块，且光滑计算过程中变量之间存在依赖关系，当前迭代步元素的计算需要使用上一个迭代步元素的数据，且依赖变量的数据分散，所以光滑算子并行优化的最大难点在于数据依赖性强、局部性差和计算访存比低；神威新一代超级计算机由新一代申威众核处理器SW26010pro处理器搭建而成，每个CPU集成6个核组，每个核组包含一个运算控制核心(management processing unit，MPE)和一组8*8的计算核心(computing processing element，CPE)。其中，MPE是一个通用处理器，负责处理程序的逻辑密集部分和系统资源的控制；众多CPE则是一些负责加速程序热点部分的计算核心，每个CPE可以通过唯一的标识进行索引。系统支持MPI、OpenMP、athread和OpenACC的并行模式，使用athread库作为核组内主要的高效加速手段。

目前，在神威系列超级计算机上尚未有适应混合GS光滑算子的主从核高效实现方法。现有混合GS光滑算子不能适应申威众核处理器的特点，使得RHD方程求解中，AMG方法求解时间较长，无法实现大规模激光聚变等复杂应用的快速仿真模拟。

发明内容

本公开为了解决上述问题，实现了一种辐射流体力学方程组的并行AMG优化方法及系统，提出一种基于神威架构优化的代数多重网格法(Algebraic Multigrid,AMG)，加速求解辐射流体力学方程组(Radiation Hydrodynamics,RHD)；针对神威超级计算机体系结构的特征和AMG算法的特点，通过优化AMG算法中耗时最长的混合GS光滑算子，实现RHD方程组的高效并行求解。

根据一些实施例，本公开采用如下技术方案：

一种辐射流体力学方程组AMG并行优化方法，所述方法基于SW26010 Pro处理器实现，包括：

构建辐射流体力学方程组，读入方程组并初始化基本参数；

利用代数多重网格法AMG对所述辐射流体力学方程组进行求解；

其中，在所述代数多重网格法AMG的求解过程中，在从核中采用优化后的混合GS光滑算子进行光滑计算，过程包括：

构建缓存数组，根据构建的缓存数组，将计算任务从主核分配后将索引映射到每个从核；

所述每个从核对需要参与计算的数据进行遍历计算，然后将迭代结果回传至主核。

一种辐射流体力学方程组AMG并行优化系统，其特征在于，包括：

初始化模块，用于构建辐射流体力学方程组，读入方程组并初始化基本参数；利用代数多重网格法AMG对所述辐射流体力学方程组进行求解；

光滑模块，用于在所述代数多重网格法AMG的求解过程中，在从核中采用优化后的混合GS光滑算子进行光滑计算，过程包括：构建缓存数组；根据构建的缓存数组，将计算任务从主核分配后索引映射到每个从核；

所述每个从核对需要参与计算的数据进行遍历计算；

数据回传模块，用于将迭代结果回传至主核。

与现有技术相比，本公开的有益效果为：

本公开的一种辐射流体力学方程组AMG并行优化方法，求解函数基于国产新一代申威众核处理器优化，测试平台为申威众核处理器26010pro，测试计算热点函数V-cycle的用时；

本公开优化后的混合GS算法相较于原始算法，可充分利用申威众核的优势，显著提高计算效率，取得明显的性能优化效果，在RHD算例中使用单进程求解，对比优化前后单次V-cycle的计算时间，得出优化后加速比可达8.9和8。利用本公开优化的AMG方法，可以充分发挥神威新一代超级计算机的计算能力，加快RHD方程的求解速度。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例提供的方法的AMG流程示意图；

图2为本公开实施例提供的方法的V-cycle示意图；

图3为本公开实施例提供方法的从核混合GS流程示意图；

图4为本公开实施例提供方法的方程组优化前后求解的时间对比图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释：

神威新一代超级计算机由新一代申威众核处理器SW26010pro处理器搭建而成，每颗CPU集成6个核组，每个核组包含一个运算控制核心(management processing unit，MPE)和一组8*8的计算核心(computing processing element，CPE)。其中，MPE是一个通用处理器，负责处理程序的逻辑密集部分和系统资源的控制；众多CPE则是一些负责加速程序热点部分的计算核心，每颗CPE可以通过唯一的标识进行索引。系统支持MPI、OpenMP、athread和OpenACC的并行模式，使用athread库作为核组内主要的高效加速手段。

实施例1

本公开的一种实施例中提供了一种基于神威架构求解辐射流体力学方程组的AMG并行优化方法，重点在于基于新一代神威超级计算机架构体系构建，提供一种基于神威架构优化的AMG算法用于加速求解RHD方程，通过优化其中耗时最长的混合GS光滑算子求解，利用申威处理器的从核计算资源，提出高效的RHD方程组并行求解方法，如图1-图3所示。

步骤1：构建辐射流体力学方程组，读入方程组并初始化基本参数；

步骤2：利用代数多重网格法AMG对所述辐射流体力学方程组进行求解。

其中，在步骤2中，利用改进的混合GS光滑算子对AMG算法求解RHD方程进行加速；在所述代数多重网格算法AMG的求解过程中，在从核中采用优化后的混合GS光滑算子进行光滑计算，过程包括：

步骤21：在主存中建立缓存数组；

步骤22：根据构建的缓存数组，将计算任务从主核分配后将索引映射到每个从核；

步骤23：所述每个从核对需要参与计算的数据进行遍历计算，然后将迭代结果回传至主核，输出计算结果。

上述技术方案的优点在于，针对神威超级计算机体系结构的特征和AMG算法的特点，通过优化其中耗时最长的混合GS光滑算子高效求解，提供高效的RHD方程组并行求解方法。

作为一种实施例，具体的，如图1所示，在步骤1中提到，构建辐射流体力学方程组，读入方程组并初始化基本参数；

完整的AMG算法可分为建立(Setup)和求解(Solve)两个阶段，读入方程组并初始化基本参数后，在建立阶段通过嵌套获得不同粗细层网格层次结构并构建用于粗细网格转换的限制算子R、插值算子P等要素，求解阶段通过V-cycle、W-cycle等实现多层网格的循环求解。

如图2所示一个V-cycle的过程，具体为：

以方程组Ax＝b求解为例，A为已知方程组，b为已知向量，求未知向量x。

1.前光滑：由原方程组作为最细层网格开始，对方程组Ax＝b进行混合GS光滑计算，消除频率较大的误差，得到近似解x^f。

2.粗网格校正

2.1计算残差r＝b-Ax^f，将其限制到粗网格层b^k＝Rr；

2.2求解粗网格方程A^kx^k＝b^k；

2.3插值并校正细网格近似解x^f＝x^f+Px^k。

3.后光滑：在细网格上再次使用混合GS算子进行光滑计算，更新近似解x^f。

以上，b^k、A^k、x^k分别为原Ax＝b中经限制后的粗网格层上的b、A和x。

然后，利用代数多重网格算法AMG对所述辐射流体力学方程组进行求解。

作为一种实施例，在所述代数多重网格算法AMG的求解过程中，在从核中采用优化后的混合GS光滑算子进行光滑计算，过程如图1和图3所示，虚框内为从核进行的操作，由优化后的GS光滑的具体过程，具体的：

步骤21中，构建缓存数组；

由于从核组加速运算关键在于实现互不干扰的计算，避免数据依赖的发生。从核加速计算的问题在于各个从核同时进行数据更新，使迭代依赖数据变得不再可靠而产生数据错误，导致迭代次数增加和收敛率降低，即：

在核组主存中构建缓存数组u_temp_data用于缓存向量数据u_data，从核根据需要读取主存相应部分的数据进行计算，实现数据的互不干扰的更新，为每个从核分配独立的计算任务，避免有效数值被并行的计算过程消耗。

步骤22中，根据构建的缓存数组，将计算任务从主核分配后将索引映射到每个从核；此过程是将需要计算的元素数据从主核进行任务分配后映射到从核。

包括：将当前计算任务的本地数据块划分为含有方程组主对角线元素的对角块数据和不含方程组对角线元素的非对角块数据，并以列压缩格式存储到内存中，把需要计算的任务的数据平均分给每个从核，对于余量数据，按照索引号分配至更小的从核。

具体的，各个进程将当前进程N的本地数据块A_n分为对角块数据和

和非对角块数据/>

并以列压缩格式存储到内存。

然后把需要加速计算的数据平均分给64个从核，对于余量数据，分至索引号更小的从核，索引号更小的从核指n的数字更小，当前从核计算的数据索引Ele根据当前从核索引号n、总元素数AllEle决定是否接受额外的元素，充分考虑了数据依赖问题和计算资源的有效利用，总元素数为要计算的数据个数。

第n个从核(n从0开始)需要进行的计算任务索引Ele_n采用如下公式计算：

其中，AllEle表示总元素个数，n表示第n个从核，Ele_n表示数据索引。

在混合GS光滑计算时，先将方程组形成的细网格均分为64个相同大小的数据块，每个从核计算一个数据块。根据网格划分的数据，每个从核对本数据块内的数据进行运算。如图3所示。

包括：

每个从核首先定义用于遍历的变量i，j，k。i的初始值为前文索引Ele_n对应的下界，end为索引Ele_n对应的上界；j，k初值为0，根据元素个数确定终值；index为数据索引映射，由上文公式确定。之后判断是否为当前从核需要计算的数据，每个从核计算自己数据块内数据，不在当前从核任务分配中的数据和无需光滑的数据不进行改动；

若是需要光滑的数据则判断是否为方程组主对角线块，即对角块数据进行计算时需要判断当前计算任务所依赖的元素数据是否在当前从核内；

若计算任务所依赖的元素数据在当前从核内，则采用原始残差减对角块数据和对应向量乘积获得残差，即残差res为原始残差减对角块数据diag_data和对应向量u_data的乘积；

若需要用到的数据不在当前从核时，则通过缓存数组u_temp_data进行计算，从而避免其它从核数据更新对计算结果的影响，通过此步骤，实现了从核并行加速计算的效果。

非对角块数据的计算与对角块数据计算类似，但无需区分非对角块内数据是否位于当前从核。获得残差后用于进一步粗网格校正，u_data数据更新为获得的残差除以上一网格层对应data。

上一步计算完成后，将获得的数据u_data由各个从核传回主核，根据步骤二划分的从核索引，将数据进行同步后传回主内存，用于下一层网格层的计算。

如图4所示，采用的算例为两个RHD方程，求解方程基于国产新一代申威众核处理器优化，测试平台为申威众核处理器26010pro，测试计算热点函数为混合GS模块的用时，如图4表示在下优化前后混合GS函数的在单次V-cycle上的用时。

算例输入并完成建立阶段后插入时间桩，进入V-cycle循环中。V-cycle采用前后单次光滑计算，每层网格上进行一次前光滑计算和一次后光滑计算，在达到设定的计算精度时插入时间桩，比较完成计算的时间。

可以看出，本公开优化后的混合GS算法相较于原始AMG算法，充分利用了申威众核的优势，对函数性能取得了明显的加速效果，显著了提高了计算效率，热点函数部分运行时的加速比可以达到8.9和8。利用公开优化的AMG方法，可以充分发挥神威新一代超级计算机的计算能力，加快RHD方程的求解速度。

实施例2

本公开的一种实施例中提供了一种辐射流体力学方程组AMG并行优化系统，10、包括：

光滑模块，用于在所述代数多重网格算法AMG的求解过程中，在从核中采用优化后的混合GS光滑算子进行光滑计算，过程包括：构建缓存数组；根据构建的缓存数组，将计算任务从主核分配后索引映射到每个从核；

所述每个从核对需要参与计算的数据进行遍历计算；

数据回传模块，用于将迭代结果回传至主核。

所述系统具体执行实施例1中的所述的方法的所有步骤。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种辐射流体力学方程组AMG并行优化方法，其特征在于，所述方法基于SW26010Pro处理器实现，包括：

构建辐射流体力学方程组，读入方程组并初始化基本参数；

为每个从核动态构建缓存数组；根据构建的缓存数组，将计算任务从主核分配后索引映射到每个从核；

2.如权利要求1所述的一种辐射流体力学方程组AMG并行优化方法，其特征在于，所述为每个从核动态构建缓存数组过程为：通过构建缓存数组u_temp_data来缓存计算的数据u_data，以此为每个从核分配独立的计算任务。

3.如权利要求1所述的一种辐射流体力学方程组AMG并行优化方法，其特征在于，根据构建的缓存数组，将计算任务从主核分配后索引映射到每个从核的过程包括：将当前计算任务的本地数据块划分为对角块数据和非对角块数据，并以列压缩格式存储到内存中，把需要计算的任务的数据平均分给每个从核，对于余量数据，按照索引号分配至更小的从核。

4.如权利要求3所述的一种辐射流体力学方程组AMG并行优化方法，其特征在于，每个从核计算的数据索引根据当前从核索引号、总数据数决定是否接受额外的余量数据。

5.如权利要求1所述的一种辐射流体力学方程组AMG并行优化方法，其特征在于，每个从核对需要参与计算的数据进行遍历计算，然后将迭代结果回传至主核的过程包括：首先判断是否为当前从核需要计算的数据，不在当前从核任务分配中的数据和无需光滑的数据不进行改动。

6.如权利要求5所述的一种辐射流体力学方程组AMG并行优化方法，其特征在于，若是需要光滑的数据则判断是否在对角块内，对角块数据进行计算时需要判断当前计算任务所依赖的元素数据是否在当前从核内。

7.如权利要求6所述的一种辐射流体力学方程组AMG并行优化方法，其特征在于，若计算任务所依赖的元素数据在当前从核内，则最终残差为原始残差与对角块数据和对应向量的乘积之差。

8.如权利要求6所述的一种辐射流体力学方程组AMG并行优化方法，其特征在于，若计算任务所依赖的元素数据不在当前从核内，则通过缓存数组进行计算。

9.如权利要求5所述的一种辐射流体力学方程组AMG并行优化方法，其特征在于，所述迭代结果为解向量，将获得的解向量由各个从核回传至主核。

10.一种辐射流体力学方程组AMG并行优化系统，其特征在于，包括：

所述每个从核对需要参与计算的数据进行遍历计算；

数据回传模块，用于将迭代结果回传至主核。