CN114970294A

CN114970294A - 基于神威架构的三维应变仿真pcg并行优化方法及系统

Info

Publication number: CN114970294A
Application number: CN202210922499.6A
Authority: CN
Inventors: 潘景山; 肖磊; 田敏; 杜伟; 张赞军; 刘弢
Original assignee: National Supercomputing Center in Jinan
Current assignee: National Supercomputing Center in Jinan
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-08-30
Anticipated expiration: 2042-08-02
Also published as: CN114970294B

Abstract

本发明属于数据处理技术领域，提供了基于神威架构的三维应变仿真PCG并行优化方法及系统，该方案通过对弹性体三维应变仿真PCG迭代算法数据划分优化、从核访存优化、双缓冲优化策略、任务并行与数据并行结合优化、从核间RMA通信优化，该方法为针对神威新一代超算平台开发、移植或优化应变弹性固体的平衡仿真程序的开发人员提供了一种通用的优化方法。

Description

基于神威架构的三维应变仿真PCG并行优化方法及系统

技术领域

本发明属于数据处理技术领域，尤其涉及基于神威架构的三维应变仿真PCG并行优化方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

弹性体的三维应变仿真分析应用于很多大型的工程之中，例如地基应力与沉降计算原理、混凝土材料受拉劈裂实验的力学原理，工程应变分析、结构中的剪力滞后问题等。在弹性体的三维应变仿真分析过程中，采用了PCG迭代的方式来进行方程组的求解，这也是整个程序的计算密集算法。

PCG(Preconditioned Conjugate Gradient，预处理共轭梯度算法）是一种利用多次迭代对方程组进行求解的方法。相比于使用直接法求解方程组，其对于存储空间的要求不高且扩展性良好，在涉及方程组求解的科学计算应用中具有一定的优势。大规模方程组求解在高性能计算机上进行计算时，使用直接法往往会因为程序的崩溃而导致之前的计算成为无效计算。再次进行计算时，之前已经计算过的部分要进行重新计算，浪费了大量的时间与计算资源，使用PCG算法能够有效地解决这一问题。

但目前在神威新一代国产超算中并没有针对神威架构对PCG算法的相关优化研究，这使得PCG算法在神威架构上难以发挥其收敛速度快、存储量小的等优势特点。

同时随着实际工程所要求精度的提高，单一计算机难以满足各种实际应用的模拟要求，需借助高性能计算机来进行一系列应用的仿真与模拟。

神威新一代超级计算机系统继承和发展了“神威·太湖之光”体系架构，基于神威新一代高性能异构众核处理器和互连网络芯片构建。系统由运算系统、互连网络系统、软件系统、外围服务系统、维护诊断系统、电源系统、冷却系统组成，支持MPI、OpenMP、OpenACC等并行编程环境神威新一代超级计算机编译器得到了极大的优化，然而从核受限于LDM空间大小，使得弹性体的三维应变仿真程序无法直接在从核运行，无法直接有效的利用神威新一代超级计算机强大的计算能力。

目前虽然有一些并行有限元相关的程序优化，但是并没有针对神威架构对弹性体的三维应变仿真程序中的PCG算法的相关优化研究，这使得弹性体的三维应变仿真程序在神威架构上计算时间较长，不利于进行仿真模拟。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供基于神威架构的三维应变仿真PCG并行优化方法，其针对神威新一代超级计算机体系结构的特征以及PCG算法优化的需要，提供了高效的并行实现方式，该优化方法的提出对于弹性体的三维应变仿真程序以及PCG算法在国产高性能计算平台高效应用有一定的指导意义。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供基于神威架构的三维应变仿真PCG并行优化方法，该方法基于SW26010 Pro处理器实现，包括如下步骤：

对弹性体三维应变仿真程序进行剖分，寻找程序中计算密集型算法部分；

将程序中计算密集型算法部分分割为多个计算任务，并行分发至一个或多个主核；

每个主核将任务对应的数据进行分割，将其分发给一个或多个从核进行并行计算；

从核将程序中计算密集型算法的迭代结果回传至主核。

作为一种可能的实施方式，所述对弹性体三维应变仿真程序进行剖分，寻找程序中计算密集型算法部分通过采用手动插桩的形式，在程序内部进行细粒度的热点分析。

作为一种可能的实施方式，程序中计算密集型算法部分通过MPI将计算任务以有限元的形式分发至主核，主核得到的有限元的数量就是算法中循环最外层的维度。

作为一种可能的实施方式，从核采用静态数组的形式接收分发的数据。

作为一种可能的实施方式，从核进行计算时，采用双缓冲优化策略，在局部定义两个等同的数据数组，形成输出双缓冲，在本次计算中同时将上次计算的结果发回主存。

作为一种可能的实施方式，所述双缓冲优化策略具体包括当输入的是计算本轮次时，发起下个轮次的数据指令，当下一轮判断数据传到之后开始进行计算，接着发起下一轮次的数据传输指令，通过这种方案将计算与数据传输时间重叠。

作为一种可能的实施方式，从核采用DMA数据传输的形式访问主存。

作为一种可能的实施方式，从核进行并行计算时，采用向量化部件SWSIMD进行处理数据。

作为一种可能的实施方式，不同从核间采用RMA传输的通信方式进行消息传递。

本发明的第二个方面提供基于神威架构的三维应变仿真PCG并行优化系统，包括：

算法搜索模块，用于对弹性体三维应变仿真程序进行剖分，寻找程序中计算密集型算法部分；

任务分发模块，用于将程序中计算密集型算法部分分割为多个计算任务，并行分发至一个或多个主核；

数据分发模块，用于每个主核将任务对应的数据进行分割，将其分发给一个或多个从核进行并行计算；

数据回传模块，用于从核将程序中计算密集型算法的迭代结果回传至主核。

与现有技术相比，本发明的有益效果是：

1、本发明通过PCG迭代算法数据划分优化、从核访存优化、双缓冲优化策略、任务并行与数据并行结合优化、从核间RMA通信优化，该方法为针对神威新一代超算平台开发、移植或优化应变弹性固体的平衡仿真程序的开发人员提供了一种通用的优化方法。

2、本发明采取任务并行与计算并行相结合的方式进行，应用任务并行能够解决问题的任务分割，分布在一个或者多个主核上进行程序的执行；数据并行能够将问题的数据进行分割，将分割好的数据放在一个或者多个从核上执行。本发明充分结合两种并行方法的优势，极大的提高了程序的计算效率。

3、本发明在数据分块时，将PCG整个迭代过程平均划分给每个从核，每个从核都有自己单独的计算任务，并且能够加快迭代速度，且不会产生数据依赖问题。在每个从核内部，通过DMA通信拉取数据时，充分考虑了数据所占有的空间大小。进一步的减少了DMA传输次数，优化了由于频繁数据传输而损失的计算时间。

4、本发明通过双缓冲优化，将通信与计算重合，提高从核访存效率。

5、使用神威新一代超级计算机的向量化部件SWSIMD提高应变弹性固体的平衡仿真程序的运行效率；实现对神威新一代超级计算机计算资源的充分利用，提升程序计算性能，缩短仿真花费时间。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例弹性体三维应变仿真PCG并行优化方法整体流程示意图；

图2是本发明实施例弹性体三维应变仿真PCG并行优化方法整体流程示意图；

图3是本发明实施例主核和从核通信示意图；

图4是本发明实施例PCG迭代算法优化前后实验对比图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释

弹性体是能够产生可逆的弹性变形的固体，是一种经典的理想化模型。弹性体应变指的是在外力的作用之下，能够改变物体的形状和尺寸，产生形变；当外力除去后，弹性体能够完全恢复至原状。

有限元方法是描述弹性体的三维应变仿真程序的一种方法。

基于新一代神威超级计算机编程平台指的是新一代神威超级计算机的编程特点：主核的编译器支持C，C++和Fortran等编程语言，使用时需要引入“athread.h”头文件，从核上的编译器与神威·太湖之光的编译器相比，新增支持C++语言，使用时需要引入“slave.h”头文件。

实施例一

本实施例采用MPI+athread架构进行并行计算，应用会有多个核组分别执行不同的PCG迭代，主从核协同合作，将模型中的网格点分别分到不同的主核中，再由主核分配给其附属从核进行计算，如图1-图3所示。

如图1所示，本实施提供基于神威架构的三维应变仿真PCG并行优化方法，包括如下步骤：

步骤1：对弹性体三维应变仿真程序进行剖分，寻找程序中计算密集型算法部分即PCG迭代算法部分；

步骤2：将程序中计算密集型算法部分分割为多个计算任务，并行分发至一个或多个主核；

步骤3：每个主核将任务对应的数据进行分割，将其分发给一个或多个从核进行并行计算；

步骤4：从核将程序中计算密集型算法的迭代结果回传至主核。

上述技术方案的优点在于，在并行计算中，采用任务并行优化与数据计算并行优化相结合的方式进行弹性体三维应变仿真PCG的优化；

应用任务并行能够解决问题的任务分割，将应用任务分布在一个或者多个主核上进行程序的执行；

数据计算并行能够将问题的数据进行分割，将分割好的数据放在一个或者多个从核上执行，通过充分结合两种并行方法的优势，极大的提高了程序的计算效率。

主核主要用来控制计算逻辑，从核主要用来进行复杂而密集的浮点计算。因此，主从核协同合作，能够充分的利用神威新一代超级计算机的计算能力，加快应变弹性固体的平衡仿真程序的执行效率。

如图2-图3所示，本实施例是基于神威新一代超级计算机体系架构进行构建的，神威新一代超级计算机基于SW26010 Pro处理器构建而成，该芯片包含六个核组，每个核组内部，有1个主核和64个从核。

神威新一代超级计算机体系结构为基于SW26010 Pro处理器构建的超算平台，每个处理器包含6个核组，每个核组包含一个主核（MPE）64个从核（CPE），从核分布在8×8的阵列中；神威新一代超级计算机体系结构的算法为利用主核与从核计算能力的应变弹性固体的平衡仿真有限元算法；

该优化方法根据所分配的核组数量，将求解的未知元合理的分配到各个从核中。

采用上述方案的技术优点在于，应用和数据的分块均是基于处理器架构实现的，而目前其他的处理器的架构均是采用4核心，和本实施例中的神威架构体系不同，在其架构上对三维应变仿真程序的计算时间较长，不利于进行仿真模拟。

其中，步骤1中，所述对弹性体三维应变仿真程序进行剖分，寻找程序中计算密集型算法部分为采用手动插桩的形式，在程序内部进行细粒度的热点分析。

通过该技术方案，可以寻找程序算法中符合神威新一代超级计算机体系结构加速的计算密集型算法部分，并将该部分算法改写针对神威新一代超级计算机编程平台的算法。

神威新一代超级计算机体系架构中的空间限制指的是LDM（局部数据存储器）的从核的局部存储器相比神威·太湖之光（64KB）扩大至256KB，但是这仍然是一个较小的存储空间，并且存储空间无法100%的利用，要留有一部分作用于其他的开销，所以LDM的大小应小于240KB；

对于传输效率来说，神威新一代超级计算机的局限性在于，采取DMA（DirectMemory Access，直接存储器访问）进行传输必须要以128B进行严格的对界，只由数据传输量达到128B的倍数的时候才能在理论上达到DMA传输的峰值性能。

因此，在本实施例中，利用MPI（MessagePassing Interface，信息传递接口）将elements（有限元）的总数分发（分发形式）到各个主核上去；

其中，所以每个主核分发到的element数量为：

由于每个主核分发到的elements数量就是循环最外层的维度，经过数据量的估计，本实施例中，采取在循环最外层就进行分块，由于从核阵列采取8×8的形式进行堆叠，于是每个从核分发到的element数量为：

步骤3中，要考虑从核内部细粒度的数据拉取，由于从核局部存储器有限（256KB），本实施例中，从核采取静态数组的形式接收分发的相应数据，具体包括：

预先在每个从核申请了double类型的数组，数组元素数量为23000，占有180KB的局存，由于小于局存上限256KB。

由于该热点计算部分，需要三个数组，暂且列为a,b,c，维度分别是60*60，60，60。

在每个从核中，需要拉取若干个连续的数组b与数组c，以数组b为例，该数组所占有的内存为：

最后剩余的空间，需要频繁的拉取数组a，在此期间会进行多次的DMA数据传输，使用循环展开的分法，使同一时间步内执行连续的数据块。

上述技术方案的优点在于，在进行数据分块时，将pcg整个迭代过程平均划分给每个从核，每个从核都有自己单独的计算任务，并且能够加快迭代速度，且不会产生数据依赖问题。

由于神威新一代超级计算机，在从核内部可通过gld/gst离散访主存，这样频繁的离散访问主存会使得计算效率大打折扣。

本实施例中，所述从核采用DMA数据传输方式访问主存；DMA是一种高速的数据传输操作，利用它可以在外部设备和存储器之间直接读写数据，不需CPU介入处理。采用DMA传输能够大大优化从核访问主存这样一个问题。

在每个从核内部，通过DMA通信拉取数据时，充分考虑了数据所占有的空间大小。进一步的减少了DMA传输次数，优化了由于频繁数据传输而损失的计算时间。

DMA传输优化使用神威新一代超级计算机的crts_dma_iget接口，根据从核所需的数据，使用crts_dma_iget接口编写从核拉取主存数据的传输过程。

步骤3中，从核进行计算时，采用双缓冲优化策略将计算与数据传输时间重叠，双缓冲优化指在从核局存中开辟2倍于所传递数据大小的空间用于存放互为缓冲的数据，原理类似MPI的非阻塞异步传输，能够提高计算效率。

具体包括：

进行计算时，在局部定义两个等同的数据数组，形成输出双缓冲，在本次计算中同时将上次计算的结果传回主存。

当输入的是计算本轮次时，发起下个轮次的数据指令，当下一轮判断数据传到之后开始进行计算，接着发起下一轮次的数据传输指令，通过这种方案可以将计算与数据传输时间重叠，从而消除等待数据时间。

本实施例中，考虑到原有的从核间通信技术主要是依赖于用C语言的内联汇编语言在计算核心上通过阵列中同行/同列核心间的通信。这样的通信方式具有一定的局限性，不能够灵活高效的进行从核之间的消息传递。

步骤3中，从核进行并行计算时，采用神威新一代超级计算机的向量化部件SWSIMD（Single Instruction Multiple Data，单指令多数据）根据一条指令处理多个数据。

由于SW26010 Pro众核处理器主核支持的SIMD 处理长度为 256 位，从核支持的SIMD 处理长度为 512 位。使用SIMD时，对于循环来说必须单一的出口才能进行使用，含有判断语句的循环不适用SIMD。SW26010 Pro众核处理器主核支持 256 位 SIMD 扩展指令，从核支持 512 位 SIMD 扩展指令，该功能的增加，不仅能够降低功耗，而且在一定程度上提升了指令级并行的能力。

可以理解为，向量化计算就是将一个循环处理一个数组的时候每次处理1个数据共处理N次，转化为vectorization处理一个数组的时候每次同时处理8个数据共处理N/8次。

举例说明：

向量化之前：

int a (N),b (N),c (N)

for(i=0; i < N; i++)

{

a[i]=b[i]+c[i]

}

向量化之后：

int a (N),b (N),c (N)

for(i=0; i < N; i=i+16)

{

a[i+15:i]=b[i+15:i]+c[i+15:i]

}

通过向量化后，可以提高应变弹性固体的平衡仿真程序的运行效率。

步骤3中，本实施例采用RMA传输的通信方式进行消息传递，使得从核间可以任意进行通信，避免了两个从核要进行传输而多次传输的情况，在一定程度上提高了从核间的通信效率。

变量依赖关系及空间结构分析包括对核心段程序变量进行分析，判断是否存在数据依赖关系，进一步采取从核之间RMA通信机制进行处理。并充分计算各个数据段所占有的内存空间，合理规划从核的数据拉取操作。

通过上述并行优化方案，可以对一些难以对界的数据进行冗余的填充，使得数据能够规则的对齐，保证数据的完整性，并合理设计循环的条件。

实验

1.测试环境：神威新一代超级计算机原型机；

2.测试模型：正六面体，每个区域拥有20个顶点，在实验中该模型允许pcg最大迭代次数为2000次；

3.测试核心：1个主核，64个从核。

从图4所示的加速比可以看出，在单个核组上运行时，使用本发明MPI+athread加速方法可以显著提升计算效率，局部获得10倍以上加速，整体获得9倍以上加速。

通过上述实验结果可以得到：利用本发明来优化PCG迭代相关的科学计算应用程序，相对于未优化的程序有明显的计算加速效果，可以充分利用神威新一代超级计算机SW26010pro芯片，发挥国产超算强大的计算能力，加快应变弹性固体的平衡仿真程序的执行效率。

实施例二

本实施例提供基于神威架构的三维应变仿真PCG并行优化系统，包括：

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于神威架构的三维应变仿真PCG并行优化方法，其特征在于，该方法基于SW26010Pro处理器实现，包括如下步骤：

从核将程序中计算密集型算法的迭代结果回传至主核。

2.根据权利要求1所述的基于神威架构的三维应变仿真PCG并行优化方法，其特征在于，所述对弹性体三维应变仿真程序进行剖分，寻找程序中计算密集型算法部分通过采用手动插桩的形式，在程序内部进行细粒度的热点分析。

3.根据权利要求1所述的基于神威架构的三维应变仿真PCG并行优化方法，其特征在于，程序中计算密集型算法部分通过MPI将计算任务以有限元的形式分发至主核，主核得到的有限元的数量就是算法中循环最外层的维度。

4.根据权利要求1所述的基于神威架构的三维应变仿真PCG并行优化方法，其特征在于，从核采用静态数组的形式接收分发的数据。

5.根据权利要求1所述的基于神威架构的三维应变仿真PCG并行优化方法，其特征在于，从核进行计算时，采用双缓冲优化策略，在局部定义两个等同的数据数组，形成输出双缓冲，在本次计算中同时将上次计算的结果发回主存。

6.根据权利要求5所述的基于神威架构的三维应变仿真PCG并行优化方法，其特征在于，所述双缓冲优化策略具体包括当输入的是计算本轮次时，发起下个轮次的数据指令，当下一轮判断数据传到之后开始进行计算，接着发起下一轮次的数据传输指令，通过这种方案将计算与数据传输时间重叠。

7.根据权利要求1所述的基于神威架构的三维应变仿真PCG并行优化方法，其特征在于，从核采用DMA数据传输的形式访问主存。

8.根据权利要求1所述的基于神威架构的三维应变仿真PCG并行优化方法，其特征在于，从核进行并行计算时，采用向量化部件SWSIMD进行处理数据。

9.根据权利要求1所述的基于神威架构的三维应变仿真PCG并行优化方法，其特征在于，不同从核间采用RMA传输的通信方式进行消息传递。

10.基于神威架构的三维应变仿真PCG并行优化系统，其特征在于，包括：