CN108595277A

CN108595277A - 一种基于OpenMP/MPI混合编程的CFD仿真程序的通信优化方法

Info

Publication number: CN108595277A
Application number: CN201810308300.4A
Authority: CN
Inventors: 董小社; 何锋; 张兴军; 张琼; 刘闯; 邹年俊; 肖兮
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-04-08
Filing date: 2018-04-08
Publication date: 2018-09-28
Anticipated expiration: 2038-04-08
Also published as: CN108595277B

Abstract

本发明公开了一种基于OpenMP/MPI混合编程的CFD仿真程序的通信优化方法，具体以下步骤：根据通信负载和计算负载对计算域进行区域分解，划分为可并行求解的若干子域；根据{进程，线程组}的设置情况，确定各个网格块之间的网络拓扑关系，创建并初始化进程间的MPI持久化通信关系；线程间无关计算推进结束后，进程间激活MPI通道进行消息通信，同时线程组内使用共享内存通信，实现网格块之间的边界数据交换；线程组内计算残差，进程间收集最大残差，如果最大残差仍未满足收敛条件返回网格推进步骤进行迭代，否则结束并行计算。从而能有效的提升CFD仿真程序的并行效率。

Description

一种基于OpenMP/MPI混合编程的CFD仿真程序的通信优化方法

技术领域

本发明属于计算流体力学与计算机交叉领域，特别涉及一种基于OpenMP/MPI混合编程的CFD仿真程序的通信优化方法。

背景技术

计算流体动力学(Computational Fluid Dynamics，简称CFD)是伴随着计算机迅速崛起的一门交叉学科分。它为流体力学的理论和工程研究供了廉价的模拟、设计和优化的工具，广泛的服务于传统的流体力学和流体工程领域如航空、航天、船舶、水利等。CFD方法的本质是对流场的控制方程用计算数学的方法将其离散到一系列网格节点上求其离散的数值解的一种方法。因此网格点的规模大小就决定了CFD问题的求解复杂度。计算机发展之初主要是单核模式，计算流体力学仿真程序以串行模式运行，受限于计算机的计算能力，只能对小规模的区域网格进行模拟而且精度不高。

随着超级计算机(简称超算)的不断发展，计算能力也达到千万亿次的峰值。为了借助于多核架构的超级计算机进行计算流体力学的仿真，CFD程序也走向了并行化，并行过程中进程/线程间额外的通信消耗也成为整个仿真程序的瓶颈。超算大多基于对称多处理机(Symmetrical Multi-Processing，简称SMP)的架构，具有整机多机柜，机柜内节点，节点内多CPU，CPU多核的特点，采用单一的共享内存通信OpenMP或者是消息传递通信MPI都无法充分利用超算本身架构的特点。

目前混合编程在CFD仿真程序中的使用较为粗放，大多数仿真程序为了利用超算多核特点简化通信过程，大多采用纯MPI的架构，这种架构在程序规模逼近万核时，进程间频繁消息通信造成的网格带宽压力形成明显的瓶颈。少数使用了OpenMP/MPI混合编程的程序，都只是停留在OpenMP对局部for循环的细粒度展开加速，缺乏相应的优化策略，没有发挥粗粒度OpenMP共享内存通信的优势。

发明内容

本发明的目的在于提供一种基于OpenMP/MPI混合编程的CFD仿真程序的通信优化方法，以解决上述问题。

为实现上述目的，本发明采用以下技术方案：

一种基于OpenMP/MPI混合编程的CFD仿真程序的通信优化方法，包括以下步骤：

步骤一，根据通信负载和计算负载对计算域进行区域分解，划分为可并行求解的若干子域；

步骤二，根据{进程，线程组}的设置情况，确定各个网格块之间的网络拓扑关系，创建并初始化进程间的MPI持久化通信关系；

步骤三，线程间无关计算推进结束后，进程间激活MPI通道进行消息通信，同时线程组内使用共享内存通信，实现网格块之间的边界数据交换；

步骤四，线程组内计算残差，进程间收集最大残差，如果最大残差仍未满足收敛条件则返回步骤二进行迭代，否则并行计算结束。

进一步的，步骤一具体包括以下步骤：

1)根据通信负载将求解网格划分为若干个较大的子网格块，每个进程负责一个网格块的计算；

2)根据计算负载将进程的网格块在划分为若干个较小的网格块，每个线程负责一个小网格块的计算；

线程数，进程数，细分后总的网格块数目满足：

nblocks＝nprocs*nthreads

其中nblocks是总的网格块数目，nprocs是总的进程数，nthreads是每个进程包含的线程数。

进一步的，步骤二具体包括以下步骤：

1)根据{进程，线程组}和网格块的对应关系，设置进程中每个线程计算的网格块边界中分别需要进程间MPI通信和进程内共享缓存通信的拓扑关系；

BlockNum/threads＝procid，BlockNum％threads＝threadid

其中BlockNum代表要和本线程通信的线程所计算的网格块编号，threads代表一个线程组中线程的总个数，procid代表要通信的线程所属的进程号，threadid代表要通信的线程在它的线程组中的线程号。

2)根据拓扑关系对需要进行MPI通信的进程，调用MPI函数MPI_Send_init/MPI_Recv_init创建持久化通信，建立半关闭的通信通道等待激活。

进一步的，每个线程同步的计算需要和本线程通信的其他线程号，并通过判断来确定该线程是否和自己同属一个线程组，如果是则使用共享缓存通信方法，否则就需要在进程之间使用消息通信。

进一步的，步骤三具体包括以下步骤：

1)各线程进行相对独立的CFD推进计算。

2)线程间无关计算推进结束后，根据之前建立的网络拓扑关系，主线程激活进程间MPI通信通道进行数据交换，同时其他副线程进行线程内的OpenMP共享内存通信，实现两种通信方式的重叠，隐藏部分通信等待时间。

进一步的，步骤三具体包括以下步骤：

1)各个线程计算出自己目前推进所得到的残差结果，并写入本线程所在进程的共享缓存；

2)主线程计算出本进程最大残差，同时通过MPI通信收集其他进程的最大残差；获得所有进程最大残差后，根据结果判断继续迭代还是结束。

与现有技术相比，本发明有以下技术效果：

本发明提供的基于OpenMP/MPI混合编程的CFD仿真程序的通信优化方法，首先实现了任务级别的粗粒度OpenMP/MPI混合编程模型，使得问题的划分更加细化，能有效的利用共享内存通信和消息传递通信各自的优势，将两者的特性结合提高CFD仿真程序的通信效率。其次粗粒度的混合编程模型能充分耦合目前超算整机多机柜、机柜内节点、节点内多CPU、CPU多核的物理特性，通过充分挖掘平台特性，提升并行程序的执行效率。最后在通信时将进程间MPI通信交给主线程完成，其他线程同步的进行共享内存通信，避免了所有线程由于进程间的MPI通信造成等待现象，实现了OpenMP通信和MPI通信的重叠，进一步提高了通信效率。

附图说明

图1为本发明提供方法的流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明。

本发明提出的一种基于OpenMP/MPI混合编程的CFD仿真程序的通信优化方法的流程，如图1所示，包括：

步骤A、根据通信负载和计算负载对计算域进行区域分解，划分为可并行求解的若干子域：

步骤A1、根据通信负载将求解网格划分为若干个较大的子网格块，每个进程负责一个网格块的计算，进程间的区域分解算法要使得相邻网格块之间的重叠面要少，减少进程间的通信量。

步骤A2、根据计算负载将进程的网格块在划分为若干个较小的网格块，每个线程负责一个小网格块的计算。主线程负责协调额外开销较大，要分配较少的计算负载即网格数，其他副线程计算能力相当，分配均等的网格数，实现负载均衡。

线程数，进程数，细分后总的网格块数目满足：

nblocks＝nprocs*nthreads (1)

步骤B、根据{进程，线程组}的设置情况，确定各个网格块之间的网络拓扑关系，创建并初始化进程间的MPI持久化通信关系；

步骤B1、根据{进程，线程组}和网格块的对应关系，每个线程同步的计算需要和本线程通信的其他线程号，并通过判断来确定该线程是否和自己同属一个线程组，如果是则使用共享缓存通信方法，否则就需要在进程之间使用消息通信。设置进程中每个线程计算的网格块边界中分别需要进程间MPI通信和进程内共享缓存通信的拓扑关系。

BlockNum/threads＝procid，BlockNum％threads＝threadid (2)

其中BlockNum代表要和本线程通信的线程所计算的网格块编号，threads代表一个线程组中线程的总个数，procid代表要通信的线程所属的进程号，threadid代表要通信的线程在它的线程组中的线程号。通过比对procid可以判断是否是跨进程的MPI通信，通过threadid可以明确共享缓存通信的线程地址。

步骤B2、根据拓扑关系对需要进行MPI通信的进程，调用MPI函数MPI_Send_init/MPI_Recv_init创建持久化通信，建立半关闭的通信通道等待激活。

步骤C、线程间无关计算推进结束后，进程间激活MPI通道进行消息通信，同时线程组内使用共享内存通信，实现网格块之间的边界数据交换；

步骤C1、各线程进行相对独立的CFD推进计算。

步骤C2、线程间无关计算推进结束后，根据之前建立的网络拓扑关系，主线程激活进程间MPI通信通道进行数据交换，同时其他副线程进行线程内的OpenMP共享内存通信，实现两种通信方式的重叠，隐藏部分通信等待时间。

步骤D、线程组内计算残差，进程间收集最大残差，如果最大残差仍未满足收敛条件返回第2)步进行迭代，否则并行计算结束。

步骤D1、各线程计算出自己目前推进所得到的残差结果，并写入本线程所在线程组即进程的共享缓存。

步骤D2、主线程计算出本进程的最大残差，同时调用MPI_Allreduce收集其他进程的最大残差，并得到程序的最大残差后，根据结果判断继续迭代还是结束并行。

实验结果表明，该基于OpenMP/MPI混合编程的CFD仿真程序的通信重叠优化方法能和机器架构充分耦合，发挥节点内多线程OpenMP共享内存通信速度快，使用MPI通信实现分布式的节点间通信，能明显提升万核级的大规模CFD仿真程序效率。

Claims

1.一种基于OpenMP/MPI混合编程的CFD仿真程序的通信优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于OpenMP/MPI混合编程的CFD仿真程序的通信优化方法，其特征在于，步骤一具体包括以下步骤：

线程数，进程数，细分后总的网格块数目满足：

nblocks＝nprocs*nthreads

3.根据权利要求1所述的一种基于OpenMP/MPI混合编程的CFD仿真程序的通信优化方法，其特征在于，步骤二具体包括以下步骤：

BlockNum/threads＝procid，BlockNum％threads＝threadid

其中BlockNum代表要和本线程通信的线程所计算的网格块编号，threads代表一个线程组中线程的总个数，procid代表要通信的线程所属的进程号，threadid代表要通信的线程在它的线程组中的线程号；

4.根据权利要求3所述的一种基于OpenMP/MPI混合编程的CFD仿真程序的通信优化方法，其特征在于，每个线程同步的计算需要和本线程通信的其他线程号，并通过判断来确定该线程是否和自己同属一个线程组，如果是则使用共享缓存通信方法，否则就需要在进程之间使用消息通信。

5.根据权利要求1所述的一种基于OpenMP/MPI混合编程的CFD仿真程序的通信优化方法，其特征在于，步骤三具体包括以下步骤：

1)各线程进行相对独立的CFD推进计算；

6.根据权利要求1所述的一种基于OpenMP/MPI混合编程的CFD仿真程序的通信优化方法，其特征在于，步骤三具体包括以下步骤：