CN114004176A

CN114004176A - 一种均匀结构化网格并行分区方法

Info

Publication number: CN114004176A
Application number: CN202111275622.1A
Authority: CN
Inventors: 张亚英; 吴乘胜; 王建春; 王星; 金奕星
Original assignee: Csic Orlando Wuxi Software Technology Co ltd
Current assignee: Csic Orlando Wuxi Software Technology Co ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-02-01
Anticipated expiration: 2041-10-29
Also published as: CN114004176B

Abstract

本发明提出了一种均匀结构化网格并行分区方法，包括：S1，对象为矩形或长方体计算域并采用均匀、结构化网格对计算域进行离散；S2，判断总进程数是否为质数，若是，则沿网格数量最多的方向实行带状进程分布；若否，执行下一步骤；S3，根据总进程数和X方向的网格数量、Y方向的网格数量、Z方向的网格数量，求得满足计算域并行分区的进程分布方案；S4，若S3中所得进程分布不为整数，则使各个方向进程数之比尽可能近似于各方向网格数之比；S5，若根据S4得到的进程分布无法均分网格，则将各方向的多余网格数r_x，r_y，r_z分别均匀分配在进程。本发明使通信单元分布规律，还在负载均衡前提下，使各进程间的通信数据最少，从而获得最优的并行加速效果及并行效率。

Description

一种均匀结构化网格并行分区方法

技术领域

本发明涉及计算流体力学及并行计算领域，尤其涉及一种均匀结构化网格并行分区方法。

背景技术

当前，流体仿真计算所用的网格规模呈现几何量级增长，由此所导致的计算耗时问题严重影响了工业设计的发展，并行计算技术是当前解决该问题的主要手段，其中网格分区是最常用的并行计算任务分配方法。在并行计算中，负载均衡、通信单元数都是影响并行效率的因素，其中的通信单元数直接影响并行效率。因此，需要在各进程网格规模近似一致的情况下拥有最少的通信单元即影像区单元。

常用的网格分区工具如Metis，主要针对非结构化网格，优点是适应所有网格类型，且能够较好的保证负载均衡。缺点在于，针对结构化网格尤其是非常规则的计算域，如矩形计算域、长方体计算域，划分后的网格并不能利用结构网格在拓扑上的优势优化通信过程，如图1所示。

对于矩形和长方体计算域，当采用均匀结构化网格对计算域进行离散时，由于整体上网格表现出极好的正交性和均匀性，此时可设计使总进程数为X、Y、Z三个方向进程数之积，依此对计算域进行均匀划分，既保证了负载均衡，同时由于在进程边界上是均匀的，其通信单元分布具有明显的规律。如图2，为8进程下长方体计算域所对应的3种区域划分方式，均能够较好的满足负载均衡，但不能够保证通信单元最少，即拥有最优的并行效率。相应的二维矩形计算域16进程下的并行分区如图3所示，同样的，在负载均衡的前提下不能保证找出通信单元数最少的进程分布。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种均匀结构化网格并行分区方法。

为了实现本发明的上述目的，本发明提供了一种均匀结构化网格并行分区方法，包括以下步骤：

S1，对象为矩形计算域并采用均匀、结构化网格对计算域进行离散；

S2，判断总进程数是否为质数，若是，则沿网格数量最多的方向实行带状进程分布；若否，执行下一步骤；

S3，根据总进程数和X方向的网格数量、Y方向的网格数量，求得满足计算域并行分区的进程分布方案；

S4，若S3中所得进程分布不为整数，则使各个方向进程数之比尽可能近似于各方向网格数之比；

S5，若根据S4得到的进程分布无法均分网格，则将X方向的多余网格数r_x，Y方向的多余网格数r_y分别均匀分配在0～r_x-1，0～r_y-1号进程，最终得到各方向的进程分布。

进一步地，所述S3中的满足计算域并行分区的式子为：

P＝m*n；

其中，P为总进程数，m为X方向进程数，n为Y方向进程数。

进一步地，所述S3中的进程分布方案包括：

其中m为X方向进程数，n为Y方向进程数；

A为X方向网格单元数，B为Y方向网格单元数，P为总进程数。

本发明还提供一种均匀结构化网格并行分区方法，包括以下步骤：

S1，对象为长方体计算域并采用均匀、结构化网格对计算域进行离散；

S3，根据总进程数和X方向的网格数量、Y方向的网格数量、Z方向的网格数量，求得满足计算域并行分区的进程分布方案；

S5，若根据S4得到的进程分布无法均分网格，则将X方向的多余网格数r_x，Y方向的多余网格数r_y，Z方向的多余网格数r_z分别均匀分配在0～r_x-1，0～r_y-1，0～r_z-1号进程，最终得到各方向的进程分布。

进一步地，所述S3中的满足计算域并行分区的式子为：

P＝m*n*k；

其中，P为总进程数，m为X方向进程数，n为Y方向进程数，k为Z方向进程数。

进一步地，所述S3中的进程分布方案包括：

其中m为X方向进程数，n为Y方向进程数，k为Z方向进程数；

A为X方向网格单元数，B为Y方向网格单元数，C为Y方向网格单元数。

综上所述，由于采用了上述技术方案，本发明的有益效果是：在网格分区方面针对矩形、长方体计算域，网格划分结果能够充分利用非结构网格额拓扑特征，使通信单元分布规律，为后续的通信设计提供便利，其次给出的寻找最优进程分布方法，能够在保证各进程负载均衡的前提下，使并行计算过程中各进程间的通信数据最少，从而获得最优的并行加速效果及并行效率。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是现有采用Metis对长方体结构化网格进行网格分区示意图。

图2是现有技术对三维8进程下计算域分区方式示意图。

图3是现有技术对二维16进程计算域分区方式示意图。

图4是本发明二维4进程通信单元分布及数量对比示意图。

图5是本发明具体实施的流程示意图。

图6是Metis和本发明网格并行分区结果对比示意图。

图7是计算域分区后的进程排序方式示意图。

图8是本发明网格为180*120*60，64进程下的通信单元数随进程分布的变化趋势示意图。

图9是本发明不同进程分布下3D顶板驱动方腔流MPI并行计算各部分耗时统计图。

图10是本发明不同进程分布下3D顶板驱动方腔流MPI并行计算过程中的通信单元数统计图。

图11是本发明余数放入不同进程的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本实施例公开一种均匀结构化网格并行分区方法，参见图5所示，包括：

S1，对于计算域为长方体，各方向网格数量分别为A、B、C；

S2，判断总进程数是否为质数，若是，执行步骤S6，若否，则执行步骤S3；

S3，采用本发明提供的公式，计算最优的进程分布m、n、k；

m、n、k需要满足两点：必须是整数，通信单元数最少。若是不能均分，则按照文中对余数进行处理。

S4，判断m、n、k是否为整数，若是，执行步骤S7；若否，则执行步骤S5；

S5，寻找整数值m、n、k，使m:n:k接近于A:B:C，然后执行步骤S7；

S6，沿网格量最多的方向进行带状进程分布，然后执行步骤S8；

之所以沿网格量最多的方向是因为：根据通信单元计算公式，只有让“大值/大值”才能保证公式的值最小。以例3为例，各方向的网格数A、B、C分别为180、120、60，对于AC/mk，AB/mn，由于A最大，必须让A对应的m也最大，才能保证最终的值最小。

之所以呈带状分布，是因为进程数为质数，只有1和本身两个因数，因此只能呈带状分布。

S7，若m、n、k无法均分网格，将多余网格数r_x，r_y，r_z，均匀分配在0～r_x-1，0～r_y-1，0～r_z-1号进程，然后执行步骤S8；

通信单元数和各方向进程分布情况以及每个进程内的网格规模有关，此时进程分布m、n、k已经确定，此处的目的是，可以在保证进程网格数不变或者仅发生小规模变化(各方向网格数最多增长1)的情况下，使负载趋于均衡。

S8，结束。

二维情况下的执行流程与上述三维情况下一致，只是减少一个维度。二维、三维情况下的进程分布m，n，k的计算方法(二维情况下，只有m，n)：

在二维情况下，如图4所示，使用圆点表示网格单元，图中为4进程下两种计算域分区方式。一维带状、二维棋盘状指的是网格分区方法，一维带状表示一个方向上进行分切，二维棋盘状，则是包括横切和纵切。其中黑色点表示通信单元即影像区单元，需要和相邻进程进行数据交换；白色点表示内部单元。根据计算结果显示，在图4点数相同的情况下，图4左的通信单元(黑点)数为72，图4右的通信单元数为64。

一般的，在二维情况下，令当前共有A*B个网格单元，P为总进程数，其中A为X方向网格单元数，B为Y方向网格单元数。X方向进程数为m，Y方向进程数为n，根据图4，通信单元数的表达式为：

mn＝P

由于P值固定，通过解方程可以得出，当m、n满足：

此时，通信单元数最少。

相应的三维长方体计算域，网格分布为A*B*C，各方向进程数用m，n，k表示，若不考虑m，n，k为整数的特征，其通信单元数的计算公式及最小通信单元数对应的进程分布为：

mnk＝P

其中，C为Z方向网格单元数，k表示Z方向的进程数。

需要说明的是，根据上述公式得到的m、n、k可能不为整数。此时需要在m、n、k周围寻找整数，满足m*n*k＝P，寻找方法为：①当进程数为质数时，沿网格数量最多的方向实行带状进程分布；②否则，使各个方向进程数之比尽可能近似于各方向网格单元数之比。

当最终所得到的m、n、k无法均分各个方向上的网格时，采用如下方法保证负载均衡：

A为全计算域在X方向上的网格数，m为根据步骤①、②得到的进程分布(整数)，i表示进程在X方向上的位置，a为局部进程在X方向上的网格数，r_x为余数，即：r_x＝A/m。

示意图如图11所示，当网格数不能被进程数均分时，将余下的网格均分至X方向的前r_x个进程内。

Y、Z方向的处理与上述X方向处理一致，在Y、Z方向上，网格数用b，c表示，余数用r_y，r_z表示，r_y＝B/n，r_z＝C/k：

其中，A、B、C分别为全计算域X、Y、Z方向的网格数；

a、b、c分别为进程局部X、Y、Z方向的网格数；

m、n、k分别为X、Y、Z方向的进程数，

之所以这样操作，是因为考虑到进程数很大，那么余数也可能很大，比如100个网格，分给64个进程，此时余数达到36，若是单独放到一个进程里，使一个进程为37，其余进程只是1，这样负载就不均衡了。按照文中的操作，可以前36个进程为2，其余的进程为1，此时的负载均衡程度要好很多。

验证：

例1：长方体计算域，网格分布情况为50*50*50，总进程数为64。

网格分布情况表示X方向网格数为50，Y方向网格数为50，Z方向网格数为50。

如图6所示，采用本发明所示的并行分区方法，分区后的各进程计算域相较于Metis仍保持规则的几何特征。在均匀结构化网格的前提下，能够较好的利用网格拓扑结构，将有利于确定网格单元在进程内的局部编号以及在全局下的全局编号，从而方便求解过程的编程以及通信过程的实现。

方便求解过程的编程体现在，当计算域规则时，对于均匀结构化网格，无论将方程离散在网格体心或网格节点，均能够准确的获得周围单元的坐标及编号位置，利于编程实现。

方便通信实现体现在两个方面：

有利于进行通信数据打包，能够一次对成块的影像区单元进行数据交换。如图6所示，如果每个进程对应的子区域的几何外形是规则的，由于其影像区单元包裹在其外部，其分布必然具有规律性。以MPI为例，MPI是分布式并行计算常用的消息传递接口，此时可以根据影像区位置给影像区单元打包，从而实现一次性全部传输，例如MPI_Type_vector(编号间隔固定的数据打包)，MPI_Type_contiguous(编号连续的数据打包)。而对于Metis所分配的子区域，由于影像区单元散乱无规律，只能逐个传输。

其次，规则的子区域外形，使得能够准确获取每个网格单元的局部编号(进程内)和全局编号(整个计算域)。将极大的方便使用库进行并行程序设计。以PETSc库为例，其影像区的创建(VecCreateGhost)以及影像区的更新(VecUpdateGhostBegin、VecUpdateGhostEnd)均需要已知影像区全局编号。在本发明中，已知进程号i，进程分布m，n，k，进程内的网格数a*b*c，即可根据局部编号确定全局编号。

由于进程在各个方向按照m，n，k的形式分布，因此在各个方向上，每个进程均有一个位置信息,如果从0开始编号，则每个进程都有一个位置坐标i_process(0～m-1)，j_process(0～n-1)，k_process(0～k-1)如图7所示，根据以上规则，第i号进程的位置信息如下：

i_process＝(i-k_process*m*n)％m

j_process＝(i-k_process*m*n)/m

k_process＝i/m/n

其中％为取余符号，/为取商符号；如果在第i号进程内的某个网格的局部坐标为(i_local，j_local，k_local)，则可以根据进程位置(i_process，j_process，k_process)，以及前文中的余数r_x、r_y、r_z计算该网格的全局位置坐标(i_global，j_global，k_global)：

i_global＝(A/m+1)*i_process+i_local i_process≤r_x

i_global＝(A/m+1)*r_x+(A/m)*(i_process-r_x)+i_local i_process＞r_x

对于Y、Z方向的全局坐标计算方法与X方向相同。

例2：长方体计算域，网格分布情况为180*120*60，总进程数为64。

网格分布情况表示X方向网格数为180，Y方向网格数为120，Z方向网格数为60。

此例的目的在于展现当各方向网格有显著差异的情况，在此例中X方向网格数是Z方向网格数的3倍。

根据图8所示的当前网格进程数下的通信单元数分布情况，当X方向的进程数约为6.5～7.0，Y方向进程数约为4～4.5时，通信单元数最少，约为260000～280000。相应公式计算得到，最优的进程分布为：

以上表明，本发明所提供的公式能够准确的获取最优的进程分布形式。由于进程数不为整，各方向网格数之比为3:2:1，因此取最接近该比值的进程分布：8:4:2，即X方向为8个进程，Y方向4个，Z方向2个；此时通信单元数为：267392。

例3：长方体计算域，网格数为180*120*60，进程数为17。

由于17本身是质数，因数只有1和17，按照本发明提供的方法，在最大网格数的方向上按带状进行分区。即进程分布为m*n*k＝17*1*1，此时在X方向上，前10个进程的单元数为11，其余为10。此时整体的影像区单元数为296776，若沿Y，Z方向进行切割，则通信单元数分别为408136(沿Y方向)，749896(沿Z方向)，可以看到三者相比有显著差异，且沿着网格数多的方向进行分区通信单元数逐渐减少。

例4：采用三维顶板驱动方腔流的计算模型，网格规模为128*128*128，进程数为64，计算采用SIMPLE算法进行求解，使用MPI进行并行计算，统计各个计算模块的耗时。

图9为不同进程下各个模块计算的耗时，其中通信单元的通信部分包括更新速度和更新压强。图10为各进程分布形式下的通信单元数，与图9中的耗时均呈现递增趋势。由此可证明通信单元数越少，耗时时间越短，本发明的研究是具有意义的。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。