CN109002909B

CN109002909B - 大气谱模式动力框架高可扩展并行优化方法及系统

Info

Publication number: CN109002909B
Application number: CN201810687173.3A
Authority: CN
Inventors: 李小勇; 任小丽; 任开军; 孙迪夫; 赵娟; 吴茂永
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2022-06-14
Anticipated expiration: 2038-06-28
Also published as: CN109002909A

Abstract

本发明公开了一种大气谱模式动力框架高可扩展并行优化方法及系统，本发明并行优化方法的步骤包括通过针对大气谱模式的动力框架中六个主要计算过程分别分析计算涉及的数据相关性、对各个过程中无数据相关性的两个数据方向进行二维数据剖分并映射到处理器逻辑结构网格上进行计算，计算过程之间的数据交换采用三维数据转置算法实现；针对整个动力框架计算过程中涉及的部分全局变量，在数据分解的基础上实现变量的全局数据收集；将数据变换过程和数据收集过程与整个动力框架迭代处理流程无缝结合，最终完成各个相邻计算过程之间涉及的三维数据转置处理和全局变量的数据收集。本发明能够极大地提高模式的并行计算可扩展性，从而提升并行执行效率。

Description

大气谱模式动力框架高可扩展并行优化方法及系统

技术领域

本发明涉及大气环流模式动力框架并行技术，具体涉及一种大气谱模式动力框架高可扩展并行优化方法及系统，适合于气候模拟、气象预报和环境模拟等应用领域。

背景技术

近年来，随着对地球环境关注的不断升级，国际上对气候系统模式的研究逐渐成为热点之一，一直在加强力量进行耦合气候系统模式的研究。在气候模式系统的并行计算研究上，发展趋势主要在于针对当前和即将出现的并行计算机体系结构进行相应软件系统的算法改进、代码移植、甚至模式重新设计等工作。一方面，为了实现气候数值预报精度的提高和预报时效的延长，必须采用更高的模式。然而，分辨率的提升伴随着计算量的指数级增长，并且气候模式通常需要对几十年甚至几百年的海量数据进行积分计算，由于涉及到如此大规模的计算，必须借助高性能计算技术，并且研究高效的并行算法，以提高模式的并行计算效率和预报时效性。另一方面，虽然高性能并行计算机的计算能力和峰值计算速度都有了前所未有的发展，但是仅仅依赖并行计算机计算速度的提高来减少运行时间还远远不够，必须将模式程序的算法以及实现高度并行化，才能充分利用已研制出的高性能并行计算机，进而增强模式预报的时效性。

目前我国业务运行的气候系统模式中的大气环流分量模式，主要是基于美国数值预报模式通用大气模式第三版(CAM 3.0)的改进版本，模式从结构上分为动力框架和物理过程两个主要的部分，动力框架是模式的主要计算部分，极大地决定了预报的准确性和运行的效率，模式预报的核心计算都在动力框架中实现。现有的动力框架包括格点空间计算、Fourier变换、 Legendre变换、谱空间计算、Legendre逆变换、Fourier逆变换六个主要计算过程以及相邻的主要计算过程之间的数据转换过程。目前，业务模式支持的水平分辨率最高为 T106L26(160×320)，相当于赤道格距125km，应用在中国气象局第二代短期气候预报模式的构建中。其中，大气环流模式动力框架模块的水平分辨率已经提升到T266L26(400×800)，相当于赤道格距50km，但是业务模式采用的是一维剖分的数据结构，并行计算规模为纬圈个数，即T106的最大并行计算规模为160个进程，T266的并行计算规模为400个进程，极大地限制了并行计算可扩展性以及气候预测的时效性，迫切需要研制一种面向气候系统模式的具有高可扩展性的大气环流模式动力框架并行优化方法。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种大气谱模式动力框架高可扩展并行优化方法及系统，本发明能够极大地提高模式的并行计算可扩展性，从而提升并行执行效率，在同等运行时间条件下可执行更多的预报预测任务，对于改善模式预报的时效性具有非常重要的作用。

为了解决上述技术问题，本发明采用的技术方案为：

一种大气谱模式动力框架高可扩展并行优化方法，实施步骤包括：

1)针对大气谱模式的动力框架中的格点空间计算、Fourier变换、Legendre变换、谱空间计算、Legendre逆变换、Fourier逆变换六个主要计算过程，分别分析计算涉及的数据相关性；

2)针对动力框架中的六个计算过程，分别对各个过程中无数据相关性的两个数据方向进行二维数据剖分，并设计处理器的逻辑结构网格结构，将二维数据剖分映射到处理器逻辑结构网格上进行计算；

3)针对动力框架中的六个计算过程，在数据分解的基础上分别实现前一计算过程到后一计算过程之间的数据交换，采用三维数据转置算法实现，先在一个维度上将数据划分为多个集合，然后在各个集合内实现MPI_alltoall的数据全交换处理；

4)针对整个动力框架计算过程中涉及的部分全局变量，在数据分解的基础上实现变量的全局数据收集；

5)将数据变换过程和数据收集过程与整个动力框架迭代处理流程无缝结合，完成各个相邻计算过程之间涉及的三维数据转置处理和全局变量的数据收集。

优选地，步骤1)中分析计算涉及的数据相关性的结果包括：(a)格点空间计算：在垂直方向上有数据相关性、纬度方向和经度方向无数据相关性；(b)Fourier变换：在经度方向有数据相关性，在另外两个维度上无数据相关性；(c)Legendre变换：在纬度方向有数据相关性，在其他两个维度上没有数据相关性；(d)谱空间计算：在波数m和阶数n方向上无数据相关性；(e)Legendre逆变换：在n方向有数据相关性，垂直层和波数m方向上无数据相关性；(f) Fourier逆变换：在波数m方向有数据相关性，垂直层和纬度方向无数据相关性。

优选地，步骤2)中对各个过程中无数据相关性的两个数据方向进行剖分包括：(a)格点空间计算：在经度和纬度方向上进行二维数据剖分；(b)Fourier变换：在垂直层与纬度方向上进行二维数据剖分；(c)Legendre变换：在垂直层和波数方向进行二维数据剖分；(d)谱空间计算：在波数m和阶数n方向上进行二维数据剖分；(e)Legendre逆变换：在垂直层和波数m 方向进行二维数据剖分；(f)Fourier逆变换：在垂直层和纬度方向上进行二维数据剖分。

优选地，步骤4)实现变量的全局数据收集分两步完成，首先在单个方向上收集所有该方向上的数据，然后在另一个方向上收集所有另一个方向上的数据，从而最终实现变量的全局数据收集。

本发明还提供一种大气谱模式动力框架高可扩展并行优化系统，包括计算机系统，所述计算机系统被编程以执行本发明大气谱模式动力框架高可扩展并行优化方法的步骤。

和现有技术相比，本发明具有下述有益效果：

1、极大地提高了并行可扩展性：本发明理论上可将并行计算的规模提高垂直层数倍，支持更大规模的任务数划分，极大地提高了并行可扩展性；

2、缩短系统运行时间：本发明可极大地提高系统加速比，提升模式整体运行效率，缩短整个系统的运行时间；

3、提高模式预报的时效性：采用本发明可实现高效的模式动力框架并行计算，在同等运行时间条件下可执行更多的预报预测任务，对于改善模式预报的时效性具有非常重要的作用。

附图说明

图1是本发明实施例方法的基本流程示意图。

图2是本发明实施例中大气模式动力框架计算过程及数据变换关系图。

图3是本发明实施例中数据分解后各计算阶段的数据结构图。

图4是本发明实施例中并行优化后的算法结构图。

图5是本发明实施例中并行算法加速比的实验结果图。

图6是本发明实施例中不同规模下并行算法运行时间的实验结果图。

具体实施方式

对于一个三维的气候物理场变量field_data，其基本结构如表1所示，理论上可对每一个维度进行划分，获得数据域子集，如表2所示。

表1：气候物理场变量field_data的基本结构表。

表2：分解后的数据子集。

表1和表2中，！为注释符号，注释符号为对该行的内容注释。然而，在实际计算过程中，不同计算阶段在不同维度上会有不同的数据相关性。因此，在数据分解之前需要进行数据相关性分析，为了满足计算的局部性和避免不必要的数据通信，数据剖分应在不存在数据相关性的维度上进行。根据数据相关性对完整数据域剖分之后，在一个计算阶段中，一个处理器可独立地在本地进行数据子集的计算，节点内部的并行通常可采用OpenMP实现；但是不同的计算阶段之间会有不同的数据相关性，数据剖分也不同，因此，多个物理节点并行处理不同的数据域子集时，为了满足不同阶段的数据相关性，相邻计算阶段之间需要进行节点之间的通信，一般采用MPI实现。为改进大气环流气候模式的并行方案，本发明首先对每一计算阶段的数据相关性进行分析，确定数据分解的可行性；然后根据不同计算阶段的数据相关性以及数据表示，分别进行数据分解；最后根据数据分解结构进行并行算法设计以及确定不同节点之间的数据通信方式。

下文将现有动力框架的基础上，对本发明大气谱模式动力框架高可扩展并行优化方法及系统进行进一步的详细说明。

如图1所示，本实施例大气谱模式动力框架高可扩展并行优化方法的实施步骤包括：

本实施例中，步骤1)中分析计算涉及的数据相关性的结果包括：(a)格点空间计算：在垂直方向上有数据相关性、纬度方向和经度方向无数据相关性；(b)Fourier变换：在经度方向有数据相关性，在另外两个维度上无数据相关性；(c)Legendre变换：在纬度方向有数据相关性，在其他两个维度上没有数据相关性；(d)谱空间计算：在波数m和阶数n方向上无数据相关性；(e)Legendre逆变换：在n方向有数据相关性，垂直层和波数m方向上无数据相关性；(f)Fourier逆变换：在波数m方向有数据相关性，垂直层和纬度方向无数据相关性。

本实施例中，步骤2)中对各个过程中无数据相关性的两个数据方向进行剖分包括：(a)格点空间计算：在经度和纬度方向上进行二维数据剖分；(b)Fourier变换：在垂直层与纬度方向上进行二维数据剖分；(c)Legendre变换：在垂直层和波数方向进行二维数据剖分；(d)谱空间计算：在波数m和阶数n方向上进行二维数据剖分；(e)Legendre逆变换：在垂直层和波数m方向进行二维数据剖分；(f)Fourier逆变换：在垂直层和纬度方向上进行二维数据剖分。

为避免数据划分造成不必要的进程间通信，数据划分(剖分)必须在无数据相关性的维度上进行。大气环流模式动力框架包括格点空间计算、Fourier变换、Legendre变换、谱空间计算、Legendre逆变换、Fourier逆变换六个过程，其数据相关性及其不断计算过程需要进行数据交换的情况如图2所示。本实施例中六个主要计算过程的特性分析如下：(a)格点空间计算：格点空间的计算主要是物理过程以及非线性动力项的计算，这些计算在垂直方向上有数据相关性，纬度方向和经度方向无数据相关性，因此数据划分可在经度和纬度方向上进行； (b)Fourier变换：Fourier变换是对给定纬圈上所有经度值的计算，因此在经度方向有数据相关性，在另外两个维度上无数据相关性，所以在垂直层与纬度方向上进行数据划分；(c) Legendre变换：Legendre变换是对纬圈上波数m的Fourier系数进行计算，因此在纬度方向有数据相关性，在其他两个维度上没有数据相关性，因此可在垂直层和波数方向进行数据划分；(d)谱空间计算：谱空间的计算在垂直方向上有数据相关性，在波数m和阶数n方向上无数据相关性，因此可在波数m和阶数n方向上进行数据划分。(e)Legendre逆变换：Legendre 逆变换是对阶数n对应谱系数的计算累加，因此在n方向有数据相关性，垂直层和波数m方向上无数据相关性，数据划分应在垂直层和波数m方向进行；(f)Fourier逆变换：Fourier逆变换是对波数m对应Fourier系数的计算累加，因此在波数m方向有数据相关性，垂直层和纬度方向无数据相关性，数据划分应在垂直层和纬度方向上进行。

本实施例中，步骤2)根据数据相关性的分析，可将处理器划分成X*Y的逻辑结构，由于一个时间步的计算流程中各阶段有两个方向无数据相关性，利用这一特性，对计算的各阶段进行二维数据剖分，并映射到处理器逻辑结构网格上进行计算。图3显示了各计算阶段二维剖分后的数据结构图，其中！为注释符号，注释符号为对该行的内容注释，加粗部分为有数据相关性，其余非加粗部分无数据相关性且被剖分为数据子集。

由图2可知，在动力框架执行的六个主要过程中，涉及到多个过程之间的数据交换，由于采用了二维数据剖分，因此需要进行三维数据转置。例如格点空间计算时格点数据在经度和纬度方向进行了剖分，下一阶段的Fourier变换则在经度方向有数据相关性，在纬度和垂直层方向进行了剖分，因此Fourier变换之前，需要对数据进行三维转置，将经度方向的数据剖分转换为垂直层方向划分。三维转置的思想为：先在一个维度上将数据划分为多个集合，然后在各个集合内实现MPI_alltoall数据全交换。本实施例中，步骤3)采用三维数据转置算法实现，先在一个维度上将数据划分为多个集合，然后在各个集合内实现MPI_alltoall(MPI的函数)的数据全交换处理。以格点空间至Fourier变换的数据转置例程trans_grd2for为例，数据转置例程trans_grd2for的目标为实现对输入缓冲区buf_in中ifields个数据的三维数据转置，输入为buf_in(beg_i：end_i,level_k,ifields,beg_j：end_j)，输出为buf_out(horiz_i,num_k,ifields, beg_j：end_j)，其中begi表示经向格点的起始索引，endi表示经向格点的结束索引，levelk表示总的垂直层数，ifields表示变量个数，begj表示纬向格点的起始索引，endj表示纬向格点的结束索引。数据转置例程trans_grd2for的实现方式通过MPI库函数mpi_alltoallv实现，通信子集为A集合，共nprocb个进程。数据转置例程trans_grd2for的详细实现步骤包括：

A1)读取输入缓冲区bufin中ifields个数据bufin(begi：endi,levelk,ifields,begj：endj)，其中begi表示经向格点的起始索引，endi表示经向格点的结束索引，levelk表示总的垂直层数， ifields表示变量个数，begj表示纬向格点的起始索引，endj表示纬向格点的结束索引；

A2)计算本地进程需要发送给本地进程对应的包含共nprocb个进程通信子集A集组内其他进程p的数据个数sndcnts(p)；

A3)计算组内每个进程发送数据的起始位置sdispls(p)；

A4)计算本地进程要从组内其他进程p接收的数据个数rcvcnts(p)；

A5)计算组内每个进程接收数据的起始位置rdispls(p)；

A6)将本地进程上buf_in(beg_i：end_i,level_k,ifields,beg_j：end_j)的数据转为在垂直层和纬度方向的二维剖分，存储在buf_out中；

A7)将组内其他进程的数据依次拷贝到一维数组buf1中；

A8)调用MPI库函数mpialltoallv将一维数组buf1的数据散发至一维数组buf2中；其中 buf1表示发送数据缓存数组，sndcnts表示发送数据个数数组，sdispls表示发送数据偏移数组，mpir8表示浮点数据类型，buf2表示接收数据缓存数组，rcvcnts表示接收数据个数数组， rdispls表示接收数据偏移数组，mpicomma表示通信域；

A9)将buf2中的数据按序拷贝到bufout中，得到结果bufout(horizi,numk,ifields,begj： endj)，其中horizi表示总的经向格点数，numk表示当前节点的垂直层数，ifields表示变量个数，begj表示纬向格点的起始索引，endj表示纬向格点的结束索引。

采用二维数据划分会导致原本统一在某些节点上计算的统计量信息被分散至多个基于二维划分的计算节点上。因此，需要对相关的多个变量进行全局数据收集。例如，在每个时间积分步计算结束，进入下一个时间积分步之前，通过收集全球总量计算质量守恒订正系数和能量守恒订正系数，确保物质平流传送前后的质量守恒。因此，本实施例中，步骤4)实现变量的全局数据收集分两步完成，首先在单个方向上收集所有该方向上的数据，然后在另一个方向上收集所有另一个方向上的数据，从而最终实现变量的全局数据收集。例如：收集全球总量计算质量守恒订正系数和能量订正系数，先在经度方向上收集所有经向网格点的数据，然后在纬度方向收集所有纬圈的数据。以全球数据收集求和例程gather_data_sum为例，全球数据收集求和例程gather_data_sum用于将经度上剖分的数据进行收集并累加，输入为每个进程的本地区域数据的累加值，如：

其中1≤beg_i≤end_i≤horiz_i

上式中，beg_i表示经向格点的起始索引，end_i表示经向格点的结束索引，horiz_i表示总的经向格点数。

输出为所有经向网格点的累加值如：

上式中，horiz_i表示总的经向格点数。

全球数据收集求和例程gather_data_sum通过MPI库函数mpi_allgatherv实现，其通信子集为A集合，共nprocb个进程。其具体数据收集方法描述如下：

B1.计算当前进程要发送的数据个数sndcnt；

B2.计算要从组内其他进程p接收的数据个数rcvcnts(p)；

B3.计算从组内其他进程接收数据的偏移位置rdispls(p)；

B4.填充发送数据缓冲区buf1，即将要收集的变量如tmass等依次存入到一维数组buf1 中；

B5.调用MPI库函数mpi_allgatherv将数据缓冲区buf1中的数据收集至数据缓冲区buf2 中；

B6.每个进程将数据缓冲区buf2中的数据依次与本地进程上相应的变量累加。

大气环流谱模式由物理过程和动力框架组成，动力框架一个时间步的算法流程，除6个主要计算步骤外，相邻两个计算步骤之间需要进行三维数据转置，共6个转置过程，同时每个时间步需要收集全球数据能量和质量总和进行守恒订正，以及计算全球所有网格点的最大速度值。因此，需要将数据变换与数据收集处理与动力框架紧密结合。本实施例中，步骤5) 完成各个相邻计算过程之间涉及的三维数据转置处理和全局变量的数据收集，同时可准备下一阶段的迭代处理。图4是本发明实施例中并行优化后的算法结构图，如图4所示，并行优化后的动力框架包括格点空间计算、Fourier变换、Legendre变换、谱空间计算、Legendre逆变换、Fourier逆变换六个主要计算过程以及相邻的主要计算过程之间并行优化后的数据转换过程。1)执行格点空间计算，且将执行格点空间计算的数据分解为在经度和纬度两个方向上的数据子集，并映射到被划分为X*Y逻辑结构的处理器网络执行；2)执行格点空间至Fourier 变换的数据转置trans_grd2for；3)执行Fourier变换，且将执行格点空间计算的数据分解为在经度和垂直两个方向上的数据子集，并映射到被划分为X*Y逻辑结构的处理器网络执行；4) 执行Fourier变换至Legendre变换的数据转置trans_for2leg；5)执行Legendre变换，且将执行格点空间计算的数据分解为在波数和垂直两个方向上的数据子集，并映射到被划分为X*Y 逻辑结构的处理器网络执行；6)全局数据收集求最大值gather_data_max；7)执行谱空间计算，且将执行格点空间计算的数据分解为波数子集对应的谱系数子集，并映射到被划分为X*Y 逻辑结构的处理器网络执行；8)执行谱空间计算至Legendre逆变换的数据转置trans_spc2ileg； 9)Legendre逆变换，且将执行格点空间计算的数据分解为在垂直层子集，并映射到被划分为 X*Y逻辑结构的处理器网络执行；10)执行Legendre逆变换至Fourier逆变换的数据转置 trans_ifor2ileg；11)Fourier逆变换，且将执行格点空间计算的数据分解为在垂直层和纬度两个方向上的子集，并映射到被划分为X*Y逻辑结构的处理器网络执行；12)执行Fourier逆变换至格点空间计算的数据转置trans_ifor2grd；13)全局数据收集求和gather_data_sum。

为了对本发明大气谱模式动力框架高可扩展并行优化方法进行验证，将本发明大气谱模式动力框架高可扩展并行优化方法部署在国防科学技术大学天河1A计算机节点上，采用模式分辨率T106，时间步长450秒，测试了运行一个月的数据时并行算法的性能。如图5所示，随着任务数划分的不断增大，系统的加速比不断增高，当进程数增加8倍时，系统加速比可达到3.01；如图6所示，在大规模计算节点上，随着任务数划分的不断增加，系统处理的时间不断降低，有效解决了面向大规模计算的高并行可扩展性问题。

综上所述，本发明针对现行气候系统模式中大气环流模式并行计算在并行可扩展性方面的瓶颈问题，提出了对大气模式动力框架数据域的二维剖分方法，在对基于谱模式的动力框架进行数据相关性分析，以及二维剖分的可行性分析的基础上，实现动力框架各个计算阶段数据域二维剖分的并行优化算法，采用本发明的并行计算方法能够极大地提高模式的并行计算可扩展性，从而提升并行执行效率。本发明不但能够用于气候系统模式中大气环流分量模式的并行计算优化，同时可用于各类基于谱模式动力框架的大气环流模式中，包括面向数值天气预报的大气环流模式等。本发明能够显著提高大气模式的并行可扩展性，有效地提高系统加速比，缩短整个系统的运行时间，进而提高模式预报的时效性。此外，本实施例还提供一种大气谱模式动力框架高可扩展并行优化系统，包括计算机系统，该计算机系统被编程以执行本实施例大气谱模式动力框架高可扩展并行优化方法的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种大气谱模式动力框架高可扩展并行优化方法，其特征在于实施步骤包括：

1)针对大气谱模式的动力框架中的格点空间计算、Fourier变换、Legendre变换、谱空间计算、Legendre逆变换、Fourier逆变换六个计算过程，分别分析计算涉及的数据相关性；

2.根据权利要求1所述的大气谱模式动力框架高可扩展并行优化方法，其特征在于，步骤1)中分析计算涉及的数据相关性的结果包括：(a)格点空间计算：在垂直方向上有数据相关性、纬度方向和经度方向无数据相关性；(b)Fourier变换：在经度方向有数据相关性，在另外两个维度上无数据相关性；(c)Legendre变换：在纬度方向有数据相关性，在其他两个维度上没有数据相关性；(d)谱空间计算：在波数m和阶数n方向上无数据相关性；(e)Legendre逆变换：在n方向有数据相关性，垂直层和波数m方向上无数据相关性；(f)Fourier逆变换：在波数m方向有数据相关性，垂直层和纬度方向无数据相关性。

3.根据权利要求2所述的大气谱模式动力框架高可扩展并行优化方法，其特征在于，步骤2)中对各个过程中无数据相关性的两个数据方向进行剖分包括：(a)格点空间计算：在经度和纬度方向上进行二维数据剖分；(b)Fourier变换：在垂直层与纬度方向上进行二维数据剖分；(c)Legendre变换：在垂直层和波数方向进行二维数据剖分；(d)谱空间计算：在波数m和阶数n方向上进行二维数据剖分；(e)Legendre逆变换：在垂直层和波数m方向进行二维数据剖分；(f)Fourier逆变换：在垂直层和纬度方向上进行二维数据剖分。

4.根据权利要求1所述的大气谱模式动力框架高可扩展并行优化方法，其特征在于，步骤4)实现变量的全局数据收集分两步完成，首先在单个方向上收集所有该方向上的数据，然后在另一个方向上收集所有另一个方向上的数据，从而最终实现变量的全局数据收集。

5.一种大气谱模式动力框架高可扩展并行优化系统，包括计算机系统，其特征在于：所述计算机系统被编程以执行权利要求1～4中任意一项所述大气谱模式动力框架高可扩展并行优化方法的步骤。