CN111930491A

CN111930491A - 一种全局通信优化加速方法、装置和计算机设备

Info

Publication number: CN111930491A
Application number: CN202011046320.2A
Authority: CN
Inventors: 杨灿群; 郭晓威; 李超; 徐传福; 吴诚堃; 张翔; 高翔; 赵然; 番丝江; 刘毅; 张森
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2020-11-13
Anticipated expiration: 2040-09-29
Also published as: CN111930491B

Abstract

本申请涉及一种全局通信优化加速方法、装置、计算机设备和存储介质。所述方法包括：在通过将复杂流体模型的多分量微分方程对应的网格数据划分后在多进程并行计算的基础上，在一个进程内，在同一迭代中对多分量进行并行同时求解，加快了计算过程；多分量之间的计算流程循环展开之后，通过异步全局规约操作对通信开销进行了隐藏，从而能够明显缩短计算时间，提高算法运行效率；另外，本方法可以方便地推广到任意维度的多分量方程求解，方程分量越多加速效果越显著；并且本方法是一种跨分量的迭代间优化方法，可以与现有的迭代内部优化技术叠加使用，可扩展性好。

Description

一种全局通信优化加速方法、装置和计算机设备

技术领域

本申请涉及计算流体力学并行优化技术领域，特别是涉及一种针对多分量微分方程并行求解的全局通信优化加速方法、装置、计算机设备和存储介质。

背景技术

随着高性能计算技术的发展，计算流体力学的适用领域和范围日趋广泛。航空航天、船舶、汽车工业以及高分子复合材料、食品、制药等领域都需要通过计算机辅助工程手段来研究流体的运动规律和控制方法。计算流体力学并行计算的核心是求解描述流体运动的一组微分方程，这些微分方程通常用于描述应用问题中的各种物理量。例如，压力用单分量的标量来描述，速度用3个分量的矢量来描述，而应力则需要9个分量的张量来描述。在计算机中求解这些方程首先需要通过特定的离散方法在空间和时间两个维度上将连续的微分方程转化为离散化形式。

本质上每个物理量的一个分量的方程可以通过基于网格的空间离散和时间离散转化为一个大型线性系统，而典型流体模拟应用中大部分的计算量就集中在对线性系统的求解过程中。目前主流的计算流体力学软件中均通过空间区域分解的方式在高性能计算机上进行并行计算，在大规模并行的情况下，为了得到与串行计算相同的结果，计算过程中需要不断地进行通信。以当前广泛采用的Krylov子空间迭代法为例，通常一个线性系统需要多次迭代才能得到满足精度要求的解，而每次迭代过程中都需要进行多次全局通信，这些全局通信已经成为当前流体并行模拟的最大瓶颈，严重限制了复杂工程案例在大规模并行计算机上的可扩展性和计算效率。

因此，现有的多分量微分方程并行求解的方法存在效率低、扩展性差的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决复杂流体模型中现有多分量微分方程并行求解方法效率低、扩展性差问题的全局通信优化加速方法、装置、计算机设备和存储介质。

一种全局通信优化加速方法，所述方法包括：

获取复杂流体模型的多分量微分方程对应的网格数据；所述多分量微分方程中包含待求解的多个物理分量的多分量数据；

根据并行计算系统中计算进程的数量，将所述网格数据进行划分，确定每个计算进程对应的局部网格数据；

根据所述局部网格数据，通过预条件共轭梯度算法确定所述多分量数据中每一个分量的计算流程；所述计算流程包括：通过全局规约通信将向量与向量乘法的局部向量乘结果聚合并向所有进程广播，本地独立计算和需要局部通信的矩阵与向量乘法计算；

在一个进程中，将每一个分量的所述计算流程并行进行，得到所述多分量数据的计算结果。

在其中一个实施例中，还包括：获取并行计算系统中计算进程的数量；根据并行计算系统中计算进程的数量，将所述网格数据进行划分，确定每个计算进程对应的局部网格数据；其中网格数据划分的数量与所述计算进程的数量相等，每一个进程的局部网格数据不重叠。

在其中一个实施例中，还包括：根据所述局部网格数据，确定初始化参数，包括：系数矩阵，源向量，预条件矩阵，以及误差阈值；

根据方程的边界条件及初始条件确定分量初始值；

根据所述初始化参数和所述分量初始值，进行参数初始化；所述参数初始化，包括：

，

，

，

，

，其中，

；其中，

表示系数矩阵，

表示源向量，

表示预条件矩阵，

表示误差阈值，

表示分量初始值；

计算矩阵向量乘：

，其中，

；

启动异步全局通信

：

；

等待

完成；

本地计算

：

；

计算矩阵向量乘

：

；

启动异步全局通信

：计算

；

计算矩阵向量乘

：

；

启动异步全局通信

：

；

等待

完成；

本地计算

：

；

本地计算：

；

；

等待

完成；

判断误差

是否小于误差阈值

，如果

，继续迭代；如果

，结束迭代，输出计算结果

。

在其中一个实施例中，还包括：通过异步非阻塞式MPI全局规约通信将向量与向量乘法的局部向量乘结果聚合并向所有进程广播。

在其中一个实施例中，还包括：在一个进程的一个线程中，依次启动多个分量的所述计算流程，得到所述多分量数据的计算结果。

在其中一个实施例中，还包括：获取复杂流体模型的多分量微分方程对应的网格数据；所述多分量微分方程中包含待求解的多个物理分量的多分量数据和单个物理分量的单分量数据。根据所述多分量数据的计算结果，求解所述单分量数据的计算结果。

一种全局通信优化加速装置，所述装置包括：

网格数据获取模块，用于获取复杂流体模型的多分量微分方程对应的网格数据；所述多分量微分方程中包含待求解的多个物理分量的多分量数据；

局部网格数据获取模块，用于根据并行计算系统中计算进程的数量，将所述网格数据进行划分，确定每个计算进程对应的局部网格数据；

计算流程确定模块，用于根据所述局部网格数据，通过预条件共轭梯度算法确定所述多分量数据中每一个分量的计算流程；所述计算流程包括：通过全局规约通信将向量与向量乘法的局部向量乘结果聚合并向所有进程广播，本地独立计算和需要局部通信的矩阵与向量乘法计算；

计算模块，用于在一个进程中，将每一个分量的所述计算流程并行进行，得到所述多分量数据的计算结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述全局通信优化加速方法、装置、计算机设备和存储介质，在通过将复杂流体模型的多分量微分方程对应的网格数据划分后在多进程并行计算的基础上，在一个进程内，在同一迭代中对多分量进行并行同时求解，加快了计算过程；多分量之间的计算流程循环展开之后，通过异步全局规约操作对通信开销进行了隐藏，从而能够明显缩短计算时间，提高算法运行效率；另外，本方法可以方便地推广到任意维度的多分量方程求解，方程分量越多加速效果越显著；并且本方法是一种跨分量的迭代间优化方法，可以与现有的迭代内部优化技术叠加使用，可扩展性好。

附图说明

图1为一个实施例中全局通信优化加速方法的流程示意图；

图2为一个实施例中一个进程中多分量的计算过程并行展开的示意图；

图3为一个实施例中并行计算机系统的示意图；

图4为一个实施例中全局通信优化加速装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的全局通信优化加速方法，可以应用于如下应用环境中。通过特定的离散方法将复杂流体模型对应的多分量连续微分方程在空间和时间两个维度上转化为离散化形式后，得到多分量微分方程对应的网格数据，根据并行计算系统中计算进程的数量，将网格数据进行划分，确定每个计算进程对应的局部网格数据，根据局部网格数据，通过预条件共轭梯度算法确定所述多分量数据中每一个分量的计算流程，在一个进程中，将每一个分量的所述计算流程并行进行，并且在计算流程中，通过全局规约操作对通信开销进行了隐藏，从而能够明显缩短计算时间，提高算法运行效率，本方法具有效率高，可扩展性好的优点。

在一个实施例中，如图1所示，提供了一种全局通信优化加速方法，包括以下步骤：

步骤102，获取复杂流体模型的多分量微分方程对应的网格数据。

其中，多分量微分方程中包含待求解的多个物理分量的多分量数据。

计算流体力学的任务是流体力学的数值模拟，计算流体力学并行计算的核心是求解描述流体运动的一组微分方程，在计算机中求解这些方程首先需要通过特定的离散方法在空间和时间两个维度上将连续的微分方程转化为离散化形式。网格的划分属于计算流体力学计算中的预处理部分，网格的生成是将计算域划分为较好的、不重叠的子域或网格，网格划分是计算流体力学中的关键技术之一，网格的数目决定了计算流体力学的计算精度，网格的细密程度决定了必须的计算机硬件和计算时间，最佳网格多是非均匀的：点对点之间变化快的区间网格较细，变化相对较慢的区间网格较粗。

步骤104，根据并行计算系统中计算进程的数量，将网格数据进行划分，确定每个计算进程对应的局部网格数据。

根据并行计算系统中计算进程的数量，将网格数据进行划分是将复杂流体模型对应的空间区域按处理器数量进行任务分解，构建由多个计算进程组成的并行计算系统，系统中所有进程需要并行协同计算，每个进程读取对应的局部网格数据。

步骤106，根据局部网格数据，通过预条件共轭梯度算法确定多分量数据中每一个分量的计算流程。

其中，计算流程包括：通过全局规约通信将向量与向量乘法的局部向量乘结果聚合并向所有进程广播，本地独立计算和需要局部通信的矩阵与向量乘法计算。

大型稀疏线性方程组的求解方法通常有直接法和迭代法两种。直接法是基于矩阵分解技术，以消去为基础，将线性方程组转化为等价的若干个易于计算的子问题依次进行求解，但对于复杂流体模型的大型线性方程组，直接法通常会面临计算量过大和内存占用过多的问题，因此通常采用迭代法对复杂流体模型的微分方程进行求解。迭代法采用逐次逼近的方法，一般使用迭代公式得到一系列近似解逐渐地逼近真实解，最终得到满足一定误差条件的近似解。迭代法中的预条件共轭梯度算法是通过预处理技术减少共轭梯度发的迭代次数，并能加速收敛的一种方法。

以预条件共轭梯度算法为基础的计算流程中需要通信的操作涉及两类计算：向量和向量乘法以及矩阵和向量乘法，其中向量与向量乘法得到一个标量，由于一个进程中的向量都是局部网格数据中的局部向量，为了实现多进程并行计算的计算结果和串行计算的计算结果一致，每个进程中局部向量与局部向量乘法得到的标量需要进行全局规约操作，通过全局规约操作将局部向量乘的结果进行聚合并向所有进程广播。本实施例中一个分量的计算中包含三次全局规约通信、两次本地独立计算和需要局部通信的矩阵与向量乘法计算。

步骤108，在一个进程中，将每一个分量的计算流程并行进行，得到多分量数据的计算结果。

传统算法中多分量方程的计算是依次串行进行的，即完成第一个分量之后，开始进行第二个分量的计算，以此类推。在本实施例中，由于每个分量的计算彼此没有依赖关系，将每一个分量的计算流程并行进行可以使得一个进程内所有分量的计算过程混合进行，通过异步全局通信和代码调度隐藏全局通信开销。

在一个具体实施例中，如图2所示，多分量微分方程中有3个待求解分量，分别为

，

，

，一个分量的计算过程中包括

三次全局规约通信和

两次本地独立计算过程的交替进行，将三个分量的计算过程展开同时计算，具体计算过程如下：

步骤201，读取三个分量的初始化参数，系数矩阵

，源向量

，预条件矩阵

，以及误差阈值

；

步骤202，根据方程的边界条件及初始条件初始化三个位置分量

；

步骤203，根据初始化参数和分量初始值，进行参数初始化：

，

，

，

，

，其中，

；

步骤204，

，其中，

；

步骤205，启动异步全局通信

：

；

步骤206，启动异步全局通信

：

；

步骤207，启动异步全局通信

：

；

步骤208，等待

完成；

步骤209，本地计算

：

；

步骤210，等待

完成；

步骤211，本地计算

：

；

步骤212，等待

完成；

步骤213，本地计算

：

；

步骤214，计算矩阵向量乘

：

；

步骤215，启动异步全局通信

：计算

；

步骤216，计算矩阵向量乘

：

；

步骤217，启动异步全局通信

：计算

；

步骤218，计算矩阵向量乘

：

；

步骤219，启动异步全局通信

：计算

；

步骤220，计算矩阵向量乘

：

；

步骤221，启动异步全局通信

：

；

步骤222，计算矩阵向量乘

：

；

步骤223，启动异步全局通信

：

；

步骤224，计算矩阵向量乘

：

；

步骤225，启动异步全局通信

：

；

步骤226，等待

完成；

步骤227，本地计算

：

；

步骤228，等待

完成；

步骤229，本地计算

：

；

步骤230，等待

完成；

步骤231，本地计算

：

；

步骤232，本地计算：

；其中，

；

步骤233，

；

步骤234，等待

完成；其中，

；

步骤235，判断误差

是否小于误差阈值

，如果

，继续迭代；如果

，结束迭代，输出计算结果

；

上述全局通信优化加速方法中，在通过将复杂流体模型的多分量微分方程对应的网格数据划分后在多进程并行计算的基础上，在一个进程内，在同一迭代中对多分量进行并行同时求解，加快了计算过程；多分量之间的计算流程循环展开之后，通过异步全局规约操作对通信开销进行了隐藏，从而能够明显缩短计算时间，提高算法运行效率；另外，本方法可以方便地推广到任意维度的多分量方程求解，方程分量越多加速效果越显著；并且本方法是一种跨分量的迭代间优化方法，可以与现有的迭代内部优化技术叠加使用，可扩展性好。

如图3所示，并行计算系统由n个进程组成，那么网格数据被划分成n份，分别记为

，每个进程读取对应的数据，进程之间不共享数据，然后在并行计算系统中对多分量微分方程进行并行求解。

在其中一个实施例中，还包括：根据局部网格数据，确定初始化参数，包括：系数矩阵，源向量，预条件矩阵，以及误差阈值；

根据方程的边界条件及初始条件确定分量初始值；

，

，

，

，

，其中，

；其中，

表示系数矩阵，

表示源向量，

表示预条件矩阵，

表示误差阈值，

表示分量初始值；

计算矩阵向量乘：

，其中，

；

启动异步全局通信

：

；

等待

完成；

本地计算

：

；

计算矩阵向量乘

：

；

启动异步全局通信

：计算

；

计算矩阵向量乘

：

；

启动异步全局通信

：

；

等待

完成；

本地计算

：

；

本地计算：

；

；

等待

完成；

判断误差

是否小于误差阈值

，如果

，继续迭代；如果

，结束迭代，输出计算结果

。

MPI全局规约通信是将当前进程中的计算结果聚合并向所有进程广播，通过异步非阻塞式MPI全局规约通信可以实现在一个分量的计算中执行全局规约通信时，不阻碍其他分量计算过程中的操作，包括通信和计算。通过这样的方式，使得算法不需要执行完一个分量的计算再执行下一个分量的计算，提高了算法的效率。

多个分量的计算过程的启动可以是在一个线程中串行开始的，启动操作开销很小，对算法的效率影响极小。因此，可以在一个进程的一个线程中，依次启动多个分量的所述计算流程。

在其中一个实施例中，还包括：获取复杂流体模型的多分量微分方程对应的网格数据；多分量微分方程中包含待求解的多个物理分量的多分量数据和单个物理分量的单分量数据，根据多分量数据的计算结果，求解单分量数据的计算结果。

复杂流体模型的模拟模型中可能包含多分量微分方程和单分量微分方程，例如速度包含

三个方向的分量，速度多分量微分方程的求解可以使用本方法中的优化加速方法，但压力只是标量，压力单分量微分方程无法用本方法中的优化加速方法，需要将速度分量的解代入压力的单分量微分方程，对压力值进行求解。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种全局通信优化加速装置，包括：网格数据获取模块、局部网格数据获取模块、计算流程确定模块和计算模块，其中：

网格数据获取模块402，用于获取复杂流体模型的多分量微分方程对应的网格数据。

局部网格数据获取模块404，用于根据并行计算系统中计算进程的数量，将网格数据进行划分，确定每个计算进程对应的局部网格数据。

计算流程确定模块406，用于根据局部网格数据，通过预条件共轭梯度算法确定所述多分量数据中每一个分量的计算流程。

计算模块408，在一个进程中，将每一个分量的所述计算流程并行进行，得到所述多分量数据的计算结果。

局部网格数据获取模块404还用于获取并行计算系统中计算进程的数量；根据并行计算系统中计算进程的数量，将所述网格数据进行划分，确定每个计算进程对应的局部网格数据；其中网格数据划分的数量与所述计算进程的数量相等，每一个进程的局部网格数据不重叠。

计算流程确定模块406还用于根据局部网格数据，确定初始化参数，包括：系数矩阵，源向量，预条件矩阵，以及误差阈值；

根据方程的边界条件及初始条件确定分量初始值；

，

，

，

，

，其中，

；其中，

表示系数矩阵，

表示源向量，

表示预条件矩阵，

表示误差阈值，

表示分量初始值；

计算矩阵向量乘：

，其中，

；

启动异步全局通信

：

；

等待

完成；

本地计算

：

；

计算矩阵向量乘

：

；

启动异步全局通信

：计算

；

计算矩阵向量乘

：

；

启动异步全局通信

：

；

等待

完成；

本地计算

：

；

本地计算：

；

；

等待

完成；

判断误差

是否小于误差阈值

，如果

，继续迭代；如果

，结束迭代，输出计算结果

。

计算流程确定模块406还用于通过异步非阻塞式MPI全局规约通信将向量与向量乘法的局部向量乘结果聚合并向所有进程广播。

计算模块408还用于在一个进程的一个线程中，依次启动多个分量的所述计算流程，得到所述多分量数据的计算结果。

计算模块408还用于根据多分量数据的计算结果，求解单分量数据的计算结果。

关于全局通信优化加速装置的具体限定可以参见上文中对于全局通信优化加速方法的限定，在此不再赘述。上述全局通信优化加速装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种全局通信优化加速方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。