CN112035995A

CN112035995A - 基于gpu计算技术的非结构网格潮汐潮流数值模拟方法

Info

Publication number: CN112035995A
Application number: CN201910654061.2A
Authority: CN
Inventors: 严冰; 孙华文; 金文良; 黄玉新; 姚姗姗; 杨华; 赵张益; 侯志强; 欧阳群安; 谢琳; 段莉莉; 夏丰勇
Original assignee: Tianjin Research Institute for Water Transport Engineering MOT
Current assignee: Tianjin Research Institute for Water Transport Engineering MOT
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2020-12-04
Also published as: NL2023815A; NL2023815B1

Abstract

本发明公开了一种基于GPU计算技术的非结构网格潮汐潮流数值模拟方法，包括以下步骤：1、网格和物理场信息发送至GPU显存；2、利用第一核函数以网格单元为计算单元与GPU线程对应，计算内部网格单元面通量和体积源项；3、利用第二核函数以网格单元面为计算单元与GPU线程对应，计算边界网格单元面通量；4、利用第三核函数以单元为计算单元与GPU线程对应，进行时间推进计算；5、GPU将计算结果返回CPU；其中，2、3和4中均采用多个GPU对内部网格单元面的通量、边界网格单元面的通量或时间推进并行计算。其通过将内部网格单元面和边界网格单元面的通量计算分离，克服了单纯以网格单元或网格单元面为基本计算单元导致的计算效率偏低的问题。

Description

基于GPU计算技术的非结构网格潮汐潮流数值模拟方法

技术领域

本发明涉及流体力学技术领域，尤其涉及一种基于GPU计算技术的非结构网格潮汐潮流数值模拟方法。

背景技术

计算流体力学(CFD)作为一门利用计算机和数值方法求解流体动力学方程获得流动规律和解决流动问题的学科，涉及到计算几何、流体动力学、偏微分方程的数学理论、数值分析等各个方面。目前，CFD正向着高精度、大规模、多目标、实时性方向发展，对计算与存储量的需求日益增加，采用大型并行计算机进行并行计算是必然趋势。而随着图像处理器(Graphics Processing Unit，GPU)浮点运算性能的不断提升，大型并行计算机的构建往往采用CPU/GPU异构体系结构以提升性能。这一方面为CFD应用带来了低成本、快速求解等发展机遇，同时也给众多高性能计算研究人员带来算法设计等挑战。

应用非结构化网络建立水动力学模型目前已经得到了广泛的应用，随着海洋水动力模型的发展，对计算精度和效率都提出了新的要求，然而精度提升将导致网格数过多，计算量过大，在无大规模集群的情况下难以在较短时间内获得计算结果，无法达到预报要求。随着图形处理器(GPU)性能的高速发展，同时伴随CUDA、OPENCL等GPU结构的并行计算语言支持的扩展及日趋成熟，采用基于GPU的并行算法可以有效加快水动力模型计算速度，高效率的完成对高分辨率海洋环境水动力的数值模拟。

目前针对二维水动力学模型GPU并行算法设计从计算单元与CUDA线程映射方式上可以分为两类，一种是以单元为基本计算单元，将单元上的计算任务改写成CUDA Kernel函数映射到CUDA线程，这种方式计算过程中存在单元面上通量的重复计算，但由于是kernel并发，重复计算都是并发同步执行，因而不会对效率产生较大影响，但对于水动力学模型离散计算需要将平面积分转换成了沿控制单元面的线积分，同时由于计算区域存在边界，数值算法上对于内部单元面和边界单元面往往需要不同的通量计算方式，这将导致以单元为基本计算单元的kernel存在计算分支，会极大的减弱性能。另一种是以单元面为基本计算单元，将单元面上的计算任务改成CUDA Kernel函数映射到CUDA线程。一个公共边的计算结果可以给相邻两个控制单元调用，计算量减少了一半。然而在并行设计过程中，容易出现多个线程同时对同一数据进行操作，如果程序设计不合理，将会导致不同线程对数据操作的混乱，因此需要采用对数据加锁的方式来实现对数据的原子操作，在非结构网格离散计算过程中由于网格序号的无规律性，将会导致大量的原子操作存在，影响kernel执行效率。

另一方面针对二维水动力模型的GPU优化都是在单个GPU上进行，没有考虑在分布式GPU集群上的优化。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种基于GPU计算技术的非结构网格潮汐潮流数值模拟方法，通过将内部网格单元面和边界网格单元面的通量计算分离，克服了单纯以网格单元或网格单元面为基本计算单元导致的计算效率偏低的问题；同时实现了二维水动力模型在分布式GPU集群上的优化，进一步提高了计算效率。

为实现上述目的和一些其他的目的，本发明采用如下技术方案：

一种基于GPU计算技术的非结构网格潮汐潮流数值模拟方法，包括以下步骤：

S1、CPU将CPU上的网格信息和物理场信息发送至GPU显存；

S2、利用第一核函数以及GPU中预存的网格信息和物理场信息以网格单元为基本计算单元与GPU线程对应，计算内部网格单元面通量和网格单元上的体积源项；

S3、利用第二核函数以及GPU中预存的网格信息和物理场信息以网格单元面为基本计算单元与GPU线程对应，计算边界网格单元面通量；

S4、利用第三核函数以及S2和S3得到的网格单元面通量以单元为基本计算单元与GPU线程对应，进行时间推进计算；

S5、所述GPU将S4得到的计算结果返回至CPU；

其中，S2、S3和S4中均采用多个GPU对所述内部网格单元面的通量、边界网格单元面的通量或时间推进进行并行计算。

优选的是，所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法中，所述网格信息包括：内部网格单元面拓扑结构及所述内部网格单元面拓扑结构的几何信息，以及边界网格单元面拓扑结构及所述边界网格单元面拓扑结构的几何信息；

所述物理场信息包括单元及单元面的干湿状态、单元物理量以及边界物理量。

优选的是，所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法中，所述第一核函数、第二核函数和第三内核函数均为采用CUDA语言编写的包含通量、源项、边界条件和时间推进的CUDA核函数。

优选的是，所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法中，所述的通量包括：内部网格单元面通量、边界网格单元面通量、源项和时间项推进。

优选的是，所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法中，所述第一核函数采用网格单元为基本计算单元与GPU线程对应，计算内部网格单元面通量和网格单元上的体积源项，实现内部网格单元面上通量计算的并行计算。

优选的是，所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法中，所述第二核函数采用网格单元面为基本计算单元与GPU线程对应，计算边界网格单元面通量，实现所述边界单元面通量计算的并行计算。

优选的是，所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法中，S2、S3和S4中采用多个GPU对所述内部网格单元面的通量、边界网格单元面的通量或时间推进进行并行计算前，还需将初始计算网格进行网格区域分解，并保证划分得到的每个网格单元只包含一个网格边界面；其中，所述网格区域分解指根据GPU数目将网格分解成相应的子区，具体划分方法为：

S1-1、将网格文件转化为图形文件；

S1-2、调用图切分软件包Metis中的图形分割工具pmetis和kmetis对所述图形文件进行网格分解。

优选的是，所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法中，每个所述GPU计算一个所述子区，所述GPU通过核函数计算所述子区的干湿边界处理、边界计算、对流项、扩散项以及源项。

优选的是，所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法中，各个GPU间采用异步通信技术来实现数据通信与计算重叠，具体方法为：

S2-1、核函数计算前将需要通信的并行网格边界面流速从GPU上拷贝至CPU的内存；

S2-2、CPU利用MPI非阻塞通信并行网格边界面流速，同时核函数开始计算与并行边界无关的内部网格单元面通量；

S2-3、核函数根据接收到并已上传至GPU的并行边界流速进行并行网格边界面的离散计算。

本发明至少包括以下有益效果：

本发明的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法中，通过第一核函数和第二核函数分别计算内部网格单元面通量和网格单元上的体积源项以及边界网格单元面通量，实现了内部单元面和边界单元面的计算的分离，使得较之现有的以单元或单元面为基本计算单元进行计算的效率大大提高。

通过采用多个GPU对所述内部单元的通量或边界单元的通量进行并行计算，实现了二维水动力模型在分布式GPU集群上的优化，进一步提高了计算效率。

通过将数值计算均在GPU上完成的方式，使得计算过程中无需GPU与CPU之间进行传输数据，从而为获得高效并行提供了前提条件。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1是本发明提供的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法的流程图；

图2是本发明提供的网格分解的原理图；

图3为本发明提供的GPU间采用异步通信技术来实现数据通信与计算重叠的流程图；

图4为本发明实施例中计算范围及水深情况示意图；

图5为本发明实施例中计算范围的整体网格图；

图6为本发明实施例中计算范围的局部网格图；

图7为本发明实施例中监测点的示意图；

图8为本发明实施例中1号监测点的潮位对比图；

图9为本发明实施例中2号监测点的潮位对比图；

图10为本发明实施例中3号监测点的潮位对比图；

图11为本发明实施例中4号监测点的潮位对比图。

具体实施方式

下面结合附图对本发明做详细说明，以令本领域普通技术人员参阅本说明书后能够据以实施。

如图1所示，一种基于GPU计算技术的非结构网格潮汐潮流数值模拟方法，包括以下步骤：S1、CPU将CPU上的网格信息和物理场信息发送至GPU显存；

S5、所述GPU将S4得到的计算结果返回至CPU；

在上述方案中，通过第一核函数和第二核函数分别计算内部网格单元面通量和网格单元上的体积源项以及边界网格单元面通量，实现了内部单元面和边界单元面的计算的分离，使得较之现有的以单元或单元面为基本计算单元进行计算的效率大大提高。

由于GPU和CPU各自拥有独立的物理内存，所以必须调用cudaMemcpy函数才能实现数据交互，而数据交互速度受带宽限制，往往成为GPU程序加速的瓶颈，因而通过将数值计算均在GPU上完成的方式，使得计算过程中无需GPU与CPU之间进行传输数据，从而为获得高效并行提供了前提条件。

一个优选方案中，所述网格信息包括：内部网格单元面拓扑结构及所述内部网格单元面拓扑结构的几何信息，以及边界网格单元面拓扑结构及所述边界网格单元面拓扑结构的几何信息；

一个优选方案中，所述第一核函数、第二核函数和第三内核函数均为采用CUDA语言编写的包含通量、源项、边界条件和时间推进的CUDA核函数。

在上述方案中，CUDA以内核函数(kernel)为基本单元，在GPU上根据流处理器能力启动众多的线程来并发执行；针对所采用的数值计算方法，对于单GPU采用CUDA语言将通量、源项、边界条件、时间推进的计算编写为内核函数，移植至GPU上运行计算以提高计算效率。

一个优选方案中，所述的通量包括：内部网格单元面通量、边界网格单元面通量、源项和时间项推进。

一个优选方案中，所述第一核函数采用网格单元为基本计算单元与GPU线程对应，计算内部网格单元面通量和网格单元上的体积源项，实现内部网格单元面上通量计算的并行计算。

在上述方案中，将计算中的基本计算单元与CUDA线程对应，对于内部单元通量计算主要涉及内部单元面通量、单元上的源项、时间项推进的计算，在kernel并发时以单元为基本计算单元与线程对应，计算内部单元面通量和单元上的体积源项，这样可实现单元上通量计算的并发。

一个优选方案中，所述第二核函数采用网格单元面为基本计算单元与GPU线程对应，计算边界网格单元面通量，实现所述边界单元面通量计算的并行计算。

在上述方案中，对于边界单元面的计算处理往往与内部单元面不同，因此采用第二kernel进行处理，考虑边界单元面计算只是单纯的通量计算添加到对应的边界单元里，因而采用以单元面为基本单元计算面通量并与CUDA线程对应，实现边界单元面通量计算的并发。

一个优选方案中，S2、S3和S4中采用多个GPU对所述内部网格单元面的通量、边界网格单元面的通量或时间推进进行并行计算前，还需将初始计算网格进行网格区域分解，并保证划分得到的每个网格单元只包含一个网格边界面；其中，所述网格区域分解指根据GPU数目将网格分解成相应的子区，具体划分方法为：

S1-1、将网格文件转化为图形文件；

在上述方案中，需要根据节点数目将网格划分成相应的子区。通过相关参数控制将网格文件转化为图形文件，然后调用Metis提供的图形分割工具pmetis和kmetis工具进行网格分解，可以实现对任意形状网格和混合网格的区域分解。例如对于如图2所示的非结构网格，以字母c开头表示单元编号，而直接由数字开头的表示界面编号。单元的内部界面与两个单元相邻，由此可以将单元界面转化为图形文件中的边，而单元编号转好为边的两个节点，如非结构网格界面6两侧单元c1和c6，对应图中图形数据中边6和节点c1和c6，所有网格边界面与单元转化后，就可以得到图中所示的图形数据。如网格文件中单元c1与单元c6，c5，c2相邻，转化后，可以看到节点c1与节点c6，c5，c2相邻，由此可以得到图形数据，之后便可调用Metis图形分割工具进行分割，最终得到图形数据中每个节点所属区域的序号，将该序号映射到非结构网格中便可得到原始非结构网格每个计算单元所属的分解区域序号，该网格拓扑信息将用于后续水动力模型离散求解。

一个优选方案中，每个所述GPU计算一个所述子区，所述GPU通过核函数计算所述子区的干湿边界处理、边界计算、对流项、扩散项以及源项。

一个优选方案中，各个GPU间采用异步通信技术来实现数据通信与计算重叠，具体方法为：

在上述方案中，在分布式系统环境下，由于节点间GPU显存无法直接通信，因此需特殊的设计保证节点间计算负载的均衡，以及节点间数据通信效率，分布式系统环境下的并行计算，计算效率取决于进行间通信时间所占整体计算时间的比重。因而利用异步通信技术来实现节点间数据通信与计算重叠，实现了将并行边界面的数据交换与内部单元面的离散计算并发执行，从而达到了掩盖数据交换通信时间的目的。

实施例

算例测试：渤海潮汐潮流模拟

1)算例描述

以烟台和大连连线为开边界，计算渤海范围内潮波传递和潮流运动情况。计算范围和地形如图4所示。网格节点数60307，单元数117142，最大网格空间步长9758m，最小网格空间步长40m，如图5所示。

利用本发明所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法对CUDA并行程序计算效率与计算结果进行测试和分析，主要分为两部分内容：

(1)测试GPU计算与CPU以及其他软件计算结果对比；

(2)测试GPU计算效率。

2)CPU测试环境

(1)计算平台：

宝德PR8800G八路并行计算机

8颗Intel Xeon Processor E7-8867 v3(2.5GHz/16C/45M/165W/9.6G)

24X16GB/DDR4/2133MHz/ECC/REG/2RANK

5 X 900GB/SAS/10000RPM/2.5寸/企业级

(2)操作系统

Red Hat Enterprise Linux Server release 7.2(Linux version 3.10.0-327.el7.x86_64)

3)GPU测试环境

TH-1A系统gpu_test计算分区Tesla M2050和Tesla K20m显卡。

4)计算结果

如图6所示为采用GPU并行程序计算得到不同点位的潮位与商业水动力计算软件MIKE以及CPU计算结果的对比，可以看到本程序采用GPU计算得到的潮位结果与商业水动力计算软件MIKE及本程序CPU版本计算结果一致，说明本程序GPU计算结果的准确。

GPU计算与CPU以及其他软件计算时间统计如下表1所示：

表1 GPU计算与CPU以及其他软件计算时间统计表

计算平台	计算时间(秒)
		32核(Intel Xeon 5670 CPU)	576
40核(Intel Xeon E7-8867 v3 CPU)	240
		1个GPU(Intel Xeon 5670+Tesla M2050)	717
1个GPU(Intel Xeon 5670+Tesla K20m)	578

由表1可见，采用K20m计算基本和32核计算效率相当。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里所示出与描述的图例。

Claims

1.一种基于GPU计算技术的非结构网格潮汐潮流数值模拟方法，其中，包括以下步骤：

S1、CPU将CPU上的网格信息和物理场信息发送至GPU显存；

S5、所述GPU将S4得到的计算结果返回至CPU；

2.如权利要求1所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法，其中，所述网格信息包括：内部网格单元面拓扑结构及所述内部网格单元面拓扑结构的几何信息，以及边界网格单元面拓扑结构及所述边界网格单元面拓扑结构的几何信息；

3.如权利要求1所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法，其中，所述第一核函数、第二核函数和第三内核函数均为采用CUDA语言编写的包含通量、源项、边界条件和时间推进的CUDA核函数。

4.如权利要求1所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法，其中，所述的通量包括：内部网格单元面通量、边界网格单元面通量、源项和时间项推进。

5.如权利要求1所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法，其中，所述第一核函数采用网格单元为基本计算单元与GPU线程对应，计算内部网格单元面通量和网格单元上的体积源项，实现内部网格单元面上通量计算的并行计算。

6.如权利要求1所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法，其中，所述第二核函数采用网格单元面为基本计算单元与GPU线程对应，计算边界网格单元面通量，实现所述边界单元面通量计算的并行计算。

7.如权利要求1所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法，其中，S2、S3和S4中采用多个GPU对所述内部网格单元面的通量、边界网格单元面的通量或时间推进进行并行计算前，还需将初始计算网格进行网格区域分解，并保证划分得到的每个网格单元只包含一个网格边界面；其中，所述网格区域分解指根据GPU数目将网格分解成相应的子区，具体划分方法为：

S1-1、将网格文件转化为图形文件；

8.如权利要求7所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法，其中，每个所述GPU计算一个所述子区，所述GPU通过核函数计算所述子区的干湿边界处理、边界计算、对流项、扩散项以及源项。

9.如权利要求1所述的基于GPU计算技术的非结构网格潮汐潮流数值模拟方法，其中，各个GPU间采用异步通信技术来实现数据通信与计算重叠，具体方法为：