CN113315803A

CN113315803A - 一种基于钉固内存的短波辐射模式数据传输性能优化方法

Info

Publication number: CN113315803A
Application number: CN202110308249.9A
Authority: CN
Inventors: 王玉柱; 王珍珍
Original assignee: China University of Geosciences Beijing
Current assignee: China University of Geosciences Beijing
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-08-27

Abstract

本发明公开了一种基于钉固内存的短波辐射模式数据传输性能优化方法，主要通过使用钉固内存技术对短波辐射模式RRTMG_SW在CPU与GPU之间数据传输进行性能优化，以此来提高短波辐射通量以及冷却/加热速率在GPU上的计算效率。该方法包括以下步骤：首先，将代码中的数组改写为指针形式；然后，使用cudaMallocHost函数分配页锁定内存；最后，利用cudaFreeHost函数将其分配的内存释放。本发明有益效果：使用钉固内存技术后，主机端(CPU)与设备端(GPU)之间拥有更大的传输带宽，最高可以达到数据传输3.63倍的加速效果，缩短了数据传输时间，提高了短波辐射模式的计算效率。

Description

一种基于钉固内存的短波辐射模式数据传输性能优化方法

技术领域

本发明涉及高性能计算技术领域，具体涉及一种基于钉固内存的短波辐射模式数据传输性能优化方法。

背景技术

地球上的天气与气候情况是由太阳辐射量及其分布所决定的。辐射过程作为重要的大气物理过程之一，需要保证其模拟的气候变化准确率高，因此对辐射计算模型的精确性有很高的要求。RRTMG(rapid radiative transfer model for general circulationmodels)是一种计算长短波大气辐射通量和加热速率的辐射模式，该模式使用相关k方法来满足目前对辐射计算精确度的要求。复杂的气候数值模拟系统需要模拟多种物理过程，其辐射传输模块的计算量占比较大，无法满足地球系统模式大规模高效计算的需要。因此，我们基于CUDA C开发了RRTMG的GPU版本。但是在GPU版本中，耗时较长的部分为CUDA memcpyDtoH和CUDA memcpy HtoD，即数据在主机端和设备端之间的传输，kernel的计算时间反而较短，有些甚至小到可以忽略不计，如表1所示。因此，十分有必要对主机端和设备端之间的数据传输进行性能优化。

表1基于CUDA C的RRTMG_SW各子程序及数据传输的计算时间(s)

在主机上为变量分配内存空间时，默认情况下使用可分页内存。如图1所示，当在主机和设备之间传输数据时，操作系统首先分配一个临时固定的主机缓冲区，然后将数据从可分页内存复制到临时固定的缓冲区，最后将数据传输到设备端。固定缓冲区可能小于保存主机数据的可分页内存，在这种情况下，复制数据就需要经过多个阶段。从设备到主机的数据传输过程是类似的。当使用钉固内存时，系统会保证钉固内存中的数据始终驻留在随机访问内存中，不会分配到硬盘上。当采用钉固内存技术在主机和设备之间传输数据时，可以避免可分页内存和固定缓冲区之间的数据传输开销。显然，主机和设备之间的数据传输开销将会减少。

为了提高RRTMG_SW在主机端和设备端之间数据传输效率，可以采用钉固内存的方法进行性能优化。

发明内容

本发明的目的在于提供一种基于钉固内存的短波辐射模式数据传输性能优化方法，用以提高短波辐射模式RRTMG_SW GPU版本在主机端和设备端之间数据传输的效率。

为实现上述目的，本发明的技术方案为：

步骤1.数据重定义。将CPU端的数组定义改为指针形式。例如，将double play[nlay*ncol]改为double*play。

步骤2.内存分配。通过cudaMallocHost()函数对CPU端的数组进行内存分配。例如，cudaMallocHost((double**)&play,nlay*ncol*sizeof(double))。

步骤3.内存释放。将CPU端计算完毕的指针数组通过cudaFreeHost()释放。例如，cudaFreeHost(play)。

本发明具有如下优点：

本发明将钉固内存技术应用到了短波辐射模式主机端和设备端之间的数据传输中，在一个P100 GPU上实现了3.63倍的加速，提高了短波辐射模式的数据传输效率。

附图说明

图1可分页内存与钉固内存的数据传输示意图

图2采用钉固内存技术的RRTMG_SW GPU版本计算流程图

图3钉固内存的具体实施图

具体实施方式

下面将结合本发明实施例中的附图和表格，对本发明实施例中的技术方案进行清楚、完整地描述。

基于CUDA C的短波辐射模式RRTMG_SW性能优化之前的数据传输部分如下：

使用钉固内存技术对RRTMG_SW数据传输部分进行性能优化，代码如下：

数据传输性能优化之后，RRTMG_SW在K20、P100和Titan GPU上的运行时间和相应的加速效果如表2所示。其中，Computing time表示核函数部分的计算时间；DtoH表示设备端GPU向主机端CPU传输数据的时间；HtoD表示主机端CPU向设备端GPU传输数据的时间；I/O为数据传输的总时间；RRTMG_SW为短波辐射总的运行时间；Speedup为使用钉固内存技术后整体代码获得的加速比。

表2在不同GPU上的计算时间(s)及加速比(网格规模2048×384，block size＝128)

实验结果表明，在一个P100 GPU上短波辐射数据传输部分的加速比能够达到3.63，整体短波辐射代码加速效果达到2.50倍。在一个Titan GPU上短波辐射数据传输部分的加速比能够达到3.24，整体短波辐射代码加速效果达到2.97倍。由此得出，该方法对提高短波辐射模式主机端和设备端之间的数据传输效率是有效的。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于钉固内存的短波辐射模式数据传输性能优化方法，其特征在于：主要通过钉固内存技术对短波辐射模式RRTMG_SW GPU版本在主机端和设备端之间数据传输的性能进行优化，以此来提高短波辐射通量以及冷却/加热速率的整体计算效率。

2.根据权利要求1所述的基于钉固内存的短波辐射模式数据传输性能优化方法，其特征在于，该方法包括以下步骤：

数据重定义。将CPU端的数组定义改为指针形式。例如，将double play[nlay*ncol]改为double*play。

3.根据权利要求2所述的基于钉固内存的短波辐射模式数据传输性能优化方法，其特征在于：内存分配。通过cudaMallocHost()函数对CPU端的数组进行内存分配。例如，cudaMallocHost((double**)&play,nlay*ncol*sizeof(double))。

4.根据权利要求3所述的基于钉固内存的短波辐射模式数据传输性能优化方法，其特征在于：内存释放。将CPU端计算完毕的指针数组通过cudaFreeHost()释放。例如，cudaFreeHost(play)。