CN113315803A - 一种基于钉固内存的短波辐射模式数据传输性能优化方法 - Google Patents

一种基于钉固内存的短波辐射模式数据传输性能优化方法 Download PDF

Info

Publication number
CN113315803A
CN113315803A CN202110308249.9A CN202110308249A CN113315803A CN 113315803 A CN113315803 A CN 113315803A CN 202110308249 A CN202110308249 A CN 202110308249A CN 113315803 A CN113315803 A CN 113315803A
Authority
CN
China
Prior art keywords
data transmission
wave radiation
memory
short wave
radiation mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110308249.9A
Other languages
English (en)
Inventor
王玉柱
王珍珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences Beijing
Original Assignee
China University of Geosciences Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences Beijing filed Critical China University of Geosciences Beijing
Priority to CN202110308249.9A priority Critical patent/CN113315803A/zh
Publication of CN113315803A publication Critical patent/CN113315803A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于钉固内存的短波辐射模式数据传输性能优化方法,主要通过使用钉固内存技术对短波辐射模式RRTMG_SW在CPU与GPU之间数据传输进行性能优化,以此来提高短波辐射通量以及冷却/加热速率在GPU上的计算效率。该方法包括以下步骤:首先,将代码中的数组改写为指针形式;然后,使用cudaMallocHost函数分配页锁定内存;最后,利用cudaFreeHost函数将其分配的内存释放。本发明有益效果:使用钉固内存技术后,主机端(CPU)与设备端(GPU)之间拥有更大的传输带宽,最高可以达到数据传输3.63倍的加速效果,缩短了数据传输时间,提高了短波辐射模式的计算效率。

Description

一种基于钉固内存的短波辐射模式数据传输性能优化方法
技术领域
本发明涉及高性能计算技术领域,具体涉及一种基于钉固内存的短波辐射模式数据传输性能优化方法。
背景技术
地球上的天气与气候情况是由太阳辐射量及其分布所决定的。辐射过程作为重要的大气物理过程之一,需要保证其模拟的气候变化准确率高,因此对辐射计算模型的精确性有很高的要求。RRTMG(rapid radiative transfer model for general circulationmodels)是一种计算长短波大气辐射通量和加热速率的辐射模式,该模式使用相关k方法来满足目前对辐射计算精确度的要求。复杂的气候数值模拟系统需要模拟多种物理过程,其辐射传输模块的计算量占比较大,无法满足地球系统模式大规模高效计算的需要。因此,我们基于CUDA C开发了RRTMG的GPU版本。但是在GPU版本中,耗时较长的部分为CUDA memcpyDtoH和CUDA memcpy HtoD,即数据在主机端和设备端之间的传输,kernel的计算时间反而较短,有些甚至小到可以忽略不计,如表1所示。因此,十分有必要对主机端和设备端之间的数据传输进行性能优化。
表1基于CUDA C的RRTMG_SW各子程序及数据传输的计算时间(s)
Figure BDA0002988754210000011
在主机上为变量分配内存空间时,默认情况下使用可分页内存。如图1所示,当在主机和设备之间传输数据时,操作系统首先分配一个临时固定的主机缓冲区,然后将数据从可分页内存复制到临时固定的缓冲区,最后将数据传输到设备端。固定缓冲区可能小于保存主机数据的可分页内存,在这种情况下,复制数据就需要经过多个阶段。从设备到主机的数据传输过程是类似的。当使用钉固内存时,系统会保证钉固内存中的数据始终驻留在随机访问内存中,不会分配到硬盘上。当采用钉固内存技术在主机和设备之间传输数据时,可以避免可分页内存和固定缓冲区之间的数据传输开销。显然,主机和设备之间的数据传输开销将会减少。
为了提高RRTMG_SW在主机端和设备端之间数据传输效率,可以采用钉固内存的方法进行性能优化。
发明内容
本发明的目的在于提供一种基于钉固内存的短波辐射模式数据传输性能优化方法,用以提高短波辐射模式RRTMG_SW GPU版本在主机端和设备端之间数据传输的效率。
为实现上述目的,本发明的技术方案为:
步骤1.数据重定义。将CPU端的数组定义改为指针形式。例如,将double play[nlay*ncol]改为double*play。
步骤2.内存分配。通过cudaMallocHost()函数对CPU端的数组进行内存分配。例如,cudaMallocHost((double**)&play,nlay*ncol*sizeof(double))。
步骤3.内存释放。将CPU端计算完毕的指针数组通过cudaFreeHost()释放。例如,cudaFreeHost(play)。
本发明具有如下优点:
本发明将钉固内存技术应用到了短波辐射模式主机端和设备端之间的数据传输中,在一个P100 GPU上实现了3.63倍的加速,提高了短波辐射模式的数据传输效率。
附图说明
图1可分页内存与钉固内存的数据传输示意图
图2采用钉固内存技术的RRTMG_SW GPU版本计算流程图
图3钉固内存的具体实施图
具体实施方式
下面将结合本发明实施例中的附图和表格,对本发明实施例中的技术方案进行清楚、完整地描述。
基于CUDA C的短波辐射模式RRTMG_SW性能优化之前的数据传输部分如下:
Figure BDA0002988754210000031
使用钉固内存技术对RRTMG_SW数据传输部分进行性能优化,代码如下:
Figure BDA0002988754210000032
Figure BDA0002988754210000041
数据传输性能优化之后,RRTMG_SW在K20、P100和Titan GPU上的运行时间和相应的加速效果如表2所示。其中,Computing time表示核函数部分的计算时间;DtoH表示设备端GPU向主机端CPU传输数据的时间;HtoD表示主机端CPU向设备端GPU传输数据的时间;I/O为数据传输的总时间;RRTMG_SW为短波辐射总的运行时间;Speedup为使用钉固内存技术后整体代码获得的加速比。
表2在不同GPU上的计算时间(s)及加速比(网格规模2048×384,block size=128)
Figure BDA0002988754210000042
实验结果表明,在一个P100 GPU上短波辐射数据传输部分的加速比能够达到3.63,整体短波辐射代码加速效果达到2.50倍。在一个Titan GPU上短波辐射数据传输部分的加速比能够达到3.24,整体短波辐射代码加速效果达到2.97倍。由此得出,该方法对提高短波辐射模式主机端和设备端之间的数据传输效率是有效的。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (4)

1.一种基于钉固内存的短波辐射模式数据传输性能优化方法,其特征在于:主要通过钉固内存技术对短波辐射模式RRTMG_SW GPU版本在主机端和设备端之间数据传输的性能进行优化,以此来提高短波辐射通量以及冷却/加热速率的整体计算效率。
2.根据权利要求1所述的基于钉固内存的短波辐射模式数据传输性能优化方法,其特征在于,该方法包括以下步骤:
数据重定义。将CPU端的数组定义改为指针形式。例如,将double play[nlay*ncol]改为double*play。
3.根据权利要求2所述的基于钉固内存的短波辐射模式数据传输性能优化方法,其特征在于:内存分配。通过cudaMallocHost()函数对CPU端的数组进行内存分配。例如,cudaMallocHost((double**)&play,nlay*ncol*sizeof(double))。
4.根据权利要求3所述的基于钉固内存的短波辐射模式数据传输性能优化方法,其特征在于:内存释放。将CPU端计算完毕的指针数组通过cudaFreeHost()释放。例如,cudaFreeHost(play)。
CN202110308249.9A 2021-03-23 2021-03-23 一种基于钉固内存的短波辐射模式数据传输性能优化方法 Pending CN113315803A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110308249.9A CN113315803A (zh) 2021-03-23 2021-03-23 一种基于钉固内存的短波辐射模式数据传输性能优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110308249.9A CN113315803A (zh) 2021-03-23 2021-03-23 一种基于钉固内存的短波辐射模式数据传输性能优化方法

Publications (1)

Publication Number Publication Date
CN113315803A true CN113315803A (zh) 2021-08-27

Family

ID=77372158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110308249.9A Pending CN113315803A (zh) 2021-03-23 2021-03-23 一种基于钉固内存的短波辐射模式数据传输性能优化方法

Country Status (1)

Country Link
CN (1) CN113315803A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102338869A (zh) * 2011-06-20 2012-02-01 北京师范大学 下行短波辐射和光合有效辐射数据的反演方法及系统
CN106340004A (zh) * 2016-08-08 2017-01-18 吉林大学 一种基于模糊聚类预处理云系的并行云迹风反演方法
CN106372268A (zh) * 2015-07-20 2017-02-01 中国人民解放军92728部队 基于热模型的实时红外仿真方法
US20170251931A1 (en) * 2016-03-04 2017-09-07 University Of Manitoba Intravascular Plaque Detection in OCT Images
CN109255294A (zh) * 2018-08-02 2019-01-22 中国地质大学(北京) 一种基于深度学习的遥感图像云识别方法
CN110889891A (zh) * 2018-08-20 2020-03-17 北京航天长峰科技工业集团有限公司 基于gpu并行计算的视景特效仿真方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102338869A (zh) * 2011-06-20 2012-02-01 北京师范大学 下行短波辐射和光合有效辐射数据的反演方法及系统
CN106372268A (zh) * 2015-07-20 2017-02-01 中国人民解放军92728部队 基于热模型的实时红外仿真方法
US20170251931A1 (en) * 2016-03-04 2017-09-07 University Of Manitoba Intravascular Plaque Detection in OCT Images
CN106340004A (zh) * 2016-08-08 2017-01-18 吉林大学 一种基于模糊聚类预处理云系的并行云迹风反演方法
CN109255294A (zh) * 2018-08-02 2019-01-22 中国地质大学(北京) 一种基于深度学习的遥感图像云识别方法
CN110889891A (zh) * 2018-08-20 2020-03-17 北京航天长峰科技工业集团有限公司 基于gpu并行计算的视景特效仿真方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FELAIM: "CUDA: (十三) 手动分配内存和拷贝", 《CSDN HTTPS://BLOG.CSDN.NET/FELAIM/ARTICLE/DETAILS/104575488》 *
JARNO MIELIKAINEN ET.AL.: "GPU Compute Unified Device Architecture (CUDA)-based Parallelization of the RRTMG Shortwave Rapid Radiative Transfer Model", 《IEEE》 *
YUZHU WANG ET.AL.: "GPUs‑RRTMG_LW: high‑efcient and scalable computing for a longwave radiative transfer model on multiple GPUs", 《SPRINGER NATURE》 *
周晨: "基于GPU的RRTMG_SW加速算法及其在地球系统模式中的应用", 《中国优秀硕士学位论文全文数据库 (基础科学辑)》 *

Similar Documents

Publication Publication Date Title
JP7057093B2 (ja) プログラマブルな行列処理エンジン
US11720472B2 (en) Liveness as a factor to evaluate memory vulnerability to soft errors
CN111708511A (zh) 用于神经网络的数据压缩
CN101401128A (zh) 使用图形处理进行粒子操作的方法和装置
CN115422098B (zh) 基于扩展页表的gpu访存自适应优化方法及装置
US11379420B2 (en) Decompression techniques for processing compressed data suitable for artificial neural networks
US11481994B2 (en) Method and apparatus for extracting image data in parallel from multiple convolution windows, device, and computer-readable storage medium
CN114995782A (zh) 数据处理方法、装置、设备和可读存储介质
WO2020103883A1 (zh) 执行矩阵乘法运算的方法、电路及soc
CN113315803A (zh) 一种基于钉固内存的短波辐射模式数据传输性能优化方法
US20210248014A1 (en) Read-write page replication for multiple compute units
CN113222160B (zh) 一种量子态的转换方法及装置
CN115756605A (zh) 一种基于多gpu的浅积云对流参数化方案异构计算方法
CN114116208A (zh) 一种基于gpu的短波辐射传输模式三维加速方法
CN116185937A (zh) 基于众核处理器多层互联架构的二元运算访存优化方法及装置
CN111860818B (zh) 基于智能芯片的som神经网络算法处理方法
CN103902506A (zh) 一种基于龙芯3b的fftw3优化方法
CN113297860A (zh) 机器翻译模型的优化方法、系统、电子设备和存储介质
CN112446004B (zh) 非结构网格dilu预条件子众核并行优化方法
CN110766133B (zh) 嵌入式设备中的数据处理方法、装置、设备和存储介质
CN112926202A (zh) 一种基于CUDA Fortran的短波辐射模式加速方法
Watanabe et al. High Resolution of City-Level Climate Simulation by GPU with Multi-physical Phenomena
CN114462612A (zh) 基于高性能异构集群的量子计算仿真原理验证方法
CN110021339B (zh) 基于蛋白质折叠测算蛋白质结构的集群并行计算加速方法
CN112486671A (zh) 基于gpu的grapes系统优化方法、系统、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210827