CN114490046A - 一种面向dcu-cpu混合架构的团簇动力学方法的并行计算方法 - Google Patents

一种面向dcu-cpu混合架构的团簇动力学方法的并行计算方法 Download PDF

Info

Publication number
CN114490046A
CN114490046A CN202210033833.2A CN202210033833A CN114490046A CN 114490046 A CN114490046 A CN 114490046A CN 202210033833 A CN202210033833 A CN 202210033833A CN 114490046 A CN114490046 A CN 114490046A
Authority
CN
China
Prior art keywords
dcu
cluster
calculation
cpu
reaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210033833.2A
Other languages
English (en)
Inventor
胡长军
白鹤
朱雨晗
陈丹丹
储根深
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202210033833.2A priority Critical patent/CN114490046A/zh
Publication of CN114490046A publication Critical patent/CN114490046A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • G06F12/0238Memory management in non-volatile memory, e.g. resistive RAM or ferroelectric memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种面向DCU‑CPU混合架构的团簇动力学方法的并行计算方法,属于核材料辐照模拟技术领域。所述方法包括:S1,建立DCU上的数据结构信息,用于存储计算所需数据;S2,CPU端向DCU端传递计算所需的数据;S3,将建立的网格区域求解任务分配至DCU端;S4,在CPU端,调用求解器,建立求解方程组的初值与方程矩阵,并进行方程组求解;S5,将方程组求解结果传输至DCU端;S6,DCU端根据接收到的求解结果以及接收到的计算所需的数据,计算下一时间步所需初值及方程矩阵;S7,DCU端将计算结果传回CPU端;S8,重复S4‑S7直至达到模拟所需计算时间。采用本发明,能够扩展团簇动力学模拟方法的时空规模,并减少团簇动力学模拟的计算时间。

Description

一种面向DCU-CPU混合架构的团簇动力学方法的并行计算 方法
技术领域
本发明涉及核材料辐照模拟技术领域,特别是指一种面向DCU-CPU混合架构的团簇动力学方法的并行计算方法。
背景技术
团簇动力学(cluster dynamics,CD)是基于平均场速率理论发展而来的数值模拟方法,该方法忽略了原子的空间信息及相互作用力,而把关注点放在原子聚集形成的团簇的尺寸及浓度信息,能够进行中长时间的演化过程模拟,属于介观尺度的模拟方法。由于团簇动力学可以对材料的微观动力学演化行为进行较为准确的模型描述及模拟计算,因此目前应用于材料微观演化机理研究的多个相关领域之中。以核反应堆为例,其内部材料的服役性能大都依赖于辐照条件下产生的材料缺陷的动力学行为(如结构材料的辐照损伤、核燃料裂变气体导致的辐照肿胀等),因此使用团簇动力学方法研究掌握材料缺陷的微观演化机理是保障核反应堆安全运行、提高服役性能、延长使用寿命的关键。团簇动力学在核反应堆研究应用中,已成功模拟了如压力容器的团簇析出、裂变气体迁移等微观过程。
随着应用范围的扩大,传统的团簇动力学方法暴露出其在计算及模型上的瓶颈问题。从计算上来说,由于团簇动力学方法依赖于一组偏微分方程的求解,通常情况下方程组的方程数量超106,且方程大多数情况下为刚性方程,因此团簇动力学方程的求解需要极大的计算量,仅凭目前CPU(central processing unit,中央处理器)的计算能力难以完成计算任务。从模型上来说由于传统的团簇动力学模拟没有考虑团簇间的空间相关性,团簇被假定在一个均匀介质中,因此在进行环境信息快速变化,或存在团簇迁移过程的模拟时,团簇动力学的模型便不在适用。
基于空间依赖的团簇动力学模拟方法,是近年来发展的一种改进团簇动力学模型的方法。基于空间依赖的团簇动力学模拟方法通过在传统团簇动力学模拟的基础上,引入扩散项的信息,并在空间上进行划分,使得模型可以在一定情景中克服上述的不足。但此种方法增加了团簇动力学方程求解的计算量,使得求解过程存在计算时间过长的问题,并存在一些模拟条件下由于计算量过大而无法进行的问题,导致这种方法的使用受限。
曙光超级计算机在传统CPU基础上,搭载了深度计算器(Deep Computing Unit,DCU),形成了异构混合架构的整体设计。DCU是以通用图形处理器(General-purposecomputing on graphics processing units,GPGPU)架构为基础,兼容通用的类CUDA环境,适用于计算密集型的科学计算等方面的程序设计与移植,能够有效地提升程序的计算效率,缩短程序执行时间。但由于其架构相对单CPU来说较为复杂,要结合实际计算模型进行程序设计会给设计人员带来一定挑战。
发明内容
本发明实施例提供了面向DCU-CPU混合架构的团簇动力学方法的并行计算方法,能够扩展团簇动力学模拟方法的时空规模,并减少团簇动力学模拟的计算时间。所述技术方案如下:
本发明实施例提供了一种面向DCU-CPU混合架构的团簇动力学方法的并行计算方法,包括:
S1,建立DCU上的数据结构信息,用于存储计算所需数据;其中,所述数据结构包括:团簇基本信息的数据结构、团簇信息的管理结构、网格信息的管理结构和团簇反应基本信息的数据结构;
S2,CPU端向DCU端传递计算所需的数据;
S3,将建立的网格区域求解任务分配至DCU端;
S4,在CPU端,调用求解器,建立求解方程组的初值与方程矩阵,并进行方程组求解;
S5,将方程组求解结果传输至DCU端;
S6,DCU端根据接收到的求解结果以及接收到的计算所需的数据,计算下一时间步所需初值及方程矩阵;
S7,DCU端将计算结果传回CPU端;
S8,重复S4-S7直至达到模拟所需计算时间。
进一步地,所述团簇基本信息的数据结构包括:单一类型团簇的尺寸、编号、扩散系数、结合能、迁移能、反应半径和浓度中的一种或多种。
进一步地,所述团簇信息的管理结构包括:模拟对象的晶格尺寸、缺陷原子尺寸、反应信息存储地址、反应个数和团簇信息存储地址中的一种或多种;其中,所述团簇信息存储地址指向团簇基本信息的数据结构,所述反应信息存储地址指向团簇反应基本信息的数据结构。
进一步地,所述网格信息的管理结构包括:网格数量、网格的尺寸和网格的温度中的一种或多种。
进一步地,所述团簇反应基本信息的数据结构包括:反应类型、参与反应的团簇信息存储地址和反应速率系数中的一种或多种;其中,所述参与反应的团簇信息存储地址指向团簇基本信息的数据结构。
进一步地,所述将建立的网格区域求解任务分配至DCU端包括:
以网格划分的方式将求解区域进行分解,以单一网格上的计算任务为计算单元,分配至DCU上的线程上,形成网格-线程,区域-线程池的任务划分方法。
进一步地,所述DCU端根据接收到的求解结果以及接收到的计算所需的数据,计算下一时间步所需初值及方程矩阵包括:
DCU端根据接收到的求解结果,计算各网格点各团簇相应的参数信息,所述参数信息包括:扩散系数和反应速率系数;
线程间同步,使得所有线程达到同一时间点和执行步骤;
计算各网格点各团簇下一时间步的反应速率初值;
计算各网格点各团簇下一时间步的偏导数用于方程求解;
线程间同步,使得所有线程达到同一时间点和执行步骤。
本发明实施例提供的技术方案带来的有益效果至少包括:
1)扩展团簇动力学模拟方法的时空规模
本实施例实现了基于空间依赖的团簇动力学模型,并实现了DCU-CPU异构混合架构的版本,可以在CPU上及DCU上进行大规模并行模拟,扩展了团簇动力学模拟方法的时空规模。
2)减少团簇动力学模拟的计算时间
利用了DCU的计算能力优势,进行DCU-CPU异构混合架构上的团簇动力学方法的并行计算方法设计,有效提升了该方法的执行效率,大幅缩短了团簇动力学的求解时间,较目前所知相同模型下进行团簇动力学模拟的程序性能提升60%,从而解决现有技术中存在的基于空间依赖的团簇动力学模拟方法的计算时间过长的问题,使得计算时间达到实际应用可接受的范围。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的面向DCU-CPU混合架构的团簇动力学方法的并行计算方法的流程示意图;
图2为本发明实施例提供的DCU上数据结构示意图;
图3为本发明实施例提供的DCU计算任务划分示意图;
图4为本发明实施例提供的DCU端计算流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
如图1所示,本发明实施例提供了一种面向DCU-CPU混合架构的团簇动力学方法的并行计算方法,包括:
S1,建立DCU上的数据结构信息,用于存储计算所需数据;
如图2所示,DCU(例如,曙光DCU)上主要包含以下4个数据结构:团簇基本信息的数据结构、团簇信息的管理结构、网格信息的管理结构和团簇反应基本信息的数据结构,图2带箭头的折线表示存储的地址信息指向的数据结构,在4个结构右边是其结构中包含的部分数据信息,具体的:
1、团簇基本信息的数据结构,包含但不限于单一类型团簇的尺寸、编号、扩散系数、结合能、迁移能、反应半径和浓度等信息中的一种或多种。
2、团簇信息的管理结构,包含但不限于模拟对象的晶格尺寸、缺陷原子尺寸、反应信息存储地址、反应个数和团簇信息存储地址等信息中的一种或多种,其中,团簇信息存储地址指向1中所描述的结构,反应信息存储地址指向4中所描述的结构。
3、网格信息的管理结构,包含但不限于网格数量、网格的尺寸和网格的温度等信息中的一种或多种。
4、团簇反应基本信息的数据结构,包含但不限于反应类型、参与反应的团簇信息存储地址和反应速率系数等信息中的一种或多种,其中,参与反应的团簇信息存储地址指向1中所描述的结构。
S2,CPU端向DCU端传递计算所需的数据;
本实施例中,CPU端将经初始化后的团簇基本信息、团簇信息管理结构信息、网格信息管理结构信息和团簇反应基本信息等使用hip编程语言由CPU端内存拷贝至DCU端内存的相应结构中。
S3,将建立的网格区域求解任务分配至DCU端;
本实施例中,以网格划分的方式将求解区域进行分解,在计算过程中,每个网格需要计算网格上的各团簇的浓度、参与反应的速率系数等信息,本实施例中,以单一网格上的计算任务为计算单元,是最小任务划分单位,可以与DCU上最小计算单元(计算线程)对应,因此,将单一网格上的计算任务分配至DCU上的线程上,如图3所示,形成网格-线程,区域-线程池的任务划分方法;其中,图3是DCU计算任务划分示意图,自上而下,是计算任务划分的整体思路,将模拟区域与DCU结构相对应,首先将网格划分后的区域进行二次划分,一块区域与一个DCU计算结构CU相对应,然后将每块区域中的每个网格点与CU中的计算线程相对应。
S4,在CPU端,调用求解器,建立求解方程组的初值与方程矩阵,并进行方程组求解;
本实施例中,以调用PETSc(Portable Extensible Toolkit for ScientificComputation,科学计算可移植扩展工具包)外部求解器为例,对这一部分进行说明,但要说明的是,本实施例中,也可调用其他外部求解器进行相应流程的执行。调用PETSc中TS时间步进积分求解器进行与时间相关的团簇动力学模拟求解,利用PETSc中Vec结构和Mat结构,进行方程组初值与方程矩阵的建立。
S5,将方程组求解结果传输至DCU端;
本实施例中,将方程组的求解结果,包括:求解的各网格点各缺陷浓度信息、温度等信息,使用hip编程语句传输至DCU端,更新DCU端相关结构的数据。
S6,DCU端根据接收到的求解结果以及接收到的计算所需的数据,计算下一时间步所需初值(指A3中描述的反应速率初值)及方程矩阵(指A4中描述的偏导数),如图4所示,具体可以包括以下步骤:
A1,DCU端根据接收到的求解结果,计算各网格点各团簇相应的参数信息,所述参数信息包括:扩散系数和反应速率系数;
A2,线程间同步,使得所有线程达到同一时间点和执行步骤;
A3,计算各网格点各团簇下一时间步的反应速率初值;
A4,计算各网格点各团簇下一时间步的偏导数用于方程求解;
A5,线程间同步,使得所有线程达到同一时间点和执行步骤。
本实施例中,步骤A1-A5,可以使用hip编程语言启动DCU核心函数计算部分实现。
S7,DCU端将计算结果(包括:S6中计算得到的初值及方程矩阵)传回CPU端;
图4是DCU端计算流程图,大体分为3个部分,第一部分将求解结果传输至DCU端,DCU端进行数据更新,并进行线程同步;第二部分DCU端计算下一时间步所需的计算初值及偏导数,并进行线程同步;第三部分DCU端将计算结果传输至CPU端。
本实施例中,将下一时间步所需的数据使用hip编程语言由DCU端内存拷贝至CPU端内存相应结构中。
S8,重复S4-S7直至达到模拟所需计算时间。
本实施例中,程序的主要流程部分是循环部分S4-S7,程序以模拟时间是否到达程序既定模拟时间要求作为判断依据,进行迭代循环,在循环的每一步,增加时间步长的模拟时间,循环中DCU端计算的详细流程如图4所示。
综上,本发明实施例提供的一种面向DCU-CPU混合架构的团簇动力学方法的并行计算方法,至少具有以下有益效果:
1)扩展团簇动力学模拟方法的时空规模
本实施例实现了基于空间依赖的团簇动力学模型(包括:数据结构设计部分,以及计算流程中与体系架构无关的部分,比如计算反应速率系数虽然本发明中是在DCU上进行,但这一步计算本身是团簇动力学模型中的一部分,在DCU上进行是对计算任务的优化),并实现了DCU-CPU异构混合架构的版本,可以在CPU上及DCU上进行大规模并行模拟,扩展了团簇动力学模拟方法的时空规模。
2)减少团簇动力学模拟的计算时间
利用了DCU的计算能力优势,进行DCU-CPU异构混合架构上的团簇动力学方法的并行计算方法设计,有效提升了该方法的执行效率,大幅缩短了团簇动力学的求解时间,较目前所知相同模型下进行团簇动力学模拟的程序性能提升60%,从而解决现有技术中存在的基于空间依赖的团簇动力学模拟方法的计算时间过长的问题,使得计算时间达到实际应用可接受的范围。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种面向DCU-CPU混合架构的团簇动力学方法的并行计算方法,其特征在于,包括:
S1,建立DCU上的数据结构信息,用于存储计算所需数据;其中,所述数据结构包括:团簇基本信息的数据结构、团簇信息的管理结构、网格信息的管理结构和团簇反应基本信息的数据结构;
S2,CPU端向DCU端传递计算所需的数据;
S3,将建立的网格区域求解任务分配至DCU端;
S4,在CPU端,调用求解器,建立求解方程组的初值与方程矩阵,并进行方程组求解;
S5,将方程组求解结果传输至DCU端;
S6,DCU端根据接收到的求解结果以及接收到的计算所需的数据,计算下一时间步所需初值及方程矩阵;
S7,DCU端将计算结果传回CPU端;
S8,重复S4-S7直至达到模拟所需计算时间。
2.根据权利要求1所述的面向DCU-CPU混合架构的团簇动力学方法的并行计算方法,其特征在于,所述团簇基本信息的数据结构包括:单一类型团簇的尺寸、编号、扩散系数、结合能、迁移能、反应半径和浓度中的一种或多种。
3.根据权利要求1所述的面向DCU-CPU混合架构的团簇动力学方法的并行计算方法,其特征在于,所述团簇信息的管理结构包括:模拟对象的晶格尺寸、缺陷原子尺寸、反应信息存储地址、反应个数和团簇信息存储地址中的一种或多种;其中,所述团簇信息存储地址指向团簇基本信息的数据结构,所述反应信息存储地址指向团簇反应基本信息的数据结构。
4.根据权利要求1所述的面向DCU-CPU混合架构的团簇动力学方法的并行计算方法,其特征在于,所述网格信息的管理结构包括:网格数量、网格的尺寸和网格的温度中的一种或多种。
5.根据权利要求1所述的面向DCU-CPU混合架构的团簇动力学方法的并行计算方法,其特征在于,所述团簇反应基本信息的数据结构包括:反应类型、参与反应的团簇信息存储地址和反应速率系数中的一种或多种;其中,所述参与反应的团簇信息存储地址指向团簇基本信息的数据结构。
6.根据权利要求1所述的面向DCU-CPU混合架构的团簇动力学方法的并行计算方法,其特征在于,所述将建立的网格区域求解任务分配至DCU端包括:
以网格划分的方式将求解区域进行分解,以单一网格上的计算任务为计算单元,分配至DCU上的线程上,形成网格-线程,区域-线程池的任务划分方法。
7.根据权利要求1所述的面向DCU-CPU混合架构的团簇动力学方法的并行计算方法,其特征在于,所述DCU端根据接收到的求解结果以及接收到的计算所需的数据,计算下一时间步所需初值及方程矩阵包括:
DCU端根据接收到的求解结果,计算各网格点各团簇相应的参数信息,所述参数信息包括:扩散系数和反应速率系数;
线程间同步,使得所有线程达到同一时间点和执行步骤;
计算各网格点各团簇下一时间步的反应速率初值;
计算各网格点各团簇下一时间步的偏导数用于方程求解;
线程间同步,使得所有线程达到同一时间点和执行步骤。
CN202210033833.2A 2022-01-12 2022-01-12 一种面向dcu-cpu混合架构的团簇动力学方法的并行计算方法 Pending CN114490046A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210033833.2A CN114490046A (zh) 2022-01-12 2022-01-12 一种面向dcu-cpu混合架构的团簇动力学方法的并行计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210033833.2A CN114490046A (zh) 2022-01-12 2022-01-12 一种面向dcu-cpu混合架构的团簇动力学方法的并行计算方法

Publications (1)

Publication Number Publication Date
CN114490046A true CN114490046A (zh) 2022-05-13

Family

ID=81512408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210033833.2A Pending CN114490046A (zh) 2022-01-12 2022-01-12 一种面向dcu-cpu混合架构的团簇动力学方法的并行计算方法

Country Status (1)

Country Link
CN (1) CN114490046A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115938494A (zh) * 2022-11-24 2023-04-07 中国科学院大气物理研究所 气相化学模块的dcu加速计算方法、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115938494A (zh) * 2022-11-24 2023-04-07 中国科学院大气物理研究所 气相化学模块的dcu加速计算方法、设备及存储介质
CN115938494B (zh) * 2022-11-24 2024-01-09 中国科学院大气物理研究所 气相化学模块的dcu加速计算方法、设备及存储介质

Similar Documents

Publication Publication Date Title
Mo et al. JASMIN: a parallel software infrastructure for scientific computing
CN114490046A (zh) 一种面向dcu-cpu混合架构的团簇动力学方法的并行计算方法
CN116258042B (zh) 一种基于ddm的大规模传热异构并行仿真方法
CN115358125A (zh) 一种压水堆三维堆芯核热耦合方法和系统
CN113177335B (zh) 快中子反应堆全堆芯结构大规模网格自动生成方法及系统
Robert et al. Proof of concept for hyper-fidelity depletion of full-scale pebble bed reactors
Li et al. Multi-role sptrsv on sunway many-core architecture
Kalgin Comparative study of parallel algorithms for asynchronous cellular automata simulation on different computer architectures
Oberhuber et al. TNL: Numerical library for modern parallel architectures
CN113626207B (zh) 地图数据处理方法、装置、设备及存储介质
Rekachinsky et al. Modeling parallel processing of databases on the central processor Intel Xeon Phi KNL
Gaston et al. Massive hybrid parallelism for fully implicit multiphysics
Yang et al. Probabilistic modeling of renewable energy source based on Spark platform with large‐scale sample data
Filippone et al. CUDA dynamic active thread list strategy to accelerate debris flow simulations
CN114048691A (zh) 基于并行计算的反应堆非能动安全系统可靠性分析平台及方法
CN114490047B (zh) 一种核燃料裂变气体团簇动力学模拟的异构数据传输方法
Liu et al. Batched fast decoupled load flow for large-scale power system on GPU
Al-Mouhamed et al. SpMV and BiCG-Stab optimization for a class of hepta-diagonal-sparse matrices on GPU
CN117494509B (zh) 一种基于多物理场的块结构自适应网格细化方法
Germann Adaptive physics refinement at the microstructure scale
Shen et al. Research on global neighbor list method in Monte Carlo code RMC
Yang et al. Hpga: A high-performance graph analytics framework on the gpu
Dong et al. Challenges in high-fidelity thermal–hydraulic simulation of SFR cores: Insights and PACA-S4FR solutions
Lee et al. Development of scalable GPU-based direct whole-core depletion calculation methods
Krol et al. Solving PDEs in modern multiphysics simulation software

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination