CN114490046A

CN114490046A - 一种面向dcu-cpu混合架构的团簇动力学方法的并行计算方法

Info

Publication number: CN114490046A
Application number: CN202210033833.2A
Authority: CN
Inventors: 胡长军; 白鹤; 朱雨晗; 陈丹丹; 储根深
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-05-13

Abstract

本发明提供一种面向DCU‑CPU混合架构的团簇动力学方法的并行计算方法，属于核材料辐照模拟技术领域。所述方法包括：S1，建立DCU上的数据结构信息，用于存储计算所需数据；S2，CPU端向DCU端传递计算所需的数据；S3，将建立的网格区域求解任务分配至DCU端；S4，在CPU端，调用求解器，建立求解方程组的初值与方程矩阵，并进行方程组求解；S5，将方程组求解结果传输至DCU端；S6，DCU端根据接收到的求解结果以及接收到的计算所需的数据，计算下一时间步所需初值及方程矩阵；S7，DCU端将计算结果传回CPU端；S8，重复S4‑S7直至达到模拟所需计算时间。采用本发明，能够扩展团簇动力学模拟方法的时空规模，并减少团簇动力学模拟的计算时间。

Description

一种面向DCU-CPU混合架构的团簇动力学方法的并行计算方法

技术领域

本发明涉及核材料辐照模拟技术领域，特别是指一种面向DCU-CPU混合架构的团簇动力学方法的并行计算方法。

背景技术

团簇动力学(cluster dynamics，CD)是基于平均场速率理论发展而来的数值模拟方法，该方法忽略了原子的空间信息及相互作用力，而把关注点放在原子聚集形成的团簇的尺寸及浓度信息，能够进行中长时间的演化过程模拟，属于介观尺度的模拟方法。由于团簇动力学可以对材料的微观动力学演化行为进行较为准确的模型描述及模拟计算，因此目前应用于材料微观演化机理研究的多个相关领域之中。以核反应堆为例，其内部材料的服役性能大都依赖于辐照条件下产生的材料缺陷的动力学行为(如结构材料的辐照损伤、核燃料裂变气体导致的辐照肿胀等)，因此使用团簇动力学方法研究掌握材料缺陷的微观演化机理是保障核反应堆安全运行、提高服役性能、延长使用寿命的关键。团簇动力学在核反应堆研究应用中，已成功模拟了如压力容器的团簇析出、裂变气体迁移等微观过程。

随着应用范围的扩大，传统的团簇动力学方法暴露出其在计算及模型上的瓶颈问题。从计算上来说，由于团簇动力学方法依赖于一组偏微分方程的求解，通常情况下方程组的方程数量超10⁶，且方程大多数情况下为刚性方程，因此团簇动力学方程的求解需要极大的计算量，仅凭目前CPU(central processing unit，中央处理器)的计算能力难以完成计算任务。从模型上来说由于传统的团簇动力学模拟没有考虑团簇间的空间相关性，团簇被假定在一个均匀介质中，因此在进行环境信息快速变化，或存在团簇迁移过程的模拟时，团簇动力学的模型便不在适用。

基于空间依赖的团簇动力学模拟方法，是近年来发展的一种改进团簇动力学模型的方法。基于空间依赖的团簇动力学模拟方法通过在传统团簇动力学模拟的基础上，引入扩散项的信息，并在空间上进行划分，使得模型可以在一定情景中克服上述的不足。但此种方法增加了团簇动力学方程求解的计算量，使得求解过程存在计算时间过长的问题，并存在一些模拟条件下由于计算量过大而无法进行的问题，导致这种方法的使用受限。

曙光超级计算机在传统CPU基础上，搭载了深度计算器(Deep Computing Unit，DCU)，形成了异构混合架构的整体设计。DCU是以通用图形处理器(General-purposecomputing on graphics processing units，GPGPU)架构为基础，兼容通用的类CUDA环境，适用于计算密集型的科学计算等方面的程序设计与移植，能够有效地提升程序的计算效率，缩短程序执行时间。但由于其架构相对单CPU来说较为复杂，要结合实际计算模型进行程序设计会给设计人员带来一定挑战。

发明内容

本发明实施例提供了面向DCU-CPU混合架构的团簇动力学方法的并行计算方法，能够扩展团簇动力学模拟方法的时空规模，并减少团簇动力学模拟的计算时间。所述技术方案如下：

本发明实施例提供了一种面向DCU-CPU混合架构的团簇动力学方法的并行计算方法，包括：

S1，建立DCU上的数据结构信息，用于存储计算所需数据；其中，所述数据结构包括：团簇基本信息的数据结构、团簇信息的管理结构、网格信息的管理结构和团簇反应基本信息的数据结构；

S2，CPU端向DCU端传递计算所需的数据；

S3，将建立的网格区域求解任务分配至DCU端；

S4，在CPU端，调用求解器，建立求解方程组的初值与方程矩阵，并进行方程组求解；

S5，将方程组求解结果传输至DCU端；

S6，DCU端根据接收到的求解结果以及接收到的计算所需的数据，计算下一时间步所需初值及方程矩阵；

S7，DCU端将计算结果传回CPU端；

S8，重复S4-S7直至达到模拟所需计算时间。

进一步地，所述团簇基本信息的数据结构包括：单一类型团簇的尺寸、编号、扩散系数、结合能、迁移能、反应半径和浓度中的一种或多种。

进一步地，所述团簇信息的管理结构包括：模拟对象的晶格尺寸、缺陷原子尺寸、反应信息存储地址、反应个数和团簇信息存储地址中的一种或多种；其中，所述团簇信息存储地址指向团簇基本信息的数据结构，所述反应信息存储地址指向团簇反应基本信息的数据结构。

进一步地，所述网格信息的管理结构包括：网格数量、网格的尺寸和网格的温度中的一种或多种。

进一步地，所述团簇反应基本信息的数据结构包括：反应类型、参与反应的团簇信息存储地址和反应速率系数中的一种或多种；其中，所述参与反应的团簇信息存储地址指向团簇基本信息的数据结构。

进一步地，所述将建立的网格区域求解任务分配至DCU端包括：

以网格划分的方式将求解区域进行分解，以单一网格上的计算任务为计算单元，分配至DCU上的线程上，形成网格-线程，区域-线程池的任务划分方法。

进一步地，所述DCU端根据接收到的求解结果以及接收到的计算所需的数据，计算下一时间步所需初值及方程矩阵包括：

DCU端根据接收到的求解结果，计算各网格点各团簇相应的参数信息，所述参数信息包括：扩散系数和反应速率系数；

线程间同步，使得所有线程达到同一时间点和执行步骤；

计算各网格点各团簇下一时间步的反应速率初值；

计算各网格点各团簇下一时间步的偏导数用于方程求解；

线程间同步，使得所有线程达到同一时间点和执行步骤。

本发明实施例提供的技术方案带来的有益效果至少包括：

1)扩展团簇动力学模拟方法的时空规模

本实施例实现了基于空间依赖的团簇动力学模型，并实现了DCU-CPU异构混合架构的版本，可以在CPU上及DCU上进行大规模并行模拟，扩展了团簇动力学模拟方法的时空规模。

2)减少团簇动力学模拟的计算时间

利用了DCU的计算能力优势，进行DCU-CPU异构混合架构上的团簇动力学方法的并行计算方法设计，有效提升了该方法的执行效率，大幅缩短了团簇动力学的求解时间，较目前所知相同模型下进行团簇动力学模拟的程序性能提升60％，从而解决现有技术中存在的基于空间依赖的团簇动力学模拟方法的计算时间过长的问题，使得计算时间达到实际应用可接受的范围。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的面向DCU-CPU混合架构的团簇动力学方法的并行计算方法的流程示意图；

图2为本发明实施例提供的DCU上数据结构示意图；

图3为本发明实施例提供的DCU计算任务划分示意图；

图4为本发明实施例提供的DCU端计算流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

如图1所示，本发明实施例提供了一种面向DCU-CPU混合架构的团簇动力学方法的并行计算方法，包括：

S1，建立DCU上的数据结构信息，用于存储计算所需数据；

如图2所示，DCU(例如，曙光DCU)上主要包含以下4个数据结构：团簇基本信息的数据结构、团簇信息的管理结构、网格信息的管理结构和团簇反应基本信息的数据结构，图2带箭头的折线表示存储的地址信息指向的数据结构，在4个结构右边是其结构中包含的部分数据信息，具体的：

1、团簇基本信息的数据结构，包含但不限于单一类型团簇的尺寸、编号、扩散系数、结合能、迁移能、反应半径和浓度等信息中的一种或多种。

2、团簇信息的管理结构，包含但不限于模拟对象的晶格尺寸、缺陷原子尺寸、反应信息存储地址、反应个数和团簇信息存储地址等信息中的一种或多种，其中，团簇信息存储地址指向1中所描述的结构，反应信息存储地址指向4中所描述的结构。

3、网格信息的管理结构，包含但不限于网格数量、网格的尺寸和网格的温度等信息中的一种或多种。

4、团簇反应基本信息的数据结构，包含但不限于反应类型、参与反应的团簇信息存储地址和反应速率系数等信息中的一种或多种，其中，参与反应的团簇信息存储地址指向1中所描述的结构。

S2，CPU端向DCU端传递计算所需的数据；

本实施例中，CPU端将经初始化后的团簇基本信息、团簇信息管理结构信息、网格信息管理结构信息和团簇反应基本信息等使用hip编程语言由CPU端内存拷贝至DCU端内存的相应结构中。

S3，将建立的网格区域求解任务分配至DCU端；

本实施例中，以网格划分的方式将求解区域进行分解，在计算过程中，每个网格需要计算网格上的各团簇的浓度、参与反应的速率系数等信息，本实施例中，以单一网格上的计算任务为计算单元，是最小任务划分单位，可以与DCU上最小计算单元(计算线程)对应，因此，将单一网格上的计算任务分配至DCU上的线程上，如图3所示，形成网格-线程，区域-线程池的任务划分方法；其中，图3是DCU计算任务划分示意图，自上而下，是计算任务划分的整体思路，将模拟区域与DCU结构相对应，首先将网格划分后的区域进行二次划分，一块区域与一个DCU计算结构CU相对应，然后将每块区域中的每个网格点与CU中的计算线程相对应。

本实施例中，以调用PETSc(Portable Extensible Toolkit for ScientificComputation，科学计算可移植扩展工具包)外部求解器为例，对这一部分进行说明，但要说明的是，本实施例中，也可调用其他外部求解器进行相应流程的执行。调用PETSc中TS时间步进积分求解器进行与时间相关的团簇动力学模拟求解，利用PETSc中Vec结构和Mat结构，进行方程组初值与方程矩阵的建立。

S5，将方程组求解结果传输至DCU端；

本实施例中，将方程组的求解结果，包括：求解的各网格点各缺陷浓度信息、温度等信息，使用hip编程语句传输至DCU端，更新DCU端相关结构的数据。

S6，DCU端根据接收到的求解结果以及接收到的计算所需的数据，计算下一时间步所需初值(指A3中描述的反应速率初值)及方程矩阵(指A4中描述的偏导数)，如图4所示，具体可以包括以下步骤：

A1，DCU端根据接收到的求解结果，计算各网格点各团簇相应的参数信息，所述参数信息包括：扩散系数和反应速率系数；

A2，线程间同步，使得所有线程达到同一时间点和执行步骤；

A3，计算各网格点各团簇下一时间步的反应速率初值；

A4，计算各网格点各团簇下一时间步的偏导数用于方程求解；

A5，线程间同步，使得所有线程达到同一时间点和执行步骤。

本实施例中，步骤A1-A5，可以使用hip编程语言启动DCU核心函数计算部分实现。

S7，DCU端将计算结果(包括：S6中计算得到的初值及方程矩阵)传回CPU端；

图4是DCU端计算流程图，大体分为3个部分，第一部分将求解结果传输至DCU端，DCU端进行数据更新，并进行线程同步；第二部分DCU端计算下一时间步所需的计算初值及偏导数，并进行线程同步；第三部分DCU端将计算结果传输至CPU端。

本实施例中，将下一时间步所需的数据使用hip编程语言由DCU端内存拷贝至CPU端内存相应结构中。

S8，重复S4-S7直至达到模拟所需计算时间。

本实施例中，程序的主要流程部分是循环部分S4-S7，程序以模拟时间是否到达程序既定模拟时间要求作为判断依据，进行迭代循环，在循环的每一步，增加时间步长的模拟时间，循环中DCU端计算的详细流程如图4所示。

综上，本发明实施例提供的一种面向DCU-CPU混合架构的团簇动力学方法的并行计算方法，至少具有以下有益效果：

1)扩展团簇动力学模拟方法的时空规模

本实施例实现了基于空间依赖的团簇动力学模型(包括：数据结构设计部分，以及计算流程中与体系架构无关的部分，比如计算反应速率系数虽然本发明中是在DCU上进行，但这一步计算本身是团簇动力学模型中的一部分，在DCU上进行是对计算任务的优化)，并实现了DCU-CPU异构混合架构的版本，可以在CPU上及DCU上进行大规模并行模拟，扩展了团簇动力学模拟方法的时空规模。

2)减少团簇动力学模拟的计算时间

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向DCU-CPU混合架构的团簇动力学方法的并行计算方法，其特征在于，包括：

S2，CPU端向DCU端传递计算所需的数据；

S3，将建立的网格区域求解任务分配至DCU端；

S5，将方程组求解结果传输至DCU端；

S7，DCU端将计算结果传回CPU端；

S8，重复S4-S7直至达到模拟所需计算时间。

2.根据权利要求1所述的面向DCU-CPU混合架构的团簇动力学方法的并行计算方法，其特征在于，所述团簇基本信息的数据结构包括：单一类型团簇的尺寸、编号、扩散系数、结合能、迁移能、反应半径和浓度中的一种或多种。

3.根据权利要求1所述的面向DCU-CPU混合架构的团簇动力学方法的并行计算方法，其特征在于，所述团簇信息的管理结构包括：模拟对象的晶格尺寸、缺陷原子尺寸、反应信息存储地址、反应个数和团簇信息存储地址中的一种或多种；其中，所述团簇信息存储地址指向团簇基本信息的数据结构，所述反应信息存储地址指向团簇反应基本信息的数据结构。

4.根据权利要求1所述的面向DCU-CPU混合架构的团簇动力学方法的并行计算方法，其特征在于，所述网格信息的管理结构包括：网格数量、网格的尺寸和网格的温度中的一种或多种。

5.根据权利要求1所述的面向DCU-CPU混合架构的团簇动力学方法的并行计算方法，其特征在于，所述团簇反应基本信息的数据结构包括：反应类型、参与反应的团簇信息存储地址和反应速率系数中的一种或多种；其中，所述参与反应的团簇信息存储地址指向团簇基本信息的数据结构。

6.根据权利要求1所述的面向DCU-CPU混合架构的团簇动力学方法的并行计算方法，其特征在于，所述将建立的网格区域求解任务分配至DCU端包括：

7.根据权利要求1所述的面向DCU-CPU混合架构的团簇动力学方法的并行计算方法，其特征在于，所述DCU端根据接收到的求解结果以及接收到的计算所需的数据，计算下一时间步所需初值及方程矩阵包括：

线程间同步，使得所有线程达到同一时间点和执行步骤；

计算各网格点各团簇下一时间步的反应速率初值；

计算各网格点各团簇下一时间步的偏导数用于方程求解；

线程间同步，使得所有线程达到同一时间点和执行步骤。