CN116107640B

CN116107640B - 针对dsmc算法缓存以及simd向量化的系统性优化系统

Info

Publication number: CN116107640B
Application number: CN202310125566.6A
Authority: CN
Inventors: 张斌; 刘洪�; 王友进; 张晨晨
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-12-26
Anticipated expiration: 2043-02-17
Also published as: CN116107640A

Abstract

一种针对DSMC的缓存优化以及SIMD指令集向量化系统，包括：SIMD缓存加载单元加载待交叉计算的网格中的粒子信息，SIMD碰撞单元根据每个网格在当前时间步长下的预期碰撞数以及来自不同的网格的不同通道粒子的碰撞行为进行向量化计算，SIMD移动单元对待交叉计算的网格中的粒子的移动行为进行向量化计算并对粒子位置进行更新，双缓冲粒子调整单元为粒子所属的每个网格配置两个缓冲区轮流进行读取以及存储以进行全局粒子调整以保证粒子具备正确的网格归属。本发明以优化的算法结构、数据结构以及相互匹配的双缓冲缓存优化以及交错网格SIMD向量化碰撞算法，提高程序缓存命中率，降低内存访问次数的同时避免SIMD向量化过程中的数据依赖。

Description

针对DSMC算法缓存以及SIMD向量化的系统性优化系统

技术领域

本发明涉及的是一种流体力学领域的技术，具体是一种可用于微观湍流问题计算的直接模拟蒙特卡洛(DSMC)算法的互匹配的缓存优化方法以及单指令多数据(SIMD)指令集向量化系统。

背景技术

随着对再入飞行器高超声速流场以及粒子尺度湍流机理研究的需求，直接模拟蒙特卡洛(DSMC)算法的应用不断加强。但是作为一种粒子算法，DSMC巨大的计算量阻碍他的推广应用。因此有效地提升DSMC算法一直是研究的重点。目前针对主流CPU实现DSMC算法缓存优化以及SIMD向量化的方法缺少具体实现。如何利用好现在CPU上的缓存以及SIMD拓展指令集是必要且迫切的。

发明内容

本发明针对现有DSMC算法缓存利用率低下以及粒子碰撞模块无法向量化的问题，提出一种针对DSMC算法缓存以及SIMD向量化的系统性优化系统，通过分析DSMC算法内存访问的特点，得出DSMC算法模块数据流方向，以优化的算法结构、数据结构以及相互匹配的双缓冲缓存优化以及交错网格SIMD向量化碰撞算法，提高程序缓存命中率，降低内存访问次数的同时避免SIMD向量化过程中的数据依赖，极大地提高系统计算效率。缓存优化方法与SIMD向量化方法互相匹配，避免性能冲突。

本发明是通过以下技术方案实现的：

本发明涉及一种针对DSMC算法缓存以及SIMD向量化的系统性优化系统，包括：SIMD缓存加载单元、SIMD碰撞单元、SIMD移动单元和双缓冲粒子调整单元，其中：SIMD缓存加载单元加载待交叉计算的网格中的粒子信息，SIMD碰撞单元根据每个网格在当前时间步长下的预期碰撞数以及来自不同的网格的不同通道粒子的碰撞行为进行向量化计算，SIMD移动单元对待交叉计算的网格中的粒子的移动行为进行向量化计算并对粒子位置进行更新，双缓冲粒子调整单元为粒子所属的每个网格配置两个缓冲区轮流进行读取以及存储以进行全局粒子调整以保证粒子具备正确的网格归属。

当前时间步长内部分粒子移动至其他网格，将这部分粒子保存到对应移入网格充当存储功能的缓冲区。开始全局粒子调整以保证粒子具备正确的网格归属。

所述的全局粒子调整是指：在每次所有粒子移动结束后，将跨越当前网格边界进入其他网格的粒子放置回对应网格的内存中。

优选地，在每次交叉计算开始前以每个网格的预期碰撞数为键值进行一次桶排序，以保证SIMD不同通道处理的网格具备相近的粒子数，以达到SIMD向量通道间的负载均衡。

所述的一次桶排序是指：根据每个网格的碰撞数，对所有网格仅进行一次桶排序，桶排序的结果为碰撞数相近的网格放置在同一个桶内，桶内是无序的。

所述的预期碰撞数N_coll＝.5×v×Δt×V_cell得到，其中：v为网格内的平均碰撞率，Δt为时间步长，V_cell为网格体积。

所述的不同网格的所有粒子信息满足结构体数组(SOA)形式的数据结构；

所述的缓存命中率h＝n_h/(n_h+n_m)，其中：n_h为所访问数据在缓存中的次数，即缓存命中次数，n_m为缓存缺失次数，即所访问数据不在缓存中。

所述的轮流进行读取以及存储是指：在为粒子属性存储申请内存空间时，内存地址时64字节对齐的，为采用SIMD向量指令集预留好空间；在进行SIMD向量化时，保持缓存优化的效果，且在设置SIMD宽度时，充分考虑L2层缓存大小，确保SIMD向量的同时，高速缓存仍有足够空间实现数据重用。

技术效果

与现有DSMC程序相比，本发明只采用缓存优化方法时可以实现2.1倍加速，只采用SIMD向量化方法可以实现2.51倍加速，两种方法一起使用可以实现3.92倍加速。

附图说明

图1为实施例流程图；

图2为双缓冲方法示意图；

图3为交错网格SIMD向量化方法示意图；

图中：a为交错网格中一次计算所需的粒子碰撞对的选择过程；b为根据粒子碰撞对讲碰撞所需粒子信息复制到临时内存对齐的缓冲数组中的过程；c为SIMD方式的碰撞过程的计算；d为根据粒子碰撞对属性计算出的概率决定是否对粒子速度进行更新；

图4计算区域示意图；

图5计算结果云图与线图示意图。

具体实施方式

本实施例涉及一种针对DSMC的缓存优化以及SIMD指令集向量化系统，包括：SIMD缓存加载单元、SIMD碰撞单元、SIMD移动单元和双缓冲粒子调整单元。

所述的SIMD缓存加载单元包括：数据加载模块、粒子移除模块以及粒子添加模块，其中：数据加载模块根据已排序的网格信息，对序号相邻的网格的粒子进行向量化加载处理，使得这些网格的数据都保存到高速缓存中，粒子移除模块根据粒子所属网格信息，对不属于当前网格的粒子进行移除处理，使得每个网格中的粒子所属网格不存在所属网格为其他网格的粒子，粒子添加模块将网格对应缓冲区的粒子拷贝到对应的网格内存区域，并将该缓冲区粒子数目设置为0。每个网格中所有粒子的某一属性采用Struct OfArray(SOA)方式，每个数组相对于64字节内存对齐。

所述的向量化加载处理是指：将粒子属性信息加载到缓存时，以SIMD向量化的方式进行。

所述的SIMD碰撞单元包括：粒子选择模块、碰撞计算模块以及碰撞写入模块，其中：粒子选择模块根据网格预期碰撞数以向量化的方式生成若干随机数，然后采用随机数向量化选择网格中的粒子碰撞对，碰撞计算模块根据选择的粒子碰撞对信息，对粒子碰撞过程进行SIMD向量化计算，碰撞生效指示结果以及碰撞后速度结果写入临时变量，碰撞写入模块将有效碰撞的结果写入对应网格对应的粒子信息中。

所述的SIMD移动单元包括：粒子移动模块以及粒子缓冲模块，其中：粒子移动模块SIMD的方式，对对应网格中的粒子进行移动，将移动后位置速度等信息写入内存，粒子缓存模块将不在输入当前网格的粒子写入待移入网格的缓冲区中。

所述的内存对齐是指：数组的首地址可以内存一次加载字节数整除从而可以减少内存读取次数。

如图1所示，为本实施例涉及上述系统的基于缓存优化的SIMD指令集向量化方法，包括以下步骤：

步骤1：粒子数据向量化加载，以保证一次迭代所需的计算数据都在高速缓存中，具体包括：

1.1将待交错计算网格的粒子所占内存全部加载到L3缓存中；

1.2将所加载的粒子中不再属于当前网格的粒子从内存中移除；

1.3从上个迭代中的存储缓冲区将上个时间步长内移入到对应新网格粒子加载到内存中。

步骤2：交错网格SIMD碰撞：具有相近预期碰撞数的网格交错以SIMD的方式计算网格内的碰撞，每个网格各占一个SIMD通道，具体包括：

2.1根据预期碰撞数，选择粒子碰撞对，并将其对应的粒子信息复制到计算缓冲数组中；

2.2以SIMD向量化方式计算碰撞后速度；

3.3根据粒子碰撞对物理信息决定是否写入更新后的速度。

步骤3：SIMD粒子移动：对步骤2中交错碰撞的网格，依次以SIMD的方式计算其粒子移动，并将待更新网格的粒子放置在缓冲区，具体包括：

3.1以SIMD向量化方式计算粒子移动后位置

3.2如果粒子移动轨迹与固体边界或者对称边界存在相交，则将粒子位置回退到初始状态；

3.3对回退到初始位置的粒子采用Ray-Trace算法计算其移动后位置。

如图3a所示，为待交错计算的网格选择粒子碰撞对；

如图3b所示，将选择的粒子碰撞对的信息复制到一个内存对齐的数组中；

如图3c所示，以SIMD方式计算粒子碰撞对碰后速度；

如图3d所示，根据粒子碰撞对信息决定是否将更新后速度写回。

步骤4：采用双缓冲的方法进行全局粒子调整，减少内存访问次数，即为每个网格准备两个缓冲区A和B，两个缓冲区分别轮流用于读取以及存入的功能，实现从内存中读取2次缓冲粒子数据，相对与直接单缓冲区的3次内存访问，可以有效降低全局粒子调整带来的开销。

在对碰撞模块进行SIMD处理器时，为避免相同粒子同时参数SIMD操作中的多次碰撞带来的写冲突，采用交错网格方法，实现不同网格的碰撞以SIMD的方式进行，具体操作包括：每轮迭代开始对以预期碰撞数为键值对网格进行排序，使得具有相近碰撞数的网格在计算粒子碰撞时以SIMD方式进行计算。

缓存优化与SIMD向量化相互匹配。在对数据进行内存对齐操作时，为采用SIMD向量指令集预留好空间，具体操作包括：在采用SOA数据结构时，每个网格不同粒子属性的数据为64字节地址对齐。在进行SIMD向量化时，保持缓存优化的效果，且在设置SIMD宽度时，充分考虑L2层缓存大小，确保SIMD向量的同时，高速缓存仍有足够空间实现数据重用。

经过具体实际实验，在CentOS Linux release 7.9.2009(Core)，其中：内核为version 3.10.0-1160.45.1.el7.x86_64。编译器为Intel(R)ICC(version19.0.0.117)，采用-O2级别优化，同时采用-xCOMMON-AVX512生成支持SIMD操作的可执行文件，CPU为Intel(R)Xeon(R)Gold 6230 CPU@2.10GHz的环境下。进行模拟典型的激波气泡相互作用的计算优化。在一个计算区域长5×10^-4宽为7.5×10^-4m的区域，边界条件按照左右下上的以此为来流，对称，出口以及自由流。计算网格维度为1000×150。激波将流场区域以及气泡分为3个区域，示意图如图4所示，图中d＝2.5×10^-6。该问题是一个典型的可以用于湍流机理研究的物理问题，快速准确的计算该问题，对于探究湍流机理和实际NS湍流计算具有重要意义。

上述计算区域中流场中三个区域的气体种类以及具体物理参数分布如下表所示：

如图5所示，为采用优化方案后的计算结果与基准程序相比相差不超过5％。从密度分布云图来看，气泡的变化符合重气泡变化规律。综上分析，该模拟结果符合理论结果，即采用优化方案后的程序可以准确模拟流场结果。

在上述硬件条件已算例设置下，将初始网格最小粒子数设置为100，时间步长设置为4.0×10^-10s，迭代步数设置为1000。所得计算时间和计算所得加速比如表1所示。

表1采用优化策略的DSMC算法与原始DSMC计算时间与加速比

Version	Time(s)	SpeedupRatio
			Original	1468.6	1.0
缓存优化	699.5	2.1
			SIMD向量化方法	586.0	2.51
缓存优化+SIMD向量化	375.0	3.92

如表1所示，本系统可以有效地加速DSMC算法计算速度将近4倍，可见在保证精度不变的前提下，使用系统优化方法可以使得效率得到很大提升。

与现有技术相比，本发明通过双缓冲全局调整方案，为减少全局粒子调整带来的开销，为每个网格设置两个缓冲区，两个缓冲区轮流发挥不同的功能，可以有效地减少内存访问；通过交错网格算法，使得不同网格内碰撞以SIMD的形式进行计算，且采用一次桶排序的方法实现良好的负载均衡以实现SIMD向量化；通过缓存优化与SIMD向量方法相互匹配，不会产生彼此抑制行为。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种针对DSMC的缓存优化以及SIMD指令集向量化系统，其特征在于，包括：SIMD缓存加载单元、SIMD碰撞单元、SIMD移动单元和双缓冲粒子调整单元，其中：SIMD缓存加载单元加载待交叉计算的网格中的粒子信息，SIMD碰撞单元根据每个网格在当前时间步长下的预期碰撞数以及来自不同的网格的不同通道粒子的碰撞行为进行向量化计算，SIMD移动单元对待交叉计算的网格中的粒子的移动行为进行向量化计算并对粒子位置进行更新，双缓冲粒子调整单元为粒子所属的每个网格配置两个缓冲区轮流进行读取以及存储以进行全局粒子调整以保证粒子具备正确的网格归属；

所述的全局粒子调整是指：在每次所有粒子移动结束后，将跨越当前网格边界进入其他网格的粒子放置回对应网格的内存中；在每次交叉计算开始前以每个网格的预期碰撞数为键值进行一次桶排序，以保证SIMD不同通道处理的网格具备相近的粒子数，以达到SIMD向量通道间的负载均衡；

2.根据权利要求1所述的针对DSMC的缓存优化以及SIMD指令集向量化系统，其特征是，所述的一次桶排序是指：根据每个网格的碰撞数，对所有网格仅进行一次桶排序，桶排序的结果为碰撞数相近的网格放置在同一个桶内，桶内是无序的。

3.根据权利要求1所述的针对DSMC的缓存优化以及SIMD指令集向量化系统，其特征是，所述的预期碰撞数N_coll＝0.5·v·Δt·V_cell得到，其中：v为网格内的平均碰撞率，Δt为时间步长，V_cell为网格体积。

4.根据权利要求1所述的针对DSMC的缓存优化以及SIMD指令集向量化系统，其特征是，所述的缓存的命中率h＝n_h/(n_h+n_m)，其中：n_h为所访问数据在缓存中的次数，即缓存命中次数，n_m为缓存缺失次数，即所访问数据不在缓存中。