CN111444134A

CN111444134A - 分子动力学模拟软件的并行pme的加速优化方法及系统

Info

Publication number: CN111444134A
Application number: CN202010213790.7A
Authority: CN
Inventors: 刘卫国; 邵奇; 张庭坚
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-07-24

Abstract

本公开提供了一种分子动力学模拟软件的并行PME的加速优化方法及系统，将计算任务拆分成多份，分配至超级计算平台的各个从核上，利用从核进行计算；在计算过程中的快速傅里叶变换中，利用数据分块，从核完成矩阵转置的数据复制；主核使用DMA的方式获取各从核的计算结果，并将各计算结果合并及向量化，主核使用RDMA技术代替传统的MPI技术来获取其他主核的数据。本公开能够使分子动力学模拟软件顺利在超级计算平台上进行加载，同时能够提高计算性能。

Description

分子动力学模拟软件的并行PME的加速优化方法及系统

技术领域

本公开属于PME的加速优化技术领域，涉及一种分子动力学模拟软件的并行PME的加速优化方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

分子动力学模拟是指利用计算机技术对系统中的分子、原子的运动状态进行仿真，从而分析系统中的热力学量和其他宏观性质。现被广泛应用于生化、物理、材料等领域的科学研究工作中。

GROMACS是经典的分子动力学模拟软件，其初始设计目的主要用来模拟需要计算很多复杂键合作用的生物化学分子体系(蛋白质、脂质、核酸等)内粒子的运动情况和体系整体信息变化情况，以获取足够的生物化学分子作用力信息支持生物信息领域的研究。但是在实际运用中GROMACS由于其出色的非键合作用力计算性能却在非生物化学分子体系领域取得了意想不到的效果，受到了聚合物等领域研究的青睐，在这些领域的研究中大放异彩。但其在计算原子间相互作用力时有着极其庞大的计算量，串行计算的情况下会产生大量的计算时间，因此很多平台都对GROMACS进行了并行优化。

但据发明人了解，很多超级计算机平台由于自身架构不同于Intel及AMD处理器，没有办法直接使用现有的GROMACS代码，不能够体现出超级计算平台的优势。

发明内容

本公开为了解决上述问题，提出了一种分子动力学模拟软件的并行PME的加速优化方法及系统，本公开能够使分子动力学模拟软件顺利在超级计算平台上进行加载，同时能够提高计算性能。

根据一些实施例，本公开采用如下技术方案：

一种分子动力学模拟软件的并行PME的加速优化方法，包括：

将计算任务拆分成多份，分配至超级计算平台的各个从核上，利用从核进行计算；

在计算过程中的快速傅里叶变换中，利用数据分块，从核完成矩阵转置的数据复制；

主核使用DMA的方式获取各从核的计算结果，并将各计算结果合并及向量化，主核使用RDMA技术获取其他主核的数据。

作为进一步的限定，上述各步骤为并行的。

作为进一步的限定，根据从核的数量N，将计算数据拆分为N份，并将每一份分配到一个从核上。

作为进一步的限定，将原始数据分块，每个从核使用DMA方式在主存中读取指定块的数据，将这些数据进行转置并拼接成转置后的连续内存数据，并最后将这些连续数据以DMA的方式写回主存。

作为进一步的限定，数据分块时，读取和写回粒度均控制在180B-200B之间。

作为进一步的限定，利用加法操作合并各个从核的计算结果，使用单指令多数据流的方法，优化所述加法操作过程。

作为进一步的限定，引入局部数据存储器，用作保存从核所需要的数据的存储器，使用局部数据存储器，用以保存从核所需要的数据，每个从核拥有各自的局部数据存储器，原始计算数据直接创建在局部数据存储器中。

一种分子动力学模拟软件的并行PME的加速优化系统，包括：

从核优化模块，被配置为将计算任务拆分成多份，分配至超级计算平台的各个从核上，利用从核进行计算；

数据复制优化模块，被配置为在计算过程中的快速傅里叶变换中，利用数据分块，从核完成矩阵转置的数据复制；

通讯优化模块，主核使用DMA的方式获取各从核的计算结果，并将各计算结果合并及向量化，主核使用RDMA技术获取其他主核的数据。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种分子动力学模拟软件的并行PME的加速优化方法。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种分子动力学模拟软件的并行PME的加速优化方法。

与现有技术相比，本公开的有益效果为：

本公开能够使分子动力学模拟软件顺利在超级计算平台上进行加载，同时能够提高计算性能，优化的PME执行时间相较于原过程的执行时间大大缩短，PME部分整体性能被提高3倍左右。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是RDMA通信与MPI通信示意图；

图2是优化前后500K步内总能量及温度波动对比图；

图3是原PME部分运行时间统计；

图4是优化后的PME部分运行时间统计；

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

以“神威·太湖之光”为例进行说明。但不仅限于该架构的超级计算机平台。

“神威·太湖之光”是计算速度世界第三的超级计算机，也是目前国内计算速度最快的超级计算机。这样的计算机应当充分应用于科研及生产的各个领域，才能最大程度的体现出他的价值。“神威·太湖之光”搭载的是国家完全自主设计的“申威26010”众核处理器，具有不同于Intel及AMD等处理器的独特架构。“申威26010”处理器含有1个主核和1个从核阵列，从核阵列共有64个从核组成，按8*8的方式分布，每个从核的性能同主核基本相同，且每个从核都有自己的局部存储器(LDM)，每个LDM大小为64KB，从核访问LDM的效率等同于主核访问L2Cahce的效率。神威架构支持Fortran、C、C++编程语言，但是要同时使用主从核进行程序加速，需要用到神威自主设计的Athread加速线程库和SIMD扩展线程库。

在PME计算部分，经移植过后的代码并没有充分利用从核的计算资源，同时在数据传递上的效率也较低。针对这些问题本实施例采用了一系列并行优化手段，下文主要基于从核优化、从核数据拷贝、向量化、LDM数据锁定、RDMA通信的实现来介绍技术方案。

1、从核的优化

PME有很大的程序热点在快速傅里叶变换上，其中会涉及大量计算任务，而从核优化是计算优化的有效手段。之所以从核优化可以提高计算的性能，是因为原始版本的计算任务都是在主核上进行的，但是神威处理器的主核只有1个，而从核却有64个，且单个从核的计算性能与单个主核相同，所以将原先的任务拆分成64份并分配给64个从核进行计算的效果要比只有1个主核进行计算的效果好很多。

通过分析本实施例将快速傅里叶变换中的部分计算拆分成了64份，并将每一份分配到一个从核上，主核等待从核执行结束并统计结果，实现了计算性能上较大的提升。

2、从核数据拷贝

在快速傅里叶变换的代码中，有部分矩阵转置的代码，这些代码的抽象就是将一个数组里的内容拷贝到另一个数组的对应位置。这种拷贝操作与计算操作不同的是计算操作受限于计算性能而拷贝操作的极限性能受限于带宽。原始版本完全使用主核完成矩阵转置及拷贝，而主核访问主存的最大带宽为9.9GB/s，但是我们发现如果使用整个从核组访问主存的最大带宽为30.9GB/s。基于从核组访问主存的高带宽，本实施例可以使用从核进行读写及转置操作从而提高数据转置和拷贝的性能。而想要追求最大的30.9GB/s的带宽，需要使用DMA的方式访问主存，这样的方式要求被操作数据是连续的，且数据量的粒度越大其效果会越好，如表2-1所示，当粒度为达到256B的时候带宽性能趋于稳定。

从核完成矩阵转置的具体的实现思路是将原始数据分块，每个从核使用DMA方式在主存中读取指定块的数据，将这些数据进行转置并拼接成转置后的连续内存数据，并最后将这些连续数据以DMA的方式写回主存。

在本流程中，要保证转置前数据的连续性同时也要保证转置后的数据的连续性，但是转置之前的数据在转置之后是不连续的，这就要对原始数据进行合理的分块，使得每个从核读取的多块连续数据在进行转置之后可以拼接成多块连续数据。之所以要保证转置前和转置后的数据连续性，是因为要同时保证DMA读取和写回操作的带宽，否则程序性能会受限于读取带宽和写回带宽中的较低者。在权衡数据量和读取、写回操作的带宽之后，发现将读取和写回粒度均控制在192B(此时带宽大约为22GB/s)是最合理的，这样可以同时保证读取和写回带宽都大于主核访问主存的带宽(9.9GB/s)，同时也能规避为了拼凑较大连续数据而要进行的从核数据通信。

表2-1各项目带宽性能

2、向量化

部分函数的从核优化在从核计算完成之后，还需要主核对其计算的结果进行规约操作，所谓的规约操作是指将任务分块分配给64个从核之后，64个从核经过计算会产生64份结果，需要主核对这64份结果进行后续运算，从而合并成1个该函数最终的结果。在本流程中，本实施例的规约操作是加法操作，但是因为需要规约64个从核产生的64份数据，所以还是耗费了一定的时间。

为了提高加法规约操作的性能，本实施例使用SIMD(单指令多数据流)的方法，使用向量化技术，这样可以在原先完成一条浮点数加法操作的时间内完成四个浮点数加法操作。

4、LDM数据锁定

将原先代码的任务拆分成64份分配给各个从核进行计算，但是从核所需要的数据仍旧在主存中，从而造成了从核需要不断访问主存来获取需要计算的原始数据，但是从核访问主存的效率比主核访问主存的效率低很多，因此在神威架构中引入了局部数据存储器(LDM)。LDM是用来保存从核所需要数据的存储器，每个从核拥有各自的LDM存储器，每个LDM的大小为64KB，每个从核访问各自的LDM的速度与主核访问Cache的速度基本相同。

基于上述原因，本实施例总是将从核所需的计算数据从主存转存到LDM中，这样可以使从核的计算效率大大提高，在优化过后的项目中，也采用了这种方案。但是通过检查函数间依赖关系发现，存在部分函数将计算结果写回了主存，但是紧接着就把该计算结果又重新读取回LDM中，即LDM中的数据先写回主存，又从主存中写回了LDM，相当于绕了一圈又回到了原点，所以本实施例摒弃了写回主存的过程，将存在这种情况的数据利用__thread_local声明，将其数据空间直接创建在LDM中，这样就节省掉了原先存在的写回主存以及从主存读取数据时间。

RDMA通信是指远程直接访存技术，其被广泛应用于多节点计算系统中，用于解决多节点系统中节点之间数据传输延迟较高的问题。

传统的多节点系统中节点间的数据传输使用MPI方式，其与RDMA方式的简要对比如图1所示。

传统的MPI通信过程中，发送端应用程序首先在用户空间产生将要发送的数据。之后将用户空间的数据拷贝到内核空间中，在内核空间中被添加上TCP报文段形成一个数据包。再之后网卡(NIC)会把数据从内核空间中再次拷贝到自身的缓冲区中并通过网络将缓冲区中的数据发送出去。在接收端，同样需要经过发送过程的逆过程，首先将接收数据存储在接收端网卡的缓冲区中，再从网卡缓冲区拷贝到内核空间中进行解包工作，解包操作完成后再将数据从内核空间拷贝到用户空间中接收端用户程序的目标位置。如此一来，通过MPI方式传输的数据必须经过四次数据拷贝，另外还需要分出额外的CPU时间用来进行打包和解包操作。

然而如果使用RDMA技术，一台计算机可以直接访问另外一台计算机的内存。其可以在不经过内存拷贝和花费额外的CPU时间进行打包操作的情况下就完成数据传输。当应用程序使用RDMA方式通信时，数据会被分派到RNIC(支持RDMA通信协议的网卡，神威架构所支持的是IB协议)并且RNIC会将数据直接从用户空间内存发送到网络中，而接收端应用程序也可以通过RNIC直接获取数据。所有的这些操作都不需要CPU、缓存以及上下文切换就可以完成，并且这种方式不需要进行内存拷贝和陷入内核空间完成各种操作，这些都是MPI方式所做不到的。因此在使用RDMA技术重写各种通信实现之后，数据分派会变得更加快速。

在本流程中，在片间数据传递的时候本实施例使用了RDMA的方式替换了原先的MPI方式，使得数据传输效率有所提升。

移植和优化过后的GROMACS最先应该保证的就是结果正确性的问题，为此本实施例将“神威·太湖之光”的GROMACS流程的结果与基于KNL架构的GROMACS流程的结果做了对比以验证正确性。

分子动力学模拟往往会产生很多参数信息，但针对正确性验证而言，往往都是选择温度和总能量参数进行验证。当原流程和优化后流程在温度和总能量参数上都满足3％的相对误差时，认为优化后的流程结果正确，符合原流程的模拟结果。为了验证原流程和优化后的流程的结果，使用相同算例，对原流程和优化后的流程均进行了steps长达500K的长步长测试，并在每100steps时输出一次当前温度和总能量的结果。在流程结束后，使用每100steps输出的温度和总能量结果绘制了图2。

图例中opt前缀为优化流程版本在神威架构上的测试结果，knl前缀是原流程版本在knl架构上的测试结果。ener后缀是指总能量参数的测试结果，tem后缀是指温度参数的测试结果。

从图2中可以看出，在整个500K的长步长模拟范围内，优化后的流程和原流程的总能量及温度输出契合度相当高，总体结果很一致。其次，为了能够更加细致的对比优化后流程和原流程的总能量和温度。本实施例选取了450K到455K这5K步的总能量和温度的输出信息，并将总能量的对比范围缩小至[-610K,-630K]，将温度的对比范围缩小至[290,310]，画出如图2中小窗所示的图像，其中左侧小窗为总能量图像，右侧小窗为温度图像。从图中可以观察到，优化后的流程和原流程的总能量和温度输出极大程度趋于一致。

从图像中可以总结出，优化后的流程和原流程不仅在最终结果上表现一致，且程序执行过程中的总体情况及局部情况也高度契合。从而可以确认本实施例并行优化后的流程的结果满足正确性的要求。

经移植过后，GROMACS程序可以在“神威·太湖之光”上被使用，本实施例将这个版本称为原版。

为了检测本实施例优化的提升效果，需要将原流程作为基准进行行性能测试。为了测试出性能提升的效果，本实施例使用了离子通道算例，其中包含14万个原子，测试了原流程和优化的流程PME部分的执行时间。在输出文件中可以看到PME计算所占用的时间和占比，以及PME中各个部分所用的计算时间和占比。

其中原流程的执行效果如图3所示。

可以看到原流程整个运算过程中PME部分的执行时间为52.428s。PME计算中主要有5个部分组成，各个部分的时间也都详细列出。

另外对优化的流程采用相同参数运行得到的执行效果如图4所示。

可以看到优化后的PME部分执行时间为16.736s。PME中各部分时间也如图中所示。

通过对比两份数据，可以得到性能对比如表5-1所示

表5-1原流程与优化流程PME部分性能对比

由表格可以看到PME部分整体性能被提高了3倍，其中PME算法的各个部分均有从1.75倍～5倍不等的提升效果。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种分子动力学模拟软件的并行PME的加速优化方法，其特征是：包括：

主核使用DMA的方式获取各从核的计算结果，并将各计算结果合并及向量化，主核使用RDMA技术代替传统的MPI技术来获取其他主核的数据。

2.如权利要求1所述的一种分子动力学模拟软件的并行PME的加速优化方法，其特征是：各步骤为并行的。

3.如权利要求1所述的一种分子动力学模拟软件的并行PME的加速优化方法，其特征是：根据从核的数量N，将计算数据拆分为N份，并将每一份分配到一个从核上。

4.如权利要求1所述的一种分子动力学模拟软件的并行PME的加速优化方法，其特征是：将原始数据分块，每个从核使用DMA方式在主存中读取指定块的数据，将这些数据进行转置并拼接成转置后的连续内存数据，并最后将这些连续数据以DMA的方式写回主存。

5.如权利要求1所述的一种分子动力学模拟软件的并行PME的加速优化方法，其特征是：数据分块时，读取和写回粒度均控制在180B-200B之间。

6.如权利要求1所述的一种分子动力学模拟软件的并行PME的加速优化方法，其特征是：利用加法操作合并各个从核的计算结果，使用单指令多数据流的方法，优化所述加法操作过程。

7.如权利要求1所述的一种分子动力学模拟软件的并行PME的加速优化方法，其特征是：引入局部数据存储器，用作保存从核所需要的数据的存储器，使用局部数据存储器，用以保存从核所需要的数据，每个从核拥有各自的局部数据存储器，原始计算数据直接创建在局部数据存储器中。

8.一种分子动力学模拟软件的并行PME的加速优化系统，其特征是：包括：

9.一种计算机可读存储介质，其特征是：其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的一种分子动力学模拟软件的并行PME的加速优化方法。

10.一种终端设备，其特征是：包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-7中任一项所述的一种分子动力学模拟软件的并行PME的加速优化方法。