CN110021339B

CN110021339B - 基于蛋白质折叠测算蛋白质结构的集群并行计算加速方法

Info

Publication number: CN110021339B
Application number: CN201711439963.1A
Authority: CN
Inventors: 张尉东; 陈一峯; 张明悦
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2021-04-30
Anticipated expiration: 2037-12-27
Also published as: CN110021339A

Abstract

本发明公布了一种集群并行计算加速方法，针对蛋白质折叠过程构建能量约束模型，在异构集群计算机上对计算的迭代过程进行并行加速；包括：将蛋白质折叠计算的近似计算划分为多个计算任务，每个节点根据本地计算任务和数据备份进行求解，期间不进行数据同步；当节点执行完多个时间步后进行数据同步；本节点计算任务的结果同本地数据备份比较，若发生改变，则以广播的方式在集群中传播数据，通知集群所有主机将本地备份进行更新，从而实现基于蛋白质折叠测算蛋白质结构的并行计算加速。本发明能够提高蛋白质折叠测算蛋白质结构求解的计算速度与精度，减少计算过程中的通信开销，节省计算资源。

Description

基于蛋白质折叠测算蛋白质结构的集群并行计算加速方法

技术领域

本发明属于高性能计算技术领域，涉及计算并行化方法，尤其涉及一种利用计算机集群、对蛋白质折叠的计算进行并行化加速的方法。

背景技术

蛋白质折叠问题解决的是针对一段氨基酸序列，通过氨基酸残基的相互作用，形成具有特定三维结构的蛋白质分子。在应用实践中，可以运用动力学模拟的方法，建立蛋白质折叠过程中的能量约束方程，以数值模拟的手段，根据氨基酸序列，来推测蛋白质的三维结构。

可以对蛋白质折叠过程中的能量约束构建线性方程组，线性方程组一般形式

Ax＝b

其中A为非奇异矩阵，当A为低阶稠密矩阵时，采用高斯消元法、克莱姆法则等可以直接求解。但高性能计算领域，A的阶数往往相当大，且零元素较多，对于这种大型稀疏矩阵，采用迭代法更为合适。雅可比迭代法(JacobiIteration)和高斯-赛德尔迭代法(Gauss–Seidel Iteration)是数值代数中用于求解大型稀疏线性方程组近似解的常用方法。为了充分利用计算机并行计算的能力，提高求解线性方程组的速度，可以挖掘迭代方法中的并行性，设计并行化方案。

2012年，浪潮公司提出《一种线性方程组的数据处理方法及装置》，利用GPU(graphics processing units)对线性方程组求解进行加速。2012年，大连理工大学黄一等人提出《一种线性方程组的单机并行求解方法》，最大化利用单机资源，提高了单机求解线性方程组的速度与精度。

对于氨基酸中各原子的状态，可以按照分子动力学方程来进行求解，其一般形式为

X[t+dt]＝f(X[t])

其中，X[t]为t时刻原子的状态向量，f为物理模型建立的动力学方程。对于此类方程，可以用BSP(Bulk Synchronous Parallel)并行加速算法。BSP模型是将全局的计算任务分成若干子任务异步进行计算，子任务完成计算后进入等待状态，系统进行全局检查与全局数据更新，当所有子任务都完成计算且全局数据更新后，每个子任务又继续进行下一步计算。

但是，上述现有方法往往都基于单机形式或者容易受到通信的限制，并行化程度不高，加速效果不理想，且求解规模受到单机容量的限制；现有蛋白质折叠的技术尚未有利用集群计算机进行并行加速的有效技术方案。

发明内容

为了克服上述现有技术的不足，本发明提供了一种在集群上蛋白质折叠问题的并行加速方案。本发明方法在构建蛋白质折叠的能量约束线性方程组后，对该线性方程组进行合理的区块划分，在集群上，对计算进行并行化加速，提高测算蛋白质结构的计算求解速度与计算精度。

本发明的核心思想是，对蛋白质折叠过程中的能量约束构建线性方程组，根据计算任务的局部性，即某些计算任务同其他计算任务数据关联性较弱，因此可以分别独立计算，并在时间上实现重叠，提高并行程度。同时，根据计算精度，调整同步的频率，保证精确性。而蛋白质折叠一类问题，有着很好的计算任务局部性，本发明在解决蛋白质折叠推算蛋白质的三维结构问题方面有着很好的加速效果。

现有方法中，高斯-赛德尔迭代法求解线性方程组，具体地：

对于方程组Ax＝b，有唯一解x’，则将Ax＝b变形为等价的方程组x＝Bx+f，由此可有迭代公式，表示为式1：

x^(k+1)＝Bx^(k)+f,(k＝0,1,2,…) (式1)

其中，B为迭代矩阵；对于x’＝{x₁,x₂,…,x_n}，其迭代公式如式2：

随着迭代次数k的增大，x^(k)的值最终收敛于原方程组的解x’。

本发明针对上述迭代过程进行并行加速；具体地：

由迭代公式可知，对于x的每一维数据，每次一次计算都需要其他维数据的结果，如果采用并行方法，并行地计算x的每一维数据，则每次计算后，需要一次全局范围内的数据同步。因此，本发明的主要思想是将数据同步尽可能压缩，从而得到效率更高的计算方法，与BSP(Bulk Synchronous Parallel)对应地，本发明方法可称为DSP(Delta-SteppingSynchronous Parallel，增量同步并行计算模型)。该计算方法是，把对于线性方程组的近似计算划分为多个计算任务，每一个集群中的节点计算x的一维或多维数据，每个节点根据本地计算任务和数据备份，按照DSP的方法进行求解，在此期间，不进行数据同步。每个节点的所有计算任务都完成一次计算称为一个时间步。设定一个时间步增量Δ，每个节点执行完Δ个时间步后进行数据同步，本节点计算任务的结果同本地数据备份比较，如果发生改变，则将数据以广播的方式在集群中传播，通知集群中的所有主机将本地备份进行更新。运算的终止条件是执行到一定时间步，或者增量操作的计算结果之差小于某个阈值。特别地，当DSP计算模型的时间步增量Δ设置为1时，DSP就变成了BSP，当时间步增量Δ设置得非常大时，DSP任务间不发生任何数据同步，变成绝对并行的计算模式。

本发明提供的上述针对上述迭代过程进行并行加速的方法是在集群上实现的，硬件参数如下：1.交换机带宽100G，节点间由InfiniBand网络连接；2.节点是CPU-GPU(Central Processing Unit-Graphics Processing Unit，中央处理器-图形计算单元)主机，有16颗Intel Xeon E5-2620处理器，一块Tesla K20显卡。

本发明提供的技术方案是：

一种基于蛋白质折叠测算蛋白质结构的集群并行计算加速方法，针对蛋白质折叠过程构建能量约束模型，在异构集群计算机上对蛋白质折叠计算的迭代过程进行并行加速，以提高计算速度与精度；包括如下步骤：

A.数据部署：

A1.根据数值计算相关方法，求出氨基酸状态矩阵A与能量约束向量B。

A2.根据矩阵A、向量B，写出对应的有线性方程组Ax＝B，即：

矩阵A、向量B作为数据输入，集群中共有N个主机，生成n(n≥N)个进程，每个进程计算X(x₁，x₂，…，x_n)的一个分量x_i；集群上每个节点中的进程通过IP地址加进程号的形式进行通信，每个进程生成一个计算线程和通信线程，计算线程负责计算，通信线程用MPI(Message Passing Interface，消息传递接口)实现，负责全局的广播与数据同步。

A2.进程与X数据的绑定，对于MPI对给进程分配的进程号rank，rank＝i的进程负责计算x_i+1分量。

B.线性方程组的并行求解：

B1.采用高斯-赛德尔迭代法，求解：线性方程组

的近似解。迭代式如式4：

式中a_i,j表示线性方程组的系数，

表示线性方程组解的i分量在第k+1次迭代的值。

B2.对X向量初始化，设定x_i的初值，开辟两组变量缓存空间old、new，缓存空间old用于记录上一次迭代的数据，缓存空间new用于记录更新值，把x_i分别赋给old_i、new_i，则一共有n个old数据和new数据，将这n个old数据和n个new数据以及矩阵A、向量B拷贝到每个进程中。

B3.由于A2的数据划分的操作，使得x_i与进程rank号绑定起来，对于rank号位i+1的进程，计算x_i把new_i的值赋给old_i，根据迭代公式(式5)计算得到new_i，

反复运行B3步多次(Δ次)，再执行B4步操作。

B4.每个rank号为i+1的进程将本地的new_i与old_i以广播的形式传输给全体进程，等待其他进程传来的数据后，更新本地的new与old数据，当n个new和n个old数据全部更新完之后，计算

c为事先给定的计算精度，如果该式成立，则终止计算，此时进程中存储的n个new_i值，即为所求的x_i值。反之转步骤B3；由此得到的X(x₁，x₂，…，x_n)是一个原线性方程组的近似解，该计算方案能保证收敛性，其精度同线性方程组的特性与步数Δ的取值有关。

C.全局广播与数据输出：

C1.本发明针对异构集群，在消息传递的基础上，在进程同步时，设计出了二叉树形广播方式，rank号为0的进程作为树的根节点，其他进程将同步信号传给父节点，根节点收到同步信号后，向子节点发送同步信号，节点收到来自父节点的同步信号后，再向下转发。对于运行在异构集群上的进程，采用IP地址(Internet Protocol Address)加端口号加进程号的方式进行访问。进程的树状组织结构见附图2，是一棵完全二叉树的结构。

C2.根据前述方法求得的X向量，最先终止计算的进程向全局广播，其他进程收到此信号后停止计算并释放占用的资源，由最先终止计算的进程将内存中的数据写入磁盘进行存储。

与现有技术相比，本发明的有益效果是：

本发明提供一种在集群上蛋白质折叠问题的并行加速方案。本发明方法在构建蛋白质折叠的能量约束线性方程组后，对该线性方程组进行合理的区块划分，在集群上，对计算进行并行化加速，通过本发明所提供的线性方程组集群并行化加速的方法，提高线性方程组迭代求解的计算速度，减少了计算过程中的通信开销，节省了大量计算资源，由此提高测算蛋白质结构的计算求解速度与计算精度。

附图说明

图1是本发明提供的DSP计算方法的流程框图。

图2是本发明具体实施中进程的树状组织结构；

其中，节点中的号码表示进程的rank号。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种在集群上蛋白质折叠问题的并行加速方案。本发明方法在构建蛋白质折叠的能量约束线性方程组后，对该线性方程组进行合理的区块划分，在集群上，对计算进行并行化加速，通过本发明所提供的线性方程组集群并行化加速的方法，提高线性方程组迭代求解的计算速度，减少了计算过程中的通信开销，节省了大量计算资源，由此提高测算蛋白质结构的计算求解速度与计算精度。图1是本发明提供的DSP计算方法的流程框图。

以下实施例根据氨基酸序列，构建起能量约束方程组，使得氨基酸总能量满足约束条件，形式如下：

其中Ψ(a_i,j)是i号氨基酸残基和j号氨基酸残基的作用函数，x_i为位置系数，b_i为第i段氨基酸能量约束值，单独提取出残基作用函数矩阵为A，如下：

能量约束向量B＝(b₁,b₂,…,b_n)

则有线性方程组为AX＝B，其中X为32维，设定迭代精度c为10^-10，同步步数Δ为5。根据技术方案，实施过程分为以下步骤(实施步骤和技术方案中的要点并非完全的一一对应，顺序有所不同)：

A.创建进程与设定初值；

创建32个进程，每个进程分别开辟三个大小为32的一维数组old[32]、new[32]和B[32]，开辟一个大小为32x32的二维数组A[32][32]，将bi与ai,j分别赋给B[i]、A[i][j]。以上数据均为全局变量。进程的树状组织结构见图2，是一棵完全二叉树的结构，图中所示节点中的号码表示进程的rank号。

每个进程分别将自己地址空间下的old[]，new[]数组的每个元素赋初值为0。

B.每个进程的操作

每个进程根据技术方案提供的迭代公式式(5)，计算本地的x值；

迭代运算核心代码如下所示：

其中，MPI_Comm_rank()函数原形为：intMPI_Comm_rank(MPI_Commcomm,int*rank)，是MPI(Message-Passing-Interface消息传递接口)提供的接口，用于获取进程号数。进程号从0号开始，到32号。Gauss_cpt()函数为根据式(5)进行一次迭代，返回值为进行一次迭代后，线性方程组解X的迭代值。

C.数据同步与迭代终止检查

运行5次double Gauss_cpt()函数后，每个进程将本地数据广播出去，即i号进程向全局广播new[i]与old[i]，调用MPI的MPI_Bcast()函数，其原型为int MPI_Bcast(void*buffer,int count,MPI_Datatype datatype,int root,MPI_Comm_WORLD)。并等待其他进程的数据，每次收到一个进程的数据old[j]、new[j]后，计数器all++，当all等于31时，进程开始分别进行下述终止条件检查的操作。

每个进程都分别计算更新后的old[j]-new[j]绝对值，如果所有的old[j]-new[j]绝对值都小于10^-10，则向全体进程广播计算完成，并由该进程向Swiss-model发送new[]数组的数据。如果存在一个old[j]-new[j]绝对值都大于10^-10，则向全体进程广播计算继续。

每个进程在进行迭代终止检查时，如果收到了计算完成的广播，则该进程释放所占用的资源，并退出，如果收到了计算继续的广播，则停止终止检查，调用double Gauss_cpt()迭代函数继续计算。

向全体进程发出广播的进程负责维护最终的数据，该进程将内存中的数据new[]写到本地磁盘中，反馈存储信息，最后释放所有资源并退出。

以上以具体实施例对本发明做了进一步的说明。但是需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种集群并行计算加速方法，针对蛋白质折叠过程构建能量约束模型，在异构集群计算机上对蛋白质折叠计算的迭代过程进行并行加速，以提高计算速度与精度；包括：将蛋白质折叠计算的近似计算划分为多个计算任务，每一个集群中的节点计算氨基酸中各原子的状态向量X的一维或多维数据，每个节点根据本地计算任务和数据备份进行计算求解，计算期间不进行数据同步；设定时间步增量Δ，每个节点执行完Δ个时间步后进行数据同步，本节点计算任务的结果同本地数据备份比较，如果发生改变，则将数据以广播的方式在集群中传播，通知集群中的所有主机将本地备份进行更新；当执行到设定时间步或增量操作的计算结果之差小于设定阈值时终止运算；由此实现基于蛋白质折叠测算蛋白质结构的集群并行计算加速；

所述集群并行计算加速方法包括数据部署、并行求解、全局广播与数据输出过程；具体包括如下步骤：

A.数据部署：

A1.Ax＝B具体表示为式3：

将矩阵A、向量B作为数据输入，集群中共有N个主机，生成n个进程，每个进程计算X(x₁，x₂，…，x_n)的一个分量x_i；n≥N；集群上每个节点中的进程通过IP地址加进程号的形式进行通信，每个进程生成一个计算线程和通信线程，计算线程负责计算，通信线程用消息传递接口(MPI)实现全局的广播与数据同步；

A2.将进程与X数据进行绑定，即使得x_i与进程rank号绑定，对于MPI给进程分配进程号rank；rank＝i的进程负责计算分量x_i+1；

B.模型并行求解计算：

B1.采用高斯-赛德尔迭代法求解

的近似解；迭代式如式4：

其中，

表示线性方程组解的i分量在第k+1次迭代的值；

B2.对X向量初始化，设定x_i的初值；开辟变量缓存空间old、new；缓存空间old用于记录上一次迭代的数据，缓存空间new用于记录更新值；把x_i分别赋给old_i、new_i，则一共有n个old数据和new数据；将n个old数据、n个new数据、矩阵A、向量B拷贝到每个进程中；

B3.由步骤A2使得x_i与进程rank号绑定起来，对于rank号位i+1的进程，计算x_i时，将new_i的值赋给old_i，再根据迭代公式式5计算得到new_i：

反复运行步骤B3多次，再执行步骤B4的操作；

B4.每个rank号为i+1的进程将本地的new_i与old_i以广播的形式传输给全体进程，等待其他进程传来的数据后，更新本地的new与old数据；

当n个new和n个old数据全部更新完之后，给定计算精度c，当

成立时，终止计算，此时进程中存储的n个new_i值，即为所求的x_i值；

反之当

不成立时，转到步骤B3；

由此得到的X(x₁，x₂，…，x_n)为一个模型的近似解；

C.全局广播与数据输出：

C1.针对异构集群，在进程同步时，在消息传递基础上采用二叉树形广播方式；进程是一棵完全二叉树结构，rank号为0的进程作为树的根节点，其他进程将同步信号传给父节点，根节点收到同步信号后，向子节点发送同步信号，子节点收到来自父节点的同步信号后，再向下转发；对运行在异构集群上的进程，采用IP地址加端口号加进程号的方式进行访问；

C2.求得X向量的过程中，最先终止计算的进程向全局广播，其他进程收到信号后停止计算并释放占用的资源，由最先终止计算的进程将内存中的数据写入磁盘进行存储；

由此实现模型求解的集群并行计算加速。

2.如权利要求1所述集群并行计算加速方法，其特征是，所述集群的硬件包括：带宽100G的交换机；CPU-GPU主机节点，设有16颗Intel Xeon E5-2620处理器和一块Tesla K20显卡；节点间由InfiniBand网络连接。