CN102385668A

CN102385668A - 一种基于蛋白质分子场预测相互作用位点的方法

Info

Publication number: CN102385668A
Application number: CN201110276563XA
Authority: CN
Inventors: 张繁; 王章野; 吴韬; 彭群生
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2011-09-19
Filing date: 2011-09-19
Publication date: 2012-03-21

Abstract

本发明公开了一种基于蛋白质分子场预测相互作用位点的方法，首先搭建起一个GPU与CPU异构的高性能集群计算平台并建立优化算法以进行蛋白质的复杂生物计算，实现蛋白质相互作用的分子动力学模拟，从蛋白质分子相互作用开始到结束，保存其中若干帧的位置信息，对每一帧计算蛋白质分子场，最后分析蛋白质中每一个残基的分子场变化，找出变化最大的若干个残基，即可能的相互作用位点。本发明利用建立的GPU与CPU异构的高性能集群计算平台及其优化计算途径，运用量子化学计算蛋白质分子场，具有较高的精度，可以方便、快速、有效地对蛋白质相互作用过程进行分析，对可能的作用位点具有较高的预测度，在生物计算领域具有很大的实用价值。

Description

一种基于蛋白质分子场预测相互作用位点的方法

技术领域

本发明涉及计算机图形学与生物计算技术领域，尤其涉及一种基于蛋白质分子场预测相互作用位点的方法。

背景技术

蛋白质分子体系中的各种相互作用决定了分子内各结构域在空间的形态和变构方式，而这些多重作用在空间中叠加成为一个综合性作用――“分子场（molecular field）”。当体系外分子接近该蛋白质分子体系时，蛋白质分子相关部位的局部场就将发生变化。分子场构成了对蛋白质分子特别是活性中心行为的一种限制和表达，其研究对于揭示蛋白质结构与功能之间的内在关系，尤其是对蛋白质识别、稳定和黏附行为具有重要意义。分子场从原子尺度上描述蛋白质分子体系，它不仅与分子体系中原子的类型、坐标和所带电荷密切相关，而且与分子的空间构型等立体信息有关，在活性中心等关键部位，其功能的实现（如生理活性）还与亲疏水性分布等相关。蛋白质三维空间结构的相似性比较是探明结构与功能的重要分析手段，而蛋白质分子场的研究可以作为蛋白质结构相似性比较的有益补充。许多生物学家和药学家已经认识到蛋白质分子场的重要性，蛋白质势能场的动态几何分布与功能区域密切对应。但是，正如文献所述，目前的技术还缺乏对势能场的动态几何分布有效的计算和分析手段。此外，现有的蛋白质可视化分析方法，如范德华表面，分子表面，球棍模型等，难以实现对分子间作用力进行有效地空间可视化分析。所以，蛋白质分子场的计算、可视化分析是一项对结构生物信息学有价值且意义深远的研究。本发明工作已表明，通过算法开发，可以实现对蛋白质分子场在量子化学精度上实现有效计算，为研究相关问题，尤其是含有金属元素的发生化学反应的相关蛋白质分子场提供了基础。但是，由于生物计算涉及的分子很大，计算过程十分复杂。因此，如何加速其计算过程是结构生物信息学等领域一个亟待解决的问题。

在结构生物信息学领域，量子化学蛋白质分子场的研究，对于揭示蛋白质结构与功能之间的内在关系，预测蛋白质相互作用网络，发现疾病诊断标志蛋白（Biomark），实现药物的设计及快速筛选等方面都有着重大的应用价值。但是，由于蛋白质分子体系庞大，通常有成千上万个原子，若直接使用量子化学方法进行计算将是非常困难的。通常的做法是采用线性标度的计算技术，即将蛋白质分子放到三维空间中的一个盒子里面，以包含的氨基酸链为单位进行分解，分割成许多小片段，对应原子构成矩阵元。但现有技术仅考虑到原始PDB

（Protein Data Bank，即：蛋白质数据库），其文件中没有包含氢原子。而本发明的方法采用CHARMM方法，根据拓扑文件进行坐标预测，补充氢原子坐标；然后利用Gaussian03软件对每个片段局部使用AM1（Austin Model 1）哈密顿量或者PM3（Parametric Method 3）哈密顿量方法进行计算，得到对应的局域分子场数据；接着由距离最近的三个局域分子场通过Modified Shepard插值获得每一个网格点上的分子场值，最后将结果拼接为一个完整的体数据网格。

现有工作虽然可得到相对分子力学较为可靠的结果，但是其计算过程非常耗时。

发明內容

本发明的目的在于针对现有技术的不足，提供一种基于蛋白质分子场预测相互作用位点的方法。

本发明的目的是通过以下技术方案来实现的：一种基于蛋白质分子场预测相互作用位点的方法，该方法包括以下步骤：

（1）搭建一个GPU与CPU异构的高性能集群计算平台并建立优化算法以进行蛋白质的复杂生物计算；

（2）实现蛋白质相互作用的分子动力学模拟；

（3）从蛋白质分子相互作用开始到结束，保存其中若干帧的位置信息；

（4）对每一帧计算蛋白质分子场；

（5）分析蛋白质中每一个残基的分子场变化，找出变化最大的若干个残基，即可能的相互作用位点。

进一步地，所述步骤（1）中，搭建的高性能集群计算平台由10台主机组成，其中，2台作为计算显示终端；另外8台作为并行计算节点；整个系统由千兆高速网相连接。

本发明的有益效果是，在计算局部分子场数据值时，每个部分的计算是相对独立的，因此本发明采用并行计算技术；同样，在拼接过程中计算网格点上的场数据值时，也可以采用并行计算。虽然通常单机计算中，双精度比单精度运算要慢8-12倍，但是，本发明在GPU+CPU异构优化集群上实现了量子化学蛋白质分子场的模拟计算，在保持双精度计算要求下，重点对单机的多核CPU和GPU进行了并行计算优化设计，从而大大加快了计算的速度，并提高了计算精度。

附图说明

图1是GPU集群上的算法流程图；

图2是单结点中GPU和多核CPU并行计算流程图；

图3是多核＋GPU协同计算示意图。

具体实施方式

本发明基于蛋白质分子场预测相互作用位点的方法，包括以下步骤：

一种基于蛋白质分子场预测相互作用位点的方法，该方法包括以下步骤：

1、搭建一个GPU与CPU异构的高性能集群计算平台并建立优化算法以进行蛋白质的复杂生物计算。

2、实现蛋白质相互作用的分子动力学模拟。

3、从蛋白质分子相互作用开始到结束，保存其中若干帧的位置信息。

4、对每一帧计算蛋白质分子场。

5、分析蛋白质中每一个残基的分子场变化，找出变化最大的若干个残基，即可能的相互作用位点。

本发明具有以下特点：

1、搭建GPU与CPU异构的高性能集群计算平台：对于高复杂度课题的加速计算问题，如生物计算的解决，采用高性能的多核CPU集群系统将是一个有效的方法。而目前图形处理器GPU并行处理性能的极高速发展，更是为这一问题的解决提供了可能。为此我们搭建起一个GPU与CPU异构的高性能集群计算平台。其中GPU集群采用10台配置有NVIDIA公司所生产的GeForce GTX 260显卡、8GB内存、1TB硬盘的主机组成，其中2台作为计算显示终端；另外8台作为并行计算节点；多核CPU系统采用Dell公司所生产的24核E7540 2.0GHz的CPU、256GB内存、500TG硬盘所组成的部件，但不限于此。整个系统由千兆高速网相连接。

2、本发明将蛋白质所在的包围盒均匀划分成八个部分，利用MPICH对应分配到集群中的八个计算结点，以实现粗粒度并行。采用SPMD（Single Program Multiple Data Stream Computers）单程序多数据流并行计算机执行模式：一个程序同时启动多份，形成多个独立的进程，在不同的处理机上运行，并拥有独立的内存空间，进程间通信通过调用MPI函数来实现。

3、在每台机器分配到任务后，每个结点同时启动八个线程并行计算，实现细粒度并行，大大提高了运算速度。计算结果收集、合并至控制台，从而得到蛋白质的整个空间网络体结构。计算完毕，在控制台可采用高质量预集成的体绘制硬件加速方法绘制得到蛋白质分子场势能分布。

4、对于海量数据及复杂模型的加速计算，本发明同时了考虑多核CPU的并行优化及GPU的并行优化。即在本发明的GPU集群系统中充分开发利用单结点中多核CPU和GPU两者的各自优势，结合MPI、OpenMP和CUDA混合编程模式，从而达到计算架构的优化设计。

5、本发明计算系统中的多核CPU在一个CPU内真正意义上提供了多个独立的逻辑运算组件，即CPU内核，并使各内核通过协作方式实现运算负载在多个内核之间的平均分配及任务调度，比传统单核CPU带来了更强的并行处理能力、更高的计算密度和更低的时钟频率，并大大减少了散热和功耗。

6、在单结点上利用GPU和多核CPU协同加速计算的主要思想是：充分利用GPU高效的浮点数处理能力和多核CPU良好的任务分配和调度能力，将其中的主要插值计算写入CUDA子程序，安排在GPU上进行；而将预计算和读取文件的步骤写入主程序，安排在多核CPU上进行。即对x坐标相同的平面上的所有点，根据距离最小原则，预计算Modified Shepard插值所需要的若干氨基酸片段，并从片段所在数据文件中获取原始分子场值，然后连同预处理得到的距离信息一并传入GPU并行计算模块，进行Modified Shepard插值。算法完整流程如图2所示。

7、考虑到可以进行多核CPU并行计算，因此本发明把求取氨基酸片段分子场数据值进行OpenMP并行编程模型下的多核CPU并行计算。其中，并行域在多核CPU上通过主线程开启(fork)新线程实现，计算结束后将结果传给CUDA子程序做下一步并行计算。由于GPU集群环境的特殊性，本发明实现了将OpenMP和CUDA协同工作，即首先分别用CUDA编译器nvcc编译写有Modified Shepard插值计算的GPU子程序，然后用MPICH的编译器mpicc编译主程序，添加-fopenmp命令行参数；最后使用MPICH的链接器进行链接，得到可执行程序。

实施例：为了近似表示蛋白质各个原子电势能的value值，将原子坐标周围格点中的value值加权平均，继而求出每个原子组成的残基的平均value。最后对a-k各帧，求出各残基的value值的变化趋势。对变化趋势进行分析发现残基可根据其value的变化趋势进行分类。第一类：变化趋势呈震荡下降趋势。此部分残基共60个，标号为1-60。第二类：变化趋势并非呈下降趋势。此部分残基共24个，标号为：6165，86，89，106，110，113，127，131，140，144，147，151，155，162，165，170，172，175，184，187，其对应为左侧未被拉离、但对被拉离部分呈包围状的残基片段。这些就是可能的作用位点。第三类：变化趋势呈平稳单调下降趋势。此部分残基共135个。对应左侧未被拉离，且处于较外围的残基片段。

Claims

1.一种基于蛋白质分子场预测相互作用位点的方法，其特征在于，该方法包括以下步骤：

（2）实现蛋白质相互作用的分子动力学模拟；

（4）对每一帧计算蛋白质分子场；

2.根据权利要求1所述基于蛋白质分子场预测相互作用位点的方法，其特征在于，所述步骤（1）中，搭建的高性能集群计算平台由10台主机组成，其中，2台作为计算显示终端；另外8台作为并行计算节点；整个系统由千兆高速网相连接。