CN107066834A

CN107066834A - 一种基于粒子群优化算法的蛋白质结构从头预测方法

Info

Publication number: CN107066834A
Application number: CN201710177456.9A
Authority: CN
Inventors: 王晨彤
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-03-23
Filing date: 2017-03-23
Publication date: 2017-08-18
Anticipated expiration: 2037-03-23
Also published as: CN107066834B

Abstract

一种基于粒子群优化算法的蛋白质结构从头预测方法，根据当前个体的二面角与历史最优个体的二面角的差值，以及当前个体的二面角与种群最优个体的二面角的差值引导下一代构象搜索，并利用片段组装进行随机扰动，提高了全局探测能力，加快了收敛速度，降低了计算代价。本发明提供了一种预测精度高、计算代价低的基于粒子群优化算法的蛋白质结构从头预测方法。

Description

一种基于粒子群优化算法的蛋白质结构从头预测方法

技术领域

本发明涉及一种生物学信息学、智能优化、计算机应用领域，尤其涉及的是，一种基于粒子群优化算法的蛋白质结构从头预测方法。

背景技术

蛋白质是所有生物中最重要的大分子之一，一个细胞的干重的一半以上是蛋白质。蛋白质是由单一的肽键连接在一起的氨基酸的顺序链，这些连接的链折叠成能体现它们功能的三维结构，并调节生物体中的细胞活动，以保持生命。蛋白质分子在分子水平上具体体现了蛋白质结构和功能之间的显著关系。蛋白质在生物学中有许多不同的功能。蛋白质的三维天然结构决定它的生物学机制，而反过来，蛋白质氨基酸单体的一维链又对它的天然结构进行编码。蛋白质的三维结构在药物设计、蛋白质工程和生物技术中具有决定性的重要，因此，蛋白质结构预测是一个重要的研究问题。

蛋白质结构实验测定方法包括X射线晶体学、核磁共振光谱、和电子显微镜等，这些方法被广泛用于蛋白质结构测定。X射线晶体学被认为是这些方法中相对可行且准确的测定方法之一。然而，X射线晶体学需要进行一个复杂的结晶过程，而对于一些不易结晶的蛋白(如膜蛋白)，此方法无法用于结构测定。此外，这些实验测定方法极其耗时，代价昂贵，而且容易发生错误。

Anfinsen热力学假说表明：蛋白质的空间结构由氨基酸序列唯一确定；蛋白质的空间结构是稳定的；蛋白质的天然构象处于自由能最低点。根据Anfinsen原则，以计算机为工具，运用适当的算法，从氨基酸序列出发直接预测蛋白质的三维结构，成为当前生物信息学中一种主要的研究课题。在上世纪文献中，通常将预测方法划分为以下三类：针对高相似序列的同源建模方法；针对较低相似性序列的折叠识别方法；以及不依赖模板的从头预测方法。从头预测方法直接基于Anfinsen假说建立蛋白质物理或知识能量模型，然后设计适当优化算法求解最小能量构象。一方面，从生物学意义上来讲，有助于揭示蛋白质折叠机理，进而能够最终阐明生物学中心法则中的第二遗传密码理论部分；另一方面，从现实意义来讲，该方法具有普遍性，对于序列相似度<20％或寡肽(<10个残基的小蛋白)来说，从头预测方法是唯一的选择。

目前主要的技术瓶颈在于两个方面，第一方面在于采样方法，现有技术对构象空间采样能力不强，另一方面在于构象更新方法，现有技术对构象的更新精度仍然不足。因此，现有的构象空间搜索方法存在不足，需要改进。

发明内容

为了克服现有的蛋白质结构预测方法在预测精度和计算代价方面的不足，本发明提供一种基于粒子群优化算法的蛋白质结构从头预测方法。根据当前个体的二面角与历史最优个体的二面角的差值，以及当前个体的二面角与种群最优个体的二面角的差值引导下一代构象搜索，并利用片段组装进行随机扰动，提高了全局探测能力，加快了收敛速度，降低了计算代价。

本发明解决其技术问题所采用的技术方案是：

一种基于粒子群优化算法的蛋白质结构从头预测方法，所述方法包括以下步骤：

1)选取Rosetta Score3作为蛋白质力场模型，即能量函数E(X)；

2)给定输入序列信息；

3)参数初始化：设置粒子群规模NP、惯性权重ω、加速度加速度和最大迭代次数Gmax；

4)用二面角对表示蛋白质构象Cⁱ(G)，其中，L为蛋白序列长度，表示第G代种群中第i个个体的第j个二面角对，为便于描述，将其记为其中表示构象Cⁱ(G)的第k维分量，k∈{1,...,2L}；

5)构象初始化：根据给定输入序列，生成NP个伸展链构象，作为初始粒子群P＝{C¹(G),C²(G),...,C^NP(G)}，令G＝0；

6)对粒子群中的构象Cⁱ(G)依次进行L次片段组装，用E(X)计算新生成构象的能量值，并将当前构象作为个体Cⁱ(G)的历史最优构象表示p_best ⁱ的第k维分量，k∈{1,2,...,2L}，选取当前粒子群中能量最低构象作为粒子群全局最优构象g_best＝{Y₁,Y₂,...,Y_k,...,Y_2L}，Y_k表示g_best的第k维分量，k∈{1,2,...,2L}；

7)对粒子群中的每个个体迭代的执行下述步骤：

7.1)根据计算构象的各个残基二面角增量其中ω是惯性权重因子，是加速度常数，均为非负值。rand(0,a₁)和rand(0,a₂)为[0,a₁]、[0,a₂]范围内具有均匀分布的随机数，a₁与a₂为控制参数，表示第G代种群中第i个个体的第k维分量，k∈{1,2,...,2L}；

7.2)更新构象：根据计算每个构象的各个残基二面角；

7.3)采用片段组装对生成的个体执行随机扰动；

7.4)根据E(X)计算新生成构象的能量，并与其历史最优个体的能量进行比较，若能量降低，则更新个体Cⁱ(G)的历史最优个体p_best ⁱ；

7.5)新生成的构象能量与全局最优个体g_best的能量进行比较，若能量降低，则用当前个体替换g_best；

8)判断是否满足终止条件：

8.1)若G＝Gmax，则输出结果并退出；

8.2)若G<Gmax，则令G＝G+1，返回步骤7)。

本发明的技术构思为：根据当前个体的二面角与历史最优个体的二面角的差值，以及当前个体的二面角与种群最优个体的二面角的差值引导下一代构象搜索，并利用片段组装进行随机扰动，提高了全局探测能力，加快了收敛速度，降低了计算代价。

本发明的有益效果为：本发明在蛋白质结构预测中应用，可以得到预测精度较高、复杂度较低的构象。

附图说明

图1是基于粒子群优化算法的蛋白质结构从头预测方法对目标蛋白质1ACF预测结构和实验室测定结构的三维示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种基于粒子群优化算法的蛋白质结构从头预测方法，包括以下步骤：

1)选取Rosetta Score3作为蛋白质力场模型，即能量函数E(X)；

2)给定输入序列信息；

4)用二面角对表示蛋白质构象Cⁱ(G)，

其中，L为蛋白序列长度，表示第G代种群中第i个个体的第j个二面角对，为便于描述，将其记为其中表示构象Cⁱ(G)的第k维分量，k∈{1,...,2L}；

7)对粒子群中的每个个体迭代的执行下述步骤：

7.2)更新构象：根据计算每个构象的各个残基二面角；

7.3)采用片段组装对生成的个体执行随机扰动；

8)判断是否满足终止条件：

8.1)若G＝Gmax，则输出结果并退出；

8.2)若G<Gmax，则令G＝G+1，返回步骤7)。

本实施例以目标蛋白质1ACF为实施例，一种基于粒子群优化算法的蛋白质结构从头预测方法，所述方法包括以下步骤：

1)选取Rosetta Score3作为蛋白质力场模型，即能量函数E(X)；

2)给定输入序列信息；

3)参数初始化：设置粒子群规模NP＝100、惯性权重ω＝1.0、加速度加速度和最大迭代次数Gmax＝100000；

4)用二面角对表示蛋白质构象Cⁱ(G)，

其中，L＝125为蛋白序列长度，表示第G代种群中第i个个体的第j个二面角对，为便于描述，将其记为其中表示构象Cⁱ(G)的第k维分量，k∈{1,...,2L}；

7)对粒子群中的每个个体迭代的执行下述步骤：

7.6)根据计算构象的各个残基二面角增量其中ω是惯性权重因子，是加速度常数，均为非负值。rand(0,a₁)和rand(0,a₂)为[0,a₁]、[0,a₂]范围内具有均匀分布的随机数，a₁＝1与a₂＝1为控制参数，表示第G代种群中第i个个体的第k维分量，k∈{1,2,...,2L}；

7.7)更新构象：根据计算每个构象的各个残基二面角；

7.8)采用片段组装对生成的个体执行随机扰动；

7.9)根据E(X)计算新生成构象的能量，并与其历史最优个体的能量进行比较，若能量降低，则更新个体Cⁱ(G)的历史最优个体p_best ⁱ；

7.10)新生成的构象能量与全局最优个体g_best的能量进行比较，若能量降低，则用当前个体替换g_best；

8)判断是否满足终止条件：

8.3)若G＝Gmax，则输出结果并退出；

8.4)若G<Gmax，则令G＝G+1，返回步骤7)。

以上阐述的是本发明给出的一个实施例表现出来的优良效果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种基于粒子群优化算法的蛋白质结构从头预测方法，其特征在于：所述蛋白质结构从头预测方法包括以下步骤：

1)选取Rosetta Score3作为蛋白质力场模型，即能量函数E(X)；

2)给定输入序列信息；

7)对粒子群中的每个个体迭代的执行下述步骤：

7.2)更新构象：根据计算每个构象的各个残基二面角；

7.3)采用片段组装对生成的个体执行随机扰动；

8)判断是否满足终止条件：

8.1)若G＝Gmax，则输出结果并退出；

8.2)若G<Gmax，则令G＝G+1，返回步骤7)。