CN109346126B

CN109346126B - 一种下界估计策略自适应蛋白质结构预测方法

Info

Publication number: CN109346126B
Application number: CN201810994673.1A
Authority: CN
Inventors: 张贵军; 彭春祥; 刘俊; 周晓根; 王柳静; 胡俊
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2020-10-30
Anticipated expiration: 2038-08-29
Also published as: CN109346126A

Abstract

一种下界估计策略自适应蛋白质结构预测方法，在进化算法框架下，首先，种群初始化，根据轮盘赌的方法选择不同的策略对构象进行变异，交叉；其次根据下界估计函数，Rosetta能量函数score3、以及蒙特卡洛概率接收准则对构象进行选择，来指导构象的更新过程，根据构象更新的历史信息动态更新策略选择概率，下界估计策略自适应蛋白质结构预测方法不仅能够缓解能量函数不精确的问题，而且可以根据历史信息引导算法采样得到能量更低且结构更合理的构象，同时提高采样效率。本发明提供一种采样效率和预测精度都较高的下界估计策略自适应蛋白质结构预测方法。

Description

一种下界估计策略自适应蛋白质结构预测方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种下界估计策略自适应蛋白质结构预测方法。

背景技术

计算机硬件和软件技术的快速发展，为从头预测方法的发展提供了结实的基础平台条件。2012年《Science》杂志发表的一篇综述文章中，美国科学院院士Dill教授回顾了50年来从头预测领域取得的进展，并指出在寻求这一问题答案的过程中，极大推动了超级计算机、新材料和药物发现的发展，帮助人们理解生命的基本过程。从头预测方法目前还面临着诸多困难和挑战。

从头预测方法直接基于蛋白质物理或知识能量模型，利用优化算法在构象空间搜索全局最低能量构象解。构象空间优化方法是目前制约蛋白质结构从头预测精度关键的因素之一。优化算法应用于从头预测采样过程必须首先解决以下三个方面的问题：(1)能量的复杂性。(2)能量模型的高维特性。(3)能量模型的不精确性。目前，我们还远远无法构建起能引导目标序列朝正确方向折叠的足够精确力场，导致数学上的最优解并不一定对应于目标蛋白的天然结构；此外，模型的不精确性也会导致无法对优化算法性能进行客观地分析。

蛋白质构象空间优化的本质复杂性，使其成为蛋白质结构从头预测领域中一个极具挑战性的研究课题。为了能够利用计算机在巨大的采样空间中发现唯一的蛋白质天然结构，就必须设计高效的构象空间优化算法将其转化为可实际操作的计算问题。

差分进化算法(DE)由于其结构简单，易于实现，鲁棒性强和收敛速度快等优点已被成功应用于蛋白结构预测。然而，随着氨基酸序列的增长，蛋白质分子体系自由度也增大，利用传统群体算法采样获得大规模蛋白质构象空间的全局最优解成为一项挑战性的工作。

因此，现有的蛋白质结构预测方法采样效率和预测精度方面存在不足，需要改进。

发明内容

为了克服现有的蛋白质结构预测方法采样效率低、种群多样性差、预测精度较低的不足，本发明在基本差分进化算法框架下，引入策略自适应的方法来指导构象空间优化，提出一种采样效率高、预测精度高的下界估计策略自适应蛋白质结构预测方法。

本发明解决其技术问题所采用的技术方案是：

一种下界估计策略自适应蛋白质结构预测方法，所述预测方法包括以下步骤：

1)给定目标蛋白的序列信息；

2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件，其中包括3片段库文件和9片段库文件；

3)设置参数：种群大小NP，算法的最大迭代代数G，交叉因子CR，温度因子β，学习周期LP，第一种变异策略被选择的概率

第二种变异策略被选择的概率

第三种变异策略被选择的概率

第四种变异策略被选择的概率

g表示当前的代数，策略数量k，第g代第k种策略成功次数

k＝{1,2,3,4}，置迭代代数g＝0，斜率控制因子M；

4)种群初始化：随机片段组装生成NP个初始构象C_i，i＝{1,2，…,NP}；

5)将每个构象C_i，i＝{1,2，…,NP}的每个碳α原子的三维坐标组合成该构象的位置坐标

代表第i个构象的第一个碳α原子的三维坐标，L为蛋白质序列长度；

6)对种群中的每个个体C_i进行如下操作：

6.1)将C_i设为目标个体

生成随机数pSelect，其中pSelect∈(0,1)；

6.2)若

则从种群中随机选出三个互不相同的个体C_a1、C_b1和C_c1，

分别从C_b1、C_c1中随机选择一个位置不同的3片段，分别替换C_a1对应位置的片段生成变异构象C_mutant，并把k置为1；

6.3)若

则先从种群中选择一个能量最低的个体C_best，再从种群中随机选出两个互不相同的个体C_a2、C_b2，

分别从C_a2、C_b2和C_best中随机选择一个位置不同的3片段，分别替换

对应位置的片段生成变异构象C_mutant，并把k置为2；

6.4)若

则从种群中随机选出四个互不相同的个体C_a3、C_b3、C_c3和C_d3，

分别从C_b3、C_c3、C_d3中随机选择一个位置不同的3片段，分别替换C_a3对应位置的片段生成变异构象C_mutant，并把k置为3；

6.5)若

则从种群中随机选出两个互不相同的个体C_a4和C_b4，

分别从C_a4、C_b4中随机选择一个位置不同的3片段，分别替换

对应的位置片段生成变异构象C_mutant，并把k置为4；

6.6)对C_mutant进行一次片段组装生成新构象C_mutant′；

6.7)生成随机数pCR，其中pCR∈(0,1)，若pCR＜CR，则从

中随机选择一个3片段，替换到C_mutant′对应的位置的片段生成测试构象C_trial，否则直接把C_mutant′记为C_trial；

6.8)从种群中找出距离C_trial最近的个体C_near，将对应构象每个碳α原子的三维坐标组合成该构象的位置坐标，则C_tria和C_near的位置坐标分别为

6.9)若g＝0，则用Rosetta score3能量函数计算C_trial、C_near的能量score3(C_trial)、score3(C_near)，用公式(1)、(2)计算M和M_i，M_i表示由第i个构象计算出的斜率控制因子，

分别是X_near、X_trial第j维坐标；

6.10)如果

则C_trial替换

否则按照概率

以蒙特卡洛准则接收构象，若接收构象，则

6.11)若g>0，用公式(3)计算C_trial的下界估计UE_trial；

如果

则C_trial被拒绝，否则由公式(1)、(2)计算M，并且如果

则C_trial替换

否则按照概率

以蒙特卡洛准则接收构象，若接收构象，则

7)当g>0时，由公式(4)计算参数M^g,M^g表示第g代的M，

表示第g代计算出的M^g集合里第i个常量M，n为集合的大小，操作如下：

如果M^g<M^g-1,则M＝M^g；

8)当g>LP时，根据公式(5)更新变异策略选择的概率

k＝{1,2,3,4}，c是一个很小的常数：

9)g＝g+1，迭代运行步骤5)～9)，至g>G为止；

10)输出能量最低的构象为最终结果。

本发明的技术构思为：在进化算法框架下，首先，种群初始化，根据轮盘赌的方法选择不同的策略对构象进行变异，交叉；其次根据下界估计函数，Rosetta能量函数score3、以及蒙特卡洛概率接收准则对构象进行选择，来指导构象的更新过程，根据构象更新的历史信息动态更新策略选择概率，下界估计策略自适应蛋白质结构预测方法不仅能够缓解能量函数不精确的问题，而且可以根据历史信息引导算法采样得到能量更低且结构更合理的构象，同时提高采样效率。本发明提供一种下界估计策略自适应蛋白质结构预测方法。

本发明的有益效果为：根据种群更新的历史信息，通过轮盘赌的方法来选择变异策略指导变异，不仅能够提高采样效率，而且能够保持种群多样性；使用下界估计辅助构象选择，提高优化效率，同时缓解了能量函数不精确导致的预测误差问题，进而提高预测精度。

附图说明

图1是下界估计策略自适应蛋白质结构预测方法对蛋白质2LZMA采样得到的构象分布图。

图2是下界估计策略自适应蛋白质结构预测方法对蛋白质2LZMA采样时的构象更新示意图。

图3是下界估计策略自适应蛋白质结构预测方法对蛋白质2LZMA结构预测得到的三维结构。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种下界估计策略自适应蛋白质结构预测方法，所述预测方法包括以下步骤：

1)给定目标蛋白的序列信息；

第二种变异策略被选择的概率

第三种变异策略被选择的概率

第四种变异策略被选择的概率

g表示当前的代数，策略数量k，第g代第k种策略成功次数

k＝{1,2,3,4}，置迭代代数g＝0，斜率控制因子M；

6)对种群中的每个个体C_i进行如下操作：

6.1)将C_i设为目标个体

生成随机数pSelect，其中pSelect∈(0,1)；

6.2)若

则从种群中随机选出三个互不相同的个体C_a1、C_b1和C_c1，

6.3)若

对应位置的片段生成变异构象C_mutant，并把k置为2；

6.4)若

6.5)若

则从种群中随机选出两个互不相同的个体C_a4和C_b4，

分别从C_a4、C_b4中随机选择一个位置不同的3片段，分别替换

对应的位置片段生成变异构象C_mutant，并把k置为4；

6.6)对C_mutant进行一次片段组装生成新构象C_mutant′；

6.7)生成随机数pCR，其中pCR∈(0,1)，若pCR＜CR，则从

分别是X_near、X_trial第j维坐标；

6.10)如果

则C_trial替换

否则按照概率

以蒙特卡洛准则接收构象，若接收构象，则

6.11)若g>0，用公式(3)计算C_trial的下界估计UE_trial；

如果

则C_trial被拒绝，否则由公式(1)、(2)计算M，并且如果

则C_trial替换

否则按照概率

以蒙特卡洛准则接收构象，若接收构象，则

7)当g>0时，由公式(4)计算参数M^g,M^g表示第g代的M，

如果M^g<M^g-1,则M＝M^g；

8)当g>LP时，根据公式(5)更新变异策略选择的概率

k＝{1,2,3,4}，c是一个很小的常数：

9)g＝g+1，迭代运行步骤5)～9)，至g>G为止；

10)输出能量最低的构象为最终结果。

以序列长度为107的α蛋白2LZMA为实例，一种下界估计策略自适应蛋白质结构预测方法，包括以下步骤：

1)给定目标蛋白的序列信息；

3)设置参数：种群大小NP＝100，算法的最大迭代代数G＝1000，交叉因子CR＝0.5，温度因子β＝2，学习周期LP＝20，第一种变异策略被选择的概率

第二种变异策略被选择的概率

第三种变异策略被选择的概率

第四种变异策略被选择的概率

g表示当前的代数，策略数量k＝4，第g代第k种策略成功次数

k＝{1,2,3,4}，置迭代代数g＝0，斜率控制因子M＝0；

6)对种群中的每个个体C_i进行如下操作：

6.1)将C_i设为目标个体

生成随机数pSelect，其中pSelect∈(0,1)；

6.2)若

则从种群中随机选出三个互不相同的个体C_a1、C_b1和

6.3)若

对应位置的片段生成变异构象C_mutant，并把k置为2；

6.4)若

6.5)若

则从种群中随机选出两个互不相同的个体C_a4和C_b4，

分别从C_a4、C_b4中随机选择一个位置不同的3片段，分别替换

对应的位置片段生成变异构象C_mutant，并把k置为4；

6.6)对C_mutant进行一次片段组装生成新构象C_mutant′；

6.7)生成随机数pCR，其中pCR∈(0,1)，若pCR＜CR，则从

分别是X_near、X_trial第j维坐标；

6.10)如果

则C_trial替换

否则按照概率

以蒙特卡洛准则接收构象，若接收构象，则

6.11)若g>0，用公式(3)计算C_trial的下界估计UE_trial；

如果

则C_trial被拒绝，否则由公式(1)、(2)计算M，并且如果

则C_trial替换

否则按照概率

以蒙特卡洛准则接收构象，若接收构象，则

7)当g>0时，由公式(4)计算参数M^g,M^g表示第g代的M，

如果M^g<M^g-1,则M＝M^g；

8)当g>LP时，根据公式(5)更新变异策略选择的概率

k＝{1,2,3,4}，c是一个很小的常数：

9)g＝g+1，迭代运行步骤5)～9)，至g>G为止；

10)输出能量最低的构象为最终结果。

以序列长度为107的α蛋白质2LZMA为实施例，运用以上方法得到了该蛋白质的近天然态构象，运行1000代所得到的结构与天然态结构之间的平均均方根偏差为

最小均方根偏差为

预测得到的三维结构如图3所示。

以上阐述的是本发明给出的一个实例展现出来的结果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种下界估计策略自适应蛋白质结构预测方法，其特征在于：所述方法包括以下步骤：

1)给定目标蛋白的序列信息；

2)根据目标蛋白序列从ROBETTA服务器上得到片段库文件，其中包括3片段库文件和9片段库文件；

第二种变异策略被选择的概率

第三种变异策略被选择的概率

第四种变异策略被选择的概率

g表示当前的代数，策略数量k，第g代第k种策略成功次数

k＝{1,2,3,4}，置迭代代数g＝0，斜率控制因子M；

i＝{1,2，…,NP}，

6)对种群中的每个个体C_i进行如下操作：

6.1)将C_i设为目标个体

生成随机数pSelect，其中pSelect∈(0,1)；

6.2)若

则从种群中随机选出三个互不相同的个体C_a1、C_b1和C_c1，

6.3)若

对应位置的片段生成变异构象C_mutant，并把k置为2；

6.4)若

6.5)若

则从种群中随机选出两个互不相同的个体C_a4和C_b4，

分别从C_a4、C_b4中随机选择一个位置不同的3片段，分别替换

对应的位置片段生成变异构象C_mutant，并把k置为4；

6.6)对C_mutant进行一次片段组装生成新构象C_mutant′；

6.7)生成随机数pCR，其中pCR∈(0,1)，若pCR＜CR，则从

6.8)从种群中找出距离C_trial最近的个体C_near，将对应构象每个碳α原子的三维坐标组合成该构象的位置坐标，则C_trial和C_near的位置坐标分别为

分别是X_near、X_trial第j维坐标；

6.10)如果

则C_trial替换

否则按照概率

以蒙特卡洛准则接收构象，若接收构象，则

6.11)若g>0，用公式(3)计算C_trial的下界估计UE_trial；

如果

则C_trial被拒绝，否则由公式(1)、(2)计算M，并且如果

则C_trial替换

否则按照概率

以蒙特卡洛准则接收构象，若接收构象，则

7)当g>0时，由公式(4)计算参数M^g,M^g表示第g代的M，M_i ^g表示第g代计算出的M^g集合里第i个常量M，n为集合的大小，操作如下：

如果M^g<M^g-1,则M＝M^g；

8)当g>LP时，根据公式(5)更新变异策略选择的概率

k＝{1,2,3,4}，c是一个很小的常数：

9)g＝g+1，迭代运行步骤5)～9)，至g>G为止；

10)输出能量最低的构象为最终结果。