CN108846256A

CN108846256A - 一种基于残基接触信息的群体蛋白质结构预测方法

Info

Publication number: CN108846256A
Application number: CN201810579186.9A
Authority: CN
Inventors: 张贵军; 彭春祥; 刘俊; 周晓根; 王柳静; 胡俊
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2018-11-20
Anticipated expiration: 2038-06-07
Also published as: CN108846256B

Abstract

一种基于残基接触信息的群体蛋白质结构预测方法，在进化算法框架下，首先，通过交换构象中的片段生成测试构象；其次，根据序列信息预测目标蛋白的残基接触信息，并设计残基接触能量函数对构象进行打分，通过残基接触能量来指导构象的选择过程，即如果测试构象的能量小于目标构象的能量，则直接接受测试构象，否则进一步比较残基接触能量，若测试构象的残基接触能量较小，则接受，否则以玻尔兹曼概率接受，从而引导算法采样得到能量更低且结构更合理的构象。通过残基接触能量为辅来指导构象选择，从而缓解能量函数不精确导致的预测误差问题。本发明提供一种预测精度较高的基于残基接触信息的群体蛋白质结构预测方法。

Description

一种基于残基接触信息的群体蛋白质结构预测方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于残基接触信息的群体蛋白质结构预测方法。

背景技术

生物细胞中有许多蛋白质(由20多种氨基酸所形成的长链)，这些大分子在生物体中起着重要作用，对于完成生物功能至关重要。因此，蛋白质结构的确定是理解这些重要的生命基石的功能的基本步骤。虽然蛋白质由一个或多个氨基酸残基组成的长链条组成，但是，它们只有折叠形成特定的空间结构才能具有相应的活性和相应的生物学功能。因此，蛋白质结构的预测对新蛋白的设计、药物设计、蛋白质稳定性预测以及蛋白质之间的相互作用建模至关重要。

蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此，了解蛋白质的三维结构(天然态结构)是了解蛋白质的生物功能的关键。蛋白质三维结构可以通过核磁共振和X光晶体衍射等实验方法得到，然而这些实验测定方法不仅耗时而且极其昂贵，对于某些不易结晶的蛋白质来说不适用。因此，根据的Anfinsen的热力学假说(具有最低能量的构象被认为是天然态结构)，很多计算算法被提出用于蛋白质结构预测。

通过计算技术进行蛋白结构预测通常用一个很复杂的能量函数来评估，其能量函数曲面通常具有成千上万的自由度和大量的局部最优解，构象搜索空间极大。为了进行构象空间搜索，从头预测方法通常首先根据基于知识的粗粒度能量模型获得构象空间的全局最小解，然后对其对应的构象进行精修，从而得到预测结构。因此，从头预测方法需要解决两个问题：1.建立合适的能量函数来评价构象的合理性；2.提出有效的构象空间搜索方法来搜索全局最优解。第一个因素本质上属于分子力学问题，主要是为了能够计算得到每个蛋白质结构对应的能量值。第二个因素本质上属于全局优化问题，通过选择一种合适的优化方法，对构象空间进行快速搜索，得到与某一全局最小能量对应的构象。

差分进化算法(DE)由于其结构简单，易于实现，鲁棒性强和收敛速度快等优点已被成功应用于蛋白结构预测。然而，随着氨基酸序列的增长，蛋白质分子体系自由度也增大，利用传统群体算法采样获得大规模蛋白质构象空间的全局最优解成为一项挑战性的工作；其次，粗粒度模型虽然减小了构象搜索空间，但是也导致了相互作用力之间的信息丢失，从而直接影响预测精度。

因此，现有的蛋白质结构预测方法采样效率和预测精度方面存在不足，需要改进。

发明内容

为了克服现有的蛋白质结构预测方法采样效率低、预测精度较低的不足，本发明在基本差分进化算法框架下，引入残基-残基接触信息来指导构象空间优化，提出一种采用效率高、预测精度高的基于残基接触信息的群体蛋白质结构预测方法。

本发明解决其技术问题所采用的技术方案是：

一种基于残基接触信息的群体蛋白质结构预测方法，所述预测方法包括以下步骤：

1)给定目标蛋白的序列信息；

2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件，其中包括3片段库文件和9片段库文件；

3)根据目标蛋白序列，利用RaptorX-Contact服务器(http:// raptorx.uchicago.edu/ContactMap/)预测得到目标蛋白的残基-残基接触置信度；

4)设置参数：种群大小NP，算法的迭代次数G，交叉因子CR，温度因子β，置迭代代数g＝0；

5)种群初始化：随机片段组装生成NP个初始构象C_i，i＝{1,2，…,NP}；

6)将种群中的每个构象个体C_i,i∈{1,2,3,…,NP}看作目标构象个体执行以下操作生成变异构象

6.1)在1到NP范围内随机生成正整数n1,n2,n3，且n1≠n2≠n3≠i；

6.2)在构象C_n1位置上随机选取一个9片段替换构象C_n3的相同位置所对应的片段，再从构象C_n2位置上随机的选取一个与构象C_n1选取位置不相同的9片段替换偶像C_n3的相同位置所对应的片段，然后用对构象C_n3进行片段组装生成变异构象个体

7)对每个变异构象i∈{1,2,3,…,NP}执行交叉操作生成测试构象

7.1)生成随机数rand1和rand2，其中rand1∈(0,1)，rand2∈(1,L)，其中L为序列长度；

7.2)若随机数rand1≤CR，变异构象的片段rand2替换为目标构象中对应位置的片段，否则变异构象不变；

8)对每个目标构象和测试构象进行选择操作；

8.1)用Rosetta score3能量函数分别计算和的能量：和

8.2)若则构象替换构象且转到步骤9)，否则继续执行步骤8.3)；

8.3)分别计算目标构象和测试构象中每个残基对的残基接触能量E(m,n)：

其中，E(m,n)表示残基m和残基n之间的接触能量，权重S_mn是残基m和残基n具有接触的置信度；d_mn为残基m和残基n之间的C_α原子距离；

8.4)根据公式(2)分别计算构象和的残基接触总能量和

8.5)若大于则构象替换构象且转到步骤9)，否则进行步骤8.6)；

8.6)计算目标构象和测试构象的残基接触能量差按照概率以蒙特卡洛准则接受构象并转到步骤9)，其中β为温度因子；

9)g＝g+1，迭代运行步骤6)～8)，至g>G为止；

10)输出结果。

本发明的技术构思为：在进化算法框架下，首先，通过交换构象中的片段生成测试构象；其次，根据序列信息预测目标蛋白的残基接触信息，并设计残基接触能量函数对构象进行打分，通过残基接触能量来指导构象的选择过程，即如果测试构象的能量小于目标构象的能量，则直接接受测试构象，否则进一步比较残基接触能量，若测试构象的残基接触能量较小，则接受，否则以玻尔兹曼概率接受，从而引导算法采样得到能量更低且结构更合理的构象。本发明提供一种预测精度较高的基于残基接触信息的群体蛋白质结构预测方法。

本发明的有益效果为：在进化算法框架下，通过残基接触能量为辅来指导构象选择，保证能量函数虽高但结构较合理的构象保留下来，从而缓解能量函数不精确导致的预测误差问题。

附图说明

图1是残基接触能量的曲线图。

图2是基于残基接触信息的群体蛋白质结构预测方法对蛋白质1GYZ采样得到的构象分布图。

图3是基于多样性指标的群体蛋白质构象空间优化方法对1GYZ蛋白结构预测得到的三维结构；

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于残基接触信息的群体蛋白质结构预测方法，所述预测方法包括以下步骤：

1)给定目标蛋白的序列信息；

5)种群初始化：随机片段组装生成NP个初始构象C_i，i＝{1,…,NP}；

6)将种群中的每个构象个体C_i，i∈{1,2,3,…,NP}看作目标构象个体执行以下操作生成变异构象

6.1)在1到NP范围内随机生成正整数n1,n2,n3，且n1≠n2≠n3≠i；

7)对每个变异构象i∈{1,2,3,…,NP}执行交叉操作生成测试构象

7.2)若随机数rand1≤CR，变异构象的片段rand2替换为目标构象中对应的片段，否则变异构象不变；

8)对每个目标构象和测试构象进行选择操作；

8.1)用Rosetta score3能量函数分别计算和的能量：和

8.2)若则构象替换构象且转到步骤9)，否则继续执行步骤8.3)；

其中，E(m,n)表示残基m和残基n之间的接触能量，权重

S_mn是残基m和残基n具有接触的置信度；d_mn为残基m和残基n之间的C_α原子距离；

8.4)根据公式(2)分别计算构象和的残基接触总能量和

8.5)若大于则构象替换构象并转到步骤9)，否则进行步骤8.6)；

9)g＝g+1，迭代运行步骤6)～8)，至g>G为止；

10)输出结果。

以序列长度为60的蛋白质1GYZ为实施例，一种基于残基接触信息的群体蛋白质结构预测方法，其中包含以下步骤：

1)给定目标蛋白的序列信息；

4)设置参数：种群大小NP＝100，算法的迭代次数G＝1000，交叉因子CR＝0.1，温度因子β＝2，置迭代代数g＝0；

6.1)在1到NP范围内随机生成正整数n1,n2,n3，且n1≠n2≠n3≠i；

7)对每个变异构象i∈{1,2,3,…,NP}执行交叉操作生成测试构象

8)对每个目标构象和测试构象进行选择操作；

8.1)用Rosetta score3能量函数分别计算和的能量：和

8.2)若则构象替换构象且转到步骤9)，否则继续执行步骤8.3)；

8.4)根据公式(2)分别计算构象和的残基接触总能量和

8.5)若大于则构象替换构象否则进行步骤8.6)；

9)g＝g+1，迭代运行步骤6)～8)，至g>G为止；

10)输出结果。

以序列长度为60的蛋白质1GYZ为实施例，运用以上方法得到了该蛋白质的近天然态构象，运行1000代所得到的结构与天然态结构之间的平均均方根偏差为3.44，最小均方根偏差为1.98，预测得到的三维结构如图3所示。

以上阐述的是本发明给出的一个实例展现出来的结果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种基于残基接触信息的群体蛋白质结构预测方法，其特征在于：所述预测方法包括以下步骤：

1)给定目标蛋白的序列信息；

2)根据目标蛋白序列从ROBETTA服务器上得到片段库文件，其中包括3片段库文件和9片段库文件；

3)根据目标蛋白序列，利用RaptorX-Contact服务器预测得到目标蛋白的残基-残基接触置信度；

6.1)在1到NP范围内随机生成正整数n1,n2,n3，且n1≠n2≠n3≠i；

7)对每个变异构象i∈{1,2,3,…,NP}执行交叉操作生成测试构象

8)对每个目标构象和测试构象进行选择操作；

8.1)用Rosetta score3能量函数分别计算和的能量：和

8.2)若则构象替换构象且转到步骤9)，否则继续执行步骤8.3)；

8.4)根据公式(2)分别计算构象和的残基接触总能量和

8.5)若大于则构象替换构象并转到步骤9)，否则进行步骤8.6)；

9)g＝g+1，迭代运行步骤6)～8)，至g>G为止；

10)输出结果。