CN109033744B

CN109033744B - 一种基于残基距离和接触信息的蛋白质结构预测方法

Info

Publication number: CN109033744B
Application number: CN201810631706.6A
Authority: CN
Inventors: 张贵军; 彭春祥; 刘俊; 周晓根; 王柳静; 胡俊
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-06-19
Filing date: 2018-06-19
Publication date: 2021-08-03
Anticipated expiration: 2038-06-19
Also published as: CN109033744A

Abstract

一种基于残基距离和接触信息的蛋白质结构预测方法，在Rosetta的基本框架下，引入表示空间中各个位置上残基的相互距离的距离谱和残基接触信息来提高能量函数的精度。首先初始化构象，用Rosetta第一阶段的片段组装技术生成初始种群，并在初始种群中分别对每个构象用Rosetta第二阶段的片段组装来生成新构象；然后根据设计的残基距离谱和接触信息能量函数来指导构象选择，从而更新种群；最后，按上述步骤分别进行Rosetta第三阶段和第四阶段，从而得到最终预测结果。通过残基距离和接触信息为辅来指导构象选择，从而缓解能量函数不精确导致的预测误差问题。本发明预测精度较高。

Description

一种基于残基距离和接触信息的蛋白质结构预测方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于残基距离和接触信息的蛋白质结构预测方法。

背景技术

生物信息学是生命科学和计算机科学交叉领域的一个研究热点。生物信息学研究成果目前已经被广泛应用于基因发现和预测、基因数据的存储管理、数据检索与挖掘、基因表达数据分析、蛋白质结构预测、基因和蛋白质同源关系预测、序列分析与比对等。在生物体中，基因序列按照中心法则翻译成氨基酸序列，氨基酸序列在空间折叠成一定结构蛋白质的合成，蛋白质的空间结构比其氨基酸序列更保守，而蛋白质的功能与其空间结构有着密切的关系。所以，掌握蛋白质的结构信息对于研究蛋白质的功能及作用机制具有重要意义。然而蛋白质结构的测定远远赶不上基因组测序速度、X射线晶体学方法和多维核磁共振技术是目前测定蛋白质结构的主要方法。用X射线晶体学方法测定蛋白质结构的前提是必须获得能对X射线产生强衍射作用的晶体，而蛋白质晶体的表达、提纯与结晶增加了结构测定的难度，多维核磁共振技术避免了这些困难，而且能够测定蛋白质的溶液结构，但仅适用于小蛋白。所以，根据蛋白质序列用计算机来预测蛋白质结构就显得很有必要。

目前，根据Anfinsen假设，直接从氨基酸序列出发，基于势能模型，采用全局优化方法，搜索分子系统的最小能量状态，从而高通量、廉价地预测肽链的天然构象，已经成为生物信息学最重要的研究课题之一。对于序列相似度低或多肽(<10个残基的小蛋白)来说，从头预测方法是唯一的选择。从头预测方法必须考虑以下两个因素：(1)构象空间搜索方法；(2)蛋白质结构能量函数。第一个因素本质上属于全局优化问题，通过选择一种合适的优化方法，对构象空间进行快速搜索，得到与某一全局最小能量对应的构象。第二个因素本质上属于分子力学问题，主要是为了能够计算得到每个蛋白质结构对应的能量值。其中，能量函数值的不精确是导致蛋白质从头预测方法精度问题的关键一环，不精确的能量函数会导致搜索过程中结构合理的构象丢失，从而影响预测精度。

因此，现有的蛋白质结构预测方法在预测精度存在不足，需要改进。

发明内容

为了克服现有的蛋白质结构预测方法在预测精度方面的不足，本发明利用残基-残基距离和接触信息缓解能量函数的不精确问题，提供一种预测精度较高的基于残基距离和接触信息的蛋白质结构预测方法。

本发明解决其技术问题所采用的技术方案是：

一种基于残基距离和接触信息的蛋白质结构预测方法，所述方法包括以下步骤：

1)读取目标蛋白的氨基酸序列；

2)根据目标蛋白序列，分别利用RaptorX-Contact服务器(http://raptorx.uchicago.edu/ContactMap/)和NeBcon服务器(https://zhanglab.ccmb.med.umich.edu/NeBcon/)预测得到目标蛋白的残基-残基接触置信度，分别记为

和

其中，i≠j，i和j均属于{1,2,3,4…,rsd}，

表示RaptorX-Contact服务器得到的第i个残基和第j个残基接触的置信度，

表示NeBcon服务器得到的第i个残基和第j个残基接触的置信度，rsd为氨基酸序列长度；

3)根据目标蛋白序列，利用QUARK服务器(https://zhanglab.ccmb.med.umich.edu/QUARK/)预测得到蛋白质的距离谱；

4)设置参数：种群大小NP，算法的迭代次数G，能量权衡因子α，置迭代次数g＝0；

5)种群初始化：利用Rosetta第一阶段的片段组装方法生成NP个初始构象C_k,k＝{1,2,…,NP}；

6)把初始种群中的每个构象个体C_k,k＝{1,2,…,NP}看做目标构象个体

对每个目标构象个体执行Rosetta第二阶段的片段组装操作生成新构象

7)对每个目标构象个体

和新构象

进行选择操作，过程如下：

7.1)用Rosetta score1能量函数分别计算

和

的能量：

和

7.2)分别计算目标构象

和新构象

中有距离谱的残基对的距离能量E_k(i,j)：

其中，i和j是距离谱中有统计距离谱对的残基号,D_k(i,j)为构象k中残基i和j的之间的C_α原子距离，dp_(i,j)是距离谱中残基i和残基j的距离；

7.3)根据公式(2)分别计算构象

和

的距离总能量

其中，

表示第k个构象的距离总能量，dpn为具有距离谱的残基对的数量，其中，E_k(n)为根据公式(1)计算得到构象k的第n个具有距离普的残基对的距离能量；

7.4)分别根据公式(3)和(4)计算构象

和

的总能量

和

7.5)如果

大于

则

替换

否则

不变；

7.6)执行步骤7.1)～7.5)直至对种群中的每一个个体都完成一次选择，进入步骤8)；

8)执行步骤6)～7)，其中score1函数换成Rosetta第三阶段的score2函数；

9)执行步骤6)～7)，其中score1函数换成Rosetta第四阶段的score3函数；

10)g＝g+1，迭代运行步骤9)，至g>G为止；

11)输出结果。

本发明的技术构思为：在Rosetta的基本框架下，引入表示空间中各个位置上残基的相互距离的距离谱和残基-残基接触信息来提高能量函数的精度，距离谱根据查询序列中残基和模板中残基的序列谱、二级结构类型、溶剂可及性、中心原子二面角等构建得到。首先初始化构象，用Rosetta第一阶段的片段组装技术生成初始种群，并在初始种群中分别对每个构象用Rosetta第二阶段的片段组装来生成新构象；然后根据设计的残基距离谱和接触信息能量函数来指导构象选择，从而更新种群；最后，按上述步骤分别进行Rosetta第三阶段和第四阶段得到预测结构。

本发明的有益效果为：在Rosetta算法框架上加入了基于残基距离和接触信息的蛋白质结构预测方法，产生了更多结构较好的构象；在Rosetta每个阶段分别利用残基距离和接触信息以及能量函数对构象进行筛选，从而缓解了能量函数不精确带来的预测误差；

附图说明

图1是基于残基距离和接触信息的蛋白质结构预测方法对蛋白质4ICB采样得到的构象比例与均方根偏差分布图。

图2是基于残基距离和接触信息的蛋白质结构预测方法对蛋白质4ICB采样得到的构象分布图。

图3是基于残基距离和接触信息的蛋白质结构预测方法对4ICB蛋白结构预测得到的三维结构；

具体实施方式：

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于残基距离和接触信息的蛋白质结构预测方法，所述方法包括以下步骤：

1)读取目标蛋白的氨基酸序列；

和

其中，i≠j，i和j均属于{1,2,3,4…,rsd}，

7)对每个目标构象个体

和新构象

进行选择操作，过程如下：

7.1)用Rosetta score1能量函数分别计算

和

的能量：

和

7.2)分别计算目标构象

和新构象

中有距离谱的残基对的距离能量E_k(i,j)：

7.3)根据公式(2)分别计算构象

和

的距离总能量

其中，

7.4)分别根据公式(3)和(4)计算构象

和

的总能量

和

7.5)如果

大于

则

替换

否则

不变；

10)g＝g+1，迭代运行步骤9)，至g>G为止；

11)输出结果。

以序列长度为76的蛋白质4ICB为实施例，一种基于残基距离和接触信息的蛋白质结构预测方法，包括以下步骤：

1)读取目标蛋白的氨基酸序列；

和

其中，i≠j，i和j均属于{1,2,3,4…,rsd}，

4)设置参数：种群大小NP＝100，算法的迭代次数G＝100，能量权衡因子α＝0.5，置迭代次数g＝0；

7)对每个目标构象个体

和新构象

进行选择操作，过程如下：

7.1)用Rosetta score1能量函数分别计算

和

的能量：

和

7.2)分别计算目标构象

和新构象

中有距离谱的残基对的距离能量E_k(i,j)：

7.3)根据公式(2)分别计算构象

和

的距离总能量

其中，

7.4)分别根据公式(3)和(4)计算构象

和

的总能量

和

7.5)如果

大于

则

替换

否则

不变；

10)g＝g+1，迭代运行步骤9)，至g>G为止；

11)输出结果。

以序列长度为76的蛋白质4ICB为实施例，运用以上方法得到了该蛋白质的近天然态构象，最小均方根偏差RMSD为

预测得到的三维结构如图3所示。

以上阐述的是本发明给出的一个实施例表现出来的优良预测效果，显然本发明不仅适合上述实施例，而且可以应用到实际工程中的各个领域，同时在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。