CN108846256A - 一种基于残基接触信息的群体蛋白质结构预测方法 - Google Patents

一种基于残基接触信息的群体蛋白质结构预测方法 Download PDF

Info

Publication number
CN108846256A
CN108846256A CN201810579186.9A CN201810579186A CN108846256A CN 108846256 A CN108846256 A CN 108846256A CN 201810579186 A CN201810579186 A CN 201810579186A CN 108846256 A CN108846256 A CN 108846256A
Authority
CN
China
Prior art keywords
conformation
energy
contact residues
residue
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810579186.9A
Other languages
English (en)
Other versions
CN108846256B (zh
Inventor
张贵军
彭春祥
刘俊
周晓根
王柳静
胡俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810579186.9A priority Critical patent/CN108846256B/zh
Publication of CN108846256A publication Critical patent/CN108846256A/zh
Application granted granted Critical
Publication of CN108846256B publication Critical patent/CN108846256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

一种基于残基接触信息的群体蛋白质结构预测方法,在进化算法框架下,首先,通过交换构象中的片段生成测试构象;其次,根据序列信息预测目标蛋白的残基接触信息,并设计残基接触能量函数对构象进行打分,通过残基接触能量来指导构象的选择过程,即如果测试构象的能量小于目标构象的能量,则直接接受测试构象,否则进一步比较残基接触能量,若测试构象的残基接触能量较小,则接受,否则以玻尔兹曼概率接受,从而引导算法采样得到能量更低且结构更合理的构象。通过残基接触能量为辅来指导构象选择,从而缓解能量函数不精确导致的预测误差问题。本发明提供一种预测精度较高的基于残基接触信息的群体蛋白质结构预测方法。

Description

一种基于残基接触信息的群体蛋白质结构预测方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于残基接触信息的群体蛋白质结构预测方法。
背景技术
生物细胞中有许多蛋白质(由20多种氨基酸所形成的长链),这些大分子在生物体中起着重要作用,对于完成生物功能至关重要。因此,蛋白质结构的确定是理解这些重要的生命基石的功能的基本步骤。虽然蛋白质由一个或多个氨基酸残基组成的长链条组成,但是,它们只有折叠形成特定的空间结构才能具有相应的活性和相应的生物学功能。因此,蛋白质结构的预测对新蛋白的设计、药物设计、蛋白质稳定性预测以及蛋白质之间的相互作用建模至关重要。
蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此,了解蛋白质的三维结构(天然态结构)是了解蛋白质的生物功能的关键。蛋白质三维结构可以通过核磁共振和X光晶体衍射等实验方法得到,然而这些实验测定方法不仅耗时而且极其昂贵,对于某些不易结晶的蛋白质来说不适用。因此,根据的Anfinsen的热力学假说(具有最低能量的构象被认为是天然态结构),很多计算算法被提出用于蛋白质结构预测。
通过计算技术进行蛋白结构预测通常用一个很复杂的能量函数来评估,其能量函数曲面通常具有成千上万的自由度和大量的局部最优解,构象搜索空间极大。为了进行构象空间搜索,从头预测方法通常首先根据基于知识的粗粒度能量模型获得构象空间的全局最小解,然后对其对应的构象进行精修,从而得到预测结构。因此,从头预测方法需要解决两个问题:1.建立合适的能量函数来评价构象的合理性;2.提出有效的构象空间搜索方法来搜索全局最优解。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白质结构对应的能量值。第二个因素本质上属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速搜索,得到与某一全局最小能量对应的构象。
差分进化算法(DE)由于其结构简单,易于实现,鲁棒性强和收敛速度快等优点已被成功应用于蛋白结构预测。然而,随着氨基酸序列的增长,蛋白质分子体系自由度也增大,利用传统群体算法采样获得大规模蛋白质构象空间的全局最优解成为一项挑战性的工作;其次,粗粒度模型虽然减小了构象搜索空间,但是也导致了相互作用力之间的信息丢失,从而直接影响预测精度。
因此,现有的蛋白质结构预测方法采样效率和预测精度方面存在不足,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法采样效率低、预测精度较低的不足,本发明在基本差分进化算法框架下,引入残基-残基接触信息来指导构象空间优化,提出一种采用效率高、预测精度高的基于残基接触信息的群体蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于残基接触信息的群体蛋白质结构预测方法,所述预测方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)根据目标蛋白序列,利用RaptorX-Contact服务器(http:// raptorx.uchicago.edu/ContactMap/)预测得到目标蛋白的残基-残基接触置信度;
4)设置参数:种群大小NP,算法的迭代次数G,交叉因子CR,温度因子β,置迭代代数g=0;
5)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
6)将种群中的每个构象个体Ci,i∈{1,2,3,…,NP}看作目标构象个体执行以下操作生成变异构象
6.1)在1到NP范围内随机生成正整数n1,n2,n3,且n1≠n2≠n3≠i;
6.2)在构象Cn1位置上随机选取一个9片段替换构象Cn3的相同位置所对应的片段,再从构象Cn2位置上随机的选取一个与构象Cn1选取位置不相同的9片段替换偶像Cn3的相同位置所对应的片段,然后用对构象Cn3进行片段组装生成变异构象个体
7)对每个变异构象i∈{1,2,3,…,NP}执行交叉操作生成测试构象
7.1)生成随机数rand1和rand2,其中rand1∈(0,1),rand2∈(1,L),其中L为序列长度;
7.2)若随机数rand1≤CR,变异构象的片段rand2替换为目标构象中对应位置的片段,否则变异构象不变;
8)对每个目标构象和测试构象进行选择操作;
8.1)用Rosetta score3能量函数分别计算的能量:
8.2)若则构象替换构象且转到步骤9),否则继续执行步骤8.3);
8.3)分别计算目标构象和测试构象中每个残基对的残基接触能量E(m,n):
其中,E(m,n)表示残基m和残基n之间的接触能量,权重Smn是残基m和残基n具有接触的置信度;dmn为残基m和残基n之间的Cα原子距离;
8.4)根据公式(2)分别计算构象的残基接触总能量
8.5)若大于则构象替换构象且转到步骤9),否则进行步骤8.6);
8.6)计算目标构象和测试构象的残基接触能量差按照概率以蒙特卡洛准则接受构象并转到步骤9),其中β为温度因子;
9)g=g+1,迭代运行步骤6)~8),至g>G为止;
10)输出结果。
本发明的技术构思为:在进化算法框架下,首先,通过交换构象中的片段生成测试构象;其次,根据序列信息预测目标蛋白的残基接触信息,并设计残基接触能量函数对构象进行打分,通过残基接触能量来指导构象的选择过程,即如果测试构象的能量小于目标构象的能量,则直接接受测试构象,否则进一步比较残基接触能量,若测试构象的残基接触能量较小,则接受,否则以玻尔兹曼概率接受,从而引导算法采样得到能量更低且结构更合理的构象。本发明提供一种预测精度较高的基于残基接触信息的群体蛋白质结构预测方法。
本发明的有益效果为:在进化算法框架下,通过残基接触能量为辅来指导构象选择,保证能量函数虽高但结构较合理的构象保留下来,从而缓解能量函数不精确导致的预测误差问题。
附图说明
图1是残基接触能量的曲线图。
图2是基于残基接触信息的群体蛋白质结构预测方法对蛋白质1GYZ采样得到的构象分布图。
图3是基于多样性指标的群体蛋白质构象空间优化方法对1GYZ蛋白结构预测得到的三维结构;
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于残基接触信息的群体蛋白质结构预测方法,所述预测方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)根据目标蛋白序列,利用RaptorX-Contact服务器(http:// raptorx.uchicago.edu/ContactMap/)预测得到目标蛋白的残基-残基接触置信度;
4)设置参数:种群大小NP,算法的迭代次数G,交叉因子CR,温度因子β,置迭代代数g=0;
5)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,…,NP};
6)将种群中的每个构象个体Ci,i∈{1,2,3,…,NP}看作目标构象个体执行以下操作生成变异构象
6.1)在1到NP范围内随机生成正整数n1,n2,n3,且n1≠n2≠n3≠i;
6.2)在构象Cn1位置上随机选取一个9片段替换构象Cn3的相同位置所对应的片段,再从构象Cn2位置上随机的选取一个与构象Cn1选取位置不相同的9片段替换偶像Cn3的相同位置所对应的片段,然后用对构象Cn3进行片段组装生成变异构象个体
7)对每个变异构象i∈{1,2,3,…,NP}执行交叉操作生成测试构象
7.1)生成随机数rand1和rand2,其中rand1∈(0,1),rand2∈(1,L),其中L为序列长度;
7.2)若随机数rand1≤CR,变异构象的片段rand2替换为目标构象中对应的片段,否则变异构象不变;
8)对每个目标构象和测试构象进行选择操作;
8.1)用Rosetta score3能量函数分别计算的能量:
8.2)若则构象替换构象且转到步骤9),否则继续执行步骤8.3);
8.3)分别计算目标构象和测试构象中每个残基对的残基接触能量E(m,n):
其中,E(m,n)表示残基m和残基n之间的接触能量,权重
Smn是残基m和残基n具有接触的置信度;dmn为残基m和残基n之间的Cα原子距离;
8.4)根据公式(2)分别计算构象的残基接触总能量
8.5)若大于则构象替换构象并转到步骤9),否则进行步骤8.6);
8.6)计算目标构象和测试构象的残基接触能量差按照概率以蒙特卡洛准则接受构象并转到步骤9),其中β为温度因子;
9)g=g+1,迭代运行步骤6)~8),至g>G为止;
10)输出结果。
以序列长度为60的蛋白质1GYZ为实施例,一种基于残基接触信息的群体蛋白质结构预测方法,其中包含以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)根据目标蛋白序列,利用RaptorX-Contact服务器(http:// raptorx.uchicago.edu/ContactMap/)预测得到目标蛋白的残基-残基接触置信度;
4)设置参数:种群大小NP=100,算法的迭代次数G=1000,交叉因子CR=0.1,温度因子β=2,置迭代代数g=0;
5)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,…,NP};
6)将种群中的每个构象个体Ci,i∈{1,2,3,…,NP}看作目标构象个体执行以下操作生成变异构象
6.1)在1到NP范围内随机生成正整数n1,n2,n3,且n1≠n2≠n3≠i;
6.2)在构象Cn1位置上随机选取一个9片段替换构象Cn3的相同位置所对应的片段,再从构象Cn2位置上随机的选取一个与构象Cn1选取位置不相同的9片段替换偶像Cn3的相同位置所对应的片段,然后用对构象Cn3进行片段组装生成变异构象个体
7)对每个变异构象i∈{1,2,3,…,NP}执行交叉操作生成测试构象
7.1)生成随机数rand1和rand2,其中rand1∈(0,1),rand2∈(1,L),其中L为序列长度;
7.2)若随机数rand1≤CR,变异构象的片段rand2替换为目标构象中对应的片段,否则变异构象不变;
8)对每个目标构象和测试构象进行选择操作;
8.1)用Rosetta score3能量函数分别计算的能量:
8.2)若则构象替换构象且转到步骤9),否则继续执行步骤8.3);
8.3)分别计算目标构象和测试构象中每个残基对的残基接触能量E(m,n):
其中,E(m,n)表示残基m和残基n之间的接触能量,权重Smn是残基m和残基n具有接触的置信度;dmn为残基m和残基n之间的Cα原子距离;
8.4)根据公式(2)分别计算构象的残基接触总能量
8.5)若大于则构象替换构象否则进行步骤8.6);
8.6)计算目标构象和测试构象的残基接触能量差按照概率以蒙特卡洛准则接受构象并转到步骤9),其中β为温度因子;
9)g=g+1,迭代运行步骤6)~8),至g>G为止;
10)输出结果。
以序列长度为60的蛋白质1GYZ为实施例,运用以上方法得到了该蛋白质的近天然态构象,运行1000代所得到的结构与天然态结构之间的平均均方根偏差为3.44,最小均方根偏差为1.98,预测得到的三维结构如图3所示。
以上阐述的是本发明给出的一个实例展现出来的结果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种基于残基接触信息的群体蛋白质结构预测方法,其特征在于:所述预测方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)根据目标蛋白序列,利用RaptorX-Contact服务器预测得到目标蛋白的残基-残基接触置信度;
4)设置参数:种群大小NP,算法的迭代次数G,交叉因子CR,温度因子β,置迭代代数g=0;
5)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
6)将种群中的每个构象个体Ci,i∈{1,2,3,…,NP}看作目标构象个体执行以下操作生成变异构象
6.1)在1到NP范围内随机生成正整数n1,n2,n3,且n1≠n2≠n3≠i;
6.2)在构象Cn1位置上随机选取一个9片段替换构象Cn3的相同位置所对应的片段,再从构象Cn2位置上随机的选取一个与构象Cn1选取位置不相同的9片段替换偶像Cn3的相同位置所对应的片段,然后用对构象Cn3进行片段组装生成变异构象个体
7)对每个变异构象i∈{1,2,3,…,NP}执行交叉操作生成测试构象
7.1)生成随机数rand1和rand2,其中rand1∈(0,1),rand2∈(1,L),其中L为序列长度;
7.2)若随机数rand1≤CR,变异构象的片段rand2替换为目标构象中对应位置的片段,否则变异构象不变;
8)对每个目标构象和测试构象进行选择操作;
8.1)用Rosetta score3能量函数分别计算的能量:
8.2)若则构象替换构象且转到步骤9),否则继续执行步骤8.3);
8.3)分别计算目标构象和测试构象中每个残基对的残基接触能量E(m,n):
其中,E(m,n)表示残基m和残基n之间的接触能量,权重Smn是残基m和残基n具有接触的置信度;dmn为残基m和残基n之间的Cα原子距离;
8.4)根据公式(2)分别计算构象的残基接触总能量
8.5)若大于则构象替换构象并转到步骤9),否则进行步骤8.6);
8.6)计算目标构象和测试构象的残基接触能量差按照概率以蒙特卡洛准则接受构象并转到步骤9),其中β为温度因子;
9)g=g+1,迭代运行步骤6)~8),至g>G为止;
10)输出结果。
CN201810579186.9A 2018-06-07 2018-06-07 一种基于残基接触信息的群体蛋白质结构预测方法 Active CN108846256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810579186.9A CN108846256B (zh) 2018-06-07 2018-06-07 一种基于残基接触信息的群体蛋白质结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810579186.9A CN108846256B (zh) 2018-06-07 2018-06-07 一种基于残基接触信息的群体蛋白质结构预测方法

Publications (2)

Publication Number Publication Date
CN108846256A true CN108846256A (zh) 2018-11-20
CN108846256B CN108846256B (zh) 2021-06-18

Family

ID=64211383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810579186.9A Active CN108846256B (zh) 2018-06-07 2018-06-07 一种基于残基接触信息的群体蛋白质结构预测方法

Country Status (1)

Country Link
CN (1) CN108846256B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109326321A (zh) * 2018-08-30 2019-02-12 浙江工业大学 一种基于抽象凸估计的k-近邻蛋白质结构预测方法
CN110148437A (zh) * 2019-04-16 2019-08-20 浙江工业大学 一种残基接触辅助策略自适应的蛋白质结构预测方法
CN111180004A (zh) * 2019-11-29 2020-05-19 浙江工业大学 一种多元接触信息的子种群策略蛋白质结构预测方法
CN111815036A (zh) * 2020-06-23 2020-10-23 浙江工业大学 一种基于多残基接触图协同约束的蛋白质结构预测方法
CN112085244A (zh) * 2020-07-21 2020-12-15 浙江工业大学 一种基于残基接触图的多目标优化蛋白质结构预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038351A (zh) * 2017-04-17 2017-08-11 为朔医学数据科技(北京)有限公司 一种系统性预测组学变异对药效影响的方法
US20170316147A1 (en) * 2014-10-27 2017-11-02 King Abdullah University Of Science And Technology Methods and systems for identifying ligand-protein binding sites
CN107729717A (zh) * 2017-11-03 2018-02-23 四川大学 一种计算机模拟获取g蛋白偶联受体中间态结构的方法
US20180068054A1 (en) * 2016-09-06 2018-03-08 University Of Washington Hyperstable Constrained Peptides and Their Design
CN108062457A (zh) * 2018-01-15 2018-05-22 浙江工业大学 一种结构特征向量辅助选择的蛋白质结构预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170316147A1 (en) * 2014-10-27 2017-11-02 King Abdullah University Of Science And Technology Methods and systems for identifying ligand-protein binding sites
US20180068054A1 (en) * 2016-09-06 2018-03-08 University Of Washington Hyperstable Constrained Peptides and Their Design
CN107038351A (zh) * 2017-04-17 2017-08-11 为朔医学数据科技(北京)有限公司 一种系统性预测组学变异对药效影响的方法
CN107729717A (zh) * 2017-11-03 2018-02-23 四川大学 一种计算机模拟获取g蛋白偶联受体中间态结构的方法
CN108062457A (zh) * 2018-01-15 2018-05-22 浙江工业大学 一种结构特征向量辅助选择的蛋白质结构预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YAO Y: ""Diverse effects of distance cutoff and residue interval on the performance of distance-dependent atom-pair potential in protein structure prediction"", 《BMC BIOINFORMATICS》 *
张海仓: ""蛋白质残基接触预测算法研究及其在三级结构预测上的应用"", 《计算机研究与发展》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109326321A (zh) * 2018-08-30 2019-02-12 浙江工业大学 一种基于抽象凸估计的k-近邻蛋白质结构预测方法
CN110148437A (zh) * 2019-04-16 2019-08-20 浙江工业大学 一种残基接触辅助策略自适应的蛋白质结构预测方法
CN111180004A (zh) * 2019-11-29 2020-05-19 浙江工业大学 一种多元接触信息的子种群策略蛋白质结构预测方法
CN111815036A (zh) * 2020-06-23 2020-10-23 浙江工业大学 一种基于多残基接触图协同约束的蛋白质结构预测方法
CN111815036B (zh) * 2020-06-23 2022-04-08 浙江工业大学 一种基于多残基接触图协同约束的蛋白质结构预测方法
CN112085244A (zh) * 2020-07-21 2020-12-15 浙江工业大学 一种基于残基接触图的多目标优化蛋白质结构预测方法

Also Published As

Publication number Publication date
CN108846256B (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN108846256A (zh) 一种基于残基接触信息的群体蛋白质结构预测方法
Afonine et al. Real-space refinement in PHENIX for cryo-EM and crystallography
CN105808973B (zh) 一种基于阶段性多策略的群体构象空间采样方法
CN105760710A (zh) 一种基于两阶段差分进化算法的蛋白质结构预测方法
CN104866733B (zh) 一种基于副本交换的群体构象空间优化方法
CN104933327B (zh) 一种局部增强的差分进化蛋白质构象空间搜索方法
CN103473482A (zh) 基于差分进化和构象空间退火的蛋白质三维结构预测方法
Villa et al. Adaptive landscape flattening in amino acid sequence space for the computational design of protein: peptide binding
CN106096326B (zh) 一种基于质心变异策略的差分进化蛋白质结构预测方法
Muntoni et al. Aligning biological sequences by exploiting residue conservation and coevolution
Huang et al. Protein structure prediction: challenges, advances, and the shift of research paradigms
CN109360599A (zh) 一种基于残基接触信息交叉策略的蛋白质结构预测方法
CN104951670A (zh) 一种基于距离谱的群体构象空间优化方法
CN109360601B (zh) 一种基于排挤策略的多模态蛋白质结构预测方法
Gao et al. Balanceali: multiple PPI network alignment with balanced high coverage and consistency
CN111180004B (zh) 一种多元接触信息的子种群策略蛋白质结构预测方法
Hao et al. A molecular phylogeny for all 21 families within Chiroptera (bats)
CN109509510B (zh) 一种基于多种群系综变异策略的蛋白质结构预测方法
CN108595910A (zh) 一种基于多样性指标的群体蛋白质构象空间优化方法
CN109360598A (zh) 一种基于两阶段采样的蛋白质结构预测方法
Ferrari et al. A grid-aware approach to protein structure comparison
CN109448786B (zh) 一种下界估计动态策略蛋白质结构预测方法
CN109243526B (zh) 一种基于特定片段交叉的蛋白质结构预测方法
Zhang et al. PocketGen: Generating Full-Atom Ligand-Binding Protein Pockets
Joo et al. Prediction of the secondary structures of proteins by using PREDICT, a nearest neighbor method on pattern space

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181120

Assignee: ZHEJIANG ORIENT GENE BIOTECH CO.,LTD.

Assignor: JIANG University OF TECHNOLOGY

Contract record no.: X2023980053610

Denomination of invention: A Population Protein Structure Prediction Method Based on Residual Contact Information

Granted publication date: 20210618

License type: Common License

Record date: 20231222

EE01 Entry into force of recordation of patent licensing contract