CN109461471A - 一种基于锦标赛机制的自适应蛋白质结构预测方法 - Google Patents

一种基于锦标赛机制的自适应蛋白质结构预测方法 Download PDF

Info

Publication number
CN109461471A
CN109461471A CN201811000668.0A CN201811000668A CN109461471A CN 109461471 A CN109461471 A CN 109461471A CN 201811000668 A CN201811000668 A CN 201811000668A CN 109461471 A CN109461471 A CN 109461471A
Authority
CN
China
Prior art keywords
conformation
population
individual
segment
random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811000668.0A
Other languages
English (en)
Other versions
CN109461471B (zh
Inventor
张贵军
彭春祥
刘俊
周晓根
王柳静
胡俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201811000668.0A priority Critical patent/CN109461471B/zh
Publication of CN109461471A publication Critical patent/CN109461471A/zh
Application granted granted Critical
Publication of CN109461471B publication Critical patent/CN109461471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于锦标赛机制的自适应蛋白质结构预测方法,在基本的进化算法框架下,首先,种群初始化,然后从构象池中等概率随机选择一个变异策略引导目标构象进行变异,交叉,其中交叉因子随代数线性递增;其次根据Rosetta能量函数score3以及蒙特卡洛概率接收准则对构象进行选择,来指导构象的更新过程,并且保存成功更新的信息,基于锦标赛机制的自适应蛋白质结构预测方法,不仅能够缓解能量函数不精确的问题,而且可以根据历史信息引导算法尽可能采样得到能量更低且结构更合理的构象,同时提高采样效率。本发明提供一种预测精度较高的基于锦标赛机制的自适应蛋白质结构预测方法。

Description

一种基于锦标赛机制的自适应蛋白质结构预测方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于锦标赛机制的自适应蛋白质结构预测方法。
背景技术
蛋白质结构预测是指从蛋白质的氨基酸序列中预测蛋白质的三维结构。蛋白质结构预测是生物信息学与理论化学所追求的最重要目标之一;它在医学上和生物技术上都是非常重要的。
蛋白质结构预测方法可以分为三种:同源建模法、从头预测方法和穿线法。同源建模法的理论依据是如果两个蛋白质的序列比较相似,则其结构也有很大可能比较相似。相关研究表明,如果序列相似性高于75%,则可以使用这种方法进行粗略的预测。这类方法优点是精确度高,缺点是只能处理和模板库中蛋白质序列相似性较高的情况。穿线法的原理是取出一条模板和查询序列比对,并将模板蛋白质与查询序列匹配上的残基的空间坐标赋给查询序列上相应的残基。从头预测法是根据热力学理论,即求蛋白质能量的最小状态。生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。
从头预测方法不依赖于已知结构,直接基于蛋白质物理或知识能量模型,利用优化算法在构象空间搜索全局最低能量构象解。构象空间优化方法是目前制约蛋白质结构从头预测精度关键的因素之一。优化算法应用于从头预测采样过程必须首先解决以下两个方面的问题:(1)能量的复杂性。(2)能量模型的不精确性。目前,我们还远远无法构建起能引导目标序列朝正确方向折叠的足够精确力场,导致数学上的最优解并不一定对应于目标蛋白的天然结构;此外,模型的不精确性也会导致无法对优化算法性能进行客观地分析。到目前还没有一种十分完善的方法来预测蛋白质的三维结构,即使获得了很好的预测结果,但也只是针对某些蛋白质而言的,目前主要的技术瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面在于构象更新方法,现有技术对构象的更新精度仍然不足。
因此,现有的蛋白质结构预测方法采样效率和预测精度方面存在不足,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法种群多样性差、预测精度较低的不足,本发明在基本差分进化算法框架下,引入策略自适应的方法来指导构象空间优化,提出一种采样效率好、预测精度高的基于锦标赛机制的自适应蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于锦标赛机制的自适应蛋白质结构预测方法,所述预测方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件;
3)设置参数:种群大小NP,算法的最大迭代代数G,交叉因子CR,温度因子β,置迭代代数g=0;
4)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
5)对种群中的每个个体Ci进行如下操作:
5.1)将Ci设为目标个体从以下变异策略池5.1.1)~5.1.5)中等概率的随机选择一个变异策略指导构象进行变异操作:
5.1.1)先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出两个互不相同的个体Ca、Cb分别从Ca和Cb中随机选择一个位置不同的9片段,分别替换Cbest对应位置的片段生成变异构象
5.1.2)从种群中随机选出三个互不相同的个体Ca、Cb和Cc分别从Cb、Cc中随机选择一个位置不同的9片段,分别替换Ca对应位置的片段生成变异构象
5.1.3)先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出两个互不相同的个体Ca、Cb分别从Ca、Cb和Cbest中随机选择一个位置不同的9片段,分别替换对应位置的片段生成变异构象
5.1.4)先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出四个互不相同的个体Ca、Cb、Cc和Cd分别从Cb、Cc、Cd、Cd和Cbest中随机选择一个位置不同的3片段,分别替换对应位置的片段生成变异构象
5.1.5)从种群中随机选出三个互不相同的个体Ca、Cb和Cc分别从Ca、Cb和Cc中随机选择一个位置不同的9片段,分别替换对应位置的片段生成变异构象
5.2)对生成的变异构象进行一次片三段组装生成新变异构象
5.3)生成随机数pCR,其中pCR∈(0,1),若pCR<CR,则从中随机选择一个3片段,替换到对应的位置的片段生成测试构象否则直接把记为
5.4)用Rosetta能量函数score3计算的能量 如果替换并将成功标志fi设置为1,否则fi=0;如果则按照概率以蒙特卡洛准则接收构象,若接收构象,则替换
6)对种群中的每个个体Ci进行如下操作:
6.1)如果目标构象的成功标志fi=1且g≠0,则按照在上一代的变异策略对其进行变异生成并且对进行一次三片段组装生成新变异构象执行步骤5.3)~5.4),如果测试构象不被接收,则进行步骤5.1)~5.4);
6.2)如果目标构象的成功标志fi=0或g=0,则进行步骤5.1)~5.4);
7)g=g+1,迭代运行步骤6)~7),至g>G为止;
8)输出能量最低的构象为最终结果。
本发明的技术构思为:在基本的进化算法框架下,首先,种群初始化,然后从构象池中等概率随机选择一个变异策略引导目标构象进行变异,交叉,其中交叉因子随代数线性递增;其次根据Rosetta能量函数score3以及蒙特卡洛概率接收准则对构象进行选择,来指导构象的更新过程,并且保存成功更新的信息,基于锦标赛机制的自适应蛋白质结构预测方法,不仅能够缓解能量函数不精确的问题,而且可以根据历史信息引导算法尽可能采样得到能量更低且结构更合理的构象,同时提高采样效率。本发明提供一种基于锦标赛机制的自适应蛋白质结构预测方法。
本发明的有益效果为:根据种群更新的信息,尽可能选择使构象成功更新的变异策略和相应的参数,不仅能够提高采样效率,而且能够保持种群多样性;使用蒙特卡洛概率接收准则辅助构象选择,缓解了能量函数不精确导致的预测误差问题,进而提高预测精度。
附图说明
图1是一种基于锦标赛机制的自适应蛋白质结构预测方法对蛋白质1ENH采样得到的构象分布图。
图2是一种基于锦标赛机制的自适应蛋白质结构预测方法对蛋白质1ENH采样时的构象更新示意图。
图3是一种基于锦标赛机制的自适应蛋白质结构预测方法对蛋白质1ENH结构预测得到的三维结构。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于锦标赛机制的自适应蛋白质结构预测方法,所述预测方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件;
3)设置参数:种群大小NP,算法的最大迭代代数G,交叉因子CR,温度因子β,置迭代代数g=0;
4)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
5)对种群中的每个个体Ci进行如下操作:
5.1)将Ci设为目标个体从以下变异策略池5.1.1)~5.1.5)中等概率的随机选择一个变异策略指导构象进行变异操作:
5.1.1)先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出两个互不相同的个体Ca、Cb分别从Ca和Cb中随机选择一个位置不同的9片段,分别替换Cbest对应位置的片段生成变异构象
5.1.2)从种群中随机选出三个互不相同的个体Ca、Cb和Cc分别从Cb、Cc中随机选择一个位置不同的9片段,分别替换Ca对应位置的片段生成变异构象
5.1.3)先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出两个互不相同的个体Ca、Cb分别从Ca、Cb和Cbest中随机选择一个位置不同的9片段,分别替换对应位置的片段生成变异构象
5.1.4)先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出四个互不相同的个体Ca、Cb、Cc和Cd分别从Cb、Cc、Cd、Cd和Cbest中随机选择一个位置不同的3片段,分别替换对应位置的片段生成变异构象
5.1.5)从种群中随机选出三个互不相同的个体Ca、Cb和Cc分别从Ca、Cb和Cc中随机选择一个位置不同的9片段,分别替换对应位置的片段生成变异构象
5.2)对生成的变异构象进行一次片三段组装生成新变异构象
5.3)生成随机数pCR,其中pCR∈(0,1),若pCR<CR,则从中随机选择一个3片段,替换到对应的位置的片段生成测试构象否则直接把记为
5.4)用Rosetta能量函数score3计算的能量 如果替换并将成功标志fi设置为1,否则fi=0;如果则按照概率以蒙特卡洛准则接收构象,若接收构象,则替换
6)对种群中的每个个体Ci进行如下操作:
6.1)如果目标构象的成功标志fi=1且g≠0,则按照在上一代的变异策略对其进行变异生成并且对进行一次三片段组装生成新变异构象执行步骤5.3)~5.4),如果测试构象不被接收,则进行步骤5.1)~5.4);
6.2)如果目标构象的成功标志fi=0或g=0,则进行步骤5.1)~5.4);
7)g=g+1,迭代运行步骤6)~7),至g>G为止;
8)输出能量最低的构象为最终结果。
以序列长度为54的α蛋白1ENH为实例,一种基于锦标赛机制的自适应蛋白质结构预测方法,包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件;
3)设置参数:种群大小NP=100,算法的最大迭代代数G=1000,交叉因子CR=0.1,温度因子β=2,置迭代代数g=0;
4)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
5)对种群中的每个个体Ci进行如下操作:
5.1)将Ci设为目标个体从以下变异策略池5.1.1)~5.1.5)中等概率的随机选择一个变异策略指导构象进行变异操作:
5.1.1)先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出两个互不相同的个体Ca、Cb分别从Ca和Cb中随机选择一个位置不同的9片段,分别替换Cbest对应位置的片段生成变异构象
5.1.2)从种群中随机选出三个互不相同的个体Ca、Cb和Cc分别从Cb、Cc中随机选择一个位置不同的9片段,分别替换Ca对应位置的片段生成变异构象
5.1.3)先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出两个互不相同的个体Ca、Cb分别从Ca、Cb和Cbest中随机选择一个位置不同的9片段,分别替换对应位置的片段生成变异构象
5.1.4)先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出四个互不相同的个体Ca、Cb、Cc和Cd分别从Cb、Cc、Cd、Cd和Cbest中随机选择一个位置不同的3片段,分别替换对应位置的片段生成变异构象
5.1.5)从种群中随机选出三个互不相同的个体Ca、Cb和Cc分别从Ca、Cb和Cc中随机选择一个位置不同的9片段,分别替换对应位置的片段生成变异构象
5.2)对生成的变异构象进行一次片三段组装生成新变异构象
5.3)生成随机数pCR,其中pCR∈(0,1),若pCR<CR,则从中随机选择一个3片段,替换到对应的位置的片段生成测试构象否则直接把记为
5.4)用Rosetta能量函数score3计算的能量 如果替换并将成功标志fi设置为1,否则fi=0;如果则按照概率以蒙特卡洛准则接收构象,若接收构象,则替换
6)对种群中的每个个体Ci进行如下操作:
6.1)如果目标构象的成功标志fi=1且g≠0,则按照在上一代的变异策略对其进行变异生成并且对进行一次三片段组装生成新变异构象执行步骤5.3)~5.4),如果测试构象不被接收,则进行步骤5.1)~5.4);
6.2)如果目标构象的成功标志fi=0或g=0,则进行步骤5.1)~5.4);
7)g=g+1,迭代运行步骤6)~7),至g>G为止;
8)输出能量最低的构象为最终结果。
以序列长度为54的α蛋白质1ENH为实施例,运用以上方法得到了该蛋白质的近天然态构象,运行1000代所得到的结构与天然态结构之间的平均均方根偏差为最小均方根偏差为预测得到的三维结构如图3所示。
以上阐述的是本发明给出的一个实例展现出来的结果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种基于锦标赛机制的自适应蛋白质结构预测方法,其特征在于,所述方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器上得到片段库文件;
3)设置参数:种群大小NP,算法的最大迭代代数G,交叉因子CR,温度因子β,置迭代代数g=0;
4)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
5)对种群中的每个个体Ci进行如下操作:
5.1)将Ci设为目标个体从以下变异策略池5.1.1)~5.1.5)中等概率的随机选择一个变异策略指导构象进行变异操作:
5.1.1)先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出两个互不相同的个体Ca、Cb分别从Ca和Cb中随机选择一个位置不同的9片段,分别替换Cbest对应位置的片段生成变异构象
5.1.2)从种群中随机选出三个互不相同的个体Ca、Cb和Cc分别从Cb、Cc中随机选择一个位置不同的9片段,分别替换Ca对应位置的片段生成变异构象
5.1.3)先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出两个互不相同的个体Ca、Cb分别从Ca、Cb和Cbest中随机选择一个位置不同的9片段,分别替换对应位置的片段生成变异构象
5.1.4)先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出四个互不相同的个体Ca、Cb、Cc和Cd分别从Cb、Cc、Cd、Cd和Cbest中随机选择一个位置不同的3片段,分别替换对应位置的片段生成变异构象
5.1.5)从种群中随机选出三个互不相同的个体Ca、Cb和Cc分别从Ca、Cb和Cc中随机选择一个位置不同的9片段,分别替换对应位置的片段生成变异构象
5.2)对生成的变异构象进行一次片三段组装生成新变异构象
5.3)生成随机数pCR,其中pCR∈(0,1),若pCR<CR,则从中随机选择一个3片段,替换到对应的位置的片段生成测试构象否则直接把记为
5.4)用Rosetta能量函数score3计算的能量 如果替换并将成功标志fi设置为1,否则fi=0;如果则按照概率以蒙特卡洛准则接收构象,若接收构象,则替换
6)对种群中的每个个体Ci进行如下操作:
6.1)如果目标构象的成功标志fi=1且g≠0,则按照在上一代的变异策略对其进行变异生成并且对进行一次三片段组装生成新变异构象执行步骤5.3)~5.4),如果测试构象不被接收,则进行步骤5.1)~5.4);
6.2)如果目标构象的成功标志fi=0或g=0,则进行步骤5.1)~5.4);
7)g=g+1,迭代运行步骤6)~7),至g>G为止;
8)输出能量最低的构象为最终结果。
CN201811000668.0A 2018-08-30 2018-08-30 一种基于锦标赛机制的自适应蛋白质结构预测方法 Active CN109461471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811000668.0A CN109461471B (zh) 2018-08-30 2018-08-30 一种基于锦标赛机制的自适应蛋白质结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811000668.0A CN109461471B (zh) 2018-08-30 2018-08-30 一种基于锦标赛机制的自适应蛋白质结构预测方法

Publications (2)

Publication Number Publication Date
CN109461471A true CN109461471A (zh) 2019-03-12
CN109461471B CN109461471B (zh) 2020-12-01

Family

ID=65606415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811000668.0A Active CN109461471B (zh) 2018-08-30 2018-08-30 一种基于锦标赛机制的自适应蛋白质结构预测方法

Country Status (1)

Country Link
CN (1) CN109461471B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111447627A (zh) * 2020-03-16 2020-07-24 浙江邮电职业技术学院 一种基于差异进化遗传算法的wsn节点定位方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808973A (zh) * 2016-03-03 2016-07-27 浙江工业大学 一种基于阶段性多策略的群体构象空间采样方法
CN106778059A (zh) * 2016-12-19 2017-05-31 浙江工业大学 一种基于Rosetta局部增强的群体蛋白质结构预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808973A (zh) * 2016-03-03 2016-07-27 浙江工业大学 一种基于阶段性多策略的群体构象空间采样方法
CN106778059A (zh) * 2016-12-19 2017-05-31 浙江工业大学 一种基于Rosetta局部增强的群体蛋白质结构预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOHU HAO 等: ""Guiding exploration in conformational feature space with Lipschitz underestimation for ab-initio protein structure prediction"", 《COMPUTATIONAL BIOLOGY AND CHEMISTRY》 *
郝小虎 等: ""一种基于片段组装的蛋白质构象空间优化算法"", 《计算机科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111447627A (zh) * 2020-03-16 2020-07-24 浙江邮电职业技术学院 一种基于差异进化遗传算法的wsn节点定位方法
CN111447627B (zh) * 2020-03-16 2023-04-18 浙江邮电职业技术学院 一种基于差异进化遗传算法的wsn节点定位方法

Also Published As

Publication number Publication date
CN109461471B (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN107633159B (zh) 一种基于距离相似度的蛋白质构象空间搜索方法
CN109448784B (zh) 一种基于二面角信息辅助能量函数选择的蛋白质结构预测方法
CN109086566B (zh) 一种基于片段重采样的群体蛋白质结构预测方法
CN105808973B (zh) 一种基于阶段性多策略的群体构象空间采样方法
CN103473482A (zh) 基于差分进化和构象空间退火的蛋白质三维结构预测方法
CN110148437A (zh) 一种残基接触辅助策略自适应的蛋白质结构预测方法
CN106096326B (zh) 一种基于质心变异策略的差分进化蛋白质结构预测方法
CN109215732A (zh) 一种基于残基接触信息自学习的蛋白质结构预测方法
CN109461471A (zh) 一种基于锦标赛机制的自适应蛋白质结构预测方法
CN109033753B (zh) 一种基于二级结构片段组装的群体蛋白质结构预测方法
CN109360597B (zh) 一种基于全局和局部策略协作的群体蛋白质结构预测方法
CN109300506B (zh) 一种基于特定距离约束的蛋白质结构预测方法
CN108920894B (zh) 一种基于简约抽象凸估计的蛋白质构象空间优化方法
CN109378034B (zh) 一种基于距离分布估计的蛋白质预测方法
CN109346128B (zh) 一种基于残基信息动态选择策略的蛋白质结构预测方法
CN108763860B (zh) 一种基于Loop信息采样的群体蛋白质构象空间优化方法
CN109346126A (zh) 一种下界估计策略自适应蛋白质结构预测方法
Gilchrist et al. Multiple Protein Structure Alignment at Scale with FoldMason
CN109326318B (zh) 一种基于Loop区域高斯扰动的群体蛋白质结构预测方法
Oakley et al. Search strategies in structural bioinformatics
CN109448785B (zh) 一种使用拉氏图增强Loop区域结构的蛋白质结构预测方法
CN109509510A (zh) 一种基于多种群系综变异策略的蛋白质结构预测方法
CN112967751A (zh) 一种基于进化搜索的蛋白质构象空间优化方法
CN109390035B (zh) 一种基于局部结构比对的蛋白质构象空间优化方法
CN109243526B (zh) 一种基于特定片段交叉的蛋白质结构预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant