CN109346126B - 一种下界估计策略自适应蛋白质结构预测方法 - Google Patents
一种下界估计策略自适应蛋白质结构预测方法 Download PDFInfo
- Publication number
- CN109346126B CN109346126B CN201810994673.1A CN201810994673A CN109346126B CN 109346126 B CN109346126 B CN 109346126B CN 201810994673 A CN201810994673 A CN 201810994673A CN 109346126 B CN109346126 B CN 109346126B
- Authority
- CN
- China
- Prior art keywords
- conformation
- trial
- population
- mutant
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
一种下界估计策略自适应蛋白质结构预测方法,在进化算法框架下,首先,种群初始化,根据轮盘赌的方法选择不同的策略对构象进行变异,交叉;其次根据下界估计函数,Rosetta能量函数score3、以及蒙特卡洛概率接收准则对构象进行选择,来指导构象的更新过程,根据构象更新的历史信息动态更新策略选择概率,下界估计策略自适应蛋白质结构预测方法不仅能够缓解能量函数不精确的问题,而且可以根据历史信息引导算法采样得到能量更低且结构更合理的构象,同时提高采样效率。本发明提供一种采样效率和预测精度都较高的下界估计策略自适应蛋白质结构预测方法。
Description
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种下界估计策略自适应蛋白质结构预测方法。
背景技术
计算机硬件和软件技术的快速发展,为从头预测方法的发展提供了结实的基础平台条件。2012年《Science》杂志发表的一篇综述文章中,美国科学院院士Dill教授回顾了50年来从头预测领域取得的进展,并指出在寻求这一问题答案的过程中,极大推动了超级计算机、新材料和药物发现的发展,帮助人们理解生命的基本过程。从头预测方法目前还面临着诸多困难和挑战。
从头预测方法直接基于蛋白质物理或知识能量模型,利用优化算法在构象空间搜索全局最低能量构象解。构象空间优化方法是目前制约蛋白质结构从头预测精度关键的因素之一。优化算法应用于从头预测采样过程必须首先解决以下三个方面的问题:(1)能量的复杂性。(2)能量模型的高维特性。(3)能量模型的不精确性。目前,我们还远远无法构建起能引导目标序列朝正确方向折叠的足够精确力场,导致数学上的最优解并不一定对应于目标蛋白的天然结构;此外,模型的不精确性也会导致无法对优化算法性能进行客观地分析。
蛋白质构象空间优化的本质复杂性,使其成为蛋白质结构从头预测领域中一个极具挑战性的研究课题。为了能够利用计算机在巨大的采样空间中发现唯一的蛋白质天然结构,就必须设计高效的构象空间优化算法将其转化为可实际操作的计算问题。
差分进化算法(DE)由于其结构简单,易于实现,鲁棒性强和收敛速度快等优点已被成功应用于蛋白结构预测。然而,随着氨基酸序列的增长,蛋白质分子体系自由度也增大,利用传统群体算法采样获得大规模蛋白质构象空间的全局最优解成为一项挑战性的工作。
因此,现有的蛋白质结构预测方法采样效率和预测精度方面存在不足,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法采样效率低、种群多样性差、预测精度较低的不足,本发明在基本差分进化算法框架下,引入策略自适应的方法来指导构象空间优化,提出一种采样效率高、预测精度高的下界估计策略自适应蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种下界估计策略自适应蛋白质结构预测方法,所述预测方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)设置参数:种群大小NP,算法的最大迭代代数G,交叉因子CR,温度因子β,学习周期LP,第一种变异策略被选择的概率第二种变异策略被选择的概率第三种变异策略被选择的概率第四种变异策略被选择的概率g表示当前的代数,策略数量k,第g代第k种策略成功次数k={1,2,3,4},置迭代代数g=0,斜率控制因子M;
4)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
6)对种群中的每个个体Ci进行如下操作:
6.3)若则先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出两个互不相同的个体Ca2、Cb2,分别从Ca2、Cb2和Cbest中随机选择一个位置不同的3片段,分别替换对应位置的片段生成变异构象Cmutant,并把k置为2;
6.4)若则从种群中随机选出四个互不相同的个体Ca3、Cb3、Cc3和Cd3,分别从Cb3、Cc3、Cd3中随机选择一个位置不同的3片段,分别替换Ca3对应位置的片段生成变异构象Cmutant,并把k置为3;
6.6)对Cmutant进行一次片段组装生成新构象Cmutant′;
6.7)生成随机数pCR,其中pCR∈(0,1),若pCR<CR,则从中随机选择一个3片段,替换到Cmutant′对应的位置的片段生成测试构象Ctrial,否则直接把Cmutant′记为Ctrial;
6.9)若g=0,则用Rosetta score3能量函数计算Ctrial、Cnear的能量score3(Ctrial)、score3(Cnear),用公式(1)、(2)计算M和Mi,Mi表示由第i个构象计算出的斜率控制因子,分别是Xnear、Xtrial第j维坐标;
6.11)若g>0,用公式(3)计算Ctrial的下界估计UEtrial;
如果Mg<Mg-1,则M=Mg;
9)g=g+1,迭代运行步骤5)~9),至g>G为止;
10)输出能量最低的构象为最终结果。
本发明的技术构思为:在进化算法框架下,首先,种群初始化,根据轮盘赌的方法选择不同的策略对构象进行变异,交叉;其次根据下界估计函数,Rosetta能量函数score3、以及蒙特卡洛概率接收准则对构象进行选择,来指导构象的更新过程,根据构象更新的历史信息动态更新策略选择概率,下界估计策略自适应蛋白质结构预测方法不仅能够缓解能量函数不精确的问题,而且可以根据历史信息引导算法采样得到能量更低且结构更合理的构象,同时提高采样效率。本发明提供一种下界估计策略自适应蛋白质结构预测方法。
本发明的有益效果为:根据种群更新的历史信息,通过轮盘赌的方法来选择变异策略指导变异,不仅能够提高采样效率,而且能够保持种群多样性;使用下界估计辅助构象选择,提高优化效率,同时缓解了能量函数不精确导致的预测误差问题,进而提高预测精度。
附图说明
图1是下界估计策略自适应蛋白质结构预测方法对蛋白质2LZMA采样得到的构象分布图。
图2是下界估计策略自适应蛋白质结构预测方法对蛋白质2LZMA采样时的构象更新示意图。
图3是下界估计策略自适应蛋白质结构预测方法对蛋白质2LZMA结构预测得到的三维结构。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种下界估计策略自适应蛋白质结构预测方法,所述预测方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)设置参数:种群大小NP,算法的最大迭代代数G,交叉因子CR,温度因子β,学习周期LP,第一种变异策略被选择的概率第二种变异策略被选择的概率第三种变异策略被选择的概率第四种变异策略被选择的概率g表示当前的代数,策略数量k,第g代第k种策略成功次数k={1,2,3,4},置迭代代数g=0,斜率控制因子M;
4)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
6)对种群中的每个个体Ci进行如下操作:
6.3)若则先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出两个互不相同的个体Ca2、Cb2,分别从Ca2、Cb2和Cbest中随机选择一个位置不同的3片段,分别替换对应位置的片段生成变异构象Cmutant,并把k置为2;
6.4)若则从种群中随机选出四个互不相同的个体Ca3、Cb3、Cc3和Cd3,分别从Cb3、Cc3、Cd3中随机选择一个位置不同的3片段,分别替换Ca3对应位置的片段生成变异构象Cmutant,并把k置为3;
6.6)对Cmutant进行一次片段组装生成新构象Cmutant′;
6.7)生成随机数pCR,其中pCR∈(0,1),若pCR<CR,则从中随机选择一个3片段,替换到Cmutant′对应的位置的片段生成测试构象Ctrial,否则直接把Cmutant′记为Ctrial;
6.9)若g=0,则用Rosetta score3能量函数计算Ctrial、Cnear的能量score3(Ctrial)、score3(Cnear),用公式(1)、(2)计算M和Mi,Mi表示由第i个构象计算出的斜率控制因子,分别是Xnear、Xtrial第j维坐标;
6.11)若g>0,用公式(3)计算Ctrial的下界估计UEtrial;
如果Mg<Mg-1,则M=Mg;
9)g=g+1,迭代运行步骤5)~9),至g>G为止;
10)输出能量最低的构象为最终结果。
以序列长度为107的α蛋白2LZMA为实例,一种下界估计策略自适应蛋白质结构预测方法,包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)设置参数:种群大小NP=100,算法的最大迭代代数G=1000,交叉因子CR=0.5,温度因子β=2,学习周期LP=20,第一种变异策略被选择的概率第二种变异策略被选择的概率第三种变异策略被选择的概率第四种变异策略被选择的概率g表示当前的代数,策略数量k=4,第g代第k种策略成功次数k={1,2,3,4},置迭代代数g=0,斜率控制因子M=0;
4)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
6)对种群中的每个个体Ci进行如下操作:
6.3)若则先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出两个互不相同的个体Ca2、Cb2,分别从Ca2、Cb2和Cbest中随机选择一个位置不同的3片段,分别替换对应位置的片段生成变异构象Cmutant,并把k置为2;
6.4)若则从种群中随机选出四个互不相同的个体Ca3、Cb3、Cc3和Cd3,分别从Cb3、Cc3、Cd3中随机选择一个位置不同的3片段,分别替换Ca3对应位置的片段生成变异构象Cmutant,并把k置为3;
6.6)对Cmutant进行一次片段组装生成新构象Cmutant′;
6.7)生成随机数pCR,其中pCR∈(0,1),若pCR<CR,则从中随机选择一个3片段,替换到Cmutant′对应的位置的片段生成测试构象Ctrial,否则直接把Cmutant′记为Ctrial;
6.9)若g=0,则用Rosetta score3能量函数计算Ctrial、Cnear的能量score3(Ctrial)、score3(Cnear),用公式(1)、(2)计算M和Mi,Mi表示由第i个构象计算出的斜率控制因子,分别是Xnear、Xtrial第j维坐标;
6.11)若g>0,用公式(3)计算Ctrial的下界估计UEtrial;
如果Mg<Mg-1,则M=Mg;
9)g=g+1,迭代运行步骤5)~9),至g>G为止;
10)输出能量最低的构象为最终结果。
以上阐述的是本发明给出的一个实例展现出来的结果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。
Claims (1)
1.一种下界估计策略自适应蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)设置参数:种群大小NP,算法的最大迭代代数G,交叉因子CR,温度因子β,学习周期LP,第一种变异策略被选择的概率第二种变异策略被选择的概率第三种变异策略被选择的概率第四种变异策略被选择的概率g表示当前的代数,策略数量k,第g代第k种策略成功次数k={1,2,3,4},置迭代代数g=0,斜率控制因子M;
4)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
6)对种群中的每个个体Ci进行如下操作:
6.3)若则先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出两个互不相同的个体Ca2、Cb2,分别从Ca2、Cb2和Cbest中随机选择一个位置不同的3片段,分别替换对应位置的片段生成变异构象Cmutant,并把k置为2;
6.4)若则从种群中随机选出四个互不相同的个体Ca3、Cb3、Cc3和Cd3,分别从Cb3、Cc3、Cd3中随机选择一个位置不同的3片段,分别替换Ca3对应位置的片段生成变异构象Cmutant,并把k置为3;
6.6)对Cmutant进行一次片段组装生成新构象Cmutant′;
6.7)生成随机数pCR,其中pCR∈(0,1),若pCR<CR,则从中随机选择一个3片段,替换到Cmutant′对应的位置的片段生成测试构象Ctrial,否则直接把Cmutant′记为Ctrial;
6.8)从种群中找出距离Ctrial最近的个体Cnear,将对应构象每个碳α原子的三维坐标组合成该构象的位置坐标,则Ctrial和Cnear的位置坐标分别为
6.9)若g=0,则用Rosetta score3能量函数计算Ctrial、Cnear的能量score3(Ctrial)、score3(Cnear),用公式(1)、(2)计算M和Mi,Mi表示由第i个构象计算出的斜率控制因子,分别是Xnear、Xtrial第j维坐标;
6.11)若g>0,用公式(3)计算Ctrial的下界估计UEtrial;
7)当g>0时,由公式(4)计算参数Mg,Mg表示第g代的M,Mi g表示第g代计算出的Mg集合里第i个常量M,n为集合的大小,操作如下:
如果Mg<Mg-1,则M=Mg;
9)g=g+1,迭代运行步骤5)~9),至g>G为止;
10)输出能量最低的构象为最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810994673.1A CN109346126B (zh) | 2018-08-29 | 2018-08-29 | 一种下界估计策略自适应蛋白质结构预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810994673.1A CN109346126B (zh) | 2018-08-29 | 2018-08-29 | 一种下界估计策略自适应蛋白质结构预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109346126A CN109346126A (zh) | 2019-02-15 |
CN109346126B true CN109346126B (zh) | 2020-10-30 |
Family
ID=65292252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810994673.1A Active CN109346126B (zh) | 2018-08-29 | 2018-08-29 | 一种下界估计策略自适应蛋白质结构预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109346126B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148437B (zh) * | 2019-04-16 | 2021-01-01 | 浙江工业大学 | 一种残基接触辅助策略自适应的蛋白质结构预测方法 |
CN111161791B (zh) * | 2019-11-28 | 2021-06-18 | 浙江工业大学 | 一种实验数据辅助的自适应策略蛋白质结构预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413067A (zh) * | 2013-07-30 | 2013-11-27 | 浙江工业大学 | 一种基于抽象凸下界估计的蛋白质结构预测方法 |
CN106096328A (zh) * | 2016-04-26 | 2016-11-09 | 浙江工业大学 | 一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法 |
CN106503484A (zh) * | 2016-09-23 | 2017-03-15 | 浙江工业大学 | 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法 |
CN106650305A (zh) * | 2016-10-10 | 2017-05-10 | 浙江工业大学 | 一种基于局部抽象凸支撑面的多策略群体蛋白质结构预测方法 |
-
2018
- 2018-08-29 CN CN201810994673.1A patent/CN109346126B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413067A (zh) * | 2013-07-30 | 2013-11-27 | 浙江工业大学 | 一种基于抽象凸下界估计的蛋白质结构预测方法 |
CN106096328A (zh) * | 2016-04-26 | 2016-11-09 | 浙江工业大学 | 一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法 |
CN106503484A (zh) * | 2016-09-23 | 2017-03-15 | 浙江工业大学 | 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法 |
CN106650305A (zh) * | 2016-10-10 | 2017-05-10 | 浙江工业大学 | 一种基于局部抽象凸支撑面的多策略群体蛋白质结构预测方法 |
Non-Patent Citations (3)
Title |
---|
"A novel differential evolution algorithm using local abstract convex underestimate strategy for global optimization";Xiao-gen Zhou 等;《Computers & Operations Research》;20160527;第132-149页 * |
"一种基于局部Lipschita下界估计支撑面的差分进化算法";周晓根 等;《计算机学报》;20161231;第39卷(第12期);第2632-2651页 * |
"蛋白质分子构象优化方法研究与实现";何洋军;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140331(第3期);正文第33-60页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109346126A (zh) | 2019-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609342B (zh) | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 | |
CN106055920B (zh) | 一种基于阶段性多策略副本交换的蛋白质结构预测方法 | |
CN109346126B (zh) | 一种下界估计策略自适应蛋白质结构预测方法 | |
CN110148437A (zh) | 一种残基接触辅助策略自适应的蛋白质结构预测方法 | |
CN109360596B (zh) | 一种基于差分进化局部扰动的蛋白质构象空间优化方法 | |
Gu et al. | CurrMG: A curriculum learning approach for graph based molecular property prediction | |
CN109872770B (zh) | 一种结合排挤度评价的多变异策略蛋白质结构预测方法 | |
Weissenow et al. | Are protein language models the new universal key? | |
CN111883208A (zh) | 一种基因序列优化方法、装置、设备及介质 | |
CN111180004B (zh) | 一种多元接触信息的子种群策略蛋白质结构预测方法 | |
Tavakoli et al. | Algorithms for inferring multiple microbial networks | |
CN116092576A (zh) | 蛋白质结构优化方法和装置 | |
Deng et al. | A progressive predictor-based quantum architecture search with active learning | |
CN109509510B (zh) | 一种基于多种群系综变异策略的蛋白质结构预测方法 | |
Yang et al. | Large-scale metagenomic sequence clustering on map-reduce clusters | |
CN109461471B (zh) | 一种基于锦标赛机制的自适应蛋白质结构预测方法 | |
Sheng et al. | Motif identification method based on Gibbs sampling and genetic algorithm | |
CN109448786B (zh) | 一种下界估计动态策略蛋白质结构预测方法 | |
Geng et al. | An improved genetic algorithm for statistical potential function design and protein structure prediction | |
Liu et al. | GraphCPLMQA: Assessing protein model quality based on deep graph coupled networks using protein language model | |
Yang et al. | CURATOR: building robust machine learning potentials for atomistic simulations autonomously with batch active learning | |
Zhang et al. | Active Learning Framework for Cost-Effective TCR-Epitope Binding Affinity Prediction | |
CN111161791B (zh) | 一种实验数据辅助的自适应策略蛋白质结构预测方法 | |
Chipman et al. | Using stochastic causal trees to augment Bayesian networks for modeling eQTL datasets | |
Wang et al. | Adaptive artificial immune system for biological network alignment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |