CN107145764B - 一种双重分布估计引导的蛋白质构象空间搜索方法 - Google Patents
一种双重分布估计引导的蛋白质构象空间搜索方法 Download PDFInfo
- Publication number
- CN107145764B CN107145764B CN201710148984.1A CN201710148984A CN107145764B CN 107145764 B CN107145764 B CN 107145764B CN 201710148984 A CN201710148984 A CN 201710148984A CN 107145764 B CN107145764 B CN 107145764B
- Authority
- CN
- China
- Prior art keywords
- energy
- sum
- energylist
- conformation
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种双重分布估计引导的蛋白质构象空间搜索方法,同时启动多条Monte Carlo轨迹,并根据当前所有轨迹个体信息构建能量分布概率模型和历史接受概率模型,根据两个概率模型选择一条Monte Carlo轨迹执行下一次搜索,使得搜索过程主要向能量更低的区域进行,并以一定的概率在高能量区域进行搜索,在一定程度上克服了能量模型不精确的问题,最终得到一系列近天然态构象。本发明在蛋白质结构预测中应用,可以得到预测精度较高、复杂度较低的构象。
Description
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种双重分布估计引导的蛋白质构象空间搜索方法。
背景技术
生物信息学是生命科学和计算机科学交叉领域的一个研究热点。生物信息学研究成果目前已经被广泛应用于基因发现和预测、基因数据的存储管理、数据检索与挖掘、蛋白质结构预测、基因和蛋白质同源关系预测、序列分析与比对等。基因组规定了所有构成该生物体的蛋白质,基因规定了组成蛋白质的氨基酸序列。虽然蛋白质由氨基酸的线性序列组成,但是,它们只有折叠形成特定的空间结构才能具有相应的活性和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能,也有利于认识蛋白质是如何执行功能的。确定蛋白质的结构的是非常重要的。目前,蛋白质序列数据库的数据积累的速度非常快,但是,已知结构的蛋白质相对比较少。尽管蛋白质结构测定技术有了较为显著的进展,但是,通过实验方法确定蛋白质结构的过程仍然非常复杂,代价较高。因此,实验测定的蛋白质结构比已知的蛋白质序列要少得多。另一方面,随着DNA测序技术的发展,人类基因组及更多的模式生物基因组已经或将要被完全测序,DNA序列数量将会急增,而由于DNA序列分析技术和基因识别方法的进步,我们可以从DNA推导出大量的蛋白质序列。这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量(如蛋白质结构数据库PDB中的数据)的差距将会越来越大。人们希望产生蛋白质结构的速度能够跟上产生蛋白质序列的速度,或者减小两者的差距。
目前主要的技术瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面在于构象更新方法,现有技术对构象的更新精度仍然不足。因此,现有的构象空间搜索方法存在不足,需要改进。
发明内容
为了克服现有的蛋白质结构预测构象空间优化方法存在采样效率较低、复杂度较高、预测精度较低的不足,本发明提出一种双重分布估计引导的蛋白质构象空间搜索方法。同时启动多条Monte Carlo轨迹,并根据当前所有轨迹个体信息构建能量分布概率模型和历史接受概率模型,根据两个概率模型选择一条Monte Carlo轨迹执行下一次搜索,使得搜索过程主要向能量更低的区域进行,并以一定的概率在高能量区域进行搜索,在一定程度上克服了能量模型不精确的问题,最终得到一系列近天然态构象。
本发明解决其技术问题所采用的技术方案是:
一种双重分布估计引导的蛋白质构象空间搜索方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)参数初始化:设置Monte Carlo轨迹条数K、迭代次数G和能量平衡因子δ;
3)构象初始化:根据给定输入序列,生成K个伸展链初始个体;
4)对步骤3)中的K个个体根据RosettaScore3分别计算能量,加上能量平衡因子δ后,存入能量列表EnergyList中;
5)对EnergyList中的所有元素求和得到能量总和Esum;
6)对EnergyList执行反转操作,即将其中所有元素逆序排列;
7)对EnergyList中的元素执行以下操作:EnergyList[i]/Esum,其中i表示列表索引值,i的取值从0到K-1;
8)将EnergyList[i]/Esum存入对应位置的能量分布概率列表pCur中;
9)创建接收列表AcceptList;
10)计算总评价次数Asum;
11)对AcceptList中的每个元素做以下操作:AcceptList[i]=1,其中i表示列表索引值,i的取值从0到K-1;
12)将1/Asum存入对应位置的接受分布概率列表pHis中;
13)开始迭代:
13.1)根据pCur和pHis这两个概率分布,选出一条Monte Carlo轨迹,执行片段组装过程,生成新的构象pMC;
13.2)根据RosettaScore3计算新生成构象的能量E(pMC);
13.3)依据Bolztmann准则接受新生成的构象,如果没有接收当前构象,直接转到步骤14),如果接受当前构象,则取得该轨迹在列表中的索引值j;
13.4)EnergyList[j]更新为E(pMC)+δ,重新计算Esum,Asum增加1,AcceptList[j]增加1;
13.5)重新计算pCur和pHis:pCur[i]=EnergyList[i]/Esum,pHis[i]=AcceptList[i]/Asum;14)判断是否达到最大迭代次数G;
14.1)若当前迭代次数小于G,返回步骤13);
14.2)若当前迭代次数等于G,结束。
本发明的技术构思为:同时启动多条Monte Carlo轨迹,并根据当前所有轨迹个体信息构建能量分布概率模型和历史接受概率模型,根据两个概率模型选择一条MonteCarlo轨迹执行下一次搜索,使得搜索过程主要向能量低的区域进行,并以一定的概率在高能量区域进行搜索,在一定程度上克服了能量模型不精确的问题,最终得到一系列近天然态构象。
本发明的有益效果为:本发明在蛋白质结构预测中应用,可以得到预测精度较高、复杂度较低的构象。
附图说明
图1是能量概率分布情况示意图。
图2是目标蛋白质T0773-D1预测结构和实验室测定结构的三维示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种双重分布估计引导的蛋白质构象空间搜索方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)参数初始化:设置Monte Carlo轨迹条数K、迭代次数G和能量平衡因子δ;
3)构象初始化:根据给定输入序列,生成K个伸展链初始个体;
4)对步骤3)中的K个个体根据RosettaScore3分别计算能量,加上能量平衡因子δ后,存入能量列表EnergyList中;
5)对EnergyList中的所有元素求和得到能量总和Esum;
6)对EnergyList执行反转操作,即将其中所有元素逆序排列;
7)对EnergyList中的元素执行以下操作:EnergyList[i]/Esum,其中i表示列表索引值,i的取值从0到K-1;
8)将EnergyList[i]/Esum存入对应位置的能量分布概率列表pCur中;
9)创建接收列表AcceptList;
10)计算总评价次数Asum;
11)对AcceptList中的每个元素做以下操作:AcceptList[i]=1,其中i表示列表索引值,i的取值从0到K-1;
12)将1/Asum存入对应位置的接受分布概率列表pHis中;
13)开始迭代:
13.1)根据pCur和pHis这两个概率分布,选出一条Monte Carlo轨迹,执行片段组装过程,生成新的构象pMC;
13.2)根据RosettaScore3计算新生成构象的能量E(pMC);
13.3)依据Bolztmann准则接受新生成的构象,如果没有接收当前构象,直接转到步骤14),如果接受当前构象,则取得该轨迹在列表中的索引值j;
13.4)EnergyList[j]更新为E(pMC)+δ,重新计算Esum,Asum增加1,AcceptList[j]增加1;
13.5)重新计算pCur和pHis:pCur[i]=EnergyList[i]/Esum,pHis[i]=AcceptList[i]/Asum;14)判断是否达到最大迭代次数G;
14.1)若当前迭代次数小于G,返回步骤13);
14.2)若当前迭代次数等于G,结束。
本实施例以目标蛋白质T0773-D1为实施例,一种双重分布估计引导的蛋白质构象空间搜索方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)参数初始化:设置Monte Carlo轨迹条数K=100,迭代次数G=1000000,能量平衡因子δ=500;
3)构象初始化:根据给定输入序列,生成K个伸展链初始个体;
4)对步骤3)中的K个个体根据RosettaScore3分别计算能量,加上能量平衡因子δ后,存入能量列表EnergyList中;
5)对EnergyList中的所有元素求和得到能量总和Esum;
6)对EnergyList执行反转操作,即将其中所有元素逆序排列;
7)对EnergyList中的元素执行以下操作:EnergyList[i]/Esum,其中i表示列表索引值,i的取值从0到K-1;
8)将EnergyList[i]/Esum存入对应位置的能量分布概率列表pCur中;
9)创建接收列表AcceptList;
10)计算总评价次数Asum;
11)对AcceptList中的每个元素做以下操作:AcceptList[i]=1,其中i表示列表索引值,i的取值从0到K-1;
12)将1/Asum存入对应位置的接受分布概率列表pHis中;
13)开始迭代:
13.1)根据pCur和pHis这两个概率分布,选出一条Monte Carlo轨迹,执行片段组装过程,生成新的构象pMC;
13.2)根据RosettaScore3计算新生成构象的能量E(pMC);
13.3)依据Bolztmann准则接受新生成的构象,如果没有接收当前构象,直接转到步骤14),如果接受当前构象,则取得该轨迹在列表中的索引值j;
13.4)EnergyList[j]更新为E(pMC)+δ,重新计算Esum,Asum增加1,AcceptList[j]增加1;
13.5)重新计算pCur和pHis:pCur[i]=EnergyList[i]/Esum,pHis[i]=AcceptList[i]/Asum;14)判断是否达到最大迭代次数G;
14.1)若当前迭代次数小于G,返回步骤13);
14.2)若当前迭代次数等于G,结束。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。
Claims (1)
1.一种双重分布估计引导的蛋白质构象空间搜索方法,其特征在于:所述方法包括以下步骤:
1)给定输入序列信息;
2)参数初始化:设置Monte Carlo轨迹条数K、迭代次数G和能量平衡因子δ;
3)构象初始化:根据给定输入序列,生成K个伸展链初始个体;
4)对步骤3)中的K个个体根据RosettaScore3分别计算能量,加上能量平衡因子δ后,存入能量列表EnergyList中;
5)对EnergyList中的所有元素求和得到能量总和Esum;
6)对EnergyList执行反转操作,即将其中所有元素逆序排列;
7)对EnergyList中的元素执行以下操作:EnergyList[i]/Esum,其中i表示列表索引值,i的取值从0到K-1;
8)将EnergyList[i]/Esum存入对应位置的能量分布概率列表pCur中;
9)创建接收列表AcceptList;
10)计算总评价次数Asum;
11)对AcceptList中的每个元素做以下操作:AcceptList[i]=1,其中i表示列表索引值,i的取值从0到K-1;
12)将1/Asum存入对应位置的接受分布概率列表pHis中;
13)开始迭代:
13.1)根据pCur和pHis这两个概率分布,选出一条Monte Carlo轨迹,执行片段组装过程,生成新的构象pMC;
13.2)根据RosettaScore3计算新生成构象的能量E(pMC);
13.3)依据Boltzmann准则接受新生成的构象,如果没有接收当前构象,直接转到步骤14),如果接受当前构象,则取得该轨迹在能量列表EnergyList中的索引值j;
13.4)EnergyList[j]更新为E(pMC)+δ,重新计算Esum,Asum增加1,AcceptList[j]增加1;
13.5)重新计算pCur和pHis:pCur[i]=EnergyList[i]/Esum,pHis[i]=AcceptList[i]/Asum;
14)判断是否达到最大迭代次数G;
14.1)若当前迭代次数小于G,返回步骤13);
14.2)若当前迭代次数等于G,结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710148984.1A CN107145764B (zh) | 2017-03-14 | 2017-03-14 | 一种双重分布估计引导的蛋白质构象空间搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710148984.1A CN107145764B (zh) | 2017-03-14 | 2017-03-14 | 一种双重分布估计引导的蛋白质构象空间搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107145764A CN107145764A (zh) | 2017-09-08 |
CN107145764B true CN107145764B (zh) | 2019-07-30 |
Family
ID=59784127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710148984.1A Active CN107145764B (zh) | 2017-03-14 | 2017-03-14 | 一种双重分布估计引导的蛋白质构象空间搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107145764B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109390035B (zh) * | 2018-08-29 | 2021-04-06 | 浙江工业大学 | 一种基于局部结构比对的蛋白质构象空间优化方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413068A (zh) * | 2013-08-28 | 2013-11-27 | 苏州大学 | 一种基于结构拓扑的g蛋白偶联受体跨膜螺旋三维结构的预测方法 |
CN103984878A (zh) * | 2014-04-08 | 2014-08-13 | 浙江工业大学 | 一种基于树搜索和片段组装的蛋白质结构预测方法 |
CN104200132A (zh) * | 2014-07-28 | 2014-12-10 | 浙江工业大学 | 一种构象空间动态步长搜索方法 |
CN104933328A (zh) * | 2015-06-08 | 2015-09-23 | 浙江工业大学 | 一种基于副本交换的变步长蛋白质构象空间搜索方法 |
-
2017
- 2017-03-14 CN CN201710148984.1A patent/CN107145764B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413068A (zh) * | 2013-08-28 | 2013-11-27 | 苏州大学 | 一种基于结构拓扑的g蛋白偶联受体跨膜螺旋三维结构的预测方法 |
CN103984878A (zh) * | 2014-04-08 | 2014-08-13 | 浙江工业大学 | 一种基于树搜索和片段组装的蛋白质结构预测方法 |
CN104200132A (zh) * | 2014-07-28 | 2014-12-10 | 浙江工业大学 | 一种构象空间动态步长搜索方法 |
CN104933328A (zh) * | 2015-06-08 | 2015-09-23 | 浙江工业大学 | 一种基于副本交换的变步长蛋白质构象空间搜索方法 |
Non-Patent Citations (6)
Title |
---|
Accounting for conformational entropy in predicting binding free energies of protein-protein interactions;Hetunandan Kamisetty 等;《Proteins:Structure,Function,and Bioinformatics》;20101007;第79卷(第2期);444-462 * |
Probabilistic Search and Energy Guidance for Biased Decoy Sampling in Ab Initio Protein Structure Prediction;Kevin Molloy 等;《IEEE/ACM transactions on computational biology and bioinformatics》;20130331;1-14 * |
Toward a detailed understanding of search trajectories in fragment assembly approaches to protein structure prediction;Shaun M.Kandathil 等;《Proteins:Structure,Function,and Bioinformatics》;20160121;第84卷(第4期);411-426 * |
一种基于片段组装的蛋白质构象空间优化算法;郝小虎 等;《计算机科学》;20150331;第42卷(第3期);237-240 * |
动态步长蛋白质构象空间搜索方法;张贵军 等;《吉林大学学报(工学版)》;20160331;第46卷(第2期);585-594 * |
基于深度学习的采样技术在蛋白质结构预测中运用;罗升;《万方数据知识服务平台》;20161103;1-68 * |
Also Published As
Publication number | Publication date |
---|---|
CN107145764A (zh) | 2017-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Boussau et al. | Genome-scale coestimation of species and gene trees | |
Roshan et al. | Probalign: multiple sequence alignment using partition function posterior probabilities | |
Wayment-Steele et al. | Prediction of multiple conformational states by combining sequence clustering with AlphaFold2 | |
He et al. | Predicting intrinsic disorder in proteins: an overview | |
Cho et al. | Diffusion component analysis: unraveling functional topology in biological networks | |
Xia | Position weight matrix, gibbs sampler, and the associated significance tests in motif characterization and prediction | |
Moffat et al. | Using AlphaFold for rapid and accurate fixed backbone protein design | |
Zhao et al. | Essential protein discovery based on a combination of modularity and conservatism | |
Heringa | Computational methods for protein secondary structure prediction using multiple sequence alignments | |
CN109637579A (zh) | 一种基于张量随机游走的关键蛋白质识别方法 | |
CN103473482A (zh) | 基于差分进化和构象空间退火的蛋白质三维结构预测方法 | |
CN104951669B (zh) | 一种用于蛋白质结构预测的距离谱构建方法 | |
Kandathil et al. | Toward a detailed understanding of search trajectories in fragment assembly approaches to protein structure prediction | |
CN107145764B (zh) | 一种双重分布估计引导的蛋白质构象空间搜索方法 | |
Yosef et al. | Improved network-based identification of protein orthologs | |
Ye et al. | A segment alignment approach to protein comparison | |
CN106446601B (zh) | 一种大规模标注lncRNA功能的方法 | |
Zhou et al. | Accurate and definite mutational effect prediction with lightweight equivariant graph neural networks | |
CN109378034B (zh) | 一种基于距离分布估计的蛋白质预测方法 | |
CN108595910A (zh) | 一种基于多样性指标的群体蛋白质构象空间优化方法 | |
Yan et al. | Comprehensively designed consensus of standalone secondary structure predictors improves Q 3 by over 3% | |
CN109346128A (zh) | 一种基于残基信息动态选择策略的蛋白质结构预测方法 | |
CN109390035B (zh) | 一种基于局部结构比对的蛋白质构象空间优化方法 | |
CN109243526B (zh) | 一种基于特定片段交叉的蛋白质结构预测方法 | |
Zhang et al. | Efficient Generation of Protein Pockets with PocketGen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |