CN109300505B - 一种基于有偏采样的蛋白质结构预测方法 - Google Patents
一种基于有偏采样的蛋白质结构预测方法 Download PDFInfo
- Publication number
- CN109300505B CN109300505B CN201810993749.9A CN201810993749A CN109300505B CN 109300505 B CN109300505 B CN 109300505B CN 201810993749 A CN201810993749 A CN 201810993749A CN 109300505 B CN109300505 B CN 109300505B
- Authority
- CN
- China
- Prior art keywords
- individual
- secondary structure
- fragment
- determining
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000005070 sampling Methods 0.000 title claims abstract description 22
- 238000000455 protein structure prediction Methods 0.000 title abstract description 14
- 239000012634 fragment Substances 0.000 claims abstract description 62
- 230000003044 adaptive effect Effects 0.000 claims abstract description 8
- 230000002068 genetic effect Effects 0.000 claims abstract description 7
- 108090000623 proteins and genes Proteins 0.000 claims description 27
- 102000004169 proteins and genes Human genes 0.000 claims description 26
- 150000001413 amino acids Chemical class 0.000 claims description 12
- 230000006978 adaptation Effects 0.000 claims description 4
- 230000004992 fission Effects 0.000 claims description 4
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 230000035772 mutation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract 1
- 238000005457 optimization Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 101000859758 Homo sapiens Cartilage-associated protein Proteins 0.000 description 1
- 101000916686 Homo sapiens Cytohesin-interacting protein Proteins 0.000 description 1
- 101000726740 Homo sapiens Homeobox protein cut-like 1 Proteins 0.000 description 1
- 101000761460 Homo sapiens Protein CASP Proteins 0.000 description 1
- 101000761459 Mesocricetus auratus Calcium-dependent serine proteinase Proteins 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 102100024933 Protein CASP Human genes 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000329 molecular dynamics simulation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000734 protein sequencing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于有偏采样的蛋白质结构预测方法,在遗传算法的基本框架下,对每个目标个体进行基于二级结构的有偏交叉策略;然后,随机选择一个变异窗口,以每个片段的二级结构得分为适应值,利用轮盘赌的方式选择一个适应值较高的片段来替换构象中的片段信息;最后,以构象的结构属性为主,能量属性为辅共同来指导种群的更新,进而选出潜在的构象进入下一代种群。本发明提出一种预测精度高、计算代价低的基于有偏采样的蛋白质结构预测方法。
Description
技术领域
本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种基于有偏采样的蛋白质结构预测方法。
背景技术
生物领域高通量的基因数据以及蛋白质测序技术的飞速发展,使蛋白质结构测定技术面临前所未有的挑战。利用计算机的强大处理能力解决蛋白质结构预测问题是一项紧迫而现实的解决方案。而从头预测方法从氨基酸序列准确的预测蛋白质的三维结构是该领域中难度最高、意义最大、影响深远的问题之一。
在生物信息学中,蛋白质结构预测是一个组合优化问题。而由于能量函数的不准确性,导致优化目标难以准确量化,增加了该问题的求解复杂性。同时,蛋白质结构预测中解的构成不完整,解的长度不唯一,更加增大了求解的难度。目前常见的预测方法往往侧重能量函数的作用,而弱化搜索策略研究。而从头预测蛋白质结构最主要的问题就在于采样:天然结构和非天然结构相比具有最低自由能,但是我们却很难在巨大的构象空间中确定天然结构这一唯一的构象。
由于采样算法在从头预测中的重要性,所以许多研究者针对这一问题开发了多种针对蛋白质三维结构的采样算法,比如遗传算法、结构空间模拟退火、和分子动力学模拟采样。近几年的CASP比赛结果表明,Rosetta可以说是目前蛋白质结构从头预测领域最成功的方法,其核心的算法在于使用已知结构的蛋白质片段,通过蒙特卡罗的方法进行组装,产生接近天然结构的蛋白质构象。对于序列长度较短的,Rosetta已经能够很好的采样出非常接近天然结构的构象。但是对于更长的序列,更复杂的结构,却预测精度不高。
因此,现有的构象空间优化方法在预测精度和采样效率方面存在着缺陷,需要改进。
发明内容
为了克服现有的蛋白质构象优化方法中采样效率低、预测精度较低的不足,本发明提出一种采样效率较高、预测精度高的基于有偏采样的蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于有偏采样的蛋白质结构预测方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)利用PSIPRED平台预测目标蛋白的二级结构信息,利用ROSETTA平台构建9片段的片段库;
3)选取Rosetta score3能量函数E(x);
4)参数初始化:设置种群规模Ps,迭代计数器g,最大遗传代数Gmax,初始种群搜索轨迹长度N,交叉片段长度c;
5)初始化种群:启动Ps条Monte Carlo轨迹,每条轨迹搜索N次,即生成Ps个初始个体;
6)对每个目标个体xi,i∈{i=1,.2..,Ps}进行如下操作:
6.1)随机选择一个个体xj,j∈{1,2,...,Ps}且j≠i,进行交叉操作:
6.1.1)产生一个随机整数r∈[1,l-c],确定出交叉区域[r,c+r],其中l为序列长度;
6.1.2)根据预测的二级结构知识,确定出目标蛋白在区域[r,c+r]中对应的二级结构Src={qk|r≤k≤r+c},其中,qk∈{H,E,L}是在目标蛋白中预测的第k氨基酸对应的二级结构类型;
其中,pk代表在预测的二级结构知识中第k个氨基酸的二级结构被预测为qk的置信度;
6.1.8)用个体xj中[r,c+r]区域的扭转角度依次替换个体xi中对应区域的扭转角,生成交叉个体x′i;
6.2)对个体x′i进行如下的变异操作:
6.3)根据能量和二级结构得分进行如下的选择操作:
6.3.2)与步骤6.1.4)同理,分别计算个体xi和x″i的二级结构得分ssi和ss″i;
6.3.3)比较ssi和ss″i的大小,如果ssi<ss″i,则变异个体x″i换个体xi,并作为下一代的目标个体,执行步骤7),否则执行步骤6.3.4)和步骤6.3.5);
6.3.4)根据Rosetta score3函数分别计算个体xi和x″i的能量E(xi)和E(x″i);
6.3.5)比较E(xi)和E(x″i)的大小,如果E(x″i)<E(xi),则变异个体x″i换个体xi,并作为下一代的目标个体,执行步骤7),否则个体xi被保留,并作为下一代的目标个体,执行步骤7);
7)对种群中的每一个个体都执行完步骤6)以后,迭代次数g=g+1,判断g是否大于Gmax,若g>Gmax,则停止迭代并退出,否则返回步骤6)。
本发明的技术构思为:在遗传算法的基本框架下,对每个目标个体进行基于二级结构的有偏交叉策略;然后,随机选择一个变异窗口,以每个片段的二级结构得分为适应值,利用轮盘赌的方式选择一个适应值较高的片段来替换构象中的片段信息;最后,以构象的结构属性为主,能量属性为辅共同来指导种群的更新,进而选出潜在的构象进入下一代种群。
本发明的有益效果表现在:一方面通过预测的二级结构设计有偏的构象空间采样策略,显著的降低了构象的采样空间,进而提高的搜索效率;另一方面,通过结构属性和能量属性共同指导种群更新,降低了由于能量函数不精确带来的误差,进而大大提高了预测精度。
附图说明
图1是基于有偏采样的蛋白质结构预测方法的基本示意图。
图2是基于有偏采样的蛋白质结构预测方法对蛋白质1fna进行结构预测时的构象更新示意图。
图3是基于有偏采样的蛋白质结构预测方法对蛋白质1fna进行结构预测得到的三维结构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于有偏采样的蛋白质结构预测方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)利用PSIPRED平台预测目标蛋白的二级结构信息,利用ROSETTA平台构建9片段的片段库;
3)选取Rosetta score3能量函数E(x);
4)参数初始化:设置种群规模Ps,迭代计数器g,最大遗传代数Gmax,初始种群搜索轨迹长度N,交叉片段长度c;
5)初始化种群:启动Ps条Monte Carlo轨迹,每条轨迹搜索N次,即生成Ps个初始个体;
6)对每个目标个体xi,i∈{i=1,.2..,Ps}进行如下操作:
6.1)随机选择一个个体xj,j∈{1,2,...,Ps}且j≠i,进行交叉操作:
6.1.1)产生一个随机整数r∈[1,l-c],确定出交叉区域[r,c+r],其中l为序列长度;
6.1.2)根据预测的二级结构知识,确定出目标蛋白在区域[r,c+r]中对应的二级结构Src={qk|r≤k≤r+c},其中,qk∈{H,E,L}是在目标蛋白中预测的第k氨基酸对应的二级结构类型;
其中,pk代表在预测的二级结构知识中第k个氨基酸的二级结构被预测为qk的置信度;
6.1.8)用个体xj中[r,c+r]区域的扭转角度依次替换个体xi中对应区域的扭转角,生成交叉个体x′i;
6.2)对个体x′i进行如下的变异操作:
6.3)根据能量和二级结构得分进行如下的选择操作:
6.3.2)与步骤6.1.4)同理,分别计算个体xi和x″i的二级结构得分ssi和ss″i;
6.3.3)比较ssi和ss″i的大小,如果ssi<ss″i,则变异个体x″i换个体xi,并作为下一代的目标个体,执行步骤7),否则执行步骤6.3.4)和步骤6.3.5);
6.3.4)根据Rosetta score3函数分别计算个体xi和x″i的能量E(xi)和E(x″i);
6.3.5)比较E(xi)和E(x″i)的大小,如果E(x″i)<E(xi),则变异个体x″i换个体xi,并作为下一代的目标个体,执行步骤7),否则个体xi被保留,并作为下一代的目标个体,执行步骤7);
7)对种群中的每一个个体都执行完步骤6)以后,迭代次数g=g+1,判断g是否大于Gmax,若g>Gmax,则停止迭代并退出,否则返回步骤6)。
本实施例序列长度为91的β折叠蛋白质1fna为实施例,一种基于有偏采样的蛋白质结构预测方法,包括以下步骤:
1)给定输入序列信息;
2)利用PSIPRED平台预测目标蛋白的二级结构信息,利用ROSETTA平台构建9片段的片段库;
3)选取Rosetta score3能量函数E(x);
4)参数初始化:设置种群规模Ps=100,迭代计数器g=0,最大遗传代数Gmax=200,初始种群搜索轨迹长度N=2000,交叉片段长度c=6;
5)初始化种群:启动Ps条Monte Carlo轨迹,每条轨迹搜索N次,即生成Ps个初始个体;
6)对每个目标个体xi,i∈{i=1,.2..,Ps}进行如下操作:
6.1)随机选择一个个体xj,j∈{1,2,...,Ps}且j≠i,进行交叉操作:
6.1.1)产生一个随机整数r∈[1,l-c],确定出交叉区域[r,c+r],其中l为序列长度;
6.1.2)根据预测的二级结构知识,确定出目标蛋白在区域[r,c+r]中对应的二级结构Src={qk|r≤k≤r+c},其中,qk∈{H,E,L}是在目标蛋白中预测的第k氨基酸对应的二级结构类型;
其中,pk代表在预测的二级结构知识中第k个氨基酸的二级结构被预测为qk的置信度;
6.1.8)用个体xj中[r,c+r]区域的扭转角度依次替换个体xi中对应区域的扭转角,生成交叉个体x′i;
6.2)对个体x′i进行如下的变异操作:
6.3)根据能量和二级结构得分进行如下的选择操作:
6.3.2)与步骤6.1.4)同理,分别计算个体xi和x″i的二级结构得分ssi和ss″i;
6.3.3)比较ssi和ss″i的大小,如果ssi<ss″i,则变异个体x″i换个体xi,并作为下一代的目标个体,执行步骤7),否则执行步骤6.3.4)和步骤6.3.5);
6.3.4)根据Rosetta score3函数分别计算个体xi和x″i的能量E(xi)和E(x″i);
6.3.5)比较E(xi)和E(x″i)的大小,如果E(x″i)<E(xi),则变异个体x″i换个体xi,并作为下一代的目标个体,执行步骤7),否则个体xi被保留,并作为下一代的目标个体,执行步骤7);
7)对种群中的每一个个体都执行完步骤6)以后,迭代次数g=g+1,判断g是否大于Gmax,若g>Gmax,则停止迭代并退出,否则返回步骤6)。
以上说明是本发明以1fna蛋白质为实例所得出的预测效果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。
Claims (1)
1.一种基于有偏采样的蛋白质结构预测方法,其特征在于,所述方法包括以下步骤:
1)给定输入序列信息;
2)利用PSIPRED平台预测目标蛋白的二级结构信息,利用ROSETTA平台构建9片段的片段库;
3)选取Rosetta score3能量函数E(x);
4)参数初始化:设置种群规模Ps,迭代计数器g,最大遗传代数Gmax,初始种群搜索轨迹长度N,交叉片段长度c;
5)初始化种群:启动Ps条Monte Carlo轨迹,每条轨迹搜索N次,即生成Ps个初始个体;
6)对每个目标个体xi,i∈{i=1,2,. ..,Ps}进行如下操作:
6.1)随机选择一个个体xj,j∈{1,2,...,Ps}且j≠i,进行交叉操作:
6.1.1)产生一个随机整数r∈[1,l-c],确定出交叉区域[r,c+r],其中l为序列长度;
6.1.2)根据预测的二级结构知识,确定出目标蛋白在区域[r,c+r]中对应的二级结构Src={qk|r≤k≤r+c},其中,qk∈{H,E,L}是在目标蛋白中预测的第k氨基酸对应的二级结构类型;
其中,pk代表在预测的二级结构知识中第k个氨基酸的二级结构被预测为qk的置信度;
6.1.8)用个体xj中[r,c+r]区域的扭转角度依次替换个体xi中对应区域的扭转角,生成交叉个体xi′;
6.2)对个体x′i进行如下的变异操作:
6.3.2)与步骤6.1.4)同理,分别计算个体xi和x″i的二级结构得分ssi和ss″i;
6.3.3)比较ssi和ss″i的大小,如果ssi<ss″i,则变异个体x″i换个体xi,并作为下一代的目标个体,执行步骤7),否则执行步骤6.3.4)和步骤6.3.5);
6.3.4)根据Rosetta score3函数分别计算个体xi和x″i的能量E(xi)和E(x″i);
6.3.5)比较E(xi)和E(x″i)的大小,如果E(x″i)<E(xi),则变异个体x″i换个体xi,并作为下一代的目标个体,执行步骤7),否则个体xi被保留,并作为下一代的目标个体,执行步骤7);
7)对种群中的每一个个体都执行完步骤6)以后,迭代次数g=g+1,判断g是否大于Gmax,若g>Gmax,则停止迭代并退出,否则返回步骤6)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810993749.9A CN109300505B (zh) | 2018-08-29 | 2018-08-29 | 一种基于有偏采样的蛋白质结构预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810993749.9A CN109300505B (zh) | 2018-08-29 | 2018-08-29 | 一种基于有偏采样的蛋白质结构预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109300505A CN109300505A (zh) | 2019-02-01 |
CN109300505B true CN109300505B (zh) | 2021-05-18 |
Family
ID=65165691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810993749.9A Active CN109300505B (zh) | 2018-08-29 | 2018-08-29 | 一种基于有偏采样的蛋白质结构预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109300505B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951885B (zh) * | 2020-08-11 | 2022-05-03 | 湖南大学 | 一种基于局部有偏的蛋白质结构预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778059A (zh) * | 2016-12-19 | 2017-05-31 | 浙江工业大学 | 一种基于Rosetta局部增强的群体蛋白质结构预测方法 |
CN107609342A (zh) * | 2017-08-11 | 2018-01-19 | 浙江工业大学 | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 |
CN108334746A (zh) * | 2018-01-15 | 2018-07-27 | 浙江工业大学 | 一种基于二级结构相似度的蛋白质结构预测方法 |
-
2018
- 2018-08-29 CN CN201810993749.9A patent/CN109300505B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778059A (zh) * | 2016-12-19 | 2017-05-31 | 浙江工业大学 | 一种基于Rosetta局部增强的群体蛋白质结构预测方法 |
CN107609342A (zh) * | 2017-08-11 | 2018-01-19 | 浙江工业大学 | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 |
CN108334746A (zh) * | 2018-01-15 | 2018-07-27 | 浙江工业大学 | 一种基于二级结构相似度的蛋白质结构预测方法 |
Non-Patent Citations (3)
Title |
---|
《Efficient Sampling in Fragment-Based Protein Structure Prediction Using an Estimation of Distribution Algorithm》;David Simoncini等;《Plos One》;20130725;全文 * |
《Genetic Algorithm Feature-Based Resampling for Protein Structure Prediction》;Trent Higgs等;《WCCI 2010 IEEE World Congress on Computational Intelligence》;20100723;全文 * |
《基于深度学习的采样技术在蛋白质结构预测中运用》;罗升;《万方数据知识服务平台》;20161103;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109300505A (zh) | 2019-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609342B (zh) | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 | |
CN107633157B (zh) | 一种基于分布估计和副本交换策略的蛋白质构象空间优化方法 | |
CN113593634B (zh) | 一种融合dna形状特征的转录因子结合位点预测方法 | |
CN106055920B (zh) | 一种基于阶段性多策略副本交换的蛋白质结构预测方法 | |
CN108846256B (zh) | 一种基于残基接触信息的群体蛋白质结构预测方法 | |
JP2004503038A (ja) | 一次タンパク質配列から三次元タンパク質構造を決定する方法 | |
CN109360599B (zh) | 一种基于残基接触信息交叉策略的蛋白质结构预测方法 | |
CN109086566B (zh) | 一种基于片段重采样的群体蛋白质结构预测方法 | |
Crook et al. | Model-based design of synthetic, biological systems | |
CN109215733B (zh) | 一种基于残基接触信息辅助评价的蛋白质结构预测方法 | |
CN109300505B (zh) | 一种基于有偏采样的蛋白质结构预测方法 | |
CN109378034B (zh) | 一种基于距离分布估计的蛋白质预测方法 | |
Hao et al. | A novel method using abstract convex underestimation in ab-initio protein structure prediction for guiding search in conformational feature space | |
Bernard et al. | State-of-the-RNArt: benchmarking current methods for RNA 3D structure prediction | |
Sun et al. | Smolign: a spatial motifs-based protein multiple structural alignment method | |
CN111180004B (zh) | 一种多元接触信息的子种群策略蛋白质结构预测方法 | |
Hao et al. | Conformational space sampling method using multi-subpopulation differential evolution for de novo protein structure prediction | |
CN109390035B (zh) | 一种基于局部结构比对的蛋白质构象空间优化方法 | |
CN111951885B (zh) | 一种基于局部有偏的蛋白质结构预测方法 | |
CN109346128B (zh) | 一种基于残基信息动态选择策略的蛋白质结构预测方法 | |
CN108595910B (zh) | 一种基于多样性指标的群体蛋白质构象空间优化方法 | |
CN109360597B (zh) | 一种基于全局和局部策略协作的群体蛋白质结构预测方法 | |
CN109326319B (zh) | 一种基于二级结构知识的蛋白质构象空间优化方法 | |
CN109360600B (zh) | 一种基于残基特征距离的蛋白质结构预测方法 | |
CN109243526B (zh) | 一种基于特定片段交叉的蛋白质结构预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |