CN109243525A - 一种基于种群熵的阶段性蛋白质结构预测方法 - Google Patents
一种基于种群熵的阶段性蛋白质结构预测方法 Download PDFInfo
- Publication number
- CN109243525A CN109243525A CN201810762911.6A CN201810762911A CN109243525A CN 109243525 A CN109243525 A CN 109243525A CN 201810762911 A CN201810762911 A CN 201810762911A CN 109243525 A CN109243525 A CN 109243525A
- Authority
- CN
- China
- Prior art keywords
- population
- individual
- angle value
- follows
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000455 protein structure prediction Methods 0.000 title claims abstract description 13
- 230000035772 mutation Effects 0.000 claims abstract description 24
- 230000002708 enhancing effect Effects 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 76
- 230000008569 process Effects 0.000 claims description 52
- 102000004169 proteins and genes Human genes 0.000 claims description 27
- 108090000623 proteins and genes Proteins 0.000 claims description 27
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 abstract description 5
- 230000009466 transformation Effects 0.000 abstract description 4
- 230000007717 exclusion Effects 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 208000000563 Hyperlipoproteinemia Type II Diseases 0.000 description 1
- 102100024640 Low-density lipoprotein receptor Human genes 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 206010045261 Type IIa hyperlipidaemia Diseases 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001493 electron microscopy Methods 0.000 description 1
- 201000001386 familial hypercholesterolemia Diseases 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于种群熵的阶段性蛋白质结构预测方法,在差分进化算法的框架下,利用种群中个体状态间的转变选择不同的变异策略,在全局探测和局部增强间达到平衡。在探索阶段,利用排挤策略,使种群在进化的保证种群的多样性;在增强阶段,根据种群中个体状态间的转变构建马尔科夫模型,根据构建马尔科夫型计算种群熵值,再根据计算的熵值信息指导下一代种群中变异策略的选择,从而在全局探测和局部增强间达到平衡,在不断搜索更好的构象的同时避免陷入局部最优,提高构象空间的探索性能。本发明提供一种搜索效率和预测精度较高的基于种群熵的阶段性蛋白质结构预测方法。
Description
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于种群熵的阶段性蛋白质结构预测方法。
背景技术
蛋白质是生命活动的主要承担者,人体内蛋白质的种类很多,每种蛋白质都有着特定的功能。蛋白质是由氨基酸以“脱水缩合”的方式组合成的多肽经过折叠形成的具有一定空间结构的物质。蛋白质特定的空间结构决定了其特定的功能,家族性高胆固醇症、白内障等疾病就是因为蛋白质的空间结构发生变化导致其功能缺失而引起的。如果能确定蛋白质的空间结构,将有助于人们更全面的了解其特定的功能,设计出新型药物对抗疾病。
根据实验测定蛋白质三维结构的方法主要包括X射线晶体衍射、核磁共振和冷冻电镜技术,这些实验方法测定的蛋白质三维结构精度很高,但是这些方法对实验条件要求苛刻,并且测定周期长、费用昂贵。相比如三维结构蛋白质的氨基酸序列是很容易获取的,而Anfinsen等人的实验表明蛋白质的结构信息蕴含于其氨基酸序列之中。因此,根据蛋白质的氨基酸序列结合计算机技术预测蛋白质的三维结构成为测定蛋白质三维结构的另一种选择。
根据氨基酸序列预测蛋白质三维结构的方法主要分为同源建模法和从头预测法。其中从头预测法不依赖目标蛋白的同源信息,能够发现新的蛋白质结构类型。目前比较成功的从头蛋白质结构预测方法有Baker团队开发的David Rosetta和张阳团队开发的QUARK等。
根据氨基酸序列预测蛋白质三维结构实质上是在能量模型引导下的构象空间优化问题。由于蛋白质构象空间十分庞大,因此,一个高效的构象空间搜索方法尤为重要。但是,现有的构象空间优化方法存在搜索效率低、收敛速度慢等问题,并且容易陷入局部最优,影响预测精度。
因此,目前的构象空间优化方法在搜索效率和预测精度上存在不足,需要改进。
发明内容
为了克服现有的构象空间优化方法存在搜索效率和预测精度较低的不足,本发明提供一种搜索效率和预测精度较高的基于种群熵的阶段性蛋白质结构预测方法。本方法分成探索阶段和增强阶段,在探索阶段,利用排挤策略使种群进化的同时保留多样性;在增强阶段,根据每一代个体状态间的转换构建马尔科夫模型计算种群的熵值,再根据熵值信息指导下一代种群中变异策略的选择,从而在全局探测和局部增强间达到平衡,更高效的搜索构象空间。
本发明解决其技术问题所采用的技术方案是:
一种基于种群熵的阶段性蛋白质结构预测方法,所述方法包括以下步骤:
1)输入预测蛋白质的序列信息;
2)设置参数:种群规模NP,最大迭代次数G1、G2,交叉概率CR,聚类数K;
3)种群初始化:迭代Rosetta协议第一、二阶段,产生具有NP个个体的种群P={P1,P2,...,PNP};
4)探索阶段,过程如下:
4.1)设g1=1,其中g1∈{1,2,...,G1};
4.2)设n1=1,其中n1∈{1,2,...,NP};
4.3)令 表示种群P中的第n1个个体;
4.4)变异操作,过程如下:
4.4.1)从种群P中随机选择两个互异且不同于的个体Pselect1、Pselect2;
4.4.2)在[0,L-9]内生成均匀随机整数rand1和rand2,其中L表示氨基酸序列长度;
4.4.3)将Ptarget的第rand1至rand1+8号残基的二面角值替换成Pselect1对应残基号的二面角值,将Ptarget的第rand2至rand2+8号残基的二面角值替换成Pselect2对应残基号的二面角值;
4.5)生成均匀随机小数rand3,rand3∈[0,1];若CR<rand3,转至步骤4.6);否则,执行交叉操作,过程如下:
4.5.1)在[0,L-9]内生成均匀随机整数rand4;
4.5.2)将Ptarget的第rand4至rand4+8号残基的二面角值替换成对应残基号的二面角值;
4.6)利用Rosetta协议第三阶段对Ptarget执行局部搜索操作,生成构象Ptrial;
4.7)选择操作,过程如下:
4.7.1)计算Ptrial与种群P中除外的每一个个体之间的均方根偏差RMSD,并选出与Ptrial的RMSD最小的个体Pselect;
4.7.2)用Rosetta score5能量函数计算Ptrial和Pselect的能量,并根据Metropolis准则决定是否用Ptrial替换种群P中的个体Pselect;
4.8)n1=n1+1;若n1≤NP,转至步骤4.3);
4.9)g1=g1+1;若g1≤G1,转至步骤4.2);否则结束探索阶段;
5)利用PAM聚类方法对种群P进行聚类,过程如下:
5.1)计算种群P中任意两个个体的RMSD,得到相异度矩阵D(NP×NP),Dmn表示种群中第m个个体与第n个个体的RMSD,其中m和n均∈{1,2,...,NP};
5.2)根据相异度矩阵D(NP×NP),利用PAM聚类方法对种群进行聚类,得到K个聚类中心以及每个类所包含的个体;
6)增强阶段,过程如下:
6.1)令
6.2)设g2=1,其中g2∈{1,2,...,G2};
6.3)设n2=1,其中n2∈{1,2,...,NP};
6.4)令 表示种群Pnew中的第n2个个体;
6.5)变异操作,过程如下:
6.5.1)若g2=1,执行步骤6.5.2);否则,转至步骤6.5.3);
6.5.2)第一代变异操作,过程如下:
6.5.2.1)从种群Pnew中随机选择两个互异且不同于的个体
6.5.2.2)在[0,L-3]内生成均匀随机整数rand5和rand6,其中L表示氨基酸序列长度;
6.5.2.3)将Ptarget的第rand5至rand5+2号残基的二面角值替换成对应残基号的二面角值,将Ptarget的第rand6至rand6+2号残基的二面角值替换成对应残基号的二面角值;
6.5.2.4)转至步骤6.6);
6.5.3)生成均匀随机小数rand7,rand7∈[0,1];若在步骤6.11)中计算的相邻两代种群间的熵值E≥rand7,执行步骤6.5.4);否则,执行步骤6.5.5);
6.5.4)利用熵值E指导变异操作,过程如下:
6.5.4.1)从种群Pnew中选出能量最低的两个个体
6.5.4.2)在[0,L-3]内生成均匀随机整数rand8和rand9,其中L表示构象Ptarget的残基数;
6.5.4.3)将Ptarget的第rand8至rand8+2号残基的二面角值替换成对应残基号的二面角值,将Ptarget的第rand9至rand9+2号残基的二面角值替换成对应残基号的二面角值;
6.5.4.4)转至步骤6.6);
6.5.5)无熵值E指导的变异操作,过程与步骤6.5.2)相同;
6.6)生成均匀随机小数rand10,rand10∈[0,1];若CR<rand10,转至步骤
6.7);否则,执行交叉操作,过程如下:
6.6.1)在[0,L-3]内生成均匀随机整数rand11;
6.6.2)将Ptarget的第rand11至rand11+2号残基的二面角值替换成对应残基号的二面角值;
6.7)利用Rosetta协议第四阶段对Ptarget执行局部搜索操作,生成构象Ptrial;
6.8)用Rosetta score3能量函数计算Ptrial和的能量;根据Metropolis准则决定是否用Ptrial替换种群Pnew中的个体
6.9)n2=n2+1;若n2≤NP,转至步骤6.4);
6.10)保持K个聚类中心不变,重新划分聚类,过程如下:
6.10.1)设n=1,其中n∈{1,2,...,NP};
6.10.2)计算种群Pnew中第n个个体与K个聚类中心的RMSD,将划分到与其RMSD最小的聚类中心所在的类;
6.10.3)n=n+1;若n≤NP,转至步骤6.10.2);
6.11)计算相邻两代种群间的熵值,过程如下:
6.11.1)根据相邻两代种群P和Pnew的K个类中个体的相互转移确定转移矩阵T(K×K),Tij表示上一代种群P的第i个类中的个体在新一代种群Pnew转移到第j个类的概率,其中i和j均∈{1,2,...,K};
6.11.2)根据公式计算熵值;
6.12)P=Pnew;
6.13)g2=g2+1;若g2≤G2,转至步骤6.3);否则结束增强阶段;
7)根据Rosetta聚类算法对种群P中的个体聚类,选出最大类的类心构象作为最终预测结果。
本发明的有益效果为:在差分进化算法的框架下,利用种群中个体状态间的转变选择不同的变异策略,在全局探测和局部增强间达到平衡。在探索阶段,利用排挤策略,使种群在进化的保证种群的多样性;在增强阶段,根据种群中个体状态间的转变构建马尔科夫模型,根据构建马尔科夫型计算种群熵值,再根据计算的熵值信息指导下一代种群中变异策略的选择,从而在全局探测和局部增强间达到平衡,在不断搜索更好的构象的同时避免陷入局部最优,提高构象空间的探索性能。
附图说明
图1是一种基于种群熵的阶段性蛋白质结构预测方法对蛋白质1ENH进行结构预测时的构象更新示意图。
图2是一种基于种群熵的阶段性蛋白质结构预测方法对蛋白质1ENH进行结构预测得到的三维结构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于种群熵的阶段性蛋白质结构预测方法,包括以下步骤:
1)输入预测蛋白质的序列信息;
2)设置参数:种群规模NP,最大迭代次数G1、G2,交叉概率CR,聚类数K;
3)种群初始化:迭代Rosetta协议第一、二阶段,产生具有NP个个体的种群P={P1,P2,...,PNP};
4)探索阶段,过程如下:
4.1)设g1=1,其中g1∈{1,2,...,G1};
4.2)设n1=1,其中n1∈{1,2,...,NP};
4.3)令 表示种群P中的第n1个个体;
4.4)变异操作,过程如下:
4.4.1)从种群P中随机选择两个互异且不同于的个体Pselect1、Pselect2;
4.4.2)在[0,L-9]内生成均匀随机整数rand1和rand2,其中L表示氨基酸序列长度;
4.4.3)将Ptarget的第rand1至rand1+8号残基的二面角值替换成Pselect1对应残基号的二面角值,将Ptarget的第rand2至rand2+8号残基的二面角值替换成Pselect2对应残基号的二面角值;
4.5)生成均匀随机小数rand3,rand3∈[0,1];若CR<rand3,转至步骤4.6);否则,执行交叉操作,过程如下:
4.5.1)在[0,L-9]内生成均匀随机整数rand4;
4.5.2)将Ptarget的第rand4至rand4+8号残基的二面角值替换成对应残基号的二面角值;
4.6)利用Rosetta协议第三阶段对Ptarget执行局部搜索操作,生成构象Ptrial;
4.7)选择操作,过程如下:
4.7.1)计算Ptrial与种群P中除外的每一个个体之间的均方根偏差RMSD,并选出与Ptrial的RMSD最小的个体Pselect;
4.7.2)用Rosetta score5能量函数计算Ptrial和Pselect的能量,并根据Metropolis准则决定是否用Ptrial替换种群P中的个体Pselect;
4.8)n1=n1+1;若n1≤NP,转至步骤4.3);
4.9)g1=g1+1;若g1≤G1,转至步骤4.2);否则结束探索阶段;
5)利用PAM聚类方法对种群P进行聚类,过程如下:
5.1)计算种群P中任意两个个体的RMSD,得到相异度矩阵D(NP×NP),Dmn表示种群中第m个个体与第n个个体的RMSD,其中m和n均∈{1,2,...,NP};
5.2)根据相异度矩阵D(NP×NP),利用PAM聚类方法对种群进行聚类,得到K个聚类中心以及每个类所包含的个体;
6)增强阶段,过程如下:
6.1)令
6.2)设g2=1,其中g2∈{1,2,...,G2};
6.3)设n2=1,其中n2∈{1,2,...,NP};
6.4)令 表示种群Pnew中的第n2个个体;
6.5)变异操作,过程如下:
6.5.1)若g2=1,执行步骤6.5.2);否则,转至步骤6.5.3);
6.5.2)第一代变异操作,过程如下:
6.5.2.1)从种群Pnew中随机选择两个互异且不同于的个体
6.5.2.2)在[0,L-3]内生成均匀随机整数rand5和rand6,其中L表示氨基酸序列长度;
6.5.2.3)将Ptarget的第rand5至rand5+2号残基的二面角值替换成对应残基号的二面角值,将Ptarget的第rand6至rand6+2号残基的二面角值替换成对应残基号的二面角值;
6.5.2.4)转至步骤6.6);
6.5.3)生成均匀随机小数rand7,rand7∈[0,1];若在步骤6.11)中计算的相邻两代种群间的熵值E≥rand7,执行步骤6.5.4);否则,执行步骤6.5.5);
6.5.4)利用熵值E指导变异操作,过程如下:
6.5.4.1)从种群Pnew中选出能量最低的两个个体
6.5.4.2)在[0,L-3]内生成均匀随机整数rand8和rand9,其中L表示构象Ptarget的残基数;
6.5.4.3)将Ptarget的第rand8至rand8+2号残基的二面角值替换成对应残基号的二面角值,将Ptarget的第rand9至rand9+2号残基的二面角值替换成对应残基号的二面角值;
6.5.4.4)转至步骤6.6);
6.5.5)无熵值E指导的变异操作,过程与步骤6.5.2)相同;
6.6)生成均匀随机小数rand10,rand10∈[0,1];若CR<rand10,转至步骤
6.7);否则,执行交叉操作,过程如下:
6.6.1)在[0,L-3]内生成均匀随机整数rand11;
6.6.2)将Ptarget的第rand11至rand11+2号残基的二面角值替换成对应残基号的二面角值;
6.7)利用Rosetta协议第四阶段对Ptarget执行局部搜索操作,生成构象Ptrial;
6.8)用Rosetta score3能量函数计算Ptrial和的能量;根据Metropolis准则决定是否用Ptrial替换种群Pnew中的个体
6.9)n2=n2+1;若n2≤NP,转至步骤6.4);
6.10)保持K个聚类中心不变,重新划分聚类,过程如下:
6.10.1)设n=1,其中n∈{1,2,...,NP};
6.10.2)计算种群Pnew中第n个个体与K个聚类中心的RMSD,将划分到与其RMSD最小的聚类中心所在的类;
6.10.3)n=n+1;若n≤NP,转至步骤6.10.2);
6.11)计算相邻两代种群间的熵值,过程如下:
6.11.1)根据相邻两代种群P和Pnew的K个类中个体的相互转移确定转移矩阵T(K×K),Tij表示上一代种群P的第i个类中的个体在新一代种群Pnew转移到第j个类的概率,其中i和j均∈{1,2,...,K};
6.11.2)根据公式计算熵值;
6.12)P=Pnew;
6.13)g2=g2+1;若g2≤G2,转至步骤6.3);否则结束增强阶段;
7)根据Rosetta聚类算法对种群P中的个体聚类,选出最大类的类心构象作为最终预测结果。
本实施例以序列长度为54的蛋白质1ENH为实施例,一种基于种群熵的阶段性蛋白质结构预测方法,其中包含以下步骤:
1)输入预测蛋白质的序列信息;
2)设置参数:种群规模NP=50,探索阶段的最大迭代次数G1=100,增强阶段的最大迭代次数G2=100,交叉概率CR=0.1,聚类数K=5;
3)种群初始化:迭代Rosetta协议第一、二阶段,产生具有NP个个体的种群P={P1,P2,...,PNP};
4)探索阶段,过程如下:
4.1)设g1=1,其中g1∈{1,2,...,G1};
4.2)设n1=1,其中n1∈{1,2,...,NP};
4.3)令 表示种群P中的第n1个个体;
4.4)变异操作,过程如下:
4.4.1)从种群P中随机选择两个互异且不同于的个体Pselect1、Pselect2;
4.4.2)在[0,L-9]内生成均匀随机整数rand1和rand2,其中L表示氨基酸序列长度;
4.4.3)将Ptarget的第rand1至rand1+8号残基的二面角值替换成Pselect1对应残基号的二面角值,将Ptarget的第rand2至rand2+8号残基的二面角值替换成Pselect2对应残基号的二面角值;
4.5)生成均匀随机小数rand3,rand3∈[0,1];若CR<rand3,转至步骤4.6);否则,执行交叉操作,过程如下:
4.5.1)在[0,L-9]内生成均匀随机整数rand4;
4.5.2)将Ptarget的第rand4至rand4+8号残基的二面角值替换成对应残基号的二面角值;
4.6)利用Rosetta协议第三阶段对Ptarget执行局部搜索操作,生成构象Ptrial;
4.7)选择操作,过程如下:
4.7.1)计算Ptrial与种群P中除外的每一个个体之间的均方根偏差RMSD,并选出与Ptrial的RMSD最小的个体Pselect;
4.7.2)用Rosetta score5能量函数计算Ptrial和Pselect的能量,并根据Metropolis准则决定是否用Ptrial替换种群P中的个体Pselect;
4.8)n1=n1+1;若n1≤NP,转至步骤4.3);
4.9)g1=g1+1;若g1≤G1,转至步骤4.2);否则结束探索阶段;
5)利用PAM聚类方法对种群P进行聚类,过程如下:
5.1)计算种群P中任意两个个体的RMSD,得到相异度矩阵D(NP×NP),Dmn表示种群中第m个个体与第n个个体的RMSD,其中m和n均∈{1,2,...,NP};
5.2)根据相异度矩阵D(NP×NP),利用PAM聚类方法对种群进行聚类,得到K个聚类中心以及每个类所包含的个体;
6)增强阶段,过程如下:
6.1)令
6.2)设g2=1,其中g2∈{1,2,...,G2};
6.3)设n2=1,其中n2∈{1,2,...,NP};
6.4)令 表示种群Pnew中的第n2个个体;
6.5)变异操作,过程如下:
6.5.1)若g2=1,执行步骤6.5.2);否则,转至步骤6.5.3);
6.5.2)第一代变异操作,过程如下:
6.5.2.1)从种群Pnew中随机选择两个互异且不同于的个体
6.5.2.2)在[0,L-3]内生成均匀随机整数rand5和rand6,其中L表示氨基酸序列长度;
6.5.2.3)将Ptarget的第rand5至rand5+2号残基的二面角值替换成对应残基号的二面角值,将Ptarget的第rand6至rand6+2号残基的二面角值替换成对应残基号的二面角值;
6.5.2.4)转至步骤6.6);
6.5.3)生成均匀随机小数rand7,rand7∈[0,1];若在步骤6.11)中计算的相邻两代种群间的熵值E≥rand7,执行步骤6.5.4);否则,执行步骤6.5.5);
6.5.4)利用熵值E指导变异操作,过程如下:
6.5.4.1)从种群Pnew中选出能量最低的两个个体
6.5.4.2)在[0,L-3]内生成均匀随机整数rand8和rand9,其中L表示构象Ptarget的残基数;
6.5.4.3)将Ptarget的第rand8至rand8+2号残基的二面角值替换成对应残基号的二面角值,将Ptarget的第rand9至rand9+2号残基的二面角值替换成对应残基号的二面角值;
6.5.4.4)转至步骤6.6);
6.5.5)无熵值E指导的变异操作,过程与步骤6.5.2)相同;
6.6)生成均匀随机小数rand10,rand10∈[0,1];若CR<rand10,转至步骤
6.7);否则,执行交叉操作,过程如下:
6.6.1)在[0,L-3]内生成均匀随机整数rand11;
6.6.2)将Ptarget的第rand11至rand11+2号残基的二面角值替换成对应残基号的二面角值;
6.7)利用Rosetta协议第四阶段对Ptarget执行局部搜索操作,生成构象Ptrial;
6.8)用Rosetta score3能量函数计算Ptrial和的能量;根据Metropolis准则决定是否用Ptrial替换种群Pnew中的个体
6.9)n2=n2+1;若n2≤NP,转至步骤6.4);
6.10)保持K个聚类中心不变,重新划分聚类,过程如下:
6.10.1)设n=1,其中n∈{1,2,...,NP};
6.10.2)计算种群Pnew中第n个个体与K个聚类中心的RMSD,将划分到与其RMSD最小的聚类中心所在的类;
6.10.3)n=n+1;若n≤NP,转至步骤6.10.2);
6.11)计算相邻两代种群间的熵值,过程如下:
6.11.1)根据相邻两代种群P和Pnew的K个类中个体的相互转移确定转移矩阵T(K×K),Tij表示上一代种群P的第i个类中的个体在新一代种群Pnew转移到第j个类的概率,其中i和j均∈{1,2,...,K};
6.11.2)根据公式计算熵值;
6.12)P=Pnew;
6.13)g2=g2+1;若g2≤G2,转至步骤6.3);否则结束增强阶段;
7)根据Rosetta聚类算法对种群P中的个体聚类,选出最大类的类心构象作为最终预测结果。
以氨基酸序列长度为54的蛋白质1ENH为实施例,运用以上方法得到了该蛋白质的近天然态构象,其构象更新示意图如图1所示,预测的蛋白质的均方根偏差为预测结构如图2所示。
以上阐述是本发明给出的一个实施的预测效果,本发明不仅适合上述实施例,在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施。
Claims (1)
1.一种基于种群熵的阶段性蛋白质结构预测方法,其特征在于:所述蛋白质结构预测方法包括以下步骤:
1)输入预测蛋白质的序列信息;
2)设置参数:种群规模NP,最大迭代次数G1、G2,交叉概率CR,聚类数K;
3)种群初始化:迭代Rosetta协议第一、二阶段,产生具有NP个个体的种群P={P1,P2,...,PNP};
4)探索阶段,过程如下:
4.1)设g1=1,其中g1∈{1,2,...,G1};
4.2)设n1=1,其中n1∈{1,2,...,NP};
4.3)令 表示种群P中的第n1个个体;
4.4)变异操作,过程如下:
4.4.1)从种群P中随机选择两个互异且不同于的个体Pselect1、Pselect2;
4.4.2)在[0,L-9]内生成均匀随机整数rand1和rand2,其中L表示氨基酸序列长度;
4.4.3)将Ptarget的第rand1至rand1+8号残基的二面角值替换成Pselect1对应残基号的二面角值,将Ptarget的第rand2至rand2+8号残基的二面角值替换成Pselect2对应残基号的二面角值;
4.5)生成均匀随机小数rand3,rand3∈[0,1];若CR<rand3,转至步骤4.6);
否则,执行交叉操作,过程如下:
4.5.1)在[0,L-9]内生成均匀随机整数rand4;
4.5.2)将Ptarget的第rand4至rand4+8号残基的二面角值替换成对应残基号的二面角值;
4.6)利用Rosetta协议第三阶段对Ptarget执行局部搜索操作,生成构象Ptrial;
4.7)选择操作,过程如下:
4.7.1)计算Ptrial与种群P中除外的每一个个体之间的均方根偏差RMSD,并选出与Ptrial的RMSD最小的个体Pselect;
4.7.2)用Rosetta score5能量函数计算Ptrial和Pselect的能量,并根据Metropolis准则决定是否用Ptrial替换种群P中的个体Pselect;
4.8)n1=n1+1;若n1≤NP,转至步骤4.3);
4.9)g1=g1+1;若g1≤G1,转至步骤4.2);否则结束探索阶段;
5)利用PAM聚类方法对种群P进行聚类,过程如下:
5.1)计算种群P中任意两个个体的RMSD,得到相异度矩阵D(NP×NP),Dmn表示种群中第m个个体与第n个个体的RMSD,其中m和n均∈{1,2,...,NP};
5.2)根据相异度矩阵D(NP×NP),利用PAM聚类方法对种群进行聚类,得到K个聚类中心以及每个类所包含的个体;
6)增强阶段,过程如下:
6.1)令
6.2)设g2=1,其中g2∈{1,2,...,G2};
6.3)设n2=1,其中n2∈{1,2,...,NP};
6.4)令 表示种群Pnew中的第n2个个体;
6.5)变异操作,过程如下:
6.5.1)若g2=1,执行步骤6.5.2);否则,转至步骤6.5.3);
6.5.2)第一代变异操作,过程如下:
6.5.2.1)从种群Pnew中随机选择两个互异且不同于的个体
6.5.2.2)在[0,L-3]内生成均匀随机整数rand5和rand6,其中L表示氨基酸序列长度;
6.5.2.3)将Ptarget的第rand5至rand5+2号残基的二面角值替换成对应残基号的二面角值,将Ptarget的第rand6至rand6+2号残基的二面角值替换成对应残基号的二面角值;
6.5.2.4)转至步骤6.6);
6.5.3)生成均匀随机小数rand7,rand7∈[0,1];若在步骤6.11)中计算的相邻两代种群间的熵值E≥rand7,执行步骤6.5.4);否则,执行步骤6.5.5);
6.5.4)利用熵值E指导变异操作,过程如下:
6.5.4.1)从种群Pnew中选出能量最低的两个个体
6.5.4.2)在[0,L-3]内生成均匀随机整数rand8和rand9,其中L表示构象Ptarget的残基数;
6.5.4.3)将Ptarget的第rand8至rand8+2号残基的二面角值替换成对应残基号的二面角值,将Ptarget的第rand9至rand9+2号残基的二面角值替换成对应残基号的二面角值;
6.5.5)无熵值E指导的变异操作,过程与步骤6.5.2)相同;
6.6)生成均匀随机小数rand10,rand10∈[0,1];若CR<rand10,转至步骤6.7);否则,执行交叉操作,过程如下:
6.6.1)在[0,L-3]内生成均匀随机整数rand11;
6.6.2)将Ptarget的第rand11至rand11+2号残基的二面角值替换成对应残基号的二面角值;
6.7)利用Rosetta协议第四阶段对Ptarget执行局部搜索操作,生成构象Ptrial;
6.8)用Rosetta score3能量函数计算Ptrial和的能量;根据Metropolis准则决定是否用Ptrial替换种群Pnew中的个体
6.9)n2=n2+1;若n2≤NP,转至步骤6.4);
6.10)保持K个聚类中心不变,重新划分聚类,过程如下:
6.10.1)设n=1,其中n∈{1,2,...,NP};
6.10.2)计算种群Pnew中第n个个体与K个聚类中心的RMSD,将划分到与其RMSD最小的聚类中心所在的类;
6.10.3)n=n+1;若n≤NP,转至步骤6.10.2);
6.11)计算相邻两代种群间的熵值,过程如下:
6.11.1)根据相邻两代种群P和Pnew的K个类中个体的相互转移确定转移矩阵T(K×K),Tij表示上一代种群P的第i个类中的个体在新一代种群Pnew转移到第j个类的概率,其中i和j均∈{1,2,...,K};
6.11.2)根据公式计算熵值;
6.12)P=Pnew;
6.13)g2=g2+1;若g2≤G2,转至步骤6.3);否则结束增强阶段;
7)根据Rosetta聚类算法对种群P中的个体聚类,选出最大类的类心构象作为最终预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810762911.6A CN109243525B (zh) | 2018-07-12 | 2018-07-12 | 一种基于种群熵的阶段性蛋白质结构预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810762911.6A CN109243525B (zh) | 2018-07-12 | 2018-07-12 | 一种基于种群熵的阶段性蛋白质结构预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109243525A true CN109243525A (zh) | 2019-01-18 |
CN109243525B CN109243525B (zh) | 2021-08-03 |
Family
ID=65072496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810762911.6A Active CN109243525B (zh) | 2018-07-12 | 2018-07-12 | 一种基于种群熵的阶段性蛋白质结构预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109243525B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110718267A (zh) * | 2019-08-27 | 2020-01-21 | 浙江工业大学 | 一种基于多模态构象空间采样的蛋白质结构预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760710A (zh) * | 2016-03-11 | 2016-07-13 | 浙江工业大学 | 一种基于两阶段差分进化算法的蛋白质结构预测方法 |
CN106055920A (zh) * | 2016-06-02 | 2016-10-26 | 浙江工业大学 | 一种基于阶段性多策略副本交换的蛋白质结构预测方法 |
CN106503486A (zh) * | 2016-09-23 | 2017-03-15 | 浙江工业大学 | 一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法 |
-
2018
- 2018-07-12 CN CN201810762911.6A patent/CN109243525B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760710A (zh) * | 2016-03-11 | 2016-07-13 | 浙江工业大学 | 一种基于两阶段差分进化算法的蛋白质结构预测方法 |
CN106055920A (zh) * | 2016-06-02 | 2016-10-26 | 浙江工业大学 | 一种基于阶段性多策略副本交换的蛋白质结构预测方法 |
CN106503486A (zh) * | 2016-09-23 | 2017-03-15 | 浙江工业大学 | 一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法 |
Non-Patent Citations (3)
Title |
---|
DEBORA S MARKS: "《Protein structure prediction from sequence variation》", 《NATURE BIOTECHNOLOGY》 * |
ERIK AURELL: "《The Maximum Entropy Fallacy Redux?》", 《PLOS COMPUTATIONAL BIOLOGY》 * |
IAN WALSH: "《Ab initio and template-based prediction of multi-class distance maps by two-dimensional recursive neural networks》", 《BMC STRUCTURAL BIOLOGY》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110718267A (zh) * | 2019-08-27 | 2020-01-21 | 浙江工业大学 | 一种基于多模态构象空间采样的蛋白质结构预测方法 |
CN110718267B (zh) * | 2019-08-27 | 2021-04-06 | 浙江工业大学 | 一种基于多模态构象空间采样的蛋白质结构预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109243525B (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deng et al. | Protein structure prediction | |
CN107609342B (zh) | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 | |
CN107633159B (zh) | 一种基于距离相似度的蛋白质构象空间搜索方法 | |
Karpenko et al. | Prediction of MHC class II binders using the ant colony search strategy | |
Zhang et al. | Enhancing protein conformational space sampling using distance profile-guided differential evolution | |
CN106503486B (zh) | 一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法 | |
CN109086566B (zh) | 一种基于片段重采样的群体蛋白质结构预测方法 | |
CN104933327B (zh) | 一种局部增强的差分进化蛋白质构象空间搜索方法 | |
CN104866733B (zh) | 一种基于副本交换的群体构象空间优化方法 | |
CN108846256A (zh) | 一种基于残基接触信息的群体蛋白质结构预测方法 | |
CN108647486B (zh) | 一种基于构象多样性策略的蛋白质三维结构预测方法 | |
CN109360596A (zh) | 一种基于差分进化局部扰动的蛋白质构象空间优化方法 | |
Huang et al. | Protein structure prediction: challenges, advances, and the shift of research paradigms | |
CN104951670B (zh) | 一种基于距离谱的群体构象空间优化方法 | |
CN109243525A (zh) | 一种基于种群熵的阶段性蛋白质结构预测方法 | |
CN104933328A (zh) | 一种基于副本交换的变步长蛋白质构象空间搜索方法 | |
CN106503485A (zh) | 一种局部增强的多模态差分进化蛋白质结构从头预测方法 | |
CN108595910B (zh) | 一种基于多样性指标的群体蛋白质构象空间优化方法 | |
CN109360598B (zh) | 一种基于两阶段采样的蛋白质结构预测方法 | |
Zhang et al. | Protein structure prediction using population-based algorithm guided by information entropy | |
CN109378033B (zh) | 一种基于转移熵的策略自适应蛋白质构象空间优化方法 | |
CN109360600B (zh) | 一种基于残基特征距离的蛋白质结构预测方法 | |
CN112967751A (zh) | 一种基于进化搜索的蛋白质构象空间优化方法 | |
CN109243526B (zh) | 一种基于特定片段交叉的蛋白质结构预测方法 | |
Esquivel-Rodríguez et al. | Effect of conformation sampling strategies in genetic algorithm for multiple protein docking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20190118 Assignee: ZHEJIANG ORIENT GENE BIOTECH CO.,LTD. Assignor: JIANG University OF TECHNOLOGY Contract record no.: X2023980053610 Denomination of invention: A Stage wise Protein Structure Prediction Method Based on Population Entropy Granted publication date: 20210803 License type: Common License Record date: 20231222 |
|
EE01 | Entry into force of recordation of patent licensing contract |