CN107506613B - 一种基于复合结构特征的多模态蛋白质构象空间优化方法 - Google Patents
一种基于复合结构特征的多模态蛋白质构象空间优化方法 Download PDFInfo
- Publication number
- CN107506613B CN107506613B CN201710756612.7A CN201710756612A CN107506613B CN 107506613 B CN107506613 B CN 107506613B CN 201710756612 A CN201710756612 A CN 201710756612A CN 107506613 B CN107506613 B CN 107506613B
- Authority
- CN
- China
- Prior art keywords
- individual
- mode
- individuals
- spectrum
- minimum value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 23
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 23
- 238000005457 optimization Methods 0.000 title claims abstract description 18
- 239000002131 composite material Substances 0.000 title claims abstract description 8
- 238000001228 spectrum Methods 0.000 claims abstract description 54
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 8
- 239000012634 fragment Substances 0.000 claims description 8
- 150000001413 amino acids Chemical class 0.000 claims description 3
- 238000005070 sampling Methods 0.000 abstract description 7
- 230000007547 defect Effects 0.000 abstract description 4
- 108090000765 processed proteins & peptides Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000324 molecular mechanic Methods 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 238000005381 potential energy Methods 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
一种基于复合结构特征的多模态蛋白质构象空间优化方法,包括以下步骤:基于进化算法框架,以RosettaScore3为优化目标函数,统计得到种群个体的个体距离谱,个体二级结构谱,个体二面角谱三种结构特征,通过多模态策略提高算法采样的多样性,根据结构特征选择子代个体,可以有效的弥补能量模型不精确的缺陷,通过进化迭代,可以得到精度较高的预测结构。本发明采样效率较高、复杂度较低、预测精度较高。
Description
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于复合结构特征的多模态蛋白质构象空间优化方法。
背景技术
生物信息学是生命科学和计算机科学交叉领域的一个研究热点。目前,根据Anfinsen假设,直接从氨基酸序列出发,基于势能模型,采用全局优化方法,搜索分子系统的最小能量状态,从而高通量、廉价地预测肽链的天然构象,已经成为生物信息学最重要的研究课题之一。对于序列相似度低或多肽(<10个残基的小蛋白)来说,从头预测方法是唯一的选择。从头预测方法必须考虑以下两个因素:(1)蛋白质结构能量函数;(2)构象空间搜索方法。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白质结构对应的能量值。目前已经存在一些较为有效的结构能量函数,如:简单网格模型HP及更实际的经验力场模型MM3,AMBER,CHARMM,GROMOS,DISCOVER,ECEPP/3等;第二个因素本质上属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速搜索,得到与某一全局最小能量对应的构象。其中,蛋白质构象空间优化属于一类非常难解的NP-Hard问题。2005年,D.Baker在Science中指出,构象空间优化方法是制约蛋白质从头预测方法预测精度的一个瓶颈因素。
因此,现有的构象空间优化方法存在采样效率、复杂度及预测精度方面存在不足,需要改进。
发明内容
为了克服现有的蛋白质构象优化方法的采样效率较低、复杂度较高、预测精度较低的不足,本发明提出一种采样效率较高、复杂度较低、预测精度较高的基于复合结构特征的多模态蛋白质构象空间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于复合结构特征的多模态蛋白质构象空间优化方法,所述构象空间优化方法包括以下步骤:
1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;
2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu;
3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;
4)开始迭代,当前迭代次数i=1,过程如下:
4.1)如果当前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:
4.1.1)随机选择种群中的一个个体作为目标个体Pt;
4.1.2)对Pt做NF次片段组装,得到变异个体Pm;
4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;
4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2;
4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2;
4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:
4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt;
4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt;
4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.1.10)当前迭代次数i=i+1;
4.1.11)返回步骤4.1);
4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:
4.2.1)随机选择NM个模态中的一个模态;
4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt;
4.2.3)对Pt做NF次片段组装,得到变异个体Pm;
4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;
4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2;
4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2;
4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;
4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:
4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率 其中ΔHDA m,ΔHSS m,ΔHD m分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDA c2,ΔHSS c2,ΔHD c2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1和ΔHDA c2,ΔHSS c2,ΔHD c2中上角标c1,c2为个体Pc1、Pc2的标记;
4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt;
4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt;
4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.2.12)当前迭代次数i=i+1;
4.2.13)返回步骤4.2);
5)迭代结束,输出预测结构;
本发明的技术构思为:基于进化算法框架,以RosettaScore3为优化目标函数,统计得到种群个体的个体距离谱,个体二级结构谱,个体二面角谱三种结构特征,通过多模态策略提高算法采样的多样性,根据结构特征选择子代个体,可以有效的弥补能量模型不精确的缺陷,通过进化迭代,可以得到精度较高的预测结构。
本发明的有益效果为:采样效率较高、复杂度较低、预测精度较高。
附图说明
图1是优化得到的1ENH蛋白质三维结构比对示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于复合结构特征的多模态蛋白质构象空间优化方法,包括以下步骤:
1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;
2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu;
3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;
4)开始迭代,当前迭代次数i=1,过程如下:
4.1)如果当前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:
4.1.1)随机选择种群中的一个个体作为目标个体Pt;
4.1.2)对Pt做NF次片段组装,得到变异个体Pm;
4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;
4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2;
4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2;
4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:
4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt;
4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt;
4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.1.10)当前迭代次数i=i+1;
4.1.11)返回步骤4.1);
4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:
4.2.1)随机选择NM个模态中的一个模态;
4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt;
4.2.3)对Pt做NF次片段组装,得到变异个体Pm;
4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;
4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2;
4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2;
4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;
4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:
4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率 其中ΔHDA m,ΔHSS m,ΔHD m分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDA c2,ΔHSS c2,ΔHD c2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1和ΔHDA c2,ΔHSS c2,ΔHD c2中上角标c1,c2为个体Pc1、Pc2的标记;
4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt;
4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt;
4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.2.12)当前迭代次数i=i+1;
4.2.13)返回步骤4.2);
5)迭代结束,输出预测结构;
本实施例以PDB ID为1ENH的蛋白质为实施例,一种基于复合结构特征的多模态蛋白质构象空间优化方法,包括以下步骤:
1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;
2)参数初始化:种群规模PN=300,模态数目NM=10,最大迭代次数Gmax=100000,序列长度SL=54,Nmu=9;
3)种群初始化:根据给定输入氨基酸序列,对300个个体依次进行54次片段组装,根据每个个体的三维结构信息统计得到对应的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;
4)开始迭代,当前迭代次数i=1,过程如下:
4.1)如果当前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:
4.1.1)随机选择种群中的一个个体作为目标个体Pt;
4.1.2)对Pt做NF次片段组装,得到变异个体Pm;
4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;
4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2;
4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2;
4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:
4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt;
4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt;
4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.1.10)当前迭代次数i=i+1;
4.1.11)返回步骤4.1);
4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:
4.2.1)随机选择NM个模态中的一个模态;
4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt;
4.2.3)对Pt做NF次片段组装,得到变异个体Pm;
4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;
4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2;
4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2;
4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;
4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:
4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率 其中ΔHDA m,ΔHSS m,ΔHD m分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDA c2,ΔHSS c2,ΔHD c2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1和ΔHDA c2,ΔHSS c2,ΔHD c2中上角标c1,c2为个体Pc1、Pc2的标记;
4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt;
4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt;
4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.2.12)当前迭代次数i=i+1;
4.2.13)返回步骤4.2);
5)迭代结束,输出预测结构;
以PDB ID为1ENH的蛋白质为实施例,运用以上方法得到了该蛋白质的近天然态构象解,如图1所示。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。
Claims (1)
1.一种基于复合结构特征的多模态蛋白质构象空间优化方法,其特征在于,包括以下步骤:
1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;
2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu;
3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;
4)开始迭代,当前迭代次数i=1,过程如下:
4.1)如果当前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:
4.1.1)随机选择种群中的一个个体作为目标个体Pt;
4.1.2)对Pt做NF次片段组装,得到变异个体Pm;
4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;
4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2;
4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2;
4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:
4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt;
4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt;
4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.1.10)当前迭代次数i=i+1;
4.1.11)返回步骤4.1);
4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:
4.2.1)随机选择NM个模态中的一个模态;
4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt;
4.2.3)对Pt做NF次片段组装,得到变异个体Pm;
4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;
4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2;
4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2;
4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;
4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:
4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率 其中ΔHDA m,ΔHSS m,ΔHD m分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDA c2,ΔHSS c2,ΔHD c2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1和ΔHDA c2,ΔHSS c2,ΔHD c2中上角标c1,c2为个体Pc1、Pc2的标记;
4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt;
4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt;
4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.2.12)当前迭代次数i=i+1;
4.2.13)返回步骤4.2);
5)迭代结束,输出预测结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710756612.7A CN107506613B (zh) | 2017-08-29 | 2017-08-29 | 一种基于复合结构特征的多模态蛋白质构象空间优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710756612.7A CN107506613B (zh) | 2017-08-29 | 2017-08-29 | 一种基于复合结构特征的多模态蛋白质构象空间优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107506613A CN107506613A (zh) | 2017-12-22 |
CN107506613B true CN107506613B (zh) | 2020-08-18 |
Family
ID=60694241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710756612.7A Active CN107506613B (zh) | 2017-08-29 | 2017-08-29 | 一种基于复合结构特征的多模态蛋白质构象空间优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107506613B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334746B (zh) * | 2018-01-15 | 2021-06-18 | 浙江工业大学 | 一种基于二级结构相似度的蛋白质结构预测方法 |
CN108830042B (zh) * | 2018-06-13 | 2021-09-21 | 深圳大学 | 一种基于多模态蛋白质序列的特征提取与编码方法及系统 |
CN109509510B (zh) * | 2018-07-12 | 2021-06-18 | 浙江工业大学 | 一种基于多种群系综变异策略的蛋白质结构预测方法 |
CN109378035B (zh) * | 2018-08-29 | 2021-02-26 | 浙江工业大学 | 一种基于二级结构动态选择策略的蛋白质结构预测方法 |
US20210304847A1 (en) * | 2018-09-21 | 2021-09-30 | Deepmind Technologies Limited | Machine learning for determining protein structures |
CN110718267B (zh) * | 2019-08-27 | 2021-04-06 | 浙江工业大学 | 一种基于多模态构象空间采样的蛋白质结构预测方法 |
CN110706741B (zh) * | 2019-08-27 | 2021-08-03 | 浙江工业大学 | 一种基于序列小生境的多模态蛋白质结构预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006252485A (ja) * | 2005-03-14 | 2006-09-21 | In-Silico Science Inc | リガンド探索装置、リガンド探索方法、プログラム、および記録媒体 |
CN101082944A (zh) * | 2007-06-01 | 2007-12-05 | 哈尔滨工程大学 | 基于综合算法的蛋白质折叠过程的计算机模拟方法 |
-
2017
- 2017-08-29 CN CN201710756612.7A patent/CN107506613B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006252485A (ja) * | 2005-03-14 | 2006-09-21 | In-Silico Science Inc | リガンド探索装置、リガンド探索方法、プログラム、および記録媒体 |
CN101082944A (zh) * | 2007-06-01 | 2007-12-05 | 哈尔滨工程大学 | 基于综合算法的蛋白质折叠过程的计算机模拟方法 |
Non-Patent Citations (2)
Title |
---|
A Hybrid Ant Colony Optimization for the Prediction of Protein Secondary Structure;Chao CHEN等;《Chinese Chemical Letters》;20051125;第1551-1554页 * |
一种新的蛋白质结构预测多模态优化算法;程正华等;《计算机科学》;20130915;第212-215页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107506613A (zh) | 2017-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107506613B (zh) | 一种基于复合结构特征的多模态蛋白质构象空间优化方法 | |
Cao et al. | Spectral temporal graph neural network for trajectory prediction | |
Ding et al. | Protein design via deep learning | |
Gairola et al. | Simpropnet: Improved similarity propagation for few-shot image segmentation | |
Fang et al. | Prediction of protein backbone torsion angles using deep residual inception neural networks | |
Xu et al. | Multi-view 3D shape recognition via correspondence-aware deep learning | |
Li et al. | Protein contact map prediction based on ResNet and DenseNet | |
CN105760710A (zh) | 一种基于两阶段差分进化算法的蛋白质结构预测方法 | |
Li et al. | Protein loop modeling using deep generative adversarial network | |
WO2023087953A1 (zh) | 搜索神经网络集成模型的方法、装置和电子设备 | |
Ismi et al. | Deep learning for protein secondary structure prediction: Pre and post-AlphaFold | |
Chen et al. | PROSPECT: a web server for predicting protein histidine phosphorylation sites | |
CN113257357B (zh) | 蛋白质残基接触图预测方法 | |
CN104951670B (zh) | 一种基于距离谱的群体构象空间优化方法 | |
Zheng et al. | Predicting drug targets from heterogeneous spaces using anchor graph hashing and ensemble learning | |
Pei et al. | Fabind: Fast and accurate protein-ligand binding | |
US20230420070A1 (en) | Protein Structure Prediction | |
Xu et al. | DeepRank-GNN-esm: a graph neural network for scoring protein–protein models using protein language model | |
Özçelik et al. | Structure-based drug discovery with deep learning | |
KR20210148544A (ko) | 아미노산 간의 인접 지도를 이용한 단백질의 3차 구조 예측 방법 | |
CN116705192A (zh) | 基于深度学习的药物虚拟筛选方法及装置 | |
CN116758978A (zh) | 基于蛋白质结构的可控属性全新活性小分子设计方法 | |
Bett et al. | Diffusion kernel to identify missing PPIs in protein network biomarker | |
Zhang et al. | Protein Language Model Supervised Precise and Efficient Protein Backbone Design Method | |
WO2022118607A1 (ja) | 情報処理装置、情報処理方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |