CN107506613B - 一种基于复合结构特征的多模态蛋白质构象空间优化方法 - Google Patents

一种基于复合结构特征的多模态蛋白质构象空间优化方法 Download PDF

Info

Publication number
CN107506613B
CN107506613B CN201710756612.7A CN201710756612A CN107506613B CN 107506613 B CN107506613 B CN 107506613B CN 201710756612 A CN201710756612 A CN 201710756612A CN 107506613 B CN107506613 B CN 107506613B
Authority
CN
China
Prior art keywords
individual
mode
spectrum
value
individuals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710756612.7A
Other languages
English (en)
Other versions
CN107506613A (zh
Inventor
张贵军
郝小虎
谢腾宇
周晓根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201710756612.7A priority Critical patent/CN107506613B/zh
Publication of CN107506613A publication Critical patent/CN107506613A/zh
Application granted granted Critical
Publication of CN107506613B publication Critical patent/CN107506613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于复合结构特征的多模态蛋白质构象空间优化方法,包括以下步骤:基于进化算法框架,以RosettaScore3为优化目标函数,统计得到种群个体的个体距离谱,个体二级结构谱,个体二面角谱三种结构特征,通过多模态策略提高算法采样的多样性,根据结构特征选择子代个体,可以有效的弥补能量模型不精确的缺陷,通过进化迭代,可以得到精度较高的预测结构。本发明采样效率较高、复杂度较低、预测精度较高。

Description

一种基于复合结构特征的多模态蛋白质构象空间优化方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于复合结构特征的多模态蛋白质构象空间优化方法。
背景技术
生物信息学是生命科学和计算机科学交叉领域的一个研究热点。目前,根据Anfinsen假设,直接从氨基酸序列出发,基于势能模型,采用全局优化方法,搜索分子系统的最小能量状态,从而高通量、廉价地预测肽链的天然构象,已经成为生物信息学最重要的研究课题之一。对于序列相似度低或多肽(<10个残基的小蛋白)来说,从头预测方法是唯一的选择。从头预测方法必须考虑以下两个因素:(1)蛋白质结构能量函数;(2)构象空间搜索方法。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白质结构对应的能量值。目前已经存在一些较为有效的结构能量函数,如:简单网格模型HP及更实际的经验力场模型MM3,AMBER,CHARMM,GROMOS,DISCOVER,ECEPP/3等;第二个因素本质上属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速搜索,得到与某一全局最小能量对应的构象。其中,蛋白质构象空间优化属于一类非常难解的NP-Hard问题。2005年,D.Baker在Science中指出,构象空间优化方法是制约蛋白质从头预测方法预测精度的一个瓶颈因素。
因此,现有的构象空间优化方法存在采样效率、复杂度及预测精度方面存在不足,需要改进。
发明内容
为了克服现有的蛋白质构象优化方法的采样效率较低、复杂度较高、预测精度较低的不足,本发明提出一种采样效率较高、复杂度较低、预测精度较高的基于复合结构特征的多模态蛋白质构象空间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于复合结构特征的多模态蛋白质构象空间优化方法,所述构象空间优化方法包括以下步骤:
1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;
2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu
3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;
4)开始迭代,当前迭代次数i=1,过程如下:
4.1)如果当前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:
4.1.1)随机选择种群中的一个个体作为目标个体Pt
4.1.2)对Pt做NF次片段组装,得到变异个体Pm
4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;
4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:
4.1.6.1)分别计算Pm、Pc1、Pc2的能量接收概率:
Figure GDA0002500072760000021
Figure GDA0002500072760000022
4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.1.10)当前迭代次数i=i+1;
4.1.11)返回步骤4.1);
4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:
4.2.1)随机选择NM个模态中的一个模态;
4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt
4.2.3)对Pt做NF次片段组装,得到变异个体Pm
4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;
4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;
4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:
4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率
Figure GDA0002500072760000031
Figure GDA0002500072760000032
其中ΔHDA m,ΔHSS m,ΔHD m分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDA c2,ΔHSS c2,ΔHD c2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1和ΔHDA c2,ΔHSS c2,ΔHD c2中上角标c1,c2为个体Pc1、Pc2的标记;
4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt
4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt
4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.2.12)当前迭代次数i=i+1;
4.2.13)返回步骤4.2);
5)迭代结束,输出预测结构;
本发明的技术构思为:基于进化算法框架,以RosettaScore3为优化目标函数,统计得到种群个体的个体距离谱,个体二级结构谱,个体二面角谱三种结构特征,通过多模态策略提高算法采样的多样性,根据结构特征选择子代个体,可以有效的弥补能量模型不精确的缺陷,通过进化迭代,可以得到精度较高的预测结构。
本发明的有益效果为:采样效率较高、复杂度较低、预测精度较高。
附图说明
图1是优化得到的1ENH蛋白质三维结构比对示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于复合结构特征的多模态蛋白质构象空间优化方法,包括以下步骤:
1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;
2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu
3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;
4)开始迭代,当前迭代次数i=1,过程如下:
4.1)如果当前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:
4.1.1)随机选择种群中的一个个体作为目标个体Pt
4.1.2)对Pt做NF次片段组装,得到变异个体Pm
4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;
4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:
4.1.6.1)分别计算Pm、Pc1、Pc2的能量接收概率:
Figure GDA0002500072760000051
Figure GDA0002500072760000052
4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.1.10)当前迭代次数i=i+1;
4.1.11)返回步骤4.1);
4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:
4.2.1)随机选择NM个模态中的一个模态;
4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt
4.2.3)对Pt做NF次片段组装,得到变异个体Pm
4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;
4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;
4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:
4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率
Figure GDA0002500072760000061
Figure GDA0002500072760000062
其中ΔHDA m,ΔHSS m,ΔHD m分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDA c2,ΔHSS c2,ΔHD c2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1和ΔHDA c2,ΔHSS c2,ΔHD c2中上角标c1,c2为个体Pc1、Pc2的标记;
4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt
4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt
4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.2.12)当前迭代次数i=i+1;
4.2.13)返回步骤4.2);
5)迭代结束,输出预测结构;
本实施例以PDB ID为1ENH的蛋白质为实施例,一种基于复合结构特征的多模态蛋白质构象空间优化方法,包括以下步骤:
1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;
2)参数初始化:种群规模PN=300,模态数目NM=10,最大迭代次数Gmax=100000,序列长度SL=54,Nmu=9;
3)种群初始化:根据给定输入氨基酸序列,对300个个体依次进行54次片段组装,根据每个个体的三维结构信息统计得到对应的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;
4)开始迭代,当前迭代次数i=1,过程如下:
4.1)如果当前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:
4.1.1)随机选择种群中的一个个体作为目标个体Pt
4.1.2)对Pt做NF次片段组装,得到变异个体Pm
4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;
4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:
4.1.6.1)分别计算Pm、Pc1、Pc2的能量接收概率:
Figure GDA0002500072760000071
Figure GDA0002500072760000072
4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.1.10)当前迭代次数i=i+1;
4.1.11)返回步骤4.1);
4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:
4.2.1)随机选择NM个模态中的一个模态;
4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt
4.2.3)对Pt做NF次片段组装,得到变异个体Pm
4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;
4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;
4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:
4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率
Figure GDA0002500072760000081
Figure GDA0002500072760000082
其中ΔHDA m,ΔHSS m,ΔHD m分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDA c2,ΔHSS c2,ΔHD c2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1和ΔHDA c2,ΔHSS c2,ΔHD c2中上角标c1,c2为个体Pc1、Pc2的标记;
4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt
4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt
4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.2.12)当前迭代次数i=i+1;
4.2.13)返回步骤4.2);
5)迭代结束,输出预测结构;
以PDB ID为1ENH的蛋白质为实施例,运用以上方法得到了该蛋白质的近天然态构象解,如图1所示。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种基于复合结构特征的多模态蛋白质构象空间优化方法,其特征在于,包括以下步骤:
1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;
2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu
3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;
4)开始迭代,当前迭代次数i=1,过程如下:
4.1)如果当前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:
4.1.1)随机选择种群中的一个个体作为目标个体Pt
4.1.2)对Pt做NF次片段组装,得到变异个体Pm
4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;
4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:
4.1.6.1)分别计算Pm、Pc1、Pc2的能量接收概率:
Figure FDA0002500072750000011
Figure FDA0002500072750000012
4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.1.10)当前迭代次数i=i+1;
4.1.11)返回步骤4.1);
4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:
4.2.1)随机选择NM个模态中的一个模态;
4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt
4.2.3)对Pt做NF次片段组装,得到变异个体Pm
4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;
4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;
4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:
4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率
Figure FDA0002500072750000021
Figure FDA0002500072750000022
其中ΔHDA m,ΔHSS m,ΔHD m分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDA c2,ΔHSS c2,ΔHD c2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1和ΔHDA c2,ΔHSS c2,ΔHD c2中上角标c1,c2为个体Pc1、Pc2的标记;
4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt
4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt
4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.2.12)当前迭代次数i=i+1;
4.2.13)返回步骤4.2);
5)迭代结束,输出预测结构。
CN201710756612.7A 2017-08-29 2017-08-29 一种基于复合结构特征的多模态蛋白质构象空间优化方法 Active CN107506613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710756612.7A CN107506613B (zh) 2017-08-29 2017-08-29 一种基于复合结构特征的多模态蛋白质构象空间优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710756612.7A CN107506613B (zh) 2017-08-29 2017-08-29 一种基于复合结构特征的多模态蛋白质构象空间优化方法

Publications (2)

Publication Number Publication Date
CN107506613A CN107506613A (zh) 2017-12-22
CN107506613B true CN107506613B (zh) 2020-08-18

Family

ID=60694241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710756612.7A Active CN107506613B (zh) 2017-08-29 2017-08-29 一种基于复合结构特征的多模态蛋白质构象空间优化方法

Country Status (1)

Country Link
CN (1) CN107506613B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334746B (zh) * 2018-01-15 2021-06-18 浙江工业大学 一种基于二级结构相似度的蛋白质结构预测方法
CN108830042B (zh) * 2018-06-13 2021-09-21 深圳大学 一种基于多模态蛋白质序列的特征提取与编码方法及系统
CN109509510B (zh) * 2018-07-12 2021-06-18 浙江工业大学 一种基于多种群系综变异策略的蛋白质结构预测方法
CN109378035B (zh) * 2018-08-29 2021-02-26 浙江工业大学 一种基于二级结构动态选择策略的蛋白质结构预测方法
CA3110242C (en) * 2018-09-21 2023-08-01 Deepmind Technologies Limited Determining protein distance maps by combining distance maps crops
CN110718267B (zh) * 2019-08-27 2021-04-06 浙江工业大学 一种基于多模态构象空间采样的蛋白质结构预测方法
CN110706741B (zh) * 2019-08-27 2021-08-03 浙江工业大学 一种基于序列小生境的多模态蛋白质结构预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252485A (ja) * 2005-03-14 2006-09-21 In-Silico Science Inc リガンド探索装置、リガンド探索方法、プログラム、および記録媒体
CN101082944A (zh) * 2007-06-01 2007-12-05 哈尔滨工程大学 基于综合算法的蛋白质折叠过程的计算机模拟方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252485A (ja) * 2005-03-14 2006-09-21 In-Silico Science Inc リガンド探索装置、リガンド探索方法、プログラム、および記録媒体
CN101082944A (zh) * 2007-06-01 2007-12-05 哈尔滨工程大学 基于综合算法的蛋白质折叠过程的计算机模拟方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Hybrid Ant Colony Optimization for the Prediction of Protein Secondary Structure;Chao CHEN等;《Chinese Chemical Letters》;20051125;第1551-1554页 *
一种新的蛋白质结构预测多模态优化算法;程正华等;《计算机科学》;20130915;第212-215页 *

Also Published As

Publication number Publication date
CN107506613A (zh) 2017-12-22

Similar Documents

Publication Publication Date Title
CN107506613B (zh) 一种基于复合结构特征的多模态蛋白质构象空间优化方法
Liu et al. Identification of DNA-binding proteins by combining auto-cross covariance transformation and ensemble learning
CN103714265B (zh) 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法
CN103413067A (zh) 一种基于抽象凸下界估计的蛋白质结构预测方法
Li et al. Protein contact map prediction based on ResNet and DenseNet
CN105205348B (zh) 一种基于距离约束选择策略的群体构象空间优化方法
Zhang et al. Enhancing protein conformational space sampling using distance profile-guided differential evolution
US20220005546A1 (en) Non-redundant gene set clustering method and system, and electronic device
CN104866733B (zh) 一种基于副本交换的群体构象空间优化方法
CN103473482A (zh) 基于差分进化和构象空间退火的蛋白质三维结构预测方法
CN108846256A (zh) 一种基于残基接触信息的群体蛋白质结构预测方法
CN107491664B (zh) 一种基于信息熵的蛋白质结构从头预测方法
CN106372456A (zh) 一种基于深度学习Residue2vec的蛋白质结构预测方法
CN104951670B (zh) 一种基于距离谱的群体构象空间优化方法
CN106228035A (zh) 基于局部敏感哈希和非参数化贝叶斯方法的高效聚类方法
Ju et al. GPS: Graph contrastive learning via multi-scale augmented views from adversarial pooling
CN104732115B (zh) 一种基于简约空间抽象凸下界估计的蛋白质构象优化方法
Zhang et al. SPIN-CGNN: Improved fixed backbone protein design with contact map-based graph construction and contact graph neural network
CN108647486A (zh) 一种基于构象多样性策略的蛋白质三维结构预测方法
CN102012908A (zh) 障碍物环境中可视移动近邻的查询方法
CN110188098A (zh) 一种基于双层锚点图投影优化的高维向量数据可视化方法及系统
CN106778057B (zh) 一种基于量子进化算法的蛋白质构象空间优化方法
Yue et al. ReQFlow: rectified quaternion flow for efficient and high-quality protein backbone generation
CN109378033B (zh) 一种基于转移熵的策略自适应蛋白质构象空间优化方法
CN108614889B (zh) 基于混合高斯模型的移动对象连续k近邻查询方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant