CN107506613B - 一种基于复合结构特征的多模态蛋白质构象空间优化方法 - Google Patents

一种基于复合结构特征的多模态蛋白质构象空间优化方法 Download PDF

Info

Publication number
CN107506613B
CN107506613B CN201710756612.7A CN201710756612A CN107506613B CN 107506613 B CN107506613 B CN 107506613B CN 201710756612 A CN201710756612 A CN 201710756612A CN 107506613 B CN107506613 B CN 107506613B
Authority
CN
China
Prior art keywords
individual
mode
individuals
spectrum
minimum value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710756612.7A
Other languages
English (en)
Other versions
CN107506613A (zh
Inventor
张贵军
郝小虎
谢腾宇
周晓根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201710756612.7A priority Critical patent/CN107506613B/zh
Publication of CN107506613A publication Critical patent/CN107506613A/zh
Application granted granted Critical
Publication of CN107506613B publication Critical patent/CN107506613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于复合结构特征的多模态蛋白质构象空间优化方法,包括以下步骤:基于进化算法框架,以RosettaScore3为优化目标函数,统计得到种群个体的个体距离谱,个体二级结构谱,个体二面角谱三种结构特征,通过多模态策略提高算法采样的多样性,根据结构特征选择子代个体,可以有效的弥补能量模型不精确的缺陷,通过进化迭代,可以得到精度较高的预测结构。本发明采样效率较高、复杂度较低、预测精度较高。

Description

一种基于复合结构特征的多模态蛋白质构象空间优化方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于复合结构特征的多模态蛋白质构象空间优化方法。
背景技术
生物信息学是生命科学和计算机科学交叉领域的一个研究热点。目前,根据Anfinsen假设,直接从氨基酸序列出发,基于势能模型,采用全局优化方法,搜索分子系统的最小能量状态,从而高通量、廉价地预测肽链的天然构象,已经成为生物信息学最重要的研究课题之一。对于序列相似度低或多肽(<10个残基的小蛋白)来说,从头预测方法是唯一的选择。从头预测方法必须考虑以下两个因素:(1)蛋白质结构能量函数;(2)构象空间搜索方法。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白质结构对应的能量值。目前已经存在一些较为有效的结构能量函数,如:简单网格模型HP及更实际的经验力场模型MM3,AMBER,CHARMM,GROMOS,DISCOVER,ECEPP/3等;第二个因素本质上属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速搜索,得到与某一全局最小能量对应的构象。其中,蛋白质构象空间优化属于一类非常难解的NP-Hard问题。2005年,D.Baker在Science中指出,构象空间优化方法是制约蛋白质从头预测方法预测精度的一个瓶颈因素。
因此,现有的构象空间优化方法存在采样效率、复杂度及预测精度方面存在不足,需要改进。
发明内容
为了克服现有的蛋白质构象优化方法的采样效率较低、复杂度较高、预测精度较低的不足,本发明提出一种采样效率较高、复杂度较低、预测精度较高的基于复合结构特征的多模态蛋白质构象空间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于复合结构特征的多模态蛋白质构象空间优化方法,所述构象空间优化方法包括以下步骤:
1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;
2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu
3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;
4)开始迭代,当前迭代次数i=1,过程如下:
4.1)如果当前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:
4.1.1)随机选择种群中的一个个体作为目标个体Pt
4.1.2)对Pt做NF次片段组装,得到变异个体Pm
4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;
4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:
4.1.6.1)分别计算Pm、Pc1、Pc2的能量接收概率:
Figure GDA0002500072760000021
Figure GDA0002500072760000022
4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.1.10)当前迭代次数i=i+1;
4.1.11)返回步骤4.1);
4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:
4.2.1)随机选择NM个模态中的一个模态;
4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt
4.2.3)对Pt做NF次片段组装,得到变异个体Pm
4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;
4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;
4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:
4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率
Figure GDA0002500072760000031
Figure GDA0002500072760000032
其中ΔHDA m,ΔHSS m,ΔHD m分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDA c2,ΔHSS c2,ΔHD c2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1和ΔHDA c2,ΔHSS c2,ΔHD c2中上角标c1,c2为个体Pc1、Pc2的标记;
4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt
4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt
4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.2.12)当前迭代次数i=i+1;
4.2.13)返回步骤4.2);
5)迭代结束,输出预测结构;
本发明的技术构思为:基于进化算法框架,以RosettaScore3为优化目标函数,统计得到种群个体的个体距离谱,个体二级结构谱,个体二面角谱三种结构特征,通过多模态策略提高算法采样的多样性,根据结构特征选择子代个体,可以有效的弥补能量模型不精确的缺陷,通过进化迭代,可以得到精度较高的预测结构。
本发明的有益效果为:采样效率较高、复杂度较低、预测精度较高。
附图说明
图1是优化得到的1ENH蛋白质三维结构比对示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于复合结构特征的多模态蛋白质构象空间优化方法,包括以下步骤:
1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;
2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu
3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;
4)开始迭代,当前迭代次数i=1,过程如下:
4.1)如果当前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:
4.1.1)随机选择种群中的一个个体作为目标个体Pt
4.1.2)对Pt做NF次片段组装,得到变异个体Pm
4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;
4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:
4.1.6.1)分别计算Pm、Pc1、Pc2的能量接收概率:
Figure GDA0002500072760000051
Figure GDA0002500072760000052
4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.1.10)当前迭代次数i=i+1;
4.1.11)返回步骤4.1);
4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:
4.2.1)随机选择NM个模态中的一个模态;
4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt
4.2.3)对Pt做NF次片段组装,得到变异个体Pm
4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;
4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;
4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:
4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率
Figure GDA0002500072760000061
Figure GDA0002500072760000062
其中ΔHDA m,ΔHSS m,ΔHD m分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDA c2,ΔHSS c2,ΔHD c2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1和ΔHDA c2,ΔHSS c2,ΔHD c2中上角标c1,c2为个体Pc1、Pc2的标记;
4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt
4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt
4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.2.12)当前迭代次数i=i+1;
4.2.13)返回步骤4.2);
5)迭代结束,输出预测结构;
本实施例以PDB ID为1ENH的蛋白质为实施例,一种基于复合结构特征的多模态蛋白质构象空间优化方法,包括以下步骤:
1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;
2)参数初始化:种群规模PN=300,模态数目NM=10,最大迭代次数Gmax=100000,序列长度SL=54,Nmu=9;
3)种群初始化:根据给定输入氨基酸序列,对300个个体依次进行54次片段组装,根据每个个体的三维结构信息统计得到对应的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;
4)开始迭代,当前迭代次数i=1,过程如下:
4.1)如果当前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:
4.1.1)随机选择种群中的一个个体作为目标个体Pt
4.1.2)对Pt做NF次片段组装,得到变异个体Pm
4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;
4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:
4.1.6.1)分别计算Pm、Pc1、Pc2的能量接收概率:
Figure GDA0002500072760000071
Figure GDA0002500072760000072
4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.1.10)当前迭代次数i=i+1;
4.1.11)返回步骤4.1);
4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:
4.2.1)随机选择NM个模态中的一个模态;
4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt
4.2.3)对Pt做NF次片段组装,得到变异个体Pm
4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;
4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;
4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:
4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率
Figure GDA0002500072760000081
Figure GDA0002500072760000082
其中ΔHDA m,ΔHSS m,ΔHD m分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDA c2,ΔHSS c2,ΔHD c2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1和ΔHDA c2,ΔHSS c2,ΔHD c2中上角标c1,c2为个体Pc1、Pc2的标记;
4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt
4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt
4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.2.12)当前迭代次数i=i+1;
4.2.13)返回步骤4.2);
5)迭代结束,输出预测结构;
以PDB ID为1ENH的蛋白质为实施例,运用以上方法得到了该蛋白质的近天然态构象解,如图1所示。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种基于复合结构特征的多模态蛋白质构象空间优化方法,其特征在于,包括以下步骤:
1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;
2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu
3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;
4)开始迭代,当前迭代次数i=1,过程如下:
4.1)如果当前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:
4.1.1)随机选择种群中的一个个体作为目标个体Pt
4.1.2)对Pt做NF次片段组装,得到变异个体Pm
4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;
4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:
4.1.6.1)分别计算Pm、Pc1、Pc2的能量接收概率:
Figure FDA0002500072750000011
Figure FDA0002500072750000012
4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.1.10)当前迭代次数i=i+1;
4.1.11)返回步骤4.1);
4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:
4.2.1)随机选择NM个模态中的一个模态;
4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt
4.2.3)对Pt做NF次片段组装,得到变异个体Pm
4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;
4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;
4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:
4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率
Figure FDA0002500072750000021
Figure FDA0002500072750000022
其中ΔHDA m,ΔHSS m,ΔHD m分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDA c2,ΔHSS c2,ΔHD c2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1和ΔHDA c2,ΔHSS c2,ΔHD c2中上角标c1,c2为个体Pc1、Pc2的标记;
4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt
4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt
4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.2.12)当前迭代次数i=i+1;
4.2.13)返回步骤4.2);
5)迭代结束,输出预测结构。
CN201710756612.7A 2017-08-29 2017-08-29 一种基于复合结构特征的多模态蛋白质构象空间优化方法 Active CN107506613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710756612.7A CN107506613B (zh) 2017-08-29 2017-08-29 一种基于复合结构特征的多模态蛋白质构象空间优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710756612.7A CN107506613B (zh) 2017-08-29 2017-08-29 一种基于复合结构特征的多模态蛋白质构象空间优化方法

Publications (2)

Publication Number Publication Date
CN107506613A CN107506613A (zh) 2017-12-22
CN107506613B true CN107506613B (zh) 2020-08-18

Family

ID=60694241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710756612.7A Active CN107506613B (zh) 2017-08-29 2017-08-29 一种基于复合结构特征的多模态蛋白质构象空间优化方法

Country Status (1)

Country Link
CN (1) CN107506613B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334746B (zh) * 2018-01-15 2021-06-18 浙江工业大学 一种基于二级结构相似度的蛋白质结构预测方法
CN108830042B (zh) * 2018-06-13 2021-09-21 深圳大学 一种基于多模态蛋白质序列的特征提取与编码方法及系统
CN109509510B (zh) * 2018-07-12 2021-06-18 浙江工业大学 一种基于多种群系综变异策略的蛋白质结构预测方法
CN109378035B (zh) * 2018-08-29 2021-02-26 浙江工业大学 一种基于二级结构动态选择策略的蛋白质结构预测方法
US20210304847A1 (en) * 2018-09-21 2021-09-30 Deepmind Technologies Limited Machine learning for determining protein structures
CN110718267B (zh) * 2019-08-27 2021-04-06 浙江工业大学 一种基于多模态构象空间采样的蛋白质结构预测方法
CN110706741B (zh) * 2019-08-27 2021-08-03 浙江工业大学 一种基于序列小生境的多模态蛋白质结构预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252485A (ja) * 2005-03-14 2006-09-21 In-Silico Science Inc リガンド探索装置、リガンド探索方法、プログラム、および記録媒体
CN101082944A (zh) * 2007-06-01 2007-12-05 哈尔滨工程大学 基于综合算法的蛋白质折叠过程的计算机模拟方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252485A (ja) * 2005-03-14 2006-09-21 In-Silico Science Inc リガンド探索装置、リガンド探索方法、プログラム、および記録媒体
CN101082944A (zh) * 2007-06-01 2007-12-05 哈尔滨工程大学 基于综合算法的蛋白质折叠过程的计算机模拟方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Hybrid Ant Colony Optimization for the Prediction of Protein Secondary Structure;Chao CHEN等;《Chinese Chemical Letters》;20051125;第1551-1554页 *
一种新的蛋白质结构预测多模态优化算法;程正华等;《计算机科学》;20130915;第212-215页 *

Also Published As

Publication number Publication date
CN107506613A (zh) 2017-12-22

Similar Documents

Publication Publication Date Title
CN107506613B (zh) 一种基于复合结构特征的多模态蛋白质构象空间优化方法
Cao et al. Spectral temporal graph neural network for trajectory prediction
Ding et al. Protein design via deep learning
Gairola et al. Simpropnet: Improved similarity propagation for few-shot image segmentation
Fang et al. Prediction of protein backbone torsion angles using deep residual inception neural networks
Xu et al. Multi-view 3D shape recognition via correspondence-aware deep learning
Li et al. Protein contact map prediction based on ResNet and DenseNet
CN105760710A (zh) 一种基于两阶段差分进化算法的蛋白质结构预测方法
Li et al. Protein loop modeling using deep generative adversarial network
WO2023087953A1 (zh) 搜索神经网络集成模型的方法、装置和电子设备
Ismi et al. Deep learning for protein secondary structure prediction: Pre and post-AlphaFold
Chen et al. PROSPECT: a web server for predicting protein histidine phosphorylation sites
CN113257357B (zh) 蛋白质残基接触图预测方法
CN104951670B (zh) 一种基于距离谱的群体构象空间优化方法
Zheng et al. Predicting drug targets from heterogeneous spaces using anchor graph hashing and ensemble learning
Pei et al. Fabind: Fast and accurate protein-ligand binding
US20230420070A1 (en) Protein Structure Prediction
Xu et al. DeepRank-GNN-esm: a graph neural network for scoring protein–protein models using protein language model
Özçelik et al. Structure-based drug discovery with deep learning
KR20210148544A (ko) 아미노산 간의 인접 지도를 이용한 단백질의 3차 구조 예측 방법
CN116705192A (zh) 基于深度学习的药物虚拟筛选方法及装置
CN116758978A (zh) 基于蛋白质结构的可控属性全新活性小分子设计方法
Bett et al. Diffusion kernel to identify missing PPIs in protein network biomarker
Zhang et al. Protein Language Model Supervised Precise and Efficient Protein Backbone Design Method
WO2022118607A1 (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant