CN107506613A - 一种基于复合结构特征的多模态蛋白质构象空间优化方法 - Google Patents

一种基于复合结构特征的多模态蛋白质构象空间优化方法 Download PDF

Info

Publication number
CN107506613A
CN107506613A CN201710756612.7A CN201710756612A CN107506613A CN 107506613 A CN107506613 A CN 107506613A CN 201710756612 A CN201710756612 A CN 201710756612A CN 107506613 A CN107506613 A CN 107506613A
Authority
CN
China
Prior art keywords
individual
mode
value
spectrum
minimum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710756612.7A
Other languages
English (en)
Other versions
CN107506613B (zh
Inventor
张贵军
郝小虎
谢腾宇
周晓根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201710756612.7A priority Critical patent/CN107506613B/zh
Publication of CN107506613A publication Critical patent/CN107506613A/zh
Application granted granted Critical
Publication of CN107506613B publication Critical patent/CN107506613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于复合结构特征的多模态蛋白质构象空间优化方法,包括以下步骤:基于进化算法框架,以RosettaScore3为优化目标函数,统计得到种群个体的个体距离谱,个体二级结构谱,个体二面角谱三种结构特征,通过多模态策略提高算法采样的多样性,根据结构特征选择子代个体,可以有效的弥补能量模型不精确的缺陷,通过进化迭代,可以得到精度较高的预测结构。本发明采样效率较高、复杂度较低、预测精度较高。

Description

一种基于复合结构特征的多模态蛋白质构象空间优化方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于复合结构特征的多模态蛋白质构象空间优化方法。
背景技术
生物信息学是生命科学和计算机科学交叉领域的一个研究热点。目前,根据Anfinsen假设,直接从氨基酸序列出发,基于势能模型,采用全局优化方法,搜索分子系统的最小能量状态,从而高通量、廉价地预测肽链的天然构象,已经成为生物信息学最重要的研究课题之一。对于序列相似度低或多肽(<10个残基的小蛋白)来说,从头预测方法是唯一的选择。从头预测方法必须考虑以下两个因素:(1)蛋白质结构能量函数;(2)构象空间搜索方法。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白质结构对应的能量值。目前已经存在一些较为有效的结构能量函数,如:简单网格模型HP及更实际的经验力场模型MM3,AMBER,CHARMM,GROMOS,DISCOVER,ECEPP/3等;第二个因素本质上属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速搜索,得到与某一全局最小能量对应的构象。其中,蛋白质构象空间优化属于一类非常难解的NP-Hard问题。2005年,D.Baker在Science中指出,构象空间优化方法是制约蛋白质从头预测方法预测精度的一个瓶颈因素。
因此,现有的构象空间优化方法存在采样效率、复杂度及预测精度方面存在不足,需要改进。
发明内容
为了克服现有的蛋白质构象优化方法的采样效率较低、复杂度较高、预测精度较低的不足,本发明提出一种采样效率较高、复杂度较低、预测精度较高的基于复合结构特征的多模态蛋白质构象空间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于复合结构特征的多模态蛋白质构象空间优化方法,所述构象空间优化方法包括以下步骤:
1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;
2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu
3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;
4)开始迭代,当前迭代次数i=1,过程如下:
4.1)如果前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:
4.1.1)随机选择种群中的一个个体作为目标个体Pt
4.1.2)对Pt做NF次片段组装,得到变异个体Pm
4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;
4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:
4.1.6.1)分别计算Pm、Pc1、Pc2的能量接收概率:
4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.1.10)当前迭代次数i=i+1;
4.1.11)返回步骤4.1);
4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:
4.2.1)随机选择NM个模态中的一个模态;
4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt
4.2.3)对Pt做NF次片段组装,得到变异个体Pm
4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;
4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;
4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:
4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率 其中ΔHDA m,ΔHSS m,ΔHD m分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDA c2,ΔHSS c2,ΔHD c2、Pc2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1和ΔHDA c2,ΔHSS c2,ΔHD c2中上角标c1,c2为个体Pc1、Pc2的标记;
4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt
4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt
4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.2.12)当前迭代次数i=i+1;
4.2.13)返回步骤4.2);
5)迭代结束,输出预测结构;
本发明的技术构思为:基于进化算法框架,以RosettaScore3为优化目标函数,统计得到种群个体的个体距离谱,个体二级结构谱,个体二面角谱三种结构特征,通过多模态策略提高算法采样的多样性,根据结构特征选择子代个体,可以有效的弥补能量模型不精确的缺陷,通过进化迭代,可以得到精度较高的预测结构。
本发明的有益效果为:采样效率较高、复杂度较低、预测精度较高。
附图说明
图1是优化得到的1ENH蛋白质三维结构比对示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于复合结构特征的多模态蛋白质构象空间优化方法,包括以下步骤:
1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;
2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu
3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;
4)开始迭代,当前迭代次数i=1,过程如下:
4.1)如果前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:
4.1.1)随机选择种群中的一个个体作为目标个体Pt
4.1.2)对Pt做NF次片段组装,得到变异个体Pm
4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;
4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:
4.1.6.1)分别计算Pm、Pc1、Pc2的能量接收概率:
4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.1.10)当前迭代次数i=i+1;
4.1.11)返回步骤4.1);
4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:
4.2.1)随机选择NM个模态中的一个模态;
4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt
4.2.3)对Pt做NF次片段组装,得到变异个体Pm
4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;
4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;
4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:
4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率 其中ΔHDA m,ΔHSS m,ΔHD m分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDA c2,ΔHSS c2,ΔHD c2、Pc2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1和ΔHDA c2,ΔHSS c2,ΔHD c2中上角标c1,c2为个体Pc1、Pc2的标记;
4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt
4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt
4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.2.12)当前迭代次数i=i+1;
4.2.13)返回步骤4.2);
5)迭代结束,输出预测结构;
本实施例以PDB ID为1ENH的蛋白质为实施例,一种基于复合结构特征的多模态蛋白质构象空间优化方法,包括以下步骤:
1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;
2)参数初始化:种群规模PN=300,模态数目NM=10,最大迭代次数Gmax=100000,序列长度SL=54,Nmu=9;
3)种群初始化:根据给定输入氨基酸序列,对300个个体依次进行54次片段组装,根据每个个体的三维结构信息统计得到对应的的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;
4)开始迭代,当前迭代次数i=1,过程如下:
4.1)如果前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:
4.1.1)随机选择种群中的一个个体作为目标个体Pt
4.1.2)对Pt做NF次片段组装,得到变异个体Pm
4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;
4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:
4.1.6.1)分别计算Pm、Pc1、Pc2的能量接收概率:
4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.1.10)当前迭代次数i=i+1;
4.1.11)返回步骤4.1);
4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:
4.2.1)随机选择NM个模态中的一个模态;
4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt
4.2.3)对Pt做NF次片段组装,得到变异个体Pm
4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;
4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;
4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:
4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率 其中ΔHDA m,ΔHSS m,ΔHD m分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDA c2,ΔHSS c2,ΔHD c2、Pc2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1和ΔHDA c2,ΔHSS c2,ΔHD c2中上角标c1,c2为个体Pc1、Pc2的标记;
4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt
4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt
4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.2.12)当前迭代次数i=i+1;
4.2.13)返回步骤4.2);
5)迭代结束,输出预测结构;
以PDB ID为1ENH的蛋白质为实施例,运用以上方法得到了该蛋白质的近天然态构象解,如图1所示。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种基于复合结构特征的多模态蛋白质构象空间优化方法,其特征在于,包括以下步骤:
1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;
2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu
3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;
4)开始迭代,当前迭代次数i=1,过程如下:
4.1)如果前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:
4.1.1)随机选择种群中的一个个体作为目标个体Pt
4.1.2)对Pt做NF次片段组装,得到变异个体Pm
4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;
4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:
4.1.6.1)分别计算Pm、Pc1、Pc2的能量接收概率:
4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt
4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.1.10)当前迭代次数i=i+1;
4.1.11)返回步骤4.1);
4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:
4.2.1)随机选择NM个模态中的一个模态;
4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt
4.2.3)对Pt做NF次片段组装,得到变异个体Pm
4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;
4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2
4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2
4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;
4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:
4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率 其中ΔHDA m,ΔHSS m,ΔHD m分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDA c2,ΔHSS c2,ΔHD c2、Pc2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDA c1,ΔHSS c1,ΔHD c1和ΔHDA c2,ΔHSS c2,ΔHD c2中上角标c1,c2为个体Pc1、Pc2的标记;
4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt
4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt
4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;
4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;
4.2.12)当前迭代次数i=i+1;
4.2.13)返回步骤4.2);
5)迭代结束,输出预测结构。
CN201710756612.7A 2017-08-29 2017-08-29 一种基于复合结构特征的多模态蛋白质构象空间优化方法 Active CN107506613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710756612.7A CN107506613B (zh) 2017-08-29 2017-08-29 一种基于复合结构特征的多模态蛋白质构象空间优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710756612.7A CN107506613B (zh) 2017-08-29 2017-08-29 一种基于复合结构特征的多模态蛋白质构象空间优化方法

Publications (2)

Publication Number Publication Date
CN107506613A true CN107506613A (zh) 2017-12-22
CN107506613B CN107506613B (zh) 2020-08-18

Family

ID=60694241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710756612.7A Active CN107506613B (zh) 2017-08-29 2017-08-29 一种基于复合结构特征的多模态蛋白质构象空间优化方法

Country Status (1)

Country Link
CN (1) CN107506613B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334746A (zh) * 2018-01-15 2018-07-27 浙江工业大学 一种基于二级结构相似度的蛋白质结构预测方法
CN108830042A (zh) * 2018-06-13 2018-11-16 深圳大学 一种基于多模态蛋白质序列的特征提取与编码方法及系统
CN109378035A (zh) * 2018-08-29 2019-02-22 浙江工业大学 一种基于二级结构动态选择策略的蛋白质结构预测方法
CN109509510A (zh) * 2018-07-12 2019-03-22 浙江工业大学 一种基于多种群系综变异策略的蛋白质结构预测方法
CN110706741A (zh) * 2019-08-27 2020-01-17 浙江工业大学 一种基于序列小生境的多模态蛋白质结构预测方法
CN110718267A (zh) * 2019-08-27 2020-01-21 浙江工业大学 一种基于多模态构象空间采样的蛋白质结构预测方法
CN112585684A (zh) * 2018-09-21 2021-03-30 渊慧科技有限公司 确定蛋白结构的机器学习

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252485A (ja) * 2005-03-14 2006-09-21 In-Silico Science Inc リガンド探索装置、リガンド探索方法、プログラム、および記録媒体
CN101082944A (zh) * 2007-06-01 2007-12-05 哈尔滨工程大学 基于综合算法的蛋白质折叠过程的计算机模拟方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252485A (ja) * 2005-03-14 2006-09-21 In-Silico Science Inc リガンド探索装置、リガンド探索方法、プログラム、および記録媒体
CN101082944A (zh) * 2007-06-01 2007-12-05 哈尔滨工程大学 基于综合算法的蛋白质折叠过程的计算机模拟方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAO CHEN等: "A Hybrid Ant Colony Optimization for the Prediction of Protein Secondary Structure", 《CHINESE CHEMICAL LETTERS》 *
程正华等: "一种新的蛋白质结构预测多模态优化算法", 《计算机科学》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334746A (zh) * 2018-01-15 2018-07-27 浙江工业大学 一种基于二级结构相似度的蛋白质结构预测方法
CN108334746B (zh) * 2018-01-15 2021-06-18 浙江工业大学 一种基于二级结构相似度的蛋白质结构预测方法
CN108830042A (zh) * 2018-06-13 2018-11-16 深圳大学 一种基于多模态蛋白质序列的特征提取与编码方法及系统
CN108830042B (zh) * 2018-06-13 2021-09-21 深圳大学 一种基于多模态蛋白质序列的特征提取与编码方法及系统
CN109509510A (zh) * 2018-07-12 2019-03-22 浙江工业大学 一种基于多种群系综变异策略的蛋白质结构预测方法
CN109509510B (zh) * 2018-07-12 2021-06-18 浙江工业大学 一种基于多种群系综变异策略的蛋白质结构预测方法
CN109378035A (zh) * 2018-08-29 2019-02-22 浙江工业大学 一种基于二级结构动态选择策略的蛋白质结构预测方法
CN109378035B (zh) * 2018-08-29 2021-02-26 浙江工业大学 一种基于二级结构动态选择策略的蛋白质结构预测方法
CN112585684A (zh) * 2018-09-21 2021-03-30 渊慧科技有限公司 确定蛋白结构的机器学习
CN110706741A (zh) * 2019-08-27 2020-01-17 浙江工业大学 一种基于序列小生境的多模态蛋白质结构预测方法
CN110718267A (zh) * 2019-08-27 2020-01-21 浙江工业大学 一种基于多模态构象空间采样的蛋白质结构预测方法
CN110706741B (zh) * 2019-08-27 2021-08-03 浙江工业大学 一种基于序列小生境的多模态蛋白质结构预测方法

Also Published As

Publication number Publication date
CN107506613B (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN107506613A (zh) 一种基于复合结构特征的多模态蛋白质构象空间优化方法
CN110532436A (zh) 基于社区结构的跨社交网络用户身份识别方法
Ma et al. Algorithms, applications, and challenges of protein structure alignment
CN101916256A (zh) 综合行动者兴趣与网络拓扑的社区发现方法
CN104866733B (zh) 一种基于副本交换的群体构象空间优化方法
Zhou et al. Attention-based neural architecture search for person re-identification
CN107703480A (zh) 基于机器学习的混合核函数室内定位方法
CN103473482B (zh) 基于差分进化和构象空间退火的蛋白质三维结构预测方法
US20220005546A1 (en) Non-redundant gene set clustering method and system, and electronic device
CN108734223A (zh) 基于社区划分的社交网络好友推荐方法
CN105760469A (zh) 云计算环境下基于倒排lsh的高维近似图象检索方法
CN108449209A (zh) 基于路径信息和节点信息融合的社交网络好友推荐方法
CN105760710A (zh) 一种基于两阶段差分进化算法的蛋白质结构预测方法
CN105760468A (zh) 移动环境下基于倒排位置敏感哈希索引的大规模图象查询系统
CN109215732A (zh) 一种基于残基接触信息自学习的蛋白质结构预测方法
CN109117851A (zh) 一种基于网格统计约束的视频图像匹配方法
CN105468934B (zh) 一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法
CN110176272A (zh) 一种基于多序列联配信息的蛋白质二硫键预测方法
CN106096326A (zh) 一种基于质心变异策略的差分进化蛋白质结构预测方法
CN113409884B (zh) 排序学习模型的训练方法及排序方法、装置、设备及介质
CN113409883B (zh) 信息预测及信息预测模型的训练方法、装置、设备及介质
Liu et al. MemNAS: Memory-efficient neural architecture search with grow-trim learning
Lu et al. From Comparing Clusterings to Combining Clusterings.
CN105357647A (zh) 一种在线性不稳定环境下的wifi室内定位方法
CN116595343B (zh) 基于流形排序学习的在线无监督跨模态检索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant