CN109360601B - 一种基于排挤策略的多模态蛋白质结构预测方法 - Google Patents

一种基于排挤策略的多模态蛋白质结构预测方法 Download PDF

Info

Publication number
CN109360601B
CN109360601B CN201810994504.8A CN201810994504A CN109360601B CN 109360601 B CN109360601 B CN 109360601B CN 201810994504 A CN201810994504 A CN 201810994504A CN 109360601 B CN109360601 B CN 109360601B
Authority
CN
China
Prior art keywords
population
conformation
conformations
modal
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810994504.8A
Other languages
English (en)
Other versions
CN109360601A (zh
Inventor
张贵军
王柳静
刘俊
周晓根
谢腾宇
郝小虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810994504.8A priority Critical patent/CN109360601B/zh
Publication of CN109360601A publication Critical patent/CN109360601A/zh
Application granted granted Critical
Publication of CN109360601B publication Critical patent/CN109360601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于排挤策略的多模态蛋白质结构预测方法,包括以下步骤:1)给定输入序列信息以及蛋白质力场模型;2)初始化;3)变异、交叉操作;4)生成存档集合;5)计算聚类中心和聚类半径;6)排挤操作;7)聚类操作;8)判断是否满足终止条件,如果满足则终止,并输出所有的最优解。本发明提出一种基于排挤策略的多模态蛋白质结构预测方法,该方法在差分进化算法的框架下,采用排挤策略,在进化过程中自适应地形成多个模态,使之能够发现模型所有的局优解,并且在此过程中尽可能多地保存局优解,从而提高蛋白质结构预测方法的预测精度。本发明提供一种预测精度较高的基于排挤策略的多模态蛋白质结构预测方法。

Description

一种基于排挤策略的多模态蛋白质结构预测方法
技术领域
本发明涉及一种生物信息学、智能优化、计算机应用领域,尤其涉及的是一种基于排挤策略的多模态蛋白质结构预测方法。
背景技术
Science于2005年发表的125个科学问题中提出“蛋白折叠能否被预测的问题”,表明以蛋白质为代表的生物大分子结构测定,不仅是分子生物学中心法则尚未解决的基础理论问题,更是关乎人类切身利益的医学、药学及材料学等领域亟待解决的应用问题。比如,朊蛋白(Prion Protein,PrP)的结构变异将引发疯牛病,而蛋白质错误折叠会导致阿兹海默症、帕金森氏症等疾病。因此,深入了解蛋白质天然态结构与其折叠机理将有助于阐明这些疾病的致病机制并寻找治疗方法。
结构生物学实验是测定生物大分子结构的主要技术手段。卡文迪许实验室于60年代用X-射线晶体衍射技术获得了球蛋白的结构,从晶体水平进行生物大分子的研究;多维核磁共振(NMR)方法可以直接测定蛋白质在溶液中的构象,更接近于生理状态;近期发展的冷冻电镜技术,通过电子显微镜技术并结合图像处理技术可直接提供生物大分子的形貌信息。目前PDB中的蛋白质三维结构主要通过结构实验测定技术得到,不仅存在应用局限,测定过程也费时费钱费力,比如,使用NMR方法测定一个蛋白质通常需要15万美元以及半年的时间,因此实验测定蛋白质三维结构的速度远远达不到所需速度。鉴于结构测定耗资巨大以及信息科学技术的飞速发展,以计算机为工具,运用适当的算法,从序列出发直接预测生物大分子的三维结构,在后基因组时代生命科学的理论和应用研究中将发挥日益重要的作用。
不依赖于任何已知结构,基于Anfinsen热力学假说,构建蛋白质能量函数,通过有效的构象搜索方法来搜寻目标蛋白的天然结构。Anfinsen热力学假说认为蛋白质的天然结构具有热稳定性,对应于蛋白质及周围溶剂分子所构成的整个体系的自由能极小点,因此从头预测方法通常采用片段组装技术,在构象搜索过程中指导算法向低能量构象进行搜索。通过全局优化方法确定蛋白质的结构,是基于其全局极小描述蛋白质天然结构的打分函数,然而分子内作用与周围环境作用的复杂性,将形成一个具有大量局部极小的粗糙能量地貌,由于能量模型的复杂性和不精确性,使得数学上的最优解并不一定对应其稳定的天然结构,有时局部极值解才真正与蛋白质实测基态构型吻合。由于能量模型的复杂性和不精确性,使得数学上的最优解并不一定对应其稳定的天然结构,有时局部极值解才真正与蛋白质实测基态构型吻合。另外,鉴于粗糙不平的表面是蛋白质能量地貌的固有属性,计算量将随着分子的大小呈指数增长。基于上述考虑,有必要从蛋白质结构预测方法的多模态特性方面进行深入研究。
因此,目前的蛋白质结构预测方法在对能量模型多极值解的搜索上存在不足,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法在搜索能量模型多极值解上的不足,本发明提出一种基于排挤策略的多模态蛋白质结构预测方法,该方法在差分进化算法的框架下,采用排挤策略,在进化过程中自适应地形成多个模态,使之能够发现模型所有的局优解,并且在此过程中尽可能多地保存局优解,从而提高蛋白质结构预测方法的预测精度。
本发明解决其技术问题所采用的技术方案是:
一种基于排挤策略的多模态蛋白质结构预测方法,所述方法包括以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
2)初始化:迭代Rosetta协议第一、二阶段,产生具有NP个构象的种群Pg,记为
Figure BDA0001781572870000021
其中
Figure BDA0001781572870000022
为第g代种群的第i个构象,设置最大迭代次数Gmax并初始化迭代次数g=0;
3)通过差分进化算法的交叉、变异操作生成种群Pg的试验构象种群Ug,记为
Figure BDA0001781572870000023
其中
Figure BDA0001781572870000024
为第g代种群的第i个试验构象。置i=1,过程如下:
3.1)从种群Pg中选定目标个体
Figure BDA0001781572870000025
并从种群Pg中随机选择两个互异且不同于
Figure BDA0001781572870000026
的个体
Figure BDA0001781572870000027
3.2)在[0,L-9]内生成均匀随机整数rand1、rand2和rand3,其中L表示氨基酸序列长度;
3.3)将
Figure BDA0001781572870000031
的第rand1至rand1+8号残基的二面角值替换成
Figure BDA0001781572870000032
对应残基号的二面角值,将
Figure BDA0001781572870000033
的第rand2至rand2+8号残基的二面角值替换成
Figure BDA0001781572870000034
对应残基号的二面角值,生成变异个体
Figure BDA0001781572870000035
再将
Figure BDA0001781572870000036
的第rand3至rand3+8号残基的二面角值替换成变异个体
Figure BDA0001781572870000037
对应残基号的二面角值,生成试验个体
Figure BDA0001781572870000038
3.4)i=i+1,循环步骤3.1)-3.4)直至生成当前种群的试验个体种群Ug
4)为种群Pg中的每一个构象
Figure BDA0001781572870000039
生成其对应的存档集合
Figure BDA00017815728700000310
置i=1,过程如下:
4.1)对Ug中的每一个试验构象
Figure BDA00017815728700000311
置t=1,计算
Figure BDA00017815728700000312
与Pg所有构象的均方根偏差RMSD,若其中最小的RMSD值是由
Figure BDA00017815728700000313
Figure BDA00017815728700000314
产生的,则将
Figure BDA00017815728700000315
放入存档集合
Figure BDA00017815728700000316
中;
4.2)t=t+1,重复步骤4.1),直至t=NP,记此时
Figure BDA00017815728700000317
中的构象数为n;
4.3)将
Figure BDA00017815728700000318
同样放入
Figure BDA00017815728700000319
中,则此时
Figure BDA00017815728700000320
中的构象数为n+1;
4.4)i=i+1,循环步骤4.1)-4.4)直至为每一个构象
Figure BDA00017815728700000321
均生成其对应的
Figure BDA00017815728700000322
5)对每一个
Figure BDA00017815728700000323
其聚类中心
Figure BDA00017815728700000324
和聚类半径
Figure BDA00017815728700000325
生成如下:
Figure BDA00017815728700000326
Figure BDA00017815728700000327
其中
Figure BDA00017815728700000328
为存档集合
Figure BDA00017815728700000329
中的第j个构象,
Figure BDA00017815728700000330
Figure BDA00017815728700000331
的构象能量值,
Figure BDA00017815728700000332
Figure BDA00017815728700000333
Figure BDA00017815728700000334
之间的RMSD值;
6)排挤操作:用
Figure BDA00017815728700000335
取代
Figure BDA00017815728700000336
进入下一代种群中,即生成
Figure BDA00017815728700000337
i=1,2,...,NP,并且对应的
Figure BDA00017815728700000338
等于
Figure BDA00017815728700000339
7)聚类操作:生成当前第g+1代种群的模态构象集合
Figure BDA00017815728700000340
s=1,2,...,K,其中
Figure BDA00017815728700000341
有对应的聚类半径
Figure BDA00017815728700000342
模态构象数为K,置i=1,过程如下:
7.1)Mg+1初始化为只有一个构象的集合,该构象为种群Pg+1中的最好构象;
7.2)将
Figure BDA00017815728700000343
与Mg+1中的所有构象相比,若满足如下公式,将
Figure BDA00017815728700000344
放入Mg+1
Figure BDA0001781572870000041
其中
Figure BDA0001781572870000042
Figure BDA0001781572870000043
Figure BDA0001781572870000044
之间的RMSD值;
7.3)i=i+1,循环步骤7.1)-7.3)直至为第g+1代种群找到所有的模态构象;
8)判断是否满足终止条件,若满足则输出结果并退出,否则g=g+1清空Mg+1并且返回步骤3)。
进一步,所述步骤2)中,设置最大迭代次数Gmax,所述步骤8)中,对种群执行完步骤3)-7)以后,终止条件为迭代次数g达到预设最大迭代次数Gmax,若满足输出结果为
Figure BDA0001781572870000045
中能量值最低的构象。
本发明的技术构思为:首先,对初始种群中的每个构象构建各自的存档集合,用以获得对应的聚类中心和聚类半径,并且根据存档集合进行排挤操作以更新种群;其次,通过比较当前种群构象的聚类半径,对每一代种群构建当前的模态集合,即确定了当前代的模态构象个数K;最后,随着迭代的进行,模态构象集合逐渐稳定,得到K个局优构象,最终得到全局最优构象。
本发明的有益效果表现在:由于能量模型的不精确性,导致其全局和局部最优均有可能是最好构象。在差分进化算法的框架下,通过排挤操作将种群自动聚类,形成多个模态,一方面,模态构象数随着种群进化情况而自适应变化,直至稳定,从而能够搜索到多个局优构象以缓解能量模型的不精确问题;另一方面,该排挤策略只对差分进化算法中的选择环节进行了修改,并未增加算法复杂度,操作简单可行。
附图说明
图1是基于排挤策略的多模态蛋白质结构预测方法对蛋白质1HZ6进行结构预测时的流程图;
图2是基于排挤策略的多模态蛋白质结构预测方法对蛋白质1HZ6进行结构预测时的构象更新示意图;
图3是基于排挤策略的多模态蛋白质结构预测方法对蛋白质1HZ6预测得到的三维结构。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于排挤策略的多模态蛋白质结构预测方法,包括以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
2)初始化:迭代Rosetta协议第一、二阶段,产生具有NP个构象的种群Pg,记为
Figure BDA0001781572870000051
其中
Figure BDA0001781572870000052
为第g代种群的第i个构象,设置最大迭代次数Gmax并初始化迭代次数g=0;
3)通过差分进化算法的交叉、变异操作生成种群Pg的试验构象种群Ug,记为
Figure BDA0001781572870000053
其中
Figure BDA0001781572870000054
为第g代种群的第i个试验构象。置i=1,过程如下:
3.1)从种群Pg中选定目标个体
Figure BDA0001781572870000055
并从种群Pg中随机选择两个互异且不同于
Figure BDA0001781572870000056
的个体
Figure BDA0001781572870000057
3.2)在[0,L-9]内生成均匀随机整数rand1、rand2和rand3,其中L表示氨基酸序列长度;
3.3)将
Figure BDA0001781572870000058
的第rand1至rand1+8号残基的二面角值替换成
Figure BDA0001781572870000059
对应残基号的二面角值,将
Figure BDA00017815728700000510
的第rand2至rand2+8号残基的二面角值替换成
Figure BDA00017815728700000511
对应残基号的二面角值,生成变异个体
Figure BDA00017815728700000512
再将
Figure BDA00017815728700000513
的第rand3至rand3+8号残基的二面角值替换成变异个体
Figure BDA00017815728700000514
对应残基号的二面角值,生成试验个体
Figure BDA00017815728700000515
3.4)i=i+1,循环步骤3.1)-3.4)直至生成当前种群的试验个体种群Ug
4)为种群Pg中的每一个构象
Figure BDA00017815728700000516
生成其对应的存档集合
Figure BDA00017815728700000517
置i=1,过程如下:
4.1)对Ug中的每一个试验构象
Figure BDA00017815728700000518
置t=1,计算
Figure BDA00017815728700000519
与Pg所有构象的均方根偏差RMSD,若其中最小的RMSD值是由
Figure BDA00017815728700000520
Figure BDA00017815728700000521
产生的,则将
Figure BDA00017815728700000522
放入存档集合
Figure BDA00017815728700000523
中;
4.2)t=t+1,重复步骤4.1),直至t=NP,记此时
Figure BDA00017815728700000524
中的构象数为n;
4.3)将
Figure BDA00017815728700000525
同样放入
Figure BDA00017815728700000526
中,则此时
Figure BDA00017815728700000527
中的构象数为n+1;
4.4)i=i+1,循环步骤4.1)-4.4)直至为每一个构象
Figure BDA00017815728700000528
均生成其对应的
Figure BDA00017815728700000529
5)对每一个
Figure BDA00017815728700000530
其聚类中心
Figure BDA00017815728700000531
和聚类半径
Figure BDA00017815728700000532
生成如下:
Figure BDA0001781572870000061
Figure BDA0001781572870000062
其中
Figure BDA0001781572870000063
为存档集合
Figure BDA0001781572870000064
中的第j个构象,
Figure BDA0001781572870000065
Figure BDA0001781572870000066
的构象能量值,
Figure BDA0001781572870000067
Figure BDA0001781572870000068
Figure BDA0001781572870000069
之间的RMSD值;
6)排挤操作:用
Figure BDA00017815728700000610
取代
Figure BDA00017815728700000611
进入下一代种群中,即生成
Figure BDA00017815728700000612
Figure BDA00017815728700000613
并且对应的
Figure BDA00017815728700000614
等于
Figure BDA00017815728700000615
7)聚类操作:生成当前第g+1代种群的模态构象集合
Figure BDA00017815728700000616
Figure BDA00017815728700000617
其中
Figure BDA00017815728700000618
有对应的聚类半径
Figure BDA00017815728700000619
模态构象数为K,置i=1,过程如下:
7.4)Mg+1初始化为只有一个构象的集合,该构象为种群Pg+1中的最好构象;
7.5)将
Figure BDA00017815728700000620
与Mg+1中的所有构象相比,若满足如下公式,将
Figure BDA00017815728700000621
放入Mg+1
Figure BDA00017815728700000622
其中
Figure BDA00017815728700000623
Figure BDA00017815728700000624
Figure BDA00017815728700000625
之间的RMSD值;
7.6)i=i+1,循环步骤7.1)-7.3)直至为第g+1代种群找到所有的模态构象;
8)判断是否满足终止条件,若满足则输出结果并退出,否则g=g+1清空Mg+1并且返回步骤3)。
进一步,所述步骤2)中,设置最大迭代次数Gmax,所述步骤8)中,对种群执行完步骤3)-7)以后,终止条件为迭代次数g达到预设最大迭代次数Gmax,若满足输出结果为
Figure BDA00017815728700000626
中能量值最低的构象。
本实施例序列长度为67的α/β折叠蛋白质1HZ6为实施例,一种基于排挤策略的多模态蛋白质结构预测方法,其中包含以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
2)初始化:迭代Rosetta协议第一、二阶段,产生具有NP个构象的种群Pg,记为
Figure BDA00017815728700000627
NP=300,其中
Figure BDA00017815728700000628
为第g代种群的第i个构象,设置最大迭代次数Gmax=1000并初始化迭代次数g=0;
3)通过差分进化算法的交叉、变异操作生成种群Pg的试验构象种群Ug,记为
Figure BDA0001781572870000071
其中
Figure BDA00017815728700000742
为第g代种群的第i个试验构象。置i=1,过程如下:
3.1)从种群Pg中选定目标个体
Figure BDA0001781572870000072
并从种群Pg中随机选择两个互异且不同于
Figure BDA0001781572870000073
的个体
Figure BDA0001781572870000074
3.2)在[0,L-9]内生成均匀随机整数rand1、rand2和rand3,其中L表示氨基酸序列长度;
3.3)将
Figure BDA0001781572870000075
的第rand1至rand1+8号残基的二面角值替换成
Figure BDA0001781572870000076
对应残基号的二面角值,将
Figure BDA0001781572870000077
的第rand2至rand2+8号残基的二面角值替换成
Figure BDA0001781572870000078
对应残基号的二面角值,生成变异个体
Figure BDA0001781572870000079
再将
Figure BDA00017815728700000710
的第rand3至rand3+8号残基的二面角值替换成变异个体
Figure BDA00017815728700000711
对应残基号的二面角值,生成试验个体
Figure BDA00017815728700000712
3.4)i=i+1,循环步骤3.1)-3.4)直至生成当前种群的试验个体种群Ug
4)为种群Pg中的每一个构象
Figure BDA00017815728700000713
生成其对应的存档集合
Figure BDA00017815728700000714
置i=1,过程如下:
4.1)对Ug中的每一个试验构象
Figure BDA00017815728700000715
置t=1,计算
Figure BDA00017815728700000716
与Pg所有构象的均方根偏差RMSD,若其中最小的RMSD值是由
Figure BDA00017815728700000717
Figure BDA00017815728700000718
产生的,则将
Figure BDA00017815728700000719
放入存档集合
Figure BDA00017815728700000720
中;
4.2)t=t+1,重复步骤4.1),直至t=NP,记此时
Figure BDA00017815728700000721
中的构象数为n;
4.3)将
Figure BDA00017815728700000722
同样放入
Figure BDA00017815728700000723
中,则此时
Figure BDA00017815728700000724
中的构象数为n+1;
4.4)i=i+1,循环步骤4.1)-4.4)直至为每一个构象
Figure BDA00017815728700000725
均生成其对应的
Figure BDA00017815728700000726
5)对每一个
Figure BDA00017815728700000727
其聚类中心
Figure BDA00017815728700000728
和聚类半径
Figure BDA00017815728700000729
生成如下:
Figure BDA00017815728700000730
Figure BDA00017815728700000731
其中
Figure BDA00017815728700000732
为存档集合
Figure BDA00017815728700000733
中的第j个构象,
Figure BDA00017815728700000734
Figure BDA00017815728700000735
的构象能量值,
Figure BDA00017815728700000736
Figure BDA00017815728700000737
Figure BDA00017815728700000738
之间的RMSD值;
6)排挤操作:用
Figure BDA00017815728700000739
取代
Figure BDA00017815728700000740
进入下一代种群中,即生成
Figure BDA00017815728700000741
Figure BDA0001781572870000081
并且对应的
Figure BDA0001781572870000082
等于
Figure BDA0001781572870000083
7)聚类操作:生成当前第g+1代种群的模态构象集合
Figure BDA0001781572870000084
Figure BDA0001781572870000085
其中
Figure BDA0001781572870000086
有对应的聚类半径
Figure BDA0001781572870000087
模态构象数为K,置i=1,过程如下:
7.1)Mg+1初始化为只有一个构象的集合,该构象为种群Pg+1中的最好构象;
7.2)将
Figure BDA0001781572870000088
与Mg+1中的所有构象相比,若满足如下公式,将
Figure BDA0001781572870000089
放入Mg+1
Figure BDA00017815728700000810
其中
Figure BDA00017815728700000811
Figure BDA00017815728700000812
Figure BDA00017815728700000813
之间的RMSD值;
7.3)i=i+1,循环步骤7.1)-7.3)直至为第g+1代种群找到所有的模态构象;
8)判断是否满足终止条件,若满足则输出结果并退出,否则g=g+1清空Mg+1并且返回步骤3)。
进一步,所述步骤2)中,设置最大迭代次数Gmax=1000,所述步骤8)中,对种群执行完步骤3)-7)以后,终止条件为迭代次数g达到预设最大迭代次数Gmax,若满足输出结果为
Figure BDA00017815728700000814
中能量值最低的构象。
以序列长度为67的α/β折叠蛋白质1HZ6为实施例,运用以上方法得到了该蛋白质的近天然态构象,最小均方根偏差为
Figure BDA00017815728700000815
平均均方根偏差为
Figure BDA00017815728700000816
构象更新图如图2所示,三维结构图如图3所示。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种基于排挤策略的多模态蛋白质结构预测方法,其特征在于:所述预测方法包括以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
2)初始化:迭代Rosetta协议第一、二阶段,产生具有NP个构象的种群Pg,记为
Figure FDA0002959425210000011
其中
Figure FDA0002959425210000012
为第g代种群的第i个构象,设置最大迭代次数Gmax并初始化迭代次数g=0;
3)通过差分进化算法的交叉、变异操作生成种群Pg的试验构象种群Ug,记为
Figure FDA0002959425210000013
其中
Figure FDA0002959425210000014
为第g代种群的第i个试验构象,置i=1,过程如下:
3.1)从种群Pg中选定目标个体
Figure FDA0002959425210000015
并从种群Pg中随机选择两个互异且不同于
Figure FDA0002959425210000016
的个体
Figure FDA0002959425210000017
3.2)在[0,L-9]内生成均匀随机整数rand1、rand2和rand3,其中L表示氨基酸序列长度;
3.3)将
Figure FDA0002959425210000018
的第rand1至rand1+8号残基的二面角值替换成
Figure FDA0002959425210000019
对应残基号的二面角值,将
Figure FDA00029594252100000110
的第rand2至rand2+8号残基的二面角值替换成
Figure FDA00029594252100000111
对应残基号的二面角值,生成变异个体
Figure FDA00029594252100000112
再将
Figure FDA00029594252100000113
的第rand3至rand3+8号残基的二面角值替换成变异个体
Figure FDA00029594252100000114
对应残基号的二面角值,生成试验个体
Figure FDA00029594252100000115
3.4)i=i+1,循环步骤3.1)-3.4)直至生成当前种群的试验个体种群Ug
4)为种群Pg中的每一个构象
Figure FDA00029594252100000116
生成其对应的存档集合
Figure FDA00029594252100000117
置i=1,过程如下:
4.1)对Ug中的每一个试验构象
Figure FDA00029594252100000118
置t=1,计算
Figure FDA00029594252100000119
与Pg所有构象的均方根偏差RMSD,若其中最小的RMSD值是由
Figure FDA00029594252100000120
Figure FDA00029594252100000121
产生的,则将
Figure FDA00029594252100000122
放入存档集合
Figure FDA00029594252100000123
中;
4.2)t=t+1,重复步骤4.1),直至t=NP,记此时
Figure FDA00029594252100000124
中的构象数为n;
4.3)将
Figure FDA00029594252100000125
同样放入
Figure FDA00029594252100000126
中,则此时
Figure FDA00029594252100000127
中的构象数为n+1;
4.4)i=i+1,循环步骤4.1)-4.4)直至为每一个构象
Figure FDA0002959425210000021
均生成其对应的
Figure FDA0002959425210000022
5)对每一个
Figure FDA0002959425210000023
其聚类中心
Figure FDA0002959425210000024
和聚类半径ri g生成如下:
Figure FDA0002959425210000025
Figure FDA0002959425210000026
其中
Figure FDA0002959425210000027
为存档集合
Figure FDA0002959425210000028
中的第j个构象,
Figure FDA0002959425210000029
Figure FDA00029594252100000210
的构象能量值,
Figure FDA00029594252100000211
Figure FDA00029594252100000212
Figure FDA00029594252100000213
之间的RMSD值;
6)排挤操作:用
Figure FDA00029594252100000214
取代
Figure FDA00029594252100000215
进入下一代种群中,即生成
Figure FDA00029594252100000216
Figure FDA00029594252100000217
并且对应的ri g+1等于ri g
7)聚类操作:生成当前第g+1代种群的模态构象集合
Figure FDA00029594252100000218
Figure FDA00029594252100000219
其中
Figure FDA00029594252100000220
有对应的聚类半径
Figure FDA00029594252100000221
模态构象数为K,置i=1,过程如下:
7.1)Mg+1初始化为只有一个构象的集合,该构象为种群Pg+1中最好的构象;
7.2)将
Figure FDA00029594252100000222
与Mg+1中的所有构象相比,若满足如下公式,将
Figure FDA00029594252100000223
放入Mg+1,i=1,2,...,NP;
Figure FDA00029594252100000224
其中
Figure FDA00029594252100000225
Figure FDA00029594252100000226
Figure FDA00029594252100000227
之间的RMSD值;
7.3)i=i+1,循环步骤7.2)-7.3)直至为第g+1代种群找到所有的模态构象;
8)判断是否满足终止条件,终止条件为迭代次数g达到预设最大迭代次数Gmax,若满足则输出结果为
Figure FDA00029594252100000228
中能量值最低的构象,否则g=g+1清空Mg+1并且返回步骤3)。
CN201810994504.8A 2018-08-29 2018-08-29 一种基于排挤策略的多模态蛋白质结构预测方法 Active CN109360601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810994504.8A CN109360601B (zh) 2018-08-29 2018-08-29 一种基于排挤策略的多模态蛋白质结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810994504.8A CN109360601B (zh) 2018-08-29 2018-08-29 一种基于排挤策略的多模态蛋白质结构预测方法

Publications (2)

Publication Number Publication Date
CN109360601A CN109360601A (zh) 2019-02-19
CN109360601B true CN109360601B (zh) 2021-05-18

Family

ID=65350085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810994504.8A Active CN109360601B (zh) 2018-08-29 2018-08-29 一种基于排挤策略的多模态蛋白质结构预测方法

Country Status (1)

Country Link
CN (1) CN109360601B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706739B (zh) * 2019-08-26 2021-10-29 浙江工业大学 一种基于多模态内外交叉的蛋白质构象空间采样方法
CN110718267B (zh) * 2019-08-27 2021-04-06 浙江工业大学 一种基于多模态构象空间采样的蛋白质结构预测方法
CN111180005B (zh) * 2019-11-29 2021-08-03 浙江工业大学 一种基于小生境重采样的多模态蛋白质结构预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077226A (zh) * 2012-12-31 2013-05-01 浙江工业大学 一种多模态蛋白质构象空间搜索方法
CN106096326A (zh) * 2016-06-02 2016-11-09 浙江工业大学 一种基于质心变异策略的差分进化蛋白质结构预测方法
CN106503485A (zh) * 2016-09-23 2017-03-15 浙江工业大学 一种局部增强的多模态差分进化蛋白质结构从头预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077226A (zh) * 2012-12-31 2013-05-01 浙江工业大学 一种多模态蛋白质构象空间搜索方法
CN106096326A (zh) * 2016-06-02 2016-11-09 浙江工业大学 一种基于质心变异策略的差分进化蛋白质结构预测方法
CN106503485A (zh) * 2016-09-23 2017-03-15 浙江工业大学 一种局部增强的多模态差分进化蛋白质结构从头预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Using Crowding-Distance in a Multiobjective Genetic Algorithm for Protein Structure Prediction》;Gregório Kappaun Rocha等;《GECCO "16 Companion: Proceedings of the 2016 on Genetic and Evolutionary Computation》;20160731;全文 *
《一种新的蛋白质结构预测多模态优化算法》;程正华等;《计算机科学》;20130930;第40卷(第9期);全文 *
《基于Monte Carlo局部增强的多模态优化算法》;陈先跑等;《计算机科学》;20150630;第42卷(第6A期);全文 *

Also Published As

Publication number Publication date
CN109360601A (zh) 2019-02-19

Similar Documents

Publication Publication Date Title
Miao et al. Multi-omics integration in the age of million single-cell data
Deng et al. Protein structure prediction
CN109360601B (zh) 一种基于排挤策略的多模态蛋白质结构预测方法
CN107609342B (zh) 一种基于二级结构空间距离约束的蛋白质构象搜索方法
Li et al. Protein docking prediction using predicted protein-protein interface
Terwilliger et al. Improved crystallographic models through iterated local density-guided model deformation and reciprocal-space refinement
Barthel et al. ProCKSI: a decision support system for protein (structure) comparison, knowledge, similarity and information
CN107491664B (zh) 一种基于信息熵的蛋白质结构从头预测方法
Djeddi et al. A novel computational approach for global alignment for multiple biological networks
CN109360599B (zh) 一种基于残基接触信息交叉策略的蛋白质结构预测方法
CN109360596B (zh) 一种基于差分进化局部扰动的蛋白质构象空间优化方法
CN109086566B (zh) 一种基于片段重采样的群体蛋白质结构预测方法
van Dijk et al. Solvated protein–DNA docking using HADDOCK
Zheng et al. Protein structure prediction constrained by solution X-ray scattering data and structural homology identification
CN109872770B (zh) 一种结合排挤度评价的多变异策略蛋白质结构预测方法
Wang et al. LDCNN-DTI: a novel light deep convolutional neural network for drug-target interaction predictions
Clarke et al. Novel insights through the integration of structural and functional genomics data with protein networks
Zhong et al. Predicting local protein 3D structures using clustering deep recurrent neural network
CN109360597B (zh) 一种基于全局和局部策略协作的群体蛋白质结构预测方法
CN108920894B (zh) 一种基于简约抽象凸估计的蛋白质构象空间优化方法
Zhu et al. Discovering large conserved functional components in global network alignment by graph matching
Geethu et al. Improved 3-D protein structure predictions using deep ResNet model
CN109378033B (zh) 一种基于转移熵的策略自适应蛋白质构象空间优化方法
CN109326318B (zh) 一种基于Loop区域高斯扰动的群体蛋白质结构预测方法
Dong et al. Methods for optimizing the structure alphabet sequences of proteins

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant