CN108595910B - 一种基于多样性指标的群体蛋白质构象空间优化方法 - Google Patents

一种基于多样性指标的群体蛋白质构象空间优化方法 Download PDF

Info

Publication number
CN108595910B
CN108595910B CN201810438596.1A CN201810438596A CN108595910B CN 108595910 B CN108595910 B CN 108595910B CN 201810438596 A CN201810438596 A CN 201810438596A CN 108595910 B CN108595910 B CN 108595910B
Authority
CN
China
Prior art keywords
population
rosetta
conformation
calculating
atom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810438596.1A
Other languages
English (en)
Other versions
CN108595910A (zh
Inventor
张贵军
彭春祥
刘俊
周晓根
王柳静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810438596.1A priority Critical patent/CN108595910B/zh
Publication of CN108595910A publication Critical patent/CN108595910A/zh
Application granted granted Critical
Publication of CN108595910B publication Critical patent/CN108595910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于多样性指标的群体蛋白质构象空间优化方法,首先,利用Rosetta第一阶段进行片段组装生成初始种群,并利用Rosetta第二阶段进行片段组装生成新种群;然后,针对随机选取的Loop区域,对构象进行Loop交换,从而实现种群重组;其次,基于Loop区域,对每个构象进行变异操作,并将变异生成的所有新个体与当前种群进行合并,并提取构象的USR特性信息建立多样性指标,基于该指标和能量对整个种群进行更新操作;最后,分别利用Rosetta第三和第四阶段对整个种群进行进一步优化,从而得到最终预测结果。本发明采样效率较高、多样性较好、复杂度较低及预测精度较高。

Description

一种基于多样性指标的群体蛋白质构象空间优化方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于多样性指标的群体蛋白质构象空间优化方法。
背景技术
生物信息学是生命科学和计算机科学交叉领域的一个研究热点。生物信息学研究成果目前已经被广泛应用于基因发现和预测、基因数据的存储管理、数据检索与挖掘、基因表达数据分析、蛋白质结构预测、基因和蛋白质同源关系预测、序列分析与比对等。基因组规定了所有构成该生物体的蛋白质,基因规定了组成蛋白质的氨基酸序列。蛋白质决定了细胞的功能,使细胞的活动与生命相关联。而蛋白质的三维结构是其独特功能特性的主要决定因素之一。因此,蛋白质结构的确定是理解这些重要的生命基石的功能的基本步骤。虽然蛋白质由氨基酸的线性序列组成,但是,它们只有折叠形成特定的空间结构才能具有相应的活性和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能,也有利于认识蛋白质是如何执行功能的。确定蛋白质的结构的是非常重要的。深入了解蛋白质的结构功能可以帮助设计具有特定功能的蛋白质,药物和疫苗的研发以及蛋白质错误折叠的病理特征(例如阿尔茨海默病)。目前,蛋白质序列数据库的数据积累的速度非常快,但是,已知结构的蛋白质相对比较少。尽管蛋白质结构测定技术有了较为显著的进展,但是,通过实验方法确定蛋白质结构的过程仍然非常复杂,代价较高。因此,计算方法已经成为蛋白质结构预测的基础。预测一个蛋白质分子的三维结构,只用它的氨基酸序列,但是在计算生物学中仍然是一个巨大的挑战。人们希望能够通过生物信息技术去精确的预测蛋白质结构。
与许多蛋白质结构预测方法一样,使用一种简化的三维结构表示蛋白质模型,它只包含关于主扭转角的信息。蛋白质结构预测使用片段组装方法,并通过基于物理的能量模型或者基于知识的能量模型指导搜索,而这种方法存在着能量函数的不精确、采样效率低、多样性差、复杂度较高、预测精度较低的不足,目前,最常用的片段组装的方法仍然依赖于数千次蒙特卡罗重启,而不是基于进化信息的的搜索技术。从某种意义上说,盲目的随机蒙特卡罗重启所得到的结果具有不确定性。
因此,现有的蛋白质结构预测方法在采样效率、种群多样性、计算复杂度及预测精度方面存在缺陷,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法采样效率低、构象多样性差、复杂度较高、预测精度较低的不足,本发明通过提取蛋白质的特征信息衡量构象的多样性,提出一种采样效率较高、多样性较好、复杂度较低及预测精度较高的基于多样性指标的群体蛋白质构象空间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于多样性指标的群体蛋白质构象空间优化方法,所述优化方法包括以下步骤:
1)给定输入序列信息;
2)设置参数:种群大小NP,重组因子RC,最大迭代代数Gmax,多样性接收概率p;
3)利用PSIPRED预测查询序列的二级结构信息;
4)初始化:首先通过用Rosetta第一阶段进行片段组装生成一个规模为NP的初始种群P={xi|i∈I},其中i为种群个体编号,I为种群个体编号集合,I={1,2,...,NP},xi表示第i个个体;
5)采用Rosetta第二阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群;
6)构象重组,过程如下:
6.1)从当前种群中选择两个不同的个体xa和xb,其中,a,b∈{1,2,...,NP},a≠b;根据二级结构信息随机选取一个loop区域,并在0和1之间随机生成一个均匀分布随机数rand1;
6.2)如果rand1<RC,则针对步骤6.1)中选择的loop区域,交换构象xa和xb的二面角分别生成新的构象
Figure GDA0002969288590000021
Figure GDA0002969288590000022
6.3)重复步骤6.1)-6.2)直到种群中的所有个体都进行了构象重组为止,生成新的种群
Figure GDA0002969288590000023
7)针对种群
Figure GDA0002969288590000024
中的每一个构象
Figure GDA0002969288590000025
进行变异,过程如下:
7.1)统计所有loop区域能够进行片段组装位置的数量WL,并计算变异概率
Figure GDA0002969288590000031
7.2)生成一个0和1之间的均匀分布随机数rand2,如果rand2<Pm,则对构象
Figure GDA0002969288590000032
的所有loop区域进行一次片段组装生成变异个体
Figure GDA0002969288590000033
7.3)按照步骤7.1)-7.2)对当前种群中的所有构象进行变异后,生成新的种群
Figure GDA0002969288590000034
8)合并种群
Figure GDA0002969288590000035
和P中的所有个体,即
Figure GDA0002969288590000036
9)针对
Figure GDA0002969288590000037
中的每一个构象
Figure GDA0002969288590000038
计算多样性指标,过程如下:
9.1)根据每个构象的Cα原子坐标计算每个构象的质心
Figure GDA0002969288590000039
9.2)计算每个Cα原子到质心
Figure GDA00029692885900000310
的欧氏距离,并记离质心最远的原子为
Figure GDA00029692885900000311
离质心最近的原子为
Figure GDA00029692885900000312
9.3)计算每个Cα原子到
Figure GDA00029692885900000313
的欧氏距离,并记离
Figure GDA00029692885900000314
最远的原子为
Figure GDA00029692885900000315
9.4)分别计算步骤9.2)中所有距离的平均值
Figure GDA00029692885900000316
偏差
Figure GDA00029692885900000317
偏度
Figure GDA00029692885900000318
9.5)分别计算步骤9.3)中所有距离的平均值
Figure GDA00029692885900000319
偏差
Figure GDA00029692885900000320
偏度
Figure GDA00029692885900000321
9.6)计算每个Cα原子到
Figure GDA00029692885900000322
的距离,并计算这些距离的平均值
Figure GDA00029692885900000323
偏差
Figure GDA00029692885900000324
偏度
Figure GDA00029692885900000325
9.7)计算每个Cα原子到
Figure GDA00029692885900000326
的距离,并计算这些距离的平均值
Figure GDA00029692885900000327
偏差
Figure GDA00029692885900000328
偏度
Figure GDA00029692885900000329
9.8)将步骤9.4)-9.7)中的距离平均值、偏差和偏度合并得到构象
Figure GDA00029692885900000330
的特征向量
Figure GDA00029692885900000331
9.9)计算多样性指标
Figure GDA00029692885900000332
其中,T={1,2,…,2NP};
Figure GDA00029692885900000333
表示向量Ui的第l维元素;
10)针对种群P中的每一个个体xi,i∈I进行更新,过程如下:
10.1)分别根据Rosetta score2计算个体xi
Figure GDA00029692885900000334
的能量score(xi)和
Figure GDA0002969288590000041
10.2)如果
Figure GDA0002969288590000042
则个体
Figure GDA0002969288590000043
替换父代个体xi,否则继续步骤10.3);
10.3)如果Di>D′i,则产生一个[0,1]的随机数rand3,如果rand3>p,则个体
Figure GDA0002969288590000044
替换父代个体xi
11)对步骤6)-10)进行迭代直到达到最大迭代代数Gmax,然后继续步骤12);
12)采用Rosetta第三阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大迭代代数Gmax,其中能量函数采用Rosetta socre3;
13)采用Rosetta第四阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大迭代代数Gmax,其中能量函数采用Rosetta socre4;
14)输出结果。
本发明的技术构思为:首先,利用Rosetta第一阶段进行片段组装生成初始种群,并利用Rosetta第二阶段进行片段组装生成新种群;然后,针对随机选取的Loop区域,对构象进行Loop交换,从而实现种群重组;其次,基于Loop区域,对每个构象进行变异操作,并将变异生成的所有新个体与当前种群进行合并,并提取构象的USR特性信息建立多样性指标,基于该指标和能量对整个种群进行更新操作;最后,分别利用Rosetta第三和第四阶段对整个种群进行进一步优化,从而得到最终预测结果。本发明提供一种采样效率较高、多样性较好、复杂度较低及预测精度较高的基于多样性指标的群体蛋白质构象空间优化方法。
本发明的有益效果为:在Rosetta算法框架上加入了遗传算法和基于快速图形识别USR的多样性指标,从而产生更多较优构象,同时保持构象的多样性;在每阶段分别应用遗传算法进行优化和选择,而且巧妙的运用能量函数评价和多样性评价的动态切换,从而可以弥补能量函数不精确带来引起的预测误差,在一定程度上,防止算法陷入局部最优。
附图说明
图1是基于多样性指标的群体蛋白质构象空间优化方法对1ENH蛋白结构预测得到的RMSD和能量值散点图。
图2是基于多样性指标的群体蛋白质构象空间优化方法对1ENH蛋白结构预测得到的三维结构。
具体实施方式:
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于多样性指标的群体蛋白质构象空间优化方法,所述优化方法包括以下步骤:
1)给定输入序列信息;
2)设置参数:种群大小NP,重组因子RC,最大迭代代数Gmax,多样性接收概率p;
3)利用PSIPRED预测查询序列的二级结构信息;
4)初始化:首先通过用Rosetta第一阶段进行片段组装生成一个规模为NP的初始种群P={xi|i∈I},其中i为种群个体编号,I为种群个体编号集合,
I={1,2,...,NP},xi表示第i个个体;
5)采用Rosetta第二阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群;
6)构象重组,过程如下:
6.1)从当前种群中选择两个不同的个体xa和xb,其中,a,b∈{1,2,...,NP},a≠b;根据二级结构信息随机选取一个loop区域,并在0和1之间随机生成一个均匀分布随机数rand1;
6.2)如果rand1<RC,则针对步骤6.1)中选择的loop区域,交换构象xa和xb的二面角分别生成新的构象
Figure GDA0002969288590000051
Figure GDA0002969288590000052
6.3)重复步骤6.1)-6.2)直到种群中的所有个体都进行了构象重组为止,生成新的种群
Figure GDA0002969288590000053
7)针对种群中的每一个构象进行变异,过程如下:
7.1)统计所有loop区域能够进行片段组装位置的数量WL,并计算变异概率
Figure GDA0002969288590000054
7.2)生成一个0和1之间的均匀分布随机数rand2,如果rand2<Pm,则对构象
Figure GDA0002969288590000061
的所有loop区域进行一次片段组装生成变异个体
Figure GDA0002969288590000062
7.3)按照步骤7.1)-7.2)对当前种群中的所有构象进行变异后,生成新的种群
Figure GDA0002969288590000063
8)合并种群
Figure GDA0002969288590000064
和P中的所有个体,即
Figure GDA0002969288590000065
9)针对
Figure GDA0002969288590000066
中的每一个构象
Figure GDA0002969288590000067
计算多样性指标,过程如下:
9.1)根据每个构象的Cα原子坐标计算每个构象的质心
Figure GDA0002969288590000068
9.2)计算每个Cα原子到质心
Figure GDA0002969288590000069
的欧氏距离,并记离质心最远的原子为
Figure GDA00029692885900000610
离质心最近的原子为
Figure GDA00029692885900000611
9.3)计算每个Cα原子到
Figure GDA00029692885900000612
的欧氏距离,并记离
Figure GDA00029692885900000613
最远的原子为
Figure GDA00029692885900000614
9.4)分别计算步骤9.2)中所有距离的平均值
Figure GDA00029692885900000615
偏差
Figure GDA00029692885900000616
偏度
Figure GDA00029692885900000617
9.5)分别计算步骤9.3)中所有距离的平均值
Figure GDA00029692885900000618
偏差
Figure GDA00029692885900000619
偏度
Figure GDA00029692885900000620
9.6)计算每个Cα原子到
Figure GDA00029692885900000621
的距离,并计算这些距离的平均值
Figure GDA00029692885900000622
偏差
Figure GDA00029692885900000623
偏度
Figure GDA00029692885900000624
9.7)计算每个Cα原子到
Figure GDA00029692885900000625
的距离,并计算这些距离的平均值
Figure GDA00029692885900000626
偏差
Figure GDA00029692885900000627
偏度
Figure GDA00029692885900000628
9.8)将步骤9.4)-9.7)中的距离平均值、偏差和偏度合并得到构象
Figure GDA00029692885900000629
的特征向量
Figure GDA00029692885900000630
9.9)计算多样性指标
Figure GDA00029692885900000631
其中,T={1,2,…,2NP};
Figure GDA00029692885900000632
表示向量Ui的第l维元素;
10)针对种群P中的每一个个体xi,i∈I进行更新,过程如下:
10.1)分别根据Rosetta score2计算个体xi
Figure GDA00029692885900000633
的能量score(xi)和
Figure GDA00029692885900000634
10.2)如果
Figure GDA00029692885900000635
则个体
Figure GDA00029692885900000636
替换父代个体xi,否则继续步骤10.3);
10.3)如果Di>D′i,则产生一个[0,1]的随机数rand3,如果rand3>p,则个体
Figure GDA0002969288590000071
替换父代个体xi
11)对步骤6)-10)进行迭代直到达到最大迭代代数Gmax,然后继续步骤12);
12)采用Rosetta第三阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大迭代代数Gmax,其中能量函数采用Rosetta socre3;
13)采用Rosetta第四阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大迭代代数Gmax,其中能量函数采用Rosetta socre4;
14)输出结果。
本实施例以1ENH蛋白为实施例,一种基于多样性指标的群体蛋白质构象空间优化方法,其中包含以下步骤:
1)给定输入序列信息;
2)设置参数:种群大小NP=100,重组因子RC=0.1,最大迭代代数Gmax=10,多样性接收概率p=0.5;
3)利用PSIPRED预测查询序列的二级结构信息;
4)初始化:首先通过用Rosetta第一阶段进行片段组装生成一个规模为NP的初始种群P={xi|i∈I},其中i为种群个体编号,I为种群个体编号集合,I={1,2,...,NP},xi表示第i个个体;
5)采用Rosetta第二阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群;
6)构象重组,过程如下:
6.1)从当前种群中选择两个不同的个体xa和xb,其中,a,b∈{1,2,...,NP},a≠b;根据二级结构信息随机选取一个loop区域,并在0和1之间随机生成一个均匀分布随机数rand1;
6.2)如果rand1<0.1,则针对步骤6.1)中选择的loop区域,交换构象xa和xb的二面角分别生成新的构象
Figure GDA0002969288590000081
Figure GDA0002969288590000082
6.3)重复步骤6.1)-6.2)直到种群中的所有个体都进行了构象重组为止,生成新的种群
Figure GDA0002969288590000083
7)针对种群中的每一个构象进行变异,过程如下:
7.1)统计所有loop区域能够进行片段组装位置的数量WL,并计算变异概率
Figure GDA0002969288590000084
7.2)生成一个0和1之间的均匀分布随机数rand2,如果rand2<Pm,则对构象
Figure GDA0002969288590000085
的所有loop区域进行一次片段组装生成变异个体
Figure GDA0002969288590000086
7.3)按照步骤7.1)-7.2)对当前种群中的所有构象进行变异后,生成新的种群
Figure GDA0002969288590000087
8)合并种群
Figure GDA0002969288590000088
和P中的所有个体,即
Figure GDA0002969288590000089
9)针对
Figure GDA00029692885900000810
中的每一个构象
Figure GDA00029692885900000811
计算多样性指标,过程如下:
9.1)根据每个构象的Cα原子坐标计算每个构象的质心
Figure GDA00029692885900000812
9.2)计算每个Cα原子到质心
Figure GDA00029692885900000813
的欧氏距离,并记离质心最远的原子为
Figure GDA00029692885900000814
离质心最近的原子为
Figure GDA00029692885900000815
9.3)计算每个Cα原子到
Figure GDA00029692885900000834
的欧氏距离,并记离
Figure GDA00029692885900000816
最远的原子为
Figure GDA00029692885900000817
9.4)分别计算步骤9.2)中所有距离的平均值
Figure GDA00029692885900000818
偏差
Figure GDA00029692885900000819
偏度
Figure GDA00029692885900000820
9.5)分别计算步骤9.3)中所有距离的平均值
Figure GDA00029692885900000821
偏差
Figure GDA00029692885900000822
偏度
Figure GDA00029692885900000823
9.6)计算每个Cα原子到
Figure GDA00029692885900000824
的距离,并计算这些距离的平均值
Figure GDA00029692885900000825
偏差
Figure GDA00029692885900000826
偏度
Figure GDA00029692885900000827
9.7)计算每个Cα原子到
Figure GDA00029692885900000828
的距离,并计算这些距离的平均值
Figure GDA00029692885900000829
偏差
Figure GDA00029692885900000830
偏度
Figure GDA00029692885900000831
9.8)将步骤9.4)-9.7)中的距离平均值、偏差和偏度合并得到构象
Figure GDA00029692885900000832
的特征向量
Figure GDA00029692885900000833
9.9)计算多样性指标
Figure GDA0002969288590000091
其中,T={1,2,…,2NP};
Figure GDA0002969288590000092
表示向量Ui的第l维元素;
10)针对种群P中的每一个个体xi,i∈I进行更新,过程如下:
10.1)分别根据Rosetta score2计算个体xi
Figure GDA0002969288590000093
的能量score(xi)和
Figure GDA0002969288590000094
10.2)如果
Figure GDA0002969288590000095
则个体
Figure GDA0002969288590000096
替换父代个体xi,否则继续步骤10.3);
10.3)如果Di>D′i,则产生一个[0,1]的随机数rand3,如果rand3>0.5,则个体
Figure GDA0002969288590000097
替换父代个体xi
11)对步骤6)-10)进行迭代直到达到最大迭代代数Gmax,然后继续步骤12);
12)采用Rosetta第三阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大迭代代数Gmax,其中能量函数采用Rosetta socre3;
13)采用Rosetta第四阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大迭代代数Gmax,其中能量函数采用Rosetta socre4;
14)输出结果。
以序列长度为54的α折叠蛋白质1ENH为实施例,运用以上方法得到了该蛋白质的近天然态构象,最小均方根偏差RMSD为
Figure GDA0002969288590000098
预测得到的三维结构如图2所示。
以上阐述的是本发明给出的一个实施例表现出来的优良优化效果,显然本发明不仅适合上述实施例,而且可以应用到实际工程中的各个领域,同时在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种基于多样性指标的群体蛋白质构象空间优化方法,其特征在于,所述优化方法包括以下步骤:
1)给定输入序列信息;
2)设置参数:种群大小NP,重组因子RC,最大迭代代数Gmax,多样性接收概率p;
3)利用PSIPRED预测查询序列的二级结构信息;
4)初始化:首先通过用Rosetta第一阶段进行片段组装生成一个规模为NP的初始种群P={xi|i∈I},其中i为种群个体编号,I为种群个体编号集合,I={1,2,...,NP},xi表示第i个个体;
5)采用Rosetta第二阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群;
6)构象重组,过程如下:
6.1)从当前种群中选择两个不同的个体xa和xb,其中,a,b∈{1,2,...,NP},a≠b;根据二级结构信息随机选取一个loop区域,并在0和1之间随机生成一个均匀分布随机数rand1;
6.2)如果rand1<RC,则针对步骤6.1)中选择的loop区域,交换构象xa和xb的二面角分别生成新的构象
Figure FDA0002969288580000011
Figure FDA0002969288580000012
6.3)重复步骤6.1)-6.2)直到种群中的所有个体都进行了构象重组为止,生成新的种群
Figure FDA0002969288580000013
7)针对种群
Figure FDA0002969288580000014
中的每一个构象
Figure FDA0002969288580000015
i∈I进行变异,过程如下:
7.1)统计所有loop区域能够进行片段组装位置的数量WL,并计算变异概率
Figure FDA0002969288580000016
7.2)生成一个0和1之间的均匀分布随机数rand2,如果rand2<Pm,则对构象
Figure FDA0002969288580000017
的所有loop区域进行一次片段组装生成变异个体
Figure FDA0002969288580000018
7.3)按照步骤7.1)-7.2)对当前种群中的所有构象进行变异后,生成新的种群
Figure FDA0002969288580000019
8)合并种群
Figure FDA00029692885800000110
和P中的所有个体,即
Figure FDA00029692885800000111
9)针对
Figure FDA0002969288580000021
中的每一个构象
Figure FDA0002969288580000022
i∈I,计算多样性指标,过程如下:
9.1)根据每个构象的Cα原子坐标计算每个构象的质心
Figure FDA0002969288580000023
9.2)计算每个Cα原子到质心
Figure FDA0002969288580000024
的欧氏距离,并记离质心最远的原子为
Figure FDA0002969288580000025
离质心最近的原子为
Figure FDA0002969288580000026
9.3)计算每个Cα原子到
Figure FDA0002969288580000027
的欧氏距离,并记离
Figure FDA0002969288580000028
最远的原子为
Figure FDA0002969288580000029
9.4)分别计算步骤9.2)中所有距离的平均值
Figure FDA00029692885800000210
偏差
Figure FDA00029692885800000211
偏度
Figure FDA00029692885800000212
9.5)分别计算步骤9.3)中所有距离的平均值
Figure FDA00029692885800000213
偏差
Figure FDA00029692885800000214
偏度
Figure FDA00029692885800000215
9.6)计算每个Cα原子到
Figure FDA00029692885800000216
的距离,并计算这些距离的平均值
Figure FDA00029692885800000217
偏差
Figure FDA00029692885800000218
偏度
Figure FDA00029692885800000219
9.7)计算每个Cα原子到
Figure FDA00029692885800000220
的距离,并计算这些距离的平均值
Figure FDA00029692885800000221
偏差
Figure FDA00029692885800000222
偏度
Figure FDA00029692885800000223
9.8)将步骤9.4)-9.7)中的距离平均值、偏差和偏度合并得到构象
Figure FDA00029692885800000224
的特征向量
Figure FDA00029692885800000225
9.9)计算多样性指标
Figure FDA00029692885800000226
其中,T={1,2,…,2NP};
Figure FDA00029692885800000227
表示向量Ui的第l维元素;
10)针对种群P中的每一个个体xi,i∈I进行更新,过程如下:
10.1)分别根据Rosetta score2计算个体xi
Figure FDA00029692885800000228
的能量score(xi)和
Figure FDA00029692885800000229
10.2)如果
Figure FDA00029692885800000230
则个体
Figure FDA00029692885800000231
替换父代个体xi,否则继续步骤10.3);
10.3)如果Di>D′i,则产生一个[0,1]的随机数rand3,如果rand3>p,则个体
Figure FDA00029692885800000232
替换父代个体xi
11)对步骤6)-10)进行迭代直到达到最大迭代代数Gmax,然后继续步骤12);
12)采用Rosetta第三阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大迭代代数Gmax,其中能量函数采用Rosettasocre3;
13)采用Rosetta第四阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大迭代代数Gmax,其中能量函数采用Rosettasocre4;
14)输出结果。
CN201810438596.1A 2018-05-09 2018-05-09 一种基于多样性指标的群体蛋白质构象空间优化方法 Active CN108595910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810438596.1A CN108595910B (zh) 2018-05-09 2018-05-09 一种基于多样性指标的群体蛋白质构象空间优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810438596.1A CN108595910B (zh) 2018-05-09 2018-05-09 一种基于多样性指标的群体蛋白质构象空间优化方法

Publications (2)

Publication Number Publication Date
CN108595910A CN108595910A (zh) 2018-09-28
CN108595910B true CN108595910B (zh) 2021-08-03

Family

ID=63636508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810438596.1A Active CN108595910B (zh) 2018-05-09 2018-05-09 一种基于多样性指标的群体蛋白质构象空间优化方法

Country Status (1)

Country Link
CN (1) CN108595910B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584954B (zh) * 2018-11-05 2021-04-06 浙江工业大学 一种基于多种群联合搜索的蛋白质构象空间优化方法
CN114661760B (zh) * 2021-09-30 2022-12-06 金篆信科有限责任公司 数据库的多表查询方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2473295A (en) * 2009-09-07 2011-03-09 Univ Basel Self assembling protein fibres
CN104732115A (zh) * 2014-11-25 2015-06-24 浙江工业大学 一种基于简约空间抽象凸下界估计的蛋白质构象优化方法
CN105046101A (zh) * 2015-06-08 2015-11-11 浙江工业大学 一种基于副本交换和局部增强策略的群体构象空间搜索方法
CN106778059A (zh) * 2016-12-19 2017-05-31 浙江工业大学 一种基于Rosetta局部增强的群体蛋白质结构预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005044087A2 (en) * 2003-11-05 2005-05-19 The Regents Of The University Of California Methods for the determination of protein three-dimensional structure employing hydrogen exchange analysis to refine computational structure prediction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2473295A (en) * 2009-09-07 2011-03-09 Univ Basel Self assembling protein fibres
CN104732115A (zh) * 2014-11-25 2015-06-24 浙江工业大学 一种基于简约空间抽象凸下界估计的蛋白质构象优化方法
CN105046101A (zh) * 2015-06-08 2015-11-11 浙江工业大学 一种基于副本交换和局部增强策略的群体构象空间搜索方法
CN106778059A (zh) * 2016-12-19 2017-05-31 浙江工业大学 一种基于Rosetta局部增强的群体蛋白质结构预测方法

Also Published As

Publication number Publication date
CN108595910A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
Li et al. iORI-PseKNC: a predictor for identifying origin of replication with pseudo k-tuple nucleotide composition
Ao et al. RFhy-m2G: identification of RNA N2-methylguanosine modification sites based on random forest and hybrid features
CN108846256B (zh) 一种基于残基接触信息的群体蛋白质结构预测方法
Choo et al. Recent applications of hidden Markov models in computational biology
Zhao et al. Essential protein discovery based on a combination of modularity and conservatism
EP1328805A2 (en) System and process for validating, aligning and reordering one or more genetic sequence maps using at least one ordered restriction map
CN108595910B (zh) 一种基于多样性指标的群体蛋白质构象空间优化方法
CN109360599B (zh) 一种基于残基接触信息交叉策略的蛋白质结构预测方法
CN109086566B (zh) 一种基于片段重采样的群体蛋白质结构预测方法
CN108647486B (zh) 一种基于构象多样性策略的蛋白质三维结构预测方法
JP2008146538A (ja) マイクロrna検出装置、方法およびプログラム
CN104951670B (zh) 一种基于距离谱的群体构象空间优化方法
Hao et al. A novel method using abstract convex underestimation in ab-initio protein structure prediction for guiding search in conformational feature space
Sun et al. Smolign: a spatial motifs-based protein multiple structural alignment method
CN109378034B (zh) 一种基于距离分布估计的蛋白质预测方法
Zhang et al. Two-stage distance feature-based optimization algorithm for de novo protein structure prediction
CN109346128B (zh) 一种基于残基信息动态选择策略的蛋白质结构预测方法
CN109360598B (zh) 一种基于两阶段采样的蛋白质结构预测方法
Iqbal et al. A distance-based feature-encoding technique for protein sequence classification in bioinformatics
Mirceva et al. HMM based approach for classifying protein structures
Korotkov et al. Search for regions with periodicity using the random position weight matrices in the C. elegans genome
CN109390035B (zh) 一种基于局部结构比对的蛋白质构象空间优化方法
CN110718267B (zh) 一种基于多模态构象空间采样的蛋白质结构预测方法
CN109360600B (zh) 一种基于残基特征距离的蛋白质结构预测方法
CN109300505B (zh) 一种基于有偏采样的蛋白质结构预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant