CN109243526B - 一种基于特定片段交叉的蛋白质结构预测方法 - Google Patents

一种基于特定片段交叉的蛋白质结构预测方法 Download PDF

Info

Publication number
CN109243526B
CN109243526B CN201810763408.2A CN201810763408A CN109243526B CN 109243526 B CN109243526 B CN 109243526B CN 201810763408 A CN201810763408 A CN 201810763408A CN 109243526 B CN109243526 B CN 109243526B
Authority
CN
China
Prior art keywords
conformation
secondary structure
population
variation
residue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810763408.2A
Other languages
English (en)
Other versions
CN109243526A (zh
Inventor
张贵军
马来发
王小奇
周晓根
胡俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810763408.2A priority Critical patent/CN109243526B/zh
Publication of CN109243526A publication Critical patent/CN109243526A/zh
Application granted granted Critical
Publication of CN109243526B publication Critical patent/CN109243526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于特定片段交叉的蛋白质结构预测方法,包括以下步骤:首先预测查询序列的二级结构信息,构建片段库;其次设计基于特定片段交叉的策略,建立二级结构信息的适应度函数,设计交叉变异策略;最后根据按比例的适应度分配方法更新种群,利用设计基于特定片段交叉的策略能够有效地提高算法构象搜索能力和预测精度,预测的三级结构有很好的二级结构。本发明提供一种构象搜索能力较高和预测精度较高的蛋白质结构预测方法。

Description

一种基于特定片段交叉的蛋白质结构预测方法
技术领域
本发明涉及生物信息学、智能信息处理、计算机应用领域、蛋白质结构预测,尤其涉及的是一种基于特定片段交叉的蛋白质结构预测方法。
背景技术
蛋白质是生命体的重要组成部分,是生命活动的承担者。蛋白质的基本组成单元是氨基酸,自然界中常见的氨基酸有20多种,氨基酸是由中心碳原子及其相连的氨基、羧基、氢原子以及氨基酸的侧链组成,氨基酸经过脱水缩合形成肽键,由肽键连接起来的氨基酸形成一条长链,即为蛋白质。
蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。要了解蛋白质的功能,就必须获得其三维空间结构。因此,获得蛋白质的三维结构对人类来说是至关重要的,1961 年,Anfinsen提出了氨基酸序列决定蛋白质三维结构这一开创新的理论。而三维结构直接决定了蛋白质的生物性功能,所以人们对蛋白质的三维结构产生了浓厚兴趣并展开研究。国外学者肯德鲁和佩鲁茨对肌血蛋白和血红蛋白进行了结构分析,得到其蛋白质三维结构,是人类第一次测定蛋白质的三维结构,二人借此夺得年诺贝尔化学奖。此外,英国晶体学家Bernal与1958年提出了蛋白质四级结构的概念,将其定义为蛋白质一级结构、二级结构以及三级结构的延伸发展。多维核磁共振方法和射线晶体方法是近些年来发展起来的两个最主要的测定蛋白质结构的实验方法。多维核磁共振方法是将蛋白质放在水中,利用核磁共振直接测定其三维结构的方法。而射线晶体方法是目前为止最有效的蛋白质三维结构测定手段。到前为止,使用这两种方法测定的蛋白质占了已测蛋白质中的绝大比例。由于采用实验方法的条件有限、时间有限,需要花费大量的人力和物力,而且测定的速度远远跟不上序列的测定速度,所以急需一种既不依赖化学实验,又具有一定准确率的预测方法。这样如何简便、快速、高效地对未知蛋白质进行三维结构预测,成为研究者的棘手问题。在理论探索和应用需求的双重推动下,依据提出的蛋白质一级结构决定蛋白质三维结构的理论,利用计算机设计适当的算法,以序列为起点,三维结构为目标的蛋白质结构预测自20世纪末蓬勃发展。
因此,根据蛋白质的氨基酸序列,从理论上预测其相应空间结构就成为蛋白质研究领域科学家们的奋斗目标!预测蛋白质结构不仅是解开第二遗传密码的一把金钥匙,而且是设计出新型蛋白质分子的基础。理论计算方法(也称热力学方法)是一种常用的蛋白质结构预测方法,由于它仅利用一级序列信息进行预测,而不需要任何其它已知蛋白质结构信息,所以该方法也是一种较理想的预测方法。其基本假设是:一定环境中天然蛋白质的三维结构是整个系统自由能最小的结构。要实现这一方法有两个关键:一是要有一个合理的势函数,势函数的全局极小对应于蛋白质的天然结构;二是要有一个好的算法,保证在有效的计算时间内找到势函数的全局最小。尽管热力学方法建立在物理理论基础之上,但是目前这种方法的预测结果并不理想,主要障碍就是势函数的准确性和多重极小问题。因为目前的优化方法还不能确定性地求出势函数的全局极小,从而又制约着势函数的发展。所以研究有效的优化方法,解决多重极小问题是蛋白质结构预测中的当务之急。四十年来,人们发展了许多用于解决蛋白质结构预测中多重极小问题的方法,大致分为:分子动力学方法、系统搜索方法(包括格点搜索、树搜索)和随机搜索方法(包括MonetaCarlo方法、模拟退火方法、禁忌搜索、遗传算法等等)。随着数学和计算机技术的发展,这些方法也在不断地改进,并提出了其它一些新的算法。
因此,现在的蛋白质结构预测方法在预测精度和构象搜索方面存在着缺陷,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法的构象搜索能力较低和预测精度较低的缺陷,本发明提供一种构象搜索能力较高和预测精度较高的基于特定片段交叉的蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于特定片段交叉的蛋白质结构预测方法,所述方法包括以下步骤:
1)输入查询序列,利用Psipred(http://bioinf.cs.ucl.ac.uk/psipred/)预测查询序列的二级结构信息;
2)设置种群规模NP、最大迭代次数G、交叉概率CR、设置变异失败次数M,允许最大变异次数N,玻尔兹曼温度因子KT,输入片段库,预测的二级结构信息,迭代次数g=0;
3)对种群所有构象进行初始化,对种群中每个构象进行片段组装,直到构象的每个残基二面角至少被替换过一次;
4)构象交叉,操作如下:
4.1)选第i个构象Ci为目标构象,i∈[1,NP],产生一个随机数r,r∈[0,1],如果r小于CR,则跳到4.2),否则跳至步骤5);
4.2)随机选择一个构象Cj,j≠i,利用计算二级结构算法DSSP获取构象Ci的二级结构信息;
4.3)根据Ci残基位置随机选择一个交叉点p,判断交叉点p对应的残基被预测的二级结构的类型;
4.4)针对Ci和Cj,从交叉点p开始依次互换二面角对直到从交叉点p起预测的二级结构类型和交叉点p处对应的二级结构类型不同为止,产生一个构象C′i,并用Rosetta能量函数“score3”计算其能量值;
5)构象变异,对构象C′i变异过程如下:
5.1)对构象C′i进行9残基片段组装,生成构象C″i,并用Rosetta能量函数“score3”计算其能量值,若变异后的能量值比变异前能量值变小,则接收变异构象C″i,若能量值变大,则以Boltzmann概率
Figure GDA0002971060710000031
接收变异后个体C″i,其中ΔE为个体C″i和C′i的能量差值;
5.2)如果拒绝接收变异后的构象C″i,则变异失败次数M加一;
5.3)如果M等于允许最大变异次数N,则直接接收变异后的构象C″i,否则返回步骤5.1);
6)基于按比例的适应度分配方法进行选择,过程如下:
6.1)对构象C″i求适应度值
Figure GDA0002971060710000032
Figure GDA0002971060710000033
其中L是查询序列长度,
Figure GDA0002971060710000034
是查询序列query第l个残基预测的二级结构,
Figure GDA0002971060710000035
分别是测试构象第l个残基的二级结构,其值由DSSP求得;
6.2)对种群中每个构象Ci,求适应度值
Figure GDA0002971060710000036
6.3)计算构象C″i被选择的概率Pi:
Figure GDA0002971060710000041
6.4)产生一个随机数r′,r′∈[0,1],如果r′小于Pi,则用构象C″i替换构象Ci实现种群更新,否则保持种群不变;
7)g=g+1,判断是否达到最大迭代次数G,若不满足终止条件,则遍历种群执行步骤4),否则输出最后预测结果。
本发明的技术构思为:一种基于特定片段交叉的蛋白质结构预测方法,包括以下步骤:首先预测查询序列的二级结构信息,构建片段库;其次设计基于特定片段交叉的策略,建立二级结构信息的适应度函数,设计交叉变异策略;最后根据按比例的适应度分配方法更新种群,利用设计基于特定片段交叉的策略能够有效地提高算法构象搜索能力和预测精度,预测的三级结构有很好的二级结构。
本发明的有益效果为:构象空间搜索能力较强、能够有效地提高蛋白质的二级结构的准确性和精度较高的三级结构。
附图说明
图1是蛋白质1TIG特定片段的交叉示意图。
图2是蛋白质1TIG利用基于特定片段交叉的蛋白质三级结构预测方法预测得到的三维结构示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
参照图1和图2,一种基于特定片段交叉的蛋白质结构预测方法,包括以下步骤:
1)输入查询序列,利用Psipred(http://bioinf.cs.ucl.ac.uk/psipred/)预测查询序列的二级结构信息;
2)设置种群规模NP、最大迭代次数G、交叉概率CR、设置变异失败次数M,允许最大变异次数N,玻尔兹曼温度因子KT,输入片段库,预测的二级结构信息,迭代次数g=0;
3)对种群所有构象进行初始化,对种群中每个构象进行片段组装,直到构象的每个残基二面角至少被替换过一次;
4)构象交叉,操作如下:
4.1)选第i个构象Ci为目标构象,i∈[1,NP],产生一个随机数r,r∈[0,1],如果r小于CR,则跳到4.2),否则跳至步骤5);
4.2)随机选择一个构象Cj,j≠i,利用计算二级结构算法DSSP获取构象Ci的二级结构信息;
4.3)根据Ci残基位置随机选择一个交叉点p,判断交叉点p对应的残基被预测的二级结构的类型;
4.4)针对Ci和Cj,从交叉点p开始依次互换二面角对直到从交叉点p起预测的二级结构类型和交叉点p处对应的二级结构类型不同为止,产生一个构象C′i,并用Rosetta能量函数“score3”计算其能量值;
5)构象变异,对构象C′i变异过程如下:
5.1)对构象C′i进行9残基片段组装,生成构象C″i,并用Rosetta能量函数“score3”计算其能量值,若变异后的能量值比变异前能量值变小,则接收变异构象C″i,若能量值变大,则以Boltzmann概率
Figure GDA0002971060710000051
接收变异后个体C″i,其中ΔE为个体C″i和C′i的能量差值;
5.2)如果拒绝接收变异后的构象C″i,则变异失败次数M加一;
5.3)如果M等于允许最大变异次数N,则直接接收变异后的构象C″i,否则返回步骤5.1);
6)基于按比例的适应度分配方法进行选择,过程如下:
6.1)对构象C″i求适应度值
Figure GDA0002971060710000052
Figure GDA0002971060710000053
其中L是查询序列长度,
Figure GDA0002971060710000054
是查询序列query第l个残基预测的二级结构,
Figure GDA0002971060710000055
分别是测试构象第l个残基的二级结构,其值由DSSP求得;
6.2)对种群中每个构象Ci,求适应度值
Figure GDA0002971060710000056
6.3)计算构象C″i被选择的概率Pi:
Figure GDA0002971060710000057
6.4)产生一个随机数r′,r′∈[0,1],如果r′小于Pi,则用构象C″i替换构象Ci实现种群更新,否则保持种群不变;
7)g=g+1,判断是否达到最大迭代次数G,若不满足终止条件,则遍历种群执行步骤4),否则输出最后预测结果。
本实施例以序列长度为88的α/β折叠蛋白质1TIG为实施例,一种基于特定片段交叉的蛋白质结构预测方法,所述方法包括以下步骤:
1)输入查询序列,利用Psipred(http://bioinf.cs.ucl.ac.uk/psipred/)预测查询序列的二级结构信息;
2)设置种群规模50、最大迭代次数1000、交叉概率0.5、设置变异失败次数0,允许最大变异次数150,玻尔兹曼温度因子2,输入片段库,预测的二级结构信息,迭代次数g=0;
3)对种群所有构象进行初始化,对种群中每个构象进行片段组装,直到构象的每个残基二面角至少被替换过一次;
4)构象交叉,操作如下:
4.1)选第i个构象Ci为目标构象,i∈[1,NP],产生一个随机数r,r∈[0,1],如果r小于0.5,则跳到4.2),否则跳至步骤5);
4.2)随机选择一个构象Cj,j≠i,利用计算二级结构算法DSSP获取构象Ci的二级结构信息;
4.3)根据Ci残基位置随机选择一个交叉点p,判断交叉点p对应的残基被预测的二级结构的类型;
4.4)针对Ci和Cj,从交叉点p开始依次互换二面角对直到从交叉点p起预测的二级结构类型和交叉点p处对应的二级结构类型不同为止,产生一个构象C′i,并用Rosetta能量函数“score3”计算其能量值;
5)构象变异,对构象C′i变异过程如下:
5.1)对构象C′i进行9残基片段组装,生成构象C″i,并用Rosetta能量函数“score3”计算其能量值,若变异后的能量值比变异前能量值变小,则接收变异构象C″i,若能量值变大,则以Boltzmann概率
Figure GDA0002971060710000061
接收变异后个体C″i,其中ΔE为个体C″i和C′i的能量差值;
5.2)如果拒绝接收变异后的构象C″i,则变异失败次数M加一;
5.3)如果M等于允许最大变异次数N,则直接接收变异后的构象C″i,否则返回步骤5.1);
6)基于按比例的适应度分配方法进行选择,过程如下:
6.1)对构象C″i求适应度值
Figure GDA0002971060710000071
Figure GDA0002971060710000072
其中L是查询序列长度,
Figure GDA0002971060710000073
是查询序列query第l个残基预测的二级结构,
Figure GDA0002971060710000074
分别是测试构象第l个残基的二级结构,其值由DSSP求得;
6.2)对种群中每个构象Ci,求适应度值
Figure GDA0002971060710000075
6.3)计算构象C″i被选择的概率Pi:
Figure GDA0002971060710000076
6.4)产生一个随机数r′,r′∈[0,1],如果r′小于Pi,则用构象C″i替换构象Ci实现种群更新,否则保持种群不变;
7)g=g+1,判断是否达到最大迭代次数G,若不满足终止条件,则遍历种群执行步骤4),否则输出最后预测结果。
以序列长度为88的α/β折叠蛋白质1TIG为实施例,运用以上方法得到了该蛋白质的近天然态构象,最小均方根偏差为
Figure GDA0002971060710000077
平均均方根偏差为
Figure GDA0002971060710000078
预测结构如图2所示。
以上说明是本发明以1TIG蛋白质为实例所得出的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。

Claims (1)

1.一种基于特定片段交叉的蛋白质结构预测方法,其特征在于:包括以下步骤:
1)输入查询序列,利用Psipred预测查询序列的二级结构信息;
2)设置种群规模NP、最大迭代次数G、交叉概率CR、设置变异失败次数M,允许最大变异次数N,玻尔兹曼温度因子KT,输入片段库,预测的二级结构信息,迭代次数g=0;
3)对种群所有构象进行初始化,对种群中每个构象进行片段组装,直到构象的每个残基二面角至少被替换过一次;
4)构象交叉,操作如下:
4.1)选第i个构象Ci为目标构象,i∈[1,NP],产生一个随机数r,r∈[0,1],如果r小于CR,则跳到4.2),否则跳至步骤5);
4.2)随机选择一个构象Cj,j≠i,利用计算二级结构算法DSSP获取构象Ci的二级结构信息;
4.3)根据Ci残基位置随机选择一个交叉点p,判断交叉点p对应的残基被预测的二级结构的类型;
4.4)针对Ci和Cj,从交叉点p开始依次互换二面角对直到从交叉点p起预测的二级结构类型和交叉点p处对应的二级结构类型不同为止,产生一个构象C′i,并用Rosetta能量函数“score3”计算其能量值;
5)构象变异,对构象C′i变异过程如下:
5.1)对构象C′i进行9残基片段组装,生成构象C″i,并用Rosetta能量函数“score3”计算其能量值,若变异后的能量值比变异前能量值变小,则接收变异构象C″i,若能量值变大,则以Boltzmann概率
Figure FDA0002971060700000011
接收变异后个体C″i,其中ΔE为个体C″i和C′i的能量差值;
5.2)如果拒绝接收变异后的构象C″i,则变异失败次数M加一;
5.3)如果M等于允许最大变异次数N,则直接接收变异后的构象C″i,否则返回步骤5.1);
6)基于按比例的适应度分配方法进行选择,过程如下:
6.1)对构象C″i求适应度值
Figure FDA0002971060700000021
Figure FDA0002971060700000022
其中L是查询序列长度,
Figure FDA0002971060700000023
是查询序列query第l个残基预测的二级结构,
Figure FDA0002971060700000024
分别是测试构象第l个残基的二级结构,其值由DSSP求得;
6.2)对种群中每个构象Ci,求适应度值
Figure FDA0002971060700000025
6.3)计算构象C″i被选择的概率Pi:
Figure FDA0002971060700000026
6.4)产生一个随机数r′,r′∈[0,1],如果r′小于Pi,则用构象C″i替换构象Ci实现种群更新,否则保持种群不变;
7)g=g+1,判断是否达到最大迭代次数G,若不满足终止条件,则遍历种群执行步骤4),否则输出最后预测结果。
CN201810763408.2A 2018-07-12 2018-07-12 一种基于特定片段交叉的蛋白质结构预测方法 Active CN109243526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810763408.2A CN109243526B (zh) 2018-07-12 2018-07-12 一种基于特定片段交叉的蛋白质结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810763408.2A CN109243526B (zh) 2018-07-12 2018-07-12 一种基于特定片段交叉的蛋白质结构预测方法

Publications (2)

Publication Number Publication Date
CN109243526A CN109243526A (zh) 2019-01-18
CN109243526B true CN109243526B (zh) 2021-08-03

Family

ID=65072478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810763408.2A Active CN109243526B (zh) 2018-07-12 2018-07-12 一种基于特定片段交叉的蛋白质结构预测方法

Country Status (1)

Country Link
CN (1) CN109243526B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117497092B (zh) * 2024-01-02 2024-05-14 微观纪元(合肥)量子科技有限公司 基于动态规划和量子退火的rna结构预测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1672160A (zh) * 2002-05-20 2005-09-21 埃博马可西斯公司 在计算机上产生和筛选蛋白质文库
CN104951670A (zh) * 2015-06-08 2015-09-30 浙江工业大学 一种基于距离谱的群体构象空间优化方法
CN106778059A (zh) * 2016-12-19 2017-05-31 浙江工业大学 一种基于Rosetta局部增强的群体蛋白质结构预测方法
CN107609342A (zh) * 2017-08-11 2018-01-19 浙江工业大学 一种基于二级结构空间距离约束的蛋白质构象搜索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160311885A1 (en) * 2013-08-14 2016-10-27 Biogen Ma Inc. Recombinant factor viii proteins

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1672160A (zh) * 2002-05-20 2005-09-21 埃博马可西斯公司 在计算机上产生和筛选蛋白质文库
CN104951670A (zh) * 2015-06-08 2015-09-30 浙江工业大学 一种基于距离谱的群体构象空间优化方法
CN106778059A (zh) * 2016-12-19 2017-05-31 浙江工业大学 一种基于Rosetta局部增强的群体蛋白质结构预测方法
CN107609342A (zh) * 2017-08-11 2018-01-19 浙江工业大学 一种基于二级结构空间距离约束的蛋白质构象搜索方法

Also Published As

Publication number Publication date
CN109243526A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
Deng et al. Protein structure prediction
CN107609342B (zh) 一种基于二级结构空间距离约束的蛋白质构象搜索方法
CN105740626A (zh) 一种基于机器学习的药物活性预测方法
CN109215732B (zh) 一种基于残基接触信息自学习的蛋白质结构预测方法
CN109360599B (zh) 一种基于残基接触信息交叉策略的蛋白质结构预测方法
CN107491664B (zh) 一种基于信息熵的蛋白质结构从头预测方法
CN110148437A (zh) 一种残基接触辅助策略自适应的蛋白质结构预测方法
CN109086566B (zh) 一种基于片段重采样的群体蛋白质结构预测方法
CN109101785B (zh) 一种基于二级结构相似性选择策略的蛋白质结构预测方法
CN109086565B (zh) 一种基于残基间接触约束的蛋白质结构预测方法
CN109872770B (zh) 一种结合排挤度评价的多变异策略蛋白质结构预测方法
CN109243526B (zh) 一种基于特定片段交叉的蛋白质结构预测方法
CN109360601B (zh) 一种基于排挤策略的多模态蛋白质结构预测方法
Sun et al. Smolign: a spatial motifs-based protein multiple structural alignment method
CN109300506B (zh) 一种基于特定距离约束的蛋白质结构预测方法
Yu et al. PhosAF: An integrated deep learning architecture for predicting protein phosphorylation sites with AlphaFold2 predicted structures
CN108920894B (zh) 一种基于简约抽象凸估计的蛋白质构象空间优化方法
Sharma et al. Biological databases and their application
CN109378035B (zh) 一种基于二级结构动态选择策略的蛋白质结构预测方法
CN109326320B (zh) 一种系综构象选择策略自适应的蛋白质结构预测方法
CN109390035B (zh) 一种基于局部结构比对的蛋白质构象空间优化方法
CN109300505B (zh) 一种基于有偏采样的蛋白质结构预测方法
Eghdami et al. SSA: Subset sum approach to protein β-sheet structure prediction
CN110729023B (zh) 一种基于二级结构元素接触辅助的蛋白质结构预测方法
CN109326318B (zh) 一种基于Loop区域高斯扰动的群体蛋白质结构预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190118

Assignee: ZHEJIANG ORIENT GENE BIOTECH CO.,LTD.

Assignor: JIANG University OF TECHNOLOGY

Contract record no.: X2023980053610

Denomination of invention: A Protein Structure Prediction Method Based on Specific Fragment Crossing

Granted publication date: 20210803

License type: Common License

Record date: 20231222