一种使用拉氏图增强Loop区域结构的蛋白质结构预测方法
技术领域
本发明是一种涉及生物学信息学、分子动力学模拟、统计学习与组合优化、计算机应用领域,尤其涉及的是,一种使用拉氏图增强Loop区域结构的蛋白质结构预测方法。
背景技术
蛋白质是生物体中分布最广,最复杂的蛋白质,在与生命有关的各种过程中起着至关重要的作用,例如运输,调节和防御过程。
蛋白质的结构可以分为三个层次:
1)蛋白质的一级结构是指多肽链中的氨基酸序列。
2)二级结构是指实际多肽主链上高度规则的局部结构。有二种主要类型的二级结构,α-螺旋和β-链。
3)三级结构是指单体和多聚体蛋白质分子的三维结构。α-螺旋和β-折叠片被折叠成致密的球状结构。
4)第四结构是由作为单一功能单位运行的两个或多个单独的多肽链(亚基)聚集组成的三维结构。
蛋白质只有在折叠成特定结构后才能发挥某些生物学功能,因此理解蛋白质的结构对理解它是中枢神经系统非常重要,它的传染源是一种特定类型的被称为朊病毒的错误折叠蛋白质。在正常情况下,朊病毒是α-螺旋结构,但在特定情况下,它会扭曲成β链结构,这是致病因子。获得蛋白质三维结构的实验方法包括X射线晶体学,核磁共振波谱学,低温电子显微镜学等。在过去的几十年中,蛋白质序列数据库(UniProt)和蛋白质结构数据库(PDB)中的数据呈指数增长。然而,获取蛋白质序列数据比获得蛋白质结构数据容易得多。更重要的是,实验手段总是耗时巨大且昂贵。截至2018年2月,小于0.127%的蛋白质序列已通过实验确定了三维结构。因此,从蛋白质序列预测结构的计算方法是非常重要的工作。此外,Anfinsen的实验显示,天然结构仅由蛋白质的氨基酸序列决定。换言之,蛋白质的结构信息包含在其序列中,这表明可以使用计算方法从序列预测结构。由于相似的蛋白质序列通常具有相似的三维结构,因此存在使用PDB中的已知结构作为模板的同源性建模方法,这是迄今为止用于蛋白质结构预测的最准确的方法。随着数据库的增长,越来越多的蛋白质可以通过同源模板获得精确的蛋白质结构。同源建模可以有效地预测蛋白质结构,但其预测准确性取决于目标蛋白质和结构模板之间的序列同一性。当序列同一性相对较高(大于30%)时,同源建模方法一般可以较高的精度预测蛋白质三级结构,而当序列同一性较低时则失败。与基于模板的结构预测方法(如同源性建模)不同,从头预测方法不依赖任何已知结构,并且通过构象搜索方法搜索目标蛋白的天然结构。其中,片段组装技术被广泛使用,其利用多个蛋白质结构的片段拼接成目标蛋白质结构在蛋白质结构。从头预测的过程中,目前主要存在的瓶颈有两个,一个是能量景观的欺骗性,使得获得的能量低构象并不是天然态的构象,具体表现为能量函数的不精确,不能挑选出好的构象;另一个则是现有的技术对构象空间的采样能力的不足,具体表现为构象缺乏多样性。
因此,现在的蛋白质结构预测方法在预测精度和采样能力方面存在着缺陷,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法采样能力和预测精度不足的缺陷,本发明提出一种采样能力较好、预测精度较高的使用拉氏图增强Loop区域结构的蛋白质结构预测方法,在Rosetta算法的基础上,引入了局部扰动阶段,该局部扰动主要针对Loop区域,完成扰动后,使用拉氏图去判断扰动是否接收,该方法可以有效地减小构象采样空间,改进由于能量函数的不精确导致的蛋白质结构预测精度低的问题。
本发明解决其技术问题所采用的技术方案是:
一种使用拉氏图增强Loop区域结构的蛋白质结构预测方法,所述方法包括以下步骤:
1)参数设置:目标蛋白质序列长度L,第一阶段迭代次数为G1,第二阶段迭代次数为G2,第三阶段迭代次数为G3,第四阶段迭代次数为G4,局部扰动阶段迭代次数为Glocal;
2)获取目标蛋白对应拉氏图,首先通过PSIPRED服务器(http://bioinf.cs.ucl.ac.uk/psipred/),预测得到目标蛋白的预测二级结构,再根据目标蛋白相应残基的预测二级结构类型获取对应的拉氏图;
3)构象搜索,过程如下:
3.1)第一阶段进行目标构象的初始化,设置初始构象x为伸展的直链,对构象进行片段长度为9的片段组装,直到构象的每一个残基均被替换至少一次以上视为初始化过程完成,若进行第一阶段最大迭代次数后,构象的残基还未被全部替换一次以上,则强制停止第一阶段的迭代过程,进入第二阶段的迭代;
3.2)第二阶段进行构象空间搜索,获取第一阶段得到的最终的构象x1,对该构象进行片段组装,其中片段组装的片段长度为9,可得到构象x1′,使用Rosetta算法中第二阶段的能量函数分别计算构象片段组装前后的能量E(x1)和E(x1′),若能量变小,则保留个体x1′,否则保留个体x1,进行G2次如上所述的迭代过程后得到第二阶段最终的构象x2;
3.3)第三阶段继续进行构象空间搜索,获取第二阶段得到的最终构象x2,对该构象进行片段组装,其中片段组装的片段长度为3,经过片段组装可以得到构象x2′,对x2和x2′使用Rosetta算法中第三阶段的能量函数计算能量E(x2)和E(x2′),若E(x2)≥E(x2′),则接收个体x2′;若E(x2)<E(x2′),则接收个体x2,在G3次迭代后完成这个阶段的搜索并记录最终构象x3;
3.4)第四阶段进行基于Metropolis Monte Carlo的构象空间搜索,获取第三阶段的最终构象x3,继续对该构象使用片段长度为3的片段组装得到构象x3′,使用Rosetta算法中第四阶段的能量函数对构象x3和x3′分别计算能量,可得到两者的能量为E(x3)和E(x3′),若E(x3)≥E(x3′),则接收片段组装后的个体x3′,若E(x3)<E(x3′),则计算Boltzmann概率其中,ΔE是前后两者的能量差值,kT是温度系数,并随机生成概率r,r∈[0,1],若r<PB,则接收片段组装后的个体x3′,否则,保留原个体x3,第四阶段一共需要进行G4次迭代,完成迭代后记录最终个体x4;
4)基于拉氏图的构象局部扰动首先根据PSIPRED获得的预测二级结构选取目标构象x4的其中一个Loop区域,并通过公式计算该残基对应二面角在拉氏图中对应的分数,公式如下所示;
其中φi,是目标蛋白第i个残基的二面角,res(i)是目标蛋白第i个残基的残基类型,将被选中的Loop区域中的所有分数R(xi)加起来,得到R(x4),然后给予这个Loop区域所有残基的二面角以一个±5°的扰动,生成新的构象x4′,并重新计算被选中区域的分数,得到R(x4′),若R(x4)<R(x4′),接收局部扰动后的构象x4′,否则保留原构象x4,完成Glocal次局部扰动后,记录并输出最终构象。
本发明的技术构思为:本发明提出一种使用拉氏图增强Loop区域结构的蛋白质结构预测方法。首先,根据目标蛋白质的序列信息以及残基类型获得相对应的拉氏图;其次,使用片段长度为3和9的片段组装分别在不同阶段对构象空间进行搜索,片段长度的不同有利于构象的采样多样性;然后,在第四阶段中加入了Monte Carlo方法,提高了算法搜索构象空间的能力;最后通过局部扰动阶段,对构象的Loop区域进行增强,使用了片段库以外的信息,有效地增强了构象的多样性,通过对Loop区域的残基的结构进行增强,还可以减小构象搜索空间,从而获得更多近天然态的构象。
本发明的有益效果表现为:一方面采用了Rosetta中不同阶段能量函数来选取更接近天然态的构象,Monte Carlo方法的使用可以获得多种多样的构象。另一方面,在构象采样空间搜索过程中,在用片段组装技术形成构象整体拓扑结构的基础上,对Loop区域结构进行局部扰动,并用拉氏图对扰动后的结构进行打分,并根据分数选择结构较好的构象,减小了由能量函数不精确带来的影响。
附图说明
图1是使用拉氏图增强Loop区域结构的蛋白质结构预测方法对蛋白质1ENH进行结构预测时得到的构象分布图。
图2是使用拉氏图增强Loop区域结构的蛋白质结构预测方法对蛋白质1ENH进行结构预测得到的三维结构图。
具体实施方式
下面结合附图对本发明做进一步描述。
参照图1和图2,一种使用拉氏图增强Loop区域结构的蛋白质结构预测方法,所述方法包括以下步骤:
1)参数设置:目标蛋白质序列长度L,第一阶段迭代次数为G1,第二阶段迭代次数为G2,第三阶段迭代次数为G3,第四阶段迭代次数为G4,局部扰动阶段迭代次数为Glocal;
2)获取目标蛋白对应拉氏图,首先通过PSIPRED服务器(http://bioinf.cs.ucl.ac.uk/psipred/),预测得到目标蛋白的预测二级结构,再根据目标蛋白相应残基的预测二级结构类型获取对应的拉氏图;
3)构象搜索,过程如下:
3.1)第一阶段进行目标构象的初始化,设置初始构象x为伸展的直链,对构象进行片段长度为9的片段组装,直到构象的每一个残基均被替换至少一次以上视为初始化过程完成,若进行第一阶段最大迭代次数后,构象的残基还未被全部替换一次以上,则强制停止第一阶段的迭代过程,进入第二阶段的迭代;
3.2)第二阶段进行构象空间搜索,获取第一阶段得到的最终的构象x1,对该构象进行片段组装,其中片段组装的片段长度为9,可得到构象x1′,使用Rosetta算法中第二阶段的能量函数分别计算构象片段组装前后的能量E(x1)和E(x1′),若能量变小,则保留个体x1′,否则保留个体x1,进行G2次如上所述的迭代过程后得到第二阶段最终的构象x2;
3.3)第三阶段继续进行构象空间搜索,获取第二阶段得到的最终构象x2,对该构象进行片段组装,其中片段组装的片段长度为3,经过片段组装可以得到构象x2′,对x2和x2′使用Rosetta算法中第三阶段的能量函数计算能量E(x2)和E(x2′),若E(x2)≥E(x2′),则接收个体x2′;若E(x2)<E(x2′),则接收个体x2,在G3次迭代后完成这个阶段的搜索并记录最终构象x3;
3.4)第四阶段进行基于Metropolis Monte Carlo的构象空间搜索,获取第三阶段的最终构象x3,继续对该构象使用片段长度为3的片段组装得到构象x3′,使用Rosetta算法中第四阶段的能量函数对构象x3和x3′分别计算能量,可得到两者的能量为E(x3)和E(x3′),若E(x3)≥E(x3′),则接收片段组装后的个体x3′,若E(x3)<E(x3′),则计算Boltzmann概率其中,ΔE是前后两者的能量差值,kT是温度系数,并随机生成概率r,r∈[0,1],若r<PB,则接收片段组装后的个体x3′,否则,保留原个体x3,第四阶段一共需要进行G4次迭代,完成迭代后记录最终个体x4;
4)基于拉氏图的构象局部扰动首先根据PSIPRED获得的预测二级结构选取目标构象x4的其中一个Loop区域,并通过公式计算该残基对应二面角在拉氏图中对应的分数,公式如下所示;
其中φi,是目标蛋白第i个残基的二面角,res(i)是目标蛋白第i个残基的残基类型,将被选中的Loop区域中的所有分数R(xi)加起来,得到R(x4),然后给予这个Loop区域所有残基的二面角以一个±5°的扰动,生成新的构象x4′,并重新计算被选中区域的分数,得到R(x4′),若R(x4)<R(x4′),接收局部扰动后的构象x4′,否则保留原构象x4,完成Glocal次局部扰动后,记录并输出最终构象。
本实施例以序列长度为54的α折叠蛋白质1ENH为实施例,一种使用拉氏图增强Loop区域结构的蛋白质结构预测方法,所述方法包括以下步骤:
1)参数设置:目标蛋白质序列长度L=54,第一阶段迭代次数为G1=2000,第二阶段迭代次数为G2=2000,第三阶段迭代次数为G3=2000,第四阶段迭代次数为G4=2000,局部扰动阶段迭代次数为Glocal=2000;
2)获取目标蛋白对应拉氏图,首先通过PSIPRED服务器(http://bioinf.cs.ucl.ac.uk/psipred/),预测得到目标蛋白的预测二级结构,再根据目标蛋白相应残基的预测二级结构类型获取对应的拉氏图;
3)构象搜索,过程如下:
3.1)第一阶段进行目标构象的初始化,设置初始构象x为伸展的直链,对构象进行片段长度为9的片段组装,直到构象的每一个残基均被替换至少一次以上,若进行第一阶段最大迭代次数后,构象的残基还未被全部替换一次以上,则强势停止第一阶段的迭代,进入第二阶段的迭代;
3.2)第二阶段进行构象空间搜索,获取第一阶段得到的最终的构象x1,对该构象进行片段组装,其中片段组装的片段长度为9,可得到构象x1′,使用Rosetta算法中第二阶段的能量函数“score1”分别计算构象片段组装前后的能量E(x1)和E(x1′),若能量变小,则保留个体x1′,否则保留个体x1,进行2000次如上所述的迭代过程后得到第二阶段最终的构象x2;
3.3)第三阶段继续进行构象空间搜索,获取第二阶段得到的最终构象x2,对该构象进行片段组装,其中片段组装的片段长度为3,经过片段组装可以得到构象x2′,对x2和x2′使用Rosetta算法中第三阶段的能量函数“score2”计算能量E(x2)和E(x2′),若E(x2)≥E(x2′),则接收个体x2′;若E(x2)<E(x2′),则接收个体x2,在2000次迭代后完成这个阶段的搜索并记录最终构象x3;
3.4)第四阶段进行基于Monte Carlo的构象空间搜索,获取第三阶段的最终构象x3,继续对该构象使用片段长度为3的片段组装得到构象x3′,使用Rosetta算法中第四阶段的能量函数“score3”对构象x3和x3′分别计算能量,可得到两者的能量为E(x3)和E(x3′),若E(x3)≥E(x3′),则接收片段组装后的个体x3′,若E(x3)<E(x3′),则计算Boltzmann概率其中,ΔE是前后两者的能量差值,kT是温度系数,并随机生成概率r,r∈[0,1],若r<PB,则接收片段组装后的个体x3′,否则,保留原个体x3,第四阶段一共需要进行4000次迭代,完成迭代后记录最终个体x4;
4)基于拉氏图的构象局部扰动,首先根据PSIPRED获得的预测二级结构选取目标构象x4的其中一个Loop区域,再通过公式计算该残基对应二面角在拉氏图中对应的分数,公式如下所示;
其中φi,是目标蛋白第i个残基的二面角,res(i)是目标蛋白第i个残基的残基类型,将被选中的Loop区域中的所有分数R(xi)加起来,得到R(x4),然后给予这个Loop区域所有残基的二面角以一个±5°的扰动,生成新的构象x4′,并重新计算被选中区域的分数,得到R(x4′),若R(x4)<R(x4′),接收局部扰动后的构象x4′,否则保留原构象x4,完成10000次局部扰动后,记录并输出最终构象。
以序列长度为54的α折叠蛋白质1ENH为实施例,运用以上方法得到了该蛋白质的近天然态构象,最小均方根偏差为平均均方根偏差为预测结构如图2所示。
以上说明是本发明以1ENH蛋白质为实例所得出的效果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。