一种基于副本交换和有偏分布估计的蛋白质构象空间优化
方法
技术领域
本发明是一种涉及生物信息学、计算机应用领域,分子动力学模拟,具体涉及的一种基于副本交换和有偏分布估计的群体蛋白质构象空间优化方法。
背景技术
生物体的基因组规定了所有构成该生物体的蛋白质,基因规定了蛋白质的氨基酸序列。虽然蛋白质由氨基酸的线性序列组成,但是它们只有折叠成特定的空间构象才能具有相应的活性和生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能,也有利于认识蛋白质是如何执行其功能的。
对蛋白质的三维结构进行研究,有利于更好地了解蛋白质的作用和功能以及蛋白质之间的相互作用,这对于生物学、医学、药学等其他方面的研究都是非常重要的。主要的研究方法可分为两大类,其一是利用实验的方法来测定蛋白质三维结构,包括X光绕射和核磁共振;其二则是利用计算方法预测蛋白质三维结构,包括同源建模法、折叠识别法以及从头预测法三种。虽然用实验的方法较为准确,但花费的时间长,而且受到技术和设备上的制约。而用理论方法则可以避免这些缺点,所以有很大的发展潜力。20世纪60年代前后,Anfinsen等人通过对核酶蛋白的复性研究,提出了著名的蛋白结构形成的热力学的观点:蛋白质的天然结构具有热稳定性,对应于自由能的一个全局最小点,蛋白质的结构信息可以由其氨基酸序列所决定。从此根据蛋白质的氨基酸序列从理论上预测蛋白质的三维结构就成为蛋白质研究领域的重要研究方向。目前从头蛋白质结构预测方法是一种常用的蛋白质结构预测方法,由于它仅利用一级序列信息进行预测,而不需要任何其它已知蛋白质结构信息,所以该方法也是一种较理想的预测方法。其基本策略是:一定环境中天然蛋白质的三维结构是整个系统自由能最小的结构。要实现这一方法有两个关键:一是要有一个合理的势函数,势函数的全局极小点对应于蛋白质的天然结构;二是要有一个高效额构象空间搜索算法,保证在有效的计算时间内找到势函数的全局最小。在蛋白质结构从头预测的过程中,能量函数的不精确以及采样能力的不足导致预测结果并不理想。
发明内容
为了克服现有的蛋白质结构预测方法采样效率低和预测精度不足的缺陷,本发明提出一种基于副本交换和有偏分布估计的群体蛋白质构象空间优化方法,本发明使用副本交换和有偏分布估计方法,利用副本交换增强对构象空间的采样能力,同时有偏分布估计方法使算法快速的向全局最优结果收敛。
本发明解决其技术问题所采用的技术方案是:
一种基于副本交换和有偏分布估计的群体蛋白质构象空间优化方法,所述方法包括以下步骤:
1)输入预测蛋白质的序列信息;
2)参数设置:种群规模NP,最大迭代次数Gmax,副本层数M,起始温度KT1,终止温度KTM,片段插入次数N,Rosetta Score3能量函数;
3)种群初始化,过程如下:
3.1)生成M个副本种群{PR
1,PR
2,...,PR
M},
其中m∈{1,2,...,M},
表示第m个副本种群中的第n个个体,n∈{1,2,...,NP};
3.2)按如下公式设置第m个副本种群PRm的温度KTm:
3.3)对每个副本种群中的每一个个体
进行片段组装,直至所有的
所有残基都至少被替换一次;
4)副本种群交换,过程如下:
4.1)设g=1,其中g∈{1,2,...,Gmax};
4.2)随机选择两个相邻副本种群PRi,PRi+1,其中i∈{1,2,···,M-1},在[1,NP]内随机生成互异的正整数random1、random2;
4.3)根据Rosetta score3能量函数计算种群PRi中第random1个个体xrandom1的能量E1和种群PRi+1中第random2个个体xrandom2的能量E2;
4.4)按如下公式计算副本交换概率Pac:
4.5)在0到1之间生成随机数random3;当random3≤Pac时,交换种群PRi中个体xrandom1与种群PRi+1中个体xrandom2,否则不进行副本交换操作;
4.6)在温度T
m下对种群PR
m的每个个体
进行片段组装,n∈[1,NP],组装至构象所有位置的残基类型都至少替换过一次;
4.7)重复步骤4.6),直至所有的副本种群都完成步骤4.6)的操作;
4.8)g=g+1;若g≤Gmax,转至步骤4.2);
5)有偏分布估计片段组装,过程如下:
5.1)设g′=1,将片段库中所有片段按如下公式设置标识号:
k=p*Nb+r
其中k是片段的标识号,p是该片段对应的窗口编号,Nb是每个窗口包含的片段总数,r是该片段在其对应的窗口中的排列序号;
5.2)对所有副本种群中每个个体
进行N次片段组装;
5.3)对组装过程中产生的构象根据能量由低到高进行排序,并选取排名前15%的构象形成集合D,设置g′=g′+1;
5.4)统计集合D所有构象中每个被使用的片段k的组装次数t,并根据如下公式计算使用概率
其中T是所有片段的使用次数,k∈[0,(L-l+1)Nb],L是蛋白质序列长度,l是窗口长度;
5.5)随机产生一个随机数random4,random4∈[0,1],由如下公式计算该片段的组装概率
其中
是片段k此次迭代的组装概率,
是上次迭代的组装概率,g′为当前迭代次数;
5.6)由公式
计算每个片段的累积概率,其中q
k是片段k的累积概率,s是集合D中所有被使用的片段总数,k
f表示片段k在所有被使用的片段中按片段标识号从小到大排列后是第f个片段,
表示在所有被使用的片段中排列第f的片段k的组装概率;
5.7)随机产生一个随机数random5,random5∈[0,1],当random5≤qk时,则片段k被选中,将片段k组装到个体对应的位置上,如此操作N次结束;
5.8)迭代的运行步骤5.3)~5.7),直至满足g′=Gmax;
5.9)使用能量函数对种群进行选择:把所有的种群合并成一个新种群,根据能量函数计算新种群每个个体的能量,根据能量的高低对合并的种群个体进行排序,输出能量最低的个体作为最终预测结果。
本发明的有益效果表现在:一方面使用了副本交换,M个相同的种群在不同的温度下进行片段组装,然后通过不同温度间交换完整的构型来获得更好的采样,增加了构象空间采样的多样性,另一方面使用了有偏分布估计算法,获得比例更高的低能量构象,加快了搜索向全局最优收敛的速度,提高了搜索效率。
附图说明
图1是一种基于副本交换和有偏分布估计的群体构象空间搜索方法对蛋白质1acf进行结构预测时的构象更新示意图。
图2是一种基于副本交换和有偏分布估计的群体构象空间搜索方法对蛋白质1acf进行结构预测得到的三维结构图。
具体实施方式
下面结合附图对本发明做进一步描述。
参照图1和图2,一种基于副本交换和有偏分布估计的群体构象空间搜索方法,包括以下步骤:
1)输入预测蛋白质的序列信息;
2)参数设置:种群规模NP,最大迭代次数Gmax,副本层数M,起始温度KT1,终止温度KTM,片段组装次数N,Rosetta Score3能量函数;
3)种群初始化,过程如下:
3.1)生成M个副本种群{PR
1,PR
2,...,PR
M},
其中m∈{1,2,...,M},
表示第m个副本种群中的第n个个体,n∈{1,2,...,NP};
3.2)按如下公式设置第m个副本种群PRm的温度KTm:
3.3)对每个副本种群中的每一个个体
进行片段组装,直至所有的
所有残基都至少被替换一次;
4)副本种群交换,过程如下:
4.1)设g=1,其中g∈{1,2,...,Gmax};
4.2)随机选择两个相邻副本种群PRi,PRi+1,其中i∈{1,2,···,M-1},在[1,NP]内随机生成互异的正整数random1、random2;
4.3)根据Rosetta score3能量函数计算种群PRi中第random1个个体xrandom1的能量E1和种群PRi+1中第random2个个体xrandom2的能量E2;
4.4)按如下公式计算副本交换概率Pac:
4.5)在0到1之间生成随机数random3;当random3≤Pac时,交换种群PRi中个体xrandom1与种群PRi+1中个体xrandom2,否则不进行副本交换操作;
4.6)在温度T
m下对种群PR
m的每个个体
进行片段组装,n∈[1,NP],组装至构象所有位置的残基类型都至少替换过一次;
4.7)重复步骤4.6),直至所有的副本种群都完成步骤4.6)的操作;
4.8)g=g+1;若g≤Gmax,转至步骤4.2);
5)有偏分布估计片段组装,过程如下:
5.1)设g′=1,将片段库中所有片段按如下公式设置标识号:
k=p*Nb+r
其中k是片段的标识号,p是该片段对应的窗口编号,Nb是每个窗口包含的片段总数,r是该片段在其对应的窗口中的排列序号;
5.2)对所有副本种群中每个个体
进行N次片段组装;
5.3)对组装过程中产生的构象根据能量由低到高进行排序,并选取排名前15%的构象形成集合D,设置g′=g′+1;
5.4)统计集合D所有构象中每个被使用的片段k的组装次数t,并根据如下公式计算使用概率
其中T是所有片段的使用次数,k∈[0,(L-l+1)Nb],L是蛋白质序列长度,l是窗口长度;
5.5)随机产生一个随机数random4,random4∈[0,1],由如下公式计算该片段的组装概率
其中
是片段k此次迭代的组装概率,
是上次迭代的组装概率,g′为当前迭代次数;
5.6)由公式
计算每个片段的累积概率,其中q
k是片段k的累积概率,s是集合D中所有被使用的片段总数,k
f表示片段k在所有被使用的片段中按片段标识号从小到大排列后是第f个片段,
表示在所有被使用的片段中排列第f的片段k的组装概率;
5.7)随机产生一个随机数random5,random5∈[0,1],当random5≤qk时,则片段k被选中,将片段k组装到个体对应的位置上,如此操作N次结束;
5.8)迭代的运行步骤5.3)~5.7),直至满足g′=Gmax;
5.9)使用能量函数对种群进行选择:把所有的种群合并成一个新种群,根据能量函数计算新种群每个个体的能量,根据能量的高低对合并的种群个体进行排序,输出能量最低的个体作为最终预测结果。
本实施例以蛋白质1acf为实施例,一种基于副本交换和有偏分布估计的群体构象空间搜索方法,包括以下步骤:
1)输入预测蛋白质的序列信息;
2)参数设置:种群规模NP=300,最大迭代次数Gmax=1000,副本层数M=10,起始温度KT1=2,终止温度KTM=10,片段组装次数N=150,Rosetta Score3能量函数;
3)种群初始化,过程如下:
3.1)生成M个副本种群{PR
1,PR
2,...,PR
M},
其中m∈{1,2,...,M},
表示第m个副本种群中的第n个个体,n∈{1,2,...,NP};
3.2)按如下公式设置第m个副本种群PRm的温度KTm:
3.3)对每个副本种群中的每一个个体
进行片段组装,直至所有的
所有残基都至少被替换一次;
4)副本种群交换,过程如下:
4.1)设g=1,其中g∈{1,2,...,Gmax};
4.2)随机选择两个相邻副本种群PRi,PRi+1,其中i∈{1,2,···,M-1},在[1,NP]内随机生成互异的正整数random1、random2;
4.3)根据Rosetta score3能量函数计算种群PRi中第random1个个体xrandom1的能量E1和种群PRi+1中第random2个个体xrandom2的能量E2;
4.4)按如下公式计算副本交换概率Pac:
4.5)在0到1之间生成随机数random3;当random3≤Pac时,交换种群PRi中个体xrandom1与种群PRi+1中个体xrandom2,否则不进行副本交换操作;
4.6)在温度T
m下对种群PR
m的每个个体
进行片段组装,n∈[1,NP],组装至构象所有位置的残基类型都至少替换过一次;
4.7)重复步骤4.6),直至所有的副本种群都完成步骤4.6)的操作;
4.8)g=g+1;若g≤Gmax,转至步骤4.2);
5)有偏分布估计片段组装,过程如下:
5.1)设g′=1,将片段库中所有片段按如下公式设置标识号:
k=p*Nb+r
其中k是片段的标识号,p是该片段对应的窗口编号,Nb是每个窗口包含的片段总数,r是该片段在其对应的窗口中的排列序号;
5.2)对所有副本种群中每个个体
进行N次片段组装;
5.3)对组装过程中产生的构象根据能量由低到高进行排序,并选取排名前15%的构象形成集合D,设置g′=g′+1;
5.4)统计集合D所有构象中每个被使用的片段k的组装次数t,并根据如下公式计算使用概率
其中T是所有片段的使用次数,k∈[0,(L-l+1)Nb],L是蛋白质序列长度,l是窗口长度;
5.5)随机产生一个随机数random4,random4∈[0,1],由如下公式计算该片段的组装概率
其中
是片段k此次迭代的组装概率,
是上次迭代的组装概率,g′为当前迭代次数;
5.6)由公式
计算每个片段的累积概率,其中q
k是片段k的累积概率,s是集合D中所有被使用的片段总数,k
f表示片段k在所有被使用的片段中按片段标识号从小到大排列后是第f个片段,
表示在所有被使用的片段中排列第f的片段k的组装概率;
5.7)随机产生一个随机数random5,random5∈[0,1],当random5≤qk时,则片段k被选中,将片段k组装到个体对应的位置上,如此操作N次结束;
5.8)迭代的运行步骤5.3)~5.7),直至满足g′=Gmax;
5.9)使用能量函数对种群进行选择:把所有的种群合并成一个新种群,根据能量函数计算新种群每个个体的能量,根据能量的高低对合并的种群个体进行排序,输出能量最低的个体作为最终预测结果。
以氨基酸序列长度为125的蛋白质1acf为实施例,运用以上方法得到了该蛋白质的近天然态构象,其构象更新示意图如图1所示,预测的蛋白质的均方根偏差为
预测结构如图2所示。
以上阐述是本发明给出的一个实施的效果,本发明不仅适合上述实施例,在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施。