发明内容
为了克服现有的蛋白质结构预测方法采样能力和预测精度的不足,本发明提出一种采样能力较好、预测精度较高的结构特征向量辅助选择的蛋白质结构预测方法,设计一种结构特征向量,通过结构特征向量和能量函数同时进行选择,以选取能量和结构均较优个体,能够有效地改进由于能量函数的不精确导致的蛋白质结构预测精度低的问题。
本发明解决其技术问题所采用的技术方案是:
一种结构特征向量辅助选择的蛋白质结构预测方法,所述方法包括以下步骤:
1)参数设置,过程如下:
初始种群规模为population,最大迭代代数为generation,种群长度为length,交叉起始位置为crossbegin,交叉结束位置为crossend,交叉片段长度为 fraglength;
2)确定结构特征向量USR,过程如下:
对于两个不同的构象M和N,ConfUSR
(M)=(A
x(M),C
x(M),D
x(M))和 ConfUSR
(N)=(A
x(N),C
x(N),D
x(N))分别表示这两个构象的结构特征向量,其中, A为中心原子的坐标,C为与中心最远的原子的坐标,D为与C最远的原子的坐标,A
x(N)是指A原子的X坐标,而这两个构象之间的距离则用
来表示;
3)种群初始化操作,过程如下:
使用Rosetta-abinitio第一阶段对种群population个体进行片段长度为9的片段组装,直到每个位置的残基都被替换一次,完成初始化操作,得到 population个初始个体;
4)种群交叉操作:
在种群中随机选择两个个体xi,xj,i,j∈[1,population],i≠j,随机选择序列中一个片段进行交叉,操作如下:
4.1)随机生成一个长度为population的数组,数组包含从1到population的随机整数排序;
4.2)依次选取两个个体xi,xj进行交叉,片段长度为随机整数 fraglength∈[3,10],交叉操作的起始位置为随机整数 crossbegin∈[1,length-fraglength],交叉结束位置为crossend= crossbegin+fraglength,在交叉区间[crossbegin,crossend]中交换xi,xj相应位置残基的角度信息,生成新的个体x′i,x′j;
5)种群变异操作:
对新生成的个体依次进行变异操作,操作如下:
5.1)对个体x′i,x′j进行片段组装,根据公式
进行片段长度为3或者9的片段组装,其中p为[0,1]之间的随机数;
5.2)在片段组装之后,利用能量函数分别对组装前后的个体进行评价得到Ei和E′i,若Ei<E′i,则跳回至步骤4.1)重新进行片段组装并判断,若 Ei>E′i,则结束变异操作并得到新的个体x″i,x″j;
6)种群选择操作:
将初始种群和变异后得到的新种群混合成为一个新的种群,在该种群中用结构特征向量来辅助选择较优的个体,操作如下:
6.1)使用能量函数分别评价新种群中每个个体的能量,得到其中能量最小的个体x
k,并对其计算结构特征向量
在种群中找到与x
k结构特征向量距离最短的个体,在两者中选取能量较小的个体并保存到下一代种群中;
6.2)将上述两个个体删除后,随机选择一个个体,并在种群中获得与其结构特征向量距离最短的个体,分别用能量函数对这两个个体进行评价,选择能量较小的个体更新到下一代的初始种群中;
6.3)循环步骤6.2),直至下一代的初始种群更新完毕,种群规模为population。最大迭代代数generation加1;
7)判断是否达到最大迭代代数generation,若满足终止条件,则输出结果,否则转至步骤4)。
本发明的技术构思为:本发明在基本遗传算法的框架下提出一种结构特征向量辅助选择的蛋白质结构预测方法。首先,对目标个体进行交叉和变异操作,种群间进行信息交互,增加构象多样性,其中交叉概率的设置有效地控制了种群收敛快慢;然后,随机选取一个个体并计算其结构特征向量,计算种群中剩余个体的结构特征向量,选出和该个体结构特征向量距离最小的个体,通过选择结构相近的个体,以达到分类的目的;最后,用能量函数计算个体的能量,选出其中较小的个体保留,更新种群,减少了能量函数不精确的影响。
本发明的有益效果表现在:一方面通过加入构象的结构特征向量来指导种群更新,降低了由于能量函数不精确带来的误差,从而提高蛋白质构象的预测精度;另一方面,通过遗传算法,加入了种群之间的信息交互,提高了蛋白质构象的预测精度。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种结构特征向量辅助选择的蛋白质结构预测方法,所述方法包括以下步骤:
1)参数设置,过程如下:
初始种群规模为population,最大迭代代数为generation,种群长度为length,交叉起始位置为crossbegin,交叉结束位置为crossend,交叉片段长度为 fraglength;
2)确定结构特征向量USR,过程如下:
对于两个不同的构象M和N,ConfUSR
(M)=(A
x(M),C
x(M),D
x(M))和 ConfUSR
(N)=(A
x(N),C
x(N),D
x(N))分别表示这两个构象的结构特征向量,其中, A为中心原子的坐标,C为与中心最远的原子的坐标,D为与C最远的原子的坐标,A
x(N)是指A原子的X坐标,而这两个构象之间的距离则用
来表示;
3)种群初始化操作,过程如下:
使用Rosetta-abinitio第一阶段对种群population个体进行片段长度为9的片段组装,直到每个位置的残基都被替换一次,完成初始化操作,得到 population个初始个体;
4)种群交叉操作:
在种群中随机选择两个个体xi,xj,i,j∈[1,population],i≠j,随机选择序列中一个片段进行交叉,操作如下:
4.1)随机生成一个长度为population的数组,数组包含从1到population的随机整数排序;
4.2)依次选取两个个体xi,xj进行交叉,片段长度为随机整数 fraglength∈[3,10],交叉操作的起始位置为随机整数 crossbegin∈[1,length-fraglength],交叉结束位置为crossend= crossbegin+fraglength,在交叉区间[crossbegin,crossend]中交换xi,xj相应位置残基的角度信息,生成新的个体x′i,x′j;
5)种群变异操作:
对新生成的个体依次进行变异操作,操作如下:
5.1)对个体x′i,x′j进行片段组装,根据公式
进行片段长度为3或者9的片段组装,其中p为[0,1]之间的随机数;
5.2)在片段组装之后,利用能量函数分别对组装前后的个体进行评价得到Ei和E′i,若Ei<E′i,则跳回至步骤4.1)重新进行片段组装并判断,若 Ei>E′i,则结束变异操作并得到新的个体x″i,x″j;
6)种群选择操作:
我们将初始种群和变异后得到的新种群混合成为一个新的种群,在该种群中用结构特征向量来辅助选择较优的个体,操作如下:
6.1)使用能量函数分别评价新种群中每个个体的能量,得到其中能量最小的个体x
k,并对其计算结构特征向量
在种群中找到与x
k结构特征向量距离最短的个体,在两者中选取能量较小的个体并保存到下一代种群中;
6.2)将上述两个个体删除后,随机选择一个个体,并在种群中获得与其结构特征向量距离最短的个体,分别用能量函数对这两个个体进行评价,选择能量较小的个体更新到下一代的初始种群中;
6.3)循环步骤6.2),直至下一代的初始种群更新完毕,种群规模为population。最大迭代代数generation加1;
7)判断是否达到最大迭代代数generation,若满足终止条件,则输出结果,否则转至步骤4)。
本实施例序列长度为73的α折叠蛋白质1AIL为实施例,一种结构特征向量辅助选择的蛋白质结构预测方法,所述方法包括以下步骤:
1)参数设置,过程如下:
初始种群规模为population,最大迭代代数为generation,种群长度为length,交叉起始位置为crossbegin,交叉结束位置为crossend,交叉片段长度为 fraglength;
2)确定结构特征向量USR,过程如下:
对于两个不同的构象M和N,ConfUSR(
M)=(A
x(M),C
x(M),D
x(M))和 ConfUSR
(N)=(A
x(N),C
x(N),D
x(N))分别表示这两个构象的结构特征向量,其中, A为中心原子的坐标,C为与中心最远的原子的坐标,D为与C最远的原子的坐标,A
x(N)是指A原子的X坐标,而这两个构象之间的距离则用
来表示;
3)种群初始化操作,过程如下:
使用Rosetta-abinitio第一阶段对种群population个体进行片段长度为9的片段组装,直到每个位置的残基都被替换一次,完成初始化操作,得到 population个初始个体;
4)种群交叉操作:
在种群中随机选择两个个体xi,xj,i,j∈[1,population],i≠j,随机选择序列中一个片段进行交叉,操作如下:
4.1)随机生成一个长度为population的数组,数组包含从1到population的随机整数排序;
4.2)依次选取两个个体xi,xj进行交叉,片段长度为随机整数 fraglength∈[3,10],交叉操作的起始位置为随机整数 crossbegin∈[1,length-fraglength],交叉结束位置为crossend= crossbegin+fraglength,在交叉区间[crossbegin,crossend]中交换xi,xj相应位置残基的角度信息,生成新的个体x′i,x′j;
5)种群变异操作:
对新生成的个体依次进行变异操作,操作如下:
5.1)对个体x′i,x′j进行片段组装,根据公式
进行片段长度为3或者9的片段组装,其中p为[0,1]之间的随机数;
5.2)在片段组装之后,利用能量函数分别对组装前后的个体进行评价得到Ei和E′i,若Ei<E′i,则跳回至步骤4.1)重新进行片段组装并判断,若 Ei>E′i,则结束变异操作并得到新的个体x″i,x″j;
6)种群选择操作:
将初始种群和变异后得到的新种群混合成为一个新的种群,在该种群中用结构特征向量来辅助选择较优的个体,操作如下:
6.1)使用能量函数分别评价新种群中每个个体的能量,得到其中能量最小的个体x
k,并对其计算结构特征向量
在种群中找到与x
k结构特征向量距离最短的个体,在两者中选取能量较小的个体并保存到下一代种群中;
6.2)将上述两个个体删除后,随机选择一个个体,并在种群中获得与其结构特征向量距离最短的个体,分别用能量函数对这两个个体进行评价,选择能量较小的个体更新到下一代的初始种群中;
6.3)循环步骤6.2),直至下一代的初始种群更新完毕,种群规模为population。最大迭代代数generation加1;
7)判断是否达到最大迭代代数generation,若满足终止条件,则输出结果,否则转至步骤4)。
以序列长度为73的α折叠蛋白质1AIL为实施例,运用以上方法得到了该蛋白质的近天然态构象,最小均方根偏差为
平均均方根偏差为
预测结构如图2所示。
以上说明是本发明以1AIL蛋白质为实例所得出的优化效果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。