发明内容
为了克服现有的蛋白质结构预测方法采样能力和预测精度不足的缺陷,本发明提出一种采样能力较好、预测精度较高的基于Loop信息采样的群体蛋白质构象空间优化方法,在群体算法的基础上,使用了针对Loop区域的交叉,在基于二级结构片段组装的基础上引入了拉氏图信息,利用拉氏图重要性采样方法对构象的Loop区域进行局部增强,设计了一种二级结构相似度指标,通过二级结构相似度指标和能量函数双重约束以选择能量和结构均较优个体,有效地改进由于能量函数的不精确导致的蛋白质结构预测精度低的问题。
本发明解决其技术问题所采用的技术方案是:
一种基于Loop信息采样的群体蛋白质构象空间优化方法,所述方法包括以下步骤:
1)设置种群规模N、最大迭代代数I、交叉概率R、初始化片段组装上限为Max、温度常数kT,读入目标蛋白序列、片段库信息、预测二级结构信息以及拉氏图信息;
2)根据目标蛋白序列得到初始直链,并将初始直链复制形成规模为N大小的种群,用Rosetta协议的stage1对种群所有个体进行初始化,种群个体每个位置上的残基均被替换至少一次以上或达到Max次片段组装上限则视为初始化成功;
3)种群交叉,过程如下:
3.1)将种群个体随机配对,以交叉概率R判断是否进行交叉,若进行交叉,跳至步骤3.2),若不进行交叉,则跳至步骤4);
3.2)根据用户读入的目标蛋白预测二级结构,统计目标蛋白的Loop区域数量以及长度;
3.3)随机选取目标蛋白的其中一个完整的Loop区域,然后交换两个候选个体该长度范围内所有残基的二面角信息;
4)种群二级结构区域变异,对于种群中的目标个体i,二级结构区域变异过程如下:
4.1)根据目标蛋白的Loop区域信息记录个体i的所有Loop区域的残基二面角信息;
4.2)对个体进行9片段片段组装,生成个体i',若片段组装发生在非Loop区域,则用4.1)保存的残基二面角信息去替换个体i'中相应区域的二面角信息,即片段组装只会发生在Loop区域,非Loop区域的结构信息不会改变;
4.3)用能量函数“score3”对变异前后个体i和i'进行能量评价,若能量变小,则接收变异后个体i',若能量变大,则以Boltzmann概率
接收变异后个体i',其中ΔE为个体i和i'的能量差值;5)基于拉氏图重要性采样对Loop区域局部结构增强,过程如下:
5.1)统计二级结构为Loop的残基的二面角在拉氏图中分布信息,记录并进行归一化;
5.2)对于种群个体j,随机选取其中一个Loop区域,用拉氏图中角度来替换个体j的Loop区域的残基二面角信息,生成个体j';
5.3)用能量函数“score3”对局部增强前后个体j和j'进行能量评价,若能量变小,则接收局部增强后个体j';若能量变大,则以Boltzmann概率接收变异后个体j';
5.4)对种群所有个体都完成基于拉氏图的Loop区域扰动之后,统计拉氏图中每个格子被采样的概率,并根据重要性公式来确定下一代拉氏图中每个格子的选取概率;
6)基于二级结构相似度和能量函数进行选择,过程如下:
6.1)对于种群中的目标个体i,用Dssp算法获取该个体的二级结构信息;
6.2)将两者每个位置上的残基类型进行一一比较,若相同则两者的二级结构比对分数加1,全部比对完后得两者二级结构比对分数,除以目标蛋白序列长度获得该个体的二级结构相似度;
6.3)将交叉前的初始种群和经过拉氏图局部增强后的种群组成成为一个新的种群;
6.4)计算种群中所有个体的二级结构相似度以及能量分数,利用这两个指标对种群进行排序,选择排名靠前的N个个体作为下一次迭代的母代;
7)判断是否达到最大迭代次数I,若满足条件则停止迭代并输出最后一代种群个体信息,否则返回步骤3)。
本发明的技术构思为:在群体算法的框架下提出一种基于Loop信息采样的群体蛋白质构象空间优化方法。首先,在群体算法中使用了针对Loop区域的交叉,交叉概率的设置可以控制群体收敛的速度,避免早熟;其次,二级结构区域片段组装操作可以使构象形成较优的整体拓扑结构;然后,使用基于Loop区域的拉氏图重要性采样方法对目标蛋白构象的Loop区域进行局部结构增强;最后,在选择过程中结合二级结构相似度和能量函数两个指标对种群进行择优,淘汰二级结构相似度较小和能量较大的个体,避免能量函数不精确的问题。
本发明的有益效果表现为:一方面使用群体算法,群体间进行信息交互,二级结构片段组装以及基于拉氏图重要性采样方法的Loop局部增强可以提高算法的构象空间的搜索能力,避免片段库质量不够的问题;另一方面,通过二级结构相似度和能量对种群进行双重约束选择,大大增加了优质个体的保留的概率,降低了由于能量函数的不精确带来的误差,提高了预测精度。
具体实施方式
下面结合附图对本发明做进一步描述。
参照图1和图2,一种基于Loop信息采样的群体蛋白质构象空间优化方法,所述方法包括以下步骤:
1)设置种群规模N、最大迭代代数I、交叉概率R、初始化片段组装上限为Max、温度常数kT,读入目标蛋白序列、片段库信息、预测二级结构信息以及拉氏图信息;
2)根据目标蛋白序列得到初始直链,并将初始直链复制形成规模为N大小的种群,用Rosetta协议的stage1对种群所有个体进行初始化,种群个体每个位置上的残基均被替换至少一次以上或达到Max次片段组装上限则视为初始化成功;
3)种群交叉,过程如下:
3.1)将种群个体随机配对,以交叉概率R判断是否进行交叉,若进行交叉,跳至步骤3.2),若不进行交叉,则跳至步骤4);
3.2)根据用户读入的目标蛋白预测二级结构,统计目标蛋白的Loop区域数量以及长度;
3.3)随机选取目标蛋白的其中一个完整的Loop区域,然后交换两个候选个体该长度范围内所有残基的二面角信息;
4)种群二级结构区域变异,对于种群中的目标个体i,二级结构区域变异过程如下:
4.1)根据目标蛋白的Loop区域信息记录个体i的所有Loop区域的残基二面角信息;
4.2)对个体进行9片段片段组装,生成个体i',若片段组装发生在非Loop区域,则用4.1)保存的残基二面角信息去替换个体i'中相应区域的二面角信息,即片段组装只会发生在Loop区域,非Loop区域的结构信息不会改变;
4.3)用能量函数“score3”对变异前后个体i和i'进行能量评价,若能量变小,则接收变异后个体i',若能量变大,则以Boltzmann概率
接收变异后个体i',其中ΔE为个体i和i'的能量差值;
5)基于拉氏图重要性采样对Loop区域局部结构增强,过程如下:
5.1)统计二级结构为Loop的残基的二面角在拉氏图中分布信息,记录并进行归一化;
5.2)对于种群个体j,随机选取其中一个Loop区域,用拉氏图中角度来替换个体j的Loop区域的残基二面角信息,生成个体j';
5.3)用能量函数“score3”对局部增强前后个体j和j'进行能量评价,若能量变小,则接收局部增强后个体j';若能量变大,则以Boltzmann概率接收变异后个体j';
5.4)对种群所有个体都完成基于拉氏图的Loop区域扰动之后,统计拉氏图中每个格子被采样的概率,并根据重要性公式来确定下一代拉氏图中每个格子的选取概率;
6)基于二级结构相似度和能量函数进行选择,过程如下:
6.1)对于种群中的目标个体i,用Dssp算法获取该个体的二级结构信息;
6.2)将两者每个位置上的残基类型进行一一比较,若相同则两者的二级结构比对分数加1,全部比对完后得两者二级结构比对分数,除以目标蛋白序列长度获得该个体的二级结构相似度;
6.3)将交叉前的初始种群和经过拉氏图局部增强后的种群组成成为一个新的种群;
6.4)计算种群中所有个体的二级结构相似度以及能量分数,利用这两个指标对种群进行排序,选择排名靠前的N个个体作为下一次迭代的母代;
7)判断是否达到最大迭代次数I,若满足条件则停止迭代并输出最后一代种群个体信息,否则返回步骤3)。
本实施例以序列长度为54的α折叠蛋白质1ENH为实施例,一种基于二级结构相似度的蛋白质结构预测方法,所述方法包括以下步骤:
1)设置种群规模100、迭代代数100、交叉概率0.1、初始化片段组装上限为2000、温度常数2,读入目标蛋白序列、片段库信息、预测二级结构信息以及拉氏图信息;
2)根据目标蛋白序列得到初始直链,并将初始直链复制形成规模为100大小的种群,用Rosetta协议的stage1对种群所有个体进行初始化,种群个体每个位置上的残基均被替换至少一次以上或达到2000次片段组装上限则视为初始化成功;
3)种群交叉,过程如下:
3.1)将种群个体随机配对,以交叉概率0.1判断是否进行交叉,若进行交叉,跳至步骤3.2),若不进行交叉,则跳至步骤4);
3.2)根据用户读入的目标蛋白预测二级结构,统计目标蛋白的Loop区域数量以及长度;
3.3)随机选取目标蛋白的其中一个完整的Loop区域,然后交换两个候选个体该长度范围内所有残基的二面角信息;
4)种群二级结构区域变异,对于种群中的目标个体i,二级结构区域变异过程如下:
4.1)根据目标蛋白的Loop区域信息记录个体i的所有Loop区域的残基二面角信息;
4.2)对个体进行9片段片段组装,生成个体i',若片段组装发生在非Loop
区域,则用4.1)保存的残基二面角信息去替换个体i'中相应区域的二面角信息,即片段组装只会发生在Loop区域,非Loop区域的结构信息不会改变;
4.3)用能量函数“score3”对变异前后个体i和i'进行能量评价,若能量变小,则接收变异后个体i',若能量变大,则以Boltzmann概率
接收变异后个体i',其中ΔE为个体i和i'的能量差值;5)基于拉氏图重要性采样对Loop区域局部结构增强,过程如下:
5.1)统计二级结构为Loop的残基的二面角在拉氏图中分布信息,记录并进行归一化;
5.2)对于种群个体j,随机选取其中一个Loop区域,用拉氏图中角度来替换个体j的Loop区域的残基二面角信息,生成个体j';
5.3)用能量函数“score3”对局部增强前后个体j和j'进行能量评价,若能量变小,则接收局部增强后个体j';若能量变大,则以Boltzmann概率接收变异后个体j';
5.4)对种群所有个体都完成基于拉氏图的Loop区域扰动之后,统计拉氏图中每个格子被采样的概率,并根据重要性公式来确定下一代拉氏图中每个格子的选取概率;
6)基于二级结构相似度和能量函数进行选择,过程如下:
6.1)对于种群中的目标个体i,用Dssp算法获取该个体的二级结构信息;
6.2)将两者每个位置上的残基类型进行一一比较,若相同则两者的二级结构比对分数加1,全部比对完后得两者二级结构比对分数,除以目标蛋白序列长度获得该个体的二级结构相似度;
6.3)将交叉前的初始种群和经过拉氏图局部增强后的种群组成成为一个新的种群;
6.4)计算种群中所有个体的二级结构相似度以及能量分数,利用这两个指标对种群进行排序,选择排名靠前的100个个体作为下一次迭代的母代;
7)判断是否达到最大迭代次数100,若满足条件则停止迭代并输出最后一代种群个体信息,否则返回步骤3)。
以序列长度为54的α折叠蛋白质1ENH为实施例,运用以上方法得到了该蛋白质的近天然态构象,最小均方根偏差为
平均均方根偏差为
预测结构如图2所示。
以上说明是本发明以1ENH蛋白质为实例所得出的优化效果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。