CN106503486A

CN106503486A - 一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法

Info

Publication number: CN106503486A
Application number: CN201610846217.3A
Authority: CN
Inventors: 张贵军; 郝小虎; 周晓根; 王柳静; 陈凯; 王小奇; 李章维
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2016-09-23
Filing date: 2016-09-23
Publication date: 2017-03-15
Anticipated expiration: 2036-09-23
Also published as: CN106503486B

Abstract

一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法，包括以下步骤：在差分进化算法框架下，采用Rosetta Score3粗粒度知识能量模型来降低构象空间维数；将进化种群依相似度划分为多个子种群，子种群之间协同进化，可以提高种群个体多样性；进化过程被划分为三个阶段，在不同的阶段采用不同的变异交叉策略，可以避免早熟收敛问题；结合差分进化算法较强的全局搜索能力，可以对构象空间进行有效的采样，搜索得到较高精度的近天然态构象。本发明基于差分进化算法，提出一种构象空间搜索维数较低、收敛速度较快、预测精度较高的基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法。

Description

一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法。

背景技术

蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此，要了解蛋白质的功能，就必须获得其三维空间结构。

蛋白质结构预测问题自上世纪50年代以来就一直备受关注，尤其是从头预测构象空间优化方法，是生物信息学和计算生物学领域的热点研究课题，因为蛋白质的三维空间结构决定了它所承载的生物功能，想要了解其功能进而对许多由蛋白质结构改变而引起的疾病进行有效的控制和预防，就必须获得其三维结构。从头预测方法直接从蛋白质的氨基酸序列出发，根据Anfinsen原则，以计算机为工具，运用适当算法，通过计算得到蛋白质的天然构象，适用于同源性小于25％的大多数蛋白质。而制约从头预测方法预测精度的瓶颈因素主要有两个方面：第一，蛋白质构象空间的高维复杂性以及能量表面的粗糙性，使其成为一个难解的NP-Hard问题；第二，力场模型的不精确性也使得预测结果难以达到较高的精度。设计有效的算法增强对构象空间的采样是解决蛋白质结构从头预测瓶颈问题的有效途径。但是到目前还没有一种十分完善的方法来预测蛋白质的三维结构，即使获得了很好的预测结果，但也只是针对某些蛋白质而言的，目前主要的技术瓶颈在于两个方面，第一方面在于采样方法，现有技术对构象空间采样能力不强，另一方面在于构象更新方法，现有技术对构象的更新精度仍然不足。

因此，现有的蛋白质结构从头预测方法存在不足，需要改进。

发明内容

为了克服现有蛋白质结构预测方法的构象空间搜索维数较高、收敛速度较慢、预测精度较低的不足，本发明基于差分进化算法，提出一种构象空间搜索维数较低、收敛速度较快、预测精度较高的基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法，在差分进化算法框架下，采用Rosetta Score3粗粒度知识能量模型来降低构象空间维数；将进化种群依相似度划分为多个子种群，子种群之间协同进化，可以提高种群个体多样性；进化过程被划分为三个阶段，在不同的阶段采用不同的变异交叉策略，可以避免早熟收敛问题；结合差分进化算法较强的全局搜索能力，可以对构象空间进行有效的采样。

本发明解决其技术问题所采用的技术方案是：

一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法，包括以下步骤：

1)给定输入序列信息；

2)设置系统参数：种群大小popSize，算法的迭代次数T，第一阶段迭代次数T₁，第二阶段迭代次数T₂，第三阶段迭代次数T₃，变异因子MU，交叉因子CR，子种群个数N_Sub，片段的长度L，其中T₁+T₂+T₃＝T；

3)种群初始化：由输入序列产生popSize个种群个体P_init；

4)子种群划分：将种群平均划分为N_Sub个子种群；

5)开始迭代，执行种群进化过程：

5.1)第一阶段：迭代次数为T₁，对初始种群中的每个个体做如下操作：

5.1.1)设i＝1，j＝1,其中i∈{1,2,3,…,N_sub},j∈{1,2,3,…,N_subpopSize}；令P_target＝P_ij，其中i,j为序号，N_subpopSize表示子种群中个体的数目，P_target表示目标个体；

5.1.2)针对个体P_target做变异操作：从L＝9的片段库中随机选择片段进行片段组装，得到中间个体P_trial′；

5.1.3)随机生成正整数rand1，rand2，rand3，其中rand1∈{1,2,3,...,N_subpopSize}，rand1≠j，rand2≠rand3,∈{1,2,…,Length}，生成随机数rand4∈(0,1)，其中Length为序列长度；

5.1.4)若随机数rand4<＝CR，针对P_trial′做交叉操作：令l＝rand1；令a＝min(rand2,rand3),b＝max(rand2,rand3)，k∈[a,b]；

a：令P_trial′.phi(k)＝P_l.phi(k)；

b：令P_trial′.psi(k)＝P_l.psi(k)；

c：令P_trial′.omega(k)＝P_l.omega(k)；

步骤a，b，c分别为：将P_trial′的氨基酸k所对应的二面角phi、psi、omega替换为P_l的相同位置所对应的二面角phi、psi、omega；令P_trial＝P_trial′；

5.1.5)通过交叉操作得到测试个体P_trial；

5.1.6)执行更新操作：根据Rosetta Score3能量函数计算P_target和P_trial的能量：E(P_target)和E(P_trial)；若E(P_target)>E(P_trial)则用P_trial替换P_target，否则保持种群不变；

5.1.7)得到更新后的种群P_update；

5.1.8)迭代运行步骤5.1.1)～5.1.7)至第一阶段结束；

5.2)第二阶段：迭代次数为T₂，对步骤5.1)得到的种群中的每个个体做如下操作：

5.2.1)设i＝1，j＝1,其中i∈{1,2,3,…,N_sub},j∈{1,2,3,…,N_subpopSize}；令P_target＝P_ij，其中i,j为序号，N_subpopSize表示子种群中个体的数目，P_target表示目标个体；

5.2.2)针对个体P_target做变异操作：从L＝3的片段库中随机选择片段进行片段组装，得到中间个体P_trial′；

5.2.3)随机生成正整数rand2，rand3，其中，rand2≠rand3,∈{1,2,…,Length}，生成随机数rand4∈(0,1)，其中Length为序列长度；

5.2.4)找到当前子种群中能量最低的个体P_local；

5.2.5)若随机数rand4<＝CR，针对P_trial′做交叉操作：令a＝min(rand2,rand3),b＝max(rand2,rand3)，k∈[a,b]；

a：令P_trial′.phi(k)＝P_local.phi(k)；

b：令P_trial′.psi(k)＝P_local.psi(k)；

c：令P_trial′.omega(k)＝P_local.omega(k)；

步骤a，b，c分别为：将P_trial′的氨基酸k所对应的二面角phi、psi、omega替换为P_local中相同位置所对应的二面角phi、psi、omega；令P_trial＝P_trial′；

5.2.6)通过交叉操作得到测试个体P_trial；

5.2.7)执行更新操作：根据Rosetta Score3能量函数计算P_target和P_trial的能量：E(P_target)和E(P_trial)；若E(P_target)>E(P_trial)则用P_trial替换P_target，否则保持种群不变；

5.2.8)得到更新后的种群P_update；

5.2.9)迭代运行步骤5.2.1)～5.2.7)至第二阶段结束；

5.3)第三阶段：迭代次数为T₃，对步骤5.2)得到的种群中的每个个体做如下操作：

5.3.1)设i＝1，j＝1,其中i∈{1,2,3,…,N_sub},j∈{1,2,3,…,N_subpopSize}；令P_target＝P_ij，其中i,j为序号，N_subpopSize表示子种群中个体的数目，P_target表示目标个体；

5.3.2)针对个体P_target做变异操作：从L＝3的片段库中随机选择片段进行片段组装，得到中间个体P_trial′；

5.3.3)随机生成正整数rand2，rand3，其中，rand2≠rand3,∈{1,2,…,Length}，生成随机数rand4∈(0,1)，其中Length为序列长度；

5.3.4)找到种群中能量最低的个体P_global；

5.3.5)若随机数rand4<＝CR，针对P_trial′做交叉操作：令a＝min(rand2,rand3),b＝max(rand2,rand3)，k∈[a,b]；

a：令P_trial′.phi(k)＝P_global.phi(k)；

b：令P_trial′.psi(k)＝P_global.psi(k)；

c：令P_trial′.omega(k)＝P_global.omega(k)；

步骤a，b，c分别为：将P_trial′的氨基酸k所对应的二面角phi、psi、omega替换为P_global中相同位置所对应的二面角phi、psi、omega；令P_trial＝P_trial′；

5.3.6)通过交叉操作得到测试个体P_trial；

5.3.7)执行更新操作：根据Rosetta Score3能量函数计算P_target和P_trial的能量：E(P_target)和E(P_trial)；若E(P_target)>E(P_trial)则用P_trial替换P_target，否则保持种群不变；

5.3.8)得到更新后的种群P_update；

5.3.9)迭代运行步骤5.3.1)～5.3.7)至第三阶段结束；

本发明的有益效果为：在差分进化算法框架下，采用Rosetta Score3粗粒度知识能量模型来降低构象空间维数；将进化种群依相似度划分为多个子种群，子种群之间协同进化，可以提高种群个体多样性；进化过程被划分为三个阶段，在不同的阶段采用不同的变异交叉策略，可以避免早熟收敛问题；结合差分进化算法较强的全局搜索能力，可以对构象空间进行有效的采样，搜索得到较高精度的近天然态构象。

附图说明

图1是采用基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法的搜索过程示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法，包括以下步骤：

1)给定输入序列信息；

3)种群初始化：由输入序列产生popSize个种群个体P_init；

4)子种群划分：将种群平均划分为N_Sub个子种群；

5)开始迭代，执行种群进化过程：

a：令P_trial′.phi(k)＝P_l.phi(k)；

b：令P_trial′.psi(k)＝P_l.psi(k)；

c：令P_trial′.omega(k)＝P_l.omega(k)；

5.1.5)通过交叉操作得到测试个体P_trial；

5.1.7)得到更新后的种群P_update；

5.1.8)迭代运行步骤5.1.1)～5.1.7)至第一阶段结束；

5.2.4)找到当前子种群中能量最低的个体P_local；

a：令P_trial′.phi(k)＝P_local.phi(k)；

b：令P_trial′.psi(k)＝P_local.psi(k)；

c：令P_trial′.omega(k)＝P_local.omega(k)；

5.2.6)通过交叉操作得到测试个体P_trial；

5.2.8)得到更新后的种群P_update；

5.2.9)迭代运行步骤5.2.1)～5.2.7)至第二阶段结束；

5.3.4)找到种群中能量最低的个体P_global；

a：令P_trial′.phi(k)＝P_global.phi(k)；

b：令P_trial′.psi(k)＝P_global.psi(k)；

c：令P_trial′.omega(k)＝P_global.omega(k)；

5.3.6)通过交叉操作得到测试个体P_trial；

5.3.8)得到更新后的种群P_update；

5.3.9)迭代运行步骤5.3.1)～5.3.7)至第三阶段结束；

本实施例以序列长度为54的蛋白质1ENH为实施例，一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法，其中包含以下步骤：

1)给定输入序列信息；

3)种群初始化：由输入序列产生popSize个种群个体P_init；

4)子种群划分：将种群平均划分为N_Sub个子种群；

5)开始迭代，执行种群进化过程：

a：令P_trial′.phi(k)＝P_l.phi(k)；

b：令P_trial′.psi(k)＝P_l.psi(k)；

c：令P_trial′.omega(k)＝P_l.omega(k)；

5.1.5)通过交叉操作得到测试个体P_trial；

5.1.7)得到更新后的种群P_update；

5.1.8)迭代运行步骤5.1.1)～5.1.7)至第一阶段结束；

5.2.4)找到当前子种群中能量最低的个体P_local；

a：令P_trial′.phi(k)＝P_local.phi(k)；

b：令P_trial′.psi(k)＝P_local.psi(k)；

c：令P_trial′.omega(k)＝P_local.omega(k)；

5.2.6)通过交叉操作得到测试个体P_trial；

5.2.8)得到更新后的种群P_update；

5.2.9)迭代运行步骤5.2.1)～5.2.7)至第二阶段结束；

5.3.4)找到种群中能量最低的个体P_global；

a：令P_trial′.phi(k)＝P_global.phi(k)；

b：令P_trial′.psi(k)＝P_global.psi(k)；

c：令P_trial′.omega(k)＝P_global.omega(k)；

5.3.6)通过交叉操作得到测试个体P_trial；

5.3.8)得到更新后的种群P_update；

5.3.9)迭代运行步骤5.3.1)～5.3.7)至第三阶段结束；

以序列长度为54的蛋白质1ENH为实施例，运用以上方法得到了该蛋白质的近天然态构象，搜索过程示意图如图1所示。

以上阐述的是本发明给出的一个实施例表现出来的优良效果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法，其特征在于：所述预测方法包括以下步骤：

1)给定输入序列信息；

3)种群初始化：由输入序列产生popSize个种群个体P_init；

4)子种群划分：将种群平均划分为N_Sub个子种群；

5)开始迭代，执行种群进化过程：

a：令P_trial′.phi(k)＝P_l.phi(k)；

b：令P_trial′.psi(k)＝P_l.psi(k)；

c：令P_trial′.omega(k)＝P_l.omega(k)；

5.1.5)通过交叉操作得到测试个体P_trial；

5.1.7)得到更新后的种群P_update；

5.1.8)迭代运行步骤5.1.1)～5.1.7)至第一阶段结束；

5.2.4)找到当前子种群中能量最低的个体P_local；

a：令P_trial′.phi(k)＝P_local.phi(k)；

b：令P_trial′.psi(k)＝P_local.psi(k)；

c：令P_trial′.omega(k)＝P_local.omega(k)；

5.2.6)通过交叉操作得到测试个体P_trial；

5.2.8)得到更新后的种群P_update；

5.2.9)迭代运行步骤5.2.1)～5.2.7)至第二阶段结束；

5.3.4)找到种群中能量最低的个体P_global；

a：令P_trial′.phi(k)＝P_global.phi(k)；

b：令P_trial′.psi(k)＝P_global.psi(k)；

c：令P_trial′.omega(k)＝P_global.omega(k)；

5.3.6)通过交叉操作得到测试个体P_trial；

5.3.8)得到更新后的种群P_update；

5.3.9)迭代运行步骤5.3.1)～5.3.7)至第三阶段结束。