CN104200131A

CN104200131A - 一种基于片段组装的蛋白质构象空间优化方法

Info

Publication number: CN104200131A
Application number: CN201410354134.3A
Authority: CN
Inventors: 张贵军; 郝小虎; 周晓根; 秦传庆; 梅珊
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2014-07-23
Filing date: 2014-07-23
Publication date: 2014-12-10
Anticipated expiration: 2034-07-23
Also published as: CN104200131B

Abstract

一种基于片段组装的蛋白质构象空间优化方法，包括以下步骤：从蛋白质片段库中随机选取片段产生种群个体，根据评分函数对每个种群计算函数值，并进行排序，得到最优函数值，对种群中的个体做交叉变异操作，以更新种群，迭代运行至设置的终止条件，本发明提供了一种有效的构象空间优化方法。

Description

一种基于片段组装的蛋白质构象空间优化方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于片段组装的蛋白质构象空间优化方法。

背景技术

人类基因组序列图的成功绘制，意味着人类基因组计划的所有预定目标全部实现，也标志着人类基因组计划的胜利完成和后基因组时代的来临。在后基因组时代，研究工作的重心从基因测序转向了基因组功能的识别：根据蛋白质分子的氨基酸序列预测其空间结构。这将使人们更系统的理解生物信息从DNA到具有生物活性蛋白质的遗传信息传递过程，使中心法则得到更为详尽的阐明，进而对生命过程中的各种现象有进一步的深刻认识，最终推动生命科学的向前发展。蛋白质结构预测除了其自身的理论意义外，还具有很重要的实际应用意义。人们希望通过研究蛋白质的空间结构来了解其内在机理，这样不仅可以对疾病进行有效的预测和控制，还可以按照人们的设想设计出符合特定需求的非天然蛋白质。

蛋白质构象优化问题现在面临最大的挑战是对极其复杂的蛋白质能量函数曲面进行搜索。蛋白质能量模型考虑了分子体系成键作用以及范德华力、静电、氢键、疏水等非成键作用，致使其形成的能量曲面极其粗糙，构象对应局部极小解数目随序列长度的增加呈指数增长。而蛋白质构象预测算法能够找到蛋白质稳定结构的机理是，大量的蛋白质亚稳定结构构成了低能量区域，所以能否找到蛋白质全局最稳定结构的关键是算法能够找到大量的蛋白质亚稳定结构，即增加算法的种群多样性。因此，针对更加精确的蛋白质力场模型，选取有效的构象空间优化算法，使新的蛋白质结构预测算法更具有普遍性和高效性成为生物信息学中蛋白质结构预测的焦点问题。

因此，我们需要发展有效的蛋白质构象空间优化方法。

发明内容

针对上述问题，我们提出了一种基于片段组装的蛋白质构象空间优化算法FDE(fragment-assembly differential evolution algorithm)。FDE在片段组装的基础上，采用基于知识的Rosetta粗粒度能量模型，融入差分进化算法(DE)，利用DE算法较强的全局搜索能力对蛋白质构象空间进行搜索。

本发明解决其技术问题所采用的技术方案是：

一种基于片段组装的蛋白质构象空间优化方法，所述优化方法包括以下步骤：

1)初始化种群：从蛋白质片段库中随机选取片段产生包含popSize个个体的种群P_int，并设置算法参数：种群大小popSize，蛋白质序列长度Length(即优化问题的维数)，算法的迭代次数T，算法的交叉因子CR，蛋白质片段的长度L。

2)根据评分函数f计算每个种群的函数值大小，并进行排序，其中P_max的函数值最优。

3)在未达到设定的终止条件时，进行以下操作

3.1)对种群P_int中每个个体P_i做以下操作：

3.1.1)设i＝1，其中i∈{1,2,3,…,popSize}；

3.1.2)其中P_origin＝P_i，P_origin为初始种群，P_i为P_int中的每个个体；

3.1.3)随机生成正整数rand1，rand2，rand3；其中rand1≠rand2，且

rand1,rand2∈{1,2,…,Length}，rand3∈{1,2,3,......popSize}；

3.1.4)针对个体P_j做变异操作，其中：

j∈{min(rand1,rand2),...,max(rand1,rand2)}

a：令P_origin.phi(j)←P_rand3.phi(j)；

b：令P_origin.psi(j)←P_rand3.psi(j)；

c：令P_origin.omega(j)←P_rand3.omega(j)；

其中phi，psi，omega分别表示构象的三个二面角Φ，Ψ，ω；

3.2)通过变异操作得到个体S_new；

3.3)根据

P_{new} = \{\begin{matrix} S_{new, k} &LeftArrow; P_{origin, k} & if rand (k) \leq CR) \\ S_{new, k} & otherwise \end{matrix}

执行算法交叉过程，其中

k∈{0,0+L,0+2L,....Length}，L为蛋白质片段的长度。

3.4)对所得到的P_new执行选择操作，若f(P_new)>f(P_max)，则P_new替换P_max，否则保持种群不变。

4)判断是算法迭代是否执行T次，如若未达到，则t←t+1，转至3)继续循环执行算法，至达到终止条件。

进一步，所述步骤3.1.3中，随机数rand1、rand2、rand3选取，其中rand1≠rand2，rand3≠i(步骤3.1中的i值)。

再进一步，步骤3.1.4中氨基酸j值大小在rand1和rand2之间。

更进一步，步骤3.1.4中变异操作将P_origin的氨基酸j所对应的二面角phi、psi、omega替换为P_rand3的相同位置所对应的二面角。

步骤3.3中的交叉操作，若随机数rand(K)<＝CR,个体S_new的片段K替换为个体P_origin中对应的第k个片段，否则直接继承个体S_new的第k个片段。

本发明的技术构思为：利用基于Rosetta粗粒度的知识能量模型有效地提高算法的收敛速度；同时，借助片段组装技术可以有效弥补因能量函数不精确而导致的预测精度不足的缺陷；此外，引入差分进化算法使得算法具有较好的全局搜索能力。

附图说明

图1是蛋白质2L0G预测结构和实验室测定结构最接近的构象三维示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种构象空间动态步长搜索方法，包括以下步骤：

1)初始化种群：从蛋白质片段库中随机选取片段产生popSize个个体的种群P_int，并设置算法参数：种群大小popSize，蛋白质序列长度Length(即优化问题的维数)，算法的迭代次数T，算法的交叉因子CR，蛋白质片段的长度L。

3)在未达到设定的终止条件时，进行以下操作

3.1)对种群P_int中每个个体P_i做以下操作：

3.1.1)设i＝1，其中i∈{1,2,3,…,popSize}；

3.1.3)随机生成正整数rand1，rand2，rand3；其中rand1≠rand2，且

rand1,rand2∈{1,2,…,Length}，rand3∈{1,2,3,......popSize}；

3.1.4)针对个体P_j做变异操作，其中：

j∈{min(rand1,rand2),...,max(rand1,rand2)}

a：令P_origin.phi(j)←P_rand3.phi(j)；

b：令P_origin.psi(j)←P_rand3.psi(j)；

c：令P_origin.omega(j)←P_rand3.omega(j)

其中phi，psi，omega分别表示构象的三个二面角Φ，Ψ，ω；

3.2)通过变异操作得到个体S_new；

3.3)根据

P_{new} = \{\begin{matrix} S_{new, k} &LeftArrow; P_{origin, k} & if rand (k) \leq CR) \\ S_{new, k} & otherwise \end{matrix}

执行算法交叉过程，其中

k∈{0,0+L,0+2L,....Length}，L为蛋白质片段的长度。

4)判断是否达到算法的终止条件(算法迭代执行T次)，如若未达到，则t←t+1，转至3)继续循环执行算法，至达到终止条件。

程序运行结果得到的蛋白质2L0G预测结构和实验室测定结构最接近的构象三维示意图如图1所示。

进一步，所述步骤3.1.3中随机数rand1、rand2、rand3选取，其中rand1≠rand2，rand3≠i(步骤3.1中的i值)。

再进一步，步骤3.1.4中氨基酸j值大小在rand1和rand2之间。

本实施例以序列长度为32的蛋白质2L0G为实施例，一种构象空间动态步长搜索方法，其中包含以下步骤：

1)初始化种群：从蛋白质片段库中随机选取片段产生popSize个种群个体P_int，并设置算法参数：种群大小popSize，蛋白质序列长度Length(即优化问题的维数)，算法的迭代次数T，算法的交叉因子CR，蛋白质片段的长度L。

3)在未达到设定的终止条件时，进行以下操作

3.1)对种群P_int中每个个体P_i做以下操作：

3.1.1)设i＝1，其中i∈{1,2,3,…,popSize}；

3.1.3)随机生成正整数rand1，rand2，rand3；其中rand1≠rand2，且

rand1,rand2∈{1,2,…,Length}，rand3∈{1,2,3,......popSize}；

3.1.4)针对个体P_j做变异操作，其中：

j∈{min(rand1,rand2),...,max(rand1,rand2)}

a：令P_origin.phi(j)←P_rand3.phi(j)；

b：令P_origin.psi(j)←P_rand3.psi(j)；

c：令P_origin.omega(j)←P_rand3.omega(j)

其中phi，psi，omega分别表示构象的三个二面角Φ，Ψ，ω；

3.2)通过变异操作得到个体S_new；

3.3)根据

P_{new} = \{\begin{matrix} S_{new, k} &LeftArrow; P_{origin, k} & if rand (k) \leq CR) \\ S_{new, k} & otherwise \end{matrix}

执行算法交叉过程，其中

k∈{0,0+L,0+2L,....Length}，L为蛋白质片段的长度。

注:

(1)步骤3.1.3中随机数rand1、rand2、rand3选取，其中rand1≠rand2，rand3≠i(步骤3.1中的i值)

(2)步骤3.1.4中氨基酸j值大小在rand1和rand2之间。

(3)步骤3.1.4中变异操作将P_origin的氨基酸j所对应的二面角phi、psi、omega替换为P_rand3的相同位置所对应的二面角。

(4)步骤3.3中的交叉操作，若随机数rand(K)<＝CR,个体S_new的片段K替换为个体P_origin中对应的第k个片段，否则直接继承个体S_new的第k个片段。

以序列长度为32的蛋白质2L0G为实施例，运用以上方法得到了该蛋白质的近天然态构象，预测结构与实验室测定结构最为接近的构象三维展示如图1所示。

以上阐述的是本发明给出的一个实施例表现出来的优良效果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种基于片段组装的蛋白质构象空间优化方法，其特征在于：所述构象空间优化方法包括以下步骤：

1)初始化种群：从蛋白质片段库中随机选取片段产生包含popSize个个体的种群P_int，并设置算法参数：种群大小popSize，蛋白质序列长度Length，算法的迭代次数T，算法的交叉因子CR，蛋白质片段的长度L；

2)根据评分函数f计算每个种群的函数值大小，并进行排序，其中P_max的函数值最优；

3)在未达到设定的终止条件时，进行以下操作

3.1)对种群P_int中每个个体P_i做以下操作：

3.1.1)设i＝1，其中i∈{1,2,3,L,popSize}；

3.1.3)随机生成正整数rand1，rand2，rand3；其中rand1≠rand2，且rand1,rand2∈{1,2,L,Length}，rand3∈{1,2,3,......popSize}；

3.1.4)针对个体P_j做变异操作，其中：

j∈{min(rand1,rand2),...,max(rand1,rand2)}

a：令P_origin.phi(j)←P_rand3.phi(j)；

b：令P_origin.psi(j)←P_rand3.psi(j)；

c：令P_origin.omega(j)←P_rand3.omega(j)

其中phi，psi，omega分别表示构象的三个二面角Φ，Ψ，ω；

3.2)通过变异操作得到个体S_new；

3.3)根据

P_{new} = \{\begin{matrix} S_{new, k} &LeftArrow; P_{origin, k} & if rand (k) \leq CR) \\ S_{new, k} & otherwise \end{matrix}

执行算法交叉过程，其中

k∈{0,0+L,0+2L,....Length}，L为蛋白质片段的长度；

3.4)对所得到的P_new执行选择操作，若f(P_new)>f(P_max)，则P_new替换P_max，否则保持种群不变；

2.如权利要求1所述一种基于片段组装的蛋白质构象空间优化方法，其特征在于：所述步骤3.1.3中，随机数rand1、rand2、rand3选取，其中rand1≠rand2，rand3≠i。

3.如权利要求1或2所述一种基于片段组装的蛋白质构象空间优化方法，其特征在于：所述步骤3.1.4中，氨基酸j值大小在rand1和rand2之间。

4.如权利要求3所述一种基于片段组装的蛋白质构象空间优化方法，其特征在于：所述步骤3.1.4中，变异操作将P_origin的氨基酸j所对应的二面角phi、psi、omega替换为P_rand3的相同位置所对应的二面角。

5.如权利要求1或2所述一种基于片段组装的蛋白质构象空间优化方法，其特征在于：所述步骤3.3中的交叉操作，若随机数rand(K)<＝CR,个体S_new的片段K替换为个体P_origin中对应的第k个片段，否则直接继承个体S_new的第k个片段。