CN110634531A

CN110634531A - 一种基于双层偏置搜索的蛋白质结构预测方法

Info

Publication number: CN110634531A
Application number: CN201910743322.8A
Authority: CN
Inventors: 张贵军; 夏瑜豪; 赵凯龙; 刘俊; 彭春祥; 周晓根
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2019-12-31
Anticipated expiration: 2039-08-13
Also published as: CN110634531B

Abstract

一种基于双层偏置搜索的蛋白质结构预测方法，在遗传算法框架下，首先，种群初始化，根据构象的能量高低将其分配到不同的能量区间；然后，根据能量以及空间结构差异性双层选择指标有偏地选择父代和淘汰构象，不仅能够缓解能量函数不精确的问题，而且可以根据有偏采样搜索到结构更为合理的构象，在提高采样效率的同时，提升了预测精度。本发明提供一种预测精度较高的基于双层偏置搜索的蛋白质结构预测方法。

Description

一种基于双层偏置搜索的蛋白质结构预测方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于双层偏置搜索的蛋白质结构预测方法。

背景技术

蛋白质分子是细胞中许多生化过程的核心。蛋白质只有折叠成特定的三维结构才能行使其生物学功能。因此，要了解蛋白质的功能，就必须获得其三维结构。由此，人们开始了对蛋白质三维结构的不断探索。

近几年来，测定蛋白质的三维结构主要采用生物湿实验的方法，例如：X射线衍射、核磁共振、冷冻电镜。但是，这些实验方法需要花费大量的人力、物力、财力，而且测定的速度远远跟不上序列获取的速度。因此，急需一种高效、快速、简便的方法对未知蛋白质进行结构预测。并且，Anfinsen在1961年提出，蛋白质链中氨基酸的序列决定了其具有生物活性的空间排列。因此，人们提出了一种利用计算机技术根据蛋白质的氨基酸序列预测蛋白质三维结构的方法。根据氨基酸序列预测蛋白质三维结构的方法主要有同源建模法和从头预测法。从头预测方法直接基于蛋白质的物理或知识能量模型，利用优化算法在构象空间中搜索全局最优解。

但是，蛋白质的构象空间极其庞大且复杂，现有的方法往往存在两大缺陷：一方面由于能量函数不精确，导致无法准确地找到令人满意的结果；另一方面在于目前的优化方法采样能力不足，极其容易陷入局部极小值，从而影响整体的预测精度。

因此，现有的蛋白质结构预测方法存在能量函数不精确、采样效率低、预测精度不足等问题，需要改进。

发明内容

为了克服现有的蛋白质结构预测方法采样效率低、种群多样性差、预测精度不足等问题，本发明提供一种基于双层偏置搜索的蛋白质结构预测方法，在基本遗传算法框架下，利用能量和空间结构差异性构成的双层搜索策略，对构象进行有偏搜索及排挤，从而提高了采样效率，增加了种群多样性，改善了整体的预测精度。

本发明解决其技术问题所采用的技术方案是：

一种基于双层偏置搜索的蛋白质结构预测方法，所述方法包括以下步骤：

1)输入目标蛋白质的序列信息；

2)根据目标蛋白质序列从ROBETTA服务器(http：//www.robetta.org/)上获取3片段和9片段的片段库文件；

3)设置参数：种群规模NP，最大迭代次数G，能量区间划分个数M，温度因子β；

4)种群初始化：利用Rosetta协议第一阶段产生种群规模为NP的种群C＝{C₁，C₂，...，C_NP}，其中C_i，i＝1，2，...，NP为第i个个体；

5)设置g＝1，g∈{1，2，...，G}；

6)设置n＝1，n∈{1，2，...，NP}；

7)记C_i为种群中第i个个体，i∈{1，2，...，NP+n-1}，并进行如下操作：

7.1)用Rosetta score3能量函数计算种群中每个个体的能量，个体C_i的能量为score3(C_i)；

7.2)记E_min和E_max分别为种群中的最低能量和最高能量，设置能量区间[E_min，E_max]，将能量区间等分成M个子区间，每个子区间长度为ΔE，第m个子区间表示为[E_min+(m-1)ΔE，E_min+mΔE]，m∈{1，2，...，M}，记Ω_m为第m个子区间对应的构象集合，并设置

7.3)将种群中的每个个体按能量值分配到相应的子区间内，若score3(C_i)∈[E_min+(m-1)ΔE，E_min+mΔE]，则Ω_m＝Ω_m∪{C_i}；

8)父代选择操作，过程如下：

8.1)记C_m，j为第m个能量子区间中的第j个个体，j∈{1，2，...，|Ω_m|}，按如下公式计算每个能量子区间中的构象平均能量

8.2)按如下公式计算每个能量子区间的选择概率，ε是一个很小的常数：

8.3)按公式(2)计算的概率选择一个能量子区间；

8.4)在选择的子区间内，将每个构象的质心原子、离ctd最近的原子、离ctd最远的原子、离fct最远的原子的坐标分别表示为

表示ctd指向cst的三维空间向量，

表示ctd指向fct的三维空间向量，

表示ctd指向ftf的三维空间向量，按如下公式计算选择的子区间内每个构象的结构差异性，并记C_m，max为具有最大结构差异性数值D_m，max的构象：

8.5)按如下公式计算子区间内每个个体的选择概率，ε是一个很小的常数：

8.6)按公式(4)计算的概率选择一个个体，记作C^selected；

9)变异操作，过程如下：

9.1)在最大差异性构象C_m，max中随机选取一个3片段，替换到选择个体C^selected的对应位置上，生成新的构象C^new；

9.2)利用Rosetta对新构象C^new进行一次片段组装，生成构象C^new′；

9.3)若score3(C^new′)＜score3(C^new)，则C＝C∪{C^new′}；否则计算接收概率

并生成均匀随机小数rand，rand∈[0，1]，若rand＜P_accept，则C＝C∪{C^new′}；否则C＝C∪{C^new}；

9.4)设置n＝n+1；

10)若n＞NP，则继续步骤11)；否则转至步骤7)；

11)淘汰个体选择操作，过程如下：

11.1)执行步骤7)；

11.2)执行步骤8.1)；

11.3)按如下公式计算每个能量子区间的选择概率，ε是一个很小的常数：

11.4)按公式(5)计算的概率选择一个能量子区间；

11.5)执行步骤8.4)；

11.6)按如下公式计算子区间内每个个体的选择概率，ε是一个很小的常数：

11.7)按公式(6)计算的概率选择一个个体，将其从种群中剔除；

11.8)设置n＝n-1；

12)若n＝1，设置g＝g+1；否则转至步骤11)；

13)若g＞G，输出最后一代种群C，并选择能量最低的构象作为预测结果；否则转至步骤6)。

本发明的技术构思为：在遗传算法框架下，首先，种群初始化，根据构象的能量高低将其分配到不同的能量区间；其次，根据能量以及空间结构差异性双层选择指标有偏地选择父代进行变异和片段组装得到新构象加入种群；然后，根据两个选择概率函数淘汰构象，实现种群更新；最后，输出最终一代种群。基于双层偏置搜索的蛋白质结构预测方法不仅能够缓解能量函数不精确的问题，而且可以根据有偏采样搜索到结构更为合理的构象，在提高采样效率的同时，提升了预测精度。

本发明的有益效果为：根据双层偏置搜索策略提高了采样效率；使用能量以及空间结构差异性函数缓解了仅以单一能量函数评价构象的缺陷，增加了种群多样性，从而提高了整体预测精度。

附图说明

图1是一种基于双层偏置搜索的蛋白质结构预测方法对蛋白质1C8C进行结构预测时的构象更新示意图。

图2是一种基于双层偏置搜索的蛋白质结构预测方法对蛋白质1C8C进行结构预测得到的三维结构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于双层偏置搜索的蛋白质结构预测方法，所述方法包括以下步骤：

1)输入目标蛋白质的序列信息；

5)设置g＝1，g∈{1，2，...，G}；

6)设置n＝1，n∈{1，2，...，NP}；

7.2)记E_min和E_max分别为种群中的最低能量和最高能量，设置能量区间[E_min，E_max]，将能量区间等分成M个子区间，每个子区间长度为ΔE，

第m个子区间表示为[E_min+(m-1)ΔE，E_min+mΔE]，m∈{1，2，...，M}，记Ω_m为第m个子区间对应的构象集合，并设置

8)父代选择操作，过程如下：

8.3)按公式(2)计算的概率选择一个能量子区间；

表示ctd指向cst的三维空间向量，表示ctd指向fct的三维空间向量，表示ctd指向ftf的三维空间向量，按如下公式计算选择的子区间内每个构象的结构差异性，并记C_m，max为具有最大结构差异性数值D_m，max的构象：

8.6)按公式(4)计算的概率选择一个个体，记作C^selected；

9)变异操作，过程如下：

9.4)设置n＝n+1；

10)若n＞NP，则继续步骤11)；否则转至步骤7)；

11)淘汰个体选择操作，过程如下：

11.1)执行步骤7)；

11.2)执行步骤8.1)；

11.4)按公式(5)计算的概率选择一个能量子区间；

11.5)执行步骤8.4)；

11.8)设置n＝n-1；

12)若n＝1，设置g＝g+1；否则转至步骤11)；

本实施例以序列长度为80的蛋白质1C8C为实施例，一种基于双层偏置搜索的蛋白质结构预测方法，所述方法包括以下步骤：

1)输入目标蛋白质1C8C的序列信息；

3)设置参数：种群规模NP＝1000，最大迭代次数G＝100，能量区间划分个数M＝100，温度因子β＝2；

5)设置g＝1，g∈{1，2，...，G}；

6)设置n＝1，n∈{1，2，...，NP}；

8)父代选择操作，过程如下：

8.3)按公式(2)计算的概率选择一个能量子区间；

表示ctd指向cst的三维空间向量，表示ctd指向fct的三维空间向量，

8.6)按公式(4)计算的概率选择一个个体，记作C^selected；

9)变异操作，过程如下：

9.4)设置n＝n+1；

10)若n＞NP，则继续步骤11)；否则转至步骤7)；

11)淘汰个体选择操作，过程如下：

11.1)执行步骤7)；

11.2)执行步骤8.1)；

11.4)按公式(5)计算的概率选择一个能量子区间；

11.5)执行步骤8.4)；

11.8)设置n＝n-1；

12)若n＝1，设置g＝g+1；否则转至步骤11)；

以序列长度为80的蛋白质1C8C为实施例，运用以上方法得到了该蛋白质的近天然态构象，其构象更新示意图如图1所示，运行100代后所得到的结构与天然态结构之间的平均均方根偏差为

最小均方根偏差为

预测得到的三维结构如图2所示。

以上阐述的是本发明给出的一个实施例展现出来的一个优良结果，显然本发明不仅适合上述实施例，在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施。

Claims

1.一种基于双层偏置搜索的蛋白质结构预测方法，其特征在于：所述方法包括以下步骤：

1)输入目标蛋白质的序列信息；

2)根据目标蛋白质序列从ROBETTA服务器上获取3片段和9片段的片段库文件；

4)种群初始化：利用Rosetta协议第一阶段产生种群规模为NP的种群C＝{C₁,C₂,...,C_NP}，其中C_i，i＝1,2,...,NP为第i个个体；

5)设置g＝1，g∈{1,2,...,G}；

6)设置n＝1，n∈{1,2,...,NP}；

7)记C_i为种群中第i个个体，i∈{1,2,...,NP+n-1}，并进行如下操作：

7.2)记E_min和E_max分别为种群中的最低能量和最高能量，设置能量区间[E_min,E_max]，将能量区间等分成M个子区间，每个子区间长度为ΔE，

第m个子区间表示为[E_min+(m-1)ΔE,E_min+mΔE]，m∈{1,2,...,M}，记Ω_m为第m个子区间对应的构象集合，并设置

7.3)将种群中的每个个体按能量值分配到相应的子区间内，若score3(C_i)∈[E_min+(m-1)ΔE,E_min+mΔE]，则Ω_m＝Ω_m∪{C_i}；

8)父代选择操作，过程如下：

8.1)记C_m,j为第m个能量子区间中的第j个个体，j∈{1,2,...,|Ω_m|}，按如下公式计算每个能量子区间中的构象平均能量

8.3)按公式(2)计算的概率选择一个能量子区间；

表示ctd指向cst的三维空间向量，

表示ctd指向fct的三维空间向量，

表示ctd指向ftf的三维空间向量，按如下公式计算选择的子区间内每个构象的结构差异性，并记C_m,max为具有最大结构差异性数值D_m,max的构象：

8.6)按公式(4)计算的概率选择一个个体，记作C^selected；

9)变异操作，过程如下：

9.1)在最大差异性构象C_m,max中随机选取一个3片段，替换到选择个体C^selected的对应位置上，生成新的构象C^new；

并生成均匀随机小数rand，rand∈[0,1]，若rand＜P_accept，则C＝C∪{C^new′}；否则C＝C∪{C^new}；

9.4)设置n＝n+1；

10)若n＞NP，则继续步骤11)；否则转至步骤7)；

11)淘汰个体选择操作，过程如下：

11.1)执行步骤7)；

11.2)执行步骤8.1)；

11.4)按公式(5)计算的概率选择一个能量子区间；

11.5)执行步骤8.4)；

11.8)设置n＝n-1；

12)若n＝1，设置g＝g+1；否则转至步骤11)；