CN108763860B

CN108763860B - 一种基于Loop信息采样的群体蛋白质构象空间优化方法

Info

Publication number: CN108763860B
Application number: CN201810579315.4A
Authority: CN
Inventors: 李章维; 孙科; 谢腾宇; 周晓根; 张贵军
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Guangzhou Zhaoji Biotechnology Co ltd; Shenzhen Xinrui Gene Technology Co ltd
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2021-08-03
Anticipated expiration: 2038-06-07
Also published as: CN108763860A

Abstract

一种基于Loop信息采样的群体蛋白质构象空间优化方法，首先，在群体算法中使用了针对Loop区域的交叉，交叉概率的设置可以控制群体收敛的速度，避免早熟；其次，二级结构区域片段组装操作可以使构象形成较优的整体拓扑结构；然后，使用基于Loop区域的拉氏图重要性采样方法对目标蛋白构象的Loop区域进行局部结构增强；最后，在选择过程中结合二级结构相似度和能量函数两个指标对种群进行择优，淘汰二级结构相似度较小和能量较大的个体，避免能量函数不精确的问题。本发明采样能力较好、预测精度较高。

Description

一种基于Loop信息采样的群体蛋白质构象空间优化方法

技术领域

本发明是一种涉及生物学信息学、分子动力学模拟、统计学习与组合优化、计算机应用领域，具体涉及的是，一种基于Loop信息采样的群体蛋白质构象空间优化方法。

背景技术

蛋白质是生物体中分布最广，最复杂的物质，在与生命有关的各种过程中起着至关重要的作用，例如运输，调节和防御过程。

蛋白质的结构可以分为三个层次：

1)蛋白质的一级结构是指多肽链中的氨基酸序列。

2)二级结构是指实际多肽主链上高度规则的局部结构。有二种主要类型的二级结构，α-螺旋和β-链。

3)三级结构是指单体和多聚体蛋白质分子的三维结构。α-螺旋和β-折叠片被折叠成致密的球状结构。

4)第四结构是由作为单一功能单位运行的两个或多个单独的多肽链(亚基)

聚集组成的三维结构。

蛋白质只有在折叠成特定结构后才能发挥某些生物学功能，因此理解蛋白质的结构对理解它是中枢神经系统非常重要，它的传染源是一种特定类型的被称为朊病毒的错误折叠蛋白质。在正常情况下，朊病毒是α-螺旋结构，但在特定情况下，它会扭曲成β链结构，这是致病因子。获得蛋白质三维结构的实验方法包括X射线晶体学，核磁共振波谱学，低温电子显微镜学等。在过去的几十年中，蛋白质序列数据库(UniProt)和蛋白质结构数据库(PDB)中的数据呈指数增长。然而，获取蛋白质序列数据比获得蛋白质结构数据容易得多。更重要的是，实验手段总是耗时巨大且昂贵。截至2018年2月，小于0.127％的蛋白质序列已通过实验确定了三维结构。因此，从蛋白质序列预测结构的计算方法是非常重要的工作。此外，Anfinsen的实验显示，天然结构仅由蛋白质的氨基酸序列决定。换言之，蛋白质的结构信息包含在其序列中，这表明可以使用计算方法从序列预测结构。由于相似的蛋白质序列通常具有相似的三维结构，因此存在使用PDB中的已知结构作为模板的同源性建模方法，这是迄今为止用于蛋白质结构预测的最准确的方法。随着数据库的增长，越来越多的蛋白质可以通过同源模板获得精确的蛋白质结构。同源建模可以有效地预测蛋白质结构，但其预测准确性取决于目标蛋白质和结构模板之间的序列同一性。当序列同一性相对较高(大于30％)时，同源建模方法一般可以较高的精度预测蛋白质三级结构，而当序列同一性较低时则失败。与基于模板的结构预测方法(如同源性建模)不同，从头预测方法不依赖任何已知结构，并且通过构象搜索方法搜索目标蛋白的天然结构。其中，片段组装技术被广泛使用，其利用多个蛋白质结构的片段拼接成目标蛋白质结构。从头预测的过程中，目前主要存在的瓶颈有两个，一个是能量景观的欺骗性，使得获得的能量低构象并不是天然态的构象，具体表现为能量函数的不精确，不能挑选出好的构象；另一个则是现有的技术对构象空间的采样能力的不足，具体表现为构象缺乏多样性。

因此，现在的蛋白质结构预测方法在预测精度和采样能力方面存在着缺陷，需要改进。

发明内容

为了克服现有的蛋白质结构预测方法采样能力和预测精度不足的缺陷，本发明提出一种采样能力较好、预测精度较高的基于Loop信息采样的群体蛋白质构象空间优化方法，在群体算法的基础上，使用了针对Loop区域的交叉，在基于二级结构片段组装的基础上引入了拉氏图信息，利用拉氏图重要性采样方法对构象的Loop区域进行局部增强，设计了一种二级结构相似度指标，通过二级结构相似度指标和能量函数双重约束以选择能量和结构均较优个体，有效地改进由于能量函数的不精确导致的蛋白质结构预测精度低的问题。

本发明解决其技术问题所采用的技术方案是：

一种基于Loop信息采样的群体蛋白质构象空间优化方法，所述方法包括以下步骤：

1)设置种群规模N、最大迭代代数I、交叉概率R、初始化片段组装上限为Max、温度常数kT，读入目标蛋白序列、片段库信息、预测二级结构信息以及拉氏图信息；

2)根据目标蛋白序列得到初始直链，并将初始直链复制形成规模为N大小的种群，用Rosetta协议的stage1对种群所有个体进行初始化，种群个体每个位置上的残基均被替换至少一次以上或达到Max次片段组装上限则视为初始化成功；

3)种群交叉，过程如下：

3.1)将种群个体随机配对，以交叉概率R判断是否进行交叉，若进行交叉，跳至步骤3.2)，若不进行交叉，则跳至步骤4)；

3.2)根据用户读入的目标蛋白预测二级结构，统计目标蛋白的Loop区域数量以及长度；

3.3)随机选取目标蛋白的其中一个完整的Loop区域，然后交换两个候选个体该长度范围内所有残基的二面角信息；

4)种群二级结构区域变异，对于种群中的目标个体i，二级结构区域变异过程如下：

4.1)根据目标蛋白的Loop区域信息记录个体i的所有Loop区域的残基二面角信息；

4.2)对个体进行9片段片段组装，生成个体i'，若片段组装发生在非Loop区域，则用4.1)保存的残基二面角信息去替换个体i'中相应区域的二面角信息，即片段组装只会发生在Loop区域，非Loop区域的结构信息不会改变；

4.3)用能量函数“score3”对变异前后个体i和i'进行能量评价，若能量变小，则接收变异后个体i'，若能量变大，则以Boltzmann概率

接收变异后个体i'，其中ΔE为个体i和i'的能量差值；5)基于拉氏图重要性采样对Loop区域局部结构增强，过程如下：

5.1)统计二级结构为Loop的残基的二面角在拉氏图中分布信息，记录并进行归一化；

5.2)对于种群个体j，随机选取其中一个Loop区域，用拉氏图中角度来替换个体j的Loop区域的残基二面角信息，生成个体j'；

5.3)用能量函数“score3”对局部增强前后个体j和j'进行能量评价，若能量变小，则接收局部增强后个体j'；若能量变大，则以Boltzmann概率接收变异后个体j'；

5.4)对种群所有个体都完成基于拉氏图的Loop区域扰动之后，统计拉氏图中每个格子被采样的概率，并根据重要性公式来确定下一代拉氏图中每个格子的选取概率；

6)基于二级结构相似度和能量函数进行选择，过程如下：

6.1)对于种群中的目标个体i，用Dssp算法获取该个体的二级结构信息；

6.2)将两者每个位置上的残基类型进行一一比较，若相同则两者的二级结构比对分数加1，全部比对完后得两者二级结构比对分数，除以目标蛋白序列长度获得该个体的二级结构相似度；

6.3)将交叉前的初始种群和经过拉氏图局部增强后的种群组成成为一个新的种群；

6.4)计算种群中所有个体的二级结构相似度以及能量分数，利用这两个指标对种群进行排序，选择排名靠前的N个个体作为下一次迭代的母代；

7)判断是否达到最大迭代次数I，若满足条件则停止迭代并输出最后一代种群个体信息，否则返回步骤3)。

本发明的技术构思为：在群体算法的框架下提出一种基于Loop信息采样的群体蛋白质构象空间优化方法。首先，在群体算法中使用了针对Loop区域的交叉，交叉概率的设置可以控制群体收敛的速度，避免早熟；其次，二级结构区域片段组装操作可以使构象形成较优的整体拓扑结构；然后，使用基于Loop区域的拉氏图重要性采样方法对目标蛋白构象的Loop区域进行局部结构增强；最后，在选择过程中结合二级结构相似度和能量函数两个指标对种群进行择优，淘汰二级结构相似度较小和能量较大的个体，避免能量函数不精确的问题。

本发明的有益效果表现为：一方面使用群体算法，群体间进行信息交互，二级结构片段组装以及基于拉氏图重要性采样方法的Loop局部增强可以提高算法的构象空间的搜索能力，避免片段库质量不够的问题；另一方面，通过二级结构相似度和能量对种群进行双重约束选择，大大增加了优质个体的保留的概率，降低了由于能量函数的不精确带来的误差，提高了预测精度。

附图说明

图1是基于Loop信息采样的群体蛋白质构象空间优化方法对蛋白质1ENH进行结构预测时得到的构象分布图。

图2是基于Loop信息采样的群体蛋白质构象空间优化方法对蛋白质1ENH进行结构预测得到的三维结构图。

具体实施方式

下面结合附图对本发明做进一步描述。

参照图1和图2，一种基于Loop信息采样的群体蛋白质构象空间优化方法，所述方法包括以下步骤：

3)种群交叉，过程如下：

接收变异后个体i'，其中ΔE为个体i和i'的能量差值；

5)基于拉氏图重要性采样对Loop区域局部结构增强，过程如下：

6)基于二级结构相似度和能量函数进行选择，过程如下：

本实施例以序列长度为54的α折叠蛋白质1ENH为实施例，一种基于二级结构相似度的蛋白质结构预测方法，所述方法包括以下步骤：

1)设置种群规模100、迭代代数100、交叉概率0.1、初始化片段组装上限为2000、温度常数2，读入目标蛋白序列、片段库信息、预测二级结构信息以及拉氏图信息；

2)根据目标蛋白序列得到初始直链，并将初始直链复制形成规模为100大小的种群，用Rosetta协议的stage1对种群所有个体进行初始化，种群个体每个位置上的残基均被替换至少一次以上或达到2000次片段组装上限则视为初始化成功；

3)种群交叉，过程如下：

3.1)将种群个体随机配对，以交叉概率0.1判断是否进行交叉，若进行交叉，跳至步骤3.2)，若不进行交叉，则跳至步骤4)；

4.2)对个体进行9片段片段组装，生成个体i'，若片段组装发生在非Loop

区域，则用4.1)保存的残基二面角信息去替换个体i'中相应区域的二面角信息，即片段组装只会发生在Loop区域，非Loop区域的结构信息不会改变；

6)基于二级结构相似度和能量函数进行选择，过程如下：

6.4)计算种群中所有个体的二级结构相似度以及能量分数，利用这两个指标对种群进行排序，选择排名靠前的100个个体作为下一次迭代的母代；

7)判断是否达到最大迭代次数100，若满足条件则停止迭代并输出最后一代种群个体信息，否则返回步骤3)。

以序列长度为54的α折叠蛋白质1ENH为实施例，运用以上方法得到了该蛋白质的近天然态构象，最小均方根偏差为

平均均方根偏差为

预测结构如图2所示。

以上说明是本发明以1ENH蛋白质为实例所得出的优化效果，并非限定本发明的实施范围，在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进，不应排除在本发明的保护范围之外。

Claims

1.一种基于Loop信息采样的群体蛋白质构象空间优化方法，其特征在于，所述方法包括以下步骤：

1)设置种群规模N、最大迭代代数I、交叉概率R、初始化片段组装上限为Max、温度常数kT、读入目标蛋白序列、片段库信息、预测二级结构信息以及拉氏图信息；

3)种群交叉，过程如下：

接收变异后个体i'，其中ΔE为个体i和i'的能量差值；

6)基于二级结构相似度和能量函数进行选择，过程如下：