CN108595910B

CN108595910B - 一种基于多样性指标的群体蛋白质构象空间优化方法

Info

Publication number: CN108595910B
Application number: CN201810438596.1A
Authority: CN
Inventors: 张贵军; 彭春祥; 刘俊; 周晓根; 王柳静
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2021-08-03
Anticipated expiration: 2038-05-09
Also published as: CN108595910A

Abstract

一种基于多样性指标的群体蛋白质构象空间优化方法，首先，利用Rosetta第一阶段进行片段组装生成初始种群，并利用Rosetta第二阶段进行片段组装生成新种群；然后，针对随机选取的Loop区域，对构象进行Loop交换，从而实现种群重组；其次，基于Loop区域，对每个构象进行变异操作，并将变异生成的所有新个体与当前种群进行合并，并提取构象的USR特性信息建立多样性指标，基于该指标和能量对整个种群进行更新操作；最后，分别利用Rosetta第三和第四阶段对整个种群进行进一步优化，从而得到最终预测结果。本发明采样效率较高、多样性较好、复杂度较低及预测精度较高。

Description

一种基于多样性指标的群体蛋白质构象空间优化方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于多样性指标的群体蛋白质构象空间优化方法。

背景技术

生物信息学是生命科学和计算机科学交叉领域的一个研究热点。生物信息学研究成果目前已经被广泛应用于基因发现和预测、基因数据的存储管理、数据检索与挖掘、基因表达数据分析、蛋白质结构预测、基因和蛋白质同源关系预测、序列分析与比对等。基因组规定了所有构成该生物体的蛋白质，基因规定了组成蛋白质的氨基酸序列。蛋白质决定了细胞的功能，使细胞的活动与生命相关联。而蛋白质的三维结构是其独特功能特性的主要决定因素之一。因此，蛋白质结构的确定是理解这些重要的生命基石的功能的基本步骤。虽然蛋白质由氨基酸的线性序列组成，但是，它们只有折叠形成特定的空间结构才能具有相应的活性和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能，也有利于认识蛋白质是如何执行功能的。确定蛋白质的结构的是非常重要的。深入了解蛋白质的结构功能可以帮助设计具有特定功能的蛋白质，药物和疫苗的研发以及蛋白质错误折叠的病理特征(例如阿尔茨海默病)。目前，蛋白质序列数据库的数据积累的速度非常快，但是，已知结构的蛋白质相对比较少。尽管蛋白质结构测定技术有了较为显著的进展，但是，通过实验方法确定蛋白质结构的过程仍然非常复杂，代价较高。因此，计算方法已经成为蛋白质结构预测的基础。预测一个蛋白质分子的三维结构，只用它的氨基酸序列，但是在计算生物学中仍然是一个巨大的挑战。人们希望能够通过生物信息技术去精确的预测蛋白质结构。

与许多蛋白质结构预测方法一样，使用一种简化的三维结构表示蛋白质模型，它只包含关于主扭转角的信息。蛋白质结构预测使用片段组装方法，并通过基于物理的能量模型或者基于知识的能量模型指导搜索，而这种方法存在着能量函数的不精确、采样效率低、多样性差、复杂度较高、预测精度较低的不足，目前，最常用的片段组装的方法仍然依赖于数千次蒙特卡罗重启，而不是基于进化信息的的搜索技术。从某种意义上说，盲目的随机蒙特卡罗重启所得到的结果具有不确定性。

因此，现有的蛋白质结构预测方法在采样效率、种群多样性、计算复杂度及预测精度方面存在缺陷，需要改进。

发明内容

为了克服现有的蛋白质结构预测方法采样效率低、构象多样性差、复杂度较高、预测精度较低的不足，本发明通过提取蛋白质的特征信息衡量构象的多样性，提出一种采样效率较高、多样性较好、复杂度较低及预测精度较高的基于多样性指标的群体蛋白质构象空间优化方法。

本发明解决其技术问题所采用的技术方案是：

一种基于多样性指标的群体蛋白质构象空间优化方法，所述优化方法包括以下步骤：

1)给定输入序列信息；

2)设置参数：种群大小NP，重组因子RC，最大迭代代数G_max，多样性接收概率p；

3)利用PSIPRED预测查询序列的二级结构信息；

4)初始化：首先通过用Rosetta第一阶段进行片段组装生成一个规模为NP的初始种群P＝{x_i|i∈I}，其中i为种群个体编号，I为种群个体编号集合，I＝{1,2,...,NP}，x_i表示第i个个体；

5)采用Rosetta第二阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群；

6)构象重组，过程如下：

6.1)从当前种群中选择两个不同的个体x_a和x_b，其中，a,b∈{1,2,...,NP},a≠b；根据二级结构信息随机选取一个loop区域，并在0和1之间随机生成一个均匀分布随机数rand1；

6.2)如果rand1<RC，则针对步骤6.1)中选择的loop区域，交换构象x_a和x_b的二面角分别生成新的构象

和

6.3)重复步骤6.1)-6.2)直到种群中的所有个体都进行了构象重组为止，生成新的种群

7)针对种群

中的每一个构象

进行变异，过程如下：

7.1)统计所有loop区域能够进行片段组装位置的数量W_L，并计算变异概率

7.2)生成一个0和1之间的均匀分布随机数rand2，如果rand2<P_m，则对构象

的所有loop区域进行一次片段组装生成变异个体

7.3)按照步骤7.1)-7.2)对当前种群中的所有构象进行变异后，生成新的种群

8)合并种群

和P中的所有个体，即

9)针对

中的每一个构象

计算多样性指标，过程如下：

9.1)根据每个构象的C_α原子坐标计算每个构象的质心

9.2)计算每个C_α原子到质心

的欧氏距离，并记离质心最远的原子为

离质心最近的原子为

9.3)计算每个C_α原子到

的欧氏距离，并记离

最远的原子为

9.4)分别计算步骤9.2)中所有距离的平均值

偏差

偏度

9.5)分别计算步骤9.3)中所有距离的平均值

偏差

偏度

9.6)计算每个C_α原子到

的距离，并计算这些距离的平均值

偏差

偏度

9.7)计算每个C_α原子到

的距离，并计算这些距离的平均值

偏差

偏度

9.8)将步骤9.4)-9.7)中的距离平均值、偏差和偏度合并得到构象

的特征向量

9.9)计算多样性指标

其中，T＝{1,2,…,2NP}；

表示向量U_i的第l维元素；

10)针对种群P中的每一个个体x_i,i∈I进行更新，过程如下：

10.1)分别根据Rosetta score2计算个体x_i和

的能量score(x_i)和

10.2)如果

则个体

替换父代个体x_i，否则继续步骤10.3)；

10.3)如果D_i＞D′_i，则产生一个[0,1]的随机数rand3，如果rand3>p，则个体

替换父代个体x_i；

11)对步骤6)-10)进行迭代直到达到最大迭代代数G_max，然后继续步骤12)；

12)采用Rosetta第三阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群，并根据步骤6)-10)进行迭代直到达到最大迭代代数G_max，其中能量函数采用Rosetta socre3；

13)采用Rosetta第四阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群，并根据步骤6)-10)进行迭代直到达到最大迭代代数G_max，其中能量函数采用Rosetta socre4；

14)输出结果。

本发明的技术构思为：首先，利用Rosetta第一阶段进行片段组装生成初始种群，并利用Rosetta第二阶段进行片段组装生成新种群；然后，针对随机选取的Loop区域，对构象进行Loop交换，从而实现种群重组；其次，基于Loop区域，对每个构象进行变异操作，并将变异生成的所有新个体与当前种群进行合并，并提取构象的USR特性信息建立多样性指标，基于该指标和能量对整个种群进行更新操作；最后，分别利用Rosetta第三和第四阶段对整个种群进行进一步优化，从而得到最终预测结果。本发明提供一种采样效率较高、多样性较好、复杂度较低及预测精度较高的基于多样性指标的群体蛋白质构象空间优化方法。

本发明的有益效果为：在Rosetta算法框架上加入了遗传算法和基于快速图形识别USR的多样性指标，从而产生更多较优构象，同时保持构象的多样性；在每阶段分别应用遗传算法进行优化和选择，而且巧妙的运用能量函数评价和多样性评价的动态切换，从而可以弥补能量函数不精确带来引起的预测误差，在一定程度上，防止算法陷入局部最优。

附图说明

图1是基于多样性指标的群体蛋白质构象空间优化方法对1ENH蛋白结构预测得到的RMSD和能量值散点图。

图2是基于多样性指标的群体蛋白质构象空间优化方法对1ENH蛋白结构预测得到的三维结构。

具体实施方式：

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于多样性指标的群体蛋白质构象空间优化方法，所述优化方法包括以下步骤：

1)给定输入序列信息；

3)利用PSIPRED预测查询序列的二级结构信息；

4)初始化：首先通过用Rosetta第一阶段进行片段组装生成一个规模为NP的初始种群P＝{x_i|i∈I}，其中i为种群个体编号，I为种群个体编号集合，

I＝{1,2,...,NP}，x_i表示第i个个体；

6)构象重组，过程如下：

和

7)针对种群中的每一个构象进行变异，过程如下：

的所有loop区域进行一次片段组装生成变异个体

8)合并种群

和P中的所有个体，即

9)针对

中的每一个构象

计算多样性指标，过程如下：

9.1)根据每个构象的C_α原子坐标计算每个构象的质心

9.2)计算每个C_α原子到质心

的欧氏距离，并记离质心最远的原子为

离质心最近的原子为

9.3)计算每个C_α原子到

的欧氏距离，并记离

最远的原子为

9.4)分别计算步骤9.2)中所有距离的平均值

偏差

偏度

9.5)分别计算步骤9.3)中所有距离的平均值

偏差

偏度

9.6)计算每个C_α原子到

的距离，并计算这些距离的平均值

偏差

偏度

9.7)计算每个C_α原子到

的距离，并计算这些距离的平均值

偏差

偏度

9.8)将步骤9.4)-9.7)中的距离平均值、偏差和偏度合并得到构象

的特征向量

9.9)计算多样性指标

其中，T＝{1,2,…,2NP}；

表示向量U_i的第l维元素；

10)针对种群P中的每一个个体x_i,i∈I进行更新，过程如下：

10.1)分别根据Rosetta score2计算个体x_i和

的能量score(x_i)和

10.2)如果

则个体

替换父代个体x_i，否则继续步骤10.3)；

替换父代个体x_i；

14)输出结果。

本实施例以1ENH蛋白为实施例，一种基于多样性指标的群体蛋白质构象空间优化方法，其中包含以下步骤：

1)给定输入序列信息；

2)设置参数：种群大小NP＝100，重组因子RC＝0.1，最大迭代代数G_max＝10，多样性接收概率p＝0.5；

3)利用PSIPRED预测查询序列的二级结构信息；

6)构象重组，过程如下：

6.2)如果rand1<0.1，则针对步骤6.1)中选择的loop区域，交换构象x_a和x_b的二面角分别生成新的构象

和

7)针对种群中的每一个构象进行变异，过程如下：

的所有loop区域进行一次片段组装生成变异个体

8)合并种群

和P中的所有个体，即

9)针对

中的每一个构象

计算多样性指标，过程如下：

9.1)根据每个构象的C_α原子坐标计算每个构象的质心

9.2)计算每个C_α原子到质心

的欧氏距离，并记离质心最远的原子为

离质心最近的原子为

9.3)计算每个C_α原子到

的欧氏距离，并记离

最远的原子为

9.4)分别计算步骤9.2)中所有距离的平均值

偏差

偏度

9.5)分别计算步骤9.3)中所有距离的平均值

偏差

偏度

9.6)计算每个C_α原子到

的距离，并计算这些距离的平均值

偏差

偏度

9.7)计算每个C_α原子到

的距离，并计算这些距离的平均值

偏差

偏度

9.8)将步骤9.4)-9.7)中的距离平均值、偏差和偏度合并得到构象

的特征向量

9.9)计算多样性指标

其中，T＝{1,2,…,2NP}；

表示向量U_i的第l维元素；

10)针对种群P中的每一个个体x_i,i∈I进行更新，过程如下：

10.1)分别根据Rosetta score2计算个体x_i和

的能量score(x_i)和

10.2)如果

则个体

替换父代个体x_i，否则继续步骤10.3)；

10.3)如果D_i＞D′_i，则产生一个[0,1]的随机数rand3，如果rand3>0.5，则个体

替换父代个体x_i；

14)输出结果。

以序列长度为54的α折叠蛋白质1ENH为实施例，运用以上方法得到了该蛋白质的近天然态构象，最小均方根偏差RMSD为

预测得到的三维结构如图2所示。

以上阐述的是本发明给出的一个实施例表现出来的优良优化效果，显然本发明不仅适合上述实施例，而且可以应用到实际工程中的各个领域，同时在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种基于多样性指标的群体蛋白质构象空间优化方法，其特征在于，所述优化方法包括以下步骤：

1)给定输入序列信息；

3)利用PSIPRED预测查询序列的二级结构信息；

6)构象重组，过程如下：

和

7)针对种群

中的每一个构象

i∈I进行变异，过程如下：

的所有loop区域进行一次片段组装生成变异个体

8)合并种群

和P中的所有个体，即

9)针对

中的每一个构象

i∈I，计算多样性指标，过程如下：

9.1)根据每个构象的C_α原子坐标计算每个构象的质心

9.2)计算每个C_α原子到质心

的欧氏距离，并记离质心最远的原子为

离质心最近的原子为

9.3)计算每个C_α原子到

的欧氏距离，并记离

最远的原子为

9.4)分别计算步骤9.2)中所有距离的平均值

偏差

偏度

9.5)分别计算步骤9.3)中所有距离的平均值

偏差

偏度

9.6)计算每个C_α原子到

的距离，并计算这些距离的平均值

偏差

偏度

9.7)计算每个C_α原子到

的距离，并计算这些距离的平均值

偏差

偏度

9.8)将步骤9.4)-9.7)中的距离平均值、偏差和偏度合并得到构象

的特征向量

9.9)计算多样性指标

其中，T＝{1,2,…,2NP}；

表示向量U_i的第l维元素；

10)针对种群P中的每一个个体x_i,i∈I进行更新，过程如下：

10.1)分别根据Rosetta score2计算个体x_i和

的能量score(x_i)和

10.2)如果

则个体

替换父代个体x_i，否则继续步骤10.3)；

替换父代个体x_i；

12)采用Rosetta第三阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群，并根据步骤6)-10)进行迭代直到达到最大迭代代数G_max，其中能量函数采用Rosettasocre3；

13)采用Rosetta第四阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群，并根据步骤6)-10)进行迭代直到达到最大迭代代数G_max，其中能量函数采用Rosettasocre4；

14)输出结果。