CN108062457B

CN108062457B - 一种结构特征向量辅助选择的蛋白质结构预测方法

Info

Publication number: CN108062457B
Application number: CN201810033734.8A
Authority: CN
Inventors: 李章维; 孙科; 马来发; 周晓根; 郝小虎; 张贵军
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Guangzhou Zhaoji Biotechnology Co ltd; Shenzhen Xinrui Gene Technology Co ltd
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2021-06-18
Anticipated expiration: 2038-01-15
Also published as: CN108062457A

Abstract

一种结构特征向量辅助选择的蛋白质结构预测方法，本发明在基本遗传算法的框架下，首先，对目标个体进行交叉和变异操作，种群间进行信息交互，增加构象多样性，其中交叉概率的设置有效地控制了种群收敛快慢；然后，随机选取一个个体并计算其结构特征向量，计算种群中剩余个体的结构特征向量，选出和该个体结构特征向量距离最小的个体，通过选择结构相近的个体，以达到分类的目的；最后，用能量函数计算个体的能量，选出其中较小的个体保留，更新种群，减少了能量函数不精确的影响。本发明采样能力较好、预测精度较高。

Description

一种结构特征向量辅助选择的蛋白质结构预测方法

技术领域

本发明涉及一种生物学信息学、智能优化、计算机应用领域，尤其涉及的是，一种结构特征向量辅助选择的蛋白质结构预测方法。

背景技术

蛋白质是组成人体一切细胞和组织的重要成分，是生命活动的主要承担者。蛋白质是由氨基酸通过肽键连接而成的生物大分子，只有在折叠成特定的结构才有特定的生物学功能，所以蛋白质结构对于蛋白质功能有着重要意义。

现阶段测定蛋白质三级结构的主要实验方法有X-晶体衍射、核磁共振和冷冻电镜技术，尽管通过这些已经成熟的技术可以获得非常高精度的蛋白质结构，但是蛋白质结构实验测定的速度远远比不上蛋白质序列测定的速度，无法满足大规模蛋白质结构的测定，蛋白质结构预测是使用分子动力学技术来模拟蛋白质的折叠过程，然而现有的分子动力学模拟技术无法进行快速、准确的结构预测，所以使用计算机的方法基于统计学习和组合优化的预测算法成为了现阶段预测蛋白质结构的主要手段。

蛋白质结构预测基于C.Anfinsen提出的热力学假说：蛋白质的空间结构由氨基酸序列唯一确定；蛋白质的空间结构是稳定的；蛋白质的天然构象处于自由能最低点。在上世纪已有文献中，结构预测方法通常划分为以下三类：针对高相似序列的同源建模方法；针对较低相似性序列的折叠识别方法；以及不依赖模板而利用物理学原理直接进行计算的从头预测方法(ab initio或de novo)。自1994年起，每两年举办一次的蛋白质结构预测技术竞赛CASP(Critical Assessment of Techniques for Protein Structure Prediction)在很大程度上促进了蛋白质三级结构预测方法的发展。根据CASP10的最新分类，蛋白质结构预测方法分为两大类，基于模板的方法和自由模板方法。其中，从头预测(Ab-initio)作为自由模板方法，适用于同源性小于25％的大多数蛋白质，仅从序列出发预测蛋白质结构，对蛋白质分子设计及蛋白质折叠的研究等具有重要意义。

在蛋白质结构从头预测的过程中，蛋白质构象高维空间的复杂性使得通过计算得到蛋白质天然态构象成为一个极具挑战性的NP-Hard问题。现有的算法中存在着能量函数的不精确以及采样能力的缺乏等问题，需要改进。

发明内容

为了克服现有的蛋白质结构预测方法采样能力和预测精度的不足，本发明提出一种采样能力较好、预测精度较高的结构特征向量辅助选择的蛋白质结构预测方法，设计一种结构特征向量，通过结构特征向量和能量函数同时进行选择，以选取能量和结构均较优个体，能够有效地改进由于能量函数的不精确导致的蛋白质结构预测精度低的问题。

本发明解决其技术问题所采用的技术方案是：

一种结构特征向量辅助选择的蛋白质结构预测方法，所述方法包括以下步骤：

1)参数设置，过程如下：

初始种群规模为population，最大迭代代数为generation，种群长度为length，交叉起始位置为crossbegin，交叉结束位置为crossend，交叉片段长度为 fraglength；

2)确定结构特征向量USR，过程如下：

对于两个不同的构象M和N，ConfUSR_(M)＝(A_x(M),C_x(M),D_x(M))和 ConfUSR_(N)＝(A_x(N),C_x(N),D_x(N))分别表示这两个构象的结构特征向量，其中， A为中心原子的坐标，C为与中心最远的原子的坐标，D为与C最远的原子的坐标，A_x(N)是指A原子的X坐标，而这两个构象之间的距离则用

来表示；

3)种群初始化操作，过程如下：

使用Rosetta-abinitio第一阶段对种群population个体进行片段长度为9的片段组装，直到每个位置的残基都被替换一次，完成初始化操作，得到 population个初始个体；

4)种群交叉操作：

在种群中随机选择两个个体x_i,x_j,i,j∈[1,population],i≠j，随机选择序列中一个片段进行交叉，操作如下：

4.1)随机生成一个长度为population的数组，数组包含从1到population的随机整数排序；

4.2)依次选取两个个体x_i,x_j进行交叉，片段长度为随机整数 fraglength∈[3,10]，交叉操作的起始位置为随机整数 crossbegin∈[1,length-fraglength]，交叉结束位置为crossend＝ crossbegin+fraglength，在交叉区间[crossbegin,crossend]中交换x_i,x_j相应位置残基的角度信息，生成新的个体x′_i,x′_j；

5)种群变异操作：

对新生成的个体依次进行变异操作，操作如下：

5.1)对个体x′_i,x′_j进行片段组装，根据公式

进行片段长度为3或者9的片段组装，其中p为[0,1]之间的随机数；

5.2)在片段组装之后，利用能量函数分别对组装前后的个体进行评价得到E_i和E′_i，若E_i＜E′_i，则跳回至步骤4.1)重新进行片段组装并判断，若 E_i＞E′_i，则结束变异操作并得到新的个体x″_i,x″_j；

6)种群选择操作：

将初始种群和变异后得到的新种群混合成为一个新的种群，在该种群中用结构特征向量来辅助选择较优的个体，操作如下：

6.1)使用能量函数分别评价新种群中每个个体的能量，得到其中能量最小的个体x_k，并对其计算结构特征向量

在种群中找到与x_k结构特征向量距离最短的个体，在两者中选取能量较小的个体并保存到下一代种群中；

6.2)将上述两个个体删除后，随机选择一个个体，并在种群中获得与其结构特征向量距离最短的个体，分别用能量函数对这两个个体进行评价，选择能量较小的个体更新到下一代的初始种群中；

6.3)循环步骤6.2)，直至下一代的初始种群更新完毕，种群规模为population。最大迭代代数generation加1；

7)判断是否达到最大迭代代数generation，若满足终止条件，则输出结果，否则转至步骤4)。

本发明的技术构思为：本发明在基本遗传算法的框架下提出一种结构特征向量辅助选择的蛋白质结构预测方法。首先，对目标个体进行交叉和变异操作，种群间进行信息交互，增加构象多样性，其中交叉概率的设置有效地控制了种群收敛快慢；然后，随机选取一个个体并计算其结构特征向量，计算种群中剩余个体的结构特征向量，选出和该个体结构特征向量距离最小的个体，通过选择结构相近的个体，以达到分类的目的；最后，用能量函数计算个体的能量，选出其中较小的个体保留，更新种群，减少了能量函数不精确的影响。

本发明的有益效果表现在：一方面通过加入构象的结构特征向量来指导种群更新，降低了由于能量函数不精确带来的误差，从而提高蛋白质构象的预测精度；另一方面，通过遗传算法，加入了种群之间的信息交互，提高了蛋白质构象的预测精度。

附图说明

图1是结构特征向量辅助选择的蛋白质结构预测方法对蛋白质1AIL进行结构预测时的构象更新示意图。

图2是结构特征向量辅助选择的蛋白质结构预测方法对蛋白质1AIL进行结构预测得到的三维结构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种结构特征向量辅助选择的蛋白质结构预测方法，所述方法包括以下步骤：

1)参数设置，过程如下：

2)确定结构特征向量USR，过程如下：

来表示；

3)种群初始化操作，过程如下：

4)种群交叉操作：

5)种群变异操作：

对新生成的个体依次进行变异操作，操作如下：

5.1)对个体x′_i,x′_j进行片段组装，根据公式

6)种群选择操作：

我们将初始种群和变异后得到的新种群混合成为一个新的种群，在该种群中用结构特征向量来辅助选择较优的个体，操作如下：

本实施例序列长度为73的α折叠蛋白质1AIL为实施例，一种结构特征向量辅助选择的蛋白质结构预测方法，所述方法包括以下步骤：

1)参数设置，过程如下：

2)确定结构特征向量USR，过程如下：

对于两个不同的构象M和N，ConfUSR(_M)＝(A_x(M),C_x(M),D_x(M))和 ConfUSR_(N)＝(A_x(N),C_x(N),D_x(N))分别表示这两个构象的结构特征向量，其中， A为中心原子的坐标，C为与中心最远的原子的坐标，D为与C最远的原子的坐标，A_x(N)是指A原子的X坐标，而这两个构象之间的距离则用

来表示；

3)种群初始化操作，过程如下：

4)种群交叉操作：

5)种群变异操作：

对新生成的个体依次进行变异操作，操作如下：

5.1)对个体x′_i,x′_j进行片段组装，根据公式

6)种群选择操作：

以序列长度为73的α折叠蛋白质1AIL为实施例，运用以上方法得到了该蛋白质的近天然态构象，最小均方根偏差为

平均均方根偏差为

预测结构如图2所示。

以上说明是本发明以1AIL蛋白质为实例所得出的优化效果，并非限定本发明的实施范围，在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进，不应排除在本发明的保护范围之外。

Claims

1.一种结构特征向量辅助的蛋白质结构预测方法，其特征在于，所述蛋白质结构预测方法包括以下步骤：

1)参数设置，过程如下：

初始种群规模为population，最大迭代代数为generation，种群长度为length，交叉起始位置为crossbegin，交叉结束位置为crossend，交叉片段长度为fraglength；

2)确定结构特征向量USR，过程如下：

对于两个不同的构象M和N，ConfUSR_(M)＝(A_x(M),C_x(M),D_x(M))和ConfUSR_(N)＝(A_x(N),C_x(N),D_x(N))分别表示这两个构象的结构特征向量，其中，A为中心原子的坐标，C为与中心最远的原子的坐标，D为与中心最远的原子最远的原子的坐标，而这两个构象之间的距离则用

来表示；

3)种群初始化操作，过程如下：

使用Rosetta-abinitio第一阶段对种群population个体进行片段长度为9的片段组装，直到每个位置的残基都被替换一次，完成初始化操作，得到population个初始个体；

4)种群交叉操作：

4.2)依次选取两个个体x_i,x_j进行交叉，片段长度为随机整数fraglength∈[3,10]，交叉操作的起始位置为crossbegin∈[1,length-fraglength]为随机整数，交叉结束位置为crossend＝crossbegin+fraglength，在交叉区间[crossbegin,crossend]中交换x_i,x_j相应位置残基的角度信息，生成新的个体x′_i,x′_j；

5)种群变异操作：

对新生成的个体依次进行变异操作，操作如下：

5.1)对个体x′_i,x′_j进行片段组装，根据公式

5.2)在片段组装之后，利用能量函数分别对组装前后的个体进行评价得到E_i和E_i′，若E_i＜E_i′，则跳回至步骤4.1)重新进行片段组装并判断，若E_i＞E_i′，则结束变异操作并得到新的个体x″_i,x″_j；

6)种群选择操作：

6.3)循环步骤6.2)，直至下一代的初始种群更新完毕，种群规模为population，迭代代数加1；