CN109326319B

CN109326319B - 一种基于二级结构知识的蛋白质构象空间优化方法

Info

Publication number: CN109326319B
Application number: CN201810986056.7A
Authority: CN
Inventors: 张贵军; 王小奇; 马来发; 周晓根; 王柳静
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2021-05-18
Anticipated expiration: 2038-08-28
Also published as: CN109326319A

Abstract

一种基于二级结构知识的蛋白质构象空间优化方法，在遗传算法的基本框架下，对每个目标个体完成基于loop区域的交叉和基于片段组装的变异；然后，根据预测的二级结构知识和能量函数对目标个体和变异个体分别进行评价；最后，根据每个个体的二级结构得分与能量总得分进行排序，选出适应度较高的个体进入下一代种群。本发明提出一种预测精度高、计算代价低的基于二级结构知识的蛋白质构象空间优化方法。

Description

一种基于二级结构知识的蛋白质构象空间优化方法

技术领域

本发明涉及一种生物学信息学、智能优化、计算机应用领域，尤其涉及的是一种基于二级结构知识的蛋白质构象空间优化方法。

背景技术

蛋白质是一种由氨基酸分子组成的有机化合物，是生命体的重要组成部分和生命活动的主要执行者。研究表明，一个蛋白质所具有的特定的生化功能通常由其三维结构所决定。因此，预测蛋白质三维结构是现代生物学研究多方面的基石。

蛋白质的氨基酸序列决定三级结构。在计算生物学领域，通过计算机来预测蛋白质结构的方法根据其序列的同源性可分为两大类：基于模板的建模和从头预测。一般来讲，对于序列相似度较高的情况，基于模板的预测精度已经很高。列相似度<30％的蛋白来说，从头预测方法是唯一的选择。通过从头预测方法建立蛋白结构模型，即直接基于Anfinsen法则建立蛋白质能量模型，然后，再通过构象搜索优化方法得到目标蛋白的天然结构已经成为蛋白质结构预测领域的一个热点问题。

蛋白质构象空间优化的本质复杂性，使其成为蛋白质从头预测领域中一个极具挑战性的研究课题。目前主要的技术瓶颈在于两个方面，一方面在于现有技术的采样能力不足；另一方面由于能量函数不精确，所以在获得能量最优的构象时，并不能挑选出好的构象。考虑到计算代价问题，近十年来研究者陆续提出了一系列基于物理的力场模型、基于知识的力场模型。然而，我们还远远无法构建起能引导目标序列朝正确方向折叠的足够精确力场，导致数学上的最优解并不一定对应于目标蛋白的天然态结构，从而阻碍了高性能算法在蛋白质结构从头预测领域中的应用。

因此，现有的构象空间优化方法在预测精度和采样效率方面存在着缺陷，需要改进。

发明内容

为了克服现有的蛋白质构象优化方法中能量函数不精确、预测精度较低的不足，本发明提出一种采样效率较高、预测精度高的基于二级结构知识的蛋白质构象空间优化方法。

本发明解决其技术问题所采用的技术方案是：

一种基于二级结构知识的蛋白质构象空间优化方法，所述方法包括以下步骤：

1)给定输入序列信息；

2)利用PSIPRED平台预测目标蛋白的二级结构信息；

3)选取能量函数E(x)；

4)参数初始化：设置种群规模Psize，最大遗传代数G_max，初始种群搜索轨迹长度iter，交叉因子CR，变异计数器Co，最大计数值Co_max，二级结构和能量的权重w_s和w_e；

5)初始化种群：启动Psize条Monte Carlo轨迹，每条轨迹搜索iter次，即生成Psize个初始个体；

6)对每个目标个体x_i,i∈{i＝1,.2..,Psize}进行如下操作：

6.1)随机选择一个个体x_j,j∈{1,2,...,Psize}且j≠i，若r≤CR则对个体x_i和x_j进行如下操作，否则x′_i＝x_i转至步骤6.2)，其中r∈[0,1]是随机数；

6.1.1)在个体x_j中，随机选择一个loop区域[a,b]，其中a是随机选取的loop区域对应的起点位置，b是终止位置；

6.1.2)用个体x_j中[a,b]区域的扭转角度依次替换个体x_i中对应区域的扭转角，生成交叉个体x′_i；

6.2)对个体x′_i进行如下的变异操作：

6.2.1)对个体x′_i进行片段组装生成，并利用Monte Carlo机制判断是否接收该片段的插入，如果接受则组装后的构象被记为变异个体x″_i，转至步骤6.3)，否则转至步骤6.2.2)；

6.2.2)更新变异计数器，即Co＝Co+1；若Co＜Co_max则返回步骤6.2.1)；否则对个体x′_i进行片段组装直接生成变异个体x″_i，并设置Co＝0；

6.3)如果i＝Psize则执行步骤7)进行选择操作，否则转至步骤6.1)对下一个个体进行交叉和变异；

7)对每个目标个体x_i,i∈{i＝1,.2..,Psize}和变异个体x″_i,i∈{i＝1,.2..,Psize}进行如下操作：

7.1)根据预测的二级结构知识和能量函数计算目标个体x_i的得分，过程如下：

7.1.1)利用DSSP测定目标个体x_i的二级结构

l为目标序列的长度，

是构象x_i中第k个序列对应的二级结构类型，其中H,E和L分别代表α螺旋，β折叠和loop区域；

7.1.2)根据公式

计算目标个体x_i的二级结构得分，其中，

代表在预测的二级结构知识中第k个序列对应的二级结构被预测为

型的置信度；

7.1.3)根据能量函数计算出目标个体x_i的能量为E_i；

7.1.4)根据公式SE_i＝w_s·S_i+w_e·E_i计算目标个体x_i的总得分，其中w_s和w_e是二级结构与能量的权重；

7.2)根据预测的二级结构知识和能量函数计算目标个体x″_i的得分，过程如下：

7.2.1)与步骤7.1.1)同理测定变异个体x″_i的二级结构

其中，

是构象x″_i中第k个序列的二级结构类型；

7.2.2)与步骤7.1.2)同理根据公式

计算变异个体x″_i的二级结构质量分数；

7.2.3)根据能量函数计算出变异个体x″_i的能量为E″_i；

7.2.4)根据公式SE″_i＝w_s·S″_i+w_e·E″_i计算变异个体x″_i的总得分；

7.3)根据目标个体x_i,i∈{i＝1,.2..,Psize}和变异个体x″_i,i∈{i＝1,.2..,Psize}的得分SE_i,i∈{i＝1,.2..,Psize}和SE″_i,i∈{i＝1,.2..,Psize}对所有的个体进行排名，选出得分最低的前Psize个个体进入下一代，并作为下一代的父代个体；

8)判断是否达到最大迭代代数G_max，若达到最大迭代代数，则输出结果，否则转至步骤6)。

本发明的技术构思为：在遗传算法的基本框架下，对每个目标个体完成基于loop区域的交叉和基于片段组装的变异；然后，根据预测的二级结构知识和能量函数对目标个体和变异个体分别进行评价；最后，根据每个个体的二级结构得分与能量总得分进行排序，选出适应度较高的个体进入下一代种群。

本发明的有益效果表现在：一方面通过预测的的二级结构信息指导种群更新，降低了由于能量函数不精确带来的误差，进而大大提高了预测精度；另一方面，通过个体间loop区域的信息交互，有效地加快了收敛速度。

附图说明

图1是基于二级结构知识的蛋白质构象空间优化方法的基本流程图。

图2是基于二级结构知识的蛋白质构象空间优化方法对蛋白质1vcc进行结构预测时的构象更新示意图。

图3是基于二级结构知识的蛋白质构象空间优化方法对蛋白质1vcc进行结构预测得到的三维结构图。

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于二级结构知识的蛋白质构象空间优化方法，所述方法包括以下步骤：

1)给定输入序列信息；

2)利用PSIPRED平台预测目标蛋白的二级结构信息；

3)选取能量函数E(x)；

6)对每个目标个体x_i,i∈{i＝1,.2..,Psize}进行如下操作：

6.2)对个体x′_i进行如下的变异操作：

7.1.1)利用DSSP测定目标个体x_i的二级结构

l为目标序列的长度，

7.1.2)根据公式

计算目标个体x_i的二级结构得分，其中，

型的置信度；

7.1.3)根据能量函数计算出目标个体x_i的能量为E_i；

7.2.1)与步骤7.1.1)同理测定变异个体x″_i的二级结构

其中，

是构象x″_i中第k个序列的二级结构类型；

7.2.2)与步骤7.1.2)同理根据公式

计算变异个体x″_i的二级结构质量分数；

7.2.3)根据能量函数计算出变异个体x″_i的能量为E″_i；

本实施例序列长度为77的α/β折叠蛋白质1vcc为实施例，一种基于二级结构知识的蛋白质构象空间优化方法，其中包含以下步骤：

1)给定输入序列信息；

2)利用PSIPRED平台预测目标蛋白的二级结构信息；

3)选取能量函数E(x)；

4)参数初始化：设置种群规模Psize＝100，最大遗传代数G_max＝200，初始种群搜索轨迹长度iter＝2000，交叉因子CR＝0.1，变异计数器Co＝0，最大计数值Co_max＝150，二级结构和能量的权重w_s＝1和w_e＝0.5；

6)对每个目标个体x_i,i∈{i＝1,.2..,Psize}进行如下操作：

6.2)对个体x′_i进行如下的变异操作：

7.1.1)利用DSSP测定目标个体x_i的二级结构

l为目标序列的长度，

7.1.2)根据公式

计算目标个体x_i的二级结构得分，其中，

型的置信度；

7.1.3)根据能量函数计算出目标个体x_i的能量为E_i；

7.2.1)与步骤7.1.1)同理测定变异个体x″_i的二级结构

其中，

是构象x″_i中第k个序列的二级结构类型；

7.2.2)与步骤7.1.2)同理根据公式

计算变异个体x″_i的二级结构质量分数；

7.2.3)根据能量函数计算出变异个体x″_i的能量为E″_i；

以序列长度为77的α/β折叠蛋白质1vcc为实施例，运用以上方法得到了该蛋白质的近天然态构象，最小均方根偏差为

平均均方根偏差为

预测结构如图3所示。

以上说明是本发明以1vcc蛋白质为实例所得出的优化效果，并非限定本发明的实施范围，在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进，不应排除在本发明的保护范围之外。

Claims

1.一种基于二级结构知识的蛋白质构象空间优化方法，其特征在于：所述方法包括以下步骤：

1)给定输入序列信息；

2)利用PSIPRED平台预测目标蛋白的二级结构信息；

3)选取能量函数E(x)；

6)对每个目标个体x_i,i∈{i＝1,2,. ..,Psize}进行如下操作：

6.2)对个体x′_i进行如下的变异操作：

6.2.2)更新变异计数器，即Co＝Co+1；若Co＜Co_max则返回步骤6.2.1)；

否则对个体x′_i进行片段组装直接生成变异个体x″_i，并设置Co＝0；

7)对每个目标个体x_i,i∈{i＝1,2,. ..,Psize}和变异个体x″_i,i∈{i＝1,2,. ..,Psize}进行如下操作：

7.1.1)利用DSSP测定目标个体x_i的二级结构

l为目标序列的长度，

7.1.2)根据公式

计算目标个体x_i的二级结构得分，其中，

型的置信度；

7.1.3)根据能量函数计算出目标个体x_i的能量为E_i；

7.2.1)与步骤7.1.1)同理测定变异个体x″_i的二级结构

其中，

是构象x″_i中第k个序列的二级结构类型；

7.2.2)与步骤7.1.2)同理根据公式

计算变异个体x″_i的二级结构质量分数；

7.2.3)根据能量函数计算出变异个体x″_i的能量为E″_i；

7.3)根据目标个体x_i,i∈{i＝1,2,. ..,Psize}和变异个体x″_i,i∈{i＝1,2,. ..,Psize}的得分SE_i,i∈{i＝1,2,. ..,Psize}和SE″_i,i∈{i＝1,2,. ..,Psize}对所有的个体进行排名，选出得分最低的前Psize个个体进入下一代，并作为下一代的父代个体；