CN109378033B

CN109378033B - 一种基于转移熵的策略自适应蛋白质构象空间优化方法

Info

Publication number: CN109378033B
Application number: CN201810994483.XA
Authority: CN
Inventors: 张贵军; 王柳静; 彭春祥; 谢腾宇; 周晓根; 胡俊
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2021-04-06
Anticipated expiration: 2038-08-29
Also published as: CN109378033A

Abstract

一种基于转移熵的策略自适应蛋白质构象空间优化方法，包括以下步骤：1)给定输入序列信息以及蛋白质力场模型；2)初始化；3)生成背景点；4)聚类操作；5)计算转移熵；6)策略自适应操作；7)选择操作；8)判断是否满足终止条件，如果满足则终止，并输出所有的最优解。该方法将构象解空间划分为对应于不同局优解的子空间，结合种群的历史进化信息建立转移熵，用以度量种群对构象解空间的探索程度，进而将整个搜索过程自适应地分为两个阶段，并采用阶段特定的构象生成策略，从而提高蛋白质结构预测方法的预测精度。本发明提供一种预测精度较高的基于转移熵的策略自适应蛋白质构象空间优化方法。

Description

一种基于转移熵的策略自适应蛋白质构象空间优化方法

技术领域

本发明涉及一种生物信息学、智能优化、计算机应用领域，尤其涉及的是一种基于转移熵的策略自适应蛋白质构象空间优化方法。

背景技术

美国国家科学院研究理事会于2009年发布了一份战略研究报告，提出“新生物学”(New Biology)时代即将来临。解决实际的医学、药学和材料学等问题，必须获取生物大分子的结构信息进行功能注解，如蛋白质只有折叠成特定的三维结构(即蛋白质三级结构)才能产生其特定的生物学功能，从而进行药物筛选或设计中用于药物分子的构型搜索及蛋白质复合结构的优化。

考虑到高性能计算技术的飞速发展，计算机辅助设计有望实现蛋白质结构的自动预测，以取代繁琐昂贵的手工预测。目前已逐渐发展成由物理学、化学、生物学、计算机和信息科学等多学科与不同课题相互交融的综合体系，并且随着预测精度以及效率的不断提高,计算机辅助设计从理论走向应用，对基因组学、药物设计、蛋白质折叠疾病、新型材料等多个领域的疑难问题提出新的解决思路。

其中，基于Anfinsen热力学假说的蛋白质构象空间优化方法被广泛应用于各种蛋白质的结构预测，通过有效的构象搜索方法来搜寻目标蛋白的天然结构。 Anfinsen热力学假说认为蛋白质的天然结构具有热稳定性，对应于蛋白质及周围溶剂分子所构成的整个体系的自由能极小点。通过蛋白质构象空间优化方法确定蛋白质的结构，由于能量模型的复杂性和不精确性，使得数学上的最优解并不一定对应其稳定的天然结构，有时局部极值解才真正与蛋白质实测基态构型吻合。并且蛋白质构象空间十分庞大，因此，一个高效的构象空间优化方法尤为重要。但是，现有的构象空间优化方法存在搜索效率低、收敛速度慢等问题，并且容易陷入局部最优，影响预测精度。

因此，目前的构象空间优化方法在搜索效率和预测精度上存在不足，需要改进。

发明内容

为了克服现有的构象空间优化方法存在搜索效率和预测精度较低的不足，本发明提出一种基于转移熵的策略自适应蛋白质构象空间优化方法，该方法将构象解空间划分为对应于不同局优解的子空间，结合种群的历史进化信息建立转移熵，用以度量种群对构象解空间的探索程度，进而将整个搜索过程自适应地分为两个阶段，并采用阶段特定的构象生成策略，以提高构象空间优化方法的搜索效率以及预测精度。

本发明解决其技术问题所采用的技术方案是：

一种基于转移熵的策略自适应蛋白质构象空间优化方法，所述方法包括以下步骤：

1)给定输入序列信息，以及蛋白质力场模型，即能量函数Rosetta Score3；

2)初始化：迭代Rosetta协议第一、二阶段，产生具有NP个构象的种群P^g，记为

i∈{1,2,…,NP}，其中

为第g代种群的第i 个构象，初始化迭代次数g＝0；

3)使种群P^g进行初步探测，迭代n次后生成背景点种群B^g，过程如下：

3.1)给定初始点

置i＝1，则

的搜索方向为

其中

为

的梯度，

为满足拟牛顿条件的矩阵，

的搜索步长

满足

当m＝1时，

为单位矩阵，故

经探测后得到

3.2)i＝i+1，重复步骤3.1)直至i＝NP完成第g代种群P^g的一次探测，重置 i＝1；

3.3)计算

当m≠1时，拟牛顿矩阵

的计算公式如下所示：

而

的搜索方向和搜索步长同步骤3.1)，故

经探测后得

3.4)i＝i+1，重复步骤3.3)直至i＝NP完成第g代种群P^g的再一次探测，重置i＝1；

3.5)m＝m+1，重复步骤3.3)-3.4)直至m＝n完成第g代种群P^g的n次探测，生成背景点种群B^g；

4)采用K-medoids方法对背景点种群B^g进行聚类，得到K个类，其中聚类依据为不同构象之间的均方根偏差RMSD值；

5)计算种群P^g的转移熵

过程如下：

5.1)当g＝0时，记E^g＝0；

5.2)当g≠0时，依据构象的时序关系，统计相邻两代种群P^g-1和P^g中从第 i类转移至第j类的概率，记为z_ij，从而构建转移矩阵Z＝[z_ij]_K×K，其中 i和j均∈{1,2,...,K}；

5.3)根据公式

计算熵值，并根据公式

归一化得到转移熵

其中E_min＝0，

6)根据前后两代的转移熵实现策略自适应操作，过程如下：

6.1)在[0,L-9]内生成均匀随机整数rand1、rand2和rand3，其中L表示氨基酸序列长度；

6.2)当

时，从种群P^g中选定目标构象

并从种群P^g中随机选择构象

r₁≠r₂≠i，将

的第rand1至rand1+8号残基的二面角值替换成

对应残基号的二面角值，将

的第rand2至rand2+8号残基的二面角值替换成

对应残基号的二面角值，生成变异个体

再将

的第rand3至rand3+8号残基的二面角值替换成变异个体

对应残基号的二面角值，生成试验个体

6.3)当

时，从种群P^g中选定目标构象

并从种群P^g中选择最优和次优构象

将

的第rand1至rand1+8号残基的二面角值替换成

对应残基号的二面角值，将

的第rand2至rand2+8号残基的二面角值替换成

对应残基号的二面角值，生成变异个体

再将

的第rand3至rand3+8号残基的二面角值替换成变异个体

对应残基号的二面角值，生成试验个体

7)选择操作：用Rosetta score3能量函数计算

和

的能量，根据Metropolis准则决定是否用

替换

8)判断是否满足终止条件，若满足则输出结果并退出，否则g＝g+1并返回步骤5)。

进一步，所述步骤2)中，设置最大迭代次数G_max，所述步骤8)中，终止条件为迭代次数g达到预设最大迭代次数G_max，若满足根据Rosetta聚类算法对种群P^g中的构象聚类，选出最大类的类心构象作为最终预测结果。

本发明的技术构思为：首先，采用拟牛顿方法使得初始构象种群对构象解空间进行初步探测，生成背景点构象；其次，采用k-mediods方法对背景点构象进行聚类，将构象解空间划分为对应不同局优解的子空间；然后，结合种群的历史进化信息，建立转移熵以表征种群对构象解空间的探索程度；最后，根据转移熵将整个搜索过程动态划分为两阶段，并采用阶段特定的构象生成策略实现种群的更新。

本发明的有益效果表现在：基于拟牛顿方法的确定性特点，实现初始种群对构象解空间的初步探测，生成背景点并通过聚类获得对构象解空间的划分，从而结合种群的历史进化信息建立转移熵，一方面，通过转移熵评价对构象解空间的探索程度，以实现对整个搜索过程的自适应划分，另一方面，针对不同阶段采用特定的构象生成策略，能够平衡全局探测和局部增强能力，从而提高搜索效率及预测精度。

附图说明

图1是基于转移熵的策略自适应蛋白质构象空间优化方法对蛋白质1ENH进行结构预测时的流程图；

图2是基于转移熵的策略自适应蛋白质构象空间优化方法对蛋白质1ENH进行结构预测时的构象更新示意图；

图3是基于转移熵的策略自适应蛋白质构象空间优化方法对蛋白质1ENH预测得到的三维结构。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于转移熵的策略自适应蛋白质构象空间优化方法，包括以下步骤：

i∈{1,2,…,NP}，其中

为第g代种群的第i 个构象，初始化迭代次数g＝0；

3.1)给定初始点

置i＝1，则

的搜索方向为

其中

为

的梯度，

为满足拟牛顿条件的矩阵，

的搜索步长

满足

当m＝1时，

为单位矩阵，故

经探测后得到

3.3)计算

当m≠1时，拟牛顿矩阵

的计算公式如下所示：

而

的搜索方向和搜索步长同步骤3.1)，故

经探测后得到

5)计算种群P^g的转移熵

过程如下：

5.1)当g＝0时，记E^g＝0；

5.3)根据公式

计算熵值，并根据公式

归一化得到转移熵

其中E_min＝0，

6)根据前后两代的转移熵实现策略自适应操作，过程如下：

6.2)当

时，从种群P^g中选定目标构象

并从种群P^g中随机选择构象

r₁≠r₂≠i，将

的第rand1至rand1+8号残基的二面角值替换成

对应残基号的二面角值，将

的第rand2至rand2+8号残基的二面角值替换成

对应残基号的二面角值，生成变异个体

再将

的第rand3至rand3+8号残基的二面角值替换成变异个体

对应残基号的二面角值，生成试验个体

6.3)当

时，从种群P^g中选定目标构象

并从种群P^g中选择最优和次优构象

将

的第rand1至rand1+8号残基的二面角值替换成

对应残基号的二面角值，将

的第rand2至rand2+8号残基的二面角值替换成

对应残基号的二面角值，生成变异个体

再将

的第rand3至rand3+8号残基的二面角值替换成变异个体

对应残基号的二面角值，生成试验个体

7)选择操作：用Rosetta score3能量函数计算

和

的能量，根据Metropolis准则决定是否用

替换

本实施例序列长度为54的α折叠蛋白质1ENH为实施例，一种基于转移熵的策略自适应蛋白质构象空间优化方法，其中包含以下步骤：

2)初始化：迭代Rosetta协议第一、二阶段，产生具有NP＝50个构象的种群P^g，记为

i∈{1,2,…,NP}，其中

为第g代种群的第i 个构象，初始化迭代次数g＝0；

3)使种群P^g进行初步探测，迭代n＝100次后生成背景点种群B^g，过程如下：

3.1)给定初始点

置i＝1，则

的搜索方向为

其中

为

的梯度，

为满足拟牛顿条件的矩阵，

的搜索步长

满足

当m＝1时，

为单位矩阵，故

经探测后得到

3.3)计算

当m≠1时，拟牛顿矩阵

的计算公式如下所示：

而

的搜索方向和搜索步长同步骤3.1)，故

经探测后得到

4)采用K-medoids方法对背景点种群B^g进行聚类，得到K＝7个类，其中聚类依据为不同构象之间的均方根偏差RMSD值；

5)计算种群P^g的转移熵

过程如下：

5.1)当g＝0时，记E^g＝0；

5.3)根据公式

计算熵值，并根据公式

归一化得到转移熵

其中E_min＝0，

6)根据前后两代的转移熵实现策略自适应操作，过程如下：

6.2)当

时，从种群P^g中选定目标构象

并从种群P^g中随机选择构象

r₁≠r₂≠i，将

的第rand1至rand1+8号残基的二面角值替换成

对应残基号的二面角值，将

的第rand2至rand2+8号残基的二面角值替换成

对应残基号的二面角值，生成变异个体

再将

的第rand3至rand3+8号残基的二面角值替换成变异个体

对应残基号的二面角值，生成试验个体

6.3)当

时，从种群P^g中选定目标构象

并从种群P^g中选择最优和次优构象

将

的第rand1至rand1+8号残基的二面角值替换成

对应残基号的二面角值，将

的第rand2至rand2+8号残基的二面角值替换成

对应残基号的二面角值，生成变异个体

再将

的第rand3至rand3+8号残基的二面角值替换成变异个体

对应残基号的二面角值，生成试验个体

7)选择操作：用Rosetta score3能量函数计算

和

的能量，根据Metropolis准则决定是否用

替换

进一步，所述步骤2)中，设置最大迭代次数G_max＝1000，所述步骤8)中，终止条件为迭代次数g达到预设最大迭代次数G_max＝1000，若满足根据Rosetta聚类算法对种群P^g中的构象聚类，选出最大类的类心构象作为最终预测结果

以序列长度为54的α折叠蛋白质1ENH为实施例，运用以上方法得到了该蛋白质的近天然态构象，最小均方根偏差为

平均均方根偏差为

构象更新图如图2所示，三维结构图如图3所示。

以上阐述的是本发明给出的一个实施例表现出来的优良优化效果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种基于转移熵的策略自适应蛋白质构象空间优化方法，其特征在于：所述方法包括以下步骤：

其中

为种群P^g的第i个构象，初始化迭代次数g＝0；

3.1)给定初始点

置i＝1，则

的搜索方向为

其中

为

的梯度，

为满足拟牛顿条件的矩阵，

的搜索步长

满足

当m＝1时，

为单位矩阵，故

经探测后得到

3.2)i＝i+1，重复步骤3.1)直至i＝NP完成第g代种群P^g的一次探测，重置i＝1；

3.3)计算

当m≠1时，拟牛顿矩阵

的计算公式如下所示：

而

的搜索方向和搜索步长同步骤3.1)，故

经探测后得

5)计算种群P^g的转移熵

过程如下：

5.1)当g＝0时，记E^g＝0；

5.2)当g≠0时，依据构象的时序关系，统计相邻两代种群P^g-1和P^g中从第i类转移至第j类的概率，记为z_ij，从而构建转移矩阵Z＝[z_ij]_K×K，其中i和j均∈{1,2,...,K}；

5.3)根据公式

计算熵值，并根据公式

归一化得到转移熵

其中E_min＝0，

6)根据前后两代的转移熵实现策略自适应操作，过程如下：

6.2)当

时，从种群P^g中选定第i个构象

并从种群P^g中随机选择构象

将

的第rand1至rand1+8号残基的二面角值替换成

对应残基号的二面角值，将

的第rand2至rand2+8号残基的二面角值替换成

对应残基号的二面角值，生成变异个体

再将

的第rand3至rand3+8号残基的二面角值替换成变异个体

对应残基号的二面角值，生成试验个体

6.3)当

时，从种群P^g中选定第i个构象

并从种群P^g中选择最优和次优构象

将

的第rand1至rand1+8号残基的二面角值替换成

对应残基号的二面角值，将

的第rand2至rand2+8号残基的二面角值替换成

对应残基号的二面角值，生成变异个体

再将

的第rand3至rand3+8号残基的二面角值替换成变异个体

对应残基号的二面角值，生成试验个体

7)选择操作：用Rosetta score3能量函数计算

和

的能量；根据Metropolis准则决定是否用

替换

8)判断是否满足终止条件，若满足则输出结果并退出，否则g＝g+1并返回步骤5)；

所述步骤2)中，设置最大迭代次数G_max，所述步骤8)中，终止条件为迭代次数g达到预设最大迭代次数G_max，若满足根据Rosetta聚类算法对种群P^g中的构象聚类，选出最大类的类心构象作为最终预测结果。