CN107506613B

CN107506613B - 一种基于复合结构特征的多模态蛋白质构象空间优化方法

Info

Publication number: CN107506613B
Application number: CN201710756612.7A
Authority: CN
Inventors: 张贵军; 郝小虎; 谢腾宇; 周晓根
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2020-08-18
Anticipated expiration: 2037-08-29
Also published as: CN107506613A

Abstract

一种基于复合结构特征的多模态蛋白质构象空间优化方法，包括以下步骤：基于进化算法框架，以RosettaScore3为优化目标函数，统计得到种群个体的个体距离谱，个体二级结构谱，个体二面角谱三种结构特征，通过多模态策略提高算法采样的多样性，根据结构特征选择子代个体，可以有效的弥补能量模型不精确的缺陷，通过进化迭代，可以得到精度较高的预测结构。本发明采样效率较高、复杂度较低、预测精度较高。

Description

一种基于复合结构特征的多模态蛋白质构象空间优化方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于复合结构特征的多模态蛋白质构象空间优化方法。

背景技术

生物信息学是生命科学和计算机科学交叉领域的一个研究热点。目前，根据Anfinsen假设，直接从氨基酸序列出发，基于势能模型，采用全局优化方法，搜索分子系统的最小能量状态，从而高通量、廉价地预测肽链的天然构象，已经成为生物信息学最重要的研究课题之一。对于序列相似度低或多肽(<10个残基的小蛋白)来说，从头预测方法是唯一的选择。从头预测方法必须考虑以下两个因素：(1)蛋白质结构能量函数；(2)构象空间搜索方法。第一个因素本质上属于分子力学问题，主要是为了能够计算得到每个蛋白质结构对应的能量值。目前已经存在一些较为有效的结构能量函数，如：简单网格模型HP及更实际的经验力场模型MM3，AMBER，CHARMM，GROMOS，DISCOVER，ECEPP/3等；第二个因素本质上属于全局优化问题，通过选择一种合适的优化方法，对构象空间进行快速搜索，得到与某一全局最小能量对应的构象。其中，蛋白质构象空间优化属于一类非常难解的NP-Hard问题。2005年，D.Baker在Science中指出，构象空间优化方法是制约蛋白质从头预测方法预测精度的一个瓶颈因素。

因此，现有的构象空间优化方法存在采样效率、复杂度及预测精度方面存在不足，需要改进。

发明内容

为了克服现有的蛋白质构象优化方法的采样效率较低、复杂度较高、预测精度较低的不足，本发明提出一种采样效率较高、复杂度较低、预测精度较高的基于复合结构特征的多模态蛋白质构象空间优化方法。

本发明解决其技术问题所采用的技术方案是：

一种基于复合结构特征的多模态蛋白质构象空间优化方法，所述构象空间优化方法包括以下步骤：

1)给定待预测蛋白质的氨基酸序列信息，根据给定氨基酸序列信息，利用QUARK服务器获取基于统计的二级结构谱PSS，二面角谱PDA，距离谱PD；

2)参数初始化：种群规模P_N，模态数目N_M，最大迭代次数G_max，序列长度S_L，交叉长度N_mu；

3)种群初始化：根据给定输入氨基酸序列，对P_N个个体依次进行S_L次片段组装，根据每个个体的三维结构信息统计得到对应的个体二级结构谱PrSS，个体二面角谱PrDA，个体距离谱PrD，设置每个个体为一个初始模态，并且该个体为该模态的态心；

4)开始迭代，当前迭代次数i＝1，过程如下：

4.1)如果当前模态数目>N_M，则执行模态形成过程，否则转到步骤4.2)，过程如下：

4.1.1)随机选择种群中的一个个体作为目标个体P_t；

4.1.2)对P_t做N_F次片段组装，得到变异个体P_m；

4.1.3)生成一个随机数R₁，R₁∈[1,S_L-N_mu]，其中N_mu是交叉长度；

4.1.4)对P_m和P_t做交叉操作：交换P_m和P_t的第R₁到R₁+N_mu个残基二面角，生成交叉个体P_c1和P_c2；

4.1.5)采用RosettaScore3能量函数对P_t、P_m、P_c1、P_c2进行能量评价，得到其对应的能量分值E_t，E_m，E_c1，E_c2；

4.1.6)如果E_m，E_c1，E_c2全部大于E_t，则采用能量概率模型选择接收其中一个个体，过程如下：

4.1.6.1)分别计算P_m、P_c1、P_c2的能量接收概率：

4.1.6.2)生成一个随机数R₂，分别计算p_m，p_c1，p_c2与R₂的差值，选择差值最小的对应的个体作为子代个体Pc，并取代目标个体P_t；

4.1.7)否则，选择E_m，E_c1，E_c2中最小的值对应的个体作为子代个体Pc，并取代目标个体P_t；

4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS，PrDA，PrD；

4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离H_D，确定Pc应该归属于某一个模态：取H_D值最小对应的模态为Pc所归属的模态，如果有2个以上模态H_D值同时取得最小值，则计算Pc与这些模态态心个体二面角谱之间的汉明距离H_DA，取H_DA值最小对应的模态为Pc所归属的模态，如果有2个以上模态H_DA值同时确定最小值，则计算Pc与这些模态态心个体二级结构谱之间的汉明距离H_SS，取H_SS值最小对应的模态为Pc所归属的模态，取当前模态内所有个体的质心作为当前模态的态心；

4.1.10)当前迭代次数i＝i+1；

4.1.11)返回步骤4.1)；

4.2)如果当前迭代次数i<G_max，则执行模态搜索过程，否则转到步骤5)，过程如下：

4.2.1)随机选择N_M个模态中的一个模态；

4.2.2)从选中的模态中随机选择一个个体作为目标个体P_t；

4.2.3)对P_t做N_F次片段组装，得到变异个体P_m；

4.2.4)生成一个随机数R₁'，R₁'∈[1,S_L-N_mu]，其中N_mu是交叉长度；

4.2.5)对P_m和P_t做交叉操作：交换P_m和P_t的第R₁'到R₁'+N_mu个残基二面角，生成交叉个体P_c1和P_c2；

4.2.6)采用RosettaScore3能量函数对个体P_t、P_m、P_c1、P_c2进行能量评价，得到其对应的能量分值E_t，E_m，E_c1，E_c2；

4.2.7)选择E_m，E_c1，E_c2中的最小值E_min对应的个体作为候选子代个体Pch；

4.2.8)如果E_min>E_t，则按照特征概率模型选择子代个体，过程如下：

4.2.8.1)分别计算个体P_m、P_c1、P_c2对应的特征接收概率

其中ΔH_DA ^m,ΔH_SS ^m,ΔH_D ^m分别表示个体P_m的PrD与PD之间的汉明距离，ΔH_DA ^c1,ΔH_SS ^c1,ΔH_D ^c1分别表示个体P_c1的PrDA与PDA之间的汉明距离，ΔH_DA ^c2,ΔH_SS ^c2,ΔH_D ^c2分别表示个体P_c2的PrSS与PSS之间的汉明距离，ΔH_DA ^c1,ΔH_SS ^c1,ΔH_D ^c1和ΔH_DA ^c2,ΔH_SS ^c2,ΔH_D ^c2中上角标c1，c2为个体P_c1、P_c2的标记；

4.2.8.2)选择P_m、P_c1、P_c2中最大值所对应的个体作为子代个体Pc，并取代目标个体P_t；

4.2.9)如果E_m，E_c1，E_c2中的最小值E_min<E_t，则选择Pch为子代个体Pc，并取代目标个体P_t；

4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS，PrDA，PrD；

4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离H_D，确定Pc应该归属于某一个模态：取H_D值最小对应的模态为Pc所归属的模态，如果有2个以上模态H_D值同时最小，则计算Pc与这些模态态心个体二面角谱之间的汉明距离H_DA，取H_DA值最小对应的模态为Pc所归属的模态，如果有2个以上模态H_DA值同时最小，则计算Pc与这些模态态心个体二级结构谱之间的汉明距离H_SS，取H_SS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心；

4.2.12)当前迭代次数i＝i+1；

4.2.13)返回步骤4.2)；

5)迭代结束，输出预测结构；

本发明的技术构思为：基于进化算法框架，以RosettaScore3为优化目标函数，统计得到种群个体的个体距离谱，个体二级结构谱，个体二面角谱三种结构特征，通过多模态策略提高算法采样的多样性，根据结构特征选择子代个体，可以有效的弥补能量模型不精确的缺陷，通过进化迭代，可以得到精度较高的预测结构。

本发明的有益效果为：采样效率较高、复杂度较低、预测精度较高。

附图说明

图1是优化得到的1ENH蛋白质三维结构比对示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种基于复合结构特征的多模态蛋白质构象空间优化方法，包括以下步骤：

4)开始迭代，当前迭代次数i＝1，过程如下：

4.1.1)随机选择种群中的一个个体作为目标个体P_t；

4.1.2)对P_t做N_F次片段组装，得到变异个体P_m；

4.1.6.1)分别计算P_m、P_c1、P_c2的能量接收概率：

4.1.10)当前迭代次数i＝i+1；

4.1.11)返回步骤4.1)；

4.2.1)随机选择N_M个模态中的一个模态；

4.2.2)从选中的模态中随机选择一个个体作为目标个体P_t；

4.2.3)对P_t做N_F次片段组装，得到变异个体P_m；

4.2.8.1)分别计算个体P_m、P_c1、P_c2对应的特征接收概率

4.2.12)当前迭代次数i＝i+1；

4.2.13)返回步骤4.2)；

5)迭代结束，输出预测结构；

本实施例以PDB ID为1ENH的蛋白质为实施例，一种基于复合结构特征的多模态蛋白质构象空间优化方法，包括以下步骤：

2)参数初始化：种群规模P_N＝300，模态数目N_M＝10，最大迭代次数G_max＝100000，序列长度S_L＝54，N_mu＝9；

3)种群初始化：根据给定输入氨基酸序列，对300个个体依次进行54次片段组装，根据每个个体的三维结构信息统计得到对应的个体二级结构谱PrSS，个体二面角谱PrDA，个体距离谱PrD，设置每个个体为一个初始模态，并且该个体为该模态的态心；

4)开始迭代，当前迭代次数i＝1，过程如下：

4.1.1)随机选择种群中的一个个体作为目标个体P_t；

4.1.2)对P_t做N_F次片段组装，得到变异个体P_m；

4.1.6.1)分别计算P_m、P_c1、P_c2的能量接收概率：

4.1.10)当前迭代次数i＝i+1；

4.1.11)返回步骤4.1)；

4.2.1)随机选择N_M个模态中的一个模态；

4.2.2)从选中的模态中随机选择一个个体作为目标个体P_t；

4.2.3)对P_t做N_F次片段组装，得到变异个体P_m；

4.2.8.1)分别计算个体P_m、P_c1、P_c2对应的特征接收概率

4.2.12)当前迭代次数i＝i+1；

4.2.13)返回步骤4.2)；

5)迭代结束，输出预测结构；

以PDB ID为1ENH的蛋白质为实施例，运用以上方法得到了该蛋白质的近天然态构象解，如图1所示。

以上阐述的是本发明给出的一个实施例表现出来的优良效果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。