CN106503484B

CN106503484B - 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法

Info

Publication number: CN106503484B
Application number: CN201610845314.0A
Authority: CN
Inventors: 张贵军; 周晓根; 郝小虎; 王柳静; 俞旭锋; 徐东伟; 李章维
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2016-09-23
Filing date: 2016-09-23
Publication date: 2019-07-05
Anticipated expiration: 2036-09-23
Also published as: CN106503484A

Abstract

一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法，首先，计算当前种群中各构象个体到新构象的距离，并根据距离进行升序排列；然后，选取新构象个体的部分邻近构象个体抽象凸下界估计支撑面，以获取新构象个体的能量下界估计值；其次，计算所有新构象个体的能量下界估计值与实际能量值之间的平均估计误差，并根据平均估计误差的变化将整个算法分为多个优化阶段；最后，根据上一次迭代中的平均估计误差判断当前迭代所处的阶段，并对各阶段设计不同的策略生成新构象个体。本发明提出一种预测精度高、计算代价低的基于群体抽象凸估计的多阶段差分进化蛋白质结构预测方法。

Description

一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法

技术领域

本发明涉及一种生物学信息学、智能优化、计算机应用领域，尤其涉及的是，一种基于抽象凸估计的多阶段差分进化蛋白质预测方法。

背景技术

蛋白质是所有生物中最重要的大分子之一，一个细胞的干重的一半以上是蛋白质。蛋白质是由单一的肽键连接在一起的氨基酸的顺序链，这些连接的链折叠成能体现它们功能的三维结构，并调节生物体中的细胞活动，以保持生命。蛋白质分子在分子水平上具体体现了蛋白质结构和功能之间的显著关系。蛋白质在生物学中有许多不同的功能。蛋白质的三维天然结构决定它的生物学机制，而反过来，蛋白质氨基酸单体的一维链又对它的天然结构进行编码。蛋白质的三维结构在药物设计、蛋白质工程和生物技术中具有决定性的重要，因此，蛋白质结构预测是一个重要的研究问题。

蛋白质结构实验测定方法包括X射线晶体学、核磁共振光谱、和电子显微镜等，这些方法被广泛用于蛋白质结构测定。X射线晶体学被认为是这些方法中相对可行且准确的测定方法之一。然而，X射线晶体学需要进行一个复杂的结晶过程，而对于一些不易结晶的蛋白(如膜蛋白)，此方法无法用于结构测定。此外，这些实验测定方法极其耗时，代价昂贵，而且容易发生错误。

Anfinsen热力学假说表明：蛋白质的空间结构由氨基酸序列唯一确定；蛋白质的空间结构是稳定的；蛋白质的天然构象处于自由能最低点。根据Anfinsen原则，以计算机为工具，运用适当的算法，从氨基酸序列出发直接预测蛋白质的三维结构，成为当前生物信息学中一种主要的研究课题。在上世纪文献中，通常将预测方法划分为以下三类：针对高相似序列的同源建模方法；针对较低相似性序列的折叠识别方法；以及不依赖模板的从头预测方法。从头预测方法直接基于Anfinsen假说建立蛋白质物理或知识能量模型，然后设计适当优化算法求解最小能量构象。一方面，从生物学意义上来讲，有助于揭示蛋白质折叠机理，进而能够最终阐明生物学中心法则中的第二遗传密码理论部分；另一方面，从现实意义来讲，该方法具有普遍性，对于序列相似度<20％或寡肽(<10个残基的小蛋白)来说，从头预测方法是唯一的选择。

进化类算法是研究蛋白质分子构象优化的重要方法，主要包括遗传算法、差分进化算法。这些算法以结构简单，易于实现，收敛速度快，以及鲁棒性强等优点被用于从头预测方法中的全局最小能量构象搜索。然后随着蛋白质规模的增大，现有方法在稳定性、高效性、广普性和易用性等方面还远不能满足实际求解需求。例如，由于能量模型曲面的复杂性，算法容易早熟收敛，而无法得到全局最低能量构象，从而影响预测精度。而且传统的进化类算法中没有适当应用片段组装技术，导致其搜索空间极其庞大，计算代价较高。

因此，现有的构象空间优化方法在预测精度和计算代价方面存在着缺陷，需要改进。

发明内容

为了克服现有的蛋白质结构预测方法在预测精度和计算代价方面的不足，本发明提出一种预测精度高、计算代价低的基于群体抽象凸估计的多阶段差分进化蛋白质结构预测方法。

本发明解决其技术问题所采用的技术方案是：

一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法，所述方法包括以下步骤：

1)选取蛋白质力场模型，即能量函数E(X)；

2)给定输入序列信息；

3)初始化：种群规模NP，交叉概率CR，阶段控制参数μ，支撑面斜率控制因子M；根据输入序列产生初始构象种群其中，N表示维数，表示第i个构象Cⁱ的第N维坐标，并初始化迭代次数G＝0；

4)随机生成正整数rand1，rand2，rand3均∈{1,2,3,......NP}，且rand1≠rand2≠rand3；再生成4个随机整数randrange1，randrange2，randrange3，randrange4；其中randrange1，randrange2，randrange3，randrange4均∈{1,2,…,L}，randrange1≠randrange2，randrange3≠randrange4,L为序列长度；令a＝min(randrange1,randrange2)，b＝max(randrange1,randrange2)，k∈[a,b]；令c＝min(randrange3,randrange4)，d＝max(randrange3,randrange4)，p∈[c,d]；其中min表示取两个数的最小值，max表示取两个数的最大值；

5)如果G＝0，对于当前种群中的每个构象个体Cⁱ，i∈{1,2,3,…,NP}，令C_target＝Cⁱ，C_target表示目标构象个体，执行如下操作生成测试构象个体C_trial：

5.1)用C_rand2上位置a到位置b的片段的氨基酸k所对应的二面角替换C_rand1的相同位置所对应的二面角；再使用C_rand3上位置c到位置d的片段的氨基酸p所对应的二面角替换C_rand1上相同位置所对应的二面角，然后将所得C_rand1进行片段组装得到变异构象个体C_mutant；

5.2)生成随机数rand4，rand5，其中rand4∈(0,1)，rand5∈(1,L)，若rand4≤CR，则利用目标构象C_target中的rand5片段替换变异构象C_mutant中的rand5片段，从而生成测试构象C_trial；若rand4＞CR，则C_trial直接等于变异构象C_mutant；

6)如果G>0，则执行如下阶段性操作：

6.1)计算第G-1次迭代中生成的每个测试构象个体的能量下界估计值：

6.1.1)计算当前种群中每个构象个体到测试构象个体之间的距离其中表示第i个构象Cⁱ的第j维坐标，表示测试构象C_trial的第j维坐标，dⁱ表示第i个构象Cⁱ到测试构象的距离；

6.1.2)根据距离对所有构象进行升序排列，选取前两个构象个体并记为并计算其下界估计支撑面：

其中，为所选构象的能量函数值，为所选构象个体的第j维为坐标，为辅助变量，M为支撑面斜率控制因子；

6.1.3)计算测试构象C_trial的能量下界估计值其中max表示求最大值，min表示求最小值，为测试构象向量的第j维元素，为下界估计支撑面l^t的第j维元素；

6.2)计算所有测试构象的平均估计误差其中表示第i个测试构象的能量下界估计值，表示第i个测试构象的实际能量函数值，如果G＝0，则最大平均估计误差为UE_max；

6.3)对平均估计误差UE进行归一化处理，UE的归一化值为其中UE_min＝0为最小平均估计误差；

6.4)根据归一化平均估计误差值判断算法所处的阶段，并采样不同的策略生成变异构象C_mutant：

6.4.1)如果则用C_rand1上位置a到位置b的片段的氨基酸k所对应的二面角替换C_target的相同位置所对应的二面角；再使用C_rand2上位置c到位置d的片段的氨基酸所对应的二面角替换C_target上相同位置所对应的二面角，然后将所得C_target进行片段组装得到变异构象C_mutant，其中μ为阶段控制参数；

6.4.2)如果则根据如下操作生成变异构象C_mutant：

a)根据能量函数值对当前种群中的构象个体进行降序排列，选取前NP/5个构象并计算所选构象的质心构象C_centroid＝(x_centroid,1,x_centroid,2,…,x_centroid,N)，其中，构象C_centroid的第j维元素表示第m个选取构象的第N维坐标，为构象的实际能量函数值；

b)从当前种群中随机选取两个不同的构象C_rand1和C_rand2，其中rand1,rand2均∈[1,NP]，rand1≠rand2，提取构象C_rand1位置a到位置b的片段的氨基酸所对应的二面角替换质心构象C_centroid的相同位置所对应的二面角，同时使用C_rand2上位置c到位置d的片段的氨基酸所对应的二面角替换质心构象C_centroid相同位置所对应的二面角，然后将所得C_centroid进行片段组装得到变异构象个体C_mutant；

6.4.3)如果找出当前种群中能量最低的构象C_best，用C_best上位置a到位置b的片段的氨基酸k所对应的二面角替换C_target的相同位置所对应的二面角；再使用C_rand1上位置c到位置d的片段的氨基酸p所对应的二面角替换C_target上相同位置所对应的二面角，然后将所得C_target进行片段组装得到变异构象个体C_mutant；

6.4.4)根据步骤5.2)生成测试构象个体C_trial；

7)分别计算目标构象和测试构象的能量函数值f(C_target)和f(C_trial)，如果f(C_trial)＜f(C_target)，则测试构象个体替换目标构象个体；

8)判断是否满足终止条件，若满足则输出结果并退出，否则返回步骤4)。

进一步，所述步骤8)中，对种群中的每个构象个体都执行完步骤4)—8)以后，迭代次数G＝G+1，终止条件为迭代次数G达到预设最大迭代次数G_max。

本发明的技术构思为：首先，计算当前种群中各构象个体到新构象的距离，并根据距离进行升序排列；然后，对新构象个体的邻近构象个体抽象凸下界估计支撑面，以获取新构象个体的能量下界估计值；其次，计算所有新构象个体的能量下界估计值与实际能量值之间的平均估计误差，并根据平均估计误差的变化将整个算法分为多个优化阶段；最后，根据上一次迭代中的平均估计误差判断当前迭代所处的阶段，并对各阶段设计不同的策略生成新构象个体。

本发明的有益效果表现在：一方面，根据平均估计误差的变化判断算法所处的阶段，从而设计不同的策略生成新构象个体，不仅可以加快算法的收敛速度，而且可以提高预测精度；另一方面，在各阶段的策略中选用不同个体的信息进行片段组装，缩小了搜索空间，从而降低了计算代价。

附图说明

图1是基于抽象凸估计的多阶段差分进化蛋白质结构预测方法的基本流程图。

图2是基于抽象凸估计的多阶段差分进化蛋白质结构预测方法对蛋白质1ENH进行结构预测时的构象更新示意图。

图3是基于抽象凸估计的多阶段差分进化蛋白质结构预测方法对蛋白质1ENH进行结构预测时得到的构象分布图。

图4是基于抽象凸估计的多阶段差分进化蛋白质结构预测方法对蛋白质1ENH进行结构预测得到的三维结构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法，包括以下步骤：

1)选取蛋白质力场模型，即能量函数E(X)；

2)给定输入序列信息；

6)如果G>0，则执行如下阶段性操作：

其中，为所选构象的能量函数值，为所选构象个体的第j维坐标，为辅助变量，M为支撑面斜率控制因子；

6.4.2)如果则根据如下操作生成变异构象C_mutant：

6.4.4)根据步骤5.2)生成测试构象个体C_trial；

进一步，所述步骤8)中，对种群中的每一个个体都执行完步骤4)—8)以后，迭代次数G＝G+1，终止条件为迭代次数G达到预设最大迭代次数G_max。

本实施例序列长度为54的α折叠蛋白质1ENH为实施例，一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法，其中包含以下步骤：

1)选取蛋白质力场模型Rosetta Score3，即Rosetta Score3能量函数E(X)；

2)给定1ENH蛋白质的序列信息；

3)初始化：种群规模NP＝50，交叉概率CR＝0.5，阶段控制参数μ＝0.85，支撑面斜率控制因子M＝1000，最大迭代次数G_max＝10000；根据输入序列产生初始构象种群其中，N表示维数，表示第i个构象Cⁱ的第N维坐标，并初始化迭代次数G＝0；

4)随机生成正整数rand1,rand2,rand3∈{1,2,3,......NP}，且rand1≠rand2≠rand3≠i；再生成4个随机整数randrange1,randrange2,randrange3,randrange4；其中randrange1,randrange2,randrange3,randrange4均∈{1,2,…,L}，randrange1≠randrange2，randrange3≠randrange4,L为序列长度；令a＝min(randrange1,randrange2)，b＝max(randrange1,randrange2)，k∈[a,b]；令c＝min(randrange3,randrange4)，d＝max(randrange3,randrange4)，p∈[c,d]；其中min表示取两个数的最小值，max表示取两个数的最大值；

6)如果G>0，则执行如下阶段性操作：

6.1.3)计算测试构象C_trial的能量下界估计值其中max表示求最大值，min表示求最小值，为测试构象向量的第j维元素，为支撑向量l^k的第j维元素；

6.4.2)如果则根据如下操作生成变异构象C_mutant：

6.4.4)根据步骤5.2)生成测试构象个体C_trial；

8)对种群中的每一个个体都执行完步骤4)—8)以后，迭代次数G＝G+1，判断G是否大于G_max，若G大于G_max，则输出结果并退出，否则返回步骤4)。

以序列长度为54的α折叠蛋白质1ENH为实施例，运用以上方法得到了该蛋白质的近天然态构象，最小均方根偏差为平均均方根偏差为预测结构如图4所示。

以上说明是本发明以1ENH蛋白质为实例所得出的优化效果，并非限定本发明的实施范围，在不偏离本发明基本内容所涉及范围的的前提下对其做各种变形和改进，不应排除在本发明的保护范围之外。

Claims

1.一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法，其特征在于：所述蛋白质结构预测方法包括以下步骤：

1)选取蛋白质力场模型，即能量函数E(X)；

2)给定输入序列信息；

6)如果G>0，则执行如下阶段性操作：

6.4.2)如果则根据如下操作生成变异构象C_mutant：

6.4.4)根据步骤5.2)生成测试构象个体C_trial；

2.如权利要求1所述的一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法，其特征在于：所述步骤8)中，对种群中的每一个个体都执行完步骤4)—8)以后，迭代次数G＝G+1，终止条件为迭代次数G达到最大迭代次数G_max。