CN106096328B

CN106096328B - 一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法

Info

Publication number: CN106096328B
Application number: CN201610265960.XA
Authority: CN
Inventors: 张贵军; 周晓根; 俞旭锋; 郝小虎; 王柳静; 徐东伟; 李章维
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2016-04-26
Filing date: 2016-04-26
Publication date: 2018-09-07
Anticipated expiration: 2036-04-26
Also published as: CN106096328A

Abstract

一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法，首先，根据能量值选取当前种群中的最优构象，计算其他构象到最优构象的距离，并根据距离对所有构象进行排名；然后，选取离最优构象最近的部分构象建立Lipschitz下界支撑面，计算所选取的构象的能量下界估计值，并计算实际能量值与下界估计值的平均误差；最后，根据平均误差将算法分为两层，第一层随机选取构象进行片段组装生成新构象，第二层则根据最优构象进行片段组装生成新构象，从而引导算法快速可靠地向能量最低的区域收敛。本发明预测精度高、计算代价较低。

Description

一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法

技术领域

本发明涉及一种生物学信息学、智能优化、计算机应用领域，尤其涉及的是，一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法。

背景技术

人类基因组计划的顺利实施，标志人类基因组DNA的30亿个碱基对序列测序工作已经基本完成。十几年以来，人类基因组计划不断深化人类对自身和疾病的认识，对生物学、医学、数学和计算机科学带来了深远影响。然而迄今为止，尚未呈现美国前总统克林顿当时所描绘的蓝图：“彻底改变我们对绝大多数疾病的诊断、预防和治疗手段”。事实上，基因图谱仅描绘了蛋白质氨基酸序列(即蛋白质一级结构)，蛋白质只有折叠成特定的三维结构(即蛋白质三级结构)才能产生其特定的生物学功能。因此，为了解蛋白质的功能，就必须获得其三维空间结构，这样才能真正实现基因诊断，并最终达到基因治疗的目的。

蛋白质结构实验测定方法是结构基因组学研究的主要内容。X射线晶体学是测定蛋白质结构最有效的方法，所能达到的精度是其它方法所不能比拟的，缺点主要是蛋白质晶体难以培养且晶体结构测定的周期较长；多维核磁共振(NMR)方法可以直接测定蛋白质在溶液中的构象，但是由于对样品的需要量大、纯度要求高，目前只能测定小分子蛋白质。总体上，结构实验测定方法主要存在两方面问题：一方面，对于现代药物设计的主要靶标膜蛋白而言，通过实验方法极难获得其结构；另一方面，测定过程费时费钱费力，比如，使用NMR方法测定一个蛋白质通常需要15万美元以及半年的时间。因此，如何使得根据Anfinsen原则，以计算机为工具，运用适当的算法，从氨基酸序列出发直接预测蛋白质的三维结构，成为当前生物信息学中一种主要的研究课题。

从头预测方法实质上就是利用计算机的快速处理能力，利用优化算法在蛋白质构象空间搜索全局最低能量构象解。蛋白质能量模型考虑分子体系成键作用以及范德华力、静电、氢键、疏水等非成键作用，致使其形成的能量曲面极其粗糙，构象对应局部极小解数目随序列长度的增加呈指数增长，属于一类非常难解的NP-hard问题。从头预测方法通过能量函数来评价构象的质量，并利用优化算法来搜索构象。根据Anfinsen原则，能量函数引导算法向低能量的区域搜索，从而获取能量最低的构象。因此，从头预测方法最主要的问题就是设计一种可靠、有效的优化算法来寻找能量函数的全局最优解。

群体进化类算法是研究蛋白质分子构象优化的重要方法，主要包括遗传算法(GA)、差分进化算法(DE)，这些算法不仅结构简单，易于实现，而且鲁棒性强，因此，经常被用于从头预测方法中的全局最小能量构象搜索。然后随着序列长度的增长，蛋白质的能量模型曲面越来越复杂，从而导致群体算法容易陷入局部最优，而无法精确的搜索到最低能量构象，从而降低了预测精度。而且目前单纯的进化类算法中没有适当应用片段组装这一有效的技术，导致其搜索空间极其庞大，计算代价较大。

因此，现有的基于群体算法的蛋白质结构预测方法在预测精度和计算代价方面存在着缺陷，需要改进。

发明内容

为了克服现有的蛋白质结构预测方法在预测精度和计算代价方面的不足，本发明基于抽象凸理论和片段组装技术，提出一种预测精度高、计算代价较低的基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法。

本发明解决其技术问题所采用的技术方案是：

一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法，所述方法包括以下步骤：

1)选取力场模型：

采用Rosetta力场模型能量函数的表示形式如下

式中，E表示蛋白质的总能量，E_interrep表示范德华排斥力作用，E_interatr表示范德华吸引力作用,E_solvation为Lazarids和Karplus描述的隐含的溶解作用，E_{bb/sc hb}、E_{bb/bb hb}和E_{sc/sc hb}为依赖方向的氢键能量，E_pair残基对静电作用，E_dunbrack为氨基酸基于旋转异构体库的内部的能量，E_rama为参考特定位置的Ramachandrin骨链扭力，E_reference为未折叠态的蛋白质的参考能量，W_{inter rep}、W_{inter atr}、W_solvation为E_{inter rep}、E_{inter atr}、E_solvation的能量项权重，W_{bb/sc hb}、W_{bb/bb hb}和W_{sc/sc hb}分别为E_{bb/sc hb}、E_{bb/bb hb}和E_{sc/sc hb}的能量项权重，W_pair、W_dunbrack、W_rama和W_reference分别为E_pair、E_dunbrack、E_rama和E_reference的能量项权重；

2)给定输入序列信息；

3)设置参数：能量函数的各能量项权重值，种群大小NP，交叉因子CR，常数M；

4)种群初始化：由输入序列产生初始构象种群其中，N表示维数，表示第i个构象Cⁱ的第N维元素，并初始化迭代次数G＝0；

5)根据式(1)计算当前种群中的每个构象的能量值f(Cⁱ)＝E(Cⁱ)，选取能量最低的构象C_best＝(x_best,1,x_best,2,…,x_best,N)，计算其他构象Cⁱ到C_best的欧式距离其中，为第i个构象Cⁱ的第j维元素，x_best,j为C_best的第j维元素；

6)根据各构象的欧式距离dⁱ进行升序排列，选取排名前NP/5的构象C^k,k＝1,…,NP/5，对选取的每个构象构建Lipschitz下界估计支撑面其中，f(C^k)为构象C^k的能量函数值，为辅助变量，M为常数；

7)根据所构建的下界估计支撑面计算所选取的NP/5个构象的下界估计值其中max表示求最大值，min表示求最小值，为支撑向量l^k的第j维元素；

8)计算所选取的NP/5个构象C^k的下界估计值和实际能量值f(C^k)之间的平均误差

9)针对种群中的每个构象个体Cⁱ，i∈{1,2,3,…,NP}，令C_target＝Cⁱ，C_target表示目标构象个体，执行以下操作生成变异构象C_mutant：

9.1)随机生成正整数rand1,rand2,rand3∈{1,2,3,......NP}，且rand1≠rand2≠rand3≠i；再生成4个随机整数randrange1,randrange2,randrange3,randrange4；其中randrange1≠randrange2，randrange3≠randrange4∈{1,2,…,L},L为序列长度；

9.2)令a＝min(randrange1,randrange2)，b＝max(randrange1,randrange2)，s∈[a,b]；令c＝min(randrange3,randrange4)，d＝max(randrange3,randrange4)，p∈[c,d]；其中min表示取两个数的最小值，max表示取两个数的最大值；

9.3)如果σ＞0.5，可以判定处于第一层搜索，用C_rand2上位置a到位置b的片段的氨基酸s所对应的二面角phi、psi、omega替换C_rand1的相同位置所对应的二面角phi、psi、omega；再使用C_rand3上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换C_rand1上相同位置所对应的二面角phi、psi、omega，然后将所得C_rand1进行片段组装得到变异构象个体C_mutant；

9.4)如果σ≤0.5，可以判定处于第二层搜索，则用C_rand1上位置a到位置b的片段的氨基酸s所对应的二面角phi、psi、omega替换C_best的相同位置所对应的二面角phi、psi、omega；再使用C_rand2上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换C_best上相同位置所对应的二面角phi、psi、omega，然后将所得C_best进行片段组装得到变异构象个体C_mutant；

10)对变异构象C_mutant执行交叉操作生成测试构象C_trial：

10.1)生成随机数rand4，rand5，其中rand4∈(0,1)，rand5∈(1,L)；

10.2)若随机数rand4≤CR，C_trial由变异构象C_mutant的片段rand5替换为目标构象C_target中对应的片段生成，否则C_trial直接等于变异构象C_mutant；

11)如果f(C_trial)＜f(C_target)，则测试构象C_trial替换目标构象C_target；

12)判断是否满足终止条件，若满足则输出结果并退出，否则返回步骤5)。

进一步，所述步骤3)中，设置的参数还包括最大迭代次数；所述步骤12)中，对种群中的每个构象个体都执行完步骤5)-11)以后，迭代次数G＝G+1，终止条件为迭代次数G达到预设最大迭代次数。

本发明的技术构思为：首先，根据能量值选取当前种群中的最优构象，计算其他构象到最优构象的距离，并根据距离对所有构象进行排名；然后，选取离最优构象最近的部分构象建立Lipschitz下界支撑面，计算所选取的构象的能量下界估计值，并计算实际能量值与下界估计值的平均误差；最后，根据平均误差将算法分为两层，第一层随机选取构象进行片段组装生成新构象，第二层则根据最优构象进行片段组装生成新构象，从而引导算法快速可靠地向能量最低的区域收敛。

本发明的有益效果表现在：一方面，根据实际能量函数值和Lipschitz下界估计值的平均误差将算法分为两层，从而在各层利用不同的进化信息生成新构象个体，提高了构象的质量和算法收敛速度和可靠性；另一方面，片段组装技术生成新构象，减小了搜索空间，降低了计算代价。

附图说明

图1是基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法对蛋白质1AIL进行结构预测时的构象更新示意图。

图2是基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法对蛋白质1AIL进行结构预测时得到的构象分布图。

图3是基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法对蛋白质1AIL预测得到的三维结构。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1-3，一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法，包括以下步骤：

1)选取力场模型：

采用Rosetta力场模型能量函数的表示形式如下

2)给定输入序列信息；

10)对变异构象C_mutant执行交叉操作生成测试构象C_trial：

10.1)生成随机数rand4，rand5，其中rand4∈(0,1)，rand5∈(1,L)；

本实施例序列长度为73的α折叠蛋白质1AIL为实施例，一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法，其中包含以下步骤：

1)选取力场模型：

采用Rosetta力场模型能量函数的表示形式如下

2)给定输入序列1AIL；

3)设置参数：能量函数的各能量项权重值，种群大小NP＝50，交叉因子CR＝0.5，常数M＝1000，最大迭代次数10000；

5)根据式(1)计算当前种群中的每个构象的能量值f(Cⁱ)＝E(Cⁱ)，选取能量最低的构象C_best＝(x_best，1,x_best，2,…,x_best，N)，计算其他构象Cⁱ到C_best的欧式距离其中，为第i个构象Cⁱ的第j维元素，x_best,j为C_best的第j维元素；

10)对变异构象C_mutant执行交叉操作生成测试构象C_trial：

10.1)生成随机数rand4，rand5，其中rand4∈(0,1)，rand5∈(1,L)；

12)对种群中的每个构象个体都执行完步骤5)-11)以后，迭代次数G＝G+1，判断是否满足终止条件G＝10000，若满足则输出结果并退出，否则返回步骤5)。

以序列长度为73的α折叠蛋白质1AIL为实施例，运用以上方法得到了该蛋白质的近天然态构象，最小均方根偏差为平均均方根偏差为预测得到的三维结构如图3所示。

以上阐述的是本发明给出的一个实施例表现出来的优良优化效果，显然本发明不仅适合上述实施例，而且可以应用到实际工程中的各个领域，同时在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法，其特征在于：所述蛋白质结构预测方法包括以下步骤：

1)选取力场模型：

采用Rosetta力场模型能量函数的表示形式如下

式中，E表示蛋白质的总能量，E_{inter rep}表示范德华排斥力作用，E_{inter atr}表示范德华吸引力作用,E_solvation为Lazarids和Karplus描述的隐含的溶解作用，E_{bb/sc hb}、E_{bb/bb hb}和E_{sc/sc hb}为依赖方向的氢键能量，E_pair残基对静电作用，E_dunbrack为氨基酸基于旋转异构体库的内部的能量，E_rama为参考特定位置的Ramachandrin骨链扭力，E_reference为未折叠态的蛋白质的参考能量，W_{inter rep}、W_{inter atr}、W_solvation为E_{inter rep}、E_{inter atr}、E_solvation的能量项权重，W_{bb/sc hb}、W_{bb/bb hb}和W_{sc/sc hb}分别为E_{bb/sc hb}、E_{bb/bb hb}和E_{sc/sc hb}的能量项权重，W_pair、W_dunbrack、W_rama和W_reference分别为E_pair、E_dunbrack、E_rama和E_reference的能量项权重；

2)给定输入序列信息；

9.1)随机生成正整数rand1,rand2,rand3，rand1,rand2和rand3均∈{1,2,3,......NP}，且rand1≠rand2≠rand3≠i；再生成4个随机整数randrange1,randrange2,randrange3,randrange4，randrange1,randrange2,randrange3和randrange4均∈{1,2,…,L}，L为序列长度；其中randrange1≠randrange2，randrange3≠randrange4；

9.3)如果σ＞0.5，可以判定处于第一层搜索，用C^rand2上位置a到位置b的片段的氨基酸s所对应的二面角phi、psi、omega替换C^rand1的相同位置所对应的二面角phi、psi、omega；再使用C^rand3上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换C^rand1上相同位置所对应的二面角phi、psi、omega，然后将所得C^rand1进行片段组装得到变异构象个体C_mutant；

9.4)如果σ≤0.5，可以判定处于第二层搜索，则用C^rand1上位置a到位置b的片段的氨基酸s所对应的二面角phi、psi、omega替换C_best的相同位置所对应的二面角phi、psi、omega；再使用C^rand2上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换C_best上相同位置所对应的二面角phi、psi、omega，然后将所得C_best进行片段组装得到变异构象个体C_mutant；

10)对变异构象C_mutant执行交叉操作生成测试构象C_trial：

10.1)生成随机数rand4，rand5，其中rand4∈(0,1)，rand5∈(1,L)；

2.如权利要求1所述的一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法，其特征在于：所述步骤3)中，设置的参数还包括最大迭代次数；所述步骤12)中，对种群中的每个构象个体都执行完步骤5)-11)以后，迭代次数G＝G+1，终止条件为迭代次数G达到预设最大迭代次数。