CN109390033B

CN109390033B - 一种基于片段自适应选择的群体蛋白质结构预测方法

Info

Publication number: CN109390033B
Application number: CN201810994098.5A
Authority: CN
Inventors: 周晓根; 张贵军; 彭春祥; 刘俊; 胡俊
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2020-10-30
Anticipated expiration: 2038-08-29
Also published as: CN109390033A

Abstract

一种基于片段自适应选择的群体蛋白质结构预测方法，在差分进化算法框架下，针对每一代的构象，首先从当前种群中选择能量最低的构象，通过对其每个残基位进行多次组装来学习每个残基位和对应的片段库中每个片段的成功率，并根据前一代的成功信息来计算每个残基位和对应的片段库中每个片段的选择概率；在变异和组装过程中，根据这些概率去确定残基位以及从对应的片段库中选择片段，从而保证成功率较高的残基位和成功率较高的片段被选择的概率较大，进而提高预测精度。本发明提供一种预测精度较高的基于片段自适应选择的群体蛋白质结构预测方法。

Description

一种基于片段自适应选择的群体蛋白质结构预测方法

技术领域

本发明涉及一种生物学信息学、智能优化、计算机应用领域，尤其涉及的是一种基于片段自适应选择的群体蛋白质结构预测方法。

背景技术

蛋白质结构实验测定是结构基因组学研究的主要内容，主要包括X射线晶体衍射和多维核磁共振(NMR)两种方法。X射线晶体衍射是目前测定蛋白质结构最有效的方法，所能达到的精度是其它方法所不能比拟的，主要缺点是蛋白质晶体难以培养且晶体结构测定的周期较长；NMR方法可以直接测定蛋白质在溶液中的构象，但是对样品的需求量大、纯度要求高，目前只能测定小分子蛋白质的结构。现阶段实验测定方法主要问题在于两个方面：一方面，对于现代药物设计的主要靶标—膜蛋白而言，极难获得其结构；另外，实验测定过程费时费钱费力，代价不菲。

蛋白质结构从头预测直接基于蛋白质物理化学或知识能量模型，利用优化算法在构象空间搜索全局最低能量构象解。计算机硬件和软件技术的快速发展，为蛋白质结构从头预测提供了坚实的基础平台条件。IBM超级计算机蓝色基因(BlueGene)、Shaw研究团队超级计算机ANTON、华盛顿大学分布式网络计算平台Rosetta@home、斯坦福大学分布式网络计算平台Folding@home的成功应用，使得从头预测方法在FM组某些目标蛋白的应用上，实现了历史性的突破。在2014年CASP11中，Baker研究团队首次针对尺寸大于150残基的FM组T0806目标蛋白(序列长度为258)，预测得到精度为

的蛋白结构模型。蛋白质结构从头预测方法取得的进展和突破，反过来进一步促进了计算机科学、计算智能等学科研究人员的广泛参与，使其成为近年来蛋白质结构预测领域中最为活跃的一个多学科研究问题。

在从头预测方法中，首先根据查询序列对整个已知结构的蛋白质库进行搜索，从而得到与查询序列相似的蛋白质，然后基于这些蛋白建立查询蛋白中每个残基位的片段库。在预测中，首先随机选择一个残基位，然后从该残基位的片段库中随机选择一个片段进行组装，并根据能量函数评价组装后的构象，如果能量降低，则组装成功，否则组装失败。然而，在上述组装过程中，片段的插入位置以及片段的选择具有盲目性，无法保证一些较优的片段获得的组装机会加大，从而导致预测精度较低。

因此，现有的蛋白质结构预测方法在预测精度方面存在着缺陷，需要改进。

发明内容

为了克服现有蛋白质结构预测方法的预测精度较低的不足，本发明提出一种基于片段自适应选择的群体蛋白质结构预测方法。

本发明解决其技术问题所采用的技术方案是：

一种基于片段自适应选择的群体蛋白质结构预测方法，所述方法包括以下步骤：

1)输入待测蛋白质的序列信息，并从ROBETTA服务器(http://www.robetta.org/)上得到片段库；

2)参数设置：设置种群规模NP，交叉概率CR，片段长度l，温度因子KT，最大迭代次数G_max，选择概率更新因子k，初始化迭代次数g＝0，并设置残基位的组装次数N，第j个残基位在第g代中的选择概率

第j个残基位的片段库中第m个片段在第g代的选择概率

j＝1,2,...,L，其中S为片段库中片段的数量，L为序列长度；

3)从各残基位对应的片段库中随机选择片段组装生成初始构象种群P＝{C₁,C₂,...,C_NP}，其中，C_i,i＝{1,2,…,NP}为种群P中的第i个构象个体；

4)根据Rosetta Score3计算当前种群中每个构象个体的能量值；

5)选择当前种群中能量最低的构象，并对其各残基位随机片段组装N次，并记录每个残基位组装成功的次数，以及每个残基位的片段库中每个片段的成功次数和总使用次数，其中，用Rosetta socre3能量函数计算组装前后构象的能量，如果能量降低，则表示组装成功；

6)用每个残基位组装成功的次数除以总组装次数N得到该残基位的组装成功率s_j,j＝1,2,...,L，并用每个残基位的片段库中的每个片段的成功次数除以总使用次数得到每个片段的成功率

7)如果g>0，计算每个残基位的选择概率

并对其进行归一化得到归一化选择概率

同时，如果

m＝1,2,...,S，j＝1,2,...,L，则计算第j个残基位的片段库中的第m个片段的成功率

8)对种群中的每个构象C_i,i∈{1,2,…,NP}执行如下操作：

8.1)将构象C_i看作目标构象，从当前种群中随机选择两个不同的，且与C_i也不相同的构象C_a和C_b；

8.2)根据每个残基位的归一化选择概率，利用轮盘赌方法，选择两个互不相同的残基位A和B，A和B均∈{1,2,...,L}；

8.3)将构象C_a中残基位A上长度为l的片段替换到构象C_i的对应位置上，并将构象C_b中残基位B上长度为l的片段替换到构象C_i的对应位置上，生成变异构象C_mutant；

8.4)随机生成一个0和1之间的小数R，如果R<CR，则执行如下操作：

8.4.1)从构象C_i中随机选取一个长度为l的片段替换变异构象C_mutant中对应位置的片段，生成构象C′_trial

8.4.2)根据每个残基位的归一化选择概率，利用轮盘赌方法，选择一个残基位D；

8.4.3)对残基位D对应的片段库中的每个片段的选择概率进行归一化得到对应的归一化选择概率：

8.4.4)根据残基位D的片段库中每个片段的归一化选择概率，利用轮盘赌方法，从片段库中选择一个片段插入到构象C^_′ _trial的残基位D上，生成测试构象C_trial；

8.5)如果R≥CR，则根据步骤8.4.2)-8.4.4)对变异构象C_mutant进行片段组装生成测试构象C_trial；

8.6)根据Rosetta score3能量函数计算测试构象C_trial的能量值，如果C_trial的能量值小于C_i的能量值，则C_tri替换C_i；否则根据玻尔兹曼概率

接受C_trial，其中ΔE为C_trial的能量值与C_i的能量值误差的绝对值；

9)g＝g+1，如果g>G_max，则输出能量最低的构象作为最终预测结构，否则返回步骤5)。

本发明的技术构思为：在差分进化算法框架下，针对每一代的构象，首先从当前种群中选择能量最低的构象，通过对其每个残基位进行多次组装来学习每个残基位和对应的片段库中每个片段的成功率，并根据前一代的成功信息来计算每个残基位和对应的片段库中每个片段的选择概率；在变异和组装过程中，根据这些概率去确定残基位以及从对应的片段库中选择片段，从而保证成功率较高的残基位和成功率较高的片段被选择的概率较大，进而提高预测精度。本发明提供一种预测精度较高的基于片段自适应选择的群体蛋白质结构预测方法。

本发明的有益效果表现在：根据残基位和片段的成功信息确定其被选中的概率，从而保证成功率较高的残基位和成功率较高的片段被选择的概率较大，进而提高预测精度。

附图说明

图1是基于片段自适应选择的群体蛋白质结构预测方法对蛋白质3GWL进行结构预测时的构象更新示意图。

图2是基于片段自适应选择的群体蛋白质结构预测方法对蛋白质3GWL进行结构预测时得到的构象分布图。

图3是基于片段自适应选择的群体蛋白质结构预测方法对蛋白质3GWL进行结构预测得到的三维结构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于片段自适应选择的群体蛋白质结构预测方法，包括以下步骤：

第j个残基位的片段库中第m个片段在第g代的选择概率

j＝1,2,...,L，其中S为片段库中片段的数量，L为序列长度；

4)根据Rosetta Score3计算当前种群中每个构象个体的能量值；

7)如果g>0，计算每个残基位的选择概率

并对其进行归一化得到归一化选择概率

同时，如果

8)对种群中的每个构象C_i,i∈{1,2,…,NP}执行如下操作：

8.4.1)从构象C_i中随机选取一个长度为l的片段替换变异构象C_mutant中对应位置的片段，生成构象C^_′ _trial；

本实施例序列长度为106的α折叠蛋白质3GWL为实施例，一种基于片段自适应选择的群体蛋白质结构预测方法，其中包含以下步骤：

2)参数设置：设置种群规模NP＝50，交叉概率CR＝0.5，片段长度l＝9，温度因子KT＝0.5，最大迭代次数G_max＝1000，选择概率更新因子k＝0.5，初始化迭代次数g＝0，并设置残基位的组装次数N＝100，第j个残基位在第g代中的选择概率

第j个残基位的片段库中第m个片段在第g代的选择概率

其中S＝200为片段库中片段的数量，L为序列长度；

4)根据Rosetta Score3计算当前种群中每个构象个体的能量值；

7)如果g>0，计算每个残基位的选择概率

并对其进行归一化得到归一化选择概率

同时，如果

8)对种群中的每个构象C_i,i∈{1,2,…,NP}执行如下操作：

8.3)将构象C_a中残基位A上长度为l的片段替换到构象C_c的对应位置上，并将构象C_b中残基位B上长度为l的片段替换到构象C_c的对应位置上，生成变异构象C_mutant；

8.4.1)从构象C_i中随机选取一个长度为l的片段替换变异构象C_mutant中对应位置的片段，生成构象C^_′ _trial

以序列长度为106的α折叠蛋白质3GWL为实施例，运用以上方法得到了该蛋白质的近天然态构象，均方根偏差为

平均均方根偏差为

预测结构如图3所示。

以上说明是本发明以蛋白质3GWL为实例所得到的结果，并非限定本发明的实施范围，在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进，不应排除在本发明的保护范围之外。