CN107609345B

CN107609345B - 一种基于模板自适应选择的多域蛋白结构组装方法

Info

Publication number: CN107609345B
Application number: CN201710757199.6A
Authority: CN
Inventors: 张贵军; 周晓根; 王柳静; 郝小虎
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2020-11-27
Anticipated expiration: 2037-08-29
Also published as: CN107609345A

Abstract

一种基于模板自适应选择的多域蛋白结构组装方法，首先，利用蛋白质比对工具对多域蛋白库的中各模板进行打分，并根据打分进行降序排名；然后，选择出排名靠前的部分模板进行组装，并对每个模板设置一个选择概率；其次，在组装过程中，每隔一定的阶段，根据各模板组装得到的结构被成功接收的次数和该模板被选择的次数动态更新各模板被选择的概率；最后，在每次迭代中，根据各模板的选择概率，利用轮盘赌选择出一个模板产生的结构进行随机选择和平移，从而产生新的结构。本发明提供一种计算代价较低、预测精度较高的基于模板自适应选择的多域蛋白结构组装方法。

Description

一种基于模板自适应选择的多域蛋白结构组装方法

技术领域

本发明涉及一种生物学信息学、智能优化、计算机应用领域，尤其涉及的是一种基于模板自适应选择的多域蛋白结构组装方法。

背景技术

不同的蛋白中通常包含具有特定功能的域蛋白，生物体中所必需的成千上万种蛋白正是通过一系列这样的域蛋白组成的。数据显示，域蛋白的大小不等，从几个氨基酸到超过800个的氨基酸，而绝大数域蛋白为50-150个氨基酸组成。由这些域蛋白组成的蛋白称为多域蛋白，简单的多域蛋白通常包含1-2个域蛋白，较大的多域蛋白可能30个以上所需的复杂细胞功能域蛋白。据统计，至少有2/3的哺乳动物蛋白为多域蛋白。因此，对多域蛋白的结构预测极其重要。

目前，最常用的多域蛋白结构预测方法为刚体对接法，即固定各单域蛋白的结构，然后通过旋转和平移来选择方向，从而完成多域蛋白的结构组装。在组装中，通常利用各种方法(如基于一级和二级结构的穿线法、基于三级结构的模板搜索法)来搜索蛋白质库而获得最佳模板，从而根据模板的方向指导整个组装过程。但是，由于模板打分函数的不精确性，无法保证得分最高的模板即为实际最佳模板。为了解决上述问题，大多数方法采用多个模板进行独立组装，然后对各模板组装得到的结构进行打分，从而选出得分最高的结构。然而，采用多个模板进行独立组装会增加计算代价，而且由于结构打分函数的不精确性，不能保证最后选择出的结果为实际最优结果，从而影响组装精度。

因此，现有的基于模板的多域蛋白结构组装方法在计算代价和预测精度方面存在着缺陷，需要改进。

发明内容

为了克服现有的基于模板的多域蛋白结构组装方法在计算代价和预测精度方面的不足，本发明提供一种计算代价较低、预测精度较高的基于模板自适应选择的多域蛋白结构组装方法。

本发明解决其技术问题所采用的技术方案是：

一种基于模板自适应选择的多域蛋白结构组装方法，所述方法包括以下步骤：1)输入各单域蛋白的三维结构；

2)设置组装模板数量T，最大迭代次数I_max，冲突距离阈值d_cl，相互作用阈值d_ct，各模板的选择概率p_t,t＝1,2,...,T，p_t表示第t个模板的选择概率，学习间隔I_inter；

3)利用模板比对工具TM-align对多域蛋白库中的每个模板进行打分，并根据打分进行降序排列；

4)选出打分最高的前T个模板进行组装，过程如下：4.1)将各单域蛋白重叠到各个模板上，得到T个结构，并根据如下公式对各结

构进行打分：

其中，w₁、w₂、w₃和w₄为各能量项的权重，

和

分别表示第n个单域蛋白的第i个Ca原子的坐标和第n+1个单域蛋白的第j个Ca原子的坐标，

表示

和

之间的欧氏距离，X_l和

分别表示组装结构中第l个Ca原子的坐标和各域重叠到模板上后整个多域蛋白结构的第l个Ca原子的坐标，

为X_l和

之间的欧氏距离，L为蛋白的序列长度，

为距离

相互作用阈值d_ct的Ca原子数量，n₀为归一化常数，其取值为0.306×(lⁿ+lⁿ⁺¹)，lⁿ和lⁿ⁺¹分别为第n个单域蛋白和第n+1个单域蛋白的序列长度，

和

分别表示第n个单域蛋白的最后一个Ca原子的坐标和第n+1个单域蛋白的第一个Ca原子的坐标，

为他们之间的欧氏距离，D表示单域蛋白的总数量；

4.2)根据各模板的选择概率，利用轮盘赌选择出一个模板得到的结构，并根据4.1)计算其得分E_old；

4.3)对4.2)中选择的结构中所有的Ca原子坐标进行随机选择和平移，从而得到一个新的结构，并根据4.1)计算新结构的得分E；

4.4)如果E小于E_old，则新结构替换当前模板的结构；否则，如果满足

则新结构替换当前模板的结构，并记录当前的迭代次数以及被接收的所有新结构，其中rand(0,1)为0和1之间的随机数，e为自然常数；

4.5)如果当前迭代次数是否为I_inter的整数倍，则计算各目标的选择概率p_{t,t＝1,2,...,T}，其值等于第t个模板产生的结构成功替换的次数除以第t个模板在步骤4.2)中被选择的次数；

4.6)如果迭代次数达到最大迭代次数I_max，则继续步骤5)，否则重复步骤4.2)～4.6)；

5)利用近天然态蛋白聚类工具SPICKER对迭代过程中所有被接收的新结构进行聚类，从而选择出规模最大的类的中心结构为最终组装结构。

本发明的技术构思为：首先，利用蛋白质比对工具对多域蛋白库的中各模板进行打分，并根据打分进行降序排名；然后，选择出排名靠前的部分模板进行组装，并对每个模板设置一个选择概率；其次，在组装过程中，每隔一定的阶段，根据各模板组装得到的结构被成功接收的次数和该模板被选择的次数动态更新各模板被选择的概率；最后，在每次迭代中，根据各模板的选择概率，利用轮盘赌选择出一个模板产生的结构进行随机选择和平移，从而产生新的结构。

本发明的有益效果表现在：在组装过程中，各模板同时进行组装，可以降低计算代价；其次，根据各模板在一定阶段组装成功的次数来动态更新确定各模板的使用概率，达到模板自适应选择的效果，进而保证优秀模板被选中的概率较大，从而提高预测精度。

附图说明

图1是基于模板自适应选择的多域蛋白结构组装方法的示意图。

图2是多域蛋白1bagA的天然态结构。

图3是基于模板自适应选择的多域蛋白结构组装方法对多域蛋白1bagA的组装结果。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于模板自适应选择的多域蛋白结构组装方法，包括以下步骤：

1)输入各单域蛋白的三维结构；

4)选出打分最高的前T个模板进行组装，过程如下：

4.1)将各单域蛋白重叠到各个模板上，得到T个结构，并根据如下公式对各结构进行打分：

其中，w₁、w₂、w₃和w₄为各能量项的权重，

和

表示

和

之间的欧氏距离，X_l和

为X_l和

之间的欧氏距离，L为蛋白的序列长度，

为距离

和

为他们之间的欧氏距离，D表示单域蛋白的总数量；

本实施例序列长度为425的多域蛋白质1bagA为实施例，一种基于模板的多域蛋白结构组装方法，包括以下步骤：

1)输入各单域蛋白的三维结构；

2)设置组装模板数量T＝5，最大迭代次数I_max＝30000，冲突距离阈值d_cl＝3.75，相互作用阈值d_ct＝8，各模板的选择概率p_t＝0.2,t＝1,2,...,T，p_t表示第t个模板的选择概率，学习间隔I_inter＝1000；

4)选出打分最高的前T个模板进行组装，过程如下：

其中，w₁、w₂、w₃和w₄为各能量项的权重，

和

表示

和

之间的欧氏距离，X_l和

为X_l和

之间的欧氏距离，L为蛋白的序列长度，

为距离

和

为他们之间的欧氏距离，D表示单域蛋白的总数量；

4.5)如果当前迭代次数是否为I_inter的整数倍，则计算各目标的选择概率p_{t,t＝1,2,...,T}，其值等于第t个模板产生的结构成功替换的次数除以第t个模板

在步骤4.2)中被选择的次数；

以序列长度为425的包含两个域的多域蛋白质1bagA为实施例，运用以上方法组装得到了该多域蛋白质的近天然态构象，TM-score为0.992，天然态结构和预测结构分别如图2和图3所示。

以上说明是本发明以1bagA蛋白质为实例所得出的优化效果，并非限定本发明的实施范围，在不偏离本发明基本内容所涉及范围的的前提下对其做各种变形和改进，不应排除在本发明的保护范围之外。