CN107273713A

CN107273713A - 一种基于TM‑align的多域蛋白模板搜索方法

Info

Publication number: CN107273713A
Application number: CN201710382371.4A
Authority: CN
Inventors: 张贵军; 周晓根; 王柳静; 郝小虎
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2017-10-20
Anticipated expiration: 2037-05-26
Also published as: CN107273713B

Abstract

一种基于TM‑align的多域蛋白模板搜索方法，首先，从蛋白质库中提取多域蛋白建立多域蛋白质库；然后，基于蛋白质结构比对工具TM‑align计算模板蛋白对于每个单域蛋白的局部比对得分，并取最高值为模板的局部得分；其次，选出局部得分最高的前500个模板进行全局评价，按照单域蛋白的比对顺序分多种情况进行评价，在评价过程中，模板中的各残基禁止重复比对，并且遵循查询蛋白中的各域的实际顺序比对，选出各种比对情况中全局比对得分最高值为模板的最终得分；最后，根据最终得分对进行排名，选择最终得分最高的模板为最终模板。本发明可以较快得到最佳模板，且可以获取域之间方向信息，模板质量较高。

Description

一种基于TM-align的多域蛋白模板搜索方法

技术领域

本发明涉及一种生物学信息学、智能优化、计算机应用领域，尤其涉及的是一种基于TM-align的多域蛋白模板搜索方法。

背景技术

大规模蛋白通常由多个结构和功能不同的单域蛋白组成，据统计，现有蛋白质库(Protein Data Bank，PDB)中有32.7％的蛋白至少包含两个单域蛋白，超过5 个单域的蛋白数量较少，并且最大的蛋白包含20个单域。另外，一个蛋白是多域蛋白的概率随着其序列长度的增长而变大，统计显示，超过50％的序列长度大于 275的蛋白至少包含两个单域蛋白，大部分多域蛋白包含150个左右的残基，很少有超过600个残基的，最大的多域蛋白序列长度为1317。从而可以看出，对于这些大规模的多域蛋白，通过实验测定的方法来预测其三维结构极其困难和费时。

现有单域蛋白结构预测方法(如QUARK、I-TASSER和ROSETTA等)对于单域蛋白的结构预测精度已经达到了一定的高度，但是对于多域蛋白的结构预测确显得力不从心；而且，在这些单域蛋白结构预测方法中，能量函数的设计中考虑了单域蛋白内的因素，在多域蛋白结构预测中无法使用。目前，常用的多域蛋白预测方法有两类，即利用单域蛋白预测方法预测出个单域蛋白的结构，然后对单域和单域之间的连接区域进行采样或对多个域进行对接。

在单域和单域对接过程中，通过模板的引导会提高预测精度。大部分模板搜索方法基于穿线方法，即从氨基酸序列出发利用溶剂可及性和二级结构信息等进行搜索。然而，多域蛋白的组装过程仅仅利用信息而不根据单域的三维结构信息搜索模板，导致无法获取域和域之间的方向信息，从而导致预测精度较低。

因此，现有的多域蛋白模板搜索方法在获取域之间的方向信息方面存在着缺陷，需要改进。

发明内容

为了克服现有的多域蛋白模板搜索方法无法获取域和域之间的方向信息、模板质量较低的不足，本发明提供一种可以获取域之间的方向信息、模板质量较高的基于TM-align的多域蛋白模板搜索方法。

本发明解决其技术问题所采用的技术方案是：

一种基于TM-align的多域蛋白模板搜索方法，所述方法包括以下步骤：

1)多域蛋白质库构建，过程如下：

1.1)利用蛋白质域分割工具Domain-parser对蛋白质库PDB中的每一个蛋白进行分割；

1.2)统计每个蛋白的域个数，并提取域个数大于2个蛋白构建多域蛋白质库；

2)输入待预测的多域蛋白的各单域的三维结构；

3)筛选出多域蛋白质库中序列长度大于待预测多域蛋白序列长度的所有模板蛋白；

4)对筛选出的每一个模板蛋白进行局部评价，过程如下：

4.1)采用蛋白质结构比对工具TM-align，依次计算每个单域蛋白和模板蛋白之间的比对得分，记录为TM-score₁,TM-score₂,…,TM-score_n，其中 TM-score_n是第n个单域蛋白和模板蛋白之间的比对得分，n为单域蛋白的总个数；

4.2)以步骤3.1)中单域蛋白比对最高的得分为该模板的局部评价得分Lscore，即Lscore＝max(TM-score₁,TM-score₂,…,TM-score_n)，其中max表示取最大值；

5)根据每个蛋白的局部评价得分从高到低进行排名，并选出排名前N个的模板蛋白；

6)对步骤4)中选出的每一个模板蛋白进行全局评价，过程如下：

6.1)计算单域蛋白比对顺序的种数n！；

6.2)根据每种比对顺序进行如下操作：

6.2.1)采用TM-align计算排序第一的单域蛋白与模板蛋白之间的全局比对得分GTM-score₁；

6.2.2)将模板蛋白中第一个比对点和最后一个比对点之间的部分删除，计算剩余部分的序列长度，若大于其他没有比对的单域蛋白的序列长度之和，则继续6.2.3)

6.2.3)若排序第二的单域蛋白在实际多域蛋白中的顺序在排序第一的蛋白之前，则执行6.2.4)，否则执行6.2.5)；

6.2.4)采用TM-align计算排序第二的单域蛋白与第一个比对点之前的模板蛋白的全局比对得分GTM-score₂；

6.2.5)采用TM-align计算排序第二的单域蛋白与最后一个比对点之后的模板蛋白的全局比对得分GTM-score₂；

6.2.6)根据步骤6.2.1)-6.2.5)依次计算排序第三到第n的单域蛋白与模板的全局比对得分GTM-score₃,GTM-score₄,…,GTM-score_n；

6.2.7)计算按照该顺序进行模板全局评价的全局比对得分其中w_i为排序为第i的单域蛋白的权重， L_i为排序为第i的单域蛋白的序列长度；

6.3)取按照n！种顺序进行模板全局评价中全局比对得分最高值为该模板的最终得分；

7)根据每个模板的最终得分从高到低进行排名，则排名第一的模板则为最优模板。

本发明的技术构思为：首先，从蛋白质库中提取多域蛋白建立多域蛋白质库；然后，基于蛋白质结构比对工具TM-align计算模板蛋白对于每个单域蛋白的局部比对得分，并取最高值为模板的局部得分；其次，选出局部得分最高的前N(N 取500)个模板进行全局评价，按照单域蛋白的比对顺序分多种情况进行评价，在评价过程中，模板中的各残基禁止重复比对，并且遵循查询蛋白中的各域的实际顺序比对，选出各种比对情况中全局比对得分最高值为模板的最终得分；最后，根据最终得分对进行排名，选择最终得分最高的模板为最终模板。

本发明的有益效果表现在：一方面，基于TM-align,从单域蛋白的三维结构出发搜索模板，从而可以获取域之间的方向信息；另一方面，从局部到全局对模板进行评价，提高搜索效率。

附图说明

图1是基于TM-align的多域蛋白模板搜索方法的基本流程图。

图2是基于TM-align的多域蛋白模板搜索方法对模板进行局部评价的示意图。

图3是基于TM-align的多域蛋白模板搜索方法对模板进行全局评价的示意图。

图4为序列长度为254的包含两个域的多域蛋白质2i53A的三维结构图。

图5是多域蛋白质2i53A的最佳模板3rgfB的三维结构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于TM-align的多域蛋白模板搜索方法，包括以下步骤： 1)多域蛋白质库构建，过程如下：

2)输入待预测的多域蛋白的各单域的三维结构；

4)对筛选出的每一个模板蛋白进行局部评价，过程如下：

4.2)以步骤3.1)中单域蛋白比对最高的得分为该模板的局部评价得分Lscore，即Lscore＝max(TM-score₁,TM-score₂,…,TM-score_n)，其中max表示取最大值，如图2所示；

5)根据每个蛋白的局部评价得分从高到低进行排名，并选出排名前N(N取500) 个的模板蛋白；

6.1)计算单域蛋白比对顺序的种数n！；

6.2)根据每种比对顺序进行如下操作：

6.2.6)根据步骤6.2.1)-6.2.5)依次计算排序第三到第n的单域蛋白与模板的全局比对得分GTM-score₃,GTM-score₄,…,GTM-score_n如图3所示；

本实施例序列长度为254的多域蛋白质2i53A为实施例，一种基于TM-align 的多域蛋白模板搜索方法，包括以下步骤：

1)多域蛋白质库构建，过程如下：

2)输入待预测的多域蛋白的各单域的三维结构；

4)对筛选出的每一个模板蛋白进行局部评价：

4.1)采用蛋白质结构比对工具TM-align，依次计算每个单域蛋白和模板蛋白之间的比对得分，记录为TM-score₁,TM-score₂，其中TM-score_n是第n个单域蛋白和模板蛋白之间的比对得分，n为单域蛋白的总个数，该蛋白n＝2；

5)根据每个蛋白的局部评价得分从高到低进行排名，并选出排名前500的模板蛋白；

6.1)计算单域蛋白比对顺序的种数n！；

6.2)根据每种比对顺序进行如下操作：

6.2.7)计算按照该顺序进行模板全局评价的全局比对得分其中w_i为排序为第i的单域蛋白的权重，L_i为排序为第i的单域蛋白的序列长度， w₁＝w₂＝…＝w_n＝1.0；

以序列长度为254的包含两个域的多域蛋白质2i53A为实施例，运用以上方法组装得到了该多域蛋白质最佳模板为3rgfB，2i53A和3rgfB之间的全局比对得分为0.80，两者的三维结构图分别如图4和图5所示。

以上说明是本发明以2i53A蛋白质为实例所得出的模板搜索效果，并非限定本发明的实施范围，在不偏离本发明基本内容所涉及范围的的前提下对其做各种变形和改进，不应排除在本发明的保护范围之外。

Claims

1.一种基于TM-align的多域蛋白模板搜索方法，其特征在于：所述模板搜索方法包括以下步骤：

1)多域蛋白质库构建，过程如下：

2)输入待预测的多域蛋白的各单域的三维结构；

4)对筛选出的每一个模板蛋白进行局部评价，过程如下：

4.1)采用蛋白质结构比对工具TM-align，依次计算每个单域蛋白和模板蛋白之间的比对得分，记录为TM-score₁,TM-score₂,…,TM-score_n，其中TM-score_n是第n个单域蛋白和模板蛋白之间的比对得分，n为单域蛋白的总个数；

6.1)计算单域蛋白比对顺序的种数n！；

6.2)根据每种比对顺序进行如下操作：

6.2.7)计算按照该顺序进行模板全局评价的全局比对得分其中w_i为排序为第i的单域蛋白的权重，L_i为排序为第i的单域蛋白的序列长度；