CN106951738A

CN106951738A - 一种蛋白质折叠类型分类方法

Info

Publication number: CN106951738A
Application number: CN201710259678.5A
Authority: CN
Inventors: 李晓琴; 张业晓
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-04-20
Filing date: 2017-04-20
Publication date: 2017-07-14

Abstract

本发明公开一种蛋白质折叠类型分类方法包括以下步骤：步骤1、构建模板数据库；步骤2、基于模板数据库，将任意待测蛋白样本与模板数据中的所有模板进行TM‑align比对，计算TM‑score值，所述TM‑score取值最大的模板所在的折叠类型即为待测蛋白样本所属折叠类型。采用本发明的技术方案，实现蛋白质折叠类型的自动化分类。

Description

一种蛋白质折叠类型分类方法

技术领域

本发明涉及一种蛋白质折叠类型的自动化分类方法。

背景技术

蛋白质三级结构复杂而不规则，但其所对应的蛋白质折叠类型却只有数百到数千种，蛋白质折叠类型分类是蛋白质折叠类型首先需要解决的基本问题。SCOP数据库是应用最广泛的结构分类数据库，为层状结构，包括蛋白质结构类、折叠类型、超家族、家族等不同层次，与蛋白质折叠类型对应的是fold层次，它是在超家族的基础上，按照二级结构及其空间分布及拓扑连接，根据专家经验人工完成折叠类型的指认。2013年，在SCOP已有分类的基础上，SCOP数据库建立。尽管SCOP中部分蛋白质样本通过序列比对可自动获得分类结果，但所用自动分类结果与手动分类结果并不相同。新发布的ASTRAL现在依然使用SCOP中的手动分类结果。最近7年，SCOP数据中折叠层所包含的折叠类型总数基本保持在1393种左右，四种主要结构类包含的折叠类型总数保持在1000种左右，折叠类型总数基本稳定。因此，对已有SCOP的人工分类结果进行数据挖掘、建立蛋白质折叠类型分类方法，实现蛋白质折叠类型的自动分类，是迫切需要解决的问题。

发明内容

为了克服上述缺陷，本发明提供一种基于统一原理的蛋白质折叠类型分类方法，从而实现蛋白质折叠类型的自动化分类。

为了实现上述目的，本发明采用的技术方案是：

一种蛋白质折叠类型分类方法包括以下步骤：

步骤1、构建模板数据库；

步骤2、基于模板数据库，将任意待测蛋白样本与模板数据中的所有模板进行TM-align比对，计算TM-score值，所述TM-score取值最大的模板所在的折叠类型即为待测蛋白样本所属折叠类型。

作为优选，所述模板数据库包括家族模板数据库与折叠类型模板数据库。

作为优选，所述家族模板数据库构建为：对家族样本利用MUSTANG进行多结构比对，获得多结构比对信息；提取多结构比对信息中完全匹配的片段，形成该家族模板的折叠核心结构；对折叠核心片段进行骨架结构建模，形成家族模板；利用上述方法，对989种蛋白质折叠类型涵盖的3941家族分别构建家族模板，形成蛋白质家族模板数据库。

作为优选，所述折叠类型模板数据库构建为：蛋白质折叠类型模板以家族模板为单位通过系统聚类并经过筛选和验证最终得到；其中，

所述系统聚类方法为：对任意蛋白质折叠类型所属的n个家族模板，先将n个家族模板看成不同的n类，然后将性质最接近的两类合并为一类，再从n-1类中找到最接近的两类加以合并，依此类推，直到所有的家族模板被合为一类，得到n个家族模板的系统聚类图；家族模板通过TM-align进行两两比对，以TM-score作为距离参数，将TM-score取值最大的两家族合并；

所述任意蛋白质折叠类型i模板筛选的经验标准为：具有折叠类型i特有全部折叠核心片段，分布于系统聚类图中的独立分支，由家族模板首次合并形成，对蛋白质折叠类型i所属样本的识别率不低于80％；

利用上述方法，对989种蛋白质折叠类型分别构建模板，组成折叠类型模板数据库。

作为优选，TM-align可进行蛋白样本间的结构比对分析，所得打分值TM-score作为折叠类型模板构建的系统聚类参数，打分函数TM-score(Template Model Score，模板建模打分)定义为：

其中，L是模板蛋白的长度，L_ali是模板蛋白与待测蛋白中匹配上的残基数目，d_i是模板蛋白与待测蛋白质中第i个匹配残基之间的距离，d₀是作为标准化的距离参数，从而消除了打分值与蛋白质大小的幂率关系。

本发明的上述技术方案有如下优点：

1、家族模板的构建摒弃了从家族样本中选取天然结构样本作为模板，提高了家族模板的合理性以及适用性。

2、折叠类型模板构建以家族模板为单位通过系统聚类并经过筛选和验证最终得到，增加了折叠类型模板的可靠性。

3、分类方法取最大TM-score值作为评判参数，克服了以TM-score阈值0.5作为分类评判参数的不严谨性。

附图说明

图1为家族模板数据库分布图；

图2为折叠类型模板数据库分布图；

图3为蛋白质折叠类型的分类方法流程图。

具体实施方式

以下结合数据对本方法发明进行详细说明。

如图3所示，本发明实施例提供一种蛋白质折叠类型的分类方法包括以下步骤：

步骤1、构建模板数据库；

步骤2、基于模板数据库，将任意待测蛋白样本与模板数据中的所有模板进行TM-align比对，计算TM-score值，所述TM-score取值最大的模板所在的折叠类型即为待测蛋白样本所属折叠类型。具体过程包括如下：

一、材料的选取

本发明主要选取Astral SCOPe 2.05数据库中相似性小于40％，且分辨率高于0.25nm的All alpha proteins(α)，All beta proteins(β)，Alpha and beta proteins(α/β)，Alpha and beta proteins(α+β)四类蛋白所属的折叠类型为研究对象，其中共有989种折叠类型、12165个样本，相应数据记为Set-I。实验集中，有359种蛋白质折叠类型仅包含一个家族，且家族中仅包含一个样本，对于这部分折叠类型，需要利用Astral SCOPe 2.05数据库中相似性小于95％的数据信息，相应数据记为Set-I-1；其余630种蛋白质折叠类型含有两个及两个以上家族，对应的家族数及样本数分别为3582、11806，相应数据记为Set-I-2。独立检验集：SCOPe astral 2.06数据库中剔除SCOPe astral2.05所含样本，余下2142样本，涉及368种蛋白质折叠类型，记为Set-II。

二、家族模板设计方法及数据库的构建

家族模板设计方法的具体步骤为：对家族样本利用MUSTANG进行多结构比对，获得多结构比对信息；提取多结构比对信息中完全匹配的片段(即家族样本共同参与的折叠核心片段)，形成该家族模板的折叠核心结构；对折叠核心片段进行骨架结构建模(即提取骨架坐标信息)，形成家族模板。

骨架坐标提取方法：对由n个样本组成的家族，利用MUSTANG进行多结构比对，获得多结构比对结果，提取完全匹配片段，对匹配片段中任一残基i的α-碳原子匹配坐标信息--(x_i,y_i,z_i)，计算匹配坐标的平均值--将其作为该残基的骨架α-碳坐标信息，形成匹配片段的骨架坐标信息。求坐标平均值公式如下：

利用上述方法，对989种蛋白质折叠类型涵盖的3941家族分别构建家族模板，形成蛋白质家族模板数据库。数据库中的家族模板编号为SCOPe astral中相应家族代码，模板在四种结构类中的分布见图1。

三、折叠类型模板设计方法及数据库的构建

蛋白质折叠类型模板是以家族模板为单位通过系统聚类并经过筛选和验证最终得到。系统聚类的基本思想：对任意蛋白质折叠类型所属的n个家族模板，先将n个家族模板看成不同的n类，然后将性质最接近(距离最近)的两类合并为一类，再从n-1类中找到最接近的两类加以合并，依此类推，直到所有的家族模板被合为一类，得到n个家族模板的系统聚类图。家族模板通过TM-align进行两两比对，以TM-score作为距离参数，将TM-score取值最大(即距离最小)的两家族合并。

通过对系统聚类图中节点对应初始模板的计算分析及检验，提出任意蛋白质折叠类型i模板筛选的经验标准：具有折叠类型i特有全部折叠核心片段；分布于系统聚类图中的独立分支；由家族模板首次合并形成；对蛋白质折叠类型i所属样本的识别率不低于80％。

利用上述方法，对989种蛋白质折叠类型分别构建模板，组成折叠类型模板数据库，模板分布见图2。其中，由数据集Set-I-1构建的模板359种，由于这些蛋白质折叠类型仅含一个家族，家族模板即为折叠类型模板；由数据集Set-I-2构建的模板数共1258，其中508种蛋白质折叠类型成功筛选到了模板，另外的122种折叠类型未能筛选到满足条件的模板，以家族模板替代折叠类型模板。

四、分类方法的构建

将任意待测蛋白样本与模板数据中的所有模板进行TM-align比对，计算TM-score值。TM-score取值最大的模板所在的折叠类型即为待测蛋白样本所属折叠类型。

分类结果利用敏感性、特异性、Matthew相关系数三个指标对其进行评估，参数定义如下：

敏感性:

特异性:

Claims

1.一种蛋白质折叠类型分类方法，其特征在于，包括以下步骤：

步骤1、构建模板数据库；

2.如权利要求1所述的蛋白质折叠类型分类方法，其特征在于，所述模板数据库包括家族模板数据库与折叠类型模板数据库。

3.如权利要求2所述的蛋白质折叠类型分类方法，其特征在于，所述家族模板数据库构建为：对家族样本利用MUSTANG进行多结构比对，获得多结构比对信息；提取多结构比对信息中完全匹配的片段，形成该家族模板的折叠核心结构；对折叠核心片段进行骨架结构建模，形成家族模板；利用上述方法，对989种蛋白质折叠类型涵盖的3941家族分别构建家族模板，形成蛋白质家族模板数据库。

4.如权利要求2所述的蛋白质折叠类型分类方法，其特征在于，所述折叠类型模板数据库构建为：蛋白质折叠类型模板以家族模板为单位通过系统聚类并经过筛选和验证最终得到；

5.如权利要求1所述的蛋白质折叠类型分类方法，其特征在于，TM-align可进行蛋白样本间的结构比对分析，所得打分值TM-score作为折叠类型模板构建的系统聚类参数，打分函数TM-score(Template Model Score，模板建模打分)定义为：

T M - s c o r e = \frac{1}{L} {[Σ_{i = 1}^{L_{a l i}} \frac{1}{1 + d_{i}^{2} / d_{0}^{2}}]}_{m a x}

d_{0} = \sqrt[3]{L - 15} - 1.8

其中，L是模板蛋白的长度，L_ali是模板蛋白与待测蛋白中匹配上的残基数目，d_i是模板蛋白与待测蛋白质中第i个匹配残基之间的距离，d₀是作为标准化的距离参数。