CN107423577B

CN107423577B - 一种基于氨基酸序列的蛋白质折叠类型识别方法

Info

Publication number: CN107423577B
Application number: CN201710259671.3A
Authority: CN
Inventors: 李晓琴; 景娅楠
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-04-20
Filing date: 2017-04-20
Publication date: 2020-09-25
Anticipated expiration: 2037-04-20
Also published as: CN107423577A

Abstract

本发明公开一种基于氨基酸序列的蛋白质折叠类型识别方法，步骤1、为α，β，α/β，α+β四类蛋白分别以家族和超家族为单位建立隐马尔科夫模型，分别以家族和超家族为代表的折叠类型识别模型集，同时对两个模型集分别进行扩充形成扩充家族模型集和扩充超家族模型集；步骤2、根据所述折叠类型识别模型集，进行蛋白质折叠类型自动化识别。采用本发明，能够扩大识别的样本覆盖范围并提高折叠类型识别的准确率，同时实现了折叠类型识别的自动化操作减少因人为因素造成的识别效果不佳的现象。

Description

一种基于氨基酸序列的蛋白质折叠类型识别方法

技术领域

本发明属于生物信息学领域，特别是涉及一种基于氨基酸序列的蛋白质折叠类型识别方法。

背景技术

由于蛋白质本身自身的复杂性以及其生存环境的复杂性使得蛋白质的研究一直是重点也是难点。蛋白质折叠类型识别一直是生命科学领域研究的重点，是蛋白质三维结构预测的主要方法之一。

蛋白质折叠类型识别是一种依托于结构或者模型信息的方法，主要方法分为两类：机器学习和序列-序列比对(多序列比对)。机器学习主要有人工神经网络、随机森林、支持向量机等方法。多序列比对方法主要是依据两种序列模型进行识别：特殊位置分数矩阵和隐马尔科夫模型。研究中大部分主要针对少量的折叠类型，比如Ding等提出当然27中折叠类型。且识别的准确率也不是特别高，大部分保持在70％到90％之间，超过90％则会被认为识别准确率很高蛋白质的种类是是庞大的，仅仅研究少量的折叠类型是不能满足要求，需要扩大研究的范围。且在识别准确率的方面也需要一定的提高。

发明内容

本发明要解决的技术问题是，提供一种基于氨基酸序列的蛋白质折叠类型识别方法，能够提高样本的识别范围和识别的准确率且能对折叠类型进行自动化识别不再需要人工的参与。

为实现上述目的，本发明采用如下的技术方案：

一种基于氨基酸序列的蛋白质折叠类型识别方法包括以下步骤：

步骤1、为α，β，α/β，α+β四类蛋白分别以家族和超家族为单位建立隐马尔科夫模型，分别以家族和超家族为代表的折叠类型识别模型集，同时对两个模型集分别进行扩充形成扩充家族模型集和扩充超家族模型集；

步骤2、根据所述折叠类型识别模型集，进行蛋白质折叠类型自动化识别。

作为优选，步骤1包括：

第一步：确定好训练集，判断训练集是否满足条件，若满足条件则进行第二步，若不满足调整则对训练集进行调整，使其满足条件；

第二步：对满足条件的训练集进行多结构比对；

第三步：观察比对是否成功，若成功则进行第四步，若失败则对训练集进行调整，再进行多结构比对；

第四步：提取比对结果中的序列比对信息；

第五步：根据所提取比对信息进行模型构建；

经过上述过程，一共建立了四个模型集；

其中，家族模型集：对α，β，α/β，α+β四类蛋白中晶体结构样本数量不少于两个的家族分别建立隐马尔科夫模型，采用属于一个折叠类型的家族模型共同代表该折叠类型，将所有模型组合到一起形成以家族为单位的折叠类型模型集，简称家族模型集，在采用该模型集进行折叠类型识别时，序列的匹配的家族模型所代表的折叠类型即是所测序列所属的折叠类型，

超家族模型集：对α，β，α/β，α+β四类蛋白中晶体结构样本数量不少于两个的超家族分别建立隐马尔科夫模型，采用属于一个折叠类型的超家族模型共同代表该折叠类型，将所有模型组合到一起形成以超家族为单位的折叠类型模型集，简称超家族模型集，采在用该模型集进行折叠类型识别时，序列的匹配的超家族模型所代表的折叠类型即是所测序列所属的折叠类型；

扩充家族模型集：将一个折叠类型内未参加家族模型建模的样本全部合并到一起，组成一个训练集，若训练集中的晶体结构样本量大于1，且该训练集能够进行多结构比对，则为该训练集建立隐马尔科夫模型，将所建的模型加入到家族模型集中组成扩充家族模型集；

扩充超家族模型集：分为两个部分，①将由于样本量较大无法建立超家族模型集的超家族按家族进行随机分割使分割后的每个训练集中的晶体结构都能进行多结构比对，对分割后的训练集建立模型，②将一个折叠类型内未参加超家族模型建模和①过程的样本全部合并到一起，组成一个训练集，若训练集中的晶体结构样本量大于1，且该训练集能够进行多结构比对，则为该训练集建立隐马尔科夫模型，将①和②所建的模型加入到超家族模型集组成扩充超家族模型集。

作为优选，步骤2具体包括：

折叠类型识别步骤、根据所述折叠类型识别模型集，对待测的蛋白质序列进行所属的折叠类型识别；

模型库更新步骤，对所含模型集进行更新，使模型集保持最新的使用状态。

附图说明

图1是本发明基于氨基酸序列的蛋白质折叠类型识别方法建立模型的流程图。

具体实施方式

本发明实施例提供一种基于氨基酸序列的蛋白质折叠类型识别方法，包括以下步骤：

步骤1、为α，β，α/β，α+β四类蛋白分别以家族和超家族为单位建立隐马尔科夫模型，分别以家族和超家族为代表的折叠类型识别模型集，用于对待测蛋白进行折叠类型识别，同时对两个模型集分别进行扩充形成扩充家族模型集和扩充超家族模型集，四个模型集均可以用于蛋白质折叠类型识别，可以扩大样本的识别范围。

本发明依据SCOPe数据库中α，β，α/β，α+β四类蛋白为研究对象。建模时所选的是SCOPe-2.05版本的数据。前期的研究表明隐马尔科夫模型在折叠类型识别中的识别效果显著，本发明所建的模型也是隐马尔科夫模型。具体的建模过程如下所述，如图1所示。

第一步：确定好训练集，判断训练集是否满足条件，若满足条件则进行第二步，若不满足调整则对训练集进行调整，使其满足条件。

第二步：对满足条件的训练集进行多结构(序列)比对。

第三步：观察比对是否成功，若成功则进行第四步，若失败则对训练集进行调整，再进行多结构比对。

第四步：提取比对结果中的序列比对信息。

第五步：根据所提取比对信息进行模型构建。

经过上述过程，一共建立了四个模型集。

家族模型集：对α，β，α/β，α+β四类蛋白中晶体结构样本数量不少于两个的家族分别建立隐马尔科夫模型。用属于一个折叠类型的家族模型共同代表该折叠类型。将所有模型组合到一起形成以家族为单位的折叠类型模型集，简称家族模型集。在用该模型集进行折叠类型识别时，序列的匹配的家族模型所代表的折叠类型即是所测序列所属的折叠类型。

超家族模型集：对α，β，α/β，α+β四类蛋白中晶体结构样本数量不少于两个的超家族分别建立隐马尔科夫模型。用属于一个折叠类型的超家族模型共同代表该折叠类型。将所有模型组合到一起形成以超家族为单位的折叠类型模型集，简称超家族模型集。在用该模型集进行折叠类型识别时，序列的匹配的超家族模型所代表的折叠类型即是所测序列所属的折叠类型。

扩充家族模型集：将一个折叠类型内未参加家族模型建模的样本全部合并到一起，组成一个训练集，若训练集中的晶体结构样本量大于1，且该训练集能够进行多结构比对，则为该训练集建立隐马尔科夫模型。将所建的模型加入到家族模型集中组成扩充家族模型集。

扩充超家族模型集：分为两个部分。①将由于样本量较大无法建立超家族模型集的超家族按家族进行随机分割使分割后的每个训练集中的晶体结构都能进行多结构比对。对分割后的训练集建立模型。②将一个折叠类型内未参加超家族模型建模和①过程的样本全部合并到一起，组成一个训练集，若训练集中的晶体结构样本量大于1，且该训练集能够进行多结构比对，则为该训练集建立隐马尔科夫模型。将①和②所建的模型加入到超家族模型集组成扩充超家族模型集。

自动化的识别可以不再需要人工的参与，减少因识别过程中人为因素造成的识别效果不佳。

自动化识别包括两个部分：

①折叠类型识别

识别序列所属的折叠类型，用户只需提供待测的序列的信息，就可获得该序列所属的可能折叠类型。

②模型集更新

删除模型：可以删除错误或者过时的模型

建立新模型：根据所提供的比对文件(.afasta形式)，建立新的隐马尔科夫模型

更新模型集：将修改后的模型集(删除或者新添加模型)归一化，形成可用于折叠类型识别的新的模型集。

本发明的有益效果是：提高了折叠类型识别的样本覆盖范围和准确率。

为检验模型集的识别效果，不同方面构造了四个检验集：

检验集1：第SCOPe-2.05数据库中相似性小于40％的晶体结构样本；

检验集2：SCOPe-2.05数据库中相似性小于40％的全部样本；

检验集3：SCOPe-2.06数据库相似性小于95％比SCOPe-2.05数据库多出的晶体结构样本；

检验集4：SCOPe-2.06数据库相似性小于95％比SCOPe-2.05数据库多出的全部样本。

分别用该四个检验集检验模型集的识别效果。用国际上通用的模型评价标准敏感性、特异性和MCC值来评价模型的识别效果。其结果表1所示

表1模型集识别效果检验

(1)提高样覆盖范围

本发明所建的四个模型能识别能识别SCOPe数据库中四类蛋白的大部分样本。四个模型集(家族模型集，超家族模型集，扩充家族模型集，扩充超家族模型集)对四类蛋白样本覆盖率分别为86.32％，68.58％，97.43％，97.43％。

(2)提高折叠类型识别的准确率

表1中可以看出，四个模型集对四个检验集识别的平均敏感性都是99％，特异性维持在93％-99％之间，综合评价指标MCC值在0.95到0.99。

Claims

1.一种基于氨基酸序列的蛋白质折叠类型识别方法，其特征在于，包括以下步骤：

步骤1、为α，β，α/β，α+β四类蛋白分别以家族和超家族为单位建立隐马尔科夫模型，分别以家族和超家族为代表的折叠类型识别模型集，同时对两个模型集分别进行扩充形成扩充家族模型集和扩充超家族模型集；具体为：

第二步：对满足条件的训练集进行多结构比对；

第四步：提取比对结果中的序列比对信息；

第五步：根据所提取比对信息进行模型构建；

经过上述过程，一共建立了四个模型集；

扩充超家族模型集：分为两个部分，①将由于样本量较大无法建立超家族模型集的超家族按家族进行随机分割使分割后的每个训练集中的晶体结构都能进行多结构比对，对分割后的训练集建立模型，②将一个折叠类型内未参加超家族模型建模和①过程的样本全部合并到一起，组成一个训练集，若训练集中的晶体结构样本量大于1，且该训练集能够进行多结构比对，则为该训练集建立隐马尔科夫模型，将①和②所建的模型加入到超家族模型集组成扩充超家族模型集；

2.如权利要求1所述的基于氨基酸序列的蛋白质折叠类型识别方法，其特征在于，步骤2具体包括：