CN104615910A

CN104615910A - 基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法

Info

Publication number: CN104615910A
Application number: CN201410842077.3A
Authority: CN
Inventors: 张慧玲; 贝振东; 魏彦杰
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2014-12-30
Filing date: 2014-12-30
Publication date: 2015-05-13
Anticipated expiration: 2034-12-30
Also published as: CN104615910B

Abstract

本发明适用于生物计算领域，提供了一种基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法。该方法包括下述步骤：收集具有确定三维结构的α跨膜蛋白链构建训练集；基于所述的训练集，分别提取所述α跨膜蛋白链中螺旋上相互作用的残基对和非相互作用的残基对特征信息，使用随机森林算法构建预测模型；收集用于测试的、具有确定一级结构的目标α跨膜蛋白，提取其α螺旋中的残基对特征信息，基于所述预测模型进行预测；根据预测结果判断所述目标α跨膜蛋白中的螺旋对是否存在相互作用的残基对。该方法不仅计算速度快，且准确率高。

Description

基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法

技术领域

本发明属于生物计算领域，尤其涉及基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法。

背景技术

目前已知的或正在研究的药物靶点中，膜蛋白约占60％。膜蛋白的三维结构很大程度上决定了其生理功能，而膜蛋白的生理功能往往决定了其药理功能。因此，为了加快膜蛋白靶点药物的研究，对膜蛋白的三维结构的测定十分重要。目前，解析蛋白质三维结构的生物学实验方法主要有X-RAY和NMR法，但这些方法不仅较为复杂，耗时，而且花费较高。有鉴于此，通过计算生物学的方法来获得新的结构显得尤为重要。

目前用于蛋白质三维结构预测的计算方法主要有同源模建法、折叠识别法和从头预测法。这些方法不仅计算速度较慢，且精度和覆盖度仍有待提高，因此，膜蛋白三维结构的确认工作进展缓慢。

有学者证明了将残基作用关系应用到从头预测法中，不仅可以大大节约三维结构的预测时间，还可以提高预测的精度(所谓残基作用关系是指那些在蛋白质的一级序列中不相邻而在三级结构中邻近的残基对。当两个α螺旋上存在相互作用的残基对时，就认为这两个残基所在的α螺旋存在相互作用关系)。代表性膜蛋白残基作用关系预测方法有Nugent与Jones提出的MEMPACK和Lo等人提出的TMhit。

在基因组数据中，有20％-30％的产物被预测为跨膜蛋白，而实验测定的限制，导致PDB数据库中的跨膜蛋白仅占跨膜蛋白总数的1％左右。鉴于已知的膜蛋白结构十分有限，而目前用于蛋白质残基作用对的预测方法少、且具有准确率低、速度慢耗时长等缺点的现状，寻求一种高效、准确的α跨膜蛋白三维结构的预测方法显得尤为重要。

发明内容

本发明的目的在于提供一种基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法，旨在解决现有α跨膜蛋白三维结构的预测方法少、速度慢耗时长、且准确率低的问题。

本发明是这样实现的，一种基于随机森林预测α跨膜蛋白链的螺旋相互作用关系的方法，包括下述步骤：

收集具有确定三维结构的α跨膜蛋白链构建训练集；

基于所述的训练集，分别提取所述α跨膜蛋白中螺旋上相互作用的残基对和非相互作用的残基对特征信息，使用随机森林算法构建预测模型；

收集用于测试的、具有确定一级结构的目标α跨膜蛋白，提取其α螺旋中的残基对特征信息，基于所述预测模型进行预测；

根据预测结果判断所述目标α跨膜蛋白中的螺旋是否存在相互作用的残基对。

本发明基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法，不仅方法方便快捷，且预测得到的α跨膜蛋白中残基对的相互作用关系可直接用于判断α跨膜蛋白中α螺旋的相互作用关系，即膜蛋白三维结构预测，并大大减少三维结构预测中算法对蛋白质构象的搜索空间，使得α跨膜蛋白三维结构预测的准确性得到提高。

具体实施方式

为了使本发明要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

随机森林法是一个包含多个决策树的分类器，用随机的方式建立一个森林，森林由众多决策树组成，随机森林的每一棵决策树之间是无关联的。得到森林之后，每当输入一个新的样本，就让森林中的每一棵决策树分别判断该样本应该属于哪一类(对于分类算法)，然后根据哪一类被选择最多，就预测这个样本为哪一类。

基于上述理论，本发明实施例提供了一种基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法，包括下述步骤：

S01.收集具有确定三维结构的α跨膜蛋白构建训练集；

S02.基于所述的训练集，分别提取所述α跨膜蛋白中螺旋上的相互作用的残基对和非相互作用的残基对特征信息，使用随机森林算法构建预测模型；

S03.收集用于测试的、具有确定一级结构的目标α跨膜蛋白，提取其α螺旋中的残基对特征信息，基于所述预测模型进行预测；

S04.根据预测结果判断所述目标α跨膜蛋白中的螺旋是否存在相互作用的残基对。

蛋白质残基作用对的定义有多种，例如基于原子的范德华距离的定义，基于CA-CA原子距离的定义以及基于CB-CB原子距离的定义。本发明实施例中，将位于跨膜蛋白α螺旋上的CA-CA原子距离对作为界定残基对相互作用关系的标准，具体的，将所述α跨膜蛋白α螺旋中CA-CA原子距离的残基对设置为相互作用的残基对，将CA-CA原子距离的残基对设置为非相互作用的残基对。α跨膜蛋白中，当两个α螺旋上存在相互作用的残基对时，就认为这两个残基所在的α螺旋存在相互作用关系。

本发明实施例旨在通过研究α跨膜蛋白螺旋上的残基对信息，获取相互作用的残基对，进而获得残基所在的α螺旋存在的相互作用关系信息，达到预测α螺旋相互作用关系的目的。

对于任何一个基于机器学习的方法，高质量的训练集和验证集都至关重要。上述步骤S01中，需要收集高质量的α跨膜蛋白链构建训练集。本发明实施例本中的训练集数据集来自于PDBTM(Protein Data Bank of Transmembrane Proteins)中非冗余数据集，该数据集包含405个α跨膜蛋白链。为了进一步减少冗余性，上述蛋白质列表被输入到PISCES在线工具中进行进一步限定，PISCES的限定参数输入为：maximum percentage identity-35％；skip non-X-ray entries？-No；skip CA-only entries？-No；其它参数选用默认值。经PSICES处理后得到168个α跨膜蛋白链。由于残基作用对只存在于包含2个及以上的α螺旋的膜蛋白中，因此对其进一步筛选获得116个α螺旋个数在2及其以上的跨膜蛋白链。本发明实施例优选选用116个符合标准的膜蛋白链中，2012年及之前解析的95个结构作为用于训练的跨膜蛋白集合。也就意味着，所述构建训练集的步骤中，选取PDBTM中，α螺旋蛋白链α螺旋个数在2以上、序列相似度小于35％、分辨率小于3.0、且已于2012年或之前三维结构得到确认的95个α跨膜蛋白链作为训练集。

本发明实施例中，将跨膜蛋白α螺旋上的所有残基对都标记为相互作用或非作用，从而产生了一个相互作用与非相互作用数量比为1：6的数据集。为了平衡训练集中两类数据的数量，并节约训练时间，以20％的抽样率随机抽样，保留了1/5的相互作用残基对，并以20％的抽样率随机选取了非相互作用的残基对，最终使得所述训练集中，所述相互作用的残基对和非相互作用的残基对的数量比为1：6。

上述步骤S02中，本发明实施例采用特定特征来区分相互作用的残基对和非相互作用的残基对。具体的，所述α跨膜蛋白链中的残基对特征，包括下述六类特征：

(1)PSSM(Position-Specific Scoring Matrix)特征：PSSM中的每个残基都由一个20维的向量表示，表示20种氨基酸在PSSM相应位置出现的频率；PSSM特征分为两类：第一类是以残基对(i，j)中的残基i和残基j分别为中心取一个大小为7的滑动窗口，即对每个残基对可得到2×7×20＝280个PSSM 特征；第二类是以残基对(i，j)的中间位置(i+j)/2为中心取一个大小为3的滑动窗口，即可获得3×20＝60个PSSM特征，两类PSSM特征的总数为280+60＝340个；

进一步的，所述PSSM特征是通过运行PSI-BLAST程序获得，运行所述PSI-BLAST程序时采用的数据库位UNIREF90数据库。

(2)残基在α螺旋中相对距离特征：假设p为残基对中的一个残基在长度为l的螺旋上的相对位置，那么残基在α螺旋中相对距离特征就定义为p/l，对于每个残基对可以提取2个该特征；

(3)序列间隔特征：根据α跨膜蛋白中α螺旋一级序列中氨基酸个数，将其划分为九个区间，即＜25、25-50、50-75、75-100、100-125、125-150、150-175、175-200和＞200，分析残基对在的位置间隔分别位于哪个区间，形成序列间隔特征，对于每个残基对而言，序列间隔特征共9个；

(4)残基类型特征：组成蛋白质的氨基酸共20种，根据氨基酸R基的极性性质可分为酸性氨基酸、碱性氨基酸和中性氨基酸，其中，中性氨基酸又可分为极性氨基酸和非极性氨基酸，根据这4种不同的氨基酸类型，一个残基作用对对应两个氨基酸，可以产生10种不同的组合，即非极性/非极性，非极性/极性，非极性/酸性，非极性/碱性，极性/极性，极性/酸性，极性/碱性，酸性/酸性，酸性/碱性以及碱性/碱性，计为10个残基类型特征；

(5)α螺旋个数特征：根据α跨膜蛋白中所包含的α螺旋个数，可分为2-4、5-7、8-1、＞10这4个区间，每个残基对特征向量包含4个该类特征；

(6)序列长度特征：根据α跨膜蛋白中一级序列的长度，可分为<100、100-400、400-800、＞800这4个区间，每个残基对特征向量包含4个该类特征；

综上所述，本发明实施例含有340个PSSM特征、2个α螺旋中相对距离特征、9个序列间隔特征、10个残基类型特征、4个α螺旋个数特征以及4个序列长度特征，共计369个特征。

所述构建预测模型的步骤中，提取所述α螺旋蛋白链中残基对的特征信息时，将所述α跨膜蛋白链中相互作用的残基对和非相互作用的残基对的序列间隔特征、残基类型特征、α螺旋个数特征、序列长度特征以二进制码分别设置0或1，其中，1表示含有对应的特征，0表示不含有对应的特征。

具体的，所述序列间隔特征中，可将相应的序列间隔特征000000000置0或置1来表示该特征，0表示不在该区间，1表示在该区间。

所述残基类型特征中，20种氨基酸R基的极性性质可分为酸性氨基酸(谷氨酸及天冬氨酸)、碱性氨基酸(赖氨酸、精氨酸及组氨酸)和中性氨基酸，其中中性氨基酸又可分为极性氨基酸(甘氨酸、丝氨酸、半胱氨酸、苏氨酸、酪氨酸、天冬酰胺及谷氨酰胺)和非极性氨基酸(丙氨酸、亮氨酸、异亮氨酸、苯丙氨酸、甲硫氨酸、色氨酸、缬氨酸及脯氨酸)。根据这4种不同的氨基酸类型，一个残基作用对(对应两个氨基酸)可以产生10种不同的组合，以二进制码0000000000分别置0或置1来代表不同的组合类型，计为10个残基类型特征。

所述α螺旋个数特征中，以二进制向量0000置0或置1来表示该特征，即0表示不在该区间，1表示在该区间。

所述序列长度特征中，以二进制向量0000置0或置1来表示该特征，即0表示不在该区间，1表示在该区间。

本发明实施例使用随机森林算法构建预测模型，所述随机森林算法使用R语言中随机森林(randomForest)算法程序包来实现。对所述随机森林算法的参数进行设置，其中，随机森林算法中决策树的数量(ntree)设置为100，内部节点随机选择属性的个数(mtry)采用默认值。

上述步骤S03中，根据所述目标α跨膜蛋白的一级结构，使用MEMSAT3软件确定所述α跨膜蛋白的二级结构。将所述目标α跨膜蛋白的一级结构、二级结构分别进行输入，并获取α螺旋中的残基对特征信息，其中，所述PSSM特征信息调用PSI-BLAST软件完成。然后，将所述α跨膜蛋白螺旋上所有的残基对分别按特征矩阵编号为相应的行，将特征信息构建成特征矩阵相应的列，形成特征矩阵。然后使用所述预测模型中生成的特征矩阵中的各行所表示的残基对进行二分类，将符合预测模型中相互作用的残基对信息的所述残基对作为一类，将符合预测模型中非相互作用的残基对信息的所述残基对作为另一类。

上述步骤S04中，所述预测结果经预测模型进行预测后，对所述目标α跨膜蛋白链中的各残基对进行二分类，并输出相互作用的残基对，根据输出的预测结果，从而判断所述残基对所在的α螺旋的相互作用关系。

对于一个一级结构序列已知，但三维结构序列未知的蛋白质，可靠的残基作用关系可以有效地提高α螺旋相互作用以及三维结构等预测的效率和精度。本发明实施例提供的基于随机森林算法基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法，预测α螺旋上的残基作用关系，继而得到α螺旋-α螺旋相互作用关系。预测结果可直接用于膜蛋白三维结构预测，并大大减少三维结构预测中算法对蛋白质构象的搜索空间。

本发明实施例中，所述α跨膜蛋白即指α螺旋跨膜蛋白，所述α跨膜蛋白的螺旋即指α螺旋跨膜蛋白中的α螺旋；此外，所述英文缩写及其意思表达如下：

PDB：收录蛋白质和核算三维结构资料的数据库；

PDBTM：一个从PDB蛋白数据库中选择的跨膜蛋白数据库；

PISCES：A Protein Sequence Culling Server服务器；

PSSM：位置特异性得分矩阵；

PSI-BLAST：NCBI上的对比搜索工具—蛋白质的数据库搜索程序；

MEMSAT3：膜蛋白二级结构和跨膜区域预测软件。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法，包括下述步骤：

收集具有确定三维结构的α跨膜蛋白链构建训练集；

基于所述的训练集，分别提取所述α跨膜蛋白链中螺旋上相互作用的残基对和非相互作用的残基对特征信息，使用随机森林算法构建预测模型；

2.如权利要求1所述的基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法，其特征在于，所述α跨膜蛋白链和所述α跨膜蛋白螺旋中的残基对特征，包括下述六类特征：

(1)PSSM特征：PSSM中的每个残基都由一个20维的向量表示，表示20种氨基酸在PSSM相应位置出现的频率；PSSM特征分为两类：第一类是以残基对(i，j)中的残基i和残基j分别为中心取一个大小为7的滑动窗口，即对每个残基对可得到2×7×20＝280个PSSM特征；第二类是以残基对(i，j)的中间位置(i+j)/2为中心取一个大小为3的滑动窗口，即可获得3×20＝60个PSSM特征，两类PSSM特征的总数为280+60＝340个；

(4)残基类型特征：组成蛋白质的氨基酸共20种，根据氨基酸R基的极性性质可分为酸性氨基酸、碱性氨基酸和中性氨基酸，其中，中性氨基酸又可分为极性氨基酸和非极性氨基酸，根据这4种不同的氨基酸类型，一个残基作用对对应两个氨基酸，可以产生10种不同的组合计为10个残基类型特征；

(6)序列长度特征：根据α跨膜蛋白中一级序列的长度，可分为<100、100-400、400-800、＞800这4个区间，每个残基对特征向量包含4个该类特征。

3.如权利要求1所述的基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法，其特征在于，所述训练集中，所述相互作用的残基对和非相互作用的残基对的数量比为1：6。

4.如权利要求1所述的基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法，其特征在于，所述使用训练集构建预测模型的步骤中，对所述随机森林算法的参数进行设置，其中，决策树的数量设置为100。

5.如权利要求1所述的基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法，其特征在于，所述使用预测模型对目标α跨膜蛋白进行预测的步骤中，由所述目标α跨膜蛋白的一级结构使用软件获取其二级结构，将所述目标α跨膜蛋白的一级结构、二级结构分别进行输入，并获取α螺旋中的残基对特征信息后，将所述α跨膜蛋白螺旋上所有的残基对分别按特征矩阵编号为相应的行，将特征信息构建成特征矩阵相应的列，形成特征矩阵；然后使用所述预测模型中生成的特征矩阵中的各行所表示的残基对进行二分类，将符合预测模型中相互作用的残基对信息的所述残基对作为一类，将符合预测模型中非相互作用的残基对信息的所述残基对作为另一类。

6.如权利要求1所述的基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法，其特征在于，所述构建训练集的步骤中，选取PDBTM中，α跨膜蛋白中α螺旋个数在2以上、序列相似度小于35％、分辨率小于3.0、且已于2012年或之前三维结构得到确认的95个α跨膜蛋白作为训练集。

7.如权利要求1所述的基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法，其特征在于，所述构建预测模型的步骤中，根据所述目标α跨膜蛋白的一级结构，使用MEMSAT3确定所述α跨膜蛋白的二级结构。

8.如权利要求2所述的基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法，其特征在于，所述构建预测模型的步骤中，将所述α跨膜蛋白链中螺旋上相互作用的残基对和非相互作用的残基对的序列间隔特征、残基类型特征、α螺旋个数特征、序列长度特征以二进制码分别设置0或1，其中，1表示含有对应的特征，0表示不含有对应的特征。

9.如权利要求2所述的基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法，其特征在于，所述PSSM特征是通过运行PSI-BLAST程序获得，运行所述PSI-BLAST程序时采用的数据库为UNIREF90数据库。

10.如权利要求1所述的基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法，其特征在于，所述预测结果经预测模型进行预测后，对所述目标α跨膜蛋白链中螺旋上的各残基对进行二分类，并输出相互作用的残基对，从而判断所述残基对所在的α螺旋的相互作用关系。