CN102760209A - 一种非参数膜蛋白跨膜螺旋预测方法 - Google Patents
一种非参数膜蛋白跨膜螺旋预测方法 Download PDFInfo
- Publication number
- CN102760209A CN102760209A CN2012101534416A CN201210153441A CN102760209A CN 102760209 A CN102760209 A CN 102760209A CN 2012101534416 A CN2012101534416 A CN 2012101534416A CN 201210153441 A CN201210153441 A CN 201210153441A CN 102760209 A CN102760209 A CN 102760209A
- Authority
- CN
- China
- Prior art keywords
- protein
- nonparametric
- som
- transbilayer helix
- amino acid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Peptides Or Proteins (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种非参数膜蛋白跨膜螺旋预测方法。首先利用PSI-BLAST程序获取蛋白质的进化信息,并使用滑动窗口技术抽取每个氨基酸残基的特征;然后,利用自组织神经网络(SOM)学习跨膜螺旋在特征空间中的分布规律,将分布规律知识编码在SOM的权值向量中;预测阶段,对给定的待预测蛋白质的每个氨基酸残基使用概率神经网络(PNN)非参数模型进行预测,得到预测曲线后,使用发明人自行提出的动态阈值分割技术确定每个氨基酸残基是否属于跨膜螺旋片段。优点在于:一是使用概率神经网络模型,使得预测模型仅需调节一个参数;二是使用学习得到的SOM的权向量作为PNN的基样本,保证了跨膜螺旋预测精度的同时提高了预测速度。
Description
技术领域
本发明涉及膜蛋白质序列跨膜螺旋预测技术,特别是一种非参数膜蛋白跨膜螺旋预测方法。
背景技术
膜蛋白(Transmembrane Protein)在生物体中是一类非常重要的蛋白质, 它对于细胞的营养物质运输、细胞间信号传递以及能量交换都起着非常重要的作用。同时,膜蛋白也是很多药物作用的靶点, 最典型的为G蛋白家族。有研究表明, 药物研发中60%~70%的目标蛋白是G蛋白家族成员。在基因组数据中,有20%~ 30%的基因产物被预测为膜蛋白,然而遗憾的是,在PDB( Protein Data Bank)数据库中只有1%左右的跨膜蛋白结构被精确测定。由于膜蛋白的疏水特性,使得其结构的生物测定非常困难:它需要与生物膜结合才能形成稳定的天然构象,难以得到晶体结构, 而测定蛋白质三维结构最常用的是使用X射线进行晶体衍射和使用核磁共振技术进行测定。膜蛋白的特殊结构使得这两种方法实现起来都非常不利。因此应用生物信息学的相关知识,使用计算机预测技术来研究膜蛋白的跨膜结构就显得尤为重要, 对于发现和认识新的跨膜蛋白以及研究其结构和生理功能有着重要的意义。
目前已经有很多膜蛋白跨膜螺旋预测模型出现,跨膜螺旋的预测精度正日益提高。典型的膜蛋白跨膜螺旋预测方法有:TMHMM (A. Krogh, B. Larsson, G. von Heijne, and E. L. Sonnhammer, "Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes," J. Mol. Biol., vol. 305, pp. 567-580, 2001.)和PHOBIUS (L. Kall, A. Krogh, and E. L. Sonnhammer, "A combined transmembrane topology and signal peptide prediction method," J. Mol. Biol., vol. 338, pp. 1027-36, 2004.),这两种方法均使用隐马尔可夫模型(Hidden Markov Model, HMM)来进行跨膜螺旋的预测;基于神经网络和动态规划的方法,如MEMSAT3 (Improving the accuracy of transmembrane protein topology prediction using evolutionary information. Bioinformatics, 23(5):538-544, 2007);基于支持向量基的方法,如SVMtm (Z. Yuan, J. S. Mattick, and R. D. Teasdale, “SVMtm: Support vector machines to predict transmembrane segments,” J. Comput. Chem., vol.25, pp. 632–636, 2004)。
然而,综合分析这些预测模型,可以发现,大部分现有的方法都是参数化方法,也就是说,模型在学习过程中有大量的参数需要进行优化,一方面带来计算复杂度的提高,另外一方面,参数的选择非常困难。
本发明提出的方法基于膜蛋白质的进化信息,采用模糊规则集推理技术来设计膜蛋白跨膜螺旋的预测,具有较佳的模型可解释性。使用了PSI-BLAST 程序(A. A. Schaffer et al., “Improving the accuracy of PSI-BLAST protein database searches with composition-based statistics and other refinements,” Nucleic Acids Res., vol. 29, pp. 2994–3005, 2001)来提取膜蛋白质的进化信息;在模式特征分布规律学习阶段,使用了自组织映射神经网络(T. Kohonen, Self-Organization and Associative Memory, 3rd ed. New York: Springer-Verlag, 1989.);在预测阶段,使用了Specht 提出的概率神经网络技术 (Specht DF (1990) Probabilistic neural networks and the polynomial Adaline as complementary techniques for classification. IEEE Trans Neural Netw 1(1):111–121.), 在蛋白质跨膜螺旋预测阶段,使用了发明人自行提出的动态阈值分割的方法(Shen H, Chou JJ (2008) MemBrain: improving the accuracy of predicting transmembrane helices. PLoS One 3(6):e2399)。
发明内容
本发明的目的在于解决预测模型在学习过程中参数选择困难,并且需要对大量参数进行优化使计算复杂度提高和速度降低的问题,提出了一种非参数膜蛋白跨膜螺旋预测方法。
本发明的技术方案是:一种非参数膜蛋白跨膜螺旋预测方法,它包括以下步骤:
第一步:特征提取,将蛋白质序列中的氨基酸残基转换为向量形式表示。对于一个由 个氨基酸组成的蛋白质,通过 PSI-BLAST算法可得到其特定位置的分矩阵(Position Specific Scoring Matrix, PSSM), 该矩阵为行20列;先对该PSSM进行逐行标准化,然后使用滑动窗口技术得到每个氨基酸残基的特征矩阵;然后将特征矩阵拉成向量形式,该残基的 维的特征向量: ,其中 表示第几个残基, 为窗口大小。
第二步:模式特征分布规律学习,使用自组织映射神经网络(Self-organizing Map, SOM),在特征空间中学习蛋白质跨膜螺旋样本的分布规律,并消除原始训练样本噪声。对于给定的训练样本集 ,其中0表示非跨膜,1表示跨膜,使用批量学习算法来训练SOM,直到SOM收敛或是达到预先设定的学习步数。
第三步:概率神经网络构建。使用训练好的SOM的权值向量(codebook vectors),而不是原始的训练样本,作为基样本来构建概率神经网络(Probabilistic Neural Network, PNN)。
第四步:蛋白质跨膜螺旋预测,对于给定的待预测蛋白质,使用上述步骤三中所构建的概率神经网络,对其中的氨基酸残基的跨膜螺旋性进行逐个预测,得到预测曲线,然后使用动态阈值分割的方法,确定每个残基是否属于跨膜螺旋片段。
本发明的有益效果:
本发明与现有预测技术相比,其显著优点:(1) 非参数化:现有的膜蛋白跨膜螺旋段预测方法多数采用的是参数化的方法,因此需要优化的参数较多,使用时参数的选择显著影响预测的结果。而本发明使用概率神经网络这一无需训练的非参数模型,使得所实现的预测模型仅需调节一个参数;(2) 提高预测速度:本发明的另一个特色在于,在构建PNN时,使用的是训练后的SOM的权值向量(这些权值向量蕴含了螺旋结构的分布特性),而不是原始训练样本。由于SOM的权值向量的个数远低于原始训练样本的个数,因此得到的PNN具有更紧致的结构,在保证预测精度的前提下,大大提高了模型的预测速度。
附图说明
图1是快速非参数膜蛋白跨膜螺旋预测方法。
图2是训练后的SOM的类别标注图。
图3是蛋白质the spinach minor light-harvesting complex CP29 (PDB code: 3PL9)的跨膜概率曲线。
具体实施方式
下面结合附图对本发明作进一步的说明。
图1给出了本发明的流程图:
首先,使用PSI-BLAST获取训练蛋白质的PSSM矩阵;其次,从PSSM矩阵构建训练数据集;然后,使用SOM对训练数据集进行学习;最后,使用训练好的SOM的权值向量来构建概率神经网络(PNN)。预测阶段,对于给定的蛋白质,使用PNN,依次预测各个残基属于跨膜螺旋的概率,然后使用动态阈值分割法,判定每个残基是否属于跨膜螺旋。下面,具体进行阐述:
对PSSM逐行进行归一化:
其中
(6)
第二步:模式特征分布规律学习,也就是使用 ,应用批量学习算法来训练SOM。在第次批量学习时,首先计算Voronoi 区域 ,其中 ; 中的向量之和记为 ;然后,使用如下的迭代公式更新SOM的权值向量:
训练完毕后,对SOM的每个输出节点进行标注,将输出节点分为两类:0和1,分别对应非跨膜类别和跨膜类别,如图2所示。从该图可以看出,两类的分布具有规律性。
第三步:使用训练后的SOM的权值向量构建PNN。
概率神经网络(Probabilistic Neural Network, PNN)起源于Parzen概率密度估计方法,是一种非参数的概率密度估计方法。给定类别 的训练数据集 (注:这里的训练数据集由训练好的SOM的权值向量所构成,而不是原来用于训练SOM的数据集,这点至关重要。),其中 是 中训练样本的个数,则其条件概率密度函数估计为:
(8)
式(10)中 是类别数。本发明中使用概率分类算法计算待测膜蛋白每个位置上的氨基酸属于TMH的概率。
第四步:蛋白质跨膜螺旋预测,对于给定的待预测蛋白质,使用所构建的PNN,预测出该蛋白质中的每个氨基酸残基属于跨膜螺旋的概率值,得到概率曲线;然后使用动态阈值分割技术,确定哪些残基是属于跨膜螺旋的。
实例:使用的膜蛋白数据库从SWISS-PROT中抽取得到,共计120个跨膜蛋白。首先,使用第一步来抽取各个氨基酸残基的特征向量;然后,使用SOM来对这些抽取得到的特征向量进行学习;最后,使用训练好的SOM的权值向量构建PNN,得到最终的跨膜螺旋预测模型。下面,我们使用该预测模型,对于最近刚由生物学家解析出的一个膜蛋白(the spinach minor light-harvesting complex CP29 (PDB code:3PL9), Pan XW, Li M, Wan T, Wang LF, Jia CJ, Hou ZQ, ZHANG JP, Zhao XL, Chang WR (2011) Structural insights into energy regulation of light-harvesting complex CP29 from spinach. Nat Struct Mol Biol 18(3):309–316)的跨膜螺旋进行预测。
下面以预测蛋白质3PL9的跨膜螺旋片段为例。蛋白质3PL9的氨基酸序列如下所示:
>3PL9
AQPKSGFSTDRPLWYPGAKAPEYLDGSLVGDYGFDPFGLGKPAEYLQYDYDGLDQNLAKNLAGDIIGTRTESADVKSTSLQPYSEVFGLQRFRECELIHGRWAMLATLGALTVEGLTGITWQDAGKVELIEGSSYLGQPLPFSMTTLIWIEVLVIGYIEFQRNAELDTEKRLYPGGTFDPLGLASDPEKKPILQLAEIKHARLAMVGFLGFAVQAAVTGKGPLNNWVTHLSDPLHTTILDRFL
该蛋白质共有3个跨膜片段,即:89-118 143-164 189-219。
使用本专利方法,首先生成该蛋白质的PSSM矩阵;然后,使用滑动窗口技术提取每个残基的特征;将各个残基的特征作为PNN的输入,得到该残基属于跨膜螺旋的倾向性;最后,将该蛋白质中所有残基的倾向性画成曲线,如图3所示;使用阈值分割技术,即可得到预测的跨膜螺旋片段:100-114,142-160,202-215。从该实例可以看出,预测的结果和实际值吻合的相当好。此外,我们还用其他几个著名的方法对3PL9进行了预测,得到的结果与本方法的比较见表1。从表1可以看到,本专利方法在对这个最新由生物学家解析得到蛋白质3PL9的预测上取得了最佳的结果,证明了本专利方法的泛化能力很强。
表1. 本专利方法与几个著名跨膜螺旋预测方法在对蛋白质3PL9进行预测时的性能比较
[注] 表1中几个著名的跨膜螺旋预测器的Web Server地址如下:
TMHMM http://www.cbs.dtu.dk/services/TMHMM/
SOSUI http://bp.nuap.nagoya-u.ac.jp/sosui/
DAS-TMfilter http://mendel.imp.ac.at/sat/DAS/DAS.html
PHOBIUS http://phobius.cgb.ki.se/
TOP-PRED http://bioweb.pasteur.fr/seqanal/interfaces/toppred.html
MemBrain http://www.csbio.sjtu.edu.cn/bioinf/MemBrain/
上述实施例不以任何方式限制本发明,凡是采用等同替换或等效变换的方式获得的技术方案均落在本发明的保护范围内。
Claims (5)
1.一种非参数膜蛋白跨膜螺旋预测方法,包括以下四个步骤,第一步:特征提取,将蛋白质序列中的氨基酸残基使用滑动窗口技术并结合其进化特征转换为向量形式表示;第二步:使用自组织映射神经网络进行跨膜螺旋分布特征的学习;第三步:使用学习得到的SOM的权值向量构建概率神经网络;第四步:蛋白质跨膜螺旋预测;其特征在于:在上述第二步中采用模式特征分布规律学习,使用自组织映射神经网络,在特征空间中学习蛋白质跨膜螺旋样本的分布规律,并消除原始训练样本噪声,使用批量学习算法来训练SOM,直到SOM收敛或是达到预先设定的学习步数;在上述第三步中采用从上述步骤二中训练好的SOM的权值向量来构建PNN;在上述第四步中,对于给定的待预测蛋白质,使用上述步骤三中所构建的概率神经网络,对其中的氨基酸残基的跨膜螺旋性进行逐个预测,得到预测曲线,使用动态阈值分割的方法确定每个残基是否属于跨膜螺旋片段。
4.根据权利要求1所述的非参数膜蛋白跨膜螺旋预测方法,其特征在于:在上述第二步中,对SOM的每个输出节点进行标注,将输出节点分为两类:0和1,分别对应非跨膜类别和跨膜类别。
5.根据权利要求1所述的非参数膜蛋白跨膜螺旋预测方法,其特征在于:在上述第三步中使用概率分类算法计算待测膜蛋白每个位置上的氨基酸属于TMH的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101534416A CN102760209A (zh) | 2012-05-17 | 2012-05-17 | 一种非参数膜蛋白跨膜螺旋预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101534416A CN102760209A (zh) | 2012-05-17 | 2012-05-17 | 一种非参数膜蛋白跨膜螺旋预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102760209A true CN102760209A (zh) | 2012-10-31 |
Family
ID=47054664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012101534416A Pending CN102760209A (zh) | 2012-05-17 | 2012-05-17 | 一种非参数膜蛋白跨膜螺旋预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102760209A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103500292A (zh) * | 2013-09-27 | 2014-01-08 | 南京理工大学 | 配体特异性蛋白质-配体绑定区域预测方法 |
CN104504299A (zh) * | 2014-12-29 | 2015-04-08 | 中国科学院深圳先进技术研究院 | 预测膜蛋白的残基间的作用关系的方法 |
CN104615911A (zh) * | 2015-01-12 | 2015-05-13 | 上海交通大学 | 基于稀疏编码及链学习预测膜蛋白beta-barrel跨膜区域的方法 |
CN107480469A (zh) * | 2017-07-31 | 2017-12-15 | 同济大学 | 一种用于在基因序列中快速搜索给定模式的方法 |
CN111271183A (zh) * | 2020-02-26 | 2020-06-12 | 重庆红江机械有限责任公司 | 一种自适应在线预测柴油机状态方法及系统 |
CN111755065A (zh) * | 2020-06-15 | 2020-10-09 | 重庆邮电大学 | 一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060008831A1 (en) * | 2004-07-09 | 2006-01-12 | Sreekumar Kodangattil R | Methods and systems for predicting protein-ligand coupling specificities |
CN101187960A (zh) * | 2007-12-06 | 2008-05-28 | 上海大学 | 膜蛋白分类在线预报方法 |
-
2012
- 2012-05-17 CN CN2012101534416A patent/CN102760209A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060008831A1 (en) * | 2004-07-09 | 2006-01-12 | Sreekumar Kodangattil R | Methods and systems for predicting protein-ligand coupling specificities |
CN101187960A (zh) * | 2007-12-06 | 2008-05-28 | 上海大学 | 膜蛋白分类在线预报方法 |
Non-Patent Citations (2)
Title |
---|
DONG-JUN YU等: "SOMPNN: an efficient non-parametric model for predicting transmembrane helices", 《AMINO ACIDS》 * |
DONGJUN YU等: "SOMRuler: A Novel Interpretable Transmembrane Helices Predictor", 《IEEE TRANSACTIONS ON NANOBIOSCIENCE》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103500292A (zh) * | 2013-09-27 | 2014-01-08 | 南京理工大学 | 配体特异性蛋白质-配体绑定区域预测方法 |
CN104504299A (zh) * | 2014-12-29 | 2015-04-08 | 中国科学院深圳先进技术研究院 | 预测膜蛋白的残基间的作用关系的方法 |
CN104504299B (zh) * | 2014-12-29 | 2017-11-03 | 中国科学院深圳先进技术研究院 | 预测膜蛋白的残基间的作用关系的方法 |
CN104615911A (zh) * | 2015-01-12 | 2015-05-13 | 上海交通大学 | 基于稀疏编码及链学习预测膜蛋白beta-barrel跨膜区域的方法 |
CN104615911B (zh) * | 2015-01-12 | 2017-07-18 | 上海交通大学 | 基于稀疏编码及链学习预测膜蛋白beta‑barrel跨膜区域的方法 |
CN107480469A (zh) * | 2017-07-31 | 2017-12-15 | 同济大学 | 一种用于在基因序列中快速搜索给定模式的方法 |
CN107480469B (zh) * | 2017-07-31 | 2020-07-07 | 同济大学 | 一种用于在基因序列中快速搜索给定模式的方法 |
CN111271183A (zh) * | 2020-02-26 | 2020-06-12 | 重庆红江机械有限责任公司 | 一种自适应在线预测柴油机状态方法及系统 |
CN111271183B (zh) * | 2020-02-26 | 2022-08-16 | 重庆红江机械有限责任公司 | 一种自适应在线预测柴油机状态方法及系统 |
CN111755065A (zh) * | 2020-06-15 | 2020-10-09 | 重庆邮电大学 | 一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法 |
CN111755065B (zh) * | 2020-06-15 | 2024-05-17 | 重庆邮电大学 | 一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Stagenet: Stage-aware neural networks for health risk prediction | |
Nielsen et al. | A brief history of protein sorting prediction | |
Rangwala et al. | Profile-based direct kernels for remote homology detection and fold recognition | |
CN102760209A (zh) | 一种非参数膜蛋白跨膜螺旋预测方法 | |
Yan et al. | Machine learning bridges omics sciences and plant breeding | |
Zhang et al. | StackPDB: predicting DNA-binding proteins based on XGB-RFE feature optimization and stacked ensemble classifier | |
Wen et al. | A classification model for lncRNA and mRNA based on k-mers and a convolutional neural network | |
Pandey et al. | Incorporating functional inter-relationships into protein function prediction algorithms | |
CN104156634B (zh) | 基于亚细胞定位特异性的关键蛋白质识别方法 | |
CN106599611A (zh) | 蛋白质功能标注方法及系统 | |
US11574703B2 (en) | Method, apparatus, and computer-readable medium for efficiently optimizing a phenotype with a combination of a generative and a predictive model | |
CN109637579B (zh) | 一种基于张量随机游走的关键蛋白质识别方法 | |
CN102841985B (zh) | 一种基于结构域特征的关键蛋白质识别方法 | |
WO2021217138A1 (en) | Method for efficiently optimizing a phenotype with a combination of a generative and a predictive model | |
Yu et al. | SOMPNN: an efficient non-parametric model for predicting transmembrane helices | |
CN111079074A (zh) | 一种基于改进的正弦余弦算法构建预测模型的方法 | |
Liu et al. | Predicting the multi-label protein subcellular localization through multi-information fusion and MLSI dimensionality reduction based on MLFE classifier | |
Yu et al. | Identification of DNA modification sites based on elastic net and bidirectional gated recurrent unit with convolutional neural network | |
Bai et al. | DAmiRLocGNet: miRNA subcellular localization prediction by combining miRNA–disease associations and graph convolutional networks | |
CN116343915B (zh) | 生物序列集成分类器的构建方法及生物序列预测分类方法 | |
CN102831332A (zh) | 一种可解释性的膜蛋白跨膜螺旋预测方法 | |
CN103457800A (zh) | 基于m精英协同进化策略的网络社区检测方法 | |
CN109378034B (zh) | 一种基于距离分布估计的蛋白质预测方法 | |
Suleman et al. | PseU-Pred: an ensemble model for accurate identification of pseudouridine sites | |
Ma et al. | CRBP-HFEF: prediction of RBP-Binding sites on circRNAs based on hierarchical feature expansion and fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C05 | Deemed withdrawal (patent law before 1993) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20121031 |