CN107423577B - 一种基于氨基酸序列的蛋白质折叠类型识别方法 - Google Patents
一种基于氨基酸序列的蛋白质折叠类型识别方法 Download PDFInfo
- Publication number
- CN107423577B CN107423577B CN201710259671.3A CN201710259671A CN107423577B CN 107423577 B CN107423577 B CN 107423577B CN 201710259671 A CN201710259671 A CN 201710259671A CN 107423577 B CN107423577 B CN 107423577B
- Authority
- CN
- China
- Prior art keywords
- model
- folding type
- superfamily
- family
- beta
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000012846 protein folding Effects 0.000 title claims abstract description 15
- 125000003275 alpha amino acid group Chemical group 0.000 title claims abstract description 10
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 23
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 46
- 239000013078 crystal Substances 0.000 claims description 16
- 238000002864 sequence alignment Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 7
- 238000012360 testing method Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000002887 multiple sequence alignment Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开一种基于氨基酸序列的蛋白质折叠类型识别方法,步骤1、为α,β,α/β,α+β四类蛋白分别以家族和超家族为单位建立隐马尔科夫模型,分别以家族和超家族为代表的折叠类型识别模型集,同时对两个模型集分别进行扩充形成扩充家族模型集和扩充超家族模型集;步骤2、根据所述折叠类型识别模型集,进行蛋白质折叠类型自动化识别。采用本发明,能够扩大识别的样本覆盖范围并提高折叠类型识别的准确率,同时实现了折叠类型识别的自动化操作减少因人为因素造成的识别效果不佳的现象。
Description
技术领域
本发明属于生物信息学领域,特别是涉及一种基于氨基酸序列的蛋白质折叠类型识别方法。
背景技术
由于蛋白质本身自身的复杂性以及其生存环境的复杂性使得蛋白质的研究一直是重点也是难点。蛋白质折叠类型识别一直是生命科学领域研究的重点,是蛋白质三维结构预测的主要方法之一。
蛋白质折叠类型识别是一种依托于结构或者模型信息的方法,主要方法分为两类:机器学习和序列-序列比对(多序列比对)。机器学习主要有人工神经网络、随机森林、支持向量机等方法。多序列比对方法主要是依据两种序列模型进行识别:特殊位置分数矩阵和隐马尔科夫模型。研究中大部分主要针对少量的折叠类型,比如Ding等提出当然27中折叠类型。且识别的准确率也不是特别高,大部分保持在70%到90%之间,超过90%则会被认为识别准确率很高蛋白质的种类是是庞大的,仅仅研究少量的折叠类型是不能满足要求,需要扩大研究的范围。且在识别准确率的方面也需要一定的提高。
发明内容
本发明要解决的技术问题是,提供一种基于氨基酸序列的蛋白质折叠类型识别方法,能够提高样本的识别范围和识别的准确率且能对折叠类型进行自动化识别不再需要人工的参与。
为实现上述目的,本发明采用如下的技术方案:
一种基于氨基酸序列的蛋白质折叠类型识别方法包括以下步骤:
步骤1、为α,β,α/β,α+β四类蛋白分别以家族和超家族为单位建立隐马尔科夫模型,分别以家族和超家族为代表的折叠类型识别模型集,同时对两个模型集分别进行扩充形成扩充家族模型集和扩充超家族模型集;
步骤2、根据所述折叠类型识别模型集,进行蛋白质折叠类型自动化识别。
作为优选,步骤1包括:
第一步:确定好训练集,判断训练集是否满足条件,若满足条件则进行第二步,若不满足调整则对训练集进行调整,使其满足条件;
第二步:对满足条件的训练集进行多结构比对;
第三步:观察比对是否成功,若成功则进行第四步,若失败则对训练集进行调整,再进行多结构比对;
第四步:提取比对结果中的序列比对信息;
第五步:根据所提取比对信息进行模型构建;
经过上述过程,一共建立了四个模型集;
其中,家族模型集:对α,β,α/β,α+β四类蛋白中晶体结构样本数量不少于两个的家族分别建立隐马尔科夫模型,采用属于一个折叠类型的家族模型共同代表该折叠类型,将所有模型组合到一起形成以家族为单位的折叠类型模型集,简称家族模型集,在采用该模型集进行折叠类型识别时,序列的匹配的家族模型所代表的折叠类型即是所测序列所属的折叠类型,
超家族模型集:对α,β,α/β,α+β四类蛋白中晶体结构样本数量不少于两个的超家族分别建立隐马尔科夫模型,采用属于一个折叠类型的超家族模型共同代表该折叠类型,将所有模型组合到一起形成以超家族为单位的折叠类型模型集,简称超家族模型集,采在用该模型集进行折叠类型识别时,序列的匹配的超家族模型所代表的折叠类型即是所测序列所属的折叠类型;
扩充家族模型集:将一个折叠类型内未参加家族模型建模的样本全部合并到一起,组成一个训练集,若训练集中的晶体结构样本量大于1,且该训练集能够进行多结构比对,则为该训练集建立隐马尔科夫模型,将所建的模型加入到家族模型集中组成扩充家族模型集;
扩充超家族模型集:分为两个部分,①将由于样本量较大无法建立超家族模型集的超家族按家族进行随机分割使分割后的每个训练集中的晶体结构都能进行多结构比对,对分割后的训练集建立模型,②将一个折叠类型内未参加超家族模型建模和①过程的样本全部合并到一起,组成一个训练集,若训练集中的晶体结构样本量大于1,且该训练集能够进行多结构比对,则为该训练集建立隐马尔科夫模型,将①和②所建的模型加入到超家族模型集组成扩充超家族模型集。
作为优选,步骤2具体包括:
折叠类型识别步骤、根据所述折叠类型识别模型集,对待测的蛋白质序列进行所属的折叠类型识别;
模型库更新步骤,对所含模型集进行更新,使模型集保持最新的使用状态。
附图说明
图1是本发明基于氨基酸序列的蛋白质折叠类型识别方法建立模型的流程图。
具体实施方式
本发明实施例提供一种基于氨基酸序列的蛋白质折叠类型识别方法,包括以下步骤:
步骤1、为α,β,α/β,α+β四类蛋白分别以家族和超家族为单位建立隐马尔科夫模型,分别以家族和超家族为代表的折叠类型识别模型集,用于对待测蛋白进行折叠类型识别,同时对两个模型集分别进行扩充形成扩充家族模型集和扩充超家族模型集,四个模型集均可以用于蛋白质折叠类型识别,可以扩大样本的识别范围。
本发明依据SCOPe数据库中α,β,α/β,α+β四类蛋白为研究对象。建模时所选的是SCOPe-2.05版本的数据。前期的研究表明隐马尔科夫模型在折叠类型识别中的识别效果显著,本发明所建的模型也是隐马尔科夫模型。具体的建模过程如下所述,如图1所示。
第一步:确定好训练集,判断训练集是否满足条件,若满足条件则进行第二步,若不满足调整则对训练集进行调整,使其满足条件。
第二步:对满足条件的训练集进行多结构(序列)比对。
第三步:观察比对是否成功,若成功则进行第四步,若失败则对训练集进行调整,再进行多结构比对。
第四步:提取比对结果中的序列比对信息。
第五步:根据所提取比对信息进行模型构建。
经过上述过程,一共建立了四个模型集。
家族模型集:对α,β,α/β,α+β四类蛋白中晶体结构样本数量不少于两个的家族分别建立隐马尔科夫模型。用属于一个折叠类型的家族模型共同代表该折叠类型。将所有模型组合到一起形成以家族为单位的折叠类型模型集,简称家族模型集。在用该模型集进行折叠类型识别时,序列的匹配的家族模型所代表的折叠类型即是所测序列所属的折叠类型。
超家族模型集:对α,β,α/β,α+β四类蛋白中晶体结构样本数量不少于两个的超家族分别建立隐马尔科夫模型。用属于一个折叠类型的超家族模型共同代表该折叠类型。将所有模型组合到一起形成以超家族为单位的折叠类型模型集,简称超家族模型集。在用该模型集进行折叠类型识别时,序列的匹配的超家族模型所代表的折叠类型即是所测序列所属的折叠类型。
扩充家族模型集:将一个折叠类型内未参加家族模型建模的样本全部合并到一起,组成一个训练集,若训练集中的晶体结构样本量大于1,且该训练集能够进行多结构比对,则为该训练集建立隐马尔科夫模型。将所建的模型加入到家族模型集中组成扩充家族模型集。
扩充超家族模型集:分为两个部分。①将由于样本量较大无法建立超家族模型集的超家族按家族进行随机分割使分割后的每个训练集中的晶体结构都能进行多结构比对。对分割后的训练集建立模型。②将一个折叠类型内未参加超家族模型建模和①过程的样本全部合并到一起,组成一个训练集,若训练集中的晶体结构样本量大于1,且该训练集能够进行多结构比对,则为该训练集建立隐马尔科夫模型。将①和②所建的模型加入到超家族模型集组成扩充超家族模型集。
步骤2、根据所述折叠类型识别模型集,进行蛋白质折叠类型自动化识别。
自动化的识别可以不再需要人工的参与,减少因识别过程中人为因素造成的识别效果不佳。
自动化识别包括两个部分:
①折叠类型识别
识别序列所属的折叠类型,用户只需提供待测的序列的信息,就可获得该序列所属的可能折叠类型。
②模型集更新
删除模型:可以删除错误或者过时的模型
建立新模型:根据所提供的比对文件(.afasta形式),建立新的隐马尔科夫模型
更新模型集:将修改后的模型集(删除或者新添加模型)归一化,形成可用于折叠类型识别的新的模型集。
本发明的有益效果是:提高了折叠类型识别的样本覆盖范围和准确率。
为检验模型集的识别效果,不同方面构造了四个检验集:
检验集1:第SCOPe-2.05数据库中相似性小于40%的晶体结构样本;
检验集2:SCOPe-2.05数据库中相似性小于40%的全部样本;
检验集3:SCOPe-2.06数据库相似性小于95%比SCOPe-2.05数据库多出的晶体结构样本;
检验集4:SCOPe-2.06数据库相似性小于95%比SCOPe-2.05数据库多出的全部样本。
分别用该四个检验集检验模型集的识别效果。用国际上通用的模型评价标准敏感性、特异性和MCC值来评价模型的识别效果。其结果表1所示
表1模型集识别效果检验
(1)提高样覆盖范围
本发明所建的四个模型能识别能识别SCOPe数据库中四类蛋白的大部分样本。四个模型集(家族模型集,超家族模型集,扩充家族模型集,扩充超家族模型集)对四类蛋白样本覆盖率分别为86.32%,68.58%,97.43%,97.43%。
(2)提高折叠类型识别的准确率
表1中可以看出,四个模型集对四个检验集识别的平均敏感性都是99%,特异性维持在93%-99%之间,综合评价指标MCC值在0.95到0.99。
Claims (2)
1.一种基于氨基酸序列的蛋白质折叠类型识别方法,其特征在于,包括以下步骤:
步骤1、为α,β,α/β,α+β四类蛋白分别以家族和超家族为单位建立隐马尔科夫模型,分别以家族和超家族为代表的折叠类型识别模型集,同时对两个模型集分别进行扩充形成扩充家族模型集和扩充超家族模型集;具体为:
第一步:确定好训练集,判断训练集是否满足条件,若满足条件则进行第二步,若不满足调整则对训练集进行调整,使其满足条件;
第二步:对满足条件的训练集进行多结构比对;
第三步:观察比对是否成功,若成功则进行第四步,若失败则对训练集进行调整,再进行多结构比对;
第四步:提取比对结果中的序列比对信息;
第五步:根据所提取比对信息进行模型构建;
经过上述过程,一共建立了四个模型集;
其中,家族模型集:对α,β,α/β,α+β四类蛋白中晶体结构样本数量不少于两个的家族分别建立隐马尔科夫模型,采用属于一个折叠类型的家族模型共同代表该折叠类型,将所有模型组合到一起形成以家族为单位的折叠类型模型集,简称家族模型集,在采用该模型集进行折叠类型识别时,序列的匹配的家族模型所代表的折叠类型即是所测序列所属的折叠类型,
超家族模型集:对α,β,α/β,α+β四类蛋白中晶体结构样本数量不少于两个的超家族分别建立隐马尔科夫模型,采用属于一个折叠类型的超家族模型共同代表该折叠类型,将所有模型组合到一起形成以超家族为单位的折叠类型模型集,简称超家族模型集,采在用该模型集进行折叠类型识别时,序列的匹配的超家族模型所代表的折叠类型即是所测序列所属的折叠类型;
扩充家族模型集:将一个折叠类型内未参加家族模型建模的样本全部合并到一起,组成一个训练集,若训练集中的晶体结构样本量大于1,且该训练集能够进行多结构比对,则为该训练集建立隐马尔科夫模型,将所建的模型加入到家族模型集中组成扩充家族模型集;
扩充超家族模型集:分为两个部分,①将由于样本量较大无法建立超家族模型集的超家族按家族进行随机分割使分割后的每个训练集中的晶体结构都能进行多结构比对,对分割后的训练集建立模型,②将一个折叠类型内未参加超家族模型建模和①过程的样本全部合并到一起,组成一个训练集,若训练集中的晶体结构样本量大于1,且该训练集能够进行多结构比对,则为该训练集建立隐马尔科夫模型,将①和②所建的模型加入到超家族模型集组成扩充超家族模型集;
步骤2、根据所述折叠类型识别模型集,进行蛋白质折叠类型自动化识别。
2.如权利要求1所述的基于氨基酸序列的蛋白质折叠类型识别方法,其特征在于,步骤2具体包括:
折叠类型识别步骤、根据所述折叠类型识别模型集,对待测的蛋白质序列进行所属的折叠类型识别;
模型库更新步骤,对所含模型集进行更新,使模型集保持最新的使用状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710259671.3A CN107423577B (zh) | 2017-04-20 | 2017-04-20 | 一种基于氨基酸序列的蛋白质折叠类型识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710259671.3A CN107423577B (zh) | 2017-04-20 | 2017-04-20 | 一种基于氨基酸序列的蛋白质折叠类型识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107423577A CN107423577A (zh) | 2017-12-01 |
CN107423577B true CN107423577B (zh) | 2020-09-25 |
Family
ID=60423349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710259671.3A Expired - Fee Related CN107423577B (zh) | 2017-04-20 | 2017-04-20 | 一种基于氨基酸序列的蛋白质折叠类型识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107423577B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473483A (zh) * | 2013-10-07 | 2013-12-25 | 谢华林 | 一种蛋白质结构与功能的在线预测方法 |
CN106021999A (zh) * | 2016-05-17 | 2016-10-12 | 郑州轻工业学院 | 一种多功能抗微生物肽的最优多标记集成预测方法 |
-
2017
- 2017-04-20 CN CN201710259671.3A patent/CN107423577B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473483A (zh) * | 2013-10-07 | 2013-12-25 | 谢华林 | 一种蛋白质结构与功能的在线预测方法 |
CN106021999A (zh) * | 2016-05-17 | 2016-10-12 | 郑州轻工业学院 | 一种多功能抗微生物肽的最优多标记集成预测方法 |
Non-Patent Citations (6)
Title |
---|
Globin-like蛋白质折叠类型识别;任文科 等;《生物化学与生物物理进展》;20080530;第548-554页 * |
Recognition and Architecture of the Framework Structure of Protein;Liaofu Luo 等;《PROTEINS:Structure,Function,and Genetics》;20000323;第9-25页 * |
α/β类蛋白质折叠类型分类方法研究;马帅;《中国优秀硕士学位论文全文数据库基础科学辑》;20150315(第03期);第4-5页 * |
双绕蛋白质的分类与识别;刘岳 等;《生物信息学》;20100331;第8卷(第1期);第1-6页 * |
基于蛋白质聚类的同源建模结构预测研究;任菲;《中国博士学位论文全文数据库基础科学辑》;20140215(第2期);第69-70页 * |
蛋白质折叠类型的分类建模与识别;刘岳 等;《物理化学学报》;20091231;第25卷(第12期);第2558-2564页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107423577A (zh) | 2017-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105224960B (zh) | 基于聚类算法的玉米种子高光谱图像分类识别模型更新方法 | |
CN106202999B (zh) | 基于不同尺度tuple词频的微生物高通量测序数据分析协议 | |
CN109801680A (zh) | 基于tcga数据库的肿瘤转移复发预测方法及系统 | |
CN108363902A (zh) | 一种致病遗传变异的精确预测方法 | |
CN111584006A (zh) | 基于机器学习策略的环形rna识别方法 | |
CN111582358A (zh) | 户型识别模型的训练方法及装置、户型判重的方法及装置 | |
CN105469402B (zh) | 基于空间形状上下文特征的汽车零件识别方法 | |
CN107766695B (zh) | 一种获取外周血基因模型训练数据的方法及装置 | |
CN106096327A (zh) | 基于Torch监督式深度学习的基因性状识别方法 | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
CN104615910A (zh) | 基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法 | |
Khalid et al. | Deepcis: An end-to-end pipeline for cell-type aware instance segmentation in microscopic images | |
CN110010204A (zh) | 基于融合网络和多打分策略的预后生物标志物识别方法 | |
CN108508319B (zh) | 基于故障特征气体间关联特征的变压器故障类型识别方法 | |
WO2022011855A1 (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
CN107423577B (zh) | 一种基于氨基酸序列的蛋白质折叠类型识别方法 | |
CN111370055B (zh) | 内含子保留预测模型建立方法及其预测方法 | |
Bull et al. | Extended correlation functions for spatial analysis of multiplex imaging data | |
WO2023061174A1 (zh) | 一种孤独症谱系障碍的风险预测模型构建方法及装置 | |
CN110347579B (zh) | 基于神经元输出行为模式的深度学习测试用例的选择方法 | |
CN113627522B (zh) | 基于关系网络的图像分类方法、装置、设备及存储介质 | |
Prom-On et al. | Enhancing biological relevance of a weighted gene co-expression network for functional module identification | |
CN110232951A (zh) | 判断测序数据饱和的方法、计算机可读介质和应用 | |
CN113918786A (zh) | 一种细胞亚型智能判定方法 | |
CN111383708A (zh) | 基于化学基因组学的小分子靶标预测算法及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200925 |
|
CF01 | Termination of patent right due to non-payment of annual fee |