CN113838520B - 一种iii型分泌系统效应蛋白识别方法及装置 - Google Patents
一种iii型分泌系统效应蛋白识别方法及装置 Download PDFInfo
- Publication number
- CN113838520B CN113838520B CN202111136236.4A CN202111136236A CN113838520B CN 113838520 B CN113838520 B CN 113838520B CN 202111136236 A CN202111136236 A CN 202111136236A CN 113838520 B CN113838520 B CN 113838520B
- Authority
- CN
- China
- Prior art keywords
- effector protein
- secretion system
- system effector
- iii
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000012636 effector Substances 0.000 title claims abstract description 144
- 230000028327 secretion Effects 0.000 title claims abstract description 80
- 238000012509 protein identification method Methods 0.000 title description 2
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 165
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 165
- 239000011159 matrix material Substances 0.000 claims abstract description 60
- 108010069584 Type III Secretion Systems Proteins 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000010354 integration Effects 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 55
- 238000000605 extraction Methods 0.000 claims description 36
- 239000000203 mixture Substances 0.000 claims description 18
- 150000001413 amino acids Chemical class 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 238000012706 support-vector machine Methods 0.000 claims description 10
- 230000003248 secreting effect Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 4
- 108010016626 Dipeptides Proteins 0.000 claims description 3
- 230000008676 import Effects 0.000 abstract 1
- 238000012549 training Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 6
- MJJALKDDGIKVBE-UHFFFAOYSA-N ebastine Chemical compound C1=CC(C(C)(C)C)=CC=C1C(=O)CCCN1CCC(OC(C=2C=CC=CC=2)C=2C=CC=CC=2)CC1 MJJALKDDGIKVBE-UHFFFAOYSA-N 0.000 description 5
- 241000894007 species Species 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 108091028664 Ribonucleotide Proteins 0.000 description 2
- 241001104043 Syringa Species 0.000 description 2
- 244000052616 bacterial pathogen Species 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000037361 pathway Effects 0.000 description 2
- 239000002336 ribonucleotide Substances 0.000 description 2
- 125000002652 ribonucleotide group Chemical group 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 208000035143 Bacterial infection Diseases 0.000 description 1
- 241000606153 Chlamydia trachomatis Species 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- 241000589516 Pseudomonas Species 0.000 description 1
- 241000293869 Salmonella enterica subsp. enterica serovar Typhimurium Species 0.000 description 1
- 241000607764 Shigella dysenteriae Species 0.000 description 1
- 235000004338 Syringa vulgaris Nutrition 0.000 description 1
- 241000607626 Vibrio cholerae Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 208000022362 bacterial infectious disease Diseases 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000005754 cellular signaling Effects 0.000 description 1
- 229940038705 chlamydia trachomatis Drugs 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008867 communication pathway Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 229940118696 vibrio cholerae Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种III型分泌系统效应蛋白识别方法及装置,方法为导入III型分泌系统效应蛋白序列数据文件,获取原始III型分泌系统效应蛋白数据集;从原始III型分泌系统效应蛋白数据集中提取数据特征,根据数据特征构建特征矩阵;对特征矩阵进行标签设置,得到第一III型分泌系统效应蛋白基分类器;构建特征相似度评分矩阵;通过特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器;根据集成策略将第一III型分泌系统效应蛋白基分类器和第二III型分泌系统效应蛋白基分类器集成III型分泌系统效应蛋白模型;本发明提出了一种全新的III型分泌系统效应蛋白识别方法,生成了综合性能更优,得到应用更加广泛的III型分泌系统效应蛋白模型。
Description
技术领域
本发明主要涉及微生物数据处理技术领域,具体涉及一种III型分泌系统效应蛋白识别方法及装置。
背景技术
大量微生物利用T3SS将T3SEs注射到宿主细胞中,被认为是控制宿主细胞间信号传递的主要因素。通过干扰宿主细胞之间的通信信号,可以扰乱宿主细胞的正常工作,促进细菌感染和繁殖。一般来说,T3SEs强而特异的酶活性被认为是改变宿主细胞信号通路的主要因素。因此,对这些效应蛋白的深入分析对T3SS的研究以及宿主细胞之间信息的传递有着深远的影响。III型分泌系统(T3SS)可在许多致病菌中发现,如痢疾杆菌、鼠伤寒沙门氏菌、霍乱弧菌和致病性大肠杆菌。这些细菌的感染途径包括T3SS将大量III型分泌效应物(T3SE)转移到宿主细胞,从而阻断或调整宿主细胞的通信通道。因此,T3SEs的准确鉴定是进一步研究致病菌的前提。但目前对T3SEs鉴定的方法并不完善。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种一种III型分泌系统效应蛋白识别方法及装置。
本发明解决上述技术问题的技术方案如下:一种III型分泌系统效应蛋白识别方法,包括如下步骤:
S1、导入III型分泌系统效应蛋白序列数据文件,并从所述III型分泌效应蛋白序列数据文件中获取原始III型分泌系统效应蛋白数据集;
S2、根据特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取数据特征,根据所述数据特征构建特征矩阵;
S3、根据标签传播算法对所述特征矩阵进行标签设置,得到第一III型分泌系统效应蛋白基分类器;
S4、基于改进史密斯-沃特曼算法构建特征相似度评分矩阵;
S5、通过所述特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器;
S6、根据集成策略将所述第一III型分泌系统效应蛋白基分类器和所述第二III型分泌系统效应蛋白基分类器集成III型分泌系统效应蛋白模型。
本发明的有益效果是:提出了一种全新的III型分泌系统效应蛋白识别方法,导入III型分泌系统效应蛋白序列数据文件,并提取数据特征进行模型构建,通过标签传播算法有效提高了处理效率,通过对基分类器进行集成,生成了综合性能更优,得到应用更加广泛的III型分泌系统效应蛋白模型。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述S1中,所述原始III型分泌系统效应蛋白数据集包括正例数据集和反例数据集,其中,所述正例数据集为带分类的III型分泌系统效应蛋白序列,所述反例数据集为非III型分泌系统效应蛋白序列,所述非III型分泌系统效应蛋白序列为除III型分泌系统效应蛋白序列的其他类型分泌效应蛋白序列。
进一步,所述特征提取方法包括基于序列的蛋白质特征提取方法、基于物化性质的蛋白质特征提取方法和基于进化信息的蛋白质特征提取方法;
所述S2中,根据特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取数据特征,根据所述数据特征构建特征矩阵的过程包括:
基于序列的蛋白质特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取氨基酸组成、二肽组成和准序列顺序描述符,得到第一类数据特征;
基于物化性质的蛋白质特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取CTDC氨基酸组成和CTDT氨基酸组成,得到第二类数据特征;
基于进化信息的蛋白质特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取PSSM-composition编码、RPM-PSSM编码、D-FPSSM编码、TPC编码和DP-PSSM编码,得到第三类数据特征;
将所述第一类数据特征、所述第二类数据特征和所述第三类数据特征作为节点构建特征矩阵。
采用上述进一步技术方案的有益效果是:利用核糖核苷酸的组成来表达蛋白质序列的特征,能够实现对III型分泌系统效应蛋白的准确识别,为相应药物开发提供了理论基础。
进一步,所述S3中,所述根据标签传播算法对所述特征矩阵进行设置的过程包括:
根据标签传播算法在所述特征矩阵中设置标签信息,通过预先标记节点的标签信息预测未标记节点的标签信息,完成所有节点的标签设置。
采用上述进一步技术方案的有益效果是:引进了标签传播算法,有效提高了处理效率。
进一步,所述S4中,基于改进史密斯-沃特曼算法构建特征相似度评分矩阵的过程包括:
基于改进史密斯-沃特曼算法和相似度评分公式将每个站点的最大值作为最终的站点评分构建相似度评分矩阵,所述相似度评分公式为:
其中,W表示相似度评分,Max和Min分别表示为最终评分矩阵中的最大值和最小值。
采用上述进一步技术方案的有益效果是:基于改进史密斯-沃特曼算法提高了III型分泌系统效应蛋白的识别精度。
进一步,所述通过所述特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器的过程包括:
所述根据支持向量机算法优化所述特征相似度评分矩阵,通过优化后的所述特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器。
本发明解决上述技术问题的另一技术方案如下:一种III型分泌系统效应蛋白识别装置,包括:
导入模块,用于导入III型分泌系统效应蛋白序列数据文件,并从所述III型分泌效应蛋白序列数据文件中获取原始III型分泌系统效应蛋白数据集;
提取模块,用于根据特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取数据特征,根据所述数据特征构建特征矩阵;
处理模块,用于根据标签传播算法对所述特征矩阵进行标签设置,得到第一III型分泌系统效应蛋白基分类器;
基于改进史密斯-沃特曼算法构建特征相似度评分矩阵;
通过所述特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器;
根据集成策略将所述第一III型分泌系统效应蛋白基分类器和所述第二III型分泌系统效应蛋白基分类器集成III型分泌系统效应蛋白模型。
本发明解决上述技术问题的另一技术方案如下:一种III型分泌系统效应蛋白识别装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的III型分泌系统效应蛋白识别方法。
附图说明
图1所示为本发明实施例提供的III型分泌系统效应蛋白识别方法的流程示意图;
图2所示为本发明实施例提供的III型分泌系统效应蛋白识别装置的功能模块示意图;
图3所示为本发明实施例提供的III型分泌系统效应蛋白识别方法的另一流程示意图;
图4所示为本发明实施例EP3与DeepT3在独立数据集上的比较结果之一;
图5所示为本发明实施例EP3与DeepT3在独立数据集上的比较结果之二;
图6所示为本发明实施例EP3与DeepT3在独立数据集上的比较结果之三;
图7所示为本发明实施例EP3与DeepT3在独立数据集上的比较结果之四;
图8所示为本发明实施例EP3与Bastion3在独立数据集上的比较结果之一;
图9所示为本发明实施例EP3与Bastion3在独立数据集上的比较结果之二;
图10所示为本发明实施例EP3与Bastion3在独立数据集上的比较结果之三;
图11所示为本发明实施例EP3与Bastion3在独立数据集上的比较结果之四;
图12所示为本发明实施例本模型与先进模型在独立数据集上的比较结果之一;
图13所示为本发明实施例本模型与先进模型在独立数据集上的比较结果之二;
图14所示为本发明实施例本模型与先进模型在独立数据集上的比较结果之三;
图15所示为本发明实施例本模型与先进模型在独立数据集上的比较结果之四;
图16所示为本发明实施例本模型与先进模型在独立数据集上的比较结果之五;
图17所示为本发明实施例本模型与先进模型在独立数据集上的比较结果之六;
图18所示为本发明实施例本模型与先进模型在独立数据集上的比较结果之七;
图19所示为本发明实施例本模型与先进模型在独立数据集上的比较结果之八。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1:
如图1、3所示,一种III型分泌系统效应蛋白识别方法,包括如下步骤:
S1、导入III型分泌系统效应蛋白序列数据文件,并从所述III型分泌效应蛋白序列数据文件中获取原始III型分泌系统效应蛋白数据集;
S2、根据特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取数据特征,根据所述数据特征构建特征矩阵;
S3、根据标签传播算法对所述特征矩阵进行标签设置,得到第一III型分泌系统效应蛋白基分类器;
S4、基于改进史密斯-沃特曼算法构建特征相似度评分矩阵;
S5、通过所述特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器;
S6、根据集成策略将所述第一III型分泌系统效应蛋白基分类器和所述第二III型分泌系统效应蛋白基分类器集成III型分泌系统效应蛋白模型。
应理解地,本发明实施例中,使用两个训练集和三个测试集来训练和测试模型。其中,从16个物种中提取训练数据集1和独立数据集1,从紫丁香中提取独立数据集2。训练数据集2和独立数据集3的样本分别来自62个物种和29个物种。
训练数据集1由283个T3SEs和313个非T3SEs组成,其蛋白质序列相似性小于30%。每个蛋白质由100个氨基酸组成,属于n端序列。总共有313个非T3SE由I型到VIII型(III型除外)组成。训练数据集2是多个准备好的数据集的交叉应用,包括379个T3SE和1112个非T3SE。1112台非T3SE包括T4SE和T6SE。T4SEs来源于Wang等人收集的T4SEpre数据,T6SEs来源于SecretEPDB数据库。阳性样本训练数据集2在阈值为70%时剔除同源序列,注射器中假单胞菌含量为17.41%,沙眼衣原体含量为10.55%。
独立数据集1由35个T3SE和86个非T3SE组成,冗余度小于60%。独立数据集2包括83个T3SE和14个非T3SE,是从紫丁香原始数据集中筛选筛选出来的。独立数据集3由108个T3SE和108个非T3SE组成,通过手工提取生成。独立数据集3的数据相关性小于30%。青枯病菌是该独立数据集中最具代表性的种,对该数据集的效应因子贡献率为45.37%。
上述实施例中,提出了一种全新的III型分泌系统效应蛋白识别方法,导入III型分泌系统效应蛋白序列数据文件,并提取数据特征进行模型构建,通过标签传播算法有效提高了处理效率,通过对基分类器进行集成,生成了综合性能更优,得到应用更加广泛的III型分泌系统效应蛋白模型。
具体地,所述S1中,所述原始III型分泌系统效应蛋白数据集包括正例数据集和反例数据集,其中,所述正例数据集为带分类的III型分泌系统效应蛋白序列,所述反例数据集为非III型分泌系统效应蛋白序列,所述非III型分泌系统效应蛋白序列为除III型分泌系统效应蛋白序列的其他类型分泌效应蛋白序列。
理论上,反例数据集为非III型分泌系统效应蛋白即可,考虑到所训练模型的精度,除III型分泌系统效应蛋白的其他类型的分泌效应蛋白被推荐,由此可以训练出分类能力更强的III型分泌系统效应蛋白识别模型。
具体地,所述特征提取方法包括基于序列的蛋白质特征提取方法、基于物化性质的蛋白质特征提取方法和基于进化信息的蛋白质特征提取方法;
所述S2中,根据特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取数据特征,根据所述数据特征构建特征矩阵的过程包括:
基于序列的蛋白质特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取氨基酸组成、二肽组成和准序列顺序描述符,得到第一类数据特征;
基于物化性质的蛋白质特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取CTDC氨基酸组成和CTDT氨基酸组成,得到第二类数据特征;
基于进化信息的蛋白质特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取PSSM-composition编码、RPM-PSSM编码、D-FPSSM编码、TPC编码和DP-PSSM编码,得到第三类数据特征;
将所述第一类数据特征、所述第二类数据特征和所述第三类数据特征作为节点构建特征矩阵。
应理解地,本发明实施例中,使用了3种特征提取方法,包括PC-PseAAC,DistancePair和DT。PC-PseAAC、Distance Pair和DT的特征尺寸分别为21、210和420。PseAAC的统计原理是计算氨基酸组成。通过计算,得到了氨基酸的主要特征和氨基酸之外的其他信息,从而推导出额外的离散值。蛋白质序列可以用这些离散值来表示。PC-PseAAC的原理是将局部信息和全局信息结合起来提取特征。距离对是一种用离散向量表示生物序列的方法。距离对的特征提取原理是计算每个天然氨基酸的距离,从而获取氨基酸的出现频率。Top-n-gram是一段包含进化信息的蛋白质序列,利用其相对位置计算特定距离阈值内的发生频率。最后,利用DT得到维数为420的特征向量。
上述实施例中,利用核糖核苷酸的组成来表达蛋白质序列的特征,能够实现对III型分泌系统效应蛋白的准确识别,为相应药物开发提供了理论基础。
具体地,所述S3中,所述根据标签传播算法对所述特征矩阵进行设置的过程包括:
根据标签传播算法在所述特征矩阵中设置标签信息,通过预先标记节点的标签信息预测未标记节点的标签信息,完成所有节点的标签设置。
本发明实施例中所采用的标签传播算法,利用内部结构、分布规则和相邻数据对测试样本进行预测和扩展,将测试样本组合成已标注样本,获得自己的标签。LPA首先用于T3SEs的识别。实验结果表明,PC-PseAAC与LPA、Distance Pair与LPA、DT与LPA的组合对T3SEs分类是非常有效的。在实验过程中,对许多参数进行了调整,最终将EP3_1中最重要的近邻数设置为35、82和59。同时,EP3_2中PC-PseAAC与LPA、Distance Pair与LPA、DT与LPA的最近邻分别设置为2、5和530。
上述实施例中,引进了标签传播算法,有效提高了处理效率。
具体地,所述S4中,基于改进史密斯-沃特曼算法构建特征相似度评分矩阵的过程包括:
基于改进史密斯-沃特曼算法和相似度评分公式将每个站点的最大值作为最终的站点评分构建相似度评分矩阵,所述相似度评分公式为:
其中,W表示相似度评分,Max和Min分别表示为最终评分矩阵中的最大值和最小值。
使用改进的史密斯-沃特曼算法生成特征相似度矩阵,具体的史密斯-沃特曼算法的改进方法展示在具体识别方法部分:
间隙惩罚是一个仿射间隙,将间隙开度和间隙延伸分别设为10和0.5。空位的引入可以提高蛋白质序列匹配评分,空位惩罚会影响位点评分。测试大量的评分矩阵,以确定最有效的一个。只有BLOSUM 40和62年BLOSUM结果表1和表2所示,实验表明,BLOSUM 40被认为是最有效的方法,甚至超过了被广泛接受的BLOSUM 62,这意味着BLOSUM 40更适合T3SEs的识别。
表1
表2
上述实施例中,基于改进史密斯-沃特曼算法提高了III型分泌系统效应蛋白的识别精度。
具体地,所述通过所述特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器的过程包括:
所述根据支持向量机算法优化所述特征相似度评分矩阵,通过优化后的所述特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器。
支持向量机的主要目的是将向量映射到建立最大区间超平面的高维空间。支持向量机的基础是特征空间上差距最大的线性分类器。支持向量机的学习策略是区间最大化,可以看作是损失函数最小化。实际上,支持向量机的学习算法是一种凸二次规划的优化算法。详见图1。
具体地,在步骤S6中,根据集成策略将所述第一III型分泌系统效应蛋白基分类器和所述第二III型分泌系统效应蛋白基分类器集成III型分泌系统效应蛋白模型。将第一部分和第二部分的基分类器按照相应的集成策略进行集成以生成性能更优的III型分泌系统效应蛋白模型,具体的集成策略应依照数据特征,物种类别和基分类器特点。
本发明实例中,有两个训练数据集(训练数据集1和训练数据集2),对两个模型(EP3_1和EP3_2)进行严格的训练和测试。唯一的区别是在训练数据集2中存在类别不平衡。因此,我们使用SMOTE方法创建合成样本。SMOTE更容易增加PC-PseAAC、Distance和DT的特征矩阵,形成1137个T3SEs和1112个非T3SEs的类别平衡数据集。构建集成预测器的步骤如下。利用PC-PseAAC、Distance Pair和DT建立完整的图。利用标签传播算法得到测试样本的标签。在标签传播算法中,选择了最近邻方法。使用PC-PseAAC构造完整图时,EP3_1和EP3_2的最近邻数分别为35和2,距离对分别为82和5,DT分别为59和530。采用Smith-Waterman算法获得归一化相似度,并利用该算法寻找支持向量机的分类决策函数。图3中,然后,在算法中使用BLOSUM 35、BLOSUM 40和BLOSUM 45的替换矩阵。当对特殊样本进行分类时,6个分类器(C1、C2、C3、C4、C5和C6)必须产生不正确的结果,因为所有的分类器都有相同的参数和成分。被每个分类器错误分类的样本子空间是不相关的。如果x(x代表样本数量,代表分类器)为分类错误,则使用其他分类器时是正确的。因此,多数表决规则得到了普遍认可,并将完成最终输出。利用PC-PseAAC和标签传播算法、距离对和标签传播算法、DT和标签传播算法以及Smith-Waterman算法分类器(替换矩阵为BLOSUM 35、40、45)与支持向量机算法生成EP3_1和EP3_2。
与先进的III型分泌系统效应蛋白的性能比较。
EP3_1和DeepT3均采用训练数据集1对模型进行训练,并使用相同的指标进行比较。EP3_1由集成的PC-PseAAC和标签传播算法(最近的邻居的数量设置为35),距离对特征和标签传播算法(最近的邻居的数量设置为82),DT和标签传播算法(最近的邻居的数量设置为59),使用算法的支持向量机(替换矩阵BLOSUM 35,40和45)。利用三个独立的数据集比较了DeepT3和EP3_1的性能。EP3_1模型对独立数据集1具有较高的灵敏度、召回率、F_score、准确率和Matthews相关系数(MCC)。EP3_1模型获得的SN为0.943,SP为0.977,F_score为0.943,ACC为0.967,MCC值为0.920,AUC值为0.98,在SP全面比DeepT3高5.8%,F_score比DeepT3高2.2%,ACC比DeepT3高4.1%,AUC比DeepT3高9%,MCC比DeepT3高14%。如图4-7所示,可看出,EP3_1模型在独立数据集1上的性能明显优于DeepT3。考虑到独立数据集2的严重失衡,认为MCC更有说服力。EP3_1模型的MCC平均比DeepT3高2.9%,SP比DeepT3高平均高7.1%,F_score比DeepT3高平均高0.3%,ACC比DeepT3高平均高0.3%,AUC比DeepT3高平均高26%。这表明EP3_1模型的性能仍然比DeepT3好。EP3_1的SN比DeepT3高25%,F_score比DeepT3高7.6%,ACC比DeepT3高1.4%,MCC比DeepT3高0.7%,AUC比DeepT3高2%独立数据集3,如表3所示。
表3
EP3_2和Bastion3均使用训练数据集2对模型进行训练,其性能如图8-11所示。针对训练数据集2存在严重的类别不平衡问题,在特征提取后的PC-PseAAC、Distance Pair和DT中应用SMOTE算法,捕获T3SE样本1137个,非T3SE样本1112个。利用合成样本将训练数据集2转换为平衡数据集。EP3_2模型的标签传播算法最近邻数和Smith-Waterman算法的替换矩阵采用与EP3_1模型相同的参数进行设置。
如表4、图8-19所示,对于独立数据集1,EP3_2模型的查全率、查准率、MCC、AUC较Bastion3模型分别提高51.2%、10.2%、3.3%、4%,。EP3_2的召回率、MCC和AUC是71.4%,4.9%和23%比Bastion3高。如前所述,不平衡的F_score和ACC所得的模型存在偏差(III型分泌系统效应蛋白:非III型分泌系统效应蛋白=5:1)。因此,虽然EP3_2模型的F_score和ACC低于Bastion3,但EP3_2模型的综合结果优于Bastion3。此外,Bastion3对独立数据集2具有明显的过拟合,这是数据挖掘中常见的问题。在独立数据集3上,EP3_2模型的效果略差于Bastion3模型,但从独立数据集1、2的结果来看,EP3_2模型的综合性能明显优于Bastion3模型。也就是说,EP3_1和EP3_2的整体性能超过了DeepT3和Bastion3。由于EP3_1和EP3_2来自不同种类,这两种型号都被用于识别T3SE问题。
表4
众所周知,模型的目的是预测样本。虽然Bastion3在独立数据集3上的性能最好,但Bastion3在独立数据集1和2上的泛化能力较差。与DeepT3和Bastion3相比,EP3优势明显,主要在以下领域发挥作用。(1)模型泛化能力较好。泛化是指模型对新鲜样本的适应能力。一般来说,对于新样品,期望模型能够提供合理的结果。泛化能力是评价模型性能的一个重要指标。由于需要测试的序列的不可预测性,当面对未标记的测试集时,模型的稳定性更重要。(2)模型的预测能力有了明显提高。实验结果显示,EP3_1几乎超过了DeepT3的所有指标,说明EP3具有更强的分类能力。
实施例2:
如图2所示,一种III型分泌系统效应蛋白识别装置,包括:
导入模块,用于导入III型分泌系统效应蛋白序列数据文件,并从所述III型分泌效应蛋白序列数据文件中获取原始III型分泌系统效应蛋白数据集;
提取模块,用于根据特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取数据特征,根据所述数据特征构建特征矩阵;
处理模块,用于根据标签传播算法对所述特征矩阵进行标签设置,得到第一III型分泌系统效应蛋白基分类器;
基于改进史密斯-沃特曼算法构建特征相似度评分矩阵;
通过所述特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器;
根据集成策略将所述第一III型分泌系统效应蛋白基分类器和所述第二III型分泌系统效应蛋白基分类器集成III型分泌系统效应蛋白模型。
实施例3:
一种III型分泌系统效应蛋白识别装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的III型分泌系统效应蛋白识别方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种III型分泌系统效应蛋白识别方法,其特征在于,包括如下步骤:
S1、导入III型分泌系统效应蛋白序列数据文件,并从所述III型分泌系统效应蛋白序列数据文件中获取原始III型分泌系统效应蛋白数据集;
S2、根据特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取数据特征,所述特征提取方法包括基于序列的蛋白质特征提取方法、基于物化性质的蛋白质特征提取方法和基于进化信息的蛋白质特征提取方法,根据所述数据特征构建特征矩阵,包括:
基于序列的蛋白质特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取氨基酸组成、二肽组成和准序列顺序描述符,得到第一类数据特征;
基于物化性质的蛋白质特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取CTDC氨基酸组成和CTDT氨基酸组成,得到第二类数据特征;
基于进化信息的蛋白质特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取PSSM-composition编码、RPM-PSSM编码、D-FPSSM编码、TPC编码和DP-PSSM编码,得到第三类数据特征;
将所述第一类数据特征、所述第二类数据特征和所述第三类数据特征作为节点构建特征矩阵;
S3、根据标签传播算法对所述特征矩阵进行标签设置,得到第一III型分泌系统效应蛋白基分类器;
S4、基于改进史密斯-沃特曼算法构建特征相似度评分矩阵;
S5、通过所述特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器;
S6、根据集成策略将所述第一III型分泌系统效应蛋白基分类器和所述第二III型分泌系统效应蛋白基分类器集成III型分泌系统效应蛋白模型。
2.根据权利要求1所述的III型分泌系统效应蛋白识别方法,其特征在于,所述S1中,所述原始III型分泌系统效应蛋白数据集包括正例数据集和反例数据集,其中,所述正例数据集为带分类的III型分泌系统效应蛋白序列,所述反例数据集为非III型分泌系统效应蛋白序列,所述非III型分泌系统效应蛋白序列为除III型分泌系统效应蛋白序列的其他类型分泌效应蛋白序列。
3.根据权利要求1所述的III型分泌系统效应蛋白识别方法,其特征在于,所述S3中,所述根据标签传播算法对所述特征矩阵进行设置的过程包括:
根据标签传播算法在所述特征矩阵中设置标签信息,通过预先标记节点的标签信息预测未标记节点的标签信息,完成所有节点的标签设置。
4.根据权利要求1所述的III型分泌系统效应蛋白识别方法,其特征在于,所述S4中,基于改进史密斯-沃特曼算法构建特征相似度评分矩阵的过程包括:
基于改进史密斯-沃特曼算法和相似度评分公式将每个站点的最大值作为最终的站点评分构建相似度评分矩阵,所述相似度评分公式为:
,
其中,W表示相似度评分,Max和Min分别表示为最终评分矩阵中的最大值和最小值。
5.根据权利要求1所述的III型分泌系统效应蛋白识别方法,其特征在于,所述S5中,所述通过所述特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器的过程包括:
根据支持向量机算法优化所述特征相似度评分矩阵,通过优化后的所述特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器。
6.一种III型分泌系统效应蛋白识别装置,其特征在于,包括:
导入模块,用于导入III型分泌系统效应蛋白序列数据文件,并从所述III型分泌系统效应蛋白序列数据文件中获取原始III型分泌系统效应蛋白数据集;
提取模块,用于根据特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取数据特征,根据所述数据特征构建特征矩阵;
处理模块,用于根据标签传播算法对所述特征矩阵进行标签设置,得到第一III型分泌系统效应蛋白基分类器;
基于改进史密斯-沃特曼算法构建特征相似度评分矩阵;
通过所述特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器;
根据集成策略将所述第一III型分泌系统效应蛋白基分类器和所述第二III型分泌系统效应蛋白基分类器集成III型分泌系统效应蛋白模型
7.一种III型分泌系统效应蛋白识别装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,当所述处理器执行所述计算机程序时,实现如权利要求1至5任一项所述的III型分泌系统效应蛋白识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111136236.4A CN113838520B (zh) | 2021-09-27 | 2021-09-27 | 一种iii型分泌系统效应蛋白识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111136236.4A CN113838520B (zh) | 2021-09-27 | 2021-09-27 | 一种iii型分泌系统效应蛋白识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113838520A CN113838520A (zh) | 2021-12-24 |
CN113838520B true CN113838520B (zh) | 2024-03-29 |
Family
ID=78970903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111136236.4A Active CN113838520B (zh) | 2021-09-27 | 2021-09-27 | 一种iii型分泌系统效应蛋白识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113838520B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000002996A2 (en) * | 1998-07-10 | 2000-01-20 | Cornell Research Foundation, Inc. | Recombinant constructs and systems for secretion of proteins via type iii secretion systems |
WO2005084193A2 (en) * | 2004-02-24 | 2005-09-15 | The Board Of Trustees Of The Leland Stanford Junior University | Method for identifying a site of protein-protein interaction for the rational design of short peptides that interfere with that interaction |
WO2010017559A1 (en) * | 2008-08-08 | 2010-02-11 | University Of Georgia Research Foundation, Inc. | Methods and systems for predicting proteins that can be secreted into bodily fluids |
CN104331642A (zh) * | 2014-10-28 | 2015-02-04 | 山东大学 | 用于识别细胞外基质蛋白的集成学习方法 |
WO2015078840A1 (en) * | 2013-11-26 | 2015-06-04 | Boehringer Ingelheim International Gmbh | Full and partial protein secretion and cell surface display using type iii secretion system |
CN105938522A (zh) * | 2016-04-11 | 2016-09-14 | 中国人民解放军第三军医大学 | 一种预测细菌iv型分泌系统效应分子的方法 |
CN107463799A (zh) * | 2017-08-23 | 2017-12-12 | 福建师范大学福清分校 | 交互融合特征表示与选择性集成的dna结合蛋白识别方法 |
CN108348168A (zh) * | 2015-09-09 | 2018-07-31 | 优比欧迈公司 | 用于湿疹的源自微生物群系的诊断及治疗方法和系统 |
CN108388769A (zh) * | 2018-03-01 | 2018-08-10 | 安徽大学 | 基于边驱动的标签传播算法的蛋白质功能模块识别方法 |
CN108563922A (zh) * | 2018-04-04 | 2018-09-21 | 中南大学 | 预测蛋白质rna结合物热点的方法、系统及存储介质 |
CN110021343A (zh) * | 2017-12-11 | 2019-07-16 | 中国科学院大连化学物理研究所 | 一种基于多维关联特征的e3泛素连接酶-底物相互作用识别方法 |
CN111091871A (zh) * | 2019-12-19 | 2020-05-01 | 上海交通大学 | 基于融合领域规则和深度学习的蛋白质信号肽及其切割位点预测实现方法 |
CN111210871A (zh) * | 2020-01-09 | 2020-05-29 | 青岛科技大学 | 基于深度森林的蛋白质-蛋白质相互作用预测方法 |
CN112562784A (zh) * | 2020-12-14 | 2021-03-26 | 中山大学 | 一种结合多任务学习和自注意力机制的蛋白质功能预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200118643A1 (en) * | 2016-10-05 | 2020-04-16 | University Of Louisiana At Lafayette | Method and system for comparing proteins in three dimensions |
-
2021
- 2021-09-27 CN CN202111136236.4A patent/CN113838520B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000002996A2 (en) * | 1998-07-10 | 2000-01-20 | Cornell Research Foundation, Inc. | Recombinant constructs and systems for secretion of proteins via type iii secretion systems |
WO2005084193A2 (en) * | 2004-02-24 | 2005-09-15 | The Board Of Trustees Of The Leland Stanford Junior University | Method for identifying a site of protein-protein interaction for the rational design of short peptides that interfere with that interaction |
WO2010017559A1 (en) * | 2008-08-08 | 2010-02-11 | University Of Georgia Research Foundation, Inc. | Methods and systems for predicting proteins that can be secreted into bodily fluids |
CN102177434A (zh) * | 2008-08-08 | 2011-09-07 | 乔治亚大学研究基金公司 | 用于预测能够分泌至体液中的蛋白质的方法及系统 |
WO2015078840A1 (en) * | 2013-11-26 | 2015-06-04 | Boehringer Ingelheim International Gmbh | Full and partial protein secretion and cell surface display using type iii secretion system |
CN104331642A (zh) * | 2014-10-28 | 2015-02-04 | 山东大学 | 用于识别细胞外基质蛋白的集成学习方法 |
CN108348168A (zh) * | 2015-09-09 | 2018-07-31 | 优比欧迈公司 | 用于湿疹的源自微生物群系的诊断及治疗方法和系统 |
CN105938522A (zh) * | 2016-04-11 | 2016-09-14 | 中国人民解放军第三军医大学 | 一种预测细菌iv型分泌系统效应分子的方法 |
CN107463799A (zh) * | 2017-08-23 | 2017-12-12 | 福建师范大学福清分校 | 交互融合特征表示与选择性集成的dna结合蛋白识别方法 |
CN110021343A (zh) * | 2017-12-11 | 2019-07-16 | 中国科学院大连化学物理研究所 | 一种基于多维关联特征的e3泛素连接酶-底物相互作用识别方法 |
CN108388769A (zh) * | 2018-03-01 | 2018-08-10 | 安徽大学 | 基于边驱动的标签传播算法的蛋白质功能模块识别方法 |
CN108563922A (zh) * | 2018-04-04 | 2018-09-21 | 中南大学 | 预测蛋白质rna结合物热点的方法、系统及存储介质 |
CN111091871A (zh) * | 2019-12-19 | 2020-05-01 | 上海交通大学 | 基于融合领域规则和深度学习的蛋白质信号肽及其切割位点预测实现方法 |
CN111210871A (zh) * | 2020-01-09 | 2020-05-29 | 青岛科技大学 | 基于深度森林的蛋白质-蛋白质相互作用预测方法 |
CN112562784A (zh) * | 2020-12-14 | 2021-03-26 | 中山大学 | 一种结合多任务学习和自注意力机制的蛋白质功能预测方法 |
Non-Patent Citations (3)
Title |
---|
Protein Remote Homology Detection and Fold Recognition Based on Sequence-Order Frequency Matrix;Bin Liu , Junjie Chen , Mingyue Guo, and Xiaolong Wang;IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS;20190228;全文 * |
与肿瘤相关的计算microRNA 组学研究综述;李大鹏,鞠颖,廖之君,邹权;生物信息学;20151231;全文 * |
基于深度卷积神经网络的无序蛋白质功能模体的识别;方春;田爱奎;孙福振;李彩虹;朱大铭;;济南大学学报(自然科学版);20180613(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113838520A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ward et al. | Secondary structure prediction with support vector machines | |
Wei et al. | An improved protein structural classes prediction method by incorporating both sequence and structure information | |
Zeng et al. | Accurately clustering single-cell RNA-seq data by capturing structural relations between cells through graph convolutional network | |
Dong et al. | Clustering based on grid and local density with priority-based expansion for multi-density data | |
Kianmehr et al. | Fuzzy clustering-based discretization for gene expression classification | |
CN110942091A (zh) | 寻找可靠的异常数据中心的半监督少样本图像分类方法 | |
Li et al. | EP3: an ensemble predictor that accurately identifies type III secreted effectors | |
Durán-Rosal et al. | A hybrid dynamic exploitation barebones particle swarm optimisation algorithm for time series segmentation | |
Yu et al. | Identifying protein-kinase-specific phosphorylation sites based on the bagging–adaboost ensemble approach | |
Lu et al. | A novel feature selection method based on CFS in cancer recognition | |
CN113571133B (zh) | 一种基于图神经网络的乳酸菌抗菌肽预测方法 | |
Saha et al. | In silico prediction of yeast deletion phenotypes | |
CN113838520B (zh) | 一种iii型分泌系统效应蛋白识别方法及装置 | |
Zhang et al. | Semantic hierarchy preserving deep hashing for large-scale image retrieval | |
CN106250818B (zh) | 一种全序保持投影的人脸年龄估计方法 | |
CN108805162A (zh) | 一种基于粒子群优化的酵母菌多标记特征选择方法及装置 | |
CN114357869A (zh) | 一种基于数据关系学习和预测的多目标优化代理模型设计方法及系统 | |
Ma et al. | Immunodominance and clonal selection inspired multiobjective clustering | |
Yao | Application of Optimized SVM in Sample Classification | |
Maji et al. | Efficient design of bio-basis function to predict protein functional sites using kernel-based classifiers | |
Turkoglu et al. | A hybrid method based on artificial immune system and k-NN algorithm for better prediction of protein cellular localization sites | |
He | Continual Learning: Towards Image Classification From Sequential Data | |
CN112885409B (zh) | 一种基于特征选择的结直肠癌蛋白标志物选择系统 | |
Arango-Argoty et al. | An adaptation of Pfam profiles to predict protein sub-cellular localization in Gram positive bacteria | |
CN118016167A (zh) | 一种针对不平衡单细胞RNA-seq数据的细胞聚类方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |