CN106021999B - 一种多功能抗微生物肽的最优多标记集成预测方法 - Google Patents

一种多功能抗微生物肽的最优多标记集成预测方法 Download PDF

Info

Publication number
CN106021999B
CN106021999B CN201610327347.6A CN201610327347A CN106021999B CN 106021999 B CN106021999 B CN 106021999B CN 201610327347 A CN201610327347 A CN 201610327347A CN 106021999 B CN106021999 B CN 106021999B
Authority
CN
China
Prior art keywords
mrow
mtd
msub
mtr
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610327347.6A
Other languages
English (en)
Other versions
CN106021999A (zh
Inventor
王晓
刘嘉
王榕
张秋闻
郭瑞
张伟伟
陶红伟
李小贺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN201610327347.6A priority Critical patent/CN106021999B/zh
Publication of CN106021999A publication Critical patent/CN106021999A/zh
Application granted granted Critical
Publication of CN106021999B publication Critical patent/CN106021999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Peptides Or Proteins (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)

Abstract

本发明属于生物信息学领域,涉及一种多功能抗微生物肽的最优多标记集成预测方法。其步骤如下:基于抗微生物肽的氨基酸序列信息,采用伪氨基酸组成向量化方法,抽取抗微生物肽的多种不同维度的伪氨基酸组成特征向量;应用多标记分类算法在生成的所有不同维度的伪氨基酸组成特征向量上,训练出多个不同的多标记分类器;从所得的多标记分类器中,分别为抗微生物肽的每种功能类型筛选出最优多标记分类器子集;把待预测肽序列输入分类器子集中,执行加权多数投票融合策略,获得该肽序列的N种功能类型的归属。本发明不需要事先确定最优的特征参数组合,避免建模时通过大量遍历实验选取最优特征参数组合,既增加预测方法的实用性,又提高建模的效率。

Description

一种多功能抗微生物肽的最优多标记集成预测方法
技术领域
本发明属于生物信息学领域,涉及抗微生物肽功能预测领域,尤其涉及一种多功能抗微生物肽的最优多标记集成预测方法。
背景技术
抗微生物肽,也叫做宿主防御肽,是生物体先天免疫系统的一类重要生物大分子。它们存在于几乎所有生物体中,保护生物体自身免受致病菌的感染。抗微生物肽具有天然免疫特性,是传统抗生素药物的绝佳替代品,可以解决抗生素的耐药性问题。
随着后基因组时代大量蛋白质序列的产生,已知是抗微生物肽的序列和未知的蛋白质序列之间的差距越来越大。实验确认哪些蛋白质序列是抗微生物肽以及搞清楚它们的功能类型变得越来越不可行,迫切的需要开发基于序列的计算预测工具以便快速而准确地识别抗微生物肽和它们的功能类型。目前为止,已经有一些计算预测工具出现。该领域的第一个工作出现在2007年,通过利用隐马尔科夫模型(HMMs),Fjell等人(Fjell,C.D.,Hancock,R.E.,Cherkasov,A.AMPer:a database and an automated discovery tool forantimicrobial peptides.Bioinformatics,2007,23:1148–1155)开发了AMPer方法识别抗微生物肽。同年,Lata等人开发了一个AntiBP预测器(Lata,S.,Sharma,B.K.,Raghava,G.Analysis and prediction of antibacterial peptides.BMC Bioinformatics,2007,8:263),仅用于识别抗菌肽。该方法主要分析了抗菌肽和非抗菌肽的氨基酸组成,并且利用N端,C端和全长序列的氨基酸组成作为输入特征,取得了很好的性能。他们于2010年又改进了AntiBP预测器,开发了更新版本的AntiBP2预测器(Lata,S.,Mishra,N.,Raghava,G.AntiBP2:improved version of antibacterial peptide prediction.BMCBioinformatics,2010,11:S19),该预测器还增加了对抗菌肽种属类别的预测。Wang等人(Wang,P.,Hu,L.,Liu,G.,et al.Prediction of antimicrobial peptides based onsequence alignment and feature selection methods,PLoS ONE,2011,6:e18476)通过结合序列比对和特征选择方法,开发了一个新的抗微生物肽预测方法。Khosravian等人(Khosravian,M.,Faramarzi,F.K.,Beigi,M.M.,et al.Predicting antibacterialpeptides by the concept of Chou’s pseudo-amino acid composition and machinelearning methods.Protein and Peptide Letters,2013,20(2):180-186)提出使用伪氨基酸组成和机器学习方法预测抗微生物肽的方法,也取得了令人满意的性能。除了开发计算预测工具之外,研究人员也提出了一些抗微生物肽数据库。Wang等人于2004年构建了一个抗微生物肽数据库APD(Wang,Z.,Wang,G.APD:the antimicrobial peptidedatabase.Nucleic Acids Research,2004,32:D590–D592),并于2009年发布该数据库的第二版APD2(Wang,G.,Li,X.,Wang,Z.APD2:the updated antimicrobial peptide databaseand its application in peptide design.Nucleic Acids Research,2009,37:D933–D937),并且提供抗微生物肽的预测接口。Thomas等人(Thomas,S.,Karnik,S.,Barai,R.S.,et al.CAMP:a useful resource for research on antimicrobial peptides,NucleicAcids Research,2010,38:D774–80)也建立了一个有用的数据库资源CAMP(Collection ofAnti-Microbial Peptides)帮助研究人员更好的研究分析抗微生物肽。基于CAMP中的实验验证的肽数据,他们也利用三种机器学习算法(支持向量机,判别分析和随机森林)开发了计算预测工具。
上面提到的这些预测工具和数据库推动了该领域的快速发展。但是,它们都只关注于预测一个氨基酸序列是否是抗微生物肽。随着研究的逐步深入,需要往更加深入的层次探索抗微生物肽。不仅要能够识别抗微生物肽,而且还要能够识别出它们的功能类型。实际上,许多抗微生物肽不止有一个功能,而是执行多种生物功能(Lai,Y.,Gallo,R.L.AMPedup immunity:how antimicrobial peptides have multiple roles in immunedefense.Trends in Immunology,2009,30(3):131–141)。例如,大蹼铃蟾(Bombinamaxima)的笋瓜籽毒蛋白(maximins)具有抗细菌,抗真菌和抗HIV病毒的功能(Thomas,S.,Karnik,S.,Barai,R.S.,et al.CAMP:a useful resource for research onantimicrobial peptides,Nucleic Acids Research,2010,38:D774–80)。然而,上面所述的预测方法都无法同时预测出抗微生物肽的多种功能。特别地,深入分析这些多功能抗微生物肽对抗生素替代药物的研制具有极其重要的意义。到目前为止,仅有一个预测器可以同时识别抗微生物肽的多种功能。该预测器iAMP-2L(Xiao,X.,Wang,P.,Lin,W.Z.,etal.iAMP-2L:A two-level multi-label classifier for identifying antimicrobialpeptides and their functional types.Analytical Biochemistry,2013,436:168–177)是由Xiao等人最近开发,采用伪氨基酸组成方法抽取特征向量,然后利用一个多标记最近邻算法来预测抗微生物肽的多种功能。然而,该预测器在进行预测建模时,仅采用了单个多标记预测算法,致使预测性能较差,并且通过枚举遍历方法确定抽取特征时的最佳参数,导致建模效率低下。
发明内容
本发明的目的在于提供一种多功能抗微生物肽的最优多标记集成预测方法,旨在解决现有预测方法对多功能类型的抗微生物肽预测效果不佳,以及建模效率低下的问题。
为实现上述目的,本发明采用以下技术方案:
一种多功能抗微生物肽的最优多标记集成预测方法,其步骤如下:
(1)基于抗微生物肽的氨基酸序列信息,采用伪氨基酸组成向量化方法,依据不同的参数组合,抽取出抗微生物肽的多种不同维度的伪氨基酸组成特征向量;
(2)应用多标记分类算法在步骤(1)生成的所有不同维度的伪氨基酸组成特征向量上,训练出多个不同的多标记分类器;
(3)从步骤(2)中所得的所有多标记分类器中,利用遗传算法,分别为抗微生物肽的每种功能类型筛选出N组最优多标记分类器子集;
(4)把待预测肽序列输入到步骤(3)筛选出的N组最优多标记分类器子集中,分别执行加权多数投票融合策略,获得该肽序列的N种功能类型的归属。
所述步骤(1)中,伪氨基酸组成向量化方法如下:
生物肽的序列是由20种基础氨基酸随机排列组合组成,这20种基础氨基酸分别由英文字母A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和Y表示;
伪氨基酸组成法是一种有效地向量化抗微生物肽序列的方法,其公式如下:
P=[p1,p2,…,p20,p20+1,…,p20+ξ·λ]T
其中,P表示抗微生物肽序列,前20维p1,p2,…,p20表示20种基础氨基酸在肽序列中的比例,后ξ·λ维表示肽序列中氨基酸之间的顺序信息;
pi(i=1,2,…,20+ξ·λ)的计算公式如下:
其中,fi(i=1,…,20)分别表示这20种基础氨基酸在肽序列中的比例,w表示肽序列中氨基酸之间的顺序信息的权重,ηj(1≤j≤ξ·λ)表示肽序列的顺序相关因子,肽序列中氨基酸之间的顺序信息近似地通过一系列序列顺序相关因子来表示,ηj(1≤j≤ξ·λ)的计算公式如下:
其中ξ为选用的氨基酸属性的数量,λ为肽序列中的最大相关层数,L为肽序列的长度,也就是组成肽序列的氨基酸数量,Ri表示肽序列中的第i个氨基酸,Ψj(j=1,…,ξ)为基于第j个氨基酸属性的相关性函数,相关性函数为肽序列中两个氨基酸的属性值的乘积。
所述步骤(1)中,采用伪氨基酸组成向量化方法,依据不同的参数组合,抽取抗微生物肽的多种不同维度的伪氨基酸组成特征向量的方法如下:限定从以下6种氨基酸属性中选取,分别为①hydrophobicity、②hydrophilicity、③mass、④pK(alpha-COOH)、⑤pK(NH3)和⑥pI(at 25℃),然后设定λ的最大取值为4,由此可以得到,参数ξ和λ的所有可能组合的个数为个;依据252种不同的参数组合,为抗微生物肽抽取252种不同的伪氨基酸组成特征向量。
所述步骤(2)中,多标记分类算法采用多标记最近邻算法MLKNN。
所述步骤(2)中,使用多标记最近邻算法MLKNN对252种特征向量集进行训练,训练出252个不同的多标记MLKNN分类器,其中,每一个MLKNN分类器对应一种伪氨基酸参数组合抽取的特征向量集,公式如下:
{MLkNN(1),MLkNN(2),…,MLkNN(252)}。
所述步骤(3)中,使用遗传算法分别为抗微生物肽的每种功能类型筛选最优的多标记分类器子集,其中,遗传算法需要确定个体的表示形式和适应度函数:
a.种群中的个体采用n维布尔向量的形式表示,n=252×N,该n维布尔向量被分成N组,每组对应一种功能类型,每组由252维组成,每维对应1个多标记分类器,对于给定的个体h,h(x)(1≤x≤n)为1表示选择第x个多标记分类器,反之,h(x)(1≤x≤n)为0表示去除第x个多标记分类器;
b.给定个体h,适应度函数的适应度采用如下方式进行计算:首先,基于个体h提供的多标记分类器指示信息,挑选出与每种功能类型相关的多标记分类器,然后,使用10倍交叉验证法确定个体的适应度值,适应度采用多标记绝对精度来衡量,返回适应度值最大的个体对应的N组分类器子集;
c.通过遗传算法进行多标记分类器选择后,获得N组最优分类器子集,每组对应一种功能类型:
其中,Ω1是第1种功能类型的最优分类器子集,包含M1个多标记分类器,Ω2是第2种功能类型的最优分类器子集,包含M2个多标记分类器,以此类推。
所述步骤(4)中,把待预测肽序列输入到步骤(3)筛选出的N组最优分类器子集中,分别执行加权多数投票融合策略,获得该肽序列的N种功能类型的归属,操作方法如下:基于步骤(3)选取的最优分类器子集所对应的伪氨基酸参数组合,抽取待预测肽序列的特征向量,把待预测肽序列的特征向量分别输入到对应地MLKNN分类器中,获得相应的预测结果,对每组最优分类器子集在每种功能类型上的预测结果,进行加权多数投票融合,预测出该肽序列所属的功能类型。
本发明的有益效果在于:
(1)提出多标记最优集成算法,分别为每个功能类型筛选最优多标记分类器子集,通过该算法构建的预测器预测性能比现有采用单一多标记分类器的方法提高7%以上,具有较强的推广和应用价值;
(2)本发明方法不需要事先确定最优的特征参数组合,避免建模时通过大量遍历实验选取最优特征参数组合,既增加预测方法的实用性,又提高建模的效率。
附图说明:
图1是本发明多功能抗微生物肽的最优多标记集成预测方法的步骤流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一种多功能抗微生物肽的最优多标记集成预测方法,如图1所示,包括以下步骤:
步骤S01、基于抗微生物肽的氨基酸序列信息,采用伪氨基酸组成(PseAAC)向量化方法,依据不同的参数组合,抽取出抗微生物肽的多种不同维度的伪氨基酸组成(PseAAC)特征向量;
步骤S02、应用多标记分类算法在步骤(1)生成的所有不同维度的伪氨基酸组成(PseAAC)特征向量上,构建出多个不同的多标记分类器;
步骤S03、利用遗传算法分别为抗微生物肽的每种功能类型,从步骤(2)中所得的所有多标记分类器中筛选出最优的多标记分类器子集,通过遗传算法进行多标记分类器选择后,将得到N组最优多标记分类器子集,每组对应一个功能类型;
步骤S04、把待预测肽序列输入到步骤(3)筛选出的N组最优分类器子集中,分别执行加权多数投票融合策略,即可获得该肽序列所属的功能类型。
在本发明实施例中,在步骤S01中,伪氨基酸组成(PseAAC)向量化方法如下:
抗微生物肽的序列是由20种基础氨基酸随机排列组合组成,这20种基础氨基酸分别由英文字母A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和Y表示。
伪氨基酸组成(PseAAC)法是一种有效地向量化抗微生物肽序列的方法,其公式如下:
P=[p1,p2,…,p20,p20+1,…,p20+ξ·λ]T (1)
其中,P表示抗微生物肽序列,前20维p1,p2,…,p20表示20种基础氨基酸在肽序列中的比例,后ξ·λ维表示肽序列中氨基酸之间的顺序信息,因为前20维特征将肽序列的顺序关系全部丢失,所以采用后ξ·λ维描述序列中氨基酸的前后顺序关系。pi(i=1,2,…,20+ξ·λ)的计算公式如下:
其中,fi(i=1,…,20)分别表示这20种基础氨基酸在肽序列中的比例,w表示肽序列中氨基酸之间的顺序信息的权重,ηj(1≤j≤ξ·λ)表示肽序列的顺序相关因子,肽序列中氨基酸之间的顺序信息近似地通过一系列序列顺序相关因子来表示,ηj(1≤j≤ξ·λ)的计算公式如下:
其中ξ为选用的氨基酸属性的数量,λ为肽序列中的最大相关层数,L为肽序列的长度,也就是组成肽序列的氨基酸数量,Ri表示肽序列中的第i个氨基酸,Ψj(j=1,…,ξ)为基于第j个氨基酸属性的相关性函数,这里的相关性函数为肽序列中两个氨基酸的属性值的乘积。
在本发明实施例中,在步骤S01中,采用伪氨基酸组成(PseAAC)向量化方法,依据不同的参数组合,抽取抗微生物肽的多种不同维度的伪氨基酸组成特征向量,具体方法如下:
首先限定从以下6种氨基酸属性中选取,分别为①hydrophobicity,②hydrophilicity,③mass,④pK(alpha-COOH),⑤pK(NH3),⑥pI(at 25℃),然后设定λ的最大取值为4,因为所用训练集中最短肽序列长度为5,由此可以得到,参数ξ和λ的所有可能组合的个数为个。依据这252种不同的参数组合,为抗微生物肽抽取252种不同的伪氨基酸组成特征向量。
在本发明实施例中,在步骤S02中,多标记分类算法优选多标记最近邻算法MLKNN。
在本发明实施例中,在步骤S02中,使用多标记最近邻算法MLKNN对252种特征向量集进行训练,训练出252个不同的多标记MLKNN分类器,其中,每一个MLKNN分类器对应一种伪氨基酸组成参数组合抽取的特征向量集,如下所示:
{MLkNN(1),MLkNN(2),…,MLkNN(252)} (4)
一种简单的构造多标记集成分类器的方法是把它们的结果按照加权多数投票的方式融合起来,可以得到以下的多标记集成分类器:
其中,表示集成符号,表示由MLkNN(1),MLkNN(2),…,MLkNN(252)通过加权多数投票构成的多标记集成分类器。
给定待预测肽序列p,通过多标记集成分类器预测其所属的功能类型集合的方法有别于传统的多类集成分类器,需要针对每种功能类型分别进行加权多数投票融合。假设yp是待预测肽序列p的功能类型向量,当预测得到yp(t)=1时表明该肽序列p属于功能类型t,否则该肽序列p不属于功能类型t。设多标记集成分类器中各个体分类器对功能类型t的预测结果分别为即:
其中,表示个体分类器MLkNN(i)预测该肽序列p属于功能类型t,表示个体分类器MLkNN(i)预测该肽序列p不属于功能类型t。该肽序列p属于功能类型t的得分为:
其中,weighti为权重系数,为简单起见,这里设所有权重都为1/252,即集成中的所有个体分类器同等重要,简化为多数投票法。在该实施例中,抗微生物肽共有5种可能的功能类型。基于式(7),得分(Score)大于0.5的功能类型即为该肽序列p的功能类型。
然而,针对每个功能类型分别进行加权多数投票融合时,所需要的最优分类器组合是不同的,而像上面那样,对每个功能类型不加选择的使用所有分类器进行融合,势必会损害预测准确度。
故而,在本发明实施例中,在步骤S03中,使用遗传算法分别为抗微生物肽的每种功能类型筛选最优的多标记分类器子集,其中,遗传算法需要确定个体的表示形式和适应度函数:
种群中的个体采用n维布尔向量的形式表示,n=252×5。具体来说,该n维布尔向量被分成5组,每组对应一种功能类型,每组由252维组成,每维对应1个多标记分类器,对于给定的个体h,h(x)(1≤x≤n)为1表示选择第x个多标记分类器,反之,h(x)(1≤x≤n)为0表示去除第x个多标记分类器。
适应度函数(fitness function),给定个体h,其适应度采用如下方式进行计算。首先,基于个体h提供的分类器指示信息,挑选出与每种功能类型相关的分类器,然后,使用10倍交叉验证法确定个体的适应度值,适应度采用多标记绝对精度来衡量,返回适应度值最大的个体对应的5组分类器子集。
通过遗传算法进行分类器选择后,获得5组最优分类器子集,每组对应一种功能类型,即
其中,Ω1是第1种功能类型的最优分类器子集,包含M1个分类器,Ω2是第2种功能类型的最优分类器子集,包含M2个分类器,以此类推。
在本发明实施例中,在步骤S04中,把待预测肽序列输入到步骤S03筛选出的N组最优分类器子集中,分别执行加权多数投票融合策略,即可获得该肽序列的功能类型,具体如下:
首先,基于步骤S03选取的最优分类器子集所对应的伪氨基酸参数组合,抽取待预测肽序列的特征向量,把待预测肽序列的特征向量分别输入到对应地MLKNN分类器中,获得相应的预测结果,然后,分别对每种功能类型,即对每组最优分类器子集在该种功能类型上的预测结果,进行加权多数投票融合,即可预测出该肽序列所属的功能类型。
实验结果和分析
在本发明实施例中,采用文献(Xiao,X.,Wang,P.,Lin,W.Z.,et al.iAMP-2L:Atwo-level multi-label classifier for identifying antimicrobial peptides andtheir functional types.Analytical Biochemistry,2013,436:168–177)所构建的数据集,该数据集中包含了抗微生物肽和非抗微生物肽,由于本发明只关注识别抗微生物肽的多功能类型,因而本发明只使用抗微生物肽数据子集,符号表示为S_AMP,S_AMP共包含878个抗微生物肽,其中,454个属于1个功能类型,296个属于2个功能类型,85个属于3个功能类型,30个属于4个功能类型,13个属于5个功能类型。对于每个功能类型拥有的肽数量,如下表1所示:
表1数据集S_AMP的统计信息
表2列出了本发明方法与iAMP-2L方法(Xiao,X.,Wang,P.,Lin,W.Z.,et al.iAMP-2L:A two-level multi-label classifier for identifying antimicrobial peptidesand their functional types.Analytical Biochemistry,2013,436:168–177)在上述数据集上的抗微生物肽的多功能类型预测性能的比较。评价指标采用多标记预测领域常用的mlACC、mlPRE、mlREC、mlF1和ACC。从表2可以看出,本发明方法在所有多标记性能评价指标上都超过了目前最好方法iAMP-2L,尤其是,本发明方法的绝对精度ACC达到了50%以上,超过了iAMP-2L方法7%左右。由于绝对精度ACC要求非常严格,必须完全正确地预测出测试肽序列的所有功能类型才算是预测正确,任何过预测或欠预测都被认为预测错误,因而可见,本发明方法能极大地改进多功能抗微生物肽的识别率,而且成功地避免了繁琐的氨基酸组成的参数寻优过程。
表2本发明方法和iAMP-2L的性能比较
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种多功能抗微生物肽的最优多标记集成预测方法,其特征在于:其步骤如下:
(1)基于抗微生物肽的氨基酸序列信息,采用伪氨基酸组成向量化方法,依据不同的参数组合,抽取出抗微生物肽的多种不同维度的伪氨基酸组成特征向量;
(2)应用多标记分类算法在步骤(1)生成的所有不同维度的伪氨基酸组成特征向量上,训练出多个不同的多标记分类器;
(3)从步骤(2)中所得的所有多标记分类器中,利用遗传算法,分别为抗微生物肽的每种功能类型筛选出N组最优多标记分类器子集;
(4)把待预测肽序列输入到步骤(3)筛选出的N组最优多标记分类器子集中,分别执行加权多数投票融合策略,获得该肽序列的N种功能类型的归属;
所述步骤(1)中,伪氨基酸组成向量化方法如下:
生物肽的序列是由20种基础氨基酸随机排列组合组成,所述20种基础氨基酸分别由英文字母A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和Y表示;
伪氨基酸组成法是一种有效地向量化抗微生物肽序列的方法,其公式如下:
P=[p1,p2,…,p20,p20+1,…,p20+ξ·λ]T
其中,P表示抗微生物肽序列,前20维p1,p2,…,p20表示20种基础氨基酸在肽序列中的比例,后ξ·λ维表示肽序列中氨基酸之间的顺序信息;
pi(i=1,2,…,20+ξ·λ)的计算公式如下:
其中,(fi(i=1,…,20))分别表示这20种基础氨基酸在肽序列中的比例,w表示肽序列中氨基酸之间的顺序信息的权重,(ηj(1≤j≤ξ·λ))表示肽序列的顺序相关因子,肽序列中氨基酸之间的顺序信息通过一系列序列顺序相关因子来表示,(ηj(1≤j≤ξ·λ))的计算公式如下:
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <msub> <mi>&amp;eta;</mi> <mn>1</mn> </msub> </mtd> <mtd> <mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>L</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msub> <mi>&amp;Psi;</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&amp;eta;</mi> <mn>2</mn> </msub> </mtd> <mtd> <mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>L</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msub> <mi>&amp;Psi;</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&amp;eta;</mi> <mi>&amp;xi;</mi> </msub> </mtd> <mtd> <mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>L</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msub> <mi>&amp;Psi;</mi> <mi>&amp;xi;</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&amp;eta;</mi> <mrow> <mi>&amp;xi;</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>L</mi> <mo>-</mo> <mn>2</mn> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <mn>2</mn> </mrow> </munderover> <msub> <mi>&amp;Psi;</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>2</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&amp;eta;</mi> <mrow> <mi>&amp;xi;</mi> <mo>+</mo> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>L</mi> <mo>-</mo> <mn>2</mn> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <mn>2</mn> </mrow> </munderover> <msub> <mi>&amp;Psi;</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>2</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&amp;eta;</mi> <mrow> <mn>2</mn> <mi>&amp;xi;</mi> </mrow> </msub> </mtd> <mtd> <mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>L</mi> <mo>-</mo> <mn>2</mn> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <mn>2</mn> </mrow> </munderover> <msub> <mi>&amp;Psi;</mi> <mi>&amp;xi;</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>2</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&amp;eta;</mi> <mrow> <mi>&amp;xi;</mi> <mrow> <mo>(</mo> <mi>&amp;lambda;</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>L</mi> <mo>-</mo> <mi>&amp;lambda;</mi> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <mi>&amp;lambda;</mi> </mrow> </munderover> <msub> <mi>&amp;Psi;</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>&amp;lambda;</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&amp;eta;</mi> <mrow> <mi>&amp;xi;</mi> <mrow> <mo>(</mo> <mi>&amp;lambda;</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>+</mo> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>L</mi> <mo>-</mo> <mi>&amp;lambda;</mi> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <mi>&amp;lambda;</mi> </mrow> </munderover> <msub> <mi>&amp;Psi;</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>&amp;lambda;</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&amp;eta;</mi> <mrow> <mi>&amp;xi;</mi> <mi>&amp;lambda;</mi> </mrow> </msub> </mtd> <mtd> <mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>L</mi> <mo>-</mo> <mi>&amp;lambda;</mi> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <mi>&amp;lambda;</mi> </mrow> </munderover> <msub> <mi>&amp;Psi;</mi> <mi>&amp;xi;</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>&amp;lambda;</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> <mi>&amp;lambda;</mi> <mo>&lt;</mo> <mi>L</mi> </mrow>
其中ξ为选用的氨基酸属性的数量,λ为肽序列中的最大相关层数,L为肽序列的长度,也就是组成肽序列的氨基酸数量,Ri表示肽序列中的第i个氨基酸,(Ψj(j=1,…,ξ))为基于第j个氨基酸属性的相关性函数,相关性函数为肽序列中两个氨基酸的属性值的乘积;
所述步骤(3)中,使用遗传算法分别为抗微生物肽的每种功能类型筛选最优的多标记分类器子集,其中,遗传算法需要确定个体的表示形式和适应度函数:
a.种群中的个体采用n维布尔向量的形式表示,n=252×N,该n维布尔向量被分成N组,每组对应一种功能类型,每组由252维组成,每维对应1个多标记分类器,对于给定的个体h,(h(x)(1≤x≤n))为1表示选择第x个多标记分类器,反之,(h(x)(1≤x≤n))为0表示去除第x个多标记分类器;
b.给定个体h,适应度函数的适应度采用如下方式进行计算:首先,基于个体h提供的多标记分类器指示信息,挑选出与每种功能类型相关的多标记分类器,然后,使用10倍交叉验证法确定个体的适应度值,适应度采用多标记绝对精度来衡量,返回适应度值最大的个体对应的N组分类器子集;
c.通过遗传算法进行多标记分类器选择后,获得N组最优分类器子集,每组对应一种功能类型:
<mrow> <mo>{</mo> <msub> <mi>&amp;Omega;</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>&amp;Omega;</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>&amp;Omega;</mi> <mi>N</mi> </msub> <mo>}</mo> <mo>&amp;SubsetEqual;</mo> <mo>{</mo> <mi>M</mi> <mi>L</mi> <mi>k</mi> <mi>N</mi> <mi>N</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>,</mo> <mi>M</mi> <mi>L</mi> <mi>k</mi> <mi>N</mi> <mi>N</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>M</mi> <mi>L</mi> <mi>k</mi> <mi>N</mi> <mi>N</mi> <mrow> <mo>(</mo> <mn>252</mn> <mo>)</mo> </mrow> <mo>}</mo> </mrow>
其中,Ω1是第1种功能类型的最优分类器子集,包含M1个多标记分类器,Ω2是第2种功能类型的最优分类器子集,包含M2个多标记分类器,以此类推;
所述步骤(2)中,多标记分类算法采用多标记最近邻算法MLKNN;使用多标记最近邻算法MLKNN对252种特征向量集进行训练,训练出252个不同的多标记MLKNN分类器,其中,每一个MLKNN分类器对应一种伪氨基酸参数组合抽取的特征向量集,公式如下:
{MLkNN(1),MLkNN(2),…,MLkNN(252)}。
2.如权利要求1所述的多功能抗微生物肽的最优多标记集成预测方法,其特征在于:所述步骤(1)中,采用伪氨基酸组成向量化方法,依据不同的参数组合,抽取抗微生物肽的多种不同维度的伪氨基酸组成特征向量的方法如下:限定从以下6种氨基酸属性中选取,分别为①hydrophobicity、②hydrophilicity、③mass、④pK(alpha-COOH)、⑤pK(NH3)和⑥pI(at 25℃),然后设定λ的最大取值为4,由此可以得到,参数ξ和λ的所有可能组合的个数为依据252种不同的参数组合,为抗微生物肽抽取252种不同的伪氨基酸组成特征向量。
3.如权利要求1所述的多功能抗微生物肽的最优多标记集成预测方法,其特征在于:所述步骤(4)中,把待预测肽序列输入到步骤(3)筛选出的N组最优分类器子集中,分别执行加权多数投票融合策略,获得该肽序列的N种功能类型的归属,操作方法如下:基于步骤(3)选取的最优分类器子集所对应的伪氨基酸参数组合,抽取待预测肽序列的特征向量,把待预测肽序列的特征向量分别输入到对应地MLKNN分类器中,获得相应的预测结果,对每组最优分类器子集在每种功能类型上的预测结果,进行加权多数投票融合,预测出该肽序列所属的功能类型。
CN201610327347.6A 2016-05-17 2016-05-17 一种多功能抗微生物肽的最优多标记集成预测方法 Active CN106021999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610327347.6A CN106021999B (zh) 2016-05-17 2016-05-17 一种多功能抗微生物肽的最优多标记集成预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610327347.6A CN106021999B (zh) 2016-05-17 2016-05-17 一种多功能抗微生物肽的最优多标记集成预测方法

Publications (2)

Publication Number Publication Date
CN106021999A CN106021999A (zh) 2016-10-12
CN106021999B true CN106021999B (zh) 2018-02-27

Family

ID=57097310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610327347.6A Active CN106021999B (zh) 2016-05-17 2016-05-17 一种多功能抗微生物肽的最优多标记集成预测方法

Country Status (1)

Country Link
CN (1) CN106021999B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423577B (zh) * 2017-04-20 2020-09-25 北京工业大学 一种基于氨基酸序列的蛋白质折叠类型识别方法
WO2022037681A1 (zh) * 2020-08-21 2022-02-24 中国科学院微生物研究所 抗微生物肽及其应用

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102741274A (zh) * 2009-12-21 2012-10-17 国家科研中心 抗微生物肽

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102741274A (zh) * 2009-12-21 2012-10-17 国家科研中心 抗微生物肽

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
抗微生物肽和抗癌肽的特征信息提取及预测算法研究;王晓茜;《优秀硕士学位论文全文库》;20140630;第一章、第二章、第三章 *

Also Published As

Publication number Publication date
CN106021999A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN110070909B (zh) 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN106126972A (zh) 一种用于蛋白质功能预测的层级多标签分类方法
CN103164701B (zh) 手写体数字识别方法及装置
CN103942562A (zh) 基于多分类器组合的高光谱图像分类方法
CN103440508B (zh) 基于视觉词袋模型的遥感图像目标识别方法
CN103020321B (zh) 近邻搜索方法与系统
CN104992078A (zh) 一种基于语义密度的蛋白质网络复合物识别方法
Lee et al. Seeding for pervasively overlapping communities
CN106021999B (zh) 一种多功能抗微生物肽的最优多标记集成预测方法
CN103793696A (zh) 指纹识别方法及其系统
CN111222575B (zh) 一种基于hrrp目标识别的klxs多模型融合方法及系统
CN105046106B (zh) 一种用最近邻检索实现的蛋白质亚细胞定位预测方法
CN105989043A (zh) 自动获取商品图像中商标和检索商标的方法及其装置
CN106570537A (zh) 一种基于混淆矩阵的随机森林模型选择方法
CN116612307A (zh) 一种基于迁移学习的茄科病害等级识别方法
CN103310205A (zh) 一种手写体数字识别方法及装置
CN103093239B (zh) 一种融合了点对和邻域信息的建图方法
CN101894216B (zh) 从snp数据中发现与复杂疾病相关snp组的方法
Bhat et al. OTU clustering: A window to analyse uncultured microbial world
CN106021929A (zh) 基于子类问题分类能力度量的Filter特征选取方法
Manimekalai et al. Taxonomic classification of Plant species using support vector machine
CN112966702A (zh) 蛋白质-配体复合物的分类方法及分类装置
CN104899477A (zh) 一种使用词袋模型的蛋白质亚细胞区间预测方法
Yang et al. IUP: intrinsically unstructured protein predictor-a software tool for analyzing polypeptide sequences
CN101154266A (zh) 分类器动态选择与循环集成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Xiao

Inventor after: Liu Jia

Inventor after: Wang Rong

Inventor after: Zhang Qiuwen

Inventor after: Guo Rui

Inventor after: Zhang Weiwei

Inventor after: Tao Hongwei

Inventor after: Li Xiaohe

Inventor before: Wang Xiao

Inventor before: Liu Jia

Inventor before: Zhang Qiuwen

Inventor before: Wang Rong

Inventor before: Guo Rui

GR01 Patent grant
GR01 Patent grant