CN116130004B - 一种抗菌肽的鉴定处理方法和系统 - Google Patents

一种抗菌肽的鉴定处理方法和系统 Download PDF

Info

Publication number
CN116130004B
CN116130004B CN202310036165.3A CN202310036165A CN116130004B CN 116130004 B CN116130004 B CN 116130004B CN 202310036165 A CN202310036165 A CN 202310036165A CN 116130004 B CN116130004 B CN 116130004B
Authority
CN
China
Prior art keywords
processing
processing result
identified
sub
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310036165.3A
Other languages
English (en)
Other versions
CN116130004A (zh
Inventor
黄子妍
邓操
郝兆楠
刘晋芸
张婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Liangkang Technology Co ltd
Original Assignee
Chengdu Liangkang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Liangkang Technology Co ltd filed Critical Chengdu Liangkang Technology Co ltd
Priority to CN202310036165.3A priority Critical patent/CN116130004B/zh
Publication of CN116130004A publication Critical patent/CN116130004A/zh
Application granted granted Critical
Publication of CN116130004B publication Critical patent/CN116130004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Peptides Or Proteins (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种抗菌肽的鉴定处理方法和系统,涉及抗菌肽识别领域。该方法包括:对输入的待鉴定序列进行抗菌肽鉴定处理,获得第一处理结果;对输入的待鉴定序列进行干扰剔除处理,获得第二处理结果;根据所述第一处理结果及第二处理结果,结合抗菌肽的应用需求,输出目标抗菌肽序列,通过抗菌肽鉴定结合干扰剔除处理,提高AMP鉴定结果的可靠性、全面性,还能同时能筛选出可以用于临床的AMP,本发明仅需通过一行命令即可完成,便捷高效。

Description

一种抗菌肽的鉴定处理方法和系统
技术领域
本发明涉及抗菌肽识别领域,尤其涉及一种抗菌肽的鉴定处理方法和系统。
背景技术
抗菌肽鉴定是对天然提取的或人工设计的序列进行鉴定的过程,也可以作为对抗菌肽是否能够应用于临床的一次筛选。
在抗菌肽的鉴定和筛选过程中,蛋白的序列、结构、理化性质、生物学活性等是判断是否为抗菌肽,是否能应用于临床的重要指标。在序列上,需与已知的天然或经实验验证的抗菌肽序列有足够的相似性;在结构、理化性质上,需要符合已知抗菌肽的相关研究;在生物学活性上,既要符合已知的抗菌肽的研究,还要避免对未来的患者造成伤害,如:若抗菌肽具有裂解酶活性或致敏活性则会对患者造成伤害;另外,要避免抗菌肽序列与患者基因组序列的相似,因为若两者相似,则代表可能为患者自身产生的抗菌肽,该抗菌肽对患者没有治疗效果。
现今鉴定抗菌肽的方法主要为实验法,也有利用生物信息学的方法进行鉴定。但实验鉴定具有耗时耗力的缺点,而利用生物信息学的方法则更为经济高效,可满足大量序列的快速鉴定。通过这些方法来评判是否是有效的AMP并不严谨,不够可靠,假阳性/假阴性较高。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种抗菌肽的鉴定处理方法和系统。
本发明解决上述技术问题的技术方案如下:
一种抗菌肽的鉴定处理方法,包括:
对输入的待鉴定序列进行抗菌肽鉴定处理,获得第一处理结果;
对输入的待鉴定序列进行干扰剔除处理,获得第二处理结果;
根据所述第一处理结果及第二处理结果,结合抗菌肽的应用需求,输出目标抗菌肽序列。
本发明的有益效果是:本方案通过抗菌肽鉴定结合干扰剔除处理,提高AMP鉴定结果的可靠性、全面性,还能同时能筛选出可以用于临床的AMP,本发明仅需通过一行命令即可完成,便捷高效。
进一步地,所述抗菌肽鉴定处理,具体包括:基于数据库的比对处理、性质计算过滤处理、第一预设模型预测处理、结构域方法预测处理和第二预设模型预测处理中的至少一项。
采用上述进一步方案的有益效果是:本方案利用诸多现有的AMP数据库,采用序列相似性分析、理化性质计算、HMM模型预测、蛋白结构域分析预测、数学建模的方法对AMP进行了鉴定,在方法和结果上相比现有技术更为全面可靠。
进一步地,所述干扰剔除处理具体包括:剔除包括蛋白酶裂解位点的序列、与人类序列相似的序列和导致过敏反应的序列。
采用上述进一步方案的有益效果是:本方案利用诸多现有的AMP数据库,采用序列相似性分析、理化性质计算、HMM模型预测、蛋白结构域分析预测、数学建模的方法对AMP进行了鉴定,此外还通过分析序列是否有蛋白酶裂解位点、是否与人类序列相似、是否会导致过敏来达到对AMP的进一步鉴定和筛选,在方法和结果上相比现有技术更为全面可靠。
进一步地,所述性质计算过滤处理包括:物理化学性质、计算体外聚集倾向、计算体内聚集倾向和残基连续伸展性质。
进一步地,所述对输入的待鉴定序列进行抗菌肽鉴定处理,获得第一处理结果,具体包括:
对输入的待鉴定序列进行基于数据库的比对处理,获得第一子处理结果;
对输入的待鉴定序列进行性质计算过滤处理,获得第二子处理结果;
通过第一预设模型对输入的待鉴定序列进行预测处理,获得第三子处理结果;
通过结构域方法对输入的待鉴定序列进行预测处理,获得第四子处理结果;
通过第二预设模型对输入的待鉴定序列进行预测处理,获得第五子处理结果;
所述第一处理结果包括:所述第一子处理结果、所述第二子处理结果、第三子处理结果、第四子处理结果和第五子处理结果中的至少一项。
本发明解决上述技术问题的另一种技术方案如下:
一种抗菌肽的鉴定处理系统,包括:鉴定处理模块、剔除处理模块和组合模块;
所述鉴定处理模块用于对输入的待鉴定序列进行抗菌肽鉴定处理,获得第一处理结果;
所述剔除处理模块用于对输入的待鉴定序列进行干扰剔除处理,获得第二处理结果;
所述组合模块用于根据所述第一处理结果及第二处理结果,结合抗菌肽的应用需求,输出目标抗菌肽序列。
本发明的有益效果是:本方案通过抗菌肽鉴定结合干扰剔除处理,提高AMP鉴定结果的可靠性、全面性,还能同时能筛选出可以用于临床的AMP,本发明仅需通过一行命令即可完成,便捷高效。
进一步地,所述鉴定处理模块具体用于基于数据库的比对处理、性质计算过滤处理、第一预设模型预测处理、结构域方法预测和第二预设模型预测处理中的至少一项。
采用上述进一步方案的有益效果是:本方案利用诸多现有的AMP数据库,采用序列相似性分析、理化性质计算、HMM模型预测、蛋白结构域分析预测、数学建模的方法对AMP进行了鉴定,在方法和结果上相比现有技术更为全面可靠。
进一步地,所述剔除处理模块具体用于剔除包括蛋白酶裂解位点的序列、与人类序列相似的序列和导致过敏反应的序列。
采用上述进一步方案的有益效果是:本方案利用诸多现有的AMP数据库,采用序列相似性分析、理化性质计算、HMM模型预测、蛋白结构域分析预测、数学建模的方法对AMP进行了鉴定,此外还通过分析序列是否有蛋白酶裂解位点、是否与人类序列相似、是否会导致过敏来达到对AMP的进一步鉴定和筛选,在方法和结果上相比现有技术更为全面可靠。
进一步地,所述鉴定处理模块具体用于物理化学性质、计算体外聚集倾向、计算体内聚集倾向和残基连续伸展性质。
进一步地,所述鉴定处理模块具体用于对输入的待鉴定序列进行基于数据库的比对处理,获得第一子处理结果;
对输入的待鉴定序列进行性质计算过滤处理,获得第二子处理结果;
通过第一预设模型对输入的待鉴定序列进行预测处理,获得第三子处理结果;
通过结构域方法对输入的待鉴定序列进行预测处理,获得第四子处理结果;
通过第二预设模型对输入的待鉴定序列进行预测处理,获得第五子处理结果;
所述第一处理结果包括:所述第一子处理结果、所述第二子处理结果、第三子处理结果、第四子处理结果和第五子处理结果中的至少一项。
本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。
附图说明
图1为本发明的实施例提供的一种抗菌肽的鉴定处理方法的流程示意图;
图2为本发明的实施例提供的一种抗菌肽的鉴定处理系统的结构框图;
图3为本发明的其他实施例提供的鉴定抗菌肽序列软件逻辑图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实施例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明实施例提供的一种抗菌肽的鉴定处理方法,包括:
S1,对输入的待鉴定序列进行抗菌肽鉴定处理,获得第一处理结果;
需要说明的是,抗菌肽鉴定处理,具体包括:基于数据库的比对处理、性质计算过滤处理、第一预设模型预测处理、结构域方法预测和第二预设模型预测处理中的至少一项。
S2,对输入的待鉴定序列进行干扰剔除处理,获得第二处理结果;
需要说明的是,干扰剔除处理具体包括:剔除包括蛋白酶裂解位点的序列、与人类序列相似的序列和导致过敏反应的序列。
在某一实施例中,S2具体包括:对输入的待鉴定序列进行基于数据库的比对处理,获得第一子处理结果;
对输入的待鉴定序列进行性质计算过滤处理,获得第二子处理结果;
通过第一预设模型对输入的待鉴定序列进行预测处理,获得第三子处理结果;
通过结构域方法对输入的待鉴定序列进行预测处理,获得第四子处理结果;
通过第二预设模型对输入的待鉴定序列进行预测处理,获得第五子处理结果;
所述第一处理结果包括:所述第一子处理结果、所述第二子处理结果、第三子处理结果、第四子处理结果和第五子处理结果中的至少一项。
S3,根据所述第一处理结果及第二处理结果,结合抗菌肽的应用需求,输出目标抗菌肽序列。
本方案通过抗菌肽鉴定结合干扰剔除处理,提高AMP鉴定结果的可靠性、全面性,还能同时能筛选出可以用于临床的AMP,本发明仅需通过一行命令即可完成,便捷高效。
可选地,在一些实施例中,所述抗菌肽鉴定处理,具体包括:基于数据库的比对处理、性质计算过滤处理、第一预设模型预测处理和第二预设模型预测处理中的至少一项。
本方案利用诸多现有的AMP数据库,采用序列相似性分析、理化性质计算、HMM模型预测、蛋白结构域分析预测、数学建模的方法对AMP进行了鉴定,在方法和结果上相比现有技术更为全面可靠。
可选地,在一些实施例中,所述干扰剔除处理具体包括:剔除包括蛋白酶裂解位点的序列、与人类序列相似的序列和导致过敏反应的序列。
本方案利用诸多现有的AMP数据库,采用序列相似性分析、理化性质计算、HMM模型预测、蛋白结构域分析预测、数学建模的方法对AMP进行了鉴定,此外还通过分析序列是否有蛋白酶裂解位点、是否与人类序列相似、是否会导致过敏来达到对AMP的进一步鉴定和筛选,在方法和结果上相比现有技术更为全面可靠。
可选地,在一些实施例中,所述性质计算过滤处理包括:物理化学性质、计算体外聚集倾向、计算体内聚集倾向和残基连续伸展性质。
可选地,在一些实施例中,所述对输入的待鉴定序列进行抗菌肽鉴定处理,获得第一处理结果,具体包括:
对输入的待鉴定序列进行基于数据库的比对处理,获得第一子处理结果;
对输入的待鉴定序列进行性质计算过滤处理,获得第二子处理结果;
通过第一预设模型对输入的待鉴定序列进行预测处理,获得第三子处理结果;
通过结构域方法对输入的待鉴定序列进行预测处理,获得第四子处理结果;
通过第二预设模型对输入的待鉴定序列进行预测处理,获得第五子处理结果;
所述第一处理结果包括:所述第一子处理结果、所述第二子处理结果、第三子处理结果和第四子处理结果和第五子处理结果中的至少一项。
在某一实施例中,如图3所示,抗菌肽序列鉴定方法可以包括:鉴定候选的AMP序列,具体包括:
1将蛋白序列比对到已知AMP数据库蛋白序列:b l astp;其中,b l astp是一个序列比对软件。
AMP综合蛋白数据库构建:包括5个抗菌肽数据库,CAMPR3、APD、DBAASP、AVPdb、dbAMP。
将输入序列与AMP蛋白数据库进行b l astp比对并过滤(参数:-eva l ue1e-5,表示在随机数据库大小相同的情况下,偶然匹配命中的最高次数。此值越小,比对的可信度越高,过滤掉可信度低的比对结果)。其中,b l astp比对表示蛋白序列比对。
2性质计算过滤:
计算序列的结构、理化性质:对输入的待鉴定序列利用软件进行相关性质的计算,相关性质的计算包括:物理化学性质、体外聚集倾向、体内聚集倾向、残基连续伸展性质等。
其中,过滤为:过滤掉结果中各项数据超过设定阈值的序列,即表示表1第二列的内容,其中,设定阈值的序列如表1所示。
表1
3使用hmm模型的方式预测AMP序列:
AMP综合蛋白数据库的分类:根据所含氨基酸的种类进行数据库的划分,如蛙皮素(maga i n i n)、天蚕素等,形成多种同源基因簇。
AMP综合蛋白数据库的HMM模型构建:对各分类数据库中的蛋白序列利用musc l e进行多序列比对,之后再利用hmmbu i l d进行HMM模型构建。将构建好的HMM模型与CAMP数据库中的HMM模型整合到一起作为鉴定AMP的HMM参考模型。
AMP鉴定:利用hmmsearch软件进行序列检索,保留Eva l ue<=0.001的记录,得到鉴定好的AMP序列。
4结构域方法预测AMP:
鉴定蛋白结构:利用i prscan软件将鉴定出的AMP序列比对到Pfam数据库中,得到鉴定出的蛋白结构域。
5建模方式预测AMP:
数据集构建:AMP数据集为AVPdb、APD、DBAASP、CAMP、dbAMP中的序列,非AMP数据集为Swi ssport数据库中非AMP的序列,并且序列长度分布与物种大类分布与AMP序列相当。
建模预测:利用软件randomForest对已知数据集进行训练,获得准确率为:0.84;灵敏度为:0.84;特异性为:0.84的预测模型。最后利用该预测模型对AMP序列进行鉴定。
在某一实施例中,如图3所示,输入6498条蛋白质序列,利用图3软件所得的结果分别为:
结果1:鉴定出54条AMP序列;
结果2:鉴定出12条AMP序列;
结果3:鉴定出24条AMP序列;
结果4:鉴定出42条AMP序列;
结果5:鉴定出71条AMP序列;
结果6:发现有蛋白酶裂解位点的,或与人类序列相似的,或易导致过敏反应的序列有94条,即“可用于临床”序列有6404条。
将结果1-6取交集,鉴定出可靠的并且可以用于临床的AMP序列共0条。
结果1与结果6取交集:7条可用于临床的AMP序列;
结果2与结果6取交集:5条可用于临床的AMP序列;
结果3与结果6取交集:4条可用于临床的AMP序列;
结果4与结果6取交集:4条可用于临床的AMP序列;
结果5与结果6取交集:19条可用于临床的AMP序列。
在另一实施例中,剔除不适合应用的AMP序列可以包括:
利用软件鉴定并剔除具有蛋白酶裂解位点的序列。裂解酶活性
利用软件鉴定并剔除与人类序列相似的序列。抗菌作用
利用软件鉴定并剔除导致过敏反应的序列。
需要说明的是,CAMPR3Co l l ect i on of Ant i-M i crob i a l Pept ides,包含1120个实验验证的序列;358个预测的序列。
APD,TheAnt imi crob i a l Pept i deDatabase,包含3087个实验验证的序列,涵盖了多种生物:细菌,古生菌,原生生物,真菌,植物,动物。
DBAASP,Database of Ant imi crob i a l Act i v i ty and Structure ofPept i des,为人工校正的数据库。
AVPdb,Database of Ant i v i ra l Pept i des,抗病毒肽数据库。
dbAMP,包含4,271个实验验证的序列,以及12,389个预测的序列。
在某一实施例中,运行示例及结果:
路径:
/path/AMP/examp l e/
运行代码:
/path/b i n/AMPf i nder--sequence test.fa--AMPseq../path/AMP.pep--outpre our--outd i r our--para l l e l 12 1>our.l og 2>our.err。
最终结果:
/path/AMP/examp l e/our/f i na l/AMP.resu l t.x l s。
在某一实施例中,如图2所示,一种抗菌肽的鉴定处理系统,包括:鉴定处理模块1101、剔除处理模块1102和组合模块1103;
所述鉴定处理模块1101用于对输入的待鉴定序列进行抗菌肽鉴定处理,获得第一处理结果;
所述剔除处理模块1102用于对输入的待鉴定序列进行干扰剔除处理,获得第二处理结果;
所述组合模块1103用于根据所述第一处理结果及第二处理结果,结合抗菌肽的应用需求,输出目标抗菌肽序列。
需要说明的是,最终的结果文件格式为:第一列为输入序列I D,第二列及以后是整合的所有指标结果信息。结果文件格式信息,如表2所示:
表2
本方案通过抗菌肽鉴定结合干扰剔除处理,提高AMP鉴定结果的可靠性、全面性,还能同时能筛选出可以用于临床的AMP,本发明仅需通过一行命令即可完成,便捷高效。
可选地,在一些实施例中,所述鉴定处理模块1101具体用于基于数据库的比对处理、性质计算过滤处理、第一预设模型预测处理、结构域方法预测处理和第二预设模型预测处理中的至少一项。
本方案利用诸多现有的AMP数据库,采用序列相似性分析、理化性质计算、HMM模型预测、蛋白结构域分析预测、数学建模的方法对AMP进行了鉴定,在方法和结果上相比现有技术更为全面可靠。
可选地,在一些实施例中,所述剔除处理模块1102具体用于剔除包括蛋白酶裂解位点的序列、与人类序列相似的序列和导致过敏反应的序列。
本方案利用诸多现有的AMP数据库,采用序列相似性分析、理化性质计算、HMM模型预测、蛋白结构域分析预测、数学建模的方法对AMP进行了鉴定,此外还通过分析序列是否有蛋白酶裂解位点、是否与人类序列相似、是否会导致过敏来达到对AMP的进一步鉴定和筛选,在方法和结果上相比现有技术更为全面可靠。
可选地,在一些实施例中,所述鉴定处理模块1101具体用于物理化学性质、计算体外聚集倾向、计算体内聚集倾向和残基连续伸展性质。
可选地,在一些实施例中,所述鉴定处理模块1101具体用于对输入的待鉴定序列进行基于数据库的比对处理,获得第一子处理结果;
对输入的待鉴定序列进行性质计算过滤处理,获得第二子处理结果;
通过第一预设模型对输入的待鉴定序列进行预测处理,获得第三子处理结果;
通过结构域方法对输入的待鉴定序列进行预测处理,获得第四子处理结果;
通过第二预设模型对输入的待鉴定序列进行预测处理,获得第五子处理结果;
所述第一处理结果包括:所述第一子处理结果、所述第二子处理结果、第三子处理结果、第四子处理结果和第五子处理结果中的至少一项。
可以理解,在一些实施例中,可以包含如上述各实施例中的部分或全部可选实施方式。
需要说明的是,上述各实施例是与在先方法实施例对应的产品实施例,对于产品实施例中各可选实施方式的说明可以参考上述各方法实施例中的对应说明,在此不再赘述。
在某一实施例中,一种鉴定抗菌肽序列软件,如图3所示,各个模块的功能:
整个软件分为两个部分:
<一>鉴定候选的AMP序列:
将蛋白序列比对到已知AMP数据库蛋白序列;
计算物理化学性质;
计算体外聚集倾向;
计算体内聚集倾向;
残基连续伸展性质;
使用hmm模型的方式预测AMP序列;
使用结构域的方式预测AMP序列;
使用建模的方式预测AMP序列。
<二>剔除不适合应用的AMP序列:
有蛋白酶裂解位点的序列;
与人类序列相似的序列;
易导致过敏反应的序列。
抗菌肽(ant imi crob i a l pept i des,AMPs)是一类具有广谱抗微生物活性和免疫调节活性的小分子多肽,属于生物机体非特异性免疫系统的固有组成部分,是维护宿主防御外来感染的第一道防御屏障。抗菌肽存在于各种动物、植物、细菌、病毒和人体当中,来源非常广泛。
抗菌肽不仅具有抗细菌、抗病毒、抗真菌、抗寄生虫等多种生物学活性,并且有的抗菌肽还具备免疫调节、抗炎、抗肿瘤等多种功能。目前最广泛和重要的应用是作为抗菌物质使用,但不同于抗生素,由于抗菌肽独特的结构特点和作用机制,使其在应用过程中不易产生耐药性,是有望代替抗生素,解决抗生素耐药性的理想添加剂。
抗菌肽一般由10-50个氨基酸残基组成,分子量约1,000-5,000Da,其二级结构包括α螺旋、β折叠和线性结构。抗菌肽分为非核糖体合成肽和核糖体合成肽,非核糖体合成肽主要存在于细菌和真菌中,由合成酶组成,比如短杆菌肽、杆菌肽、多粘菌素B和万古霉素。但其对于新出现的细菌耐药性抗性不足。核糖体合成肽则广泛存在于从原核生物到人类的多种多样的物种中,在抗细菌、抗病毒、抗寄生虫、抗肿瘤上具有多样的生物活性。
根据抗菌肽的来源、结构等还有许许多多的分类,而主要影响抗菌肽抗生素谱大小的是氨基酸序列和结构构象。在已知的抗菌肽抑杀微生物的机制中,抗菌肽的作用机制主要涉及肽与微生物表面的结合、肽的构象变化、多肽单体的聚集以及通过细菌细胞壁的孔形成。抗菌肽通过这种机制使得细菌破裂,细胞成分泄露,导致细胞死亡。
与传统抗生素相比,抗菌肽除了有广谱的杀伤性外,还具有对抗生素抗性细菌的生物活性,还与常规抗生素有协同作用,特别是对抗耐药突变体,因此抗菌肽成为了临床一项重要的新型抗菌药物。但现在抗菌肽的应用面临着许多问题:抗菌肽的产量少,自然界中生物所产生的抗菌肽非常少,而利用医药工业进行生产成本高产量少,很难商业化;有些抗菌肽对哺乳动物细胞还有一定的毒性、杀灭病原微生物的同时常伴有溶血活性和蛋白酶抑制活性。为了解决这些问题,抗菌肽分子设计成为了关键。
抗菌肽鉴定是对天然提取的或人工设计的序列进行鉴定的过程,也可以作为对抗菌肽是否能够应用于临床的一次筛选。
在抗菌肽的鉴定和筛选过程中,蛋白的序列、结构、理化性质、生物学活性等是判断是否未抗菌肽,是否能应用于临床的重要指标。在序列上,需与已知的天然或经实验验证的抗菌肽序列有足够的相似性;在结构、理化性质上,需要符合已知抗菌肽的相关研究;在生物学活性上,既要符合已知的抗菌肽的研究,还要避免对未来的患者造成伤害,如:若抗菌肽具有裂解酶活性或致敏活性则会对患者造成伤害;另外,要避免抗菌肽序列与患者基因组序列的相似,因为若两者相似,则代表可能为患者自身产生的抗菌肽,该抗菌肽对患者没有治疗效果。
现今鉴定抗菌肽的方法主要为实验法,也有利用生物信息学的方法进行鉴定。但实验鉴定具有耗时耗力的缺点,而利用生物信息学的方法则更为经济高效,可满足大量序列的快速鉴定。
目前大多数研究采用的多为单一方式预测AMP。比如:只用序列相似性来预测(b lastp比对的方法),或者只考虑序列的化学物理性质,或者只采用HMM模型预测、蛋白结构域分析预测的方法。此外,有部分研究是以物理化学性质为特征使用机器学习方法来预测,但是该方法缺乏对AMP功能的描述。这些方法对AMP的鉴定都有效,但仅以一种方式来评判是否是有效的AMP并不严谨,不够可靠,假阳性/假阴性较高。
为了提高AMP鉴定结果的可靠性、全面性,也为了同时能筛选出可以用于临床的AMP,发明了这一方法。本项目利用诸多现有的AMP数据库,采用序列相似性分析、理化性质计算、HMM模型预测、蛋白结构域分析预测、数学建模的方法对AMP进行了鉴定,此外还通过分析序列是否有蛋白酶裂解位点、是否与人类序列相似、是否会导致过敏来达到对AMP的进一步鉴定和筛选。在方法和结果上相比现有技术更为全面可靠。此外,本发明仅需通过一行命令即可完成,便捷高效。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的方法实施例仅仅是示意性的,例如,步骤的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个步骤可以结合或者可以集成到另一个步骤,或一些特征可以忽略,或不执行。
上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (2)

1.一种抗菌肽的鉴定处理方法,其特征在于,包括:
对输入的待鉴定序列进行抗菌肽鉴定处理,获得第一处理结果;
对输入的待鉴定序列进行干扰剔除处理,获得第二处理结果;
根据所述第一处理结果及第二处理结果,结合抗菌肽的应用需求,输出目标抗菌肽序列;
所述抗菌肽鉴定处理,具体包括:基于数据库的比对处理、性质计算过滤处理、第一预设模型预测处理、结构域方法预测处理和第二预设模型预测处理中的至少一项;
所述干扰剔除处理具体包括:剔除包括蛋白酶裂解位点的序列、与人类序列相似的序列和导致过敏反应的序列;
所述性质计算过滤处理包括:物理化学性质、计算体外聚集倾向、计算体内聚集倾向和残基连续伸展性质;
所述对输入的待鉴定序列进行抗菌肽鉴定处理,获得第一处理结果,具体包括:
对输入的待鉴定序列进行基于数据库的比对处理,获得第一子处理结果;
对输入的待鉴定序列进行性质计算过滤处理,获得第二子处理结果;
通过第一预设模型对输入的待鉴定序列进行预测处理,获得第三子处理结果;
通过结构域方法对输入的待鉴定序列进行预测处理,获得第四子处理结果;
通过第二预设模型对输入的待鉴定序列进行预测处理,获得第五子处理结果;
所述第一处理结果包括:所述第一子处理结果、所述第二子处理结果、第三子处理结果、第四子处理结果和第五子处理结果中的至少一项;
还包括:将蛋白序列比对到已知AMP数据库蛋白序列,对输入的待鉴定序列利用软件进行相关性质的计算,相关性质的计算包括:物理化学性质、体外聚集倾向、体内聚集倾向、残基连续伸展性质,并过滤掉结果中各项数据超过设定阈值的序列,使用hmm模型的方式预测AMP序列,将鉴定出的AMP序列比对到Pfam数据库中,得到鉴定出的蛋白结构域。
2.一种抗菌肽的鉴定处理系统,其特征在于,包括:鉴定处理模块、剔除处理模块和组合模块;
所述鉴定处理模块用于对输入的待鉴定序列进行抗菌肽鉴定处理,获得第一处理结果;
所述剔除处理模块用于对输入的待鉴定序列进行干扰剔除处理,获得第二处理结果;
所述组合模块用于根据所述第一处理结果及第二处理结果,结合抗菌肽的应用需求,输出目标抗菌肽序列;
所述鉴定处理模块具体用于基于数据库的比对处理、性质计算过滤处理、第一预设模型预测处理、结构域方法预测处理和第二预设模型预测处理中的至少一项;
所述剔除处理模块具体用于剔除包括蛋白酶裂解位点的序列、与人类序列相似的序列和导致过敏反应的序列;
所述鉴定处理模块具体用于物理化学性质、计算体外聚集倾向、计算体内聚集倾向和残基连续伸展性质;
所述鉴定处理模块具体用于对输入的待鉴定序列进行基于数据库的比对处理,获得第一子处理结果;
对输入的待鉴定序列进行性质计算过滤处理,获得第二子处理结果;
通过第一预设模型对输入的待鉴定序列进行预测处理,获得第三子处理结果;
通过结构域方法对输入的待鉴定序列进行预测处理,获得第四子处理结果;
通过第二预设模型对输入的待鉴定序列进行预测处理,获得第五子处理结果;
所述第一处理结果包括:所述第一子处理结果、所述第二子处理结果、第三子处理结果、第四子处理结果和第五子处理结果中的至少一项;
还包括:将蛋白序列比对到已知AMP数据库蛋白序列,对输入的待鉴定序列利用软件进行相关性质的计算,相关性质的计算包括:物理化学性质、体外聚集倾向、体内聚集倾向、残基连续伸展性质,并过滤掉结果中各项数据超过设定阈值的序列,使用hmm模型的方式预测AMP序列,将鉴定出的AMP序列比对到Pfam数据库中,得到鉴定出的蛋白结构域。
CN202310036165.3A 2023-01-06 2023-01-06 一种抗菌肽的鉴定处理方法和系统 Active CN116130004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310036165.3A CN116130004B (zh) 2023-01-06 2023-01-06 一种抗菌肽的鉴定处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310036165.3A CN116130004B (zh) 2023-01-06 2023-01-06 一种抗菌肽的鉴定处理方法和系统

Publications (2)

Publication Number Publication Date
CN116130004A CN116130004A (zh) 2023-05-16
CN116130004B true CN116130004B (zh) 2024-05-24

Family

ID=86312224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310036165.3A Active CN116130004B (zh) 2023-01-06 2023-01-06 一种抗菌肽的鉴定处理方法和系统

Country Status (1)

Country Link
CN (1) CN116130004B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001030830A2 (en) * 1999-10-26 2001-05-03 Mitokor Gene sequences identified by protein motif database searching
CN102272585A (zh) * 2008-10-31 2011-12-07 生物梅里埃公司 采用拉曼光谱法分离、表征和/或鉴定微生物的方法
WO2018122338A1 (en) * 2016-12-30 2018-07-05 Dublin Institute Of Technology Computational selection of proteases and prediction of cleavage products
CN109425662A (zh) * 2017-08-23 2019-03-05 深圳华大基因研究院 一种鉴定蛋白的方法及系统
CN110277136A (zh) * 2019-07-05 2019-09-24 湖南大学 蛋白质序列数据库并行搜索鉴定方法与装置
CN112614538A (zh) * 2020-12-17 2021-04-06 厦门大学 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置
CN114694743A (zh) * 2020-12-11 2022-07-01 深圳吉诺因生物科技有限公司 基于表位保守性的免疫多肽组鉴定方法
WO2022217285A1 (en) * 2021-04-09 2022-10-13 The Trustees Of The University Of Pennsylvania Hidden antibiotics in the human proteome
CN115472240A (zh) * 2022-09-14 2022-12-13 北京师范大学珠海校区 一种alf抗菌肽优化方法
CN115512396A (zh) * 2022-11-01 2022-12-23 山东大学 一种基于深度神经网络的抗癌肽和抗菌肽预测方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060106545A1 (en) * 2004-11-12 2006-05-18 Jubilant Biosys Ltd. Methods of clustering proteins
EP2109054A1 (en) * 2008-04-09 2009-10-14 Biotempt B.V. Methods for identifying biologically active peptides and predicting their function
GB201502590D0 (en) * 2015-02-16 2015-04-01 Lonza Ag Method and apparatus for designing proteins
WO2021041199A1 (en) * 2019-08-23 2021-03-04 Geaenzymes Co. Systems and methods for predicting proteins

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001030830A2 (en) * 1999-10-26 2001-05-03 Mitokor Gene sequences identified by protein motif database searching
CN102272585A (zh) * 2008-10-31 2011-12-07 生物梅里埃公司 采用拉曼光谱法分离、表征和/或鉴定微生物的方法
WO2018122338A1 (en) * 2016-12-30 2018-07-05 Dublin Institute Of Technology Computational selection of proteases and prediction of cleavage products
CN109425662A (zh) * 2017-08-23 2019-03-05 深圳华大基因研究院 一种鉴定蛋白的方法及系统
CN110277136A (zh) * 2019-07-05 2019-09-24 湖南大学 蛋白质序列数据库并行搜索鉴定方法与装置
CN114694743A (zh) * 2020-12-11 2022-07-01 深圳吉诺因生物科技有限公司 基于表位保守性的免疫多肽组鉴定方法
CN112614538A (zh) * 2020-12-17 2021-04-06 厦门大学 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置
WO2022217285A1 (en) * 2021-04-09 2022-10-13 The Trustees Of The University Of Pennsylvania Hidden antibiotics in the human proteome
CN115472240A (zh) * 2022-09-14 2022-12-13 北京师范大学珠海校区 一种alf抗菌肽优化方法
CN115512396A (zh) * 2022-11-01 2022-12-23 山东大学 一种基于深度神经网络的抗癌肽和抗菌肽预测方法及系统

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
"Rhodnius prolixus: Identification of missing components of the IMD immune signaling pathway and functional characterization of its role in eliminating bacteria";Salcedo-Porras, N; Guarneri, A; (...); Lowenberger, C;《PLOS ONE》;20190430;第14卷(第4期);全文 *
"一株产抗菌肽芽孢杆菌的筛选、鉴定及其发酵条件优化研究";常艺海等;《饲料研究》;第45卷(第20期);全文 *
"三个棉种中LACS家族基因鉴定及其对盐胁迫的响应";盖文瑜; 孙华; 张海君; 宋宪亮; 盖树鹏; 袁延超;《分子植物育种》;20221231;第20卷(第24期);全文 *
基于云南臭蛙抗菌肽序列分析的药物设计策略;邬晓勇;孙雁霞;何钢;苟兴华;苟小军;;《西北师范大学学报(自然科学版)》(第04期);全文 *
基于序列信息的阳离子抗菌肽设计;舒茂;路亚阔;张云茹;杨力;林治华;;《计算机与应用化学》(第08期);全文 *
大鲵皮肤分泌物抗菌肽Andricin 01生物信息学分析;金文刚;裴金金;贺屹潮;陈德经;;《黑龙江畜牧兽医》(第03期);全文 *
天然抗生素―抗菌肽;何英翠;刘虹霞;张国刚;;《沈阳药科大学学报》(第08期);全文 *
抗菌肽及其研究进展;徐佳;《绵阳师范学院学报》(第05期);全文 *

Also Published As

Publication number Publication date
CN116130004A (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
Rifaioglu et al. MDeePred: novel multi-channel protein featurization for deep learning-based binding affinity prediction in drug discovery
Romero‐Molina et al. PPI‐Detect: a support vector machine model for sequence‐based prediction of protein–protein interactions
Nacu et al. Gene expression network analysis and applications to immunology
Rice et al. A 3D-1D substitution matrix for protein fold recognition that includes predicted secondary structure of the sequence
Lipton et al. Global analysis of the Deinococcus radiodurans proteome by using accurate mass tags
CN107731309B (zh) 一种药物活性的预测方法及其应用
Veltri et al. Improving recognition of antimicrobial peptides and target selectivity through machine learning and genetic programming
Wang et al. Understanding transcription factor regulation by integrating gene expression and DNase I hypersensitive sites
Fang et al. Identification of properties important to protein aggregation using feature selection
Yang et al. Effective identification of Gram-negative bacterial type III secreted effectors using position-specific residue conservation profiles
Nath et al. Maximizing lipocalin prediction through balanced and diversified training set and decision fusion
Santos-Júnior et al. Discovery of antimicrobial peptides in the global microbiome with machine learning
Meng et al. Gene selection integrated with biological knowledge for plant stress response using neighborhood system and rough set theory
CN107451423A (zh) 一种基于热扩散网络的药物发现方法及其应用
Qian et al. Identification of cancerlectins using support vector machines with fusion of G-gap dipeptide
Zhou et al. PredLLPS_PSSM: a novel predictor for liquid–liquid protein separation identification based on evolutionary information and a deep neural network
CN116130004B (zh) 一种抗菌肽的鉴定处理方法和系统
Simonovsky et al. Predicting molecular mechanisms of hereditary diseases by using their tissue‐selective manifestation
Gong et al. Prioritization of disease susceptibility genes using LSM/SVD
Chang et al. DeepNphos: A deep-learning architecture for prediction of N-phosphorylation sites
Alemu The role and application of bioinformatics in plant disease management
Yang et al. Deep-BGCpred: A unified deep learning genome-mining framework for biosynthetic gene cluster prediction
EP3238112B1 (en) Method and system for assigning a species to a plurality of sequencing reads
Tang et al. A algorithm for identifying disease genes by incorporating the subcellular localization information into the protein-protein interaction networks
Le Quéau et al. Analyzing Alzheimer's disease gene expression dataset using clustering and association rule mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant