CN114724630A - 用于预测蛋白质翻译后修饰位点的深度学习方法 - Google Patents
用于预测蛋白质翻译后修饰位点的深度学习方法 Download PDFInfo
- Publication number
- CN114724630A CN114724630A CN202210406078.8A CN202210406078A CN114724630A CN 114724630 A CN114724630 A CN 114724630A CN 202210406078 A CN202210406078 A CN 202210406078A CN 114724630 A CN114724630 A CN 114724630A
- Authority
- CN
- China
- Prior art keywords
- ptm
- protein sequence
- protein
- prediction
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004481 post-translational protein modification Effects 0.000 title claims abstract description 124
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 106
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 230000008878 coupling Effects 0.000 claims abstract description 39
- 238000010168 coupling process Methods 0.000 claims abstract description 39
- 238000005859 coupling reaction Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 230000010365 information processing Effects 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000005284 excitation Effects 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000012952 Resampling Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000001125 extrusion Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 230000015654 memory Effects 0.000 claims description 2
- 238000010008 shearing Methods 0.000 claims description 2
- 238000012800 visualization Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 4
- 238000011160 research Methods 0.000 abstract description 4
- 238000009510 drug design Methods 0.000 abstract description 3
- 150000001413 amino acids Chemical class 0.000 description 12
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000026731 phosphorylation Effects 0.000 description 7
- 238000006366 phosphorylation reaction Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 101000628535 Homo sapiens Metalloreductase STEAP2 Proteins 0.000 description 1
- 102100026711 Metalloreductase STEAP2 Human genes 0.000 description 1
- 102000007474 Multiprotein Complexes Human genes 0.000 description 1
- 108010085220 Multiprotein Complexes Proteins 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 239000002775 capsule Substances 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000022131 cell cycle Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000013595 glycosylation Effects 0.000 description 1
- 238000006206 glycosylation reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004118 muscle contraction Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 230000009822 protein phosphorylation Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- KDYFGRWQOYBRFD-UHFFFAOYSA-N succinic acid Chemical compound OC(=O)CCC(O)=O KDYFGRWQOYBRFD-UHFFFAOYSA-N 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
用于预测蛋白质翻译后修饰位点的深度学习方法,涉及生物信息学领域。包括:从公共数据库上收集带有蛋白质翻译后修饰位点注释的蛋白质序列数据;对收集到的蛋白质序列进行去冗余处理,并删除可信度较低的位点注释信息,得到不同PTM类型的蛋白质序列集合;构建基于深度神经网络的预测模型,提取蛋白质序列的短程耦合信息和长程耦合信息;利用蛋白质序列数据集为每种PTM类型训练一个预测模型;将训练好的预测模型部署到网上得到在线预测系统;用户通过在线预测系统输入蛋白质序列文件,选择需要预测的PTM位点类型,在线系统返回PTM位点的预测结果。可以同时预测多种PTM位点,可为生物医学研究和药物设计提供相关的蛋白质信息。
Description
技术领域
本发明涉及生物信息学领域,尤其是涉及一种用于预测蛋白质翻译后修饰位点的深度学习方法及系统。
背景技术
蛋白质翻译后修饰(PTM)是增加蛋白质组多样性的关键机制,它通过向一个或多个残基添加修饰基团可使蛋白质具有更为复杂的结构和更为完善的功能,实现更为精细的调节(Khoury,G.A.;Baliban,R.C.;Floudas,C.A.,Proteome-wide post-translationalmodification statistics:frequency analysis and curation of the Swiss-protdatabase.Scientific Reports 2011,1,(90),5.)。磷酸化、糖基化、乙酰赖氨酸化和甲基精氨酸化是其中重要的蛋白质翻译后修饰物,它们与生物的代谢过程有着重要的关联,例如细胞周期、神经活动、肌肉收缩和肿瘤生成等。已有研究表明,异常的蛋白质翻译后修饰与某些疾病的发生有关(Eipper,B.Betty A.,Posttranslational modification ofproteins:expanding nature's inventory.The Quarterly Review of Biology 2008,83,(4),403-403)。准确地识别PTM位点,对于更好地理解蛋白质在生命活动中起到的作用以及药物设计具有重要意义。
近几年,研究人员已经提出多种PTM位点识别方法,主要分为干实验和湿实验的方法。其中,Edman降解法和32P标记法是识别PTM位点的两种经典的湿实验方法。最近,Lyu等人(Lyu,J.W.;Wang,Y.;Mao,J.W.;Yao,Y.T.;Wang,S.J.;Zheng,Y.;Ye,M.L.,PseudotargetedMS method for the sensitive analysis of protein phosphorylation in proteincomplexes.Analytical Chemistry 2018,90,(10),6214-6221)提出一种基于平行反应监测技术的伪靶向质谱法识别和定量磷酸肽,该方法产生比过去湿实验方法更多的PTM位点。虽然基于湿实验的方法能够精确的识别PTM位点,但需要消耗大量的成本和时间。而基于干实验的方法假设序列中的残基遵循一种有规律的模式,并利用计算机学习该模式预测真实的PTM位点,具有成本低、速度快的特点。随着技术的发展,越来越多的PTM位点被发现,这为利用干实验的方法挖掘残基上的翻译后修饰模式进而PTM位点预测提供条件。
目前,研究人员已经提出一些基于干实验的PTM位点预测方法,主要分为基于机器学习的方法和深度学习的方法,如Musite(Gao,J.J.;Thelen,J.J.;Dunker,A.K.;Xu,D.,Musite,a tool for global prediction of general and kinase-specificphosphorylationsites.Molecular&Cellular Proteomics 2010,9,(12),2586-2600),PhosPred-RF(Wei,L.Y.;Xing,P.W.;Tang,J.J.;Zou,Q.,PhosPred-RF:a novel sequence-based predictor for phosphorylation sites using sequential informationonly.IEEE Transactions onNanobioscience 2017,16,(4),240-247),MusiteDeep(Wang,D.L.;Zeng,S.;Xu,C.H.;Qiu,W.R.;Liang,Y.C.;Joshi,T.;Xu,D.,MusiteDeep:a deep-learning framework for general and kinase-specific phosphorylation siteprediction.Bioinformatics 2017,33,(24),3909-3916),CapsNet(Wang,D.L.;Liang,Y.C.;Xu,D.,Capsule network for protein post-translational modification siteprediction.Bioinformatics 2019,35,(14),2386-2394),HybridSucc(薛宇;宁万山;许浩东;邓万锟;郭亚萍,蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统,CN110033822,2019.03.29)等方法。其中,Musite、PhosPred-RF是典型的机器学习方法,这些方法提供有效的特征提取,并优化模型的关键参数以拟合实验数据。Musite使用k近邻评分、蛋白质紊乱特征和氨基酸频率特征来表示潜在PTM位点周围的局部序列信息。PhosPred-RF是一种基于随机森林的预测模型,它应用信息论特征、重叠属性特征、二十位特征和skip-n-gram特征来捕获PTM位点和非PTM位点之间的差异。然而,基于机器学习的方法性能依赖特征工程,对方法的使用与改进有着很大的限制。与其相比,基于深度学习的方法可以自动对蛋白质序列的特征进行提取,通过端到端的策略直接预测PTM位点,摆脱特征工程和专家领域的依赖。其中MusiteDeep和CapsNet是两种常用的基于一级序列信息的深度学习的PTM位点预测方法,HybridSucc则是基于多级结构与进化信息的PTM位点预测方法,它们表现出比基于机器学习方法更好的预测效果。MusiteDeep发布基于web的在线预测服务,研究人员可以直接输入faste文件获得蛋白质序列中潜在的PTM位点位置。
虽然已有的PTM位点预测方法能够获得良好的预测性能,但仍存在以下不足:一是对序列信息的利用率不高。现有的预测PTM位点的方法主要侧重于利用潜在PTM位点与周围位点的短程耦合信息进行预测,而没有考虑长程耦合信息;二是一些方法采用蛋白质的多级结构信息,难以进行获取;三是模型的特征表征能力不足。研究发现,相对于非PTM位点周围的残基,PTM位点周围的残基通常有更高度的相关性;并且潜在PTM位点附近的残基对该位点是否为PTM位点更为重要,而目前大多数的模型设计时没有关注到这方面的特性。三是目前的在线预测服务仍存在着一些问题,如当用户有大量数据需要预测时,由于服务器吞吐量和性能的限制需要等待较长时间。当出现浏览器崩溃或不慎误关网页的情况,很容易导致预测失败。这不仅会造成服务器资源的浪费,也消耗用户的时间。
发明内容
本发明的目的在于针对现有技术存在的信息利用率不足、模型可解释性差、web服务等待时间过长等问题,提供可提升预测PTM位点的预测准确度,缓解深度学习模型可解释性差,节省用户等待时间的一种用于预测蛋白质翻译后修饰位点的深度学习方法。
本发明包括以下步骤:
1)蛋白质序列数据集的构建:从公开的数据库中收集带有翻译后修饰位点(PTM)的蛋白质序列,删除冗余的蛋白质序列,得到不同PTM位点类型的蛋白质序列数据集;
2)蛋白质序列的编码:通过补零或剪切的方式归一化蛋白质序列的长度,并对蛋白质序列进行one-hot编码;
3)PTM位点预测模型的构建:利用基于深度神经网络构建PTM位点的预测模型,设计并行的特征提取模块分别提取蛋白质序列的短程和长程的耦合信息;
4)PTM位点预测模型的训练:根据PTM位点的类型,利用蛋白质序列数据集分别训练预测模型;
5)在线交互系统的实现:将训练后的神经网络模型部署于服务器上,实现在线预测和结果可视化,并将预测结果输出。
步骤1)中,所述蛋白质序列数据集的构建,具体包括以下步骤:
(1)从公开的数据库中收集并整理有PTM位点的蛋白质序列,获取PTM位点的位置,整理成为初始数据集;所述公开的数据库包括SwissProt、dbPTM、phosphoELM、PhosphoSitePLUS等PTM位点数据库;
(2)使用蛋白质序列聚类工具CD-HIT从初始数据集中去除冗余的蛋白质序列;
(3)对去冗余的蛋白质序列进行数据清洗,删除可信度低的位点注释信息,得到干净的蛋白质序列数据集。
在步骤2)中,所述蛋白质序列的编码,具体包括以下步骤:
(1)将长序列进行截断操作,短序列进行零填充,使蛋白质序列具有相同的长度;
(2)对统一长度的蛋白质序列进行one-hot编码,转化为计算机可识别的向量。
在步骤3)中,所述PTM位点预测模型的构建,具体步骤为:构建一个基于深度神经网络的模型,模型包含短程耦合特征提取模块和长程耦合信息处理模块,分别用于提取蛋白质序列的短程和全局耦合信息;短程耦合特征提取模块,依次包含有1个卷积神经网络CNN,2个挤压与激励网络SENet,1个双向长短期记忆网络Bi-LSTM和2个全连接层FC。
在步骤4)中,所述PTM位点预测模型的训练,具体步骤包括:
(1)由于PTM位点的正负样本通常是不平衡的,故将训练数据集随机分为N个训练子集,样本量不足的训练子集采用重采样方法补齐,得到N个平衡的训练子集;
(2)用N个训练子集分别对模型进行训练,再对训练结果进行集成学习得到预测模型。
在步骤5)中,所述在线交互系统的实现,具体步骤包括:
(1)利用Python和JavaScript语言编程实现在线的PTM位点预测模型;
(2)设计在线模型的输入输出模块;
(3)用户通过系统提交蛋白质序列文件,选择待预测的PTM类型,系统将预测结果通过Http和邮件的方式返回给用户;所述预测结果包括蛋白质序列的信息、位点位置、PTM位点种类等信息。
与现有技术相比,本发明包括以下优点和技术效果:
1、本发明针对信息利用率不足的问题,通过引入长程耦合信息估计PTM位点的先验分布,进而提升预测PTM位点的预测准确度;
2、本发明针对模型的特征表征能力问题,在模型设计时引入Bi-LSTM和SENet网络来分别捕获以上两种信号,在提升性能的同时缓解深度学习模型可解释性差的问题。
3、本发明针对已有的web服务等待时间过长的问题,提供的在线预测技术在处理大型fasta文件任务时,利用STMP邮件功能库预设需要发送邮件的账户。用户只需留下邮箱地址,本发明提供的服务便可以在模型运行结束后将结果以邮件的形式发送给用户,节省用户的等待时间。
4、本发明所述DeepPTM模型在构建数据集时使用多个数据库中的数据,相比于其它同类型的预测模型有着更大的训练集;
5、本发明所述DeepPTM模型有着更高的信息利用率和更有效的模型设计,具有更高的预测性能;且编码时不需要获取蛋白质的多级结构,只需要蛋白质的一级结构,预测过程更加便捷;
6、本发明所述基于DeepPTM模型的PTM位点预测的在线预测系统,采用更简洁的可视化界面,使用户可以更加直观了解到预测的结果。采用通过邮件后台发送预测结果的设计,解决用户需要长时间保存网站页面等待预测结果的问题。
7、本发明可以同时预测多种PTM位点,为生物医学研究和药物设计提供相关的蛋白质信息。
附图说明
图1是本发明总体流程图。
图2是本发明中DeepPTM神经网络模型结构示意图。
图3是本发明中长程耦合信息处理模块和短程耦合信息处理模块结构示意图。
图4是DeepPTM神经网络模型在磷酸化位点的预测任务上,基于Pre、Re、F1-score、MCC等指标和其他方法的对比。
图5是本发明中的DeepPTM神经网络的本地信息处理模块中第二个SENet块的输出。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
如图1,本发明实施例包括以下步骤:
1)蛋白质序列数据集的构建
从网上公开的蛋白质翻译后修饰(PTM)位点数据库中收集并整理有PTM位点的蛋白质序列,获取PTM位点的位置,整理成为数据集。对整理好的初始数据集进行去冗余的处理后,为每一类型的PTM位点构建一个独立的蛋白质序列数据集。将每个数据集的蛋白质序列按10︰1的比例随机分为训练集和测试集,将标注的PTM位点定义为正样本,其余的潜在PTM位点定义为负样本。具体地,PTM位点数据集从SWISSPROT,dbPTM,phosphoELM,PhosphoSitePLUS等PTM位点数据库中收集蛋白质序列和PTM位点的数据,并使用CD-HITweb服务器从数据集中去除相似度超过0.5的冗余序列。
2)蛋白质序列的编码
得到数据集后,根据蛋白质序列上的氨基酸相互作用分为长程耦合和短程耦合两类。长程耦合定义为蛋白质序列上的所有氨基酸对PTM位点的可能作用,而短程耦合则定义为PTM位点周围少数几个氨基酸的作用;为了统一模型输入数据的维数,将长程耦合的最大距离限制为n,而将长度大于n蛋白质序列进行截断,长度小于n的蛋白质序列进行零填充。同时将短程耦合的距离限制为m,若潜在PTM位点的上下游的氨基酸数目不足m,则使用“*”填充,并将其视为一个氨基酸。
使用ont-hot编码方式,对两类蛋白质序列进行编码,将处理好的蛋白质序列转化为计算机可识别的向量。具体的,每个残基可以编码为一个向量,序列中相应的索引氨基酸表示为“1”,其余的向量均为“0”,具体步骤可如下:
采用2000×20矩阵和51×21矩阵分别表示残基的长程耦合信息和短程耦合信息。将长程耦合信息中的蛋白质序列统一长度为2000,长度大于2000的蛋白质序列进行截断操作,长度小于2000的蛋白质序列进行零填充,以适应模型的输入。使用一个51×1的窗口来获取短程耦合信息,每个窗口的中心为潜在的PTM位点,窗口两侧为位点左右的各25个残基,若潜在PTM位点的上下游的氨基酸数目不足25,则空缺的部分使用“*”进行填充,将它视为一种额外的氨基酸。然后使用one-hot对蛋白质进行编码,每个残基可以编码为一个向量,每个序列里仅有一个向量为“1”,其余的为“0”,其中“1”代表蛋白质序列中相应的索引氨基酸。
3)PTM位点预测模型的构建
构建基于深度神经网络的预测模型,记为DeepPTM,结构如图2所示。该模型包括短程耦合信息处理模块(Short-range coupling module)和长程耦合信息处理模块(Long-range coupling module),两个信息处理模块分别用于处理长程耦合信息和短程耦合信息,分别提取蛋白质序列上来自邻近氨基酸的作用和来自远距离氨基酸的作用,结构如图3所示。其中,长程耦合信息处理模块和短程耦合信息处理模块的特征提取模块使用网络架构,包含有1个卷积神经网络(Convolutional neural network,CNN),2个挤压与激励网络(Sequeese and excitation networks,SENet),1个双向长短期记忆网络(Bi-directionalLong Short-Term Memory,Bi-LSTM)和2个全连接层(Fully Connected Layers,FC。长程和短程耦合特征提取模块通过一系列非线性变换提取蛋白质序列中的高级特征,并将其输入全连接层使用softmax激活函数生成位点预测结果。
PTM位点预测模型构建的具体步骤可为:
1)首先使用卷积层来提取蛋白质序列的特征,本发明中使用的是1×1的卷积核,它可以实现跨通道交互和信息集成。卷积块的输出可以写成公式(1):
其中,Mjk为在kth特征图中的jth位置,X为输入矩阵,f为RELU的激活函数,Wd,i为滤波器的dth行的ith列,bk为kth滤波器的偏置。
2)在卷积层提取好特征后,使用SENet层来压缩和激励特征,以此对特征图进行优化。压缩操作是对特征进行压缩,然后将特征图转化为一个能反映特征的数字。压缩操作可以表示为公式(2):
其中Mic为cth特征图的ith位置,H为特征图的个数,Zc为cth特征图的分布。同时,利用激励运算可以构造特征图之间的相关性。这一操作由两个全连接层完成,第一个全连接层用于减少图的数量并降低计算复杂度,第二个全连接层将维数恢复为输入的维数。激励操作可以表示为公式(3):
Wc=f1(f2(Zc,W1),W2) 3
其中Z为压缩操作后的cth特征图,W1和W2为两个全连接层的权重。f1和f2分别为sigmoid和RELU激活函数。Wc可以作为cth特征图的重要性度量,接着将对所有的特征图进行加权求和得到优化后的特征图,可以表示为公式(4):
M′=W*M 4其中M为SENet层的输入矩阵,W为压缩操作的输出,M′为SENet层的输出矩阵。
3)使用一个Bi-LSTM层来进一步获取SENet层的特征。在每个Bi-LSTM层中有三个门,分别是遗忘门,输入门,输出门。遗忘门用来丢弃不重要的信息,输入门决定需要添加多少新的信息进入状态信息中,而输出门则提供每个单元的输出结果,可以表示为公式(5):
4)使用另一个SENet层估计潜在PTM位点附近的每个位置的残基贡献。上一个SENet层的输出会被调换并输入到另一个SENet层。短程耦合信息处理模块会产生一个具有短程耦合信息的输出,接着将所有特性提供给全连接层。对于长程耦合信息处理模块,也可以使用相似的结构获取长程耦合信息。然后使用其它的全连接层和Softmax输出层获取最后的预测结果。
深度学习模型由于其高度非线性的特征,常常引起黑箱效应并导致数据解释难以进行。DeepPTM模型中引入了注意力机制,从而一定程度上缓解了黑箱效应,使得模型从序列中学习到的信息具备可解释性。图4展示短程耦合信息处理模块中的第二个SENet块的输出,其中横坐标表示蛋白质序列中的位置,纵坐标表示其中一个训练子集中的样本。每个元素表示的是SENet输出的权重,颜色越深表示该位置的权重越大。从图中可以看出,在预测未知的PTM位点时,DeepPTM更加关注潜在位点附近的残基,从而更符合生物学认知。
4、PTM位点预测模型的训练
利用Adam优化器对DeepPTM模型的参数进行学习更新,采用模型输出与位点标签的交叉熵作为损失函数。为了防止模型过拟合并具有更好的泛化能力,训练过程中采用早停法(early stopping),将给定迭代范围内验证集准确率不再提升时的模型参数作为最优参数进行保存。采用Bootstrap重采样和stacking集成学习相结合的策略来解决数据集中正负样本数量不平衡的的问题,将负样本随机划分为n个部分,并与同等数量的正样本相结合构建平衡数据集进行训练,得到n次的训练结果,最后通过集成学习得到训练后的DeepPTM模型。具体步骤如下:
(1)在模型训练过程中,使用Adam优化器对DeepPTM进行梯度更新,并采用标准交叉熵作为损失函数,将验证集表现最优时的参数作为最优参数。使用早停法防止模型过拟合并具有更好的泛化能力。
(2)针对不平衡数据集,采用一种结合Bootstrap重采样和集成学习(ensemblelearning)的非平衡数据集策略,最后得到预测的结果。
具体地,首先将负样本随机分为n个部分,每个部分有m个样本,其中m等于正样本的数量。然后,将各部分负样本与所有正样本相结合,构建平衡数据集。接下来使用n个模型在这些平衡数据集上进行训练。最后,使用集成学习将n个预测结果进行组合并再次进行学习以获得最终预测。
(3)使用模型预测进行PTM位点预测。将待测蛋白质序列输入模型,得到PTM位点预测结果。
具体地,本发明以磷酸化位点预测为例,将本发明的DeepPTM模型与其它四种常用的磷酸化位点预测方法使用TP(Ture positive),TN(Ture negative),FP(Falsepositive)和FN(False negative)等统计方法来测试数据集中两类样本被正确和错误分类的数量,用精确率Pr(Precision),召回率Re(Recall),F1值(F1 score),相关系数MCC(Matthews correlation coefficient),接收者工作特征曲线ROC(Receiver OperatingCharacteristic Curve),接收者工作特征曲线下面积AUROC(Area under the ReceiverOperating Characteristic Curve),精确率召回率曲线下面积AUPRC(Area under thePrecision Recall Curve)等指标上行了比较。
在Pre、Re、F1-score、MCC以及AUROC、AUPRC曲线的指标上,根据图5以及表1所示,DeepPTM在AUROC和AUPRC预测值上总体表现更好。
表1
Notes:AUROC:Areas under the ROC;AUPRC:Areas under the PRC;
为了展示DeepPTM在预测真实PTM位点方面的优势,本发明使用最近发布的蛋白质序列(Uniprot ID:A0A2R8Y619,于2020年6月17日发布)作为测试数据,将DeepPTM与其他三种提供Web服务的系统进行比较。本发明将置信度大于50%的位点视为阳性位点,测试蛋白质序列的真实磷酸化位点为33、81、112,将测试蛋白质序列输入各模型进行测试,测试结果分别为:Musite预测的位点为2、18、19、24、33、116、119;PhosPred-RF预测的位点为18、19、33、85、93;MusiteDeep预测的位点为2、33、112;DeepPTM预测的位点为2、33、35、81、109、112,与其他系统对比,可以正确预测出了所有磷酸化位点,这一结果也表明本发明能准确预测PTM位点并非依赖于数据。
5、在线交互系统的实现
使用Python的Flask框架作为后端,Html与Javascript作为项目前端,将DeepPTM的预测模块封装成接口对外暴露提供服务,用户只需要输入fasta格式的蛋白质序列,即可在线或通过邮件获取预测结果。
具体的,在上述步骤4的基础上,利用Python和JavaScript将DeepPTM模型部署到云平台上,得到在线的PTM位点预测系统。利用Python中的flask构建系统的后端框架,使用Html与JavaScipt技术构建系统的前端框架。用户预测新蛋白质序列的PTM位点时,只需向系统提交fasta格式的蛋白质序列文件,系统计算后返回相应的预测结果,包括蛋白质序列的信息、位点位置、PTM位点种类等信息。
综上,本发明中提出一种新的深度神经网络模型DeepPTM,并开发一个基于DeepPTM模型的蛋白质翻译后修饰位点预测的在线预测技术系统,结果证明,DeepPTM可以有效地提高PTM位点的预测性能。希望本发明能够帮助研究人员发现新的位点,为生物医学研究提供便利,并为未来的医学研究提供有用的帮助。
以上所述,仅为本发明较佳实施例而已,故不能依此限定本发明实施的范围,即依本发明专利范围及说明书内容所作的等效变化与修饰,皆应仍属本发明涵盖的范围内。
Claims (6)
1.用于预测蛋白质翻译后修饰位点的深度学习方法,其特征在于包括以下步骤:
1)蛋白质序列数据集的构建:从公开的数据库中收集带有翻译后修饰位点PTM的蛋白质序列,删除冗余的蛋白质序列,得到不同PTM位点类型的蛋白质序列数据集;
2)蛋白质序列的编码:通过补零或剪切的方式归一化蛋白质序列的长度,并对蛋白质序列进行one-hot编码;
3)PTM位点预测模型的构建:利用基于深度神经网络构建PTM位点的预测模型,设计并行的特征提取模块分别提取蛋白质序列的短程和长程的耦合信息;
4)PTM位点预测模型的训练:根据PTM位点的类型,利用蛋白质序列数据集分别训练预测模型;
5)在线交互系统的实现:将训练后的神经网络模型部署于服务器上,实现在线预测和结果可视化,并将预测结果输出。
2.如权利要示1所述用于预测蛋白质翻译后修饰位点的深度学习方法,其特征在于步骤1)中,所述蛋白质序列数据集的构建,具体包括以下步骤:
(1)从公开的数据库中收集并整理有PTM位点的蛋白质序列,获取PTM位点的位置,整理成为初始数据集;所述公开的数据库包括SwissProt、dbPTM、phosphoELM、PhosphoSitePLUS等PTM位点数据库;
(2)使用蛋白质序列聚类工具CD-HIT从初始数据集中去除冗余的蛋白质序列;
(3)对去冗余的蛋白质序列进行数据清洗,删除可信度低的位点注释信息,得到干净的蛋白质序列数据集。
3.如权利要示1所述用于预测蛋白质翻译后修饰位点的深度学习方法,其特征在于在步骤2)中,所述蛋白质序列的编码,具体包括以下步骤:
(1)将长序列进行截断操作,短序列进行零填充,使蛋白质序列具有相同的长度;
(2)对统一长度的蛋白质序列进行one-hot编码,转化为计算机可识别的向量。
4.如权利要示1所述用于预测蛋白质翻译后修饰位点的深度学习方法,其特征在于在步骤3)中,所述PTM位点预测模型的构建,具体步骤为:构建一个基于深度神经网络的模型,模型包含短程耦合特征提取模块和长程耦合信息处理模块,分别用于提取蛋白质序列的短程和全局耦合信息;短程耦合特征提取模块,依次包含有1个卷积神经网络CNN,2个挤压与激励网络SENet,1个双向长短期记忆网络Bi-LSTM和2个全连接层FC。
5.如权利要示1所述用于预测蛋白质翻译后修饰位点的深度学习方法,其特征在于在步骤4)中,所述PTM位点预测模型的训练,具体步骤包括:
(1)由于PTM位点的正负样本通常是不平衡的,故将训练数据集随机分为N个训练子集,样本量不足的训练子集采用重采样方法补齐,得到N个平衡的训练子集;
(2)用N个训练子集分别对模型进行训练,再对训练结果进行集成学习得到预测模型。
6.如权利要示1所述用于预测蛋白质翻译后修饰位点的深度学习方法,其特征在于在步骤5)中,所述在线交互系统的实现,具体步骤包括:
(1)利用Python和JavaScript语言编程实现在线的PTM位点预测模型;
(2)设计在线模型的输入输出模块;
(3)用户通过系统提交蛋白质序列文件,选择待预测的PTM类型,系统将预测结果通过Http和邮件的方式返回给用户;所述预测结果包括蛋白质序列的信息、位点位置、PTM位点种类等信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210406078.8A CN114724630B (zh) | 2022-04-18 | 2022-04-18 | 用于预测蛋白质翻译后修饰位点的深度学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210406078.8A CN114724630B (zh) | 2022-04-18 | 2022-04-18 | 用于预测蛋白质翻译后修饰位点的深度学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114724630A true CN114724630A (zh) | 2022-07-08 |
CN114724630B CN114724630B (zh) | 2024-05-31 |
Family
ID=82243606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210406078.8A Active CN114724630B (zh) | 2022-04-18 | 2022-04-18 | 用于预测蛋白质翻译后修饰位点的深度学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114724630B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935964A (zh) * | 2023-09-15 | 2023-10-24 | 苏州创腾软件有限公司 | 基于深度学习模型预测抗体翻译后修饰位点的方法和系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200017653A (ko) * | 2018-08-09 | 2020-02-19 | 광주과학기술원 | 약물-표적 상호 작용 예측을 위한 방법 |
CN111180021A (zh) * | 2019-12-26 | 2020-05-19 | 清华大学 | 一种蛋白质结构势能函数的预测方法 |
CA3145875A1 (en) * | 2019-08-02 | 2021-02-11 | Jacob D. Feala | Machine learning guided polypeptide design |
CN112927754A (zh) * | 2020-12-30 | 2021-06-08 | 邵阳学院 | 一个基于双向长短时记忆和卷积神经网络的赖氨酸琥珀酰化修饰预测方法 |
CN113257357A (zh) * | 2021-06-16 | 2021-08-13 | 浙江理工大学 | 蛋白质残基接触图预测方法 |
CN113539364A (zh) * | 2021-07-19 | 2021-10-22 | 浙江理工大学 | 一种深度神经网络框架预测蛋白质磷酸化的方法 |
CN113611360A (zh) * | 2021-08-11 | 2021-11-05 | 邵阳学院 | 一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法 |
CN114005003A (zh) * | 2021-12-09 | 2022-02-01 | 齐齐哈尔大学 | 基于通道多分组融合的遥感场景图像分类方法 |
-
2022
- 2022-04-18 CN CN202210406078.8A patent/CN114724630B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200017653A (ko) * | 2018-08-09 | 2020-02-19 | 광주과학기술원 | 약물-표적 상호 작용 예측을 위한 방법 |
CA3145875A1 (en) * | 2019-08-02 | 2021-02-11 | Jacob D. Feala | Machine learning guided polypeptide design |
CN111180021A (zh) * | 2019-12-26 | 2020-05-19 | 清华大学 | 一种蛋白质结构势能函数的预测方法 |
CN112927754A (zh) * | 2020-12-30 | 2021-06-08 | 邵阳学院 | 一个基于双向长短时记忆和卷积神经网络的赖氨酸琥珀酰化修饰预测方法 |
CN113257357A (zh) * | 2021-06-16 | 2021-08-13 | 浙江理工大学 | 蛋白质残基接触图预测方法 |
CN113539364A (zh) * | 2021-07-19 | 2021-10-22 | 浙江理工大学 | 一种深度神经网络框架预测蛋白质磷酸化的方法 |
CN113611360A (zh) * | 2021-08-11 | 2021-11-05 | 邵阳学院 | 一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法 |
CN114005003A (zh) * | 2021-12-09 | 2022-02-01 | 齐齐哈尔大学 | 基于通道多分组融合的遥感场景图像分类方法 |
Non-Patent Citations (3)
Title |
---|
曾祥利;马洁;朱云平;舒坤贤;: "基于Attention Bi-LSTM模型构建蛋白质诱饵序列库", 重庆邮电大学学报(自然科学版), no. 04, 15 August 2020 (2020-08-15) * |
杜秀全;程家兴;宋杰;: "基于最大熵模型的蛋白质作用位点识别方法", 计算机工程, no. 18, 20 September 2010 (2010-09-20) * |
胡敏菁;吴建盛;施识帆;刘宏德;孙啸;: "面向蛋白质功能位点识别的机器学习平台构建", 生物信息学, no. 01, 15 March 2010 (2010-03-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935964A (zh) * | 2023-09-15 | 2023-10-24 | 苏州创腾软件有限公司 | 基于深度学习模型预测抗体翻译后修饰位点的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114724630B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109979541B (zh) | 基于胶囊网络的药物分子药代动力学性质和毒性预测方法 | |
CN112767997A (zh) | 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 | |
CN110597735A (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
CN111063393B (zh) | 基于信息融合和深度学习的原核生物乙酰化位点预测方法 | |
CN113764034B (zh) | 基因组序列中潜在bgc的预测方法、装置、设备及介质 | |
CN113421658B (zh) | 基于近邻注意力网络的“药物-靶标”相互作用预测方法 | |
CN110826609B (zh) | 一种基于强化学习的双流特征融合图像识别方法 | |
CN113903409B (zh) | 一种分子数据处理方法、模型构建与预测方法及相关装置 | |
CN110489423A (zh) | 一种信息抽取的方法、装置、存储介质及电子设备 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN116842194A (zh) | 一种电力语义知识图谱系统及方法 | |
CN111008570B (zh) | 一种基于压缩-激励伪三维网络的视频理解方法 | |
CN116958622A (zh) | 数据的分类方法、装置、设备、介质及程序产品 | |
CN114372532A (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
CN113920379A (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN112631898A (zh) | 基于cnn-svm的软件缺陷预测方法 | |
CN114724630A (zh) | 用于预测蛋白质翻译后修饰位点的深度学习方法 | |
CN111144453A (zh) | 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备 | |
CN117217807B (zh) | 一种基于多模态高维特征的不良资产估值方法 | |
CN118155746A (zh) | 一种预测分子性质的双通道对比模型 | |
Yu et al. | A novel discriminative dictionary pair learning constrained by ordinal locality for mixed frequency data classification | |
CN117251813A (zh) | 一种网络流量异常检测方法和系统 | |
CN117079051A (zh) | 一种金相智能识别方法、装置及介质 | |
CN111027771A (zh) | 景区客流量预估方法、系统、装置及可存储介质 | |
CN115759095A (zh) | 一种烟草病虫害的命名实体识别方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |