CN114639444A - 一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法 - Google Patents

一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法 Download PDF

Info

Publication number
CN114639444A
CN114639444A CN202210331187.8A CN202210331187A CN114639444A CN 114639444 A CN114639444 A CN 114639444A CN 202210331187 A CN202210331187 A CN 202210331187A CN 114639444 A CN114639444 A CN 114639444A
Authority
CN
China
Prior art keywords
psm
cell
model
peptide
spectrogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210331187.8A
Other languages
English (en)
Other versions
CN114639444B (zh
Inventor
郭雪江
李妍
司徒成昊
王兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Medical University
Original Assignee
Nanjing Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Medical University filed Critical Nanjing Medical University
Priority to CN202210331187.8A priority Critical patent/CN114639444B/zh
Publication of CN114639444A publication Critical patent/CN114639444A/zh
Application granted granted Critical
Publication of CN114639444B publication Critical patent/CN114639444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Library & Information Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biochemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Computing Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,该方法包括:通过质谱实验产生多细胞蛋白质组和多个单细胞蛋白质组质谱数据,提取谱图信息进行预处理;根据肽段保留时间构建肽段保留时间预测模型;基于多细胞蛋白质组质谱数据作为谱图库,构建的深度学习模型来预测单细胞蛋白质组谱图碎片离子强度,并产生用于区分目标和诱饵PSM的特征;构建贝叶斯参数优化的集成学习模型对单细胞蛋白质组谱图质量进行重打分;基于正反库竞争方法控制谱图和蛋白水平的假发现率,进而将高可信性度的肽匹配谱图拼装为肽段、蛋白质进行定量。本发明有助于提高单细胞蛋白质组质谱数据的蛋白质鉴定水平,并促进单细胞蛋白质组学的未来发展和应用。

Description

一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法
技术领域
本发明涉及单细胞蛋白质组学技术领域,尤其涉及一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法。
背景技术
单细胞蛋白质组学改变了传统上从单细胞转录组水平推断蛋白质的不足,为进一步理解细胞发育、肿瘤微环境等方面开创了新的研究方式。单细胞蛋白质组质谱(single-cell proteomics by mass spectrometry,SCoPE-MS)技术极大促进了单细胞蛋白质组学的发展。然而,单细胞蛋白质组学的发展主要受到纳米级样品和复杂的实验程序的限制。数量少、丰度低的蛋白质容易受到噪声的干扰,导致蛋白质鉴定困难。与大量蛋白质数据相比,单细胞中的蛋白质水平较低,质谱数据的MS/MS光谱中可检测到的高信度碎片段离子更加稀少。许多肽段没有产生足够的碎片离子来支持自身被鉴定的置信度,这使得提高单细胞蛋白质组质谱数据的蛋白质覆盖率具有较高的挑战性。
目前单细胞蛋白质组质谱数据分析方法主要包括:基于蛋白质质谱检索软件来进行单细胞蛋白质组质谱数据蛋白质鉴定和定量;机器学习和统计学习等方法进行单细胞蛋白质组质谱数据蛋白质鉴定和定量。MaxQuant作为广泛使用的蛋白质质谱检索软件之一,它利用贝叶斯模型估计实际与理论肽匹配谱图的后验错误概率实现质谱数据的蛋白质鉴定,但MaxQuant软件更适用于多细胞蛋白质质谱数据的分析,对于二级谱图碎片离子较少的单细胞蛋白质质谱数据存在肽匹配谱图置信度低估现象。DART-ID是利用MaxQuant检索的得到的肽匹配谱图的肽段保留时间和后验错误概率,基于全局肽段保留时间校正来重新估计保留时间作为先验条件,构建贝叶斯框架更新后验错误概率来提升肽匹配谱图的置信度,然而该方法未使用经典的正反库竞争方法来控制肽匹配谱图的假发现率,存在过高估计现象。MokaPot是基于蛋白质质谱检索软件分析得到的肽匹配谱图的基础特征作为输入,使用半监督的支持向量积模型对肽匹配谱图进行嵌套三折交叉验证重新评估肽匹配谱图的置信度,但受限于基础特征信息的局限,使得单细胞蛋白质组质谱数据的蛋白质覆盖率提升有限。
目前对于单细胞蛋白质组质谱数据分析方法仍局限于机器学习和统计学习等方法,缺少考虑单细胞蛋白质MS/MS谱图碎片离子较少,导致蛋白质水平有限。因此,有必要开发一种基于深度学习用于重新评估MS/MS谱图质量和优化的集成学习模型对谱图质量进行重打分的计算框架,从而提高单细胞蛋白质组质谱数据的蛋白质鉴定覆盖率。
发明内容
本发明的目的在于提供一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,提高单细胞蛋白质组质谱数据的肽段、蛋白的鉴定水平。
为实现上述目的,本发明采取的技术方案是:一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,其包括以下步骤:
(1)通过质谱实验产生多细胞蛋白质组质谱数据作为谱图库,并提取高质量的目标(target)肽匹配谱图(peptide-spectrum match,PSM)信息,对多个单细胞蛋白质组(single cell proteomics,SCP)质谱数据提取所有的目标(target)和诱饵(decoy)PSM;
(2)基于多个单细胞蛋白质组质谱样本数据,计算每个肽段保留时间(retentiontime,RT)的统计学特征,使用弹性网络模型分别预测目标和诱饵肽段的保留时间,并构建用于区分目标和诱饵PSM的特征;
(3)使用多细胞蛋白质组质谱数据作为谱图库,构建深度学习模型预测单细胞蛋白质组二级谱图的碎片离子强度,并产生用于区分目标和诱饵PSM的特征;
(4)使用谱图基础特征和基于保留时间和碎片离子强度预测模型产生的新特征作为输入,构建贝叶斯参数优化的集成预测模型,并使用嵌套的三折交叉验证为每个PSM计算分值(Score)和后验错误概率(posterior error probability,PEP);
(5)根据每个PSM计算得到的后验错误概率,使用正反库竞争方法计算PSM和蛋白质水平的FDR,选择PSM和蛋白质水平的假发现率(false discovery rate,FDR)低于0.01的PSM并去除诱饵PSM,将可信的PSM通过累加方式组装为肽段和蛋白进行定量。
作为本方案的进一步优选,所述步骤(1)中,通过质谱实验产生多细胞蛋白质组质谱数据作为谱图库和单细胞蛋白质组质谱数据,利用蛋白质组质谱检索软件如MaxQuant检索原始质谱数据,提取PSM信息。同时对于多个单细胞蛋白质组质谱数据提取所有PSM的特征信息,去除污染PSM,将保留的PSM划分为目标和诱饵PSM。
作为本方案的进一步优选,所述步骤(2)中,构建SampleRT模型用于准确预测肽段保留时间,并产生用于区分目标和诱饵PSM的特征。对于SCP数据的目标PSM,选取至少在3个SCP质谱样本中被鉴定到的肽段,构建肽段-样本的保留时间(RT)矩阵Y。计算每个肽段的RT的算术平均值、几何平均值、中位数、标准差、变异系数、偏度,建立一个肽-RT特征矩阵X,通过X为特征Y为目标,使用弹性网络预测每个PSM的理论预测结果RT(*|tag),可分为目标和诱饵PSM的RT(tag|tag)和RT(rev|tag)。同理,基于诱饵PSM得到所有PSM的RT的预测结果RT(*|rev),可分为目标和诱饵PSM的RT(tag|rev)和RT(rev|rev)。
定义DeltaRT描述实际RT和预测理论RT之间的差异,并结合蛋白质质谱检索软件计算的Score和PEP(后验误差概率)产生两个新的用于区分目标和诱饵PSM的特征,PEPRT和ScoreRT,定义如下:
Figure BDA0003575269660000031
作为本方案的进一步优选,所述步骤(3)中,构建DeepSpec模型重新评估SCP数据中PSM的可信度。仅考虑肽段前体离子电荷状态1到6的PSM,使用独热码编码将电荷状态编码为一个6元长矩阵。仅考虑肽段长度小于等于47的PSM,对于长度小于47氨基酸肽段序列,使用“N”作为新的编码,用于补充肽段序列中除20个普通氨基酸以外的内容。对于未发生修饰的氨基酸,使用独热码编码将每个氨基酸编码为一个21元长矩阵。对于有翻译后修饰的氨基酸(PTM),N端蛋白质乙酰化和甲硫氨酸氧化分别被编码为“J”和“O”,同时发生N端蛋白质乙酰化和甲硫氨酸氧的氨基酸被编码为“B”。因此,一个包含电荷、肽段的序列和PTM信息的PSM可以被编码为48×30个特征阵列。由于肽段的最大长度是47,则最大存在46个碎裂点,同时考虑b和y离子的+1和+2两种电荷状态,以及氨或水的中性损失。因此,可以得到46×12碎片离子相对强度矩阵。
DeepSpec使用由卷积神经网络(CNN)、双向长短期记忆(BiLSTM)和深度神经网络(DNN)组成的混合深度学习框架来预测碎片离子强度。该模型的CNN层为一维卷积层,使用了64个长度为3的卷积核的和整流线性单元(ReLU)的作为激活函数,即将输入矩阵48×30转换为46×64张量。BiLSTM层使用了256个隐藏神经元和2个隐藏层,进一步转换为46×512张量。最后,DNN层使用Sigmoid激活函数,输出12维矩阵来预测前体碎片离子的相对强度。
DeepSpec模型使用均方误差(MSE)为损失函数,Adam优化器来更新参数,初始学习率设置为0.001,批次大小为1024,训练次数为1000次。为了保证模型的泛化能力和避免过拟合,CNN和BiLSTM层均增加一个dropout层,丢失率为0.5。当模型的性能在累计训练50次没有提升时,则停止训练,保留最佳训练模型。
为了训练DeepSpec模型,通过多细胞质谱实验产生多细胞蛋白质组质谱数据作为谱图库,将提取的高质量PSM分成训练数据集和验证数据集(4:1)用于模型训练,将SCP样本集的PSM作为独立测试数据预测碎片离子强度。
计算实际与理论预测的谱图离子碎片强度的余弦相似度(Cosine),并构建PEPCosine和ScoreCosine用于特征融合。给定SCP样本j中的PSM i,碎片离子相对强度u∈R46×12,以及相应的预测结果v∈R46×12,新特征的计算方法如下:
Figure BDA0003575269660000041
作为本方案的进一步优选,所述步骤(4)中,通过整合谱图基础特征、SampleRT和DeepSpec生成的特征,构建PSM类别预测模型LgbBayes,为每个PSM计算分值(Score)评估其质量。该模型由LightGBM构建,并使用贝叶斯优化算法来搜索合适的模型参数。为防止过拟合,LgaBayes使用了嵌套3折交叉验证训练。首先,模型通过3倍交叉验证分割数据集。每个交叉验证训练集被进一步划分为3个交叉验证集,以选择最适合LgbBayes模型的超参数。
基于LgbBayes预测的分值,使用python模块triqler.qvality.getQvaluesFromScores函数分别估计每个测试集PSM的PEP。
作为本方案的进一步优选,所述步骤(5)中,利用正反库竞争策略计算PSM和蛋白水平的FDR。PSM的FDR是当PSM的PEP小于给定PEP阈值t时累积的诱饵和目标PSM的比值。具体定义如下:
Figure BDA0003575269660000042
为了保证单调性,从下到上的第二次遍历将经验FDR改变为目前观测到的最小FDR值,得到最终的FDR。
对于每个样本集中的每个蛋白质,仅保留PSM中最低的PEP作为对应的蛋白质PEP,在蛋白质水平上FDR的计算与在PSM水平上相同。
将选择PSM和蛋白质的FDR小于0.01的PSM,并去除诱饵PSM生成可信的PSM,肽段和蛋白质的定量由可信PSM的累积组装组成。
本发明的有益效果是:
本发明使用了基于多个单细胞蛋白质质谱数据中肽段保留时间的分布特征,能准确预测理论保留时间,并产生与保留时间相关的特征,帮助区分目标和诱饵PSM。将多细胞蛋白质质谱数据作为谱图库,建立深度学习模型能准确预测单细胞蛋白质二级谱图碎片离子强度,并产生与碎片离子强度相关的特征,帮助区分目标和诱饵PSM。本发明使用基于贝叶斯参数优化的LigthGBM模型,结合基础及生成的新特征,能准确预测单细胞蛋白质质谱数据PSM的类型,对PSM质量进行重打分。在多个单细胞蛋白质质谱数据集上的评估显示,本发明表现通过使用正反库竞争法控制PSM和蛋白水平的FDR小于0.01时,能识别了更多可信的肽段和蛋白质。本发明作为一个便捷、低成本的计算框架,将有助于提高单细胞蛋白质组质谱数据的蛋白质鉴定水平,并促进单细胞蛋白质组学的未来发展和应用。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施例提供的一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法的流程图。
图2为本方法预测保留时间(RT)结果及RT相关特征分布。(A)多个单细胞样本集中预测RT和实验RT之间决定系数(R2)的箱线图;目标和诱饵PSM的(B)DeltaRT、(C)PEPRT和(D)ScoreRT密度分布。
图3为本方法预测碎片离子强度结果及碎片离子强度相关特征的分布。(A)预测Cosine和Loss值随训练次数的增加而变化;目标和诱饵PSM在单细胞样本集中的(B)Cosine、(C)PEPCosine和(D)ScoreCosine的密度分布。
图4为本方法与其它方法鉴定到的肽段和蛋白比较。基于MaxQuant、DART-ID、MokaPot和本方法鉴定到总的(A)肽段和(B)蛋白数量的韦恩图;基于MaxQuant、DART-ID、MokaPot和本方法鉴定到每个细胞的(C)肽段和(D)蛋白数量的箱线图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
如图1所示,为本发明提供的一种实施例:一种基于深度学习提高单细胞蛋白质覆盖率的方法,包括
步骤(1)通过质谱实验产生多细胞蛋白质组质谱数据作为谱图库和单细胞蛋白质组质谱数据,并提取高质量的目标(target)肽匹配谱图(peptide-spectrum match,PSM)信息。对多个单细胞蛋白质组(single cell proteomics,SCP)质谱数据提取所有的目标(target)和诱饵(decoy)PSM。
步骤(2)基于多个单细胞蛋白质组质谱样本数据,计算每个肽段保留时间(retention time,RT)的统计学特征,使用弹性网络模型分别预测目标和诱饵肽段的保留时间,并构建用于区分目标和诱饵PSM的特征。
步骤(3)使用多细胞蛋白质组质谱数据作为谱图库,构建深度学习模型预测单细胞蛋白质组二级谱图的碎片离子强度,并产生用于区分目标和诱饵PSM的特征。
步骤(4)使用谱图基础特征和基于保留时间和碎片离子强度预测模型产生的新特征作为输入,构建贝叶斯参数优化的集成预测模型,并使用嵌套的三折交叉验证为每个PSM计算分值(Score)和后验错误概率(posterior error probability,PEP)。
步骤(5)根据每个PSM计算得到的后验错误概率,使用正反库竞争方法计算PSM和蛋白质水平的FDR,选择PSM和蛋白质水平的假发现率(false discovery rate,FDR)低于0.01的PSM并去除诱饵PSM,将可信的PSM通过累加方式组装为肽段和蛋白进行定量。
本实施例的步骤(1)中,从MassIVE数据库下载Nanowell、N2、SCoPE2和GC数据集。Nanowell和N2数据集使用的TMT10标记和TMT16标记的单细胞均包括来自三个培养的小鼠细胞系上皮细胞(C10)、巨噬细胞(RAW)和内皮细胞(SVEC)。SCoPE2数据集使用来自人类胚胎肾细胞(HEK-293)和U-937细胞(Monocytes)的TMT11标记的单细胞蛋白质组质谱数据集。GC数据集使用了基于TMT16标记定量的单细胞蛋白质组质谱数据集,包括了来自两个培养的小鼠生殖细胞系,GC-1spg(GC-1)精原细胞系和GC-2spd(GC-2)精母细胞系。表1为包含单细胞和多细胞蛋白质组质谱数据的数据采集信息。
表1
Figure BDA0003575269660000061
所有原始质谱数据使用MaxQuant软件进行检索,并结合UniProtKB数据库获取的相应物种的蛋白质序列作为参考序列。设置N端蛋白质乙酰化和甲硫氨酸氧化为可变修饰,半胱氨酸碳酰胺甲基化为固定修饰。对于单细胞蛋白质(SCP)质谱数据在MaxQuant软件检索时,设置PSM和蛋白质水平的FDR为1。对于多细胞蛋白质质谱数据,在MaxQuant软件检索时,设置PSM和蛋白质水平的FDR为0.01。其它检索参数均采用默认设置。
在经过MaxQuant检索后,对于SCP数据,从“evidence.txt”和“msms.txt”中提取PSM的特征信息,去除污染PSM,将保留的PSM划分为目标和诱饵PSM。对于多细胞蛋白质质谱数据,从“msms.txt”获取二级谱图(MS/MS)碎片离子信息,仅保留同时满足Score>100、charge≤6和peptide length≤48的高质量目标PSM。
本实施例的步骤(2)中,构建SampleRT模型用于准确预测肽段保留时间,并产生用于区分目标和诱饵PSM的特征。对于SCP数据的目标PSM,选取至少在3个SCP质谱样本中被鉴定到的肽段,构建肽段-样本的保留时间(RT)矩阵Y。计算每个肽段的RT的算术平均值、几何平均值、中位数、标准差、变异系数、偏度,建立一个肽-RT特征矩阵X,通过X为特征Y为目标,使用弹性网络预测每个PSM的理论预测结果RT(*|tag),可分为目标和诱饵PSM的RT(tag|tag)和RT(rev|tag)。同理,基于诱饵PSM得到所有PSM的RT的预测结果RT(*|rev),可分为目标和诱饵PSM的RT(tag|rev)和RT(rev|rev)。
定义DeltaRT描述实际RT和预测理论RT之间的差异,并结合蛋白质质谱检索软件计算的Score和PEP(后验误差概率)产生两个新的用于区分目标和诱饵PSM的特征,PEPRT和ScoreRT,定义如下:
Figure BDA0003575269660000071
理论上,目标PSM具有较高的ScoreRT,但DeltaRT和PEPRT较低。图2本方法预测保留时间(RT)结果及RT相关特征分布
本实施例的步骤(3)中,构建DeepSpec重新评估SCP数据中PSM的可信度。仅考虑肽段前体离子电荷状态1到6的PSM,使用独热码编码将电荷状态编码为一个6元长矩阵。仅考虑肽段长度小于等于47的PSM,对于长度小于47氨基酸肽段序列,使用“N”作为新的编码,用于补充肽段序列中除20个普通氨基酸以外的内容。对于未发生修饰的氨基酸,使用独热码编码将每个氨基酸编码为一个21元长矩阵。对于有翻译后修饰的氨基酸(PTM),N端蛋白质乙酰化和甲硫氨酸氧化分别被编码为“J”和“O”,同时发生N端蛋白质乙酰化和甲硫氨酸氧的氨基酸被编码为“B”。因此,一个包含电荷、肽段的序列和PTM信息的PSM可以被编码为48×30个特征阵列。由于肽段的最大长度是47,则最大存在46个碎裂点,同时考虑b和y离子的+1和+2两种电荷状态,以及氨或水的中性损失。因此,可以得到46×12碎片离子相对强度矩阵。
DeepSpec使用由卷积神经网络(CNN)、双向长短期记忆(BiLSTM)和深度神经网络(DNN)组成的混合深度学习框架来预测碎片离子强度。该模型的CNN层为一维卷积层,使用了64个长度为3的卷积核的和整流线性单元(ReLU)的作为激活函数,即将输入矩阵48×30转换为46×64张量。BiLSTM层使用了256个隐藏神经元和2个隐藏层,进一步转换为46×512张量。最后,DNN层使用Sigmoid激活函数,输出12维矩阵来预测前体碎片离子的相对强度。
DeepSpec模型使用均方误差(MSE)为损失函数,Adam优化器来更新参数,初始学习率设置为0.001,批次大小为1024,训练次数为1000次。为了保证模型的泛化能力和避免过拟合,CNN和BiLSTM层均增加一个dropout层,丢失率为0.5。当模型的性能在累计训练50次没有提升时,则停止训练,保留最佳训练模型。
为了训练DeepSpec模型,通过质谱实验产生多细胞蛋白质组质谱数据作为谱图库,将提取的高质量PSM分成训练数据集和验证数据集(4:1)用于模型训练,将SCP样本集的PSM作为独立测试数据预测碎片离子强度。
计算实际与理论预测的谱图离子碎片强度的余弦相似度(Cosine),并构建PEPCosine和ScoreCosine用于特征融合。给定SCP样本j中的PSM i,碎片离子相对强度u∈R46×12,以及相应的预测结果v∈R46×12,新特征的计算方法如下:
Figure BDA0003575269660000081
理论上,目标PSM具有更高的Cosine、ScoreCosine和PEPCosine。图3本方法预测碎片离子强度结果及碎片离子强度相关特征的分布。
本实施例的步骤(4)中,通过整合MaxQuant、SampleRT和DeepSpec生成的特征,构建PSM类别预测模型LgbBayes,为每个PSM计算分值(Score)评估其质量。该模型由LightGBM构建,并使用贝叶斯优化算法来搜索合适的模型参数。为防止过拟合,LgaBayes使用了嵌套3折交叉验证训练。首先,模型通过3倍交叉验证分割数据集。每个交叉验证训练集被进一步划分为3个交叉验证集,以选择最适合LgbBayes模型的超参数。其中LightGBM优化的参数及范围具体如表2所示。
表2
Figure BDA0003575269660000091
基于LgbBayes预测的分值,使用python模块triqler.qvality.getQvaluesFromScores函数分别估计每个测试集PSM的PEP。
本实施例的步骤(5)中,利用正反库竞争策略计算PSM和蛋白水平的FDR。PSM的FDR是当PSM的PEP小于给定PEP阈值t时累积的诱饵和目标PSM的比值。具体定义如下:
Figure BDA0003575269660000092
为了保证单调性,从下到上的第二次遍历将经验FDR改变为目前观测到的最小FDR值,得到最终的FDR。
对于每个样本集中的每个蛋白质,仅保留PSM中最低的PEP作为对应的蛋白质PEP,在蛋白质水平上FDR的计算与在PSM水平上相同。
将选择PSM和蛋白质的FDR小于0.01的PSM,并去除诱饵PSM生成可信的PSM,肽段和蛋白质的定量由可信PSM的累积组装组成。
在控制PSM水平的FDR为0.01时,本方法与MaxQuant、DART-ID、MokaPot对PSM类别预测的SN、SP、ACC、F1、MCC和AUC如表3所示。
表3
Figure BDA0003575269660000101
为了更好地评估不同方法鉴定的肽和蛋白质的数量,只有在至少15个细胞中表达的蛋白质和检测到的蛋白质数量超过每个细胞平均蛋白质数量的50%的细胞才被并被保留用于肽段和蛋白鉴定评估。图4为本方法与其它方法鉴定到的肽段和蛋白比较。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的普通技术人员应该了解,上述实施例不以任何形式限制本发明的保护范围,凡采用等同替换等方式所获得的技术方案,均落于本发明的保护范围内。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims (10)

1.一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,其特征在于包括以下步骤:
(1)通过质谱实验产生多细胞蛋白质组质谱数据作为谱图库和单细胞蛋白质组质谱数据,并提取高质量的目标肽匹配谱图信息,对多个单细胞蛋白质组质谱数据提取所有的目标和诱饵PSM;
(2)基于多个单细胞蛋白质组质谱数据,计算每个肽段保留时间的统计学特征,使用弹性网络模型分别预测目标和诱饵肽段的保留时间,并构建用于区分目标和诱饵PSM的特征;
(3)使用多细胞蛋白质组质谱数据作为谱图库,构建深度学习模型预测单细胞蛋白质组二级谱图的碎片离子强度,并产生用于区分目标和诱饵PSM的特征;
(4)使用谱图基础特征和基于保留时间和碎片离子强度预测模型产生的新特征作为输入,构建贝叶斯参数优化的集成预测模型,并使用嵌套的三折交叉验证为每个PSM计算分值和后验错误概率;
(5)根据每个PSM计算得到的后验错误概率,使用正反库竞争方法计算PSM和蛋白质水平的FDR,选择PSM和蛋白质水平的假发现率低于0.01的PSM并去除诱饵PSM,将可信的PSM通过累加方式组装为肽段和蛋白进行定量。
2.根据权利要求1所述的一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,其特征在于,所述步骤(1)中,利用蛋白质组质谱检索软件检索原始质谱数据,提取PSM信息,检索软件采用MaxQuant;同时对于多个单细胞蛋白质组质谱数据提取所有PSM的特征信息,去除污染PSM,将保留的PSM划分为目标和诱饵PSM。
3.根据权利要求1所述的一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,其特征在于,所述步骤(2)中,构建SampleRT模型用于准确预测肽段保留时间,并产生用于区分目标和诱饵PSM的特征,对于单细胞蛋白质组数据的目标PSM,选取至少在3个SCP质谱样本中被鉴定到的肽段,构建肽段-样本的保留时间,矩阵Y;计算每个肽段的保留时间的算术平均值、几何平均值、中位数、标准差、变异系数、偏度,建立一个肽-RT特征矩阵X,通过X为特征Y为目标,使用弹性网络预测每个PSM的理论预测结果RT(*|tag),可分为目标和诱饵PSM的RT(tag|tag)和RT(rev|tag);同理,基于诱饵PSM得到所有PSM的RT的预测结果RT(*|rev),可分为目标和诱饵PSM的RT(tag|rev)和RT(rev|rev)。
4.根据权利要求3所述的一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,其特征在于,所述步骤(2)中,定义DeltaRT描述实际RT和预测理论RT之间的差异,并结合蛋白质质谱检索软件计算的Score和PEP产生两个新的用于区分目标和诱饵PSM的特征,PEPRT和ScoreRT,定义如下:
Figure FDA0003575269650000021
5.根据权利要求1所述的一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,其特征在于,所述步骤(3)中,构建DeepSpec模型重新评估SCP数据中PSM的可信度;仅考虑肽段前体离子电荷状态1到6的PSM,使用独热码编码将电荷状态编码为一个6元长矩阵;仅考虑肽段长度小于等于47的PSM,对于长度小于47氨基酸肽段序列,使用“N”作为新的编码,用于补充肽段序列中除20个普通氨基酸以外的内容;对于未发生修饰的氨基酸,使用独热码编码将每个氨基酸编码为一个21元长矩阵;对于有翻译后修饰的氨基酸,N端蛋白质乙酰化和甲硫氨酸氧化分别被编码为“J”和“O”,同时发生N端蛋白质乙酰化和甲硫氨酸氧的氨基酸被编码为“B”;因此,一个包含电荷、肽段的序列和PTM信息的PSM可被编码为48×30个特征阵列;由于肽段的最大长度是47,则最大存在46个碎裂点,同时考虑b和y离子的+1和+2两种电荷状态,以及氨或水的中性损失,则可得到46×12碎片离子相对强度矩阵。
6.根据权利要求5所述的一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,其特征在于,所述DeepSpec模型使用由卷积神经网络、双向长短期记忆和深度神经网络组成的混合深度学习框架来预测碎片离子强度;该模型的卷积神经网络层为一维卷积层,使用64个长度为3的卷积核和整流线性单元作为激活函数,即将输入矩阵48×30转换为46×64张量;双向长短期记忆层使用256个隐藏神经元和2个隐藏层,进一步转换为46×512张量;最后,深度神经网络层使用Sigmoid激活函数,输出12维矩阵来预测前体碎片离子的相对强度;所述DeepSpec模型使用均方误差为损失函数,Adam优化器来更新参数,初始学习率设置为0.001,批次大小为1024,训练次数为1000次;为了保证模型的泛化能力和避免过拟合,CNN和BiLSTM层均增加一个dropout层,丢失率为0.5;当模型的性能在累计训练50次没有提升时,则停止训练,保留最佳训练模型。
7.根据权利要求5或6所述的一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,其特征在于,为训练DeepSpec模型,通过多细胞质谱实验产生多细胞蛋白质组质谱数据作为谱图库,将提取的高质量PSM分成训练数据集和验证数据集用于模型训练,将SCP样本集的PSM作为独立测试数据预测碎片离子强度;同时,计算实际与理论预测的谱图离子碎片强度的余弦相似度,并构建PEPCosine和ScoreCosine用于特征融合;给定SCP样本j中的PSMi,碎片离子相对强度u∈R46×12,以及相应的预测结果v∈R46×12,新特征的计算方法如下:
Figure FDA0003575269650000031
8.根据权利要求1所述的一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,其特征在于,所述步骤(4)包括:通过整合谱图基础特征、以及步骤二和三中生成的特征,构建PSM类别预测模型LgbBayes,为每个PSM计算分值(Score)评估其质量,且基于LgbBayes预测的分值,使用python模块triqler.qvality.getQvaluesFromScores函数分别估计每个测试集PSM的PEP;所述预测模型LgbBayes由LightGBM构建,并使用贝叶斯优化算法来搜索合适的模型参数,为防止过拟合,LgaBayes使用嵌套3折交叉验证训练:模型通过3倍交叉验证分割数据集,每个交叉验证训练集被进一步划分为3个交叉验证集,以选择最适合LgbBayes模型的超参数。
9.根据权利要求1所述的一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,其特征在于,所述步骤(5)中,利用正反库竞争策略计算PSM和蛋白水平的FDR;PSM的FDR是当PSM的PEP小于给定PEP阈值t时累积的诱饵和目标PSM的比值,具体定义如下:
Figure FDA0003575269650000032
为保证单调性,从下到上的第二次遍历将经验FDR改变为目前观测到的最小FDR值,得到最终的FDR。
10.根据权利要求9所述的一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,其特征在于,所述步骤(5)中,对于每个样本集中的每个蛋白质,仅保留PSM中最低的PEP作为对应的蛋白质PEP,在蛋白质水平上FDR的计算与在PSM水平上相同;同时将选择PSM和蛋白质的FDR小于0.01的PSM,并去除诱饵PSM生成可信的PSM,肽段和蛋白质的定量由可信PSM的累积组装组成。
CN202210331187.8A 2022-03-31 2022-03-31 一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法 Active CN114639444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210331187.8A CN114639444B (zh) 2022-03-31 2022-03-31 一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210331187.8A CN114639444B (zh) 2022-03-31 2022-03-31 一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法

Publications (2)

Publication Number Publication Date
CN114639444A true CN114639444A (zh) 2022-06-17
CN114639444B CN114639444B (zh) 2022-12-27

Family

ID=81952282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210331187.8A Active CN114639444B (zh) 2022-03-31 2022-03-31 一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法

Country Status (1)

Country Link
CN (1) CN114639444B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064207A (zh) * 2022-06-30 2022-09-16 南京医科大学 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103439441A (zh) * 2013-08-26 2013-12-11 中国科学院数学与系统科学研究院 一种基于子集错误率估计的肽鉴定方法
CN103884806A (zh) * 2012-12-21 2014-06-25 中国科学院大连化学物理研究所 结合二级质谱和机器学习算法的蛋白质组无标记定量方法
CN105527359A (zh) * 2015-11-19 2016-04-27 云南民族大学 基于正反库特征信息匹配的蛋白质二级质谱鉴定方法
CN107328842A (zh) * 2017-06-05 2017-11-07 华东师范大学 基于质谱谱图的无标蛋白质定量方法
US20190147983A1 (en) * 2017-07-17 2019-05-16 Bioinformatics Solutions Inc. Systems and methods for de novo peptide sequencing from data-independent acquisition using deep learning
US20210041454A1 (en) * 2019-08-09 2021-02-11 Immatics US, Inc. Methods for peptide mass spectrometry fragmentation prediction
WO2021209629A1 (en) * 2020-04-17 2021-10-21 Julius-Maximilians-Universität Würzburg Method and device for identifying mhc class i-presented peptides from fragment ion mass spectra

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103884806A (zh) * 2012-12-21 2014-06-25 中国科学院大连化学物理研究所 结合二级质谱和机器学习算法的蛋白质组无标记定量方法
CN103439441A (zh) * 2013-08-26 2013-12-11 中国科学院数学与系统科学研究院 一种基于子集错误率估计的肽鉴定方法
CN105527359A (zh) * 2015-11-19 2016-04-27 云南民族大学 基于正反库特征信息匹配的蛋白质二级质谱鉴定方法
CN107328842A (zh) * 2017-06-05 2017-11-07 华东师范大学 基于质谱谱图的无标蛋白质定量方法
US20190147983A1 (en) * 2017-07-17 2019-05-16 Bioinformatics Solutions Inc. Systems and methods for de novo peptide sequencing from data-independent acquisition using deep learning
US20210041454A1 (en) * 2019-08-09 2021-02-11 Immatics US, Inc. Methods for peptide mass spectrometry fragmentation prediction
WO2021209629A1 (en) * 2020-04-17 2021-10-21 Julius-Maximilians-Universität Würzburg Method and device for identifying mhc class i-presented peptides from fragment ion mass spectra

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BO WEN等: "Deep Learning in Proteomics", 《PROTEOMICS》 *
SHICHAO FENG等: "Deep learning for peptide identifiation from metaproteomics datasets", 《JOURNAL OF PROTEOMICS》 *
常乘等: "基于质谱的定量蛋白质组学策略和方法研究进展", 《中国科学:生命科学》 *
蔚德睿等: "基于谱图库的蛋白质鉴定策略研究进展", 《生物工程学报》 *
闵鑫等: "基于多头注意力机制和残差神经网络的肽谱匹配打分算法", 《计算机应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064207A (zh) * 2022-06-30 2022-09-16 南京医科大学 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法

Also Published As

Publication number Publication date
CN114639444B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN111798921B (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN107622182B (zh) 蛋白质局部结构特征的预测方法及系统
CN111210871A (zh) 基于深度森林的蛋白质-蛋白质相互作用预测方法
CN107577924B (zh) 一种基于深度学习的长链非编码rna亚细胞位置预测方法
CN108537005B (zh) 一种基于BPSO-KNN模型的关键lncRNA预测方法
CN115985503B (zh) 基于集成学习的癌症预测系统
CN114639444B (zh) 一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法
CA3145370A1 (en) Systems and methods for mesothelioma feature detection and enhanced prognosis or response to treatment
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN115131557A (zh) 一种基于活性污泥图像的轻量化分割模型构建方法及系统
Dimanov et al. Moncae: Multi-objective neuroevolution of convolutional autoencoders
CN113283320A (zh) 一种基于通道特征聚合的行人重识别方法
CN116386733A (zh) 基于多视角多尺度多注意力机制的蛋白质功能预测方法
CN110782950B (zh) 基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法
CA3215514A1 (en) Multi-channel protein voxelization to predict variant pathogenicity using deep convolutional neural networks
CN115546474A (zh) 一种基于学习者集成策略的少样本语义分割方法
CN115064207A (zh) 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法
CN111599412B (zh) 基于词向量与卷积神经网络的dna复制起始区域识别方法
CN114758721A (zh) 一种基于深度学习的转录因子结合位点定位方法
CN113837293A (zh) mRNA亚细胞定位模型训练方法、定位方法及可读存储介质
CN112308160A (zh) 一种k—均值聚类人工智能优化算法
CN117976047B (zh) 基于深度学习的关键蛋白质预测方法
Fadhil et al. Classification of Cancer Microarray Data Based on Deep Learning: A Review
CN114863134B (zh) 基于交替优化深度学习模型的三维模型兴趣点提取方法
Liu et al. Prediction of piRNA-mRNA interactions based on an interactive inference network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant