CN108491690B - 一种蛋白质组学中肽段的肽段定量效率预测方法 - Google Patents

一种蛋白质组学中肽段的肽段定量效率预测方法 Download PDF

Info

Publication number
CN108491690B
CN108491690B CN201810216313.9A CN201810216313A CN108491690B CN 108491690 B CN108491690 B CN 108491690B CN 201810216313 A CN201810216313 A CN 201810216313A CN 108491690 B CN108491690 B CN 108491690B
Authority
CN
China
Prior art keywords
peptide fragment
peptide
protein
quantitative efficiency
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810216313.9A
Other languages
English (en)
Other versions
CN108491690A (zh
Inventor
付岩
常乘
高志强
朱云平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING PROTEOME RESEARCH CENTER
Institute of Pharmacology and Toxicology of AMMS
Academy of Mathematics and Systems Science of CAS
Original Assignee
BEIJING PROTEOME RESEARCH CENTER
Institute of Pharmacology and Toxicology of AMMS
Academy of Mathematics and Systems Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING PROTEOME RESEARCH CENTER, Institute of Pharmacology and Toxicology of AMMS, Academy of Mathematics and Systems Science of CAS filed Critical BEIJING PROTEOME RESEARCH CENTER
Priority to CN201810216313.9A priority Critical patent/CN108491690B/zh
Publication of CN108491690A publication Critical patent/CN108491690A/zh
Application granted granted Critical
Publication of CN108491690B publication Critical patent/CN108491690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种蛋白质组学中肽段的肽段定量效率预测方法,其步骤包括:1)筛选出高可信蛋白,将高可信蛋白的鉴定肽段作为高可信肽段;2)计算所述高可信肽段的物理化学性质和肽段定量效率;其中,所述肽段定量效率为肽段的质谱信号强度对肽段的真实量的反应程度;3)基于高可信肽段的物理化学性质和肽段定量效率,构建预测肽段定量效率模型的训练集;然后利用该训练集训练得到肽段定量效率预测模型;4)利用所述肽段定量效率预测模型预测鉴定蛋白的各鉴定肽段的肽段定量效率。本发明的方法使用高可信肽段构建训练集,在线训练肽段定量效率,排除了实验操作,实验仪器等引起的误差。

Description

一种蛋白质组学中肽段的肽段定量效率预测方法
技术领域
本发明涉及基于质谱的蛋白质组学中的肽段及蛋白质定量方法研究,尤其涉及一种肽段定量效率预测方法。
背景技术
继鉴定蛋白质组学之后,定量蛋白质组学已经成为了生命科学领域的下一个研究热点。其研究内容主要包括基于质谱数据对蛋白质进行有标记的定量和无标记的定量。虽然无标记的定量在准确率上不如有标记的定量,但是鉴于无标记定量的操作简单,成本低廉等优点,无标记定量在大规模蛋白质定量中仍是首选方法。
蛋白质定量的理想实验方法是为每个蛋白质都加入内标,然而,这种做法对于分析复杂样品来说,意味着高昂的费用。目前,最常用的方法是基于部分内标做线性拟合计算的方法。在这些方法中,首先根据添加的标准蛋白的已知实际浓度与其质谱信号强度的关系得到线性关系式,然后再用得到的线性关系式来预测样本中的其他蛋白质的浓度。这类方法的核心是根据肽段的质谱强度或者谱图数目来计算蛋白质的质谱强度。但是,目前开发的算法的效果远远不能让人们满意,因为这些算法直接使用的是肽段的原始谱图信号强度,而这些强度并不能准确的描述肽段的实际丰度。
影响一个肽段在质谱中的观测信号的因素有很多。观测到的肽段信号强度不仅依赖于它们在样本中的实际浓度,而且与它们的物理化学性质和质谱检测效率有很大的关系。相同浓度的肽段也许会有完全不同的质谱信号强度。例如,即使来自于同一个蛋白的肽段的质谱信号强度也有可能会相差几个数量级。如果一个蛋白质有足够多的肽段被鉴定到了,那么这些肽段的质谱信号强度就有可能被校正过来,从而得到准确的蛋白质绝对定量结果。否则,肽段层面的质谱信号强度偏差就会被传递到蛋白质层面。因为通常低丰度蛋白或者小蛋白被鉴定到的肽段数目很少,所以这个问题对于那些蛋白尤为严重。
不幸的是,这个问题还未受到已开发的肽段定量算法的重视。肽段定量的一般流程为:1)谱峰检测,从复杂的谱峰中确定哪些谱峰可能对应着肽段或肽段碎片,提取固定质荷比对应的全部同位素峰信息。2)离子流色谱峰重构,针对某一固定质荷比,根据上一步得到的同位素峰信息,在保留时间维度上构建该质荷比对应的离子流色谱峰。3)肽段定量值提取,根据上一步得到的离子流色谱峰确定肽段的定量值。前人已经开发出了很多肽段定量工具。例如,SpecArray(Li,X.,Yi,E.C.,Kemp,C.J.,Zhang,H.&Aebersold,R.A SoftwareSuite for the Generation and Comparison of Peptide Arrays from Sets of DataCollected by Liquid Chromatography-Mass Spectrometry.Mol.Cell.Proteomics 4,1328–1340(2005))先根据肽段的同位素分布找到同位素峰簇,然后以峰簇中前3个同位素峰的谱峰信号和构建色谱曲线,最后肽段定量值为Savitzky-Golay平滑后的色谱曲线面积。MaxQuant软件(参考文献:Cox,J.&Mann,M.MaxQuant enables high peptideidentification rates,individualized p.p.b.-range mass accuracies andproteome-wide protein quantification.Nat Biotechnol 26,1367-1372(2008))采用高斯拟合3D谱峰进行谱峰检测,然后以各同位素峰的质量为权重加权平均同位素峰质谱信号强度,从而确定复杂样品中的肽段定量值。OpenMS(参考文献:Sturm,M.et al.OpenMS–Anopen-source software framework for mass spectrometry.BMC Bioinformatics 9,1–11(2008))使用小波变换确定谱峰位置,接着用高斯分布拟合得到色谱曲线,以曲线面积作为肽段定量值。目前开发的肽段定量工具重点皆放在肽段关联的谱峰检测和色谱曲线定量值提取上。然而,影响肽段定量的因素多且复杂,对每个肽段单独进行定量并不能很好的消除误差。因此,如何对肽段的原始信号强度进行有效的校正,从而准确的估计肽段的定量值是一个亟待解决的问题。
发明内容
本发明的目的是提供一种蛋白质组学中肽段的肽段定量效率预测方法,本发明对肽段的原始信号强度进行校正,以用于后续蛋白质定量的分析中。
为了实现上述目的,本发明肽段定量效率预测方法的步骤包括:
步骤1)、筛选高可信蛋白,确定高可信肽段;
步骤2)、计算高可信肽段的物理化学性质;
步骤3)、估计高可信肽段的肽段定量效率;
步骤4)、构建预测肽段定量效率模型的训练集;
步骤5)、利用该训练集训练贝叶斯累加回归树(BART)模型(Chipman HA,GeorgeEI,McCulloch RE.BART:Bayesian additive regression trees.266-298(2010));
步骤6)、利用贝叶斯累加回归树(BART)模型预测所有鉴定蛋白的鉴定肽段的肽段定量效率。
在上述技术方案中,在所述的步骤1)中,不同于经常使用的固定训练集的方式,此处使用的是在线学习策略。对每一批数据,从中筛选出高可信的肽段定量效率样本来构建训练集,从而消除实验环境、操作、仪器等带来的误差。
在鉴定蛋白中筛选至少包含鉴定到N(本发明中N取值为5)个唯一肽段的蛋白。所述的唯一肽段是指在所有鉴定到的蛋白中唯一在一个蛋白组出现的肽段。此处所述的蛋白组是指经过蛋白装配之后得到的同组蛋白集合。经过上述处理之后,可以筛选出高可信的蛋白。可以认为,这些高可信蛋白的鉴定肽段为高可信肽段。
在上述技术方案中,在所述的步骤2)中,计算步骤1)所得的高可信肽段的物理化学性质包括:
根据肽段的氨基酸序列及其在蛋白质序列中的相邻的氨基酸序列,可以计算出与该肽段相关的587种物理化学性质。每个肽段的理化性质可以用x=(x1,x2,x3,…,x587)来表示。
在这587种物理化学性质中,前23种是肽段序列信息相关的特征,例如,肽段长度、肽段中漏切位点的个数、肽段质量、肽段中各氨基酸的出现频率等。中间544种是来自AAindex(参考文献:Kawashima,S.,Pokarowski,P.,Pokarowska,M.,Kolinski,A.,Katayama,T.,and Kanehisa,M.;AAindex:amino acid index database,progress report2008.Nucleic Acids Res.36,D202-D205(2008))的氨基酸的理化性质在肽段维度上求均值之后的结果。最后20种物理化学性质引用自前人的研究结果(参考文献:Braisted,J.C.et al.BMC Bioinformatics 9,529(2008),Webb-Robertson,B.J.etal.Bioinformatics 26,1677-1683(2010),Eyers,C.E.et al.Mol Cell Proteomics 10,M110 003384(2011),Tang,H.et al.Bioinformatics 22,e481-488(2006))。
在上述技术方案中,在所述的步骤3)中,估计高可信肽段的肽段定量效率包括:
步骤3-1)为了对肽段的原始信号强度进行校正,本发明提出了肽段定量效率的概念。本发明将肽段定量效率定义为肽段的质谱信号强度对肽段的真实量的反应程度。由于在实验中,肽段的真实量是未知的,所以本发明提出了一种启发式计算肽段定量效率的方法。首先,本发明假定来自于同一个蛋白的不同肽段应该有相同的真实量。而且每个肽段的定量效率应该和它的质谱信号强度成正比。根据这个假设,本发明就可以只需在一个蛋白中确定一个肽段的肽段定量效率就可以了。对于所述的步骤1)中的高可信蛋白,本发明选择计算每个高可信蛋白的信号强度最高的肽段的定量效率,令Qi,j表示蛋白i的肽段j的肽段定量效率。令Qi,max=maxjQi,j表示蛋白i的信号强度最高的肽段的定量效率。
步骤3-2)为了估计Qi,max,本发明提出了一个独立于肽段属性的先验模型。在该模型中,认为Qi,max为服从指数分布的随机变量(可以通过实验数据进行验证)。假定X1,X2,…,Xn是n个服从该分布的随机变量。令X(1),X(2),…,X(n)是他们按照降序排列的序列统计量,即X(n)=maxj∈(1,2,…,n)Xj。那么X(n)的期望就可以作为Qi,max的估计值。接下来,需要推导X(n)的期望值。本发明令
W1=nX(1)
Wj=(n-j+1)(X(j)-X(j-1)),j=2,3,…,n
可以证明,W1,W2,…,Wn是与Xj服从同一分布的独立随机变量。而且,X(n)可以表示成如下形式:
Figure BDA0001598680260000041
因此,可以通过如下公式计算X(n)的期望值:
Figure BDA0001598680260000042
Figure BDA0001598680260000043
其中ni表示蛋白i的期望肽段数目。θ是指数分布的参数。
最后,本发明将所有高可信蛋白的E(Qi,max)归一化到[0,1],
Figure BDA0001598680260000044
比较有趣的是,经过归一化之后,指数分布的参数θ便消失了。也就是说免去了估计θ的麻烦。于是就可以用Qi,max的估计值
Figure BDA0001598680260000045
作为蛋白i的最大信号强度肽段的肽段定量效率Qi,max了。
步骤3-3)为了计算步骤1)所述的高可信蛋白的其他鉴定肽段的肽段定量效率。本发明假定来自于同一个蛋白的不同肽段应该有相同的真实量,而且每个肽段的定量效率应该和它的质谱信号强度成正比。对于步骤1)所述的高可信蛋白的其他鉴定肽段,可以通过以下公式来计算它们的肽段定量效率:
Figure BDA0001598680260000046
其中Ii,j指的是属于蛋白i的肽段j的质谱信号强度。Ii,max指的属于蛋白i的所有肽段的质谱信号强度中的最大值。
在上述技术方案中,在所述的步骤4)中构建预测肽段定量效率模型的训练集包括:
将所述的步骤2)中得到的高可信肽段的物理化学性质作为训练集的自变量。将所述的步骤3)中得到的高可信肽段的肽段定量效率作为训练集的因变量。至此,预测所有鉴定肽段的肽段定量效率的模型的训练集构建完毕。
在上述技术方案中,在所述的步骤5)中,基于所述的步骤4)中得到的训练集训练贝叶斯累加回归树(BART)模型包括:
步骤5-1)确定树的生成先验概率ρ(Tj),其中Tj表示第j棵树。
上述技术方案中,可以从树的生长的角度来考虑所述的树生成先验概率。它可以由以下几个方面来确定:
1)一个节点还会生长的概率,也就是不是叶节点的概率假设为:
α(1+d),α∈(0,1),β∈[0,∞)
其中,d表示该节点的深度,α,β是用户可以指定的参数。该假设能保证越深的节点继续生长的可能性越小,从而抑制大树的生成。
2)使用随机分布来决定中间节点指派分裂变量的分布。
3)使用随机分布来挑选分裂变量的分裂准则。
步骤5-2)确定条件先验ρ(μij|Tj),其中μij表示第j棵树上第i个叶节点上的权值。
本发明假定ρ(μij|Tj)服从正态分布
Figure BDA0001598680260000051
因为这样可以方便计算μij的边际分布。对于一个x,期望E(Y|x)是m棵树中的与x相关联的叶节点上的权值μij的和。又μij是独立同分布的,那么可以推得E(Y|x)服从正态分布
Figure BDA0001598680260000052
还有一点,期望E(Y|x)应该在Y的实际值y的最小值和最大值之间。所以可以选择μμ和σμ使得(ymin,ymax)正好对应
Figure BDA0001598680260000053
的k倍标准差区间内,即
Figure BDA0001598680260000054
为方便起见,可以将y变换到区间[-0.5,0.5]上,并且对μij做中心化,那么就可以得到
Figure BDA0001598680260000055
从而,
Figure BDA0001598680260000056
其中
Figure BDA0001598680260000057
在该假设条件下,随着树的数目m和标准差区间宽度k的增大,δμ越小,μij的分布越窄。参数m和k可以由用户指定。
步骤5-3)确定误差标准差σ的先验分布ρ(σ)
假定
Figure BDA0001598680260000058
(表示σ服从逆卡方分布)。采用了一种基于数据的方法来帮助用户确定逆卡方分布的超参数参数ν,λ。首先,根据计算训练集中肽段定量效率Y的样本标准差
Figure BDA0001598680260000059
作为σ的上限估计。然后,选择v和λ使得σ的q分位数落在
Figure BDA00015986802600000510
处,即
Figure BDA00015986802600000511
本发明使用q为0.90。建议v可以在3到10之间选择。
步骤5-4)贝叶斯累加回归树是可以看作是一种贝叶斯“树和”模型,表示如下:
Figure BDA00015986802600000512
其中Y表示因变量,也就是计算得到的肽段定量效率,N(0,δ2)表示均值为0的标准正态分布。x表示样本特征,也就是上述计算得到的587种物理化学性质。Tj表示第j棵二叉树。学习后的二叉树的每个内部节点上都有决策规则,每个叶节点上都会被赋一个权值。每个样本经过决策规则判定之后都会被分配到一个叶节点上。Mj=(μ1j2j3j,…,μbj)表示树Tj上的b个叶子节点的权值集合。给定树Tj和权值集合Mj之后,就可以使用g(x;Tj,Mj)来确定赋值给Tj的每个叶节点上的权值。g(x;Tj,Mj)会使得与x相关联的所有叶子节点的权值之和等于期望E(Y|x),即使用数据x构建的树(Tj,Mj)计算得到的肽段可检测性。
为了方便模型实现,需要对模型做一下简化。假设每两棵二叉树之间是独立的,则下式成立:
Figure BDA0001598680260000061
再假设每一个单棵二叉树上的所有叶节点之间是独立的,那么就有
Figure BDA0001598680260000062
经过上述两步假设之后先验选择问题就简化为了确定ρ(Tj),ρ(μij|Tj)和ρ(σ)的问题。将所述的步骤5-1)得到的ρ(Tj),步骤5-2)得到的ρ(μij|Tj)和步骤5-3)得到的ρ(σ)代入上式,即可确定m棵树的先验概率ρ((T1,M1),…,(Tm,Mm),δ)。
步骤5-5)得到参数的先验分布后,便可以使用贝叶斯后向拟合MCMC算法(参考文献:Hastie,T.&Tibshirani,R.(2000),‘Bayesian backfitting’,Statistical Science15(3),196-223)进行求解,从而数值模拟出贝叶斯累加回归树模型。
在上述技术方案中,在所述的步骤6)中,预测所有鉴定蛋白的鉴定肽段的肽段定量效率包括:
步骤6-1)计算所有蛋白的鉴定肽段的物理化学性质作为这些肽段的量化特征。此处的物理化学性质与所述的步骤2)中的物理化学性质相同。
步骤6-2)将所述的步骤6-1)中得到的所有肽段的量化特征代入到训练好的贝叶斯累加回归树模型中,计算得到这些肽段的肽段定量效率。
本发明还提供了一种可将本发明提出的肽段质谱信号强度校正系数用于大规模蛋白质无标定量的肽段质谱信号强度校正装置。包括:蛋白质鉴定和肽段信号强度计算模块、肽段定量效率预测模块,肽段信号强度校正模块。
所述的蛋白质鉴定和肽段信号强度计算模块利用蛋白质鉴定软件来完成谱图的基础解析工作,利用肽段质谱信号提取工具来计算肽段的质谱信号强度。
所述的肽段定量效率预测模块包括以下部分:
1)构建肽段定量效率预测模型训练集;
2)训练肽段定量效率预测模型;
3)预测测试集肽段的肽段定量效率。
所述的肽段信号强度校正模块利用上述计算的肽段定量效率对肽段的原始质谱信号强度进行校正。
本发明具有以下优点:
1.首次提出了肽段定量效率的概念。肽段定量效率是对肽段谱图信号在定量方面的表征。今后肯定会被越来越多的用于蛋白质绝对定量。
2.提出了一个启发式估计高可信蛋白的最大信号强度肽段的肽段定量效率的方法。
3.模型的在线训练。本发明的方法使用高可信肽段构建训练集,在线训练肽段定量效率,排除了实验操作,实验仪器等引起的误差。
附图说明
图1为本发明的算法流程图;
图2为鉴定到的P01008ups蛋白的15个肽段的质谱信号强度示意图;
图3为在BART模型中,当参数αβ参数选择对节点生长概率的影响示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的说明。
假设有一个蛋白质样品。首先通过现有的生物化学技术将该蛋白质混合样品酶解形成肽段混合物溶液,然后经液相色谱-质谱联用技术产生实验串联质谱数据。该串联质谱数据包含色谱保留时间、粒子质量电荷比,质谱响应信号强度三维信息。接着,需要先通过肽段信号强度提取工具从谱图数据中提取肽段的质谱信号强度,例如MaxQuant(参考文献:Cox,J.and Mann,M.MaxQuant enables high peptide identification rates,individualized p.p.b.-range mass accuracies and proteome-wide proteinquantification.Nat Biotechnol,2008,26,pp 1367-72)就有相应的功能。还需要利用鉴定软件确定谱图中有哪些肽段和蛋白及肽段和蛋白的关系。例如,MaxQuant、pFind(参考文献:Wang L.H.et al..pFind 2.0:a software package for peptide and proteinidentification via tandem mass spectrometry.Rapid Commun Mass Spectrom,2007,21,2985–2991)等软件皆有此功能。由于肽段的物理化学性质的不同,其在质谱中的质谱响应强度与其实际浓度并没有直接的线性关系。例如,即使来自于同一个蛋白的肽段,如图2所示,其质谱响应强度也有很大的差别。因此,为了准确的进行蛋白质绝对定量,很有必要对肽段的原始质谱响应强度做一下校正。
下面基于上述背景数据,并参考图1,对本发明方法的具体实现过程加以说明。
首先考察每个蛋白鉴定到的肽段情况。构建训练集的时候仅考虑唯一肽段数目至少为5个的蛋白的肽段。所述的唯一肽段是指在所有鉴定到的蛋白中唯一在一个蛋白组出现的肽段。此处所述的蛋白组是指经过蛋白装配之后得到的同组蛋白集合。与唯一肽段相反的就是共享肽段。例如,
鉴定到了蛋白A、B、C,其中与蛋白A关联的鉴定肽段有a、b;与蛋白B关联的鉴定肽段有b、c;与蛋白C关联的鉴定肽段有c、d。那么因为肽段b既在蛋白A中出现过,又在蛋白B中出现过,所以肽段b是共享肽段。同理,肽段c也是共享肽段。肽段a,d是唯一肽段。
下面,将训练集中的肽段进行特征量化。肽段本质上是由氨基酸组成的一段有序序列。氨基酸的一种表示方式是:一个大写字母表示一个氨基酸,例如丙氨酸可以由字母A表示,半胱氨酸可以由字母C表示。这样肽段就可以表示成一串字母序列。下面以肽段ARNDCEQK为例来说明肽段的特征表示。在质谱仪中,过短或者过长的肽段都不能被检测到,因此肽段长度是影响其能否被检测到的重要因素。以该肽段为例,该肽段的长度为8。胰蛋白酶通常会从赖氨酸或者精氨酸的N端将蛋白质序列酶切成肽段,因此普遍认为肽段内部(非C端)中出现的赖氨酸(K)或者精氨酸(R)是漏切造成的。肽段的酶切情况会对肽段的质谱信号产生很大的影响,因此,肽段中的漏切位点的数目也是一个比较重要的特征。例如,肽段ARNDCEQK中就有一个漏切位点R。肽段中每个氨基酸的质量相加,得到肽段质量为963.43Da。在生物学中,常用的氨基酸有20种,本发明以20维的氨基酸频率向量来表示肽段中氨基酸的组成结构。例如,固定一种氨基酸排序方式,统计肽段ARNDCEQK中每个氨基酸出现的次数,恰巧都为1,然后除以该肽段的长度8,那么每个氨基酸对应位置的特征值都为1/8,其余氨基酸位置处的特征值为0。按照AAindex数据库中的知识,每个氨基酸有544种量化的物理理化性质,将肽段中的氨基酸的量化特征求均值作为肽段的特征。例如:假设肽段ARNDCEQK中每个氨基酸的544种理化性质为:
氨基酸A->
Figure BDA0001598680260000091
氨基酸R->
Figure BDA0001598680260000092
氨基酸N->
Figure BDA0001598680260000093
氨基酸D->
Figure BDA0001598680260000094
氨基酸C->
Figure BDA0001598680260000095
氨基酸E->
Figure BDA0001598680260000096
氨基酸Q->
Figure BDA0001598680260000097
氨基酸K->
Figure BDA0001598680260000098
则该肽段的特征为
Figure BDA0001598680260000099
其中
Figure BDA00015986802600000910
均表示1x544的向量。
最后,参照参考文献(Braisted,J.C.et al.BMC Bioinformatics 9,529(2008),Webb-Robertson,B.J.et al.Bioinformatics 26,1677-1683(2010),Eyers,C.E.etal.Mol Cell Proteomics 10,M110 003384(2011),Tang,H.et al.Bioinformatics 22,e481-488(2006)),计算最后20种肽段的物理化学性质。值得注意的是,计算这些特征的时候,不仅使用了肽段本身的氨基酸序列信息,还使用了肽段附近相邻的氨基酸序列的信息。
本发明方法提出了一个新的概念-肽段定量效率。肽段定量效率描述了肽段质谱响应信号强度与其实际浓度之间的关系。由于肽段的实际浓度是未知的,因此准确的计算肽段定量效率是不可能的。但是可以近似的来计算肽段定量效率。在本发明所构建的训练集中,筛选的都是高可信的蛋白。对于这些蛋白,可以根据本发明提出的启发式方法估计每个蛋白中的信号强度最大肽段的肽段定量效率。即
Figure BDA00015986802600000911
然后,再根据每个蛋白的信号强度最大肽段的肽段定量效率去推断其他肽段的肽段定量效率。计算公式如下:
Figure BDA00015986802600000912
将估算的这些肽段的肽段定量效率作为训练集的响应变量。在得到训练集之后,就可以开始训练贝叶斯累加回归树模型(BART)了。首先,需要确定BART的必要参数。如上所述,本发明假定每棵树上节点还会生长的概率为
α(1+d),α∈(0,1),β∈[0,∞)
其中,d表示该节点的深度,α,β是用户可以指定的参数。
一般来说,本发明假定α=0.95,β=1.0,如图3所示在这种假定下,节点生长的概率就被控制在(0,0.5)之间,树的深度越深,树的生长越困难,可以很好的控制树的大小。
在考虑确定条件先验概率ρ(μij|Tj)时,一般对k取值为2。因为在理论上,如果一个变量符合正态分布,那么它落在距均值2倍标准差区间的可能性已经达到了95.44%。
在考虑确定误差先验分布ρ(σ)时,本发明方法采用基于数据的估计方式来确定方差的估计值
Figure BDA0001598680260000101
使用Y的样本标准差作为方差的估计值
Figure BDA0001598680260000102
然后选择合适的ν,λ使得
Figure BDA0001598680260000103
恰巧作为σ分布的q分位点,即
Figure BDA0001598680260000104
本发明推荐的参数设置,也是在本发明中使用的默认参数,为(υ,q)=(3,0.9)。
在本发明的方法中,用户可以指定树的数目m,默认设置为m=200。
确定了模型的先验分布之后,就可以使用贝叶斯后向拟合MCMC算法进行模型求解了。
同上述计算肽段的量化特征方法类似,计算所有鉴定蛋白的所有肽段的量化特征,然后带入BART模型,即可得到所有肽段的定量效率。
至此,本发明的上述操作已经完成了预测所有鉴定肽段的肽段定量效率的工作。
本发明还提供了一种可将本发明提出的肽段质谱信号强度校正系数用于大规模蛋白质无标定量的肽段质谱信号强度校正装置。包括:蛋白质鉴定和肽段信号强度计算模块、肽段定量效率预测模块,肽段信号强度校正模块。
所述的蛋白质鉴定和肽段信号强度计算模块利用蛋白质鉴定软件来完成谱图的基础解析工作,利用肽段质谱信号提取工具来计算肽段的质谱信号强度。
所述的肽段定量效率预测模块包括以下部分:
1)构建肽段定量效率预测模型训练集;
2)训练肽段定量效率预测模型;
3)预测测试集肽段的肽段定量效率。
所述的肽段信号强度校正模块利用上述计算的肽段定量效率对肽段的原始质谱信号强度进行校正。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种蛋白质组学中肽段的肽段定量效率预测方法,其步骤包括:
1)筛选出高可信蛋白,将高可信蛋白的鉴定肽段作为高可信肽段;
2)计算所述高可信肽段的物理化学性质和肽段定量效率;其中,所述肽段定量效率为肽段的质谱信号强度对肽段的真实量的反应程度;设定同一蛋白的不同肽段具有相同的真实量,且每个肽段的定量效率与该肽段的质谱信号强度成正比;计算所述肽段定量效率的方法为:对于每一所述高可信蛋白i,首先计算该高可信蛋白i的信号强度最高的肽段的定量效率;Qi,j表示高可信蛋白i的肽段j的肽段定量效率,Qi,max=maxj Qi,j表示高可信蛋白i的信号强度最高的肽段的定量效率;其中,通过公式
Figure FDA0002440946450000011
计算Qi,max的估计值
Figure FDA0002440946450000012
作为Qi,max;ni表示高可信蛋白i的期望肽段数目;然后利用公式
Figure FDA0002440946450000013
计算所述高可信蛋白i的其他鉴定肽段的肽段定量效率;其中,Ii,j为高可信蛋白i的肽段j的质谱信号强度,Ii,max为高可信蛋白i的所有肽段的质谱信号强度中的最大值;
3)基于高可信肽段的物理化学性质和肽段定量效率,构建预测肽段定量效率模型的训练集;然后利用该训练集训练得到肽段定量效率预测模型;
4)利用所述肽段定量效率预测模型预测鉴定蛋白的各鉴定肽段的肽段定量效率。
2.如权利要求1所述的方法,其特征在于,所述高可信蛋白为至少包含N个唯一肽段的蛋白;所述唯一肽段是指在已鉴定到的蛋白中唯一在一个蛋白组出现的肽段;所述蛋白组是指经过蛋白装配之后得到的同组蛋白集合。
3.如权利要求1所述的方法,其特征在于,构建所述训练集的方法为:将高可信肽段的物理化学性质作为训练集的自变量,将高可信肽段的肽段定量效率作为训练集的因变量,构建所述训练集。
CN201810216313.9A 2018-03-16 2018-03-16 一种蛋白质组学中肽段的肽段定量效率预测方法 Active CN108491690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810216313.9A CN108491690B (zh) 2018-03-16 2018-03-16 一种蛋白质组学中肽段的肽段定量效率预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810216313.9A CN108491690B (zh) 2018-03-16 2018-03-16 一种蛋白质组学中肽段的肽段定量效率预测方法

Publications (2)

Publication Number Publication Date
CN108491690A CN108491690A (zh) 2018-09-04
CN108491690B true CN108491690B (zh) 2020-06-05

Family

ID=63339560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810216313.9A Active CN108491690B (zh) 2018-03-16 2018-03-16 一种蛋白质组学中肽段的肽段定量效率预测方法

Country Status (1)

Country Link
CN (1) CN108491690B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110838340B (zh) * 2019-10-31 2020-07-10 军事科学院军事医学研究院生命组学研究所 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法
CN113393902A (zh) * 2020-03-13 2021-09-14 珠海碳云智能科技有限公司 基于免疫表征技术对样本分类的方法、装置及存储介质
CN114093415B (zh) * 2021-11-19 2022-06-03 中国科学院数学与系统科学研究院 肽段可检测性预测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6489608B1 (en) * 1999-04-06 2002-12-03 Micromass Limited Method of determining peptide sequences by mass spectrometry
CN103884806A (zh) * 2012-12-21 2014-06-25 中国科学院大连化学物理研究所 结合二级质谱和机器学习算法的蛋白质组无标记定量方法
CN106339608A (zh) * 2016-11-09 2017-01-18 中国科学院软件研究所 一种基于在线变分贝叶斯支持向量回归的交通事故率预测系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6489608B1 (en) * 1999-04-06 2002-12-03 Micromass Limited Method of determining peptide sequences by mass spectrometry
CN103884806A (zh) * 2012-12-21 2014-06-25 中国科学院大连化学物理研究所 结合二级质谱和机器学习算法的蛋白质组无标记定量方法
CN106339608A (zh) * 2016-11-09 2017-01-18 中国科学院软件研究所 一种基于在线变分贝叶斯支持向量回归的交通事故率预测系统

Also Published As

Publication number Publication date
CN108491690A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
Blein-Nicolas et al. Thousand and one ways to quantify and compare protein abundances in label-free bottom-up proteomics
CN108491690B (zh) 一种蛋白质组学中肽段的肽段定量效率预测方法
Lu et al. Absolute protein expression profiling estimates the relative contributions of transcriptional and translational regulation
CN103884806B (zh) 结合二级质谱和机器学习算法的蛋白质组无标记定量方法
Nesvizhskii Protein identification by tandem mass spectrometry and sequence database searching
US6393367B1 (en) Method for evaluating the quality of comparisons between experimental and theoretical mass data
US9354236B2 (en) Method for identifying peptides and proteins from mass spectrometry data
US20070282537A1 (en) Rapid characterization of post-translationally modified proteins from tandem mass spectra
Podwojski et al. Peek a peak: a glance at statistics for quantitative label-free proteomics
US20060249668A1 (en) Automatic detection of quality spectra
JP5750676B2 (ja) 細胞識別装置及びプログラム
JP6611822B2 (ja) 質量分析によって不明微生物亜群を一組の参照亜群の中から同定する方法
CN101477089B (zh) 一种蛋白质翻译后修饰的发现方法
CN104182658B (zh) 一种串联质谱谱图鉴定方法
US7230235B2 (en) Automatic detection of quality spectra
CN110310706B (zh) 一种蛋白质无标绝对定量方法
TWI834674B (zh) 藉由執行時間信號強度校準來減小多屬性方法(mam)之實驗室之間和/或儀器之間差異性之系統及方法
Aoyagi Review of TOF‐SIMS bioanalysis using mutual information
CN109243527B (zh) 一种酶切概率辅助的肽段可检测性预测方法
Wan et al. ComplexQuant: high-throughput computational pipeline for the global quantitative analysis of endogenous soluble protein complexes using high resolution protein HPLC and precision label-free LC/MS/MS
Shao et al. Denoising peptide tandem mass spectra for spectral libraries: a Bayesian approach
CN107622184B (zh) 氨基酸可信度和修饰位点定位的评估方法
V Nefedov et al. Bioinformatics tools for mass spectrometry-based high-throughput quantitative proteomics platforms
JP2003530858A (ja) 質量分析法に基づくプロテオームデータベース調査による微生物同定のための方法およびシステム
Nefedov et al. Svm model for quality assessment of medium resolution mass spectra from 18o-water labeling experiments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant