CN113884583B

CN113884583B - 一种规模化获得成对样品中高可信度磷酸化位点占有率的新方法

Info

Publication number: CN113884583B
Application number: CN202010635843.4A
Authority: CN
Inventors: 叶明亮; 王
Original assignee: Dalian Institute of Chemical Physics of CAS
Current assignee: Dalian Institute of Chemical Physics of CAS
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2023-09-19
Anticipated expiration: 2040-07-03
Also published as: CN113884583A

Abstract

本发明涉及一种综合基于高载量分析柱，高上样量，短梯度分离，高质谱采集速度的LC‑MS方法的蛋白质组及磷酸化蛋白质组深度覆盖技术和基于离群分数控制绝对占有率可信度的集成方法。在以通过蛋白质强度之比，磷酸肽强度之比，对应的非磷酸肽强度之比这三个比值进行占有率计算的方法为基础，通过优化分级条件增加馏分间正交性，通过使用高载量分析柱提高样品上样量进而增加检测灵敏度，通过优化分析梯度及质谱采集参数在进一步提高样品覆盖深度的同时控制总质谱采集时间。对所得结果引入离群分数评价成对样品绝对占有率之比与相对占有率之间的偏差，进一步由此控制绝对占有率的置信区间以获得高可信位点占有率数值。

Description

一种规模化获得成对样品中高可信度磷酸化位点占有率的新方法

技术领域

本发明属于蛋白质组学研究方向翻译后修饰鉴定与定量技术领域，具体涉及一种深度覆盖、高可信度鉴定磷酸化位点及计算占有率的方法。

背景技术

磷酸化是最为重要的翻译后修饰之一。近些年来，探究磷酸化位点与疾病或分子功能的相关研究主要采用的方法集中于研究两种状态/模型下磷酸化位点定量比值的变化。尽管这些方法提供了有用的数据，但是对于理解细胞中的变化过程或相关的生物学机理，磷酸化位点定量比值提供的信息比较有限。

据文献报道(Absolute quantification of proteins and phosphoproteinsfrom cell lysates by tandem MS,Proc Natl Acad Sci U S A,Gerber et al.2003)，计算磷酸化位点占有率是一种不受蛋白丰度干扰的具有解释生物过程潜力的方法。理论上，磷酸化位点占有率可以通过磷酸肽的摩尔数除以包含磷酸化及对应非磷酸化形式的总肽段的摩尔数计算获得。但在使用质谱进行定性定量的方法中，这一比值无法通过磷酸肽与对应非磷酸肽强度比值获得，原因至少有二：1.在离子化阶段，磷酸肽与非磷酸肽离子化效率不同；2.质谱检测器对于磷酸肽与非磷酸肽的响应不同。为了避免以上问题，当前主要发展了三种基于质谱的磷酸化位点占有率测定方法。第一种方法(Absolute quantificationof proteins and phosphoproteins from cell lysates by tandem MS,Proc Natl AcadSci U S A,Gerber et al.2003)使用合成重标肽段作为内标，对样品中磷酸肽及对应非磷酸肽进行绝对定量。然后占有率就可以按照定义使用磷酸肽的摩尔数除以磷酸肽及对应非磷酸化形式肽段的摩尔数之和计算获得。这一方法求得的磷酸化占有率准确度很高，但是需要使用合成肽段进行绝对定量，因此不适合大规模的高通量分析。第二种方法(A large-scale method to measure absolute protein phosphorylation stoichiometries,NatMethods,Wu et al.2011)首先二等分样品，然后使用磷酸酶处理其中一份样品将其中磷酸肽去磷酸化，最后进行标记定量。磷酸肽摩尔数可以通过比较磷酸酶处理前后对应非磷酸肽的增量获得。从而磷酸化位点占有率可以进一步通过定义求得。这一方法不需要对磷酸肽进行富集，从而避免了使用质谱分析磷酸化肽段，因此可以提高分析的灵敏度。目前这一方法存在的主要问题有：首先因为是间接的分析方法，因此对于磷酸化位点的指认需要先验的数据库信息，其次匹配的准确性也没有相应的考量。第三种方法使用标记(Quantitative phosphoproteomics reveals widespread full phosphorylation siteoccupancy during mitosis,Sci Signal,Olsen et al.2010)或无标记定量(Ultradeephuman phosphoproteome reveals a distinct regulatory nature of Tyr and Ser/Thr-based signaling,Cell Rep,Sharma et al.2014)成对样品中的三个比值，即蛋白质强度之比，磷酸肽强度之比，对应的非磷酸肽强度之比，来计算对应磷酸化位点的占有率。这种方法不需要额外的样品处理并且计算流程已整合入MaxQuant软件中，不需要额外的计算即可在搜库结果中输出占有率数值。此种方法的缺点在于定量到的占有率数值较少，结果误差较大。对应的非磷酸肽部分由于其无法通过富集增加丰度的特性，其比值较大的误差将通过计算传递到最终的占有率数值中。

发明内容

我们以通过蛋白质强度之比，磷酸肽强度之比，对应的非磷酸肽强度之比这三个比值进行占有率计算的方法为基础，发展了一种增加成对样品覆盖深度及提高磷酸化位点占有率可信度的集成方法。通过优化色谱质谱条件增加样品覆盖深度，通过引入离群分数评价成对样品绝对占有率之比与相对占有率之间的偏差，进一步由此控制绝对占有率的置信区间。

为了实现这一目的，本发明采用如下技术方案：

1.组织破碎，蛋白提取，酶解；

2.基于Ti⁴⁺-IMAC的磷酸肽富集；

3.全蛋白肽段及磷酸肽离线分级；

4.使用高载量分析柱，高上样量，短梯度分离，高质谱采集速度的LC-MS方法；

5.引入离群分数控制置信区间的绝对占有率可信度控制方法。

一种规模化获得高可信度磷酸化位点绝对占有率的集成方法，该方法的步骤为：

(a)使用色谱柱分级分离蛋白酶解中的肽段；

(b)对上步中分级分离的肽段馏分分别上分析柱分离；

(c)质谱检测分析柱分离的肽段信息；

(d)对肽段信息进行分析，基于离群分数控制的绝对占有率可信度。

步骤(a)使用色谱柱分级分离肽段；使用含有10～20个标准肽段的混合样品测试色谱柱柱效，所选色谱柱分离全部肽段的最大峰宽应小于1min；据此在实际样品分级中，馏分收集间隔时间设定为1～1.5倍最大峰宽；(以死时间后)从第一个峰出峰开始收集馏分，控制总计收集2n(n为自然数)个馏分，为最大化利用质谱分析时间，合并所接馏分，合并采用1与n+1，2与n+2，…，n与2n的方式进行。

步骤(b)优化所用分析柱及色谱条件；对于纳/微升液相，使用分析柱内径越细对应最佳流速越小，同时色谱柱载量越小；流速小对应离子化效率增加有利于增加灵敏度，但色谱柱载量小对应单次允许最大上样量小，不利于提高灵敏度；为了平衡这一矛盾，

优化组合了一系列参数：色谱柱内径选择100μm～300μm；使用直径为1.9μm～1.6μm的亚2μm C18填料；使用流动相流量为300nL/min～900nL/min之间；单次上样量为2μg至4μg之间；尽量压缩梯度分离时间，综合考虑了短梯度压缩峰宽带来的信号提升以及单位时间内样品复杂度增加带来的鉴定数量的下降，在几乎不损失鉴定数量的前提下以尽量缩短分析时间为目标，在其他色谱条件固定的情况下通过改变流动相B单位时间变化率对梯度进行优化，优化后单次分析梯度分离时间介于30min至50min之间。

步骤(c)针对短分析梯度优化的质谱参数：一级谱扫描质荷比，下限范围为300Th～400Th，上限为1250Th～1750Th，归一化碰撞碎裂能量(NCE)范围为25％～35％。

步骤(d)定义了离群分数及置信区间；将所有磷酸化位点的δ按数值由小到大排列并分成四等份，其中第一四分位数(Q1)等于所有δ由小到大排列后处在25％位置上的数值；其中第三四分位数(Q3)等于所有δ由小到大排列后处在75％位置上的数值；四分位间距(IQR)为第三四分位数与第一四分位数的差距，即Q3-Q1。将所有磷酸化位点的δ值以向量形式表示载入至R语言环境中，通过quantile命令即可求出Q1，Q3，IQR。我们引入离群分数S(S为有理数)，定义置信区间下界为：Q1-S×IQR，上界为：Q3+S×IQR，通过调节S大小改变置信区间范围。

在其他条件不变的情况下，相对占有率与绝对占有率之比越接近，绝对占有率计算过程中受到非磷酸化肽段定量比值(y)的影响越小，因而其绝对占有率的可信度越高。因此引入了相对占有率与绝对占有率之比这两组数值间的皮尔逊相关系数(PPMCC)定量表征这种可信程度，即相对占有率与绝对占有率之比越接近，其PPMCC越接近1，所包含的磷酸化位点的占有率可信度越高。当置信区间范围随S增大，其中包含的相对占有率与绝对占有率之比差值大的点的个数将增加，对应的PPMCC将会下降。反之亦然。为定量表征这一关系，以S值为横轴，以PPMCC为纵轴，以随S变化的置信区间内包含的绝对占有率之比与相对占有率的PPMCC做图，可得PPMCC随S的变化情况。因此当设定一可信度(即PPMCC)阈值，可通过S-PPMCC图求得此时对应的S，进而确定置信区间，位于此区间内的即为高可信度的绝对占有率结果。

使用标准肽段为10～20个，等摩尔混合。肽段彼此间疏水性应有一定差异，在所用线性分离梯度(4％～35％乙腈)内，肽段保留时间应符合以下标准：第一出峰肽段与最后出峰肽段保留时间差应占总梯度时长的80％～90％；出峰相邻两肽段之间保留时间差值应占总梯度时长的0％～10％。

优化分析梯度时，使用的色谱条件为：使用内径150μm内径色谱柱填装1.9μm色谱填料，流量600nL/min，单次上样2μg HeLa细胞酶解产物。改变流动相B单位时间变化率使总分析时长为30min～50min之间的一系列值。选取蛋白及肽段鉴定数量最多的方法为最终分析实际样品的梯度。

在选定色谱参数后，设定一系列质谱参数对，如：A组，一级谱扫描质荷比设定为350Th～1250Th，NCE27％；B组，一级谱扫描质荷比设定为350Th～1350Th，NCE27％；C组一级谱扫描质荷比设定为350Th～1450Th，NCE27％等，对2μg HeLa细胞酶解产物进行分析。以鉴定蛋白及肽段数量为标准，选择鉴定数量最多的一组参数做为优化结果。

本发明的优点如下：

1.覆盖深度高。使用本方法优化过的色谱质谱条件可做到深度的蛋白质组及磷酸化蛋白质组覆盖；

2.获得的磷酸化位点占有率可信度高。通过引入离群分数评价成对样品绝对占有率之比与相对占有率之间的偏差，进一步由此控制绝对占有率的置信区间，可以按照不同的置信度要求筛选对应的磷酸化位点占有率数值；

3.应用范围广。对于癌组织临床样本，大多数都以癌组织及癌旁组织成对存在。本方法正是针对此类成对样品发展的集成方法，因此在临床样本中可应用此发明规模化获得包含磷酸化在内的多种翻译后修饰的高可信占有率。

附图说明

图1为规模化获得成对样品中高可信度磷酸化位点占有率新方法流程图。A.实验流程图。

B.数据处理流程图。

图2为优化反相分级及LC-MS条件后蛋白组学及磷酸化蛋白组学定量结果

A.在肝癌组织样品组(Tumor)与癌旁组织(Para)样品组鉴定到的肽段数量。上侧直方图显示了每一个馏分中鉴定到的唯一肽段(unique peptide)数，下侧散点图显示了唯一肽段随馏分数增加的累积分布。

B.在肝癌组织样品组(Tumor)与癌旁组织(Para)样品组鉴定到的唯一蛋白/蛋白家族(unique protein/protein groups)数量。上侧直方图显示了每一个馏分中鉴定到的唯一蛋白/蛋白家族数，下侧散点图显示了唯一蛋白/蛋白家族随馏分数增加的累积分布。

C.癌与癌旁样品中共计鉴定与定量到的蛋白质，磷酸化位点数以及由此计算所得绝对占有率数量。

D.计算所得绝对占有率与相对占有率数量比较。

图3为通过离群分数确定的置信区间及皮尔逊相关系数。

A.散点图显示了在给定皮尔逊相关系数为0.95及0.90时，绝对占有率之比与相对占有率的离散程度及变化趋势。

B.上侧散点图显示了随离群分数增加，即置信区间增大，阈值之内的绝对占有率数量的变化情况；下侧散点图显示了随离群分数增加，绝对占有率比值与相对占有率之间皮尔逊相关系数的变化情况。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

规模化获取成对样品中高可信度磷酸化位点占有率的新方法用于人类肝细胞肝癌组织磷酸化位点占有率的研究：

如未特别注明，以下步骤中溶液的溶剂均为水，百分比均为体积比。癌及癌旁组织处理流程完全一致。其中癌旁组织的选择标准是距肿瘤边缘小于等于1cm部位的肝组织。(1)在术后1h内收集切下的人类肝癌及癌旁组织样本，使用预冷至4℃的PBS冲洗过后迅速转移至-80℃冰箱存储。PBS组成为：10mM磷酸氢二钠，2mM磷酸二氢钾，137mM氯化钠，2.7mM氯化钾，pH 7.4。在蛋白提取前先将癌组织及癌旁组织放置于4℃冰箱解冻，随后使用手术剪将其剪成1mm³大小的碎片，使用预冷至4℃的PBS洗去组织碎片中残存的血液，再放置于吸水纸上吸去多余的水分。将以上组织碎片放置于研钵中，加入液氮研磨；

(2)将研磨好的组织粉末加入盐酸胍裂解液(6M GdmCl(盐酸胍)，100mM Tris(三羟甲基氨基甲烷)pH 8.5，10mM TCEP(三(2-羧乙基)膦盐酸盐)，40mM CAA(氯乙酰胺))中，充分分散。将此裂解液先加热至95℃保持5min，然后放置冰上冷却15min。随后使用探头式超声波破碎仪进行进一步细胞破碎(输出功率200W，99次循环，模式：3s开3s关)。将破碎后的裂解液再次加热至95℃保持5min，放置冰上冷却15min，随后低温(4℃)4,000g离心30min。将上清液转移至新的离心管中测量蛋白浓度待用；

(3)对于步骤2获得的蛋白样品按10：90(质量比)分为两份，其中占总蛋白10％的一份进行蛋白质组分析。采用FASP(滤膜辅助样品制备)方法进行样品酶解。使用VIVACON500超滤管，每管加入200μg蛋白样品。20℃，14,000g离心至刚好管底处超滤膜暴露出来。随后通过加入100μl，100mM碳酸氢铵溶液洗涤两次，20℃，14,000g离心至刚好管底处超滤膜暴露出来的程度为止。随后向管中加入50μl，100mM碳酸氢铵溶液，再以酶：蛋白(质量比)为1：20加入胰蛋白酶进行酶解，37℃水浴中放置16h。酶解完成后20℃，14,000g离心20min，收集流穿液。随后通过加入50μl，10mM碳酸氢铵溶液14,000g离心20min进行洗涤，共执行两次。合并收集的流穿液，冷冻干燥后留待进一步分级使用；

剩下占总蛋白90％的一份蛋白样品进行磷酸肽富集。先通过加入等体积的超纯水稀释蛋白样品，随后加入4倍体积预冷至-20℃的丙酮，放置于-20℃冰箱12h进行蛋白沉淀。将离心管置于低温(4℃)离心机中3,000g离心15min。弃去上清，沉淀使用预冷至-20℃的80％丙酮水溶液洗涤两次。将离心管敞口放入通风橱中自然干燥10min，随后加入TFE酶解缓冲液(10％三氟乙醇,100mM碳酸氢铵)，使用Bioruptor超声混匀(高输出，4℃水浴，5次循环，模式：30s开30s关)。使用BCA试剂盒测定蛋白浓度后，以酶：蛋白(质量比)为1：20加入胰蛋白酶进行酶解。离心管放入37℃混匀器中，高速震荡(1,400r.p.m.)酶解16h。终止酶解后，酶解液放入-80℃冰箱留待进一步磷酸肽富集使用；

(4)首先加入50％TFA至将酶解完成的肽段溶液中至TFA终浓度为1％。随后室温12,000g离心5min，转移上清液至一新离心管。加入等体积磷酸肽富集上样缓冲液(80％ACN，6％TFA)后，以肽段：微球比(质量比)为1：20加入Ti⁴⁺-IMAC微球。20℃高速震荡(1,400r.p.m.)60min。室温20,000g离心5min后，弃上清。微球随后分别使用洗液1(50％ACN,，6％TFA，200mM氯化钠)及洗液2(30％ACN，0.1％TFA)洗涤(20℃高速震荡20min，室温20,000g离心5min)一次后，使用10％的氨水将结合于微球的磷酸肽进行洗脱。室温25,000g离心5min后，将上清转移至新的离心管中，冷冻干燥后留待进一步分级使用；

(5)首先使用序列分别为

SSAAPPPPPR，GISNEGQNASIK，HVLTSIGEK，DIPVPKPK，IGDYAGIK，TASEFDSAIAQDK，SAAGAFGPELSR，ELGQSGVDTYLQTK，GLILVGGYGTR，GILFVGSGVSGGEEGAR，SFANQPLEVVYSK，LTILEELR，NGFILDGFPR，ELASGLSFPVGFK，LSSEAPALFQFDLK的15种标准肽段(等摩尔混合)混合物测试柱效。使用Waters UPLC系统，流速设定为0.9mL/min。流动相A组成为25mM碳酸氢铵水溶液，流动相B组成为20％25mM碳酸氢铵水溶液，80％ACN。所选色谱柱规格为：填料粒径为3.5μm，尺寸为4.6mm×150mm。经测试，Waters CSH C18柱效最高，所有分离分析的15种标准肽段，最大峰宽为0.5min，满足最大峰宽小于1min阈值，因此选择此款色谱柱。

离线分级使用与测试柱效相同的色谱系统，流速为0.9mL/min。流动相A组成为25mM碳酸氢铵水溶液，流动相B组成为20％25mM碳酸氢铵水溶液，80％ACN。在实际样品分级中，馏分收集间隔时间设定为1min。对于蛋白质组肽段分级，流动相pH为8.0，所用分离梯度时长70min：起始B相为6.3％，60min(去除死时间后开始从0起计时)线性增加至32％，随后10min增加至87％。每一分钟收集一个馏分，共计收集70个。将这70个馏分按照1与36，2与37，……，35与70的顺序两两混合后，冻干待进一步LC-MS分析。

对于磷酸肽样品的分级，流动相pH调整至7.0，所用分离梯度时长40min，起始B相为5％，25min线性增加至20％，下一个10min线性增加至30％，随后5min增加至60％。每一分钟收集一个馏分，共计收集40个。将这40个馏分按照1与21，2与22，……，20与40的顺序两两混合后，冻干待进一步LC-MS分析；

(6)液质联用分析使用的仪器为：装配有UltiMate 3000RSLC纳升液相系统的Q-Exactive HF质谱仪。分级后的肽段样品复溶在0.1％的甲酸水溶液中，然后使用毛细管喷针一体分析柱(填料为C18-AQ 1.9μm，分析柱内径150μm，柱长40cm)进行分离分析。流动相A组成为0.1％的甲酸水溶液，流动相B内含80％ACN与0.1％甲酸。

对于蛋白组学样品，经优化后的分离梯度时长34.5min：起始B相为14％，30min线性增加至35％，下一个4min线性增加至45％，随后0.5min增加至90％。

对于磷酸肽样品，因总体亲水性较蛋白组学样品强，因此对梯度变化率也做了优化，分离梯度时长34min：起始B相为12％，29min线性增加至30％，下一个4.5min线性增加至45％，随后0.5min增加至90％。

Q Exactive HF质谱采用正离子，数据依赖采集(DDA)模式。使用优化过的质谱参数：一级谱扫描质荷比范围为350-1,400，分辨率设置为60,000(质荷比为200处)，离子最大注入时间为100ms，允许注入最大电荷数为3×10⁶个。对一级谱中强度最高的20个多电荷(+2～+6)离子进行隔离并进一步进行高能碰撞碎裂(HCD)。对于碎片离子分辨率设置为15,000(质荷比为200处)，离子最大注入时间为15ms，允许注入最大电荷数为1×10⁵个，NCE设置为28％。动态排除时间设置为30s。离子源参数：喷雾电压2.6kV，离子传输毛细管温度设置为320℃；

(7)质谱采集产生的数据文件(.raw)使用MaxQuant(1.6.2.10版本)软件进行分析，使用整合的Andromeda搜索引擎对肽段，蛋白质及磷酸化位点进行搜库。具体设定参数为：数据库为uniprot人类蛋白质数据库(2017年发布，包含20,195个经验证的蛋白序列)。蛋白酶设定为胰蛋白酶，最多允许两个漏切位点。固定修饰设定为半胱氨酸(C)上的氨基甲酰甲基化(carbamidomethyl)，可变修饰设置为：丝氨酸(S)苏氨酸(T)酪氨酸(Y)的磷酸化，甲硫氨酸(M)的氧化以及蛋白质N端乙酰化。肽段鉴定标准为大于等于6个氨基酸，FDR设定为小于1％。获得的结果中，高可信(Class I)磷酸化位点定义为localizationprobability≥0.75同时ΔPTM score≥5。磷酸化位点绝对占有率由MaxQuant搜库结果直接输出，其计算公式为：

相对占有率计算公式为：

其中a为磷酸化位点绝对占有率，R为两个样品的磷酸化位点相对占有率，x为磷酸肽强度比，y为对应非磷酸化肽段强度比，z为磷酸化位点所在蛋白强度比。

MaxQuant搜库结果的后处理包含位点匹配，数据过滤，皮尔逊相关系数计算与置信区间计算等皆由R语言编写脚本完成。绝对占有率由MaxQuant软件搜库结果中自动输出，绝对占有率之比(a/b)使用癌组织绝对占有率数值(a)除以癌旁组绝对占有率数值(b)。相对占有率(R)的计算使用对应磷酸化位点无标记定量比值除以此位点所在蛋白的无标记定量比值。相对占有率与绝对占有率之比的差异(δ)定义为对于同一磷酸化位点，取对数后的相对占有率与取对数后的绝对占有率之比的差值：lnR-ln(a/b)。

将所有磷酸化位点的δ按数值由小到大排列并分成四等份，其中第一四分位数(Q1)等于所有δ由小到大排列后处在25％位置上的数值；其中第三四分位数(Q3)等于所有δ由小到大排列后处在75％位置上的数值；四分位间距(IQR)为第三四分位数与第一四分位数的差距，即Q3-Q1。将所有磷酸化位点的δ值以向量形式表示，载入至R语言环境中，通过quantile命令即可求出Q1，Q3，IQR。我们引入离群分数S(S为有理数)，定义置信区间下界为：Q1-S×IQR，上界为：Q3+S×IQR，通过调节S大小改变置信区间范围。

方法评价：

1.我们将以上分析流程(图1A)应用于一对HCC样品中。首先对蛋白质组进行分析，使用优化后的色谱系统对约200μg的样品肽段进行高pH反相分级。收集其有效分离梯度的70个馏分进行两两合并，冻干复溶后取一半体积进行分析。使用此前优化的50min梯度对包含共计100μg肽段的35个馏分进行LC-MS分析。对于癌组织样品，共计鉴定到176,512个非冗余肽段序列，10,528个蛋白或蛋白家族；对于癌旁组织样品，共计鉴定到169,923个非冗余肽段序列，10,397个蛋白或蛋白家族(图2A，2B)。平均单个馏分的肽段鉴定数超过一万，蛋白鉴定数超过五千。

2.我们将这一流程应用至同样这对HCC样品富集的磷酸肽分析中。首先对从2mg肽段中富集的磷酸肽进行分级，离线分级采用中性流动相，40min有效梯度。对合并后的20个馏分使用对磷酸肽优化的50min梯度进行LC-MS分析。对于癌组织及癌旁组织，一共鉴定到32,377个磷酸化位点，其中高可信位点17,533个。结合此前蛋白质定量结果，癌组织及癌旁组织中共获得4,005个磷酸化位点占有率数值(图2C，2D)。

3.将数据处理流程应用于此前的HCC样品深度分级数据。首先计算HCC样品磷酸化位点的相对占有率，一共获得15,840个相对占有率数值。随后我们绘制了离群分数对相对占有率与绝对占有率之比的皮尔逊相关系数(S-PPMCC)的散点图以及离群分数对置信区间内包含的占有率数值个数(S～N)的散点图(图3A)。如约定PPMCC等于0.95时置信区间内包含占有率为高可信，此时求得对应的S值为3.00，由此计算的置信区间内包含3,656个绝对占有率数值，占总绝对占有率数量的91.3％；如将条件放宽至PPMCC等于0.90，认为此时为中等可信占有率，此时对应S值为6.35，由此计算的置信区间内包含3,909个绝对占有率数值，占总绝对占有率数量的97.6％(图3B)。

Claims

1.一种规模化获得高可信度磷酸化位点绝对占有率的集成方法，其特征在于，该方法的步骤为：

(a) 使用色谱柱分级分离样品中的肽段；使用色谱柱分级分离样品中的肽段；使用含有10～20个标准肽段的混合样品测试色谱柱柱效，所选色谱柱分离全部肽段的最大峰宽应小于1 min；据此在实际样品分级中，馏分收集间隔时间设定为1～1.5倍最大峰宽；从第一个峰出峰开始收集馏分，控制总计收集2n个馏分， n为自然数，为最大化利用质谱分析时间，合并所接馏分，合并采用1与n+1，2与n+2，…，n与2n的方式进行；

(b) 对上步中分级分离的肽段馏分分别上分析柱分离；优化所用分析柱及色谱条件；色谱柱内径选择100 μm～300 μm；使用直径为1.9 μm～1.6 μm的亚2 μm C18填料；使用流动相流量为300 nL/min～900 nL/min之间；单次上样量为2 μg至4 μg之间；单次分析梯度分离时间介于30 min至50 min之间；

(c)质谱检测分析柱分离的肽段信息；

(d)对肽段信息进行分析，基于离群分数控制的绝对占有率可信度；质谱采集产生的数据文件使用软件进行分析，获得磷酸化位点绝对占有率，绝对占有率之比a/b使用癌组织绝对占有率数值a除以癌旁组绝对占有率数值b；相对占有率R的计算使用对应磷酸化位点无标记定量比值除以此位点所在蛋白的无标记定量比值；相对占有率与绝对占有率之比的差异δ定义为对于同一磷酸化位点，取对数后的相对占有率与取对数后的绝对占有率之比的差值：lnR-ln，a/b；步骤(d) 引入了相对占有率与绝对占有率之比这两组数值的皮尔逊相关系数PPMCC定量表征绝对占有率的可信程度，即相对占有率与绝对占有率之比越接近，其PPMCC越接近1，所包含的磷酸化位点的占有率可信度越高；对于全部磷酸化位点的绝对占有率之比与相对占有率数据，以S值为横轴， PPMCC为纵轴，以随S变化的置信区间内包含的绝对占有率之比与相对占有率的PPMCC做图，可得PPMCC随S的变化情况；设定一可信度PPMCC阈值，通过S-PPMCC图求得此时对应的S，进而确定置信区间，位于此区间内的即为高可信度的绝对占有率结果；

步骤(d)引入离群分数定义置信区间；将所有磷酸化位点的δ按数值由小到大排列并分成四等份，其中第一四分位数Q1等于所有δ由小到大排列后处在25%位置上的数值；其中第三四分位数Q3等于所有δ由小到大排列后处在75%位置上的数值；四分位间距IQR为第三四分位数与第一四分位数的差距，即Q3-Q1；将所有磷酸化位点的δ值以向量形式表示载入至R语言环境中，通过quantile命令求出Q1，Q3，IQR；引入离群分数S，S为有理数，定义置信区间下界为：Q1-S×IQR，上界为：Q3+S×IQR，通过调节S大小改变置信区间范围。

2.根据权利要求1所述的方法，其特征在于：

步骤(c) 针对短分析梯度优化的质谱参数：一级谱扫描质荷比，下限范围为300 Th~400 Th，上限为1250 Th~1750 Th，归一化碰撞碎裂能量NCE范围为25%~35%。

3.根据权利要求1所述的方法，其特征在于：

步骤(d) 中的PPMCC阈值介于0.9～1之间。

4.根据权利要求1所述的方法，其特征在于：

使用标准肽段为10～20个，等摩尔混合；肽段彼此间疏水性应有一定差异，在所用线性分离体积浓度4%～35% 乙腈梯度内，肽段保留时间应符合以下标准：第一出峰肽段与最后出峰肽段保留时间差应占总梯度时长的80%～90%；出峰相邻两肽段之间保留时间差值应占总梯度时长的0%～10%。

5.根据权利要求1所述的方法，其特征在于：

优化分析梯度时，使用的色谱条件为：使用内径150 μm内径色谱柱填装1.9 μm色谱填料，流量600 nL/min，单次上样2 μg HeLa细胞酶解产物；改变流动相B单位时间变化率使总分析时长为30 min ～50 min之间的一系列值；选取蛋白及肽段鉴定数量最多的方法为最终分析实际样品的梯度。

6.根据权利要求1或5所述的方法，其特征在于：

在选定色谱参数后，设定一系列质谱参数对，A组，一级谱扫描质荷比设定为350 Th～1250 Th，NCE27%；B组，一级谱扫描质荷比设定为350 Th～1350 Th，NCE27%；C组一级谱扫描质荷比设定为350 Th～1450 Th，NCE27%，对2 μg HeLa细胞酶解产物进行分析；以鉴定蛋白及肽段数量为标准，选择蛋白及肽段鉴定数量最多的一组参数做为优化结果。

7.根据权利要求1所述的方法，其特征在于：

分析的样品为细胞酶解液、人组织酶解液、动物组织酶解液中的一种或二种以上。