CN110554134A

CN110554134A - 临床血液样本分析方法及应用

Info

Publication number: CN110554134A
Application number: CN201810538149.3A
Authority: CN
Inventors: 曾嵘; 吴家睿; 李辰; 李青润; 袁亚俊
Original assignee: Shanghai Institutes for Biological Sciences SIBS of CAS
Current assignee: Center for excellence and innovation of molecular cell science, Chinese Academy of Sciences
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2019-12-10

Abstract

本发明涉及临床血液样本分析方法及应用。具体而言，本发明提供一种免疫细胞蛋白质定量方法，所述方法包括：提供免疫细胞蛋白质的肽段混合物；以数据依赖性采集模式(DDA)和数据非依赖采集模式(DIA)采集数据，获得DDA数据和DIA数据；对DDA数据进行数据检索，获得检索结果；由获得的检索结果构建谱图库；将DIA数据与谱图库对比，对DIA和谱图库中的谱图匹配程度进行打分，依据样品中掺入的各标肽的保留时间对样品中肽段保留时间进行矫正，优化拟合的模型，完成DIA的数据库检索；和导出DIA匹配结果，依据阈值筛选高可信肽段集合，用于肽段和蛋白质定量。

Description

临床血液样本分析方法及应用

技术领域

本发明涉及临床血液样本分析方法及应用。

背景技术

胰腺癌是目前世界上发病率第十二、死亡率第七的癌症，胰腺癌的预后极差，每年发病人数和死亡人数接近1:1。世界卫生组织2012年统计结果显示，胰腺癌是目前世界上发病率第十二和死亡率第七的癌症，全世界每年新增胰腺癌病人33万人，每年因胰腺癌死亡的病人有33万人，胰腺癌的发病人数和死亡人数的比值接近1:1。胰腺癌包括内分泌胰腺癌和外分泌胰腺癌，大部分的胰腺癌病人属于外分泌胰腺癌，其中胰腺导管腺癌病人占胰腺癌病人的90％左右。胰腺癌进展非常快，病人预后极差，胰腺癌病人的平均生存期仅为6-9个月，一年生存率为28％，五年存活率为7％；有20％的胰腺癌病人可以进行手术切除，但是可以进行手术切除的病人中有很大一部分会发生癌症复发和转移，这部分患者的中位生存期为12-19个月，五年生存率为20％，胰腺癌有“癌中之王”之称。

尽管从1975到2017年之间美国胰腺癌病人的五年生存率从3.0％上升到 8.5％，但目前胰腺癌患者的5年生存率依然不足10％，不容乐观。早期诊断难、预后差、发生发展快，大部分诊断为胰腺癌的病人都到了晚期。手术切除是目前彻底治愈胰腺癌的唯一有效手段，但是手术切除患者胰腺癌复发比例很高。及早发现、及早治疗对于治愈胰腺癌十分关键，而且手术切除后的患者追踪对于术后及时干预提高患者生存率至关重要。

2011年，Douglas和Robert更是将逃脱免疫监视或者抑制免疫反应列为癌症的十大特征之一。在胰腺癌的发生发展过程中，肿瘤细胞和免疫系统相互博弈。一方面，机体的免疫系统会识别肿瘤细胞表面特异的分子诱发免疫反应，杀死肿瘤细胞，例如CD8+T细胞和NKT细胞；另一方面，肿瘤细胞自身会发生某种突变并借助Treg等免疫细胞，抑制机体的免疫反应，最终逃脱免疫系统的监控，形成明显的肿瘤块和新的转移灶。其中，多个免疫细胞参与这个过程，包括肿瘤相关的巨噬细胞(tumor-associated macrophage，TAM)、髓系来源的抑制细胞(myeloid-derived suppressor cell，MDSC)、肿瘤相关的中性粒细胞(tumor-associated neutrophils，TMN)、肥大细胞(MC)、树突状细胞(DC)、肿瘤渗透的淋巴细胞(Treg、CD4+T和CD8+T细胞)，这些细胞一起构成肿瘤细胞的免疫调控系统。

相比组织，外周血获取是无创的，样本采集方便容易。而外周血中的免疫细胞作为机体系统免疫中的一部分，一定程度上反应了机体免疫系统的状态。研究胰腺癌病人外周血中不同功能类型免疫细胞在蛋白质水平、肽段水平、蛋白质修饰水平等的定量变化有助于理解、追踪和研究胰腺癌发生发展过程中免疫系统发挥的作用，获得的差异表达蛋白质和或差异表达修饰位点具有广阔的理论指导意义和实际临床应用前景。

发明内容

本发明提供一种免疫细胞蛋白质定量方法，所述方法包括：

(1)提供免疫细胞蛋白质的肽段混合物；

(2)以数据依赖性采集模式(DDA)和数据非依赖采集模式(DIA)采集数据，获得DDA数据和DIA数据；

(3)对DDA数据进行数据检索，获得检索结果；

(4)由步骤(3)获得的检索结果构建谱图库；

(5)将步骤(2)获得的DIA数据与步骤(4)获得的谱图库对比，对DIA 和谱图库中的谱图匹配程度进行打分，依据样品中掺入的iRT各肽段保留时间对样品中肽段保留时间进行矫正，优化拟合的模型，完成DIA的数据库检索；和

(6)导出DIA匹配结果，依据阈值(如q值<0.01)筛选高可信肽段集合，用于后续的肽段和蛋白质定量。

在一个或多个实施方案中，所述免疫细胞为人外周血CD4+T细胞或 CD8+T细胞。

在一个或多个实施方案中，所述DDA数据采集中，一级全扫及二级扫描使用高分辨率质量检测器(如Orbitrap)，二级扫描为数据依赖型采集模式。

在一个或多个实施方案中，所述DIA数据采集中，一级全扫及二级扫描使用高分辨率质量检测器(如Orbitrap)，二级扫描为数据非依赖型采集模式。

在一个或多个实施方案中，所述DIA数据采集中，一级全扫可以选择不采集。

在一个或多个实施方案中，根据DDA样本文件的数据库搜索结果，对DIA 方法中母离子分离的循环检测窗口进行动态设置，保证DIA方法中每一个母离子分离窗口内肽段离子数量基本一致。

在一个或多个实施方案中，所述方法还包括：优化质荷比的扫描范围以及母离子分离的循环检测窗口总个数，保证DIA数据中肽段平均信号采集点大于等于7和DIA质谱方法的检测窗口循环时间在2秒左右，从而优化并选择合适的DIA方法。

在一个或多个实施方案中，所述方法的步骤(4)还包括：对DIA数据本身进行数据库检索，独立或整合DDA数据样本文件，构建或完善DIA数据分析所需要的谱图库。

在一个或多个实施方案中，所述方法中，同一条肽段对其所有子离子强度进行加和作为该肽段强度，蛋白质有定量信息的所有肽段的强度加和作为蛋白质强度，从而获得蛋白质定量结果。

在一个或多个实施方案中，所述免疫细胞来自癌症患者外周血。

在一个或多个实施方案中，所述癌症患者为胰腺癌患者。

附图说明

图1：病人外周血中CD4+T和CD8+T细胞FACS检测结果。A、3个病人外周血中CD4+T细胞FACS检测结果；B、图A中对应的3个病人外周血 CD8+T细胞FACS检测结果。

具体实施方式

应理解，在本发明范围中，本发明的上述各技术特征和在下文(如实施例) 中具体描述的各技术特征之间都可以互相组合，从而构成优选的技术方案。

传统的蛋白质组学采用数据依赖采集(DDA)策略，将蛋白质样品消化成肽段，离子化并通过质谱进行分析。在全扫描质谱图中，高于噪音的肽段信号被选择性裂解，产生随机(MS/MS)质谱，能够与数据库中的图谱相匹配。尽管这种方法非常强大，但它随机抽取肽段进行裂解，总是偏向于那些信号最强的峰。因此，低丰度肽段的定量仍是挑战。在最成熟的定向分析技术——选择反应监测(SRM)中，质谱仪能非常灵敏地检测到特定肽段，具有高的定量准确性。然而，这种方法并不适合于发现型的应用。因此，人们将目光集中在数据非依赖采集(DIA)上，它在理论上综合了DDA和SRM的优势。在DIA 分析中，指定质荷比(m/z)窗口内的所有肽段都经过裂解；分析重复，直至质谱仪覆盖整个m/z范围。这实现了准确的肽段定量，而不限于分析预先定义的肽段。

本发明首次采用数据非依赖采集(Data-independent acquisition，DIA)的扫描模式研究癌症病人外周血中CD4+T和CD8+T细胞，打破了传统的用流式细胞仪研究癌症病人外周血中CD4+T和CD8+T细胞的限制，为癌症以及其他疾病临床研究外周血中CD4+T和CD8+T细胞提供了新的思路，同时构建了一个全新的完整的关于胰腺癌病人外周血中CD4+T和CD8+T细胞中生物标志物的大库。

因此，本发明提供一种免疫细胞蛋白质定量方法，所述方法包括：

(1)提供免疫细胞蛋白质的肽段混合物；

(3)对DDA数据进行数据检索，获得检索结果；

(4)由步骤(3)获得的检索结果构建谱图库；

(6)导出DIA匹配结果，依据阈值(如q值<0.01)筛选高可信肽段集合，用于肽段和蛋白质定量。

本发明中，免疫细胞指参与免疫应答或与免疫应答相关的细胞。包括淋巴细胞、树突状细胞、单核/巨噬细胞、粒细胞、肥大细胞等。在某些实施方案中，本发明使用外周血CD4+T细胞和/或CD8+T细胞。可采用常规的方法获得感兴趣的免疫细胞。例如，对于CD4+T细胞和CD8+T细胞，可采用常规方法从新鲜血液中分离出PBMC细胞，然后用本领域已知的试剂盒(如美天旎公司的 CD4+T Cell Isolation Kit和CD8+T Cell Isolation Kit)从PBMC中分离CD4+T 和CD8+T细胞。

分离得到感兴趣的细胞后，可裂解所述细胞。例如，对于CD4+T和CD8+T 细胞，可加入SDT裂解缓冲液(4％SDS，0.1M Tris-HCl pH7.6，0.1M DTT)，沸水5min，200w超声3min。对于其它感兴趣的细胞，可采用常规的方法进行裂解。

对裂解所得样本进行酶解，如FASP酶解。可采用常规的方法进行酶解，例如，可参照Wisniewski,J.R.等(Universal sample preparation method for proteomeanalysis，Nat Methods，2009，6(5):p.359-62)所述的方法进行酶解。酶解之后，对所得肽段进行StageTip脱盐(示例性的方法可参考Rappsilber,J.、 M.Mann和Y.Ishihama，Protocol for micro-purification,enrichment, pre-fractionation and storage ofpeptides for proteomics using StageTips，Nat Protoc，2007，2(8):p.1896-906)。

获得肽段混合物后，分别以数据依赖性采集模式(DDA)和数据非依赖采集模式(DIA)采集数据，获得DDA数据和DIA数据。具体而言，可取适量肽段样本，加入标肽(如来自Biognosys的iRT标肽，示例性的序列如SEQ ID NO:1－11所示)，用作DDA样本和DIA样本。

肽段可通过色谱仪进行分离。示例性的流动相A液可以是0.1％FA的水溶液，B液可以是0.1％FA的ACN溶液。色谱梯度可以为(％B)：时间，(2-4)： 2min，(4～30)：100min，(30～45)：8min，(45～90)：5min，(99～90)： 5min，分离时间2h，流速250nL/min。

DDA和DIA数据采集可采用质谱仪器进行。通常，数据采集为“高-高”模式。在某些实施方案中，DDA数据采集参数设置，一级全扫为orbitrap检测器 (300-1500m/z)，分辨率为120,000@m/z 200，AGC target设置为2E5， maximum IT为50ms；二级扫描为数据依赖型采集模式(DDA，top 20)， HCD碎裂，分辨率为15,000@m/z 200，AGC target设置为5E4，maximum IT 为54ms，isolation window为1.2m/z，33.0％NCE，orbitrap检测器(200-2000m/z) 检测。动态排除设置为：重复次数，1；重复时间，30s；排除时间，120s。所有数据通过Xcalibur软件进行采集。

在某些实施方案中，DIA数据采集参数设置，一级全扫为orbitrap检测器 (300-1500m/z)，分辨率为240,000@m/z 200，AGC target设置为2E5， maximum IT为50ms；二级扫描为数据非依赖型采集模式(DIA)，HCD碎裂，分辨率为15,000@m/z 200，AGC target设置为5E4，maximum IT为70ms， 33.0％NCE，orbitrap检测器(100-2000m/z)检测。

可根据预计用来建库的DDA样本文件的搜库结果，保证每一个DIA窗口内离子数量基本一致，最大化仪器的检测效率，采用可变窗口采集离子。

可根据DDA样本文件的数据库搜索结果对DIA方法中母离子分离的循环检测窗口进行动态设置，保证DIA方法中每一个母离子分离窗口内肽段离子数量基本一致。母离子分离的循环检测窗口的个数也会根据液相色谱质谱仪的实际情况进行优化，通过优化质荷比的扫描范围以及检测窗口总个数，保证DIA 数据中肽段平均信号采集点大于等于7和DIA质谱方法的检测窗口循环时间在 2秒左右，从而优化并选择合适的DIA方法。

获得的DDA Raw文件可通过周知的软件(如MaxQuant 1.5.2.8软件)进行数据检索〔例如，可参见Cox,J.等，A practical guide to the MaxQuant computational platformfor SILAC-based quantitative proteomics，Nat Protoc，2009， 4(5):p.698-705〕，数据库可以是SwissProt人类数据库。其它参数设置可根据实际情况确定。因此，本发明对DDA数据进行数据检索的步骤可以是在 SwissProt人类数据库中进行检索。

所获得的DIA Raw文件可通过常规的软件(如Skyline 3.6.0.10162)进行处理〔可参见Egertson,J.D.等，Multiplexed peptide analysis using data-independentacquisition and Skyline，Nat Protoc，2015，10(6):p.887-903〕，谱图库可由预计建库样本和QC样本的DDA搜库结果建立。其它参数设置可根据实际情况确定。建库时保留DDA文件搜库结果中打分最高的修饰肽段。完成上述参数设置后，构建谱图库，添加谱图库肽段对应的decoy库，用于控制肽段的FDR。

使用Skyline等软件完成谱图库构建后，导入DIA数据文件，通过软件内置算法对DIA数据和谱图库中的谱图匹配程度进行打分，优化拟合的模型(使得例如最终能以q值<0.01为阈值筛选出可信的肽段)，完成DIA的数据库检索。导出的DIA匹配结果，在某些实施方案中，以q值<0.01为阈值筛选高可信的肽段，用于后续的肽段和蛋白质定量。本文中，同一条肽段对其所有子离子强度进行加和作为肽段强度(即肽段定量)；蛋白质有定量信息的所有肽段的强度加和作为蛋白质强度(即蛋白质定量)。蛋白质定量结果可用于后续差异蛋白质筛选。蛋白质修饰位点水平的定量结果将依据包含相同修饰位点的肽段定量值进行加和实现。本发明已可以实现DIA数据结果在蛋白质修饰位点水平的再加工。

下文将以具体实施例的方式阐述本发明。应理解，这些实施例仅仅是阐述性的，并非用于限制本发明。实施例中所提到的各种方法和材料，除非另有说明，否则为本领域常规的方法和材料。

实验步骤

实验样本搜集

第二军医大学附属长海医院的胰腺癌患者被邀请参加了该项目。从2016 年1月6号到2016年5月4号，共计75名胰腺癌患者入组，根据分离的外周血中CD4+T和CD8+T细胞的数量、纯度以及病理信息和预后信息的完整性，确立32例胰导管腺癌患者作为正式实验分析样本，用于蛋白质组学分析。截止到2017年5月4号，32个胰腺癌病人中有22个胰腺癌病人癌症生存，10 个胰腺癌病人死亡。在蛋白质组学分析中，使用非配对t-test的统计学分析方法，并采用HCA和PCA的聚类方法对蛋白质进行聚类分析，同时展示差异蛋白质富集的信号通路。患者的临床资料见下表1。

表1

外周血中CD4+T和CD8+T细胞的分离

从上海医院收集胰腺癌病人术中新鲜血浆，Ficoll-Paque Plus法从新鲜血液中分离PBMC细胞，用美天旎公司的CD4+T Cell Isolation Kit和CD8+T Cell Isolation Kit从PBMC中分离CD4+T和CD8+T细胞。每次实验PBMC作为阴性对照，用CD3-APC和CD4-PE抗体染CD4+T细胞，用CD3-APC和CD8-FITC 抗体染CD8+T细胞，其中PBMC、PBMC-CD3-APC、PBMC-CD4-PE、 PBMC-CD8-FITC作为阴性对照去确定细胞群参数设置。方法参考试剂盒说明书。

肽段样品制备

CD4+T和CD8+T细胞中加入SDT裂解缓冲液(4％SDS，0.1M Tris-HCl pH7.6，0.1MDTT)，沸水5min，200w超声3min。使用295nm激发波长和 350nm吸收光的色氨酸荧光发射测定蛋白质浓度〔Suman S.Thakur、T.G., Bhaswati Chatterjee、Peter Bandilla、FlorianFro¨hlich、Juergen Cox和Matthias Mann，Deep and Highly Sensitive ProteomeCoverage by LC-MS/MS Without Prefractionation，Mol Cell Proteomics，2011.16(7):p.1-9〕。所有样本FASP酶解(FASP方法参考Wisniewski,J.R.等，Universal samplepreparation method for proteome analysis，Nat Methods，2009，6(5):p.359-62)，肽段StageTip脱盐 (方法参考Rappsilber,J.、M.Mann和Y.Ishihama，Protocol for micro-purification,enrichment,pre-fractionation and storage of peptides forproteomics using StageTips，Nat Protoc，2007，2(8):p.1896-906)。

所有DDA样本(包括QC样本)和DIA样本中取3ug肽段，加入1ul稀释后iRT标肽(Biognosys)。从CD4+T和CD8+T细胞中肽段量比较多的样本中取出5ug混成混合物，作为DIA样本采集过程中的QC样本。另外肽段量较多样本中取出3ug，采用DDA数据采集模式，搜索人类数据库(如SwissProt 人类数据库)，利用DDA搜库结果建立DIA谱图库。在DIA样本采集过程中，每跑10个DIA文件跑一针QC的DDA作为质控。共49对CD4+T和CD8+T 细胞样本，98个DIA样本；15个QC的DDA样本；共19个DDA样本，其中四个跑了两次，共计23个预计建库DDA样本。23个建库DDA文件和15 个QC的DDA文件一起搜库，作为最后建立DIA谱图库的DDA文件。

液相色谱-串联质谱

肽段通过EASY-nLC 1000色谱(Thermo Fisher Scientific)进行分离，流动相A液为0.1％FA的水溶液，B液为0.1％FA的ACN溶液。C18反相色谱柱为自制75μm×150mm，3μm填料。色谱梯度为(％B)：时间，(2-4)： 2min，(4～30)：100min，(30～45)：8min，(45～90)：5min，(99～90)： 5min，分离时间2h，流速250nL/min。DDA和DIA采用的质谱仪器为ThermoOrbitrap Fusion，数据采集为“高-高”模式。

DDA数据采集参数设置，一级全扫为orbitrap检测器(300-1500m/z)，分辨率为120,000@m/z 200，AGC target设置为2E5，maximum IT为50ms；二级扫描为数据依赖型采集模式(DDA，top 20)，HCD碎裂，分辨率为15,000 @m/z 200，AGC target设置为5E4，maximumIT为54ms，isolation window 为1.2m/z，33.0％NCE，orbitrap检测器(200-2000m/z)检测。动态排除设置为：重复次数，1；重复时间，30s；排除时间，120s。所有数据通过Xcalibur 软件进行采集。

DIA数据采集参数设置，一级全扫为orbitrap检测器(300-1500m/z)，分辨率为240,000@m/z 200，AGC target设置为2E5，maximum IT为50ms；二级扫描为数据非依赖型采集模式(DIA)，HCD碎裂，分辨率为15,000@m/z 200，AGC target设置为5E4，maximum IT为70ms，33.0％NCE，orbitrap检测器(100-2000m/z)检测。根据预计建库的23个DDA样本文件的数据库检索结果，保证每一个DIA窗口内离子数量基本一致，最大化仪器的检测效率，采用可变窗口采集离子。对于300-892m/z的离子，数目较多，isolation window 为16m/z，共37个窗口；对于892-1444m/z的离子，因为离子数目少，采用 300m/z的窗口进行采集，3个窗口分别为805-1150m/z，931-1231m/z， 1144-1444m/z。合计，DIA二级采集了40个窗口，整个DIA采集过程包括： full scan-18 MS2-full scan-19 MS2-full scan-3 MS2。可根据DDA样本文件的数据库搜索结果对DIA方法中母离子分离的循环检测窗口进行动态设置，保证DIA方法中每一个母离子分离窗口内肽段离子数量基本一致。母离子分离的循环检测窗口的个数也会根据液相色谱质谱仪的实际情况进行优化，通过优化质荷比的扫描范围以及检测窗口总个数，保证DIA数据中肽段平均信号采集点大于等于7和DIA质谱方法的检测窗口循环时间在2秒左右，从而优化并选择合适的DIA方法。

DDA文件数据库搜索和DIA的DDA谱图库构建

38个DDA Raw文件通过MaxQuant 1.5.2.8软件进行数据检索〔Cox,J.等， Apractical guide to the MaxQuant computational platform for SILAC-basedquantitative proteomics，Nat Protoc，2009，4(5):p.698-705〕，数据库为SwissProt 人类数据库(2016年03月下载)。固定修饰设置，半胱氨酸Carbamidomethyl；可变修饰设置oxidized methionine，N-acetylation。蛋白质选择trypsin/P，最多允许2个酶切缺失位点，肽段first search和main search的质量容忍度分别设置为20ppm和4.5ppm，肽段和蛋白质的FDR均设置0.01。

所有DIA Raw文件通过Skyline 3.6.0.10162进行处理〔Egertson,J.D.等，Multiplexed peptide analysis using data-independent acquisition and Skyline，Nat Protoc，2015，10(6):p.887-903〕，谱图库由23个预计建库样本和15个QC 样本的DDA搜库结果建立。Peptide setting：酶选择Trypsin[KR|P]，最多允许 2个酶切缺失位点，背景蛋白质是SwissProt人类数据库(2016年03月下载)，允许的肽段长度为7-45个氨基酸。固定修饰设置，半胱氨酸Carbamidomethyl；可变修饰设置oxidized methionine，N-acetylation。建库时保留38个DDA文件搜库结果中打分最高的修饰肽段，cut-off 0.99，不保留冗余库(减少import DIA 文件时间)。Transition setting：母离子2、3、4价态，子离子1、2、3价态，离子类型为p、b、y离子，离子匹配时候只匹配b4、b5…bn-1、y2、y3、y4…yn-3，同时利用DIA前体离子窗口进行筛选。库中ion match tolence设置为0.02m/z，从满足条件的子离子中挑选强度前5的子离子。Full scan中，MS1filtering中同位素峰按count计算最大为3个，前体离子用orbitrap检测，分辨率240, 000@200m/z；MS/MS filtering中，数据采集方式选择DIA，子离子分析器 orbitrap，isolation scheme设置为Thermo OrbitrapFusion上的DIA窗口，分辨率60,000@200m/z，用谱图库中肽段出峰时间±2.5min内的时间对保留时间进行过滤。完成上述参数设置后，构建谱图库，添加谱图库肽段对应的decoy库，用于控制肽段的FDR。

DIA文件谱图库匹配

本发明使用Skyline等软件完成谱图库构建后，导入DIA数据文件，通过软件内置算法对DIA数据和谱图库中的谱图匹配程度进行打分，优化拟合的模型，完成DIA的数据库检索。导出的DIA匹配结果，以q值<0.01为阈值筛选高可信的肽段，用于后续的肽段和蛋白质定量，同一条肽段对其所有子离子强度进行加和作为肽段强度，蛋白质有定量信息的所有肽段的强度加和作为蛋白质强度，蛋白质定量结果用于后续差异蛋白质筛选。蛋白质修饰位点水平的定量结果将依据包含相同修饰位点的肽段定量值进行加和实现。

统计与生物信息学分析

对蛋白质的定量结果进行线性矫正(纵向中位数矫正)，不同组之间Mix 为相同样本，组间用Mix横向校正，数据分析和统计学检验利用软件R或者 Excel完成，通路富集用DAVID软件完成。

(1)层次聚类分析(hierarchical clustering analysis，HCA)：利用软件R 中的pheatmap包完成，根据样本之间蛋白质表达水平计算距离，将距离较近的样本聚集在一起。

(2)主成分分析(principal components analysis，PCA)：利用软件R中的prcomp函数完成，将大量相关的变量转化为一组很少的不相关的变量，降低变量的维度，同时尽可能多的保留原始数据信息。

结果

实验流程和数据概览

实验流程如下所述。从医院取得的新鲜血液通过Ficoll密度梯度离心分离 PBMC细胞，接着用分离CD4+T和CD8+T细胞的试剂盒分离CD4+T和CD8+T 细胞。分离的CD4+T和CD8+T细胞用细胞计数仪计数，对于细胞比较多的T 细胞取0.5-1*10⁶个细胞进行FACS检测，测定分离的细胞纯度。最后选择 CD4+T和CD8+T细胞数目均大于10⁶的样本作为正式实验样本。

正式样本中蛋白质较多的样本中取出5ug混合成混合物作为QC样本，同时取出3ug作为初始建库和构建DIA isolation window。根据23个预计建库样本的DDA文件构建的隔离窗口在Thermo Orbitrap Fusion上编辑DIA方法，采集98个样本的DIA文件，每跑10个DIA文件接一个mix的DDA作为质量控制。最后共有23个样本的DDA(19个加上4个重复)、15个mix作为QC 的DDA、98个DIA文件。为提高98个DIA文件的鉴定结果，将38个DDA 文件合并搜索SwissProt人类数据库构建一个相对大的谱图库。用Skyline软件导入DIA文件，通过内置的mProphet算法，对DIA谱图和DDA谱图库中谱图的匹配程度进行打分，根据两者的强度、保留时间差异、保留时间差异平方、库强度点积、峰型、共洗脱、信噪比等构建一个综合打分，拟合最优的模型，最后筛选q值<0.01的肽段即为可信肽段。肽段定量是将该肽段满足筛选条件的所有二级子离子强度进行加和，蛋白质的定量是将蛋白质所属的所有肽段强度进行加和。对得到的蛋白质定量结果进行质量控制，去除定量信息比较少的样本，同时结合病人的病理和预后信息，最后确定分析32个胰腺癌病人。

取其中部分样本进行FACS检测，检测结果如图1所示。在FACS检测的样本中，几乎所有分离得到的CD4+T和CD8+T细胞的纯度在90％以上。

最后用23个预计建库样本和15个QC的DDA文件构建DIA的谱图库，库中包含4881条蛋白质，30916条肽段，36063个前体离子和284149个母离子-子离子的离子对。DIA数采集模式受色谱条件影响非常大，所以在所有样本中均加入了11条iRT的标准肽。用谱图库中肽段的保留时间校正鉴定到的可信的肽段和蛋白质数目要优于iRT校正的保留时间，所以后续所有数据均用谱图库中的保留时间作为DIA肽段保留时间校正。

对QC样本和DIA样本中11条iRT标肽(SEQ ID NO:1－11)的出峰时间进行了统计，统计结果包括15个QC的DDA文件中11条iRT标肽的出峰时间和98个DIA文件中11条iRT标肽的出峰时间(包括49个CD4+T细胞 DIA文件中11条iRT标肽的出峰时间和49个CD8+T细胞DIA文件中11条 iRT标肽的出峰时间)。在98个DIA文件中通过模型拟合优化保留q值<0.01 的可信肽段，11条iRT标肽的出峰时间也和DDA的出峰时间基本一致，误差在5min以内，说明整个DIA文件采集过程中色谱状态非常稳定，DIA结果受色谱状态影响较小。

结合病理和预后信息，最后确定正式分析32个胰腺癌病人，32个胰腺癌病人外周血CD4+T细胞DIA结果中共定量到4553个可信的蛋白质，所有 CD4+T细胞中重叠的蛋白质有1691个，一半以上CD4+T细胞中有定量信息的有3303个蛋白质；30个胰腺癌病人外周血CD8+T细胞DIA中共定量到4579 个可信蛋白质，所有CD8+T细胞中重叠的蛋白质有1601个，一半以上CD8+T 细胞中有定量信息的有3321个蛋白质。对CD4+T和CD8+T细胞中一半以上有定量信息的蛋白质分进行别缺失值填充，用于后续数据分析。

胰腺癌病人血液中分离的免疫细胞比组织获得更多变化显著的差异蛋白质

除分析32例胰导管腺癌病人外周血中CD4+T和CD8+T细胞蛋白质组外，还分析32例胰导管腺癌中癌组织和癌旁组织的蛋白质组与癌症进展、生存和淋巴结之间的关系，并比较按照上述病理诊断信息及预后特征分别筛选到的差异蛋白质个数，结果如下表2所示。

表2

在9-15个月随访周期内，按照p<0.05和FC1.2的筛选标准，在癌症进展和无进展PDAC病人外周血CD4+T和CD8+T细胞中分别筛选出72和46个差异蛋白质，这些差异蛋白质的HCA和PCA可以很好的将癌症进展和无进展 PDAC病人区分开，可以用来预测PDAC病人的癌症进展情况。在生存和死亡 PDAC病人外周血CD4+T和CD8+T细胞中分别筛选出63和106个差异蛋白质，这些差异蛋白质的HCA和PCA可以很好的将生存和死亡PDAC病人区分开，可以用来预测PDAC病人的癌症恶性程度。在癌症淋巴结转移和未转移PDAC病人外周血CD4+T和CD8+T细胞中分别筛选出109和215个差异蛋白质，这些差异蛋白质的HCA和PCA可以很好的将淋巴结转移和未转移PDAC 病人区分开，可以用来指示PDAC病人的癌症淋巴结转移情况。

如前所述，免疫系统参与癌症发生发展和转移过程，Treg、Th1、Th2、 CD8+T、DC和TAN(tumor-associated neutrophils)、MDSC(myeloid–derived suppressor cell)等细胞组成了肿瘤细胞的免疫微环境，其中CD8+T和Th1等细胞发挥抑肿瘤效应，Treg和Th2等细胞发挥促肿瘤效应，外周血和肿瘤浸润淋巴细胞对于指示癌症病人的预后和病人机体的免疫状况至关重要。相比于肿瘤浸润淋巴细胞难获取、胰腺癌组织消化困难以及浸润淋巴细胞数量有限的缺点，病人外周血中免疫细胞的获取则容易许多且是无创的。外周血中CD8+T细胞和CD4+T细胞的数量比例经常作为病人预后的一项重要的分子指标，但是关于癌症病人外周血中免疫细胞的蛋白质组学研究是目前还是空白。本发明发现，癌症病人外周血中的CD4+T和CD+8T细胞的蛋白质组确实可以作为PDAC 病人癌症进展、生存和淋巴结转移的生物标志物。此外，9-15个月随访周期内，在淋巴结转移与否的PDAC病人中，在CD4+T细胞的109个差异蛋白质中有 97在淋巴结转移PDAC病人的CD4+T细胞中上调，在CD8+T细胞中的215 个差异蛋白质中有205在淋巴结转移PDAC病人的CD8+T细胞中下调。PDAC 病人癌症发生淋巴结转移后，外周血中促肿瘤效应的CD4+T细胞中参与转录起始和翻译的蛋白质多发生上调，抑肿瘤效应的CD+8T细胞中参与剪切和翻译的蛋白质多发生下调，暗示CD4+T促肿瘤效应的加强和CD8+T细胞抑肿瘤效应的减弱。

综上，本发明的数据表明CD8+T细胞的功能在癌症进展和死亡的PDAC 病人中是处于抑制状态，参与剪切、翻译以及T细胞受体信号通路等通路的蛋白质显著下调，使得机体内发挥抑制肿瘤效应的CD8+T细胞丧失杀伤肿瘤细胞的效应。相比较于癌组织和癌旁组织，CD4+T和CD8+T细胞的蛋白质组对于胰腺癌病人的预后、癌症进展和淋巴结转移的区分度更好。按照p value<0.05 和FC≥1.2倍的筛选标准，按照三个病理或预后特征筛选获得的CD4+T和 CD8+T细胞中的差异蛋白质数目和癌组织中差异蛋白质数目相当；按照p value<0.05和FC≥1.5倍的筛选标准，按照三个病理或预后特征筛选获得的CD4+T和CD8+T细胞中的差异蛋白质数目要多于癌组织中差异蛋白质数目 (详见表2)，说明CD4+T和CD8+T细胞中差异蛋白质的差异更显著。其中，外周血CD8+T细胞蛋白质组对预后、癌症进展和淋巴结转移的区分度要略优于CD4+T细胞蛋白质组，本发明数据表明PDAC病人癌组织和外周血CD4+T 以及CD8+T细胞的蛋白质组可以用来预测胰岛管腺癌病人预后、癌症进展和淋巴结转移，在获得的差异蛋白质数目上明显优于病人组织的蛋白质组数据，能够为理论研究和临床应用提供更多的候选标志物分子。

序列表

<110> 中国科学院上海生命科学研究院

<120> 临床血液样本分析方法及应用

<130> 180409

<160> 11

<170> SIPOSequenceListing 1.0

<210> 1

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 1

Ala Asp Val Thr Pro Ala Asp Phe Ser Glu Trp Ser Lys

1 5 10

<210> 2

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 2

Asp Gly Leu Asp Ala Ala Ser Tyr Tyr Ala Pro Val Arg

1 5 10

<210> 3

<211> 14

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 3

Gly Ala Gly Ser Ser Glu Pro Val Thr Gly Leu Asp Ala Lys

1 5 10

<210> 4

<211> 12

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 4

Gly Thr Phe Ile Ile Asp Pro Ala Ala Val Ile Arg

1 5 10

<210> 5

<211> 12

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 5

Gly Thr Phe Ile Ile Asp Pro Gly Gly Val Ile Arg

1 5 10

<210> 6

<211> 14

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 6

Leu Phe Leu Gln Phe Gly Ala Gln Gly Ser Pro Phe Leu Lys

1 5 10

<210> 7

<211> 9

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 7

Leu Gly Gly Asn Glu Gln Val Thr Arg

1 5

<210> 8

<211> 12

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 8

Thr Pro Val Ile Ser Gly Gly Pro Tyr Glu Tyr Arg

1 5 10

<210> 9

<211> 12

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 9

Thr Pro Val Ile Thr Gly Ala Pro Tyr Glu Tyr Arg

1 5 10

<210> 10

<211> 11

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 10

Val Glu Ala Thr Phe Gly Val Asp Glu Ser Lys

1 5 10

<210> 11

<211> 10

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 11

Tyr Ile Leu Ala Gly Val Glu Asn Ser Lys

1 5 10

Claims

1.一种免疫细胞蛋白质定量方法，其特征在于，所述方法包括：

(1)提供免疫细胞蛋白质的肽段混合物；

(3)对DDA数据进行数据检索，获得检索结果；

(4)由步骤(3)获得的检索结果构建谱图库；

(5)将步骤(2)获得的DIA数据与步骤(4)获得的谱图库对比，对DIA和谱图库中的谱图匹配程度进行打分，依据样品中掺入的各标肽的保留时间对样品中肽段保留时间进行矫正，优化拟合的模型，完成DIA的数据库检索；和

(6)导出DIA匹配结果，依据阈值筛选出可信肽段的集合，用于肽段和蛋白质定量。

2.如权利要求1所述的方法，其特征在于，所述免疫细胞为人外周血CD4+T细胞或CD8+T细胞。

3.如权利要求1或2所述的方法，其特征在于，所述DDA数据采集中，一级全扫及二级扫描使用高分辨率质量检测器，二级扫描为数据依赖型采集模式。

4.如权利要求1或2所述的方法，其特征在于，所述DIA数据采集中，一级全扫及二级扫描使用高分辨率质量检测器，二级扫描为数据非依赖型采集模式；任选地，所述DIA数据采集中，一级全扫选择不采集。

5.如权利要求1或2所述的方法，其特征在于，根据DDA样本文件的数据库搜索结果，对DIA方法中母离子分离的循环检测窗口进行动态设置，保证DIA方法中每一个母离子分离窗口内肽段离子数量基本一致。

6.如权利要求1或2所述的方法，其特征在于，所述方法还包括：优化质荷比的扫描范围以及母离子分离的循环检测窗口总个数，保证DIA数据中肽段平均信号采集点大于等于7和DIA质谱方法的检测窗口循环时间在2秒左右，从而优化并选择合适的DIA方法。

7.如权利要求1或2所述的方法，其特征在于，所述方法的步骤(4)还包括：对DIA数据本身进行数据库检索，独立或整合DDA数据样本文件，构建或完善DIA数据分析所需要的谱图库。

8.如权利要求1或2所述的方法，其特征在于，所述步骤(6)中，肽段定量为将同一条肽段对其所有子离子强度进行加和，作为该肽段强度，从而获得肽段定量；蛋白质定量为，将蛋白质有定量信息的所有肽段的强度加和，作为蛋白质强度，从而获得蛋白质强度。

9.如权利要求1或2所述的方法，其特征在于，所述免疫细胞来自癌症患者外周血。

10.如权利要求9所述的方法，其特征在于，所述癌症患者为胰腺癌患者。