胰腺癌诊断标志物及其应用
技术领域
本发明涉及胰腺癌的诊断,具体涉及胰腺癌诊断标志物及其应用。
背景技术
胰腺癌是目前世界上发病率第十二、死亡率第七的癌症,胰腺癌的预后极差,每年发病人数和死亡人数接近1:1。世界卫生组织2012年统计结果显示,胰腺癌是目前世界上发病率第十二和死亡率第七的癌症,全世界每年新增胰腺癌病人33万人,每年因胰腺癌死亡的病人有33万人,胰腺癌的发病人数和死亡人数的比值接近1:1。胰腺癌包括内分泌胰腺癌和外分泌胰腺癌,大部分的胰腺癌病人属于外分泌胰腺癌,其中胰腺导管腺癌病人占胰腺癌病人的90%左右。胰腺癌进展非常快,病人预后极差,胰腺癌病人的平均生存期仅为6-9个月,一年生存率为28%,五年存活率为7%;有20%的胰腺癌病人可以进行手术切除,但是可以进行手术切除的病人中有很大一部分会发生癌症复发和转移,这部分患者的中位生存期为12-19个月,五年生存率为20%,胰腺癌有“癌中之王”之称。
尽管从1975到2017年之间美国胰腺癌病人的五年生存率从3.0%上升到8.5%,但目前胰腺癌患者的5年生存率依然不足10%,不容乐观。早期诊断难、预后差、发生发展快,大部分诊断为胰腺癌的病人都到了晚期,手术切除是目前彻底治愈胰腺癌的唯一有效手段,但是手术切除患者胰腺癌复发比例很高。及早发现及早治疗对于治愈胰腺癌十分关键,而且手术切除后的患者追踪对于术后及时干预提高患者生存率至关重要。
发明内容
本发明涉及选自HLA-G、POSTN、COL12A1、THBS2、MUC5AC、AGR2、GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种的蛋白质作为检测对象在制备胰腺癌诊断用的检测试剂或检测试剂盒中的应用。
在一个或多个实施方案中,所述蛋白质包括:
(1)选自HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2中的任意一种或任意多种蛋白质;和任选的
(2)选自GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种。
在一个或多个实施方案中,所述蛋白质包括:
(1)HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2;和任选的
(2)选自GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种。
本发明还涉及选自HLA-G、POSTN、COL12A1、THBS2、MUC5AC、AGR2、GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种的蛋白质的检测试剂在制备胰腺癌诊断用的检测试剂盒中的应用。
在一个或多个实施方案中,所述蛋白质包括:
(1)选自HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2中的任意一种或任意多种蛋白质;和任选的
(2)选自GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种。
在一个或多个实施方案中,所述蛋白质包括:
(1)HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2;和任选的
(2)选自GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种。
在一个或多个实施方案中,所述检测试剂为抗体或其抗原结合片段。
本发明还提供一种试剂盒,所述试剂盒含有选自HLA-G、POSTN、COL12A1、THBS2、MUC5AC、AGR2、GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种的蛋白质的检测试剂。
在一个或多个实施方案中,所述试剂盒含有:
(1)选自HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2中的任意一种或任意多种蛋白质的检测试剂,优选为HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2的检测试剂;和任选的
(2)选自GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种蛋白质的检测试剂。
在一个或多个实施方案中,所述试剂盒含有:与所述蛋白质特异性结合的试剂,包括抗体或其抗原结合片段;和任选的用于从制备活检样品所需的试剂、任选的组织匀浆所需的试剂、任选的制备肽段样品的试剂以及任选的对肽段进行脱盐所需的试剂。
附图说明
图1:诊断相关的22个差异蛋白质和挑选出的6个差异蛋白质区分癌组织和癌旁组织的ROC曲线。
具体实施方式
应理解,在本发明范围内,本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合,从而构成优选的技术方案。
本文使用基于TMT标记的定量蛋白质组学策略研究了32例胰腺癌患者的癌组织和癌旁组织中的差异表达的蛋白质;同时,根据患者9-15个月的生存情况将患者分为生存组和死亡组,研究了生存和死亡患者癌组织中差异表达的蛋白质。最终,在癌组织和癌旁组织中,发现540个差异表达的蛋白质,540个蛋白质在ECM-受体相互作用通路显著富集,其中22个蛋白质在癌组织和癌旁组织中存在更显著的差异,变化倍数在2倍以上,由HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2蛋白质组成的6个蛋白质组合可用于胰腺癌的早期诊断。
因此,本文提供胰腺癌诊断方法,该方法包括检测对象胰腺患病组织中选自下组的生物标志物(蛋白质)中的一种或任意多种(例如至少2种、至少3种、至少4种、至少5种)的表达水平的步骤:HLA-G、POSTN、COL12A1、THBS2、MUC5AC、AGR2、GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2。
在某些实施方案中,所述胰腺癌诊断方法包括检测对象胰腺患病组织中HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2的表达水平。在某些实施方案中,除检测对象胰腺患病组织中HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2的表达水平外,所述方法还包括进一步检测选自下组的蛋白质中的一种或任意多种的表达水平:GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2。
选自HLA-G、POSTN、COL12A1、THBS2、MUC5AC、AGR2、GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种的蛋白质在胰腺癌诊断中的应用也包括在本文范围之内。例如,在某些实施方案中,本发明包括用于胰腺癌诊断的HLA-G、POSTN、COL12A1、THBS2、MUC5AC、AGR2、GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种的蛋白质。在某些实施方案中,所述应用是在检测试剂或检测试剂盒制备中的应用。
例如,本发明包括选自HLA-G、POSTN、COL12A1、THBS2、MUC5AC、AGR2、GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种的蛋白作为检测对象在制备胰腺癌诊断用的检测试剂或检测试剂盒中的应用。在某些实施方案中,本发明涉及HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2中的任意一种或任意多种作为检测对象在制备胰腺癌诊断用的检测试剂或检测试剂盒中的应用。本发明涉及HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2作为检测对象在制备胰腺癌诊断用的检测试剂或检测试剂盒中的应用。在某些实施方案中,本发明涉及选自HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2中的任意一种或任意多种蛋白质以及选自GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种蛋白质作为检测对象在制备胰腺癌诊断用的检测试剂或检测试剂盒中的应用。在某些实施方案中,本发明涉及HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2以及选自GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种蛋白质作为检测对象在制备胰腺癌诊断用的检测试剂或检测试剂盒中的应用。
本发明还提供选自HLA-G、POSTN、COL12A1、THBS2、MUC5AC、AGR2、GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种的蛋白质的检测试剂在制备胰腺癌诊断用的检测试剂盒中的应用。在某些实施方案中,所述检测试剂为HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2中的任意一种或多种的检测试剂。在某些实施方案中,所述检测试剂为HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2的检测试剂。在某些实施方案中,所述检测试剂为选自HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2中的任意一种或任意多种蛋白质的检测试剂以及选自GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种蛋白质的检测试剂。在某些实施方案中,所述检测试剂为HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2的检测试剂以及选自GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种蛋白质的检测试剂。
本发明还提供一种检测试剂盒,所述试剂盒含有:选自HLA-G、POSTN、COL12A1、THBS2、MUC5AC、AGR2、GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种的蛋白质的检测试剂。在某些实施方案中,所述试剂盒含有:HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2中的任意一种或多种的检测试剂,或HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2的检测试剂。在某些实施方案中,所述试剂盒含有:HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2中的任意一种或多种的检测试剂,和选自GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种蛋白质的检测试剂。在某些实施方案中,所述试剂盒含有HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2的检测试剂,和选自GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的任意一种或任意多种蛋白质的检测试剂。
本文中,HLA-G、POSTN、COL12A1、THBS2、MUC5AC、AGR2以及GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2具有本领域公认的含义。例如,HLA-G指人白细胞抗原G,也称为主要I类组织相容性复合物G;POSTN为骨膜蛋白,也称为Osf2;COL12A1为XII型胶原蛋白的α1链;THBS2是人血小板反应蛋白2;MUC5AC为粘蛋白-5AC;AGR2为前梯度蛋白2同系物。所有这些蛋白质的氨基酸序列和基因序列(尤其是人的氨基酸序列和基因序列)均可在本领域熟知的各种数据库如GenBank或中获得。例如,HLA-G的GC ID为GC06P031009;POSTN的GCID为GC13M037562;COL12A1的GC ID为GC06M075084;THBS2的GC ID为GC06M169215;MUC5AC的GC ID为GC11P001151;AGR2的GC ID为GC07M016831。其它蛋白质的氨基酸序列也可从中获得。
应理解的是,不同个体中,HLA-G、POSTN、COL12A1、THBS2、MUC5AC、AGR2、GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2可能会存在突变,但只要突变后的蛋白质仍然被本领域公认为上述蛋白质,则这类突变蛋白的检测及其结果的应用也在本发明范围之内。
本文所述的诊断方法或诊断应用中,检测患病组织中的HLA-G、POSTN、COL12A1、THBS2、MUC5AC、AGR2、GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和/或LAMC2时,其上调的表达水平指示对象患有胰腺癌。
本文所述的“表达水平下调”、“表达水平上调”和类似术语可以与不同对照进行比较。例如,在诊断方法和诊断应用中,可将患病组织中的蛋白表达水平与该患者正常组织(包括癌旁组织)中同一蛋白的表达水平或与具有统计学意义的正常组织(包括癌旁组织)中同一蛋白的平均表达水平进行比较。对于同一蛋白,若患病组织中的表达水平为正常组织中的表达水平或平均表达水平的2倍或以上,则指示该对象疑似患有胰腺癌。如前文所述,检测对象胰腺患病组织中HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2的表达水平,若HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2在患病组织中的表达水平都是正常组织的2倍或以上,则表明该对象患有胰腺癌。可进一步检测对象患病组织GPRC5A、USP44、CPEB2、DDX19B、CAMP、DUS1L、SLC16A3、ZNF236、TPM4、CHGA、S100P、CEACAM6、S100A12、HTRA3、COL10A1和LAMC2中的一种或多种的表达水平,其中的任意一种或任意多种的表达水平为正常组织的2倍或2倍以上,结合HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2的检测结果,同样可得出对象患有胰腺癌的结论。
蛋白的定量方法为本领域所周知。例如,可采用常规的凯氏定氮法、双缩脲法、Folin-酚试剂法、BCA法、胶体金法、Western blot、ELISA和液相色谱-串联质谱进行蛋白质定量。在某些实施方案中,可采用多重反应监控(MRM)技术测定,该技术可以和以合成肽段为基础的绝对定量技术(AQUA)相结合,这样就可以直接对多个样品中的某个或某些蛋白质直接进行绝对含量的检测。例如,要检测样品中的某多肽含量,可先合成所述多肽,并用重同位素(如13C)对其进行标记;然后将一定量的所述经重同位素标记的多肽加入待测样品中,用多重反应监控技术检测样品中所述多肽(或其片段)的强度,通过比较未标记多肽(即样品中的多肽)或其片段的强度与经重同位素标记的多肽的强度,确定样品中所述多肽的含量。
本文中,试剂盒中所含的检测试剂可以是检测过程中用到的试剂,例如为了制备相应的活检样品所需的制剂和组织匀浆所需试剂等,也可以是直接检测试剂,例如与所述蛋白特异性结合的抗体或其抗原结合片段。组织匀浆试剂包括但不限于SDT裂解缓冲液(4%SDS,0.1M Tris-HCl pH7.6,0.1M DTT)。检测过程中用到的试剂可以是例如为制备合适的待检测蛋白溶液而使用到的试剂,包括如用于制备肽段样品的试剂,如对细胞裂解液的蛋白进行FASP酶解所需的酶解试剂以及对肽段进行脱盐所需的试剂。在进行液相色谱-串联质谱时,所述试剂还包括相应的流动相,如0.1%FA的水溶液和0.1%FA的ACN溶液。
在某些实施方案中,可采用免疫组化方法定量检测本文所述蛋白质的表达量。免疫组化方法是本领域常规的方法,通常利用抗原与抗体的特异性结合,通过化学反应使标记抗体的显色剂显色,从而确定感兴趣蛋白质的存在和/或含量的方法。可利用本文所述的各可作为生物标志物的蛋白质各自的特异性抗体来实施本方法或用途。这类特异性抗体可以是已知的市售抗体。或者,也可根据已知技术(例如杂交瘤技术)自行制备它们各自的特异性抗体。抗体可以是单克隆抗体,也可以是多克隆抗体;优选单克隆抗体。也可使用抗体的抗原结合片段。因此,在某些实施方案中,本文试剂盒的各实施方案中所述的试剂可以是与所述各蛋白质特异性结合的抗体,以及任选的实施免疫组化方法所需的其它试剂
在某些实施方案中,采用多重反应监控(MRM)技术结合以合成肽段为基础的绝对定量技术(AQUA)定量测定本文所述蛋白质。因此,试剂盒中和含有待测蛋白或其相应肽段。对于本文所述的可作为生物标志物的各蛋白质,其标志性的肽段会依酶解方法不同而不同,并可由本领域技术人员采用本领域常规技术手段容易确定。
下文将以具体实施例的方式阐述本发明。应理解,这些实施例仅仅是阐述性的,并非用于限制本发明。实施例中所提到的各种方法和材料,除非另有说明,否则为本领域常规的方法和材料。
实验步骤
实验样本搜集
第二军医大学附属长海医院的胰腺癌患者被邀请参加了该项目。从2016年1月6号到2016年5月4号,共计75名胰腺癌患者入组,根据实验数据以及病理信息和预后信息的完整性,确立32例胰导管腺癌患者作为正式实验分析样本。在手术后的9-15个月随访周期内,截止到2017年5月,32个胰腺癌患者中有22个生存,10个死亡。我们收集了患者手术切除的癌组织和相邻癌旁组织,并立即将其储存在液氮中,癌组织和癌旁组织用于蛋白质组学分析。在蛋白质组学分析中,我们使用配对t-test的统计学分析方法,并采用HCA和PCA的聚类方法对蛋白质进行聚类分析,同时展示差异蛋白质富集的信号通路。患者的临床资料见下表1。
表1
肽段样品制备
组织匀浆使用SDT裂解缓冲液(4%SDS,0.1M Tris-HCl pH7.6,0.1M DTT)和JX-FSTPRP全自动样品冷冻研磨仪(上海净信科技)。使用295nm激发波长和350nm吸收光的色氨酸荧光发射测定蛋白质浓度〔Suman S.Thakur,T.G.,Bhaswati Chatterjee,PeterBandilla,Florian Fro¨hlich,Juergen Cox和Matthias Mann,Deep and HighlySensitive Proteome Coverage by LC-MS/MS Without Prefractionation,Mol CellProteomics,2011.16(7):p.1-9〕。使用经修改的过滤辅助样品制备(FASP,FASP方法参考文献〔Wisniewski,J.R.等,Universal sample preparation method for proteomeanalysis,Nat Methods,2009.6(5):p.359-62〕(与TMT10标记相容,TMT10标记方法参考试剂盒说明书)用于蛋白质样品的酶解处理,肽段StageTip脱盐(方法参考文献〔Rappsilber,J.,M.Mann和Y.Ishihama,Protocol for micro-purification,enrichment,pre-fractionation and storage of peptides for proteomics using StageTips,NatProtoc,2007.2(8):p.1896-906〕。TMT10标记的定量蛋白质组学方法用于确定两个患者组之间蛋白质的差异表达。为了减少不同组TMT10通道的技术偏差,每组TMT10实验加入相同的Mix,方便后续标准化处理以及后续不同TMT10实验之间的比较。
肽段high-pH RP分级
TMT10标记肽段的分级采用High pH RP系统,方法参考文献〔Kong,R.P.等,Development of online high-/low-pH reversed-phase-reversed-phase two-dimensional liquid chromatography for shotgun proteomics:a reversed-phase-strong cation exchange-reversed-phase approach,J Chromatogr A,2011.1218(23):p.3681-8〕。色谱柱为Waters xbridge BEH300 C18 RP,分级色谱为Dionex U3000。流动相为A液,2M pH=10.0氨水(100×,FA调pH=10.0):ACN:H2O=1:2:97;B液,2M pH=10.0氨水(100×,FA调pH=10.0):ACN:H2O=1:97:2。梯度设置为(%B):时间,5:2min,(5~25):40min,(25~40):20min,(40~95):4min,95:4min,(95~5):4min,5:6min。流速0.7mL/min,柱温箱温度45℃,检测波长214nm,每2min收集一个流出组分,共40个组分,合并成20个冻干(合并策略为1&21,2&22…20&40),质谱检测。
液相色谱-串联质谱
肽段通过EASY-nLC 1000色谱(Thermo Fisher Scientific)进行分离,流动相A液为0.1%FA的H2O溶液,B液为0.1%FA的ACN溶液。C18反相色谱柱为自制75μm×150mm,3μmC18填料。色谱梯度为(%B):时间,(2-8):2min,(8~15):50min,(15~19):28min,(19~27):20min,(27~40):8min,(40~90):2min,(99~90):10min,分离时间2h,流速250nL/min。质谱仪器为Q-Exactive HF(Thermo Fisher Scientific),数据采集为“高-高”模式,一级全扫为Orbitrap检测器(300-1800m/z),分辨率为120,000@m/z 200,AGC target设置为3E6,maximum IT为50ms;二级扫描为数据依赖型采集模式(DDA,top 20),HCD碎裂,分辨率为60,000@m/z 200,AGC target设置为2E5,maximum IT为80ms,isolation window为1.2m/z,30.0%NCE,Orbitrap检测器(200-2000m/z)检测。动态排除设置为:重复次数,1;重复时间,30s;排除时间,120s。所有数据通过Xcalibur软件进行采集。
质谱数据的数据库搜索和定量分析
所有Raw文件通过MaxQuant 1.5.2.8软件进行数据检索〔Cox,J.等,A practicalguide to the MaxQuant computational platform for SILAC-based quantitativeproteomics,Nat Protoc,2009.4(5):p.698-705〕,数据库为Swiss-Prot人类数据库(2016年03月下载)。固定修饰设置半胱氨酸Carbamidomethyl;可变修饰设置oxidizedmethionine,N-acetylation。酶选择Trypsin/P,最多允许2个酶切缺失位点,Type为reporter ion MS2TMT10,reporter mass tolerance 0.04ppm,肽段first search和mainsearch的质量容忍度分别设置为20ppm和4.5ppm,肽段和蛋白质的FDR均设置0.01。
统计与生物信息学分析
对蛋白质的定量结果进行线性矫正(纵向中位数矫正),不同组之间Mix为相同样本,组间用Mix横向校正,数据分析和统计学检验利用软件R或者Excel完成,通路富集用DAVID软件完成。
(1)层次聚类分析(hierarchical clustering analysis,HCA):利用软件R中的pheatmap包完成,根据样本之间蛋白质表达水平计算距离,将距离较近的样本聚集在一起。
(2)主成分分析(principal components analysis,PCA):利用软件R中的prcomp函数完成,将大量相关的变量转化为一组很少的不相关的变量,降低变量的维度,同时尽可能多的保留原始数据信息。
(3)通路富集:GO生物学过程和KEGG代谢通路的富集通过DAVID网站完成,countnumber设置为2,以人类全蛋白质数据库作为背景进行富集分析。尽管进行多重检验会减少富集到的GO-BP(biological process,BP)和KEGG通路的假阳性,但同时会减少富集到的通路数量。所以为了保证富集信息的完整性,除了癌组织和癌旁组织的差异蛋白质富集生物学过程和代谢通路选用Benjamini校正的p值外,其它富集过程均使用原始p值并设置阈值0.05。
(4)候选蛋白质预后效应的验证使用两个在线生物标志物验证工具(SurvExpress,http://bioinformatica.mty.itesm.mx:8080/Biomatec/SurvivaX.jsp)数据集中的患者样本根据基因表达的中位数(SurvExpress)分成两组。通过Kaplan-Meier生存曲线比较两组患者的整体生存情况。计算危险比和Logrank P值〔Gyorffy,B.等,Onlinesurvival analysis software to assess the prognostic value of biomarkers usingtranscriptomic data in non-small-cell lung cancer,PLoS One,2013.8(12):p.e82241〕。
结果
实验流程和数据概览
75名胰腺癌患者的癌组织和癌旁组织共计17组TMT10实验,肽段标记效率均在99%以上,17组TMT10实验中共定量到101808个可信的肽段(FDR<0.01)和6867个可信的蛋白质(FDR<0.01),所有患者癌组织和癌旁组织中重叠的蛋白质有3115个。病理信息完整、预后信息完整而且病理诊断为胰导管腺癌的32名患者作为后续分析的实验样本,32名患者癌组织和癌旁组织中重叠的3252个蛋白质用作后续的数据分析。
癌组织和癌旁组织差异蛋白质分析
为找到和胰腺癌相关的生物标志物,我们比较了癌组织和癌旁组织的蛋白质组表达情况,对癌组织和癌旁组织中重叠的3252个蛋白质进行配对t-test检验(选择FDR校正)。为保证富集到足够丰富的生物学过程和代谢通路,控制FDR校正后的p值<0.05和FC(变化倍数)≥1.2,共筛选出540个差异蛋白质,其中410个蛋白质在癌组织中上调,130个蛋白质在癌组织中下调,癌组织中上调的蛋白质显著增多表明胰腺癌显著获得了某些功能。结果显示,540个差异表达的蛋白质的HCA和PCA明显的将癌组织和癌旁组织分为两簇。
在癌组织中上调的410个蛋白质显著富集到的KEGG通路包括黏着斑(focaladhesion)、肌动蛋白聚集调控(regulation of actin cytoskeleton)和抗原呈递和处理(antigen processing and presentation)等通路,癌组织中下调的130个差异蛋白质显著富集到的KEGG代谢通路包括代谢通路(metabolic pathways)、自身免疫胸腺疾病(antoimmune thyroid disease)和同种异体移植排斥(allograft rejection)等。
在所获得的胰腺癌组织蛋白质组数据中,癌组织和癌旁组织中差异表达的540个蛋白质在ECM-Receptor interaction通路显著富集,其中粘连蛋白(Fibronection)、THBS和层粘连蛋白(Laminin)等蛋白质在癌组织中显著上调。研究表明粘连蛋白(FN)蛋白质是胰腺癌基质中含量比较丰富而正常组织含量比较少的一个蛋白质,FN蛋白质在胰腺癌的转移、化疗药物的抵抗和血管新生中均起到重要作用,而且针对FN设计的靶点药物能够有效的减少胰腺癌的生长和转移,同时提高化疗药物的传输效率〔Jones,S.等,Core signalingpathways in human pancreatic cancers revealed by global genomicanalyses.Science,2008.321(5897):p.1801-6〕。
为了获得有效可靠的生物标志物,控制FDR校正后的p值<0.05和FC≥2,在癌组织和癌旁组织的蛋白质组中共筛选到22个差异更显著的蛋白质(见下表2),包括HLA-G、POSTN、AGR2和THBS2等。
表2:癌组织和癌旁组织中p值<0.05且FC≥2的22个差异蛋白质
如图1所示,癌组织和癌旁组织中的22个差异蛋白质的ROC曲线AUC是0.973,可以很好的区分癌组织和癌旁组织,其中HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2蛋白质组成的6个蛋白质组合的AUC是0.902,同样很好的区分癌组织和癌旁组织,这6个蛋白质可以作为胰腺癌诊断的生物标志物。
讨论
定量蛋白质组学被广泛用于各种癌症的生物标志物的发现。经典的蛋白质组学生物标志物的研究方法是比较癌组织与远端正常组织(或癌旁组织)之间的蛋白质的差异表达。在我们的研究中,为了鉴定与胰腺癌相关的蛋白质,我们比较了同一个胰腺癌患者的癌组织和癌旁组织的差异蛋白质,采用这种配对的方式避免了个体差异对差异蛋白质筛选造成的影响。
胰腺癌进展较快,症状不明显导致诊断时多为晚期癌症,造成病人的预后以及生存率极低。目前,早期生物标志物的研究以及预后追踪是治愈胰腺癌以及术后及时干预提升患者生存时间和生活质量的最有效手段。在本研究中,我们使用蛋白质组学方法鉴定了32位胰腺癌患者的癌组织和癌旁组织中540个差异表达的蛋白质,,这540个差异蛋白质可以作为胰腺癌早期诊断生物标志物的数据库,这些差异蛋白质显著富集到黏着斑(focaladhesion)、肌动蛋白聚集调控(regulation of actin cytoskeleton)和抗原呈递和处理(antigen processing and presentation)等通路。为找到可信有效的生物标志物,控制FDR校正后的p值<0.05和FC≥2,共鉴定到包括HLA-G、POSTN、MUC5AC和COL12A1等22个可作为胰腺癌诊断的标志物,而HLA-G、POSTN、COL12A1、THBS2、MUC5AC和AGR2蛋白质组成的6个蛋白质组合的ROC的AUC是0.902,这6个蛋白质和胰腺癌存在直接或间接的关系,这些蛋白质的上调和胰腺癌有关,可以作为胰腺癌早期诊断的生物标志物。