CN111693621B

CN111693621B - 一种基于血清肽的胰腺癌诊断模型的建立方法及其应用

Info

Publication number: CN111693621B
Application number: CN202010476340.7A
Authority: CN
Inventors: 崔巍; 陈锋; 戴旭东; 林凯; 田宇; 王冠
Original assignee: Zhongjing Pukang Beijing Pharmaceutical Technology Co ltd; Cancer Hospital and Institute of CAMS and PUMC
Current assignee: Zhongjing Pukang Beijing Pharmaceutical Technology Co ltd; Cancer Hospital and Institute of CAMS and PUMC
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2022-08-23
Anticipated expiration: 2040-05-29
Also published as: CN111693621A

Abstract

本发明涉及一种基于血清肽的胰腺癌诊断模型的建立方法及其应用，利用液相色谱‑质谱联用技术，通过比较正常个体、慢性胰腺炎个体及胰腺癌个体之间血清肽谱的差异，筛选出相应特征肽对列，基于血清中8个特征肽生物标志物含量构建出胰腺癌诊断模型。该诊断模型使用的人血清样本检测，较组织样本容易取样获得，患者依从性好；检测信号数量多、针对性强，且血清前处理过程简单，分析时间短。该诊断模型模型简单、计算方便、判断容易，且模型对胰腺癌诊断的准确度高、灵敏度高、特异性强，并可有效区分胰腺癌和慢性胰腺炎，避免误诊；本发明构建的胰腺癌血清肽诊断模型为胰腺癌的临床诊断提供了一种有效可靠便捷的方法，具有良好的胰腺癌辅助诊断价值。

Description

一种基于血清肽的胰腺癌诊断模型的建立方法及其应用

技术领域

本发明属于临床检验诊断技术领域，尤其涉及一种基于血清肽的胰腺癌诊断模型的建立方法及其应用。

背景技术

血清是血液中无形的液体成分，其组成非常复杂，包含数百万种蛋白质和小分子多肽、盐、类脂、氨基酸和糖等。血清蛋白在机体免疫、凝血-抗凝血、营养物质运输以及对生长信号调节等多种重要的生理过程中发挥重要作用。根据其来源和功能，血清蛋白既包含白蛋白，纤维蛋白原，脂蛋白等主要由肝脏和小肠分泌的组成性蛋白，也包含发挥免疫功能的各种球蛋白。这些蛋白在血清中丰度较高，也是目前临床生化检测的主要靶标。此外，血清中还包含数目巨大的低丰度蛋白，比如蛋白/肽类激素，细胞因子等信号分子。而在病理状况下，一些组织渗漏蛋白或异常表达蛋白也会进入血液循环中。因此，通过对血清蛋白组成分析，有助于辅助疾病的检测和诊断。

肿瘤是目前人类面临的愈加严重的疾病类型。胰腺癌被称为”癌中之王”，发展迅速，易产生耐药，尽快确诊期和治疗，对改善提高预后和延长患者的生存期有重要意义。因此，准确、高效的鉴别诊断和筛查手段至关重要。血清检测因其非侵入性的特点，非常适合作为疾病检测的对象。而近几十年来的研究，也在血清中发现一系列肿瘤的蛋白标志物，如AFP，CEA，CA19-9以及CA125等。但是，目前所发现的蛋白标志物种类依然十分有限，且其对肿瘤检测的有效性也有待提高。

近些年来，随着质谱技术的发展，以往在研究血清蛋白质谱中被视为噪音的低分子量多肽，开始引起研究者的关注，而血清低分子量肽谱也成为了血清蛋白质组的一个重要组成部分。所谓低分子量肽，是指血清中一系列分子量低于5kDa的小分子量蛋白以及多肽。这些血清肽一部分来源于血清高丰度蛋白的碎裂，另外一部分是由外周组织蛋白经蛋白水解酶剪切后进入血液循环中。而在肿瘤组织中，肿瘤细胞异常生长，侵袭以及免疫系统的改变，导致蛋白表达谱发生广泛的变化，在肿瘤微环境中存在多种肿瘤特异性蛋白；且显著影响到蛋白水解酶的活性及蛋白水解的过程，产生大量异于正常状态的肿瘤特征性肽。而与大分子量的蛋白相比，小分子量的肽更容易穿过血管内皮的屏障，进入外周血液循环中。因此，通过对血清肽的分析，可以寻找到肿瘤特异性肽信号，构建出血清肽组合诊断模型，有助于实现肿瘤的早筛早治。目前，已有研究对卵巢癌，结直肠癌，甲状腺癌，口腔癌，乳腺癌等一系列癌症，定性、定量地研究肿瘤发生发展过程中脂溶性代谢物的变化，筛选和鉴别新型肿瘤生物标志物，构建相应的血清肽诊断模型，对肿瘤临床诊断及预后监控具有重要价值，展现出广阔的临床应用前景。就胰腺癌而言，由于早期症状不明显，临床病患绝大部分已经到晚期，导致相应的致死率非常高，因此，有效的胰腺癌早期筛查更为重要。目前临床上最广泛使用的胰腺癌辅助诊断指标CA19-9，其敏感性和特异性分别仅为70％和60％，且在占常规人群5-10％的Lewis抗原阴性个体无法分泌CA19-9，因此其对胰腺癌诊断的广泛运用上存在局限性。因此，有必要寻找广谱，准确性更高的血清诊断标志物，以构建胰腺癌诊断预警模型，而血清肽组学为此提供了良好的基础。

液相-串联质谱联用检测方法同时使用液相色谱分离和质谱离子对检测，与MOLDI-TOF等手段相比，具有灵敏度高、特异性强等特点。因此，本研究利用液相色谱-质谱联用技术，通过比较正常个体，慢性胰腺炎个体及胰腺癌个体之间血清肽谱的差异，旨在筛选出相应特征肽对列，并构建出有效的胰腺癌诊断模型。

发明内容

为克服现有技术的缺陷，本发明提供了一种基于血清肽的胰腺癌诊断模型的建立方法，利用液相色谱-质谱联用技术，通过比较正常个体、慢性胰腺炎个体及胰腺癌个体之间血清肽谱的差异，筛选出相应特征肽对列，构建出胰腺癌诊断模型。该诊断模型构建方法简单、对胰腺癌诊断的准确度高、灵敏度高、特异性强，并可有效区分胰腺癌和慢性胰腺炎，避免误诊。

本发明是通过以下技术方案来实现：

一种基于血清肽的胰腺癌诊断模型的建立方法，包括以下步骤：

步骤a)首先，建立非靶向检测人血清肽含量的液相-串联质谱联用检测方法；

步骤b)其次，筛选出受试人员中的胰腺癌人群和非胰腺癌人群(慢性胰腺炎和胰腺健康人群)中差异的质谱信号，并进行肽序列和来源蛋白的鉴定，并基于来源蛋白在血清中的丰度，将所鉴定出的血清肽区分为高丰度血清蛋白来源及低丰度血清蛋白来源；

步骤c)，将胰腺癌人群和非胰腺癌人群按照约3:1比例分成训练集和测试集，通过训练集样本的人工智能模式识别技术进行筛选，基于已鉴定出的肽信号确定8个差异血清肽信号：

“LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”，

“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”，

“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”，

“TDQVLSVLKGEE(Apolipoprotein C-II)”，

“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”，

“LSYFVELGTQPATQ(APOA2)”，

“SSKITHRIHWESASLLR(C3)”，

“LK<ace>NGEPLLTRDRIQIEQGTLNITIV(CNTN4)”

可以作为潜在的诊断胰腺癌的生物标志物。

步骤d)，通过广义逻辑回归建模，基于上述特征血清肽，建立胰腺癌诊断模型并确定截断值，经测试集样本验证后证实该诊断模型对胰腺癌状态的各项诊断评价指标。

优选的，所述的液相-串联质谱联用检测方法包括以下步骤：首先利用液相系统将血清中的血清肽进行色谱分离，其次利用串联的高分辨质谱系统在正离子模式下以全扫描检测的方式检测肽信号的丰度。再通过二级质谱的谱图比对分析，确定血清肽的氨基酸序列。

优选的，所述的血清非靶向肽组学研究技术包括：采用方差分析、Lasso回归模型、逐步回归模型和逻辑回归人工智能模式识别技术对胰腺癌人群和非胰腺癌人群(慢性胰腺炎和胰腺健康人群)的血清肽信号进行多维数据分析，得到最优差异血清肽信号，分别为：

“LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”，

“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”，

“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”，

“TDQVLSVLKGEE(Apolipoprotein C-II)”，

“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”，

“LSYFVELGTQPATQ(APOA2)”，

“SSKITHRIHWESASLLR(C3)”，

“LK<ace>NGEPLLTRDRIQIEQGTLNITIV(CNTN4)”，

可以作为潜在的诊断胰腺癌的生物标志物。

优选的，所述生物标志物为以下差异性血清肽的任意一种或一种以上：

“VELGTQPAT(Apolipoprotein A-II)”、“SSKITHRIHWESASLLR(C3)”、

“FVELGTQPAT(Apolipoprotein A-II)”、“LSALEEYTKKLNTQ(Apolipoprotein A-I)”、

“LSALEEYTKKLNT(Apolipoprotein A-I)”、“TDQVLSVLKGEE(Apolipoprotein C-II)”、

“LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”、

“ALLSPYSYSTTAVVTNPKE(TTR)”、“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”、

“RAVPPNNSNAAEDDLPTVELQGVVPR(F13A1)”、

“AVPPNNSNAAEDDLPTVELQGVVPR(F13A1)”、

“VVYPWTQRF(Hemoglobin subunit delta)”、

“LVVYPWTQRF(Hemoglobin subunit delta)”、

“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”、

“KVSFLSALEEYTKKLNTQ(Apolipoprotein A-I)”、

“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”、

“EEYTKKLNTQ(Apolipoprotein A-I)”、“SRQLGLPGPPDVPDHAAYHPF(ITIH4)”、

“SDPVGLGDPLSEISKLLEAAPSGSGLPKP(PLEKHG4)”、

“AQAMKGVTKAMGTMNRQLKLPQIQK<ace>(CHMP2A)”、

“LSLLKQESPAPEPPTQ(KMT2D)”、“K<ace>EPPGQEKVQLK<ace>(SLC7A11)”、

“NESLKEQNEKSIAQLIEKEEQRKEVQN(CIP2A)”、

“LQGRK<ace>GDK<ace>GERGAPGVTGPK<ace>GDVGARGV(COL4A2)”、

“RHPKLLAK<ace>ALEM<ox>VPLLTSTKDLVIS(KNTC1)”、

“LK<ace>NGEPLLTRDRIQIEQGTLNITIV(CNTN4)”、

“K<ace>TELGKKPLELKT(ZNF804B)”、“LSYFVELGTQPATQ(APOA2)”、

“K<ace>ESLGYFVGVDMDNPIGNWDGRFDGVQLCS(CYLD)”、

“ARAIAGGDEKGAAQVAAVLAQHRVALSVQ(SHARPIN)”、

“TGLASVTSRTSM<ox>GIIIVGGVIWKTI(MFN1)”、

“VVNYPKDNK<ace>RKMDETDAS(TARDBP)”、

“PAPSVNGSGALGSTGGGGPVGSMENGK(PIAS4)”。

更优选的，所述生物标志物为以下差异性血清肽的任意一种或多种：

“LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”、

“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”、

“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”、

“TDQVLSVLKGEE(Apolipoprotein C-II)”、

“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”、

“LSYFVELGTQPATQ(APOA2)”、

“SSKITHRIHWESASLLR(C3)”、

“LK<ace>NGEPLLTRDRIQIEQGTLNITIV(CNTN4)”。

更进一步的，本发明还提供了一种含有所述的生物标志物在胰腺癌诊断试剂盒和胰腺癌诊断模型中的应用。

更进一步的，所述液相-串联质谱联用检测方法具体包括以下步骤：

1)色谱条件

液相采用ThermoFisher UltiMate3000超高效液相色谱仪系统：

色谱柱为Waters ACQUITY UPLC BEH C181.7μm 2.1*50mm，柱温为20℃；

流动相A相为含体积分数为0.1％甲酸的乙腈溶液，流动相B相为含体积分数为0.1％甲酸的水溶液，流速为0.15mL/min；洗脱时间40min，洗脱梯度为：

0min，98％B；1min，97％B；3min，95％B；7min，90.0％B；22min，80％B；31min，75％B；35min，75％B；38min，70％B；40min，70％B；自动进样器进样盘温度为15℃，进样体积为8μL，进样针吸取速度为5μl/s；

质谱条件

串联质谱采用ThermoFisher Q Exactive Plus高分辨质谱系统：离子化模式为电喷雾电离正离子模式(HESI+)，监测模式为全扫描检测(Full MS)；在正离子模式下，鞘气为40psi，辅助气为15psi，碰撞气设置为High，喷雾电压为3000V，探针温度350℃，毛细管温度为320℃，喷雾气为33psi；

2)血清样本的前处理

血清室温放置解冻，震荡，取50μL血清于装有100μL DL-二硫苏糖醇缓冲溶液的2mL离心管中，震荡5分钟，静置30分钟；加入1.5mL沉淀溶液，震荡5min，随后置医用冷藏箱4℃存放60分钟，15000g 4℃离心5min；弃去上清液，加入复溶溶液250μL，15000g 4℃离心5min；取复溶上清200μL于2mL离心管中，离心浓缩后，60μL流动相B溶液重溶，涡旋混匀，15000g 4℃离心5min，取上清液置于样品瓶中，等待检测；

3)质谱数据处理

采用Thermo Xcalibur数据处理工作站进行质谱数据处理，检测结果以csv的形式呈现，用于血清肽数据分析：

寻找胰腺癌患者血清与非胰腺癌患者血清的差异血清肽，对采用ThermoXcalibur数据处理工作站处理后的质谱数据，根据以下条件进行筛选：a.加合离子不为空；b.在正常人群，慢性胰腺炎人群或胰腺癌人群中，至少有一组的丰度均值大于10000；

进一步筛选在胰腺癌个体和非胰腺癌人群中存在显著差异的肽信号：首先对血清肽检测样本数据随机1000次，每次抽样75％的样本数据，通过ANOVA模型中的变量显著差异性分析找到P值小于0.005的血清肽后，对P值小于0.005的血清肽，分别计算胰腺癌患者血清与非胰腺癌患者血清肽含量的均值比率，选取其中比率绝对值大于1.2或小于0.8的血清肽作为初选的差异血清肽信号，筛选出差异血清肽信号，用于下一步的多肽序列鉴定；

4)鉴定多肽序列

对于在胰腺癌与非胰腺癌个体之间呈现出显著差异特征峰，使用PeptideShaker-1.16.44工具包对二级谱图进行比对分析，鉴定出多肽序列，进一步在uniprot数据库中通过序列匹配，获得这些肽序列的来源蛋白信息；

5)血清肽液相-串联质谱联用检测方法的建立

对胰腺癌个体、慢性胰腺炎个体以及正常个体的血清样本中的多肽进行非靶向分析，筛选出差异肽信号，并对其序列进行鉴定，确定多肽序列及蛋白来源，建立胰腺癌人群血清中多肽标志物的液相-串联质谱联用定量筛选方法。

优选的，在步骤c)中使用R语言软件进行多维数据处理，对步骤b)鉴定出的胰腺癌特征的血清肽使用LASSO回归模型筛选特征项，最后用逐步回归模型进一步优选差异血清肽；对血清肽检测样本数据进行逐步回归获得最佳特征变量组合，选取赤池信息准则(AIC)最小时的特征变量，选出以下8个变量作为优选变量：

“LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”、

“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”、

“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”、

“TDQVLSVLKGEE(Apolipoprotein C-II)”、

“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”、

“LSYFVELGTQPATQ(APOA2)”、

“SSKITHRIHWESASLLR(C3)”、

“LK<ace>NGEPLLTRDRIQIEQGTLNITIV(CNTN4)”。

优选的，步骤d)采用广义逻辑回归算法来建立模型，通过对训练样本的训练预测，建立诊断模型，确定出联合因子：

联合因子＝4.6722+1.3278×H1+0.8830×H2+1.3649×H3-2.4538×H4+2.2384×H5-1.2477×H6+1.4122×H7+2.8573×H8

其中：

H1为LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)的丰度与混合液的比值，

H2为TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)的丰度与混合液的比值，

H3为KVSFLSALEEYTKKLNT(Apolipoprotein A-I)的丰度与混合液的比值，

H4为WDLDPEVRPTSAVAA(Apolipoprotein C-III)的丰度与混合液的比值，

H5为LSYFVELGTQPATQ(APOA2)的丰度与混合液的比值，

H6为TDQVLSVLKGEE(Apolipoprotein C-II)的丰度与混合液的比值，

H7为SSKITHRIHWESASLLR(C3)的丰度与混合液的比值，

H8为LK<ace>NGEPLLTRDRIQIEQGTLNITIV(CNTN4)的丰度与混合液的比值；

测试集选用的是训练集以外的样本作为测试集进行验证。

与现有技术相比，本发明主要区别在于以下三点：

第一：现有技术均通过血液检测来实现胰腺癌的诊断，但所用的检测靶标不同，具体如下：以血清/血浆凝溶胶蛋白为被检测物，如专利CN1746676A；以血清中一组miRNA为被检测物，如专利CN102876676A、CN108929914A或CN101827941B；以血清中白细胞介素等蛋白因子为被检测物，如专利CN103534594A；以血清中的代谢物为被检测物，如专利CN110646554A。

第二：现有技术均可区分胰腺炎和胰腺癌，但取样材料不同，包括如下：以组织中ABAT(4-氨基丁酸转氨酶)及其mRNA结合CA19-9为被检测物，如专利CN 105408751 A；以组织匀浆中多种蛋白质含量作为检测指标，如申请CN110554189A。相较于组织样本，外周血取样对于患者而言依从性更高，更有利于大规模应用。且组织中的检测靶标与外周血中的并不相同，检测手段也有明显差异。因此和本专利申请不同。

第三：现有技术均以血清蛋白/多肽为靶标进行胰腺癌诊断，但未能明确区分胰腺癌和慢性胰腺炎个体，如：从低丰度的血清样本中检测出联合蛋白标志物，但基于的样本队列未能包含慢性胰腺炎个体，如专利申请CN 102435665 A。尽管检测靶标相同，且均可从血清中检测出多个特征肽的联合标志物，但临床使用上，可能存在将慢性胰腺炎误判为胰腺癌的假阳性可能；

依据上述三点区别，本发明针对其的创新性由以下三个方面体现：

对第三类申请，尽管检测靶标相同，且均可从血清中检测出多个特征肽的联合标志物，但临床使用上，可能存在将慢性胰腺炎误判为胰腺癌的假阳性可能；

第二类申请和本申请针对不同的组织样本。相较于组织样本，外周血取样对于患者而言依从性更高，更有利于大规模应用。且组织中的检测靶标与外周血中的并不相同，检测手段也有明显差异。因此和本专利申请不同。

第一类申请本身即显示针对同种疾病，同种被检样本，如血液，如果被检测的分子不同，即为一个具有创新性的检测。如同样是测DNA，但检测的变异或甲基话的部分部分，及可体现其创新性。

本发明申请创新的优越性体现在所选的入组个体队列，除了胰腺癌个体外，作为非胰腺癌对照的包括正常个体以及慢性胰腺炎个体，可以有效排除慢性胰腺炎对胰腺癌诊断的干扰。此外，通过非靶向质谱检测，可以获得大量的特征肽信号，结合二级质谱对序列的鉴定，可以发现并明确多种血清肽标志物的序列。此外，本专利中所发现的多肽标志物既包含以往研究中发现的高丰度蛋白来源；同时也发现源于ITIH4，SERPINA1等低丰度血清蛋白以及NCOA7等非血清蛋白的肽段，大大扩充了胰腺癌血清肽标志物的范围。

本发明具有以下有益的技术效果：

1)本发明提供的一种血清中游离肽在胰腺癌诊断模型中的应用，该诊断模型通过采用液相-串联质谱联用检测方法检测人血清中上千种肽信号的含量，检测信号数量多、针对性强，且血清前处理过程简单，分析时间短，适用于临床样本的高通量分析检验。

2)该诊断模型使用的人血清样本较组织样本容易取样获得，较尿液、粪便样本容易被待测人群心理接受，避免患者进行影像学检查时的射线损伤，患者依从性好。

3)该诊断模型基于血清中8个特征肽含量进行构建，模型简单、计算方便、判断容易，且模型对胰腺癌诊断的准确度高、灵敏度高、特异性强，并可有效区分胰腺癌和慢性胰腺炎，避免误诊。

4)本发明构建的胰腺癌血清肽诊断模型为胰腺癌的临床诊断提供了一种有效可靠便捷的方法，具有良好的胰腺癌辅助诊断价值。

附图说明

下面结合附图对本发明作进一步的说明：

图1为被测混合样本中某一个样本的血清肽总离子流图；

图2为通过二级谱图对某一个血清肽信号进行肽序列鉴定；

图3为血清肽标志物TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)在胰腺癌的情况下，呈现比正常或慢性胰腺炎个体升高的状态图；

图4为血清肽标志物LSYFVELGTQPATQ(APOA2)在胰腺癌的情况下，呈现比正常或慢性胰腺炎个体升高的状态图；

图5为LASSO回归时迭代次数及自变量被选入的顺序图；

图6为10-fold交叉验证LASSO的CV变化图，最低处为CV最小时对应的特征项；

图7为胰腺癌人群、非胰腺癌人群(包括健康人群、慢性胰腺炎人群)血清样的训练集ROC图；

图8为胰腺癌人群、非胰腺癌人群(包括健康人群、慢性胰腺炎人群)血清样的测试集ROC图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例1：

液相-串联质谱联用，非靶向检测胰腺癌个体血清中特征肽方法的建立

1目的

通过液相-串联质谱联用的检测方法，对正常个体，慢性胰腺炎，胰腺癌个体的血清肽谱进行非靶向检测，建立胰腺癌特异性血清肽的检测方法。

2实验仪器与材料

2.1仪器

ThermoFisher Q Exactive Plus高分辨质谱系统；ThermoFisher UltiMate3000超高效液相色谱仪系统，包括双元泵、真空脱气机、自动进样器、柱温箱；Thermo Xcalibur数据处理工作站，均为美国Thermo Fisher Scientific公司产品。Waters Progenesis QI组学数据分析软件，沃特世公司产品。电子天平，MettlerToledo AB104型(最大载荷101g，分度值0.1mg)，瑞士梅特勒公司产品。移液器，单道可调量程20μL、100μL、200μL、1000μL，艾本德(上海)国际贸易有限公司产品。涡旋混匀仪，VORTEX-GENIE 2型，美国ScientificIndustries公司公司产品。高速离心机，Centrifuge5415R型，德国艾本德公司产品。冷冻离心机，Labconco Centrivap离心浓缩仪型，Labconco公司产品。医用冷藏箱，海尔集团公司产品。超低温冰箱，DW-HL218型，中科美菱低温科技有限责任公司产品。WatersACQUITYUPLC BEH C181.7μm 2.1*50mm色谱柱，沃特世公司产品

2.2试剂与耗材

甲醇为LC-MS Grade、乙腈为LC-MS Grade、甲酸为LC-MS Grade，均为美国ThermoFisher Scientific公司生产。丙酮为HPLC级、尿素、硫脲、DL-二硫苏糖醇，均为美国Sigma-Aldrich公司生产。乙酸铵(ammonium acetate)为分析纯，国药集团化学试剂有限公司生产，批号20180408。超纯净水，经美国Thermo Fisher Scientific公司Barnstead TMEASYpure II超纯水器处理得到。

一次性使用离心管，1.5mL、2mL，均为爱思进(Axygen)生物技术有限公司生产。一次性使用移液器枪头，10μL、200μL、1000μL，爱思进生物技术有限公司生产。一次性进样瓶，300μL，美国Thermo Fisher Scientific公司生产。

3液相-串联质谱联用检测方法

液相-串联质谱联用检测方法包括以下步骤：首先利用液相系统将经过前处理的血清中多肽色谱分离，其次利用串联质谱系统以Full MS半定量法建立多肽检测方法。再使用组学数据分析软件读取样品数据，最后对血清中多肽标志物进行鉴定。

3.1相关溶液的配制与前处理

3.1.1DL-二硫苏糖醇缓冲溶液的配置。称取0.038gDL-二硫苏糖醇、1.5g硫脲、4.2g尿素，溶于10mL超纯净水中，震荡混匀。

3.1.2沉淀溶液的配置。400ml丙酮中加入50ml甲醇，作为沉淀溶液。

3.1.3复溶溶液的配置。70ml乙腈中加入30ml超纯净水和500μL甲酸，作为复溶溶液。

3.2色谱条件

液相采用ThermoFisher UltiMate3000超高效液相色谱仪系统：

色谱柱为Waters ACQUITY UPLC BEH C181.7μm 2.1*50mm，柱温为20℃；

流动相A相为含体积分数为0.1％甲酸的乙腈溶液，流动相B相为含体积分数为0.1％甲酸的水溶液，流速为0.15mL/min。洗脱时间40min，洗脱梯度为：

0min,98％B；1min,97％B；3min,95％B；7min,90.0％B；22min,80％B；31min,75％B；35min,75％B；38min,70％B；40min,70％B。自动进样器进样盘温度为15℃，进样体积为8μL，进样针吸取速度为5μl/s。

3.3质谱条件

串联质谱采用ThermoFisher Q Exactive Plus高分辨质谱系统：离子化模式为电喷雾电离正离子模式(HESI+)，监测模式为全扫描检测(Full MS)；在正离子模式下，鞘气为40psi，辅助气为15psi，碰撞气设置为High，喷雾电压为3000V，探针温度350℃，毛细管温度为320℃，喷雾气为33psi，辅助气为15psi。

3.4血清样本的前处理

3.4.1血清室温放置解冻，震荡，取50μL血清于装有100μL DL-二硫苏糖醇缓冲溶液的2mL离心管中，震荡5分钟，静置30分钟。

3.4.2加入1.5mL沉淀溶液，震荡5min，随后置医用冷藏箱4℃存放60分钟。15000g4℃离心5min。

3.4.3弃去上清液,加入复溶溶液250μL，15000g 4℃离心5min。

3.4.4取复溶上清200μL于2mL离心管中，离心浓缩后，60μL流动相B溶液重溶，涡旋混匀，15000g 4℃离心5min，取上清液置于样品瓶中，等待检测。

3.5质谱数据处理

采用Thermo Xcalibur数据处理工作站进行质谱数据处理，检测结果以csv的形式呈现，用于下一步的数据分析。

3.6血清肽数据分析

使用R语言软件进行数据处理。为了寻找胰腺癌患者血清与非胰腺癌患者(包括慢性胰腺炎和健康人群)血清的差异血清肽，对采用Thermo Xcalibur数据处理工作站处理后的质谱数据，根据以下条件进行筛选：a.加合离子不为空；b.在正常人群，慢性胰腺炎人群或胰腺癌人群中，至少有一组的丰度均值大于10000。据此，筛选出1157个潜在的血清肽质谱信号。

进一步筛选在胰腺癌个体和非胰腺癌人群中存在显著差异的肽信号。首先对血清肽检测89例样本数据随机1000次，每次抽样75％的样本数据，通过ANOVA模型中的变量显著差异性分析找到P值小于0.005的血清肽后，对P值小于0.005的血清肽，分别计算胰腺癌患者血清与非胰腺癌患者(包括慢性胰腺炎和健康人群)血清肽含量的均值比率，选取其中比率绝对值大于1.2或小于0.8的血清肽作为初选的差异血清肽信号，筛选出差异血清肽信号总计401个,用于下一步的多肽序列鉴定。

3.7鉴定多肽序列

对于在胰腺癌与非胰腺癌个体之间呈现出显著差异的401个特征峰，使用PeptideShaker-1.16.44工具包对二级谱图进行比对分析，鉴定出38个信号的多肽序列，结果如下表所示。进一步在uniprot数据库中通过序列匹配，获得这些肽序列的来源蛋白信息。其中，大部分肽信号来自于高丰度血清蛋白如ApoA1,C3等的断裂碎片；同时也发现源于ITIH4，SERPINA1等低丰度血清蛋白以及NCOA7等非血清蛋白的肽段。结果见表1。

表1胰腺癌差异血清肽列表

4血清肽液相-串联质谱联用检测方法的建立

本实验对43例胰腺癌个体，36例慢性胰腺炎个体以及10例正常个体的血清样本中的多肽进行非靶向分析，筛选出401种差异肽信号，并对其序列进行鉴定，确定了其中38种多肽序列及蛋白来源，建立了胰腺癌人群血清中多肽标志物的液相-串联质谱联用定量筛选方法。

5小结

本实验对胰腺癌患者血清与非胰腺癌患者(包括慢性胰腺炎和健康人群)血清样本中的多肽进行非靶向分析，建立了血清中多肽的液相-串联质谱联用定量筛选以及序列鉴定方法，其中明确鉴定出38个胰腺癌特征的血清肽，且均拥有较好的色谱分离与质谱响应信号。

实施例2：胰腺癌患者血清肽组学研究

1目的：进行血清肽组学研究。

2数据处理及统计方法

使用R语言软件进行多维数据处理，对已鉴定出的38个胰腺癌特征的血清肽使用LASSO回归模型筛选特征项，最后用逐步回归模型进一步优选差异血清肽。

3血清肽多维数据分析及差异性变量分析

首先对血清肽检测89例样本数据随机1000次，每次抽样75％的样本数据做LASSO回归，每次LASSO回归选取10-fold交叉验证的均方预测误差最小的变量队列中LASSO系数不等于0的变量。最终选取频次500次以上的变量作为初选的特征变量。初选变量具体的数据如下表2所示，初选出频次大于500的15个特征变量，每个变量按照出现频次排序。

表2血清肽差异性变量分析表

由于特征变量过多不利于建模，我们再次优选特征项。采用逐步回归的抽样方法以及人工智能模式识别方法对上述的15个特征变量进行优选。

优选的方法如下，首先对血清肽检测89例样本数据进行逐步回归获得最佳特征变量组合，选取赤池信息准则(AIC)最小时的特征变量。最终如下所示，选出了

“LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”、

“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”、

“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”、

“TDQVLSVLKGEE(Apolipoprotein C-II)”、

“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”、

“LSYFVELGTQPATQ(APOA2)”、

“SSKITHRIHWESASLLR(C3)”、

“LK<ace>NGEPLLTRDRIQIEQGTLNITIV(CNTN4)”共8个变量作为优选变量。

4小结

对实施例2中测定的血清样本进行血清肽组学研究，表明胰腺癌患者血清与非胰腺癌患者(包括慢性胰腺炎和健康人群)血清中的血清肽具有较大差异，差异性血清肽为：

“LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”，

“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”，

“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”，

“TDQVLSVLKGEE(Apolipoprotein C-II)”，

“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”，

“LSYFVELGTQPATQ(APOA2)”，

“SSKITHRIHWESASLLR(C3)”，

“LK<ace>NGEPLLTRDRIQIEQGTLNITIV(CNTN4)”，

可作为潜在的诊断胰腺癌的生物标志物，以便下一步进行胰腺癌诊断模型的建立。

实施例3：基于血清肽因子的胰腺癌诊断模型的建立

1目的

基于血清肽因子建立胰腺癌诊断模型，并进行模型验证。

2数据处理及统计方法

采用R语言进行人工智能分析，绘制受试者工作特征曲线(receiveroperatingcharacteristic curve，ROC曲线)。

3胰腺癌诊断模型的建立和诊断模型的验证

ROC曲线是以假阳性率[以1-特异性(1-specificity)表示]为横坐标、真阳性率[以灵敏度(sensitivity)表示]为纵坐标绘制的曲线，主要用于评价临床指标对疾病的诊断效能，以确认最佳的诊断截断值，并可以比较多种不同的临床诊断指标对疾病的诊断效能。本模型的建立采用广义逻辑回归算法来建立模型。

该模型的建立是对训练集的68例样本进行训练预测。其中，33例胰腺癌患者，35例非胰腺癌患者(包含慢性胰腺炎和健康人群)。通过对训练样本的训练预测，建立诊断模型，确定出联合因子：

联合因子＝4.6722+1.3278×H1+0.8830×H2+1.3649×H3-2.4538×H4+2.2384×H5-1.2477×H6+1.4122×H7+2.8573×H8。

其中：

H1为LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)的丰度与混合液的比值，

H2为TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)的丰度与混合液的比值，

H3为KVSFLSALEEYTKKLNT(Apolipoprotein A-I)的丰度与混合液的比值，

H4为WDLDPEVRPTSAVAA(Apolipoprotein C-III)的丰度与混合液的比值，

H5为LSYFVELGTQPATQ(APOA2)的丰度与混合液的比值，

H6为TDQVLSVLKGEE(Apolipoprotein C-II)的丰度与混合液的比值，

H7为SSKITHRIHWESASLLR(C3)的丰度与混合液的比值，

H8为LK<ace>NGEPLLTRDRIQIEQGTLNITIV(CNTN4)的丰度与混合液的比值。

测试集选用的是训练集以外的剩余的21例样本作为测试集进行验证。其中，10例胰腺癌患者，11例非胰腺癌患者(包含慢性胰腺炎和健康人群)

采用3建立的诊断模型对训练集和测试集的预测结果AUC为0.98和0.96。训练集的截断值为0.4608，灵敏度为97％、特异性为97.1％。采用相同的截断值，测试集的灵敏度为90％、特异性为90.9％，详见图7-8。参考已公布的当前临床上最广泛使用的胰腺癌辅助诊断指标CA19-9，其敏感性和特异性分别仅为70％和60％，该模型的敏感性和特异性远远超过CA19-9诊断。

4小结

在实施例3中血清肽组学研究基础上，通过广义逻辑回归，

基于”LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”，

“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”，

“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”，

“TDQVLSVLKGEE(Apolipoprotein C-II)”，

“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”，

“LSYFVELGTQPATQ(APOA2)”，

“SSKITHRIHWESASLLR(C3)“，

LK<ace>NGEPLLTRDRIQIEQGTLNITIV(CNTN4)”共8个血清肽建立了因子诊断模型，因子截断值为0.4608(大于截断值，诊断为胰腺癌患者)。该胰腺癌诊断模型对上述血清的测试样本的AUC值为0.96、灵敏度为90％、特异性为90.9％、各项诊断评价指标均优于CA19-9诊断，具有良好的胰腺癌辅助诊断价值。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于血清肽的胰腺癌诊断模型的建立方法，其特征在于包括以下步骤：

步骤a)建立非靶向检测人血清肽含量的液相-串联质谱联用检测方法；

步骤b)筛选出受试人员中的胰腺癌人群和非胰腺癌人群中差异的质谱信号，并进行肽序列和来源蛋白的鉴定，并基于来源蛋白在血清中的丰度，将所鉴定出的血清肽区分为高丰度血清蛋白来源及低丰度血清蛋白来源；

步骤c)将胰腺癌人群和非胰腺癌人群分成训练集和测试集，通过训练集样本的血清非靶向肽组学研究技术进行筛选，基于已鉴定出的肽信号确定差异血清肽信号：可以作为潜在的诊断胰腺癌的生物标志物；

步骤d)通过广义逻辑回归建模，基于上述差异血清肽信号，建立胰腺癌诊断模型并确定截断值，经测试集样本验证后证实该诊断模型对胰腺癌状态的各项诊断评价指标，采用广义逻辑回归算法来建立模型，通过对训练样本的训练预测，建立诊断模型，确定出联合因子：

其中：

H1为LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)的丰度与混合液的比值，

H2为TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)的丰度与混合液的比值，

H3为KVSFLSALEEYTKKLNT(Apolipoprotein A-I)的丰度与混合液的比值，

H4为WDLDPEVRPTSAVAA(Apolipoprotein C-III)的丰度与混合液的比值，

H5为LSYFVELGTQPATQ(APOA2)的丰度与混合液的比值，

H6为TDQVLSVLKGEE(Apolipoprotein C-II)的丰度与混合液的比值，

H7为SSKITHRIHWESASLLR(C3)的丰度与混合液的比值，

H8为LK<ace>NGEPLLTRDRIQIEQGTLNITIV(CNTN4)的丰度与混合液的比值；

测试集选用的是训练集以外的样本作为测试集进行验证。

2.根据权利要求1所述的一种基于血清肽的胰腺癌诊断模型的建立方法，其特征在于：步骤b)中所述非胰腺癌人群包括慢性胰腺炎人群和胰腺健康人群。

3.根据权利要求1所述的一种基于血清肽的胰腺癌诊断模型的建立方法，其特征在于：步骤c)中所述的血清非靶向肽组学研究技术包括：采用方差分析、Lasso回归模型、逐步回归模型和逻辑回归人工智能模式识别技术对胰腺癌人群和非胰腺癌人群的血清肽信号进行多维数据分析，得到最优差异血清肽信号，作为潜在的诊断胰腺癌的生物标志物。

4.根据权利要求1所述的一种基于血清肽的胰腺癌诊断模型的建立方法，其特征在于：所述生物标志物为以下8种差异性血清肽：

“LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”、

“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”、

“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”、

“TDQVLSVLKGEE(Apolipoprotein C-II)”、

“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”、

“LSYFVELGTQPATQ(APOA2)”、

“SSKITHRIHWESASLLR(C3)”、

“LK<ace>NGEPLLTRDRIQIEQGTLNITIV(CNTN4)”。

5.根据权利要求1所述的一种基于血清肽的胰腺癌诊断模型的建立方法，其特征在于：步骤a)中液相-串联质谱联用检测方法包括以下步骤：首先利用液相系统将血清中的血清肽进行色谱分离，其次利用串联的高分辨质谱系统在正离子模式下以全扫描检测的方式检测肽信号的丰度；再通过二级质谱的谱图比对分析，确定血清肽的氨基酸序列。

6.根据权利要求5所述的一种基于血清肽的胰腺癌诊断模型的建立方法，其特征在于：步骤a)包括具体以下步骤：

1)色谱条件

液相采用ThermoFisher UltiMate3000超高效液相色谱仪系统：

色谱柱为Waters ACQUITY UPLC BEH C181.7μm 2.1*50mm，柱温为20℃；

质谱条件

串联质谱采用ThermoFisher Q Exactive Plus高分辨质谱系统：离子化模式为电喷雾电离正离子模式(HESI+)，监测模式为全扫描检测(FullMS)；在正离子模式下，鞘气为40psi，碰撞气设置为High，喷雾电压为3000V，探针温度350℃，毛细管温度为320℃，喷雾气为33psi，辅助气为15psi；

2)血清样本的前处理

3)质谱数据处理

寻找胰腺癌患者血清与非胰腺癌患者血清的差异血清肽，对采用Thermo Xcalibur数据处理工作站处理后的质谱数据，根据以下条件进行筛选：a.加合离子不为空；b.在正常人群，慢性胰腺炎人群或胰腺癌人群中，至少有一组的丰度均值大于10000；

4)鉴定多肽序列

对于在胰腺癌与非胰腺癌个体之间呈现出显著差异特征峰，使用PeptideShaker工具包对二级谱图进行比对分析，鉴定出多肽序列，进一步在uniprot数据库中通过序列匹配，获得这些肽序列的来源蛋白信息；

5)血清肽液相-串联质谱联用检测方法的建立

7.根据权利要求1所述的一种基于血清肽的胰腺癌诊断模型的建立方法，其特征在于：在步骤c)中，使用R语言软件进行多维数据处理，对步骤b)鉴定出的胰腺癌特征的血清肽使用LASSO回归模型筛选特征项，最后用逐步回归模型进一步优选差异血清肽；对血清肽检测样本数据进行逐步回归获得最佳特征变量组合，选取赤池信息准则(AIC)最小时的特征变量，选出以下8个变量作为优选变量：

“LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”、

“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”、

“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”、

“TDQVLSVLKGEE(Apolipoprotein C-II)”、

“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”、

“LSYFVELGTQPATQ(APOA2)”、

“SSKITHRIHWESASLLR(C3)”、

“LK<ace>NGEPLLTRDRIQIEQGTLNITIV(CNTN4)”。

8.一种包含权利要求4所述的生物标志物在胰腺癌诊断试剂盒中的应用。