发明内容
为克服现有技术的缺陷,本发明提供了一种基于血清肽的胰腺癌诊断模型的建立方法,利用液相色谱-质谱联用技术,通过比较正常个体、慢性胰腺炎个体及胰腺癌个体之间血清肽谱的差异,筛选出相应特征肽对列,构建出胰腺癌诊断模型。该诊断模型构建方法简单、对胰腺癌诊断的准确度高、灵敏度高、特异性强,并可有效区分胰腺癌和慢性胰腺炎,避免误诊。
本发明是通过以下技术方案来实现:
一种基于血清肽的胰腺癌诊断模型的建立方法,包括以下步骤:
步骤a)首先,建立非靶向检测人血清肽含量的液相-串联质谱联用检测方法;
步骤b)其次,筛选出受试人员中的胰腺癌人群和非胰腺癌人群(慢性胰腺炎和胰腺健康人群)中差异的质谱信号,并进行肽序列和来源蛋白的鉴定,并基于来源蛋白在血清中的丰度,将所鉴定出的血清肽区分为高丰度血清蛋白来源及低丰度血清蛋白来源;
步骤c),将胰腺癌人群和非胰腺癌人群按照约3:1比例分成训练集和测试集,通过训练集样本的人工智能模式识别技术进行筛选,基于已鉴定出的肽信号确定8个差异血清肽信号:
“LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”,
“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”,
“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”,
“TDQVLSVLKGEE(Apolipoprotein C-II)”,
“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”,
“LSYFVELGTQPATQ(APOA2)”,
“SSKITHRIHWESASLLR(C3)”,
“LK<ace>NGEPLLTRDRIQIEQGT<p>LNITIV(CNTN4)”
可以作为潜在的诊断胰腺癌的生物标志物。
步骤d),通过广义逻辑回归建模,基于上述特征血清肽,建立胰腺癌诊断模型并确定截断值,经测试集样本验证后证实该诊断模型对胰腺癌状态的各项诊断评价指标。
优选的,所述的液相-串联质谱联用检测方法包括以下步骤:首先利用液相系统将血清中的血清肽进行色谱分离,其次利用串联的高分辨质谱系统在正离子模式下以全扫描检测的方式检测肽信号的丰度。再通过二级质谱的谱图比对分析,确定血清肽的氨基酸序列。
优选的,所述的血清非靶向肽组学研究技术包括:采用方差分析、Lasso回归模型、逐步回归模型和逻辑回归人工智能模式识别技术对胰腺癌人群和非胰腺癌人群(慢性胰腺炎和胰腺健康人群)的血清肽信号进行多维数据分析,得到最优差异血清肽信号,分别为:
“LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”,
“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”,
“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”,
“TDQVLSVLKGEE(Apolipoprotein C-II)”,
“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”,
“LSYFVELGTQPATQ(APOA2)”,
“SSKITHRIHWESASLLR(C3)”,
“LK<ace>NGEPLLTRDRIQIEQGT<p>LNITIV(CNTN4)”,
可以作为潜在的诊断胰腺癌的生物标志物。
优选的,所述生物标志物为以下差异性血清肽的任意一种或一种以上:
“VELGTQPAT(Apolipoprotein A-II)”、“SSKITHRIHWESASLLR(C3)”、
“FVELGTQPAT(Apolipoprotein A-II)”、“LSALEEYTKKLNTQ(Apolipoprotein A-I)”、
“LSALEEYTKKLNT(Apolipoprotein A-I)”、“TDQVLSVLKGEE(Apolipoprotein C-II)”、
“LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”、
“ALLSPYSYSTTAVVTNPKE(TTR)”、“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”、
“RAVPPNNSNAAEDDLPTVELQGVVPR(F13A1)”、
“AVPPNNSNAAEDDLPTVELQGVVPR(F13A1)”、
“VVYPWTQRF(Hemoglobin subunit delta)”、
“LVVYPWTQRF(Hemoglobin subunit delta)”、
“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”、
“KVSFLSALEEYTKKLNTQ(Apolipoprotein A-I)”、
“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”、
“EEYTKKLNTQ(Apolipoprotein A-I)”、“SRQLGLPGPPDVPDHAAYHPF(ITIH4)”、
“SDPVGLGDPLSEISKLLEAAPSGSGLPKP(PLEKHG4)”、
“AQAMKGVTKAMGTMNRQLKLPQIQK<ace>(CHMP2A)”、
“LSLLKQESPAPEPPTQ(KMT2D)”、“K<ace>EPPGQEKVQLK<ace>(SLC7A11)”、
“NESLKEQNEKSIAQLIEKEEQRKEVQN(CIP2A)”、
“LQGRK<ace>GDK<ace>GERGAPGVTGPK<ace>GDVGARGV(COL4A2)”、
“RHPKLLAK<ace>ALEM<ox>VPLLT<p>STKDLVIS(KNTC1)”、
“LK<ace>NGEPLLTRDRIQIEQGT<p>LNITIV(CNTN4)”、
“K<ace>TELGKKPLELKT<p>(ZNF804B)”、“LSYFVELGTQPATQ(APOA2)”、
“K<ace>ESLGYFVGVDMDNPIGNWDGRFDGVQLCS<p>(CYLD)”、
“ARAIAGGDEKGAAQVAAVLAQHRVALSVQ(SHARPIN)”、
“TGLASVTSRT<p>S<p>M<ox>GIIIVGGVIWKTI(MFN1)”、
“VVNYPKDNK<ace>RKMDETDAS(TARDBP)”、
“PAPS<p>VNGSGALGSTGGGGPVGSMENGK(PIAS4)”。
更优选的,所述生物标志物为以下差异性血清肽的任意一种或多种:
“LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”、
“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”、
“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”、
“TDQVLSVLKGEE(Apolipoprotein C-II)”、
“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”、
“LSYFVELGTQPATQ(APOA2)”、
“SSKITHRIHWESASLLR(C3)”、
“LK<ace>NGEPLLTRDRIQIEQGT<p>LNITIV(CNTN4)”。
更进一步的,本发明还提供了一种含有所述的生物标志物在胰腺癌诊断试剂盒和胰腺癌诊断模型中的应用。
更进一步的,所述液相-串联质谱联用检测方法具体包括以下步骤:
1)色谱条件
液相采用ThermoFisher UltiMate3000超高效液相色谱仪系统:
色谱柱为Waters ACQUITY UPLC BEH C181.7μm 2.1*50mm,柱温为20℃;
流动相A相为含体积分数为0.1%甲酸的乙腈溶液,流动相B相为含体积分数为0.1%甲酸的水溶液,流速为0.15mL/min;洗脱时间40min,洗脱梯度为:
0min,98%B;1min,97%B;3min,95%B;7min,90.0%B;22min,80%B;31min,75%B;35min,75%B;38min,70%B;40min,70%B;自动进样器进样盘温度为15℃,进样体积为8μL,进样针吸取速度为5μl/s;
质谱条件
串联质谱采用ThermoFisher Q Exactive Plus高分辨质谱系统:离子化模式为电喷雾电离正离子模式(HESI+),监测模式为全扫描检测(Full MS);在正离子模式下,鞘气为40psi,辅助气为15psi,碰撞气设置为High,喷雾电压为3000V,探针温度350℃,毛细管温度为320℃,喷雾气为33psi;
2)血清样本的前处理
血清室温放置解冻,震荡,取50μL血清于装有100μL DL-二硫苏糖醇缓冲溶液的2mL离心管中,震荡5分钟,静置30分钟;加入1.5mL沉淀溶液,震荡5min,随后置医用冷藏箱4℃存放60分钟,15000g 4℃离心5min;弃去上清液,加入复溶溶液250μL,15000g 4℃离心5min;取复溶上清200μL于2mL离心管中,离心浓缩后,60μL流动相B溶液重溶,涡旋混匀,15000g 4℃离心5min,取上清液置于样品瓶中,等待检测;
3)质谱数据处理
采用Thermo Xcalibur数据处理工作站进行质谱数据处理,检测结果以csv的形式呈现,用于血清肽数据分析:
寻找胰腺癌患者血清与非胰腺癌患者血清的差异血清肽,对采用ThermoXcalibur数据处理工作站处理后的质谱数据,根据以下条件进行筛选:a.加合离子不为空;b.在正常人群,慢性胰腺炎人群或胰腺癌人群中,至少有一组的丰度均值大于10000;
进一步筛选在胰腺癌个体和非胰腺癌人群中存在显著差异的肽信号:首先对血清肽检测样本数据随机1000次,每次抽样75%的样本数据,通过ANOVA模型中的变量显著差异性分析找到P值小于0.005的血清肽后,对P值小于0.005的血清肽,分别计算胰腺癌患者血清与非胰腺癌患者血清肽含量的均值比率,选取其中比率绝对值大于1.2或小于0.8的血清肽作为初选的差异血清肽信号,筛选出差异血清肽信号,用于下一步的多肽序列鉴定;
4)鉴定多肽序列
对于在胰腺癌与非胰腺癌个体之间呈现出显著差异特征峰,使用PeptideShaker-1.16.44工具包对二级谱图进行比对分析,鉴定出多肽序列,进一步在uniprot数据库中通过序列匹配,获得这些肽序列的来源蛋白信息;
5)血清肽液相-串联质谱联用检测方法的建立
对胰腺癌个体、慢性胰腺炎个体以及正常个体的血清样本中的多肽进行非靶向分析,筛选出差异肽信号,并对其序列进行鉴定,确定多肽序列及蛋白来源,建立胰腺癌人群血清中多肽标志物的液相-串联质谱联用定量筛选方法。
优选的,在步骤c)中使用R语言软件进行多维数据处理,对步骤b)鉴定出的胰腺癌特征的血清肽使用LASSO回归模型筛选特征项,最后用逐步回归模型进一步优选差异血清肽;对血清肽检测样本数据进行逐步回归获得最佳特征变量组合,选取赤池信息准则(AIC)最小时的特征变量,选出以下8个变量作为优选变量:
“LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”、
“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”、
“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”、
“TDQVLSVLKGEE(Apolipoprotein C-II)”、
“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”、
“LSYFVELGTQPATQ(APOA2)”、
“SSKITHRIHWESASLLR(C3)”、
“LK<ace>NGEPLLTRDRIQIEQGT<p>LNITIV(CNTN4)”。
优选的,步骤d)采用广义逻辑回归算法来建立模型,通过对训练样本的训练预测,建立诊断模型,确定出联合因子:
联合因子=4.6722+1.3278×H1+0.8830×H2+1.3649×H3-2.4538×H4+2.2384×H5-1.2477×H6+1.4122×H7+2.8573×H8
其中:
H1为LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)的丰度与混合液的比值,
H2为TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)的丰度与混合液的比值,
H3为KVSFLSALEEYTKKLNT(Apolipoprotein A-I)的丰度与混合液的比值,
H4为WDLDPEVRPTSAVAA(Apolipoprotein C-III)的丰度与混合液的比值,
H5为LSYFVELGTQPATQ(APOA2)的丰度与混合液的比值,
H6为TDQVLSVLKGEE(Apolipoprotein C-II)的丰度与混合液的比值,
H7为SSKITHRIHWESASLLR(C3)的丰度与混合液的比值,
H8为LK<ace>NGEPLLTRDRIQIEQGT<p>LNITIV(CNTN4)的丰度与混合液的比值;
测试集选用的是训练集以外的样本作为测试集进行验证。
与现有技术相比,本发明主要区别在于以下三点:
第一:现有技术均通过血液检测来实现胰腺癌的诊断,但所用的检测靶标不同,具体如下:以血清/血浆凝溶胶蛋白为被检测物,如专利CN1746676A;以血清中一组miRNA为被检测物,如专利CN102876676A、CN108929914A或CN101827941B;以血清中白细胞介素等蛋白因子为被检测物,如专利CN103534594A;以血清中的代谢物为被检测物,如专利CN110646554A。
第二:现有技术均可区分胰腺炎和胰腺癌,但取样材料不同,包括如下:以组织中ABAT(4-氨基丁酸转氨酶)及其mRNA结合CA19-9为被检测物,如专利CN 105408751 A;以组织匀浆中多种蛋白质含量作为检测指标,如申请CN110554189A。相较于组织样本,外周血取样对于患者而言依从性更高,更有利于大规模应用。且组织中的检测靶标与外周血中的并不相同,检测手段也有明显差异。因此和本专利申请不同。
第三:现有技术均以血清蛋白/多肽为靶标进行胰腺癌诊断,但未能明确区分胰腺癌和慢性胰腺炎个体,如:从低丰度的血清样本中检测出联合蛋白标志物,但基于的样本队列未能包含慢性胰腺炎个体,如专利申请CN 102435665 A。尽管检测靶标相同,且均可从血清中检测出多个特征肽的联合标志物,但临床使用上,可能存在将慢性胰腺炎误判为胰腺癌的假阳性可能;
依据上述三点区别,本发明针对其的创新性由以下三个方面体现:
对第三类申请,尽管检测靶标相同,且均可从血清中检测出多个特征肽的联合标志物,但临床使用上,可能存在将慢性胰腺炎误判为胰腺癌的假阳性可能;
第二类申请和本申请针对不同的组织样本。相较于组织样本,外周血取样对于患者而言依从性更高,更有利于大规模应用。且组织中的检测靶标与外周血中的并不相同,检测手段也有明显差异。因此和本专利申请不同。
第一类申请本身即显示针对同种疾病,同种被检样本,如血液,如果被检测的分子不同,即为一个具有创新性的检测。如同样是测DNA,但检测的变异或甲基话的部分部分,及可体现其创新性。
本发明申请创新的优越性体现在所选的入组个体队列,除了胰腺癌个体外,作为非胰腺癌对照的包括正常个体以及慢性胰腺炎个体,可以有效排除慢性胰腺炎对胰腺癌诊断的干扰。此外,通过非靶向质谱检测,可以获得大量的特征肽信号,结合二级质谱对序列的鉴定,可以发现并明确多种血清肽标志物的序列。此外,本专利中所发现的多肽标志物既包含以往研究中发现的高丰度蛋白来源;同时也发现源于ITIH4,SERPINA1等低丰度血清蛋白以及NCOA7等非血清蛋白的肽段,大大扩充了胰腺癌血清肽标志物的范围。
本发明具有以下有益的技术效果:
1)本发明提供的一种血清中游离肽在胰腺癌诊断模型中的应用,该诊断模型通过采用液相-串联质谱联用检测方法检测人血清中上千种肽信号的含量,检测信号数量多、针对性强,且血清前处理过程简单,分析时间短,适用于临床样本的高通量分析检验。
2)该诊断模型使用的人血清样本较组织样本容易取样获得,较尿液、粪便样本容易被待测人群心理接受,避免患者进行影像学检查时的射线损伤,患者依从性好。
3)该诊断模型基于血清中8个特征肽含量进行构建,模型简单、计算方便、判断容易,且模型对胰腺癌诊断的准确度高、灵敏度高、特异性强,并可有效区分胰腺癌和慢性胰腺炎,避免误诊。
4)本发明构建的胰腺癌血清肽诊断模型为胰腺癌的临床诊断提供了一种有效可靠便捷的方法,具有良好的胰腺癌辅助诊断价值。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例1:
液相-串联质谱联用,非靶向检测胰腺癌个体血清中特征肽方法的建立
1目的
通过液相-串联质谱联用的检测方法,对正常个体,慢性胰腺炎,胰腺癌个体的血清肽谱进行非靶向检测,建立胰腺癌特异性血清肽的检测方法。
2实验仪器与材料
2.1仪器
ThermoFisher Q Exactive Plus高分辨质谱系统;ThermoFisher UltiMate3000超高效液相色谱仪系统,包括双元泵、真空脱气机、自动进样器、柱温箱;Thermo Xcalibur数据处理工作站,均为美国Thermo Fisher Scientific公司产品。Waters Progenesis QI组学数据分析软件,沃特世公司产品。电子天平,MettlerToledo AB104型(最大载荷101g,分度值0.1mg),瑞士梅特勒公司产品。移液器,单道可调量程20μL、100μL、200μL、1000μL,艾本德(上海)国际贸易有限公司产品。涡旋混匀仪,VORTEX-GENIE 2型,美国ScientificIndustries公司公司产品。高速离心机,Centrifuge5415R型,德国艾本德公司产品。冷冻离心机,Labconco Centrivap离心浓缩仪型,Labconco公司产品。医用冷藏箱,海尔集团公司产品。超低温冰箱,DW-HL218型,中科美菱低温科技有限责任公司产品。WatersACQUITYUPLC BEH C181.7μm 2.1*50mm色谱柱,沃特世公司产品
2.2试剂与耗材
甲醇为LC-MS Grade、乙腈为LC-MS Grade、甲酸为LC-MS Grade,均为美国ThermoFisher Scientific公司生产。丙酮为HPLC级、尿素、硫脲、DL-二硫苏糖醇,均为美国Sigma-Aldrich公司生产。乙酸铵(ammonium acetate)为分析纯,国药集团化学试剂有限公司生产,批号20180408。超纯净水,经美国Thermo Fisher Scientific公司Barnstead TMEASYpure II超纯水器处理得到。
一次性使用离心管,1.5mL、2mL,均为爱思进(Axygen)生物技术有限公司生产。一次性使用移液器枪头,10μL、200μL、1000μL,爱思进生物技术有限公司生产。一次性进样瓶,300μL,美国Thermo Fisher Scientific公司生产。
3液相-串联质谱联用检测方法
液相-串联质谱联用检测方法包括以下步骤:首先利用液相系统将经过前处理的血清中多肽色谱分离,其次利用串联质谱系统以Full MS半定量法建立多肽检测方法。再使用组学数据分析软件读取样品数据,最后对血清中多肽标志物进行鉴定。
3.1相关溶液的配制与前处理
3.1.1DL-二硫苏糖醇缓冲溶液的配置。称取0.038gDL-二硫苏糖醇、1.5g硫脲、4.2g尿素,溶于10mL超纯净水中,震荡混匀。
3.1.2沉淀溶液的配置。400ml丙酮中加入50ml甲醇,作为沉淀溶液。
3.1.3复溶溶液的配置。70ml乙腈中加入30ml超纯净水和500μL甲酸,作为复溶溶液。
3.2色谱条件
液相采用ThermoFisher UltiMate3000超高效液相色谱仪系统:
色谱柱为Waters ACQUITY UPLC BEH C181.7μm 2.1*50mm,柱温为20℃;
流动相A相为含体积分数为0.1%甲酸的乙腈溶液,流动相B相为含体积分数为0.1%甲酸的水溶液,流速为0.15mL/min。洗脱时间40min,洗脱梯度为:
0min,98%B;1min,97%B;3min,95%B;7min,90.0%B;22min,80%B;31min,75%B;35min,75%B;38min,70%B;40min,70%B。自动进样器进样盘温度为15℃,进样体积为8μL,进样针吸取速度为5μl/s。
3.3质谱条件
串联质谱采用ThermoFisher Q Exactive Plus高分辨质谱系统:离子化模式为电喷雾电离正离子模式(HESI+),监测模式为全扫描检测(Full MS);在正离子模式下,鞘气为40psi,辅助气为15psi,碰撞气设置为High,喷雾电压为3000V,探针温度350℃,毛细管温度为320℃,喷雾气为33psi,辅助气为15psi。
3.4血清样本的前处理
3.4.1血清室温放置解冻,震荡,取50μL血清于装有100μL DL-二硫苏糖醇缓冲溶液的2mL离心管中,震荡5分钟,静置30分钟。
3.4.2加入1.5mL沉淀溶液,震荡5min,随后置医用冷藏箱4℃存放60分钟。15000g4℃离心5min。
3.4.3弃去上清液,加入复溶溶液250μL,15000g 4℃离心5min。
3.4.4取复溶上清200μL于2mL离心管中,离心浓缩后,60μL流动相B溶液重溶,涡旋混匀,15000g 4℃离心5min,取上清液置于样品瓶中,等待检测。
3.5质谱数据处理
采用Thermo Xcalibur数据处理工作站进行质谱数据处理,检测结果以csv的形式呈现,用于下一步的数据分析。
3.6血清肽数据分析
使用R语言软件进行数据处理。为了寻找胰腺癌患者血清与非胰腺癌患者(包括慢性胰腺炎和健康人群)血清的差异血清肽,对采用Thermo Xcalibur数据处理工作站处理后的质谱数据,根据以下条件进行筛选:a.加合离子不为空;b.在正常人群,慢性胰腺炎人群或胰腺癌人群中,至少有一组的丰度均值大于10000。据此,筛选出1157个潜在的血清肽质谱信号。
进一步筛选在胰腺癌个体和非胰腺癌人群中存在显著差异的肽信号。首先对血清肽检测89例样本数据随机1000次,每次抽样75%的样本数据,通过ANOVA模型中的变量显著差异性分析找到P值小于0.005的血清肽后,对P值小于0.005的血清肽,分别计算胰腺癌患者血清与非胰腺癌患者(包括慢性胰腺炎和健康人群)血清肽含量的均值比率,选取其中比率绝对值大于1.2或小于0.8的血清肽作为初选的差异血清肽信号,筛选出差异血清肽信号总计401个,用于下一步的多肽序列鉴定。
3.7鉴定多肽序列
对于在胰腺癌与非胰腺癌个体之间呈现出显著差异的401个特征峰,使用PeptideShaker-1.16.44工具包对二级谱图进行比对分析,鉴定出38个信号的多肽序列,结果如下表所示。进一步在uniprot数据库中通过序列匹配,获得这些肽序列的来源蛋白信息。其中,大部分肽信号来自于高丰度血清蛋白如ApoA1,C3等的断裂碎片;同时也发现源于ITIH4,SERPINA1等低丰度血清蛋白以及NCOA7等非血清蛋白的肽段。结果见表1。
表1胰腺癌差异血清肽列表
4血清肽液相-串联质谱联用检测方法的建立
本实验对43例胰腺癌个体,36例慢性胰腺炎个体以及10例正常个体的血清样本中的多肽进行非靶向分析,筛选出401种差异肽信号,并对其序列进行鉴定,确定了其中38种多肽序列及蛋白来源,建立了胰腺癌人群血清中多肽标志物的液相-串联质谱联用定量筛选方法。
5小结
本实验对胰腺癌患者血清与非胰腺癌患者(包括慢性胰腺炎和健康人群)血清样本中的多肽进行非靶向分析,建立了血清中多肽的液相-串联质谱联用定量筛选以及序列鉴定方法,其中明确鉴定出38个胰腺癌特征的血清肽,且均拥有较好的色谱分离与质谱响应信号。
实施例2:胰腺癌患者血清肽组学研究
1目的:进行血清肽组学研究。
2数据处理及统计方法
使用R语言软件进行多维数据处理,对已鉴定出的38个胰腺癌特征的血清肽使用LASSO回归模型筛选特征项,最后用逐步回归模型进一步优选差异血清肽。
3血清肽多维数据分析及差异性变量分析
首先对血清肽检测89例样本数据随机1000次,每次抽样75%的样本数据做LASSO回归,每次LASSO回归选取10-fold交叉验证的均方预测误差最小的变量队列中LASSO系数不等于0的变量。最终选取频次500次以上的变量作为初选的特征变量。初选变量具体的数据如下表2所示,初选出频次大于500的15个特征变量,每个变量按照出现频次排序。
表2血清肽差异性变量分析表
由于特征变量过多不利于建模,我们再次优选特征项。采用逐步回归的抽样方法以及人工智能模式识别方法对上述的15个特征变量进行优选。
优选的方法如下,首先对血清肽检测89例样本数据进行逐步回归获得最佳特征变量组合,选取赤池信息准则(AIC)最小时的特征变量。最终如下所示,选出了
“LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”、
“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”、
“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”、
“TDQVLSVLKGEE(Apolipoprotein C-II)”、
“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”、
“LSYFVELGTQPATQ(APOA2)”、
“SSKITHRIHWESASLLR(C3)”、
“LK<ace>NGEPLLTRDRIQIEQGT<p>LNITIV(CNTN4)”共8个变量作为优选变量。
4小结
对实施例2中测定的血清样本进行血清肽组学研究,表明胰腺癌患者血清与非胰腺癌患者(包括慢性胰腺炎和健康人群)血清中的血清肽具有较大差异,差异性血清肽为:
“LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”,
“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”,
“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”,
“TDQVLSVLKGEE(Apolipoprotein C-II)”,
“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”,
“LSYFVELGTQPATQ(APOA2)”,
“SSKITHRIHWESASLLR(C3)”,
“LK<ace>NGEPLLTRDRIQIEQGT<p>LNITIV(CNTN4)”,
可作为潜在的诊断胰腺癌的生物标志物,以便下一步进行胰腺癌诊断模型的建立。
实施例3:基于血清肽因子的胰腺癌诊断模型的建立
1目的
基于血清肽因子建立胰腺癌诊断模型,并进行模型验证。
2数据处理及统计方法
采用R语言进行人工智能分析,绘制受试者工作特征曲线(receiveroperatingcharacteristic curve,ROC曲线)。
3胰腺癌诊断模型的建立和诊断模型的验证
ROC曲线是以假阳性率[以1-特异性(1-specificity)表示]为横坐标、真阳性率[以灵敏度(sensitivity)表示]为纵坐标绘制的曲线,主要用于评价临床指标对疾病的诊断效能,以确认最佳的诊断截断值,并可以比较多种不同的临床诊断指标对疾病的诊断效能。本模型的建立采用广义逻辑回归算法来建立模型。
该模型的建立是对训练集的68例样本进行训练预测。其中,33例胰腺癌患者,35例非胰腺癌患者(包含慢性胰腺炎和健康人群)。通过对训练样本的训练预测,建立诊断模型,确定出联合因子:
联合因子=4.6722+1.3278×H1+0.8830×H2+1.3649×H3-2.4538×H4+2.2384×H5-1.2477×H6+1.4122×H7+2.8573×H8。
其中:
H1为LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)的丰度与混合液的比值,
H2为TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)的丰度与混合液的比值,
H3为KVSFLSALEEYTKKLNT(Apolipoprotein A-I)的丰度与混合液的比值,
H4为WDLDPEVRPTSAVAA(Apolipoprotein C-III)的丰度与混合液的比值,
H5为LSYFVELGTQPATQ(APOA2)的丰度与混合液的比值,
H6为TDQVLSVLKGEE(Apolipoprotein C-II)的丰度与混合液的比值,
H7为SSKITHRIHWESASLLR(C3)的丰度与混合液的比值,
H8为LK<ace>NGEPLLTRDRIQIEQGT<p>LNITIV(CNTN4)的丰度与混合液的比值。
测试集选用的是训练集以外的剩余的21例样本作为测试集进行验证。其中,10例胰腺癌患者,11例非胰腺癌患者(包含慢性胰腺炎和健康人群)
采用3建立的诊断模型对训练集和测试集的预测结果AUC为0.98和0.96。训练集的截断值为0.4608,灵敏度为97%、特异性为97.1%。采用相同的截断值,测试集的灵敏度为90%、特异性为90.9%,详见图7-8。参考已公布的当前临床上最广泛使用的胰腺癌辅助诊断指标CA19-9,其敏感性和特异性分别仅为70%和60%,该模型的敏感性和特异性远远超过CA19-9诊断。
4小结
在实施例3中血清肽组学研究基础上,通过广义逻辑回归,
基于”LMIEQNTKSPLFMGKVVNPTQK(SERPINA1)”,
“TDEKKKRKSNQLKEIRRTELKRYY(NCOA7)”,
“KVSFLSALEEYTKKLNT(Apolipoprotein A-I)”,
“TDQVLSVLKGEE(Apolipoprotein C-II)”,
“WDLDPEVRPTSAVAA(Apolipoprotein C-III)”,
“LSYFVELGTQPATQ(APOA2)”,
“SSKITHRIHWESASLLR(C3)“,
LK<ace>NGEPLLTRDRIQIEQGT<p>LNITIV(CNTN4)”共8个血清肽建立了因子诊断模型,因子截断值为0.4608(大于截断值,诊断为胰腺癌患者)。该胰腺癌诊断模型对上述血清的测试样本的AUC值为0.96、灵敏度为90%、特异性为90.9%、各项诊断评价指标均优于CA19-9诊断,具有良好的胰腺癌辅助诊断价值。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。