基于代谢组学的胰腺癌诊断标志物及其筛选方法和应用
技术领域
本发明属于临床检验诊断领域,具体涉及基于代谢组学和机器学习分析技术的胰腺癌诊断标志物,所述诊断标志物的筛选方法、应用所述诊断标志物构建诊断模型的方法及所述诊断标志物在胰腺癌诊断中的应用。
背景技术
胰腺癌(pancreatic cancer)是一种恶性程度很高、诊断和治疗都很困难的消化道恶性疾病,其发病率近年来呈快速上升趋势。根据中国国家癌症中心在2019年1月发布的全国癌症统计数据,胰腺癌位居我国恶性肿瘤发病第十位,且死亡率排名第七,诊治现状不容乐观。长期吸烟、高脂饮食、体重指数超标、过量饮酒、伴发糖尿病或慢性胰腺炎等是胰腺癌的发病危险因素。近年来在肿瘤学新理念的推动下,胰腺癌的临床诊疗水平取得了明显进步,但胰腺癌作为外分泌腺发生的腺癌,恶性程度高,病程短,发展和恶化速度快,预后差,死亡率极高。患者的五年生存率极低(不足5%),被称为“癌王”。因此,若能在无症状或症状不明显的早期发现胰腺癌,及时进行针对性治疗,能够极大地提高胰腺癌病人的生存率和治愈率。
胰腺癌早期患者症状不典型,最多见的为食欲不振,伴有恶心,呕吐,消瘦,乏力,常常按其他疾病治疗,延误病情治疗。多数胰腺癌患者确诊时已是晚期。究其原因,一方面,胰腺位于人体腹部深处,若非专门做相关影像学检查,很难在早期确诊;另一方面,胰腺癌早期症状不典型,有时仅表现为轻度上腹部非特异性症状,与胃痛等症状相似,易误诊为慢性胃病。因此,开发出一种简单便捷的新型胰腺癌早期诊断方法将具有重大的临床意义和社会经济意义。
根据中国抗癌协会胰腺癌专业委员会在2018年发布的胰腺癌综合诊治指南(2018版),目前主要以糖类抗原CA19-9作为最常用的胰腺癌诊断标志物,其临床特征为:将血清CA19-9>37U/ml作为阳性指标,诊断胰腺癌的灵敏度和特异度分别达到78.2%和82.8%(Poruk KE,Gay DZ,Brown K,et al.The clinical utility of CA 19-9 in pancreaticadenocarcinoma: Diagnostic and prognostic updates.Curr Mol Med,2013,13(3):340-351)。约10%的胰腺癌患者 Lewis抗原阴性,CA19-9不升高,此时还需结合其他肿瘤标志物如CA125和(或)癌胚抗原(carcinoembryonic antigen,CEA)等辅助诊断(Luo G,LiuC,Guo M,et al.CA 19-9-Low&Lewis(+)pancreatic cancer:A unique subtype.CancerLett,2017,385:46-50)。虽然此标志物已在临床应用,但其特异性并不高,在消化道恶性肿瘤如胰腺癌、胆囊癌、结肠癌、胃癌、肝癌等病人中均有增高,并且其早期诊断价值不大,主要作为病情监测和预示复发的指标。此外,如外周血内microRNA、ctDNA、外泌体内Glypican-1等也具有潜在临床应用前景,但基本停留在实验室研究阶段,仍存在假阳性率高、花费多等缺点,尚待高级别循证医学证据的证实(Xu J,Cao Z,Liu W,et al.PlasmamiRNAs effectively distinguish patients with pancreatic cancer from controls:A multicenter study.Ann Surg.2016,263(6):1173-1179;Xu L,Li Q,Xu D,et al.has-miR-141 downregulates TM4SF1 to inhibit pancreatic cancer cell invasion anmigration.Int J Oncol,2014,44(2):459-466;Melo SA,Luecke LB,Kahlert C,etal.Glypican-1 identifies cancer exosomes and detects early pancreaticcancer.Nature,2015,523(7559):177-182; Cohen JD,Javed AA,Thoburn C,etal.Combined circulating tumor DNA and protein biomarker-based liquid biopsyfor the earlier detection of pancreatic cancers.Proc Natl Acad Sci U S A,2017,114(38):10202-10207;Ma L,Tian X,Guo H,et al.Long noncoding RNA H19derived miR-675 regulates cell proliferation by down-regulating E2F-1 inhuman pancreatic ductal adenocarcinoma.J Cancer,2018,9(2):389-399;Li W,ZhangX,Lu X,et al. 5-Hydroxymethylcytosine signatures in circulating cell-free DNAas diagnostic biomarkers for human cancers.Cell Res,2017,27(10):1243-1257)。
代谢组学是对生物样品(如血浆、血清、尿液、粪便、唾液等)或细胞内所有小分子代谢物(如氨基酸、脂肪酸、脂质等)进行定性定量分析,并寻找代谢物与病理生理变化的相对关系的一门科学。由于生物体内的信息传递是按照DNA、mRNA、蛋白质、代谢物、细胞、组织、器官、个体的方向逐级上升的,所以可以将代谢组学看作基因组学和蛋白质组学的延伸和体现。基因组学和蛋白质组学虽然可以揭示生物体的内在差异,但得益于生物体强大的代偿机制,这些差异并不一定会导致表型差异。而小分子的产生和代谢既可反映生物体的先天内在差异,又可能体现出外来因素对生物体的干扰与影响。目前胰腺癌的发病机制尚未完全阐明,但吸烟、喝酒等外界因素及内分泌失调等内部因素均与胰腺癌的发生发展有一定关系。普遍认为胰腺癌的发生绝非单一因素作用,而可能是多种因素协同作用的结果。因此,使用代谢组学技术寻找胰腺癌早期出现时的代谢物变化特征是符合其发病规律的。
目前已有研究者利用代谢组学技术对胰腺癌进行了研究,例如Fest等(Fest J,Vijfhuizen LS,Goeman JJ,et al.Search for early pancreatic cancer bloodbiomarkers in five European prospective population biobanks usingmetabolomics.Endocrinology,2019,160(7):1731-1742)、Dutta等(Dutta P,Perez MR,Lee J,et al.Combining hyperpolarized real-time metabolic imaging and NMRspectroscopy to identify metabolic biomarkers in pancreatic cancer.2019,18(7): 2826-2834)、Gaiser等(Gaiser RA,Pessia A,Ateeb Z,et al.Integrated targetedmetabolomics and lipidomic analysis:a novel approach to classifying earlycystic precursors to invasive pancreatic cancer.Sci Rep.2019,9(1):10208)、Tao等(Tao L,Zhou J,Yuan C,et al.Metabolomics identifies serum and exosomesmetabolite markers of pancreatic cancer.Metabolomics.2019,15(6):86)分别使用核磁共振技术(NMR)、液相色谱质谱联用技术(LC-MS)技术分析血清、胰腺囊内液 (cystfluid)、外泌体样本,通过传统统计学方法如主成分分析法(PCA)对所获数据进行分析,以寻找胰腺癌相关生物标志物。但这些研究大多仅选择小量样本,使用普适性色谱方法,并且没有报告所筛选代谢物筛查/诊断胰腺癌的灵敏度和特异性,实际临床意义十分有限。因此,采用大规模临床样本进行血浆代谢组学研究,寻找灵敏度高、特异性好且安全经济的胰腺癌诊断血浆代谢标志物,并建立一种可靠有效的胰腺癌早期分子诊断模型仍具有重要的临床应用价值。
机器学习是人工智能的一个重要分支,它指代数据分析及有效模型的建立。在过去的几年,人工智能及机器学习迎来迅速发展。人工智能已经在一些生物医学应用,特别是对疾病的诊断方面展现了良好的表现,成为该领域的热门研究方向,因此也被视作未来医学发展的重要方向及辅助手段。目前应用代谢组学技术发现生物标志物的一个瓶颈即在于其检测灵敏度高且数据特征多、数据量庞大,传统主成分分析方法会为了减少特征数量而忽略许多对区分两类样本有一定影响的特征。因此将代谢组学技术与人工智能机器学习方法相结合,有可能更加快速、精准地找到更为有效可靠的诊断标志物。
发明内容
针对胰腺癌起病隐匿,早期诊断困难,尚无简便易行且有实用价值的筛查方法这一现状,本发明提供了一种适合于胰腺癌诊断的诊断标志物。该标志物对于胰腺癌具有较好的灵敏性和特异性,可用于胰腺癌诊断,对于改善胰腺癌的预后,提高胰腺癌患者的生存率具有重要意义。
本发明还提供了上述适合于胰腺癌诊断的诊断标志物的筛选方法,通过该方法所得标志物对于胰腺癌具有很好的灵敏性和特异性,尤其适合于胰腺癌的早期诊断,对于胰腺癌的治疗具有重要意义。
本发明还提供了一种胰腺癌诊断模型及诊断模型的构建方法,该模型构建方法简单,对于胰腺癌具有较高的灵敏度和特异性,为胰腺癌早诊早治提供了有效的技术支持。
本发明还提供了一种采用该诊断模型诊断胰腺癌的方法,采用本发明模型仅通过取血就能进行诊断,方便快捷无内创,对于胰腺癌灵敏度高、特异性好,具有很好的临床应用价值。
本发明还提供了一种含有上述适合于胰腺癌诊断的诊断标志物的试剂盒,可用于胰腺癌诊断
本发明对333例胰腺癌患者的血浆样本,与262例健康对照血浆样本进行分析,使用高效液相色谱质谱联用仪(LC-MS)分别获得了正负离子模式下1416个及669个小分子代谢物的指纹图谱,经过对胰腺癌患者及健康正常对照的小分子代谢物的指纹图谱进行基于机器学习支持向量机的分析与特征筛选,并结合基于质谱的优化筛选,得到适合于胰腺癌诊断的诊断标志物,针对这些诊断标志物进行靶向代谢组方法的建立,并利用机器学习对检测数据构建模型,得到胰腺癌诊断模型,利用该模型可以快速的诊断出是否为胰腺癌,尤其是可以诊断出早期胰腺癌,具有准确、高灵敏度、普适性强,具有临床使用和推广价值。
本发明中,所述胰腺癌患者血浆是指,2016-18年间,经术后病理确诊胰腺导管腺癌患者的术前血浆。除外有其他系统恶性肿瘤,术前接受过抗癌治疗,或其他新辅助治疗。
本发明的诊断标志物和诊断模型可以将症状尚不明显的胰腺癌诊断出来,方法简便快捷并且没有内创,对于胰腺癌的早诊早治以及改善患者预后、提高患者生存率具有十分重要的意义。实现本发明的具体技术方案如下:
一种适合于胰腺癌诊断的诊断标志物,为以下31种血浆代谢标志物的任意一种或多种:溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 16:2、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、磷脂酰胆碱PC 16:0e/18:2、磷脂酰胆碱PC 38:3e、磷脂酰胆碱PC 46:1e、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE16:0-18:2、磷脂酰乙醇胺PE 16:3e/2:0、磷脂酰乙醇胺PE 22:4e/4:0、磷脂酰乙醇胺PE22:6e/4:0、磷脂酰乙醇胺PE 26:0e/8:0、磷脂酰乙醇胺PE 22:5e/20:3、磷脂酰丝氨酸PS18:0-18:1、磷脂酰肌醇 PI 18:0-18:2、鞘磷脂SM d18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1、甘油三酯TG 8:0-8:0-8:0、甘油三酯TG 8:0-8:0-10:0、羟脂肪酸支链脂肪酸酯FAHFA 4:0/20:4。
进一步的,上述诊断标志物可以为以下19种血浆代谢标志物的任意一种或多种:溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱 LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE 16:0-18:2、磷脂酰丝氨酸PS 18:0-18:1、磷脂酰肌醇PI 18:0-18:2、鞘磷脂SM d18:1/18:0、鞘磷脂SMd18:2/24:1、鞘磷脂 SM d18:2/24:2、甘油二酯DG 18:1-18:1。
进一步的,上述诊断标志物可以为以下17种血浆代谢标志物的任意一种或多种:溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱 LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱 PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE 16:0-18:2、鞘磷脂SM d18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1。
进一步的,上述诊断标志物可以为以下14种血浆代谢标志物的任意一种或多种:溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE22:4、鞘磷脂 SM d18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG18:1-18:1。
本发明还提供了上述各种适合于胰腺癌诊断的诊断标志物的筛选方法,包括以下步骤:
(1)收集胰腺癌患者和健康人群的血浆样本作为分析样品;
(2)采用液相色谱质谱联用技术对每个分析样本进行非靶向代谢组学分析,得到各血浆样本的原始代谢指纹图谱;
(3)使用MS-Dial软件对胰腺癌血浆样本和健康血浆样本的原始代谢指纹图谱进行图谱处理,得到每行为代谢物信息,每列为分析样本的二维矩阵;并且对二维矩阵进行包括同位素峰、加合物和碎片离子在内的代谢物峰标识及峰面积积分,用于进一步的机器学习;
(4)使用机器学习支持向量机(support vector machine,SVM)算法学习步骤(3)的二维矩阵数据,将495例上述胰腺癌及健康对照血浆样本数据作为训练集,100例作为测试集。对训练集采用随机四折学习模型,即随机选取两种血浆的3/4样本作为训练集, 1/4的样本作为交叉验证集,并随机循环迭代5000次,生成在交叉验证集上的最优分类模型。最终在100例的测试集上进行验证及分析,通过统计最终模型准确度的平均值,该SVM模型可有效对早期胰腺癌患者与健康人群的代谢组数据进行分类;
(5)根据上述得到的SVM模型,通过基于机器学习贪心算法的特征筛选,借助SVM建模的特征重要性评分并不断累加对分类性能提高有益的新特征形成待测模型,评估模型分类准确度以显示不同模型的分类效能,并最终展示相对最优特征数及组合方式,筛选最优特征数及组合方式的标准为:增加特征数时模型准确度不再上升;
(6)将上述筛选得到的最优特征即目标差异代谢物进行基于质谱的优化筛选,使用MS-Dial 软件根据色谱峰型及二级质谱图数据质量筛选并获得潜在代谢标志物;
(7)根据上述潜在代谢标志物的一级和二级质谱信息,推测标志物的分子质量和分子式,并且与代谢物谱图数据库(LipidBlast)中的谱图信息进行比对,从而对代谢物进行鉴定,得到适合于胰腺癌诊断的血浆代谢标志物。不同血浆代谢标志物的组合即可作为适合于胰腺癌诊断的诊断标志物。
上述筛选方法中,所述胰腺癌患者为经术后病理确诊的胰腺导管腺癌患者,并未接受新辅助治疗,并无其他系统肿瘤。
上述筛选方法中,所述健康人群为经体检无胰腺病变的健康人群。
上述筛选方法中,进行LC-MS血浆非靶向代谢组学技术分析时,每20个分析样本中加入一个质量控制样品,用于实时监测分析样本从进样预处理到分析过程中的质量控制情况,所述质量控制样品为333份早期胰腺癌血浆样本和262份健康血浆样本的混合样品。
上述筛选方法中,所述分析样本和质量控制样品在进样前进行以下预处理:
(1)用移液器吸取50μl分析样本或质量控制样品,置于2.0ml EP(eppendorf)管中;
(2)加入150μl甲醇提取,振摇5分钟以沉淀蛋白;
(3)然后在高速离心机中于4℃下以12000转/分离心10分钟;
(4)将步骤(3)的上清液转移入LC-MS进样瓶中,保存在-80℃下以备LC-MS检测。
上述筛选方法中,对原始代谢指纹图谱进行图谱处理是指:用MS-Dial软件读取原始代谢指纹图谱,进行包括保留时间校正、峰识别、峰匹配和峰对齐的处理操作,得到二维矩阵。
上述筛选方法中,对每个分析样本采用LC-MS血浆非靶向代谢组学技术进行分析时,液相色谱使用的色谱柱为Waters XSelect CSH C18色谱柱,规格为100×4.6mm,3.5μm;进样温度为4℃,进样体积为10μL;色谱流动相包含两种溶剂A和B,A为0.1%甲酸、乙腈60%、水40%溶液;B为0.1%甲酸、乙腈10%、异丙醇90%溶液;色谱梯度洗脱条件为:0分钟为 40%B,2分钟升至43%B,2.1分钟迅速升至50%B,2.1-12分钟为50%B-60%B逐渐递增,12.1分钟迅速升至75%B,12.1-18分钟为75%B至99%B逐渐递增,18-19分钟为保持99%B,19-20分钟迅速减为40%B,然后40%B持续5分钟;流速为0.5ml/min。
上述筛选方法中,对每个分析样本采用LC-MS血浆非靶向代谢组学技术进行分析时,质谱检测使用四极杆-静电场轨道阱质谱仪Q-Exactive,并采用电喷雾离子源的正离子模式ESI+ 和负离子模式ESI-,离子源温度为320℃,反吹气设置为2,脱溶剂气温为300℃,鞘气和辅气分别设置为40和10;在正离子和负离子模式下毛细管电压分别为+3kV和-3kV,锥孔电压均为0V;图谱数据采集的质荷比范围为200~1200m/z,采集的模式为数据依赖模式(DDA)。
本发明的优选方案中,筛选时所用的胰腺癌患者为333人,健康人群262人。
本发明的优选方案中,构建SVM分类模型时,对训练集采用随机四折学习模型,建模参数C=5。
本发明的优选方案中,筛选过程中SVM建模随机循环迭代5000次,最终模型准确度的平均值大于0.9。
本发明还提供了一种胰腺癌诊断模型的构建方法,包括以下步骤:
(1)收集胰腺癌患者和健康人群的血浆样本作为分析样品;
(2)采用液相色谱质谱联用技术对每个分析样本进行靶向代谢组学分析,得到各血浆样本的靶向代谢组图谱;
(3)使用MS-Dial软件对胰腺癌血浆样本和健康血浆样本的靶向代谢组图谱进行图谱处理,得到每行为代谢物信息,每列为分析样本的标志物二维矩阵,用于进一步的机器学习;
(4)根据该诊断标志物二维矩阵,使用机器学习SVM构建分类模型,得到胰腺癌诊断模型。
上述构建方法中,所述胰腺癌患者是经术后病理确诊的胰腺导管腺癌患者,并未接受新辅助治疗,并无其他系统肿瘤。
上述构建方法中,步骤(2)中所述的靶向代谢组学分析是指对按照本发明诊断标志物的筛选方法筛选得到的能够作为诊断标志物的代谢物进行靶向检测。
上述构建方法中,对每个分析样本采用LC-MS血浆靶向代谢组学技术进行分析时,液相色谱使用的色谱柱为Waters XSelect CSH C18色谱柱,规格为100×4.6mm,3.5μm;进样温度为4℃,进样体积为10μL;色谱流动相包含两种溶剂A和B,A为0.1wt%甲酸、乙腈60%、水40%溶液;B为0.1wt%甲酸、乙腈10%、异丙醇90%溶液;色谱梯度洗脱条件为:0-l分钟为40%B,1-5分钟为40%B-50%B逐渐递增,5-15分钟为50%B至100%B逐渐递增,15-18 分钟为保持100%B,18-19分钟迅速减为40%B,然后40%B持续5分钟;流速为0.5ml/min。
上述构建方法中,对每个分析样本采用LC-MS血浆靶向代谢组学技术进行分析时,质谱检测使用四极杆-静电场轨道阱质谱仪Q-Exactive,并采用电喷雾离子源的正离子模式ESI+,离子源温度为320℃,反吹气设置为2,脱溶剂气温为300℃,鞘气和辅气分别设置为40和 10;毛细管电压为+3kV,锥孔电压为0V;采集模式为平行反应监测模式(PRM)。
本发明的优选方案中,模型构建时,是基于以下的样本数目构建的:所用的胰腺癌患者 333人,健康人群262人。
本发明的优选方案中,构建SVM分类模型时,建模参数C=15。
本发明的优选方案中,当适合于胰腺癌诊断的诊断标志物为19种血浆代谢标志物的组合 (包含溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE16:0-18:2、磷脂酰丝氨酸PS 18:0-18:1、磷脂酰肌醇PI 18:0-18:2、鞘磷脂SM d18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1)时,所得的诊断模型的ROC曲线下面积AUC 值可达0.9657。
本发明还提供了一种胰腺癌诊断模型,该诊断模型按照上述胰腺癌诊断模型的构建方法构建而得。同上,在本发明优选方案中,当诊断模型所用的诊断标志物为19种血浆代谢标志物的组合(包含溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE 16:0-18:2、磷脂酰丝氨酸PS 18:0-18:1、磷脂酰肌醇PI 18:0-18:2、鞘磷脂SMd18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1)时,诊断模型的ROC 曲线下面积AUC值可达0.9657。
本发明的优点是采用血浆代谢组学技术以及人工智能数据分析技术得到适合于胰腺癌诊断的诊断标志物和胰腺癌诊断模型。本发明诊断标志物筛选方法可操作性强,模型构建方法简单,所得诊断模型效果良好,灵敏度高,特异性好,适合于胰腺癌的诊断,特别是症状不明显的早期胰腺癌的诊断。本发明仅通过取血检测就能实现诊断,无需额外采集组织样本,能够很好地替代现有血液检测及影像学诊断模式,并且本发明诊断简单快速,有利于胰腺癌的早诊早治,具有很好的临床使用和推广价值。
附图说明
图1.原始代谢指纹图谱的总离子色谱图(TICs),其中ESI+为正离子模式,ESI-为负离子模式,横轴为保留时间,纵轴为代谢物相对浓度。
图2.机器学习支持向量机(SVM)分类模型图,其中specificity为特异度,sensitivity 为灵敏度,accuracy为准确度,training为训练集,validation为交叉验证集,test为测试集。
图3.SVM模型的特征选择得分图,其中横轴为特征数目,纵轴为准确度,training为训练集,validation为交叉验证集,test为测试集。
图4.靶向代谢组图谱的典型选择离子色谱图(EIC),其中横轴为保留时间,纵轴为代谢物响应强度。
图5.使用19个血浆代谢标志物构建的胰腺癌早期诊断模型的ROC曲线图,其中Training set为训练集结果,Test set为测试集结果。
具体实施方式
下面结合具体实施实例,进一步阐释本发明,本发明的实施例仅用于解释本发明,并不意味着限制本发明的保护范围。
实施例1:胰腺癌诊断标志物的筛选
1.研究对象
本研究共包含来自于4个独立医学中心的333例胰腺癌患者血浆样本以及262例体检正常的健康对照血浆样本。其中胰腺癌的诊断标准是经术后病理确诊的胰腺导管腺癌。
2.应用液相色谱质谱联用技术的血浆非靶向代谢组学分析
所有血浆样本离心后置于-80℃冰箱内保存。研究时取出血浆样本,经样品预处理后,使用高效液相色谱质谱联用仪进行代谢组学分析,获得包含色谱和质谱信息的样本原始代谢指纹图谱。具体操作如下:
2.1仪器和试剂
实验仪器包括:高效液相色谱质谱联用仪(U3000/QEaxctive,Thermo Fisher)、高速低温离心机(Beckman)、振动涡旋仪、离心浓缩仪、4℃冷藏冰箱、纯水仪(Millipore)。
实验耗材包括:Waters Xselect CSH C18色谱柱(规格为100×4.6mm,3.5μm)、2mlEP 管、1.5ml进样瓶、300μl内插管、移液器、1000μl枪头、200μl枪头、记号笔、乳胶手套、口罩。
实验试剂包括:甲醇(Thermo Fisher,质谱级纯)、乙腈(Thermo Fisher,质谱级纯)、异丙醇(Thermo Fisher,质谱级纯)、甲酸(Sigma)、纯水(TOC<10ppb)。
2.2血浆样本预处理
进行血浆样本预处理之前,制备30份质量控制样品(QC)(自每份胰腺癌血浆样本和健康血浆样本中分别取出10μl进行混合然后分装)。将所有胰腺癌血浆样本和健康血浆样本与质量控制样品一起进行样品预处理,具体操作如下:
(1)用移液器吸取50μl分析样本或质量控制样品,置于2.0ml EP(eppendorf)管中;
(2)加入150μl甲醇提取,振摇5分钟以沉淀蛋白;
(3)然后在高速离心机中于4℃下以12000rpm离心10分钟;
(4)将步骤(3)的上清液转移入LC-MS进样瓶中,保存在-80℃下以备LC-MS检测。
2.3血浆非靶向代谢组学检测
将处理后的所有胰腺癌血浆样本和健康血浆样本作为分析样本,打乱顺序后随机化排序进样,以排除进样顺序带来的偏倚。每隔20个分析样本加入一个质量控制样品。所用液相色谱、质谱方法如下:
流动相:A为0.1%甲酸、乙腈60%、水40%溶液,B为0.1%甲酸、乙腈10%、异丙醇90%溶液;
流速:0.5ml/min;柱温:30℃;进样体积:10μl;
色谱梯度洗脱条件:0分钟为40%B,2分钟升至43%B,2.1分钟迅速升至50%B,2.1-12 分钟为50%B-60%B逐渐递增,12.1分钟迅速升至75%B,12.1-18分钟为75%B至99%B逐渐递增,18-19分钟为保持99%B,19-20分钟迅速减为40%B,然后40%B持续5分钟。
质谱方法:采用电喷雾离子源的正离子模式ESI+和负离子模式ESI-,离子源温度为320℃,反吹气设置为2,脱溶剂气温为300℃,鞘气和辅气分别设置为40和10;在正离子和负离子模式下毛细管电压分别为+3kV和-3kV,锥孔电压均为0V;采集的模式为数据依赖模式(DDA);一级质谱图谱数据采集的质荷比范围为200~1200m/z,采集分辨率为35000,目标离子数目为1x106,最大离子注入时间为80ms;二级质谱采集分辨率为17500,目标离子数目为1x105,最大离子注入时间为50ms,循环次数为5次,隔离窗口为4.0m/z,碰撞能量为10、20、30。 3.血浆代谢标志物筛选
按照上述色谱质谱条件对样本进行分析,获得所有样本的原始代谢指纹图谱,其中各组样本的典型总离子流色谱图(EICs)见图1。随后采用人工智能分析技术对原始代谢指纹图谱进行学习,以筛选能够区分胰腺癌患者与健康人群的生物标志物,具体操作如下:
3.1图谱数据预处理
使用高效液相色谱质谱联用仪在正离子ESI+和负离子ESI-下分别检测获得血浆样本的原始代谢指纹图谱后,使用Reifycs file converter软件将图谱转换为ABF格式文件,然后使用MS-Dial软件进行包括保留时间校正、峰识别、峰匹配、峰对齐、过滤噪声、数据标准化等在内的预处理。参数设置为:一级质谱质量偏差设置为0.01Da,二级质谱质量偏差设置为 0.025Da,其他参数为默认值。处理后得到每行为代谢物,每列为分析样本,中值为相应代谢物浓度的二维矩阵。其中每个代谢物峰使用保留时间和质荷比进行定性,对其进行包括同位素峰、加合物和碎片离子在内的代谢物峰标识及峰面积积分。图谱预处理后,共得到正离子模式下1416个和负离子模式下669个小分子代谢物峰,可用于进一步的机器学习。
3.2 LC-MS实验质量控制
进行LC-MS血浆非靶向代谢组学分析时,将制备的QC样品按每20个分析样本安排一个QC样品的顺序均匀地插入分析样本中,用于实时监测分析样本从进样预处理到分析检测过程中的质量控制情况,所得原始代谢指纹图谱经MS-Dial软件预处理后,计算每个代谢物在QC样本中的变异系数(%RSD),绝大多数代谢物的变异系数控制在30%以下,说明样本在进样预处理到分析检测过程中的质量控制情况良好,所获得的代谢组学数据真实可信。
3.3机器学习SVM建模
使用机器学习支持向量机(support vector machine,SVM)算法学习图谱预处理得到的二维矩阵数据,随机将372例上述胰腺癌及健康对照血浆样本数据作为训练集trainset,123例作为交叉验证集cross-validation set,100例来源于另一中心的样本作为测试集test set,采用随机四折学习模型,并随机循环迭代5000次,生成在交叉验证集上的最优分类模型,并最终在100例的测试集上进行验证。获得的模型见图2,特异度(specificity)、灵敏度(sensitivity) 和准确度(accuracy)的平均值(mean)均在0.89以上。表明该SVM模型对胰腺癌患者与健康人群的代谢组数据分类很好,可准确区分胰腺癌患者与健康人群。
3.4血浆代谢标志物筛选及鉴定
根据上述得到的SVM模型,通过基于机器学习贪心算法的特征筛选,借助SVM建模的特征重要性评分并不断累加对模型分类效能有益的新特征形成待测模型,评估模型分类准确度以显示不同模型的分类效能,并最终展示相对最优特征数及组合方式的筛选,筛选最优特征数及组合方式的标准为:增加特征数时模型准确度不再上升。我们最终选择了正离子模式下17个特征及负离子模式下14个特征作为差异代谢物。见图3,使用这31个特征单独进行模型分类即可获得50%以上的准确度,随着特征数量增加,准确度大幅上升。
随后根据这些潜在代谢标志物的一级和二级质谱信息,推测标志物的分子质量和分子式,并且与代谢物谱图数据库(LipidBlast)中的谱图信息进行比对,从而对代谢物进行鉴定。
根据上述鉴定方法,我们成功鉴定出31个血浆代谢标志物作为适合于胰腺癌早期诊断的诊断标志物。见表1,这些标志物是溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC16:0、溶血磷脂酰胆碱LPC 16:2、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、磷脂酰胆碱PC 16:0e/18:2、磷脂酰胆碱PC 38:3e、磷脂酰胆碱PC 46:1e、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE 16:0-18:2、磷脂酰乙醇胺PE 16:3e/2:0、磷脂酰乙醇胺PE 22:4e/4:0、磷脂酰乙醇胺PE 22:6e/4:0、磷脂酰乙醇胺PE 26:0e/8:0、磷脂酰乙醇胺PE 22:5e/20:3、磷脂酰丝氨酸PS 18:0-18:1、磷脂酰肌醇PI 18:0-18:2、鞘磷脂SM d18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1、甘油三酯TG8:0-8:0-8:0、甘油三酯TG 8:0-8:0-10:0、羟脂肪酸支链脂肪酸酯FAHFA 4:0/20:4。经查阅已发表文献,这31个血浆代谢标志物均为首次在胰腺癌诊断中发现,对于胰腺癌的诊断与治疗具有十分重要的意义。在使用这些血浆代谢标志物作为诊断标志物构建诊断模型和进行诊断应用时,可以将其单独使用或是组合使用。
表1. 31种血浆代谢标志物
实施例2:使用19个血浆代谢标志物进行的胰腺癌诊断模型的构建
1.研究对象
本研究共包含来自于4个独立医学中心的333例胰腺癌患者血浆样本以及262例体检正常的健康对照血浆样本,与特征筛选样本(595例)同一来源。其中495例胰腺癌患者和健康对照用于训练集,100例用于测试集。其中胰腺癌的诊断标准是经影像学检查和组织活检确认存在直径小于3厘米的单发或多发胰腺癌。
2.应用液相色谱质谱联用技术的血浆靶向代谢组学分析
所有血浆样本离心后置于-80℃冰箱内保存。研究时取出血浆样本,经样品预处理后,使用高效液相色谱质谱联用仪进行靶向代谢组学分析,获得包含色谱和质谱信息的样本靶向代谢组图谱。具体操作如下:
2.1仪器和试剂
实验仪器包括:高效液相色谱质谱联用仪(U3000/QEaxctive,Thermo Fisher)、高速低温离心机(Beckman)、振动涡旋仪、离心浓缩仪、4℃冷藏冰箱、纯水仪(Millipore)。
实验耗材包括:Waters Xselect CSH C18色谱柱(规格为100×4.6mm,3.5μm)、2mlEP 管、1.5ml进样瓶、300μl内插管、移液器、1000μl枪头、200μl枪头、记号笔、乳胶手套、口罩。
实验试剂包括:甲醇(Thermo Fisher,质谱级纯)、乙腈(Thermo Fisher,质谱级纯)、异丙醇(Thermo Fisher,质谱级纯)、甲酸(Sigma)、纯水(TOC<10ppb)。
2.2血浆样本预处理
进行血浆样本预处理之前,制备30份质量控制样品(QC)(自每份胰腺癌血浆样本和健康血浆样本中分别取出10μl进行混合然后分装)。将所有胰腺癌血浆样本和健康血浆样本与质量控制样品一起进行样品预处理,具体操作如下:
(1)用移液器吸取50μl分析样本或质量控制样品,置于2.0ml EP(eppendorf)管中;
(2)加入150μl甲醇提取,振摇5分钟以沉淀蛋白;
(3)然后在高速离心机中于4℃下以12000rpm离心10分钟;
(4)将步骤(3)的上清液转移入LC-MS进样瓶中,保存在-80℃下以备LC-MS检测。
2.3血浆靶向代谢组学检测
将处理后的所有胰腺癌血浆样本和健康血浆样本作为分析样本,打乱顺序后随机化排序进样,以排除进样顺序带来的偏倚。每隔20个分析样本加入一个质量控制样品。所用液相色谱、质谱方法如下:
流动相:A为0.1%甲酸、乙腈60%、水40%溶液,B为0.1%甲酸、乙腈10%、异丙醇90%溶液;
流速:0.5ml/min;柱温:30℃;进样体积:10μl;
色谱梯度洗脱条件:0-l分钟为40%B,1-5分钟为40%B-50%B逐渐递增,5-15分钟为50%B 至100%B逐渐递增,15-18分钟为保持100%B,18-19分钟迅速减为40%B,然后40%B持续5分钟。
质谱方法:采用电喷雾离子源的正离子模式ESI+,离子源温度为320℃,反吹气设置为2,脱溶剂气温为300℃,鞘气和辅气分别设置为40和10;在正离子和负离子模式下毛细管电压分别为+3kV,锥孔电压均为0V;采集模式为平行反应监测模式(PRM);采集的质荷比为表 2中所列31种血浆代谢标志物的质荷比,采集分辨率为17500,目标离子数目为1x105,最大离子注入时间为50ms,隔离窗口为4.0m/z,碰撞能量为30。
3.诊断模型构建
按照上述色谱质谱条件对样本进行分析,获得所有样本的靶向代谢组图谱,典型选择离子色谱图(EIC)见图4。随后使用机器学习SVM学习靶向代谢组图谱数据,构建能够区分胰腺癌患者与健康人群的胰腺癌诊断模型,具体操作如下:
3.1图谱数据预处理
使用高效液相色谱质谱联用仪在正离子ESI+下检测获得血浆样本的靶向代谢组图谱后,使用Reifycs file converter软件将图谱转换为ABF格式文件,然后使用MS-Dial软件根据2.3 步骤的质谱方法中采集的质荷比列表提取所有血浆代谢标志物的峰面积信息,得到每行为代谢物,每列为分析样本,中值为相应代谢物浓度的二维矩阵,以用于进一步的机器学习。
3.2 LC-MS实验质量控制
进行LC-MS血浆靶向代谢组学分析时,将制备的QC样品按每20个分析样本安排一个 QC样品的顺序均匀地插入分析样本中,用于实时监测分析样本从进样预处理到分析检测过程中的质量控制情况,所得靶向代谢组图谱数据经MS-Dial软件预处理后,计算每个血浆代谢标志物在QC样本中的变异系数(%RSD),所有血浆代谢标志物的变异系数控制在15%以下,说明样本在进样预处理到分析检测过程中的质量控制情况良好,所获得的代谢组学数据真实可信。
3.3机器学习SVM建模与诊断性能测试
使用机器学习支持向量机(support vector machine,SVM)算法学习图谱预处理得到的二维矩阵数据,将495例胰腺癌患者及健康对照作为训练集training set学习以构建模型,建模参数C=15,将100例胰腺癌患者及健康对照作为测试集test set进行外部验证。当学习的二维矩阵数据为19个血浆代谢标志物(包含溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE 16:0-18:2、磷脂酰丝氨酸PS 18:0-18:1、磷脂酰肌醇PI 18:0-18:2、鞘磷脂SM d18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1)的数据时,所获模型的灵敏度(sensitivity)、特异度(specificity)和准确度(accuracy)以及ROC 曲线分析结果见图5和表2,可以看出构建的诊断模型对胰腺癌具有很高的灵敏度、特异度、准确度和ROC曲线下面积AUC值。
表2.使用19个血浆代谢标志物构建的胰腺癌诊断模型的分类性能
实施例3:使用17个血浆代谢标志物进行的胰腺癌诊断模型的构建
本实施例与实施例2的研究对象、检测分析方法相同,仅在步骤3.3机器学习SVM建模时,使用17种血浆代谢标志物(包含溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE22:4、磷脂酰乙醇胺PE 16:0-18:2、鞘磷脂SM d18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1)的二维矩阵数据进行机器学习和建模,所获模型的灵敏度(sensitivity)、特异度(specificity)和准确度(accuracy)以及AUC值见表3,可以看出构建的诊断模型对早期胰腺癌具有很高的灵敏度、特异度、准确度和ROC曲线下面积AUC值。
表3.使用17个血浆代谢标志物构建的胰腺癌诊断模型的分类性能
实施例4:使用14个血浆代谢标志物进行的胰腺癌诊断模型的构建
本实施例与实施例2的研究对象、检测分析方法相同,仅在步骤3.3机器学习SVM建模时,使用14个血浆代谢标志物(包含溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱 PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PCO-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、鞘磷脂SM d18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1)的二维矩阵数据进行机器学习和建模,所获模型的灵敏度(sensitivity)、特异度(specificity)和准确度(accuracy)以及AUC值见表4,可以看出构建的诊断模型对早期胰腺癌具有很高的灵敏度、特异度准确度和ROC曲线下面积AUC值。
表4.使用14个血浆代谢标志物构建的胰腺癌诊断模型的分类性能
根据上述实施例,基于本发明所选取的代谢标志物构建的诊断模型的各项指标大都高于 0.85,AUC值更是达到0.92以上,远高于现有诊断方法。因此,本发明的代谢标志物及据其构建的诊断模型可以有效地诊断出胰腺癌,降低胰腺癌漏检率,非常有利于胰腺癌的早诊早治,对于改善胰腺癌预后,降低胰腺癌的死亡率有很大帮助,具有良好的临床使用和推广价值。
在实际应用中,可以按照本发明建模方法选取更多的样本进行建模,增加模型的准确度。
上述实施例的说明只是用于理解本发明的方法及其核心思想。应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,基于本发明专利思想的其他实施方式也将落入本发明权利要求的保护范围内。