CN112151121A - 一种食管癌诊断的诊断标志物、试剂盒及筛选方法和食管癌诊断模型的构建方法 - Google Patents

一种食管癌诊断的诊断标志物、试剂盒及筛选方法和食管癌诊断模型的构建方法 Download PDF

Info

Publication number
CN112151121A
CN112151121A CN202011022045.0A CN202011022045A CN112151121A CN 112151121 A CN112151121 A CN 112151121A CN 202011022045 A CN202011022045 A CN 202011022045A CN 112151121 A CN112151121 A CN 112151121A
Authority
CN
China
Prior art keywords
phosphatidylcholine
esophageal cancer
sphingomyelin
diagnosis
serum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011022045.0A
Other languages
English (en)
Other versions
CN112151121B (zh
Inventor
尹玉新
袁宇瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202011022045.0A priority Critical patent/CN112151121B/zh
Publication of CN112151121A publication Critical patent/CN112151121A/zh
Application granted granted Critical
Publication of CN112151121B publication Critical patent/CN112151121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • G01N30/8686Fingerprinting, e.g. without prior knowledge of the sample components
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Library & Information Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明涉及一种食管癌诊断的诊断标志物、试剂盒及筛选方法和食管癌诊断模型的构建方法,属于临床检验诊断技术领域。本发明所述诊断标志物包括44种血清代谢标志物中的任意一种或多种。本发明所述诊断标志物对于食管癌具有较好的灵敏性和特异性,可用于食管癌诊断(包括早期诊断),对于改善食管癌的预后、提高食管癌患者的生存率具有重要意义。

Description

一种食管癌诊断的诊断标志物、试剂盒及筛选方法和食管癌 诊断模型的构建方法
技术领域
本发明涉及临床检验诊断技术领域,具体涉及一种基于代谢组学和人工智能分析技术筛选鉴定的食管癌诊断的诊断标志物、试剂盒及筛选方法和食管癌诊断模型的构建方法。
背景技术
食管癌(Esophageal cancer)是发病率和死亡率均位居前十的恶性肿瘤之一。根据中国国家癌症中心在2018年2月发布的全国癌症统计数据,食管癌发病率近年来有所下降,列于全部恶性肿瘤的第六位,死亡率仍位居第四位。食管癌是长期威胁我国居民健康的主要恶性肿瘤。组织学类型上,我国食管癌以鳞状细胞癌为主,占90%以上,而美国和欧洲以腺癌为主,占70%左右。我国食管癌流行的特点是发病率男性高于女性,农村高于城市,高发区主要集中在太行山脉附近区域。吸烟和重度饮酒是引起食管鳞癌的重要因素。在我国食管癌高发区,主要致癌危险因素是致癌性亚硝胺及其前体物和某些真菌及其毒素。而对于食管腺癌,主要的危险因素包括胃食管反流和巴雷特食管(Barrett esophagus)。
早期食管癌的症状一般不明显,常表现为反复出现的吞咽食物时有异物感或哽咽感,或胸骨后疼痛。一旦上述症状持续出现或吞咽食物有明显的吞咽哽咽感或困难时提示食管癌已为中晚期。查体时大多数食管癌患者无明显相关阳性体征。当患者出现有头痛、恶心或其他神经系统症状和体征,骨痛、肝大、胸腹腔积液、体重明显下降、皮下结节,颈部淋巴结肿大等,提示有远处转移的可能,需要进一步检查确诊。因此,对高危人群和高发地区人群的筛查,早期发现和早期治疗阻断早期食管癌发展成为中晚期食管癌是提高食管癌生存效果和保证患者生活质量的根本出路,也是减轻我国政府和民众医疗负担的长期有效措施。
食管癌的预防措施主要包括避免高危因素如吸烟和重度饮酒、改变不良饮食生活习惯等。另外,对高发区高危人群进行食管癌筛查可以早期发现食管癌或癌前病变,起到早诊早治和预防的作用,改善食管癌患者的生存质量和提高治疗效果。目前临床上尚无食管癌特异性的肿瘤标志物,食管癌的筛查方式以内镜筛查为主。由于内镜筛查为有创筛查方式且费用较高,导致患者的依从性较低,尚未得到广泛应用,目前国内仅在部分高发地区作为食管癌的筛查手段。食管癌的治疗在临床上建议采取个体化综合治疗的原则,即根据患者的机体状况,肿瘤的病理类型、侵犯范围(病期)和发展趋向,有计划地、合理地应用现有的治疗手段,以期最大幅度地根治、控制肿瘤和提高治愈率,改善患者的生活质量。
食管癌的诊断需先根据临床症状、体征及影像学和内镜检查结果等进行临床诊断,经临床诊断的食管癌病例需经病理学检查确诊。不宜依据临床诊断做放化疗,也不提倡进行试验性放化疗。目前食管癌尚缺乏无创、高效的早期筛查手段,患者因症状主动就诊时通常疾病已进展到中后期,因此开发出一种简单便捷的新型食管癌诊断方法将极大促进食管癌的早诊早治、提升疗效和患者的预后,具有重大的临床意义和社会经济意义。
发明内容
针对食管癌诊断方法较少、缺少有效液体诊断方法(目前液体诊断通常意义指检测血液中的循环肿瘤细胞或游离DNA,本发明通过检测血液中的脂质小分子代谢物水平给出诊断)这一现状,本发明的目的在于提供一种食管癌诊断的诊断标志物、试剂盒及筛选方法和食管癌诊断模型的构建方法。本发明所述诊断标志物对于食管癌具有较好的灵敏性和特异性,可用于食管癌诊断(包括食管癌的早期诊断),对于改善食管癌的预后、提高食管癌患者的生存率具有重要意义。
本发明提供了一种食管癌诊断的诊断标志物,所述诊断标志物包括以下44种血清代谢标志物中的任意一种或多种:溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 18:2、溶血磷脂酰胆碱LPC 20:3、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC 16:1e/18:2、磷脂酰胆碱PC 16:0-20:3、磷脂酰胆碱PC 18:1-18:2、磷脂酰胆碱PC 18:0-18:3、磷脂酰胆碱PC 18:2-18:2、磷脂酰胆碱PC 16:0-20:4、磷脂酰胆碱PC 16:0e/20:4、磷脂酰胆碱PC 16:0-20:5、磷脂酰胆碱PC 18:0-20:4、磷脂酰胆碱PC 16:0-22:6、磷脂酰胆碱PC 18:0-22:6、鞘磷脂SM d18:1/16:0、鞘磷脂SM d18:2/18:0、鞘磷脂SM d18:1/20:0、鞘磷脂SM d18:1/22:0、鞘磷脂SM d18:1/23:0、鞘磷脂SM d18:2/23:0、鞘磷脂SM d18:1/24:0、鞘磷脂SM d18:2/24:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、胆固醇酯18:1、胆固醇酯18:2、胆固醇酯22:6、磷脂酰乙醇胺PE 18:1e/18:2、磷脂酰乙醇胺PE 18:2-18:2、磷脂酰乙醇胺PE 16:1e/20:4、磷脂酰乙醇胺PE 18:1e/20:4、磷脂酰乙醇胺PE 16:0-22:6、磷脂酰乙醇胺PE 18:2e/20:4、磷脂酰肌醇PI 18:0-20:4、甘油三酯TAG16:0-18:0-18:1、甘油三酯TAG 16:0-18:1-18:2、甘油三酯TAG 16:1-18:1-18:2和甘油三酯TAG 18:1-18:1-18:2。
优选的是,所述诊断标志物包括以下22种血清代谢标志物中的任意一种或多种:溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:2、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC 16:0-20:3、磷脂酰胆碱PC 18:0-18:3、磷脂酰胆碱PC 18:2-18:2、磷脂酰胆碱PC 18:0-20:4、磷脂酰胆碱PC 16:0-22:6、鞘磷脂SM d18:1/16:0、鞘磷脂SM d18:1/22:0、鞘磷脂SM d18:1/24:0、鞘磷脂SM d18:2/24:0、鞘磷脂SM d18:2/24:1、胆固醇酯18:2、磷脂酰乙醇胺PE 18:1e/18:2、磷脂酰乙醇胺PE 16:1e/20:4、磷脂酰乙醇胺PE 18:1e/20:4、磷脂酰乙醇胺PE 18:2e/20:4、甘油三酯TAG16:0-18:1-18:2和甘油三酯TAG 18:1-18:1-18:2。
优选的是,所述诊断标志物包括以下10种血清代谢标志物中的任意一种或多种:溶血磷脂酰胆碱LPC 18:2、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-20:3、磷脂酰胆碱PC 18:2-18:2、磷脂酰胆碱PC 18:0-20:4、磷脂酰胆碱PC 16:0-22:6、鞘磷脂SM d18:1/16:0、鞘磷脂SM d18:2/24:0和磷脂酰乙醇胺PE 16:1e/20:4。
本发明还提供了一种食管癌诊断标志物的筛选方法,包括以下步骤:
(1)分别收集食管癌患者和健康人群的血清样本作为分析样本;
(2)采用液相色谱质谱联用技术分别对每个分析样本进行非靶向代谢组学分析,得到各血清样本的原始代谢指纹图谱;
(3)使用MS-Dial软件对食管癌患者的血清样本和健康人群的血清样本的原始代谢指纹图谱分别进行图谱处理,得到每行为代谢物信息,每列为分析样本的二维矩阵;并且对二维矩阵进行包括同位素峰、加合物和碎片离子在内的代谢物峰标识及峰面积积分,用于进一步的机器学习;
(4)使用机器学习支持向量机算法学习步骤(3)的二维矩阵数据,随机将上述食管癌及健康对照血清样本数据的3/4作为训练集,1/4作为测试集进行学习,并随机循环迭代2000次,通过统计最终支持向量机模型准确度的平均值,确定该支持向量机模型可有效对食管癌患者与健康人群的代谢组数据进行分类;
(5)根据上述得到的支持向量机模型,通过基于机器学习的特征筛序,借助支持向量机建模的特征重要性评分并不断累加重要特征形成待测模型,评估模型分类准确度以显示不同模型的分类效能,并最终展示相对最优特征数及组合方式;所述筛选最优特征数及组合方式的标准为:增加特征数时模型准确度不再上升;
(6)将上述筛选得到的最优特征即目标差异代谢物进行基于质谱的优化筛选,使用MS-Dial软件根据色谱峰型及二级质谱图数据质量筛选并获得潜在代谢标志物;
(7)根据上述潜在代谢标志物的一级和二级质谱信息,推测标志物的分子质量和分子式,并且与代谢物谱图数据库中的谱图信息进行比对,从而对代谢物进行鉴定,得到适合于食管癌诊断的血清代谢标志物。
本发明还提供了一种基于上述技术方案所述诊断标志物的食管癌诊断模型的构建方法,包含以下步骤:
1)收集食管癌患者和健康人群的血清样本作为分析样本;
2)采用液相色谱质谱联用技术对每个分析样本进行诊断标志物的靶向代谢组学分析,得到各血清样本的靶向代谢组图谱;
3)使用Multiquant软件对食管癌血清样本和健康血清样本的靶向代谢组图谱进行图谱处理,得到每行为代谢物信息,每列为分析样本的标志物二维矩阵,用于进一步的机器学习;
4)根据所述诊断标志物的二维矩阵,使用机器学习支持向量机构建分类模型,得到食管癌诊断模型。
本发明还提供了上述技术方案所述构建方法构建得到的食管癌诊断模型。
本发明还提供了基于上述技术方案所述诊断标志物在制备食管癌诊断试剂盒中的应用。
本发明还提供了一种食管癌诊断试剂盒,包括上述技术方案所述诊断标志物。
本发明提供了一种食管癌诊断的诊断标志物。本发明采用血清代谢组学技术以及人工智能数据分析技术得到适合于食管癌诊断的诊断标志物和食管癌诊断模型。本发明诊断标志物筛选方法可操作性强,模型构建方法简单,所得诊断模型效果良好,灵敏度高,特异性好,适合于食管癌的诊断,尤其是早期诊断。本发明仅通过取血检测就能实现诊断,无需额外采集组织样本,也不需要有创的内镜下活检,避免内镜下视野局限导致的漏诊误诊,可提高患者早期筛查的主动性和依从性,能够很好地替代现有内镜下活检的早期筛查模式,并且本发明诊断简单快速,有利于食管癌的早诊早治,具有很好的临床使用和推广价值。
附图说明
图1为本发明提供的原始代谢指纹图谱的总离子色谱图(TICs),其中A为健康对照血清样本在正离子模式下的总离子色谱图,B为食管癌患者在正离子模式下的总离子色谱图,C为健康对照在负离子模式下的总离子色谱图,D为食管癌患者在负离子模式下的总离子色谱图,横轴为保留时间,纵轴为代谢物相对浓度;
图2为本发明提供的非靶向代谢组在正离子模式和负离子模式下鉴定到的脂质种类和比例;
图3为本发明提供的SVM模型的特征选择得分图,其中A为正离子模式模型的准确度得分图,B为负离子模式模型的准确度得分图;
图4为本发明提供的使用10个血清代谢标志物构建诊断模型的靶向代谢组图谱的典型选择离子色谱图(EIC);
图5为本发明提供的使用22个血清代谢标志物构建的食管癌诊断模型的受试者工作特征(ROC)曲线图;其中A为训练集的ROC曲线以及曲线下面积(AUC),B为测试集的ROC曲线以及曲线下面积(AUC);
图6为本发明提供的使用10个血清代谢标志物构建的食管癌诊断模型的受试者工作特征(ROC)曲线图;其中A为训练集的ROC曲线以及曲线下面积(AUC),B为测试集的ROC曲线以及曲线下面积(AUC)。
具体实施方式
本发明提供了一种食管癌诊断的诊断标志物,所述诊断标志物包括以下44种血清代谢标志物中的任意一种或多种:溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 18:2、溶血磷脂酰胆碱LPC 20:3、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC 16:1e/18:2、磷脂酰胆碱PC 16:0-20:3、磷脂酰胆碱PC 18:1-18:2、磷脂酰胆碱PC 18:0-18:3、磷脂酰胆碱PC 18:2-18:2、磷脂酰胆碱PC 16:0-20:4、磷脂酰胆碱PC 16:0e/20:4、磷脂酰胆碱PC 16:0-20:5、磷脂酰胆碱PC 18:0-20:4、磷脂酰胆碱PC 16:0-22:6、磷脂酰胆碱PC 18:0-22:6、鞘磷脂SM d18:1/16:0、鞘磷脂SM d18:2/18:0、鞘磷脂SM d18:1/20:0、鞘磷脂SM d18:1/22:0、鞘磷脂SM d18:1/23:0、鞘磷脂SM d18:2/23:0、鞘磷脂SM d18:1/24:0、鞘磷脂SM d18:2/24:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、胆固醇酯18:1、胆固醇酯18:2、胆固醇酯22:6、磷脂酰乙醇胺PE 18:1e/18:2、磷脂酰乙醇胺PE 18:2-18:2、磷脂酰乙醇胺PE 16:1e/20:4、磷脂酰乙醇胺PE 18:1e/20:4、磷脂酰乙醇胺PE 16:0-22:6、磷脂酰乙醇胺PE 18:2e/20:4、磷脂酰肌醇PI 18:0-20:4、甘油三酯TAG16:0-18:0-18:1、甘油三酯TAG 16:0-18:1-18:2、甘油三酯TAG 16:1-18:1-18:2和甘油三酯TAG 18:1-18:1-18:2。上述诊断标志物对于食管癌具有较好的灵敏性和特异性,可用于食管癌诊断,尤其是食管癌早期诊断,对于改善食管癌的预后、提高食管癌患者的生存率具有重要意义。
在本发明中,所述诊断标志物包括以下22种血清代谢标志物中的任意一种或多种:溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:2、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC 16:0-20:3、磷脂酰胆碱PC18:0-18:3、磷脂酰胆碱PC 18:2-18:2、磷脂酰胆碱PC 18:0-20:4、磷脂酰胆碱PC 16:0-22:6、鞘磷脂SM d18:1/16:0、鞘磷脂SM d18:1/22:0、鞘磷脂SM d18:1/24:0、鞘磷脂SM d18:2/24:0、鞘磷脂SM d18:2/24:1、胆固醇酯18:2、磷脂酰乙醇胺PE 18:1e/18:2、磷脂酰乙醇胺PE 16:1e/20:4、磷脂酰乙醇胺PE 18:1e/20:4、磷脂酰乙醇胺PE 18:2e/20:4、甘油三酯TAG16:0-18:1-18:2和甘油三酯TAG 18:1-18:1-18:2。本发明上述诊断标志物经靶向代谢组学分析验证,进一步提升其可靠性,对于食管癌诊断具有较好的灵敏性和特异性。
在本发明中,所述诊断标志物包括以下10种血清代谢标志物中的任意一种或多种:溶血磷脂酰胆碱LPC 18:2、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-20:3、磷脂酰胆碱PC 18:2-18:2、磷脂酰胆碱PC 18:0-20:4、磷脂酰胆碱PC16:0-22:6、鞘磷脂SM d18:1/16:0、鞘磷脂SM d18:2/24:0和磷脂酰乙醇胺PE 16:1e/20:4。本发明上述诊断标志物经靶向代谢组学分析验证,进一步提升其可靠性,对于食管癌诊断具有更高的灵敏性和特异性。
本发明还提供了一种食管癌诊断标志物的筛选方法,包括以下步骤:
(1)分别收集食管癌患者和健康人群的血清样本作为分析样本;
(2)采用液相色谱质谱联用技术分别对每个分析样本进行非靶向代谢组学分析,得到各血清样本的原始代谢指纹图谱;
(3)使用MS-Dial软件对食管癌患者的血清样本和健康人群的血清样本的原始代谢指纹图谱分别进行图谱处理,得到每行为代谢物信息,每列为分析样本的二维矩阵;并且对二维矩阵进行包括同位素峰、加合物和碎片离子在内的代谢物峰标识及峰面积积分,用于进一步的机器学习;
(4)使用机器学习支持向量机(support vector machine,SVM)算法学习步骤(3)的二维矩阵数据,随机将上述食管癌及健康对照血清样本数据的3/4作为训练集,1/4作为测试集进行学习,并随机循环迭代2000次,通过统计最终支持向量机模型准确度的平均值,确定该支持向量机模型可有效对食管癌患者与健康人群的代谢组数据进行分类;
(5)根据上述得到的支持向量机模型,通过基于机器学习的特征筛序,借助支持向量机建模的特征重要性评分并不断累加重要特征形成待测模型,评估模型分类准确度以显示不同模型的分类效能,并最终展示相对最优特征数及组合方式;所述筛选最优特征数及组合方式的标准为:增加特征数时模型准确度不再上升;
(6)将上述筛选得到的最优特征即目标差异代谢物进行基于质谱的优化筛选,使用MS-Dial软件根据色谱峰型及二级质谱图数据质量筛选并获得潜在代谢标志物;
(7)根据上述潜在代谢标志物的一级和二级质谱信息,推测标志物的分子质量和分子式,并且与代谢物谱图数据库中的谱图信息进行比对,从而对代谢物进行鉴定,得到适合于食管癌诊断的血清代谢标志物。不同血清代谢标志物的组合即可作为适合于食管癌诊断的诊断标志物。在本发明中,所述代谢物谱图数据库优选为LipidBlast。
通过本发明所述筛选方法得到的诊断标志物对于食管癌具有很好的灵敏性和特异性,尤其适合于食管癌的诊断,尤其是早期诊断,对于食管癌的治疗具有重要意义。
本发明分别收集食管癌患者和健康人群的血清样本作为分析样本。在本发明中,所述筛选方法中的食管癌患者为经术后病理确认的食管癌患者。在本发明中,所述健康人群为经体检无肿瘤标志物异常的健康人群。在本发明中,具体的,筛选时所用的食管癌患者优选为75人,健康人群人数优选75人。
得到分析样本后,本发明采用液相色谱质谱联用技术(LC-MS)分别对每个分析样本进行非靶向代谢组学分析,每15个分析样本中加入一个质量控制样品,用于实时监测分析样本从进样预处理到分析过程中的质量控制情况。在本发明中,所述质量控制样品为75份食管癌血清样本和75份健康血清样本的混合样品。在本发明中,所述分析样本和质量控制样品在进样前优选进行以下预处理:
a.用移液器吸取50μl分析样本或质量控制样品,置于2.0ml EP(eppendorf)管中;
b.加入200μl氯仿甲醇萃取液(2:1,V/V)混合,震荡15分钟,4℃12000转离心20分钟,分别吸取下层脂质,在真空浓缩仪中蒸干;
c.将干粉用氯仿甲醇复溶液(1:1,V/V)复溶后,在高速离心机中于4℃下以12000转/分离心10分钟;
d.将步骤c的上清液转移入LC-MS进样瓶中,保存在-80℃下以备LC-MS检测。
在本发明中,对每个分析样本采用LC-MS血清非靶向代谢组学技术分别进行分析时,液相色谱使用的色谱柱优选为Waters XSelect CSH C18色谱柱,规格优选为100×2.1mm,2.5μm;进样温度优选为4℃,进样体积优选为10μL;色谱流动相包含两种溶剂A和B,A为含10mM乙酸铵且含体积百分含量为0.1%的甲酸的乙腈水溶液,所述乙腈水溶液含体积百分含量为60%的乙腈和体积百分含量为40%的水;B为含10mM乙酸铵且含体积百分含量为0.1%的甲酸的乙腈异丙醇溶液,所述乙腈异丙醇溶液含体积百分含量为10%的乙腈和体积百分含量为90%的异丙醇;色谱梯度洗脱条件优选为:0~2分钟为40%~43%B逐渐递增,2~2.1分钟为43%B~50%B逐渐递增,2.1~10分钟为50%B至60%B逐渐递增,10~10.1分钟为60%B至75%B逐渐递增,10.1~16分钟为75%B至99%B逐渐递增,16~17分钟为保持99%B,17~18分钟由99%B递减为40%B,然后40%B持续1分钟;流速为0.3ml/min。在本发明中,对每个分析样本采用LC-MS血清非靶向代谢组学技术进行分析时,质谱检测优选使用四极杆-静电场轨道阱质谱仪Q-Exactive,并采用电喷雾离子源的正离子模式ESI+和负离子模式ESI-,离子源温度优选为320℃,脱溶剂气温优选为300℃,鞘气和辅气分别设置为40和10;在正离子和负离子模式下毛细管电压分别为+3.3kV和-3kV,锥孔电压均为0V;图谱数据采集的质荷比范围为190~1200m/z,采集的模式为数据依赖模式(DDA)。
得到各血清样本的原始代谢指纹图谱后,本发明使用MS-Dial软件对食管癌患者的血清样本和健康人群的血清样本的原始代谢指纹图谱分别进行图谱处理,得到每行为代谢物信息,每列为分析样本的二维矩阵;并且对二维矩阵进行包括同位素峰、加合物和碎片离子在内的代谢物峰标识及峰面积积分,用于进一步的机器学习。在本发明中,对原始代谢指纹图谱进行图谱处理是指:用MS-Dial软件读取原始代谢指纹图谱,进行包括保留时间校正、峰识别、峰匹配和峰对齐的处理操作,得到二维矩阵。
得到二维矩阵数据后,本发明使用机器学习支持向量机(support vectormachine,SVM)算法学习二维矩阵数据,随机将上述食管癌及健康对照血清样本数据的3/4作为训练集,1/4作为测试集进行学习,并随机循环迭代2000次,通过统计最终支持向量机模型准确度的平均值,确定该支持向量机模型可有效对食管癌患者与健康人群的代谢组数据进行分类。在本发明中,构建SVM分类模型时,建模参数C=5。本发明筛选过程中SVM建模随机循环迭代2000次,最终模型准确度的平均值在正离子模式下大于0.94,负离子模式下大于0.82。说明SVM分类模型对于区分食管癌患者和健康对照有较高的稳定性和分类效能。
本发明根据上述得到的支持向量机模型,通过基于机器学习的特征筛序,借助支持向量机建模的特征重要性评分并不断累加重要特征形成待测模型,评估模型分类准确度以显示不同模型的分类效能,并最终展示相对最优特征数及组合方式;所述筛选最优特征数及组合方式的标准为:增加特征数时模型准确度不再上升。筛选得到最优特征组合可以去除重要性评分较低的特征对于模型分类的干扰,提高模型的稳定性和分类效能。
本发明将上述筛选得到的最优特征即目标差异代谢物进行基于质谱的优化筛选,使用MS-Dial软件根据色谱峰型及二级质谱图数据质量筛选,去除谱图质量差或不匹配的代谢物特征,以及在正离子和负离子模式下对应同一代谢标志物的特征,并获得潜在代谢标志物。
本发明根据上述潜在代谢标志物的一级和二级质谱信息,推测标志物的分子质量和分子式,并且与代谢物谱图数据库中的谱图信息进行比对,从而对代谢物进行鉴定,得到适合于食管癌诊断,尤其是食管癌早期诊断的血清代谢标志物。不同血清代谢标志物的组合即可作为适合于食管癌诊断(尤其是早期诊断)的诊断标志物。在本发明中,所述代谢物谱图数据库优选为LipidBlast。
本发明还提供了一种基于上述技术方案所述诊断标志物的食管癌诊断模型的构建方法,包含以下步骤:
1)收集食管癌患者和健康人群的血清样本作为分析样本;
2)采用液相色谱质谱联用技术对每个分析样本进行诊断标志物的靶向代谢组学分析,得到各血清样本的靶向代谢组图谱;
3)使用Multiquant软件对食管癌血清样本和健康血清样本的靶向代谢组图谱进行图谱处理,得到每行为代谢物信息,每列为分析样本的标志物二维矩阵,用于进一步的机器学习;
4)根据所述诊断标志物的二维矩阵,使用机器学习支持向量机构建分类模型,得到食管癌诊断模型。
本发明收集食管癌患者和健康人群的血清样本作为分析样本。在本发明中,所述食管癌患者是经术后病理确认的食管癌患者。
本发明采用液相色谱质谱联用技术对每个分析样本进行诊断标志物的靶向代谢组学分析,得到各血清样本的靶向代谢组图谱。在本发明中,所述的靶向代谢组学分析是指对按照本发明诊断标志物的筛选方法筛选得到的能够作为诊断标志物的代谢物进行靶向检测。本发明对每个分析样本采用LC-MS血清靶向代谢组学技术进行分析时,液相色谱使用的色谱柱优选为Waters XSelect CSH C18色谱柱,规格优选为100×2.1mm,2.5μm;进样温度优选为4℃,进样体积优选为10μL;色谱流动相包含两种溶剂A和B,A为含10mM乙酸铵和体积百分含量为0.1%甲酸的乙腈水溶液,所述乙腈水溶液含体积百分含量为60%的乙腈和体积百分含量为40%的水溶液(含10mM乙酸铵、0.1%甲酸的60%乙腈、40%水溶液);B为含10mM乙酸铵和体积百分含量为0.1%甲酸的乙腈异丙醇溶液,所述乙腈异丙醇溶液含体积百分含量为10%的乙腈和体积百分含量为90%的异丙醇(含10mM乙酸铵、0.1%甲酸的10%乙腈、90%异丙醇溶液);色谱梯度洗脱条件优选为:0~0.5分钟为40%B,0.5~0.6分钟为40%B~50%B逐渐递增,0.6~6.6分钟为50%~60%逐渐递增,6.6~6.7分钟为60%B~75%B逐渐递增,6.7~9.7分钟为75%B~99%B逐渐递增,9.7~14分钟为保持99%B,14~14.5分钟迅速由99%B递减为40%B,然后40%B持续4.5分钟;流速为0.3ml/min。在本发明中,对每个分析样本采用LC-MS血清靶向代谢组学技术进行分析时,质谱检测优选使用三重四级杆质谱仪QTRAP 6500,并优选采用电喷雾离子源的正离子模式ESI+,离子源温度为350℃,反吹气设置为35,gas1和gas2均设置为60和10;喷雾电压为+5.5kV;采集模式为多反应监测模式(MRM)。
得到各血清样本的靶向代谢组图谱后,本发明使用Multiquant软件对食管癌血清样本和健康血清样本的靶向代谢组图谱进行图谱处理,得到每行为代谢物信息,每列为分析样本的标志物二维矩阵,用于进一步的机器学习。
得到二维矩阵后,本发明根据所述诊断标志物的二维矩阵,使用机器学习支持向量机构建分类模型,得到食管癌诊断模型。在本发明中,所述模型的构建时,优选基于以下的样本数目进行构建:所用的食管癌患者98人,健康人群98人。在本发明中,使用机器学习SVM构建诊断模型时,所用的样本数目及来源优选如下:用于训练集的75例食管癌患者及75例健康对照与用于特征筛选的样本(共150例)相同,用于测试集的23例食管癌患者及23例健康对照来源于同一医院的不同期样本。在本发明中,构建SVM分类模型时,建模参数C=5。
当适合于食管癌诊断的诊断标志物为22种血清代谢标志物的组合(包含溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:2、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC 16:0-20:3、磷脂酰胆碱PC 18:0-18:3、磷脂酰胆碱PC 18:2-18:2、磷脂酰胆碱PC 18:0-20:4、磷脂酰胆碱PC 16:0-22:6、鞘磷脂SMd18:1/16:0、鞘磷脂SM d18:1/22:0、鞘磷脂SM d18:1/24:0、鞘磷脂SM d18:2/24:0、鞘磷脂SM d18:2/24:1、胆固醇酯18:2、磷脂酰乙醇胺PE 18:1e/18:2、磷脂酰乙醇胺PE 16:1e/20:4、磷脂酰乙醇胺PE 18:1e/20:4、磷脂酰乙醇胺PE 18:2e/20:4、甘油三酯TAG 16:0-18:1-18:2、甘油三酯TAG 18:1-18:1-18:2时),所得的诊断模型的ROC曲线下面积AUC值为0.89,对于食管癌具有很好的诊断效能。
当诊断模型所用的诊断标志物为10种血清代谢标志物的组合(包含溶血磷脂酰胆碱LPC 18:2、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-20:3、磷脂酰胆碱PC 18:2-18:2、磷脂酰胆碱PC 18:0-20:4、磷脂酰胆碱PC 16:0-22:6、鞘磷脂SM d18:1/16:0、鞘磷脂SM d18:2/24:0、磷脂酰乙醇胺PE 16:1e/20:4)时,诊断模型的ROC曲线下面积AUC值为0.92,对于食管癌具有很好的诊断效能。
本发明所述食管癌诊断模型的构建方法简单,对于食管癌具有较高的灵敏度和特异性,为食管癌早诊早治提供了有效的技术支持。
利用本发明食管癌诊断模型诊断食管癌时,仅通过取血就能进行诊断,方便快捷无内创,对于食管癌的诊断灵敏度高、特异性好,具有很好的临床应用价值。
本发明还提供了上述技术方案所述构建方法构建得到的食管癌诊断模型。
本发明还提供了基于上述技术方案所述诊断标志物在制备食管癌诊断试剂盒中的应用。
本发明还提供了一种食管癌诊断试剂盒,包括上述技术方案所述诊断标志物。本发明所述试剂盒可用于食管癌诊断,尤其是早期诊断。
具体的,本发明对75例食管癌患者的血清样本,与75例健康对照血清样本进行分析,使用高效液相色谱质谱联用仪(LC-MS)分别获得了正负离子模式下1351个及714个小分子代谢物的指纹图谱,经过对食管癌患者及健康正常对照的小分子代谢物的指纹图谱进行基于支持向量机的机器学习手段进行分析与特征筛选,并结合基于质谱的优化筛选,得到适合于食管癌诊断的诊断标志物,针对这些诊断标志物进行靶向代谢组方法的建立,并利用机器学习对检测数据构建模型,得到食管癌诊断模型,利用该模型可以快速的诊断出是否为食管癌,具有准确、高灵敏度、普适性强,具有临床使用和推广价值。
本发明中,所述食管癌患者的血清样本是指,2015年1月至2018年12月经术后病理确诊的食管癌患者的术前血清。除外有其他系统恶性肿瘤,术前接受过放化疗癌治疗以及手术治疗的患者。
本发明的诊断标志物和诊断模型可以将无症状或症状不明显的食管癌诊断出来,方法简便快捷并且没有内创,可以减轻受测者的痛苦,提高受试者筛查主动性和依从性,对于食管癌的早诊早治以及改善患者预后、提高患者生存率具有十分重要的意义。
下面结合具体实施例对本发明所述的一种食管癌诊断的诊断标志物、试剂盒及筛选方法和食管癌诊断模型的构建方法做进一步详细的介绍,本发明的技术方案包括但不限于以下实施例。
实施例1
食管癌诊断标志物的筛选
1.研究对象
本研究共包含75例食管癌患者血清样本以及75例体检正常的健康对照血清样本。其中食管癌的诊断标准是经手术后病理学确诊。这些研究对象的基本信息见表1。
表1.非靶向代谢组学研究的食管癌患者基线及病理特征
健康对照(n=75) 食管癌(n=75)
年龄 平均值(标准差) 42.41(12.34) 62.09(10.96)
性别 男性,例数(%) 46(61%) 66(88%)
女性,例数(%) 29(39%) 9(12%)
2.应用液相色谱质谱联用技术的血清非靶向代谢组学分析
所有血清样本离心后置于-80℃冰箱内保存。研究时取出血清样本,经样品预处理后,使用高效液相色谱质谱联用仪进行代谢组学分析,获得包含色谱和质谱信息的样本原始代谢指纹图谱。具体操作如下:
2.1仪器和试剂
实验仪器包括:高效液相色谱质谱联用仪(U3000/QEaxctive,Thermo Fisher)、高速低温离心机(Beckman)、振动涡旋仪、离心浓缩仪、4℃冷藏冰箱、纯水仪(Millipore)。
实验耗材包括:Waters Xselect CSH C18色谱柱(规格为100×2.1mm,2.5μm)、2mlEP管、1.5ml进样瓶、300μl内插管、移液器、1000μl枪头、200μl枪头、记号笔、乳胶手套、口罩。
实验试剂包括:甲醇(Thermo Fisher,质谱级纯)、乙腈(Thermo Fisher,质谱级纯)、异丙醇(Thermo Fisher,质谱级纯)、甲酸(Sigma)、纯水(TOC<10ppb)。
2.2血清样本预处理
进行血清样本预处理之前,制备质量控制样品(QC)(自每份食管癌血清样本和健康血清样本中分别取出10μl进行混合然后分装)。将所有食管癌血清样本和健康血清样本与质量控制样品一起进行样品预处理,具体操作如下:
(1)用移液器吸取50μl分析样本或质量控制样品,置于2.0ml EP(eppendorf)管中;
(2)加入200μl氯仿甲醇萃取液(2:1,V/V)混合,震荡15分钟,4℃12000转离心20分钟,分别吸取下层脂质,在真空浓缩仪中蒸干。
(3)将干粉用氯仿甲醇复溶液(1:1,V/V)复溶后,在高速离心机中于4℃下以12000转/分离心10分钟;
(4)将步骤(3)的上清液转移入LC-MS进样瓶中,保存在-80℃下以备LC-MS检测。
2.3血清非靶向代谢组学检测
将处理后的所有食管癌血清样本和健康血清样本作为分析样本,打乱顺序后随机化排序进样,以排除进样顺序带来的偏倚。每隔10个分析样本加入一个质量控制样品。所用液相色谱、质谱方法如下:
流动相:A为含10mM乙酸铵、0.1%甲酸的60%乙腈、40%水溶液;B为含10mM乙酸铵、0.1%甲酸的10%乙腈、90%异丙醇溶液;
流速:0.3ml/min;柱温:50℃;进样体积:10μl;
色谱梯度洗脱条件:0-2分钟为40%B-43%B逐渐递增,2-2.1分钟为43%B-50%B逐渐递增,2.1-10分钟为50%B至60%B逐渐递增,10-10.1分钟为60%B至75%B逐渐递增,10.1-16分钟为75%B至99%B逐渐递增,16-17分钟为保持99%B,17-18分钟由99%B递减为40%B,然后40%B持续1分钟。
质谱方法:采用电喷雾离子源的正离子模式ESI+和负离子模式ESI-,离子源温度为320℃,反吹气设置为2,脱溶剂气温为300℃,鞘气和辅气分别设置为40和10;在正离子和负离子模式下毛细管电压分别为+3.3kV和-3kV,锥孔电压均为0V;采集的模式为数据依赖模式(DDA);一级质谱图谱数据采集的质荷比范围为190~1200m/z,采集分辨率为35000,目标离子数目为5x106,最大离子注入时间为80ms;二级质谱采集分辨率为17500,目标离子数目为1x105,最大离子注入时间为70ms,循环次数为10次,碰撞能量为15、30、45。
3.血清代谢标志物筛选
按照上述色谱质谱条件对样本进行分析,获得所有样本的原始代谢指纹图谱。图1为各组样本的典型总离子流色谱图(EICs),A为正离子模式下的健康对照血清样本,B为正离子模式下的食管癌患者血清样本,C为负离子模式下的健康对照血清样本,D为负离子模式下的食管癌患者血清样本。随后采用人工智能分析技术对原始代谢指纹图谱进行学习,以筛选能够区分食管癌患者与健康人群的生物标志物,具体操作如下:
3.1图谱数据预处理
使用高效液相色谱质谱联用仪在正离子ESI+和负离子ESI-下分别检测获得血清样本的原始代谢指纹图谱后,使用Reifycs file converter软件将图谱转换为ABF格式文件,然后使用MS-Dial软件进行包括保留时间校正、峰识别、峰匹配、峰对齐、过滤噪声、数据标准化等在内的预处理。参数设置为:一级质谱质量偏差设置为0.01Da,二级质谱质量偏差设置为0.05Da,其他参数为默认值。处理后得到每行为代谢物,每列为分析样本,中值为相应代谢物浓度的二维矩阵。其中每个代谢物峰使用保留时间和质荷比进行定性,对其进行包括同位素峰、加合物和碎片离子在内的代谢物峰标识及峰面积积分。图谱预处理后,共得到正离子模式下1351个和负离子模式下714个小分子代谢物峰,可用于进一步的机器学习。图2为正离子和负离子模式下鉴定到的代谢物类别和占比。
3.2LC-MS实验质量控制
进行LC-MS血清非靶向代谢组学分析时,将制备的QC样品按每10个分析样本安排一个QC样品的顺序均匀地插入分析样本中,用于实时监测分析样本从进样预处理到分析检测过程中的质量控制情况,所得原始代谢指纹图谱经MS-Dial软件预处理后,计算每个代谢物在QC样本中的变异系数(%RSD),绝大多数代谢物的变异系数控制在30%以下,说明样本在进样预处理到分析检测过程中的质量控制情况良好,所获得的代谢组学数据真实可信。
3.3机器学习SVM建模
使用机器学习支持向量机(support vector machine,SVM)算法学习图谱预处理得到的二维矩阵数据,随机将上述食管癌及健康对照血清样本数据的3/4作为训练集trainset,1/4作为测试集test set进行学习,并随机循环迭代2000次,获得的模型见表2,正离子模式下,灵敏度(sensitivity)、特异度(specificity)和准确度(accuracy)的平均值(mean)和中位数(median)均在0.94以上,表明该SVM模型对食管癌患者与健康人群的代谢组数据分类较好,可准确区分食管癌患者与健康人群。
表2.基于支持向量机(SVM)的机器学习方法建立的用于特征筛选的分类模型性能
Figure BDA0002700979810000171
Figure BDA0002700979810000181
3.4血清代谢标志物筛选及鉴定
根据上述得到的SVM模型,通过基于机器学习的特征筛序,借助SVM建模的特征重要性评分并不断累加重要特征形成待测模型,评估模型分类准确度以显示不同模型的分类效能,并最终展示相对最优特征数及组合方式的筛选,筛选最优特征数及组合方式的标准为:增加特征数时模型准确度不再上升。图3为SVM模型的特征选择得分图,A为正离子模式鉴定特征的模型准确度得分图,B为负离子模式鉴定特征的模型准确度得分图。本发明选择正离子模式及负离子模式下共44个特征作为差异代谢物(除去正负离子模式下的重复特征),使用这44个特征单独进行模型分类即可获得80%以上的准确度。
随后根据这些潜在代谢标志物的一级和二级质谱信息,推测标志物的分子质量和分子式,并且与代谢物谱图数据库(LipidBlast)中的谱图信息进行比对,从而对代谢物进行鉴定。
根据上述鉴定方法,本发明成功鉴定出44个血清代谢标志物作为适合于食管癌诊断的诊断标志物,能够尽早实现食管癌的诊断。见表3,这些标志物是溶血磷脂酰胆碱LPC16:0、溶血磷脂酰胆碱LPC 18:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 18:2、溶血磷脂酰胆碱LPC 20:3、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC 16:1e/18:2、磷脂酰胆碱PC 16:0-20:3、磷脂酰胆碱PC 18:1-18:2、磷脂酰胆碱PC 18:0-18:3、磷脂酰胆碱PC 18:2-18:2、磷脂酰胆碱PC 16:0-20:4、磷脂酰胆碱PC 16:0e/20:4、磷脂酰胆碱PC 16:0-20:5、磷脂酰胆碱PC 18:0-20:4、磷脂酰胆碱PC 16:0-22:6、磷脂酰胆碱PC 18:0-22:6、鞘磷脂SM d18:1/16:0、鞘磷脂SM d18:2/18:0、鞘磷脂SM d18:1/20:0、鞘磷脂SM d18:1/22:0、鞘磷脂SMd18:1/23:0、鞘磷脂SM d18:2/23:0、鞘磷脂SM d18:1/24:0、鞘磷脂SM d18:2/24:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、胆固醇酯18:1、胆固醇酯18:2、胆固醇酯22:6、磷脂酰乙醇胺PE 18:1e/18:2、磷脂酰乙醇胺PE 18:2-18:2、磷脂酰乙醇胺PE 16:1e/20:4、磷脂酰乙醇胺PE 18:1e/20:4、磷脂酰乙醇胺PE 16:0-22:6、磷脂酰乙醇胺PE 18:2e/20:4、磷脂酰肌醇PI 18:0-20:4、甘油三酯TAG 16:0-18:0-18:1、甘油三酯TAG 16:0-18:1-18:2、甘油三酯TAG 16:1-18:1-18:2、甘油三酯TAG 18:1-18:1-18:2。经查阅已发表文献,这44个血清代谢标志物均为首次在食管癌诊断中发现,对于食管癌的诊断与治疗具有十分重要的意义,可实现食管癌的早期诊断。在使用这些血清代谢标志物作为诊断标志物构建诊断模型和进行诊断应用时,可以将其单独使用或是组合使用。
表3. 44种血清代谢标志物
Figure BDA0002700979810000191
Figure BDA0002700979810000201
Figure BDA0002700979810000211
实施例2
使用22个血清代谢标志物进行的食管癌诊断模型的构建
1.研究对象
本研究共包含98例食管癌患者血清样本以及98例体检正常的健康对照血清样本。其中用于训练集的75例食管癌患者及75例健康对照与特征筛选样本(150例)为相同样本,用于测试集的23例食管癌患者及23例健康对照来源于同一医院的非同期样本。其中食管癌的诊断标准是经术后病理学确诊食管癌。在测试集中新增的研究对象的基本信息见表4。
表4.食管癌诊断靶向代谢组学研究中测试集研究对象的基线特征
训练集(n=150) 测试集(n=46)
年龄 平均值(标准差) 52.17(15.22) 55.61(15.27)
性别 男性,例数(%) 112(75%) 33(72%)
女性,例数(%) 38(25%) 13(28%)
2.应用液相色谱质谱联用技术的血清靶向代谢组学分析
所有血清样本离心后置于-80℃冰箱内保存。研究时取出血清样本,经样品预处理后,使用高效液相色谱质谱联用仪进行靶向代谢组学分析,获得包含色谱和质谱信息的样本靶向代谢组图谱。具体操作如下:
2.1仪器和试剂
实验仪器包括:高效液相色谱质谱联用仪(Nexera UHPLC system,Shimazu;QTRAP6500,AB Sciex)、高速低温离心机(Beckman)、振动涡旋仪、离心浓缩仪、4℃冷藏冰箱、纯水仪(Millipore)。
实验耗材包括:Waters Xselect CSH C18色谱柱(规格为100×2.1mm,2.5μm)、2mlEP管、1.5ml进样瓶、300μl内插管、移液器、1000μl枪头、200μl枪头、记号笔、乳胶手套、口罩。
实验试剂包括:甲醇(Thermo Fisher,质谱级纯)、乙腈(Thermo Fisher,质谱级纯)、异丙醇(Thermo Fisher,质谱级纯)、甲酸(Sigma)、纯水(TOC<10ppb)。
2.2血清样本预处理
进行血清样本预处理之前,制备质量控制样品(QC)(自每份食管癌血清样本和健康血清样本中分别取出10μl进行混合然后分装)。将所有食管癌血清样本和健康血清样本与质量控制样品一起进行样品预处理,具体操作如下:
(1)用移液器吸取50μl分析样本或质量控制样品,置于2.0ml EP(eppendorf)管中;
(2)加入200μl氯仿甲醇萃取液(2:1,V/V)混合,震荡15分钟,4℃12000转离心20分钟,分别吸取下层脂质,在真空浓缩仪中蒸干。
(3)将干粉用氯仿甲醇复溶液(1:1,V/V)复溶后,在高速离心机中于4℃下以12000转/分离心10分钟;
(4)将步骤(3)的上清液转移入LC-MS进样瓶中,保存在-80℃下以备LC-MS检测。
2.3血清靶向代谢组学检测
将处理后的所有食管癌血清样本和健康血清样本作为分析样本,打乱顺序后随机化排序进样,以排除进样顺序带来的偏倚。每隔10个分析样本加入一个质量控制样品。所用液相色谱、质谱方法如下:
流动相:A为含10mM乙酸铵、0.1%甲酸的60%乙腈、40%水溶液;B为含10mM乙酸铵、0.1%甲酸的10%乙腈、90%异丙醇溶液;
流速:0.3ml/min;柱温:50℃;进样体积:5μl;
色谱梯度洗脱条件:0-0.5分钟为40%B,0.5-0.6分钟为40%B-50%B逐渐递增,0.6-6.6分钟为50%B到60%B逐渐递增,6.6-6.7分钟为60%B-75%B逐渐递增,6.7-9.7分钟为75%B-99%B逐渐递增,9.7-14分钟为保持99%B,14-14.5分钟由99%B递减为40%B,然后40%B持续4.5分钟。
质谱方法:离子源温度为350℃,反吹气设置为35,gas1和gas2均设置为60和10;喷雾电压为+5.5kV;采集模式为多反应监测模式(MRM)。采集的质荷比为表2中所列44种血清代谢标志物的质荷比,采集分辨率为17500,目标离子数目为1x105,最大离子注入时间为50ms,隔离窗口为4.0m/z,碰撞能量为30。
3.诊断模型构建
按照上述色谱质谱条件对样本进行分析,获得所有样本的靶向代谢组图谱,典型选择离子色谱图(EIC)见图4。随后使用机器学习SVM学习靶向代谢组图谱数据,构建能够区分食管癌患者与健康人群的食管癌诊断模型,具体操作如下:
3.1图谱数据预处理
使用高效液相色谱质谱联用仪在正离子ESI+下检测获得血清样本的靶向代谢组图谱后,使用MultiQuant软件根据2.3步骤的质谱方法中采集的质荷比列表提取所有血清代谢标志物的峰面积信息,得到每行为代谢物,每列为分析样本,中值为相应代谢物浓度的二维矩阵,以用于进一步的机器学习。
3.2LC-MS实验质量控制
进行LC-MS血清靶向代谢组学分析时,将制备的QC样品按每10个分析样本安排一个QC样品的顺序均匀地插入分析样本中,用于实时监测分析样本从进样预处理到分析检测过程中的质量控制情况,计算每个血清代谢标志物在QC样本中的变异系数(%RSD),所有血清代谢标志物的变异系数控制在15%以下,说明样本在进样预处理到分析检测过程中的质量控制情况良好,所获得的代谢组学数据真实可信。
3.3机器学习SVM建模与诊断性能测试
使用机器学习支持向量机(support vector machine,SVM)算法学习图谱预处理得到的二维矩阵数据,将75例食管癌患者及75例健康对照作为训练集学习以构建模型,建模参数C=5,将23例食管癌患者及23例健康对照作为测试集进行外部验证。当学习的二维矩阵数据为22种血清代谢标志物(包含溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:2、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC 16:0-20:3、磷脂酰胆碱PC 18:0-18:3、磷脂酰胆碱PC 18:2-18:2、磷脂酰胆碱PC18:0-20:4、磷脂酰胆碱PC 16:0-22:6、鞘磷脂SM d18:1/16:0、鞘磷脂SM d18:1/22:0、鞘磷脂SM d18:1/24:0、鞘磷脂SM d18:2/24:0、鞘磷脂SM d18:2/24:1、胆固醇酯18:2、磷脂酰乙醇胺PE 18:1e/18:2、磷脂酰乙醇胺PE 16:1e/20:4、磷脂酰乙醇胺PE 18:1e/20:4、磷脂酰乙醇胺PE 18:2e/20:4、甘油三酯TAG 16:0-18:1-18:2、甘油三酯TAG 18:1-18:1-18:2)的数据时,所获模型的灵敏度(sensitivity)、特异度(specificity)和准确度(accuracy)以及ROC曲线下面积AUC见表5。图5为使用22个血清代谢标志物构建的食管癌诊断模型的ROC曲线图,其中A为训练集,B为测试集,可以看出构建的诊断模型对食管癌具有很高的灵敏度、特异度、准确度和ROC曲线下面积AUC值,能够实现食管癌的早期诊断。
表5.使用22个血清代谢标志物构建的食管癌诊断模型的分类性能
Figure BDA0002700979810000251
实施例3
使用10个血清代谢标志物进行的食管癌诊断模型的构建
本实施例与实施例2的研究对象、检测分析方法相同,仅在步骤3.3机器学习SVM建模时,使用10种血清代谢标志物(包含溶血磷脂酰胆碱LPC 18:2、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-20:3、磷脂酰胆碱PC 18:2-18:2、磷脂酰胆碱PC 18:0-20:4、磷脂酰胆碱PC 16:0-22:6、鞘磷脂SM d18:1/16:0、鞘磷脂SM d18:2/24:0、磷脂酰乙醇胺PE 16:1e/20:4)的二维矩阵数据进行机器学习和建模,所获模型的灵敏度(sensitivity)、特异度(specificity)和准确度(accuracy)以及AUC值见表6。图6为使用10个血清代谢标志物构建的食管癌诊断模型的ROC曲线图,其中A为训练集,B为测试集。可以看出构建的诊断模型对食管癌具有较高的灵敏度、特异度、准确度和ROC曲线下面积AUC值,能够实现食管癌的早期诊断。
表6.使用10个血清代谢标志物构建的食管癌诊断模型的分类性能
Figure BDA0002700979810000261
现今常用的内镜下活检的诊断方法的准确性受到较多因素影响,且尚无成熟的食管癌特异的血清标志物应用于临床。目前普遍认为当诊断方法的AUC>0.7时,该方法即具有较好的诊断效果,而本发明构建的诊断模型的各项指标均大于0.85,AUC值可以达到0.91以上。因此,本发明的诊断模型可以有效地诊断出食管癌,降低食管癌漏检率,非常有利于食管癌的早诊早治,对于改善食管癌预后,降低食管癌的死亡率有很大帮助,具有良好的临床使用和推广价值。
在实际应用中,可以按照本发明建模方法选取更多的样本进行建模,增加模型的准确度。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种食管癌诊断的诊断标志物,其特征在于,所述诊断标志物包括以下44种血清代谢标志物中的任意一种或多种:溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 18:2、溶血磷脂酰胆碱LPC 20:3、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC 16:1e/18:2、磷脂酰胆碱PC 16:0-20:3、磷脂酰胆碱PC 18:1-18:2、磷脂酰胆碱PC 18:0-18:3、磷脂酰胆碱PC 18:2-18:2、磷脂酰胆碱PC 16:0-20:4、磷脂酰胆碱PC 16:0e/20:4、磷脂酰胆碱PC 16:0-20:5、磷脂酰胆碱PC 18:0-20:4、磷脂酰胆碱PC 16:0-22:6、磷脂酰胆碱PC 18:0-22:6、鞘磷脂SM d18:1/16:0、鞘磷脂SM d18:2/18:0、鞘磷脂SM d18:1/20:0、鞘磷脂SM d18:1/22:0、鞘磷脂SM d18:1/23:0、鞘磷脂SM d18:2/23:0、鞘磷脂SM d18:1/24:0、鞘磷脂SM d18:2/24:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、胆固醇酯18:1、胆固醇酯18:2、胆固醇酯22:6、磷脂酰乙醇胺PE 18:1e/18:2、磷脂酰乙醇胺PE 18:2-18:2、磷脂酰乙醇胺PE 16:1e/20:4、磷脂酰乙醇胺PE 18:1e/20:4、磷脂酰乙醇胺PE 16:0-22:6、磷脂酰乙醇胺PE 18:2e/20:4、磷脂酰肌醇PI 18:0-20:4、甘油三酯TAG16:0-18:0-18:1、甘油三酯TAG 16:0-18:1-18:2、甘油三酯TAG 16:1-18:1-18:2和甘油三酯TAG 18:1-18:1-18:2。
2.根据权利要求1所述的诊断标志物,其特征在于,所述诊断标志物包括以下22种血清代谢标志物中的任意一种或多种:溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:2、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC 16:0-20:3、磷脂酰胆碱PC 18:0-18:3、磷脂酰胆碱PC 18:2-18:2、磷脂酰胆碱PC 18:0-20:4、磷脂酰胆碱PC 16:0-22:6、鞘磷脂SM d18:1/16:0、鞘磷脂SM d18:1/22:0、鞘磷脂SMd18:1/24:0、鞘磷脂SM d18:2/24:0、鞘磷脂SM d18:2/24:1、胆固醇酯18:2、磷脂酰乙醇胺PE 18:1e/18:2、磷脂酰乙醇胺PE 16:1e/20:4、磷脂酰乙醇胺PE 18:1e/20:4、磷脂酰乙醇胺PE 18:2e/20:4、甘油三酯TAG 16:0-18:1-18:2和甘油三酯TAG 18:1-18:1-18:2。
3.根据权利要求1所述的诊断标志物,其特征在于,所述诊断标志物包括以下10种血清代谢标志物中的任意一种或多种:溶血磷脂酰胆碱LPC 18:2、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-20:3、磷脂酰胆碱PC 18:2-18:2、磷脂酰胆碱PC 18:0-20:4、磷脂酰胆碱PC 16:0-22:6、鞘磷脂SM d18:1/16:0、鞘磷脂SM d18:2/24:0和磷脂酰乙醇胺PE 16:1e/20:4。
4.一种食管癌诊断标志物的筛选方法,包括以下步骤:
(1)分别收集食管癌患者和健康人群的血清样本作为分析样本;
(2)采用液相色谱质谱联用技术分别对每个分析样本进行非靶向代谢组学分析,得到各血清样本的原始代谢指纹图谱;
(3)使用MS-Dial软件对食管癌患者的血清样本和健康人群的血清样本的原始代谢指纹图谱分别进行图谱处理,得到每行为代谢物信息,每列为分析样本的二维矩阵;并且对二维矩阵进行包括同位素峰、加合物和碎片离子在内的代谢物峰标识及峰面积积分,用于进一步的机器学习;
(4)使用机器学习支持向量机算法学习步骤(3)的二维矩阵数据,随机将上述食管癌及健康对照血清样本数据的3/4作为训练集,1/4作为测试集进行学习,并随机循环迭代2000次,通过统计最终支持向量机模型准确度的平均值,确定该支持向量机模型可有效对食管癌患者与健康人群的代谢组数据进行分类;
(5)根据上述得到的支持向量机模型,通过基于机器学习的特征筛序,借助支持向量机建模的特征重要性评分并不断累加重要特征形成待测模型,评估模型分类准确度以显示不同模型的分类效能,并最终展示相对最优特征数及组合方式;所述筛选最优特征数及组合方式的标准为:增加特征数时模型准确度不再上升;
(6)将上述筛选得到的最优特征即目标差异代谢物进行基于质谱的优化筛选,使用MS-Dial软件根据色谱峰型及二级质谱图数据质量筛选并获得潜在代谢标志物;
(7)根据上述潜在代谢标志物的一级和二级质谱信息,推测标志物的分子质量和分子式,并且与代谢物谱图数据库中的谱图信息进行比对,从而对代谢物进行鉴定,得到适合于食管癌诊断的血清代谢标志物。
5.一种基于权利要求1~3任一项所述诊断标志物的食管癌诊断模型的构建方法,包含以下步骤:
1)收集食管癌患者和健康人群的血清样本作为分析样本;
2)采用液相色谱质谱联用技术对每个分析样本进行诊断标志物的靶向代谢组学分析,得到各血清样本的靶向代谢组图谱;
3)使用Multiquant软件对食管癌血清样本和健康血清样本的靶向代谢组图谱进行图谱处理,得到每行为代谢物信息,每列为分析样本的标志物二维矩阵,用于进一步的机器学习;
4)根据所述诊断标志物的二维矩阵,使用机器学习支持向量机构建分类模型,得到食管癌诊断模型。
6.权利要求5所述构建方法构建得到的食管癌诊断模型。
7.基于权利要求1~3任一项所述诊断标志物在制备食管癌诊断试剂盒中的应用。
8.一种食管癌诊断试剂盒,其特征在于,包括权利要求1~3任一项所述诊断标志物。
CN202011022045.0A 2020-09-25 2020-09-25 一种食管癌诊断的诊断标志物、试剂盒及筛选方法和食管癌诊断模型的构建方法 Active CN112151121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011022045.0A CN112151121B (zh) 2020-09-25 2020-09-25 一种食管癌诊断的诊断标志物、试剂盒及筛选方法和食管癌诊断模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011022045.0A CN112151121B (zh) 2020-09-25 2020-09-25 一种食管癌诊断的诊断标志物、试剂盒及筛选方法和食管癌诊断模型的构建方法

Publications (2)

Publication Number Publication Date
CN112151121A true CN112151121A (zh) 2020-12-29
CN112151121B CN112151121B (zh) 2024-05-07

Family

ID=73897021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011022045.0A Active CN112151121B (zh) 2020-09-25 2020-09-25 一种食管癌诊断的诊断标志物、试剂盒及筛选方法和食管癌诊断模型的构建方法

Country Status (1)

Country Link
CN (1) CN112151121B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113466370A (zh) * 2021-06-30 2021-10-01 郑州大学第一附属医院 一种用于食管鳞癌早期筛查的标志物及检测试剂盒
CN113777181A (zh) * 2021-07-07 2021-12-10 郑州大学第一附属医院 一种用于诊断早期食管癌的标志物及试剂盒
WO2022166935A1 (zh) * 2021-02-05 2022-08-11 中国医学科学院阜外医院 基于代谢组学数据的心血管病发病风险评估标志物及应用
CN116027041A (zh) * 2023-01-13 2023-04-28 郑州大学第一附属医院 口腔癌辅助诊断标志物、试剂盒及其应用
CN116430049A (zh) * 2023-04-03 2023-07-14 汕头大学医学院 食管癌的代谢标志物及其应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105044361A (zh) * 2015-08-14 2015-11-11 山东省肿瘤防治研究院 一种适合于食管鳞状细胞癌早期诊断的诊断标记物及其筛选方法
CN109884302A (zh) * 2019-03-14 2019-06-14 北京博远精准医疗科技有限公司 基于代谢组学和人工智能技术的肺癌早期诊断标志物及其应用
CN110646554A (zh) * 2019-09-12 2020-01-03 北京博远精准医疗科技有限公司 基于代谢组学的胰腺癌诊断标志物及其筛选方法和应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105044361A (zh) * 2015-08-14 2015-11-11 山东省肿瘤防治研究院 一种适合于食管鳞状细胞癌早期诊断的诊断标记物及其筛选方法
CN109884302A (zh) * 2019-03-14 2019-06-14 北京博远精准医疗科技有限公司 基于代谢组学和人工智能技术的肺癌早期诊断标志物及其应用
CN110646554A (zh) * 2019-09-12 2020-01-03 北京博远精准医疗科技有限公司 基于代谢组学的胰腺癌诊断标志物及其筛选方法和应用

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022166935A1 (zh) * 2021-02-05 2022-08-11 中国医学科学院阜外医院 基于代谢组学数据的心血管病发病风险评估标志物及应用
CN113466370A (zh) * 2021-06-30 2021-10-01 郑州大学第一附属医院 一种用于食管鳞癌早期筛查的标志物及检测试剂盒
CN113777181A (zh) * 2021-07-07 2021-12-10 郑州大学第一附属医院 一种用于诊断早期食管癌的标志物及试剂盒
CN116027041A (zh) * 2023-01-13 2023-04-28 郑州大学第一附属医院 口腔癌辅助诊断标志物、试剂盒及其应用
CN116027041B (zh) * 2023-01-13 2023-12-05 郑州大学第一附属医院 口腔癌辅助诊断标志物、试剂盒及其应用
CN116430049A (zh) * 2023-04-03 2023-07-14 汕头大学医学院 食管癌的代谢标志物及其应用
CN116430049B (zh) * 2023-04-03 2023-10-31 汕头大学医学院 食管癌的代谢标志物及其应用

Also Published As

Publication number Publication date
CN112151121B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN109884302B (zh) 基于代谢组学和人工智能技术的肺癌早期诊断标志物及其应用
CN110646554B (zh) 基于代谢组学的胰腺癌诊断标志物及其筛选方法和应用
CN112151121B (zh) 一种食管癌诊断的诊断标志物、试剂盒及筛选方法和食管癌诊断模型的构建方法
CN108414660B (zh) 一组与肺癌早期诊断相关的血浆代谢小分子标志物的应用
CN111289736A (zh) 基于代谢组学的慢阻肺早期诊断标志物及其应用
CN115932277A (zh) 一种乳腺癌诊断标志物及其筛选方法、定量方法、诊断模型的构建方法及应用
CN113960235B (zh) 生物标志物在制备肺癌检测试剂中的用途和方法
CN112183616B (zh) 一种脑胶质瘤诊断的诊断标志物、试剂盒及筛选方法和脑胶质瘤诊断模型的构建方法
CN111562338B (zh) 透明肾细胞癌代谢标志物在肾细胞癌早期筛查和诊断产品中的应用
CN109307764B (zh) 一组代谢标志物在制备胶质瘤诊断试剂盒方面的应用
CN108680745A (zh) 血清脂质生物标志物在nsclc早期诊断中的应用方法
CN116413432A (zh) 基于肠道菌群代谢组学的胰腺癌诊断标志物及其筛选方法和应用
CN109946411B (zh) 用于胸椎黄韧带骨化诊断的生物标记物及其筛选方法
CN117368476B (zh) 七种代谢标志物的检测试剂在制备乳腺癌诊断和预后产品中的应用
CN109946467B (zh) 一种用于胸椎黄韧带骨化诊断的生物标记物
CN115575553A (zh) 血清代谢标志物作为检测egfr突变的应用以及检测系统
CN113484518B (zh) 一种区分肺部疾病的诊断生物标志物
CN109444277B (zh) 代谢标志物在制备胶质瘤诊断试剂盒方面的应用
CN114280202A (zh) 一种用于诊断镉中毒的生物标志物及其应用
CN113466370A (zh) 一种用于食管鳞癌早期筛查的标志物及检测试剂盒
CN113533560A (zh) 基于代谢组学的食管癌早期筛查标志物及其试剂盒
CN112834652B (zh) 急性主动脉夹层患者特异性生物标志组合物及其用途
CN113447586B (zh) 一种用于贲门癌筛查的标志物及检测试剂盒
CN116183922B (zh) 口腔鳞状细胞癌诊断模型的构建方法、标志物及其应用
CN114414819B (zh) 诊断尘肺病的生物标志物及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant