CN109884302B

CN109884302B - 基于代谢组学和人工智能技术的肺癌早期诊断标志物及其应用

Info

Publication number: CN109884302B
Application number: CN201910190961.6A
Authority: CN
Inventors: 尹玉新; 王光熙; 周骏拓
Original assignee: Beijing Boyuan Precision Medical Technology Co ltd
Current assignee: Beijing Boyuan Precision Medical Technology Co ltd
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2023-02-03
Anticipated expiration: 2039-03-14
Also published as: CN109884302A

Abstract

本发明公开了基于代谢组学的肺癌早期诊断标志物及其筛选方法，所述诊断标志物包含25种血浆代谢标志物的任意一种或多种的组合。本发明还提供了使用所述肺癌早期诊断标志物构建诊断模型的方法及其在诊断试剂盒中的应用。本发明通过高效液相色谱质谱联用技术对患者血浆进行非靶标代谢组学分析，通过人工智能数据分析技术发现肺癌患者与正常人群之间的差异代谢物，进一步通过靶标代谢组学分析及机器学习建模验证所述特异性差异代谢物即肺癌早期诊断标志物在肺癌早期诊断中的诊断能力。

Description

基于代谢组学和人工智能技术的肺癌早期诊断标志物及其应用

技术领域

本发明属于临床检验诊断领域，具体涉及基于代谢组学和人工智能分析技术的肺癌早期诊断标志物，所述诊断标志物的筛选方法、应用所述诊断标志物构建诊断模型的方法及所述诊断标志物在肺癌早期诊断中的应用。

背景技术

肺癌(lung cancer)是对人类健康和生命威胁最大的恶性肿瘤之一。根据中国国家癌症中心在2018年2月发布的全国癌症统计数据，肺癌是我国发病率、死亡率第一位的恶性肿瘤。肺癌的常见致病因素包括吸烟、职业和环境接触、电离辐射、既往肺部慢性感染、大气污染、遗传等。肺癌的早期症状并不明显，发现时经常已是中晚期，因此患者的五年生存率较低(不足20％)。近年来随着分子靶向疗法和免疫疗法的出现，肺癌的治疗取得了巨大进展。因此，若能在无症状或症状不明显的早期发现肺癌，及时进行针对性治疗，能够极大地提高肺癌病人的生存率和治愈率。

在我国，目前来说肺癌的诊断流程通常是体格检查、胸片、血液检查提示疑似肺癌，然后经胸部CT、PET-CT、组织取样检查(如痰细胞学检查、胸腔穿刺、肺活检)进行确诊。我国目前的肺癌早期检出率很低(2-5％)，因此，开发出一种简单便捷的新型肺癌早期诊断方法将具有重大的临床意义和社会经济意义。

目前国际上较为流行的肺癌早期筛查方法是低剂量螺旋CT，也有一些研究在探索将miRNAs、ctDNA、DNA甲基化等液体活检技术作为肺癌生物标志物的可能性(Montani,F.,Marzi,M.J.,Dezi,F.et al.MiR-test:a blood test for lung cancer early dection.JNatl Cancer Inst.2015,107:djv063；Jenkins,S.,Yang,J.C.H.,Ramalingam,S.S.etal.Plasma ctDNA analysis for detection of the EGFR T790M mutation in patientswith advanced non-small cell lung cancer.J Thorac Oncol.2017,12:1061-1070；Ooki,A.,Maleki,Z.,Tsay,J.C.J.et al.A panel of novel detection and prognosticmethylated DNA markers in primary non-small cell lung cancer and serumDNA.Clin Cancer Res.2017.23:7141-7152)，但这些方法大都存在假阳性率高、辐射暴露、花费多等缺点。

代谢组学是对生物样品(如血浆、血清、尿液、粪便、唾液等)或细胞内所有小分子代谢物(如氨基酸、脂肪酸、脂质等)进行定性定量分析，并寻找代谢物与病理生理变化的相对关系的一门科学。由于生物体内的信息传递是按照DNA、mRNA、蛋白质、代谢物、细胞、组织、器官、个体的方向逐级上升的，所以可以将代谢组学看作基因组学和蛋白质组学的延伸和体现。基因组学和蛋白质组学虽然可以揭示生物体的内在差异，但得益于生物体强大的代偿机制，这些差异并不一定会导致表型差异。而小分子的产生和代谢既可反映生物体的先天内在差异，又可能体现出外来因素对生物体的干扰与影响。目前肺癌的发病机制尚未完全清楚，但吸烟等环境因素是其主要病因。因此，使用代谢组学技术寻找肺癌早期出现时的代谢物变化特征是符合其发病规律的。

目前已有研究者利用代谢组学技术对肺癌进行了研究，例如Sun等(Sun,Q.,Zhao,W.,Wang,L.et al.Integration of metabolomic and transcriptomic profiles toidentify biomarkers in serum of lung cancer.J Cell Biochem.2019,Feb 26,Epubahead of print)、Mathe等(Mathe,E.A.,Patterson,A.D.,Haznadar,M.etal.Noninvasive urinary metabolomic profiling identifies diagnostic andprognostic markers in lung cancer.Cancer Res.2014,74:3259-3270)、Cameron等(Cameron,S.J.S.,Lewis,K.E.,Beckmann,M.et al.The metabolomic detection of lungcancer biomarkers in sputum.Lung Cancer.2016,94:88-95)分别使用气相色谱质谱联用技术(GC-MS)、液相色谱质谱联用技术(LC-MS)技术分析血清、尿液、痰液样本，通过传统统计学方法如主成分分析法(PCA)对所获数据进行分析，以寻找肺癌相关生物标志物。但这些研究大多仅选择小量样本，使用普适性色谱方法，筛选得到水溶性小分子代谢产物作为标志物，并且没有报告所筛选代谢物筛查/诊断肺癌的灵敏度和特异性，实际临床意义十分有限。因此，采用大规模临床样本进行血浆代谢组学研究，寻找灵敏度高、特异性好且安全经济的肺癌早期诊断血浆代谢标志物，并建立一种可靠有效的肺癌早期分子诊断模型仍具有重要的临床应用价值。

机器学习是人工智能的一个重要分支，它指代数据分析及有效模型的建立。在过去的几年，人工智能及机器学习迎来迅速发展。人工智能已经在一些生物医学应用，特别是对疾病的诊断方面展现了良好的表现，成为该领域的热门研究方向，因此也被视作未来医学发展的重要方向及辅助手段。目前应用代谢组学技术发现生物标志物的一个瓶颈即在于其检测灵敏度高且数据特征多、数据量庞大，传统主成分分析方法会为了减少特征数量而忽略许多对区分两类样本有一定影响的特征。因此将代谢组学技术与人工智能机器学习方法相结合，有可能更加快速、精准地找到更为有效可靠的诊断标志物。

发明内容

针对肺癌现有早期诊断方法较少，缺少有效液体诊断方法这一现状，本发明提供了一种适合于肺癌早期诊断的诊断标志物。该标志物对于早期肺癌具有较好的灵敏性和特异性，可用于肺癌早期诊断，对于改善肺癌的预后，提高肺癌患者的生存率具有重要意义。

本发明还提供了上述适合于肺癌早期诊断的诊断标志物的筛选方法，通过该方法所得标志物对于早期肺癌具有很好的灵敏性和特异性，尤其适合于肺癌的早期诊断，对于肺癌的治疗具有重要意义。

本发明还提供了一种肺癌早期诊断模型及诊断模型的构建方法，该模型构建方法简单，对于早期肺癌具有较高的灵敏度和特异性，为肺癌早诊早治提供了有效的技术支持。

本发明还提供了一种采用该诊断模型诊断肺癌的方法，采用本发明模型仅通过取血就能进行诊断，方便快捷无内创，对于早期肺癌灵敏度高、特异性好，具有很好的临床应用价值。

本发明还提供了一种含有上述适合于肺癌早期诊断的诊断标志物的试剂盒，可用于肺癌早期诊断。

本发明对171例早期肺癌患者的血浆样本，与140例健康对照血浆样本进行分析，使用高效液相色谱质谱联用仪(LC-MS)分别获得了正负离子模式下1478个及708个小分子代谢物的指纹图谱，经过对肺癌患者及健康正常对照的小分子代谢物的指纹图谱进行基于机器学习支持向量机的分析与特征筛选，并结合基于质谱的优化筛选，得到适合于肺癌早期诊断的诊断标志物，针对这些诊断标志物进行靶向代谢组方法的建立，并利用机器学习对检测数据构建模型，得到肺癌诊断模型，利用该模型可以快速的诊断出是否为肺癌，尤其是可以诊断出早期肺癌，具有准确、高灵敏度、普适性强，具有临床使用和推广价值。

本发明中，所述肺癌患者血浆是指，2014-18年间，经CT发现肺癌单发结节，且直径小于3厘米，肺癌结节经术后病理确诊患者的术前血浆。除外有其他系统恶性肿瘤，术前接受过抗癌治疗，术前接受过食管或纵膈手术的患者。

本发明的诊断标志物和诊断模型可以将无症状或症状不明显的早期肺癌诊断出来，方法简便快捷并且没有内创，可以减轻受测者的痛苦及辐射暴露，对于肺癌的早诊早治以及改善患者预后、提高患者生存率具有十分重要的意义。实现本发明的具体技术方案如下：

一种适合于肺癌早期诊断的诊断标志物，为以下25种血浆代谢标志物的任意一种或多种：溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:0、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC 18:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 16:0-22:6、甘油三酯TAG 16:0-18:1-18:1、磷脂酰胆碱PC14:0e/2:0、磷脂酰胆碱PC 16:0e/2:0、磷脂酰胆碱PC 20:0-16:1、磷脂酰胆碱PC 18:1-18:1、磷脂酰胆碱PC 18:2-18:2、磷脂酰胆碱PC 16:2-22:4、甘油三酯TAG 16:0-18:1-18:2、甘油三酯TAG 16:0-18:2-18:2、甘油三酯TAG 16:1-18:1-18:2、甘油三酯TAG 16:0-18:2-18:3、甘油三酯TAG 18:0-18:1-18:2、甘油三酯TAG 18:1-18:2-18:2、甘油三酯TAG 16:0-18:2-20:4、甘油三酯TAG 18:1-18:2-18:3、甘油三酯TAG 16:1-18:2-20:4、甘油三酯TAG 18:2-18:2-18:3。

进一步的，上述诊断标志物可以为以下9种血浆代谢标志物的任意一种或多种：溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:0、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC 18:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 16:0-22:6、甘油三酯TAG 16:0-18:1-18:1。

进一步的，上述诊断标志物可以为以下8种血浆代谢标志物的任意一种或多种：溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:0、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC 18:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 16:0-22:6。

进一步的，上述诊断标志物可以为以下4种血浆代谢标志物的任意一种或多种：溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:0、磷脂酰胆碱PC 16:0-18:1、甘油三酯TAG 16:0-18:1-18:1。

本发明还提供了上述各种适合于肺癌早期诊断的诊断标志物的筛选方法，包括以下步骤：

(1)收集早期肺癌患者和健康人群的血浆样本作为分析样品；

(2)采用液相色谱质谱联用技术对每个分析样本进行非靶向代谢组学分析，得到各血浆样本的原始代谢指纹图谱；

(3)使用MS-Dial软件对早期肺癌血浆样本和健康血浆样本的原始代谢指纹图谱进行图谱处理，得到每行为代谢物信息，每列为分析样本的二维矩阵；并且对二维矩阵进行包括同位素峰、加合物和碎片离子在内的代谢物峰标识及峰面积积分，用于进一步的机器学习；

(4)使用机器学习支持向量机(support vector machine，SVM)算法学习步骤(3)的二维矩阵数据，随机将上述肺癌及健康对照血浆样本数据的3/4作为训练集，1/4作为测试集进行学习，并随机循环迭代2000次，通过统计最终模型准确度的平均值，该SVM模型可有效对早期肺癌患者与健康人群的代谢组数据进行分类；

(5)根据上述得到的SVM模型，通过基于机器学习的特征筛序，借助SVM建模的特征重要性评分并不断累加重要特征形成待测模型，评估模型分类准确度以显示不同模型的分类效能，并最终展示相对最优特征数及组合方式，筛选最优特征数及组合方式的标准为：增加特征数时模型准确度不再上升；

(6)将上述筛选得到的最优特征即目标差异代谢物进行基于质谱的优化筛选，使用MS-Dial软件根据色谱峰型及二级质谱图数据质量筛选并获得潜在代谢标志物；

(7)根据上述潜在代谢标志物的一级和二级质谱信息，推测标志物的分子质量和分子式，并且与代谢物谱图数据库(LipidBlast)中的谱图信息进行比对，从而对代谢物进行鉴定，得到适合于肺癌早期诊断的血浆代谢标志物。不同血浆代谢标志物的组合即可作为适合于肺癌早期诊断的诊断标志物。

上述筛选方法中，所述早期肺癌患者为经影像学检查和组织活检确认存在直径小于3厘米的单发肺部癌变的病人。

上述筛选方法中，所述健康人群为经体检无肺部病变的健康人群。

上述筛选方法中，进行LC-MS血浆非靶向代谢组学技术分析时，每15个分析样本中加入一个质量控制样品，用于实时监测分析样本从进样预处理到分析过程中的质量控制情况，所述质量控制样品为171份早期肺癌血浆样本和140份健康血浆样本的混合样品。

上述筛选方法中，所述分析样本和质量控制样品在进样前进行以下预处理：

(1)用移液器吸取50μl分析样本或质量控制样品，置于2.0ml EP(eppendorf)管中；

(2)加入150μl甲醇提取，振摇5分钟以沉淀蛋白；

(3)然后在高速离心机中于4℃下以12000转/分离心10分钟；

(4)将步骤(3)的上清液转移入LC-MS进样瓶中，保存在-80℃下以备LC-MS检测。

上述筛选方法中，对原始代谢指纹图谱进行图谱处理是指：用MS-Dial软件读取原始代谢指纹图谱，进行包括保留时间校正、峰识别、峰匹配和峰对齐的处理操作，得到二维矩阵。

上述筛选方法中，对每个分析样本采用LC-MS血浆非靶向代谢组学技术进行分析时，液相色谱使用的色谱柱为Waters XSelect CSH C18色谱柱，规格为100×4.6mm，3.5μm；进样温度为4℃，进样体积为10μL；色谱流动相包含两种溶剂A和B，A为0.1％甲酸、乙腈60％、水40％溶液；B为0.1％甲酸、乙腈10％、异丙醇90％溶液；色谱梯度洗脱条件为：0-l分钟为40％B，1-5分钟为40％B-50％B逐渐递增，5-15分钟为50％B至100％B逐渐递增，15-18分钟为保持100％B，18-19分钟迅速减为40％B，然后40％B持续5分钟；流速为0.5ml/min。

上述筛选方法中，对每个分析样本采用LC-MS血浆非靶向代谢组学技术进行分析时，质谱检测使用四极杆-静电场轨道阱质谱仪Q-Exactive，并采用电喷雾离子源的正离子模式ESI+和负离子模式ESI-，离子源温度为320℃，反吹气设置为2，脱溶剂气温为300℃，鞘气和辅气分别设置为40和10；在正离子和负离子模式下毛细管电压分别为+3kV和-3kV，锥孔电压均为0V；图谱数据采集的质荷比范围为200～1200m/z，采集的模式为数据依赖模式(DDA)。

本发明的优选方案中，筛选时所用的肺癌患者为171人，健康人群140人。

本发明的优选方案中，构建SVM分类模型时，建模参数C＝5。

本发明的优选方案中，筛选过程中SVM建模随机循环迭代2000次，最终模型准确度的平均值大于0.95。

本发明还提供了一种肺癌诊断模型的构建方法，包括以下步骤：

(1)收集早期肺癌患者和健康人群的血浆样本作为分析样品；

(2)采用液相色谱质谱联用技术对每个分析样本进行靶向代谢组学分析，得到各血浆样本的靶向代谢组图谱；

(3)使用MS-Dial软件对早期肺癌血浆样本和健康血浆样本的靶向代谢组图谱进行图谱处理，得到每行为代谢物信息，每列为分析样本的标志物二维矩阵，用于进一步的机器学习；

(4)根据该诊断标志物二维矩阵，使用机器学习SVM构建分类模型，得到肺癌诊断模型。

上述构建方法中，所述早期肺癌患者是指经影像学检查和组织活检确认存在直径小于3厘米的单发或多发肺癌患者。

上述构建方法中，步骤(2)中所述的靶向代谢组学分析是指对按照本发明诊断标志物的筛选方法筛选得到的能够作为诊断标志物的代谢物进行靶向检测。

上述构建方法中，对每个分析样本采用LC-MS血浆靶向代谢组学技术进行分析时，液相色谱使用的色谱柱为Waters XSelect CSH C18色谱柱，规格为100×4.6mm，3.5μm；进样温度为4℃，进样体积为10μL；色谱流动相包含两种溶剂A和B，A为0.1wt％甲酸、乙腈60％、水40％溶液；B为0.1wt％甲酸、乙腈10％、异丙醇90％溶液；色谱梯度洗脱条件为：0-l分钟为40％B，1-5分钟为40％B-50％B逐渐递增，5-15分钟为50％B至100％B逐渐递增，15-18分钟为保持100％B，18-19分钟迅速减为40％B，然后40％B持续5分钟；流速为0.5ml/min。

上述构建方法中，对每个分析样本采用LC-MS血浆靶向代谢组学技术进行分析时，质谱检测使用四极杆-静电场轨道阱质谱仪Q-Exactive，并采用电喷雾离子源的正离子模式ESI+，离子源温度为320℃，反吹气设置为2，脱溶剂气温为300℃，鞘气和辅气分别设置为40和10；毛细管电压为+3kV，锥孔电压为0V；采集模式为平行反应监测模式(PRM)。

本发明的优选方案中，模型构建时，是基于以下的样本数目构建的：所用的肺癌患者449人，健康人群243人。

本发明的优选方案中，使用机器学习SVM构建诊断模型时，所用的样本数目及来源如下：用于训练集的350例肺癌患者及203例健康对照与特征筛选样本(311例)同一来源，用于测试集的99例肺癌患者及40例健康对照来源于独立的两家第三方医院。

本发明的优选方案中，构建SVM分类模型时，建模参数C＝5。

本发明的优选方案中，当适合于肺癌早期诊断的诊断标志物为9种血浆代谢标志物的组合(包含溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:0、溶血磷脂酰胆碱LPC20:4、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC 18:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 16:0-22:6、甘油三酯TAG 16:0-18:1-18:1)时，所得的诊断模型的ROC曲线下面积AUC值为0.9874。

本发明还提供了一种肺癌诊断模型，该诊断模型按照上述肺癌诊断模型的构建方法构建而得。同上，在本发明优选方案中，当诊断模型所用的诊断标志物为9种血浆代谢标志物的组合(包含溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:0、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC 18:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 16:0-22:6、甘油三酯TAG 16:0-18:1-18:1)时，诊断模型的ROC曲线下面积AUC值为0.9874。

本发明的优点是采用血浆代谢组学技术以及人工智能数据分析技术得到适合于肺癌早期诊断的诊断标志物和肺癌早期诊断模型。本发明诊断标志物筛选方法可操作性强，模型构建方法简单，所得诊断模型效果良好，灵敏度高，特异性好，适合于肺癌的早期诊断。本发明仅通过取血检测就能实现诊断，无需额外采集组织样本，也不需要CT影像学数据辅助判断，大大减少了创伤和辐射风险，能够很好地替代现有组织活检及影像学诊断模式，并且本发明诊断简单快速，有利于肺癌的早诊早治，具有很好的临床使用和推广价值。

附图说明

图1.原始代谢指纹图谱的总离子色谱图(TICs)，其中ESI+为正离子模式，ESI-为负离子模式，横轴为保留时间，纵轴为代谢物相对浓度，LC为肺癌血浆样本，NC为健康对照血浆样本。

图2.机器学习支持向量机(SVM)分类模型图，其中Test set on Positive-ionmode为正离子模式测试集的分类模型，Test set on Negative-ion mode为负离子模式测试集的分类模型，sensitivity为灵敏度，specificity为特异度，accuracy为准确度，mean为平均值，median为中位数。

图3.SVM模型的特征选择得分图，其中pos为正离子模式模型的准确度得分图，neg为负离子模式模型的准确度得分图。

图4.靶向代谢组图谱的典型选择离子色谱图(EIC)，其中LPC为溶血磷脂酰胆碱类血浆代谢标志物色谱峰，PC为磷脂酰胆碱类血浆代谢标志物色谱峰，TG为甘油三酯类血浆代谢标志物色谱峰。

图5.使用9个血浆代谢标志物构建的肺癌早期诊断模型的ROC曲线图，其中Training set为训练集结果，Test set为测试集结果。

具体实施方式

下面结合具体实施实例，进一步阐释本发明，本发明的实施例仅用于解释本发明，并不意味着限制本发明的保护范围。

实施例1：肺癌早期诊断标志物的筛选

1.研究对象

本研究共包含171例早期肺癌患者血浆样本以及140例体检正常的健康对照血浆样本。其中早期肺癌的诊断标准是经影像学检查和组织活检确认存在直径小于3厘米的单发肺部癌变。这些研究对象的基本信息见表1。

表1.肺癌早期诊断非靶向代谢组学研究的基线及病理特征

2.应用液相色谱质谱联用技术的血浆非靶向代谢组学分析

所有血浆样本离心后置于-80℃冰箱内保存。研究时取出血浆样本，经样品预处理后，使用高效液相色谱质谱联用仪进行代谢组学分析，获得包含色谱和质谱信息的样本原始代谢指纹图谱。具体操作如下：

2.1仪器和试剂

实验仪器包括：高效液相色谱质谱联用仪(U3000/QEaxctive，Thermo Fisher)、高速低温离心机(Beckman)、振动涡旋仪、离心浓缩仪、4℃冷藏冰箱、纯水仪(Millipore)。

实验耗材包括：Waters Xselect CSH C18色谱柱(规格为100×4.6mm，3.5μm)、2mlEP管、1.5ml进样瓶、300μl内插管、移液器、1000μl枪头、200μl枪头、记号笔、乳胶手套、口罩。

实验试剂包括：甲醇(Thermo Fisher，质谱级纯)、乙腈(Thermo Fisher，质谱级纯)、、异丙醇(Thermo Fisher，质谱级纯)、甲酸(Sigma)、纯水(TOC<10ppb)。

2.2血浆样本预处理

进行血浆样本预处理之前，制备31份质量控制样品(QC)(自每份肺癌血浆样本和健康血浆样本中分别取出10μl进行混合然后分装)。将所有早期肺癌血浆样本和健康血浆样本与质量控制样品一起进行样品预处理，具体操作如下：

(2)加入150μl甲醇提取，振摇5分钟以沉淀蛋白；

(3)然后在高速离心机中于4℃下以12000rpm离心10分钟；

2.3血浆非靶向代谢组学检测

将处理后的所有早期肺癌血浆样本和健康血浆样本作为分析样本，打乱顺序后随机化排序进样，以排除进样顺序带来的偏倚。每隔10个分析样本加入一个质量控制样品。所用液相色谱、质谱方法如下：

流动相：A为0.1％甲酸、乙腈60％、水40％溶液，B为0.1％甲酸、乙腈10％、异丙醇90％溶液；

流速：0.5ml/min；柱温：30℃；进样体积：10μl；

色谱梯度洗脱条件：0-l分钟为40％B，1-5分钟为40％B-50％B逐渐递增，5-15分钟为50％B至100％B逐渐递增，15-18分钟为保持100％B，18-19分钟迅速减为40％B，然后40％B持续5分钟。

质谱方法：采用电喷雾离子源的正离子模式ESI+和负离子模式ESI-，离子源温度为320℃，反吹气设置为2，脱溶剂气温为300℃，鞘气和辅气分别设置为40和10；在正离子和负离子模式下毛细管电压分别为+3kV和-3kV，锥孔电压均为0V；采集的模式为数据依赖模式(DDA)；一级质谱图谱数据采集的质荷比范围为200～1200m/z，采集分辨率为35000，目标离子数目为1x10⁶，最大离子注入时间为80ms；二级质谱采集分辨率为17500，目标离子数目为1x10⁵，最大离子注入时间为50ms，循环次数为5次，隔离窗口为4.0m/z，碰撞能量为10、20、30。

3.血浆代谢标志物筛选

按照上述色谱质谱条件对样本进行分析，获得所有样本的原始代谢指纹图谱，其中各组样本的典型总离子流色谱图(EICs)见图1。随后采用人工智能分析技术对原始代谢指纹图谱进行学习，以筛选能够区分早期肺癌患者与健康人群的生物标志物，具体操作如下：

3.1图谱数据预处理

使用高效液相色谱质谱联用仪在正离子ESI+和负离子ESI-下分别检测获得血浆样本的原始代谢指纹图谱后，使用Reifycs file converter软件将图谱转换为ABF格式文件，然后使用MS-Dial软件进行包括保留时间校正、峰识别、峰匹配、峰对齐、过滤噪声、数据标准化等在内的预处理。参数设置为：一级质谱质量偏差设置为0.01Da，二级质谱质量偏差设置为0.025Da，其他参数为默认值。处理后得到每行为代谢物，每列为分析样本，中值为相应代谢物浓度的二维矩阵。其中每个代谢物峰使用保留时间和质荷比进行定性，对其进行包括同位素峰、加合物和碎片离子在内的代谢物峰标识及峰面积积分。图谱预处理后，共得到正离子模式下1478个和负离子模式下708个小分子代谢物峰，可用于进一步的机器学习。

3.2LC-MS实验质量控制

进行LC-MS血浆非靶向代谢组学分析时，将制备的QC样品按每10个分析样本安排一个QC样品的顺序均匀地插入分析样本中，用于实时监测分析样本从进样预处理到分析检测过程中的质量控制情况，所得原始代谢指纹图谱经MS-Dial软件预处理后，计算每个代谢物在QC样本中的变异系数(％RSD)，绝大多数代谢物的变异系数控制在30％以下，说明样本在进样预处理到分析检测过程中的质量控制情况良好，所获得的代谢组学数据真实可信。

3.3机器学习SVM建模

使用机器学习支持向量机(support vector machine，SVM)算法学习图谱预处理得到的二维矩阵数据，随机将上述肺癌及健康对照血浆样本数据的3/4作为训练集trainset，1/4作为测试集test set进行学习，并随机循环迭代2000次，获得的模型见图2，灵敏度(sensitivity)、特异度(specificity)和准确度(accuracy)的平均值(mean)和中位数(median)均在0.95以上，表明该SVM模型对早期肺癌患者与健康人群的代谢组数据分类很好，可准确区分早期肺癌患者与健康人群。

3.4血浆代谢标志物筛选及鉴定

根据上述得到的SVM模型，通过基于机器学习的特征筛序，借助SVM建模的特征重要性评分并不断累加重要特征形成待测模型，评估模型分类准确度以显示不同模型的分类效能，并最终展示相对最优特征数及组合方式的筛选，筛选最优特征数及组合方式的标准为：增加特征数时模型准确度不再上升。见图3，我们选择正离子模式下13个特征及负离子模式下12个特征作为差异代谢物，可以看出使用这25个特征单独进行模型分类即可获得50％以上的准确度，随着特征数量增加，准确度大幅上升。

随后根据这些潜在代谢标志物的一级和二级质谱信息，推测标志物的分子质量和分子式，并且与代谢物谱图数据库(LipidBlast)中的谱图信息进行比对，从而对代谢物进行鉴定。

根据上述鉴定方法，我们成功鉴定出25个血浆代谢标志物作为适合于肺癌早期诊断的诊断标志物。见表2，这些标志物是溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:0、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC18:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 16:0-22:6、甘油三酯TAG 16:0-18:1-18:1、磷脂酰胆碱PC 14:0e/2:0、磷脂酰胆碱PC 16:0e/2:0、磷脂酰胆碱PC 20:0-16:1、磷脂酰胆碱PC 18:1-18:1、磷脂酰胆碱PC 18:2-18:2、磷脂酰胆碱PC 16:2-22:4、甘油三酯TAG16:0-18:1-18:2、甘油三酯TAG 16:0-18:2-18:2、甘油三酯TAG 16:1-18:1-18:2、甘油三酯TAG16:0-18:2-18:3、甘油三酯TAG 18:0-18:1-18:2、甘油三酯TAG 18:1-18:2-18:2、甘油三酯TAG16:0-18:2-20:4、甘油三酯TAG 18:1-18:2-18:3、甘油三酯TAG 16:1-18:2-20:4、甘油三酯TAG18:2-18:2-18:3。经查阅已发表文献，这25个血浆代谢标志物均为首次在肺癌早期诊断中发现，对于肺癌的早期诊断与治疗具有十分重要的意义。在使用这些血浆代谢标志物作为诊断标志物构建诊断模型和进行诊断应用时，可以将其单独使用或是组合使用。

表2. 25种血浆代谢标志物

实施例2：使用9个血浆代谢标志物进行的肺癌早期诊断模型的构建

1.研究对象

本研究共包含449例早期肺癌患者血浆样本以及243例体检正常的健康对照血浆样本。其中用于训练集的350例肺癌患者及203例健康对照与特征筛选样本(311例)同一来源，用于测试集的99例肺癌患者及40例健康对照来源于独立的两家第三方医院。其中肺癌的诊断标准是经影像学检查和组织活检确认存在直径小于3厘米的单发或多发肺癌。这些研究对象的基本信息见表3和表4。

表3.肺癌早期诊断靶向代谢组学研究中训练集研究对象的基线及病理特征

表4.肺癌早期诊断靶向代谢组学研究中测试集研究对象的基线及病理特征

2.应用液相色谱质谱联用技术的血浆靶向代谢组学分析

所有血浆样本离心后置于-80℃冰箱内保存。研究时取出血浆样本，经样品预处理后，使用高效液相色谱质谱联用仪进行靶向代谢组学分析，获得包含色谱和质谱信息的样本靶向代谢组图谱。具体操作如下：

2.1仪器和试剂

2.2血浆样本预处理

进行血浆样本预处理之前，制备69份质量控制样品(QC)(自每份肺癌血浆样本和健康血浆样本中分别取出10μl进行混合然后分装)。将所有早期肺癌血浆样本和健康血浆样本与质量控制样品一起进行样品预处理，具体操作如下：

(2)加入150μl甲醇提取，振摇5分钟以沉淀蛋白；

(3)然后在高速离心机中于4℃下以12000rpm离心10分钟；

2.3血浆靶向代谢组学检测

流速：0.5ml/min；柱温：30℃；进样体积：10μl；

质谱方法：采用电喷雾离子源的正离子模式ESI+，离子源温度为320℃，反吹气设置为2，脱溶剂气温为300℃，鞘气和辅气分别设置为40和10；在正离子和负离子模式下毛细管电压分别为+3kV，锥孔电压均为0V；采集模式为平行反应监测模式(PRM)；采集的质荷比为表2中所列25种血浆代谢标志物的质荷比，采集分辨率为17500，目标离子数目为1x10⁵，最大离子注入时间为50ms，隔离窗口为4.0m/z，碰撞能量为30。

3.诊断模型构建

按照上述色谱质谱条件对样本进行分析，获得所有样本的靶向代谢组图谱，典型选择离子色谱图(EIC)见图4。随后使用机器学习SVM学习靶向代谢组图谱数据，构建能够区分早期肺癌患者与健康人群的早期肺癌诊断模型，具体操作如下：

3.1图谱数据预处理

使用高效液相色谱质谱联用仪在正离子ESI+下检测获得血浆样本的靶向代谢组图谱后，使用Reifycs file converter软件将图谱转换为ABF格式文件，然后使用MS-Dial软件根据2.3步骤的质谱方法中采集的质荷比列表提取所有血浆代谢标志物的峰面积信息，得到每行为代谢物，每列为分析样本，中值为相应代谢物浓度的二维矩阵，以用于进一步的机器学习。

3.2LC-MS实验质量控制

进行LC-MS血浆靶向代谢组学分析时，将制备的QC样品按每10个分析样本安排一个QC样品的顺序均匀地插入分析样本中，用于实时监测分析样本从进样预处理到分析检测过程中的质量控制情况，所得靶向代谢组图谱数据经MS-Dial软件预处理后，计算每个血浆代谢标志物在QC样本中的变异系数(％RSD)，所有血浆代谢标志物的变异系数控制在15％以下，说明样本在进样预处理到分析检测过程中的质量控制情况良好，所获得的代谢组学数据真实可信。

3.3机器学习SVM建模与诊断性能测试

使用机器学习支持向量机(support vector machine，SVM)算法学习图谱预处理得到的二维矩阵数据，将350例肺癌患者及203例健康对照作为训练集training set学习以构建模型，建模参数C＝5，将99例肺癌患者及40例健康对照作为测试集test set进行外部验证。当学习的二维矩阵数据为9个血浆代谢标志物(包含溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC18:0、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC16:0-18:2、磷脂酰胆碱PC 18:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 16:0-22:6、甘油三酯TAG16:0-18:1-18:1)的数据时，所获模型的灵敏度(sensitivity)、特异度(specificity)和准确度(accuracy)以及ROC曲线分析结果见图5和表5，可以看出构建的诊断模型对早期肺癌具有很高的灵敏度、特异度、准确度和ROC曲线下面积AUC值。

表5.使用9个血浆代谢标志物构建的早期肺癌诊断模型的分类性能

实施例3：使用8个血浆代谢标志物进行的肺癌早期诊断模型的构建

本实施例与实施例2的研究对象、检测分析方法相同，仅在步骤3.3机器学习SVM建模时，使用8种血浆代谢标志物(包含溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:0、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC 18:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 16:0-22:6)的二维矩阵数据进行机器学习和建模，所获模型的灵敏度(sensitivity)、特异度(specificity)和准确度(accuracy)以及AUC值见表6，可以看出构建的诊断模型对早期肺癌具有很高的灵敏度、特异度、准确度和ROC曲线下面积AUC值。

表6.使用8个血浆代谢标志物构建的早期肺癌诊断模型的分类性能

实施例4：使用4个血浆代谢标志物进行的肺癌早期诊断模型的构建

本实施例与实施例2的研究对象、检测分析方法相同，仅在步骤3.3机器学习SVM建模时，使用4个血浆代谢标志物(包含溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:0、磷脂酰胆碱PC 16:0-18:1、甘油三酯TAG 16:0-18:1-18:1)的二维矩阵数据进行机器学习和建模，所获模型的灵敏度(sensitivity)、特异度(specificity)和准确度(accuracy)以及AUC值见表7，可以看出构建的诊断模型对早期肺癌具有很高的灵敏度、特异度准确度和ROC曲线下面积AUC值。

表7.使用4个血浆代谢标志物构建的早期肺癌诊断模型的分类性能

目前普遍认为当诊断方法特异度>0.9、AUC>0.7时，该方法即具有较好的诊断效果，例如当前唯一国际上认可推荐的肺癌早筛方法低剂量螺旋CT的AUC值在0.8左右，而本发明构建的诊断模型的各项指标均大于0.85，AUC值更是达到0.98以上，远高于现有诊断方法。因此，本发明的诊断模型可以有效地诊断出早期肺癌，降低肺癌漏检率，非常有利于肺癌的早诊早治，对于改善肺癌预后，降低肺癌的死亡率有很大帮助，具有良好的临床使用和推广价值。

在实际应用中，可以按照本发明建模方法选取更多的样本进行建模，增加模型的准确度。

上述实施例的说明只是用于理解本发明的方法及其核心思想。应当指出，对于本领域的普通技术人员来说，在不脱离本发明原理的前提下，基于本发明专利思想的其他实施方式也将落入本发明权利要求的保护范围内。

Claims

1.一种诊断标志物在制备用于肺癌早期诊断的诊断产品中的应用，其特征在于：所述的诊断标志物包括以下9种血浆代谢标志物组成的组合：溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:0、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC16:0-18:2、磷脂酰胆碱PC 18:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 16:0-22:6、甘油三酯TAG 16:0-18:1-18:1。

2.根据权利要求1所述的应用，其中所述的诊断产品为试剂盒。

3.一种肺癌早期诊断标志物的筛选方法，其特征在于：包含以下步骤：

(1) 收集分析样品，采用液相色谱质谱联用技术对每个分析样本进行非靶向代谢组学分析，得到原始代谢指纹图谱；使用MS-Dial软件对原始代谢指纹图谱进行图谱处理，得到每行为代谢物信息，每列为分析样本的二维矩阵；并且对二维矩阵进行包括同位素峰、加合物和碎片离子在内的代谢物峰标识及峰面积积分，用于进一步的机器学习；

(2) 使用机器学习支持向量机SVM算法学习上述二维矩阵数据，随机将早期肺癌及健康对照血浆样本数据的3/4作为训练集，1/4作为测试集进行学习，并随机循环迭代2000次，通过统计最终模型准确度的平均值，该SVM模型可有效对早期肺癌患者与健康人群的代谢组数据进行分类；

(3) 根据上述得到的SVM模型，通过基于机器学习的特征筛序，借助SVM建模的特征重要性评分并不断累加重要特征形成待测模型，评估模型分类准确度以显示不同模型的分类效能，并最终展示相对最优特征数及组合方式，筛选最优特征数及组合方式的标准为：增加特征数时模型准确度不再上升；

(4) 将上述筛选得到的最优特征即目标差异代谢物进行基于质谱的优化筛选，使用MS-Dial软件根据色谱峰型及二级质谱图数据质量筛选并获得潜在代谢标志物；

(5) 根据上述潜在代谢标志物的一级和二级质谱信息，推测标志物的分子质量和分子式，并且与代谢物谱图数据库中的谱图信息进行比对，从而对代谢物进行鉴定，得到适合于肺癌早期诊断的血浆代谢标志物；

其中，所述的诊断标志物包括以下9种血浆代谢标志物组成的组合：溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:0、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 16:0-18:2、磷脂酰胆碱PC 18:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 16:0-22:6、甘油三酯TAG 16:0-18:1-18:1。

4.一种肺癌诊断模型的构建方法，其特征在于：包含以下步骤：

(1) 收集分析样品；采用液相色谱质谱联用技术对每个分析样本进行诊断标志物的靶向代谢组学分析，得到靶向代谢组图谱，该数据每行为代谢物信息，每列为分析样本的早期肺癌血浆代谢标志物二维矩阵，用于进一步的机器学习模型建立；

(2) 根据该诊断标志物的二维矩阵，使用机器学习SVM构建分类模型，得到肺癌诊断模型；