CN117517532B

CN117517532B - 基于代谢组学和人工智能技术的肺腺癌早期诊断标志物及其应用

Info

Publication number: CN117517532B
Application number: CN202410011452.3A
Authority: CN
Inventors: 朱伟; 余梦杰; 朱丹霞; 徐静; 朱敬凤; 单霞; 曹敏敏; 余春; 蒋琳; 闻伟; 高峰
Original assignee: Yansi Nanjing Life Technology Co ltd
Current assignee: Yansi Nanjing Life Technology Co ltd
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-05-03
Anticipated expiration: 2044-01-04
Also published as: CN117517532A

Abstract

本发明公开了基于代谢组学和人工智能技术的肺腺癌早期诊断标志物及其应用。本发明通过运用血浆代谢组学技术和人工智能数据分析技术，确定适用于早期肺腺癌辅助诊断的生物标志物和早期肺癌辅助诊断模型。本发明的生物标志物筛选方法操作性强，模型构建方法简便，所获得的诊断模型效果优秀，灵敏度高，特异性优良，适用于肺腺癌的早期辅助诊断。本发明只需通过取血检测即可完成诊断，无需额外的组织样本采集，也无需CT影像学数据辅助判断，极大地降低了创伤和辐射风险。本发明能够有效替代现有的组织活检和影像学诊断方式，且诊断过程简洁迅速，有利于肺腺癌的早期发现和及时治疗，具有很高的临床应用和推广价值。

Description

基于代谢组学和人工智能技术的肺腺癌早期诊断标志物及其应用

技术领域

本发明属于临床检验诊断领域，具体涉及基于代谢组学和人工智能技术的肺腺癌早期诊断标志物及其应用。

背景技术

肺腺癌患者的生存率主要取决于诊断时的肿瘤分期，晚期肺腺癌患者（III-IV期）的五年生存率长期低于 15%，而早期肺腺癌的五年生存率则超过 60%。鉴于晚期肺腺癌治疗的困难，提高早期病例的有效诊断和治疗可能是改善预后的最有希望途径。CT 技术的临床应用能够显著提高肺结节的检测率，降低肺癌死亡率。然而，CT 技术的应用受到其高假阳性率、辐射暴露以及高成本的限制。因此，寻找稳定、可重复且非侵入性的生物标志物，以建立一种有效的早期肺腺癌检测方法和高危人群筛查方法，是一项重要的临床挑战。

代谢组学是基因组学、转录组学和蛋白组学之后发展起来的一门学科。与其他组学不同，代谢组学是通过考察生物体系（细胞、组织或生物体）受到刺激或扰动后（如将某个特定的基因变异或环境改变后），其代谢产物的变化或其随时间的变化，来研究生物体系的一门学科。代谢组是基因组和蛋白质组的下游产物也是最终产物，是一些参与生物体新陈代谢、维持生物体正常功能和生长发育的小分子化合物的集合，主要是相对分子质量小于1000的内源性小分子。基因组的变化不一定能够得到表达，蛋白质的变化可能由于基因或其他蛋白质的功能补偿作用而使得最后反应的净结果为零。而小分子的产生和代谢才是这一系列事件的最终结果，它能够更准确地反映生物体系的状态。代谢组学对生物标志物评估的有着巨大潜力，已是系统生物学领域最常用的方法之一。

目前肺癌的发病机制尚未完全清楚，但吸烟和环境暴露等因素是其主要病因。因此，使用代谢组学技术寻找肺癌早期出现时的代谢物变化特征是符合其发病规律的。有研究发现，代谢异常可能在癌前病变的早期已经出现，为癌症发展提供重要信号。例如，Me4FDG可以用于鉴别非典型腺瘤性增生和早期肺腺癌。一项大规模的靶向代谢组学分析，破译了从非典型腺瘤性增生到原位腺癌、微创腺癌和浸润性腺癌的代谢轨迹，揭示了代谢紊乱在肺腺癌癌前病变的早期阶段便已出现。肺腺癌的早期，甚至是癌前病变阶段，就已经出现了代谢改变。通过监测代谢状态，可以了解肺腺癌的发生和发展，这是可行的。但这些研究大多仅选择小量样本，而且没有报告所筛选代谢物筛查/诊断肺腺癌的灵敏度和特异性，实际临床意义十分有限。因此，采用大规模临床样本进行血浆代谢组学研究，寻找灵敏度高、特异性好且安全经济的肺腺癌早期诊断血浆代谢标志物，并建立一种可靠有效的肺腺癌早期分子诊断模型仍具有重要的临床应用价值。

人工智能（Artificial Intelligence，AI），是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学，它可利用算法和统计模型，在计算机系统上执行预测和决策任务。机器学习作为人工智能的重要分支，具有高准确性、高自动化和整合电子医疗数据进行快速预测结果等特点。此外，机器学习方法还能够解决传统建模方法如逻辑回归模型无法处理的高阶非线性相互作用问题。基于人工智能/机器学习的这些优势，已经开发出各种软件系统，广泛应用于生命科学的不同领域。目前，应用代谢组学技术发现生物标志物的一个瓶颈在于其检测灵敏度高且数据特征多、数据量庞大。传统主成分分析方法会为了减少特征数量而忽略许多对区分两类样本有一定影响的特征。因此，将代谢组学技术与人工智能机器学习方法相结合，有可能更加快速、精准地找到更为有效可靠的诊断标志物。

发明内容

针对肺腺癌早期诊断方法较为有限，且缺乏有效的液体诊断方法的现状，本发明提供了一组肺腺癌早期辅助诊断标志物。该标志物对于早期肺腺癌具有较高的灵敏度和特异性，可用于肺腺癌的早期辅助诊断。这对于改善肺腺癌的预后，提高患者的生存率具有重要意义。

本发明还提供了一种肺腺癌早期辅助诊断标志物的筛选方法。通过该方法获得的标志物对于早期肺腺癌的辅助诊断具有很好的灵敏度和特异性，尤其适用于肺腺癌的早期诊断，对于肺腺癌的治疗具有重要意义。

本发明亦提供了一种肺腺癌早期诊断模型的构建方法。该模型构建方法简便，针对早期肺腺癌具有较高的灵敏度和特异性，为肺腺癌的早期诊断和及时治疗提供了有力的技术保障。

本发明的目的可以通过以下技术方案实现：

第一方面，本发明请求保护一种肺腺癌早期辅助诊断标志物，该标志物为以下 14种血浆代谢物中的至少一种：次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸、丙酮酸、乙醇酸、天冬酰胺、肌醇和烟酰胺。

进一步的：所述的标志物为以下（1）或（2）或（3）或（4）：

（1）血浆代谢物次黄嘌呤；

（2）由5 种血浆代谢物次黄嘌呤、天冬氨酸、棕榈酸、半胱氨酸和丙酮酸组成的组合；

（3）由 10 种血浆代谢物次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸和丙酮酸组成的组合；

（4）由14 种血浆代谢物次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸、丙酮酸、乙醇酸、天冬酰胺、肌醇和烟酰胺组成的组合。

第二方面，本发明请求保护上述的肺腺癌早期辅助诊断标志物在制备肺腺癌早期辅助诊断产品中的应用。

第三方面，本发明请求保护检测上肺腺癌早期辅助诊断标志物的物质在制备肺腺癌早期辅助诊断产品中的应用。

进一步的：所述的物质为用于检测血浆中诊断标志物含量的物质。该物质可以为试剂、装置或仪器。

更进一步的：所述的物质为检测肺腺癌早期诊断标志物的气相色谱质谱联用仪所需仪器和/或试剂。

进一步的：所述的产品为试剂或试剂盒。

第四方面，本发明请求保护一种肺腺癌早期辅助诊断试剂盒，该试剂盒包含有用于检测上述肺腺癌早期诊断标志物的物质。所述的物质为检测肺腺癌早期辅助诊断标志物的气相色谱质谱联用仪所需仪器和/或试剂。更进一步，该试剂盒还可以包含记载有模型的载体或者负载有模型的装置。

第五方面，本发明请求保护一种肺腺癌早期辅助诊断标志物的筛选方法，该方法包含以下步骤：

（1）收集不同受试者群体的早期肺腺癌患者和健康人群的血浆样本作为分析样品；

（2）采用气相色谱质谱联用技术对每个分析样本进行代谢组学分析，得到各血浆样本的原始代谢指纹图谱；

（3）使用岛津的 GC-MS Postrun Analysis 软件对早期肺腺癌患者和健康人的血浆样本进行原始代谢指纹图谱处理，得到一个二维矩阵，其中每行为代谢物信息，每列为分析样本；此外，该软件对矩阵中的代谢物峰进行鉴定和面积积分，获得各代谢物的半定量数据，以便进行进一步的统计分析；

（4）利用数据统计软件 SPSS 对所获得的各代谢物的半定量数据进行统计分析，筛选出早期肺腺癌患者与健康对照人群之间存在差异的代谢物，接着，将不同受试者群体中所检测到的差异代谢物取交集，从而得到稳定且可靠的早期肺腺癌血浆标志物；

（5）对上述稳定可靠的早期肺腺癌血浆标志物进行ROC分析，同时对其灵敏度和特异性进行评估，最终筛选出诊断性能最佳的代谢物。

研究过程中，本发明对来自三个临床中心的 1200 例受试者的血浆样本进行了分析。其中，临床中心 1 包括 754 例受试者（415 例早期肺腺癌患者和 339 例健康对照组），临床中心 2 包括 337 例受试者（215 例早期肺腺癌患者和 122 例健康对照组），临床中心 3 包括 109 例受试者（65 例早期肺腺癌患者和 44 例健康对照组）。我们把临床中心 1 的受试者随机分为训练集（352 例早期肺腺癌患者和 229 例健康对照组）和验证集（63 例早期肺腺癌患者和 110 例健康对照组）。训练集用于筛选和分析早期肺腺癌相关的血浆代谢物，验证集用于内部验证，而临床中心 2 和临床中心 3 被设定为外部验证。我们使用气相色谱质谱联用仪（GC-MS）获取了所有样本的代谢物半定量数据。通过统计分析早期肺腺癌患者和健康受试者的代谢物数据，并在多临床中心进行验证，我们发现了适合于肺腺癌早期诊断的诊断标志物。此外，我们利用机器学习方法对检测数据进行了建模，得到了肺腺癌诊断模型。该模型能够快速诊断出是否为肺腺癌，尤其是能够诊断出早期肺腺癌，具有准确、高灵敏度和普适性等特点，具有临床应用和推广价值。

在本发明中，所述的肺腺癌患者是指 2016-2022 年间通过组织学或细胞学确诊的新发病例，排除了曾接受过手术、化疗、放疗或其他抗癌治疗的患者。此外，我们还排除了转移性肺腺癌、家族性肺癌、复发性癌症或多发性原发性肿瘤的患者。从肺腺癌患者招募期间访问同一医院健康检查中心的健康个体中随机选择无癌症对照。

本发明的诊断标志物和诊断模型能够有效地检测出无症状或症状不明显的早期肺腺癌，其方法简便、快捷且非侵入性，能够减轻受检者的痛苦和辐射暴露。这对于肺腺癌的早期诊断和治疗以及改善患者预后、提高患者生存率具有极其重要的意义。

上述筛选方法中，所述早期肺腺癌患者为经影像学检查和组织活检确认的单发肺腺癌癌变的病人。所述的健康人群为经体检无肺部病变的健康人群。

在以上的筛选方法中，使用 GC-MS 血浆代谢组学技术进行分析时，每 15 个分析样本中添加一个质量控制样品，以实时监测从样品进样预处理到分析过程中的质量控制状况。这些质量控制样品是由所有血浆样本混合而成的。

上述筛选方法中，所述分析样本和质量控制样品按以下方式进行预处理：

（1）取血浆50.0 μL，加入200.0 μL含有1, 2-¹³C₂-肉蔻酸的甲醇溶液（5.0 μg/mL），涡旋振荡5.0 min，在4℃下以20000×g离心10.0 min；

（2）取100.0 μL上清液于GC进样瓶中，使用SpeedVac 真空浓缩仪挥干溶剂；

（3）将30.0 μL甲氧胺吡啶溶液（10.0 mg/mL）加入至浓缩的血浆样本，涡旋振荡5.0 min，室温静置 16.0 h 进行肟化；

（4）然后加入30.0 μL衍生化试剂MSTFA（含1%TMCS，v/v），涡旋振荡5.0 min，室温静置 1.0 h 进行硅烷化；

（5）最后加入30.0 μL外标溶液（甲基肉蔻酸酯庚烷溶液，15.0 μg/mL），涡旋振荡5.0 min后即可进行GC-MS检测。

上述筛选方法中，对原始代谢指纹图谱进行图谱处理是指：使用岛津的 GC-MSPostrun Analysis 软件读取原始代谢指纹图谱，进行包括保留时间校正、峰识别、峰匹配、峰对齐和对峰面积积分的处理操作，得到二维矩阵。

上述筛选方法中，对每个分析样本采用GC-MS血浆代谢组学技术进行分析时，气相色谱柱为 RTx-5MS 熔凝石英毛细管柱（0.25 mm × 30 m × 0.25 µm，Restek，PA，USA）。进样量为0.5 μL，采用分流进样模式（分流比为8：1）。氦气作为载气，流速为1.5 mL/min。采用程序升温模式：初始温度为80℃保持3.0 min，然后以20℃/min的速度升至300℃，并保持5.0 min。质谱仪的离子源温度和传输管温度均为220℃，采用电子流轰击模式, 能量为 −70 eV，电流为3.2 mA。质谱系统采用全扫描方式进行数据采集（2500 Hz）, 扫描范围为 50～700 m/z, 每次运行时间为19.0 min。为减少系统误差，所有样本都是随机乱序进样。

将各色谱峰的质谱碎片、峰强度和保留时间等信息与文献和数据库（包括2017版NIST标准化合物谱库和Wiley 9标准化合物谱图库）所采集谱图中的化合物进行对照，还利用一些标准化合物来鉴定代谢物。对比测定化合物和对照标准化合物质谱图, 确定各色谱峰/化合物特征定量离子, 取得各色谱峰/化合物峰面积的半定量数据。

本发明的优选方案中，共有14种代谢物在三中心的早期肺腺癌和健康人中均有显著性差异，主要为次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸、丙酮酸、乙醇酸、天冬酰胺、肌醇和烟酰胺。

本发明的优选方案中，共10种代谢物在三中心的早期肺腺癌和健康人中含量变化趋势一致，包括4种含量升高的代谢物（次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸）和6种含量降低的代谢物（α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸和丙酮酸）。

本发明的优选方案中，次黄嘌呤在三个临床中心的样本中均表现出非常好的诊断性能（临床中心1-训练集：AUC=0.93，灵敏度=0.901，特异性=0.834；临床中心1-验证集：AUC=0.94，灵敏度=0.889，特异性=0.891临床中心2：AUC=0.99，灵敏度=0.967，特异性=0.992；临床中心3：AUC=0.99，灵敏度=0.969，特异性=1.000）。

第六方面，本发明请求保护一种肺腺癌AI诊断模型的构建方法，包含以下步骤：

（1）以早期肺腺癌和健康人中含量变化趋势一致的十种代谢物次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸和丙酮酸作为预测因子，通过基于机器学习的特征筛选过程，采用XGBoost算法构建模型并计算特征重要性评分；不断累加重要特征，形成待测模型，并评估模型的分类准确度以展示不同模型的分类效能；最后，确定相对最优的特征数和组合方式，确定相对最优的特征数和组合方式的标准为：当增加特征数时，模型准确度不再提升，所得到的血浆代谢标志物的组合即可作为适合于肺腺癌早期诊断的诊断标志物，可用于构建预测模型；

（2）根据筛选出的血浆代谢标志物组合，使用机器学习XGBoost算法构建分类模型，建模参数如下：学习率为0.3，估计器数量为800，树的最大深度为4，α为2，λ为1，得到早期肺腺癌的诊断模型；

（3）使用准确度、特异性、召回率、阳性预测值、阴性预测值、F1 分数和Kappa 系数等评估XGBoost预测模型的预测性能；

（4）与肺腺癌的临床诊断金标准TTF-1、Napsin A和CEA进行比较，对比XGBoost预测模型和这些金标准的诊断性能。

本发明的优选方案中，最终用于构建XGBoost分类模型的5种血浆代谢物为：次黄嘌呤、天冬氨酸、棕榈酸、半胱氨酸和丙酮酸。所得的XGBoost诊断模型在训练集和验证集的ROC曲线下面积AUC值为0.994 和0.968。

本发明的优选方案中，所构建的XGBoost分类模型在三个临床中心均展现出了极为出色的预测性能。具体而言，其准确度高于 0.89，特异性和召回率均高于 0.89，阳性预测值大于 0.82，阴性预测值大于 0.86，F1 分数高于 0.86，以及 Kappa 系数大于 0.85。这些数据充分证明了该模型在多个独立中心样本中具有稳定的预测效果和较高的准确性。

本发明的优选方案中，所构建的XGBoost分类模型的诊断灵敏度优于常规肺腺癌诊断标志物CEA（XGBoost vs. CEA = 98.81% : 52.38%），TTF-1（XGBoost vs. TTF-1 =97.92% : 94.79%）和Napsin A（XGBoost vs. Napsin A = 98.15% : 92.62%）。

本发明的有益效果为：通过运用血浆代谢组学技术和人工智能数据分析技术，确定适用于早期肺腺癌诊断的生物标志物和早期肺癌诊断模型。本发明的生物标志物筛选方法操作性强，模型构建方法简便，所获得的诊断模型效果优秀，灵敏度高，特异性优良，适用于肺腺癌的早期诊断。本发明只需通过取血检测即可完成诊断，无需额外的组织样本采集，也无需 CT 影像学数据辅助判断，极大地降低了创伤和辐射风险。本发明能够有效替代现有的组织活检和影像学诊断方式，且诊断过程简洁迅速，有利于肺腺癌的早期发现和及时治疗，具有很高的临床应用和推广价值。

附图说明

图1. 肺腺癌和健康对照人群血浆样本GC-MS的总离子色谱图(TICs)。

其中，1、丙酮酸；2、乳酸；3、乙醇酸；4、丙氨酸；5、草酸；6、3-羟丁酸；7、磷酸一甲酯；8、缬氨酸；9、尿素；10、磷酸盐； 11、异亮氨酸； 12、脯氨酸； 13、甘氨酸； 14、琥珀酸；15、丝氨酸； 16、苏氨酸； 17、β-丙氨酸； 18、氨基丙二酸； 19、天门冬氨酸； 20、蛋氨酸；21、半胱氨酸； 22、鸟氨酸； 23、谷氨酸； 24、苯丙氨酸； 25、天冬酰胺； 26、外标； 27、谷氨酰胺； 28、柠檬酸； 29、内标； 30、葡萄糖； 31、酪氨酸； 32、棕榈酸； 33、尿酸； 34、亚油酸； 35、油酸； 36、十八酸； 37、胱氨酸； 38、6-磷酸果糖； 39、花生四烯酸； 40、α-生育酚；41、胆固醇。

图2. 三中心均有显著性差异的14种代谢物的韦恩图。

图3. 三中心均有显著性差异的次黄嘌呤代谢物的相对含量图。

图4. 三中心均有显著性差异的天冬氨酸代谢物的相对含量图。

图5. 三中心均有显著性差异的半胱氨酸代谢物的相对含量图。

图6. 三中心均有显著性差异的丙酮酸代谢物的相对含量图。

图7. 三中心均有显著性差异的棕榈酸代谢物的相对含量图。

图8. 三中心均有显著性差异的苹果酸代谢物的相对含量图。

图9. 三中心均有显著性差异的柠檬酸代谢物的相对含量图。

图10. 三中心均有显著性差异的胱氨酸代谢物的相对含量图。

图11. 三中心均有显著性差异的α-生育酚代谢物的相对含量图。

图12. 三中心均有显著性差异的黄嘌呤代谢物的相对含量图。

图13. 三中心均有显著性差异的天冬酰胺代谢物的相对含量图。

图14. 三中心均有显著性差异的乙醇酸代谢物的相对含量图。

图15. 三中心均有显著性差异的肌醇代谢物的相对含量图。

图16. 三中心均有显著性差异的烟酰胺代谢物的相对含量图。

图17. 次黄嘌呤在三中心样本中的ROC曲线图。

图18. 使用5个血浆代谢标志物构建的肺腺癌早期诊断模型的ROC曲线图。

具体实施方式

下面结合具体实施实例，进一步阐释本发明，本发明的实施例仅用于解释本发明，并不意味着限制本发明的保护范围。

实施例1 肺腺癌早期辅助诊断标志物的筛选

1.研究对象

本发明对来自三个临床中心的 1200 例受试者的血浆样本进行了分析。其中，中心 1 包括 754 例受试者（415 例早期肺腺癌患者和 339 例健康对照组），中心 2 包括337 例受试者（215 例早期肺腺癌患者和 122 例健康对照组），中心 3 包括 109 例受试者（65 例早期肺腺癌患者和 44 例健康对照组）。我们把中心 1 的受试者随机分为训练集（352 例早期肺腺癌患者和 229 例健康对照组）和验证集（63 例早期肺腺癌患者和 110例健康对照组）。训练集用于筛选和分析早期肺腺癌相关的血浆代谢物，验证集用于内部验证，而中心 2 和中心 3 被设定为外部验证。

肺腺癌患者是指 2016-2022 年间通过组织学或细胞学确诊的新发病例，排除了曾接受过手术、化疗、放疗或其他抗癌治疗的患者。此外，我们还排除了转移性肺腺癌、家族性肺癌、复发性癌症或多发性原发性肿瘤的患者。从肺腺癌患者招募期间访问同一医院健康检查中心的健康个体中随机选择无癌症对照。

所述早期肺腺癌患者为经影像学检查和组织活检确认的单发肺腺癌癌变的病人。所述健康人群为经体检无肺部病变的健康人群。这些研究对象的基本信息见表1。

表1.三中心的早期肺腺癌和健康对照人群基线及病理特征

。

2. 应用GC-MS技术的血浆代谢组学分析

首先，将所有血浆样本进行离心处理，然后将其保存在 -80℃的冰箱中。在开展研究时，取出血浆样本，经过样品预处理后，运用 GC-MS 技术进行代谢组学分析。这样，我们可以得到各血浆样本中的代谢物基本信息。具体的操作步骤如下。

2.1仪器和试剂

实验仪器包括：高速冷冻离心机（Thermo，美国）；超低温冰箱（Thermo，美国）；多管涡旋混匀仪（杭州奥盛仪器有限公司）；MixMate多用途混匀仪（Eppendorf，德国）；SpeedVac真空浓缩仪套装（Thermo，美国）； GCMS-QP2010 Ultra气质联用仪（岛津，日本）、4℃冷藏冰箱、纯水仪(Millipore)。

实验试剂包括：1, 2-¹³C₂-肉蔻酸（99%）、盐酸甲氧胺（98%）、甲基肉蔻酸酯、吡啶（≥99.8%，GC级）、N-甲基-N-三甲基硅烷三氟乙酰胺（含1%TMCS，v/v）、色谱级甲醇、正庚烷、超纯水。

溶液配制：

（1）GC-MS用含内标甲醇溶液：称取50.0 mg 1, 2-¹³C₂-肉蔻酸，使用甲醇定容至5.0 mL，得GC-MS内标母液（10.0 mg/mL）。实验时以甲醇为稀释溶液将GC-MS内标母液稀释成5.0 μg/mL，即得到实验所需含内标甲醇溶液。

（2）甲氧胺吡啶溶液：称取盐酸甲氧胺100.0 mg，使用吡啶定容至10.0 mL，即得实验用甲氧胺吡啶溶液（10.0 mg/mL)。

（3） GC-MS用外标溶液：称取30.0 mg 甲基肉蔻酸酯，使用庚烷定容至5.0 mL，得GC-MS外标母液（6.0 mg/mL）。实验时以庚烷为稀释溶液将GC-MS外标母液稀释成15.0 μg/mL，即得到实验所需含GC-MS用外标溶液。

2.2血浆样本预处理

取血浆50.0 μL，加入200.0 μL含有1, 2-¹³C₂-肉蔻酸的甲醇溶液（5.0 μg/mL），涡旋振荡5.0 min，在4℃下以20000×g离心10.0 min。取100.0 μL上清液于GC进样瓶中，使用SpeedVac 真空浓缩仪挥干溶剂。将30.0 μL甲氧胺吡啶溶液（10.0 mg/mL）加入至浓缩的血浆样本，涡旋振荡5.0 min，室温静置 16.0 h 进行肟化。然后加入30.0 μL衍生化试剂MSTFA（含1%TMCS），涡旋振荡5.0 min，室温静置 1.0 h 进行硅烷化，最后加入30.0 μL外标溶液（甲基肉蔻酸酯庚烷溶液，15.0 μg/mL），涡旋振荡5.0 min后即可进行GC-MS检测。

2.3 GC-MS数据采集

气相色谱柱为 RTx-5MS 熔凝石英毛细管柱（0.25 mm × 30 m × 0.25 µm，Restek，PA，USA）。进样量为0.5 μL，采用分流进样模式（分流比为8：1）。氦气作为载气，流速为1.5 mL/min。采用程序升温模式：初始温度为80℃保持3.0 min，然后以20℃/min的速度升至300℃，并保持5.0 min。质谱仪的离子源温度和传输管温度均为220℃，采用电子流轰击模式, 能量为 −70 eV，电流为3.2 mA。质谱系统采用全扫描方式进行数据采集（2500Hz）, 扫描范围为 50～700 m/z, 每次运行时间为19.0 min。质量控制样品（QC样品）由上述血浆样本混合得到，其准备过程与上述相同。为减少系统误差，所有样本都是随机乱序进样。

3. 血浆代谢标志物筛选及鉴定

按照上述色谱质谱条件对样本进行分析，获得所有样本的原始代谢指纹图谱，其中各组样本的典型总离子流色谱图(TICs)见图1。随后对原始代谢指纹图谱进行分析，以筛选能够区分早期肺腺癌患者与健康人群的生物标志物，具体操作如下。

3.1 代谢物的鉴定和积分

使用岛津的 GC-MS Postrun Analysis 软件读取原始代谢指纹图谱，将各色谱峰的质谱碎片、峰强度和保留时间等信息与文献和数据库（包括2017版NIST标准化合物谱库和Wiley 9标准化合物谱图库）所采集谱图中的化合物进行对照，还利用一些标准化合物来鉴定代谢物。对比测定化合物和对照标准化合物质谱图, 确定各色谱峰/化合物特征定量离子, 取得各色谱峰/化合物峰面积的半定量数据。

3.2 GC-MS实验质量控制

在进行 GC-MS 血浆代谢组学分析时，将制备的 QC 样品按每 15 个分析样本安排一个 QC 样品的顺序均匀地插入分析样本中。这样做的目的是为了实时监测分析样本从进样预处理到分析检测过程中的质量控制情况。经过 GC-MS Postrun Analysis 软件预处理后，计算每个代谢物在 QC 样本中的变异系数 (％RSD)。绝大多数代谢物的变异系数都控制在 30％以下，说明样本在进样预处理到分析检测过程中的质量控制情况良好，所获得的代谢组学数据真实可信。

3.3早期肺腺癌血浆生物标志物的筛选

利用数据统计软件 SPSS 对上述各代谢物的半定量数据进行统计分析，筛选出早期肺腺癌患者与健康对照人群之间存在差异的代谢物。接着，将三个中心受试者中所检测到的差异代谢物取交集，从而得到稳定且可靠的早期肺腺癌血浆标志物。结果如图2~图16所示，我们发现存在14种代谢物在三个中心的样本中均表现出显著性差异（次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸、丙酮酸、乙醇酸、天冬酰胺、肌醇和烟酰胺），其中10种代谢物含量变化趋势一致，包括4种含量升高的代谢物（次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸）和6种含量降低的代谢物（α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸和丙酮酸）。

对上述稳定可靠的早期肺腺癌血浆标志物进行ROC分析，以筛选出对早期肺腺癌诊断性能最佳的代谢物，同时对其灵敏度和特异性进行评估。最终筛选出诊断性能最佳的代谢物。我们筛选出次黄嘌呤适合作为早期肺腺癌的诊断标志物。结果如图17所示。次黄嘌呤在三个中心的样本中均表现出非常好的诊断性能（中心1-训练集：AUC=0.93，灵敏度=0.901，特异性=0.834；中心1-验证集：AUC=0.94，灵敏度=0.889，特异性=0.891中心2：AUC=0.99，灵敏度=0.967，特异性=0.992；中心3：AUC=0.99，灵敏度=0.969，特异性=1.000）。

实施例2 肺腺癌早期诊断模型的构建

1.研究对象和实验方法

本实施例与实施例1的研究对象、检测分析方法相同。

2.机器学习XGBoost建模与性能评估

以上述在三中心的早期肺腺癌和健康人中含量变化趋势一致的十种代谢物（次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸和丙酮酸）为预测因子，通过基于机器学习的特征筛选过程，采用XGBoost算法构建模型并计算特征重要性评分。不断累加重要特征，形成待测模型，并评估模型的分类准确度以展示不同模型的分类效能。最后，确定相对最优的特征数和组合方式，其标准为：当增加特征数时，模型准确度不再提升。所得到的血浆代谢标志物的组合即可作为适合于肺腺癌早期诊断的诊断标志物，可用于构建预测模型。

我们对构建模型所需的变量数和模型预测准确度进行了分析，结果发现，当变量数为5时，模型的预测准确度达到最佳，并且随着变量数的增加并不会有大的改变。将各代谢物按照模型重要性排序，我们发现排名前五的代谢物分别为：次黄嘌呤、天冬氨酸、半胱氨酸、丙酮酸和棕榈酸。

根据筛选出的血浆代谢标志物组合，使用机器学习XGBoost算法构建分类模型，得到早期肺腺癌的诊断模型。构建XGBoost分类模型时，建模参数如下：学习率为0.3，估计器数量为800，树的最大深度为4，α为2，λ为1。所获模型的准确度、特异性、召回率、阳性预测值、阴性预测值、F1 分数和Kappa、灵敏度、特异度以及ROC曲线分析结果见图18和表2，所得的XGBoost诊断模型在训练集和验证集的ROC曲线下面积AUC值为0.994 和0.968。本发明的优选方案中，所构建的XGBoost分类模型在三个临床中心均展现出了极为出色的预测性能。具体而言，其准确度高于 0.89，特异性和召回率均高于 0.89，阳性预测值大于 0.82，阴性预测值大于 0.86，F1 分数高于 0.86，以及 Kappa 系数大于 0.85。这些数据充分证明了该模型在多个独立中心样本中具有稳定的预测效果和较高的准确性。

表2. 基于XGBoost算法构建的早期肺腺癌诊断模型的分类性能

。

实施例3 肺腺癌早期诊断模型与肺腺癌诊断标志物诊断性能对比

1.研究对象和实验方法

我们收集具有甲状腺转录因子-1（TTF-1）或新天冬氨酸蛋白酶 A（Napsin A）或癌胚抗原（CEA）检测结果的早期肺腺癌患者的血浆样本，采用与实施例1中相同的检测分析方法，获得每个样本中次黄嘌呤、天冬氨酸、半胱氨酸、丙酮酸和棕榈酸的半定量数据，再构建与实施例2相同的XGBoost分类模型，获得每个样本预测结果，并与TTF-1、Napsin A和CEA检测结果做比较，结果如表3所示。我们收集到288例具有TTF-1检测结果的早期肺腺癌样本，271例具有Napsin A检测结果的早期肺腺癌样本，84例具有CEA检测结果的早期肺腺癌样本。

最终，我们所构建的XGBoost分类模型的诊断灵敏度优于常规肺腺癌诊断标志物CEA（XGBoost vs. CEA = 98.81% : 52.38%），TTF-1（XGBoost vs. TTF-1 = 97.92% :94.79%）和Napsin A（XGBoost vs. Napsin A = 98.15% : 92.62%）。我们构建的预测模型显示出更高的阳性检出率、更低的假阴性率和更好的灵敏度。

表3. XGBoost分类模型与TTF-1、Napsin A和CEA诊断性能比较

。

Claims

1.一种肺腺癌早期辅助诊断标志物，其特征在于：该标志物为以下（1）或（2）或（3）：

（1）由5 种血浆代谢物次黄嘌呤、天冬氨酸、棕榈酸、半胱氨酸和丙酮酸组成的组合；

（2）由 10 种血浆代谢物次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸和丙酮酸组成的组合；

（3）由14 种血浆代谢物次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸、丙酮酸、乙醇酸、天冬酰胺、肌醇和烟酰胺组成的组合。

2.权利要求1所述的肺腺癌早期辅助诊断标志物在制备肺腺癌早期辅助诊断产品中的应用。

3.检测权利要求1所述肺腺癌早期辅助诊断标志物的物质在制备肺腺癌早期辅助诊断产品中的应用。

4.根据权利要求 3所述的应用，其特征在于：所述的物质为用于检测血浆中诊断标志物含量的物质。

5.根据权利要求 4所述的应用，其特征在于：所述的物质为检测肺腺癌早期辅助诊断标志物的气相色谱质谱联用仪所需仪器和/或试剂。

6.一种肺腺癌早期辅助诊断试剂盒，其特征在于：该试剂盒包含有用于检测权利要求1中所述肺腺癌早期辅助诊断标志物的物质。

7.根据权利要求6所述的肺腺癌早期辅助诊断试剂盒，其特征在于：该试剂盒还包含记载有模型的载体或者负载有模型的装置。

8.一种肺腺癌AI诊断模型的构建方法，其特征在于：包含以下步骤：

（2）根据筛选出的血浆代谢标志物组合次黄嘌呤、天冬氨酸、棕榈酸、半胱氨酸和丙酮酸，使用机器学习XGBoost算法构建分类模型，建模参数如下：学习率为0.3，估计器数量为800，树的最大深度为4，α为2，λ为1，得到早期肺腺癌的诊断模型；

（3）使用准确度、特异性、召回率、阳性预测值、阴性预测值、F1 分数和Kappa 系数评估XGBoost预测模型的预测性能；