CN117789993A

CN117789993A - 基于舌苔代谢物的胃癌预测模型的建立和应用

Info

Publication number: CN117789993A
Application number: CN202410211261.1A
Authority: CN
Inventors: 程向东; 潘利斌; 袁莉; 徐志远; 杜灵彬; 赵靖; 王亚楠
Original assignee: Zhejiang Cancer Hospital
Current assignee: Zhejiang Cancer Hospital
Priority date: 2024-01-31
Filing date: 2024-02-27
Publication date: 2024-03-29
Anticipated expiration: 2044-02-27
Also published as: CN117789993B

Abstract

本发明涉及胃癌预测技术领域，公开了基于舌苔代谢物的胃癌预测模型的建立和应用。步骤S1：采集舌苔代谢物作为样本；步骤S2：对样本进行分析，获得舌苔代谢物样本数据集；舌苔代谢物样本数据集包括M个舌苔代谢物样本数据子集，每个舌苔代谢物样本数据子集包含舌苔代谢物中各组分的丰度数据；步骤S3：数据前处理，针对舌苔代谢物样本数据集进行前处理，得到最终舌苔代谢物样本数据集；步骤S4：将最终舌苔代谢物样本数据集输入胃癌预测模型，得到最终胃癌患病概率。采集舌苔代谢物对人体无损，受试者接受度好，预测准确度高。根据预测精度要求灵活选择采集舌苔代谢物各组分的组合，提升预测模型的便捷性、易用性。

Description

基于舌苔代谢物的胃癌预测模型的建立和应用

技术领域

本发明涉及胃癌预测技术领域，尤其涉及基于舌苔代谢物的胃癌预测模型的建立和应用。

背景技术

胃癌是全球范围内最常见的恶性肿瘤之一，严重危害人类健康。由于胃癌缺乏早期的显著症状，其在诊断时往往处于晚期，导致死亡率很高。胃癌早期筛查依赖于胃镜的检查，而胃镜检查依赖于仪器和专业医师，同时面临患者依从性较差的问题，严重限制胃癌的诊断，尤其是限制胃癌早期的筛查。因此开发非侵入性的新型胃癌筛查工具至关重要。

代谢组学是一种强有力的生物标志物挖掘工具，以代谢物作为代表，是所有小分子化合物的集合，可以表征生理或疾病新陈代谢动态系统的最下游阶段，其优势在于能够提供关于生物体内部代谢状态的全面信息，从而揭示疾病发展的微妙变化。癌症对宿主的新陈代谢产生广泛的影响，肿瘤细胞代谢重编程促进其增殖和改变肿瘤免疫微环境，同时某些代谢物直接促进癌症的进展和发生。

因此，亟需一种基于舌苔代谢物的胃癌预测模型，用于提升胃癌预测的准确率。

发明内容

为了解决上述技术问题，本发明提供了基于舌苔代谢物的胃癌预测模型的建立方法，以提升胃癌预测的准确率，包括如下步骤：

步骤S1：采集舌苔代谢物作为样本；

步骤S2：对所述样本进行分析，获得舌苔代谢物样本数据集，所述舌苔代谢物样本数据集包括M个舌苔代谢物样本数据子集，每个舌苔代谢物样本数据子集包含舌苔代谢物中各组分的丰度数据，舌苔代谢物的组分包括：N-乙酰-亮氨酸、丙酰肉碱、17α-雌二醇、乳果糖、乙醇胺；

步骤S3：数据前处理，针对所述舌苔代谢物样本数据集进行前处理，得到最终舌苔代谢物样本数据集；

步骤S4：将所述最终舌苔代谢物样本数据集输入胃癌预测模型，得到最终胃癌患病概率。

优选地，所述舌苔代谢物的组分还包括：本胆烷醇酮、3-羟基苯甲醛、3-羟基丁酸、6β-羟基-17β-雌二醇、N-乙酰胞壁酸。

优选地，所述舌苔代谢物的组分还可以是：N-乙酰-亮氨酸、丙酰肉碱、17α-雌二醇、乳果糖、乙醇胺、N-乙酰-D-半乳糖胺[M+H-H2O]+、本胆烷醇酮、泛酸、甜菜碱醛、3 -羟基苯甲醛、3-羟基丁酸、5Z,7E,9E,14Z,17Z-二十碳五烯酸、6β-羟基-17β-雌二醇、4-羟基苯甲酸、N-乙酰胞壁酸。

优选地，所述舌苔代谢物的组分还包括：N-乙酰-D-半乳糖胺[M+H-H2O]+、本胆烷醇酮、苏氨酸亮氨酸、D-丙氨酰-D-丙氨酸、蔗糖、邻苯二甲酸酐、N-甲基酪胺、丁酸、泛酸、甜菜碱醛、甘露醇、3-羟基苯甲醛、3-羟基丁酸、4-乙酰氨丁酸、5Z,7E,9E,14Z,17Z-二十碳五烯酸、6β-羟基-17β-雌二醇、4-羟基苯甲酸、普糖、N-乙酰胞壁酸、山梨糖。

优选地，所述舌苔代谢物的组分还可以是：N-乙酰-亮氨酸、N-乙酰-D-半乳糖胺[M+H-H2O]+、丙酰肉碱、本胆烷醇酮、17α-雌二醇、N-乙酰-D-半乳糖胺、左旋肾上腺素、‘丙基肉桂酸酯；3-二甲基烯丙基-4-羟基苯甲醛’、17α-羟基孕酮、乳果糖、苏氨酸亮氨酸、精氨酸-丙氨酸、皮质醇、D-丙氨酰、D-丙氨酸、雄酮、蔗糖、2-羟基-2-甲基丁酸、邻苯二甲酸酐、N-甲基酪胺、雌二醇-17β 3-硫酸酯、丙氨酰-亮氨酸、亮氨酰-缬氨酸、4-氨基-4-脱氧鸟苷、胸腺嘧啶、β-羟基苯乙醛、苯乙醛、β-丙氨酸、对羟基肉桂醇糖苷、泛酸、甜菜碱醛、甘露醇、β-羟基苯甲醛、蛋氨酸、熊去氧胆酸、β-羟基丁酸、异丁酰甘氨酸、4-乙酰氨丁酸、正十六烷二酸二酸盐；十六烷二酸盐、精氨酸、鸟氨酸、5Z,7E,9E,14Z,17Z-二十碳五烯酸、6β-羟基-17β-雌二醇、4-羟基苯甲酸、来普糖、N-乙酰胞壁酸、山梨糖。

优选地，所述舌苔代谢物的组分还包括：N-乙酰-D-半乳糖胺[M+H-H2O]+（N-Acetyl-D-galactosamine [M+H-H2O]+）、本胆烷醇酮（Etiocholanone）、N-乙酰半糖胺、左旋间羟肾上腺素、‘丙基肉桂酸酯；3-二甲基烯丙基-4-羟基苯甲醛’、17α-羟基孕酮、苏氨酸亮氨酸（Threonylleucine）、瓜氨酸、N-乙酰胞壁酸、胞壁酸、‘精氨酸-丙氨酸’、甲基亮氨酸酯、皮质醇、乙基-4-二甲基氨基苯甲酸酯（Ethyl-4-dimethylaminobenzoate）、D-丙氨酰-D-丙氨酸、雄甾酮（Androsterone）、云杉苷、蔗糖、2-羟基-2-甲基丁酸、邻苯二甲酸酐、N-甲基酪胺、17β-雌二醇-3-硫酸酯（Estradiol-17beta 3-sulfate）、丙氨酰-亮氨酸、腺嘌呤、缬氨酸-缬氨酸（Valylvaline）、γ-谷氨酰-γ-氨基丁醛、亮氨酰-缬氨酸、‘4-氨基-4-脱氧鸟苷；胸苷’、 3β-羟基孕-5-烯-20-酮硫酸酯（3beta-Hydroxypregn-5-en-20-onesulfate）、正丁酸、雌酮葡糖苷酸、辛基甲氧肉桂酸酯、γ-谷氨酰谷氨酰胺、N-辛酰甘氨酸、苯甲酰胺、苯乙醛、N-ε-乙酰赖氨酸、香豆酰基鸟氨酸、1,3-二环己基脲、N5-(L-1-羧乙基)-L-鸟氨酸、2-氨基丁酸、尿嘧啶、4-羟肉桂醇4-D-葡萄糖苷、‘安沙明；香豆素醋酸盐’、磷酸胆碱（LPE 14:0）、泛酸、甜菜碱醛、甘露醇、肌酐、腐胺、丙烯酰胺、鞘氨醇1-磷酸酯（Sphingosine 1-phosphate）、吲哚乙酸、2-苯乙酰胺、3-乙氧基-4-羟基苯甲醛、3-羟基苯甲醛、γ-谷氨酰基蛋氨酸、甲酰甲硫氨酸、磷酸吡哆胺、苯、天冬氨酸、苯甲酸、4-羟基-L-谷氨酸、羟乙基磺酸（isethionic acid）、D-核糖酸、丝氨酸、3-羟基丁酸、甘油磷酰胆碱、L-羟基赖氨酸、4-羟基苯基甘氨酸、4-羟基粘液酸、雄甾二醇（Androstenediol）、异丁酰甘氨酸、4-乙酰胺基丁酸、乙醛酸、N-乙酰-L-谷氨酸 5-磷酸、尿苷、鸟氨酸、十六烷二酸、油酸、瓜氨酸、5Z,7E,9E,14Z,17Z-二十碳五烯酸、琥珀酸、6β-羟基-17β-雌二醇、4-羟基苯甲酸、4-氨基丁酸、N-甲酰基-L-谷氨酸、来普糖（LYXOSE）、N-乙酰半乳糖胺、N-乙酰胞壁酸、山梨糖、D-山梨糖醇。

优选地，所述步骤S3中，针对所述舌苔代谢物样本数据集进行前处理，得到最终舌苔代谢物样本数据集，包括：

确定所述每个舌苔代谢物样本数据子集的缺失值个数；

剔除所述缺失值个数超过缺失值阈值的舌苔代谢物样本数据子集，得到符合缺失值要求的舌苔代谢物样本数据子集；

对符合缺失值要求的舌苔代谢物样本数据子集进行插补，得到插补后的舌苔代谢物样本数据集；

针对插补后的舌苔代谢物样本数据集进行归一化处理，获得最终舌苔代谢物样本数据集。

优选地，所述步骤S1中采集舌苔代谢物包括：

将采集的舌苔代谢物溶于水和甲醇的混合溶液中，所述水和甲醇的混合溶液体积比为1:3，采集的舌苔代谢物、水和甲醇的混合溶液以及内标共计700 μL，进行涡旋处理30秒，涡旋处理后于 4℃下超声处理10 min，在-20 ℃下静置2 h；

静置结束后，在13500 rpm的转速下离心处理10 min，取450 μL上清液，将所述上清液在25 ℃下挥发干燥，得到沉淀物；

在所述沉淀物中加入2 %浓度的甲醇100 μL进行复溶，再涡旋处理30 s，涡旋处理完毕后超声处理10 min，获得舌苔代谢物样品溶液。

本发明还提供上述任一种建立方法建立的基于舌苔代谢物的胃癌预测模型在胃癌预测中的应用。

本发明实施例具有以下技术效果：

1.本发明提供了基于舌苔代谢物的胃癌预测模型的建立方法，采集舌苔代谢物，获取样本数据集，使用该样本数据集对胃癌进行预测，对人体无损，相比其他有损检测，提升患者体验感和接受度。

2.本发明选择舌苔代谢物组分中的N-乙酰-亮氨酸、丙酰肉碱、17α-雌二醇、乳果糖、乙醇胺进行胃癌预测，进一步提升了预测准确率。

3.本发明中输入胃癌预测模型的样本数据，还可以根据预测精度要求灵活选择，精度要求高时选择较多组分的组合作为样本数据，精度要求较低时选择较少组分的组合作为样本数据，提升预测模型的便捷性、易用性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明提供的基于舌苔代谢物的胃癌预测模型的建立方法的流程图；

图2是本发明实施例中将内标L-甲硫氨酸-甲基-d3加标到单个样品中峰面积的相对标准偏差展示图；

图3是本发明实施例中将内标棕榈酸-d31加标到单个样品中峰面积的相对标准偏差展示图；

图4是本发明实施例中质控样品（混合样本）在正极模式下的PCA图；

图5是本发明实施例中质控样品（混合样本）在负极模式下的PCA图；

图6是本发明实施例中舌苔样本的混合样本的正极代表性TIC图；

图7是本发明实施例中舌苔样本的混合样本的负极代表性TIC图；

图8是本发明实施例使用训练集中5种舌苔代谢物组分的组合得到的胃癌预测结果的AUCs值展示图；

图9是本发明实施例使用内部验证集中5种舌苔代谢物组分的组合得到的胃癌预测结果的AUCs值展示图；

图10是本发明实施例使用外部验证集中5种舌苔代谢物组分的组合得到的胃癌预测结果的AUCs值展示图；

图11是本发明实施例中使用训练集中四种常见血浆生物标志物及其组合得到的胃癌预测结果的AUCs值展示图；

图12是本发明实施例中使用内部验证集中四种常见血浆生物标志物及其组合得到的胃癌预测结果的AUCs值展示图；

图13是本发明实施例中使用外部验证集中四种常见血浆生物标志物及其组合得到的胃癌预测结果的AUCs值展示图；

图14是本发明实施例中使用内部验证集通过舌苔图像胃癌预测模型得到第二胃癌患病概率的AUCs值展示图；

图15是本发明实施例中使用外部验证集通过舌苔图像胃癌预测模型得到第二胃癌患病概率的AUCs值展示图；

图16是本发明实施例中使用内部验证集通过多模态胃癌预测模型得到最终胃癌患病概率的AUCs值展示图；

图17是本发明实施例中使用外部验证集通过多模态胃癌预测模型得到最终胃癌患病概率的AUCs值展示图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行清楚、完整的描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

本发明提供了基于舌苔代谢物的胃癌预测模型的建立方法，由图1可知，该建立方法包括如下步骤：

步骤S1：采集舌苔代谢物作为样本；

参与者队列：

选取8个中心的1648名参与者，其中胃癌患者（GC）613名，正常受试者（non-GC）1035名，覆盖中国多个地区。回顾了所有参与者的医疗记录。在胃镜检查前收集了基线临床病理数据，包括年龄、性别、体重指数、吸烟史、饮酒史和家族史等。同时还收集了一些外周血肿瘤标志物的信息，包括癌胚抗原（CEA）、糖类抗原724（CA724）、甲胎蛋白（AFP）和糖类抗原199（CA199）。蛋白质生物标志物的分析根据临床指导进行（CA724: 编号11776258,Cobas; AFP: 编号3P36/07P90, Alinity; CEA: 编号00937450, Simens; CA199: 编号10491244, Simens）。

具体来说，训练集以及内部测试集的胃癌患者来自3个中心的样本，训练集以及内部测试集的非胃癌患者来自5个中心的样本；而独立外部验证数据集的胃癌患者来自一个中心，独立外部验证数据集的非胃癌患者来自三个中心。

在训练集上训练模型，在内部测试集上评估模型，一旦找到的最佳的参数，就在外部验证集上最后测试。

对于胃癌患者，纳入标准包括：（1）经病理检查确认的胃癌患者且接受过D2淋巴结清扫术，（2）术前有舌苔样本及舌象采集的患者，（3）术前未接受过任何肿瘤治疗的患者，（4）有完整临床数据和随访的患者。排除标准包括：（1）术前没有舌苔样本及舌象采集的患者，（2）术前接受过任何肿瘤治疗的患者，（3）医疗记录不完整或失去随访的患者。医疗记录中还检索了病理类型、肿瘤大小、肿瘤位置、分化程度、神经侵犯和血管肿瘤栓塞情况。根据美国癌症联合委员会第八版TNM分期系统，也检索了pN分期、pM分期和pTNM分期。

对于非胃癌参与者，舌苔样本及舌象采集是在常规体检期间收集的。根据体检结果回顾和咨询病史，可以确认所有参与者的健康状况。非胃癌参与者的排除标准包括：（1）有癌症相关治疗史的参与者，（2）内窥镜前没有舌苔样本采集的参与者。

收集舌苔代谢物：

舌苔代谢物的采集时间是在所有胃癌（GC）参与者的胃手术当天早晨以及非胃癌（NGC）参与者的胃镜检查当天早晨，在空腹超过8小时的情况下进行，这样排除了饮食对舌苔的影响。在采集舌苔样本之前，参与者用无菌水漱口三次。所有舌象都是使用同一台舌象采集仪器（型号：d-CleverTongue，杭州迪英加科技有限公司，中国杭州）在相同的光源、环境和采集软件下收集的。舌头从根部到尖端被专业操作员同时滚动舌拭子刮取30次（每个拭子滚动5次，共6个拭子）。拭子立即放入冷冻管中，然后样本被转移到-80°C的冰箱中。

对采集的舌苔代谢物进行前处理，所述前处理包括：

将采集的舌苔代谢物溶于水和甲醇的混合溶液中，所述水和甲醇的混合溶液体积比为1:3，采集的舌苔代谢物、水和甲醇的混合溶液以及内标共计700 μL，进行涡旋处理30秒，涡旋处理后于 4℃下超声处理10 min，在-20 ℃下静置2 h。

静置结束后，在13500 rpm的转速下离心处理10 min，取450 μL上清液，将所述上清液在25 ℃下挥发干燥，得到沉淀物。

在所述沉淀物中加入2 %浓度的甲醇100 μL进行复溶，再涡旋处理30 s，涡旋处理完毕后超声处理10 min，取上清液作为舌苔代谢物样品溶液。

进样量为10 μL。样本混合方案：每个中心随机选取12%样本作为样本进行混合，前处理步骤同样本处理方案。内标配置方法：L-甲硫氨酸-甲基-d3：称取7 mg；配成1 mg/mL；取160 μL加入到50ml；浓度为3.2 μg/mL；棕榈酸-d31：1 mg/mL；称取3 mg；配成1 mg/mL；取50μL加入到50ml，浓度为1 μg/mL。

色谱及质谱方法：

数据采集使用了配备Orbitrap Exploris 120的Vanquish UHPLC系统（赛默飞世尔科技，美国）进行。原始数据通过Xcalibur软件获取。液相色谱分离在一个Waters UPLCHSS T3柱上进行（1.8 µm；150 mm长度×2.1 mm内径），柱温维持在40°C。正离子模式检测时，流动相A为含0.1%甲酸的水（LC-MS/MS级，赛默飞），流动相B为乙腈（LC-MS/MS级，赛默飞）；负离子模式检测时，流动相A为6.5 mM碳酸氢铵（Sigma），流动相B为乙腈；流速为0.3mL/min。梯度程序设置如下：0-1分钟，2% B；1-4.5分钟，2-60% B；4.5-7分钟，60% B；7-8分钟，60-100% B；8-11.4分钟，100% B；11.4-11.5分钟，100-2% B；14分钟，2%。注射体积为10µL。在数据采集期间，所有样本均随机分析。质控样品通过汇集所有受试样本等体积份额制备，并在每10个样本进样后插入一次。

在LC−MS数据采集过程中，将两种内标L-甲硫氨酸-甲基-d3和棕榈酸-d31加标到单个样品中，以监测重现性，由图2和图3可知，两种内标的峰面积的相对标准偏差（RSD）计算值分别为2.2%和2.7%。进行主成分分析（PCA）以评估样品的重现性。在正极和负极模式下，质控样品（混合样本）在PCA图中紧密聚集，参见图4和图5可知，这些结果表明数据具有出色的重现性和良好的数据质量。

数据采集在全扫描模式和dd-MS2扫描模式下进行。离子源参数设置如下：正离子模式的喷射电压为3500 V，负离子模式为2500V；鞘气为50 arb；辅助气体为10 arb；离子传输管温度为300°C。全MS扫描模式的分辨率设为60,000，正离子模式的AGC目标设为1e6。最大注射时间设为100毫秒。质量范围设为60-900 Da。对于dd-MS2扫描模式，MS分辨率设为15,000，AGC目标设为标准。最大注射时间设为自动。碰撞能量设为SNCE 20-40-60%。所有的样本分成8个批次进行制备和进样，样本第一次制样时统一制备，分别插入每个批次样本中进行进样。

本发明提供的基于舌苔代谢物的胃癌预测模型的建立方法，采集舌苔代谢物，获取样本数据集，使用该样本数据集对胃癌进行预测，对人体无损，相比其他有损检测，提升患者体验感和接受度。

本发明选择舌苔代谢物组分中的N-乙酰-亮氨酸、丙酰肉碱、17α-雌二醇、乳果糖、乙醇胺进行胃癌预测，提升了胃癌预测的准确率。

优选地，所述舌苔代谢物的组分还包括：本胆烷醇酮（Etiocholanone）、3-羟基苯甲醛、3-羟基丁酸、6β-羟基-17β-雌二醇、N-乙酰胞壁酸。

优选地，所述舌苔代谢物的组分：N-乙酰-亮氨酸、丙酰肉碱、17α-雌二醇、乳果糖、乙醇胺、N-乙酰-D-半乳糖胺[M+H-H2O]+、本胆烷醇酮（Etiocholanolone）、泛酸、甜菜碱醛、3 -羟基苯甲醛、3-羟基丁酸、5Z,7E,9E,14Z,17Z-二十碳五烯酸、6β-羟基-17β-雌二醇、4-羟基苯甲酸、N-乙酰胞壁酸。

优选地，所述舌苔代谢物的组分还可以是：N-乙酰-亮氨酸、N-乙酰-D-半乳糖胺[M+H-H2O]+、丙酰肉碱、本胆烷醇酮（Etiocholanolone）、17α-雌二醇、N-乙酰-D-半乳糖胺、左旋肾上腺素、‘丙基肉桂酸酯；3-二甲基烯丙基-4-羟基苯甲醛’、17α-羟基孕酮、乳果糖、苏氨酸亮氨酸、精氨酸-丙氨酸、皮质醇、D-丙氨酰、D-丙氨酸、雄酮、蔗糖、2-羟基-2-甲基丁酸、邻苯二甲酸酐、N-甲基酪胺、雌二醇-17β 3-硫酸酯、丙氨酰-亮氨酸、亮氨酰-缬氨酸、4-氨基-4-脱氧鸟苷、胸腺嘧啶、β-羟基苯乙醛、苯乙醛、β-丙氨酸、对羟基肉桂醇糖苷、泛酸、甜菜碱醛、甘露醇、β-羟基苯甲醛、蛋氨酸、熊去氧胆酸、β-羟基丁酸、异丁酰甘氨酸、4-乙酰氨丁酸、正十六烷二酸二酸盐；十六烷二酸盐、精氨酸、鸟氨酸、5Z,7E,9E,14Z,17Z-二十碳五烯酸、6β-羟基-17β-雌二醇、4-羟基苯甲酸、来普糖、N-乙酰胞壁酸、山梨糖。

优选地，所述舌苔代谢物的组分还包括：N-乙酰-D-半乳糖胺[M+H-H2O]+（N-Acetyl-D-galactosamine [M+H-H2O]+）、本胆烷醇酮（Etiocholanone）、N-乙酰半糖胺、左旋间羟肾上腺素、‘丙基肉桂酸酯；3-二甲基烯丙基-4-羟基苯甲醛’、17α-羟基孕酮、苏氨酸亮氨酸（Threonylleucine）、瓜氨酸、N-乙酰胞壁酸、胞壁酸、‘精氨酸-丙氨酸’、甲基亮氨酸酯、皮质醇、乙基-4-二甲基氨基苯甲酸酯（Ethyl-4-dimethylaminobenzoate）、D-丙氨酰-D-丙氨酸、雄甾酮（Androsterone）、云杉苷、蔗糖、2-羟基-2-甲基丁酸、邻苯二甲酸酐、N-甲基酪胺、17β-雌二醇-3-硫酸酯（Estradiol-17beta 3-sulfate）、丙氨酰-亮氨酸、腺嘌呤、缬氨酸-缬氨酸（Valylvaline）、γ-谷氨酰-γ-氨基丁醛、亮氨酰-缬氨酸、‘4-氨基-4-脱氧鸟苷；胸苷’、 3β-羟基孕-5-烯-20-酮硫酸酯（3beta-Hydroxypregn-5-en-20-onesulfate）、正丁酸、雌酮葡糖苷酸、辛基甲氧肉桂酸酯、γ-谷氨酰谷氨酰胺、N-辛酰甘氨酸、苯甲酰胺、苯乙醛、N-ε-乙酰赖氨酸、香豆酰基鸟氨酸、1,3-二环己基脲、N5-(L-1-羧乙基)-L-鸟氨酸、2-氨基丁酸、尿嘧啶、4-羟肉桂醇4-D-葡萄糖苷、‘安沙明；香豆素醋酸盐’、磷酸胆碱（LPE 14:0）、泛酸、甜菜碱醛、甘露醇、肌酐、腐胺、丙烯酰胺、鞘氨醇1-磷酸酯（Sphingosine 1-phosphate）、吲哚乙酸、2-苯乙酰胺、3-乙氧基-4-羟基苯甲醛、3-羟基苯甲醛、γ-谷氨酰基蛋氨酸、甲酰甲硫氨酸、磷酸吡哆胺（Pyridoxamine phosphate）、苯、天冬氨酸、苯甲酸、4-羟基-L-谷氨酸、羟乙基磺酸（isethionic acid）、D-核糖酸、丝氨酸、3-羟基丁酸、甘油磷酰胆碱、L-羟基赖氨酸、4-羟基苯基甘氨酸、4-羟基粘液酸（4-Hydroxymyxol）、雄甾二醇（Androstenediol）、异丁酰甘氨酸、4-乙酰胺基丁酸、乙醛酸、N-乙酰-L-谷氨酸 5-磷酸、尿苷、鸟氨酸、十六烷二酸、油酸、瓜氨酸、5Z,7E,9E,14Z,17Z-二十碳五烯酸、琥珀酸、6β-羟基-17β-雌二醇、4-羟基苯甲酸、4-氨基丁酸、N-甲酰基-L-谷氨酸、来普糖（LYXOSE）、N-乙酰半乳糖胺、N-乙酰胞壁酸、山梨糖、D-山梨糖醇。

本发明中输入胃癌预测模型的样本数据，还可以根据预测精度要求灵活选择，精度要求高时选择较多组分的组合作为样本数据，精度要求较低时选择较少组分的组合作为样本数据，提升预测模型的便捷性、易用性。

确定所述每个舌苔代谢物样本数据子集的缺失值个数；

具体的，使用ProteoWizard（版本 3.0.20360）将原始MS数据（.raw）文件转换为mzXML格式，使用R包“XCMS”（3.12版）用于峰检测、保留时间校正和峰比对。XCMS处理参数设置如下：峰检测的质量精度 = 10 ppm；峰值宽度=（5，30）；信号噪声阈值 = 6；最小分数 =0.5。去除了样品中缺失值超过70%的特征。缺失值使用“impute”包内的k-nearestneighbor classification（KNN）算法进行插补。生成的峰值表使用“MetNormalizer12”R包进行处理，并进行归一化处理。样品中RSD小于30%的代谢峰用于后续分析。使用MetDNA2.0、MS-DIAL（5.1.230912）以及MetEx15进行代谢物的鉴定，主要根据代谢物的保留时间，1级质谱以及MS/MS 相似性来进行代谢物注释。

实施例一

本实施例中总共纳入包括8个中心的1648名参与者，其中胃癌患者（GC）613名，正常受试者（non-GC）1035名，所有胃癌患者均经病理检查确认，所有非胃癌参与者均经医学检查结果和病史咨询确认。具体来说，训练集和内部验证集包括来自5个中心的1224名参与者（包括469名胃癌患者和755名非胃癌参与者），而来自另外三个独立中心的424名参与者（包括144名胃癌患者和280名非胃癌参与者）被定义为独立外部验证数据集。如表1和表2所示，在训练集、内部验证集和外部验证集数据集中，胃癌患者和非胃癌参与者之间在年龄、性别、BMI，吸烟史和饮酒史方面没有显著差异。

表 1. 胃癌（GC）和非胃癌（NGC）参与者在训练集和内部验证集中的临床信息

其中，CA，碳水化合物抗原；CEA，癌胚抗原；GC，胃癌；GU，胃溃疡；GP，胃息肉；HP，幽门螺旋杆菌；NGC，非胃癌。

表 2. 胃癌（GC）和非胃癌（NGC）参与者在独立的外部验证集中的临床信息

胃癌患者和非胃癌受试者舌苔代谢物特征：

使用基于高分辨质谱Orbitrap Exploris™ 120的非靶向代谢组学的方法对所有的舌苔样本进行LC-MS分析，舌苔样本的混合样本的正极和负极的TIC图如图6和图7所示。经过质谱数据的预处理，代谢组学数据中，在正极检测模式下，提取到了46954个特征，在负极检测模式下，提取到了16578个特征。由于所有的样本是在8个批次的情况下进行检测的，所以使用“MetNormalizer12”R包对得到的峰表进行了基于样本的校准，校准完成后在两个尺度对校准的结果进行了判断；1）对加入到所有样本中的同位素内标进行了峰面积的定量，正极使用的同位素内标是L-Methionine-(methyl-d3)，RSD为2.7%；负极使用的同位素内标是Palmitic acid d31，RSD为2.2%，如图2和图3所示；内标的RSD值小于20%，说明在样本的前处理以及分析过程中的稳定性良好，前处理和仪器分析过程较为稳定。2）对所有样本进行了PCA的分析，结果如图4和图5所示，正极和负极的所有样本均良好的聚集在一起，说明样本分析过程中仪器状态稳定，基于样本的校准方法可行，结果可靠。按照样本中RSD值小于30%的特征进行了取舍，保留了12713个正极的特征和3162个负极的特征，进行后续的分析。

按照胃癌组和非胃癌组的变化大于1.5或者小于0.67，并且p值（校准后）小于0.05进行了火山图的绘制，结果如图8所示，在正极找到了876个上调的特征和1185个下调的特征，在负极找到了233个上调的特征和448个下调的特征。对所有具有显著性差异（p<0.05）的特征进行了注释，使用了3个开源的工具，包括MetDNA 2.0（http://metdna.zhulab.cn/ )、MS-DIAL（5.1.230912）以及MetEx，同时注释到的化合物经过HMDB、METLIN以及MassBank等在线数据库的检索验证，在正极注释到了147个具有显著差异的代谢物，在负极注释到了125个具有显著差异的代谢物，分别分属于氨基酸、脂质、碳水化合物、羧酸、核苷酸和其他，关注到了合并正极和负极注释到的代谢物，总共有60个氨基酸类的代谢物上调，46个脂质类代谢物上调，34个其他类代谢物上调，10个羧酸类代谢物上调，13个核苷酸类代谢物上调。基于kernel principal component analysis (KPCA)的方法，使用鉴定到的272种代谢物进行区分，胃癌组和非胃癌组在主成分1和主成分2上均可有效分离，P值为0.039和3.78×1074，表明胃癌组和非胃癌舌苔代谢组存在较大的差异。使用显著性微阵列分析（Significance Analysis of Microarrays, SAM）的方法对272个差异代谢物进行了分析，N-乙酰-亮氨酸、丙酰肉碱、本胆烷醇酮等物质在GC组中上调最为显著，熊去氧胆酸、D-丙氨酰-D-丙氨酸和3-3-羟基苯甲醛等物质在GC组中下调最为显著。进一步的，使用热图分别展示了正极和负极调控最为显著的前50个代谢物。

基于舌苔代谢物的胃癌预测模型的建立：

对所有鉴定出来的272个代谢物进行了基于机器学习的数学分析，主要的机器学习算法为随机森林（Random forest），以确定基于舌苔代谢组建立的胃癌诊断模型的价值。设置了训练集（Training Set），包含608名非胃癌受试者以及390名胃癌患者；内部验证集（Validation Set），包含147名非胃癌受试者以及79名胃癌患者；以及外部验证集（TestSet）包含280名非胃癌受试者以及144名胃癌患者；已确认模型的泛化能力。

具体来说，设置了5种舌苔代谢物组分的组合，即选择分类性能最好的5个、10个、15个、25个以及100个舌苔代谢物组分的组合进行胃癌患者和非胃癌受试者的区分，结果如图8-图10所示。在训练集中取得了令人满意的结果，5个舌苔代谢物组分的组合时曲线下面积（AUCs）值为0.966-0.994，舌苔代谢物组分纳入的越多，其AUCs的面积越大。其中由5个舌苔代谢物组分的组合的置信区间为0.956-0.975，由100个舌苔代谢物组分的组合的置信区间为0.990-0.997，表明具有极高的可信度。内部验证集5个舌苔代谢物组分的组合的曲线下面积（AUCs）值为0.900-0.957，同样具有良好的分类性能的独立外部验证集的AUCs值为0.850-0.921。上述结果表明的训练集、内部验证集以及外部验证集的AUCs值均在0.850以上，这表明基于舌苔代谢组的分类工具在胃癌诊断中表现出色。

5个舌苔代谢物组分的组合，包含的舌苔代谢物组分有N-乙酰-亮氨酸、丙酰肉碱、17α-雌二醇、乳果糖、乙醇胺。

10个舌苔代谢物组分的组合，包含的舌苔代谢物组分有：N-乙酰-亮氨酸、丙酰肉碱、17α-雌二醇、乳果糖、乙醇胺、本胆烷醇酮、3-羟基苯甲醛、3-羟基丁酸、6β-羟基-17β-雌二醇、N-乙酰胞壁酸。

15个舌苔代谢物组分的组合，包含的舌苔代谢物组分有：N-乙酰-亮氨酸、丙酰肉碱、乳果糖、乙醇胺、3-羟基苯甲醛、3-羟基丁酸、6β-羟基-17β-雌二醇、N-乙酰胞壁酸、N-乙酰-D-半乳糖胺[M+H-H2O]+、本胆烷醇酮、17α-雌二醇、泛酸、甜菜碱醛、5Z,7E,9E,14Z,17Z-二十碳五烯酸、4-羟基苯甲酸。

25个舌苔代谢物组分的组合，包含的舌苔代谢物组分有：N-乙酰-亮氨酸、丙酰肉碱、17α-雌二醇、乳果糖、乙醇胺、N-乙酰-D-半乳糖胺[M+H-H2O]+、本胆烷醇酮、苏氨酸亮氨酸、D-丙氨酰-D-丙氨酸、蔗糖、邻苯二甲酸酐、N-甲基酪胺、丁酸、泛酸、甜菜碱醛、甘露醇、3-羟基苯甲醛、3-羟基丁酸、4-乙酰氨丁酸、5Z,7E,9E,14Z,17Z-二十碳五烯酸、6β-羟基-17β-雌二醇、4-羟基苯甲酸、来普糖、N-乙酰胞壁酸、山梨糖。

50个舌苔代谢物组分的组合，包含的舌苔代谢物组分有：N-乙酰-亮氨酸、N-乙酰-D-半乳糖胺[M+H-H2O]+、丙酰肉碱、本胆烷醇酮、17α-雌二醇、N-乙酰-D-半乳糖胺、左旋肾上腺素、丙基肉桂酸酯、3-二甲基烯丙基-4-羟基苯甲醛、17α-羟基孕酮、乳果糖、苏氨酸亮氨酸、瓜氨酸（Citrulline）、乙醇胺、精氨酸-丙氨酸、皮质醇、D-丙氨酰-D-丙氨酸、雄甾酮（Androsterone）、蔗糖、2-羟基-2-甲基丁酸、邻苯二甲酸酐、N-甲基酪胺、17β-雌二醇-3-硫酸酯（Estradiol-17beta 3-sulfate）、丙氨酰-亮氨酸、亮氨酰-缬氨酸、4-氨基-4-脱氧基喹啉酮、胸苷、3β-羟基孕-5-烯-20-酮硫酸酯、丁酸、辛基甲氧基肉桂酸酯、苯乙醛、2-氨基丁酸、4-羟基肉桂醇4-D-葡萄糖苷、泛酸、甜菜碱醛、甘露醇、3-羟基苯甲醛、蛋氨酸、熊去氧胆酸、3-羟基丁酸、异丁酰甘氨酸、4-乙酰氨丁酸、十六烷二酸盐、瓜氨酸、5Z,7E,9E,14Z,17Z-二十碳五烯酸、6β-羟基-17β-雌二醇、4-羟基苯甲酸、来普糖、N-乙酰胞壁酸、山梨糖。

100个舌苔代谢物组分的组合，包含的舌苔代谢物组分有：N-乙酰-亮氨酸、丙酰肉碱、17α-雌二醇、乳果糖、乙醇胺、N-乙酰-D-半乳糖胺[M+H-H2O]+（N-Acetyl-D-galactosamine [M+H-H2O]+）、本胆烷醇酮（Etiocholanone）、N-乙酰半糖胺、左旋间羟肾上腺素、‘丙基肉桂酸酯；3-二甲基烯丙基-4-羟基苯甲醛’、17α-羟基孕酮、苏氨酸亮氨酸（Threonylleucine）、瓜氨酸、N-乙酰胞壁酸、胞壁酸、‘精氨酸-丙氨酸’、甲基亮氨酸酯、皮质醇、乙基-4-二甲基氨基苯甲酸酯（Ethyl-4-dimethylaminobenzoate）、D-丙氨酰-D-丙氨酸、雄甾酮（Androsterone）、云杉苷、蔗糖、2-羟基-2-甲基丁酸、邻苯二甲酸酐、N-甲基酪胺、17β-雌二醇-3-硫酸酯（Estradiol-17beta 3-sulfate）、丙氨酰-亮氨酸、腺嘌呤、缬氨酸-缬氨酸（Valylvaline）、γ-谷氨酰-γ-氨基丁醛、亮氨酰-缬氨酸、‘4-氨基-4-脱氧鸟苷；胸苷’、 3β-羟基孕-5-烯-20-酮硫酸酯（3beta-Hydroxypregn-5-en-20-one sulfate）、正丁酸、雌酮葡糖苷酸、辛基甲氧肉桂酸酯、γ-谷氨酰谷氨酰胺、N-辛酰甘氨酸、苯甲酰胺、苯乙醛、N-ε-乙酰赖氨酸、香豆酰基鸟氨酸、1,3-二环己基脲、N5-(L-1-羧乙基)-L-鸟氨酸、2-氨基丁酸、尿嘧啶、4-羟肉桂醇4-D-葡萄糖苷、‘安沙明；香豆素醋酸盐’、磷酸胆碱（LPE14:0）、泛酸、甜菜碱醛、甘露醇、肌酐、腐胺、丙烯酰胺、鞘氨醇1-磷酸酯（Sphingosine 1-phosphate）、吲哚乙酸、2-苯乙酰胺、3-乙氧基-4-羟基苯甲醛、3-羟基苯甲醛、γ-谷氨酰基蛋氨酸、甲酰甲硫氨酸、磷酸吡哆胺（Pyridoxamine phosphate）、苯、天冬氨酸、苯甲酸、4-羟基-L-谷氨酸、羟乙基磺酸（isethionic acid）、D-核糖酸、丝氨酸、3-羟基丁酸、甘油磷酰胆碱、L-羟基赖氨酸、4-羟基苯基甘氨酸、4-羟基粘液酸（4-Hydroxymyxol）、雄甾二醇（Androstenediol）、异丁酰甘氨酸、4-乙酰胺基丁酸、乙醛酸、N-乙酰-L-谷氨酸 5-磷酸、尿苷、鸟氨酸、十六烷二酸、油酸、瓜氨酸、5Z,7E,9E,14Z,17Z-二十碳五烯酸、琥珀酸、6β-羟基-17β-雌二醇、4-羟基苯甲酸、4-氨基丁酸、N-甲酰基-L-谷氨酸、来普糖（LYXOSE）、N-乙酰半乳糖胺、N-乙酰胞壁酸、山梨糖、D-山梨糖醇。

选择15个舌苔代谢物组分的组合作为后续靶向验证的目标代谢物。所有15个舌苔代谢物组分的组合在胃癌和非胃癌组中均具有显著性差异（p<0.05），15个舌苔代谢物组分的组合在训练集、内部验证集以及外部验证集的AUCs值为0.884-0.983，表明胃癌患者和非胃癌受试者具有良好的区分度。

与目前临床上应用的四种常见血浆生物标志物及其组合（CEA/CA724/AFP以及CA199）进行了对比，结果如图11-图13所示。CEA（WNL：0-5 ng/mL）在训练集中的AUCs为0.660，置信区间为0.627-0.693；CA724（WNL：0-6.9 U/mL）在训练集中的AUCs为0.756；AFP（WNL：0-8.1 ng/mL）在训练集中的AUCs为0.744；CA199（WNL：0-37 U/mL）在训练集中的AUCs为0.804；四种血浆生物标志物组合的AUCs在训练集为0.879。进一步的，在内部验证集中，四种血浆生物标志物的AUCs在0.511-0.699之间，四种血浆生物标志物组合的AUCs为0.720；在外部验证集中，四种血浆生物标志物的AUCs在0.558-0.704之间，四种血浆生物标志物组合的AUCs为0.766。上述结果表明的5个代谢物组合在训练集、内部验证集以及外部验证集中表现出来胃癌的诊断能力都显著强于现有临床上的血浆生物标志物。

实施例二

实施例三

本发明还提供一种基于舌苔代谢物和舌象图像的多模态胃癌预测模型，用于胃癌的预测。

多模态胃癌预测模型是在舌苔代谢物的胃癌预测模型基础上，结合已有的舌苔图像胃癌预测模型，构建的多模态融合的胃癌预测模型。

示例性的，把15个舌苔代谢物组分的组合输入舌苔代谢物的胃癌预测模型，获得第一胃癌患病概率；将舌象图像输入舌苔图像胃癌预测模型，获得第二胃癌患病概率；将第一胃癌患病概率和第二胃癌患病概率分别赋予相应的权重，得到最终胃癌患病概率，试验结果如图14和图15所示。采用舌苔图像胃癌预测模型对胃癌患者和非胃癌受试者进行诊断，结果表明，在内部验证集中舌苔图像胃癌预测模型得到的第二胃癌患病概率的AUCs为0.889，在外部验证集中舌苔图像胃癌预测模型得到的第二胃癌患病概率的AUCs为0.816，略低于舌苔代谢物的胃癌预测模型。进一步的，在舌苔代谢物的胃癌预测模型基础上，结合已有的舌苔图像胃癌预测模型，构建的多模态融合的胃癌预测模型，试验结果如图16和图17所示：使用内部验证集通过多模态胃癌预测模型得到最终胃癌患病概率的AUCs值为0.927，置信区间为0.887-0.955；使用外部验证集通过多模态胃癌预测模型得到最终胃癌患病概率的AUCs值为0.909，置信区间为0.881-0.935。上述结果表明，基于舌苔代谢物和舌象图像的多模态胃癌预测模型明显优于单个模型，可实现诊断性能的进一步提升。

需要说明的是，本发明所用术语仅为了描述特定实施例，而非限制本申请范围。如本发明说明书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案。

Claims

1.基于舌苔代谢物的胃癌预测模型的建立方法，其特征在于：包括如下步骤：

步骤S1：采集舌苔代谢物作为样本；

步骤S2：对所述样本进行分析，获得舌苔代谢物样本数据集；

所述舌苔代谢物样本数据集包括M个舌苔代谢物样本数据子集，每个舌苔代谢物样本数据子集包含舌苔代谢物中各组分的丰度数据，舌苔代谢物的组分包括：N-乙酰-亮氨酸、丙酰肉碱、17α-雌二醇、乳果糖、乙醇胺；

2.根据权利要求1所述的基于舌苔代谢物的胃癌预测模型的建立方法，其特征在于：所述舌苔代谢物的组分包括还包括：本胆烷醇酮、3-羟基苯甲醛、3-羟基丁酸、6β-羟基-17β-雌二醇、N-乙酰胞壁酸。

3.根据权利要求1所述的基于舌苔代谢物的胃癌预测模型的建立方法，其特征在于：所述舌苔代谢物的组分还可以是：N-乙酰-亮氨酸、丙酰肉碱、17α-雌二醇、乳果糖、乙醇胺、N-乙酰-D-半乳糖胺[M+H-H2O]+、本胆烷醇酮、泛酸、甜菜碱醛、3 -羟基苯甲醛、3-羟基丁酸、5Z,7E,9E,14Z,17Z-二十碳五烯酸、6β-羟基-17β-雌二醇、4-羟基苯甲酸、N-乙酰胞壁酸。

4.根据权利要求1所述的基于舌苔代谢物的胃癌预测模型的建立方法，其特征在于：所述舌苔代谢物的组分还包括：N-乙酰-D-半乳糖胺[M+H-H2O]+、本胆烷醇酮、苏氨酸亮氨酸、D-丙氨酰-D-丙氨酸、蔗糖、邻苯二甲酸酐、N-甲基酪胺、丁酸、泛酸、甜菜碱醛、甘露醇、3-羟基苯甲醛、3-羟基丁酸、4-乙酰氨丁酸、5Z,7E,9E,14Z,17Z-二十碳五烯酸、6β-羟基-17β-雌二醇、4-羟基苯甲酸、普糖、N-乙酰胞壁酸、山梨糖。

5.根据权利要求1所述的基于舌苔代谢物的胃癌预测模型的建立方法，其特征在于：所述舌苔代谢物的组分还可以是：N-乙酰-亮氨酸、N-乙酰-D-半乳糖胺[M+H-H2O]+、丙酰肉碱、本胆烷醇酮、17α-雌二醇、N-乙酰-D-半乳糖胺、左旋肾上腺素、‘丙基肉桂酸酯；3-二甲基烯丙基-4-羟基苯甲醛’、17α-羟基孕酮、乳果糖、苏氨酸亮氨酸、精氨酸-丙氨酸、皮质醇、D-丙氨酰、D-丙氨酸、雄酮、蔗糖、2-羟基-2-甲基丁酸、邻苯二甲酸酐、N-甲基酪胺、雌二醇-17β 3-硫酸酯、丙氨酰-亮氨酸、亮氨酰-缬氨酸、4-氨基-4-脱氧鸟苷、胸腺嘧啶、β-羟基苯乙醛、苯乙醛、β-丙氨酸、对羟基肉桂醇糖苷、泛酸、甜菜碱醛、甘露醇、β-羟基苯甲醛、蛋氨酸、熊去氧胆酸、β-羟基丁酸、异丁酰甘氨酸、4-乙酰氨丁酸、正十六烷二酸二酸盐；十六烷二酸盐、精氨酸、鸟氨酸、5Z,7E,9E,14Z,17Z-二十碳五烯酸、6β-羟基-17β-雌二醇、4-羟基苯甲酸、来普糖、N-乙酰胞壁酸、山梨糖。

6.根据权利要求1所述的基于舌苔代谢物的胃癌预测模型的建立方法，其特征在于：所述舌苔代谢物的组分还包括：N-乙酰-D-半乳糖胺[M+H-H2O]+、本胆烷醇酮、N-乙酰半糖胺、左旋间羟肾上腺素、‘丙基肉桂酸酯；3-二甲基烯丙基-4-羟基苯甲醛’、17α-羟基孕酮、苏氨酸亮氨酸、瓜氨酸、N-乙酰胞壁酸、胞壁酸、‘精氨酸-丙氨酸’、甲基亮氨酸酯、皮质醇、乙基-4-二甲基氨基苯甲酸酯、D-丙氨酰-D-丙氨酸、雄甾酮、云杉苷、蔗糖、2-羟基-2-甲基丁酸、邻苯二甲酸酐、N-甲基酪胺、17β-雌二醇-3-硫酸酯、丙氨酰-亮氨酸、腺嘌呤、缬氨酸-缬氨酸、γ-谷氨酰-γ-氨基丁醛、亮氨酰-缬氨酸、‘4-氨基-4-脱氧鸟苷；胸苷’、 3β-羟基孕-5-烯-20-酮硫酸酯、正丁酸、雌酮葡糖苷酸、辛基甲氧肉桂酸酯、γ-谷氨酰谷氨酰胺、N-辛酰甘氨酸、苯甲酰胺、苯乙醛、N-ε-乙酰赖氨酸、香豆酰基鸟氨酸、1,3-二环己基脲、N5-(L-1-羧乙基)-L-鸟氨酸、2-氨基丁酸、尿嘧啶、4-羟肉桂醇4-D-葡萄糖苷、‘安沙明；香豆素醋酸盐’、磷酸胆碱、泛酸、甜菜碱醛、甘露醇、肌酐、腐胺、丙烯酰胺、鞘氨醇1-磷酸酯、吲哚乙酸、2-苯乙酰胺、3-乙氧基-4-羟基苯甲醛、3-羟基苯甲醛、γ-谷氨酰基蛋氨酸、甲酰甲硫氨酸、磷酸吡哆胺、苯、天冬氨酸、苯甲酸、4-羟基-L-谷氨酸、羟乙基磺酸、D-核糖酸、丝氨酸、3-羟基丁酸、甘油磷酰胆碱、L-羟基赖氨酸、4-羟基苯基甘氨酸、4-羟基粘液酸、雄甾二醇、异丁酰甘氨酸、4-乙酰胺基丁酸、乙醛酸、N-乙酰-L-谷氨酸 5-磷酸、尿苷、鸟氨酸、十六烷二酸、油酸、瓜氨酸、5Z,7E,9E,14Z,17Z-二十碳五烯酸、琥珀酸、6β-羟基-17β-雌二醇、4-羟基苯甲酸、4-氨基丁酸、N-甲酰基-L-谷氨酸、来普糖、N-乙酰半乳糖胺、N-乙酰胞壁酸、山梨糖、D-山梨糖醇。

7.根据权利要求1所述的基于舌苔代谢物的胃癌预测模型的建立方法，其特征在于：所述步骤S3中，针对所述舌苔代谢物样本数据集进行前处理，得到最终舌苔代谢物样本数据集，包括：

确定所述每个舌苔代谢物样本数据子集的缺失值个数；

8.根据权利要求1所述的基于舌苔代谢物的胃癌预测模型的建立方法，其特征在于：所述步骤S1中采集舌苔代谢物包括：

将采集的舌苔代谢物溶于水和甲醇的混合溶液中，所述水和甲醇的混合溶液，采集的舌苔代谢物、水和甲醇的混合溶液以及内标，进行涡旋处理，涡旋处理后超声处理，静置；

静置后，离心处理，取上清液，将所述上清液在常温下挥发干燥，得到沉淀物；

在所述沉淀物中加入甲醇进行复溶，再涡旋处理，涡旋处理完毕后超声处理，获得舌苔代谢物样品溶液。

9.如权利要求1-8任一项建立的基于舌苔代谢物的胃癌预测模型在胃癌预测中的应用。