CN117169504A

CN117169504A - 用于胃癌相关参数检测的生物标志物及相关预测系统及应用

Info

Publication number: CN117169504A
Application number: CN202311094029.6A
Authority: CN
Inventors: 高俊莉; 邵平扬; 沈伟锋; 周辉; 高俊顺; 楼钦钦; 彭小军
Original assignee: Hangzhou Guangke Ander Biotechnology Co ltd
Current assignee: Hangzhou Guangke Ander Biotechnology Co ltd
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-12-05
Anticipated expiration: 2043-08-29
Also published as: CN117169504B

Abstract

本发明涉及一种用于胃癌相关参数检测的生物标志物及相关预测系统及应用。技术方案是利用蛋白质组学的方法，选取七种胃癌相关的生物标志物，并从中进一步筛选出一组生物标志物构建胃癌的分析模型，并进一步对该分析模型进行应用。本发明具有标志物选取合理，系统方法设置合理、可用于便捷、无创、高效地预测个体是否患胃癌的优点。

Description

用于胃癌相关参数检测的生物标志物及相关预测系统及应用

技术领域

本发明涉及医学领域，具体而言，涉及利用蛋白组学筛选胃癌的生物标志物，将筛选结果用于预测胃癌风险的系统，及其在具体预测产品的应用。

背景技术

胃癌是全球第五大常见恶性癌症，胃癌的死亡率居全身肿瘤第四位，严重威胁人类健康。世界卫生组织国际癌症研究机构(IARC)最新发布的2020年全球最新癌症负担数据显示，2020年全球胃癌新发病例约108.9万人，占全球癌症发病人数的5.6％；死亡人数约为76.9万人，占全球癌症死亡人数的7.7％。其中，中国2020年新发胃癌患者47.9万人(占全球胃癌发病率的44％)、死亡人数37.4万人(占全球胃癌死亡率的49％)，其发病率和死亡率在我国恶性肿瘤中排名第三位。然而，中国胃癌的早期诊断率低于20％，患病率和死亡率超过世界平均水平的两倍。由于早期胃癌症状不典型，确诊时多数已是进展期胃癌，预后较差。在规范治疗下，I期胃癌治疗后的5年生存率为82％～95％，Ⅱ期为55％左右，Ⅲ期为15％～30％，而相比之下，Ⅳ期胃癌患者的5年生存率不足2％。由此可见，胃癌的早期发现、早期诊断、早期治疗对提高胃癌患者的生存预后尤为重要。

目前，胃癌筛查的方式主要为上消化道内镜检查等。但是上消化道内镜检查要求具备先进的仪器设备和专门的操作人员，技术要求高，费用较贵，而且受试者比较痛苦，依从性差，不适用于反复检查和人群普查。此外，还有一些其他筛查胃癌或其前期病变的方法，如幽门螺杆菌(Helicobacterpylori,Hp)检测、血清胃蛋白酶原(Pepsinogen,PG)检测、胃泌素(gastrin-17，G-17)检测等，但由于其假阳性率高、灵敏度低，目前仍需进一步研究。临床上用于早期胃癌诊断的生物标志物缺乏，尤其是非侵入性的生物标志物的发现意义重大。

蛋白质组学(Proteomics)是研究细胞、组织或生物体中蛋白质组成、定位、变化及其相互作用规律的科学，包括对蛋白质表达模式和蛋白质组功能模式的研究。随着蛋白组学技术的发展，高效液相色谱-高分辨串联质谱联用技术逐渐成为蛋白质组学的主流技术，越来越多的新型肿瘤标志物被发现。尽管对于新型肿瘤标志物的发现近几年有很多文章和专利的报道，但都仅停留在实验室研究阶段，在临床应用及市场推广上很少。而且，在多数情况下，对于肿瘤的体外诊断，单一指标是远远不够的，只有采用组合联检形式，把各种维度的检测组合起来，才能加强预测的精准度。因此，寻找新的胃癌诊断相关标志物，将多种标志物相结合构建胃癌诊断预测模型，具有重要的临床价值。

发明内容

针对现有技术中存在的问题，本发明解决上述技术问题的方案是提供了一种用于胃癌相关参数检测的生物标志物，利用蛋白质组学的方法，通过分析胃癌患者和正常人的血液中具有显著性差异的蛋白质，筛选出系列全新的能早期预示胃癌发生风险的生物标记物，并从中进一步筛选出一组生物标志物构建胃癌的诊断模型，可用于便捷、无创、高效地预测个体是否患胃癌，满足临床所需。

一方面，提供了一种用于胃癌相关参数检测的生物标志物，其特点在于，所述生物标志物选自TALDO1、CTBS、DEFA3、CORO1A、SERPINB1、NR1I2、MGAM2中的一种或多种。也即，醛糖移转酶1(TALDO1)、壳二糖酶(CTBS)、防御素3(DEFA3)、肌动蛋白结合蛋白1A(CORO1A)、Serpin家族B成员1(SERPINB1)、核受体亚族1I族成员2(NR1I2)、麦芽糖-葡萄糖淀粉酶2(MGAM2)中的一种或多种。

进一步地，本发明所述生物标志物选自以下任意一种：TALDO1、CTBS、DEFA3、CORO1A、SERPINB1、NR1I2、MGAM2。

进一步地，本发明所述生物标志物选自以下两种生物标志物的组合：TALDO1、CTBS、DEFA3、CORO1A、SERPINB1、NR1I2、MGAM2。

进一步地，本发明所述生物标志物选自以下三种或三种以上生物标志物的组合：TALDO1、CTBS、DEFA3、CORO1A、SERPINB1、NR1I2、MGAM2。

进一步地，本发明所述的醛糖移转酶1(TALDO1)为UniProt数据库编号为P37837的蛋白或者氨基酸序列；壳二糖酶(CTBS)为UniProt数据库编号为Q01459的蛋白或者氨基酸序列；防御素3(DEFA3)为UniProt数据库编号为P59666的蛋白或者氨基酸序列；肌动蛋白结合蛋白1A(CORO1A)为UniProt数据库编号为P31146的蛋白或者氨基酸序列；Serpin家族B成员1(SERPINB1)为UniProt数据库编号为P30740的蛋白或者氨基酸序列；核受体亚族1I族成员2(NR1I2)为UniProt数据库编号为O75469的蛋白或者氨基酸序列；麦芽糖-葡萄糖淀粉酶2(MGAM2)为UniProt数据库编号为Q2M2H8的蛋白或者氨基酸序列。

另一方面，本发明解决上述技术问题的方案还是提供了一种利用用于胃癌相关参数检测的上述生物标志物进行预测的系统，其特点在于，所述系统包括数据分析模块，所述数据分析模块用于输入生物标志物在体液样本中的浓度值。

进一步地，本发明所述的系统，所述数据分析模块通过将生物标志物的浓度值代入方程，计算出用于判断个体是否患胃癌的预测值，通过预测值评估个体是否患胃癌，所述方程为：

其中，Y为预测值，i表示第i个生物标志物，m表示生物标志物的个数，X_i表示第i个生物标志物的检测值(μg/mL)，K_i表示第i个生物标志物的系数，b为常数6.035，

所述K_i的系数如下表所示：

标志物	系数
		CORO1A	-0.379
CTBS	-0.087
		DEFA3	-0.414
MGAM2	0.330
		NR1I2	-0.481
SERPINB1	0.196
		TALDO1	-0.279

进一步地，本发明所述的系统，当预测值Y≤0.509时，认为待测者为非胃癌患者；当预测值Y＞0.509时，认为待测者为胃癌患者。

进一步地，本发明所述的系统，还包括用于检测个体体液样本中生物标志物浓度值的检测模块，所述的检测模块包括酶联免疫吸附法(ELISA)、蛋白/肽段芯片检测、免疫印迹、微珠免疫检测或微流控免疫检测的试剂或试剂盒。

进一步地，本发明所述的系统，所述体液样本包括血液、尿液、唾液、汗液中的任意一种。

进一步地，本发明所述的系统，所述的血液样本为全血、血浆或血清中的任意一种。

本发明通过TMT标记定量蛋白质组学研究，用LC-MS/MS超高效液相色谱-串联质谱联用方法分析健康组和胃癌病人组两组血液样品，再通过正交偏最小二乘法判别在胃癌样品和对照样品之间有显著差异的蛋白质，最终得到7种与胃癌关联的蛋白质，作为生物标志物，可用于高效预测个体是否患胃癌。

进一步地，本发明所述的系统，还包括数据检测系统，数据输入、输出界面；所述数据检测系统用于检测样本中的生物标志物，获得检测值；所述数据输入、输出界面中的输入界面用于输入生物标志物的检测值，经数据分析模块分析检测值后，输出界面用于输出预测个体是否是胃癌的分析结果。

进一步地，本发明所述的系统，还包括输入检测结果的屏幕。

进一步地，本发明所述的系统，还包括打印结果的打印模块。

另一方面，本发明解决上述技术问题的方案还是提供了一种上述利用用于胃癌相关参数检测的生物标志物进行预测的系统在制备酶联免疫吸附法(ELISA)试剂或试剂盒中的应用。

本发明解决上述技术问题的方案还是提供了一种上述利用用于胃癌相关参数检测的生物标志物进行预测的系统在制备蛋白/肽段芯片检测试剂或试剂盒中的应用。

本发明解决上述技术问题的方案还是提供了一种上述利用用于胃癌相关参数检测的生物标志物进行预测的系统在制备免疫印迹试剂或试剂盒中的应用。

本发明解决上述技术问题的方案还是提供了一种上述利用用于胃癌相关参数检测的生物标志物进行预测的系统在制备微珠免疫检测试剂或试剂盒中的应用。

本发明解决上述技术问题的方案还是提供了一种上述利用用于胃癌相关参数检测的生物标志物进行预测的系统在制备微流控免疫检测试剂或试剂盒中的应用。

本发明在制备预测个体是否患胃癌的试剂或试剂盒的用途中，所述生物标志物选自如下的一种或多种：醛糖移转酶1(TALDO1)、壳二糖酶(CTBS)、防御素3(DEFA3)、肌动蛋白结合蛋白1A(CORO1A)、Serpin家族B成员1(SERPINB1)、核受体亚族1I族成员2(NR1I2)、麦芽糖-葡萄糖淀粉酶2(MGAM2)。

在一些方式中，所述可用于预测个体是否患胃癌的生物标志物，可以以生物标志物为检测目标制备检测试剂，例如样品前处理试剂、抗原或抗体等适用于所述生物标志物检测的生物试剂及试剂盒；也可以开发成适用于所述生物标志物LC-UV或LC-MS检测的标准化试剂或试剂盒等。

本发明可以从血液筛选到胃癌的生物标志物，这些生物标志物在胃癌患者和非胃癌患者的血液中存在显著性差异，通过收集血液样本，即可通过检测个体血液中这些生物标志物来预测或辅助诊断该个体是否患胃癌或患胃癌的可能性，或者可以检测某一群体血液中的这些生物标志物，进而将该群体分为胃癌组或非胃癌组。

进一步地，所述检测体液样本中的标志物，为检测个体的体液样本中生物标志物的有无或相对丰度或浓度。

在一些方式中，优选采用相对丰度来表示，所述相对丰度为高效液相色谱-串联质谱获得的检测图谱中该生物标志物的峰面积。比如某个生物标志物在对照样品(未患胃癌的个体)里测出的平均峰面积是500，在胃癌样品里测出的平均峰面积是3000，那么就认为该生物标志物在胃癌样本中的丰度是对照样本中的6倍。

在一些方式中，所述检测试剂为如上所述生物标志物的抗体，所述抗体为单克隆抗体。

再一方面，本发明提供了如上所述的系统用于构建预测个体是否是胃癌的概率值的检测模型的用途。

本发明的有益效果为：

1、筛选到7种全新的能早期预示胃癌发生风险的生物标记物TALDO1、CTBS、DEFA3、CORO1A、SERPINB1、NR1I2、MGAM2。

2、分别采用不同的生物标志物构建胃癌的诊断模型，发现采用包括TALDO1、CTBS、DEFA3、CORO1A、SERPINB1、NR1I2、MGAM2的7种生物标志物构建的胃癌诊断模型最优，可用于更高效地预测个体是否患胃癌，AUC值达到0.966，其效果明显好于现有的胃癌诊断模型。

附图说明

图1为实施例1中蛋白组学研究中健康对照与胃癌之间的Wilcoxon结果图；

图2为实施例1中的健康对照与胃癌两组的ROC和Boruta分析结果图；

图3为实施例3中的基于8种不同算法构建的最优模型性能评估结果图；

图4为实施例3中的不同标志物组合构建的最优模型性能评估结果图；

图5为实施例3中构建的胃癌联合诊断模型在模型组中的ROC曲线；

图6为实施例3中构建的胃癌联合诊断模型在测试组中的ROC曲线；

图7为实施例3中构建的胃癌联合诊断模型在测试组中的性能评估结果图；

详细说明

(1)诊断或者检测

这里的诊断或者检测是指对于样本中的生物标志物进行检测或者化验，或者目的生物标志物的含量，例如绝对含量或者相对含量，然后通过目标标志物是否存在或者数量的多少来说明提供样本的个体是否可能具有或患某种疾病，或者具有某种疾病的可能性。这里的诊断与检测的含义可以互换。这种检测的结果或者诊断的结果是不能直接作为患病的直接结果，而是一种中间结果，如果获得直接的结果，还需通过病理学或者解剖学等其它辅助手段才能确认患有某种疾病。例如，本发明提供了多种与胃癌具有关联性的新的生物标志物，这些标志物的含量的变化与是否患有胃癌具有直接的关联性。

(2)标志物或生物标志物与胃癌的联系

标志物和生物标志物在本发明中具有相同的含义。这里的联系是指某种生物标志物在样本中出现或者含量的变化与特定疾病具有直接的关联性，例如含量的相对升高或者降低，表示这种患有这种疾病的可能性相对健康人员更高。

如果样本中多个不同的标志物同时出现或者含量的相对变化，表示这种患有这种疾病的可能性相对健康人员也更高。也就是说标志物种类中，某一些标志物与患病的关联性强，有些标志物与患病的关联性弱，或者有些甚至与某种特定的疾病无关联。对于那些关联性强的标志物中的一种或者多种，可以作为诊断疾病的标志物，与那些关联性弱的标志物可以与强的标志物组合来诊断某种疾病，增加检测结果的准确性。

针对本发明发现的血清中的众多生物标志物，这些标志物都可以用来进行区分胃癌与健康人群。这里的标志物可以单独作为单个的标志物来进行直接的检测或者诊断，选择这样的标志物表示该标志物的含量的相对变化与胃癌具有强的关联性。当然，可以理解的是，可以选择与胃癌关联性强的一种或者多种标志物的同时检测。正常的理解是，在一些方式中，选择关联性强的生物标志物来进行检测或者诊断可以达到一定标准的准确性，例如60％，65％，70％，80％，85％，90％或者95％的准确性，则可以说明，这些标志物可以获得诊断某种疾病的中间值，但并不表示就能直接确认患有某种疾病。

当然，也可以选择ROC值越大的差异蛋白质来作为诊断的标志物。所谓的强，弱一般通过一些算法来计算确认，例如标志物与胃癌贡献率或者权重分析。这样的计算方法可以是显著性分析(p值或FDR值)和倍数变化(Fold change)，多元统计分析主要包括主成分分析(PCA)、偏最小二乘判别分析(PLS-DA)和正交偏最小二乘判别分析(OPLS-DA)，当然还包括其他的方法，例如ROC分析等。当然，其它的模型预测方法也是可以的，在具体选择生物标志物的时候，可以选择本发明所公开的差异蛋白质，也可以选择或者结合其它现有公知的标志物组合通过模型方法进行预测。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。本实施例中使用的试剂均为已知产品，通过购买市售产品获得。

实施例1利用蛋白组学筛选胃癌的生物标志物

1.样本的收集

本研究小组从2022.8-2022.9收集了18例胃癌和18例健康对照，所有入组的患者签署知情同意书。胃癌患者均为活体组织经病理学确认结果，健康对照为常规体检正常。胃癌患者的纳入标准：(a)无其他恶性肿瘤病史，(b)采血后一个月内进行手术治疗，且经术后病理证实为胃癌。对照组的健康人选自体检中心；通过实验室检查或薄胃镜筛查证实这些个体没有胃部病变，也没有恶性肿瘤病史。在知情同意后，将收集的所有血浆样品储存在-80℃的血浆库中。

2.样本的处理和酶解

首先，血浆样本在离心机上离心15分钟(15000xg)，取上清液并过滤后进行免疫亲和色谱脱出14种高丰度蛋白。然后用截止分子量为3kDa的浓缩管在离心机上(4000xg，1小时)浓缩。回收浓缩液，用截止分子量为7kDa的脱盐柱在离心机上(1000xg，2分钟)进行溶液置换(Buffer Exchange)，置换液为AEX-A(20mM Tris，4M Urea，3％isopropanol，pH8.0)。以AEX-A为空白，使用BCA方法测定样本中蛋白质浓度。按照表1样本分组情况，加入TCEP至样本中，在37℃下孵育30分钟进行蛋白质还原。然后加入对应的6-plex TMT试剂，室温下避光孵育1小时进行TMT标记反应。尔后，用Zeba柱对样本进行缓冲液置换，置换液是AEX-A。将6-plex TMT标记好的样本混合后，加入2mL AEX-A到混合后的样本中，最终体积为5.5mL。使用0.22m过滤器过滤样本并使用2D-HPLC系统分离6-plex TMT标记的样本。对收集的组分进行冷冻干燥，最后加入Trypsin-Lysin C混合酶，于37℃下孵育5小时酶解样本，加入5μL10％TFA以终止酶解反应。一共有60个酶解后的2D-HPLC组分被用来进行nano-LC-MS/MS分析。

表1：蛋白组学研究样本分组(6个batch，以batch1为例)

3.LC-MS/MS数据采集与搜库分析

LC-MS/MS系统为Easy-nLC 1200和Q Exactive HFX联用，流动相A为含0.1％甲酸和2％乙腈的水溶液；流动相B为含0.1％甲酸和80％乙腈的水溶液。自制分析柱长度为20cm，填料使用Dr.Maisch GmbH的ReproSil-Pur C 18，1.9μm颗粒。1μg肽段用流动相A相溶解后使用EASY-nLC 1200超高效液相系统进行分离。液相梯度设置：0-26min，7％～22％B；26-34min，22％～32％B；34-37min，32％～80％B；37-40min，80％B，液相流速维持在450nL/min。

高效液相系统分离后的肽段注入NanoFlex离子源雾化后进Q Exactive HF-X进行质谱分析。离子源电压设置为2.1kV，一级质谱扫描范围设置为400-1200，分辨率为60,000(MS Resolution)；二级质谱扫描范围的起点为100m/z，分辨率设置为15,000(MS2Resolution)。数据依赖型扫描(DDA)模式设定TOP 20母离子依次进入HCD碰撞池碎裂后依次进行二级质谱分析。自动增益控制(AGC)设置为5E4，信号阈值设置为1E4，最大注入时间设置为22ms。为了避免高丰度肽段的重复扫描，串联质谱分析的动态排除时间设置为30秒。

通过LC-MS/MS获得的质谱数据使用Maxquant(v1.6.15.0)进行检索。数据类型为基于二级报告离子定量的TMT蛋白质组学数据，用于定量的二级谱图要求一级谱图中母离子占比大于75％。数据库来源Uniprot数据库的Homo_sapiens_9606_proteome(release:2021-10-14,sequence:20614)，并且在数据库中加入了常见的污染库，数据分析时删除污染蛋白；酶切方式设置为Trypsin/P；漏切位点数设为2；First search和Main search的母离子质量误差容忍度分别设为20ppm和5ppm，二级碎片离子的质量误差容忍度为20ppm。固定修饰为半胱氨酸烷基化，可变修饰为甲硫氨酸的氧化和蛋白N端的乙酰化。蛋白鉴定、PSM鉴定的FDR都设置为1％。

4.利用正交偏最小二乘判别分析对样本分群，结合显著性分析，筛选差异蛋白质

采用单变量分析和多元统计分析结合的方式进行差异蛋白质的筛选，其中单变量分析主要包括特征离子在不同分组中的显著性分析(p值或FDR值)和倍数变化(Foldchange)，多元统计分析主要包括主成分分析(PCA)、偏最小二乘判别分析(PLS-DA)和正交偏最小二乘判别分析(OPLS-DA)。

我们共计找到1256种蛋白物质，其中包括部分全新发现的与胃癌相关的标志物。针对发现的1256种蛋白物质，经过分析获得了含量差异显著的蛋白物质。所有统计分析均使用R完成，具体的R相关信息见表2。

表2：本发明所用的R及其相关信息

名称	版本
		R	3.4.1
Rstudio	1.4.1717
		MixOmics	6.10.9
Ropls	1.18.1

计算变量投影重要度(Variable Importance for the Projection，VIP)以衡量各蛋白质的表达模式对各组样本分类判别的影响强度和解释能力，进一步进行Wilcoxon秩和检验得到校正后的p值(FDR)。Wilcoxon秩结果如图1，发现1256种蛋白物质中，共有50种蛋白在胃癌患者血清中含量明显降低，32种蛋白在胃癌患者血清中含量明显上升(详见图1)。

ROC和OPLS-DA分析结果图见图2，横坐标为ROC分析得到的AUC，纵坐标为OPLS-DA分析得到的VIP值，点的小大代表Wilcoxon检验计算得到的p value，点的颜色代表VIP值大小显著性评估。

候选标志物筛选标准：(1)VIP>8；(2)FDR<1e-10，(3)AUC>0.8，(4)Log₂FC>0.7。根据该筛选标准，共计找到7种显著差异的全新的生物标志物(TALDO1、CTBS、DEFA3、CORO1A、SERPINB1、NR1I2、MGAM2)。

本发明发现主要显著的7种差异蛋白质见表3：

表3：胃癌与正常健康的差异标志物

表3中FDR值越小和/或VIP值越大，在一定程度上说明该蛋白质在两组间的差异性越显著，同时也说明该差异蛋白可能具有更高的诊断价值。

根据表3，上述1256种胃癌患者和正常健康的血清差异物质中，发现了7种全新的差异蛋白，在胃癌组和非胃癌组间的差异显著。其中，鉴别胃癌与健康差异最显著的是醛糖移转酶1(TALDO1)，其次为壳二糖酶(CTBS)，第三为防御素3(DEFA3)，随后依次为肌动蛋白结合蛋白1A(CORO1A)、Serpin家族B成员1(SERPINB1)、核受体亚族1I族成员2(NR1I2)、麦芽糖-葡萄糖淀粉酶2(MGAM2)。

经确认，醛糖移转酶1(TALDO1)为UniProt数据库编号为P37837的蛋白或者氨基酸序列；壳二糖酶(CTBS)为UniProt数据库编号为Q01459的蛋白或者氨基酸序列；防御素3(DEFA3)为UniProt数据库编号为P59666的蛋白或者氨基酸序列；肌动蛋白结合蛋白1A(CORO1A)为UniProt数据库编号为P31146的蛋白或者氨基酸序列；Serpin家族B成员1(SERPINB1)为UniProt数据库编号为P30740的蛋白或者氨基酸序列；核受体亚族1I族成员2(NR1I2)为UniProt数据库编号为O75469的蛋白或者氨基酸序列；麦芽糖-葡萄糖淀粉酶2(MGAM2)为UniProt数据库编号为Q2M2H8的蛋白或者氨基酸序列。

全新发现的胃癌差异生物标志物，可作为胃癌与健康鉴别诊断的候选生物标志物，选择其中的一种或多种的组合，可用于胃癌的辅助诊断。

实施例2：7种单一生物标志物预测胃癌

本实施例利用实施例1中筛选出的单个生物标志物建立胃癌的预测或诊断模型，用于区分胃癌和非胃癌，或者从群体中筛选出胃癌患者，或者用于预测个体是否是胃癌患者或个体得胃癌的可能性。

建立实施例1提供的7种标志物的的单一诊断性能ROC曲线，通过曲线下面积(AUC)的大小来判断实验结果优劣。AUC为0.5表示单个蛋白质无诊断价值；AUC大于0.5，说明单个蛋白质具有诊断价值；AUC越大，说明单个蛋白质的诊断价值越高，结果如表4所示。

表4：ROC分析胃癌与正常健康样本各差异蛋白质的ROC值及相关信息

7种生物标志物的浓度变化与是否患胃癌的关联性的高低，可以通过表4中的AUC值、敏感性、特异性等来区分，其中AUC值最为直观和明显。AUC值越高，表示该生物标志物越能准确区分胃癌人群和非胃癌人群。

由表4可以看出，7种生物标志物的浓度变化与是否患胃癌都具有明显的关联性，单独采用7种生物标志物中的任意一种，其浓度变化用于区分胃癌人群和非胃癌人群，AUC值都能达到0.5以上，其中TALDO1的关联性最高，AUC值达到0.966；其次分别为CTBS、DEFA3、CORO1A、SERPINB1、NR1I2，AUC值均在0.8以上。

实施例3：7种差异蛋白质联合鉴别胃癌与健康正常人群的分类模型及其建立

利用单一的生物标志物虽然也能区分胃癌与非胃癌血清样本或进行胃癌的预测，但一般来说将多种生物标志物进行组合，其区分或预测的准确性更高。

但是，预测胃癌准确性更高的单一生物标志物，在与其他一种或多种生物标志物组合后，其在该组合中起的作用不一定越大，同时也并非生物标志物的个数越多，其组合的预测准确性(AUC值)就越高，因此还需要进行大量验证实验。

本实施例对由醛糖移转酶1(TALDO1)、壳二糖酶(CTBS)、防御素3(DEFA3)、肌动蛋白结合蛋白1A(CORO1A)、Serpin家族B成员1(SERPINB1)、核受体亚族1I族成员2(NR1I2)、麦芽糖-葡萄糖淀粉酶2(MGAM2)组成的7种蛋白标志物构建的模型进行研究。

1.获取数据

研究人群：

从2022.9-2023.3收集了500例胃癌和500例健康对照，所有入组的患者签署知情同意书。胃癌患者均为活体组织经病理学确认结果，健康对照为常规体检正常。将入组人员按照8：2的比例分为模型组(胃癌n＝400，健康对照n＝400)和测试组(胃癌n＝100，健康对照n＝100)。数据信息如表5：

表5：建模样本信息

分组	模型组	测试组
			胃癌	400	100
健康对照	400	100

胃癌患者的纳入标准：(a)无其他恶性肿瘤病史，(b)采血后一个月内进行手术治疗，且经术后病理证实为胃癌。对照组的健康人选自体检中心；通过内镜检查证实这些个体没有胃部疾病指征，也没有恶性肿瘤病史。在知情同意后，将收集的所有血清样品储存在-80℃的血清库中。

本实施例对采集到的血清样本进行酶联免疫吸附剂检测(ELISA)，获得血清中醛糖移转酶1(TALDO1)、壳二糖酶(CTBS)、防御素3(DEFA3)、肌动蛋白结合蛋白1A(CORO1A)、Serpin家族B成员1(SERPINB1)、核受体亚族1I族成员2(NR1I2)、麦芽糖-葡萄糖淀粉酶2(MGAM2)7种蛋白标志物的浓度。

2.实验数据统计分析

Shapiro Wilk的测试用于评估正态分布，并且使用非参数检验Wilcoxon测试分别分析模型组和测试组中胃癌患者和健康对照之间的血液标志物浓度的差异。在模型组中，采用多种机器学习方法相结合的方法构建8种胃癌标志物的联合诊断模型。使用预测概率值以95％置信区间(CI)估计接收器操作员特征(ROC)曲线下面积(AUC)，以评估多变量诊断模型的辨别能力。使用测试组，计算Youden指数(YI)以确定用于区分胃癌患者与正常对照的预测概率cut-off值。此外，构建并比较了单个标志物和不同亚组的ROC。计算标准描述性统计数据，例如频率，平均值，中位数，阳性预测值(PPV)，阴性预测值(NPV)和标准偏差(SD)以描述研究群体的实验结果。使用R3.6.1进行统计学分析，p值小于0.05被认为是统计学上显著的。

3.胃癌联合诊断模型(7MP)构建步骤

S101，将模型组中样本的醛糖移转酶1(TALDO1)、壳二糖酶(CTBS)、防御素3(DEFA3)、肌动蛋白结合蛋白1A(CORO1A)、Serpin家族B成员1(SERPINB1)、核受体亚族1I族成员2(NR1I2)、麦芽糖-葡萄糖淀粉酶2(MGAM2)7种蛋白标志物的浓度矩阵作为原始训练数据集。

S102，设定用于构建预测模型的监督分类算法，以及算法的超参数优化过程中网格搜索范围。监督分类算法包含：神经网络、梯度提升、广义线性模型、随机森林、逻辑回归、支持向量机、朴素贝叶斯和混合判别分析8种算法。该步骤中，对每种算法设定模型的超参数优化的网格搜索范围如下表6所示。

表6：8种算法的参数网格搜索范围

S103，根据步骤S102设定的算法和超参数设定范围，选择其中一种算法和对应的超参数组合方式，作为预测模型构建的参数。

S104，将原始数据集按K折交叉验证机制，分割成K个子集。为确保每一折子集中，多数类样本和少数类样本比例与原始数据集相同，需采用分层K折交叉验证(StratifiedK-Folds cross validation)机制来进行数据分割。

S105，根据步骤S104分割得到的K个训练数据子集，选择其中一个子集作为验证集Ddev。

S106，将步骤S105中未选择的训练数据子集合并形成训练数据池Dtrainl。

S107，根据步骤S106得到的训练数据集D.train,基于所选择的有监督分类算法和超参数构建预测模型。

S108，根据步骤S107得到的预测模型，在验证集D.dev进行评估得到AUC值，并将当前预后预测模型与相应的AUC值存储在预测模型池Pool中。步骤S108为根据步骤S107得到的预测模型，在当前迭代中确定的验证集上进行评估，并将模型和评估结果都存储到预测模型池中，供以后预测模型选择使用。该步骤中提到的评估，可以是AUC值，也可以是其他合理的对模型性能进行评估的指标。

S109，判断是否每个子集全部做过验证集。步骤S109为判断步骤S104得到的K个子集是否都已作为验证集，进行过模型的训练。如果所有的子集均作为验证集并完成了训练，则执行步骤S110；若有子集并未作为验证集，则执行步骤S105。该步骤确保原始数据集中，每一个样本均做过验证集，提高模型稳定性，防止模型过拟合于某个子集。

S110，将得到预测模型池Pool所有模型的AUC平均值作为本次组合方式模型的最终性能评估值。并将模型参数和最终性能评估AUC值存入最优模型池Pool.best。

S111，判断每种算法和对应的所有超参数组合方式是否全部构建预测模型。步骤S111为判断步骤S102得到所有算法和对应的超参数组合方式是否都进行过预测模型的构建。如果所有组合方式均作完成了模型的构建，则执行步骤S112；若有组合方式未完成模型的构建，则执行步骤S103。

S112，从步骤S111迭代结束后得到的最优模型池Pool.best中,对于每种算法选择AUC值最高的预测模型，存入胃癌诊断的候选预测模型集M.set。

S113，从步骤S112获得的模型集M.set，在测试组D.test中进行评估得到AUC值。将AUC值最大的模型作为胃癌诊断的最终预测模型

4.胃癌联合诊断模型(7MP)参数优化结果

通过上述模型构建步骤执行，我们得到了8种不同算法下最优模型。建模过程中采用10倍交叉验证方法，通过AUC、灵敏度和特异性三个方面对模型进行了性能评估。如表7和图3所示：广义线性(glmnet)算法的AUC性能评估得分均为最大(10倍交叉验证中AUC的中值为0.979)。

表7：不同算法构建模型的性能评估表

基于上述分析结果，选择广义线性(glmnet)算法构建的最优模型作为胃癌诊断的最终预测模型，其构建模型的方程为：

其中，Y为预测值，i表示第i个生物标志物，m表示生物标志物的个数(m＝7)，Xi表示第i个生物标志物的检测值(μg/mL)，Ki表示第i个生物标志物的系数，b为常数6.035。

所述Ki的系数如下表所示：

表8：模型中7种生物标志物的系数

5.7项标志物组合性能:

为了进一步分析研究基于不同蛋白质组合的生物标志物所构建结直肠癌诊断模型的诊断价值，本实施例中将基于不同蛋白质组合生物标志物所构建的诊断模型在测试组中进行了比较。结果如图4和表9所示：

表9：基于不同蛋白质组合生物标志物所构建诊断模型的ROC曲线下面积比较

6.胃癌联合诊断模型(7MP)诊断阈值确定

以模型组中的预测值绘制ROC曲线，并根据约登(youden)指数值设置最佳诊断截断值为0.509。即当诊断模型预测值≤0.509时，判定待测者为非胃癌患者；当模型预测值＞0.509时，判定待测者为胃癌患者。结果如图5所示：模型在模型组中AUC为0.974，灵敏度为92.5％，特异性为91.5％。

7.胃癌联合诊断模型(7MP)验证

以测试组中的预测值绘制ROC曲线，如图所示6，AUC为0.966。并根据约登(youden)指数值设置最佳诊断截断值为0.509。即当诊断模型预测值≤0.509时，认为待测者不为胃癌患者；当模型预测值＞0.509时，认为待测者为胃癌患者。结果如图7所示：模型在测试组中的准确率为90.5％，Kappa值为0.81，灵敏度为89.3％，特异性为91.8％，阳性预测率为92％，阴性预测率为89％。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种用于胃癌相关参数检测的生物标志物，其特征在于，所述生物标志物选自TALDO1、CTBS、DEFA3、CORO1A、SERPINB1、NR1I2、MGAM2中的一种或多种。

2.根据权利要求1所述的生物标志物，其特征在于，所述生物标志物选自以下任意一种：TALDO1、CTBS、DEFA3、CORO1A、SERPINB1、NR1I2、MGAM2。

3.根据权利要求1所述的生物标志物，其特征在于，所述生物标志物选自以下两种生物标志物的组合：TALDO1、CTBS、DEFA3、CORO1A、SERPINB1、NR1I2、MGAM2。

4.根据权利要求1所述的生物标志物，其特征在于，所述生物标志物选自以下三种或三种以上生物标志物的组合：TALDO1、CTBS、DEFA3、CORO1A、SERPINB1、NR1I2、MGAM2。

5.根据权利要求1至4所述的任意一种生物标志物，其特征在于，所述的TALDO1为UniProt数据库编号为P37837的氨基酸序列；CTBS为UniProt数据库编号为Q01459的氨基酸序列；DEFA3为UniProt数据库编号为P59666的氨基酸序列；

CORO1A为UniProt数据库编号为P31146的氨基酸序列；SERPINB1为UniProt数据库编号为P30740的氨基酸序列；NR1I2为UniProt数据库编号为O75469的氨基酸序列；MGAM2为UniProt数据库编号为Q2M2H8的氨基酸序列。

6.一种利用权利要求1至4任意一项所述的生物标志物预测个体是否是胃癌的系统，其特征在于，所述系统包括数据分析模块，所述数据分析模块用于输入生物标志物在体液样本中的浓度值。

7.根据权利要求6所述的系统，其特征在于，所述数据分析模块通过将生物标志物的浓度值代入方程，计算出用于判断个体是否患胃癌的预测值，通过预测值评估个体是否患胃癌，所述方程为：

所述K_i的系数如下表所示：

标志物系数 CORO1A -0.379 CTBS -0.087 DEFA3 -0.414 MGAM2 0.330 NR1I2 -0.481 SERPINB1 0.196 TALDO1 -0.279

8.根据权利要求7所述的系统，其特征在于，当预测值Y≤0.509时，认为待测者为非胃癌患者；当预测值Y＞0.509时，认为待测者为胃癌患者。

9.根据权利要求6所述的系统，其特征在于，所述的系统还包括用于检测个体体液样本中生物标志物浓度值的检测模块，所述的检测模块包括酶联免疫吸附法(ELISA)、蛋白/肽段芯片检测、免疫印迹、微珠免疫检测或微流控免疫检测的试剂或试剂盒。

10.根据权利要求9所述的系统，其特征在于，所述检测模块的检测方法包括酶联免疫吸附法(ELISA)、蛋白/肽段芯片检测、免疫印迹、微珠免疫检测或微流控免疫检测。

11.根据权利要求9所述的系统，其特征在于，所述体液样本包括血液、尿液、唾液、汗液中的任意一种。

12.根据权利要求11所述的系统，其特征在于，所述的血液样本为全血、血浆或血清中的任意一种。

13.根据权利要求6所述的系统，其特征在于，所述的系统还包括数据检测系统，数据输入、输出界面。

14.根据权利要求13所述的系统，其特征在于，所述的系统还包括输入检测结果的屏幕。

15.根据权利要求13所述的系统，其特征在于，所述的系统还包括打印结果的打印模块。

16.一种权利要求6所述的系统在制备酶联免疫吸附法(ELISA)试剂或试剂盒中的应用。

17.一种权利要求6所述的系统在制备蛋白/肽段芯片检测试剂或试剂盒中的应用。

18.一种权利要求6所述的系统在制备免疫印迹试剂或试剂盒中的应用。

19.一种权利要求6所述的系统在制备微珠免疫检测试剂或试剂盒中的应用。

20.一种权利要求6所述的系统在制备微流控免疫检测试剂或试剂盒中的应用。