CN114107515B

CN114107515B - 早期胃癌预后差异基因与复发预测模型

Info

Publication number: CN114107515B
Application number: CN202210109552.0A
Authority: CN
Inventors: 王强; 吴晰; 张晟瑜; 张健辉; 徐平; 周雅轩; 杨爱明
Original assignee: Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Current assignee: Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-04-19
Anticipated expiration: 2042-01-28
Also published as: CN114934116A; CN114941031A; CN114107515A

Abstract

本申请涉及早期胃癌复发预测模型的建立，通过利用GSE130823和GSE55696两批基因芯片转录组数据共筛选出25个潜在的与早期胃癌复发相关的基因，并建立了以AREG、LOC100507520、MMD、CH3L1、FOS、CCL20、CXCR2、BATF3这8个基因为基础的复发预测模型。本模型具有极佳的敏感性，即所有预测为未复发的患者均未复发，对于临床的提示意义是可以据此调整这部分患者的复查随诊频率。

Description

早期胃癌预后差异基因与复发预测模型

技术领域

本申请涉及生物诊断领域，具体涉及早期胃癌（Early gastric cancer，EGC）预后的差异基因，并建立复发预测模型。

背景技术

胃癌是对人类身体健康造成重大影响的常见的肿瘤之一。许多研究表明，胃癌的进展遵循一个清晰的多阶段逐级演变过程:由起始的炎症与萎缩，进展至癌前病变(包括LGIN和HGIN)，再至早期胃癌，并进一步演变为进展期胃癌(Advanced gastric cancer，AGC)。早期胃癌是指伴或不伴淋巴结转移、病变仅局限于胃粘膜层或粘膜下层的胃癌。由于早期胃癌患者整体生存期较长，临床上另一个关注的预后指标为肿瘤的复发。EGC患者在接受ESD治疗后5年复发率在3%-9%之间。复发风险的判断与预测直接决定了不同患者后续的随访方案。因此一个高效准确的复发预测模型能够有效指导临床医生构建个体化的患者随访方案，具有较强的临床价值。

与EGC患者复发相关的风险因素主要包括肿瘤病变情况(如病变组织的大小、病理分型、肿瘤浸润深度等)和内镜及手术操作情况(如操作期间出血量、病变切除完整性等)。肿瘤病变大于20mm的患者更容易出现复发。与肿瘤组织分化程度高的患者相比，分化程度低的患者拥有更高的复发风险。手术或操作时间较短、术中出血情况较好、病变完整切除的患者有相对更低的复发概率。此外，高龄、合并幽门螺旋杆菌（Hp)的感染均为EGC患者出现异时性复发的独立风险因素。关于早期胃癌复发的研究多为临床病理因素方面的研究，基因层面研究较少，且缺乏精确的肿瘤复发预测模型。

据此，本研究利用 EGC 标本的全转录组数据，筛选出在肿瘤演变过程中（胃炎→LGIN→HGIN→EGC）呈现单调递增或递减的表达具有显著差异变化的基因——即mcDEGs，并以复发为结局，通过聚类分析、基于多因素COX回归构建的风险评分和决策树分析三种方法构建三种肿瘤复发预测模型，并前瞻性收集患者样本，检测相应基因表达，验证模型的预测效能，同时进一步探讨模型在临床随访和个体化治疗中的应用价值。

发明内容

本研究首先从两组基因芯片转录组数据（GSE130823和GSE55696）中筛选出在胃炎/对照组织→低级别上皮内瘤变（Low-grade intraepithelial neoplasia，LGIN）→高级别上皮内瘤变（High-grade intraepithelial neoplasia，HGIN）→EGC中表达呈现单调变化的差异表达基因（Monotonically changing differentially expressed genes，mcDEGs），并通过 T 检验和单因素COX回归分析两种方法筛选出潜在与肿瘤复发相关的mcDEGs。再以包含预后数据的外部数据集GSE62254中I/II期患者作为训练集，筛选所得的mcDEGs作为训练变量，预测的结局为肿瘤复发情况，构建出基于决策树算法的复发预测模型。并进一步前瞻性收集 16 名 HGIN或EGC患者作为验证集（4 名复发，12 名未复发），通过实时定量聚合酶链反应（Quantitative real-time polymerase chain reaction，qRT-PCR）检测相应mcDEGs的表达量，作为测试集输入模型中，检验模型的预测效能（敏感性、特异性等）。

本发明提供一种早期胃癌复发预测模型：基因芯片转录组数据中筛选出在胃炎/对照组织→低级别上皮内瘤变（Low-grade intraepithelial neoplasia，LGIN）→高级别上皮内瘤变（High-grade intraepithelial neoplasia，HGIN）→EGC中表达呈现单调变化的差异表达基因（Monotonically changing differentially expressed genes，mcDEGs），并通过T检验和单因素COX回归分析两种方法筛选出潜在与肿瘤复发相关的mcDEGs。再以包含预后数据的外部数据集GSE62254中I/II期患者作为训练集，筛选所得的mcDEGs作为训练变量，预测的结局为肿瘤复发情况，构建出基于决策树算法的复发预测模型。模型根据参数重要性、共线性等因素进行筛选和剪枝后，选取基因作为最终的预测指标。

一种用于评估早期胃癌复发风险的基因组合，所述基因组合包括AREG、LOC100507520、MMD、CH3L1、FOS、CCL20、CXCR2、BATF3。

上述的基因组合在制备评估早期胃癌复发风险试剂盒中的应用。

检测AREG、LOC100507520、MMD、CH3L1、FOS、CCL20、CXCR2、BATF3基因表达变化的试剂在制备预测胃癌复发风险试剂盒中的用途，其中胃癌为早期胃癌，其中试剂为PCR检测试剂。

本发明还提供一种预测早期胃癌复发风险的试剂盒：其特征在于包括检测AREG、LOC100507520、MMD、CH3L1、FOS、CCL20、CXCR2、BATF3表达变化的试剂。

本发明还提供一种判断早期胃癌复发的装置、系统和/或模型，其包含AREG、LOC100507520、MMD、CH3L1、FOS、CCL20、CXCR2、BATF3评估。

本发明还提供一种可以用于独立预测早期胃癌复发风险的基因：可以选择以下任意基因：FOS、ARGE、SNCA、MMD、CH3L1、KCNMB4、CHN1、BATF3、LOC100507520。

一种预测早期胃癌复发风险的试剂盒：包括检测一个或多个基因FOS、ARGE、SNCA、MMD、CH3L1、KCNMB4、CHN1、BATF3、LOC100507520、AP1G1表达变化的试剂。

本发明还提供一种判断早期胃癌复发的装置、系统和/或模型，其包含FOS、ARGE、SNCA、MMD、CH3L1、KCNMB4、CHN1、BATF3、LOC100507520、AP1G1评估。

本发明的基因及其组合模型具有极佳的敏感性，即所有预测为未复发的患者均未复发，对于临床的提示意义是可以据此调整这部分患者的复查随诊频率。

附图说明

图 1 研究流程图：mcDEGs：单调变化的差异表达基因；HGIN：高级别上皮内瘤变；EGC：早期胃癌。

图 2 GSE130823数据集与GSE55696数据集中单调变化的差异表达基因的筛选。

图 3 单调变化的差异表达基因单因素COX回归分析森林图。

图 4 外部数据集基于决策树预测模型的分类结果树状图。

每个椭圆内第一行数字代表复发情况，0代表未复发，1代表复发；第二行数字为gini系数；第三行数字为该分类下患者占总数的百分比。

图5 外部数据集通过决策树模型预测的ROC曲线。

图6 验证集采用决策树模型预测的ROC曲线。

具体实施方式

实施例1：本研究的流程

本研究首先从两组基因芯片转录组数据（GSE130823和GSE55696）中筛选出在胃炎/对照组织→低级别上皮内瘤变（Low-grade intraepithelial neoplasia，LGIN）→高级别上皮内瘤变（High-grade intraepithelial neoplasia，HGIN）→EGC中表达呈现单调变化的差异表达基因（Monotonically changing differentially expressed genes，mcDEGs），并通过T检验和单因素COX回归分析两种方法筛选出潜在与肿瘤复发相关的mcDEGs。再以包含预后数据的外部数据集GSE62254中I/II期患者作为训练集，筛选所得的mcDEGs作为训练变量，预测的结局为肿瘤复发情况，构建出基于决策树算法的复发预测模型。并进一步前瞻性收集16名HGIN或EGC患者作为验证集（4名复发，12名未复发），通过实时定量聚合酶链反应（Quantitative real-time polymerase chain reaction，qRT-PCR）检测相应mcDEGs的表达量，作为测试集输入模型中，检验模型的预测效能（敏感性、特异性等）。本研究的流程图如图1所示。

实施例2 纳入的研究患者的基本临床信息

第一批基因芯片标本共纳入94份样本。研宄对象为从2011年至2015年期间于北京协和医院医院消化内科确诊为LGIN、HGIN或EGC的患者，检测结果保存在基因表达综合数据库中，登记号为GSE130823。第二批基因芯片标本共纳入77份样本。研究对象为2010年3月至2013年5月期间于北京协和医院消化内科确诊为LGIN、HGIN、EGC及胃炎患者，登记号为GSE55696。第三批验证集患者共纳入16名患者、32份样本。患者为从2018年1月至2019年6月于北京协和医院消化内科就诊并规律随访的患者。近一年内有明确活检复查结果。活检标本的获取与病理判读同前两批样本。最终纳入16名患者(HGIN 6名，EGC患者10名)、32份样本。复发者4名，未出现复发的患者有12名。复发标准参照《中国早期胃癌筛查及内镜诊治共识意见》(长沙版，2014年)。标本使用LightCycler480 qRT-PCR仪(Roche，Switzerland)进行检测。

实施例3 基于多因素C0X回归分析构建的风险评分预测模型的训练与验证

前期筛选mcDEGs时，通过单因素COX分析，利用外部数据集GSE62254中I/II期患者的数据，以复发为结局，筛选出与结局显著相关的mcDEGs。进一步通过R语言corrplot包(0.88)对各mcDEGs进行相关性检验，并使用glmnet包(4. 1. 1)将与复发相关的mcDEGs纳入LASSO回归分析中，剔除非必要或多重共线性的基因。然后对余下的基因进行多因素C0X回归分析，判断这批基因是否对复发存在显著影响，并构建公式计算患者的风险评分。研究采用的风险评分计算公式如下:风险评分=∑(X J＊coef J)，其中X J是纳入多因素COX回归分析的mcDEGs进行归一化处理之后的基因表达水平，coefJ为相应基因在多因素COX回归分析中的系数。根据构建的公式，计算每个患者的风险评分，并利用X-tile软件确定最佳的临界值(Cut-off value)，将风险评分高于临界值的患者分为复发高风险组，风险评分低于临界值的患者分为复发低风险组。最终利Log-rank检验和Kaplan-Meier生存分析比较两组患者复发结局是否存在显著差异，并对比模型分组与实际复发情况，计算模型预测的准确性。

通过外部数据集训练构建了风险评分公式并明确临界值后，以验证性样本作为验证集，输入相应mcDEGs的表达情况，计算各个患者的风险评分，对比复发高风险组与复发低风险组患者的生存曲线是否存在显著差异，并计算模型的敏感性和特异性。

实施例4 基于聚类分析的复发预测模型的训练与验证

为获得准确率最高的mcDEGs组合，采用遍历的方式，穷尽所有mcDEGs的排列组合逐次进行聚类分析，并计算分类的准确性，选出其中准确率最高的mcDEGs组合，作为聚类分析最终模型的输入参数。获得验证性样本归一化后的基因表达值后，挑选单个验证性样本，与前期的训练样本混合，构建新的聚类对象。以准确率最高的mcDEGs组合的基因表达值为参数，进行无监督聚类分析，并获得该样本对应患者在模型中的分类。逐一检验所有验证性样本，观察其通过聚类模型的分类情况与实际复发情况是否匹配，计算模型最终的敏感性(Sensitivity)和特异性(Specificity)。

准确性、敏感性、特异性的计算公式如下:

准确性=(TP+TN)/(TP+FP+TN+FN)

敏感性=TP/(TP+FN)

特异性=TN/(FP+TN)。

TP、TN、FP和FN分别指代真阳性率、真阴性率、假阳性率和假阴性率。

实施例5基于决策树和随机森林模型构建的复发预测模型的训练与验证

研究首先采用R语言rpart包(4.1.15)进行决策树分析。输入变量参数为前期筛选所得的mcDEGs的表达水平，以GSE62254外部数据集中I/II期患者的数据为训练集，以16名验证性样本患者的数据为验证集，构建相应的决策树模型，输出验证集的混淆矩阵，并采用R语言R0CR包(1.0.11)绘制R0C曲线，计算R0C曲线下面积值，并计算模型的敏感性和特异性。

本研究对于连续性变量之间的比较使用T检验，对于非连续性变量之间的比较用Fisher精确检验或卡方分析。显著性判断标准以Z3值<0.05为阈值，多组比较进行校正，校正方法采用了FDR (False discovery rate)值校正。

实施例6 差异基因筛选结果

根据GSE130823数据集筛选得到的病变组织中表达显著且逐级单调递增的基因共有75个，逐级单调递减的基因共有4个。根据GSE55696数据集筛选得到的病变组织中表达显著且逐级单调递增的基因共有40个，逐级单调递减的基因共有4个。两批数据集所得的差异基因取交集，共得32个基因；取并集，共得91个基因，如图2所示。

在对两批基因取并集之后，选取包含预后数据的外部数据集GSE62254中I/II期患者的临床数据，以复发为结局，逐一对各个mcDEGs进行单因素COX回归分析，结果显示共有21个基因为与患者的复发结局相关的独立影响因素，绘制的森林如图3所示。

为尽可能的避免基因筛选出现遗漏，选取相同的外部数据集患者信息，根据复发情况将患者分为复发组与非复发组，对前期所得的91个基因逐一行T检验，最终显示两组患者中有22个基因表达呈显著差异，其中18个基因与单因素C0X回归筛选所得的基因一致。

综合单因素C0X回归分析与T检验结果，共筛选出25个或与早期胃癌复发呈显著相关的mcDEGs（见表1）。因此作为后续模型训练与验证的输入基因。

表1 外部数据集中进行单因素COX回归分析或T检验呈现显著P值的mcDEGs

对这25个mcDEGs进行GO分析和KEGG分析。GO分析结果可见，主要富集的功能多为免疫调节相关，涉及的固有免疫功能较多。其中CTSC、SNCA、PLA2G7、S100A8等基因在多项生理功能中发挥效应。KEGG结果分析所示，有4个基因CXCR2、TNFSF15、IL13RA2、CCL20均位于细胞因子相互作用通路中，另外S100A8、CCL20和FOS也均参与IL-17信号通路的传导。

实施例7 验证性样本mcDEGs表达情况

完成mcDEGs筛选之后，本研究前瞻性收集16位HGIN或EGC患者的病变组织标本与癌旁背景粘膜标本(4名复发，12名未复发)，采用qRT-PCR技术检测25个mcDEGs的表达情况。

实施例8 基于无监督聚类分析算法构建的预测模型的训练与验证结果

以筛选所得的mcDEGs的表达情况作为输入变量，利用外部数据GSE62254中I/II期患者相应基因的表达情况与复发情况作为训练集，进行基于Ward. D算法的无监督聚类分析，将患者分为两组。并对两组患者进行Log-rank检验，绘制Kaplan-Meier生存曲线。在两组患者有显著生存差异的情况下，计算模型的准确性，即真阳性患者(分类为高风险组，实际出现复发)与真阴性患者(分类为低风险组，实际未出现复发)数量之和占总样本的比例。

由于聚类分析模型的预测结果取决于选取的基因数量与基因组合。为了获得最佳的基因组合，采取穷尽的原则，对25个mcDEGs的所有排列组合逐一进行聚类分析，比较模型的准确性。所有排列组合总计有33554431组。

对33554431种基因组合进行聚类分析—生存分析—计算准确性，结果显示当基因的数量从单个基因开始逐渐增加时，其模型的准确性存在逐渐提高的趋势。当基因的数量达到一定数目时，随着基因数量的增加，模型的准确性不但未能提高，还出现下降的趋势。对比33554431种基因组合的准确性，筛选准确性最高的三组基因组合，分别为两组10个基因的组合与１组11个基因的组合，准确率均为77.17%（见表2）。

表2 三个聚类分析最佳模型所纳入的基因组合

实施例9 基于决策树构建预测模型的训练与验证效果

利用R语言RPART包进行决策树分析，以GSE62254数据集I/II期患者的前述25个筛选出的单调变化的差异表达基因的表达值作为预测的变量，复发结局作为分类结果，进行模型训练。为避免过拟合，参数minsplit设定为10，其余均采用函数默认值。25个基因在决策树分析中的重要程度评分如表3所示，其中重要程度排名前五的基因分别为MMP12、AREG、CCL20、CHI3L1、FOS。

表3 25个单调变化的差异表达基因在决策树模型中的重要度评分

模型根据参数重要性、共线性等因素进行筛选和剪枝后，最终仅保留了AREG、LOC100507520、MMD、CH3L1、FOS、CCL20、CXCR2、BATF3这8个基因作为最终的预测指标，绘制的分类树状图如图4所示。

根据训练的模型绘制ROC曲线，结果如图5所示，计算AUC为0.895，提示模型训练效果良好。

以16名验证性患者的基因表达情况和复发情况作为验证集进行验证，对比模型预测结果与实际复发情况，结果显示12名未复发患者中有5名患者预测为复发、7名患者预测为未复发，错分概率为41.7%；4名复发患者均得到正确预测，错分概率为0%（如表4所示）。模型整体的敏感性为100%，特异性为58.3%，AUC值为0.792（如图6所示）。

本部分研究利用GSE130823和GSE55696两批基因芯片转录组数据共筛选出25个潜在的与早期胃癌复发相关的基因，并建立了以AREG、LOC100507520、MMD、CH3L1、FOS、CCL20、CXCR2、BATF3这8个基因为基础的复发预测模型。通过纳入16个患者作为验证集并通过qRT-PCR方法检测上述基因的表达量，并进一步根据机器学习算法训练的肿瘤复发预测模型在训练集和验证集中均表现出良好的预测效能。根据决策树算法训练的预测模型在验证集中的敏感性高达100%，特异性为58.3%，曲线下面积值（Area under the curve，AUC）为0.792。这一定程度上提示在胃癌演变的不同阶段中表达呈现单调变化的这些差异表达基因能够预测患者肿瘤复发的风险。而基于机器学习算法构建的预测模型可以发掘出基因与肿瘤复发之间复杂的潜在关系，拥有优秀的预测效能，能够在临床医生为EGC患者制定个体化随访方案时提供指导意义，即在未来的探索中可以通过对AREG、LOC100507520、MMD、CH3L1、FOS、CCL20、CXCR2、BATF3这8个基因的表达量进行决策树的测绘，以初步预测患者的复发概率，由于本模型具有极佳的敏感性，即所有预测为未复发的患者均未复发，对于临床的提示意义是可以据此调整这部分患者的复查随诊频率。

表4 基于决策树构建的预测模型验证结果及混淆矩阵

接近100%的敏感性意味着早期胃癌患者在接受治疗后，通过基因检测便能够发掘出所有的复发高风险患者，对于这些患者，临床医生可以提高患者随诊的频率，及时通过内镜等手段监测患者复发情况，如若出现复发，能确保在第一时间确诊并进行治疗，提高患者的生存期。另一方面，100%的敏感性意味着对于被模型分类至复发低风险组的患者后续复发的概率极低。临床上HGIN或EGC患者在接受ESD治疗后，通常采取每半年至一年的频率进行内镜随诊。对于预测模型分类为复发低风险组的患者则可以考虑适当延长患者的随访时间，减少内镜复查的次数，提高了患者治疗和随诊的舒适度，同时减少治疗费用的支出，缓解患者的经济负担。

实施例10 判断早期胃癌预后的独立预测指标的确立

进一步对这３个基因组合进行分析，发现其中基因重合度较高。基因组合Ａ和基因组合Ｂ中仅有１个基因不同，基因组合Ｃ与基因组合Ｂ相比，仅多出１个基因，提示这些基因之间存在着复杂、非线性的关系，提示这些基因对早期胃癌的复发可能拥有更强的相关性。因此进一步验证上述重合度较高的基因是否可以作为判断早期胃癌预后的独立预测指标。

FOS、ARGE、SNCA、MMD、KCNMB4、CHN1、BATF3、LOC100507520、MICALL2、CTSC、AP1G1是多个预测模型同时纳入的差异表达基因。其中SNCA属于突触核蛋白家族，多与帕金森病、阿兹海默症等神经系统疾病相关。MMD为单核细胞分化至巨噬细胞相关基因（Monocyte tomacrophage differentiation associated gene）。CHN1编码一种GTP酶激活蛋白，主要参与神经传导过程。BATF3编码的蛋白是一种AP-1家族转录因子，参与调控免疫系统内树突状细胞的分化。LOC100507520属于非编码RNA，相关研究报道较少。MICALL2编码的蛋白是一种细胞骨架调节蛋白。CTSC，即组织蛋白酶Ｃ，在多篇研究中被证实能够促进乳腺癌、肝癌等肿瘤的进展和转移。AP1G1是一种gamma-adaptin蛋白，属于衔接子复合物大亚基家族。但是上述基因目前仍然缺乏与早期胃癌预后相关的研究。

采用免疫组织化学方法检测40例EGC复发患者中FOS、ARGE、SNCA、MMD、CH3L1、KCNMB4、CHN1、BATF3、LOC100507520、AP1G1的表达，并用定量实时聚合酶链反应（qRT-PCR）检测癌组织中各个基因的mRNA表达。采用卡方检验或Fisher检验分析基因表达与临床病理因素的相关性。通过单变量分析，我们评估了包括FOS、ARGE、SNCA、MMD、KCNMB4、CHN1、BATF3、LOC100507520、MICALL2、CTSC、AP1G1在内的临床病理因素与EGC复发之间的相关性。通过多变量分析，我们确定了EGC患者的复发的独立危险因素。

Trizol用于mRNA提取，并且StepOnePlus实时PCR系统和SYBRGreen方法用于cDNA合成和定量PCR。GAPDH作为2−ΔΔCT的内部对照。肿瘤邻近组织的平均mRNA水平设置为1.0和其他mRNA水平标准化为该基线。GAPDH和各个基因的检测引物序列如下：

GAPDH上游引物：5’- tggagaatgagaggtgggatg -3’；

GAPDH 下游引物：5'- gagcttcacgttcttgtatctg -3’；

FOS上游引物：5’- actctcatagtttcttccctaag -3’；

FOS下游引物：5’- ttccactgagggcttgggc -3’；

ARGE上游引物：5’-cacatcttttacgcttgtcaa-3’；

ARGE下游引物：5’- caggatgagtggctgtccc -3’；

SNCA上游引物：5’- tgtattcatgaaaggac -3’；

SNCA下游引物：5’- ttcaggttcgtagtcttga -3’；

MMD上游引物：5’-atgtgtgatagaatggttatctatt-3’；

MMD下游引物：5’- gaacacagcctttatact -3’；

CH3L1 上游引物：5’- gttgatgataagttcacgggt -3’；

CH3L1下游引物：5’- tgtaataatatttaattgtgc -3’；

KCNMB4上游引物：5’- ctcggcttgtttctcatcatct-3’；

KCNMB4下游引物：5’- ttgggtaagagaacttgcgc -3’；

CHN1上游引物：5’- agtattatggaagagag-3’；

CHN1下游引物：5’- agccatcttgacatcttcaat -3’；

BATF3上游引物：5’- tcctgcagaggagcgtcg-3’；

BATF3下游引物：5’- ttcatcggggcaagcagccg -3’；

LOC100507520上游引物：5’- tgagaactccgagatgcattag -3’；

LOC100507520下游引物：5’- gctagttgagatgtcgatagtgc -3’；

AP1G1上游引物：5’- ttacagacaaacgcattggctatt-3’；

AP1G1下游引物：5’- agctatgaatgatatattagcac-3’。

表5 mcDEGs在早期胃癌复发患者中病变组织与对照组织中表达差异对比

研究显示：早期胃癌组织中FOS、ARGE、SNCA、MMD、CH3L1、KCNMB4、CHN1、BATF3、LOC100507520、AP1G1的mRNA水平显著高于癌旁组织，且仅在癌症组织中高表达。上述基因表达与早期胃癌复发显著相关（P=0.002），上述基因可以确定为的早期胃癌诊断的独立生物标志物（P=0.001）。

序列表

<110> 中国医学科学院北京协和医院

<120> 早期胃癌预后差异基因与复发预测模型

<160> 22

<170> SIPOSequenceListing 1.0

<210> 1

<211> 21

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 1

tggagaatga gaggtgggat g 21

<210> 2

<211> 22

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 2

gagcttcacg ttcttgtatc tg 22

<210> 3

<211> 23

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 3

actctcatag tttcttccct aag 23

<210> 4

<211> 19

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 4

ttccactgag ggcttgggc 19

<210> 5

<211> 21

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 5

cacatctttt acgcttgtca a 21

<210> 6

<211> 19

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 6

caggatgagt ggctgtccc 19

<210> 7

<211> 17

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 7

tgtattcatg aaaggac 17

<210> 8

<211> 19

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 8

ttcaggttcg tagtcttga 19

<210> 9

<211> 25

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 9

atgtgtgata gaatggttat ctatt 25

<210> 10

<211> 18

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 10

gaacacagcc tttatact 18

<210> 11

<211> 21

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 11

gttgatgata agttcacggg t 21

<210> 12

<211> 21

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 12

tgtaataata tttaattgtg c 21

<210> 13

<211> 22

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 13

ctcggcttgt ttctcatcat ct 22

<210> 14

<211> 20

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 14

ttgggtaaga gaacttgcgc 20

<210> 15

<211> 17

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 15

agtattatgg aagagag 17

<210> 16

<211> 21

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 16

agccatcttg acatcttcaa t 21

<210> 17

<211> 18

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 17

tcctgcagag gagcgtcg 18

<210> 18

<211> 20

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 18

ttcatcgggg caagcagccg 20

<210> 19

<211> 22

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 19

tgagaactcc gagatgcatt ag 22

<210> 20

<211> 23

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 20

gctagttgag atgtcgatag tgc 23

<210> 21

<211> 24

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 21

ttacagacaa acgcattggc tatt 24

<210> 22

<211> 23

<212> DNA

<213> 人工序列(Artificial sequence)

<400> 22

agctatgaat gatatattag cac 23

Claims

1.一种用于评估早期胃癌复发风险的基因组合物，所述基因组合物由AREG、LOC100507520、MMD、CH3L1、FOS、CCL20、CXCR2和BATF3基因组成。

2.如权利要求1所述的基因组合物在制备评估早期胃癌复发风险试剂盒中的应用。

3.检测权利要求1所述的基因组合物的表达水平的试剂在制备预测早期胃癌复发风险试剂盒中的用途。

4.如权利要求3所述的用途，其中所述试剂为PCR检测试剂。