CN116656829B

CN116656829B - 一种预测胃癌不良预后的基因标志物组合、试剂盒及系统

Info

Publication number: CN116656829B
Application number: CN202310952768.8A
Authority: CN
Inventors: 汪强虎; 刘权中; 吴维; 吴玲祥; 张若寒
Original assignee: Ankai Life Technology Suzhou Co ltd
Current assignee: Ankai Life Technology Suzhou Co ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2024-04-12
Anticipated expiration: 2043-08-01
Also published as: CN116656829A

Abstract

本发明公开了一种预测胃癌不良预后的基因标志物组合、试剂盒及系统，属于医学分子生物学领域。其中，所述基因标志物组合包括ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1和TUBA1B，充分考虑了基因相互作用和基因的实际作用，对胃癌的不良预后评估更为全面，具有十分重要的临床应用价值。

Description

一种预测胃癌不良预后的基因标志物组合、试剂盒及系统

技术领域

本发明属于医学分子生物学领域，具体地，一种预测胃癌预后的基因标志物组合及其应用。

背景技术

胃癌是一种危害严重的消化系统肿瘤，其预后取决于多个因素，包括肿瘤的分化程度、淋巴结转移、浸润深度等。目前，胃癌治疗的主要方式包括手术切除、放疗和化疗等，然而预后仍然不尽如人意。因此，寻找更加准确的生物标志物，用于预测胃癌患者的不良预后，对于改善治疗效果具有重要意义。

在肿瘤领域，越来越多的研究表明，基于分子表达水平的分析，可以预测患者的临床预后。然而，传统的单基因检测方法存在许多局限性，比如单一指标的不够准确，缺乏综合评估，不能充分发挥基因组数据的信息量等。因此，近年来，研究者们开始探索利用多个基因的表达数据来预测胃癌的预后，从而提高预测准确度。例如研究者通过分析样本中环状RNA（circular RNAs）的表达，开发了一个基于8个circRNAs的风险预测模型，用于GC的诊断，可以评估胃癌患者的不良预后（Souvick Roy, Mitsuro Kanda， Diagnostic efficacyof circular RNAs as noninvasive, liquid biopsy biomarkers for early detectionof gastric cancer. Mol Cancer. 2022 Feb 9;21(1):42. doi: 10.1186/s12943-022-01527-7.）。但是由于circRNA可能没有直接参与胃癌肿瘤细胞的调控，影响其对诊断的准确性。

目前来说，针对胃癌的预后风险评估出现了大量的研究，根据使用的方法与技术特点，从两个角度指出其存在的不足。

一、众多的单基因评估胃癌预后风险的分析，存在着以下缺陷与不足：

1、忽略了基因相互关系：单基因没有考虑到不同基因之间的相互作用，因此可能会导致失去预测模型的准确性。在肿瘤中，往往多种基因共同参与，基因间的相互作用非常复杂，因此单基因评估模型不能充分考虑这种复杂性。

2、数据量不足：单基因评估胃癌预后风险的结果需要充分的数据支持。但是，受限于数据量，无法准确评估每个基因的作用。这可能导致在实践中过多依赖少数基因的结果，忽略其他基因的作用。

3、结果不可靠：单基因评估胃癌预后风险的结果可能会出现偏差，这可能导致临床上做出错误的决策。例如，如果选择的基因与肿瘤没有充分的相关性，则可能会得出不准确的结论。

4、不利于治疗：单基因评估胃癌预后风险可能会导致医生过分关注患者的基因组数据，而忽略了患者的实际病情。这可能会导致过度治疗或低效治疗，从而影响患者的生活质量。

综上所述，单基因评估胃癌预后风险虽然是一种常用的方法，但其缺点也不容忽视。

二、没有精确地针对肿瘤细胞，忽略了肿瘤细胞的调控机制

之前的分析基于批量RNA测序，是一种广泛用于分析生物样本中基因表达的方法。生成的数据提供了样本中基因表达的整体情况。尽管广受欢迎，但RNA测序有一些局限性，可能会影响结果的解释。

1、细胞异质性信息的丢失：RNA测序的主要缺点之一是细胞异质性信息的丢失。测序数据代表样本中所有细胞的平均基因表达水平。这意味着不会捕获单个细胞的表达水平，并且可能会完全遗漏稀有细胞群。这在包含多种细胞类型的样本中尤其成问题，例如肿瘤样本，其中不同的细胞群可能具有不同的基因表达谱。另外RNA测序可以掩盖细胞间基因表达的重要差异，从而导致关于样本生物学的不准确结论。

2、识别稀有转录本的能力有限：RNA测序在识别稀有转录本方面不如单细胞RNA测序（scRNA-Seq）敏感。scRNA-Seq能够检测低表达的基因，而RNA测序可能会遗漏这些基因。因此，RNA测序可能无法提供转录组的完整特征，并且可能会遗漏可用于疾病诊断或预后的重要生物标志物。

综上所述，虽然RNA测序是一种广泛使用且有价值的基因表达分析工具，但它有几个可能影响结果解释的局限性。

发明内容

为了解决上述技术问题中的至少一个，本发明通过单细胞测序技术，从肿瘤细胞的角度全面解析了分子特征，意外地发现了具有预测预后价值的生物标志物组合，从而完成本发明。

本发明第一方面提供一种用于预测胃癌不良预后的基因标志物组合，所述基因标志物组合包括ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1和TUBA1B。

在本发明中，所述基因标志物组合还可以选自上述10个其中的一种或几种。需要说明的是，虽然上述基因都是已知的基因，但是作为标志物组合却是本领域技术人员无法预期的。上述基因标志物组合中的各基因在预测胃癌不良预后中均具有一定的价值，本领域技术人员可以选择任一组合，例如其中任意1个基因、任意2个基因、任意3个基因、任意4个基因、任意5个基因、……、任意10个基因进行预测。尽管本发明实施例仅示例性给出部分组合预测肿瘤进展的结果，但实际上上述任一组合均可以取得良好的预测效果。

本发明第二方面提供本发明第一方面所述的基因标志物组合的表达水平的检测试剂在制备用于预测胃癌不良预后的试剂盒中的应用。

在本发明的一些实施方案中，所述表达水平的检测试剂是指能够检测所述基因转录水平和蛋白水平的试剂。例如靶向基因转录产物的引物和/或探针，或者特异性结合相应蛋白的抗体。进一步地，利用包括全转录组测序、捕获测序和qRT-PCR的组中的至少一种方法获得所述基因标志物组合的表达水平。例如，本领域技术人员可以针对所述基因标志物组合中各基因设计探针，并将探针制备成基因芯片，利用基因芯片进行捕获测序。再如，可以针对所述基因标志物组合中各基因设计引物，进行PCR扩增后进行测序。又如，可以针对所述基因标志物组合中各基因设计引物和探针，利用qRT-PCR方法检测各基因的表达水平。特别地，也可以直接进行全转录组高通量测序，获得测序数据后，与人类参考基因组进行比较，并进行表达定量，获得表达谱信息。当然，本领域技术人员也可以利用其他任意方法获得所述基因标志物组合中各基因的表达水平。

在本发明中，所述表达水平基于RNA样本进行检测。具体地，可以在获得生物样本后，提取RNA样本进行检测，例如通过全转录组测序、捕获测序或qRT-PCR进行检测。在本发明的另一些实施方案中，也可以利用单细胞RNA测序(scRNA-seq)获得单个肿瘤细胞中所述各基因的表达水平。

在本发明的一些实施方案中，利用单样本基因集富集分析方法（single-samplegene set enrichment analysis，ssGSEA）基于所述基因标志物组合的表达水平获得组合得分，若组合得分超过预设阈值，则具有不良预后的风险。

ssGSEA通过将每个样本的基因表达数据与特定的基因集（免疫细胞基因集）进行比较，来估计该基因集在该样本中的相对富集程度。具体而言，ssGSEA首先将所有基因按照其表达量从大到小进行排序，并计算在某个基因集内，基因表达量较高的基因的累积分布函数。这个累积分布函数被称为基因集富集得分（gene set enrichment score，GSE）。然后，对于每个样本，将该样本中的所有基因的表达量按照从大到小的顺序排列，计算每个位置上所对应的基因集富集得分。最后，将这些位置上的得分进行平均或加权平均，得到该样本在该基因集上的ssGSEA得分。

在本发明的一些实施方案中，所述预设阈值是群体正常样本的代表值，包括但不限于极大值、第三四分位数。在本发明的另一些实施方案中，所述预设阈值是群体胃癌预后不良样本的代表值，包括但不限于极小值、第一四分位数。

在本发明的一些优选实施方案中，所述群体样本包括20个以上样本，例如30个、50个、80个、100个、150个、200个、300个、500个或更多。

在本发明的一些实施方案中，不同的检测试剂对应不同的阈值。在本发明的一些具体实施方案中，所述检测试剂为RNA测序试剂，所述预设阈值为2.02~2.24，优选地所述预设阈值为2.02，即当组合得分超过2.02时，具有不良预后的风险。在本发明的另一些具体实施方案中，所述检测试剂为芯片测序试剂，所述预设阈值为0.75~1.59，优选地所述预设阈值为0.75，即当组合得分超过0.75时，具有不良预后的风险。

转录组代表存在于细胞中RNA的全部类型，包括mRNA、rRNA、tRNA以及其它各种非编码RNA等。DNA微阵列（DNA Microarrays）技术或称基因芯片（Genechip）测序技术和RNA测序技术（RNA sequencing，RNA-seq）是转录组分析中的两种主要技术。它们的主要区别在于，DNA微阵列基于预先设计的标记探针与目标cDNA序列的杂交，而RNA-seq通过测序技术对cDNA链进行直接测序。

在本发明的一些实施方案中，所述RNA测序试剂包括但不限于RNA提取试剂及文库构建试剂，所述芯片测序试剂包括但不限于RNA提取试剂，以及基因芯片即DNA微阵列。本发明第三方面提供一种用于预测胃癌不良预后的试剂盒，包括本发明第一方面任一所述的基因标志物组合的表达水平的检测试剂。

在本发明的一些实施方案中，所述表达水平的检测试剂是指能够检测所述基因转录水平和蛋白水平的试剂。例如靶向基因转录产物的引物和/或探针，或者特异性结合相应蛋白的抗体。

在本发明的一些实施方案中，还包括RNA提取试剂。

本发明第四方面提供一种预测胃癌不良预后的系统，包括：

数据输入模块，用于获得本发明第一方面所述基因标志物组合中各基因的表达水平；

预测模块，与所述数据输入模块连接，用于根据所述各基因的表达水平，利用单样本基因集富集分析方法预测胃癌不良预后。

在本发明的一些实施方案中，所述预测模块中，利用单样本基因集富集分析方法基于所述基因标志物组合的表达水平获得组合得分，若组合得分超过预设阈值，则具有不良预后的风险。

在本发明的一些实施方案中，所述系统还包括参数存储模块，与所述预测模块连接，用于存储所述预设阈值，所述预设阈值是利用群体样本得到的。

在本发明的一些实施方案中，所述参数存储模块中的所述预设阈值根据所述预测模块中的预测结果进行更新。

本发明还公开一种筛选用于预测癌症不良预后的基因标志物组合的方法，包括以下步骤：

S1，获得群体癌症样本的单细胞测序数据，并进行质控：除表达基因数量低于200、UMI数量低于4500、MT基因表达量比例高于20%的基因；

S2，对单细胞测序数据进行标准化：将每个细胞的每个基因的计数除以该细胞中全部基因的总计数，然后进行对数转换；

S3，高变基因鉴定：使用loss拟合平滑曲线模型，获取模型计算的参数，按照由高到低进行排序，选取前1000~3000个基因做为高变基因；

S4，数据归一化：转换每个基因的表达值，使每个细胞的平均表达为0，转换每个基因的表达值，使细胞间的方差为1；

S5，主成分分析：使用JackStraw算法确定数据维度，选择显著性最高的前10个维度。

S6，细胞聚类：使用KNN算法进行聚类，基于步骤S5获得的主成分将细胞分为不同的簇；

S7，利用差异表达分析算法，筛选特异性细胞类型中的显著差异基因。

在本发明的一些实施方案中，进一步根据蛋白关系和/或基因表达比例筛选基因。

在本发明的一些实施方案中，所述癌症为胃癌，所述特异性细胞类型为PLF细胞。

本发明的有益效果

相对于现有技术，本发明的有益效果如下：

本发明利用单细胞测序的方法，结合生物信息学分析方法，发现了一组基于胃癌肿瘤细胞的生物标志物，包括ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1、TUBA1B。该生物标志物组合可以预测胃癌患者的不良预后。

本发明的基因标志物组合，充分考虑了基因相互作用和基因的实际作用，对胃癌的预后评估更为全面，具有十分重要的临床应用价值。

附图说明

图1示出了本发明实施例1胃癌细胞的不同细胞类型。

图2示出了本发明实施例1获得的10个基因标志物的蛋白互作网络。

图3示出了本发明实施例1获得的10个基因标志物在胃癌特异性细胞亚群中的表达比例。

图4示出了本发明实施例2中的生存分析结果。图4A示出了利用TCGA数据库得到的生存分析结果；图4B示出了利用GEO数据库GSE84433得到的生存分析结果。

具体实施方式

除非另有说明、从上下文暗示或属于现有技术的惯例，否则本申请中所有的份数和百分比都基于重量，且所用的测试和表征方法都是与本申请的提交日期同步的。在适用的情况下，本申请中涉及的任何专利、专利申请或公开的内容全部结合于此作为参考，且其等价的同族专利也引入作为参考，特别这些文献所披露的关于本领域中的相关术语的定义。如果现有技术中披露的具体术语的定义与本申请中提供的任何定义不一致，则以本申请中提供的术语定义为准。

本申请中的数字范围是近似值，因此除非另有说明，否则其可包括范围以外的数值。数值范围包括以1个单位增加的从下限值到上限值的所有数值，条件是在任意较低值与任意较高值之间存在至少2个单位的间隔。对于包含小于1的数值或者包含大于1的分数（例如1.1，1.5等）的范围，则适当地将1个单位看作0.0001，0.001，0.01或者0.1。对于包含小于10（例如1到5）的个位数的范围，通常将1个单位看作0.1。这些仅仅是想要表达的内容的具体示例，并且所列举的最低值与最高值之间的数值的所有可能的组合都被认为清楚记载在本申请中。

术语“包含”，“包括”，“具有”以及它们的派生词不排除任何其它的组分、步骤或过程的存在，且与这些其它的组分、步骤或过程是否在本申请中披露无关。为消除任何疑问，除非明确说明，否则本申请中所有使用术语“包含”，“包括”，或“具有”的组合物可以包含任何附加的添加剂、辅料或化合物。相反，出来对操作性能所必要的那些，术语“基本上由……组成”将任何其他组分、步骤或过程排除在任何该术语下文叙述的范围之外。术语“由……组成”不包括未具体描述或列出的任何组分、步骤或过程。除非明确说明，否则术语“或”指列出的单独成员或其任何组合。

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。

实施例

以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白，下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术，因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白，这里所公开的特定实施例可以做很多修改，仍然能得到相同的或者类似的结果，而非背离本发明的精神或范围。

除非另有定义，所有在此使用的技术和科学的术语，和本发明所属领域内的技术人员所通常理解的意思相同，在此公开引用及他们引用的材料都将以引用的方式被并入。

那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。

下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的仪器设备，如无特殊说明，均为实验室常规仪器设备；下述实施例中所用的试验材料，如无特殊说明，均为自常规生化试剂商店购买得到的。

实施例 1 细胞类型标志基因的获取

一、数据收集与处理

发明人在公共数据库收集了目前已知的所有胃癌单细胞测序数据，按照以下步骤进行预处理：

1、数据质控：去除表达基因数量低于200、UMI数量低于4500、线粒体（MT，mitochondrion）基因表达量比例高于20%的基因，以保证后续分析的准确性。

2、数据标准化：由于在测序之前，会对捕获的RNA片段进行PCR扩增，所以考虑到文库深度对测序的影响，需要对得到的矩阵进行均一化处理。具体地，将每个细胞的每个基因的计数（counts）除以该细胞中全部基因的总计数，然后对结果进行对数转换，得到标准化之后的结果，进入下一步分析。

3、高变基因鉴定：主要是为了计算数据集中表现出高细胞间变异的特征基因（在某些细胞中高表达，而在其他细胞中低表达）。首先使用loss拟合平滑曲线模型，获取模型计算的参数，按照由高到低进行排序，本实施例使用前2000个基因做为高变基因。

4、数据归一化：线性变换“缩放”，是在降维之前的一个标准预处理步骤。转换每个基因的表达值，使每个细胞的平均表达为0，转换每个基因的表达值，使细胞间的方差为1。

5、线性降维：对缩放的数据执行主成分分析（Principal Component Analysis，PCA），将第3步得到的前2000个高可变基因作为RunPCA函数中features参数的输入，用于PC的确定，本实施例使用JackStraw算法，JackStraw计算出显著相关的维度。本实施例中，发明人发现，在10个维度之后，数据显著性大幅下降，其含义是10个维度包含了大部分的样本信息，因此发明人选择10个主成成分作为参数用于后续分析。

6、细胞聚类：细胞聚类是单细胞RNA测序数据分析的核心步骤之一，可以将相似的细胞聚为一类。在本实施例中，使用KNN算法进行聚类，将细胞分为不同的簇。聚类的结果可以通过t-SNE等算法进行可视化。

在鉴定出不同的细胞簇后，需要对其进行注释，确定它们的生物学意义，主要有两种方法进行细胞注释：

（1）利用SingleR软件包：SingleR是一个用于对单细胞RNA-seq测序数据进行细胞类型自动注释的R包（Dvir Aran, Reference-based analysis of lung single-cellsequencing reveals a transitional profibrotic macrophage, Nat Immunol . 2019Feb;20(2):163-172. doi: 10.1038/s41590-018-0276-y. Epub 2019 Jan 14.）。依据已知类型标签的细胞样本作为参考数据集，对测试数据集中的细胞进行标记注释。

（2）利用细胞标志物：B细胞（CD79A、MS4A1）；T细胞（CD2、CD3D、CD3E）；内分泌细胞（CHGA）；内皮细胞（ENG、VWF）；上皮细胞（EPCAM、KRT18、KRT8）；成纤维细胞（COL1A2、ACTA2）；巨噬细胞（CD14、LYZ、CD163）；肥大细胞（CPA3）（Zhang M, Dissecting transcriptionalheterogeneity in primary gastric adenocarcinoma by single cell RNAsequencing, Gut. 2021 Mar;70(3):464-475. doi: 10.1136/gutjnl-2019-320368.Epub 2020 Jun 12.）。

本发明主要关注上皮细胞来源的肿瘤细胞，因此后续的分析都只针对该上皮细胞来源的肿瘤细胞，本实施例利用细胞标志物的方法鉴定不同细胞类型，共获得：

GSE167297中的8个患者样本，15480个细胞；

GSE150290中的21个患者样本，49578个细胞；

Anuja数据集中的9个患者样本，15113个细胞；

CRA002586中的9个患者样本，19247个细胞；

GSE183904中的26个患者样本，112983个细胞；

GSE206785中的23个患者样本，62605个细胞。

另外，发明人还收集了胃癌患者的分析数据，包括TCGA-STAD的382个患者RNA测序数据，GSE84433的238个患者RNA测序数据。

二、计算差异表达基因

发明人针对肿瘤细胞进行分析，将鉴定好的肿瘤细胞类型，基于已发表的50个肿瘤关键HALLMARK通路（Hanahan D, Weinberg RA. “Hallmarks of cancer: the nextgeneration.” Cell. 2011 Mar 4;144(5):646-74. doi: 10.1016/j.cell.2011.02.013.）进行分析。这50个肿瘤相关通路行使不同的功能，又可归成8个大类，包括细胞组分（cellular component）、发育（development）、DNA损伤（DNA damage）、免疫（immune）、代谢（metabolic）、通路（pathway）、增殖（proliferation）和信号（signaling）共8个大类（Jian Lin, Yuting Dai et al. “Multimodule characterization of immunesubgroups in intrahepatic cholangiocarcinoma reveals distinct therapeuticvulnerabilities” J Immunother Cancer . 2022 Jul;10(7):e004892. doi: 10.1136/jitc-2022-004892.）。使用单样本基因集富集分析（single sample gene set enrichmentanalysis, ssGSEA）评估通路得分。ssGSEA是GSEA方法的扩展，计算每个样本和基因集配对的富集分数，每个ssGSEA富集评分代表了样本中特定基因集的成员被协调上调或下调的程度（Barbie, David A et al. “Systematic RNA interference reveals that oncogenicKRAS-driven cancers require TBK1.”Nature vol. 462,7269 (2009): 108-12.）。本实施例用ssGSEA为每个肿瘤细胞计算HALLMARK得分，根据无监督聚类，将肿瘤细胞细分成6种类型，如图1所示。其中，PLF型（ProLiFeration）主要富集增殖相关的通路；pre-PLF型富集的增殖得分低于PLF型，但是又高于其他细胞类型；EMT型（Epithelial MesenchymalTransition）主要富集上皮间质转化，肿瘤转移相关通路；pre-EMT型的上皮间质转化得分低于EMT型，又高于其他细胞类型；而TSL型（TranSitionaL）的各种信号通路得分都显著上升，是一种过渡型；NLT型（Normal Like Tumor）各种通路得分都很低，表现出与正常细胞相似的特征。而PLF型细胞是胃癌细胞的特异性细胞类型。

差异基因计算是单细胞RNA测序分析中的一个重要任务。发明人使用Seurat包的差异表达分析（DE）算法，找出PLF细胞类型中的显著差异基因。共得到56个Foldchange>1.5的差异基因，如表1所示：

表1 PLF细胞中差异基因

将差异基因按Foldchange从高到低进行排序。进一步，发明人使用STRING数据库分析了基因的蛋白互作关系，STRING数据库（https://string-db.org/）是一个搜寻蛋白质之间相互作用的数据库，数据库中既包括蛋白质之间的直接物理相互作用，也包括蛋白质之间的间接功能相关性，它可以选择不同方式去查找互作网络，可通过输入单个或者多个蛋白名称、氨基酸序列查找其互作网络。本实施例探究了Foldchange Top10的基因（ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1、TUBA1B）的蛋白调控网络（图2）。分析发现KIAA0101、H2AFZ、HMGB2、ACTG1、STMN1、TUBA1B在同一个调控网络中。另外还发现GPX2与AKR1B10存在着互作关系，MUC5AC与TFF1存在着互作关系。最后对于上述top10基因表达比例的统计，发现了所有基因均在PLF细胞中特异性表达，每个基因在PLF细胞中的表达比例均高于80%（图3）。上述结果说明Top10基因组成了多个蛋白互作网络，又都同时调控PLF细胞，是PLF细胞执行生物学功能的关键分子。

实施例2 生存分析

使用Kaplan-Meier曲线绘制生存曲线。Kaplan-Meier曲线显示患者在不同时间点的生存率，可以用来比较不同治疗组或不同临床特征组之间的生存差异。

本实施例使用单样本基因集富集分析（single sample gene set enrichmentanalysis，ssGSEA）算法评估胃癌预后风险得分模型与，计算ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1、TUBA1B的组合得分，作为预后评估的指标。

（1）针对TCGA数据库，使用的测序类型是RNA-seq，经过计算得分值大于2.02时，具有预测不良预后的功能。即在胃癌患者中ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1、TUBA1B的组合基因模型得分，大于2.02时标记为胃癌不良预后高风险人群（在本实施例中，最高为2.24），具体表现为这类胃癌患者的生存时间较短，图4A。

（2）针对GEO数据库GSE84433，使用的是芯片测序，经过计算发现得分值大于1.59时，计算胃癌患者中ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1、TUBA1B的组合基因模型得分。得分大于1.59时，标记为胃癌不良预后高风险人群（在本实施例中，最高为1.75），具体表现为这类胃癌患者的生存时间较短，如图4B。

由此可见，针对不同的测序平台类型，使用不同的分组阈值，ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1、TUBA1B的组合均可以预测胃癌患者的不良预后，并且表现出了较高的稳定性。

综上所述，本发明利用单细胞测序的方法，结合生物信息学分析方法，发现了一组基于胃癌肿瘤细胞的生物标志物，包括ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1、TUBA1B。该生物标志物组合可以预测胃癌患者的不良预后。同时针对于不同的测序平台，本发明提出了不同的检测范围，RNA-seq的有效范围是2.02~2.24，芯片测序的有效范围是1.59~1.75。本发明的10基因的生物标志物组合对于预测胃癌患者的不良预后有重要的临床价值。

本发明的上述方法一种预测胃癌不良预后的系统，包括：

数据输入模块，用于上述基因标志物组合中各基因的表达水平；

预测模块，与数据输入模块连接，利用单样本基因集富集分析方法基于所述基因标志物组合的表达水平获得组合得分，若组合得分超过预设阈值，则具有不良预后的风险。

还包括参数存储模块，与预测模块连接，用于存储预设阈值。

另外，参数存储模块中的预设阈值还可以根据预测模块中的预测结果进行更新。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.基因标志物组合的表达水平的检测试剂在制备用于预测胃癌不良预后的试剂盒中的应用，其中，所述基因标志物组合为ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1和TUBA1B。

2.根据权利要求1所述的应用，其特征在于，利用单样本基因集富集分析方法基于所述基因标志物组合的表达水平获得组合得分，若组合得分超过预设阈值，则具有不良预后的风险。

3.根据权利要求2所述的应用，其特征在于，所述检测试剂为RNA测序试剂，所述预设阈值为2.02~2.24。

4.根据权利要求2所述的应用，其特征在于，所述检测试剂为芯片测序试剂，所述预设阈值为0.75~1.59。

5.一种预测胃癌不良预后的系统，其特征在于，

包括：

数据输入模块，用于获得权利要求1所述基因标志物组合中各基因的表达水平；

预测模块，与所述数据输入模块连接，用于根据所述各基因的表达水平，利用单样本基因集富集分析方法预测胃癌不良预后，

所述预测模块中，利用单样本基因集富集分析方法基于所述基因标志物组合的表达水平获得组合得分，若组合得分超过预设阈值，则具有不良预后的风险，当所述各基因的表达水平利用RNA测序试剂得到，所述预设阈值为2.02~2.24；当所述各基因的表达水平利用芯片测序试剂得到，所述预设阈值为0.75~1.59。