CN113234829A

CN113234829A - 结肠癌预后评估基因集及其构建方法

Info

Publication number: CN113234829A
Application number: CN202110699308.XA
Authority: CN
Inventors: 王凯; 车月; 王丛茂
Original assignee: Shanghai Zhiben Medical Laboratory Co ltd; Origimed Technology Shanghai Co ltd
Current assignee: Origimed Technology Shanghai Co ltd; Shanghai Zhiben Medical Laboratory Co ltd; Zhiben Medical Technology Chongqing Co ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-08-10
Anticipated expiration: 2041-06-23
Also published as: CN113234829B

Abstract

本发明涉及一种结肠癌预后评估基因集及其构建方法。具体地，本发明使用9个免疫相关基因组成的基因集来评估结肠癌患者预后生存的情况，为医疗决策提供科学依据。本发明还涉及了结肠癌预后的试剂盒、计算设备、存储介质，以及该评估基因集的构建方法。

Description

结肠癌预后评估基因集及其构建方法

技术领域

本发明涉及一种使用免疫相关基因集来评估结肠癌患者预后生存的方法，可用于作为临床试验入组的参考条件之一，为医疗决策提供科学依据。

背景技术

肿瘤作为不可治愈的疾病，治疗目标非常明确，自肿瘤被诊断之后，通过治疗让患者活得更久。结肠癌是发生于结肠部位的常见的消化道恶性肿瘤，占胃肠道肿瘤的第3位，中国人群的发病率低于西方国家，但各地资料显示，随着人民饮食结构的改变，其发病率呈逐年上各趋势。国际肿瘤研究机构发布了有关全球癌症状况的研究数据中，结肠癌发病率和死亡率均比较高，部分结肠癌患者不良结局的风险很高，3生存率较低和复发率很高。因此，迫切需要可靠的预后指标来建立可靠的预后模型，对于改善患者术后生存、治疗后检测具有指导作用，有助于制定个体化的治疗方案。

肿瘤细胞活性和肿瘤微环境中的免疫细胞都参与了肿瘤的发生和发展，因此，肿瘤免疫学应引起重视。肿瘤浸润免疫细胞是宿主免疫应答的关键细胞成分，是肿瘤微环境的重要成员。许多研究证实，肿瘤浸润免疫细胞与多种癌症的治疗反应和预后有关。

用特征基因集表达值评价患者预后的优势在于客观，不存在研究者的主观偏倚，通过客观的RNA测序获得的表达值来评估患者预后生存情况。不足之处在于观测时间较长，需要记录所有事件的发生，即所有患者的死亡。目前已发表的免疫相关基因的标志物，多数涉及单个免疫基因或少数免疫细胞的表达或者DNA突变。但机体内免疫反应起作用是通过蛋白或者RNA作用，DNA层面的突变不一定会影响表达，从而影响蛋白的含量和RNA表达，并且机体的免疫反应的发生涉及到多种免疫细胞和免疫物质的参与，单个免疫相关基因或少数免疫细胞对于预后的评估并不完整。

因此，仍需要更准确、更高效的，能够预测癌症患者预后情况的模型。

发明内容

本发明基于TCGA结肠癌样本，样本进行无生存数据和生存时间小于30天的患者进行剔除，样本随机分为训练集和验证集；选取已发表的文献中进行免疫浸润预测的软件CIBERSORT中包含的547个免疫相关的基因。Lasso回归建立cox模型进行筛选，挑选出能根据基因表达值，预测结肠癌预后的评估基因群。本发明涉及的特征基因群包含了9个免疫相关基因，涉及15种免疫细胞，可以更加准确地预测病人预后。

首先，在本发明的第一方面，本发明涉及一种用于预测结肠癌患者预后的评估基因集，所述评估基因集包括9个基因，所述基因如下所示：ATHL1、CD1A、CD1B、FES、LIME1、PLCH2、PMCH、S1PR5和SIK1。

在另一方面，本发明还涉及一种用于预测结肠癌预后的试剂盒，其包括检测上述评估基因集中9个基因的表达水平的试剂。

在一些实施方案中，所述试剂盒包括核酸提取试剂、PCR试剂、基因组/转录组测序试剂、基因特异性引物或探针、基因表达产物的特异性抗体中的一种或多种。

如本文所用，术语“表达水平”和“表达值”可以互换使用，是指度量给定基因表达程度的参数的值。所述表达值可以通过检测目标基因编码的mRNA水平或通过检测所述基因编码的蛋白质的含量来确定。

在一些实施方案中，所述检测评估基因集中基因表达水平的试剂是本领域已知的任何可用于检测基因表达水平的试剂在具体的实施方案中，所述试剂是用于执行以下一种或多种方法的试剂：实时荧光定量PCR、northern blotting、western blotting、基因组测序法、转录组测序法、生物质谱法或特异性抗体检测等。

在一些实施方案中，所述试剂盒还包括样品处理剂、如样品裂解试剂、样品纯化试剂及核酸提取试剂等。

转录组测序可通过二代测序平台快速全面地获得某一物种特定细胞或组织在某一状态下的几乎所有的转录本及基因序列，可以用于研究基因表达量、基因功能、结构、可变剪接和新转录本预测等。此外，通过设计合适的引物，可以通过PCR如逆转录PCR测定基因的转录表达水平。还可以使用基因蛋白特异性抗体，通过免疫测定例如免疫组化、ELISA等方法测定各基因的蛋白表达水平。

优选地，所述基因表达值为转录组测序数据经注释处理后得到的数值。

在另一方面，本发明还涉及一种用于预测结肠癌患者预后的方法，其包括以下的步骤：

a)样本收集与数据检测：收集所述患者的样本，测定其在所述评估基因集中的9个基因(即ATHL1、CD1A、CD1B、FES、LIME1、PLCH2、PMCH、S1PR5和SIK1基因)的表达值。

b)风险评分计算：计算结肠癌患者在评估基因集的9基因的总表达值，即风险评分(Risk Score)；所述风险评分计算公式下：

其中x_i为各基因表达值，Coef_i为各基因的权重系数，n为特征基因集中基因个数；具体地，在本文中，n＝9；

c)预测结果：根据计算得到的结肠癌患者的风险评分来预测患者的预后情况：患者的风险评分越低，则预后越好；将风险评分与界定值比较，若高于界定值，则预测其预后不佳，若低于界定值，则预测其预后较好。

在一些实施方案中，所述界定值为约0.85。

在一些实施方案中，所述患者样本来自所述患者的组织，包括肿瘤组织或非肿瘤组织，所述肿瘤组织为原发灶或转移灶，所述非肿瘤组织为癌旁组织或血液、体液等。

在本文中，“约”在用于修饰数值时表示计算或测量值允许该数值包含准确数值的一些近似值，或合理接近的数值；本文中“约”至少表示由测量或使用此类参数的常用方法可产生的变异数值；应当理解“约”的存在或不存在不影响其数值的解释；优选地，表示其后的数值加或减10％范围内的所有数值。

本领域技术人员可以理解，上述方法步骤的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。

当上述方法步骤中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

在另一方面，本发明还涉及一种用于预测结肠癌患者预后的系统，其包括以下模块：

a)数据收集模块：收集所述患者的样本，测定其在本发明的评估基因集中的9个基因(即ATHL1、CD1A、CD1B、FES、LIME1、PLCH2、PMCH、S1PR5和SIK1基因)表达值，并将各基因的表达值数据输出至模型计算模块。

b)模型计算模块：计算结肠癌患者在评估基因集的9个基因的风险评分(RiskScore)；所述风险评分计算公式下：

其中x_i为各基因表达值，Coef_i为各基因的权重系数，n为特征基因集中基因个数；在本文中，n为9。

c)输出预测模块，根据结肠癌患者的Risk Score值来预测患者的预后情况，患者的风险评分越低，则预后越好；将风险评分与界定值比较，若高于界定值，则输出为预测预后不好，若低于界定值则输出为预后较好。

在一些实施方案中，所述界定值为约0.85。

在另一方面，本发明还涉及本发明所述评估基因集中9基因表达水平的试剂在制备用于预测结肠癌预后的试剂盒或系统中的用途。

在一些实施方案中，其中所述试剂盒或系统为本发明上文所述的试剂盒或系统。

在一些实施方案中，所述试剂选自核酸提取试剂、PCR试剂、基因组/转录组测序试剂、基因特异性引物或探针、基因表达产物的特异性抗体中的一种或多种。

在一些的实施方案中，所述试剂是用于执行以下一种或多种方法的试剂：实时荧光定量PCR、northern blotting、western blotting、基因组测序法、转录组测序法、生物质谱法或特异性抗体检测等。

在另一方面，本发明还涉及一种计算设备，其包含：

至少一个处理单元；和

至少一个存储器，所述存储器与耦合至所述处理单元，并存储用于由所述处理单元执行的指令，所述指令当被执行时，所述设备能够实现预测结肠癌患者预后情况，所述预测包括如下步骤：

a)根据收集和测定的所述患者样本在表1所述评估基因集中9个基因表达值，计算患者的风险评分；所述风险评分计算公式如上文所述。

b)根据结肠癌患者的风险评分预测患者的预后情况，患者的Risk Score越低，则预后越好；将Risk Score值与界定值比较，若高于界定值，则预测其预后不好，若低于界定值，则预测其预后较好。

优选地，其中所述界定值为约0.85。

在另一方面，本发明还涉及一种计算机可读存储介质，其存储有计算机程序，该程序能够被机器执行，以实现预测结肠癌患者预后情况的步骤，所述步骤包括如：

a)根据收集和测定的所述患者样本在表1所述评估基因集中9个基因表达值，计算患者的Risk Score；所述Risk Score计算公式如上文所述。

b)根据结肠癌患者的风险评分预测患者的预后情况，患者的Risk Score越低，则预后越好；将Risk Score数据与界定值比较，若高于界定值，则预测其预后不好，若低于界定值，则预测其预后较好。

优选地，其中所述界定值为约0.85。

在另一方面，本发明还涉及一种结肠癌患者预后预测模型的构建方法，包括如下步骤：

a)从癌症基因组图谱(TCGA)中下载结肠癌的基因表达数据、患者总生存时间及生存终点的临床数据；从基因表达数据中挑选与免疫相关的基因用于后续预测患者预后基因集的筛选；

b)将TCGA数据集中的结肠癌患者随机分配为训练集和验证集，用训练集样本和步骤a)获得的免疫相关基因，在训练集中进行LASSO回归分析，建立COX模型，获得最优的Lasso回归模型以及各基因的权重系数；

任选地，还包括步骤：

c)计算训练集患者各自的风险评分，并以训练集的评分中位值将训练集患者分别分为高风险组和低风险组，通过C-index、AUC值、生存曲线和/或log-rank t test检验，验证该基因集预测模型的准确性；所述风险评分(Risk Score)的计算方法为：

其中x_i为各基因表达值，Coef_i为各基因的权重系数，n为特征基因集中基因个数；

任选地，还包括步骤：

d)参照步骤c)中方法，计算验证集中患者的风险评分，并以步骤c)中确定的中位值将验证集分为高风险组和低风险组，通过C-index、AUC值、生存曲线和/或log-rank ttest检验，验证构建的结肠癌预后预测模型的有效性。

在一些实施方案中，将数据集中患者按照5:5、6:4、7:3或8:2的比例随机分配训练集和验证集；优选地，按照8:2比例随机分配。

本发明的有益效果：

本发明提供了用于结肠癌预后预测的评估基因集以及相应的试剂盒，能更可靠地应用到临床实践中。本发明涉及的特征基因集包含9个免疫相关基因，覆盖15种免疫细胞，预测有效性在验证集中可得到证实；且与单个基因预测以及随机基因集预测比较，同样可以验证本发明预测模型的有效性。本发明方法能准确地预测结肠癌患者预后；且可以应用于临床试验，为医疗决策提供科学依据。

附图说明

图1：筛选特征基因集流程图。

图2：10-fold交叉验证选取的最优LASSO模型。

图3：特征基因集预测生存模型，在训练集预测生存结果。训练集样本的ROC曲线和AUC值：图3中ROC曲线为Time ROC，为该特征基因集预测生存模型预测结肠癌患者1年生存时间，3年生存时间的生存风险的能力。

图4：训练集样本的生存曲线。特征基因集预测生存模型，预测训练集每位结肠癌患者的Risk Score值，Risk Score值大于训练集群体Risk Score中位值的患者为High组，否者为Low组，通过log-rank t test检验，两组样本生存在统计学上存在明显差异(P<0.05)，生存HR值为0.3，表明Low组患者死亡风险率低于High组。

图5：特征基因集预测生存模型：在验证集验证生存结果。

验证集样本的ROC曲线和AUC值。图5中ROC曲线为Time ROC，为该特征基因集预测生存模型在验证集预测结肠癌患者1年生存时间，3年生存时间的生存风险的能力。

图6：验证集样本的生存曲线。验证集样本用以验证该特征基因集预测生存模型的有效性，预测验证集每位结肠癌患者的Risk Score值，Risk Score值大于验证集群体RiskScore中位值的患者为High组，否者为Low组，通过log-rank t test检验，两组样本生存在统计学上存在明显差异(P<0.05)，生存HR值为0.27，表明Low组患者死亡风险率低于High组。

图7A：基因ATHL1单独预测生存结果。基因ATHL1预测生存的ROC曲线和AUC值。7A中ROC曲线为Time ROC，为基因ATHL1预测全部结肠癌患者1年生存时间，3年生存时间的生存风险的能力。

图7B：基因ATHL1单独预测生存的生存曲线。基因ATHL1表达值预测全部结肠癌患者的生存，样本表达值高于整体样本该基因中位表达值为High组，否则为Low组。

图8A：基因CD1A单独预测生存结果。基因CD1A预测生存的ROC曲线和AUC值。8A中ROC曲线为Time ROC，为基因CD1A预测全部结肠癌患者1年生存时间，3年生存时间的生存风险的能力。

图8B：基因CD1A单独预测生存的生存曲线。基因CD1A表达值预测全部结肠癌患者的生存，样本表达值高于整体样本该基因中位表达值为High组，否则为Low组。

图9A：基因CD1B单独预测生存结果。基因CD1B预测生存的ROC曲线和AUC值。9A中ROC曲线为Time ROC，为基因CD1B预测全部结肠癌患者1年生存时间，3年生存时间的生存风险的能力。

图9B：基因CD1B单独预测生存的生存曲线。基因CD1B表达值预测全部结肠癌患者的生存，样本表达值高于整体样本该基因中位表达值为High组，否则为Low组。

图10A：基因FES单独预测生存结果。基因FES预测生存的ROC曲线和AUC值。10A中ROC曲线为Time ROC，为基因FES预测全部结肠癌患者1年生存时间，3年生存时间的生存风险的能力。

图10B：基因FES单独预测生存的生存曲线。基因FES表达值预测全部结肠癌患者的生存，样本表达值高于整体样本该基因中位表达值为High组，否则为Low组。

图11A：基因LIME1单独预测生存结果。基因LIME1预测生存的ROC曲线和AUC值。11A中ROC曲线为Time ROC，为基因LIME1预测全部结肠癌患者1年生存时间，3年生存时间的生存风险的能力。

图11B：基因LIME1单独预测生存的生存曲线。基因LIME1表达值预测全部结肠癌患者的生存，样本表达值高于整体样本该基因中位表达值为High组，否则为Low组。

图12A：基因PLCH2单独预测生存结果。基因PLCH2预测生存的ROC曲线和AUC值。12A中ROC曲线为Time ROC，为基因PLCH2预测全部结肠癌患者1年生存时间，3年生存时间的生存风险的能力。

图12B：基因PLCH2单独预测生存的生存曲线。基因PLCH2表达值预测全部结肠癌患者的生存，样本表达值高于整体样本该基因中位表达值为High组，否则为Low组。

图13A：基因PMCH单独预测生存结果。基因PMCH预测生存的ROC曲线和AUC值。13A中ROC曲线为Time ROC，为基因PMCH预测全部结肠癌患者1年生存时间，3年生存时间的生存风险的能力。

图13B：基因PMCH单独预测生存的生存曲线。基因PMCH表达值预测全部结肠癌患者的生存，样本表达值高于整体样本该基因中位表达值为High组，否则为Low组。

图14A：基因S1PR5单独预测生存结果。基因S1PR5预测生存的ROC曲线和AUC值。14A中ROC曲线为Time ROC，为基因S1PR5预测全部结肠癌患者1年生存时间，3年生存时间的生存风险的能力。

图14B：基因S1PR5单独预测生存的生存曲线。基因S1PR5表达值预测全部结肠癌患者的生存，样本表达值高于整体样本该基因中位表达值为High组，否则为Low组。

图15A：基因SIK1单独预测生存结果。基因SIK1预测生存的ROC曲线和AUC值。15A中ROC曲线为Time ROC，为基因SIK1预测全部结肠癌患者1年生存时间，3年生存时间的生存风险的能力。

图15B：基因SIK1单独预测生存的生存曲线。基因SIK1表达值预测全部结肠癌患者的生存，样本表达值高于整体样本该基因中位表达值为High组，否则为Low组。

图16：随机选取9个基因预测生存的验证集结果：随机选取9基因预测生存的ROC曲线和AUC值。图中ROC曲线为Time ROC，为随机选取9基因预测验证集结肠癌患者1年生存时间，3年生存时间的生存风险的能力，AUC值均没有超过0.7，能力均不好。

图17：随机选取9基因预测生存的生存曲线。随机选取9基因表达值预测验证集结肠癌患者的生存，样本计算获得的Risk Score值高于整体样本Risk Score中位值为High组，否则为Low组。生存无显著差异。

具体实施方式

下面结合附图来说明本发明的具体实施方式。对于实施例中所用到的具体方法或材料，本领域技术人员可以在本发明技术思路的基础上，根据已有的技术进行常规的替换选择，而不仅限于本发明的具体实施例。

实施例1：Lasso回归方法建立模型，获得选定的特征基因集

数据处理

癌症基因组图谱计划TCGA中获得结肠癌的基因表达数据和临床总生存时间数据。包含471个TCGA的结肠癌样本的RNA-seq数据和454个TCGA的结肠癌样本的生存数据。首先样本清洗，选择同时具有表达数据和生存数据的，且生存时间大于30天的样本，获得435个结肠癌样本，每个样本有60488个基因的表达数据。

初步筛选相关的免疫基因

从60488个基因中选出和CIBERSORT中547免疫相关基因的交集基因，并且进行基因筛选。

在经过样本筛选后的全部结肠癌样本数据中，去除平均表达值<1的基因，去除基因表达值为0的样本占比>90％的基因，筛选出516个免疫相关的基因，这516个与免疫相关的基因用于后续预测病人预后基因集的筛选。

结肠癌预后模型的构建

使用435例结肠癌患者的516个基因的表达数据和生存数据，寻找免疫相关基因集预测生存的模型。

将435个结肠癌样本，随机分成80％训练集(348个样本)和20％验证集(87个样本)。利用训练集样本和516个免疫相关基因，在训练集中进行最小绝对收缩和选择算子(the least absolute shrinkage and selection operator,LASSO)回归分析。本次分析通过R包glmnet完成LASSO回归分析及多风险预测模型的建立。在训练集中使用cv.glmnet函数，选择lasso回归，cox模型，并以C-index作为模型的评判指标，进行10-fold的交叉验证，调试参数获得最优的Lasso回归模型，如图2，并获得最优的惩罚系数，本次分析中最优的惩罚系数为0.04789，建立cox模型，预测病人的预后，并得到最优的特征基因集，以及特征基因集中每个基因对生存影响的权重系数，最终获得9个特征基因集，特征基因和其对应的影响生存的权重系数见表1。

表1：选定的特征基因集中9基因及其权重系数*

序号	基因(gene)	权重系数(Coef)
			1	ATHL1	0.00299928078073065
2	CD1A	-0.0675668570096431
			3	CD1B	-0.0767907356411729
4	FES	0.0650428881841856
			5	LIME1	0.00388060784892142
6	PLCH2	0.0412107339334434
			7	PMCH	-0.000413073039870432
8	S1PR5	0.120069883088406
			9	SIK1	-0.00516071895200815

*9个基因的特征基因集，权重系数为每个基因对生存影响的权重值

以特征基因集各基因表达值与各基因对生存影响的权重系数乘积的加和为每个样本生存Risk Score，即每个样本的风险评分，所述计算公式如下式。其中n为特征基因集的基因个数，本文中n为9。x_i为第i个基因的表达值，Coef_i为第i个基因的权重系数。

按照模型计算的每个样本的生存Risk Score值。

验证模型准确性

按照上述公式计算方法，计算训练集中患者各自的Risk Score，并按Risk Score大小排序，并以中位值(medium)对训练集患者进行分组，分析两组的生存差异性。RiskScore>median(Risk Score)的为高风险组(high)组，否则为低风险(Low)组；其中median(Risk Score)即中位值为0.85。并通过C-index，AUC值，生存曲线和log-rank t test检验评判该基因集预测生存的模型的准确性，结果如图3和图4。

C-index，C指数即一致性指数(concordance index)，用来评价模型的预测能力。C指数是指所有病人对子中预测结果与实际结果一致的对子所占的比例。计算训练集的C-index：训练集C-index为0.76。

Sensitivity，也称为真正确率(True positive rate,TPR)，即真阳性率：在所有实际为阳性的样本中，被正确地判断为阳性之比率，公式为TPR＝TP/TP+FN；1-Specificity，也称为伪正确率(False positive rate,FPR)，即假阳性率：在所有实际为阴性的样本中，被错误地判断为阳性之比率，公式为FPR＝FP/FP+TN；

AUC(Area Under roc Curve)被定义为ROC曲线下与坐标轴围成的面积，是ROC用来评价模型好坏的重要参数。AUC的值介于0.5～1.0之间，AUC越接近1.0，检测方法真实性越高，预判性能越好。可以看出，训练集中，1年生存预测AUC为0.78，3年生存预测AUC为0.778，均>0.7。测试集的生存概率图4可见，低风险组的生存概率显著高于高风险组，其中HR＝0.3，p<0.001。

验证集数据验证结肠癌预后模型

为验证构建的结肠癌预后模型，通过验证集的87个样本对选定的9个特征基因集建立的预测模型进行准确性验证。类似地，在验证集中使用相同的Risk Score公式和权重系数计算该集合中每个患者的Risk Score值。并以训练集获得的median(Risk Score)＝0.85，将验证集患者同样地分为高风险(High)组和低风险(Low)组，并通过C-index，AUC值，生存曲线和log-rank t test检验进行评判，判定该9个特征基因集建立的预测模型在验证集中预测生存模型是否获准确和稳定。

结果如图5和图6。验证集C-index为0.77。图5显示，验证集中，1年生存预测AUC为0.817，3年生存预测AUC为0.806，均>0.8。而验证集生存概率结果(图6)则显示，低风险(Low)组的生存概率(Probability of survival)显著高于高风险(High)组，其中HR＝0.32，p＝0.035<0.05。

由训练集和验证集的多种验证方式可知，本发明构建的9基因的评估基因集能够有效预测结肠癌患者预后。

分别使用9基因单独预测生存结果的比较

分别对特征基因集中9个基因进行分析，查看各个基因单独预测结肠癌患者的能力。同样地，通过C-index，AUC值，生存曲线和log-rank t test检验对9基因分别进行评判。结果显示，9个基因中的每个基因均无法达到C-index>0.7，AUC>0.7，HR<0.5，和/或无法达到高风险和低风险组的生存概率差异显著(即p<0.05)，不能准确预测患者的生存，达不到9基因特征基因集的预测生存的效果，结果见图7A、图7B～图15A、图15B。9基因单独预测模型的C-index、AUC、HR以及p值见下表2。

表2：选定评估基因集、9基因分别单独预测、随机基因集模型的参数表

实施例2：选定特征基因集与随机基因集的预测能力比较

为进一步验证选定的9个基因的评估基因集的有效性，从516个基因(除上述9个基因外)中随机挑选了9个基因，构成了新的“随机基因集”，并与选定的“评估基因集”进行对比。

参照实施例1中描述的过程，同样将患者随机分为训练集(80％)和验证集(20％)，用随机9个基因的表达值与各基因对生存影响的权重系数的乘积加和作为每个样本的生存风险评分Risk Score，Risk Score计算公式同实施例1。

同样以该训练集计算的风险评分中位值为界，将训练集和验证集患者分别分为High组和Low组；通过C-index，AUC值，生存曲线和log-rank t test检验进行评判随机选取的9基因预测生存能力。对于随机的9个基因的测试，其验证集C-index值为0.59，1年和3年生存预测的AUC分别为0.631和0.643，两者均小于0.7；生存曲线和log-rank t test检验均显示高风险和低风险组的生存概率无差异显著(p＝0.252>0.05)，无法正确预测生存，结果见上表2，以及图16和图17。

由上述对“选定基因集”的验证，以及和“随机基因集”模型、单基因预测模型的比较，可以看出，本发明构建的9个基因的评估基因集能够有效地预测结肠癌患者的预后情况，而单独使用9基因中任何一个，或随机选择任意9个基因的随机基因集均无法实现。

本发明得到了能够开发为潜在的体外诊断产品的“特征基因集”，以对结肠癌患者预后情况进行检测，从而进行预防性用药或治疗，为结肠癌患者预后的进一步辅助治疗提供了精准的判断依据。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.用于预测结肠癌患者预后的评估基因集，其特征在于，所述评估基因集包括9个基因，所述基因包括：ATHL1、CD1A、CD1B、FES、LIME1、PLCH2、PMCH、S1PR5和SIK1。

2.用于预测结肠癌预后的试剂盒，其特征在于，其包括检测权利要求1所述评估基因集中9个基因表达水平的试剂。

3.根据权利要求2所述的试剂盒，其特征在于，所述试剂盒包括核酸提取试剂、PCR试剂、基因组/转录组测序试剂、基因特异性引物或探针、基因表达产物的特异性抗体中的一种或多种。

4.用于预测结肠癌患者预后的系统，其特征在于，包括以下模块：

a)数据收集模块：收集所述患者的样本，测定其在权利要求1所述的评估基因集中的9个基因表达值，并将各基因的表达值数据输出至模型计算模块；

b)模型计算模块：计算结肠癌患者在评估基因集的9个基因的总表达值，即风险评分(Risk Score)；所述风险评分计算公式如下：

其中；x_i为各基因的表达值，Coef_i为各基因对应的权重系数，n为基因总个数，即9；

其中，各基因及其对应的权重系数如表1所示；

c)输出预测模块，根据结肠癌患者的风险评分来预测患者的预后情况，患者的风险评分越低，则预后越好；将风险评分与界定值比较，若高于界定值，则输出为预测预后不好，若低于界定值则输出为预后较好。

5.根据权利要求4所述的系统，所述界定值为约0.85。

6.计算设备，其特征在于，其包含：

至少一个处理单元；和

至少一个存储器，所述存储器与耦合至所述处理单元，并存储用于由所述处理单元执行的指令，所述指令当被执行时，所述设备能够实现预测结肠癌患者预后的情况，所述预测包括如下步骤：

a)根据收集和测定的所述患者样本在权利要求1所述评估基因集中9个基因表达值，计算患者的风险评分；

所述风险评分计算公式如下：

其中，各基因及其对应的权重系数如表1所示；

b)根据结肠癌患者的风险评分预测患者的预后情况，患者的风险评分越低，则预后越好；将风险评分与界定值比较，若高于界定值，则预测其预后不好，若低于界定值，则预测其预后较好。

7.根据权利要求6所述的计算设备，其中所述界定值为约0.85。

8.计算机可读存储介质，其特征在于，其存储有计算机程序，该程序能够被机器执行，以实现预测结肠癌患者预后的步骤，所述步骤包括：

所述风险评分计算公式如下：

其中，各基因及其对应的权重系数如表1所示；

9.根据权利要求8所述的计算机可读存储介质，其中所述界定值为约0.85。

10.检测权利要求1所述基因集中基因表达水平的试剂在用于预测结肠癌预后的试剂盒或系统中的用途。

11.根据权利要求10所述的用途，其中所述试剂盒为权利要求2或3所述的试剂盒；所述系统为权利要求4或5所述的系统。

12.结肠癌患者预后预测模型的构建方法，其特征在于，包括如下步骤：

a)从癌症基因组图谱计划TCGA中下载结肠癌患者的基因表达数据、患者总生存时间的临床数据；从基因表达数据中挑选与免疫相关的基因用于后续预测患者预后基因集的筛选；

任选地，还包括步骤：

任选地，还包括步骤：

d)参照步骤c)中方法，计算验证集中患者的风险评分，并以步骤c)中确定的中位值将验证集分为高风险组和低风险组，通过C-index、AUC值、生存曲线和/或log-rank t test检验，验证构建的结肠癌预后预测模型的有效性。