CN115527681A

CN115527681A - 一种结直肠癌预后预测模型构建方法及装置

Info

Publication number: CN115527681A
Application number: CN202211412149.1A
Authority: CN
Inventors: 艾冬梅; 王明媚; 王艺舒; 李晔
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2022-12-27

Abstract

本发明公开了一种结直肠癌预后预测模型构建方法及装置，涉及生物医学技术领域。包括：通过最小绝对值收敛和选择算子算法LASSO回归，对差异表达的免疫相关基因进行筛选；根据筛选后的免疫相关基因以及比例风险Cox回归模型，得到多个预后相关的免疫基因；计算出每个肿瘤组织样本的Risk score值，计算多个肿瘤组织样本的中位值，将每个肿瘤组织样本划分为高风险组和低风险组。本发明筛选出结直肠正常组织和肿瘤组织之间的差异表达基因，并通过LASSO回归和多因素Cox分析确定了一种与免疫基因相关的预后特征，此特征可以对结肠腺癌患者的预后进行预测，是一种独立预后因素。找到的免疫基因是结直肠癌潜在的预后生物标记物和治疗的靶点，给临床应用提供一个新的思路。

Description

一种结直肠癌预后预测模型构建方法及装置

技术领域

本发明涉及生物医学技术领域，特别是指一种结直肠癌预后预测模型构建方法及装置。

背景技术

根据2020年发布的全球的癌症统计数据，结直肠癌在癌症发病率中排在第三位，在癌症死亡率中排在第二位。从性别上看，结直肠癌是男性和女性癌症死亡的第二大常见原因。根据预测，到2030年，结直肠癌的新增病例将达到220多万，死亡病例将达到110万。结直肠癌通常发生在结肠或直肠的内壁。根据组织学分类，结肠腺癌是结直肠癌的主要类型，正常结肠上皮转变为结肠腺癌的原因主要是由于遗传和表观遗传改变。目前，对结肠腺癌采取的治疗方法主要是手术结合术后化疗，即使接受了标准治疗，晚期结肠癌患者的预后仍然很差。因此，使用简单的常规因素（如临床病理分期）不足以准确预测结肠腺癌患者的预后，迫切需要寻找新的生物标记物来预测患者的预后和改善治疗结果，这具有非常重要的现实意义。

近年来，生物信息学的快速发展使得研究人员可以快速识别癌症相关的生物标记物。例如，Dalerba等人发现CDX2（caudaltype homeobox transcription factor 2）可以作为结直肠癌的预后生物标记物，CDX2的表达缺失与Ⅱ期或Ⅲ期的结直肠癌患者的不良预后相关。Li等人认为免疫基因ULBP2（UL16-binding protein 2）是结肠癌潜在的预后生物标记物，TMEM37（Transmembrane Protein 37）和免疫基因GRP（Gastrin Releasing Peptide）可能是结肠癌的独立预后基因。Wang等人发现MXRA5在结直肠癌组织中异常表达，是结直肠癌早期检测的潜在生物标记物。Den Uil等人发现KCNQ1是预测Ⅱ期和Ⅲ期结肠癌患者疾病复发的预后生物标记物。Woischke等人发现CYB5R1与结直肠癌的预后不良密切相关。Kandimalla等人发现AXIN2和DKK1的甲基化是II期结肠癌患者复发的有力标记物。

与单个生物标记物相比，将多个生物标记物整合到模型中，将更加准确地预测患者的预后。目前免疫相关疗法在改善肿瘤预后方面显示出巨大潜力，且越来越多的研究表明免疫相关基因的表达可能与癌症患者的预后相关。例如Lin等人基于与结肠癌预后相关的9个lncRNA，包括AC008760.1、AC083809.1、AL445645.1、AC009237.14、AL391422.4、LINC01234、LINC02381、LINC01063和AC016027.1，提出了一种新的预后风险评分特征，这一特征对于改善结肠癌患者的预测结果具有重要的临床意义，这些lncRNA可能是影响预后的生物标记物。Zuo等人通过单因素和多因素的Cox分析，找到与结直肠癌患者预后相关的6种基因，分别是EPHA6、TIMPI、IRX6、ART5、HIST3H2BB和FOXD1，基于这些基因构建的预后特征可以作为预测结直肠癌患者生存率的独立生物标记物。根据Miao等人的研究，找到了与结肠腺癌患者预后相关的12个免疫基因（SLC10A2、CXCL3、NOX4、FABP4、ADIPOQ、IGKV1-33、IGLV6-57、INHBA、UCN、VIP、NGFR和TRDC），通过单因素和多因素Cox分析建立预后模型，计算出的风险评分是独立预后因素，证实这些基因可能是结肠腺癌诊断和治疗的潜在生物标记物。因此识别与结肠腺癌相关的免疫基因，可以促进结肠腺癌免疫治疗的发展。

上述方法在寻找正常样本和肿瘤样本之间的差异表达基因时，使用的是TCGA数据库中的正常样本和肿瘤样本。但TCGA数据库中这两种样本的数量往往差别很大，比如肿瘤样本有几百个，但正常样本只有几十个，这样会导致找到的差异基因可能不太准确。同时，如何确定与结直肠癌患者预后相关的免疫基因特征，以提高患者的预后风险评分准确性，是现有技术亟需解决的问题。

发明内容

本发明针对如何确定与结直肠癌患者预后相关的免疫基因特征，以提高患者的预后风险评分准确性的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案：

一方面，本发明提供了一种结直肠癌预后预测模型构建方法，该方法由电子设备实现，该方法包括：

S1、获取差异表达的免疫相关基因。

S2、通过最小绝对值收敛和选择算子算法LASSO回归，对差异表达的免疫相关基因进行筛选，得到筛选后的免疫相关基因。

S3、根据筛选后的免疫相关基因以及比例风险Cox回归模型，得到多个预后相关的免疫基因。

S4、根据多个预后相关的免疫基因的表达量和多个预后相关的免疫基因对应的回归系数，计算出每个肿瘤组织样本的Risk score值。

S5、基于每个肿瘤组织样本的Risk score值，计算多个肿瘤组织样本的中位值，根据中位值将每个肿瘤组织样本划分为高风险组和低风险组。

可选地，S3中的多个预后相关的免疫基因包括： CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6。

可选地，S1中的获取差异表达的免疫相关基因包括：

S11、从GTEx数据库获取正常组织样本，从TCGA数据库获取肿瘤组织样本，从IMMPORT数据库获取免疫相关基因的列表。

S12、筛选出正常组织样本和肿瘤组织样本之间的差异表达基因，得到差异表达基因的列表。

S13、将差异表达基因的列表与免疫相关基因的列表取交集，得到差异表达的免疫相关基因。

可选地，S12中的筛选出正常组织样本和肿瘤组织样本之间的差异表达基因，得到差异表达基因的列表包括：

将正常组织样本与肿瘤组织样本合并，使用wilcoxon检验筛选正常样本和肿瘤样本之间的差异表达基因，得到差异表达基因的列表。

可选地，S4中的每个肿瘤组织样本的Risk score值的计算方法，如下式（1）所示：

其中，

是多个预后相关的免疫基因的数量；

是预后相关的免疫基因

的表达量；

是预后相关的免疫基因

的回归系数。

可选地，方法还包括：

绘制受试者工作特征ROC曲线，对风险预测模型的准确性进行评估。

另一方面，本发明提供了一种结直肠癌预后预测模型构建装置，该装置应用于实现结直肠癌预后预测方法，该装置包括：

获取模块，用于获取差异表达的免疫相关基因；

筛选模块，用于通过最小绝对值收敛和选择算子算法LASSO回归，对差异表达的免疫相关基因进行筛选，得到筛选后的免疫相关基因；

免疫基因获取模块，用于根据筛选后的免疫相关基因以及比例风险Cox回归模型，得到多个预后相关的免疫基因；

计算模块，用于根据多个预后相关的免疫基因的表达量和多个预后相关的免疫基因对应的回归系数，计算出每个肿瘤组织样本的Risk score值；

输出模块，用于基于每个肿瘤组织样本的Risk score值，计算多个肿瘤组织样本的中位值，根据中位值将每个肿瘤组织样本划分为高风险组和低风险组。

可选地，多个预后相关的免疫基因包括： CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6。

可选地，获取模块，进一步用于：

可选地，每个肿瘤组织样本的Risk score值的计算方法，如下式（1）所示：

其中，

是多个预后相关的免疫基因的数量；

是预后相关的免疫基因

的表达量；

是预后相关的免疫基因

的回归系数。

可选地，还包括：

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述结直肠癌预后预测模型构建方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述结直肠癌预后预测模型构建方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

上述方案中，在寻找差异基因时，使用的是GTEx数据库中的正常组织样本和TCGA数据库中的肿瘤组织样本，二者的样本量分别为308和473，加大正常组织的样本量后找到的差异基因更加准确。接下来本申请通过LASSO回归和多因素Cox分析，基于多个免疫相关基因构建风险模型，该模型能够准确预测患者预后，这将具有重要的临床意义，并且模型中的免疫相关基因可以作为潜在的生物标记物。

本申请从GTEx下载了结直肠正常组织中的转录组数据，从TCGA下载了结肠腺癌患者的转录组数据和临床数据。根据正常样本和肿瘤样本之间的差异表达基因，找到了与预后相关的免疫基因。根据预后相关免疫基因（CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6）建立了结肠腺癌患者的免疫相关预后评分，该评分将结肠腺癌患者分为高风险组和低风险组。通过验证数据集进一步证明该评分的准确性，对预测结肠腺癌患者的预后具有重要意义。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的结直肠癌预后预测模型构建方法流程示意图；

图2是本发明实施例提供的结直肠癌预后预测模型构建方法流程示意图；

图3是本发明实施例提供的正常组织和肿瘤组织的528个差异表达免疫基因的热图；

图4是本发明实施例提供的正常组织和肿瘤组织的基因表达的火山图；

图5是本发明实施例提供的LASSO回归结果示意图（一）；

图6是本发明实施例提供的LASSO回归结果示意图（二）；

图7是本发明实施例提供的TCGA训练集高风险组和低风险组之间的生存分析结果图；

图8是本发明实施例提供的TCGA测试集高风险组和低风险组之间的生存分析结果图；

图9是本发明实施例提供的TCGA整个数据集高风险组和低风险组之间的生存分析结果图；

图10是本发明实施例提供的TCGA训练集的时间（1年）依赖性ROC曲线；

图11是本发明实施例提供的TCGA训练集的时间（3年）依赖性ROC曲线；

图12是本发明实施例提供的TCGA训练集的时间（5年）依赖性ROC曲线；

图13是本发明实施例提供的TCGA训练集生存状态的分布图；

图14是本发明实施例提供的TCGA训练集基因表达数据的分布图；

图15是本发明实施例提供的TCGA测试集时间为1年的时间依赖性ROC曲线；

图16是本发明实施例提供的TCGA整个数据集时间为1年的时间依赖性ROC曲线；

图17是本发明实施例提供的TCGA整个数据集时间为3年的时间依赖性ROC曲线；

图18是本发明实施例提供的TCGA整个数据集时间为5年的时间依赖性ROC曲线；

图19是本发明实施例提供的结直肠癌预后预测模型构建装置框图；

图20是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明实施例提供了一种结直肠癌预后预测模型构建方法，该方法可以由电子设备实现。如图1所示的结直肠癌预后预测模型构建方法流程图，该方法的处理流程可以包括如下的步骤：

S11、获取差异表达的免疫相关基因。

可选地，上述步骤S11可以包括如下步骤S111-S113：

S111、从GTEx数据库获取正常组织样本，从TCGA数据库获取肿瘤组织样本，从IMMPORT数据库获取免疫相关基因的列表。

一种可行的实施方式中，在TCGA的官方网站（https://portal.gdc.cancer.gov/），下载473名结肠腺癌患者的RNA-Seq FPKM数据并提取出mRNA，下载452名结直肠癌患者的临床数据。

从UCSC官网（https://xenabrowser.net/ ）下载GTEx数据库中的正常组织RNA-Seq数据，从中提取结直肠正常组织中的数据，并转换为FPKM值，共有308个正常样本。

从IMMPORT数据库（https://www.immport.org/home）下载免疫相关基因的列表，共包括2483个免疫相关基因。

S112、将正常组织样本与肿瘤组织样本合并，使用wilcoxon检验筛选正常样本和肿瘤样本之间的差异表达基因，得到差异表达基因的列表。

一种可行的实施方式中，将GTEx数据集和TCGA数据集合并，使用wilcoxon检验筛选正常样本和肿瘤样本之间的差异表达基因。筛选的标准是校正后的p值

，且

。得到差异表达基因的列表后，与免疫相关基因列表取交集，得到差异表达的免疫相关基因。

其中，

的计算方法如下式（1）所示：

S113、将差异表达基因的列表与免疫相关基因的列表取交集，得到差异表达的免疫相关基因。

S12、通过最小绝对值收敛和选择算子算法LASSO回归，对差异表达的免疫相关基因进行筛选，得到筛选后的免疫相关基因。

一种可行的实施方式中，现有技术在筛选与患者预后相关的变量时，通常先进行单因素Cox分析筛选出相关变量，然后构建多因素模型进一步确认变量与生存的关联是否独立。但是这种做法没有考虑到变量之间多重共线性的影响，会出现单因素Cox回归和多因素Cox回归得到的HR（Hazard Ratio，风险比）矛盾的现象，导致模型失真。并且当变量个数大于样本量时，传统的Cox回归的逐步回归、前进法、后退法等变量筛选方法都不再适用。

由于本申请得到的差异表达免疫相关基因的数量大于样本量，所以本申请选择首先用LASSO（Least absolute shrinkage and selection operator，最小绝对值收敛和选择算子算法）回归进行变量的筛选，然后通过Cox回归模型构建预后特征。LASSO回归是由Tibshirani提出的，使用L1范数进行收缩惩罚，将一些不太重要的变量的系数压缩为0，保留重要变量的系数大于0，以减少Cox回归中协变量的个数。选择LASSO回归中系数不为0的基因来进一步计算风险评分。

进一步地，将缺少生存数据或随访时间小于90天的TCGA结肠腺癌患者的样本删除，得到TCGA患者的生存数据及差异表达免疫基因的表达数据。391名患者的样本被随机分成训练集和测试集，训练集占数据集的70%（273个样本），测试集占数据集的30%（118个样本）。使用训练集中的数据进行LASSO回归，目的是最小化过度拟合（消除可能会过度拟合模型的基因），并筛选出与生存显著相关的差异表达免疫相关基因。

S13、根据筛选后的免疫相关基因以及比例风险Cox回归模型，得到多个预后相关的免疫基因。

可选地，S13中的多个预后相关的免疫基因包括： CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6。

一种可行的实施方式中，Cox回归模型，又称“比例风险回归模型（proportionalhazards model，简称Cox模型）”，是由英国统计学家D.R.Cox提出的一种半参数回归模型。该模型以生存结局和生存时间为因变量，可同时分析众多因素对生存期的影响，能分析带有截尾生存时间的资料，且不要求估计资料的生存分布类型。由于上述优良性质，该模型自问世以来，在医学随访研究中得到广泛的应用。

Cox回归模型的基本形式为如下式（2）所示：

其中，

表示时刻

的风险率函数，

表示时刻

所有的协变量取值为

时的风险率函数，

为自变量

的偏回归系数。

进一步地，如果假设危险因素

在非暴露组取值为

，在暴露组取值为

，不难看出：

上式（3）得到的暴露组与非暴露组的风险率之比，称为RR（Relative Risk，相对危险度），在生存分析中RR也称为HR（Hazard Ratio，风险比）。

进一步地，如果

为连续性变量，假设其取值为

与

时的风险比为HR，则：

由上式（4）可以看出，连续性协变量

的回归系数表示

每增加一个单位时其相对危险度的自然对数改变量。如果

，则

，为危险因素；如果

则

，为保护性因素。

S14、根据多个预后相关的免疫基因的表达量和多个预后相关的免疫基因对应的回归系数，计算出每个肿瘤组织样本的Risk score值。

可选地，使用多因素Cox回归模型构建免疫基因相关的预后特征，计算出每个肿瘤组织样本的Risk score值，计算方法如下式（5）所示：

其中，

是多个预后相关的免疫基因的数量；

是预后相关的免疫基因

的表达量；

是预后相关的免疫基因

的回归系数。

S15、基于每个肿瘤组织样本的Risk score值，计算多个肿瘤组织样本的中位值，根据中位值将每个肿瘤组织样本划分为高风险组和低风险组。

一种可行的实施方式中，根据Risk score的中位值，将患者分为两组，Risk score大于中位值的为高风险组，Risk score小于中位值的为低风险组。

可选地，方法还包括：

一种可行的实施方式中，Kaplan-Meier曲线又称生存曲线，是生存分析常用的一种方法，主要分析单一因素对生存期的影响，用于估计患者生存率和绘制生存曲线。生存曲线以生存时间为横轴，生存率为纵轴，绘制而成的连续型的阶梯形曲线，用以说明生存时间与生存率之间的关系。

通过Kaplan-Meier生存分析，使用对数秩检验评估两组之间的生存差异，比较两组之间的总体生存率。绘制ROC（Receiver Operating Characteristic，受试者工作特征）曲线，并计算ROC曲线下面积，即AUC（Area Under Curve）值，以评估预后模型的准确性。

进一步地，独立性验证：对具有临床相关特征的患者样本进行单因素和多因素分析，评估Risk score的预后价值。基于单因素和多因素分析，p<0.05的特征能够作为独立预后因素。

进一步地，模型验证：使用TCGA的整个数据集（391个样本）、测试集（118个样本）对模型进行验证。根据相同的公式计算出每个样本的Risk score值，然后根据中位值对样本进行分组，分成高风险组和低风险组。对这两组进行生存分析，评估两组之间的生存差异。绘制ROC曲线及计算AUC值。

本发明实施例中，在寻找差异基因时，使用的是GTEx数据库中的正常组织样本和TCGA数据库中的肿瘤组织样本，二者的样本量分别为308和473，加大正常组织的样本量后找到的差异基因更加准确。接下来本申请通过LASSO回归和多因素Cox分析，基于多个免疫相关基因构建风险模型，该模型能够准确预测患者预后，这将具有重要的临床意义，并且模型中的免疫相关基因可以作为潜在的生物标记物。

举例来说，如图2所示，本发明实施例提供了一种结直肠癌预后预测模型构建方法，该方法可以由电子设备实现。如图2所示的结直肠癌预后预测模型构建方法流程图，该方法的处理流程可以包括如下的步骤：

S21、获取基因表达数据。

一种可行的实施方式中，从UCSC网站下载GTEx数据库中的正常组织RNA-Seq数据，从中提取结直肠正常组织中的数据，并转换为FPKM值。共提取出308个正常样本的基因表达数据，去除低表达基因后，得到22116个基因在308个正常样本中的表达量。

从TCGA网站下载473个结肠腺癌患者样本的基因表达数据，从中提取mRNA并去除低表达的mRNA，得到14791个基因在473个肿瘤样本中的表达量。

将GTEx数据集和TCGA数据集合并，得到14306个交集基因。

S22、筛选正常样本和肿瘤样本间的差异表达基因。

一种可行的实施方式中，通过wilcoxon检验，筛选在GTEx正常样本和TCGA肿瘤样本中差异表达的基因，筛选的标准是

且

。与正常组织相比，得到7644个差异表达的基因。其中，6343个基因是下调的，1301个是上调的。

进一步地，从IMMPORT数据库中下载了2483个免疫相关基因的列表，与差异表达基因取交集，得到528个差异表达的免疫相关基因。其中，381个基因是下调的，147个基因是上调的，热图和火山图如补充材料中的图3和图4所示。其中，图3横坐标代表样本，纵坐标代表基因。图4横坐标是

，纵坐标是

。

S23、通过LASSO回归得到筛选后的免疫相关基因。

一种可行的实施方式中，从TCGA数据库下载了452名结肠腺癌患者的临床相关数据，结肠腺癌患者临床数据的详细信息如下表1 TCGA所示。

表1

进一步地，将缺少生存数据或生存时间小于90天的样本删除，将差异表达的免疫相关基因的表达数据和生存数据合并，得到391个样本的生存数据及差异表达免疫相关基因的表达数据。将391个样本随机分成训练集和测试集，训练集的样本量为总样本量的70%（273个），测试集的样本量为总样本量的30%（118个）。

为了确定与预后相关的差异表达免疫相关基因，使用训练集样本，通过LASSO回归，得到14个候选基因。如图5、6所示，图5中横坐标是Log Lambda值，Lambda值是惩罚系数，Lambda值控制LASSO回归的复杂度。如果Lambda值越大，惩罚力度就越大。纵坐标是系数，Lambda值越大，系数越少，相当于基因的数目越少。如果某个基因的系数为0，那这个基因就不参与后续分析。图6中横坐标是Log Lambda值，纵坐标是交叉验证的误差。当误差最小的时候，会在图6中找到一个Lambda值。找到这个Lambda值后，再看图5找到对应的基因的数目。

S24、通过多因素Cox分析构建模型。

一种可行的实施方式中，通过多因素Cox分析，对这14个基因进行进一步筛选，最终得到9个关键基因（表2）。根据这9个免疫相关基因的表达量及其对应的回归系数计算Risk score值，计算公式如下：

进一步地，根据Risk score的中位值，将训练集中的273名结肠腺癌患者分为两组，Risk score值小于中位值的为低风险组（n=137），Risk score值大于中位值的为高风险组（n=136）。

多因素Cox分析的结果如下表2所示：

表2

S25、生存分析及ROC曲线的绘制。

一种可行的实施方式中，将患者分为高风险组和低风险组之后，通过Kaplan- Meier生存分析，比较两组之间的生存差异。生存分析的结果表明，高风险组与低风险组的生存是有差异的

，高风险组的总体生存率更低、预后更差。从结果可以观察到，低风险组的中位生存时间大于10年，高风险组的中位生存时间大约是4年。低风险组的3年和5年生存率大约是91%和84%，高风险组的3年和5年生存率大约是63%和40%。

进一步地，绘制ROC曲线来评估预后模型的准确性。总生存率为1年、3年和5年的AUC值分别为0.800、0.821和0.875（图10-12），表明预后模型的准确性较高。两组的生存状态分布如图13所示，横坐标是样本，并按照Risk score值从大到小排序，纵坐标是样本的生存时间。随着Risk score值的增大，死亡的病人有所增加、生存时间有所下降，即高风险组的病人死亡人数较高、生存率较低。纳入模型的9个免疫基因的热图如图14所示，横坐标代表样本，纵坐标代表基因。可以看出基因在高风险组和低风险组中的表达情况。

S26、独立性验证。

一种可行的实施方式中，通过单因素和多因素独立预后分析评估模型及临床特征的独立预测能力。从TCGA数据库下载结肠腺癌患者的临床数据，共有452个样本。将缺少相应临床数据的样本删除，得到341个样本及其相应的临床数据，分别是Age、Gender、Stage、T、M、N、Risk score。

训练集的单因素分析表明，Age、Stage、T、M、N、Risk score的p值均小于0.05，是与预后密切相关的临床因素（表3 TCGA训练集单因素和多因素独立预后分析结果）。多因素分析表明，Age、T、Risk score的p值均小于0.05，是独立预后因素（表3），可以独立预测患者的预后。且Risk score值的HR（Hazard Ratio）值大于1，说明Risk score值是高风险因素，Risk score值越高，病人的风险越大。从表中可以看出，单因素分析和多因素分析的p值均小于0.05的因素有Age、T、Risk score。

表3

S27、模型验证。

一种可行的实施方式中，测试集（118个样本）和整个TCGA数据集（391个样本），作为预后模型的验证集，以评估模型的准确性。

在测试集中，共包括118个结肠腺癌患者样本。根据相同的计算公式，计算出每个样本的Risk score值。按照Risk score的中位值，将118个患者样本分为两组，分别是高风险组（n=59）和低风险组（n=59）。通过Kaplan-Meier生存分析，比较高风险组和低风险组之间的生存差异。生存分析的结果表明，两组之间的生存是有差异的

，高风险组的总体生存率更低、预后更差。低风险组的中位生存时间大于6年，高风险组的中位生存时间为4年。低风险组的3年和5年生存率分别是88%和70%，高风险组的3年生存率低于 65%，5年生存率低于50%。生存曲线出现交点的原因，可能是样本量过少。测试集的ROC曲线如图15所示，总生存率为1年的AUC值为0.703。由于样本量少，总生存率为3年和5年的样本也比较少，所以没有绘制相对应的ROC曲线。

在整个数据集中，共包括391个结肠腺癌患者样本。根据相同的计算公式，计算出每个样本的Risk score值。按照Risk score的中位值，将391个患者样本分为两组，分别是高风险组（n=195）和低风险组（n=196）。通过Kaplan-Meier生存分析，比较高风险组和低风险组之间的生存差异。生存分析的结果表明，两组之间的生存是有差异的

，高风险组的总体生存率更低、预后更差。低风险组的中位生存时间大于10年，高风险组的中位生存时间为4年。低风险组的3年和5年生存率大约分别是91%和 85%，高风险组的3年生存率和5年生存率大约分别是64%和42%。整个TCGA数据集的ROC曲线如图5的16-18所示，总生存率为1年、3年和5年的AUC值分别为0.763、0.755和0.820，表明预后模型的准确性较高。

综上，在本研究中，基于TCGA数据库中的基因表达数据和临床数据，本申请确定了包括CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6在内的免疫相关预后特征并进行了验证。

首先，从GTEx数据库下载结直肠正常组织的基因表达数据，从TCGA下载结肠腺癌患者的基因表达数据，筛选得到了7644个差异表达基因。从IMMPORT数据库下载了免疫相关基因列表，包括2483个免疫相关基因，与差异表达基因取交集，得到528个差异表达的免疫相关基因。对这些基因进行LASSO回归和多变量Cox分析，建立了基于9个免疫相关基因的预后特征，分别是CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6。通过这些基因的表达量和相关系数，计算出每个患者样本的Risk score值，并按照中位值将这些患者分为高风险组和低风险组。通过生存分析发现高风险组的总体生存率较低，预后较差。为了验证模型的预后价值，本申请绘制了ROC曲线，总生存率为1年、3年和5年的AUC值分别为0.800、0.821和0.875，表明对患者预后的预测效果较好。通过单因素和多因素分析，证实Risk score值是一个独立预后因素。

为了验证模型的准确性，本申请将TCGA数据集分为训练集和测试集，根据模型计算出每个患者样本的Risk score值，并根据中位值分为高风险组和低风险组。测试集和整个数据集的生存分析的结果都表明，高风险组和低风险组之间的生存是有差异的，高风险组的预后更差。

如图19所示，本发明实施例提供了一种结直肠癌预后预测模型构建装置1900，该装置1900应用于实现结直肠癌预后预测模型构建方法，该装置1900包括：

获取模块1910，用于获取差异表达的免疫相关基因；

筛选模块1920，用于通过最小绝对值收敛和选择算子算法LASSO回归，对差异表达的免疫相关基因进行筛选，得到筛选后的免疫相关基因；

免疫基因获取模块1930，用于根据筛选后的免疫相关基因以及比例风险Cox回归模型，得到多个预后相关的免疫基因；

计算模块1940，用于根据多个预后相关的免疫基因的表达量和多个预后相关的免疫基因对应的回归系数，计算出每个肿瘤组织样本的Risk score值；

输出模块1950，用于基于每个肿瘤组织样本的Risk score值，计算多个肿瘤组织样本的中位值，根据中位值将每个肿瘤组织样本划分为高风险组和低风险组。

可选地，获取模块1910，进一步用于：

其中，

是多个预后相关的免疫基因的数量；

是预后相关的免疫基因

的表达量；

是预后相关的免疫基因

的回归系数。

可选地，还包括：

图20是本发明实施例提供的一种电子设备2000的结构示意图，该电子设备2000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）2001和一个或一个以上的存储器2002，其中，存储器2002中存储有至少一条指令，至少一条指令由处理器2001加载并执行以实现下述结直肠癌预后预测模型构建方法：

S1、获取待预测患者的肿瘤组织数据。

S2、将肿瘤组织数据输入到构建好的风险预测模型；其中，风险预测模型包括多个预后相关的免疫基因。

S3、根据肿瘤组织数据以及多个预后相关的免疫基因，得到待预测患者的风险评分，进而得到待预测患者的结直肠癌预后预测结果。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述结直肠癌预后预测模型构建方法。例如，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结直肠癌预后预测模型构建方法，其特征在于，所述方法包括：

S1、获取差异表达的免疫相关基因；

S2、通过最小绝对值收敛和选择算子算法LASSO回归，对所述差异表达的免疫相关基因进行筛选，得到筛选后的免疫相关基因；

S3、根据所述筛选后的免疫相关基因以及比例风险Cox回归模型，得到多个预后相关的免疫基因；

S4、根据所述多个预后相关的免疫基因的表达量和所述多个预后相关的免疫基因对应的回归系数，计算出每个肿瘤组织样本的Risk score值；

S5、基于所述每个肿瘤组织样本的Risk score值，计算多个肿瘤组织样本的中位值，根据所述中位值将每个肿瘤组织样本划分为高风险组和低风险组。

2.根据权利要求1所述的方法，其特征在于，所述S3中的多个预后相关的免疫基因包括： CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6。

3.根据权利要求1所述的方法，其特征在于，所述S1中的获取差异表达的免疫相关基因包括：

S11、从GTEx数据库获取正常组织样本，从TCGA数据库获取肿瘤组织样本，从IMMPORT数据库获取免疫相关基因的列表；

S12、筛选出所述正常组织样本和肿瘤组织样本之间的差异表达基因，得到差异表达基因的列表；

S13、将所述差异表达基因的列表与免疫相关基因的列表取交集，得到差异表达的免疫相关基因。

4.根据权利要求3所述的方法，其特征在于，所述S12中的筛选出所述正常组织样本和肿瘤组织样本之间的差异表达基因，得到差异表达基因的列表包括：

将所述正常组织样本与肿瘤组织样本合并，使用wilcoxon检验筛选所述正常样本和肿瘤样本之间的差异表达基因，得到差异表达基因的列表。

5.根据权利要求1所述的方法，其特征在于，所述S4中的每个肿瘤组织样本的Riskscore值的计算方法，如下式（1）所示：

其中，

是多个预后相关的免疫基因的数量；

是预后相关的免疫基因

的表达量；

是预后相关的免疫基因

的回归系数。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种结直肠癌预后预测模型构建装置，其特征在于，所述装置包括：

获取模块，用于获取差异表达的免疫相关基因；

筛选模块，用于通过最小绝对值收敛和选择算子算法LASSO回归，对所述差异表达的免疫相关基因进行筛选，得到筛选后的免疫相关基因；

免疫基因获取模块，用于根据所述筛选后的免疫相关基因以及比例风险Cox回归模型，得到多个预后相关的免疫基因；

计算模块，用于根据所述多个预后相关的免疫基因的表达量和所述多个预后相关的免疫基因对应的回归系数，计算出每个肿瘤组织样本的Risk score值；

输出模块，用于基于所述每个肿瘤组织样本的Risk score值，计算多个肿瘤组织样本的中位值，根据所述中位值将每个肿瘤组织样本划分为高风险组和低风险组。

8.根据权利要求7所述的装置，其特征在于，所述多个预后相关的免疫基因包括：CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6。

9.根据权利要求7所述的装置，其特征在于，获取模块，进一步用于：

10.根据权利要求7所述的装置，其特征在于，获取模块，进一步用于：