CN115394445A

CN115394445A - 结肠癌预后标记基因及其筛选、预后预测及模型构建方法

Info

Publication number: CN115394445A
Application number: CN202210580044.0A
Authority: CN
Inventors: 赵哲; 朱丽梦; 唐琬; 韩雪莹
Original assignee: Zhengzhou Jinyu Clinical Laboratory Center Co ltd
Current assignee: Zhengzhou Jinyu Clinical Laboratory Center Co ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-11-25

Abstract

本发明属于基因技术和生物医学技术领域，公开了一种结肠癌预后标记基因及其筛选方法及装置、结肠癌预后预测方法及装置、结肠癌预后预测模型的构建方法及装置、存储介质，通过定义并构建了精细的结肠癌肿瘤成纤维亚型理论，利用公共单细胞数据对亚型的功能、命名、通讯、预后进行了解析，并通过转录组数据集对差异表达基因进行结肠癌预后预测模型的构建。该模型预后的准确性、稳定性、独立性存在多种理论的证实，并在分子机制层次进行了验证和拓展。可以提高对结肠癌患者预后的评估预测能力，对具有高风险预后的结肠癌患者能够有效的识别，以便在临床中能够早期监控和有效干预，以此来降低结肠癌患者的不良预后发生率及死亡率。

Description

结肠癌预后标记基因及其筛选、预后预测及模型构建方法

技术领域

本发明属于基因技术和生物医学技术领域，具体涉及一种结肠癌预后标记基因及其筛选方法及装置、结肠癌预后预测方法及装置、结肠癌预后预测模型的构建方法及装置、存储介质。

背景技术

结肠癌是常见的发生于结肠部位的消化道恶性肿瘤，发病率高占胃肠道肿瘤的前3位。传统的肿瘤预后基因检测依赖已有科研对基因认识有极大的局限性，仅能通过已有注释的基因功能进行估测，对原癌基因、抑癌基因或大段染色体变异情况对肿瘤进展进行预测，其中肿瘤突变负荷、肿瘤免疫浸润丰度等依赖二代高通量检测技术的新型指标成为肿瘤预后推断的新型参考。但是新型指标的可靠性不定，同时二代高通量技术成本高、时间长，难以即时为患者和医生提供宝贵的检验结果和治疗建议。

成纤维细胞作为肿瘤微环境的成分之一，是肿瘤发生、供氧、转移等环节的关键条件之一。同时成纤维细胞的不同亚型在人体不同组织中差异巨大，不同的亚型组成存在着完全相反的功能。对与结肠癌肿瘤组织而言其外围的成纤维细胞既能够为肿瘤细胞供而促进肿瘤发展，或参与炎症因子反应促进肿瘤转移，亦可能与免疫细胞产生相互作用增强对肿瘤的免疫效应。与传统检测相比，通过检测成纤维细胞的动态变化可能更早期检测到肿瘤的进展方向和紧张速度。但是肿瘤成纤维细胞对与结肠癌的机制不甚明确，如何建立理论知识充沛、检验结果准确的结肠癌预后预测模型是当前技术的痛点。

发明内容

本发明的目的在于提供一种结肠癌预后标记基因及其筛选方法及装置、结肠癌预后预测方法及装置、结肠癌预后预测模型的构建方法及装置、存储介质，可以以多种理论证实模型的准确性、稳定性、独立性，且提高对结肠癌患者预后的评估预测能力，对具有高风险预后的结肠癌患者能够有效的识别。

本发明实施例第一方面公开一种结肠癌预后标记基因的筛选方法，包括：

从GEO数据库中获取结肠癌患者样本的单细胞转录组测序谱图结果，并筛选出癌相关成纤维细胞；

利用无监督聚类和拟时序分析识别出癌相关成纤维细胞的多个亚型，并根据功能注释情况定义每个亚型的名称；

基于limma算法识别多个亚型的差异表达基因；

对多个亚型的差异表达基因进行单变量回归分析，从中确定出第一数量个与结肠癌预后显著相关的目标差异表达基因；

对第一数量个所述目标差异表达基因进行LASSO-Cox回归分析，从中筛选出第二数量个预后标记基因，第二数量小于第一数量。

本发明实施例第二方面公开一种结肠癌预后标记基因，根据第一方面所述方法筛选得到的，结肠癌预后标记基因包括以下10种mRNA标记基因中的一种或多种组合：

CACNA1C、COL4A5、ADRA2B、EGFR、LMBR1L、FZD7、PKM、IL20RB、PMCH、EPHB2。

在一些实施例中，如第二方面所述的10种mRNA标记基因中的一种或多种组合用于构建用于风险评分的结肠癌预后预测模型。

在一些实施例中，如第二方面所述的10种mRNA标记基因中的一种或多种组合用于制备结肠癌预后预测的试剂盒。

本发明实施例第三方面公开一种结肠癌预后预测模型的构建方法，基于第一方面所述方法筛选得到的结肠癌预后标记基因进行构建，所述构建方法包括：

从TCGA数据库和GEO数据库中获取结肠癌RNA转录组数据集以及相应的临床信息；其中，所述结肠癌RNA转录组数据集包括训练数据集、内部测试数据集和外部测试数据集；

根据筛选出的预后标记基因，基于LASSO-Cox回归建立mRNA预后预测模型，根据训练数据集对所述mRNA预后预测模型进行训练获得mRNA预后预测模型中包含的每个所述预后标记基因的权重系数；

将每个所述预后标记基因对应的权重系数，代入所述mRNA预后预测模型中，获得用于风险评分的结肠癌预后预测模型，并根据所述内部测试数据集和所述外部测试数据集对所述结肠癌预后预测模型进行测试。

本发明实施例第四方面公开一种结肠癌预后预测方法，使用基于第三方面所述的构建方法而构建得到的结肠癌预后预测模型，所述预测方法包括：

获取待测样本的关于筛选出的各个预后标记基因的表达量；

将各个预后标记基因的表达量输入结肠癌预后预测模型，计算获得所述待测样本的风险评分。

本发明实施例第五方面公开一种结肠癌预后预测装置，包括：

获取单元，用于获取待测样本的关于筛选出的各个预后标记基因的表达量；

计算单元，用于将各个预后标记基因的表达量输入结肠癌预后预测模型，计算获得所述待测样本的风险评分。

本发明实施例第六方面公开一种电子设备，包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行第四方面公开的结肠癌预后预测方法。

本发明实施例第七方面公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行第四方面公开的结肠癌预后预测方法。

本发明实施例第八方面公开一种结肠癌预后标记基因的筛选装置，包括：

成纤维细胞获取单元，用于从GEO数据库中获取结肠癌患者样本的单细胞转录组测序谱图结果，并筛选出癌相关成纤维细胞；

聚类单元，用于利用无监督聚类和拟时序分析识别出癌相关成纤维细胞的多个亚型，并根据功能注释情况定义每个亚型的名称；

识别单元，用于基于limma算法识别多个亚型的差异表达基因；

回归分析单元，用于对多个亚型的差异表达基因进行单变量回归分析，从中确定出第一数量个与结肠癌预后显著相关的目标差异表达基因；

筛选单元，用于对第一数量个所述目标差异表达基因进行LASSO-Cox回归分析，从中筛选出第二数量个预后标记基因，第二数量小于第一数量。

本发明实施例第九方面公开另一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行第一方面公开的结肠癌预后标记基因的筛选方法。

本发明实施例第十方面公开一种结肠癌预后预测模型的构建装置，基于第八方面所述的结肠癌预后标记基因的筛选装置，构建装置包括：

转录组数据获取单元，用于从TCGA数据库和GEO数据库中获取结肠癌RNA转录组数据集以及相应的临床信息；其中，所述结肠癌RNA转录组数据集包括训练数据集、内部测试数据集和外部测试数据集；

训练单元，用于根据筛选出的预后标记基因，基于LASSO-Cox回归建立mRNA预后预测模型，根据训练数据集对所述mRNA预后预测模型进行训练获得mRNA预后预测模型中包含的每个所述预后标记基因的权重系数；

构建单元，用于将每个所述预后标记基因对应的权重系数，代入所述mRNA预后预测模型中，获得用于风险评分的结肠癌预后预测模型，并根据所述内部测试数据集和所述外部测试数据集对所述结肠癌预后预测模型进行测试。

本发明实施例第十一方面公开另一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行第三方面所述的结肠癌预后预测模型的构建方法。

本发明的有益效果在于，所提供的结肠癌预后标记基因及其筛选方法及装置、结肠癌预后预测方法及装置、结肠癌预后预测模型的构建方法及装置、存储介质，通过定义并构建了精细的结肠癌肿瘤成纤维亚型理论，利用公共单细胞数据对亚型的功能、命名、通讯、预后进行了解析，并通过转录组数据集对差异表达基因进行结肠癌预后预测模型的构建。该模型预后的准确性、稳定性、独立性存在多种理论的证实，并在分子机制层次进行了验证和拓展。因此本发明不仅可以提高对结肠癌患者预后的评估预测能力，对具有高风险预后的结肠癌患者能够有效的识别，以便在临床中能够早期监控和有效干预，以此来降低结肠癌患者的不良预后发生率及死亡率，同时对临床患者免疫治疗和药物治疗等关键治疗手段上给予建议，可以保证预后的同时对治疗给予帮助。

附图说明

此处的附图，示出了本发明所述技术方案的具体实例，并与具体实施方式构成说明书的一部分，用于解释本发明的技术方案、原理及效果。

除非特别说明或另有定义，不同附图中，相同的附图标记代表相同或相似的技术特征，对于相同或相似的技术特征，也可能会采用不同的附图标记进行表示。

图1是本发明中一种结肠癌预后标记基因的筛选方法的流程图；

图2是本发明中识别出的成纤维细胞的常见基因标记；

图3是本发明中识别出的成纤维细胞的常见基因标记的表达量；

图4是本发明中识别出的不同簇的细胞类型和比例；

图5是本发明中识别的6个成纤维细胞亚型的聚类情况；

图6是本发明中各个成纤维细胞亚型的前10个标记基因；

图7是本发明中单因素COX回归选择的16个差异表达基因的森林图；

图8是本发明中16个差异表达基因在结肠癌患者样本和癌旁正常组织样本中的不同表达水平的箱线图；

图9是本发明中16个差异表达基因的的Kaplan-Meier图；

图10是本发明中最佳回归参数下的lasso回归变量基因数；

图11是本发明中结肠癌预后预测模型在训练数据集1年、3年和5年OS预测的ROC曲线；

图12是本发明中结肠癌预后预测模型在内部测试数据集1年、3年和5年OS预测的ROC曲线；

图13是本发明中结肠癌预后预测模型在外部测试数据集1年、3年和5年OS预测的ROC曲线；

图14是本发明中erCAF亚型的预后相关性分析；

图15是本发明中adCAF亚型的预后相关性分析；

图16是本发明中enCAF亚型的关键标记基因GREM1表达的箱线图；

图17是本发明中erCAF亚型的关键标记基因IGF1表达的箱线图；

图18是本发明中enCAF亚型的免疫相关性分析；

图19是本发明中erCAF亚型的免疫相关性分析；

图20是本发明中基于xCell的高危组和低危组细胞浸润差异；

图21是本发明中各成纤维细胞亚型的差异表达基因；

图22是本发明中各成纤维细胞亚型的细胞通讯情况

图23是本发明中所有临床信息组中危险因素分布差异的箱线图；

图24是本发明中多变量COX回归森林图结合多种临床指标和风险评分模型；

图25是本发明中风险模型、年龄和阶段因素的生存列线图；

图26是本发明中训练数据集和测试数据集下风险模型的误差拟合图；

图27是本发明中危险因素与多重浸润评分的相关散点图；

图28是本发明中10种药物高低风险组IC50预测统计小提琴图；

图29至图31是本发明中危险因素与3种药物之间的线性相关图；

图32是本发明中一种结肠癌预后预测装置的结构示意图；

图33是本发明中一种电子设备的结构示意图。

附图标记说明：

100、获取单元；200、计算单元；300、存储器；400、处理器。

具体实施方式

为了便于理解本发明，下面将参照说明书附图对本发明的具体实施例进行更详细的描述。

除非特别说明或另有定义，本文所使用的所有技术和科学术语与所属技术领域的技术人员通常理解的含义相同。在结合本发明的技术方案以现实的场景的情况下，本文所使用的所有技术和科学术语也可以具有与实现本发明的技术方案的目的相对应的含义。本文所使用的“第一、第二…”仅仅是用于对名称的区分，不代表具体的数量或顺序。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

需要说明的是，当元件被认为“固定于”另一个元件，它可以是直接固定在另一个元件上，也可以是存在居中的元件；当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件，也可以是同时存在居中元件；当一个元件被认为是“安装在”另一个元件，它可以是直接安装在另一个元件，也可以是同时存在居中元件。当一个元件被认为是“设在”另一个元件，它可以是直接设在另一个元件，也可以是同时存在居中元件。

除非特别说明或另有定义，本文所使用的“所述”、“该”为相应位置之前所提及或描述的技术特征或技术内容，该技术特征或技术内容与其所提及的技术特征或技术内容可以是相同的，也可以是相似的。

毫无疑义，与本发明的目的相违背，或者明显矛盾的技术内容或技术特征，应被排除在外。

本发明实施例包括以下几个阶段：结肠癌预后标记基因筛选阶段、结肠癌预后预测模型的构建与测试阶段、结肠癌预后预测模型的验证与应用阶段。

第一阶段：结肠癌预后标记基因筛选阶段

如图1所示，本发明实施例公开一种结肠癌预后标记基因的筛选方法，包括以下步骤S10～S50：

S10、从GEO数据库中获取结肠癌患者样本的单细胞转录组测序谱图结果，并筛选出癌相关成纤维细胞。

其中，从GEO数据库中获取的结肠癌患者样本的单细胞转录组测序谱图结果包括来自SMC队列(GSE132465)的33个样本的scRNA-seq数据，33个样本包括23个结肠癌患者样本和10个癌旁组织样本。

然后对scRNA-seq数据进行预处理，可以使用Seurat R软件包(版本3.0.1)进行质量控制过程。低质量细胞被定义为线粒体衍生的UMI计数超过10％的细胞，被移除。Seurat中的IntegrateData模块用于消除不同患者之间的批次效应。

通过scRNA-seq数据的高维信息，能够从异质细胞池中识别癌相关成纤维细胞CAF，具体的，对scRNA-seq数据的主要细胞群通过降维算法进行聚类，即t分布随机邻域嵌入(t-distributed stochastic neighbor embedding，t-SNE)和统一流形近似和投影(UniformManifoldApproximationandProjection，UMAP)，经过基于细胞特征比例的质量控制，以及线粒体和核糖体基因表达，获得了基质细胞分类的结果。

进一步将分类得到的基质细胞分为两个亚组，分别获得成纤维细胞CAF和非成纤维细胞。使用特定基因标记的组合验证了包括成纤维细胞在内的不同细胞群的分类。CAF的常见基因标记如图2至图3所示。CAF不表达任何其他细胞标志物。特定基因标记包括SPARC、COL1A1、COL1A2、LUM和DCN，以及常见基因标记包括COL3A1和THY1，在高比例的成纤维细胞中高表达。低百分比的基质细胞以较低水平表达成纤维细胞基因标志物，但这些基质细胞可以被成纤维细胞的阴性标志物(例如PECAM1)排除。不同簇的细胞类型和比例，包括基质细胞和成纤维细胞，如图4所示。

总体而言，在肿瘤样本中，T细胞和上皮细胞(Epithelial Cell，EC)占比较高，而基质细胞和B细胞占比较低。未成熟的血管内皮细胞(Endothelial cell，ECs)和成纤维细胞是基质细胞中的主要细胞类型。成纤维细胞在肿瘤和癌旁组织中存在显着的聚类差异。例如，肿瘤中的活化成纤维细胞多于癌旁组织中的主要基质亚I和III细胞。

S20、利用无监督聚类和拟时序分析识别出癌相关成纤维细胞的多个亚型，并根据功能注释情况定义每个亚型的名称。

在本发明中，癌相关成纤维细胞CAF被定义为肿瘤中的CD45-CD90+成纤维细胞。CAF亚型最初根据2D UMAP算法和t-SNE算法进行分类。

在分类识别出成纤维细胞之后，利用无监督轨迹分析为先前分类的成纤维细胞建立新的分类。在分类过程中，可以根据无监督轨迹分析的结果将肿瘤样本中的所有成纤维细胞分为多个CAF亚群，每个CAF亚群对应一个CAF亚型。在本实施例中，总共分为6个CAF亚型，如图5所示的6个类别，排序分别为CAF0、CAF1、CAF2、CAF3、CAF4、CAF5。然后根据各CAF亚型的特点，将CAF0至CAF5分别重命名为enCAF(内胚层相关CAF)、adCAF(粘附相关CAF)、vaCAF(血管相关CAF)、meCAF(间充质相关CAF)、erCAF(内质网相关CAF)和cyCAF(细胞周期相关CAF)。

为了更好地分类CAF，对于无监督轨迹分析，本发明采用Monocle 2R包尝试了伪时间轨迹分析。平均表达参数设置为>0.125；num_cells_expressed参数设置为R10，显着性q值设置为<0.01(differentialGeneTest函数)。t-SNE图用于轨迹的可视化。因此可得到每个亚群的前10个标记基因如图6所示。前10个标记基因是最显著的差异表达基因，可作为细胞类型的制造基因Maker。

其中，成纤维细胞的丰度在正常组织和肿瘤组织之间非常不同，表明它们可能在肿瘤发展中很重要。传统的大量RNA-seq无法在单细胞水平上区分CAF。然而，通过利用scRNA-seq数据，能够从大量组织中识别不同的CAF亚型，因此成功地鉴定了细胞资源共享平台CRC中的6种CAF亚型。

S30、基于limma算法识别多个亚型的差异表达基因。

其中，不同CAF亚型的差异表达基因(Differentially Expressed Gene，DEG)由Seurat的FindMarkers函数识别，截止值设置如下：倍数变化(FC)>1.5和adj；p值<0.01。GO和KEGG富集分析是基于DEG进行的，带有一个adj。p值<0.05被认为是显着的。在本发明实施例中，在以上六种不同的CAF亚型CAF0至CAF5中鉴定了825个高度表达的配体或受体基因，即获得825个DEG。

S40、对多个亚型的差异表达基因进行单变量回归分析，从中确定出第一数量个与结肠癌预后显著相关的目标差异表达基因。

为了进一步探索不同的CAF亚型如何与CC预后相关，我们基于这825个基因构建了一个CAF相关的预后特征模型，即单因素Cox比例风险回归模型。然后利用单因素Cox比例风险回归模型，计算每个差异表达基因DEG与患者生存是否存在关系，并基于相关系数R值和P值，筛选出其中与患者生存相关的16个目标差异表达基因。其中，16个目标差异表达基因为mRNA基因。

具体的，在对来自单细胞分析的825个DEG进行单变量(Cox regression model，Cox)回归分析后，从中确定出16个在转录组肿瘤和副肿瘤中差异表达的基因，即确定了16个与CC预后显着相关的基因(p<0.05)，如图7所示的单因素COX回归选择的16个差异表达基因。在其它一些可能的实施例中，实施本发明也可能确定出其它数量的目标差异表达基因，在此不作限定。

如图8的16个差异表达基因在结肠癌患者样本和癌旁正常组织样本中的不同表达水平的箱线图所示，这16个差异表达基因的表达水平一致地在结肠癌患者样本和癌旁组织样本之间存在显着差异。在这16个基因的高表达和低表达组中，结肠癌患者样本的总体生存期(Overall Survival，OS)存在显着差异，如图9所示的Kaplan-Meier图。16个基因分别是CACNA1C、COL4A5、ADRA2B、EGFR、LMBR1L、FZD7、PKM、IL20RB、PMCH、EPHB2、UCN、PODXL2、GPC2、MC1R、PTH1R、FGF23。

S50、对第一数量个目标差异表达基因进行LASSO-Cox回归分析，以从中筛选出第二数量个预后标记基因。其中，第二数量小于第一数量。

步骤S50中，通过使用最小绝对收缩和选择算子(least absolute shrinkage andselection operator，Lasso)对16个目标差异表达基因进行Lasso-Cox回归筛选，使用Lasso回归分析进行优化以避免过拟合。

在最佳正则化参数下，Lasso回归去除了16个基因的冗余效应，从Lasso-Cox回归分析中得到了加权下的10个mRNA标记基因，如图10所示，最佳回归参数下的lasso回归变量基因数为10。因此从16个目标差异表达基因中选择出10个mRNA标记基因作为预后标记基因，分别是：CACNA1C、COL4A5、ADRA2B、EGFR、LMBR1L、FZD7、PKM、IL20RB、PMCH和EPHB2。

第二阶段：结肠癌预后预测模型的构建与测试阶段

本发明实施例还公开一种结肠癌预后预测模型的构建方法，基于上述筛选得到的结肠癌预后标记基因进行构建，构建方法包括以下步骤S60～S80：

S60、从TCGA数据库和GEO数据库中获取结肠癌RNA转录组数据集以及相应的临床信息。其中，结肠癌RNA转录组数据集包括训练数据集、内部测试数据集和外部测试数据集。

分别从TCGA-COAD和GES39582群组下载RNA-seq数据和临床数据，仅保留具有详细临床信息的结肠癌患者样本的数据。将来自TCGA-COAD队列的452名患者和来自GES39582队列的579名患者纳入当前研究。其中，TCGA-COAD队列的结肠癌患者样本的数据按8:2的比例分为训练数据集和内部测试数据集，GES39582队列被用作外部测试数据集。数据用途遵循TCGA和GEO数据库的指南。

S70、根据筛选出的第二数量个预后标记基因，基于LASSO-Cox回归建立mRNA预后预测模型，根据训练数据集对mRNA预后预测模型进行训练获得mRNA预后预测模型中包含的每个预后标记基因的权重系数。

具体的，利用LASSO-Cox回归模型，首先在训练数据集中建立mRNA预后预测模型，计算获得mRNA预后预测模型中包含的10个mRNA标记基因的权重系数。

其中，mRNA预后预测模型如下公式(1)所示：

其中，S为风险评分，n为预后标记基因数量，n＝10，w_i代表第i个预后标记基因的权重系数，E_i代表第i个预后标记基因的表达量。

根据LASSO分析计算的权重系数，每个结肠癌患者样本都被分配了一个风险评分。最后，以风险评分的中位数为临界值，将所有这些结肠癌患者样本根据风险评分，分为高风险组和低风险组，判断患者样本的不良预后风险。同时运用了内部测试数据集和额外的外部测试数据集以验证模型的准确性，Kaplan-Meier生存曲线和散点图用于显示高风险和低风险组之间的OS。以及使用受试者工作特征曲线(Receiver OperatingCharacteristic，ROC)分析评估mRNA预后预测模型在训练数据集、内部测试和外部测试数据集中的时间依赖性和预测准确性其准确性。

S80、根据每个预后标记基因及其对应的权重系数，构建用于风险评分的结肠癌预后预测模型，并根据内部测试数据集和外部测试数据集对结肠癌预后预测模型进行测试。

最终，根据10个mRNA标记基因及其对应的权重系数，构建基于比例风险回归Cox的结肠癌预后预测模型，计算训练数据集中每个患者样本不良预后的风险指数。其中，用于风险评分的结肠癌预后预测模型定义为如下公式：

S＝(E_CACNA1C×0.195)+(E_COL4A5×0.563)+(E_ADRA2B×0.734)+(E_EGFR×0.082)+(E_LMBR1L×0.299)+(E_FZD7×0.119)+(E_PKM×0.007)+(E_IL20RB×0.384)–(E_PMCH×3.74)–(E_EPHB2×0.055)

根据以上结肠癌预后预测模型计算得到的风险评分，将患者样本分为高风险组和低风险组。两个分量的K-M图显着性在训练数据集中均小于0.0001，在两个测试数据集中分别为0.0025和小于0.0001。训练数据集1年、3年和5年OS预测AUC值分别为0.79、0.75、0.86，如图11所示。一致地，内部测试数据集1年、3年和5年的OS预测AUC值分别为0.69、0.72、0.57，如图12所示。外部测试数据集1年、3年和5年的OS预测AUC值分别为0.67、0.65、0.63，如图13所示，表明上述结肠癌预后预测模型稳健且具有很大的预后价值。

结合两个测试数据的验证，用LASSO Cox回归理论的最佳公式构建了一个10°的结肠癌预后预测模型，我们的模型取得了显着的生存预测效果(P<0.0025)。年龄、性别、肿瘤分期等临床信息以及肿瘤纯度、免疫评分等肿瘤指标与风险评分的相关性分析揭示了CAFs相关模型的稳定性和优越性。

第三阶段：结肠癌预后预测模型的验证阶段

进一步的，在鉴定以上6种不同的CAF亚型之后，还可以执行以下步骤S91～S92：

S91、利用细胞浸润理论计算不同CAF亚型的浸润占比，分析其细胞水平的预后相关性和免疫相关性。

为了探索CAF谱并了解不同CAF亚型如何影响结肠癌患者样本的预后，通过应用CIBERSORTx算法来分析不同CAF亚型和结肠癌免疫细胞的丰度。其中，CIBERSORTx，也被称为“数字细胞仪”，可以通过对大量RNA-seq数据进行反卷积来推断细胞类型的比例。

另外通过使用X-tile软件设置最佳截断值，将每个亚型的患者按照“高丰度”和“低丰度”分为两组。进行单变量Cox回归分析以分析TCGA-COAD队列中不同CAF亚型的预后价值。分析发现其中两种亚型，adCAF和erCAF，与结肠癌患者样本的预后显着相关，其中，erCAF亚型作为危险因素，如图14所示，而adCAF亚型作为保护因素，如图15所示。

上述结果证实了enCAF的促癌因子与meCAF的抑癌因子之间的相关性。我们通过qRT-PCR验证了上述结果。enCAF和meCAF亚型中的关键标记基因在肿瘤和癌旁组织中存在显着差异表达。例如两个代表性关键标记基因GREM1和IGF1在20对CC和癌旁组织中显着差异表达。

作为危险因素，enCAF中的代表性关键标记基因GREM1在肿瘤组织中高表达，如图16所示；作为保护因素，meCAF中的代表性关键标记基因IFG1在癌旁组织中高表达，如图17所示。此外，发现enCAF亚型的丰度与M1型巨噬细胞的丰度呈负相关如图18所示，而erCAF亚型的丰度与M2型巨噬细胞的丰度呈负相关，如图19所示。

为了更好地了解基于分类的不同CAF亚型之间免疫细胞浸润状态在结肠癌预后预测模型中的差异，可以通过使用xCell来推断每个样本中的细胞浸润率。xCell的细胞浸润分析显示，CAFs与巨噬细胞和树突状细胞等复杂的非特异性免疫细胞的相互作用成为影响预后和免疫评分的关键因素。在xCell基因特征的所有64种细胞类型中，有11种不同类型的细胞高度浸润，比例高于5％，主要包括Th1细胞和平滑肌细胞(>25％)。如图20所示，在前7种细胞类型中，上皮细胞和间充质干细胞(MSCs)被归类为在高危组中所占比例较高的危险因素。相反，普通淋巴祖细胞(CLPs)、平滑肌细胞、经典树突状细胞(cDCs)和间质树突状细胞(iDCs)是保护因素，因为在低风险组中的百分比很低。此外，不同风险组之间的免疫评分也存在显着差异。

为了探索每个CAF亚型的具体功能，我们进行了基因本体论(Gene Ontology，GO)和京都基因和基因组百科全书(Kyoto Encyclopedia ofGenes and Genomes，KEGG)富集分析。富集分析显示，enCAF和meCAF两种亚型的预后意义与巨噬细胞有关。已知，M1巨噬细胞可以分泌促炎细胞因子和趋化因子，呈递抗原，并参与积极的免疫反应和免疫监视。M2巨噬细胞可以通过分泌抑制性细胞因子来降低免疫反应。在浸润分析中，enCAF和meCAF两种亚型分别与M1和M2巨噬细胞浸润呈负相关。其中，基于CIBERSORTx结合的单细胞标记基因和转录组数据分析证明了adCAF和erCAF在结肠癌中存在的直接预后作用。

另外采集了20对新鲜结肠癌患者样本和癌旁组织，并在液氮中速冻。然后将样本储存在-80℃用于以后的qRT-PCR分析。简而言之，使用TRIzol试剂提取总RNA。用于qRT-PCR的引物是使用Primer5软件设计的。使用逆转录试剂盒(Takara Biotechnology Co.,Ltd.)制备cDNA，并使用TB Green Premix ExTaq试剂盒和Applied Biosystems Step One PlusReal-Time PCR系统进行qRT-PCR。基于看家基因、ACTB和GAPDH计算Ct值。

因此enCAF和meCAF的预后意义已通过与巨噬细胞的相关性分析和基于20对肿瘤样本的定量逆转录聚合酶链反应(qRT-PCR)实验间接证明。

S92、利用细胞通讯理论识别成纤维细胞的多个亚型间的细胞通讯情况。

识别和说明细胞间信号网络的变化的(iTALK)R包是一种基于scRNA-seq的细胞间通讯分析的新工具，它可以捕获高度丰富的下调或上调的配体-受体基因对。因此，为了分析CAF亚群之间的细胞间通讯，可以采用细胞通讯信号分析工具iTALK包，来分析TCGA结肠癌患者样本的scRNA-seq数据，以对CRC中CAF之间的细胞通讯信号进行分析，获得了CAFs通路、细胞自分泌和细胞因子(如TIMP1-CD63通路和TNFSF14-LTBR对)之间的通讯关系。

对于免疫检查点相关基因，TNF超家族成员14(TNFSF14)-淋巴毒素β受体(LTBR)基因对在CAF5亚型和其他CAF亚型之间的差异表达最为显着。TNFSF14可能有助于血管和三级淋巴结构的形成。TNFSF14-LTBR通路在TME的免疫反应中起着至关重要的作用，但该通路在CC的CAFs中以前没有报道过，可能是CRC免疫治疗的重要靶点。对于细胞因子相关基因，IL6-F3和IL6-IL6ST是最普遍的基因对。在几种类型的癌症中，例如乳腺癌和肝细胞癌，CAF可以分泌IL6以促进肿瘤进展。生长因子是一类与特定的高亲和力细胞膜受体结合的多肽，可以调节细胞生长和其他细胞功能。我们发现作为生长因子的CTGF-ITGA5基因对在不同的CAF亚组中存在显着差异表达。有趣的是，CTGF是TME中已知的多功能调节剂，可激活CAF、促进血管生成和炎症，在各种类型的癌症中充当癌基因。ITGA5是CAF中的一种蛋白质，它负责CAF在CC中的肿瘤促进作用。因此，靶向CTGF-ITGA5通路有望用于具有的患者的CC治疗。因此，我们在细胞和分子水平上描述了CAFs在CC中的预后意义和潜在机制。

分析不仅揭示了细胞间相互作用，而且揭示了自分泌信号，如图21至图22所示。进一步分析了其他因素，包括检查点、细胞因子和生长因子，揭示了CAF亚型相互作用的机制见解。例如，结果表明enCAF亚型通过TIMP1-CD63通路和CXCL12-ITGB1细胞因子信号通路与erCAF亚型相互作用；meCAF亚型和其他所有亚型通过免疫检查点(即TNFSF14-LTBR途径)的相互作用。

其中，通过采用iTALK工具分析CAF亚群之间的配体-受体通讯，确定了总共2,648个已知的配体-受体基因对。进一步将这些基因对分为四组，即细胞因子/趋化因子、免疫检查点基因、生长因子等，以供进一步分析。

简而言之，本发明实施例重新定义了CAF亚型，探索了它们的预后意义，进行了更深入的生物信息学分析，并进行了实验验证，以探索不同CAF亚型在CC发展中的作用。与肿瘤大小和免疫细胞浸润率等指标不同，成纤维细胞的类型和比例可能是CRC的重要预后标志物。因此了解不同CAF亚型的具体作用对于预后预测和肿瘤治疗至关重要。

进一步的，在训练获得结肠癌预后预测模型之后，还可以分别执行以下步骤S93～S96：

S93、利用联合临床指标的多因素Cox风险回归和随机森林算法，对结肠癌预后预测模型进行独立性和代表性检验。

在本发明实施例中，使用结肠癌预后预测模型计算了所有患者样本的风险评分，并基于TCGA临床信息的模型稳健性分析。除MSI突变组外，所有临床特征的风险评分均不同，显着性值低于5e-6亚组。分数的分布也符合临床特征。如图23所示，年龄较大、M1期、N2期、肿瘤期4期和肿瘤等级T3-4的患者组风险评分较高。CAF相关的结肠癌预后预测模型表现良好，不受多种临床因素的干扰，如图24所示。在结合风险评分和临床因素(如MSI突变类型、患者年龄、肿瘤分级和TNM分期)的多重Cox回归分析中，与单独风险评分相比，预后预测不受影响。然而，年龄可能是显着性值为0.004的风险模型的重要影响因素。总体而言，我们的风险评分与1年点、5年点和10年点的OS相关性更好，与肿瘤分期和年龄相比范围更广，如图25所示。模型的校准曲线在训练数据和内部测试数据之间显示出非常稳定和有限的变化，如图26所示。

其中，临床信息和结肠癌预后预测模型的多元cox回归分析基于生存包。我们使用基于rms包的生存时间和生存状态，结合其他临床因素，绘制线图进行临床预后预测，然后用于绘制校准曲线并评估预测的准确性。

S94、利用细胞浸润、肿瘤发生通路、基因通路富集等方式进行该模型预后机制的解释和延伸。

为了评估风险模型与肿瘤指标的关系，我们使用ESTIMATE计算所有TCGA样本的指标评分，包括ESTIMATE评分、肿瘤纯度、免疫评分和基质评分，并用R指数和p值拟合相关曲线。此外，重要证据证实了免疫评分(R＝-0.15，P＝0.0046)、ESTIMATE评分(R＝-0.18，P＝0.00079)、肿瘤纯度(R＝0.18，P＝0.00079)和基质评分(R＝-0.17)之间的相关性，(P＝0.0014)有风险因素。

检查点相关基因CD80、CD86、CD274和PDCD1在高风险评分组中均高表达，如图27所示。GO分析显示大量显着丰富的途径，如翻译起始、蛋白质-DNA亚基组装和G2/M相关细胞周期。HEDGEHOG通路是肿瘤发展的危险因素，是前10种富集通路之一。不限于组差异，这里这些途径和风险评分之间存在非常显着的线性相关性。在高危患者中，HEDGEHOG通路、APICAL通路和NOTCH通路6条经典肿瘤通路被高度激活，而MYCV1和E2F通路2条通路被抑制。大多数促癌途径显示出很强的自相关性。

先前的一项研究表明，EGFR在活化的CAF中过度表达，有助于CC的发展。此外，来自具有上皮-间质转化肿瘤的某些类型的CAF可以逃避酪氨酸激酶抑制剂(TKI)对EGFR的抑制，这表明某些类型的CAF可能与EGFR-TKI耐药性有关。在乳腺癌中，CAF衍生的外泌体能够调节癌细胞中PKM的表达。然而，尚未研究CAF中相关的自分泌信号传导。自分泌信号相关基因(例如CACNA1C、COL4A5、ADRA2B、FZD7、IL20RB、PMCH和EPHB2)在某些类型的癌症中的意义先前已被报道。然而，这些基因的作用尚未在CAF中进行探索。

接下来，我们从模型效果、测试集偏差和临床特征比较等方面验证了所建立的预后特征模型。在两个测试数据中，高风险组和低风险组之间的K-M存活率存在显着差异(P<＝0.0025)。在测试集和训练集的机器学习中，模型偏差非常有限。在多项临床指标的综合分析中，除MSI突变外，危险因素在所有临床特征中均具有较好的分辨率(P<5e-8)。多元回归分析中的模型风险评分替代了除年龄以外的所有因素，列线图具有更好的预测范围。

此后，对该模型的分子机制以及与其他复杂预后因素的相关性进行了综合分析。与直接作用于T细胞不同，结肠癌预后预测模型显示出与多种CLP、DC和MSC的丰富相关性。CLP是淋巴干细胞，可以发育并分化为T细胞、B细胞和NK细胞。作为肠道的优势细胞类型，平滑肌细胞比例高可以解释肿瘤细胞比例低、活性低的原因。DC是体内的专业抗原呈递细胞(APC)。未成熟的DC可以有效地摄取、加工和呈递抗原，从而有效地激活幼稚T细胞，这对于维持免疫反应很重要。间充质干细胞具有促进肿瘤发展的趋势。间充质干细胞分泌的细胞因子可以抑制T细胞的免疫功能，使其浸润肿瘤后实现多种功能。可能受益于上述复杂的细胞间关系，在各种免疫评分算法的评估中，风险评分仍与免疫评分呈负相关。此外，该模型对CC的预后作用还得益于HEDGEHOG、APICAL、NOTCH、MYCV1和E2F等10条经典发育通路，以及翻译起始、蛋白质-DNA亚基组装、G2/M等4种GO富集通路。

其中，使用ESTIMATE软件包计算每个样本的免疫评分。使用xCell包的默认参数计算每个肿瘤样本中不同细胞类型的比例。GSVA软件包用于估计每个样本的通路富集分数。基于来自MsigDB(H集合)的50个标志性途径特征基因集，通过应用GSVA的gseGO功能和使用“c5.all.v7.1.symbols.gmt”基因集的clusterProfiler包进行GO富集分析。对于clusterProfiler的分析，具体参数设置如下：ont＝"BP",nPerm＝1000,minGSSize＝100,MaxGSSize＝1000,p-value cutoff＝0.05。气泡图中显示了所有重要途径，但富集曲线中仅显示了五个最重要的途径。

总体而言，我们建立了一个基于CAF关联的广泛预后预测模型，以取代仅用于CC的传统临床特征。该模型基于癌症的发展途径以及与各种肿瘤微生态细胞的相互作用，实现免疫评分、肿瘤纯度等关键检测指标的统一机制。

S95、利用免疫检查点基因活性和药物敏感性理论，结合结肠癌预后预测模型的风险评分，进行药物敏感性预测。

我们将pRRophetic包应用于TCGA的表达谱，以预测CGP数据库中的药物敏感性。我们选择了GCP数据库中存在的候选药物，并从GDSC数据中在结肠癌细胞中进行了测试。药物敏感性由药物的IC50值表示。IC50代表一半肿瘤细胞死亡时的药物浓度。在我们的研究中，低IC50值代表这种CC更好的药物敏感性。从而可以对临床治疗提供参考和建议。

从CGP数据库中，我们确定了10种对结肠肿瘤敏感的药物，如图28所示。我们测试了这些药物，并确定了总共7种IC50值更好的药物。此7种药物中有3种顺铂、达沙替尼和BMS.536924药物敏感性较差，而7种药物中有3种喜树碱、多西他赛和硼替佐米药物敏感性强。此3种药物与和风险评分之间的关系分别如图29至图31所示。其中，对于多西他赛和硼替佐米，敏感性和风险评分之间存在显着关系，表明多西他赛和硼替佐米可能是低风险结肠癌患者样本更有效的药物。值得注意的是，药物敏感性在线性相关模型中比分组检验具有更好的显着性。不同样本的药敏数据离散类型更为显着，没有明显的聚类效应。

肿瘤微环境TME是一个复杂的局部生态系统，连接肿瘤和身体的其他部位。与直接杀死肿瘤细胞的T细胞或巨噬细胞不同，CAFs通过间接方式在肿瘤发展中发挥作用。尽管CC的临床治疗涉及许多复杂因素，但我们的模型可以根据每个结肠癌患者样本的转录组谱提供潜在的治疗建议。CD80和CD86细胞毒性T淋巴细胞相关蛋白4(CTLA-4)可以与CD80和CD86结合，从而调节T细胞的免疫抑制作用。程序性细胞死亡蛋白1(PD-1)与程序性死亡配体1(PD-L1)结合，转导抑制信号并抑制淋巴结中CD8+T细胞的增殖。PD-1还可以通过调节Bcl-2基因来控制淋巴结中抗原特异性T细胞的积累。显着高表达的检查点相关基因表明高危患者的免疫抑制途径活性较高，这些患者可能受益于拮抗性抗体的治疗。

很少，在我们从GCP和数据库中获得的10种潜在药物中，喜树碱、多西他赛和硼替佐米这三种药物可能是我们研究中CC的潜在候选药物。其次，多西他赛、硼替佐米等药物对低危组患者的肿瘤更敏感，可能有更好的治疗效果。

在本发明中，可使用Linux平台进行单细胞数据的处理。TCGA和GEO RNA-seq数据等转录组数据使用Windows10平台进行处理。其余分析基于R4.0.1平台。使用mgsub、reshape和dplyr包执行数据清理、变形和集成。使用ggpubr和ggplot软件包可视化细胞比例、风险评分、免疫浸润率。使用RColorBrewer软件包进行颜色匹配。相关分析是使用R包中的默认cor_test和stat_compare_means模块实现的。

S96、获取待测样本的关于筛选出的各个预后标记基因的表达量，将各个预后标记基因的表达量输入结肠癌预后预测模型，计算得待测样本的风险评分。

在步骤S96之后，若风险评分大于临界值，确定待测样本为高风险样本；若风险评分小于或等于临界值，确定待测样本为低风险样本。

如图32所示，本发明实施例还公开一种结肠癌预后预测装置，包括获取单元100和计算单元200，其中，

获取单元100，用于获取待测样本的关于筛选出的各个预后标记基因的表达量；

计算单元200，用于将各个预后标记基因的表达量输入结肠癌预后预测模型，计算获得所述待测样本的风险评分。

在本实施例中，结肠癌预后预测装置还可以包括未图示的风险识别单元，用于在计算单元200计算获得待测样本的风险评分之后，根据待测样本的风险评分进行判断：若风险评分大于临界值，确定待测样本为高风险样本；若风险评分小于或等于临界值，确定待测样本为低风险样本。

如图33所示，本发明实施例公开一种电子设备，包括存储有可执行程序代码的存储器300以及与存储器300耦合的处理器400；

其中，处理器400调用存储器300中存储的可执行程序代码，执行上述各实施例中描述的结肠癌预后预测方法。

本发明实施例还公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行上述各实施例中描述的结肠癌预后预测方法。

本发明实施例还公开一种结肠癌预后标记基因的筛选装置，包括未图示的成纤维细胞获取单元、聚类单元、识别单元、回归分析单元和筛选单元，其中，

筛选单元，用于对第一数量个目标差异表达基因进行LASSO-Cox回归分析，从中筛选出第二数量个预后标记基因，第二数量小于第一数量。

本发明实施例还公开另一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行上述各实施例中描述的结肠癌预后标记基因的筛选方法。

本发明实施例还公开一种结肠癌预后预测模型的构建装置，基于上述的结肠癌预后标记基因的筛选装置，构建装置包括未图示的转录组数据获取单元、训练单元和构建单元，其中：

转录组数据获取单元，用于从TCGA数据库和GEO数据库中获取结肠癌RNA转录组数据集以及相应的临床信息；其中，结肠癌RNA转录组数据集包括训练数据集、内部测试数据集和外部测试数据集；

训练单元，用于根据筛选出的预后标记基因，基于LASSO-Cox回归建立mRNA预后预测模型，根据训练数据集对mRNA预后预测模型进行训练获得mRNA预后预测模型中包含的每个预后标记基因的权重系数；

构建单元，用于将每个预后标记基因对应的权重系数，代入mRNA预后预测模型中，获得用于风险评分的结肠癌预后预测模型，并根据内部测试数据集和外部测试数据集对结肠癌预后预测模型进行测试。

本发明实施例还公开另一种计算机可读存储介质，计算机可读存储介质存储计算机程序，其中，计算机程序使得计算机执行上述各实施例中描述的结肠癌预后预测模型的构建方法。

以上实施例的目的，是对本发明的技术方案进行示例性的再现与推导，并以此完整的描述本发明的技术方案、目的及效果，其目的是使公众对本发明的公开内容的理解更加透彻、全面，并不以此限定本发明的保护范围。

以上实施例也并非是基于本发明的穷尽性列举，在此之外，还可以存在多个未列出的其他实施方式。在不违反本发明构思的基础上所作的任何替换与改进，均属本发明的保护范围。

Claims

1.一种结肠癌预后标记基因的筛选方法，其特征在于，包括：

基于limma算法识别多个亚型的差异表达基因；

2.如权利要求1所述的结肠癌预后标记基因的筛选方法，其特征在于，多个亚型包括6个亚型，所述根据功能注释情况定义每个亚型的名称，包括：

分别将6个亚型的名称定义为enCAF、adCAF、vaCAF、meCAF、erCAF和cyCAF。

3.一种如权利要求1或2所述方法筛选得到的结肠癌预后标记基因，其特征在于，包括以下10种mRNA标记基因中的一种或多种组合：

4.如权利要求3所述10种mRNA标记基因中的一种或多种组合在构建用于风险评分的结肠癌预后预测模型中的应用。

5.如权利要求3所述10种mRNA标记基因中的一种或多种组合在制备用于结肠癌预后预测的试剂盒中的应用。

6.一种结肠癌预后预测模型的构建方法，基于权利要求1或2所述的结肠癌预后标记基因的筛选方法，其特征在于，所述构建方法包括：

7.如权利要求6所述的结肠癌预后预测模型的构建方法，其特征在于，其特征在于，所述mRNA预后预测模型的公式为：

其中，S为风险评分，n为预后标记基因数量，w_i代表第i个预后标记基因的权重系数，E_i代表第i个预后标记基因的表达量。

8.如权利要求7所述的结肠癌预后预测模型的构建方法，其特征在于，所述预后标记基因数量n等于10，所述预后标记基因分别包括CACNA1C、COL4A5、ADRA2B、EGFR、LMBR1L、FZD7、PKM、IL20RB、PMCH、EPHB2；

将每个所述预后标记基因对应的权重系数，代入所述mRNA预后预测模型中，获得用于风险评分的结肠癌预后预测模型通过以下公式表示：

S＝(E_CACNA1C×0.195)+(E_COL4A5×0.563)+(E_ADRA2B×0.734)+(E_EGFR×0.082)+(E_LMBR1L×0.299)+(E_FZD7×0.119)+(E_PKM×0.007)+(E_IL20RB×0.384)–(E_PMCH×3.74)–(E_EPHB2×0.055)。

9.一种结肠癌预后预测方法，基于权利要求6至8任一项所述的结肠癌预后预测模型的构建方法，其特征在于，所述预测方法包括：

获取待测样本的关于筛选出的各个预后标记基因的表达量；

10.如权利要求9所述的结肠癌预后预测方法，其特征在于，所述计算获得所述待测样本的风险评分之后，所述方法还包括：

根据所述待测样本的风险评分进行判断：

若所述风险评分大于临界值，确定待测样本为高风险样本；

若所述风险评分小于或等于所述临界值，确定待测样本为低风险样本。

11.一种结肠癌预后预测装置，其特征在于，包括：

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求9或10所述的结肠癌预后预测方法。

13.一种结肠癌预后标记基因的筛选装置，其特征在于，包括：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1或2所述的结肠癌预后标记基因的筛选方法。

15.一种结肠癌预后预测模型的构建装置，基于权利要求13所述的结肠癌预后标记基因的筛选装置，其特征在于，构建装置包括：

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求6至8任一项所述的结肠癌预后预测模型的构建方法。