CN115083608A

CN115083608A - 一种基于kras突变结肠癌基因的预后模型的建立方法

Info

Publication number: CN115083608A
Application number: CN202210831902.4A
Authority: CN
Inventors: 张鹤; 董伟伟; 赵慧霞; 胡琰琰; 杨静文; 张丰云; 曾志艳; 李秋文; 肖文华
Original assignee: Fourth Medical Center General Hospital of Chinese PLA
Current assignee: Fourth Medical Center General Hospital of Chinese PLA
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-09-20

Abstract

本发明公开了一种基于KRAS突变结肠癌基因的预后模型的建立方法，属于预后模型的技术领域，包括以下步骤：S1：数据采集与预处理：获取样本的矩阵数据及相应的临床信息；S2：预后模型构建：基于获取的数据，进行单因素Cox分析，采用LASSO‑COX回归建立预后模型；S3：KRAS突变状态预测：使用随机森林算法对GEO队列中的KRAS突变状态进行估计；S4：预后模型评估：分别使用内部验证和外部验证对建立的预后模型进行评估。本发明能够建立一个KRAS突变结肠癌的预后模型，特别是在KRAS突变的COAD中，该模型在多个队列中都有很好的表现。

Description

一种基于KRAS突变结肠癌基因的预后模型的建立方法

技术领域

本发明是关于预后模型的技术领域，特别是关于一种基于KRAS突变结肠癌基因的预后模型的建立方法。

背景技术

结肠癌是一种常见的恶性肿瘤，根据国际癌症研究机构(International Agencyfor Research on cancer,IARC)报告的癌症统计数据，2020年全球CRC 新发病例超过190万，死亡病例90万，CRC已成为全球癌症死亡的第二大原因。目前，粪便潜血检查 (FOBT)、粪便免疫化学检查(FIT)、软性乙状结肠镜检查(FS)等方法已被开发用于早期诊断，有助于提高结直肠癌的预后。即便如此，许多结直肠癌患者在晚期才被诊断出来。因此，CRC患者的预后仍然较差。

Kirsten大鼠肉瘤病毒癌基因(KRAS)突变是多种肿瘤发生的驱动因素。 KRAS基因突变占所有结肠病例的40％，其作为结肠癌分子靶向治疗药物—西妥昔单抗选择的重要治疗预测标志物；然而，KRAS基因突变是否能作为结肠癌的预后标志物？肿瘤学界仍然争论不休；一些回顾性资料支持KRAS 突变可能预示结肠癌患者预后不良；而另一些研究则不支持这种观点，认为单一KRAS突变指标无法预测结肠癌患者的预后，联合p53基因异常或微卫星稳定患者才有预后价值。

到目前为止，没有证据证明KRAS突变能够作为结肠癌的预后因素，本发明通过建立基于KRAS突变结肠癌基因的预后模型，进一步通过建立36个基因的表达检测把KRAS突变结肠癌分为低危和高危，有利于区别对待(治疗)。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本发明的目的在于提供一种基于KRAS突变结肠癌基因的预后模型的建立方法，其能够建立一个KRAS突变结肠癌的预后模型，特别是在KRAS突变的COAD中，该模型在多个队列中都有很好的表现。

为实现上述目的，本发明提供了一种基于KRAS突变结肠癌基因的预后模型的建立方法，包括以下步骤：

S1：数据采集与预处理：获取样本的矩阵数据及相应的临床信息；

S2：预后模型构建：基于获取的数据，进行单因素Cox分析，采用 LASSO-COX回归建立预后模型；

S3：KRAS突变状态预测：使用随机森林算法对GEO队列中的KRAS突变状态进行估计；

S4：预后模型评估：分别使用内部验证和外部验证对建立的预后模型进行评估。

在本发明的一实施方式中，所述矩阵数据共包括5个COAD数据集，分别为3个微阵列数据集和2个RNA-seq数据集；3个微阵列数据集分别为 GSE41258数据集、GSE39582数据集和GSE17536数据集；2个RNA-seq数据集包括TCGA-COAD队列和CPTAC-COAD队列。

在本发明的一实施方式中，步骤S2包括以下具体的步骤：

S201：将GSE39582中的KRAS突变样本随机化到训练集和测试集；

S202：采用最小绝对收缩和选择算子建立预后模型，并利用训练集中的“glmnet”R包采用LASSO-COX回归建立预后模型；

S203：根据所选基因的表达水平和系数计算样本的风险评分：

在本发明的一实施方式中，步骤S3中，使用随机森林算法在GSE39582 数据集中对GEO队列中的KRAS突变状态进行了估计。

在本发明的一实施方式中，步骤S4中，使用GSE39582数据集的测试集作为内部验证，RNA-seq联合队列和GEO联合队列中KRAS突变体估计样本作为外部验证。

在本发明的一实施方式中，步骤S4包括以下具体的步骤：

S401：根据风险评分公式计算每个样本的风险评分，并根据风险评分中值将每个集合中的样本分别划分为高风险组和低风险组；

S402：采用Kaplan-Meier生存分析估计和绘制高危和低危样本的生存曲线，log-rank检验两组生存时间的差异，通过“timeROC”R包进行时间依赖性ROC曲线测试计算的准确性；

S403：使用多因素分析用于评估我们的预后特征对COAD预后的独立性。采用校正曲线检验nomogram预测效率。

与现有技术相比，根据本发明的一种基于KRAS突变结肠癌基因的预后模型的建立方法，采用LASSO-COX方法选择最优组合，并根据训练集中的预后基因，建立了一个新的预后模型，特别是在KRAS突变的COAD中，该模型在多个队列中都有很好的表现，能够为KRAS突变的COAD患者的个体化预后管理提供了新的策略，为精准治疗提供新的思路。

附图说明

图1是根据本发明一实施方式的一种基于KRAS突变结肠癌基因的预后模型的建立方法的步骤流程图；

图2是根据本发明一实施方式的一种基于KRAS突变结肠癌基因的预后模型的建立方法的流程示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

如图1至图2所示，根据本发明优选实施方式的一种基于KRAS突变结肠癌基因的预后模型的建立方法，使用Randomforest方法以在更大样本量下获得更可靠的结果。

该方法包括以下步骤：

S1：数据采集与预处理：获取样本的矩阵数据及相应的临床信息。

本步骤中，矩阵数据共包括5个COAD数据集，分别为3个微阵列数据集和2个RNA-seq数据集。

3个微阵列数据集分别为GSE41258数据集、GSE39582数据集和 GSE17536数据集；2个RNA-seq数据集包括TCGA-COAD队列和 CPTAC-COAD队列，获取途径具体如下：

GSE39582数据集中的数据从GPL570平台中获取。具体地，从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载GSE39582中的585例样本的矩阵数据及相应的临床信息，其中，将没有KRAS突变数据以及生存信息的样本剔除，得到541例样本数据。GSE17536数据集中的数据从GPL570平台获取，GSE41258数据集中的数据从GPL96平台中获取。具体地，从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载GSE17536中390例样本和GSE41258中182例样本的矩阵数据及相应的临床信息，其中，GSE41258数据集中只有182例原发性肝癌的临床信息数据，所以本发明中在GSE41258 数据集中只选取这182例样本。

TCGA-COAD队列：从癌症基因组图谱(TCGA)数据库 (https://portal.gdc.cancer.gov)中下载461例样本的转录组谱、突变数据和临床随访信息，将TCGA-COAD队列中不包含完整RNA-seq表达谱、突变谱和临床信息的样本被剔除后，用于后续分析的样本数为414例，其中包括161 例KRAS突变样本(TCGA-COAD队列)。

CPTAC-COAD队列：临床蛋白质组学肿瘤分析联盟(CPTAC)前瞻性收集的结肠癌队列与来自110例结肠癌患者的配对肿瘤和非肿瘤结肠组织一致。 RNA测序数据、突变数据和临床数据均来自cBioPortal数据库 (https://www.cbioportal.org/study/summary？id＝coad_cptac_2019)。剔除没有生存信息的样本后，剩余106个样本纳入到CPTAC-COAD队列，其中包括35 个KRAS突变样本。

去除批处理效应后，将TCGA-COAD队列中的161个KRAS突变体样本与CPTAC-COAD队列中的35个KRAS突变体样本合并为一个RNA-seq队列进行进一步分析。

S2：预后模型构建：基于获取的数据，进行单因素Cox分析，采用最小绝对收缩和选择算子建立预后模型。

本步骤中，GSE39582数据中216例KRAS突变的样本用于模型构建，对 GSE39582数据进行单因素Cox分析，以确定与KRAS突变型COAD预后相关的基因。

具体地，该步骤包括以下具体的步骤：

S201：将GSE39582中的KRAS突变样本随机化到训练集和测试集，优选的训练集和测试集的比例为7:3或是8:2。在训练集中评估预后模型。测试集作为内部验证，GSE39582、RNA-seq联合队列和GEO联合队列中KRAS 突变体估计样本作为外部验证。

S202：采用最小绝对收缩和选择算子建立预后模型，并利用训练集中的“glmnet”R包进行LASSO-COX回归建立预后模型。

最小绝对收缩和选择算子(Least absolute shrinkage and selectionoperator, LASSO)是一种采用l1-正则化的线性回归方法，使学习到的一些特征的权值为零，同时通过正则化实现变量选择，避免过拟合。

S203：根据所选基因的表达水平和系数计算样本的风险评分：

风险评分中的系数指的是预测变量对结局风险的相对贡献，本模型中的 coef_i即表示模型基因对患者生存风险的相对贡献，数值通过COX回归分析获得，expr_i表示患者的生存风险。

S3：KRAS突变状态预测：使用随机森林算法在GSE39582数据集中对 GEO队列中的KRAS突变状态进行估计。

算法是通过训练多个决策树，生成模型，然后综合利用多个决策树的分类结果进行投票，从而实现分类。随机森林算法只需要两个参数：构建的决策树的个数t，在决策树的每个节点进行分裂时需要考虑的输入特征的个数m。

GEO队列包括两个没有突变的数据集(GSE17536和GSE41258)，并将它们合并成一个GEO队列，目的是为了获得更大样本量更可靠的结果。

随机森林算法是一种机器学习方法，其通过建立多个决策树并将它们合并在一起以获得更准确和稳定的预测。决策树是通过查看特征的重要性，将对预测过程贡献较低或无贡献的特征丢弃，得到对预测过程具有足够贡献的特征。本研究中，随机森林算法通过构建多个决策树将GSE39582数据集中 KRAS突变型样本的数据特征进行整合，得到一个获得一个用于鉴别样本 KRAS突变状态的模型，使用该模型对缺少KRAS突变状态的样本进行预测。

因此，利用随机森林分析在GSE39582中对GEO队列中的KRAS突变状态进行了估计。最后，GEO队列中的51个样本被预测为KRAS突变样本，这51个估计的KRAS突变样本被用作预后模型的验证。

使用GSE39582数据集的测试集作为内部验证，RNA-seq联合队列和GEO 联合队列中KRAS突变体估计样本作为外部验证。

具体地，该步骤S4包括以下具体的步骤：

S401：根据统一公式(即步骤S2中的风险评分公式)计算每个样本的风险评分，并根据风险评分中值将每个集合中的样本分别划分为高风险组和低风险组。

S402：采用Kaplan-Meier生存分析估计和绘制高危和低危样本的生存曲线，log-rank检验两组生存时间的差异，通过“timeROC”R包进行时间依赖性ROC曲线测试计算的准确性。

受试者工作特征(Receiver operating characteristic,ROC)曲线是分析分类器准确性的直观方法，曲线下面积(area under curve,AUC)值一直是判断预后模型准确性的标准。

此外，本发明的一种基于KRAS突变结肠癌基因的预后模型的建立方法，还能够用于CCLE数据库中下载的人类癌细胞系(20个)的表达谱数据和体细胞突变数据，以获取潜在的药物靶点；并且能够用于GDSC数据库中下载的肿瘤细胞系药敏感数据，以获取潜在的治疗药物。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种基于KRAS突变结肠癌基因的预后模型的建立方法，其特征在于，包括以下步骤：

S2：预后模型构建：基于获取的数据，进行单因素Cox分析，采用LASSO-COX回归建立预后模型；

2.如权利要求1所述的基于KRAS突变结肠癌基因的预后模型的建立方法，其特征在于，所述矩阵数据共包括5个COAD数据集，分别为3个微阵列数据集和2个RNA-seq数据集；3个微阵列数据集分别为GSE41258数据集、GSE39582数据集和GSE17536数据集；2个RNA-seq数据集包括TCGA-COAD队列和CPTAC-COAD队列。

3.如权利要求2所述的基于KRAS突变结肠癌基因的预后模型的建立方法，其特征在于，步骤S2包括以下具体的步骤：

S201：将GSE39582中的KRAS突变样本随机化到训练集和测试集；

S203：根据所选基因的表达水平和系数计算样本的风险评分：

4.如权利要求2所述的基于KRAS突变结肠癌基因的预后模型的建立方法，其特征在于，步骤S3中，使用随机森林算法在GSE39582数据集中对GEO队列中的KRAS突变状态进行了估计。

5.如权利要求2所述的基于KRAS突变结肠癌基因的预后模型的建立方法，其特征在于，步骤S4中，使用GSE39582数据集的测试集作为内部验证，RNA-seq联合队列和GEO联合队列中KRAS突变体估计样本作为外部验证。

6.如权利要求5所述的基于KRAS突变结肠癌基因的预后模型的建立方法，其特征在于，步骤S4包括以下具体的步骤：