CN115083608A - 一种基于kras突变结肠癌基因的预后模型的建立方法 - Google Patents

一种基于kras突变结肠癌基因的预后模型的建立方法 Download PDF

Info

Publication number
CN115083608A
CN115083608A CN202210831902.4A CN202210831902A CN115083608A CN 115083608 A CN115083608 A CN 115083608A CN 202210831902 A CN202210831902 A CN 202210831902A CN 115083608 A CN115083608 A CN 115083608A
Authority
CN
China
Prior art keywords
establishing
prognosis
kras
colon cancer
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210831902.4A
Other languages
English (en)
Inventor
张鹤
董伟伟
赵慧霞
胡琰琰
杨静文
张丰云
曾志艳
李秋文
肖文华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fourth Medical Center General Hospital of Chinese PLA
Original Assignee
Fourth Medical Center General Hospital of Chinese PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fourth Medical Center General Hospital of Chinese PLA filed Critical Fourth Medical Center General Hospital of Chinese PLA
Priority to CN202210831902.4A priority Critical patent/CN115083608A/zh
Publication of CN115083608A publication Critical patent/CN115083608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于KRAS突变结肠癌基因的预后模型的建立方法,属于预后模型的技术领域,包括以下步骤:S1:数据采集与预处理:获取样本的矩阵数据及相应的临床信息;S2:预后模型构建:基于获取的数据,进行单因素Cox分析,采用LASSO‑COX回归建立预后模型;S3:KRAS突变状态预测:使用随机森林算法对GEO队列中的KRAS突变状态进行估计;S4:预后模型评估:分别使用内部验证和外部验证对建立的预后模型进行评估。本发明能够建立一个KRAS突变结肠癌的预后模型,特别是在KRAS突变的COAD中,该模型在多个队列中都有很好的表现。

Description

一种基于KRAS突变结肠癌基因的预后模型的建立方法
技术领域
本发明是关于预后模型的技术领域,特别是关于一种基于KRAS突变结肠癌基因的预后模型的建立方法。
背景技术
结肠癌是一种常见的恶性肿瘤,根据国际癌症研究机构(International Agencyfor Research on cancer,IARC)报告的癌症统计数据,2020年全球CRC 新发病例超过190万,死亡病例90万,CRC已成为全球癌症死亡的第二大原因。目前,粪便潜血检查 (FOBT)、粪便免疫化学检查(FIT)、软性乙状结肠镜检查(FS)等方法已被开发用于早期诊断,有助于提高结直肠癌的预后。即便如此,许多结直肠癌患者在晚期才被诊断出来。因此,CRC患者的预后仍然较差。
Kirsten大鼠肉瘤病毒癌基因(KRAS)突变是多种肿瘤发生的驱动因素。 KRAS基因突变占所有结肠病例的40%,其作为结肠癌分子靶向治疗药物—西妥昔单抗选择的重要治疗预测标志物;然而,KRAS基因突变是否能作为结肠癌的预后标志物?肿瘤学界仍然争论不休;一些回顾性资料支持KRAS 突变可能预示结肠癌患者预后不良;而另一些研究则不支持这种观点,认为单一KRAS突变指标无法预测结肠癌患者的预后,联合p53基因异常或微卫星稳定患者才有预后价值。
到目前为止,没有证据证明KRAS突变能够作为结肠癌的预后因素,本发明通过建立基于KRAS突变结肠癌基因的预后模型,进一步通过建立36个基因的表达检测把KRAS突变结肠癌分为低危和高危,有利于区别对待(治疗)。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本发明的目的在于提供一种基于KRAS突变结肠癌基因的预后模型的建立方法,其能够建立一个KRAS突变结肠癌的预后模型,特别是在KRAS突变的COAD中,该模型在多个队列中都有很好的表现。
为实现上述目的,本发明提供了一种基于KRAS突变结肠癌基因的预后模型的建立方法,包括以下步骤:
S1:数据采集与预处理:获取样本的矩阵数据及相应的临床信息;
S2:预后模型构建:基于获取的数据,进行单因素Cox分析,采用 LASSO-COX回归建立预后模型;
S3:KRAS突变状态预测:使用随机森林算法对GEO队列中的KRAS突变状态进行估计;
S4:预后模型评估:分别使用内部验证和外部验证对建立的预后模型进行评估。
在本发明的一实施方式中,所述矩阵数据共包括5个COAD数据集,分别为3个微阵列数据集和2个RNA-seq数据集;3个微阵列数据集分别为 GSE41258数据集、GSE39582数据集和GSE17536数据集;2个RNA-seq数据集包括TCGA-COAD队列和CPTAC-COAD队列。
在本发明的一实施方式中,步骤S2包括以下具体的步骤:
S201:将GSE39582中的KRAS突变样本随机化到训练集和测试集;
S202:采用最小绝对收缩和选择算子建立预后模型,并利用训练集中的“glmnet”R包采用LASSO-COX回归建立预后模型;
S203:根据所选基因的表达水平和系数计算样本的风险评分:
Figure BDA0003748774890000031
在本发明的一实施方式中,步骤S3中,使用随机森林算法在GSE39582 数据集中对GEO队列中的KRAS突变状态进行了估计。
在本发明的一实施方式中,步骤S4中,使用GSE39582数据集的测试集作为内部验证,RNA-seq联合队列和GEO联合队列中KRAS突变体估计样本作为外部验证。
在本发明的一实施方式中,步骤S4包括以下具体的步骤:
S401:根据风险评分公式计算每个样本的风险评分,并根据风险评分中值将每个集合中的样本分别划分为高风险组和低风险组;
S402:采用Kaplan-Meier生存分析估计和绘制高危和低危样本的生存曲线,log-rank检验两组生存时间的差异,通过“timeROC”R包进行时间依赖性ROC曲线测试计算的准确性;
S403:使用多因素分析用于评估我们的预后特征对COAD预后的独立性。采用校正曲线检验nomogram预测效率。
与现有技术相比,根据本发明的一种基于KRAS突变结肠癌基因的预后模型的建立方法,采用LASSO-COX方法选择最优组合,并根据训练集中的预后基因,建立了一个新的预后模型,特别是在KRAS突变的COAD中,该模型在多个队列中都有很好的表现,能够为KRAS突变的COAD患者的个体化预后管理提供了新的策略,为精准治疗提供新的思路。
附图说明
图1是根据本发明一实施方式的一种基于KRAS突变结肠癌基因的预后模型的建立方法的步骤流程图;
图2是根据本发明一实施方式的一种基于KRAS突变结肠癌基因的预后模型的建立方法的流程示意图。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
如图1至图2所示,根据本发明优选实施方式的一种基于KRAS突变结肠癌基因的预后模型的建立方法,使用Randomforest方法以在更大样本量下获得更可靠的结果。
该方法包括以下步骤:
S1:数据采集与预处理:获取样本的矩阵数据及相应的临床信息。
本步骤中,矩阵数据共包括5个COAD数据集,分别为3个微阵列数据集和2个RNA-seq数据集。
3个微阵列数据集分别为GSE41258数据集、GSE39582数据集和 GSE17536数据集;2个RNA-seq数据集包括TCGA-COAD队列和 CPTAC-COAD队列,获取途径具体如下:
GSE39582数据集中的数据从GPL570平台中获取。具体地,从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载GSE39582中的585例样本的矩阵数据及相应的临床信息,其中,将没有KRAS突变数据以及生存信息的样本剔除,得到541例样本数据。GSE17536数据集中的数据从GPL570平台获取,GSE41258数据集中的数据从GPL96平台中获取。具体地,从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载GSE17536中390例样本和GSE41258中182例样本的矩阵数据及相应的临床信息,其中,GSE41258数据集中只有182例原发性肝癌的临床信息数据,所以本发明中在GSE41258 数据集中只选取这182例样本。
TCGA-COAD队列:从癌症基因组图谱(TCGA)数据库 (https://portal.gdc.cancer.gov)中下载461例样本的转录组谱、突变数据和临床随访信息,将TCGA-COAD队列中不包含完整RNA-seq表达谱、突变谱和临床信息的样本被剔除后,用于后续分析的样本数为414例,其中包括161 例KRAS突变样本(TCGA-COAD队列)。
CPTAC-COAD队列:临床蛋白质组学肿瘤分析联盟(CPTAC)前瞻性收集的结肠癌队列与来自110例结肠癌患者的配对肿瘤和非肿瘤结肠组织一致。 RNA测序数据、突变数据和临床数据均来自cBioPortal数据库 (https://www.cbioportal.org/study/summary?id=coad_cptac_2019)。剔除没有生存信息的样本后,剩余106个样本纳入到CPTAC-COAD队列,其中包括35 个KRAS突变样本。
去除批处理效应后,将TCGA-COAD队列中的161个KRAS突变体样本与CPTAC-COAD队列中的35个KRAS突变体样本合并为一个RNA-seq队列进行进一步分析。
S2:预后模型构建:基于获取的数据,进行单因素Cox分析,采用最小绝对收缩和选择算子建立预后模型。
本步骤中,GSE39582数据中216例KRAS突变的样本用于模型构建,对 GSE39582数据进行单因素Cox分析,以确定与KRAS突变型COAD预后相关的基因。
具体地,该步骤包括以下具体的步骤:
S201:将GSE39582中的KRAS突变样本随机化到训练集和测试集,优选的训练集和测试集的比例为7:3或是8:2。在训练集中评估预后模型。测试集作为内部验证,GSE39582、RNA-seq联合队列和GEO联合队列中KRAS 突变体估计样本作为外部验证。
S202:采用最小绝对收缩和选择算子建立预后模型,并利用训练集中的“glmnet”R包进行LASSO-COX回归建立预后模型。
最小绝对收缩和选择算子(Least absolute shrinkage and selectionoperator, LASSO)是一种采用l1-正则化的线性回归方法,使学习到的一些特征的权值为零,同时通过正则化实现变量选择,避免过拟合。
S203:根据所选基因的表达水平和系数计算样本的风险评分:
Figure BDA0003748774890000061
风险评分中的系数指的是预测变量对结局风险的相对贡献,本模型中的 coefi即表示模型基因对患者生存风险的相对贡献,数值通过COX回归分析获得,expri表示患者的生存风险。
S3:KRAS突变状态预测:使用随机森林算法在GSE39582数据集中对 GEO队列中的KRAS突变状态进行估计。
算法是通过训练多个决策树,生成模型,然后综合利用多个决策树的分类结果进行投票,从而实现分类。随机森林算法只需要两个参数:构建的决策树的个数t,在决策树的每个节点进行分裂时需要考虑的输入特征的个数m。
GEO队列包括两个没有突变的数据集(GSE17536和GSE41258),并将它们合并成一个GEO队列,目的是为了获得更大样本量更可靠的结果。
随机森林算法是一种机器学习方法,其通过建立多个决策树并将它们合并在一起以获得更准确和稳定的预测。决策树是通过查看特征的重要性,将对预测过程贡献较低或无贡献的特征丢弃,得到对预测过程具有足够贡献的特征。本研究中,随机森林算法通过构建多个决策树将GSE39582数据集中 KRAS突变型样本的数据特征进行整合,得到一个获得一个用于鉴别样本 KRAS突变状态的模型,使用该模型对缺少KRAS突变状态的样本进行预测。
因此,利用随机森林分析在GSE39582中对GEO队列中的KRAS突变状态进行了估计。最后,GEO队列中的51个样本被预测为KRAS突变样本,这51个估计的KRAS突变样本被用作预后模型的验证。
S4:预后模型评估:分别使用内部验证和外部验证对建立的预后模型进行评估。
使用GSE39582数据集的测试集作为内部验证,RNA-seq联合队列和GEO 联合队列中KRAS突变体估计样本作为外部验证。
具体地,该步骤S4包括以下具体的步骤:
S401:根据统一公式(即步骤S2中的风险评分公式)计算每个样本的风险评分,并根据风险评分中值将每个集合中的样本分别划分为高风险组和低风险组。
S402:采用Kaplan-Meier生存分析估计和绘制高危和低危样本的生存曲线,log-rank检验两组生存时间的差异,通过“timeROC”R包进行时间依赖性ROC曲线测试计算的准确性。
受试者工作特征(Receiver operating characteristic,ROC)曲线是分析分类器准确性的直观方法,曲线下面积(area under curve,AUC)值一直是判断预后模型准确性的标准。
S403:使用多因素分析用于评估我们的预后特征对COAD预后的独立性。采用校正曲线检验nomogram预测效率。
此外,本发明的一种基于KRAS突变结肠癌基因的预后模型的建立方法,还能够用于CCLE数据库中下载的人类癌细胞系(20个)的表达谱数据和体细胞突变数据,以获取潜在的药物靶点;并且能够用于GDSC数据库中下载的肿瘤细胞系药敏感数据,以获取潜在的治疗药物。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (6)

1.一种基于KRAS突变结肠癌基因的预后模型的建立方法,其特征在于,包括以下步骤:
S1:数据采集与预处理:获取样本的矩阵数据及相应的临床信息;
S2:预后模型构建:基于获取的数据,进行单因素Cox分析,采用LASSO-COX回归建立预后模型;
S3:KRAS突变状态预测:使用随机森林算法对GEO队列中的KRAS突变状态进行估计;
S4:预后模型评估:分别使用内部验证和外部验证对建立的预后模型进行评估。
2.如权利要求1所述的基于KRAS突变结肠癌基因的预后模型的建立方法,其特征在于,所述矩阵数据共包括5个COAD数据集,分别为3个微阵列数据集和2个RNA-seq数据集;3个微阵列数据集分别为GSE41258数据集、GSE39582数据集和GSE17536数据集;2个RNA-seq数据集包括TCGA-COAD队列和CPTAC-COAD队列。
3.如权利要求2所述的基于KRAS突变结肠癌基因的预后模型的建立方法,其特征在于,步骤S2包括以下具体的步骤:
S201:将GSE39582中的KRAS突变样本随机化到训练集和测试集;
S202:采用最小绝对收缩和选择算子建立预后模型,并利用训练集中的“glmnet”R包采用LASSO-COX回归建立预后模型;
S203:根据所选基因的表达水平和系数计算样本的风险评分:
Figure FDA0003748774880000011
4.如权利要求2所述的基于KRAS突变结肠癌基因的预后模型的建立方法,其特征在于,步骤S3中,使用随机森林算法在GSE39582数据集中对GEO队列中的KRAS突变状态进行了估计。
5.如权利要求2所述的基于KRAS突变结肠癌基因的预后模型的建立方法,其特征在于,步骤S4中,使用GSE39582数据集的测试集作为内部验证,RNA-seq联合队列和GEO联合队列中KRAS突变体估计样本作为外部验证。
6.如权利要求5所述的基于KRAS突变结肠癌基因的预后模型的建立方法,其特征在于,步骤S4包括以下具体的步骤:
S401:根据风险评分公式计算每个样本的风险评分,并根据风险评分中值将每个集合中的样本分别划分为高风险组和低风险组;
S402:采用Kaplan-Meier生存分析估计和绘制高危和低危样本的生存曲线,log-rank检验两组生存时间的差异,通过“timeROC”R包进行时间依赖性ROC曲线测试计算的准确性;
S403:使用多因素分析用于评估我们的预后特征对COAD预后的独立性。采用校正曲线检验nomogram预测效率。
CN202210831902.4A 2022-07-15 2022-07-15 一种基于kras突变结肠癌基因的预后模型的建立方法 Pending CN115083608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210831902.4A CN115083608A (zh) 2022-07-15 2022-07-15 一种基于kras突变结肠癌基因的预后模型的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210831902.4A CN115083608A (zh) 2022-07-15 2022-07-15 一种基于kras突变结肠癌基因的预后模型的建立方法

Publications (1)

Publication Number Publication Date
CN115083608A true CN115083608A (zh) 2022-09-20

Family

ID=83260572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210831902.4A Pending CN115083608A (zh) 2022-07-15 2022-07-15 一种基于kras突变结肠癌基因的预后模型的建立方法

Country Status (1)

Country Link
CN (1) CN115083608A (zh)

Similar Documents

Publication Publication Date Title
Biswas et al. A clonal expression biomarker associates with lung cancer mortality
Ou et al. Biomarker discovery and validation: statistical considerations
CN109859801B (zh) 一种含有七个基因作为生物标志物预测肺鳞癌预后的模型及建立方法
Azim Jr et al. Utility of prognostic genomic tests in breast cancer practice: The IMPAKT 2012 Working Group Consensus Statement
CN112635063B (zh) 一种肺癌预后综合预测模型、构建方法及装置
Milanez-Almeida et al. Cancer prognosis with shallow tumor RNA sequencing
CN110577998A (zh) 预测肝癌术后早期复发风险分子模型的构建及其应用评估
JP2020522690A (ja) 肺疾病の特定又はモニタリング方法及びシステム
CN111564214B (zh) 一种基于7个特殊基因的乳腺癌预后评估模型的建立与验证方法
CN113140258A (zh) 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法
CN114317532B (zh) 用于预测白血病预后的评估基因集、试剂盒、系统及应用
CN113066585A (zh) 一种基于免疫基因表达特征谱对ⅱ期结直肠癌患者预后进行高效快捷评估的方法
CN115410713A (zh) 一种基于免疫相关基因的肝细胞癌预后风险预测模型构建
CN111128385A (zh) 一种用于食管鳞癌的预后预警系统及其应用
Keller et al. Comparison of donor‐derived cell‐free DNA between single versus double lung transplant recipients
CN112626218A (zh) 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒
CN115497552A (zh) 一种基于内质网应激特征基因的胃癌预后风险模型和应用
Zhang et al. Deep learning-based methods for classification of microsatellite instability in endometrial cancer from HE-stained pathological images
Vijayan et al. Blood-based transcriptomic signature panel identification for cancer diagnosis: benchmarking of feature extraction methods
Wong et al. Regional and bilateral MRI and gene signatures in facioscapulohumeral dystrophy: implications for clinical trial design and mechanisms of disease progression
CN115083608A (zh) 一种基于kras突变结肠癌基因的预后模型的建立方法
CN116469552A (zh) 一种用于乳腺癌多基因遗传风险评估的方法和系统
Tournoud et al. A strategy to build and validate a prognostic biomarker model based on RT-qPCR gene expression and clinical covariates
Cheng et al. Early signatures of breast cancer up to seven years prior to clinical diagnosis in plasma cell-free DNA methylomes
KR20220085139A (ko) 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination