CN115083608A - 一种基于kras突变结肠癌基因的预后模型的建立方法 - Google Patents

一种基于kras突变结肠癌基因的预后模型的建立方法 Download PDF

Info

Publication number
CN115083608A
CN115083608A CN202210831902.4A CN202210831902A CN115083608A CN 115083608 A CN115083608 A CN 115083608A CN 202210831902 A CN202210831902 A CN 202210831902A CN 115083608 A CN115083608 A CN 115083608A
Authority
CN
China
Prior art keywords
kras
establishing
model
colon cancer
prognosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210831902.4A
Other languages
English (en)
Inventor
张鹤
董伟伟
赵慧霞
胡琰琰
杨静文
张丰云
曾志艳
李秋文
肖文华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fourth Medical Center General Hospital of Chinese PLA
Original Assignee
Fourth Medical Center General Hospital of Chinese PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fourth Medical Center General Hospital of Chinese PLA filed Critical Fourth Medical Center General Hospital of Chinese PLA
Priority to CN202210831902.4A priority Critical patent/CN115083608A/zh
Publication of CN115083608A publication Critical patent/CN115083608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于KRAS突变结肠癌基因的预后模型的建立方法,属于预后模型的技术领域,包括以下步骤:S1:数据采集与预处理:获取样本的矩阵数据及相应的临床信息;S2:预后模型构建:基于获取的数据,进行单因素Cox分析,采用LASSO‑COX回归建立预后模型;S3:KRAS突变状态预测:使用随机森林算法对GEO队列中的KRAS突变状态进行估计;S4:预后模型评估:分别使用内部验证和外部验证对建立的预后模型进行评估。本发明能够建立一个KRAS突变结肠癌的预后模型,特别是在KRAS突变的COAD中,该模型在多个队列中都有很好的表现。

Description

一种基于KRAS突变结肠癌基因的预后模型的建立方法
技术领域
本发明是关于预后模型的技术领域,特别是关于一种基于KRAS突变结肠癌基因的预后模型的建立方法。
背景技术
结肠癌是一种常见的恶性肿瘤,根据国际癌症研究机构(International Agencyfor Research on cancer,IARC)报告的癌症统计数据,2020年全球CRC 新发病例超过190万,死亡病例90万,CRC已成为全球癌症死亡的第二大原因。目前,粪便潜血检查 (FOBT)、粪便免疫化学检查(FIT)、软性乙状结肠镜检查(FS)等方法已被开发用于早期诊断,有助于提高结直肠癌的预后。即便如此,许多结直肠癌患者在晚期才被诊断出来。因此,CRC患者的预后仍然较差。
Kirsten大鼠肉瘤病毒癌基因(KRAS)突变是多种肿瘤发生的驱动因素。 KRAS基因突变占所有结肠病例的40%,其作为结肠癌分子靶向治疗药物—西妥昔单抗选择的重要治疗预测标志物;然而,KRAS基因突变是否能作为结肠癌的预后标志物?肿瘤学界仍然争论不休;一些回顾性资料支持KRAS 突变可能预示结肠癌患者预后不良;而另一些研究则不支持这种观点,认为单一KRAS突变指标无法预测结肠癌患者的预后,联合p53基因异常或微卫星稳定患者才有预后价值。
到目前为止,没有证据证明KRAS突变能够作为结肠癌的预后因素,本发明通过建立基于KRAS突变结肠癌基因的预后模型,进一步通过建立36个基因的表达检测把KRAS突变结肠癌分为低危和高危,有利于区别对待(治疗)。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本发明的目的在于提供一种基于KRAS突变结肠癌基因的预后模型的建立方法,其能够建立一个KRAS突变结肠癌的预后模型,特别是在KRAS突变的COAD中,该模型在多个队列中都有很好的表现。
为实现上述目的,本发明提供了一种基于KRAS突变结肠癌基因的预后模型的建立方法,包括以下步骤:
S1:数据采集与预处理:获取样本的矩阵数据及相应的临床信息;
S2:预后模型构建:基于获取的数据,进行单因素Cox分析,采用 LASSO-COX回归建立预后模型;
S3:KRAS突变状态预测:使用随机森林算法对GEO队列中的KRAS突变状态进行估计;
S4:预后模型评估:分别使用内部验证和外部验证对建立的预后模型进行评估。
在本发明的一实施方式中,所述矩阵数据共包括5个COAD数据集,分别为3个微阵列数据集和2个RNA-seq数据集;3个微阵列数据集分别为 GSE41258数据集、GSE39582数据集和GSE17536数据集;2个RNA-seq数据集包括TCGA-COAD队列和CPTAC-COAD队列。
在本发明的一实施方式中,步骤S2包括以下具体的步骤:
S201:将GSE39582中的KRAS突变样本随机化到训练集和测试集;
S202:采用最小绝对收缩和选择算子建立预后模型,并利用训练集中的“glmnet”R包采用LASSO-COX回归建立预后模型;
S203:根据所选基因的表达水平和系数计算样本的风险评分:
Figure BDA0003748774890000031
在本发明的一实施方式中,步骤S3中,使用随机森林算法在GSE39582 数据集中对GEO队列中的KRAS突变状态进行了估计。
在本发明的一实施方式中,步骤S4中,使用GSE39582数据集的测试集作为内部验证,RNA-seq联合队列和GEO联合队列中KRAS突变体估计样本作为外部验证。
在本发明的一实施方式中,步骤S4包括以下具体的步骤:
S401:根据风险评分公式计算每个样本的风险评分,并根据风险评分中值将每个集合中的样本分别划分为高风险组和低风险组;
S402:采用Kaplan-Meier生存分析估计和绘制高危和低危样本的生存曲线,log-rank检验两组生存时间的差异,通过“timeROC”R包进行时间依赖性ROC曲线测试计算的准确性;
S403:使用多因素分析用于评估我们的预后特征对COAD预后的独立性。采用校正曲线检验nomogram预测效率。
与现有技术相比,根据本发明的一种基于KRAS突变结肠癌基因的预后模型的建立方法,采用LASSO-COX方法选择最优组合,并根据训练集中的预后基因,建立了一个新的预后模型,特别是在KRAS突变的COAD中,该模型在多个队列中都有很好的表现,能够为KRAS突变的COAD患者的个体化预后管理提供了新的策略,为精准治疗提供新的思路。
附图说明
图1是根据本发明一实施方式的一种基于KRAS突变结肠癌基因的预后模型的建立方法的步骤流程图;
图2是根据本发明一实施方式的一种基于KRAS突变结肠癌基因的预后模型的建立方法的流程示意图。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
如图1至图2所示,根据本发明优选实施方式的一种基于KRAS突变结肠癌基因的预后模型的建立方法,使用Randomforest方法以在更大样本量下获得更可靠的结果。
该方法包括以下步骤:
S1:数据采集与预处理:获取样本的矩阵数据及相应的临床信息。
本步骤中,矩阵数据共包括5个COAD数据集,分别为3个微阵列数据集和2个RNA-seq数据集。
3个微阵列数据集分别为GSE41258数据集、GSE39582数据集和 GSE17536数据集;2个RNA-seq数据集包括TCGA-COAD队列和 CPTAC-COAD队列,获取途径具体如下:
GSE39582数据集中的数据从GPL570平台中获取。具体地,从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载GSE39582中的585例样本的矩阵数据及相应的临床信息,其中,将没有KRAS突变数据以及生存信息的样本剔除,得到541例样本数据。GSE17536数据集中的数据从GPL570平台获取,GSE41258数据集中的数据从GPL96平台中获取。具体地,从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载GSE17536中390例样本和GSE41258中182例样本的矩阵数据及相应的临床信息,其中,GSE41258数据集中只有182例原发性肝癌的临床信息数据,所以本发明中在GSE41258 数据集中只选取这182例样本。
TCGA-COAD队列:从癌症基因组图谱(TCGA)数据库 (https://portal.gdc.cancer.gov)中下载461例样本的转录组谱、突变数据和临床随访信息,将TCGA-COAD队列中不包含完整RNA-seq表达谱、突变谱和临床信息的样本被剔除后,用于后续分析的样本数为414例,其中包括161 例KRAS突变样本(TCGA-COAD队列)。
CPTAC-COAD队列:临床蛋白质组学肿瘤分析联盟(CPTAC)前瞻性收集的结肠癌队列与来自110例结肠癌患者的配对肿瘤和非肿瘤结肠组织一致。 RNA测序数据、突变数据和临床数据均来自cBioPortal数据库 (https://www.cbioportal.org/study/summary?id=coad_cptac_2019)。剔除没有生存信息的样本后,剩余106个样本纳入到CPTAC-COAD队列,其中包括35 个KRAS突变样本。
去除批处理效应后,将TCGA-COAD队列中的161个KRAS突变体样本与CPTAC-COAD队列中的35个KRAS突变体样本合并为一个RNA-seq队列进行进一步分析。
S2:预后模型构建:基于获取的数据,进行单因素Cox分析,采用最小绝对收缩和选择算子建立预后模型。
本步骤中,GSE39582数据中216例KRAS突变的样本用于模型构建,对 GSE39582数据进行单因素Cox分析,以确定与KRAS突变型COAD预后相关的基因。
具体地,该步骤包括以下具体的步骤:
S201:将GSE39582中的KRAS突变样本随机化到训练集和测试集,优选的训练集和测试集的比例为7:3或是8:2。在训练集中评估预后模型。测试集作为内部验证,GSE39582、RNA-seq联合队列和GEO联合队列中KRAS 突变体估计样本作为外部验证。
S202:采用最小绝对收缩和选择算子建立预后模型,并利用训练集中的“glmnet”R包进行LASSO-COX回归建立预后模型。
最小绝对收缩和选择算子(Least absolute shrinkage and selectionoperator, LASSO)是一种采用l1-正则化的线性回归方法,使学习到的一些特征的权值为零,同时通过正则化实现变量选择,避免过拟合。
S203:根据所选基因的表达水平和系数计算样本的风险评分:
Figure BDA0003748774890000061
风险评分中的系数指的是预测变量对结局风险的相对贡献,本模型中的 coefi即表示模型基因对患者生存风险的相对贡献,数值通过COX回归分析获得,expri表示患者的生存风险。
S3:KRAS突变状态预测:使用随机森林算法在GSE39582数据集中对 GEO队列中的KRAS突变状态进行估计。
算法是通过训练多个决策树,生成模型,然后综合利用多个决策树的分类结果进行投票,从而实现分类。随机森林算法只需要两个参数:构建的决策树的个数t,在决策树的每个节点进行分裂时需要考虑的输入特征的个数m。
GEO队列包括两个没有突变的数据集(GSE17536和GSE41258),并将它们合并成一个GEO队列,目的是为了获得更大样本量更可靠的结果。
随机森林算法是一种机器学习方法,其通过建立多个决策树并将它们合并在一起以获得更准确和稳定的预测。决策树是通过查看特征的重要性,将对预测过程贡献较低或无贡献的特征丢弃,得到对预测过程具有足够贡献的特征。本研究中,随机森林算法通过构建多个决策树将GSE39582数据集中 KRAS突变型样本的数据特征进行整合,得到一个获得一个用于鉴别样本 KRAS突变状态的模型,使用该模型对缺少KRAS突变状态的样本进行预测。
因此,利用随机森林分析在GSE39582中对GEO队列中的KRAS突变状态进行了估计。最后,GEO队列中的51个样本被预测为KRAS突变样本,这51个估计的KRAS突变样本被用作预后模型的验证。
S4:预后模型评估:分别使用内部验证和外部验证对建立的预后模型进行评估。
使用GSE39582数据集的测试集作为内部验证,RNA-seq联合队列和GEO 联合队列中KRAS突变体估计样本作为外部验证。
具体地,该步骤S4包括以下具体的步骤:
S401:根据统一公式(即步骤S2中的风险评分公式)计算每个样本的风险评分,并根据风险评分中值将每个集合中的样本分别划分为高风险组和低风险组。
S402:采用Kaplan-Meier生存分析估计和绘制高危和低危样本的生存曲线,log-rank检验两组生存时间的差异,通过“timeROC”R包进行时间依赖性ROC曲线测试计算的准确性。
受试者工作特征(Receiver operating characteristic,ROC)曲线是分析分类器准确性的直观方法,曲线下面积(area under curve,AUC)值一直是判断预后模型准确性的标准。
S403:使用多因素分析用于评估我们的预后特征对COAD预后的独立性。采用校正曲线检验nomogram预测效率。
此外,本发明的一种基于KRAS突变结肠癌基因的预后模型的建立方法,还能够用于CCLE数据库中下载的人类癌细胞系(20个)的表达谱数据和体细胞突变数据,以获取潜在的药物靶点;并且能够用于GDSC数据库中下载的肿瘤细胞系药敏感数据,以获取潜在的治疗药物。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (6)

1.一种基于KRAS突变结肠癌基因的预后模型的建立方法,其特征在于,包括以下步骤:
S1:数据采集与预处理:获取样本的矩阵数据及相应的临床信息;
S2:预后模型构建:基于获取的数据,进行单因素Cox分析,采用LASSO-COX回归建立预后模型;
S3:KRAS突变状态预测:使用随机森林算法对GEO队列中的KRAS突变状态进行估计;
S4:预后模型评估:分别使用内部验证和外部验证对建立的预后模型进行评估。
2.如权利要求1所述的基于KRAS突变结肠癌基因的预后模型的建立方法,其特征在于,所述矩阵数据共包括5个COAD数据集,分别为3个微阵列数据集和2个RNA-seq数据集;3个微阵列数据集分别为GSE41258数据集、GSE39582数据集和GSE17536数据集;2个RNA-seq数据集包括TCGA-COAD队列和CPTAC-COAD队列。
3.如权利要求2所述的基于KRAS突变结肠癌基因的预后模型的建立方法,其特征在于,步骤S2包括以下具体的步骤:
S201:将GSE39582中的KRAS突变样本随机化到训练集和测试集;
S202:采用最小绝对收缩和选择算子建立预后模型,并利用训练集中的“glmnet”R包采用LASSO-COX回归建立预后模型;
S203:根据所选基因的表达水平和系数计算样本的风险评分:
Figure FDA0003748774880000011
4.如权利要求2所述的基于KRAS突变结肠癌基因的预后模型的建立方法,其特征在于,步骤S3中,使用随机森林算法在GSE39582数据集中对GEO队列中的KRAS突变状态进行了估计。
5.如权利要求2所述的基于KRAS突变结肠癌基因的预后模型的建立方法,其特征在于,步骤S4中,使用GSE39582数据集的测试集作为内部验证,RNA-seq联合队列和GEO联合队列中KRAS突变体估计样本作为外部验证。
6.如权利要求5所述的基于KRAS突变结肠癌基因的预后模型的建立方法,其特征在于,步骤S4包括以下具体的步骤:
S401:根据风险评分公式计算每个样本的风险评分,并根据风险评分中值将每个集合中的样本分别划分为高风险组和低风险组;
S402:采用Kaplan-Meier生存分析估计和绘制高危和低危样本的生存曲线,log-rank检验两组生存时间的差异,通过“timeROC”R包进行时间依赖性ROC曲线测试计算的准确性;
S403:使用多因素分析用于评估我们的预后特征对COAD预后的独立性。采用校正曲线检验nomogram预测效率。
CN202210831902.4A 2022-07-15 2022-07-15 一种基于kras突变结肠癌基因的预后模型的建立方法 Pending CN115083608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210831902.4A CN115083608A (zh) 2022-07-15 2022-07-15 一种基于kras突变结肠癌基因的预后模型的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210831902.4A CN115083608A (zh) 2022-07-15 2022-07-15 一种基于kras突变结肠癌基因的预后模型的建立方法

Publications (1)

Publication Number Publication Date
CN115083608A true CN115083608A (zh) 2022-09-20

Family

ID=83260572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210831902.4A Pending CN115083608A (zh) 2022-07-15 2022-07-15 一种基于kras突变结肠癌基因的预后模型的建立方法

Country Status (1)

Country Link
CN (1) CN115083608A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111564214A (zh) * 2019-02-14 2020-08-21 辽宁省肿瘤医院 一种基于7个特殊基因的乳腺癌预后评估模型的建立与验证方法
CN114540499A (zh) * 2022-03-17 2022-05-27 郑州源创吉因实业有限公司 基于pcd相关基因组合构建的模型在制备预测结肠腺癌预后产品中的应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111564214A (zh) * 2019-02-14 2020-08-21 辽宁省肿瘤医院 一种基于7个特殊基因的乳腺癌预后评估模型的建立与验证方法
CN114540499A (zh) * 2022-03-17 2022-05-27 郑州源创吉因实业有限公司 基于pcd相关基因组合构建的模型在制备预测结肠腺癌预后产品中的应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN YANG, ET AL.: "Prognosis and personalized treatment prediction in TP53-mutant hepatocellular carcinoma: an in silico strategy towards precision oncology", 《BRIEFINGS IN BIOINFORMATICS》, vol. 22, no. 3, 13 August 2020 (2020-08-13), pages 1 - 13 *
KANGJIA LUO, ET AL.: "A KRAS-Associated Signature for Prognostic, Immune and Chemical Anti-Cancer Drug-Response Prediction in Colon Cancer", 《FRONTIERS IN PHARMACOLOGY》, vol. 13, 14 June 2022 (2022-06-14), pages 1 - 12 *

Similar Documents

Publication Publication Date Title
Ou et al. Biomarker discovery and validation: statistical considerations
Biswas et al. A clonal expression biomarker associates with lung cancer mortality
CN113355419B (zh) 一种乳腺癌预后风险预测标志组合物及应用
JP2020522690A (ja) 肺疾病の特定又はモニタリング方法及びシステム
CN114317532B (zh) 用于预测白血病预后的评估基因集、试剂盒、系统及应用
CN113066585A (zh) 一种基于免疫基因表达特征谱对ⅱ期结直肠癌患者预后进行高效快捷评估的方法
CN116168843B (zh) 一种儿童急性髓系白血病预后模型及其构建方法和应用
CN115410713A (zh) 一种基于免疫相关基因的肝细胞癌预后风险预测模型构建
CN113151483A (zh) 结直肠癌代谢基因预后预测模型
CN117476097B (zh) 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用
CN111748632A (zh) 一种特征lincRNA表达谱组合及肝癌早期预测方法
KR20220133516A (ko) 인공지능 기반 무세포 dna의 종양 유래 변이 검출 방법 및 이를 이용한 암 조기 진단 방법
Vijayan et al. Blood-based transcriptomic signature panel identification for cancer diagnosis: benchmarking of feature extraction methods
Zheng et al. Cerebrospinal fluid circulating tumor DNA profiling for risk stratification and matched treatment of central nervous system metastases
Zheng et al. Adopting nested case–control quota sampling designs for the evaluation of risk markers
CN115083608A (zh) 一种基于kras突变结肠癌基因的预后模型的建立方法
KR102659915B1 (ko) 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용
Tournoud et al. A strategy to build and validate a prognostic biomarker model based on RT-qPCR gene expression and clinical covariates
CN116805509A (zh) 结直肠癌免疫治疗预测标志物的构建方法及应用
CN114267411A (zh) Dtc预后标志物及其应用、dtc预后评估模型的构建方法
Wojtaszewska et al. Validation of HER2 status in whole genome sequencing data of breast cancers with the ploidy-corrected copy number approach
Ghosh et al. Leveraging family history in population‐based case‐control association studies
Pourhamidi et al. Using the Precision Lasso for gene selection in diffuse large B cell lymphoma cancer
CN111733252A (zh) 一种特征miRNA表达谱组合及胃癌早期预测方法
EP3899049A1 (en) Identification of global sequence features in whole genome sequence data from circulating nucelic acid

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination