CN115019880B - 一种肝癌预后模型及其构建方法和应用 - Google Patents

一种肝癌预后模型及其构建方法和应用 Download PDF

Info

Publication number
CN115019880B
CN115019880B CN202210481679.5A CN202210481679A CN115019880B CN 115019880 B CN115019880 B CN 115019880B CN 202210481679 A CN202210481679 A CN 202210481679A CN 115019880 B CN115019880 B CN 115019880B
Authority
CN
China
Prior art keywords
liver cancer
prognosis
genes
model
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210481679.5A
Other languages
English (en)
Other versions
CN115019880A (zh
Inventor
李家平
张晓凯
温杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Affiliated Hospital of Sun Yat Sen University
Original Assignee
First Affiliated Hospital of Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Affiliated Hospital of Sun Yat Sen University filed Critical First Affiliated Hospital of Sun Yat Sen University
Priority to CN202210481679.5A priority Critical patent/CN115019880B/zh
Publication of CN115019880A publication Critical patent/CN115019880A/zh
Priority to US18/310,938 priority patent/US20230383364A1/en
Application granted granted Critical
Publication of CN115019880B publication Critical patent/CN115019880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)

Abstract

本发明涉及一种基于DNA损伤修复和免疫原性细胞死亡调节基因表达的肝癌预后模型的构建方法,包括以下步骤:步骤一:获取多个肝癌患者的转录谱表达数据;步骤二:基于所述多个肝癌患者的转录谱表达数据,筛选候选基因;步骤三:基于所述候选基因,通过单因素Cox回归分析,确定生存期有关的预后基因;步骤四:通过LASSO Cox回归分析对所述与生存期相关的基因进行筛选;步骤五:基于上述训练数据集,评估风险评分模型的预测性能。本发明所构建的肝癌预后模型基于DNA损伤修复基因和免疫原性细胞死亡相关基因,这建立在当期临床肝癌化疗一线用药的基础上,对肝癌的治疗反应及预后产生显著影响。

Description

一种肝癌预后模型及其构建方法和应用
技术领域
本发明涉及肝癌肿瘤技术领域,具体涉及一种基于DNA损伤修复和免疫原性细胞死亡调节基因表达的肝癌预后模型及其构建方法和应用。
背景技术
肝脏是维持机体内环境稳定和机体健康的最重要的器官之一,肝癌是肝内最常见的恶性肿瘤,也是危害人类健康的重要原因之一。事实上,每年大约有一百万人死于肝硬化和肝癌。特别需要指出的是,作为肝脏最常见的原发恶性肿瘤一肝癌因为发病率较高、发现困难、治疗方法少等原因已经在导致人类死亡的各种疾病中位居前列。目前,肝癌在全球范围内肿瘤致死率方面位列第五位,而在一些非洲和亚洲国家,肝癌在肿瘤性死因中已经位居首位。
目前,肝癌研究已取得很大进展,上世纪以“小肝癌的早治”及“肝癌的缩小后二期切除”为标志,分别为肝癌术后生存率的提高贡献了10个百分点,但由于肝癌病程进展速度快,有极高的复发率,致使肝癌总体疗效仍然不佳,肝癌人群总体5年生存率仍只有5%左右。近年,虽然在肝癌基础与临床研究方面取得了一些进展,但还未能明确阐明肝癌复发的机制,也未能找到有效的干预措施。肝癌高复发成为影响其疗效改善的瓶颈。因此,寻找与肝癌预后复发相关的生物标志物,可以为进一步降低临床肝癌复发率和病死率提供新的方法。
肝癌的治疗手段主要包括手术切除,局部治疗如消融、栓塞化疗,全身治疗如化疗、靶向及免疫治疗等,其中,化疗在中晚期肝癌的治疗中占据重要的地位,然而肝癌病人对化疗的治疗反应不尽相同,导致接受同样治疗的患者预后差异极大。当前,临床医生主要根据患者的临床表现、肝功能储备、肿瘤标志物的测定等来预测肝癌病人的预后,指导临床治疗方案,但其差异性极大,往往导致临床判断与实际情况出现偏差,影响了患者的治疗或导致无效治疗。因此,随着基因检测技术的不断进步与普及,从基因表达的层面来预测肝癌患者的预后已经成为可能,这将带来更为精准的临床判断。我们结合公共数据库中肝癌病人的基因检测数据与预后数据,研制出一种针对肝癌预后的预测模型,在肝癌的分类治疗及预后预测中具有潜在的应用前景。
中国专利文献CN113345589A公开了一种肝癌预后模型的构建方法及应用方法、电子设备,该构建方法包括:获取多个肝癌患者和多个参考人的转录谱表达数据;基于上述转录谱表达数据,筛选候选基因;以及,基于候选基因,构建风险评分模型。肝癌预后模型包括风险评分模型;
该构建方法采用转录谱表达数据、筛选候选基因,用于构建模型,该构建方法对于DNA损伤修复基因(DNA损伤修复)和免疫原性细胞死亡相关基因(免疫原性细胞死亡调节)的模型建立效果不是很好,同时治疗、预后效果较差,需进一步的改进处理。
基于此,本发明提供一种基于DNA损伤修复和免疫原性细胞死亡调节基因表达的肝癌预后模型及其构建方法和应用。
发明内容
针对现有技术的缺陷,本发明的目的是提供一种基于DNA损伤修复和免疫原性细胞死亡调节基因表达的肝癌预后模型及其构建方法和应用,以解决上述背景技术中提出的问题。
本发明解决技术问题采用如下技术方案:
本发明提供了一种基于基因表达的肝癌预后模型的构建方法,所述构建方法包括以下步骤:
步骤一:获取多个肝癌患者的转录谱表达数据;
步骤二:基于所述多个肝癌患者的转录谱表达数据,筛选候选基因;
步骤三:基于所述候选基因,通过单因素Cox回归分析,确定生存期有关的预后基因;
步骤四:通过LASSO Cox回归分析对所述与生存期相关的基因进行筛选,以确定用于构建风险评分模型的基因以及风险评分模型;
步骤五:基于上述训练数据集,评估风险评分模型的预测性能。
优选地,所述用于构建风险评分模型的基因包括:FFAR3,DDX1,POLR3G,FANCL,ADA,PIK3R1,DHX58,TPT1,MGMT,SLAMF6, EIF2AK4。
优选地,所述步骤五中包括:
基于所述风险评分模型计算所述训练数据集中的每个受试者的风险评分;
使用所述训练数据集的时间依赖的受试者工作特征曲线分析评分;
使用所述训练数据集的时间依赖的受试者工作特征曲线分析评价评分模型的拟合优度。
优选地,依据所述训练数据集的时间依赖的受试者工作特征曲线分析确定分组截断值,并根据所述分组截断值将所述训练数据集中的受试者分为第一高风险组与第一低风险组;
使用所述训练数据集的Kaplan-Meier曲线评估所述第一高风险组与所述第一低风险组在生存情况方面是否具有显著差异。
优选地,所述Cox回归分析中包括单因素cox分析和多因素cox分析。
优选地,所述单因素cox分析为:
使用survival包的coxph函数分别对单个基因或者临床特征进行回归建模,以p <0.01筛选预后相关基因或临床特征,提取相应建模参数后,使用forestplot包绘制森林图;
所述多因素cox分析:使用survival包的coxph函数对构建的多基因或临床特征进行回归建模。
优选地,所述 LASSO Cox回归中:
使用R包glmnet的glmnet函数对预后相关基因进行LASSO回归建模,cv.glmnet函数进行交叉验证;
使用lambda.min作为最佳的lambda参数,LASSO筛选得到了21个基因,其中经过进一步stepwise筛选多变量cox模型,最后保留了11个基因,使用这些基因构建多因素cox模型,并计算相应的riskscore。
优选地,所述riskscore的独立性验证及列线图为:
首先结合临床病理特征:stage, gender, vascular, age, AFP对TCGA-LIHC数据集进行单因素cox分析;
然后利用多因素cox回归分析以上6种因素,包含riskscore的整体预后情况,以验证riskscore的独立预后效果;
使用R包rms中的cph函数构建cox比例风险回归模型,然后用survival包计算生存概率,最后用nomogram函数构建列线图,并绘制校正曲线,以评估列线图,预测准确性。
本发明还提供了一种基于基因表达的肝癌预后模型的构建方法获得肝癌预后模型。
本发明还提供了一种基于基因表达的肝癌预后模型的构建方法在肝癌治疗及预后上的应用。
与现有技术相比,本发明具有如下的有益效果:
本发明所构建的肝癌预后模型基于DNA损伤修复基因(DNA损伤修复)和免疫原性细胞死亡相关基因(免疫原性细胞死亡调节),这建立在当期临床肝癌化疗一线用药的基础上,这些DNA损伤药物会导致肝癌细胞广泛的DNA损伤修复及免疫原性细胞死亡调节效应,对肝癌的治疗反应及预后产生显著影响。
附图说明
图1是本发明的TCGA-LIHC中免疫原性细胞死亡调节&DNA损伤修复相关基因的表达热图;
图2是本发明的预后相关免疫原性细胞死亡调节&DNA损伤修复基因的LASSO回归建模调参优化;
图3是本发明的列线图及1年,3年的校正曲线。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
参阅图1-3;本实施例的一种基于基因表达的肝癌预后模型的构建方法,所述构建方法包括以下步骤:
步骤一:获取多个肝癌患者的转录谱表达数据;
步骤二:基于所述多个肝癌患者的转录谱表达数据,筛选候选基因;
步骤三:基于所述候选基因,通过单因素Cox回归分析,确定生存期有关的预后基因;
步骤四:通过LASSO Cox回归分析对所述与生存期相关的基因进行筛选,以确定用于构建风险评分模型的基因以及风险评分模型;
步骤五:基于上述训练数据集,评估风险评分模型的预测性能。
本实施例的用于构建风险评分模型的基因包括:FFAR3,DDX1,POLR3G,FANCL,ADA,PIK3R1,DHX58,TPT1,MGMT,SLAMF6, EIF2AK4。
本实施例的步骤五中包括:
基于所述风险评分模型计算所述训练数据集中的每个受试者的风险评分;
使用所述训练数据集的时间依赖的受试者工作特征曲线分析评分;
使用所述训练数据集的时间依赖的受试者工作特征曲线分析评价评分模型的拟合优度。
本实施例的依据所述训练数据集的时间依赖的受试者工作特征曲线分析确定分组截断值,并根据所述分组截断值将所述训练数据集中的受试者分为第一高风险组与第一低风险组;
使用所述训练数据集的Kaplan-Meier曲线评估所述第一高风险组与所述第一低风险组在生存情况方面是否具有显著差异。
本实施例的Cox回归分析中包括单因素cox分析和多因素cox分析。
本实施例的单因素cox分析为:
使用survival包的coxph函数分别对单个基因或者临床特征进行回归建模,以p <0.01筛选预后相关基因或临床特征,提取相应建模参数后,使用forestplot包绘制森林图;
所述多因素cox分析:使用survival包的coxph函数对构建的多基因或临床特征进行回归建模。
本实施例的 LASSO Cox回归中:
使用R包glmnet的glmnet函数对预后相关基因进行LASSO回归建模,cv.glmnet函数进行交叉验证;
使用lambda.min作为最佳的lambda参数,LASSO筛选得到了21个基因,其中经过进一步stepwise筛选多变量cox模型,最后保留了11个基因,使用这些基因构建多因素cox模型,并计算相应的riskscore。
本实施例的riskscore的独立性验证及列线图为:
首先结合临床病理特征:stage, gender, vascular, age, AFP对TCGA-LIHC数据集进行单因素cox分析;
然后利用多因素cox回归分析以上6种因素,包含riskscore的整体预后情况,以验证riskscore的独立预后效果;
使用R包rms中的cph函数构建cox比例风险回归模型,然后用survival包计算生存概率,最后用nomogram函数构建列线图,并绘制校正曲线,以评估列线图,预测准确性。
本实施例的一种基于基因表达的肝癌预后模型的构建方法获得肝癌预后模型。
本实施例的一种基于基因表达的肝癌预后模型的构建方法在肝癌治疗及预后上的应用。
实施例2:
本实施例的一种基于基因表达的肝癌预后模型的构建方法,所述构建方法包括以下步骤:
步骤一:获取多个肝癌患者的转录谱表达数据;
步骤二:基于所述多个肝癌患者的转录谱表达数据,筛选候选基因;
步骤三:基于所述候选基因,通过单因素Cox回归分析,确定生存期有关的预后基因;
步骤四:通过LASSO Cox回归分析对所述与生存期相关的基因进行筛选,以确定用于构建风险评分模型的基因以及风险评分模型;
步骤五:基于上述训练数据集,评估风险评分模型的预测性能。
本实施例的TCGA-LIHC、GSE14520、ICGC LIRI-JP数据下载
从XENA中下载TCGA-LIHC的表达谱数据,变异数据,临床信息和随访信息等,GEO数据库下载GSE14520表达数据和样本信息,ICGC数据库下载LIRI-JP表达数据和样本临床信息,共筛选出1122个DNA损伤修复、免疫原性细胞死亡调节相关基因。
本实施例的cox回归分析
单因素cox分析:使用survival包的coxph函数分别对单个基因或者临床特征进行回归建模,以p < 0.01筛选预后相关基因或临床特征,提取相应建模参数后,使用forestplot包绘制森林图;多因素cox分析:使用survival包的coxph函数对构建的多基因或临床特征进行回归建模。
本实施例的生存分析
筛选生存分析相关的基因或者临床病理特征因素,进行数值化转化,使用survminer包的surv_cutpoint自动选择阈值进行分组,使用survival包的survfit函数拟合生存信息和分组信息。
本实施例的 LASSO回归
使用R包glmnet的glmnet函数对预后相关基因进行LASSO回归建模,cv.glmnet函数进行交叉验证,使用lambda.min作为最佳的lambda参数,LASSO筛选得到了21个基因,其中经过进一步stepwise筛选多变量cox模型,最后保留了11个基因,使用这些基因构建多因素cox模型,并计算相应的riskscore。
本实施例的riskscore独立性验证及列线图
为了验证风险得分(riskscore)的高低具有独立预后效能,首先结合其他临床病理特征:stage, gender, vascular, age, AFP对TCGA-LIHC数据集进行单因素cox分析。然后利用多因素cox回归分析以上6种因素(包含riskscore)的整体预后情况,以验证riskscore的独立预后效果。使用R包rms中的cph函数构建cox比例风险回归模型,然后用survival包计算生存概率,最后用nomogram函数构建列线图,并绘制校正曲线,以评估列线图,预测准确性。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种基于DNA损伤修复和免疫原性细胞死亡调节基因表达的肝癌预后模型的构建方法,其特征在于,所述构建方法包括以下步骤:
步骤一:获取多个肝癌患者的转录谱表达数据;
步骤二:基于所述多个肝癌患者的转录谱表达数据,筛选候选基因;
步骤三:基于所述候选基因,通过单因素Cox回归分析,确定与生存期有关的预后基因;
步骤四:通过LASSO Cox回归分析对所述与生存期有关的预后基因进行筛选,以确定用于构建风险评分模型的基因以及风险评分模型;
步骤五:
基于所述风险评分模型计算训练数据集中的每个受试者的风险评分;
使用所述训练数据集的时间依赖的受试者工作特征曲线分析评分;
使用所述训练数据集的时间依赖的受试者工作特征曲线分析评价评分模型的拟合优度;
基于训练数据集,评估风险评分模型的预测性能;
所述用于构建风险评分模型的基因包括:FFAR3,DDX1,POLR3G,FANCL,ADA,PIK3R1,DHX58,TPT1,MGMT,SLAMF6, EIF2AK4;
所述 LASSO Cox回归中:
使用R包glmnet的glmnet函数对预后相关基因进行LASSO回归建模,cv.glmnet函数进行交叉验证;
使用lambda.min作为最佳的lambda参数,LASSO筛选得到了21个基因,其中经过进一步stepwise筛选多变量cox模型,最后保留了11个基因,使用这些基因构建多因素cox模型,并计算相应的riskscore。
2.根据权利要求1所述一种基于DNA损伤修复和免疫原性细胞死亡调节基因表达的肝癌预后模型的构建方法,其特征在于,依据所述训练数据集的时间依赖的受试者工作特征曲线分析确定分组截断值,并根据所述分组截断值将所述训练数据集中的受试者分为第一高风险组与第一低风险组;
使用所述训练数据集的Kaplan-Meier曲线评估所述第一高风险组与所述第一低风险组在生存情况方面是否具有显著差异。
3.根据权利要求1所述一种基于DNA损伤修复和免疫原性细胞死亡调节基因表达的肝癌预后模型的构建方法,其特征在于,所述Cox回归分析中包括单因素cox分析和多因素cox分析。
4.根据权利要求3所述一种基于DNA损伤修复和免疫原性细胞死亡调节基因表达的肝癌预后模型的构建方法,其特征在于,所述单因素cox分析为:
使用survival包的coxph函数分别对单个基因或者临床特征进行回归建模,以p <0.01筛选预后相关基因或临床特征,提取相应建模参数后,使用forestplot包绘制森林图;
所述多因素cox分析:使用survival包的coxph函数对构建的多基因或临床特征进行回归建模。
5.根据权利要求1所述一种基于DNA损伤修复和免疫原性细胞死亡调节基因表达的肝癌预后模型的构建方法,其特征在于,所述riskscore的独立性验证及列线图为:
首先结合临床病理特征:stage, gender, vascular, age, AFP对TCGA-LIHC数据集进行单因素cox分析;
然后利用多因素cox回归分析以上5种因素,包含riskscore的整体预后情况,以验证riskscore的独立预后效果;
使用R包rms中的cph函数构建cox比例风险回归模型,然后用survival包计算生存概率,最后用nomogram函数构建列线图,并绘制校正曲线,以评估列线图,预测准确性。
6.一种如权利要求1-5任一项所述基于DNA损伤修复和免疫原性细胞死亡调节基因表达的肝癌预后模型的构建方法在肝癌治疗及预后上的应用。
CN202210481679.5A 2022-05-05 2022-05-05 一种肝癌预后模型及其构建方法和应用 Active CN115019880B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210481679.5A CN115019880B (zh) 2022-05-05 2022-05-05 一种肝癌预后模型及其构建方法和应用
US18/310,938 US20230383364A1 (en) 2022-05-05 2023-05-02 Prognostic model of hepatocellular carcinoma based on ddr and icd gene expression and construction method and application thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210481679.5A CN115019880B (zh) 2022-05-05 2022-05-05 一种肝癌预后模型及其构建方法和应用

Publications (2)

Publication Number Publication Date
CN115019880A CN115019880A (zh) 2022-09-06
CN115019880B true CN115019880B (zh) 2024-01-09

Family

ID=83069163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210481679.5A Active CN115019880B (zh) 2022-05-05 2022-05-05 一种肝癌预后模型及其构建方法和应用

Country Status (2)

Country Link
US (1) US20230383364A1 (zh)
CN (1) CN115019880B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117409855B (zh) * 2023-10-25 2024-04-26 苏州卫生职业技术学院 一种肝细胞癌患者错配修复相关预后模型及其构建、验证方法和应用
CN117524486B (zh) * 2024-01-04 2024-04-05 北京市肿瘤防治研究所 用于预测术后患者无进展生存概率的tte模型建立方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2010064702A1 (ja) * 2008-12-05 2012-05-10 国立大学法人 東京大学 癌の予後を予測するためのバイオマーカー
CN112011616A (zh) * 2020-09-02 2020-12-01 复旦大学附属中山医院 预测肝细胞癌肿瘤免疫浸润和术后生存时间的免疫基因预后模型
CN112614546A (zh) * 2020-12-25 2021-04-06 浙江大学 一种用于预测肝细胞癌免疫治疗疗效的模型及其构建方法
CN112735592A (zh) * 2021-01-18 2021-04-30 中国医学科学院肿瘤医院 肺癌预后模型的构建方法及应用方法、电子设备
CN113345589A (zh) * 2021-06-29 2021-09-03 北京泱深生物信息技术有限公司 肝癌预后模型的构建方法及应用方法、电子设备
CN113470754A (zh) * 2021-06-29 2021-10-01 北京泱深生物信息技术有限公司 一种用于肿瘤预后评估的基因标志物、评估产品及应用
CN113470813A (zh) * 2021-06-29 2021-10-01 北京泱深生物信息技术有限公司 肝癌患者生存率预后模型
CN113539376A (zh) * 2021-09-16 2021-10-22 浙江大学 判断肝细胞肝癌患者预后的基因模型、构建方法和应用
CN114107509A (zh) * 2021-12-09 2022-03-01 江苏省肿瘤医院 一种肝癌预后标记物及其应用
CN114222577A (zh) * 2019-06-18 2022-03-22 G1治疗公司 增强癌症患者中抗肿瘤免疫的患者选择

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5121065B2 (ja) * 2008-09-12 2013-01-16 トヨタ自動車株式会社 カウルルーバ構造

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2010064702A1 (ja) * 2008-12-05 2012-05-10 国立大学法人 東京大学 癌の予後を予測するためのバイオマーカー
CN114222577A (zh) * 2019-06-18 2022-03-22 G1治疗公司 增强癌症患者中抗肿瘤免疫的患者选择
CN112011616A (zh) * 2020-09-02 2020-12-01 复旦大学附属中山医院 预测肝细胞癌肿瘤免疫浸润和术后生存时间的免疫基因预后模型
CN112614546A (zh) * 2020-12-25 2021-04-06 浙江大学 一种用于预测肝细胞癌免疫治疗疗效的模型及其构建方法
CN112735592A (zh) * 2021-01-18 2021-04-30 中国医学科学院肿瘤医院 肺癌预后模型的构建方法及应用方法、电子设备
CN113345589A (zh) * 2021-06-29 2021-09-03 北京泱深生物信息技术有限公司 肝癌预后模型的构建方法及应用方法、电子设备
CN113470754A (zh) * 2021-06-29 2021-10-01 北京泱深生物信息技术有限公司 一种用于肿瘤预后评估的基因标志物、评估产品及应用
CN113470813A (zh) * 2021-06-29 2021-10-01 北京泱深生物信息技术有限公司 肝癌患者生存率预后模型
CN113539376A (zh) * 2021-09-16 2021-10-22 浙江大学 判断肝细胞肝癌患者预后的基因模型、构建方法和应用
CN114107509A (zh) * 2021-12-09 2022-03-01 江苏省肿瘤医院 一种肝癌预后标记物及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Musashi-1—A Stemness RBP for Cancer Therapy?;Nadine Bley et al.;Biology;全文 *
肝癌干细胞分子标志物和干性维持机制研究进展;张楠 等;生物工程学报;全文 *

Also Published As

Publication number Publication date
US20230383364A1 (en) 2023-11-30
CN115019880A (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN115019880B (zh) 一种肝癌预后模型及其构建方法和应用
He et al. A machine learning framework to trace tumor tissue-of-origin of 13 types of cancer based on DNA somatic mutation
CN108363907B (zh) 一种基于多基因表达特征谱的肺腺癌个性化预后评估方法
WO2021146516A1 (en) System and method for predicting the risk of future lung cancer
CN112735592B (zh) 肺癌预后模型的构建方法及应用方法、电子设备
CN111161882A (zh) 一种基于深度神经网络的乳腺癌生存期预测方法
CN109055562A (zh) 一种生物标志物、预测肾细胞癌的复发和死亡风险的方法
US20230377756A1 (en) Construction method of survival prediction model for hepatocellular carcinoma patient based on cell death-related genes
CN106156543A (zh) 一种肿瘤ctDNA信息统计方法
CN110305964A (zh) 一种前列腺癌患者预后复发风险预测标志工具及其风险评估模型的建立
CN114891887A (zh) 一种三阴性乳腺癌预后基因标志物筛选的方法
CN111440869A (zh) 一种用于预测原发性乳腺癌发生风险的dna甲基化标记物及其筛选方法和应用
CN110273003A (zh) 一种乳头状肾细胞癌患者预后复发检测标志工具及其风险评估模型的建立
CN113517073A (zh) 肺癌手术后生存率预测方法和系统
Wan et al. Six-gene-based prognostic model predicts overall survival in patients with uveal melanoma
CN108733980B (zh) 基于多基因表达特征谱胶质母细胞瘤个性化预后评估方法
CN108611416B (zh) 一种基于多基因表达特征谱的宫颈癌个性化预后评估方法
CN112382341B (zh) 一种用于鉴定食管鳞癌预后相关的生物标志物的方法
CN108320806B (zh) 一种基于多基因表达特征谱的结肠癌个性化预后评估方法
CN116525114A (zh) 一种基于pdk1联合免疫的肾透明细胞癌预后预测模型
CN112746108B (zh) 用于肿瘤预后分层评估的基因标志物、评估方法及应用
CN115424728A (zh) 一种肿瘤恶性细胞基因预后风险模型构建方法
CN109346181B (zh) 均衡临床混杂因素的放疗敏感性标志基因筛选方法
CN114171200A (zh) Ptc预后标志物及其应用、ptc的预后评估模型的构建方法
CN117153392B (zh) 一种胃癌预后预测的标志物、评估模型及其构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant