CN116564420A - 一种基于中心体扩增相关基因的肝癌患者风险评估系统和预后预测系统 - Google Patents
一种基于中心体扩增相关基因的肝癌患者风险评估系统和预后预测系统 Download PDFInfo
- Publication number
- CN116564420A CN116564420A CN202211481723.9A CN202211481723A CN116564420A CN 116564420 A CN116564420 A CN 116564420A CN 202211481723 A CN202211481723 A CN 202211481723A CN 116564420 A CN116564420 A CN 116564420A
- Authority
- CN
- China
- Prior art keywords
- risk
- score
- liver cancer
- patient
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 201000007270 liver cancer Diseases 0.000 title claims abstract description 142
- 208000014018 liver neoplasm Diseases 0.000 title claims abstract description 141
- 210000003793 centrosome Anatomy 0.000 title claims abstract description 109
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 79
- 230000003321 amplification Effects 0.000 title claims abstract description 76
- 238000003199 nucleic acid amplification method Methods 0.000 title claims abstract description 76
- 238000004393 prognosis Methods 0.000 title claims abstract description 66
- 238000012502 risk assessment Methods 0.000 title claims abstract description 11
- 230000004083 survival effect Effects 0.000 claims description 77
- 230000001575 pathological effect Effects 0.000 claims description 22
- 102100037402 Casein kinase I isoform delta Human genes 0.000 claims description 19
- 101710092479 Centrosomal protein of 55 kDa Proteins 0.000 claims description 19
- 102100031219 Centrosomal protein of 55 kDa Human genes 0.000 claims description 19
- 101001026336 Homo sapiens Casein kinase I isoform delta Proteins 0.000 claims description 19
- 101000869503 Homo sapiens SAC3 domain-containing protein 1 Proteins 0.000 claims description 19
- 101000618138 Homo sapiens Sperm-associated antigen 4 protein Proteins 0.000 claims description 19
- 102100032278 SAC3 domain-containing protein 1 Human genes 0.000 claims description 19
- 102100021907 Sperm-associated antigen 4 protein Human genes 0.000 claims description 19
- 230000014509 gene expression Effects 0.000 claims description 19
- 102100031830 Afadin- and alpha-actinin-binding protein Human genes 0.000 claims description 17
- 101000775477 Homo sapiens Afadin- and alpha-actinin-binding protein Proteins 0.000 claims description 17
- 101001109719 Homo sapiens Nucleophosmin Proteins 0.000 claims description 15
- 102100022678 Nucleophosmin Human genes 0.000 claims description 15
- 238000012821 model calculation Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 4
- 230000007170 pathology Effects 0.000 abstract description 13
- 101150039504 6 gene Proteins 0.000 description 50
- 210000001519 tissue Anatomy 0.000 description 17
- 238000012549 training Methods 0.000 description 10
- 206010028980 Neoplasm Diseases 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 238000012216 screening Methods 0.000 description 7
- 230000034994 death Effects 0.000 description 6
- 231100000517 death Toxicity 0.000 description 6
- 238000000611 regression analysis Methods 0.000 description 6
- 230000001105 regulatory effect Effects 0.000 description 5
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 4
- 238000010837 poor prognosis Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 102000013529 alpha-Fetoproteins Human genes 0.000 description 3
- 108010026331 alpha-Fetoproteins Proteins 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 102100033376 Cysteine and histidine-rich domain-containing protein 1 Human genes 0.000 description 2
- 102100025450 DNA replication factor Cdt1 Human genes 0.000 description 2
- 101000943802 Homo sapiens Cysteine and histidine-rich domain-containing protein 1 Proteins 0.000 description 2
- 101000914265 Homo sapiens DNA replication factor Cdt1 Proteins 0.000 description 2
- 101001080624 Homo sapiens Proline/serine-rich coiled-coil protein 1 Proteins 0.000 description 2
- 101000877851 Homo sapiens Protein FAM83D Proteins 0.000 description 2
- 101001024635 Homo sapiens RNA cytidine acetyltransferase Proteins 0.000 description 2
- 101000788548 Homo sapiens Tubulin alpha-4A chain Proteins 0.000 description 2
- 206010027476 Metastases Diseases 0.000 description 2
- 102100027427 Proline/serine-rich coiled-coil protein 1 Human genes 0.000 description 2
- 102100035447 Protein FAM83D Human genes 0.000 description 2
- 102100037011 RNA cytidine acetyltransferase Human genes 0.000 description 2
- 208000007536 Thrombosis Diseases 0.000 description 2
- 102100025239 Tubulin alpha-4A chain Human genes 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 2
- 230000003908 liver function Effects 0.000 description 2
- 230000003211 malignant effect Effects 0.000 description 2
- 230000009401 metastasis Effects 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 208000037051 Chromosomal Instability Diseases 0.000 description 1
- 101000695043 Homo sapiens Serine/threonine-protein kinase BRSK1 Proteins 0.000 description 1
- 102100028623 Serine/threonine-protein kinase BRSK1 Human genes 0.000 description 1
- 230000003187 abdominal effect Effects 0.000 description 1
- 229960000548 alemtuzumab Drugs 0.000 description 1
- 208000036878 aneuploidy Diseases 0.000 description 1
- 231100001075 aneuploidy Toxicity 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229960000397 bevacizumab Drugs 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011088 calibration curve Methods 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000003436 cytoskeletal effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Biotechnology (AREA)
- Epidemiology (AREA)
- Genetics & Genomics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种基于6个中心体扩增相关基因的肝癌患者风险评估系统,该肝癌患者风险评估系统准确性好。本发明联合这些基于中心体扩增相关基因的肝癌患者风险评分、病理分期、T分期及M分期,构建了肝癌患者风险综合评分模型以及基于该模型的肝癌预后预测系统,该风险综合评分模型和系统可以指导临床医生准确预测肝癌患者的预后,指导临床治疗。
Description
技术领域
本发明涉及一种基于中心体扩增相关基因的肝癌患者风险评估系统和预后预测系统。
背景技术
肝细胞癌(Hepatocellular carcinoma,HCC)是原发性肝癌最常见的类型,约占所有肝癌病例的75-85%。近年来,随着血清甲胎蛋白联合腹部超声的早期筛查及贝伐珠单抗联合阿特珠单抗或信迪利单抗的免疫治疗方案的批准,肝癌患者的生存率有所提高,但预后依然较差,5年生存率不足30%。基于肿瘤数量大小、组织学分级、门脉血栓、肿瘤转移、甲胎蛋白、肝功能及体力评分的预后模型,如TNM分期和BCLC分期已用于指导临床工作,但由于HCC患者的高度异质性,现有预后模型都存在局限,预测准确性有待提高。高通量转录组测序技术(RNA-Seq)的迅猛发展加速了研究者对肿瘤发生发展的基因特征的全面解读,并能够将肿瘤的基因特征与患者的临床表型及预后评估全面整合,从而为肿瘤治疗及预后提供了新的分子靶标。近年来的多项研究表明,联合肝癌患者的特征基因和传统预后体系如TNM分期等可以显著提高肝癌患者的预后准确性,并可为肝癌患者提供个体化诊疗方案,显著延长肝癌患者的生存期。
中心体异常扩增可以诱发细胞骨架及染色体的不稳定性,导致非整倍体的形成,是肿瘤的恶性特征之一。然而,目前尚缺乏对于介导中心体异常扩增的基因图谱的系统研究,因此中心体扩增相关基因在肝癌预后中的作用尚不明确。
由于肝癌患者的高度异质性,目前尚缺乏可以指导临床医生的肝癌预后标记物。
发明内容
基于现有技术存在的问题,本发明系统分析了653个中心体扩增相关基因在肝癌预后中的作用,并通过lasso和Cox多变量回归模型筛选了6个肝癌中心体扩增相关的预后标记基因,提供了一种基于6个中心体扩增相关基因的肝癌患者风险评估系统。联合这些基于中心体扩增相关基因的肝癌患者风险评分、病理分期、T分期及M分期,构建了风险综合评分模型以及基于该模型的肝癌患者预后预测系统。
为实现上述目的,所采取的技术方案:本发明提供了SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55在制备基于中心体扩增相关基因的肝癌患者风险评估系统中的应用。
本发明提供了SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55在制备基于中心体扩增相关基因的肝癌预后预测系统中的应用。
本发明提供了一种基于中心体扩增相关基因的肝癌患者风险评估系统,包括:
数据输入模块,用于将肝癌患者的中心体扩增相关基因基因表达量的检测结果输入模型计算模块,所述中心体扩增相关基因包括SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55;
模型计算模块,包括肝癌患者风险评分模型,用于根据肝癌患者中心体扩增相关基因基因表达量检测结果以及肝癌患者风险评分模型计算肝癌患者风险评分结果;
所述肝癌患者风险评分模型包括风险评分公式,风险评分=0.21543891*SSX2IP+0.17165441*SPAG4+0.42787335*SAC3D1+0.31027313*NP M1+0.34935588*CSNK1D+0.26475163*CEP55;
结果输出模块,用于根据肝癌患者风险评分结果来判定肝癌患者预后情况;当患者风险评分高于等于0.9672时,该患者预后良好、生存期长的可能性低;当患者风险评分低于0.9672时,该患者预后良好、生存期长的可能性高。
本发明提供了一种基于中心体扩增相关基因的肝癌患者预后预测系统,包括:
数据输入模块,用于将肝癌患者的T分期、M分期、病理分期及中心体扩增相关基因风险等级结果输入模型计算模块,所述中心体扩增相关基因包括SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55;
模型计算模块,包括肝癌患者风险综合评分模型,用于根据肝癌患者的T分期、M分期、病理分期及中心体扩增相关基因风险等级结果以及肝癌患者风险综合评分模型计算肝癌患者风险综合评分结果;
所述肝癌患者风险综合评分模型包括风险综合评分公式,风险综合评分=中心体扩增相关基因风险等级得分+T分期得分+病理分期得分+M分期得分;
中心体扩增相关基因风险等级得分的规则为低风险=0分,高风险=51分;T分期得分的规则为T1=35分,T2=54分,T3=73分,T4=92分;病理分期得分的规则为stage1=43分,stage2=52分,stage3=62分,stage4=71分;M分期得分规则为0=50分,1=100分;
中心体扩增相关基因风险评分
=0.21543891*SSX2IP+0.17165441*SPAG4+0.42787335*SAC3D1+0.31027313*NPM1+0.34935588*CSNK1D+0.26475163*CEP55;当患者中心体扩增相关基因风险评分高于等于0.9672时,患者中心体扩增相关基因风险等级为高风险;当患者中心体扩增相关基因风险评分低于0.9672时,患者中心体扩增相关基因风险等级为低风险;
结果输出模块,根据患者的风险综合评分预测患者的生存率,风险综合评分越低,患者生存率越高,提示患者预后良好的可能性越高;其中风险综合评分为120-180分时,患者的1年生存率大于0.85,3年生存率大于0.7,5年生存率大于0.6,提示患者的整体预后较好,生存期长;综合评分为181-220分时,患者的1年生存率大于0.7,3年生存率大于0.5,5年生存率大于等于0.4,提示患者的预后良好,生存期中等;综合评分为221-250分时,患者的1年生存率大于0.5,3年生存率大于0.25,5年生存率大于等于0.18,提示患者的3年和5年预后较差;综合评分为>250分,患者的1年生存率小于0.5,3年生存率小于0.25,5年生存率小于0.18,提示患者的整体预后较差,生存期短。
有益效果:
由于现有技术主要基于肿瘤数量大小、组织学分级、门脉血栓、肿瘤转移、甲胎蛋白、肝功能及体力评分等临床特征预测并指导肝癌患者的治疗,存在局限。本发明基于肝癌发生发展中普遍观察到的中心体异常扩增为切入点,提供了6个在肝癌组织中表达增加且与肝癌不良预后相关的中心体扩增相关基因,并建立了基于中心体扩增6基因的风险评分模型以及肝癌患者风险评估系统,肝癌患者的Kaplan-Meier生存曲线,生存状态及ROC曲线都验证了该风险评分模型以及肝癌患者风险评估系统的准确性。此外,该风险评分模型与肝癌患者临床病理分级及T分期显著正相关。联合肝癌患者临床特征及中心体扩增6基因风险评分的多因素cox比例风险回归分析进一步揭示了风险评分模型的预后独立性和显著性。本发明进一步整合病理分期、T分期、M分期及中心体扩增6基因风险评分,构建了风险综合评分模型以及基于该模型的肝癌患者预后预测系统,该风险综合评分模型和系统可以指导临床医生准确预测肝癌患者的预后,指导临床治疗。
附图说明
图1是中心体扩增6基因在肝癌组织和正常组织中的差异表达。
图2是中心体扩增6基因与肝癌患者生存时间的相关性。
图3是中心体扩增6基因风险评分模型在训练数据集中的性能评价。其中A为中心体扩增6基因在训练数据集不同风险评分患者中的表达热图;B为基于中心体扩增6基因的肝癌患者风险评分与肝癌患者的生存状态分析;C为基于中心体扩增6基因的肝癌患者风险评分与肝癌患者生存时间的分析;D为ROC曲线评价中心体扩增6基因风险模型预测肝癌患者的准确性和特异性。
图4是中心体扩增6基因风险评分模型在测试数据集中的性能评价。其中A为中心体扩增6基因在测试数据集不同风险评分患者中的表达热图;B为基于中心体扩增6基因的肝癌患者风险评分与肝癌患者的生存状态分析;C为基于中心体扩增6基因的肝癌患者风险评分与肝癌患者生存时间的分析;D为ROC曲线评价中心体扩增6基因风险模型预测肝癌患者的准确性和特异性。
图5是中心体扩增6基因风险评分模型在所有数据集中的性能评价。其中A为中心体扩增6基因在整个数据集不同风险评分患者中的表达热图;B为基于中心体扩增6基因的肝癌患者风险评分与肝癌患者的生存状态分析;C为基于中心体扩增6基因的肝癌患者风险评分与肝癌患者生存时间的分析;D为ROC曲线评价中心体扩增6基因风险模型预测肝癌患者的准确性和特异性。
图6为中心体扩增6基因在肝癌患者中的风险评分与肝癌患者临床病理分级及T分期的相关性。其中A为中心体扩增6基因在肝癌患者中的风险评分与肝癌患者临床病理分级的相关性;B为中心体扩增6基因在肝癌患者中的风险评分与肝癌患者临床T分期的相关性。
图7为整合临床病理特征及中心体扩增6基因风险评分的预后列线图。其中A为肝癌临床特征包括年龄、性别、病理分级、病理分期和TNM分期及中心体扩增6基因风险评分与肝癌患者预后相关性的单因素cox比例风险回归分析。B为整合病理分期、T分期、M分期和中心体扩增6基因风险评分的多因素cox比例风险回归分析。C为整合病理分期、T分期、M分期及中心体扩增6基因风险评分的预后列线图。D为预后列线图预测肝癌患者1,3,5年生存率的Calibration校正曲线。
具体实施方式
为更好的说明本发明的目的、技术方案和优点,下面将结合具体实施例对本发明作进一步说明。
首先,本发明提供了与肝癌预后相关的6个中心体扩增相关基因,包括SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55。
其次,本发明提供了肝癌预后标记物的筛选鉴定方法以及构建肝癌风险评分模型和肝癌预后预测系统的方法,具体包括以下步骤:
(1)从Gene Ontology和KEGG上查找到参与中心体扩增的基因共653个。
(2)从TCGA上下载了421例肝癌样本,其中肝癌组织371例,癌旁组织50例;以变化倍数大于1.5且p<0.05为标准,筛选出肝癌组织和癌旁组织的差异基因。将这些差异基因与中心体扩增的653个基因取交集,找出在肝癌组织中表达上调的中心体扩增相关基因。利用单因素cox比例风险回归模型,在这些肝癌组织中表达上调的中心体扩增相关基因中筛选出134个影响肝癌患者不良预后的基因。为避免过度拟合,基于Lasso回归筛选出TUBA4A、SSX2IP、SPAG4、SAC3D1、RAN、PSRC1、NPM1、NAT10、FAM83D、CSNK1D、CHORDC1、CEP55、CDT1和BRSK114个预后关键基因。多因素cox比例风险回归进一步筛选出6个能够独立影响患者预后的基因:SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55。
(3)建立基于中心体扩增6基因的肝癌风险评分模型:利用r语言survminer包的“coxph”函数计算每个基因的风险系数,并利用“predict”函数计算每个肝癌患者的风险评分(Riskscore),风险评分由中心体扩增6基因集中的各个基因表达量与对应系数的乘积之和构成,公式如下:
Riskscore=0.21543891*SSX2IP+0.17165441*SPAG4+0.42787335*SAC3D1+0.31027313*NPM1+0.34935588*CSNK1D+0.26475163*CEP55。
(4)验证基于中心体扩增6基因的肝癌风险评分模型:1)合并TCGA和ICGC数据集,将合并数据集中的肝癌样本划分为训练数据集和测试数据集;按照步骤(3)中的公式计算每个患者的风险评分,使用r语言中的median函数确定训练数据集中所有患者风险评分的中位值(0.9672)。基于此风险评分中位值,将训练数据集,测试数据集及整个数据集中的患者进行分组,患者风险评分高于该中位值的为高风险组,该患者预后良好、生存期长的可能性低;患者风险评分低于该中位值的为低风险组,该患者预后良好、生存期长的可能性高。2)绘制中心体扩增6基因在高风险组和低风险组的表达热图,风险评分图,生存时间及生存状态图以评估所构建模型的准确性。3)绘制高低风险组患者的Kaplan-Meier生存曲线,并以Log-rank(Mantel-Cox)检验方法比较两组间的患者生存时间的差异;ROC曲线进一步验证所构建肝癌风险评分模型的准确性和特异性。
(5)基于中心体扩增6基因的肝癌患者风险模型与肝癌患者临床特征的分析:1)基于中心体扩增6基因的肝癌患者风险模型与肝癌患者病理分级和病理分期的相关性分析。2)单因素cox比例风险回归分析肝癌患者风险模型及肝癌临床特征,包括年龄、性别、病理分级、病理分期及TNM分期,与肝癌患者预后的相关性。3)将上述单因cox比例风险回归中p<0.1的变量纳入多因素cox风险回归分析。4)根据肝癌患者的T分期、M分期、病理分期及中心体扩增6基因风险等级构建一个新的预后列线图。该列线图模型的患者评分=风险等级得分+T分期得分+病理分期得分+M分期得分。风险等级得分的规则为低风险=0分,高风险=51分;T分期得分的规则为T1=35分,T2=54分,T3=73分,T4=92分;病理分期得分的规则为stage1=43分,stage2=52分,stage3=62分,stage4=71分;M分期得分规则为0=50分,1=100分。根据患者的综合评分可以预测患者的生存率,综合评分越低,患者生存率就越高,提示患者预后良好的可能性就越大。其中综合评分为120-180分,患者的1年生存率大于0.85,3年生存率大于0.7,5年生存率大于0.6,提示患者的整体预后较好,生存期长。综合评分为181-220分,患者的1年生存率大于0.7,3年生存率大于0.5,5年生存率大于等于0.4,提示患者的预后良好,生存期中等。综合评分为221-250分,患者的1年生存率大于0.5,3年生存率大于0.25,5年生存率大于等于0.18,提示患者的3年和5年预后较差。综合评分为>250分,患者的1年生存率小于0.5,3年生存率小于0.25,5年生存率小于0.18,提示患者的整体预后较差,生存期短。5)Calibration曲线被进一步用来评估预后列线表的特异性和准确性。
实施例1:筛选出中心体扩增相关基因中与肝癌患者预后显著相关的新的生物标志基因。
从Gene Ontology和KEGG网站上共搜集了参与中心体扩增的基因653个。从TCGA上下载了421例肝癌样本,其中肝癌组织371例,癌旁组织50例;以变化倍数大于1.5且p<0.05为标准,筛选出肝癌组织和癌旁组织的差异基因。然后将这些差异基因与中心体扩增的653个基因取交集,找出在肝癌组织中表达上调的中心体扩增相关基因。利用单因素cox比例风险回归模型,在这些肝癌组织中表达上调的中心体扩增相关基因中筛选出134个影响肝癌患者不良预后的基因。为避免过度拟合,基于Lasso回归筛选出TUBA4A、SSX2IP、SPAG4、SAC3D1、RAN、PSRC1、NPM1、NAT10、FAM83D、CSNK1D、CHORDC1、CEP55、CDT1和BRSK1共14个预后关键基因。多因素cox比例风险回归进一步筛选出6个能够独立影响患者预后的基因:SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55。如图1所示,与正常组织相比,这6个基因在肝癌组织中表达上调。如图2所示,这6个基因与肝癌患者的不良预后显著呈正相关。
实施例2:中心体扩增6基因的风险评分模型的建立与验证。
利用r语言survminer包的“coxph”函数计算每个基因的风险系数如表1所示。我们将TCGA和ICGC数据集去除批次差异并整合,并利用“predict”函数计算每个肝癌患者的风险评分,风险评分由中心体扩增6基因集中的各个基因表达量与对应系数的乘积之和构成,公式如下:
Riskscore=0.21543891*SSX2IP+0.17165441*SPAG4+0.42787335*SAC3D1+0.31027313*NPM1+0.34935588*CSNK1D+0.26475163*CEP55。
然后将整合数据集中的肝癌样本划分为训练数据集和测试数据集,使用r语言中的median函数确定训练数据集中所有患者风险评分的中位值(0.9672)。基于此风险评分中位值,将训练数据集,测试数据集及整个数据集中的患者进行分组,患者风险评分高于该中位值的为高风险组,患者风险评分低于该中位值的为低风险组。如图3所示,在训练数据集中,基于所有患者的风险评分中位值,152个患者被分为高风险组,153个患者被分为低风险组。表达热图显示中心体扩增6基因在高风险组中的表达显著高于低风险组(图3A),且高风险组发生死亡的患者人数更多(图3B)。Kaplan-Meier生存曲线显示高风险组的患者生存时间显著低于低风险组(图3C)。ROC受试者工作曲线显示中心体扩增6基因肝癌患者风险模型预测患者1年,3年及5年死亡的AUC(ROC曲线下面积)值均大于0.5,显示了该肝癌患者风险评分模型的准确性和特异性(图3D)。如图4所示,在测试数据集中,基于上述定义的风险评分中位值,160个患者被分为高风险组,145个患者被分为低风险组。表达热图显示中心体扩增6基因在高风险组中的表达显著高于低风险组(图4A),且高风险组发生死亡的患者人数更多(图4B)。Kaplan-Meier生存曲线显示高风险组的患者生存时间显著低于低风险组(图4C)。ROC受试者工作曲线显示中心体扩增6基因肝癌患者风险模型预测患者1年,3年及5年死亡的AUC(ROC曲线下面积)值均大于0.5,显示了该模型的准确性和特异性(图4D)。如图5所示,在包含训练数据集和测试数据集的整个数据集中,基于上述定义的风险评分中位值,312个患者被分为高风险组,298个患者被分为低风险组。表达热图显示中心体扩增6基因在高风险组中的表达显著高于低风险组(图5A),且高风险组发生死亡的患者人数更多(图5B)。Kaplan-Meier生存曲线显示高风险组的患者生存时间显著低于低风险组(图5C)。ROC受试者工作曲线显示中心体扩增6基因肝癌患者风险评分模型预测患者1年,3年及5年死亡的AUC(ROC曲线下面积)值均大于0.5,显示了该模型的准确性和特异性(图5D)。
表1:中心体扩增6基因的风险系数
实施例3:基于中心体扩增6基因的肝癌风险模型与肝癌患者临床特征的相关性分析。
为了研究中心体扩增6基因对肝癌患者恶性临床特征的预测作用,我们进一步分析了中心体扩增6基因与肝癌病理分级及病理分期的相关性。如图6A所示,中心体扩增6基因风险评分随着肿瘤分级的增加而增加,G3和G4期的肝癌患者的风险评分显著高于G1和G2期的肝癌患者。如图6B所示,中心体扩增6基因风险评分随着肿瘤分期的增加而增加,T2、T3和T4期的肝癌患者的风险评分显著高于T1期的肝癌患者。
实施例4:建立中心体扩增6基因风险评分联合临床特征的预后列线图。
单因素cox比例风险回归分析中心体扩增6基因和传统临床特征包括年龄、性别、病理分级、病理分期及TNM分期对肝癌患者预后的重要性。如图7A所示,病理分期、T分期、M分期及中心体扩增6基因风险评分与肝癌患者的预后具有显著相关性(p<0.05)。将上述单因素cox回归中具有预后显著相关性的病理分期、T分期、M分期及中心体扩增6基因风险评分纳入多因素cox回归分析,如图7B所示,与其他临床特征相比,中心体扩增6基因可以作为独立的肝癌预后标记物。如图7C所示,我们联合肝癌患者的T分期、M分期、病理分期及中心体扩增6基因风险等级构建一个新的预后列线图。该列线图模型的患者评分=风险等级得分+T分期得分+病理分期得分+M分期得分。风险等级得分的规则为低风险=0分,高风险=51分;T分期得分的规则为T1=35分,T2=54分,T3=73分,T4=92分;病理分期得分的规则为stage1=43分,stage2=52分,stage3=62分,stage4=71分;M分期得分规则为0=50分,1=100分。具体计算方式借助r语言程序,由数据输入、模型计算和结果输出三个模块构成。首先,根据中心体扩增6基因的表达计算患者的风险评分,并根据风险评分的中位值划分为低风险和高风险,随后将患者的生存时间、生存状态、风险等级、病理分期、T分期、M分期临床信息录入为命名为“患者信息”的txt文档中。加载r包Survival、regplot和rms,读入“患者信息”文档,如表2所示;利用cox风险回归coxph函数得到列线图模型的计算参数,之后利用regplot函数可视化列线图。具体的r语言代码如下所示:
图7C中的红色指示线指示的是“患者信息”信息表第16行的患者的风险等级得分为51分、T分期得分为54分、病理分期得分为52分、M分期得分为50分,四者相加的总得分为207分。根据该评分,可以推测患者1年生存率为0.752,3年生存率为0.558,5年生存率为0.449。Calibration曲线进一步验证了该预后列线图预测肝癌患者1年、3年及5年的生存概率具有非常高的特异性和准确性,如图7D所示。
表2:患者信息表
最后所应当说明的是,以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (4)
1.SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55在制备基于中心体扩增相关基因的肝癌患者风险评估系统中的应用。
2.SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55在制备基于中心体扩增相关基因的肝癌预后预测系统中的应用。
3.一种基于中心体扩增相关基因的肝癌患者风险评估系统,其特征在于,包括:
数据输入模块,用于将肝癌患者的中心体扩增相关基因基因表达量的检测结果输入模型计算模块,所述中心体扩增相关基因包括SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55;
模型计算模块,包括肝癌患者风险评分模型,用于根据肝癌患者中心体扩增相关基因基因表达量检测结果以及肝癌患者风险评分模型计算肝癌患者风险评分结果;
所述肝癌患者风险评分模型包括风险评分公式,风险评分=0.21543891*SSX2IP+0.17165441*SPAG4+0.42787335*SAC3D1+0.31027313*NP M1+0.34935588*CSNK1D+0.26475163*CEP55;
结果输出模块,用于根据肝癌患者风险评分结果来判定肝癌患者预后情况;当患者风险评分高于等于0.9672时,该患者预后良好、生存期长的可能性低;当患者风险评分低于0.9672时,该患者预后良好、生存期长的可能性高。
4.一种基于中心体扩增相关基因的肝癌患者预后预测系统,其特征在于,包括:
数据输入模块,用于将肝癌患者的T分期、M分期、病理分期及中心体扩增相关基因风险等级结果输入模型计算模块,所述中心体扩增相关基因包括SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55;
模型计算模块,包括肝癌患者风险综合评分模型,用于根据肝癌患者的T分期、M分期、病理分期及中心体扩增相关基因风险等级结果以及肝癌患者风险综合评分模型计算肝癌患者风险综合评分结果;
所述肝癌患者风险综合评分模型包括风险综合评分公式,风险综合评分=中心体扩增相关基因风险等级得分+T分期得分+病理分期得分+M分期得分;
中心体扩增相关基因风险等级得分的规则为低风险=0分,高风险=51分;T分期得分的规则为T1=35分,T2=54分,T3=73分,T4=92分;病理分期得分的规则为stage1=43分,stage2=52分,stage3=62分,stage4=71分;M分期得分规则为0=50分,1=100分;
中心体扩增相关基因风险评分=0.21543891*SSX2IP+0.17165441*SPAG4+0.42787335*SAC3D1+0.31027313*NP M1+0.34935588*CSNK1D+0.26475163*CEP55;当患者中心体扩增相关基因风险评分高于等于0.9672时,患者中心体扩增相关基因风险等级为高风险;当患者中心体扩增相关基因风险评分低于0.9672时,患者中心体扩增相关基因风险等级为低风险;
结果输出模块,根据患者的风险综合评分预测患者的生存率,风险综合评分越低,患者生存率越高,提示患者预后良好的可能性越高;其中风险综合评分为120-180分时,患者的1年生存率大于0.85,3年生存率大于0.7,5年生存率大于0.6,提示患者的整体预后较好,生存期长;综合评分为181-220分时,患者的1年生存率大于0.7,3年生存率大于0.5,5年生存率大于等于0.4,提示患者的预后良好,生存期中等;综合评分为221-250分时,患者的1年生存率大于0.5,3年生存率大于0.25,5年生存率大于等于0.18,提示患者的3年和5年预后较差;综合评分为>250分,患者的1年生存率小于0.5,3年生存率小于0.25,5年生存率小于0.18,提示患者的整体预后较差,生存期短。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211481723.9A CN116564420A (zh) | 2022-11-24 | 2022-11-24 | 一种基于中心体扩增相关基因的肝癌患者风险评估系统和预后预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211481723.9A CN116564420A (zh) | 2022-11-24 | 2022-11-24 | 一种基于中心体扩增相关基因的肝癌患者风险评估系统和预后预测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116564420A true CN116564420A (zh) | 2023-08-08 |
Family
ID=87502505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211481723.9A Withdrawn CN116564420A (zh) | 2022-11-24 | 2022-11-24 | 一种基于中心体扩增相关基因的肝癌患者风险评估系统和预后预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116564420A (zh) |
-
2022
- 2022-11-24 CN CN202211481723.9A patent/CN116564420A/zh not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11783915B2 (en) | Convolutional neural network systems and methods for data classification | |
CN111394456B (zh) | 早期肺腺癌患者预后评估系统及其应用 | |
CN113450873B (zh) | 一种预测胃癌预后和免疫治疗适用性的标志物及其应用 | |
WO2023040102A1 (zh) | 判断肝细胞肝癌患者预后的基因模型、构建方法和应用 | |
CN111128385B (zh) | 一种用于食管鳞癌的预后预警系统及其应用 | |
CN110580956A (zh) | 一组肝癌预后标志物及其应用 | |
CN116030880A (zh) | 用于结直肠癌预后风险预测的生物标志物、模型及其应用 | |
Ueno et al. | Prognostic value of poorly differentiated clusters in the primary tumor in patients undergoing hepatectomy for colorectal liver metastasis | |
CN114317532B (zh) | 用于预测白血病预后的评估基因集、试剂盒、系统及应用 | |
CN115588507A (zh) | 一种肺腺癌emt相关基因的预后模型及构建方法和应用 | |
CN114203256B (zh) | 基于微生物丰度的mibc分型及预后预测模型构建方法 | |
CN112626218A (zh) | 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒 | |
CN112831562A (zh) | 一种用于预测肝癌患者切除术后复发风险的生物标志物组合、试剂盒 | |
CN110998318A (zh) | 基于转移性疾病中循环肿瘤细胞(ctc)的单细胞表征的确定疗法的方法 | |
US20210215700A1 (en) | Personalized treatment of pancreatic cancer | |
CN114360721A (zh) | 代谢相关子宫内膜癌的预后模型及构建方法 | |
CN116206681A (zh) | 一种免疫浸润细胞模型的预后基因对价值评价方法 | |
CN108350507B (zh) | 对疾病进行组织学诊断和治疗的方法 | |
CN111471773A (zh) | 预测胃腺癌患者预后的诊断生物标记物及其确定方法、应用 | |
CN113774135B (zh) | 一组用于预测高级别浆液性卵巢癌预后的标志物及其应用 | |
WO2020074679A1 (en) | Pre-surgical risk stratification based on pde4d7 and dhx9 expression | |
CN115505644A (zh) | 一种预测头颈部鳞癌化疗药效的试剂盒及其应用 | |
CN116092674A (zh) | 外泌体介导的胃癌总体生存率预后模型及构建方法和应用 | |
CN116564420A (zh) | 一种基于中心体扩增相关基因的肝癌患者风险评估系统和预后预测系统 | |
Cheng et al. | Early signatures of breast cancer up to seven years prior to clinical diagnosis in plasma cell-free DNA methylomes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230808 |
|
WW01 | Invention patent application withdrawn after publication |