CN114678062B - 基于多组学特征的肝细胞癌预后预测系统及其预测方法 - Google Patents
基于多组学特征的肝细胞癌预后预测系统及其预测方法 Download PDFInfo
- Publication number
- CN114678062B CN114678062B CN202111598100.5A CN202111598100A CN114678062B CN 114678062 B CN114678062 B CN 114678062B CN 202111598100 A CN202111598100 A CN 202111598100A CN 114678062 B CN114678062 B CN 114678062B
- Authority
- CN
- China
- Prior art keywords
- score
- hepatocellular carcinoma
- ges
- tissues
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010073071 hepatocellular carcinoma Diseases 0.000 title claims abstract description 98
- 231100000844 hepatocellular carcinoma Toxicity 0.000 title claims abstract description 88
- 238000004393 prognosis Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000000126 substance Substances 0.000 title claims abstract description 25
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 63
- 201000011510 cancer Diseases 0.000 claims abstract description 51
- 230000004083 survival effect Effects 0.000 claims abstract description 29
- 230000014509 gene expression Effects 0.000 claims description 77
- 210000002865 immune cell Anatomy 0.000 claims description 73
- 108090000623 proteins and genes Proteins 0.000 claims description 56
- 230000008595 infiltration Effects 0.000 claims description 45
- 238000001764 infiltration Methods 0.000 claims description 45
- 101150094765 70 gene Proteins 0.000 claims description 18
- 239000000523 sample Substances 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 208000014018 liver neoplasm Diseases 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 210000004027 cell Anatomy 0.000 claims description 6
- 239000003153 chemical reaction reagent Substances 0.000 claims description 5
- 210000004443 dendritic cell Anatomy 0.000 claims description 5
- 210000002540 macrophage Anatomy 0.000 claims description 5
- 210000005229 liver cell Anatomy 0.000 claims description 4
- 238000000611 regression analysis Methods 0.000 claims description 4
- 230000000284 resting effect Effects 0.000 claims description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 4
- 210000004322 M2 macrophage Anatomy 0.000 claims description 3
- 230000003325 follicular Effects 0.000 claims description 3
- 210000002443 helper t lymphocyte Anatomy 0.000 claims description 3
- 210000003630 histaminocyte Anatomy 0.000 claims description 3
- 210000000440 neutrophil Anatomy 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000012315 univariate regression analysis Methods 0.000 claims description 3
- 102100026112 60S acidic ribosomal protein P2 Human genes 0.000 claims description 2
- 102100033723 Anaphase-promoting complex subunit 15 Human genes 0.000 claims description 2
- 102100025672 Angiopoietin-related protein 2 Human genes 0.000 claims description 2
- 102100035765 Angiotensin-converting enzyme 2 Human genes 0.000 claims description 2
- 108090000975 Angiotensin-converting enzyme 2 Proteins 0.000 claims description 2
- 102100032435 BTB/POZ domain-containing adapter for CUL3-mediated RhoA degradation protein 2 Human genes 0.000 claims description 2
- 102100037468 Bifunctional peptidase and arginyl-hydroxylase JMJD5 Human genes 0.000 claims description 2
- 102100036461 Bis(5'-nucleosyl)-tetraphosphatase [asymmetrical] Human genes 0.000 claims description 2
- 102100025248 C-X-C motif chemokine 10 Human genes 0.000 claims description 2
- 102100024217 CAMPATH-1 antigen Human genes 0.000 claims description 2
- 102100034799 CCAAT/enhancer-binding protein delta Human genes 0.000 claims description 2
- 108010065524 CD52 Antigen Proteins 0.000 claims description 2
- 102100021287 CUE domain-containing protein 2 Human genes 0.000 claims description 2
- 102100024154 Cadherin-13 Human genes 0.000 claims description 2
- 102100030250 Cation channel sperm-associated auxiliary subunit gamma Human genes 0.000 claims description 2
- 102100034770 Cyclin-dependent kinase inhibitor 3 Human genes 0.000 claims description 2
- 102100024812 DNA (cytosine-5)-methyltransferase 3A Human genes 0.000 claims description 2
- 108010024491 DNA Methyltransferase 3A Proteins 0.000 claims description 2
- 102100040795 DNA primase large subunit Human genes 0.000 claims description 2
- 102100038606 Death-associated protein kinase 3 Human genes 0.000 claims description 2
- 102100029790 Defensin-6 Human genes 0.000 claims description 2
- 108010086291 Deubiquitinating Enzyme CYLD Proteins 0.000 claims description 2
- 102100028572 Disabled homolog 2 Human genes 0.000 claims description 2
- 102100023227 E3 SUMO-protein ligase EGR2 Human genes 0.000 claims description 2
- 102100027415 E3 ubiquitin-protein ligase Arkadia Human genes 0.000 claims description 2
- 102100029723 Ectonucleoside triphosphate diphosphohydrolase 2 Human genes 0.000 claims description 2
- 102100021579 Enhancer of filamentation 1 Human genes 0.000 claims description 2
- 102100037819 Fas apoptotic inhibitory molecule 1 Human genes 0.000 claims description 2
- 102100039805 G patch domain-containing protein 2 Human genes 0.000 claims description 2
- 102100033840 General transcription factor IIF subunit 1 Human genes 0.000 claims description 2
- 102100021613 Golgi-resident adenosine 3',5'-bisphosphate 3'-phosphatase Human genes 0.000 claims description 2
- 102100028707 Homeobox protein MSX-1 Human genes 0.000 claims description 2
- 101000691878 Homo sapiens 60S acidic ribosomal protein P2 Proteins 0.000 claims description 2
- 101000733701 Homo sapiens Anaphase-promoting complex subunit 15 Proteins 0.000 claims description 2
- 101000693081 Homo sapiens Angiopoietin-related protein 2 Proteins 0.000 claims description 2
- 101000798415 Homo sapiens BTB/POZ domain-containing adapter for CUL3-mediated RhoA degradation protein 2 Proteins 0.000 claims description 2
- 101001025948 Homo sapiens Bifunctional peptidase and arginyl-hydroxylase JMJD5 Proteins 0.000 claims description 2
- 101000928573 Homo sapiens Bis(5'-nucleosyl)-tetraphosphatase [asymmetrical] Proteins 0.000 claims description 2
- 101000858088 Homo sapiens C-X-C motif chemokine 10 Proteins 0.000 claims description 2
- 101000945965 Homo sapiens CCAAT/enhancer-binding protein delta Proteins 0.000 claims description 2
- 101000894806 Homo sapiens CUE domain-containing protein 2 Proteins 0.000 claims description 2
- 101000762243 Homo sapiens Cadherin-13 Proteins 0.000 claims description 2
- 101000726694 Homo sapiens Cation channel sperm-associated auxiliary subunit gamma Proteins 0.000 claims description 2
- 101000945639 Homo sapiens Cyclin-dependent kinase inhibitor 3 Proteins 0.000 claims description 2
- 101000611553 Homo sapiens DNA primase large subunit Proteins 0.000 claims description 2
- 101000956149 Homo sapiens Death-associated protein kinase 3 Proteins 0.000 claims description 2
- 101000865479 Homo sapiens Defensin-6 Proteins 0.000 claims description 2
- 101000830440 Homo sapiens Differentially expressed in FDCP 6 homolog Proteins 0.000 claims description 2
- 101000915391 Homo sapiens Disabled homolog 2 Proteins 0.000 claims description 2
- 101001049692 Homo sapiens E3 SUMO-protein ligase EGR2 Proteins 0.000 claims description 2
- 101000650322 Homo sapiens E3 ubiquitin-protein ligase Arkadia Proteins 0.000 claims description 2
- 101001012441 Homo sapiens Ectonucleoside triphosphate diphosphohydrolase 2 Proteins 0.000 claims description 2
- 101000898310 Homo sapiens Enhancer of filamentation 1 Proteins 0.000 claims description 2
- 101000878509 Homo sapiens Fas apoptotic inhibitory molecule 1 Proteins 0.000 claims description 2
- 101001034114 Homo sapiens G patch domain-containing protein 2 Proteins 0.000 claims description 2
- 101000640758 Homo sapiens General transcription factor IIF subunit 1 Proteins 0.000 claims description 2
- 101001044070 Homo sapiens Golgi-resident adenosine 3',5'-bisphosphate 3'-phosphatase Proteins 0.000 claims description 2
- 101000985653 Homo sapiens Homeobox protein MSX-1 Proteins 0.000 claims description 2
- 101001053590 Homo sapiens IQ domain-containing protein K Proteins 0.000 claims description 2
- 101000599573 Homo sapiens InaD-like protein Proteins 0.000 claims description 2
- 101001037256 Homo sapiens Indoleamine 2,3-dioxygenase 1 Proteins 0.000 claims description 2
- 101000598002 Homo sapiens Interferon regulatory factor 1 Proteins 0.000 claims description 2
- 101001055145 Homo sapiens Interleukin-2 receptor subunit beta Proteins 0.000 claims description 2
- 101001027204 Homo sapiens Kelch-like protein 36 Proteins 0.000 claims description 2
- 101001034314 Homo sapiens Lactadherin Proteins 0.000 claims description 2
- 101001000109 Homo sapiens Myosin-10 Proteins 0.000 claims description 2
- 101000979223 Homo sapiens N-terminal EF-hand calcium-binding protein 3 Proteins 0.000 claims description 2
- 101001111238 Homo sapiens NADH dehydrogenase [ubiquinone] 1 alpha subcomplex subunit 3 Proteins 0.000 claims description 2
- 101000581981 Homo sapiens Neural cell adhesion molecule 1 Proteins 0.000 claims description 2
- 101001098179 Homo sapiens P2X purinoceptor 4 Proteins 0.000 claims description 2
- 101001001917 Homo sapiens PRKR-interacting protein 1 Proteins 0.000 claims description 2
- 101000583459 Homo sapiens Progesterone-induced-blocking factor 1 Proteins 0.000 claims description 2
- 101001106969 Homo sapiens RING finger protein 141 Proteins 0.000 claims description 2
- 101001076724 Homo sapiens RNA-binding protein 28 Proteins 0.000 claims description 2
- 101000636109 Homo sapiens Ras suppressor protein 1 Proteins 0.000 claims description 2
- 101000650667 Homo sapiens SET domain-containing protein 4 Proteins 0.000 claims description 2
- 101000821449 Homo sapiens Secreted and transmembrane protein 1 Proteins 0.000 claims description 2
- 101000713494 Homo sapiens Small nuclear ribonucleoprotein F Proteins 0.000 claims description 2
- 101000864070 Homo sapiens Smoothelin Proteins 0.000 claims description 2
- 101000701845 Homo sapiens Spermatogenesis-associated protein 5-like protein 1 Proteins 0.000 claims description 2
- 101000651299 Homo sapiens Sprouty-related, EVH1 domain-containing protein 2 Proteins 0.000 claims description 2
- 101000835632 Homo sapiens TBCC domain-containing protein 1 Proteins 0.000 claims description 2
- 101000653432 Homo sapiens Tectonic-2 Proteins 0.000 claims description 2
- 101001017896 Homo sapiens U6 snRNA-associated Sm-like protein LSm1 Proteins 0.000 claims description 2
- 101000771982 Homo sapiens Vacuolar protein sorting-associated protein 45 Proteins 0.000 claims description 2
- 101000808011 Homo sapiens Vascular endothelial growth factor A Proteins 0.000 claims description 2
- 101000666127 Homo sapiens Whirlin Proteins 0.000 claims description 2
- 101000785563 Homo sapiens Zinc finger and SCAN domain-containing protein 31 Proteins 0.000 claims description 2
- 101000976577 Homo sapiens Zinc finger protein 124 Proteins 0.000 claims description 2
- 101000782141 Homo sapiens Zinc finger protein 230 Proteins 0.000 claims description 2
- 101000723740 Homo sapiens Zinc finger protein 24 Proteins 0.000 claims description 2
- 101000976613 Homo sapiens Zinc finger protein 415 Proteins 0.000 claims description 2
- 101000782461 Homo sapiens Zinc finger protein 446 Proteins 0.000 claims description 2
- 101000785613 Homo sapiens Zinc finger protein 652 Proteins 0.000 claims description 2
- 102100024415 IQ domain-containing protein K Human genes 0.000 claims description 2
- 102100037978 InaD-like protein Human genes 0.000 claims description 2
- 102100040061 Indoleamine 2,3-dioxygenase 1 Human genes 0.000 claims description 2
- 102100036981 Interferon regulatory factor 1 Human genes 0.000 claims description 2
- 102100026879 Interleukin-2 receptor subunit beta Human genes 0.000 claims description 2
- 102100037657 Kelch-like protein 36 Human genes 0.000 claims description 2
- 102100039648 Lactadherin Human genes 0.000 claims description 2
- 102100036640 Myosin-10 Human genes 0.000 claims description 2
- 102100023213 N-terminal EF-hand calcium-binding protein 3 Human genes 0.000 claims description 2
- 102100023948 NADH dehydrogenase [ubiquinone] 1 alpha subcomplex subunit 3 Human genes 0.000 claims description 2
- 102100027347 Neural cell adhesion molecule 1 Human genes 0.000 claims description 2
- 102100037601 P2X purinoceptor 4 Human genes 0.000 claims description 2
- 102100036319 PRKR-interacting protein 1 Human genes 0.000 claims description 2
- 102100031015 Progesterone-induced-blocking factor 1 Human genes 0.000 claims description 2
- 102100030944 Protein-glutamine gamma-glutamyltransferase K Human genes 0.000 claims description 2
- 102100025872 RNA-binding protein 28 Human genes 0.000 claims description 2
- 102100030800 Ras suppressor protein 1 Human genes 0.000 claims description 2
- 101710205841 Ribonuclease P protein component 3 Proteins 0.000 claims description 2
- 102100033795 Ribonuclease P protein subunit p30 Human genes 0.000 claims description 2
- 102100027707 SET domain-containing protein 4 Human genes 0.000 claims description 2
- 102100021853 Secreted and transmembrane protein 1 Human genes 0.000 claims description 2
- 102100036758 Small nuclear ribonucleoprotein F Human genes 0.000 claims description 2
- 102100029937 Smoothelin Human genes 0.000 claims description 2
- 102100030410 Spermatogenesis-associated protein 5-like protein 1 Human genes 0.000 claims description 2
- 102100027650 Sprouty-related, EVH1 domain-containing protein 2 Human genes 0.000 claims description 2
- 102100026485 TBCC domain-containing protein 1 Human genes 0.000 claims description 2
- 102100030745 Tectonic-2 Human genes 0.000 claims description 2
- 102100033314 U6 snRNA-associated Sm-like protein LSm1 Human genes 0.000 claims description 2
- 102100024250 Ubiquitin carboxyl-terminal hydrolase CYLD Human genes 0.000 claims description 2
- 102100029495 Vacuolar protein sorting-associated protein 45 Human genes 0.000 claims description 2
- 102100039037 Vascular endothelial growth factor A Human genes 0.000 claims description 2
- 102100038102 Whirlin Human genes 0.000 claims description 2
- 102100026586 Zinc finger and SCAN domain-containing protein 31 Human genes 0.000 claims description 2
- 102100023573 Zinc finger protein 124 Human genes 0.000 claims description 2
- 102100036564 Zinc finger protein 230 Human genes 0.000 claims description 2
- 102100028365 Zinc finger protein 24 Human genes 0.000 claims description 2
- 102100023546 Zinc finger protein 415 Human genes 0.000 claims description 2
- 102100035866 Zinc finger protein 446 Human genes 0.000 claims description 2
- 102100026453 Zinc finger protein 652 Human genes 0.000 claims description 2
- 210000003719 b-lymphocyte Anatomy 0.000 claims description 2
- 210000003690 classically activated macrophage Anatomy 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 claims description 2
- 238000011532 immunohistochemical staining Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 210000004180 plasmocyte Anatomy 0.000 claims description 2
- 238000003752 polymerase chain reaction Methods 0.000 claims description 2
- 108010058734 transglutaminase 1 Proteins 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 10
- 210000001519 tissue Anatomy 0.000 description 60
- 201000007270 liver cancer Diseases 0.000 description 9
- 238000010276 construction Methods 0.000 description 8
- 101001045123 Homo sapiens Hyccin Proteins 0.000 description 6
- 101710091635 Probable diacyglycerol O-acyltransferase tgs1 Proteins 0.000 description 5
- 101710091608 Probable diacyglycerol O-acyltransferase tgs2 Proteins 0.000 description 5
- 102100039146 Trimethylguanosine synthase Human genes 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 102100026049 CDP-diacylglycerol-glycerol-3-phosphate 3-phosphatidyltransferase, mitochondrial Human genes 0.000 description 4
- 101000692362 Homo sapiens CDP-diacylglycerol-glycerol-3-phosphate 3-phosphatidyltransferase, mitochondrial Proteins 0.000 description 4
- 101100425538 Pseudomonas aeruginosa (strain UCBPP-PA14) tis1 gene Proteins 0.000 description 4
- 230000036039 immunity Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 101100520159 Arabidopsis thaliana PIS2 gene Proteins 0.000 description 3
- 102100027194 CDP-diacylglycerol-inositol 3-phosphatidyltransferase Human genes 0.000 description 3
- 101000914522 Homo sapiens CDP-diacylglycerol-inositol 3-phosphatidyltransferase Proteins 0.000 description 3
- 108020005198 Long Noncoding RNA Proteins 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 108700020796 Oncogene Proteins 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000003979 eosinophil Anatomy 0.000 description 2
- 230000011987 methylation Effects 0.000 description 2
- 238000007069 methylation reaction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 101150101189 HCC gene Proteins 0.000 description 1
- 101001095995 Homo sapiens GTP-binding protein REM 1 Proteins 0.000 description 1
- 101150098499 III gene Proteins 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 238000010357 RNA editing Methods 0.000 description 1
- 230000026279 RNA modification Effects 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 101150091618 VIPR1 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000005773 cancer-related death Effects 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013502 data validation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 210000003494 hepatocyte Anatomy 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 210000005228 liver tissue Anatomy 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000002705 metabolomic analysis Methods 0.000 description 1
- 230000001431 metabolomic effect Effects 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000000324 molecular mechanic Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 239000013610 patient sample Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000000107 tumor biomarker Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了基于多组学特征的肝细胞癌预后预测系统,属于生物医学技术领域,所述预测系统包括数据输入模块、预测模块和显示模块;所述数据输入模块用于输入肝细胞癌患者数据并上传至所述预测模块,肝细胞癌患者数据包括GES评分水平、IS评分水平和TNM分期;所述预测模块为列线图模型;所述显示模块用于显示肝细胞癌患者24和/或36个月总体生存概率;通过同时使用癌和癌旁组织,并整合使用两种组学数据以及肝细胞癌常用临床指标,通过列线图模型对肝细胞癌预后进行预测,可广泛用于肝细胞癌患者的临床预后评估,该预测系统相比现有预后模型而言更加全面可靠。本发明还提供了基于多组学特征的肝细胞癌预后预测系统的预测方法及应用。
Description
技术领域
本发明属于生物医学技术领域,特别涉及一种基于多组学特征的肝细胞癌预后预测系统及其预测方法。
背景技术
肝癌是全球范围内癌症相关死亡的主要原因之一,肝细胞癌(Hepatocellularcarcinoma,HCC)占肝癌病例中的大部分(大于4/5)。中国作为HCC的高发地区,发病率高达20例/10万例,每年新增患者数量占全球一半以上。在过去数十年间,人类关于HCC的流行病学、分子机理等方面的研究已经有了长足的进展,也开发出了一系列举措来对其进行预防、诊断、早期检测和治疗,然而HCC在很多国家仍然表现出高的发病率以及致死率,这和HCC病人潜在的肝脏病变以及HCC独特的生物学特征有关。因此,对患者预后进行评估和风险分层可以有效地指导临床治疗。
随着基因芯片和第二代测序技术等高通量方法的出现,转录组和蛋白质组等组学数据与日俱增,基于组学水平的生物标记物鉴定也成为了新的趋势。通过使用高通量的方法,能方便快捷地对成百上千个样品的转录组(包括基因表达量、差异剪切、RNA编辑)、基因组(包括CNV、杂合度和SNP)、蛋白质组和代谢组学等方面的分析。目前已经有大量研究尝试基于基因表达或者其它组学特征进行HCC预后预测。例如,专利CN107502659B中,通过比较肝癌组织和配对的癌旁组织,首次发现了VIPR1基因在实体瘤肝组织中存在异常表达,并将其用作肝癌预后预测的特异标志基因。专利CN108728534B中,通过对127对肝癌组织及配对癌旁组织中差异表达的lncRNA进行分析,有218个差异表达倍数超过1.25倍的lncRNA,并进一步构建了基于4种lncRNA分子(RP11-134021.1、XLOC_012786、XLOC_000917和XLOC_010457)的模型用于评估肝癌患者预后。目前已经有若干用于肝细胞癌患者预后评估的模型,但大多数在独立临床数据集的验证中可重复性不高。
发明内容
为了解决现有肝细胞癌预后评估模型可靠性不高的技术问题,本发明提供了一种基于多组学特征的肝细胞癌预后预测系统,通过同时使用癌和癌旁组织,并整合使用两种组学数据以及肝细胞癌常用临床指标,通过列线图模型对肝细胞癌预后进行预测,可以广泛用于肝细胞癌患者的临床预后评估中,该预测系统相比现有预后模型而言更加全面可靠。
本发明还提供了基于多组学特征的肝细胞癌预后预测系统的预测方法及应用。
本发明通过以下技术方案实现:
本发明提供一种基于多组学特征的肝细胞癌预后预测系统,所述预测系统包括数据输入模块、预测模块和显示模块;
所述数据输入模块用于输入肝细胞癌患者数据并上传至所述预测模块,所述肝细胞癌患者数据包括GES评分水平、IS评分水平和TNM分期;
所述预测模块为列线图模型,所述预测模块基于所述肝细胞癌患者数据对肝细胞癌患者预后进行预测分析;
所述显示模块用于显示肝细胞癌患者24和/或36个月总体生存概率;
所述GES评分水平为癌组织和癌旁组织的70个基因表达量数据经GES评分模型判定所得,所述IS评分水平为癌组织和癌旁组织的12种免疫细胞相对浸润水平数据经IS评分模型判定所得。
进一步的,所述70个基因表达量数据包括44个肝细胞癌组织的基因表达量数据和26个癌旁组织的基因表达量数据;
所述44个肝细胞癌组织的基因表达量数据包括以下基因的表达量数据:
DEF6、ZFR、CYLD、ZNF446、TGM1、WHRN、CATSPERG、IL2RB、IMPAD1、ANAPC15、NEDD9、VEGFA、TBCCD1、IRF1、NECAB3、MYH10、P2RX4、KLHL36、ANGPTL2、SNRPF、MFGE8、CDH13、SECTM1、PRIM2、RPP30、DAB2、FAIM、MSX1、NUDT2、DAPK3、TCTN2、CXCL10、CD52、NDUFA3、ZNF415、ZNF24、LSM1、SMTN、SETD4、ZNF124、NMB、SPRED2、ZNF652、ZSCAN31;
所述26个癌旁组织的基因表达量数据包括以下基因的表达量数据:
ENTPD2、PIBF1、BAX、GPATCH2、CDKN3、RBM28、CUEDC2、TNFAIP1、DNMT3A、EGR2、GTF2F1、PRKRIP1、ACE2、IDO1、PATJ、VPS45、RSU1、NCAM1、KDM8、RNF111、ZNF230、ICOS、SPATA5L1、IQCK、RPLP2、CEBPD。
进一步的,所述12种免疫细胞相对浸润水平数据包括8种肝细胞癌组织的免疫细胞相对浸润水平数据和4种癌旁组织的免疫细胞相对浸润水平数据;
所述8种肝细胞癌组织的免疫细胞相对浸润水平数据包括以下免疫细胞的相对浸润水平数据:
浆细胞、CD8 T细胞、初始CD4 T细胞、滤泡辅助T细胞、M0巨噬细胞、M1巨噬细胞、M2巨噬细胞、中性粒细胞;
所述4种癌旁组织的免疫细胞相对浸润水平数据包括以下免疫细胞的相对浸润水平数据:
初始B细胞、静息树突状细胞、活化树突状细胞、活化肥大细胞。
基于同一发明构思,本发明还提供一种基于多组学特征的肝细胞癌预后预测系统的预测方法,所述方法包括:
测定肝细胞癌患者癌组织及癌旁组织的70个基因表达量数据,计算获得GES评分水平;
测定肝细胞癌患者癌组织及癌旁组织的12种免疫细胞相对浸润水平数据,计算获得IS评分水平;
将所述GES评分水平、所述IS评分水平和TNM分期输入并上传至预测模块;
所述预测模块为列线图模型,所述列线图模型基于GES评分水平、所述IS评分水平和所述TNM分期对肝细胞癌患者预后进行预测分析;
通过显示模块显示肝细胞癌患者24和/或36个月总体生存概率。
进一步的,所述测定肝细胞癌患者癌组织及癌旁组织的70个基因表达量数据,计算获得GES评分水平,具体包括:
测定肝细胞癌患者癌组织及癌旁组织的70个基因表达量数据,根据GES评分模型,计算70个基因表达量数据各自经相应特异性权重加权后的总和与各系数总和的比值,获得GES评分;
所述GES评分的具体计算方法如公式(1):
其中n是GES评分模型的基因数量,xi是各基因的表达量,wi是各基因相应的特异性权重;
根据GES评分模型的最佳分割点0.067,基于所述GES评分判定肝细胞癌患者的GES评分水平为评分高或评分低。
进一步的,所述测定肝细胞癌患者癌组织及癌旁组织的12种免疫细胞相对浸润水平数据,计算获得IS评分水平,具体包括:
测定肝细胞癌患者癌组织及癌旁组织的12种免疫细胞相对浸润水平数据,根据IS评分模型,计算12种免疫细胞相对浸润水平数据各自经相应特异性权重加权后的总和,获得IS评分;
所述IS评分的具体计算方法如公式(2):
其中n是IS评分模型的免疫细胞数量,xi是各免疫细胞占免疫细胞总量的分数,wi为各免疫细胞相应的特异性权重;
根据IS评分模型的最佳分割点1.96,基于所述IS评分判定肝细胞癌患者的IS评分水平为评分高或评分低。
进一步的,所述GES评分模型通过以下方法构建:
选取若干组肝细胞癌组织及配对癌旁组织样本,构成样本集,获取所述样本在12,749个基因中的表达谱,并获取所述样本22种免疫细胞的相对浸润水平数据;
使用Cox比例风险模型分别对12,749个基因进行标准单变量回归分析,将表达量和病人生存存在显著关联的基因作为候选基因,对所述候选基因进行LASSO回归分析,构建一个基于70个基因表达水平的GES评分模型;
基于GES评分模型,计算所述样本的GES评分,将所述样本集的GES评分水平分为GES评分高和GES评分低的两组,得到GES评分模型的最佳分割点0.067。
进一步的,所述IS评分模型通过以下方法构建:
使用Cox比例风险模型获得22种免疫细胞作为候选免疫细胞,对22种免疫细胞进行LASSO回归分析,构建一个基于12种免疫细胞相对浸润水平的IS评分模型;
基于IS评分模型,计算所述样本的IS评分,将所述样本集的IS评分水平分为IS评分高和IS评分低的两组,得到IS评分模型的最佳分割点1.96。
进一步的,所述选取若干组肝细胞癌组织及配对癌旁组织样本,构成样本集,获取所述样本在12,749个基因中的表达谱,并获取所述样本22种免疫细胞的相对浸润水平数据,具体包括:
从GEO(https://www.ncbi.nlm.nih.gov/gds)中选择由复旦大学肝癌研究所发布的基于Affymetrix GeneChip HG-U133A 2.0(Affymetrix,Santa Clara,CA)芯片的基因表达数据,筛选209名病人构成样本集,获得209名病人的肝细胞癌组织及配对癌旁组织样本在12,749个基因中的表达谱;
使用CIBERSORTx算法(https://cibersortx.stanford.edu/),利用209名病人的所述样本在12,749个基因中的表达谱,对所述样本的22种免疫细胞的相对浸润水平进行定量。
基于同一发明构思,本发明还提供一种基于多组学特征的肝细胞癌预后预测系统在制备预测肝细胞癌患者预后生存概率的试剂盒中的应用。
进一步的,所述试剂盒包括基于碱基互补配对来进行基因表达量测定所使用的探针、基于聚合酶链式反应测定基因表达量所使用的引物、通过转录组测序获得所述基因表达量所需的试剂,以及通过免疫组织化学染色方法测定所述免疫细胞相对浸润水平所需的试剂。
本发明实施例中的一个或多个技术方案,至少具有如下技术效果或优点:
本发明基于多组学特征的肝细胞癌预后预测系统,该预测系统通过同时利用来自癌组织和癌旁组织的多组学数据,包括基因表达量数据,免疫细胞相对浸润水平数据,提供了一个更全面可靠的分析肝细胞癌患者预后生存的评估系统,相对于单一利用癌组织特征的模型而言,准确性更高,相较于单一组学数据构建的模型而言,本发明整合多组学数据构建的模型能更好地预测病人预后,在肝细胞癌病人的生存预测中有着更高的特异性和灵敏度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为GSE14520组GES评分不同分割点时标准化的log-rank统计量的分布图。
图2为GSE14520组IS评分不同分割点时标准化的log-rank统计量的分布图。
图3为整合GES评分模型、IS评分模型器和TNM分期构建的列线图。
图4为列线图的预测结果和临床实际结果关联的校准图。
图5为24个月(左图)和36个月(右图)时列线图模型相对于单独GES分类器、IS分类器和TNM分期的预测性能。
图6为使用列线图、GES分类器、IS分类器和TNM分期分别预测GSE14520组(图A、B)、LIHC组(图C、D)和LIRI组(图E、F)在24和36个月病人总体生存预测中的性能ROC曲线。
图7为分别使用TGS1模型、TGS2模型、PGS1模型和PGS2模型评分分别对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线图:其中,图A-C分别对应为使用TGS1模型评分对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线;图D-F分别对应为使用TGS2模型评分对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线;图G-I分别对应为使用PGS1模型评分对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线;图J-L分别对应为使用PGS2模型评分对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线。
图8为使用GES、TGS1、TGS2、PGS1、PGS2模型和其它已发表的模型预测LIHC数据集患者预后的PEC分析图。
图9为使用TIS1模型、TIS2模型、PIS1模型和PIS2模型评分分别对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线图:其中,图A-C分别对应为使用TIS1模型评分对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线;图D-F分别对应为使用TIS2模型评分对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线;图G-I分别对应为使用PIS1模型评分对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线;图J-L分别对应为使用PIS2模型评分对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线。
具体实施方式
下文将结合具体实施方式和实施例,具体阐述本发明,本发明的优点和各种效果将由此更加清楚地呈现。本领域技术人员应理解,这些具体实施方式和实施例是用于说明本发明,而非限制本发明。
在整个说明书中,除非另有特别说明,本文使用的术语应理解为如本领域中通常所使用的含义。因此,除非另有定义,本文使用的所有技术和科学术语具有与本发明所属领域技术人员的一般理解相同的含义。若存在矛盾,本说明书优先。
除非另有特别说明,本发明中用到的各种原材料、试剂、仪器和设备等,均可通过市场购买得到或者可通过现有方法制备得到。
本申请提供的技术方案为解决上述技术问题,总体思路如下:
申请人认为,目前现有用于肝细胞癌患者预后评估的模型大多数在独立临床数据集的验证中可重复性不高,其原因是多方面的,首先,目前的癌症生物标记物鉴定相关的研究中,大部分研究者倾向于使用癌旁组织作为对照组进行差异表达分析,进而鉴定出在肿瘤组织中特异性的突变或者筛选出存在特异性高/低表达的基因。申请人认为,这一做法有很大的局限性,因为这需要基于一个前提假设,即癌旁组织和正常组织在组织学和分子生物学特征上没有差异。根据区域癌化理论,即使组织学上正常的癌旁组织,其分子特征上可能已经出现畸变,因而传统的肝细胞癌预后模型难以为其发生发展提供全面的信息。另一方面,肝癌是一种多因素参与的系统性疾病,而现有的肝细胞癌预后标记大多基于单一组学特征(如转录组中的若干基因表达量或者甲基化组中的若干位点甲基化状态)甚至是单一特征,忽略了多组学特征整合在病人预后评估中的潜在价值。
基于此,本发明建立一种基于多组学特征的肝细胞癌预后预测系统,使用癌+癌旁相结合的数据,训练获得了基于基因表达量和免疫细胞浸润的评分模型,并将二者结合,进一步利用了可用于临床预后评估的列线图(nomogram)模型,该预测系统相比现有预后模型而言更加全面可靠。
下面将结合实施例及实验数据对本申请基于多组学特征的肝细胞癌预后预测系统进行详细说明。
实施例1
基于区域癌化多组学特征的肝细胞癌预后预测系统的构建
一、肝细胞癌数据来源
(1)基因表达量数据。申请人从现有已公布的数据库中对现有的HCC的基因表达谱数据集进行了检索和筛选,选择了三组数据用于本研究:
1)从GEO(https://www.ncbi.nlm.nih.gov/gds)中选择了由复旦大学肝癌研究所(登录号GSE14520)发布的基于Affymetrix GeneChip HG-U133A 2.0(Affymetrix,SantaClara,CA)芯片的基因表达数据,该组研究共包含247位病人。经筛选后获得了209名病人的癌-癌旁配对样本在12,749个基因中的表达谱,记为GSE14520组。
2)从TCGA数据库(https://cancergenome.nih.gov/)下载了肝细胞癌的III级基因表达数据。经筛选获得了来自49位病人的癌-癌旁配对样本的表达谱,包含57,988个基因,记为LIHC组。3)从ICGC数据库(https://icgc.org/)下载了来自日本理化研究所(RIKEN)LIRI项目的肝细胞癌表达量数据,项目共搜集了232位病人的样本。经筛选获得了来自199位病人在22,370个基因中的表达谱,记为LIRI组。其中GSE14520组用于模型构建,LIHC组和LIRI组用于对模型进行外部验证。
(2)免疫细胞浸润水平数据。由于GSE14520数据中未提供现成的免疫细胞浸润水平数据,为了获得样本中各类免疫细胞如巨噬细胞、CD8 T细胞、CD4 T细胞等所占比例,申请人使用了CIBERSORTx(https://cibersortx.stanford.edu/),该算法基于线性支持向量回归(linear support vector regression)的原理进行去卷积分析。通过利用前面的每位病人的癌组织和癌旁组织的表达谱,申请人使用LM22标记(由547个特征基因组成)和1,000次抽样检验来对每位病人的肿瘤和周围组织中的22种免疫细胞的相对浸润水平进行定量。
二、基于区域癌化基因表达特征的GES分类器(GES评分模型)构建
与此前报道的方法不同,申请人在GES分类器构建的过程中同时考虑了癌组织和癌旁组织的表达谱。使用两步法来对能表征病人风险高低的最佳标记基因进行确定。第一步,对GSE14520表达量数据集,使用Cox比例风险模型分别对12,749个基因进行标准单变量回归分析,将其中表达量和病人生存存在显著关联(p值低于0.05)的基因作为候选基因,以利于后续更有效的特征选择。经过分析在癌组织和癌旁组织中分别获得了1,876和1,940个与病人生存呈现显著相关的基因。第二步,对步骤一中获得的候选基因进行了进一步的特征选择,以区分病人群体中的高风险组和低风险组,最小绝对收缩和选择算子(The leastabsolute shrinkage and selection operator,LASSO)可用于从高维度数据中挑选其中最优的子集,从而避免了多重共线性的干扰。LASSO Cox回归模型分析使用了R包“glmnet”来完成。最后,构建了一个基于70个基因表达水平的基因表达评分(gene expressionscore,GES)模型并将其标准化(如表1所示),根据模型中各基因的回归系数可以计算每位病人的GES评分。
为了使GES在不同的分析平台之间具有可比性,例如微阵列表达数据的信号强度和RNAseq表达数据的FPKM值,使用以下公式(1)计算GES评分:
其中n是GES评分模型(GES分类器)的基因数量,xi是各基因的表达量,另外,wi为各基因相应的特异性权重。
基于GES模型,本研究根据这70个基因的表达量及其对应的系数可以得出一个GES评分。基于“maxstat”的结果,将GSE14520数据集分为GES高和GES低的两组,最佳分割点取为0.067,在该分割点时两组间存在最大生存差异(如图1所示)。
表1基于LASSO选择用于计算GES评分的基因信息
三、基于区域癌化基因表达特征的IS分类器(IS评分模型)构建
通过使用LASSO Cox回归,建立同时基于癌和癌旁组织的IS分类器。采用两步法,通过单变量Cox回归中确定的22个候选特征中,使用LASSO选取了其中的12个,其中包括来自癌组织的8个免疫细胞成分(滤泡辅助T细胞、M0巨噬细胞、M2巨噬细胞、静息树突状细胞、嗜酸性粒细胞和嗜中性粒细胞),以及来自癌旁组织的4个免疫细胞成分(M0巨噬细胞、活化树突状细胞、静息树突状细胞、嗜酸性粒细胞和活化肥大细胞)。表2中列出了用于IS分类器构建的免疫细胞的系数。IS评分的计算公式如公式(2):
其中n是IS评分模型(IS分类器)的免疫细胞数量,xi是各免疫细胞占免疫细胞总量的分数,另外,wi为各免疫细胞相应的特异性权重。
使用R包“maxstat”为GSE14520中的IS评分生成最佳分割点(本发明中为1.96)(如图2所示),在该分割点时两组间存在最大生存差异。
表2基于LASSO选择用于IS模型构建的免疫细胞信息
四、基于区域癌化多组学特征的列线图模型及预测系统的构建
整合GES评分模型、IS评分模型以及与病人预后显著关联的临床病理特征TNMstage作为数据输入模块,使用R软件包“rms”生成了可以方便在临床上用于病人预后评估的列线图(nomogram)模型(如图3)。基于列线图模型(预测模块)预测分析,能够预测并通过显示模块显示HCC病人的24个月和36个月总体生存(OS)。
具体的,将GES group(GES分类器分组)、IS group(IS分类器分组)以及TNM stage(TNM分期)纳入列线图,其中,依据各自最佳分割点,GES评分水平和IS评分水平均分为risklow(评分低或风险低)和risk high(评分高或风险高),比对刻度获取各自对应的points,随后将各自points(分值)求和,根据total points(总分值)刻度与下方刻度的对应关系即可查出病人24个月和36个月的临床生存概率。
实施例2
基于区域癌化多组学特征的肝细胞癌预后预测系统的评估和验证
一、对构建的预后预测系统的可靠性评估
校准图显示,在24个月和36个月OS的预测上,基于列线图的预测系统的预测能力与理想模型存在相当高的一致性(C index=0.834,SE=0.02,如图4)。如图5所示,决策曲线分析(DCA)结果表明,在24个月和36个月OS的预测上,列线图的预测准确性更高,这表明列线图预测系统在临床预测能力上比单纯的GES分类器,IS分类器或者TNM分期更有用。
二、对构建的预后模型的外部数据验证
首先,对来自外部验证数据集的病人,使用GES分类器和IS分类器分别评估各位病人基于基因表达的风险和基于免疫细胞浸润的风险,具体方法为对应组织(癌或者癌旁)的特定基因(或者免疫细胞类型)的数值代入模型中获得评分,将评分与各自阈值进行比较(GES分类器的阈值为0.067,IS分类器的阈值为1.96),低于该值为低风险组,高于该值为高风险组。随后将GES分类器分组、IS分类器分组以及TNM分级纳入列线图(图3),比对刻度获取各自对应的points,随后将各自points求和,根据total points刻度与下方刻度的对应关系即可查出病人的临床生存概率。
基于ROC曲线对三个数据集中列线图,GES分组,IS分组和TNM分期的性能比较的分析也表明,列线图的AUC始终优于其他单个模型(如图6),表明列线图预测系统在病人生存预测上具有出色的功能。
实施例3
验证本发明区域癌化(癌组织+癌旁组织)特征在预后评估的过程中相对于单一利用癌组织特征的优越性。
如图7所示,在两个验证数据集中,GES分类器评估的准确性(以分组间生存差异显著性p值来衡量)明显高于其它四个备选模型,备选模型包括肿瘤基因评分1(tumor genescore 1,TGS1)、肿瘤基因评分2(tumor gene score 2,TGS2)、癌旁基因评分1(peritumorgene score 1,PGS1)和癌旁基因评分2(peritumor gene score 2,PGS2)。其中TGS1模型由GES中的癌组织基因部分构成,系数与GES相同。TGS2模型使用了仅肿瘤水平的基因表达数据来从头构建,并使用了与GES相同的两步程序选择模型基因。与TGS1和TGS2类似,PGS1模型使用了GES中的癌旁组织基因部分构成,系数与GES相同。PGS2模型使用了仅癌旁水平的基因表达数据来从头构建,并使用了与GES相同的两步程序选择模型基因。同时也优于目前已发表的若干肝细胞癌预测模型(如图8)。
与GES中情况类似,为了与IS进行比较,我们构建了四个模型,包括肿瘤免疫评分1(tumor immune score 1,TIS1)、肿瘤免疫评分2(tumor immune score 2,TIS2)、癌旁免疫评分1(peritumor immune score 1,PIS1)和癌旁免疫评分2(peritumor immune score 2,PIS2)。其中TIS1模型由IS模型中的癌组织的免疫细胞部分构成,系数与IS相同。TIS2则直接使用了全部22个癌组织水平的免疫细胞浸润特征通过多元Cox回归构建模型。与TIS1和TIS2类似,PIS1模型由IS模型中的癌旁组织的免疫细胞部分构成,系数与IS相同。PIS2则直接使用了全部22个癌旁组织水平的免疫细胞浸润特征通过多元Cox回归构建模型。同样,在IS分类器中也观察到了这种优越性(如图9)。
验证本发明整合多组学模型构建的预后预测系统能更好地预测病人预后:如实施例2中的图6所示,本发明结合了基于多维组学数据构建的GES分类器、IS分类器以及临床TNM分级信息,比较显示联合构建的基于列线图模型的预测系统相较于单一组学数据模型在肝细胞癌病人的生存预测中有着更高的灵敏度和特异性。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.基于多组学特征的肝细胞癌预后预测系统,其特征在于,所述预测系统包括数据输入模块、预测模块和显示模块;
所述数据输入模块用于输入肝细胞癌患者数据并上传至所述预测模块,所述肝细胞癌患者数据包括GES评分水平、IS评分水平和TNM分期;
所述预测模块为列线图模型,所述预测模块基于所述肝细胞癌患者数据对肝细胞癌患者预后进行预测分析;
所述显示模块用于显示肝细胞癌患者24和/或36个月总体生存概率;
所述GES评分水平为癌组织和癌旁组织的70个基因表达量数据经GES评分模型判定所得,所述IS评分水平为癌组织和癌旁组织的12种免疫细胞相对浸润水平数据经IS评分模型判定所得;
所述70个基因表达量数据包括44个肝细胞癌组织的基因表达量数据和26个癌旁组织的基因表达量数据;
所述44个肝细胞癌组织的基因表达量数据包括以下基因的表达量数据:
DEF6、ZFR、CYLD、ZNF446、TGM1、WHRN、CATSPERG、IL2RB、IMPAD1、ANAPC15、NEDD9、VEGFA、TBCCD1、IRF1、NECAB3、MYH10、P2RX4、KLHL36、ANGPTL2、SNRPF、MFGE8、CDH13、SECTM1、PRIM2、RPP30、DAB2、FAIM、MSX1、NUDT2、DAPK3、TCTN2、CXCL10、CD52、NDUFA3、ZNF415、ZNF24、LSM1、SMTN、SETD4、ZNF124、NMB、SPRED2、ZNF652、ZSCAN31;
所述26个癌旁组织的基因表达量数据包括以下基因的表达量数据:
ENTPD2、PIBF1、BAX、GPATCH2、CDKN3、RBM28、CUEDC2、TNFAIP1、DNMT3A、EGR2、GTF2F1、PRKRIP1、ACE2、IDO1、PATJ、VPS45、RSU1、NCAM1、KDM8、RNF111、ZNF230、ICOS、SPATA5L1、IQCK、RPLP2、CEBPD;
所述12种免疫细胞相对浸润水平数据包括8种肝细胞癌组织的免疫细胞相对浸润水平数据和4种癌旁组织的免疫细胞相对浸润水平数据;
所述8种肝细胞癌组织的免疫细胞相对浸润水平数据包括以下免疫细胞的相对浸润水平数据:
浆细胞、CD8 T细胞、初始CD4 T细胞、滤泡辅助T细胞、M0巨噬细胞、M1巨噬细胞、M2巨噬细胞、中性粒细胞;
所述4种癌旁组织的免疫细胞相对浸润水平数据包括以下免疫细胞的相对浸润水平数据:
初始B细胞、静息树突状细胞、活化树突状细胞、活化肥大细胞;
其中,所述GES评分水平为癌组织和癌旁组织的70个基因表达量数据经GES评分模型判定所得,具体包括:
测定肝细胞癌患者癌组织及癌旁组织的70个基因表达量数据,根据GES评分模型,计算70个基因表达量数据各自经相应特异性权重加权后的总和与各系数总和的比值,获得GES评分;
所述GES评分的具体计算方法如公式(1):
其中n是GES评分模型的基因数量,xi是各基因的表达量,wi是各基因相应的特异性权重;
根据GES评分模型的最佳分割点0.067,基于所述GES评分判定肝细胞癌患者的GES评分水平为评分高或评分低;
其中,所述IS评分水平为癌组织和癌旁组织的12种免疫细胞相对浸润水平数据经IS评分模型判定所得,具体包括:
测定肝细胞癌患者癌组织及癌旁组织的12种免疫细胞相对浸润水平数据,根据IS评分模型,计算12种免疫细胞相对浸润水平数据各自经相应特异性权重加权后的总和,获得IS评分;
所述IS评分的具体计算方法如公式(2):
其中n是IS评分模型的免疫细胞数量,xi是各免疫细胞占免疫细胞总量的分数,wi为各免疫细胞相应的特异性权重;
根据IS评分模型的最佳分割点1.96,基于所述IS评分判定肝细胞癌患者的IS评分水平为评分高或评分低。
2.如权利要求1所述的基于多组学特征的肝细胞癌预后预测系统的预测方法,其特征在于,所述方法包括:
测定肝细胞癌患者癌组织及癌旁组织的70个基因表达量数据,计算获得GES评分水平;
测定肝细胞癌患者癌组织及癌旁组织的12种免疫细胞相对浸润水平数据,计算获得IS评分水平;
将所述GES评分水平、所述IS评分水平和TNM分期输入并上传至预测模块;
所述预测模块为列线图模型,所述列线图模型基于GES评分水平、所述IS评分水平和所述TNM分期对肝细胞癌患者预后进行预测分析;
通过显示模块显示肝细胞癌患者24和/或36个月总体生存概率。
3.根据权利要求2所述的基于多组学特征的肝细胞癌预后预测系统的预测方法,其特征在于,所述测定肝细胞癌患者癌组织及癌旁组织的70个基因表达量数据,计算获得GES评分水平,具体包括:
测定肝细胞癌患者癌组织及癌旁组织的70个基因表达量数据,根据GES评分模型,计算70个基因表达量数据各自经相应特异性权重加权后的总和与各系数总和的比值,获得GES评分;
所述GES评分的具体计算方法如公式(1):
其中n是GES评分模型的基因数量,xi是各基因的表达量,wi是各基因相应的特异性权重;
根据GES评分模型的最佳分割点0.067,基于所述GES评分判定肝细胞癌患者的GES评分水平为评分高或评分低。
4.根据权利要求2所述的基于多组学特征的肝细胞癌预后预测系统的预测方法,其特征在于,所述测定肝细胞癌患者癌组织及癌旁组织的12种免疫细胞相对浸润水平数据,计算获得IS评分水平,具体包括:
测定肝细胞癌患者癌组织及癌旁组织的12种免疫细胞相对浸润水平数据,根据IS评分模型,计算12种免疫细胞相对浸润水平数据各自经相应特异性权重加权后的总和,获得IS评分;
所述IS评分的具体计算方法如公式(2):
其中n是IS评分模型的免疫细胞数量,xi是各免疫细胞占免疫细胞总量的分数,wi为各免疫细胞相应的特异性权重;
根据IS评分模型的最佳分割点1.96,基于所述IS评分判定肝细胞癌患者的IS评分水平为评分高或评分低。
5.根据权利要求3所述的基于多组学特征的肝细胞癌预后预测系统的预测方法,其特征在于,所述GES评分模型通过以下方法构建:
选取若干组肝细胞癌组织及配对癌旁组织样本,构成样本集,获取所述样本在12,749个基因中的表达谱,并获取所述样本22种免疫细胞的相对浸润水平数据;
使用Cox比例风险模型分别对12,749个基因进行标准单变量回归分析,将表达量和病人生存存在显著关联的基因作为候选基因,对所述候选基因进行LASSO回归分析,构建一个基于70个基因表达水平的GES评分模型;
基于GES评分模型,计算所述样本的GES评分,将所述样本集的GES评分水平分为GES评分高和GES评分低的两组,得到GES评分模型的最佳分割点0.067。
6.根据权利要求4所述的基于多组学特征的肝细胞癌预后预测系统的预测方法,其特征在于,所述IS评分模型通过以下方法构建:
选取若干组肝细胞癌组织及配对癌旁组织样本,构成样本集,使用Cox比例风险模型获得22种免疫细胞作为候选免疫细胞,获取所述样本22种免疫细胞的相对浸润水平数据,对22种免疫细胞进行LASSO回归分析,构建一个基于12种免疫细胞相对浸润水平的IS评分模型;
基于IS评分模型,计算所述样本的IS评分,将所述样本集的IS评分水平分为IS评分高和IS评分低的两组,得到IS评分模型的最佳分割点1.96。
7.如权利要求1所述的基于多组学特征的肝细胞癌预后预测系统在制备预测肝细胞癌患者预后生存概率的试剂盒中的应用。
8.根据权利要求7所述的应用,其特征在于,所述试剂盒包括基于碱基互补配对来进行基因表达量测定所使用的探针、基于聚合酶链式反应测定基因表达量所使用的引物、通过转录组测序获得所述基因表达量所需的试剂,以及通过免疫组织化学染色方法测定所述免疫细胞相对浸润水平所需的试剂。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111598100.5A CN114678062B (zh) | 2021-12-24 | 2021-12-24 | 基于多组学特征的肝细胞癌预后预测系统及其预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111598100.5A CN114678062B (zh) | 2021-12-24 | 2021-12-24 | 基于多组学特征的肝细胞癌预后预测系统及其预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114678062A CN114678062A (zh) | 2022-06-28 |
CN114678062B true CN114678062B (zh) | 2024-04-26 |
Family
ID=82070086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111598100.5A Active CN114678062B (zh) | 2021-12-24 | 2021-12-24 | 基于多组学特征的肝细胞癌预后预测系统及其预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114678062B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110577998A (zh) * | 2019-01-31 | 2019-12-17 | 上海交通大学医学院附属仁济医院 | 预测肝癌术后早期复发风险分子模型的构建及其应用评估 |
CN112011616A (zh) * | 2020-09-02 | 2020-12-01 | 复旦大学附属中山医院 | 预测肝细胞癌肿瘤免疫浸润和术后生存时间的免疫基因预后模型 |
CN112331343A (zh) * | 2020-11-04 | 2021-02-05 | 复旦大学附属中山医院 | 建立肝细胞癌术后风险评估模型的方法 |
-
2021
- 2021-12-24 CN CN202111598100.5A patent/CN114678062B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110577998A (zh) * | 2019-01-31 | 2019-12-17 | 上海交通大学医学院附属仁济医院 | 预测肝癌术后早期复发风险分子模型的构建及其应用评估 |
CN112011616A (zh) * | 2020-09-02 | 2020-12-01 | 复旦大学附属中山医院 | 预测肝细胞癌肿瘤免疫浸润和术后生存时间的免疫基因预后模型 |
CN112331343A (zh) * | 2020-11-04 | 2021-02-05 | 复旦大学附属中山医院 | 建立肝细胞癌术后风险评估模型的方法 |
Non-Patent Citations (1)
Title |
---|
DNA 甲基化驱动的转录表达特征作为肝癌预后预测标志物的价值;骆红波等;《遗传》;20200831;第42卷(第8期);第775-787页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114678062A (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Feng et al. | Research issues and strategies for genomic and proteomic biomarker discovery and validation: a statistical perspective | |
CN111564214B (zh) | 一种基于7个特殊基因的乳腺癌预后评估模型的建立与验证方法 | |
CN110577998A (zh) | 预测肝癌术后早期复发风险分子模型的构建及其应用评估 | |
CN107025384A (zh) | 一种复杂数据预测模型的构建方法 | |
CN111128385B (zh) | 一种用于食管鳞癌的预后预警系统及其应用 | |
US9020934B2 (en) | Method, an arrangement and a computer program product for analysing a biological or medical sample | |
CN111653314B (zh) | 一种分析识别淋巴管浸润的方法 | |
Nelson | Predicting prostate cancer behavior using transcript profiles | |
CN113270188A (zh) | 食管鳞癌根治术后患者预后预测模型构建方法及装置 | |
KR101765999B1 (ko) | 암 바이오마커의 성능 평가 장치 및 방법 | |
Tschodu et al. | Comparative analysis of molecular signatures reveals a hybrid approach in breast cancer: combining the Nottingham Prognostic Index with gene expressions into a hybrid signature | |
Zhang et al. | Bayesian penalized cumulative logit model for high‐dimensional data with an ordinal response | |
CN114678062B (zh) | 基于多组学特征的肝细胞癌预后预测系统及其预测方法 | |
CN115798703A (zh) | 基于新型脂肪酸代谢相关基因预测肾透明细胞癌预后的装置和计算机可读存储介质 | |
US20180181705A1 (en) | Method, an arrangement and a computer program product for analysing a biological or medical sample | |
US9734122B2 (en) | System, method and computer-accessible medium for evaluating a malignancy status in at-risk populations and during patient treatment management | |
CN108220445A (zh) | 一种评价三阴性乳腺癌风险评估方法 | |
Dehal et al. | Accuracy of nodal staging is influenced by sidedness in colon cancer | |
Boufaied et al. | Development of a predictive model for stromal content in prostate cancer samples to improve signature performance | |
CN113234823A (zh) | 胰腺癌预后风险评估模型及其应用 | |
CN112626216A (zh) | 一种检测肿瘤微卫星不稳定性状态的组合物及其应用 | |
Zhong et al. | Distinguishing kawasaki disease from febrile infectious disease using gene pair signatures | |
Kuznetsov et al. | Statistically weighted voting analysis of microarrays for molecular pattern selection and discovery cancer genotypes | |
CN117476097B (zh) | 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用 | |
Lin et al. | A novel assessing system for predicting the prognosis of gastric cancer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |