CN111402949A - 一种肝细胞肝癌患者诊断、预后和复发统一模型的构建方法 - Google Patents
一种肝细胞肝癌患者诊断、预后和复发统一模型的构建方法 Download PDFInfo
- Publication number
- CN111402949A CN111402949A CN202010305378.8A CN202010305378A CN111402949A CN 111402949 A CN111402949 A CN 111402949A CN 202010305378 A CN202010305378 A CN 202010305378A CN 111402949 A CN111402949 A CN 111402949A
- Authority
- CN
- China
- Prior art keywords
- prognosis
- dna methylation
- diagnosis
- hepatocellular carcinoma
- liver
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004393 prognosis Methods 0.000 title claims abstract description 33
- 238000003745 diagnosis Methods 0.000 title claims abstract description 30
- 206010073071 hepatocellular carcinoma Diseases 0.000 title claims description 56
- 231100000844 hepatocellular carcinoma Toxicity 0.000 title claims description 56
- 238000010276 construction Methods 0.000 title description 4
- 230000007067 DNA methylation Effects 0.000 claims abstract description 53
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 43
- 230000014509 gene expression Effects 0.000 claims abstract description 41
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 26
- 201000007270 liver cancer Diseases 0.000 claims abstract description 20
- 208000014018 liver neoplasm Diseases 0.000 claims abstract description 20
- 201000011510 cancer Diseases 0.000 claims abstract description 15
- 210000005229 liver cell Anatomy 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000000611 regression analysis Methods 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims abstract description 5
- 101150063780 spp1 gene Proteins 0.000 claims description 4
- 101150053096 CYP2C9 gene Proteins 0.000 claims description 3
- 101150055766 cat gene Proteins 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 2
- 239000000107 tumor biomarker Substances 0.000 abstract description 2
- 238000011337 individualized treatment Methods 0.000 abstract 1
- 230000011987 methylation Effects 0.000 description 13
- 238000007069 methylation reaction Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 10
- 230000004083 survival effect Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 9
- 238000010200 validation analysis Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 7
- 230000018109 developmental process Effects 0.000 description 7
- 108020004414 DNA Proteins 0.000 description 6
- XAUDJQYHKZQPEU-KVQBGUIXSA-N 5-aza-2'-deoxycytidine Chemical compound O=C1N=C(N)N=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 XAUDJQYHKZQPEU-KVQBGUIXSA-N 0.000 description 4
- 102100029358 Cytochrome P450 2C9 Human genes 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 108010000543 Cytochrome P-450 CYP2C9 Proteins 0.000 description 3
- 101150101189 HCC gene Proteins 0.000 description 3
- 102100040557 Osteopontin Human genes 0.000 description 3
- 101710168942 Sphingosine-1-phosphate phosphatase 1 Proteins 0.000 description 3
- 230000001594 aberrant effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000009456 molecular mechanism Effects 0.000 description 3
- 230000008506 pathogenesis Effects 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 108091029430 CpG site Proteins 0.000 description 2
- 238000003559 RNA-seq method Methods 0.000 description 2
- 238000011529 RT qPCR Methods 0.000 description 2
- 108700009124 Transcription Initiation Site Proteins 0.000 description 2
- FPIPGXGPPPQFEQ-OVSJKPMPSA-N all-trans-retinol Chemical compound OC\C=C(/C)\C=C\C=C(/C)\C=C\C1=C(C)CCCC1(C)C FPIPGXGPPPQFEQ-OVSJKPMPSA-N 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 231100000504 carcinogenesis Toxicity 0.000 description 2
- 239000002299 complementary DNA Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000013399 early diagnosis Methods 0.000 description 2
- 230000008995 epigenetic change Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 210000003494 hepatocyte Anatomy 0.000 description 2
- 108020004999 messenger RNA Proteins 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000012175 pyrosequencing Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000010839 reverse transcription Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- FPIPGXGPPPQFEQ-UHFFFAOYSA-N 13-cis retinol Natural products OCC=C(C)C=CC=C(C)C=CC1=C(C)CCCC1(C)C FPIPGXGPPPQFEQ-UHFFFAOYSA-N 0.000 description 1
- CKTSBUTUHBMZGZ-SHYZEUOFSA-N 2'‐deoxycytidine Chemical compound O=C1N=C(N)C=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 CKTSBUTUHBMZGZ-SHYZEUOFSA-N 0.000 description 1
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 102100029363 Cytochrome P450 2C19 Human genes 0.000 description 1
- 102000004127 Cytokines Human genes 0.000 description 1
- 108090000695 Cytokines Proteins 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- CKTSBUTUHBMZGZ-UHFFFAOYSA-N Deoxycytidine Natural products O=C1N=C(N)C=CN1C1OC(CO)C(O)C1 CKTSBUTUHBMZGZ-UHFFFAOYSA-N 0.000 description 1
- 108700039887 Essential Genes Proteins 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 208000031448 Genomic Instability Diseases 0.000 description 1
- 102100031181 Glyceraldehyde-3-phosphate dehydrogenase Human genes 0.000 description 1
- 101000919359 Homo sapiens Cytochrome P450 2C9 Proteins 0.000 description 1
- 238000000585 Mann–Whitney U test Methods 0.000 description 1
- 108091092724 Noncoding DNA Proteins 0.000 description 1
- 102000004264 Osteopontin Human genes 0.000 description 1
- 108010081689 Osteopontin Proteins 0.000 description 1
- 238000009004 PCR Kit Methods 0.000 description 1
- 102000014190 Phosphatidylcholine-sterol O-acyltransferase Human genes 0.000 description 1
- 108010011964 Phosphatidylcholine-sterol O-acyltransferase Proteins 0.000 description 1
- 108700020978 Proto-Oncogene Proteins 0.000 description 1
- 102000052575 Proto-Oncogene Human genes 0.000 description 1
- 101710197770 Serine hydroxymethyltransferase 1 Proteins 0.000 description 1
- 102100021225 Serine hydroxymethyltransferase, cytosolic Human genes 0.000 description 1
- DWAQJAXMDSEUJJ-UHFFFAOYSA-M Sodium bisulfite Chemical compound [Na+].OS([O-])=O DWAQJAXMDSEUJJ-UHFFFAOYSA-M 0.000 description 1
- 108700025716 Tumor Suppressor Genes Proteins 0.000 description 1
- 102000044209 Tumor Suppressor Genes Human genes 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 244000309466 calf Species 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 230000005773 cancer-related death Effects 0.000 description 1
- 238000004113 cell culture Methods 0.000 description 1
- 230000007248 cellular mechanism Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 108010012052 cytochrome P-450 CYP2C subfamily Proteins 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004076 epigenetic alteration Effects 0.000 description 1
- 230000004049 epigenetic modification Effects 0.000 description 1
- 238000009162 epigenetic therapy Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012239 gene modification Methods 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 238000012226 gene silencing method Methods 0.000 description 1
- 230000005017 genetic modification Effects 0.000 description 1
- 235000013617 genetically modified food Nutrition 0.000 description 1
- 108020004445 glyceraldehyde-3-phosphate dehydrogenase Proteins 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000006195 histone acetylation Effects 0.000 description 1
- 230000006607 hypermethylation Effects 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 239000002609 medium Substances 0.000 description 1
- 238000010197 meta-analysis Methods 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 239000007758 minimum essential medium Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000000101 novel biomarker Substances 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 239000013610 patient sample Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- WQGWDDDVZFFDIG-UHFFFAOYSA-N pyrogallol Chemical compound OC1=CC=CC(O)=C1O WQGWDDDVZFFDIG-UHFFFAOYSA-N 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000022532 regulation of transcription, DNA-dependent Effects 0.000 description 1
- 229960003471 retinol Drugs 0.000 description 1
- 235000020944 retinol Nutrition 0.000 description 1
- 239000011607 retinol Substances 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 235000010267 sodium hydrogen sulphite Nutrition 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000005748 tumor development Effects 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Organic Chemistry (AREA)
- Genetics & Genomics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Wood Science & Technology (AREA)
- Pathology (AREA)
- Immunology (AREA)
- Zoology (AREA)
- Oncology (AREA)
- Microbiology (AREA)
- Hospice & Palliative Care (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种肝细胞肝癌患者诊断、预后和复发统一模型的构建方法,包括以下步骤:Step1)采集肝细胞肝癌的基因表达数据和DNA甲基化数据;Step2)对肝细胞肝癌的基因表达数据和DNA甲基化数据进行分析,鉴定出肝细胞肝癌中的DNA甲基化驱动基因;Step3)对肝细胞肝癌中的DNA甲基化驱动基因通过单因素Cox回归、最小绝对收缩和选择算子回归分析和多因素Cox回归分析建立肝细胞肝癌患者诊断、预后和复发统一模型。本发明发现并验证了由3个DNA甲基化驱动基因组成的肝细胞肝癌患者诊断、预后和复发统一模型,为肝细胞肝癌生物标记物筛查提供了新的研究方向,为肝细胞肝癌患者的个体化治疗提供了新的可能性。
Description
技术领域
本发明涉及生物领域,尤其涉及一种肝细胞肝癌(HCC)诊断、预后和复发统一模型的构建方法。
背景技术
肝细胞肝癌(HCC)是肝癌的最常见类型,癌症相关死亡的第三大原因,以及全球主要的侵袭性的恶性肿瘤。肝癌是一个多步骤且复杂的疾病,涉及一系列遗传和表观遗传学改变,包括基因组缺失,扩增,突变和/或插入。早期诊断和介入治疗,以及治疗方法和手术方法的发展,已推进治疗该癌症的重大进展。然而,绝大多数的晚期肝癌患者确诊时预后不良。因此,迫切需要更好地了解HCC的功能通路和分子机制,以及开发可用于早期诊断和预测预后与复发的关键新型生物标志物。
表观遗传的改变被普遍认为可影响基因表达,DNA甲基化,非编码DNA 和组蛋白乙酰化等遗传修饰。DNA甲基化是一种主要的表观遗传修饰,参与基因的转录调控并保持基因组的稳定性。各种癌症具有特殊的调节紊乱,其特征在于异常的DNA甲基化,它调节了许多肿瘤相关基因的表达,对肿瘤的发展至关重要。甲基化的变化,其中包括原癌基因的低甲基化和肿瘤抑制基因的高甲基化,这些被认为是在包括HCC在内的癌症发生关键事件。因此,检测DNA 甲基化驱动基因并了解与这些基因相关的分子作用机制可能有助于阐明HCC 的发病机理和致病机制。近年来,一些使用全基因组测序检测癌症的甲基化数据表明,大量的基因在肿瘤中表现出异常的DNA甲基化。此外,这些变化可以用于癌症亚型分类和预测癌症预后。总体而言,鉴定在癌症的发生发展持续过程中通过DNA甲基化介导的基因沉默作用来充当“驱动基因”的基因以及仅在致癌过程中充当“乘客基因”的那些基因可能有利于发展最佳靶向表观遗传学治疗方法。然而,由于人类癌症中存在许多甲基化差异的基因,因此筛选出明显的驱动基因和乘客基因非常困难。
HCC发病机理是一个复杂的生物学过程,涉及遗传因素和表观遗传学的变化,而DNA甲基化升高是HCC发展的早期事件。一项荟萃分析提供了经验证据,表明细胞因子信号传导抑制因子1的异常启动子甲基化可能导致HCC的发生。既往研究报道,在表观遗传学上,酒精相关性肝癌的视黄醇代谢的基因和丝氨酸羟甲基转移酶1通过启动子DNA甲基化受到调节。然而,大多数研究主要集中在甲基化或基因表达数据上,并且没有进行联合分析。因此,对驱动 HCC的细胞和分子机制缺乏全面的了解,从而限制了治疗策略。
发明内容
有鉴于此,本发明的目的之一是提供一种肝细胞肝癌患者诊断、预后和复发的统一模型,该模型可以有助于临床对肝细胞肝癌的治疗指导。
本发明通过以下技术手段解决上述技术问题:
一种肝细胞肝癌患者诊断、预后和复发统一模型的构建方法,包括以下步骤:
Step1)采集HCC的基因表达数据和DNA甲基化数据;其中,采集HCC 的基因表达数据过程中需要对HCC中差异基因进行筛选,其步骤如下:从 TCGA获得HCC组织(n=371)和非肿瘤组织(n=50)中的mRNA表达谱。使用FDR<0.05和|log2 FC|>1作为筛选差异表达基因(DEG)的阈值,满足条件的总共有9,219个DEG,其中表达上调的有7,734个DEG,表达下调的有1,485个DEG,均选择用于后续分析。
Step2)对HCC的基因表达数据和DNA甲基化数据进行分析,鉴定出HCC 的DNA甲基化驱动基因;具体说来,为了鉴定HCC中的DNA甲基化驱动基因,纳入了包括TCGA中792个临床样品中9,219个DEG的基因表达和DNA 甲基化数据(371个HCC和50个非肿瘤样品的DNA甲基化数据以及371个 HCC样品的配对基因表达数据)。在MethylMix分析中,总共筛选出了123个 DNA甲基化驱动的基因。在这些基因中,有77个是高甲基化基因、46个是低甲基化基因。差异甲基化基因的筛选标准为FDR<0.05,DNA甲基化与基因表达之间的相关性<-0.3。然后,我们使用365个HCC样本以及生存时间和生存状态,使用单因素Cox回归分析研究了123个DNA甲基化驱动基因的表达与预后之间的关系。在123个DNA甲基化驱动基因中,有51个具有统计学意义 (P<0.05)。随后使用LASSO方法进行分析,LASSO是一种惩罚性回归方法,使用L1罚分将回归系数缩小为零,从而基于以下原则消除了许多变量:当罚分较大时,选择的预测变量变少。因此,具有非零系数的种子基因被认为是潜在的预后指标。基于R语言的glmnet包使用1000次Cox LASSO回归迭代和 10倍交叉验证,将种子基因缩小为多基因集。具有非零系数的基因被认为是潜在的预后基因。在Cox LASSO回归的1000次迭代中出现的非零系数越高,该基因预测预后的能力就越强。通过Cox LASSO回归的1000次迭代分析了前期结果获得的51个DNA甲基化驱动基因,以进一步减少数量筛选出重要的基因。
通过应用LASSO分析后,结果鉴定了3个DNA甲基化驱动的预后基因,分别是分泌磷蛋白1(secreted phosphoprotein 1,SPP1)、卵磷脂胆固醇酰基转移酶(lecithin-cholesterol acyltransferase,LCAT)和细胞色素P450家族2亚家族C成员9(cytochromeP450 family 2subfamily C member 9,CYP2C9)。相关性分析结果表明,SPP1、LCAT和CYP2C9的基因表达与DNA甲基化状态具有显著的负相关性。
Step3)优选的,在验证集中验证步骤2中所述的建立预后模型的具体方法如下:利用多因素Cox比例风险模型的回归系数建立肝细胞肝癌患者诊断、预后和复发统一模型,所述预后-复发-诊断评分运用以下公式计算:
预后-复发-诊断评分=(0.29344×SPP1基因表达水平)–(2.3052×LCAT基因表达水平)–(0.21059×CYP2C9基因表达水平);
我们在训练集(TCGA)中使用X-tile软件寻找最佳阈值。最佳阈值定义为在Mantel-Cox检验中产生最大χ2的风险评分。通过最佳阈值(1.32)将患者分为高风险和低风险患者。
在训练集中,与低风险患者相比,高风险患者的生存时间(危险比,HR= 2.72,95%置信区间,95%CI=1.81-4.09,P<0.001)显著更差。根据上述的公式和阈值,我们在验证集(GSE14520)中进一步测试了该模型预测预后的能力。与训练集的结果一致,验证集中的高风险患者的生存时间显著短于低风险患者 (HR=1.64,95%CI=1.09-2.45,P=0.008)。
优选的,我们用上述的公式和阈值测试了肝细胞肝癌患者诊断、预后和复发统一模型预测肝细胞肝癌复发的能力。在训练集中,高风险患者的复发率 (HR=1.82,95%CI=1.12-2.96,P=0.003)显著高于低风险患者。同时我们在验证集中评估了该模型预测复发的性能。与训练集的结果一致,高风险患者的复发率显著高于低风险患者(HR=1.54,95%CI=1.03-2.29,P=0.02)。
优选的,我们还表明,该模型能够在训练集(AUC=0.981)和验证集(AUC =0.952)中显著区分正常样本与肝细胞肝癌。
总之,这些结果证明了3个DNA甲基化驱动基因的表达水平对于构建肝细胞肝癌患者的诊断,预后和复发统一模型具有较强的应用价值。
图1为预后-复发-诊断统一公式中SPP1、LCAT和CYP2C9甲基化与表达关系图,结果显示在HCC组织中这3个基因的表达水平与甲基化水平显著负相关,随着甲基化程度的升高,基因表达降低。预后-复发-诊断统一模型的预测肝细胞肝癌患者预后的结果,如图2所示,表明预后-复发-诊断评分高的肝细胞肝癌患者预后不良。在如图3所示的复发图中,预后-复发-诊断评分高的肝细胞肝癌患者复发率较高。如图4所示,表明预后-复发-诊断统一模型的诊断肝细胞肝癌性能优异。
本发明的有益效果:
本发明发现并验证了由3个DNA甲基化驱动基因组成的肝细胞肝癌患者诊断、预后和复发统一模型。另外,通过整合多维基因组数据获得的结果为肝细胞肝癌生物标记物提供了新的研究方向,并为肝细胞肝癌患者的个体化治疗提供了新的可能性。
附图说明
下面结合附图和实施例对本发明作进一步描述。
图1为SPP1、LCAT和CYP2C9的DNA甲基化与基因表达的关系图;
图2为肝细胞肝癌患者诊断、预后和复发统一模型在训练集(TCGA)和验证集(GSE14520)中预测肝细胞肝癌患者预后的示意图;
图3为肝细胞肝癌患者诊断、预后和复发统一模型在训练集(TCGA)和验证集(GSE14520)中预测肝细胞肝癌患者复发的示意图;
图4为肝细胞肝癌患者诊断、预后和复发统一模型在训练集(TCGA)和验证集(GSE14520)中诊断肝细胞肝癌的示意图。
具体实施方式
以下结合具体实验对本发明作详细的说明:
本发明:一种肝细胞肝癌患者诊断、预后和复发统一模型的构建方法,具体包括以下步骤:
步骤一:数据收集与分析
1)收集患者样本
从癌症基因组图谱(TCGA)数据库中获得了总共421个RNA测序数据(371 个HCC样品和50个非肿瘤样品),430个DNA甲基化数据(380个HCC样品和50个非肿瘤样品)以及相应的HCC患者临床信息。在380个HCC样本中可获得DNA甲基化数据中,其中371个HCC样本既包含RNA测序数据又包含配对的DNA甲基化数据。在371个TCGA HCC样本中,有365个包括总生存时间(OS)和生存状态,而317例包括无病生存时间和复发状态。使用 Illumina HiSeq2000RNA测序平台从TCGA数据库获得HCC基因表达数据,并使用Illumina Infinium HumanMethylation 450平台获得DNA甲基化数据。计算基因启动子,位于转录起始位点(TSS)1500和TSS200中所有CpG位点的平均DNA甲基化值,作为该基因的DNA甲基化值。GSE14520微阵列数据集包括基因表达谱(225个HCC样本和220个非肿瘤样本)和相关的临床数据。在GSE14520数据集中的225个HCC样本中,有221个包括总生存时间和生存状态,有221个包括无病生存时间和复发状态。
2)在肝癌中筛选差异表达基因(DEG)
为了鉴定关键的HCC发展的基因,我们使用“edgeR”R软件包从TCGA中鉴定了371个HCC样品和50个非肿瘤样品之间的DEG。错误发现率(FDR) <0.05,|log2倍数变化(FC)|>1被用作阈值。
3)基因表达数据和DNA甲基化数据的联合分析
使用R语言中的MethylMix软件包用于分析371个HCC样品和50个非肿瘤样品的DNA甲基化数据以及371个HCC样品配对的基因表达数据,以鉴定对相应基因表达有重大影响的DNA甲基化事件,表明该基因是DNA甲基化驱动基因。MethylMix分析包括三个部分。首先,确定371个HCC样品的DEG 的甲基化数据与配对的基因表达数据之间的相关性,以鉴定导致基因表达发生变化的DNA甲基化事件,仅选择通过相关性分析的基因进行进一步分析。其次,通过大量患者利用β混合模型来定义甲基化状态,从而排除了任意阈值的需要。第三,Wilcoxon秩和检验用于比较371个HCC样品和50个相应的非肿瘤样品之间的DNA甲基化状态。以0.05的q值为阈值。
步骤二:模型构建及模型验证
4)预测模型的构建和验证
在TCGA的数据集中,单因素Cox回归分析、最小绝对收缩和选择算子 (LASSO)、Cox回归分析和多因素Cox回归分析被用于评估DNA甲基化驱动基因的表达与预后之间的关系,并鉴定与预后显著相关的DNA甲基化驱动基因。通过使用来自多因素Cox回归的系数作为权重,通过DNA甲基化驱动基因的表达水平的线性组合,建立了基于DNA甲基化驱动基因的风险评分预测模型。基于DNA甲基化驱动基因的风险评分预测模型,以最佳风险评分为阈值,将HCC患者分为低风险患者和高风险患者。我们使用X-tile软件来找到最佳阈值。最佳阈值定义为在Mantel-Cox检验中产生最大χ2的风险评分。通过 Kaplan-Meier生存曲线评估高风险患者和低风险患者之间的生存和复发差异,然后使用对数秩检验进行比较。我们使用GEO数据库中的GSE14520数据集来验证模型。通过Kaplan-Meier生存曲线评估高风险患者和低风险患者之间的生存和复发差异,然后使用对数秩检验进行比较。最后我们评估了该模型的诊断 HCC的能力。
步骤三:实验验证
5)细胞培养
HCC细胞系HepG2购自ATCC(HB-8065TM),并在37℃的最低必需培养基(Gibco,货号11095-080)中补充了10%的小牛血清(Hyclone,货号:SH30084.03)在含有5%CO2的潮湿气氛中。
6)5-氮杂2'-脱氧胞苷(DAC)处理
将培养的HepG2细胞用5μM/L 5-氮杂2'-脱氧胞苷(DAC)(Sigma-Aldrich,货号:A3656-5MG)处理120小时,并且由于DAC不稳定性,每天更换培养基。对于涉及DAC处理的实验,将二甲基亚砜(DMSO)用作对照处理。收获细胞以提取基因组DNA和总RNA以分析DNA甲基化和目的基因表达。
7)DNA提取和DNA甲基化分析
设计测序引物以包括CpG位点在转录起始位点0.5kb之内的片段。等于或低于15%的甲基化水平被认为与背景没有区别,而15%或更高的甲基化水平表示甲基化处理成功。我们使用Tissue DNA Kit(Omega,货号:D3396-01) 从癌细胞中提取基因组DNA,并使用EZ DNA Methylation-GoldTMKit(ZYMO,货号:D5006)用亚硫酸氢钠处理DNA样品。进行了亚硫酸氢盐焦磷酸测序,以验证组织样本的生物信息学结果。对于焦磷酸测序,通过PCR扩增处理的 DNA样品并进行片段化。然后使用Pyro Mark Q96系统(Qiagen,Hilden,德国,货号:979002)沉淀,悬浮并进行基因分型。
8)使用定量实时聚合酶链反应(qRT-PCR)验证mRNA
根据制造商的说明,使用Trizol试剂(Thermofisher,货号:15596026)从培养的癌细胞中提取总RNA。cDNA reverse transcription kit(TOYOBO,货号:FSQ-101)用于逆转录RNA,而SYBR Green PCR kit(Applied Biosystems,货号:4368708)用于扩增所得的cDNA。用QuantStudio 5Real-Time PCR System (Applied Biosystems;Thermo FisherScientific)检测样品。每个实验至少进行 3次。采用2-ΔΔCt方法来计算相对于管家基因GAPDH的基因表达。
Claims (2)
1.一种肝细胞肝癌患者诊断、预后和复发统一模型的构建方法,其特征在于,包括以下步骤:
Step1)采集肝细胞肝癌的基因表达数据和DNA甲基化数据;
Step2)对肝细胞肝癌的基因表达数据和DNA甲基化数据进行分析,鉴定出肝细胞肝癌中的DNA甲基化驱动基因;
Step3)对肝细胞肝癌中的DNA甲基化驱动基因通过单因素Cox回归分析,最小绝对收缩和选择算子回归分析以及多因素Cox回归分析建立肝细胞肝癌患者诊断、预后和复发统一模型。
2.根据权利要求1所述的肝细胞肝癌患者诊断、预后和复发统一模型的构建方法,其特征在于,步骤2中所述的建立肝细胞肝癌患者诊断、预后和复发统一模型的具体方法如:鉴定并筛选出肝细胞肝癌中的DNA甲基化驱动基因分别为SPP1基因、LCAT基因和CYP2C9基因,采用这些DNA甲基化驱动基因构建肝细胞肝癌患者诊断、预后和复发统一模型,所述诊断、预后和复发统一模型的公式表述为:
预后-复发-诊断评分=(0.29344×SPP1基因表达水平)–(2.3052×LCAT基因表达水平)–(0.21059×CYP2C9基因表达水平);通过最佳阈值(1.32)将患者分为高风险和低风险患者。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010305378.8A CN111402949B (zh) | 2020-04-17 | 2020-04-17 | 一种肝细胞肝癌患者诊断、预后和复发统一模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010305378.8A CN111402949B (zh) | 2020-04-17 | 2020-04-17 | 一种肝细胞肝癌患者诊断、预后和复发统一模型的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111402949A true CN111402949A (zh) | 2020-07-10 |
CN111402949B CN111402949B (zh) | 2023-12-22 |
Family
ID=71431601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010305378.8A Active CN111402949B (zh) | 2020-04-17 | 2020-04-17 | 一种肝细胞肝癌患者诊断、预后和复发统一模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111402949B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270992A (zh) * | 2020-12-25 | 2021-01-26 | 江苏高美基因科技有限公司 | 肝内胆管细胞癌患者预后评估模型的构建方法 |
CN112289450A (zh) * | 2020-12-25 | 2021-01-29 | 江苏高美基因科技有限公司 | 肝内胆管细胞癌患者预后生存期的预测系统 |
CN112501299A (zh) * | 2020-12-08 | 2021-03-16 | 赵景民 | 一种用于预测肝癌复发和转移的方法及应用 |
CN112614546A (zh) * | 2020-12-25 | 2021-04-06 | 浙江大学 | 一种用于预测肝细胞癌免疫治疗疗效的模型及其构建方法 |
CN112908477A (zh) * | 2021-01-28 | 2021-06-04 | 黑龙江省医院 | 一种用于胃癌患者的预后风险评估系统 |
CN113436741A (zh) * | 2021-07-16 | 2021-09-24 | 四川大学华西医院 | 基于组织特异增强子区域dna甲基化的肺癌复发预测方法 |
CN113539376A (zh) * | 2021-09-16 | 2021-10-22 | 浙江大学 | 判断肝细胞肝癌患者预后的基因模型、构建方法和应用 |
CN114075605A (zh) * | 2022-01-19 | 2022-02-22 | 博尔诚(北京)科技有限公司 | 基于甲基化增强基因表达(mege)的癌症标志物筛选方法 |
CN114277155A (zh) * | 2022-01-28 | 2022-04-05 | 北京大学人民医院 | 肝细胞癌患者术后复发预测模型的构建方法 |
CN114649091A (zh) * | 2022-02-25 | 2022-06-21 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 基于CpG甲基化的T淋巴母细胞淋巴瘤预后模型的构建方法 |
CN114672569A (zh) * | 2022-05-24 | 2022-06-28 | 浙江大学医学院附属第一医院 | 基于色氨酸代谢基因的肝癌预后评估方法 |
WO2022156610A1 (zh) * | 2021-01-21 | 2022-07-28 | 浙江大学 | 基于基因检测判断肝癌药物敏感性和远期预后的预测工具及其应用 |
CN117334325A (zh) * | 2023-09-26 | 2024-01-02 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 一种lcat在肝细胞癌诊断、治疗和预测复发的应用 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014044854A1 (en) * | 2012-09-21 | 2014-03-27 | Integragen | A method for prognosis of global survival and survival without relapse in hepatocellular carcinoma |
CN106947830A (zh) * | 2017-05-16 | 2017-07-14 | 中山大学肿瘤防治中心 | 用于诊断、预测肝癌疗效和预后的基因甲基化面板 |
CN110390996A (zh) * | 2019-08-18 | 2019-10-29 | 段艺 | 一种肝细胞癌可变剪接事件预后模型及其构建方法和应用 |
-
2020
- 2020-04-17 CN CN202010305378.8A patent/CN111402949B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014044854A1 (en) * | 2012-09-21 | 2014-03-27 | Integragen | A method for prognosis of global survival and survival without relapse in hepatocellular carcinoma |
CN104769131A (zh) * | 2012-09-21 | 2015-07-08 | 英特盖根公司 | 用于在肝细胞癌中预后整体存活和无复发存活的方法 |
CN106947830A (zh) * | 2017-05-16 | 2017-07-14 | 中山大学肿瘤防治中心 | 用于诊断、预测肝癌疗效和预后的基因甲基化面板 |
CN110390996A (zh) * | 2019-08-18 | 2019-10-29 | 段艺 | 一种肝细胞癌可变剪接事件预后模型及其构建方法和应用 |
Non-Patent Citations (1)
Title |
---|
JUNYULONG等: "DNA methylation-driven genes for constructing diagnostic, prognostic, and recurrence models for hepatocellular carcinoma", 《THERANOSTICS2019》, vol. 9, no. 24, pages 7251 - 7267, XP093005886, DOI: 10.7150/thno.31155 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112501299A (zh) * | 2020-12-08 | 2021-03-16 | 赵景民 | 一种用于预测肝癌复发和转移的方法及应用 |
CN112289450A (zh) * | 2020-12-25 | 2021-01-29 | 江苏高美基因科技有限公司 | 肝内胆管细胞癌患者预后生存期的预测系统 |
CN112614546A (zh) * | 2020-12-25 | 2021-04-06 | 浙江大学 | 一种用于预测肝细胞癌免疫治疗疗效的模型及其构建方法 |
CN112289450B (zh) * | 2020-12-25 | 2021-05-18 | 浙江高美生物科技有限公司 | 肝内胆管细胞癌患者预后生存期的预测系统 |
CN112614546B (zh) * | 2020-12-25 | 2022-09-02 | 浙江大学 | 一种用于预测肝细胞癌免疫治疗疗效的模型及其构建方法 |
CN112270992A (zh) * | 2020-12-25 | 2021-01-26 | 江苏高美基因科技有限公司 | 肝内胆管细胞癌患者预后评估模型的构建方法 |
WO2022156610A1 (zh) * | 2021-01-21 | 2022-07-28 | 浙江大学 | 基于基因检测判断肝癌药物敏感性和远期预后的预测工具及其应用 |
CN112908477A (zh) * | 2021-01-28 | 2021-06-04 | 黑龙江省医院 | 一种用于胃癌患者的预后风险评估系统 |
CN113436741A (zh) * | 2021-07-16 | 2021-09-24 | 四川大学华西医院 | 基于组织特异增强子区域dna甲基化的肺癌复发预测方法 |
CN113539376B (zh) * | 2021-09-16 | 2022-01-18 | 浙江大学 | 判断肝细胞肝癌患者预后的基因模型、构建方法和应用 |
CN113539376A (zh) * | 2021-09-16 | 2021-10-22 | 浙江大学 | 判断肝细胞肝癌患者预后的基因模型、构建方法和应用 |
CN114075605A (zh) * | 2022-01-19 | 2022-02-22 | 博尔诚(北京)科技有限公司 | 基于甲基化增强基因表达(mege)的癌症标志物筛选方法 |
CN114277155A (zh) * | 2022-01-28 | 2022-04-05 | 北京大学人民医院 | 肝细胞癌患者术后复发预测模型的构建方法 |
CN114649091A (zh) * | 2022-02-25 | 2022-06-21 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 基于CpG甲基化的T淋巴母细胞淋巴瘤预后模型的构建方法 |
CN114672569A (zh) * | 2022-05-24 | 2022-06-28 | 浙江大学医学院附属第一医院 | 基于色氨酸代谢基因的肝癌预后评估方法 |
CN117334325A (zh) * | 2023-09-26 | 2024-01-02 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 一种lcat在肝细胞癌诊断、治疗和预测复发的应用 |
CN117334325B (zh) * | 2023-09-26 | 2024-04-16 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 一种lcat在肝细胞癌诊断、治疗和预测复发的应用 |
Also Published As
Publication number | Publication date |
---|---|
CN111402949B (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111402949B (zh) | 一种肝细胞肝癌患者诊断、预后和复发统一模型的构建方法 | |
Toiyama et al. | DNA methylation and microRNA biomarkers for noninvasive detection of gastric and colorectal cancer | |
US10822661B2 (en) | Method of multivariate molecule analysis | |
US20190256921A1 (en) | Cell-free detection of methylated tumour dna | |
Hrašovec et al. | TMEM25 is a candidate biomarker methylated and down-regulated in colorectal cancer | |
EP3034624A1 (en) | Method for the prognosis of hepatocellular carcinoma | |
JP5836397B2 (ja) | 結腸直腸がんの再発予測のためのバイオマーカー | |
CN112992354B (zh) | 一种基于甲基标志物组合评估结直肠癌转移复发风险和动态监测的方法以及系统 | |
JP2022525890A (ja) | Dna試料のメチル化変化を検出するための方法およびシステム | |
Fang et al. | Genome-wide analysis of aberrant DNA methylation for identification of potential biomarkers in colorectal cancer patients | |
US20190300965A1 (en) | Liver cancer methylation markers and uses thereof | |
EP3481941A1 (en) | Breast and ovarian cancer methylation markers and uses thereof | |
Honda et al. | A microRNA cluster in the DLK1-DIO3 imprinted region on chromosome 14q32. 2 is dysregulated in metastatic hepatoblastomas | |
JP2012513752A (ja) | 結腸直腸癌細胞を含む試料を型判別するための方法および手段 | |
Cristall et al. | A DNA methylation-based liquid biopsy for triple-negative breast cancer | |
WO2017046714A1 (en) | Methylation signature in squamous cell carcinoma of head and neck (hnscc) and applications thereof | |
CN111440863A (zh) | Kazn基因甲基化检测试剂在制备结直肠癌预后诊断试剂中的应用 | |
KR102605676B1 (ko) | 핵산의 메틸화 차이를 이용한 마커 선별방법, 메틸 또는 탈메틸 마커 및 이 마커를 이용한 진단방법 | |
US20140242583A1 (en) | Assays, methods and compositions for diagnosing cancer | |
US20220389513A1 (en) | A Method of Estimating a Circulating Tumor DNA Burden and Related Kits and Methods | |
CN111961721B (zh) | 血浆sfmbt2基因甲基化在结直肠癌中转移预测及动态监测中的应用 | |
CN111440866A (zh) | Dusp3基因甲基化检测试剂在制备结直肠癌预后诊断试剂中的应用 | |
RU2779550C1 (ru) | Способ для диагностирования рака яичников на основе набора генов длинных некодирующих РНК | |
CN102732516A (zh) | 一种多重巢式甲基化特异性pcr扩增引物及其使用方法与应用 | |
Florea | Pyrosequencing and its application in epigenetic clinical diagnostics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |