CN117051109A - 一种ii期结直肠癌患者分类方法、介质、装置及预后系统 - Google Patents
一种ii期结直肠癌患者分类方法、介质、装置及预后系统 Download PDFInfo
- Publication number
- CN117051109A CN117051109A CN202311165142.9A CN202311165142A CN117051109A CN 117051109 A CN117051109 A CN 117051109A CN 202311165142 A CN202311165142 A CN 202311165142A CN 117051109 A CN117051109 A CN 117051109A
- Authority
- CN
- China
- Prior art keywords
- mutation
- colorectal cancer
- tmb
- stage
- patients
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010009944 Colon cancer Diseases 0.000 title claims abstract description 112
- 208000001333 Colorectal Neoplasms Diseases 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000004393 prognosis Methods 0.000 title claims abstract description 27
- 230000035772 mutation Effects 0.000 claims abstract description 146
- 102100034540 Adenomatous polyposis coli protein Human genes 0.000 claims abstract description 60
- 101000924577 Homo sapiens Adenomatous polyposis coli protein Proteins 0.000 claims abstract description 60
- 102100030708 GTPase KRas Human genes 0.000 claims abstract description 59
- 101000584612 Homo sapiens GTPase KRas Proteins 0.000 claims abstract description 59
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 57
- 101000619536 Homo sapiens DNA-dependent protein kinase catalytic subunit Proteins 0.000 claims abstract description 43
- 102100022204 DNA-dependent protein kinase catalytic subunit Human genes 0.000 claims abstract description 41
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 claims abstract description 38
- 101000623897 Homo sapiens Mucin-12 Proteins 0.000 claims abstract description 26
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 claims abstract description 26
- 101000824318 Homo sapiens Protocadherin Fat 1 Proteins 0.000 claims abstract description 26
- 102100023143 Mucin-12 Human genes 0.000 claims abstract description 26
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 claims abstract description 26
- 102100022095 Protocadherin Fat 1 Human genes 0.000 claims abstract description 26
- 238000007482 whole exome sequencing Methods 0.000 claims abstract description 8
- 101100520033 Dictyostelium discoideum pikC gene Proteins 0.000 claims abstract description 4
- 102200055464 rs113488022 Human genes 0.000 claims description 8
- 230000000869 mutational effect Effects 0.000 claims description 5
- 230000004083 survival effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012502 risk assessment Methods 0.000 claims description 2
- 102100025064 Cellular tumor antigen p53 Human genes 0.000 claims 10
- 102000015098 Tumor Suppressor Protein p53 Human genes 0.000 abstract description 28
- 230000000694 effects Effects 0.000 abstract description 5
- 230000001900 immune effect Effects 0.000 abstract description 3
- 230000001575 pathological effect Effects 0.000 abstract description 3
- 108090000623 proteins and genes Proteins 0.000 description 34
- 238000003066 decision tree Methods 0.000 description 19
- 208000032818 Microsatellite Instability Diseases 0.000 description 17
- 201000011510 cancer Diseases 0.000 description 16
- 238000010200 validation analysis Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 12
- 230000000306 recurrent effect Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 206010064571 Gene mutation Diseases 0.000 description 9
- 210000004027 cell Anatomy 0.000 description 7
- 238000010199 gene set enrichment analysis Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 206010038111 Recurrent cancer Diseases 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 5
- 206010069754 Acquired gene mutation Diseases 0.000 description 4
- 238000000546 chi-square test Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000036438 mutation frequency Effects 0.000 description 4
- 230000037361 pathway Effects 0.000 description 4
- 238000013081 phylogenetic analysis Methods 0.000 description 4
- 230000002980 postoperative effect Effects 0.000 description 4
- 230000037439 somatic mutation Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 101150052384 50 gene Proteins 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 3
- 238000000729 Fisher's exact test Methods 0.000 description 3
- 238000000585 Mann–Whitney U test Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 239000003153 chemical reaction reagent Substances 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000007717 exclusion Effects 0.000 description 3
- 210000002865 immune cell Anatomy 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 238000000611 regression analysis Methods 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 102100028914 Catenin beta-1 Human genes 0.000 description 2
- 108700024394 Exon Proteins 0.000 description 2
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 description 2
- 108010050568 HLA-DM antigens Proteins 0.000 description 2
- 101000916173 Homo sapiens Catenin beta-1 Proteins 0.000 description 2
- 101000596771 Homo sapiens Transcription factor 7-like 2 Proteins 0.000 description 2
- 229940076838 Immune checkpoint inhibitor Drugs 0.000 description 2
- 102000037982 Immune checkpoint proteins Human genes 0.000 description 2
- 108091008036 Immune checkpoint proteins Proteins 0.000 description 2
- 238000012313 Kruskal-Wallis test Methods 0.000 description 2
- 108700019961 Neoplasm Genes Proteins 0.000 description 2
- 102000048850 Neoplasm Genes Human genes 0.000 description 2
- -1 PIK CA Proteins 0.000 description 2
- 238000003559 RNA-seq method Methods 0.000 description 2
- 230000006044 T cell activation Effects 0.000 description 2
- 102100035101 Transcription factor 7-like 2 Human genes 0.000 description 2
- 230000030741 antigen processing and presentation Effects 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 210000002889 endothelial cell Anatomy 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000002950 fibroblast Anatomy 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 230000028993 immune response Effects 0.000 description 2
- 239000012274 immune-checkpoint protein inhibitor Substances 0.000 description 2
- 238000003125 immunofluorescent labeling Methods 0.000 description 2
- 238000009169 immunotherapy Methods 0.000 description 2
- 230000008595 infiltration Effects 0.000 description 2
- 238000001764 infiltration Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000007170 pathology Effects 0.000 description 2
- 238000011248 postoperative chemotherapy Methods 0.000 description 2
- 238000002271 resection Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000019491 signal transduction Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000000392 somatic effect Effects 0.000 description 2
- 238000010186 staining Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- FWBHETKCLVMNFS-UHFFFAOYSA-N 4',6-Diamino-2-phenylindol Chemical compound C1=CC(C(=N)N)=CC=C1C1=CC2=CC=C(C(N)=N)C=C2N1 FWBHETKCLVMNFS-UHFFFAOYSA-N 0.000 description 1
- 102000000872 ATM Human genes 0.000 description 1
- 102100021886 Activin receptor type-2A Human genes 0.000 description 1
- 230000007730 Akt signaling Effects 0.000 description 1
- 108700028369 Alleles Proteins 0.000 description 1
- 241000208340 Araliaceae Species 0.000 description 1
- 108010004586 Ataxia Telangiectasia Mutated Proteins Proteins 0.000 description 1
- 102100021975 CREB-binding protein Human genes 0.000 description 1
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 description 1
- 108090000695 Cytokines Proteins 0.000 description 1
- 102000004127 Cytokines Human genes 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 102100030386 Granzyme A Human genes 0.000 description 1
- 102100030385 Granzyme B Human genes 0.000 description 1
- 102100033079 HLA class II histocompatibility antigen, DM alpha chain Human genes 0.000 description 1
- 102100031258 HLA class II histocompatibility antigen, DM beta chain Human genes 0.000 description 1
- 108010041384 HLA-DPA antigen Proteins 0.000 description 1
- 102100038885 Histone acetyltransferase p300 Human genes 0.000 description 1
- 102100027755 Histone-lysine N-methyltransferase 2C Human genes 0.000 description 1
- 101000970954 Homo sapiens Activin receptor type-2A Proteins 0.000 description 1
- 101000896987 Homo sapiens CREB-binding protein Proteins 0.000 description 1
- 101001009599 Homo sapiens Granzyme A Proteins 0.000 description 1
- 101001009603 Homo sapiens Granzyme B Proteins 0.000 description 1
- 101000882390 Homo sapiens Histone acetyltransferase p300 Proteins 0.000 description 1
- 101001008892 Homo sapiens Histone-lysine N-methyltransferase 2C Proteins 0.000 description 1
- 101000599940 Homo sapiens Interferon gamma Proteins 0.000 description 1
- 101000589423 Homo sapiens Proapoptotic nucleolar protein 1 Proteins 0.000 description 1
- 101000883798 Homo sapiens Probable ATP-dependent RNA helicase DDX53 Proteins 0.000 description 1
- 101000711846 Homo sapiens Transcription factor SOX-9 Proteins 0.000 description 1
- 101000851018 Homo sapiens Vascular endothelial growth factor receptor 1 Proteins 0.000 description 1
- 102000037984 Inhibitory immune checkpoint proteins Human genes 0.000 description 1
- 108091008026 Inhibitory immune checkpoint proteins Proteins 0.000 description 1
- 102100037850 Interferon gamma Human genes 0.000 description 1
- 102000006992 Interferon-alpha Human genes 0.000 description 1
- 108010047761 Interferon-alpha Proteins 0.000 description 1
- 108010074328 Interferon-gamma Proteins 0.000 description 1
- 102000008070 Interferon-gamma Human genes 0.000 description 1
- 102000043136 MAP kinase family Human genes 0.000 description 1
- 108091054455 MAP kinase family Proteins 0.000 description 1
- 108700005092 MHC Class II Genes Proteins 0.000 description 1
- 102000043129 MHC class I family Human genes 0.000 description 1
- 108091054437 MHC class I family Proteins 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 102100025725 Mothers against decapentaplegic homolog 4 Human genes 0.000 description 1
- 101710143112 Mothers against decapentaplegic homolog 4 Proteins 0.000 description 1
- 230000006051 NK cell activation Effects 0.000 description 1
- 206010061309 Neoplasm progression Diseases 0.000 description 1
- 102100025247 Neurogenic locus notch homolog protein 3 Human genes 0.000 description 1
- 108020004485 Nonsense Codon Proteins 0.000 description 1
- 108010029756 Notch3 Receptor Proteins 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 102000003992 Peroxidases Human genes 0.000 description 1
- 102100032331 Proapoptotic nucleolar protein 1 Human genes 0.000 description 1
- 102100038236 Probable ATP-dependent RNA helicase DDX53 Human genes 0.000 description 1
- 102100029981 Receptor tyrosine-protein kinase erbB-4 Human genes 0.000 description 1
- 101710100963 Receptor tyrosine-protein kinase erbB-4 Proteins 0.000 description 1
- 208000015634 Rectal Neoplasms Diseases 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 102100034204 Transcription factor SOX-9 Human genes 0.000 description 1
- DZGWFCGJZKJUFP-UHFFFAOYSA-N Tyramine Natural products NCCC1=CC=C(O)C=C1 DZGWFCGJZKJUFP-UHFFFAOYSA-N 0.000 description 1
- 102100033178 Vascular endothelial growth factor receptor 1 Human genes 0.000 description 1
- 102000013814 Wnt Human genes 0.000 description 1
- 108050003627 Wnt Proteins 0.000 description 1
- 230000004156 Wnt signaling pathway Effects 0.000 description 1
- 108010016200 Zinc Finger Protein GLI1 Proteins 0.000 description 1
- 102100035535 Zinc finger protein GLI1 Human genes 0.000 description 1
- 210000002203 alpha-beta t lymphocyte Anatomy 0.000 description 1
- 238000000540 analysis of variance Methods 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000022131 cell cycle Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 238000010878 colorectal surgery Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001461 cytolytic effect Effects 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002074 deregulated effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000010201 enrichment analysis Methods 0.000 description 1
- 238000002073 fluorescence micrograph Methods 0.000 description 1
- 230000037442 genomic alteration Effects 0.000 description 1
- 238000011331 genomic analysis Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000003102 growth factor Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000007490 hematoxylin and eosin (H&E) staining Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000003018 immunoassay Methods 0.000 description 1
- 230000005847 immunogenicity Effects 0.000 description 1
- 230000001506 immunosuppresive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000001325 log-rank test Methods 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 230000034570 natural killer cell mediated immunity Effects 0.000 description 1
- 230000037434 nonsense mutation Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 231100000590 oncogenic Toxicity 0.000 description 1
- 230000002246 oncogenic effect Effects 0.000 description 1
- 230000010627 oxidative phosphorylation Effects 0.000 description 1
- 239000012188 paraffin wax Substances 0.000 description 1
- 230000007119 pathological manifestation Effects 0.000 description 1
- 108040007629 peroxidase activity proteins Proteins 0.000 description 1
- 210000004990 primary immune cell Anatomy 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 239000000092 prognostic biomarker Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011470 radical surgery Methods 0.000 description 1
- 206010038038 rectal cancer Diseases 0.000 description 1
- 201000001275 rectum cancer Diseases 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000037432 silent mutation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 210000002536 stromal cell Anatomy 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 125000001424 substituent group Chemical group 0.000 description 1
- 238000011222 transcriptome analysis Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000005751 tumor progression Effects 0.000 description 1
- 229960003732 tyramine Drugs 0.000 description 1
- DZGWFCGJZKJUFP-UHFFFAOYSA-O tyraminium Chemical group [NH3+]CCC1=CC=C(O)C=C1 DZGWFCGJZKJUFP-UHFFFAOYSA-O 0.000 description 1
- 230000009790 vascular invasion Effects 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- Organic Chemistry (AREA)
- Pathology (AREA)
- Zoology (AREA)
- Biophysics (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Wood Science & Technology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Oncology (AREA)
- General Engineering & Computer Science (AREA)
- Hospice & Palliative Care (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种II期结直肠癌患者分类方法、介质、装置及预后系统,该预后系统基于肿瘤组织的TMB以及PRKDC、FAT1、APC、TP53、KRAS、MUC12和PIK3CA的突变情况而建立。该系统通过如下方法将II期结直肠癌患者分成三种分子亚型:获取待分类II期结直肠癌患者的肿瘤组织全外显子组测序数据;计算待分类II期结直肠癌患者肿瘤组织的TMB;根据PRKDC、FAT1、APC、TP53、KRAS、MUC12和PIK3CA的突变情况和TMB进行II期结直肠癌患者分类。本发明仅使用全外显子组测序数据来确定II期结直肠癌患者的分子亚型,这些分子亚型具有独特的分子、临床病理表型和临床结果,特别是免疫特性,针对不同分子亚型的患者进行精准治疗,能够提高治疗效果。
Description
技术领域
本发明涉及疾病预后技术领域,特别涉及一种II期结直肠癌患者分类方法、介质、装置及预后系统。
背景技术
对于II期结直肠癌(CRC)患者的术后治疗一直存在争议。大约25%的结直肠癌患者在II期被诊断出,5年生存率为75%至80%,复发率为15%至20%。对于复发风险高的患者,首要考虑的是评估术后化疗以及免疫治疗的益处。目前的指南建议对有侵袭性病理表现的II期结直肠癌患者进行术后化疗,如T4期、血管侵犯和边缘受累等。然而,许多研究表明,这些临床病理特征对预后的价值有限甚至存在争议。结直肠癌患者在同一病理阶段的结果往往差异很大,这意味着它是一种异质性疾病。鉴别具有高复发风险的II期结直肠癌患者的分子特征可能为临床治疗提供线索。
到目前为止,仍然没有分子分类方案可以用来指导II期结直肠癌的术后治疗。尽管共识分子亚型(CMS)是目前对II期结直肠癌具有内在生物学意义的最严格的分类方法,但其预测预后价值有限,特别是对于II期结直肠癌患者。一些基于转录分类的基因标记或分子标记也被证实可以独立预测II期结直肠癌患者的预后,但是它们不能反映其完整的分子特征,并且因个体间表达水平差异明显,无法进行广泛推广。此外,从福尔马林固定石蜡包埋(FFPE)组织中回收的RNA的质量缺陷也限制了基于RNA测序技术的亚型系统的临床测试。
发明内容
为了解决以上技术问题,本发明提供一种II期结直肠癌患者分类方法、介质、装置及预后系统,该分类方法对II期结直肠癌患者进行了更精准的分类,针对不同分子亚型的患者进行精准治疗,能够提高治疗效果。
本发明提供的技术方案具体如下:
第一方面,本发明提供一种用于预测II期结直肠癌患者预后的系统,该系统基于肿瘤组织中PRKDC、FAT1、APC、TP53、KRAS、MUC12和PIK3CA七种基因的突变情况以及TMB而建立。
所述肿瘤组织为II期结肠癌组织或II期直肠癌组织。
在上述技术方案的基础上,所述系统包括分类模块,所述分类模块将符合以下任一种情况的患者判定为第一分子亚型(S-I):
(i)TMB≥预设阈值且PRKDC突变;
(ii)TMB≥预设阈值,PRKDC无突变,APC无突变;
(iii)TMB≥预设阈值,PRKDC无突变,APC和FAT1均突变;
(iv)TMB<预设阈值,KRAS、TP53、APC和MUC12均无突变;
所述分类模块将符合以下任一种情况的患者判定为第二分子亚型(S-II):
(v)TMB<预设阈值且KRAS突变;
(vi)TMB<预设阈值,KRAS、TP53和APC均无突变,但MUC12突变;
(vii)TMB<预设阈值,KRAS和TP53均无突变,但APC和PIK3CA均突变;
所述分类模块将符合以下任一种情况的患者判定为第三分子亚型(S-III):
(viii)TMB≥预设阈值,PRKDC和FAT1无突变但APC突变;
(ix)TMB<预设阈值,KRAS无突变但TP53突变;
(x)TMB<预设阈值,KRAS、TP53和PIK3CA均无突变,但APC突变;
其中,II期结直肠癌患者的术后复发风险:第一分子亚型<第三分子亚型<第二分子亚型。
在上述技术方案的基础上,所述系统包括复发风险预测模块;所述复发风险预测模块通过如下方式对II期结直肠癌患者进行复发风险预测:
将存在dMMR且BRAF V600E无突变的患者预测为低复发风险患者;
将存在dMMR且BRAF V600E有突变的患者预测为高复发风险患者;
将不存在dMMR且KRAS有突变的患者预测为高复发风险患者;
将不存在dMMR且KRAS无突变的患者预测为中复发风险患者。
在上述技术方案的基础上,所述系统包括获取肿瘤组织全外显子组测序数据的试剂和/或仪器。
在上述技术方案的基础上,所述预设阈值为22。
第二方面,本发明提供上述用于预测II期结直肠癌患者预后的系统的应用,为(b1)-(b4)中的任一种:
(b1)制备用于II期结直肠癌患者预后风险评估的产品;
(b2)制备用于II期结直肠癌患者预后总生存率的产品;
(b3)制备用于II期结直肠癌患者预后的产品;
(b4)制备用于II期结直肠癌患者治疗方法指导的产品。
第三方面,本发明提供一种II期结直肠癌患者分类方法,包括:
获取待分类II期结直肠癌患者的肿瘤组织全外显子组测序数据;
计算待分类II期结直肠癌患者肿瘤组织的TMB;
根据PRKDC、FAT1、APC、TP53、KRAS、MUC12和PIK3CA的突变情况和TMB进行II期结直肠癌患者分类。
在上述技术方案的基础上,所述根据PRKDC、FAT1、APC、TP53、KRAS、MUC12和PIK3CA的突变情况和TMB进行II期结直肠癌患者分类包括:
判断TMB是否小于预设阈值;
若TMB<预设阈值,根据KRAS的突变情况进行第二次分类;
若TMB≥预设阈值,根据PRKDC的突变情况进行第二次分类。
在上述技术方案的基础上,所述若TMB<预设阈值,根据KRAS的突变情况进行第二次分类还包括:
若KRAS无突变,根据TP53的突变情况进行第三次分类;
若TP53无突变,根据APC的突变情况进行第四次分类;
若APC无突变,根据MUC12的突变情况进行第五次分类;
若APC突变,根据PIK3CA的突变情况进行第五次分类;
在上述技术方案的基础上,所述若TMB<预设阈值,根据KRAS的突变情况进行第二次分类还包括:
若KRAS突变,将患者判定为第二分子亚型。
在上述技术方案的基础上,若KRAS无突变,根据TP53的突变情况进行第三次分类还包括:
若TP53突变,将患者判定为第三分子亚型。
在上述技术方案的基础上,若APC无突变,根据MUC12的突变情况进行第五次分类,包括:
若MUC12无突变,将患者判定为第一分子亚型;
若MUC12突变,将患者判定为第二分子亚型。
在上述技术方案的基础上,若APC突变,根据PIK3CA的突变情况进行第五次分类,包括:
若PIK3CA无突变,将患者判定为第三分子亚型;
若PIK3CA突变,将患者判定为第二分子亚型。
在上述技术方案的基础上,所述若TMB≥预设阈值,根据PRKDC的突变情况进行第二次分类,包括:
若PRKDC无突变,根据APC的突变情况进行第三次分类;
若APC突变,根据FAT1的突变情况进行第四次分类。
在上述技术方案的基础上,所述若TMB≥预设阈值,根据PRKDC的突变情况进行第二次分类,还包括:
若PRKDC突变,将患者判定为第一分子亚型。
在上述技术方案的基础上,若PRKDC无突变,根据APC的突变情况进行第三次分类,还包括:
若APC无突变,将患者判定为第一分子亚型。
在上述技术方案的基础上,若APC突变,根据FAT1的突变情况进行第四次分类,包括:
若FAT1突变,将患者判定为第一分子亚型;
若FAT1无突变,将患者判定为第三分子亚型。
第四方面,本发明提供一种存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述II期结直肠癌患者分类方法。
第五方面,本发明提供一种II期结直肠癌患者分类装置,包括:
获取模块,用于获取待分类II期结直肠癌患者的肿瘤组织全外显子组测序数据;
计算模块,用于计算待分类II期结直肠癌患者肿瘤组织的TMB;
分类模块,用于根据PRKDC、FAT1、APC、TP53、KRAS、MUC12和PIK3CA的突变情况和TMB进行II期结直肠癌患者分类。
与现有技术相比,本发明对II期结直肠癌患者进行了更精准的分子亚型分类,可根据该分类为不同分子亚型的II期结直肠癌患者提供更精准的治疗方案。
附图说明
图1.来自NCC的60名II期CRC患者的基因组景观。(A)在II期CRC标本中发现的体细胞基因组改变,包括扩增、缺失和非同义突变。从左到右显示60个肿瘤样本,每列代表一个单独的样本。顶部的直方图显示了每个样本的肿瘤突变负荷(TMB)和MSI状态注释。列出了20个突变率最高的基因,每一行代表一个基因。每个基因的体细胞突变频率绘制在右侧面板上。(B)突变特征的聚类。使用了30个突变特征,根据特征产生了5个聚类。1、3、6、10和30。(C)复发组和非复发组MSI传感器评分、倍性、TMB、CNV常模。通过MSI传感器计算MSI传感器得分,将20设置为高MSI得分(MSI-H)的截止值。(Mann-Whitney U检验。*p<0.05,**p<0.01***p<0.001;p≥0.05,无统计学意义)。
图2.NCC数据集中的三种分子亚型和特征。(A)在60例NCC样本中,由50个基因聚类出3个亚型。左侧显示50个基因列表。(B)亚型与临床结果之间的关系。(D)三种亚型的人口统计学特征、肿瘤特征和危险因素。(E-F)Kruskal-Wallis秩和检验用于比较三种CRC亚型中的MSI、TMB。*p<0.05;**p<0.01;**p<0.05;*p<0.001;p≥0.05,不显著。
图3.NCC和TCGA数据集的三种分子亚型中基因组谱分析的综合聚类。(A)对20个突变频率高的基因的突变谱按功能类别进行分类。(B)S-I、S-II、S-III簇中基因突变率的三元图。(C)三个亚组的突变特征。(D)在SI、S-II、S-III簇中观察到的碱基变化比例。Kruska-Wallis秩和检验*p<0.05;**p<0.01;**p<0.05;*p<0.001;p≥0.05,无显著性。
图4.TCGA数据集中分子亚型分类和基因组特征的验证。(A)来自TCGA的137个样品的突变景观和聚类亚型。左侧显示50个基因列表。(B)TCGA数据集中所有亚型的PFI曲线。(C)三种亚型的特征。根据突变特征的出现频率,呈现突变特征1、突变特征3、突变特征6、突变特征10等。(D-F)采用Kruskal-Wallis秩和检验比较3种结直肠癌分子亚型的CNV、TMB和MSI状态。*p<0.05;**p<0.01;**p<0.05;*p<0.001;p≥0.05,不显著。
图5.亚型的免疫异质性。(A)来自TCGA数据集的三个亚型中MHC I类和II类基因的表达。(B)TCGA数据集的GSEA分析。显示了显著富集的途径和p值。(C)在NCC数据集中鉴定的新抗原的数量。
图6.亚型免疫浸润。(A)来自TCGA数据集的三种不同亚型的Immuscore。(曼-惠特尼U测试。*p<0.05;**p<0.01;***p<0.001;p≥0.05,nonsignificant).(B)MCP计数器根据TCGA转录组数据估计细胞类型的丰度。(Kruskal-Wallis检验,显示P值)。
图7.决策树的建立与验证。(A)基于训练队列的后剪枝决策树。每个节点显示总患者的预测事件数和观察百分比。(B)使用训练队列中观察百分比的ROC曲线(ROC)曲线来评估决策树算法。(C)来自验证队列的83个样本的突变景观和聚类分型。验证队列83个样本中50个基因聚类的3个亚型。(D)在验证队列中显示S-I,S-II和S-III之间肿瘤复发百分比的差异。(E)ROC曲线的决策树算法对预测验证队列观察百分比的预测价值。(F)常见和独特的非同义体细胞突变的比例显示从原发性到复发性样品从患者获得的可视化肿瘤进化。
图8.简化后的决策模型。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明的实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如无特殊说明,本发明实施例中所用到的研究方法具体如下:
1.II期结直肠癌患者分子亚型的鉴别与验证
1.1研究对象
接受根治性切除术的II期结直肠癌患者。
入选标准如下:(1)根据美国癌症联合委员会(AJCC)第8版指南定义的II期结直肠癌,并分别由两名病理学家和两名结直肠外科医生进行病理学验证,他们对患者数据不知情;(2)根治性切除;(3)有完整的病历资料;(4)结直肠癌根治术后6个月以上患者的无进展间期(PFI)时间。PFI时间定义为首次结直肠癌手术与癌症相关的局部复发、远端转移、死亡或随访结束之间的时间间隔。
排除标准如下:(1)结直肠癌不是其第一原发癌的患者;(2)年龄小于18岁。
收集60个II期结直肠癌患者接受根治性切除术后的FFPE肿瘤组织和配对的非癌性相邻组织(NAT)。为了防止数据追溯到个人,患者的姓名和ID被随机分配到研究ID。该项目遵循1964年赫尔辛基宣言和更新版本中概述的政策。
1.2全外显子基因突变分析(WES)
经认证的病理学家检查FFPE载玻片以鉴定高密度癌灶,用于使用QI Aamp DNAFFPE组织试剂盒定量试剂(QI Aamp DNA FFPE Tissue Kit Quantitation Reagent,Qiagen)进行肿瘤基因组DNA提取。通过使用总共0.6yg的纯化的DNA作为输入,将由AgilentSure Select Human All ExonKit V6(AgilentTechnologies)制备的WES文库加载到IlluminaHi-Seq上用于150bp配对末端测序,其数据作为SRP110150保存在序列读取档案(Sequence Read Archive,SRA)中。
通过Burrows Wheeler Aligner(BWAv.0.7.12)使用默认参数将高质量读段与人参考基因组UCSC版本hgl9比对。在通过GTAK4.0进行碱基质量评分重新校准(BQSR)和通过Picardv.2.13进行重复读段排除的过程之后,对于每个配对样品,通过GATK4.0中的Mutect2调用体细胞SNV和InDel。通过TLOD<10的标准消除低置信度变异,而随后使用工具vcf2maf将所有高置信度突变注释到MAF格式中。保留九类突变,包括“错义突变”、“帧内插入”、“帧内缺失”、“无义突变”、“非停止突变”、“剪接位点”、“帧移位缺失”、“帧移位插入”和“剪接区域”用于下行分析。
1.3计算所有肿瘤样品的肿瘤突变负荷(TMB)和微卫星不稳定性(MSI)
TMB指每Mb的非同义突变率。所有非沉默突变,包括前述九类vcf 2maf,被纳入TMB的计算中,并且该数量通过Agient V6全外显子组测定(36M)覆盖的总CDS区域长度校正。使用肿瘤样品通过工具Msisensor评估每个样品的MSI状态。MSI-H定义为MSisensor评分大于20。
1.4突变分析
根据6个取代基团(C>A、C>G、C>T、T>A、T>C、T>G)的分布以及紧邻突变碱基的5’和3’的碱基,确定每个肿瘤样品的96种突变类型的频率。由样本中的所有变体汇总,本发明获得96×N突变类型频率矩阵,其中N是变体的计数。通过生物信息学工具ConstructSig使用96频率矩阵作为输入来确定来自Cosmic数据库的突变特征1-30,并评估样品中特异性突变特征的比例。
1.5分子亚型聚类算法(II期结直肠癌-MSC)
该算法利用一个特定的距离估计来构建凝聚聚类,根据两个样品在高度突变的癌症基因之间的共享改变计算两个样品的成对距离。选择总共50个高频突变的癌症基因来对不同样品进行分类。这些基因的选择如下:首先,计算国家癌症中心(NCC)和癌症基因组图谱(TCGA)数据库II期结直肠癌队列中基因突变的突变频率,从中选择突变频率超过10%的基因作为高频率突变基因;然后,将这些高频率突变基因和435个基因组与CANCERPLEX基因组的交集设置为与癌症相关的基因集。
为了获得基于基因组分析的优化聚类结果,本发明通过计数共享改变的数量来计算两个样品之间的成对距离。具体而言,将数量为N的样本i和样本j之间共有的突变基因的数量汇总为N×N矩阵元素cij。本发明进一步将其改变为1/(cij+1)以将其归一化为0至1范围内的值,用于测量样本i和j之间的相似性。对于具有共同的6个热点突变(KRAS p.G12D、KRAS p.G12V、KRAS p.G13D、PIK 3CA p.E545K、RNF43p.G659Vfs*41、ACVR 2A p.K437Rfs*5)的成对样品,向cij添加额外的加值1。然后使用Ward.D2方法进行分层聚类。
1.6 TCGA数据库
癌症基因组图谱(TCGA)外显子组数据来自UCSC数据库(https://xenabrowser.net/),从TCGA-COAD、READ队列中共获得137例II期结直肠癌患者。本发明将子类型聚类算法II期结直肠癌-MSC应用于TCGA数据集,以确保正确的方法应用和数据的无偏解释。
此外,外显子组变异,通过RNA测序的转录组分析(FPKM值)以及相应的预后和临床病理信息在该数据集中下载。
1.7TCGA数据集基因集富集分析(GSEA)
GSEA的功能注释途径富集分析通常用于估计与特定途径和生物亚型相关的基因表达的累积方差。从分子特征数据库中检索Hallmark,京都基因和基因组百科全书(KEGG),基因本体(GO)基因集和v6.2集合中的免疫特征的基因集,用于GSEA-3.0分析。对所有肿瘤的整个转录组进行GSEA,并通过标准化富集评分(NES)进行评估,只有NOM p<0.05的结果被认为是显著的。
本发明使用一种新的基于整数线性规划的算法OptiType(v4)对正常样本的外显子组数据进行分析,推定新抗原HLA分型。通过使用TIminer预测每个患者的新抗原来定义所有来自突变的9聚体和10聚体的新肽。通过使用NetMHCpan4.0分析,对于单个体细胞HLA等位基因结合的亲和力小于500nmol/L和秩评分小于2的肽最终被鉴定为新抗原。
估计肿瘤微环境(TME)中的免疫浸润上传到“通过估计RNA转录物的相对子集进行细胞类型鉴定”(CIBERSORT)在线门户3的转录组数据的标准注释被用于运行具有1000个排列的LM22特征算法。估计的CIBERSORT结果(p<0.05)合计为1,允许在不同数据集和免疫细胞亚型之间直接比较细胞部分。此外,MCP计数器R包装被用来评估成纤维细胞和内皮细胞在TME中的转录。最后,将上述两种方法获得的z评分归一化数据结合起来,得到II期结直肠癌TME中23种细胞类型的比例。此外,“使用表达数据估计恶性肿瘤中的基质细胞和免疫细胞”(ESTIMATE)被用来估计每个样本中的免疫评分和浸润水平。
1.8多重免疫荧光染色分析
其作用是评估不同亚型的浸润性免疫细胞。在NCC患者中进行PANO 7-plex IHC试剂盒(cat 0004100100,购于佰诺全景生物技术(北京)有限公司)和Tyramide信号扩增荧光试剂盒(购于佰诺全景生物技术(北京)有限公司)的多重免疫荧光染色。通过苏木精和伊红(H&E)染色证实的肿瘤组织和NAT与一抗和过氧化物酶缀合的二抗相继孵育。微波热处理组织进行酪胺信号扩增染色和细胞核4′,6-二脒基-2-苯基吲哚(DAPI)染色。采用曼特拉系统(珀金埃尔默,沃尔瑟姆,马萨诸塞州,美国)创建在相同的曝光间隔420和720纳米之间的20纳米波长的复合单堆叠荧光图像。
2.分子亚型决策树分类器(II期结直肠癌-MDTC)建立与验证
2.1验证队列收集
以来自NCC和TCGA集合的197个样本中50个基因的变异矩阵作为训练队列,建立决策树;其中137例II期结直肠癌患者从TCGA-COADREAD集中获得。以从国际癌症基因组联盟(ICGC)(https://dcc.ICGC.org/releases/current/projects/coca-cn)获得的外显子组群作为验证队列。通过下载链接从该队列中检索了共83例II期结直肠癌患者的变异和表型数据。
2.2分子亚型决策树分类器(II期结直肠癌-MDTC)
为了识别先前因素的预后相关性,本发明从NCC和TCGA采集了197个样本,并训练了基于决策树的分类器来预测这些样本的亚型并对复发样本进行分类。采用R包中的递归划分算法建立决策树。为了减少装配的发生,本发明对构造的树应用了修剪操作。应用20倍交叉验证评价每个模型识别三个亚型的性能。通过控制最小误差率来确定最合理的CP和nsplit参数(代表分类器的复杂度),最终构造了一个最佳剪枝树。通过在训练集上生成分类结果矩阵,分析修剪后的树木的ROC曲线。为了验证其他独立数据中的决策树分类器,本发明对ICGC的83个阶段II期结直肠癌样本进行了预处理。决策树分类器在ICGC队列中进行了测试,并用ROC曲线进行了分析。
2.3系统发育分析
为了阐明构成决策树的突变基因是促进肿瘤复发的关键病因,本发明还进行了系统发育分析。比较原发性癌症样品和复发性癌症样品中的改变以总结共享和独特的改变,然后将其与决策树分类器中使用的基因进行比较。
2.4统计分析和数据可用性
在通过Shapiro-Wilk检验验证数据正态性后,Mann-Whitney U检验用于非正态分布的连续变量,而Student’s t检验用于正态分布的连续变量。对分类数据进行Fisher精确和卡方检验。构建Kaplan-Meier生存和Cox回归来评估不同组中所有患者的PFI,并且使用log-rank检验来分析任何差异。所有统计分析均采用统计软件R(3.5.2版)。
以下结合上述研究方法对本发明的技术方案进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
实施例1
1.样本选择
本发明经过伦理批准,并且所有入组的患者提供书面知情同意书。本发明筛选了2011年1月至2017年1月在结直肠外科接受根治性切除术的II期结直肠癌患者277名,根据排除标准排除部分患者后,获得60个II期结直肠癌患者样本。随访时间中位数为42个月。无复发组29例(48.3%),复发组31例(51.7%)。
最后,对60例患者的FFPE肿瘤组织进行全外显子基因突变分析,肿瘤的平均覆盖深度为180×(范围为65~362,原始总测序深度300×),NAT的平均覆盖深度为180×(范围为46~341,原始总测序深度300×)。
表1
注:P值用分类变量的χ2检验计算。
2.分子亚型分类建立
本发明对来自60例FFPE肿瘤样本和NAT进行了全外显子基因突变分析。在60例FFPE肿瘤样本中共鉴定出45448个体细胞突变,包括37971个点突变和7477个插入缺失。每例平均有774个非同义突变(范围:39~8936),相当于每兆碱基(Mb)21.5个非同义突变,与癌症基因组图谱(TCGA)数据集相当。
计算复发组和非复发组MSI值、倍性、TMB和CNV指标(Mann-WhitneyU检验,*p<0.05,**p<0.01;***p<0.001;p≥0.05,notsignificant,Figure1D).复发组和非复发组MSI传感器平均评分分别为9.25和25.22。高MSI评分定义为截止值为10,本发明发现只有无复发的患者可以分为高MSI评分组,这与广泛认可的MSI评分高与预后较好相关的观点一致。复发组和非复发组TMB平均值分别为8.51mut/Mb和35.39mut/Mb,差异有统计学意义。TMB是有益于免疫治疗的预测性生物标志物之一,较高的TMB与免疫检查点抑制剂的较好反应有关。
3.II期结直肠癌患者分类模型的构建和验证
在NCC数据集中计算单个基因的变异频率,并从高频突变基因和435-基因组与CANCERPLEX基因集的交集中筛选基因。共采用50个中心基因突变数据建立无监督共识(见表2),将结直肠癌患者在NCC数据集中分为三个分子亚型。
表2
/>
注:P值用分类变量的χ2检验计算。
结果表明,在三个聚类中细分可以建立最强大的分类,指向三个分子亚型。在NCC数据集中,60例II期结直肠癌样本可分为3个不同的分子亚型:S-I、S-II和S-III。与其他两个分子亚型相比,S-I在50个基因突变中表现得最为丰富(图2A)。在PFI中S-I预后最好,S-II预后最差(P<0.05)(图2B)。突变特征分析显示,突变特征6在S-I中丰富,突变特征1在S-III中占优势,而突变特征1和突变特征3在S-II中普遍(P<0.05)(图2C)。为了进一步描述分子亚型,本发明确定了3种分子亚型所有患者的临床变量(图2D,表3)。这揭示了临床分期和分子亚型之间的显著相关性,包括AJCC T分期,肿瘤部位和一些高危病理特征。在单变量和多变量Cox回归分析中,本发明确定的分子亚型可以有效预测RFS(P<0.05)(表4)。MSI状态在3个分子亚型中也有显著差异,其中S-I最高,S-II最低(P<0.05)(图2E)。对于平均TMB,S-I在三个分子亚型中最高(P<0.05)(图2F)。
表3
/>
注:P值用分类变量的χ2检验计算。
表4
/>
/>
注:Cox回归分析用于计算不同亚型大肠癌(CRC)患者肿瘤复发的风险比(HR)和95%置信区间(CI)。多变量分析包括单变量Cox回归分析显著的协变量(P<0.05)。
本发明检测了3个分子亚型中50个基因的基因突变。本发明鉴定了调节多种关键癌症发生途径的基因中的几种变体,包括KRAS、PIK3CA、TCF7L2、SOX9、TP53、APC和CTNNB1,它们影响细胞周期、MAPK、PI3K-Akt和Wnt信号通路。这一发现表明,每种肿瘤分子亚型都是由不同的致癌突变事件触发的(图3A、3B)。标本的综合聚类根据基因突变状况确定了3种具有不同特征的分子亚型。在分子亚型之间观察到显著的单核苷酸变异(SNVs)的不一致变异谱。与S-I相比,S-II的KRAS、TP53和FLT1突变率较高,KMT2C、PIK3CA、ERBB4、ALK、PIKER1、ATM、CTNNB1、TCF7L2、GLI1、PRKDC、NOTCH3、EP300、ACVR2A、CREBBP和SMAD4突变率较低(图3C,表2)。为了更好地了解突变特征是如何在3种分子亚型中进化的,然后分析了六种类型的SNV的分布,包括C>A、C>G、C>T、T>A、T>C和T>G(图3D)。大多数测序样本显示,S-I中的C>T跃迁比S-II中的上升幅度更大,S-II中C>G和T>a跃迁比S-I中更高。对特征活动的分析揭示了突变特征与II期结直肠癌复发之间的可能联系。
本发明使用来自NCC数据集的50个枢纽基因突变数据创建了一个独特的工具来对II期结直肠癌进行分类。TCGA数据库用于验证本发明分类的真实性和有效性。基于50个关键基因,本发明在TCGA中得到了3个分子亚型的类似分类(图4A)。突变模式与NCC数据集相似:与S-II和S-III相比,50个基因中的大多数在S-I中富集。Nuance存在于特征分布模式中。为了排除手术对复发的影响,本发明只保留了完全治疗无肿瘤残留的样本进行分析。在S-I中,有3个复发样本。有趣的是,所有3个复发样本都含有BRAF V600E突变,表明其复发风险有一定的增加(p=0.0619)。没有BRAF V600E突变的S-I亚型和其他两种亚型的复发率存在显著差异(p=0.034)(图4B),这与NCC数据集中的结果一致。在TCGA数据集中,突变特征6主要在S-I中丰富,而突变特征1和突变特征3在S-II和S-III中普遍存在(P<0.05)(图4C)。本发明还计算了CNV、TMB和MSI(图4D-4F),S-I与其他两个亚型有着显著的不同,具有较低的CNV、较高的TMB和MSI-H的比例,这与NCC数据集的结果一致,表明本发明的亚型算法具有很大的可重复性。
4.分子亚型的免疫异质性和免疫浸润
为了比较不同亚型的免疫原性,本发明对TCGA数据集中的抗原呈递、共刺激和共抑制免疫检查点的基因标志物进行了全面的免疫分析。共抑制性免疫检查点提示免疫抑制性TME。S-I表现出抗原呈递标志物HLA-DMA、HLA-DMB、HLA-DPA 1、HLA-DPB 1、检查点抑制剂和其他免疫相关基因的高表达(ANOVA检验,P<0.05)(图5A)。S-II下调CD8T细胞标志物CD8A、细胞溶解标志物PRF 1、IFNG、GZMA、GZMB等免疫相关基因。
为了进一步描绘每个分子亚型的特征,本发明通过分子亚型对基因集富集分析(GSEA)和差异表达基因(DEG)分析进行分层。总体而言,与S-I和S-III相比,S-II中的许多癌症标志和免疫相关信号通路几乎普遍失调(图5B),包括干扰素-α和γ应答、IL 6-JAK-STAT 3信号传导、细胞凋亡、MHC蛋白复合物结合、NK细胞活化相关的免疫应答、T细胞活化相关的免疫应答,自然杀伤细胞介导的免疫、CD 4阳性α-βT细胞活化等。值得注意的是,这些信号通路的富集只能在S-I中观察到,这表明三种分子亚型之间的肿瘤免疫存在显著差异。此外,WNT/Beat-Catenin信号转导和氧化磷酸化仅在S-II中观察到富集,其参与肿瘤复发过程。
II期结直肠癌的TME可以通过提供细胞因子、生长因子和其他物质来促进癌症发展。当比较三种分子亚型之间的免疫评分时,本发明观察到S-I>S-III>S-II的趋势(图6A)(Kruskal-Wallis检验,*p<0.05;**p<0.01;*p<0.001)。应用MCP-计数器测定十种主要免疫细胞、内皮细胞和成纤维细胞的绝对丰度分数(图6B)。
实施例2用于预测II期结直肠癌患者预后的系统的构建
基于前述发现,本发明提供一种II期结直肠癌患者分类方法、基于该分类方法的预后系统。
1.训练和验证队列的特征
本发明将来自NCC和TCGA的数据集整合为训练群组以增加统计功效。根据入选标准,从ICGC网络数据库中检索到共83例II期结直肠癌患者作为验证队列。然后将数据集分为训练组(n=197)和验证组(n=83)。
2.决策树的建立与验证
无监督聚类算法确定的三种分子亚型具有明显的基因组特征和预后意义。然而,聚类方法不适用于单个样本,这可能限制其在个性化医疗的临床应用。因此,本发明通过对来自NCC和TCGA数据集的总共197个样本进行训练,以进行决策模型构建(图7A)。如决策树所示,TMB、PRKDC和KRAS是分类S-I、S-II和S-III亚型的最大分歧变量。S-I是指具有高TMB、PRKDC和FAT 1的高频率突变以及APC和MUC 12的低频率突变的具有最佳预后的患者。然后,使用20倍交叉验证和ROC曲线来确定决策树模型用于分类训练组群中的亚型的准确性,AUC在S-I中为0.99,在S-II中为0.94,在S-III中为0.94(图7B)。
本发明基于验证组群中的50个基因集和决策树进行了无监督聚类(图7C)。类似地,用于验证的决策树显示S-II是具有低TMB和MUC 12的高频率突变的最差预后组。在S-I和S-II之间(P=0.035,Fisher精确检验),以及在S-II和S-III之间(P=0.037,Fisher精确检验),显示了肿瘤复发百分比的显著差异(图7D)。在验证组中,AUC在S-I中为0.86,在S-II中为0.77,在S-III中为0.70(图7E),表明模型在训练组和验证组中均以可接受的准确度进行预测。结果表明,层次聚类结合决策树模型,可以确保分子分类的可移植性,以建立在临床实践中的患者分层的强一致性。
为了研究相同受试者中匹配的原发癌和复发癌之间的联系,本发明对其中一种或两种中发现的体细胞突变进行了分类。本发明在匹配的原发癌和复发癌中进行了WES。系统发生分析鉴定了II期结直肠癌从原发性癌症到复发性癌症的进化模式,并且一种模式是分支进化(图7F)。系统发育分析提示,某些基因可能在肿瘤复发过程中起关键作用。大约三分之一的体细胞突变在匹配的原发性和复发性癌症样品中共享。一些基因突变在肿瘤进展的不同阶段独立积累,如APC、KRAS和MUC 12。
如图7所示,该系统基于肿瘤组织的TMB以及PRKDC、FAT1、APC、TP53、KRAS、MUC12和PIK3CA的突变情况而建立,该系统包括分类模块,分类模块根据PRKDC、FAT1、APC、TP53、KRAS、MUC12和PIK3CA的突变情况和TMB进行II期结直肠癌患者分类,将符合以下任一种情况的患者判定为第一分子亚型(S-I):(i)TMB≥预设阈值且PRKDC突变;(ii)TMB≥预设阈值,PRKDC无突变,APC无突变;(iii)TMB≥预设阈值,PRKDC无突变,APC和FAT1均突变;(iv)TMB<预设阈值,KRAS、TP53、APC和MUC12均无突变;将符合以下任一种情况的患者判定为第二分子亚型(S-II):(v)TMB<预设阈值且KRAS突变;(vi)TMB<预设阈值,KRAS、TP53和APC均无突变,但MUC12突变; (vii)TMB<预设阈值,KRAS和TP53均无突变,但APC和PIK3CA均突变;将符合以下任一种情况的患者判定为第三分子亚型(S-III):(viii)TMB≥预设阈值,PRKDC和FAT1无突变但APC突变;(ix)TMB<预设阈值,KRAS无突变但TP53突变;(x)TMB<预设阈值,KRAS、TP53和PIK3CA均无突变,但APC突变;其中,II期结直肠癌患者的术后复发风险:第一分子亚型<第三分子亚型<第二分子亚型。
在上述技术方案的基础上,可根椐获取数据的情况,在使用场景中进一步简化上述方案,设置一种复发风险预测模块;所述复发风险预测模块通过如下方式对II期结直肠癌患者进行复发风险预测:将存在dMMR且BRAF V600E无突变的患者预测为低复发风险患者;将存在dMMR且BRAF V600E有突变的患者预测为高复发风险患者;将不存在dMMR且KRAS有突变的患者预测为高复发风险患者;将不存在dMMR且KRAS无突变的患者预测为中复发风险患者。
上述分类模块根据本发明提供的一种II期结直肠癌患者分类方法进行II期结直肠癌患者分类,该分类分类方法包括:获取待分类II期结直肠癌患者的肿瘤组织全外显子组测序数据;计算待分类II期结直肠癌患者肿瘤组织的TMB;根据PRKDC、FAT1、APC、TP53、KRAS、MUC12和PIK3CA的突变情况和TMB进行II期结直肠癌患者分类。
根据PRKDC、FAT1、APC、TP53、KRAS、MUC12和PIK3CA的突变情况和TMB进行II期结直肠癌患者分类的方法具体为:
判断TMB是否小于预设阈值;若TMB<预设阈值,根据KRAS的突变情况进行第二次分类;若TMB≥预设阈值,根据PRKDC的突变情况进行第二次分类。
根据KRAS的突变情况进行第二次分类后,若KRAS突变,将患者判定为第二分子亚型;若KRAS无突变,根据TP53的突变情况进行第三次分类;若TP53突变,将患者判定为第三分子亚型;若TP53无突变,根据APC的突变情况进行第四次分类;若APC无突变,根据MUC12的突变情况进行第五次分类;若MUC12无突变,将患者判定为第一分子亚型;若MUC12突变,将患者判定为第二分子亚型;若APC突变,根据PIK3CA的突变情况进行第五次分类;若PIK3CA无突变,将患者判定为第三分子亚型;若PIK3CA突变,将患者判定为第二分子亚型。
根据PRKDC的突变情况进行第二次分类后,若PRKDC突变,将患者判定为第一分子亚型;若PRKDC无突变,根据APC的突变情况进行第三次分类;若APC无突变,将患者判定为第一分子亚型;若APC突变,根据FAT1的突变情况进行第四次分类;若FAT1突变,将患者判定为第一分子亚型;若FAT1无突变,将患者判定为第三分子亚型。
基于以上分类方法,本发明还提供一种存储介质,该存储介质内存储有计算机程序,该计算机程序被处理器执行时实现上述II期结直肠癌患者分类方法。
基于以上分类方法,本发明还提供一种II期结直肠癌患者分类装置,包括:
获取模块,用于获取待分类II期结直肠癌患者的肿瘤组织全外显子组测序数据;
计算模块,用于计算待分类II期结直肠癌患者肿瘤组织的TMB;
分类模块,用于根据PRKDC、FAT1、APC、TP53、KRAS、MUC12和PIK3CA的突变情况和TMB进行II期结直肠癌患者分类。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.用于预测II期结直肠癌患者预后的系统,其特征在于,该系统基于肿瘤组织中PRKDC、FAT1、APC、TP53、KRAS、MUC12和PIK3CA七种基因的突变情况以及TMB而建立。
2.根据权利要求1所述的用于预测II期结直肠癌患者预后的系统,其特征在于:所述系统包括分类模块,所述分类模块将符合以下任一种情况的患者判定为第一分子亚型:
(i)TMB≥预设阈值且PRKDC突变;
(ii)TMB≥预设阈值,PRKDC无突变,APC无突变;
(iii)TMB≥预设阈值,PRKDC无突变,APC和FAT1均突变;
(iv)TMB<预设阈值,KRAS、TP53、APC和MUC12均无突变;
所述分类模块将符合以下任一种情况的患者判定为第二分子亚型:
(v)TMB<预设阈值且KRAS突变;
(vi)TMB<预设阈值,KRAS、TP53和APC均无突变,但MUC12突变;
(vii)TMB<预设阈值,KRAS和TP53均无突变,但APC和PIK3CA均突变;
所述分类模块将符合以下任一种情况的患者判定为第三分子亚型:
(viii)TMB≥预设阈值,PRKDC和FAT1无突变但APC突变;
(ix)TMB<预设阈值,KRAS无突变但TP53突变;
(x)TMB<预设阈值,KRAS、TP53和PIK3CA均无突变,但APC突变。
3.根据权利要求1所述的用于预测II期结直肠癌患者预后的系统,其特征在于:所述系统包括复发风险预测模块;所述复发风险预测模块通过如下方式对II期结直肠癌患者进行复发风险预测:
将存在dMMR且BRAF V600E无突变的患者预测为低复发风险患者;
将存在dMMR且BRAF V600E有突变的患者预测为高复发风险患者;
将不存在dMMR且KRAS有突变的患者预测为高复发风险患者;
将不存在dMMR且KRAS无突变的患者预测为中复发风险患者。
4.权利要求1至3任一所述的用于预测II期结直肠癌患者预后的系统的应用,为(b1)-(b4)中的任一种:
(b1)制备用于II期结直肠癌患者预后风险评估的产品;
(b2)制备用于II期结直肠癌患者预后总生存率的产品;
(b3)制备用于II期结直肠癌患者预后的产品;
(b4)制备用于II期结直肠癌患者治疗方法指导的产品。
5.一种II期结直肠癌患者分类方法,其特征在于,包括:
获取待分类II期结直肠癌患者的肿瘤组织全外显子组测序数据;
计算待分类II期结直肠癌患者肿瘤组织的TMB;
根据PRKDC、FAT1、APC、TP53、KRAS、MUC12和PIK3CA的突变情况和TMB进行II期结直肠癌患者分类。
6.根据权利要求5所述的II期结直肠癌患者分类方法,其特征在于,所述根据PRKDC、FAT1、APC、TP53、KRAS、MUC12和PIK3CA的突变情况和TMB进行II期结直肠癌患者分类包括:
判断TMB是否小于预设阈值;
若TMB<预设阈值,根据KRAS的突变情况进行第二次分类;
若TMB≥预设阈值,根据PRKDC的突变情况进行第二次分类。
7.根据权利要求6所述的II期结直肠癌患者分类方法,其特征在于:
所述若TMB<预设阈值,根据KRAS的突变情况进行第二次分类还包括:
若KRAS无突变,根据TP53的突变情况进行第三次分类;
若TP53无突变,根据APC的突变情况进行第四次分类;
若APC无突变,根据MUC12的突变情况进行第五次分类;
若APC突变,根据PIK3CA的突变情况进行第五次分类。
8.根据权利要求6所述的II期结直肠癌患者分类方法,其特征在于:
所述若TMB≥预设阈值,根据PRKDC的突变情况进行第二次分类包括:
若PRKDC无突变,根据APC的突变情况进行第三次分类;
若APC突变,根据FAT1的突变情况进行第四次分类。
9.一种存储介质,其特征在于,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求5至8任一所述的II期结直肠癌患者分类方法。
10.一种II期结直肠癌患者分类装置,其特征在于,包括:
获取模块,用于获取待分类II期结直肠癌患者的肿瘤组织全外显子组测序数据;
计算模块,用于计算待分类II期结直肠癌患者肿瘤组织的TMB;
分类模块,用于根据PRKDC、FAT1、APC、TP53、KRAS、MUC12和PIK3CA的突变情况和TMB进行II期结直肠癌患者分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311165142.9A CN117051109A (zh) | 2023-09-11 | 2023-09-11 | 一种ii期结直肠癌患者分类方法、介质、装置及预后系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311165142.9A CN117051109A (zh) | 2023-09-11 | 2023-09-11 | 一种ii期结直肠癌患者分类方法、介质、装置及预后系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117051109A true CN117051109A (zh) | 2023-11-14 |
Family
ID=88653625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311165142.9A Pending CN117051109A (zh) | 2023-09-11 | 2023-09-11 | 一种ii期结直肠癌患者分类方法、介质、装置及预后系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117051109A (zh) |
-
2023
- 2023-09-11 CN CN202311165142.9A patent/CN117051109A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lindskrog et al. | An integrated multi-omics analysis identifies prognostic molecular subtypes of non-muscle-invasive bladder cancer | |
Cheng et al. | Comprehensive detection of germline variants by MSK-IMPACT, a clinical diagnostic platform for solid tumor molecular oncology and concurrent cancer predisposition testing | |
Isella et al. | Selective analysis of cancer-cell intrinsic transcriptional traits defines novel clinically relevant subtypes of colorectal cancer | |
US11978535B2 (en) | Methods of detecting somatic and germline variants in impure tumors | |
TWI814753B (zh) | 用於標靶定序之模型 | |
Yang et al. | A molecular classification of papillary renal cell carcinoma | |
TWI636255B (zh) | 癌症檢測之血漿dna突變分析 | |
US8498820B2 (en) | Genomic classification of non-small cell lung carcinoma based on patterns of gene copy number alterations | |
US11581062B2 (en) | Systems and methods for classifying patients with respect to multiple cancer classes | |
CN113228190B (zh) | 分类和/或鉴定癌症亚型的系统和方法 | |
US20220215900A1 (en) | Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics | |
US20130079423A1 (en) | Diagnostic methods involving loss of heterozygosity | |
EP2359277A2 (en) | Genomic classification of colorectal cancer based on patterns of gene copy number alterations | |
US20210358626A1 (en) | Systems and methods for cancer condition determination using autoencoders | |
CN116631508B (zh) | 肿瘤特异性突变状态的检测方法及其应用 | |
WO2018064547A1 (en) | Methods for classifying somatic variations | |
Tsui et al. | Extracting allelic read counts from 250,000 human sequencing runs in Sequence Read Archive | |
Cui et al. | Tracking the evolution of esophageal squamous cell carcinoma under dynamic immune selection by multi-omics sequencing | |
Zhang et al. | Hallmark guided identification and characterization of a novel immune-relevant signature for prognostication of recurrence in stage I–III lung adenocarcinoma | |
CN116206681A (zh) | 一种免疫浸润细胞模型的预后基因对价值评价方法 | |
Zhang et al. | Integrated investigation of the prognostic role of HLA LOH in advanced lung cancer patients with immunotherapy | |
CN117051109A (zh) | 一种ii期结直肠癌患者分类方法、介质、装置及预后系统 | |
Wojtaszewska et al. | Validation of HER2 Status in Whole Genome Sequencing Data of Breast Cancers with the Ploidy-Corrected Copy Number Approach | |
Marzena et al. | Validation of HER2 status in whole genome sequencing data of breast cancers with AI-driven, ploidy-corrected approach | |
DBDS Genetic Consortium | The sequences of 150,119 genomes in the UK Biobank |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |