JP2023531572A - 前立腺癌の分子分類器 - Google Patents
前立腺癌の分子分類器 Download PDFInfo
- Publication number
- JP2023531572A JP2023531572A JP2022523714A JP2022523714A JP2023531572A JP 2023531572 A JP2023531572 A JP 2023531572A JP 2022523714 A JP2022523714 A JP 2022523714A JP 2022523714 A JP2022523714 A JP 2022523714A JP 2023531572 A JP2023531572 A JP 2023531572A
- Authority
- JP
- Japan
- Prior art keywords
- patient
- pronto
- classifier
- prostate cancer
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000000236 Prostatic Neoplasms Diseases 0.000 title claims abstract description 45
- 206010060862 Prostate cancer Diseases 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 64
- 206010061818 Disease progression Diseases 0.000 claims abstract description 14
- 230000005750 disease progression Effects 0.000 claims abstract description 14
- 239000000463 material Substances 0.000 claims abstract description 9
- 210000004881 tumor cell Anatomy 0.000 claims abstract description 8
- 206010028980 Neoplasm Diseases 0.000 claims description 45
- 108020004999 messenger RNA Proteins 0.000 claims description 31
- 230000001575 pathological effect Effects 0.000 claims description 25
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 21
- 230000011987 methylation Effects 0.000 claims description 16
- 238000007069 methylation reaction Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 239000000090 biomarker Substances 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 8
- 230000004075 alteration Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 5
- 238000001356 surgical procedure Methods 0.000 claims description 4
- 238000002512 chemotherapy Methods 0.000 claims description 3
- 238000009261 endocrine therapy Methods 0.000 claims description 3
- 229940034984 endocrine therapy antineoplastic and immunomodulating agent Drugs 0.000 claims description 3
- 238000001415 gene therapy Methods 0.000 claims description 3
- 238000001794 hormone therapy Methods 0.000 claims description 3
- 238000001959 radiotherapy Methods 0.000 claims description 3
- 238000002560 therapeutic procedure Methods 0.000 claims description 3
- 238000000015 thermotherapy Methods 0.000 claims description 3
- 238000002604 ultrasonography Methods 0.000 claims description 3
- 239000000523 sample Substances 0.000 description 48
- 108090000623 proteins and genes Proteins 0.000 description 46
- 238000001574 biopsy Methods 0.000 description 36
- 238000010200 validation analysis Methods 0.000 description 32
- 238000012549 training Methods 0.000 description 27
- 238000012360 testing method Methods 0.000 description 24
- 238000002790 cross-validation Methods 0.000 description 22
- 201000011510 cancer Diseases 0.000 description 18
- 238000003745 diagnosis Methods 0.000 description 14
- 238000007838 multiplex ligation-dependent probe amplification Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 13
- 238000003556 assay Methods 0.000 description 12
- 108020004414 DNA Proteins 0.000 description 11
- 238000013459 approach Methods 0.000 description 11
- 238000005070 sampling Methods 0.000 description 11
- 210000004027 cell Anatomy 0.000 description 9
- 210000001519 tissue Anatomy 0.000 description 9
- 210000002307 prostate Anatomy 0.000 description 8
- 108700039887 Essential Genes Proteins 0.000 description 7
- 238000010606 normalization Methods 0.000 description 7
- 238000011471 prostatectomy Methods 0.000 description 7
- 102000007066 Prostate-Specific Antigen Human genes 0.000 description 6
- 108010072866 Prostate-Specific Antigen Proteins 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000011472 radical prostatectomy Methods 0.000 description 6
- 230000034994 death Effects 0.000 description 5
- 231100000517 death Toxicity 0.000 description 5
- 230000036541 health Effects 0.000 description 5
- 238000005192 partition Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000000638 solvent extraction Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 4
- 230000002601 intratumoral effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000007473 univariate analysis Methods 0.000 description 4
- 102100032187 Androgen receptor Human genes 0.000 description 3
- 230000007067 DNA methylation Effects 0.000 description 3
- 206010027476 Metastases Diseases 0.000 description 3
- 238000013103 analytical ultracentrifugation Methods 0.000 description 3
- 108010080146 androgen receptors Proteins 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007705 epithelial mesenchymal transition Effects 0.000 description 3
- 230000004060 metabolic process Effects 0.000 description 3
- 230000009401 metastasis Effects 0.000 description 3
- 230000007170 pathology Effects 0.000 description 3
- 238000004393 prognosis Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000012502 risk assessment Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000011282 treatment Methods 0.000 description 3
- 102100037263 3-phosphoinositide-dependent protein kinase 1 Human genes 0.000 description 2
- 102000007353 Autophagy-Related Protein 8 Family Human genes 0.000 description 2
- 108010032769 Autophagy-Related Protein 8 Family Proteins 0.000 description 2
- 102100031235 Chromodomain-helicase-DNA-binding protein 1 Human genes 0.000 description 2
- 108010016777 Cyclin-Dependent Kinase Inhibitor p27 Proteins 0.000 description 2
- 102000000577 Cyclin-Dependent Kinase Inhibitor p27 Human genes 0.000 description 2
- 102100032864 General transcription factor IIH subunit 2 Human genes 0.000 description 2
- 102100028092 Homeobox protein Nkx-3.1 Human genes 0.000 description 2
- 101000600756 Homo sapiens 3-phosphoinositide-dependent protein kinase 1 Proteins 0.000 description 2
- 101000777047 Homo sapiens Chromodomain-helicase-DNA-binding protein 1 Proteins 0.000 description 2
- 101000655398 Homo sapiens General transcription factor IIH subunit 2 Proteins 0.000 description 2
- 101000578249 Homo sapiens Homeobox protein Nkx-3.1 Proteins 0.000 description 2
- 101001055092 Homo sapiens Mitogen-activated protein kinase kinase kinase 7 Proteins 0.000 description 2
- 101000693238 Homo sapiens PDZ domain-containing protein 2 Proteins 0.000 description 2
- 101000822234 Homo sapiens RWD domain-containing protein 3 Proteins 0.000 description 2
- 238000000585 Mann–Whitney U test Methods 0.000 description 2
- 102100026888 Mitogen-activated protein kinase kinase kinase 7 Human genes 0.000 description 2
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 2
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 2
- 238000011529 RT qPCR Methods 0.000 description 2
- 102100021509 RWD domain-containing protein 3 Human genes 0.000 description 2
- 102100038042 Retinoblastoma-associated protein Human genes 0.000 description 2
- 108010074436 Sterol Regulatory Element Binding Protein 1 Proteins 0.000 description 2
- 102100026839 Sterol regulatory element-binding protein 1 Human genes 0.000 description 2
- 108700027336 Suppressor of Cytokine Signaling 1 Proteins 0.000 description 2
- 102100024779 Suppressor of cytokine signaling 1 Human genes 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 230000019522 cellular metabolic process Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000011257 definitive treatment Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000000762 glandular Effects 0.000 description 2
- 230000013632 homeostatic process Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- NOESYZHRGYRDHS-UHFFFAOYSA-N insulin Chemical compound N1C(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(NC(=O)CN)C(C)CC)CSSCC(C(NC(CO)C(=O)NC(CC(C)C)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CCC(N)=O)C(=O)NC(CC(C)C)C(=O)NC(CCC(O)=O)C(=O)NC(CC(N)=O)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CSSCC(NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2C=CC(O)=CC=2)NC(=O)C(CC(C)C)NC(=O)C(C)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2NC=NC=2)NC(=O)C(CO)NC(=O)CNC2=O)C(=O)NCC(=O)NC(CCC(O)=O)C(=O)NC(CCCNC(N)=N)C(=O)NCC(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC(O)=CC=3)C(=O)NC(C(C)O)C(=O)N3C(CCC3)C(=O)NC(CCCCN)C(=O)NC(C)C(O)=O)C(=O)NC(CC(N)=O)C(O)=O)=O)NC(=O)C(C(C)CC)NC(=O)C(CO)NC(=O)C(C(C)O)NC(=O)C1CSSCC2NC(=O)C(CC(C)C)NC(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CC(N)=O)NC(=O)C(NC(=O)C(N)CC=1C=CC=CC=1)C(C)C)CC1=CN=CN1 NOESYZHRGYRDHS-UHFFFAOYSA-N 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 206010061289 metastatic neoplasm Diseases 0.000 description 2
- 238000007855 methylation-specific PCR Methods 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 230000037361 pathway Effects 0.000 description 2
- 239000013610 patient sample Substances 0.000 description 2
- 238000010837 poor prognosis Methods 0.000 description 2
- 201000001514 prostate carcinoma Diseases 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000008672 reprogramming Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 101150016096 17 gene Proteins 0.000 description 1
- 201000009030 Carcinoma Diseases 0.000 description 1
- 102100025064 Cellular tumor antigen p53 Human genes 0.000 description 1
- 108091029523 CpG island Proteins 0.000 description 1
- 108010009540 DNA (Cytosine-5-)-Methyltransferase 1 Proteins 0.000 description 1
- 102100036279 DNA (cytosine-5)-methyltransferase 1 Human genes 0.000 description 1
- 230000026641 DNA hypermethylation Effects 0.000 description 1
- 102100032450 Endothelial differentiation-related factor 1 Human genes 0.000 description 1
- 238000000729 Fisher's exact test Methods 0.000 description 1
- 208000031448 Genomic Instability Diseases 0.000 description 1
- 102100039996 Histone deacetylase 1 Human genes 0.000 description 1
- 102100038970 Histone-lysine N-methyltransferase EZH2 Human genes 0.000 description 1
- 101001016384 Homo sapiens Endothelial differentiation-related factor 1 Proteins 0.000 description 1
- 101001035024 Homo sapiens Histone deacetylase 1 Proteins 0.000 description 1
- 101000882127 Homo sapiens Histone-lysine N-methyltransferase EZH2 Proteins 0.000 description 1
- 101000993380 Homo sapiens Hypermethylated in cancer 1 protein Proteins 0.000 description 1
- 101001078133 Homo sapiens Integrin alpha-2 Proteins 0.000 description 1
- 101001046677 Homo sapiens Integrin alpha-V Proteins 0.000 description 1
- 101001059429 Homo sapiens MAP/microtubule affinity-regulating kinase 3 Proteins 0.000 description 1
- 101001030211 Homo sapiens Myc proto-oncogene protein Proteins 0.000 description 1
- 101000781981 Homo sapiens Protein Wnt-11 Proteins 0.000 description 1
- 101000742859 Homo sapiens Retinoblastoma-associated protein Proteins 0.000 description 1
- 101000997835 Homo sapiens Tyrosine-protein kinase JAK1 Proteins 0.000 description 1
- 101000934996 Homo sapiens Tyrosine-protein kinase JAK3 Proteins 0.000 description 1
- 101001054878 Homo sapiens Tyrosine-protein kinase Lyn Proteins 0.000 description 1
- 101000851018 Homo sapiens Vascular endothelial growth factor receptor 1 Proteins 0.000 description 1
- 101000804798 Homo sapiens Werner syndrome ATP-dependent helicase Proteins 0.000 description 1
- 102100031612 Hypermethylated in cancer 1 protein Human genes 0.000 description 1
- 102100023915 Insulin Human genes 0.000 description 1
- 108090001061 Insulin Proteins 0.000 description 1
- 102100025305 Integrin alpha-2 Human genes 0.000 description 1
- 102100022337 Integrin alpha-V Human genes 0.000 description 1
- 102100028920 MAP/microtubule affinity-regulating kinase 3 Human genes 0.000 description 1
- 102100038895 Myc proto-oncogene protein Human genes 0.000 description 1
- 102100025646 PDZ domain-containing protein 2 Human genes 0.000 description 1
- 102100023204 Potassium channel subfamily K member 2 Human genes 0.000 description 1
- 102100036567 Protein Wnt-11 Human genes 0.000 description 1
- 102000001332 SRC Human genes 0.000 description 1
- 108060006706 SRC Proteins 0.000 description 1
- 108010017324 STAT3 Transcription Factor Proteins 0.000 description 1
- 101150058731 STAT5A gene Proteins 0.000 description 1
- 238000011869 Shapiro-Wilk test Methods 0.000 description 1
- 102100037082 Signal recognition particle 14 kDa protein Human genes 0.000 description 1
- 101710089523 Signal recognition particle 14 kDa protein Proteins 0.000 description 1
- 102100024040 Signal transducer and activator of transcription 3 Human genes 0.000 description 1
- 102100024481 Signal transducer and activator of transcription 5A Human genes 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 1
- 102100033438 Tyrosine-protein kinase JAK1 Human genes 0.000 description 1
- 102100025387 Tyrosine-protein kinase JAK3 Human genes 0.000 description 1
- 102100026857 Tyrosine-protein kinase Lyn Human genes 0.000 description 1
- 102000005918 Ubiquitin Thiolesterase Human genes 0.000 description 1
- 108010005656 Ubiquitin Thiolesterase Proteins 0.000 description 1
- 102100033178 Vascular endothelial growth factor receptor 1 Human genes 0.000 description 1
- 102100035336 Werner syndrome ATP-dependent helicase Human genes 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 210000000692 cap cell Anatomy 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000006369 cell cycle progression Effects 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000000104 diagnostic biomarker Substances 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000008482 dysregulation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000029578 entry into host Effects 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 230000004049 epigenetic modification Effects 0.000 description 1
- 230000006718 epigenetic regulation Effects 0.000 description 1
- 210000002919 epithelial cell Anatomy 0.000 description 1
- 230000009786 epithelial differentiation Effects 0.000 description 1
- 230000008472 epithelial growth Effects 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 210000002950 fibroblast Anatomy 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000012224 gene deletion Methods 0.000 description 1
- 230000037442 genomic alteration Effects 0.000 description 1
- 210000004907 gland Anatomy 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 239000003102 growth factor Substances 0.000 description 1
- 230000014200 hypermethylation of CpG island Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000000126 in silico method Methods 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 229940125396 insulin Drugs 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008611 intercellular interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000001394 metastastic effect Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000000394 mitotic effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000002969 morbid Effects 0.000 description 1
- 108700024542 myc Genes Proteins 0.000 description 1
- 238000011328 necessary treatment Methods 0.000 description 1
- 238000013188 needle biopsy Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 108700025694 p53 Genes Proteins 0.000 description 1
- 238000003752 polymerase chain reaction Methods 0.000 description 1
- 239000013641 positive control Substances 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 108010083945 potassium channel protein TREK-1 Proteins 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 210000005084 renal tissue Anatomy 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 239000003270 steroid hormone Substances 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 238000011477 surgical intervention Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000009424 underpinning Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
Landscapes
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Medical Informatics (AREA)
- Analytical Chemistry (AREA)
- Public Health (AREA)
- Zoology (AREA)
- Immunology (AREA)
- Wood Science & Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Microbiology (AREA)
- General Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Oncology (AREA)
- Hospice & Palliative Care (AREA)
- Biochemistry (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Treatment Of Liquids With Adsorbents In General (AREA)
- Medicines Containing Plant Substances (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本明細書には、前立腺癌を有する対象における疾患進行リスクを予測する方法が記載されており、この方法は、a)腫瘍細胞由来のRNAおよびDNA材料を含有するサンプルを提供するステップと、b)表6にPRONTO-eまたはPRONTO-mについて列挙される患者特徴の実質的に全ておよび表6に記載される参照または対照特徴の一部または全部の値を決定または測定するステップと、c)前記患者特徴を参照または対照特徴と比較するステップと、d)前記患者特徴値を入力データとして採用する分類器を使用して予測スコアを計算するステップとを含み、分類器は、早期前立腺癌患者の集団からのサンプルについて以前に訓練されている。【選択図】図4
Description
〔関連出願〕
本出願は、2020年6月18日に出願された米国仮出願第63/040,692号の優先権を主張し、その内容は参照によりその全体が組み込まれるものとする。
本出願は、2020年6月18日に出願された米国仮出願第63/040,692号の優先権を主張し、その内容は参照によりその全体が組み込まれるものとする。
本発明は、分子分類器(molecular classifiers)に関し、より詳細には、前立腺癌の分類器に関する。
前立腺癌(CaP)は癌死の主要な原因であるが、生検で確認された症例の大半は根治的治療を行わずに安全に経過観察することができるほど無痛性である[1,2]。進行性前立腺癌の最も強力なバイオマーカは、外科的に切除された前立腺の包括的な病理学的検査により決定されるグリソングレードである。グリソングレードが低い癌は、グリソングレード3+3=6またはWHOグレードグループ(GG)1[3]と定義され、転移や死亡のリスクは無視できるほど小さい[4,5]。悪性度の高い癌(WHO GG2~GG5)には根治的治療が必要である。悪性度分類スキームが核形態および有糸分裂数を優先するほとんどの癌種とは異なり、前立腺癌に対するGGは腺の構造のみに焦点を当てている。良性前立腺およびGG1前立腺癌細胞によって形成される腺はいずれも、単一の管腔を取り囲む1層の管腔上皮細胞を特徴とする。全ての癌細胞は、類似した環境を占め、頂端面では内腔と直接接触し、その基底部では間質となり、残りの4辺で他の癌細胞と接触する。この配置は、周囲の血管からの酸素および栄養を同様に取り入れるのに適している。対照的に、高悪性度癌(GG2~GG5)は、複数の管腔を有する融合腺様構造を形成するか、または管腔を全く形成しない。これは、細胞-細胞相互作用、分化、および代謝に関してはるかに大きな可塑性を反映している。これらの異なる配置で増殖する能力は、前立腺の外への転移性沈着物として増殖する能力に対応する。このように、癌の代謝、上皮の可塑性、上皮-間質相互作用は前立腺癌の進行における重要なテーマである[6-9]。GGに関連する腺構造の分子的裏付けは、進行性前立腺癌の診断バイオマーカ開発のための方向性を提供するものである。
米国、カナダ、ヨーロッパではアクティブサーベイランス(AS)がGG1癌の標準治療となっている[10~13]。前立腺特異抗原(PSA)値と一連のコア生検で患者をモニタリングし、補助的に画像診断を受けることもある[10]。前立腺摘除術に基づくGGは非常に有益であるが、現在の方法では針生検に基づいてGG1とGG2を正確に分離することができず、大きなジレンマが提示されている。コア生検におけるサンプリングエラーおよび観察者間のばらつきのため、生検の悪性度分類が不正確に外科的GGを反映している症例は36~67%である[14~17]。これらの不正確さの結果、男性たちが誤ったリスクカテゴリーに分類されることになる。ASに適格な患者は積極的な外科的介入(根治的前立腺全摘除術)を受け、進行性の高悪性度癌を有する真のリスクに関する不確実性のために、過度の病的状態に陥ることがある。逆に、治癒不能な転移病変の広がりを防ぐために必要な治療を間に合わせることができない患者もいる。
生検時のGGの不正確な報告は、CaPのコア生検サンプリングに基づくリスク層別化を改善するための分子的アプローチの動機付けとなっている[18]。しかし、生検GGの既存の分子分類法では、GG1とGG2を正確に区別することができない[19,20]。
一態様では、前立腺癌を有する対象における疾患進行リスクを予測する方法であって、a)腫瘍細胞由来のRNAおよびDNA材料を含有するサンプル(試料)を提供するステップと、b)表6のPRONTO-eについて列挙されるmRNAおよびコピー数異常(CNA)特徴を含む353個の患者特徴の実質的に全て、並びに表6に記載される参照または対照特徴(reference or control features)の一部または全部の値を決定または測定するステップと、c)前記患者特徴を参照または対照特徴と比較するステップと、d)前記患者特徴値を入力データ(input)として採用する分類器を使用して予測スコアを計算するステップであって、分類器が早期前立腺癌患者の集団からのサンプルについて事前に訓練(trained)されているステップとを含む方法が提供される。
一態様では、前立腺癌を有する対象における疾患進行リスクを予測する方法であって、a)腫瘍細胞由来のRNAおよびDNA材料を含有するサンプルを提供するステップと、b)表6のPRONTO-mについて列挙されるmRNA、CNA、メチル化および臨床的特徴、並びに表6に示されたいくつかの又は全ての参照又は対照特徴を含む94の患者特徴の実質的に全てを決定または測定するステップと、c)前記患者特徴を参照または対照特徴と比較するステップ、およびd)前記患者特徴値を入力データとして採用する分類器を使用して予測スコアを計算するステップであって、分類器が早期前立腺癌患者の集団由来のサンプルについて事前に訓練されているステップとを含む方法が提供される。
一態様では、前立腺癌患者における疾患進行リスクを予測するコンピュータ実装方法が提供され、この方法は、a)少なくとも1つのプロセッサにおいて、前立腺癌腫瘍に関するPRONTO-eまたはPRONTO-m分類器に対応する請求項1または7に定義される患者特徴の実質的に全てを反映するデータと、表6に記載される参照または対照特徴の一部または全部を受信するステップと、b)少なくとも1つのプロセッサにおいて、患者特徴に基づいて患者プロファイルを構築するステップと、c)少なくとも1つのプロセッサにおいて、前記患者プロファイルを参照または対照と比較するステップと、d)少なくとも1つのプロセッサにおいて、前記患者プロファイルを入力データとして採用する分類器を使用して予測スコアを計算するステップであって、分類器は、早期前立腺癌患者の集団からのサンプルについて事前に訓練されているステップを含む。
一態様において、プロセッサおよび、プロセッサに接続されたメモリとを有する汎用コンピュータと共に使用するためのコンピュータプログラム製品が提供され、コンピュータプログラム製品は、エンコードされたコンピュータメカニズムを有するコンピュータ読み取り可能な記憶媒体を備え、コンピュータプログラムメカニズムは、コンピュータのメモリにロードされてもよく、コンピュータに請求項13~15のいずれか1項に記載の方法を実行させることができる。
一態様では、請求項16に記載のコンピュータプログラム製品を記憶するためのデータ構造を記憶したコンピュータ読み取り可能な記憶媒体が提供される。
一態様では、前立腺癌患者における疾患進行リスクを予測するためのデバイスが提供され、デバイスは、少なくとも1つのプロセッサおよび、少なくとも1つのプロセッサと通信する電子メモリを備え、電子メモリがプロセッサ実行可能コードを記憶し、少なくとも1つのプロセッサを実行する際に、少なくとも1つのプロセッサに以下を行わせる。a)前立腺癌腫瘍に関するPRONTO-eまたはPRONTO-m分類器に対応する、請求項1または7に定義される患者特徴の実質的に全て、および表6に記載される参照または対照特徴の一部または全部を反映するデータを受信し、b)前記患者特徴を参照または対照特徴と比較させ、c)前記患者プロファイルを入力データとして採用する分類器を使用して、少なくとも1つのプロセッサで予測スコアを計算し、分類器は、早期前立腺癌患者の集団からのサンプルについて事前に訓練されていることを特徴とする。
本発明の好ましい実施形態のこれらおよび他の特徴は、添付の図面を参照する以下の詳細な説明でより明らかになるであろう。
図1.アプローチの概要
(A)症例をトレーニング(訓練)コホートとバリデーション(検証)コホートに分けた。各切除腫瘍から高悪性度および低悪性度両方のサンプルを抽出した(すなわち、各症例について)。(B)GGに関連する431遺伝子/遺伝子座をプロファイリングした。(C)機械学習パイプラインを用いてGG分類器を開発した。第1に、1又は1以上のデータ型を選択した。第2に、関連データを、5区分のクロスバリデーション(five-fold cross-validation)のために分割した。第3に(任意)、GGと有意な単変量相関のない特徴を廃棄した。第4に、機械学習アルゴリズムを選択した後、分類器を4つのパーティションで訓練し、第5のパーティションでテストした。
(A)症例をトレーニング(訓練)コホートとバリデーション(検証)コホートに分けた。各切除腫瘍から高悪性度および低悪性度両方のサンプルを抽出した(すなわち、各症例について)。(B)GGに関連する431遺伝子/遺伝子座をプロファイリングした。(C)機械学習パイプラインを用いてGG分類器を開発した。第1に、1又は1以上のデータ型を選択した。第2に、関連データを、5区分のクロスバリデーション(five-fold cross-validation)のために分割した。第3に(任意)、GGと有意な単変量相関のない特徴を廃棄した。第4に、機械学習アルゴリズムを選択した後、分類器を4つのパーティションで訓練し、第5のパーティションでテストした。
図2.反復クロスバリデーションからのトップ25分類器の性能。
各列は分類器を表す。上のパネルは、分類器によって使用されるデータセット、それを訓練するために使用される機械学習アルゴリズム、サンプル重み付け(すなわち、エンベロープ)スキーム、および使用される訓練サンプルの種類を示す(方法を参照のこと)。AUCパネルにおいて、各ボックスは、クロスバリデーションの1000回の反復からの平均AUCを要約する。
各列は分類器を表す。上のパネルは、分類器によって使用されるデータセット、それを訓練するために使用される機械学習アルゴリズム、サンプル重み付け(すなわち、エンベロープ)スキーム、および使用される訓練サンプルの種類を示す(方法を参照のこと)。AUCパネルにおいて、各ボックスは、クロスバリデーションの1000回の反復からの平均AUCを要約する。
平均統計量は、xmean=(xlow+xhigh)/2として計算された。ここで、xlowとxhighは、それぞれローグレードまたはハイグレードのサンプルのみから計算された統計量である。分類器は、AUCが減少する順に並べた。略語:AUC-曲線下面積、BCR-生化学的再発、CAPRA-前立腺癌リスク評価(Cancer of the Prostaste Risk Assessment)、CN_MLPA-コピー数、MLPAプラットフォーム、CN_NS-コピー数、NanoStringプラットフォーム;GG-グリーソングレード、MSP-メチル化特異的PCR。
図3.マルチモーダル分類器PRONTO-eおよびPRONTO-mの性能。
(A-C)マルチモーダル分類器、すなわち、異なるタイプのデータを使用する分類器は、クロスバリデーション(交差検証)においてシングルモード分類器より性能が優れている。各分類器のTP率(A)、FP率(B)およびAUC(C)を、1000回繰り返したクロスバリデーションから計算した(ボックスは繰り返しを要約する)。各繰り返しにおいて、各統計量は、各症例の高悪性度サンプルのみまたは低悪性度サンプルのみを使用して計算された。高悪性度統計量と低悪性度統計量の平均は、「平均」セクションに示されている。所与の分類器によって使用される入力データの種類は、(C)のキーに示され、CAPRAは臨床データのみを使用する。マルチモーダル分類器は、クロスバリデーションによるトップパフォーマンス分類器である。(D)マルチモーダル分類器の検証性能。バリデーションコホートにおける各症例について、1つのサンプルを無作為に選択し、統計量を代表的なサンプルを用いて計算した。このプロセスを1000回繰り返し、各点は、繰り返しにわたる中央値(すなわち、サンプリングベースのAUC)を示し、下側および上側のエラーバーは、それぞれ、第1および第3の四分位を示す。(A-C)CNAは、PRONTO-eおよびPRONTO-mがMLPAからのCNAデータのみを使用するので、MLPAからのCNAデータを指す。(E)同じバリデーション症例からの低悪性度および高悪性度サンプルの予測クラス間の一致度。(F)一致した場合のうち、正しく予測できた割合。
(A-C)マルチモーダル分類器、すなわち、異なるタイプのデータを使用する分類器は、クロスバリデーション(交差検証)においてシングルモード分類器より性能が優れている。各分類器のTP率(A)、FP率(B)およびAUC(C)を、1000回繰り返したクロスバリデーションから計算した(ボックスは繰り返しを要約する)。各繰り返しにおいて、各統計量は、各症例の高悪性度サンプルのみまたは低悪性度サンプルのみを使用して計算された。高悪性度統計量と低悪性度統計量の平均は、「平均」セクションに示されている。所与の分類器によって使用される入力データの種類は、(C)のキーに示され、CAPRAは臨床データのみを使用する。マルチモーダル分類器は、クロスバリデーションによるトップパフォーマンス分類器である。(D)マルチモーダル分類器の検証性能。バリデーションコホートにおける各症例について、1つのサンプルを無作為に選択し、統計量を代表的なサンプルを用いて計算した。このプロセスを1000回繰り返し、各点は、繰り返しにわたる中央値(すなわち、サンプリングベースのAUC)を示し、下側および上側のエラーバーは、それぞれ、第1および第3の四分位を示す。(A-C)CNAは、PRONTO-eおよびPRONTO-mがMLPAからのCNAデータのみを使用するので、MLPAからのCNAデータを指す。(E)同じバリデーション症例からの低悪性度および高悪性度サンプルの予測クラス間の一致度。(F)一致した場合のうち、正しく予測できた割合。
各パーセンテージを計算するために使用されたバリデーション症例の総数を棒グラフの上に示す。PRONTO-eとPRONTO-mでは、分類器のデータ要件がサンプルごとに異なるため、数値が異なることに注意する。
図4.GGと有意な単変量関連を有する分子的特徴(q値<0.1)
各有意な分子的特徴について、左側のプロットは、
各有意な分子的特徴について、左側のプロットは、
この差は、各コホートについて、1症例につき1つの代表サンプルを無作為に1000回抽出し、点が中央値を、交線の両端が第1四分位と第3四分位を示したものである。
右側のプロットは、トレーニングコホートq値とバリデーションコホートq値との組み合わせから得られるq値(すなわち、調整されたp)を示し、特徴とGGとの間の単変量関連の有意性を表す(方法を参照のこと)。mRNA特徴分析ではトレーニング332例、バリデーション200例、メチル化特徴分析ではトレーニング318例、バリデーション202例を用いた。標的遺伝子については、上皮または間質コンパートメントにおける優先的な発現が示されている[54]。
右側のプロットは、トレーニングコホートq値とバリデーションコホートq値との組み合わせから得られるq値(すなわち、調整されたp)を示し、特徴とGGとの間の単変量関連の有意性を表す(方法を参照のこと)。mRNA特徴分析ではトレーニング332例、バリデーション200例、メチル化特徴分析ではトレーニング318例、バリデーション202例を用いた。標的遺伝子については、上皮または間質コンパートメントにおける優先的な発現が示されている[54]。
図5.方法を移植するためのコンピュータ装置
本明細書に記載する1または1以上の実施形態を可能にするためのプラットフォームを提供するための、適切に構成されたコンピュータ装置、および関連する通信網、装置、ソフトウェアおよびファームウェア。
本明細書に記載する1または1以上の実施形態を可能にするためのプラットフォームを提供するための、適切に構成されたコンピュータ装置、および関連する通信網、装置、ソフトウェアおよびファームウェア。
図6.GG分類器設計の概要
GG分類器は、患者プロファイルを入力として取得し、プロファイルは、潜在的に、異なるデータタイプの特徴(臨床的特徴を含む、図示せず)を含む。
GG分類器は、患者プロファイルを入力として取得し、プロファイルは、潜在的に、異なるデータタイプの特徴(臨床的特徴を含む、図示せず)を含む。
いくつかの可能な機械学習アルゴリズム(方法を参照)のうちの1つでトレーニングされる。すなわち、最終的な分類器出力はイエスまたはノーである。
図7.異なる操作点(operating points)におけるPRONTO-eとPRONTO-m
(A)各症例の低悪性度のみまたは高悪性度のみのサンプルについてのPRONTO-eおよびPRONTO-m分類器のバリデーションROC曲線。予測スコアは、分類器の数値出力であり、操作点をxとすると、スコア>=xは、病理学的GG>=2を予測し、一方、スコア<xは、病理学的GG1を予測する。曲線は、異なる操作点における真陽性率および偽陽性率を示す。
(B)PRONTO-eおよびPRONTO-m分類器の予測スコア分布。ボックスは、トレーニングコホートの全サンプルに適用された分類器からのスコア分布を示し、それらのソースケースのGGで分ける。予想されるように、どちらの分類器でも、GGの高い症例からのサンプルほどスコアが高くなる傾向がある。赤い線は、選択された操作点0.5を示す。
(A)各症例の低悪性度のみまたは高悪性度のみのサンプルについてのPRONTO-eおよびPRONTO-m分類器のバリデーションROC曲線。予測スコアは、分類器の数値出力であり、操作点をxとすると、スコア>=xは、病理学的GG>=2を予測し、一方、スコア<xは、病理学的GG1を予測する。曲線は、異なる操作点における真陽性率および偽陽性率を示す。
(B)PRONTO-eおよびPRONTO-m分類器の予測スコア分布。ボックスは、トレーニングコホートの全サンプルに適用された分類器からのスコア分布を示し、それらのソースケースのGGで分ける。予想されるように、どちらの分類器でも、GGの高い症例からのサンプルほどスコアが高くなる傾向がある。赤い線は、選択された操作点0.5を示す。
図8.同じ症例から採取した低悪性度サンプルと高悪性度サンプルの分子プロファイル間の類似度。
PRONTO-eおよびPRONTO-mはMLPAからのCNAデータのみを使用するため、CNAはMLPAからのCNAデータを指す。
略語:メチル-メチル化。
PRONTO-eおよびPRONTO-mはMLPAからのCNAデータのみを使用するため、CNAはMLPAからのCNAデータを指す。
略語:メチル-メチル化。
図9.PRONTO-eの臨床的影響のポテンシャル
アクティブサーベイランスが推奨される患者1000例の診断用生検に適用された場合のPRONTO-e分類器の仮想的性能。1000人のアクティブサーベイランス患者およびPRONTO-eの予測性能を想定し、図は真陽性および偽陽性、真陰性および偽陰性の仮定数、およびこれらの患者サブセットが検査結果によってどのように影響されるかを示している。検査結果が陽性であれば、診断から3ヵ月または6ヵ月後に早期の生検を実施するきっかけとなり、その結果、悪性度が上がり、その後の治療が実施される可能性がある。検査結果が陰性であれば、その代わりに診断から12ヵ月後に生検が実施されることになる。
アクティブサーベイランスが推奨される患者1000例の診断用生検に適用された場合のPRONTO-e分類器の仮想的性能。1000人のアクティブサーベイランス患者およびPRONTO-eの予測性能を想定し、図は真陽性および偽陽性、真陰性および偽陰性の仮定数、およびこれらの患者サブセットが検査結果によってどのように影響されるかを示している。検査結果が陽性であれば、診断から3ヵ月または6ヵ月後に早期の生検を実施するきっかけとなり、その結果、悪性度が上がり、その後の治療が実施される可能性がある。検査結果が陰性であれば、その代わりに診断から12ヵ月後に生検が実施されることになる。
以下の説明では、本発明を十分に理解するために、多くの具体的な詳細が記載される。しかしながら、本発明は、これらの具体的な詳細なしに実施され得ることが理解される。
癌悪性度は早期前立腺癌(CaP)における疾患進行の最も強力な予測因子である。腫瘍内の不均一性および観察者間のばらつきは、診断用生検における精度を制限し、臨床的有用性を低下させる。ゴールドスタンダードとして前立腺切除術の病理学的検査を用いて、前立腺癌の悪性度を示す強固な客観的バイオマーカを開発し、検証した。
根治的前立腺摘除術を低リスクおよび中リスクCaP患者から収集し、トレーニングコホート(n=333)またはバリデーションコホート(n=202)のいずれかに割り付けた。腫瘍内の不均一性を統合するために、各症例を2箇所で別々にサンプリングした。本発明者らは、100コピー数異常(CNA)および14DNAハイパーメチル化遺伝子座により補完された、CaP代謝、ストロマシグナル伝達、および上皮可塑性にエンリッチ(enriched)された342のmRNAをプロファイリングした。12の異なる機械学習アルゴリズムに臨床的、病理学的および分子的変数を当てはめ、病理学的グレードグループの41,000以上の候補分類器(1対≧2)を、トレーニングデータで生成した。本発明者らは、より高い真陽性(TP)率および受信者操作曲線下面積(AUC)を有する分類器を優先順位付けすることによる検証のために、2つの分類器、PRONTO-eおよびPRONTO-mを選択した。
PRONTO-e分類器は353のmRNAおよびCNAの特徴を含み、一方、PRONTO-m分類器は94のmRNA、CNA、メチル化および臨床的特徴を含む。分類器(PRONTO-e、PRONTO-m)は、独立して検証され、それぞれ真陽性率は0.802と0.810、偽陽性率は0.403と0.398、AUCは0.799と0.786であった。
2つの多重遺伝子分類器が開発され、別々のコホートで検証され、それぞれ異なる種類のゲノムデータを統合することにより優れた性能を達成した。分類器の採用は、患者の罹患率を増加させることなく、現行のアクティブサーベイランスアプローチを改善することができた。
一態様では、前立腺癌を有する対象における疾患進行リスクを予測する方法が提供され、方法は、a)腫瘍細胞由来のRNAおよびDNA材料を含有するサンプルを提供するステップと、b)表6にPRONTO-eについて列挙されるmRNAおよびコピー数異常(CNA)特徴を含む353個の患者特徴の実質的に全てについての値および表6に記載される参照または対照特徴の一部または全部を決定または測定するステップと、c)前記患者特徴を参照または対照特徴と比較するステップおよびd)前記患者特徴値を入力データとして採用する分類器を使用して予測スコアを計算するステップであって、分類器が初期前立腺癌患者の集団からのサンプルについて事前に訓練されているステップとを含む。
いくつかの実施形態では、353の患者特徴の実質的全ては、353の患者特徴の全てである。
本明細書中で使用される場合、用語「コントロール(対照)」は、予後判定または分類に使用できる特定の値またはデータセットを指す。
例えば、mRNAを含む患者特徴、コピー数異常(CNA)特徴、または転帰クラスに関連する試験サンプルから得られる臨床特徴などが挙げられる。当業者であれば、試験サンプルとコントロールとの間の比較が、使用されるコントロールに依存することを理解するであろう。
例えば、mRNAを含む患者特徴、コピー数異常(CNA)特徴、または転帰クラスに関連する試験サンプルから得られる臨床特徴などが挙げられる。当業者であれば、試験サンプルとコントロールとの間の比較が、使用されるコントロールに依存することを理解するであろう。
癌に関して本明細書で使用される「低リスク」または「低尤度(low likelihood)」という用語は、一般集団または対照集団と比較して、癌のリスクが統計的に有意に低いことを指す。対応して、癌に関して本明細書で使用される「高リスク」または「高尤度(high likelihood)」は、一般集団または対照集団と比較して、癌のリスクが統計的に有意に高いことを指す。
「サンプル」という用語は、本明細書中で使用される場合、本明細書中で参照されるDNAまたはRNA材料についてアッセイされ得る被験者からの任意の体液(fluid)、細胞または組織試料を指す。
一態様では、前立腺癌を有する対象における疾患進行リスクを予測する方法が提供され、方法は、a)腫瘍細胞由来のRNAおよびDNA材料を含有するサンプルを提供するステップと、b)表6にPRONTO-mについて列挙されるmRNA、CNA、メチル化および臨床的特徴を含む94の患者特徴の実質的にすべて、並びにの表6に記載される参照または対照特徴の一部または全部を決定または測定するステップと、c)前記患者特徴を参照または対照特徴と比較するステップと、d)前記患者特徴値を入力データとして採用する分類器を使用して予測スコアを計算するステップであって、前記分類器が初期前立腺癌患者の集団由来のサンプルについて事前に訓練されているステップとを含む。
いくつかの実施形態では、94個の患者バイオマーカの実質的に全ては、94個の患者バイオマーカ全てである。
いくつかの実施形態では、予測スコアを決定することは、患者の腫瘍を病理学的グリーソングレードグループ(GG)クラスに分類することを含む。
いくつかの実施形態において、患者の腫瘍は、
スコアが<0.5である場合には病理学的GG1クラスに分類される。
いくつかの実施形態では、患者が病理学的GG1クラスに分類される場合、アクティブサーベイランスで患者を管理することをさらに含む。
さらに外科手術、内分泌療法、化学療法、放射線療法、ホルモン療法、遺伝子療法、熱療法、または超音波療法で患者を治療することを含む。
本システムおよび方法は、様々な実施形態で実施することができる。好適に構成されたコンピュータ装置、および関連する通信網、装置、ソフトウェアおよびファームウェアは、上述の1又は1以上の実施形態を可能にするためのプラットフォームを提供することができる。一例として、図5は、記憶部104およびランダムアクセスメモリ106に接続された中央処理ユニット(「CPU」)102を含むことができる汎用コンピュータ装置100を示す。CPU102は、オペレーティングシステム101、アプリケーションプログラム103、およびデータ123を処理することができる。オペレーティングシステム101、アプリケーションプログラム103、およびデータ123は、記憶部104に記憶され、必要に応じてメモリ106にロードされてもよい。コンピュータ装置100は、CPU102から集中的な画像処理計算をオフロードし、これらの計算をCPU102と並行して実行するために、CPU102およびメモリ106に動作的に接続されるグラフィックスプロセッシングユニット(GPU)122をさらに含んでもよい。オペレータ107は、ビデオインターフェース105によって接続されたビデオディスプレイ108と、I/Oインターフェース109によって接続されたキーボード115、マウス112、ディスクドライブまたはソリッドステートドライブ114などの様々な入出力装置を使用して、コンピュータ装置100と対話することができる。既知の態様では、マウス112は、ビデオディスプレイ108内のカーソルの動きを制御し、ビデオディスプレイ108内に現れる様々なグラフィカル・ユーザ・インタフェース(GUI)制御をマウスボタンで操作するように構成することができる。ディスクドライブまたはソリッドステートドライブ114は、コンピュータ可読媒体116を受け入れるように構成してもよい。コンピュータ装置100は、ネットワークインターフェース111を介してネットワークの一部を形成してもよく、これにより、コンピュータ装置100は、他の好適に構成されたデータ処理システム(図示せず)と通信することができる。1つまたは複数の異なるタイプのセンサ135を使用して、様々なソースからの入力を受信することができる。
本システムおよび方法は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータまたはワイヤレスハンドヘルドを含む事実上あらゆる態様のコンピュータ装置上で実施することができる。本システムおよび方法は、1つまたは複数のコンピュータ装置が、本発明による方法における様々なプロセスステップのそれぞれを実施することを可能にするコンピュータプログラムコードを含むコンピュータ可読/使用可能媒体として実装することもできる。動作全体を実行するコンピュータ装置が複数ある場合、コンピュータ装置は、動作の様々なステップを分散するようにネットワーク化される。コンピュータ可読媒体またはコンピュータ使用可能媒体という用語は、プログラムコードの任意のタイプの物理的実施形態のうちの1つまたは複数を含むことを理解されたい。特に、コンピュータ可読/使用可能媒体は、コンピュータ及び/又はストレージシステムに関連するメモリなど、計算装置の1つまたは複数のデータ記憶部分上の、1つまたは複数のポータブルストレージ製品(例えば、光ディスク、磁気ディスク、テープなど)上で実施されるプログラムコードを備えることができる。
一態様では、前立腺癌患者における疾患進行リスクを予測するコンピュータ実装方法が提供され、この方法は、a)少なくとも1つのプロセッサで、前立腺癌腫瘍に関するPRONTO-eまたはPRONTO-m分類器に対応する請求項1または7に定義される患者特徴の実質的に全てを反映するデータおよび、表6に記載される参照または対照特徴の一部または全部を受信するステップと、b)少なくとも1つのプロセッサで、患者特徴に基づいて患者プロファイルを構築するステップと、c)少なくとも1つのプロセッサで、前記患者プロファイルを参照または対照と比較するステップと、d)少なくとも1つのプロセッサで、前記患者プロファイルを入力データとして採用する分類器を使用して予測スコアを計算するステップであって、分類器は、早期前立腺癌患者の集団からのサンプルについて事前に訓練されているステップを含む。
一態様において、プロセッサと、プロセッサに接続されたメモリとを有する汎用コンピュータと共に使用するためのコンピュータプログラム製品が提供され、コンピュータプログラム製品は、エンコードされたコンピュータメカニズムを有するコンピュータ読み取り可能な記憶媒体を備え、コンピュータプログラムメカニズムは、コンピュータのメモリにロードされてもよく、コンピュータに請求項13~15のいずれか1項に記載の方法を実行させることができる。
一態様では、請求項16に記載のコンピュータプログラム製品を記憶するためのデータ構造を記憶したコンピュータ可読媒体が提供される。
一態様では、前立腺癌患者における疾患進行リスクを予測するためのデバイスが提供され、デバイスは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信する電子メモリを備え、電子メモリは、プロセッサ実行可能コードを記憶し、少なくとも1つのプロセッサを実行する際に、少なくとも1つのプロセッサに以下を行わせる。a)前立腺癌腫瘍に関するPRONTO-eまたはPRONTO-m分類器に対応する、請求項1または7に定義される患者特徴の実質的にすべて、および表6に記載される参照または対照特徴の一部または全てを反映するデータを受信させ、b)前記患者特徴を参照または対照特徴と比較させ、c)前記患者プロファイルを入力データとして採用する分類器を使用して、少なくとも1つのプロセッサで予測スコアを計算させ、分類器は、早期前立腺癌患者の集団からのサンプルについて事前に訓練されている。
本発明の利点は、以下の実施例によってさらに説明される。本明細書に記載される実施例およびそれらの特定の詳細は、説明のためにのみ提示され、本発明の特許請求の範囲を限定するものとして解釈されるべきではない。
例
材料および方法
患者サンプル:
材料および方法
患者サンプル:
分類器を訓練し、検証するために、根治的前立腺全摘除術サンプルを、キングストン総合病院(1999~2012年の診断)、McGill大学保健センターのモントリオール総合病院(1994~2013年)およびロンドン健康科学センター(London Health Sciences Centre、LHSC)(2004~2009年)のローカル電子カルテを用いて同定した。最初の選択基準は、(i)コア生検でGG1またはGG2の診断を確認、(ii)根治的前立腺摘除術を受けた、および(iii)手術前に治療歴がない、とした。臨床病期がT3またはそれ以上の患者は除外した。症例をトレーニングコホートまたはバリデーションコホートのいずれかに割り付けた。
全症例について、診断用コア生検と根治的前立腺全摘除術の両方の中央病理診断が専門病理医(FB、MM、DB、TJ)によって実施された。可能な場合には、DNAおよびRNAを、存在する場合には比較的高いGG領域と低いGG領域にエンリッチされた優勢な腫瘍焦点(dominant tumor focus)の2つの領域から得られたパンチコアから抽出し(図1A)[21]、このアプローチのために最適化されたプロトコルを使用した[22、23]。実施された全ての分析は、インフォームドコンセントの放棄を可能にした地域倫理審査委員会(表3)によって承認された。全体として、本発明者らは、トレーニングセットについて333症例から633サンプルを収集し、バリデーションセットについて202症例から346サンプルを収集した(表4のCONSORTデータを参照のこと)。
トレーニングコホートおよびバリデーションコホートの臨床病理学的特徴を表1に要約する。
2つの分類器(α=0.01)を検証する検出力は89%であった。
分類器の候補となる特徴の選択:
GGの生態(biology)を反映する複数の機能的側面について、トランスクリプトーム(mRNA量)、ゲノム(DNAコピー数変化、CNA)およびエピゲノムレベル(DNAメチル化)での分子的特徴を調べた(図1B)。431の遺伝子/遺伝子座(1つの遺伝子/遺伝子座が複数の特徴によって評価されることがある)を評価する462の分子的特徴のリストが、詳細な文献調査および研究チームのメンバーが主導する多数の研究からの情報提供により作成された[25-30](方法を参照のこと;表6)。また、診断時に評価した4つの臨床的特徴と、それらをCancer of the Prostate Risk Assessment (CAPRA)リスク群に統合した5つ目の臨床的特徴も含めた[31]。合計で、腫瘍サンプルを記述するために467の特徴を使用した(表6)。
GGの生態(biology)を反映する複数の機能的側面について、トランスクリプトーム(mRNA量)、ゲノム(DNAコピー数変化、CNA)およびエピゲノムレベル(DNAメチル化)での分子的特徴を調べた(図1B)。431の遺伝子/遺伝子座(1つの遺伝子/遺伝子座が複数の特徴によって評価されることがある)を評価する462の分子的特徴のリストが、詳細な文献調査および研究チームのメンバーが主導する多数の研究からの情報提供により作成された[25-30](方法を参照のこと;表6)。また、診断時に評価した4つの臨床的特徴と、それらをCancer of the Prostate Risk Assessment (CAPRA)リスク群に統合した5つ目の臨床的特徴も含めた[31]。合計で、腫瘍サンプルを記述するために467の特徴を使用した(表6)。
分子プロファイリングの一元化:
本発明者らは、4つの分子診断プラットフォームを採用した。そのうちの3つは、癌の分子診断のために現在臨床的に使用されている。mRNA分析は、この研究のために開発された特定のコードセットを有するNanostring N-counterプラットフォーム[32]を用いて行った。CNA分析は、このプロジェクトのために特別に開発されたマルチプレックスライゲーション依存性プローブ増幅(MLPA)ベースのアッセイおよびカスタムNanoStringコピー数コードセット[33][34]の両方を用いて行った(Ebrahimizadehら投稿。最後に、メチル化特異的ポリメラーゼ連鎖反応(MSP)を用いてエピジェネティックプロファイリングを行った[26]。両コホートの全てのサンプルは、それらのRNAおよびDNAの収量から考えて、可能な限り多くのプラットフォームでプロファイリングした。
本発明者らは、4つの分子診断プラットフォームを採用した。そのうちの3つは、癌の分子診断のために現在臨床的に使用されている。mRNA分析は、この研究のために開発された特定のコードセットを有するNanostring N-counterプラットフォーム[32]を用いて行った。CNA分析は、このプロジェクトのために特別に開発されたマルチプレックスライゲーション依存性プローブ増幅(MLPA)ベースのアッセイおよびカスタムNanoStringコピー数コードセット[33][34]の両方を用いて行った(Ebrahimizadehら投稿。最後に、メチル化特異的ポリメラーゼ連鎖反応(MSP)を用いてエピジェネティックプロファイリングを行った[26]。両コホートの全てのサンプルは、それらのRNAおよびDNAの収量から考えて、可能な限り多くのプラットフォームでプロファイリングした。
予後分類器の開発と検証:
トレーニングデータおよびバリデーションデータの両方を、補足的方法(Supplementary Methods)に記載されるように前処理した。教師付き機械学習パイプラインを作成し(図1C;Supplementary Methods)、患者のプロファイル(特徴値で構成)を入力とし、病理学的前立腺摘除術GGをエンドポイントとする分類器を開発した。
トレーニングデータおよびバリデーションデータの両方を、補足的方法(Supplementary Methods)に記載されるように前処理した。教師付き機械学習パイプラインを作成し(図1C;Supplementary Methods)、患者のプロファイル(特徴値で構成)を入力とし、病理学的前立腺摘除術GGをエンドポイントとする分類器を開発した。
トレーニングデータを用いて、41,000以上(>41,000)のGG分類器を、5区分のクロスバリデーションにおいて12の異なる機械学習アルゴリズムに選択された特徴を供することによって評価した。具体的には、受信者操作曲線下面積(AUC)、TP、FP、および真陰性(TN)率を、各分類器について計算した。この一連の指標は、各症例からの低悪性度または高悪性度のサンプルのみを用いて計算し、低悪性度および高悪性度の統計量の平均を計算した。クロスバリデーションにより、より高いTP率およびAUCを有するものに優先順位を付けることによって、検証用に2つの分類器を選択した。
本発明者らは、上記のように統計量を計算し、また、性能統計量を計算するためにバリデーションコホートにおいて患者一人当たり1つのサンプル(高悪性度または低悪性度)をランダムに選択し、このプロセスを1000回繰り返すことによって、分類器を検証した。これらのサンプリングに基づく統計量は、臨床診療をよりよくシミュレートする。全ての統計解析は、Rソフトウェアフレームワーク(v3.4.3)[35]、機械学習パッケージmlr(v2.15.0)[36]およびプロットパッケージBoutrosLab.plotting general(v5.9.8)[37]を用いて行った。
倫理審査
全ての研究は、Tri-Council Policy Statement(TCPS2)に従い、各参加機関の研究倫理委員会で研究プロトコルの倫理承認を得た後に実施した(表3)。
全ての研究は、Tri-Council Policy Statement(TCPS2)に従い、各参加機関の研究倫理委員会で研究プロトコルの倫理承認を得た後に実施した(表3)。
特徴の選択
CNA特徴:MLPAアッセイ
CNA特徴:MLPAアッセイ
マルチプレックスライゲーション依存性プローブ増幅(MLPA)アッセイを開発して、前立腺癌における臨床転帰と以前に関連したコピー数変化(CNA;表6)について14の遺伝子座を評価した(CaP;Ebrahimizadehら投稿)。アッセイされた遺伝子座には、MYCオンコジーン[S1-3]、PTEN [S4-7]、TP53 [S2,8,9]、CDKN1B [S10,11]およびRB1 [S12,13]腫瘍抑制因子、GABARAPL2 [S13,14]およびPDPK1 [S15,16]などの転移に関連する遺伝子座、RWDD3 [S17-20]、GTF2H2 [S21-24]およびWRN [S13,25-27]などのゲノム安定性の維持に関連する遺伝子座、およびCaPサブタイプに関連する遺伝子であるCHD1 [S13,28,29]、MAP3K7 [S13,28,30]、NKX3-1 [S13]およびPDZD2 [S31,32]を含む。
CNA特徴:CPC-GENE NanoStringアッセイ
DNA CNAアッセイを用いて、Canadian Prostate Cancer Genome Network (CPC-GENE)は、低~中リスクのCaP患者において、ゲノム変化率と生化学的無再発生存率の低下との関連を同定し、CNA特徴を用いて患者の転帰を予測する分類器を開発した[S33]。NanoString CNAアッセイは、これらの特徴についての値を導出するように設計され[S34]、本明細書では、92個のCNA特徴:85個の遺伝子座(151個の遺伝子を含む)および文献中のCaPに関連する7個のさらなる遺伝子を含むアッセイを使用した(表6)。
DNA CNAアッセイを用いて、Canadian Prostate Cancer Genome Network (CPC-GENE)は、低~中リスクのCaP患者において、ゲノム変化率と生化学的無再発生存率の低下との関連を同定し、CNA特徴を用いて患者の転帰を予測する分類器を開発した[S33]。NanoString CNAアッセイは、これらの特徴についての値を導出するように設計され[S34]、本明細書では、92個のCNA特徴:85個の遺伝子座(151個の遺伝子を含む)および文献中のCaPに関連する7個のさらなる遺伝子を含むアッセイを使用した(表6)。
mRNAの特徴:
以下の研究による遺伝子リストを組み合わせることにより、mRNA量遺伝子パネル(NanoString RNAアッセイ用)を作成した。
以下の研究による遺伝子リストを組み合わせることにより、mRNA量遺伝子パネル(NanoString RNAアッセイ用)を作成した。
mRNAの特徴:CPC-GENE
CPC-GENEは、中リスク患者由来のサンプルのRNA量プロファイル作成を実施し[S35]、これらのデータの単変量解析により、予後不良と関連する20の遺伝子が同定された。これらの遺伝子に、Taylorら[S36]によるRNAデータの同様の単変量解析と予測モデリングで同定された30個の遺伝子を補足した。
CPC-GENEは、中リスク患者由来のサンプルのRNA量プロファイル作成を実施し[S35]、これらのデータの単変量解析により、予後不良と関連する20の遺伝子が同定された。これらの遺伝子に、Taylorら[S36]によるRNAデータの同様の単変量解析と予測モデリングで同定された30個の遺伝子を補足した。
mRNA特徴:幹細胞の特徴
遺伝子リストは、4つのアンドロゲン受容体(AR)+CaP細胞株(LNCaP、LAPC4、CWR22rv1およびVCaP)を幹様表現型に「再プログラム」して得られた[S37]。各細胞株のAgilent Gene Chip分析は、親細胞と再プログラム細胞の間で有意な存在量変化を伴う転写物を明らかにした。次に、これらの転写物を細胞株間で比較し、リプログラミングに関連する132の一般的に変化した遺伝子のランク付けリストを導出した。この特徴から、[S37]に記載されたように再発、転移およびCaP特異的死亡の傾向が同定された。このリストの上位50の遺伝子はRNAパネルに含まれていた。
遺伝子リストは、4つのアンドロゲン受容体(AR)+CaP細胞株(LNCaP、LAPC4、CWR22rv1およびVCaP)を幹様表現型に「再プログラム」して得られた[S37]。各細胞株のAgilent Gene Chip分析は、親細胞と再プログラム細胞の間で有意な存在量変化を伴う転写物を明らかにした。次に、これらの転写物を細胞株間で比較し、リプログラミングに関連する132の一般的に変化した遺伝子のランク付けリストを導出した。この特徴から、[S37]に記載されたように再発、転移およびCaP特異的死亡の傾向が同定された。このリストの上位50の遺伝子はRNAパネルに含まれていた。
mRNAの特徴:上皮間葉転換(EMT)の特徴
GEO2Rプログラムおよび多重検定補正のためのBenjamini-Hochberg法を用いて、3次元培養(GEO#GSE19426)[S38]で浸潤性増殖を行っているPC-3、PC-3M、ALVA-31、RWPE-2-w99細胞株からの遺伝子発現データを比較し、4種類の細胞株のうち少なくとも3種類で調節不全の遺伝子1669個を同定した。これらの遺伝子は、SABiosciences qRT-PCRアレイのEMT関連遺伝子と相互参照された。得られた33個の重複遺伝子を、String v9.1およびGeneManiaアルゴリズム[S39,40]を使用して、ネットワーク構築のためのシードリストとして使用した。得られたネットワークから、経路を結ぶ共通のノーダルポイントを含む37の重要な遺伝子をRNAパネルに含めた。
GEO2Rプログラムおよび多重検定補正のためのBenjamini-Hochberg法を用いて、3次元培養(GEO#GSE19426)[S38]で浸潤性増殖を行っているPC-3、PC-3M、ALVA-31、RWPE-2-w99細胞株からの遺伝子発現データを比較し、4種類の細胞株のうち少なくとも3種類で調節不全の遺伝子1669個を同定した。これらの遺伝子は、SABiosciences qRT-PCRアレイのEMT関連遺伝子と相互参照された。得られた33個の重複遺伝子を、String v9.1およびGeneManiaアルゴリズム[S39,40]を使用して、ネットワーク構築のためのシードリストとして使用した。得られたネットワークから、経路を結ぶ共通のノーダルポイントを含む37の重要な遺伝子をRNAパネルに含めた。
mRNAの特徴:上皮の成長と分化に対する間質の影響。
胚性前立腺間質[S41-43]にエンリッチされていると同定された318個の遺伝子のリストについて、がん関連線維芽細胞にも発現する遺伝子および公表されている4つのデータセット[S36、44-46]において臨床的および病理学的エンドポイント(再発、CaP死亡およびグリーソンスコア)との関連性をエンリッチするようにフィルターをかけた。複数のデータセットにおいて、グレードグループ(GG)及び/又は再発に関連する遺伝子を優先順位付けすることによって80個の遺伝子のリストを作成した。
胚性前立腺間質[S41-43]にエンリッチされていると同定された318個の遺伝子のリストについて、がん関連線維芽細胞にも発現する遺伝子および公表されている4つのデータセット[S36、44-46]において臨床的および病理学的エンドポイント(再発、CaP死亡およびグリーソンスコア)との関連性をエンリッチするようにフィルターをかけた。複数のデータセットにおいて、グレードグループ(GG)及び/又は再発に関連する遺伝子を優先順位付けすることによって80個の遺伝子のリストを作成した。
mRNAの特徴:腫瘍細胞の代謝
String v9.1およびGeneManiaアルゴリズム[S47]を用いて、ステロール調節エレメント結合タンパク質1(SREBP1)、インスリン成長因子(IGF)、ARおよびサイトカインシグナル伝達抑制因子1(SOCS1)のシグナル伝達経路を結びつけるin silico遺伝子ネットワーク解析により、CaP代謝に関連する86の候補遺伝子を同定した。これらの遺伝子について、発見コホートおよび検証コホートに関するNanostring nCounterアッセイにより発現解析を行ったところ、各コホートには、個々の腫瘍由来の32個のGleasonパターン3および、32個のGleasonパターン4の焦点(foci)が含まれた。Mann-Whitney U検定(p<0.05)を用いた単変量解析は、25の差次的発現遺伝子を同定した。
String v9.1およびGeneManiaアルゴリズム[S47]を用いて、ステロール調節エレメント結合タンパク質1(SREBP1)、インスリン成長因子(IGF)、ARおよびサイトカインシグナル伝達抑制因子1(SOCS1)のシグナル伝達経路を結びつけるin silico遺伝子ネットワーク解析により、CaP代謝に関連する86の候補遺伝子を同定した。これらの遺伝子について、発見コホートおよび検証コホートに関するNanostring nCounterアッセイにより発現解析を行ったところ、各コホートには、個々の腫瘍由来の32個のGleasonパターン3および、32個のGleasonパターン4の焦点(foci)が含まれた。Mann-Whitney U検定(p<0.05)を用いた単変量解析は、25の差次的発現遺伝子を同定した。
mRNAの特徴:前立腺の恒常性
この研究は、良性前立腺の恒常性を、ステロイドホルモンによる成長と分化、およびCaPにおけるこれらの通路の調節異常のモデルとして活用した。この一連の研究を代表する転写物には、FER、PTK2、FLT1、LYN、SRC、JAK1、JAK3、MARK3、STAT3、STAT5A、EDF1、WNT11、ITGAV、ITGA2、およびITGV5が含まれた。
この研究は、良性前立腺の恒常性を、ステロイドホルモンによる成長と分化、およびCaPにおけるこれらの通路の調節異常のモデルとして活用した。この一連の研究を代表する転写物には、FER、PTK2、FLT1、LYN、SRC、JAK1、JAK3、MARK3、STAT3、STAT5A、EDF1、WNT11、ITGAV、ITGA2、およびITGV5が含まれた。
メチル化とmRNAの特徴: CpGアイランドの高メチル化
CaPにおいてCpGアイランドが高メチル化されている遺伝子(n=14)を文献から同定し、これらの遺伝子のDNAメチル化を、[S48]に記載されるようなメチル化特異的PCRを用いてアッセイして、これらのメチル化特徴についての値を得た(表6)。これらの遺伝子(UCHL1を除く)は、さらに7つのエピジェネティック修飾および調節遺伝子:DNMT1、EZH2、HDAC1、HIC1、KCNK2、SRP14およびTERTとともに、RNAパネルにも加えられた。
CaPにおいてCpGアイランドが高メチル化されている遺伝子(n=14)を文献から同定し、これらの遺伝子のDNAメチル化を、[S48]に記載されるようなメチル化特異的PCRを用いてアッセイして、これらのメチル化特徴についての値を得た(表6)。これらの遺伝子(UCHL1を除く)は、さらに7つのエピジェネティック修飾および調節遺伝子:DNMT1、EZH2、HDAC1、HIC1、KCNK2、SRP14およびTERTとともに、RNAパネルにも加えられた。
要約すると、これらの研究の各々からの遺伝子を照合することにより、さらなるハウスキーピング遺伝子を有する342個の遺伝子(表6を参照のこと)を含む新規なNanoString mRNAパネルが得られた(補足方法を参照のこと)。NanoStringアッセイを用いて、それぞれの遺伝子のmRNA量を測定し、mRNAの特徴の値を求めた。
臨床的特徴
Cancer of the Prostate Risk Assessment(CAPRA)スコアは、1)診断時年齢、2)診断時PSA(単位:ng/ml)、3)生検GG(すなわち、臨床GG)、4)臨床T病期、5)癌に関与する生検コアの割合という5つの臨床的特徴を用いて算出される[S49]。患者のCAPRAスコアは、CAPRAリスク群(低、中、高)を割り当てるために順番に使用することができ、本発明者らの候補予後分類器は、任意選択でこの群の特徴を使用した。あるいは、最初の4つの臨床的特徴は、分類器によって直接使用することができる。診断時の年齢が利用できない場合には、根治的前立腺摘除術時の年齢(利用可能な場合)を用いた。診断時のPSAが利用できない場合には、術前PSA(利用可能な場合)を用いた。
Cancer of the Prostate Risk Assessment(CAPRA)スコアは、1)診断時年齢、2)診断時PSA(単位:ng/ml)、3)生検GG(すなわち、臨床GG)、4)臨床T病期、5)癌に関与する生検コアの割合という5つの臨床的特徴を用いて算出される[S49]。患者のCAPRAスコアは、CAPRAリスク群(低、中、高)を割り当てるために順番に使用することができ、本発明者らの候補予後分類器は、任意選択でこの群の特徴を使用した。あるいは、最初の4つの臨床的特徴は、分類器によって直接使用することができる。診断時の年齢が利用できない場合には、根治的前立腺摘除術時の年齢(利用可能な場合)を用いた。診断時のPSAが利用できない場合には、術前PSA(利用可能な場合)を用いた。
臨床病期Tは、T1とT2の2つの値に単純化され、それぞれ0と1として分類器に表現された。
前処理訓練およびバリデーションデータ
mRNA量データ
使用する正規化手法を選択するために、NanoStringNorm Rパッケージ(v1.1.22;[S50])でサポートされる96の異なる方法を、パラメータ値の異なる組み合わせ、すなわちBackground={none、mean.2sd、max}、CodeCount={none、sum、geo.mean}、SampleContent={none、housekeeping.sum、housekeeping.geo.mean、total.sum、top.mean}、OtherNorm={none、rank.normal}で試行した。それ以外のパラメータはround.values=FALSE,take.log=TRUEとデフォルト値を使用した。各正規化手法を評価するために、得られた正規化データを用いていくつかのメトリクスを計算した。
これらのメトリクスは以下を含む。
mRNA量データ
使用する正規化手法を選択するために、NanoStringNorm Rパッケージ(v1.1.22;[S50])でサポートされる96の異なる方法を、パラメータ値の異なる組み合わせ、すなわちBackground={none、mean.2sd、max}、CodeCount={none、sum、geo.mean}、SampleContent={none、housekeeping.sum、housekeeping.geo.mean、total.sum、top.mean}、OtherNorm={none、rank.normal}で試行した。それ以外のパラメータはround.values=FALSE,take.log=TRUEとデフォルト値を使用した。各正規化手法を評価するために、得られた正規化データを用いていくつかのメトリクスを計算した。
これらのメトリクスは以下を含む。
1)低アバンダンスハウスキーピング遺伝子の正規化カウントが中レベルアバンダンスハウスキーピング遺伝子の正規化カウントより有意に低く、高アバンダンス遺伝子と比較して中アバンダンス遺伝子で同様に低い場合には合格(片側スチューデントt検定 P<0.05)、それ以外は不合格。
2)ダイナミックレンジは、低アバンダンスハウスキーピング遺伝子の平均値に対する高アバンダンスハウスキーピング遺伝子の平均値正規化カウントの増加率として測定される。
3)カートリッジ間で複製された対照サンプルの正規化カウント間の一致。ここで、値が大きいほどバッチ効果が小さいことを示唆する。
4)非正規サンプルの数。内因性遺伝子全体の正規化されたカウントの分布がシャピロ-ウィルク検定の正規性(FDR調整済q<0.1)に合格しない場合、サンプルは非正規分布である。
5)有意なコホート共変量の数、すなわち、正規化カウントを予測する線形モデルにおいて、患者の由来(McGill University Health CentreのKingston General Hospital/Montreal Hospital)が有意な共変量である遺伝子。ここで、GGおよび生化学的再発状態は他の共変量である(FDR調整済p<0.1)。
6)サンプルの正規化された総数カウントとそのソース組織ブロックの年齢との相関。
7)不合格となったサンプルの割合;サンプルは以下の場合に不合格となることがある。
a)ハウスキーピング遺伝子の正規化カウント=0。
b)ハウスキーピング遺伝子を正規化したカウントでZスコアを計算した後、任意|Z|>5。
c)CodeCount正規化を行った場合、正規化係数<0.3または>3。
d)サンプルに異常なバックグラウンドレベルがある(|Z|>5)。
e)SampleCount正規化を実施した場合、RNA含量値<1。
f)SampleCount正規化を行った場合、サンプルは異常値RNA含量値(|Z|>5)を有する。
g)内在性遺伝子の欠損割合が0.9を超え(>0.9)、
a)ハウスキーピング遺伝子の正規化カウント=0。
b)ハウスキーピング遺伝子を正規化したカウントでZスコアを計算した後、任意|Z|>5。
c)CodeCount正規化を行った場合、正規化係数<0.3または>3。
d)サンプルに異常なバックグラウンドレベルがある(|Z|>5)。
e)SampleCount正規化を実施した場合、RNA含量値<1。
f)SampleCount正規化を行った場合、サンプルは異常値RNA含量値(|Z|>5)を有する。
g)内在性遺伝子の欠損割合が0.9を超え(>0.9)、
メトリック1に合格し、カートリッジ間一致度が0.9を超え(>0.9)、かつ訓練サンプルの10%未満(<10%)が失敗した手法のみを考慮して、メトリック2~7によって個別に最初にランク付けすることにより、方法をランク付けした。次にDECOR法(ConsRankパッケージv2.0.1;[S51])で生成したコンセンサスランキングをした。このランク付けに基づいて、Background=none、CodeCount=none、SampleContent=housekeeping.sum、目標値(target value)=5000(訓練データに基づいて大まかに推定された)、およびOtherNorm=noneの正規化方法を選択した。
MLPA CNAデータ
1つまたは2つのプローブが各遺伝子を標的とし、各テストサンプルを2回ずつアッセイした。各複製について、各テストプローブからのシグナルを10個の参照プローブの各々からのシグナルで割った結果、7つの比率のセットを得た。プローブは、3つの参照サンプル(新鮮な健康な女性のゲノム、正常なFFPE腎臓組織、正常なFFPE乳房リンパ節組織)(Promega)のうち少なくとも2つで、複製物の比率の95%信頼区間がそのプローブの95%信頼区間の外にあるとき、CNAに対して陽性と見なされた。プローブは、その複製物の両方について陽性であった場合、テストサンプルについて陽性であるとみなされた。複製物間に不一致が存在する場合、プローブはCNAについて陰性であるとみなされた。複製物のいずれも品質管理に合格しなかった場合(Ebrahimizadeh投稿)、所与のテストサンプル中の所与のプローブにCNAステータスを割り当てなかった。ある遺伝子の全てのプローブが陽性であった場合、その遺伝子はテストサンプルにおいてCNA陽性とみなされ、不一致がある場合、その遺伝子は陰性とみなされ、それ以外は、CNAのステータスは割り当てられなかった。RWDD3、GTF2H2、CHD1、MAP3K7、NKX3-1、WRN、PTEN、CDKN1B、RB1、GABARAPL2およびTP53遺伝子については欠失のみが考えられ、MYC、PDPK1およびPDZD2遺伝子については増加のみが考えられた。
1つまたは2つのプローブが各遺伝子を標的とし、各テストサンプルを2回ずつアッセイした。各複製について、各テストプローブからのシグナルを10個の参照プローブの各々からのシグナルで割った結果、7つの比率のセットを得た。プローブは、3つの参照サンプル(新鮮な健康な女性のゲノム、正常なFFPE腎臓組織、正常なFFPE乳房リンパ節組織)(Promega)のうち少なくとも2つで、複製物の比率の95%信頼区間がそのプローブの95%信頼区間の外にあるとき、CNAに対して陽性と見なされた。プローブは、その複製物の両方について陽性であった場合、テストサンプルについて陽性であるとみなされた。複製物間に不一致が存在する場合、プローブはCNAについて陰性であるとみなされた。複製物のいずれも品質管理に合格しなかった場合(Ebrahimizadeh投稿)、所与のテストサンプル中の所与のプローブにCNAステータスを割り当てなかった。ある遺伝子の全てのプローブが陽性であった場合、その遺伝子はテストサンプルにおいてCNA陽性とみなされ、不一致がある場合、その遺伝子は陰性とみなされ、それ以外は、CNAのステータスは割り当てられなかった。RWDD3、GTF2H2、CHD1、MAP3K7、NKX3-1、WRN、PTEN、CDKN1B、RB1、GABARAPL2およびTP53遺伝子については欠失のみが考えられ、MYC、PDPK1およびPDZD2遺伝子については増加のみが考えられた。
NanoString CNAデータ
データは、前述の[S34]のように前処理された。
データは、前述の[S34]のように前処理された。
メチル化データ
Cqは、前述の[S48]のように計算した。所定のテストサンプルtおよび標的遺伝子gについて、以下のようにメチル化レベルを計算した。mt,g,i,j,k,l=(Cq p,g,i-Cq p,r,j)-(Cq t,g,k-Cq t,r,l)
ここで、
pはテストサンプルと同じプレート上の正のコントロールサンプルを示し、
rはリファレンスシーケンス(ALU)を示し、
i、j、k、lはレプリケート数を示す。
Cqは、前述の[S48]のように計算した。所定のテストサンプルtおよび標的遺伝子gについて、以下のようにメチル化レベルを計算した。mt,g,i,j,k,l=(Cq p,g,i-Cq p,r,j)-(Cq t,g,k-Cq t,r,l)
ここで、
pはテストサンプルと同じプレート上の正のコントロールサンプルを示し、
rはリファレンスシーケンス(ALU)を示し、
i、j、k、lはレプリケート数を示す。
次いで、正規化されたメチル化レベルを以下のように定義した。
mt,g=中央i,j,k,l(mt,g,i,j,k,l)
mt,g=中央i,j,k,l(mt,g,i,j,k,l)
予後分類器の開発のための機械学習パイプライン
本発明者らは、予後分類器の開発のための様々な方法論を網羅的に評価するためのパイプラインを構築した。具体的には、パイプラインは、教師あり機械学習の手法を用いて、患者プロファイルを入力データとして、予後良好または予後不良を予測する(すなわち、それぞれ、陰性および陽性をテストする)分類器を開発する。本願では、GGを前立腺摘除標本(すなわち病理学的GG)に二値化し、GG1のみを有する患者を陰性ゴールドスタンダード、
本発明者らは、予後分類器の開発のための様々な方法論を網羅的に評価するためのパイプラインを構築した。具体的には、パイプラインは、教師あり機械学習の手法を用いて、患者プロファイルを入力データとして、予後良好または予後不良を予測する(すなわち、それぞれ、陰性および陽性をテストする)分類器を開発する。本願では、GGを前立腺摘除標本(すなわち病理学的GG)に二値化し、GG1のみを有する患者を陰性ゴールドスタンダード、
患者の真のクラスを定義した(補足図1)。
パイプラインは、1)データセット、2)パーティション、3)特徴量の削減、および4)クロスバリデーションの4つの主要ステージから構成される(図1C)。
第1段階は、トレーニングデータセットの準備に焦点を当てる。トレーニングデータセットには、患者-サンプル特徴の行列(すなわち、各行は患者プロファイルを表す)および、行列内の各サンプルに対して1つの値を有する真のクラス値のセットとが含まれる。パイプラインは、異なるプラットフォームによって生成された入力データを取得することができる。本願では、臨床/CAPRA、RNA量、MLPA/NanoString CNAおよびメチル化データを有する。各プラットフォームごとに、このステージでは、データセットを欠損データのないサンプルに縮小する。複数のプラットフォームが所望される場合、データセットは、関心のある各プラットフォームからのデータを有するサンプルにも縮小される。最後に、不変特徴、すなわち、全ての残りのサンプルにわたって同じ値を有する特徴が、データセットから除去される。
第2の段階は、クロスバリデーションを繰り返すためのトレーニングデータセットの分割に焦点を当てる。データセットは、所望のオプションに従って、患者ごとに、低悪性度サンプルのみ、高悪性度サンプルのみ、または無作為に選択されたサンプルに縮小される。デフォルトでは、このステージは、1000回繰り返される5区分のクロスバリデーションを準備し、したがって、このステージは、5つの等しいサイズのサブセットへのデータセットの1000分割を作成する。各候補パーティショニングについて、各サンプルは、最初に、5つのサブセットのうちの1つにランダムに割り当てられる。本発明者らのトレーニングサンプルが異なる機関(すなわち、キングストン総合病院、McGill大学保健センターのモントリオール病院)から得られたものであるので、もしパーティショニングが真のクラス、生化学的再発ステータス(本願での真のクラスに関連し得る)、およびサンプルの由来に関してバランスがとれているならば、パーティショニングは保持される。具体的には、パーティショニングにおけるサブセットの各ペアについて、両側フィッシャーの正確確率検定を使用して、各特性との関連性を試験する。潜在的な関連性のいずれかが有意である場合(p<0.05)、バランスのとれたものが得られるまで、別の候補パーティショニングが生成される。
第3段階は、特徴の削減に焦点を当てている。x-foldクロスバリデーションの場合、各パーティションはx個のトレーニングサブセットを可能にする。この段階では、不変特徴、すなわち、全てのサンプルにわたって同じ値を有する特徴が、各トレーニングサブセットから除去される。所望であれば、次に、各残りの特徴は、真のクラスとの単変量関連性についてテストされる(例えば、両側マン・ホイットニ-U検定を用いて)。有意な関連性を有する特徴(例えば、P<0.01または0.05)が保持される。
第4段階は、mlrパッケージv2.15.0[S52](図6)を使用して、所望の機械学習アルゴリズムを用いて、x-foldクロスバリデーションを繰り返し実行する。アルゴリズムのオプション(括弧内はmlr実装識別子)には、決定木(classif.rpart)、flexible discriminant analysis(classif.earth)、lassoまたはElastic Net正則化を伴うGLM(lasso or elasticnet regularization)、交差検証ラムダ(classif.cvglmnet)、k最近傍(classif.kknn)、線形判別分析(classif.lda)、ロジスティック回帰(classif.logreg)、ナイーブベイズ(classif.naive Bayes)、最近傍縮小重心(classif.pamr)、二次判別分析(classif.qda)、ランダムフォレスト(classif.ranger)、正則化判別分析(classif.rda),サポートベクターマシン(classif.svm)などがある。アルゴリズムの選択にかかわらず、クロスバリデーションの繰り返しは、重み付けされていないサンプルを用いて実行される(すなわち、全てのサンプルは、デフォルトで等しく重み付けされる)。
サンプルの重み付けをサポートするアルゴリズムの場合、この段階は、負/正のゴールドスタンダードクラスの異なる重み付け、すなわち、30%/70%、40%/60%、50%/50%、60%/40%、70%/30%をクロスバリデーションする。具体的には、wn%/(100-wn)%重み付けでは、それぞれ負と正のサンプルにwn/pnと(100-wn)/(1-pn)の重みが割り当てられる。ここでpnは負のゴールドスタンダードクラスのサンプルの比率である。したがって、全ての負のサンプルの総重みは、全体的なwn%を構成し、全ての正のサンプルの総重みは、全体的な(100-wn)%を構成する。他の全ての機械学習アルゴリズムパラメータについては、デフォルト値が使用される。
クロスバリデーションでは、分類器は、所与の機械学習アルゴリズム、データセット(前の段階で準備された)、およびサンプル重み付けを用いて、x倍の(x-1)について訓練される。この訓練が3回の試みの後に失敗した場合、パイプラインは、次の(x-1)倍のデータを用いた訓練にスキップする。成功した場合、結果として得られる分類器は、2つの視点、すなわち、i)各ケースからの低悪性度サンプルのみ、およびii)各ケースからの高悪性度サンプルのみから残りのフォールドのデータ(fold of data)に対してテストされる。それぞれの観点について、パイプラインは、x回に渡って平均した受信者操作曲線下面積(AUC)を計算し、0.5の操作点を用いて、
真陽性(TP)、偽陽性(FP)および真陰性(TN)の比率をx区分の全ての患者で計算する。さらに、これらの統計値のそれぞれについて、パイプラインは2つの観点[例:AUCmean=(AUClow+AUChigh)/2]から値の平均を報告する。最後に、パイプラインはさらに、クロスバリデーションの繰り返しにわたる(例えば、1000のパーティショニングにわたる)中央値統計量を計算することによって要約する。
グレードグループ分類器PRONTO-eおよびPRONTO-mのバリデーション パイプラインは、パイプラインがサポートする全ての可能な手法を徹底的にテストし、それによって最適な手法を網羅的に探索することを可能にした。検証のための手法の選定には、主に2つの要素がある。第1に、我々は、クロスバリデーションによる AUC 値が大きい手法を望んだが、それは、それらが対応する分類器のより全体的な性能を示唆するからである。第二に、いくつかのGG1症例(FP率により定量化)を過剰治療する代償として、これらの症例に対するより早期の介入を優先した臨床医との相談に従い、
上位25のパフォーマンスの分類器は、0.772~0.790の範囲のAUCを有し(図2)、それらの大部分は、正則化(regularized)判別分析またはサポートベクターマシンのいずれかを使用する。PRONTO-mは、上位25の分類器の中で唯一、TP率の制約(TPレート=0.800、AUC=0.774)を満たしいる。バリデーションには、PRONTO-e(TP率=0.833、AUC=0.770)を選択した。表5は、これら2つの分類器を生成に用いた手法を説明する。
次いで、選択された各手法は、必要なサンプルおよび特徴のデータを有する患者に限定した非分割トレーニングコホートを用いて、分類器をトレーニングするために使用された。クロスバリデーションと同様に、AUC、TP率およびFP率の平均値を算出した。ここで平均値は、低悪性度サンプルのみの値および高悪性度サンプルのみの値である。腫瘍内不均一性が知られているにもかかわらず[S53]、診断時に生検サンプルの悪性度が腫瘍全体の全体的な悪性度をどの程度表しているかは不明である。この臨床シナリオをより良く模倣するために、バリデーションコホート中の各患者について、1つのサンプルをランダムに選択し、統計量を代表サンプルを用いて計算し、このプロセスを1000回繰り返した。これらの繰り返しにおいて、AUC、TP率、およびFP率の中央値を計算した(すなわち、サンプリングベースの統計量)。
分子プロファイル間の類似度
この解析では、同一患者からのサンプルの分子プロファイル間の類似度(すなわち、低悪性度および高悪性度サンプルプロファイル間の類似度)を計算したため、サンプルが1つのみの患者は除外した。全てのプラットフォームで、欠損値のないプロファイルのみを考慮した(どのような特徴についても)。CNAプロファイルについては、検証済み分類器がこのプラットフォームからのCNA特徴のみを使用しているため、まずMLPAプラットフォームからの特徴にプロファイルを限定した。本発明者らは、CNAプロファイル間のペアワイズ類似性を、両方のサンプルが同じCNAステータス(すなわち、変化または非変化)を有する特徴の割合として定義した。RNA量およびメチル化プロファイルについては、本発明者らは、ペアワイズ類似度を特徴量間の一致係数と定義した。
この解析では、同一患者からのサンプルの分子プロファイル間の類似度(すなわち、低悪性度および高悪性度サンプルプロファイル間の類似度)を計算したため、サンプルが1つのみの患者は除外した。全てのプラットフォームで、欠損値のないプロファイルのみを考慮した(どのような特徴についても)。CNAプロファイルについては、検証済み分類器がこのプラットフォームからのCNA特徴のみを使用しているため、まずMLPAプラットフォームからの特徴にプロファイルを限定した。本発明者らは、CNAプロファイル間のペアワイズ類似性を、両方のサンプルが同じCNAステータス(すなわち、変化または非変化)を有する特徴の割合として定義した。RNA量およびメチル化プロファイルについては、本発明者らは、ペアワイズ類似度を特徴量間の一致係数と定義した。
単変量特徴解析
統計的検定からのp値は、同じプラットフォームからの全ての特徴にわたり、Benjamini-Hochberg法を用いて調整した(その結果、q値を得た)。サンプリング手順およびその後の統計計算を1000回繰り返し、繰り返しにおける中央値、第1四分位値および第3の四分位値が計算できた。この特徴解析は、トレーニングデータおよびバリデーションデータとは別々に実施した。両コホートにわたる所与の特徴の単変量関連の有意性を推定するために、重み付きZ法を使用して、各コホートからの中央値q値を組み合わせ、各q値を計算に用いた症例数で重み付けをした[S54]。
結果
コホート/サンプルの概要トレーニングおよびバリデーションコホートにわたり、535例の前立腺摘除術症例からのサンプルについて、954のmRNA、845のNanoString-CNA、794のMLPA-CNA、および847のメチル化プロファイルの作成に成功した。また、492例のCAPRAスコアも作成した。
コホート/サンプルの概要トレーニングおよびバリデーションコホートにわたり、535例の前立腺摘除術症例からのサンプルについて、954のmRNA、845のNanoString-CNA、794のMLPA-CNA、および847のメチル化プロファイルの作成に成功した。また、492例のCAPRAスコアも作成した。
GG分類器の開発および検証
分類器は、2つのサイトからの333症例について訓練され、独立した検証のために第3のサイトからの202症例を確保した(表4)。
分類器は、2つのサイトからの333症例について訓練され、独立した検証のために第3のサイトからの202症例を確保した(表4)。
早期介入の臨床的必要性から特異度よりも優先され、その結果、バリデーションのために上位2つのパフォーマンスの分類器、PRONTO-eおよびPRONTO-mが選択された(表5)。GG>2サンプルの症例については、これらの分類器はいずれもその症例の高悪性度サンプルのみを使用して訓練された。上位25のパフォーマンスの分類器の性能統計(AUCによる)を図2に示す。PRONTO-eは、342個のmRNA量および11個のCNA特徴を含む353個の特徴(表6)、並びにランダムフォレストを使用する。PARSE-mはより少ない特徴(合計で94個)を使用するが、利用可能なデータカテゴリーが多く(mRNA64個、CNA14個、メチル化12個、臨床4個表6)、サポートベクターマシンを使用する。各症例からの低悪性度または高悪性度サンプルのみを用いて計算された性能統計値、および低悪性度および高悪性度の統計値の平均を図3A~Cおよび表2に示す。
前立腺癌において腫瘍内の不均一性が報告されている[38]にもかかわらず、1症例につき1つの無作為抽出サンプルを用いて計算したところ、性能統計値に顕著な安定性が認められた(図3D)。このプロセスは、生検でのサンプリングエラーを模倣しており、両分類器のバリデーション性能は、これまでに検証された有害な病理学的バイオマーカのものを超える特性を得た[19,20](表2)。
検証された分類器は、頻繁に同じ症例からのペアサンプル間で一貫したGG分類を提供した。つまり、PRONTO-eについて70.8%、およびPRONTO-mについて73.9%であり、サンプリングエラーに対する高度の耐性を示す。
その傾向はPRONTO-mについても認められた(図3F)。
グレードグループの分子的特徴 どの分子的特徴がGGと最も強く関連しているかを調べた。単変量解析により、22の転写物の存在量と9の遺伝子座でのメチル化は、GGと有意な関連を示した(調整済p<0.1、方法を参照;図4)。細胞型に特異的な発現パターンを識別することができたところでは、一部の転写産物は上皮または間質における優先的発現と関連していた[39]。間質および上皮コンパートメントについても、同様の優先的発現率が認められた。同様に、それぞれの分子的特徴と高いGGとの関連についても、正負の割合がほぼ同じであった。興味深いことに、CNA特徴については、GGとの有意な単変量関連は同定されなかったが、GGの多変量分類器にそれらを含めることで性能が改善した(図3C)。
クロスバリデーションにおけるマルチモーダル分類器のCAPRAより優れた性能
CAPRAスコアは前立腺癌の予後に関する現在の臨床標準を表しており、診断時年齢や生検のGGなどの非分子的特徴のみを用いて算出される[S49]。重要なことに、PRONTO-eおよびPRONTO-m分類器の両方が、クロスバリデーションにおいてCAPRA分類器よりも性能が優れ、TP率およびAUCが高い(図3A、C)。
CAPRAスコアは前立腺癌の予後に関する現在の臨床標準を表しており、診断時年齢や生検のGGなどの非分子的特徴のみを用いて算出される[S49]。重要なことに、PRONTO-eおよびPRONTO-m分類器の両方が、クロスバリデーションにおいてCAPRA分類器よりも性能が優れ、TP率およびAUCが高い(図3A、C)。
GG分類器と腫瘍内不均一性
バリデーションコホートの各症例からの低悪性度または高悪性度サンプルのみを用いて計算されたROC曲線は、腫瘍全体の悪性度に対するサンプルの悪性度によって分類器の性能に違いがあることを示している(図7A)。PRONTO-m分類器のROC曲線は、PRONTO-e分類器の曲線よりも乖離(divergent)している。
バリデーションコホートの各症例からの低悪性度または高悪性度サンプルのみを用いて計算されたROC曲線は、腫瘍全体の悪性度に対するサンプルの悪性度によって分類器の性能に違いがあることを示している(図7A)。PRONTO-m分類器のROC曲線は、PRONTO-e分類器の曲線よりも乖離(divergent)している。
PRONTO-m対PRONTO-eではより広くなっている(図7B)。
同一症例から採取したサンプルの入力プロファイル(DNA、RNA)を比較することにより、検証済み分類器に対する腫瘍内不均一性の潜在的影響を検討した。
しかしながら、CNAおよびRNAデータの両方について、類似度の中央値は、GGサブセットに関係なく、0.9より大きく(図8)、これらの分子入力プロファイルは、症例内でかなり一貫性があることを示す。
議論
ここでは、独立した患者集団におけるGG分類器の開発とPRONTO-eおよびPRONTO-m分類器の検証について報告する。これらの結果は、多様な分子(例えば、mRNAやCNA)の特徴を組み込むことで、有意な価値を加えることができることを示唆している(図3C)。
ここでは、独立した患者集団におけるGG分類器の開発とPRONTO-eおよびPRONTO-m分類器の検証について報告する。これらの結果は、多様な分子(例えば、mRNAやCNA)の特徴を組み込むことで、有意な価値を加えることができることを示唆している(図3C)。
PRONTO-eおよびPRONTO-mはいずれも、現在のアプローチに対する顕著な改善を示している。3つの市販のバイオマーカ検査は、生検組織について、診断時の早期CaPの管理に関する情報を提供するために設計されている[40]。Prolarisは、細胞周期進行遺伝子のRNA発現データを臨床的/病理学的パラメータ(Myriad Genetics)と組み合わせて用い、10年間の前立腺特異的死亡率のリスクを報告している[41]。CaPsは典型的には50~65歳で診断され、死亡の大半は診断から20~25年後に起こることを考えると[42]、ProlarisはAS前後の判断には十分適していない可能性がある。17遺伝子qPCRに基づく検査であるOncotypeDXprostate(Genomic Health社)および定量的なin situプロテオミクス検査であるProMark(Metamark Genetics社)[22、43]は、
これらの中級リスクの患者がASを選択する上でグレーゾーンに置かれていることである。CAPRAの臨床的および病理学的ノモグラムにOncotypeDxゲノム前立腺スコア(GPS)を加えると、CAPRA単独(AUC=0.63)と比較して、有害な病理所見のAUCがごくわずかに改善した(AUC=0.67)[20、44]。ProMarkの方がやや優れており、NCCN(National Comprehensive Cancer Network)ガイドラインにより予後良好と分類された患者にのみ用いた場合、「病状良好(favorable pathology)」という単独の判定では、生検時のAUCが0.69であったのが[19]、0.75に上昇した[2、45]。
OncotypeDxとProMarkはいずれも腫瘍の不均一性に対する耐性を報告している[19,20]。これらの結果は、CaPの侵攻性を媒介し、腫瘍全体のGGを反映し、表現型の腫瘍の不均一性の領域にわたって一貫して存在する測定可能なクローン性変化が存在することを示唆している[46,47]。今回の研究では、腫瘍の不均一性に耐性を示し、サンプリングに基づくAUCが0.799(PRONTO-e)および0.786(PRONTO-m)であることを実証した2つの新しいGGの分類法を導き出し、独立して検証した。
PRONTO-eは、mRNA量およびDNA CNAタイプに分けられた353の特徴を含む。よりコンパクトなPARSE-mは、mRNA量、DNA CNA、およびDNAメチル化タイプに分けられた94の特徴を含み、手術前の臨床的および病理学的特徴(年齢、臨床ステージ、およびPSA、生検GG)を含む。両方の分類器は、GGが最も正確な前立腺切除組織に由来しているにもかかわらず、サンプリングエラーに耐性があるため、生検組織に使用する場合、ASか臨床管理か(AS versus clinical management)の判断により良い情報を提供できる可能性が高い。現在、統計的に検出力のあるコホートからの生検サンプルを用いて分類器を検証する作業が進行中である。
OncotypeDxとProlarisを同じ患者に実施すると、しばしば相反する推奨が得られる[48]。それにもかかわらず、このテストは生検の頻度と過剰治療を減らす可能性を示しており[40]、より正確な検査が、より優れているとまではいかなくても、同様の潜在的影響をもたらすことを示唆する。PRONTO-eおよびPRONTO-mの性能がコア生検で検証されれば、これらのアッセイは、この影響を劇的に改善する可能性がある。ASのために選択された1000人の仮定(hypothetical)の男性の診断生検に、各検証済み分類器をモデル適用することは比較的簡単であり、これらの男性の33%がAS中にアップグレードされると想定される[49]。
検査陽性者(男性1000人中534人)のうち、267人がTPであり、早期の反復生検および治療が有益であると思われる。検査陰性の男性466人のうち、偽陰性となるのはわずか13.5%(63人)であろう。FP判定された全症例の26.7%については、生検を追加するのではなく、より早期の最初のAS生検を行うことを提案する。これらの患者に対する早期生検は、さらなる病的状態なしに低GG疾患の病理学的な安心(reassurance)を提供するであろう。PRONTO-eの仮定的な結果も同様である(図9)。時間の経過とともに、このようなテストの使用は、低リスクと同定された患者の大部分に対するサーベイランスを緩和し、集団ベースで、生検の実施数を減少させることが可能である。
今回の研究により、PRONTO-eおよびPRONTO-mは、サンプリングエラーに強いGGの分子バイオマーカとして確立され、したがって診断用生検でうまく機能する可能性が高いことが明らかになった。それらの臨床における性能を完全に検証するために、更なる研究が必要であり、進行中である。多病巣性CaPは、生検によって高悪性度の「優性」病巣または「指標」病巣をサンプル採取できないまま、あまり重要でない低悪性度病巣を採取する可能性があるという点で、あらゆる生検検査の潜在的な落とし穴である。この現象は、生検と前立腺摘除の間にグレードアップした症例の20~30%を説明すると推定されている[15,50]。生検組織に対する分類器の性能はまた、小さな生検組織サンプルからの核酸収量が制限されることによっても損なわれる可能性がある。この制限は、外科用検体と比較して生検における分類器の性能を改善することが期待される因子によってバランスをとるべきであり、これには、生検組織で観察される高品質の核酸[51]や、臨床アッセイにおいてより高感度で正確な大規模並列配列決定技術[52]を採用する機会が含まれる。
いくつかの研究では、生検分類を手術後の転帰と関連付けているが、ASを受けている男性の検査結果と転帰とを結びつける情報はほとんどない。AS患者の生検におけるPRONTO-eとPRONTO-mの更なる検証が必要である。全体として、これらの結果は、トランスクリプトーム、エピゲノム、およびゲノムの特徴を組み合わせることで、CaP組織についての臨床に関連するバイオマーカの性能を改善できることを示している。この結果は、他の生物試料の種類(例、血液または尿)および腫瘍部位に利点があり得ることを示唆している。
本発明の好ましい実施形態を本明細書に記載したが、本発明の精神または添付の特許請求の範囲から逸脱することなく、これに対して変形を加えることができることは、当業者には理解されるであろう。以下の参考文献リスト中のものを含む、本明細書中に開示される全ての文献は、参考として援用される。
Claims (20)
- 前立腺癌を有する対象における疾患進行リスクを予測する方法であって、前記方法が
a)腫瘍細胞由来のRNAおよびDNA材料を含有するサンプルを提供するステップと、
b)表6のPRONTO-eについて列挙されるmRNAおよびコピー数異常(CNA)特徴を含む353の患者特徴の実質的に全て、並びに表6に記載される参照または対照特徴の一部または全部の値を決定または測定するステップと、
c)前記患者特徴を参照または対照特徴と比較するステップと、
d)患者特徴値を入力データとして採用する分類器を用いて予測スコアを計算するステップであって、前記分類器が、早期前立腺癌患者の集団からのサンプルについて事前に訓練されているステップとを含む方法。 - 353の患者特徴の実質的に全てが353の患者特徴の全てである、請求項1に記載の方法。
- 予測スコアを決定することが、患者の腫瘍を病理学的グリーソングレードグループ(GG)クラスに分類することを含む、請求項1~2のいずれか1項に記載の方法。
- 患者が病理学的GG1クラスに分類される場合に、アクティブサーベイランスで患者を管理することをさらに含む、請求項3~4のいずれか1項に記載の方法。
- 前立腺癌を有する対象における疾患進行リスクを予測する方法であって、前記方法が、
a)腫瘍細胞由来のRNAおよびDNA材料を含有するサンプルを提供するステップと、
b)表6のPRONTO-mについて列挙されるmRNA、CNA、メチル化および臨床的特徴を含む94の患者特徴の実質的に全て、並びに表6に記載された参照又は対照特徴の一部または全部を決定または測定するステップと、
c)前記患者特徴を参照又は対照特徴と比較するステップ、および
d)前記患者特徴の値を入力データとして採用する分類器を用いて予測スコアを計算するステップであって、前記分類器が、早期前立腺癌患者の集団からのサンプルについて事前に訓練されているステップとを含む方法。 - 94の患者バイオマーカの実質的に全てが94の患者バイオマーカの全てである、請求項7に記載の方法。
- 予測スコアを決定することが、患者の腫瘍を病理学的グリーソングレードグループ(GG)に分類することを含む、請求項7又は8に記載の方法。
- 患者が病理学的GG1クラスに分類される場合、アクティブサーベイランスで患者を管理することをさらに含む、請求項9又は10に記載の方法。
- 前立腺癌患者における疾患進行リスクを予測するコンピュータ実装方法であって、前記方法が、
a) 少なくとも1つのプロセッサにおいて、前立腺癌腫瘍に関するPRONTO-e又はPRONTO-m分類器に対応して請求項1または7に定義される患者特徴の実質的に全てを反映するデータ、および表6に記載される参照または対照特徴の一部または全部を受信するステップと、
b) 少なくとも1つのプロセッサにおいて、患者特徴に基づく患者プロファイルを構築するステップと、
c) 少なくとも1つのプロセッサにおいて、前記患者プロファイルを参照または対照と比較するステップと、
d) 少なくとも1つのプロセッサにおいて、前記患者プロファイルを入力データとして採用する分類器を用いて予測スコアを計算し、前記分類器は、早期前立腺癌患者の集団からのサンプルについて事前に訓練されているステップを含む、コンピュータ実装方法。 - PRONTO-eの場合には実質的に全ての患者特徴が353の患者特徴の全てであり、PRONTO-mの場合には94の患者特徴の全てである、請求項13に記載の方法。
- 前記予測スコアを計算することが、患者の腫瘍を病理学的GGクラスに分類することを含む、請求項13または14に記載の方法。
- 一つのプロセッサおよび前記プロセッサに接続されたメモリとを有する汎用コンピュータと共に使用するためのコンピュータプログラム製品であって、前記コンピュータプログラム製品が、エンコードされたコンピュータメカニズムを有するコンピュータ読み取り可能な記憶媒体を備え、コンピュータプログラムメカニズムが、コンピュータのメモリにロードされても良く、前記コンピュータに請求項13~15のいずれか1つに記載の方法を実行させ得る、コンピュータプログラム製品。
- 請求項16に記載のコンピュータプログラム製品を記憶するためのデータ構造を記憶したコンピュータ読み取り可能な媒体。
- 前立腺癌患者における疾患進行リスクを予測するための装置であって、前記装置が、
少なくとも1つのプロセッサおよび、
少なくとも1つのプロセッサと通信する電子メモリを備え、前記電子メモリが、少なくとも1つのプロセッサを実行する際に、少なくとも1つのプロセッサに、
a)前立腺癌腫瘍に関するPRONTO-eまたはPRONTO-m分類器に対応して請求項1または7に定義される患者特徴の実質的に全て、および表6に記載される参照または対照特徴の一部または全部を反映するデータを受信し、
b)前記患者特徴を参照または対照特徴と比較させ、および
c)少なくとも1つのプロセッサで、患者プロファイルを入力データとして採用する分類器を用いて予測スコアを計算させ、前記分類器は、早期前立腺癌患者の集団からのサンプルについて事前に訓練されていることを特徴とする、
プロセッサ実行可能なコードを記憶する装置。 - 前記患者特徴の実質的に全てが、PRONTO-eの場合には353の患者特徴の全てであり、PRONTO-mの場合には94の患者バイオマーカの全てである、請求項18に記載の装置。
- 前記予測スコアを計算することが、患者の腫瘍を病理学的GGクラスに分類することを含む、請求項18または19に記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063040692P | 2020-06-18 | 2020-06-18 | |
US63/040,692 | 2020-06-18 | ||
PCT/CA2021/050837 WO2021253134A1 (en) | 2020-06-18 | 2021-06-18 | Molecular classifiers for prostate cancer |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023531572A true JP2023531572A (ja) | 2023-07-25 |
Family
ID=79268815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022523714A Pending JP2023531572A (ja) | 2020-06-18 | 2021-06-18 | 前立腺癌の分子分類器 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20230105654A1 (ja) |
EP (1) | EP4010490A4 (ja) |
JP (1) | JP2023531572A (ja) |
CN (1) | CN114555823A (ja) |
AU (1) | AU2021291728A1 (ja) |
BR (1) | BR112022025425A2 (ja) |
CA (2) | CA3208969A1 (ja) |
WO (1) | WO2021253134A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114694748B (zh) * | 2022-02-22 | 2022-10-28 | 中国人民解放军军事科学院军事医学研究院 | 一种基于预后信息与强化学习的蛋白质组学分子分型方法 |
-
2021
- 2021-06-18 EP EP21826143.6A patent/EP4010490A4/en active Pending
- 2021-06-18 BR BR112022025425A patent/BR112022025425A2/pt unknown
- 2021-06-18 US US17/630,304 patent/US20230105654A1/en active Pending
- 2021-06-18 CN CN202180005794.9A patent/CN114555823A/zh active Pending
- 2021-06-18 AU AU2021291728A patent/AU2021291728A1/en active Pending
- 2021-06-18 WO PCT/CA2021/050837 patent/WO2021253134A1/en unknown
- 2021-06-18 CA CA3208969A patent/CA3208969A1/en active Pending
- 2021-06-18 CA CA3148876A patent/CA3148876A1/en active Pending
- 2021-06-18 JP JP2022523714A patent/JP2023531572A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
CA3208969A1 (en) | 2021-12-23 |
EP4010490A4 (en) | 2023-01-18 |
CN114555823A (zh) | 2022-05-27 |
WO2021253134A1 (en) | 2021-12-23 |
BR112022025425A2 (pt) | 2023-01-24 |
US20230105654A1 (en) | 2023-04-06 |
AU2021291728A1 (en) | 2022-02-24 |
CA3148876A1 (en) | 2021-12-23 |
EP4010490A1 (en) | 2022-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vieira et al. | An update on breast cancer multigene prognostic tests—emergent clinical biomarkers | |
JP7539443B2 (ja) | 癌の分類および予後 | |
Guiu et al. | Molecular subclasses of breast cancer: how do we define them? The IMPAKT 2012 Working Group Statement | |
DK2382331T3 (en) | CANCER biomarkers | |
JP5089993B2 (ja) | 乳癌の予後診断 | |
Bryant et al. | Clinically relevant characterization of lung adenocarcinoma subtypes based on cellular pathways: an international validation study | |
Chen et al. | Targeted gene expression profiling predicts meningioma outcomes and radiotherapy responses | |
WO2019197624A2 (en) | Improved classification and prognosis of prostate cancer | |
WO2010063121A1 (en) | Methods for biomarker identification and biomarker for non-small cell lung cancer | |
US20100280987A1 (en) | Methods and gene expression signature for assessing ras pathway activity | |
US20150126478A1 (en) | Accelerated progression relapse test | |
CN113853444A (zh) | 癌症患者生存率的预测方法 | |
Hunt et al. | MST1R (RON) expression is a novel prognostic biomarker for metastatic progression in breast cancer patients | |
Scott et al. | A multi-scale integrated analysis identifies KRT8 as a pan-cancer early biomarker | |
JP2023531572A (ja) | 前立腺癌の分子分類器 | |
Xia et al. | DNA methylation-based classification of small B-cell lymphomas: a proof-of-principle study | |
TW201926094A (zh) | 三陰性乳癌的次分類及方法 | |
Kuznetsov et al. | Statistically weighted voting analysis of microarrays for molecular pattern selection and discovery cancer genotypes | |
CN110592212A (zh) | 一种肺癌检测联合标志物、检测试剂盒及其用途 | |
Torres-García et al. | Hedgehog-mesenchyme gene signature identifies bi-modal prognosis in luminal and basal breast cancer sub-types | |
Pan | Examination of Breast Cancer Biomarkers Using Gene Expression Order Concepts | |
Chen | Choudhur,., oungblood, MW, Polle, M | |
Nwosu et al. | A Comprehensive Meta-Analysis of Breast Cancer Gene Expression | |
CA2930972A1 (en) | Gene signatures for renal cancer prognosis | |
Catto | DESNT: A Poor Prognosis Category of Human Prostate Cancer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240517 |