JP2023522940A - 性能測定基準に従ったがん検出パネルの生成 - Google Patents
性能測定基準に従ったがん検出パネルの生成 Download PDFInfo
- Publication number
- JP2023522940A JP2023522940A JP2022564030A JP2022564030A JP2023522940A JP 2023522940 A JP2023522940 A JP 2023522940A JP 2022564030 A JP2022564030 A JP 2022564030A JP 2022564030 A JP2022564030 A JP 2022564030A JP 2023522940 A JP2023522940 A JP 2023522940A
- Authority
- JP
- Japan
- Prior art keywords
- genomic regions
- cancer
- panel
- genomic
- regions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 444
- 201000011510 cancer Diseases 0.000 title claims abstract description 396
- 238000001514 detection method Methods 0.000 title claims abstract description 149
- 230000035945 sensitivity Effects 0.000 claims abstract description 94
- 238000013145 classification model Methods 0.000 claims abstract description 77
- 230000003612 virological effect Effects 0.000 claims abstract description 49
- 201000010099 disease Diseases 0.000 claims abstract description 48
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 48
- 239000007788 liquid Substances 0.000 claims abstract description 39
- 238000003556 assay Methods 0.000 claims abstract description 38
- 239000007787 solid Substances 0.000 claims abstract description 26
- 239000000523 sample Substances 0.000 claims description 209
- 108090000623 proteins and genes Proteins 0.000 claims description 135
- 238000000034 method Methods 0.000 claims description 114
- 238000012163 sequencing technique Methods 0.000 claims description 60
- 150000007523 nucleic acids Chemical class 0.000 claims description 33
- 108700028369 Alleles Proteins 0.000 claims description 31
- 239000002773 nucleotide Substances 0.000 claims description 29
- 125000003729 nucleotide group Chemical group 0.000 claims description 29
- 241000700605 Viruses Species 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 24
- 238000007477 logistic regression Methods 0.000 claims description 21
- 108020004707 nucleic acids Proteins 0.000 claims description 20
- 102000039446 nucleic acids Human genes 0.000 claims description 20
- 108091026890 Coding region Proteins 0.000 claims description 18
- 206010069754 Acquired gene mutation Diseases 0.000 claims description 13
- 241000341655 Human papillomavirus type 16 Species 0.000 claims description 13
- 238000013461 design Methods 0.000 claims description 13
- 230000037439 somatic mutation Effects 0.000 claims description 13
- -1 TERT1 Proteins 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 9
- 101001042041 Bos taurus Isocitrate dehydrogenase [NAD] subunit beta, mitochondrial Proteins 0.000 claims description 8
- 102100025064 Cellular tumor antigen p53 Human genes 0.000 claims description 8
- 102100039788 GTPase NRas Human genes 0.000 claims description 8
- 102100027768 Histone-lysine N-methyltransferase 2D Human genes 0.000 claims description 8
- 101000744505 Homo sapiens GTPase NRas Proteins 0.000 claims description 8
- 101001008894 Homo sapiens Histone-lysine N-methyltransferase 2D Proteins 0.000 claims description 8
- 101000960234 Homo sapiens Isocitrate dehydrogenase [NADP] cytoplasmic Proteins 0.000 claims description 8
- 101000653374 Homo sapiens Methylcytosine dioxygenase TET2 Proteins 0.000 claims description 8
- 102100039905 Isocitrate dehydrogenase [NADP] cytoplasmic Human genes 0.000 claims description 8
- 102100030803 Methylcytosine dioxygenase TET2 Human genes 0.000 claims description 8
- 108700020796 Oncogene Proteins 0.000 claims description 8
- 102000043276 Oncogene Human genes 0.000 claims description 8
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 238000003780 insertion Methods 0.000 claims description 8
- 230000037431 insertion Effects 0.000 claims description 8
- 206010025323 Lymphomas Diseases 0.000 claims description 7
- 102100034134 Activin receptor type-1B Human genes 0.000 claims description 6
- 102100021975 CREB-binding protein Human genes 0.000 claims description 6
- 102100028914 Catenin beta-1 Human genes 0.000 claims description 6
- 206010008342 Cervix carcinoma Diseases 0.000 claims description 6
- 102100038111 Cyclin-dependent kinase 12 Human genes 0.000 claims description 6
- 108010076010 Cystathionine beta-lyase Proteins 0.000 claims description 6
- 102100035813 E3 ubiquitin-protein ligase CBL Human genes 0.000 claims description 6
- 102100039577 ETS translocation variant 5 Human genes 0.000 claims description 6
- 102100021606 Ephrin type-A receptor 7 Human genes 0.000 claims description 6
- 102100030779 Ephrin type-B receptor 1 Human genes 0.000 claims description 6
- 102100030708 GTPase KRas Human genes 0.000 claims description 6
- 102100029458 Glutamate receptor ionotropic, NMDA 2A Human genes 0.000 claims description 6
- 102100027755 Histone-lysine N-methyltransferase 2C Human genes 0.000 claims description 6
- 101000799189 Homo sapiens Activin receptor type-1B Proteins 0.000 claims description 6
- 101000896987 Homo sapiens CREB-binding protein Proteins 0.000 claims description 6
- 101000916173 Homo sapiens Catenin beta-1 Proteins 0.000 claims description 6
- 101000884345 Homo sapiens Cyclin-dependent kinase 12 Proteins 0.000 claims description 6
- 101000813745 Homo sapiens ETS translocation variant 5 Proteins 0.000 claims description 6
- 101000898708 Homo sapiens Ephrin type-A receptor 7 Proteins 0.000 claims description 6
- 101001064150 Homo sapiens Ephrin type-B receptor 1 Proteins 0.000 claims description 6
- 101000584612 Homo sapiens GTPase KRas Proteins 0.000 claims description 6
- 101001125242 Homo sapiens Glutamate receptor ionotropic, NMDA 2A Proteins 0.000 claims description 6
- 101001008892 Homo sapiens Histone-lysine N-methyltransferase 2C Proteins 0.000 claims description 6
- 101000984620 Homo sapiens Low-density lipoprotein receptor-related protein 1B Proteins 0.000 claims description 6
- 101000579425 Homo sapiens Proto-oncogene tyrosine-protein kinase receptor Ret Proteins 0.000 claims description 6
- 101000728107 Homo sapiens Putative Polycomb group protein ASXL2 Proteins 0.000 claims description 6
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 claims description 6
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 claims description 6
- 102000004034 Kelch-Like ECH-Associated Protein 1 Human genes 0.000 claims description 6
- 108090000484 Kelch-Like ECH-Associated Protein 1 Proteins 0.000 claims description 6
- 102100027121 Low-density lipoprotein receptor-related protein 1B Human genes 0.000 claims description 6
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 claims description 6
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 claims description 6
- 102100028286 Proto-oncogene tyrosine-protein kinase receptor Ret Human genes 0.000 claims description 6
- 102100029750 Putative Polycomb group protein ASXL2 Human genes 0.000 claims description 6
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 claims description 6
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 claims description 6
- 102100027881 Tumor protein 63 Human genes 0.000 claims description 6
- 101710140697 Tumor protein 63 Proteins 0.000 claims description 6
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 claims description 6
- 201000010881 cervical cancer Diseases 0.000 claims description 6
- 102100023387 Endoribonuclease Dicer Human genes 0.000 claims description 5
- 102100038970 Histone-lysine N-methyltransferase EZH2 Human genes 0.000 claims description 5
- 101000907904 Homo sapiens Endoribonuclease Dicer Proteins 0.000 claims description 5
- 101000882127 Homo sapiens Histone-lysine N-methyltransferase EZH2 Proteins 0.000 claims description 5
- 101000707567 Homo sapiens Splicing factor 3B subunit 1 Proteins 0.000 claims description 5
- 101000617808 Homo sapiens Synphilin-1 Proteins 0.000 claims description 5
- 101150053046 MYD88 gene Proteins 0.000 claims description 5
- 102100025725 Mothers against decapentaplegic homolog 4 Human genes 0.000 claims description 5
- 101710143112 Mothers against decapentaplegic homolog 4 Proteins 0.000 claims description 5
- 208000034578 Multiple myelomas Diseases 0.000 claims description 5
- 102100024134 Myeloid differentiation primary response protein MyD88 Human genes 0.000 claims description 5
- 102000001759 Notch1 Receptor Human genes 0.000 claims description 5
- 108010029755 Notch1 Receptor Proteins 0.000 claims description 5
- 206010035226 Plasma cell myeloma Diseases 0.000 claims description 5
- 102100031711 Splicing factor 3B subunit 1 Human genes 0.000 claims description 5
- 102100021997 Synphilin-1 Human genes 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 208000032839 leukemia Diseases 0.000 claims description 5
- 102100033793 ALK tyrosine kinase receptor Human genes 0.000 claims description 4
- 102100027205 B-cell antigen receptor complex-associated protein alpha chain Human genes 0.000 claims description 4
- 102000052609 BRCA2 Human genes 0.000 claims description 4
- 108700020462 BRCA2 Proteins 0.000 claims description 4
- 101150008921 Brca2 gene Proteins 0.000 claims description 4
- 102100026548 Caspase-8 Human genes 0.000 claims description 4
- 108091007854 Cdh1/Fizzy-related Proteins 0.000 claims description 4
- 102000038594 Cdh1/Fizzy-related Human genes 0.000 claims description 4
- 108010009392 Cyclin-Dependent Kinase Inhibitor p16 Proteins 0.000 claims description 4
- 102100024812 DNA (cytosine-5)-methyltransferase 3A Human genes 0.000 claims description 4
- 108010024491 DNA Methyltransferase 3A Proteins 0.000 claims description 4
- 102100034157 DNA mismatch repair protein Msh2 Human genes 0.000 claims description 4
- 102100037713 Down syndrome cell adhesion molecule Human genes 0.000 claims description 4
- 102100026245 E3 ubiquitin-protein ligase RNF43 Human genes 0.000 claims description 4
- 101710105178 F-box/WD repeat-containing protein 7 Proteins 0.000 claims description 4
- 102100028138 F-box/WD repeat-containing protein 7 Human genes 0.000 claims description 4
- 102100027842 Fibroblast growth factor receptor 3 Human genes 0.000 claims description 4
- 101710182396 Fibroblast growth factor receptor 3 Proteins 0.000 claims description 4
- 102100029974 GTPase HRas Human genes 0.000 claims description 4
- 102100032610 Guanine nucleotide-binding protein G(s) subunit alpha isoforms XLas Human genes 0.000 claims description 4
- 102100033071 Histone acetyltransferase KAT6A Human genes 0.000 claims description 4
- 102100038885 Histone acetyltransferase p300 Human genes 0.000 claims description 4
- 101000779641 Homo sapiens ALK tyrosine kinase receptor Proteins 0.000 claims description 4
- 101000914489 Homo sapiens B-cell antigen receptor complex-associated protein alpha chain Proteins 0.000 claims description 4
- 101000983528 Homo sapiens Caspase-8 Proteins 0.000 claims description 4
- 101000777079 Homo sapiens Chromodomain-helicase-DNA-binding protein 2 Proteins 0.000 claims description 4
- 101001134036 Homo sapiens DNA mismatch repair protein Msh2 Proteins 0.000 claims description 4
- 101000880945 Homo sapiens Down syndrome cell adhesion molecule Proteins 0.000 claims description 4
- 101000692702 Homo sapiens E3 ubiquitin-protein ligase RNF43 Proteins 0.000 claims description 4
- 101000584633 Homo sapiens GTPase HRas Proteins 0.000 claims description 4
- 101001014590 Homo sapiens Guanine nucleotide-binding protein G(s) subunit alpha isoforms XLas Proteins 0.000 claims description 4
- 101001014594 Homo sapiens Guanine nucleotide-binding protein G(s) subunit alpha isoforms short Proteins 0.000 claims description 4
- 101000944179 Homo sapiens Histone acetyltransferase KAT6A Proteins 0.000 claims description 4
- 101000882390 Homo sapiens Histone acetyltransferase p300 Proteins 0.000 claims description 4
- 101001053362 Homo sapiens Inositol polyphosphate-4-phosphatase type I A Proteins 0.000 claims description 4
- 101000599886 Homo sapiens Isocitrate dehydrogenase [NADP], mitochondrial Proteins 0.000 claims description 4
- 101001088892 Homo sapiens Lysine-specific demethylase 5A Proteins 0.000 claims description 4
- 101000972918 Homo sapiens MAX gene-associated protein Proteins 0.000 claims description 4
- 101001052076 Homo sapiens Maltase-glucoamylase Proteins 0.000 claims description 4
- 101001052493 Homo sapiens Mitogen-activated protein kinase 1 Proteins 0.000 claims description 4
- 101001014610 Homo sapiens Neuroendocrine secretory protein 55 Proteins 0.000 claims description 4
- 101000741978 Homo sapiens Phosphatidylinositol 3,4,5-trisphosphate-dependent Rac exchanger 2 protein Proteins 0.000 claims description 4
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 claims description 4
- 101001126417 Homo sapiens Platelet-derived growth factor receptor alpha Proteins 0.000 claims description 4
- 101000797903 Homo sapiens Protein ALEX Proteins 0.000 claims description 4
- 101000876829 Homo sapiens Protein C-ets-1 Proteins 0.000 claims description 4
- 101000779418 Homo sapiens RAC-alpha serine/threonine-protein kinase Proteins 0.000 claims description 4
- 101000606537 Homo sapiens Receptor-type tyrosine-protein phosphatase delta Proteins 0.000 claims description 4
- 101000742859 Homo sapiens Retinoblastoma-associated protein Proteins 0.000 claims description 4
- 101000771237 Homo sapiens Serine/threonine-protein kinase A-Raf Proteins 0.000 claims description 4
- 101001047637 Homo sapiens Serine/threonine-protein kinase LATS2 Proteins 0.000 claims description 4
- 101000881267 Homo sapiens Spectrin alpha chain, erythrocytic 1 Proteins 0.000 claims description 4
- 101000819111 Homo sapiens Trans-acting T-cell-specific transcription factor GATA-3 Proteins 0.000 claims description 4
- 101000835093 Homo sapiens Transferrin receptor protein 1 Proteins 0.000 claims description 4
- 101000648507 Homo sapiens Tumor necrosis factor receptor superfamily member 14 Proteins 0.000 claims description 4
- 102100024367 Inositol polyphosphate-4-phosphatase type I A Human genes 0.000 claims description 4
- 102100037845 Isocitrate dehydrogenase [NADP], mitochondrial Human genes 0.000 claims description 4
- 102100033246 Lysine-specific demethylase 5A Human genes 0.000 claims description 4
- 108010075654 MAP Kinase Kinase Kinase 1 Proteins 0.000 claims description 4
- 102100022621 MAX gene-associated protein Human genes 0.000 claims description 4
- 229910015837 MSH2 Inorganic materials 0.000 claims description 4
- 102100024193 Mitogen-activated protein kinase 1 Human genes 0.000 claims description 4
- 102100033115 Mitogen-activated protein kinase kinase kinase 1 Human genes 0.000 claims description 4
- 101150097381 Mtor gene Proteins 0.000 claims description 4
- 102100038633 Phosphatidylinositol 3,4,5-trisphosphate-dependent Rac exchanger 2 protein Human genes 0.000 claims description 4
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 claims description 4
- 102100030485 Platelet-derived growth factor receptor alpha Human genes 0.000 claims description 4
- 102100035251 Protein C-ets-1 Human genes 0.000 claims description 4
- 102100033810 RAC-alpha serine/threonine-protein kinase Human genes 0.000 claims description 4
- 101150111584 RHOA gene Proteins 0.000 claims description 4
- 102100029986 Receptor tyrosine-protein kinase erbB-3 Human genes 0.000 claims description 4
- 101710100969 Receptor tyrosine-protein kinase erbB-3 Proteins 0.000 claims description 4
- 102100039666 Receptor-type tyrosine-protein phosphatase delta Human genes 0.000 claims description 4
- 102100038042 Retinoblastoma-associated protein Human genes 0.000 claims description 4
- 102100029437 Serine/threonine-protein kinase A-Raf Human genes 0.000 claims description 4
- 102100024043 Serine/threonine-protein kinase LATS2 Human genes 0.000 claims description 4
- 102100023085 Serine/threonine-protein kinase mTOR Human genes 0.000 claims description 4
- 206010041067 Small cell lung cancer Diseases 0.000 claims description 4
- 102100037608 Spectrin alpha chain, erythrocytic 1 Human genes 0.000 claims description 4
- 102100021386 Trans-acting T-cell-specific transcription factor GATA-3 Human genes 0.000 claims description 4
- 102100026144 Transferrin receptor protein 1 Human genes 0.000 claims description 4
- 102100022387 Transforming protein RhoA Human genes 0.000 claims description 4
- 102100028785 Tumor necrosis factor receptor superfamily member 14 Human genes 0.000 claims description 4
- 102100033254 Tumor suppressor ARF Human genes 0.000 claims description 4
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 claims description 4
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 claims description 4
- 230000000869 mutational effect Effects 0.000 claims description 4
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 claims description 4
- 208000000587 small cell lung carcinoma Diseases 0.000 claims description 4
- 230000008685 targeting Effects 0.000 claims description 4
- 102100034580 AT-rich interactive domain-containing protein 1A Human genes 0.000 claims description 3
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 claims description 3
- 101000924266 Homo sapiens AT-rich interactive domain-containing protein 1A Proteins 0.000 claims description 3
- 101000785776 Homo sapiens Artemin Proteins 0.000 claims description 3
- 101000981336 Homo sapiens Nibrin Proteins 0.000 claims description 3
- 102000048238 Neuregulin-1 Human genes 0.000 claims description 3
- 108090000556 Neuregulin-1 Proteins 0.000 claims description 3
- 102100024403 Nibrin Human genes 0.000 claims description 3
- 206010033128 Ovarian cancer Diseases 0.000 claims description 3
- 206010061535 Ovarian neoplasm Diseases 0.000 claims description 3
- 230000002496 gastric effect Effects 0.000 claims description 3
- 208000014829 head and neck neoplasm Diseases 0.000 claims description 3
- 201000005249 lung adenocarcinoma Diseases 0.000 claims description 3
- 206010005003 Bladder cancer Diseases 0.000 claims description 2
- 206010006187 Breast cancer Diseases 0.000 claims description 2
- 208000026310 Breast neoplasm Diseases 0.000 claims description 2
- 206010009944 Colon cancer Diseases 0.000 claims description 2
- 206010017993 Gastrointestinal neoplasms Diseases 0.000 claims description 2
- 206010073073 Hepatobiliary cancer Diseases 0.000 claims description 2
- 208000008839 Kidney Neoplasms Diseases 0.000 claims description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 claims description 2
- 206010025537 Malignant anorectal neoplasms Diseases 0.000 claims description 2
- 206010061902 Pancreatic neoplasm Diseases 0.000 claims description 2
- 206010060862 Prostate cancer Diseases 0.000 claims description 2
- 208000000236 Prostatic Neoplasms Diseases 0.000 claims description 2
- 206010038389 Renal cancer Diseases 0.000 claims description 2
- 206010039491 Sarcoma Diseases 0.000 claims description 2
- 101100020617 Solanum lycopersicum LAT52 gene Proteins 0.000 claims description 2
- 208000024770 Thyroid neoplasm Diseases 0.000 claims description 2
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 claims description 2
- 208000002495 Uterine Neoplasms Diseases 0.000 claims description 2
- 239000012472 biological sample Substances 0.000 claims description 2
- 238000003745 diagnosis Methods 0.000 claims description 2
- 201000010536 head and neck cancer Diseases 0.000 claims description 2
- 201000010982 kidney cancer Diseases 0.000 claims description 2
- 201000005202 lung cancer Diseases 0.000 claims description 2
- 208000020816 lung neoplasm Diseases 0.000 claims description 2
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 claims description 2
- 201000001441 melanoma Diseases 0.000 claims description 2
- 201000002120 neuroendocrine carcinoma Diseases 0.000 claims description 2
- 201000011519 neuroendocrine tumor Diseases 0.000 claims description 2
- 201000002528 pancreatic cancer Diseases 0.000 claims description 2
- 208000008443 pancreatic carcinoma Diseases 0.000 claims description 2
- 238000004393 prognosis Methods 0.000 claims description 2
- 201000000963 pulmonary neuroendocrine tumor Diseases 0.000 claims description 2
- 206010041823 squamous cell carcinoma Diseases 0.000 claims description 2
- 201000002510 thyroid cancer Diseases 0.000 claims description 2
- 206010044412 transitional cell carcinoma Diseases 0.000 claims description 2
- 238000011282 treatment Methods 0.000 claims description 2
- 201000005112 urinary bladder cancer Diseases 0.000 claims description 2
- 206010046766 uterine cancer Diseases 0.000 claims description 2
- 208000001333 Colorectal Neoplasms Diseases 0.000 claims 1
- 208000009956 adenocarcinoma Diseases 0.000 claims 1
- 230000001052 transient effect Effects 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 19
- 108020004414 DNA Proteins 0.000 description 18
- 230000035772 mutation Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 210000001519 tissue Anatomy 0.000 description 11
- 210000004369 blood Anatomy 0.000 description 8
- 239000008280 blood Substances 0.000 description 8
- 210000004027 cell Anatomy 0.000 description 8
- 238000011002 quantification Methods 0.000 description 7
- 210000000481 breast Anatomy 0.000 description 5
- 210000001072 colon Anatomy 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 210000004072 lung Anatomy 0.000 description 5
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003752 polymerase chain reaction Methods 0.000 description 4
- 238000003753 real-time PCR Methods 0.000 description 4
- 210000003932 urinary bladder Anatomy 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 238000001574 biopsy Methods 0.000 description 3
- 239000013611 chromosomal DNA Substances 0.000 description 3
- 210000000265 leukocyte Anatomy 0.000 description 3
- 230000002611 ovarian Effects 0.000 description 3
- 108091092584 GDNA Proteins 0.000 description 2
- 238000011529 RT qPCR Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 210000003679 cervix uteri Anatomy 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000007847 digital PCR Methods 0.000 description 2
- 210000003238 esophagus Anatomy 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 210000004602 germ cell Anatomy 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 229920001519 homopolymer Polymers 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000003739 neck Anatomy 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 210000001672 ovary Anatomy 0.000 description 2
- 210000000496 pancreas Anatomy 0.000 description 2
- 239000013610 patient sample Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 210000002784 stomach Anatomy 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- 102100027833 14-3-3 protein sigma Human genes 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 230000009946 DNA mutation Effects 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 101000723509 Homo sapiens 14-3-3 protein sigma Proteins 0.000 description 1
- 101001130862 Homo sapiens Oligoribonuclease, mitochondrial Proteins 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 208000009565 Pharyngeal Neoplasms Diseases 0.000 description 1
- 206010034811 Pharyngeal cancer Diseases 0.000 description 1
- 244000141353 Prunus domestica Species 0.000 description 1
- 244000130402 Waltheria indica Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 238000001369 bisulfite sequencing Methods 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 208000026037 malignant tumor of neck Diseases 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 210000002381 plasma Anatomy 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 238000007482 whole exome sequencing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/70—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
- C12Q1/701—Specific hybridization probes
- C12Q1/708—Specific hybridization probes for papilloma
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/106—Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Physics & Mathematics (AREA)
- Genetics & Genomics (AREA)
- Zoology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- General Health & Medical Sciences (AREA)
- Wood Science & Technology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Pathology (AREA)
- Molecular Biology (AREA)
- Public Health (AREA)
- Microbiology (AREA)
- General Engineering & Computer Science (AREA)
- Biochemistry (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Hospice & Palliative Care (AREA)
- Theoretical Computer Science (AREA)
- Epidemiology (AREA)
- Oncology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Virology (AREA)
Abstract
システムは、がん検出パネルを生成する。システムは、特定の性能閾値以上でがんの存在を検出する一方、最小化サイズおよび数のゲノム領域を有するアッセイを生成するように構成される。パネルに対するゲノム領域を選択するため、システムは、分類モデルを採用する。分類モデルは、疾病の存在と関連しうるゲノム領域のセットを受信する。モデルは、続いて、各ゲノム領域に対する感度スコアを判定し、それらのスコアに従って領域をランク付けする。感度スコアは、ゲノム領域の変動ががんを示す尤度に基づいている。モデルは、続いて、それらのランクに基づいてパネルに対するゲノム領域を選択する。モデルは、所望の検出性能に対して必要な数のゲノム指標のみを選択する。ゲノム領域は、固形がんまたは液状がん、ウイルス領域、またはがんホットスポットと関連しうる。
Description
本出願は、2020年4月21日に出願された仮特許出願第63/013,512号および2021年4月19日に出願された米国特許出願第17/233,548号の優先権を主張するものであり、その内容は、参照により本明細書に援用する。
本開示は、疾患検出パネルの生成、より具体的には、検出能力モデルを使用したがん検出パネルの生成に関する。
DNAシークエンシングデータに対して計算技術を使用することにより、様々な種類のがんまたは他の疾病に対応しうるDNAの変異またはバリアントを同定することができる。しかしながら、バリアントおよび変異の同定のためにシークエンシングデータを効率的にプルダウンする疾患検出パネルを設計することは、難易度の高いプロセスである。典型的に、疾患検出パネルは、パネルに対して選択された多数のゲノム領域を含む。それらの含まれる領域が選択されるのは、それらの領域の変動が、疾病の存在および/または疾病の種類を示すことが前もって示されているためである。しかしながら、含まれる領域は、いかなる方法によってもキュレートされていないことが多く、結果として得られるパネルは、大きく、高価である。
本明細書においては、疾病分類のための縮小遺伝子パネルを生成する方法が開示される。本方法は、コンピューターシステムにより実施されてよい。始めに、システムは、ゲノム領域の第1セットに対するシークエンシングデータを取得する。例えば、50のゲノム領域のセットである。システムは、ゲノム領域の第1セットに対するシークエンシングデータから複数の特徴量を導出する。
システムは、続いて、分類モデルを特徴量に適用する。分類モデルは、特徴量を使用して疾病分類を予測する。そうするために、分類モデルは、ゲノム領域の第1セットに対応するモデル係数のセットを生成する。システムは、続いて、ゲノム領域をそれらのモデル係数に従ってランク付けする。例えば、最も高いモデル係数を持つゲノム領域が、1番にランク付けされる。
システムは、ランク付けに基づいて疾病分類を最適化する、ゲノム領域の第1サブセットを同定する。例えば、最も高いモデル係数を有するゲノム指標の第1セットから41のゲノム指標を選択することによる。次に、システムは、ゲノム領域の第1サブセットを含む縮小遺伝子パネル、例えば、サブセットに41のゲノム指標を含む遺伝子パネルを生成する。
実施形態によっては、シークエンシングデータは、複数の患者から取得された生体試料に存在するシークエンシングセルフリー核酸分子から取得される。このようにして、ゲノム領域の第1セットは、がん関連遺伝子、変異ホットスポット、および/またはウイルス領域の少なくとも1つを含むことができる。いくつかの例においては、ゲノム領域の第1セットは、高シグナルのがんまたは液状がんと関連しているゲノム領域を含む。
実施形態によっては、特徴量は、ゲノム領域の第1セットの各ゲノム領域において、バリアントの最大アレル頻度を含む。様々な例において、特徴量は、バリアントの有無、平均アレル頻度、小バリアントの総数、および真のバリアントのアレル頻度の少なくとも1つに対応する特徴を表すことができる。バリアントは、一塩基バリアント、挿入、および/または欠失でありうる。
実施形態によっては、分類モデルは、ロジスティック回帰モデルを含む。よって、モデル係数のセットは、導出された特徴量によりロジスティック回帰モデルを訓練することにより取得された回帰係数を含む。
上述したように、システムは、疾病分類を最適化する、ゲノム領域の第1サブセットを同定する。実施形態によっては、第1サブセットを同定するため、システムは、最初の反復において、分類モデルを訓練し、第1ゲノム領域に対応する特徴量に基づいて疾病分類を予測する。すなわち、第1ゲノム領域は、最も高くランク付けされたゲノム領域に対応する。システムは、続いて、第1ゲノム領域に対して訓練された分類モデルの性能測定基準を判定する。
続いて、後続の反復において、システムは、残りのランク付けされたゲノム領域を取り込み、各追加的なゲノム領域が取り込まれた後に性能測定基準を評価することにより、分類モデルを再訓練する。システム、各後続の反復により、欲張りアルゴリズムを適用し、残りのランク付けされたゲノム領域の内、次に高くランク付けされたゲノム領域を分類モデルに追加する。よって、システムは、追加された次に高くランク付けされたゲノム領域および先の反復で前もって追加されたゲノム領域と関連している特徴量を使用して分類モデルを再訓練する。従って、システムは、続いて、再訓練された分類モデルに対する性能測定基準を判定し、各反復に対して取得された性能測定基準を評価する。評価された性能測定基準に基づいて、システムは、最適化された性能測定基準をもたらす、ゲノム領域の第1サブセットを同定することを確認する。
実施形態によっては、最適化された性能測定基準は、分類モデルにより得られた最大性能測定基準である。例えば、最適化された性能測定基準は、ゲノム指標のセットに対する所定の特異度レベルにおける最適化された感度レベルでありうる。縮小遺伝子パネルにより取得された性能測定基準は、完全なゲノム領域の第1セットを含む完全な遺伝子パネルにより取得された性能測定基準と実質的に同様である。
実施形態によっては、ゲノム領域の第1セットは、高シグナルのがんと関連しているゲノム領域を含み、約2Mbのセットサイズを有する。よって、ゲノム領域の第1サブセットは、300kb未満のサブセットサイズを有することができるが、他のサイズでもよい。従って、縮小遺伝子パネルは、300kbを超えない総パネルサイズを有する。
場合によっては、システムは、ゲノム領域の第2セットを使用してゲノム領域の第2サブセットを判定してよい。この場合、システムは、ゲノム領域の第1サブセットにより得られた疾病分類を更に改善する、ゲノム領域の第2サブセットを同定する。一旦同定すると、システムは、ゲノム領域の第1サブセットおよびゲノム領域の第2サブセットを含む縮小遺伝子パネルを生成する。
これを成し遂げるため、システムは、ゲノム領域の第2セットに対するシークエンシングデータの第2セットを取得する。システムは、続いて、ゲノム領域の第2セットをランク付けし、ランク付けされたゲノム領域の第2セットに基づいてゲノム領域の第2サブセットを同定する。一例において、ゲノム領域の第2セットは、患者ごとの体細胞変異の頻度、および/またはコード領域の長さにより正規化された頻度に従ってランク付けされてよい。
実施形態によっては、ゲノム領域の追加的なセットを使用した、ゲノム領域の他の追加的なサブセットもある。例えば、システムは、縮小遺伝子パネルにより得られた疾病分類を更に改善する、ゲノム領域の第3サブセットを同定する。システムは、続いて、縮小遺伝子パネルにゲノム領域の第3サブセットを含む。ゲノム領域の第3サブセットは、縮小パネルの疾病の種類の予測精度を最適化できる。さらに、ゲノム領域の第3セットは、がん特異的遺伝子およびホットスポットでありうる。
含まれうるいくつかの追加的なゲノム領域は、一塩基バリアント、挿入、または欠失に対応するホットスポット領域を含む。別のゲノム領域は、ウイルス関連がんに対応するウイルス標的領域を含むことができる。これらの場合、分類モデルは、縮小パネルに含むべきゲノム領域の数を任意に選択してよい。
実施形態によっては、疾病分類は、がんまたは非がんを予測するための二項分類を含んでよい。分類は、更に/または、がんの種類を予測するための多クラス分類も含んでよい。
実施形態によっては、システムは、1つまたは複数のプログラムを保管する非一時的コンピュータ可読媒体において実施されてよい。プログラムは、プロセッサを含む電子デバイスにより実行されたときにデバイスに先行する請求項の方法のいずれかを実行させる指示を含むことができる。
実施形態によっては、電子デバイスは、1つまたは複数のプロセッサと、メモリと、1つまたは複数のプログラムとを含んでよい。1つまたは複数のプログラムは、メモリに保管され、デバイスの1つまたは複数のプロセッサにより実行されるように構成されうる。1つまたは複数のプログラムは、先行する請求項の方法のいずれかを実行するための指示を含む。
上述したように、システムは、疾患検出(例えば、がん)アッセイパネルを生成できる。パネルを生成するため、システムは、(i)高シグナルのがん遺伝子および液状がん遺伝子と関連しているゲノム領域の第1セット、(ii)がん特異的遺伝子およびがん特異的ホットスポットと関連しているゲノム領域の第2セット、および(iii)一塩基バリアントまたはインデルに対するホットスポットと関連しているゲノム領域の第3セット、および(iv)ウイルス標的と関連しているゲノム領域の第4セットのいずれかからゲノム領域を選択できる。システムは、続いて、複数のプローブセットを含むがんアッセイパネルを生成する。複数のプローブセットの各プローブセットは、ゲノム領域の第1、第2、第3、および第4セットにおけるゲノム領域の少なくとも1つを標的とするための一対のプローブを含むことができる。
ゲノム領域の第1、第2、第3、および/または第4セットからゲノム領域を選択する際、システムは、分類モデルを適用し、がんアッセイパネルの検出感度への各ゲノム領域の寄与を算定してよい。
実施形態によっては、ゲノム領域の第1セットは、本明細書の表1に開示された1つまたは複数のゲノム領域を含み、ゲノム領域の第3セットは、本明細書の表3、表4、表5、および/または表6に開示された1つまたは複数のゲノム領域を含む。実施形態によっては、システムは、パネルの検出感度を改善するゲノム領域の第5セットを選択し、ゲノム領域の第5セットは、本明細書の表2に開示された1つまたは複数のゲノム領域を含む。
実施形態によっては、ゲノム領域の第2セットは、CASP8、IDH1、TERT1、およびEGFRの1つまたは複数を含む。実施形態によっては、ゲノム領域の第4セットは、HPV16、HPV18、EBV、およびHBVにおける1つまたは複数のゲノム領域に位置する1つまたは複数の部位を含む。
システムは、本明細書に示されたゲノム領域を使用してパネルを生成してよい。パネルは、病状が進むリスクを算定する、病状を検出する、および/または病状を診断する方法において採用されてよい。方法は、遺伝子のセットの少なくとも1つの遺伝子における体細胞変異を含んでよい。遺伝子は、セルフリー核酸試料から取得されてよい。方法は、続いて、検出された体細胞変異に基づいて病状を判定する。様々な実施形態において、体細胞変異を検出することは、SNV、挿入、および/または欠失を検出することを含むことができる。一実施形態において、方法は、遺伝子および遺伝子において検出された体細胞変異に従って、治療、予後、または診断を進めることを含んでもよい。
一実施形態において、遺伝子のセットは、遺伝子の第1群から選択された3つ、5つ、または10以上の遺伝子を含んでよい。遺伝子の第1群は、KRAS、TP53、ERBB2、EPHB1、NRAS、ACVR1B、TP63、KEAP1、CDK12、KMT2D、DICER1、TET2、LATS2、ETV5、GRIN2A、EPHA7、ASXL2、RET、CHD2、RB1、CDH1、PDGFRA、BRCA2、TFRC、ALK、KDM5A、SMAD4、ATR、NOTCH1、NRG1、CTNNB1、KMT2C、SNCAIP、MTOR、PIK3CA、SF3B1、NBN、LRP1B、TNFRSF14、ARID1A、INPP4A、ETS1、KAT6A、FBXW7、MGA、MYD88、CBL、BRAF、CREBBP、およびAPCを含むことができる。
一実施形態において、遺伝子のセットは、KRAS、TP53、ERBB2、EPHB1、NRAS、ACVR1B、TP63、およびKEAP1を含むことができる。遺伝子のセットは、CDK12、KMT2D、DICER1、TET2、LAT52、ETV5、GRIN2A、EPHA7、ASXL2、およびRETから選択された1つまたは複数の遺伝子を更に含んでよい。遺伝子のセットは、TP53、NRAS、KMT2D、TET2、KMT2C、SF3B1、およびLRP1Bから選択された1つまたは複数の遺伝子を更に含んでよい。遺伝子のセットは、MYD88、CBL、BRAF、CREBBP、およびAPCから選択された1つまたは複数の遺伝子を更に含んでよい。
一実施形態において、遺伝子のセットは、遺伝子の第2群から1つまたは複数の遺伝子を更に含む。遺伝子の第2群は、SNVおよびインデルに対するホットスポットと関連している。遺伝子の第2群は、AKT1、ERBB3、IDH1、PTEN、ARAF、EZH2、IDH2、PTPRD、CD79A、FGFR3、MAP3K1、RHOA、CDKN2A、GATA3、MAPK1、RNF43、DNMT3A、GNAS、MSH2、SPTA1、EP300、HRAS、PREX2、およびTERTのいずれかを含むことができる。
一実施形態において、遺伝子のセットは、遺伝子の第3群から1つまたは複数の遺伝子を更に含む。遺伝子の第3群は、ウイルスホットスポットと関連している。遺伝子の第3群は、HPV16、HPV18、EBV、およびHBVのいずれかを含むことができる。
一実施形態において、方法は、非一時的コンピュータ可読媒体により実施されてよい。媒体は、プロセッサを含む電子デバイスにより実行されたときにデバイスに方法のいずれかを実行させる指示を含む1つまたは複数のプログラムを保管できる。
一実施形態において、電子デバイスは、方法を実行するための、1つまたは複数のプロセッサと、メモリと、1つまたは複数のプログラムとを含むことができる。すなわち、電子デバイスは、メモリに保管され、1つまたは複数のプロセッサにより実行されるように構成された1つまたは複数のプログラムを含む。プログラムは、方法を実行するための指示を含む。
一実施形態において、本明細書に記載のシステムのいずれかは、方法を用いて生成されるがんアッセイパネルを生成してよい。例えば、がんアッセイパネルは、高シグナルのがんまたは液状がんと関連している遺伝子の第1群から選択された1つまたは複数の遺伝子と、一塩基バリアント(SNV)またはインデルに対するホットスポットと関連している遺伝子の第2群から選択された1つまたは複数の遺伝子と、ウイルスホットスポットと関連している遺伝子の第3群から選択された1つまたは複数の遺伝子とを含むことができる。
一実施形態において、遺伝子の第1群は、KRAS、TP53、ERBB2、EPHB1、NRAS、ACVR1B、TP63、KEAP1、CDK12、KMT2D、DICER1、TET2、LATS2、ETV5、GRIN2A、EPHA7、ASXL2、RET、CHD2、RB1、CDH1、PDGFRA、BRCA2、TFRC、ALK、KDM5A、SMAD4、ATR、NOTCH1、NRG1、CTNNB1、KMT2C、SNCAIP、MTOR、PIK3CA、SF3B1、NBN、LRP1B、TNFRSF14、ARID1A、INPP4A、ETS1、KAT6A、FBXW7、MGA、MYD88、CBL、BRAF、CREBBP、およびAPCから成る。
一実施形態において、遺伝子の第2群は、SNVに対するホットスポットと関連している遺伝子のセットを含む。遺伝子のセットは、AKT1、CDKN2A、DNMT3A、EP300、ERBB3、FGFR3、GNAS、HRAS、IDH1、IDH2、MAP3K1、MAPK1、PREX2、PTEN、PTPRD、RHOA、SPTA1、TERT、およびEZH2から成る。一実施形態において、遺伝子の第2群は、インデルと関連している遺伝子のセットを含む。遺伝子のセットは、ARAF、CD79A、GATA3、MSH2、PTEN、およびRNF43から成る。一実施形態において、遺伝子の第3群は、HPV16、HPV18、EBV、およびHBVから成る。
一実施形態において、本明細書に記載のシステム、デバイス、またはメモリのいずれかは、患者のがんの有無を判定するための最小化されたがん検出パネルを生成する方法を実施してよい。例えば、方法は、パネルを生成するためのワークフローを表すことができる。
まず、システムは、検出パネルを生成するリクエストであって、検出パネルに対する総キロベースサイズを含むリクエストを受信する。システムは、続いて、複数のゲノム領域を受信し、各ゲノム領域は、ゲノム領域の特徴の変動ががんを示す尤度と関連している。ゲノム領域の各々は、キロベースサイズを有する。
システムは、複数のゲノム領域に分類子モデルを適用し、検出パネルを生成する。システムは、分類子モデルを採用し、ゲノム領域の1つ1つに対する感度スコアを判定する。感度スコアは、検出パネルの検出感度への寄与を定量化する。検出感度は、がん検出パネルに含まれるゲノム領域のセットにおける特徴の変動ががんを示す尤度を定量化する。一実施形態において、がんを示す特徴の変動は、ゲノム領域の一塩基バリアントに対する最大バリアントアレル頻度である。
次に、システムは、分類子モデルを採用し、複数のゲノム領域をそれらの感度スコアに従ってランク付けする。続いて、モデルは、それらのランクに基づいて、ゲノム領域の1つまたは複数を、検出パネルに対するゲノム領域のセットとして選択する。検出パネルにおけるゲノム領域のセットに対するキロベースサイズの合計は、総キロベースサイズ未満である。一実施形態において、判定されたゲノム領域のセットは、リクエストを送信したクライアントデバイスに送られてよい。ゲノム領域のセットを使用して、患者におけるがんの存在を判定するために採用されるパネルを生成することができる。
一実施形態において、ゲノム領域の1つまたは複数は、がんと関連しているウイルスを示す。ウイルスは、HPV16、HPV18、EBV、およびHBVのいずれかでありうる。一実施形態において、ゲノム領域の1つまたは複数は、固形がんと関連している。固形がんと関連しているゲノム領域は、本明細書の表1および表2に開示されたものの1つでありうる。一実施形態において、ゲノム領域の1つまたは複数は、液状がんと関連している。液状がんと関連しているゲノム領域は、本明細書の表1および表2に開示されたものの1つでありうる。一実施形態において、ゲノム領域の1つまたは複数は、がんホットスポットを示す。がんホットスポットと関連しているゲノム領域は、本明細書の表3、表4、または表5に開示されたものの1つでありうる。一実施形態において、ゲノム領域の1つまたは複数は、特定の種類のがんと関連している。
ゲノム領域のセットは閾値未満のキロベースサイズ未満であるため、一実施形態において、検出パネルは、65、55、または45未満のゲノム領域を含む。同様に、総キロベースサイズは、390,000、330,000、270,000、210,000、150,000、またはそれより少ないキロベースのいずれかでありうる。
一実施形態において、リクエストは、検出パネルを設計して検出するがんの種類を含む。この場合、感度スコアは、がんの種類に対する検出パネルの検出感度への寄与を定量化する。さらに、指標をランク付けすることは、検出パネルを設計して検出するがんの種類に基づいてゲノム領域をランク付けすることを更に含む。
一実施形態において、本明細書に記載のパネルの1つまたは複数は、高品質の検出アッセイを促進するように設計されたプローブのセットを含む。例えば、がんアッセイパネルは、少なくともプローブ数のプローブ対を含むことができる。プローブ数の対の各対は、重複配列により互いに重複するように構成された2つのプローブを含む。
重複配列は、重複数の核酸塩基を含む。重複配列は、パネルに対して選択されたゲノム指標からのものであってよい。重複配列内で、重複数の核酸塩基は、1つまたは複数のゲノム領域に対応するライブラリー分子をハイブリッド形成する。ゲノム領域の各々は、例えば、ゲノム領域の一塩基バリアントに対する最大バリアントアレル頻度を有する。ゲノム領域に対するバリアントアレル頻度の少なくともいくつかは、がん試料において生じる。他の体細胞多様性およびそれらの多様性の定量化も考えられる。
一実施形態において、がん試料は、特定の原発組織(「tissue of origin(TOO)」)のがんを有する被験者からのものである。特定のTOOのがんは、乳がん、子宮がん、子宮頸がん、卵巣がん、膀胱がん、腎尿路上皮がん、尿路上皮以外の腎がん、前立腺がん、肛門直腸がん、大腸がん、肝胆道がん、膵がん、上部消化管扁平上皮がん、扁平上皮以外の上部消化管がん、頭頸部がん、肺腺がん、小細胞肺がん、腺がんまたは小細胞肺がん以外の肺がん、神経内分泌がん、肺神経内分泌腫瘍および他の高悪性度神経内分泌腫瘍、黒色腫、甲状腺がん、肉腫、多発性骨髄腫、リンパ腫、および白血病でありうる。
一実施形態において、プローブの各々は、70~140のヌクレオチドを含む。他の数のヌクレオチドも考えられる。一実施形態において、プローブ数のプローブ対は、1000、1500、2000、2500、または3000のプローブ対である。一実施形態において、重複配列における重複数の核酸塩基は、20、30、40、50、60、70、または80の核酸塩基である。
一実施形態において、がんアッセイパネルは、本明細書に開示されたような分類子モデルにより選択された、少なくとも2900のプローブを含む。分類子モデルは、少なくとも2900のプローブを、その2900のプローブの各々に対する検出感度を定量化する感度スコアに基づいて選択する。少なくとも2900のプローブは、標的キロベースサイズ未満の総キロベースサイズを有する。この場合、分類子モデルは、標的キロベースサイズ未満のまま、最も高い感度スコアを有する2900のプローブを選択する。
一実施形態において、ゲノム領域の1つまたは複数は、本明細書に開示された表1、表2、表3、表4、または表5におけるものである。一実施形態において、ゲノム領域の1つまたは複数は、ウイルス領域と関連しており、ウイルス領域は、がんと関連しているウイルス配列を示す。
I.定義
「個人」という用語は、1人の人間を指す。「健常人」という用語は、がんまたは疾病を有していないと推定される個人を指す。「被験者」という用語は、がんまたは疾病を有する、または有する可能性があると知られる個人を指す。
「個人」という用語は、1人の人間を指す。「健常人」という用語は、がんまたは疾病を有していないと推定される個人を指す。「被験者」という用語は、がんまたは疾病を有する、または有する可能性があると知られる個人を指す。
「配列リード」という用語は、個人から取得された試料から読み取られた核酸塩基配列を指す。配列リードは、当技術分野で周知の様々な方法によって取得されうる。
「リードセグメント」または「リード」という用語は、個人から取得された配列リードを含む任意の核酸塩基配列および/または個人から取得された試料から読み取られた最初の配列から導出された核酸塩基配列を指す。例えば、リードセグメントは、アラインされた配列リード、折りたたまれた配列リード、またはスティッチングされたリードを指すことができる。さらに、リードセグメントは、一塩基バリアントなど、個々の核酸塩基の塩基(nucleobase base)を指すことができる。
「一塩基バリアント」または「SNV」という用語は、核酸塩基配列、例えば、個人から読み取られた配列、のある位置(例えば、部位)における、1つの核酸塩基の異なる核酸塩基への置換を指す。第1核酸塩基Xから第2核酸塩基Yへの置換は、「X>Y」と記すことができる。例えば、シトシンからチミンのSNVは、「C>T」と記すことができる。
「インデル」という用語は、配列リードに長さおよび位置(アンカー位置とも呼ばれうる)を有する1つまたは複数の塩基対の任意の挿入または欠失を指す。挿入は正の長さに対応するのに対し、欠失は負の長さに対応する。
「変異」という用語は、1つまたは複数のSNVまたはインデルを指す。
「真陽性」という用語は、実際の生態、例えば、個人における潜在的ながん、疾病、または生殖細胞系列変異の存在を示す変異を指す。真陽性は、健常人に自然に起こる変異(例えば、反復変異)または核酸試料のアッセイ準備中のプロセス誤差などの他のアーチファクト源によっては生じない。
「偽陽性」という用語は、真陽性であると誤って判定された変異を指す。通常、偽陽性は、大きな平均ノイズ率またはノイズ率の大きな不確実性と関連している配列リードを処理する際に生じる可能性が高い。
「セルフリー核酸」、「セルフリーDNA」、または「cfDNA」という用語は、個人の体内(例えば、血流)を循環し、1つまたは複数の正常細胞に、および/または1つまたは複数のがん細胞に由来する核酸フラグメントを指す。cfDNAは、血液試料から取得されうる。
「循環腫瘍DNA」または「ctDNA」という用語は、瀕死細胞のアポトーシスまたはネクローシスなどの生物学的過程の結果として個人の血流に放出されうる、または生存腫瘍細胞により能動的に放出されうる、腫瘍細胞または他の種類のがん細胞に由来する核酸フラグメントを指す。場合によっては、ctDNAは、cfDNA内で見つかるDNAである。
「ゲノム核酸」、「ゲノムDNA」、または「gDNA」という用語は、1つまたは複数の正常細胞に由来する染色体DNAを含む核酸を指す。場合によっては、白血球は、正常細胞であると考えられる。
「白血球DNA」、または「wbcDNA」という用語は、白血球に由来する染色体DNAを含む核酸を指す。通常、wbcDNAは、gDNAであり、健常なDNAであると考えられる。
「組織核酸」、「がん組織DNA」、または「tDNA」という用語は、がん組織または腫瘍から取得される腫瘍細胞または他の種類のがん細胞の染色体DNAを含む核酸を指す。場合によっては、tDNAは、腫瘍の生検から取得される。
「代替アレル」または「ALT」という用語は、例えば、既知の遺伝子に対応する、参照アレルと比較して、1つまたは複数の変異を有するアレルを指す。
「シークエンシング深さ」または「深さ」という用語は、個人から取得された試料のリードセグメントの総数を指す。
「代替深さ」または「AD」という用語は、例えば、ALTの変異を含む、ALTを支持する試料の多数のリードセグメントを指す。
「代替頻度」または「AF」という用語は、所与のALTの頻度を指す。AFは、所与のALTについて、試料の対応するADをその試料の深さで割ることにより特定されうる。
II.例示のアッセイプロトコル
図1は、一実施形態に係る、シークエンシングに対する核酸試料を調製する方法のフローチャートである。ワークフロー100は、限定されないが、以下のステップを含む。例えば、ワークフロー100の任意のステップは、当業者に既知の品質管理または他のラボアッセイ手順のための定量化サブステップを含むことができる。
図1は、一実施形態に係る、シークエンシングに対する核酸試料を調製する方法のフローチャートである。ワークフロー100は、限定されないが、以下のステップを含む。例えば、ワークフロー100の任意のステップは、当業者に既知の品質管理または他のラボアッセイ手順のための定量化サブステップを含むことができる。
ステップ110において、核酸試料(DNAまたはRNA)は、被験者から抽出される。本開示において、DNAおよびRNAは、別段の指示がない限り交換可能に使用されうる。すなわち、バリアントコーリングおよび品質管理において誤差原因情報を使用するための以下の実施形態は、核酸配列のDNAおよびRNAの両方のタイプに適用できる。しかしながら、本明細書に記載の例は、明確さおよび説明のため、DNAに焦点を合わせうる。試料は、全ゲノムを含む、ヒトゲノムの任意のサブセットでありうる。試料は、がんを有する、またはがんを有する疑いがあると知られる被験者から抽出されうる。試料は、血液、血漿、血清、尿、糞便、唾液、他の種類の体液、またはその任意の組み合わせを含むことができる。場合によっては、試料は、組織または組織から抽出された体液を含みうる。実施形態によっては、血液試料を取り出す方法(例えば、シリンジまたはフィンガープリック)は、手術を必要としうる、組織生検を取得するための手順より、低侵襲的でありうる。抽出された試料は、cfDNAおよび/またはctDNAを含みうる。健常人の場合、人体は、cfDNAおよび他の細胞残屑を自然に取り除くことができる。被験者ががんまたは疾病を有する場合、抽出された試料のctDNAは、診断で検出可能なレベルで存在しうる。
追加的に、抽出された試料は、wbcDNAを含みうる。核酸試料を抽出することは、wbcDNAからcfDNAおよび/またはctDNAを分離することを更に含むことができる。cfDNAおよび/またはctDNAからのwbcDNAの抽出は、DNAが試料から分離されるときに生じうる。血液試料の場合、wbcDNAは、血液試料のバフィーコート(buff coat)画分から取得される。wbcDNAをせん断することにより、長さが300の塩基対未満のwbcDNAフラグメントを取得できる。cfDNAおよび/またはctDNAからwbcDNAを分離することにより、wbcDNAがcfDNAおよび/またはctDNAから独立して配列される。通常、wbcDNAに対するシークエンシングプロセスは、cfDNAおよび/またはctDNAに対するシークエンシングプロセスと同様である。
ステップ120において、シークエンシングライブラリーが調整される。ライブラリーの調製中、ユニークな分子識別子(UMI)が、アダプターライゲーションにより核酸分子(例えば、DNA分子)に追加される。UMIは、アダプターライゲーション中、DNAフラグメントの末端に追加される短い核酸配列(例えば、4~10の塩基対)である。実施形態によっては、UMIは、特定のDNAフラグメントに由来する配列リードを同定するために使用されうるユニークタグとして機能する縮重塩基対である。アダプターライゲーション後のPCR増幅中、UMIは、付着したDNAフラグメントと共に複製され、下流分析において同一の元のフラグメントから生じる配列リードを同定する手段を提供する。
ステップ130において、標的DNA配列は、ライブラリーから濃縮される。濃縮中、ハイブリダイゼーションプローブ(本明細書において「プローブ」とも呼ばれる)を使用して、がん(または疾病)の有無、がんの状態、またはがんの分類(例えば、がんの種類または原発組織)に情報価値のある核酸フラグメントを標的とし、プルダウンする。所与のワークフローについて、プローブは、DNAまたはRNAの標的(相補的)鎖をアニールする(またはハイブリッド形成する)ように設計されうる。標的鎖は、「プラス」鎖(例えば、mRNAに転写され、続いてタンパク質に翻訳される鎖)または相補的「マイナス」鎖でありうる。プローブは、数十、数百、または数千の塩基対の長さに及びうる。一実施形態において、プローブは、遺伝子パネルに基づいて設計され、あるがんまたは他の種類の疾病に対応すると疑われる(例えば、ヒトまたは別の生物の)ゲノムの特定の変異または標的領域を分析する。さらに、プローブは、標的領域の重複部分をカバーできる。「全エクソームシークエンシング」としても知られる、ゲノムの全発現遺伝子のシークエンシングよりも、標的遺伝子パネルを使用することにより、ワークフロー100を、標的領域のシークエンシング深さを増加させるために使用でき、ここで、深さは、試料内の所与の標的配列が配列された回数のカウントを指す。シークエンシング深さが増すことにより、核酸試料の必要投入量は減少する。ハイブリダイゼーションステップ後、ハイブリッド形成された核酸フラグメントは、捕らえられ、PCRを使用して増幅もされうる。
ステップ140において、配列リードは、濃縮されたDNA配列から生成される。シークエンシングデータは、当該分野で既知の手段により濃縮されたDNA配列から取得されうる。例えば、ワークフロー100は、合成技術(Illumina)、パイロシークエンシング(454 Life Sciences)、イオン半導体技術(Ion Torrentシークエンシング)、一分子リアルタイムシークエンシング(Pacific Biosciences)、ライゲーションによるシークエンシング(SOLiDシークエンシング)、ナノポアシークエンシング(Oxford Nanopore Technologies)、またはペアードエンドシークエンシングを含む次世代シークエンシング(NGS)技術を含むことができる。実施形態によっては、超並列シークエンシングが、可逆的ダイターミネーターによる合成によるシークエンシングを使用して実行される。他の実施形態において、配列は、ポリメラーゼ連鎖反応(PCR)、デジタルPCR(dPCR)、定量的PCR(qPCR)、リアルタイムPCR(RT-PCR)、定量的リアルタイムPCR(qRT-PCR)、または他の当該分野で周知の手段による検出など、増幅ベースの検出またはメチル化特異的増幅手段を使用して検出されうる。
実施形態によっては、配列リードは、当該分野で既知の方法を使用して参照ゲノムにアラインされ、アライメント位置情報を判定することができる。アライメント位置情報は、所与の配列リードの始めの核酸塩基の塩基および終わりの核酸塩基の塩基に対応する、参照ゲノムにおける領域の開始位置および終了位置を示すことができる。アライメント位置情報は、開始位置および終了位置から判定されうる、配列リードの長さも含むことができる。参照ゲノムにおける領域は、遺伝子または遺伝子のセグメントと関連しうる。cfDNAおよび/またはctDNAならびにwbcDNAが独立して配列されているので、cfDNAおよびまたはctDNAならびにwbcDNAの両方に対する配列リードは、独立して生成される。
様々な実施形態において、配列リードは、R1およびR2と記されるリード対を含む。例えば、第1リードR1は、核酸フラグメントの第1末端から配列されうるのに対して、第2リードR2は、核酸フラグメントの第2末端から配列されうる。そのため、第1リードR1および第2リードR2の核酸塩基の塩基対は、参照ゲノムの核酸塩基の塩基と一致して(例えば、逆の向きに)アラインされうる。リード対R1およびR2から導出されたアライメント位置情報は、第1リード(例えば、R1)の末端に対応する参照ゲノムにおける開始位置、および第2リード(例えば、R2)の末端に対応する参照ゲノムにおける終了位置を含むことができる。言い換えれば、参照ゲノムにおける開始位置および終了位置は、核酸フラグメントが対応する参照ゲノム内の可能性の高い場所を表す。配列アラインメントマップ(SAM)フォーマットまたはバイナリー(BAM)フォーマットを有する出力ファイルは、図2に関して以下で説明されるような、バリアントコーリングなどの更なる分析のために生成され、出力されうる。
III.例示の処理システム
図2Aは、一実施形態に係る、配列リードを処理し、疾患検出パネルを生成するための処理システム200のブロック図である。処理システム200は、配列プロセッサ205と、配列データベース210と、モデルデータベース215と、機械学習エンジン220と、(例えば、1つまたは複数の階層ベイズモデルまたはジョイントモデルを含む)モデル225と、パラメータデータベース230と、スコアエンジン235と、バリアントコーラー240と、パネルジェネレータ250とを含む。図2Bは、一実施形態に係る、パネルを生成するためのパネルジェネレータのブロック図を示す。パネルジェネレータ250は、分類予測モデル270と、指標データベース290と、プローブジェネレータ260とを含む。
図2Aは、一実施形態に係る、配列リードを処理し、疾患検出パネルを生成するための処理システム200のブロック図である。処理システム200は、配列プロセッサ205と、配列データベース210と、モデルデータベース215と、機械学習エンジン220と、(例えば、1つまたは複数の階層ベイズモデルまたはジョイントモデルを含む)モデル225と、パラメータデータベース230と、スコアエンジン235と、バリアントコーラー240と、パネルジェネレータ250とを含む。図2Bは、一実施形態に係る、パネルを生成するためのパネルジェネレータのブロック図を示す。パネルジェネレータ250は、分類予測モデル270と、指標データベース290と、プローブジェネレータ260とを含む。
III.A 配列からのバリアントの判定
図3は、一実施形態に係る、配列リードのバリアントを判定するためのワークフローのフローチャートである。実施形態によっては、処理システム200は、ワークフロー300を実行し、入力シークエンシングデータに基づいて(例えば、SNVおよび/またはインデルに対する)バリアントコーリングを実行する。さらに、処理システム200は、上記のワークフロー100を使用して調製された核酸試料と関連している出力ファイルから入力シークエンシングデータを取得できる。ワークフロー300は、限定されないが、処理システム200の構成要素に関して説明される、以下のステップを含む。他の実施形態において、ワークフロー300の1つまたは複数のステップは、例えば、HaplotypeCaller、VarScan、Strelka、またはSomaticSniperなど、バリアントコールフォーマット(VCF)を使用して、バリアントコールを生成するための異なるプロセスのステップにより置き換えられうる。
図3は、一実施形態に係る、配列リードのバリアントを判定するためのワークフローのフローチャートである。実施形態によっては、処理システム200は、ワークフロー300を実行し、入力シークエンシングデータに基づいて(例えば、SNVおよび/またはインデルに対する)バリアントコーリングを実行する。さらに、処理システム200は、上記のワークフロー100を使用して調製された核酸試料と関連している出力ファイルから入力シークエンシングデータを取得できる。ワークフロー300は、限定されないが、処理システム200の構成要素に関して説明される、以下のステップを含む。他の実施形態において、ワークフロー300の1つまたは複数のステップは、例えば、HaplotypeCaller、VarScan、Strelka、またはSomaticSniperなど、バリアントコールフォーマット(VCF)を使用して、バリアントコールを生成するための異なるプロセスのステップにより置き換えられうる。
ステップ310において、配列プロセッサ205は、入力シークエンシングデータのアラインされた配列リードを折りたたむ。一実施形態において、配列リードを折りたたむことは、UMI、および任意に(例えば、図1に示すワークフロー100からの)出力ファイルのシークエンシングデータからのアライメント位置情報を使用し、核酸フラグメントまたはその一部の最も可能性の高い配列を判定するためのコンセンサス配列に、複数の配列リードを折りたたむことを含む。UMIは濃縮およびPCRによってライゲートされた核酸フラグメントにより複製されるため、配列プロセッサ205は、いくらかの配列リードが核酸試料の同一の分子に由来することを判定できる。実施形態によっては、同一または類似のアライメント位置情報(例えば、閾値オフセット内の開始位置および終了位置)を有し、共通のUMIを含む配列リードは、折りたたまれ、配列プロセッサ205は、折りたたまれたリード(本明細書においてコンセンサスリードとも呼ばれる)を生成し、核酸フラグメントを表す。配列プロセッサ205は、対応する一対の折りたたまれたリードが共通のUMIを有する場合、コンセンサスリードを「デュプレックス」と指定するが、これは、由来する核酸分子のプラス鎖およびマイナス鎖の両方が捕らえられたことを示す。そうでなければ、折りたたまれたリードは、「ノンデュプレックス」と指定される。実施形態によっては、配列プロセッサ205は、配列リードを折りたたむことに代えて、または折りたたむことに加えて、配列リードに対して他の種類のエラー訂正を実行できる。
ステップ315において、配列プロセッサ205は、対応するアライメント位置情報に基づいて折りたたまれたリードをスティッチングする。実施形態によっては、配列プロセッサ205は、第1リードと第2リードとのアライメント位置情報を比較し、第1リードおよび第2リードの核酸塩基の塩基対が参照ゲノムにおいて重複するかどうかを判定する。一使用事例において、第1リードと第2リードの(例えば、一定数の核酸塩基の塩基の)重複が閾値長さ(例えば、閾値数の核酸塩基の塩基)より長いという判定に応答して、配列プロセッサ205は、第1リードおよび第2リードを「スティッチングされた」と指定し、そうでなければ、折りたたまれたリードが「スティッチングされていない」と指定する。実施形態によっては、第1リードおよび第2リードは、重複が閾値長さよりも長い場合、および重複がスライディング重複ではない場合、スティッチングされる。例えば、スライディング重複は、ホモポリマーラン(例えば、単一の繰り返し核酸塩基の塩基)、ジ核酸塩基ラン(例えば、二核酸塩基の塩基配列)、またはトリ核酸塩基ラン(例えば、三核酸塩基の塩基配列)を含むことができ、ホモポリマーラン、ジ核酸塩基ラン、またはトリ核酸塩基ランは、少なくとも閾値長さの塩基対を有する。
ステップ320において、配列プロセッサ205は、リードをパスにまとめる。実施形態によっては、配列プロセッサ205は、リードをまとめ、標的領域(例えば、遺伝子)に対する有向グラフ、例えば、de Bruijnグラフを生成する。有向グラフの一方向の辺は、標的領域におけるk核酸塩基の塩基の配列(本明細書において「kマー」とも呼ばれる)を表し、辺は、点(または頂点)により結ばれる。配列プロセッサ205は、折りたたまれたリードを有向グラフにアラインし、折りたたまれたリードのいずれかが辺および対応する点のサブセットにより順番に表されるようにする。
実施形態によっては、配列プロセッサ205は、有向グラフを表すパラメータのセットを判定し、有向グラフを処理する。追加的に、パラメータのセットは、折りたたまれたリードから有向グラフにおける頂点または辺により表されたkマーにうまくアラインされたkマーのカウントを含むことができる。配列プロセッサ205は、例えば、配列データベース210に、有向グラフおよび対応するパラメータのセットを保管するが、これらを読み出して、グラフを更新、または新規のグラフを生成することができる。例として、配列プロセッサ205は、パラメータのセットに基づいて有向グラフの圧縮版を生成する(例えば、または既存のグラフを修正する)ことができる。一使用事例において、重要度の低い有向グラフのデータを除去するため、配列プロセッサ205は、閾値未満のカウントを有する頂点または辺を除外し(例えば、「切り取り」または「刈り取り」)、閾値以上のカウントを有する頂点または辺を保持する。
ステップ325において、バリアントコーラー240は、配列プロセッサ205によりまとめられたパスから候補バリアントを生成する。一実施形態において、バリアントコーラー240は、(ステップ310において辺または頂点を刈り取ることにより圧縮されうる)有向グラフを、ゲノムの標的領域の参照配列と比較することにより、候補バリアントを生成する。バリアントコーラー240は、有向グラフの辺を参照配列にアラインでき、不一致の辺および辺に隣接した不一致の核酸塩基の塩基のゲノム位置を、候補バリアントの位置として記録する。追加的に、バリアントコーラー240は、標的領域のシークエンシング深さに基づいて、候補バリアントを生成できる。特に、バリアントコーラー240は、例えば、配列リードが多いと配列間の不一致または他の塩基対の変動を(例えば、冗長性を使用して)解消するのに役立つため、シークエンシング深さが長い標的領域において、より確信をもってバリアントを同定することができる。
一実施形態において、バリアントコーラー240は、バリアントモデル225を使用して候補バリアントを生成し、被験者からの配列リードに対する期待ノイズ率を判定する。バリアントモデル225は、階層ベイズモデルでありうるが、実施形態によっては、処理システム200は、1つまたは複数の異なる種類のモデルを使用する。さらに、階層ベイズモデルは、候補バリアントを生成するために利用でき、全てバリアントコーリングの感度/特異度を改善するために位置特異的なノイズ情報をモデル化するするという点で互いに関係している、多くの可能性があるモデルアーキテクチャの1つでありうる。より具体的には、機械学習エンジン220は、健常人からの試料を使用してバリアントモデル225を訓練し、配列リードの位置ごとに期待ノイズ率をモデル化する。
さらに、複数の異なるモデルが、モデルデータベース215に保管されうる、または訓練後の適用のために読み出されうる。例えば、第1モデルを訓練して、SNVノイズ率をモデル化し、第2モデルを訓練して、インデルノイズ率をモデル化する。さらに、スコアエンジン235は、バリアントモデル225のパラメータを使用し、配列リードにおける1つまたは複数の真陽性の尤度を判定できる。スコアエンジン235は、尤度に基づいて(例えば、対数目盛りにおける)品質スコアを判定できる。例えば、品質スコアは、フレッド
であり、Pは、間違った候補バリアントコール(例えば、偽陽性)の尤度である。
であり、Pは、間違った候補バリアントコール(例えば、偽陽性)の尤度である。
ステップ330において、スコアエンジン235は、バリアントモデル225または対応する真陽性の尤度もしくは品質スコアに基づいて候補バリアントをスコア化する。
ステップ335において、処理システム200は、候補バリアントを出力する。実施形態によっては、処理システム200は、対応するスコアと共に、判定された候補バリアントのいくつかまたは全てを出力する。例えば、処理システム200の外の、下流システム、または処理システム200の他の構成要素は、限定されないが、がん、疾病、または生殖細胞系列変異の存在を予測することを含む様々なアプリケーションに対して、候補バリアントおよびスコアを使用できる。
候補バリアントは、cfDNAおよび/またはctDNAならびにwbcDNAの両方に対して出力される。本明細書において、通常、wbcDNAに対する候補バリアントは「正常体」である一方、cfDNAおよび/またはctDNAに対する候補バリアントは「バリアント」である。様々な検出方法およびモデルは、バリアントを正常体と比較し、バリアントががんまたは何らかの他の疾病の特性を含むかを判定することができる。様々な実施形態において、正常体およびバリアントは、任意の他のプロセス、任意の数の試料(例えば、腫瘍生検または血液試料)を使用して生成されうる、または候補バリアントを保管するデータベースからアクセスされうる。
III.B パネルの生成
図2Bに戻ると、パネルジェネレータ250は、処理システム200により判定された様々な特徴、スコア、配列等を使用して、疾患検出パネルを生成する。本明細書に記載の疾患検出パネルの一例はがん検出パネルであるが、疾患検出パネルは、他の疾病も検出できる。
図2Bに戻ると、パネルジェネレータ250は、処理システム200により判定された様々な特徴、スコア、配列等を使用して、疾患検出パネルを生成する。本明細書に記載の疾患検出パネルの一例はがん検出パネルであるが、疾患検出パネルは、他の疾病も検出できる。
パネルジェネレータ250は、ゲノム領域を保管する指標データベース290を含む。より具体的には、指標データベース290は、被験者からの試料においてがんシグナルの有無を検出する、および/またはそうでなければ、被験者ががんを有する尤度を予測するために使用されうるシークエンシングデータ(例えば、バリアントおよび正常体)を保管する。シークエンシングデータは、その対応するゲノム領域と結び付けられ、保管されうる。指標データベースは、システム200により処理されたシークエンシングデータも保管できるが、外部ソースからアップロードされた、および/またはそうでなければ、外部のデータベースまたは公表されているデータベースから読み出されたシークエンシングデータなど、システム200により処理されていないシークエンシングデータも保管できる。指標データベース290に保管されたゲノム領域については、以下で更に詳細に説明される。
パネルジェネレータ250は、分類予測モデル270(「分類モデル」)を採用し、パネルに含むべきゲノム領域を同定する。分類モデル270は、同定されたゲノム領域を含むパネルの分類能力を予測する。パネルに対するゲノム領域を同定し、選択するプロセスについては、以下で更に詳細に説明される。
分類モデル270は、異なる種類のゲノム領域を同定する異なるモデルを採用できる。例示として、分類モデル270は、(i)関連遺伝子モデル272を使用してがん関連遺伝子のゲノム領域と、(ii)領域カバレッジモデル274を使用してがん試料における指標となるゲノム領域と、(iii)がん種類モデル276を使用してがんの種類を示すゲノム領域と、(iv)ホットスポット領域モデル278を使用してホットスポットゲノム領域と、(v)ウイルス領域モデル280を使用してがんと関連しているウイルスゲノム領域とを同定できる。以下、様々なモデルが説明される。
パネルジェネレータ250は、プローブジェネレータ260も含む。プローブジェネレータ260は、パネルに対して同定されたゲノム領域に対するがん検出プローブを判定する。プローブジェネレータ260については、以下で更に詳細に説明される。
IV.がんを示すバリアント
指標データベース290は、疾病の存在を示しうるゲノム領域のセット(「指標セット」)を含む。各指標セットは、異なるプロセス等によって、異なる試料タイプから取得された配列を含むことができる。例えば、第1指標セットは、がん試料および非がん試料の両方から取得された配列を含むことができるのに対して、第2指標セットは、がん試料のみから取得された配列を含むことができる。別の例においては、第1指標セットは、固形がんおよび液状がんから取得された両方の配列を含むことができるのに対して、第2指標セットは、固形がんのみから取得された配列を含むことができる。パネルジェネレータ250により生成された検出パネルが、以下で述べるように、任意の組み合わせで、および一部分または全体において、1つまたは複数の指標セットを含むことができることが知られている。
指標データベース290は、疾病の存在を示しうるゲノム領域のセット(「指標セット」)を含む。各指標セットは、異なるプロセス等によって、異なる試料タイプから取得された配列を含むことができる。例えば、第1指標セットは、がん試料および非がん試料の両方から取得された配列を含むことができるのに対して、第2指標セットは、がん試料のみから取得された配列を含むことができる。別の例においては、第1指標セットは、固形がんおよび液状がんから取得された両方の配列を含むことができるのに対して、第2指標セットは、固形がんのみから取得された配列を含むことができる。パネルジェネレータ250により生成された検出パネルが、以下で述べるように、任意の組み合わせで、および一部分または全体において、1つまたは複数の指標セットを含むことができることが知られている。
いくつかの指標セットは、確立された指標ライブラリーから選択される。例えば、指標セットは、The Circulating Cell-free Genome Atlas Study(「CCGA」;Clinical Trial.gov 識別子NCT02889978)において同定された遺伝子の指標ライブラリーから選択された1つまたは複数のゲノム領域を含むことができる。CCGA Studyは、がんのある人とない人の血液中のゲノムがんシグナルのランドスケープを特徴付けるように設計された、有望な、観察に基づいた、長期的な研究である。非特定化された生物検体が、アメリカおよびカナダの142ヵ所の約15,000人の参加者から収集された。試料は、各コホートの複数の部位にわたるがんの種類および非がんの分布が確実に事前に指定されたものになるように選択され、がん試料および非がん試料は、性別ごとに年齢を適合させた頻度であった。表1は、本明細書に記載の様々な実施形態に従って、CCGA Studyから選択された50のゲノム領域または遺伝子を含む例示のCCGA指標セットをリスト化している。
別の例においては、指標セットは、The Cancer Genome Atlas Program(「TCGA」;Clinical Trial.gov 識別子NCT02889978)において同定された遺伝子のデータベースなど、公表されているデータベースから選択された1つまたは複数のゲノム領域を含むことができる。TCGAデータベースは、33種類のがんにわたる、20,000を超える原発がんおよび一致する正常試料を分子的に特徴付けた、米国国立がん研究所(NCI)と米国国立ヒトゲノム研究所(NHGRI)との協力によって開発された公的ソースである。表2は、本明細書に記載の様々な実施形態に従って、TCGAから選択された19のゲノム領域または遺伝子を含む例示のTCGA指標セットをリスト化している。
別の例においては、指標セットは、がんを示す特定の配列を有するゲノム領域(「変異ホットスポット」)を含むことができる。いくつかの例においては、そのようなホットスポット部位は、文献、Genomic Data Commons Data Portal(「GDC」)などのがんデータの公表されているプラットフォームで見つけることができる、および/または上記のCCGA Studyなどの他の研究により裏付けられる。例として、CCGAの複数の患者にわたり頻繁に変異したEZH2のプロモーターホットスポット部位は、検出パネルに含まれうる、またはそうでなければ検出パネルへの含有が考慮されうる。表3は、がんを示すホットスポットを有する18のゲノム領域を含む例示のホットスポット指標セットをリスト化している。丸括弧内の数字は、その遺伝子またはゲノム領域におけるがんを示すホットスポット部位の数を示している。
別の例においては、指標セットは、その変異ががんを示すSNVおよび/またはインデルを含むゲノム領域(「リストA」)を含むことができる。表4は、リストA指標セットに対する24のゲノム領域をリスト化している。丸括弧内の文字は、ゲノム領域が1つまたは複数のSNV(S)、1つまたは複数のインデル(I)、またはその両方を含むかどうかを示している。リストA指標セットのゲノム領域の1つまたは複数は、様々な実施形態に従って検出パネルに含まれうる。いくつかの例においては、SNVに対応するゲノム領域のみが検出パネルに含まれる。
別の例においては、別の指標セットが、その変異ががんを示すSNVおよび/またはインデルを含むゲノム領域(「リストB」)を含むことができる。表5は、リストB指標セットに対する64のゲノム領域をリスト化している。丸括弧内の文字は、ゲノム領域が1つまたは複数のSNV(S)、1つまたは複数のインデル(I)、またはその両方を含むかどうかを示している。リストB指標セットのゲノム領域の1つまたは複数は、様々な実施形態に従って検出パネルに含まれうる。いくつかの例においては、SNVに対応するゲノム領域のみが検出パネルに含まれる。
別の例においては、別の指標セットが、その変異ががんを示すSNVおよび/またはインデルを含むゲノム領域(「リストC」)を含むことができる。表6は、リストC指標セットに対する153のゲノム領域をリスト化している。丸括弧内の文字は、ゲノム領域が1つまたは複数のSNV(S)、1つまたは複数のインデル(I)、またはその両方を含むかどうかを示している。リストC指標セットのゲノム領域の1つまたは複数は、様々な実施形態に従って検出パネルに含まれうる。いくつかの例においては、SNVに対応するゲノム領域のみが検出パネルに含まれる。
別の例においては、指標セットは、ウイルス関連がんを示すウイルスのゲノム領域(「ウイルス」)を含むことができる。例として、がんと正の関連を示すウイルスが、全ゲノムバイサルファイトシークエンシングを使用してCCGA Studyにおいて同定された。パネルジェネレータ250は、本明細書に記載の様々な実施形態に従って、検出パネルに含まれるべき最適な数の標的領域を判定できる。単なる例として、ウイルス指標セットは、以下のゲノム領域:HPV16、HPV18、HBV、およびEBVの各々において10の部位を含むことができる。
他の指標セットも考えられる。
V.疾患検出パネル
V.A アッセイパネル
処理システム200は、患者の疾病の有無(「疾病分類」)など、病状を判定するための疾患検出パネル(「パネル」)を生成するように構成されたパネルジェネレータ250を含む。場合によっては、パネルを使用して、疾病のステージおよび/または原発組織を判定することもできる。通常、パネルは、患者から取得された試料(例えば、血液、組織等)に適用され、疾病分類を判定する。便宜上、本明細書において、パネルジェネレータ250から生成された例示のパネルは、試料におけるがんの存在(「がんの存在」)を分類するように構成されるが、他の疾病も考えられる。
V.A アッセイパネル
処理システム200は、患者の疾病の有無(「疾病分類」)など、病状を判定するための疾患検出パネル(「パネル」)を生成するように構成されたパネルジェネレータ250を含む。場合によっては、パネルを使用して、疾病のステージおよび/または原発組織を判定することもできる。通常、パネルは、患者から取得された試料(例えば、血液、組織等)に適用され、疾病分類を判定する。便宜上、本明細書において、パネルジェネレータ250から生成された例示のパネルは、試料におけるがんの存在(「がんの存在」)を分類するように構成されるが、他の疾病も考えられる。
パネルは、ゲノム領域のセットを含む。パネルにおける各ゲノム領域は、染色体における1つまたは複数の特定の部位に位置する核酸塩基の1つまたは複数の配列(「コード領域」)を含む。ゲノム領域は、その変動が、がんの有無、がんのステージおよび/または重症度、および/またはがんの種類(例えば、予測されたがんの原発組織)など、病状を示す1つまたは複数の特徴を有することができる。一例として、がん検出パネルは、3p22.1に位置する、ゲノム領域CTNNB1を含むことができる。CTNNB1の特徴の変動は、がんの存在、および、より具体的には、がんの種類が肝胆道がんであると示すことができる。
パネルにおける各コード領域は、1つまたは複数の検出プローブにより配列される。検出プローブは、コード領域における核酸塩基に対応する核酸塩基の相補的配列を含む。検出プローブは、試料に適用されたとき、コード領域における核酸塩基配列を標的とし、核酸フラグメント(すなわち、テスト配列)をプルダウンする。テスト配列は特徴を含み、それらの特徴の変動(「特徴変動」)はがんの存在を示すことができる。例示として、特徴は、集団(例えば、健常な集団)におけるそのコード領域におけるインデルと比較されたときの、テスト配列に対するコード領域におけるインデルの変動でありうる。
パネルジェネレータ250は、がんの存在を判定するために採用されうるパネルを生成する。簡潔に説明すると、パネルジェネレータ250は、少なくとも1つのゲノム領域に対する1つまたは複数の検出プローブを含むパネルを生成する。試料に適用されたとき、検出プローブは、ゲノム領域と関連しているコード領域に対するテスト配列を生成する。処理システム(例えば、システム200)は、テスト配列におけるバリアントを同定する。バリアントは、一塩基バリアント(「SNV」)、挿入、または欠失(後の2つはまとめて「インデル」と呼ばれる)でありうる。システム200は、バリアントの特徴を、集団における(例えば、健常な集団における)その同一の特徴と比較する。集団と比較したその特徴の特徴変動は、がんの存在(例えば、がんシグナルの存在)を示すことができる。特徴変動は、特徴量として定量化されうる。例えば、システム200は、SNVの最大バリアントアレル頻度(「最大VAF」)を表す特徴量を導出できる。従って、システム200は、特徴量に基づいて試料におけるがんの存在を判定できる。すなわち、SNVの最大バリアントアレル頻度は、がんの存在を示す。
他の特徴、特徴変動、および特徴量も考えられる。例えば、特徴量は、バリアントの有無、平均アレル頻度、小バリアントの総数、および/または真のバリアントのアレル頻度の少なくとも1つに対応する特徴変動を定量化できる。
構成によっては、システム200は、特徴量に基づいてがんの存在の尤度を判定できる。例えば、各ゲノム領域について、SNVに対する特定の最大VAFは、がんの存在の尤度に対応しうる。従って、システム200は、判定された尤度が閾値尤度を上回る場合、試料にがんが存在すると判定できる。
V.B パネルサイズ
パネルジェネレータ250は、パネルサイズを有するパネルを生成する。パネルサイズは、パネルに含まれるゲノム領域の核酸塩基の総数である。いくつかの例においては、ゲノム領域の各々は、ゲノム領域の一塩基バリアントに対する最大バリアントアレル頻度を有し、ゲノム領域に対するバリアントアレル頻度の少なくともいくつかは、がん試料で生じる。状況を追加すると、一旦、パネルに対するゲノム領域が判定されると、パネルジェネレータ250は、(例えば、プローブジェネレータ260を使用して)パネルのプローブカバレッジを更に判定できる。いくつかの例においては、プローブジェネレータ260は、プローブをタイリングし、パネルに含まれる各標的ゲノム領域の重複部分をカバーする。例として、パネルのプローブは、各対のプローブが、例えば、60のヌクレオチドの重複配列と互いに重複するように、対で配置されうる。重複配列については、10、20、30、40、50、70、80、90、100のヌクレオチドの重複長さなど、他の長さも考えられ、場合によっては、以下で説明される所望のプローブサイズ次第でありうる。そのような例において、パネル全体のプローブカバレッジサイズは、パネルサイズ自体よりもずっと大きい。パネルのプローブは、試料に適用され、がんの存在を判定するために採用されるテスト配列を生成できる。
パネルジェネレータ250は、パネルサイズを有するパネルを生成する。パネルサイズは、パネルに含まれるゲノム領域の核酸塩基の総数である。いくつかの例においては、ゲノム領域の各々は、ゲノム領域の一塩基バリアントに対する最大バリアントアレル頻度を有し、ゲノム領域に対するバリアントアレル頻度の少なくともいくつかは、がん試料で生じる。状況を追加すると、一旦、パネルに対するゲノム領域が判定されると、パネルジェネレータ250は、(例えば、プローブジェネレータ260を使用して)パネルのプローブカバレッジを更に判定できる。いくつかの例においては、プローブジェネレータ260は、プローブをタイリングし、パネルに含まれる各標的ゲノム領域の重複部分をカバーする。例として、パネルのプローブは、各対のプローブが、例えば、60のヌクレオチドの重複配列と互いに重複するように、対で配置されうる。重複配列については、10、20、30、40、50、70、80、90、100のヌクレオチドの重複長さなど、他の長さも考えられ、場合によっては、以下で説明される所望のプローブサイズ次第でありうる。そのような例において、パネル全体のプローブカバレッジサイズは、パネルサイズ自体よりもずっと大きい。パネルのプローブは、試料に適用され、がんの存在を判定するために採用されるテスト配列を生成できる。
パネルに含まれるプローブはプローブサイズを有し、プローブサイズはプローブにおける核酸塩基(またはヌクレオチド、本明細書においては交換可能に使用される)の数である。例えば、核酸塩基[CAGGTCGAATTC]を含むプローブは、12の核酸塩基のプローブサイズを有する。他のプローブサイズを有する他のプローブも考えられる。例えば、プローブは、40、60、80、100、120、140、160、200、または他の数の核酸塩基を有することができる。いくつかの例においては、その数の核酸塩基は、プライマー配列によりフランキング領域として機能する追加的な数の核酸塩基を含むことができる、またはそうでなければ、その追加的な数の核酸塩基と組み合わされうる。そのようなフランキング領域は、プローブの端に位置し、追加的な10、20、30、40、50、60、または他の数の核酸塩基を有することができる。例として、120の塩基のプローブサイズにフランキング領域に対する40の塩基(例えば、プローブの両端に20の塩基のフランキング領域)をプラスすると、プローブあたり160の核酸塩基の全体サイズが得られる。典型的に、パネルにおけるプローブは、同一のプローブサイズを有する。
本明細書において使用されるように、パネルによりプローブされたゲノム領域は、指標サイズを有する。指標サイズは、そのゲノム領域に対応するプローブのプローブサイズの合計である。例示すると、パネルは、がんの存在を示す第1ゲノム領域を含む。第1ゲノム領域は、120の核酸塩基のプローブサイズを有する4つのプローブにより配列される。よって、ゲノム領域の指標サイズは、480の核酸塩基である。
パネル全体のプローブサイズは、そのため、パネルに含まれる全てのゲノム領域の指標サイズの合計である。例示すると、パネルは、第1ゲノム領域と第2ゲノム領域とを含む。第1ゲノム領域は2.3k核酸塩基(または「kb」)の指標サイズを有し、第2ゲノム領域は5.8kbの指標サイズを有する。そのため、パネル全体のプローブカバレッジサイズは、8.1kbである。
V.D パネル検出能力
パネルの疾患検出能力を定量化する測定基準はいくつかある。一例において、パネルジェネレータ250は、検出感度および/または検出特異度を有するパネルを生成する。検出感度はパネルの真陽性率の定量化であり、検出特異度はパネルの真陰性率の定量化である。パネルの能力を定量化する他の測定基準も考えられる。
パネルの疾患検出能力を定量化する測定基準はいくつかある。一例において、パネルジェネレータ250は、検出感度および/または検出特異度を有するパネルを生成する。検出感度はパネルの真陽性率の定量化であり、検出特異度はパネルの真陰性率の定量化である。パネルの能力を定量化する他の測定基準も考えられる。
例示すると、システム200は、パネルジェネレータ250により生成されたパネルを採用し、95の試料においてがんの存在を判定する。試料は、80のがん試料および15の非がん試料を含む。システム200は、がん試料の内70個および非がん試料の内1つががんを示すと判定する。システム200は、がん試料の内10個および非がん試料の内14個ががんを示さないとも判定する。そのため、パネルの検出感度は88%であり、パネルの検出特異度は93%である。
V.E 性能測定基準
パネルジェネレータ250は、性能測定基準に基づいてパネルを生成できる。性能測定基準は、例えば、パネルサイズ、パネル検出能力、標的疾患(例えば、がん)、疾病の種類(例えば、咽頭がん、肝がん等)、および/または疾病のステージ(例えば、ステージI、ステージII等)などを含むことができる。
パネルジェネレータ250は、性能測定基準に基づいてパネルを生成できる。性能測定基準は、例えば、パネルサイズ、パネル検出能力、標的疾患(例えば、がん)、疾病の種類(例えば、咽頭がん、肝がん等)、および/または疾病のステージ(例えば、ステージI、ステージII等)などを含むことができる。
説明のため、図4は、実施形態に係る性能測定基準に従ったパネルを生成するための例示のワークフローを示す。ワークフロー400は、システム200または別の類似のシステムにより実行されうる。ワークフロー400は、追加的な、またはより少ないステップを含むことができ、ステップは、異なる順番で配置されうる。
システム200は、リクエストを受信し、疾病分類(例えば、がん)を判定するパネルを生成する(410)。リクエストは、パネルがどのように設計されるべきかを定義する性能測定基準を含む。パネルジェネレータ250は、指標データベース290から1つまたは複数の指標セットにアクセスし(420)、各セットは、1つまたは複数のゲノム領域およびそのシークエンシングデータを含む。パネルジェネレータ250は、その変動ががんの存在を示しうる、アクセスされたゲノム領域の1つまたは複数を選択することによりパネルを生成する(430)。指標となるゲノム領域の判定およびパネルに対するそれらの選択については、以下でより詳細に説明される。パネルジェネレータ250は、選択されたゲノム領域を含むパネルを要求元に送信する(440)。いくつかの例においては、パネルジェネレータ250は選択されたゲノム領域をカバーし、プローブおよび/またはプローブカバレッジを要求元に送信するプローブのセットを(例えば、プローブジェネレータ260によって)判定する、またはそうでなければ、設計する。
VI.分類モデル
パネルジェネレータ250は、分類モデル270を採用し、パネルに含むべきゲノム領域を同定する。分類モデル270は、同定されたゲノム領域の異なる組み合わせを含むパネルの分類能力を予測することによりゲノム領域を同定する。分類モデル270は、いくつかの異なるモデルを含むことができ、各モデルは、異なるゲノム領域を同定できる。
パネルジェネレータ250は、分類モデル270を採用し、パネルに含むべきゲノム領域を同定する。分類モデル270は、同定されたゲノム領域の異なる組み合わせを含むパネルの分類能力を予測することによりゲノム領域を同定する。分類モデル270は、いくつかの異なるモデルを含むことができ、各モデルは、異なるゲノム領域を同定できる。
パネルを生成するため、パネルジェネレータ250は、(例えば、指標データベース290からの)1つまたは複数のゲノム領域を含む指標セットにアクセスし、それらの1つまたは複数のゲノム領域を分類モデル270に入力する。パネルジェネレータ250は、分類モデル270を利用し、アクセスされたゲノム領域のどれががんの存在(「指標」)を示しうるのかを判定し、パネルに含有する適切な指標を選択する。分類モデル270における様々なモデルの各々は、異なる方法でパネルに含むべき指標を判定できる。例えば、関連遺伝子モデル272は、その特徴変動ががんの存在と関連しているゲノム領域が、関連指標としてパネルに含まれるべきと判定できる。別の例においては、ウイルス領域モデル280は、がんと関連しているウイルスと関連しているゲノム領域が、ウイルス指標としてパネルに含まれるべきと判定できる。様々なモデルについては、本明細で更に詳細に説明される。
分類モデル270の他の構成も考えられる。ある構成において、パネルジェネレータ250は、分類モデル270を採用し、1つまたは複数の性能測定基準に従ってパネルに対する指標を判定する。例えば、パネルジェネレータ250は、閾値パネルサイズ未満のパネルサイズを有するが、最も高い検出感度を有するパネルを生成できる。別の例においては、パネルジェネレータ250は、閾値感度を上回る検出感度を有するが、最小のパネルサイズを有するパネルを生成できる。
別の構成において、パネルジェネレータ250は、分類モデル270が2つ以上の特徴に基づいて指標を判定したときに検出能力が増加するパネルを生成できる。一例として、分類モデル270は、SNVおよびインデルの両方の特徴変動に基づいて指標を判定できる。
VI.A 例示の分類モデル性能
パネルの検出能力は、分類モデル270の構成次第である。受診者動作特性曲線プロット(「ROCプロット」)は、パネルの検出能力を視覚化する。ROCプロットにおいて、x軸は偽陽性率であり、y軸は真陽性率である。偽陽性率は1から特異度を引いたものであり、真陽性率は感度である。
パネルの検出能力は、分類モデル270の構成次第である。受診者動作特性曲線プロット(「ROCプロット」)は、パネルの検出能力を視覚化する。ROCプロットにおいて、x軸は偽陽性率であり、y軸は真陽性率である。偽陽性率は1から特異度を引いたものであり、真陽性率は感度である。
図5は、本明細書に記載の方法で同定または選択されなかったゲノム領域の大規模なセット(約2Mb)を含むパネルに基づいた3つの分類子の性能を示すROCプロットを示す。ROCプロット510は、3つの例示の分類モデル270のがん/非がん検出能力を示す3つの曲線を含む。第1曲線は、コピー数異常(「CNA」)の特徴変動を分析し、がんの存在を判定するように構成された分類モデルにより生成されたパネルの検出能力を示す(CNA512)。第2曲線は、SNVおよびインデルの特徴変動を分析し、がんの存在を判定するように構成された分類モデルにより生成されたパネルの検出能力を示す(バイ分類子514)。第3曲線は、SNV、インデル、およびCNAの特徴変動を分析するように構成された分類子により生成されたパネルの検出能力を示す(マルチ分類子516)。表7は、図5に示す3つのモデルの検出能力の比較を示している。
VII.関連指標
上述したように、分類モデル270は、関連遺伝子モデル272(「関連モデル272」)を含む。関連モデル272は、指標セットにおけるどのゲノム領域ががんの存在に関係しているかを判定する。ゲノム領域とがんの存在との関係を定量化するため、パネルジェネレータ250は、ゲノム領域の各々に対するモデル係数を判定する。関連モデル272に関して、モデル係数は、ゲノム領域のがんの存在に対する、特徴量の指標となるものを定量化する(「感度係数」)。例えば、0.05の感度係数が、ゲノム領域に対して導出された特徴量ががんの存在を示す尤度が低いことを示すのに対し、0.55の感度係数は、ゲノム領域に対する特徴量ががんの存在を示す尤度が高いことを示す。
上述したように、分類モデル270は、関連遺伝子モデル272(「関連モデル272」)を含む。関連モデル272は、指標セットにおけるどのゲノム領域ががんの存在に関係しているかを判定する。ゲノム領域とがんの存在との関係を定量化するため、パネルジェネレータ250は、ゲノム領域の各々に対するモデル係数を判定する。関連モデル272に関して、モデル係数は、ゲノム領域のがんの存在に対する、特徴量の指標となるものを定量化する(「感度係数」)。例えば、0.05の感度係数が、ゲノム領域に対して導出された特徴量ががんの存在を示す尤度が低いことを示すのに対し、0.55の感度係数は、ゲノム領域に対する特徴量ががんの存在を示す尤度が高いことを示す。
状況を示すため、ゲノム領域を含むアクセスされた指標セットについて考える。ゲノム領域は、指標セットにおけるがんおよび非がんのシークエンシングデータと関連している。パネルジェネレータ250は、シークエンシングデータに対する特徴量を導出し、分析する。例えば、パネルジェネレータ250は、アクセスされたシークエンシングデータにおけるSNVに対する最大VAFを判定する。この際、シークエンシングデータにおけるSNVに対する最大VAFの変動ががんの存在を示す場合、パネルジェネレータ250は、ゲノム領域の感度係数が高い(例えば、0.60)と判定する。反対に、シークエンシングデータにおけるSNVに対する最大VAFの変動ががんの存在を示さない場合、ゲノム領域の感度係数は低い(例えば、0.06)。
モデル係数を判定する方法はいくつかある。一例において、パネルジェネレータ250は、関連モデル272を採用し、アクセスされたシークエンシングデータに対してL2罰則付きロジスティック回帰を実行する。この場合、モデル係数(例えば、感度係数)は、各ゲノム領域に対して判定された回帰係数である。他の例においては、分類モデル270は、L1罰則付きロジスティック回帰、エラスティックネット分類子ロジスティック回帰サポートベクターマシン(SVM)、Naive Bayes、およびランダムフォレストを実行し、モデル係数を判定できる。
パネルジェネレータ250は、分類モデル270を採用し、アクセスされたゲノム領域を、それらの判定されたモデル係数に基づいてランク付けする。パネルジェネレータ250は、続いて、パネルに対するゲノム領域を関連指標として選択する。ランク付けおよび関連指標の選択については、以下で更に詳細に説明される。
VII.A 関連モデル性能
本明細書に記載の回帰ベースモデル(例えば、関連モデル272)は、ゲノム領域の大規模なセットで見られるものよりも検出能力が高い。例示として、表8は、回帰ベースの分類モデル270を使用して生成されたパネル(例えば、縮小され、最適化されたパネル)の検出能力を、上の表7で示したゲノム領域の大規模なセットの分類モデルと比較している。より具体的には、表は、SNVおよびインデルの両方の特徴変動を分析するために構成されたパネルの検出能力を比較している。さらに、表は、3つの異なるロジスティック回帰ベースの分類モデルの検出能力を、ゲノム領域の大規模なセットのものと比較している。表に示すように、log-reg-l2はL2ロジスティック回帰分類子であり、log-reg-L1はL1ロジスティック回帰分類子であり、log-reg-enはエラスティックネットロジスティック回帰分類子である。表に示すように、L2またはエラスティックネットロジスティック回帰を使用した縮小パネルに基づく分類子性能は、95%、98%、および99%の特異度にわたり、ゲノム領域の大規模なセットのものより改善したのに対し、L1ロジスティック回帰を使用した縮小パネルの分類子性能は、概して、それらの特異度にわたり、同様の性能を得た、またはそうでなければ大規模なセットの分類子の性能を再現/維持した。
本明細書に記載の回帰ベースモデル(例えば、関連モデル272)は、ゲノム領域の大規模なセットで見られるものよりも検出能力が高い。例示として、表8は、回帰ベースの分類モデル270を使用して生成されたパネル(例えば、縮小され、最適化されたパネル)の検出能力を、上の表7で示したゲノム領域の大規模なセットの分類モデルと比較している。より具体的には、表は、SNVおよびインデルの両方の特徴変動を分析するために構成されたパネルの検出能力を比較している。さらに、表は、3つの異なるロジスティック回帰ベースの分類モデルの検出能力を、ゲノム領域の大規模なセットのものと比較している。表に示すように、log-reg-l2はL2ロジスティック回帰分類子であり、log-reg-L1はL1ロジスティック回帰分類子であり、log-reg-enはエラスティックネットロジスティック回帰分類子である。表に示すように、L2またはエラスティックネットロジスティック回帰を使用した縮小パネルに基づく分類子性能は、95%、98%、および99%の特異度にわたり、ゲノム領域の大規模なセットのものより改善したのに対し、L1ロジスティック回帰を使用した縮小パネルの分類子性能は、概して、それらの特異度にわたり、同様の性能を得た、またはそうでなければ大規模なセットの分類子の性能を再現/維持した。
VII.B モノ分類子およびバイ分類子
パネルジェネレータ250は、分類モデル270を採用し、ゲノム領域に対して導出された1つまたは複数の特徴量を分析することによりパネルを生成できる。概して、2つの特徴量に基づいて(すなわち、SNVおよびインデルの両方に基づいて)生成されたパネルは、単一の特徴量(例えば、SNVのみ)に基づいて生成されたパネルと同様の検出能力を得た。例示すると、図6A~図6Dは、SNVおよびインデル(「バイ分類子」)に対する特徴量を分析する分類モデルと、SNVのみ(「モノ分類子」)に対する特徴量を分析する分類モデルとを採用するパネルジェネレータ250により生成されたパネルの検出能力を示している。図6A~図6Dにおいて、分類子は、低シグナルのがんおよび高シグナルのがんの両方を含む試料に適用される。
パネルジェネレータ250は、分類モデル270を採用し、ゲノム領域に対して導出された1つまたは複数の特徴量を分析することによりパネルを生成できる。概して、2つの特徴量に基づいて(すなわち、SNVおよびインデルの両方に基づいて)生成されたパネルは、単一の特徴量(例えば、SNVのみ)に基づいて生成されたパネルと同様の検出能力を得た。例示すると、図6A~図6Dは、SNVおよびインデル(「バイ分類子」)に対する特徴量を分析する分類モデルと、SNVのみ(「モノ分類子」)に対する特徴量を分析する分類モデルとを採用するパネルジェネレータ250により生成されたパネルの検出能力を示している。図6A~図6Dにおいて、分類子は、低シグナルのがんおよび高シグナルのがんの両方を含む試料に適用される。
図6Aは、いくつかの実施形態に係る、低シグナルのがんおよび高シグナルのがんの両方を含む訓練データに適用されるバイ分類子およびモノ分類子により生成されたパネルに対するROCプロットを示す。バイ分類子612がSNVおよびインデルを特徴として有するL2ロジスティック回帰分類子を含むのに対し、モノ分類子614はSNVのみに対するL2ロジスティック回帰分類子である。ROCプロット610に示すように、バイ分類子612は、高い検出感度においてはモノ分類子614より検出能力がわずかに高いが、性能は概して同一である。
図6Bは、いくつかの実施形態に係る、図6AにおけるROCプロットに対するROC結果プロットを示す。ROC結果プロットにおいて、x軸は特異度であり、y軸は感度である。ROC結果プロットは、様々な特異度においてバイ分類子の感度をモノ分類子と比較する。ROC結果プロット620に示すように、バイ分類子622は、モノ分類子624と比較して特異度に対する感度がわずかに高いが、それでも、性能は概して同一である。言い換えれば、本明細書に記載の方法に従ったパネル設計に対してSNVのみを使用することにより、結果として臨床的感度の損失を最小限(例えば、1~2%)に抑えつつ、よりシンプルでより費用対効果の良いパネルがもたらされる。
図6Cは、いくつかの実施形態に係る、テストデータに適用されるバイ分類子およびモノ分類子により生成されたパネルに対するROCプロットを示す。例えば、図6A~図6Bにおけるような訓練データに対してバイ分類子およびモノ分類子を訓練した後、訓練された分類子は、テストデータのセットに対する分類を実行できる。図6A~図6Bにおけるように、バイ分類子632がSNVおよびインデルを特徴として有するL2ロジスティック回帰分類子を含むのに対し、モノ分類子634はSNVのみに対するL2ロジスティック回帰分類子である。ROCプロット630に示すように、バイ分類子632は、概して、モノ分類子634と比較して検出能力が高いが最小限であり、結果として同様の分類性能が得られる。
図6Dは、いくつかの実施形態に係る、図6CのROCプロットに対するROC結果プロットを示す。ROC結果プロット640に示すように、バイ分類子642は、モノ分類子644と比較して95%および99%の特異度において感度が高いが最小限であり、98%の特異度においてはモノ分類子644と同一の感度である。言い換えれば、テストデータにおける分類は、本明細書に記載するようなパネル設計に対してSNVのみを使用することにより、SNVおよびインデルの両方に対して設計されたパネルと同様の性能を得ながら、よりシンプルなパネルも得られることを確認している。
図7A~図7Dは、高シグナルのがんのみに対する、モノ分類子と比較したバイ分類子の検出能力の増加を更に示す。具体的に、図7A~図7Dにおいて、パネルは、図6A~図6Dにおけるような高シグナルのがんおよび低シグナルのがんの両方ではなく、高シグナルのがんのみを含む試料に適用される。図7A~図7Dに示す両方の分類子は、L2ロジスティック回帰を含む。
図7Aは、いくつかの実施形態に係る、訓練試料に適用されるバイ分類子およびモノ分類子により生成されたパネルに対するROCプロットを示す。ROCプロット710に示すように、バイ分類子712は、高い検出感度において、モノ分類子714よりも検出能力が高いが最小限である。そのため、本明細書に記載の方法に従って高シグナルのがんに対するパネル設計に対してSNVのみを使用することにより、結果として臨床的感度の損失を最小限に抑えつつ、よりシンプルでより費用対効果の良いパネルがもたらされる。
図7Bは、いくつかの実施形態に係る、図7AのROCプロットに対するROC結果プロットを示す。ROC結果プロット720に示すように、バイ分類子722は、モノ分類子724と比較して、全ての特異度で感度が高いが最小限である。そのため、バイ分類子722およびモノ分類子724は、高シグナルのがんに対して同様の分類性能を達成すると考えることができる。
図7Cは、いくつかの実施形態に係る、高シグナルのがんのテスト試料に適用されるバイ分類子およびモノ分類子により生成されたパネルに対するROCプロットを示す。例えば、図7A~図7Bにおけるような高シグナルのがんの訓練データに対してバイ分類子およびモノ分類子を訓練した後、訓練された分類子は、高シグナルのがんのテストデータのセットに対する分類を実行できる。ROCプロット730に示すように、バイ分類子732は、高い検出感度において、モノ分類子734より検出能力が高いが最小限である。
図7Dは、いくつかの実施形態に係る、図7CにおけるROCプロットのROC結果プロットを示す。ROC結果プロット740に示すように、バイ分類子742は、モノ分類子744と比較して、全ての特異度で感度が高いが最小限である。そのため、テストデータに対する分類が更に示すように、本明細書に記載の方法に従って高シグナルのがんに対するパネル設計にSNVのみを使用することにより、結果として臨床的感度の損失を最小限に抑えつつ、よりシンプルでより費用対効果の良いパネルがもたらされる。
VIII.ゲノム領域のランク付け
上述したように、パネルジェネレータ250は、分類モデル270をアクセスされたゲノム領域に適用することによりパネルを生成する。分類モデル270は、アクセスされた指標の各々に対する特徴量を導出する関連モデル272を含む。関連モデル272は、続いて、ゲノム領域に対するモデル係数を判定し、それらのモデル係数に基づいてゲノム領域をランク付けする。ここで、モデル係数は、回帰ベースの分類子の回帰係数であるが、がんの存在に対するゲノム領域の指標となるものの別の定量化もありうる。
上述したように、パネルジェネレータ250は、分類モデル270をアクセスされたゲノム領域に適用することによりパネルを生成する。分類モデル270は、アクセスされた指標の各々に対する特徴量を導出する関連モデル272を含む。関連モデル272は、続いて、ゲノム領域に対するモデル係数を判定し、それらのモデル係数に基づいてゲノム領域をランク付けする。ここで、モデル係数は、回帰ベースの分類子の回帰係数であるが、がんの存在に対するゲノム領域の指標となるものの別の定量化もありうる。
分類予測モデル270の1つまたは複数のモデルは、ゲノム領域をランク付けする、またはそうでなければ、パネル設計に含まれるべきゲノム領域を選択するための、回帰ベースの分類子および/または他のモデルを含むことができることが知られている。例として、関連モデル272は、図6A~図6Dおよび図7A~図7Dにおいて上述したような高シグナルのがんおよび/または他のがんを含む訓練データのセットなど、訓練データのセットに対して訓練されたロジスティック回帰分類子を含むことができる。さらに、関連モデル272は、SNVのみのパネル設計に対してSNVのみを使用するモノ分類子、またはSNVおよびインデルのパネル設計に対してSNVおよびインデルを使用するバイ分類子を含むことができる。上述したように、場合によっては、SNVのみのパネルのためにSNVのみをベースとした分類が、同様の分類性能が期待されうる、またはそうでなければ、得られうるとき、SNVとインデルとを結合したアプローチより好まれうる。なお、さらに、いくつかの例においては、ゲノム領域をランク付けまたは選択するためのモデルの1つまたは複数は、データベースおよび/または文献など、様々なソースからゲノム領域をカスタマイズまたはキュレートするためのモデルまたは方法論を含むことができる。分類予測モデル270は、以下で更に説明されるように、そのような分類モデルおよび/またはカスタマイズ技術の任意の組み合わせを含むことができることが知られている。
図8A~図8C、図9A~図9C、および図10は、関連モデル272を指標セットに適用するパネルジェネレータ250により判定されたモデル係数を示す。指標セットは、例えば、固形および/または液状の両方のシークエンシングデータを含むCCGA指標セットでありうる。関連モデル272は、訓練データ(例えば、高シグナルのがんのみの訓練データ、または高シグナルおよび低シグナルのがんの訓練データ)のセットに対して訓練されたL2ロジスティック回帰分類子など、回帰ベースの分類子でありうる。
VIII.A 固形がん
図8Aは、いくつかの実施形態に係る、高シグナルのがん(例えば、固形がん)に関係している45の遺伝子に対する係数プロットを示す。係数プロットは、多数のゲノム領域に対するモデル係数を示す。すなわち、x軸の各バーは、異なる遺伝子またはゲノム領域を表し、y軸に沿ったバーの高さは、(任意の単位の)ゲノム領域のモデル係数の定量化である。
図8Aは、いくつかの実施形態に係る、高シグナルのがん(例えば、固形がん)に関係している45の遺伝子に対する係数プロットを示す。係数プロットは、多数のゲノム領域に対するモデル係数を示す。すなわち、x軸の各バーは、異なる遺伝子またはゲノム領域を表し、y軸に沿ったバーの高さは、(任意の単位の)ゲノム領域のモデル係数の定量化である。
係数プロット810において、ゲノム領域は、それらの判定されたモデル係数に従ってランク付けされる。すなわち、ゲノム領域は、がんの存在を示す、またはがんの存在について情報価値のある、それらの特徴量に従ってランク付けされる。ここで、ゲノム領域は、固形がんに関係している遺伝子に対応し、以下の表11にリスト化されている。そのため、係数プロット810の左側のゲノム領域は、係数プロット810の右側のゲノム領域より多く固形がんの存在を示す。
図8Bは、一実施形態に係る、固形がんに対するがん頻度プロットを示す。がん頻度プロットは、がんが存在する試料におけるゲノム領域に対する指標となる特徴量頻度を示す。すなわち、x軸の各バーは異なるゲノム領域を表し、y軸のバーの高さはそのゲノム領域における特徴量がどの程度がん試料を示すかを定量化したものである。さらに、x軸の各位置におけるゲノム領域は、図8Aの係数プロットの対応する位置におけるゲノム領域と同一である。例えば、図8Aのゲノム領域1は、図8B等のゲノム領域1と同一である。
例示されたがん頻度プロット820において、がんを示す特徴は、ゲノム領域のSNVに対する最大バリアントアレル頻度である。そのため、指標となる特徴量頻度は、指標となる最大バリアントアレル頻度が、固形がんが存在する試料でどの程度生じるかを定量化したものである。とりわけ、ゲノム領域に対する指標となる特徴量頻度は、それらの対応するモデル係数と同様にはランク付けされない。このことは、指標となる特徴変動頻度の高さが、必ずしもがんの存在を強く示すゲノム領域に対応するわけではないことを示す。
図8Cは、一実施形態に係る、固形がんに対する非がん頻度プロットを示す。非がん頻度プロットは、非がん試料におけるゲノム領域に対する指標となる特徴量頻度を示す。ここで、x軸の各位置のゲノム領域は、図8Aおよび図8Bの対応する位置におけるゲノム領域と同一である。
非がん頻度プロット830において、指標となる特徴量頻度は、指標となる最大バリアントアレル頻度が非がん試料でどの程度生じるかを定量化したものである。非がん試料における頻度は、がん試料における頻度よりずっと少なく、これは、図示された指標の特異度が高いことを示している。
VIII.B 液状がん
図9A~図9Cは、モデル係数および特徴変動頻度が液状がん試料に対して訓練された回帰分類子から導出されることを除いて、図8A~図8Cと同様なプロットを示す。追加的に、図9A~図9Cは、いくつかの補足ゲノム領域(すなわち、ゲノム領域46~50)を含む。図9A~図9Cのx軸の各位置におけるゲノム領域は、図8A~図8Cの対応する位置のゲノム領域と同一である。
図9A~図9Cは、モデル係数および特徴変動頻度が液状がん試料に対して訓練された回帰分類子から導出されることを除いて、図8A~図8Cと同様なプロットを示す。追加的に、図9A~図9Cは、いくつかの補足ゲノム領域(すなわち、ゲノム領域46~50)を含む。図9A~図9Cのx軸の各位置におけるゲノム領域は、図8A~図8Cの対応する位置のゲノム領域と同一である。
図9Aは、いくつかの実施形態に係る、液状がんの検出のために適用されたときのゲノム領域に対する係数プロットを示す。係数プロット910において、ゲノム領域は、固形がんの存在を示すためのそれらのランク付けの順番に、x軸に沿って並べられている。しかしながら、液状がんに対するモデル係数が固形がんに対するモデル係数と類似していないため、ゲノム領域は、液状がん検出に対しては適切にランク付けされていない。追加的に、補足ゲノム領域は、多くの元のゲノム領域よりも高いモデル係数を有する。このことは、パネルジェネレータ250が、プローブしようとするがんの種類に基づいてパネルに対するゲノム領域を選択できることを示している。
図9Bは、いくつかの実施形態に係る、液状がんに対するがん頻度プロットを示す。がん頻度プロット920において、指標となる特徴量頻度は、指標となる最大バリアントアレル頻度ががん試料においてどの程度生じるかを定量化したものである。x軸の各位置のゲノム領域は、図8A~図8Cの対応する位置のゲノム領域と同一である。図8Bと同様に、特徴変動頻度は、ゲノム領域のランク付けに対応していない。
図9Cは、いくつかの実施形態に係る、液状がんに対する非がん頻度プロットを示す。非がん頻度プロット930において、指標となる特徴量頻度は、指標となる最大バリアントアレル頻度が非がん試料においてどの程度生じるかを定量化したものである。図8Cと同様に、非がん試料の頻度変動は、がん試料の頻度変動よりずっと小さい。
VIII.C 固形がん対液状がん
図10は、いくつかの実施形態に係る、固形がんおよび液状がんに対する係数プロットを示す。係数プロット1010は、固形がんおよび液状がんに対するゲノム領域のモデル係数の差を示す。係数プロット1010において、塗りつぶされたバーが固形がん1012に対するモデル係数を表すのに対し、塗りつぶされていないバーは液状がん1014に対するモデル係数を表す。x軸の各位置のゲノム領域は、図9A~図9Cの対応する位置のゲノム領域と同一である。図示するように、ゲノム領域5、6、10、および39に対するモデル係数は、固形がんおよび液状がんの両方のがんの存在を示す。ゲノム領域1~45におけるモデル係数が概して固形がんの存在を示すのに対し、ゲノム領域46~50におけるモデル係数は概して液状がんの存在を示す。
図10は、いくつかの実施形態に係る、固形がんおよび液状がんに対する係数プロットを示す。係数プロット1010は、固形がんおよび液状がんに対するゲノム領域のモデル係数の差を示す。係数プロット1010において、塗りつぶされたバーが固形がん1012に対するモデル係数を表すのに対し、塗りつぶされていないバーは液状がん1014に対するモデル係数を表す。x軸の各位置のゲノム領域は、図9A~図9Cの対応する位置のゲノム領域と同一である。図示するように、ゲノム領域5、6、10、および39に対するモデル係数は、固形がんおよび液状がんの両方のがんの存在を示す。ゲノム領域1~45におけるモデル係数が概して固形がんの存在を示すのに対し、ゲノム領域46~50におけるモデル係数は概して液状がんの存在を示す。
IX.指標の選択
上述したように、パネルジェネレータ250は、分類モデル270をアクセスされたゲノム領域に適用することによりパネルを生成する。分類モデル270は、各ゲノム領域に対するモデル係数を判定し、ランク付けする。パネルジェネレータ250は、続いて、パネルに対するゲノム領域を、それらのランク付けされたモデル係数に基づいて、指標として選択する。
上述したように、パネルジェネレータ250は、分類モデル270をアクセスされたゲノム領域に適用することによりパネルを生成する。分類モデル270は、各ゲノム領域に対するモデル係数を判定し、ランク付けする。パネルジェネレータ250は、続いて、パネルに対するゲノム領域を、それらのランク付けされたモデル係数に基づいて、指標として選択する。
パネルジェネレータ250は、いくつかの方法で指標を選択できる。第1構成において、パネルジェネレータ250は、特徴量からモデル係数を判定し、単一の反復でそれらの係数をランク付けする。パネルジェネレータ250は、続いて、単一の反復のランク付けに基づいて、パネルに対するゲノム領域を選択できる。分類モデル270は、異なる指標セットにも適用され、各指標セットに対して同様の方法で選択されうる。
別の構成において、パネルジェネレータ250は、各ゲノム領域がパネルに対して選択された後、モデル係数を判定し、ランク付けすることができる。例えば、第1反復の後に最も高くランク付けされた係数によりゲノム領域を選択した後、パネルジェネレータ250のモデルは、分類モデル270を残りの指標に適用し、特徴を導出し、第2反復でモデル係数をランク付けすることができる。パネルジェネレータは、続いて、第2反復で判定されたモデル係数に基づいて、ゲノム領域を選択できる。反復選択プロセスは、必要に応じて継続でき、異なる指標セットを含むことができる。
追加的に、どのようにパネルジェネレータ250を構成し、指標を選択するかを決定するときに考慮すべき設計上の側面がいくつかある。分類モデルによっては、各追加的な指標がそのパネルの検出能力を増加させると考え、パネルに対してできるだけ多くの指標を選択する。しかしながら、以下で説明するように、パネルの検出能力は、必ずしも各追加的な指標により増加するものではない。さらに、パネルに対する追加的な指標を選択することにより、そのパネルの複雑さおよびコストが増加する。そのため、パネルジェネレータ250は、性能測定基準に基づいて指標を選択するように構成されうる。性能測定基準によっては、上述したように、検出能力(例えば、分類感度、分類精度)、パネルサイズ、パネル標的(例えば、固形、液状等)、および/またはその任意の組み合わせを含む。
IX.A 検出能力
パネルジェネレータ250は、最適化された検出能力によりパネルを生成できる。検出能力を測定するための1つの性能測定基準は、例えば、95%の特異度におけるパネル感度(「検出能力の測定基準」)であるが、他の性能測定基準も考えられる。従って、本例において、パネルジェネレータ250は、性能測定基準が別のゲノム領域または関連指標の追加により低下する、次第に減少する、および/または頭打ちになるまで、関連指標としてゲノム領域を継続的に選択する。関連指標は反復して選択され、各反復では、判定された最も高いモデル係数により指標を選択できる。
パネルジェネレータ250は、最適化された検出能力によりパネルを生成できる。検出能力を測定するための1つの性能測定基準は、例えば、95%の特異度におけるパネル感度(「検出能力の測定基準」)であるが、他の性能測定基準も考えられる。従って、本例において、パネルジェネレータ250は、性能測定基準が別のゲノム領域または関連指標の追加により低下する、次第に減少する、および/または頭打ちになるまで、関連指標としてゲノム領域を継続的に選択する。関連指標は反復して選択され、各反復では、判定された最も高いモデル係数により指標を選択できる。
例示として、図11Aは、いくつかの実施形態に係る、固形がんに対する検出寄与プロットを示す。検出寄与プロット1110において、x軸は、パネルに追加されたゲノム領域を表し、y軸は、そのパネルに対する検出能力の測定基準を示す。ここで、性能測定基準は、所与の特異度における感度である。ゲノム領域は、固形がんに対するそれらのモデル係数に従ってランク付けされた順番でパネルに追加される。図示するように、ゲノム領域をパネルに追加することにより、寄与変曲点1112まで検出能力の測定基準が増加する。寄与変曲点1112において、追加的なゲノム領域を追加することにより、検出能力の測定基準が低下する。示された例において、寄与変曲点1112は45のゲノム領域で生じ、その後、検出能力の測定基準が低下する。従って、パネルジェネレータ250は、(例えば、200のゲノム領域の大規模なセットの)始めの45のゲノム領域を、パネルに対する関連指標として選択できる。表11は、例えば、固形がんの存在を判定するためのパネルに対して選択された45の関連指標を示す。表は、それらの名前、サイズ、およびゲノムにおける位置を示す。
図11Bは、いくつかの実施形態に係る、液状がんに対する検出寄与プロットを示す。検出寄与プロット1120において、x軸は、パネルに追加されたゲノム領域を表し、y軸は、そのパネルに対する性能測定基準を示す。ここで、性能測定基準は、所与の特異度における感度である。ゲノム領域は、液状がんに対するそれらのモデル係数に従ってランク付けされた順番でパネルに追加される。示された例において、寄与変曲点1122は、5つのゲノム領域であり、その後、性能測定基準は概して頭打ちになる。従って、パネルジェネレータ250は、(例えば、9つのゲノム領域の大規模なセットの)始めの5つのゲノム領域をパネルに対する関連指標として選択できる。表12は、例えば、液状がんの存在を判定するためのパネルに対して選択された5つの関連指標を示す。表は、それらの名前、サイズ、およびゲノムにおける位置を示す。
IX.B パネルサイズ
パネルジェネレータ250は、ランク付けされた指標を選択し、閾値パネルサイズ未満のパネルサイズのパネルを生成できる。例えば、パネルジェネレータ250は、500kb未満のパネルを生成するように構成されうる。閾値パネルサイズは、パネルジェネレータ250の構成、システム200の管理者による指定でありうる、またはシステム200のユーザから受信されうる。
パネルジェネレータ250は、ランク付けされた指標を選択し、閾値パネルサイズ未満のパネルサイズのパネルを生成できる。例えば、パネルジェネレータ250は、500kb未満のパネルを生成するように構成されうる。閾値パネルサイズは、パネルジェネレータ250の構成、システム200の管理者による指定でありうる、またはシステム200のユーザから受信されうる。
例示すると、図12は、いくつかの実施形態に係る、固形がんに対するサイズ寄与プロットを示す。サイズ寄与プロット1210において、x軸は、パネルに追加されたランク付けされたゲノム領域の数を表し、y軸は、パネルに対するパネルサイズを示す。破線の横線1212は、200kbの所望の閾値パネルサイズを示す。図示するように、ゲノム領域をパネルに追加することによりパネルサイズが増加し、45番目に追加された指標は、パネルサイズを、閾値パネルサイズを上回って増加させる。従って、選択されたパネルは、始めの44のゲノム領域を含む。
X.追加的な指標
上述したように、パネルジェネレータ250は、分類モデル270を採用し、パネルに関連指標として含むべきゲノム領域を判定する。本明細書で説明されるように、分類モデルは、関連遺伝子モデル272に従ってパネルに対するゲノム領域を選択した。しかしながら、状況によっては、関連遺伝子モデル272は、その構成によりパネルの検出能力を増加させうるいくつかのゲノム領域を同定しなくてもよい。従って、分類モデル270は、1つまたは複数の追加的なモデルを採用し、パネルの指標として追加的なゲノム領域を同定し、選択できる。以下で説明するように、いくつかの追加的なモデルには、例えば、領域カバレッジモデル274、がん種類モデル276、ホットスポット領域モデル278、およびウイルス領域モデル280がある。
上述したように、パネルジェネレータ250は、分類モデル270を採用し、パネルに関連指標として含むべきゲノム領域を判定する。本明細書で説明されるように、分類モデルは、関連遺伝子モデル272に従ってパネルに対するゲノム領域を選択した。しかしながら、状況によっては、関連遺伝子モデル272は、その構成によりパネルの検出能力を増加させうるいくつかのゲノム領域を同定しなくてもよい。従って、分類モデル270は、1つまたは複数の追加的なモデルを採用し、パネルの指標として追加的なゲノム領域を同定し、選択できる。以下で説明するように、いくつかの追加的なモデルには、例えば、領域カバレッジモデル274、がん種類モデル276、ホットスポット領域モデル278、およびウイルス領域モデル280がある。
X.A カバレッジ指標
上述したように、パネルジェネレータ250は、指標データベース280からゲノム領域を含む指標セットにアクセスできる。パネルジェネレータ250は、例えば、関連モデル272を訓練し、指標セットからの同定された指標を使用してパネルを生成する。しかしながら、場合によっては、指標セットは、関連モデル272を訓練するのに適切ではない。これらの例において、パネルジェネレータ250は、異なるモデルを適用して、パネルカバレッジを改善するカバレッジ指標として、パネルに対する追加的なゲノム領域を選択できる。カバレッジは、指標セットにおける試料が、どのぐらいパネルに含まれるゲノム領域により同定されるかを定量化したものである。カバレッジは、感度の定量化ではない。
上述したように、パネルジェネレータ250は、指標データベース280からゲノム領域を含む指標セットにアクセスできる。パネルジェネレータ250は、例えば、関連モデル272を訓練し、指標セットからの同定された指標を使用してパネルを生成する。しかしながら、場合によっては、指標セットは、関連モデル272を訓練するのに適切ではない。これらの例において、パネルジェネレータ250は、異なるモデルを適用して、パネルカバレッジを改善するカバレッジ指標として、パネルに対する追加的なゲノム領域を選択できる。カバレッジは、指標セットにおける試料が、どのぐらいパネルに含まれるゲノム領域により同定されるかを定量化したものである。カバレッジは、感度の定量化ではない。
説明のため、がん試料のみから取得されたゲノム領域を含む指標セットについて考える。この場合、指標セットががん試料から判定されたゲノム領域を含むが、非がん試料から取得された対照データを欠いているため、パネルジェネレータ250は、関連モデル272を訓練できない。従って、パネルジェネレータ250は、領域カバレッジモデル(「カバレッジモデル274」)を適用して、パネルに含むべきカバレッジ指標を判定できる。
カバレッジモデル274は、関連モデル270と同様な方法で、指標セットにおける各ゲノム領域に対するモデル係数を同定する。本例において、モデル係数は、ゲノム領域をパネルに追加するときにどのぐらいの追加的な試料(例えば、訓練および/またはテストセットにおける患者の試料)が同定されるのかの尺度(「カバレッジ係数」)である。パネルジェネレータ250は、続いて、判定されたカバレッジ係数をランク付けし、続いて、カバレッジ指標として、パネルに含有するために、ランク付けされたリストからゲノム領域を選択する。パネルジェネレータ250は、いくつかの他の測定基準によりそれらのランク付けされた順番でカバレッジ指標を選択することも、全く選択しないことも考えられる。
例えば、いくつかの例においては、カバレッジモデル274は、欲張りアルゴリズムを使用し、性能(例えば、感度)が頭打ちになるまで遺伝子をパネルに追加する。例えば、最初のパネルは、上述したように関連遺伝子モデル272により選択された上位50の遺伝子を含むことができる。場合によっては、TCGAデータなどの追加的なデータセットを使用することにより、パネルに含まれるべき追加的な遺伝子を同定できる。その場合、パネルの性能(例えば、感度)は、TCGAデータにおいて評価され、それにより、カバレッジモデル274は、最初の50の遺伝子に加えて、パネルの感度を更に増加させる追加的な遺伝子を同定できる。例として、SNVパネル設計に関して、カバレッジモデル274は、TCGA SNVデータから高シグナルのがんおよび液状がんを評価し、続いて、感度が頭打ちになるまで、および/または所望のパネルサイズになるまで、遺伝子をパネルに追加する欲張りアルゴリズムを使用できる。その際、カバレッジモデル274は、患者ごとの体細胞変異の頻度により、および/またはコード領域の長さにより正規化された頻度により、TCGAデータにおける遺伝子をランク付けし、続いて、TCGA遺伝子を追加することにより、どれぐらいの追加的な患者(例えば、試料)が捕らえられる、またはそうでなければ、カバーされるかを調査できる。場合によっては、カバレッジモデル274により同定されたゲノム領域は、候補遺伝子(例えば、TCGA遺伝子)と見なされ、続いて、それらの性能への寄与の評価に加えて、および/または代えて、GDCがんポータルおよび文献において変異プロファイルを観察することによるなど、他のデータベースとクロスチェッキングすることにより、パネルへの追加のために手動でキュレートされうる。
例示すると、図13Aは、いくつかの実施形態に係るカバレッジプロットを示す。カバレッジプロットは、アクセスされた指標セット(例えば、TCGA指標セット)により適用されたパネルのカバレッジを示す。カバレッジプロット1310において、x軸は、パネルに対して選択されたゲノム領域の数を示し、y軸は、パネルのカバレッジ(例えば、カバーされた患者の試料の数)を示す。本例において、始めの50のゲノム領域は、関連モデル272に従って選択された関連指標1312である。残りのゲノム領域は、カバレッジモデル274に従って選択されたTCGAゲノム領域の指標セットからのカバレッジ指標1314である。
カバレッジプロット1310は、カバレッジ指標のカバレッジを描写する2本の線:(i)パネルにおける指標の数が増加するにつれてカバレッジを示す第1の線(例えば、非正規化1316)、および(ii)コード領域の長さにより正規化され、パネルにおける指標の数が増加するにつれてカバレッジを示す第2の線(例えば、正規化1318)を含む。どちらの場合にも、カバレッジプロット1310は、パネルにおけるゲノム領域の数が増加するにつれて、完全なカバレッジに向けた漸近的成長を示す。パネルジェネレータ250は、場合によってはパネルの残りの空間および/またはパネルの所望のサイズに応じて、パネルに対するカバレッジ指標のいずれかを選択できる。例えば、パネルジェネレータ250は、パネルに対して3つのカバレッジ指標を選択できる。表13は、パネルに対して選択された3つのカバレッジ指標の名前、サイズ、および位置を示す。
図13Bは、いくつかの実施形態に係るカバレッジサイズプロットを示す。カバレッジサイズプロット1320は、異なる方法で図13Aにおける情報を伝達する。ここで、x軸は、パネルサイズを示し、y軸は、パネルのカバレッジを示す。ここで、パネルサイズの増加は、それらのそれぞれのモデルに従ってゲノム領域をパネルに追加することから生じる。追加されたゲノム領域は、図13Aのカバレッジプロット1310と同じ順番で生じる。
カバレッジサイズプロット1320において、始めの240kbのパネルサイズは関連モデル272に従って選択された指標(関連指標1322)に起因し、パネルサイズにおける追加的な塩基は、カバレッジモデル274に従って選択された指標(カバレッジ指標1324)からのものである。カバレッジプロット1320も、2本の線:(i)パネルサイズの増加に伴うカバレッジの増加を示す第1の線(非正規化1328)、および(ii)パネルサイズの増加に伴うカバレッジの増加を示すが、追加された指標のコード領域の長さにより正規化される第2の線(正規化1326)を含む。
X.B がんの種類指標
上述したように、パネルジェネレータ250は、指標セットにアクセスし、指標となるゲノム領域をそれらのモデル係数に従ってランク付けする。ここまで、モデル係数は、がんの存在に対してゲノム領域がどのように決定力をもつか、またはゲノム領域がどのぐらいカバレッジを追加するかを定量化するのみであった。しかしながら、構成によっては、ゲノム領域およびそれらのモデル係数は、がんの種類も示すことができる。
上述したように、パネルジェネレータ250は、指標セットにアクセスし、指標となるゲノム領域をそれらのモデル係数に従ってランク付けする。ここまで、モデル係数は、がんの存在に対してゲノム領域がどのように決定力をもつか、またはゲノム領域がどのぐらいカバレッジを追加するかを定量化するのみであった。しかしながら、構成によっては、ゲノム領域およびそれらのモデル係数は、がんの種類も示すことができる。
例示すると、図14は、いくつかの実施形態に係る種類分類プロットを示す。種類分類プロットは、様々ながんの種類に対して、ゲノム領域の変動頻度を示す。図示された種類分類プロット1410は、15種類のがんにわたる50のゲノム領域(例えば、上記の表11および表12における50の選択された遺伝子)における体細胞変異の頻度を示す。変動頻度の範囲は0.00~0.60である。ゲノム領域は、図9A~図9Cにおける関連指標と同一であり、同様にランク付けされる。15種類のがんは、それぞれ、例えば、肺、乳、大腸、膵、食道、胃、肝胆道、白血病、リンパ腫、多発性骨髄腫、膀胱、肛門直腸、頭頸部、卵巣、および子宮頸がんでありうる。他のがんの種類も考えられるが、示されてはいない。
分類種類プロット1410は、ゲノム領域の特徴変動(例えば、最大バリアントアレル頻度の変動)が様々ながんの種類を有する試料においてどのくらい生じるかについての差を示す。例えば、1番目のがんの種類は、1番目のゲノム領域の特徴変動により示されるのに対し、12番目のがんの種類は、同一のゲノム領域の特徴変動によりほとんど示されていない。別の例においては、4番目のがんの種類は、3番目のゲノム領域の特徴変動により示されるのに対し、5番目のがんの種類は、同一のゲノム領域の特徴変動によりほとんど示されていない。
各ゲノム領域に関して、特徴変動が高いがんの種類の数が多いほど、ゲノム領域はがんの存在を示す可能性が高い。すなわち、いくつかのがんの種類にわたり特徴変動が高いゲノム領域は、モデル係数(例えば、感度係数)が高い。このことは、種類分類プロット1410において、プロットの右側のゲノム領域(すなわち、モデル係数がより低いもの)よりも、複数のがんの種類にわたって変動頻度が高く、密度が高い、プロットの左側のゲノム領域(すなわち、モデル係数がより高いもの)として示されている。
場合によっては、ゲノム領域の特徴変動は、単一のがんの種類に対して生じ、他に対しては生じない。例えば、19番目のゲノム領域における特徴変動は、13番目のがんの種類を示すが、他は示さない。このことは、パネルが19番目のゲノム領域の特徴変動を検出した場合、その変動は13番目のがんの種類を示す可能性が高いことを示す。
従って、いくつかのゲノム領域は、パネルの種類精度を高めることができる。種類精度は、パネルが、がんが存在する試料においてどれぐらい正確にがんの種類を判定するかを定量化するものである。よって、種類精度を高めるため、パネルジェネレータ250は、がん種類モデル276を適用し、種類指標としてパネルに含むべきゲノム領域を判定できる。
がん種類モデル276は、指標となるゲノム領域を含む指標セットに対して実行される多項ロジスティック回帰でありうる。パネルジェネレータ250は、がん種類モデル276を指標セットに対する特徴量に適用し、各ゲノム領域に対するモデル係数(「種類係数」)のセットを判定する。種類係数のセットは、様々ながんの種類に対するゲノム領域の指標となるものを定量化する。パネルジェネレータ250は、続いて、各がんの種類に対して判定された種類係数をランク付けし、続いて、種類指標としてパネルに含有するため、ランク付けされたリストからゲノム領域を選択する。パネルジェネレータ250は、いくつかの他の測定基準によりランク付けされた順番で種類指標を選択することも、全く選択しないことも考えられる。
実施形態によっては、パネルジェネレータ250は、後続の種類指標がパネルの種類精度を低下させる、またはパネルの種類精度の増加に貢献しなくなるまで、種類指標をパネルに追加する。例示すると、図15は、いくつかの実施形態に係る、パネルに対する精度寄与プロットを示す。精度寄与プロット1510において、x軸は、パネルに対する潜在的な種類指標の数を表し、y軸は、パネルに対する種類精度を示す。x軸の種類指標は、それらのモデル係数に従ってランク付けされた順番で選択される。
図示するように、追加的な種類指標をパネルに追加することにより、寄与変曲点1512まで種類精度が高まる。寄与変曲点1512において、種類指標を追加すると、パネルの種類精度が低下する。示された例において、寄与変曲点は、9つの種類指標で生じるが、他の例においては他の数でありうる。従って、パネルジェネレータ250は、9つの追加的なゲノム領域の任意の組み合わせまたは全てをパネルに追加し、その種類精度を高めることができる。例えば、パネルジェネレータ250は、パネルに対して5つの種類指標を選択できる。表14は、パネルに対して選択された5つの種類指標の名前、サイズ、および位置を示す。
X.C ホットスポット指標
上述したように、パネルジェネレータ250は、任意の数のゲノム領域をパネルに追加し、がんの存在を判定できる。しかしながら、状況によっては、パネルジェネレータ250は、ゲノム領域の1つまたは複数の部分を追加することにより、完全なゲノム領域を追加するのと同様な方法でがんの存在を判定できることを判定できる。
上述したように、パネルジェネレータ250は、任意の数のゲノム領域をパネルに追加し、がんの存在を判定できる。しかしながら、状況によっては、パネルジェネレータ250は、ゲノム領域の1つまたは複数の部分を追加することにより、完全なゲノム領域を追加するのと同様な方法でがんの存在を判定できることを判定できる。
説明のため、長さが1568bpのゲノム領域について考える。ゲノム領域の特徴変動は、がんの存在を示す。本例において、特徴変動は、集団において特定の頻度で、ゲノム領域の342bpのセグメントで生じる。特定の頻度が閾値頻度(例えば、集団の少なくとも1%)より大きい場合、パネルジェネレータ250は、セグメントをホットスポットとして同定できる。パネルジェネレータ250は、ゲノム領域全体(例えば、1568bpの領域)を追加するのではなく、ホットスポット指標(例えば、342bpのセグメント)としてホットスポットをパネルに追加できる。
パネルに対するホットスポット指標を判定する方法はいくつかある。一実施形態において、パネルジェネレータ250は、ホットスポット領域モデル278を指標セットに適用し、ホットスポット指標を判定できる。ホットスポット領域モデル278は、アクセスされた指標セットに含まれる任意のゲノム領域に対するホットスポットを判定できる。そのため、パネルジェネレータ250は、ホットスポット領域モデル278を採用し、指標セットにおける各ゲノム領域を分析し、特徴変動が起こりやすいホットスポットを判定する。パネルジェネレータ250は、1つまたは複数の基準に基づいて、パネルに対するホットスポット指標としてホットスポットを選択できる。例示すると、基準には、(i)ホットスポットは、試料集団の閾値パーセンテージよりも大きい特徴変動を有する、(ii)ホットスポットは、2つ以上の指標セットを分析するときに同定される、(iii)ホットスポットは、がんの存在を示す限り、セグメントのライブラリーにおいて同定される、(iv)セグメントは、分類モデル270における他のモデルによりパネルに対して選択されたゲノム領域で生じる、(v)セグメントは、分類モデル270における他のモデルによりパネルに対して選択されたゲノム領域で生じない、および(vi)ホットスポットは、指標セットにおける配列の閾値数よりも多く生じることを含むことができる。
様々な基準選択が、パネルサイズおよびパネルの検出能力に影響を与える。例えば、パネルジェネレータ250が第4基準を利用してホットスポット領域モデル278を採用することにより、ゲノム領域がホットスポット指標に置き換えられうる。ゲノム領域をホットスポット指標に置き換えることにより、パネルサイズが減少する一方、同時にパネルの検出能力も低下しうる。反対に、パネルジェネレータ250が第5基準を利用してホットスポット領域モデル278を採用することにより、かなりの数のホットスポットがパネルに追加されうる。ホットスポット指標を追加することにより、パネルサイズが増加し、概してパネルの検出能力も高まる。他の多くの基準の組み合わせも考えられる。
一例において、パネルジェネレータ250は、分類モデル270における他のモデルにより前もって同定されていない、集団の1%より多くで生じるホットスポットに対する36のホットスポット指標を選択する。表15は、ゲノム領域の名前、そのゲノム領域におけるホットスポットの数、およびパネルに対して選択された13のホットスポット指標の位置を示す。
X.D ウイルス指標
上述したように、パネルジェネレータ250は、指標セットにおいてがんの存在を示すゲノム領域を判定し、パネルを生成する。場合によっては、指標セットは、がんの存在と関連しているウイルスゲノムを含む。従って、パネルジェネレータ250は、パネルに対するウイルス指標として、がんの存在と関連しているウイルスに対するゲノム領域を選択できる。例示すると、HPVウイルスは、子宮頸がんと関連しており、かなりの割合の子宮頸がんの患者に存在する。従って、パネルジェネレータ250は、子宮頸がんに対するパネルの検出能力を高めるウイルス指標を含むことができる。
上述したように、パネルジェネレータ250は、指標セットにおいてがんの存在を示すゲノム領域を判定し、パネルを生成する。場合によっては、指標セットは、がんの存在と関連しているウイルスゲノムを含む。従って、パネルジェネレータ250は、パネルに対するウイルス指標として、がんの存在と関連しているウイルスに対するゲノム領域を選択できる。例示すると、HPVウイルスは、子宮頸がんと関連しており、かなりの割合の子宮頸がんの患者に存在する。従って、パネルジェネレータ250は、子宮頸がんに対するパネルの検出能力を高めるウイルス指標を含むことができる。
パネルに対するウイルス指標を判定する方法はいくつかある。一実施形態において、パネルジェネレータ250は、ウイルスセグメントモデルを適用し、ウイルス指標を判定できる。ウイルスセグメントモデルは、アクセスされた指標セットからウイルス指標を判定する。そのため、パネルジェネレータ250は、ウイルスセグメントモデルを採用し、ウイルスゲノムの1つまたは複数のセグメント(「ウイルスセグメント」)に対するウイルス係数を判定する。ウイルス係数は、ウイルスセグメントと、がんの存在との関連、および、場合によっては、がんの種類との関連を定量化する。パネルジェネレータ250は、続いて、(分類および/または種類に対して)判定されたウイルス係数をランク付けし、続いて、ウイルス指標としてパネルに含有するため、ランク付けされたリストからセグメントを選択する。ウイルス指標は、いくつかの他の測定基準によりランク付けされた順番で選択されることも、全く選択されないことも考えられる。例えば、パネルジェネレータ250は、閾値を超えるウイルス係数を有するウイルス指標だけを選択できる。追加的に、場合によっては、ウイルスセグメントモデルは、パネルに含有するため、ウイルスごとに2つ以上のウイルスセグメントを選択できる。例えば、パネルジェネレータ250は、パネルに含有するため、HPVの10のウイルスセグメントを選択できる。
XI.例示のパネル生成
本明細書に記載するように、パネルジェネレータ250は、いくつかの性能測定基準に従ってパネルを生成でき、本節では、ある性能測定基準に従ってパネルを生成するパネルジェネレータ250のいくつかの例について説明する。
本明細書に記載するように、パネルジェネレータ250は、いくつかの性能測定基準に従ってパネルを生成でき、本節では、ある性能測定基準に従ってパネルを生成するパネルジェネレータ250のいくつかの例について説明する。
XI.A 分類能力の増加
一例において、性能測定基準は、分類能力である。従って、パネルジェネレータ250は、がんの存在を判定するためのパネルを生成する。図16は、一実施形態に係る、がんの存在を判定するためのパネルを生成するための例示のワークフローを示す。ワークフロー1600は、システム200または別の類似のシステム200により実行されうる。ワークフロー400は、追加的な、またはより少ないステップを含むことができ、ステップは、異なる順番で配置されうる。
一例において、性能測定基準は、分類能力である。従って、パネルジェネレータ250は、がんの存在を判定するためのパネルを生成する。図16は、一実施形態に係る、がんの存在を判定するためのパネルを生成するための例示のワークフローを示す。ワークフロー1600は、システム200または別の類似のシステム200により実行されうる。ワークフロー400は、追加的な、またはより少ないステップを含むことができ、ステップは、異なる順番で配置されうる。
パネルジェネレータ250は、ゲノム領域の第1セットに対するシークエンシングデータ(例えば、テスト配列)を取得する(1610)。ゲノム領域の第1セットは、CCGA指標セットでありうるが、ゲノム領域の別のセットでもよい。第1セットにおけるゲノム領域の各々は、多数のテスト配列と関連し、がん関連遺伝子、変異ホットスポット、およびウイルス領域と関連しうる。
パネルジェネレータ250は、第1セットにおける各ゲノム領域に対する特徴量を導出する(1612)。例えば、各ゲノム領域に対する特徴量は、そのゲノム領域と関連しているシークエンシングデータにおけるテスト配列のSNVに対する最大VAFでありうる。他の特徴量も考えられる。例えば、特徴量は、バリアントの有無、平均アレル頻度、小バリアントの総数、真のバリアントのアレル頻度等でありうる。
パネルジェネレータ250は、ゲノム領域の特徴量に基づいてパネルの疾病分類能力を予測する分類モデル270を採用する。疾病分類能力は、例えば、がんの有無および/またはがんの種類を分類することを含むことができる。パネルの分類能力は、どちらの場合にも、例えば、特定の特異度におけるパネルの感度などの、性能測定基準により定量化されうる。
疾病分類能力を予測するため、パネルジェネレータ250は、分類モデル270を特徴量に適用し、モデル係数のセットを生成する(1614)。各モデル係数は、指標セットにおける1つのゲノム領域に対応し、疾病分類に対して、その対応するゲノム領域の指標となるものを定量化する。
パネルジェネレータ250は、ゲノム領域をそれらのモデル係数に従ってランク付けする(1616)。例えば、モデル係数が最も高いゲノム領域が最初にランク付けされるのに対し、モデル係数が最も低いゲノム領域は、最後にランク付けされる。
パネルジェネレータ250は、、ゲノム領域の第1サブセットをそれらのランクに基づいて同定する(1618)。例えば、パネルジェネレータ250は、パネルの疾病分類を最適化する、ゲノム領域のサブセットを同定できる。パネルジェネレータ250は、同定されたゲノム領域の第1サブセットを含むパネルを生成する(1620)。
実施形態によっては、パネルジェネレータ250は、指標の1つまたは複数の追加的なセットにアクセスし、分類モデル270を指標の追加的なセットに適用できる。その際、パネルジェネレータ250は、パネルに含有するため、ゲノム領域の1つまたは複数の追加的なサブセットを同定できる。
第1例において、パネルジェネレータ250は、第2指標セットにアクセスし、そのセットにおけるゲノム領域に対する特徴量を導出できる。第2指標セットに適用されたとき、分類モデル270は、各ゲノム領域に対するモデル係数を判定し、モデル係数に従ってゲノム領域をランク付けする。分類モデル270は、パネルに含むべきゲノム領域の第2サブセットを、それらのランクに基づいて同定できる。領域の同定された第2セットは、ゲノム領域の第1サブセットと同一の、または異なる性能測定基準に基づいて、パネルに対して選択されうる。第1例において、ゲノム領域の第2セットは、疾病分類能力ではなく、パネルのカバレッジを最適化できる。第2例において、選択されたゲノム領域は、パネルによりカバーされるホットスポットの数を増加させることができる。第3例において、選択されたゲノム領域は、がん関連ウイルスと関連しうる。
図17A~図18Bは、ワークフロー1600に従ってパネルジェネレータ250により生成されたパネルの分類精度を示す。
図17Aは、一実施形態に係る、訓練データのセットに対する集団プロットである。集団プロット1710において、x軸は、がんの種類であり、y軸は、訓練集団におけるその種類のがんを有する試料の数である。集団プロットにおいて、がんの種類は、それぞれ、肛門直腸、膀胱、子宮頸、大腸、食道、胃、頭頸部、肝胆道、白血病、肺、リンパ腫、多発性骨髄腫、卵巣、膵、および乳である。
図17Bは、例示の一実施形態に係る感度プロットである。感度プロット1720において、x軸は、がんの種類であり、y軸は、訓練集団に対するパネルの検出感度数である。
表17は、訓練データにおける第1パネルおよび第2パネルの検出能力を示す。第1パネルは、関連指標を含むパネルである。第2パネルは、関連指標、カバレッジ指標、種類指標、ホットスポット指標、およびウイルス指標を含むパネルである。表における各項目は、示された特異度における感度である。
図18Aは、一実施形態に係る、テストデータのセットに対する集団プロットである。集団プロット1810において、x軸は、がんの種類であり、y軸は、テスト集団におけるその種類のがんを有する試料の数である。集団プロットにおいて、がんの種類は、それぞれ、肛門直腸、膀胱、子宮頸、大腸、食道、胃、頭頸部、肝胆道、白血病、肺、リンパ腫、多発性骨髄腫、卵巣、膵、および乳である。
図18Bは、例示の一実施形態に係る感度プロットである。感度プロット1820において、x軸は、がんの種類であり、y軸は、テスト集団に対するパネルの検出感度数である。
表18は、第1パネルおよび第2パネルの両方のテストデータにおけるパネルの検出能力を示す。第1パネルは、関連指標を含むパネルである。第2パネルは、関連指標、カバレッジ指標、種類指標、ホットスポット指標、およびウイルス指標を含むパネルである。表における各項目は、示された特異度における感度である。
XI.B パネルサイズの減少
一例において、性能測定基準は、パネルサイズである。従って、パネルジェネレータ250は、閾値パネルサイズ未満の、がんの存在を判定するためのパネルを生成する。図19は、一実施形態に係る、閾値パネルサイズ未満のパネルを生成するための例示のワークフローを示す。ワークフロー1900は、システム200または別の類似のシステム200により実行されうる。ワークフロー1900は、追加的な、またはより少ないステップを含むことができ、ステップは、異なる順番で配置されうる。
一例において、性能測定基準は、パネルサイズである。従って、パネルジェネレータ250は、閾値パネルサイズ未満の、がんの存在を判定するためのパネルを生成する。図19は、一実施形態に係る、閾値パネルサイズ未満のパネルを生成するための例示のワークフローを示す。ワークフロー1900は、システム200または別の類似のシステム200により実行されうる。ワークフロー1900は、追加的な、またはより少ないステップを含むことができ、ステップは、異なる順番で配置されうる。
システム200は、リクエストを受信し、患者におけるがんの存在を判定するパネルを生成する(1910)。リクエストは、パネルに対する閾値パネルサイズを含む。一例において、システム200は、システム200のユーザから、閾値パネルサイズを含むリクエストを受信するが、リクエストは、例えば、接続されたクライアントシステム200、システム200の管理者などの他のソースからも受信されうる。例示すると、システム200のユーザは、システム200にリクエストを送信し、400,000の塩基対の閾値パネルサイズを有するパネルを生成するが、他の閾値パネルサイズも考えられる。例えば、閾値パネルサイズは、10kb、35kb、70kb、150bk、300kb等でありうる。
システム200は、パネルジェネレータ250を利用し、パネルに含むべき1つまたは複数のゲノム領域を判定する。パネルジェネレータ250は、パネルに含まれうるゲノム領域に対するシークエンシングデータを含む指標セットにアクセスする(1912)。ゲノム領域データベースに含まれるいくつかの例示のゲノム領域が、表I~表Vに示される。他の例においては、シークエンシングは、他のソースからアクセスまたは受信されうる。例えば、システム200は、ユーザから1つまたは複数のゲノム領域を受信できる、または、システム200は、本明細書に記載のプロセスのいずれかを使用して1つまたは複数のゲノム領域を判定できる。
パネルジェネレータ250は、指標セットにおける各ゲノム領域に対する特徴量を導出し(1914)、分類モデル270を特徴量に適用し、指標セットにおける各ゲノム領域に対するモデル係数を判定する(1916)。パネルジェネレータ250は、上述したように判定されたモデル係数をランク付けする(1918)。
パネルジェネレータ250は、結果として得られるパネルが閾値パネルサイズ未満のパネルサイズを有するように、パネルに対するゲノム領域のサブセットを同定する(1920)。説明のため、先の例を続けると、パネルに対する閾値パネルサイズは、16.0kbである。パネルジェネレータ250は、パネルに対するゲノム領域を反復して選択し、対応するパネルサイズは、選択されたゲノム領域のサイズに基づいて増加する。パネルジェネレータ250は、追加的なゲノム領域により、結果として得られるパネルサイズが閾値パネルサイズを上回る場合、パネルに対する追加的なゲノム領域を選択しない。
パネルジェネレータ250は、同定されたゲノム領域の第1サブセットを含むパネルを生成する(1922)。パネルを生成することは、同定されたゲノム領域のサブセットを要求元に送信することを含むことができる。例えば、パネルジェネレータ250は、パネルを要求したシステム200のユーザにパネルを送信する。
XI.C フィルタリング
パネルジェネレータにより生成されたパネルの検出能力を改善できるフィルタリング方法はいくつかある。第1例において、パネルジェネレータは、シークエンシングデータにおける閾値数の配列にバリアントを有するゲノム領域に対する特徴量のみを導出することができる。第2例において、パネルジェネレータは、パネルからゲノム領域を複製し、またはゲノム領域の重複を除外し、検出能力を高めることができる。第3例において、システム管理者は、パネルからゲノム領域を除外することができる。最後に、パネルジェネレータは、ゲノム領域ブラックリストに基づいてパネルからゲノム指標を除外することができる。ゲノム領域ブラックリストには、特許権を有するゲノム領、偽陽性を生じさせることが知られるゲノム領域、またはパネルの検出能力を低下させうる任意の他のゲノム領域を含めることができる。
パネルジェネレータにより生成されたパネルの検出能力を改善できるフィルタリング方法はいくつかある。第1例において、パネルジェネレータは、シークエンシングデータにおける閾値数の配列にバリアントを有するゲノム領域に対する特徴量のみを導出することができる。第2例において、パネルジェネレータは、パネルからゲノム領域を複製し、またはゲノム領域の重複を除外し、検出能力を高めることができる。第3例において、システム管理者は、パネルからゲノム領域を除外することができる。最後に、パネルジェネレータは、ゲノム領域ブラックリストに基づいてパネルからゲノム指標を除外することができる。ゲノム領域ブラックリストには、特許権を有するゲノム領、偽陽性を生じさせることが知られるゲノム領域、またはパネルの検出能力を低下させうる任意の他のゲノム領域を含めることができる。
XII.アッセイパネルに対するプローブの生成
パネルジェネレータ250は、プローブジェネレータ260を採用し、パネルに対するプローブを生成することもできる。そのため、プローブジェネレータ260は、パネルに対して選択されたゲノム領域を入力し、そのゲノム領域を配列する1つまたは複数のプローブを出力することができる。例えば、プローブジェネレータ260は、4.5kbのパネルに対して選択されたゲノム領域を入力できる。プローブジェネレータ260は、5つのプローブを出力し、そのゲノム領域を配列することができる(例えば、4つの1kbのプローブ、および1つの500kbのプローブ)。
パネルジェネレータ250は、プローブジェネレータ260を採用し、パネルに対するプローブを生成することもできる。そのため、プローブジェネレータ260は、パネルに対して選択されたゲノム領域を入力し、そのゲノム領域を配列する1つまたは複数のプローブを出力することができる。例えば、プローブジェネレータ260は、4.5kbのパネルに対して選択されたゲノム領域を入力できる。プローブジェネレータ260は、5つのプローブを出力し、そのゲノム領域を配列することができる(例えば、4つの1kbのプローブ、および1つの500kbのプローブ)。
いくつかの例においては、プローブジェネレータ260は、ゲノム領域に対するプローブを標的プローブ長さに正規化できる。言い換えれば、プローブジェネレータ260は、ゲノム領域に対して生成された全てのプローブが標的長さを有することを保証する。様々な実施形態において、プローブジェネレータ260は、プローブを正規化するとき、(i)プローブを標的長さに分割する、および/または(ii)プローブを標的長さに増大させることができる。プローブジェネレータ260は、プローブを何度も分割し、および/または増大させ、プローブを標的長さに正規化することができる。
説明のため、例えば、第1ゲノム領域を含むプローブジェネレータ260により生成されたパネルについて考える。プローブジェネレータ260は、第1ゲノム領域に対して第1プローブおよび第2プローブを判定する。第1プローブは、2564の核酸塩基のサイズを有し、第2プローブは、112の核酸塩基のサイズを有する。パネルにおけるプローブの標的サイズは、例えば、120の核酸塩基である。プローブジェネレータ260は、(i)第1プローブを22のプローブに分割し、プローブの内21個が120の核酸塩基を有し、プローブの内1つが44の核酸塩基を有し、(ii)44の核酸塩基を有するプローブを120の核酸塩基にパディングすることにより、第1プローブを正規化する。プローブをパディングすることは、情報価値のない核酸塩基をプローブの端に付加することを含む。プローブジェネレータ260は、プローブを120の核酸塩基にパディングすることにより、第2プローブを正規化する。
場合によっては、プローブは、プローブの端の近くのコード領域を誤って配列する可能性が高いこともありうる。例として、プローブが120の核酸塩基を含む場合、例えば、始めの10の核酸塩基および最後の10の核酸塩基は、それらの核酸塩基と関連しているコード領域を不適切に配列する可能性が高い。そのため、パネルジェネレータは、パネルに対して判定されたプローブの1つまたは複数を中心化することができる。プローブを中心化することは、情報価値のない核酸塩基をプローブの両端に付加することを含む。説明のため、例えば、150の核酸塩基を含むゲノム領域に対するプローブについて考える。プローブジェネレータ260は、プローブが180の核酸塩基を含むように、15の核酸塩基をそれぞれの端に付加することにより、プローブを中心化する。他の数の核酸塩基も、プローブの両端に付加されうる。
場合によっては、プローブは、例えプローブの端の近くにはなくても、コード領域を不適切に配列することができる。従って、プローブジェネレータ260は、プローブをタイリングし、コード領域をより正確に配列できる。プローブをタイリングすることは、コード領域における全ての核酸塩基が少なくとも2つのプローブで生じるプローブを生成することを含む。通常、タイリングされたプローブは、隣接していると見なされる。隣接したプローブは、対の各プローブにおける核酸塩基の割合が同一であるプローブの対である。いくつかの例においては、割合は2分の1だが、他の割合もありうる。
説明のため、例えば、核酸塩基の以下の組み合わせ:TCGAAACGGTCで配列されるコード領域を有するゲノム領域について考える。プローブジェネレータ260は、以下のプローブ:(i)[xxTC]、(ii)[TCGA]、(iii)[GAAA]、(iv)[AACG]、(v)[CGGT]、(vi)[GTCx]、および(vii)[Cxxx]を生成することにより、プローブをタイリングする。本例において、プローブ(i)および(ii)、(ii)および(iii)、(iii)および(iv)等は、プローブの半分が同一である、隣接した対である。これらのプローブにより、コード領域の各核酸塩基は、2回配列される。
実施形態によっては、プローブジェネレータ260は、判定されたプローブを中心化し、正規化する。説明のため、例えば、330の核酸塩基を有するゲノム領域に対するプローブについて考える。プローブの標的サイズは、120の核酸塩基である。プローブジェネレータ260は、本例において、5つの核酸塩基を各プローブの両端に付加することにより、プローブを中心化する。従って、プローブジェネレータ260は、120の核酸塩基の3つのプローブを生成することにより、プローブを中心化し、正規化する。生成されたプローブの各々は、中心に110の情報価値のある核酸塩基を有し、両端に5つずつの情報価値のない核酸塩基を有する。プローブを中心化し、正規化する他の例も考えられる。
XIII.パネルにより呼び出されたバリアント
システム200は、パネルジェネレータ250により生成されたパネルを採用し、バリアントを呼び出すことができる。例示すると、図20A~図20Fは、大規模なセットパネルにより呼び出されたバリアントの数、およびパネルジェネレータ250により生成されたパネルにより呼び出されたバリアントの数の統計分析を示す箱ひげプロットを示す。
システム200は、パネルジェネレータ250により生成されたパネルを採用し、バリアントを呼び出すことができる。例示すると、図20A~図20Fは、大規模なセットパネルにより呼び出されたバリアントの数、およびパネルジェネレータ250により生成されたパネルにより呼び出されたバリアントの数の統計分析を示す箱ひげプロットを示す。
図20Aは、一実施形態に係る、大規模なセットパネルの様々ながんの種類に対するSNVカウントプロットを示す。SNVカウントプロット2010において、x軸は、がんの種類であり、y軸は、そのがんの種類に対するシークエンシングデータにおけるバリアントの数である。がんの種類は、それぞれ、膀胱、乳、大腸、食道、頭頸部、肺(lunch)、リンパ腫、卵巣、腎、および子宮でありうる。
図20Bは、一実施形態に係る、大規模なセットパネルの様々ながんのステージに対するSNVカウントプロットを示す。SNVカウントプロット2020において、x軸は、がんのステージであり、y軸は、そのがんのステージに対するシークエンシングデータにおけるバリアントの数である。
図20Cは、一実施形態に係る、パネルジェネレータを使用して生成されたパネルの様々ながんの種類に対するSNVカウントプロットを示す。SNVカウントプロット2030において、x軸は、がんの種類であり、y軸は、そのがんの種類に対するシークエンシングデータにおけるバリアントの数である。
図20Dは、一実施形態に係る、パネルジェネレータを使用して生成されたパネルの様々ながんのステージに対するSNVカウントプロットを示す。SNVカウントプロット2040において、x軸は、がんのステージであり、y軸は、そのがんのステージに対するシークエンシングデータにおけるバリアントの数である。
図20Eは、一実施形態に係る、大規模なセットパネルの様々ながんの種類に対するSNV差プロットを示す。SNV差プロット2050において、x軸は、がんの種類であり、y軸は、大規模なセットパネルと、パネルジェネレータ250により生成されたパネルとの間の、そのがんの種類に対するシークエンシングデータにおけるバリアントの数の差である。
図20Fは、一実施形態に係る、大規模なセットパネルの様々ながんのステージに対するSNV差プロットを示す。SNV差プロット2060において、x軸は、がんの種類であり、y軸は、大規模なセットパネルと、パネルジェネレータ250により生成されたパネルとの間の、そのがんのステージに対するシークエンシングデータにおけるバリアントの数の差である。
図21Aは、一実施形態に係る、大規模なセットパネルの様々ながんの種類に対するインデルカウントプロットを示す。インデルカウントプロット2110において、x軸は、がんの種類であり、y軸は、そのがんの種類に対するシークエンシングデータにおけるバリアントの数である。がんの種類は、それぞれ、膀胱、乳、大腸、食道、頭頸部、肺(lunch)、リンパ腫、卵巣、腎、および子宮でありうる。
図21Bは、一実施形態に係る、大規模なセットパネルの様々ながんのステージに対するインデルカウントプロットを示す。インデルカウントプロット2121において、x軸は、がんのステージであり、y軸は、そのがんのステージに対するシークエンシングデータにおけるバリアントの数である。
図21Cは、一実施形態に係る、パネルジェネレータを使用して生成されたパネルの様々ながんの種類に対するインデルカウントプロットを示す。インデルカウントプロット2130において、x軸は、がんの種類であり、y軸は、そのがんの種類に対するシークエンシングデータにおけるバリアントの数である。
図21Dは、一実施形態に係る、パネルジェネレータを使用して生成されたパネルの様々ながんのステージに対するインデルカウントプロットを示す。インデルカウントプロット2140において、x軸は、がんのステージであり、y軸は、そのがんのステージに対するシークエンシングデータにおけるバリアントの数である。
図21Eは、一実施形態に係る、大規模なセットパネルの様々ながんの種類に対するインデル差プロットを示す。インデル差プロット2150において、x軸は、がんの種類であり、y軸は、大規模なセットパネルと、パネルジェネレータ250により生成されたパネルとの間の、そのがんの種類に対するシークエンシングデータにおけるバリアントの数の差である。
図21Fは、一実施形態に係る、大規模なセットパネルの様々ながんのステージに対するインデル差プロットを示す。インデル差プロット2160において、x軸は、がんの種類であり、y軸は、大規模なセットパネルと、パネルジェネレータ250により生成されたパネルとの間の、そのがんのステージに対するシークエンシングデータにおけるバリアントの数の差である。
XIV.追加的な検討事項
本発明の実施形態についての先の説明は、例示の目的で提示されており、網羅的であること、または本発明を開示された正確な形態に限定する意図はない。関連する技術分野に精通した者あれば、上記の開示を考慮して、多くの修正および変形が可能であることが理解できるであろう。
本発明の実施形態についての先の説明は、例示の目的で提示されており、網羅的であること、または本発明を開示された正確な形態に限定する意図はない。関連する技術分野に精通した者あれば、上記の開示を考慮して、多くの修正および変形が可能であることが理解できるであろう。
本記載のいくつかの部分は、情報に対する操作のアルゴリズムおよび記号的表現の観点から本発明の実施形態を説明している。これらのアルゴリズム的記述および表現は、データ処理分野に精通する者により、自分たちの仕事の内容を他の当業者に効果的に伝達するために、一般に使用されている。これらの操作は、機能的に、コンピュータ的に、または論理的に説明されたが、コンピュータプログラムまたは同等の電気回路、マイクロコード等により実施されると理解される。さらに、一般性を失うことなく、これらの操作の配置をモジュールと呼ぶことが、折に触れて都合がいいことも分かっている。説明された操作およびそれらの関連モジュールは、ソフトウェア、ファームウェア、ハードウェア、またはその任意の組み合わせにおいて具現化されうる。
本明細書に記載のステップ、操作、またはプロセスのいずれも、1つまたは複数のハードウェアまたはソフトウェアモジュールを、単独で、または他のデバイスと組み合わせて用いることで実行または実施されうる。一実施形態において、ソフトウェアモジュールは、説明したステップ、操作、またはプロセスのいずれかまたは全てを実行するためのコンピュータプロセッサにより実行されうる、コンピュータプログラムコードを備えるコンピュータ可読非一時的媒体を含むコンピュータプログラム製品により実施される。
本発明の実施形態は、本明細書に記載のコンピューティングプロセスにより生産される製品にも関わりうる。そのような製品は、コンピューティングプロセスから結果として得られる情報を含むことができ、その情報は、非一時的な有形のコンピュータ可読記録媒体に保管され、コンピュータプログラム製品の任意の実施形態、または本明細書に記載の他のデータの組み合わせを含むことができる。
最後に、本明細書で使用される言語は、主に読みやすさおよび教育的目的のために選択されており、発明の主題を描写または制限するために選択されたのではない。そのため、本発明の範囲は、本詳細な説明によるのではなく、むしろ本明細書に基づいた出願に際して公表される特許請求の範囲により制限されることが意図されている。従って、本発明の実施形態の開示は、以下の特許請求の範囲において説明される本発明の範囲の例示を意図しているのであって、制限を意図しているのではない。
Claims (143)
- 疾病分類のための縮小遺伝子パネルを生成する方法であって、
ゲノム領域の第1セットに対するシークエンシングデータを取得することと、
前記ゲノム領域の第1セットに対する前記シークエンシングデータから複数の特徴量を導出することと、
前記複数の特徴量に基づいて疾病分類を予測する分類モデルを適用することであって、前記分類モデルは、前記ゲノム領域の第1セットに対応するモデル係数のセットを生成することと、
前記モデル係数のセットに従って前記ゲノム領域の第1セットをランク付けすることと、
前記ランク付けを使用して、前記疾病分類を最適化する、前記ゲノム領域の第1セットの第1サブセットを同定することと、
前記ゲノム領域の第1サブセットを含む前記縮小遺伝子パネルを生成することと
を含む方法。 - 前記シークエンシングデータは、複数の患者から取得された生体試料に存在するシークエンシングセルフリー核酸分子から取得される、請求項1の方法。
- 前記ゲノム領域の第1セットは、がん関連遺伝子、変異ホットスポット、およびウイルス領域の少なくとも1つを含む、請求項1または2の方法。
- 前記ゲノム領域の第1セットは、高シグナルのがんまたは液状がんと関連しているゲノム領域を含む、請求項1~3のいずれか一項の方法。
- 前記複数の特徴量は、前記ゲノム領域の第1セットにおける各ゲノム領域においてバリアントの最大アレル頻度を含む、請求項1~4のいずれか一項の方法。
- 前記複数の特徴量は、バリアントの有無、平均アレル頻度、小バリアントの総数、および真のバリアントのアレル頻度の少なくとも1つに対応する特徴を表す、請求項1~5のいずれか一項の方法。
- 前記バリアントは、一塩基バリアント、挿入、および欠失の少なくとも1つを含む、請求項5または6の方法。
- 前記分類モデルは、ロジスティック回帰モデルを含み、前記モデル係数のセットは、前記複数の特徴量により前記ロジスティック回帰モデルを訓練することにより取得された回帰係数を含む、請求項1~7のいずれか一項の方法。
- 前記ゲノム領域の第1サブセットを同定することは、
最初の反復において、前記分類モデルを訓練し、第1ゲノム領域に対応する特徴量に基づいて疾病分類を予測することであって、前記第1ゲノム領域は、最も高くランク付けされたゲノム領域に対応することと、
前記第1ゲノム領域に対して訓練された前記分類モデルの性能測定基準を判定することと、
後続の反復において、残りのランク付けされたゲノム領域を取り込み、各追加的なゲノム領域が取り込まれた後に前記性能測定基準を評価することにより、前記分類モデルを再訓練することであって、各後続の反復は、
欲張りアルゴリズムを適用し、残りのランク付けされたゲノム領域の内、次に高くランク付けされたゲノム領域を前記分類モデルに追加することと、
前記追加された次に高くランク付けされたゲノム領域および先の反復で前もって追加されたゲノム領域と関連している特徴量を使用して前記分類モデルを再訓練することと、
前記再訓練された分類モデルに対する性能測定基準を判定することと
を含むことと、
各反復に対して取得された前記性能測定基準を評価し、最適化された性能測定基準をもたらす前記ゲノム領域の第1サブセットを同定することと
を含む、請求項1~8のいずれか一項の方法。 - 前記最適化された性能測定基準は、前記分類モデルにより得られた最大性能測定基準を含む、請求項9の方法。
- 前記ゲノム領域の第1セットは、所定の特異度レベルにおける感度レベルを含む性能測定基準を最適化する、請求項1~10のいずれか一項の方法。
- 前記疾病分類は、がんまたは非がんを予測するための二項分類およびがんの種類を予測するための多クラス分類の少なくとも1つを含む、請求項1~11のいずれか一項の方法。
- 前記縮小遺伝子パネルにより取得された性能測定基準は、完全なゲノム領域の第1セットを含む完全な遺伝子パネルにより取得された性能測定基準と、実質的に同様である、請求項1~12のいずれか一項の方法。
- 前記ゲノム領域の第1セットは、高シグナルのがんと関連しているゲノム領域を含み、約2Mbのセットサイズを有し、前記ゲノム領域の第1サブセットは、300kb未満のサブセットサイズを有する、請求項1~13のいずれか一項の方法。
- 前記ゲノム領域の第1サブセットにより得られた前記疾病分類を更に改善するゲノム領域の第2サブセットを同定することと、
前記ゲノム領域の第1サブセットと前記ゲノム領域の第2サブセットとを含む前記縮小遺伝子パネルを生成することと
を更に含む、請求項1~14のいずれか一項の方法。 - ゲノム領域の第2セットに対するシークエンシングデータの第2セットを取得することと、
患者ごとの体細胞変異の頻度およびコード領域の長さにより正規化された頻度の少なくとも1つにより前記ゲノム領域の第2セットをランク付けすることと、
前記ランク付けされたゲノム領域の第2セットに基づいて前記ゲノム領域の第2サブセットを同定することと
を更に含む、請求項15の方法。 - 前記縮小遺伝子パネルにより得られた前記疾病分類を更に改善するゲノム領域の第3サブセットを同定することであって、前記ゲノム領域の第3サブセットは、疾病の種類の予測精度を最適化することと、
前記縮小遺伝子パネルに前記ゲノム領域の第3サブセットを含むことと
を更に含む、請求項1~16のいずれか一項の方法。 - 前記ゲノム領域の第3セットは、さらに、がん特異的遺伝子およびホットスポットである、請求項17の方法。
- 追加的なホットスポット領域を前記縮小遺伝子パネルに追加することであって、前記ホットスポット領域は、一塩基バリアント、挿入、または欠失に対応することを更に含む、請求項1~18のいずれか一項の方法。
- 追加的なウイルス標的領域を前記縮小遺伝子パネルに追加することであって、前記ウイルス標的領域は、ウイルス関連がんに対応することを更に含む、請求項1~19のいずれか一項の方法。
- 前記縮小遺伝子パネルは、300kbを超えない総パネルサイズを有する、請求項1~20のいずれか一項の方法。
- プロセッサを含む電子デバイスにより実行されたときに前記デバイスに請求項1~21の方法のいずれかを実行させる指示を含む1つまたは複数のプログラムを保管する非一時的コンピュータ可読媒体。
- 1つまたは複数のプロセッサと、
メモリと、
前記メモリに保管され、前記1つまたは複数のプロセッサにより実行されるように構成され、請求項1~21の方法のいずれかを実行するための指示を含む、1つまたは複数のプログラムと
を備える電子デバイス。 - がんアッセイパネルを生成する方法であって、
高シグナルのがん遺伝子および液状がん遺伝子と関連しているゲノム領域の第1セットを選択することと、
がん特異的遺伝子およびがん特異的ホットスポットと関連しているゲノム領域の第2セットを選択することと、
一塩基バリアントまたはインデルに対するホットスポットと関連しているゲノム領域の第3セットを選択することと、
ウイルス標的と関連しているゲノム領域の第4セットを選択することと、
複数のプローブセットを含む前記がんアッセイパネルを生成することであって、前記複数のプローブセットにおける各プローブセットは、前記ゲノム領域の第1、第2、第3、および第4セットにおける前記ゲノム領域の少なくとも1つを標的とするための一対のプローブを含むことと
を含む方法。 - 前記ゲノム領域の第1、第2、第3、および第4セットの少なくとも1つに対する前記ゲノム領域を選択することは、分類モデルを適用し、前記がんアッセイパネルの検出感度への各ゲノム領域の寄与を算定することを含む、請求項24の方法。
- 前記ゲノム領域の第1セットは、表1の1つまたは複数のゲノム領域を含む、請求項24または25の方法。
- 前記パネルの前記検出感度を改善するゲノム領域の第5セットを選択することであって、前記ゲノム領域の第5セットは、表2の1つまたは複数のゲノム領域を含むことを更に含む、請求項26の方法。
- 前記ゲノム領域の第2セットは、CASP8、IDH1、TERT1、およびEGFRの1つまたは複数を含む、請求項24~27のいずれか一項の方法。
- 前記ゲノム領域の第3セットは、表3の1つまたは複数のゲノム領域を含む、請求項24~28のいずれか一項の方法。
- 前記ゲノム領域の第3セットは、表4の1つまたは複数のゲノム領域に位置する1つまたは複数の部位を含む、請求項24~29のいずれか一項の方法。
- 前記ゲノム領域の第3セットは、表5の1つまたは複数のゲノム領域に位置する1つまたは複数の部位を含む、請求項24~30のいずれか一項の方法。
- 前記ゲノム領域の第3セットは、表6の1つまたは複数のゲノム領域に位置する1つまたは複数の部位を含む、請求項24~31のいずれか一項の方法。
- 前記ゲノム領域の第4セットは、HPV16、HPV18、EBV、およびHBVにおける1つまたは複数のゲノム領域に位置する1つまたは複数の部位を含む、請求項24~32のいずれか一項の方法。
- 前記がんアッセイパネルの総パネルサイズは、300キロベース以下である、請求項24~33のいずれか一項の方法。
- 請求項24~34のいずれか一項の方法により作成されたがんアッセイパネル。
- 病状が進むリスクを算定する、病状を検出する、および/または病状を診断する方法であって、
被験者から取得されたセルフリー核酸試料から、遺伝子のセットの少なくとも1つの遺伝子における体細胞変異を検出することであって、前記遺伝子のセットは、KRAS、TP53、ERBB2、EPHB1、NRAS、ACVR1B、TP63、KEAP1、CDK12、KMT2D、DICER1、TET2、LATS2、ETV5、GRIN2A、EPHA7、ASXL2、RET、CHD2、RB1、CDH1、PDGFRA、BRCA2、TFRC、ALK、KDM5A、SMAD4、ATR、NOTCH1、NRG1、CTNNB1、KMT2C、SNCAIP、MTOR、PIK3CA、SF3B1、NBN、LRP1B、TNFRSF14、ARID1A、INPP4A、ETS1、KAT6A、FBXW7、MGA、MYD88、CBL、BRAF、CREBBP、およびAPCから成る第1群の3つ以上の遺伝子を含むことと、
前記検出された体細胞変異に基づいて前記病状を判定することと
を含む方法。 - 前記遺伝子のセットは、前記第1群の5つ以上の遺伝子を含む、請求項36の方法。
- 前記遺伝子のセットは、前記第1群の10以上の遺伝子を含む、請求項36または37の方法。
- 前記遺伝子のセットは、KRAS、TP53、ERBB2、EPHB1、NRAS、ACVR1B、TP63、およびKEAP1を含む、請求項36の方法。
- 前記遺伝子のセットは、CDK12、KMT2D、DICER1、TET2、LAT52、ETV5、GRIN2A、EPHA7、ASXL2、およびRETの1つまたは複数を更に含む、請求項39の方法。
- 前記遺伝子のセットは、TP53、NRAS、KMT2D、TET2、KMT2C、SF3B1、LRP1Bを含む、請求項36~40のいずれか一項の方法。
- 前記遺伝子のセットは、MYD88、CBL、BRAF、CREBBP、およびAPCの1つまたは複数を更に含む、請求項41の方法。
- 前記体細胞変異を検出することは、SNVに対して検出することを含む、請求項36~42のいずれか一項の方法。
- 前記体細胞変異を検出することは、インデルに対して検出することを更に含む、請求項43の方法。
- 前記遺伝子のセットは、SNVおよびインデルに対するホットスポットと関連している遺伝子の第2群の1つまたは複数の遺伝子を更に含み、前記遺伝子の第2群は、AKT1、ERBB3、IDH1、PTEN、ARAF、EZH2、IDH2、PTPRD、CD79A、FGFR3、MAP3K1、RHOA、CDKN2A、GATA3、MAPK1、RNF43、DNMT3A、GNAS、MSH2、SPTA1、EP300、HRAS、PREX2、およびTERTから成る、請求項36~44のいずれか一項の方法。
- 前記遺伝子のセットは、ウイルスホットスポットと関連している遺伝子の第3群の1つまたは複数の遺伝子を更に含み、前記遺伝子の第3群は、HPV16、HPV18、EBV、およびHBVから成る、請求項36~45のいずれか一項の方法。
- 前記遺伝子および前記遺伝子において検出された前記体細胞変異に従って治療、予後、または診断を進めることを更に含む、請求項36~46のいずれか一項の方法。
- プロセッサを含む電子デバイスにより実行されたときに前記デバイスに請求項36~47の方法のいずれかを実行させる指示を含む1つまたは複数のプログラムを保管する非一時的コンピュータ可読媒体。
- 1つまたは複数のプロセッサと、
メモリと、
前記メモリに保管され、前記1つまたは複数のプロセッサにより実行されるように構成され、請求項36~47の方法のいずれかを実行するための指示を含む、1つまたは複数のプログラムと
を備える電子デバイス。 - 請求項36~49のいずれか一項の方法により作成されたがんアッセイパネル。
- 高シグナルのがんまたは液状がんと関連している遺伝子の第1群から選択された1つまたは複数の遺伝子と、
一塩基バリアント(SNV)またはインデルに対するホットスポットと関連している遺伝子の第2群から選択された1つまたは複数の遺伝子と、
ウイルスホットスポットと関連している遺伝子の第3群から選択された1つまたは複数の遺伝子と
を含むがんアッセイパネル。 - 前記遺伝子の第1群は、KRAS、TP53、ERBB2、EPHB1、NRAS、ACVR1B、TP63、KEAP1、CDK12、KMT2D、DICER1、TET2、LATS2、ETV5、GRIN2A、EPHA7、ASXL2、RET、CHD2、RB1、CDH1、PDGFRA、BRCA2、TFRC、ALK、KDM5A、SMAD4、ATR、NOTCH1、NRG1、CTNNB1、KMT2C、SNCAIP、MTOR、PIK3CA、SF3B1、NBN、LRP1B、TNFRSF14、ARID1A、INPP4A、ETS1、KAT6A、FBXW7、MGA、MYD88、CBL、BRAF、CREBBP、およびAPCから成る、請求項51のパネル。
- 前記遺伝子の第2群は、SNVに対するホットスポットと関連している遺伝子のセットを含み、前記遺伝子のセットは、AKT1、CDKN2A、DNMT3A、EP300、ERBB3、FGFR3、GNAS、HRAS、IDH1、IDH2、MAP3K1、MAPK1、PREX2、PTEN、PTPRD、RHOA、SPTA1、TERT、およびEZH2から成る、請求項51または52のパネル。
- 前記遺伝子の第2群は、インデルと関連している遺伝子のセットを含み、前記遺伝子のセットは、ARAF、CD79A、GATA3、MSH2、PTEN、およびRNF43から成る、請求項51~53のいずれか一項のパネル。
- 前記遺伝子の第3群は、HPV16、HPV18、EBV、およびHBVから成る、請求項51~54のいずれか一項のパネル。
- 前記アッセイパネルは、被験者のがんの有無を検出する、請求項51~55のいずれか一項のパネル。
- 前記アッセイパネルは、被験者のがんの種類を検出する、請求項51~56のいずれか一項のパネル。
- 患者のがんの有無を判定するためのがん検出パネルを生成する方法であって、
リクエストを受信し、前記検出パネルを生成することであって、前記検出パネルは、ゲノム領域のセットを含み、前記リクエストは、前記検出パネルに対する総キロベースサイズを有することと、
複数のゲノム領域を受信することであって、各ゲノム領域は、前記ゲノム領域の特徴の変動ががんを示す尤度と関連しており、各ゲノム領域は、キロベースサイズを有することと、
分類子モデルを前記複数のゲノム領域に適用し、前記検出パネルを生成することであって、前記分類子モデルは、
前記ゲノム領域の1つ1つに対して感度スコアを判定することであって、前記感度スコアは、前記検出パネルの検出感度への寄与を定量化し、前記検出感度は、前記がん検出パネルに含まれる前記ゲノム領域のセットにおける前記特徴の変動ががんを示す前記尤度を定量化することと、
前記複数のゲノム領域をそれらの感度スコアに従ってランク付けすることと、
それらのランクに基づいて、ゲノム領域の1つまたは複数を、前記検出パネルに対する前記ゲノム領域のセットとして選択することであって、前記検出パネルにおけるゲノム領域のセットに対する前記キロベースサイズの合計は、前記総キロベースサイズ未満であることと
を含むことと
を含む方法。 - 前記パネルを採用し、患者におけるがんの存在を判定することを更に含む、請求項58の方法。
- 前記リクエストを送信して前記検出パネルを生成したクライアントデバイスに前記ゲノム領域のセットを送ることを更に含む、請求項58または59の方法。
- 前記ゲノム領域の前記特徴は、一塩基バリアントである、請求項58~60のいずれか一項の方法。
- がんを示す前記特徴の前記変動は、前記ゲノム領域の前記一塩基バリアントに対する最大バリアントアレル頻度である、請求項61の方法。
- 前記ゲノム領域の1つまたは複数は、がんと関連しているウイルスを示す、請求項58~61のいずれか一項の方法。
- 前記ウイルスは、HPV16、HPV18、EBV、およびHBVのいずれかである、請求項63の方法。
- 前記ゲノム領域の1つまたは複数は、固形がんと関連している、請求項58~64のいずれか一項の方法。
- 前記ゲノム領域は、表1または表2のゲノム領域である、請求項65の方法。
- 前記ゲノム領域の1つまたは複数は、液状がんと関連している、請求項58~66のいずれか一項の方法。
- 前記ゲノム領域は、表1または表2のゲノム領域である、請求項67の方法。
- 前記ゲノム領域の1つまたは複数は、がんホットスポットを示す、請求項58~68のいずれか一項の方法。
- 前記ゲノム領域は、表3、表4、または表5のゲノム領域である、請求項69の方法。
- 前記ゲノム領域の1つまたは複数は、特定の種類のがんと関連している、請求項58~70のいずれか一項の方法。
- 前記検出パネルは、65、55、または45未満のゲノム領域を含む、請求項58~71のいずれか一項の方法。
- 前記総キロベースサイズは、390,000、330,000、270,000、210,000、または150,000キロベースである、請求項58~72のいずれか一項の方法。
- 前記リクエストは、前記検出パネルを設計して検出するがんの種類を含み、
前記感度スコアは、前記がんの種類に対する前記検出パネルの検出感度への寄与を定量化する、請求項58~73のいずれか一項の方法。 - 指標をランク付けすることは、
前記検出パネルを設計して検出するがんの種類に基づいて前記ゲノム領域をランク付けすることを更に含む、請求項58~74のいずれか一項の方法。 - 少なくともプローブ数のプローブ対であって、前記プローブ数の対の各対は、重複配列により互いに重複するように構成された2つのプローブを含む、少なくともプローブ数のプローブ対を含むがんアッセイパネルであって、
前記重複配列は、重複数の核酸塩基を含み、
前記重複数の核酸塩基を含む前記重複配列は、1つまたは複数のゲノム領域に対応するライブラリー分子をハイブリッド形成し、前記ゲノム領域の各々は、前記ゲノム領域の一塩基バリアントに対する最大バリアントアレル頻度を有し、前記ゲノム領域に対する前記バリアントアレル頻度の少なくともいくつかは、がん試料において生じる、がんアッセイパネル。 - 前記がん試料は、特定のTOOのがんを有する被験者からのものであり、前記特定のTOOの前記がんは、乳がん、子宮がん、子宮頸がん、卵巣がん、膀胱がん、腎尿路上皮がん、尿路上皮以外の腎がん、前立腺がん、肛門直腸がん、大腸がん、肝胆道がん、膵がん、上部消化管扁平上皮がん、扁平上皮以外の上部消化管がん、頭頸部がん、肺腺がん、小細胞肺がん、腺がんまたは小細胞肺がん以外の肺がん、神経内分泌がん、肺神経内分泌腫瘍および他の高悪性度神経内分泌腫瘍、黒色腫、甲状腺がん、肉腫、多発性骨髄腫、リンパ腫、および白血病から成る群から選択される、請求項76のがんアッセイパネル。
- 前記プローブの各々は、70~140のヌクレオチドを含む、請求項76または77のがんアッセイパネル。
- 前記ゲノム領域の1つまたは複数は、表1または表2のものである、請求項76~78のいずれか一項のがんアッセイパネル。
- 前記ゲノム領域の1つまたは複数は、表3、表4、または表5のものである、請求項76~79のいずれか一項のがんアッセイパネル。
- 前記ゲノム領域の1つまたは複数は、ウイルス領域と関連しており、ウイルス領域は、がんと関連しているウイルス配列を示す、請求項76~80のいずれか一項のがんアッセイパネル。
- 少なくとも2900の前記プローブが、分類子モデルにより選択され、前記分類子モデルは、前記2900のプローブの各々に対する検出感度を定量化する感度スコアに基づいて前記少なくとも2900のプローブを選択する、請求項76~81のいずれか一項のがんアッセイパネル。
- 少なくとも2900の前記プローブが、標的キロベースサイズ未満の総キロベースサイズを有し、前記分類子モデルは、前記標的キロベースサイズ未満のまま、最も高い感度スコアを有する前記2900のプローブを選択する、請求項76~82のいずれか一項のがんアッセイパネル。
- 前記プローブ数のプローブ対は、1000、1500、2000、2500、または3000のプローブ対である、請求項76~83のいずれか一項のがんアッセイパネル。
- 前記重複配列における前記重複数の核酸塩基は、20、30、40、50、60、70、または80の核酸塩基である、請求項76~84のいずれか一項のがんアッセイパネル。
- ハードウェアプロセッサにより実行されたときに:
高シグナルのがん遺伝子および液状がん遺伝子と関連しているゲノム領域の第1セットを選択することと、
がん特異的遺伝子およびがん特異的ホットスポットと関連しているゲノム領域の第2セットを選択することと、
一塩基バリアントまたはインデルに対するホットスポットと関連しているゲノム領域の第3セットを選択することと、
ウイルス標的と関連しているゲノム領域の第4セットを選択することと、
複数のプローブセットを含むがんアッセイパネルを生成することであって、前記複数のプローブセットにおける各プローブセットは、前記ゲノム領域の第1、第2、第3、および第4セットにおける前記ゲノム領域の少なくとも1つを標的とするための一対のプローブを含むことと
を含むステップを前記ハードウェアプロセッサに実行させる指示を保管する非一時的コンピュータ可読記録媒体。 - 前記ゲノム領域の第1、第2、第3、および第4セットの少なくとも1つに対する前記ゲノム領域を選択することは、分類モデルを適用し、前記がんアッセイパネルの検出感度への各ゲノム領域の寄与を算定することを含む、請求項86の非一時的コンピュータ可読記録媒体。
- 前記ゲノム領域の第1セットは、表1の1つまたは複数のゲノム領域を含む、請求項86または87の非一時的コンピュータ可読記録媒体。
- 前記指示は、実行されたとき、前記パネルの前記検出感度を改善するゲノム領域の第5セットを選択することであって、前記ゲノム領域の第5セットは、表2の1つまたは複数のゲノム領域を含むことを含む更なるステップを前記ハードウェアプロセッサに実行させる、請求項88の非一時的コンピュータ可読記録媒体。
- 前記ゲノム領域の第2セットは、CASP8、IDH1、TERT1、およびEGFRの1つまたは複数を含む、請求項86~89のいずれか一項の非一時的コンピュータ可読記録媒体。
- 前記ゲノム領域の第3セットは、表3の1つまたは複数のゲノム領域を含む、請求項86~90のいずれか一項の非一時的コンピュータ可読記録媒体。
- 前記ゲノム領域の第3セットは、表4の1つまたは複数のゲノム領域に位置する1つまたは複数の部位を含む、請求項86~91のいずれか一項の非一時的コンピュータ可読記録媒体。
- 前記ゲノム領域の第3セットは、表5の1つまたは複数のゲノム領域に位置する1つまたは複数の部位を含む、請求項86~92のいずれか一項の非一時的コンピュータ可読記録媒体。
- 前記ゲノム領域の第3セットは、表6の1つまたは複数のゲノム領域に位置する1つまたは複数の部位を含む、請求項86~93のいずれか一項の非一時的コンピュータ可読記録媒体。
- 前記ゲノム領域の第4セットは、HPV16、HPV18、EBV、およびHBVにおける1つまたは複数のゲノム領域に位置する1つまたは複数の部位を含む、請求項86~94のいずれか一項の非一時的コンピュータ可読記録媒体。
- 前記がんアッセイパネルの総パネルサイズは、300キロベース以下である、請求項86~95のいずれか一項の非一時的コンピュータ可読記録媒体。
- ハードウェアプロセッサと、
前記ハードウェアプロセッサにより実行されたときに:
高シグナルのがん遺伝子および液状がん遺伝子と関連しているゲノム領域の第1セットを選択することと、
がん特異的遺伝子およびがん特異的ホットスポットと関連しているゲノム領域の第2セットを選択することと、
一塩基バリアントまたはインデルに対するホットスポットと関連しているゲノム領域の第3セットを選択することと、
ウイルス標的と関連しているゲノム領域の第4セットを選択することと、
複数のプローブセットを含むがんアッセイパネルを生成することであって、前記複数のプローブセットにおける各プローブセットは、前記ゲノム領域の第1、第2、第3、および第4セットにおける前記ゲノム領域の少なくとも1つを標的とするための一対のプローブを含むことと
を含むステップを前記ハードウェアプロセッサに実行させる指示を保管する非一時的コンピュータ可読記録媒体と
を含むシステム。 - 前記ゲノム領域の第1、第2、第3、および第4セットの少なくとも1つに対する前記ゲノム領域を選択することは、分類モデルを適用し、前記がんアッセイパネルの検出感度への各ゲノム領域の寄与を算定することを含む、請求項97のシステム。
- 前記ゲノム領域の第1セットは、表1の1つまたは複数のゲノム領域を含む、請求項97または98のシステム。
- 前記指示は、実行されたとき、前記パネルの前記検出感度を改善するゲノム領域の第5セットを選択することであって、前記ゲノム領域の第5セットは、表2の1つまたは複数のゲノム領域を含むことを含む更なるステップを前記ハードウェアプロセッサに実行させる、請求項99のシステム。
- 前記ゲノム領域の第2セットは、CASP8、IDH1、TERT1、およびEGFRの1つまたは複数を含む、請求項97~100のいずれか一項のシステム。
- 前記ゲノム領域の第3セットは、表3の1つまたは複数のゲノム領域を含む、請求項97~101のいずれか一項のシステム。
- 前記ゲノム領域の第3セットは、表4の1つまたは複数のゲノム領域に位置する1つまたは複数の部位を含む、請求項97~102のいずれか一項のシステム。
- 前記ゲノム領域の第3セットは、表5の1つまたは複数のゲノム領域に位置する1つまたは複数の部位を含む、請求項97~103のいずれか一項のシステム。
- 前記ゲノム領域の第3セットは、表6の1つまたは複数のゲノム領域に位置する1つまたは複数の部位を含む、請求項97~104のいずれか一項のシステム。
- 前記ゲノム領域の第4セットは、HPV16、HPV18、EBV、およびHBVにおける1つまたは複数のゲノム領域に位置する1つまたは複数の部位を含む、請求項97~105のいずれか一項のシステム。
- 前記がんアッセイパネルの総パネルサイズは、300キロベース以下である、請求項97~106のいずれか一項のシステム。
- 患者のがんの有無を判定するためのがん検出パネルを生成するための指示を保管する非一時的コンピュータ可読記録媒体であって、前記指示は、ハードウェアプロセッサにより実行されたときに:
リクエストを受信し、前記検出パネルを生成することであって、前記検出パネルは、ゲノム領域のセットを含み、前記リクエストは、前記検出パネルに対する総キロベースサイズを有することと、
複数のゲノム領域を受信することであって、各ゲノム領域は、前記ゲノム領域の特徴の変動ががんを示す尤度と関連しており、各ゲノム領域は、キロベースサイズを有することと、
分類子モデルを前記複数のゲノム領域に適用し、前記検出パネルを生成することであって、前記分類子モデルは、
前記ゲノム領域の1つ1つに対して感度スコアを判定することであって、前記感度スコアは、前記検出パネルの検出感度への寄与を定量化し、前記検出感度は、前記がん検出パネルに含まれる前記ゲノム領域のセットにおける前記特徴の変動ががんを示す前記尤度を定量化することと、
前記複数のゲノム領域をそれらの感度スコアに従ってランク付けすることと、
それらのランクに基づいて、ゲノム領域の1つまたは複数を、前記検出パネルに対する前記ゲノム領域のセットとして選択することであって、前記検出パネルにおけるゲノム領域のセットに対する前記キロベースサイズの合計は、前記総キロベースサイズ未満であることと
を含むことと
を含むステップを前記ハードウェアプロセッサに実行させるように構成される、非一時的コンピュータ可読記録媒体。 - 前記指示は、実行されたとき、
前記パネルを採用し、患者におけるがんの存在を判定することを含む更なるステップを前記ハードウェアプロセッサに実行させる、請求項108の非一時的コンピュータ可読記録媒体。 - 前記指示は、実行されたとき、
前記リクエストを送信して前記検出パネルを生成したクライアントデバイスに前記ゲノム領域のセットを送ることを含む更なるステップを前記ハードウェアプロセッサに実行させる、請求項108または109の非一時的コンピュータ可読記録媒体。 - 前記ゲノム領域の前記特徴は、一塩基バリアントである、請求項108~110のいずれか一項の非一時的コンピュータ可読記録媒体。
- がんを示す前記特徴の前記変動は、前記ゲノム領域の前記一塩基バリアントに対する最大バリアントアレル頻度である、請求項111の非一時的コンピュータ可読記録媒体。
- 前記ゲノム領域の1つまたは複数は、がんと関連しているウイルスを示す、請求項108~111のいずれか一項の非一時的コンピュータ可読記録媒体。
- 前記ウイルスは、HPV16、HPV18、EBV、およびHBVのいずれかである、請求項113の非一時的コンピュータ可読記録媒体。
- 前記ゲノム領域の1つまたは複数は、固形がんと関連している、請求項108~114のいずれか一項の非一時的コンピュータ可読記録媒体。
- 前記ゲノム領域は、表1または表2のゲノム領域である、請求項115の非一時的コンピュータ可読記録媒体。
- 前記ゲノム領域の1つまたは複数は、液状がんと関連している、請求項108~116のいずれか一項の非一時的コンピュータ可読記録媒体。
- 前記ゲノム領域は、表1または表2のゲノム領域である、請求項117の非一時的コンピュータ可読記録媒体。
- 前記ゲノム領域の1つまたは複数は、がんホットスポットを示す、請求項108~118のいずれか一項の非一時的コンピュータ可読記録媒体。
- 前記ゲノム領域は、表3、表4、または表5のゲノム領域である、請求項119の非一時的コンピュータ可読記録媒体。
- 前記ゲノム領域の1つまたは複数は、特定の種類のがんと関連している、請求項108~120のいずれか一項の非一時的コンピュータ可読記録媒体。
- 前記検出パネルは、65、55、または45未満のゲノム領域を含む、請求項108~121のいずれか一項の非一時的コンピュータ可読記録媒体。
- 前記総キロベースサイズは、390,000、330,000、270,000、210,000、または150,000キロベースである、請求項108~122のいずれか一項の非一時的コンピュータ可読記録媒体。
- 前記リクエストは、前記検出パネルを設計して検出するがんの種類を含み、
前記感度スコアは、前記がんの種類に対する前記検出パネルの検出感度への寄与を定量化する、請求項108~123のいずれか一項の非一時的コンピュータ可読記録媒体。 - 指標をランク付けすることは、
前記検出パネルを設計して検出するがんの種類に基づいて前記ゲノム領域をランク付けすることを更に含む、請求項108~124のいずれか一項の非一時的コンピュータ可読記録媒体。 - 患者のがんの有無を判定するためのがん検出パネルを生成するためのシステムであって、
ハードウェアプロセッサと、
前記ハードウェアプロセッサにより実行されたときに:
リクエストを受信し、前記検出パネルを生成することであって、前記検出パネルは、ゲノム領域のセットを含み、前記リクエストは、前記検出パネルに対する総キロベースサイズを有することと、
複数のゲノム領域を受信することであって、各ゲノム領域は、前記ゲノム領域の特徴の変動ががんを示す尤度と関連しており、各ゲノム領域は、キロベースサイズを有することと、
分類子モデルを前記複数のゲノム領域に適用し、前記検出パネルを生成することであって、前記分類子モデルは、
前記ゲノム領域の1つ1つに対して感度スコアを判定することであって、前記感度スコアは、前記検出パネルの検出感度への寄与を定量化し、前記検出感度は、前記がん検出パネルに含まれる前記ゲノム領域のセットにおける前記特徴の変動ががんを示す前記尤度を定量化することと、
前記複数のゲノム領域をそれらの感度スコアに従ってランク付けすることと、
それらのランクに基づいて、ゲノム領域の1つまたは複数を、前記検出パネルに対する前記ゲノム領域のセットとして選択することであって、前記検出パネルにおけるゲノム領域のセットに対する前記キロベースサイズの合計は、前記総キロベースサイズ未満であることと
を含むことと
を含むステップを前記ハードウェアプロセッサに実行させるように構成される指示を保管する非一時的コンピュータ可読記録媒体と
を含む、システム。 - 前記指示は、実行されたとき、
前記パネルを採用し、患者におけるがんの存在を判定することを含む更なるステップを前記ハードウェアプロセッサに実行させる、請求項126のシステム。 - 前記指示は、実行されたとき、
前記リクエストを送信して前記検出パネルを生成したクライアントデバイスに前記ゲノム領域のセットを送ることを含む更なるステップを前記ハードウェアプロセッサに実行させる、請求項126または127のシステム。 - 前記ゲノム領域の前記特徴は、一塩基バリアントである、請求項126~128のいずれか一項のシステム。
- がんを示す前記特徴の前記変動は、前記ゲノム領域の前記一塩基バリアントに対する最大バリアントアレル頻度である、請求項129のシステム。
- 前記ゲノム領域の1つまたは複数は、がんと関連しているウイルスを示す、請求項126~130のいずれか一項のシステム。
- 前記ウイルスは、HPV16、HPV18、EBV、およびHBVのいずれかである、請求項131のシステム。
- 前記ゲノム領域の1つまたは複数は、固形がんと関連している、請求項126~132のいずれか一項のシステム。
- 前記ゲノム領域は、表1または表2のゲノム領域である、請求項133のシステム。
- 前記ゲノム領域の1つまたは複数は、液状がんと関連している、請求項126~134のいずれか一項のシステム。
- 前記ゲノム領域は、表1または表2のゲノム領域である、請求項135のシステム。
- 前記ゲノム領域の1つまたは複数は、がんホットスポットを示す、請求項126~136のいずれか一項のシステム。
- 前記ゲノム領域は、表3、表4、または表5のゲノム領域である、請求項137のシステム。
- 前記ゲノム領域の1つまたは複数は、特定の種類のがんと関連している、請求項126~138のいずれか一項のシステム。
- 前記検出パネルは、65、55、または45未満のゲノム領域を含む、請求項126~139のいずれか一項のシステム。
- 前記総キロベースサイズは、390,000、330,000、270,000、210,000、または150,000キロベースである、請求項126~140のいずれか一項のシステム。
- 前記リクエストは、前記検出パネルを設計して検出するがんの種類を含み、
前記感度スコアは、前記がんの種類に対する前記検出パネルの検出感度への寄与を定量化する、請求項126~141のいずれか一項のシステム。 - 指標をランク付けすることは、
前記検出パネルを設計して検出するがんの種類に基づいて前記ゲノム領域をランク付けすることを更に含む、請求項126~142のいずれか一項のシステム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063013512P | 2020-04-21 | 2020-04-21 | |
US63/013,512 | 2020-04-21 | ||
US17/233,548 | 2021-04-19 | ||
US17/233,548 US20210324477A1 (en) | 2020-04-21 | 2021-04-19 | Generating cancer detection panels according to a performance metric |
PCT/US2021/028035 WO2021216477A1 (en) | 2020-04-21 | 2021-04-20 | Generating cancer detection panels according to a performance metric |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023522940A true JP2023522940A (ja) | 2023-06-01 |
JPWO2021216477A5 JPWO2021216477A5 (ja) | 2024-02-22 |
Family
ID=78081562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022564030A Pending JP2023522940A (ja) | 2020-04-21 | 2021-04-20 | 性能測定基準に従ったがん検出パネルの生成 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20210324477A1 (ja) |
EP (1) | EP4128269A1 (ja) |
JP (1) | JP2023522940A (ja) |
CN (1) | CN115699205A (ja) |
AU (1) | AU2021259295A1 (ja) |
CA (1) | CA3174294A1 (ja) |
WO (1) | WO2021216477A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11482303B2 (en) | 2018-06-01 | 2022-10-25 | Grail, Llc | Convolutional neural network systems and methods for data classification |
US11581062B2 (en) * | 2018-12-10 | 2023-02-14 | Grail, Llc | Systems and methods for classifying patients with respect to multiple cancer classes |
US11898199B2 (en) | 2019-11-11 | 2024-02-13 | Universal Diagnostics, S.A. | Detection of colorectal cancer and/or advanced adenomas |
WO2022002424A1 (en) | 2020-06-30 | 2022-01-06 | Universal Diagnostics, S.L. | Systems and methods for detection of multiple cancer types |
CN115713971B (zh) * | 2022-09-28 | 2024-01-23 | 上海睿璟生物科技有限公司 | 靶向序列捕获探针设计策略选择方法、系统及终端 |
CN116646010B (zh) * | 2023-07-27 | 2024-03-29 | 深圳赛陆医疗科技有限公司 | 人源性病毒检测方法及装置、设备、存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9805918D0 (en) * | 1998-03-19 | 1998-05-13 | Nycomed Amersham Plc | Sequencing by hybridisation |
CA2978628A1 (en) * | 2015-03-03 | 2016-09-09 | Caris Mpi, Inc. | Molecular profiling for cancer |
WO2018064547A1 (en) * | 2016-09-30 | 2018-04-05 | The Trustees Of Columbia University In The City Of New York | Methods for classifying somatic variations |
CN111278993A (zh) * | 2017-09-15 | 2020-06-12 | 加利福尼亚大学董事会 | 从无细胞核酸中检测体细胞单核苷酸变体并应用于微小残留病变监测 |
US20190316209A1 (en) * | 2018-04-13 | 2019-10-17 | Grail, Inc. | Multi-Assay Prediction Model for Cancer Detection |
-
2021
- 2021-04-19 US US17/233,548 patent/US20210324477A1/en active Pending
- 2021-04-20 AU AU2021259295A patent/AU2021259295A1/en active Pending
- 2021-04-20 CA CA3174294A patent/CA3174294A1/en active Pending
- 2021-04-20 EP EP21724883.0A patent/EP4128269A1/en active Pending
- 2021-04-20 JP JP2022564030A patent/JP2023522940A/ja active Pending
- 2021-04-20 CN CN202180036132.8A patent/CN115699205A/zh active Pending
- 2021-04-20 WO PCT/US2021/028035 patent/WO2021216477A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
US20210324477A1 (en) | 2021-10-21 |
CA3174294A1 (en) | 2021-10-28 |
EP4128269A1 (en) | 2023-02-08 |
CN115699205A (zh) | 2023-02-03 |
WO2021216477A1 (en) | 2021-10-28 |
AU2021259295A1 (en) | 2022-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210017609A1 (en) | Methylation markers and targeted methylation probe panel | |
JP2023522940A (ja) | 性能測定基準に従ったがん検出パネルの生成 | |
TWI814753B (zh) | 用於標靶定序之模型 | |
AU2020212057A1 (en) | Detecting cancer, cancer tissue of origin, and/or a cancer cell type | |
US20210102262A1 (en) | Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data | |
US20200203016A1 (en) | Cancer tissue source of origin prediction with multi-tier analysis of small variants in cell-free dna samples | |
US20220090211A1 (en) | Sample Validation for Cancer Classification | |
WO2018150378A1 (en) | Detecting cross-contamination in sequencing data using regression techniques | |
JP7498793B2 (ja) | 合成トレーニングサンプルによるがん分類 | |
KR20240073026A (ko) | 노이즈 영역 필터링을 사용한 메틸화 단편 확률론적 노이즈 모델 | |
KR20230167070A (ko) | 국재화 정확도를 위한 조건부 기원 조직 리턴 | |
JP2023521308A (ja) | 合成トレーニングサンプルによるがん分類 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240214 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240214 |