JP2023514851A - 癌の病態を判別または示すメチル化パターンの同定 - Google Patents
癌の病態を判別または示すメチル化パターンの同定 Download PDFInfo
- Publication number
- JP2023514851A JP2023514851A JP2022550238A JP2022550238A JP2023514851A JP 2023514851 A JP2023514851 A JP 2023514851A JP 2022550238 A JP2022550238 A JP 2022550238A JP 2022550238 A JP2022550238 A JP 2022550238A JP 2023514851 A JP2023514851 A JP 2023514851A
- Authority
- JP
- Japan
- Prior art keywords
- cancer
- methylation
- fragment
- state
- fragments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007069 methylation reaction Methods 0.000 title claims abstract description 921
- 230000011987 methylation Effects 0.000 title claims abstract description 919
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 816
- 201000011510 cancer Diseases 0.000 title claims abstract description 521
- 230000007170 pathology Effects 0.000 title 1
- 239000012634 fragment Substances 0.000 claims abstract description 574
- 108091029430 CpG site Proteins 0.000 claims abstract description 348
- 238000000034 method Methods 0.000 claims abstract description 276
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 212
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 142
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 142
- 238000012164 methylation sequencing Methods 0.000 claims abstract description 122
- 208000003837 Second Primary Neoplasms Diseases 0.000 claims abstract description 16
- 238000012163 sequencing technique Methods 0.000 claims description 149
- 239000000523 sample Substances 0.000 claims description 146
- 239000012472 biological sample Substances 0.000 claims description 102
- 238000012360 testing method Methods 0.000 claims description 89
- 238000012549 training Methods 0.000 claims description 62
- 238000004422 calculation algorithm Methods 0.000 claims description 37
- 239000002773 nucleotide Substances 0.000 claims description 37
- 125000003729 nucleotide group Chemical group 0.000 claims description 37
- 210000004369 blood Anatomy 0.000 claims description 34
- 239000008280 blood Substances 0.000 claims description 34
- 230000007067 DNA methylation Effects 0.000 claims description 25
- 208000008839 Kidney Neoplasms Diseases 0.000 claims description 25
- 206010038389 Renal cancer Diseases 0.000 claims description 25
- 208000005718 Stomach Neoplasms Diseases 0.000 claims description 25
- 206010017758 gastric cancer Diseases 0.000 claims description 25
- 201000010982 kidney cancer Diseases 0.000 claims description 25
- 210000002381 plasma Anatomy 0.000 claims description 25
- 201000011549 stomach cancer Diseases 0.000 claims description 25
- 206010058467 Lung neoplasm malignant Diseases 0.000 claims description 23
- 201000005202 lung cancer Diseases 0.000 claims description 23
- 208000020816 lung neoplasm Diseases 0.000 claims description 23
- 208000014829 head and neck neoplasm Diseases 0.000 claims description 22
- 238000003860 storage Methods 0.000 claims description 22
- 206010008342 Cervix carcinoma Diseases 0.000 claims description 20
- 206010025323 Lymphomas Diseases 0.000 claims description 20
- 208000034578 Multiple myelomas Diseases 0.000 claims description 20
- 206010035226 Plasma cell myeloma Diseases 0.000 claims description 20
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 claims description 20
- 201000010881 cervical cancer Diseases 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 20
- 208000032839 leukemia Diseases 0.000 claims description 20
- 206010005003 Bladder cancer Diseases 0.000 claims description 18
- 206010006187 Breast cancer Diseases 0.000 claims description 18
- 208000026310 Breast neoplasm Diseases 0.000 claims description 18
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 claims description 18
- 201000005112 urinary bladder cancer Diseases 0.000 claims description 18
- 206010009944 Colon cancer Diseases 0.000 claims description 17
- 206010033128 Ovarian cancer Diseases 0.000 claims description 17
- 206010061535 Ovarian neoplasm Diseases 0.000 claims description 17
- 206010061902 Pancreatic neoplasm Diseases 0.000 claims description 17
- 208000024770 Thyroid neoplasm Diseases 0.000 claims description 17
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 claims description 17
- 201000002528 pancreatic cancer Diseases 0.000 claims description 17
- 208000008443 pancreatic carcinoma Diseases 0.000 claims description 17
- 201000002510 thyroid cancer Diseases 0.000 claims description 17
- 208000000461 Esophageal Neoplasms Diseases 0.000 claims description 16
- 206010060862 Prostate cancer Diseases 0.000 claims description 16
- 208000000236 Prostatic Neoplasms Diseases 0.000 claims description 16
- 201000010536 head and neck cancer Diseases 0.000 claims description 16
- 210000002784 stomach Anatomy 0.000 claims description 16
- 208000003174 Brain Neoplasms Diseases 0.000 claims description 15
- 208000002495 Uterine Neoplasms Diseases 0.000 claims description 15
- 210000003734 kidney Anatomy 0.000 claims description 15
- 206010046766 uterine cancer Diseases 0.000 claims description 15
- 210000000988 bone and bone Anatomy 0.000 claims description 14
- 206010073073 Hepatobiliary cancer Diseases 0.000 claims description 13
- 208000024313 Testicular Neoplasms Diseases 0.000 claims description 13
- 210000004185 liver Anatomy 0.000 claims description 13
- 201000007270 liver cancer Diseases 0.000 claims description 13
- 208000014018 liver neoplasm Diseases 0.000 claims description 13
- 201000003120 testicular cancer Diseases 0.000 claims description 13
- 208000000453 Skin Neoplasms Diseases 0.000 claims description 12
- 210000004072 lung Anatomy 0.000 claims description 12
- 201000001441 melanoma Diseases 0.000 claims description 12
- 201000000849 skin cancer Diseases 0.000 claims description 12
- 210000001685 thyroid gland Anatomy 0.000 claims description 12
- 206010005949 Bone cancer Diseases 0.000 claims description 11
- 208000018084 Bone neoplasm Diseases 0.000 claims description 11
- 210000000481 breast Anatomy 0.000 claims description 11
- 208000029742 colonic neoplasm Diseases 0.000 claims description 11
- 210000003238 esophagus Anatomy 0.000 claims description 11
- 238000007477 logistic regression Methods 0.000 claims description 11
- 210000004291 uterus Anatomy 0.000 claims description 11
- 206010061336 Pelvic neoplasm Diseases 0.000 claims description 10
- 206010057644 Testis cancer Diseases 0.000 claims description 10
- 208000000728 Thymus Neoplasms Diseases 0.000 claims description 10
- 201000005188 adrenal gland cancer Diseases 0.000 claims description 10
- 208000024447 adrenal gland neoplasm Diseases 0.000 claims description 10
- 201000009036 biliary tract cancer Diseases 0.000 claims description 10
- 208000020790 biliary tract neoplasm Diseases 0.000 claims description 10
- 201000006491 bone marrow cancer Diseases 0.000 claims description 10
- 210000003128 head Anatomy 0.000 claims description 10
- 210000003739 neck Anatomy 0.000 claims description 10
- 210000001672 ovary Anatomy 0.000 claims description 10
- 201000003437 pleural cancer Diseases 0.000 claims description 10
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical class CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 claims description 10
- 239000007788 liquid Substances 0.000 claims description 9
- 210000000496 pancreas Anatomy 0.000 claims description 9
- 210000002307 prostate Anatomy 0.000 claims description 9
- 210000003932 urinary bladder Anatomy 0.000 claims description 9
- RYVNIFSIEDRLSJ-UHFFFAOYSA-N 5-(hydroxymethyl)cytosine Chemical compound NC=1NC(=O)N=CC=1CO RYVNIFSIEDRLSJ-UHFFFAOYSA-N 0.000 claims description 8
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 claims description 8
- 208000017897 Carcinoma of esophagus Diseases 0.000 claims description 8
- 206010030155 Oesophageal carcinoma Diseases 0.000 claims description 8
- 201000004101 esophageal cancer Diseases 0.000 claims description 8
- 210000003296 saliva Anatomy 0.000 claims description 7
- 210000002700 urine Anatomy 0.000 claims description 7
- 210000001175 cerebrospinal fluid Anatomy 0.000 claims description 6
- 210000003679 cervix uteri Anatomy 0.000 claims description 6
- 210000003608 fece Anatomy 0.000 claims description 6
- 230000000977 initiatory effect Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 210000001138 tear Anatomy 0.000 claims description 6
- 238000011269 treatment regimen Methods 0.000 claims description 6
- 208000005228 Pericardial Effusion Diseases 0.000 claims description 5
- 210000003567 ascitic fluid Anatomy 0.000 claims description 5
- 210000001185 bone marrow Anatomy 0.000 claims description 5
- 210000004556 brain Anatomy 0.000 claims description 5
- 210000003917 human chromosome Anatomy 0.000 claims description 5
- 210000004912 pericardial fluid Anatomy 0.000 claims description 5
- 210000004243 sweat Anatomy 0.000 claims description 5
- 108020004711 Nucleic Acid Probes Proteins 0.000 claims description 4
- 210000004100 adrenal gland Anatomy 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 4
- 210000002615 epidermis Anatomy 0.000 claims description 4
- 239000002853 nucleic acid probe Substances 0.000 claims description 4
- 210000004224 pleura Anatomy 0.000 claims description 4
- 210000004910 pleural fluid Anatomy 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 210000001550 testis Anatomy 0.000 claims description 4
- 210000000941 bile Anatomy 0.000 claims description 3
- 230000002255 enzymatic effect Effects 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 210000004197 pelvis Anatomy 0.000 claims description 3
- 238000011002 quantification Methods 0.000 claims description 3
- 210000001541 thymus gland Anatomy 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 2
- 208000026037 malignant tumor of neck Diseases 0.000 claims 3
- 201000009377 thymus cancer Diseases 0.000 claims 3
- 230000000875 corresponding effect Effects 0.000 description 284
- 210000001519 tissue Anatomy 0.000 description 182
- 210000004027 cell Anatomy 0.000 description 114
- 108020004414 DNA Proteins 0.000 description 57
- 102000053602 DNA Human genes 0.000 description 57
- 210000000056 organ Anatomy 0.000 description 45
- 238000001574 biopsy Methods 0.000 description 41
- 108700028369 Alleles Proteins 0.000 description 33
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 27
- 238000001514 detection method Methods 0.000 description 25
- 230000035772 mutation Effects 0.000 description 24
- 238000011282 treatment Methods 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 23
- 238000003556 assay Methods 0.000 description 23
- 238000012070 whole genome sequencing analysis Methods 0.000 description 20
- 238000003745 diagnosis Methods 0.000 description 19
- 229940079593 drug Drugs 0.000 description 17
- 239000003814 drug Substances 0.000 description 17
- 239000000090 biomarker Substances 0.000 description 16
- 238000009396 hybridization Methods 0.000 description 16
- 230000001594 aberrant effect Effects 0.000 description 15
- 238000013459 approach Methods 0.000 description 15
- 201000010099 disease Diseases 0.000 description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 15
- 210000000265 leukocyte Anatomy 0.000 description 15
- 108090000623 proteins and genes Proteins 0.000 description 15
- 210000000349 chromosome Anatomy 0.000 description 14
- 239000000203 mixture Substances 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 229920002477 rna polymer Polymers 0.000 description 13
- 238000001369 bisulfite sequencing Methods 0.000 description 12
- 230000004048 modification Effects 0.000 description 11
- 238000012986 modification Methods 0.000 description 11
- 230000002085 persistent effect Effects 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 10
- 229940104302 cytosine Drugs 0.000 description 10
- 230000002159 abnormal effect Effects 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 9
- 230000000670 limiting effect Effects 0.000 description 9
- 238000006263 metalation reaction Methods 0.000 description 9
- 238000012544 monitoring process Methods 0.000 description 9
- 238000012216 screening Methods 0.000 description 9
- 239000005536 L01XE08 - Nilotinib Substances 0.000 description 8
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 8
- 229960001467 bortezomib Drugs 0.000 description 8
- GXJABQQUPOEUTA-RDJZCZTQSA-N bortezomib Chemical compound C([C@@H](C(=O)N[C@@H](CC(C)C)B(O)O)NC(=O)C=1N=CC=NC=1)C1=CC=CC=C1 GXJABQQUPOEUTA-RDJZCZTQSA-N 0.000 description 8
- 238000010790 dilution Methods 0.000 description 8
- 239000012895 dilution Substances 0.000 description 8
- 238000001914 filtration Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 229960001346 nilotinib Drugs 0.000 description 8
- HHZIURLSWUIHRB-UHFFFAOYSA-N nilotinib Chemical compound C1=NC(C)=CN1C1=CC(NC(=O)C=2C=C(NC=3N=C(C=CN=3)C=3C=NC=CC=3)C(C)=CC=2)=CC(C(F)(F)F)=C1 HHZIURLSWUIHRB-UHFFFAOYSA-N 0.000 description 8
- 238000003752 polymerase chain reaction Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 8
- 230000002547 anomalous effect Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 7
- 210000003169 central nervous system Anatomy 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 201000008968 osteosarcoma Diseases 0.000 description 7
- 102000004169 proteins and genes Human genes 0.000 description 7
- 238000006467 substitution reaction Methods 0.000 description 7
- 238000013526 transfer learning Methods 0.000 description 7
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 6
- -1 DNA) size profiles Chemical class 0.000 description 6
- 208000034176 Neoplasms, Germ Cell and Embryonal Diseases 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 210000002966 serum Anatomy 0.000 description 6
- 230000000392 somatic effect Effects 0.000 description 6
- 230000004083 survival effect Effects 0.000 description 6
- 208000002454 Nasopharyngeal Carcinoma Diseases 0.000 description 5
- 206010061306 Nasopharyngeal cancer Diseases 0.000 description 5
- 208000007660 Residual Neoplasm Diseases 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 5
- 238000004220 aggregation Methods 0.000 description 5
- 230000003321 amplification Effects 0.000 description 5
- 210000001124 body fluid Anatomy 0.000 description 5
- 230000001684 chronic effect Effects 0.000 description 5
- 210000001072 colon Anatomy 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000007865 diluting Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 210000004602 germ cell Anatomy 0.000 description 5
- 208000012987 lip and oral cavity carcinoma Diseases 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 5
- 201000011216 nasopharynx carcinoma Diseases 0.000 description 5
- 238000003199 nucleic acid amplification method Methods 0.000 description 5
- 238000004393 prognosis Methods 0.000 description 5
- 239000013074 reference sample Substances 0.000 description 5
- HKVAMNSJSFKALM-GKUWKFKPSA-N Everolimus Chemical compound C1C[C@@H](OCCO)[C@H](OC)C[C@@H]1C[C@@H](C)[C@H]1OC(=O)[C@@H]2CCCCN2C(=O)C(=O)[C@](O)(O2)[C@H](C)CC[C@H]2C[C@H](OC)/C(C)=C/C=C/C=C/[C@@H](C)C[C@@H](C)C(=O)[C@H](OC)[C@H](O)/C(C)=C/[C@@H](C)C(=O)C1 HKVAMNSJSFKALM-GKUWKFKPSA-N 0.000 description 4
- 208000021309 Germ cell tumor Diseases 0.000 description 4
- 241000282412 Homo Species 0.000 description 4
- 241000701806 Human papillomavirus Species 0.000 description 4
- 239000005517 L01XE01 - Imatinib Substances 0.000 description 4
- 239000005551 L01XE03 - Erlotinib Substances 0.000 description 4
- 239000002177 L01XE27 - Ibrutinib Substances 0.000 description 4
- 206010073059 Malignant neoplasm of unknown primary site Diseases 0.000 description 4
- 208000003445 Mouth Neoplasms Diseases 0.000 description 4
- PLILLUUXAVKBPY-SBIAVEDLSA-N NCCO.NCCO.CC1=NN(C=2C=C(C)C(C)=CC=2)C(=O)\C1=N/NC(C=1O)=CC=CC=1C1=CC=CC(C(O)=O)=C1 Chemical compound NCCO.NCCO.CC1=NN(C=2C=C(C)C(C)=CC=2)C(=O)\C1=N/NC(C=1O)=CC=CC=1C1=CC=CC(C(O)=O)=C1 PLILLUUXAVKBPY-SBIAVEDLSA-N 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 4
- 208000009565 Pharyngeal Neoplasms Diseases 0.000 description 4
- 206010034811 Pharyngeal cancer Diseases 0.000 description 4
- 102000007066 Prostate-Specific Antigen Human genes 0.000 description 4
- 108010072866 Prostate-Specific Antigen Proteins 0.000 description 4
- 201000000582 Retinoblastoma Diseases 0.000 description 4
- 229960004103 abiraterone acetate Drugs 0.000 description 4
- UVIQSJCZCSLXRZ-UBUQANBQSA-N abiraterone acetate Chemical compound C([C@@H]1[C@]2(C)CC[C@@H]3[C@@]4(C)CC[C@@H](CC4=CC[C@H]31)OC(=O)C)C=C2C1=CC=CN=C1 UVIQSJCZCSLXRZ-UBUQANBQSA-N 0.000 description 4
- 208000020990 adrenal cortex carcinoma Diseases 0.000 description 4
- 208000007128 adrenocortical carcinoma Diseases 0.000 description 4
- 229960000397 bevacizumab Drugs 0.000 description 4
- 210000000601 blood cell Anatomy 0.000 description 4
- 239000003560 cancer drug Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000002512 chemotherapy Methods 0.000 description 4
- 230000002759 chromosomal effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 229960001251 denosumab Drugs 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 229960001433 erlotinib Drugs 0.000 description 4
- AAKJLRGGTJKAMG-UHFFFAOYSA-N erlotinib Chemical compound C=12C=C(OCCOC)C(OCCOC)=CC2=NC=NC=1NC1=CC=CC(C#C)=C1 AAKJLRGGTJKAMG-UHFFFAOYSA-N 0.000 description 4
- 229960005167 everolimus Drugs 0.000 description 4
- 239000012530 fluid Substances 0.000 description 4
- 230000002496 gastric effect Effects 0.000 description 4
- 230000012010 growth Effects 0.000 description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 4
- 229960001507 ibrutinib Drugs 0.000 description 4
- XYFPWWZEPKGCCK-GOSISDBHSA-N ibrutinib Chemical compound C1=2C(N)=NC=NC=2N([C@H]2CN(CCC2)C(=O)C=C)N=C1C(C=C1)=CC=C1OC1=CC=CC=C1 XYFPWWZEPKGCCK-GOSISDBHSA-N 0.000 description 4
- 229960002411 imatinib Drugs 0.000 description 4
- KTUFNOKKBVMGRW-UHFFFAOYSA-N imatinib Chemical compound C1CN(C)CCN1CC1=CC=C(C(=O)NC=2C=C(NC=3N=C(C=CN=3)C=3C=NC=CC=3)C(C)=CC=2)C=C1 KTUFNOKKBVMGRW-UHFFFAOYSA-N 0.000 description 4
- 238000009169 immunotherapy Methods 0.000 description 4
- 230000001976 improved effect Effects 0.000 description 4
- 229960004942 lenalidomide Drugs 0.000 description 4
- GOTYRUGSSMKFNF-UHFFFAOYSA-N lenalidomide Chemical group C1C=2C(N)=CC=CC=2C(=O)N1C1CCC(=O)NC1=O GOTYRUGSSMKFNF-UHFFFAOYSA-N 0.000 description 4
- 229960004390 palbociclib Drugs 0.000 description 4
- AHJRHEGDXFFMBM-UHFFFAOYSA-N palbociclib Chemical compound N1=C2N(C3CCCC3)C(=O)C(C(=O)C)=C(C)C2=CN=C1NC(N=C1)=CC=C1N1CCNCC1 AHJRHEGDXFFMBM-UHFFFAOYSA-N 0.000 description 4
- 229960002621 pembrolizumab Drugs 0.000 description 4
- 229960005079 pemetrexed Drugs 0.000 description 4
- QOFFJEBXNKRSPX-ZDUSSCGKSA-N pemetrexed Chemical compound C1=N[C]2NC(N)=NC(=O)C2=C1CCC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 QOFFJEBXNKRSPX-ZDUSSCGKSA-N 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 229940021945 promacta Drugs 0.000 description 4
- 210000000664 rectum Anatomy 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 229960004641 rituximab Drugs 0.000 description 4
- 239000000243 solution Substances 0.000 description 4
- 230000008093 supporting effect Effects 0.000 description 4
- 238000002560 therapeutic procedure Methods 0.000 description 4
- 208000008732 thymoma Diseases 0.000 description 4
- 229960000575 trastuzumab Drugs 0.000 description 4
- 210000004881 tumor cell Anatomy 0.000 description 4
- 229940035893 uracil Drugs 0.000 description 4
- 229960005486 vaccine Drugs 0.000 description 4
- 206010046885 vaginal cancer Diseases 0.000 description 4
- 208000013139 vaginal neoplasm Diseases 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 201000008271 Atypical teratoid rhabdoid tumor Diseases 0.000 description 3
- 201000009030 Carcinoma Diseases 0.000 description 3
- 230000030933 DNA methylation on cytosine Effects 0.000 description 3
- 206010014733 Endometrial cancer Diseases 0.000 description 3
- 206010014759 Endometrial neoplasm Diseases 0.000 description 3
- 206010061252 Intraocular melanoma Diseases 0.000 description 3
- 208000006644 Malignant Fibrous Histiocytoma Diseases 0.000 description 3
- 206010027476 Metastases Diseases 0.000 description 3
- 201000007224 Myeloproliferative neoplasm Diseases 0.000 description 3
- 206010029260 Neuroblastoma Diseases 0.000 description 3
- 208000006265 Renal cell carcinoma Diseases 0.000 description 3
- 238000012300 Sequence Analysis Methods 0.000 description 3
- 208000015778 Undifferentiated pleomorphic sarcoma Diseases 0.000 description 3
- 201000005969 Uveal melanoma Diseases 0.000 description 3
- 241000700605 Viruses Species 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 3
- 208000002458 carcinoid tumor Diseases 0.000 description 3
- 230000000747 cardiac effect Effects 0.000 description 3
- 238000002485 combustion reaction Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 230000001010 compromised effect Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 210000003979 eosinophil Anatomy 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013467 fragmentation Methods 0.000 description 3
- 238000006062 fragmentation reaction Methods 0.000 description 3
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 208000024348 heart neoplasm Diseases 0.000 description 3
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 3
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 3
- 210000003494 hepatocyte Anatomy 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000009545 invasion Effects 0.000 description 3
- 210000000244 kidney pelvis Anatomy 0.000 description 3
- 238000009607 mammography Methods 0.000 description 3
- 208000025189 neoplasm of testis Diseases 0.000 description 3
- 210000000440 neutrophil Anatomy 0.000 description 3
- 238000007481 next generation sequencing Methods 0.000 description 3
- 201000002575 ocular melanoma Diseases 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 229960002087 pertuzumab Drugs 0.000 description 3
- 230000005855 radiation Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 150000003839 salts Chemical class 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000001356 surgical procedure Methods 0.000 description 3
- 229940113082 thymine Drugs 0.000 description 3
- 208000037965 uterine sarcoma Diseases 0.000 description 3
- 230000003612 virological effect Effects 0.000 description 3
- 241000251468 Actinopterygii Species 0.000 description 2
- 206010061424 Anal cancer Diseases 0.000 description 2
- 208000007860 Anus Neoplasms Diseases 0.000 description 2
- 206010003571 Astrocytoma Diseases 0.000 description 2
- 208000011691 Burkitt lymphomas Diseases 0.000 description 2
- 241000282832 Camelidae Species 0.000 description 2
- 241000283707 Capra Species 0.000 description 2
- 108020004635 Complementary DNA Proteins 0.000 description 2
- 208000009798 Craniopharyngioma Diseases 0.000 description 2
- 208000017259 Extragonadal germ cell tumor Diseases 0.000 description 2
- 230000010558 Gene Alterations Effects 0.000 description 2
- 108010033040 Histones Proteins 0.000 description 2
- 206010021042 Hypopharyngeal cancer Diseases 0.000 description 2
- 206010056305 Hypopharyngeal neoplasm Diseases 0.000 description 2
- 208000007766 Kaposi sarcoma Diseases 0.000 description 2
- 206010025557 Malignant fibrous histiocytoma of bone Diseases 0.000 description 2
- 208000032271 Malignant tumor of penis Diseases 0.000 description 2
- 208000002030 Merkel cell carcinoma Diseases 0.000 description 2
- 206010029266 Neuroendocrine carcinoma of the skin Diseases 0.000 description 2
- 108010047956 Nucleosomes Proteins 0.000 description 2
- 108700020796 Oncogene Proteins 0.000 description 2
- 206010061332 Paraganglion neoplasm Diseases 0.000 description 2
- 241001494479 Pecora Species 0.000 description 2
- 208000002471 Penile Neoplasms Diseases 0.000 description 2
- 206010034299 Penile cancer Diseases 0.000 description 2
- 208000007913 Pituitary Neoplasms Diseases 0.000 description 2
- 208000007452 Plasmacytoma Diseases 0.000 description 2
- 208000002151 Pleural effusion Diseases 0.000 description 2
- 208000026149 Primary peritoneal carcinoma Diseases 0.000 description 2
- 208000015634 Rectal Neoplasms Diseases 0.000 description 2
- 208000004337 Salivary Gland Neoplasms Diseases 0.000 description 2
- 206010061934 Salivary gland cancer Diseases 0.000 description 2
- 206010039491 Sarcoma Diseases 0.000 description 2
- 208000031673 T-Cell Cutaneous Lymphoma Diseases 0.000 description 2
- 201000009365 Thymic carcinoma Diseases 0.000 description 2
- IQFYYKKMVGJFEH-XLPZGREQSA-N Thymidine Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 IQFYYKKMVGJFEH-XLPZGREQSA-N 0.000 description 2
- 108020004566 Transfer RNA Proteins 0.000 description 2
- 206010046431 Urethral cancer Diseases 0.000 description 2
- 206010046458 Urethral neoplasms Diseases 0.000 description 2
- 206010047741 Vulval cancer Diseases 0.000 description 2
- 208000004354 Vulvar Neoplasms Diseases 0.000 description 2
- 208000008383 Wilms tumor Diseases 0.000 description 2
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 2
- 239000002671 adjuvant Substances 0.000 description 2
- 201000011165 anus cancer Diseases 0.000 description 2
- 210000001130 astrocyte Anatomy 0.000 description 2
- 210000003719 b-lymphocyte Anatomy 0.000 description 2
- 210000003651 basophil Anatomy 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 210000003445 biliary tract Anatomy 0.000 description 2
- 238000010322 bone marrow transplantation Methods 0.000 description 2
- 238000010804 cDNA synthesis Methods 0.000 description 2
- 230000010261 cell growth Effects 0.000 description 2
- 238000005119 centrifugation Methods 0.000 description 2
- 208000028191 childhood central nervous system germ cell tumor Diseases 0.000 description 2
- 208000028190 childhood germ cell tumor Diseases 0.000 description 2
- 208000013549 childhood kidney neoplasm Diseases 0.000 description 2
- 208000016597 childhood testicular neoplasm Diseases 0.000 description 2
- 208000006990 cholangiocarcinoma Diseases 0.000 description 2
- 108091092240 circulating cell-free DNA Proteins 0.000 description 2
- 238000002052 colonoscopy Methods 0.000 description 2
- 239000002299 complementary DNA Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 201000007241 cutaneous T cell lymphoma Diseases 0.000 description 2
- 208000017763 cutaneous neuroendocrine carcinoma Diseases 0.000 description 2
- 210000001151 cytotoxic T lymphocyte Anatomy 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000028715 ductal breast carcinoma in situ Diseases 0.000 description 2
- 230000001700 effect on tissue Effects 0.000 description 2
- 208000014616 embryonal neoplasm Diseases 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 210000003754 fetus Anatomy 0.000 description 2
- 238000007672 fourth generation sequencing Methods 0.000 description 2
- 210000002980 germ line cell Anatomy 0.000 description 2
- 230000003394 haemopoietic effect Effects 0.000 description 2
- 210000004024 hepatic stellate cell Anatomy 0.000 description 2
- 239000005556 hormone Substances 0.000 description 2
- 229940088597 hormone Drugs 0.000 description 2
- 201000006866 hypopharynx cancer Diseases 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- 210000001865 kupffer cell Anatomy 0.000 description 2
- 210000002429 large intestine Anatomy 0.000 description 2
- 238000012177 large-scale sequencing Methods 0.000 description 2
- 210000002751 lymph Anatomy 0.000 description 2
- 230000003211 malignant effect Effects 0.000 description 2
- 208000006178 malignant mesothelioma Diseases 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000003584 mesangial cell Anatomy 0.000 description 2
- 238000001465 metallisation Methods 0.000 description 2
- 208000037819 metastatic cancer Diseases 0.000 description 2
- 208000011575 metastatic malignant neoplasm Diseases 0.000 description 2
- 208000037970 metastatic squamous neck cancer Diseases 0.000 description 2
- 238000007479 molecular analysis Methods 0.000 description 2
- 210000001616 monocyte Anatomy 0.000 description 2
- 206010051747 multiple endocrine neoplasia Diseases 0.000 description 2
- 230000000869 mutational effect Effects 0.000 description 2
- 201000005962 mycosis fungoides Diseases 0.000 description 2
- 230000002071 myeloproliferative effect Effects 0.000 description 2
- 208000037830 nasal cancer Diseases 0.000 description 2
- 210000003928 nasal cavity Anatomy 0.000 description 2
- 239000013642 negative control Substances 0.000 description 2
- 230000009826 neoplastic cell growth Effects 0.000 description 2
- 201000008026 nephroblastoma Diseases 0.000 description 2
- 210000001623 nucleosome Anatomy 0.000 description 2
- 201000008106 ocular cancer Diseases 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 208000021010 pancreatic neuroendocrine tumor Diseases 0.000 description 2
- 238000009595 pap smear Methods 0.000 description 2
- 208000003154 papilloma Diseases 0.000 description 2
- 208000007312 paraganglioma Diseases 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 208000028591 pheochromocytoma Diseases 0.000 description 2
- 208000010916 pituitary tumor Diseases 0.000 description 2
- 102000040430 polynucleotide Human genes 0.000 description 2
- 108091033319 polynucleotide Proteins 0.000 description 2
- 239000002157 polynucleotide Substances 0.000 description 2
- 208000025638 primary cutaneous T-cell non-Hodgkin lymphoma Diseases 0.000 description 2
- 238000002601 radiography Methods 0.000 description 2
- 206010038038 rectal cancer Diseases 0.000 description 2
- 201000001275 rectum cancer Diseases 0.000 description 2
- 230000014493 regulation of gene expression Effects 0.000 description 2
- 201000007444 renal pelvis carcinoma Diseases 0.000 description 2
- 208000010639 renal pelvis urothelial carcinoma Diseases 0.000 description 2
- 201000009410 rhabdomyosarcoma Diseases 0.000 description 2
- 108020004418 ribosomal RNA Proteins 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 208000020352 skin basal cell carcinoma Diseases 0.000 description 2
- 230000000391 smoking effect Effects 0.000 description 2
- 210000001764 somatotrope Anatomy 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 230000003319 supportive effect Effects 0.000 description 2
- 238000011477 surgical intervention Methods 0.000 description 2
- 206010044412 transitional cell carcinoma Diseases 0.000 description 2
- 208000018417 undifferentiated high grade pleomorphic sarcoma of bone Diseases 0.000 description 2
- 210000000626 ureter Anatomy 0.000 description 2
- 201000007433 ureter carcinoma Diseases 0.000 description 2
- 206010055031 vascular neoplasm Diseases 0.000 description 2
- 201000005102 vulva cancer Diseases 0.000 description 2
- YKBGVTZYEHREMT-KVQBGUIXSA-N 2'-deoxyguanosine Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](CO)O1 YKBGVTZYEHREMT-KVQBGUIXSA-N 0.000 description 1
- GFZMFCVDDFHSJK-UHFFFAOYSA-N 2-(methylideneamino)acetonitrile Chemical compound C=NCC#N GFZMFCVDDFHSJK-UHFFFAOYSA-N 0.000 description 1
- CKTSBUTUHBMZGZ-ULQXZJNLSA-N 4-amino-1-[(2r,4s,5r)-4-hydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-tritiopyrimidin-2-one Chemical compound O=C1N=C(N)C([3H])=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 CKTSBUTUHBMZGZ-ULQXZJNLSA-N 0.000 description 1
- CKOMXBHMKXXTNW-UHFFFAOYSA-N 6-methyladenine Chemical compound CNC1=NC=NC2=C1N=CN2 CKOMXBHMKXXTNW-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 206010003445 Ascites Diseases 0.000 description 1
- 241000271566 Aves Species 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 206010006223 Breast discharge Diseases 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 206010007275 Carcinoid tumour Diseases 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 241000283153 Cetacea Species 0.000 description 1
- 241000251730 Chondrichthyes Species 0.000 description 1
- 208000032544 Cicatrix Diseases 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 241001125840 Coryphaenidae Species 0.000 description 1
- 108091029523 CpG island Proteins 0.000 description 1
- 208000037845 Cutaneous squamous cell carcinoma Diseases 0.000 description 1
- 230000004544 DNA amplification Effects 0.000 description 1
- 102000052510 DNA-Binding Proteins Human genes 0.000 description 1
- 108700020911 DNA-Binding Proteins Proteins 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 208000006168 Ewing Sarcoma Diseases 0.000 description 1
- 201000001342 Fallopian tube cancer Diseases 0.000 description 1
- 208000013452 Fallopian tube neoplasm Diseases 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 201000003741 Gastrointestinal carcinoma Diseases 0.000 description 1
- 206010051066 Gastrointestinal stromal tumour Diseases 0.000 description 1
- 241000282575 Gorilla Species 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- 241001272567 Hominoidea Species 0.000 description 1
- 238000012773 Laboratory assay Methods 0.000 description 1
- 241000282838 Lama Species 0.000 description 1
- 206010023825 Laryngeal cancer Diseases 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 108700011259 MicroRNAs Proteins 0.000 description 1
- 108020005196 Mitochondrial DNA Proteins 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 208000033383 Neuroendocrine tumor of pancreas Diseases 0.000 description 1
- 208000010505 Nose Neoplasms Diseases 0.000 description 1
- 108091005461 Nucleic proteins Proteins 0.000 description 1
- 206010030113 Oedema Diseases 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- 206010031096 Oropharyngeal cancer Diseases 0.000 description 1
- 206010057444 Oropharyngeal neoplasm Diseases 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 241000282579 Pan Species 0.000 description 1
- 206010067517 Pancreatic neuroendocrine tumour Diseases 0.000 description 1
- 208000033014 Plasma cell tumor Diseases 0.000 description 1
- 201000008199 Pleuropulmonary blastoma Diseases 0.000 description 1
- 239000004952 Polyamide Substances 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 241000700159 Rattus Species 0.000 description 1
- 241000282849 Ruminantia Species 0.000 description 1
- 206010041067 Small cell lung cancer Diseases 0.000 description 1
- 208000034254 Squamous cell carcinoma of the cervix uteri Diseases 0.000 description 1
- 241000282887 Suidae Species 0.000 description 1
- LSNNMFCWUKXFEE-UHFFFAOYSA-N Sulfurous acid Chemical compound OS(O)=O LSNNMFCWUKXFEE-UHFFFAOYSA-N 0.000 description 1
- 241000282898 Sus scrofa Species 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 241001416177 Vicugna pacos Species 0.000 description 1
- 108020005202 Viral DNA Proteins 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 210000001789 adipocyte Anatomy 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 210000000411 amacrine cell Anatomy 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003851 biochemical process Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 201000000053 blastoma Diseases 0.000 description 1
- 210000001772 blood platelet Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 210000004958 brain cell Anatomy 0.000 description 1
- 210000000621 bronchi Anatomy 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 210000004413 cardiac myocyte Anatomy 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000006037 cell lysis Effects 0.000 description 1
- 210000003850 cellular structure Anatomy 0.000 description 1
- 210000000250 cementoblast Anatomy 0.000 description 1
- 201000007455 central nervous system cancer Diseases 0.000 description 1
- 208000025997 central nervous system neoplasm Diseases 0.000 description 1
- 210000000782 cerebellar granule cell Anatomy 0.000 description 1
- 201000006612 cervical squamous cell carcinoma Diseases 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 208000019772 childhood adrenal gland pheochromocytoma Diseases 0.000 description 1
- 208000011654 childhood malignant neoplasm Diseases 0.000 description 1
- 210000003737 chromaffin cell Anatomy 0.000 description 1
- 239000012468 concentrated sample Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000009089 cytolysis Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 210000004443 dendritic cell Anatomy 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003599 detergent Substances 0.000 description 1
- 230000001079 digestive effect Effects 0.000 description 1
- 238000003113 dilution method Methods 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 201000008184 embryoma Diseases 0.000 description 1
- 210000002889 endothelial cell Anatomy 0.000 description 1
- 210000002322 enterochromaffin cell Anatomy 0.000 description 1
- 238000006911 enzymatic reaction Methods 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 230000004049 epigenetic modification Effects 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 230000002550 fecal effect Effects 0.000 description 1
- 230000001605 fetal effect Effects 0.000 description 1
- 210000003918 fraction a Anatomy 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 210000000232 gallbladder Anatomy 0.000 description 1
- 210000002618 gastric chief cell Anatomy 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 230000001434 glomerular Effects 0.000 description 1
- 210000002175 goblet cell Anatomy 0.000 description 1
- 201000003911 head and neck carcinoma Diseases 0.000 description 1
- 210000002216 heart Anatomy 0.000 description 1
- 201000010235 heart cancer Diseases 0.000 description 1
- 210000005003 heart tissue Anatomy 0.000 description 1
- 210000002443 helper t lymphocyte Anatomy 0.000 description 1
- 230000002440 hepatic effect Effects 0.000 description 1
- 125000000623 heterocyclic group Chemical group 0.000 description 1
- 210000005260 human cell Anatomy 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 230000006607 hypermethylation Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000000126 in silico method Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 201000002313 intestinal cancer Diseases 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000011901 isothermal amplification Methods 0.000 description 1
- 210000002510 keratinocyte Anatomy 0.000 description 1
- 210000001756 lactotroph Anatomy 0.000 description 1
- 206010023841 laryngeal neoplasm Diseases 0.000 description 1
- 210000004698 lymphocyte Anatomy 0.000 description 1
- 210000003126 m-cell Anatomy 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 210000002540 macrophage Anatomy 0.000 description 1
- 210000001730 macula densa epithelial cell Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000003593 megakaryocyte Anatomy 0.000 description 1
- 210000002752 melanocyte Anatomy 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 229940028444 muse Drugs 0.000 description 1
- 201000006462 myelodysplastic/myeloproliferative neoplasm Diseases 0.000 description 1
- 210000000581 natural killer T-cell Anatomy 0.000 description 1
- 210000000822 natural killer cell Anatomy 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 210000000944 nerve tissue Anatomy 0.000 description 1
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 201000006958 oropharynx cancer Diseases 0.000 description 1
- 210000000963 osteoblast Anatomy 0.000 description 1
- 210000002997 osteoclast Anatomy 0.000 description 1
- 208000021284 ovarian germ cell tumor Diseases 0.000 description 1
- 210000001711 oxyntic cell Anatomy 0.000 description 1
- 210000003695 paranasal sinus Anatomy 0.000 description 1
- 208000022775 paranasal sinus carcinoma Diseases 0.000 description 1
- 230000000849 parathyroid Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 235000014594 pastries Nutrition 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 210000001777 peritubular myoid cell Anatomy 0.000 description 1
- 210000002826 placenta Anatomy 0.000 description 1
- 208000010626 plasma cell neoplasm Diseases 0.000 description 1
- 210000000557 podocyte Anatomy 0.000 description 1
- 229920002647 polyamide Polymers 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 210000001948 pro-b lymphocyte Anatomy 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- GMVPRGQOIOIIMI-DWKJAMRDSA-N prostaglandin E1 Chemical compound CCCCC[C@H](O)\C=C\[C@H]1[C@H](O)CC(=O)[C@@H]1CCCCCCC(O)=O GMVPRGQOIOIIMI-DWKJAMRDSA-N 0.000 description 1
- 125000000714 pyrimidinyl group Chemical group 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 210000003289 regulatory T cell Anatomy 0.000 description 1
- 210000005084 renal tissue Anatomy 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 210000001995 reticulocyte Anatomy 0.000 description 1
- 210000003569 retinal bipolar cell Anatomy 0.000 description 1
- 210000003994 retinal ganglion cell Anatomy 0.000 description 1
- 210000003432 retinal horizontal cell Anatomy 0.000 description 1
- 210000001164 retinal progenitor cell Anatomy 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 231100000241 scar Toxicity 0.000 description 1
- 230000037387 scars Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 238000013207 serial dilution Methods 0.000 description 1
- 210000000717 sertoli cell Anatomy 0.000 description 1
- 210000003491 skin Anatomy 0.000 description 1
- 201000010106 skin squamous cell carcinoma Diseases 0.000 description 1
- 208000000587 small cell lung carcinoma Diseases 0.000 description 1
- 201000002314 small intestine cancer Diseases 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000004936 stimulating effect Effects 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 210000002435 tendon Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 210000002014 trichocyte Anatomy 0.000 description 1
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
- 238000010451 viral insertion Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000007482 whole exome sequencing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Analytical Chemistry (AREA)
- Organic Chemistry (AREA)
- Genetics & Genomics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Immunology (AREA)
- Wood Science & Technology (AREA)
- Pathology (AREA)
- Zoology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Microbiology (AREA)
- Oncology (AREA)
- Hospice & Palliative Care (AREA)
- Biochemistry (AREA)
- Probability & Statistics with Applications (AREA)
- General Physics & Mathematics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
癌状態を識別または示すメチル化パターンを同定するシステムおよび方法が提供される。第1および第2のデータセットが得られる。各データセットは、対象の第1または第2のセットから得られ、対応する複数のCpG部位における各CpG部位のメチル化状態を含む核酸のメチル化配列決定によって決定される複数の断片メチル化パターンを含む。複数対象の各々は、癌状態の各第1または第2の状態を有する。第1および第2の間隔マップは、各データセットごとに生成され、それぞれは、開始メチル化部位、終了メチル化部位、各異なる断片メチル化パターンの表現および断片のカウントを特徴とする複数のノードを含む。第1および第2の間隔マップは、CpG部位の所定の範囲における適格なメチル化パターンについてスキャンされ、1または複数の選択基準を満たし、それによって癌状態を識別するメチル化パターンを同定する。
Description
関連出願の相互参照
本出願は、参照により本明細書に組み込まれる、2020年2月28日に出願された「癌状態を識別または指示するメチル化パターンの同定」と題する米国仮特許出願第62/983,443号の優先権を主張する。
本出願は、参照により本明細書に組み込まれる、2020年2月28日に出願された「癌状態を識別または指示するメチル化パターンの同定」と題する米国仮特許出願第62/983,443号の優先権を主張する。
本明細書は、一般に、癌状態を識別または示すメチル化パターンを同定するために、生物学的試料においてメチル化パターンを使用することに関する。
がんの早期発見は、がんの転帰を改善する最も人間的な方法の1つである。現状の治療-固形腫瘍に対する手術、化学療法と放射線の組み合わせ、または液状腫瘍に対する化学療法と骨髄移植-には、生存率が不十分であるなどの欠点がある。治療はしばしば患者を疼痛のままにし、一方で生存期間の不十分な量を提供する。新しい免疫療法にも欠点がある。患者は集中治療室で治療されなければならず、しばしば致死的な副作用がある。このような治療法はいずれも、がんが早期に発見されれば、より効果的である。
より良い治療法と癌診断法を開発するために、癌の単一突然変異の探索に資源が投入されてきた。この方法は「精度腫瘍学」として知られる一般的な医学的取り組みに発展してきた。この取り組みでは、細胞の制御不能な成長の原因となる重要な薬剤感受性変異を同定するために、腫瘍の塩基配列を決定する。例えば、米国国立がん研究所が主導する臨床試験イニシアチブ「治療選択のための分子解析」(MATCH)は、2015年に開始された。この試験には30以上の治療群がある。この試験で検査されたより一般的な腫瘍の中で、既存の薬物で対処可能な「実行可能である」突然変異が、せいぜい15%の症例で発見された。もっと大きな失望は、突然変異を薬剤と対合させても結果が保証されなかったことである-適合した患者の3分の1のみが治療に反応し、その反応の半分は6カ月以内に消失した。精度の高い腫瘍学の追求が進行中であるが、現在までの結果は、ほとんどのがんはこのような縮小主義的アプローチで対処するにはあまりにも複雑すぎることを示している。
より良い治療法と癌診断法を開発するために、癌の単一突然変異の探索に資源が投入されてきた。この方法は「精度腫瘍学」として知られる一般的な医学的取り組みに発展してきた。この取り組みでは、細胞の制御不能な成長の原因となる重要な薬剤感受性変異を同定するために、腫瘍の塩基配列を決定する。例えば、米国国立がん研究所が主導する臨床試験イニシアチブ「治療選択のための分子解析」(MATCH)は、2015年に開始された。この試験には30以上の治療群がある。この試験で検査されたより一般的な腫瘍の中で、既存の薬物で対処可能な「実行可能である」突然変異が、せいぜい15%の症例で発見された。もっと大きな失望は、突然変異を薬剤と対合させても結果が保証されなかったことである-適合した患者の3分の1のみが治療に反応し、その反応の半分は6カ月以内に消失した。精度の高い腫瘍学の追求が進行中であるが、現在までの結果は、ほとんどのがんはこのような縮小主義的アプローチで対処するにはあまりにも複雑すぎることを示している。
実際、ほとんどの一般的な癌ははるかに交絡因子であり、臨床試験中の癌治療薬の95%までが米食品医薬品局(FDA)の承認を得られない。他の5%では、多くの患者が数カ月しか生存率を改善せず、治療を受けた患者の一部で生存率が改善する。
上記の欠点はまた、早期発見の必要性を強調する。しかし、現在のスクリーニング検査は不十分である。マンモグラフィー、大腸内視鏡検査、Papスミアおよび前立腺特異抗原(PSA)の検査などの監視方法が数十年にわたって使用されてきたが、すべてが一様に成功しているわけではない。癌の中には、進行が非常に遅いために他の何かで死亡する可能性が高いものもあれば、治癒するには遅すぎるまで発見患者ない危険な腫瘍もある。さらに、現在までのところ、肺がんを含む多数の癌に対して十分なスクリーニング検査は利用できない。
上記の欠点はまた、早期発見の必要性を強調する。しかし、現在のスクリーニング検査は不十分である。マンモグラフィー、大腸内視鏡検査、Papスミアおよび前立腺特異抗原(PSA)の検査などの監視方法が数十年にわたって使用されてきたが、すべてが一様に成功しているわけではない。癌の中には、進行が非常に遅いために他の何かで死亡する可能性が高いものもあれば、治癒するには遅すぎるまで発見患者ない危険な腫瘍もある。さらに、現在までのところ、肺がんを含む多数の癌に対して十分なスクリーニング検査は利用できない。
このようなスクリーニング検査を開発するためには、癌細胞の「バイオマーカー」を定義する必要がある。これらは、がん細胞が放出する遺伝物質の鎖など、ほとんど何でもあります。米国国立癌研究所は、このようなバイオマーカーが癌の最も初期の足跡を提供するだけでなく、進行性腫瘍と寿命を脅かさない腫瘍を分離するのに役立つことを期待して、大規模なイニシアチブを支援している。生体分子配列決定の進歩は、特に核酸試料に関して、細胞および分子生物学の分野に革命をもたらし、上記バイオマーカーを発見するための有望な技術を提供する。自動配列決定システムの開発により促進され、現在では全ゲノムの配列決定が可能となっている。
バイオマーカーを見つけるための1つの特別なアプローチは、異常なDNAメチル化パターンを同定するためにこのような配列決定を用いることである。DNAメチル化は遺伝子発現の調節に重要な役割を果たしている。異常なDNAメチル化は、癌を含む多くの疾患過程に関与しており、メチル化の比パターンは、特定の癌状態と関連することが決定されている。例えば、Jones、2002、Oncogene 21:5358-5360; Paska and Hudler、2015、Biochemia Medica 25(2):161-176、およびDu et al.、2010、BMC Bioinformatics 11:587、doi:10.1186/1471-2105-11-587を参照されたい。さらに、メチル化パターンは、対象における癌状態(例えば、癌のタイプ、癌の段階、癌の有無)を分類するために用いることができる。メチル化配列決定(例えば、全ゲノム亜硫酸水素配列決定(WGBS))を用いたDNAメチル化プロファイリングは、癌の検出、診断、および/またはモニタリングのための有用な診断ツールとしてますます認識されている。例えば、差次的にメチル化された領域および/または対立遺伝子特異的メチル化パターンの特異的パターンは、循環無細胞DNAを用いた非侵襲的診断のための分子マーカーとして有用であり得る。例えば、Warton and Sami、2015、Front Mol Biosci、2(13) doi: 10.3389/fmolb.2015.00013を参照のこと。
新たな配列決定技術により、メチル化シークエンシングを含む大規模なシークエンシングが可能になったが、これらの新たな配列決定技術により、シークエンシングされているゲノムの数と複雑さが相応に増加している。大量の高忠実度核酸配列が現在得られるが、これらの配列を利用して生物学的洞察を得、疾患の検出および診断に情報を与えるには、多くの問題が残っている。
上記の背景を考慮すると、ますます複雑で大規模な核酸配列決定データを使用してバイオマーカーを同定するための改良されたアプローチが当技術分野において必要とされている。さらに、このようなバイオマーカーを用いて、ゲノムにわたる複雑な生体情報パターンおよび非線形性をモデル化および推論し、したがって癌などの疾患の検出、診断、および/またはモニタリングのための試験を開発する改良された方法が、当技術分野において必要とされている。
本開示は、核酸試料を用いて被験体から得られた生体試料中の癌状態(例えば、複数の適格なメチル化パターン、所定数のCpG部位である長さ、またはCpG数範囲)を識別または発明複数の適格なメチル化パターンを同定するためのロバストな技術を提供することによって、背景技術において同定された欠点に対処する。全ゲノム、または標的ゲノム、シーケンシングデータとメチル化データとの組み合わせ、および特定のゲノム領域に対応するメチル化パターンを表すためのノードを含む間隔地図の使用は、従来の同定方法を超える追加の診断および分析能力を提供する。
癌状態を識別または示すメチル化パターンを同定することにより、上記で同定された問題に対処するための技術的解決策(例えば、コンピューティングシステム、方法、および非一時的コンピュータ可読記憶媒体)が、本開示において提供される。
以下に、本発明のいくつかの態様の基本的な理解を提供するために、本発明の概要を示す。この発明の概要は、本発明の広い概観ではない。本発明の重要/重要な要素を特定すること、または本発明の範囲を明確にすることは意図されていない。その唯一の目的は、本発明の概念のいくつかを、後に提示されるより詳細な説明の前置きとして、簡略化された形態で提示することである。
本開示の一態様は、1つまたは複数のプロセッサを有するコンピュータシステムにおいて、癌状態を識別または発明複数の適格なメチル化パターンを同定する方法、および1つまたは複数のプロセッサによる実行のための1つまたは複数のプログラムを記憶するメモリを提供する。この方法は、第1のデータセットを電子形式で取得することを含み、ここで、第1のデータセットは、第1の複数のフラグメント中の各フラグメントの対応するフラグメントメチル化パターンを含む。それぞれのフラグメントの対応するフラグメントメチル化パターンは、1つ以上の対象の第1のセット中の対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態を含む。いくつかの実施形態において、第1の複数のフラグメントは、100を超えるフラグメント、500を超えるフラグメント、1000を超えるフラグメント、10,000を超えるフラグメント、100,000を超えるフラグメント、500,000を超えるフラグメント、100万を超えるフラグメント、1000万を超えるフラグメント、または1億を超えるフラグメントを含む。
本方法は、第2のデータセットを電子形式で取得することをさらに含み、第2のデータセットは、第2の複数の断片中の各断片の対応する断片メチル化パターンを含む。それぞれのフラグメントの対応するフラグメントメチル化パターンは、対象の第2のセット中の対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態を含む。1人以上の被験体の第1セットの各被験体は、癌状態の第1の状態を有し、第2セットの被験体の各被験体は、癌状態の第2の状態を有する。いくつかの実施態様において、第2の複数のフラグメントは、100を超えるフラグメント、500を超えるフラグメント、1000を超えるフラグメント、10,000を超えるフラグメント、100,000を超えるフラグメント、500,000を超えるフラグメント、100万を超えるフラグメント、1000万を超えるフラグメント、又は1億を超えるフラグメントを含む。
この方法は、第1のデータセットを使用して、1つ以上の対応するゲノム領域について1つ以上の第1の状態間隔地図を生成することをさらに含む。1つ以上の第1の状態間隔地図内の各第1の状態間隔地図は、対応する独立した複数のノードを備える。いくつかの実施形態では、対応する独立した複数のノードは、50個以上のノード、100個以上のノード、500個以上のノード、1000個以上のノード、10,000個以上のノード、100,000個以上のノード、100万個以上のノード、または100万個以上のノードを含む。1つまたは複数の第1の状態区間地図内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する端部メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する端部メチル化部位との間の第1のデータセット内の第1の複数の断片にわたって観察されるそれぞれの異なる断片メチル化パターンに関して、異なる断片メチル化パターンの表現、および第1のデータセット内の断片のカウントであって、断片メチル化パターンが対応する開始メチル化部位で開始し、対応する端部メチル化部位で端部し、異なる断片メチル化パターンを有する断片のカウントを特徴とする。
この方法は、第2のデータセットを使用して、1つまたは複数の対応するゲノム領域について1つまたは複数の第2の状態間隔地図を生成することをさらに含む。1つ以上の第2の状態間隔マップ内の各第2の状態間隔マップは、対応する独立した複数のノードを備える。いくつかの実施形態では、対応する独立した複数のノードは、50個以上のノード、100個以上のノード、500個以上のノード、1000個以上のノード、10,000個以上のノード、100,000個以上のノード、100万個以上のノード、または100万個以上のノードを含む。1つまたは複数の第2の状態区間地図内のそれぞれの対応する独立した複数のノード内のそれぞれのノードは、対応する開始メチル化部位、対応する端部メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する端部メチル化部位との間の第2のデータセット内の第2の複数のフラグメントにわたって観察されるそれぞれの異なるフラグメントメチル化パターンに関して、異なるフラグメントメチル化パターンの表現、および第2のデータセット内のフラグメントメチル化パターンのカウントであって、フラグメントメチル化パターンが対応する開始メチル化部位で開始し、対応する端部メチル化部位で端部し、異なるフラグメントメチル化パターンを有するフラグメントのカウントを特徴とする。
この方法はさらに、複数の適格なメチル化パターン(またはQMP)について、1つ以上の第1の間隔地図および1つ以上の第2の間隔地図をスキャンすることを含み、このようなメチル化パターンの各々は、所定のCpG部位数範囲(例えば、5の長さは、5つのCpG部位を指し、好ましくは、同一の核酸断片上に隣接する;本明細書に開示される典型的な適格なメチル化パターンは、5つのCpG部位と20のCpG部位との間を含む)にある長さを有する。このようなメチル化パターンは、1つ以上の第1の間隔地図および1つ以上の第2の間隔地図の断片メチル化パターン内にある。いくつかの実施形態において、所定のCpG部位数範囲は、異なる長さの適格なメチル化パターン(またはQMP)のセットを含み、例えば、セット内の長さは、3つのCpG部位と50のCpG部位との間、4つのCpG部位と30のCpG部位との間、または5つのCpG部位と25のCpG部位との間を含むことができる。いくつかの態様において、所定のCpG部位数範囲は、単一のCpG数(例えば、l、対応する初期CpG部位と対応する最終CpG部位との間のCpG間隔lの長さ、しばしば初期CpG部位で始まり、最終CpG部位で終わるCpG部位の数であり得る)である。いくつかの態様において、複数の適格性メチル化パターンにおける各適格性メチル化パターンは、対応する初期CpG部位と対応する最終CpG部位との間の対応する長さlに及ぶ。このようにして、癌状態を識別または示す複数の適格なメチル化パターンが同定される。いくつかの実施形態において、複数の適格性メチル化パターンは、(例えば、長さ要件に加えて)1つまたは複数の選択基準をさらに満たす。
いくつかの実施形態では、1つまたは複数の選択基準は、メチル化パターンが、第1の周波数閾値を満たす第1の周波数を有する1つまたは複数の第1の間隔地図内に表され、第1の状態深さ閾値を満たすカバレッジを有する1つまたは複数の第1の間隔地図内に表され、第2の周波数閾値を満たす第2の周波数を有する1つまたは複数の第2の間隔地図内に表されることを指定する。
いくつかの上記実施形態では、メチル化パターンは、1つまたは複数の第1の間隔地図内のメチル化パターンの周波数が第1の周波数閾値を超える場合に第1の周波数閾値を満たす第1の周波数を有する1つまたは複数の第1の間隔地図内に表され、メチル化パターンは、1つまたは複数の第1の間隔地図内のメチル化パターンの被覆率が第1の状態深さ閾値を超える場合に第1の状態深さ閾値を満たす被覆率を有する1つまたは複数の第1の間隔地図内に表され、メチル化パターンは、1つまたは複数の第2の間隔地図内のメチル化パターンの周波数が第2の周波数閾値を下回る場合に第2の周波数閾値を満たす第2の周波数を有する1つまたは複数の第2の間隔地図内に表される。
このようないくつかの実施形態では、第1の周波数閾値は0.2であり、第1の状態深さ閾値は10であり、第2の周波数閾値は0.001である。
いくつかの実施形態において、それぞれのメチル化パターンは、式の際に、1つまたは複数の選択基準を満たす:
いくつかの実施形態において、それぞれのメチル化パターンは、式の際に、1つまたは複数の選択基準を満たす:
メチル化パターンについては、3、4、5または6を超え、ここで、第2のカウントは、1つまたは複数の第2の状態間隔地図におけるそれぞれのメチル化パターンのカウントであり、第2の状態深さは、1つまたは複数の第2の状態間隔地図におけるそれぞれのメチル化パターンによって表されるゲノムの領域における第2のデータセットによるカバレッジである。
いくつかの実施形態において、本方法は、第1および第2のデータセット中の複数の適格性メチル化パターンに関連するメチル化パターン情報を用いて、癌状態の状態を識別または示す分類器を訓練することをさらに含む。いくつかの上記実施形態では、訓練は、無細胞核酸メチル化データから生殖細胞系変異をスクリーニングするために腫瘍生検に個々に適合された、個々の被験体(各々が第1または第2の状態を有する)からの無細胞核酸メチル化データなどの追加のデータセットを使用することを含むことができる。他の実施形態では、訓練は、個々の被験体からの無細胞核酸メチル化データのような、第1または第2の状態を各有する追加のデータセットを含むことができ、これらのデータセットは、腫瘍生検に個々にマッチングされておらず、したがって、生殖細胞系突然変異は、腫瘍のマッチングに基づいてスクリーニングされていない。
いくつかの実施形態において、本方法は、第1および第2のデータセット中の複数の適格性メチル化パターンに関連するメチル化パターン情報を用いて、癌状態の状態を識別するための分類器を訓練することをさらに含む。
いくつかの上記実施形態では、分類器はロジスティック回帰である。いくつかの実施形態では、分類器は、ニューラルネットワークアルゴリズム、支持、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、または線形回帰アルゴリズムである。
いくつかの上記実施形態では、分類器はロジスティック回帰である。いくつかの実施形態では、分類器は、ニューラルネットワークアルゴリズム、支持、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、または線形回帰アルゴリズムである。
いくつかの実施形態において、本方法は、第3のデータセットを電子形態で取得することをさらに含み、第3のデータセットは、第3の複数の断片中のそれぞれの断片の対応する断片メチル化パターンを含む。それぞれのフラグメントの対応するフラグメントメチル化パターンは、試験対象から得られた生物学的試料からの核酸のメチル化配列決定によって決定され、それぞれのフラグメント中の対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態を含む。この方法は、さらに、第3のデータセット中の第3の複数の断片中のそれぞれの断片の断片メチル化パターンを、複数の適格なメチル化パターン中の適格なメチル化パターンを包含するか、またはそれに対応する、断片メチル化パターンを分類器に適用することを含み、それによって、試験対象における癌状態の状態を決定する。
いくつかの実施形態において、癌状態の状態は、腫瘍分画であり、癌状態の第1の状態は、腫瘍分画の第1の範囲であり、癌状態の第2の状態は、腫瘍分画の第2の範囲である。
いくつかの上記実施形態では、第1の範囲は0.001より大きく、第2の範囲は0.001未満である。
いくつかの代替的な実施形態では、がん状態の状態は腫瘍分率であり;第3のデータセットを取得および適用することは、経時的に繰り返し行われる。
いくつかの実施形態において、癌状態は、癌の非存在または存在である。いくつかの実施形態では、癌状態は癌の病期である。
開示された実施形態のいくつかにおいて、がんは、副腎臓がん、胆道がん、膀胱がん、骨/骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道のがん、胃がん、頭頸部がん、肝胆道がん、腎臓がん、肝臓がん、肺がん、卵巣がん、膵がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、多発性骨髄腫、白血病、またはこれらの組み合わせである。
いくつかの実施形態において、被験体から得られる生物学的試料は、液体生物学的試料である。いくつかの上記態様において、第3の複数の断片は、無細胞核酸である。
開示された実施形態のいくつかにおいて、がんは、副腎臓がん、胆道がん、膀胱がん、骨/骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道のがん、胃がん、頭頸部がん、肝胆道がん、腎臓がん、肝臓がん、肺がん、卵巣がん、膵がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、多発性骨髄腫、白血病、またはこれらの組み合わせである。
いくつかの実施形態において、被験体から得られる生物学的試料は、液体生物学的試料である。いくつかの上記態様において、第3の複数の断片は、無細胞核酸である。
いくつかの実施形態において、第1および第2の複数の断片は、無細胞核酸である。
いくつかの実施形態では、1つまたは複数の第1の状態間隔地図は、単一の第1の状態間隔地図から構成され、1つまたは複数の第2の状態間隔地図は、単一の第2の状態間隔地図から構成される。
いくつかの実施形態において、1つまたは複数の第1の状態間隔地図は、複数の第1の状態間隔地図を含むか、またはそれらであり;1つまたは複数の第2の状態間隔地図は、複数の第2の状態間隔地図を含むか、またはそれらであり;1つまたは複数の対応するゲノム領域は、複数のゲノム領域を含むか、またはそれらである。例えば、複数のゲノム領域内のそれぞれのゲノム領域は、第1の複数の区間地図内の第1の状態区間地図および第2の複数の区間地図内の第2の状態区間地図によって表される。いくつかの実施形態において、複数のゲノム領域は、10~30である。いくつかの実施形態において、複数のゲノム領域の各ゲノム領域は、異なるヒト染色体である。いくつかの実施形態において、複数のゲノム領域は、2~1000のゲノム領域、500~5000のゲノム領域、1000~20,000のゲノム領域、または5000~50,000のゲノム領域からなる。いくつかの実施形態において、第1のデータセットを得ることおよび第2のデータセットを得ることのメチル化配列決定は、複数のプローブを用いた標的配列決定であり、複数のゲノム領域内の各ゲノム領域は、複数のプローブ内のプローブに関連付けられる。
いくつかの実施形態において、1つまたは複数の第1の状態間隔地図は、複数の第1の状態間隔地図を含むか、またはそれらであり;1つまたは複数の第2の状態間隔地図は、複数の第2の状態間隔地図を含むか、またはそれらであり;1つまたは複数の対応するゲノム領域は、複数のゲノム領域を含むか、またはそれらである。例えば、複数のゲノム領域内のそれぞれのゲノム領域は、第1の複数の区間地図内の第1の状態区間地図および第2の複数の区間地図内の第2の状態区間地図によって表される。いくつかの実施形態において、複数のゲノム領域は、10~30である。いくつかの実施形態において、複数のゲノム領域の各ゲノム領域は、異なるヒト染色体である。いくつかの実施形態において、複数のゲノム領域は、2~1000のゲノム領域、500~5000のゲノム領域、1000~20,000のゲノム領域、または5000~50,000のゲノム領域からなる。いくつかの実施形態において、第1のデータセットを得ることおよび第2のデータセットを得ることのメチル化配列決定は、複数のプローブを用いた標的配列決定であり、複数のゲノム領域内の各ゲノム領域は、複数のプローブ内のプローブに関連付けられる。
いくつかの実施形態では、1つまたは複数の第1の区間地図内のそれぞれの区間地図の対応する独立した複数のノードは、1つまたは複数の対応するゲノム領域内の対応する領域を表す対応するツリーとして配置され、それぞれの区間地図に対する対応する独立した複数のノード内のそれぞれのノードは、対応するゲノム領域のサブ領域を表す。
いくつかのこのような実施形態では、対応する各ツリーは、対応する複数のリーフのそれぞれのリーフの親ノードが1つ以上の子ノードを参照する対応する複数のリーフに対応する複数のノードを配置し、走査は複数のクエリを生成し、複数のクエリ内のそれぞれのクエリは、長さlの異なる候補の解釈パターンのために使用され、複数のクエリ内のそれぞれのクエリは、対応するツリーの対応する独立した複数のノード内のそれぞれのノードでそれぞれのクエリとのマッチメーキングを実行し、さらに、それぞれのクエリをそれぞれのノードの子ノードに対してさらにマッチメーキングするために、それぞれのノードの子ノードにクエリを伝播し、それぞれのマッチメーキングの結果をそれぞれのノードの親ノードに配信する。いくつかの上記実施形態では、木は、ランダム化表面積発見的を有するKd木の一次元版である。いくつかの上記実施形態では、長さlの各可能なメチル化パターンは、複数のクエリによってサンプリングされる。
いくつかの実施形態において、所定のCpG部位数範囲は、単一の所定数のCpG部位である。いくつかの実施形態において、CpG部位の単一の所定数は、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、または50個までのCpG部位である。いくつかの実施形態において、所定のCpG部位数範囲は、隣接するCpG部位に関するものである。いくつかの態様において、所定のCpG部位数範囲は、単一の所定数の連続するCpG部位である。いくつかの実施形態では、所定数の連続するCpG部位は、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、または50以上の連続するCpG部位である。いくつかの実施形態において、所定のCpG部位数範囲は、ヒト参照ゲノム中の2~100の連続するCpG部位である。
いくつかの実施形態において、1つまたは複数の対象の第1のセットにおける対応する対象からのそれぞれの生物学的試料のメチル化配列決定は、第1のデータセットに含まれるメチル化パターンについて評価される、10億個以上、20億個以上、30億個以上、40億個以上、50億個以上、60億個以上、70億個以上、80億個以上、90億個以上、または100億個以上のフラグメントを生成する。いくつかの実施形態において、1つ以上の対象の第1のセットにおける対応する対象からのそれぞれの生物学的試料のメチル化配列決定は、第1のデータセットに含まれるメチル化パターンについて評価される10億未満のフラグメントまたは10,000未満のフラグメントを生成する。
いくつかの実施形態において、10,000を超えるCpG部位、25,000を超えるCpG部位、50,000を超えるCpG部位、80,000を超えるCpG部位、100,000を超えるCpG部位、150,000を超えるCpG部位、200,000を超えるCpG部位、300,000を超えるCpG部位、400,000を超えるCpG部位、500,000を超えるCpG部位、600,000を超えるCpG部位、700,000を超えるCpG部位、800,000を超えるCpG部位、900,000を超えるCpG部位、1,000,000を超えるCpG部位、1,200,000を超えるCpG部位、1,800,000を超えるCpG部位、1,800,000を超えるCpG部位、または2,000,000を超えるCpG部位が1つ以上の対応するゲノム領域にわたって存在する。いくつかの実施形態では、1以上の対応するゲノム領域にわたって、10,000未満のCpG部位、25,000未満のCpG部位、50,000未満のCpG部位、80,000未満のCpG部位、100,000未満のCpG部位、150,000未満のCpG部位、20万未満のCpG部位、200,000未満のCpG部位、300,000未満のCpG部位、400,000未満のCpG部位、500,000未満のCpG部位、700,000未満のCpG部位、800,000未満のCpG部位、900,000未満のCpG部位、1,000,000未満のCpG部位、1,200,000未満のCpG部位、1,500,000未満のCpG部位、1,800,000未満のCpG部位、または2,000,000未満のCpG部位が存在する。
いくつかの実施形態において、対応する複数の配列読み取りの平均配列読み取り長は、それぞれの断片についてのメチル化配列決定によって得られた100~300ヌクレオチド、例えば140~280ヌクレオチドである。
いくつかの実施形態において、対応する複数の配列読み取りの平均配列読み取り長は、それぞれの断片についてのメチル化配列決定によって得られた100~300ヌクレオチド、例えば140~280ヌクレオチドである。
いくつかの実施形態において、1以上の対応するゲノム領域の各ゲノム領域は、ヒトゲノム参照配列の500塩基対から10,000塩基対の間を表す。いくつかの実施形態において、1以上の対応するゲノム領域の各ゲノム領域は、ヒトゲノム参照配列の500塩基対から2000塩基対の間を表す。いくつかの実施形態において、1以上の対応するゲノム領域の各ゲノム領域は、ヒトゲノム参照配列の異なる部分を表す。いくつかの実施形態において、1つまたは複数の対応するゲノム領域は、ヒトゲノム参照配列の最大100万塩基対(Mb)、2Mb、3Mb、5Mb、8Mb、10Mb、12Mb、15Mb、20Mb、25Mb、30Mb、40Mb、または50Mbを集合的に含む。
いくつかの態様において、対応する複数のCpG部位におけるCpG部位のメチル化状態は、CpG部位がメチル化されるメチル化配列決定によって決定されるときにメチル化され、CpG部位がメチル化されないメチル化配列決定によって決定されるときに非メチル化される。いくつかの態様において、メチル化配列決定は、複数の核酸プローブを用いた全ゲノムメチル化配列決定または標的DNAメチル化配列決定である。いくつかの態様において、メチル化配列決定は、それぞれのフラグメント中の1つ以上の5-メチルシトシン(5mC)および/または5-ヒドロキシメチルシトシン(5hmC)を検出する。いくつかの態様において、メチル化配列決定は、1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンの対応する1つ以上のウラシルへの変換を含む。いくつかの実施形態において、1つまたは複数のウラシルは、メチル化配列決定の間に、1つまたは複数の対応するチミンとして検出される。いくつかの態様において、1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンの変換は、化成処理、酵素変換、またはそれらの組み合わせを含む。
いくつかの態様において、それぞれの生物学的試料は、血液試料である。いくつかの態様において、それぞれの生物学的試料は、血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙液、胸膜液、心嚢液、または腹膜液を含む。
いくつかの実施形態において、がん条件は、被験体中の腫瘍分率であり、第1の被験体セットは、被験体から成り、がん条件の第1の状態は、被験体中の腫瘍分率であり、がん条件の第2の状態は、がんの非存在であり、およびがん被験体の第2のセットは、複数のがんを有さない被験体である。いくつかの実施形態において、本方法は、複数の適格なメチル化パターンを使用して、試験対象における腫瘍分率を決定することをさらに含む。いくつかの実施形態において、本方法は、さらに、試験対象について決定された腫瘍分率に基づいて、試験対象を処置することを含む。いくつかの実施形態において、本方法は、さらに、試験対象について決定された腫瘍分率に基づいて、試験対象の進行中の治療計画を調整することを含む。
いくつかの実施形態において、がん状態の第1の状態は被験体に特有であり、第1のセットの被験体は被験体から成り、がん状態の第2の状態はがんの非存在であり、そして第2のセットのがん被験体は複数のがんのない被験体である。いくつかの実施形態において、本方法は、複数の適格性メチル化パターンを用いて、被験者におけるがん状態の第1の状態を定量することをさらに含む。いくつかの実施形態において、本方法は、さらに、被験者におけるがん状態の第1の状態の定量に基づいて、被験者を治療することを含む。いくつかの実施形態において、方法は、被験者におけるがん状態の第1の状態の定量に基づいて、被験者の進行中の治療計画を調整することをさらに含む。いくつかの実施形態において、被験体は、副腎臓がん、胆道がん、膀胱がん、骨/骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道のがん、胃がん、頭頸部がん、肝胆道がん、腎臓がん、肝臓がん、肺がん、卵巣がん、膵がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、多発性骨髄腫、または白血病を有する。
いくつかの実施形態において、癌状態は、癌の有無であり、対象の第1のセットは、第1の複数の対象を含み、癌状態の第1の状態は、癌の存在であり、癌状態の第2の状態は、癌の非存在であり、癌対象の第2のセットは、第2の複数の癌対象である。いくつかの態様において、がんは、副腎臓がん、胆道がん、膀胱がん、骨/骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道のがん、胃がん、頭頸部がん、肝胆道がん、腎臓がん、肝臓がん、肺がん、卵巣がん、膵がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、多発性骨髄腫、または白血病である。
いくつかの実施形態において、癌状態は癌の起源であり、第1の被験体セットは第1の複数被験者を含み、癌状態の第1の状態は癌の第1の起源であり、癌状態の第2の状態は癌の第2の起源であり、癌被験体の第2のセットは第2の複数の癌被験体である。いくつかの実施形態では、第1の起源は、副腎、胆道、骨/骨髄、脳、大腸、食道、頭頸部、肝臓、卵巣、肝臓、腎盂、胸膜、前立腺、腎臓、胃、胸腺、甲状腺、子宮、リンパ腫、黒色腫、または白血病のうちの1つであり、第2の起源は、副腎、胆道、ブラダー、骨/骨髄、脳、乳房、大腸、食道、頭頸部、肝臓、肝臓、肺、卵巣、膵臓、骨盤、胸膜、腎臓、胃、精巣、甲状腺、甲状腺、子宮、黒色腫、多発性骨髄腫のうちの1つである または白血病。
いくつかの実施形態において、がんの状態はがんの病期であり、第1の被験体セットは第1の複数被験者を含み、がんの状態の第1の状態は第1のがんの第1の病期であり、がんの状態の第2の状態は第1のがんの第2の病期であり、がんの被験体の第2のセットは第2の複数のがん被験体である。いくつかの実施形態において、がんは、副腎がん、胆道がん、膀胱がん、骨/骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝胆道がん、腎がん、肝臓がん、肺がん、卵巣がん、膵がん、骨盤がん、胸膜がん、前立腺がん、腎がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、黒色腫、多発性骨髄腫、または白血病であり、第1段階はがんのI期、II期、III期、またはIV期であり、第2段階はがんの第1段階以外であり、第1段階、第2段階、第2段階、第3段階
本開示の別の態様は、癌状態を識別または発明複数の適格なメチル化パターンを同定するためのコンピュータシステムを提供し、該コンピュータシステムは、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを記憶するメモリとを含み、該少なくとも1つのプログラムは、癌状態を識別または発明複数の適格なメチル化パターンを同定するための命令を含む。いくつかの実施形態では、少なくとも1つのプログラムは、コンピュータによって実行されるように構成される。いくつかの実施形態では、少なくとも1つのプログラムは、本明細書に開示された方法および実施形態のいずれか、および/または当業者に明らかなそれらの任意の組み合わせを実行するための命令を含む。
本開示の別の態様は、プロセッサによって実行されると、癌状態を識別または発明複数の適格なメチル化パターンを識別するための方法をプロセッサに実行させるプログラムコード命令を記憶した非一時的コンピュータ可読記憶媒体を提供する。ある実施形態では、プログラムコード命令は、コンピュータによって実行されるように構成される。いくつかの実施形態では、プログラムコード命令は、本明細書に開示された方法および実施形態のいずれか、および/または当業者に明らかなそれらの任意の組み合わせを実行するための命令を含む。
本開示の別の態様は、プロセッサによって実行されると、癌状態を識別または発明複数の適格なメチル化パターンを識別するための方法をプロセッサに実行させるプログラムコード命令を記憶した非一時的コンピュータ可読記憶媒体を提供する。ある実施形態では、プログラムコード命令は、コンピュータによって実行されるように構成される。いくつかの実施形態では、プログラムコード命令は、本明細書に開示された方法および実施形態のいずれか、および/または当業者に明らかなそれらの任意の組み合わせを実行するための命令を含む。
添付の特許請求の範囲の範囲内のシステム、方法及び装置の様々な実施形態は、それぞれいくつかの態様を有し、そのうちの単一の態様は、本明細書に記載される望ましい属性にのみ責任を負うものではない。添付の特許請求の範囲を限定することなく、いくつかの顕著な特徴が本明細書に記載される。この議論を考察した後、特に「詳細な説明」と題されたセクションを読んだ後に、様々な実施形態の特徴がどのように使用されるかを理解するであろう。
リファレンスによる企業
本明細書において言及されるすべての刊行物、特許、および特許出願は、個々の刊行物、特許、または特許出願のそれぞれが、参照により組み込まれることが具体的かつ個々に示されているのと同程度に、参照により本明細書に組み込まれる。
本明細書に開示される実施形態は、限定するものではなく、一例として、添付図面の図に示されている。同様の参照番号は、図面のいくつかの図の全体を通じて対応する部分を指す。
本明細書において言及されるすべての刊行物、特許、および特許出願は、個々の刊行物、特許、または特許出願のそれぞれが、参照により組み込まれることが具体的かつ個々に示されているのと同程度に、参照により本明細書に組み込まれる。
本明細書に開示される実施形態は、限定するものではなく、一例として、添付図面の図に示されている。同様の参照番号は、図面のいくつかの図の全体を通じて対応する部分を指す。
ここで、添付の図面に例示されている実施形態を詳細に参照する。以下の詳細な説明では、本開示の完全な理解を提供するために、多数の特定の詳細が記載されている。しかしながら、当業者には、本開示がこれらの特定詳細なしに実施され得ることが明らかであろう。他の例では、実施形態の態様を不必要に不明瞭にしないように、公知の方法、手順、成分、回路、およびネットワークは詳細に説明されていない。
本明細書に記載の実施は、癌状態を識別または示す適格なメチル化パターンを同定するための様々な技術的解決策を提供する。具体的には、第1のデータセットおよび第2のデータセットが(例えば、電子形式で)取得される。それぞれのデータセットは、それぞれの第1または第2の複数の断片中のそれぞれの断片に対する対応する断片メチル化パターンを含む。それぞれのフラグメントの対応するメチル化パターンは、対象のそれぞれの第1または第2のセットから得られた核酸のメチル化配列決定によって決定され、対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態を含む。それぞれの複数被験者は、それぞれの癌状態の第1または第2の状態を有する。第1の区間地図および第2の区間地図は、それぞれのデータセットごとに生成され、複数のノードは、開始メチル化部位、端部メチル化部位、それぞれの異なるフラグメントメチル化パターンの表現およびフラグメントのカウントを特徴とする。第1および第2の間隔地図は、所定のCpG部位数範囲の適格なフラグメントメチル化パターンについてスキャンされ、1つまたは複数の選択基準を満たし、それによって、癌状態を識別または示すフラグメントメチル化パターンを同定する。
定義
本明細書で使用されるように、「約」および「およそ」という用語は、当業者によって決定される特定の値に対する許容可能な誤差範囲内を意味し、これは、部分的には、値がどのように測定または決定されるか、例えば、測定システムの制限に依存する。例えば、いくつかの実施形態において、「約」は、当該技術分野における実施当たり、1以上の標準偏差内を意味する。いくつかの実施形態において、「約」は、所与の値の±20%、±10%、±5%、または±1%の範囲を意味する。いくつかの実施形態において、「約」または「およそ」という用語は、1桁以内、5倍以内、または2倍以内の値を意味する。特定の値が出願及び特許請求の範囲に記載されている場合、別段の記載がない限り、特定の値について許容可能な誤差範囲内での「約」の意味という用語を想定することができる。用語「約」は、当業者によって一般的に理解されるような意味を有することができる。いくつかの実施形態において、用語「約」は、±10%を指す。いくつかの実施形態において、用語「約」は、±5%を指す。
本明細書で使用されるように、「約」および「およそ」という用語は、当業者によって決定される特定の値に対する許容可能な誤差範囲内を意味し、これは、部分的には、値がどのように測定または決定されるか、例えば、測定システムの制限に依存する。例えば、いくつかの実施形態において、「約」は、当該技術分野における実施当たり、1以上の標準偏差内を意味する。いくつかの実施形態において、「約」は、所与の値の±20%、±10%、±5%、または±1%の範囲を意味する。いくつかの実施形態において、「約」または「およそ」という用語は、1桁以内、5倍以内、または2倍以内の値を意味する。特定の値が出願及び特許請求の範囲に記載されている場合、別段の記載がない限り、特定の値について許容可能な誤差範囲内での「約」の意味という用語を想定することができる。用語「約」は、当業者によって一般的に理解されるような意味を有することができる。いくつかの実施形態において、用語「約」は、±10%を指す。いくつかの実施形態において、用語「約」は、±5%を指す。
本明細書で使用される用語「アッセイ」は、物質、例えば、核酸、タンパク質、電池、組織、または器官の特性を決定するための技術を指す。アッセイ(例えば、第1のアッセイまたは第2のアッセイ)は、試料中の核酸のコピー数変動、試料中の核酸のメチル化状況、試料中の核酸のフラグメントサイズ分布、試料中の核酸の突然変異状況、または試料中の核酸のフラグメンテーションパターンを決定するための技術を含むことができる。任意のアッセイを用いて、本明細書中に記載される核酸の特性のいずれかを検出することができる。核酸の特性は、配列、ゲノムアイデンティティ、コピー数、1つ以上のヌクレオチド位置でのメチル化状態、核酸のサイズ、1つ以上のヌクレオチド位置での核酸における突然変異の有無、および核酸の断片化のパターン(例えば、核酸断片が存在するヌクレオチド位置)を含むことができる。アッセイまたは方法は、特定の感度および/または特異性を有することができ、診断ツールとしてのそれらの相対的有用性は、ROC-AUC統計量を用いて測定することができる。
本明細書に開示されるように、「生物学的試料」という用語は、対象に関連する生物学的状態を反映することができ、無細胞DNAを含む、対象から採取された任意の試料を指す。生物学的試料の例としては、血液、全血、血漿、プラズマ、尿、脳脊髄液、糞便、唾液、汗、涙液、胸水、心嚢液、または対象の腹膜液が挙げられるが、これらに限定されない。生物学的試料は、生体または死体に由来する任意の組織または物質を含むことができる。生物学的試料は、無細胞試料であり得る。生物学的試料は、核酸(例えば、DNAまたはRNA)またはそのフラグメントを含むことができる。「核酸」という用語は、デオキシリボ核酸(DNA)、リボ核酸(RNA)またはその任意のハイブリッドもしくは断片を指すことができる。試料中の核酸は、無細胞核酸であり得る。試料は、液体試料または固体試料(例えば、細胞または組織試料)であり得る。生物学的試料は、血液、血漿、血清、尿、膣液、水瘤(例えば、精巣の)からの液、膣液、胸水、腹水液、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳頭からの排出液、体の異なる部分(例えば、甲状腺、乳房)からの吸引液などの体液であり得る。生物学的試料は、糞便試料とすることができる。様々な実施形態において、無細胞DNAについて濃縮された生物学的試料(例えば、遠心分離プロトコルを介して得られた血漿試料)中のDNAの大部分は、無細胞であり得る(例えば、DNAの50%超、60%、70%、80%、90%、95%、または99%超は、無細胞であり得る)。生物学的試料は、組織または細胞構造(例えば、遠心分離および/または細胞溶解)を物理的に破壊するように処理することができ、したがって、分析のために試料を調製するために使用することができる酵素、緩衝液、塩、界面活性剤などをさらに含有することができる溶液中に細胞内成分を放出する。
本明細書に開示されるように、「核酸」および「核酸分子」という用語は、互換的に使用される。用語は、デオキシリボ核酸(DNA、例えば相補的DNA (cDNA)、ゲノムDNA (gDNA)など)、リボ核酸(RNA、例えば、メッセージRNA (mRNA)、短い阻害性RNA (siRNA)、リボソームRNA (rRNA)、トランスファーRNA (tRNA)、胎児または胎盤によって高度に発現されるマイクロRNAなど)、および/またはDNAもしくはRNA類似体(例えば、塩基類似体、糖類似体および/または非天然骨格などを含有する)、RNA/DNAハイブリッドおよびポリアミド核酸(PNA)などの任意の組成形態の核酸を指し、これらはすべて一本鎖または二本鎖形態であり得る。特に限定されない限り、核酸は、天然ヌクレオチドの公知のアナログを含むことができ、そのいくつかは、天然に存在するヌクレオチドと同様の様式で機能することができる。核酸は、本明細書中のプロセス(例えば、直鎖状、円形、超らせん状、一本鎖状、二本鎖状など)を伝導するのに有用な任意の形態であり得る。いくつかの実施形態における核酸は、単一の染色体またはその断片からのものであり得る(例えば、核酸試料は、二倍体生物から得られた試料の1つの染色体からのものであり得る)。特定の実施形態では、核酸は、ヌクレオソーム、ヌクレオソームフラグメントまたはヌクレオソーム様構造の一部を含む。核酸は、時にタンパク質(例えば、ヒストン、DNA結合タンパク質など)を含む。本明細書に記載されるプロセスによって分析される核酸は、ときに、実質的に単離され、タンパク質または他の分子と実質的に会合しない。核酸はまた、一本鎖(「センス」または「アンチセンス」、「プラス」鎖または「マイナス」鎖、「フォワード」リーディングフレームまたは「リバース」リーディングフレーム)および二本鎖ポリヌクレオチドから合成、複製または増幅されたRNAまたはDNAの誘導体、変異体およびアナログを含む。デオキシリボヌクレオチドには、デオキシアデノシン、デオキシシチジン、デオキシグアノシン、およびデオキシチミジンが含まれる。RNAの場合、塩基のシトシンはウラシルに置き換えられ、糖の2′位にはヒドロキシル部分が含まれる。核酸は、鋳型として被験体から得られた核酸を用いて調製することができる。
本明細書に開示されるように、用語「無細胞核酸」、「無細胞DNA」、および「cfDNA」は、交換可能に、対象の体内(例えば、血流などの体液内)を循環し、1つ以上の健康な細胞および/または1つ以上の癌細胞から上記核酸断片を指す。cfDNAは、被験体の血液、全血、血漿、プラズマ、尿、脳脊髄液、糞便、唾液、汗、汗、涙液、胸水、心嚢液、または腹膜液などの体液から回収することができる。無細胞核酸は循環核酸と互換的に使用される。無細胞核酸の実施例としては、RNA、ミトコンドリアDNA、またはゲノムDNAが挙げられるが、これらに限定されない。
本明細書に開示されるように、用語「循環腫瘍DNA」または「ctDNA」は、死にかけている細胞のアポトーシスまたは壊死などの生物学的プロセスの結果として被験体の血流に放出され得る、または生存腫瘍細胞によって能動的に放出され得る、腫瘍または他のタイプの癌の細胞などの異常組織に由来する核酸断片を指す。
本明細書に開示されるように、用語「参照ゲノム」は、対象からの同定された配列を参照するために使用され得る任意の生物またはウイルスの、部分的であるか完全であるかを問わず、任意の特定の既知の、配列決定された、または特徴付けられたゲノムを指す。ヒト対象および多くの他の生物に使用される例示的参照ゲノムは、National Center for Biotechnology Information (「NCBI」)またはUniversity of California、Santa Cruz (UCSC)が主催するオンラインゲノムブラウザに提供される。「ゲノム」とは、核酸配列において発現される、生物またはウイルスの完全な遺伝情報を意味する。本明細書で使用される場合、参照配列または参照ゲノムは、しばしば、個体または複数個体由来の組み立てられたまたは部分的に組み立てられたゲノム配列である。いくつかの実施形態において、参照ゲノムは、1つまたは複数のヒト個体由来の組み立てられたまたは部分的に組み立てられたゲノム配列である。参照ゲノムは、種の遺伝子セットの代表的な例とみなすことができる。いくつかの実施形態において、参照ゲノムは、染色体に割り当てられた配列を含む。例示的なヒト参照ゲノムとしては、NCBI構築物34(UCSC等価物: hg16)、NCBI構築物35(UCSC等価物: hg17)、NCBI構築物36.1(UCSC等価物: hg18)、GRCh37(UCSC等価物: hg19)、およびGRCh38(UCSC等価物: hg38)が挙げられるが、これらに限定されない。
本明細書に開示されるように、用語「参照ゲノムの領域」、「ゲノム領域」、または「染色体領域」は、参照ゲノムの任意の部分、隣接または非隣接を指す。これは、例えば、ビン、パーティション、ゲノム部分、参照ゲノムの一部、染色体の一部などと呼ぶこともできる。いくつかの実施形態において、ゲノム部は、ゲノム配列の特定の長さに基づく。いくつかの実施形態において、方法は、複数のゲノム領域への複数のマッピングされた配列読み取りの分析を含むことができる。ゲノム領域はほぼ同じ長さであってもよいし、ゲノム部は異なる長さであってもよい。いくつかの実施形態において、ゲノム領域は、約等しい長さである。いくつかの実施形態において、異なる長さのゲノム領域は、調整または加重される。いくつかの実施形態において、ゲノム領域は、約10キロベース(kb)~約500kb、約20kb~約400kb、約30kb~約300kb、約40kb~約200kb、およびときに約50kb~約100kbである。いくつかの実施形態において、ゲノム領域は、約100kb~約200kbである。ゲノム領域は、連続した配列の走行に限定されない。したがって、ゲノム領域は、隣接配列および/または非隣接配列から構成することができる。ゲノム領域は単一の染色体に限定されない。いくつかの実施形態において、ゲノム領域は、1つの染色体の全部または一部、または2つ以上の染色体の全部または一部を含む。いくつかの態様において、ゲノム領域は、1、2、またはそれ以上の染色体全体に及ぶことができる。さらに、ゲノム領域は、複数の染色体の継手部分または分離部分に及ぶことがある。
本明細書に開示されるように、用語「参照ゲノムの領域」、「ゲノム領域」、または「染色体領域」は、参照ゲノムの任意の部分、隣接または非隣接を指す。これは、例えば、ビン、パーティション、ゲノム部分、参照ゲノムの一部、染色体の一部などと呼ぶこともできる。いくつかの実施形態において、ゲノム部は、ゲノム配列の特定の長さに基づく。いくつかの実施形態において、方法は、複数のゲノム領域への複数のマッピングされた配列読み取りの分析を含むことができる。ゲノム領域はほぼ同じ長さであってもよいし、ゲノム部は異なる長さであってもよい。いくつかの実施形態において、ゲノム領域は、約等しい長さである。いくつかの実施形態において、異なる長さのゲノム領域は、調整または加重される。いくつかの実施形態において、ゲノム領域は、約10キロベース(kb)~約500kb、約20kb~約400kb、約30kb~約300kb、約40kb~約200kb、およびときに約50kb~約100kbである。いくつかの実施形態において、ゲノム領域は、約100kb~約200kbである。ゲノム領域は、連続した配列の走行に限定されない。したがって、ゲノム領域は、隣接配列および/または非隣接配列から構成することができる。ゲノム領域は単一の染色体に限定されない。いくつかの実施形態において、ゲノム領域は、1つの染色体の全部または一部、または2つ以上の染色体の全部または一部を含む。いくつかの態様において、ゲノム領域は、1、2、またはそれ以上の染色体全体に及ぶことができる。さらに、ゲノム領域は、複数の染色体の継手部分または分離部分に及ぶことがある。
本明細書で使用される「フラグメント」および「核酸フラグメント」という用語は、本明細書では交換可能に使用され、少なくとも3つの連続するヌクレオチドのポリヌクレオチド配列のすべてまたは一部を指す。生物学的試料中に見出される核酸断片の配列決定の文脈において、用語「断片」は、生物学的試料中に見出される核酸分子(例えば、DNAフラグメント)またはその表現(例えば、配列の電子的表現)を指す。ユニークなフラグメント(例えば、無細胞核酸)からのシーケンシングデータ(例えば、全ゲノム配列決定、標的化配列決定などからの原料または修正された配列読み取り)は、フラグメントの核酸フラグメント配列および/またはメチル化パターンを決定するために使用される。このような配列読み取りは、実際には、元のフラグメントのPCR複製の配列決定から得ることができ、したがって、フラグメント配列を「表す」または「支持する」ことができる。生物学的試料中の特定の断片(例えば、PCR複製物)をそれぞれ表すか、または支持する複数の配列読み取りがあり得るが、特定の断片について、1つの断片配列、および1つの断片メチル化パターンがあり得る。いくつかの実施形態において、元の断片について生成された重複配列読取り値は、組み合わされるか、または除去される(例えば、単一配列、例えば、核酸断片配列に折りたたまれる)。したがって、各々が特定の遺伝子座を包含する試料中のフラグメントの集団に関する測定基準(例えば、遺伝子座の存在量値、またはフラグメント長さの分布の特性に基づく測定基準)を決定する場合、支持配列読み取り(例えば、集団中の核酸フラグメントのPCR複製から生成され得る)ではなく、フラグメントの集団に関する核酸フラグメント配列を使用して、測定基準を決定することができる。なぜなら、上記実施形態では、配列の1つのコピーが、元の(例えば、固有の)フラグメント(例えば、固有の核酸分子)を表すために使用されるからである。フラグメントの集団のためのフラグメントは、同一または異なるフラグメントメチル化パターンを有するいくつかの同一の配列を含むことができ、それらの各々は、同一の元のフラグメントの複製ではなく、異なる元のフラグメントを表すことに留意されたい。いくつかの実施形態において、無細胞核酸は、フラグメントとみなされる。
本明細書で互換的に使用される「配列読取り」または「読取り」という用語は、本明細書に記載されるか、または当技術分野で公知の任意の配列決定プロセスによって生成されるヌクレオチド配列を指す。読み取りは、核酸断片の一方の末端から生成され得(「シングルエンド読み取り」)、時には、核酸の両端から生成される(例えば、ペアエンド読み取り、ダブルエンド読み取り)。いくつかの実施形態において、配列読み取り(例えば、単端部または対端部読み取り)は、標的化核酸フラグメントの一方または両方の鎖から生成され得る。読み取られた配列の長さは、しばしば、特定の配列決定技術と関連している。例えば、ハイスループット法は、数十から数百塩基対(bp)の大きさで変化し得る配列読み取りを提供する。いくつかの実施形態では、配列リードは、約15bp~900bpの長さのメジアン、中央またはメジアン(例えば、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、または約500bpの長さである。いくつかの実施形態において、配列読み取りは、約1000bp、2000bp、5000bp、10,000bp、または50,000bp以上の平均、中央値または平均長である。例えば、ナノポア配列決定は、数十~数百~数千塩基対の大きさで変化し得る配列読み取りを提供することができる。Illumina 平行なシーケンシングは、あまり変化しないシークエンス読み取りを提供することができる。例えば、シークエンス読み取りのほとんどは200bp より小さくすることができる。配列読み取り(または配列決定読み取り)は、核酸分子(例えば、ヌクレオチドの文字列)に対応する配列情報を指すことができる。例えば、読み取られる配列は、核酸断片の一部からのヌクレオチドの文字列(例えば、約20~約150)に対応することができ、核酸断片の一方または両端のヌクレオチドの文字列に対応することができ、または核酸断片全体のヌクレオチドに対応することができる。配列の読み取りは、例えば、配列決定技術を使用するか、または、例えば、ハイブリダイゼーションアレイもしくは捕捉プローブにおけるプローブを使用するか、またはポリメラーゼ連鎖反応(PCR)のような増幅技術、または単一のプライマーもしくは等温増幅を使用する線形増幅技術を使用するなど、様々な方法で得ることができる。
本明細書に開示されるように、本明細書で使用される用語「配列決定」、「配列決定」などは、一般に、核酸またはタンパク質などの生物学的高分子の順序を決定するために使用され得る任意のおよびすべての生化学的プロセスを指す。例えば、シーケンシングデータは、DNAフラグメントのような核酸分子中のヌクレオチド塩基の全部または一部を含むことができる。
「配列決定深さ」、「カバレッジ」および「カバレッジ率」という用語は、遺伝子座に整列された固有の核酸標的分子(「核酸フラグメント」)に対応するコンセンサス配列読取りにより遺伝子座がカバーされる回数を指すために本明細書では互換的に使用され、例えば、配列決定深さは、遺伝子座をカバーする固有の核酸標的フラグメント(PCR配列決定複製を除く)の数に等しい。遺伝子座はヌクレオチドと同じくらい小さいものもあれば、染色体腕と同じくらい大きいものもあり、ゲノム全体と同じくらい大きいものもある。頻度は、「YX」として表すことができる。例えば、50X、100X等である。ここで、「Y」は、核酸標的に対応する順序で座位がカバーされる回数、例えば、特定の座位をカバーする独立した配列情報入手される回数をいう。いくつかの実施形態において、配列決定の深さは、配列決定されたゲノムの数に対応する。シークエンシングの深さは、複数の遺伝子座、または全ゲノムにも適用することができ、この場合、Yは、それぞれ、遺伝子座または単数体ゲノム、または全ゲノムがシークエンスされる平均または平均回数を参照することができる。平均深度が引用符で囲まれている場合、データセットに含まれる異なる軌跡の実際の深度は、値域にわたることがある。超深層シークエンシングは、軌跡上のシークエンシング深さの少なくとも100倍に言及することができる。
本明細書に開示されるように、用語「一塩基変形例」または「SNV」は、核酸配列の位置(例えば、部位)における1つのヌクレオチドの異なるヌクレオチドへの置換、例えば、個体から読み取られた配列を指す。第1の核酸塩基Xから第2の核酸塩基Yへの置換は、「X>Y」と表記することができ、例えば、シトシンからチミンSNVへの置換は、「C>T」と表記することができる
本明細書で使用されるように、用語「メチル化」は、シトシン塩基のピリミジン環上の水素原子がメチル基に変換され、5-メチルシトシンを形成するデオキシリボ核酸(DNA)の修飾を指す。特に、メチル化は、本明細書では「CpG部位」と呼ばれるシトシンおよびグアニンのジヌクレオチドで起こる傾向がある。他の例では、メチル化はCpG部位の一部ではなくシトシン、あるいはシトシンではない別のヌクレオチドで起こることがあるが、これらはまれにしか起こらない。本開示において、メチル化は、明瞭さのためにCpG部位に関して論じられる。異常なcfDNAメチル化は、高メチル化または低メチル化として同定することができ、どちらも癌の状態を示す可能性がある。当技術分野で周知のように、DNAメチル化異常(健康な対照と比較して)は、異なる効果を引き起こす可能性があり、これは癌に寄与する可能性がある。
異常にメチル化されたcfDNAフラグメントの同定には様々な課題がある。まず、被験体のcfDNAが異常にメチル化されていると決定することは、制御被験体群と比較して重量を保持するだけであり、その結果、制御群の数が少なければ、その決定は、小制御群との信頼性を失う。さらに、対照被験体群の中で、被験体のcfDNAが異常にメチル化されていると決定する場合に説明することが困難であり得るメチル化状態が変化し得る。別の注目すべき点として、CpG部位におけるシトシンのメチル化は、それに続くCpG部位におけるメチル化に因果的に影響を及ぼす。
本明細書に記載の原理は、非シトシンメチル化を含む非CpG文脈におけるメチル化の検出にも同様に適用可能である。さらに、メチル化状態ベクトルは、一般に、メチル化が起こっているかまたは起こっていない部位のベクトルであるエレメントを含有してもよい(これらの部位が特異的にCpG部位でなくても)。その置換により、本明細書に記載されるプロセスの残りの部分は同じであり、したがって、本明細書に記載される本発明の概念は、メチル化のそれらの他の形態にも適用可能である。
本明細書で使用されるように、用語「メチル化プロフィール」(メチル化状態とも呼ばれる)は、領域に対するDNAメチル化に関連する情報を含むことができる。DNAメチル化に関連する情報には、CpG部位のメチル化インデックス、領域内のCpG部位のメチル化密度、隣接領域上のCpG部位の分布、複数のCpG部位を含む領域内の個々のCpG部位に対するメチル化のパターンまたはレベル、および非CpGメチル化が含まれ得る。ゲノムのかなりの部分のメチル化プロフィールは、メチルオームと同等であると考えることができる。哺乳動物ゲノム中の「DNAメチル化」は、CpGジヌクレオチド中のシトシンの複素環環の5位へのメチル基の付加(例えば、5-メチルシトシンを生成するため)を指すことができる。シトシンのメチル化は、他の配列コンテキスト、例えば5´-CHG-3´および5´-CHH-3´においてシトシン中で起こることができ、ここでHはアデニン、シトシンまたはチミンである。シトシンメチル化は5-ヒドロキシメチルシトシンの形成でもよい。DNAのメチル化は、N6-メチルアデニンのような非シトシンヌクレオチドのメチル化を含むことができる。
本明細書で使用される場合、「メチルオーム」は、ゲノム中の複数の部位または遺伝子座におけるDNAメチル化の量の測定値であり得る。メチロームは、ゲノムのすべて、ゲノムのかなりの部分、あるいはゲノムの比較的小さな部分に対応することができる。「腫瘍メチローム」は、被験者(例えば、ヒト)の腫瘍のメチロームであり得る。腫瘍メチロームは、腫瘍組織または血漿中の無細胞腫瘍DNAを用いて決定することができる。腫瘍メチロームは、関心のあるメチロームの一例であり得る。目的のメチロームは、核酸、例えばDNAを体液(例えば、脳細胞、骨、肺、心臓、筋肉、腎臓などのメチローム)に寄与し得る臓器のメチロームであり得る。臓器は移植された臓器であり得る。
本明細書中で使用されるように、各ゲノム部位(例えば、CpG部位、シトシンヌクレオチドがその後に5´→ 3´方向に沿った塩基の直鎖配列中のグアニンヌクレオチドが続くDNAの領域)についての「メチル化指数」という語は、その部位をカバーする全読み取り回数にわたってその部位でメチル化を示す配列読み取りの割合を指すことができる。領域の「メチル化密度」は、メチル化を示す領域内の部位における読み取りの数を、その領域内の部位をカバーする読み取りの総数で割ったものであり得る。部位は特異的な特徴を有することができる(例えば、部位はCpG部位であり得る)。領域の「CpGメチル化密度」は、CpGメチル化を示す読み取りの数を、領域内のCpG部位(例えば、特定のCpG部位、CpGアイランド内のCpG部位、またはより大きな領域)をカバーする読み取りの総数で割ったものであり得る。例えば、ヒトゲノム中の各100kbのbinに対するメチル化密度は、100-kb領域にマップされた配列リードによってカバーされる全CpG部位の割合として、CpG部位における未変換シトシン(メチル化シトシンに対応できる)の総数から決定することができる。いくつかの実施形態において、この分析は、他のビンサイズ、例えば、50kbまたは1Mbなどについて実施される。いくつかの態様において、領域は、ゲノム全体、または染色体もしくは染色体の一部(例えば、染色体腕)である。CpG部位のメチル化指数は、そのCpG部位のみを含む領域のメチル化密度と同じである。「メチル化シトシンの割合」は、分析されたシトシン残基の総数にわたってメチル化される(例えば、亜硫酸水素換算後に変換されない)ことが示されている、シトシン部位の数、「C」を意味し得る(例えば、CpGコンテクストの外側のシトシンを含む)。メチル化インデックス、メチル化密度およびメチル化シトシンの割合は、「メチル化レベル」の実施例である。
本明細書で使用される場合、「プラズマメチルオーム」は、動物(例えば、ヒト)のプラズマまたは血清から決定されるメチルオームであり得る。形質と血清は無細胞DNAを含むことができるので、血漿メチロームは無細胞メチロームの一例である。プラズマメチロームは、腫瘍/患者のメチロームの混合物であり得るので、混合メチロームの一例であり得る。「セルラメチローム」は、被験体、例えば患者の細胞(例えば、血液細胞または腫瘍細胞)から決定されるメチロームであり得る。血液細胞のメチロームは、血液細胞のメチローム(または血液のメチローム)と呼ばれる。
本明細書で使用される場合、用語「相対的存在量」は、特定の特性(例えば、特定の長さ、1つ以上の特定の座標/終了位置で終了する、ゲノムの特定の領域に整列する、または特定のメチル化状態を有する)を有する核酸断片の第1の量と、特定の特性(例えば、特定の長さ、1つ以上の特定の座標/終了位置で終了する、またはゲノムの特定の領域に整列する)を有する核酸断片の第2の量との比を指すことができる。一例において、相対的存在量は、ゲノム位置の第1のセットで終わるDNAフラグメント数と、ゲノム位置の第2のセットで終わるDNAフラグメント数との比を意味することができる。いくつかの局面において、「相対的存在量」は、ゲノム位置の1つの窓内で終わる無細胞DNA分子の量(1つの値)と、ゲノム位置の別の窓内で終わる無細胞DNA分子の量(他の値)とを関連付ける分離値の一種であり得る。2 つの窓はオーバーラップできるが、サイズは異なる。他の実施形態では、2つの窓はオーバーラップできない。さらに、いくつかの実施形態において、窓は、1つのヌクレオチドの幅であり、したがって、1つのゲノム位置と等価である。
本明細書で使用される用語「メチル化パターン」は、1つ以上のCpG部位に対するメチル化状態の配列を指す。メチル化状態としては、メチル化(例えば、「M」として表される)および非メチル化(例えば、「U」として表される)が挙げられるが、これらに限定されない。例えば、5つのCpG部位に及ぶメチル化パターンは、「MMMMM」または「UUUU」として表され得、ここで、各個別の記号は、単一のCpG部位におけるメチル化状態を表す。メチル化パターンは、参照ゲノム中の特定のゲノム位置および/または特定の1つもしくは複数のCpG部位に対応していてもよく、対応していなくてもよい。
本明細書で使用される場合、用語「フラグメントメチル化パターン」は、フラグメント(例えば、核酸試料の)またはフラグメントの一部のメチル化パターンを指す。開示において、用語「フラグメントメチル化パターン」は、特に断らない限り、用語「FMP」と交換可能に使用される。フラグメントメチル化パターンは、それぞれの核酸試料のメチル化配列決定により得ることができる。いくつかの実施形態において、核酸試料から得られた1つまたは複数のフラグメントは、それぞれのフラグメントメチル化パターンが1つまたは複数のCpG部位(例えば、CpG部位のスパンまたは間隔)を含むように、参照ゲノムに整列され、ここで、それぞれのCpG部位はそれぞれのメチル化状態を含み、参照ゲノム中の特定部位にインデックスされる。したがって、それぞれのフラグメントメチル化パターンにおける1つ以上のCpG部位は、参照ゲノムにおける特定の位置に対応し、フラグメントメチル化パターンは、参照ゲノムにおける特定の位置に対応する1つ以上のCpG部位に対するメチル化状態の配列を指す。いくつかの実施形態において、複数の断片中の各断片は、対応する断片メチル化パターンを有する。フラグメントメチル化パターンは、メチル化状態の配列の表現(例えば、「MMMMM」または「UUUU」)によって表すことができる。いくつかの実施形態において、それぞれの複数のフラグメントに対する複数のフラグメントメチル化パターンは、それぞれの複数のフラグメントに対する複数のフラグメントメチル化パターンにおける各フラグメントメチル化パターン(例えば、ノード)の表現を含む間隔地図によって表される。
本明細書で使用される場合、用語「問い合わせメチル化パターン」は、所定のCpG部位数範囲にあるメチル化状態の配列を指す。問い合わせメチル化パターンは、メチル化パターンの表現(例えば、間隔地図によって表される複数のフラグメントメチル化パターン)を問い合わせするために使用されるメチル化状態の配列(例えば、「MMMMM」または「UUUU」)の表現であり得る。いくつかの実施形態において、問い合わせメチル化パターンは、参照ゲノム中のそれぞれの1つまたは複数の特定部位にインデックス付けされた1つまたは複数のCpG部位(例えば、CpG部位のスパンまたは間隔)に対応する。いくつかの実施形態において、問い合わせメチル化パターンは、参照ゲノム内の特定のCpG部位または特定の位置のいずれにも対応しない(例えば、問い合わせメチル化パターンは、ゲノム領域および/または参照ゲノム内のすべての位置にわたって問い合わせされるメチル化状態の配列の表現である)。いくつかの例では、所定のCpGサイト数範囲は、ユーザ定義である(例えば、範囲5のCpGサイトから20のCpGサイト)。いくつかの例では、所定のCpG部位数の範囲は単一の数であり、このような例では、問い合わせメチル化パターンは固定されたCpG数の長さ(例えば、5つのCpG部位)であることを意味する。いくつかの実施形態において、フラグメントメチル化パターン/FMPまたはその一部を問い合わせメチル化パターンとして使用することができる。いくつかの実施形態では、以前に生成された問い合わせライブラリーからの問い合わせメチル化パターンを使用することができる。いくつかの実施形態では、特定の種類の癌などの特定の疾患状態について、1つまたは複数の問い合わせライブラリを生成することができる。
本明細書中で使用される用語「適格なメチル化パターン」は、所定のCpG部位数範囲にあり、1つ以上の選択基準を満たすメチル化パターンを指す。開示において、用語「適格なメチル化パターン」は、特に明記しない限り、用語「QMP」と交換可能に使用される。いくつかの態様において、適格なメチル化パターンは、参照ゲノム中のそれぞれの1つまたは複数の特定部位にインデックス付けされた1つまたは複数のCpG部位(例えば、CpG部位のスパンまたは間隔)に対応する。例えば、適格性メチル化パターンが、参照ゲノムに整列された複数のフラグメント中のそれぞれの1つ以上のフラグメントにおいて同定される場合、適格性メチル化パターンは、1つ以上のCpG部位を含み、ここで、それぞれのCpG部位は、それぞれのメチル化状態を含み、参照ゲノム中の特定部位にインデックス付けされる。したがって、いくつかのそのような態様において、適格なメチル化パターンは、1つ以上の選択基準を満たす参照ゲノム中の特定の位置におけるメチル化状態の特定の配列を指す。適格なメチル化パターン(例えば、「MMMMM」または「UUUU」などの適格なメチル化パターンのためのメチル化状態のそれぞれの配列の表現)は、参照ゲノムに整列された複数のフラグメント中のそれぞれの1つまたは複数のフラグメントにおいて同定され得、ここで、複数のフラグメントに対するそれぞれのフラグメントメチル化パターンは、間隔地図によって表され、クエリーメチル化パターンを間隔地図中の各ノード中の各フラグメントメチル化パターンの表現にマッチングし、マッチしたメチル化パターンが1つまたは複数の選択基準を満たすかどうかを決定することによって、同定され得る。いくつかの実施形態において、適格性メチル化パターンは、参照ゲノム中の特定のCpG部位または特定の位置のいずれにも対応しない(例えば、適格性メチル化中の1つまたは複数のCpG部位のゲノム位置が不明である場合、および/または適格性メチル化パターン中のメチル化状態の配列が参照ゲノム全体にわたって複数の位置で生じる場合)。
本明細書に開示されるように、用語「対象」は、ヒト(例えば、男性、女性、ヒト、胎児、妊娠女性、子供など)、非ヒト動物、植物、細菌、真菌または原生生物を含むが、これらに限定されない、任意の生きたまたは非生きた生物を指す。ヒトまたはヒト以外の動物は、哺乳動物、絨毛、鳥類、両生類、魚類、有蹄動物、反芻動物、ウシ(例、ウマ)、ヤギおよびヒツジ(例、ヒツジ、ヤギ)、ブタ(例、ブタ)、ラクダ(例、ラクダ、ラマ、アルパカ)、サル、アペ(例、ゴリラ、チンパンジー)、ウルシド(例、クマ)、家禽、イヌ、ネコ、マウス、ラット、魚、イルカ、クジラ、およびサメを含むが、これらに限定されない。「対象」および「患者」という用語は、本明細書において互換的に使用され、例えば癌などの医学的状態または疾患を有することが知られているか、または潜在的に有するヒトまたは非ヒト動物を指す。いくつかの実施形態において、対象は、任意の段階(例えば、男性、女性または子供)の男性または女性である。
試料が採取されるか、または本明細書に記載される方法もしくは組成物のいずれかによって治療される被験体は、任意の年齢であり得、成人、乳児または小児であり得る。場合によっては、患者は、0、1、2、5、6、7、12、13、14、18、23、25、26、27、28、31、30、32、33、34、35、36、37、38、39、40、41、42、43、45、46、47、48、50、51、52、55、56、57、59、60、62、63、64、67、68、69、70、71、72、73、75、76、78、78、78、80、82、83、85、88、89、90、91、95、96、98、または99歳である またはその中の範囲内(例えば、約2~約20歳、約20~約40歳、または約40~約90歳)。特定のクラスの対象、例えば、本開示の方法から利益を得ることができる患者は、対象、例えば40歳を超える患者である。
別の特定のクラスの被験体、例えば、本開示の方法から利益を得ることができる患者は、慢性心臓症状のより高いリスクを有し得る小児患者である。さらに、被験体、例えば、試料が採取されるか、または本明細書に記載の方法もしくは組成物のいずれかによって治療される患者は、男性であっても女性であってもよい。
用語「正規化」は、本明細書で使用される場合、比較目的のために、値または値のセットを共通の基準フレームに変換することを意味する。例えば、診断用ctDNAレベルが基準ctDNAレベルで「標準化」される場合、診断用ctDNAレベルは基準ctDNAレベルと比較され、その結果、診断用ctDNAレベルが基準ctDNAレベルと異なる量を決定することができる。
本明細書で使用される「癌」または「腫瘍」という用語は、腫瘤の成長が正常組織の成長と協調していない、超過した組織の異常な質量を指す。癌または腫瘍は、形態および機能性、成長速度、局所浸潤および転移を含む細胞分化の程度に応じて、「良性」または「悪性」と定義され得る。「良性」腫瘍は高分化型であり、悪性腫瘍よりも成長が遅く、原発部位に限局したままであるのが特徴的である。さらに、場合によっては、良性腫瘍には遠隔部位への浸潤、浸潤または転移する能力がない。「悪性」腫瘍は、低分化(退形成)であり得、特徴的に、周辺組織の進行性浸潤、浸潤、および破壊を伴う急速な成長を有する。さらに、悪性腫瘍は、遠隔部位に転移する能力を有し得る。
本明細書で使用される用語「癌状態」は、癌に関する試料の状態を意味し、ここで、該状態のそれぞれの電位特性および/または尺度は、癌状態の「状態」を意味する。例えば、試料は、「癌」または「非癌」である癌状態を有することができ、さらに、癌状態は、癌状態に影響を及ぼすことが知られている特定の突然変異の有無、喫煙/非喫煙、年齢、性別、および/または造血状態などの、癌の予後に影響を及ぼす状態であることができる。あるいは、癌状態は、健康な乳房、肺、前立腺、結腸直腸、腎、子宮、膵臓、食道、リンパ、頭頸部、卵巣、肝臓、子宮頸部、表皮、甲状腺、膀胱、胃、またはそれらの組み合わせ、または乳癌、肺がん、前立腺癌、結腸直腸癌、腎臓癌、子宮癌、膵臓癌、食道の癌、リンパ腫、頭頸部癌、卵巣癌、肝胆道癌、黒色腫、子宮頸癌、多発性骨髄腫、白血病、甲状腺癌、膀胱がん、胃癌、またはそれらの組み合わせのような原発部位または原発組織であり得る。癌状態は、副腎皮質癌、小児副腎皮質癌の腫瘍、カポジ肉腫、肛門癌に関連する腫瘍、星状細胞腫、小児(脳)腫瘍、非定型奇形腫様/ラブドイド腫瘍、中枢神経系(脳癌)腫瘍、皮膚の基底細胞癌、膀胱癌腫瘍、小児膀胱癌腫瘍、骨癌(例えば、ユーイング肉腫および悪性線維性組織球腫)組織、脳腫瘍、小児乳癌組織、気管支腫瘍、バーキットリンパ腫組織、カルチノイド腫瘍、原発不明癌 原発不明の小児がん、小児心臓腫瘍、中枢神経系腫瘍(例、 小児非定型奇形腫様/ラブドイド)腫瘍、小児胚細胞腫瘍、子宮頸癌組織、胆管癌組織、慢性骨髄増殖性腫瘍、小児大腸癌腫瘍、小児頭蓋咽頭腫組織、非浸潤性乳管癌(DCIS)、小児胎児性腫瘍(子宮体癌)組織、小児食道癌組織、感覚神経芽腫(頭頸部癌)組織、小児頭蓋外胚細胞腫瘍、眼球癌組織、網膜芽細胞腫、卵管癌組織、胃(胃)癌組織 小児胃(胃)がん組織、消化管間質腫瘍(GIST)、小児消化管間質腫瘍、胚細胞腫瘍(小児中枢神経系胚細胞腫瘍、小児頭蓋外胚細胞腫瘍、性腺外胚細胞など) 小児心臓腫瘍、肝細胞腫瘍(HCC)組織、膵神経内分泌腫瘍、肝臓または腎細胞癌(RCC)組織、喉頭癌組織、肝臓癌組織、肺癌(非小細胞および小細胞)組織、小児肺癌組織、骨および骨肉腫の悪性線維性組織球腫、黒色腫、小児眼内黒色腫、メルケル細胞癌、悪性中皮腫、転移性癌組織、原発不明の転移性扁平上皮性頸部癌、NUT遺伝子変化を伴う正中線路癌(頭頸部癌)組織、多発性内分泌腫瘍症候群 多発性骨髄腫/形質細胞腫瘍、骨髄異形成/骨髄増殖性腫瘍、慢性骨髄増殖性腫瘍、鼻腔および副鼻腔がん組織、鼻咽頭がん(NPC)組織、神経芽細胞腫 口腔がん組織、口腔がん組織、口腔がんおよび口腔がん組織、骨肉腫および悪性線維性組織球腫、卵巣がん組織、小児膵がん組織、乳頭腫(小児喉頭)組織、傍神経節腫組織、副鼻腔および鼻腔がん組織、陰茎がん組織、咽頭がん組織、褐色細胞腫組織、下垂体腫瘍、形質細胞腫瘍/多発性骨髄腫、原発性中枢神経系(CNS)リンパ腫、原発性腹膜がん組織、直腸がん組織、網膜芽細胞腫、小児横紋筋肉腫、唾液腺がん組織 肉腫(小児血管腫瘍、骨肉腫、子宮肉腫など)、皮膚がん組織、小児肺がん組織、小腸がん組織、皮膚扁平上皮がん、 原発不明の扁平上皮性頸部がん、皮膚t細胞リンパ腫、精巣腫瘍組織、小児精巣腫瘍組織、咽頭がん(例えば、上咽頭がん、中咽頭がん、下咽頭がん)組織、胸腺腫または胸腺がん、甲状腺がん組織、腎盂および尿管組織の移行上皮がん、原発不明がん組織、尿管または腎盂組織、移行上皮がん(腎(腎細胞)がん組織、尿道がん組織、子宮内膜がん組織、子宮肉腫組織、膣がん組織、小児膣がん組織、血管腫瘍、外陰がん組織、ウィルムス腫瘍またはその他の小児腎腫瘍。がんの状態とは、乳がんの病期、肺がんの病期、前立腺がんの病期、大腸がんの病期、腎がんの病期、子宮がんの病期、膵がんの病期、食道がんの病期、リンパ腫の病期、頭頸部がんの病期、卵巣がんの病期、肝胆道がんの病期、黒色腫の病期、子宮頸がんの病期、多発性骨髄腫の病期、白血病の病期、甲状腺がんの病期、膀胱がんの病期、胃がんの病期のことができる。1人の被験者から複数のサンプルを採取すると、異なるがんの状態または同じがんの状態になることがある。複数の被験者が異なるがんの病態または同じがんの病態を有する可能性がある。
「癌負荷」、「腫瘍負荷」、「癌負荷」、「腫瘍負荷」、「腫瘍負荷」、または「腫瘍分率」という用語は、本明細書において、腫瘍由来の試験試料中の核酸の分率を指すために、交換可能に使用される。例えば、無細胞核酸の場合、「腫瘍画分」は、腫瘍由来の無細胞核酸の画分を指すことができる。したがって、「癌負荷」、「腫瘍負荷」、「癌負荷」、「腫瘍負荷」、および「腫瘍分率」という用語は、生物学的試料中の細胞源分率の非限定的な例である。
本明細書で使用される用語「組織」は、機能単位として一緒にグループ化する細胞のグループに対応する。1つの組織に複数の種類の細胞が認められる。異なる種類の組織は、異なる種類の細胞(例えば、肝細胞、肺胞細胞または血液細胞)からなることがあるが、異なる生物由来の組織(母体対胎児)または健康な細胞対腫瘍細胞に対応することもできる。用語「組織」は、一般的に、人体に見出される任意の細胞群(例えば、心臓組織、肺組織、腎臓組織、鼻咽頭組織、口腔咽頭組織)を指すことができる。いくつかの局面において、用語「組織」または「組織型」は、無細胞核酸が由来する組織を指すために使用することができる。一例において、ウイルス核酸フラグメントは、血液組織から誘導され得る。別の実施例では、ウイルス核酸フラグメントは、腫瘍組織から誘導され得る。
本明細書で使用されるように、用語「非拘束分級」は、標的データセット上で訓練されていない分級を指す。したがって、いくつかの実施形態では、「分類器を訓練する」とは、非訓練分類器を訓練するプロセスを指す。例えば、メチル化状態ベクトルの第1の正準集合および後述するメチル化状態ベクトルの第2の正準集合の場合を考える。メチル化状態ベクトルのそれぞれの正準集合は、メチル化状態ベクトルの第1の正準集合(以下「一次訓練データセット」という)によって表されるそれぞれの参照対象の細胞源と共に、未訓練分級への集合的入力として適用され、それによって、訓練された分級が得られる。さらに、用語「非訓練分級」は、伝達学習技術が非訓練分級のそのような訓練において使用される可能性を除外しないことが理解されるであろう。例えば、Fernandes et al.、2017、"Transfer Learning with Partial Observability Applied to Cervical Cancer Screening"、Pattern Recognition and Image Analysis: 8 th Iberian Conference Proceedings、243-250(参照により本明細書に組み込まれる)は、上記トランス転送学習が使用される場合には、上述の非拘束分級は、一次訓練データセットのデータを越えて、かつ、それを越えて、追加のデータを提供される。すなわち、伝達学習実施形態の非限定的な例では、非訓練分級は、(i)メチル化状態ベクトルの正準集合、およびメチル化状態ベクトルの正準集合(「一次訓練データセット」)によって表される参照被験者の各々の細胞源標識、および(ii)追加データを受け取る。典型的には、この追加データは、別の補助訓練データセットから学習された係数(例えば、回帰係数)の形態である。さらに、単一の補助訓練データセットの説明が開示されているが、本開示において、訓練されていない分類器を訓練する際に、一次訓練データセットを補完するために使用され得る補助訓練データセットの数に上限はないことが理解されるであろう。例えば、いくつかの実施形態では、2つ以上の補助トレーニングデータセット、3つ以上の補助トレーニングデータセット、4つ以上の補助トレーニングデータセットまたは5つ以上の補助トレーニングデータセットを使用して、各補助データセットが一次トレーニングデータセットとは異なるトランスファー学習を通じて一次トレーニングデータセットを補完する。上記実施形態では、任意の方法の移転学習を使用することができる。例えば、一次訓練データセットに加えて、第1の補助訓練データセットと第2の補助訓練データセットがある場合を考える。(第1の補助訓練データセットへの回帰のような分類器の適用によって)第1の補助訓練データセットから学習された係数は、転送学習技術(例えば、上述の2次元行列乗算)を使用して第2の補助訓練データセットに適用され得、それは、次に、その係数が一次訓練データセットに適用される訓練された中間分類器をもたらし得、これは、一次訓練データセット自体と共に、非訓練分類器に適用される。あるいは、(第1の補助訓練データセットへの回帰のような分類器の適用によって)第1の補助訓練データセットから学習された第1の係数セットと、(第2の補助訓練データセットへの回帰のような分類器の適用によって)第2の補助訓練データセットから学習された第2の係数セットとは、それぞれ個別に、第1の訓練データセットの別個のインスタンスに適用され(例えば、別個の独立行列乗算によって)、係数の上記適用の両方が、第1の訓練データセット自体と関連して、第1の訓練データセットのインスタンスを分離するために、(または、第1の訓練データセットから学習された主成分または回帰係数のような、いくつかの低減された形態の一次訓練データセットの)非訓練分類器に適用され、非訓練分類器を訓練することができる。いずれの実施例においても、第1および第2の補助訓練データセットから派生した細胞源(実施例えば、癌型など)に関する知識は、細胞源標識された一次訓練データセットと併せて、非訓練分級を訓練するために使用される。
用語「分類」は、試料の特定の特性に関連する任意の数字または他の文字を指すことができる。例えば、「+」記号(または「正」という語)は、試料が欠失または増幅を有するものとして分類されることを意味し得る。別の実施例において、用語「分類」は、対象および/または試料中の腫瘍組織の量、対象および/または試料中の腫瘍のサイズ、対象中の腫瘍の段階、対象および/または試料中の腫瘍負荷、および対象中の腫瘍転移の存在を指す。いくつかの実施形態において、分類は、2値(例えば、正または負)であるか、または分類のより多くのレベル(例えば、1~10または0~1のスケール)を有する。いくつかの実施形態において、「カットオフ」および「閾値」という用語は、動作において使用される所定の数字を指す。一例では、カットオフサイズは、フラグメントが除外されるサイズを上回るサイズを指す。いくつかの実施形態において、閾値は、特定の分類が適用される値を上回るか下回る値である。これらの用語のどちらも、これらの文脈のどちらでも使用できる。
本明細書中で使用される、用語「癌関連変化」または「癌特異的変化」は、癌由来突然変異(単一ヌクレオチド突然変異、ヌクレオチドの欠失または挿入、遺伝的または染色体セグメントの欠失、転座、逆位を含む)、遺伝子の増幅、ウイルス関連配列(例えば、ウイルスエピソーム、ウイルス挿入、電池に侵入し(例えば、ウイルス感染を介して)、その後電池によって放出され、循環または無電池ウイルスDNA)、異常なメチル化プロファイルまたは腫瘍特異的メチル化署名、異常な無電池核酸(例えば、DNA)サイズプロファイル、異常なヒストン修飾痕および他のエピジェネティック修飾、および癌関連または癌特異的である無電池DNA断片の末端の位置を含み得る。
本明細書で使用されるように、用語「制御」、「制御基準サンプル」、「参照試料」、「正常」および「正常試料」は、特定条件を有さない、またはそうでなければ健康である対象由来の試料を記載する。一例において、本明細書に開示されるような方法は、腫瘍を有する被験体に対して実施することができ、ここで、基準サンプルは、被験体の健常組織から採取された試料である。基準サンプルは、被験体から、またはデータベースから得ることができる。参照は、例えば、対象からの試料の配列決定から得られた配列読み取りをマッピングするために使用される参照ゲノムであり得る。参照ゲノムは、生物学的試料から配列が読み取られ、構成的試料が整列され、比較され得る一倍体または二倍体ゲノムを指すことができる。構成的試料の一例は、被験体から得られた白血球のDNAであり得る。一倍体ゲノムについては、各遺伝子座に1つのヌクレオチドしか存在できない。二倍体ゲノムについては、ヘテロ接合性の遺伝子座を同定できる。それぞれのヘテロ接合性の遺伝子座は2つの対立遺伝子をもつことができ、どちらの対立遺伝子も遺伝子座へのアラインメントのためのマッチングを可能にできる。
本明細書で使用される用語は、特定の場合のみを説明するためのものであり、限定することを意図するものではない。本明細書で使用されるように、単数形「a」、「an」および「the」は、文脈上明らかに別段の指示がない限り、同様に複数形を含むものとする。さらに、用語「含む」、「含む」、「有する」、「一緒に」、またはそれらの変形例が、詳細な説明および/または特許請求の範囲のいずれかにおいて使用される限りにおいて、そのような用語は、用語「含む」と同様の方法で包括的であることが意図される。
いくつかの態様は、説明のための説明的用途を参照して以下に記載される。本明細書に記載の特徴を完全に理解するために、多数の特定の詳細、関係、および方法が記載されていることを理解されたい。しかしながら、当業者であれば、本明細書に記載される特徴は、1つ以上の特定の詳細なしに、または他の方法とともに実施することができることを容易に認識するであろう。本明細書に記載される特徴は、行為または事象の図示された順序付けによって限定されるものではなく、何らかの行為は、異なる順序で、および/または他の行為または事象と同時に起こり得る。さらに、本明細書に記載された特徴に従って方法論を実施するために、すべての例示された行為または事象が必要とされるわけではない。
例示的なシステム実施形態
次に、例示的なシステムの詳細を図1と併せて説明する。図1は、いくつかの実施によるシステム100を示すブロック図である。いくつかの実施形態におけるシステム100は、1つ以上の処理ユニット102(プロセッサまたは処理コアとも呼ばれる)、1つ以上のネットワークインタフェース104、表示装置108および入力モジュール110を含むユーザインタフェース106、非永続的記憶部111、永続的記憶部112、およびこれらの構成要素を相互接続するための1つ以上の通信バス114を含む。1つ以上の通信バス114は、オプションとして、システム構成要素間の通信を相互接続し制御する回路(チップセットと呼ばれることもある)を含む。非永続的メモリ111は、典型的には、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリなどの高速ランダムアクセスメモリを含むが、永続的メモリ112は、典型的には、CD-ROM、デジタル多用途ディスク(DVD)またはその他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶装置、磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置、またはその他の不揮発性ソリッドステート記憶装置を含む。永続メモリ112は、オプションとして、CPU102から遠隔に配置された1つ以上の記憶装置を含む。永続的メモリ112と、非永続的メモリ112内の不揮発性メモリデバイスは、一時的でないコンピュータ読み取り可能な記憶媒体を備える。いくつかの実装では、非永続的記憶部111またはその代わりに一時的でないコンピュータ可読記憶媒体は、時には永続的記憶部112と関連して、以下のプログラム、モジュール、およびデータ構造、またはそれらのサブセットを記憶する:
・任意のオペレーティング・各種116に関連する任意の命令、プログラム、データ、または情報。これには、様々な基本各種・サービスを処理するための手順、およびハードウェア依存タスクを実行するための手順が含まれる;
・システム100を他の装置、または通信ネットワークに接続するための任意のネットワーク通信モジュール(または命令)118に関連する任意の命令、プログラム、データ、または情報;
・命令、プログラム、データ、または複数のデータセット(例えば、データセット1および2)120-1および120-2に関連付けられた情報であって、各データセットが備える、データセット:
・複数の被験者122-1-1、・・・、122-1-J (ここで、Jは正の整数である)における各被験者に関する命令、プログラム、データ、または記録122に関連する情報であって、各被験者は、対応する被験者から得られたそれぞれの生体試料中の1つまたは複数の核酸試料からの複数のフラグメントメチル化パターン124-1-1-1、・・・、124-1-1-K (ここで、Kは正の整数である)を含み、各フラグメントメチル化パターンは、1つまたは複数の核酸試料のメチル化配列決定によって決定され、それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位についてのメチル化状態126-1-1-1-1、・・・、126-1-1-1-1-L(ここで、Lは正の整数である;
・それぞれのデータセットについて、1つ以上のゲノム領域128-1-1、…、128-1-M(Mは正の整数)に関連する命令、プログラム、データ、または情報。
・各状態間隔地図は、対応する複数のノード132-1-1、…、132-1-1-1、…、132-1-1-P (ここで、Pは正の整数)を含み、複数のノード内の各ノードは、対応するスタート・メチレーション・部位134-1-1-1-1、対応するエンド・メチレーション・部位136-1-1-1-1、対応するスタート・メチレーション・部位136-1-1-1、および対応するスタート・メチレーション・部位と各ノードの対応するエンド・メチレーション・部位との間で観測される各情報フラグメント・メチレーション・パターンについて、情報フラグメント・メチレーション・パターン138-1-1-1-Q (ここでQは正の整数)の表現 各データセット全体で観測されたカウント140-1-1-1、...、140-1-1-1-1-R (R は正の整数)のフラグメントのうち、フラグメントのメチレーションパターンが対応する開始メチレーション部位で開始し、対応する端部メチレーション部位で端部し、情報フラグメントのメチレーションパターンを持つもの。
次に、例示的なシステムの詳細を図1と併せて説明する。図1は、いくつかの実施によるシステム100を示すブロック図である。いくつかの実施形態におけるシステム100は、1つ以上の処理ユニット102(プロセッサまたは処理コアとも呼ばれる)、1つ以上のネットワークインタフェース104、表示装置108および入力モジュール110を含むユーザインタフェース106、非永続的記憶部111、永続的記憶部112、およびこれらの構成要素を相互接続するための1つ以上の通信バス114を含む。1つ以上の通信バス114は、オプションとして、システム構成要素間の通信を相互接続し制御する回路(チップセットと呼ばれることもある)を含む。非永続的メモリ111は、典型的には、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリなどの高速ランダムアクセスメモリを含むが、永続的メモリ112は、典型的には、CD-ROM、デジタル多用途ディスク(DVD)またはその他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶装置、磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置、またはその他の不揮発性ソリッドステート記憶装置を含む。永続メモリ112は、オプションとして、CPU102から遠隔に配置された1つ以上の記憶装置を含む。永続的メモリ112と、非永続的メモリ112内の不揮発性メモリデバイスは、一時的でないコンピュータ読み取り可能な記憶媒体を備える。いくつかの実装では、非永続的記憶部111またはその代わりに一時的でないコンピュータ可読記憶媒体は、時には永続的記憶部112と関連して、以下のプログラム、モジュール、およびデータ構造、またはそれらのサブセットを記憶する:
・任意のオペレーティング・各種116に関連する任意の命令、プログラム、データ、または情報。これには、様々な基本各種・サービスを処理するための手順、およびハードウェア依存タスクを実行するための手順が含まれる;
・システム100を他の装置、または通信ネットワークに接続するための任意のネットワーク通信モジュール(または命令)118に関連する任意の命令、プログラム、データ、または情報;
・命令、プログラム、データ、または複数のデータセット(例えば、データセット1および2)120-1および120-2に関連付けられた情報であって、各データセットが備える、データセット:
・複数の被験者122-1-1、・・・、122-1-J (ここで、Jは正の整数である)における各被験者に関する命令、プログラム、データ、または記録122に関連する情報であって、各被験者は、対応する被験者から得られたそれぞれの生体試料中の1つまたは複数の核酸試料からの複数のフラグメントメチル化パターン124-1-1-1、・・・、124-1-1-K (ここで、Kは正の整数である)を含み、各フラグメントメチル化パターンは、1つまたは複数の核酸試料のメチル化配列決定によって決定され、それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位についてのメチル化状態126-1-1-1-1、・・・、126-1-1-1-1-L(ここで、Lは正の整数である;
・それぞれのデータセットについて、1つ以上のゲノム領域128-1-1、…、128-1-M(Mは正の整数)に関連する命令、プログラム、データ、または情報。
・各状態間隔地図は、対応する複数のノード132-1-1、…、132-1-1-1、…、132-1-1-P (ここで、Pは正の整数)を含み、複数のノード内の各ノードは、対応するスタート・メチレーション・部位134-1-1-1-1、対応するエンド・メチレーション・部位136-1-1-1-1、対応するスタート・メチレーション・部位136-1-1-1、および対応するスタート・メチレーション・部位と各ノードの対応するエンド・メチレーション・部位との間で観測される各情報フラグメント・メチレーション・パターンについて、情報フラグメント・メチレーション・パターン138-1-1-1-Q (ここでQは正の整数)の表現 各データセット全体で観測されたカウント140-1-1-1、...、140-1-1-1-1-R (R は正の整数)のフラグメントのうち、フラグメントのメチレーションパターンが対応する開始メチレーション部位で開始し、対応する端部メチレーション部位で端部し、情報フラグメントのメチレーションパターンを持つもの。
いくつかの実施形態では、上述の識別された元素の1つ以上が、前述のメモリデバイスの1つ以上に記憶され、上述の機能を実行するための命令のセットに対応する。上述の識別されたモジュール、データ、またはプログラム(例えば、命令のセット)は、別個のソフトウェアプログラム、プロシージャ、データセット、またはモジュールとして実装されてはならず、したがって、これらのモジュールおよびデータの各種サブセットは、さまざまな実装において、結合されるか、または別の方法で再配置されてもよい。一部の実施では、非永続メモリ111は、上記で識別されたモジュールおよびデータ構造のサブセットを任意に記憶する。さらに、いくつかの実施形態では、メモリは、上述されていない追加のモジュールおよびデータ構造を記憶する。いくつかの実施形態では、システム100がそのようなデータの全部または一部を取り出すことができるように、システム100によってアドレス指定可能な、システム100のもの以外の、上記で識別された元素の1つまたは複数が、コンピュータシステム内に記憶される。
図1は「システム100」を示すが、図は、本明細書に記載される実装の構造的概略図としてよりも、コンピュータ・システム内に存在し得る様々な特徴の機能的説明として意図される。実際には、そして当業者によって認識されるように、別々に示された項目を組み合わせることができ、いくつかの項目を分離することができる。さらに、図1は、非永続的記憶部111内の特定のデータおよびモジュールを示すが、これらのデータおよびモジュールの一部または全部は、永続的記憶部112内にあってもよい。
本開示の特定の実施形態
図1を参照して本開示に準じたシステムが開示されているが、現在の開示に準じた方法は、図2を参照して詳細に開示されている。開示された方法のいずれもが、2017年10月25日出願の米国特許出願第15/793,830号、国際特許公開第WO 2018/081130号「火災検出の方法およびシステム」と題する、および/または米国特許公開第2020-0385813号A1号「メタライゼーション情報を用いた細胞源分断の推定のためのシステムおよび方法」と題する、いずれかのものを全面的に参照して、対象にがんの状態があるか、または、対象ががんの状態にある可能性があるかを判定するために利用することができる。例えば、開示された方法のいずれかは、2017年10月25日に出願された米国特許出願第15/793,830号、国際特許公開第2018/081130号、米国特許公開第2020-0385813号A1号、および/または2018年12月18日に出願された「メチル化情報を使用して細胞源分率を推定するためのシステムおよび方法」と題する米国仮特許出願第62/781,549号に開示された方法またはアルゴリズムのいずれかと関連して作用することができる。
図1を参照して本開示に準じたシステムが開示されているが、現在の開示に準じた方法は、図2を参照して詳細に開示されている。開示された方法のいずれもが、2017年10月25日出願の米国特許出願第15/793,830号、国際特許公開第WO 2018/081130号「火災検出の方法およびシステム」と題する、および/または米国特許公開第2020-0385813号A1号「メタライゼーション情報を用いた細胞源分断の推定のためのシステムおよび方法」と題する、いずれかのものを全面的に参照して、対象にがんの状態があるか、または、対象ががんの状態にある可能性があるかを判定するために利用することができる。例えば、開示された方法のいずれかは、2017年10月25日に出願された米国特許出願第15/793,830号、国際特許公開第2018/081130号、米国特許公開第2020-0385813号A1号、および/または2018年12月18日に出願された「メチル化情報を使用して細胞源分率を推定するためのシステムおよび方法」と題する米国仮特許出願第62/781,549号に開示された方法またはアルゴリズムのいずれかと関連して作用することができる。
図2を参照すると、本開示の一態様は、癌状態を識別または示す複数のメチル化パターンを同定する方法を提供する(ブロック202)。
データセットの取得。
図2Aのブロック204を参照すると、本開示は、癌状態を識別または示す複数の適格なメチル化パターンを同定するためのシステム、方法、およびコンピュータ可読媒体を提供する。上記実施形態では、第1のデータセットが(例えば、電子形態で)取得される。第1のデータセットは、第1の複数のフラグメント中の各フラグメントの対応するフラグメントメチル化パターンを含む。いくつかの実施形態において、それぞれのフラグメント(i)の対応するフラグメントメチル化パターンは、1つ以上の対象の第1のセット中の対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、(ii)それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態を含む。いくつかの実施形態において、第1の複数の断片は、100以上の無細胞核酸断片、1000以上の無細胞核酸断片、10,000以上の無細胞核酸断片、100,000以上の無細胞核酸断片、1,000,000以上の無細胞核酸断片、または10,000,000以上の核酸断片を含む。
図2Aのブロック204を参照すると、本開示は、癌状態を識別または示す複数の適格なメチル化パターンを同定するためのシステム、方法、およびコンピュータ可読媒体を提供する。上記実施形態では、第1のデータセットが(例えば、電子形態で)取得される。第1のデータセットは、第1の複数のフラグメント中の各フラグメントの対応するフラグメントメチル化パターンを含む。いくつかの実施形態において、それぞれのフラグメント(i)の対応するフラグメントメチル化パターンは、1つ以上の対象の第1のセット中の対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、(ii)それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態を含む。いくつかの実施形態において、第1の複数の断片は、100以上の無細胞核酸断片、1000以上の無細胞核酸断片、10,000以上の無細胞核酸断片、100,000以上の無細胞核酸断片、1,000,000以上の無細胞核酸断片、または10,000,000以上の核酸断片を含む。
1つ以上の被験者の最初のセットの被験者数は、申請に依存する。例えば、癌状態が起源の組織である場合(例えば、癌状態の起源を識別するのに助剤適格なメチル化パターンを同定すること)、1人以上の対象の最初のセットにおける対象の数は、典型的には、癌の特定の起源を有する複数の癌対象である(例えば、それらはすべて肺がんを有し、それらはすべて肝臓がんを有するなど)。いくつかの上記実施形態において、複数のがん被験体は、特定のがんの起源を有する5以上の被験体、10以上の被験体、20以上の被験体、30以上の被験体、40以上の被験体、50以上の被験体、100以上の被験体、200以上の被験体、500以上の被験体、1000以上の被験体、10~10,000の被験体、または25,000未満の被験体である。いくつかの上記態様において、複数被験者はすべて、同じステージの癌を有する。別の実施形態では、複数被験者は、癌の様々な病期を有する。いくつかの実施形態において、複数被験者は、転移した癌を有する。いくつかの実施形態において、複数被験者は、転移していない癌を有する。
別の実施例として、癌状態が癌の非存在または存在である場合(実施例えば、癌状態の有無を決定するのに助剤適格なメチル化パターンを同定すること)、1つまたは複数の対象の最初のセットにおける対象の数は、典型的には、癌を有する複数の癌対象である(実施例えば、全て癌を有する、全て試験中の特定の癌を有する、など)。いくつかの上記実施形態において、複数のがん被験体は、5以上の被験体、10以上の被験体、20以上の被験体、30以上の被験体、40以上の被験体、50以上の被験体、100以上の被験体、200以上の被験体、500以上の被験体、1000以上の被験体、10~10,000の被験体、または25,000未満の被験体である。いくつかの上記態様において、複数被験者はすべて、同じステージの癌を有する。別の実施形態では、複数被験者は、癌の様々な病期を有する。いくつかの実施形態において、複数被験者は、転移した癌を有する。いくつかの実施形態において、複数被験者は、転移していない癌を有する。
さらに別の例として、癌状態が特定の癌の病期である場合(例えば、対象が特定の癌状態の特定の病期を有するかどうかを決定するのに助剤適格なメチル化パターンを同定すること)、さらにまた、1つまたは複数の対象の第1のセット中の対象の数は、典型的には、癌状態の病期を有する複数の癌対象である(例えば、全てがII期の乳癌などを有する)。
一方、がんの状態が特定の被験者のがんの状態にプライベート(ユニーク)なフラグメントメチル化パターンを生成するという予想がある場合、1人以上の被験者の最初のセットの被験者数は、1人の被験者である。癌状態が特定の被験体の癌状態にプライベート(ユニーク)であるフラグメントメチル化パターンを生成するという予想が、癌状態が腫瘍分画である場合である非限定的な例。癌状態が特定の被験体の癌状態にプライベート(ユニーク)であるフラグメントメチル化パターンを生成すると予想する別の非限定的な例は、癌状態が特定の被験体の造血状態に影響される場合である。癌の状態が、特定の被験体の癌の状態に個人的な(独特の)フラグメントメチル化パターンを生成するという予想がある場合、1人以上の被験体の第1のセットは、試験中の単一被験体であり、後にさらに詳細に議論される1人以上の被験体の第2のセットは、健康な被験体のコホートのような参照集団である。
いくつかの実施形態では、第1の被験体セットは単一の被験体であり、第2の被験体セットは複数被験者であり、開示された方法を使用して同定されるQMPは、下流側のがん状態分級を検査または評価するために使用される。例えば、癌に罹患している被験体は、第1の被験体セットを構成し得、第2の被験体セットは、癌状態を有さない被験体であり得、開示された方法を用いて同定されたQMPの寄与は、下流側の分級において検査され得る。例えば、分類器は、特定されたQMPの一部または全部を含むか、または含まないように再構築(再訓練)することができ、その性能は、癌状態を有し、有しない被験者の訓練コホートを用いて評価される。
いくつかの実施形態では、第1の被験体セットは単一の被験体であり、第2の被験体セットは複数被験者であり、開示された方法を使用して同定されるQMPは、下流側のがん状態分級を検査または評価するために使用される。例えば、癌に罹患している被験体は、第1の被験体セットを構成し得、第2の被験体セットは、癌状態を有さない被験体であり得、開示された方法を用いて同定されたQMPの寄与は、下流側の分級において検査され得る。例えば、分類器は、特定されたQMPの一部または全部を含むか、または含まないように再構築(再訓練)することができ、その性能は、癌状態を有し、有しない被験者の訓練コホートを用いて評価される。
試験対象
いくつかの実施形態において、試験中の各対象は、上記で定義された対象の例のいずれかである(定義を参照のこと)。いくつかの態様において、被験体はヒトである。いくつかの実施形態では、被験者の第2のセットは、研究グループであり、1つ以上の被験者の第1のセットは、研究グループ内の複数の参加者の参加者でもある単一の被験者である。例えば、いくつかの実施形態において、第2の被験者セットは、CCGA研究からの各参加者である複数の被験者である(例えば、以下の実施例1を参照)。
いくつかの実施形態において、試験中の各対象は、上記で定義された対象の例のいずれかである(定義を参照のこと)。いくつかの態様において、被験体はヒトである。いくつかの実施形態では、被験者の第2のセットは、研究グループであり、1つ以上の被験者の第1のセットは、研究グループ内の複数の参加者の参加者でもある単一の被験者である。例えば、いくつかの実施形態において、第2の被験者セットは、CCGA研究からの各参加者である複数の被験者である(例えば、以下の実施例1を参照)。
生物学的試料
いくつかの態様において、本開示において使用される生物学的試料は、上記で定義された生物学的試料の例のいずれかである(「定義」を参照のこと)。例えば、いくつかの態様において、生物学的試料は、組織(例えば、腫瘍生検)である。図2Aのブロック206~210を参照すると、いくつかの実施形態において、被験体(例えば、被験体)から得られる生物学的試料は、液体生物学的試料である。例えば、いくつかの態様において、それぞれの生物学的試料は、血液試料(例えば、形質、無細胞DNA、および/または白血球)である。いくつかの態様において、それぞれの生物学的試料は、血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙液、胸膜液、心嚢液、または腹膜液を含む。いくつかの態様において、生物学的試料は、細胞源に由来する。いくつかの上記実施形態では、セルソースは、実施例(例えば、以下の実施例7を参照)に詳細に記載される例示的なセルソースのうちのいずれか1つである。
いくつかの態様において、本開示において使用される生物学的試料は、上記で定義された生物学的試料の例のいずれかである(「定義」を参照のこと)。例えば、いくつかの態様において、生物学的試料は、組織(例えば、腫瘍生検)である。図2Aのブロック206~210を参照すると、いくつかの実施形態において、被験体(例えば、被験体)から得られる生物学的試料は、液体生物学的試料である。例えば、いくつかの態様において、それぞれの生物学的試料は、血液試料(例えば、形質、無細胞DNA、および/または白血球)である。いくつかの態様において、それぞれの生物学的試料は、血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙液、胸膜液、心嚢液、または腹膜液を含む。いくつかの態様において、生物学的試料は、細胞源に由来する。いくつかの上記実施形態では、セルソースは、実施例(例えば、以下の実施例7を参照)に詳細に記載される例示的なセルソースのうちのいずれか1つである。
いくつかの態様において、生物学的試料は、癌を有する被験体(例えば、被験体)または健康な(例えば、非癌)被験体から得られる。いくつかの態様において、生物学的試料は、腫瘍組織(例えば、癌)または健康な組織(例えば、非癌)から得られる。いくつかの態様において、生物学的試料は、保管された試料(例えば、凍結、乾燥、または代替的に保管された組織生検もしくは血液試料)から得られる。
いくつかの態様において、生物学的試料は、複数の生物学的試料(例えば、複数の試料を含むプールされた試料)である。複数の生物学的試料は、第1のデータセットを得る前の任意の時点でプールすることができる。例えば、いくつかの態様において、複数の生物学的試料をプールすることは、核酸抽出前(例えば、複数の組織および/または液体の生物学的試料をプールすること)、核酸抽出後であるがメチル化配列決定前(例えば、複数の核酸試料をプールすること)、またはメチル化配列決定後(例えば、複数の配列決定アッセイからシーケンシングデータをプールすること)に生じる。図7および9は、本開示のいくつかの実施形態(例えば、以下の実施例2および3を参照)に従って、生物学的試料から配列決定およびメチル化シーケンシングデータを得るための核酸試料を調製するための方法の例示的フローチャートを示す。
メチル化配列決定から得られたデータ
いくつかの実施形態において、データセット120は、任意のサイズであり得、使用される方法、カバー被覆率、およびメチル化配列決定の深さに応じて、複数のフラグメント中の各フラグメントおよび/または複数のフラグメント中の任意の数のフラグメントについて、任意の数の対応するフラグメントメチル化パターン124を含む。例えば、ブロック212を参照すると、いくつかの実施例において、第1組の対象からのそれぞれの生物試料の(第1組の物質群が複数の物質群から構成される場合)の、それぞれの生物試料の分子のメタル化の順序付けは、第1組のデータセットに含まれることによって、5億以上、10億以上、20億以上、30億以上、40億以上、50億以上、60億以上、70億以上、80億以上、90億以上、100億以上の核酸断片が、第1組のデータセットに含まれることによって、メタル化パターンが評価される。いくつかの代替的な実施形態において、第1の被験体セット中の対応する被験体からのそれぞれの生物学的試料のメチル化配列決定は、第1のデータセット(データセット120)に含めることによってメチル化パターンについて評価される10億未満のフラグメントまたは10,000未満のフラグメントを生成する。
いくつかの実施形態において、データセット120は、任意のサイズであり得、使用される方法、カバー被覆率、およびメチル化配列決定の深さに応じて、複数のフラグメント中の各フラグメントおよび/または複数のフラグメント中の任意の数のフラグメントについて、任意の数の対応するフラグメントメチル化パターン124を含む。例えば、ブロック212を参照すると、いくつかの実施例において、第1組の対象からのそれぞれの生物試料の(第1組の物質群が複数の物質群から構成される場合)の、それぞれの生物試料の分子のメタル化の順序付けは、第1組のデータセットに含まれることによって、5億以上、10億以上、20億以上、30億以上、40億以上、50億以上、60億以上、70億以上、80億以上、90億以上、100億以上の核酸断片が、第1組のデータセットに含まれることによって、メタル化パターンが評価される。いくつかの代替的な実施形態において、第1の被験体セット中の対応する被験体からのそれぞれの生物学的試料のメチル化配列決定は、第1のデータセット(データセット120)に含めることによってメチル化パターンについて評価される10億未満のフラグメントまたは10,000未満のフラグメントを生成する。
いくつかの実施形態において、それぞれのフラグメントの対応するフラグメントメチル化パターンは、メチル化配列決定によって決定され、メチル化配列決定は、それぞれのフラグメントに対応する1つ以上の配列読み取りを生成する。いくつかの実施形態において、複数の断片は、無細胞核酸である。いくつかの実施形態において、それぞれのフラグメントに対応する1つ以上の配列読み取りは、対末端配列読み取りである。いくつかの実施形態において、それぞれのフラグメントに対応する1つ以上の配列読み取りは、シングルエンド配列読み取りである。
図2Aのブロック214を参照すると、いくつかの実施形態において、メチル化配列決定によって得られる対応する複数の配列読み取りの平均配列読み取り長は、140~280ヌクレオチドである。
ブロック216を参照すると、いくつかの実施形態において、メチル化配列決定は、i)全ゲノムメチル化配列決定、またはii)複数の核酸プローブを使用する標的化DNAメチル化配列決定である。いくつかの態様において、メチル化配列決定は、全ゲノム亜硫酸水素配列決定(WGBS)である。
ブロック218~224を参照すると、いくつかの態様において、メチル化配列決定は、それぞれのフラグメント中の1つ以上の5-メチルシトシン(5mC)および/または5-ヒドロキシメチルシトシン(5hmC)を検出する。いくつかの態様において、メチル化配列決定は、1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンの対応する1つ以上のウラシルへの変換を含む。いくつかの上記態様において、1つ以上のウラシルは、メチル化配列決定の間に、1つ以上の対応するチミンとして検出される。いくつかのそのような態様において、1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンの変換は、化成処理、酵素変換、またはそれらの組合せを含む。
ブロック218~224を参照すると、いくつかの態様において、メチル化配列決定は、それぞれのフラグメント中の1つ以上の5-メチルシトシン(5mC)および/または5-ヒドロキシメチルシトシン(5hmC)を検出する。いくつかの態様において、メチル化配列決定は、1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンの対応する1つ以上のウラシルへの変換を含む。いくつかの上記態様において、1つ以上のウラシルは、メチル化配列決定の間に、1つ以上の対応するチミンとして検出される。いくつかのそのような態様において、1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンの変換は、化成処理、酵素変換、またはそれらの組合せを含む。
図2Aのブロック226を参照すると、いくつかの実施形態において、対応する複数のCpG部位におけるCpG部位のメチル化状態は、CpG部位がメチル化されるメチル化配列決定によって決定されるときにメチル化され、CpG部位がメチル化されないメチル化配列決定によって決定されるときに非メチル化される。いくつかの態様において、メチル化状態は「M」として表され、非メチル化状態は「U」として表される。例えば、いくつかの実施形態において、メチル化状態は、非メチル化、メチル化、あいまい(例えば、基礎となるCpGが、配列読取りのペアにおける任意の読取りによってカバーされないことを意味する)、変異体(例えば、読取りが、参照配列に基づいてその期待される位置で生じるCpGと一致せず、部位での実際の変異体または配列エラーによって引き起こされ得ることを意味する)、または競合(例えば、2つの読取りが両方ともCpGと重複するが、一致しない場合)を含むことができるが、これらに限定されない。例えば、その全体が参照により本明細書に組み込まれている、2020年12月11日出願の「パッチ畳み込みニューラルネットワークを使用した癌分類」と題する米国特許出願公開第17/119,606号を参照されたい。
いくつかの態様において、メチル化配列決定(例えば、WGBS)は、試験対象のゲノムの全部または一部にわたって、少なくとも1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、少なくとも20x、少なくとも30x、または少なくとも40xの被覆率(例えば、配列決定深さ)を生じる。
いくつかの実施形態において、メチル化配列決定(例えば、WGBS)は、複数の断片にわたって少なくとも1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、少なくとも20x、少なくとも30x、または少なくとも40xの平均被覆率(例えば、配列決定深さ)を生成する。いくつかの実施形態において、メチル化配列決定(例えば、WGBS)は、データセット120中に表されるフラグメントにわたって、少なくとも1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、少なくとも20x、少なくとも30x、または少なくとも40xの平均被覆率(例えば、配列決定深さ)を生成する。
いくつかの実施態様において、メチル化配列決定(例えば、標的メチル化またはTM配列決定)は、最大1,000x、2,000x、3,000x、5,000、10,000x、15,000x、20,000x、または約30,000xを含むが、これらに限定されない範囲を有する。
いくつかの実施態様において、メチル化配列決定(例えば、標的メチル化またはTM配列決定)は、最大1,000x、2,000x、3,000x、5,000、10,000x、15,000x、20,000x、または約30,000xを含むが、これらに限定されない範囲を有する。
いくつかの実施形態においては、メタル化配列決定(例えば、ターゲット・メタル化またはTM・セグメンテーション)は、複数の断片にわたって、最大1,000x、2,000x、3,000x、5,000x、10,000x、15,000x、20,000x、または約30,000xを含むが、これらに限定されない平均カバー範囲を有する。いくつかの実施形態においては、メタル化配列決定(例えば、WGBS)は、データセット120に表されるフラグメントにわたり、最大1,000x、2,000x、3,000x、5,000x、10,000x、15,000x、20,000x、または約30,000xの平均被覆率(例、シークエンジング深さ)を生成する。
いくつかの実施形態においては、メタル化配列決定は、30,000xより大きいカバレッジ、例えば、少なくとも40,000xまたは50,000xを有する。Ziller et al.、2015、"Coverage recommendations for methylation analysis by with the whole-genome bisulfite sequencing," Nature Methodsを参照のこと。12(3):230-232, doi:10.1038/nmeth.3152、and Masser et al.、2015、"Targeted DNA Methylation Analysis by Next-generation Sequencing," J。Vis.試験(96), e52488、その全体が参照により本明細書に組み込まれているdoi:10.3791/52488
いくつかの実施形態において、メチル化配列決定は、対末端配列決定または単一末端配列決定である。
いくつかの実施形態において、メチル化シーケンシングは2値である。いくつかの態様において、メチル化配列決定はセミバイナリーである。本明細書で使用される場合、バイナリーメチル化配列決定とは、メチル化部位および非メチル化部位の両方に特異的なハイブリダイゼーションプローブを用いて、完全にメチル化および/または完全にメチル化されていないCpG部位を配列決定することを指す。あるいは、本明細書で使用する場合、セミバイナリーメチル化配列決定とは、メチル化または非メチル化部位のいずれかに特異的なハイブリダイゼーションプローブを用いて、メチル化または非メチル化のいずれかであるCpG部位を配列決定することを指す。
バイナリープローブを用いて実施されるメチル化配列決定は、被覆率の深さを改善し、メチル化配列決定データセットにおけるバイアスを低減することができる。したがって、いくつかの実施形態では、WGBSは、二元プローブを使用して実施される。いくつかの代替実施では、標的化メチル化(TM)配列決定は、二成分および/または半二成分プローブを使用して行われる。いくつかのそのような実施形態では、データセットから、セミバイナリプローブによって標的化される任意のフラグメントの対応するフラグメントメチル化パターンを除去する(例えば、フィルタリングする)ことによって、全体的なカバー被覆率の深さが改善される(例えば、セミバイナリプローブを使用して配列決定されたフラグメントに対応する配列決定読み取りがフィルタリングされる)。あるいは、いくつかの実施形態では、セミバイナリプローブを用いて配列決定された1つまたは複数のフラグメントは、データセットから除去されず、深さカットオフは、深さカットオフより下の配列決定深さを有する領域(例えば、参照ゲノムの)に重なる任意のフラグメントの対応するフラグメントメチル化パターンがデータセットから除去されるように、第1のデータセットに適用される。例えば、二元シーケンシングがより高い被覆率の深さを提供し、セミ二元シーケンシングがより低い被覆率の深さを提供する場合、深さカットオフを適用することは、データセット内の任意の残りの領域が少なくとも最小の被覆率の深さを含むことを効率的に保証し、それによって、データセット内の全体的なバイアスを低減する。いくつかの実施形態では、深さカットオフは、二値シークエンシングによって提供される最小被覆率深さの推定値、および/または半二値シークエンシングによって提供される最大被覆率深さの推定値である。
いくつかの実施形態において、メチル化配列決定(例えば、WGBSおよび/またはTM配列決定)は、組織(例えば、腫瘍生検)または血液試料(例えば、形質、無細胞DNA、および/または白血球)を用いて実施される。
いくつかの実施形態において、複数のフラグメントに対する複数のフラグメントメチル化パターンは、対象の設定中の対応する対象から得られたそれぞれの生物学的試料からの核酸の複数のメチル化配列決定によって決定される。例えば、いくつかのそのような態様において、複数のフラグメントメチル化パターンは、WGBSおよび標的DNAメチル化配列決定の両方を使用して、それぞれの生物学的試料から得られる。
いくつかの実施形態において、複数のフラグメントに対する複数のフラグメントメチル化パターンは、対象の設定中の対応する対象から得られたそれぞれの生物学的試料からの核酸の複数のメチル化配列決定によって決定される。例えば、いくつかのそのような態様において、複数のフラグメントメチル化パターンは、WGBSおよび標的DNAメチル化配列決定の両方を使用して、それぞれの生物学的試料から得られる。
いくつかの実施形態において、本方法は、複数の断片中のそれぞれの断片についてのデータを配列決定することを含むデータセットを得ることをさらに含み、シーケンシングデータは、対応する対象から得られたそれぞれの生物学的試料からの核酸の1つ以上の配列決定アッセイ(例えば、WGS、標的化配列決定)によって決定される。例えば、いくつかの上記実施形態において、1つ以上のフラグメントメチル化パターンおよび1つ以上の配列決定データセットは、例えば、WGBS、標的化メチル化(TM)配列決定、WGS、標的化配列決定、および/またはそれらの任意の組み合わせを使用して、それぞれの生物学的試料から得られる。複数の配列決定および/またはメチル化配列決定データセットの比較を、実施例5および図11に以下に記載する。
メチル化配列決定(例えば、WGBSおよび/または標的化メチル化配列決定)に関するさらなる詳細については、例えば、2019年3月13日に出願された「Methylation Fragment Anomaly Detection」と題する米国特許公開第2019-0287652 A1号、および「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開第2020-0385813A1号を参照されたい。メチル化配列決定のための他の方法(本明細書に開示されているものおよび/またはその任意の修飾、置換、もしくは組み合わせを含む)は、当業者に明らかなように、フラグメントメチル化パターンを得るために使用することができる。
フラグメント
いくつかの態様において、複数の断片中のそれぞれの断片は、本明細書に開示されるメチル化配列決定方法のいずれかによって決定されるように、開始位置、終了位置、および開始位置と終了位置との間のそれぞれの断片内に位置する1つ以上のメチル化部位(例えば、CpG部位)を含む。いくつかの態様において、開始位置および/または端位置は、メチル化部位または参照ゲノム中の位置である。いくつかの態様において、複数の断片中のそれぞれの断片は、参照ゲノムに整列される。したがって、いくつかのそのような実施形態では、複数のフラグメント中の各フラグメント中の各メチル化部位は、参照ゲノム中の特定の部位にインデックス付けされる。同様に、複数の断片中のそれぞれの断片がメチル化部位である開始位置および/または終了位置、および/または開始位置と終了位置との間のそれぞれの断片内に位置する1つ以上のメチル化部位を含む場合、それぞれの断片中のそれぞれのメチル化部位は、参照ゲノム中の特定の部位にインデックス化することができる。
いくつかの態様において、複数の断片中のそれぞれの断片は、本明細書に開示されるメチル化配列決定方法のいずれかによって決定されるように、開始位置、終了位置、および開始位置と終了位置との間のそれぞれの断片内に位置する1つ以上のメチル化部位(例えば、CpG部位)を含む。いくつかの態様において、開始位置および/または端位置は、メチル化部位または参照ゲノム中の位置である。いくつかの態様において、複数の断片中のそれぞれの断片は、参照ゲノムに整列される。したがって、いくつかのそのような実施形態では、複数のフラグメント中の各フラグメント中の各メチル化部位は、参照ゲノム中の特定の部位にインデックス付けされる。同様に、複数の断片中のそれぞれの断片がメチル化部位である開始位置および/または終了位置、および/または開始位置と終了位置との間のそれぞれの断片内に位置する1つ以上のメチル化部位を含む場合、それぞれの断片中のそれぞれのメチル化部位は、参照ゲノム中の特定の部位にインデックス化することができる。
いくつかの実施形態において、固有の断片は、それぞれの断片の1以上のメチル化部位のそれぞれの開始位置および終了位置および/またはメチル化状態の配列(例えば、断片メチル化パターン)によって決定される。例えば、いくつかの実施形態において、異なる開始位置および終了位置を有する2つのフラグメントは、フラグメントメチル化パターンが同一であるかまたは異なるかにかかわらず、固有であるとみなされる。いくつかの実施形態において、2つのフラグメントは、開始位置または端位置のうちの1つが2つのフラグメントの間で共有されている場合であっても(例えば、2つのフラグメントが異なる長さであるように、同じ開始位置であるが異なる端位置を有する2つのフラグメント)、ユニークであると見なすことができる。いくつかの代替実施では、同一の開始位置および終了位置を有するが、異なるフラグメントメチル化パターンを有する2つのフラグメントは、ユニークであるとみなされる(例えば、「MMMMM」および「UMM」のような、CpG部位のスパン内の1つまたは複数のCpG部位に対して異なるメチル化状態を有するが、参照ゲノムの同一領域に配列された2つのフラグメント)。
いくつかの実施形態において、それぞれのフラグメントの対応するフラグメントメチル化パターンは、それぞれのフラグメント中の対応する複数のCpG部位のうちのすべてより少ないCpG部位のメチル化状態を含み、ここで、それぞれの1つ以上のフラグメント中の1つ以上のCpG部位は、「信頼性がない」と考えられる。例えば、いくつかの実施形態において、「信頼性がない」CpG部位は、変形例、あいまいな、または矛盾したメチル化状態を有するCpG部位、および/またはメチル化配列決定出力不良をもたらすことが知られているCpG部位を含む。いくつかの上記実施形態において、それぞれの1つまたは複数の信頼性のないCpG部位は、その後のすべての分析およびプロセスのために、複数の断片から除去される(例えば、欠失される)。例えば、いくつかの態様において、欠失は、それぞれのデータセット中のそれぞれの複数のフラグメント中のそれぞれのフラグメントの対応するフラグメントメチル化パターンから、(それぞれの1つまたは複数のCpG部位のそれぞれの1つまたは複数のメチル化状態によって表されるようである)それぞれの1つまたは複数のCpG部位を除去することによって行われる。いくつかの代替的な実施形態では、それぞれの1つまたは複数の信頼性のないCpG部位は、複数の断片から除去されず、そうでなければ、その後のすべての分析およびプロセスのためにバイパスされる。例えば、いくつかの実施形態では、バイパスは、それぞれの信頼性のないCpG部位ごとに、それぞれのデータセット内のそれぞれの複数の断片におけるそれぞれの断片の対応する断片メチル化パターンにおいて、それぞれのCpG部位におけるメチル化状態表現の代わりにプレースホルダーまたは置換表現を挿入することによって行われる。いくつかの実施形態において、プレースホルダまたは代替表現は、例えば、ワイルドカードまたはヌル文字である。
いくつかの実施形態において、複数のフラグメントは、フィルタリングされる。いくつかの実施形態では、複数のフラグメントは、例えば、深さ、最小マッピング品質(MAPQ)、重複フラグメント、未解決フラグメント、未変換フラグメント、曖昧呼び出し、変形例呼び出し、競合呼び出し、および/またはp値についてフィルタリングされる。
いくつかの実施形態において、複数の断片は、重複するCpG部位を含む断片について濾過される。いくつかの実施形態では、複数のフラグメントは、代替配列決定方法と読み取り支持を共有するフラグメントについてフィルタリングされる。例えば、1つ以上のメチル化配列決定データセットおよび1つ以上の配列決定データセットが、例えば、WGBS、TM配列決定、WGS、および/または標的化配列決定を使用してそれぞれの生物学的試料から取得されるいくつかの実施形態では、それぞれのデータセットが比較され、1つ以上のメチル化配列決定データセットが、1つ以上の配列決定データセットを使用して決定されるように、小さな変異体、既知のバイオマーカー、および/または癌状態に関連する領域も含まないフラグメントを除去するためにフィルタリングされる。
最初と2番目のデータセット。
図2Bのブロック228を参照すると、いくつかの実施形態では、第2のデータセットが電子形式で取得される。第2のデータセットは、第2の複数の断片中の各断片の対応する断片メチル化パターンを含む。それぞれのフラグメント(i)の対応するフラグメントメチル化パターンは、第2の対象セット中の対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、そして(ii)それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態を含む。典型的な実施形態では、第2の被写体セットは、複数の被写体(例えば、2以上の被写体、3以上の被写体、5以上の被写体、50以上の被写体、100以上の被写体、500以上の被写体または1000以上の被写体)を含む。いくつかの実施形態において、第2の複数の断片は、100以上の無細胞核酸断片、1000以上の無細胞核酸断片、10,000以上の無細胞核酸断片、100,000以上の無細胞核酸断片、1,000,000以上の無細胞核酸断片、または10,000,000以上の核酸断片を含む。
いくつかの実施形態において、第2のデータセットは、本明細書に開示された方法のいずれかを使用して(例えば、第1のデータセットについて記載された方法および/または実施形態のいずれかを使用して)取得される。図2Bのブロック230を参照すると、いくつかの実施形態において、第1の複数の断片(第1のデータセットの)および第2の複数の断片(第2のデータセットの)は、無細胞核酸である。
図2Bのブロック228を参照すると、いくつかの実施形態では、第2のデータセットが電子形式で取得される。第2のデータセットは、第2の複数の断片中の各断片の対応する断片メチル化パターンを含む。それぞれのフラグメント(i)の対応するフラグメントメチル化パターンは、第2の対象セット中の対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、そして(ii)それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態を含む。典型的な実施形態では、第2の被写体セットは、複数の被写体(例えば、2以上の被写体、3以上の被写体、5以上の被写体、50以上の被写体、100以上の被写体、500以上の被写体または1000以上の被写体)を含む。いくつかの実施形態において、第2の複数の断片は、100以上の無細胞核酸断片、1000以上の無細胞核酸断片、10,000以上の無細胞核酸断片、100,000以上の無細胞核酸断片、1,000,000以上の無細胞核酸断片、または10,000,000以上の核酸断片を含む。
いくつかの実施形態において、第2のデータセットは、本明細書に開示された方法のいずれかを使用して(例えば、第1のデータセットについて記載された方法および/または実施形態のいずれかを使用して)取得される。図2Bのブロック230を参照すると、いくつかの実施形態において、第1の複数の断片(第1のデータセットの)および第2の複数の断片(第2のデータセットの)は、無細胞核酸である。
再び図2Bのブロック228を参照すると、いくつかの実施形態において、(第1のデータセットの)第1の被験体セットの各被験体は、癌状態の第1の状態を有し、(第2のデータセットの)第2の被験体セットの各被験体は、癌状態の第2の状態を有する。上記で定義したように、様々な実施形態では、がん状態の状態は、適用に依存する。いくつかの実施形態において、癌状態は、対象に癌が存在するか否か(例えば、存在するか否か)である。いくつかの実施形態において、癌状態は、癌の病期、腫瘍の大きさ、転移の有無、身体の総腫瘍量(例えば、腫瘍分率)、および/または癌の重症度(例えば、癌の再発)の別の測定値である。いくつかの実施形態において、癌状態の第1の状態は、試料状態(例えば、がん性試料)であり、癌状態の第2の状態は、参照試料(例えば、健康な試料)である。いくつかの実施形態において、癌状態の第1の状態および癌状態の第2の状態は、それぞれ、生物学的試料が収集された初期時点および後時間である。いくつかの実施形態では、癌状態は、試験対象の腫瘍分率(例えば、1つ以上の対象の第1のセットの対象。いくつかの実施形態では、癌状態は、癌起点(例えば、肺、大腸、乳房など)である)である。
状態間隔地図の生成
図2Cのブロック232を参照すると、いくつかの実施形態では、第1のデータセットを使用して、1つまたは複数の対応するゲノム領域について、1つまたは複数の第1の状態間隔地図が生成される。1つ以上の第1の状態間隔地図内の各第1の状態間隔地図は、対応する独立した複数のノードを備える。いくつかの実施形態では、対象の第1のセットについて1つの状態間隔地図のみが存在し、この状態間隔地図は、試験中のゲノムの領域の全体(例えば、ゲノムの全部または一部)を表す。他の実施形態では、1つ以上の被写体の第1のセットについて、いくつかの状態間隔地図が存在する。このような場合、典型的には、それぞれの状態間隔地図は、ゲノムの異なる領域を表す。例えば、いくつかの実施形態では、各状態間隔地図は、異なる染色体を表す。いくつかの実施形態では、2、3、4、5、6、7、8、9、10、2~30、または30を超える状態間隔地図が、第1のデータセット中のメチル化データを使用して生成される。典型的な実施形態では、上記各状態間隔地図は、参照ゲノムの異なる部分を表す。例えば、いくつかの実施形態では、上記各状態間隔地図は、異なる染色体を表す。
生成された単一の状態間隔地図または複数の状態間隔地図があるかどうかにかかわらず、1つまたは複数の第1の状態間隔地図内の各対応する複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する終了メチル化部位との間の第1のデータセット内の第1の複数の断片にわたって観察されるそれぞれの異なる断片メチル化パターンによって特徴づけられる、(i)異なる断片メチル化パターンの表現、および(ii)対応する開始メチル化部位で開始し、対応する終了メチル化部位で終了し、異なる断片メチル化パターンを有する第1のデータセット内の断片のカウント。
図2Cのブロック232を参照すると、いくつかの実施形態では、第1のデータセットを使用して、1つまたは複数の対応するゲノム領域について、1つまたは複数の第1の状態間隔地図が生成される。1つ以上の第1の状態間隔地図内の各第1の状態間隔地図は、対応する独立した複数のノードを備える。いくつかの実施形態では、対象の第1のセットについて1つの状態間隔地図のみが存在し、この状態間隔地図は、試験中のゲノムの領域の全体(例えば、ゲノムの全部または一部)を表す。他の実施形態では、1つ以上の被写体の第1のセットについて、いくつかの状態間隔地図が存在する。このような場合、典型的には、それぞれの状態間隔地図は、ゲノムの異なる領域を表す。例えば、いくつかの実施形態では、各状態間隔地図は、異なる染色体を表す。いくつかの実施形態では、2、3、4、5、6、7、8、9、10、2~30、または30を超える状態間隔地図が、第1のデータセット中のメチル化データを使用して生成される。典型的な実施形態では、上記各状態間隔地図は、参照ゲノムの異なる部分を表す。例えば、いくつかの実施形態では、上記各状態間隔地図は、異なる染色体を表す。
生成された単一の状態間隔地図または複数の状態間隔地図があるかどうかにかかわらず、1つまたは複数の第1の状態間隔地図内の各対応する複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する終了メチル化部位との間の第1のデータセット内の第1の複数の断片にわたって観察されるそれぞれの異なる断片メチル化パターンによって特徴づけられる、(i)異なる断片メチル化パターンの表現、および(ii)対応する開始メチル化部位で開始し、対応する終了メチル化部位で終了し、異なる断片メチル化パターンを有する第1のデータセット内の断片のカウント。
間隔地図で表されるゲノム領域。
いくつかの実施形態において、1つまたは複数の第1の状態間隔地図内のそれぞれの間隔地図は、(例えば、参照ゲノム内の)ゲノム領域に対応する。したがって、それぞれのゲノム領域に対応するそれぞれの間隔地図について、それぞれの間隔地図で表されるフラグメントメチル化パターンを有する第1のデータセット中の第1の複数のフラグメント中のそれぞれのフラグメントは、同じそれぞれのゲノム領域にも対応する(例えば、フラグメントは、間隔地図に対応する参照ゲノムの同じ領域に整列される)。
いくつかの実施形態において、1つまたは複数の第1の状態間隔地図内のそれぞれの間隔地図は、(例えば、参照ゲノム内の)ゲノム領域に対応する。したがって、それぞれのゲノム領域に対応するそれぞれの間隔地図について、それぞれの間隔地図で表されるフラグメントメチル化パターンを有する第1のデータセット中の第1の複数のフラグメント中のそれぞれのフラグメントは、同じそれぞれのゲノム領域にも対応する(例えば、フラグメントは、間隔地図に対応する参照ゲノムの同じ領域に整列される)。
いくつかの実施形態において、1つまたは複数の第1の状態区間地図は、1つまたは複数の固有のゲノム領域および/または1つまたは複数の重複ゲノム領域に対応する。いくつかの実施形態において、1つまたは複数の第1の状態間隔地図は、同じゲノム領域に対応する。いくつかの実施形態において、1つまたは複数の第1の状態間隔地図は、複数の第1の状態間隔地図であり、1つまたは複数の対応するゲノム領域は、複数のゲノム領域であり、複数のゲノム領域内のそれぞれのゲノム領域は、複数の第1の状態間隔地図内の第1の状態間隔地図によって表される。いくつかの実施形態において、複数のゲノム領域は、10~30である。いくつかの上記実施形態では、複数のゲノム領域は、2~1000のゲノム領域、500~5000のゲノム領域、1000~20,000のゲノム領域、または5000~50,000のゲノム領域からなる。
いくつかの実施形態において、1つまたは複数の第1の状態間隔地図は、同じサイズまたは異なるサイズ、数または量(例えば、数のCpG部位および/または数の塩基対である長さとして表される)のゲノム領域に対応する。例えば、ブロック234~238を参照すると、いくつかの実施形態では、1以上の対応するゲノム領域にわたって10,000を超えるCpG部位、25,000を超えるCpG部位、50,000を超えるCpG部位、または80,000を超えるCpG部位が存在する。いくつかの代替実施では、1以上の対応するゲノム領域にわたって、10,000未満のCpG部位、25,000未満のCpG部位、50,000未満のCpG部位、または80,000未満のCpG部位が存在する。いくつかの実施形態において、1以上の対応するゲノム領域の各ゲノム領域は、ヒトゲノム参照配列の500塩基対から10,000塩基対の間を表す。いくつかの実施形態では、間隔地図は、参照ゲノムの所定の領域内のすべての既知のCpG部位を表す。いくつかの実施形態において、間隔地図は、参照ゲノムの所定の領域における既知のCpG部位のサブセットのみを表す。いくつかの実施形態において、特定の間隔地図に対する1つ以上の対応するゲノム領域内の各ゲノム領域は、ヒトゲノム参照配列の500塩基対から2000塩基対の間を表す。いくつかの代替実施では、特定のインターバルマップに対する1つ以上の対応するゲノム領域内の各ゲノム領域は、ヒトゲノム参照配列の500塩基対未満または10,000塩基対超を表す。
図2Cのブロック240を参照すると、いくつかの実施形態では、特定の間隔地図に対する1つ以上の対応するゲノム領域内の各ゲノム領域は、ヒトゲノム参照配列の異なる部分を表す。例えば、いくつかの上記実施形態では、特定の区間地図に対する1つ以上の対応するゲノム領域内の各ゲノム領域は、異なるヒト染色体である。いくつかの実施形態において、ヒトゲノム参照配列の各部分は、それぞれの1つ以上の間隔地図によって表される。
ノード構築
上述のように、1つ以上の第1の状態間隔地図内の各第1の状態間隔地図は、独立した複数のノードを含む。それぞれのノードは、対応する開始メチル化部位、対応する端部メチル化部位、およびそれぞれのノードのそれぞれの開始および端部メチル化部位で開始および端部する第1のデータセット内の複数のフラグメントにおけるそれぞれの異なるフラグメントメチル化パターンの表示およびカウントによって特徴付けられる。いくつかの実施形態では、独立した複数のノードは、2つ以上のノード、3つ以上のノード、4つ以上のノード、5つ以上のノード、10つ以上のノード、20つ以上のノード、50つ以上のノード、または100つ以上のノードを含む。
上述のように、1つ以上の第1の状態間隔地図内の各第1の状態間隔地図は、独立した複数のノードを含む。それぞれのノードは、対応する開始メチル化部位、対応する端部メチル化部位、およびそれぞれのノードのそれぞれの開始および端部メチル化部位で開始および端部する第1のデータセット内の複数のフラグメントにおけるそれぞれの異なるフラグメントメチル化パターンの表示およびカウントによって特徴付けられる。いくつかの実施形態では、独立した複数のノードは、2つ以上のノード、3つ以上のノード、4つ以上のノード、5つ以上のノード、10つ以上のノード、20つ以上のノード、50つ以上のノード、または100つ以上のノードを含む。
いくつかの実施形態では、独立した複数のノード内の各ノードの比開始および終了メチル化部位は、参照ゲノム内の位置(例えば、ゲノム領域および/またはCpG部位内の位置)に索引付けされる。したがって、いくつかの好ましい実施形態では、それぞれの第1の状態間隔地図内のそれぞれのノードは、それぞれの1つ以上のフラグメントの開始および端部メチル化部位に基づいて、第1のデータセット内の複数のフラグメント内の1つ以上のフラグメントをグループ化することによって構築され(例えば、フラグメントが参照ゲノムに整列され、各フラグメント参照ゲノム内の位置にインデックスされる開始および端部メチル化部位を含み、各フラグメントノード内に完全に含まれるように)、
いくつかの好ましい態様において、それぞれのノードの開始および端部メチル化部位に対応する開始および端部メチル化部位を含まないフラグメント(例えば、それぞれのノード内に部分的に含有されるか、またはそれぞれのノードと重複するフラグメント、および/またはそれぞれのノードより小さいか、または大きいフラグメント)は、それぞれのノードにおいて表されない。
したがって、本明細書に記載されるようなそのような実施において、フラグメントは、例えば、CpG部位のインデックスにおけるそれらのゲノム座標または位置によって同定される、CpG部位の配列を含むフラグメントレベルのノードに変換される。
いくつかの実施形態において、「ユニーク」と考えられる(例えば、異なる開始および終了メチル化部位および/または異なるメチル化パターンを有する)フラグメントは、異なるそれぞれのノードに配置される。
いくつかの実施形態において、それぞれのノード中の各断片中の各CpG部位(例えば、メチル化:「M」、非メチル化:「U」)の状態は、さらに、それぞれのノード中に含まれる1つまたは複数の異なる断片メチル化パターンによって表される。いくつかの好ましい実装形態では、各ノードに表される各異なるフラグメントメチル化パターンは、ノード内のそれぞれの1つまたは複数のフラグメントのフラグメントメチル化パターン全体に対応する(例えば、各断片がノードの開始位置および終了位置で開始および終了し、対応するフラグメントメチル化パターンがノード内に完全に含まれる)。
いくつかの実施形態において、それぞれのノード中の各断片中の各CpG部位(例えば、メチル化:「M」、非メチル化:「U」)の状態は、さらに、それぞれのノード中に含まれる1つまたは複数の異なる断片メチル化パターンによって表される。いくつかの好ましい実装形態では、各ノードに表される各異なるフラグメントメチル化パターンは、ノード内のそれぞれの1つまたは複数のフラグメントのフラグメントメチル化パターン全体に対応する(例えば、各断片がノードの開始位置および終了位置で開始および終了し、対応するフラグメントメチル化パターンがノード内に完全に含まれる)。
いくつかの実施形態において、ノードは、それぞれのノードにおけるそれぞれのフラグメントのフラグメントメチル化パターンに基づいて1つまたは複数のフラグメントをグループ化することによって構築される。
いくつかの実施形態において、ノードは、対応する開始メチル化部位と、対応するノードの末端メチル化部位との間および/またはそれらを含む同一のフラグメントメチル化パターンを有する1つ以上のフラグメントをグループ化することによって構築される。例えば、いくつかの実施形態において、参照ゲノム中の特定の開始位置および終了位置に対応する第1の開始メチル化部位および第1の終了メチル化部位をそれぞれ含む第1のフラグメントセットは、第1のノードにグループ化される。いくつかのそのような実施形態では、第2の複数のフラグメントのフラグメントメチル化パターンがCpG部位の配列中の1つ以上のCpG部位における第1の複数のフラグメントのフラグメントメチル化パターンと異なる場合、第1の開始メチル化部位および第1の端部メチル化部位とそれぞれ参照ゲノム中の同じ位置に対応する第2の開始メチル化部位および第2の端部メチル化部位を含む第2の複数のフラグメントは、それにもかかわらず、第2のノードにグループ化される。したがって、いくつかの上記実施形態では、それぞれのノードの開始メチル化部位および端部メチル化部位で開始および端部し、かつ特異的フラグメントメチル化パターンを含むフラグメントのみが、ノードに充填される。
いくつかの態様において、ノードは、対応する開始メチル化部位とそれぞれのノードの対応する末端メチル化部位との間および/またはそれらを含む異なるフラグメントメチル化パターンを有する1つ以上のフラグメントをグループ化することによって構築される。いくつかの上記態様において、ノードは、1、2、3、4、5、6、7、8、9、10、または10を超えるCpG部位状態(例えば、1つまたは複数のCpG部位で異なるメチル化状態を有する)だけ異なる1つまたは複数の断片をグループ化することによって構築される。いくつかのそのような態様において、ノードは、それぞれの1つ以上のフラグメントメチル化パターンが10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%異なる1つ以上のフラグメントをグループ化することによって構築される。
いくつかの実施形態において、ノードは、1つまたは複数のCpG部位において異なるCpG状態を有する1つまたは複数の断片をグループ化することによって構築され、ここで、それぞれの1つまたは複数のCpG部位は、それぞれの1つまたは複数の断片にわたって対応しない位置に位置する。いくつかの代替的な実施形態では、ノードは、CpG状態が1つ以上のCpG部位で異なる1つ以上のフラグメントをグループ化することによって構築され、ここで、それぞれの1つ以上のCpG部位は、それぞれの1つ以上のフラグメントにわたる対応する位置に位置する。例えば、いくつかの上記実施形態では、例えば、第1のCpG部位におけるメチル化状態にかかわらず、1つ以上のフラグメントをノードに含めることができ、一方、残りのすべてのCpG部位におけるメチル化状態は同一でなければならない。いくつかの上記実施形態では、すべてのフラグメントにわたって異なることが許可されるCpG部位は、間隔地図内のプレースホルダまたは代替表現(例えば、ワイルドカードまたはヌル文字)によって表される。
いくつかの実施形態において、それぞれの第1の状態間隔地図に対する独立した複数のノードは、それぞれの第1の状態間隔地図のそれぞれの対応するゲノム領域にも対応する。いくつかの上記実施形態では、それぞれの第1の状態間隔地図に対するそれぞれの独立した複数のノードは、それぞれの独立した複数のノードの特性(例えば、開始および終了メチル化部位および/または表されたフラグメントメチル化パターン)によって決定されるように、任意の他の第1の状態間隔地図に対する任意の他の独立した複数のノードから固有である(例えば、独立している)。
いくつかの実施形態において、ノードは、1つ以上のCpG部位を含む対応するゲノム領域またはサブ領域を表す。いくつかの実施形態において、ノードは、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20または20を超えるCpG部位を含む対応するゲノム領域またはサブ領域を表す。いくつかの実施形態において、ノードは、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20または20を超える隣接CpG部位を含む対応するゲノム領域またはサブ領域を表す。いくつかの実施形態において、ノードは、ヒト参照ゲノム中の2~100個の隣接するCpG部位を含む対応するゲノム領域またはサブ領域を表す。
図12は、本開示のいくつかの実施形態による、2つの例示的ノードを含むそれぞれの間隔地図を示す。図12では、4つの独立したフラグメントが2つのノードに編成されている。各ノードは、開始メチル化部位および終了メチル化部位(例えば、ノード1:位置0~4、ノード2:位置0~5)と、各フラグメントの開始位置と端位置との間のデータセットにおいて観察される各メチル化パターンの表現(例えば、ノード1: UMMU、UMMU;ノード2: UMMUM、UMUU)とを含む。この実施例では、開始および端部メチル化部位を示す位置は間隔[開始、端部]として表され、ここで、開いたブラケットは包括性を示し、閉じたブラケットは排他性を示す。したがって、図12に示すように、位置[0,4]にまたがるノードは、位置0、1、2、および3に位置するCpG部位を含み、位置0、1、2、および3のそれぞれは、対応するゲノム位置を有する。同様に、位置[0,5]にまたがるノードは、位置0、1、2、3、および4に位置するCpG部位を含み、位置0、1、2、3、および4のそれぞれは、対応するゲノム位置を有する。いくつかの実施形態において、ノード内のゲノム位置は、隣接するCpG部位の位置に対応する。
ノード1の各断片は、同一の開始および終了メチル化部位(例えば、位置0および位置3に位置する)を含む。ノード2の各断片はまた、同じ開始および終了メチル化部位(例えば、位置0および位置4に位置する)を含む。ノード1の各断片は、いくつかの実施形態に従って同じフラグメントメチル化パターン(例えば、UMMU)を含むが、ノード2の各断片は、本開示のいくつかの代替実施形態に従って、異なるフラグメントメチル化パターン(例えば、UMMUMおよびUMUU)を含む。
各ノードは、ノード内に存在する各異なるフラグメントメチル化パターンを含むフラグメントのカウントをさらに含む。例えば、ノード1は、それぞれが同じフラグメントメチル化パターン(例えば、状態: UMMU、カウント:2)を含む2つのフラグメントを含み、ノード2は、それぞれが固有のフラグメントメチル化パターン(例えば、状態: UMMUM、カウント:1;状態: UMUU、カウント:1)を含む2つのフラグメントを含む。したがって、区間地図内の各ノードは、データセット内のメチル化配列情報を簡略化された容易に検索可能なフォーマットで効率的に提示する。
いくつかの実施形態において、第1のデータセット中の第1の複数のフラグメント中の各断片は、1つまたは複数の第1の状態間隔地図中のノード中で(例えば、それぞれのフラグメントのフラグメントメチル化パターンの表現として)表される。
いくつかの上記実施形態では、1つまたは複数の間隔地図は、したがって、データセット内の複数のフラグメント内のすべてのフラグメントのメチル化状態に関して無損失であるデータセット(例えば、メチル化シークエンシングデータセット)の低減された表現を提供する。いくつかの好ましい実施形態では、1つまたは複数の間隔地図は、計算的に処理可能な方法(例えば、テキストマッチング)で、リソース発見のための大規模データセットを照会するために使用される、低減された表現を提供する。
間隔地図の生成方法
上記では、メチル化シークエンシングデータセットからのフラグメントデータを用いて間隔マップのためのノードを構築する説明を提供するが、間隔マップを生成するための複数の実装が可能である。
上記では、メチル化シークエンシングデータセットからのフラグメントデータを用いて間隔マップのためのノードを構築する説明を提供するが、間隔マップを生成するための複数の実装が可能である。
例えば、いくつかの実施形態では、1つまたは複数の第1の状態間隔地図内のそれぞれの間隔地図の対応する独立した複数のノードは、1つまたは複数の対応するゲノム領域内の対応する領域を表す対応するツリーとして配置される。それぞれの区間地図に対する対応する独立した複数のノード内のそれぞれのノードは、対応するゲノム領域のサブ領域を表す。
いくつかの実施形態では、各対応する木は、対応する独立した複数のノードを対応する複数のリーフに配置し、対応する複数のリーフ内の各リーフの親ノードは、1つ以上の子ノードを参照する。
いくつかの実施形態では、それぞれの間隔地図の独立した複数のノードは、マスターノードと複数のワーカーノードと、属性値をDHT鍵にマッピングすることによってオブジェクト記憶およびルックアップを管理するために分散ハッシュテーブル(DHT)を利用する、構造化または非構造化ピアツーピアリソース発見骨格(例えば、MAAN、SWORD、Mercury、Brunet、Chord、CAN、および/またはPastry)と、を含むクライアント/サーバリソース発見骨格を使用して構築される。
いくつかの好ましい実施形態では、木は、ランダム化表面積発見的を有するKd木の一次元版である。例えば、その全体が参照により本明細書に組み込まれているWald、2007、"On Fast Construction of SAH-based Bounding Volume Hierarchies"、IEEE、doi:10.1109/RT.2007.4342588を参照されたい。ある実施形態では、木は自己組織化再帰的分割マルチキャスト木である。
いくつかの実施形態では、木は、マッチ木を使用して作成される。MatchTreeは、分散問合せ処理(例えば、メチル化状態パターンを含む間隔とゲノム配列および/または配列決定データセットとのテキストマッチング)および結果の集約(例えば、問合せられたメチル化状態パターンを含む間隔の同定)のための自己組織化木を作成する、構造化されていないP2Pベースのリソース発見フレームワークである。木構造は、高い管理コスト、スケーラビリティの制限、およびマスターノードの障害に起因するリソースへのアクセスの損失を被る代替方法の障害を最小限に抑える。MatchTreeはさらに、複雑なクエリ、部分文字列(例えば、部分文字列)マッチング、および/または正規表現マッチング(例えば、ワイルドカード)、問い合わせの完全性(例えば、利用可能なすべての資源の完全な検索)を保証することによって、構造化P2Pフレームワークよりも利点を提供する。例えば、Lee et al.、2013、"MatchTree: Flexible、scalable、and fault-tolerant wide-area resource discovery with distributed matchmaking and aggregation"、Fut Gen Comp Sys 29、1596-1610を参照されたい。これらは。
いくつかの実施形態では、間隔地図は、当業者に明らかなように、本明細書に記載される方法および実施形態のいずれか、またはそれらの任意の修正、置換、または組合せを使用して生成される。注目すべきことに、メチル化パターンの同定のための間隔地図の使用は、メチル化パターン同定の感度(例えば、問い合わせ完全性)および精度(例えば、照合)の両方を改善することによって、従来の方法よりも利点を提供する。さらに、計算負荷を減らすことによって(例えば、MatchTreeが代替フレームワーク上でより少ないメモリを必要とする場合)、間隔地図は、効率を改善し、メチル化パターンの探索および識別の間の待ち時間を減らすことができ、したがって、(例えば、WGSおよび/またはWGBSによって生成された大規模なシークエンシングまたはメチル化シークエンシングデータセットを使用する場合に)大規模なデータセットを取り扱う際に、重大な利益を提供する。
間隔地図(例えば、MatchTree)を使用したクエリの伝播および結果の集約は、本開示の後のセクションで詳細に論じられ、例えば、その全体が参照により本明細書に組み込まれる、Leeら、2013、「MatchTree: Flexible、scalable、およびフォールトトレラントな、分散マッチメーキングおよび集約を伴う広域リソース発見」、Fut Gen Comp Sys 29、1596-1610に記載されている。
第1および第2の状態間隔地図
図2Dのブロック242を参照すると、いくつかの実施形態では、第2のデータセットを使用して、1つまたは複数の対応するゲノム領域について、1つまたは複数の第2の状態間隔地図が生成される。1つ以上の第2の状態間隔マップ内の各第2の状態間隔マップは、対応する独立した複数のノードを備える。1つまたは複数の第2の状態区間地図内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する端部メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する端部メチル化部位との間の第2のデータセット内の第2の複数のフラグメントにわたって観察されるそれぞれの異なるフラグメントメチル化パターンによって特徴づけられる、(i)異なるフラグメントメチル化パターンの表現、および(ii)対応する開始メチル化部位で開始し、対応する端部メチル化部位で端部し、異なるフラグメントメチル化パターンを有する第2のデータセット内のフラグメントのカウント。
図2Dのブロック242を参照すると、いくつかの実施形態では、第2のデータセットを使用して、1つまたは複数の対応するゲノム領域について、1つまたは複数の第2の状態間隔地図が生成される。1つ以上の第2の状態間隔マップ内の各第2の状態間隔マップは、対応する独立した複数のノードを備える。1つまたは複数の第2の状態区間地図内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する端部メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する端部メチル化部位との間の第2のデータセット内の第2の複数のフラグメントにわたって観察されるそれぞれの異なるフラグメントメチル化パターンによって特徴づけられる、(i)異なるフラグメントメチル化パターンの表現、および(ii)対応する開始メチル化部位で開始し、対応する端部メチル化部位で端部し、異なるフラグメントメチル化パターンを有する第2のデータセット内のフラグメントのカウント。
いくつかの実施形態では、1つまたは複数の第2の状態間隔地図は、本明細書に開示される方法のいずれかを使用して(例えば、1つまたは複数の第1の状態間隔地図について説明される方法および/または実施形態のいずれかを使用して)生成される。
いくつかの実施形態において、1つまたは複数の第1の状態間隔地図および/または1つまたは複数の第2の状態間隔地図は、それぞれのデータセットからのそれぞれの複数のフラグメントにおける1つまたは複数のフラグメントメチル化パターンを表し、ここで、それぞれのデータセットは、癌サンプルから取得される(例えば、1つまたは複数の第1および/または第2の間隔地図は、癌データセットを使用して生成される)。いくつかの実施形態において、1つまたは複数の第1の状態区間地図および/または1つまたは複数の第2の状態区間地図は、それぞれのデータセットからのそれぞれの複数のフラグメントにおける1つまたは複数のフラグメントメチル化パターンを表し、ここで、それぞれのデータセットは、非癌サンプルから取得される(例えば、1つまたは複数の第1および/または第2の区間地図は、非癌データセットを使用して生成される)。
いくつかの実施形態において、1つまたは複数の第1の状態間隔地図は、癌データセットを使用して生成され、1つまたは複数の第2の状態間隔地図は、非癌データセットを使用して生成される。あるいは、いくつかの実施形態では、1つまたは複数の第1の状態間隔地図は、非癌データセットを使用して生成され、1つまたは複数の第2の状態間隔地図は、癌データセットを使用して生成される。いくつかの実施形態において、第1の癌状態(例えば、癌/非癌、癌サブタイプ、癌の病期、および/または起源組織)のためのデータセットを用いて1つ以上の第1状態間隔地図が生成され、第1の癌状態とは異なる第2の癌状態のためのデータセットを用いて1つ以上の第2状態間隔地図が生成される。
いくつかの実施形態において、それぞれの生物学的試料は、それぞれの1つ以上の間隔地図によって表される。いくつかの実施形態において、各試験対象は、それぞれの1つ以上の間隔地図によって表される。いくつかの代替的な実施形態では、複数の生物学的試料および/または試験対象のセットは、それぞれの1つ以上の間隔地図によって表される(例えば、研究グループ内の複数の生物学的試料および/または試験対象のセットがプールされる場合)。
例えば、ブロック244を参照すると、いくつかの実施形態では、1つ以上の第1の状態間隔地図は、1つの第1の状態間隔地図から構成され、1つ以上の第2の状態間隔地図は、1つの第2の状態間隔地図から構成される。
ブロック246を参照すると、いくつかの好ましい実施形態では、1つまたは複数の第1の状態間隔地図は、複数の第1の状態間隔地図である。さらに、1つ以上の第2の状態間隔地図は、複数の第2の状態間隔地図である。さらに、1つ以上の対応するゲノム領域は、複数のゲノム領域である。複数のゲノム領域内のそれぞれのゲノム領域は、第1の複数の区間地図内の第1の状態区間地図および第2の複数の区間地図内の第2の状態区間地図によって表される。
ブロック246を参照すると、いくつかの好ましい実施形態では、1つまたは複数の第1の状態間隔地図は、複数の第1の状態間隔地図である。さらに、1つ以上の第2の状態間隔地図は、複数の第2の状態間隔地図である。さらに、1つ以上の対応するゲノム領域は、複数のゲノム領域である。複数のゲノム領域内のそれぞれのゲノム領域は、第1の複数の区間地図内の第1の状態区間地図および第2の複数の区間地図内の第2の状態区間地図によって表される。
図2Dのブロック248~252を参照すると、いくつかの上記実施形態では、複数のゲノム領域は、10~30のゲノム領域である。いくつかの上記態様において、複数のゲノム領域中の各ゲノム領域は、異なるヒト染色体である。いくつかの上記実施形態では、複数のゲノム領域は、2~1000のゲノム領域、500~5000のゲノム領域、1000~20,000のゲノム領域、または5000~50,000のゲノム領域からなる。
いくつかの実施形態において、複数の第1および/または第2の状態間隔地図に対応する複数のゲノム領域は、本明細書に開示されるメチル化配列決定のための方法のいずれかを使用して取得される。例えば、図2Dのブロック254を参照すると、いくつかの好ましい実施形態では、第1のデータセットを取得し、第2のデータセットを取得するメチル化配列決定は、複数のプローブを使用して標的配列決定され、複数のゲノム領域内の各ゲノム領域は、複数のプローブ内のプローブに関連付けられる。
いくつかの実施形態において、複数の第1および/または第2の状態間隔地図に対応する複数のゲノム領域は、本明細書に開示されるメチル化配列決定のための方法のいずれかを使用して取得される。例えば、図2Dのブロック254を参照すると、いくつかの好ましい実施形態では、第1のデータセットを取得し、第2のデータセットを取得するメチル化配列決定は、複数のプローブを使用して標的配列決定され、複数のゲノム領域内の各ゲノム領域は、複数のプローブ内のプローブに関連付けられる。
適格なメチル化パターンの同定
ブロック256を参照すると、いくつかの実施形態では、1つまたは複数の第1の間隔地図および1つまたは複数の第2の間隔地図は、複数の適格なメチル化パターンについてスキャンされる。複数の適格性メチル化パターンにおける上記適格性メチル化パターンの各々は、(i)所定のCpG部位数範囲にある長さを有し、1つ以上の第1の間隔地図および1つ以上の第2の間隔地図のフラグメントメチル化パターン内にあり、(ii)1つ以上の選択基準を満たし、(iii)対応する初期CpG部位と対応する最終CpG部位との間の対応するCpG間隔lに及ぶ。このスキャンの結果、癌状態を識別または示す複数の適格なメチル化パターンが同定される。選択基準、問い合わせメチル化パターン、および癌状態を識別または示す同定されたメチル化パターンに対する間隔地図を用いて、適格なメチル化パターンを同定するための詳細な実施形態を以下に記載する。
ブロック256を参照すると、いくつかの実施形態では、1つまたは複数の第1の間隔地図および1つまたは複数の第2の間隔地図は、複数の適格なメチル化パターンについてスキャンされる。複数の適格性メチル化パターンにおける上記適格性メチル化パターンの各々は、(i)所定のCpG部位数範囲にある長さを有し、1つ以上の第1の間隔地図および1つ以上の第2の間隔地図のフラグメントメチル化パターン内にあり、(ii)1つ以上の選択基準を満たし、(iii)対応する初期CpG部位と対応する最終CpG部位との間の対応するCpG間隔lに及ぶ。このスキャンの結果、癌状態を識別または示す複数の適格なメチル化パターンが同定される。選択基準、問い合わせメチル化パターン、および癌状態を識別または示す同定されたメチル化パターンに対する間隔地図を用いて、適格なメチル化パターンを同定するための詳細な実施形態を以下に記載する。
メチル化パターンの適格性確認のための選択基準
いくつかの実施形態において、がん状態(例えば、がん状態の第1の状態とがん状態の第2の状態とを識別する)を識別または示す複数の適格なメチル化パターンの同定は、第1のがん状態と第2のがん状態との間で差異的に存在する1つ以上のメチル化パターンを同定することを含む。言い換えれば、いくつかの実施形態において、適格性メチル化パターンは、CpG部位の配列中の1つ以上のCpG部位が第一および第二の癌状態の間で異なるメチル化状態を有する、特定のゲノム領域またはサブ領域に対応するCpG部位の配列を含む。いくつかの上記実施形態において、メチル化パターンが第一および第二の癌状態(例えば、選択基準)の間で差次的に存在する程度は、メチル化パターンが適格なメチル化パターンであるかどうかを決定する。
いくつかの実施形態において、がん状態(例えば、がん状態の第1の状態とがん状態の第2の状態とを識別する)を識別または示す複数の適格なメチル化パターンの同定は、第1のがん状態と第2のがん状態との間で差異的に存在する1つ以上のメチル化パターンを同定することを含む。言い換えれば、いくつかの実施形態において、適格性メチル化パターンは、CpG部位の配列中の1つ以上のCpG部位が第一および第二の癌状態の間で異なるメチル化状態を有する、特定のゲノム領域またはサブ領域に対応するCpG部位の配列を含む。いくつかの上記実施形態において、メチル化パターンが第一および第二の癌状態(例えば、選択基準)の間で差次的に存在する程度は、メチル化パターンが適格なメチル化パターンであるかどうかを決定する。
例えば、図2Eのブロック258を参照すると、いくつかの実施形態において、1つまたは複数の選択基準は、メチル化パターン(i)が、第1の周波数閾値を満たす第1の周波数を有する1つまたは複数の第1の間隔地図において表され、(ii)第1の状態深さを満たすカバレッジを有する1つまたは複数の第1の間隔地図において表され、(iii)第2の周波数閾値を満たす第2の周波数を有する1つまたは複数の第2の間隔地図において表されることを指定する。
具体的には、ブロック260を参照すると、いくつかの上記実施形態では、(i)メチル化パターンは、1つまたは複数の第1の間隔地図内のメチル化パターンの周波数が第1の周波数閾値を超える場合に、第1の周波数閾値を満たす第1の周波数を有する1つまたは複数の第1の間隔地図内で表される。さらに、(ii)メチル化パターンは、1つまたは複数の第1の間隔地図中のメチル化パターンを包含する配列読み取りの被覆率が第1の状態深さを超えるときに、第1の状態深さを満たす被覆率を有する1つまたは複数の第1の間隔地図中で表される。最後に、(iii)メチル化パターンは、1つまたは複数の第2の間隔地図内のメチル化パターンの周波数が第2の周波数閾値未満である場合に、第2の周波数閾値を満たす第2の周波数を有する1つまたは複数の第2の間隔地図内に表される。
例えば、いくつかの上記実施形態では、メチル化パターンは、所与の第1の閾値を上回る頻度で、第1のデータセットの第1の複数のフラグメント(例えば、1つ以上の第1の間隔地図によって表されるようである)中に存在しなければならず、ここで、それぞれのメチル化パターンに対応するゲノム領域における第1のデータセットの被覆率深さ(例えば、配列決定深さ)は、(例えば、それぞれのメチル化パターンのそれぞれの1つ以上のCpG部位にわたって)所与の深さを上回っている。逆に、同じメチル化パターンが、所与の第2の閾値を下回る周波数で、第2のデータセットの第2の複数のフラグメント(例えば、1つ以上の第2の間隔地図によって表されるようである)中に存在しなければならない。これらの制約を満たすメチル化パターンは、いくつかの実施形態では、適格なメチル化パターンとみなされる。
いくつかの実施形態において、頻度は、それぞれのメチル化パターンを含む複数のフラグメント中のフラグメントの数(例えば、それぞれのメチル化パターンに対応するゲノム領域における被覆率深さ)によって正規化された、それぞれのデータセット中の複数のフラグメント中でメチル化パターンが観察される周波数である。いくつかの実施形態において、メチル化パターンの頻度および/またはメチル化パターンが各データセット中で観察される回数は、各対応するゲノム領域中の各CpG部位に識別子を割り当てることによって集計される。
特定の例示的な実施形態では、上記の計算は、選択基準に対する制約を定義するために使用される。例えば、ブロック262を参照すると、いくつかの実施形態では、第1の周波数閾値は0.2であり、第1の状態深さは10であり、第2の周波数閾値は0.001である。
いくつかの実施形態において、第1の周波数閾値は、0.05と0.40との間の値(例えば、0.05、0.06、0.07、0.08、0.09、10.11、0.12、0.13、0.14、0.15、0.16、0.17、0.18、0.19、0.20、0.21、0.22、0.23、0.24、0.25、0.26、0.27、0.28、0.29、0.30、0.31、0.32、0.33、0.34、0.35、0.36、0.37、0.39、または0.40)であり、第1の状態深さは2と100との間であり、第2の周波数閾値は、0.05未満(例えば、0.05、0.
いくつかの実施形態において、それぞれの第1および/または第2のデータセットにおける第1および/または第2の複数のフラグメントの被覆率深さは、既知である。いくつかの実施形態では、それぞれの第1および/または第2のデータセット内の第1および/または第2の複数のフラグメントは、正の整数である被覆率深さを有する。
いくつかの実施形態では、ブロック264を参照すると、いくつかの実施形態では、それぞれのメチル化パターンは、式のときに選択基準を満たす:
いくつかの実施形態では、ブロック264を参照すると、いくつかの実施形態では、それぞれのメチル化パターンは、式のときに選択基準を満たす:
メチル化パターンについては、3、4、5または6を超え、ここで、第2のカウントは、1つまたは複数の第2の状態間隔地図におけるそれぞれのメチル化パターンのカウントであり、第2の状態深さは、1つまたは複数の第2の状態間隔地図におけるそれぞれのメチル化パターンによって表されるゲノムの領域または領域における第2のデータセットによるカバレッジである。
対応する初期CpG部位および対応する最終CpG部位によって境界付けされたゲノムの単一領域を表す単一の第2の状態間隔地図が存在する場合、第2のカウントは、単一の第2の状態間隔地図におけるそれぞれのメチル化パターンのカウントであり、第2の状態深さは、対応する初期CpG部位および単一の第2の状態間隔地図の対応する最終CpG部位にまたがる第2のデータセットにおけるフラグメントの総数である。
複数の第2の状態間隔地図があり、それぞれが対応する最初のCpG部位と対応する最終CpG部位とによって境界付けられたゲノムの対応する領域を表す場合、第2のカウントは、複数の単一の第2の状態間隔地図にわたるそれぞれのメチル化パターンのカウントの合計である。さらに、第2の状態深度は、複数の第2の状態間隔地図内の任意の第2の状態間隔地図に関連する対応する初期CpG部位および対応する最終CpG部位に及ぶ第2のデータセット内のフラグメントの総数である。
いくつかの実施形態では、単一の状態間隔地図が存在する。いくつかの実施形態では、2つから100の間の状態間隔地図が存在する。いくつかの実施形態では、異なる染色体ごとに異なる状態間隔地図が存在する。
いくつかの実施形態では、例えば、第1および/または第2のデータセットが、1つ以上のプールされたメチル化配列決定データセットおよび/または固定された、またはそうでなければ非限定的な被覆率深さを有する確立された制御データセットを含む場合、被覆率深さは、選択基準を満たすためにメチル化パターンの深さ閾値を超える必要はない。
いくつかの実施形態では、例えば、第1および/または第2のデータセットが、1つ以上のプールされたメチル化配列決定データセットおよび/または固定された、またはそうでなければ非限定的な被覆率深さを有する確立された制御データセットを含む場合、被覆率深さは、選択基準を満たすためにメチル化パターンの深さ閾値を超える必要はない。
適格なメチル化パターンの他の特徴
いくつかの実施形態において、適格なメチル化パターンは、特定のゲノム領域またはサブ領域(例えば、参照ゲノム中)に対応する非隣接CpG部位の差次的にメチル化された配列である。いくつかの態様において、適格なメチル化パターンは、特定のゲノム領域またはサブ領域に対応する連続するCpG部位の差次的にメチル化された配列である。
いくつかの実施形態において、適格なメチル化パターンは、特定のゲノム領域またはサブ領域(例えば、参照ゲノム中)に対応する非隣接CpG部位の差次的にメチル化された配列である。いくつかの態様において、適格なメチル化パターンは、特定のゲノム領域またはサブ領域に対応する連続するCpG部位の差次的にメチル化された配列である。
いくつかの態様において、適格なメチル化パターンは、変形例対立遺伝子の等価物とみなされる。例えば、いくつかの実施形態では、特定のゲノム領域またはサブ領域に対応するCpG部位の規定された長さlの間隔は、1つ以上のデータセットにおいて複数の別個メチル化パターンを有することができる。いくつかの上記実施形態において、変形例対立遺伝子は、それぞれの間隔(例えば、特定の遺伝子座における)についての第2のメチル化パターンとは異なる、CpG間隔lについての第1のメチル化パターンである。いくつかの上記実施形態において、CpG間隔lに対する第1のメチル化パターンは、参照対立遺伝子として定義され、第1のメチル化パターンとは異なる、同じCpG間隔lに対する第2のメチル化パターンは、変異対立遺伝子として定義される。
いくつかの実施形態では、3つ以上の別個メチル化パターン(例えば、複数の変異対立遺伝子)が、第1および/または第2のデータセットにわたってそれぞれのCpG間隔lについて観察される。いくつかの上記実施形態では、それぞれのCpG間隔lについて3つ以上のメチル化パターンが観察される場合、選択基準のストリンジェンシーは、それぞれのCpG間隔(例えば、「まれな変形例」)において1つの適格なメチル化パターンのみについて選択するように調整される。いくつかの態様において、選択基準の厳密性は調整されず、複数の適格なメチル化パターン中の各メチル化パターンが選択基準を満たす場合、複数の適格なメチル化パターンが、それぞれのCpG間隔について対応するゲノム領域において同定される。
いくつかの代替的な実施形態では、複数のメチル化パターンは、メチル化パターンが、(i)第1の速度閾値を満たす第1の速度を有する1つまたは複数の第1の間隔地図で表され、(ii)第1の状態深さ閾値を満たすカバレッジを有する1つまたは複数の第1の間隔地図で表され、(iii)第2の速度閾値を満たす第2の速度を有する1つまたは複数の第2の間隔地図で表され、ここで、速度は、カバレッジ深さ、プルダウンバイアス、推定腫瘍分率、および特定の座位におけるCpG間隔の位置(例えば、ポアソン速度)によって正規化される、選択基準を満たす。
メチル化パターンの照会
いくつかの実施形態では、1つまたは複数の第1の間隔地図および1つまたは複数の第2の間隔地図を複数の適格なメチル化パターンについてスキャンすることは、それぞれが所定のCpG部位数範囲にある長さを有する複数の問い合わせメチル化パターンについてスキャンすることと、1つまたは複数の問い合わせメチル化パターンが1つまたは複数の選択基準を満たすかどうかを決定することとを含む。いくつかの実施形態において、所定のCpG部位数範囲は、5つのCpG部位と20のCpG部位との間である。いくつかの実施形態において、所定のCpG部位数範囲は、単一のCpG数(例えば、5個のCpG部位)である。複数の問い合わせメチル化パターンにおける各問い合わせメチル化パターンは、所定のCpG部位数範囲内のメチル化状態の配列を含み、複数の問い合わせメチル化パターンに対する1つ以上の第1の間隔地図および1つ以上の第2の間隔地図をスキャンすることは、問い合わせメチル化パターンに一致する、それぞれの1つ以上のゲノム領域またはサブ領域(例えば、特定の遺伝子座または遺伝子座)におけるメチル化パターンを同定することを含む。
いくつかの実施形態では、1つまたは複数の第1の間隔地図および1つまたは複数の第2の間隔地図を複数の適格なメチル化パターンについてスキャンすることは、それぞれが所定のCpG部位数範囲にある長さを有する複数の問い合わせメチル化パターンについてスキャンすることと、1つまたは複数の問い合わせメチル化パターンが1つまたは複数の選択基準を満たすかどうかを決定することとを含む。いくつかの実施形態において、所定のCpG部位数範囲は、5つのCpG部位と20のCpG部位との間である。いくつかの実施形態において、所定のCpG部位数範囲は、単一のCpG数(例えば、5個のCpG部位)である。複数の問い合わせメチル化パターンにおける各問い合わせメチル化パターンは、所定のCpG部位数範囲内のメチル化状態の配列を含み、複数の問い合わせメチル化パターンに対する1つ以上の第1の間隔地図および1つ以上の第2の間隔地図をスキャンすることは、問い合わせメチル化パターンに一致する、それぞれの1つ以上のゲノム領域またはサブ領域(例えば、特定の遺伝子座または遺伝子座)におけるメチル化パターンを同定することを含む。
いくつかの実施形態において、問い合わせメチル化パターンは、1つ以上のメチル化状態の表現を含む。例えば、いくつかの実施形態において、長さl = 5の問い合わせメチル化パターンは、5つのメチル化部位(例えば、5つのCpG部位)の全長を構成する5つのメチル化部位についてのMおよびUメチル化状態の任意の組合せにおけるMMM、MMUMMまたはM/Uであり得る。概して、長さlのメチル化パターン(ここで、lは、メチル化パターンにおける独特のメチル化部位(例えば、CpG)の数を表す正の整数であり、メチル化(M)対メチル化(U)のみが、そのようなメチル化部位の各々について考慮される場合、2つの考えられるメチル化パターンがl。したがって、たとえば8つのメチル化部位(たとえばCpG)のメチル化パターンには、2×2×2×2×2×2×2×2または256種類のメチル化パターンがある。
いくつかの好ましい実施形態では、1つまたは複数の第1の間隔地図および1つまたは複数の第2の間隔地図をスキャンすることは、対応する複数のノードに表される複数のフラグメントメチル化パターンに完全に含まれる1つまたは複数の問い合わせメチル化パターンについてスキャンすることを含む。いくつかの実施形態において、それぞれの問い合わせメチル化パターンは、対応するノードにおけるそれぞれのフラグメントメチル化パターンの一部を含む。いくつかの実施形態において、それぞれの問い合わせメチル化パターンは、対応するノードにおけるそれぞれのフラグメントメチル化パターンからなる。
いくつかの好ましい実施形態では、1つまたは複数の第1の間隔地図および1つまたは複数の第2の間隔地図をスキャンすることは、対応する複数のノードに表される複数のフラグメントメチル化パターンに完全に含まれる1つまたは複数の問い合わせメチル化パターンについてスキャンすることを含む。いくつかの実施形態において、それぞれの問い合わせメチル化パターンは、対応するノードにおけるそれぞれのフラグメントメチル化パターンの一部を含む。いくつかの実施形態において、それぞれの問い合わせメチル化パターンは、対応するノードにおけるそれぞれのフラグメントメチル化パターンからなる。
いくつかの代替実施形態では、複数の問い合わせ・メチレーション・パターンの中の各問い合わせ・メチレーション・パターンは、長さlの一組のメチレーション状態を含む。ここで、lは、CpGサイトの数を示す正の整数であり、1つ以上の第1の状態間隔・地図を走査し、複数の問い合わせ・メチレーション・パターンのための1つ以上の第2の状態間隔・地図は、メチレーション状態の問い合わせ・セットに一致する一組のメチレーション状態を識別することを含む。いくつかの上記実施形態では、それぞれの1つ以上のゲノム領域またはサブ領域(例えば、特定の遺伝子座または遺伝子座)におけるメチル化状態のセットは、問い合わせメチル化パターンにおけるメチル化状態のセットと比較して、連続的、非連続的、配列内、または配列外である。
いくつかの実施形態では、1つまたは複数の第1の状態間隔地図および1つまたは複数の第2の状態間隔地図をスキャンすることは、対応する問い合わせメチル化パターンに一致するそれぞれのゲノム領域またはサブ領域で適格メチル化パターンを同定し、ここで、適格メチル化パターン中の1つまたは複数のメチル化状態は、問い合わせメチル化パターン中のそれぞれの1つまたは複数のメチル化状態とは異なる。いくつかの上記実施形態では、適格なメチル化パターンにおける少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、または10を超えるメチル化状態は、問い合わせメチル化パターンとは異なる。
いくつかの実施形態において、問い合わせメチル化パターンとは異なる適格メチル化パターンにおける少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、または10を超えるメチル化状態は、問い合わせメチル化パターンの開始位置または終了位置に位置する(例えば、かつら)。いくつかの実施形態において、問い合わせメチル化パターンとは異なる、適格なメチル化パターンにおける少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、または10を超えるメチル化状態は、問い合わせ配列内の特定の位置に位置する(例えば、ワイルドカード)。例えば、特定の位置は、記号(例えば、「*」、「/」)を用いて問い合わせメチル化パターンにおいて予め決定され得る。いくつかの実施形態において、1つ以上の比CpG部位(例えば、1つ以上の信頼性のないCpG部位)は、問い合わせメチル化パターンにおいてCpG部位の配列から除去される。いくつかの実施形態において、1つ以上の比CpG部位は、それぞれの問い合わせメチル化パターン(例えば、「*」、「/」)におけるメチル化状態の配列にプレースホルダーまたは置換表現を挿入することによって、問い合わせメチル化パターンにおけるCpG部位の配列においてバイパスされる。
いくつかの実施形態では、複数の問い合わせメチル化パターンは、1つまたは複数の問い合わせメチル化パターン間の1つまたは複数の組み合わせ、連結、空間的および/または構造的関係を含む。例えば、いくつかの上記実施形態では、1つまたは複数の第1の状態間隔地図をスキャンし、1つまたは複数の第2の状態間隔地図は、1つまたは複数の問い合わせメチル化パターンおよび/またはそれらの任意の組み合わせを検索する(例えば、ブール検索を使用する)。いくつかの実施形態において、問い合わせメチル化パターンは、問い合わせメチル化パターンの正規表現を含む。
いくつかの実施形態では、複数の問い合わせメチル化パターンは、1つまたは複数の問い合わせメチル化パターン間の1つまたは複数の組み合わせ、連結、空間的および/または構造的関係を含む。例えば、いくつかの上記実施形態では、1つまたは複数の第1の状態間隔地図をスキャンし、1つまたは複数の第2の状態間隔地図は、1つまたは複数の問い合わせメチル化パターンおよび/またはそれらの任意の組み合わせを検索する(例えば、ブール検索を使用する)。いくつかの実施形態において、問い合わせメチル化パターンは、問い合わせメチル化パターンの正規表現を含む。
いくつかの実施形態では、1つまたは複数の第1の状態間隔地図および1つまたは複数の第2の状態間隔地図を複数の適格性メチル化パターンについてスキャンすることは、所定数のCpG部位(または所定のCpG部位数範囲)についてメチル化状態のすべての可能な組み合わせを含む複数の問い合わせメチル化状態を検索する。例えば、いくつかの実施形態では、所定のCpG部位数範囲は、単一の数-CpG長さlであり、長さl = 3の複数のすべての可能な問い合わせメチル化パターンは、MMM、MMU、MUM、MUU、UMM、UMU、UMU、UMM、およびUUUを含む。いくつかの実施形態において、複数の可能な問い合わせメチル化パターンは、メチル化、非メチル化、曖昧性、変異体、および/または矛盾する表現を含むメチル化状態の組合せをさらに含む。いくつかの実施形態において、不明瞭、変異体、および/または矛盾したメチル化部位は、ワイルドカード部位として扱われる。すなわち、候補パターンが適格であるが、あいまい、変異、および/または矛盾したメチル化部位については、候補パターンは適格であるとみなされる。
いくつかの実施形態では、複数の問い合わせメチル化パターンは、問い合わせメチル化パターンの所定のセットを含む。いくつかの上記実施形態において、複数の問い合わせメチル化パターンは、第1の状態および/または第2の状態(例えば、1つ以上の癌状態に対するバイオマーカー)に関連するメチル化パターンを含む。いくつかの実施形態において、問い合わせメチル化パターンの所定のセットは、メチル化データベース(例えば、MethHC、MethHC 2.0、MethDB、PubMeth、IMETHYLなど)、実験例知見、および/または刊行物から得られる既知のメチル化パターンを含む。例えば、Huangら、2021年、「MethHC 2.0:ヒトがんにおけるDNAメチル化および細胞発現の情報リポジトリー」、核酸研究49(D1)、D1268-D1275; Grunauら、2001年、「DNAメチル化データのためのMethDB-a公開データベース」、核酸研究29(1)、270-274; Ongentら、「PubMeth:テキストマイニングおよび専門家の注釈を組み合わせたメチル化データベース」、核酸研究: doi:10.1093/nar/gm788;およびHachiyaら、2017年、「個々に可変なDNAメチル化部位のゲノムワイド識別は、エピ遺伝的アソシエーション研究の有効性を改善する」、NPJ Genom Medを参照されたい。2017.2:11, その各々は、参照により本明細書に組み込まれる。いくつかの実施形態において、複数のメチル化パターンをスキャンすることは、特定の所定の遺伝子座(例えば、参照ゲノム中の特定の位置にインデックス付けされた特定の1以上のCpG部位)において、所定のセットのメチル化状態を検索する。いくつかの実施形態において、所定の問い合わせメチル化パターンのセットおよび/または所定の1つ以上の遺伝子座が、それぞれの1つ以上の間隔地図が生成される、それぞれの被験者および/またはそれぞれのそれぞれの生物学的試料について取得される。いくつかの実施形態では、問い合わせメチル化パターンおよび/または所定の1つ以上の遺伝子座の単一の所定のセットが、複数の被験体および/または生物学的試料にわたる複数の間隔地図をスキャンするために使用される。
いくつかの実施形態では、第2の1つ以上の問い合わせメチル化パターンに対する類似性閾値を満たす1つ以上の問い合わせメチル化パターンを除去するために、複数の問い合わせメチル化パターンがフィルタリングされる。このようなフィルタリングは、各パターンがある程度の一意性を持つことを保証する。例えば、いくつかの実施形態において、上記フィルタリングは、複数のメチル化パターンにおける第2の1つ以上の問い合わせメチル化パターンに類似する、50パーセント、60パーセント、70パーセント、80パーセント、90パーセント、または95パーセントを超えるメチル化パターンを除去する。実施例えば、類似度閾値が70%であるメチル化パターンMMMおよびMMUMMの実施例を考えると、2つのパターンにおけるメチル化部位の少なくとも70%が同じである場合、類似度閾値が満たされているとみなされる。この実施例では、2つのメチル化パターンは、6つのメチル化部位のうち5つで同じメチル化値を有するため、5/6または83%の類似性を有する。したがって、この実施例では、2つのメチル化パターンのうちの1つが問い合わせ化パターンから除去される。
ブロック266~270を参照すると、いくつかの実施形態では、長さlのメチル化部位のそれぞれの可能なメチル化パターンが、複数の照会によってサンプリングされる。ある態様において、lは、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20個のCpG部位である。いくつかの実施形態において、CpG部位数範囲は、l個の隣接するCpG部位である。いくつかの実施形態において、lは、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20の隣接するCpG部位である。いくつかの実施形態において、所定のCpG数範囲は、ヒト参照ゲノム中の2~100個の連続するCpG部位である。
いくつかの実施形態において、CpG部位の所定の数は、適応性である。いくつかの態様において、所定数のCpG部位は、規定数のCpG部位からの+/Aの範囲であり、ここで整数(例えば、1、2、3、4、5など)である。
スキャン間隔地図
いくつかの実施形態では、1つ以上の第1の間隔地図および/または1つ以上の第2の間隔地図は、対応するゲノム領域および/またはサブ領域を除去し、それによって走査および同定の計算負荷を低減するために、走査の前にフィルタリングされる。いくつかの実施形態において、フィルタリングは、除外されるゲノム領域(例えば、ブラックリストに登録された領域および/または識別不良領域)を除去する。いくつかの実施形態において、フィルタリングは、高いノイズレベルを有するゲノム領域を除去する。例えば、いくつかの実施形態では、ノイズが高い領域は、腫瘍分率推定値に人為的に下限を課すことによって結果をスキューすることができる(例えば、メチル化状態間隔におけるノイズの計算および分析に関するさらなる議論については、下記の実施例4を参照されたい)。
いくつかの実施形態では、1つ以上の第1の間隔地図および/または1つ以上の第2の間隔地図は、対応するゲノム領域および/またはサブ領域を除去し、それによって走査および同定の計算負荷を低減するために、走査の前にフィルタリングされる。いくつかの実施形態において、フィルタリングは、除外されるゲノム領域(例えば、ブラックリストに登録された領域および/または識別不良領域)を除去する。いくつかの実施形態において、フィルタリングは、高いノイズレベルを有するゲノム領域を除去する。例えば、いくつかの実施形態では、ノイズが高い領域は、腫瘍分率推定値に人為的に下限を課すことによって結果をスキューすることができる(例えば、メチル化状態間隔におけるノイズの計算および分析に関するさらなる議論については、下記の実施例4を参照されたい)。
ブロック272を参照して、いくつかの実施形態において、対応する独立した各区間地図の各区間地図の1つ以上の複数の節点が対応するツリーとして配置され(例えば、Wald、2007年「SAHに基づく結合体積木の高速建設について」、IEEE、doi:10.1109/RT.2007.4342588に記載されているようにランダム化された表面積ヒューリスティックなKdツリーの1次元版、Leeら、2013年「マッチメーキングおよび凝集を伴うMatchTree: Flexible、scalable、および耐故障広域資源発見」、Fut Gen Comp Sys 29、1596-1610; doi:10.1016/j.future.2012.08.009など)、対応する1以上のゲノム領域における対応領域を表す。それぞれの区間地図に対する対応する独立した複数のノード内のそれぞれのノードは、対応するゲノム領域のサブ領域を表す。
図2Fのブロック274を参照すると、いくつかの上記実施形態では、各対応する木は、対応する独立した複数のノードを、対応する複数のリーフ内の各リーフの親ノードが1つ以上の子ノードを参照する、対応する複数のリーフ内に配置する。1つ以上の第1の間隔地図および1つ以上の第2の間隔地図を走査することは、複数のクエリを生成し、ここで、複数のクエリ内のそれぞれのクエリは、長さlの異なる候補メチレーションパターンに対するものである。さらに、複数のクエリ内の各クエリは、(i)対応する木の対応する独立した複数のノード内の各ノードにおいて、それぞれのクエリとのマッチメーキングを実行し、(ii)それぞれのクエリをそれぞれのノードの子ノードとさらにマッチメーキングするために、それぞれのノードの子ノードにクエリをさらに伝播し、(iii)それぞれのマッチメーキングの結果をそれぞれのノードの親ノードに配信するために使用される。
例えば、図12を参照すると、CpG部位位置0,1,2(例えば、[0,3])におけるメチル化状態「UMM」の配列を含む問い合わせメチル化パターンについて間隔地図をスキャンすると、問い合わせメチル化パターンを構成する1つ以上のフラグメントを含むすべてのノードが返される。したがって、問い合わせは各ノードでマッチメーキングを実行し、結果を伝播する(たとえば、ノード1 と2 を返す)。照会されたメチル化パターンの周波数は、照会メチル化パターンを含むフラグメントメチル化パターンを有する各ノード中のフラグメントのカウントを用いて、伝播された結果から計算される。例えば、ノード1および2におけるCpG部位0、1、2におけるメチル化パターンUMMの周波数は、75%として計算される(図12に示すように、ノード1および2を横切る位置0、1および2でカウントされた4つのパターンのうち、合計3つのUMMカウントについて、ノード1におけるUMMの2カウント、ノード2におけるUMMの1カウント、および位置0、1および2に対するノード2におけるUMUの1カウント)。
いくつかの実施形態では、問い合わせ・メチレーション・パターンのためにインターバル・地図を走査すると、ノード内の任意の可能な開始メチレーション位置において、問い合わせ・メチレーション・パターンのために各ノードが走査される。例えば、いくつかのそのような実施形態では、問い合わせは、問い合わせmylationパターンがノードの最初のmethylation部位で開始しない場合であっても、ノードを返す。例えば、図12を参照すると、ノード1において、いくつかの実施形態では、検索クエリがMMUである場合、ノード1および2は、それぞれのノード1および2の最初のメチル化部位でパターンが始まらないにもかかわらず、両方とも識別される。同様に、いくつかの実施形態では、問い合わせ・メチレーション・パターンのためにインターバル・地図を走査することは、ノードの開始、中間、および/または端部を走査する。いくつかの実施形態において、問い合わせメチル化パターンについて間隔地図を走査することは、メチル化、非メチル化、あいまい、変異、および/または矛盾した状態を含む問い合わせメチル化パターンについて各ノードを走査する。
ブロック276を参照すると、いくつかの実施形態では、ノード内の長さlのそれぞれの可能なメチル化パターンが、複数のクエリによってサンプリングされる。したがって、例えば、図12のノード1のフラグメントUMMUの場合、およびUMの検索クエリ(および検索がノードの最初のメチル化部位で開始するパターンを必要としない場合)を考える。この実施例では、検索照会は、UMMU の位置1 と2 で検索照会UM への一致を調べ、UMMU の位置2 と3 で検索照会UM への一致を調べ、UMMU の位置3 と4 で検索照会への一致を調べる。
ブロック278を参照すると、いくつかの好ましい実施形態では、木は、ランダム化表面積発見的を有するK寸法木の一寸法版である。例えば、その全体が参照により本明細書に組み込まれているWald、2007、"On Fast Construction of SAH-based Bounding Volume Hierarchies"、IEEE、doi:10.1109/RT.2007.4342588を参照されたい。いくつかの代替実施形態では、木は自己組織化再帰的分割マルチキャスト木である。いくつかの上記実施形態では、間隔地図の走査は、マッチツリーを使用して実行される。
いくつかの上記実施形態では、マッチメーキングの結果を対応するツリー内の親ノードに配信することは、再帰的に行われ、それによって、すべての子ノードから親ノードへの結果を集約する。いくつかの上記実施形態では、一致させる問い合わせは、リソース要件として、MatchTreeアルゴリズムによって取得される。いくつかの実装形態では、結果(例えば、最良適合、正確な一致、被覆率深さ、最小または最大VAF、開始位置、終了位置、および/またはソートまたはフィルタリングを決定する他の値)を返すために必要な追加のパラメータが、ランク基準として取得される。リソース要件を満たすノードは、ランク付け基準によってランク付けされ、指定された所望回数kの結果(例えば、ノード)が与えられると、MatchTreeは、ランク付け基準によってランク付けされた上位k個のノードを返す。
いくつかの実施形態では、計算負荷を低減するために、ツリーに含まれる応答ノードの数を推定することによって、クエリ応答時間を定義し、および/または生成された応答の量に上限を設定するために、ヒューリスティックを使用してクエリを修正する。例えば、いくつかの上記実施形態では、走査の以前の実装からのキャッシュされた結果分布は、所望のリソース(例えば、メチル化パターン)を含む可能性のある結果(例えば、ノード)を予測するために使用される。
いくつかの実施形態では、問い合わせは、タイムアウト値(例えば、凝集進行を伴う動的タイムアウト、自律的タイムアウト、および/またはユーザ入力を伴う静的タイムアウト)および/または冗長トポロジーを使用して、ネットワーク障害を回避し、一貫性のあるパフォーマンスを提供することを含む。例えば、いくつかのこのような実施形態では、ファーストフィットリソース発見は、すべての可能な結果が集約された後ではなく、所望回数kの結果が満たされたときに、子ノードから親ノードに集約された結果を返すことによって、待ち時間を改善する。さらに、いくつかの実施形態では、ノード障害の場合に問合せの完全性を保証するために、前方方向と後方方向の両方で問合せと集約結果を伝播するために冗長トポロジが使用される。
例えば、Leeら、2013、「MatchTree:分散マッチメーキングおよび凝集によるフレキシブル、スケーラブル、フォールトトレラントな広域資源発見」、Fut Gen Comp Sys 29、1596-1610; doi:10.1016/j.future.2012.08.009、およびWangら、2015、「短文の構文ベースのディープマッチング」、arXiv: 1503.02427v6[cs.CL]、を参照することにより、それぞれが本明細書に組み込まれる。
例えば、Leeら、2013、「MatchTree:分散マッチメーキングおよび凝集によるフレキシブル、スケーラブル、フォールトトレラントな広域資源発見」、Fut Gen Comp Sys 29、1596-1610; doi:10.1016/j.future.2012.08.009、およびWangら、2015、「短文の構文ベースのディープマッチング」、arXiv: 1503.02427v6[cs.CL]、を参照することにより、それぞれが本明細書に組み込まれる。
いくつかの代替的な実施形態では、間隔地図以外の方法が、癌状態を識別または示す複数の適格なメチル化パターンを同定するために使用される。いくつかの実施形態において、複数の適格なメチル化パターンを同定することは、本明細書に記載される方法および実施形態のいずれか(例えば、走査間隔地図)、または当業者に明白であるような任意の修正、置換、代替もしくはそれらの組み合わせを使用して行われる。
がんの状態の識別。
がんの状態の識別。
いくつかの実施形態において、スキャンは、第1の癌状態(例えば、癌/非癌、癌サブタイプ、癌の病期、および/または起源の組織)と第1の癌状態とは異なる第2の癌状態とを識別する複数の適格なメチル化パターンを同定する。例えば、いくつかの実施形態において、複数の適格性メチル化パターンは、癌を非癌(例えば、健康な対照)、癌サブタイプおよび/または起源組織(例えば、肺癌特異的バイオマーカー)、および/または癌の病期と識別するメチル化パターンのライブラリーを含む。いくつかの実施形態において、複数の適格性メチル化パターンは、特定の癌状態(例えば、癌/非癌、癌サブタイプ、癌の病期、および/または起源組織)の存在/非存在の肯定的検証を行うために使用される。
いくつかの実施形態において、複数の適格なメチル化パターンは、組織試料および/または血液試料(例えば、cfDNA)を用いて同定される。いくつかの実施形態では、それぞれの1つまたは複数の被験体について、組織サンプルを用いて同定された複数の適格メチル化パターンと、血液サンプルを用いて同定された複数の適格メチル化パターンとは、同じである。いくつかの実施形態において、複数の適格性メチル化パターンは、血液試料を用いて同定され、腫瘍分率推定値は、腫瘍頻度と腫瘍由来cfDNAとの間の正の相関に基づいて計算される。cfDNAおよび組織試料を用いて実施される腫瘍分率推定値の間の一致に関するさらなる考察については、例えば、下記の実施例4を参照されたい。
いくつかの実施形態において、複数の適格性メチル化パターンは、単一のそれぞれの試験対象からの1つまたは複数の生物学的試料から得られた第1および第2のデータセットを用いて同定される。例えば、いくつかの上記実施形態では、第1の複数の適格性メチル化パターンは、第1の被験者について腫瘍と健常組織とを識別し、第2の複数の適格性メチル化パターンは、第1の複数の適格性メチル化パターンと第2の複数の適格性メチル化パターンとが異なる、第2の被験者について腫瘍と健常組織とを識別する。いくつかの上記実施形態では、それぞれの複数の適格なメチル化パターンを用いて、特定の期間にわたって、それぞれの被験者について、癌治療前後の腫瘍分率(例えば、最小残存病変および/または再発監視)を監視する。
いくつかの実施形態において、複数の適格性メチル化パターンは、単一のそれぞれの被験者からの1つまたは複数の生物学的試料から得られた第1のデータセット、および1つまたは複数の対照被験者(例えば、対照健康コホート)からの1つまたは複数の生物学的試料から得られた第2のデータセットを用いて同定される。
いくつかの実施形態において、複数の適格性メチル化パターンは、単一のそれぞれの被験者からの1つまたは複数の生物学的試料から得られた第1のデータセット、および1つまたは複数の対照被験者(例えば、対照健康コホート)からの1つまたは複数の生物学的試料から得られた第2のデータセットを用いて同定される。
いくつかの実施形態において、複数の適格性メチル化パターンは、1つまたは複数の被験者(例えば、試験コホート)からの1つまたは複数の生物学的試料から得られた第1のデータセット、および1つまたは複数の対照被験者(例えば、対照健康コホート)からの1つまたは複数の生物学的試料から得られた第2のデータセットを用いて同定される。
いくつかの実施形態において、複数の適格性メチル化パターンは、第1の1つ以上の被験体(例えば、第1の試験コホート)から得られた1つ以上の生物学的試料から得られた第1のデータセット、および第2の1つ以上の被験体(例えば、第2の試験コホート)から得られた1つ以上の生物学的試料から得られた第2のデータセットを用いて同定される。そのようないくつかの実施形態において、第1および第2の試験コホートを用いて同定されたメチル化パターンの適格性確認は、患者間または大規模な研究グループ内の共通性に関する情報を提供するために使用されるか、または2つ以上のがん状態を識別する適格なメチル化パターンの層別化特徴を同定するために使用され得る。
いくつかの実施形態において、複数の適格性メチル化パターンは、第1の1つ以上の試験対象(例えば、試験コホート)から得られた1つ以上の生物学的試料から得られた第1のデータセットから構築された第1の間隔地図と、選択基準を満たす第2の間隔地図の領域を示す第2の間隔地図の表現とを用いて識別される。いくつかのそのような態様において、複数のメチル化パターンは、第1の被験体セット中の対応する被験体からのそれぞれの生物学的試料から得られた第2のデータセットを使用せずに同定される。むしろ、いくつかの上記実施形態では、選択基準を満たすことが知られているかまたは推定されている複数の問い合わせメチル化パターンを使用して、第1の間隔地図のみをスキャンすることによって、選択基準を満たすことができる。例えば、第2の癌状態(例えば、実験または事前知識により)ではあまり表現されないことが知られているかまたは推定されているメチル化状態間隔のパネルを使用して、第2の間隔地図をスキャンする必要なしに、フラグメントメチル化パターン、カウント(例えば、周波数)、および第1のデータセットの被覆率深さを含む第1の間隔地図をスキャンすることができる。あるいは、いくつかの実施形態において、第一の癌状態における外れ値フラグメントメチル化パターンの存在を第二の癌状態と比較して仮定する(例えば、変異対立遺伝子が非癌試料よりも腫瘍試料に濃縮されていると仮定される)選択基準が定義される。例えば、いくつかの上記実施形態では、選択基準は、第1の(例えば、腫瘍)がん状態において予め定義されたしきい値(例えば、0.5を超える)を超えるメチル化パターン頻度(例えば、変異対立遺伝子頻度とも呼ばれることもある)として定義され得る。いくつかの実施形態において、予め定義された閾値は、実験的知見または事前知識によって決定される。いくつかの実施形態では、事前定義されたしきい値は、ユーザまたは実施者によって設定される。
いくつかの態様において、複数の適格なメチル化パターンは、ゲノムの2つ以上の別個の領域における2つ以上のメチル化パターンである。いくつかの実施形態において、複数の適格なメチル化パターンは、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または20を超えるメチル化パターンであり、ここで、各々のかかるメチル化パターンは、参照ゲノムの独特な部分にマップされ、したがって、独特なメチル化部位のセットを表す。いくつかの態様において、複数の適格なメチル化パターンは、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、またはそれ以上のメチル化パターンであり、ここで、各々のそのようなメチル化パターンは、参照ゲノムの独特な部分にマップされ、したがって、独特なメチル化部位のセットを表す。いくつかの実施形態においては、国際特許公開第WO2020154682A3に記載されているゲノム領域に、参照文献により組み込まれている、「がん、がんの組織または原産地またはがんの種類の検出」と題された、各メタル化パターンがマッピングされる(この中には、参照文献に記載されているシークエンス・リストが含まれる)。いくつかの実施形態においては、国際特許公開第WO2020/069350A1号に記されているゲノム領域に固有にマップされる、「メタ配列マーカー及び標的メタル化プローブパネル」と題され、本書では、その中で言及されるシークエンス・リストを含めて、参照して組み込まれている。いくつかの実施形態においては、国際特許公開第WO2019/195268A2号に記されているゲノム領域に固有にマップされる、「メタ系標的メタル化マーカーおよび標的メタル化プローブパネル」と題され、本書では、その中で言及されるシークエンス・リストを含めて、参照して組み込まれている。
いくつかの実施形態において、複数の適格性メチル化パターンは、FreeBayes、VarDict、MuTect、MuTect2、MuSE、FreeBayes、VarDict、および/またはMuTectなどの変形例呼び出し者アルゴリズムによって同定されるメチル化パターンを除去するためにフィルタリングされる(Bian、2018、"Comparing the performance of selected variant callers using synthetic data and genome segmentation"、BMC Bioinformatics 19:429(参照により本明細書に組み込まれる)を参照のこと)
いくつかの実施形態において、複数の適格性メチル化パターンは、対象のコホート(例えば、健康な対象のコホート)から得られた生物学的試料のメチル化配列決定における参照において少なくとも2回(例えば、2つの異なる断片において)出現するメチル化パターンを除去するために濾過される。いくつかの実施形態において、対象のコホート内の各対象は、第1のデータセットによって表される。いくつかの実施形態において、対象のコホート内の各対象は、第2のデータセットによって表される。いくつかの実施形態において、対象のコホート内の各対象は、第1または第2のデータセットによって表されない。
いくつかの実施形態において、複数の適格性メチル化パターンは、対象の参照コホート(例えば、健康な対象のコホート)の固有の試験フラグメントにわたって最小頻度よりも高い頻度で現れるメチル化パターンを除去するためにフィルタリングされる。例えば、いくつかの実施形態において、対象のコホート(例えば、健康な対象のコホート)からのそれぞれの適格メチル化パターンに関連するゲノム領域にマッピングされる核酸断片の少なくとも20%において生じるそれぞれの適格メチル化パターンは、複数の適格メチル化パターンからそれぞれの適格メチル化パターンを除去するための基礎として役立つ。いくつかの実施形態においては、コホートからの核酸フラグメントの少なくとも20%の閾値(閾値)を課すのではなく、少なくとも3%、最低5%、最低10%、最低15%、最低25%、最低30%、最低35%、最低40%、最低45%、または最低50%が、それぞれの適格なマルチクリテーションパターン(適格な銘柄パターンのゲノム領域)を、複数の適格な多様化パターンから、それぞれの適格なマルチクリテーションパターンを除去するための基礎となる。いくつかの実施形態において、対象のコホート内の各対象は、第1のデータセットによって表される。いくつかの実施形態において、対象のコホート内の各対象は、第2のデータセットによって表される。いくつかの実施形態において、対象のコホート内の各対象は、第1または第2のデータセットによって表されない。
いくつかの実施形態において、複数の適格性メチル化パターンは、対象の参照コホート(例えば、特定の癌状態を有する対象のコホート)の固有の試験フラグメントにわたって最小頻度未満で現れるメチル化パターンを除去するためにフィルタリングされる。例えば、いくつかの実施形態では、特定の癌状態を有する対象のコホートからのそれぞれの適格なメチル化パターンに関連するゲノム領域にマッピングされる核酸断片の20%未満で生じるそれぞれのメチル化パターンが除去される。いくつかの実施形態では、コホート由来の核酸断片の20%未満、8%未満、15%未満、20%未満、30%未満、40%未満、50%未満、60%未満、70%未満、または80%未満の閾値を課すのではなく、それぞれの適格メチル化パターン(適格メチル化パターンのゲノム領域において)が、複数の適格メチル化パターンからそれぞれの適格メチル化パターンを除去するための基礎として役立つ条件(閾値)。いくつかの実施形態において、対象のコホート内の各対象は、第1のデータセットによって表される。いくつかの実施形態において、対象のコホート内の各対象は、第2のデータセットによって表される。いくつかの実施形態において、対象のコホート内の各対象は、第1または第2のデータセットによって表されない。
いくつかの実施形態では、複数の適格なメチル化パターンをフィルタリングして、gnomADおよびdbDNPデータベースなどの公的データベースに見られる対立遺伝子(メチル化パターン)を除去する。上記データセットに関する情報については、Karczewskiら、2019年、「141,456のヒトエキソームおよびゲノムにわたる変異により、ヒトタンパク質をコードする遺伝子にわたる機能喪失不耐性のスペクトルが明らかになる」、bioRxiv doi.org/10.1101/531210およびSherryら、2011年、「dbSNP:遺伝的変異のNCBIデータベース」、Nucを参照のこと。酸。Res。29、308-311.
使用方法
いくつかの実施形態において、本開示において提供される方法は、下流用途に入力するための癌状態を識別または示す適格なメチル化パターンを同定するために使用される。メチル化パターンを適格とするための使用には、腫瘍分率の推定、プロービング分類器の挙動、別の特徴の調査、疾患(例えば、癌の状態)の分類、および/または微小残存疾患の決定が含まれるが、これらに限定されない。
いくつかの実施形態において、本開示において提供される方法は、下流用途に入力するための癌状態を識別または示す適格なメチル化パターンを同定するために使用される。メチル化パターンを適格とするための使用には、腫瘍分率の推定、プロービング分類器の挙動、別の特徴の調査、疾患(例えば、癌の状態)の分類、および/または微小残存疾患の決定が含まれるが、これらに限定されない。
分級
いくつかの実施形態において、本方法は、第1および第2のデータセットを用いて同定された複数の適格化メチル化パターンに関連する少なくともメチル化パターン情報を用いて、癌状態の状態を識別または示す分類器を訓練することをさらに含む。
いくつかの実施形態において、本方法は、第1および第2のデータセットを用いて同定された複数の適格化メチル化パターンに関連する少なくともメチル化パターン情報を用いて、癌状態の状態を識別または示す分類器を訓練することをさらに含む。
例えば、いくつかの実施形態では、本明細書に開示される間隔地図を生成および走査する方法を使用して識別される癌状態を識別または示す1つまたは複数の適格なメチル化パターンを含むトレーニングセット上で、非トレーニング分級がトレーニングされる。いくつかの実施形態において、非訓練分級は、インターバルマッピング以外の任意の代替方法を用いて同定された癌状態を識別または示す1つ以上の適格メチル化パターンを含む訓練セット上で訓練される。
いくつかの実施形態において、分類器は、ロジスティック回帰である。いくつかの実施形態では、分類器は、ニューラルネットワークアルゴリズム、支持、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、または線形回帰アルゴリズムである。
分類子は、例えば、2020年12月11日に出願された「パッチ畳み込みニューラルネットワークを使用した癌分類」と題する米国特許出願公開第17/119,606号、および2019年12月18日に出願された「メチル化情報を使用した細胞源分率の推定のためのシステムおよび方法」と題する米国特許出願公開第2020-0385813 A1号にさらに詳細に記載されており、それらの各々は、その全体が参照により本明細書に組み込まれる。
いくつかの実施形態では、がん状態を識別または表示する1つまたは複数の適格なメチル化パターンについて訓練された訓練された分級が、第1および/または第2のデータセットのがん状態の状態を分類することによって訓練を検証するために使用される。いくつかの代替的な実施形態では、がん状態を識別または示す1つまたは複数の適格なメチル化パターンについて訓練された訓練された分類器をさらに使用して、適格なメチル化パターンが同定されたそれぞれのゲノム領域またはサブ領域における第3のデータセットのメチル化状態を評価することによって、第3のデータセット(例えば、未知サンプルまたは被験者の)のがん状態を分類する。
したがって、いくつかの実施形態において、第3のデータセットは、電子形態で得られ、ここで、第3のデータセットは、第3の複数の断片中のそれぞれの断片の対応する断片メチル化パターンを含む。それぞれのフラグメント(i)の対応するフラグメントメチル化パターンは、試験対象から得られた生物学的試料からの核酸のメチル化配列決定によって決定され、(ii)それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態を含む。この方法は、さらに、第3のデータセット中の第3の複数の断片中のそれぞれの断片の断片メチル化パターンを、複数の適格なメチル化パターン中の適格なメチル化パターンを包含するか、またはそれに対応する、断片メチル化パターンを分類器に適用することを含み、それによって、試験対象における癌状態の状態を決定する。したがって、例えば、複数の適格性メチル化パターンが20個の異なるゲノム領域にマッピングされる20個の特定のメチル化パターンのセットである場合を考える。この例では、生物学的試料からの核酸のメチル化配列決定からのこれらの20の異なるゲノム領域において試験対象によって示されるメチル化パターンは、上記実施形態において分類器に入力され、試験対象の癌状態の状態を確認する。これらの20の異なるゲノム領域におけるメチル化パターンは、均質なパターンではないことが理解されるであろう。事実、被験体についてのシーケンシングデータは、20の適格なメチル化パターンに関連する20の異なるゲノム領域においていくつかの異なるメチル化パターンが存在することを示し得る。いくつかの上記実施形態において、20の異なるゲノム領域で試験対象について観察されたメチル化パターンは、分類器に入力される。例えば、複数の適格性メチル化パターンにおける第1の適格性メチル化パターンに関連するゲノム領域について、試験対象についてのメチル化配列決定が、メチル化パターンAを有するゲノム領域にマッピングする35個の断片およびメチル化パターンBを有するゲノム領域にマッピングする70個の断片を生成する非限定的な例を考えると、この例では、メチル化パターンAおよびBの両方の指示が、第1のゲノム位置にマッピングする断片の35/105の中でメチル化パターンAが観察され、第1のゲノム位置にマッピングする断片の70/105の中でメチル化パターンBが観察されたという指示とともに、分類器に入力される。他の実施形態では、分類器は、複数の適格なメチル化パターンがマッピングするゲノム領域におけるパターンの割合を考慮せず、むしろ、メチル化パターンを有するフラグメントの閾値数がゲノム位置(例えば、少なくとも2つのフラグメントなど)で見出されたかどうかについての単なる2進表示を考慮する。他の実施形態では、分類器は、複数の適格なメチル化パターンがマッピングするゲノム領域におけるパターンの割合を考慮せず、むしろ、閾値数の断片(各々が閾値カバレッジで配列決定され、メチル化パターンを有する)がゲノム位置(例えば、各々が少なくとも二元0の閾値カバレッジを有する少なくとも二元つの断片など)で見出されたかどうかについての単なる二元進表示を考慮する。
いくつかの実施形態において、第3のデータセットは、本明細書に開示される方法のいずれかを使用して(例えば、第1および第2のデータセットについて記載される方法および/または実施形態のいずれかを使用して)取得される。
いくつかの実施形態において、生物学的試料および/または被験体は、本明細書に開示される方法のいずれかを使用して(例えば、第1および第2のデータセットについて記載される方法および/または実施形態のいずれかを使用して)得られる。
いくつかの実施形態において、被験体から得られる生物学的試料は、液体生物学的試料(例えば、血液および/またはcfDNA)である。いくつかの態様において、生物学的試料は、組織生物学的試料(例えば、腫瘍試料)である。
いくつかの実施形態において、第3の複数の断片は、無細胞核酸である。例えば、いくつかの好ましい実施形態では、被験者におけるがん状態を判定するために第3のデータセットを取得することは、組織サンプル(例えば、生検サンプル)を取得することを必要としない。いくつかの実施形態において、試験対象由来の第3の複数の断片は、100個以上の無細胞核酸断片、1000個以上の無細胞核酸断片、10,000個以上の無細胞核酸断片、100,000個以上の無細胞核酸断片、1,000,000個以上の無細胞核酸断片、または10,000,000個以上の核酸断片を含む。
いくつかの上記実施形態では、方法は、第1および第2のデータセットに加えて、複数のデータセットを取得することをさらに含み、複数のデータセット内のそれぞれのデータセットは、それぞれの複数のフラグメント内のそれぞれのフラグメントの対応するフラグメントメチル化パターンを含む。それぞれのフラグメント(i)の対応するフラグメントメチル化パターンは、試験対象から得られた生物学的試料からの核酸のメチル化配列決定によって決定され、(ii)それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態を含む。この方法は、さらに、複数の適格性メチル化パターン中の適格性メチル化パターンを包含するか、またはそれに対応する、それぞれのデータセット中のそれぞれの複数のフラグメント中のそれぞれのフラグメントのフラグメントメチル化パターンを分類器に適用し、それによって、試験対象における癌状態の状態を決定することを含む。
いくつかのそのような実施形態では、複数のデータセット内のそれぞれのデータセットは、ある期間にわたって単一の被験者から連続的に取得される。いくつかの実施形態において、それぞれの複数の断片は、無細胞核酸である。例えば、いくつかの好ましい実施形態において、試験対象における癌状態の状態を決定するために複数のデータセット内のそれぞれのデータセットを取得することは、組織サンプル(例えば、生検サンプル)を取得することを必要としない。
いくつかの実施形態において、癌状態は、癌の非存在または存在である。いくつかの実施形態では、癌状態は癌の病期である。いくつかの実施形態では、がん状態は、がんサブタイプまたはがんの組織起点である。例えば、いくつかの実施形態において、がんは、副腎がん、胆道がん、膀胱がん、骨/骨髄がん、脳がん、乳がん、子宮頸がん、食道のがん、胃がん、頭頸部がん、肝胆道がん、腎がん、肝臓がん、肺がん、卵巣がん、膵がん、骨盤がん、胸膜がん、前立腺がん、腎がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、多発性骨髄腫、白血病、またはこれらの組み合わせである。
腫瘍分率の推定
いくつかの実施形態において、癌状態は、腫瘍分率である。例えば、いくつかの実施形態では、血液中の1つ以上のメチル化状態パターン(例えば、cfDNAおよび/または血漿)が腫瘍由来であり、そのような腫瘍由来変異対立遺伝子の周波数が、正常細胞に対する癌細胞の画分(例えば、腫瘍画分)に正比例するという仮定に基づいて、腫瘍画分推定値が計算される。いくつかの実施形態において、腫瘍分率推定のための方法は、WGBS、標的化メチル化配列決定(TM配列決定)、WGS、および/または標的化配列決定(例えば、小さな変形例を使用)からのシーケンシングデータを使用して実施される。図13Aおよび13Bは、小さな変形例に基づくいくつかのアプローチを示す。図14および15は、これらの小さな変形例ベースの方法に対する代替方法を示す2つの実施例を示す。上記実施形態では、小さな変異体の代わりに、選択されたメチル化パターン(例えば、適格なメチル化パターンまたはQMP)が、特に小さな変異体の同定が亜硫酸水素塩変換などの因子によって損なわれる場合に、メチル化シーケンシングデータに基づいて腫瘍分率を推定するための基礎として使用される。QMPベースの方法は、WGBS (例えば、図14Aおよび14B)およびTM配列決定データ(例えば、図15Aおよび15B)の両方に適用することができる。
いくつかの実施形態において、癌状態は、腫瘍分率である。例えば、いくつかの実施形態では、血液中の1つ以上のメチル化状態パターン(例えば、cfDNAおよび/または血漿)が腫瘍由来であり、そのような腫瘍由来変異対立遺伝子の周波数が、正常細胞に対する癌細胞の画分(例えば、腫瘍画分)に正比例するという仮定に基づいて、腫瘍画分推定値が計算される。いくつかの実施形態において、腫瘍分率推定のための方法は、WGBS、標的化メチル化配列決定(TM配列決定)、WGS、および/または標的化配列決定(例えば、小さな変形例を使用)からのシーケンシングデータを使用して実施される。図13Aおよび13Bは、小さな変形例に基づくいくつかのアプローチを示す。図14および15は、これらの小さな変形例ベースの方法に対する代替方法を示す2つの実施例を示す。上記実施形態では、小さな変異体の代わりに、選択されたメチル化パターン(例えば、適格なメチル化パターンまたはQMP)が、特に小さな変異体の同定が亜硫酸水素塩変換などの因子によって損なわれる場合に、メチル化シーケンシングデータに基づいて腫瘍分率を推定するための基礎として使用される。QMPベースの方法は、WGBS (例えば、図14Aおよび14B)およびTM配列決定データ(例えば、図15Aおよび15B)の両方に適用することができる。
いくつかの実施形態において、癌状態の状態は、腫瘍分画であり、癌状態の第1の状態は、腫瘍分画の第1の範囲であり、癌状態の第2の状態は、腫瘍分画の第2の範囲である。
例えば、いくつかの実施形態において、第1の範囲は0.001より大きく、第2の範囲は0.001より小さい。
いくつかの実施形態において、腫瘍分画推定値は、(例えば、分類器を使用して)癌の確率をプロットするために使用される。
いくつかの実施形態において、腫瘍分画推定値は、(例えば、分類器を使用して)癌の確率をプロットするために使用される。
いくつかの態様において、癌の確率は、検出の限界を決定するために使用される。いくつかの上記態様において、検出限界は0.1%である。
いくつかの実施形態において、腫瘍分率は、複数の適格なメチル化パターン(QMP;例えば、図14および15の開示を参照されたい)から計算される。一実施形態では、それぞれの適格性メチル化パターンに対応するそれぞれのゲノム領域における適格性メチル化パターンを含まないフラグメント(例えば、それぞれの変異体部位をカバーする変異体一致および非一致フラグメント)の数を用いて、適格性メチル化パターンを含むフラグメントの数および適格性メチル化パターンを含まないフラグメントの数を用いて、後部腫瘍画分推定値を生成する。
いくつかの実施形態において、腫瘍分率は、複数の適格なメチル化パターン(QMP;例えば、図14および15の開示を参照されたい)から計算される。一実施形態では、それぞれの適格性メチル化パターンに対応するそれぞれのゲノム領域における適格性メチル化パターンを含まないフラグメント(例えば、それぞれの変異体部位をカバーする変異体一致および非一致フラグメント)の数を用いて、適格性メチル化パターンを含むフラグメントの数および適格性メチル化パターンを含まないフラグメントの数を用いて、後部腫瘍画分推定値を生成する。
標的化メチル化配列決定が使用されるいくつかの上記実施形態では、部位ごと(例えば、それぞれの適格メチル化パターン「QMPゲノム部位」に対応するゲノム部位ごと)のポアソン尤度モデルが使用される。いくつかの実施形態において、このポアソン尤度モデルは、腫瘍画分、引張りバイアス(QMPゲノム部位における代替の対立遺伝子パターンの除外に表される特定の対立遺伝子パターンを有するプローブの使用によって導入される引張りバイアスを補正するため)、推定された全配列決定深さ、および暗騒音速度の機能として速度定数を計算する。
この上述の引張りバイアスは、WGBS制御データおよびTM制御データを用いて、QMPゲノム部位iにおける標的化メチル化配列決定における引張りバイアスを補正する。特に、上記制御データは、アルファを計算するために使用される。すなわち、αを計算するために、WGBS制御からの複数のQMPゲノム部位(検討中)における各部位の異常数を求める(「制御(WGBS数)異常数」)。このように、WGBS制御を用いて得られた異なるQMPゲノム部位ごとに、複数のWGBS異常カウントが存在する。このWGBSコントロールの癌状態については特に要件はない。言い換えれば、WGBS制御は特定の癌状態を有しているか、特定の癌状態を有していない可能性がある。いくつかの実施形態において、WGBS対照は、WGBSを用いて配列決定される所定の既知割合のメチル化ゲノムDNAを有する、制御された細胞株である。いくつかの実施形態において、WGBS制御は、所定の組成(例えば、0%および100%メチル化ゲノムDNAの50/50または40/60または30/70混合物)での0%メチル化および100%メチル化ゲノムDNAの混合物である。さらに、標的化されたメチル化配列決定からの複数のQMPゲノム部位における各部位の異常カウントが得られる(「TM制御(TMカウント)異常カウント」)。典型的な実施形態では、TM制御のためのDNAの供給源は、WGBS制御の場合と同じであり、唯一の相違点は、TM制御の場合、制御DNAは、WGBSによってではなく、TMにおいて使用される引張りを用いた標的化配列決定を用いて配列決定されることである。このような実施形態における量αは、制御(WGBSカウント)異常カウント/ TM制御(TMカウント)異常カウントの散布図に当てはめられた線の傾きを表す。散布図の各ポイントは、検討の複数のQMPゲノム部位における異なるQMPゲノム部位jについてであり、各ポイントのx座標はゲノム部位jにおける(WGBS数)異常数であり、各ポイントのy座標はゲノム部位jにおける(TM数)異常数である。さらに、アルファに関する式に示されるように、典型的な実施形態では、WGBS制御(WGBS数)異常計数の75th分位点からのデータのみ、およびTM制御(TM数)の75th分位点からのデータのみが、アルファが計算される散布図に使用される。量アルファ は、散布図データに当てはめられた線の傾きである。75th分位点の使用は例示的なものであり、アプリケーション依存事項において上方(例えば、85th分位点)または下方(例えば、65th分位点)に調整することができることが理解されよう。たとえば、下流側の分類子の最適化の一部として最適化されたハイパーパラメータとして扱うことができる。さらに、分位点カットを行うのではなく、散布図を使用してアルファを計算する前に、外れ値を除去するための他の方法を代わりに使用することができる。
さらに、上記のアプローチは、第2のデータセット(癌状態の第2の状態(例えば、非癌)を有する)におけるQMP(E)の所与のQMPゲノム部位iにおける推定雑音速度の計算を必要とする。いくつかの実施形態では、以下のように推定される:
ベータを計算するために、第2癌状態を有する1人以上の被験者における複数のQMPゲノム部位(研究中)の各部位での異常でないカウントが得られる(「WGBS第2状態(WGBS SS)カウントが異常ではない」)。したがって、第2のデータセットを用いて得られた異なるQMPゲノム部位ごとに、異常な数ではない複数のWGBSが存在する。さらに、標的化されたメチル化配列決定からの複数のQMPゲノム部位における各部位での異常なカウントは得られない(「TM第2の状態(TM SS)は異常なカウントではない」)。典型的な実施形態では、TM第2の状態のためのDNAの供給源は、WGBS制御の場合と同じであり(および典型的には、第2のデータセットに寄与し、および/または第2の癌状態を有する対象からのものである)、唯一の相違点は、TM SSの場合、WGBSによってではなく、TMにおいて使用される引張りを用いて標的化配列決定を用いてDNAを配列決定することである。量βは、上記実施形態では、「TM第2の状態(TM SS)の異常なカウントではない」/「異常なカウントではない」の散布図に当てはめられた線の傾きを表す。散布図の各点は、検討中の複数のQMPゲノム部位における異なるQMPゲノム部位jに関するものであり、ここで、それぞれの点に関するx座標は、ゲノム部位jにおける異常なカウントではないTM第2の状態(TM SS)であり、そしてそれぞれの点に関するy座標は、ゲノム部位jにおける異常なカウントではないWGBS SS (WGBS NC)である。さらに、ベータについての式に示されるように、典型的な実施形態では、TM第2状態(TM SS)の75th分位点からのデータのみが異常カウントではなく、ベータが計算される散布図では、WGBS第2状態(WGBS SS)の75th分位点からのデータのみが異常カウントではない。量ベータ は、この散布図データに当てはめられた線の傾きである。75th分位点の使用は、アルファの場合と同様に、例示的であり、アプリケーション依存事項において、上方(例えば85th分位点)または下方(例えば65th分位点)に調整することができることが理解されるであろう。たとえば、下流側の分類子の最適化の一部として最適化されたハイパーパラメータとして扱うことができる。さらに、分位点カットを行うのではなく、散布図を使用してベータを計算する前に、外れ値を除去するための他の方法を代わりに使用することができる。
ガンマを計算するために、第2癌状態を有する1人以上の被験者において、複数のQMPゲノム部位(試験中)の各部位で異常でないカウントが得られる(「WGBS第2状態(WGBS SS)で異常なカウントではない」)。したがって、第2のデータセットを用いて得られた異なるQMPゲノム部位ごとに、異常な数ではない複数のWGBSが存在する。さらに、標的化されたメチル化配列決定からの複数のQMPゲノム部位における各部位での異常カウントは得られない(「TM第一状態(TM FS)は異常カウントではない」)。典型的な実施形態では、TM FSのためのDNAの供給源は、第1のデータセットに寄与し、および/または第1の癌状態を有する1つ以上の対象からのものである。典型的な実施形態では、WGBS SSのためのDNAの供給源は、第2のデータセットに寄与し、および/または第2の癌状態を有する1つ以上の対象からのものである。量ガンマは、上記実施形態では、「異常カウントではないTM第1状態(TM FS)」/「異常カウントではないWGBS第2状態(WGBS SS)」の散布図に当てはめられた線の傾きを表し、散布図における各点は、検討中の複数のQMPゲノム部位における異なるQMPゲノム部位jに関するものであり、ここで、各点に関するx座標は、ゲノム部位jにおける異常カウントではないTM第1状態(TM FS)であり、各点に関するy座標は、ゲノム部位jにおける異常カウントではないWGBS第2状態(WGBS SS)である。さらに、ガンマに関する式に示されるように、典型的な実施形態では、TM第1状態(TM FS)の75th分位点からのデータのみが異常カウントではなく、WGBS第2状態(WGBS SS)の75th 分位点からのデータのみが、ガンマが計算される散布図において使用される。量ガンマは、この散布図データに当てはめられた線の傾きである。75th分位点の使用は、アルファの場合と同様に、例示的であり、アプリケーション依存事項において、上方(例えば85th分位点)または下方(例えば65th分位点)に調整することができることが理解されるであろう。たとえば、下流側の分類子の最適化の一部として最適化されたハイパーパラメータとして扱うことができる。さらに、ガンマを計算するために散布図を使用する前に、分位点カットを行うのではなく、外れ値を除去するための他の方法を代わりに使用することができる。
いくつかの実施形態では、TM配列決定アッセイにおいて、異常にメチル化されたフラグメントはプローブによって濃縮され、したがって、上記フラグメント内のQMPに基づいて計算された腫瘍画分はバイアスされる可能性が高いため、非癌騒音速度、アッセイタイプ間のバイアス(例えば、WGBS対TM)などの因子を説明するために、様々な騒音またはバイアスモデルを生成することができる。いくつかの実施形態において、複数の適格なメチル化パターンは、腫瘍分率推定の前に濾過され、0%または100%のメチル化CpG部位を有するメチル化パターンを有するものを含む。いくつかの代替的な実施形態において、複数の適格性メチル化パターンは、所定の組成物(例えば、0%および100%メチル化ゲノムDNAの50/50または40/60または30/70混合物)で0%メチル化および100%メチル化ゲノムDNAの混合物を用いた対照実験において、標的化メチル化アッセイによって効果的にプルダウンされたものを含むように、腫瘍分率推定の前に濾過される。例えば、0%および100%メチル化ゲノムDNAの50/50の混合物は、知覚される配列決定深さに対する濃縮プローブの効果を評価するために、並行WGBSおよびTM分析にかけることができる。いくつかの代替的な実施形態では、複数の適格性メチル化パターンは、腫瘍分率推定の前に濾過され、適格性メチル化パターンの重複しないセットを形成し、それによって二重計数を緩和するものを含む。
いくつかの上記態様において、後部腫瘍分率推定値は、合成希釈を用いてさらに最適化され、検証される。いくつかの実施形態では、後部腫瘍分率推定値は、マッチした試料から生成された推定値との比較を使用してさらに最適化される(例えば、腫瘍生検WGBS試料からの腫瘍分率推定値は、患者がマッチしたcfDNA WGBS試料からの腫瘍分率推定値と比較される)。
腫瘍分率推定値の算出のための別の方法および実施形態は、例えば、参照により本明細書に組み込まれる2019年12月18日に出願された「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開第2020-0385813 A1号および下記実施例4に詳細に記載されている。
腫瘍分率推定値の算出のための別の方法および実施形態は、例えば、参照により本明細書に組み込まれる2019年12月18日に出願された「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開第2020-0385813 A1号および下記実施例4に詳細に記載されている。
最小残存疾患およびその他の用途のモニタリング。
いくつかの実施形態では、がん状態の状態は腫瘍分率であり、第3のデータセットを取得し、第3のデータセットのフラグメントメチル化パターンを分類器に適用することは、経時的に繰り返し行われる。例えば、いくつかの実施形態では、再発基準での適用は、最小限の残存病変および再発監視のために実施される。いくつかの上記実施形態では、第3のデータセットの取得および適用は、癌治療の有効性を評価するために、癌治療の前後に実施される(例えば、第3のデータセットが、癌治療の前後の試験対象からの生物学的試料から取得される場合)。
いくつかの実施形態では、がん状態の状態は腫瘍分率であり、第3のデータセットを取得し、第3のデータセットのフラグメントメチル化パターンを分類器に適用することは、経時的に繰り返し行われる。例えば、いくつかの実施形態では、再発基準での適用は、最小限の残存病変および再発監視のために実施される。いくつかの上記実施形態では、第3のデータセットの取得および適用は、癌治療の有効性を評価するために、癌治療の前後に実施される(例えば、第3のデータセットが、癌治療の前後の試験対象からの生物学的試料から取得される場合)。
いくつかの上記態様において、腫瘍分率の判定は、対象に対する癌治療の有効性を評価するために、癌治療の前に得られた第1の試料および癌治療の後に得られた第2の試料から実施される。
いくつかの実施形態では、本方法は、エポックにわたる複数の時点において、それぞれの時点における試験対象についての腫瘍分率推定値の推定を繰り返し、したがって、それぞれの時点における試験対象について、複数の腫瘍分率推定値において、対応する腫瘍分率推定値を得る。いくつかの実施形態において、この複数の腫瘍分率推定値は、エポック中の被験者における疾患状態の状態または進行を、エポックにわたる腫瘍分率の増加または減少の形態で決定するために使用される。
いくつかの実施形態では、本方法は、エポックにわたる複数の時点において、それぞれの時点における試験対象についての腫瘍分率推定値の推定を繰り返し、したがって、それぞれの時点における試験対象について、複数の腫瘍分率推定値において、対応する腫瘍分率推定値を得る。いくつかの実施形態において、この複数の腫瘍分率推定値は、エポック中の被験者における疾患状態の状態または進行を、エポックにわたる腫瘍分率の増加または減少の形態で決定するために使用される。
いくつかの実施形態において、各エポックは、月の期間であり、複数の時点における各時点は、月の期間における異なる時点である。いくつかの実施形態において、月の期間は、4ヶ月未満である。いくつかの実施形態において、各エポックは、1ヶ月長である。いくつかの実施形態において、各エポックは、2ヶ月長である。いくつかの実施形態において、各エポックは、3ヶ月長である。いくつかの実施形態において、各エポックは、4ヶ月長である。いくつかの実施形態では、各エポックは、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、または24ヶ月の長さである。
いくつかの実施形態では、エポックは、年の期間であり、複数の時点における各時点は、年の期間における異なる時点である。いくつかの実施形態において、年の期間は、1年から10年の間である。いくつかの実施形態において、期間は、1年、2年、3年、4年、5年、6年、7年、8年、9年、又は10年である。いくつかの実施形態において、エポックは、1~30年である。いくつかの実施形態では、エポックは時間の期間であり、複数の時点における各時点は、時間の期間における異なる時点である。いくつかの実施形態では、時間は1時間から24時間の間である。いくつかの態様において、時間の期間は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、または24時間である。
いくつかの実施形態において、本方法は、さらに、対象の腫瘍分率推定値(またはクローン拡大推定値)が、エポックにわたって閾値量だけ変化することが観察されるときに、対象の診断を変更することを含む。例えば、いくつかの実施形態では、診断は、癌を有することから寛解中であることに変更される。
別の例として、いくつかの実施形態では、診断は、がんを有さないことからがんを有することに変更される。別の例として、いくつかの実施形態では、診断は、癌の第1段階を有することから癌の第2段階を有することに変更される。別の例として、いくつかの実施形態では、診断は、癌の第2段階を有することから癌の第3段階を有することに変更される。さらに別の例として、いくつかの実施形態では、診断は、癌の第3の病期を有することから癌の第4の病期を有することに変更される。さらに別の例として、いくつかの実施形態では、診断は、転移していない癌を有することから、転移している癌を有することに変更される。
いくつかの実施形態において、被験者の腫瘍分率推定値がエポックにわたって閾値量だけ変化することが観察されるとき、被験者の予後は変化する。例えば、いくつかの実施形態では、予後は、余命を含み、予後は、第1の余命から第2の余命に変更され、ここで、第1および第2の余命は、いくつかの実施形態では、それらの持続時間が異なる。いくつかの実施形態において、予後の変化は、対象の平均余命を増加させる。いくつかの実施形態において、予後の変化は、対象の平均余命を減少させる。
いくつかの実施形態において、被験者の腫瘍分率推定値が、そのエポックにわたって閾値量だけ変化することが観察されるときに、被験者の治療が変更される。いくつかの実施形態において、治療の変更は、癌投薬を開始すること、癌投薬の投薬量を増加すること、癌投薬を中止すること、または癌投薬の投薬量を減少することを含む。いくつかの実施形態において、治療の変更は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(型6、11、16、および18)ワクチン、ペツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、またはこれらの一般的同等物による被験体の治療の開始または終了を含む。いくつかの実施形態において、治療の変更は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(型6、11、16、および18)ワクチン、ペルツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、またはこれらの一般的な同等物を対象に投与することを含む。いくつかの実施形態では、閾値は、10%超、20%超、30%超、40%超、50%超、2倍超、3倍超、または5倍超である。
いくつかの実施形態において、被験者の腫瘍分率推定値は0.003~1.0である。いくつかの実施形態において、被験者の腫瘍分率推定値は0.005~0.80である。いくつかの実施形態において、被験者の腫瘍分率推定値は0.01~0.70である。いくつかの実施形態において、被験者の腫瘍分率推定値は0.05~0.60である。
いくつかの実施形態において、本方法は、少なくとも部分的に、試験対象についての腫瘍分率推定値(またはクローン拡大推定値)の値に基づいて、試験対象に治療計画を適用することをさらに含む。いくつかの実施形態において、治療レジメンは、がんのための薬剤を被験体に適用することを含む。いくつかの態様において、癌のための薬剤は、ホルモン、免疫療法、放射線撮影、または癌薬物である。いくつかの実施形態において、癌のための薬剤は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(型6、11、16、および18)ワクチン、ペルツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、またはこれらの一般的同等物である。
いくつかの実施形態において、試験対象は、癌のための薬剤で治療されており、方法は、癌のための薬剤に対する対象の応答を評価するために、試験対象のための腫瘍分率推定値を使用することをさらに含む。いくつかの態様において、癌のための薬剤は、ホルモン、免疫療法、放射線撮影、または癌薬物である。いくつかの実施形態において、癌のための薬剤は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(型6、11、16、および18)ワクチン、ペルツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、またはこれらの一般的同等物である。
いくつかの態様において、試験対象は、癌のための薬剤で治療され、試験対象のための腫瘍分率推定値は、試験対象における癌のための薬剤を強化するかまたは中止するかを決定するために使用される。例えば、いくつかの実施形態において、少なくとも腫瘍分率推定値(例えば、0.05、0.10、0.15、0.20、0.25、または0.30を超えるなど)の観察は、被験者におけるがんに対する薬剤の増強(例えば、線量の増加、放射線治療における放射線レベルの増加)の基礎として使用される。いくつかの実施形態において、閾値未満の腫瘍分率推定値(例えば、0.05、0.10、0.15、0.20、0.25、または0.30未満など)の観察は、試験対象における癌のための薬剤の使用を中止するための基礎として使用される。
いくつかの実施形態において、試験対象は、癌に対処するために外科的介入を受けており、方法は、外科的介入に応答して試験対象の状態を評価するために、試験対象についての腫瘍分率推定値を使用することをさらに含む。いくつかの実施形態において、状態は、本開示において提供される方法を用いた腫瘍分率推定に基づくメトリックである。
いくつかの実施形態において、試験対象は、癌に対処するために外科的介入を受けており、方法は、外科的介入に応答して試験対象の状態を評価するために、試験対象についての腫瘍分率推定値を使用することをさらに含む。いくつかの実施形態において、状態は、本開示において提供される方法を用いた腫瘍分率推定に基づくメトリックである。
いくつかの実施形態において、癌状態を識別または示すメチル化パターンは、cfDNAから得られたフラグメントを標識するために使用される。例えば、いくつかの上記実施形態では、癌状態(例えば、腫瘍)に関連する同定されたメチル化パターンに一致する1つ以上のメチル化パターンを含む1つ以上のフラグメントが単離され、他の特徴を特徴付けるために検査される。いくつかの上記態様において、上記代替的特性の調査は、腫瘍由来核酸断片を定義し、および/またはそれに関連する特性に対するさらなる洞察などのさらなる使用を提供することができる。
いくつかの実施形態において、腫瘍分率推定の精度は、1つ以上の合成希釈物を使用して検証される。例えば、いくつかの実施形態において、高腫瘍画分を含む試料は、非癌cfDNAに合成希釈される。各連続希釈について腫瘍分率の推定値を計算し、一致性について予測される腫瘍分率の推定値と比較する。
いくつかの態様において、希釈は、癌信号(例えば、配列決定読出しデータ)を非癌信号にシリコで希釈することによって行われる。いくつかの態様において、癌cfDNA試料を非癌cfDNA試料に希釈することによって、ウェット実験室希釈を行う。いくつかの実施形態において、希釈は、配列決定の前に、第1の被験体からの癌cfDNA試料を第2の被験体からの非癌cfDNAに希釈することによって行われる。
いくつかの実施形態において、希釈は、プールされた被験体を用いて実施される。いくつかの実施形態において、希釈は、第1の癌状態(例えば、癌/非癌、癌型/サブ型、病期、および/または起源組織)から得られた試料を、第1の癌状態とは異なる第2の癌状態から得られた試料に希釈することによって行われる。
いくつかの実施形態において、腫瘍分率推定値の合成希釈(例えば、メチル化パターンを用いて計算)によるバリデーションを実施して、分類器の性能を評価し、および/または分類器の挙動を調査することができる。
開示のその他の側面
本開示の別の態様は、癌状態を識別または発明複数のメチル化パターンを同定するためのコンピュータシステムを提供する。この態様では、コンピュータシステムは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを記憶するメモリとを備える。いくつかの実施形態では、少なくとも1つのプログラムは、当業者に明らかなように、本明細書に記載される方法および実施形態のいずれか、および/またはそれらの任意の組み合わせもしくは代替物を実行するための命令を含む。
本開示の別の態様は、プロセッサによって実行されると、癌状態を識別または発明複数のメチル化パターンを識別するための方法をプロセッサに実行させるプログラムコード命令を記憶する非一時的コンピュータ可読記憶媒体を提供する。いくつかの実施形態では、プログラムコード命令は、当業者に明らかなように、プロセッサに、本明細書に記載される方法および実施形態のいずれか、および/またはそれらの任意の組み合わせもしくは代替を実行させる。
実施例
実施例1-無細胞ゲノムアトラス検討(CCGA)
本開示の実施例では、CCGA [NCT02889978]からの対象を使用した。
CCGAは、プロスペクティブ、多施設共同、観察的cfDNAに基づく早期がん検出研究であり、141の施設で15,254人の人口統計学的に均衡のとれた参加者が登録されている。新たに治療歴のない癌と診断された被験者(C、症例)および登録時に定義された癌と診断されていない参加者(非癌[NC]、制御)から、登録参加者15,254例(癌56%、非癌44%)から血液検体を採取した。
実施例1-無細胞ゲノムアトラス検討(CCGA)
本開示の実施例では、CCGA [NCT02889978]からの対象を使用した。
CCGAは、プロスペクティブ、多施設共同、観察的cfDNAに基づく早期がん検出研究であり、141の施設で15,254人の人口統計学的に均衡のとれた参加者が登録されている。新たに治療歴のない癌と診断された被験者(C、症例)および登録時に定義された癌と診断されていない参加者(非癌[NC]、制御)から、登録参加者15,254例(癌56%、非癌44%)から血液検体を採取した。
第1コホート(事前に規定したサブスタディ) (CCGA1)では、CCGAおよびSTRIVE参加者3583人(CCGA:癌参加者1530人および非癌参加者884人; STRIVE1169人の非癌参加者)からプラズマcfDNA抽出物を得た。STRIVE検討は、スクリーニングマンモグラフィーを受ける女性(参加者99,259例)を登録した多施設プロスペクティブコホート研究である。プラズマcfDNA抽出のために、新たに診断された未処理癌(20腫瘍型、全ステージ)の984名のCCGA参加者と癌診断のない749名の参加者(制御)から血液を採取した(n=1785)。この事前に計画されたサブスタディには、20種類の腫瘍タイプおよび全ての臨床病期にわたる878例の症例、580例の制御、および169例のアッセイ制御(n=1627)が含まれた。
各参加者から引き出された血液に対して、1)ペアになったcfDNAと白血球(WBC)を標的とした配列決定(60,000X,507遺伝子パネル)を単核核核核酸塩の変種/インデックス(ART配列決定アッセイアッセイ)、ジョイント・コーラーがWBC由来の体質変種と残留技術ノイズを除去した、2)ペアになったcfDNAとWBC全体ゲノム配列決定(WGS; 35X)をコピーナンバーバリエーションのために行い、新しい機械学習アルゴリズムに関連したシグナルスコアを生成した、ジョイント分析は共通事象を確認した、3) cfDNA全体ゲノムサルファイト配列決定(WGBS; 34X)を、満足化のために、異常に満足したフラグメントを用いて生成した。さらに、比較のために腫瘍変異体の同定のためにペア腫瘍およびWBC gDNAについて4)全ゲノム配列決定(WGS; 30X)を実施するように、組織サンプルを癌のみの参加者から得た。
CCGA‐1検討の文脈の中で、cfDNA試料の腫瘍分率を推定するためのいくつかの方法が開発された。国際特許公開第WO/2019/204360号、「細胞を含まない核酸における腫瘍破砕を判定するためのシステムおよび方法」、国際特許公開第WO 2020/132148号、「方法情報を用いた細胞源破砕を推定するためのシステムおよび方法」、および米国特許公開第US 2020-0340064 A1号、「小変形例からの腫瘍破砕推定のためのシステムおよび方法」を参照されたい。例えば、アプローチの1つは、図13Aにおいて方法1300として示された。このアプローチでは、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織(例えば、1304)からの核酸試料、および適合患者(例えば、1306)からの白血球(WBC)からの核酸試料を、全ゲノム配列決定(WGS)によって配列決定した。シーケンシングデータに基づいて同定された体細胞変異体(例えば、1308)を、同一患者(例えば、1310)からの一致するcfDNAシーケンシングデータに対して分析し、腫瘍分率推定値(例えば、1312)を決定した。
あらかじめ規定された第2のサブスタディ(CCGA-2)では、全ゲノムではなく標的化した亜硫酸水素配列決定法を用いて、標的化メチル化(TM)配列決定法に基づいて、癌対非癌および起源組織の分級を開発した。CCGA2については、研修参加者3133人と検証用試料1354人(癌患者775人;登録時に癌であると判定されていない579人、癌であるか非癌であるかの確認前)を用いた。固有のメチル化データベースおよび以前のプロトタイプ全ゲノムおよび標的化配列決定アッセイから同定されたように、プラズマcfDNAを、メチルオームの最も有益な領域を標的とする亜硫酸水素シークエンシングアッセイ(COMPASSアッセイ)に供し、癌および組織を規定するメチル化シグナルを同定した。訓練用に残された元3133点のサンプルのうち、わずか1308点のサンプルが臨床的に評価可能であり、分析可能であるとみなされた。分析対象は、主要分析対象集団n = 927(癌654例、非癌273例)、副次分析対象集団n=1027(癌659例、非癌373例)とした。最後に、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織および腫瘍から単離された細胞由来のゲノムDNAを全ゲノム亜硫酸水素配列決定(WGBS)にかけ、パネルデザインおよび性能を最適化するためのトレーニングに使用するための癌定義メチル化信号の大規模データベースを生成した。
例えば、Klein et al.、2018、"Development of a completive cell-free DNA (cfDNA) assay for early detection of multiple tumor types: The Circulating Cell-free Genome Atlas (Oncology 36(15)、12021-12021、およびLiu et al.、2019、"Genome-wide cell-free DNA (cfDNA) methylation signatures and Effect on tissue of origin (TOO) performance,"Oncology 37(15)、3049-3049であり、その各々は参照によりその全体が本明細書に組み込まれる。
実施例2 - 複数のシーケンス・リードの取得
図7は、1つの実施形態による配列決定のための核酸サンプルを調製するための方法700のフローチャートである。方法700は、以下のステップを含むが、これらに限定されない。例えば、方法700の任意のステップは、品質管理のための定量サブステップまたは当業者に公知の他の研究所アッセイ手順を含むことができる。
図7は、1つの実施形態による配列決定のための核酸サンプルを調製するための方法700のフローチャートである。方法700は、以下のステップを含むが、これらに限定されない。例えば、方法700の任意のステップは、品質管理のための定量サブステップまたは当業者に公知の他の研究所アッセイ手順を含むことができる。
ブロック702では、対象から核酸試料(DNAまたはRNA)を抽出する。試料は、全ゲノムを含むヒトゲノムの任意のサブセットであってよい。試料は、癌を有することが知られているかまたは癌を有することが疑われる被験体から抽出され得る。試料は、血液、血漿、血清、尿、糞便、唾液、他のタイプの体液、またはそれらの任意の組合せを含むことができる。いくつかの実施形態では、血液試料(例えば、シリンジまたは指刺し)を採取するための方法は、手術を必要とし得る組織生検を得るための手順よりも侵襲性が低い場合がある。抽出試料は、cfDNAおよび/またはctDNAを含むことができる。健常者にとって、人体はcfDNAや他の細胞破片を自然に除去することができる。対象が癌または疾患を有する場合、抽出された試料中のctDNAは、診断のために検出可能なレベルで存在し得る。
ブロック704では、配列決定ライブラリーが準備される。ライブラリーの調製中に、ユニークな分子識別子(UMI)がアダプター連結によって核酸分子(例えばDNA分子)に付加される。UMIは、アダプター連結中にDNAフラグメントの端部に付加される短い核酸配列(例えば、4~10塩基対)である。いくつかの態様において、UMIは、特異的DNA断片に由来する配列読み取りを同定するために使用することができるユニークなタグとして働く縮重塩基対である。アダプター連結後のPCR増幅の間、UMIは、結合したDNAフラグメントと共に複製される。これにより、下流の分析で同じ元のフラグメントから得られたシークエンス読み取りを識別する方法が提供される。
ブロック706では、標的DNA配列がライブラリーから濃縮される。濃縮の間、ハイブリダイゼーションプローブ(本明細書では「プローブ」とも呼ばれる)は、癌(または疾患)、癌状態、または癌分類(例えば、癌クラスまたは起源組織)の有無に関して有益な核酸フラグメントを標的化し、引き下げるために使用される。所定のワークフローに関して、プローブは、DNAの標的(相補的)鎖にアニーリング(またはハイブリダイズ)するように設計され得る。標的ストランドは、「プラス」ストランド(例えば、mRNAに転写され、続いてタンパク質に翻訳されるストランド)または相補的な「マイナス」ストランドであってもよい。プローブの長さは、塩基対の10s、100s、または1000sの範囲とすることができる。一実施形態では、プローブはメチル化部位パネルに基づいて設計される。一実施形態では、プローブは、特定の癌または他のタイプの疾患に対応すると疑われるゲノム(例えば、ヒトまたは他の生物の)の特定の突然変異または標的領域を分析するために、標的遺伝子のパネルに基づいて設計される。さらに、プローブは、標的領域の重なり合う部分を覆うことができる。ブロック708では、これらのプローブは、核酸試料の一般的な配列読み取りに使用される。
ブロック706では、標的DNA配列がライブラリーから濃縮される。濃縮の間、ハイブリダイゼーションプローブ(本明細書では「プローブ」とも呼ばれる)は、癌(または疾患)、癌状態、または癌分類(例えば、癌クラスまたは起源組織)の有無に関して有益な核酸フラグメントを標的化し、引き下げるために使用される。所定のワークフローに関して、プローブは、DNAの標的(相補的)鎖にアニーリング(またはハイブリダイズ)するように設計され得る。標的ストランドは、「プラス」ストランド(例えば、mRNAに転写され、続いてタンパク質に翻訳されるストランド)または相補的な「マイナス」ストランドであってもよい。プローブの長さは、塩基対の10s、100s、または1000sの範囲とすることができる。一実施形態では、プローブはメチル化部位パネルに基づいて設計される。一実施形態では、プローブは、特定の癌または他のタイプの疾患に対応すると疑われるゲノム(例えば、ヒトまたは他の生物の)の特定の突然変異または標的領域を分析するために、標的遺伝子のパネルに基づいて設計される。さらに、プローブは、標的領域の重なり合う部分を覆うことができる。ブロック708では、これらのプローブは、核酸試料の一般的な配列読み取りに使用される。
図8は、一実施形態による配列読み取りを得るためのプロセスのグラフィック表現である。図8は、試料由来の核酸セグメント800の一例を示す。核酸セグメント800は、一本鎖核酸セグメントであり得る。いくつかの実施形態において、核酸セグメント800は、二本鎖cfDNAセグメントである。図示された例は、異なるプローブによって標的を定めることができる核酸セグメントの3つの領域805A、805B、および805Cを示している。具体的には、3つの領域805A、805B、および805Cのそれぞれに核酸セグメント800上の重複位置が含まれる。重複する位置の実施例は、シトシン(「C」)ヌクレオチド塩基802として図8に示されている。シトシン核酸ベース802は、領域805Aの第一端近辺、領域805Bの中心部、及び領域805Cの第二端近辺に位置する。
いくつかの態様において、プローブの1つ以上(またはすべて)は、特定の癌または他のタイプの疾患に対応すると疑われるゲノム(例えば、ヒトまたは他の生物の)の特定の突然変異または標的領域を分析するために、遺伝子パネルまたはメチル化部位パネルに基づいて設計される。「全体エクソーム配列決定」としても知られる、ゲノムの全体ての発現された遺伝子を配列決定するのではなく、標的遺伝子パネルまたはメチル化部位パネルを用いることにより、方法800を用いて、標的領域の配列決定の深さを増大させることができ、ここで、深さは、試料内の所定の標的配列が配列決定された回数のカウントを意味する。配列決定の深さを増大させることは、核酸試料の必要な入力量を減少させる。
1つ以上のプローブを用いた核酸試料800のハイブリダイゼーションは、標的配列870の理解をもたらす。図8に示すように、標的配列870は、ハイブリダイゼーションプローブによって標的化される領域805のヌクレオチド塩基配列である。標的配列870は、ハイブリダイズ核酸フラグメントとも呼ばれ得る。例えば、標的シークエンス870Aは、第1ハイブリッド化プローブによって標的とされる領域805Aに相当し、標的シークエンス870Bは、第2ハイブリッド化プローブによって標的とされる領域805Bに相当し、標的シークエンス870Cは、第3ハイブリッド化プローブによって標的とされる領域805Cに相当する。シトシン配列ベース802は、ハイブリダイゼーションプローブによって標的とされる各領域805A-C内の異なる場所に位置していることを考慮すると、各標的シークエンス870は、標的シークエンス870の特定の場所でのシトシン配列塩ベース802に対応する配列塩ベースを含む。
ハイブリダイゼーション工程の後、ハイブリダイズした核酸断片を捕捉し、PCRを用いて増幅することもできる。例えば、標的配列870を濃縮して、その後に配列決定することができる濃縮配列880を得ることができる。いくつかの実施形態において、各濃縮配列880は、標的配列870から複製される。標的配列870Aおよび870Cからそれぞれ増幅される濃縮配列880Aおよび880Cは、また、各配列リード880Aまたは880Cの末端近くに位置するチミン核酸塩を含む。以後使用されるように、参照対立遺伝子(例えば、シトシンヌクレオチド塩基802)に関連して変異した、濃縮配列880中の変異ヌクレオチド塩基(例えば、チミンヌクレオチド塩基)は、代替対立遺伝子とみなされる。さらに、標的配列870Bから増幅された各濃縮配列880Bは、各濃縮配列880Bの近傍または中央に位置するシトシンヌクレオチド塩基を含む。
ブロック708では、配列読取りは、濃縮されたDNA配列、例えば、図8に示される濃縮された配列880から生成され、シーケンシングデータは、当技術分野で公知の手段によって、濃縮されたDNA配列から取得され得る。例えば、方法800は、合成技術(Illumina)、ピロシークエンシング(454ライフサイエンス)、イオン半導体技術(Ion Torrent配列決定)、単一分子リアルタイム配列決定(Pacific Biosciences)、連結による配列決定(SOLiD配列決定)、ナノポア配列決定(Oxford Nanopore Technologies)、または対端部配列決定を含む次世代配列決定(NGS)技術を含み得る。いくつかの実施形態において、大規模並列配列決定は、可逆的色素停止剤を有する合成による配列決定を使用して行われる。
いくつかの実施形態において、配列読み取りは、アラインメント位置情報を決定するために、当技術分野において公知方法を使用して、参照ゲノムにアラインされ得る。アラインメント位置情報は、与えられた配列の開始ヌクレオチド塩基および末端ヌクレオチド塩基に相当する参照ゲノム中の領域の開始位置および末端位置を示すことができる。また、位置合わせ位置情報は、開始位置および終了位置から決定することができる配列読み取り長を含むことができる。参照ゲノム中の領域は、遺伝子または遺伝子のセグメントと関連していてもよい。
様々な実施形態において、読取配列は、として示される読取一対から構成される。例えば、第1の読み取りは核酸フラグメントの第1の端部から配列決定されてもよいが、第2の読み取りは核酸フラグメントの第2の端部から配列決定されてもよい。したがって、第1の読取りおよび第2の読取りのヌクレオチド塩基対は、参照ゲノムのヌクレオチド塩基と一貫して(例えば、反対方向に)並んでいてもよい。読取り一対から導かれ、第1の読取り(例えば)の末端に一対応する参照ゲノム内の開始位置、および第2の読取り(例えば、)の末端に一対応する参照ゲノム内の末端位置を含むことができる、位置合わせ位置情報。言い換えれば、参照ゲノムにおける開始位置および終了位置は、核酸フラグメントが対応する参照ゲノム内の可能性のある位置を表すことができる。SAM (シークエンスアラインメントマップ)フォーマットまたはBAM (バイナリ)フォーマットを有する出力ファイルが生成され、さらに詳しい分析のために出力され得る。
実施例3-メチル化状態ベクトルの生成
図9は、本開示による一実施形態による、メチル化状態ベクトルを得るためにcfDNAの断片を配列決定する処理900を説明するフローチャートである。
図9は、本開示による一実施形態による、メチル化状態ベクトルを得るためにcfDNAの断片を配列決定する処理900を説明するフローチャートである。
工程902を参照すると、cfDNAフラグメントは、生物学的試料から得られる(例えば、実施例2と併せて上記で論じたように)。工程920を参照すると、cfDNAフラグメントを処理して、非メチル化シトシンをウラシルに変換する。一実施形態では、DNAは、メチル化シトシンを変換することなく、cfDNAのフラグメントの非メチル化シトシンをウラシルに変換する重亜硫酸処理に付される。例えば、EZ DNAMethylationTM-ゴールド、EZ DNAMethylationTM-直接またはEZ DNAMethylationTM-Lightningキット(ザイモリサーチ社(カリフォルニア州アーバイン)から入手可能)などの市販キットが、いくつかの実施形態において、亜硫酸水素塩変換のために使用される。他の実施形態において、非メチル化シトシンのウラシルへの変換は、酵素反応を用いて達成される。例えば、変換は、非メチル化シトシンをウラシルに変換するための市販のキット、例えばAPOBEC-Seq (NEBiolabs、Ipswich、MA)を使用することができる。
変換されたcfDNAフラグメントから、配列決定ライブラリーを調製する(ステップ930)。任意に、配列決定ライブラリーは、複数のハイブリダイゼーションプローブを用いて癌状態に有益であるcfDNAフラグメントまたはゲノム領域について935に富化される。ハイブリダイゼーションプローブは、特に特定されたcfDNAフラグメントまたは標的領域にハイブリダイズし、その後の配列決定および分析のためにこれらのフラグメントまたは領域を濃縮することができる短いオリゴヌクレオチドである。ハイブリダイゼーションプローブを用いて、研究者が関心を有する特定のCpG部位のセットの標的化された高深さ分析を行うことができる。一旦調製されると、配列決定ライブラリーまたはその一部を配列決定して、複数の配列読み取り(940)を得ることができる。配列読取りは、コンピュータソフトウェアによる処理および解釈のために、コンピュータ読取り可能なデジタルフォーマットであってもよい。
配列読み取りから、参照ゲノム(950)への配列読み取りのアラインメントに基づいて、各CpG部位の位置およびメチル化状態が決定される。参照ゲノム中の断片の位置(例えば、各断片中の最初のCpG部位の位置、または別の同様の測定基準によって特定される)、断片中の多数のCpG部位、および断片中の各CpG部位のメチル化状態を特定する、各断片についてのメチル化状態ベクトル(960)。
WGBSに関する詳細については、例えば、「Anomalous Fragment Detection and Classification」と題する米国特許公開第2019-0287652 A1号、および「Systems and Methods for Estimating Cell Source Fractions Using Methods Using Methylation Information」と題する米国特許公開第2020-0385813 A1号を参照されたい。
実施例4-高腫瘍分率を有するテストケース
CCGA検討から、高い腫瘍分率を有する試料(標的化配列決定(ART)推定腫瘍分率:15%;参加者ID 2737)を用いてテストケースを得た。概念実証目的のために、高腫瘍分率は、腫瘍由来の組織(例えば、腫瘍)試料およびcfDNA試料の両方において比較的多数の核酸断片を提供した。さらに、このテストケースはcfDNAからの標的メチル化データを含んでいた。対照非癌データセットは、特異性閾値99%で非癌と分類されたすべてのフラグメントを用いてCCGAデータから選択した。See、Liu et al.、2019、"Genome-wide cell-free DNA (cfDNA) methylation signatures and effect on tissue of origin (TOO) performance," J。Clin.Oncology 37(15)、3049-3049は、その全体が参照により本明細書に組み込まれている。フラグメントは、最小マッピング品質(MAPQ)、ならびに重複、未解決、および未変換フラグメントに対してフィルタリングされた。フラグメントはp値フィルタリングされなかった。以下のパラメータを用いて、開示された方法の例示的な実施形態を用いて、参加者2737および対照非癌データセットからの腫瘍試料について、異なるメチル化状態間隔の同定を行った:腫瘍試料についての被覆率の最小深さ=10、腫瘍試料の最小変異対立遺伝子分率(VAF)=0.2、非癌試料についての被覆率の最小深さ=0、非癌試料の最大VAF=0.001、間隔におけるCpGの数=5。本明細書に開示されるように、VAFは、適格なメチル化パターンについて、対応する遺伝子座(または遺伝子座)で観察されるフラグメントメチル化パターンの総数にわたって、1つまたは複数の適格なメチル化パターン(QMP)の画分を指すことができる。
CCGA検討から、高い腫瘍分率を有する試料(標的化配列決定(ART)推定腫瘍分率:15%;参加者ID 2737)を用いてテストケースを得た。概念実証目的のために、高腫瘍分率は、腫瘍由来の組織(例えば、腫瘍)試料およびcfDNA試料の両方において比較的多数の核酸断片を提供した。さらに、このテストケースはcfDNAからの標的メチル化データを含んでいた。対照非癌データセットは、特異性閾値99%で非癌と分類されたすべてのフラグメントを用いてCCGAデータから選択した。See、Liu et al.、2019、"Genome-wide cell-free DNA (cfDNA) methylation signatures and effect on tissue of origin (TOO) performance," J。Clin.Oncology 37(15)、3049-3049は、その全体が参照により本明細書に組み込まれている。フラグメントは、最小マッピング品質(MAPQ)、ならびに重複、未解決、および未変換フラグメントに対してフィルタリングされた。フラグメントはp値フィルタリングされなかった。以下のパラメータを用いて、開示された方法の例示的な実施形態を用いて、参加者2737および対照非癌データセットからの腫瘍試料について、異なるメチル化状態間隔の同定を行った:腫瘍試料についての被覆率の最小深さ=10、腫瘍試料の最小変異対立遺伝子分率(VAF)=0.2、非癌試料についての被覆率の最小深さ=0、非癌試料の最大VAF=0.001、間隔におけるCpGの数=5。本明細書に開示されるように、VAFは、適格なメチル化パターンについて、対応する遺伝子座(または遺伝子座)で観察されるフラグメントメチル化パターンの総数にわたって、1つまたは複数の適格なメチル化パターン(QMP)の画分を指すことができる。
異なるメチル化状態間隔の特性
高腫瘍分率テストケース試料から得られたシーケンシングデータに基づいて、可能性のある適格性メチル化パターン(QMP)を、各適格性メチル化パターンがメチル化された程度に基づいて評価した(図3)。ここでは、可能なQMPを、テストケース試料のメチル化シーケンシングデータによって支持される5つの連続したCpG部位のメチル化状態の配列として定義する。図は、メチル化分率が低い可能性のあるQMPがほとんどないことを示しており(例えば、テストケースにおける可能性のあるQMPの大部分は高度にメチル化されている)、QMPの同定のためのメチル化パターンの高電位機能性を強調している。
高腫瘍分率テストケース試料から得られたシーケンシングデータに基づいて、可能性のある適格性メチル化パターン(QMP)を、各適格性メチル化パターンがメチル化された程度に基づいて評価した(図3)。ここでは、可能なQMPを、テストケース試料のメチル化シーケンシングデータによって支持される5つの連続したCpG部位のメチル化状態の配列として定義する。図は、メチル化分率が低い可能性のあるQMPがほとんどないことを示しており(例えば、テストケースにおける可能性のあるQMPの大部分は高度にメチル化されている)、QMPの同定のためのメチル化パターンの高電位機能性を強調している。
非癌試料を評価して、さらなる分析のための適切な間隔(例えば、5つのCpG部位を含む)を同定した。例えば、図4は、それぞれの候補間隔における被覆率の深さ(「非癌cfDNA凝集体深さ+2」)に対する凝集QMPカウント(「非癌cfDNA凝集体Altカウント+1」)を示す、非癌被験者由来のcfDNA由来の非癌核酸断片に含まれるすべての間隔の密度プロットを示す。濃度は、変形例カウントと被覆率の深さとの交点の各領域における間隔の数を示し、一方、各候補区間におけるノイズのレベルは、色のレジェンドによって表される(例えば、薄いグレー:高ノイズ;ブラック:低騒音)。雑音は、以下の式を用いて、対照非癌データセットに基づく頻度として計算される:雑音= (alt_counts + 1)/ (depth_coverage + 2)。ここで、「alt_counts」は、間隔で異なったメチル化パターンを有するフラグメントの数であり、「depth_coverage」は、間隔をカバーするフラグメントの数である。上記で定義された異なるメチル化パターンの同定のためのパラメータを使用すると、テストケースにおけるさらなる分析のための好ましい間隔は、高い深さ値および低いalt (バリアント)カウント値を有するものを含む。例えば、制御条件の安定性が高い間隔では、試験条件のばらつきは容易に明らかになる(x: cpgはQMP部位にまたがり、yは最終QMPに一致するパターンを含むフラグメントを表す)。
テストケース試料を評価し、異なるメチル化の識別子(例えば、バイオマーカー)としての成分間隔の適否を検証した。例えば、図5は、メチル化された分率対騒音レベルによってプロットされたテストケース対立遺伝子を示す。さらに、各交差領域における成分間隔について、テストケースデータと対照データの統計を比較した。各候補区間の非がん制御データセットにおけるカバー範囲の深さは遮光(明るい灰色:高い被覆率;ブラック:低いカバー率)として表され、区間の各群について提示された追加統計には以下が含まれる:検査症例試料に対する変異対立遺伝子数(「vars」)、CpGsの総数(「cpgs」)、非がん制御試料における変異対立遺伝子数のメジアン、および非がん制御試料におけるカバー範囲の深さのメジアン(各グリッドにおける数値で表される)。図5は、非癌対照試料ではノイズが低く、被覆率の深さが高く、テストケース試料ではメチル化の割合が高い選択された間隔を強調している。
特に、騒音レベル計算のための方法は、カバー被覆率の深さが低いために、制御データセットに変異対立遺伝子がないにもかかわらず、いくつかの間隔に高い雑音値を割り当てる結果となる。したがって、いくつかの実施形態では、特定のCpG部位の被覆率の深さは、メチル化パターンを同定するためのノイズレベルよりも、より大きな適合性の表示を提供する。いくつかの実施形態において、被覆率の深さは、配列読み取りの取得中に使用されるシークエンシングプローブのタイプによって決定される。例えば、二元配列決定(例えば、メチル化および非メチル化CpG部位の両方の増幅)のために設計されたプローブは、セミ二元配列決定(例えば、メチル化または非メチル化CpG部位のいずれかの増幅)のために設計されたプローブよりも低い雑音、より少ないバイアス、およびより大きな被覆率深さを示すことができる。
cfDNAと生検組織の間のQMP分率は相関している。
cfDNAと生検組織の間のQMP分率は相関している。
図6は、テストケース試料からのcfDNA由来核酸断片または組織生検(例えば、腫瘍)由来核酸断片のいずれかを用いて計算されたQMPの画分の比較を示す。グラフ上の各点は、検討中の差次的にメチル化された間隔を表している。間隔を騒音速度<10-4に対して事前フィルタリングし、深さ層をpmin(floor(normal_depth / 100000) * 100000、300000)と決定した。x軸は生検QMP分率(深さ被覆率にわたるQMPカウント)を示し、y軸はcfDNA QMP分率を示す。2つの標本タイプ間の相関は、グラフ内の点間の線形関係として示される。例えば、腫瘍において頻繁に観察される差次的メチル化領域は、cfDNAのいくつかの割合が腫瘍由来であるcfDNAにおいて相関した頻度で観察される。傾き(この文脈において腫瘍分率に等しい)は、非癌対照サンプル(例えば、二元プローブによって増幅された領域)において、より高い被覆率深さおよび低騒音を有する間隔を利用して、線形フィットで安定化する。
cfDNA QMP分画が腫瘍生検QMP分画をスケールするという観察は、cfDNA由来核酸サンプルが変異対立遺伝子分画を決定するために使用上記いうエビデンスを提供する(その後、例えば、腫瘍分画推定値の計算、疾患進行のモニタリング、および/または最小残存病変の決定などの下流への適用を支持する)。これは、癌などの疾患の検出、診断、および/または治療のための侵襲性の低い手段を提供する。腫瘍分率推定値の計算は、例えば、「メチル化情報を用いた細胞源分率の推定のためのシステムおよび方法」と題する米国特許公開第2020-0385813 A1号;「細胞を含まない核酸における腫瘍分率の決定のためのシステムおよび方法」と題する国際特許公開第WO/2019/204360号;「方法情報を用いた細胞源分率の推定のためのシステムおよび方法」と題する国際特許公開第WO 2020/132148号;およびそれぞれ参照により本明細書に組み入れられる「小変形例からの腫瘍分率のためのシステムおよび方法」と題する米国特許公開第2020-0340064 A1号に詳細に記載されている。
差次的メチル化状態の検証
図10A、10B、10C、10D、および10Eは、対照非癌試料と比較して、高腫瘍分率テストケース試料から得られた核酸断片中の多数のCpG部位での異なるメチル化を示す。差次的メチル化状態間隔は、上記で定義したパラメータを用いて決定した:腫瘍試料に対する最小被覆率深さ=10、腫瘍試料の最小変異対立遺伝子分率(VAF)=0.2、非癌試料に対する最小被覆率深さ=0、非癌試料の最大VAF=0.001、及び区間におけるCpG数=5。本明細書に開示されるように、VAFは、適格なメチル化パターン(QMP)の分率値を参照するための省略形として使用される。
図10A、10B、10C、10D、および10Eは、対照非癌試料と比較して、高腫瘍分率テストケース試料から得られた核酸断片中の多数のCpG部位での異なるメチル化を示す。差次的メチル化状態間隔は、上記で定義したパラメータを用いて決定した:腫瘍試料に対する最小被覆率深さ=10、腫瘍試料の最小変異対立遺伝子分率(VAF)=0.2、非癌試料に対する最小被覆率深さ=0、非癌試料の最大VAF=0.001、及び区間におけるCpG数=5。本明細書に開示されるように、VAFは、適格なメチル化パターン(QMP)の分率値を参照するための省略形として使用される。
対照非癌試料(標的メチル化(COMPASS)試料を含む)、テストケース腫瘍生検試料、及び腫瘍生検試料に一致したテストケースcfDNA試料を用いて、示差メチル化状態を比較した。要約表には、間隔の開始位置と終了位置(「browser_range」)、定義されたメチル化状態(「states」、例えばMMMMM、MUMMMなど)、それぞれの間隔での組織生検試料の変異対立遺伝子数(「tumor_alt」)、それぞれの間隔での組織生検試料の被覆率の深さ(「tumor_depth」)、それぞれの間隔での対照非癌試料の変異対立遺伝子数(「normal_alt」)、それぞれの間隔での対照非癌試料の被覆率の深さ(「normal_depth」)、一致した試験ケースcfDNA試料の変異対立遺伝子数(「sample_alt」)、および一致した試験ケースcfDNA試料の被覆率の深さ(「sample_depth」)を含む、各間隔の統計がリストされている。例えば、図10Aにおいて、組織生検試料は、定義されたメチル化状態MMMMMの6つのインスタンスと、可能性のある13のインスタンスのうちの代替のメチル化状態の7つのインスタンスとを含み、一方、対照非癌試料は、可能性のある82,581のインスタンスのうちの定義されたメチル化状態の2つのインスタンスを含む。したがって、生検試料の変異型対立遺伝子分率は、対照非癌試料の変異型対立遺伝子分率と比較して実質的に高い。
Interactive Genomics Viewer (IGV)は、メチル化パターンを含むがこれらに限定されないゲノムデータ(例えば、BAMファイル)を閲覧するためのツールを提供する。例えば、図10Aの各パネルは、試験腫瘍生検試料(「生検」)または試験cfDNA試料(「一致cfDNA」)からの5つの連続するCpG部位を含むゲノム領域に対応する。各行は、核酸フラグメントに一対する読み取り一対(例えば、前後進ストランド)を表す。各パネルの上部に集まった棒で表されるような各カラムは、ゲノム中のヌクレオチド塩基である。CpG部位が順方位ストランドのC-G、逆方位ストランドのG-Cとして読み取られるように、核酸配列は順方位ストランドの方位で左から右に提示される。灰色と黒色の線は、読まれた1一対の各鎖について、それぞれメチル化シトシンとメチル化されていないシトシンを表している。灰色の線は非シトシン(例:適用できない)塩基を示し、褐色の線は一塩基多型(メタゲノム)を示す。各パネルの上部にある集合バーは、すべてのフラグメントのすべての読み取りに対するすべての呼び出し(メチル化シトシン、非メチル化シトシン、およびその他/非該当)の合計を表している。特に、被覆率深さに応じて、所与のヌクレオチドの集合表現は、複数の核酸断片間のメチル化および/またはメチル化されていないシトシンの存在、ならびに交互の読み取りにおける相補的グアニンの存在による、1、2または3つの呼び出しを含むことができる。
図10A、10B、10C、10D、および10Eに図示されたIGVパネルは、種々のCpG間隔についての変形例メチル化パターンを明らかにし、ここで、試験腫瘍生検および一致試験cfDNAの両方が、非癌cfDNAコントロールサンプルと同様に異なる。これらの実施例は、いくつかの実施形態に従って、開示された方法を使用して同定されたCpG間隔が、下流側の同定および/または分類目的のためにさらに使用され得る、試験サンプルと対照サンプルとの間の差次的メチル化状態を含むことを示す。
実施例5-メチル化と当業者腫瘍分率推定値の比較
組織および白血球試料(ART)の標的シーケンシングデータ、ならびに組織およびcfDNA (メチル化)の全ゲノム亜硫酸水素シーケンシングデータを、CCGA研究からの複数の参加者試料から得た。当業者シーケンシングデータを用いて小さな変形例を同定し、これを次に腫瘍分率推定値の算出に用いた。その高い被覆率深さ(例えば、各小変形例での2000-3000Xまで)に特性があるため、当業者腫瘍分の推定値を用いて、その後の比較のための基準を設定した。
組織および白血球試料(ART)の標的シーケンシングデータ、ならびに組織およびcfDNA (メチル化)の全ゲノム亜硫酸水素シーケンシングデータを、CCGA研究からの複数の参加者試料から得た。当業者シーケンシングデータを用いて小さな変形例を同定し、これを次に腫瘍分率推定値の算出に用いた。その高い被覆率深さ(例えば、各小変形例での2000-3000Xまで)に特性があるため、当業者腫瘍分の推定値を用いて、その後の比較のための基準を設定した。
メチル化データを同様に用いて、95%信頼区間を伴うメジアン事後推定値を用いて、各参加者の腫瘍分率推定値を算出した。具体的には、組織WGBSデータを用いて、差次的にメチル化された部位を同定し、呼びかけたが、cfDNA WGBSデータを用いて、各部位におけるメチル化状態を評価し、腫瘍分率推定値を決定した。
腫瘍分率推定値の算出のためのシステムおよび方法は、例えば、参照により本明細書に組み込まれる「メチル化情報を用いた細胞源分率の推定のためのシステムおよび方法」と題する米国特許公開第2020-0385813号に詳細に記載されている。簡単に述べると、腫瘍分率推定値は、各試料について得られた配列読み取りにおいて観察された変異体頻度から計算される。試料中のすべての変異部位にわたる変形例カウントデータをモデル化し、腫瘍分率の事後推定値を提供する。
図11は、ART腫瘍分率推定値(x軸)に対するメチル化腫瘍分率推定値(y軸)のプロットを示しており、ここで、個々の参加者試料はプロット内の各点によって示され、個々の参加者の腫瘍分率推定値は、上記のように、それぞれの参加者試料に含まれるすべての変形例部位を用いて決定された。標的(ART)シークエンシングアッセイにおいて小さな変異体の読み取りエビデンスを示す参加者のみがプロットに含まれた。この制限は、腫瘍分率推定値の真偽を確認し、小規模な変異体のエビデンスが不足しているにもかかわらず、腫瘍分率推定値が事後分布によって決定された参加者を除外するために含めた。
このプロットは、2つの推定値の間に線形関係を示し、標的化配列決定またはメチル化配列決定のいずれかの方法からのデータを用いる場合、腫瘍分率推定の間の一致を明らかにする。この一致は推定した腫よう分率で10-4と低く観察され、この相関はロバストであることを示唆した。したがって、メチル化配列決定は、腫瘍分率推定および小変形例の標的配列決定としてのその後の下流側応用のための正確で信頼できるファンデーションを提供すると結論づけることができる。
実施例6-cfDNA画分の機能としての癌を検出する能力
本明細書に記載されるスコア分級は、非同義変異の標的化配列解析に基づく腫瘍突然変異負荷の分級である。例えば、分類スコア(例えば、「Aスコア」)は、腫瘍突然変異負荷データについてのロジスティック回帰を使用して計算することができ、そこでは、各個体についての腫瘍突然変異負荷の推定値が、標的cfDNAアッセイから取得される。いくつかの実施形態において、腫瘍突然変異負荷は、cfDNA中の候補変異体として呼ばれ、騒音モデリングおよび継手コーリングを通過し、および/または変異体と重複する任意の遺伝子アノテーション中で非同義であると見出される、個体当たりの変異体の総数として推定され得る。トレーニングセットの腫瘍突然変異負荷数は、クロスバリデーションを用いて95%の特異性が達成されるカットオフを決定するために、ペナリゼーションロジスティック回帰分級に与えられる。Aスコアに関するさらなる詳細は、例えば、Chaudharyら、2017、Journal of Clinical Oncology、35(5)、suppl.e14529、pre-print online publicationにおいて見出すことができ、これらはその全体が参照により本明細書に組み込まれる。
本明細書に記載されるスコア分級は、非同義変異の標的化配列解析に基づく腫瘍突然変異負荷の分級である。例えば、分類スコア(例えば、「Aスコア」)は、腫瘍突然変異負荷データについてのロジスティック回帰を使用して計算することができ、そこでは、各個体についての腫瘍突然変異負荷の推定値が、標的cfDNAアッセイから取得される。いくつかの実施形態において、腫瘍突然変異負荷は、cfDNA中の候補変異体として呼ばれ、騒音モデリングおよび継手コーリングを通過し、および/または変異体と重複する任意の遺伝子アノテーション中で非同義であると見出される、個体当たりの変異体の総数として推定され得る。トレーニングセットの腫瘍突然変異負荷数は、クロスバリデーションを用いて95%の特異性が達成されるカットオフを決定するために、ペナリゼーションロジスティック回帰分級に与えられる。Aスコアに関するさらなる詳細は、例えば、Chaudharyら、2017、Journal of Clinical Oncology、35(5)、suppl.e14529、pre-print online publicationにおいて見出すことができ、これらはその全体が参照により本明細書に組み込まれる。
Bスコア分級は、参照により本明細書に組み込まれる「高次元のデータを選択、管理、および分析するための方法およびシステム」と題する米国特許公開第2019-0287649号A1に記載されている。Bスコア法に従って、健常被験者の参照群における健常被験者からの核酸試料の配列読み取りの第1のセットを、変動性の低い領域について分析する。したがって、各健康な被験体からの核酸サンプルの配列読み取りの第1のセットにおいて読み取られた各配列は、参照ゲノム内の領域に整列され得る。このことから、トレーニンググループ内の被験者からの核酸サンプルの配列読み取りからの配列読み取りの訓練セットを選択することができる。トレーニングセットで読まれた各配列は、参照セットから同定された参照ゲノムのばらつきが低い領域の領域に整列する。訓練セットには、健常被験者からの核酸試料の配列読み取り、ならびにがんを有することが知られている罹患被験者からの核酸試料の配列読み取りが含まれる。訓練グループからの核酸試料は、健常被験者の参照グループからの核酸試料のものと同一または類似のタイプである。このことから、トレーニングセットの配列読み取りから得られる量を用いて、健常被験者からの核酸試料の配列読み取りと、トレーニンググループ内の罹患被験者からの核酸試料の配列読み取りとの間の差異を反映する1つ以上のパラメータを決定する。次に、がんに関する状態が不明である被験者からのcfDNAフラグメントを含む核酸試料に関連する配列読み取りのテストセットを受け取り、その1つ以上のパラメータに基づいて、がんを有する被験者の可能性を判定する。
Mスコア分級は、2019年3月13日に出願された「Methylation Fragment Anomaly Detection」と題する米国特許公開第2019-0287652 A1号、および「Systems and Methods for Estimating Cell Source Fractions using Methods Using Methylation Information」と題する米国特許公開第2020-0385813 A1号に記載されている。
実施例7 - 腫瘍分率の推定方法の例
非メチル化シーケンシングデータのために、cfDNA試料の腫瘍分率を推定するためのいくつかの方法が開発された。国際特許公開第WO/2019/204360号「細胞を含まない核酸における腫瘍破砕を判定するためのシステムおよび方法」と題する国際特許公開第WO 2020/132148号、「方法情報を用いて細胞源破砕を推定するためのシステムおよび方法」と題する米国特許公開第2020-0340064 A1号、「SMALL VARIANTSからの腫瘍破砕推定のためのシステムおよび方法」を参照されたい。例えば、アプローチの1つは、図13Aにおいて方法1300として示された。このアプローチでは、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織(例えば、1304)からの核酸試料、および適合患者(例えば、1306)からの白血球(WBC)からの核酸試料を、全ゲノム配列決定(WGS)によって配列決定した。シーケンシングデータに基づいて同定された体細胞変異体(例えば、1308)を、同一患者(例えば、1310)からの一致するcfDNAシーケンシングデータに対して分析し、腫瘍分率推定値(例えば、1312)を決定した。
非メチル化シーケンシングデータのために、cfDNA試料の腫瘍分率を推定するためのいくつかの方法が開発された。国際特許公開第WO/2019/204360号「細胞を含まない核酸における腫瘍破砕を判定するためのシステムおよび方法」と題する国際特許公開第WO 2020/132148号、「方法情報を用いて細胞源破砕を推定するためのシステムおよび方法」と題する米国特許公開第2020-0340064 A1号、「SMALL VARIANTSからの腫瘍破砕推定のためのシステムおよび方法」を参照されたい。例えば、アプローチの1つは、図13Aにおいて方法1300として示された。このアプローチでは、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織(例えば、1304)からの核酸試料、および適合患者(例えば、1306)からの白血球(WBC)からの核酸試料を、全ゲノム配列決定(WGS)によって配列決定した。シーケンシングデータに基づいて同定された体細胞変異体(例えば、1308)を、同一患者(例えば、1310)からの一致するcfDNAシーケンシングデータに対して分析し、腫瘍分率推定値(例えば、1312)を決定した。
メチル化シーケンシングデータについては、メチル化データ(標的化メチル化またはWGBSにより得られた)に基づいてcfDNA試料の腫瘍画分を推定するための複数の方法が開発された。「方法情報を用いた細胞源分率の推定のためのシステムおよび方法」と題された国際特許公開第WO 2020/132148号、米国特許公開第US 2020-0340064 A1号、「小変形例からの腫瘍分率推定のためのシステムおよび方法」と題された。例えば、これらのアプローチの1つは、図13Bの方法1302として例示されている。このアプローチでは、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織(例えば、1314)からの核酸試料を、全ゲノム亜硫酸水素配列決定(WGBS)により分析した。シーケンシングデータに基づいて同定された体細胞変異体(例えば、1316)を、同一患者(例えば、1318)からの一致するcfDNA WGBSシーケンシングデータに対して分析し、腫瘍分率推定値(例えば、1320)を決定した。
亜硫酸水素変換のような手順は、メチル化シーケンシングデータに基づく変形例識別をより困難にする。そのため、メチル化シーケンシングデータに基づいて腫瘍分率を推定するためには、変形例に基づく方法の代替法が必要である。WGBSシーケンシングデータに基づく腫瘍分画分析の実施例をこの実施例で詳述する。
亜硫酸水素変換のような手順は、メチル化シーケンシングデータに基づく変形例識別をより困難にする。そのため、メチル化シーケンシングデータに基づいて腫瘍分率を推定するためには、変形例に基づく方法の代替法が必要である。WGBSシーケンシングデータに基づく腫瘍分画分析の実施例をこの実施例で詳述する。
図14および15は、適格なメチル化パターン(QMP)を使用する2つの方法を示す。これらの例において、QMPは、SNPおよび/またはSNVのような従来の変形例変形例の代わりに、腫瘍由来核酸を定量するために使用される。
これら2実施例では、CCGAデータを活用して、腫瘍DNAメチル化パターンを含むcfDNA、TF、および癌分類性能の間の関係を調べた。CCGA分級は、癌対非癌を検出するために、全ゲノム亜硫酸水素配列決定(WGBS)と標的メチル化(TM)シーケンシングデータについて訓練した。822試料が生検WGBSを実施され、そのうち231試料はcfDNA標的メチル化(TM)およびcfDNA全ゲノム配列決定(WGS)も有していた。生検WGBSでは、体細胞単一ヌクレオチド変形例(SNV)および適格性確認メチル化パターン(QMP;生検で一般的に観察されるが、非がん制御のcfDNAではまれに[<1/10,000]に観察される配列決定されたDNAフラグメントにおけるメチル化パターンとして定義される[n=898])が同定された。本開示における特定の例において、QMPは「メチル化変形例」またはMVとも呼ばれた。観察された腫瘍断片数(WGSにおけるSNV;TMにおけるQMPs)をTFに依存する速度を有するPoisson処理としてモデル化した。TFおよび検出の分級限界(LOD)は、各ベイジアンロジスティック回帰を用いて評価した。
結果。生検サンプル全体では、メジアン2635のQMPがゲノム全体に分布しており、メジアン86.8%が≧1名の参加者と共有され、メジアン69.3%がTMアッセイの標的であった。QMPからのTF LODは0.00050(95%信頼区間[CI]:0.00041~0.00061)であり、QMPとSNV推定値は一致した(Spearman´s Rho: 0.820)。QMPs TFは、説明された分類器性能(Spearman´s Rho: 0.856)を推定し、分類器検出限界の判定を可能にした(0.00082[95% CI: 0.00057~0.00115])。
結論。これらのデータは、がんに罹患していない個々にはほとんどみられない腫瘍由来cfDNAフラグメントにメチル化パターンが存在することを実証している;その存在量はTFを直接測定し、分類性能に影響する主要な因子であった。最後に、低分級LOD(~0.1%)は、癌検出のためのメチル化に基づくアッセイのさらなる臨床開発を動機づけている。
図14Aは、例えば、WGBSシーケンシングデータに基づいて腫瘍由来核酸の存在量レベルを推定するためにQMPを使用する例示的なプロセス1400を示す。この図および図15Aでは、データは楕円ブロック(例えば、1402、1404、および1410)で表され、分析結果は矩形ブロック(例えば、1406、および1420)で表される。特に、癌被験体x由来の生検核酸試料(例えば、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織由来)は、全ゲノム亜硫酸水素配列決定(WGBS)を用いて配列決定される。シーケンシングデータは、一組のQMP(例えば、1406)を同定するために、参照データセット(例えば、非癌対照群からのプラズマcfDNA試料の1404、WGBSデータ)と比較される。この特定の例では、1404のデータセットは898の非癌サンプルを含んでいた。いくつかの代替実施において、WGBSデータではなく、1404は、非癌対照群のプラズマcfDNAの標的化メチル化データであり得る。いくつかの実施形態では、工程1410において、同じ癌対象xからの別の試料(例えば、cfDNA試料)が、新しいWGBSデータセットを生成するために使用される。いくつかの実施形態において、1410の試料は、例えば、対象を癌状態の治療で治療した後に、工程1402の試料と比較して後の時点で対象から収集される。以前に同定された各QMPの存在量レベルは、この新しいWGBSデータセットに基づいて決定される。いくつかの実施形態において、存在量レベルは、腫瘍分率推定値を計算するために使用され得る。いくつかの代替実施では、工程1402および1410の両方で、同じ癌試料が使用される。
結果。生検サンプル全体では、メジアン2635のQMPがゲノム全体に分布しており、メジアン86.8%が≧1名の参加者と共有され、メジアン69.3%がTMアッセイの標的であった。QMPからのTF LODは0.00050(95%信頼区間[CI]:0.00041~0.00061)であり、QMPとSNV推定値は一致した(Spearman´s Rho: 0.820)。QMPs TFは、説明された分類器性能(Spearman´s Rho: 0.856)を推定し、分類器検出限界の判定を可能にした(0.00082[95% CI: 0.00057~0.00115])。
結論。これらのデータは、がんに罹患していない個々にはほとんどみられない腫瘍由来cfDNAフラグメントにメチル化パターンが存在することを実証している;その存在量はTFを直接測定し、分類性能に影響する主要な因子であった。最後に、低分級LOD(~0.1%)は、癌検出のためのメチル化に基づくアッセイのさらなる臨床開発を動機づけている。
図14Aは、例えば、WGBSシーケンシングデータに基づいて腫瘍由来核酸の存在量レベルを推定するためにQMPを使用する例示的なプロセス1400を示す。この図および図15Aでは、データは楕円ブロック(例えば、1402、1404、および1410)で表され、分析結果は矩形ブロック(例えば、1406、および1420)で表される。特に、癌被験体x由来の生検核酸試料(例えば、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織由来)は、全ゲノム亜硫酸水素配列決定(WGBS)を用いて配列決定される。シーケンシングデータは、一組のQMP(例えば、1406)を同定するために、参照データセット(例えば、非癌対照群からのプラズマcfDNA試料の1404、WGBSデータ)と比較される。この特定の例では、1404のデータセットは898の非癌サンプルを含んでいた。いくつかの代替実施において、WGBSデータではなく、1404は、非癌対照群のプラズマcfDNAの標的化メチル化データであり得る。いくつかの実施形態では、工程1410において、同じ癌対象xからの別の試料(例えば、cfDNA試料)が、新しいWGBSデータセットを生成するために使用される。いくつかの実施形態において、1410の試料は、例えば、対象を癌状態の治療で治療した後に、工程1402の試料と比較して後の時点で対象から収集される。以前に同定された各QMPの存在量レベルは、この新しいWGBSデータセットに基づいて決定される。いくつかの実施形態において、存在量レベルは、腫瘍分率推定値を計算するために使用され得る。いくつかの代替実施では、工程1402および1410の両方で、同じ癌試料が使用される。
任意の1408として示されるいくつかの実施形態では、1406でのQMP識別を容易にするために、1410からのWGBSデータセットを1402からのWGBSデータと組み合わせて使用することができる。
図14Bは、同定されたQMPのセットの各々の存在量レベルを適格化するための例示的な方法1430を示す。工程1440では、複数のフラグメントメチル化パターン(FMP)が、癌対象の生検試料(例えば、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織からの)からのメチル化シーケンシングデータ(例えば、WGBSに基づく)に基づいて取得される。いくつかの実施形態において、FMPは、完全な核酸断片またはその一部におけるCpG部位のメチル化状態を表す。例えば、7個のCpG部位(例えば、FMPの所定の長さ)を含有する核酸断片のFMPは、MUMUUであってもよく、ここで、各Mはメチル化CpG部位を示し、Uは非メチル化CpG部位を示し、MまたはUによって示される各CpGは対応するゲノム座標を有する。いくつかの実施形態において、FMPの所定の長さは、核酸フラグメント中のCpG部位の総数よりも短く、6個または5個に変更することができる。このように、核酸断片は複数のFMPに対応することができる。所定の長さが6の場合、核酸断片は、MUMU (断片中のCpG部位1~6に対応)またはUMUU (断片中のCpG部位2~7に対応)に対応し得る。所定の長さが5の場合、核酸断片は、MUM (断片中のCpG部位1~5に対応)、UMU (断片中のCpG部位2~6に対応)、またはMUU (断片中のCpG部位3~7に対応)に対応し得る。フラグメント中のCpG部位の総数がFMPの所定の長さよりもはるかに大きい場合、単一の核酸フラグメントに基づいて複数の「見かけ上同一の」FMPを誘導することが可能であることに留意されたい。たとえば、11個のCpG部位(MMUMMUMM)を含むフラグメントの場合、これは当てはまる。FMPの所定の長さが5である場合、MMUMM (フラグメント中のCpG部位1~5に対応)、MMUMM (フラグメント中のCpG部位4~8に対応)、およびMMUMM (フラグメント中のCpG部位7~11に対応)の少なくとも3つの見かけ上同一であることが可能である。これら3つの異なるCpG部位のメチル化状態の配列は同一であるが、それぞれに含まれるCpG部位は異なるゲノム座標に対応しているので、これらは3つの異なるFMPを表すことができる。いくつかの実施形態では、所定の長さについて、FMPの回収を、癌対象のメチル化配列決定データセットに基づいて、すべての核酸断片について同定することができる。いくつかの実施形態では、FMPの複数のコレクションを、それぞれ所定の長さについて識別することができる。
図14Bは、同定されたQMPのセットの各々の存在量レベルを適格化するための例示的な方法1430を示す。工程1440では、複数のフラグメントメチル化パターン(FMP)が、癌対象の生検試料(例えば、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織からの)からのメチル化シーケンシングデータ(例えば、WGBSに基づく)に基づいて取得される。いくつかの実施形態において、FMPは、完全な核酸断片またはその一部におけるCpG部位のメチル化状態を表す。例えば、7個のCpG部位(例えば、FMPの所定の長さ)を含有する核酸断片のFMPは、MUMUUであってもよく、ここで、各Mはメチル化CpG部位を示し、Uは非メチル化CpG部位を示し、MまたはUによって示される各CpGは対応するゲノム座標を有する。いくつかの実施形態において、FMPの所定の長さは、核酸フラグメント中のCpG部位の総数よりも短く、6個または5個に変更することができる。このように、核酸断片は複数のFMPに対応することができる。所定の長さが6の場合、核酸断片は、MUMU (断片中のCpG部位1~6に対応)またはUMUU (断片中のCpG部位2~7に対応)に対応し得る。所定の長さが5の場合、核酸断片は、MUM (断片中のCpG部位1~5に対応)、UMU (断片中のCpG部位2~6に対応)、またはMUU (断片中のCpG部位3~7に対応)に対応し得る。フラグメント中のCpG部位の総数がFMPの所定の長さよりもはるかに大きい場合、単一の核酸フラグメントに基づいて複数の「見かけ上同一の」FMPを誘導することが可能であることに留意されたい。たとえば、11個のCpG部位(MMUMMUMM)を含むフラグメントの場合、これは当てはまる。FMPの所定の長さが5である場合、MMUMM (フラグメント中のCpG部位1~5に対応)、MMUMM (フラグメント中のCpG部位4~8に対応)、およびMMUMM (フラグメント中のCpG部位7~11に対応)の少なくとも3つの見かけ上同一であることが可能である。これら3つの異なるCpG部位のメチル化状態の配列は同一であるが、それぞれに含まれるCpG部位は異なるゲノム座標に対応しているので、これらは3つの異なるFMPを表すことができる。いくつかの実施形態では、所定の長さについて、FMPの回収を、癌対象のメチル化配列決定データセットに基づいて、すべての核酸断片について同定することができる。いくつかの実施形態では、FMPの複数のコレクションを、それぞれ所定の長さについて識別することができる。
いくつかの実施形態において、FMPの収集は、WGBSデータから派生する。
工程1445では、癌対象に対する適格性メチル化パターン(QMP)が、参照データセット(例えば、非癌対象のグループからのWGBSシーケンシングデータに基づく;例えば、陰性対照)を用いて、前の工程で同定されたFMPに基づいて同定される。QMPを同定する方法は、図2に記載されているものとすることができる。
工程1445では、癌対象に対する適格性メチル化パターン(QMP)が、参照データセット(例えば、非癌対象のグループからのWGBSシーケンシングデータに基づく;例えば、陰性対照)を用いて、前の工程で同定されたFMPに基づいて同定される。QMPを同定する方法は、図2に記載されているものとすることができる。
いくつかの実施形態において、QMPは、癌対象にのみ存在し、対照非癌対象には存在しないFMPとして同定される。いくつかの実施形態(図2に記載されているものなど)では、複数のがん被験者のAMPセットを同定するために、複数のがん被験者からのFMPを、非キャナー制御のメチル化シーケンシングデータと比較することができる。いくつかの実施形態において、非癌患者由来のcfDNAは、1404の参照WGBSメチル化データを確立するために使用される。
工程1450で、追加のメチル化シーケンシングデータ(例えば、同じ癌対象からの一致するcfDNA試料のWGBSデータ1410)を用いて、腫瘍分率を推定することができる。
任意の工程1452で、追加のメチル化シーケンシングデータ(例えば、同じ癌対象からの一致するcfDNA試料のWGBSデータ1410)を、工程1430からの一致する生検メチル化シーケンシングデータと組み合わせて使用して、癌対象に対するQMPの同定を容易にすることができる。
一組のQMPが癌被験体について同定されると、工程1450からのメチル化シーケンシングデータに基づいて、同定された各QMPの存在量レベルを決定することができる。例えば、特定のQMPを有するユニークな核酸断片の数は、その存在量レベルの指標として数えることができる。いくつかの実施形態において、同定されたQMPセットにおける各QMPの存在量レベルは、式(1)を用いる方法を含むが、これらに限定されない適用可能な方法に基づいて、癌対象に対する腫瘍分率を推定するために使用され得る。
一組のQMPが癌被験体について同定されると、工程1450からのメチル化シーケンシングデータに基づいて、同定された各QMPの存在量レベルを決定することができる。例えば、特定のQMPを有するユニークな核酸断片の数は、その存在量レベルの指標として数えることができる。いくつかの実施形態において、同定されたQMPセットにおける各QMPの存在量レベルは、式(1)を用いる方法を含むが、これらに限定されない適用可能な方法に基づいて、癌対象に対する腫瘍分率を推定するために使用され得る。
いくつかの実施形態において、図14Aおよび14Bに示されるプロセスは、がん対象のグループに適用され得る。いくつかの実施形態では、がん対象のグループは、特定のがん型に基づいて細分化され得る。これらの細分化されたグループから抽出された特徴は、異なる癌タイプにわたる腫瘍分率を計算するための全体モデルにおいて組み合わせることができる。あるいは、異なる癌タイプについて別々の腫瘍分率モデルを決定することができる。
図15Aおよび15Bは、標的化メチル化(TM)データを使用して腫瘍分率を推定するためのQMPに基づく方法を示す。図15Aに示されるように、全体セットアップ1500は、一般に、図14Aに示されるものと同様である(例えば、1502、1504、および1506参照)。さらに、標的化メチル化配列決定からの影響に対処するために、さらなるステップが必要である:例えば、i)癌対象からのTMシーケンシングデータが使用され(例えば、1510)、ii)非癌試料からのさらなるTMシーケンシングデータが使用され(例えば、1512)、iii)選択された領域が、被覆率または配列決定深さに影響を及ぼす濃縮される。したがって、TMシーケンシングデータのためのシークエンシング深さは、腫瘍分率(例えば、1520)を推定するために使用される前に、それに応じて(例えば、1515に基づいて)較正されなければならない。例えば、0%および100%メチル化ゲノムDNAの50/50の混合物は、知覚される配列決定深さに対する濃縮プローブの効果を評価するために、並行WGBSおよびTM分析にかけることができる。
図15Bは、図15Aに対応する方法ステップを示す。全体的な方法論は、図14Bに示されているものと類似している。例えば、工程1540において、工程1440と同様に、FMPは、癌対象の腫瘍組織に由来する核酸試料の生検WGBSデータに基づいて得られる。
工程1545では、前段階で得られた生検WGBSデータおよび非癌被験者由来のWGBS cfDNAデータに基づいて、一組のQMPが同定される。ここでは、非癌被験者のシーケンシングデータを陰性対照として、例えば、特定のフラグメントメチル化パターンまたはFMPを除外またはブラックリスト化するために使用する。さらに、生検由来の核酸およびcfDNA試料からのWGBSデータに比較的豊富に存在するFMPは、癌分類、特に起源組織分析にあまり有用ではない傾向があり、したがって、これらは、いくつかの実施形態において同様に除外することができる。
工程1550では、前の工程で同定されたQMPは、腫瘍分率推定、癌または起源組織分類の評価などを含むが、これらに限定されない多くの用途に使用される前に、さらに洗練され、較正され得る。いくつかの実施形態では、工程1550-1において、標的化メチル化(TM)シーケンシングデータが、同じ被験体からの適合するcfDNA試料から得られる。例えば、工程1545からのcfDNA試料の亜硫酸水素調製物は、2つの部分に分割することができる:一方をWGBS配列決定において使用し、他方を、濃縮された試料が洗浄され、溶出され、PCRによって増幅され、正規化され、プールされ、メチル化配列解析に供される前に標的化濃縮(例えば、核酸プローブに対するハイブリダイゼーションの1つ以上のラウンドによって)することができる。1550-1からのデータセットは、例えばTFを推定するための基礎として使用される。1550-2として示されるいくつかの実施形態では、非癌被験者からのcfDNA試料の別のTM配列決定データセットを使用して、QMPの最終セットからFMPを除外またはブラックリストにすることができる。工程1550の後、精密化された一組のQMPをその後の分析のために得ることができる。
ゲノムのある領域は濃縮されているので、濃縮された領域のカバレッジまたは深さは、それらの実際の値よりも大きく、したがって、較正されるべきである(例えば、1550-3)。いくつかの実施形態において、既知の較正試料は、濃縮の有無にかかわらず、配列決定することができる。例えば、出発物質は、完全にメチル化された核酸を完全にメチル化されていない核酸と混合することによって作り出すことができる。その後、2つのサンプルが作成され、その核酸含有量は互いに較正される;例えば、第1のサンプルは出発原料と同じであり、第2のサンプルは、TM配列決定アッセイのために設計されたプローブを使用して濃縮されている。次いで、両方のサンプルをメチル化配列解析にかける。次いで、プルダウンバイアスを低減するために、2つの試料のシーケンシングデータを用いて、特定のCpG部位の被覆率および深さを比較する。
工程1555で、精製されたQMPのセットにおける各QMPの存在量レベルを、腫瘍分率を推定するために使用される前に、1550-1からのTMメチル化データに基づいて評価することができる。
実施例8-QMPに基づく標的メチル化画分の推定
メチル化変形例(y軸、詳細は後述)対短い遺伝的変形例に対する腫瘍生検特徴排出速度から推定されるcfDNA腫瘍分率が、この実施例で開示される。231の訓練セット参加者について、配列決定誤差および集団変異をモデリングした後に、FFPE腫瘍生検サンプルの30x全ゲノム亜硫酸水素配列決定から変形例を同定した(補助的な方法を参照)。参加者のcfDNA腫瘍分率の推定値は黒丸で表され、95%の信頼区間は水平または垂直の灰色の線で示される。対角の灰色線は、2つの方法の間の完全な一致を表す。
メチル化変形例(y軸、詳細は後述)対短い遺伝的変形例に対する腫瘍生検特徴排出速度から推定されるcfDNA腫瘍分率が、この実施例で開示される。231の訓練セット参加者について、配列決定誤差および集団変異をモデリングした後に、FFPE腫瘍生検サンプルの30x全ゲノム亜硫酸水素配列決定から変形例を同定した(補助的な方法を参照)。参加者のcfDNA腫瘍分率の推定値は黒丸で表され、95%の信頼区間は水平または垂直の灰色の線で示される。対角の灰色線は、2つの方法の間の完全な一致を表す。
また、メチル化パターンから腫瘍分率を以下のように算出した。メチル化変異体は、腫瘍生検WGBSデータ標本(≧0.2変異対立遺伝子分率、≧部位に及ぶフラグメントの合計深さ10倍)で生じ、凝集した非癌cfDNA WGBSデータ(≦0.001変異対立遺伝子分率)ではまれに生じた5つの連続したCpGとそれらのメチル化状態(例えば、CpG10 -CpG14 MMMMM)のセットとして定義した。適合生検試料で同定されたメチル化変異体を、(1)0%または100%メチル化CpGs、(2)0%メチル化および100%メチル化ゲノムDNAの混合物を所定の組成(例えば、50/50、40/60、30/70、20/80、または10/90比)での対照実験において、本発明者らの標的化メチル化アッセイにより効果的にプルダウンされたもの、および(3)重複しないセットを形成したもの(二重計数を緩和するため)に濾過した。プルダウンバイアスを種々の制御データを用いてサイト毎に推定した。後部腫瘍分率推定値は、各変異体部位をカバーする変異体一致および非一致フラグメントの数を用いて作成した。腫瘍分画、プルダウンバイアス、推定総シークエンシング深さ、および暗騒音率の機能として速度定数を計算するPoisson尤度モデルを用いた。この方法を厳密に開発し、合成希釈法を用いて検証し、cfDNAの患者適合WGBS(調製中の原稿)から得られた推定値と比較した。
cfDNAに腫ようの特徴を有するフラグメントの観察計数から腫よう分率を推定した。腫瘍組織生検のWGBSから、遺伝的小ヌクレオチド変異体およびメチル化変異体腫瘍の特徴を決定した。参加者231人のサブセットは、トレーニングセットで腫瘍生検とcfDNAシークエンシングが一致し、腫瘍分率の推定に用いられた。この組の参加者は、生検が標的選択に用いられた参加者を除外した。
より具体的には、SNVから腫瘍-分画を算出するために、腫瘍組織のWGBSおよびcfDNAのWGSの共同分析を実施し、腫瘍関連体細胞性小ヌクレオチド変異体を同定した。例えば、参照により本明細書に組み込まれる、2020年2月28日出願の「Systems and Methods for Calling Variants Using Methods Using Methylation Sequencing Data」という名称の米国仮特許出願第62/983,404号を参照されたい。このプロセスは、鎖特異的ピレップとベイジアン遺伝子型モデルを用いて亜硫酸水素への変換(非メチル化CからTへの変換)の影響を説明するカスタム変形例呼び出し元を用いて、WGBS組織内のSNVを呼び出すことから始まった。いったんSNVの候補リストが生成されると、体細胞変異体を濃縮するために一連のフィルタリング工程が実施された。なぜなら、これらの個体についての適合正常参照を用いたフィルタリングは利用できなかったからである。これらのフィルターには、最小値や最大値変異型対立遺伝子頻度(VAF)、最小深度、既知の騒音部位のカスタムブラックリスト、試料適合WGS cfDNA内の自由ベイによりマークされた個人に対してプライベートな生殖系列細胞変異体の除去、およびgnomADおよびdbSNPを用いた既知の生殖系列細胞変異体のブラックリストが含まれた。対応するcfDNA試料のマッチさせたWGS配列決定から、各変形例を支持し、支持しないフラグメントの数を生成した。後部腫瘍分率推定値は、腫瘍分率に対するグリッドサーチを用いて計算し、二項尤度の混合物として定義された変形例ごとの尤度を用いた。混合成分は、(1)腫瘍排泄によるフラグメントの観察、ならびに(2)生殖細胞系変異体および誤って変異体と呼ばれる種々の誤りモードを説明した。各参加者の腫瘍分率について、中央値および95%信頼区間を算出した。
実施例9 - セルソースの実施例
いくつかの実施形態において、本開示のいずれかの実施形態の細胞源(第1、第2、または第3の被験体セット、または標的被験体中の対応する被験体から得られるそれぞれの生物学的試料)は、共通の原発部位の第1の癌である。いくつかの実施形態において、第1の癌は、乳癌、肺がん、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道の癌、リンパ腫、頭頸部癌、卵巣癌、肝胆道癌、黒色腫、子宮頸癌、多発性骨髄腫、白血病、甲状腺癌、膀胱がん、胃癌、またはそれらの組合せである。
いくつかの実施形態において、本開示のいずれかの実施形態の細胞源(第1、第2、または第3の被験体セット、または標的被験体中の対応する被験体から得られるそれぞれの生物学的試料)は、共通の原発部位の第1の癌である。いくつかの実施形態において、第1の癌は、乳癌、肺がん、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道の癌、リンパ腫、頭頸部癌、卵巣癌、肝胆道癌、黒色腫、子宮頸癌、多発性骨髄腫、白血病、甲状腺癌、膀胱がん、胃癌、またはそれらの組合せである。
いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、特定の癌型の腫瘍、またはその画分である。いくつかの実施形態において、腫瘍は、副腎皮質がん、小児副腎皮質がん、カポジ肉腫、肛門がんに関連する腫瘍、星細胞腫、小児(脳がん)腫瘍、非定型奇形腫様/ラブドイド腫瘍、中枢神経系(脳がん)腫瘍、皮膚の基底細胞がん、膀胱がん腫瘍、骨がん(例えば、翅肉腫および骨肉腫)組織、脳腫瘍、小児乳がん組織、気管支腫瘍、バーキットリンパ腫組織、カルチノイド腫瘍(消化管)、原発不明がん、小児心臓(心臓)腫瘍である。小児胚芽腫である中枢神経系腫瘍(例、小児非定型奇形腫様/ラブドイド腫瘍)、 小児胚細胞腫瘍、子宮頸がん組織、胆管細胞腫瘍、小児大腸がん組織、慢性骨髄増殖性腫瘍、小児大腸がん腫瘍、小児頭蓋咽頭腫組織、非浸潤性乳管がん(DCIS)、小児胎児性腫瘍(子宮がん)組織、小児食道がん組織、感覚神経芽腫(頭頸部がん)組織、小児頭蓋外胚細胞腫瘍、眼球がん組織、眼球内黒色腫、網膜芽細胞腫、胆■がん組織、胃(胃)がん組織、消化管カルチノイド 消化管間質腫瘍(GIST)、小児消化管間質腫瘍、胚細胞腫瘍(小児中枢神経系胚細胞腫瘍、小児頭蓋外胚細胞腫瘍、性腺外胚細胞腫瘍、卵巣胚細胞腫瘍、精巣腫瘍組織など)、頭頸部 小児心臓腫瘍、肝細胞腫瘍(HCC)組織、膵神経内分泌腫瘍、腎細胞がん(RCC)組織、白血病、肝がん組織、肺がん組織、小児肺がん組織、骨および骨肉腫の悪性線維性組織球腫、黒色腫、小児眼内黒色腫、メルケル細胞がん、悪性中皮腫、転移性がん組織、原発不明の転移性扁平上皮性頸部がん、NUT遺伝子変化を伴う正中線路がん(頭頸部がん)組織、多発性内分泌腫瘍症候群組織、多発性骨髄腫/形質細胞腫瘍、骨髄異形成/骨髄増殖性腫瘍 慢性骨髄増殖性腫瘍、鼻腔および副鼻腔がん組織、鼻咽頭がん(NPC)組織、神経芽細胞腫組織、非小細胞肺がん組織、口唇および口腔 空洞がんおよび中咽頭がん組織、骨肉腫および悪性線維性組織球腫、小児卵巣がん組織、膵がん組織、乳頭腫(小児喉頭)組織、傍神経節腫組織、副鼻腔および鼻腔がん組織、陰茎がん組織、褐色細胞腫組織、小児褐色細胞腫組織、下垂体腫瘍、胸膜肺芽腫、原発性中枢神経系(CNS)リンパ腫、原発性腹膜がん組織、直腸がん組織、網膜芽細胞腫、小児横紋筋肉腫、唾液腺がん組織、肉腫(小児血管腫瘍、骨肉腫など)子宮がん組織、皮膚がん組織、小細胞肺がん組織、小腸がん組織、皮膚扁平上皮がん、原発不明の頸部扁平上皮がん、皮膚t細胞リンパ腫、精巣腫瘍 小児精巣腫瘍組織、咽頭がん(例えば、上咽頭がん、中咽頭がん、下咽頭がん)組織、胸腺腫または胸腺がん、甲状腺がん組織、腎盂および尿管組織の移行上皮がん、原発不明がん組織、尿管または腎盂組織、移行上皮がん(腎(腎細胞)がん組織、尿道がん組織、子宮内膜がん組織、子宮肉腫組織、膣がん組織、小児膣がん組織、血管腫瘍、外陰がん組織、ウィルムス腫瘍またはその他の小児腎腫瘍。
いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、第一の癌である。上記実施態様の中には、第1のがんは、乳がんの病期、肺がんの病期、前立腺がんの病期、大腸がんの病期、腎がんの病期、子宮がんの病期、膵がんの病期、食道がんの病期、リンパ腫の病期、頭頸部がんの病期、卵巣がんの病期、肝胆道がんの病期、黒色腫の病期、子宮頸がんの病期、多発性骨髄腫の病期、白血病の病期、甲状腺がんの病期、膀胱がんの病期、または胃がんの病期である。
いくつかの実施形態において、本開示の任意の実施形態の細胞源は、乳癌の所定の段階、前立腺癌の所定の段階、前立腺癌の所定の段階、大腸癌の所定の段階、腎癌の所定の段階、子宮癌の所定の段階、膵臓癌の所定の段階、食道の所定の段階、リンパ腫の所定の段階、頭頸部癌の所定の段階、卵巣癌の所定の段階、肝胆道癌の所定の段階、黒色腫の所定の段階、子宮頸癌の所定の段階、多発性骨髄腫の所定の段階、白血病の所定の段階、甲状腺がんの所定の段階、膀胱癌の所定の段階、または胃癌の所定の段階である。
いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、非癌性組織由来である。いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、健康な組織に由来する細胞に由来する。いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、乳房、肺、前立腺、結腸直腸、腎臓、子宮、膵臓、食道、リンパ液、卵巣、子宮頸部、表皮、甲状腺、ブラダー、胃、またはそれらの組み合わせなどの健康な組織からのものである。
いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、1つの組織型に由来する。いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、2つ以上の組織型に由来する。いくつかの実施形態において、組織型は、1つ以上の細胞型(例えば、健康な非癌性細胞および癌性細胞の組み合わせ)を含む。いくつかの実施形態において、組織型は、1つの細胞型(例えば、がん性または健康な非がん性細胞のいずれか)を含む。
いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、1つの細胞型、2つの細胞型、3つの細胞型、4つの細胞型、5つの細胞型、6つの細胞型、7つの細胞型、8つの細胞型、9つの細胞型、10つの細胞型、または10を超える細胞型を構成する。
いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、肝細胞である。いくつかの上記態様において、細胞源は、肝細胞、肝星状脂肪記憶細胞(ITO細胞)、クッパー細胞、類洞内皮細胞、またはそれらの任意の組合せである。
いくつかの実施態様において、本開示のいずれかの実施態様の細胞源は、胃細胞である。いくつかのそのような態様において、第1の細胞源は壁細胞である。
いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、1つ以上のタイプのヒト細胞である。このような或る実施態様では、細胞源は、適応性NK細胞、脂肪細胞、アルツハイマー型星状細胞、アマクリン細胞、B細胞、好塩基球活性化細胞、ベットツ細胞、ビストライト化細胞、心筋細胞、CD4+ T細胞、セメント芽細胞、小脳顆粒細胞、胆嚢細胞、クロム親和性細胞、クラブ細胞、細胞傷害性T細胞、樹状細胞、腸クロム親和性細胞、好酸球、糸球体外メサンギウム細胞、ファゴット細胞、胃主細胞、ゴブレット細胞、肝星状細胞、過分葉好中球、糸球体メサンギウム細胞である 糸球体傍細胞、ケラチノサイト、クッパー細胞、ラクトトロピック細胞、マクロファージ、緻密斑細胞、巨核球、メラノサイト、ミクロフォールド細胞、単球、ナチュラルキラーT細胞、グリター細胞、好中球、骨芽細胞、破骨細胞、好酸球(上皮小体)、パネル細胞 、傍濾胞細胞、傍濾胞主細胞、傍細胞、壁細胞、ペグ細胞、ペグ細胞、尿細管周囲筋様細胞、血小板、足細胞、調節性T細胞、網状赤血球、網膜双極細胞、網膜水平細胞、網膜神経節細胞、網膜前駆細胞、センチネル細胞、セルトリ細胞、ソマトトロピック細胞、ソマトトロピック細胞、星状細胞、触角細胞、T細胞、ヘルパーT細胞、テロサイト、腱細胞、甲状腺刺激細胞、移行性B細胞、トリコサイト(ヒト)、房状細胞、単極刷子細胞、白血球、ゼルバレンス、またはこれらの任意の組合せ。いくつかのそのような態様において、第1の細胞源のそのような細胞は、健康である。別の実施形態では、第1の細胞源のそのような細胞は、癌に苦しむ。
いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、細胞型の任意の組合せであり、ただし、そのような細胞型が単一の器官に由来することを条件とする。いくつかの上記実施形態において、この単一臓器は、乳房、肺、前立腺、結腸/直腸、腎臓、子宮、膵臓、食道、血液、頭部/頸部、卵巣、肝臓、子宮頸部、甲状腺、ブラダー、または胃である。いくつかの実施形態において、この単一の器官は、健康である。別の実施形態では、この単一の臓器は、単一の臓器に由来する癌に罹患している。さらに別の実施形態では、この単一の臓器は、単一の臓器以外の臓器に由来し、単一の臓器に転移する癌に罹患している。
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、細胞型の任意の組み合わせであり、ただし、そのような細胞型は、所定の器官セットから生じたものである。いくつかの上記実施形態において、この所定の器官セットは、セットの乳房、肺、前立腺、結腸/直腸、腎臓、子宮、膵臓、食道、血液、頭部/頸部、卵巣、肝臓、子宮頸部、甲状腺、ブラダー、および胃における任意の2つの器官である。いくつかの実施形態において、この所定の器官セットは、健康である。別の実施形態では、この所定の臓器セットは、所定の臓器セット内の1つの臓器に由来する癌に罹患する。さらに別の実施形態では、所定の臓器セットは、所定の臓器セット以外の臓器に由来し、所定の臓器セットに転移する癌に罹患する。
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、細胞型の任意の組み合わせであり、ただし、そのような細胞型は、所定の器官セットから生じたものである。いくつかの上記実施形態において、この所定の器官セットは、セットの乳房、肺、前立腺、結腸/直腸、腎臓、子宮、膵臓、食道、血液、頭部/頸部、卵巣、肝臓、子宮頸部、甲状腺、ブラダー、および胃における任意の3つの器官である。いくつかの実施形態において、この所定の器官セットは、健康である。別の実施形態では、この所定の臓器セットは、所定の臓器セット内の1つの臓器に由来する癌に罹患する。さらに別の実施形態では、所定の臓器セットは、所定の臓器セット以外の臓器に由来し、所定の臓器セットに転移する癌に罹患する。
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、細胞型の任意の組み合わせであり、ただし、そのような細胞型は、所定の器官セットから生じたものである。いくつかの上記実施形態において、器官のこの所定のセットは、設定された乳房、肺、前立腺、結腸/直腸、腎臓、子宮、膵臓、食道、血液、頭部/頸部、卵巣、肝臓、子宮頸部、甲状腺、ブラダー、および胃における任意の4つの器官、5つの器官、6つの器官、または7つの器官である。いくつかの実施形態において、この所定の器官セットは、健康である。別の実施形態では、この所定の臓器セットは、所定の臓器セット内の1つの臓器に由来する癌に罹患する。さらに別の実施形態では、所定の臓器セットは、所定の臓器セット以外の臓器に由来し、所定の臓器セットに転移する癌に罹患する。
いくつかの具体的な実施形態において、本開示のいずれかの実施形態の細胞源は、白血球である。いくつかの上記態様において、細胞源は、好中球、好酸球、好塩基球、リンパ球、Bリンパ球、Tリンパ球、細胞傷害性T細胞、単球、またはそれらの任意の組合せである。
結論
複数の例は、単一の例として本明細書に記載される成分、動作または構造のために提供されてもよい。最後に、様々な構成要素、動作、およびデータストア間の境界は、幾分任意であり、特定操作は、特定の例示的な構成の文脈で示される。他の機能の割当ても想定されており、実施の範囲内に入る可能性がある。一般に、実施例の構成において別個の構成要素として提示される構造及び機能は、結合された構造又は構成要素として実施することができる。同様に、単一の構成要素として提示される構造および機能は、別個の構成要素として実装されてもよい。これらおよびその他の変更、修正、添加、および改善は、実装の範囲内に含まれる。
複数の例は、単一の例として本明細書に記載される成分、動作または構造のために提供されてもよい。最後に、様々な構成要素、動作、およびデータストア間の境界は、幾分任意であり、特定操作は、特定の例示的な構成の文脈で示される。他の機能の割当ても想定されており、実施の範囲内に入る可能性がある。一般に、実施例の構成において別個の構成要素として提示される構造及び機能は、結合された構造又は構成要素として実施することができる。同様に、単一の構成要素として提示される構造および機能は、別個の構成要素として実装されてもよい。これらおよびその他の変更、修正、添加、および改善は、実装の範囲内に含まれる。
また、第1、第2などの用語は、本明細書では、様々な要素を説明するために使用され得るが、これらの要素は、これらの用語によって限定されるべきではないことが理解されるであろう。これらの用語は、ある元素と別の元素を区別するためにのみ使用される。例えば、第1の主題は、第2の主題と呼ぶことができ、同様に、第2の主題は、本開示の範囲から逸脱することなく、第1の主題と呼ぶことができる。最初の被写体と2番目の被写体は両方の被写体であるが、同じ被写体ではない。
本開示で使用される用語は、特定の実施形態のみを説明するためのものであり、本発明を限定することを意図するものではない。本発明の説明及び添付の特許請求の範囲において使用されるように、単数形の「a」、「an」及び「the」は、文脈上明らかに別段の指示がない限り、複数形も含むものとする。また、本明細書で使用される「および/または」という用語は、関連する列挙されたアイテムのうちの1つまたは複数の可能な任意のおよびすべての組み合わせを指し、包含することが理解されるであろう。用語「備える」および/または「備える」は、本明細書において使用される場合、記載された特徴、整数、工程、動作、元素、および/または構成元素の存在を指定するが、1つまたは複数の他の特徴、整数、工程、動作、元素、構成元素、および/または他のグループの存在または追加を排除しないことがさらに理解されるであろう。
本明細書で使用されるように、用語「if」は、文脈に応じて、「いつ」または「上」または「決定に応答して」または「検出に応答して」を意味すると解釈され得る。同様に、「決定された場合」または「[記載された状態または事象]が検出された場合」という語句は、状況に応じて、「決定された場合」または「決定された場合」または「検出された場合」(記載された状態または事象)または「検出された場合」(記載された状態または事象)を意味すると解釈することができる。
前述の説明は、例示的な実装を実施するシステム、方法、技術、命令シーケンス、およびコンピューティング・機械・プログラムプロダクトの例を含んだ。説明のために、発明の主題の様々な実装の理解を提供するために、多数の特定の詳細が記載された。しかしながら、当業者には、本発明の主題の実施がこれらの特定詳細なしに実施され得ることは明白であろう。一般に、既知の命令インスタンス、プロトコル、構造、および技術は、詳細には示されていない。
上記の説明は、説明のために、特定の実装を参照して説明されてきた。しかしながら、上記の例示的な議論は、網羅的であること、または実装を開示された厳密な形態に限定することを意図するものではない。上記の教示を考慮すると、多くの修正および変形が可能である。実施形態は、原理およびそれらの実用的用途を最も良く説明するために選択され、説明され、それにより、当業者が、意図される特定の用途に適しているように、様々な変更を伴う実施形態および様々な実施形態を最も良く利用することを可能にした。
関連出願の相互参照
本出願は、参照により本明細書に組み込まれる、2020年2月28日に出願された「癌状態を識別または指示するメチル化パターンの同定」と題する米国仮特許出願第62/983,443号の優先権を主張する。
本出願は、参照により本明細書に組み込まれる、2020年2月28日に出願された「癌状態を識別または指示するメチル化パターンの同定」と題する米国仮特許出願第62/983,443号の優先権を主張する。
本明細書は、該して、癌状態を識別または示すメチル化パターンを同定するために、生物学的試料においてメチル化パターンを使用することに関する。
癌の早期発見は、癌の転帰を改善する最も人間的な方法の1つである。現状の治療-固形腫瘍に対する手術、化学療法と放射線の組み合わせ、または液状腫瘍に対する化学療法と骨髄移植-には、生存率が不十分であるなどの欠点がある。治療はしばしば患者を疼痛のままにし、一方で生存期間の不十分な量を提供する。新しい免疫療法にも欠点がある。患者は集中治療室で治療されなければならず、しばしば致死的な副作用がある。このような治療法はいずれも、癌が早期に発見されれば、より効果的である。
より良い治療法と癌診断法を開発するために、癌の単一突然変異の探索に資源が投入されてきた。この方法は「精度腫瘍学」として知られる一般的な医学的取り組みに発展してきた。この取り組みでは、細胞のコントロール不能な成長の原因となる重要な薬剤感受性変異を同定するために、腫瘍の塩基配列を決定する。例えば、米国国立癌研究所が主導する臨床試験イニシアチブ「治療選択のための分子解析」(MATCH)は、2015年に開始された。この試験には30以上の治療群がある。この試験で検査されたより一般的な腫瘍の中で、既存の薬物で対処可能な「実行可能である」突然変異が、せいぜい15%の症例で発見された。もっと大きな失望は、突然変異を薬剤と対合させても結果が保証されなかったことである-適合した患者の3分の1のみが治療に反応し、その反応の半分は6カ月以内に消失した。精度の高い腫瘍学の追求が進行中であるが、現在までの結果は、ほとんどの癌はこのような縮小主義的アプローチで対処するにはあまりにも複雑すぎることを示している。
実際、ほとんどの一般的な癌ははるかに交絡因子であり、臨床試験中の癌治療薬の95%までが米食品医薬品局(FDA)の承認を得られない。他の5%では、残りの5%の多くは、生存率がわずか数か月しか改善せず、治療を受けた症例の一部にすぎない。
上記の欠点はまた、早期発見の必要性を強調する。しかしながら、現在のスクリーニング検査は不十分である。マンモグラフィー、大腸内視鏡検査、Papスミアおよび前立腺特異抗原(PSA)の検査などのモニタリング方法が数十年にわたって使用されてきたが、すべてが一様に成功しているわけではない。一部の癌は進行が非常に遅いため、患者は他の原因で死亡する可能性が高くなり、一部の危険な腫瘍は、治療するには手遅れになるまで検出できない。さらに、現在までのところ、肺癌を含む多数の癌に対して十分なスクリーニング検査は利用できない。
このようなスクリーニング検査を開発するためには、癌細胞の「バイオマーカー」を定義する必要がある。これらは、癌細胞が放出する遺伝物質の鎖など、ほとんど何にでもある。米国国立癌研究所は、このようなバイオマーカーが癌の最も初期の足跡を提供するだけでなく、進行性腫瘍と寿命を脅かさない腫瘍を分離するのに役立つことを期待して、大規模なイニシアチブを支援している。生体分子配列決定の進歩は、特に核酸試料に関して、細胞および分子生物学の分野に革命をもたらし、上記バイオマーカーを発見するための有望な技術を提供する。自動配列決定システムの開発により促進され、現在では全ゲノムの配列決定が可能となっている。
バイオマーカーを見つけるための1つの特別なアプローチは、異常なDNAメチル化パターンを同定するためにこのような配列決定を用いることである。DNAメチル化は遺伝子発現の調節に重要な役割を果たしている。異常なDNAメチル化は、癌を含む多くの疾患過程に関与しており、メチル化の特定のパターンは、特定の癌状態と関連することが決定されている。例えば、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる、Jones, 2002, Oncogene 21:5358-5360; Paska and Hudler, 2015, Biochemia Medica 25(2):161-176, および Du et al., 2010, BMC Bioinformatics 11:587, doi:10.1186/1471-2105-11-587を参照されたい。さらに、メチル化パターンは、対象における癌状態(例えば、癌のタイプ、癌の段階、癌の有無)を分類するために用いることができる。メチル化配列決定(例えば、全ゲノム亜硫酸水素配列決定(WGBS))を用いたDNAメチル化プロファイリングは、癌の検出、診断、および/またはモニタリングのための有用な診断ツールとしてますます認識されている。例えば、差次的にメチル化された領域および/または対立遺伝子特異的メチル化パターンの特異的パターンは、循環無細胞DNAを用いた非侵襲的診断のための分子マーカーとして有用であり得る。例えば、Warton and Samimi, 2015, Front Mol Biosci, 2(13) doi: 10.3389/fmolb.2015.00013を参照のこと。
新たな配列決定技術により、メチル化配列決定を含む大規模な配列決定が可能になったが、これらの新たな配列決定技術により、配列決定されているゲノムの数と複雑さが相応に増加している。大量の高精度核酸配列が現在得られるが、これらの配列を利用して生物学的洞察を得、疾患の検出および診断に情報を与えるには、多くの問題が残っている。
上記の背景を考慮すると、ますます複雑で大規模な核酸配列決定データを使用してバイオマーカーを同定するための改良されたアプローチが当技術分野において必要とされている。さらに、このようなバイオマーカーを用いて、ゲノムにわたる複雑な生体情報パターンおよび非線形性をモデル化および推論し、そして、癌などの疾患の検出、診断、および/またはモニタリングのための試験を開発する改良された方法が、当技術分野において必要とされている。
本開示は、核酸試料を用いて試験対象から得られた生体試料中の癌状態(例えば、1以上の選択基準を満たす、複数の適格なメチル化パターン、所定数のCpG部位である長さ、またはCpG数範囲)を識別または示す、複数の適格なメチル化パターンを同定するための強固な技術を提供することによって、背景技術において同定された欠点に対処する。全ゲノム、または標的ゲノム、シーケンシングデータとメチル化データとの組み合わせ、および特定のゲノム領域に対応するメチル化パターンを表すためのノードを含む間隔マップの使用は、従来の同定方法を超える追加の診断および分析能力を提供する。
癌状態を識別または示すメチル化パターンを同定することにより、上記で同定された問題に対処するための技術的解決策(例えば、コンピューティングシステム、方法、および非一時的コンピュータ可読記憶媒体)が、本開示において提供される。
以下に、本発明のいくつかの態様の基本的な理解を提供するために、本発明の概要を示す。この発明の概要は、本発明の広い概観ではない。本発明の重要/クリティカルな要素を特定すること、または本発明の範囲を明確にすることは意図されていない。その唯一の目的は、本発明の概念のいくつかを、後に提示されるより詳細な説明の前置きとして、簡略化された形態で提示することである。
本開示の一態様は、1または複数のプロセッサを有するコンピュータシステムにおいて、癌状態を識別または示す複数の適格なメチル化パターンを同定する方法、および1または複数のプロセッサによる実行のための1または複数のプログラムを記憶するメモリを提供する。この方法は、第1のデータセットを電子形式で取得することを含み、ここで、第1のデータセットは、第1の複数の断片中の各断片の対応する断片メチル化パターンを含む。各断片の対応する断片メチル化パターンは、1または複数の対象の第1のセット中の対応する対象から得られた各生物学的試料からの核酸のメチル化配列決定によって決定され、各断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含む。いくつかの実施形態では、第1の複数の断片は、100を超える断片、500を超える断片、1000を超える断片、10,000を超える断片、100,000を超える断片、500,000を超える断片、100万を超える断片、1000万を超える断片、または1億を超える断片を含む。
本方法は、第2のデータセットを電子形式で取得することをさらに含み、第2のデータセットは、第2の複数の断片中の各断片の対応する断片メチル化パターンを含む。各断片の対応する断片メチル化パターンは、対象の第2のセット中の対応する対象から得られた各生物学的試料からの核酸のメチル化配列決定によって決定され、各断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含む。1以上の対象の第1セットの各対象は、癌状態の第1の状態を有し、第2セットの対象の各対象は、癌状態の第2の状態を有する。いくつかの実施形態では、第2の複数の断片は、100を超える断片、500を超える断片、1000を超える断片、10,000を超える断片、100,000を超える断片、500,000を超える断片、100万を超える断片、1000万を超える断片、または1億を超える断片を含む。
この方法は、第1のデータセットを使用して、1または複数の対応するゲノム領域について1または複数の第1の状態間隔マップを生成することをさらに含む。1または複数の第1の状態間隔マップ内の各第1の状態間隔マップは、対応する独立した複数のノードを備える。いくつかの実施形態では、対応する独立した複数のノードは、50個以上のノード、100個以上のノード、500個以上のノード、1000個以上のノード、10,000個以上のノード、100,000個以上のノード、100万個以上のノード、または100万個以上のノードを含む。1または複数の第1の状態間隔マップ内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および各ノードの対応する開始メチル化部位と対応する終了メチル化部位との間の第1のデータセット内の第1の複数の断片にわたって観察される各異なる断片メチル化パターンに関して、異なる断片メチル化パターンの表現および第1のデータセット内の断片のカウントであって、断片メチル化パターンが対応する開始メチル化部位で開始し、対応する終了メチル化部位で終了し、異なる断片メチル化パターンを有する断片のカウントを特徴とする。
この方法は、第2のデータセットを使用して、1または複数の対応するゲノム領域について1または複数の第2の状態間隔マップを生成することをさらに含む。1または複数の第2の状態間隔マップ内の各第2の状態間隔マップは、対応する独立した複数のノードを備える。いくつかの実施形態では、対応する独立した複数のノードは、50個以上のノード、100個以上のノード、500個以上のノード、1000個以上のノード、10,000個以上のノード、100,000個以上のノード、100万個以上のノード、または100万個以上のノードを含む。1または複数の第2の状態間隔マップ内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および対応する開始メチル化部位と各ノードの対応する終了メチル化部位との間の第2のデータセット内の第2の複数の断片にわたって観察される各異なる断片メチル化パターンに関して、異なる断片メチル化パターンの表現、および第2のデータセット内の断片のカウントであって、断片メチル化パターンが対応する開始メチル化部位で開始し、対応する終了メチル化部位で端部し、異なる断片メチル化パターンを有する、断片のカウントを特徴とする。
この方法はさらに、複数の適格なメチル化パターン(またはQMP)について、1または複数の第1の間隔マップおよび1または複数の第2の間隔マップをスキャンすることを含み、このようなメチル化パターンの各々は、所定のCpG部位数範囲(例えば、5の長さは、5つのCpG部位を指し、好ましくは、同一の核酸断片上に隣接する;本明細書に開示される典型的な適格なメチル化パターンは、5つのCpG部位~20のCpG部位の間を含む)にある長さを有する。このようなメチル化パターンは、1または複数の第1の間隔マップおよび1または複数の第2の間隔マップの断片メチル化パターン内にある。いくつかの実施形態では、所定のCpG部位数範囲は、異なる長さの適格なメチル化パターン(またはQMP)のセットを含み、例えば、セットでの長さは、3つのCpG部位~50のCpG部位の間、4つのCpG部位~30のCpG部位の間、または5つのCpG部位~25のCpG部位の間を含むことができる。いくつかの実施形態では、所定のCpG部位数範囲は、単一のCpG数(例えば、l、対応する開始(初期)CpG部位と対応する終了(最終)CpG部位との間のCpG間隔lの長さ、しばしば開始CpG部位で始まり、終了CpG部位で終わるCpG部位の数であり得る)である。いくつかの実施形態では、複数の適格なメチル化パターンにおける各適格なメチル化パターンは、対応する開始CpG部位と対応する終了CpG部位との間の対応する長さlに及ぶ。このようにして、癌状態を識別または示す複数の適格なメチル化パターンが同定される。いくつかの実施形態では、複数の適格なメチル化パターンは、(例えば、長さ要件に加えて)1または複数の選択基準をさらに満たす。
いくつかの実施形態では、1または複数の選択基準は、メチル化パターンが、第1の頻度閾値を満たす第1の頻度を有する1または複数の第1の間隔マップ内に表され、第1の状態深さ閾値を満たすカバレッジを有する1または複数の第1の間隔マップ内に表され、第2の頻度閾値を満たす第2の頻度を有する1または複数の第2の間隔マップ内に表されることを指定する。
いくつかの上記実施形態では、メチル化パターンは、1または複数の第1の間隔マップ内のメチル化パターンの頻度が第1の頻度閾値を超える場合に第1の頻度閾値を満たす第1の頻度を有する1または複数の第1の間隔マップ内に表され、メチル化パターンは、1または複数の第1の間隔マップ内のメチル化パターンのカバレッジが第1の状態深さ閾値を超える場合に第1の状態深さ閾値を満たすカバレッジを有する1または複数の第1の間隔マップ内に表され、メチル化パターンは、1または複数の第2の間隔マップ内のメチル化パターンの頻度が第2の頻度閾値を下回る場合に第2の頻度閾値を満たす第2の頻度を有する1または複数の第2の間隔マップ内に表される。
このようないくつかの実施形態では、第1の頻度閾値は0.2であり、第1の状態深さ閾値は10であり、第2の頻度閾値は0.001である。
いくつかの実施形態では、各メチル化パターンは、式:
の際に、1または複数の選択基準を満たし、
メチル化パターンについては、3、4、5または6を超え、ここで、第2のカウントは、1または複数の第2の状態間隔マップにおける各メチル化パターンのカウントであり、第2の状態深さは、1または複数の第2の状態間隔マップにおける各メチル化パターンによって表されるゲノムの領域における第2のデータセットによるカバレッジである。
メチル化パターンについては、3、4、5または6を超え、ここで、第2のカウントは、1または複数の第2の状態間隔マップにおける各メチル化パターンのカウントであり、第2の状態深さは、1または複数の第2の状態間隔マップにおける各メチル化パターンによって表されるゲノムの領域における第2のデータセットによるカバレッジである。
いくつかの実施形態では、本方法は、第1および第2のデータセット中の複数の適格なメチル化パターンに関連するメチル化パターン情報を用いて、癌状態の状態を識別または示す分類指標をトレーニングすることをさらに含む。いくつかの上記実施形態では、トレーニングは、無細胞核酸メチル化データから生殖細胞系変異をスクリーニングするために腫瘍生検(バイオプシー)に個々に適合された、個々の試験対象(各々が第1または第2の状態を有する)からの無細胞核酸メチル化データなどの追加のデータセットを使用することを含むことができる。他の実施形態では、トレーニングは、個々の試験対象からの、第1または第2の状態をそれぞれ有する、無細胞核酸メチル化データのような、追加のデータセットを含むことができ、これらのデータセットは、腫瘍生検に個々にマッチングされておらず、したがって、生殖細胞系突然変異は、腫瘍のマッチングに基づいてスクリーニングされていない。
いくつかの実施形態では、本方法は、第1および第2のデータセット中の複数の適格なメチル化パターンに関連するメチル化パターン情報を用いて、癌状態の状態を識別するための分類指標をトレーニングすることをさらに含む。
いくつかの上記実施形態では、分類指標はロジスティック回帰である。いくつかの実施形態では、分類指標は、ニューラルネットワークアルゴリズム、サポートベクターマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、または線形回帰アルゴリズムである。
いくつかの実施形態では、本方法は、第3のデータセットを電子形態で取得することをさらに含み、第3のデータセットは、第3の複数の断片中の各断片の対応する断片メチル化パターンを含む。各断片の対応する断片メチル化パターンは、試験対象から得られた生物学的試料からの核酸のメチル化配列決定によって決定され、各断片中の対応する複数のCpG部位における各CpG部位のメチル化状態を含む。この方法は、さらに、複数の適格なメチル化パターン中の適格なメチル化パターンを包含するか、またはそれに対応する、第3のデータセット中の第3の複数の断片中の各断片の断片メチル化パターンを分類指標に適用することを含み、それによって、試験対象における癌状態の状態を決定する。
いくつかの実施形態では、癌状態の状態は、腫瘍フラクション(腫瘍分率、腫瘍分画/腫瘍割合)であり、癌状態の第1の状態は、第1の範囲の腫瘍フラクションであり、癌状態の第2の状態は、第2の範囲の腫瘍フラクションである。
いくつかの上記実施形態では、第1の範囲は0.001より大きく、第2の範囲は0.001未満である。
いくつかの代替的な実施形態では、癌状態の状態は腫瘍フラクションであり、使用する第3のデータセットを取得および適用することは、経時的に繰り返し行われる。
いくつかの実施形態では、癌状態は、癌の非存在または存在である。いくつかの実施形態では、癌状態は癌の病期(ステージ)である。
開示された実施形態のいくつかにおいて、癌は、副腎臓癌、胆道癌、膀胱癌、骨/骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道の癌、胃(gastic)癌、頭頸部癌、肝胆道癌、腎臓癌、肝臓癌、肺癌、卵巣癌、膵癌、骨盤癌、胸膜癌、前立腺癌、腎臓癌、皮膚癌、胃(stomach)癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、メラノーマ、多発性骨髄腫、白血病、またはこれらの組み合わせである。
いくつかの実施形態では、試験対象から得られる生物学的試料は、液体生物学的試料である。いくつかの上記態様において、第3の複数の断片は、無細胞核酸である。
いくつかの実施形態では、第1および第2の複数の断片は、無細胞核酸である。
いくつかの実施形態では、1または複数の第1の状態間隔マップは、単一の第1の状態間隔マップから構成され、1または複数の第2の状態間隔マップは、単一の第2の状態間隔マップから構成される。
いくつかの実施形態では、1または複数の第1の状態間隔マップは、複数の第1の状態間隔マップを含むか、またはそれらであり;1または複数の第2の状態間隔マップは、複数の第2の状態間隔マップを含むか、またはそれらであり;1または複数の対応するゲノム領域は、複数のゲノム領域を含むか、またはそれらである。例えば、複数のゲノム領域内の各ゲノム領域は、第1の複数の間隔マップ内の第1の状態間隔マップおよび第2の複数の間隔マップ内の第2の状態間隔マップによって表される。いくつかの実施形態では、複数のゲノム領域は、10~30である。いくつかの実施形態では、複数のゲノム領域の各ゲノム領域は、異なるヒト染色体である。いくつかの実施形態では、複数のゲノム領域は、2~1000のゲノム領域、500~5000のゲノム領域、1000~20,000のゲノム領域、または5000~50,000のゲノム領域からなる。いくつかの実施形態では、第1のデータセットを得ることおよび第2のデータセットを得ることのメチル化配列決定は、複数のプローブを用いた標的配列決定であり、複数のゲノム領域内の各ゲノム領域は、複数のプローブ内のプローブに関連付けられる。
いくつかの実施形態では、1または複数の第1の間隔マップ内の各間隔マップの対応する独立した複数のノードは、1または複数の対応するゲノム領域内の対応する領域を表す対応するツリーとして配置され、各間隔マップに対する対応する独立した複数のノード内の各ノードは、対応するゲノム領域のサブ領域を表す。
いくつかのこのような実施形態では、対応する各ツリーは、対応する複数のリーフの各リーフの親ノードが1または複数の子ノードを参照する対応する複数のリーフに対応する複数のノードを配置し、スキャニングは複数のクエリを生成し、複数のクエリ内の各クエリは、長さlの異なる候補メチル化パターンについてであり、複数のクエリ内の各クエリは対応するツリーの対応する独立した複数のノード内の各ノードで各クエリとのマッチメーキングを実行するために使用され、さらに、各クエリを各ノードの子ノードに対してさらにマッチメーキングするために、各ノードの子ノードにクエリを伝播し、各マッチメーキングの結果を各ノードの親ノードに配信する。いくつかの上記実施形態では、ツリーは、ランダム化表面積ヒューリスティックを有するKdツリーの一次元(one dimensional)バージョンである。いくつかの上記実施形態では、長さlの各可能なメチル化パターンは、複数のクエリによってサンプリングされる。
いくつかの実施形態では、所定のCpG部位数範囲は、単一の所定数のCpG部位である。いくつかの実施形態では、CpG部位の単一の所定数は、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、または50個までのCpG部位である。いくつかの実施形態では、所定のCpG部位数範囲は、隣接するCpG部位に関するものである。いくつかの態様において、所定のCpG部位数範囲は、単一の所定数の連続するCpG部位である。いくつかの実施形態では、所定数の連続するCpG部位は、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、または50以上の連続するCpG部位である。いくつかの実施形態では、所定のCpG部位数範囲は、ヒト参照ゲノム中の2~100の連続するCpG部位である。
いくつかの実施形態では、1または複数の対象の第1のセットにおける対応する対象からの各生物学的試料のメチル化配列決定は、第1のデータセットに含まれるメチル化パターンについて評価される、10億個以上、20億個以上、30億個以上、40億個以上、50億個以上、60億個以上、70億個以上、80億個以上、90億個以上、または100億個以上の断片を生成する。いくつかの実施形態では、1または複数の対象の第1のセットにおける対応する対象からの各生物学的試料のメチル化配列決定は、第1のデータセットに含まれるメチル化パターンについて評価される10億未満の断片または10,000未満の断片を生成する。
いくつかの実施形態では、10,000を超えるCpG部位、25,000を超えるCpG部位、50,000を超えるCpG部位、80,000を超えるCpG部位、100,000を超えるCpG部位、150,000を超えるCpG部位、200,000を超えるCpG部位、300,000を超えるCpG部位、400,000を超えるCpG部位、500,000を超えるCpG部位、600,000を超えるCpG部位、700,000を超えるCpG部位、800,000を超えるCpG部位、900,000を超えるCpG部位、1,000,000を超えるCpG部位、1,200,000を超えるCpG部位、1,800,000を超えるCpG部位、1,800,000を超えるCpG部位、または2,000,000を超えるCpG部位が1または複数の対応するケ゛ノム領域にわたって存在する。いくつかの実施形態では、1または複数の対応するケ゛ノム領域にわたって、10,000未満のCpG部位、25,000未満のCpG部位、50,000未満のCpG部位、80,000未満のCpG部位、100,000未満のCpG部位、150,000未満のCpG部位、200,000未満のCpG部位、300,000未満のCpG部位、400,000未満のCpG部位、500,000未満のCpG部位、700,000未満のCpG部位、800,000未満のCpG部位、900,000未満のCpG部位、1,000,000未満のCpG部位、1,200,000未満のCpG部位、1,500,000未満のCpG部位、1,800,000未満のCpG部位、または2,000,000未満のCpG部位が存在する。
いくつかの実施形態では、対応する複数の配列読み取りの平均配列読み取り長は、各断片についてのメチル化配列決定によって得られた100~300ヌクレオチド、例えば140~280ヌクレオチドである。
いくつかの実施形態では、1または複数の対応するゲノム領域の各ゲノム領域は、ヒトゲノム参照配列の500塩基対から10,000塩基対の間を表す。いくつかの実施形態では、1または複数の対応するゲノム領域の各ゲノム領域は、ヒトゲノム参照配列の500塩基対から2000塩基対の間を表す。いくつかの実施形態では、1または複数の対応するゲノム領域の各ゲノム領域は、ヒトゲノム参照配列の異なる部分を表す。いくつかの実施形態では、1または複数の対応するゲノム領域は、ヒトゲノム参照配列の最大100万塩基対(Mb)、2Mb、3Mb、5Mb、8Mb、10Mb、12Mb、15Mb、20Mb、25Mb、30Mb、40Mb、または50Mbを集合的に含む。
いくつかの実施形態において、対応する複数のCpG部位におけるCpG部位のメチル化状態は、CpG部位がメチル化されるメチル化配列決定によって決定されるときにメチル化され、CpG部位がメチル化されないメチル化配列決定によって決定されるときに非メチル化される。いくつかの実施形態において、メチル化配列決定は、複数の核酸プローブを用いた全ゲノムメチル化配列決定または標的DNAメチル化配列決定である。いくつかの実施形態において、メチル化配列決定は、各断片中の1または複数の5-メチルシトシン(5mC)および/または5-ヒドロキシメチルシトシン(5hmC)を検出する。いくつかの実施形態において、メチル化配列決定は、1または複数の非メチル化シトシンまたは1または複数のメチル化シトシンの対応する1または複数のウラシルへの変換を含む。いくつかの実施形態では、1または複数のウラシルは、メチル化配列決定の間に、1または複数の対応するチミンとして検出される。いくつかの実施形態では、1または複数の非メチル化シトシンまたは1または複数のメチル化シトシンの変換は、化成処理(化学変換)、酵素変換、またはそれらの組み合わせを含む。
いくつかの実施形態では、各生物学的試料は、血液試料である。いくつかの実施形態では、各生物学的試料は、血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙液、胸膜液、心嚢液、または腹膜液を含む。
いくつかの実施形態では、癌状態は、試験対象中の腫瘍フラクションであり、対象の第1のセットは、試験対象から成り、癌状態の第1の状態は、試験対象中の腫瘍フラクションであり、癌状態の第2の状態は、癌の非存在であり、および癌対象の第2のセットは、複数の、癌を有さない試験対象である。いくつかの実施形態では、本方法は、複数の適格なメチル化パターンを使用して、試験対象における腫瘍フラクションを決定することをさらに含む。いくつかの実施形態では、本方法は、さらに、試験対象について決定された腫瘍フラクションに基づいて、試験対象を処置することを含む。いくつかの実施形態では、本方法は、さらに、試験対象について決定された腫瘍フラクションに基づいて、試験対象の進行中の治療計画を調整することを含む。
いくつかの実施形態では、癌状態の第1の状態は試験対象に特有であり、対象の第1のセットは試験対象からなり、癌状態の第2の状態は癌の非存在であり、そして癌対象の第2のセットは癌のない複数の試験対象である。いくつかの実施形態では、本方法は、複数の適格なメチル化パターンを用いて、試験対象における癌状態の第1の状態を定量することをさらに含む。いくつかの実施形態では、本方法は、さらに、対象における癌状態の第1の状態の定量に基づいて、対象を治療することを含む。いくつかの実施形態では、方法は、対象における癌状態の第1の状態の定量に基づいて、対象の進行中の治療計画を調整することをさらに含む。いくつかの実施形態では、試験対象は、副腎臓癌、胆道癌、膀胱癌、骨/骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道の癌、胃(gastric)癌、頭頸部癌、肝胆道癌、腎臓癌、肝臓癌、肺癌、卵巣癌、膵癌、骨盤癌、胸膜癌、前立腺癌、腎臓癌、皮膚癌、胃(stomach)癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、メラノーマ、多発性骨髄腫、または白血病を有する。
いくつかの実施形態では、癌状態は、癌の有無であり、対象の第1のセットは、第1の複数の対象を含み、癌状態の第1の状態は、癌の存在であり、癌状態の第2の状態は、癌の非存在であり、癌対象の第2のセットは、第2の複数の癌対象である。いくつかの実施形態において、癌は、副腎臓癌、胆道癌、膀胱癌、骨/骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道の癌、胃(gastric)癌、頭頸部癌、肝胆道癌、腎臓癌、肝臓癌、肺癌、卵巣癌、膵癌、骨盤癌、胸膜癌、前立腺癌、腎臓癌、皮膚癌、胃(stomach)癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、メラノーマ、多発性骨髄腫、または白血病である。
いくつかの実施形態では、癌状態は癌の起源であり、対象の第1のセット(第1の対象セット)は第1の複数の対象を含み、癌状態の第1の状態(第1の癌状態)は癌の第1の起源であり、癌状態の第2の状態(第2の癌状態)は癌の第2の起源であり、癌対象の第2のセット(癌の第2の対象セット)は第2の複数の癌対象である。いくつかの実施形態では、第1の起源は、副腎、胆汁、膀胱、骨/骨髄、脳、乳房、子宮頸部、結腸直腸、食道、胃(gastric)、頭/頸部、肝胆道、腎臓、肝臓、肺、卵巣、膵臓、骨盤、胸膜、前立腺、腎臓、表皮、胃(stomach)、精巣、胸腺、甲状腺、子宮、リンパ腫、メラノーマ、多発性骨髄腫、または白血病のうちの1つであり、第2の起源は、第1の起源以外のものであって、副腎、胆汁、膀胱、骨/骨髄、脳、乳房、子宮頸部、結腸直腸、食道、胃(gastric)、頭/頸部、肝胆道、腎臓、肝臓、肺、卵巣、膵臓、骨盤、胸膜、前立腺、腎臓、表皮、胃(stomach)、精巣、胸腺、甲状腺、子宮、リンパ腫、メラノーマ、多発性骨髄腫、または白血病のうちの1つである。
いくつかの実施形態では、癌状態は癌の病期であり、対象の第1のセットは第1の複数の対象を含み、癌状態の第1の状態は第1の癌の第1の病期(ステージ)であり、癌状態の第2の状態は第1の癌の第2の病期であり、癌対象の第2のセットは第2の複数の癌対象である。いくつかの実施形態では、癌は副腎臓癌、胆道癌、膀胱癌、骨/骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道の癌、胃(gastric)癌、頭頸部癌、肝胆道癌、腎臓癌、肝臓癌、肺癌、卵巣癌、膵癌、骨盤癌、胸膜癌、前立腺癌、腎臓癌、皮膚癌、胃(stomach)癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、メラノーマ、多発性骨髄腫、または白血病であり、第1の病期は癌のI期、II期、III期、またはIV期であり、第2の病期は癌の第1の病期以外の病期であり、癌のI期、II期、III期、またはIV期である。
本開示の別の態様は、癌状態を識別または示す複数の適格なメチル化パターンを同定するためのコンピュータシステムを提供し、該コンピュータシステムは、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを記憶するメモリとを含み、該少なくとも1つのプログラムは、癌状態を識別または示す複数の適格なメチル化パターンを同定するための命令を含む。いくつかの実施形態では、少なくとも1つのプログラムは、コンピュータによって実行されるように構成される。いくつかの実施形態では、少なくとも1つのプログラムは、本明細書に開示された方法および実施形態のいずれか、および/または当業者に明らかなそれらの任意の組み合わせを実行するための命令を含む。
本開示の別の態様は、プロセッサによって実行されると、癌状態を識別または示す複数の適格なメチル化パターンを識別するための方法をプロセッサに実行させるプログラムコード命令を記憶した非一時的コンピュータ可読記憶媒体を提供する。ある実施形態では、プログラムコード命令は、コンピュータによって実行されるように構成される。いくつかの実施形態では、プログラムコード命令は、本明細書に開示された方法および実施形態のいずれか、および/または当業者に明らかなそれらの任意の組み合わせを実行するための命令を含む。
添付の特許請求の範囲の範囲内のシステム、方法および装置の様々な実施形態は、それぞれいくつかの態様を有し、そのうちの単一の態様は、本明細書に記載される望ましい属性にのみ責任を負うものではない。添付の特許請求の範囲を限定することなく、いくつかの顕著な特徴が本明細書に記載される。この議論を考察した後、特に「詳細な説明」と題されたセクションを読んだ後に、様々な実施形態の特徴がどのように使用されるかを理解するであろう。
参照による援用
本明細書において言及されるすべての刊行物、特許、および特許出願は、個々の刊行物、特許、または特許出願のそれぞれが、参照により組み込まれることが具体的かつ個々に示されているのと同程度に、参照により本明細書に組み込まれる。
本明細書において言及されるすべての刊行物、特許、および特許出願は、個々の刊行物、特許、または特許出願のそれぞれが、参照により組み込まれることが具体的かつ個々に示されているのと同程度に、参照により本明細書に組み込まれる。
本明細書に開示される実施形態は、限定するものではなく、一例として、添付図面の図に示されている。同様の参照番号は、図面のいくつかの図の全体を通じて対応する部分を指す。
ここで、添付の図面に例示されている実施形態を詳細に参照する。以下の詳細な説明では、本開示の完全な理解を提供するために、多数の特定の詳細が記載されている。しかしながら、当業者には、本開示がこれらの特定詳細なしに実施され得ることが明らかであろう。他の例では、実施形態の態様を不必要に不明瞭にしないように、公知の方法、手順、成分、回路、およびネットワークは詳細に説明されていない。
本明細書に記載の実施は、癌状態を識別または示す適格なメチル化パターンを同定するための様々な技術的解決策を提供する。具体的には、第1のデータセットおよび第2のデータセットが(例えば、電子形式で)取得される。各データセットは、各第1または第2の複数の断片中の各断片に対する対応する断片メチル化パターンを含む。各断片の対応するメチル化パターンは、対象の各第1または第2のセットから得られた核酸のメチル化配列決定によって決定され、対応する複数のCpG部位における各CpG部位のメチル化状態を含む。複数の対象のそれぞれは、癌状態の第1または第2の状態のそれぞれを有する。第1の間隔マップおよび第2の間隔マップは、各データセットごとに生成され、開始メチル化部位、終了メチル化部位、各異なる断片メチル化パターンの表現および断片のカウントを特徴とする複数のノードを含む。第1および第2の間隔マップは、所定のCpG部位数範囲の適格な断片メチル化パターンについてスキャンされ、1または複数の選択基準を満たし、それによって、癌状態を識別または示す断片メチル化パターンを同定する。
定義
本明細書で使用されるように、「約」および「およそ」という用語は、当業者によって決定される特定の値に対する許容可能な誤差範囲内を意味し、これは、部分的には、値がどのように測定または決定されるか、例えば、測定システムの制限に依存する。例えば、いくつかの実施形態では、「約」は、当該技術分野における実施当たり、1以内または1超の標準偏差を意味する。いくつかの実施形態では、「約」は、所与の値の±20%、±10%、±5%、または±1%の範囲を意味する。いくつかの実施形態では、「約」または「およそ」という用語は、1桁以内、5倍以内、または2倍以内の値を意味する。特定の値が出願および特許請求の範囲に記載されている場合、別段の記載がない限り、特定の値について許容可能な誤差範囲内での「約」の意味という用語を想定することができる。用語「約」は、当業者によって一般的に理解されるような意味を有することができる。いくつかの実施形態では、用語「約」は、±10%を指す。いくつかの実施形態では、用語「約」は、±5%を指す。
本明細書で使用されるように、「約」および「およそ」という用語は、当業者によって決定される特定の値に対する許容可能な誤差範囲内を意味し、これは、部分的には、値がどのように測定または決定されるか、例えば、測定システムの制限に依存する。例えば、いくつかの実施形態では、「約」は、当該技術分野における実施当たり、1以内または1超の標準偏差を意味する。いくつかの実施形態では、「約」は、所与の値の±20%、±10%、±5%、または±1%の範囲を意味する。いくつかの実施形態では、「約」または「およそ」という用語は、1桁以内、5倍以内、または2倍以内の値を意味する。特定の値が出願および特許請求の範囲に記載されている場合、別段の記載がない限り、特定の値について許容可能な誤差範囲内での「約」の意味という用語を想定することができる。用語「約」は、当業者によって一般的に理解されるような意味を有することができる。いくつかの実施形態では、用語「約」は、±10%を指す。いくつかの実施形態では、用語「約」は、±5%を指す。
本明細書で使用される用語「アッセイ」は、物質、例えば、核酸、タンパク質、細胞、組織、または器官の特性を決定するための技術を指す。アッセイ(例えば、第1のアッセイまたは第2のアッセイ)は、試料中の核酸のコピー数変動、試料中の核酸のメチル化状態、試料中の核酸の断片サイズ分布、試料中の核酸の突然変異状況、または試料中の核酸の断片化(フラグメンテーション)パターンを決定するための技術を含むことができる。任意のアッセイを用いて、本明細書中に記載される核酸の特性のいずれかを検出することができる。核酸の特性は、配列、ゲノムアイデンティティ、コピー数、1または複数のヌクレオチド位置でのメチル化状態、核酸のサイズ、1または複数のヌクレオチド位置での核酸における突然変異の有無、および核酸の断片化のパターン(例えば、核酸断片が存在するヌクレオチド位置)を含むことができる。アッセイまたは方法は、特定の感度および/または特異性を有することができ、診断ツールとしてのそれらの相対的有用性は、ROC-AUC統計量を用いて測定することができる。
本明細書に開示されるように、「生物学的試料」という用語は、対象に関連する生物学的状態を反映することができ、無細胞DNAを含む、対象から採取された任意の試料を指す。生物学的試料の例としては、対象の血液、全血、血漿、プラズマ、尿、脳脊髄液、糞便、唾液、汗、涙液、胸水、心嚢液、または腹膜液が挙げられるが、これらに限定されない。生物学的試料は、生体または死体に由来する任意の組織または物質を含むことができる。生物学的試料は、無細胞試料であり得る。生物学的試料は、核酸(例えば、DNAまたはRNA)またはその断片を含むことができる。「核酸」という用語は、デオキシリボ核酸(DNA)、リボ核酸(RNA)またはその任意のハイブリッドもしくは断片を指すことができる。試料中の核酸は、無細胞核酸であり得る。試料は、液体試料または固体試料(例えば、細胞または組織試料)であり得る。生物学的試料は、血液、血漿、血清、尿、膣液、水瘤(例えば、精巣の)からの液、膣液、胸水、腹水液、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳頭からの排出液、体の異なる部分(例えば、甲状腺、乳房)からの吸引液などの体液であり得る。生物学的試料は、糞便試料とすることができる。様々な実施形態において、無細胞DNAについて濃縮された生物学的試料(例えば、遠心分離プロトコルを介して得られた血漿試料)中のDNAの大部分は、無細胞であり得る(例えば、DNAの50%超、60%、70%、80%、90%、95%、または99%超は、無細胞であり得る)。生物学的試料は、組織または細胞構造(例えば、遠心分離および/または細胞溶解)を物理的に破壊するように処理することができ、したがって、分析のために試料を調製するために使用することができる酵素、緩衝液、塩、界面活性剤などをさらに含有することができる溶液中に細胞内成分を放出する。
本明細書に開示されるように、「核酸」および「核酸分子」という用語は、互換的に使用される。用語は、デオキシリボ核酸(DNA、例えば相補的DNA(cDNA)、ゲノムDNA(gDNA)など)、リボ核酸(RNA、例えば、メッセージRNA(mRNA)、短い阻害性RNA(siRNA)、リボソームRNA(rRNA)、トランスファーRNA(tRNA)、マイクロRNA、胎児または胎盤によって高度に発現されるRNAなど)、および/またはDNAもしくはRNA類似体(例えば、塩基類似体、糖類似体および/または非天然骨格などを含有する)、RNA/DNAハイブリッドおよびポリアミド核酸(PNA)などの任意の組成形態の核酸を指し、これらはすべて一本鎖または二本鎖形態であり得る。特に限定されない限り、核酸は、天然ヌクレオチドの公知のアナログを含むことができ、そのいくつかは、天然に存在するヌクレオチドと同様の様式で機能することができる。核酸は、本明細書中のプロセス(例えば、直鎖状、円形、超らせん状、一本鎖状、二本鎖状など)を行うのに有用な任意の形態であり得る。いくつかの実施形態における核酸は、単一の染色体またはその断片からのものであり得る(例えば、核酸試料は、二倍体生物から得られた試料の1つの染色体からのものであり得る)。特定の実施形態では、核酸は、ヌクレオソーム、ヌクレオソーム断片またはヌクレオソーム様構造の一部を含む。核酸は、時にタンパク質(例えば、ヒストン、DNA結合タンパク質など)を含む。本明細書に記載されるプロセスによって分析される核酸は、ときに、実質的に単離され、タンパク質または他の分子と実質的に会合しない。核酸はまた、一本鎖(「センス」または「アンチセンス」、「プラス」鎖または「マイナス」鎖、「フォワード」リーディングフレームまたは「リバース」リーディングフレーム)および二本鎖ポリヌクレオチドから合成、複製または増幅されたRNAまたはDNAの誘導体、変異体(バリアント)およびアナログを含む。デオキシリボヌクレオチドには、デオキシアデノシン、デオキシシチジン、デオキシグアノシン、およびデオキシチミジンが含まれる。RNAの場合、塩基のシトシンはウラシルに置き換えられ、糖の2’位にはヒドロキシル部分が含まれる。核酸は、鋳型として対象から得られた核酸を用いて調製することができる。
本明細書に開示されるように、用語「無細胞核酸」、「無細胞DNA」、および「cfDNA」は、交換可能に、対象の体内(例えば、血流などの体液内)を循環し、1または複数の健康な細胞および/または1または複数の癌細胞に由来する核酸断片を指す。cfDNAは、対象の血液、全血、血漿、プラズマ、尿、脳脊髄液、糞便、唾液、汗、汗、涙液、胸水、心嚢液、または腹膜液などの体液から回収することができる。無細胞核酸は循環核酸と互換的に使用される。無細胞核酸の実施例としては、RNA、ミトコンドリアDNA、またはゲノムDNAが挙げられるが、これらに限定されない。
本明細書に開示されるように、用語「循環腫瘍DNA」または「ctDNA」は、死にかけている細胞のアポトーシスまたは壊死などの生物学的プロセスの結果として対象の血流に放出され得る、または生存腫瘍細胞によって能動的に放出され得る、腫瘍または他のタイプの癌の細胞などの異常組織に由来する核酸断片を指す。
本明細書に開示されるように、用語「参照ゲノム」は、対象からの同定された配列を参照するために使用され得る任意の生物またはウイルスの、部分的であるか完全であるかを問わず、任意の特定の既知の、配列決定された、または特徴付けられたゲノムを指す。ヒト対象および多くの他の生物に使用される例示的参照(リファレンス)ゲノムは、国立バイオテクノロジー情報センター(National Center for Biotechnology Information)(「NCBI」)またはカリフォルニア大学サンタクルーズ校(University of California、Santa Cruz)(UCSC)が主催するオンラインゲノムブラウザに提供される。「ゲノム」とは、核酸配列において発現される、生物またはウイルスの完全な遺伝情報を意味する。本明細書で使用される場合、参照配列または参照ゲノムは、しばしば、個体または複数個体由来の組み立てられたまたは部分的に組み立てられたゲノム配列である。いくつかの実施形態では、参照ゲノムは、1または複数のヒト個体由来の組み立てられたまたは部分的に組み立てられたゲノム配列である。参照ゲノムは、種の遺伝子セットの代表的な例とみなすことができる。いくつかの実施形態では、参照ゲノムは、染色体に割り当てられた配列を含む。例示的なヒト参照ゲノムとしては、NCBI構築物34(UCSC等価物: hg16)、NCBI構築物35(UCSC等価物: hg17)、NCBI構築物36.1(UCSC等価物: hg18)、GRCh37(UCSC等価物: hg19)、およびGRCh38(UCSC等価物: hg38)が挙げられるが、これらに限定されない。
本明細書に開示されるように、用語「参照ゲノムの領域」、「ゲノム領域」、または「染色体領域」は、参照ゲノムの任意の部分、隣接または非隣接を指す。これは、例えば、ビン、パーティション、ゲノム部分、参照ゲノムの一部、染色体の一部などと呼ぶこともできる。いくつかの実施形態では、ゲノム部分は、ゲノム配列の特定の長さに基づく。いくつかの実施形態では、方法は、複数のゲノム領域への複数のマッピングされた配列読み取りの分析を含むことができる。ゲノム領域はほぼ同じ長さであってもよいし、ゲノム部は異なる長さであってもよい。いくつかの実施形態では、ゲノム領域は、約等しい長さである。いくつかの実施形態では、異なる長さのゲノム領域は、調整または加重される。いくつかの実施形態では、ゲノム領域は、約10キロベース(kb)~約500kb、約20kb~約400kb、約30kb~約300kb、約40kb~約200kb、およびときに約50kb~約100kbである。いくつかの実施形態では、ゲノム領域は、約100kb~約200kbである。ゲノム領域は、連続した配列の走行に限定されない。したがって、ゲノム領域は、連続(隣接)配列および/または非連続配列から構成することができる。ゲノム領域は単一の染色体に限定されない。いくつかの実施形態では、ゲノム領域は、1つの染色体の全部または一部、または2つ以上の染色体の全部または一部を含む。いくつかの実施形態において、ゲノム領域は、1、2、またはそれ以上の染色体全体に及ぶことができる。さらに、ゲノム領域は、複数の染色体の継手部分(ジョイント/joint)または分離部分(disjointed portion)に及ぶことがある。
本明細書で使用される「断片(フラグメント)」および「核酸断片」という用語は、本明細書では交換可能に使用され、少なくとも3つの連続するヌクレオチドのポリヌクレオチド配列のすべてまたは一部を指す。生物学的試料中に見出される核酸断片の配列決定の文脈において、用語「断片」は、生物学的試料中に見出される核酸分子(例えば、DNA断片)またはその表現(representation)(例えば、配列の電子的表現)を指す。ユニークな断片(例えば、無細胞核酸)からのシーケンシングデータ(例えば、全ゲノム配列決定、標的化配列決定などからの生または修正された配列読み取り)は、断片の核酸断片配列および/またはメチル化パターンを決定するために使用される。このような配列読み取りは、実際には、元の断片のPCR複製の配列決定から得ることができ、したがって、断片配列を「表す」または「支持する」ことができる。生物学的試料中の特定の断片(例えば、PCR複製物)をそれぞれ表すか、または支持する複数の配列読み取りがあり得るが、特定の断片について、1つの断片配列、および1つの断片メチル化パターンがあり得る。いくつかの実施形態では、元の断片について生成された重複配列読み取り値は、組み合わされるか、または除去される(例えば、単一配列、例えば、核酸断片配列に折りたたまれる)。したがって、各々が特定の遺伝子座を包含する試料中の断片の集団に関する測定基準(例えば、遺伝子座の存在量値、または断片長さの分布の特性に基づく測定基準)を決定する場合、サポート(支持)配列読み取り(例えば、集団中の核酸断片のPCR複製から生成され得る)ではなく、断片の集団に関する核酸断片配列を使用して、測定基準を決定することができる。なぜなら、上記実施形態では、配列の1つのコピーが、元の(例えば、固有の)断片(例えば、固有の核酸分子)を表すために使用されるからである。断片の集団のための断片は、同一または異なる断片メチル化パターンを有するいくつかの同一の配列を含むことができ、それらの各々は、同一の元の断片の複製ではなく、異なる元の断片を表すことに留意されたい。いくつかの実施形態では、無細胞核酸は、断片とみなされる。
本明細書で互換的に使用される「配列読み取り」または「読み取り(リード)」という用語は、本明細書に記載されるか、または当技術分野で公知の任意の配列決定プロセスによって生成されるヌクレオチド配列を指す。読み取りは、核酸断片の一方の末端から生成され得(「シングルエンド(単端部)読み取り」)、時には、核酸の両端から生成される(例えば、ペアエンド読み取り、ダブルエンド(対端部)読み取り)。いくつかの実施形態では、配列読み取り(例えば、シングルエンドまたはダブルエンド読み取り)は、標的化核酸断片の一方または両方の鎖から生成され得る。読み取られた配列の長さは、しばしば、特定の配列決定技術と関連している。例えば、ハイスループット法は、数十から数百塩基対(bp)の大きさで変化し得る配列読み取りを提供する。いくつかの実施形態では、配列読み取りは、約15bp~900bp(例えば、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、または約500bpの長さの平均値(mean)、中央値または中間値(average)である。いくつかの実施形態では、配列読み取りは、約1000bp、2000bp、5000bp、10,000bp、または50,000bp以上の長さの平均値(mean)、中央値または中間値(average)である。例えば、ナノポア配列決定は、数十~数百~数千の塩基対の大きさで変化し得る配列読み取りを提供することができる。イルミナ(Illumina)パラレルシーケンシングは、あまり変化しない配列読み取りを提供することができ、例えば、配列読み取りのほとんどは200bpより小さくなり得る。配列読み取り(または配列決定読み取り)は、核酸分子(例えば、ヌクレオチドの文字列)に対応する配列情報を指すことができる。例えば、配列読み取り、核酸断片の一部からのヌクレオチドの文字列(例えば、約20~約150)に対応し得、核酸断片の一方または両端のヌクレオチドの文字列に対応し得、または核酸断片全体のヌクレオチドに対応することができる。配列読み取りは、例えば、配列決定技術を使用するか、または、例えば、ハイブリダイゼーションアレイもしくは捕捉プローブにおけるプローブを使用するか、またはポリメラーゼ連鎖反応(PCR)のような増幅技術、または単一プライマーもしくは等温増幅を使用する線形増幅技術を使用するなど、様々な方法で得ることができる。
本明細書に開示されるように、本明細書で使用される用語「配列決定(シーケンシング)」、「配列の決定」などは、一般に、核酸またはタンパク質などの生物学的高分子の順序を決定するために使用され得る任意のおよびすべての生化学的プロセスを指す。例えば、シーケンシングデータは、DNA断片のような核酸分子中のヌクレオチド塩基の全部または一部を含むことができる。
「配列決定深さ」、「カバレッジ」および「カバレッジ率」という用語は、遺伝子座に整列された固有の核酸標的分子(「核酸断片」)に対応するコンセンサス配列読み取りにより遺伝子座がカバーされる回数を指すために本明細書では互換的に使用され、例えば、配列決定深さは、遺伝子座をカバーする固有の核酸標的断片(PCR配列決定複製を除く)の数に等しい。遺伝子座はヌクレオチドと同じくらい小さいものもあれば、染色体アームと同じくらい大きいものもあり、ゲノム全体と同じくらい大きいものもある。配列決定深さは、「YX」として表すことができる。例えば、50X、100X等であり、ここで、「Y」は、核酸標的に対応する配列で遺伝子座がカバーされる回数、例えば、特定の遺伝子座をカバーする独立した配列情報が得られる回数をいう。いくつかの実施形態では、配列決定の深さは、配列決定されたゲノムの数に対応する。配列決定の深さは、複数の遺伝子座、または全ゲノムにも適用することができ、この場合、Yは、それぞれ、遺伝子座または単相体(ハプロイド)ゲノム、または全ゲノムがシークエンスされる平均または平均回数を参照することができる。平均深さ(深度)が引用される場合、データセットに含まれる異なる遺伝子座の実際の深さは、広い範囲の値にわたることがある。超深層配列決定は、遺伝子座での配列決定深さにおいて少なくとも100倍に言及し得る。
本明細書に開示されるように、用語「一塩基変異体」または「SNV」は、核酸配列の位置(例えば、部位)における1つのヌクレオチドの異なるヌクレオチドへの置換、例えば、個体からの配列読み取りを指す。第1の核酸塩基Xから第2の核酸塩基Yへの置換は、「X>Y」と表記することができる。例えば、シトシンからチミンSNVへの置換は、「C>T」と表記することができる。
本明細書で使用されるように、用語「メチル化」は、シトシン塩基のピリミジン環上の水素原子がメチル基に変換され、5-メチルシトシンを形成するデオキシリボ核酸(DNA)の修飾を指す。特に、メチル化は、本明細書では「CpG部位」と呼ばれるシトシンおよびグアニンのジヌクレオチドで起こる傾向がある。他の例では、メチル化はCpG部位の一部ではなくシトシン、あるいはシトシンではない別のヌクレオチドで起こることがあるが、これらはまれにしか起こらない。本開示において、メチル化は、明瞭さのためにCpG部位に関して論じられる。異常なcfDNAメチル化は、高メチル化または低メチル化として同定することができ、どちらも癌状態を示す可能性がある。当技術分野で周知のように、DNAメチル化異常(健康な対照と比較して)は、異なる効果を引き起こす可能性があり、これは癌に寄与する可能性がある。
異常にメチル化されたcfDNA断片の同定には様々な課題がある。まず、対象のcfDNAが異常にメチル化されていると決定することは、対照の対象群と比較して重みを保持するだけであり、対照群の数が少ない場合、小さな対照群では判定の信頼性が失われる。さらに、対象のcfDNAが異常にメチル化されていると判断する際に、対照の対象群のメチル化状態が異なる可能性があり、これを説明するのが難しい場合がある。別の注目すべき点として、CpG部位におけるシトシンのメチル化は、それに続くCpG部位におけるメチル化に因果的に影響を及ぼす。
本明細書に記載の原理は、非シトシンメチル化を含む非CpG文脈におけるメチル化の検出にも同様に適用可能である。さらに、メチル化状態ベクターは、一般に、メチル化が起こっているかまたは起こっていない部位のベクターであるエレメントを含有してもよい(これらの部位が特異的にCpG部位でなくても)。その置換により、本明細書に記載されるプロセスの残りの部分は同じであり、したがって、本明細書に記載される本発明の概念は、メチル化のそれらの他の形態にも適用可能である。
本明細書で使用されるように、用語「メチル化プロファイル」(メチル化状態とも呼ばれる)は、領域に対するDNAメチル化に関連する情報を含むことができる。DNAメチル化に関連する情報には、CpG部位のメチル化インデックス、領域内のCpG部位のメチル化密度、隣接領域上のCpG部位の分布、複数のCpG部位を含む領域内の個々のCpG部位に対するメチル化のパターンまたはレベル、および非CpGメチル化が含まれ得る。ゲノムのかなりの部分のメチル化プロファイルは、メチローム(methylome)と同等であると考えることができる。哺乳動物ゲノム中の「DNAメチル化」は、CpGジヌクレオチド中のシトシンの複素環環の5位へのメチル基の付加(例えば、5-メチルシトシンを生成するため)を指すことができる。シトシンのメチル化は、他の配列コンテキスト、例えば5’-CHG-3’および5’-CHH-3’においてシトシン中で起こることができ、ここでHはアデニン、シトシンまたはチミンである。シトシンメチル化は5-ヒドロキシメチルシトシンの形成でもよい。DNAのメチル化は、N6-メチルアデニンのような非シトシンヌクレオチドのメチル化を含むことができる。
本明細書で使用される場合、「メチローム」は、ゲノム中の複数の部位または遺伝子座におけるDNAメチル化の量の測定値であり得る。メチロームは、ゲノムのすべて、ゲノムのかなりの部分、あるいはゲノムの比較的小さな部分に対応することができる。「腫瘍メチローム」は、対象(例えば、ヒト)の腫瘍のメチロームであり得る。腫瘍メチロームは、腫瘍組織または血漿中の無細胞腫瘍DNAを用いて決定することができる。腫瘍メチロームは、関心のあるメチロームの一例であり得る。目的のメチロームは、体液中でDNAのような核酸に寄与し得る臓器のメチローム(例えば、脳細胞、骨、肺、心臓、筋肉、腎臓などのメチローム)であり得る。臓器は移植された臓器であり得る。
本明細書中で使用されるように、各ゲノム部位(例えば、CpG部位、シトシンヌクレオチドがその後に5’→3’方向に沿った塩基の直鎖配列中のグアニンヌクレオチドが続くDNAの領域)についての「メチル化指数」という語は、その部位をカバーする全読み取り回数にわたってその部位でメチル化を示す配列読み取りの割合を指すことができる。領域の「メチル化密度」は、メチル化を示す領域内の部位における読み取りの数を、その領域内の部位をカバーする読み取りの総数で割ったものであり得る。部位は特異的な特徴を有することができる(例えば、部位はCpG部位であり得る)。領域の「CpGメチル化密度」は、CpGメチル化を示す読み取りの数を、領域内のCpG部位(例えば、特定のCpG部位、CpGアイランド内のCpG部位、またはより大きな領域)をカバーする読み取りの総数で割ったものであり得る。例えば、ヒトゲノム中の各100kbのbinに対するメチル化密度は、100-kb領域にマップされた配列読み取りによってカバーされる全CpG部位の割合として、CpG部位における未変換シトシン(メチル化シトシンに対応できる)の総数から決定することができる。いくつかの実施形態では、この分析は、他のビンサイズ、例えば、50kbまたは1Mbなどについて実施される。いくつかの実施形態において、領域は、ゲノム全体、または染色体もしくは染色体の一部(例えば、染色体アーム)である。CpG部位のメチル化指数は、そのCpG部位のみを含む領域のメチル化密度と同じである。「メチル化シトシンの割合」は、例えば、領域における、CpGコンテクストの外側のシトシンを含む、分析されたシトシン残基の総数にわたってメチル化される(例えば、亜硫酸水素変換後に変換されない)ことが示されている、シトシン部位、「C」、の数を意味し得る。メチル化インデックス、メチル化密度およびメチル化シトシンの割合は、「メチル化レベル」の実施例である。
本明細書で使用される場合、「プラズマメチローム」は、動物(例えば、ヒト)のプラズマまたは血清から決定されるメチロームであり得る。プラズマと血清は無細胞DNAを含むことができるので、血漿メチロームは無細胞メチロームの一例である。プラズマメチロームは、腫瘍/患者のメチロームの混合物であり得るので、混合メチロームの一例であり得る。「細胞メチローム」は、対象、例えば患者の細胞(例えば、血液細胞または腫瘍細胞)から決定されるメチロームであり得る。血液細胞のメチロームは、血液細胞のメチローム(または血液のメチローム)と呼ばれる。
本明細書で使用される場合、用語「相対的存在量」は、特定の特性(例えば、特定の長さ、1または複数の特定の座標/終了位置で終了する、ゲノムの特定の領域に整列する、または特定のメチル化状態を有する)を有する核酸断片の第1の量と、特定の特性(例えば、特定の長さ、1または複数の特定の座標/終了位置で終了する、またはゲノムの特定の領域に整列する)を有する核酸断片の第2の量との比を指すことができる。一例において、相対的存在量は、ゲノム位置の第1のセットで終わるDNA断片数と、ゲノム位置の第2のセットで終わるDNA断片数との比を意味することができる。いくつかの態様において、「相対的存在量」は、ゲノム位置の1つのウインドウ(窓)内で終わる無細胞DNA分子の量(1つの値)と、ゲノム位置の別のウインドウ内で終わる無細胞DNA分子の量(他の値)とを関連付ける分離値の一種であり得る。2つのウインドウはオーバーラップできるが、サイズは異なる。他の実施形態では、2つのウインドウはオーバーラップできない。さらに、いくつかの実施形態では、ウインドウは、1つのヌクレオチドの幅であり、したがって、1つのゲノム位置と等価である。
本明細書で使用される用語「メチル化パターン」は、1または複数のCpG部位に対するメチル化状態の配列を指す。メチル化状態としては、メチル化(例えば、「M」として表される)および非メチル化(例えば、「U」として表される)が挙げられるが、これらに限定されない。例えば、5つのCpG部位に及ぶメチル化パターンは、「MMMMM」または「UUUUU」として表され得、ここで、各個別の記号は、単一のCpG部位におけるメチル化状態を表す。メチル化パターンは、参照ゲノム中の特定のゲノム位置および/または特定の1つもしくは複数のCpG部位に対応していてもよく、対応していなくてもよい。
本明細書で使用される場合、用語「断片メチル化パターン」は、断片(例えば、核酸試料の)または断片の一部のメチル化パターンを指す。本開示において、用語「断片メチル化パターン」は、特に断らない限り、用語「FMP」と交換可能に使用される。断片メチル化パターンは、各核酸試料のメチル化配列決定により得ることができる。いくつかの実施形態では、核酸試料から得られた1または複数の断片は、各断片メチル化パターンが1または複数のCpG部位(例えば、CpG部位のスパンまたは間隔)を含むように、参照ゲノムに整列され、ここで、各CpG部位は各メチル化状態を含み、参照ゲノム中の特定部位にインデックスされる。したがって、各断片メチル化パターンにおける1または複数のCpG部位は、参照ゲノムにおける特定の位置に対応し、断片メチル化パターンは、参照ゲノムにおける特定の位置に対応する1または複数のCpG部位に対するメチル化状態の配列を指す。いくつかの実施形態では、複数の断片中の各断片は、対応する断片メチル化パターンを有する。断片メチル化パターンは、メチル化状態の配列の表現(例えば、「MMMMM」または「UUUUU」)によって表すことができる。いくつかの実施形態では、各複数の断片に対する複数の断片メチル化パターンは、各複数の断片に対する複数の断片メチル化パターンにおける各断片メチル化パターン(例えば、ノード)の表現を含む間隔マップによって表される。
本明細書で使用される場合、用語「クエリメチル化パターン」は、所定のCpG部位数範囲にあるメチル化状態の配列を指す。クエリメチル化パターンは、メチル化パターンの表現(例えば、間隔マップによって表される複数の断片メチル化パターン)をクエリするために使用されるメチル化状態の配列(例えば、「MMMMM」または「UUUUU」)の表現であり得る。いくつかの実施形態では、クエリメチル化パターンは、参照ゲノム中の各1または複数の特定部位にインデックス付けされた1または複数のCpG部位(例えば、CpG部位のスパンまたは間隔)に対応する。いくつかの実施形態では、クエリメチル化パターンは、参照ゲノム内の特定のCpG部位または特定の位置のいずれにも対応しない(例えば、クエリメチル化パターンは、ゲノム領域および/または参照ゲノム内のすべての位置にわたってクエリされるメチル化状態の配列の表現である)。いくつかの例では、所定のCpG部位(サイト)数範囲は、ユーザ定義である(例えば、範囲5のCpG部位から20のCpG部位)。いくつかの例では、所定のCpG部位数の範囲は単一の数であり、このような例では、クエリメチル化パターンは固定されたCpG数の長さ(例えば、5つのCpG部位)であることを意味する。いくつかの実施形態では、断片メチル化パターン/FMPまたはその一部をクエリメチル化パターンとして使用することができる。いくつかの実施形態では、以前に生成されたクエリライブラリーからのクエリメチル化パターンを使用することができる。いくつかの実施形態では、特定の種類の癌などの特定の疾患状態について、1または複数のクエリライブラリを生成することができる。
本明細書中で使用される用語「適格なメチル化パターン」は、所定のCpG部位数範囲にあり、1または複数の選択基準を満たすメチル化パターンを指す。本開示において、用語「適格なメチル化パターン」は、特に明記しない限り、用語「QMP」と交換可能に使用される。いくつかの実施形態において、適格なメチル化パターンは、参照ゲノム中の各1または複数の特定部位にインデックス付けされた1または複数のCpG部位(例えば、CpG部位のスパンまたは間隔)に対応する。例えば、適格なメチル化パターンが、参照ゲノムに整列された複数の断片中の各1または複数の断片において同定される場合、適格なメチル化パターンは、1または複数のCpG部位を含み、ここで、各CpG部位は、各メチル化状態を含み、参照ゲノム中の特定部位にインデックス付けされる。したがって、いくつかのそのような態様において、適格なメチル化パターンは、1または複数の選択基準を満たす参照ゲノム中の特定の位置におけるメチル化状態の特定の配列を指す。適格なメチル化パターン(例えば、「MMMMM」または「UUUUU」などの適格なメチル化パターンのためのメチル化状態の各配列の表現)は、参照ゲノムに整列された複数の断片中の各1または複数の断片において同定され得、ここで、複数の断片に対する各断片メチル化パターンは、間隔マップによって表され、クエリーメチル化パターンを間隔マップ中の各ノード中の各断片メチル化パターンの表現にマッチングし、マッチしたメチル化パターンが1または複数の選択基準を満たすかどうかを決定することによって、同定され得る。いくつかの実施形態では、適格なメチル化パターンは、参照ゲノム中の特定のCpG部位または特定の位置のいずれにも対応しない(例えば、適格性メチル化中の1または複数のCpG部位のゲノム位置が不明である場合、および/または適格なメチル化パターン中のメチル化状態の配列が参照ゲノム全体にわたって複数の位置で生じる場合)。
本明細書に開示されるように、用語「対象」は、ヒト(例えば、男性、女性、ヒト、胎児、妊娠女性、子供など)、非ヒト動物、植物、細菌、真菌または原生生物を含むが、これらに限定されない、任意の生物または非生物を指す。ヒトまたはヒト以外の動物は、哺乳動物、は虫類、鳥類、両生類、魚類、有蹄動物、反芻動物、ウシ(例えば、畜牛)、ヤギおよびヒツジ(例、ヒツジ、ヤギ)、ブタ(例、ピッグ)、ラクダ類(例、ラクダ、ラマ、アルパカ)、サル、エイプ(例、ゴリラ、チンパンジー)、クマ科(ursid)(例、クマ)、家禽、イヌ、ネコ、マウス、ラット、魚、イルカ、クジラ、およびサメを含むが、これらに限定されない対象として使用され得る。「対象」および「患者」という用語は、本明細書において互換的に使用され、例えば癌などの医学的状態または疾患を有することが知られているか、または潜在的に有するヒトまたは非ヒト動物を指す。いくつかの実施形態では、対象は、任意の段階(例えば、男性、女性または子供)の男性または女性である。
試料が採取されるか、または本明細書に記載される方法もしくは組成物のいずれかによって治療される対象は、任意の年齢であり得、成人、乳児または小児であり得る。場合によっては、対象、例えば、患者は、0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、または99歳である、またはその中の範囲内(例えば、約2~約20歳、約20~約40歳、または約40~約90歳)である。特定のクラスの対象、例えば、本開示の方法から利益を得ることができる患者は、対象、例えば40歳を超える患者である。
別の特定のクラスの対象、例えば、本開示の方法から利益を得ることができる患者は、慢性心臓症状のより高いリスクを有し得る小児患者である。さらに、対象、例えば、患者は、試料が採取されるか、または本明細書に記載の方法もしくは組成物のいずれかによって治療される、男性であっても女性であってもよい。
用語「正規化」は、本明細書で使用される場合、比較目的のために、値または値のセットを共通の基準フレームに変換することを意味する。例えば、診断用ctDNAレベルが基準(ベースライン)ctDNAレベルで「標準化」される場合、診断用ctDNAレベルは基準ctDNAレベルと比較され、その結果、診断用ctDNAレベルが基準ctDNAレベルと異なる量を決定することができる。
本明細書で使用される「癌(がん)」または「腫瘍」という用語は、腫瘤の成長が正常組織の成長と協調していない、超過した組織の異常な質量を指す。癌または腫瘍は、形態および機能性、成長速度、局所浸潤および転移を含む細胞分化の程度に応じて、「良性」または「悪性」と定義され得る。「良性」腫瘍は高分化型であり、悪性腫瘍よりも成長が遅く、原発部位に限局したままであるのが特徴的である。さらに、場合によっては、良性腫瘍には遠隔部位への浸潤、侵入または転移する能力がない。「悪性」腫瘍は、低分化(退形成)であり得、特徴的に、周辺組織の進行性浸潤、侵入、および破壊を伴う急速な成長を有する。さらに、悪性腫瘍は、遠隔部位に転移する能力を有し得る。
本明細書で使用される用語「癌状態(癌病態)」は、癌に関する試料の状態を意味し、ここで、該状態の各ポテンシャル特性および/または尺度は、癌状態(condition/病態/コンディション)の「状態(state/様子)」を意味する。例えば、試料は、「癌」または「非癌」である癌状態を有することができる。さらに、癌状態は、癌状態に影響を与えることが知られている特定の変異の有無、喫煙/非喫煙、年齢、性別、および/または造血状態などの共変量など、癌の予後に影響を与える状態であり得る。あるいは、癌状態は、原発部位または原発組織、例えば、健康な乳房、肺、肺、前立腺、結腸直腸、腎臓、子宮、膵臓、食道、リンパ、頭頸部、卵巣、肝臓、頸部、表皮、甲状腺、膀胱、胃、またはそれらの組み合わせ、または、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道癌、リンパ腫、頭頸部癌、卵巣癌、肝胆道癌、黒色腫、子宮頸癌、多発性骨髄腫、白血病、甲状腺癌、膀胱癌、胃癌、またはその組み合わせであり得る。癌の状態は、癌の種類、特定の癌の種類の腫瘍、またはその一部、例えば、副腎皮質癌、小児副腎皮質癌、AIDS関連癌の腫瘍、肛門癌に関連する腫瘍であるカポジ肉腫、虫垂癌に関連する腫瘍、星細胞腫、小児(脳腫瘍)腫瘍、非定型奇形腫様/ラブドイド腫瘍、中枢神経系(脳腫瘍)の腫瘍、皮膚の基底細胞癌、胆管癌に関連する腫瘍、膀胱癌の腫瘍、小児膀胱癌の腫瘍、骨癌(例えば、ユーイング肉腫、骨肉腫、悪性線維性組織球腫)組織、脳腫瘍、乳癌組織、小児乳癌組織、小児気管支腫瘍、バーキットリンパ腫組織、カルチノイド腫瘍(胃腸)、小児カルチノイド腫瘍、原発不明の癌腫、原発不明の小児癌、小児心臓(心臓)腫瘍、中枢神経系(例えば、小児非定型奇形腫様/ラブドイド様などの脳腫瘍)腫瘍、小児胚性腫瘍、小児胚細胞腫瘍、子宮頸癌組織、小児子宮頸癌組織、胆管癌組織、小児脊索腫組織、慢性骨髄増殖性腫瘍、結腸直腸癌腫瘍、小児結腸直腸癌腫瘍、小児頭蓋咽頭腫組織、非浸潤性乳管癌(DCIS)、小児胚性腫瘍、子宮内膜癌(子宮癌)組織、小児上衣腫組織、食道癌組織、小児食道癌組織、エステーション神経芽細胞腫(頭頸部癌)組織、小児頭蓋外胚細胞腫瘍、性腺外胚細胞腫瘍、眼の癌組織、眼内黒色腫、網膜芽細胞腫、卵管癌組織、胆嚢癌組織、胃(gastric)(胃(stomach))癌組織、小児胃(gastric)(胃(stomach))癌組織、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、小児の消化管間質腫瘍、胚細胞腫瘍(例えば、小児中枢神経系胚細胞腫瘍、小児頭蓋外胚細胞腫瘍、性腺外胚細胞腫瘍、卵巣胚細胞腫瘍、または精巣癌組織)、頭頸部癌組織、小児心臓腫瘍、肝細胞癌(HCC)組織、膵島細胞腫瘍(膵神経内分泌腫瘍)、腎臓または腎細胞癌(RCC)組織、喉頭癌組織、白血病、肝臓癌組織、肺癌(非小細胞および小細胞)組織、小児肺癌組織、男性乳癌組織、骨の悪性線維性組織球腫および骨肉腫、メラノーマ、小児メラノーマ、眼内黒色腫、小児眼内黒色腫、メルケル細胞癌、悪性中皮腫、小児中皮腫、転移性癌組織、潜在的な原発組織を伴う転移性頸部扁平上皮癌、NUT遺伝子の変化を伴う正中線癌、口腔癌(頭頸部癌)組織、多発性内分泌腫瘍症候群組織、多発性骨髄腫/形質細胞腫瘍、骨髄異形成症候群組織、骨髄異形成/骨髄増殖性新生物、慢性骨髄増殖性腫瘍、鼻腔および副鼻腔癌組織、上咽頭癌(NPC)組織、神経芽細胞腫組織、非小細胞肺癌組織、口腔癌組織、口唇および口腔癌および中咽頭癌組織、骨肉腫および骨組織の悪性線維性組織球腫、卵巣癌組織、小児卵巣癌組織、膵臓癌組織、小児膵臓癌組織、乳頭腫症(小児喉頭)組織、傍神経節腫組織、小児傍神経節腫組織、副鼻腔および鼻腔癌組織、副甲状腺癌組織、陰茎癌組織、咽頭癌組織、褐色細胞腫組織、小児褐色細胞腫組織、下垂体腫瘍、形質細胞腫瘍/多発性骨髄腫、胸膜肺芽腫、原発性中枢神経系 (CNS) リンパ腫、原発性腹膜癌組織、前立腺癌組織、直腸癌組織、網膜芽細胞腫、小児横紋筋肉腫、唾液腺癌組織、肉腫(例えば、小児血管腫瘍、骨肉腫、子宮肉腫など)、セザリー症候群(リンパ腫)組織、皮膚癌組織、小児皮膚癌組織、小細胞肺癌組織、小腸癌組織、皮膚の扁平上皮癌、原発不明の扁平上皮頸部癌、皮膚T細胞リンパ腫、精巣癌組織、小児精巣癌組織、咽頭癌(例えば、上咽頭癌、中咽頭癌、下咽頭癌)組織、胸腺腫または胸腺癌、甲状腺癌組織、腎盂および尿管組織の移行上皮癌、未知の原発性癌組織、尿管または腎盂組織、移行上皮癌(腎臓(腎細胞)癌組織、尿道癌組織、子宮内膜癌組織、子宮肉腫組織、膣癌組織、小児膣癌組織、血管腫瘍、外陰癌組織、ウィルムス腫瘍またはその他の小児腎腫瘍であり得る。癌状態とは、癌の病期(ステージ)であり、例えば、乳癌の病期、肺癌の病期、前立腺癌の病期、大腸癌の病期、腎癌の病期、子宮癌の病期、膵癌の病期、食道癌の病期、リンパ腫の病期、頭頸部癌の病期、卵巣癌の病期、肝胆道癌の病期、黒色腫の病期、子宮頸癌の病期、多発性骨髄腫の病期、白血病の病期、甲状腺癌の病期、膀胱癌の病期、胃癌の病期であり得る。1人の対象から複数のサンプルを採取すると、異なる癌状態または同じ癌状態になることがある。複数の対象が異なる癌の病態または同じ癌の病態を有する可能性がある。
「癌負荷(load)」、「腫瘍負荷」、「癌重荷(burden)」、「腫瘍重荷」、または「腫瘍フラクション(腫瘍画分)」という用語は、本明細書において、腫瘍由来の試験試料中の核酸のフラクション(分率)を指すために、交換可能に使用される。例えば、無細胞核酸の場合、「腫瘍フラクション」は、腫瘍由来の無細胞核酸の画分を指すことができる。したがって、「癌負荷」、「腫瘍負荷」、「癌重荷」、「腫瘍重荷」、および「腫瘍フラクション」という用語は、生物学的試料中の細胞源分率(細胞ソースフラクション)の非限定的な例である。
本明細書で使用される用語「組織」は、機能単位として一緒にグループ化する細胞のグループに対応する。1つの組織に複数の種類の細胞が認められる。異なる種類の組織は、異なる種類の細胞(例えば、肝細胞、肺胞細胞または血液細胞)からなることがあるが、異なる生物由来の組織(母体対胎児)または健康な細胞対腫瘍細胞に対応することもできる。用語「組織」は、一般的に、人体に見出される任意の細胞群(例えば、心臓組織、肺組織、腎臓組織、鼻咽頭組織、口腔咽頭組織)を指すことができる。いくつかの態様において、用語「組織」または「組織型」は、無細胞核酸が由来する組織を指すために使用することができる。一例において、ウイルス核酸断片は、血液組織から誘導され得る。別の実施例では、ウイルス核酸断片は、腫瘍組織から誘導され得る。
本明細書で使用される場合、用語「非トレーニング(拘束)分類指標(untrained classifier)」は、標的データセット上でトレーニングされていない分類指標を指す。したがって、いくつかの実施形態では、「分類指標をトレーニングする」とは、非トレーニング分類指標をトレーニングするプロセスを指す。例えば、後述する、メチル化状態ベクターの第1の基準のセット(canonical set)およびメチル化状態ベクターの第2の基準のセット(正準集合)の場合を考える。メチル化状態ベクターの各基準のセットは、メチル化状態ベクターの第1基準のセット(以下「プライマリ(一次)トレーニングデータセット」という)によって表される各参照対象の細胞源と共に、未トレーニング分類指標への集合的入力として適用され、それによって、トレーニングされた分類指標が得られる。さらに、用語「非トレーニング分類指標」は、伝達学習技術が非トレーニング分類指標のそのようなトレーニングにおいて使用される可能性を除外しないことが理解されるであろう。例えば、Fernandes et al., 2017, “Transfer Learning with Partial Observability Applied to Cervical Cancer Screening,” Pattern Recognition and Image Analysis: 8thIberian Conference Proceedings, 243-250は、参照により本明細書に組み込まれ、そのような転移学習の非限定的な例を提供する。上記トランス転送学習が使用される場合には、上述の非トレーニング分類指標は、プライマリトレーニングデータセットのデータを上回り、かつ、それを越えて、追加のデータを提供される。すなわち、伝達学習実施形態の非限定的な例では、非トレーニング分類指標は、(i)メチル化状態ベクターの基準のセット、およびメチル化状態ベクターの基準のセット(プライマリトレーニングデータセット」)によって表される参照対象の各々の細胞源標識、および(ii)追加データを受け取る。典型的には、この追加データは、別の補助トレーニングデータセットから学習された係数(例えば、回帰係数)の形態である。さらに、単一の補助トレーニングデータセットの説明が開示されているが、本開示において、トレーニングされていない分類指標をトレーニングする際に、プライマリトレーニングデータセットを補完するために使用され得る補助トレーニングデータセットの数に上限はないことが理解されるであろう。例えば、いくつかの実施形態では、2つ以上の補助トレーニングデータセット、3つ以上の補助トレーニングデータセット、4つ以上の補助トレーニングデータセットまたは5つ以上の補助トレーニングデータセットを使用して、各補助データセットがプライマリトレーニングデータセットとは異なるトランスファー学習を通じてプライマリトレーニングデータセットを補完する。上記実施形態では、任意の方法の移転学習を使用することができる。例えば、プライマリトレーニングデータセットに加えて、第1の補助トレーニングデータセットと第2の補助トレーニングデータセットがある場合を考える。(第1の補助トレーニングデータセットへの回帰のような分類指標の適用によって)第1の補助トレーニングデータセットから学習された係数は、転送学習技術(例えば、上述の2次元行列乗算)を使用して第2の補助トレーニングデータセットに適用され得、それは、次に、その係数が一次トレーニングデータセットに適用されるトレーニングされた中間分類指標をもたらし得、これは、プライマリ次トレーニングデータセット自体と共に、非トレーニング分類指標に適用される。あるいは、(第1の補助トレーニングデータセットへの回帰のような分類指標の適用によって)第1の補助トレーニングデータセットから学習された第1の係数セットと、(第2の補助トレーニングデータセットへの回帰のような分類指標の適用によって)第2の補助トレーニングデータセットから学習された第2の係数セットとは、それぞれ個別に、プライマリトレーニングデータセットの別個のインスタンスに適用され(例えば、別個の独立行列乗算によって)、係数の上記適用の両方が、プライマリトレーニングデータセット自体と関連して、プライマリトレーニングデータセットのインスタンスを分離するために、(または、プライマリトレーニングデータセットから学習された主成分または回帰係数のような、いくつかの低減された形態のプライマリトレーニングデータセットの)非トレーニング分類指標に適用され、非トレーニング分類指標をトレーニングすることができる。いずれの実施例においても、第1および第2の補助トレーニングデータセットから派生した細胞源(細胞ソース)(例えば、癌型など)に関する知識は、細胞源標識されたプライマリトレーニングデータセットと併せて、非トレーニング分類指標をトレーニングするために使用される。
用語「分類」は、試料の特定の特性に関連する任意の数字または他の文字を指すことができる。例えば、「+」記号(または「正」という語)は、試料が欠失または増幅を有するものとして分類されることを意味し得る。別の実施例において、用語「分類」は、対象および/または試料中の腫瘍組織の量、対象および/または試料中の腫瘍のサイズ、対象中の腫瘍の段階、対象および/または試料中の腫瘍負荷、および対象中の腫瘍転移の存在を指す。いくつかの実施形態では、分類は、2値(バイナリ)(例えば、正または負)であるか、または分類のより多くのレベル(例えば、1~10または0~1のスケール)を有する。いくつかの実施形態では、「カットオフ」および「閾値」という用語は、動作において使用される所定の数字を指す。一例では、カットオフサイズは、断片が除外されるサイズを上回るサイズを指す。いくつかの実施形態では、閾値は、特定の分類が適用される値を上回るか下回る値である。これらの用語のどちらも、これらの文脈のいずれでも使用できる。
本明細書中で使用される、用語「癌関連変化」または「癌特異的変化」は、癌由来突然変異(単一ヌクレオチド突然変異、ヌクレオチドの欠失または挿入、遺伝的または染色体セグメントの欠失、転座、逆位を含む)、遺伝子の増幅、ウイルス関連配列(例えば、ウイルスエピソーム、ウイルス挿入、細胞に侵入し(例えば、ウイルス感染を介して)、その後細胞によって放出されたウイルスDNA、循環または無細胞ウイルスDNA、異常なメチル化プロファイルまたは腫瘍特異的メチル化サイン、異常な無細胞核酸(例えば、DNA)サイズプロファイル、異常なヒストン修飾痕および他のエピジェネティック修飾、および癌関連または癌特異的である無細胞DNA断片の末端の位置を含み得る。
本明細書で使用されるように、用語「コントロール」、「コントロールサンプル(試料)」、「基準(参照)」、「基準サンプル」、「正常」および「正常サンプル」は、特定条件を有さない、またはそうでなければ健康である対象由来の試料を記載する。一例において、本明細書に開示されるような方法は、腫瘍を有する対象に対して実施することができ、ここで、基準サンプルは、対象の健常組織から採取された試料である。基準は、対象から、またはデータベースから得ることができる。基準は、例えば、対象からの試料の配列決定から得られた配列読み取りをマッピングするために使用される基準ゲノムであり得る。基準ゲノムは、生物学的試料から配列が読み取られ、構成的試料が整列され、比較され得る一倍体または二倍体ゲノムを指すことができる。構成的試料の一例は、対象から得られた白血球のDNAであり得る。一倍体ゲノムについては、各遺伝子座に1つのヌクレオチドしか存在できない。二倍体ゲノムについては、ヘテロ接合性の遺伝子座を同定でき、各ヘテロ接合性の遺伝子座は2つの対立遺伝子をもつことができ、どちらの対立遺伝子も遺伝子座へのアラインメントのためのマッチングを可能にできる。
本明細書で使用される用語は、特定の場合のみを説明するためのものであり、限定することを意図するものではない。本明細書で使用されるように、単数形「1つの(a)」、「1つの(an)」および「前記(the)」は、文脈上明らかに別段の指示がない限り、同様に複数形を含むものとする。さらに、用語「含んでいる」、「含む」、「有している」、「有する」、「一緒に」、またはそれらの変形例が、詳細な説明および/または特許請求の範囲のいずれかにおいて使用される限りにおいて、そのような用語は、用語「備える」と同様の方法で包括的であることが意図される。
いくつかの態様は、説明のための例示的用途を参照して以下に記載される。本明細書に記載の特徴を完全に理解するために、多数の特定の詳細、関係、および方法が記載されていることを理解されたい。しかしながら、当業者であれば、本明細書に記載される特徴は、1または複数の特定の詳細なしに、または他の方法とともに実施することができることを容易に認識するであろう。本明細書に記載される特徴は、行為または事象の図示された順序付けによって限定されるものではなく、何らかの行為は、異なる順序で、および/または他の行為または事象と同時に起こり得る。さらに、本明細書に記載された特徴に従って方法論を実施するために、すべての例示された行為または事象が必要とされるわけではない。
例示的なシステム実施形態
次に、例示的なシステムの詳細を図1と併せて説明する。図1は、いくつかの実施によるシステム100を示すブロック図である。いくつかの実施形態におけるシステム100は、1または複数の処理ユニットCPU102(プロセッサまたは処理コアとも呼ばれる)、1または複数のネットワークインタフェース104、表示装置(ディスプレイ)108および入力モジュール110を含むユーザインタフェース106、非永続的記憶部111、永続的記憶部112、およびこれらの構成要素を相互接続するための1または複数の通信バス114を含む。1または複数の通信バス114は、任意に、システム構成要素間の通信を相互接続しコントロールする回路(チップセットと呼ばれることもある)を含む。非永続的メモリ(非永続的記憶部)111は、典型的には、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリなどの高速ランダムアクセスメモリを含むが、永続的メモリ(永続的記憶部)112は、典型的には、CD-ROM、デジタル多用途ディスク(DVD)またはその他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶装置、磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置、またはその他の不揮発性ソリッドステート記憶装置を含む。永続メモリ112は、任意に、CPU102から遠隔に配置された1または複数の記憶装置を含む。永続的メモリ112と、非永続的メモリ111内の不揮発性メモリデバイスは、一時的でないコンピュータ読み取り可能な記憶媒体を備える。いくつかの実装では、非永続的メモリ111またはその代わりに一時的でないコンピュータ可読記憶媒体は、時には永続的メモリ112と関連して、以下のプログラム、モジュール、およびデータ構造、またはそれらのサブセットを記憶する:
・任意のオペレーティング・各種116に関連する任意の命令、プログラム、データ、または情報であって、これには、様々な基本システムサービスを処理するための手順、およびハードウェア依存タスクを実行するための手順が含まれる、任意の命令、プログラム、データ、または情報;
・システム100を他の装置、または通信ネットワークに接続するための任意のネットワーク通信モジュール(または命令)118に関連する任意の命令、プログラム、データ、または情報;
・命令、プログラム、データ、または複数のデータセット(例えば、データセット1および2)120-1および120-2に関連付けられた情報であって、各データセットが以下を備える:
・複数の対象122-1-1、・・・、122-1-J(ここで、Jは正の整数である)における各対象のための、記録122に関連する命令、プログラム、データ、または情報であって、各試験対象は、対応する対象から得られた各生体試料中の1または複数の核酸試料からの複数の断片メチル化パターン124-1-1-1、・・・、124-1-1-K(ここで、Kは正の整数である)を含み、ここで、各断片メチル化パターンは、1または複数の核酸サンプルのメチル化配列決定によって決定され、各断片中の対応する複数のCpG部位中の各CpG部位についてのメチル化状態126-1-1-1-1、・・・、126-1-1-1-1-L(ここで、Lは正の整数である)を含む、命令、プログラム、データ、または情報;
・各データセットについて、1または複数のゲノム領域128-1-1、・・・、128-1-M(ここで、Mは正の整数である)に関連する命令、プログラム、データ、または情報;
・それぞれのデータセットを使用して、1つまたは複数の対応するゲノム領域の1つまたは複数の状態間隔マップ130-1-1、130-1-2、・・・、130-1-N(ここで、Nは正の整数である)、ここで、各状態間隔マップは、対応する独立した複数のノード132-1-1-1、・・・、132-1-1-P(ここで、Pは正の整数である)を含み、複数のノードにおけるそれぞれのノードは、対応する開始メチル化部位134-1-1-1-1、対応する終了メチル化部位136-1-1-1-1、および、それぞれのノードの対応する開始メチル化部位と対応する終了メチル化部位との間のそれぞれのデータセット全体で観察される、それぞれ異なるフラグメントメチル化パターンについて、それぞれのデータセットで観察された異なるフラグメントメチル化パターン138-1-1-1-1、・・・、138-1-1-1-Q(ここで、Qは正の整数である)の表現とフラグメントのカウント140-1-1-1-1、・・・、140-1-1-1-R(ここで、Rは正の整数である)により特徴づけられ、そのフラグメントメチル化パターンは、対応する開始メチル化部位で始まり、対応する終了メチル化部位で終わり、異なるフラグメントメチル化パターンを有するもの、に関連する命令、プログラム、データ、または情報。
次に、例示的なシステムの詳細を図1と併せて説明する。図1は、いくつかの実施によるシステム100を示すブロック図である。いくつかの実施形態におけるシステム100は、1または複数の処理ユニットCPU102(プロセッサまたは処理コアとも呼ばれる)、1または複数のネットワークインタフェース104、表示装置(ディスプレイ)108および入力モジュール110を含むユーザインタフェース106、非永続的記憶部111、永続的記憶部112、およびこれらの構成要素を相互接続するための1または複数の通信バス114を含む。1または複数の通信バス114は、任意に、システム構成要素間の通信を相互接続しコントロールする回路(チップセットと呼ばれることもある)を含む。非永続的メモリ(非永続的記憶部)111は、典型的には、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリなどの高速ランダムアクセスメモリを含むが、永続的メモリ(永続的記憶部)112は、典型的には、CD-ROM、デジタル多用途ディスク(DVD)またはその他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶装置、磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置、またはその他の不揮発性ソリッドステート記憶装置を含む。永続メモリ112は、任意に、CPU102から遠隔に配置された1または複数の記憶装置を含む。永続的メモリ112と、非永続的メモリ111内の不揮発性メモリデバイスは、一時的でないコンピュータ読み取り可能な記憶媒体を備える。いくつかの実装では、非永続的メモリ111またはその代わりに一時的でないコンピュータ可読記憶媒体は、時には永続的メモリ112と関連して、以下のプログラム、モジュール、およびデータ構造、またはそれらのサブセットを記憶する:
・任意のオペレーティング・各種116に関連する任意の命令、プログラム、データ、または情報であって、これには、様々な基本システムサービスを処理するための手順、およびハードウェア依存タスクを実行するための手順が含まれる、任意の命令、プログラム、データ、または情報;
・システム100を他の装置、または通信ネットワークに接続するための任意のネットワーク通信モジュール(または命令)118に関連する任意の命令、プログラム、データ、または情報;
・命令、プログラム、データ、または複数のデータセット(例えば、データセット1および2)120-1および120-2に関連付けられた情報であって、各データセットが以下を備える:
・複数の対象122-1-1、・・・、122-1-J(ここで、Jは正の整数である)における各対象のための、記録122に関連する命令、プログラム、データ、または情報であって、各試験対象は、対応する対象から得られた各生体試料中の1または複数の核酸試料からの複数の断片メチル化パターン124-1-1-1、・・・、124-1-1-K(ここで、Kは正の整数である)を含み、ここで、各断片メチル化パターンは、1または複数の核酸サンプルのメチル化配列決定によって決定され、各断片中の対応する複数のCpG部位中の各CpG部位についてのメチル化状態126-1-1-1-1、・・・、126-1-1-1-1-L(ここで、Lは正の整数である)を含む、命令、プログラム、データ、または情報;
・各データセットについて、1または複数のゲノム領域128-1-1、・・・、128-1-M(ここで、Mは正の整数である)に関連する命令、プログラム、データ、または情報;
・それぞれのデータセットを使用して、1つまたは複数の対応するゲノム領域の1つまたは複数の状態間隔マップ130-1-1、130-1-2、・・・、130-1-N(ここで、Nは正の整数である)、ここで、各状態間隔マップは、対応する独立した複数のノード132-1-1-1、・・・、132-1-1-P(ここで、Pは正の整数である)を含み、複数のノードにおけるそれぞれのノードは、対応する開始メチル化部位134-1-1-1-1、対応する終了メチル化部位136-1-1-1-1、および、それぞれのノードの対応する開始メチル化部位と対応する終了メチル化部位との間のそれぞれのデータセット全体で観察される、それぞれ異なるフラグメントメチル化パターンについて、それぞれのデータセットで観察された異なるフラグメントメチル化パターン138-1-1-1-1、・・・、138-1-1-1-Q(ここで、Qは正の整数である)の表現とフラグメントのカウント140-1-1-1-1、・・・、140-1-1-1-R(ここで、Rは正の整数である)により特徴づけられ、そのフラグメントメチル化パターンは、対応する開始メチル化部位で始まり、対応する終了メチル化部位で終わり、異なるフラグメントメチル化パターンを有するもの、に関連する命令、プログラム、データ、または情報。
いくつかの実施形態では、上述の識別された元素の1つ以上が、前述のメモリデバイスの1つ以上に記憶され、上述の機能を実行するための命令のセットに対応する。上述の識別されたモジュール、データ、またはプログラム(例えば、命令のセット)は、別個のソフトウェアプログラム、プロシージャ、データセット、またはモジュールとして実装されず、したがって、これらのモジュールおよびデータの各種サブセットは、さまざまな実装において、結合されるか、または別の方法で再アレンジ(配置)されてもよい。一部の実施では、非永続メモリ111は、上記で識別されたモジュールおよびデータ構造のサブセットを任意に記憶する。さらに、いくつかの実施形態では、メモリは、上述されていない追加のモジュールおよびデータ構造を記憶する。いくつかの実施形態では、システム100がそのようなデータの全部または一部を取り出すことができるように、システム100によってアドレス指定可能な、システム100のもの以外の、上記で識別された元素の1つまたは複数が、コンピュータシステム内に記憶される。
図1は「システム100」を示すが、図は、本明細書に記載される実装の構造的概略図としてよりも、コンピュータシステム内に存在し得る様々な特徴の機能的説明として意図される。実際には、そして当業者によって認識されるように、別々に示されたアイテムを組み合わせることができ、いくつかの項目を分離することができる。さらに、図1は、非永続的記憶部111内の特定のデータおよびモジュールを示すが、これらのデータおよびモジュールの一部または全部は、永続的記憶部112内にあってもよい。
本開示の具体的な実施形態
図1を参照して本開示に準じたシステムが開示されているが、現在の開示に準じた方法は、図2を参照して詳細に開示されている。開示された方法のいずれもが、試験対象における癌状態、または対象が癌状態を有する可能性を決定するために、それらのそれぞれが参照によりその全体が本明細書に組み込まれる、2017年10月25日に出願された米国特許出願番号15/793,830、国際特許公開番号WO2018/081130、表題「Methods and Systems for Tumor Detection」、および/または米国特許公開第2020-0385813A1、「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」に開示されたアッセイまたはアルゴリズムのいずれかと関連して利用することができる。例えば、開示された方法のいずれかは、2017年10月25日に出願された米国特許出願番号15/793,830、国際特許公開番号WO2018/081130、米国特許公開第2020-0385813A1、および/または2018年12月18日に出願された「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国仮特許出願第62/781,549号に開示された方法またはアルゴリズムのいずれかと関連して作用することができる。
図1を参照して本開示に準じたシステムが開示されているが、現在の開示に準じた方法は、図2を参照して詳細に開示されている。開示された方法のいずれもが、試験対象における癌状態、または対象が癌状態を有する可能性を決定するために、それらのそれぞれが参照によりその全体が本明細書に組み込まれる、2017年10月25日に出願された米国特許出願番号15/793,830、国際特許公開番号WO2018/081130、表題「Methods and Systems for Tumor Detection」、および/または米国特許公開第2020-0385813A1、「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」に開示されたアッセイまたはアルゴリズムのいずれかと関連して利用することができる。例えば、開示された方法のいずれかは、2017年10月25日に出願された米国特許出願番号15/793,830、国際特許公開番号WO2018/081130、米国特許公開第2020-0385813A1、および/または2018年12月18日に出願された「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国仮特許出願第62/781,549号に開示された方法またはアルゴリズムのいずれかと関連して作用することができる。
図2を参照すると、本開示の一態様は、癌状態を識別または示す複数のメチル化パターンを同定する方法を提供する(ブロック202)。
データセットの取得
図2Aのブロック204を参照すると、本開示は、癌状態を識別または示す複数の適格なメチル化パターンを同定するためのシステム、方法、およびコンピュータ可読媒体を提供する。上記実施形態では、第1のデータセットが(例えば、電子形態で)取得される。第1のデータセットは、第1の複数の断片中の各断片の対応する断片メチル化パターンを含む。いくつかの実施形態では、各断片(i)の対応する断片メチル化パターンは、1または複数の対象の第1のセット中の対応する対象から得られた各生物学的試料からの核酸のメチル化配列決定によって決定され、(ii)各断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含む。いくつかの実施形態では、第1の複数の断片は、100以上の無細胞核酸断片、1000以上の無細胞核酸断片、10,000以上の無細胞核酸断片、100,000以上の無細胞核酸断片、1,000,000以上の無細胞核酸断片、または10,000,000以上の核酸断片を含む。
図2Aのブロック204を参照すると、本開示は、癌状態を識別または示す複数の適格なメチル化パターンを同定するためのシステム、方法、およびコンピュータ可読媒体を提供する。上記実施形態では、第1のデータセットが(例えば、電子形態で)取得される。第1のデータセットは、第1の複数の断片中の各断片の対応する断片メチル化パターンを含む。いくつかの実施形態では、各断片(i)の対応する断片メチル化パターンは、1または複数の対象の第1のセット中の対応する対象から得られた各生物学的試料からの核酸のメチル化配列決定によって決定され、(ii)各断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含む。いくつかの実施形態では、第1の複数の断片は、100以上の無細胞核酸断片、1000以上の無細胞核酸断片、10,000以上の無細胞核酸断片、100,000以上の無細胞核酸断片、1,000,000以上の無細胞核酸断片、または10,000,000以上の核酸断片を含む。
1または複数の対象の第1のセットの対象数は、アプリケーションに依存する。例えば、癌状態が起源の組織である場合(例えば、癌状態の起源を識別するのを助ける適格なメチル化パターンを同定すること)、1以上の対象の第1のセットにおける対象の数は、典型的には、癌の特定の起源を有する複数の癌対象である(例えば、それらはすべて肺癌を有し、それらはすべて肝臓癌を有するなど)。いくつかの上記実施形態において、複数の癌試験対象(対象)は、特定の癌の起源を有する5以上の試験対象、10以上の試験対象、20以上の試験対象、30以上の試験対象、40以上の試験対象、50以上の試験対象、100以上の試験対象、200以上の試験対象、500以上の試験対象、1000以上の試験対象、10~10,000の試験対象、または25,000未満の試験対象である。いくつかの上記態様において、複数対象はすべて、同じステージの癌を有する。別の実施形態では、複数の対象は、癌の様々な病期(ステージ)を有する。いくつかの実施形態では、複数の対象は、転移した癌を有する。いくつかの実施形態では、複数対象は、転移していない癌を有する。
別の実施例として、癌状態が癌の非存在または存在である場合(例えば、癌状態の有無を決定するのを助ける適格なメチル化パターンを同定すること)、1または複数の対象の第1のセットにおける対象の数は、典型的には、癌を有する複数の癌対象である(例えば、それらは全て癌を有する、それらは全て試験中の特定の癌を有する、など)。いくつかの上記実施形態において、複数の癌試験対象は、5以上の試験対象、10以上の試験対象、20以上の試験対象、30以上の試験対象、40以上の試験対象、50以上の試験対象、100以上の試験対象、200以上の試験対象、500以上の試験対象、1000以上の試験対象、10~10,000の試験対象、または25,000未満の試験対象である。いくつかの上記実施形態において、複数対象はすべて、同じ病期の癌を有する。別の実施形態では、複数の対象は、癌の様々な病期を有する。いくつかの実施形態では、複数の対象は、転移した癌を有する。いくつかの実施形態では、複数の対象は、転移していない癌を有する。
さらに別の例として、癌状態が特定の癌の病期である場合(例えば、対象が特定の癌状態の特定の病期を有するかどうかを決定するのを助ける適格なメチル化パターンを同定すること)、さらにまた、1または複数の対象の第1のセット中の対象の数は、典型的には、癌状態の病期を有する複数の癌対象である(例えば、全てがII期の乳癌などを有する)。
一方、癌状態が特定の対象の癌状態にプライベート(ユニーク)な断片メチル化パターンを生成するという予想がある場合、1または複数の対象の第1のセットの対象の数は、1の対象である。癌状態が特定の対象の癌状態にプライベート(ユニーク)である断片メチル化パターンを生成すると予想する非限定的な例は、癌状態が腫瘍フラクションである場合である。癌状態が特定の対象の癌状態にプライベート(ユニーク)である断片メチル化パターンを生成すると予想する別の非限定的な例は、癌状態が特定の対象の造血状態に影響される場合である。例えば、癌状態が、特定の対象の癌状態に個人的な(独特の)断片メチル化パターンを生成するという予想がある場合、1または複数の対象の第1のセットは、試験中の単一の対象であり、後にさらに詳細に議論される1または複数の対象の第2のセットは、健康な試験対象のコホートのような参照集団である。
いくつかの実施形態では、対象の第1のセットは単一の対象であり、対象の第2のセットは複数の対象であり、開示された方法を使用して同定されるQMPは、下流側の癌状態分類指標を検査または評価するために使用される。例えば、癌に罹患している対象は、対象の第1のセットを構成し得、対象の第2のセットは、癌状態を有さない対象であり得、開示された方法を用いて同定されたQMPの寄与は、下流側の分類指標において検査され得る。例えば、分類指標は、特定されたQMPの一部または全部を含むか、または含まないように再構築(再トレーニング)することができ、その性能は、癌状態を有する対象および有しない対象のトレーニングコホートを用いて評価される。
試験対象
いくつかの実施形態では、試験中の各対象は、上記で定義された対象の例のいずれかである(定義を参照のこと)。いくつかの実施形態では、対象はヒトである。いくつかの実施形態では、対象の第2のセットは、研究グループであり、1または複数の対象の第1のセットは、研究グループ内の複数の参加者の参加者でもある単一の対象である。例えば、いくつかの実施形態では、第2の対象セットは、CCGA研究からの各参加者である複数の対象である(例えば、以下の実施例1を参照)。
いくつかの実施形態では、試験中の各対象は、上記で定義された対象の例のいずれかである(定義を参照のこと)。いくつかの実施形態では、対象はヒトである。いくつかの実施形態では、対象の第2のセットは、研究グループであり、1または複数の対象の第1のセットは、研究グループ内の複数の参加者の参加者でもある単一の対象である。例えば、いくつかの実施形態では、第2の対象セットは、CCGA研究からの各参加者である複数の対象である(例えば、以下の実施例1を参照)。
生物学的試料
いくつかの実施形態では、本開示において使用される生物学的試料は、上記で定義された生物学的試料の例のいずれかである(「定義」を参照のこと)。例えば、いくつかの態様において、生物学的試料は、組織(例えば、腫瘍生検)である。図2Aのブロック206~210を参照すると、いくつかの実施形態では、対象(例えば、試験対象)から得られる生物学的試料は、液体生物学的試料である。例えば、いくつかの実施形態において、各生物学的試料は、血液試料(例えば、プラズマ、無細胞DNA、および/または白血球)である。いくつかの実施形態では、各生物学的試料は、血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙液、胸膜液、心嚢液、または腹膜液を含む。いくつかの実施形態では、生物学的試料は、細胞源(セルソース)に由来する。いくつかの上記実施形態では、細胞源は、実施例(例えば、以下の実施例7を参照)に詳細に記載される例示的なセルソースのうちのいずれか1つである。
いくつかの実施形態では、本開示において使用される生物学的試料は、上記で定義された生物学的試料の例のいずれかである(「定義」を参照のこと)。例えば、いくつかの態様において、生物学的試料は、組織(例えば、腫瘍生検)である。図2Aのブロック206~210を参照すると、いくつかの実施形態では、対象(例えば、試験対象)から得られる生物学的試料は、液体生物学的試料である。例えば、いくつかの実施形態において、各生物学的試料は、血液試料(例えば、プラズマ、無細胞DNA、および/または白血球)である。いくつかの実施形態では、各生物学的試料は、血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙液、胸膜液、心嚢液、または腹膜液を含む。いくつかの実施形態では、生物学的試料は、細胞源(セルソース)に由来する。いくつかの上記実施形態では、細胞源は、実施例(例えば、以下の実施例7を参照)に詳細に記載される例示的なセルソースのうちのいずれか1つである。
いくつかの実施形態では、生物学的試料は、癌を有する試験対象(例えば、試験対象)または健康な(例えば、非癌)対象から得られる。いくつかの実施形態では、生物学的試料は、腫瘍組織(例えば、癌)または健康な組織(例えば、非癌)から得られる。いくつかの実施形態では、生物学的試料は、保管された試料(例えば、凍結、乾燥、または代替的に保管された組織生検もしくは血液試料)から得られる。
いくつかの実施形態では、生物学的試料は、複数の生物学的試料(例えば、複数の試料を含むプールされた試料)である。複数の生物学的試料は、第1のデータセットを得る前の任意の時点でプールすることができる。例えば、いくつかの実施形態では、複数の生物学的試料をプールすることは、核酸抽出前(例えば、複数の組織および/または液体の生物学的試料をプールすること)、核酸抽出後であるがメチル化配列決定前(例えば、複数の核酸試料をプールすること)、またはメチル化配列決定後(例えば、複数の配列決定アッセイからシーケンシングデータをプールすること)に生じる。図7および9は、本開示のいくつかの実施形態(例えば、以下の実施例2および3を参照)に従って、生物学的試料から配列決定およびメチル化シーケンシングデータを得るための核酸試料を調製するための方法の例示的フローチャートを示す。
メチル化配列決定から得られたデータ
いくつかの実施形態では、データセット120は、任意のサイズであり得、使用される方法、カバレッジ、およびメチル化配列決定の深さに応じて、複数の断片中の各断片および/または複数の断片中の任意の数の断片について、任意の数の対応する断片メチル化パターン124を含む。例えば、ブロック212を参照すると、いくつかの実施例において、対象の第1のセット(対象の第1のセットが単一の対象からなるか、または複数の対象を含む)における対応する対象からのそれぞれの生物学的サンプルのメチル化配列決定は、第1のデータセットに含めることによってメチル化パターンについて評価される5億以上、10億以上、20億以上、30億以上、40億以上、50億以上、60億以上、70億以上、80億以上、90億以上、または、100億以上の核酸フラグメントを生成する。いくつかの代替的な実施形態において、対象の第1のセット中の対応する試験対象からの各生物学的試料のメチル化配列決定は、第1のデータセット(データセット120)に含めることによってメチル化パターンについて評価される10億未満の断片または10,000未満の断片を生成する。
いくつかの実施形態では、データセット120は、任意のサイズであり得、使用される方法、カバレッジ、およびメチル化配列決定の深さに応じて、複数の断片中の各断片および/または複数の断片中の任意の数の断片について、任意の数の対応する断片メチル化パターン124を含む。例えば、ブロック212を参照すると、いくつかの実施例において、対象の第1のセット(対象の第1のセットが単一の対象からなるか、または複数の対象を含む)における対応する対象からのそれぞれの生物学的サンプルのメチル化配列決定は、第1のデータセットに含めることによってメチル化パターンについて評価される5億以上、10億以上、20億以上、30億以上、40億以上、50億以上、60億以上、70億以上、80億以上、90億以上、または、100億以上の核酸フラグメントを生成する。いくつかの代替的な実施形態において、対象の第1のセット中の対応する試験対象からの各生物学的試料のメチル化配列決定は、第1のデータセット(データセット120)に含めることによってメチル化パターンについて評価される10億未満の断片または10,000未満の断片を生成する。
いくつかの実施形態では、各断片の対応する断片メチル化パターンは、メチル化配列決定によって決定され、メチル化配列決定は、各断片に対応する1または複数の配列読み取りを生成する。いくつかの実施形態では、複数の断片は、無細胞核酸である。いくつかの実施形態では、各断片に対応する1または複数の配列読み取りは、対末端(ペアエンド/paired-end)配列読み取りである。いくつかの実施形態では、各断片に対応する1または複数の配列読み取りは、シングルエンド配列読み取りである。
図2Aのブロック214を参照すると、いくつかの実施形態では、メチル化配列決定によって得られる対応する複数の配列読み取りの平均配列読み取り長は、140~280ヌクレオチドである。
ブロック216を参照すると、いくつかの実施形態では、メチル化配列決定は、i)全ゲノムメチル化配列決定、またはii)複数の核酸プローブを使用する標的化DNAメチル化配列決定である。いくつかの実施形態では、メチル化配列決定は、全ゲノム亜硫酸水素配列決定(WGBS)である。
ブロック218~224を参照すると、いくつかの実施形態では、メチル化配列決定は、各断片中の1または複数の5-メチルシトシン(5mC)および/または5-ヒドロキシメチルシトシン(5hmC)を検出する。いくつかの実施形態では、メチル化配列決定は、1または複数の非メチル化シトシンまたは1または複数のメチル化シトシンの対応する1または複数のウラシルへの変換を含む。いくつかの上記実施形態では、1または複数のウラシルは、メチル化配列決定の間に、1または複数の対応するチミンとして検出される。いくつかのそのような実施形態では、1または複数の非メチル化シトシンまたは1または複数のメチル化シトシンの変換は、化成処理、酵素変換、またはそれらの組合せを含む。
図2Aのブロック226を参照すると、いくつかの実施形態では、対応する複数のCpG部位におけるCpG部位のメチル化状態は、CpG部位がメチル化されるメチル化配列決定によって決定されるときにメチル化され、CpG部位がメチル化されないメチル化配列決定によって決定されるときに非メチル化される。いくつかの実施形態では、メチル化状態は「M」として表され、非メチル化状態は「U」として表される。例えば、いくつかの実施形態では、メチル化状態は、非メチル化、メチル化、曖昧(ambiguous)(例えば、基礎となるCpGが、配列読み取りのペアにおける任意の読み取りによってカバーされないことを意味する)、変異体(例えば、読み取りが、参照配列に基づいてその期待される位置で生じるCpGと一致せず、部位での実際の変異体または配列エラーによって引き起こされ得ることを意味する)、またはコンフリクト(競合)(例えば、2つの読み取りが両方ともCpGと重複するが、一致しない場合)を含むことができるが、これらに限定されない。例えば、その全体が参照により本明細書に組み込まれている、2020年12月11日出願の「Cancer classification using patch convolutional neural networks」と題する米国特許出願公開第17/119,606号を参照されたい。
いくつかの実施形態では、メチル化配列決定(例えば、WGBS)は、試験対象のゲノムの全部または一部にわたって、少なくとも1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、少なくとも20x、少なくとも30x、または少なくとも40xのカバレッジ(例えば、配列決定深さ)を生じる。
いくつかの実施形態では、メチル化配列決定(例えば、WGBS)は、複数の断片にわたって少なくとも1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、少なくとも20x、少なくとも30x、または少なくとも40xの平均カバレッジ(例えば、配列決定深さ)を生成する。いくつかの実施形態では、メチル化配列決定(例えば、WGBS)は、データセット120中に表される断片にわたって、少なくとも1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、少なくとも20x、少なくとも30x、または少なくとも40xの平均カバレッジ(例えば、配列決定深さ)を生成する。
いくつかの実施形態では、メチル化配列決定(例えば、標的メチル化またはTM配列決定)は、最大1,000x、2,000x、3,000x、5,000、10,000x、15,000x、20,000x、または約30,000xを含むが、これらに限定されないカバレッジ(coverage)を有する。
いくつかの実施形態では、メチル化配列決定(例えば、標的化メチル化またはTMシーケンシング)は、複数の断片にわたって、最大1,000x、2,000x、3,000x、5,000x、10,000x、15,000x、20,000x、または約30,000xを含むが、これらに限定されない平均カバレッジ(カバー範囲)を有する。いくつかの実施形態では、メチル化配列決定(例えば、WGBS)は、データセット120に表される断片にわたり、最大1,000x、2,000x、3,000x、5,000x、10,000x、15,000x、20,000x、または約30,000xの平均カバレッジ(例、配列決定深さ)を生成する。
いくつかの実施形態では、メチル化配列決定は、30,000xより大きいカバレッジ、例えば、少なくとも40,000xまたは50,000xを有する。その全体が参照により本明細書に組み込まれている、Ziller et al., 2015, “Coverage recommendations for methylation analysis by whole-genome bisulfite sequencing,” Nature Methods. 12(3):230-232, doi:10.1038/nmeth.3152, and Masser et al., 2015, “Targeted DNA Methylation Analysis by Next-generation Sequencing,”J. Vis. Exp. (96), e52488, doi:10.3791/52488を参照のこと。
いくつかの実施形態では、メチル化配列決定は、対末端配列決定または単一末端配列決定である。
いくつかの実施形態では、メチル化配列決定は2値(バイナリ)である。いくつかの実施形態では、メチル化配列決定はセミバイナリである。本明細書で使用される場合、バイナリメチル化配列決定とは、メチル化部位および非メチル化部位の両方に特異的なハイブリダイゼーションプローブを用いて、完全にメチル化および/または完全にメチル化されていないCpG部位を配列決定することを指す。あるいは、本明細書で使用する場合、セミバイナリメチル化配列決定とは、メチル化または非メチル化部位のいずれかに特異的なハイブリダイゼーションプローブを用いて、メチル化または非メチル化のいずれかであるCpG部位を配列決定することを指す。
バイナリプローブを用いて実施されるメチル化配列決定は、カバレッジの深さを改善し、メチル化配列決定データセットにおけるバイアスを低減することができる。したがって、いくつかの実施形態では、WGBSは、バイナリ(二元)プローブを使用して実施される。いくつかの代替的実施形態では、標的化メチル化(TM)配列決定は、バイナリおよび/またはセミバイナリ(半二成分)プローブを使用して行われる。いくつかのそのような実施形態では、データセットから、セミバイナリプローブによって標的化される任意の断片の対応する断片メチル化パターンを除去する(例えば、フィルタリングする)ことによって、全体的なカバーカバレッジの深さが改善される(例えば、セミバイナリプローブを使用して配列決定された断片に対応する配列決定読み取りがフィルタリングされる)。あるいは、いくつかの実施形態では、セミバイナリプローブを用いて配列決定された1または複数の断片は、データセットから除去されず、深さカットオフは、深さカットオフより下の配列決定深さを有する領域(例えば、参照ゲノムの)に重なる任意の断片の対応する断片メチル化パターンがデータセットから除去されるように、第1のデータセットに適用される。例えば、バイナリシーケンシングがより高いカバレッジの深さを提供し、セミバイナリシーケンシングがより低いカバレッジの深さを提供する場合、深さカットオフを適用することは、データセット内の任意の残りの領域が少なくとも最小のカバレッジの深さを含むことを効率的に保証し、それによって、データセット内の全体的なバイアスを低減する。いくつかの実施形態では、深さカットオフは、バイナリ配列決定によって提供される最小カバレッジ深さの推定値、および/またはセミバイナリ配列決定によって提供される最大カバレッジ深さの推定値である。
いくつかの実施形態では、メチル化配列決定(例えば、WGBSおよび/またはTM配列決定)は、組織(例えば、腫瘍生検)または血液試料(例えば、形質、無細胞DNA、および/または白血球)を用いて実施される。
いくつかの実施形態では、複数の断片に対する複数の断片メチル化パターンは、対象のセットにおける対応する対象から得られた各生物学的試料からの核酸の複数のメチル化配列決定によって決定される。例えば、いくつかのそのような実施形態では、複数の断片メチル化パターンは、WGBSおよび標的DNAメチル化配列決定の両方を使用して、各生物学的試料から得られる。
いくつかの実施形態では、本方法は、複数の断片中の各断片についての配列決定データを含むデータセットを得ることをさらに含み、配列決定データは、対応する対象から得られた各生物学的試料からの核酸の1または複数の配列決定アッセイ(例えば、WGS、標的化配列決定)によって決定される。例えば、いくつかの上記実施形態において、1または複数の断片メチル化パターンおよび1または複数の配列決定データセットは、例えば、WGBS、標的化メチル化(TM)配列決定、WGS、標的化配列決定、および/またはそれらの任意の組み合わせを使用して、各生物学的試料から得られる。複数の配列決定および/またはメチル化配列決定データセットの比較を、実施例5および図11に以下に記載する。
メチル化配列決定(例えば、WGBSおよび/または標的化メチル化配列決定)に関するさらなる詳細については、これらのぞれぞれが参照により本明細書に組み込まれる、例えば、2019年3月13日に出願された「Methylation Fragment Anomaly Detection」と題する米国特許公開2019-0287652A1、および「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開2020-0385813 A1を参照されたい。本明細書に開示されているものおよび/またはその任意の変更、置換、もしくは組み合わせを含む、メチル化配列決定のための他の方法は、当業者に明らかなように、断片メチル化パターンを得るために使用することができる。
断片(フラグメント)
いくつかの実施形態では、複数の断片中の各断片は、本明細書に開示されるメチル化配列決定方法のいずれかによって決定されるように、開始位置、終了位置、および開始位置と終了位置との間の各断片内に位置する1または複数のメチル化部位(例えば、CpG部位)を含む。いくつかの実施形態では、開始位置および/または端位置は、メチル化部位または参照(リファレンス)ゲノム中の位置である。いくつかの実施形態では、複数の断片中の各断片は、参照ゲノムに整列される。したがって、いくつかのそのような実施形態では、複数の断片中の各断片中の各メチル化部位は、参照ゲノム中の特定の部位にインデックス付けされる。同様に、複数の断片中の各断片がメチル化部位である開始位置および/または終了位置、および/または開始位置と終了位置との間の各断片内に位置する1または複数のメチル化部位を含む場合、各断片中の各メチル化部位は、参照ゲノム中の特定の部位にインデックス化することができる。
いくつかの実施形態では、複数の断片中の各断片は、本明細書に開示されるメチル化配列決定方法のいずれかによって決定されるように、開始位置、終了位置、および開始位置と終了位置との間の各断片内に位置する1または複数のメチル化部位(例えば、CpG部位)を含む。いくつかの実施形態では、開始位置および/または端位置は、メチル化部位または参照(リファレンス)ゲノム中の位置である。いくつかの実施形態では、複数の断片中の各断片は、参照ゲノムに整列される。したがって、いくつかのそのような実施形態では、複数の断片中の各断片中の各メチル化部位は、参照ゲノム中の特定の部位にインデックス付けされる。同様に、複数の断片中の各断片がメチル化部位である開始位置および/または終了位置、および/または開始位置と終了位置との間の各断片内に位置する1または複数のメチル化部位を含む場合、各断片中の各メチル化部位は、参照ゲノム中の特定の部位にインデックス化することができる。
いくつかの実施形態では、固有の断片は、各断片の1または複数のメチル化部位の各開始位置および終了位置および/またはメチル化状態の配列(例えば、断片メチル化パターン)によって決定される。例えば、いくつかの実施形態では、異なる開始位置および終了位置を有する2つの断片は、断片メチル化パターンが同一であるかまたは異なるかにかかわらず、固有であるとみなされる。いくつかの実施形態では、2つの断片は、開始位置または端位置のうちの1つが2つの断片の間で共有されている場合であっても(例えば、2つの断片が異なる長さであるように、同じ開始位置であるが異なる端位置を有する2つの断片)、ユニークであると見なすことができる。いくつかの代替実施形態では、同一の開始位置および終了位置を有するが、異なる断片メチル化パターンを有する2つの断片は、ユニークであるとみなされる(例えば、「MMMMM」および「UMMMM」のような、CpG部位のスパン内の1または複数のCpG部位に対して異なるメチル化状態を有するが、参照ゲノムの同一領域に配列された2つの断片)。
いくつかの実施形態では、各断片の対応する断片メチル化パターンは、各断片中の対応する複数のCpG部位のうちのすべてより少ないCpG部位のメチル化状態を含み、ここで、各1または複数の断片中の1または複数のCpG部位は、「信頼性がない」と考えられる。例えば、いくつかの実施形態では、「信頼性がない」CpG部位は、変形例、あいまいな、または矛盾したメチル化状態を有するCpG部位、および/またはメチル化配列決定出力不良をもたらすことが知られているCpG部位を含む。いくつかの上記実施形態において、各1または複数の信頼性のないCpG部位は、その後のすべての分析およびプロセスのために、複数の断片から除去される(例えば、欠失される)。例えば、いくつかの実施形態では、欠失は、各データセット中の各複数の断片中の各断片の対応する断片メチル化パターンから、(各1または複数のCpG部位の各1または複数のメチル化状態によって表されるようである)各1または複数のCpG部位を除去することによって行われる。いくつかの代替的な実施形態では、各1または複数の信頼性のないCpG部位は、複数の断片から除去されず、そうでなければ、その後のすべての分析およびプロセスのためにバイパスされる。例えば、いくつかの実施形態では、バイパスは、各信頼性のないCpG部位ごとに、各データセット内の各複数の断片における各断片の対応する断片メチル化パターンにおいて、各CpG部位におけるメチル化状態表現の代わりにプレースホルダーまたは置換表現(substitute representation/代替表現)を挿入することによって行われる。いくつかの実施形態では、プレースホルダまたは置換表現は、例えば、ワイルドカードまたはヌル文字である。
いくつかの実施形態では、複数の断片は、フィルタリングされる。いくつかの実施形態では、複数の断片は、例えば、深さ、最小マッピング品質(MAPQ)、重複断片、未解決断片、未変換断片、多義的(ambiguous)コール(call/呼び出し)、変形例コール、競合コール、および/またはp値についてフィルタリングされる。
いくつかの実施形態では、複数の断片は、重複するCpG部位を含む断片についてフィルタリングされる。いくつかの実施形態では、複数の断片は、代替配列決定方法と読み取りサポート(支持)を共有する断片についてフィルタリングされる。例えば、1または複数のメチル化配列決定データセットおよび1または複数の配列決定データセットが、例えば、WGBS、TM配列決定、WGS、および/または標的化配列決定を使用して各生物学的試料から取得されるいくつかの実施形態では、各データセットが比較され、1または複数のメチル化配列決定データセットが、1または複数の配列決定データセットを使用して決定されるように、小さな変異体、既知のバイオマーカー、および/または癌状態に関連する領域も含まない断片を除去するためにフィルタリングされる。
第1および第2のデータセット
図2Bのブロック228を参照すると、いくつかの実施形態では、第2のデータセットが電子形式で取得される。第2のデータセットは、第2の複数の断片中の各断片の対応する断片メチル化パターンを含む。各断片(i)の対応する断片メチル化パターンは、第2の対象セット中の対応する対象から得られた各生物学的試料からの核酸のメチル化配列決定によって決定され、そして(ii)各断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含む。典型的な実施形態では、対象の第2のセットは、複数の対象(例えば、2以上の対象、3以上の対象、5以上の対象、50以上の対象、100以上の対象、500以上の対象または1000以上の対象)を含む。いくつかの実施形態では、第2の複数の断片は、100以上の無細胞核酸断片、1000以上の無細胞核酸断片、10,000以上の無細胞核酸断片、100,000以上の無細胞核酸断片、1,000,000以上の無細胞核酸断片、または10,000,000以上の核酸断片を含む。
図2Bのブロック228を参照すると、いくつかの実施形態では、第2のデータセットが電子形式で取得される。第2のデータセットは、第2の複数の断片中の各断片の対応する断片メチル化パターンを含む。各断片(i)の対応する断片メチル化パターンは、第2の対象セット中の対応する対象から得られた各生物学的試料からの核酸のメチル化配列決定によって決定され、そして(ii)各断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含む。典型的な実施形態では、対象の第2のセットは、複数の対象(例えば、2以上の対象、3以上の対象、5以上の対象、50以上の対象、100以上の対象、500以上の対象または1000以上の対象)を含む。いくつかの実施形態では、第2の複数の断片は、100以上の無細胞核酸断片、1000以上の無細胞核酸断片、10,000以上の無細胞核酸断片、100,000以上の無細胞核酸断片、1,000,000以上の無細胞核酸断片、または10,000,000以上の核酸断片を含む。
いくつかの実施形態では、第2のデータセットは、本明細書に開示された方法のいずれかを使用して(例えば、第1のデータセットについて記載された方法および/または実施形態のいずれかを使用して)取得される。図2Bのブロック230を参照すると、いくつかの実施形態では、第1の複数の断片(第1のデータセットの)および第2の複数の断片(第2のデータセットの)は、無細胞核酸である。
再び図2Bのブロック228を参照すると、いくつかの実施形態では、(第1のデータセットの)対象の第1のセットの各対象は、癌状態の第1の状態を有し、(第2のデータセットの)対象の第2のセットの各対象は、癌状態の第2の状態を有する。上記で定義したように、様々な実施形態では、癌状態の状態は、適用に依存する。いくつかの実施形態では、癌状態は、対象に癌が存在するか否か(例えば、存在するか否か)である。いくつかの実施形態では、癌状態は、癌の病期、腫瘍の大きさ、転移の有無、身体の総腫瘍量(例えば、腫瘍フラクション)、および/または癌の重症度(例えば、癌の再発)の別の測定値である。いくつかの実施形態では、癌状態の第1の状態は、試料状態(例えば、癌性試料)であり、癌状態の第2の状態は、参照試料(例えば、健康な試料)である。いくつかの実施形態では、癌状態の第1の状態および癌状態の第2の状態は、それぞれ、生物学的試料が収集された初期の時点および後の時点である。いくつかの実施形態では、癌状態は、試験対象の腫瘍フラクション(例えば、1または複数の対象の第1のセットの対象。いくつかの実施形態では、癌状態は、癌起点(例えば、肺、大腸、乳房など)である)である。
状態間隔マップの生成
図2Cのブロック232を参照すると、いくつかの実施形態では、第1のデータセットを使用して、1または複数の対応するゲノム領域について、1または複数の第1の状態間隔マップが生成される。1または複数の第1の状態間隔マップ内の各第1の状態間隔マップは、対応する独立した複数のノードを備える。いくつかの実施形態では、対象の第1のセットについて1つの状態間隔マップのみが存在し、この状態間隔マップは、試験中のゲノムの領域の全体(例えば、ゲノムの全部または一部)を表す。他の実施形態では、1または複数の対象の第1のセットについて、いくつかの状態間隔マップが存在する。このような場合、典型的には、各状態間隔マップは、ゲノムの異なる領域を表す。例えば、いくつかの実施形態では、各状態間隔マップは、異なる染色体を表す。いくつかの実施形態では、2、3、4、5、6、7、8、9、10、2~30、または30を超える状態間隔マップが、第1のデータセット中のメチル化データを使用して生成される。典型的な実施形態では、上記各状態間隔マップは、参照ゲノムの異なる部分を表す。例えば、いくつかの実施形態では、上記各状態間隔マップは、異なる染色体を表す。
図2Cのブロック232を参照すると、いくつかの実施形態では、第1のデータセットを使用して、1または複数の対応するゲノム領域について、1または複数の第1の状態間隔マップが生成される。1または複数の第1の状態間隔マップ内の各第1の状態間隔マップは、対応する独立した複数のノードを備える。いくつかの実施形態では、対象の第1のセットについて1つの状態間隔マップのみが存在し、この状態間隔マップは、試験中のゲノムの領域の全体(例えば、ゲノムの全部または一部)を表す。他の実施形態では、1または複数の対象の第1のセットについて、いくつかの状態間隔マップが存在する。このような場合、典型的には、各状態間隔マップは、ゲノムの異なる領域を表す。例えば、いくつかの実施形態では、各状態間隔マップは、異なる染色体を表す。いくつかの実施形態では、2、3、4、5、6、7、8、9、10、2~30、または30を超える状態間隔マップが、第1のデータセット中のメチル化データを使用して生成される。典型的な実施形態では、上記各状態間隔マップは、参照ゲノムの異なる部分を表す。例えば、いくつかの実施形態では、上記各状態間隔マップは、異なる染色体を表す。
生成された単一の状態間隔マップまたは複数の状態間隔マップがあるかどうかにかかわらず、1または複数の第1の状態間隔マップ内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および各ノードの対応する開始メチル化部位と対応する終了メチル化部位との間の第1のデータセット内の第1の複数の断片にわたって観察される各異なる断片メチル化パターンによって特徴づけられ、(i)異なる断片メチル化パターンの表現(representation)、および(ii)断片メチル化パターンが対応する開始メチル化部位で開始し、対応する終了メチル化部位で終了し、異なる断片メチル化パターンを有する第1のデータセット内の断片のカウント。
間隔マップで表されるゲノム領域。
いくつかの実施形態では、1または複数の第1の状態間隔マップ内の各間隔マップは、(例えば、参照ゲノム内の)ゲノム領域に対応する。したがって、各ゲノム領域に対応する各間隔マップについて、各間隔マップで表される断片メチル化パターンを有する第1のデータセット中の第1の複数の断片中の各断片は、同じ各ゲノム領域にも対応する(例えば、断片は、間隔マップに対応する参照ゲノムの同じ領域に整列される)。
いくつかの実施形態では、1または複数の第1の状態間隔マップ内の各間隔マップは、(例えば、参照ゲノム内の)ゲノム領域に対応する。したがって、各ゲノム領域に対応する各間隔マップについて、各間隔マップで表される断片メチル化パターンを有する第1のデータセット中の第1の複数の断片中の各断片は、同じ各ゲノム領域にも対応する(例えば、断片は、間隔マップに対応する参照ゲノムの同じ領域に整列される)。
いくつかの実施形態では、1または複数の第1の状態間隔マップは、1または複数の固有のゲノム領域および/または1または複数の重複ゲノム領域に対応する。いくつかの実施形態では、1または複数の第1の状態間隔マップは、同じゲノム領域に対応する。いくつかの実施形態では、1または複数の第1の状態間隔マップは、複数の第1の状態間隔マップであり、1または複数の対応するゲノム領域は、複数のゲノム領域であり、複数のゲノム領域内の各ゲノム領域は、複数の第1の状態間隔マップ内の第1の状態間隔マップによって表される。いくつかの実施形態では、複数のゲノム領域は、10~30である。いくつかの上記実施形態では、複数のゲノム領域は、2~1000のゲノム領域、500~5000のゲノム領域、1000~20,000のゲノム領域、または5000~50,000のゲノム領域からなる。
いくつかの実施形態では、1または複数の第1の状態間隔マップは、同じサイズまたは異なるサイズ、数または量(例えば、CpG部位の数および/または塩基対の数である長さとして表される)のゲノム領域に対応する。例えば、ブロック234~238を参照すると、いくつかの実施形態では、1または複数の対応するゲノム領域にわたって10,000を超えるCpG部位、25,000を超えるCpG部位、50,000を超えるCpG部位、または80,000を超えるCpG部位が存在する。いくつかの代替的実施形態では、1または複数の対応するゲノム領域にわたって、10,000未満のCpG部位、25,000未満のCpG部位、50,000未満のCpG部位、または80,000未満のCpG部位が存在する。いくつかの実施形態では、1または複数の対応するゲノム領域の各ゲノム領域は、ヒトゲノム参照配列の500塩基対から10,000塩基対の間を表す。いくつかの実施形態では、間隔マップは、参照ゲノムの所定の領域内のすべての既知のCpG部位を表す。いくつかの実施形態では、間隔マップは、参照ゲノムの所定の領域における既知のCpG部位のサブセットのみを表す。いくつかの実施形態では、特定の間隔マップに対する1または複数の対応するゲノム領域内の各ゲノム領域は、ヒトゲノム参照配列の500塩基対から2000塩基対の間を表す。いくつかの代替的実施形態では、特定の間隔マップに対する1または複数の対応するゲノム領域内の各ゲノム領域は、ヒトゲノム参照配列の500塩基対未満または10,000塩基対超を表す。
図2Cのブロック240を参照すると、いくつかの実施形態では、特定の間隔マップに対する1または複数の対応するゲノム領域内の各ゲノム領域は、ヒトゲノム参照配列の異なる部分を表す。例えば、いくつかの上記実施形態では、特定の間隔マップに対する1または複数の対応するゲノム領域内の各ゲノム領域は、異なるヒト染色体である。いくつかの実施形態では、ヒトゲノム参照配列の各部分は、各1または複数の間隔マップによって表される。
ノード構築物(Node Construction)
上述のように、1または複数の第1の状態間隔マップ内の各第1の状態間隔マップは、独立した複数のノードを含む。各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および各ノードの各開始および終了メチル化部位で開始および終了する第1のデータセット内の複数の断片における各異なる断片メチル化パターンの表示およびカウントによってそれぞれ特徴付けられる。いくつかの実施形態では、独立した複数のノードは、2つ以上のノード、3つ以上のノード、4つ以上のノード、5つ以上のノード、10つ以上のノード、20つ以上のノード、50つ以上のノード、または100つ以上のノードを含む。
上述のように、1または複数の第1の状態間隔マップ内の各第1の状態間隔マップは、独立した複数のノードを含む。各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および各ノードの各開始および終了メチル化部位で開始および終了する第1のデータセット内の複数の断片における各異なる断片メチル化パターンの表示およびカウントによってそれぞれ特徴付けられる。いくつかの実施形態では、独立した複数のノードは、2つ以上のノード、3つ以上のノード、4つ以上のノード、5つ以上のノード、10つ以上のノード、20つ以上のノード、50つ以上のノード、または100つ以上のノードを含む。
いくつかの実施形態では、独立した複数のノード内の各ノードの具体的な開始および終了メチル化部位は、参照ゲノム内の位置(例えば、ゲノム領域および/またはCpG部位内の位置)に索引付けされる。したがって、いくつかの好ましい実施形態では、各第1の状態間隔マップ内の各ノードは、各1または複数の断片の開始および終了メチル化部位に基づいて、第1のデータセット内の複数の断片内の1または複数の断片をグループ化することによって構築され(例えば、断片が参照ゲノムに整列され、各断片参照ゲノム内の位置にインデックスされる開始および終了メチル化部位を含む)、各ノードに含まれる各断片はノード内に完全に含まれる。
いくつかの好ましい実施形態において、各ノードの開始および終了メチル化部位に対応する開始および終了メチル化部位を含まない断片(例えば、各ノード内に部分的に含有されるか、または各ノードと重複する断片、および/または各ノードより小さいか、または大きい断片)は、各ノードにおいて表されない。
したがって、本明細書に記載されるようなそのような実施において、断片は、例えば、CpG部位のインデックスにおけるそれらのゲノム座標または位置によって同定される、CpG部位の配列を含む断片レベルのノードに変換される。
いくつかの実施形態では、「ユニーク(unique)」と考えられる(例えば、異なる開始および終了メチル化部位および/または異なるメチル化パターンを有する)断片は、異なる各ノードに配置される。
いくつかの実施形態では、各ノード中の各断片中の各CpG部位(例えば、メチル化:「M」、非メチル化:「U」)の状態は、さらに、各ノード中に含まれる1または複数の異なる断片メチル化パターンによって表される。いくつかの好ましい実装形態では、各ノードに表される各異なる断片メチル化パターンは、ノード内の各1または複数の断片の断片メチル化パターン全体に対応する(例えば、各断片がノードの開始位置および終了位置で開始および終了し、対応する断片メチル化パターンがノード内に完全に含まれる)。
いくつかの実施形態では、ノードは、各ノードにおける各断片の断片メチル化パターンに基づいて1または複数の断片をグループ化することによって構築される。
いくつかの実施形態では、ノードは、対応する開始メチル化部位と、各ノードの対応する終了メチル化部位との間および/またはそれらを含む同一の断片メチル化パターンを有する1または複数の断片をグループ化することによって構築される。例えば、いくつかの実施形態では、参照ゲノム中の特定の開始位置および終了位置に対応する第1の開始メチル化部位および第1の終了メチル化部位をそれぞれ含む第1の断片セットは、第1のノードにグループ化される。いくつかのそのような実施形態では、第2の複数の断片の断片メチル化パターンがCpG部位の配列中の1または複数のCpG部位における第1の複数の断片の断片メチル化パターンと異なる場合、第1の開始メチル化部位および第1の終了メチル化部位とそれぞれ参照ゲノム中の同じ位置に対応する第2の開始メチル化部位および第2の終了メチル化部位を含む第2の複数の断片は、それにもかかわらず、第2のノードにグループ化される。したがって、いくつかの上記実施形態では、各ノードの開始メチル化部位および終了メチル化部位で開始および終了し、かつ特異的断片メチル化パターンを含む断片のみが、ノードに充填される。
いくつかの実施形態では、ノードは、各ノードの対応する開始メチル化部位と対応する終了メチル化部位との間および/またはそれらを含む異なる断片メチル化パターンを有する1または複数の断片をグループ化することによって構築される。いくつかの上記実施形態において、ノードは、1、2、3、4、5、6、7、8、9、10、または10を超えるCpG部位状態(例えば、1または複数のCpG部位で異なるメチル化状態を有する)だけ異なる1または複数の断片をグループ化することによって構築される。いくつかのそのような実施形態において、ノードは、各1または複数の断片メチル化パターンが10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%異なる1または複数の断片をグループ化することによって構築される。
いくつかの実施形態では、ノードは、1または複数のCpG部位において異なるCpG状態を有する1または複数の断片をグループ化することによって構築され、ここで、各1または複数のCpG部位は、各1または複数の断片にわたって対応しない位置に位置する。いくつかの代替的な実施形態では、ノードは、CpG状態が1または複数のCpG部位で異なる1または複数の断片をグループ化することによって構築され、ここで、各1または複数のCpG部位は、各1または複数の断片にわたる対応する位置に位置する。例えば、いくつかの上記実施形態では、例えば、第1のCpG部位におけるメチル化状態にかかわらず、1または複数の断片をノードに含めることができ、一方、残りのすべてのCpG部位におけるメチル化状態は同一でなければならない。いくつかの上記実施形態では、すべての断片にわたって異なることが許可されるCpG部位は、間隔マップ内のプレースホルダまたは代替表現(例えば、ワイルドカードまたはヌル文字)によって表される。
いくつかの実施形態では、各第1の状態間隔マップに対する独立した複数のノードは、各第1の状態間隔マップの各対応するゲノム領域にも対応する。いくつかの上記実施形態では、各第1の状態間隔マップに対する各独立した複数のノードは、各独立した複数のノードの特性(例えば、開始および終了メチル化部位および/または表された断片メチル化パターン)によって決定されるように、任意の他の第1の状態間隔マップに対する任意の他の独立した複数のノードから固有である(例えば、独立している)。
いくつかの実施形態では、ノードは、1または複数のCpG部位を含む対応するゲノム領域またはサブ領域を表す。いくつかの実施形態では、ノードは、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20または20を超えるCpG部位を含む対応するゲノム領域またはサブ領域を表す。いくつかの実施形態では、ノードは、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20または20を超える隣接CpG部位を含む対応するゲノム領域またはサブ領域を表す。いくつかの実施形態では、ノードは、ヒト参照ゲノム中の2~100個の隣接するCpG部位を含む対応するゲノム領域またはサブ領域を表す。
図12は、本開示のいくつかの実施形態による、2つの例示的ノードを含む各間隔マップを示す。図12では、4つの独立した断片が2つのノードに編成されている。各ノードは、開始メチル化部位および終了メチル化部位(例えば、ノード1:位置0~4、ノード2:位置0~5)と、各断片の開始位置と端位置との間のデータセットにおいて観察される各メチル化パターンの表現(例えば、ノード1:UMMU、UMMU、ノード2:UMMUM、UMUUU)とを含む。この実施例では、開始および終了メチル化部位を示す位置は間隔[開始、端部)として表され、ここで、オープン(開)ブラケットは包括性を示し、クローズド(閉)ブラケットは排他性を示す。したがって、図12に示すように、位置[0,4)にまたがるノードは、位置0、1、2、および3に位置するCpG部位を含み、位置0、1、2、および3のそれぞれは、対応するゲノム位置を有する。同様に、位置[0,5)にまたがるノードは、位置0、1、2、3、および4に位置するCpG部位を含み、位置0、1、2、3、および4のそれぞれは、対応するゲノム位置を有する。いくつかの実施形態では、ノード内のゲノム位置は、隣接するCpG部位の位置に対応する。
ノード1の各断片は、同一の開始および終了メチル化部位(例えば、位置0および位置3に位置する)を含む。ノード2の各断片はまた、同じ開始および終了メチル化部位(例えば、位置0および位置4に位置する)を含む。ノード1の各断片は、いくつかの実施形態に従って同じ断片メチル化パターン(例えば、UMMU)を含むが、ノード2の各断片は、本開示のいくつかの代替実施形態に従って、異なる断片メチル化パターン(例えば、UMMUMおよびUMUUU)を含む。
各ノードは、ノード内に存在する各異なる断片メチル化パターンを含む断片のカウントをさらに含む。例えば、ノード1は、それぞれが同じ断片メチル化パターン(例えば、状態: UMMU、カウント:2)を含む2つの断片を含み、ノード2は、それぞれが固有の断片メチル化パターン(例えば、状態:UMMUM、カウント:1、状態:UMUUU、カウント:1)を含む2つの断片を含む。したがって、間隔マップ内の各ノードは、データセット内のメチル化配列情報を簡略化された容易に検索可能なフォーマットで効率的に提示する。
いくつかの実施形態では、第1のデータセット中の第1の複数の断片中の各断片は、1または複数の第1の状態間隔マップ中のノード中で(例えば、各断片の断片メチル化パターンの表現として)表される。
いくつかの上記実施形態では、1または複数の間隔マップは、したがって、データセット内の複数の断片内のすべての断片のメチル化状態に関して無損失であるデータセット(例えば、メチル化配列決定データセット)の低減された表現を提供する。いくつかの好ましい実施形態では、1または複数の間隔マップは、計算的に処理可能な方法(例えば、テキストマッチング)で、リソース発見のための大規模データセットを照会するために使用される、低減された表現を提供する。
間隔マップの生成方法
上記では、メチル化配列決定データセットからの断片データを用いて間隔マップのためのノードを構築する説明を提供するが、間隔マップを生成するための複数の実装が可能である。
上記では、メチル化配列決定データセットからの断片データを用いて間隔マップのためのノードを構築する説明を提供するが、間隔マップを生成するための複数の実装が可能である。
例えば、いくつかの実施形態では、1または複数の第1の状態間隔マップ内の各間隔マップの対応する独立した複数のノードは、1または複数の対応するゲノム領域内の対応する領域を表す対応するツリーとして配置される。各間隔マップに対する対応する独立した複数のノード内の各ノードは、対応するゲノム領域のサブ領域を表す。
いくつかの実施形態では、各対応するツリーは、対応する独立した複数のノードを対応する複数のリーフに配置し、対応する複数のリーフ内の各リーフの親ノードは、1または複数の子ノードを参照する。
いくつかの実施形態では、各間隔マップの独立した複数のノードは、マスターノードおよび複数のワーカーノード、および/または属性値(attribute value)をDHTキー(鍵)にマッピングすることによってオブジェクト記憶およびルックアップを管理するために分散ハッシュテーブル(DHT)を利用する、構造化または非構造化ピアツーピア(Peer-to-Peer)リソース発見骨格(ディスカバリー フレームワーク)(例えば、MAAN、SWORD、Mercury、Brunet、Chord、CAN、および/またはPastry)と、を含むクライアント/サーバリソース発見骨格を使用して構築される。
いくつかの好ましい実施形態では、ツリーは、ランダム化表面積ヒューリスティックを有するKdツリーの一次元版である。例えば、その全体が参照により本明細書に組み込まれている、Wald, 2007, “On Fast Construction of SAH-based Bounding Volume Hierarchies,” IEEE, doi:10.1109/RT.2007.4342588を参照されたい。いくつかの実施形態では、ツリーは自己組織化再帰的分割マルチキャストツリー(self-organizing recursive-partitioning multicast tree)である。
いくつかの実施形態では、ツリーは、MatchTree(マッチツリー)を使用して作成される。MatchTreeは、分散問合せ処理(例えば、メチル化状態パターンを含む間隔(インターバル)とゲノム配列および/または配列決定データセットとのテキストマッチング)および結果の集約(例えば、問合せられた(クエリ―)メチル化状態パターンを含む間隔の同定)のための自己組織化ツリーを作成する、構造化されていないP2Pベースのリソース発見フレームワークである。ツリー構造は、高い管理コスト、スケーラビリティの制限、およびマスターノードの障害に起因するリソースへのアクセスの損失を被る代替方法の障害を最小限に抑える。MatchTreeはさらに、複雑なクエリ、部分文字列(ストリング)(例えば、部分文字列)マッチング、および/または正規表現マッチング(例えば、ワイルドカード)、クエリの完全性(例えば、利用可能なすべての資源の完全な検索)を保証(サポート)することによって、構造化P2Pフレームワークよりも利点を提供する。例えば、その全体が参照により本明細書に組み込まれているLee et al., 2013, “MatchTree: Flexible, scalable, and fault-tolerant wide-area resource discovery with distributed matchmaking and aggregation,” Fut Gen Comp Sys 29, 1596-1610を参照されたい。
いくつかの実施形態では、間隔マップは、当業者に明らかなように、本明細書に記載される方法および実施形態のいずれか、またはそれらの任意の修正、置換、または組合せを使用して生成される。注目すべきことに、メチル化パターンの同定のための間隔マップの使用は、メチル化パターン同定の感度(例えば、クエリ完全性)および精度(例えば、照合)の両方を改善することによって、従来の方法よりも利点を提供する。さらに、計算負荷を減らすことによって(例えば、MatchTreeが代替フレームワーク上でより少ないメモリを必要とする場合)、間隔マップは、メチル化パターンの探索および識別の間の待ち時間(latency)を減らし、効率を改善することができ、したがって、(例えば、WGSおよび/またはWGBSによって生成された大規模な配列決定またはメチル化配列決定データセットを使用する場合に)大規模なデータセットを取り扱う際に、重大な利益を提供する。
間隔マップ(例えば、MatchTree)を使用したクエリの伝播および結果の集約は、本開示の後のセクションで詳細に論じられ、例えば、その全体が参照により本明細書に組み込まれる、Lee et al., 2013, “MatchTree: Flexible, scalable, and fault-tolerant wide-area resource discovery with distributed matchmaking and aggregation,” Fut Gen Comp Sys 29, 1596-1610に記載されている。
第1および第2の状態間隔マップ
図2Dのブロック242を参照すると、いくつかの実施形態では、第2のデータセットを使用して、1または複数の対応するゲノム領域について、1または複数の第2の状態間隔マップが生成される。1または複数の第2の状態間隔マップ内の各第2の状態間隔マップは、対応する独立した複数のノードを備える。1または複数の第2の状態間隔マップ内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および対応する開始メチル化部位と各ノードの対応する終了メチル化部位との間の第2のデータセット内の第2の複数の断片にわたって観察される各異なる断片メチル化パターン、(i)異なる断片メチル化パターンの表現、および(ii)対応する開始メチル化部位で開始し、対応する終了メチル化部位で終了し、異なる断片メチル化パターンを有する第2のデータセット内の断片のカウントによって特徴づけられる。
図2Dのブロック242を参照すると、いくつかの実施形態では、第2のデータセットを使用して、1または複数の対応するゲノム領域について、1または複数の第2の状態間隔マップが生成される。1または複数の第2の状態間隔マップ内の各第2の状態間隔マップは、対応する独立した複数のノードを備える。1または複数の第2の状態間隔マップ内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および対応する開始メチル化部位と各ノードの対応する終了メチル化部位との間の第2のデータセット内の第2の複数の断片にわたって観察される各異なる断片メチル化パターン、(i)異なる断片メチル化パターンの表現、および(ii)対応する開始メチル化部位で開始し、対応する終了メチル化部位で終了し、異なる断片メチル化パターンを有する第2のデータセット内の断片のカウントによって特徴づけられる。
いくつかの実施形態では、1または複数の第2の状態間隔マップは、本明細書に開示される方法のいずれかを使用して(例えば、1または複数の第1の状態間隔マップについて説明される方法および/または実施形態のいずれかを使用して)生成される。
いくつかの実施形態では、1または複数の第1の状態間隔マップおよび/または1または複数の第2の状態間隔マップは、各データセットからの各複数の断片における1または複数の断片メチル化パターンを表し、ここで、各データセットは、癌サンプルから取得される(例えば、1または複数の第1および/または第2の間隔マップは、癌データセットを使用して生成される)。いくつかの実施形態では、1または複数の第1の状態間隔マップおよび/または1または複数の第2の状態間隔マップは、各データセットからの各複数の断片における1または複数の断片メチル化パターンを表し、ここで、各データセットは、非癌サンプルから取得される(例えば、1または複数の第1および/または第2の間隔マップは、非癌データセットを使用して生成される)。
いくつかの実施形態では、1または複数の第1の状態間隔マップは、癌データセットを使用して生成され、1または複数の第2の状態間隔マップは、非癌データセットを使用して生成される。あるいは、いくつかの実施形態では、1または複数の第1の状態間隔マップは、非癌データセットを使用して生成され、1または複数の第2の状態間隔マップは、癌データセットを使用して生成される。いくつかの実施形態では、第1の癌状態(例えば、癌/非癌、癌サブタイプ、癌の病期、および/または起源組織)のためのデータセットを用いて1または複数の第1状態間隔マップが生成され、第1の癌状態とは異なる第2の癌状態のためのデータセットを用いて1または複数の第2状態間隔マップが生成される。
いくつかの実施形態では、各生物学的試料は、各1または複数の間隔マップによって表される。いくつかの実施形態では、各試験対象は、各1または複数の間隔マップによって表される。いくつかの代替的な実施形態では、複数の生物学的試料および/または試験対象のセットは、各1または複数の間隔マップによって表される(例えば、研究グループ内の複数の生物学的試料および/または試験対象のセットがプールされる場合)。
例えば、ブロック244を参照すると、いくつかの実施形態では、1または複数の第1の状態間隔マップは、1つの第1の状態間隔マップから構成され、1または複数の第2の状態間隔マップは、1つの第2の状態間隔マップから構成される。
ブロック246を参照すると、いくつかの好ましい実施形態では、1または複数の第1の状態間隔マップは、複数の第1の状態間隔マップである。さらに、1または複数の第2の状態間隔マップは、複数の第2の状態間隔マップである。さらに、1または複数の対応するゲノム領域は、複数のゲノム領域である。複数のゲノム領域内の各ゲノム領域は、第1の複数の間隔マップ内の第1の状態間隔マップおよび第2の複数の間隔マップ内の第2の状態間隔マップによって表される。
図2Dのブロック248~252を参照すると、いくつかの上記実施形態では、複数のゲノム領域は、10~30のゲノム領域である。いくつかの上記態様において、複数のゲノム領域中の各ゲノム領域は、異なるヒト染色体である。いくつかの上記実施形態では、複数のゲノム領域は、2~1000のゲノム領域、500~5000のゲノム領域、1000~20,000のゲノム領域、または5000~50,000のゲノム領域からなる。
いくつかの実施形態では、複数の第1および/または第2の状態間隔マップに対応する複数のゲノム領域は、本明細書に開示されるメチル化配列決定のための方法のいずれかを使用して取得される。例えば、図2Dのブロック254を参照すると、いくつかの好ましい実施形態では、第1のデータセットを取得し、第2のデータセットを取得するメチル化配列決定は、複数のプローブを使用して標的配列決定され、複数のゲノム領域内の各ゲノム領域は、複数のプローブ内のプローブに関連付けられる。
適格なメチル化パターンの同定
ブロック256を参照すると、いくつかの実施形態では、1または複数の第1の間隔マップおよび1または複数の第2の間隔マップは、複数の適格なメチル化パターンについてスキャンされる。複数の適格なメチル化パターンにおける上記適格なメチル化パターンの各々は、(i)所定のCpG部位数範囲にある長さを有し、1または複数の第1の間隔マップおよび1または複数の第2の間隔マップの断片メチル化パターン内にあり、(ii)1または複数の選択基準を満たし、(iii)対応する初期CpG部位と対応する最終CpG部位との間の対応するCpG間隔lに及ぶ。このスキャンの結果、癌状態を識別または示す複数の適格なメチル化パターンが同定される。選択基準、クエリメチル化パターン、および癌状態を識別または示す同定されたメチル化パターンに対する間隔マップを用いて、適格なメチル化パターンを同定するための詳細な実施形態を以下に記載する。
ブロック256を参照すると、いくつかの実施形態では、1または複数の第1の間隔マップおよび1または複数の第2の間隔マップは、複数の適格なメチル化パターンについてスキャンされる。複数の適格なメチル化パターンにおける上記適格なメチル化パターンの各々は、(i)所定のCpG部位数範囲にある長さを有し、1または複数の第1の間隔マップおよび1または複数の第2の間隔マップの断片メチル化パターン内にあり、(ii)1または複数の選択基準を満たし、(iii)対応する初期CpG部位と対応する最終CpG部位との間の対応するCpG間隔lに及ぶ。このスキャンの結果、癌状態を識別または示す複数の適格なメチル化パターンが同定される。選択基準、クエリメチル化パターン、および癌状態を識別または示す同定されたメチル化パターンに対する間隔マップを用いて、適格なメチル化パターンを同定するための詳細な実施形態を以下に記載する。
メチル化パターンの適格性確認(適格なメチル化パターン)のための選択基準
いくつかの実施形態では、癌状態(例えば、癌状態の第1の状態と癌状態の第2の状態とを識別する)を識別または示す複数の適格なメチル化パターンの同定は、第1の癌状態と第2の癌状態との間で差異的に存在する1または複数のメチル化パターンを同定することを含む。言い換えれば、いくつかの実施形態では、適格なメチル化パターンは、CpG部位の配列中の1または複数のCpG部位が第一および第2の癌状態の間で異なるメチル化状態を有する、特定のゲノム領域またはサブ領域に対応するCpG部位の配列を含む。いくつかの上記実施形態において、メチル化パターンが第1および第2の癌状態(例えば、選択基準)の間で差次的に存在する程度が、メチル化パターンが適格なメチル化パターンであるかどうかを決定する。
いくつかの実施形態では、癌状態(例えば、癌状態の第1の状態と癌状態の第2の状態とを識別する)を識別または示す複数の適格なメチル化パターンの同定は、第1の癌状態と第2の癌状態との間で差異的に存在する1または複数のメチル化パターンを同定することを含む。言い換えれば、いくつかの実施形態では、適格なメチル化パターンは、CpG部位の配列中の1または複数のCpG部位が第一および第2の癌状態の間で異なるメチル化状態を有する、特定のゲノム領域またはサブ領域に対応するCpG部位の配列を含む。いくつかの上記実施形態において、メチル化パターンが第1および第2の癌状態(例えば、選択基準)の間で差次的に存在する程度が、メチル化パターンが適格なメチル化パターンであるかどうかを決定する。
例えば、図2Eのブロック258を参照すると、いくつかの実施形態では、1または複数の選択基準は、メチル化パターン(i)が、第1の頻度閾値を満たす第1の頻度を有する1または複数の第1の間隔マップにおいて表され、(ii)第1の状態深さを満たすカバレッジを有する1または複数の第1の間隔マップにおいて表され、(iii)第2の頻度閾値を満たす第2の頻度を有する1または複数の第2の間隔マップにおいて表されることを特定する。
具体的には、ブロック260を参照すると、いくつかの上記実施形態では、(i)メチル化パターンは、1または複数の第1の間隔マップ内のメチル化パターンの頻度が第1の頻度閾値を超える場合に、第1の頻度閾値を満たす第1の頻度を有する1または複数の第1の間隔マップ内で表される。さらに、(ii)メチル化パターンは、1または複数の第1の間隔マップ中のメチル化パターンを包含する配列読み取りのカバレッジが第1の状態深さを超えるときに、第1の状態深さを満たすカバレッジを有する1または複数の第1の間隔マップ中で表される。最後に、(iii)メチル化パターンは、1または複数の第2の間隔マップ内のメチル化パターンの頻度が第2の頻度閾値未満である場合に、第2の頻度閾値を満たす第2の頻度を有する1または複数の第2の間隔マップ内に表される。
例えば、いくつかの上記実施形態では、メチル化パターンは、所与の第1の閾値を上回る頻度で、第1のデータセットの第1の複数の断片(例えば、1または複数の第1の間隔マップによって表されるようである)中に存在しなければならず、ここで、各メチル化パターンに対応するゲノム領域における第1のデータセットのカバレッジ深さ(例えば、配列決定深さ)は、(例えば、各メチル化パターンの各1または複数のCpG部位にわたって)所与の深さを上回っている。逆に、同じメチル化パターンが、所与の第2の閾値を下回る頻度で、第2のデータセットの第2の複数の断片(例えば、1または複数の第2の間隔マップによって表されるようである)中に存在しなければならない。これらの制約を満たすメチル化パターンは、いくつかの実施形態では、適格なメチル化パターンとみなされる。
いくつかの実施形態では、頻度は、各メチル化パターンを含む複数の断片中の断片の数(例えば、各メチル化パターンに対応するゲノム領域におけるカバレッジ深さ)によって正規化された、各データセット中の複数の断片中でメチル化パターンが観察される数(頻度)である。いくつかの実施形態では、メチル化パターンの頻度および/またはメチル化パターンが各データセット中で観察される回数は、各対応するゲノム領域中の各CpG部位に識別子を割り当てることによって集計される。
特定の例示的な実施形態では、上記の計算は、選択基準に対する制約を定義するために使用される。例えば、ブロック262を参照すると、いくつかの実施形態では、第1の頻度閾値は0.2であり、第1の状態深さは10であり、第2の頻度閾値は0.001である。
いくつかの実施形態では、第1の頻度閾値は、0.05と0.40との間の値(例えば、0.05、0.06、0.07、0.08、0.09、0.10、0.11、0.12、0.13、0.14、0.15、0.16、0.17、0.18、0.19、0.20、0.21、0.22、0.23、0.24、0.25、0.26、0.27、0.28、0.29、0.30、0.31、0.32、0.33、0.34、0.35、0.36、0.37、0.39、または0.40)であり、第1の状態深さは2と100との間であり、第2の頻度閾値は、0.05未満(例えば、0.05、0.04、0.03、0.02、0.01、0.005、0.004、0.001、0.0001等)である。
いくつかの実施形態では、各第1および/または第2のデータセットにおける第1および/または第2の複数の断片のカバレッジ深さは、既知である。いくつかの実施形態では、各第1および/または第2のデータセット内の第1および/または第2の複数の断片は、正の整数であるカバレッジ深さを有する。
いくつかの実施形態では、ブロック264を参照すると、いくつかの実施形態では、各メチル化パターンは、3、4、5または6を超えるメチル化パターンについて、式:
のときに選択基準を満たし、ここで、第2のカウントは、1または複数の第2の状態間隔マップにおける各メチル化パターンのカウントであり、第2の状態深さは、1または複数の第2の状態間隔マップにおける各メチル化パターンによって表されるゲノムの1の領域または複数の領域における第2のデータセットによるカバレッジである。
対応する初期CpG部位および対応する最終CpG部位によって境界付けされたゲノムの単一領域を表す単一の第2の状態間隔マップが存在する場合、第2のカウントは、単一の第2の状態間隔マップにおける各メチル化パターンのカウントであり、第2の状態深さは、単一の第2の状態間隔マップの対応する初期CpG部位および対応する最終CpG部位にまたがる第2のデータセットにおける断片の総数である。
複数の第2の状態間隔マップがあり、それぞれが対応する初期(initial)CpG部位と対応する最終(final)CpG部位とによって境界付けられたゲノムの対応する領域を表す場合、第2のカウントは、複数の単一の第2の状態間隔マップにわたる各メチル化パターンのカウントの合計である。さらに、第2の状態深度は、複数の第2の状態間隔マップ内の任意の第2の状態間隔マップに関連する対応する初期CpG部位および対応する最終CpG部位に及ぶ第2のデータセット内の断片の総数である。
いくつかの実施形態では、単一の状態間隔マップが存在する。いくつかの実施形態では、2つから100の間の状態間隔マップが存在する。いくつかの実施形態では、異なる染色体ごとに異なる状態間隔マップが存在する。
いくつかの実施形態では、例えば、第1および/または第2のデータセットが、1または複数のプールされたメチル化配列決定データセットおよび/または固定された、またはそうでなければ非限定的なカバレッジ深さを有する確立されたコントロールデータセットを含む場合、カバレッジ深さは、選択基準を満たすためにメチル化パターンの深さ閾値(深さしきい値)を超える必要はない。
適格なメチル化パターンの他の特徴
いくつかの実施形態では、適格なメチル化パターンは、特定のゲノム領域またはサブ領域(例えば、参照ゲノム中)に対応する非隣接CpG部位の差次的にメチル化された配列である。いくつかの実施形態では、適格なメチル化パターンは、特定のゲノム領域またはサブ領域に対応する連続するCpG部位の差次的にメチル化された配列である。
いくつかの実施形態では、適格なメチル化パターンは、特定のゲノム領域またはサブ領域(例えば、参照ゲノム中)に対応する非隣接CpG部位の差次的にメチル化された配列である。いくつかの実施形態では、適格なメチル化パターンは、特定のゲノム領域またはサブ領域に対応する連続するCpG部位の差次的にメチル化された配列である。
いくつかの実施形態では、適格なメチル化パターンは、変形例対立遺伝子の等価物とみなされる。例えば、いくつかの実施形態では、特定のゲノム領域またはサブ領域に対応するCpG部位の規定された長さlの間隔は、1または複数のデータセットにおいて複数の別個メチル化パターンを有することができる。いくつかの上記実施形態において、変形例対立遺伝子は、各間隔(例えば、特定の遺伝子座における)についての第2のメチル化パターンとは異なる、CpG間隔lについての第1のメチル化パターンである。いくつかの上記実施形態において、CpG間隔lに対する第1のメチル化パターンは、参照対立遺伝子として定義され、第1のメチル化パターンとは異なる、同じCpG間隔lに対する第2のメチル化パターンは、変異対立遺伝子として定義される。
いくつかの実施形態では、3つ以上の別個メチル化パターン(例えば、複数の変異対立遺伝子)が、第1および/または第2のデータセットにわたって各CpG間隔lについて観察される。いくつかの上記実施形態では、各CpG間隔lについて3つ以上のメチル化パターンが観察される場合、選択基準のストリンジェンシーは、各CpG間隔(例えば、「まれな変形例」)において1つの適格なメチル化パターンのみについて選択するように調整される。いくつかの実施形態では、選択基準の厳密性は調整されず、複数の適格なメチル化パターン中の各メチル化パターンが選択基準を満たす場合、複数の適格なメチル化パターンが、各CpG間隔について対応するゲノム領域において同定される。
いくつかの代替的な実施形態では、複数のメチル化パターンは、メチル化パターンが、(i)第1の速度閾値(しきい値)を満たす第1の速度を有する1または複数の第1の間隔マップで表され、(ii)第1の状態深さ閾値を満たすカバレッジを有する1または複数の第1の間隔マップで表され、(iii)第2の速度閾値を満たす第2の速度を有する1または複数の第2の間隔マップで表され、ここで、速度は、カバレッジ深さ、プルダウンバイアス、推定腫瘍フラクション、および特定の座位におけるCpG間隔の位置(例えば、ポアソン速度)によって正規化される、選択基準を満たす。
メチル化パターンの照会
いくつかの実施形態では、1または複数の第1の間隔マップおよび1または複数の第2の間隔マップを複数の適格なメチル化パターンについてスキャンすることは、それぞれが所定のCpG部位数範囲にある長さを有する複数のクエリメチル化パターンについてスキャンすることと、1または複数のクエリメチル化パターンが1または複数の選択基準を満たすかどうかを決定することとを含む。いくつかの実施形態では、所定のCpG部位数範囲は、5つのCpG部位と20のCpG部位との間である。いくつかの実施形態では、所定のCpG部位数範囲は、単一のCpG数(例えば、5個のCpG部位)である。複数のクエリメチル化パターンにおける各クエリメチル化パターンは、所定のCpG部位数範囲内のメチル化状態の配列を含み、複数のクエリメチル化パターンに対する1または複数の第1の間隔マップおよび1または複数の第2の間隔マップをスキャンすることは、クエリメチル化パターンにマッチ(一致)する、各1または複数のゲノム領域またはサブ領域(例えば、特定の1の遺伝子座または複数の遺伝子座)におけるメチル化パターンを同定することを含む。
いくつかの実施形態では、1または複数の第1の間隔マップおよび1または複数の第2の間隔マップを複数の適格なメチル化パターンについてスキャンすることは、それぞれが所定のCpG部位数範囲にある長さを有する複数のクエリメチル化パターンについてスキャンすることと、1または複数のクエリメチル化パターンが1または複数の選択基準を満たすかどうかを決定することとを含む。いくつかの実施形態では、所定のCpG部位数範囲は、5つのCpG部位と20のCpG部位との間である。いくつかの実施形態では、所定のCpG部位数範囲は、単一のCpG数(例えば、5個のCpG部位)である。複数のクエリメチル化パターンにおける各クエリメチル化パターンは、所定のCpG部位数範囲内のメチル化状態の配列を含み、複数のクエリメチル化パターンに対する1または複数の第1の間隔マップおよび1または複数の第2の間隔マップをスキャンすることは、クエリメチル化パターンにマッチ(一致)する、各1または複数のゲノム領域またはサブ領域(例えば、特定の1の遺伝子座または複数の遺伝子座)におけるメチル化パターンを同定することを含む。
いくつかの実施形態では、クエリメチル化パターンは、1または複数のメチル化状態の表現を含む。例えば、いくつかの実施形態では、長さl = 5のクエリメチル化パターンは、5つのメチル化部位(例えば、5つのCpG部位)の全長を構成する5つのメチル化部位についてのMおよびUメチル化状態の任意の組合せにおけるMMMMM、MMUMMまたはM/Uであり得る。概して、長さlのメチル化パターン(ここで、lは、メチル化パターンにおける独特のメチル化部位(例えば、CpG)の数を表す正の整数であり、メチル化(M)対メチル化(U)のみが、そのようなメチル化部位の各々について考慮される場合、2lの考えられるメチル化パターンがある。したがって、たとえば8つのメチル化部位(たとえばCpG)のメチル化パターンには、2×2×2×2×2×2×2×2または256種類のメチル化パターンがある。
いくつかの好ましい実施形態では、1または複数の第1の間隔マップおよび1または複数の第2の間隔マップをスキャンすることは、対応する複数のノードに表される複数の断片メチル化パターンに完全に含まれる1または複数のクエリメチル化パターンについてスキャンすることを含む。いくつかの実施形態では、各クエリメチル化パターンは、対応するノードにおける各断片メチル化パターンの一部を含む。いくつかの実施形態では、各クエリメチル化パターンは、対応するノードにおける各断片メチル化パターンからなる。
いくつかの代替実施形態では、複数のクエリメチル化パターンの中の各クエリメチル化パターンは、長さlの一組のメチレーション状態を含む。ここで、lは、CpGサイトの数を示す正の整数であり、複数のクエリメチル化パターンについての1または複数の第1の状態間隔マップおよび1または複数の第2の状態間隔マップをスキャンすることは、メチル化状態のクエリセットにマッチするメチル化状態のセットを識別することを含む。いくつかの上記実施形態では、各1または複数のゲノム領域またはサブ領域(例えば、特定の1の遺伝子座または複数の遺伝子座)におけるメチル化状態のセットは、クエリメチル化パターンにおけるメチル化状態のセットと比較して、連続的、非連続的、配列内、または配列外である。
いくつかの実施形態では、1または複数の第1の状態間隔マップおよび1または複数の第2の状態間隔マップをスキャンすることは、対応するクエリメチル化パターンにマッチ(一致)する各ゲノム領域またはサブ領域で適格メチル化パターンを同定し、ここで、適格メチル化パターン中の1または複数のメチル化状態は、クエリメチル化パターン中の各1または複数のメチル化状態とは異なる。いくつかの上記実施形態では、適格なメチル化パターンにおける少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、または10を超えるメチル化状態は、クエリメチル化パターンとは異なる。
いくつかの実施形態では、クエリメチル化パターンとは異なる適格メチル化パターンにおける少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、または10を超えるメチル化状態は、クエリメチル化パターンの開始位置または終了位置に位置する(例えば、ウィグル(wiggle))。いくつかの実施形態では、クエリメチル化パターンとは異なる、適格なメチル化パターンにおける少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、または10を超えるメチル化状態は、クエリ配列内の特定の位置に位置する(例えば、ワイルドカード)。例えば、特定の位置は、記号(例えば、「*」、「/」)を用いてクエリメチル化パターンにおいて予め決定され得る。いくつかの実施形態では、1または複数の特定のCpG部位(例えば、1または複数の信頼性のないCpG部位)は、クエリメチル化パターンにおいてCpG部位の配列から除去される。いくつかの実施形態では、1または複数の特定のCpG部位は、各クエリメチル化パターン(例えば、「*」、「/」)におけるメチル化状態の配列にプレースホルダーまたは置換表現を挿入することによって、クエリメチル化パターンにおけるCpG部位の配列においてバイパスされる。
いくつかの実施形態では、複数のクエリメチル化パターンは、1または複数のクエリメチル化パターン間の1または複数の組み合わせ、連結、空間的および/または構造的関係を含む。例えば、いくつかの上記実施形態では、1または複数の第1の状態間隔マップをスキャンし、1または複数の第2の状態間隔マップは、1または複数のクエリメチル化パターンおよび/またはそれらの任意の組み合わせを検索する(例えば、ブール(Boolean)検索を使用する)。いくつかの実施形態では、クエリメチル化パターンは、クエリメチル化パターンの正規表現を含む。
いくつかの実施形態では、1または複数の第1の状態間隔マップおよび1または複数の第2の状態間隔マップを複数の適格なメチル化パターンについてスキャンすることは、所定数のCpG部位(または所定のCpG部位数範囲)についてメチル化状態のすべての可能な組み合わせを含む複数のクエリメチル化状態を検索する。例えば、いくつかの実施形態では、所定のCpG部位数範囲は、単一の数-CpG長さlであり、長さl = 3の複数のすべての可能なクエリメチル化パターンは、MMM、MMU、MUM、MUU、UMM、UMU、UMM、およびUUUを含む。いくつかの実施形態では、複数の可能なクエリメチル化パターンは、メチル化、非メチル化、曖昧性、変異体、および/またはコンフリクト(矛盾したもの)を含むメチル化状態の組合せをさらに含む。いくつかの実施形態では、曖昧、変異体、および/または矛盾した(conflicted)メチル化部位は、ワイルドカード部位として扱われる。すなわち、候補パターンが適格であるが、曖昧、変異、および/または矛盾したメチル化部位については、候補パターンは適格であるとみなされる。
いくつかの実施形態では、複数のクエリメチル化パターンは、クエリメチル化パターンの所定のセットを含む。いくつかの上記実施形態において、複数のクエリメチル化パターンは、第1の状態および/または第2の状態(例えば、1または複数の癌状態に対するバイオマーカー)に関連するメチル化パターンを含む。いくつかの実施形態では、クエリメチル化パターンの所定のセットは、メチル化データベース(例えば、MethHC、MethHC 2.0、MethDB、PubMeth、IMETHYLなど)、実験例知見、および/または刊行物から得られる既知のメチル化パターンを含む。例えば、その各々が参照により本明細書に組み込まれる、Huang et al., 2021, “MethHC 2.0: information repository of DNA methylation and gene expression in human cancer,” Nucleic Acids Research 49(D1), D1268-D1275; Grunau et al., 2001, “MethDB-a public database for DNA methylation data,” Nucleic Acids Research 29(1), 270-274; Ongenaert et al., “PubMeth: a cancer methylation database combining text-mining and expert annotation,” Nucleic Acids Research: doi:10.1093/nar/gkm788; および Hachiya et al., 2017, “Genome-wide identification of inter-individually variable DNA methylation sites improves the efficacy of epigenetic association studies,” NPJ Genom Med. 2017. 2:11を参照されたい。いくつかの実施形態では、複数のメチル化パターンをスキャンすることは、特定の所定の遺伝子座(例えば、参照ゲノム中の特定の位置にインデックス付けされた特定の1または複数のCpG部位)において、所定のセットのメチル化状態を検索する。いくつかの実施形態では、所定のクエリメチル化パターンのセットおよび/または所定の1または複数の遺伝子座が、各1または複数の間隔マップが生成される、各試験対象および/または各生物学的試料のそれぞれについて取得される。いくつかの実施形態では、クエリメチル化パターンおよび/または所定の1または複数の遺伝子座の単一の所定のセットが、複数の試験対象および/または生物学的試料にわたる複数の間隔マップをスキャンするために使用される。
いくつかの実施形態では、第2の1または複数のクエリメチル化パターンに対する類似性閾値(しきい値)を満たす1または複数のクエリメチル化パターンを除去するために、複数のクエリメチル化パターンがフィルタリングされる。このようなフィルタリングは、各パターンがある程度の一意性を持つことを保証する。例えば、いくつかの実施形態では、上記フィルタリングは、複数のメチル化パターンにおける第2の1または複数のクエリメチル化パターンに類似する、50パーセント、60パーセント、70パーセント、80パーセント、90パーセント、または95パーセントを超えるメチル化パターンを除去する。例えば、類似度閾値が70%であるメチル化パターンMMMMMおよびMMUMMの例を考えると、2つのパターンにおけるメチル化部位の少なくとも70%が同じである場合、類似度閾値が満たされているとみなされることを意味する。この実施例では、2つのメチル化パターンは、6つのメチル化部位のうち5つで同じメチル化値を有するため、5/6または83%の類似性を有する。したがって、この実施例では、2つのメチル化パターンのうちの1つがクエリメチル化パターンから除去される。
ブロック266~270を参照すると、いくつかの実施形態では、長さlのメチル化部位の各可能なメチル化パターンが、複数のクエリによってサンプリングされる。いくつかの実施形態では、lは、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20個のCpG部位である。いくつかの実施形態では、CpG部位数範囲は、l個の隣接するCpG部位である。いくつかの実施形態では、lは、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20の隣接するCpG部位である。いくつかの実施形態では、所定のCpG数範囲は、ヒト参照ゲノム中の2~100個の連続するCpG部位である。
いくつかの実施形態では、CpG部位の所定の数は、適応性である。いくつかの実施形態では、所定数のCpG部位は、規定数のCpG部位からの+/-Aの範囲であり、ここで整数(例えば、1、2、3、4、5など)である。
スキャン間隔マップ
いくつかの実施形態では、1または複数の第1の間隔マップおよび/または1または複数の第2の間隔マップは、対応するゲノム領域および/またはサブ領域を除去し、それによって走査および同定の計算負荷を低減するために、走査の前にフィルタリングされる。いくつかの実施形態では、フィルタリングは、除外されるゲノム領域(例えば、ブラックリストに登録された領域および/または識別不良領域)を除去する。いくつかの実施形態では、フィルタリングは、高いノイズレベルを有するゲノム領域を除去する。例えば、いくつかの実施形態では、ノイズが高い領域は、腫瘍フラクション推定値に人為的に下限を課すことによって結果をスキューする(skew/曲解する)ことができる(例えば、メチル化状態間隔におけるノイズの計算および分析に関するさらなる議論については、下記の実施例4を参照されたい)。
いくつかの実施形態では、1または複数の第1の間隔マップおよび/または1または複数の第2の間隔マップは、対応するゲノム領域および/またはサブ領域を除去し、それによって走査および同定の計算負荷を低減するために、走査の前にフィルタリングされる。いくつかの実施形態では、フィルタリングは、除外されるゲノム領域(例えば、ブラックリストに登録された領域および/または識別不良領域)を除去する。いくつかの実施形態では、フィルタリングは、高いノイズレベルを有するゲノム領域を除去する。例えば、いくつかの実施形態では、ノイズが高い領域は、腫瘍フラクション推定値に人為的に下限を課すことによって結果をスキューする(skew/曲解する)ことができる(例えば、メチル化状態間隔におけるノイズの計算および分析に関するさらなる議論については、下記の実施例4を参照されたい)。
ブロック272を参照して、いくつかの実施形態では、1または複数の第1の間隔マップにおける各間隔マップのそれぞれの対応する独立した複数のノードが、1または複数の対応するゲノム領域における対応する領域を表す対応するツリーとして配置される(例えば、Wald, 2007, “On Fast Construction of SAH-based Bounding Volume Hierarchies,” IEEE, doi:10.1109/RT.2007.4342588, a tree that is created using MatchTree as described in Lee et al., 2013, “MatchTree: Flexible, scalable, and fault-tolerant wide-area resource discovery with distributed matchmaking and aggregation,” Fut Gen Comp Sys 29, 1596-1610; doi:10.1016/j.future.2012.08.009 等に記載される、ランダム化された表面積ヒューリスティックを有するKdツリーの一次元バージョン)。各間隔マップに対する対応する独立した複数のノード内の各ノードは、対応するゲノム領域のサブ領域を表す。
図2Fのブロック274を参照すると、いくつかの上記実施形態では、各対応するツリーは、対応する独立した複数のノードを、対応する複数のリーフ内の各リーフの親ノードが1または複数の子ノードを参照する、対応する複数のリーフ内に配置する。1または複数の第1の間隔マップおよび1または複数の第2の間隔マップを走査(スキャン)することは、複数のクエリを生成し、ここで、複数のクエリ内の各クエリは、長さlの異なる候補メチル化パターンに対するものである。さらに、複数のクエリ内の各クエリは、(i)対応するツリーの対応する独立した複数のノード内の各ノードにおいて、各クエリとのマッチメーキングを実行し、(ii)各クエリを各ノードの子ノードとさらにマッチメーキングするために、各ノードの子ノードにクエリをさらに伝播し、(iii)各マッチメーキングの結果を各ノードの親ノードに配信するために使用される。
例えば、図12を参照すると、CpG部位位置0,1,2(例えば、[0,3])におけるメチル化状態「UMM」の配列を含むクエリメチル化パターンについて間隔マップをスキャンすると、クエリメチル化パターンを構成する1または複数の断片を含むすべてのノードが返される。したがって、クエリは各ノードでマッチメーキングを実行し、結果を伝播する(例えば、ノード1と2を返す)。クエリされたメチル化パターンの頻度は、クエリメチル化パターンを含む断片メチル化パターンを有する各ノード中の断片のカウントを用いて、伝播された結果から計算される。例えば、ノード1および2におけるCpG部位0、1、2におけるメチル化パターンUMMの頻度は、75%として計算される(図12に示すように、位置0、1、および2のについて、ノード1でのUMMの2カウント、ノード2でのUMMの1カウント、およびノード2でのUMUの1カウント、ノード1と2にわたる位置0、1、および2でカウントされた4つのパターンのうち、UMMの合計3カウント)。
いくつかの実施形態では、クエリメチル化パターンのために間隔マップをスキャンすると、ノード内の任意の可能な開始メチル化位置において、クエリメチル化パターンのために各ノードがスキャンされる。例えば、いくつかのそのような実施形態では、クエリは、クエリメチル化パターンがノードの第1のメチル化部位で開始しない場合であっても、ノードを返す。例えば、図12を参照すると、ノード1において、いくつかの実施形態では、検索クエリがMMUである場合、ノード1および2は、各ノード1および2の第1のメチル化部位でパターンが始まらないにもかかわらず、両方とも識別される。同様に、いくつかの実施形態では、クエリメチル化パターンのために間隔マップをスキャンすることは、ノードの開始、中間、および/または終了をスキャンする。いくつかの実施形態では、クエリメチル化パターンについて間隔マップをスキャンすることは、メチル化、非メチル化、曖昧、変異、および/または矛盾した状態を含むクエリメチル化パターンについて各ノードをスキャンする。
ブロック276を参照すると、いくつかの実施形態では、ノード内の長さlの各可能なメチル化パターンが、複数のクエリによってサンプリングされる。したがって、例えば、図12のノード1の断片UMMUの場合、およびUMのサーチクエリ(および検索がノードの第1のメチル化部位で開始するパターンを必要としない場合)を考える。この実施例では、サーチクエリ(検索照会)は、UMMUの位置1と2でサーチクエリUMへの一致を調べ、UMMUの位置2と3でサーチクエリUMへの一致を調べ、UMMUの位置3と4でサーチクエリへの一致を調べる。
ブロック278を参照すると、いくつかの好ましい実施形態では、ツリーは、ランダム化表面積ヒューリスティックを有するKdツリー(k-dimensional tree)の一次元版である。例えば、その全体が参照により本明細書に組み込まれているWald, 2007, “On Fast Construction of SAH-based Bounding Volume Hierarchies,” IEEE, doi:10.1109/RT.2007.4342588を参照されたい。いくつかの代替実施形態では、ツリーは自己組織化再帰的分割マルチキャストツリーである。いくつかの上記実施形態では、間隔マップのスキャンは、マッチツリーを使用して実行される。
いくつかの上記実施形態では、マッチメーキングの結果を対応するツリー内の親ノードに配信することは、再帰的に行われ、それによって、すべての子ノードから親ノードへの結果を集約する。いくつかの上記実施形態では、マッチされるクエリは、リソース要件として、MatchTreeアルゴリズムによって取得される。いくつかの実装形態では、結果(例えば、最良適合、正確な一致、カバレッジ深さ、最小または最大VAF、開始位置、終了位置、および/またはソートまたはフィルタリングを決定する他の値)を返すために必要な追加のパラメータが、ランク基準として取得される。リソース要件を満たすノードは、ランク付け基準によってランク付けされ、指定された所望回数kの結果(例えば、ノード)が与えられると、MatchTreeは、ランク付け基準によってランク付けされた上位k個のノードを返す。
いくつかの実施形態では、計算負荷を低減するために、ツリーに含まれる応答ノードの数を推定することによって、クエリ応答時間を定義し、および/または生成された応答の量に上限を設定するために、ヒューリスティックを使用してクエリを修正する。例えば、いくつかの上記実施形態では、スキャンの以前の実装からのキャッシュされた結果分布は、所望のリソース(例えば、メチル化パターン)を含む可能性のある結果(例えば、ノード)を予測するために使用される。
いくつかの実施形態では、クエリは、タイムアウト値(例えば、凝集進行(aggregation progress)を伴う動的タイムアウト、自律的タイムアウト、および/またはユーザ入力を伴う静的タイムアウト)および/または冗長トポロジーを使用して、ネットワーク障害を回避し、一貫性のあるパフォーマンスを提供することを含む。例えば、いくつかのこのような実施形態では、ファーストフィットリソースディスカバリは、すべての可能性のある結果が集約された後ではなく、閾値所望数kの結果が満たされたときに、子ノードから親ノードに集約された結果を返すことによって、待ち時間を改善する。さらに、いくつかの実施形態では、ノード障害の場合にクエリ完全性を保証するために、前方方向と後方方向の両方でクエリと集約結果を伝播するために冗長トポロジが使用される。
例えば、Lee et al., 2013, “MatchTree: Flexible, scalable, and fault-tolerant wide-area resource discovery with distributed matchmaking and aggregation,” Fut Gen Comp Sys 29, 1596-1610; doi:10.1016/j.future.2012.08.009, およびWang et al., 2015, “Syntax-based Deep Matching of Short Texts,” arXiv: 1503.02427v6[cs.CL]を参照することにより、それぞれが本明細書に組み込まれる。
いくつかの代替的な実施形態では、間隔マップ以外の方法が、癌状態を識別または示す複数の適格なメチル化パターンを同定するために使用される。いくつかの実施形態では、複数の適格なメチル化パターンを同定することは、本明細書に記載される方法および実施形態のいずれか(例えば、間隔マップをスキャンする)、または当業者に明白であるような任意の修正、置換、代替もしくはそれらの組み合わせを使用して行われる。
癌状態の識別
いくつかの実施形態では、スキャニングは、第1の癌状態(例えば、がん/非がん、がんのサブタイプ、がんの病期、および/または起源組織)と第1の癌状態とは異なる第2の癌状態とを区別する複数の適格なメチル化パターンを識別する。例えば、いくつかの実施形態では、複数の適格なメチル化パターンは、癌を非癌(例えば、健康な対照)、癌サブタイプおよび/または起源組織(例えば、肺癌特異的バイオマーカー)、および/または癌の病期と識別するメチル化パターンのライブラリーを含む。いくつかの実施形態では、複数の適格なメチル化パターンは、特定の癌状態(例えば、癌/非癌、癌サブタイプ、癌の病期、および/または起源組織)の存在/非存在の肯定的検証を行うために使用される。
いくつかの実施形態では、スキャニングは、第1の癌状態(例えば、がん/非がん、がんのサブタイプ、がんの病期、および/または起源組織)と第1の癌状態とは異なる第2の癌状態とを区別する複数の適格なメチル化パターンを識別する。例えば、いくつかの実施形態では、複数の適格なメチル化パターンは、癌を非癌(例えば、健康な対照)、癌サブタイプおよび/または起源組織(例えば、肺癌特異的バイオマーカー)、および/または癌の病期と識別するメチル化パターンのライブラリーを含む。いくつかの実施形態では、複数の適格なメチル化パターンは、特定の癌状態(例えば、癌/非癌、癌サブタイプ、癌の病期、および/または起源組織)の存在/非存在の肯定的検証を行うために使用される。
いくつかの実施形態では、複数の適格なメチル化パターンは、組織試料および/または血液試料(例えば、cfDNA)を用いて同定される。いくつかの実施形態では、各1または複数の試験対象について、組織サンプルを用いて同定された複数の適格メチル化パターンと、血液サンプルを用いて同定された複数の適格メチル化パターンとは、同じである。いくつかの実施形態では、複数の適格なメチル化パターンは、血液試料を用いて同定され、腫瘍フラクション推定値は、腫瘍頻度と腫瘍由来cfDNAとの間の正の相関に基づいて計算される。cfDNAおよび組織試料を用いて実施される腫瘍フラクション推定値の間の一致に関するさらなる考察については、例えば、下記の実施例4を参照されたい。
いくつかの実施形態では、複数の適格なメチル化パターンは、単一の各試験対象からの1または複数の生物学的試料から得られた第1および第2のデータセットを用いて同定される。例えば、いくつかの上記実施形態では、第1の複数の適格なメチル化パターンは、第1の試験対象について腫瘍と健常組織とを識別し、第2の複数の適格なメチル化パターンは、第1の複数の適格なメチル化パターンと第2の複数の適格なメチル化パターンとが異なる、第2の試験対象について腫瘍と健常組織とを識別する。いくつかの上記実施形態では、各複数の適格なメチル化パターンを用いて、特定の期間にわたって、各試験対象について、癌治療前後の腫瘍フラクションを監視する(例えば、最小残存病変および/または再発監視)。
いくつかの実施形態では、複数の適格なメチル化パターンは、単一の各試験対象からの1または複数の生物学的試料から得られた第1のデータセット、および1または複数の対照試験対象(例えば、対照健康コホート)からの1または複数の生物学的試料から得られた第2のデータセットを用いて同定される。
いくつかの実施形態では、複数の適格なメチル化パターンは、1または複数の試験対象(例えば、試験コホート)からの1または複数の生物学的試料から得られた第1のデータセット、および1または複数の対照対象(例えば、対照健康コホート)からの1または複数の生物学的試料から得られた第2のデータセットを用いて同定される。
いくつかの実施形態では、複数の適格なメチル化パターンは、第1の1または複数の試験対象(例えば、第1の試験コホート)から得られた1または複数の生物学的試料から得られた第1のデータセット、および第2の1または複数の試験対象(例えば、第2の試験コホート)から得られた1または複数の生物学的試料から得られた第2のデータセットを用いて同定される。そのようないくつかの実施形態では、第1および第2の試験コホートを用いて同定された適格なメチル化パターンは、患者間または大規模な研究グループ内の共通性に関する情報を提供するために使用されるか、または2つ以上の癌状態を識別する適格なメチル化パターンの層別化特徴を同定するために使用され得る。
いくつかの実施形態では、複数の適格なメチル化パターンは、第1の1または複数の試験対象(例えば、試験コホート)から得られた1または複数の生物学的試料から得られた第1のデータセットから構築された第1の間隔マップと、選択基準を満たす第2の間隔マップの領域を示す第2の間隔マップの表現とを用いて識別される。いくつかのそのような態様において、複数のメチル化パターンは、第1の対象セット中の対応する対象からの各生物学的試料から得られた第2のデータセットを使用せずに同定される。むしろ、いくつかの上記実施形態では、選択基準を満たすことが知られているかまたは推定されている複数のクエリメチル化パターンを使用して、第1の間隔マップのみをスキャンすることによって、選択基準を満たすことができる。例えば、第2の癌状態(例えば、実験または事前知識により)ではあまり表現されないことが知られているかまたは推定されているメチル化状態間隔のパネルを使用して、第2の間隔マップをスキャンする必要なしに、断片メチル化パターン、カウント(例えば、頻度)、および第1のデータセットのカバレッジ深さを含む第1の間隔マップをスキャンすることができる。あるいは、いくつかの実施形態では、第1の癌状態における外れ値断片メチル化パターンの存在を第2の癌状態と比較して仮定する(例えば、変異対立遺伝子が非癌試料よりも腫瘍試料に濃縮されていると仮定される)選択基準が定義される。例えば、いくつかの上記実施形態では、選択基準は、第1の(例えば、腫瘍)癌状態において予め定義された閾値(例えば、0.5を超える)を超えるメチル化パターン頻度(例えば、変異対立遺伝子頻度とも呼ばれることもある)として定義され得る。いくつかの実施形態では、予め定義された閾値は、実験的知見または事前知識によって決定される。いくつかの実施形態では、事前定義された閾値は、ユーザまたは実施者によって設定される。
いくつかの実施形態では、複数の適格なメチル化パターンは、ゲノムの2つ以上の別個の領域における2つ以上のメチル化パターンである。いくつかの実施形態では、複数の適格なメチル化パターンは、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または20を超えるメチル化パターンであり、ここで、各々のかかるメチル化パターンは、参照ゲノムの独特な部分にマップされ、したがって、独特なメチル化部位のセットを表す。いくつかの実施形態では、複数の適格なメチル化パターンは、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、またはそれ以上のメチル化パターンであり、ここで、各々のそのようなメチル化パターンは、参照ゲノムの独特な部分にマップされ、したがって、独特なメチル化部位のセットを表す。いくつかの実施形態では、参照により本明細書に組み込まれている、「Detecting Cancer, Cancer Tissue or Origin, or Cancer Type」と題された、その中に参照される配列表を含む、国際特許公開第WO2020154682A3に記載されているゲノム領域に、各メチル化パターンがマッピングされる。いくつかの実施形態では、メチル化パターンの一部またはすべては、参照により本明細書に組み込まれている、「Methylated Markers and Targeted Methylation Probe Panel」と題された、その中に参照される配列表を含む、国際特許公開第WO2020/069350A1号に記されているゲノム領域に固有にマップされる。いくつかの実施形態では、メチル化パターンの一部またはすべては、参照により本明細書に組み込まれている、「Methylated Markers and Targeted Methylation Probe Panels」と題された、その中に参照される配列表を含む、国際特許公開第WO2019/195268A2号に記されているゲノム領域に固有にマップされる。
いくつかの実施形態では、複数の適格なメチル化パターンは、FreeBayes、VarDict、MuTect、MuTect2、MuSE、FreeBayes、VarDict、および/またはMuTectなどの変異コール(variant caller)アルゴリズムによって同定されるメチル化パターンを除去するためにフィルタリングされる(参照により本明細書に組み込まれる、Bian, 2018, “Comparing the performance of selected variant callers using synthetic data and genome segmentation,” BMC Bioinformatics 19:429を参照のこと)メチル化パターンを生殖系列バリアントとして識別する。
いくつかの実施形態では、複数の適格なメチル化パターンは、対象のコホート(例えば、健康な対象のコホート)から得られた生物学的試料のメチル化配列決定における参照において少なくとも2回(例えば、2つの異なる断片において)出現するメチル化パターンを除去するためにフィルタリングされる。いくつかの実施形態では、対象のコホート内の各対象は、第1のデータセットによって表される。いくつかの実施形態では、対象のコホート内の各対象は、第2のデータセットによって表される。いくつかの実施形態では、対象のコホート内の各対象は、第1または第2のデータセットによって表されない。
いくつかの実施形態では、複数の適格なメチル化パターンは、対象の参照コホート(例えば、健康な対象のコホート)の固有の試験断片にわたって最小頻度よりも高い頻度で現れるメチル化パターンを除去するためにフィルタリングされる。例えば、いくつかの実施形態では、対象のコホート(例えば、健康な対象のコホート)からの各適格なメチル化パターンに関連するゲノム領域にマッピングされる核酸断片の少なくとも20%において生じる各適格なメチル化パターンは、複数の適格メチル化パターンから各適格メチル化パターンを除去するための基礎として役立つ。いくつかの実施形態では、20%の閾値を課すのではなく、コホートからの核酸フラグメントの少なくとも3%、少なくとも5%、少なくとも10%、少なくとも15%、少なくとも25%、少なくとも30%、少なくとも35%、少なくとも40%、少なくとも45%、または少なくとも50%がそれぞれの適格なメチル化パターン(修飾メチル化パターンのゲノム領域で)を有する条件(閾値)は、複数の適格なメチル化パターンからそれぞれの適格なメチル化パターンを除去するための基礎として役立つ。いくつかの実施形態では、対象のコホート内の各対象は、第1のデータセットによって表される。いくつかの実施形態では、対象のコホート内の各対象は、第2のデータセットによって表される。いくつかの実施形態では、対象のコホート内の各対象は、第1または第2のデータセットによって表されない。
いくつかの実施形態では、複数の適格なメチル化パターンは、対象の参照コホート(例えば、特定の癌状態を有する対象のコホート)の固有の試験断片にわたって最小頻度未満で現れるメチル化パターンを除去するためにフィルタリングされる。例えば、いくつかの実施形態では、特定の癌状態を有する対象のコホートからの各適格なメチル化パターンに関連するゲノム領域にマッピングされる核酸断片の20%未満で生じる各メチル化パターンが除去される。いくつかの実施形態では、いくつかの実施形態では、20%の閾値を課すのではなく、コホートからの核酸フラグメントの8%未満、15%未満、20%未満、30%未満、40%未満、50%未満、60%未満、70%未満、または80%未満がそれぞれの適格なメチル化パターン(修飾メチル化パターンのゲノム領域で)を有する条件(閾値)は、複数の適格なメチル化パターンからそれぞれの適格なメチル化パターンを除去するための基礎として役立つ。いくつかの実施形態では、対象のコホート内の各対象は、第1のデータセットによって表される。いくつかの実施形態では、対象のコホート内の各対象は、第2のデータセットによって表される。いくつかの実施形態では、対象のコホート内の各対象は、第1または第2のデータセットによって表されない。
いくつかの実施形態では、複数の適格なメチル化パターンをフィルタリングして、gnomADおよびdbDNPデータベースなどの公的データベースに見られる対立遺伝子(メチル化パターン)を除去する。上記データセットに関する情報については、Karczewski et al., 2019, “Variation across 141,456 human exomes and genomes reveals the spectrum of loss-of-function intolerance across human protein-coding genes,” bioRxiv doi.org/10.1101/531210 and Sherry et al., 2011, “dbSNP: the NCBI database of genetic variation” Nuc. Acids. Res. 29, 308-311を参照のこと。
使用方法
いくつかの実施形態では、本開示において提供される方法は、ダウンストリームアプリケーション(下流用途)に入力するための癌状態を識別または示す適格なメチル化パターンを同定するために使用される。メチル化パターンを適格とするための使用には、腫瘍フラクションの推定、プロービング分類指標の挙動、別の特徴の調査、疾患(例えば、癌状態)の分類、および/または微小残存疾患の決定が含まれるが、これらに限定されない。
いくつかの実施形態では、本開示において提供される方法は、ダウンストリームアプリケーション(下流用途)に入力するための癌状態を識別または示す適格なメチル化パターンを同定するために使用される。メチル化パターンを適格とするための使用には、腫瘍フラクションの推定、プロービング分類指標の挙動、別の特徴の調査、疾患(例えば、癌状態)の分類、および/または微小残存疾患の決定が含まれるが、これらに限定されない。
分類指標
いくつかの実施形態では、本方法は、第1および第2のデータセットを用いて同定された複数の適格化メチル化パターンに関連する少なくともメチル化パターン情報を用いて、癌状態の状態を識別または示す分類指標をトレーニングすることをさらに含む。
いくつかの実施形態では、本方法は、第1および第2のデータセットを用いて同定された複数の適格化メチル化パターンに関連する少なくともメチル化パターン情報を用いて、癌状態の状態を識別または示す分類指標をトレーニングすることをさらに含む。
例えば、いくつかの実施形態では、本明細書に開示される間隔マップを生成および走査する方法を使用して識別される癌状態を識別または示す1または複数の適格なメチル化パターンを含むトレーニングセット上で、非トレーニング分類指標がトレーニングされる。いくつかの実施形態では、非トレーニング分類指標は、インターバルマッピング以外の任意の代替方法を用いて同定された癌状態を識別または示す1または複数の適格メチル化パターンを含むトレーニングセット上でトレーニングされる。
いくつかの実施形態では、分類指標は、ロジスティック回帰である。いくつかの実施形態では、分類指標は、ニューラルネットワークアルゴリズム、サポートベクターマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、または線形回帰アルゴリズムである。
分類指標は、例えば、2020年12月11日に出願された「Cancer classification using patch convolutional neural networks」と題する米国特許出願公開第17/119,606号、および2019年12月18日に出願された「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許出願公開2020-0385813 A1にさらに詳細に記載されており、それらの各々は、その全体が参照により本明細書に組み込まれる。
いくつかの実施形態では、癌状態を識別または表示する1または複数の適格なメチル化パターンについてトレーニングされたトレーニング分類指標が、第1および/または第2のデータセットの癌状態の状態を分類することによってトレーニングを検証するために使用される。いくつかの代替的な実施形態では、癌状態を識別または示す1または複数の適格なメチル化パターンについてトレーニングされたトレーニング分類指標をさらに使用して、適格なメチル化パターンが同定された各ゲノム領域またはサブ領域における第3のデータセットのメチル化状態を評価することによって、(例えば、未知サンプルまたは試験対象の)第3のデータセットの癌状態を分類する。
したがって、いくつかの実施形態では、第3のデータセットは、電子形態で得られ、ここで、第3のデータセットは、第3の複数の断片中の各断片の対応する断片メチル化パターンを含む。各断片(i)の対応する断片メチル化パターンは、試験対象から得られた生物学的試料からの核酸のメチル化配列決定によって決定され、(ii)各断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含む。この方法は、さらに、、複数の適格なメチル化パターン中の適格なメチル化パターンを包含するか、またはそれに対応する、第3のデータセット中の第3の複数の断片中の各断片の断片メチル化パターンを分類指標に適用することを含み、それによって、試験対象における癌状態の状態を決定する。したがって、例えば、複数の適格なメチル化パターンが20個の異なるゲノム領域にマッピングされる20個の特定のメチル化パターンのセットである場合を考える。この例では、生物学的試料からの核酸のメチル化配列決定からのこれらの20の異なるゲノム領域において試験対象によって示されるメチル化パターンは、上記実施形態において分類指標に入力され、試験対象の癌状態の状態を確認する。これらの20の異なるゲノム領域におけるメチル化パターンは、均質なパターンではないことが理解されるであろう。事実、試験対象についてのシーケンシングデータは、20の適格なメチル化パターンに関連する20の異なるゲノム領域においていくつかの異なるメチル化パターンが存在することを示し得る。いくつかの上記実施形態において、20の異なるゲノム領域で試験対象について観察されたメチル化パターンは、分類指標に入力される。例えば、複数の適格なメチル化パターンにおける第1の適格なメチル化パターンに関連するゲノム領域について、試験対象についてのメチル化配列決定が、メチル化パターンAを有するゲノム領域にマッピングする35個の断片およびメチル化パターンBを有するゲノム領域にマッピングする70個の断片を生成する非限定的な例を考えると、この例では、メチル化パターンAおよびBの両方の指示が、第1のゲノム位置にマッピングする断片の35/105の中でメチル化パターンAが観察され、第1のゲノム位置にマッピングする断片の70/105の中でメチル化パターンBが観察されたという指示とともに、分類指標に入力される。他の実施形態では、分類指標は、複数の適格なメチル化パターンがマッピングするゲノム領域におけるパターンの割合を考慮せず、むしろ、メチル化パターンを有する断片の閾値数がゲノム位置(例えば、少なくとも2つの断片など)で見出されたかどうかについての単なる2進(バイナリ)表示を考慮する。他の実施形態では、分類指標は、複数の適格なメチル化パターンがマッピングするゲノム領域におけるパターンの割合を考慮せず、むしろ、閾値数の断片(各々が閾値カバレッジで配列決定され、メチル化パターンを有する)がゲノム位置(例えば、各々が少なくとも20の閾値カバレッジを有する少なくとも2つの断片など)で見出されたかどうかについての単なるバイナリ表示を考慮する。
いくつかの実施形態では、第3のデータセットは、本明細書に開示される方法のいずれかを使用して(例えば、第1および第2のデータセットについて記載される方法および/または実施形態のいずれかを使用して)取得される。
いくつかの実施形態では、生物学的試料および/または試験対象は、本明細書に開示される方法のいずれかを使用して(例えば、第1および第2のデータセットについて記載される方法および/または実施形態のいずれかを使用して)得られる。
いくつかの実施形態では、試験対象から得られる生物学的試料は、液体生物学的試料(例えば、血液および/またはcfDNA)である。いくつかの実施形態では、生物学的試料は、組織生物学的試料(例えば、腫瘍試料)である。
いくつかの実施形態では、第3の複数の断片は、無細胞核酸である。例えば、いくつかの好ましい実施形態では、対象における癌状態を判定するために第3のデータセットを取得することは、組織サンプル(例えば、生検サンプル)を取得することを必要としない。いくつかの実施形態では、試験対象由来の第3の複数の断片は、100以上の無細胞核酸断片、1000以上の無細胞核酸断片、10,000以上の無細胞核酸断片、100,000以上の無細胞核酸断片、1,000,000以上の無細胞核酸断片、または10,000,000以上の核酸断片を含む。
いくつかの上記実施形態では、方法は、第1および第2のデータセットに加えて、複数のデータセットを取得することをさらに含み、複数のデータセット内の各データセットは、各複数の断片内の各断片の対応する断片メチル化パターンを含む。各断片(i)の対応する断片メチル化パターンは、試験対象から得られた生物学的試料からの核酸のメチル化配列決定によって決定され、(ii)各断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含む。この方法は、さらに、複数の適格なメチル化パターン中の適格なメチル化パターンを包含するか、またはそれに対応する、各データセット中の各複数の断片中の各断片の断片メチル化パターンを分類指標に適用し、それによって、試験対象における癌状態の状態を決定することを含む。
いくつかのそのような実施形態では、複数のデータセット内の各データセットは、ある期間にわたって単一の対象から連続的に取得される。いくつかの実施形態では、各複数の断片は、無細胞核酸である。例えば、いくつかの好ましい実施形態において、試験対象における癌状態の状態を決定するために複数のデータセット内の各データセットを取得することは、組織サンプル(例えば、生検サンプル)を取得することを必要としない。
いくつかの実施形態では、癌状態は、癌の非存在または存在である。いくつかの実施形態では、癌状態は癌の病期である。いくつかの実施形態では、癌状態は、癌サブタイプまたは癌の組織起点である。例えば、いくつかの実施形態では、癌は、副腎癌、胆道癌、膀胱癌、骨/骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道の癌、胃癌(gastric cancer)、頭頸部癌、肝胆道癌、腎癌、肝臓癌、肺癌、卵巣癌、膵癌、骨盤癌、胸膜癌、前立腺癌、腎癌、皮膚癌、胃癌(stomach cancer)、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、メラノーマ、多発性骨髄腫、白血病、またはこれらの組み合わせである。
腫瘍フラクションの推定
いくつかの実施形態では、癌状態は、腫瘍フラクションである。例えば、血液中の1または複数のメチル化状態パターン(例えば、cfDNAおよび/または血漿)が腫瘍由来であり、そのような腫瘍由来変異対立遺伝子の頻度が、正常細胞に対する癌細胞の画分(例えば、腫瘍フラクション)に正比例するという仮定に基づくいくつかの実施形態において、腫瘍フラクション推定値が計算される。いくつかの実施形態では、腫瘍フラクション推定のための方法は、WGBS、標的化メチル化配列決定(TM配列決定)、WGS、および/または標的化配列決定(例えば、小さな変異体を使用)からのシーケンシングデータを使用して実施される。図13Aおよび13Bは、小さな変異体に基づくいくつかのアプローチを示す。図14および15は、これらの小さな変異体ベースの方法に対する代替方法を示す2つの実施例を示す。上記実施形態では、小さな変異体の代わりに、選択されたメチル化パターン(例えば、適格なメチル化パターンまたはQMP)が、特に小さな変異体の同定が亜硫酸水素塩変換などの因子によって損なわれる場合に、メチル化配列決定データに基づいて腫瘍フラクションを推定するための基礎として使用される。QMPベースの方法は、WGBS(例えば、図14Aおよび14B)およびTM配列決定データ(例えば、図15Aおよび15B)の両方に適用することができる。
いくつかの実施形態では、癌状態は、腫瘍フラクションである。例えば、血液中の1または複数のメチル化状態パターン(例えば、cfDNAおよび/または血漿)が腫瘍由来であり、そのような腫瘍由来変異対立遺伝子の頻度が、正常細胞に対する癌細胞の画分(例えば、腫瘍フラクション)に正比例するという仮定に基づくいくつかの実施形態において、腫瘍フラクション推定値が計算される。いくつかの実施形態では、腫瘍フラクション推定のための方法は、WGBS、標的化メチル化配列決定(TM配列決定)、WGS、および/または標的化配列決定(例えば、小さな変異体を使用)からのシーケンシングデータを使用して実施される。図13Aおよび13Bは、小さな変異体に基づくいくつかのアプローチを示す。図14および15は、これらの小さな変異体ベースの方法に対する代替方法を示す2つの実施例を示す。上記実施形態では、小さな変異体の代わりに、選択されたメチル化パターン(例えば、適格なメチル化パターンまたはQMP)が、特に小さな変異体の同定が亜硫酸水素塩変換などの因子によって損なわれる場合に、メチル化配列決定データに基づいて腫瘍フラクションを推定するための基礎として使用される。QMPベースの方法は、WGBS(例えば、図14Aおよび14B)およびTM配列決定データ(例えば、図15Aおよび15B)の両方に適用することができる。
いくつかの実施形態では、癌状態の状態は、腫瘍フラクションであり、癌状態の第1の状態は、腫瘍フラクションの第1の範囲であり、癌状態の第2の状態は、腫瘍フラクションの第2の範囲である。
例えば、いくつかの実施形態では、第1の範囲は0.001より大きく、第2の範囲は0.001より小さい。
いくつかの実施形態では、腫瘍フラクション推定値は、(例えば、分類指標を使用して)癌の確率をプロットするために使用される。
いくつかの実施形態では、癌の確率は、検出の限界を決定するために使用される。いくつかの上記態様において、検出限界は0.1%である。
いくつかの実施形態では、腫瘍フラクションは、複数の適格なメチル化パターン(QMP、例えば、図14および15の開示を参照されたい)から計算される。一実施形態では、各適格なメチル化パターンに対応する各ゲノム領域における(例えば、各変異体部位をカバーする変異体一致および非一致断片)、適格なメチル化パターンを含む断片の数および適格なメチル化パターンを含まない断片の数を用いて、事後(posterior)腫瘍フラクション推定値を生成する。
標的化メチル化配列決定が使用されるいくつかの上記実施形態では、部位ごと(例えば、各適格メチル化パターン「QMPゲノム部位」に対応するゲノム部位ごと)のポアソン尤度モデルが使用される。いくつかの実施形態では、このポアソン尤度モデルは、腫瘍フラクション、プルダウン(引張り)バイアス(QMPゲノム部位における代替の対立遺伝子パターンの除外に表される特定の対立遺伝子パターンを有するプローブの使用によって導入されるプルダウン(pull-down)バイアスを補正するため)、推定された全配列決定深さ、およびバックグラウンドノイズ率の機能として速度定数(rate constant)を計算する。
この上述のプルダウンバイアスは、WGBSコントロール(対照)データおよびTMコントロールデータを用いて、QMPゲノム部位iにおける標的化メチル化配列決定におけるプルダウンバイアスを補正する。特に、上記コントロールデータは、「アルファ」を計算するために使用される。すなわち、「アルファ」を計算するために、WGBSコントロールからの複数のQMPゲノム部位(検討中)における各部位の異常カウント(数)を求める(「コントロール(WGBS数)異常カウント」)。このように、WGBSコントロールを用いて得られた異なるQMPゲノム部位ごとに、複数のWGBS異常カウントが存在する。このWGBSコントロールの癌状態については特に要件はない。言い換えれば、WGBSコントロールは特定の癌状態を有しているか、特定の癌状態を有していない可能性がある。いくつかの実施形態では、WGBSコントロールは、WGBSを用いて配列決定される所定の既知割合のメチル化ゲノムDNAを有する、操作された細胞株である。いくつかの実施形態では、WGBSコントロールは、所定の組成(例えば、0%および100%メチル化ゲノムDNAの50/50または40/60または30/70混合物)での0%メチル化および100%メチル化ゲノムDNAの混合物である。さらに、標的化されたメチル化配列決定からの複数のQMPゲノム部位における各部位の異常カウントが得られる(「TMコントロール(TMカウント)異常カウント」)。典型的な実施形態では、TMコントロールのためのDNAの供給源は、WGBSコントロールの場合と同じであり、唯一の相違点は、TMコントロールの場合、コントロールDNAは、WGBSによってではなく、TMにおいて使用されるプルダウンプローブを用いた標的化配列決定を用いて配列決定されることである。このような実施形態における量「アルファ」は、コントロール(WGBSカウント)異常カウント/TMコントロール(TMカウント)異常カウントの散布図に当てはめられた線の傾きを表す。散布図の各ポイントは、研究下にある複数のQMPゲノム部位における異なるQMPゲノム部位jについてであり、各ポイントのx座標はゲノム部位jにおける(WGBS数)異常数であり、各ポイントのy座標はゲノム部位jにおける(TM数)異常数である。さらに、「アルファ」に関する式に示されるように、典型的な実施形態では、WGBSコントロール(WGBSカウント)異常計数の75番目(75th)分位点からのデータのみ、およびTMコントロール(TM数)の75th分位点からのデータのみが、アルファが計算される散布図(散布点)に使用される。量「アルファ」は、散布図データに当てはめられた線の傾きである。75th分位点の使用は例示的なものであり、アプリケーション依存事項において上方(例えば、85th分位点)または下方(例えば、65th分位点)に調整することができることが理解されよう。例えば、下流側の分類子の最適化の一部として最適化されたハイパーパラメータとして扱うことができる。さらに、分位点カットを行うのではなく、散布図を使用して「アルファ」を計算する前に、外れ値を除去するための他の方法を代わりに使用することができる。
さらに、上記のアプローチは、第2のデータセット(癌状態の第2の状態(例えば、非癌)を有する)におけるQMP(xi,TMct)の所与のQMPゲノム部位iにおける推定ノイズ比の計算を必要とする。いくつかの実施形態では、xi,TMctは、以下のように推定される:
「ベータ」を計算するために、第2の癌状態を有する1人以上の対象における複数のQMPゲノム部位(研究下にある)の各部位での非異常カウントが得られる(「WGBS第2の状態(WGBS SS)非異常カウント」)。したがって、第2のデータセットを用いて得られた異なるQMPゲノム部位ごとに、非異常カウントの複数のWGBSが存在する。さらに、標的化されたメチル化配列決定からの複数のQMPゲノム部位における各部位での非異常カウントが得られる(「TM第2の状態(TM SS)非異常カウント」)。典型的な実施形態では、TM第2の状態のためのDNAの供給源は、WGBSコントロールの場合と同じであり(および典型的には、第2のデータセットに寄与し、および/または第2の癌状態を有する対象からのものである)、唯一の相違点は、TM SSの場合、WGBSによってではなく、TMにおいて使用されるプルダウンプローブを用いて標的化配列決定を用いてDNAを配列決定されることである。量「ベータ」は、上記実施形態では、「TM第2の状態(TM SS)非異常カウント」/「WGBS第2の状態(WGBS SS)非異常カウント」の散布図に当てはめられた線の傾きを表す。散布図の各点は、研究下にある複数のQMPゲノム部位における異なるQMPゲノム部位jに関するものであり、ここで、各点に関するx座標は、ゲノム部位jにおけるTM第2の状態(TM SS)非異常カウントであり、そして各点に関するy座標は、ゲノム部位jにおけるWGBS SS(WGBS NC)非異常カウントである。さらに、「ベータ」についての式に示されるように、典型的な実施形態では、TM第2の状態(TM SS)非異常カウントの75th分位点からのデータのみ、および、WGBS第2の状態(WGBS SS)非異常カウントの75th分位点からのデータのみが、「ベータ」が計算される散布図で使用される。量「ベータ」は、この散布図データに当てはめられた線の傾きである。75th分位点の使用は、「アルファ」の場合と同様に、例示的であり、アプリケーション依存マターにおいて、上方(例えば85th分位点)または下方(例えば65th分位点)に調整することができることが理解されるであろう。例えば、下流側の分類指標(分類子)の最適化の一部として最適化されたハイパーパラメータとして扱うことができる。さらに、分位点カットを行うのではなく、散布図を使用して「ベータ」を計算する前に、外れ値を除去するための他の方法を代わりに使用することができる。
「ガンマ」を計算するために、第2の癌状態を有する1人以上の対象において、複数のQMPゲノム部位(研究下)の各部位で非異常カウントが得られる(「WGBS第2の状態(WGBS SS)非異常カウント」)。したがって、第2のデータセットを用いて得られた異なるQMPゲノム部位ごとに、複数のWGBS非異常カウントが存在する。さらに、標的化されたメチル化配列決定からの複数のQMPゲノム部位における各部位での非異常カウントが得られる(「TM第1の状態(TM FS)非異常カウント」)。典型的な実施形態では、TM FSのためのDNAの供給源は、第1のデータセットに寄与し、および/または第1の癌状態を有する1または複数の対象からのものである。典型的な実施形態では、WGBS SSのためのDNAの供給源は、第2のデータセットに寄与し、および/または第2の癌状態を有する1または複数の対象からのものである。量「ガンマ」は、上記実施形態では、「TM第1の状態(TM FS)非異常カウント」/「WGBS第2の状態(WGBS SS)非異常カウント」の散布図に当てはめられた線の傾きを表す。散布図における各点は、研究下の複数のQMPゲノム部位における異なるQMPゲノム部位jに関するものであり、ここで、各点に関するx座標は、ゲノム部位jにおけるTM第1の状態(TM FS)非異常カウントであり、各点に関するy座標は、ゲノム部位jにおけるWGBS第2の状態(WGBS SS)非異常カウントである。さらに、「ガンマ」に関する式に示されるように、典型的な実施形態では、TM第1の状態(TM FS)非異常カウントの75th分位点からのデータのみ、および、WGBS第2の状態(WGBS SS)非異常カウントの75th 分位点からのデータのみが、「ガンマ」が計算される散布図において使用される。量「ガンマ」は、この散布図データに当てはめられた線の傾きである。75th分位点の使用は、「アルファ」の場合と同様に、例示的であり、アプリケーション依存マターにおいて、上方(例えば85th分位点)または下方(例えば65th分位点)に調整することができることが理解されるであろう。例えば、下流側の分類指標の最適化の一部として最適化されたハイパーパラメータとして扱うことができる。さらに、「ガンマ」を計算するために散布図を使用する前に、分位点カットを行うのではなく、外れ値を除去するための他の方法を代わりに使用することができる。
いくつかの実施形態では、TM配列決定アッセイにおいて、異常にメチル化された断片はプローブによって濃縮され、したがって、上記断片内のQMPに基づいて計算された腫瘍フラクションはバイアスされる可能性が高いため、非癌ノイズ率、アッセイタイプ間のバイアス(例えば、WGBS対TM)などの因子を説明するために、様々なノイズまたはバイアスモデルを生成することができる。いくつかの実施形態では、複数の適格なメチル化パターンは、腫瘍フラクション推定の前にフィルタリングされ、0%または100%のメチル化CpG部位を有するメチル化パターンを有するものを含む。いくつかの代替的な実施形態において、複数の適格なメチル化パターンは、所定の組成物(例えば、0%および100%メチル化ゲノムDNAの50/50または40/60または30/70混合物)で0%メチル化および100%メチル化ゲノムDNAの混合物を用いた対照実験において、標的化メチル化アッセイによって効果的にプルダウンされたものを含むように、腫瘍フラクション推定の前にフィルタリングされる。例えば、0%および100%メチル化ゲノムDNAの50/50の混合物は、知覚される配列決定深さに対する濃縮プローブの効果を評価するために、パラレルWGBSおよびTM分析にかけることができる。いくつかの代替的な実施形態では、複数の適格なメチル化パターンは、腫瘍フラクション推定の前にフィルタリングされ、適格なメチル化パターンの重複しないセットを形成し、それによって二重計数を緩和するものを含む。
いくつかの上記実施形態において、後部腫瘍フラクション推定値は、合成希釈を用いてさらに最適化され、検証される。いくつかの実施形態では、後部腫瘍フラクション推定値は、マッチした試料から生成された推定値との比較を使用してさらに最適化される(例えば、腫瘍生検WGBS試料からの腫瘍フラクション推定値は、患者がマッチしたcfDNA WGBS試料からの腫瘍フラクション推定値と比較される)。
腫瘍フラクション推定値の算出のための代替的な方法および実施形態は、例えば、参照により本明細書に組み込まれる2019年12月18日に出願された「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開第2020-0385813 A1号および下記実施例4に詳細に記載されている。
最小残存疾患およびその他の用途のモニタリング。
いくつかの実施形態では、癌状態の状態は腫瘍フラクションであり、第3のデータセットを取得し、第3のデータセットの断片メチル化パターンを分類指標に適用することは、経時的に繰り返し行われる。例えば、いくつかの実施形態では、再発基準での適用は、最小限の残存病変および再発監視のために実施される。いくつかの上記実施形態では、第3のデータセットの取得および適用は、癌治療の有効性を評価するために、癌治療の前後に実施される(例えば、第3のデータセットが、癌治療の前後の試験対象からの生物学的試料から取得される場合)。
いくつかの実施形態では、癌状態の状態は腫瘍フラクションであり、第3のデータセットを取得し、第3のデータセットの断片メチル化パターンを分類指標に適用することは、経時的に繰り返し行われる。例えば、いくつかの実施形態では、再発基準での適用は、最小限の残存病変および再発監視のために実施される。いくつかの上記実施形態では、第3のデータセットの取得および適用は、癌治療の有効性を評価するために、癌治療の前後に実施される(例えば、第3のデータセットが、癌治療の前後の試験対象からの生物学的試料から取得される場合)。
いくつかの上記実施形態において、腫瘍フラクションの判定は、対象に対する癌治療の有効性を評価するために、癌治療の前に得られた第1の試料および癌治療の後に得られた第2の試料から実施される。
いくつかの実施形態では、本方法は、エポックにわたる複数の時点において、各時点における試験対象についての腫瘍フラクション推定値の推定を繰り返し、したがって、各時点における試験対象について、複数の腫瘍フラクション推定値において、対応する腫瘍フラクション推定値を得る。いくつかの実施形態では、この複数の腫瘍フラクション推定値は、エポック中の試験対象における疾患状態の状態または進行を、エポックにわたる腫瘍フラクションの増加または減少の形態で決定するために使用される。
いくつかの実施形態では、各エポックは、月の期間であり、複数の時点における各時点は、月の期間における異なる時点である。いくつかの実施形態では、月の期間は、4ヶ月未満である。いくつかの実施形態では、各エポックは、1ヶ月長である。いくつかの実施形態では、各エポックは、2ヶ月長である。いくつかの実施形態では、各エポックは、3ヶ月長である。いくつかの実施形態では、各エポックは、4ヶ月長である。いくつかの実施形態では、各エポックは、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、または24ヶ月の長さである。
いくつかの実施形態では、エポックは、年の期間であり、複数の時点における各時点は、年の期間における異なる時点である。いくつかの実施形態では、年の期間は、1年から10年の間である。いくつかの実施形態では、期間は、1年、2年、3年、4年、5年、6年、7年、8年、9年、または10年である。いくつかの実施形態では、エポックは、1~30年である。いくつかの実施形態では、エポックは時間の期間であり、複数の時点における各時点は、時間の期間における異なる時点である。いくつかの実施形態では、時間は1時間から24時間の間である。いくつかの実施形態では、時間の期間は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、または24時間である。
いくつかの実施形態では、本方法は、さらに、対象の腫瘍フラクション推定値(またはクローン拡大推定値)が、エポックにわたって閾値量だけ変化することが観察されるときに、対象の診断を変更することを含む。例えば、いくつかの実施形態では、診断は、癌を有することから寛解中であることに変更される。
別の例として、いくつかの実施形態では、診断は、癌を有さないことから癌を有することに変更される。別の例として、いくつかの実施形態では、診断は、癌の第1段階を有することから癌の第2段階を有することに変更される。別の例として、いくつかの実施形態では、診断は、癌の第2段階を有することから癌の第3段階を有することに変更される。さらに別の例として、いくつかの実施形態では、診断は、癌の第3の病期を有することから癌の第4の病期を有することに変更される。さらに別の例として、いくつかの実施形態では、診断は、転移していない癌を有することから、転移している癌を有することに変更される。
いくつかの実施形態では、対象の腫瘍フラクション推定値がエポックにわたって閾値量だけ変化することが観察されるとき、試験対象の予後は変化する。例えば、いくつかの実施形態では、予後は、余命を含み、予後は、第1の余命から第2の余命に変更され、ここで、第1および第2の余命は、いくつかの実施形態において、それらの持続時間が異なる。いくつかの実施形態では、予後の変化は、対象の平均余命を増加させる。いくつかの実施形態では、予後の変化は、対象の平均余命を減少させる。
いくつかの実施形態では、対象の腫瘍フラクション推定値が、そのエポックにわたって閾値量だけ変化することが観察されるときに、試験対象の治療が変更される。いくつかの実施形態では、治療の変更は、癌投薬を開始すること、癌投薬の投薬量を増加すること、癌投薬を中止すること、または癌投薬の投薬量を減少することを含む。いくつかの実施形態では、治療の変更は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(型6、11、16、および18)ワクチン、ペツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、またはこれらの一般的同等物による対象の治療の開始または終了を含む。いくつかの実施形態では、治療の変更は、増加または減少させた用量のレナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(型6、11、16、および18)ワクチン、ペルツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、またはこれらの一般的な同等物を対象に投与することを含む。いくつかの実施形態では、閾値は、10%超、20%超、30%超、40%超、50%超、2倍超、3倍超、または5倍超である。
いくつかの実施形態では、試験対象の腫瘍フラクション推定値は0.003~1.0である。いくつかの実施形態では、対象の腫瘍フラクション推定値は0.005~0.80である。いくつかの実施形態では、対象の腫瘍フラクション推定値は0.01~0.70である。いくつかの実施形態では、対象の腫瘍フラクション推定値は0.05~0.60である。
いくつかの実施形態では、本方法は、少なくとも部分的に、試験対象についての腫瘍フラクション推定値(またはクローン拡大推定値)の値に基づいて、試験対象に治療計画を適用することをさらに含む。いくつかの実施形態では、治療レジメンは、癌のための薬剤を試験対象に適用することを含む。いくつかの実施形態では、癌のための薬剤は、ホルモン、免疫療法、放射線撮影、または癌薬物である。いくつかの実施形態では、癌のための薬剤は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(型6、11、16、および18)ワクチン、ペルツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、またはこれらの一般的同等物である。
いくつかの実施形態では、試験対象は、癌のための薬剤で治療されており、方法は、癌のための薬剤に対する対象の応答を評価するために、試験対象のための腫瘍フラクション推定値を使用することをさらに含む。いくつかの実施形態では、癌のための薬剤は、ホルモン、免疫療法、放射線撮影、または癌薬物である。いくつかの実施形態では、癌のための薬剤は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(型6、11、16、および18)ワクチン、ペルツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、またはこれらの一般的同等物である。
いくつかの実施形態では、試験対象は、癌のための薬剤で治療され、試験対象のための腫瘍フラクション推定値は、試験対象における癌のための薬剤を強化するかまたは中止するかを決定するために使用される。例えば、いくつかの実施形態では、少なくとも腫瘍フラクション推定値(例えば、0.05、0.10、0.15、0.20、0.25、または0.30を超えるなど)の観察は、対象における癌に対する薬剤の増強(例えば、線量の増加、放射線治療における放射線レベルの増加)の基礎として使用される。いくつかの実施形態では、閾値未満の腫瘍フラクション推定値(例えば、0.05、0.10、0.15、0.20、0.25、または0.30未満など)の観察は、試験対象における癌のための薬剤の使用を中止するための基礎として使用される。
いくつかの実施形態では、試験対象は、癌に対処するために外科的介入を受けており、方法は、外科的介入に応答して試験対象の状態を評価するために、試験対象についての腫瘍フラクション推定値を使用することをさらに含む。いくつかの実施形態では、状態は、本開示において提供される方法を用いた腫瘍フラクション推定に基づくメトリックである。
いくつかの実施形態では、癌状態を識別または示すメチル化パターンは、cfDNAから得られた断片を標識するために使用される。例えば、いくつかの上記実施形態では、癌状態(例えば、腫瘍)に関連する同定されたメチル化パターンに一致する1または複数のメチル化パターンを含む1または複数の断片が単離され、他の特徴を特徴付けるために検査される。いくつかの上記実施形態では、上記代替的特性の調査は、腫瘍由来核酸断片を定義し、および/またはそれに関連する特性に対するさらなる洞察などのさらなる使用を提供することができる。
いくつかの実施形態では、腫瘍フラクション推定の精度は、1または複数の合成希釈物を使用して検証される。例えば、いくつかの実施形態では、高腫瘍フラクションを含む試料は、非癌cfDNAに合成希釈される。各連続希釈について腫瘍フラクションの推定値を計算し、一致性について予測される腫瘍フラクションの推定値と比較する。
いくつかの実施形態では、希釈は、癌信号(例えば、配列決定読出しデータ)を非癌信号にin silicoで希釈することによって行われる。いくつかの実施形態では、癌cfDNA試料を非癌cfDNA試料に希釈することによって、ウェット-ラボ希釈を行う。いくつかの実施形態では、希釈は、配列決定の前に、第1の試験対象からの癌cfDNA試料を第2の試験対象からの非癌cfDNAに希釈することによって行われる。
いくつかの実施形態では、希釈は、プールされた試験対象を用いて実施される。いくつかの実施形態では、希釈は、第1の癌状態(例えば、癌/非癌、癌タイプ/サブタイプ、病期、および/または起源組織)から得られた試料を、第1の癌状態とは異なる第2の癌状態から得られた試料に希釈することによって行われる。
いくつかの実施形態では、腫瘍フラクション推定値の合成希釈(例えば、メチル化パターンを用いて計算)によるバリデーションを実施して、分類指標の性能を評価し、および/または分類指標の挙動を調査することができる。
本開示のその他の態様
本開示の別の態様は、癌状態を識別するまたは示す複数のメチル化パターンを同定するためのコンピュータシステムを提供する。この態様では、コンピュータシステムは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを記憶するメモリとを備える。いくつかの実施形態では、少なくとも1つのプログラムは、当業者に明らかなように、本明細書に記載される方法および実施形態のいずれか、および/またはそれらの任意の組み合わせもしくは代替物を実行するための命令を含む。
本開示の別の態様は、プロセッサによって実行されると、癌状態を識別または示す複数のメチル化パターンを識別するための方法をプロセッサに実行させるプログラムコード命令を記憶する非一時的コンピュータ可読記憶媒体を提供する。いくつかの実施形態では、プログラムコード命令は、当業者に明らかなように、プロセッサに、本明細書に記載される方法および実施形態のいずれか、および/またはそれらの任意の組み合わせもしくは代替を実行させる。
実施例
実施例1-無細胞ゲノムアトラス検討(CCGA)
本開示の実施例では、CCGA[NCT02889978]からの対象を使用した。
CCGAは、プロスペクティブ、多施設共同、観察的cfDNAに基づく早期癌検出研究であり、141の施設で15,254人の人口統計学的に均衡のとれた参加者が登録されている。新たに治療歴のない癌と診断された対象(C、症例)および登録時に定義された癌と診断されていない参加者(非癌[NC]、コントロール)から、登録参加者15,254例(癌56%、非癌44%)から血液検体を採取した。
実施例1-無細胞ゲノムアトラス検討(CCGA)
本開示の実施例では、CCGA[NCT02889978]からの対象を使用した。
CCGAは、プロスペクティブ、多施設共同、観察的cfDNAに基づく早期癌検出研究であり、141の施設で15,254人の人口統計学的に均衡のとれた参加者が登録されている。新たに治療歴のない癌と診断された対象(C、症例)および登録時に定義された癌と診断されていない参加者(非癌[NC]、コントロール)から、登録参加者15,254例(癌56%、非癌44%)から血液検体を採取した。
第1コホート(事前に規定したサブスタディ)(CCGA1)では、CCGAおよびSTRIVE参加者3583人(CCGA:癌参加者1530人および非癌参加者884人、STRIVE1169人の非癌参加者)からプラズマcfDNA抽出物を得た。STRIVEは、スクリーニングマンモグラフィーを受ける女性(登録参加者99,259例)を登録した多施設プロスペクティブコホート研究である。プラズマcfDNA抽出のために、新たに診断された未処理癌(20腫瘍型、全ステージ)の984名のCCGA参加者と癌診断のない749名の参加者(コントロール)から血液を採取した(n=1785)。この事前に計画されたサブスタディには、20種類の腫瘍タイプおよび全ての臨床病期にわたる878例の症例、580例のコントロール、および169例のアッセイコントロール(n=1627)が含まれた。
各参加者から採取された血液に対して、3つの配列決定アッセイ、
1)ペアのcfDNAと白血球(WBC)ターゲットシーケンス(60,000X、507遺伝子パネル)による単一ヌクレオチドバリアント/インデル(ARTシーケンスアッセイ);共同呼び出し元(joint caller/ジョイントコーラー)は、WBC由来の体細胞バリアントと残留テクニカルノイズを削除した;
2)ペアのcfDNAとWBC全ゲノムシーケンス(WGS;35X)によるコピー数の変動;新しい機械学習アルゴリズムは、がん関連の信号スコアを生成しました。共同分析により、共有されたイベントが特定された;および
3)メチル化のためのcfDNA全ゲノム重亜硫酸塩シーケンス(WGBS;34X);正規化されたスコアは、異常にメチル化されたフラグメントを使用して生成された;
が行われた。さらに、比較のために腫瘍変異体の同定のためにペア腫瘍およびWBC gDNAについて4)全ゲノム配列決定(WGS; 30X)を実施するように、組織サンプルを癌のみの参加者から得た。
1)ペアのcfDNAと白血球(WBC)ターゲットシーケンス(60,000X、507遺伝子パネル)による単一ヌクレオチドバリアント/インデル(ARTシーケンスアッセイ);共同呼び出し元(joint caller/ジョイントコーラー)は、WBC由来の体細胞バリアントと残留テクニカルノイズを削除した;
2)ペアのcfDNAとWBC全ゲノムシーケンス(WGS;35X)によるコピー数の変動;新しい機械学習アルゴリズムは、がん関連の信号スコアを生成しました。共同分析により、共有されたイベントが特定された;および
3)メチル化のためのcfDNA全ゲノム重亜硫酸塩シーケンス(WGBS;34X);正規化されたスコアは、異常にメチル化されたフラグメントを使用して生成された;
が行われた。さらに、比較のために腫瘍変異体の同定のためにペア腫瘍およびWBC gDNAについて4)全ゲノム配列決定(WGS; 30X)を実施するように、組織サンプルを癌のみの参加者から得た。
CCGA‐1検討の文脈の中で、cfDNA試料の腫瘍フラクションを推定するためのいくつかの方法が開発された。これらのそれぞれが、参照により本明細書に組み込まれる、国際特許公開WO/2019/204360、「SYSTEMS AND METHODS FOR DETERMINING TUMOR FRACTION IN CELL-FREE NUCLEIC ACID」、国際特許公開WO 2020/132148号、「SYSTEMS AND METHODS FOR ESTIMATING CELL SOURCE FRACTIONS USING METHYLATION INFORMATION」、および米国特許公開US 2020-0340064 A1、「SYSTEMS AND METHODS FOR TUMOR FRACTION ESTIMATION FROM SMALL VARIANTS」を参照されたい。例えば、アプローチの1つは、図13Aにおいて方法1300として示された。このアプローチでは、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織(例えば、1304)からの核酸試料、および適合患者(例えば、1306)からの白血球(WBC)からの核酸試料を、全ゲノム配列決定(WGS)によって配列決定した。シーケンシングデータに基づいて同定された体細胞変異体(例えば、1308)を、同一患者(例えば、1310)からの一致するcfDNAシーケンシングデータに対して分析し、腫瘍フラクション推定値(例えば、1312)を決定した。
あらかじめ規定された第2のサブスタディ(CCGA-2)では、全ゲノムではなく標的化した亜硫酸水素配列決定アッセイを用いて、標的化メチル化(TM)配列決定アプローチに基づいて、癌対非癌および起源組織の分類指標を開発した。CCGA2については、研修参加者3133人と検証用試料1354人(癌患者775人;登録時に癌であると判定されていない579人、癌であるか非癌であるかの確認前)を用いた。固有のメチル化データベースおよび以前のプロトタイプ全ゲノムおよび標的化配列決定アッセイから同定されたように、プラズマcfDNAを、メチロームの最も有益な領域を標的とする亜硫酸水素配列決定アッセイ(COMPASSアッセイ)に供し、癌および組織を規定するメチル化シグナルを同定した。トレーニング用に残されたオリジナルの3133点のサンプルのうち、わずか1308点のサンプルが臨床的に評価可能であり、分析可能であるとみなされた。分析は、主要分析対象集団n=927(癌654例、非癌273例)、副次分析対象集団n=1027(癌659例、非癌373例)に対して実施された。最後に、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織および腫瘍から単離された細胞由来のゲノムDNAを全ゲノム亜硫酸水素配列決定(WGBS)にかけ、パネルデザインおよび性能を最適化するためのトレーニングに使用するための癌定義メチル化信号の大規模データベースを生成した。
例えば、その各々が参照によりその全体が本明細書に組み込まれる、Klein et al., 2018, “Development of a comprehensive cell-free DNA (cfDNA) assay for early detection of multiple tumor types: The Circulating Cell-free Genome Atlas (CCGA) study,” J. Clin. Oncology 36(15), 12021-12021, および Liu et al., 2019, “Genome-wide cell-free DNA (cfDNA) methylation signatures and effect on tissue of origin (TOO) performance,” J. Clin. Oncology 37(15), 3049-3049を参照されたい。
実施例2-複数の配列読み取り(シーケンスリード)の取得
図7は、1つの実施形態による配列決定のための核酸サンプルを調製するための方法700のフローチャートである。方法700は、以下のステップを含むが、これらに限定されない。例えば、方法700の任意のステップは、品質管理のための定量サブステップまたは当業者に公知の他のラボラトリーアッセイ手順を含むことができる。
図7は、1つの実施形態による配列決定のための核酸サンプルを調製するための方法700のフローチャートである。方法700は、以下のステップを含むが、これらに限定されない。例えば、方法700の任意のステップは、品質管理のための定量サブステップまたは当業者に公知の他のラボラトリーアッセイ手順を含むことができる。
ブロック702では、対象から核酸試料(DNAまたはRNA)を抽出する。試料は、全ゲノムを含むヒトゲノムの任意のサブセットであってよい。試料は、癌を有することが知られているかまたは癌を有することが疑われる試験対象から抽出され得る。試料は、血液、血漿、血清、尿、糞便、唾液、他のタイプの体液、またはそれらの任意の組合せを含むことができる。いくつかの実施形態では、血液試料(例えば、シリンジまたは指刺し)を採取するための方法は、手術を必要とし得る組織生検を得るための手順よりも侵襲性が低いものであり得る。抽出試料は、cfDNAおよび/またはctDNAを含むことができる。健常者にとって、人体はcfDNAや他の細胞破片を自然に除去することができる。対象が癌または疾患を有する場合、抽出された試料中のctDNAは、診断のために検出可能なレベルで存在し得る。
ブロック704では、配列決定ライブラリーが準備される。ライブラリーの調製中に、ユニークな分子識別子(UMI)がアダプター連結によって核酸分子(例えばDNA分子)に付加される。UMIは、アダプターライゲーション(連結)中にDNA断片の端部に付加される短い核酸配列(例えば、4~10塩基対)である。いくつかの実施形態では、UMIは、特異的DNA断片に由来する配列読み取りを同定するために使用することができるユニークなタグとして働く縮重(degenerate)塩基対である。アダプターライゲーション後のPCR増幅の間、UMIは、結合したDNA断片と共に複製される。これにより、下流の分析で同じ元の断片から得られたシークエンス読み取りを識別する方法が提供される。
ブロック706では、標的DNA配列がライブラリーから濃縮される。濃縮の間、ハイブリダイゼーションプローブ(本明細書では「プローブ」とも呼ばれる)は、癌(または疾患)、癌状態、または癌分類(例えば、癌クラスまたは起源組織)の有無に関して有益な核酸断片を標的化し、引き下げるために使用される。所定のワークフローに関して、プローブは、DNAの標的(相補的)鎖にアニーリング(またはハイブリダイズ)するように設計され得る。標的鎖(ストランド)は、「ポジティブ(陽)」鎖(例えば、mRNAに転写され、続いてタンパク質に翻訳される鎖)または相補的な「ネガティブ(陰)」鎖であってもよい。プローブの長さは、塩基対の10s、100s、または1000sの範囲とすることができる。一実施形態では、プローブはメチル化部位パネルに基づいて設計される。一実施形態では、プローブは、特定の癌または他のタイプの疾患に対応すると疑われるゲノム(例えば、ヒトまたは他の生物の)の特定の突然変異または標的領域を分析するために、標的遺伝子のパネルに基づいて設計される。さらに、プローブは、標的領域の重なり合う部分を覆うことができる。ブロック708では、これらのプローブは、核酸試料の一般的な配列読み取りに使用される。
図8は、一実施形態による配列読み取りを得るためのプロセスのグラフィック表現である。図8は、試料由来の核酸セグメント800の一例を示す。核酸セグメント800は、一本鎖核酸セグメントであり得る。いくつかの実施形態では、核酸セグメント800は、二本鎖cfDNAセグメントである。図示された例は、異なるプローブによって標的を定めることができる核酸セグメントの3つの領域805A、805B、および805Cを示している。具体的には、3つの領域805A、805B、および805Cのそれぞれに核酸セグメント800上の重複位置が含まれる。重複する位置の実施例は、シトシン(「C」)ヌクレオチド塩基802として図8に示されている。シトシン核酸ベース802は、領域805Aの第一端近辺、領域805Bの中心部、および領域805Cの第二端近辺に位置する。
いくつかの実施形態では、プローブの1つ以上(またはすべて)は、特定の癌または他のタイプの疾患に対応すると疑われるゲノム(例えば、ヒトまたは他の生物の)の特定の突然変異または標的領域を分析するために、遺伝子パネルまたはメチル化部位パネルに基づいて設計される。「全体エクソーム配列決定」としても知られる、ゲノムの全体ての発現された遺伝子を配列決定するのではなく、標的遺伝子パネルまたはメチル化部位パネルを用いることにより、方法800を用いて、標的領域の配列決定の深さを増大させることができ、ここで、深さは、試料内の所定の標的配列が配列決定された回数のカウントを意味する。配列決定の深さを増大させることは、核酸試料の必要な入力量を減少させる。
1または複数のプローブを用いた核酸試料800のハイブリダイゼーションは、標的配列870の理解をもたらす。図8に示すように、標的配列870は、ハイブリダイゼーションプローブによって標的化される領域805のヌクレオチド塩基配列である。標的配列870は、ハイブリダイズ核酸断片とも呼ばれ得る。例えば、標的配列870Aは、第1ハイブリダイゼーションプローブによって標的とされる領域805Aに対応(相当)し、標的配列870Bは、第2ハイブリダイゼーションプローブによって標的とされる領域805Bに対応し、標的配列870Cは、第3ハイブリダイゼーションプローブによって標的とされる領域805Cに対応する。シトシン配列ベース802は、ハイブリダイゼーションプローブによって標的とされる各領域805A-C内の異なる場所に位置していることを考慮すると、各標的配列870は、標的配列870の特定の場所でのシトシンヌクレオチド塩基802に対応するヌクレオチド塩基を含む。
ハイブリダイゼーションステップの後、ハイブリダイズした核酸断片を捕捉し、PCRを用いて増幅することもできる。例えば、標的配列870を濃縮して、その後に配列決定することができる濃縮配列880を得ることができる。いくつかの実施形態では、各濃縮配列880は、標的配列870から複製される。標的配列870Aおよび870Cからそれぞれ増幅される濃縮配列880Aおよび880Cは、また、各配列読み取り(リード)880Aまたは880Cの末端近くに位置するチミンヌクレオチド塩基を含む。以後使用されるように、参照対立遺伝子(例えば、シトシンヌクレオチド塩基802)に関連して変異した、濃縮配列880中の変異ヌクレオチド塩基(例えば、チミンヌクレオチド塩基)は、代替対立遺伝子とみなされる。さらに、標的配列870Bから増幅された各濃縮配列880Bは、各濃縮配列880Bの近傍または中央に位置するシトシンヌクレオチド塩基を含む。
ブロック708では、配列読み取りは、濃縮されたDNA配列、例えば、図8に示される濃縮された配列880から生成され、シーケンシングデータは、当技術分野で公知の手段によって、濃縮されたDNA配列から取得され得る。例えば、方法800は、合成技術(Illumina)、ピロシーケンス(パイロシーケンシング)(454 Life Sciences)、イオン半導体技術(Ion Torrent配列決定)、単一分子リアルタイム配列決定(Pacific Biosciences)、ライゲーションによる配列決定(SOLiD配列決定)、ナノポア配列決定(Oxford Nanopore Technologies)、または対端部配列決定を含む次世代配列決定(NGS)技術を含み得る。いくつかの実施形態では、大規模並列配列決定は、可逆的色素停止剤を有する合成による配列決定を使用して行われる。
いくつかの実施形態では、配列読み取りは、アラインメント位置情報を決定するために、当技術分野において公知方法を使用して、参照ゲノムにアラインされ得る。アラインメント位置情報は、与えられた配列の開始ヌクレオチド塩基および末端ヌクレオチド塩基に相当する参照ゲノム中の領域の開始位置および末端位置を示すことができる。また、位置合わせ位置情報は、開始位置および終了位置から決定することができる配列読み取り長を含むことができる。参照ゲノム中の領域は、遺伝子または遺伝子のセグメントと関連していてもよい。
様々な実施形態において、配列読み取りは、R1およびR2として示される読み取り一対から構成される。例えば、第1の読み取りR1は核酸断片の第1の端部から配列決定されてもよいが、第2の読み取りR2は核酸断片の第2の端部から配列決定されてもよい。したがって、第1の読み取りR1および第2の読み取りR2のヌクレオチド塩基対は、参照ゲノムのヌクレオチド塩基と一貫して(例えば、反対方向に)並んでいてもよい。読み取り一対R1およびR2から導かれるアラインメント位置情報、第1の読み取り(例えば、R1)の末端に対応する参照ゲノム内の開始位置、および第2の読み取り(例えば、R2)の末端に対応する参照ゲノム内の末端位置を含むことができる。言い換えれば、参照ゲノムにおける開始位置および終了位置は、核酸断片が対応する参照ゲノム内の可能性のある位置を表すことができる。SAM(配列アラインメントマップ)フォーマットまたはBAM(バイナリ)フォーマットを有する出力ファイルが生成され、メチル化状態決定のようなさらに詳しい分析のために出力され得る。
実施例3-メチル化状態ベクターの生成
図9は、本開示による一実施形態による、メチル化状態ベクターを得るためにcfDNAの断片を配列決定するプロセス900を説明するフローチャートである。
図9は、本開示による一実施形態による、メチル化状態ベクターを得るためにcfDNAの断片を配列決定するプロセス900を説明するフローチャートである。
ステップ902を参照すると、cfDNA断片は、生物学的試料から得られる(例えば、実施例2と併せて上記で論じたように)。ステップ920を参照すると、cfDNA断片を処理して、非メチル化シトシンをウラシルに変換する。一実施形態では、DNAは、メチル化シトシンを変換することなく、cfDNAの断片の非メチル化シトシンをウラシルに変換する重亜硫酸処理に付される。例えば、EZ DNAMethylation(商標)-Gold、EZ DNAMethylationTM-DirectまたはEZ DNA Methylation(商標)-Lightningキット(Zymo Research Corp(Irvine, CA)から入手可能)などの市販キットが、いくつかの実施形態では、亜硫酸水素塩変換のために使用される。他の実施形態において、非メチル化シトシンのウラシルへの変換は、酵素反応を用いて達成される。例えば、変換は、非メチル化シトシンをウラシルに変換するための市販のキット、例えば、APOBEC-Seq(NEBiolabs, Ipswich, MA)を使用することができる。
変換されたcfDNA断片から、配列決定ライブラリーを調製する(ステップ930)。任意に、配列決定ライブラリーは、複数のハイブリダイゼーションプローブを用いて癌状態に有益であるcfDNA断片またはゲノム領域について935に富化される。ハイブリダイゼーションプローブは、具体的に特定されたcfDNA断片または標的領域にハイブリダイズし、その後の配列決定および分析のためにこれらの断片または領域を濃縮することができる短いオリゴヌクレオチドである。ハイブリダイゼーションプローブを用いて、研究者が関心を有する特定のCpG部位のセットの標的化された高‐深さ分析を行うことができる。いったん調製されると、配列決定ライブラリーまたはその一部を配列決定して、複数の配列読み取り(940)を得ることができる。配列読み取りは、コンピュータソフトウェアによる処理および解釈(判断)のために、コンピュータ読み取り可能なデジタルフォーマットであってもよい。
配列読み取りから、参照ゲノムへの配列読み取りのアラインメントに基づいて、各CpG部位の位置およびメチル化状態が決定される(950)。参照ゲノム中の断片の位置(例えば、各断片中の第1のCpG部位の位置、または別の同様の測定基準によって特定される)、断片中の複数のCpG部位、および断片中の各CpG部位のメチル化状態を特定する、各断片についてのメチル化状態ベクター(960)。
WGBSに関する詳細については、例えば、そのそれぞれが参照により本明細書に組み込まれている、「Anomalous Fragment Detection and Classification」と題する米国特許公開2019-0287652 A1、および「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開2020-0385813 A1を参照されたい。
実施例4-高腫瘍フラクションを有するテストケース
CCGA検討から、高腫瘍フラクションを有する試料(標的化配列決定(ART)推定腫瘍フラクション:15%;参加者ID 2737)を用いてテストケースを得た。概念実証目的のために、高腫瘍フラクションは、腫瘍由来の組織(例えば、腫瘍)試料およびcfDNA試料の両方において比較的多数の核酸断片を提供した。さらに、このテストケースはcfDNAからの標的メチル化データを含んでいた。対照非癌データセットは、特異性閾値99%で非癌と分類されたすべての断片を用いてCCGAデータから選択した。その全体が参照により本明細書に組み込まれている、「Liu et al., 2019, “Genome-wide cell-free DNA (cfDNA) methylation signatures and effect on tissue of origin (TOO) performance,” J. Clin. Oncology 37(15), 3049-3049」を参照されたい。断片は、最小マッピング品質(MAPQ)、ならびに重複、未コール(uncalled)、および未変換断片に対してフィルタリングされた。断片はp値フィルタリングされなかった。以下のパラメータを用いて、開示された方法の例示的な実施形態を用いて、参加者2737および対照非癌データセットからの腫瘍試料について、異なるメチル化状態間隔(インターバル)の同定を行った:腫瘍試料についてのカバレッジの最小深さ=10、腫瘍試料の最小変異対立遺伝子フラクション(VAF)=0.2、非癌試料についてのカバレッジの最小深さ=0、非癌試料の最大VAF=0.001、間隔におけるCpGの数=5。本明細書に開示されるように、VAFは、適格なメチル化パターンについて、対応する1の遺伝子座(または複数の遺伝子座)で観察される断片メチル化パターンの総数にわたって、1または複数の適格なメチル化パターン(QMP)のフラクションを指すことができる。
CCGA検討から、高腫瘍フラクションを有する試料(標的化配列決定(ART)推定腫瘍フラクション:15%;参加者ID 2737)を用いてテストケースを得た。概念実証目的のために、高腫瘍フラクションは、腫瘍由来の組織(例えば、腫瘍)試料およびcfDNA試料の両方において比較的多数の核酸断片を提供した。さらに、このテストケースはcfDNAからの標的メチル化データを含んでいた。対照非癌データセットは、特異性閾値99%で非癌と分類されたすべての断片を用いてCCGAデータから選択した。その全体が参照により本明細書に組み込まれている、「Liu et al., 2019, “Genome-wide cell-free DNA (cfDNA) methylation signatures and effect on tissue of origin (TOO) performance,” J. Clin. Oncology 37(15), 3049-3049」を参照されたい。断片は、最小マッピング品質(MAPQ)、ならびに重複、未コール(uncalled)、および未変換断片に対してフィルタリングされた。断片はp値フィルタリングされなかった。以下のパラメータを用いて、開示された方法の例示的な実施形態を用いて、参加者2737および対照非癌データセットからの腫瘍試料について、異なるメチル化状態間隔(インターバル)の同定を行った:腫瘍試料についてのカバレッジの最小深さ=10、腫瘍試料の最小変異対立遺伝子フラクション(VAF)=0.2、非癌試料についてのカバレッジの最小深さ=0、非癌試料の最大VAF=0.001、間隔におけるCpGの数=5。本明細書に開示されるように、VAFは、適格なメチル化パターンについて、対応する1の遺伝子座(または複数の遺伝子座)で観察される断片メチル化パターンの総数にわたって、1または複数の適格なメチル化パターン(QMP)のフラクションを指すことができる。
異なるメチル化状態間隔の特性
高腫瘍フラクションテストケース試料から得られたシーケンシングデータに基づいて、可能性のある適格なメチル化パターン(QMP)を、可能性のある各適格なメチル化パターンがメチル化された程度に基づいて評価した(図3)。ここでは、可能性のあるQMPを、テストケース試料のメチル化シーケンシングデータによって支持される5つの連続したCpG部位のメチル化状態の配列として定義する。図は、メチル化フラクションが低い可能性のあるQMPがほとんどないことを示しており(例えば、テストケースにおける可能性のあるQMPの大部分は高度にメチル化されている)、QMPの同定のためのメチル化パターンの高いポテンシャル機能性を強調している。
高腫瘍フラクションテストケース試料から得られたシーケンシングデータに基づいて、可能性のある適格なメチル化パターン(QMP)を、可能性のある各適格なメチル化パターンがメチル化された程度に基づいて評価した(図3)。ここでは、可能性のあるQMPを、テストケース試料のメチル化シーケンシングデータによって支持される5つの連続したCpG部位のメチル化状態の配列として定義する。図は、メチル化フラクションが低い可能性のあるQMPがほとんどないことを示しており(例えば、テストケースにおける可能性のあるQMPの大部分は高度にメチル化されている)、QMPの同定のためのメチル化パターンの高いポテンシャル機能性を強調している。
非癌試料を評価して、さらなる分析のための適切な間隔(例えば、5つのCpG部位を含む)を同定した。例えば、図4は、各候補間隔におけるカバレッジの深さ(「非癌cfDNA凝集体深さ+2」)に対する凝集QMPカウント(「非癌cfDNA凝集体Altカウント+1」)を示す、非癌対象由来のcfDNA由来の非癌核酸断片に含まれるすべての間隔の密度プロットを示す。密度(density)は、変異体カウントとカバレッジの深さとの交点の各領域における間隔の数を示し、一方、各候補区間におけるノイズのレベルは、色のレジェンドによって表される(例えば、薄いグレー:高ノイズ;ブラック:低ノイズ)。ノイズは、以下の式:ノイズ=(alt_counts+1)/(depth_coverage+2)
を用いて、対照非癌データセットに基づく頻度として計算される。ここで、「alt_counts」は、当該間隔での変異体メチル化パターンを有する断片の数であり、「depth_coverage」は、当該間隔をカバーする断片の数である。上記で定義された異なるメチル化パターンの同定のためのパラメータを使用すると、テストケースにおけるさらなる分析のための好ましい間隔は、高い深さ値および低いalt(バリアント)カウント値を有するものを含む。例えば、コントロール条件の安定性が高い間隔では、試験条件のばらつきは容易に明らかになる(x: cpgはQMP部位にまたがり、yは最終QMPに一致するパターンを含む断片を表す)。
を用いて、対照非癌データセットに基づく頻度として計算される。ここで、「alt_counts」は、当該間隔での変異体メチル化パターンを有する断片の数であり、「depth_coverage」は、当該間隔をカバーする断片の数である。上記で定義された異なるメチル化パターンの同定のためのパラメータを使用すると、テストケースにおけるさらなる分析のための好ましい間隔は、高い深さ値および低いalt(バリアント)カウント値を有するものを含む。例えば、コントロール条件の安定性が高い間隔では、試験条件のばらつきは容易に明らかになる(x: cpgはQMP部位にまたがり、yは最終QMPに一致するパターンを含む断片を表す)。
テストケース試料を評価し、異なるメチル化の識別子(例えば、バイオマーカー)としての成分間隔の適否を検証した。例えば、図5は、メチル化されたフラクション対ノイズレベルによってプロットされたテストケース対立遺伝子を示す。さらに、各交差領域におけるコンポーネント間隔について、テストケースデータと対照データの統計を比較した。各候補間隔の非癌コントロールデータセットにおけるカバレッジの深さはシェーディング(明るいグレー:高いカバレッジ;黒:低いカバレッジ)として表され、間隔(区間)の各群について提示された追加の統計には以下が含まれる:テストケース試料に対する変異対立遺伝子数(「vars」)、CpGsの総数(「cpgs」)、非癌コントロール試料における変異対立遺伝子数のメジアン(median)、および非癌対照試料におけるカバレッジ(カバー範囲)の深さのメジアン(中央値)(各グリッドにおけるカッコ内の数値で表される)。図5は、非癌対照試料ではノイズが低く、カバレッジの深さが高く、テストケース試料ではメチル化のフラクション(割合)が高い選択された間隔を強調している。
特に、ノイズレベル計算のための方法は、カバレッジの深さが低いために、コントロールデータセットに変異対立遺伝子がないにもかかわらず、いくつかの間隔に高いノイズ値を割り当てる結果となる。したがって、いくつかの実施形態では、特定のCpG部位のカバレッジの深さは、メチル化パターンを同定するためのノイズレベルよりも、より大きな適合性の表示を提供する。いくつかの実施形態では、カバレッジの深さは、配列読み取りの取得中に使用される配列決定プローブのタイプによって決定される。例えば、バイナリ(二元)配列決定(例えば、メチル化および非メチル化CpG部位の両方の増幅)のために設計されたプローブは、セミバイナリ配列決定(例えば、メチル化または非メチル化CpG部位のいずれかの増幅)のために設計されたプローブよりも低いノイズ、より少ないバイアス、およびより大きなカバレッジ深さを示すことができる。
cfDNAと生検組織の間のQMPフラクション(分率)は相関している。
cfDNAと生検組織の間のQMPフラクション(分率)は相関している。
図6は、テストケース試料からのcfDNA由来核酸断片または組織生検(例えば、腫瘍)由来核酸断片のいずれかを用いて計算されたQMPのフラクションの比較を示す。グラフ上の各点は、検討中の差次的にメチル化された間隔を表している。間隔をノイズレート<10-4に対してプレフィルタリングし、深さ層(tier、段)をpmin(floor(normal_depth/100000) * 100000,300000)と決定した。x軸は生検QMPフラクション(深さカバレッジにわたるQMPカウント)を示し、y軸はcfDNA QMPフラクションを示す。2つの試料タイプ間の相関は、グラフ内の点間の線形関係として示される。例えば、腫瘍において頻繁に観察される差次的メチル化領域は、cfDNAのいくつかの割合が腫瘍由来であるcfDNAにおいて相関した頻度で観察される。スロープ(この文脈において腫瘍フラクションに等しい)は、非癌対照サンプル(例えば、バイナリプローブによって増幅された領域)において、より高いカバレッジ深さおよび低ノイズを有する間隔を利用して、線形フィットで安定化する。
cfDNA QMPフラクションが腫瘍生検QMPフラクションをスケールするという観察は、cfDNA由来核酸サンプルが変異対立遺伝子フラクションを決定するために使用できるいうエビデンスを提供する(その後、例えば、腫瘍フラクション推定値の計算、疾患進行のモニタリング、および/または最小残存病変の決定などの下流への適用を支持する)。これは、癌などの疾患の検出、診断、および/または治療のための侵襲性の低い手段を提供する。腫瘍フラクション推定値の計算は、例えば、それぞれ参照により本明細書に組み入れられる、「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開2020-0385813 A1、「SYSTEMS AND METHODS FOR DETERMINING TUMOR FRACTION IN CELL-FREE NUCLEIC ACID」と題する国際特許公開第WO/2019/204360、「SYSTEMS AND METHODS FOR ESTIMATING CELL SOURCE FRACTIONS USING METHYLATION INFORMATION」と題する国際特許公開WO 2020/132148、および「SYSTEMS AND METHODS FOR TUMOR FRACTION ESTIMATION FROM SMALL VARIANTS」と題する米国特許公開2020-0340064 A1に詳細に記載されている。
差次的メチル化状態の検証
図10A、10B、10C、10D、および10Eは、対照非癌試料と比較して、高腫瘍フラクションテストケース試料から得られた核酸断片中の多数のCpG部位での異なるメチル化を示す。差次的メチル化状態間隔は、上記で定義したパラメータを用いて決定した:腫瘍試料に対する最小カバレッジ深さ=10、腫瘍試料の最小変異対立遺伝子フラクション(VAF)=0.2、非癌試料に対する最小カバレッジ深さ=0、非癌試料の最大VAF=0.001、および間隔におけるCpG数=5。本明細書に開示されるように、VAFは、適格なメチル化パターン(QMP)のフラクション値を参照するための省略形として使用される。
図10A、10B、10C、10D、および10Eは、対照非癌試料と比較して、高腫瘍フラクションテストケース試料から得られた核酸断片中の多数のCpG部位での異なるメチル化を示す。差次的メチル化状態間隔は、上記で定義したパラメータを用いて決定した:腫瘍試料に対する最小カバレッジ深さ=10、腫瘍試料の最小変異対立遺伝子フラクション(VAF)=0.2、非癌試料に対する最小カバレッジ深さ=0、非癌試料の最大VAF=0.001、および間隔におけるCpG数=5。本明細書に開示されるように、VAFは、適格なメチル化パターン(QMP)のフラクション値を参照するための省略形として使用される。
対照非癌試料(標的メチル化(COMPASS)試料を含む)、テストケース腫瘍生検試料、および腫瘍生検試料に一致したテストケースcfDNA試料を用いて、異なる(示差)メチル化状態を比較した。サマリ表には、間隔の開始位置と終了位置(「browser_range」)、定義されたメチル化状態(「states」、例えばMMMMM、MUMMMなど)、各間隔での組織生検試料の変異対立遺伝子数(「tumor_alt」)、各間隔での組織生検試料のカバレッジ深さ(「tumor_depth」)、各間隔での対照非癌試料の変異対立遺伝子数(「normal_alt」)、各間隔での対照非癌試料のカバレッジの深さ(「normal_depth」)、一致(マッチ)した試験ケースcfDNA試料の変異対立遺伝子数(「sample_alt」)、および一致した試験ケースcfDNA試料のカバレッジ深さ(「sample_depth」)を含む、各間隔の統計がリストされている。例えば、図10Aにおいて、組織生検試料は、可能性のある13のインスタンスのうち、定義されたメチル化状態MMMMMの6つのインスタンスと、代替のメチル化状態の7つのインスタンスとを含み、一方、対照非癌試料は、可能性のある82,581のインスタンスのうちの定義されたメチル化状態の2つのインスタンスを含む。したがって、生検試料の変異型対立遺伝子フラクションは、対照非癌試料の変異型対立遺伝子分率と比較して実質的に高い。
インタラクティブゲノミクスビューア(Interactive Genomics Viewer)(IGV)は、メチル化パターンを含むがこれらに限定されないゲノムデータ(例えば、BAMファイル)を閲覧するためのツールを提供する。例えば、図10Aの各パネルは、試験ケース腫瘍生検試料(「生検」)または試験cfDNA試料(「一致cfDNA」)からの5つの連続するCpG部位を含むゲノム領域に対応する。各行は、核酸断片に一対する読み取り一対(例えば、前後進ストランド)を表す。各パネルの上部に集まった棒で表されるような各カラムは、ゲノム中のヌクレオチド塩基である。CpG部位が、各パネルの順方位ストランドのC-G、逆方位ストランドのG-Cとして読み取られるように、核酸配列は順方位ストランドの方位で左から右に提示される。灰色と黒色の線は、読み取られた一対の各鎖について、それぞれメチル化シトシンとメチル化されていないシトシンを表している。灰色の線は非シトシン(例:適用できない)塩基を示し、褐色の線は一塩基多型(SNP)を示す。各パネルの上部にある集合バーは、すべての断片のすべての読み取りに対するすべてのコール(呼び出し)(メチル化シトシン、非メチル化シトシン、およびその他/非該当)の合計を表している。特に、カバレッジ深さに応じて、所与のヌクレオチドの集合表現は、複数の核酸断片間のメチル化および/またはメチル化されていないシトシンの存在、ならびに交互の読み取りにおける相補的グアニンの存在による、1、2または3つのコールを含むことができる。
図10A、10B、10C、10D、および10Eに図示されたIGVパネルは、種々のCpG間隔についての変異メチル化パターンを明らかにし、ここで、試験ケース腫瘍生検および一致した試験cfDNAの両方が、同様に、非癌cfDNAコントロールサンプルとは異なる。これらの実施例は、いくつかの実施形態に従って、開示された方法を使用して同定されたCpG間隔が、下流側の同定および/または分類目的のためにさらに使用され得る、試験サンプルと対照サンプルとの間の差次的メチル化状態を含むことを示す。
実施例5-メチル化と当業者腫瘍フラクション推定値の比較
組織および白血球試料(ART)の標的配列決定データ、ならびに組織およびcfDNA(メチル化)の全ゲノム亜硫酸水素配列決定データを、CCGA研究からの複数の参加者試料から得た。ART配列決定データを用いて小さな変異体を同定し、これを次に腫瘍フラクション推定値の算出に用いた。その高いカバレッジ深さ(例えば、各小変異体での2000‐3000Xまで)に特性があるため、ART腫瘍フラクションの推定値を用いて、その後の比較のための基準(ベースライン)を設定した。
組織および白血球試料(ART)の標的配列決定データ、ならびに組織およびcfDNA(メチル化)の全ゲノム亜硫酸水素配列決定データを、CCGA研究からの複数の参加者試料から得た。ART配列決定データを用いて小さな変異体を同定し、これを次に腫瘍フラクション推定値の算出に用いた。その高いカバレッジ深さ(例えば、各小変異体での2000‐3000Xまで)に特性があるため、ART腫瘍フラクションの推定値を用いて、その後の比較のための基準(ベースライン)を設定した。
メチル化データを同様に用いて、95%信頼区間を伴うメジアン事後推定値を用いて、各参加者の腫瘍フラクション推定値を算出した。具体的には、組織WGBSデータを用いて、差次的にメチル化された部位を同定し、呼びかけ(コールし)、一方、cfDNA WGBSデータを用いて、各部位におけるメチル化状態を評価し、腫瘍フラクション推定値を決定した。
腫瘍フラクション推定値の算出のためのシステムおよび方法は、例えば、参照により本明細書に組み込まれる「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開第2020‐0385813号に詳細に記載されている。簡単に述べると、腫瘍フラクション推定値は、各試料について得られた配列読み取りにおいて観察された変異体頻度から計算される。試料中のすべての変異体部位にわたる変異体カウントデータをモデル化し、腫瘍フラクションの事後推定値を提供する。
図11は、ART腫瘍フラクション推定値(x軸)に対するメチル化腫瘍フラクション推定値(y軸)のプロットを示しており、ここで、個々の参加者試料はプロット内の各点によって示され、個々の参加者の腫瘍フラクション推定値は、上記のように、各参加者試料に含まれるすべての変異体部位を用いて決定された。標的(ART)配列決定アッセイにおいて小さな変異体の読み取りエビデンスを示す参加者のみがプロットに含まれた。この制限は、腫瘍フラクション推定値の真偽を確認し、小規模な変異体のエビデンスが不足しているにもかかわらず、腫瘍フラクション推定値が事後分布によって決定された参加者を除外するために含めた。
このプロットは、2つの推定値の間に線形関係を示し、標的化配列決定またはメチル化配列決定のいずれかの方法からのデータを用いる場合、腫瘍フラクション推定値の間の一致を明らかにする。この一致は推定した腫瘍フラクションで10-4と低く観察され、この相関はロバストであることを示唆した。したがって、メチル化配列決定は、腫瘍フラクション推定および小変異体の標的配列決定としてのその後の下流側応用のための正確で信頼できるファンデーションを提供すると結論づけることができる。
実施例6-cfDNAフラクションの機能としての癌を検出する能力
本明細書に記載されるスコア分類指標は、非同義変異の標的化配列解析に基づく腫瘍突然変異負荷の分類指標である。例えば、分類スコア(例えば、「Aスコア」)は、腫瘍突然変異負荷データについてのロジスティック回帰を使用して計算することができ、そこでは、各個体についての腫瘍突然変異負荷の推定値が、標的cfDNAアッセイから取得される。いくつかの実施形態では、腫瘍突然変異負荷は、cfDNA中の候補変異体として呼ばれ、ノイズモデリングおよび継手コーリングを通過し、および/または変異体と重複する任意の遺伝子アノテーション中で非同義であると見出される、個体当たりの変異体の総数として推定され得る。トレーニングセットの腫瘍突然変異負荷数は、クロスバリデーションを用いて95%の特異性が達成されるカットオフを決定するために、罰金付き(penalized)ロジスティック回帰分類指標に与えられる。Aスコアに関するさらなる詳細は、例えば、Chaudhary et al., 2017, Journal of Clinical Oncology, 35(5), suppl.e14529において見出すことができ、これはその全体が参照により本明細書に組み込まれる。
本明細書に記載されるスコア分類指標は、非同義変異の標的化配列解析に基づく腫瘍突然変異負荷の分類指標である。例えば、分類スコア(例えば、「Aスコア」)は、腫瘍突然変異負荷データについてのロジスティック回帰を使用して計算することができ、そこでは、各個体についての腫瘍突然変異負荷の推定値が、標的cfDNAアッセイから取得される。いくつかの実施形態では、腫瘍突然変異負荷は、cfDNA中の候補変異体として呼ばれ、ノイズモデリングおよび継手コーリングを通過し、および/または変異体と重複する任意の遺伝子アノテーション中で非同義であると見出される、個体当たりの変異体の総数として推定され得る。トレーニングセットの腫瘍突然変異負荷数は、クロスバリデーションを用いて95%の特異性が達成されるカットオフを決定するために、罰金付き(penalized)ロジスティック回帰分類指標に与えられる。Aスコアに関するさらなる詳細は、例えば、Chaudhary et al., 2017, Journal of Clinical Oncology, 35(5), suppl.e14529において見出すことができ、これはその全体が参照により本明細書に組み込まれる。
Bスコア分類指標は、参照により本明細書に組み込まれる「Method and System for Selecting, Managing, and Analyzing Data of High Dimensionality」と題する米国特許公開US2019-0287649A1に記載されている。Bスコア法に従って、健常対象の参照群における健常対象からの核酸試料の配列読み取りの第1のセットを、変動性の低い領域について分析する。したがって、各健康な試験対象からの核酸サンプルの配列読み取りの第1のセットにおける各配列読み取りは、参照ゲノム内の領域に整列され得る。このことから、トレーニンググループ内の対象からの核酸サンプルの配列読み取りからの配列読み取りのトレーニングセットを選択することができる。トレーニングセットにおける各配列読み取りは、参照セットから同定された参照ゲノムのばらつきが低い領域の領域に整列する。トレーニングセットには、健常対象からの核酸試料の配列読み取り、ならびに癌を有することが知られている罹患対象からの核酸試料の配列読み取りが含まれる。トレーニンググループからの核酸試料は、健常対象の参照グループからの核酸試料のものと同一または類似のタイプである。このことから、トレーニングセットの配列読み取りから得られる量を用いて、健常対象からの核酸試料の配列読み取りと、トレーニンググループ内の罹患対象からの核酸試料の配列読み取りとの間の差異を反映する1または複数のパラメータを決定する。次に、癌に関する状態が不明である対象からのcfDNA断片を含む核酸試料に関連する配列読み取りのテストセットを受け取り、その1または複数のパラメータに基づいて、癌を有する対象の可能性を判定する。
Mスコア分類指標は、それぞれが参照により本明細書に組み込まれる、2019年3月13日に出願された「Methylation Fragment Anomaly Detection」と題する米国特許公開US2019-0287652 A1、および「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開US2020-0385813 A1に記載されている。
実施例7-腫瘍フラクションの推定方法の実施例
非メチル化シーケンシングデータのために、cfDNA試料の腫瘍フラクションを推定するためのいくつかの方法が開発された。それぞれが参照により本明細書に組み込まれる、国際特許公開WO/2019/204360「SYSTEMS AND METHODS FOR DETERMINING TUMOR FRACTION IN CELL-FREE NUCLEIC ACID」と題する国際特許公開WO 2020/132148、「SYSTEMS AND METHODS FOR ESTIMATING CELL SOURCE FRACTIONS USING METHYLATION INFORMATION」と題する米国特許公開US2020-0340064 A1、「SYSTEMS AND METHODS FOR TUMOR FRACTION ESTIMATION FROM SMALL VARIANTS」を参照されたい。例えば、アプローチの1つは、図13Aにおいて方法1300として示された。このアプローチでは、ホルマリン固定、パラフィン包埋(FFPE)腫瘍組織(例えば、1304)からの核酸試料、および適合患者(例えば、1306)からの白血球(WBC)からの核酸試料を、全ゲノム配列決定(WGS)によって配列決定した。シーケンシングデータに基づいて同定された体細胞変異体(例えば、1308)を、同一患者(例えば、1310)からの一致するcfDNAシーケンシングデータに対して分析し、腫瘍フラクション推定値(例えば、1312)を決定した。
非メチル化シーケンシングデータのために、cfDNA試料の腫瘍フラクションを推定するためのいくつかの方法が開発された。それぞれが参照により本明細書に組み込まれる、国際特許公開WO/2019/204360「SYSTEMS AND METHODS FOR DETERMINING TUMOR FRACTION IN CELL-FREE NUCLEIC ACID」と題する国際特許公開WO 2020/132148、「SYSTEMS AND METHODS FOR ESTIMATING CELL SOURCE FRACTIONS USING METHYLATION INFORMATION」と題する米国特許公開US2020-0340064 A1、「SYSTEMS AND METHODS FOR TUMOR FRACTION ESTIMATION FROM SMALL VARIANTS」を参照されたい。例えば、アプローチの1つは、図13Aにおいて方法1300として示された。このアプローチでは、ホルマリン固定、パラフィン包埋(FFPE)腫瘍組織(例えば、1304)からの核酸試料、および適合患者(例えば、1306)からの白血球(WBC)からの核酸試料を、全ゲノム配列決定(WGS)によって配列決定した。シーケンシングデータに基づいて同定された体細胞変異体(例えば、1308)を、同一患者(例えば、1310)からの一致するcfDNAシーケンシングデータに対して分析し、腫瘍フラクション推定値(例えば、1312)を決定した。
メチル化シーケンシングデータについては、メチル化データ(標的化メチル化またはWGBSにより得られた)に基づいてcfDNA試料の腫瘍フラクションを推定するための複数の方法が開発された。それぞれが参照により本明細書に組み込まれる、「SYSTEMS AND METHODS FOR ESTIMATING CELL SOURCE FRACTIONS USING METHYLATION INFORMATION」と題された国際特許公開WO2020/132148、「SYSTEMS AND METHODS FOR TUMOR FRACTION ESTIMATION FROM SMALL VARIANTS」と題された米国特許公開US2020-0340064A1を参照されたい。例えば、これらのアプローチの1つは、図13Bの方法1302として例示されている。このアプローチでは、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織(例えば、1314)からの核酸試料を、全ゲノム亜硫酸水素配列決定(WGBS)により分析した。シーケンシングデータに基づいて同定された体細胞変異体(例えば、1316)を、同一患者からの一致するcfDNA WGBSシーケンシングデータに対して分析し(例えば、1318)、腫瘍フラクション推定値を決定した(例えば、1320)。
亜硫酸水素変換のような手順は、メチル化シーケンシングデータに基づく変異体識別をより困難にする。そのため、メチル化シーケンシングデータに基づいて腫瘍フラクションを推定するためには、変異体に基づく方法の代替法が必要である。WGBSシーケンシングデータに基づく腫瘍フラクション分析の実施例をこの実施例で詳述する。
図14および15は、適格なメチル化パターン(QMP)を使用する2つの方法を示す。これらの例において、QMPは、SNPおよび/またはSNVのような従来の変異体突然変異の代わりに、腫瘍由来核酸を定量するために使用される。
これら2実施例では、CCGAデータを活用して、腫瘍DNAメチル化パターンを含むcfDNA、TF、および癌分類性能の間の関係を調べた。CCGA分類指標は、癌対非癌を検出するために、全ゲノム亜硫酸水素配列決定(WGBS)と標的メチル化(TM)シーケンシングデータについてトレーニングした。822試料が生検WGBSを実施され、そのうち231試料はcfDNA標的メチル化(TM)およびcfDNA全ゲノム配列決定(WGS)も有していた。生検WGBSでは、体細胞単一ヌクレオチド変形例(SNV)および適格性確認メチル化パターン(QMP;生検で一般的に観察されるが、非癌コントロールのcfDNAではまれに[<1/10,000]に観察される配列決定されたDNA断片におけるメチル化パターンとして定義される[n=898])が同定された。本開示における特定の例において、QMPは「メチル化変形例」またはMVとも呼ばれた。観察された腫瘍断片数(WGSにおけるSNV;TMにおけるQMPs)をTFに依存する速度を有するPoisson処理としてモデル化した。TFおよび検出の分類指標限界(LOD)は、各ベイジアンロジスティック回帰を用いて評価した。
結果。生検サンプル全体では、メジアン2635のQMPがゲノム全体に分布しており、メジアン86.8%が≧1名の参加者と共有され、メジアン69.3%がTMアッセイの標的であった。QMPからのTF LODは0.00050(95%信頼区間[CI]:0.00041~0.00061)であり、QMPとSNV推定値は一致した(Spearman's Rho: 0.820)。QMP TFは、説明された分類指標パフォーマンス(Spearman's Rho: 0.856)を推定し、分類指標LODの判定を可能にした(0.00082[95% CI: 0.00057~0.00115])。
結論。これらのデータは、癌に罹患していない個々にはほとんどみられない腫瘍由来cfDNA断片にメチル化パターンが存在することを実証している;その存在量はTFを直接測定し、分類性能に影響する主要な因子であった。最後に、低分類指標LOD(~0.1%)は、癌検出のためのメチル化に基づくアッセイのさらなる臨床開発を動機づけている。
図14Aは、例えば、WGBSシーケンシングデータに基づいて腫瘍由来核酸の存在量レベルを推定するためにQMPを使用する例示的なプロセス1400を示す。この図および図15Aでは、データは楕円ブロック(例えば、1402、1404、および1410)で表され、分析結果は矩形ブロック(例えば、1406、および1420)で表される。特に、癌試験対象x由来の生検核酸試料(例えば、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織由来)は、全ゲノム亜硫酸水素配列決定(WGBS)を用いて配列決定される。シーケンシングデータは、一組のQMP(例えば、1406)を同定するために、参照データセット(例えば、非癌対照群からのプラズマcfDNA試料の1404、WGBSデータ)と比較される。この特定の例では、1404のデータセットは898の非癌サンプルを含んでいた。いくつかの代替実施形態において、WGBSデータではなく、1404は、非癌対照群のプラズマcfDNAの標的化メチル化データであり得る。いくつかの実施形態では、ステップ1410において、同じ癌対象xからの別の試料(例えば、cfDNA試料)が、新しいWGBSデータセットを生成するために使用される。いくつかの実施形態では、1410の試料は、例えば、対象を癌状態の治療で治療した後に、ステップ1402の試料と比較して後の時点で対象から収集される。以前に同定された各QMPの存在量レベルは、この新しいWGBSデータセットに基づいて決定される。いくつかの実施形態では、存在量レベルは、腫瘍フラクション推定値を計算するために使用され得る。いくつかの代替実施では、ステップ1402および1410の両方で、同じ癌試料が使用される。
任意の1408として示されるいくつかの実施形態では、1406でのQMP識別を容易にするために、1410からのWGBSデータセットを1402からのWGBSデータと組み合わせて使用することができる。
図14Bは、同定されたQMPのセットの各々の存在量レベルを適格化するための例示的な方法1430を示す。ステップ1440では、複数の断片メチル化パターン(FMP)が、癌対象の生検試料(例えば、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織からの)からのメチル化シーケンシングデータ(例えば、WGBSに基づく)に基づいて取得される。いくつかの実施形態では、FMPは、完全な核酸断片またはその一部におけるCpG部位のメチル化状態を表す。例えば、7個のCpG部位(例えば、FMPの所定の長さ)を含有する核酸断片のFMPは、MUMUMUUであってもよく、ここで、各Mはメチル化CpG部位を示し、Uは非メチル化CpG部位を示し、MまたはUによって示される各CpGは対応するゲノム座標を有する。いくつかの実施形態では、FMPの所定の長さは、核酸断片中のCpG部位の総数よりも短く、6個または5個に変更することができる。このように、核酸断片は複数のFMPに対応することができる。所定の長さが6の場合、核酸断片は、MUMUMU(断片中のCpG部位1~6に対応)またはUMUMUU(断片中のCpG部位2~7に対応)に対応し得る。所定の長さが5の場合、核酸断片は、MUMUM(断片中のCpG部位1~5に対応)、UMUMU(断片中のCpG部位2~6に対応)、またはMUMUU(断片中のCpG部位3~7に対応)に対応し得る。断片中のCpG部位の総数がFMPの所定の長さよりもはるかに大きい場合、単一の核酸断片に基づいて複数の「見かけ上同一の」FMPを誘導することが可能であることに留意されたい。例えば、11個のCpG部位(MMUMMUMMUMM)を含む断片の場合、これは当てはまる。FMPの所定の長さが5である場合、MMUMM(断片中のCpG部位1~5に対応)、MMUMM(断片中のCpG部位4~8に対応)、およびMMUMM(断片中のCpG部位7~11に対応)の少なくとも3つの見かけ上同一であることが可能である。これら3つの異なるCpG部位のメチル化状態の配列は同一であるが、それぞれに含まれるCpG部位は異なるゲノム座標に対応しているので、これらは3つの異なるFMPを表すことができる。いくつかの実施形態では、所定の長さについて、FMPの回収を、癌対象のメチル化配列決定データセットに基づいて、すべての核酸断片について同定することができる。いくつかの実施形態では、FMPの複数のコレクションを、それぞれ所定の長さについて識別することができる。
いくつかの実施形態では、FMPの収集は、WGBSデータから派生する。
ステップ1445では、癌対象に対する適格なメチル化パターン(QMP)が、参照データセット(例えば、非癌対象のグループからのWGBSシーケンシングデータに基づく;例えば、陰性対照)を用いて、前のステップで同定されたFMPに基づいて同定される。QMPを同定する方法は、図2に記載されているものとすることができる。
いくつかの実施形態では、QMPは、癌対象にのみ存在し、対照非癌対象には存在しないFMPとして同定される。いくつかの実施形態(図2に記載されているものなど)では、複数の癌対象のAMPセットを同定するために、複数の癌対象からのFMPを、対照非癌のメチル化シーケンシングデータと比較することができる。いくつかの実施形態では、非癌患者由来のcfDNAは、1404の参照WGBSメチル化データを確立するために使用される。
ステップ1450で、追加のメチル化シーケンシングデータ(例えば、同じ癌対象からの一致するcfDNA試料のWGBSデータ1410)を用いて、腫瘍フラクションを推定することができる。
任意のステップ1452で、追加のメチル化シーケンシングデータ(例えば、同じ癌対象からの一致するcfDNA試料のWGBSデータ1410)を、ステップ1430からの一致する生検メチル化シーケンシングデータと組み合わせて使用して、癌対象に対するQMPの同定を容易にすることができる。
一組のQMPが癌試験対象について同定されると、ステップ1450からのメチル化シーケンシングデータに基づいて、同定された各QMPの存在量レベルを決定することができる。例えば、特定のQMPを有するユニークな核酸断片の数は、その存在量レベルの指標として数えることができる。いくつかの実施形態では、同定されたQMPセットにおける各QMPの存在量レベルは、式(1)を用いる方法を含むが、これらに限定されない適用可能な方法に基づいて、癌対象に対する腫瘍フラクションを推定するために使用され得る。
いくつかの実施形態では、図14Aおよび14Bに示されるプロセスは、癌対象のグループに適用され得る。いくつかの実施形態では、癌対象のグループは、特定の癌型に基づいて細分化され得る。これらの細分化されたグループから抽出された特徴は、異なる癌タイプにわたる腫瘍フラクションを計算するための全体モデルにおいて組み合わせることができる。あるいは、異なる癌タイプについて別々の腫瘍フラクションモデルを決定することができる。
図15Aおよび15Bは、標的化メチル化(TM)データを使用して腫瘍フラクションを推定するためのQMPに基づく方法を示す。図15Aに示されるように、全体セットアップ1500は、一般に、図14Aに示されるものと同様である(例えば、1502、1504、および1506参照)。さらに、標的化メチル化配列決定からの影響に対処するために、さらなるステップが必要である:例えば、i)癌対象からのTMシーケンシングデータが使用され(例えば、1510)、ii)非癌試料からのさらなるTMシーケンシングデータが使用され(例えば、1512)、iii)選択された領域が、カバレッジまたは配列決定深さに影響を及ぼす濃縮される。したがって、TMシーケンシングデータのための配列決定深さは、腫瘍フラクション(例えば、1520)を推定するために使用される前に、それに応じて(例えば、1515に基づいて)較正されなければならない。例えば、0%および100%メチル化ゲノムDNAの50/50の混合物は、知覚される配列決定深さに対する濃縮プローブの効果を評価するために、並行WGBSおよびTM分析にかけることができる。
図15Bは、図15Aに対応する方法ステップを示す。全体的な方法論は、図14Bに示されているものと類似している。例えば、ステップ1540において、ステップ1440と同様に、FMPは、癌対象の腫瘍組織に由来する核酸試料の生検WGBSデータに基づいて得られる。
ステップ1545では、前段階で得られた生検WGBSデータおよび非癌対象由来のWGBS cfDNAデータに基づいて、一組のQMPが同定される。ここでは、非癌対象のシーケンシングデータを陰性対照として、例えば、特定の断片メチル化パターンまたはFMPを除外またはブラックリスト化するために使用する。さらに、生検由来の核酸およびcfDNA試料からのWGBSデータに比較的豊富に存在するFMPは、癌分類、特に起源組織分析にあまり有用ではない傾向があり、したがって、これらは、いくつかの実施形態において同様に除外することができる。
ステップ1550では、前のステップで同定されたQMPは、腫瘍フラクション推定、癌または起源組織分類の評価などを含むが、これらに限定されない多くの用途に使用される前に、さらに洗練され、較正され得る。いくつかの実施形態では、ステップ1550-1において、標的化メチル化(TM)シーケンシングデータが、同じ試験対象からの適合するcfDNA試料から得られる。例えば、ステップ1545からのcfDNA試料の亜硫酸水素調製物は、2つの部分に分割することができる:一方をWGBS配列決定において使用し、他方を、濃縮された試料が洗浄され、溶出され、PCRによって増幅され、正規化され、プールされ、メチル化配列解析に供される前に標的化濃縮(例えば、核酸プローブに対するハイブリダイゼーションの1または複数のラウンドによって)することができる。1550-1からのデータセットは、例えばTFを推定するための基礎として使用される。1550-2として示されるいくつかの実施形態では、非癌対象からのcfDNA試料の別のTM配列決定データセットを使用して、QMPの最終セットからFMPを除外またはブラックリストにすることができる。ステップ1550の後、精密化(リファイン)された一組のQMPをその後の分析のために得ることができる。
ゲノムのある領域は濃縮されているので、濃縮された領域のカバレッジまたは深さは、それらの実際の値よりも大きく、したがって、較正されるべきである(例えば、1550-3)。いくつかの実施形態では、既知の較正試料は、濃縮の有無にかかわらず、配列決定することができる。例えば、出発物質は、完全にメチル化された核酸を完全にメチル化されていない核酸と混合することによって作り出すことができる。その後、2つのサンプルが作成され、その核酸含有量は互いに較正され;例えば、第1のサンプルは出発原料と同じであり、第2のサンプルは、TM配列決定アッセイのために設計されたプローブを使用して濃縮されている。次いで、両方のサンプルをメチル化配列解析にかける。次いで、プルダウンバイアスを低減するために、2つの試料のシーケンシングデータを用いて、特定のCpG部位のカバレッジおよび深さを比較する。
ステップ1555で、精製されたQMPのセットにおける各QMPの存在量レベルを、腫瘍フラクションを推定するために使用される前に、1550-1からのTMメチル化データに基づいて評価することができる。
実施例8-QMPに基づく標的メチル化画分の推定
メチル化変異体(y軸、詳細は後述)対短い遺伝的変異体について腫瘍生検特徴脱落(shedding)率から推定されるcfDNA腫瘍フラクションが、この実施例で開示される。231のトレーニングセット参加者について、配列決定エラーおよび集団変異体をモデリングした後に、FFPE腫瘍生検サンプルの30x全ゲノム亜硫酸水素配列決定から変異体を同定した(「補助的な方法(Supplementary Methods)」を参照)。参加者のcfDNA腫瘍フラクションの推定値は黒丸で表され、95%の信頼区間は水平または垂直の灰色の線で示される。対角の灰色線は、2つの方法の間の完全な一致を表す。
メチル化変異体(y軸、詳細は後述)対短い遺伝的変異体について腫瘍生検特徴脱落(shedding)率から推定されるcfDNA腫瘍フラクションが、この実施例で開示される。231のトレーニングセット参加者について、配列決定エラーおよび集団変異体をモデリングした後に、FFPE腫瘍生検サンプルの30x全ゲノム亜硫酸水素配列決定から変異体を同定した(「補助的な方法(Supplementary Methods)」を参照)。参加者のcfDNA腫瘍フラクションの推定値は黒丸で表され、95%の信頼区間は水平または垂直の灰色の線で示される。対角の灰色線は、2つの方法の間の完全な一致を表す。
また、メチル化パターンから腫瘍フラクションを以下のように算出した。メチル化変異体は、腫瘍生検WGBSデータ標本(≧0.2変異対立遺伝子分率、≧10X 部位に及ぶ断片の合計深さ)で生じ、凝集した非癌cfDNA WGBSデータ(≦0.001変異対立遺伝子フラクション)ではまれに生じた5つの連続したCpGとそれらのメチル化状態(例えば、CpG10 -CpG14 MMMMM)のセットとして定義した。適合生検試料で同定されたメチル化変異体を、(1)0%または100%メチル化CpGs、(2)0%メチル化および100%メチル化ゲノムDNAの混合物を所定の組成(例えば、50/50、40/60、30/70、20/80、または10/90比)での対照実験において、本発明者らの標的化メチル化アッセイにより効果的にプルダウンされたもの、および(3)重複しないセットを形成したもの(二重計数を緩和するため)にフィルタリングした。プルダウンバイアスを種々のコントロールデータを用いてサイト毎に推定した。後部腫瘍フラクション推定値は、各変異体部位をカバーする変異体一致および非一致フラクションの数を用いて作成した。部位ごとのポアソン尤度モデルを採用し、速度定数(rate constant)を腫瘍フラクション、プルダウンバイアス、推定総配列決定深さ、およびバックグラウンドノイズ率の関数として計算した。この方法は、合成希釈を使用して厳密に開発および検証され、cfDNAのの患者適合WGBSから生成された推定値と比較した(マニュスクリプト準備中)。
cfDNA中の腫瘍の特徴を有する断片の観察計数から腫瘍分率を推定した。腫瘍組織生検のWGBSから、遺伝的小ヌクレオチド変異体およびメチル化変異体腫瘍の特徴を決定した。参加者231人のサブセットは、トレーニングセットで腫瘍生検とcfDNA配列決定が一致し、腫瘍フラクションの推定に用いられた。この参加者のセットは、生検が標的選択に用いられた参加者を除外した。
より具体的には、SNVから腫瘍-フラクションを算出するために、腫瘍組織のWGBSおよびcfDNAのWGSの共同分析を実施し、腫瘍関連体細胞性小ヌクレオチド変異体を同定した。例えば、参照により本明細書に組み込まれる、2020年2月28日出願の「Systems and Methods for Calling Variants Using Methods Using Methylation Sequencing Data」と題された米国仮特許出願第62/983,404号を参照されたい。このプロセスは、鎖特異的ピレップとBayesian(ベイジアン)遺伝子型モデルを用いて亜硫酸水素への変換(非メチル化CからTへの変換)の影響を説明するカスタム変異体呼び出し元(caller)を用いて、WGBS組織内のSNVを呼び出すことから始まった。いったんSNVの候補リストが生成されると、体細胞変異体を濃縮するために一連のフィルタリングステップが実施された。なぜなら、これらの個体についての適合正常参照を用いたフィルタリングは利用できなかったからである。これらのフィルターには、最小値や最大値変異型対立遺伝子頻度(VAF)、最小深さ、既知のノイズ部位のカスタムブラックリスト、試料適合WGS cfDNA内のフリーベイ(freebay)によりマークされた個人に対してプライベートな生殖系列細胞変異体の除去、およびgnomADおよびdbSNPを用いた既知の生殖系列細胞変異体のブラックリストが含まれた。各変異体をサポートするフラグメントとサポートしないフラグメントの数は、対応するcfDNAサンプルの一致したWGSシーケンスから生成された。事後腫瘍フラクション推定値は、腫瘍フラクションに対するグリッド検索を使用し、二項尤度の混合として定義される変異体ごとの尤度を使用して計算された。混合成分は、(1)腫瘍排泄による断片の観察、ならびに、(2)生殖細胞系変異体および誤ってコールされた変異体(falsely called variant)を含む種々のエラーモードを説明した。各参加者の腫瘍フラクションについて、中央値および95%信頼区間を算出した。
実施例9 - セルソースの実施例
いくつかの実施形態では、本開示のいずれかの実施形態の細胞源(対象の第1、第2、または第3のセットにおける対応する対象、または標的対象から得られたそれぞれの生物学的サンプル)は、共通の原発部位の第1の癌である。いくつかの実施形態では、第1の癌は、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道の癌、リンパ腫、頭頸部癌、卵巣癌、肝胆道癌、黒色腫、子宮頸癌、多発性骨髄腫、白血病、甲状腺癌、膀胱癌、胃癌、またはそれらの組合せである。
いくつかの実施形態では、本開示のいずれかの実施形態の細胞源(対象の第1、第2、または第3のセットにおける対応する対象、または標的対象から得られたそれぞれの生物学的サンプル)は、共通の原発部位の第1の癌である。いくつかの実施形態では、第1の癌は、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道の癌、リンパ腫、頭頸部癌、卵巣癌、肝胆道癌、黒色腫、子宮頸癌、多発性骨髄腫、白血病、甲状腺癌、膀胱癌、胃癌、またはそれらの組合せである。
いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、特定の癌タイプの腫瘍、またはそのフラクションである。いくつかの実施形態では、腫瘍は、副腎皮質癌、小児副腎皮質癌、AIDS関連癌の腫瘍、カポジ肉腫、肛門癌に関連する腫瘍、虫垂癌に関連する腫瘍、星細胞腫、小児(脳癌)腫瘍、非定型奇形腫様/ラブドイド腫瘍、中枢神経系(脳癌)腫瘍、皮膚の基底細胞癌、胆管癌に関連する腫瘍、膀胱癌腫瘍、小児膀胱がんの腫瘍、骨癌(例えば、ユーイング肉腫、骨肉腫、悪性線維性組織球腫)組織、脳腫瘍、乳癌組織、小児乳癌組織、小児気管支腫瘍、バーキットリンパ腫組織、カルチノイド腫瘍(消化管)、小児カルチノイド腫瘍、原発不明癌、小児原発不明癌、小児心臓(心臓)腫瘍、中枢神経系(例えば、小児非定型奇形腫様/ラブドイド様などの脳腫瘍)腫瘍、小児胚性腫瘍、小児胚細胞腫瘍、子宮頸癌組織、小児子宮頸癌組織、胆管癌組織、小児脊索腫組織、慢性骨髄増殖性腫瘍、結腸直腸癌腫瘍、小児結腸直腸癌腫瘍、小児頭蓋咽頭腫組織、非浸潤性乳管癌(DCIS)、小児胚性腫瘍、子宮内膜癌(子宮癌)組織、小児上衣腫組織、食道癌組織、小児食道癌組織、鼻腔神経芽細胞腫(頭頸部癌)組織、小児頭蓋外胚細胞腫瘍、性腺外胚細胞腫瘍、眼の癌組織、眼内黒色腫、網膜芽細胞腫、卵管癌組織、胆嚢癌組織、胃(stomach)癌組織、小児胃(stomach)癌組織、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、小児の消化管間質腫瘍、胚細胞腫瘍(例えば、小児中枢神経系胚細胞腫瘍、小児頭蓋外胚細胞腫瘍、性腺外胚細胞腫瘍、卵巣胚細胞腫瘍、または精巣癌組織)、頭頸部癌組織、小児心臓腫瘍、肝細胞癌(HCC)組織、膵島細胞腫瘍(膵神経内分泌腫瘍)、腎臓または腎細胞癌(RCC)組織、喉頭癌組織、白血病、肝臓癌組織、肺癌(非小細胞および小細胞)組織、小児肺癌組織、男性乳癌組織、骨の悪性線維性組織球腫および骨肉腫、黒色腫、小児黒色腫、眼内黒色腫、小児眼内黒色腫、メルケル細胞癌、悪性中皮腫、小児中皮腫、転移性癌組織、潜在的な原発組織を伴う転移性頸部扁平上皮癌、NUT遺伝子の変化を伴う正中線癌、口腔癌(頭頸部癌)組織、多発性内分泌腫瘍症候群組織、多発性骨髄腫/形質細胞腫瘍、骨髄異形成症候群組織、骨髄異形成/骨髄増殖性新生物、慢性骨髄増殖性腫瘍、鼻腔および副鼻腔癌組織、上咽頭癌(NPC)組織、神経芽腫組織、非小細胞肺癌組織、口腔癌組織、口唇および口腔癌および中咽頭癌組織、骨肉腫および骨組織の悪性線維性組織球腫、卵巣癌組織、小児卵巣癌組織、膵臓癌組織、小児膵臓癌組織、乳頭腫症(小児喉頭)組織、傍神経節腫組織、小児傍神経節腫組織、副鼻腔および鼻腔癌組織、副甲状腺癌組織、陰茎癌組織、咽頭癌組織、褐色細胞腫組織、小児褐色細胞腫組織、下垂体腫瘍、形質細胞腫瘍/多発性骨髄腫、胸膜肺芽腫、原発性中枢神経系(CNS)リンパ腫、原発性腹膜癌組織、前立腺癌組織、直腸癌組織、網膜芽細胞腫、小児横紋筋肉腫、唾液腺癌組織、肉腫(例えば、小児血管腫瘍、骨肉腫、子宮肉腫など)、セザリー症候群(リンパ腫)組織、皮膚癌組織、小児皮膚癌組織、小細胞肺癌組織、小腸癌組織、皮膚の扁平上皮癌、原発不明の扁平上皮頸部癌、皮膚T細胞リンパ腫、精巣癌組織、小児精巣癌組織、咽喉癌(例えば、上咽頭癌、中咽頭癌、下咽頭癌)組織、胸腺腫または胸腺癌、甲状腺癌組織、腎盂および尿管組織の移行上皮癌、未知の原発性癌組織、尿管または腎盂組織、移行上皮癌(腎臓(腎細胞)癌組織、尿道癌組織、子宮内膜癌組織、子宮肉腫組織、膣癌組織、小児膣癌組織、血管腫瘍、外陰癌組織、ウィルムス腫瘍またはその他の小児腎腫瘍である。
いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、第1の癌である。上記実施態様では、第1の癌は、乳癌の病期(ステージ)、肺癌の病期、前立腺癌の病期、大腸癌の病期、腎癌の病期、子宮癌の病期、膵癌の病期、食道癌の病期、リンパ腫の病期、頭頸部癌の病期、卵巣癌の病期、肝胆道癌の病期、黒色腫の病期、子宮頸癌の病期、多発性骨髄腫の病期、白血病の病期、甲状腺癌の病期、膀胱癌の病期、または胃癌の病期である。
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、乳癌の所定の段階(ステージ)、肺癌の所定の段階、前立腺癌の所定の段階、大腸癌の所定の段階、腎癌の所定の段階、子宮癌の所定の段階、膵臓癌の所定の段階、食道の所定の段階、リンパ腫の所定の段階、頭頸部癌の所定の段階、卵巣癌の所定の段階、肝胆道癌の所定の段階、黒色腫の所定の段階、子宮頸癌の所定の段階、多発性骨髄腫の所定の段階、白血病の所定の段階、甲状腺癌の所定の段階、膀胱癌の所定の段階、または胃癌の所定の段階である。
いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、非癌性組織由来である。いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、健康な組織に由来する細胞に由来する。いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、乳房、肺、前立腺、結腸直腸、腎臓、子宮、膵臓、食道、リンパ液、卵巣、子宮頸部、表皮、甲状腺、膀胱、胃、またはそれらの組み合わせなどの健康な組織からのものである。
いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、1つの組織型(組織タイプ)に由来する。いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、2つ以上の組織型に由来する。いくつかの実施形態では、組織型は、1または複数の細胞型(例えば、健康な非癌性細胞および癌性細胞の組み合わせ)を含む。いくつかの実施形態では、組織型は、1つの細胞型(例えば、癌性または健康な非癌性細胞のいずれか)を含む。
いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、1つの細胞型(細胞タイプ)、2つの細胞型、3つの細胞型、4つの細胞型、5つの細胞型、6つの細胞型、7つの細胞型、8つの細胞型、9つの細胞型、10つの細胞型、または10を超える細胞型を構成する。
いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、肝細胞である。いくつかの上記実施形態において、細胞源は、肝細胞、肝星状脂肪記憶細胞(ITO細胞)、クッパー細胞、類洞内皮細胞、またはそれらの任意の組合せである。
いくつかの実施形態では、本開示のいずれかの実施態様の細胞源は、胃細胞である。いくつかのそのような態様において、第1の細胞源は壁細胞である。
いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、1または複数のタイプのヒト細胞である。このような或る実施態様では、細胞源は、適応性NK細胞、脂肪細胞、アルツハイマーII型星状細胞、アマクリン細胞、B細胞、好塩基球、好塩基球活性化細胞、好塩基球、ベッツ細胞、二層化細胞、ベッチャー細胞、心筋細胞、CD4+ T細胞、セメント芽細胞、小脳顆粒細胞、胆管細胞、胆嚢細胞、クロム親和性細胞、シガー細胞、クラブ細胞、オルティコトロピック細胞、細胞傷害性T細胞、樹状細胞、腸クロム親和性細胞、腸クロム親和性細胞、好酸球、糸球体外メサンギウム細胞、ファゴット細胞、脂肪パッド細胞、胃主細胞、杯細胞、ゴナドトロピック細胞、肝星細胞、肝細胞、過分節好中球、糸球体内メサンギウム細胞、傍糸球体細胞、角化細胞、腎臓近位尿細管刷子縁細胞、クッパー細胞、ラクトトロピック細胞、ライディッヒ細胞、マクロファージ、黄斑細胞、マスト細胞、巨核球、メラノサイト、マイクロフォールド細胞、単球、ナチュラルキラー細胞、ナチュラルキラーT細胞、グリッター細胞、好中球、骨芽細胞、破骨細胞、骨細胞、好酸性細胞(副甲状腺)、パネート細胞、パラフォリキュラー細胞、パラソル細胞、副甲状腺主細胞、壁細胞、小細胞性神経分泌細胞、ペグ細胞、周皮細胞、尿細管周囲筋様細胞、血小板、ポドサイト、制御性T細胞、網状赤血球、網膜双極細胞、網膜水平細胞、網膜神経節細胞、網膜前駆細胞、
センチネル細胞、セルトリ細胞、体性乳腺刺激細胞、ソマトトロピック細胞、星細胞、支持細胞、T細胞、Tヘルパー細胞、テロサイト、腱細胞、甲状腺刺激細胞、移行B細胞、毛髪細胞(ヒト)、タフト細胞、単極ブラシ細胞、白血球、ゼルバレン、またはそれらの任意の組み合わせである。いくつかのそのような実施形態では、第1の細胞源のそのような細胞は健康である。別の実施形態では、第1の細胞源のそのような細胞は癌に罹患している。
センチネル細胞、セルトリ細胞、体性乳腺刺激細胞、ソマトトロピック細胞、星細胞、支持細胞、T細胞、Tヘルパー細胞、テロサイト、腱細胞、甲状腺刺激細胞、移行B細胞、毛髪細胞(ヒト)、タフト細胞、単極ブラシ細胞、白血球、ゼルバレン、またはそれらの任意の組み合わせである。いくつかのそのような実施形態では、第1の細胞源のそのような細胞は健康である。別の実施形態では、第1の細胞源のそのような細胞は癌に罹患している。
いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、細胞タイプの任意の組合せであり、ただし、そのような細胞タイプが単一の器官に由来することを条件とする。いくつかの上記実施形態において、この単一臓器は、乳房、肺、前立腺、結腸/直腸、腎臓、子宮、膵臓、食道、血液、頭部/頸部、卵巣、肝臓、子宮頸部、甲状腺、膀胱、または胃である。いくつかの実施形態では、この単一の器官は、健康である。別の実施形態では、この単一の臓器は、単一の臓器に由来する癌に罹患している。さらに別の実施形態では、この単一の臓器は、単一の臓器以外の臓器に由来し、かつ、単一の臓器に転移する、癌に罹患している。
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、細胞タイプの任意の組み合わせであり、ただし、そのような細胞タイプは、所定の器官セットから生じたものである。いくつかの上記実施形態において、この所定の器官セットは、乳房、肺、前立腺、結腸/直腸、腎臓、子宮、膵臓、食道、血液、頭部/頸部、卵巣、肝臓、子宮頸部、甲状腺、膀胱、および胃における任意の2つの器官(臓器)のセットである。いくつかの実施形態では、この所定の器官セットは、健康である。別の実施形態では、この所定の器官セットは、所定の器官セット内の1つの臓器に由来する癌に罹患する。さらに別の実施形態では、所定の器官セットは、所定の器官セット以外の器官に由来し、所定の器官セットに転移する癌に罹患する。
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、細胞タイプの任意の組み合わせであり、ただし、そのような細胞タイプは、所定の器官セットから生じたものである。いくつかの上記実施形態において、この所定の器官セットは、乳房、肺、前立腺、結腸/直腸、腎臓、子宮、膵臓、食道、血液、頭部/頸部、卵巣、肝臓、子宮頸部、甲状腺、膀胱、および胃における任意の3つの器官のセットである。いくつかの実施形態では、この所定の器官セットは、健康である。別の実施形態では、この所定の臓器セットは、所定の臓器セット内の1つの臓器に由来する癌に罹患する。さらに別の実施形態では、所定の臓器セットは、所定の臓器セット以外の臓器に由来し、かつ、所定の臓器セットに転移する癌に罹患する。
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、細胞タイプの任意の組み合わせであり、ただし、そのような細胞タイプは、所定の器官のセットから生じたものである。いくつかの上記実施形態において、器官のこの所定のセットは、乳房、肺、前立腺、結腸/直腸、腎臓、子宮、膵臓、食道、血液、頭部/頸部、卵巣、肝臓、子宮頸部、甲状腺、膀胱、および胃における任意の4つの器官、5つの器官、6つの器官、または7つの器官のセットである。いくつかの実施形態では、この所定の器官のセットは、健康である。別の実施形態では、この所定の臓器セットは、所定の臓器セット内の1つの臓器に由来する癌に罹患する。さらに別の実施形態では、所定の臓器セットは、所定の臓器セット以外の臓器に由来し、かつ、所定の臓器セットに転移する癌に罹患する。
いくつかの具体的な実施形態において、本開示のいずれかの実施形態の細胞源は、白血球である。いくつかの上記実施形態において、細胞源は、好中球、好酸球、好塩基球、リンパ球、Bリンパ球、Tリンパ球、細胞傷害性T細胞、単球、またはそれらの任意の組合せである。
結論
複数の例は、単一の例として本明細書に記載される成分、動作または構造のために提供されてもよい。最後に、様々な構成要素、動作、およびデータストア間の境界は、幾分任意であり、特定操作は、特定の例示的な構成の文脈で示される。他の機能の割当ても想定されており、実施の範囲内に入る可能性がある。一般に、実施例の構成において別個の構成要素として提示される構造および機能は、結合された構造または構成要素として実施することができる。同様に、単一の構成要素として提示される構造および機能は、別個の構成要素として実装されてもよい。これらおよびその他の変更、修正、追加、および改善は、実装の範囲内に含まれる。
複数の例は、単一の例として本明細書に記載される成分、動作または構造のために提供されてもよい。最後に、様々な構成要素、動作、およびデータストア間の境界は、幾分任意であり、特定操作は、特定の例示的な構成の文脈で示される。他の機能の割当ても想定されており、実施の範囲内に入る可能性がある。一般に、実施例の構成において別個の構成要素として提示される構造および機能は、結合された構造または構成要素として実施することができる。同様に、単一の構成要素として提示される構造および機能は、別個の構成要素として実装されてもよい。これらおよびその他の変更、修正、追加、および改善は、実装の範囲内に含まれる。
また、第1、第2などの用語は、本明細書では、様々な要素を説明するために使用され得るが、これらの要素は、これらの用語によって限定されるべきではないことが理解されるであろう。これらの用語は、ある元素と別の元素を区別するためにのみ使用される。例えば、第1の主題は、第2の主題とすることができ、同様に、第2の主題は、本開示の範囲から逸脱することなく、第1の主題とすることができる。第1の対象と2番目の対象は両方対象であるが、同じ対象ではない。
本開示で使用される用語は、特定の実施形態のみを説明するためのものであり、本発明を限定することを意図するものではない。本発明の説明および添付の特許請求の範囲において使用されるように、単数形の「1つの(a)」、「1つの(an)」および「前記(the)」は、文脈上明らかに別段の指示がない限り、複数形も含むものとする。また、本明細書で使用される「および/または」という用語は、関連する列挙されたアイテムのうちの1または複数の可能な任意のおよびすべての組み合わせを指し、包含することが理解されるであろう。用語「含む」および/または「含むこと」は、本明細書において使用される場合、記載された特徴、整数、ステップ、動作、エレメント、および/またはコンポーネントの存在を特定するが、1または複数の他の特徴、整数、ステップ、動作、エレメント、コンポーネント、および/またはそれらのグループの存在または追加を排除しないことがさらに理解されるであろう。
本明細書で使用されるように、用語「~の場合(if)」は、文脈に応じて、「~するとき」または「~の時」または「決定に応答して」または「検出に応答して」を意味すると解釈され得る。同様に、「決定された場合」または「[記載された状態または事象]が検出された場合」という語句は、状況に応じて、「決定されたとき」または「決定に応答して」または「(記載された状態または事象)を検出した場合」または「(記載された状態または事象)の検出に応答して」を意味すると解釈することができる。
前述の説明は、例示的な実装を実施するシステム、方法、技術、命令シーケンス、およびコンピューティングマシンプログラムプロダクトの例を含んだ。説明のために、発明の主題の様々な実装の理解を提供するために、多数の特定の詳細が記載された。しかしながら、当業者には、本発明の主題の実施がこれらの特定詳細なしに実施され得ることは明白であろう。一般に、既知の命令インスタンス、プロトコル、構造、および技術は、詳細には示されていない。
上記の説明は、説明のために、特定の実装を参照して説明されてきた。しかしながら、上記の例示的な議論は、網羅的であること、または実装を開示された厳密な形態に限定することを意図するものではない。上記の教示を考慮すると、多くの修正および変形が可能である。実施形態は、原理およびそれらの実用的用途を最も良く説明するために選択され、説明され、それにより、当業者が、意図される特定の用途に適しているように、様々な変更を伴う実施形態および様々な実施形態を最も良く利用することを可能にした。
Claims (69)
- 癌状態を識別または示す複数の資格を有するメチル化パターンを同定する方法であって、前記方法は、以下を含む、方法:
A)第一のデータセットを電子形態で取得することであって、第一のデータセットは、第一の複数の断片における各断片の対応する断片メチル化パターンを含み、各断片の対応する断片メチル化パターン(i)は、第一の対象セットにおける対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、(ii)それぞれの断片における対応する複数のCpG部位における各CpG部位のメチル化状態を含み、第一の複数の断片は、1000を超える断片を含む;
B)第2のデータセットを取得することは、電子形態では、第2のデータセットを含み、第2のデータセットは、第2の複数のフラグメントにおける各フラグメントの対応するフラグメントメチル化パターンを含み、各フラグメントの対応するフラグメントメチル化パターンは、(i)第2の対象セットにおける対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、(ii)それぞれのフラグメントにおける対応する複数のCpG部位における各CpG部位のメチル化状態を含み、第1の対象セットにおける各対象は、癌状態の第1の状態を有し、第2の対象セットにおける各対象は、癌状態の第2の状態を有し、第2の複数のフラグメントは、1000を超えるフラグメントを含む;
C)第1のデータセットを使用して1つ以上の対応するゲノム領域について1つ以上の第1の状態間隔地図を生成する工程、ここで、:
1つまたは複数の第1の状態間隔地図内の各第1の状態間隔地図は、対応する独立した複数のノードを備え、対応する独立した複数のノードは、50を超えるノードを備える
1つまたは複数の第一の状態間隔地図内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する終了メチル化部位との間の第一のデータセット内の第一の複数の断片にわたって観察されるそれぞれの異なる断片メチル化パターンについて、(i)異なる断片メチル化パターンの表現、および(ii)断片メチル化パターンが対応する開始メチル化部位で開始し、対応する終了メチル化部位で終了し、異なる断片メチル化パターンを有する第一のデータセット内の断片のカウントを特徴とする;
D)第2のデータセットを使用して1つまたは複数の対応するゲノム領域について1つまたは複数の第2の状態間隔地図を生成する工程、ここで、:
1つまたは複数の第2の状態間隔地図内の各第2の状態間隔地図は、対応する独立した複数のノードを備え、対応する独立した複数のノードは、50を超えるノードを備える
1つまたは複数の第2の状態区間地図内の各対応する独立した複数のノード内のそれぞれのノードは、対応する開始メチル化部位、対応する端部メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する端部メチル化部位との間の第2のデータセット内の第2の複数のフラグメントにわたって観察されるそれぞれの異なるフラグメントメチル化パターンについて、(i)異なるフラグメントメチル化パターンの表現、および(ii)対応する開始メチル化部位で開始し、対応する端部メチル化部位で端部し、異なるフラグメントメチル化パターンを有する第2のデータセット内のフラグメントのカウントを特徴とする;
E)前記1つまたは複数の第1の間隔地図および前記1つまたは複数の第2の間隔地図を複数の適格性メチル化パターンについてスキャンすることであって、前記複数の適格性メチル化パターンにおける各適格性メチル化パターン:
(i)所定のCpG部位数の範囲内にある長さを有し、前記1つ以上の第1の間隔地図および前記1つ以上の第2の間隔地図のフラグメントメチル化パターン内に、
(ii)1つ以上の選択基準を満たし、
(iii)対応する初期CpG部位と対応する最終CpG部位との間の対応するCpG間隔lにわたって、
これにより、がんの状態を識別または示す複数の適格なメチル化パターンが同定される。 - 前記1つまたは複数の選択基準は、メチル化パターンを指定する、請求項1に記載の方法:
(i)第1の周波数しきい値を満たす第1の周波数を持つ1つ以上の第1の区間地図で表され、
(ii)は、第1の状態深さしきい値を満たすカバレッジを有する1つ以上の第1の間隔地図において表され、
(iii)第2の周波数しきい値を満たす第2の周波数を有する1つ以上の第2の間隔地図で表される。 - 請求項2に記載の方法:
(i)メチル化パターンは、1つまたは複数の第1の間隔地図内のメチル化パターンの周波数が第1の周波数閾値を超える場合に第1の周波数閾値を満たす第1の周波数を有する1つまたは複数の第1の間隔地図内で表され、
(ii)メチル化パターンは、1つ以上の第1の区間地図で表される
1つまたは複数の第1の間隔地図におけるメチル化パターンの被覆率が第1の状態深さ閾値を超えたときに第1の状態深さ閾値を満たす被覆率、および
(iii)メチル化パターンは、1つまたは複数の第2の間隔地図内のメチル化パターンの周波数が第2の周波数閾値未満である場合に、第2の周波数閾値を満たす第2の周波数を有する1つまたは複数の第2の間隔地図内で表される。 - 請求項3に記載の方法:
第1の周波数閾値は0.2であり、
最初の状態の深さしきい値は10 で、
第2の周波数閾値は0.001である。 - さらに含む、請求項1-5のいずれか一項に記載の方法:
F)第1および第2のデータセットにおける複数の適格なメチル化パターンに関連するメチル化パターン情報を用いて癌状態の状態を識別するための分類器を訓練すること。 - 前記分級がロジスティック回帰である、請求項6に記載の方法。
- 前記分級は、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、または線形回帰アルゴリズムである、請求項6に記載の方法。
- 前記方法がさらに含む、請求項6-8のいずれか一項に記載の方法:
G)第3のデータセットを電子形態で取得すること、ここで、第3のデータセットは、第3の複数のフラグメント中の各フラグメントの対応するフラグメントメチル化パターンを含み、ここで、各フラグメント(i)の対応するフラグメントメチル化パターンは、試験対象から得られた生物学的試料からの核酸のメチル化配列決定によって決定され、そして(ii)各フラグメント中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含む;
H)第3のデータセット中の第3の複数のフラグメント中のそれぞれのフラグメントのフラグメントメチル化パターンを適用して、複数の適格なメチル化パターン中の適格なメチル化パターンを包含するか、またはそれに対応して、分類器に適用し、それによって、試験対象における癌状態の状態を決定する。 - 請求項6-9のいずれか一項記載の方法:
癌の状態は腫瘍分率であり、
癌状態の最初の状態は、最初の範囲の腫瘍分率であり
癌状態の第2の状態は、第2の範囲の腫瘍分率である。 - 前記第1の範囲が0.001より大きく、前記第2の範囲が0.001より小さい、請求項10に記載の方法。
- 請求項9に記載の方法:
癌の状態は腫瘍分率である;
G)の取得とH)の適用は、経時的に繰り返し行われる。 - 癌状態の状態が癌の非存在または存在である、請求項6~9のいずれか一項記載の方法。
- 癌状態が癌の病期である、請求項6~9のいずれか一項記載の方法。
- 癌が副腎癌、胆道癌、膀胱癌、骨/骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道の癌、胃癌、頭/頸部癌、肝胆道癌、腎癌、肝臓がん、肺がん、卵巣癌、膵臓癌、骨盤癌、胸膜癌、前立腺癌、腎癌、皮膚癌、胃癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、多発性骨髄腫、白血病、またはこれらの組合せである、請求項13または14記載の方法。
- 前記被験体から得られる生物学的試料が液体生物学的試料である、請求項9に記載の方法。
- 前記第3の複数の断片が、無細胞核酸である、請求項16に記載の方法。
- 前記第1および第2の複数の断片が、無細胞核酸である、請求項1~17のいずれか一項記載の方法。
- 請求項1-18のいずれか一項記載の方法:
1つ以上の第1の状態間隔地図は、単一の第1の状態間隔地図で構成される。
1つ以上の第2の状態間隔地図は、単一の第2の状態間隔地図で構成される。 - 請求項1-18のいずれか一項記載の方法:
1つまたは複数の第1の状態間隔地図は、複数の第1の状態間隔地図である;
1つまたは複数の第2の状態間隔地図は、複数の第2の状態間隔地図である;
1以上の対応するゲノム領域が複数のゲノム領域である;および
複数のゲノム領域内のそれぞれのゲノム領域は、第1の複数の区間地図および第2の複数の区間地図内の第1の状態区間地図によって表される。 - 前記複数のゲノム領域が10~30である、請求項20に記載の方法。
- 前記複数のゲノム領域の各ゲノム領域が、異なるヒト染色体である、請求項20に記載の方法。
- 前記複数のゲノム領域が、2~1000のゲノム領域、500~5000のゲノム領域、1000~20,000のゲノム領域、または5000~50,000のゲノム領域からなる、請求項20に記載の方法。
- 前記A)取得およびB)取得のメチル化配列決定が、複数のプローブを用いた標的配列決定であり、前記複数のゲノム領域内の各ゲノム領域が、前記複数のプローブ内のプローブに関連する、請求項20に記載の方法。
- 請求項1-24のいずれか一項記載の方法:
1つまたは複数の第一の区間地図内のそれぞれのそれぞれの区間地図の対応する独立した複数のノードは、1つまたは複数の対応するゲノム領域内の対応する領域を表す対応するツリーとして配置され、
それぞれの区間地図に対する対応する独立した複数のノード内のそれぞれのノードは、対応するゲノム領域のサブ領域を表す。 - 請求項25に記載の方法:
各対応する木は、対応する独立した複数のノードを対応する複数のリーフに配置し、対応する複数のリーフ内の各リーフの親ノードは、1つ以上の子ノードを参照し、
E)スキャンは、複数のクエリを生成し、
複数の問い合わせにおけるそれぞれの問い合わせは、長さlの異なる候補のメチレーションパターンに対するものであり、
複数のクエリ内のそれぞれのクエリは、(i)対応する独立した複数のノード内のそれぞれのノードにおいてそれぞれのクエリとのマッチメーキングを実行し、(ii)それぞれのクエリをそれぞれのノードの子ノードに対してさらにマッチメーキングするために、それぞれのノードの子ノードにクエリをさらに伝播し、(iii)それぞれのマッチメーキングの結果をそれぞれのノードの親ノードに配信するために使用される。 - 前記木は、ランダム化表面積発見的を有するk寸法木の1寸法版であり、ここで、kは2以上の正の整数である、請求項26に記載の方法。
- 長さlの各可能なメチル化パターンが、前記複数のクエリによってサンプリングされる、請求項26に記載の方法。
- lが、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20個のCpG部位である、請求項28に記載の方法。
- 前記CpG部位数範囲が、l個の隣接するCpG部位である、請求項1~29のいずれか一項記載の方法。
- lが、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20の連続するCpG部位である、請求項30に記載の方法。
- 前記所定のCpG数範囲が、ヒト参照ゲノム中の2~100個の連続するCpG部位である、請求項1に記載の方法。
- 対象の第1のセットにおける対応する対象からのそれぞれの生物学的試料のメチル化配列決定が、第1のデータセットに含まれるメチル化パターンについて評価される10億個以上、20億個以上、30億個以上、40億個以上、50億個以上、60億個以上、70億個以上、80億個以上、90億個以上、または100億個以上のフラグメントを生成する、請求項1~32のいずれか一項記載の方法。
- 第1の対象セット中の対応する対象からのそれぞれの生物学的試料のメチル化配列決定が、第1のデータセット中に含まれるメチル化パターンについて評価される10億未満のフラグメントまたは10,000未満のフラグメントを生成する、請求項1~32のいずれか一項記載の方法。
- 10,000を超えるCpG部位、25,000を超えるCpG部位、50,000を超えるCpG部位、または1以上の対応するゲノム領域にわたる80,000を超えるCpG部位が存在する、請求項1~34のいずれか一項記載の方法。
- 10,000未満のCpG部位、25,000未満のCpG部位、50,000未満のCpG部位、または1以上の対応するゲノム領域にわたる80,000未満のCpG部位が存在する、請求項1~34のいずれか一項記載の方法。
- 対応する複数の配列読み取りの平均配列読み取り長が、それぞれのフラグメントのメチル化配列決定によって得られた、140~280ヌクレオチドである、請求項1~36のいずれか一項記載の方法。
- 前記1つ以上の対応するゲノム領域内の各ゲノム領域が、ヒトゲノム参照配列の500塩基対から10,000塩基対の間を表す、請求項1~37のいずれか一項記載の方法。
- 前記1つ以上の対応するゲノム領域の各ゲノム領域が、ヒトゲノム参照配列の500塩基対から2000塩基対の間を表す、請求項1~37のいずれか一項記載の方法。
- 前記1つ以上の対応するゲノム領域内の各ゲノム領域が、ヒトゲノム参照配列の異なる部分を表す、請求項1~37のいずれか一項記載の方法。
- 前記対応する複数のCpG部位におけるCpG部位のメチル化状態が、である、請求項1-40のいずれか一項に記載の方法:
メチル化シークエンシングによってCpG部位がメチル化されているとメチル化され
メチル化配列決定によってCpG部位がメチル化されないことが決定されると、非メチル化される。 - メチル化配列決定が、i)全ゲノムメチル化配列決定、またはii)複数の核酸プローブを用いた標的化DNAメチル化配列決定である、請求項1~41のいずれか一項記載の方法。
- メチル化配列決定が、それぞれのフラグメント中の1つ以上の5-メチルシトシン(5mC)および/または5-ヒドロキシメチルシトシン(5hmC)を検出する、請求項1~42のいずれか一項記載の方法。
- メチル化配列決定が、1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンの対応する1つ以上のウラシルへの変換を含む、請求項1~42のいずれか一項記載の方法。
- 前記1つ以上のウラシルが、前記メチル化配列決定の間に、1つ以上の対応するチミンとして検出される、請求項44に記載の方法。
- 1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンの変換が、化成処理、酵素変換、またはそれらの組み合わせを含む、請求項44記載の方法。
- それぞれの生物学的試料が血液試料である、請求項1~46のいずれか一項記載の方法。
- それぞれの生物学的試料が、血液、全血、血漿、プラズマ、尿、脳脊髄液、糞便、唾液、汗、涙液、胸膜液、心嚢液、または腹膜液を含む、請求項1~46のいずれか一項記載の方法。
- 前記所定のCpG部位数範囲が、5つのCpG部位と20のCpG部位との間である、請求項1~48のいずれか一項記載の方法。
- 前記所定のCpG部位数範囲が単一のCpG数である、請求項1~48のいずれか一項記載の方法。
- 単一のCpG数がlである、請求項50記載の方法。
- 請求項1に記載の方法:
癌の状態は被験体中の腫瘍画分であり、
被験者の最初のセットは被験者から構成され、
癌状態の最初の状態は、被験体中の腫瘍画分であり、
癌状態の第2の状態は癌がないことであり
第2の癌被験体セットは、複数の癌を有さない被験体である。 - 前記複数の適格なメチル化パターンを使用して、前記試験対象における前記腫瘍分率を決定することをさらに含む、請求項52に記載の方法。
- 前記被験体について決定された前記腫瘍分率に基づいて前記被験体を治療することをさらに含む、請求項53に記載の方法。
- 前記被験体について決定された前記腫瘍分率に基づいて、前記被験体の進行中の治療計画を調整することをさらに含む、請求項53に記載の方法。
- 請求項1に記載の方法:
癌状態の最初の状態は被験者に特有であり、
被験者の最初のセットは被験者から構成され、
癌状態の第2の状態は癌がないことであり
第2の癌被験体セットは、複数の癌を有さない被験体である。 - 前記複数の適格性メチル化パターンを使用して、前記被験者における前記がん状態の前記第1の状態を定量化することをさらに含む、請求項56に記載の方法。
- 前記被験体における前記癌状態の前記第1の状態の定量に基づいて、前記被験体を治療することをさらに含む、請求項57に記載の方法。
- 前記被験体における前記癌状態の前記第1の状態の定量化に基づいて、前記被験体の進行中の治療計画を調整することをさらに含む、請求項57に記載の方法。
- 被験体が、副腎癌、胆道癌、膀胱癌、骨/骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道の癌、胃癌、頭部/頸部癌、肝胆道癌、腎癌、肝臓がん、肺がん、卵巣癌、膵臓癌、骨盤癌、胸膜癌、前立腺癌、腎癌、皮膚癌、胃癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、多発性骨髄腫、または白血病を有する、請求項56記載の方法。
- 請求項1に記載の方法:
癌の状態は癌の有無であり、
第1の複数被験者を含む第1の被験体セットは、
癌状態の最初の状態は癌の存在であり、
癌状態の第2の状態は癌が存在しないことであり
第2の癌被験体セットは、第2の複数の癌被験体である。 - 癌が、副腎癌、胆道癌、膀胱癌、骨/骨髄癌、脳癌、乳癌、子宮頚癌、大腸癌、食道の癌、胃癌、頭部/頸部癌、肝胆道癌、腎癌、肝臓がん、肺がん、卵巣癌、膵臓癌、骨盤癌、胸膜癌、前立腺癌、腎癌、皮膚癌、胃癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、多発性骨髄腫、または白血病である、請求項61記載の方法。
- 請求項1に記載の方法:
癌状態は癌の起源であり、
第1の複数被験者を含む第1の被験体セットは、
癌状態の最初の状態は癌の最初の起源であり、
癌状態の第2の状態は癌の第2の起源であり
第2の癌被験体セットは、第2の複数の癌被験体である。 - 請求項63に記載の方法:
最初の起源は、副腎、胆汁、ブラダー、骨/骨髄、脳、乳房、子宮頸部、結腸直腸、食道、胃、頭/頸部、肝胆道、腎臓、肝臓、肺、卵巣、膵臓、骨盤、胸膜、前立腺、腎臓、表皮、胃、精巣、胸腺、甲状腺、子宮、リンパ腫、黒色腫、多発性骨髄腫、または白血病のいずれかであり
第2の起源は第1の起源以外であり、副腎、胆汁、ブラダー、骨/骨髄、脳、乳房、頸部、結腸直腸、食道、胃、頭/頸部、肝胆道、腎臓、肝臓、肺、卵巣、膵臓、骨盤、胸膜、前立腺、腎臓、表皮、胃、精巣、胸腺、甲状腺、子宮、リンパ腫、多発性骨髄腫、または白血病のいずれかである。 - 請求項1に記載の方法:
癌の状態は癌の病期であり、
第1の複数被験者を含む第1の被験体セットは、
癌の状態の第1段階は第1癌の第1段階であり、
がんの第2の状態は、第1がんの第2の段階であり
第2の癌被験体セットは、第2の複数の癌被験体である。 - 請求項65記載の方法:
がんは副腎臓がん、胆道がん、膀胱がん、骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝胆道がん、腎臓がん、肝臓がん、肺がん、卵巣がん、膵がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、多発性骨髄腫、白血病であり、
最初の病期は、I期、II期、III期、IV期のがんで
第2期は第1期以外で、がんのI期、II期、III期、IV期となる。 - 前記A)を得るステップ、前記B)を得るステップ、前記C)を生成するステップ、および前記D)を生成するステップは、前記1つまたは複数のプロセッサによって実行されるための1つまたは複数のプログラムを記憶する1つまたは複数のプロセッサおよびメモリを有するコンピュータシステムにおいて実行される、請求項1~66のいずれか一項に記載の方法。
- 癌状態を識別または指示する複数の資格を有するメチル化パターンを識別するためのコンピュータシステムであって、前記コンピュータシステムは、以下を備える、コンピュータシステム:
少なくとも 1 つのプロセッサ;
少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを記憶するメモリであって、前記少なくとも1つのプログラムは、命令を含む、メモリ:
A)第一のデータセットを電子形態で取得することであって、第一のデータセットは、第一の複数の断片における各断片の対応する断片メチル化パターンを含み、各断片の対応する断片メチル化パターン(i)は、第一の対象セットにおける対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、(ii)それぞれの断片における対応する複数のCpG部位における各CpG部位のメチル化状態を含み、第一の複数の断片は、1000を超える断片を含む;
B)第2のデータセットを取得することは、電子形態では、第2のデータセットを含み、第2のデータセットは、第2の複数のフラグメントにおける各フラグメントの対応するフラグメントメチル化パターンを含み、各フラグメントの対応するフラグメントメチル化パターンは、(i)第2の対象セットにおける対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、(ii)それぞれのフラグメントにおける対応する複数のCpG部位における各CpG部位のメチル化状態を含み、第1の対象セットにおける各対象は、癌状態の第1の状態を有し、第2の対象セットにおける各対象は、癌状態の第2の状態を有し、第2の複数のフラグメントは、1000を超えるフラグメントを含む;
C)第1のデータセットを使用して1つ以上の対応するゲノム領域について1つ以上の第1の状態間隔地図を生成する工程、ここで、:
1つまたは複数の第1の状態間隔地図内の各第1の状態間隔地図は、対応する独立した複数のノードを備え、対応する独立した複数のノードは、50を超えるノードを備える
1つまたは複数の第一の状態間隔地図内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する終了メチル化部位との間の第一のデータセット内の第一の複数の断片にわたって観察されるそれぞれの異なる断片メチル化パターンについて、(i)異なる断片メチル化パターンの表現、および(ii)断片メチル化パターンが対応する開始メチル化部位で開始し、対応する終了メチル化部位で終了し、異なる断片メチル化パターンを有する第一のデータセット内の断片のカウントを特徴とする;
D)第2のデータセットを使用して1つまたは複数の対応するゲノム領域について1つまたは複数の第2の状態間隔地図を生成する工程、ここで、:
1つまたは複数の第2の状態間隔地図内の各第2の状態間隔地図は、対応する独立した複数のノードを備え、対応する独立した複数のノードは、50を超えるノードを備える
1つまたは複数の第2の状態区間地図内の各対応する独立した複数のノード内のそれぞれのノードは、対応する開始メチル化部位、対応する端部メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する端部メチル化部位との間の第2のデータセット内の第2の複数のフラグメントにわたって観察されるそれぞれの異なるフラグメントメチル化パターンについて、(i)異なるフラグメントメチル化パターンの表現、および(ii)対応する開始メチル化部位で開始し、対応する端部メチル化部位で端部し、異なるフラグメントメチル化パターンを有する第2のデータセット内のフラグメントのカウントを特徴とする;
E)前記1つまたは複数の第1の間隔地図および前記1つまたは複数の第2の間隔地図を複数の適格性メチル化パターンについてスキャンすることであって、前記複数の適格性メチル化パターンにおける各適格性メチル化パターン:
(i)所定のCpG部位数の範囲内にある長さを有し、前記1つ以上の第1の間隔地図および前記1つ以上の第2の間隔地図のフラグメントメチル化パターン内に、
(ii)1つ以上の選択基準を満たし、
(iii)対応する初期CpG部位と対応する最終CpG部位との間の対応するCpG間隔lにわたって、
これにより、がんの状態を識別または示す複数の適格なメチル化パターンが同定される。 - プロセッサによって実行されると、癌状態を識別または示す複数の適格性メチル化パターンを識別するための方法をプロセッサに実行させる、プログラムコード命令をその上に記憶した非一時的コンピュータ可読記憶媒体であって、前記方法は、以下を含む、非一時的コンピュータ可読記憶媒体:
A)第一のデータセットを電子形態で取得することであって、第一のデータセットは、第一の複数の断片における各断片の対応する断片メチル化パターンを含み、各断片の対応する断片メチル化パターン(i)は、第一の対象セットにおける対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、(ii)それぞれの断片における対応する複数のCpG部位における各CpG部位のメチル化状態を含み、第一の複数の断片は、1000を超える断片を含む;
B)第2のデータセットを取得することは、電子形態では、第2のデータセットを含み、第2のデータセットは、第2の複数のフラグメントにおける各フラグメントの対応するフラグメントメチル化パターンを含み、各フラグメントの対応するフラグメントメチル化パターンは、(i)第2の対象セットにおける対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、(ii)それぞれのフラグメントにおける対応する複数のCpG部位における各CpG部位のメチル化状態を含み、第1の対象セットにおける各対象は、癌状態の第1の状態を有し、第2の対象セットにおける各対象は、癌状態の第2の状態を有し、第2の複数のフラグメントは、1000を超えるフラグメントを含む;
C)第1のデータセットを使用して1つ以上の対応するゲノム領域について1つ以上の第1の状態間隔地図を生成する工程、ここで、:
1つまたは複数の第1の状態間隔地図内の各第1の状態間隔地図は、対応する独立した複数のノードを備え、対応する独立した複数のノードは、50を超えるノードを備える
1つまたは複数の第一の状態間隔地図内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する終了メチル化部位との間の第一のデータセット内の第一の複数の断片にわたって観察されるそれぞれの異なる断片メチル化パターンについて、(i)異なる断片メチル化パターンの表現、および(ii)断片メチル化パターンが対応する開始メチル化部位で開始し、対応する終了メチル化部位で終了し、異なる断片メチル化パターンを有する第一のデータセット内の断片のカウントを特徴とする;
D)第2のデータセットを使用して1つまたは複数の対応するゲノム領域について1つまたは複数の第2の状態間隔地図を生成する工程、ここで、:
1つまたは複数の第2の状態間隔地図内の各第2の状態間隔地図は、対応する独立した複数のノードを備え、対応する独立した複数のノードは、50を超えるノードを備える
1つまたは複数の第2の状態区間地図内の各対応する独立した複数のノード内のそれぞれのノードは、対応する開始メチル化部位、対応する端部メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する端部メチル化部位との間の第2のデータセット内の第2の複数のフラグメントにわたって観察されるそれぞれの異なるフラグメントメチル化パターンについて、(i)異なるフラグメントメチル化パターンの表現、および(ii)対応する開始メチル化部位で開始し、対応する端部メチル化部位で端部し、異なるフラグメントメチル化パターンを有する第2のデータセット内のフラグメントのカウントを特徴とする;
E)前記1つまたは複数の第1の間隔地図および前記1つまたは複数の第2の間隔地図を複数の適格性メチル化パターンについてスキャンすることであって、前記複数の適格性メチル化パターンにおける各適格性メチル化パターン:
(i)所定のCpG部位数の範囲内にある長さを有し、前記1つ以上の第1の間隔地図および前記1つ以上の第2の間隔地図のフラグメントメチル化パターン内に、
(ii)1つ以上の選択基準を満たし、
(iii)対応する初期CpG部位と対応する最終CpG部位との間の対応するCpG間隔lにわたって、
これにより、がんの状態を識別または示す複数の適格なメチル化パターンが同定される。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062983443P | 2020-02-28 | 2020-02-28 | |
US62/983,443 | 2020-02-28 | ||
PCT/US2021/020012 WO2021174072A1 (en) | 2020-02-28 | 2021-02-26 | Identifying methylation patterns that discriminate or indicate a cancer condition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023514851A true JP2023514851A (ja) | 2023-04-11 |
JPWO2021174072A5 JPWO2021174072A5 (ja) | 2024-02-21 |
Family
ID=75223401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022550238A Pending JP2023514851A (ja) | 2020-02-28 | 2021-02-26 | 癌の病態を判別または示すメチル化パターンの同定 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20210292845A1 (ja) |
EP (1) | EP4111457A1 (ja) |
JP (1) | JP2023514851A (ja) |
CN (1) | CN115443507A (ja) |
AU (1) | AU2021228737A1 (ja) |
CA (1) | CA3169488A1 (ja) |
WO (1) | WO2021174072A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11791035B2 (en) * | 2021-03-09 | 2023-10-17 | PAIGE.AI, Inc. | Systems and methods for artificial intelligence powered molecular workflow verifying slide and block quality for testing |
US20240003888A1 (en) | 2022-05-17 | 2024-01-04 | Guardant Health, Inc. | Methods for identifying druggable targets and treating cancer |
WO2024007205A1 (zh) * | 2022-07-06 | 2024-01-11 | 何肇基 | 评估组织微环境的恶性程度的指标的建立与使用方法及其系统 |
CN116994655A (zh) * | 2023-08-07 | 2023-11-03 | 西安理工大学 | 基于图神经网络的外泌体相关piRNA识别方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3536807B1 (en) * | 2012-09-20 | 2023-11-29 | The Chinese University of Hong Kong | Non-invasive determination of methylome of tumor from plasma |
US11788135B2 (en) * | 2016-08-05 | 2023-10-17 | The Broad Institute, Inc. | Methods for genome characterization |
AU2017347790B2 (en) | 2016-10-24 | 2024-06-13 | Grail, Inc. | Methods and systems for tumor detection |
US11168356B2 (en) * | 2017-11-02 | 2021-11-09 | The Chinese University Of Hong Kong | Using nucleic acid size range for noninvasive cancer detection |
US20190287649A1 (en) | 2018-03-13 | 2019-09-19 | Grail, Inc. | Method and system for selecting, managing, and analyzing data of high dimensionality |
AU2019234843A1 (en) | 2018-03-13 | 2020-09-24 | Grail, Llc | Anomalous fragment detection and classification |
AU2019249422A1 (en) * | 2018-04-02 | 2020-10-15 | Grail, Llc | Methylation markers and targeted methylation probe panels |
US20210104297A1 (en) | 2018-04-16 | 2021-04-08 | Grail, Inc. | Systems and methods for determining tumor fraction in cell-free nucleic acid |
CA3097992A1 (en) * | 2018-04-24 | 2019-10-31 | Grail, Inc. | Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition |
EP3801623A4 (en) * | 2018-06-01 | 2022-03-23 | Grail, LLC | NEURAL CONVOLUTIONAL NETWORK SYSTEMS AND DATA CLASSIFICATION METHODS |
CA3111887A1 (en) * | 2018-09-27 | 2020-04-02 | Grail, Inc. | Methylation markers and targeted methylation probe panel |
US11581062B2 (en) * | 2018-12-10 | 2023-02-14 | Grail, Llc | Systems and methods for classifying patients with respect to multiple cancer classes |
CN113661542A (zh) | 2018-12-18 | 2021-11-16 | 格里尔公司 | 使用甲基化信息估计细胞来源部分的系统和方法 |
CN113728115A (zh) | 2019-01-25 | 2021-11-30 | 格里尔公司 | 侦测癌症、癌症来源组织及/或癌症细胞类型 |
US11773450B2 (en) * | 2019-04-03 | 2023-10-03 | Grail, Llc | Methylation-based false positive duplicate marking reduction |
US20200340064A1 (en) | 2019-04-16 | 2020-10-29 | Grail, Inc. | Systems and methods for tumor fraction estimation from small variants |
-
2021
- 2021-02-26 CN CN202180030453.7A patent/CN115443507A/zh active Pending
- 2021-02-26 JP JP2022550238A patent/JP2023514851A/ja active Pending
- 2021-02-26 WO PCT/US2021/020012 patent/WO2021174072A1/en unknown
- 2021-02-26 EP EP21714466.6A patent/EP4111457A1/en active Pending
- 2021-02-26 CA CA3169488A patent/CA3169488A1/en active Pending
- 2021-02-26 US US17/187,319 patent/US20210292845A1/en active Pending
- 2021-02-26 AU AU2021228737A patent/AU2021228737A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CA3169488A1 (en) | 2021-09-02 |
US20210292845A1 (en) | 2021-09-23 |
CN115443507A (zh) | 2022-12-06 |
EP4111457A1 (en) | 2023-01-04 |
AU2021228737A1 (en) | 2022-09-22 |
WO2021174072A1 (en) | 2021-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2024019413A (ja) | ゲノムワイド統合による循環腫瘍dnaの超音波感受性検出 | |
US20210292845A1 (en) | Identifying methylation patterns that discriminate or indicate a cancer condition | |
US20210065842A1 (en) | Systems and methods for determining tumor fraction | |
US20210358626A1 (en) | Systems and methods for cancer condition determination using autoencoders | |
US20210104297A1 (en) | Systems and methods for determining tumor fraction in cell-free nucleic acid | |
US20200340064A1 (en) | Systems and methods for tumor fraction estimation from small variants | |
US20200385813A1 (en) | Systems and methods for estimating cell source fractions using methylation information | |
US20210102262A1 (en) | Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data | |
US20210285042A1 (en) | Systems and methods for calling variants using methylation sequencing data | |
US20230140123A1 (en) | Systems and methods for classifying and treating homologous repair deficiency cancers | |
JP2023526252A (ja) | 相同組換え修復欠損の検出 | |
US20210295948A1 (en) | Systems and methods for estimating cell source fractions using methylation information | |
CN118369726A (zh) | 用于识别拷贝数改变的系统和方法 | |
WO2023043991A1 (en) | Methylation fragment probabilistic noise model with noisy region filtration | |
WO2024192105A1 (en) | Optimization of sequencing panel assignments | |
WO2024050366A1 (en) | Systems and methods for classifying and treating homologous repair deficiency cancers | |
JPWO2021127565A5 (ja) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20230130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240209 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240209 |