JP2023548113A - Cnv検出を改善するための非誤り伝播相決定技術ならびに対立遺伝子バランスの組み合わせの使用 - Google Patents
Cnv検出を改善するための非誤り伝播相決定技術ならびに対立遺伝子バランスの組み合わせの使用 Download PDFInfo
- Publication number
- JP2023548113A JP2023548113A JP2023525996A JP2023525996A JP2023548113A JP 2023548113 A JP2023548113 A JP 2023548113A JP 2023525996 A JP2023525996 A JP 2023525996A JP 2023525996 A JP2023525996 A JP 2023525996A JP 2023548113 A JP2023548113 A JP 2023548113A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- variants
- sequencing
- less
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 320
- 238000001514 detection method Methods 0.000 title description 10
- 238000012163 sequencing technique Methods 0.000 claims abstract description 147
- 108700028369 Alleles Proteins 0.000 claims abstract description 87
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 58
- 210000003754 fetus Anatomy 0.000 claims abstract description 37
- 210000002257 embryonic structure Anatomy 0.000 claims abstract description 16
- 208000037051 Chromosomal Instability Diseases 0.000 claims abstract description 15
- 230000002068 genetic effect Effects 0.000 claims description 150
- 210000000349 chromosome Anatomy 0.000 claims description 108
- 208000036878 aneuploidy Diseases 0.000 claims description 93
- 108020004414 DNA Proteins 0.000 claims description 87
- 102000054766 genetic haplotypes Human genes 0.000 claims description 76
- 210000004027 cell Anatomy 0.000 claims description 69
- 231100001075 aneuploidy Toxicity 0.000 claims description 67
- 108090000623 proteins and genes Proteins 0.000 claims description 61
- 210000001161 mammalian embryo Anatomy 0.000 claims description 59
- 102000004169 proteins and genes Human genes 0.000 claims description 54
- 230000002759 chromosomal effect Effects 0.000 claims description 48
- 108091092356 cellular DNA Proteins 0.000 claims description 38
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 38
- 239000012634 fragment Substances 0.000 claims description 38
- 201000010099 disease Diseases 0.000 claims description 37
- 238000011282 treatment Methods 0.000 claims description 32
- 201000011510 cancer Diseases 0.000 claims description 30
- 230000003322 aneuploid effect Effects 0.000 claims description 25
- 210000001519 tissue Anatomy 0.000 claims description 23
- 210000004369 blood Anatomy 0.000 claims description 18
- 239000008280 blood Substances 0.000 claims description 18
- 230000001605 fetal effect Effects 0.000 claims description 14
- 210000004602 germ cell Anatomy 0.000 claims description 14
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 claims description 14
- 102000012338 Poly(ADP-ribose) Polymerases Human genes 0.000 claims description 13
- 108010061844 Poly(ADP-ribose) Polymerases Proteins 0.000 claims description 13
- 229920000776 Poly(Adenosine diphosphate-ribose) polymerase Polymers 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 13
- 210000004881 tumor cell Anatomy 0.000 claims description 13
- 238000012217 deletion Methods 0.000 claims description 12
- 230000037430 deletion Effects 0.000 claims description 12
- 238000001574 biopsy Methods 0.000 claims description 11
- 238000000338 in vitro Methods 0.000 claims description 11
- 210000001124 body fluid Anatomy 0.000 claims description 9
- 239000010839 body fluid Substances 0.000 claims description 9
- 238000002513 implantation Methods 0.000 claims description 9
- 238000010790 dilution Methods 0.000 claims description 8
- 239000012895 dilution Substances 0.000 claims description 8
- 210000003296 saliva Anatomy 0.000 claims description 8
- 239000002246 antineoplastic agent Substances 0.000 claims description 7
- 230000004720 fertilization Effects 0.000 claims description 7
- 229910052697 platinum Inorganic materials 0.000 claims description 7
- 230000035935 pregnancy Effects 0.000 claims description 7
- 229940127089 cytotoxic agent Drugs 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 239000006143 cell culture medium Substances 0.000 claims description 5
- 230000001747 exhibiting effect Effects 0.000 claims description 5
- 230000008014 freezing Effects 0.000 claims description 5
- 238000007710 freezing Methods 0.000 claims description 5
- 210000004291 uterus Anatomy 0.000 claims description 5
- 238000000370 laser capture micro-dissection Methods 0.000 claims description 4
- 208000026350 Inborn Genetic disease Diseases 0.000 claims description 3
- 206010029748 Noonan syndrome Diseases 0.000 claims description 3
- 210000004952 blastocoel Anatomy 0.000 claims description 3
- 239000012530 fluid Substances 0.000 claims description 3
- 208000016361 genetic disease Diseases 0.000 claims description 3
- 239000003112 inhibitor Substances 0.000 claims description 3
- 238000002955 isolation Methods 0.000 claims description 3
- 238000002493 microarray Methods 0.000 claims description 3
- 230000003234 polygenic effect Effects 0.000 claims description 3
- 239000001963 growth medium Substances 0.000 claims description 2
- 210000004882 non-tumor cell Anatomy 0.000 claims description 2
- 230000036961 partial effect Effects 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000007792 addition Methods 0.000 claims 1
- 238000013459 approach Methods 0.000 abstract description 37
- 238000005259 measurement Methods 0.000 description 40
- 239000000523 sample Substances 0.000 description 37
- 208000037280 Trisomy Diseases 0.000 description 23
- 230000003321 amplification Effects 0.000 description 20
- 238000003199 nucleic acid amplification method Methods 0.000 description 20
- 238000009826 distribution Methods 0.000 description 19
- 238000004458 analytical method Methods 0.000 description 16
- 238000002474 experimental method Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 108010077544 Chromatin Proteins 0.000 description 9
- 238000001712 DNA sequencing Methods 0.000 description 9
- 210000003483 chromatin Anatomy 0.000 description 9
- 238000011161 development Methods 0.000 description 9
- 230000003993 interaction Effects 0.000 description 8
- 239000002773 nucleotide Substances 0.000 description 8
- 125000003729 nucleotide group Chemical group 0.000 description 8
- 238000003745 diagnosis Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 230000001902 propagating effect Effects 0.000 description 7
- 208000031448 Genomic Instability Diseases 0.000 description 6
- 239000003814 drug Substances 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- -1 poly(ADP-ribose) Polymers 0.000 description 6
- 239000012661 PARP inhibitor Substances 0.000 description 5
- 229940121906 Poly ADP ribose polymerase inhibitor Drugs 0.000 description 5
- 238000012937 correction Methods 0.000 description 5
- 210000000265 leukocyte Anatomy 0.000 description 5
- 230000008774 maternal effect Effects 0.000 description 5
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 4
- 230000033616 DNA repair Effects 0.000 description 4
- MWUXSHHQAYIFBG-UHFFFAOYSA-N Nitric oxide Chemical compound O=[N] MWUXSHHQAYIFBG-UHFFFAOYSA-N 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 210000000601 blood cell Anatomy 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- 238000013467 fragmentation Methods 0.000 description 4
- 238000006062 fragmentation reaction Methods 0.000 description 4
- 238000007481 next generation sequencing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012070 whole genome sequencing analysis Methods 0.000 description 4
- 102000053602 DNA Human genes 0.000 description 3
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 description 3
- 208000026487 Triploidy Diseases 0.000 description 3
- 239000012472 biological sample Substances 0.000 description 3
- 238000010241 blood sampling Methods 0.000 description 3
- 238000002405 diagnostic procedure Methods 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007672 fourth generation sequencing Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 210000003917 human chromosome Anatomy 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000002324 minimally invasive surgery Methods 0.000 description 3
- 208000030454 monosomy Diseases 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 229940124597 therapeutic agent Drugs 0.000 description 3
- 238000007671 third-generation sequencing Methods 0.000 description 3
- XKJMBINCVNINCA-UHFFFAOYSA-N Alfalone Chemical compound CON(C)C(=O)NC1=CC=C(Cl)C(Cl)=C1 XKJMBINCVNINCA-UHFFFAOYSA-N 0.000 description 2
- 206010008805 Chromosomal abnormalities Diseases 0.000 description 2
- 208000031404 Chromosome Aberrations Diseases 0.000 description 2
- 208000005443 Circulating Neoplastic Cells Diseases 0.000 description 2
- 230000004543 DNA replication Effects 0.000 description 2
- 231100001074 DNA strand break Toxicity 0.000 description 2
- 206010061818 Disease progression Diseases 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 101000917839 Homo sapiens Low affinity immunoglobulin gamma Fc region receptor III-B Proteins 0.000 description 2
- 102100029185 Low affinity immunoglobulin gamma Fc region receptor III-B Human genes 0.000 description 2
- 230000001640 apoptogenic effect Effects 0.000 description 2
- 230000006907 apoptotic process Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 229960002685 biotin Drugs 0.000 description 2
- 235000020958 biotin Nutrition 0.000 description 2
- 239000011616 biotin Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000002512 chemotherapy Methods 0.000 description 2
- 238000002487 chromatin immunoprecipitation Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000029087 digestion Effects 0.000 description 2
- 230000005750 disease progression Effects 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000013399 early diagnosis Methods 0.000 description 2
- 235000013601 eggs Nutrition 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000001727 in vivo Methods 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 230000005865 ionizing radiation Effects 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003340 mental effect Effects 0.000 description 2
- PCHKPVIQAHNQLW-CQSZACIVSA-N niraparib Chemical compound N1=C2C(C(=O)N)=CC=CC2=CN1C(C=C1)=CC=C1[C@@H]1CCCNC1 PCHKPVIQAHNQLW-CQSZACIVSA-N 0.000 description 2
- 229950011068 niraparib Drugs 0.000 description 2
- 238000011275 oncology therapy Methods 0.000 description 2
- 230000003169 placental effect Effects 0.000 description 2
- 210000004508 polar body Anatomy 0.000 description 2
- 229920000642 polymer Polymers 0.000 description 2
- 238000003793 prenatal diagnosis Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 108091008146 restriction endonucleases Proteins 0.000 description 2
- 229950004707 rucaparib Drugs 0.000 description 2
- 230000014639 sexual reproduction Effects 0.000 description 2
- 210000001082 somatic cell Anatomy 0.000 description 2
- 230000000392 somatic effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- JNAHVYVRKWKWKQ-CYBMUJFWSA-N veliparib Chemical compound N=1C2=CC=CC(C(N)=O)=C2NC=1[C@@]1(C)CCCN1 JNAHVYVRKWKWKQ-CYBMUJFWSA-N 0.000 description 2
- 229950011257 veliparib Drugs 0.000 description 2
- DENYZIUJOTUUNY-MRXNPFEDSA-N (2R)-14-fluoro-2-methyl-6,9,10,19-tetrazapentacyclo[14.2.1.02,6.08,18.012,17]nonadeca-1(18),8,12(17),13,15-pentaen-11-one Chemical compound FC=1C=C2C=3C=4C(CN5[C@@](C4NC3C1)(CCC5)C)=NNC2=O DENYZIUJOTUUNY-MRXNPFEDSA-N 0.000 description 1
- CTLOSZHDGZLOQE-UHFFFAOYSA-N 14-methoxy-9-[(4-methylpiperazin-1-yl)methyl]-9,19-diazapentacyclo[10.7.0.02,6.07,11.013,18]nonadeca-1(12),2(6),7(11),13(18),14,16-hexaene-8,10-dione Chemical compound O=C1C2=C3C=4C(OC)=CC=CC=4NC3=C3CCCC3=C2C(=O)N1CN1CCN(C)CC1 CTLOSZHDGZLOQE-UHFFFAOYSA-N 0.000 description 1
- GSCPDZHWVNUUFI-UHFFFAOYSA-N 3-aminobenzamide Chemical compound NC(=O)C1=CC=CC(N)=C1 GSCPDZHWVNUUFI-UHFFFAOYSA-N 0.000 description 1
- SRNWOUGRCWSEMX-KEOHHSTQSA-N ADP-beta-D-ribose Chemical group C([C@H]1O[C@H]([C@@H]([C@@H]1O)O)N1C=2N=CN=C(C=2N=C1)N)OP(O)(=O)OP(O)(=O)OC[C@H]1O[C@@H](O)[C@H](O)[C@@H]1O SRNWOUGRCWSEMX-KEOHHSTQSA-N 0.000 description 1
- 206010000234 Abortion spontaneous Diseases 0.000 description 1
- 201000004384 Alopecia Diseases 0.000 description 1
- 206010003805 Autism Diseases 0.000 description 1
- 208000020706 Autistic disease Diseases 0.000 description 1
- 208000023275 Autoimmune disease Diseases 0.000 description 1
- 208000018311 Autosomal trisomy Diseases 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 102000019260 B-Cell Antigen Receptors Human genes 0.000 description 1
- 108010012919 B-Cell Antigen Receptors Proteins 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 102100034673 C-C motif chemokine 3-like 1 Human genes 0.000 description 1
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 206010061764 Chromosomal deletion Diseases 0.000 description 1
- 108020004638 Circular DNA Proteins 0.000 description 1
- 108091028732 Concatemer Proteins 0.000 description 1
- 208000011231 Crohn disease Diseases 0.000 description 1
- 230000008265 DNA repair mechanism Effects 0.000 description 1
- 230000006820 DNA synthesis Effects 0.000 description 1
- 102000016911 Deoxyribonucleases Human genes 0.000 description 1
- 108010053770 Deoxyribonucleases Proteins 0.000 description 1
- 206010012559 Developmental delay Diseases 0.000 description 1
- 206010018364 Glomerulonephritis Diseases 0.000 description 1
- 101000946370 Homo sapiens C-C motif chemokine 3-like 1 Proteins 0.000 description 1
- 101000917858 Homo sapiens Low affinity immunoglobulin gamma Fc region receptor III-A Proteins 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 208000036626 Mental retardation Diseases 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- BAWFJGJZGIEFAR-NNYOXOHSSA-O NAD(+) Chemical compound NC(=O)C1=CC=C[N+]([C@H]2[C@@H]([C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OC[C@@H]3[C@H]([C@@H](O)[C@@H](O3)N3C4=NC=NC(N)=C4N=C3)O)O2)O)=C1 BAWFJGJZGIEFAR-NNYOXOHSSA-O 0.000 description 1
- 206010028813 Nausea Diseases 0.000 description 1
- 206010061309 Neoplasm progression Diseases 0.000 description 1
- 208000027626 Neurocognitive disease Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 108010047956 Nucleosomes Proteins 0.000 description 1
- 108700020796 Oncogene Proteins 0.000 description 1
- 108091026813 Poly(ADPribose) Proteins 0.000 description 1
- 201000004681 Psoriasis Diseases 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 108010090804 Streptavidin Proteins 0.000 description 1
- IQFYYKKMVGJFEH-XLPZGREQSA-N Thymidine Chemical class O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 IQFYYKKMVGJFEH-XLPZGREQSA-N 0.000 description 1
- 108700025716 Tumor Suppressor Genes Proteins 0.000 description 1
- 102000044209 Tumor Suppressor Genes Human genes 0.000 description 1
- 208000025865 Ulcer Diseases 0.000 description 1
- 208000031655 Uniparental Disomy Diseases 0.000 description 1
- 206010047700 Vomiting Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000000259 anti-tumor effect Effects 0.000 description 1
- 229940041181 antineoplastic drug Drugs 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 238000010170 biological method Methods 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000002459 blastocyst Anatomy 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 238000004820 blood count Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 229960004562 carboplatin Drugs 0.000 description 1
- 190000008236 carboplatin Chemical compound 0.000 description 1
- 231100000357 carcinogen Toxicity 0.000 description 1
- 239000003183 carcinogenic agent Substances 0.000 description 1
- 230000022131 cell cycle Effects 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 210000003855 cell nucleus Anatomy 0.000 description 1
- 241000902900 cellular organisms Species 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- HWGQMRYQVZSGDQ-HZPDHXFCSA-N chembl3137320 Chemical compound CN1N=CN=C1[C@H]([C@H](N1)C=2C=CC(F)=CC=2)C2=NNC(=O)C3=C2C1=CC(F)=C3 HWGQMRYQVZSGDQ-HZPDHXFCSA-N 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 108091006090 chromatin-associated proteins Proteins 0.000 description 1
- 229910052804 chromium Inorganic materials 0.000 description 1
- 239000011651 chromium Substances 0.000 description 1
- 229960004316 cisplatin Drugs 0.000 description 1
- DQLATGHUWYMOKM-UHFFFAOYSA-L cisplatin Chemical compound N[Pt](N)(Cl)Cl DQLATGHUWYMOKM-UHFFFAOYSA-L 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 210000004748 cultured cell Anatomy 0.000 description 1
- 231100000433 cytotoxic Toxicity 0.000 description 1
- 230000001472 cytotoxic effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 238000001784 detoxification Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 1
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 210000003527 eukaryotic cell Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004547 gene signature Effects 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 230000008303 genetic mechanism Effects 0.000 description 1
- 238000010362 genome editing Methods 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 208000024963 hair loss Diseases 0.000 description 1
- 230000003676 hair loss Effects 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 210000002865 immune cell Anatomy 0.000 description 1
- 230000028993 immune response Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 230000002757 inflammatory effect Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 238000007852 inverse PCR Methods 0.000 description 1
- 201000003723 learning disability Diseases 0.000 description 1
- 208000032839 leukemia Diseases 0.000 description 1
- 238000011528 liquid biopsy Methods 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 210000004324 lymphatic system Anatomy 0.000 description 1
- 229940100352 lynparza Drugs 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001035 methylating effect Effects 0.000 description 1
- 239000011859 microparticle Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000004400 mucous membrane Anatomy 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000000869 mutational effect Effects 0.000 description 1
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 230000001338 necrotic effect Effects 0.000 description 1
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 1
- 210000001623 nucleosome Anatomy 0.000 description 1
- FAQDUNYVKQKNLD-UHFFFAOYSA-N olaparib Chemical compound FC1=CC=C(CC2=C3[CH]C=CC=C3C(=O)N=N2)C=C1C(=O)N(CC1)CCN1C(=O)C1CC1 FAQDUNYVKQKNLD-UHFFFAOYSA-N 0.000 description 1
- FDLYAMZZIXQODN-UHFFFAOYSA-N olaparib Chemical compound FC1=CC=C(CC=2C3=CC=CC=C3C(=O)NN=2)C=C1C(=O)N(CC1)CCN1C(=O)C1CC1 FDLYAMZZIXQODN-UHFFFAOYSA-N 0.000 description 1
- 229960000572 olaparib Drugs 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 229960001756 oxaliplatin Drugs 0.000 description 1
- DWAFYCQODLXJNR-BNTLRKBRSA-L oxaliplatin Chemical compound O1C(=O)C(=O)O[Pt]11N[C@@H]2CCCC[C@H]2N1 DWAFYCQODLXJNR-BNTLRKBRSA-L 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 101150078841 pan gene Proteins 0.000 description 1
- 230000008775 paternal effect Effects 0.000 description 1
- 210000001539 phagocyte Anatomy 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000011518 platinum-based chemotherapy Methods 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 238000009598 prenatal testing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011321 prophylaxis Methods 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 150000003254 radicals Chemical class 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000028617 response to DNA damage stimulus Effects 0.000 description 1
- HMABYWSNWIZPAG-UHFFFAOYSA-N rucaparib Chemical compound C1=CC(CNC)=CC=C1C(N1)=C2CCNC(=O)C3=C2C1=CC(F)=C3 HMABYWSNWIZPAG-UHFFFAOYSA-N 0.000 description 1
- INBJJAFXHQQSRW-STOWLHSFSA-N rucaparib camsylate Chemical compound CC1(C)[C@@H]2CC[C@@]1(CS(O)(=O)=O)C(=O)C2.CNCc1ccc(cc1)-c1[nH]c2cc(F)cc3C(=O)NCCc1c23 INBJJAFXHQQSRW-STOWLHSFSA-N 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 201000000980 schizophrenia Diseases 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000003765 sex chromosome Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 208000000995 spontaneous abortion Diseases 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 208000010648 susceptibility to HIV infection Diseases 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 201000000596 systemic lupus erythematosus Diseases 0.000 description 1
- 229950004550 talazoparib Drugs 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 210000002993 trophoblast Anatomy 0.000 description 1
- 230000005751 tumor progression Effects 0.000 description 1
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 1
- 231100000397 ulcer Toxicity 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
- 230000008673 vomiting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
- Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
Abstract
ゲノムの相状態を改善し、対立遺伝子バランスシグナルを補正するためにより従来的な誤り伝播アプローチを通じて取得された配列決定データと組み合わせて非誤り伝播相決定技術を使用する方法であって、染色体セグメントの倍数性状態の改善された決定を可能にし得る方法が本明細書に開示される。改良された倍数性状態決定を行うために対立遺伝子バランスとリードの深度とを組み合わせて使用する方法が、本明細書中にさらに開示される。本明細書に記載される技術は、胚または胎児に対して倍数性状態の決定を行い、腫瘍DNAにおける染色体不安定性を同定するために、低侵襲的様式で使用され得る。
Description
関連出願の相互参照
本出願は、2020年10月30日に出願された米国仮出願第63/107,464号の恩典を主張し、その全体が参照により本明細書に組み入れられる。
本出願は、2020年10月30日に出願された米国仮出願第63/107,464号の恩典を主張し、その全体が参照により本明細書に組み入れられる。
背景
コピー数多型(CNV)は、疾患および疾患進行の重要な指標であり得る。CNVは、ゲノムにおける構造変動の主な原因として同定されており、典型的には1kb~20Mbの長さの範囲にある配列の重複および欠失の両方を含む。染色体セグメントまたは染色体全体の欠失および重複は、疾患に対する感受性または耐性などの様々な状態に関連する。しかしながら、CNVを同定する方法は依然として困難であり、複数の問題によって複雑化される。いくつかの例では、正常組織と異常組織(1つまたは複数のCNVを含む)が一緒に混合され、1つまたは複数のCNVの検出を妨げるノイズを生成する。また、利用可能な配列決定データは、限られたダイナミックレンジを有し得る。さらに、再サンプリングバイアスに起因する不均一な増幅は、歪んだバリアント対立遺伝子バランスをもたらし得る。
コピー数多型(CNV)は、疾患および疾患進行の重要な指標であり得る。CNVは、ゲノムにおける構造変動の主な原因として同定されており、典型的には1kb~20Mbの長さの範囲にある配列の重複および欠失の両方を含む。染色体セグメントまたは染色体全体の欠失および重複は、疾患に対する感受性または耐性などの様々な状態に関連する。しかしながら、CNVを同定する方法は依然として困難であり、複数の問題によって複雑化される。いくつかの例では、正常組織と異常組織(1つまたは複数のCNVを含む)が一緒に混合され、1つまたは複数のCNVの検出を妨げるノイズを生成する。また、利用可能な配列決定データは、限られたダイナミックレンジを有し得る。さらに、再サンプリングバイアスに起因する不均一な増幅は、歪んだバリアント対立遺伝子バランスをもたらし得る。
したがって、CNVを含む染色体セグメントまたは染色体全体の欠失および重複をより正確に検出するための改良された方法が必要とされている。好ましくは、これらの方法は、妊娠中の胎児における癌またはCNVなどの疾患または疾患の増大したリスクをより正確に診断するために使用することができる。
概要
本発明の一局面によれば、染色体セグメントについて対立遺伝子バランスシグナルを補正する方法が本明細書に開示される。この方法は、少なくとも部分的に相が決定され得る、少なくとも2つの相のセットを有する参照遺伝暗号を取得することを含む。各相のセットは、関心対象の1つまたは複数のバリアントを有する。この方法はさらに、遺伝物質の試料に対して行われた配列決定から関心対象の1つまたは複数のバリアントについて対立遺伝子バランスシグナルを取得することと、非誤り伝播技術を用いて配列決定された複数のリードを取得することとを含む。各リードは、関心対象の1つまたは複数のバリアントのうちの少なくとも1つを包含する。次いで、2つの相のセットの相アラインメントは、複数のリードに基づいて、同じ相または異なる相であるとして決定され、真の対立遺伝子バランスシグナルは、2つの相のセットの決定された相アラインメントに基づいて少なくとも1つの関心対象のバリアントの相状態を確認し、補正し、または供給することによって決定される。
本発明の一局面によれば、染色体セグメントについて対立遺伝子バランスシグナルを補正する方法が本明細書に開示される。この方法は、少なくとも部分的に相が決定され得る、少なくとも2つの相のセットを有する参照遺伝暗号を取得することを含む。各相のセットは、関心対象の1つまたは複数のバリアントを有する。この方法はさらに、遺伝物質の試料に対して行われた配列決定から関心対象の1つまたは複数のバリアントについて対立遺伝子バランスシグナルを取得することと、非誤り伝播技術を用いて配列決定された複数のリードを取得することとを含む。各リードは、関心対象の1つまたは複数のバリアントのうちの少なくとも1つを包含する。次いで、2つの相のセットの相アラインメントは、複数のリードに基づいて、同じ相または異なる相であるとして決定され、真の対立遺伝子バランスシグナルは、2つの相のセットの決定された相アラインメントに基づいて少なくとも1つの関心対象のバリアントの相状態を確認し、補正し、または供給することによって決定される。
非誤り伝播技術は、立体構造捕捉、単一細胞鋳型鎖配列決定または(例えば、レーザー捕捉顕微解剖または核型を介した)染色体の単離を含み得る。この方法は、複数のリードを取得するために非誤り伝播技術を実行することを含み得る。この方法は、対立遺伝子バランスシグナルを取得するために遺伝物質の試料に対して配列決定を行うことを含み得る。
対立遺伝子バランスシグナルおよび複数のリードは、遺伝物質の同じ試料に由来し得る。試料は、体液試料(例えば、血液試料、唾液試料)または組織生検試料であり得る。対立遺伝子バランスシグナルおよび複数のリードは、同じ細胞集団に由来し得る。対立遺伝子バランスシグナルは、細胞外DNAおよび細胞DNAに由来する複数のリードに由来し得る。細胞DNAは、体液(例えば、血液または唾液)内に見られる細胞に由来し得る。
参照遺伝暗号は、対立遺伝子バランスシグナルを生成するために使用される配列決定に由来し得る。参照遺伝暗号は、少なくとも部分的には、対立遺伝子バランスシグナルが得られる対象における正常組織の配列決定、前記対象における生殖系列組織の配列決定、または前記対象の1もしくは複数の遺伝的近縁者からの遺伝物質の配列決定に由来し得る。1または複数の近縁者は、対象の母親および/または父親であり得る。参照遺伝暗号は、少なくとも部分的には、1または遺伝的近縁者の生殖系列配列決定に由来し得る。
参照遺伝暗号は、少なくとも部分的には、対象の全ゲノムショットガン配列決定に由来し得る。対立遺伝子バランスシグナルは、全ゲノムショットガン配列決定に由来し得る。いずれの場合も、全ゲノムショットガン配列決定は、体液試料(例えば、血液試料または唾液試料)中の細胞外DNAに対して実施され得る。非誤り伝播技術は、単一細胞配列決定を含み得る。この方法は、対立遺伝子バランスシグナルが由来する遺伝物質の試料を採取することと、および/または複数のリードが由来する遺伝物質の試料を採取することとをさらに含み得る。
対立遺伝子バランスデータを補正することは、少なくとも部分的に相が決定された参照遺伝暗号におけるスイッチエラーを補正することを含み得る。対立遺伝子バランスシグナルは、約5万、約10万、約20万、約30万、約40万、約50万、約75万、約100万、約5000万もしくは約1億、少なくとも約5万、少なくとも約10万、少なくとも約20万、少なくとも約30万、少なくとも約40万、少なくとも約50万、少なくとも約75万、少なくとも約100万、少なくとも約5000万もしくは少なくとも約1億または約5万以下、約10万以下、約20万以下、約30万以下、約40万以下、約50万以下、約75万以下、約100万以下、約5000万以下もしくは約1億以下の塩基対の領域内の複数のビン分割されたバリアントにわたって平均化され得る。対立遺伝子バランスは、1つまたは複数のハプロタイプブロックにわたって平均化され得る。1つまたは複数のハプロタイプブロックは、希釈プール配列決定によって決定されたものであり得る。対立遺伝子バランスシグナルは、1つまたは複数のハプロタイプブロックを決定するために使用されたのと同じ配列決定に由来したものであり得る。対立遺伝子バランスシグナルは、例えば、5、10、15、20または25リードの最小リード深度などの最小リード深度についてフィルターをかけられ得る。
2つの相のセットは、参照遺伝暗号内の隣接する相のセットであり得る。例えば、隣接する相のセットのそれぞれは、他方における関心対象のバリアントから約1,000、約5,000、約1万、約5万、約10万、約500万、約100万、約500万、約1000万、約5000万、約1億または約2億5000万塩基対より遠くない関心対象のバリアントを包含し得る。複数のリードは、2つの相のセットの各々からの関心対象のバリアントの少なくとも2つ、3つ、4つまたは5つを含むリードについてフィルターをかけられ得る。
非誤り伝播技術は、具体的には、染色体立体構造捕捉を含み得る。染色体立体構造捕捉技術は、Hi-Cであり得る。複数のリードに基づいて相アラインメントを決定することは、リードの大部分が、2つの相のセット間での推定される相状態アラインメントに関して一致しているか、または不一致であるかどうかを決定することを伴い得、2つの相のセット間での推定される相状態アラインメントは、参照遺伝暗号の少なくとも部分的な相状態に基づき得る、複数のリードに基づいて相アラインメントを決定することは、複数のリードからの2つの相のセット間で観察される一致または不一致の量が偶然の結果である確率を決定または推定することを含み得る。確率は、任意で、観察された断片が一致または不一致である可能性が等しいことを仮定する、二項確率であり得る。
この方法は、染色体セグメントについて倍数性状態を決定するために補正された対立遺伝子バランスシグナルを使用することをさらに含み得る。例えば、倍数性状態を決定することは、コピー数多型(CNV)をコールすることであり得る。
本発明の別の局面によれば、染色体セグメントについて倍数性状態を決定する方法が本明細書に開示される。この方法は、染色体セグメント内の1つまたは複数のバリアントの第1のセットについてリードの深度シグナルを取得することと;染色体セグメント内の1つまたは複数のバリアントの第2のセットについて対立遺伝子バランスシグナルを取得することと;染色体セグメントの倍数性状態を決定するために、対立遺伝子バランスシグナルと組み合わせてリードの深度シグナルを使用することとを含む。
染色体セグメントの倍数性状態を決定することは、CNVが染色体セグメント内に存在するか否かを決定することを含み得る。リードの深度シグナルを取得することは、リードの総数に対して正規化された第1のセット内のバリアントの少なくとも1つにマッピングされた配列決定リードの数を取得することを含み得る。リードの深度シグナルおよび/または対立遺伝子バランスシグナルは、約5万、約10万、約20万、約30万、約40万、約50万、約75万、約100万、約5000万もしくは約1億、少なくとも約5万、少なくとも約10万、少なくとも約20万、少なくとも約30万、少なくとも約40万、少なくとも約50万、少なくとも約75万、少なくとも約100万、少なくとも約5000万もしくは少なくとも約1億または約5万以下、約10万以下、約20万以下、約30万以下、約40万以下、約50万以下、約75万以下、約100万以下、約5000万以下もしくは約1億以下の塩基対の領域内のビン分割された複数のバリアントにわたって平均化され得る。リードの深度シグナルおよび/または対立遺伝子バランスシグナルは、1つまたは複数のハプロタイプブロックにわたって平均化され得る。1つまたは複数のハプロタイプブロックは、希釈プール配列決定によって決定されたものであり得る。リードの深度シグナルおよび対立遺伝子バランスシグナルは、同じビン分割された領域にわたって平均化され得る。
リードの深度シグナルを対立遺伝子バランスシグナルと組み合わせて使用することは、リードの深度シグナルがリードの深度閾値を超え、かつ対立遺伝子バランスシグナルが対立遺伝子バランス閾値を超える場合、またはリードの深度シグナルがリードの深度閾値を超えず、かつ対立遺伝子バランスシグナルが対立遺伝子バランス閾値を超えない場合にのみ、陽性または陰性の決定を行うことを含み得る。リードの深度シグナルを対立遺伝子バランスシグナルと組み合わせて使用することは、リードの深度シグナルおよび対立遺伝子バランスシグナルを単一の統合されたシグナルに統合することを含み得る。リードの深度シグナルおよび対立遺伝子バランスシグナルを単一の統合されたシグナルに統合することは、シグナルを掛け合わせることまたはシグナルを足し合わせることを含み得る。統合されたシグナルは、約5万、約10万、約20万、約30万、約40万、約50万、約75万、約100万、約5000万もしくは約1億、少なくとも約5万、少なくとも約10万、少なくとも約20万、少なくとも約30万、少なくとも約40万、少なくとも約50万、少なくとも約75万、少なくとも約100万、少なくとも約5000万もしくは少なくとも約1億または約5万以下、約10万以下、約20万以下、約30万以下、約40万以下、約50万以下、約75万以下、約100万以下、約5000万以下もしくは約1億以下の塩基対の領域内のビン分割された複数のバリアントにわたって平均化され得る。統合されたシグナルは、希釈プール配列決定によって決定されたものであり得る1つまたは複数のハプロタイプブロックにわたって平均化され得る。統合されたシグナルは、リードの深度シグナルおよび/または対立遺伝子バランスシグナルが平均化された複数のビンにわたって平均化され得る。
1つまたは複数のバリアントの第1のセットは、ただ1つのバリアントからなり得る。1つまたは複数のバリアントの第1のセットは、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900または少なくとも1,000個のバリアントを有し得る。1つまたは複数のバリアントの第2のセットは、ただ1つのバリアントからなる。1つまたは複数のバリアントの第2のセットは、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900または少なくとも1,000個のバリアントを有し得る。1つまたは複数のバリアントの第1のセットは、1つまたは複数のバリアントの第2のセットと同一であり得る。
リードの深度シグナルを取得することおよび/または対立遺伝子バランスシグナルを取得することは、配列決定を行うことを含み得る。リードの深度シグナルおよび対立遺伝子バランスシグナルは、同じ配列決定データに由来し得る。リードの深度シグナルおよび/または対立遺伝子バランスシグナルは、例えば、5、10、15、20または25リードの最小リード深度などの最小リード深度についてフィルターをかけられ得る。
前記方法は、リードの深度シグナルおよび/もしくは対立遺伝子バランスシグナルに基づいて倍数性状態の正確な決定の個々の確率を計算すること、またはリードの深度シグナルおよび対立遺伝子バランスシグナルに基づいて倍数性状態の正確な決定の結合確率を計算することを含み得る。確率は、例えば、以下のもの:真陽性、偽陽性、真陰性および偽陰性のうちの1つの確率を測定し得る。以下のものの少なくとも1つが真であることが決定され得る:偽陽性の結合確率は、偽陽性の個々の確率の両方より小さい、偽陰性の結合確率は、偽陰性の個々の確率の両方より小さい、真陽性の結合確率は、真陽性の個々の確率の両方より大きい、または真陰性の結合確率は、真陰性の個々の確率の両方より大きい。
リードの深度シグナルは、第1のベースラインシグナルに対して相殺され得、および/または対立遺伝子バランスシグナルは、第2のベースラインシグナルに対して相殺され得る。各ベースラインシグナルは、既知の倍数性状態を有する第2の染色体セグメントに対する平均シグナルに基づき得る。第2の染色体セグメントは、倍数性状態が決定されている染色体セグメントと同じ染色体内にあり得る。リードの深度シグナルおよび/または対立遺伝子バランスシグナルは、シグナル内のノイズの尺度に対して正規化され得る。ノイズの尺度は、倍数性状態が決定されている染色体セグメントにわたる、既知の倍数性状態を有する第2の染色体セグメントにわたる、第2の染色体セグメントの倍数性状態とは異なる既知の関心対象の倍数性状態を有する第3の染色体セグメントにわたる、または染色体全体にわたる、シグナルの標準偏差または分散であり得る。リードの深度シグナルにおける分散および対立遺伝子バランスシグナル内の分散は、互いの100、90、80、70、60、50、40、30、20、10、9、8、7、6、5、4、3、2、1.9、1.8、1.7、1.6、1.5、1.4、1.3、1.2または1.1倍以内であり得る。リードの深度シグナルを対立遺伝子バランスシグナルと組み合わせて使用することは、シグナルの一方または両方を個別に使用して得られた偽陽性率および/または偽陰性率と比較して、偽陽性率および/または偽陰性率を少なくとも約2倍、少なくとも約3倍、少なくとも約4倍、少なくとも約5倍、少なくとも約6倍、少なくとも約7倍、少なくとも約8倍、少なくとも約9倍、少なくとも約10倍、少なくとも約20倍、少なくとも約30倍、少なくとも約40倍、少なくとも約50倍、少なくとも約60倍、少なくとも約70倍、少なくとも約80倍、少なくとも約90倍、少なくとも約100倍、少なくとも約150倍、少なくとも約200倍、少なくとも約250倍または少なくとも約500倍低下させることをもたらし得る。
リードの深度シグナルを対立遺伝子バランスシグナルと組み合わせて使用することは、リードの深度閾値および対立遺伝子バランス閾値を選択することを含み得る。シグナル閾値はそれぞれ、関心対象の倍数性状態(例えば、異数性)を示すことが知られている複数のバリアントにわたって平均化されたそれぞれのシグナルの平均値の半分として計算され得る。リードの深度シグナルを対立遺伝子バランスシグナルと組み合わせて使用することは、統合されたシグナル閾値を選択することを含み得る。統合されたシグナル閾値は、関心対象の倍数性状態(例えば、異数性)を示すことが知られている複数のバリアントにわたって平均化された統合されたシグナルの平均値の半分として計算され得る。
本方法は、検出されている1つまたは複数の染色体の異数性をもたらし得る。
本方法は、検出されている分析されたすべての染色体の正倍数性をもたらし得る。本方法は、検出されている染色体セグメントの付加および/または欠失をもたらし得る。本方法は、同定されているCNVをもたらす。
対立遺伝子バランスシグナルを取得することは、本明細書の他の箇所に記載されている、そのような補正を行うための上述の方法の任意の1つを実施することによって元の対立遺伝子バランスシグナルを補正することを含み得る。
本発明の別の局面によれば、上述の方法のいずれもが、染色体セグメントについて異なるコピー数を有する細胞の集団を含む試料に由来する倍数性状態を示すシグナル(例えば、対立遺伝子バランスシグナルまたはリードの深度シグナル)を取得することを含み得る。細胞の集団内の細胞のいくつかは異数性を有し得るが、他の細胞は異数性を有しないことがあり得る。シグナルは、1つまたは複数の腫瘍細胞を含む試料に由来し得る。試料は、非腫瘍細胞をさらに含み得る。
本発明の別の局面によれば、上述の方法のいずれもが、細胞外DNAに由来する倍数性状態を示すシグナル(例えば、対立遺伝子バランスシグナルまたはリードの深度シグナル)を取得することを含み得る。細胞外DNAは、細胞外胎児DNA(cffDNA)または循環腫瘍DNA(ctDNA)であり得る。
本発明の別の局面によれば、上述の方法のいずれもが、胚または胎児からの倍数性状態を示すシグナル(例えば、対立遺伝子バランスシグナルまたはリードの深度シグナル)を取得することを含み得る。胚は、例えば、胚の子宮内への着床前など、インビトロに存在する胚であり得る。
本発明の別の局面によれば、腫瘍DNA中の染色体不安定性を検出する方法が本明細書に開示される。この方法は、遺伝物質の試料内の1つまたは複数の染色体セグメントについて倍数性状態を決定するための前述の方法の任意の1つに従って倍数性状態を決定することを含む。遺伝物質の試料は、少なくとも部分的に、腫瘍細胞であることが知られているか、または腫瘍細胞であることが疑われる1つまたは複数の細胞を起源とするDNAに由来する。1つまたは複数の染色体セグメントについての異数性状態の同定は、少なくともいくつかの腫瘍細胞の染色体不安定性を示すために使用される。
試料は、癌と診断されたまたは癌を有することが疑われる対象に由来し得る。試料は循環腫瘍DNAを含有し得る。参照遺伝暗号を確立するために、遺伝物質が得られた対象からの正常組織(例えば、生殖系列組織)または腫瘍組織の配列決定が使用され得る。本方法は、染色体不安定性が示されているかどうかに基づいて、前記遺伝物質がそこから得られる1つもしくは複数の細胞または対象を癌に対して処置することをさらに含み得る。処置は、染色体不安定性が示される場合に、ポリADPリボースポリメラーゼ(PARP)阻害剤および/または白金ベースの化学療法剤を1つまたは複数の細胞または対象に投与することを含み得る。
本発明の別の局面によれば、対象においてデノボコピー数多型(CNV)を検出する方法が本明細書に開示される。この方法は、染色体セグメントについて倍数性状態を決定するための前述の方法の任意の1つに従って倍数性状態を決定することを含む。対象の親は、染色体セグメントについて正倍数体である。デノボ異数体(例えば、CNV)は、本方法を実施することによって対象の染色体セグメントにおいて同定され得る。
倍数性状態の決定は、倍数性状態を、対象の1または複数の遺伝的近縁者に対して行われた配列決定に由来する参照遺伝暗号と比較することを含み得る。
1または複数の遺伝的近縁者は、対象の母親および/または父親であり得る。配列決定は、複数のリードを提供するための前述の方法の任意の1つに従って複数のリードを提供するために、非誤り伝播技術を用いて行われ得る。配列決定は、細胞DNAに対して行われ得る。この方法は、対象の母親または父親が異数性の原因であるかどうかを決定することをさらに含み得る。
対象は胚であり得る。前記方法は、胚生検、胞胚腔液または細胞培養培地(培養培地中の細胞外DNA)に由来する倍数性状態を示すシグナル(例えば、対立遺伝子バランスシグナルまたはリードの深度シグナル)を取得することを含み得る。前記方法は、異数性の非存在または存在に基づいて胚を選択することをさらに含み得る。胚は、複数の胚から選択され得る。選択された胚は、体外受精(IVF)のために使用され得、処分され得、または凍結され得る。
対象は胎児であり得る。前記方法は、細胞外胎児DNA(cffDNA)に由来する倍数性状態を示すシグナル(例えば、対立遺伝子バランスシグナルまたはリードの深度シグナル)を取得することを含み得る。前記方法は、異数性(例えば、CNV)の特定された非存在または存在に基づいて胎児および/または母親を処置することを含み得る。処置は、例えば核型分析など、胎児に対して追加の試験を行うことを含み得る。処置は、妊娠を終了させることを含み得る。処置は、検出された異数性(例えば、CNV)の存在に関連する疾患に対して胎児に出生前処置を施すことを含み得る。
本発明の別の局面によれば、疾患について対象をスクリーニングする方法が本明細書に開示される。この方法は、疾患に関連する1つまたは複数の遺伝的バリアントが存在するかどうかを決定することを含む。1つまたは複数の遺伝的バリアントには、1または複数の他の対象に対して、倍数性状態を決定するための上述の方法の任意の1つを行うことによって同定された異数性(例えば、CNV)および/または異数性と同じハプロタイプブロック内に存在したSNPが含まれる。SNPは、疾患に関連することが知られていることがあり得る。
CNVおよびSNPは、連鎖不平衡であり得る。疾患に関連する1つまたは複数の遺伝的バリアントが存在するかどうかを決定することは、対象に対して配列決定を行うことを含み得る。1つまたは複数の遺伝的バリアントを包含するゲノムの一部が、(例えば、マイクロアレイを介して)配列決定のために標的とされ得る。前記方法は、1つまたは複数の遺伝的バリアントに少なくとも部分的に基づいて、疾患についての多遺伝子リスクスコア(PRS)を計算することを含み得る。前記方法は、1つまたは複数の遺伝的バリアントの存在もしくは非存在に少なくとも部分的に基づいて、または1つもしくは複数の遺伝的バリアントに少なくとも部分的に基づくPRSに基づいて、疾患を有する対象を診断することをさらに含み得る。前記方法は、1つまたは複数の遺伝的バリアントの存在または非存在に基づいて対象を処置することを含み得る。
本発明の別の局面によれば、対象において生殖系列モザイクバリアントの相を決定する方法が本明細書に開示される。この方法は、少なくとも2つの相のセットを有する参照遺伝暗号を取得することを含む。各相のセットは、関心対象の1つまたは複数のバリアントを有する。参照遺伝暗号は、少なくとも部分的に相が決定され得る。この方法は、非誤り伝播技術を用いて配列決定された複数のリードを取得することをさらに含む。各リードは、関心対象の1つまたは複数のバリアントのうちの少なくとも1つを含む。2つの相のセットの相アラインメントは、複数のリードに基づいて、同じ相または異なる相であるとして決定され、異数性(例えば、CNV)を示す染色体セグメントを包含するハプロタイプは、2つの相のセットの決定された相アラインメントに基づいて同定される。
対象は、異数性に関連する遺伝的疾患または症状を有すると診断されるか、または疑われ得る。対象は、ヌーナン症候群またはラソパシーを有すると診断されたことがあり得るか、または有することが疑われ得る。前記方法は、同定されたハプロタイプについて対象からの配偶子をスクリーニングすることをさらに含み得る。前記方法は、体外受精のために、同定されたハプロタイプを有しない配偶子を選択することをさらに含み得る。前記方法は、着床前遺伝子検査中に、胚におけるハプロタイプについてスクリーニングすることを含み得る。前記方法は、異数性の非存在または存在に基づいて胚を選択することを含み得る。胚は、複数の胚から選択され得る。前記方法は、選択された胚を体外受精(IVF)において使用すること、選択された胚を処分すること、または選択された胚を凍結することを含み得る。異数性は、倍数性状態を決定するための上記の方法の任意の1つの方法を行うことによって同定され得る。
詳細な説明
関心対象の遺伝暗号(例えば、関心対象のゲノム)の1つまたは複数の領域、特に以前の誤り伝播相決定技術から導入されたスイッチエラーを含有し得る領域の相を明らかにするために、性質上非誤り伝播であるヌクレオチド配列決定法を適用することによって、倍数性状態の改善された決定を行う方法が本明細書に開示される。非誤り伝播方法を介して関心対象の2つ以上のバリアント間で決定された相アラインメントは、関心対象の遺伝暗号に関する既存の相情報と組み合わされ得る。いくつかの例では、(例えば、スイッチエラーを導入した相決定技術から)不正確に相が決定された関心対象の1つまたは複数のバリアントの相状態を補正するために、決定された相アラインメントが使用され得る。いくつかの例では、1つまたは複数のバリアントの推定される相状態が真の相状態であることを確認するために、決定された相アラインメントが使用され得る。いくつかの例では、欠落した相情報を供給するために、決定された相アラインメントが使用され得る。非誤り伝播方法によって少なくとも部分的に決定された、関心対象の遺伝暗号の一部に関する相状態情報は、対立遺伝子バランスシグナルを(再)解析するために使用され得る。非誤り伝播相決定方法を使用することから得られた真の対立遺伝子バランスシグナルは、CNVコールなどの、倍数性状態の改善された決定を行うために使用され得る。特定の実施態様では、参照ハプロタイプに対する対立遺伝子バランスのシフトを示す対立遺伝子バランスシグナルが、関心対象の遺伝暗号内の欠失または増幅に対応するかどうかを決定するために、改善された相状態アラインメントが使用され得る。
関心対象の遺伝暗号(例えば、関心対象のゲノム)の1つまたは複数の領域、特に以前の誤り伝播相決定技術から導入されたスイッチエラーを含有し得る領域の相を明らかにするために、性質上非誤り伝播であるヌクレオチド配列決定法を適用することによって、倍数性状態の改善された決定を行う方法が本明細書に開示される。非誤り伝播方法を介して関心対象の2つ以上のバリアント間で決定された相アラインメントは、関心対象の遺伝暗号に関する既存の相情報と組み合わされ得る。いくつかの例では、(例えば、スイッチエラーを導入した相決定技術から)不正確に相が決定された関心対象の1つまたは複数のバリアントの相状態を補正するために、決定された相アラインメントが使用され得る。いくつかの例では、1つまたは複数のバリアントの推定される相状態が真の相状態であることを確認するために、決定された相アラインメントが使用され得る。いくつかの例では、欠落した相情報を供給するために、決定された相アラインメントが使用され得る。非誤り伝播方法によって少なくとも部分的に決定された、関心対象の遺伝暗号の一部に関する相状態情報は、対立遺伝子バランスシグナルを(再)解析するために使用され得る。非誤り伝播相決定方法を使用することから得られた真の対立遺伝子バランスシグナルは、CNVコールなどの、倍数性状態の改善された決定を行うために使用され得る。特定の実施態様では、参照ハプロタイプに対する対立遺伝子バランスのシフトを示す対立遺伝子バランスシグナルが、関心対象の遺伝暗号内の欠失または増幅に対応するかどうかを決定するために、改善された相状態アラインメントが使用され得る。
対立遺伝子バランスシグナルをリードの深度シグナルと組み合わせて使用することによって、倍数性状態の改善された決定を行う方法も本明細書中に開示される。このようなシグナルは、シグナル対ノイズ比を改善し、偽陽性および/または偽陰性のコールの確率を低減させることができる独立した情報を提供する。組み合わせでの使用は、真の対立遺伝子バランスシグナルを提供するために、非誤り伝播相決定アプローチを介して対立遺伝子バランスシグナルが補正される場合に特に強力であり得る。
相状態およびスイッチエラー
スイッチエラーは、バリアント位置がその隣接するバリアントに対して不正確に相決定される場合に発生する。本明細書で使用される場合、「バリアント」は、一塩基多型(SNP)を含む、2つ以上の相同染色体の配列間の任意の相違を指し得る。本明細書で使用される場合、バリアントは、文脈によって特に指示されない限り、より大きな集団での十分に低い頻度を含意しない。相決定精度は、「スイッチエラー率」として知られる、スイッチエラーの機会の数によって除された発生するスイッチエラーの数を計数することによって測定することができる。スイッチエラーは、長いスイッチエラー、点スイッチエラー、または未確定のスイッチエラーとして分類され得る。長いスイッチは、長いスイッチを取り囲む他の局所スイッチが存在しない(例えば、3つの連続するヘテロ接合部位内に他のスイッチが存在しない)大規模な擬似組換え事象として現れる。点スイッチは、2つの隣接するスイッチエラー(例えば、3つの連続するヘテロ接合部位内の2つのスイッチ、スイッチの対は1つの点スイッチとして数えられる)として現れる小規模なスイッチエラーである。残りのスイッチは未確定と考えられる(例えば、小さな相決定ブロック内で2つの部位のみが相決定され、そのため、スイッチエラーを長いまたは点に分類することができなかった。)。スイッチエラーがゲノムのより大きな部分にわたって伝播するので(例えば、共同スイッチ中の第2のスイッチエラーが、共同スイッチの下流にあるヌクレオチドを元の/適切な相状態に戻すので、共同スイッチから下流の遠い遺伝子座の相状態は、共同スイッチエラーによって影響を受けない。)、長いスイッチは、遺伝子座の相状態に依存するゲノム解析にとって特に有害である。長いスイッチエラーは、特に、真のハプロタイプと比較して、推測されたハプロタイプにおいて誘導された偽の組換え事象として現れることがあり得る。相のセットの使用の重要な制限は、長いスイッチエラーの存在であった。これらのエラーは、特に、小さな(例えば、約1Mb未満の)欠失または増幅を検出する感度に直接影響する。孤立した相決定の誤り事象とは対照的に、スイッチエラーは、上流の遺伝子座に対するすべての下流の遺伝子座および/または下流の遺伝子座に対するすべての上流の遺伝子座の関係に直接影響を及ぼし得る。低い多型またはSNV密度を有するゲノムの領域は、相が決定される際に特にスイッチエラーが起こりやすい。
スイッチエラーは、バリアント位置がその隣接するバリアントに対して不正確に相決定される場合に発生する。本明細書で使用される場合、「バリアント」は、一塩基多型(SNP)を含む、2つ以上の相同染色体の配列間の任意の相違を指し得る。本明細書で使用される場合、バリアントは、文脈によって特に指示されない限り、より大きな集団での十分に低い頻度を含意しない。相決定精度は、「スイッチエラー率」として知られる、スイッチエラーの機会の数によって除された発生するスイッチエラーの数を計数することによって測定することができる。スイッチエラーは、長いスイッチエラー、点スイッチエラー、または未確定のスイッチエラーとして分類され得る。長いスイッチは、長いスイッチを取り囲む他の局所スイッチが存在しない(例えば、3つの連続するヘテロ接合部位内に他のスイッチが存在しない)大規模な擬似組換え事象として現れる。点スイッチは、2つの隣接するスイッチエラー(例えば、3つの連続するヘテロ接合部位内の2つのスイッチ、スイッチの対は1つの点スイッチとして数えられる)として現れる小規模なスイッチエラーである。残りのスイッチは未確定と考えられる(例えば、小さな相決定ブロック内で2つの部位のみが相決定され、そのため、スイッチエラーを長いまたは点に分類することができなかった。)。スイッチエラーがゲノムのより大きな部分にわたって伝播するので(例えば、共同スイッチ中の第2のスイッチエラーが、共同スイッチの下流にあるヌクレオチドを元の/適切な相状態に戻すので、共同スイッチから下流の遠い遺伝子座の相状態は、共同スイッチエラーによって影響を受けない。)、長いスイッチは、遺伝子座の相状態に依存するゲノム解析にとって特に有害である。長いスイッチエラーは、特に、真のハプロタイプと比較して、推測されたハプロタイプにおいて誘導された偽の組換え事象として現れることがあり得る。相のセットの使用の重要な制限は、長いスイッチエラーの存在であった。これらのエラーは、特に、小さな(例えば、約1Mb未満の)欠失または増幅を検出する感度に直接影響する。孤立した相決定の誤り事象とは対照的に、スイッチエラーは、上流の遺伝子座に対するすべての下流の遺伝子座および/または下流の遺伝子座に対するすべての上流の遺伝子座の関係に直接影響を及ぼし得る。低い多型またはSNV密度を有するゲノムの領域は、相が決定される際に特にスイッチエラーが起こりやすい。
集団の統計解析から相を計算で推測することに依存する集団ベースの相決定アプローチでは、分子的相決定アプローチと比較して、スイッチエラー率が一般により高い。しかしながら、分子的相決定アプローチが、スイッチエラーを起こしやすい場合もあり得る。例えば、多くの分子的相決定アプローチは、ゲノムへの短いリードのアラインメントについての統計的に得られた推測に依存する、短いリードからの合成の長いリードの計算的構築に依存し得る。例えば、希釈プール配列決定に基づくハプロタイプの決定は、区画内の1つのDNA分子が別のDNA分子と重複する配列を有する可能性を低減するために、所与の区画あたり分子の低いモル濃度に依存する。このような仮定は、少なくともいくつかのハプロタイプを得ることを可能にするが、長距離の相決定(例えば、染色体全体の相決定)を実行するときにスイッチエラーを導入し得る。最も可能性の高い相アラインメントを見出すために、遠いバリアントの相アラインメントに関するいくつかの仮定が行われることがあり、これはスイッチエラーの導入を許容し得る。
1つのバリアントを別のバリアントに直接結び付ける実験情報によって相アラインメントが決定され、相アラインメントがより遠いバリアントの相状態に関連する推測に基づかないので、インタクトな染色体中の2つ以上の遺伝子座の近接した位置を決定してこれらの遺伝子座における1つまたは複数のバリアントを互いに対して相決定することに直接依存する相決定アプローチは、一般に、スイッチエラーが起こりにくい。したがって、たとえこのようなアプローチを使用して相決定の誤りが生じたとしても、誤りは必ずしも他のより遠い遺伝子座(例えば、下流の遺伝子座)に伝播されるとは限らない。したがって、このような「非誤り伝播」方法は、スイッチエラーが起こりやすい集団ベースの相決定アプローチおよび分子的相決定アプローチに対する独立した相決定アプローチを提供する。
一般に非誤り伝播であるアプローチおよび誤り伝播であるアプローチは、当技術分野においてよく理解されている。非誤り伝播アプローチの例としては、特に近接した(例えば、隣接する)相のセットに対する染色体立体構造捕捉(例えば、Hi-C);単一細胞-鋳型鎖配列決定;および(例えば、核型分析またはレーザー捕捉顕微解剖によって取得されるような)染色体配列決定が挙げられるが、これらに限定されない。配列決定を行うために使用される実験設定の性質(すなわち、ただ1つの染色体ホモログに実験的に集中することができるまたは限定することができる配列決定アプローチ)により、リードが同じ染色体ホモログに由来すると推定することができる配列決定技術は、非誤り伝播アプローチであることが理解されるであろう。一般に誤り伝播(誤り伝播性)が起きやすいアプローチとしては、親の精子および/または極体の配列決定に基づくアプローチ;希釈プール配列決定;集団参照パネル;ならびに2つの相のセットを単一のリード中に捕捉することができるように、相決定が十分に局在化された領域(例えば、約50kb以内)内の相のセットに焦点を当てていない場合の、長いリードの配列決定(例えば、ナノポアシークエンシング)が挙げられるが、これらに限定されない。
本発明のいくつかの局面によれば、標的とされる領域の正確な相決定を提供するために、DNAの標的とされる領域に対して非誤り伝播方法が使用され得る。非誤り伝播方法から得られた相状態情報は、誤り伝播方法から得られた相状態情報と組み合わされ得る。例えば、推定される相状態アラインメント(例えば、誤り伝播方法から得られる相状態)におけるスイッチエラーを同定および補正するために、ならびに/または推定される相状態アラインメントを真のアラインメントとして確認するために、非誤り伝播方法から得られた相状態情報が使用され得る。非誤り伝播方法から得られた相状態情報は、推定される相状態アラインメント(例えば、誤り伝播方法から得られる相状態)において欠落した相情報を供給するために使用され得る。
倍数性状態
染色体または染色体セグメントの倍数性状態は、(正常なコピー数を有する)正倍数体または(異常なコピー数を有する)異数体として広く特徴付けられ得る。遺伝的試料の倍数性状態を決定するために、1つまたは複数の遺伝子座に存在する遺伝物質の量が使用され得る。異数性は、例えば、不均衡な転座、片親性ダイソミーまたはコピー数多型(CNV)を含む他の全体的な染色体異常を含み得る。
染色体または染色体セグメントの倍数性状態は、(正常なコピー数を有する)正倍数体または(異常なコピー数を有する)異数体として広く特徴付けられ得る。遺伝的試料の倍数性状態を決定するために、1つまたは複数の遺伝子座に存在する遺伝物質の量が使用され得る。異数性は、例えば、不均衡な転座、片親性ダイソミーまたはコピー数多型(CNV)を含む他の全体的な染色体異常を含み得る。
コピー数多型
CNVは、一般に反復されたゲノムの区画における反復回数の、個々の染色体間での変動を指す。ヒトゲノム全体の約2/3がリピートから構成され得、ヒトゲノムの4.8~9.5%がCNVとして分類され得る。CNVは、疾患表現型を少なくともある程度予測することが知られている。CNVは、短いリピート(例えば、ジヌクレオチドまたはトリヌクレオチドリピート)または長いリピート(例えば、全遺伝子リピート)の数に影響を及ぼし得、一般に、重複または欠失事象によって導入される。CNVは、影響を受けた配列の長さに基づいて、2つの主要なカテゴリーのうちの1つに割り当てられることが多い。第1のカテゴリーは、コピー数多型(CNP)を含み、これは一般的な集団で一般的であり、1%を超える総頻度で生じる。CNPは、典型的には小さく(ほとんどが10kb未満の長さである)、薬物解毒および免疫において重要なタンパク質をコードする遺伝子に豊富であることが多い。これらのCNPのサブセットは、コピー数に関して高度に可変的である。その結果、異なるヒト染色体は、特定の遺伝子セットについて幅広い範囲のコピー数(例えば、2、3、4、5など)を有することができる。免疫応答遺伝子に関連するCNPは、最近、乾癬、クローン病および糸球体腎炎を含む複雑な遺伝性疾患への易罹患性に関連付けられてきた。
CNVは、一般に反復されたゲノムの区画における反復回数の、個々の染色体間での変動を指す。ヒトゲノム全体の約2/3がリピートから構成され得、ヒトゲノムの4.8~9.5%がCNVとして分類され得る。CNVは、疾患表現型を少なくともある程度予測することが知られている。CNVは、短いリピート(例えば、ジヌクレオチドまたはトリヌクレオチドリピート)または長いリピート(例えば、全遺伝子リピート)の数に影響を及ぼし得、一般に、重複または欠失事象によって導入される。CNVは、影響を受けた配列の長さに基づいて、2つの主要なカテゴリーのうちの1つに割り当てられることが多い。第1のカテゴリーは、コピー数多型(CNP)を含み、これは一般的な集団で一般的であり、1%を超える総頻度で生じる。CNPは、典型的には小さく(ほとんどが10kb未満の長さである)、薬物解毒および免疫において重要なタンパク質をコードする遺伝子に豊富であることが多い。これらのCNPのサブセットは、コピー数に関して高度に可変的である。その結果、異なるヒト染色体は、特定の遺伝子セットについて幅広い範囲のコピー数(例えば、2、3、4、5など)を有することができる。免疫応答遺伝子に関連するCNPは、最近、乾癬、クローン病および糸球体腎炎を含む複雑な遺伝性疾患への易罹患性に関連付けられてきた。
CNVの第2のクラスは、数十万塩基対から100万塩基対を超える長さのサイズにわたる、CNPよりはるかに長い比較的稀なバリアントを含む。いくつかの事例において、これらのCNVは、特定の個体を生じさせた精子もしくは卵の生成中に生じたものであり得、または家族内でわずか2、3世代承継されたものであり得る。これらの大きくて稀な構造的バリアントは、精神遅滞、発達遅延、統合失調症および自閉症を有する対象に偏って観察されている。このような対象におけるそれらの出現は、大きく稀なCNVが、単一ヌクレオチド置換を含む他の形態の遺伝性変異よりも神経認知疾患においてより重要であり得るという推測をもたらした。
遺伝子コピー数は、癌細胞において変化し得る。例えば、Chr1pの重複は乳癌において一般的であり、EGFRコピー数は非小細胞肺癌において正常よりも高くなり得る。癌は主要な死因の1つであり、したがって、(寛解の確率および寛解の期間を増加させることなどによって)患者の転帰を改善することができるので、癌の早期診断および処置は重要である。早期診断は、患者がより少ないまたはより強烈でない処置選択肢を受けることを可能にすることもできる。癌性細胞を破壊する現在の処置の多くは、正常細胞にも影響を及ぼし、悪心、嘔吐、低血球数、増大した感染リスク、脱毛および粘膜中の潰瘍などの様々な起こり得る副作用をもたらす。したがって、癌の早期検出は、癌を排除するために必要とされる処置(化学療法剤または放射線など)の量および/または数を低減させることができるので望ましい。
コピー数多型は、重度の精神的および身体的障害、ならびに特発性学習障害にも関連している。胎児トリソミー13、18および21、三倍体、ならびに性染色体異数性などの異常を検出するために、細胞外DNA(cfDNA)を使用する非侵襲的出生前検査(NIPT)を使用することができる。同じく重度の精神的および身体的障害をもたらし得る亜染色体微小欠失は、サイズがより小さいために、検出することがより困難である。微小欠失症候群の8つは、1000中1を超える総発生率を有し、胎児常染色体トリソミーとほぼ同じくらい一般的なものとなっている。さらに、CCL3L1のより高いコピー数は、HIV感染に対するより低い易罹患性に関連しており、FCGR3B(CD16細胞表面免疫グロブリン受容体)の低いコピー数は、全身性エリテマトーデスおよび類似の炎症性自己免疫障害に対する易罹患性を増加させ得る。
倍数性状態の決定
本発明の様々な局面は、染色体または染色体セグメントのいずれかに関して、対象、細胞もしくは細胞の集団、または遺伝物質の他の供給源について、倍数性状態の決定またはコール(例えば、CNVをコールする)を行うことを含む。本明細書で使用される場合、染色体セグメントは、染色体全体を含む、コピー数を有すると特徴付けることができる染色体の配列の任意の長さまたは部分を指し得る。対象は、ゲノム、好ましくは二倍体ゲノムを有する任意の生物を指し得る。好ましくは、対象は哺乳動物であり得る。様々な局面によれば、対象はヒトである。倍数性状態の決定は、異数性の起源を決定すること(すなわち、どの染色体ホモログが異数性を含むかを決定すること)を含み得る。起源は、例えば、母親から遺伝したまたは父親から遺伝した染色体に由来するものとして同定され得る。
本発明の様々な局面は、染色体または染色体セグメントのいずれかに関して、対象、細胞もしくは細胞の集団、または遺伝物質の他の供給源について、倍数性状態の決定またはコール(例えば、CNVをコールする)を行うことを含む。本明細書で使用される場合、染色体セグメントは、染色体全体を含む、コピー数を有すると特徴付けることができる染色体の配列の任意の長さまたは部分を指し得る。対象は、ゲノム、好ましくは二倍体ゲノムを有する任意の生物を指し得る。好ましくは、対象は哺乳動物であり得る。様々な局面によれば、対象はヒトである。倍数性状態の決定は、異数性の起源を決定すること(すなわち、どの染色体ホモログが異数性を含むかを決定すること)を含み得る。起源は、例えば、母親から遺伝したまたは父親から遺伝した染色体に由来するものとして同定され得る。
染色体または染色体セグメントの倍数性状態は、参照遺伝暗号に関して決定され得る。参照遺伝暗号は、対象のゲノム全体、対象の1つもしくは複数の染色体全体、または対象の(同じもしくは異なる染色体上の)1つもしくは複数の染色体セグメントに対応し得る。参照遺伝暗号は、本明細書に開示される方法に従って遺伝物質が分析されている対象から直接的または間接的に取得され得る。例えば、参照遺伝暗号は、対象からの正常な遺伝物質(例えば、正常細胞または非癌性細胞)の配列決定に由来し得る。正常な遺伝物質は、正倍数体であることが知られているか、または既知の性質の異数性が以前に同定されている遺伝物質であり得る。参照遺伝暗号は、対象の体細胞および/または生殖系列細胞の配列決定から取得され得る。いくつかの例では、参照遺伝暗号は、特に対象が胚または胎児であれば、当技術分野で公知の方法に従って、遺伝物質が分析されている対象の1または複数の親または他の遺伝的近縁者の配列決定から遺伝暗号を再構築することによって取得され得る。例えば、その全体が参照により本明細書に組み入れられる、2021年4月8日に公開されたKumarらの国際公開第2021/067417号を参照されたい。参照遺伝暗号を構築することは、1または複数の遺伝的近縁者の体細胞組織および/または生殖系列組織をサンプリングすることを含み得る。参照遺伝暗号を構築することは、たとえわずかな遺伝情報しか得られないとしても、対象(例えば、胚または胎児)をサンプリングすることを含み得る。参照遺伝暗号を構築することは、対象から取得された細胞を配列決定することを含み得る。参照遺伝暗号を構築することは、対象の血液内、細胞培養培地内(胚の場合)、または対象の母親の血液内(胎児の場合)のDNA断片をサンプリングすることなどを通じて、細胞外DNA(cfDNA)を配列決定することを含み得る。いくつかの実施形態において、対象のゲノム、または少なくとも対象の正常細胞のゲノムは、(例えば、腫瘍細胞などの異常細胞の)倍数性状態を決定するためにそれに対して比較を行うことができる参照遺伝暗号として機能する。いくつかの実施形態において、対象の予想されるゲノム(すなわち、デノボの増幅または欠失事象などの倍数性状態のデノボの変化が存在しない、対象の親から承継された特定の染色体から構成されるゲノム)は、対象における倍数性状態へのデノボの変化を決定するためにそれに対して比較を行うことができる参照遺伝暗号としての役割を果たす。
参照遺伝暗号は、相が決定されてなくてもよい。好ましくは、参照遺伝暗号は、完全に相が決定されているか、または少なくとも部分的に相が決定されている。参照遺伝暗号は、誤り伝播相決定アプローチなどの、当技術分野において公知の任意の方法によって相が決定され得る。例えば、遺伝暗号は、参照集団パネルを含む計算技術によって相が決定され得る。遺伝暗号は、希釈プール配列決定などの分子技術によって相が決定され得る。例えば、Choi et al.,PLoS Genet.2018 Apr 5;14(4):e1007308(doi:10.1371/journal.pgen.1007308)を参照されたい。遺伝暗号は、対象の生殖系列細胞および/または対象の1もしくは複数の遺伝的近縁者(例えば、母親および父親)を配列決定することによって相が決定され得る。例えば、その全体が参照により本明細書に組み入れられる、2021年4月8日に公開されたKumarらの国際公開第2021/067417号を参照されたい。
ハプロタイプは、いずれかの染色体ホモログに特異的なゲノムバリアントの連続した相が決定されたブロックである。様々な局面によれば、本明細書に記載される本発明の方法を実施する前に、ハプロタイプブロック内での正しい相決定の確実性または少なくとも十分に高い信頼性が存在するように、ハプロタイプブロックは事前に構築され得る。例えば、ハプロタイプブロックは、ハプロタイプブロック内にスイッチエラーが存在しないという確実性または高い信頼性が存在する希釈プール配列決定または長いリード配列決定から構築され得る。関心対象の遺伝暗号に対して事前の相状態情報を取得することは、1つまたは複数のハプロタイプブロックを取得することを含み得る。様々な実施態様では、本明細書に記載されるシグナルの1つまたは複数は、ハプロタイプブロックにわたって、またはハプロタイプブロックのより小さい領域もしくは区画にわたって平均化され得る。
非誤り伝播相決定アプローチ
様々な実施態様において、非誤り伝播相決定アプローチを誤り伝播相決定アプローチと組み合わせることが有利であり得る。非誤り伝播相決定技術は、より伝統的な誤り伝播技術に対して独立した情報源を提供することができる。誤り伝播相決定アプローチ(例えば、本明細書の他の箇所に記載されている集団ベースの相決定および分子的相決定アプローチ)は、大規模な配列および/または相状態情報を取得するための、非誤り伝播アプローチよりも迅速で、安価な、および/またはより便利なアプローチを提供し得る。非誤り伝播アプローチは、倍数性状態のより良好な決定を可能にする(例えば、その標的とされる領域内のCNVをコールする能力を改善する)遺伝暗号の標的とされる領域についてのより正確な相状態情報を提供し得る。
様々な実施態様において、非誤り伝播相決定アプローチを誤り伝播相決定アプローチと組み合わせることが有利であり得る。非誤り伝播相決定技術は、より伝統的な誤り伝播技術に対して独立した情報源を提供することができる。誤り伝播相決定アプローチ(例えば、本明細書の他の箇所に記載されている集団ベースの相決定および分子的相決定アプローチ)は、大規模な配列および/または相状態情報を取得するための、非誤り伝播アプローチよりも迅速で、安価な、および/またはより便利なアプローチを提供し得る。非誤り伝播アプローチは、倍数性状態のより良好な決定を可能にする(例えば、その標的とされる領域内のCNVをコールする能力を改善する)遺伝暗号の標的とされる領域についてのより正確な相状態情報を提供し得る。
非誤り伝播技術から取得され得る相アラインメントは、標的化された様式で使用され得る。使用される方法に応じて、標的化された相補正は、遺伝暗号の特定の領域に焦点を合わせることができ、リソースを節約し、1つまたは複数の非誤り伝播方法またはのより効率的な実施を可能にする。例えば、少なくとも部分的に相決定されたゲノムから同定された潜在的なスイッチエラーに関連する特定の相のセットの相状態が、それらの真のセットの相状態を補正するために使用され得る。相アラインメントは、ゲノム、関心対象の染色体または関心対象の染色体セグメントの相状態アラインメント全体を再分析するために使用され得る。相状態は、特定のバリアントまたは染色体セグメントについて欠落した相情報を提供するために使用され得る。相アラインメントは、(例えば、誤り伝播アプローチから得られた)事前の相状態データと組み合わせて相アラインメントを使用して計算的に再計算され得る。本明細書に記載される方法から得られる相状態アラインメントを既存の相情報と組み合わせる方法は、当技術分野で十分に理解されている。本発明のある局面によれば、取得されたより正確な相状態情報に基づいてゲノム全体を再構築するための改善されたプロセスを提供するために、非誤り伝播技術は、従来の誤り伝播技術と組み合わせて使用され得る。非誤り伝播技術はまた、ゲノム内のバリアントの機能の解釈も可能にし得る。
本明細書に記載されるように、非誤り伝播であると理解される様々な相決定アプローチが、当技術分野で周知である。非誤り伝播様式で使用され得るこのような技術の具体的であるが非限定的な例が本明細書に記載されている。
染色体立体構造捕捉(3C)
染色体立体構造捕捉(3C)技術は、細胞内のクロマチンの空間的構成を分析するために使用される分子生物学的方法である。3C方法は、一般に、直鎖状ゲノム配列中で多くのヌクレオチドによって隔てられていることがあり得る遺伝子座(例えば、短いリードおよび/または長いリード配列決定によって一緒に捕捉するには遠く離れ過ぎていることがあり得る遺伝子座)を含む、三次元空間において近くにあるゲノム遺伝子座間の相互作用の数を定量する。このような相互作用は、例えば、プロモーター-エンハンサー相互作用などの生物学的機能から、またはクロマチンの方向性がない物理的動きが遺伝子座を衝突させるランダムなポリマールーピングから生じ得る。相互作用頻度は直接解析され得るか、または相互作用頻度は距離に変換され得、これにより三次元構造の再構築が容易になり得る。異なる3Cベースの方法は、調査され得るゲノム全体の相互作用に関して異なる範囲を有し得る。ゲノム全域にわたる相互作用マップを作製するために、3Cによって作製された材料のディープシーケンシングが使用され得る。
染色体立体構造捕捉(3C)技術は、細胞内のクロマチンの空間的構成を分析するために使用される分子生物学的方法である。3C方法は、一般に、直鎖状ゲノム配列中で多くのヌクレオチドによって隔てられていることがあり得る遺伝子座(例えば、短いリードおよび/または長いリード配列決定によって一緒に捕捉するには遠く離れ過ぎていることがあり得る遺伝子座)を含む、三次元空間において近くにあるゲノム遺伝子座間の相互作用の数を定量する。このような相互作用は、例えば、プロモーター-エンハンサー相互作用などの生物学的機能から、またはクロマチンの方向性がない物理的動きが遺伝子座を衝突させるランダムなポリマールーピングから生じ得る。相互作用頻度は直接解析され得るか、または相互作用頻度は距離に変換され得、これにより三次元構造の再構築が容易になり得る。異なる3Cベースの方法は、調査され得るゲノム全体の相互作用に関して異なる範囲を有し得る。ゲノム全域にわたる相互作用マップを作製するために、3Cによって作製された材料のディープシーケンシングが使用され得る。
3C方法では、細胞核内の架橋されたクロマチン中のDNAの消化およびその後の再ライゲーションは、DNA配列間の空間的近接の検出を可能にする。ある3C技術は、ハイスループットシーケンシング技術に基づき得る。標準的な3Cベースのプロトコルでは、クロマチンは通常ホルムアルデヒドで架橋されている。次いで、架橋されたクロマチンは、ゲノムが一般に約256bpごとまたは4096bpごとに切断されるように、通常は制限酵素で断片化される。次いで、インサイチュライゲーションは、接触しているクロマチン断片と架橋されたクロマチン断片間での優先的なライゲーションを確実にする。クロマチンは、架橋が逆になるように消化され、空間的近接性に従って一緒に連結されたシャッフルされたゲノム断片を担持する直鎖および/または環状DNAコンカテマーがもたらされる。
3C技術は、古典的な3C、4C、5C、Hi-CおよびChIA-PET方法を含み得る。「1対1」アプローチと呼ばれることが多い古典的な3Cは、特異的に標的化されたライゲーション接合部を増幅および定量するためにPCRを使用する。「1対全」アプローチと呼ばれることが多い4Cは、小さなDNA環をもたらすために2回目の消化およびライゲーションが行われることを除いて、古典的な3C技術と同様である。次いで、アンカー配列とライゲーション産物を形成したすべての接触配列を増幅するために、特定のアンカー配列に対して設計されたプライマーを逆PCRにおいて使用することができるが、最新の方法は増幅の必要性を回避し得る。次いで、接触配列を任意の適切な手段によって配列決定することができる。「多対多」アプローチと呼ばれることが多い5Cは、存在する程度まで関心対象の接合部の複写を作製するために、関心対象の断片に相補的なプライマーを3Cライゲーション産物にハイブリダイズさせ、次いで連結する。次いで、任意の適切な手段によって配列決定され得る関心対象のライゲーション産物を増幅するために、元のプライマーの尾部に相補的なユニバーサルPCRプライマー(primaries)が使用される。「全対全」アプローチと呼ばれることが多いHi-Cは、ビオチン標識されたヌクレオチドで充填されたオーバーハングを残す制限酵素を使用する。平滑末端ライゲーション後、ライゲーション産物を剪断して断片サイズを低下させ、ストレプトアビジンを使用してビオチン含有断片を取り去って濃縮されたライブラリーを作製し、次いで通常はNGS技術によってこれを配列決定する。Hi-Cは、ゲノム全体にわたって断片間での対相互作用頻度の行列を与える。分解能は、より高い制限部位密度を使用することによって、および/または配列決定深度を増加させることによって改善することができ、x2多い対の配列決定は、一般に分解能のx倍の改善をもたらす。特にHi-Cでは、関心対象の個々のバリアントに対応する測定値はまばらであり得るが、染色体全体の測定値は概ね一貫しているため、全体として使用すると、染色体全体にわたる相決定を改善することができる。ChIA-PETは、Hi-Cとクロマチン免疫沈降(ChIP)の組み合わせである。断片末端をビオチン化および連結する前に、関心対象のクロマチンタンパク質によって結合されたライゲーション接合部を取り去るために、特異的抗体が使用される。当技術分野で公知である他の染色体立体構造捕捉技術としては、テザード立体構造捕捉(TCC)、DNase Hi-CまたはMicro-C、標的化されたクロマチン捕捉(T2C)、捕捉Hi-C(Chi-C)、HiCapおよびCapture-Cが挙げられる。染色体立体構造捕捉を行うための様々な方法は、例えば、Denker,et al.,Genes Dev.2016 Jun 15;30(12):1357-82(doi:10.1101/gad.281964.116);de Wit,et al.,Genes Dev.2012 Jan 1;26(1):11-24(doi:10.1101/gad.179804.111);McCord et al.,Mol Cell.2020 February 20;77(4):688-708)(doi:10.1016/j.molcel.2019.12.021);またはBelton et al.,Methods.2012 Nov;58(3):268-76(doi:10.1016/j.ymeth.2012.05.001)に記載されているように実施され得、これらの各々は、参照によりその全体が本明細書に組み入れられる。
非誤り伝播様式でゲノムの相を決定するために、染色体立体構造捕捉技術を使用することができる。それらの固有の空間的近接性に基づき、同じ染色体ホモログ上の遺伝子座が一緒に連結される確率は、2本の相同染色体上の遺伝子座が一緒に連結されるよりはるかに高いので、3C技術によって生成されたライゲーション断片の全体的な分布は、2つ以上の異なるホモログからのバリアントと比較して、同じ染色体ホモログからのバリアントの優位性を有すると仮定され得る。さらに、その効果は、バリアントまたは相のセットが互いに近いほど優勢になる。したがって、スイッチエラーを導入する懸念なしに、2つの相、特に2つの隣接する相のセットを整列させるために、Hi-Cなどの染色体立体構造捕捉技術を使用することができる。
分布が、2つの相のセットが同じ相または異なる相であることを支持するかどうかを決定するために、染色体立体構造捕捉方法から得られた断片(ライゲーション産物)の分布が分析され得る。各相のセットから少なくとも1つのバリアントを含む断片を選択するために、断片はフィルターにかけられ得る。断片は、同じハプロタイプコールをサポートするバリアントの異なるセットに対応するサブグループにグループ化され得るが、各断片は同じバリアントを含まなくてもよい。いくつかの実施形態において、断片は、一方または両方の相のセットからの各バリアントを含む断片のみについてフィルターがかけられ得る。推定的な相アラインメントが存在するように、各相のセットには推定的な相またはハプロタイプが割り当てられ得る。事前の相決定が行われていなければ、相アラインメントはランダムに割り当てられ得る。選択された断片および/またはサブグループは、推定的相アラインメントに関して一致または不一致として特徴付けられ得る。例えば、断片内で検出されたバリアントのすべてが同じ推定的ハプロタイプに由来すれば、断片は推定的相アラインメントと一致すると考えられ得、そうでなければ断片は不一致と考えられ得る。特に近接するバリアントの場合、同じハプロタイプまたは染色体ホモログ由来のバリアントを含む断片の確率が大幅により高いことを考えると、断片/サブグループの分布は、一致または不一致な断片が優位である方向に大きく偏っていると予想され得る。一致する断片/サブグループが優位であることは、推定的相アラインメントが正しいことを示唆するのに対して、不一致な断片が優位であることは、推定的相アラインメントが正しくないことを示唆する。偏りの量は、偏りを偶然観測する確率を計算することによって定量化することができる。例えば、測定された分布を偶然観測する確率について二項確率が計算され得、各測定は一致または不一致である一定の確率を有する。一定の確率は、50%が相のセットのライゲーションが完全にランダムであることを示唆するものとして、下限として設定され得る。あるいは、空間的近接性から予想されるより高い確率を考慮するために、同じハプロタイプからの相のセットが同じ断片内に存在する一定の確率はより高く設定され得る(例えば、60%、70%、75%、80%、90%、95%、99%、99.9%など)。より高い一定の確率は、より少ない数の測定に対してより有用であり得るのに対して、より低い一定の確率は、より多い数の測定に対して十分であり得る。観察された分布が単に偶然の結果ではない(例えば、測定値は95%信頼区間に関して統計的に有意である)という高い信頼性が存在する場合、相のセットは染色体立体構造データに基づいて正確にアラインメントされ得る。
単一細胞鋳型鎖配列決定
単一細胞鋳型鎖配列決定(Strand-seq)は、配列分析をDNA複製中に使用されるDNA鋳型鎖に制限することによって細胞内の個々のホモログを分離する単一細胞配列決定技術である。この方法は、新生DNA鎖を標識し、その後分析から選択的に除去することができるようにするために、1回の細胞分裂中にチミジン類似体中で細胞を培養することによって、DNAの方向性に依存する(DNAの5’-3’配向によって区別される)。貯蔵および配列決定のために各単一細胞ライブラリーを多重化し、得られた配列データを整列させ、参照ゲノムのマイナス鎖またはプラス鎖のいずれかにマッピングして、細胞内の各染色体の鋳型鎖状態を割り当てる。例えば、それらの各々の全体が、参照により本明細書に組み入れられる、Porubsky et al.,Genome Res.2016 Nov;26(11):1565-1574(doi:10.1101/gr.209841.116);Sanders et al.,Nat Protoc.2017 Jun;12(6):1151-1176(doi:10.1038/nprot.2017.029)を参照されたい。配列決定は一本鎖に限定され得るので、この技術は、本明細書に記載される非誤り伝播方法として使用され得る。
単一細胞鋳型鎖配列決定(Strand-seq)は、配列分析をDNA複製中に使用されるDNA鋳型鎖に制限することによって細胞内の個々のホモログを分離する単一細胞配列決定技術である。この方法は、新生DNA鎖を標識し、その後分析から選択的に除去することができるようにするために、1回の細胞分裂中にチミジン類似体中で細胞を培養することによって、DNAの方向性に依存する(DNAの5’-3’配向によって区別される)。貯蔵および配列決定のために各単一細胞ライブラリーを多重化し、得られた配列データを整列させ、参照ゲノムのマイナス鎖またはプラス鎖のいずれかにマッピングして、細胞内の各染色体の鋳型鎖状態を割り当てる。例えば、それらの各々の全体が、参照により本明細書に組み入れられる、Porubsky et al.,Genome Res.2016 Nov;26(11):1565-1574(doi:10.1101/gr.209841.116);Sanders et al.,Nat Protoc.2017 Jun;12(6):1151-1176(doi:10.1038/nprot.2017.029)を参照されたい。配列決定は一本鎖に限定され得るので、この技術は、本明細書に記載される非誤り伝播方法として使用され得る。
染色体の単離
配列リードはすべて同じホモログに由来すると推定され得るので、配列決定の前に、ある染色体ホモログを別の染色体ホモログから物理的に単離する任意の技術は、相決定に対する非誤り伝播アプローチと考えられ得る。例えば、核型またはレーザー捕捉顕微解剖によって得られた染色体の配列決定が、本明細書中に記載される非誤り伝播技術のために使用され得る。例えば、その全体が参照により本明細書に組み入れられるKang et al.,Cytogenet Genome Res.2017;152(4):204-212(doi:10.1159/000481790)を参照されたい。
配列リードはすべて同じホモログに由来すると推定され得るので、配列決定の前に、ある染色体ホモログを別の染色体ホモログから物理的に単離する任意の技術は、相決定に対する非誤り伝播アプローチと考えられ得る。例えば、核型またはレーザー捕捉顕微解剖によって得られた染色体の配列決定が、本明細書中に記載される非誤り伝播技術のために使用され得る。例えば、その全体が参照により本明細書に組み入れられるKang et al.,Cytogenet Genome Res.2017;152(4):204-212(doi:10.1159/000481790)を参照されたい。
配列決定方法
DNA配列決定の様々な方法は当技術分野で周知であり、文脈によって特に指示されない限り、本明細書に記載される方法を実施するために使用され得る。DNA配列決定は、例えばサンガー配列決定(鎖停止配列決定)を含み得る。DNA配列決定は、次世代配列決定(NGS)または第二世代配列決定技術の使用を含み得、これは典型的には、高度に拡張性があり、ゲノム全体を一度に配列決定することを可能にすることを特徴とする。NGS技術は、一般に、複数の断片を一度に配列決定することを可能にし、自動化されたプロセスにおいて「超並列」配列決定を可能にする。DNA配列決定は、第3世代配列決定技術(例えば、ナノポア配列決定またはSMRT配列決定)を含み得、これは一般に、第2世代配列決定技術を介して得ることができるよりも長いリードを得ることを可能にする。配列決定は、実行可能な場合、DNA断片の両端が配列決定されるペアードエンド配列決定を含み得、これは、リードをより長い配列決定にアラインメントする能力を改善し得る。DNA配列決定は、合成/ライゲーションによる配列決定(例えば、ILLUMINA(登録商標)配列決定)、一分子リアルタイム(SMRT)配列決定(例えば、PACBIO(登録商標)配列決定)、ナノポア配列決定(例えば、OXFORD NANOPORE(登録商標)配列決定)、イオン半導体配列決定(Ion Torrent配列決定)、コンビナトリアルプローブアンカー合成配列決定、パイロシーケンシングなどを含み得る。
DNA配列決定の様々な方法は当技術分野で周知であり、文脈によって特に指示されない限り、本明細書に記載される方法を実施するために使用され得る。DNA配列決定は、例えばサンガー配列決定(鎖停止配列決定)を含み得る。DNA配列決定は、次世代配列決定(NGS)または第二世代配列決定技術の使用を含み得、これは典型的には、高度に拡張性があり、ゲノム全体を一度に配列決定することを可能にすることを特徴とする。NGS技術は、一般に、複数の断片を一度に配列決定することを可能にし、自動化されたプロセスにおいて「超並列」配列決定を可能にする。DNA配列決定は、第3世代配列決定技術(例えば、ナノポア配列決定またはSMRT配列決定)を含み得、これは一般に、第2世代配列決定技術を介して得ることができるよりも長いリードを得ることを可能にする。配列決定は、実行可能な場合、DNA断片の両端が配列決定されるペアードエンド配列決定を含み得、これは、リードをより長い配列決定にアラインメントする能力を改善し得る。DNA配列決定は、合成/ライゲーションによる配列決定(例えば、ILLUMINA(登録商標)配列決定)、一分子リアルタイム(SMRT)配列決定(例えば、PACBIO(登録商標)配列決定)、ナノポア配列決定(例えば、OXFORD NANOPORE(登録商標)配列決定)、イオン半導体配列決定(Ion Torrent配列決定)、コンビナトリアルプローブアンカー合成配列決定、パイロシーケンシングなどを含み得る。
ショットガン配列決定は、ゲノムまたは大きな遺伝的試料からのランダムなDNA鎖を配列決定する方法を指す。DNAは無作為に多数の小さなセグメントに分割され、それらが配列決定されて(例えば、鎖停止法を使用)リードを得る。この断片化および配列決定を数巡行うことによって、標的DNAに対する複数の重複するリードが得られる。次いで、計算アルゴリズムは、ランダムなセグメントのリードを連続する配列に組み立てるために、異なるリードの重複する末端を使用する。ショットガン配列決定は、全ゲノム配列決定のために使用され得る。本明細書中の他の箇所に記載されるように、そのバリアントを含む染色体セグメントについて倍数性状態を示す遺伝的シグナルを測定するための基礎としてその後に使用され得る、対象中のバリアント(例えば、SNP)を同定するために、本明細書中に記載されるものを含む任意の適切な形態の配列決定が使用され得る。本発明のある局面によれば、階層的配列決定が、全ゲノム配列決定のために使用され得る。
データ収集
本明細書に記載される方法による分析のための遺伝物質は、体細胞(例えば、白血球、組織生検からの細胞)、生殖細胞(例えば、精子、卵、極体)および細胞外DNAを含む様々な供給源か取得され得る。遺伝物質は、ゲノムが分析されている対象からおよび/または対象の遺伝的近縁者(例えば、母親および/または父親)から直接収集され得る。様々な実施形態によれば、対立遺伝子バランスシグナルまたはリードの深度シグナルなどの倍数性状態を示す遺伝的シグナルは、対象に直接由来する細胞外DNA(cfDNA)から取得され得る。細胞外DNAは、細胞の外側に見出される、例えば、血流中または体外受精(IVF)のために成長させた胚などの培養細胞の細胞培養培地中を自由に循環するDNAである。
本明細書に記載される方法による分析のための遺伝物質は、体細胞(例えば、白血球、組織生検からの細胞)、生殖細胞(例えば、精子、卵、極体)および細胞外DNAを含む様々な供給源か取得され得る。遺伝物質は、ゲノムが分析されている対象からおよび/または対象の遺伝的近縁者(例えば、母親および/または父親)から直接収集され得る。様々な実施形態によれば、対立遺伝子バランスシグナルまたはリードの深度シグナルなどの倍数性状態を示す遺伝的シグナルは、対象に直接由来する細胞外DNA(cfDNA)から取得され得る。細胞外DNAは、細胞の外側に見出される、例えば、血流中または体外受精(IVF)のために成長させた胚などの培養細胞の細胞培養培地中を自由に循環するDNAである。
本明細書に記載される方法の様々な実施形態は、細胞外DNAを取得することおよび/または配列決定することを含み得る。細胞外DNAは、細胞外胎児DNA(cffDNA)を含み得る。細胞外DNAは、循環腫瘍DNA(ctDNA)を含み得る。細胞外DNAは、細胞培養培地のサンプリングまたは対象からの血液の採取などの非侵襲的または低侵襲的手順から取得することができる遺伝物質の比較的豊富な供給源を提供し得る。細胞外DNAは、細胞外DNAが由来する対象の全ゲノム配列決定のための十分な遺伝情報を提供し得る。例えば、Kitzman et al.,Sci Transl Med.2012 Jun 6;4(137):137ra76(doi:10.1126/scitranslmed.3004323)を参照されたい。例えば、対象の1つまたは複数の染色体を配列決定するために、細胞外DNAのショットガン配列決定が使用され得る。対象からの遺伝物質は、一貫した遺伝的プロファイルの細胞を有し得るか、または異なる遺伝的プロファイルを有する細胞(例えば、正常細胞と腫瘍細胞)を有し得る。いくつかの例では、対象のゲノムは、対象から直接取得された遺伝物質の配列決定および1または複数の遺伝的近縁者の配列決定に基づいて再構築され得る。例えば、その全体が参照により本明細書に組み入れられる、2021年4月8日に公開されたKumarらの国際公開第2021/067417号を参照されたい。
細胞外胎児DNA(cffDNA)は、母体の血液中を自由に循環する胎児DNAである。したがって、cffDNAは、例えば、静脈穿刺によって採取された母体血液から取得され得る。cffDNAの分析は、妊婦に対して指示され得る非侵襲的出生前診断の方法である。cffDNAは、胎盤の栄養膜細胞に由来する。胎盤の微小粒子が母体の血液循環中に放出されると、胎児DNAは断片化される。約200bp長であるcffDNA断片は、母体のDNA断片よりも有意に小さいので、母体のDNA断片と区別することができる。母体の血液中の細胞外DNAの約11~13.4%がcffDNAであるが、その量は妊婦間で大きく異なる。cffDNAは、一般に、妊娠5~7週後に検出可能になり、その量は、妊娠が進行するにつれて増加する。母体血液中のcffDNAの量は、出産後に急速に減少し、一般に、出産後約2時間ではもはや検出できない。cffDNAの分析は、他の技術よりも早期に胎児の状態の診断を提供し得る。cffDNAは、例えば、超並列ショットガン配列決定(MPSS)、標的化超並列配列決定(t-MPS)およびSNPアッセイによって分析され得る。
ctDNAは、細胞に付随していない血流中の腫瘍由来の断片化されたDNAである。ctDNAは腫瘍ゲノム全体を反映し得るので、その潜在的な臨床的有用性に弾みがついている。採血の形態の「液体生検」は、処置レジメン全体を通して腫瘍進行を監視するために様々な時点で採取され得る。ctDNAは、腫瘍に、または原発腫瘍から脱落して血流もしくはリンパ系に入る生きた無傷の腫瘍細胞である循環腫瘍細胞(CTC)に直接由来する。ctDNA放出の正確な機構は不明なままである。ctDNA放出に関与すると仮定される生物学的プロセスには、死細胞からのアポトーシスおよび壊死、または生きた腫瘍細胞からの活発な放出が含まれる。ヒト(健常および癌患者)および異種移植マウスの両方における研究は、断片化されたcfDNAのサイズが主に166bp長であり、これはヌクレオソーム+リンカーの周りに巻き付けられたDNAの長さに対応することを示す。この長さの断片化は、アポトーシスDNA断片化を示す可能性があり得、アポトーシスがctDNA放出の主要な方法であり得ることを示唆している。cfDNAの断片化は、癌患者の血漿中で変化する。健康な組織では、浸潤性食細胞が、cfDNAを含むアポトーシスまたは壊死細胞の残屑の排除を担う。健康な患者中のcfDNAは低レベルで存在するに過ぎないが、腫瘍サイズが増大するにつれて癌患者中でより高レベルのctDNAを検出することができる。これはおそらく、血流からのctDNAの効果的な排除を低下させる、腫瘍部位への非効率的な免疫細胞浸潤に起因して起こる。ctDNAおよび同じ患者の原発腫瘍から抽出されたDNA中の変異の比較により、同一の癌関連遺伝子変化の存在が明らかになり、腫瘍細胞の遺伝子構造を分析するためにctDNAを分析する可能性を許容した。したがって、ctDNAは、より早期の癌検出および処置経過観察モニタリングのために使用され得る。
本発明の様々な局面によれば、本明細書の他の箇所に記載される非誤り伝播相決定技術は、正確な相決定を提供する(例えば、任意のスイッチエラーを補正する)ために、インタクトな染色体が単離されるかまたは効果的に単離されてように、細胞DNA(細胞外DNAではない)に対して行われる。いくつかの実施形態において、本明細書に記載されるデータを取得するために、1つまたは複数の細胞に対して単一細胞配列決定が実施され得る。非誤り伝播相決定技術を使用して取得された遺伝的データは、対象のゲノムを独立して構築するのに、または十分な参照ゲノムを独立して提供するのに十分であってもよく、または十分でなくてもよい。誤り伝播相決定アプローチと組み合わせた従来の配列決定技術(例えば、細胞外DNAなどに対する全ゲノムショットガン配列決定)から取得された遺伝的データは、遺伝情報の深度および/または範囲を提供する上で有利であり得る。(細胞DNAに対して実行され得る)非誤り伝播相決定アプローチから取得された遺伝的データは、様々な相のセット、特に近接または隣接する相のセットのより正確な相決定を提供する上で有利であり得る。したがって、これらの独立した情報源を一緒に使用することは有利であり得る。
本発明のいくつかの局面によれば、細胞DNAの配列決定は、血液細胞(例えば、白血球)または非侵襲的もしくは低侵襲的技術を通じて採取された他の細胞(例えば、唾液中に見出される細胞)に対して行われ得る。したがって、専ら細胞外DNAおよび細胞DNAの配列決定は、採血などの非侵襲的または低侵襲的手順によって行われ得る。細胞外DNAおよび細胞DNAは、同一のまたは異なる試料(例えば、血液試料または唾液試料などの体液試料)から単離され得る。例えば、細胞外DNAはctDNAを含み得、細胞DNAは(白血病の場合を除いて正常な遺伝物質を提供するはずである)白血球DNAを含み得る。
本発明のいくつかの局面によれば、細胞DNAの配列決定は、当技術分野でよく理解されている方法に従って胎児または胚から1つまたは複数の細胞を単離することを含み得る。このようなアプローチは、典型的には、胚または胎児にリスクを課し得る侵襲的技術を必要とする。本発明の好ましい局面によれば、非誤り伝播相決定アプローチに対して使用される細胞DNAは、採血または精子採取などの非侵襲的または低侵襲的技術を使用して取得され得る。細胞DNAを配列決定するための非侵襲的または低侵襲的技術は、胚または胎児の場合には、対象自身の細胞に対しては不可能であり得るが、細胞DNAの配列決定は、胎児の遺伝的近縁者(例えば、母親および/または父親)に対して行われ得る。非誤り伝播相決定は、相のセットの正確な相状態を提供するためにのみ使用され得、必ずしも参照遺伝暗号を独立して構築し、および/または倍数性状態を示すシグナルを生成するために使用されないので、対象のゲノムの真の相状態は、対象と同じハプロタイプの少なくともいくつかを遺伝した1または複数の遺伝的近縁者のゲノムの真の相状態から推定され得る。したがって、本明細書に記載される方法は、対象が胚または胎児である場合を含む、完全に非侵襲的または低侵襲的な方法によって取得された遺伝物質に対して実施され得る。
倍数性状態を示す遺伝的シグナル
本明細書で使用される場合、「シグナル」は、調査された遺伝的試料の遺伝子組成に関する情報を提供し得る1つまたは複数の測定値を指し得る。測定値は、生の測定値であり得、または例えば1つもしくは複数の生の測定値の数学的解析から導出された処理された測定値であり得る。シグナルは配列決定データから取得され得る。シグナルは、本明細書中の他の箇所に記載されるように、例えば、対立遺伝子バランスシグナルまたはリードの深度シグナルであり得る。シグナルは、連続したまたは離散した数スペクトルに沿った値に対応することができる。シグナルは、1つの特定の遺伝子座における遺伝情報を示し得る。シグナルは、複数の遺伝子座にわたって測定されたシグナルから平均化され得る。
本明細書で使用される場合、「シグナル」は、調査された遺伝的試料の遺伝子組成に関する情報を提供し得る1つまたは複数の測定値を指し得る。測定値は、生の測定値であり得、または例えば1つもしくは複数の生の測定値の数学的解析から導出された処理された測定値であり得る。シグナルは配列決定データから取得され得る。シグナルは、本明細書中の他の箇所に記載されるように、例えば、対立遺伝子バランスシグナルまたはリードの深度シグナルであり得る。シグナルは、連続したまたは離散した数スペクトルに沿った値に対応することができる。シグナルは、1つの特定の遺伝子座における遺伝情報を示し得る。シグナルは、複数の遺伝子座にわたって測定されたシグナルから平均化され得る。
遺伝子座は、染色体上の特定の固定された位置である。遺伝子座は、特定の遺伝子および遺伝マーカーの染色体位置を特定する。本明細書で使用される場合、関心対象の遺伝子座は、遺伝物質の遺伝子組成を示すシグナルを導出するために1つまたは複数の測定値がその遺伝子座にマッピングされ得る分析されている遺伝物質内の遺伝子座を指し得る。関心対象のバリアントは、遺伝物質内の2つ以上の染色体ホモログ間で関心対象の遺伝子座における遺伝子組成に差が存在する関心対象の遺伝子座を指し得る。SNPは、関心対象のバリアントであり得る。本明細書で使用される場合、「相のセット」は、本明細書に記載される方法に従って別の相のセットとの相アラインメントが決定され得る関心対象の1つまたは複数の隣接するバリアントのセットを指し得る。いくつかの例では、相のセットは、ハプロタイプブロックまたはハプロタイプブロックより大きい染色体領域(例えば、2つ以上の隣接するハプロタイプのブロック)に対応し得る。例えば、相のセットは、2、5、10、50、100、500、1,000、5,000、またはそれより多くのバリアントを含み得る。いくつかの例では、相のセットは単一のバリアントからなり得る。アラインされている2つの相のセットは、同じ数の関心対象のバリアントを有してもよく、または有さなくてもよい。ある相のセットの別の相のセットとの相アラインメントを決定することは、2つの相のセットが同じ相である(すなわち、各相のセット内の関心対象のバリアントは、同じ染色体ホモログに属する)こと、または2つの相のセットが異なる相である(すなわち、第1の相のセット内の関心対象のバリアントは、第2の相のセット内の関心対象のバリアントと同じ染色体ホモログに属さない)ことを決定することを含むことができる。
いくつかの特定の局面によれば、相のセットは、隣接する相のセットであり得る。例えば、第1の相のセットは、隣接する相のセット中の関心対象のバリアントから約1,000、約5,000、約1万、約5万、約10万、約500万、約100万、約500万、約1000万、約5000万、約1億または約2億5000万塩基対より遠くない関心対象のバリアントを有し得る。隣接する相のセットは、潜在的なスイッチエラーのいずれかの側に関心対象のバリアントを包含するように定義され得る。潜在的なスイッチエラーは、2つのハプロタイプブロック間で起こり得るものとして特定され得る。いくつかの特定の局面によれば、1つまたは複数のシグナルが、正倍数体セグメントから異数体セグメントへの、またはその逆への染色体セグメント間のシフトを示唆する部位が、潜在的なスイッチエラーとして特定され得る。いくつかの特定の局面によれば、1つまたは複数のシグナルが、隣接するセグメントに対するコピー数の変化を示唆する部位が、潜在的なシフトエラーとして特定され得る。いくつかの特定の局面によれば、1つまたは複数のシグナルが異なる異数体状態の(例えば、トリソミーからモノソミーへの、またはその逆への)染色体セグメント間のシフトを示唆する部位が、潜在的なスイッチエラーとして特定され得る。
対立遺伝子バランス(対立遺伝子のバランス、対立遺伝子頻度または対立遺伝子の頻度と同義)は、そのバリアントを支持するバリアントの位置をカバーする、配列決定データのセットからのリードの割合を指す。例えば、100個のリードが特定のバリアントの遺伝子座にマッピングされ、そのうちの25個がそのバリアントを支持し、75個がそのバリアントを支持しなければ、そのバリアントは0.25の対立遺伝子バランスを有するであろう。ヘテロ接合遺伝子座は、対立遺伝子バランスデータに含めるために、リードの最小深度についてフィルターをかけられ得る。別のバリアントに対するあるバリアントの相対的割合は、遺伝的試料中の異なる染色体ホモログ間での遺伝子座のコピー数の差を示し得る。参照遺伝暗号に基づいて予想されるコピー数を検出された数と比較することは、例えば、増幅または欠失事象が(例えば、遺伝的試料が由来した細胞の全部または少なくとも一部において)染色体ホモログの1つに対して起こったかどうかを示し得る。複数のバリアントにわたって測定された対立遺伝子バランスシグナルは、ハプロタイプまたは染色体ホモログへの対立遺伝子の割り当てに基づいて、ハプロタイプまたは染色体のバランスに対するシグナルを提供することができる。それによって、対立遺伝子バランスがバリアントの相状態に依存するようになるので(すなわち、対立遺伝子の比較的高いまたは低い割合が染色体ホモログの高いまたは低い割合を支持するかどうかは、その相状態に依存する)、対立遺伝子バランスシグナルは、スイッチエラーなどの相決定の誤りによって変化され得る。したがって、真の対立遺伝子バランスシグナルが相アラインメントを補正することから取得されるように、相補正は、対立遺伝子バランス補正に直接変わり得る。本明細書で使用される場合、相アラインメントまたは対立遺伝子バランスシグナルを「補正する」ことは、誤った相が実際に同定され、変更されたかどうかにかかわらず、相決定を事前のもしくはその他推定される相決定と比較すること、または文脈によって別段の指示(例えば、「エラーを補正する」)がなければ、欠落した相情報を供給することを指すために使用され得る。
リードの深度とは、1つまたは複数の配列決定実行の過程で所与の遺伝子座にマッピングする配列決定リードの数を指す。リードの深度シグナル(または深度シグナル)は、リードの総数にわたって正規化され得る。リードの深度は、配列決定装置によって特定の遺伝子座にマッピングされたリードの絶対数またはその遺伝子座にマッピングされたリードの百分率もしくは割合を含むがこれらに限定されない、様々な異なる態様で表すことができる。したがって、例えば、例えば100万のクローンの配列を生成するILLUMINA HISEQ(登録商標)などの高度に並列なDNA配列決定装置では、1つの遺伝子座の3,000回の配列決定は、その遺伝子座での3,000リードのリードの深度をもたらす。その遺伝子座でのリードの割合は、3,000を100万の全リードで割ったもの、すなわち全リードの0.3%である。一般に、ある遺伝子座におけるリードの深度が大きいほど、その遺伝子座における対立遺伝子バランスシグナルは、元の遺伝的試料における真の対立遺伝子バランスにより近づく傾向がある。遺伝子座は、リードの深度データに含めるために、リードの最小深度についてフィルターをかけられ得る。特定のバリアントのリードの深度は、特にリードの総数に対して正規化された場合、他のバリアントと比較したそのバリアントのコピーの相対数を示し得る。バリアントに対するコピーの相対数を、例えば参照遺伝暗号からのコピーの既知の数についての1つまたは複数のベンチマークと比較することは、例えば、(例えば、遺伝的試料が由来した細胞の全部または少なくとも一部において)染色体ホモログの1つに対して増幅または欠失事象が起こったかどうかを示し得る。
例えば、任意のコピー数異常の他に、サンプリングによる確率的事象、GCバイアス、および/またはゲノム全体にわたるバリアントの不均一な分布を含む多数の機構によって、シグナル中にノイズが導入され得る。本明細書に記載されるシグナルは、一般に、複数の隣接する遺伝子座にわたって平均化され得る。例えば、複数の隣接する遺伝子座は、2、3、4、5、10、15、20、25、30、40、50、100、500、1,000、5,000またはそれより多くの遺伝子座を含み得る。遺伝子座の選択は、関心対象の領域とのそれらの密度に依存し得る。例えば、複数の隣接する遺伝子座は、少なくとも約5万、少なくとも約10万、少なくとも約20万、少なくとも約30万、少なくとも約40万、少なくとも約50万、少なくとも約75万、少なくとも約100万、少なくとも約5000万または少なくとも約1億塩基対の領域内のすべての遺伝子座を含み得る。複数の隣接する遺伝子座は、約5万以下、約10万以下、約20万以下、約30万以下、約40万以下、約50万以下、約75万以下、約100万以下、約5000万以下または約1億以下の塩基対の領域内のすべての遺伝子座を含み得る。隣接する遺伝子座の範囲は、遺伝子座が同じ染色体上に存在すると推定されるように選択され得る。したがって、選択内の遺伝子座のいくつかのみに関して異数性が存在しなければ、遺伝子座のそれぞれについての対立遺伝子バランスまたはリードの深度に対する真のシグナルは同じであるはずである。したがって、隣接する遺伝子座にわたる平均化は、本明細書に記載されるシグナル中のノイズを低減させ得る。
対立遺伝子バランスとリードの深度を組み合わせる
本発明の様々な局面によれば、倍数性状態を決定するために、対立遺伝子バランスシグナルとリードの深度シグナルは組み合わせて使用され得る。対立遺伝子バランスおよびリードの深度はそれぞれ、本明細書の他の箇所に記載されるように、倍数性状態の決定を個別に示し得る。しかしながら、これらのシグナルからのノイズ、すなわち、調査される部位と重複する配列決定された数の特定のDNA分子中の変動に関連する対立遺伝子バランスにおけるノイズおよび調査される部位と重複する配列決定された総数のDNA分子中の変動に関連するリードの深度におけるノイズは少なくともある程度独立しているので、これらのシグナルは、互いに独立した情報源を提供することができ、シグナル対ノイズ比を改善し、より正確な倍数性状態の決定を可能にする。この組み合わせは、中間の数のリード(すなわち、ある遺伝子座における対立遺伝子バランスを十分に細かく決定することができる十分なリードであるが、リードの深度シグナルが明らかになるほど多くのリードではない)が存在するシナリオにおいて特に有用であり得る。対立遺伝子バランスシグナルは、本明細書の他の箇所に記載される方法に従って、真の対立遺伝子バランスシグナルを提供するために、非誤り伝播相決定アプローチを介して補正され得る。
本発明の様々な局面によれば、倍数性状態を決定するために、対立遺伝子バランスシグナルとリードの深度シグナルは組み合わせて使用され得る。対立遺伝子バランスおよびリードの深度はそれぞれ、本明細書の他の箇所に記載されるように、倍数性状態の決定を個別に示し得る。しかしながら、これらのシグナルからのノイズ、すなわち、調査される部位と重複する配列決定された数の特定のDNA分子中の変動に関連する対立遺伝子バランスにおけるノイズおよび調査される部位と重複する配列決定された総数のDNA分子中の変動に関連するリードの深度におけるノイズは少なくともある程度独立しているので、これらのシグナルは、互いに独立した情報源を提供することができ、シグナル対ノイズ比を改善し、より正確な倍数性状態の決定を可能にする。この組み合わせは、中間の数のリード(すなわち、ある遺伝子座における対立遺伝子バランスを十分に細かく決定することができる十分なリードであるが、リードの深度シグナルが明らかになるほど多くのリードではない)が存在するシナリオにおいて特に有用であり得る。対立遺伝子バランスシグナルは、本明細書の他の箇所に記載される方法に従って、真の対立遺伝子バランスシグナルを提供するために、非誤り伝播相決定アプローチを介して補正され得る。
シグナルは、当技術分野で理解されているように、様々な態様に従って組み合わせて使用され得る。例えば、シグナルは、多変量ロジスティック回帰、対数線形モデリング、ニューラルネットワーク解析、n-of-m解析(合計「m」個の基準のうちの少なくとも「n」個の基準が満たされる場合に異数性が示される)、決定木解析、ランダムフォレスト解析、ルールセット、ベイジアン法、ニューラルネットワーク法、乗算、加算などによって一緒に組み合わせて使用され得る。シグナルを一緒に使用するいくつかの方法は、数学的演算によって2つのシグナルを単一の複合シグナルに統合することを含み得る。例えば、シグナルは、掛け合わされ得るか、または足し合わされ得る。様々な実施形態では、シグナルの一方または両方に、スカラーが乗算され得る。例えば、シグナルは、(例えば、シグナルが測定される複数の染色体位置にわたって、および/または分析の複数の実行にわたって)シグナルにおいて測定された標準偏差または分散などの、ノイズの1つまたは複数の尺度に対して正規化され得る。
各シグナルおよび/またはシグナルの組み合わせについて、遺伝子座または染色体セグメントの異なるコピー数を区別するために、シグナルの1つまたは複数の閾値レベルまたは値がカットオフとして選択され得る。例えば、トリソミー(遺伝子座の3つのコピー)中に存在する遺伝子座対ダイソミー(遺伝子座の2つのコピー)中に存在する遺伝子座を区別するために閾値が選択され得、および/または、モノソミー(遺伝子座の1つのコピー)中に存在する遺伝子座対ダイソミー中に存在する遺伝子座を区別するために閾値が選択され得る。シグナルは、正倍数体コピー数などの異なるコピー数についてのシグナル(例えば、平均シグナル値)に対して相殺されるか、またはその他正規化され得る。例えば、シグナルは、0のレベルが正倍数体倍数性状態を示し、そこからの十分な逸脱が異数体倍数性状態を示すように構成され得る。異なるコピー数を示すために、異なる閾値が選択され得る。
個々のシグナルおよび/または組み合わせたシグナルの使用は、シグナルが、正倍数体集団および異数体集団などの、異なるコピー数を有する2つの集団を正しく区別することができる確率によって特徴付けられ得る。確率は、例えば、シグナルの閾値を使用して、バリアントがどの集団に割り当てられるべきかを正しく特定する確率として特徴付けられ得る。確率は、真陽性、偽陽性、真陰性および/または偽陰性の確率によって特徴付けられ得る。個別のシグナルに基づく確率が個別確率である。2つのシグナルを組み合わせて使用することに基づく確率が結合確率である。例えば、真陽性の異数体コールの確率は、2つのシグナルを組み合わせて使用する陽性のコールに対する基準に基づいて、異数体が異数体として正確に同定される確率である。本明細書の他の箇所で実証されているように、対立遺伝子バランスシグナルおよびリードの深度シグナルを組み合わせて使用することにより、一般に、個別確率と比較して真陽性および/もしくは真陰性のより高い結合確率を提供し得、ならびに/または個別確率と比較して偽陽性および/もしくは偽陰性のより低い結合確率を提供し得る。
2つの集団(例えば、正倍数性対異数性)を十分に区別する閾値の能力は、当技術分野で公知であるように、受信者動作特性(ROC)分析を使用して確立することができる。ROC曲線下面積は、特定の閾値に関係なく、2つの集団を区別するためにシグナルを使用することの品質の尺度を提供することができる。ROC曲線を描くために、識別閾値が連続的に変化するにつれて真陽性率(TPR)および偽陽性率(FPR)が決定される。2つの集団を区別するための完全な試験は、1.0のROC曲線下面積を有し、ランダムな試験は0.5の面積を有する。好ましくは、シグナルは、0.5を超える、好ましくは少なくとも0.6、より好ましくは0.7、さらにより好ましくは0.75、さらにより好ましくは少なくとも0.8、さらにより好ましくは少なくとも0.9、最も好ましくは少なくとも0.95のROC曲線面積を提供する。
許容され得るレベルの感度(真陽性率)および特異度(真陰性率)を提供するために、特定の閾値が選択され得る。例えば、閾値は、偽陽性率が偽陰性率に概ね等しくなるように選択され得る。このような閾値は、例えば、正倍数性(または非異数性状態)についての平均シグナルレベルに対して相殺された場合の異数性(または特定の異数性状態)についての平均シグナルレベルの半分であると仮定され得る。ある局面によれば、閾値は、0.5を超える、好ましくは少なくとも0.6、より好ましくは少なくとも0.7、さらにより好ましくは少なくとも0.8、さらにより好ましくは少なくとも0.9、最も好ましくは少なくとも0.95の特異度を提供するように選択され得る。ある局面によれば、閾値は、0.5を超える、好ましくは少なくとも0.6、より好ましくは少なくとも0.7、さらにより好ましくは少なくとも0.8、さらにより好ましくは少なくとも0.9、最も好ましくは少なくとも0.95の感度を提供するように選択され得る。ある局面によれば、閾値は、1とは異なるオッズ比、好ましくは少なくとも約2以上または約0.5以下、より好ましくは少なくとも約3以上または約0.33以下、さらにより好ましくは少なくとも約4以上または約0.25以下、さらにより好ましくは少なくとも約5以上または約0.2以下、最も好ましくは少なくとも約10以上または約0.1以下を提供するように選択され得る。
特定の閾値は、閾値が区別している2つの集団のうちの1つの測定値から独立に選択され得る。例えば、異数体バリアントを正倍数体バリアントから区別するための閾値は、正倍数体集団の特定のパーセンタイル、例えば、60パーセンタイル、70パーセンタイル、80パーセンタイル、90パーセンタイル、95パーセンタイル、99パーセンタイルなど(異数体シグナルが正倍数体シグナルよりも大きいはずであると仮定する)として設定され得、これは、偽陽性の許容され得るレベルに基づいて確立され得る。あるいは、閾値は、異数体集団の特定のパーセンタイル、例えば、1パーセンタイル、5パーセンタイル、10パーセンタイル、20パーセンタイル、30パーセンタイル、40パーセンタイルなど(異数体シグナルが正倍数体シグナルより大きいはずであると仮定する)として設定され得、これは、偽陰性の許容され得るレベルに基づいて確立され得る。いくつかの例では、正倍数体集団を特徴付けるために利用可能なより多くのデータが存在すれば、正倍数体シグナルは閾値を確立するために使用され得る。
本明細書に記載される集団は、測定値の任意の集団であり得る。好ましくは、集団は、同じ遺伝物質に対する同じ配列決定実験から取得された測定値の集団であり得る。集団をそのように定義することにより、集団内のノイズを最小限に抑え得る。このような集団は、同じ倍数性状態を共有する異なる遺伝子座にわたる測定値を含み得る。しかしながら、集団は、遺伝物質の同じ試料に対する異なる配列決定実験、同じ遺伝物質の異なる試料に対する異なる配列決定実験、および/または異なる遺伝物質(例えば、異なるゲノム)に対する異なる配列決定実験からの測定値を指すかまたは含むように定義され得る。
様々な実施形態において、ベースラインシグナルは、潜在的な異数体が同定されるべき同じ配列決定データから確立され得る。例えば、ベースラインシグナル(例えば、平均シグナル値)は、正倍数体であることが知られているかまたは確認されている1つまたは複数の染色体セグメントについてのシグナル測定値に基づいて確立され得る。潜在的な異数体の同定のために調べられている染色体の他のセグメントに対するシグナルは、本明細書中の他の箇所に記載されるように、このベースラインシグナルによって相殺され得る。このようにすることにより、異なるシグナルタイプの比較を容易にし得る。
いくつかの局面によれば、集団は正規分布を有すると仮定され得る。したがって、集団の特性は、集団に対する平均シグナル値、および任意で集団内のノイズまたは分散/標準偏差の尺度から計算的に確立され得る。2つの集団(例えば、正倍数体集団および異数体集団)は、概ね同じ分散/標準偏差を有すると推定され得、これは、本明細書の他の箇所に記載されるように、集団の理論的特徴付けを単純化し得る。特に、2つの集団が(例えば、染色体の異なるセグメントに対する)同じ配列決定実験から決定される場合、各シグナル内のノイズは実質的に同じであると仮定され得る。
いくつかの実施形態によれば、対立遺伝子バランスシグナルおよびリードの深度シグナルは、同じ配列決定実験から取得され得る。換言すれば、単一の実験からのリードが参照遺伝暗号内のバリアントにマッピングされ得、同じバリアントについて異なる対立遺伝子にマッピングされたリードの相対数は対立遺伝子バランスシグナルを得るために使用され得るのに対して、特定のバリアントにマッピングされたリードの総数(任意で、実験からのリードの総数に対して正規化される)はリードの深度シグナルを得るために使用され得る。様々な用途において、両シグナルは、本明細書の他の箇所に記載されているように、細胞外DNAの配列決定から取得される。他の実施形態によれば、対立遺伝子バランスシグナルおよびリードの深度シグナルは、異なる配列決定実験から取得され得る。異なる配列決定実験は、遺伝物質の同じ試料または遺伝物質の異なる試料に対して行われ得る。異なる試料が使用される場合、遺伝物質は、同じ供給源(例えば、細胞外DNA)から、または異なる供給源(例えば、細胞外DNA対細胞DNAまたは異なる細胞型)から取得され得る。対立遺伝子バランスシグナルおよび/またはリードの深度シグナルが細胞DNAから取得される状況では、遺伝物質の供給源(特定の試料および/または細胞型)は、本明細書の他の箇所に記載されているように、任意の非誤り伝播相決定に使用されるものと同じであり得、または異なり得る。
用途
遺伝物質の試料に対して(例えば、ゲノムに対して)倍数性状態決定を行う様々な潜在的用途が可能である。その後の決定および/またはさらなる分析もしくは処置を推進するためにこのような決定をどのように使用することができるかのいくつかの具体的であるが非限定的な例が本明細書に記載されている。
遺伝物質の試料に対して(例えば、ゲノムに対して)倍数性状態決定を行う様々な潜在的用途が可能である。その後の決定および/またはさらなる分析もしくは処置を推進するためにこのような決定をどのように使用することができるかのいくつかの具体的であるが非限定的な例が本明細書に記載されている。
染色体不安定性を有する腫瘍を遺伝的にプロファイリングする
腫瘍細胞のゲノム不安定性は、しばしば、不良な患者転帰および標的化された癌治療に対する耐性と関連する。発癌物質および/またはランダムな細胞事象への環境的曝露に応答した遺伝的およびエピジェネティックな病変の蓄積は、しばしば、細胞周期、DNA複製およびDNA修復の維持において重大な役割を果たす腫瘍抑制遺伝子の不活性化をもたらす。細胞DNA修復機構の喪失または阻害は、しばしば、増加した変異負荷およびゲノム不安定性をもたらす。CNVは、癌型の多くの種類にわたって広く存在し、疾患の進行および治療応答または耐性に関連する癌遺伝子の獲得および/または腫瘍抑制因子の喪失を引き起こし得る。ゲノム不安定性は、サブクローンの不均一性と関連し、異なる病変間の固形腫瘍中に、同じ腫瘍内に、および同じ固形生検部位内にさえ頻繁に観察される。このような腫瘍細胞の不均一性は、単一の分子標的の周囲に設計された治療的介入を複雑化することがあり得る。ゲノム不安定性を特徴付けるためにゲノム全体のCNVプロファイルを使用することができるが、バルク腫瘍または生検におけるゲノム不安定性の評価は、試料の入手可能性および周囲組織の汚染または腫瘍不均一性から生じるノイズのために複雑になり得る。増加したゲノム不安定性を伴う腫瘍は、例えば、白金ベースの化学療法およびPARP阻害剤を含む特定の種類の治療に応答することが示されている。例えば、参照によりその全体が本明細書に組み入れられるGreene et al.,PLoS One.2016 Nov 16;11(11):e0165089(doi:10.1371/journal.pone.0165089)を参照されたい。
腫瘍細胞のゲノム不安定性は、しばしば、不良な患者転帰および標的化された癌治療に対する耐性と関連する。発癌物質および/またはランダムな細胞事象への環境的曝露に応答した遺伝的およびエピジェネティックな病変の蓄積は、しばしば、細胞周期、DNA複製およびDNA修復の維持において重大な役割を果たす腫瘍抑制遺伝子の不活性化をもたらす。細胞DNA修復機構の喪失または阻害は、しばしば、増加した変異負荷およびゲノム不安定性をもたらす。CNVは、癌型の多くの種類にわたって広く存在し、疾患の進行および治療応答または耐性に関連する癌遺伝子の獲得および/または腫瘍抑制因子の喪失を引き起こし得る。ゲノム不安定性は、サブクローンの不均一性と関連し、異なる病変間の固形腫瘍中に、同じ腫瘍内に、および同じ固形生検部位内にさえ頻繁に観察される。このような腫瘍細胞の不均一性は、単一の分子標的の周囲に設計された治療的介入を複雑化することがあり得る。ゲノム不安定性を特徴付けるためにゲノム全体のCNVプロファイルを使用することができるが、バルク腫瘍または生検におけるゲノム不安定性の評価は、試料の入手可能性および周囲組織の汚染または腫瘍不均一性から生じるノイズのために複雑になり得る。増加したゲノム不安定性を伴う腫瘍は、例えば、白金ベースの化学療法およびPARP阻害剤を含む特定の種類の治療に応答することが示されている。例えば、参照によりその全体が本明細書に組み入れられるGreene et al.,PLoS One.2016 Nov 16;11(11):e0165089(doi:10.1371/journal.pone.0165089)を参照されたい。
ほぼすべての真核細胞中に見られる核酵素であるポリADPリボースポリメラーゼ(PARP)は、ニコチンアミドアデニンジヌクレオチド(NAD+)から核アクセプタータンパク質へのADP-リボース単位の移動を触媒し、タンパク質に結合した直鎖および分岐鎖ホモ-ADP-リボースポリマーの形成を担う。PARPの活性化およびその結果生じるポリ(ADP-リボース)の形成は、化学療法、電離放射線、酸素フリーラジカルまたは一酸化窒素(NO)への曝露後のDNA鎖切断によって誘導することができる。いくつかの形態の癌は、通常の細胞よりPARPに依存しており、PARPは、具体的な癌適応症とは無関係に、癌治療のための魅力的な標的になる。また、PARPは、放射線療法または化学療法によって引き起こされるDNA損傷に応答したDNA鎖切断の修復と関連しているので、様々な種類の癌治療に対してしばしば発生する耐性に寄与し得る。その結果、PARPの阻害は、細胞内DNA修復を遅延させ、癌治療の抗腫瘍効果を増強し得る。実際、インビトロおよびインビボデータは、多くのPARP阻害剤が電離放射線またはDNAメチル化剤などの細胞傷害性薬物の効果を増強することを示している。PARPファミリーの酵素は広範であり、PARPの競合的阻害剤が公知である。承認されたPARP阻害剤には、オラパリブ(Lynparza(登録商標)、AstraZeneca);ルカパリブ(Rubraca(登録商標)、Clovis Oncology);ニラパリブ(Zejula(登録商標)、Tesaro);およびタラゾパリブ(Talzenna(登録商標)、Pfizer)が含まれる。研究されている他のPARP阻害剤には、ベリパリブ(ABT-888、AbbVie)、パミパリブ(BGB-290)(BeiGene,Inc.);CEP 9722(Cephalon);E7016(Eisai);および3-アミノベンズアミドが含まれる。
白金ベースの化学療法剤(非公式に「プラチン」と呼ばれる抗新生物薬)は、シスプラチン、オキサリプラチンおよびカルボプラチン、ならびに開発中のいくつかの提案された薬物を含む白金の配位錯体である。白金ベースの化学療法剤は、DNA修復および/またはDNA合成を阻害する単一付加物、鎖間架橋、鎖内架橋またはDNAタンパク質架橋としてDNAの架橋を引き起こす。
染色体不安定性を示す癌に適した処置の他の形態は、当技術分野で理解されている。したがって、本明細書に記載される方法は、染色体不安定性を示し、したがって、遺伝的機構を標的とする(例えば、損傷したDNAがより効果的に標的とされ得るようにDNAの修復を阻害する)治療薬のクラスに適している、癌を有する対象における遺伝子シグネチャを同定することに関し得る。これらの治療薬は、特定の種類の癌に対する作動薬(agnostic)であり得る。したがって、本明細書に記載される方法は、特定の癌診断および/または組織生検の前またはそれと同時に、癌を有すると診断された、または癌を有すると疑われる対象に対して行われ得る。有利には、本明細書に記載される方法は、採血などの非侵襲的または低侵襲的手順から専ら採取された遺伝物質に基づいて行われ得る。本明細書に記載される遺伝学的分析は、同時に採取された同じまたは異なる生物学的試料に基づいて、他の日常的な分析および/または癌診断もしくは評価と同時に行われ得る。
本発明の特定の局面によれば、(例えば、組み合わせて使用される)対立遺伝子バランスシグナルおよび/またはリードの深度シグナルは、対象から採取された遺伝物質の試料から取得され得る。シグナルは、ctDNAを含むまたは含むことが疑われる細胞外DNAから取得され得る。シグナルは、腫瘍組織などの細胞DNAから取得され得る。対立遺伝子バランスシグナルが使用される場合、真のシグナルは、本明細書中の他の箇所に記載されるように、非誤り伝播相決定技術を使用して対立遺伝子バランスシグナルを補正することによって決定され得る。非誤り伝播相決定技術は、細胞DNAに対して実施され得る。細胞DNAは、血液細胞(例えば、白血球)から取得され得る。倍数性状態を示す1つまたは複数のシグナルが細胞DNAから取得され、非誤り伝播相決定が細胞DNAに対して行われるいくつかの局面によれば、細胞DNAの同じ供給源が両方に対して使用され得る。いくつかの実施形態において、倍数性状態の遺伝的シグナルを取得するための細胞外DNAおよび非誤り伝播相決定を行うための細胞DNAは、同じ生物学的試料(例えば、採血)から取得される。評価されるDNA(例えば、細胞外DNA)の倍数性状態を評価するために、1つまたは複数のシグナルから倍数性状態の決定が行われ得る。決定は、本明細書の他の箇所に記載されているように、参照遺伝暗号(例えば、正常細胞遺伝暗号)に関して行われ得る。倍数性状態は、1つまたは複数の染色体セグメントについて決定され得る。CNVを示す1つまたは複数の染色体セグメントの検出は、染色体不安定性を示すゲノムの1つまたは複数の領域を同定するために使用され得る。このような領域の同定は、PARP阻害剤および/または白金ベースの化学療法剤による処置などの、染色体不安定性を利用する治療薬による処置に感受性の腫瘍の存在を示すために使用され得る。いくつかの局面によれば、倍数性状態の決定は、(例えば、インビボで処置を投与することによって)対象を処置するために使用される。本発明のいくつかの局面によれば、倍数性状態の決定が、1つまたは複数の細胞をインビトロで処置するために使用される。1つまたは複数の細胞は、癌細胞を含み得る。細胞は、癌を有するまたは癌を有する疑いがある対象から培養されたもの(例えば、腫瘍生検から増殖されたもの)であり得る。細胞は、(例えば、癌を複製するように人工的に誘導された)癌細胞株由来の細胞を含み得る。細胞は、正常細胞と癌性細胞の混合物を含み得る。
デノボまたは遺伝性CNV検出
本明細書に記載される方法は、対象における倍数性状態(例えば、CNV)における変動を検出するために使用され得る。本発明のいくつかの局面によれば、(例えば、組み合わせて使用される)対立遺伝子バランスシグナルおよび/またはリードの深度シグナルは、対象から採取された遺伝物質の試料から取得され得る。1つまたは複数のシグナルは、細胞外DNAから取得され得る。1つまたはシグナルは、細胞DNAから取得され得る。対立遺伝子バランスシグナルが使用される場合、真のシグナルは、本明細書中の他の箇所に記載されるように、非誤り伝播相決定技術を使用して対立遺伝子バランスシグナルを補正することによって決定され得る。非誤り伝播相決定技術は、細胞DNAに対して実施され得る。倍数性状態を示す1つまたは複数のシグナルが細胞DNAから取得され、非誤り伝播相決定が細胞DNAに対して行われるいくつかの局面によれば、細胞DNAの同じ供給源が両方に対して使用され得る。細胞DNAは、血液細胞(例えば、白血球)または非侵襲的または低侵襲的技術によって採取された他の細胞から取得され得る。いくつかの実施形態において、倍数性状態の遺伝的シグナルを取得するための細胞外DNAおよび非誤り伝播相決定を行うための細胞DNAは、同じ生物学的試料(例えば、採血)から取得される。評価されるDNAの倍数性状態を評価するために、1つまたは複数のシグナルから倍数性状態の決定が行われ得る。染色体ホモログの1つにおける異数性を示す、同じ遺伝子座のバリアント間でのコピー数の差を同定するために、(例えば、組み合わせて使用される)対立遺伝子バランスおよび/またはリードの深度が使用され得る。
本明細書に記載される方法は、対象における倍数性状態(例えば、CNV)における変動を検出するために使用され得る。本発明のいくつかの局面によれば、(例えば、組み合わせて使用される)対立遺伝子バランスシグナルおよび/またはリードの深度シグナルは、対象から採取された遺伝物質の試料から取得され得る。1つまたは複数のシグナルは、細胞外DNAから取得され得る。1つまたはシグナルは、細胞DNAから取得され得る。対立遺伝子バランスシグナルが使用される場合、真のシグナルは、本明細書中の他の箇所に記載されるように、非誤り伝播相決定技術を使用して対立遺伝子バランスシグナルを補正することによって決定され得る。非誤り伝播相決定技術は、細胞DNAに対して実施され得る。倍数性状態を示す1つまたは複数のシグナルが細胞DNAから取得され、非誤り伝播相決定が細胞DNAに対して行われるいくつかの局面によれば、細胞DNAの同じ供給源が両方に対して使用され得る。細胞DNAは、血液細胞(例えば、白血球)または非侵襲的または低侵襲的技術によって採取された他の細胞から取得され得る。いくつかの実施形態において、倍数性状態の遺伝的シグナルを取得するための細胞外DNAおよび非誤り伝播相決定を行うための細胞DNAは、同じ生物学的試料(例えば、採血)から取得される。評価されるDNAの倍数性状態を評価するために、1つまたは複数のシグナルから倍数性状態の決定が行われ得る。染色体ホモログの1つにおける異数性を示す、同じ遺伝子座のバリアント間でのコピー数の差を同定するために、(例えば、組み合わせて使用される)対立遺伝子バランスおよび/またはリードの深度が使用され得る。
本明細書に記載される方法は、倍数性状態の遺伝性(nherited)変動(すなわち、各染色体ホモログの倍数性状態が親から遺伝した、対象の染色体の1つの1つまたは複数の遺伝子座における倍数性状態の変動)または倍数性状態のデノボ変動(すなわち、染色体ホモログまたはハプロタイプがそこから遺伝した親の対応する染色体ホモログまたはハプロタイプにおける倍数性状態に対する、対象の染色体の1つの倍数性状態の変化)を検出するために使用され得る。対象において検出された倍数性状態をそれに対して比較することができる参照遺伝暗号を提供するために、遺伝性ハプロタイプを使用することができる。両親のいずれかの遺伝暗号中に異数性が存在する場合、異数性は遺伝していると決定することができる。両親のいずれかの遺伝暗号中に異数性が存在しない場合、異数性はデノボ変動と呼ぶことができる。
本発明のいくつかの局面によれば、異数性状態を有するハプロタイプの起源の親の決定が行われる。このような決定は、例えば、バリアントの相決定および母親/父親のコピー数の事前確率に基づいて可能であり得る。決定を確認するために、親の一方(起源となる親)または両方に対して追加の配列決定が行われ得る。例えば、全ゲノム配列決定(例えば、ショットガン配列決定)を(両)親に対して行うことができ、これにより、起源となる親における対応するコピー数の確認が可能になり得る。
本発明の特定の局面によれば、対象は、胚または胎児であり得る。本明細書で使用される場合、「胚」は、胚が胎児になる発達段階までの、接合子、桑実胚および未分化胚芽細胞を含む、有性生殖によって産生される細胞生物を指し得る。胚は、インビトロ(例えば、IVFの目的のために)または子宮内に存在し得る。本明細書で使用される場合、「胎児」は、有性生殖によって産生され、子宮内に存在する、その生まれていない子がもはや胚として特徴付けられない発達段階で始まっている生まれていない子を指し得る。したがって、対象は、胎児が生まれるまで、単一細胞段階からの胚または胎児のいずれかと考えられ得る。ヒトでは、子は通常、受胎後約8週間で胎児であると考えられる。どの種類の遺伝物質を胚または胎児から効果的に取得することができるか、ならびにそれを行うための技術およびそれに伴う固有のリスクも当技術分野で十分に理解されている。
胎児の胚についての倍数性状態の決定(デノボ変化のコールを含む)は、一般に、本明細書中の他の箇所に記載されるように(例えば、生まれた子供または成体の個体に対して)行われ得る。しかしながら、出生していない対象におけるデノボ検出は、ある種の困難を提示し得る。例えば、非誤り伝播相決定を実行するための細胞DNAが、容易に入手できないことがあり得る。例えば、循環血液細胞を含有する血液試料などの体液試料を採取することが、発達の段階によっては、非現実的または不可能であり得る。さらに、一般に、胚または胎児から細胞材料を採取することは、対象の生存能力または健康に対するリスク(例えば、自然流産)をもたらし得る。いくつかの局面によれば、細胞DNAは、当技術分野で公知のように、胚または胎児の生検から取得され得る。胚または胎児に対して倍数性状態の決定を行う好ましい実施形態では、1または複数の遺伝的近縁者、例えば母親および/または父親から採取された試料に対して、非誤り伝播相決定が行われ得る。細胞DNAは、本明細書の他の箇所に記載されているように、例えば、遺伝的近縁者から取得された体液(例えば、血液)試料またはその他の組織型から取得され、参照遺伝暗号の相状態を補正するために使用され得る。細胞外DNAは、必要に応じて遺伝的近縁者から採取され得る。いくつかの実施形態において、参照遺伝暗号は、当技術分野で公知であるように、少なくとも部分的に、1または複数の遺伝的近縁者の配列決定(例えば、全ゲノムショットガン配列決定)に基づいて構築され得る。例えば、Kitzman et al.,Sci Transl Med.2012 Jun 6;4(137):137ra76(doi:10.1126/scitranslmed.3004323)を参照されたい。例えば、遺伝的近縁者のゲノムの分析は、対象におけるその後の分析のためのバリアントを同定し得る。胚または胎児の対象由来の細胞外DNAは、当技術分野で公知の任意の適切な方法に従って分析のために採取され得る。例えば、十分に発達する程度まで、対象胎児または対象胚を保有する母親の血液からcffDNAが採取され得る。細胞外DNAは、当技術分野で公知であるように、胚の胞胚腔液からまたはIVFのために胚を培養するために使用される細胞培養培地から採取され得る。胎児または胚の細胞外DNAは、少なくとも部分的に、(例えば、全ゲノムショットガン配列決定を介して)対象のゲノムを決定するために、および/または倍数性状態コールのための参照遺伝暗号を確立するために使用され得る。例えば、Kitzman et al.,Sci Transl Med.2012 Jun 6;4(137):137ra76(doi:10.1126/scitranslmed.3004323)を参照されたい。細胞外DNAの配列決定は、少なくとも部分的に、(例えば、当技術分野で公知の分子技術を介して)対象のゲノムまたは参照遺伝暗号の相を決定するために使用され得る。1または複数の遺伝的近縁者および/または集団参照パネルの配列は、(非誤り伝播相決定技術による相決定の任意の補正の前に)少なくとも部分的に相決定されたゲノムを提供するために、細胞外DNAの配列決定と組み合わせて使用され得る。胚または胎児の対象から採取された細胞外DNAは、本明細書の他の箇所に記載されるように、そこから倍数性状態コールを作製することができる対立遺伝子頻度シグナルおよび/またはリードの深度シグナルを生成するために使用され得る。対立遺伝子頻度シグナルは、対象の1または複数の遺伝的近縁者の細胞DNAに対して行われる非誤り伝播相決定技術を使用して補正され得る。
異数性(例えば、CNVまたは全染色体異常)と疾患との間の特異的関連の例は、当技術分野で周知である。本発明のいくつかの局面によれば、倍数性状態の決定は、IVFに関する決定についての情報を与えるために使用され得る。本明細書に記載される方法は、単一の胚に対してまたは複数の胚(例えば、着床のための複数の胚候補)に対して実施され得る。倍数性状態の決定は、着床のための1つもしくは複数の胚を選択するために、および/または廃棄/処分のための1つもしくは複数の胚を選択するために使用され得る。倍数性状態の決定は、(将来行われる可能性がある着床のために胚が選択される場合、または胚が着床のための第1の候補ではないが処分されることが望まれない場合のいずれかにおいて)凍結のための1つまたは複数の胚を選択するために使用され得る。例えば、染色体または染色体セグメントに対する異数体状態の検出(例えば、CNV、特に疾患との既知の関連を有するCNVの同定)に少なくとも部分的に基づいて、疾患のリスクの決定が、胚に対して行われ得る。いくつかの実施形態において、同定された異数性(例えば、CNV)を有さない胚が、着床または凍結のために選択され得る。いくつかの実施形態において、胚は、異数性の同定に完全にまたは少なくとも部分的に基づいて(例えば、CNVの数および/または特定のCNVの存在によって)ランク付けされ得る。本明細書に記載される方法による倍数性状態の決定は、当技術分野で周知のように、独立して、または着床前遺伝子検査(PGT)の既存の方法と組み合わせて使用され得る。
本発明のいくつかの局面によれば、倍数性状態の決定は、特に対象が胎児である場合に、妊娠に関する決定についての情報を与えるために使用され得る。例えば、妊娠を継続するかまたは終了するかどうかの決定は、本明細書中の他の箇所に記載されるように、IVFに関して決定が行われるのと同じ様式で倍数性状態の決定(例えば、異数性の同定)に基づき得る。本明細書に記載される方法による倍数性状態の決定は、当技術分野で周知のように、独立して、または出生前診断の既存の方法と組み合わせて使用され得る。
本発明のある局面によれば、倍数性状態の決定は、さらなる試験および/または診断方法についての情報を与えるために使用され得る。例えば、異数性が同定されると、追加のPGDまたは出生前診断試験が指示され得る。いくつかの例では、追加の試験は、検出された異数性と関連する1つまたは複数の疾患に対して特異的であり得る。いくつかの例では、特に対象が胚または胎児である場合、より侵襲的な手順が対象に対して行われ得る。例えば、細胞材料に対する細胞DNAの配列決定またはその他の診断を行うために、胚または胎児に対して組織生検が直接行われ得る。核型分析が、対象に対して行われ得る。いくつかの実施形態において、さらなる試験は、倍数性状態の決定と実質的に同時に(発達のほぼ同じレベルで)行われ得る。いくつかの実施形態において、追加の試験は延期されたスケジュールで行われ得、(例えば、胚から胎児への発達のために、および/またはIVFを介した胚の着床後に)さらなる発達が起こることを可能にする。いくつかの実施形態において、対象が胚および/または胎児であったときに行われた倍数性状態の決定に基づいて、生まれた対象(例えば、乳幼児または小児対象)に対して追加の試験が行われ得る。
本発明のある局面によれば、倍数性状態の決定は、対象に対する処置決定についての情報を与えるために使用され得る。例えば、異数性が同定されると、対象は、異数性に関連する疾患または症状に対して処置され得る。処置は、対象の発達段階に適した任意の処置を含み得る。例えば、遺伝子編集が胚に対して行われ得、および/または出生前処置が胎児(または胎児を有する母親)に施され得る。いくつかの実施形態において、処置は延期されたスケジュールで行われ得、(例えば、胚から胎児への発達のために、および/またはIVFを介した胚の着床後に)さらなる発達が起こることを可能にする。いくつかの実施形態において、対象が胚および/または胎児であったときに行われた倍数性状態の決定に基づいて、生まれた対象(例えば、乳幼児または小児対象)に対して処置が行われ得る。(例えば、子宮内に存在する間での)異数性の早期検出は、乳幼児および小児におけるより早期の処置を可能にし得、これは改善された結果をもたらし得る。
疾患診断
異数性(例えば、CNV)の疾患との既知の関連に基づく本明細書の他の箇所に記載される診断に加えて、本明細書に記載される方法は、異数性と疾患の間の新規な関連を同定するために使用され得る。特定の疾患または疾患に対する素因を有する対象の集団の中で同じ異数性を同定することによって、異数性と疾患の間の関連が確立され得る。
異数性(例えば、CNV)の疾患との既知の関連に基づく本明細書の他の箇所に記載される診断に加えて、本明細書に記載される方法は、異数性と疾患の間の新規な関連を同定するために使用され得る。特定の疾患または疾患に対する素因を有する対象の集団の中で同じ異数性を同定することによって、異数性と疾患の間の関連が確立され得る。
特に疾患に関連してSNPの機能を明らかにするために、1つまたは複数の稀な異数体バリアントの非誤り伝播相決定によって決定された相の使用、および(例えば、同じハプロタイプブロック内または本明細書中に記載される方法によって同じ相アラインメントであることが決定された2つの相のセット内の)疾患に関連することが知られている隣接するSNPの同定を使用することができる。稀なバリアントおよび同定されたSNPは、連鎖不平衡にあると決定され得る。(例えば、同定されたSNPと連鎖不平衡にある)他の隣接するSNPと比較して、そのSNPの(例えば、多遺伝子リスクスコア(PRS)における)疾患リスクへの寄与を増加させることによって、稀なバリアントは、同定されたSNPに効果的に関連付けられ得る。したがって、より一般的なSNPへの稀なバリアントの連鎖は、疾患の素因に関連するので、より一般的なSNPの予測力を改善することができる。
疾患に関連する異数性バリアントが同定されると、疾患に対する素因を決定する診断目的のために、他の対象において配列決定が行われ得る。配列決定は、異数性バリアントを捕捉するために標的化され得る。配列決定は、本明細書中の他の箇所に記載されるように、(例えば、マイクロアレイを介して)異数体バリアントと連鎖不平衡であると決定された隣接するSNPなどの、隣接するSNPを標的とするために行われ得る。配列決定は、異数性バリアント(例えば、稀なバリアント)およびSNP(例えば、一般的なSNP)の両方を標的とするために行われ得る。
疾患の診断は、少なくとも部分的に、1つもしくは複数の異数体バリアントの存在もしくは非存在に基づいて、および/または少なくとも部分的に、1つもしくは複数の異数体バリアントと連鎖不平衡にあると決定された1つもしくは複数のSNPに基づいて行われ得る。当技術分野で周知のように、診断は、例えばPRSに基づいて行われ得る。疾患に対する処置は、本明細書中に記載される診断方法のいずれかに基づいて情報が与えられ得る。例えば、対象は、その対象が有すると診断されたまたは有するもしくは発症することに関して増加した素因を少なくとも有すると診断された疾患に対して処置(予防的処置を含む)され得る。診断および処置は、当技術分野で理解されているように、他の臨床的因子および変数と組み合わせて実施され得る。
生殖系列モザイクバリアントの相を決定する
本明細書に記載される方法は、異数体バリアントを有する罹患個体においてハプロタイプを同定するために使用され得る。罹患個体からの配偶子は、IVFの目的のために(例えば、同定されたハプロタイプを有する配偶子を回避するために)スクリーニングされ得る。
本明細書に記載される方法は、異数体バリアントを有する罹患個体においてハプロタイプを同定するために使用され得る。罹患個体からの配偶子は、IVFの目的のために(例えば、同定されたハプロタイプを有する配偶子を回避するために)スクリーニングされ得る。
本発明のある局面によれば、非誤り伝播相決定技術の使用は、罹患個体における生殖系列モザイクバリアントの相を決定するために適用することができる。このような罹患個体は、例えば、ヌーナン症候群またはラソパシーを有する個体を含み得る。この相決定された情報は、本明細書の他の箇所に記載されるように、IVFに関する決定についての情報を与えるために使用することができる。例えば、相決定された情報は、IVFおよびPGTを使用する後続の世代においてどのハプロタイプを回避すべきかを決定するために使用され得る。
本発明のある局面によれば、2人の親のそれぞれにおいて稀なバリアントを一般的なバリアント(例えば、SNP)に関連付け、その後続いて、どのSNPが胚において遺伝したかを決定した後に、胚におけるその稀なバリアントの遺伝を推測することによって胚のゲノムにおける稀なバリアントの予測を含めるために、長い相決定されたリードが使用され得る。
[実施例1]
ヒト21番染色体上の染色体不均衡(増幅)をシミュレートするために、特定のハプロタイプに対応する合成リードのデータセットを相決定されたゲノムから生成した。簡単に記載すると、参照によりその全体が本明細書に組み入れられるSamadian et al.,PLoS Comput Biol.2018 Mar 28;14(3):e1006080(doi:10.1371/journal.pcbi.1006080)に記載されている方法に従って、10XGENOMICS(登録商標)合成長リードアプローチ(CHROMIUM(登録商標)製品)を使用して作製されたデータに、遺伝的試料NA12878のヌクレオチド位置30227447~44327015からのリードを追加した。このソフトウェアへの入力は、およそ37Mbの位置に相シフトエラーを含む相決定されたVCFファイルと、配列決定ファイル(bam)とを含んでいた。次いで、これらのリードのうちの20万個を、1000ゲノムリポジトリから得られた標準的なショットガンリードのセットに加えた。試料NA12878に対するPlatinum Genomesバリアントセットに基づいて「0|1」であると予測される位置に「A」ハプロタイプを割り当て、「1|0」であると予測される位置に「B」ハプロタイプを割り当てた。例えば、参照によりその全体が本明細書に組み入れられるEberle et al.,Genome Res.2017 Jan;27(1):157-164(doi:10.1101/gr.210500.116)を参照されたい。5リードを超える深度または20リードを超える深度に対して、位置をフィルターにかけた。入力された相決定されたVCFファイルの相決定に基づいて、各位置を「A」対立遺伝子または「B」対立遺伝子に割り当てた。図1は、染色体に対する合成リードのデータセットに基づいて、ヘテロ接合部位(SNP)について、対立遺伝子バランスをA対立遺伝子の割合に関して示す。
ヒト21番染色体上の染色体不均衡(増幅)をシミュレートするために、特定のハプロタイプに対応する合成リードのデータセットを相決定されたゲノムから生成した。簡単に記載すると、参照によりその全体が本明細書に組み入れられるSamadian et al.,PLoS Comput Biol.2018 Mar 28;14(3):e1006080(doi:10.1371/journal.pcbi.1006080)に記載されている方法に従って、10XGENOMICS(登録商標)合成長リードアプローチ(CHROMIUM(登録商標)製品)を使用して作製されたデータに、遺伝的試料NA12878のヌクレオチド位置30227447~44327015からのリードを追加した。このソフトウェアへの入力は、およそ37Mbの位置に相シフトエラーを含む相決定されたVCFファイルと、配列決定ファイル(bam)とを含んでいた。次いで、これらのリードのうちの20万個を、1000ゲノムリポジトリから得られた標準的なショットガンリードのセットに加えた。試料NA12878に対するPlatinum Genomesバリアントセットに基づいて「0|1」であると予測される位置に「A」ハプロタイプを割り当て、「1|0」であると予測される位置に「B」ハプロタイプを割り当てた。例えば、参照によりその全体が本明細書に組み入れられるEberle et al.,Genome Res.2017 Jan;27(1):157-164(doi:10.1101/gr.210500.116)を参照されたい。5リードを超える深度または20リードを超える深度に対して、位置をフィルターにかけた。入力された相決定されたVCFファイルの相決定に基づいて、各位置を「A」対立遺伝子または「B」対立遺伝子に割り当てた。図1は、染色体に対する合成リードのデータセットに基づいて、ヘテロ接合部位(SNP)について、対立遺伝子バランスをA対立遺伝子の割合に関して示す。
図2に示されるように、対立遺伝子バランスシグナルのシグナル対ノイズ比を改善するために、希釈プール配列決定によって決定されたのと同じハプロタイプ上の連続するSNPをビン分割し、ビン分割された領域にわたって対立遺伝子バランスシグナルを平均化した。図3では、ハプロタイプブロックの300Kbの窓にわたって、対立遺伝子バランスシグナルを平均化した。図2および図3の平均化された対立遺伝子バランスシグナルから明らかなように、Aハプロタイプの染色体増幅、具体的には約30Mb位から37Mb位までのトリソミーの直後のAハプロタイプの染色体欠失、具体的には約37Mb位から44Mb位までのモノソミーであり得る2つの異なる異数性が存在するように見受けられる異数性領域にわたる希釈プール配列決定から決定されたハプロタイプブロックが図3の下部に図示されている。
試料NA12878に対するHi-C実験から得られたデータを、staging.4dnucleome.org/filesprocessed/4DNFIY9YBG6I/からダウンロードした。Hi-Cデータは、以下に記載されるように、相決定されたvcfにおいてスイッチエラーを特定し、次いで異数性を正確にコールするために対立遺伝子バランスデータを補正するために使用することができた。参照がhg38であるので、vcfファイルをhg38にマッピングした。プログラムHapCut2からのツール「extractHAIRS」を使用して、参照によりその全体が本明細書に組み入れられるEdge et al.,Genome Res.2017 May;27(5):801-812(doi:10.1101/gr.213462.116)に記載されているように、相ブロックの様々な組み合わせを裏付ける証拠の断片を生成した。
Hi-Cデータを用いて、2つの相のセットの相アラインメントを評価した。1つの相のセットは、およそ30Mb~37Mbの位置にわたって存在するSNPのセットとして定義され、第2の相のセットは、およそ37Mbの位置以降の21番染色体上のSNPの残りとして定義された。情報を与えるリード(重複する2つ以上のヘテロ接合バリアント)を含有するHi-C断片は、バリアントがサブグループ全体にわたって自己整合的である疎なサブグループにまとめられる。図4に示すように、相のセットの両方と少なくとも部分的に重複するサブグループ(すなわち、2つの相のセットの各々からの少なくとも1つのSNPを有するサブグループ)をHi-Cデータからさらにフィルターにかけ、評価し、重複するサブグループは、完全に一致(すなわち、「00」、「000」、「0000」など、不一致のハプロタイプコールを有さない。)または不一致(すなわち、「01」、「011」、「0111」など、少なくとも1つの不一致のハプロタイプコールを有する。)のいずれかであることが決定された。完全一致の断片および不一致の断片の分布を含むサブグループの総数を表にした。図4に示されるように、合計20のサブグループが存在し、希釈プール配列決定と比較すると19例が不一致で、1例が希釈プール配列と一致した。断片の数は、各サブグループ内の断片リードの数を表し、各断片は、ハプロタイプコールを支持するSNPのうちの少なくとも2つを有するが、必ずしもサブグループ内のSNPのそれぞれを有するとは限らない。観察された一致および不一致の測定結果の分布を評価するために、一致の測定結果および不一致の測定結果を得る可能性は等しいと仮定して、観察された分布が純粋に偶然に生じる確率を、二項分布を使用して計算した。二項確率は極めて低く、歪んだ分布が純粋に偶然に生じる可能性は0.01%未満であった。したがって、2つの相のセット間での推定的相アラインメントは実際には正しくないかまたは誤って整列されたので、2つの相のセットと重複するHi-C測定結果は主に不一致であると決定された。第1の相のセット(およそ30Mb~37Mbの位置にわたる)の相決定が正しく、第2の相のセット(37Mb以降)の相決定が、2つの相のセット間に導入されたスイッチエラーの性質により誤っていると仮定すると、第2の相のセットの相は逆になり、ハプロタイプブロックの300Kbの窓にわたって平均化された真の対立遺伝子バランスシグナルは、図5に示されるように補正された。真の対立遺伝子バランスシグナルは、およそ30Mb~44Mbの位置にわたる14Mbの異数性を示し、これは、ハプロタイプAの増幅またはハプロタイプBの欠失に理論的に対応し得る。
[実施例2]
実施例1のシミュレートされたデータセットを複製したが、21番染色体における異数性(ハプロタイプAの増幅)に対応するリードは測定された細胞の約9%にダウンサンプリングし、細胞の約91%が同じ染色体セグメントにわたって正倍数性を示す。図6Aは、ヘテロ接合遺伝子座(SNP)に対する染色体の30.3Mb~37Mb部分についての生の対立遺伝子バランスシグナルを示す。この範囲にわたる対立遺伝子バランスシグナルは、0.5232の平均および0.1141の標準偏差を有する。図6Bは、希釈プール配列決定によって決定されたハプロタイプブロックの300Kbの窓にわたって平均化された同じ対立遺伝子バランスシグナルを示す。図6Bから明らかなように、9%の異数体細胞によって導入された対立遺伝子バランスシフトは、より容易に識別可能であり、標準偏差は、ビン分割の結果として0.0258に減少している。したがって、本実施例は、低い対立遺伝子割合でさえ増幅をコールする能力を実証する。
実施例1のシミュレートされたデータセットを複製したが、21番染色体における異数性(ハプロタイプAの増幅)に対応するリードは測定された細胞の約9%にダウンサンプリングし、細胞の約91%が同じ染色体セグメントにわたって正倍数性を示す。図6Aは、ヘテロ接合遺伝子座(SNP)に対する染色体の30.3Mb~37Mb部分についての生の対立遺伝子バランスシグナルを示す。この範囲にわたる対立遺伝子バランスシグナルは、0.5232の平均および0.1141の標準偏差を有する。図6Bは、希釈プール配列決定によって決定されたハプロタイプブロックの300Kbの窓にわたって平均化された同じ対立遺伝子バランスシグナルを示す。図6Bから明らかなように、9%の異数体細胞によって導入された対立遺伝子バランスシフトは、より容易に識別可能であり、標準偏差は、ビン分割の結果として0.0258に減少している。したがって、本実施例は、低い対立遺伝子割合でさえ増幅をコールする能力を実証する。
[実施例3]
本実施例では、図7に概略的に示されているように、ダイソミー(D)測定値の集団およびトリソミー(
)測定値の集団が、リードの深度シグナルX1に関して等しい標準偏差を有する正規分布を有すると仮定した。ダイソミー集団が0の有効平均を有し、トリソミー集団の平均がm1の有効平均を有するように、トリソミー集団の平均はダイソミー集団の平均に対して相殺される。したがって、リードの深度シグナルX1が与えられたダイソミーまたはトリソミーの確率は、以下のように
および
と定義することができる。
本実施例では、図7に概略的に示されているように、ダイソミー(D)測定値の集団およびトリソミー(
ダイソミーの総確率は、トリソミーの総確率に等しい(すなわち、
)と仮定した。それを上回るとリードの深度シグナルX1がトリソミーを示すと考えられる閾値t1を、トリソミーの確率が同じX1シグナルについてのダイソミーの確率に等しい(すなわち、
m1/2のX1レベルに設定した。したがって、上の式を解いて、t1において:
であることを示すことができる。
2つのシグナル-X1、リードの深度シグナルおよび独立したシグナルX2(例えば、対立遺伝子バランスシグナル)を一緒に使用することからダイソミー/トリソミーコールを行う方法を、以下の表1に示されるコールスキームに従って計算的にシミュレートした。
上述のように、シグナルX1の分布に対して行われたのと同じ仮定が、シグナルX2の分布に対して行われた。表1に従って両分布を使用することに基づいて偽陽性をコールする確率および全くコールしない確率は、表2において以下のように決定され、ここで「normcdf」は、(例えば、MATLAB(登録商標)におけるような)正規累積分布関数である。
m1=6およびm2=6/sqrt(3)と仮定すると、確率値は以下のように計算された:PFPX1=0.0013;PFPX2=0.0416;およびPFPX1X2=0.000056。
[実施例4]
ダイソミー(D)測定値の集団およびトリソミー
測定値の集団は、実施例3と同じ分布を有すると仮定した。2つのシグナルX1およびX2を数学的に組み合わせて単一の積(X1*X2または「X1X2」)にすることからダイソミー/トリソミーコールを行う方法を以下のように計算した:
および
ダイソミー(D)測定値の集団およびトリソミー
次いで、以下のMATLAB(登録商標)コードを使用して、偽陽性率を経験的に計算することが可能であり、ここで、「sum」は、異なるシグナル平均m1およびm2に対する偽陽性率である。
%variables
n=2000;
m1=6;
m2=6/sqrt(3);
lim=20;
delta=2*lim/(n-1);
x1_vec=[-lim:delta:lim];
x2_vec=[-lim:delta:lim];
sum=0;
for x1=x1_vec
ind=find(x2_vec>(m1^2+m2^2-2*m1*x1)/(2*m2));
for x2=x2_vec(ind)
sum=sum+exp(-0.5*(x1^2+x2^2))*delta^2/(2*pi);
end
end
sum
%variables
n=2000;
m1=6;
m2=6/sqrt(3);
lim=20;
delta=2*lim/(n-1);
x1_vec=[-lim:delta:lim];
x2_vec=[-lim:delta:lim];
sum=0;
for x1=x1_vec
ind=find(x2_vec>(m1^2+m2^2-2*m1*x1)/(2*m2));
for x2=x2_vec(ind)
sum=sum+exp(-0.5*(x1^2+x2^2))*delta^2/(2*pi);
end
end
sum
実施例3と同じシグナル平均を用いてシミュレーションを行った。ここで、「sum」は、シグナル平均m1とこれより若干弱いシグナル平均m2とを組み合わせたこの結合確率シナリオにおいて偽陽性を観測する確率に相当する。偽陽性の確率は、P(偽陽性)=sum=0.00026であると決定されたのに対して、(実施例3で評価された)個別確率は、より高いと決定された:PFPX1=0.0013およびPFPX2=0.0416。
シミュレーションは、一方のシグナルが他方のシグナルより3倍高い分散を有する2つの独立したシグナルを組み合わせることにより、シグナルのいずれか単独を使用することと比較して、偽陽性率を少なくとも5倍低減できることを実証している。
[実施例5]
実施例1と同様の様式で、DNAの合成異数体混合物を、21番染色体上の30.3Mb位置から開始する増幅を用いて作製した。図8Aは、31Mb~37Mbの位置に対するリードの深度シグナルを示し、図8Bは、31Mb~37Mbの位置に対するビン分割されたリードの深度測定値のヒストグラムを図示する。同様に、図9Aは、31Mb~37Mbの位置に対する対立遺伝子バランスシグナルを示し、図9Bは、31Mb~37Mbの位置に対するビン分割された対立遺伝子バランス測定値のヒストグラムを図示する。図9Cは、ビン分割された対立遺伝子バランス測定値のヒストグラムを示し、測定値は、50個の隣接するSNPにわたって平均化された。
実施例1と同様の様式で、DNAの合成異数体混合物を、21番染色体上の30.3Mb位置から開始する増幅を用いて作製した。図8Aは、31Mb~37Mbの位置に対するリードの深度シグナルを示し、図8Bは、31Mb~37Mbの位置に対するビン分割されたリードの深度測定値のヒストグラムを図示する。同様に、図9Aは、31Mb~37Mbの位置に対する対立遺伝子バランスシグナルを示し、図9Bは、31Mb~37Mbの位置に対するビン分割された対立遺伝子バランス測定値のヒストグラムを図示する。図9Cは、ビン分割された対立遺伝子バランス測定値のヒストグラムを示し、測定値は、50個の隣接するSNPにわたって平均化された。
平均シグナル対ノイズは、その全体が参照により本明細書に組み入れられる、2014年3月25日に発行された、Rabinowitzらの米国特許第8,682,592号に記載されているように、集約されたデータから計算した。実施例3および4の理論的シミュレーションに記載されたように、トリソミーを示すための閾値シグナル値は、リードの深度および対立遺伝子バランスの両方に対する平均2倍体シグナルと平均3倍体シグナルの中間であるように選択され、実施例3および4におけるように、偽陰性をコールする確率が偽陽性をコールする確率に等しいシナリオを近似したが、他の閾値を選択することができる。20Mb~30.3Mbの位置にわたる平均測定値を計算することによって、二倍性に対する平均シグナルを決定し、30.3Mb~37Mbの位置にわたる平均測定値を計算することによって三倍性に対する平均シグナルを決定した。したがって、閾値は、それぞれ、リードの深度および対立遺伝子バランスシグナルについて、位置あたり31.5のリードおよび58%のA(0.58)であることが決定された。
各位置におけるシグナル値から対応する閾値を差し引き、次いで増幅の領域にわたって測定された標準偏差で割ることによってノイズのレベルに対して正規化することによって、増幅の約2500の測定/位置にわたるリードの深度シグナルおよび対立遺伝子バランスシグナルについてシグナル対ノイズプロットを生成した。図10は、リードの深度シグナルについてのシグナル対ノイズプロットを示し、図11は、対立遺伝子バランスシグナルについてのシグナル対ノイズプロットを示す。図12は、リードの深度および対立遺伝子バランスについてのシグナル対ノイズ値を足し合わせることから生じる統合されたシグナルを示す。図12に示される統合されたシグナルの平均および標準偏差は、それぞれ0.4940および0.11であると計算された。
当業者が本発明を作製および使用するために、本発明を十分に詳しく説明および例示してきたが、本発明の精神および範囲から逸脱することなく、様々な代替、変更および改善が自明であるはずである。本明細書で提供される実施例は、好ましい局面の代表例であり、例示的なものであり、本発明の範囲に対する限定として意図されるものではない。当業者は、実施例における変更および他の使用に想到するであろう。これらの変更は、本発明の精神に包含され、特許請求の範囲によって定義される。
本発明の範囲および精神から逸脱することなく、本明細書に開示された発明に対して様々な置換および変更を行うことができることは、当業者には自明であろう。本発明の様々な局面は、物理的に可能でないか、または文脈によって別段の指示がある場合を除いて、組み合わせ可能であることが理解される。
本明細書で言及されるすべての特許および刊行物は、当業者の水準を示す。すべての特許および刊行物は、あたかも各個別の刊行物が具体的かつ個別的に参照により組み入れられることが示されているのと同じ程度まで、参照により本明細書に組み入れられる。
本明細書に例示的に記載された本発明は、本明細書に具体的に開示されていない任意の1つまたは複数の要素、1つまたは複数の限定の非存在下で適切に実施され得る。したがって、例えば、本明細書の各例では、「含む(comprising)」、「から本質的になる(consisting essentially of)」および「からなる(consisting of)」という用語のいずれもが、他の2つの用語のいずれかで置き換えられ得る。使用された用語および表現は、限定ではなく記述の用語として使用され、このような用語および表現の使用において、示されたおよび記載された特徴またはその一部の均等物を除外することは意図されていないが、特許請求される発明の範囲内で様々な変更が可能であることが認識される。したがって、本発明は好ましい局面および任意選択の特徴によって具体的に開示されているが、本明細書に開示された概念の変更および変形が当業者によって使用され得ること、ならびにこのような変更および変形は、添付の特許請求の範囲によって定義される本発明の範囲内に属すると見なされることを理解すべきである。
Claims (126)
- 染色体セグメントについて対立遺伝子バランスシグナルを補正する方法であって、
2つの相のセットを含む参照遺伝暗号を取得することであって、各相のセットは関心対象の1つまたは複数のバリアントを有し、任意で、前記参照遺伝暗号は少なくとも部分的に相が確定されている、取得することと;
遺伝物質の試料に対して行われた配列決定から、前記関心対象の1つまたは複数のバリアントについて前記対立遺伝子バランスシグナルを取得することと;
非誤り伝播技術を用いて配列決定された複数のリードを取得することであって、各リードは、前記関心対象の1つまたは複数のバリアントのうちの少なくとも1つを含む、取得することと;
前記複数のリードに基づいて、前記2つの相のセットの相アラインメントを同じ相または異なる相であるとして決定することと;
前記2つの相のセットの前記決定された相アラインメントに基づいて、関心対象の少なくとも1つのバリアントの相状態を確認し、補正し、または供給することによって真の対立遺伝子バランスシグナルを決定することと;
を含む、方法。 - 前記非誤り伝播技術が、染色体立体構造捕捉、単一細胞鋳型鎖配列決定または(例えば、レーザー捕捉顕微解剖または核型を介した)染色体の単離を含む、請求項1に記載の方法。
- 前記複数のリードを取得するために前記非誤り伝播技術を実行することをさらに含む、請求項1または2に記載の方法。
- 前記対立遺伝子バランスシグナルを取得することが、前記遺伝物質の試料に対して前記配列決定を行うことを含む、請求項1~3のいずれか一項に記載の方法。
- 前記対立遺伝子バランスシグナルおよび前記複数のリードが、遺伝物質の同じ試料から得られ、任意で、前記試料が体液試料(例えば、血液試料、唾液試料)または組織生検試料であり、さらに任意で、前記対立遺伝子バランスシグナルおよび前記複数のリードが、細胞の同じ集団から得られる、請求項1~4のいずれか一項に記載の方法。
- 前記対立遺伝子バランスシグナルが細胞外DNAから得られ、前記複数のリードが細胞DNAから得られ、任意で前記細胞DNAが体液(例えば、血液または唾液)内に見出される細胞から得られる、請求項1~5のいずれか一項に記載の方法。
- 前記参照遺伝暗号が、前記対立遺伝子バランスシグナルを生成するために使用される配列決定から得られる、請求項1~6のいずれか一項に記載の方法。
- 前記参照遺伝暗号が、少なくとも部分的に、前記対立遺伝子バランスシグナルが取得される対象中の正常組織の配列決定から得られる、請求項1~7のいずれか一項に記載の方法。
- 前記参照遺伝暗号が、少なくとも部分的に、前記対立遺伝子バランスシグナルが取得される対象中の生殖系列組織の配列決定から得られる、請求項1~8のいずれか一項に記載の方法。
- 前記参照遺伝暗号が、少なくとも部分的に、前記対立遺伝子バランスシグナルが取得される対象の1または複数の遺伝的近縁者からの遺伝物質を配列決定することから得られる、請求項1~9のいずれか一項に記載の方法。
- 前記1または複数の近縁者が母親および/または父親である、請求項10に記載の方法。
- 前記参照遺伝暗号が、少なくとも部分的に、前記1または遺伝的近縁者の生殖系列配列決定から得られる、請求項10または11に記載の方法。
- 前記参照遺伝暗号が、少なくとも部分的に、前記対立遺伝子バランスシグナルが取得される対象の全ゲノムショットガン配列決定から得られる、請求項1~12のいずれか一項に記載の方法。
- 前記対立遺伝子バランスシグナルが、前記全ゲノムショットガン配列決定から得られる、請求項13に記載の方法。
- 前記全ゲノムショットガン配列決定が体液試料(例えば、血液試料または唾液試料)中の細胞外DNAに対して行われる、請求項13または14に記載の方法。
- 前記非誤り伝播技術が単一細胞配列決定を含む、請求項1~15のいずれか一項に記載の方法。
- 前記対立遺伝子バランスシグナルがそれから得られる遺伝物質の試料を採取することをさらに含む、請求項1~16のいずれか一項に記載の方法。
- 前記複数のリードがそれから得られる遺伝物質の試料を採取することをさらに含む、請求項1~17のいずれか一項に記載の方法。
- 前記対立遺伝子バランスデータを補正することが、前記少なくとも部分的に相が確定された参照遺伝暗号中のスイッチエラーを補正することを含む、請求項1~18のいずれか一項に記載の方法。
- 前記対立遺伝子バランスシグナルが、少なくとも約5万、少なくとも約10万、少なくとも約20万、少なくとも約30万、少なくとも約40万、少なくとも約50万、少なくとも約75万、少なくとも約100万、少なくとも約5000万または少なくとも約1億塩基対の領域内の複数のビン分割されたバリアントにわたって平均化される、請求項1~19のいずれか一項に記載の方法。
- 前記対立遺伝子バランスシグナルが、約5万以下、約10万以下、約20万以下、約30万以下、約40万以下、約50万以下、約75万以下、約100万以下、約5000万以下または約1億以下の塩基対の領域内の複数のビン分割されたバリアントにわたって平均化される、請求項1~20のいずれか一項に記載の方法。
- 前記対立遺伝子バランスが、ハプロタイプブロックにわたって平均化される、請求項1~21のいずれか一項に記載の方法。
- 前記ハプロタイプブロックが希釈プール配列決定によって決定され、任意で、前記対立遺伝子バランスシグナルが同じ配列決定から得られた、請求項22に記載の方法。
- 前記対立遺伝子バランスシグナルが、最小リード深度についてフィルターをかけられ、任意で、前記最小リード深度は5、10、15、20または25リードである、請求項1~23のいずれか一項に記載の方法。
- 前記2つの相のセットが、前記参照遺伝暗号内の隣接する相のセットである、請求項1~24のいずれか一項に記載の方法。
- 前記隣接する相のセットのそれぞれが、他方における関心対象のバリアントから約1,000、約5,000、約1万、約5万、約10万、約500万、約100万、約500万、約1000万、約5000万、約1億または約2億5000万塩基対より遠くない関心対象のバリアントを含む、請求項25に記載の方法。
- 前記複数のリードが、前記2つの相のセットの各々からの関心対象のバリアントの少なくとも2つ、3つ、4つまたは5つを含むリードについてフィルターをかけられる、請求項1~26のいずれか一項に記載の方法。
- 前記非誤り伝播技術が染色体立体構造捕捉を含み、任意で、前記染色体立体構造捕捉がHi-Cである、請求項2に記載の方法。
- 前記複数のリードに基づいて前記相アラインメントを決定することが、前記リードの大部分が、前記2つの相のセット間での推定される相状態アラインメントに関して一致しているか、または不一致であるかどうかを決定することを含み、任意で、前記推定される相状態アラインメントは、前記参照遺伝暗号の少なくとも部分的な相状態に基づく、請求項28に記載の方法。
- 前記複数のリードに基づいて前記相アラインメントを決定することが、前記複数のリードからの前記2つの相のセット間で観察される一致または不一致の量が偶然の結果である確率を決定または推定することを含む、請求項28または29に記載の方法。
- 前記確率が二項確率であり、任意で、観察された断片が一致または不一致である可能性が等しいことを仮定する、請求項30に記載の方法。
- 染色体セグメントについて倍数性状態を決定するために、前記補正された対立遺伝子バランスシグナルを使用することをさらに含み、任意で、前記倍数性状態を決定することが、コピー数多型(CNV)をコールすることを含む、請求項1~31のいずれか1項に記載の方法。
- 染色体セグメントについて倍数性状態を決定する方法であって、
前記染色体セグメント内の1つまたは複数のバリアントの第1のセットについてリードの深度シグナルを取得することと;
前記染色体セグメント内の1つまたは複数のバリアントの第2のセットについて対立遺伝子バランスシグナルを取得することと;
前記染色体セグメントの前記倍数性状態を決定するために、前記対立遺伝子バランスシグナルと組み合わせて前記リードの深度シグナルを使用することと;
を含む、方法。 - 前記染色体セグメントの前記倍数性状態を決定することが、CNVが前記染色体セグメント内に存在するか否かを決定することを含む、請求項33に記載の方法。
- 前記リードの深度シグナルを取得することが、リードの総数に対して正規化された、前記第1のセット内の前記バリアントの少なくとも1つにマッピングされた配列決定リードの数を取得することを含む、請求項33または34に記載の方法。
- 前記リードの深度シグナルが、少なくとも約5万、少なくとも約10万、少なくとも約20万、少なくとも約30万、少なくとも約40万、少なくとも約50万、少なくとも約75万、少なくとも約100万、少なくとも約5000万または少なくとも約1億塩基対の領域内のビン分割された複数のバリアントにわたって平均化される、請求項33~35のいずれか一項に記載の方法。
- 前記リードの深度シグナルが、約5万以下、約10万以下、約20万以下、約30万以下、約40万以下、約50万以下、約75万以下、約100万以下、約5000万または約1億以下の塩基対の領域内のビン分割された複数のバリアントにわたって平均化される、請求項33~36のいずれか一項に記載の方法。
- 前記リードの深度シグナルが、ハプロタイプブロックにわたって平均化される、請求項33~37のいずれか一項に記載の方法。
- 前記ハプロタイプブロックが希釈プール配列決定によって決定された、請求項38に記載の方法。
- 前記対立遺伝子バランスシグナルが、少なくとも約5万、少なくとも約10万、少なくとも約20万、少なくとも約30万、少なくとも約40万、少なくとも約50万、少なくとも約75万、少なくとも約100万、少なくとも約5000万または少なくとも約1億塩基対の領域内のビン分割された複数のバリアントにわたって平均化される、請求項33~38のいずれか一項に記載の方法。
- 前記対立遺伝子バランスシグナルが、約5万以下、約10万以下、約20万以下、約30万以下、約40万以下、約50万以下、約75万以下、約100万以下、約5000万または約1億以下の塩基対の領域内のビン分割された複数のバリアントにわたって平均化される、請求項33~40のいずれか一項に記載の方法。
- 前記対立遺伝子バランスシグナルが、ハプロタイプブロックにわたって平均化される、請求項33~41のいずれか一項に記載の方法。
- 前記ハプロタイプブロックが希釈プール配列決定によって決定された、請求項42に記載の方法。
- 前記リードの深度シグナルおよび前記対立遺伝子バランスシグナルが、同じビン分割された領域にわたって平均化される、請求項33~43のいずれか一項に記載の方法。
- 前記リードの深度シグナルを前記対立遺伝子バランスシグナルと組み合わせて使用することが、前記リードの深度シグナルがリードの深度閾値を超え、かつ前記対立遺伝子バランスシグナルが対立遺伝子バランス閾値を超える場合、または前記リードの深度シグナルがリードの深度閾値を超えず、かつ前記対立遺伝子バランスシグナルが前記対立遺伝子バランス閾値を超えない場合にのみ、陽性または陰性の決定を行うことを含む、請求項33~44のいずれか一項に記載の方法。
- 前記リードシグナルの前記深度を前記対立遺伝子バランスシグナルと組み合わせて使用することが、前記リードの深度シグナルおよび前記対立遺伝子バランスシグナルを単一の統合されたシグナルに統合することを含む、請求項33~44のいずれか一項に記載の方法。
- 前記リードの深度シグナルおよび前記対立遺伝子バランスシグナルを単一の統合されたシグナルに統合することが、前記シグナルを掛け合わせることを含む、請求項46に記載の方法。
- 前記リードの深度シグナルおよび前記対立遺伝子バランスシグナルを単一の統合されたシグナルに統合することが、前記シグナルを足し合わせることを含む、請求項46に記載の方法。
- 前記統合されたシグナルが、少なくとも約5万、少なくとも約10万、少なくとも約20万、少なくとも約30万、少なくとも約40万、少なくとも約50万、少なくとも約75万、少なくとも約100万、少なくとも約5000万または少なくとも約1億塩基対の領域内のビン分割された複数のバリアントにわたって平均化される、請求項46~48のいずれか一項に記載の方法。
- 前記統合されたシグナルが、約5万以下、約10万以下、約20万以下、約30万以下、約40万以下、約50万以下、約75万以下、約100万以下、約5000万または約1億以下の塩基対の領域内のビン分割された複数のバリアントにわたって平均化される、請求項46~49のいずれか一項に記載の方法。
- 前記統合されたシグナルが、ハプロタイプブロックにわたって平均化される、請求項46~50のいずれか一項に記載の方法。
- 前記ハプロタイプブロックが希釈プール配列決定によって決定された、請求項51に記載の方法。
- 前記統合されたシグナルが、前記リードの深度シグナルおよび/または前記対立遺伝子バランスシグナルが平均化された複数のビンにわたって平均化される、請求項46~52のいずれか一項に記載の方法。
- 前記1つまたは複数のバリアントの第1のセットが1つのバリアントからなる、請求項33~53のいずれか一項に記載の方法。
- 前記1つまたは複数のバリアントの第1のセットが、少なくとも2、3、4、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900または1,000個のバリアントを含む、請求項33~53のいずれか一項に記載の方法。
- 前記1つまたは複数のバリアントの第2のセットが1つのバリアントからなる、請求項33~55のいずれか一項に記載の方法。
- 前記1つまたは複数のバリアントの第2のセットが、少なくとも2、3、4、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900または1,000個のバリアントを含む、請求項33~53のいずれか一項に記載の方法。
- 前記1つまたは複数のバリアントの第1のセットが、前記1つまたは複数のバリアントの第2のセットと同一である、請求項33~57のいずれか一項に記載の方法。
- 前記リードの深度シグナルを取得することおよび/または前記対立遺伝子バランスシグナルを取得することが、配列決定を行うことを含む、請求項33~58のいずれか一項に記載の方法。
- 前記リードの深度シグナルおよび対立遺伝子バランスシグナルが同じ配列決定データに由来する、請求項33~59のいずれか一項に記載の方法。
- 前記リードの深度シグナルおよび/または前記対立遺伝子バランスシグナルが、最小リード深度についてフィルターをかけられ、任意で、前記最小リード深度は5、10、15、20または25リードである、請求項33~60のいずれか一項に記載の方法。
- 前記リードの深度シグナルおよび/もしくは前記対立遺伝子バランスシグナルに基づいて倍数性状態の正確な決定の個々の確率を計算すること、または前記リードの深度シグナルおよび前記対立遺伝子バランスシグナルに基づいて倍数性状態の正確な決定の結合確率を計算することをさらに含み、任意で、前記確率は、以下のもの:真陽性、偽陽性、真陰性および偽陰性のうちの1つの確率を測定する、請求項33~61のいずれか一項に記載の方法。
- 以下のものの少なくとも1つが真である:
a)偽陽性の結合確率は、偽陽性の個々の確率の両方より小さい、
b)偽陰性の結合確率は、偽陰性の個々の確率の両方より小さい、
c)真陽性の結合確率は、真陽性の個々の確率の両方より大きい、および
d)真陰性の結合確率は、真陰性の個々の確率の両方より大きい、
請求項62に記載の方法。 - 前記リードの深度シグナルが、第1のベースラインシグナルに対して相殺され、および/または前記対立遺伝子バランスシグナルが、第2のベースラインシグナルに対して相殺される、請求項33~63のいずれか一項に記載の方法。
- 各ベースラインシグナルが、既知の倍数性状態を有する第2の染色体セグメントについての平均シグナルに基づいており、任意で、前記既知の倍数性状態を有する第2の染色体セグメントは、倍数性状態が決定されている前記染色体セグメントと同じ染色体中にある、請求項64に記載の方法。
- 前記リードの深度シグナルおよび/または前記対立遺伝子バランスシグナルが、前記シグナル内のノイズの尺度に対して正規化され、任意で、前記ノイズの尺度は、前記倍数性状態が決定されている前記染色体セグメントにわたる、請求項65に記載の前記第2の染色体セグメントにわたる、前記第2の染色体セグメントの前記倍数性状態とは異なる既知の関心対象の倍数性状態を有する第3の染色体セグメントにわたる、または染色体全体にわたる、前記シグナルの標準偏差または分散である、請求項33~65のいずれか一項に記載の方法。
- 前記リードの深度シグナルにおける分散および前記対立遺伝子バランスシグナル内の分散が、互いの100、90、80、70、60、50、40、30、20、10、9、8、7、6、5、4、3、2、1.9、1.8、1.7、1.6、1.5、1.4、1.3、1.2または1.1倍以内である、請求項33~66のいずれか一項に記載の方法。
- 前記リードの深度シグナルを前記対立遺伝子バランスシグナルと組み合わせて使用することが、前記シグナルの一方または両方を個別に使用して得られた偽陽性率および/または偽陰性率と比較して、偽陽性率および/または偽陰性率を少なくとも約2倍、少なくとも約3倍、少なくとも約4倍、少なくとも約5倍、少なくとも約6倍、少なくとも約7倍、少なくとも約8倍、少なくとも約9倍、少なくとも約10倍、少なくとも約20倍、少なくとも約30倍、少なくとも約40倍、少なくとも約50倍、少なくとも約60倍、少なくとも約70倍、少なくとも約80倍、少なくとも約90倍、少なくとも約100倍、少なくとも約150倍、少なくとも約200倍、少なくとも約250倍または少なくとも約500倍低下させることをもたらす、請求項33~67のいずれか一項に記載の方法。
- 前記リードの深度シグナルを前記対立遺伝子バランスシグナルと組み合わせて使用することが、リードの深度閾値および対立遺伝子バランス閾値を選択することを含み、任意で、前記シグナル閾値は、それぞれ、関心対象の倍数性状態(例えば、異数性)を示すことが知られている複数のバリアントにわたって平均化されたそれぞれのシグナルの平均値の半分である、請求項33~68のいずれか一項に記載の方法。
- 前記リードの深度シグナルを前記対立遺伝子バランスシグナルと組み合わせて使用することが、統合されたシグナル閾値を選択することを含み、任意で、前記統合されたシグナル閾値は、関心対象の倍数性状態(例えば、異数性)を示すことが知られている複数のバリアントにわたって平均化された統合されたシグナルの平均値の半分である、請求項33~69のいずれか一項に記載の方法。
- 前記方法が、検出されている1つまたは複数の染色体の異数性をもたらす、請求項33~70のいずれか一項に記載の方法。
- 前記方法が、検出されている分析されたすべての染色体の正倍数性をもたらす、請求項33~70のいずれか一項に記載の方法。
- 前記方法が、検出されている染色体セグメントの付加および/または欠失をもたらす、請求項33~72のいずれか一項に記載の方法。
- 前記方法が、同定されているCNVをもたらす、請求項33~73のいずれか一項に記載の方法。
- 前記対立遺伝子バランスシグナルを取得することが、請求項1~32のいずれか一項に記載の方法を実施することによって元の対立遺伝子バランスシグナルを補正することを含む、請求項33~74のいずれか一項に記載の方法。
- 前記方法が、前記染色体セグメントについて、異なるコピー数を有する細胞の集団を含む試料から得られる倍数性状態を示すシグナル(例えば、対立遺伝子バランスシグナルまたはリードの深度シグナル)を取得することを含み、任意で、いくつかの細胞は異数性を有し、他の細胞は異数性を有しない、請求項1~75のいずれか1項に記載の方法。
- 前記方法が、1つまたは複数の腫瘍細胞を含む試料から得られる倍数性状態を示すシグナル(例えば、前記対立遺伝子バランスシグナルまたはリードの深度シグナル)を取得することを含む、請求項1~76のいずれか1項に記載の方法。
- 前記試料が非腫瘍細胞をさらに含む、請求項77に記載の方法。
- 前記方法が、誘導された細胞外DNAである倍数性状態を示すシグナル(例えば、前記対立遺伝子バランスシグナルまたはリードの深度シグナル)を取得することを含み、任意で、前記細胞外DNAは、細胞外胎児DNA(cffDNA)または循環腫瘍DNA(ctDNA)を含む、請求項1~78のいずれか一項に記載の方法。
- 前記方法が、任意で子宮内への胚の着床の前に、前記胚から得られる倍数性状態を示すシグナル(例えば、前記対立遺伝子バランスシグナルまたはリードの深度シグナル)を取得することを含む、請求項1~79のいずれか一項に記載の方法。
- 前記方法が、胎児から得られる倍数性状態を示すシグナル(例えば、前記対立遺伝子バランスシグナルまたはリードの深度シグナル)を取得することを含む、請求項1~80のいずれか1項に記載の方法。
- 腫瘍DNAにおける染色体不安定性を検出する方法であって、
腫瘍細胞であることが知られているまたは疑われる1つまたは複数の細胞を起源とするDNAから少なくとも部分的に得られる遺伝物質の試料内の1つまたは複数の染色体セグメントについて、請求項32~81のいずれか一項に記載の倍数性状態を決定することであって、前記1つまたは複数の染色体セグメントについての異数性状態の同定は、少なくともいくつかの腫瘍細胞の染色体不安定性を示すために使用される、決定すること、を含む、方法。 - 前記試料が、癌と診断されたまたは癌を有することが疑われる対象に由来する、請求項82に記載の方法。
- 前記試料が循環腫瘍DNAを含む、請求項82または83に記載の方法。
- 前記遺伝物質が取得される対象からの正常組織(例えば、生殖系列組織)の配列決定が、参照遺伝暗号を確立するために使用される、請求項82~84のいずれか一項に記載の方法。
- 前記遺伝物質が取得される対象からの腫瘍組織に対する配列決定が、参照遺伝暗号を確立するために使用される、請求項82~84のいずれか一項に記載の方法。
- 染色体不安定性が示されているかどうかに基づいて、癌について前記遺伝物質がそこから得られる前記1つもしくは複数の細胞または対象を処置することをさらに含む、請求項82~86のいずれか一項に記載の方法。
- 前記処置が、染色体不安定性が示される場合に、ポリADPリボースポリメラーゼ(PARP)阻害剤を前記1つもしくは複数の細胞または対象に投与することを含む、請求項87に記載の方法。
- 前記処置が、染色体不安定性が示される場合に、白金ベースの化学療法剤を前記1つもしくは複数の細胞または対象に投与することを含む、請求項87または88に記載の方法。
- 対象においてデノボコピー数多型(CNV)を検出する方法であって、染色体セグメントについて請求項32~81のいずれか一項に従って倍数性状態を決定することを含み、前記対象の親が前記染色体セグメントについて正倍数体であり、任意で、デノボ異数体(例えば、CNV)が前記対象の前記染色体セグメントにおいて同定される、方法。
- 倍数性状態の前記決定が、前記倍数性状態を、前記対象の1または複数の遺伝的近縁者に対して行われた配列決定から得られる参照遺伝暗号と比較することを含む、請求項90に記載の方法。
- 前記1または複数の遺伝的近縁者が母親および/または父親である、請求項91に記載の方法。
- 前記配列決定が、請求項1~32のいずれか一項に従って複数のリードを提供するために非誤り伝播技術を用いて行われる、請求項91または92に記載の方法。
- 前記配列決定が細胞DNAに対して行われる、請求項91~93のいずれか一項に記載の方法。
- 前記対象の前記母親または父親が異数性の原因であるかどうかを決定することをさらに含む、請求項90~94のいずれか一項に記載の方法。
- 前記対象が胚である、請求項90~95のいずれか一項に記載の方法。
- 胚生検、胞胚腔液および細胞培養培地のうちの1つまたは複数から得られる倍数性状態を示すシグナル(例えば、前記対立遺伝子バランスシグナルまたはリードの深度シグナル)を取得することを含む、請求項96に記載の方法。
- 前記倍数性状態を示すシグナルが、前記培養培地中の細胞外DNAから取得される、請求項97に記載の方法。
- 異数性の非存在または存在に基づいて前記胚を選択することをさらに含み、任意で、前記胚は複数の胚から選択される、請求項96~98のいずれか一項に記載の方法。
- 体外受精(IVF)のために前記選択された胚を使用することをさらに含む、請求項99に記載の方法。
- 前記選択された胚を処分することをさらに含む、請求項99に記載の方法。
- 前記選択された胚を凍結することをさらに含む、請求項99に記載の方法。
- 前記対象が胎児である、請求項90~94のいずれか一項に記載の方法。
- 細胞外胎児DNA(cffDNA)に由来する倍数性状態を示すシグナル(例えば、前記対立遺伝子バランスシグナルまたはリードの深度シグナル)を取得することを含む、請求項103に記載の方法。
- 異数性(例えば、CNV)の前記特定された非存在または存在に基づいて前記胎児および/または前記母親を処置することをさらに含む、請求項103または104に記載の方法。
- 処置が、前記胎児に対してさらなる検査を行うことを含み、任意で、前記さらなる試験は核型分析を含む、請求項105に記載の方法。
- 前記処置が妊娠を終了させることを含む、請求項105または106に記載の方法。
- 前記処置が、検出された異数性(例えば、CNV)の存在に関連する疾患に対して前記胎児に出生前処置を施すことを含む、請求項105~107のいずれか一項に記載の方法。
- 疾患について対象をスクリーニングする方法であって、
前記疾患に関連する1つまたは複数の遺伝的バリアントが存在するかどうかを決定することであって、前記1つまたは複数の遺伝的バリアントは、1もしくは複数の他の対象に対して請求項32~81のいずれか一項に記載の方法を実施することによって同定された異数性(例えば、CNV)および/または前記異数性と同じハプロタイプブロック内に存在したSNPを含み、任意で、前記SNPは前記疾患に関連することが知られている、決定することを含む、方法。 - 前記1つまたは複数の遺伝的バリアントが前記異数性を含む、請求項109に記載の方法。
- 前記1つまたは複数の遺伝的バリアントが前記SNPを含む、請求項109または110に記載の方法。
- 前記CNVおよびSNPが連鎖不平衡にある、請求項109~111のいずれか一項に記載の方法。
- 前記疾患に関連する前記1つまたは複数の遺伝的バリアントが存在するかどうかを決定することが、前記対象に対して配列決定を行うことを含み、任意で、前記1つまたは複数の遺伝的バリアントを含むゲノムの一部が(例えば、マイクロアレイを介して)標的とされる、請求項109~112のいずれか一項に記載の方法。
- 前記1つまたは複数の遺伝的バリアントに少なくとも部分的に基づいて、前記疾患についての多遺伝子リスクスコア(PRS)を計算することをさらに含む、請求項109~113のいずれか一項に記載の方法。
- 前記1つまたは複数の遺伝的バリアントの存在もしくは非存在に少なくとも部分的に基づいて、または前記1つもしくは複数の遺伝的バリアントに少なくとも部分的に基づくPRSに基づいて、疾患を有する前記対象を診断することをさらに含む、請求項109~114のいずれか一項に記載の方法。
- 前記1つまたは複数の遺伝的バリアントの存在または非存在に基づいて前記対象を処置することをさらに含む、請求項109~115のいずれか一項に記載の方法。
- 対象において生殖系列モザイクバリアントの相を決定する方法であって、
2つの相のセットを含む参照遺伝暗号を取得することであって、各相のセットは関心対象の1つまたは複数のバリアントを有し、任意で、前記参照遺伝暗号は少なくとも部分的に相が確定されている、取得することと;
非誤り伝播技術を用いて配列決定された複数のリードを取得することであって、各リードは、前記関心対象の1つまたは複数のバリアントのうちの少なくとも1つを含む、取得することと;
前記複数のリードに基づいて、前記2つの相のセットの相アラインメントを同じ相または異なる相であるとして決定することと;
前記2つの相のセットの前記決定された相アラインメントに基づいて、異数性(例えば、CNV)を示す染色体セグメントを含むハプロタイプを同定することと;
を含む、方法。 - 前記対象が、前記異数性に関連する遺伝的疾患または症状を有すると診断されるか、または疑われ、任意で、前記対象は、ヌーナン症候群またはラソパシーを有すると診断されるか、または有すると疑われる、請求項117に記載の方法。
- 前記同定されたハプロタイプについて前記対象からの配偶子をスクリーニングすることをさらに含む、請求項117または118に記載の方法。
- 体外受精のために前記同定されたハプロタイプを有しない配偶子を選択することをさらに含む、請求項119に記載の方法。
- 着床前遺伝子検査中に、胚における前記ハプロタイプについてスクリーニングすることをさらに含む、請求項117~120のいずれか一項に記載の方法。
- 前記異数性の非存在または存在に基づいて胚を選択することをさらに含み、任意で、前記胚は複数の胚から選択される、請求項121に記載の方法。
- 体外受精(IVF)において前記選択された胚を使用することをさらに含む、請求項122に記載の方法。
- 前記選択された胚を処分することをさらに含む、請求項122に記載の方法。
- 前記選択された胚を凍結することをさらに含む、請求項122に記載の方法。
- 前記異数性が、請求項32~81のいずれか一項に記載の方法を行うことによって同定される、請求項117~125のいずれか一項に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063107464P | 2020-10-30 | 2020-10-30 | |
US63/107,464 | 2020-10-30 | ||
PCT/US2021/057400 WO2022094310A1 (en) | 2020-10-30 | 2021-10-29 | Use of non-error-propagating phasing techniques and combination of allelic balance to improve cnv detection |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023548113A true JP2023548113A (ja) | 2023-11-15 |
Family
ID=81383290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023525996A Pending JP2023548113A (ja) | 2020-10-30 | 2021-10-29 | Cnv検出を改善するための非誤り伝播相決定技術ならびに対立遺伝子バランスの組み合わせの使用 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230410942A1 (ja) |
EP (1) | EP4238096A1 (ja) |
JP (1) | JP2023548113A (ja) |
CN (1) | CN116601714A (ja) |
WO (1) | WO2022094310A1 (ja) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3134541B1 (en) * | 2014-04-21 | 2020-08-19 | Natera, Inc. | Detecting copy number variations (cnv) of chromosomal segments in cancer |
-
2021
- 2021-10-29 US US18/251,096 patent/US20230410942A1/en active Pending
- 2021-10-29 JP JP2023525996A patent/JP2023548113A/ja active Pending
- 2021-10-29 CN CN202180084302.XA patent/CN116601714A/zh active Pending
- 2021-10-29 WO PCT/US2021/057400 patent/WO2022094310A1/en active Application Filing
- 2021-10-29 EP EP21887655.5A patent/EP4238096A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022094310A1 (en) | 2022-05-05 |
EP4238096A1 (en) | 2023-09-06 |
US20230410942A1 (en) | 2023-12-21 |
CN116601714A (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11984195B2 (en) | Methylation pattern analysis of tissues in a DNA mixture | |
US20220010385A1 (en) | Methods for detecting inactivation of the homologous recombination pathway (brca1/2) in human tumors | |
US20200270707A1 (en) | Methylation pattern analysis of haplotypes in tissues in a dna mixture | |
JP2022025101A (ja) | セルフリー核酸のフラグメントームプロファイリングのための方法 | |
TWI636255B (zh) | 癌症檢測之血漿dna突變分析 | |
KR102028375B1 (ko) | 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법 | |
US20220106642A1 (en) | Multiplexed Parallel Analysis Of Targeted Genomic Regions For Non-Invasive Prenatal Testing | |
CN114026647A (zh) | 单细胞遗传结构变异的综合检测 | |
EP4095258A1 (en) | Target-enriched multiplexed parallel analysis for assesment of tumor biomarkers | |
Shukla et al. | Feasibility of whole genome and transcriptome profiling in pediatric and young adult cancers | |
Gai et al. | Applications of genetic-epigenetic tissue mapping for plasma DNA in prenatal testing, transplantation and oncology | |
US20200157602A1 (en) | Enrichment of targeted genomic regions for multiplexed parallel analysis | |
WO2018090991A1 (en) | Universal haplotype-based noninvasive prenatal testing for single gene diseases | |
JP2016518811A (ja) | 多胎妊娠における胎児ゲノムの決定 | |
Rosenthal et al. | Development and validation of a 34-gene inherited cancer predisposition panel using next-generation sequencing | |
JP2023548113A (ja) | Cnv検出を改善するための非誤り伝播相決定技術ならびに対立遺伝子バランスの組み合わせの使用 | |
KR20200064891A (ko) | 조혈모세포 이식 후 혈액암 예후 예측을 위한 정보 제공 방법 | |
US20230031898A1 (en) | Method of cell-free dna analysis to identify high-risk metastatic prostate cancer | |
Galata | Identification of genetic factors associated with myeloid neoplasms | |
이누리 | Identification of Genomic Profiling of Multiple Myeloma Patients in Korea |