JP2023523002A - 染色体近接実験における構造的変異検出 - Google Patents
染色体近接実験における構造的変異検出 Download PDFInfo
- Publication number
- JP2023523002A JP2023523002A JP2022564377A JP2022564377A JP2023523002A JP 2023523002 A JP2023523002 A JP 2023523002A JP 2022564377 A JP2022564377 A JP 2022564377A JP 2022564377 A JP2022564377 A JP 2022564377A JP 2023523002 A JP2023523002 A JP 2023523002A
- Authority
- JP
- Japan
- Prior art keywords
- genomic
- proximity
- interest
- fragment
- fragments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002759 chromosomal effect Effects 0.000 title claims description 44
- 238000001514 detection method Methods 0.000 title description 47
- 238000002474 experimental method Methods 0.000 title description 27
- 238000000034 method Methods 0.000 claims abstract description 280
- 230000008711 chromosomal rearrangement Effects 0.000 claims abstract description 92
- 239000012634 fragment Substances 0.000 claims description 1070
- 230000008707 rearrangement Effects 0.000 claims description 355
- 210000000349 chromosome Anatomy 0.000 claims description 146
- 239000000523 sample Substances 0.000 claims description 129
- 238000012163 sequencing technique Methods 0.000 claims description 97
- 238000003776 cleavage reaction Methods 0.000 claims description 87
- 230000007017 scission Effects 0.000 claims description 87
- 238000003556 assay Methods 0.000 claims description 58
- 239000011159 matrix material Substances 0.000 claims description 58
- 238000013507 mapping Methods 0.000 claims description 50
- 208000037088 Chromosome Breakage Diseases 0.000 claims description 41
- 230000003321 amplification Effects 0.000 claims description 34
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 32
- 238000010384 proximity ligation assay Methods 0.000 claims description 31
- 230000004931 aggregating effect Effects 0.000 claims description 29
- 238000009396 hybridization Methods 0.000 claims description 20
- 108020005187 Oligonucleotide Probes Proteins 0.000 claims description 19
- 239000002751 oligonucleotide probe Substances 0.000 claims description 19
- 230000000295 complement effect Effects 0.000 claims description 18
- 230000007704 transition Effects 0.000 claims description 11
- 230000002103 transcriptional effect Effects 0.000 claims description 10
- 108010077544 Chromatin Proteins 0.000 claims description 9
- 210000003483 chromatin Anatomy 0.000 claims description 9
- 230000001747 exhibiting effect Effects 0.000 claims description 4
- 230000010076 replication Effects 0.000 claims description 4
- 230000001973 epigenetic effect Effects 0.000 claims description 3
- 238000012085 transcriptional profiling Methods 0.000 claims 1
- 108020004414 DNA Proteins 0.000 abstract description 314
- 108091028043 Nucleic acid sequence Proteins 0.000 abstract description 21
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000011275 oncology therapy Methods 0.000 abstract description 2
- 108090000623 proteins and genes Proteins 0.000 description 121
- 102100038895 Myc proto-oncogene protein Human genes 0.000 description 75
- 101000971234 Homo sapiens B-cell lymphoma 6 protein Proteins 0.000 description 73
- 230000005945 translocation Effects 0.000 description 72
- 102100021631 B-cell lymphoma 6 protein Human genes 0.000 description 71
- 239000013615 primer Substances 0.000 description 54
- 230000004927 fusion Effects 0.000 description 44
- 230000014509 gene expression Effects 0.000 description 42
- 206010028980 Neoplasm Diseases 0.000 description 41
- 230000000875 corresponding effect Effects 0.000 description 40
- 210000004027 cell Anatomy 0.000 description 35
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 description 29
- 230000002776 aggregation Effects 0.000 description 29
- 238000004220 aggregation Methods 0.000 description 29
- 206010025323 Lymphomas Diseases 0.000 description 27
- 238000004458 analytical method Methods 0.000 description 25
- 238000004132 cross linking Methods 0.000 description 25
- 230000003993 interaction Effects 0.000 description 24
- 102000004169 proteins and genes Human genes 0.000 description 22
- 210000001519 tissue Anatomy 0.000 description 20
- 238000007481 next generation sequencing Methods 0.000 description 19
- 239000002773 nucleotide Substances 0.000 description 18
- 125000003729 nucleotide group Chemical group 0.000 description 18
- 238000003752 polymerase chain reaction Methods 0.000 description 18
- 230000002068 genetic effect Effects 0.000 description 17
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 16
- 239000002987 primer (paints) Substances 0.000 description 15
- 230000008569 process Effects 0.000 description 15
- 238000013459 approach Methods 0.000 description 14
- 201000011510 cancer Diseases 0.000 description 13
- 238000013467 fragmentation Methods 0.000 description 13
- 238000006062 fragmentation reaction Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 108700026244 Open Reading Frames Proteins 0.000 description 10
- 238000009825 accumulation Methods 0.000 description 10
- 238000003780 insertion Methods 0.000 description 10
- 230000037431 insertion Effects 0.000 description 10
- 239000000463 material Substances 0.000 description 10
- 108091008146 restriction endonucleases Proteins 0.000 description 10
- 238000000926 separation method Methods 0.000 description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 9
- 238000009499 grossing Methods 0.000 description 9
- 150000007523 nucleic acids Chemical class 0.000 description 9
- 210000004940 nucleus Anatomy 0.000 description 9
- 230000001105 regulatory effect Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 238000011282 treatment Methods 0.000 description 9
- 238000012217 deletion Methods 0.000 description 8
- 230000037430 deletion Effects 0.000 description 8
- 238000003745 diagnosis Methods 0.000 description 8
- 230000029087 digestion Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 108700028369 Alleles Proteins 0.000 description 7
- 102000053602 DNA Human genes 0.000 description 7
- 108091034117 Oligonucleotide Proteins 0.000 description 7
- 230000008901 benefit Effects 0.000 description 7
- 238000000876 binomial test Methods 0.000 description 7
- 238000011065 in-situ storage Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 238000002360 preparation method Methods 0.000 description 7
- 230000035945 sensitivity Effects 0.000 description 7
- 208000034951 Genetic Translocation Diseases 0.000 description 6
- 108700020796 Oncogene Proteins 0.000 description 6
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 6
- 230000027455 binding Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 6
- 238000000126 in silico method Methods 0.000 description 6
- 102000039446 nucleic acids Human genes 0.000 description 6
- 108020004707 nucleic acids Proteins 0.000 description 6
- 238000011144 upstream manufacturing Methods 0.000 description 6
- 102000043276 Oncogene Human genes 0.000 description 5
- 238000001574 biopsy Methods 0.000 description 5
- 238000000205 computational method Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 102000054766 genetic haplotypes Human genes 0.000 description 5
- 210000001165 lymph node Anatomy 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000002441 reversible effect Effects 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 102100026353 F-box-like/WD repeat-containing protein TBL1XR1 Human genes 0.000 description 4
- 102100030648 Glyoxylate reductase/hydroxypyruvate reductase Human genes 0.000 description 4
- 101000835675 Homo sapiens F-box-like/WD repeat-containing protein TBL1XR1 Proteins 0.000 description 4
- 101001010442 Homo sapiens Glyoxylate reductase/hydroxypyruvate reductase Proteins 0.000 description 4
- 208000031671 Large B-Cell Diffuse Lymphoma Diseases 0.000 description 4
- 238000012408 PCR amplification Methods 0.000 description 4
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 238000002405 diagnostic procedure Methods 0.000 description 4
- 206010012818 diffuse large B-cell lymphoma Diseases 0.000 description 4
- 208000035475 disorder Diseases 0.000 description 4
- 102000018358 immunoglobulin Human genes 0.000 description 4
- 238000003364 immunohistochemistry Methods 0.000 description 4
- 238000007901 in situ hybridization Methods 0.000 description 4
- 238000011016 integrity testing Methods 0.000 description 4
- 238000011835 investigation Methods 0.000 description 4
- 230000036210 malignancy Effects 0.000 description 4
- 230000035772 mutation Effects 0.000 description 4
- 239000013610 patient sample Substances 0.000 description 4
- 238000004393 prognosis Methods 0.000 description 4
- 230000008685 targeting Effects 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 210000004881 tumor cell Anatomy 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 229930024421 Adenine Natural products 0.000 description 3
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 3
- 208000036086 Chromosome Duplication Diseases 0.000 description 3
- 239000003155 DNA primer Substances 0.000 description 3
- 108700024394 Exon Proteins 0.000 description 3
- 241000282412 Homo Species 0.000 description 3
- 108060003951 Immunoglobulin Proteins 0.000 description 3
- 241000209094 Oryza Species 0.000 description 3
- 235000007164 Oryza sativa Nutrition 0.000 description 3
- 206010039491 Sarcoma Diseases 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 3
- 229960000643 adenine Drugs 0.000 description 3
- 230000004075 alteration Effects 0.000 description 3
- 230000000981 bystander Effects 0.000 description 3
- 210000003855 cell nucleus Anatomy 0.000 description 3
- 239000013068 control sample Substances 0.000 description 3
- 238000010790 dilution Methods 0.000 description 3
- 239000012895 dilution Substances 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 230000002255 enzymatic effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012165 high-throughput sequencing Methods 0.000 description 3
- 230000003426 interchromosomal effect Effects 0.000 description 3
- 238000005304 joining Methods 0.000 description 3
- 230000017074 necrotic cell death Effects 0.000 description 3
- 238000013188 needle biopsy Methods 0.000 description 3
- 238000007857 nested PCR Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 239000012188 paraffin wax Substances 0.000 description 3
- 229920000642 polymer Polymers 0.000 description 3
- 235000009566 rice Nutrition 0.000 description 3
- 238000005096 rolling process Methods 0.000 description 3
- 238000000527 sonication Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000017105 transposition Effects 0.000 description 3
- 229940035893 uracil Drugs 0.000 description 3
- 238000011179 visual inspection Methods 0.000 description 3
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 2
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 2
- 108020005345 3' Untranslated Regions Proteins 0.000 description 2
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 2
- 208000003950 B-cell lymphoma Diseases 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 2
- 101150017888 Bcl2 gene Proteins 0.000 description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical class C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 2
- 206010061764 Chromosomal deletion Diseases 0.000 description 2
- 208000016718 Chromosome Inversion Diseases 0.000 description 2
- 108020004705 Codon Proteins 0.000 description 2
- 102000012410 DNA Ligases Human genes 0.000 description 2
- 108010061982 DNA Ligases Proteins 0.000 description 2
- 102100037799 DNA-binding protein Ikaros Human genes 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 101150011776 GRHPR gene Proteins 0.000 description 2
- 101000599038 Homo sapiens DNA-binding protein Ikaros Proteins 0.000 description 2
- 108700005091 Immunoglobulin Genes Proteins 0.000 description 2
- 108091092195 Intron Proteins 0.000 description 2
- KFZMGEQAYNKOFK-UHFFFAOYSA-N Isopropanol Chemical compound CC(C)O KFZMGEQAYNKOFK-UHFFFAOYSA-N 0.000 description 2
- 238000007397 LAMP assay Methods 0.000 description 2
- 108091026898 Leader sequence (mRNA) Proteins 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 108091005804 Peptidases Proteins 0.000 description 2
- 206010060862 Prostate cancer Diseases 0.000 description 2
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 2
- 239000004365 Protease Substances 0.000 description 2
- 108700020978 Proto-Oncogene Proteins 0.000 description 2
- 102000052575 Proto-Oncogene Human genes 0.000 description 2
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 2
- 102100037486 Reverse transcriptase/ribonuclease H Human genes 0.000 description 2
- 208000021712 Soft tissue sarcoma Diseases 0.000 description 2
- 108700025716 Tumor Suppressor Genes Proteins 0.000 description 2
- 102000044209 Tumor Suppressor Genes Human genes 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 210000001766 X chromosome Anatomy 0.000 description 2
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 230000006907 apoptotic process Effects 0.000 description 2
- 239000011324 bead Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000004071 biological effect Effects 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 238000004113 cell culture Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- BABWHSBPEIVBBZ-UHFFFAOYSA-N diazete Chemical compound C1=CN=N1 BABWHSBPEIVBBZ-UHFFFAOYSA-N 0.000 description 2
- 239000012470 diluted sample Substances 0.000 description 2
- 210000001840 diploid cell Anatomy 0.000 description 2
- 239000003623 enhancer Substances 0.000 description 2
- 230000006862 enzymatic digestion Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 108020001507 fusion proteins Proteins 0.000 description 2
- 102000037865 fusion proteins Human genes 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 238000011534 incubation Methods 0.000 description 2
- 238000007852 inverse PCR Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 230000001404 mediated effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 108700024542 myc Genes Proteins 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002018 overexpression Effects 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 102000040430 polynucleotide Human genes 0.000 description 2
- 108091033319 polynucleotide Proteins 0.000 description 2
- 239000002157 polynucleotide Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 238000002271 resection Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- 108700026220 vif Genes Proteins 0.000 description 2
- 101150090724 3 gene Proteins 0.000 description 1
- 108020005065 3' Flanking Region Proteins 0.000 description 1
- KJLPSBMDOIVXSN-UHFFFAOYSA-N 4-[4-[2-[4-(3,4-dicarboxyphenoxy)phenyl]propan-2-yl]phenoxy]phthalic acid Chemical compound C=1C=C(OC=2C=C(C(C(O)=O)=CC=2)C(O)=O)C=CC=1C(C)(C)C(C=C1)=CC=C1OC1=CC=C(C(O)=O)C(C(O)=O)=C1 KJLPSBMDOIVXSN-UHFFFAOYSA-N 0.000 description 1
- 108020005029 5' Flanking Region Proteins 0.000 description 1
- 108020003589 5' Untranslated Regions Proteins 0.000 description 1
- FVFVNNKYKYZTJU-UHFFFAOYSA-N 6-chloro-1,3,5-triazine-2,4-diamine Chemical compound NC1=NC(N)=NC(Cl)=N1 FVFVNNKYKYZTJU-UHFFFAOYSA-N 0.000 description 1
- 241000517645 Abra Species 0.000 description 1
- 241001584781 Anaplectoides prasina Species 0.000 description 1
- 208000028564 B-cell non-Hodgkin lymphoma Diseases 0.000 description 1
- 208000035143 Bacterial infection Diseases 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 208000011691 Burkitt lymphomas Diseases 0.000 description 1
- 108010014064 CCCTC-Binding Factor Proteins 0.000 description 1
- 108020005031 Concatenated DNA Proteins 0.000 description 1
- 208000025962 Crush injury Diseases 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 238000007399 DNA isolation Methods 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 230000006820 DNA synthesis Effects 0.000 description 1
- 230000004568 DNA-binding Effects 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 102100031262 Deleted in malignant brain tumors 1 protein Human genes 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 108010067770 Endopeptidase K Proteins 0.000 description 1
- 102100028122 Forkhead box protein P1 Human genes 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 108700028146 Genetic Enhancer Elements Proteins 0.000 description 1
- 108091027305 Heteroduplex Proteins 0.000 description 1
- 101100382122 Homo sapiens CIITA gene Proteins 0.000 description 1
- 101000844721 Homo sapiens Deleted in malignant brain tumors 1 protein Proteins 0.000 description 1
- 101001059893 Homo sapiens Forkhead box protein P1 Proteins 0.000 description 1
- 101001021858 Homo sapiens Kynureninase Proteins 0.000 description 1
- 101000686031 Homo sapiens Proto-oncogene tyrosine-protein kinase ROS Proteins 0.000 description 1
- 101000837401 Homo sapiens T-cell leukemia/lymphoma protein 1A Proteins 0.000 description 1
- 102100036091 Kynureninase Human genes 0.000 description 1
- 241000271496 Lachesis Species 0.000 description 1
- 241000255777 Lepidoptera Species 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 108010018650 MEF2 Transcription Factors Proteins 0.000 description 1
- 102100026371 MHC class II transactivator Human genes 0.000 description 1
- 108700002010 MHC class II transactivator Proteins 0.000 description 1
- 101150039798 MYC gene Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 102100039229 Myocyte-specific enhancer factor 2C Human genes 0.000 description 1
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 1
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 1
- 101150073900 PTEN gene Proteins 0.000 description 1
- 108091093037 Peptide nucleic acid Proteins 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 108010024221 Proto-Oncogene Proteins c-bcr Proteins 0.000 description 1
- 102000015690 Proto-Oncogene Proteins c-bcr Human genes 0.000 description 1
- 102100023347 Proto-oncogene tyrosine-protein kinase ROS Human genes 0.000 description 1
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 1
- 108020004511 Recombinant DNA Proteins 0.000 description 1
- 208000007660 Residual Neoplasm Diseases 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- 101100495925 Schizosaccharomyces pombe (strain 972 / ATCC 24843) chr3 gene Proteins 0.000 description 1
- 206010068771 Soft tissue neoplasm Diseases 0.000 description 1
- 108091081024 Start codon Proteins 0.000 description 1
- 108010090804 Streptavidin Proteins 0.000 description 1
- 108700025695 Suppressor Genes Proteins 0.000 description 1
- 108091008874 T cell receptors Proteins 0.000 description 1
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 description 1
- 108700042075 T-Cell Receptor Genes Proteins 0.000 description 1
- 102100028676 T-cell leukemia/lymphoma protein 1A Human genes 0.000 description 1
- 108091036066 Three prime untranslated region Proteins 0.000 description 1
- 102100027671 Transcriptional repressor CTCF Human genes 0.000 description 1
- 108700019146 Transgenes Proteins 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000011543 agarose gel Substances 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 238000002266 amputation Methods 0.000 description 1
- 229940045988 antineoplastic drug protein kinase inhibitors Drugs 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 208000022362 bacterial infectious disease Diseases 0.000 description 1
- 108700041737 bcl-2 Genes Proteins 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 229960002685 biotin Drugs 0.000 description 1
- 235000020958 biotin Nutrition 0.000 description 1
- 239000011616 biotin Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000010828 elution Methods 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- ZINJLDJMHCUBIP-UHFFFAOYSA-N ethametsulfuron-methyl Chemical compound CCOC1=NC(NC)=NC(NC(=O)NS(=O)(=O)C=2C(=CC=CC=2)C(=O)OC)=N1 ZINJLDJMHCUBIP-UHFFFAOYSA-N 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 201000003444 follicular lymphoma Diseases 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 210000005260 human cell Anatomy 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 206010020718 hyperplasia Diseases 0.000 description 1
- 230000002390 hyperplastic effect Effects 0.000 description 1
- 238000001114 immunoprecipitation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000012212 insulator Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000011901 isothermal amplification Methods 0.000 description 1
- 208000032839 leukemia Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 201000007924 marginal zone B-cell lymphoma Diseases 0.000 description 1
- 208000021937 marginal zone lymphoma Diseases 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 230000001394 metastastic effect Effects 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- WSFSSNUMVMOOMR-NJFSPNSNSA-N methanone Chemical compound O=[14CH2] WSFSSNUMVMOOMR-NJFSPNSNSA-N 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000007479 molecular analysis Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013642 negative control Substances 0.000 description 1
- 231100000590 oncogenic Toxicity 0.000 description 1
- 230000002246 oncogenic effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000010827 pathological analysis Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 108060006633 protein kinase Proteins 0.000 description 1
- 239000003909 protein kinase inhibitor Substances 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000022532 regulation of transcription, DNA-dependent Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 238000007363 ring formation reaction Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 230000003584 silencer Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000007671 third-generation sequencing Methods 0.000 description 1
- 238000007483 tonsillectomy Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000003827 upregulation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2537/00—Reactions characterised by the reaction format or use of a specific feature
- C12Q2537/10—Reactions characterised by the reaction format or use of a specific feature the purpose or use of
- C12Q2537/165—Mathematical modelling, e.g. logarithm, ratio
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2565/00—Nucleic acid analysis characterised by mode or means of detection
- C12Q2565/10—Detection mode being characterised by the assay principle
- C12Q2565/133—Detection mode being characterised by the assay principle conformational analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Physics & Mathematics (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Molecular Biology (AREA)
- Immunology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Pathology (AREA)
- Hospice & Palliative Care (AREA)
- Oncology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Switches That Are Operated By Magnetic Or Electric Fields (AREA)
- Electronic Switches (AREA)
- Investigating Or Analyzing Materials By The Use Of Magnetic Means (AREA)
Abstract
本発明は、分子生物学の分野に関し、より特にはDNA技術に関する。本発明は、関心のあるゲノム領域のDNA配列の構造的完全性を評価する為の戦略に関し、それは、診断学及び個別化された癌治療において臨床応用を有する。特に、本発明は、関心のあるゲノム領域に関与する染色体再配置を検出する方法を提供する。【選択図】図1
Description
本発明は、分子生物学分野に関し、より特にはDNA技術に関する。本発明は、関心のあるゲノム領域のDNA配列の構造的完全性を評価する為の戦略に関し、それは、診断学及び個別化された癌治療において臨床応用を有する。
特に、複数のDNAリードと関心のあるゲノム領域の為の染色体再配置を検出する方法が提供される。観察された近接性スコアは、ゲノムフラグメントに割り当てられる(101)。予想される近接性スコアが、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに割り当てられ(102)、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値である。該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標が、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成される(104)。
核の3次元空間における近接ライゲーション(proximity-ligation)、すなわち細胞核内(イン・シチュー(in situ))でのDNAのフラグメント化とその後の再ライゲーション、に基づく一連の技術(3C、4C、5C、Hi-C、ChIA-PET、HiChIP、Targeted Locus Amplification(TLA)、capture-C、promoter-capture HiC、幾つか挙げると(Denker & de Laat、Genes & Development 2016を参照)がある。ほとんどの近接ライゲーションアッセイにおいて、フラグメント化の前にクロマチンがまず架橋化されて、元の3Dコンフォーメーションを保存することを助けるが、架橋無しのイン・シチューフラグメント化及び近接ライゲーション技術がまたある(例えば、Brant等,Mol Sys Biol 2016)。これらの手順は、空間的に近接した(すなわち、相互作用した)DNAフラグメント間のライゲーション産物を与え、従って、細胞核内の染色体折り畳みを解析する為に使用されることができる。近接ライゲーション法に加えて、核近接DNA配列を識別する為にライゲーションではなく架橋化に依存する他の核近接法、例えばSPRITE(split-pool recognition of interactions by tag extension)(Quinodoz等,Cell 2018)、がまた存在する。しかしながら、核(細胞)の空間における近接性に寄与する支配的なシグナルは、線形近接性(linear proximity)である。染色体上の直線的に隣接するDNAフラグメントは必然的に物理的に近接し、その結果、近接ライゲーションされた産物又は他の核近接アッセイにおいて一緒に発見される可能性が高くなる。一般的に、この傾向は該染色体上のフラグメントの対の間の直線距離が長くなるにつれて指数関数的に減少する。
この特徴により、核近接法、例えば近接ライゲーションアッセイを包含する該核近接法、は、染色体の直線構造における変化をもたらす染色体再配置を感度よく検出することを可能にする。例えば、そのような近接ライゲーションアッセイを実行し、そして、転座部位(translocation site)(2つの異なる染色体が融合されている場所の近く)のDNAフラグメントで形成されたライゲーション産物を分析することは、融合した2つのパートナーの間で非常に頻繁なライゲーション産物を与えるであろう。
De LaatとGrosveldは、再配置が、国際公開第WO2008084405号パンフレットにおいて、(a)「疾病細胞と非疾病細胞のDNA配列間の相互作用頻度における差」及び/又は(b)「低い相互作用頻度から高い相互作用頻度への遷移」に基づいて検出されることができることを開示した。
1つの観点において、関心のあるゲノム領域内の位置に再配置パートナー候補を融合する染色体切断部位接合部の存在を確認する方法であって、
a.DNAを含むサンプルにおいて近接アッセイを実行して、複数の近接結合された生成物を生成すること;
b.該関心のあるゲノム領域の5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、該近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、該関心のあるゲノム領域の該5’末端に隣接する配列を含むゲノムフラグメントに近接する;
該近接結合された生成物を配列決定して、配列決定リードを生成すること、
該関心のあるゲノム領域の該5’末端に隣接する配列を含む該ゲノムフラグメントに近接する該ゲノムフラグメントの該配列を参照配列にマッピングすること;
c.該関心のあるゲノム領域の3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、該近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに近接する;
を含む上記の方法を提供する。
該近接結合された生成物を配列決定して、配列決定リードを生成すること、
該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに近接する該ゲノムフラグメントの該配列を参照配列にマッピングすること;
d.該関心のあるゲノム領域を有する該ゲノムフラグメント、又は該関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントの近接頻度に基づいて、少なくとも1つのゲノムフラグメントを再配置パートナー候補として識別すること、
e.該関心のあるゲノム領域の該5’末端に隣接する配列を含む該ゲノムフラグメントに隣接する該再配置パートナー候補のゲノムフラグメントと、該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに隣接する該再配置パートナー候補のゲノムフラグメントとが重なり合っているか又は線形に離れているかを判定すること、ここで、該再配置パートナー候補ゲノムフラグメントの線形に離れていることが、該関心のあるゲノム領域内の染色体切断部位接合部を示す、
を含む上記の方法を提供する。
a.DNAを含むサンプルにおいて近接アッセイを実行して、複数の近接結合された生成物を生成すること;
b.該関心のあるゲノム領域の5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、該近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、該関心のあるゲノム領域の該5’末端に隣接する配列を含むゲノムフラグメントに近接する;
該近接結合された生成物を配列決定して、配列決定リードを生成すること、
該関心のあるゲノム領域の該5’末端に隣接する配列を含む該ゲノムフラグメントに近接する該ゲノムフラグメントの該配列を参照配列にマッピングすること;
c.該関心のあるゲノム領域の3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、該近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに近接する;
を含む上記の方法を提供する。
該近接結合された生成物を配列決定して、配列決定リードを生成すること、
該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに近接する該ゲノムフラグメントの該配列を参照配列にマッピングすること;
d.該関心のあるゲノム領域を有する該ゲノムフラグメント、又は該関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントの近接頻度に基づいて、少なくとも1つのゲノムフラグメントを再配置パートナー候補として識別すること、
e.該関心のあるゲノム領域の該5’末端に隣接する配列を含む該ゲノムフラグメントに隣接する該再配置パートナー候補のゲノムフラグメントと、該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに隣接する該再配置パートナー候補のゲノムフラグメントとが重なり合っているか又は線形に離れているかを判定すること、ここで、該再配置パートナー候補ゲノムフラグメントの線形に離れていることが、該関心のあるゲノム領域内の染色体切断部位接合部を示す、
を含む上記の方法を提供する。
好ましくは、該近接アッセイが、複数のライゲーションされた近接生成物を生成する近接ライゲーションアッセイである。
好ましくは、工程d.が、
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101)、ここで、各ゲノムフラグメントの該観察された近接性スコアが、該関心のあるゲノム領域に近接し且つ該ゲノムフラグメントに対応する1つの配列を含む少なくとも1つの配列決定リードの該データセットにおける存在を示す;
予想される近接性スコアを、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて割り当てること(102)、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値を含む;及び
該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成すること(103)、及び該ゲノムフラグメントを再配置パートナー候補として識別すること
を含む。工程d.の好ましい実施態様は、PLIERの実施態様として本明細書において更に記載されている。
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101)、ここで、各ゲノムフラグメントの該観察された近接性スコアが、該関心のあるゲノム領域に近接し且つ該ゲノムフラグメントに対応する1つの配列を含む少なくとも1つの配列決定リードの該データセットにおける存在を示す;
予想される近接性スコアを、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて割り当てること(102)、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値を含む;及び
該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成すること(103)、及び該ゲノムフラグメントを再配置パートナー候補として識別すること
を含む。工程d.の好ましい実施態様は、PLIERの実施態様として本明細書において更に記載されている。
好ましくは、工程b.が、オリゴヌクレオチドプローブハイブリダイゼーション又はプライマーベースの増幅を実行して、該関心のあるゲノム領域の該5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、及び/又は工程c.がオリゴヌクレオチドプローブハイブリダイゼーション又はプライマーベースの増幅を実行して、該関心のあるゲノム領域の該3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化することを含む。
好ましくは、工程b.が、該関心のあるゲノム領域の5'領域に隣接する配列に少なくとも部分的に相補的である少なくとも1つのオリゴヌクレオチドプローブ又はプライマーを提供することを含み、及び/又は工程c.が、該関心のあるゲノム領域の3’領域に隣接する配列に少なくとも部分的に相補的である少なくとも1つのオリゴヌクレオチドプローブ又はプライマーを提供することを含む。
好ましくは、該方法は、該再配置パートナー候補を該関心のあるゲノム領域内の位置に融合する該染色体切断部位接合部の位置を決定することを含み、該方法が、
i)該関心のあるゲノム領域のうちの少なくとも一部と、ii)該関心のあるゲノム領域に近接するゲノムフラグメントとを含む近接結合産物を富化すること、該近接結合された生成物を配列決定し、そして、該染色体切断点をマッピングすること、ここで、該マッピングすることが、I)該関心のあるゲノム領域のうちの少なくとも第1の部分と該再配置パートナーのゲノムフラグメントとを含む近接結合された生成物、及びII)該関心のあるゲノム領域のうちの少なくとも第2の部分と該再配置パートナーのゲノムフラグメントとを含む近接結合された生成物を検出することを含み、ここで、該I)及びII)からの該再配置パートナーゲノムフラグメントは線形に離れている。
i)該関心のあるゲノム領域のうちの少なくとも一部と、ii)該関心のあるゲノム領域に近接するゲノムフラグメントとを含む近接結合産物を富化すること、該近接結合された生成物を配列決定し、そして、該染色体切断点をマッピングすること、ここで、該マッピングすることが、I)該関心のあるゲノム領域のうちの少なくとも第1の部分と該再配置パートナーのゲノムフラグメントとを含む近接結合された生成物、及びII)該関心のあるゲノム領域のうちの少なくとも第2の部分と該再配置パートナーのゲノムフラグメントとを含む近接結合された生成物を検出することを含み、ここで、該I)及びII)からの該再配置パートナーゲノムフラグメントは線形に離れている。
好ましくは、該方法は、オリゴヌクレオチドプローブハイブリダイゼーション又はプライマーベースの増幅を実行して、i)該関心のあるゲノム領域の少なくとも一部及びii)該関心のあるゲノム領域に近接するゲノムフラグメントを含む近接結合された生成物を富化することを含む。
好ましくは、該方法は、配列決定リードの少なくともサブセットについての行列を生成することを含み、該行列の一方の軸が、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表し、並びに他方の軸が、該再配置パートナー候補の配列位置を表し、ここで、該行列内の各要素が、該関心のあるゲノム領域のゲノムフラグメント又は該関心のある該領域に隣接するゲノムフラグメントと該再配置パートナーからのゲノムフラグメントとを含む同定された1つの近接結合された生成物の頻度を表すように、該行列が、該配列決定リードを該行列上に重畳することによって生成される。好ましくは、該行列が蝶形格子(butterfly plot)である。
好ましくは、該方法は、該切断部位にまたがる1つのゲノム領域の配列を決定することを更に含み、該方法が、
i)該関心のあるゲノム領域の切断部位-近位ゲノムフラグメントとii)再配置パートナーゲノムフラグメントとを含む近接結合された生成物を識別することを含む。
i)該関心のあるゲノム領域の切断部位-近位ゲノムフラグメントとii)再配置パートナーゲノムフラグメントとを含む近接結合された生成物を識別することを含む。
好ましくは、工程d.が、
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101)、ここで、各ゲノムフラグメントの該観察された近接性スコアが、該関心のあるゲノム領域に近接し且つ該ゲノムフラグメントに対応する1つの配列を含む少なくとも1つの配列決定リードのデータセットにおける存在を示す;
予想される近接性スコアを、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに割り当てること(102)、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値を含む;及び
該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成すること(103)、及び該ゲノムフラグメントを再配置パートナー候補として識別すること及び該ゲノムフラグメントを再配置パートナー候補として識別すること
を含む。工程d.からの好ましい特徴は、本明細書において更に記載されている。例えば、幾つかの実施態様において、該予想される近接性スコアを、該少なくとも1つのゲノムフラグメント割り当てること(102)が、
複数の関連する近接性スコアを、複数の関連するゲノムフラグメントの該観察された近接性スコアに基づいて決定すること(303)、ここで、該関連するゲノムフラグメントは、選択基準の1組に従って該少なくとも1つのゲノムフラグメントに関連する;及び
該少なくとも1つのゲノムフラグメントの該予想される近接性スコアを、該複数の関連する近接性スコアに基づいて決定すること(304)
を含む。好ましくは、ここで、該複数の関連する近接性スコアを決定すること(303)が、
該観察された近接性スコアの複数の順列を生成し(401)、それによって、該複数のゲノムフラグメントのそれぞれのゲノムフラグメントの対応する複数の順列化され観察された近接性スコアを識別すること、ここで、順列を生成することが、選択基準の該1組に従って、互いに関連しているランダムに選択されたゲノムフラグメントの該観察された近接性スコアをスワッピングすることを含む
を含む。好ましくは、ここで、該少なくとも1つのゲノムフラグメントの各関連する近接性スコアを決定すること(303)が更に、順列内の該少なくとも1つのゲノムフラグメントのゲノム近傍における該ゲノムフラグメントの該順列化され観察された近接性スコアを集約して(402)、各順列についての該ゲノムフラグメントの集約され順列化され観察された近接性スコアを得ることを更に含む。好ましくは、該方法が、該少なくとも1つのゲノムフラグメントの該ゲノム近傍における該ゲノムフラグメントの該観察された近接性スコアを集約して、該少なくとも1つのゲノムフラグメントの集約され観察された近接性スコアを得ること(101a)を更に含み、ここで、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているか否かの指標を生成すること(103)が、該少なくとも1つのゲノムフラグメントの該集約され観察された近接性スコアと該少なくとも1つのゲノムフラグメントの該予想される近接性スコアとに基づいて行われる。好ましくは、該方法が、各ゲノムフラグメントの該ゲノム近傍における該ゲノムフラグメントの該観察された近接性スコアを集約して(101a)、各ゲノムフラグメントの集約され観察された近接性スコアを得ることを更に含み、ここで、該順列が、各ゲノムフラグメントの該集約され観察された近接性スコアに基づいて生成され(401)、及びここで、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているか否かの該指標を生成すること(103)が、該少なくとも1つのゲノムフラグメントの該集約され観察された近接性スコア及び該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて行われる。好ましくは、該近接性スコアを集約すること(101a)、該予想される近接性スコアを割り当てること(102)、及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの該可能性の指標を生成すること(103)の工程が、複数の異なるスケール(501)について反復され(502)、ここで、各反復(101a’,102’,103’)において、該ゲノム近傍のサイズが該スケールに基づく。好ましくは、該少なくとも1つのゲノムフラグメントの該予想される近接性スコアを決定すること(304)が、該少なくとも1つのゲノムフラグメントの該複数の関連する近接性スコアを組み合わせて、例えば平均及び/又は標準偏差を決定することを含む。好ましくは、該観察された近接性スコアを、該複数のゲノムフラグメントそれぞれに割り当てること(101)が、
観察された近接頻度を、1つのゲノムの複数のゲノムフラグメントに割り当てること(201)、ここで、該観察された近接頻度は、該対応する1つのゲノムフラグメントの少なくとも1つのDNAリードの該データセットにおける存在を示す;及び、
各ゲノムフラグメントのゲノム近傍における該観察された近接頻度を組み合わせることによって、例えば該観察された近接頻度をビンニングによって、各観察された近接性スコアを計算すること(202)、好ましくは、ここで、該観察された近接頻度は、該ゲノムフラグメントに対応する該DNAリードが該データセット中に存在するか否かを示すバイナリ値、又は該データセット中の該ゲノムフラグメントに対応する複数のDNAリードの数を示す値を含む、
を含む。
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101)、ここで、各ゲノムフラグメントの該観察された近接性スコアが、該関心のあるゲノム領域に近接し且つ該ゲノムフラグメントに対応する1つの配列を含む少なくとも1つの配列決定リードのデータセットにおける存在を示す;
予想される近接性スコアを、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに割り当てること(102)、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値を含む;及び
該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成すること(103)、及び該ゲノムフラグメントを再配置パートナー候補として識別すること及び該ゲノムフラグメントを再配置パートナー候補として識別すること
を含む。工程d.からの好ましい特徴は、本明細書において更に記載されている。例えば、幾つかの実施態様において、該予想される近接性スコアを、該少なくとも1つのゲノムフラグメント割り当てること(102)が、
複数の関連する近接性スコアを、複数の関連するゲノムフラグメントの該観察された近接性スコアに基づいて決定すること(303)、ここで、該関連するゲノムフラグメントは、選択基準の1組に従って該少なくとも1つのゲノムフラグメントに関連する;及び
該少なくとも1つのゲノムフラグメントの該予想される近接性スコアを、該複数の関連する近接性スコアに基づいて決定すること(304)
を含む。好ましくは、ここで、該複数の関連する近接性スコアを決定すること(303)が、
該観察された近接性スコアの複数の順列を生成し(401)、それによって、該複数のゲノムフラグメントのそれぞれのゲノムフラグメントの対応する複数の順列化され観察された近接性スコアを識別すること、ここで、順列を生成することが、選択基準の該1組に従って、互いに関連しているランダムに選択されたゲノムフラグメントの該観察された近接性スコアをスワッピングすることを含む
を含む。好ましくは、ここで、該少なくとも1つのゲノムフラグメントの各関連する近接性スコアを決定すること(303)が更に、順列内の該少なくとも1つのゲノムフラグメントのゲノム近傍における該ゲノムフラグメントの該順列化され観察された近接性スコアを集約して(402)、各順列についての該ゲノムフラグメントの集約され順列化され観察された近接性スコアを得ることを更に含む。好ましくは、該方法が、該少なくとも1つのゲノムフラグメントの該ゲノム近傍における該ゲノムフラグメントの該観察された近接性スコアを集約して、該少なくとも1つのゲノムフラグメントの集約され観察された近接性スコアを得ること(101a)を更に含み、ここで、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているか否かの指標を生成すること(103)が、該少なくとも1つのゲノムフラグメントの該集約され観察された近接性スコアと該少なくとも1つのゲノムフラグメントの該予想される近接性スコアとに基づいて行われる。好ましくは、該方法が、各ゲノムフラグメントの該ゲノム近傍における該ゲノムフラグメントの該観察された近接性スコアを集約して(101a)、各ゲノムフラグメントの集約され観察された近接性スコアを得ることを更に含み、ここで、該順列が、各ゲノムフラグメントの該集約され観察された近接性スコアに基づいて生成され(401)、及びここで、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているか否かの該指標を生成すること(103)が、該少なくとも1つのゲノムフラグメントの該集約され観察された近接性スコア及び該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて行われる。好ましくは、該近接性スコアを集約すること(101a)、該予想される近接性スコアを割り当てること(102)、及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの該可能性の指標を生成すること(103)の工程が、複数の異なるスケール(501)について反復され(502)、ここで、各反復(101a’,102’,103’)において、該ゲノム近傍のサイズが該スケールに基づく。好ましくは、該少なくとも1つのゲノムフラグメントの該予想される近接性スコアを決定すること(304)が、該少なくとも1つのゲノムフラグメントの該複数の関連する近接性スコアを組み合わせて、例えば平均及び/又は標準偏差を決定することを含む。好ましくは、該観察された近接性スコアを、該複数のゲノムフラグメントそれぞれに割り当てること(101)が、
観察された近接頻度を、1つのゲノムの複数のゲノムフラグメントに割り当てること(201)、ここで、該観察された近接頻度は、該対応する1つのゲノムフラグメントの少なくとも1つのDNAリードの該データセットにおける存在を示す;及び、
各ゲノムフラグメントのゲノム近傍における該観察された近接頻度を組み合わせることによって、例えば該観察された近接頻度をビンニングによって、各観察された近接性スコアを計算すること(202)、好ましくは、ここで、該観察された近接頻度は、該ゲノムフラグメントに対応する該DNAリードが該データセット中に存在するか否かを示すバイナリ値、又は該データセット中の該ゲノムフラグメントに対応する複数のDNAリードの数を示す値を含む、
を含む。
幾つかの実施態様において、関心のあるゲノム領域内の位置に再配置パートナー候補を融合する染色体切断部位接合部の存在を確認する方法であって、
関心のあるゲノム領域を定義すること;
DNAを含むサンプルにおいて近接アッセイを実行して、複数の近接結合された生成物を生成すること;
該関心のあるゲノム領域の5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、該近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、該関心のあるゲノム領域の該5’末端に隣接する配列を含む該ゲノムフラグメントに近接する、
該近接結合された生成物を配列決定して、配列決定リードを生成すること、
該関心のあるゲノム領域の該5’末端に隣接する配列を含む該ゲノムフラグメントに近接する該ゲノムフラグメントの該配列を参照配列にマッピングすること;
該関心のあるゲノム領域の3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、該近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに近接する、
該近接結合された生成物を配列決定して、配列決定リードを生成すること、
該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに近接する該ゲノムフラグメントの該配列を参照配列にマッピングすること;
i)該関心のあるゲノム領域のうちの少なくとも一部と、ii)該関心のあるゲノム領域に近接するゲノムフラグメントとを含む近接結合産物を富化すること、
該近接結合された生成物を配列決定して、配列決定リードを生成すること、
該関心のあるゲノム領域に近接する該ゲノムフラグメントの該配列を参照配列にマッピングすること;
該関心のあるゲノム領域を有する該ゲノムフラグメント、又は該関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントの近接頻度に基づいて、少なくとも1つのゲノムフラグメントを再配置パートナー候補として識別すること(この工程の好ましい実施態様は、PLIERの実施態様として本明細書において更に記載されている);
該関心のあるゲノム領域の該5’末端に隣接する配列を含む該ゲノムフラグメントに隣接する該再配置パートナー候補のゲノムフラグメントと、該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに隣接する該再配置パートナー候補のゲノムフラグメントとが重なり合っているか又は線形に離れているかを判定すること、ここで、該再配置パートナー候補ゲノムフラグメントの線形に離れていることが、該関心のあるゲノム領域内の染色体切断部位接合部を示す、ここで、該再配置パートナー候補ゲノムフラグメントの線形に離れていることが、該関心のあるゲノム領域内の染色体切断部位接合部を示す;
染色体切断部位の該位置をマッピングすることであって、該マッピングすることが、I)該関心のあるゲノム領域のうちの少なくとも第1の部分と該再配置パートナーのゲノムフラグメントとを含む近接結合された生成物、及びII)該関心のあるゲノム領域のうちの少なくとも第2の部分と該再配置パートナーのゲノムフラグメントとを含む近接結合された生成物を検出することを含み、ここで、該I)及びII)からの該再配置パートナーゲノムフラグメントは線形に離れている、
を含む上記の方法。
関心のあるゲノム領域を定義すること;
DNAを含むサンプルにおいて近接アッセイを実行して、複数の近接結合された生成物を生成すること;
該関心のあるゲノム領域の5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、該近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、該関心のあるゲノム領域の該5’末端に隣接する配列を含む該ゲノムフラグメントに近接する、
該近接結合された生成物を配列決定して、配列決定リードを生成すること、
該関心のあるゲノム領域の該5’末端に隣接する配列を含む該ゲノムフラグメントに近接する該ゲノムフラグメントの該配列を参照配列にマッピングすること;
該関心のあるゲノム領域の3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、該近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに近接する、
該近接結合された生成物を配列決定して、配列決定リードを生成すること、
該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに近接する該ゲノムフラグメントの該配列を参照配列にマッピングすること;
i)該関心のあるゲノム領域のうちの少なくとも一部と、ii)該関心のあるゲノム領域に近接するゲノムフラグメントとを含む近接結合産物を富化すること、
該近接結合された生成物を配列決定して、配列決定リードを生成すること、
該関心のあるゲノム領域に近接する該ゲノムフラグメントの該配列を参照配列にマッピングすること;
該関心のあるゲノム領域を有する該ゲノムフラグメント、又は該関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントの近接頻度に基づいて、少なくとも1つのゲノムフラグメントを再配置パートナー候補として識別すること(この工程の好ましい実施態様は、PLIERの実施態様として本明細書において更に記載されている);
該関心のあるゲノム領域の該5’末端に隣接する配列を含む該ゲノムフラグメントに隣接する該再配置パートナー候補のゲノムフラグメントと、該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに隣接する該再配置パートナー候補のゲノムフラグメントとが重なり合っているか又は線形に離れているかを判定すること、ここで、該再配置パートナー候補ゲノムフラグメントの線形に離れていることが、該関心のあるゲノム領域内の染色体切断部位接合部を示す、ここで、該再配置パートナー候補ゲノムフラグメントの線形に離れていることが、該関心のあるゲノム領域内の染色体切断部位接合部を示す;
染色体切断部位の該位置をマッピングすることであって、該マッピングすることが、I)該関心のあるゲノム領域のうちの少なくとも第1の部分と該再配置パートナーのゲノムフラグメントとを含む近接結合された生成物、及びII)該関心のあるゲノム領域のうちの少なくとも第2の部分と該再配置パートナーのゲノムフラグメントとを含む近接結合された生成物を検出することを含み、ここで、該I)及びII)からの該再配置パートナーゲノムフラグメントは線形に離れている、
を含む上記の方法。
幾つかの実施態様において、関心のあるゲノム領域内の位置に再配置パートナーを融合する染色体切断部位を検出する為のコンピュータプログラム製品が提供され、該コンピュータプログラム製品がコンピュータ可読命令を含み、該コンピュータ可読命令が、プロセッサシステムによって実行される場合に、
配列決定リードの少なくともサブセットについての行列を生成すること、ここで、該配列決定リードが近接結合された生成物の配列に対応し、該製品が、該関心のあるゲノム領域からのゲノムフラグメント、又は関心のある該領域に隣接するゲノムフラグメントを含み、ここで、近接結合された生成物の少なくともサブセットが再配置パートナー候補のゲノムフラグメントを含み、ここで、該行列の一方の軸が、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表し、並びに他方の軸が、該再配置パートナー候補の配列位置を表し、ここで、該行列内の各要素が、該関心のあるゲノム領域のゲノムフラグメント又は該関心のある該領域に隣接するゲノムフラグメントと該再配置パートナーからのゲノムフラグメントとを含む同定された1つの近接結合された生成物の頻度を表すように、該行列が、該配列決定リードを該行列上に重畳することによって生成される、及び
該行列を検索して該ゲノムセグメントの近接頻度で該再配置パートナー候補から遷移することを示す、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表す軸上の該1以上の複数の座標を検出すること
を該プロセッサシステムに行わせる。
配列決定リードの少なくともサブセットについての行列を生成すること、ここで、該配列決定リードが近接結合された生成物の配列に対応し、該製品が、該関心のあるゲノム領域からのゲノムフラグメント、又は関心のある該領域に隣接するゲノムフラグメントを含み、ここで、近接結合された生成物の少なくともサブセットが再配置パートナー候補のゲノムフラグメントを含み、ここで、該行列の一方の軸が、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表し、並びに他方の軸が、該再配置パートナー候補の配列位置を表し、ここで、該行列内の各要素が、該関心のあるゲノム領域のゲノムフラグメント又は該関心のある該領域に隣接するゲノムフラグメントと該再配置パートナーからのゲノムフラグメントとを含む同定された1つの近接結合された生成物の頻度を表すように、該行列が、該配列決定リードを該行列上に重畳することによって生成される、及び
該行列を検索して該ゲノムセグメントの近接頻度で該再配置パートナー候補から遷移することを示す、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表す軸上の該1以上の複数の座標を検出すること
を該プロセッサシステムに行わせる。
幾つかの実施態様において、該プロセッサシステムが該行列を探索して、該行列のうちの少なくとも一部を4つの四分円へと分割し、隣接する複数の四分円間の頻度差が最大となり、且つ対向する四分円間の差が最小化されるところの該関心のあるゲノム領域に隣接する該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表す軸上の該1以上の座標を検出し、好ましくは、ここで、該プロセッサシステムが、
識別された4つの四分円を比較し、及び
2つの対向する四分円が最小の頻度差を示し且つ隣接する四分円が最大の頻度差を示す場合に、相互再配置をもたらすものとして該染色体切断部位を分類し、又は、1つの四分円が他の3つの四分円と比較して最大の頻度差を示す場合に、非相互再配置をもたらすものとして該染色体切断部位を分類する。
識別された4つの四分円を比較し、及び
2つの対向する四分円が最小の頻度差を示し且つ隣接する四分円が最大の頻度差を示す場合に、相互再配置をもたらすものとして該染色体切断部位を分類し、又は、1つの四分円が他の3つの四分円と比較して最大の頻度差を示す場合に、非相互再配置をもたらすものとして該染色体切断部位を分類する。
好ましくは、該コンピュータプログラム製品は、本明細書において開示されている方法のいずれかにおいて使用される。
染色体再配列をより正確に検出することができることは有利である。この懸念により良く対処する為に、関心のあるゲノム領域に関与する染色体再配置を検出する方法が提供される。この方法は、本明細書において「PLIER」(近接ライゲーションに基づく、再配置の識別:Proximity Ligation-based IdEntification of Rearrangements)とまた呼ばれ、該方法は、
近接アッセイ(例えば、核近接アッセイ)から得られた複数のDNAリードのデータセットを用意すること、ここで、該データセットは、該関心のあるゲノム領域に近接(例えば、核/線/染色体近接)するゲノムフラグメントを表す複数のDNAリードを含む;
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること、ここで、各ゲノムフラグメントの観察された近接性スコアは、該関心のあるゲノム領域に核近接し且つ該ゲノムフラグメントに対応する1つの配列を含む少なくとも1つのDNAリードのデータセット内の存在を示す;
予想される近接性スコアを、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて割り当てること、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値を含む;及び
該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成すること(103)
を含む。
近接アッセイ(例えば、核近接アッセイ)から得られた複数のDNAリードのデータセットを用意すること、ここで、該データセットは、該関心のあるゲノム領域に近接(例えば、核/線/染色体近接)するゲノムフラグメントを表す複数のDNAリードを含む;
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること、ここで、各ゲノムフラグメントの観察された近接性スコアは、該関心のあるゲノム領域に核近接し且つ該ゲノムフラグメントに対応する1つの配列を含む少なくとも1つのDNAリードのデータセット内の存在を示す;
予想される近接性スコアを、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて割り当てること、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値を含む;及び
該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成すること(103)
を含む。
この方法及び後述される好ましい実施態様は、本明細書において更に記載されているように、該関心のあるゲノム領域を有する該ゲノムフラグメント、又は該関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントの近接頻度に基づいて、少なくとも1つのゲノムフラグメントを再配置パートナー候補として識別する為に有用である。
該予想される近接性スコアは、再配置を識別する為に、該観察された近接性スコアを比較するのに特に適した比較材料を形成する。
該予想される近接性スコアを該少なくとも1つのゲノムフラグメントに割り当てることは、複数の関連する近接性スコアを、複数の関連するゲノムフラグメントの該観察された近接性スコアに基づいて決定することを含んでいてもよく、ここで、該関連するゲノムフラグメントは、選択基準の1組に従って、該少なくとも1つのゲノムフラグメントに関連し;そして、該少なくとも1つのゲノムフラグメントの該予想される近接性スコアを、該複数の関連する近接性スコアに基づいて決定する。これにより、コンテクスト特異的な予想された近接度スコアを可能にし、それは、染色体再配置の検出により適しうる。
該複数の関連する近接性スコアを決定することは、該観察された近接性スコアの複数の順列を生成することを含んでいてもよく、それによって、該複数のゲノムフラグメントのそれぞれのゲノムフラグメントの対応する複数の順列化され観察された近接性スコアを識別することを含んでいてもよく、ここで、順列を生成することが、選択基準の該1組に従って、互いに関連しているランダムに選択されたゲノムフラグメントの該観察された近接性スコアをスワッピングすることを含む。該順列を生成することが、該決定され予想される近接性スコアの改善された精度を提供しうる。
該少なくとも1つのゲノムフラグメントの各関連する近接性スコアを決定することが、順列内の該少なくとも1つのゲノムフラグメントのゲノム近傍における該ゲノムフラグメントの該順列化され観察された近接性スコアを集約することによって、該順列の該順列化され観察された近接性スコアを集約して、各順列についての該ゲノムフラグメントの集約され順列化され観察された近接性スコアを得ることを含みうる。このことは、外れ値を減らすことによって、該順列化された近接性スコアをより現実的なものにするのに役立つ。加えて又は代替的に、そのことは、或るゲノムの長さスケールで該予想される近接性スコアを決定することを可能にする。
該方法は、該少なくとも1つのゲノムフラグメントの該ゲノム近傍における該ゲノムフラグメントの該観察された近接性スコアを集約して、該少なくとも1つのゲノムフラグメントの集約され観察された近接性スコアを得ることを含み得、ここで、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているか否かの可能性の指標を生成することが、該少なくとも1つのゲノムフラグメントの該集約され観察された近接性スコアと該少なくとも1つのゲノムフラグメントの該予想される近接性スコアとに基づいておこなわれうる。このことは、検出の精度が向上することに役立ちうる。加えて又は代替的に、そのことは、特定のゲノム長スケールで該観察された近接性スコアを決定することを可能にし、それは、該順列化され観察された近接性スコアを集約する為に使用されるゲノムの長さスケールと同じでありうる。
代替的に、該方法は、各ゲノムフラグメントの該ゲノム近傍における該ゲノムフラグメントの該観察された近接性スコアを集約して、各ゲノムフラグメントの集約され観察された近接性スコアを得ることを含み得、ここで、該順列が、各ゲノムフラグメントの該集約され観察された近接性スコアに基づいて生成され、ここで、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているか否かの指標を生成することが、該少なくとも1つのゲノムフラグメントの該集約され観察された近接性スコア及び該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて行われる。このことは、検出の精度を改善する為の及び/又は或るゲノムの長さスケールでの観察された且つ順列化された近接性スコアを決定する為の別のアプローチである。
該観察された近接性スコア集約することが、長さスケールに従って行われてもよく、並びに該順列化され観察された近接性スコアを集約することが、該同じ長さスケールに従って行われてもよい。このことは、特定の長さスケールで再配置を示す有意性スコアを決定することを可能にする。
該近接性スコアを集約すること、該予想される近接性スコアを割り当てること、及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与している該可能性の指標を生成することの工程が、複数の異なるスケールについて反復されてもよく、ここで、各反復において、該ゲノム近傍のサイズが該スケールに基づく。このように、マルチスケールアプローチが、複数のスケールにまたがって染色体再配列を識別する為に提供されうる。
該少なくとも1つのゲノムフラグメントの該予想される近接性スコアを決定することは、前該少なくとも1つのゲノムフラグメントの該複数の関連する近接性スコアを組み合わせて、例えば、例えば平均及び/又は標準偏差を決定することを含みうる。このことは、再配置検出の為の信頼できる有意性スコアを提供することを可能にするところの、該予想される近接性スコアについての値を提供しうる。
該観察された近接性スコアを該複数のゲノムフラグメントのそれぞれのゲノムフラグメントに割り当てることが観察された近接頻度を1つのゲノムの複数のゲノムフラグメントに割り当てることを含んでいてもよく、ここで、該観察された近接頻度は、該対応する1つのゲノムフラグメントの少なくとも1つのDNAリードの該データセットにおける存在を示す;及び、各ゲノムフラグメントのゲノム近傍における該観察された近接頻度を組み合わせることによって、例えば該観察された近接頻度をビンニングによって、各観察された近接性スコアを計算することを含みうる。このことは、例えば、生の近接頻度データ、例えば生のライゲーション頻度データ、中のノイズを平均化することによって結果を改善することができる。
ゲノムフラグメントの該近接頻度は、該ゲノムフラグメントに対応する該DNAリードが該データセット中に存在するか否かを示すバイナリ値を含みうる。このことは、例えば独立にライゲーションされたフラグメントを可能にする。
ゲノムフラグメントの該近接頻度は、該データセット中の該ゲノムフラグメントに対応する複数のDNAリードの数を示す値を含みうる。このことは、例えば、アンターゲットアッセイ(untargeted assays)を使用することを可能にする。
該複数のDNAリードのデータセットを用意することが、参照ゲノム中の関心のあるゲノム領域を決定すること;近接アッセイを実行して、ライゲーションされた/連結されたフラグメント複数の近接フラグメント(近接結合された生成物としてまた言及される)を生成すること;該近接結合された生成物を配列決定すること;該配列決定され近接結合された生成物を参照ゲノムにマッピングすること;該関心のあるゲノム領域にマッピングされたゲノムフラグメントを含むところの該配列決定され近接結合された複数の生成物を選択すること;及び、該選択され配列決定されライゲーションされた複数の近接結合された生成物のうちの少なくとも1つの近接結合された生成において、該関心のあるゲノム領域にライゲーションされたゲノムフラグメントを検出することを含みうる。好ましくは、該複数のDNAリードのデータセットを用意することが、参照ゲノム中の関心のあるゲノム領域を決定すること;近接ライゲーションアッセイを実行して、ライゲーションされた複数の近接フラグメントを生成すること;該ライゲーションされた近接フラグメントを配列決定すること;該配列決定されライゲーションされた近接フラグメントを参照ゲノムにマッピングすること;該関心のあるゲノム領域にマッピングされたゲノムフラグメントを含むところの該配列決定されライゲーションされた複数の近接フラグメントを選択すること;及び、該選択され配列決定されライゲーションされた少なくとも1つの近接フラグメントにおいて、該関心のあるゲノム領域にライゲーションされたゲノムフラグメントを検出することを含みうる。これらは、該複数のDNAリードを提供する好適な方法である。本明細書において更に記載されているように、該近接アッセイは、該関心のあるゲノム領域の5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、並びに該関心のあるゲノム領域の3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化することを含みうる。
該ゲノムフラグメントに関連する該複数の関連するゲノムフラグメントを識別する為の選択基準の該1組が、下記のうちの少なくとも1つを含みうる:関連するゲノムフラグメント候補が、参照ゲノムにおいて、該関心のあるゲノム領域をまた有する同じ染色体にシスで局在化しているかどうか;該関連するゲノムフラグメント候補が、該参照ゲノムにおいて、該関心のあるゲノム領域をまた有する該同じ染色体の特定の部分にシスで局在化しているかどうか;及び、該関連するゲノムフラグメント候補が、該参照ゲノムにおいて、該関心のあるゲノム領域を有しない染色体にトランスに局在化しているかどうか。これらの基準は、該予想される近接性スコアの質を改善する為に役立ちうる。
該ゲノムフラグメントに関連する該複数の関連するゲノムフラグメントを識別する為の選択基準の該1組が、下記のうちの少なくとも1つを含みうる:該関連するゲノムフラグメント候補が、該関心のあるゲノム領域と同じ又は類似の三次元核コンパートメントのゲノム部分に局在化しているかどうか;該関連するゲノムフラグメント候補が、該関心のあるゲノム領域と同じ又は類似のエピジェネティッククロマチンプロファイルを有するところのゲノム部分に局在するかどうか;該関連するゲノムフラグメント候補が、該関心のあるゲノム領域と類似の転写活性を有するところのゲノム部分に局在するかどうか;該関連するゲノムフラグメント候補が、該関心のあるゲノム領域と類似の複製タイミングを有するところのゲノム部分に局在するかどうか;該関連するゲノムフラグメント候補が、該関心のあるゲノム領域として実験的に作成されたフラグメントの関連する密度を有するところのゲノム部分に局在化しているかどうか;及び、該関連するゲノムフラグメント候補が、該関心のあるゲノム領域として、マップ可能でないフラグメント又はフラグメント末端の関連する密度を有するところのゲノム部分に局在化しているかどうか。このことは、該予想される近接性スコアがよりコンテクストを考慮したものにする為に役立つ。これらの全ての例において、「同じ又は類似」は、所定のマッチング基準の1組、例えば、より似ていない状況に対してより大きく、より似ている状況に対してより小さい(ゼロに近い)「コスト関数」又は「エラー関数」、に基づいて評価されうる。
該複数の関連するゲノムフラグメントを識別する為の選択基準の該1組が、該関連するゲノムフラグメント候補の該近接性スコアが複数のDNAリードのゼロでない数を示す値を有するという要件を含む。このことは、再配置を示す有意性スコアの品質を改善しうる。
該少なくとも1つのゲノムフラグメントが染色体再配置に関連しているところの該可能性の指標を生成することが、該関連するゲノムフラグメント候補の該近接性スコアが複数のDNAリードのゼロでない数を示す値を有するという要件を除く選択基準の1組を使用して、該少なくとも1つのゲノムフラグメントが染色体再配置に関連しているところの該可能性の第1の指標を生成すること;該関連するゲノムフラグメント候補の該近接性スコアが複数のDNAリードのゼロでない数を示す値を有するという要件を含む選択基準の該1組を使用して、該少なくとも1つのゲノムフラグメントが染色体再配置に関連しているところの該可能性の第2の指標を生成すること;及び、該第1の指標及び該第2の指標に基づいて、該少なくとも1つのゲノムフラグメントが染色体再配列に関連しているところの可能性の第3の指標を生成することを含みうる。この組み合わせは、提案された方法のいずれか1つを単独で実行する場合と比較して、より信頼性の高い可能性を導出することを可能にしうる。
本発明の他の観点に従うと、コンピュータプログラム製品が提供され、該コンピュータプログラム製品は、無形のコンピュータ可読媒体に格納されていてもよい。該コンピュータプログラムは、プロセッサシステムによって実行される場合に、
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること、ここで、1つのゲノムフラグメントの該観察された近接性スコアが、該ゲノムフラグメントに対応する少なくとも1つのDNAリードの該データセットにおける存在を示し、該データセットが、近接アッセイ(例えば、核近接アッセイ)から得られる複数のDNAリードを含み、該複数のDNAリードが、関心のあるゲノム領域に核近接する(例えば、核/線形/染色体近接)ゲノムフラグメントを表す;
予想される近接性スコアを、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて割り当てること、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値である;及び
該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成すること
をプロセッサシステムに行わせるコンピュータ可読命令を含む。
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること、ここで、1つのゲノムフラグメントの該観察された近接性スコアが、該ゲノムフラグメントに対応する少なくとも1つのDNAリードの該データセットにおける存在を示し、該データセットが、近接アッセイ(例えば、核近接アッセイ)から得られる複数のDNAリードを含み、該複数のDNAリードが、関心のあるゲノム領域に核近接する(例えば、核/線形/染色体近接)ゲノムフラグメントを表す;
予想される近接性スコアを、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて割り当てること、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値である;及び
該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成すること
をプロセッサシステムに行わせるコンピュータ可読命令を含む。
該方法及びコンピュータプログラムは、本明細書に記載されているように、再配置パートナー候補を識別する為に染色体切断部位接合部の存在を確認する為の方法において好ましくは適用される。
当業者は、上述された特徴が、有用と考えられる任意の方法において組み合わせられうることができることを理解するであろう。その上、該方法に関して記載された修正及び変形は、同様に、装置又はコンピュータプログラム製品に適用されうる。
以下において、本発明の観点が、図面を参照しながら実施例によって解明されるであろう。該図面は、図式的なものであり、縮尺通りに描かれていない場合がある。図面全体を通じて、同じ参照数字が同様の参照項目に付されている場合がある。
或る例示的な実施態様が、添付の図面を参照しながら、以下においてより詳細に記載されるであろう。本明細書及び図面に開示された事項、例えば詳細な構造及び要素、は、例示的な実施態様の包括的な理解を支援する為に提供される。従って、例示的な実施形態は、それらの具体的に定義された事項無しに実施されることができることは明らかである。また、周知の動作又は構造は、不必要な詳細で説明を曖昧にする故に詳細には記載されていない。
定義
以下の記載及び実施例において、多くの用語が使用されている。そのような用語によって与えられる範囲を包含する、本明細書及び請求項の明確且つ一貫した理解を提供する為に、下記の定義が提供される。本明細書において特に定義されない限り、使用される全ての技術用語及び科学用語は、本発明が属する技術分野における通常の当業者によって一般的に理解されるのと同じ意味を有する。本明細書において言及された全ての刊行物、特許出願、特許及び他の参考文献の開示は、参照することによってその全体が本明細書内に組み込まれる。
本発明の方法において使用されうる慣用的な技術を実行する方法は、当業者には明らかであろう。分子生物学、生化学、計算化学、細胞培養、組み換えDNA、バイオインフォマティクス、ゲノミクス、配列決定及び関連分野における慣用的な技術の実施は、当業者に周知であり、例えば、下記の文献参照において説明されている:Sambrook et al.,Molecular Cloning. A Laboratory Manual,2nd Edition,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N. Y.,1989;Ausubel et al.,Current Protocols in Molecular Biology,John Wiley & Sons,New York,1987 and periodic updates;and the series Methods in Enzymology,Academic Press,San Diego。
本明細書で使用される場合、単数形「1つ」(“a”)、「1つ」(“an”)及び「該」(the)は、コンテクストが明らかにそうでないことを指示しない限り、複数の参照語を包含する。例えば、上記で使用されている「1つの」(“a”)DNA分子を単離する方法は、複数の分子(例えば、10の、100の、1000の、10000の、100000の、数百万の、又はそれ以上の分子)を単離することを包含する。
本明細書において使用される場合に、表現「関心のあるゲノム領域」は、有機体の染色体のうち、(少なくともその一部)その構造的完全性を評価することが望ましいDNA配列を意味する。例えば、疾病に関連付けられた転座が疑われるゲノム領域を関心のあるゲノム領域として定義されることができる。関心のあるゲノム領域は、単一のDNAフラグメント、遺伝子、遺伝子を含むゲノム遺伝子座、染色体の一部等である場合がある。
幾つかの実施態様において、該関心のあるゲノム領域は、「トポロジー的に関連するドメイン」(TAD:Topologically associating domain)に相当する。TADは、DNA-DNA相互作用頻度によって定義され、並びにそれらの境界は、相対的に少数のDNA-DNA相互作用が生じる領域を横切る。TADは平均0.8Mbで、幾つかのタンパク質をコードする遺伝子を含みうる。TADの境界は一般的に、生物の異なる細胞タイプによって共有され、インシュレーター結合タンパク質CTCFに富む。TAD内の遺伝子の発現はある程度相関があり、従って、あるTADは活性遺伝子を有する傾向があり、並びに他のTADは抑制された遺伝子を有する傾向がある(例えば、Dixon et al.Nature.2012 May 17;485(7398):376~380を参照)。
本明細書において使用される場合に、語「遺伝子」は、オープンリーディングフレームと、このオープンリーディングフレームに関連付けられた全ての遺伝的要素を云う。これらの遺伝的要素は、イントロン、エクソン、開始コドン、停止コドン、5'非翻訳領域、3'非翻訳領域、ターミネーター、エンハンサー部位、サイレンサー部位、プロモータ、代替プロモータ、TATAボックス及び/又はCAATボックスを包含しうる。原核生物のコンテクストにおいて、「遺伝子」はまたオペロンを云う場合もあり、並びに複数のオープンリーディングフレームを含む場合もある。幾つかの実施態様において、該関心のあるゲノム領域は、5'非翻訳領域(5’UTR:5’untranslated region)で始まり且つ3’UTRで終わる遺伝子の配列を云う。オープンリーディングフレーム並びに上記で言及された遺伝的要素を予測する為の方法が、当業者に周知である。これらの方法は、構造アノテーション(structural annotation)としてまた呼ばれ、Ejigu and Jung(Biology 2020,9(9),295;https://doi.org/10.3390/biology9090295)においてレビューされた多数の異なるデータベース及びコンピュータアルゴリズムを利用しうる。
本明細書において使用される場合に、表現「オープンリーディングフレーム」は、開始コドンと停止コドンとの間の遺伝的要素及びそれらを含む遺伝的要素を云う。
本明細書において使用される場合に、表現「切断部位クラスター領域」(breakpoint cluster region)はまた、「切断部位をクラスター化する領域」(breakpoint clustering region)として云われ、そこから染色体再配列がかなりの数の患者、有機体又は検体において生じること又は生じたことが当業者によって知られているオープンリーディングフレーム又は遺伝子の部分配列(subsequence)を云う。当業者に知られているように、幾つかのゲノム領域は、メジャーな切断部位クラスター領域と、マイナーな切断部位クラスター領域として更に定義され得る幾つかの切断部位クラスター領域とを含む。
本明細書において使用される場合に、語「(1以上の)対立遺伝子」は、特定の遺伝子座での1つの遺伝子の1以上の代替型のうちのいずれかを意味する。有機体の二倍体細胞において、所与の遺伝子の対立遺伝子は、染色体上の特定の位置、すなわち遺伝子座(locus)(複数形はlocusである)、に位置している。1つの対立遺伝子が、一対の相同染色体のうちの各染色体上に存在する。従って、2倍体の細胞において、2つの対立遺伝子、従って、関心のある2つの別々の(異なる)ゲノム領域が存在しうる。
本明細書において使用される場合に、表現「核酸」は、ピリミジン塩基及びプリン塩基、好ましくはシトシン、チミン及びウラシル、並びにアデニン及びグアニンのそれぞれの任意のポリマー又はオリゴマーを云いうる(Albert L.Lehninger,Principles of Biochemistry,at 793-800,Worth Pub.1982を参照)。本発明は、任意のデオキシリボヌクレオチド、リボヌクレオチド又はペプチド核酸成分、及びこれらの塩基の任意の化学変異体、例えばメチル化された形態、ヒドロキシメチル化された形態又はグリコシル化された形態等、を企図する。ポリマー又はオリゴマーは、組成において不均一であっても又は均質であってもよく、並びに天然に生じる供給源から単離されてもよく、又は人工的に若しくは合成的に製造されてもよい。加えて、核酸は、DNA若しくはRNAであってもよく、又はそれらの混合物であってもよく、並びに一本鎖又は二本鎖の形態、例えばホモ二本鎖、ヘテロ二本鎖及びハイブリッド状態を包含する上記の一本鎖又は二本鎖の形態、で永久的に又は過渡的に存在しうる。
本明細書において使用される場合に、表現「サンプルDNA」は、有機体から、又は有機体の組織から、又は組織及び/又は細胞培養から得られたサンプルであって、ゲノムDNAを含む該サンプルを云う。ゲノムDNAは、有機体の1つの世代から次の世代へと受け継がれる遺伝の生物学的情報である有機体のゲノムをコードする。有機体からのサンプルDNAは、あらゆる種類の有機体、例えば、微生物、ウイルス、植物、真菌、動物、ヒト及び細菌、又はそれらの組み合わせ、から得られうる。例えば、細菌及び/又はウイルス感染が疑われるヒト患者からの組織サンプルは、ヒトの細胞だけでなく、ウイルス及び/又は細菌をまた含みうる。該サンプルは、細胞及び/又は細胞核を含みうる。サンプルDNAは、特定の疾患、例えば癌、又は有機体のDNAを調査することを保証する何らかの他の状態、を有する危険性がありうるか、又はその疑いがある患者又は対象からのものでありうる。
本明細書において使用される場合に、表現「架橋化」は、DNAを2つの異なる位置で反応させて、これらの2つの異なる位置が複数のDNA鎖間の共有結合として互いに接続することを云う。2本のDNA鎖が、紫外線照射を使用して直接的に架橋され、DNA鎖間に直接的に共有結合を形成してもよい。異なる2つの位置の間の接続は、剤、例えば架橋分子、を介した間接的なものであってもよい。第1のDNA部分は、2つの反応性基を含む架橋分子の第1の反応性基と共有的に結合されてもよく、その架橋分子の第2の反応性基は第2のDNA部分と共有結合し、それによって第1のDNA部分及び第2のDNA部分が架橋分子を介して間接的に架橋化されうる。架橋がまた、2本のDNA鎖の間に、2つ以上の分子を介して間接的に形成されうる。例えば、使用されうる典型的な架橋分子は、ホルムアルデヒドである。ホルムアルデヒドは、タンパク質-タンパク質及びDNA-タンパク質の共有結合による架橋を誘発する。従って、ホルムアルデヒドは、関連付けられたタンパク質を介して、異なるDNA鎖を互いに架橋しうる。例えば、ホルムアルデヒドは、タンパク質及びDNAと反応し、架橋分子を介してタンパク質とDNAとを共有結合させることができる。従って、2つのDNAセクションをホルムアルデヒドを用いて架橋し、第1のDNAセクションとタンパク質との間の接続を形成し、並びに、タンパク質は第2のDNAセクションに接続する別のホルムアルデヒド分子と第2の接続を形成し、従って、DNA1-架橋-タンパク質-架橋-DNA2として描かれうる架橋を形成しうる。いずれの場合であっても、本発明に従う架橋化は、互いに物理的に近接するDNAの鎖の間に共有結合(直接的又は間接的に)を形成することを含みうることが理解される。DNA鎖は、DNAが高度に組織化されているように、細胞内で互いに物理的に近接していてもよく、一方、配列の観点から例えば100kbで分離される場合がある。架橋化方法は、その後の断片化工程及びライゲーション工程と互換性がある限り、そのような架橋化が企図されうる。
本明細書において使用される場合に、表現「架橋化されたDNAのサンプル」は、架橋化に付されているサンプルDNAを云う。該サンプルDNAを架橋することは、サンプル内のゲノムDNAの三次元状態がほぼ無傷のままであるという効果を有する。このようにして、互いに物理的に近接したDNA鎖は、互いに近接した状態を維持する。「架橋化されたDNAのサンプル」は、ホルマリン固定及びパラフィン包埋されていてもよい:それは、ホルマリン固定パラフィン包埋(FFPE:formalin fixed paraffin embedded)材料として保存され及び保管されている組織又は腫瘍切片又は生検でありうる。「架橋化されたDNAのサンプル」は、病理学的研究の為に日常的に採取されるFFPEサンプル又は腫瘍サンプルでありうる。「架橋DNAサンプル」は、架橋された再構成クロマチンであってもよく、ここで、細胞(例えば、組織サンプル又はDNAサンプル)から分離されたゲノムDNAは、架橋を促進するタンパク質又は分子によってクロマチン再構成又はその他のパッケージング又はコーティングに付され、引き続き、架橋化が行われる。架橋化されたDNAのサンプルは、ゲノムDNAを含む。該サンプルは、細胞又は組織サンプルに由来しうる。幾つかの実施態様において、該架橋化されたDNAは、細胞、組織、又は核のサンプルからの架橋化されたクロマチンからのものである。好ましい実施態様において、該サンプルは、ヒト患者からのものであるが、他の有機体からのDNAがまた使用されうる。
本明細書において使用される場合に、表現「逆架橋化」は、架橋化されたDNAがもはや架橋化されないように並びに後続の工程、例えばライゲーション、増幅及び/又は配列決定工程、に適しているように架橋を壊すことを含む。例えば、プロテアーゼK処理を、ホルムアルデヒドで架橋されているサンプルDNAに行うことは、該サンプル中に存在するタンパク質を消化するだろう。該架橋化されたDNAはタンパク質を介して間接的に結合されている為に、プロテアーゼ処置それ自体がDNA間の架橋を逆転しうる。DNAに結合したままのタンパク質フラグメントは、その後の配列決定や増幅に支障をきたしうる。従って、DNAとタンパク質中のアミノ酸との結合を逆転させることがまた、「逆架橋化」を生じうる。DNA-架橋-タンパク質の結合は、例えば70℃でのインキュベーションによる加熱工程を通じて逆転されうる。架橋化されたDNA中には大量のタンパク質が存在する可能性ある故に、タンパク質はプロテアーゼでさらに消化することが望ましい場合が多い。従って、架橋されたサンプル中でつながっているDNA鎖がもはやつながっておらず、配列決定及び/又は増幅の為に適した状態になるような何らかの「逆架橋化」方法が企図されうる。
本明細書において使用される場合に、表現「DNAを断片化する」は、DNA(架橋化されたDNA又は架橋化されたDNAでなくてもよい)に施与される場合に、DNA「フラグメント」を生じる任意の技術を云う。DNAを断片化する為に周知の技術は、超音波処理、せん断及び/又は酵素的制限であるが、他の技術がまた想定されることができる。
本明細書において使用される場合に、表現「制限エンドヌクレアーゼ」(restrictionendonuclease)又は「制限酵素」(restriction enzyme)は、二本鎖DNA分子中の特異的ヌクレオチド配列(認識部位)を認識する酵素であってもよく、並びに、すべての認識部位又はその付近でDNA分子の両鎖を切断し、鈍端(blunt)又3'-若しくは5'-オーバーハング端を残す。認識される特異的ヌクレオチド配列が切断の頻度を決定し得、例えば、6ヌクレオチドのヌクレオチド配列は平均で4096ヌクレオチドごとに生じ、一方、4ヌクレオチドのヌクレオチド配列は平均で256ヌクレオチドごとに遙かに頻繁に生じる。
本明細書において使用される場合に、表現「ライゲーション」は、別個のDNAフラグメントの結合を包含する。DNAフラグメントは、平滑末端化されていてもよく、又は突出部が互いにハイブリダイズすることができるように、一致する突出部(粘着性突出部)を有していてもよい。DNAフラグメントのライゲーションは、リガーゼ酵素(すなわち、DNAリガーゼ)による酵素的でありうる。しかしながら、DNAフラグメントが結合している限り、すなわち共有結合を形成している限り、非酵素的ライゲーションがまた使用されうる。典型的には、別個の鎖のヒドロキシル基とリン酸基との間のホスホジエステル結合が形成される。
本明細書において使用される場合に、表現「オリゴヌクレオチドプライマー」又は「プライマー」は一般的に、DNAの合成を促進することができるヌクレオチドの鎖を云う。DNAポリメラーゼは、プライマーなしではDNAをデノボ(de novo)に合成することができない。プライマーはDNAとハイブリダイズする、すなわち塩基対が形成される。塩基対を形成することができるヌクレオチドは、互いに相補的であり、例えば、シトシンとグアニン、チミンとアデニン、アデニンとウラシル、グアニンとウラシルである。プライマーと既存のDNA鎖との相補性は100%である必要はなく、すなわち、プライマーの全ての塩基が既存のDNA鎖と塩基対である必要はない。既存のDNA鎖とハイブリダイズしたプライマーの3'末端から、ヌクレオチドが、既存のDNA鎖を鋳型として用いて取り込まれる(鋳型指向性DNA合成)。本発明者等は、増幅反応において用いられる合成オリゴヌクレオチド分子を「プライマー」と云う場合がある。
本明細書において使用される場合に、表現「オリゴヌクレオチドプローブ」又は「プローブ」は一般的に、(修飾された)RNA及び/又は(修飾された)DNAヌクレオチドの鎖を云い、それらは相補的であり、並びに例えば、捕捉-C、プロモータ-捕捉C、標的化されたクロマチン捕捉(T2C:Targeted Chromatin Capture)、Tiled-C及びプロモータ-捕捉Hi-C法においてなされているように、ハイブリダイズし、プルダウンし、そして、関心のあるゲノム領域の配列に対して核内で近接していたフラグメントライゲーションされた/連結された関心のあるゲノム領域の配列を抽出することができる(Hughes et al.,2014;Kolovos et al.,2014;Cairns et al.,2016;Martin et al.,2015;Javierre et al.,2016;Dao et al.,2017;Choy et al.,2018;Mifsud et al.,2015;Montefiori et al.,2018;Jager et al.,2015;Orlando et al.,2018;Chesi et al.,2019;Oudelaar et al.,2019)。修飾プローブとしては、例えば、xGen Lockdown Probes(5′-ビオチン化オリゴ)などが挙げられる。
本明細書において使用される場合に、語「ハイブリダイゼーション」は、塩基対形成を通じての2つの核酸鎖の結合を云う。核酸配列、例えばプローブ及びプライマーからの核酸配列、は好ましくは、それらの標的配列と少なくとも90、95又は100%同一である連続配列(例えば、15~100bp)を有する。当業者に知られているように、選択的又は特異的なハイブリダイゼーションが例えば、塩及び温度条件に依存する。好ましくは、プローブ又はプライマーがその標的配列にのみ結合するようなストリンジェントハイブリダイゼーション条件が使用される。
本明細書において使用される場合に、表現「プライマーベースの増幅」は、ポリヌクレオチド増幅反応、すなわち、1つ以上の出発配列、すなわちプライマー、から複製されるポリヌクレオチドの集団を云う。適切なプライマーは、例えば、15~30ヌクレオチドの配列長を有しうる。増幅が、様々な増幅反応、例えば、ポリメラーゼ連鎖反応(PCR:polymerase chain reaction)、線状ポリメラーゼ反応、核酸配列に基づく増幅、ローリングサークル増幅、等温増幅等を包含する上記の様々な増幅反応、を包含するがこれらに限定されない増幅反応を云いうる。好適なプライマーベースの増幅方法は更に、領域特異的抽出(RSE:Region-Specific Extraction(Dapprich et al.BMC Genomics.2016;17:486)、分子反転プローブ循環化(Porreca et al.at Methods 2007 Nov;4(11):931~6.)、及びループ仲介等温増幅(LAMP:loop mediated isothermal amplification)(例えば、Notomi et al.Nucleic Acids Res 2000 Jun 15;28(12):E63を参照)を包含する。
本明細書において使用される場合に、表現「配列決定」は、核酸サンプル、例えばDNA又はRNAにおけるヌクレオチド(塩基配列)の順序を決定することを云う。多くの技術、例えば、サンガー(Sanger)配列決定、及び当技術分野で次世代シーケンサーとまた呼ばれる「ハイスループット配列決定」技術、例えば、Roche、Illumina及びApplied Biosystemsによって提供されている該技術、又はDavid J Munroe & Timothy J R Harris in Nature Biotechnology 28,426~428(2010)によって記載され並びに例えば、Pacific Biosciences and Oxford Nanopore Technologiesによって提供されているような当技術分野において第3世代配列決定とまた呼ばれている技術がまた使用されうる。そのような技術は、1回の実行で1つのサンプルDNAから複数の配列リードを可能にする。例えば、高スループットシーケンス技術(high throughput sequence technology)の1回の実行における配列決定リードの数は、数百から数十億のリードの範囲でありうる。高スループットシーケンス技術は、製造者の説明書(例えば、Roche、Illumina又はApplied Biosystemsによって提供されてきたような製造者の説明書)に従って実行されうる。ロングリード(long-read)及びショートリード(short-read)の両方の配列決定方法が、本明細書において企図されている。本技術は、配列決定ランを実行実施する前に、DNAの調製を含みうる。そのような調製は、DNAへのアダプターのライゲーションを含みうる。アダプターは、複数のサンプル間を区別する為の識別子配列を含みうる。使用される高スループットシーケンス技術に適する又は適合するDNAのサイズに応じて、配列決定されるべきDNAは断片化工程に付されうる。「アダプター」は、限られた数の塩基対、例えば約10~約30塩基対の長さ、の短い二本鎖オリゴヌクレオチド分子であり、それらがフラグメントの末端にライゲーションできるように設計されている。アダプターは一般的に、互いに部分的に相補的なヌクレオチド配列を有する2つの合成オリゴヌクレオチドで構成されている。そのようなアダプターは、PCRに基づく富化戦略(enrichment strategies)及び/又は近接ライゲーションされた分子の配列決定と組み合わせて使用されうる。
本明細書において使用される場合に、表現「配列決定リード」(sequencing reads)は、核酸シーケンサ、例えば、超並列アレイシーケンサー(例えば、カリフォルニアのIllumina又はPacific Biosciences)、によって配列決定される(「リードされる」)DNAの断片(piece)を云う。該配列決定リードは、ゲノムフラグメント又は近接ライゲーション分子の一部を含んでいてもよい。配列決定リードは、参照配列にマッピングされ、及び/又は例えばアライメントを通じてイン・シリコ(in silico)で結合され、連続した配列を得てもよい。幾つかの実施態様において、本方法は、少なくとも1,000、少なくとも5,000、又は少なくとも10,000の配列決定リードを生成する。配列決定リードの数は、該関心のあるゲノム領域の5'末端に隣接する配列を含む近接ライゲーションされた分子に対応する配列決定リードの数;該関心のあるゲノム領域の3’末端に隣接する配列を含む近接ライゲーションされた分子に対応する配列決定リードの数;又は、該関心のあるゲノム領域の5'末端及び3'末端に隣接する配列を含む両方の近接ライゲーションされた分子に対応する配列決定リードの数を云う。配列決定リードの数はまた、該関心のあるゲノム領域のフラグメントからなる近接ライゲーションされた分子を云いうる。当業者には明らであるように、そのような広範な配列決定リードのマッピングには、当技術分野において知られているコンピュータプログラムの使用を必要とする。
本明細書において使用される場合に、語「整列する」(aligning)及び「整列」(alignment)は、同一又は類似のヌクレオチドの短い又は長いストレッチの存在に基づいて、2以上のヌクレオチド配列を比較することを意味する。整列の為の方法及びコンピュータプログラムは、当該技術分野において周知である。整列の為に使用され又は適応されうる1つのコンピュータプログラムは、Genentech,Inc.社によって著作された「アライン2」(Align 2)であり、それは、1991年12月10日にワシントンD.C.20559の米国著作権局にユーザ文書とともに提出された。
本明細書において使用される場合に、表現「参照ゲノム」(参照アセンブリとしてまた知られる)は、ある種の遺伝子セットの代表例として、例えば科学者によって、組み立てられたデジタル核酸配列データベースを云う。参照ゲノムは、多数のドナーからのDNA配列決定からしばしば構築されるので、任意の一人の人間の遺伝子セットを正確に表すことはない。その代わり、参照ゲノムは各ドナーからの異なるDNA配列のハプロイドモザイク(haploid mosaic)を提供する。例えば、GRCh37、すなわちGenome Reference Consortium human genome(build 37)は、ニューヨーク州バッファローからの13人の匿名ボランティアから得られたものである。参照ゲノムの他の例は、GRCh19及びCRCh38を包含する。当業者によって理解されるであろう通り、参照配列がまた、本明細書において記載された方法において使用されうる。好適な参照配列は、参照ゲノム、並びに参照ゲノムからの配列の1つのサブセットを包含する。
本明細書において使用される場合に、表現「独立してライゲーションされたDNAフラグメント」は、所定の細胞の所定の対立遺伝子の該関心のあるゲノム領域に由来するフラグメントにライゲーションされたDNAフラグメントを云う。近接ライゲーションアッセイにおいて、独立してライゲーションされたフラグメントは、配列決定前にPCR増幅されていてもよく、それ故に、複数回配列決定される場合がある。また、幾つかの近接ライゲーション方法において、架橋化(任意)、断片化、そしてライゲーション後に得られた近接ライゲーション産物は、例えば、効率的なPCR増幅、オリゴヌクレオチドベイト捕捉プルダウン(oligonucleotide bait capture pulldown)及び/又は配列決定の目的の為に、更に断片化されていてもよく、その場合に、同じ独立してライゲーションされたフラグメントの異なる部分が配列決定されうる。独立してライゲーションされたフラグメントが配列決定データセットに対して複数のリードを寄与するような全ての例において、独立してライゲーションされたフラグメントのコレクションを最適に表すデータセットを生成する為にフィルタリングが実行されうる。
本明細書において使用される場合に、表現「染色体再配置」(chromosomal rearrangements)又は「構造的変異」(structural variation)は、染色体欠失(chromosomal deletions)、染色体逆位(chromosomal inversions)、染色体重複(chromosomal duplications)、染色体転座(chromosomal translocations)を含む、遺伝性及び体細胞遺伝性異常の1組を云う。ここで、染色体欠失及び染色体逆位は同一染色体内で(シスで)生じ、染色体重複は同じ染色体内で(シスで)、又は2以上の異なる染色体間で(トランスで)生じ、若しくは遺伝子座の染色体外コピーを生じ、ここで、転座は異なる2つの染色体間で(トランスで)生じる。染色体再配置はまた、外来DNAの挿入に起因する再配置、例えば、トランス遺伝子及びトランスポゾン、を包含する。幾つかの実施態様において、該再配置パートナーは外来DNAである。
本明細書において使用される場合に、表現「相互再配置」(reciprocal rearrangement)は、非相同染色体の一部の交換であってもよく、ここで、遺伝的要素は失われず、且つ一方の染色体の遺伝的要素が第2染色体に融合して終わり、一方、該第2染色体の遺伝的要素が第1染色体に融合して終わり、転座に関与する各染色体が転座事象ごとに1つの切断点を有することを云う場合がある。相互転座」とは、非相同染色体の一部が交換された結果生じる生成物を云う場合もあり、この場合、遺伝的要素は失われず、一方の染色体の遺伝的要素が第2染色体に融合され、一方で、第2染色体の遺伝的要素が第1染色体に融合され、該再配置に関与する各染色体が再配置事象ごとに少なくとも1つの切断部位を有する。相互再配置は、自然又は人工的なプロセスの結果である場合があり、並びに行列で識別されることができる。該行列の要素は、該関心のあるゲノム領域とその再配置パートナーにおけるゲノムセグメントの近接頻度を表す。
本明細書において使用される場合に、表現「非相互再配置」(non-reciprocal rearrangement)は、ある染色体から別の非相同染色体への遺伝要素の移動を云い、第2染色体からの遺伝的要素が第1染色体に移動することはない。代替的に、「非相互再配置」は、ある染色体から別の非相同染色体への遺伝要素の移転の結果としての生成物を云う場合があり、この場合、第2の染色体からの遺伝要素は第1の染色体に移転しない。「非相互再配置」は、外来DNAの挿入を云う場合がある。非相互再配置は、自然又は人工的なプロセスの結果である場合があり、並びに行列で識別されることができる。該行列の要素は、該関心のあるゲノム領域及びその再配置パートナーにおけるゲノムセグメントの近接頻度を表す。
本明細書において使用される場合に、表現「シス染色体」は、参照ゲノムに従うと、該関心のあるゲノム領域を含む染色体を云う。典型的に、近接ライゲーション技術において、独立してライゲーションされたフラグメントは、シス染色体に由来する可能性が最も高い。次に、シス染色体に由来する独立してライゲーションされたフラグメントは、該関心のあるゲノム領域からより大きな距離に位置する配列よりも、該関心のあるゲノム領域に直線的に近接して位置する配列である可能性がより高い。
本明細書において使用される場合に、表現「トランス-染色体」は、関心のある有機体においてシス染色体でない任意の染色体を云う。
本明細書において使用される場合に、語「シス-相互作用」は、シス染色体に由来する遺伝要素が標的要素に対して物理的に近接していることを云う。本明細書において使用される場合に、語「トランス-相互作用」は、トランス-染色体に由来する遺伝要素が標的要素に対して物理的に近接していることを云う。
本明細書において使用される場合に、表現 DNAフラグメントの「ライゲーション頻度」(ligation frequency)、DNAフラグメントの「連結頻度」(linkage frequency)、DNAフラグメントの「相互作用頻度」(interaction frequency)及びDNAフラグメントの「近接頻度」(proximity frequency)は、そのDNAフラグメント及び関心のあるゲノム領域のライゲーションされた/連結されたフラグメントの数、又は代替的に、そのDNAフラグメント及び関心のあるゲノム領域の独立してライゲーションされた/連結されたフラグメントの数を云う場合がある。ライゲーション頻度」、「連結」、「相互作用頻度」及び「近接頻度」は、DNAの実用的又は理論的な制限消化に由来する所定のDNAセグメントとのDNAフラグメントのシス-及び/又はトランス-相互作用の数を云う場合があり、又は代替的には、DNAの実用的又は理論的な制限消化に由来する所定のDNAセグメントとのDNAフラグメントのシス-及び/又はトランス-相互作用の数の指標である数値を云う場合がある。また、所定のゲノム区間内で、DNAの実際的又は理論的な制限消化に由来するセグメントのうち、少なくともライゲーション産物によって覆われているセグメントの数、又は所定のゲノム区間内で、DNAの実際的又は理論的な制限消化に由来するセグメントのうち、少なくとも連結された産物によって覆われているセグメントの数を示す値を云う場合がある。典型的に、近接結合/ライゲーション技術において、シス-相互作用による相互作用頻度は、トランス-相互作用による相互作用頻度よりも高い。ライゲーション頻度」、「連結頻度」、「相互作用頻度」、及び「近接頻度」は、ライゲーション/連結されたフラグメントの数又は独立してライゲーション/連結されたフラグメントの数のいずれかに本質的に関連する値を云う場合がある。例えば、DNAフラグメントが該関心のあるゲノム領域にライゲーションされる確率を表すp値がまた、ライゲーション頻度とみなされうる。そのようなp値は例えば、二項検定を用いて計算されうる。該頻度は、検出された相互作用の数の正規化された値でありうる。そのような正規化は、サンプル間の差、例えばサンプルの質を包含する該サンプル間の差、の正規化;並びに、GC含量、マッピング可能性及び制限部位頻度の正規化を含みうる。
本明細書において使用される場合に、表現「ゲノムビン」(Genomic bin)又は「ビン」(bin)は、ライゲーション頻度が割り当てられる単位としてDNAフラグメントに置き換えられることができる、典型的に5kb~1Mb、好ましくは10kb~200kb、のサイズの染色体間隔を云う。所定のビンへのライゲーション頻度の割り当ては、そのビン内に含まれるDNAフラグメントのライゲーション頻度を集約する演算子(総和、平均、中央値、最小値、最大値、標準偏差、三角カーネル、ガウスカーネル、半ガウスカーネル又は他の任意のタイプの重み付け及びパラメータ化演算子)に依存する。
本明細書において使用される場合に、表現 フラグメントの「ゲノム近傍」又はビンの「ゲノム近傍」は、参照ゲノム内の所定のフラグメント又はビンを囲む定義された線形染色体区間を云う。フラグメント又はビンのゲノム近傍は、10キロ塩基~5メガ塩基、好ましくは200キロ塩基~3メガ塩基、であることができる。ゲノム近傍は、関心のあるフラグメント又はビンを囲むフラグメントの数に基づいて定義されることもでき、その場合に典型的には、50~15kフラグメントである。
本明細書において使用される場合に、表現「観察され集約されたライゲーションスコア」(Observed aggregated ligation score)は、各フラグメント又はビンに、それ自身のライゲーション頻度と、そのゲノム近傍に存在する複数のフラグメント又は複数のビンのライゲーション頻度とに従って与えられるスコアを云う。
本明細書において使用される場合に、表現「予想され集約されたライゲーションスコア」(Expected aggregated ligation score)は、同じ実験からのライゲーション頻度をイン・シリコ(in silico)順列及び集約によってモデル化されたバックグラウンドに従って各フラグメント又はビンに与えられる二重スコア(すなわち、平均値及び標準偏差)を云い、各フラグメント又はビンについて最も確率の高い観察された集約ライゲーションスコア(平均)並びに対応する変動(標準偏差)を表す。
本明細書において使用される場合に、表現「関連フラグメント」、「関連ビン」、「比較可能なフラグメント」及び「比較可能なビン」は、あるマッチング基準に従って関連する複数のフラグメント又は複数のビンを云う。これらのマッチング基準は、予め決められていてもよく、手元の実験に依存してもよい。例えば、所定のフラグメントの関連フラグメントは、トランス染色体、同じトランス染色体、シス染色体に由来するフラグメント若しくはビン、又は類似の長さのフラグメント(又はフラグメント有するビン)、又は類似の架橋効率、消化効率、ライゲーション効率及び/又は類似のエピジェネティックマークを有する断片若しくはビン、又は類似のGC含量もしくはヌクレオチド組成又は保存の程度を有するフラグメント若しくはビン、又は同じ空間核区画(例えば、Hi-C法により決定された場合)中に存在するフラグメント若しくはビン、又はこれらの組み節合せである。
本明細書において使用される場合に、表現「コンテクストを考慮した予想され集約されたライゲーションスコア」(コンテクストを考慮した予想され集約されたライゲーションスコア)は、関連フラグメント又は関連ビンを順列にすることによって生成される予想される集約されるライゲーションスコアを云う。
本明細書において使用される場合に、表現「有意性スコア」(significance score)は、各フラグメント又はビンについて、観察され集約されたライゲーションスコアを、予想され集約されたライゲーションスコア又はコンテクストを考慮した予想された集約されたライゲーションスコアのいずれかと比較することによって算出されうるスコアを云う。
本明細書において使用される場合に、表現「核近接アッセイ」は、核内で関心のあるゲノム領域に近接しているDNAフラグメントを識別することを可能にする任意の方法を云う。核近接アッセイの例は、「近接ライゲーションアッセイ」及び近接ライゲーションに依存しない核近接アッセイである。核近接はまた、染色体近接又は物理的近接と云われうる。特に、近接は、線形近接、すなわち、シス染色体に沿った近接を云う。
本明細書において使用される場合に、表現「近接ライゲーションアッセイ」は、核内で関心のあるゲノム領域に近接するDNAフラグメントを識別する為に、近接したDNAフラグメントのライゲーションに依存するアッセイを云う。近接ライゲーションアッセイは、染色体コンフォーメーション捕捉アッセイとしてまた当該分野において知られており、本明細書で使用されてもよく、円形染色体コンフォーメーション捕捉又は染色体コンフォーメーション捕捉と配列決定(4C)技術(Simonis et al.,2006;van de Werken et al.,2012)、並びに4C技術の変種(例えば、UMI-4C (Schwartzman et al.,2016)及びHi-C Lieberman-Aiden et al.,2009)、イン・シチュー(in situ)Hi-C(Rao et al.,2014)及び標的化された遺伝子座増幅(TLA:targeted locus amplification)(de Vree et al.,2014)とを組み合わせたような方法を包含する。本明細書において言及される近接ライゲーション法は、例えば捕捉C法、プロモータ捕捉C法及びプロモータ捕捉Hi-C法において行われるように、核内で近接したフラグメントにライゲーションされた関心のあるゲノム領域の配列のハイブリダイゼーション、プルドダウン及び富化に(修飾された)RNA及び/又は(修飾された)DNAヌクレオチドからなる)補完オリゴヌクレオチドプローブを用いる方法を包含しうる(Hughes et al.,2014;Cairns et al.,2016;Martin et al.,2015;Javierre et al.,2016;Dao et al.,2017;Choy et al.,2018;Mifsud et al.,2015;Montefiori et al.,2018;Jager et al.,2015;Orlando et al.,2018;Chesi et al.,2019)。
近接ライゲーション方法は、免疫沈降、又は他のタンパク質指向若しくはRNA指向の戦略を使用して、その特定のタンパク質又はRNA分子を担持するか又は関連付けられた関心のあるゲノム領域に近接ライゲーションした関心のある配列についてプルダウン、及び富化する方法、例えば、ChIA-PET(Li et al.,2012)及びHi-ChIP (Mumbach et al.,2017)、をさらに包含する。近接ライゲーションアッセイ及び染色体コンフォーメーション方法の例が、(Denker and de Laat,2016)に示されている。近接ライゲーションアッセイは、ライゲーション前に架橋化有りで又は架橋化無しで実行される可能性がある(Brant et al.,2016)。
近接ライゲーション方法は、免疫沈降、又は他のタンパク質指向若しくはRNA指向の戦略を使用して、その特定のタンパク質又はRNA分子を担持するか又は関連付けられた関心のあるゲノム領域に近接ライゲーションした関心のある配列についてプルダウン、及び富化する方法、例えば、ChIA-PET(Li et al.,2012)及びHi-ChIP (Mumbach et al.,2017)、をさらに包含する。近接ライゲーションアッセイ及び染色体コンフォーメーション方法の例が、(Denker and de Laat,2016)に示されている。近接ライゲーションアッセイは、ライゲーション前に架橋化有りで又は架橋化無しで実行される可能性がある(Brant et al.,2016)。
また、核内において関心のあるゲノム領域に近接するDNAフラグメントを識別する核近接アッセイ(染色体/物理的近接アッセイ)はまた、関心のあるゲノム領域への近接したDNAフラグメントのライゲーションに頼ること無しに行われることができる:ライゲーションに頼らずに、核内で関心のあるゲノム領域に近接するDNAフラグメントを識別する核近接アッセイの一例は、SPRITE(split-pool recognition of interactions by tag extension:タグ拡張によるインタラクションのスプリットプール認識)(Quinodoz et al.,2018)である。
本明細書において使用される場合に、語「近接結合された生成物」は、互いに近接した2以上のゲノムフラグメントであって、それが結合していものを云う。ゲノムフラグメントは、直接的に又は間接的に連結されていてもよい。例えば、該ゲノムフラグメントは架橋化されていてもよく、例えばバーコード又はタグ(例えば、SPRITE)に基づいて連結が決定されてもよい。加えて、該ゲノムフラグメントは、(例えば、近接ライゲーションアッセイの結果として)互いにライゲーションされていてもよい。そのような近接結合された生成物は、本明細書において近接ライゲーションされた産物と云われる。当業者は、本明細書において使用される場合に、語「近接ライゲーションされた産物」が、他に指定されない限り、近接結合された生成物を一般的にまた包含することができることを理解するであろう。
本明細書において使用される場合に、表現「該関心のあるゲノム領域の接触プロファイル」は、該関心のあるゲノム領域に核近接すると識別されたDNAフラグメントを参照ゲノム上にプロットして可視化するゲノムマップを云う。
本明細書において使用される場合に、表現「染色体切断部位接合部」及び語「切断部位」は、染色体上又は染色体配列上で、染色体及び/又はDNA産物の2つの部分が自然又は人工プロセスの結果として互いに融合された場所を云う。本開示において特に関連する切断部位点は、健康な又は典型的な患者、有機体又は検体において通常は生じない切断部位点である。
本明細書において使用される場合に、語「行列」は、2つの軸で構成される、数値、値又は式の表を云う。数値、値又は式は、様々な要素、例えば、色又はグレースケールのトーン、によって表現されうる。
本明細書において使用される場合に、表現「蝶形格子」は、2つの集団についての変数の分布を表示する行列を云う。例えば、行列の一方の軸は、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表し得、並びに他方の軸は、再配置パートナー候補の配列位置を表しうる。
実施態様
図1は、関心のあるゲノム領域に関与する染色体再配置を検出する方法100を図示する。その目的の為に、該方法100は、核近接アッセイから得られうる複数のDNAリードのデータセットを分析する幾つかの工程を含み、ここで、該データセットは、関心のあるゲノム領域に核近接するゲノムフラグメントを表す複数のDNAリードを含む。
方法100は、工程101において、複数のDNAフラグメントの各々のDNAフラグメントについて近接性スコアを決定することから始まる。該近接性スコアは、DNAフラグメントが関心のある特定のゲノム領域にゲノム的に近接している可能性の指標を表しうる。例えば、該近接性スコアは、関心のある特定のゲノム領域にライゲーションされている/連結されている複数のフラグメントの複数のDNAリードのコレクションに関連しうる。より一般的には、該リードは、関心のある遺伝子領域に近接していることが検出方法によって検出されたDNAフラグメントにマッピングされた複数のリードである。DNAフラグメントの該近接性スコアは、そのDNAフラグメントが核内の関心のある領域に近接している可能性を示す。例えば、該近接性スコアは、複数のリードのうち、そのDNAフラグメントのリードの数を示す近接頻度を含む。代替的には、該近接性スコアは、そのDNAフラグメントのうちの少なくとも1つのリードが該複数のリード中に存在するかどうかを示すものを含む。さらに代替的には、該近接性スコアは、そのDNAフラグメントの少なくとも1つのリードが該リード中に存在する可能性の指標を含む。例えば、該近接性スコアは、該近接性スコアを含むデータベースにアクセスすることによって決定されることができる。その上、該近接頻度は、該近接性スコアがゲノムフラグメントのビンに関連するように、処理ステップ、例えばビニング(binning)、に付されうる。
集約工程101aにおいて、他の任意工程として、工程101の近接性スコアが集約されてもよく、集約された近接性スコアを得てもよい。例えば、工程202の近接性スコアは、ゲノムに沿った移動平均又は加重移動平均に付されてもよい。加重移動平均は、ゲノムの近接性スコアを適切なカーネル、例えばガウスカーネル(例えば、サンプリングされたガウスカーネル又は離散ガウスカーネル)、で畳み込むことによって実装されてもよい。このことは、スライディングウィンドウアプローチとまた呼ばれ、代替的には、例えば、ガウス窓(Gaussian windows)若しくはカーネル、半ガウス窓若しくはカーネル、三角窓若しくはカーネル、長方形窓若しくはカーネル、又は他の種類の窓若しくはカーネルをスライドさせることを含みうる。集約工程101aの結果は、工程103において、DNAフラグメントの近接性スコアとして用いてもよい。なお、集約工程101aが省略される場合には、例えば、工程202の近接性スコアが用いられうる。
工程102において、少なくとも1つのDNAフラグメントについての予想される近接性スコアが決定される。この予想される近接性スコアは、データベース内の他のDNAフラグメントの該観察された近接性スコアに基づいて計算されてもよい。例えば、特定の実験及び/又は染色体に関連するデータベース内の全てのDNAフラグメントの平均及び標準偏差が、該予想される近接性スコアを決定する為に計算されてもよい。代替的には、無作為に選択されたDNAフラグメントが平均化されてもよい。さらに代替的には、関連するDNAフラグメントの1組が決定され、そして、それらの関連フラグメントのみの近接性スコアが平均化されてもよい。該関連フラグメントは、例えば、該関心のあるゲノム領域へのそれらの近接性に基づいて、又は他の類似性基準に基づいて選択されてもよい。そのような類似性基準の例は、本明細書の他の箇所に開示されている。
工程103において、工程101において決定された少なくとも1つのDNAフラグメントの近接性スコアが、その少なくとも1つのDNAフラグメントについての予想される近接性スコアと比較される。例えば、該DNAフラグメントの該近接性スコアが、工程102において決定された該予想される近接性スコアと比較される。この結果、少なくとも1つのDNAフラグメントが染色体再配置に関与している可能性の指標を結果として生じる。この指標は、例えば、有意性スコアの形態であってもよい。或る実装において、工程102において決定された標準偏差が、該観察された近接性スコア対該予想される近接性スコアの任意の偏差の統計的有意性を決定する為に比較に関与しうる。有意な偏差が見出された場合、染色体再配置が検出されたと見なしてもよい。統計的な有意性は、有意性スコアとして表現されうる。この有意性スコアは、該観察された近接性スコア及び該予想される近接性スコアの両方が入手可能である各ゲノムフラグメントについて計算されてもよいことが理解されるであろう。
工程104において、再配置が検出されたかどうかが決定される。これは、ブーリアン決定(Boolean decision)であってもよく、すなわち、利用可能な有意性スコアが、各ゲノムフラグメントについてイエス/ノー決定に至る為に評価されてもよく、又は該決定は、該ゲノムフラグメントが該関心のあるゲノム領域との再配置に関与する確率若しくは可能性、又は確実性を包含する軟判定(soft decision)であってもよい。この決定は、工程103において計算された有意性スコアに基づくものであってもよい。或る実施態様において、工程103の該有意性スコアは、工程104において出力される軟判定に等しい。
しかしながら、或る他の実施態様において、より多くの入力変数が決定を下す際に考慮され、ありうる再配置を示す高められた有意性スコアを生成する。例えば、マッピングされた標的近接ライゲーションされた/連結されたフラグメントのゲノム近傍におけるマッピング不可能な実験的に作成されたフラグメントの密度が決定されてもよい。工程104における該決定は更に、この密度に基づいてもよく、好ましくは、該高められた有意性スコアは、該マッピングされた標的-近接結合/連結されたフラグメントのゲノム近傍におけるマッピング不可能な実験的に作成された断片の密度に正のスケールとなる。その上、マッピングされた標的近接ライゲーションされた/連結されたフラグメントのゲノム近傍におけるマッピング可能な実験的に作成されたフラグメントの密度が決定されてもよい。工程104における該決定は更に、この密度に基づいていてもよく、好ましくは、該高められた有意性スコアは、所与のフラグメントの予想され集約された近接性スコアと負に比例する。
工程104で、該関心のある特定のゲノム領域と、別の特定のゲノムフラグメントが関与するゲノム再編成が存在する可能性があることが検出された後、次に、任意的に、この再配置の存在が、別の特定のゲノムフラグメントを「該関心のある特定のゲノム領域」として用いて、手順100全体を最初から実行することによって更に検証されてもよい。その手順がゲノム再配置を確認する場合に、その再配置が実在することがさらに確実となる。
図2は、方法100の工程101において実行される、複数のDNAフラグメントの該近接性スコアを決定する為のありうる方法を図示する。
工程201において、近接頻度が、複数のDNAフラグメントのそれぞれについて決定される。好ましくは、後の集約を容易にする為に、ゲノム中の連続した多数のDNAフラグメントがこの為に用いられる。例えば、あるDNAフラグメントの近接頻度は、そのDNAフラグメントのリードの数でありうる。アッセイに依存して、近接頻度の2値化を実行すること、例えば、DNAフラグメントが該リードの中から見つかった場合には近接頻度を1に設定し、DNAフラグメントが該リードの中から見つからなかった場合には近接頻度を0に設定することによって該2値化を実行すること、が好ましい場合がある。
工程202において、任意工程として、工程201の複数の近接頻度が組み合わされて、近接性スコアを生成してもよい。工程202が行われない場合、例えば、複数の近接頻度それら自体が上記の近接性スコアでありうる。工程202は例えば、工程201の近接頻度のビニングを含んでいてもよい。例えば、連続する塩基の数ずつのビンが定義され、そして、複数の近接頻度が、各ビン内で組み合わされてもよい。該ビンのサイズは、例えば、5キロ塩基~1メガ塩基、好ましくは10キロ塩基~200キロ塩基、に選択されうる。該ビンは例えば、25キロベースのサイズを有していてもよく、ビンの任意の適切なサイズが選択されてもよい。各ビン内の近接頻度は例えば、それらを合計することによって又は平均化することによって組み合わされてもよい。代替的には、二項検定が実行されよく、例えば、該ビン内のゲノムフラグメントがデータベース内のリードの中に生じる可能性を結果として生じうる。そのような二項検定は、二値化された近接頻度の場合に特に適している場合がある。ビニング後、該結果として得られた近接性スコアは、該ビン内に含まれているゲノムフラグメントをカバーする、より大きなゲノムフラグメントに関連していると言える場合がある。
或る実施態様において、1つの集約工程のみが実行されてもよく(すなわち、工程202又は集約工程101aのいずれか、場合によっては工程402と組み合わせて)、又は集約工程が全く実行されなくてもよいことが理解されるであろう。しかしながら、両方の集約工程を含むことが有利である場合がある。その上、代替的な実施態様において、工程202の為にカーネルフィルタを使用し、並びに集約工程101aの為にビニングを使用することが可能である。
図3は、少なくとも1つのDNAフラグメントについて、予想される近接性スコアを決定する工程102を実装する方法の1つの実施態様を図示する。例えば、分析は、1つのDNAフラグメントに限定されてもよく、又はゲノム内の或る領域に限定されてもよく、又は染色体全体に限定さてもよい。代替的には、該解析は、ゲノム全体に対して実行されてもよい。
工程303において、複数の関連する近接性スコアが、解析されるべき各ゲノムフラグメントについて生成される。該近接性スコアは、工程101から結果として得られるスコアでありうる。この点において、ビニングが、組み合わせる工程202において行われる場合、ゲノムフラグメントは、ゲノムフラグメントの「ビン」であると見なされてもよいことに留意されたい。
本開示において、関連する近接性スコアは、該予想される近接性スコア決定されているところのゲノムフラグメントに関連するゲノムフラグメントの近接性スコアであってもよい。この点に関して、ゲノムフラグメントが或るマッチング基準を満たす場合に、該ゲノムフラグメントは互いに関連していてもよい。例えば、同じ染色体上のフラグメントは、互いに関連していると考えられてもよく、又はゲノム上の或る距離内のフラグメント、又はある機能若しくはタンパク質に寄与することが知られているフラグメント、又は他の点で比較可能なフラグメントであってもよい。他のマッチング基準は、本明細書の他の箇所に開示されている。或る実装において、実験で得られた全てのゲノムフラグメントは、関連フラグメントであると設定される。
該複数の関連する近接性スコアは、関連するゲノムフラグメントの全ての近接性スコアから構成されていてもよい。代替的には、計算効率の為に、関連する近接性スコアのコレクションは、利用可能な関連する近接性スコアのランダムな選択から構築されてもよい。例えば、ランダムに選択された1000個(又は他の所定の数)の関連するゲノムフラグメントの近接性スコアが収集されてもよい。
工程304において、複数の関連近接性スコアが、例えば平均及び標準偏差が予想される近接性スコア計算されるように、統計的計算に付される。代替的には、例えば上記の平均の代わりに、該関連する近接性の中央値が決定されてもよく、又は上記の標準偏差の代わりに分散が決定されてもよい。他の統計的方法が、予想される近接性スコアを計算する為に、又は例えば近接性スコアの為に確率密度関数のパラメータを計算する為に使用されてもよい。
この予想される近接性スコアは、必要に応じて、各ゲノムフラグメントについて計算されうる。
図4は、複数の関連するDNAフラグメントに対応する複数の関連する近接性スコアを決定する工程303を実装する方法の1つの実施態様を図示する。工程303に関して本明細書の上記で観察されるように、工程101において決定された該近接性スコアは、この方法の出発点として使用されうる。
工程401において、関連するゲノムフラグメントの該観察された近接性スコアが順列化される。上述されているように、ゲノムフラグメントは或るマッチング基準を満たす場合に、該ゲノムフラグメントが互いに「関連」していると考えられうる。それ故に、この工程において、第1のフラグメントの該近接性スコアは、該マッチング基準に従って第1のフラグメントに関連する第2のフラグメントの該近接性スコアと交換されてもよい。従って、複数の該近接性スコアの各々は、別の近接性スコアとスワップされてもよい。スワップされる特定のゲノムフラグメントは、ランダムに選択されてもよい。ランダムな順列を作成する為に、各ゲノムフラグメントは、別のランダムに選択された関連するゲノムフラグメントとスワップされてもよい。代替的には、複数の関連ゲノムフラグメントのうちの対の関連ゲノムフラグメントの間で任意の数(例えば、固定数)のスワップが実行されてもよい。この工程により、順列化された近接性スコアが提供される。
工程402において、工程401の順列化された近接性スコアが集約されうる。好ましくは、この集約工程は、該観察された近接性スコアにおいて実行される集約工程101aと同じ演算を含む。このようにして該集約され観察された近接性スコアを該予想され集約される近接性スコアと比較することが容易となる。例えば、工程101aで上述されたように、移動平均又は離散ガウスカーネルが適用されうる。この工程は、集約された順列化された近接性スコアを提供する。
工程403において、工程402の該集約され順列化された近接性スコアは、特定のDNAフラグメントに関連づけられたコレクションに集められ、後に工程304において該予想される近接性スコアが計算されうる。代替的には、特定のDNAフラグメントに対応する或る統計が、工程402の該集約された順列化された近接性スコアに基づいて更新されてもよい。工程404及び405で例示されているように、任意の所望のゲノムフラグメントの該集約され順列化された近接性スコアが収集されてもよい。このようにして、ゲノムの再配置/不連続性が、任意の数のゲノムフラグメントについて検出されうる。多くの場合、研究対象のゲノムにおける全てのゲノムフラグメントの該集約され順列化された近接性スコアを収集することが最も有用でありうる。
工程406において、集約され順列化された近接性スコアの1以上のコレクションが十分に大きいかどうかが判断される。この工程は、例えば、反復カウンタによって実装されうる。この工程は、該予想される近接性スコアが十分な統計的関連性を有するであろうことを保証しうる。例えば、所定の数の順列、例えば、1000回の順列又は100,000回の順列、が実行されうる。
工程406において、順列化された近接性スコアのコレクションが所望の数まで拡大する為に更なる順列化が必要とされる場合に、該処理は工程401から継続される。そうでなければ、工程407で、関連する近接性スコアのコレクションが完成する。
或る実施態様において、順列化された近接性スコアの実際の値をコレクションに格納する必要はないことが理解されるであろう。その代わりに、或るパラメータを更新することによって、工程403及び工程304を1つの工程で組み合わせることが可能である。例えば、もし、該予想された近接性スコアの平均値μ及び標準偏差σのみが望ましい場合に、複数の該順列化された近接性スコアの合計
と、前順列化された近接性スコアの二乗の合計
と、順列化された近接性スコアの数
を更新することで十分である。工程403においてこれらのパラメータを更新した後に、該順列化された近接性スコアの実際の値
が破棄されてもよい。上記の平均は、その後、工程304において、下記の式
で計算され得、並びに上記の標準偏差は、下記の式
で計算されうる。
或る実施態様において、該集約工程は、長さスケールを実装しうる。例えば、該観察された近接性スコアの第2の集約工程101a及び該順列化された近接性スコアの集約工程402は、或るスケールで、該観察された近接性スコアと該予想される近接性スコアとを比較する為に使用されうる。集約工程がガウシアンフィルタによって実装される場合に、該スケールは例えば、ガウシアンカーネルフィルタの標準偏差と見なされうる。他の種類のフィルターが、スケールの同様の概念を有しうる。例えば、スライディングウィンドウアプローチのウィンドウサイズが、スケールに従って変わりうる。図1~図4の全手順が、異なるスケールを用いて何度も実行されうる。このことは、異なるスケールについて異なる有意な知見をもたらしうる。異なるスケールについての結果が組み合わされて、スケール不変の結果を得られうる。例えば、異なるスケールから得られた有意差スコアの最大値、最小値又は平均値が、最終的な、スケール不変の、有意差スコアとして使用される。同様に、或る実施態様において、第1の集約工程202が、異なるスケールで実行されうる。例えば、ビニングの場合、異なるビンサイズが使用されうる。
或る実施態様において、近傍において該観察された近接性スコアを集約して、集約された近接性スコアを得る工程101a、及び近接性スコアの順列を集約する工程402は、各DNAフラグメントを以下のように処理することによって実行されうる。該1つのDNAフラグメントの複数の近傍DNAフラグメントが識別される。該1つのDNAフラグメントと該複数の近傍DNAフラグメントの(観察された又は順列化された)近接性スコアが選択される。該選択された近接性スコアは、集約演算子、例えば、移動平均、例えば加重移動平均、例えばガウス加重移動平均、又はゲノムに沿った別のタイプの演算子、を用いて組み合わされ、該DNAフラグメントについての該集約された近接性スコアを生成する。或る実施態様において、近傍DNAフラグメントは、下記のように識別されうる。距離尺度が、近傍DNAフラグメントを識別する為に選択されうる。距離尺度の第1の例は、ゲノム距離である。その場合、ゲノム長さスケールの観点から近いDNAフラグメントが選択され、すなわち、DNAフラグメントからある塩基数(例えば、200キロベース又は750キロベース)未満離れた全てのフラグメントが、近傍DNAフラグメントでありうる。距離尺度の第二の例は、ゲノムに沿ったDNAフラグメントの数である。その場合、該DNAフラグメントに最も近いK個のDNAフラグメントが近傍DNAフラグメントでありうる。例えば、K=31又はK=51である。
図5は、関心のあるゲノム領域に関与する染色体再配置のそのようなスケール不変のフローチャートを示す。図5において、図1の工程と類似する工程が、図1と同じ参照数字が付されており、但し、アポストロフィが付されている。スケール不変検出方法は、異なるスケールで工程103'における有意性スコアを決定する為の反復502を含み、該スケールは工程501における各反復において設定される。再配置の最終的な決定は、工程104'において、個々のスケールの為に与えられた有意性スコアを用いて行われることができる。
より詳細には、該方法は、例えばアッセイによって生成されたリードを有するデータベース内の複数のDNAフラグメントの各々に近接性スコアを割り当てることで工程101で開始される。この工程は、図1の工程101と同一とすることができる。実装例が図2において示されている。
次に、工程501において、スケールが設定される。例えば、該スケールは、塩基数として現されうる。しかしながら、これは限定されるものでない。該スケールは、ゲノム近傍におけるDNAフラグメントの近接性スコアを集約する集約関数のパラメータでありうる。該近傍の幅は、スケールによって決定されうる。該集約関数がガウシアンカーネルである場合、該スケールは、ガウシアンカーネルの為に用いられているガウシアン関数の標準偏差でありうる。ガウシアンカーネルのテールは任意的に、適切な点で切断されうる。該集約関数がスライディングウィンドウである場合、該スケールは、該スライディングウィンドウのウィンドウ幅でありうる。例えば、スケールの所定の1組が、各反復502において1つのスケールを解析する為に選択されうる。スケールの該1組は、任意の数のスケールを有することができる。(例えば、標準偏差又はウィンドウ幅として)使用されるべきスケールの1組の例は以下の通りである:{1キロベース、1メガベース、1000メガベース}。
工程101a’において、本明細書において上述されているように、選択されたスケールを用いて、近接性スコアが集約される。このようにして、集約された近接性スコアが得られる。この集約工程の為の好適なプロセスが、工程101aに関して本明細書において既に概説されている。
工程102’において、少なくとも1つのDNAフラグメントについての該予想される近接性スコアが、選択されたスケールに基づいて決定される。該予想される近接性スコアは、該少なくとも1つのDNAフラグメントに割り当てられる。該予想される近接性スコアは、1つのDNAフラグメントに対して、DNAフラグメントの特定のサブセット、例えばゲノム領域、に対して、又は染色体全体若しくはゲノム全体のDNAフラグメントに対して割り当てられうる。該予想される近接性スコアを計算する方法は例えば、図3及び図4を参照して本明細書に開示されているように実装されうる。工程402において、近接性スコアの順列が、選択されたスケールを使用して集約されうる。例えば、工程101a'と同じ集約アルゴリズム及び集約パラメータが使用されうる。
工程103’において、該少なくとも1つのゲノムフラグメントが染色体再配置に関与する可能性の指標、例えば有意差スコア、が、工程101a'のスケールに従う該集約された近接性スコア及び工程102'のスケールに従う該予想される近接性スコアを用いて決定される。このようにして、選択されたスケールごとに、染色体再配置の可能性の異なる指標が得られうる。
工程502において、全ての所望のスケールが適用されているかどうかが検証される。計算がより多くのスケールについて望まれる場合、処理は工程501から繰り返され、ここで、別のスケールが選択される。例えば、このプロセスは、スケールの所定の1組の全てのスケールが選択されるまで繰り返される。
プロセスが全ての所望のスケールについて実行されている場合、該プロセスは工程104'に進み、選択されたスケールの全てについて工程103'において決定された指標(有意性スコア)に基づいて、再配置が検出されたか否かを決定する。異なるスケールについての指標(有意性スコア)は、多くのありうる方法のうちの1つにおいて組み合わせられることができ、例えば、少なくとも1つのDNAフラグメントについての利用可能な有意性スコアの最大値、平均値、中央値又は最小値が決定されうる。その後、バイナリ判定に到達する為に、閾値が任意的に適用されうる。その後、該プロセスが終了する。
図1~図5を参照して本明細書に記載された方法は、コンピュータプログラムとして、又は適切にプログラムされたコンピュータシステムとして実装されうることが理解されるであろう。近接アッセイの手段によって作成されたデータセットは、そのようなコンピュータプログラムの入力として機能してもよく、並びに出力は、検出された再配置の表示であってもよい。
本開示を通じて、ライゲーション頻度は近接頻度の一例であり、並びにライゲーションスコアは近接性スコアの一例であると理解されうる。幾つかの技術が例としてライゲーション頻度及びライゲーションスコアを用いて本明細書を通じて図示され且つ記載されているが、一般的に、本明細書に開示された技術は、任意の近接頻度及び/又は近接性スコアを用いて実施されうることが理解されるであろう。例えば、関心のあるゲノム領域に近接するDNAフラグメントを識別する為に、「近接ライゲーション」、例えばSPRITE方法、に依存しない核近接アッセイが使用されうる。それ故に、本開示を通じて、ライゲーション及び近接という語は、互換的に使用されうる。具体的には、ライゲーション頻度及び近接頻度という語は、互換的に使用されうる。同様に、ライゲーションスコア及び近接性スコアという用語は、互換的に使用されうる。
図6は、本明細書において記載された方法を適用した例示的な例を示す。例として、近接頻度が、4Cプロファイル又は別のアッセイ技術として得られることができる。そのようなアッセイは、近接ライゲーションデータセットを結果として生じうる。図6は、染色体(横軸に部分的に示されている)に沿ったDNAフラグメントの該観察された近接頻度(縦軸)のグラフ600を示す。染色体の小部分をカバーするグラフ600の詳細が、グラフ601において示されている。該プロファイルは、例えば25キロベースの幅を有するビンを用いてビニングされて、観察された近接性スコアのスコアプロファイルを得る。スコアプロファイルの詳細がグラフ602に示されており、完全なスコアプロファイルがグラフ603に示されている。スコアプロファイル603は、この例において、ガウスカーネル605を用いて集約され、グラフ606に示されているように、観察され集約された近接性スコアの集約された又は平滑化されたスコアプロファイルを得る。スコアプロファイル603は、ランダムに順列化されたプロファイル604を得る為に順列化され、それがまたガウスカーネル605を使用して平滑化される。順列化及び平滑化はN回繰り返され、ここで、Nは整数であり、例えば1000である。順列化され平滑化されたこれら全てのプロファイルから、グラフ607において示されているように、予想され集約された近接性スコアの予想プロファイルが導出される。平滑化プロファイル606は、例えば減算(又は、例えば二乗差)によって予想されたプロファイル607と比較され、グラフ608に示されているような差分プロファイルを得る。有意な閾値609がまた、順列化され平滑化されたプロファイル及び/又は該予想されるプロファイルから導出される。代替的には、有意な閾値609は、設定可能な値に設定されうる。比較プロファイル608が有意な閾値609を超えるフラグメントにおいて、フラグメント610で示されているように、ありうる再配置の指標がトリガされうる。
図7は、染色体再配置を検出する為の装置のブロック図を示す。本装置は、本明細書において開示されている任意の方法を実行するように構成されているコンピュータシステムとして実装されうる。例えば、複数のDNAリードを取得した後の工程は、装置700によって実行されてもよい。特に、染色体再配置を検出する為に必要な計算工程は、本装置によって実行されてもよい。例えば、装置700は、命令を実行することができるプロセッサ701を備えていてもよい。プロセッサ701は、協調的に動作するように構成された複数の(サブ)プロセッサから構成されていてもよい。装置700は、メモリ702をさらに備えてもよく、該メモリは、任意のデータ記憶手段、例えば、フラッシュメモリ若しくはランダムアクセスメモリ又はそれら両方、でありうる。メモリ702は、非一時的なコンピュータ可読媒体を備えていることができる。メモリ702は、プロセッサ701に、命令を実行する際に、本明細書において記載されている方法を実行させる命令を格納することができる。これらの命令は、コンピュータプログラムを集合的に形成することができる。該コンピュータプログラムは、代替的に、別の非一時的コンピュータ可読媒体、例えば光ディスク、に格納されることができる。更に、メモリ702は、アッセイに関連するデータ、例えば複数のDNAリードを有するデータベース、を格納するように構成されていてもよい。該データ、例えばDNAリード、は、トランシーバ703を介して受信されてもよく、該トランシーバ703は、例えばユニバーサルシリアルバス(USB:universal serial bus)又は無線通信装置でありうる。また、本方法の結果、例えば任意の再配置を示す有意スコアは、トランシーバ703を通じて出力されてもよい。周辺装置は、トランシーバ703によって接続されていてもよい。任意的に、装置700は、ユーザインタフェース構成要素(図示されていない)、例えばディスプレイ及び/又はユーザ入力装置、例えばマウス、キーボード、又はタッチパネル、を備えている。そのようなユーザインタフェース構成要素は、代替的に、トランシーバ703を介して接続されていてもよい。その上、そのようなユーザインタフェース構成要素は、該装置の動作を制御し、及び/又は計算の結果を出力する為に使用されてもよい。トランシーバ703は例えば、外部メモリと通信することがまたできる。最後に、装置700は、代替的には、計算又はデータストレージの一部をクラウドサーバ上で実行し、別の一部をクライアントデバイス上で実行するところの分散型コンピュータシステムとして実装されていてもよい。
或る実施態様において、近接ライゲーションアッセイとして知られている核近接アッセイが使用されてもよい。その上、(架橋された)DNAのサンプル内及び該DNAの複数のサンプル間の技術的且つ生物学的なバイアス及び変動が、関心のあるゲノム領域において生じる構造的変動を計算的に識別する為に考慮されうる。
或る実施態様において、関心のあるゲノム領域において生じる構造的変異を同定する方法は、
近接ライゲーションアッセイを実行して、関心のあるゲノム領域に核近接する独立してライゲーションされたフラグメントのデータセットを作成すること;
該データセットを用いて、観察され集約されたライゲーションスコアを各フラグメントに割り当てること;
同じデータセットを用いて、各フラグメントについてのコンテクストを考慮した予想され集約されたライゲーションスコアを計算すること;
異なる染色体長スケールで、該フラグメントの観察値と該コンテクストを考慮した予想され集約されたライゲーションスコアとを比較し、そして、該コンテクストを考慮した予想され集約されたライゲーションスコアと比較して有意に増加した該集約されたライゲーションスコアを有するフラグメントを、染色体長スケール毎に識別すること
の工程を含む。
近接ライゲーションアッセイを実行して、関心のあるゲノム領域に核近接する独立してライゲーションされたフラグメントのデータセットを作成すること;
該データセットを用いて、観察され集約されたライゲーションスコアを各フラグメントに割り当てること;
同じデータセットを用いて、各フラグメントについてのコンテクストを考慮した予想され集約されたライゲーションスコアを計算すること;
異なる染色体長スケールで、該フラグメントの観察値と該コンテクストを考慮した予想され集約されたライゲーションスコアとを比較し、そして、該コンテクストを考慮した予想され集約されたライゲーションスコアと比較して有意に増加した該集約されたライゲーションスコアを有するフラグメントを、染色体長スケール毎に識別すること
の工程を含む。
或る実施態様において、関心のあるゲノム領域に近接するDNAフラグメントを識別する為に、「近接ライゲーション」、例えば「SPRITE」方法、に依存しない核近接アッセイの使用がなされ、並びに、関心のあるゲノム領域に生じた構造変化を計算的に識別する為に(架橋化された)DNAのサンプル内及び該DNAの複数のサンプル間の技術的且つ生体的なバイアス及び変動が考慮され、該方法は、
核近接アッセイを実行して、関心のあるゲノム領域に核近接性するDNAフラグメントのデータセットを作成すること;
該データセットを使用して、観察され集約された近接性スコアを各フラグメントに割り当てること;
同じデータセットを使って、各フラグメントについてのコンテクストを考慮した予想され集約された近接性スコアを計算すること;
異なる染色体長スケールで、該フラグメントの実測値と該コンテクストを考慮した予想され集約された近接性スコアとを比較し、そして、有意に増加した該集約された近接性スコアを有するフラグメントを、染色体長スケール毎に特定すること
の工程を含む。
核近接アッセイを実行して、関心のあるゲノム領域に核近接性するDNAフラグメントのデータセットを作成すること;
該データセットを使用して、観察され集約された近接性スコアを各フラグメントに割り当てること;
同じデータセットを使って、各フラグメントについてのコンテクストを考慮した予想され集約された近接性スコアを計算すること;
異なる染色体長スケールで、該フラグメントの実測値と該コンテクストを考慮した予想され集約された近接性スコアとを比較し、そして、有意に増加した該集約された近接性スコアを有するフラグメントを、染色体長スケール毎に特定すること
の工程を含む。
本明細書において開示されている技術は、染色体再配置をより正確に検出することが望ましいという認識に基づく。これは主に、2つの所与のサンプル(例えば、疾病のある細胞と健康である細胞)の比較において、実際の構造的差異によって引き起こされるのではない、複数の近接ライゲーション産物の間の多くの差異が検出されることができるからである。その上、任意の近接ライゲーションデータセットに見られることができる低相互作用頻度から高相互作用頻度への多くの遷移が、構造的変異によって引き起こされるものでない。それ故に、これらの欠点を改善し、同じデータセットにおいて観察される本質的な技術的バイアスを考慮しながら、ゲノムにおける構造的変異を識別することが本発明の1つの観点である。
転座(translocations)(染色体再配置(chromosomal rearrangements))は、様々な形態の癌の根底にある(Schram et al.,2017)。それらは、癌遺伝子の過剰発現、又は調節不全にされた発現若しくはキナーゼ活性を有する融合タンパク質の産生を結果として生じうる。転座の分子タイピングは、診断(腫瘍分類)、予後、及び最近では治療方針の決定の為に、臨床で日常的に行われている。例えば、プロテインキナーゼ遺伝子であるALK及びROS1における転座を保有する非小細胞肺癌(NSCLC:non-small cell lung carcinoma’s)は、FDAが承認したプロテインキナーゼ阻害剤によって標的化可能であり(Kwak et al.,2010;Shaw et al.,2014)、一方、RETの強力な阻害剤はRET転座を有する患者に対する有望な精密医療薬となる(Plenker et al.,2017)。それ故に、NSCLC腫瘍の分子タイピング(Pisapia et al.,2017)は、最適な治療法を選択する為に非常に有用であり、オランダではステージIV(転移性の)肺癌に対して義務化されている(年間1000人)。転座解析が、特に、毎年びまん性大細胞型B細胞リンパ腫(DLBCL:diffuse large B-cell lymphoma)と診断される約1500人の患者、及びオランダで様々な形態の肉腫を有する毎年約700人の患者の多くについても実施されている。
既に数十年前から、外科手術で摘出した腫瘍生検は、ホルマリン固定パラフィン包埋(FFPE:formalin fixed paraffin embedded)標本として保存することが日常的な臨床手順となっている。しかしながら、FFPE標本におけるDNA又はRNAの再配置検出は、DNA及びRNAが架橋化され且つフラグメント化されているという事実の故に困難である。再配置検出の為の為の、RNA及びDNAに基づくPCR戦略は存在するが、複雑である。第一に、再発性の再配置された遺伝子の切断部位位置及び再配置パートナーは患者の間で異なることがしばしばあり、それはありうる再配置の全てを検出するPCRプライマーセットを設計することを困難にする。新規の融合パートナーはしばしば見落とされ、その場合、陰性結果が得られる場合には、再配置に関する決定的な見解は成立しない。Archer FusionPlexのようなRNAベースの幾つかのPCR戦略は、再配置パートナーについて不可知論的なものであるが、不均一な腫瘍生検において再配置がやはり見つからなくても、その存在を否定することはない。また、RNAが少なすぎたり、FFPEサンプルにおけるRNAが低品質であったり、その後のcDNA PCR産物の分析に適さない場合がある。最後に、所謂、位置効果再配置は、融合を生じないが、それ以外には変化していない癌遺伝子の上方制御を引き起こし、RNAレベルでは定義上検出されないものである。
これらの理由から、蛍光イン・シチュー(in situ)ハイブリダイゼーション(FISH:fluorescence in situ hybridization)は、FFPE生検における融合体を検出する為の好ましい診断方法として、今なおある。しかしながら、FISHは手間がかかり、部分的な情報しか得られず、必ずしも決定的なものではない。各遺伝子は独立したFISH実験において別々に検査される必要がある。関心のある遺伝子が異なる染色体パートナーと乱雑に再配置する場合(これはしばしばあることであるが)、それは、break-apart FISH(又はスプリットFISH(split-FISH))が用いられる。スプリットFISHは、標的遺伝子の両側に異なるように色付けされたプローブをハイブリダイゼーションさせる。もし、それらが分離した(break-apart)場合(「スプリット(split)」)、すなわち、それらが所定の細胞数において予想以上の距離で分離された場合、その遺伝子は転座に関与していると考えられるが、再配置パートナーは不明のままである。その上、サンプルの品質及び腫瘍の大きさに応じて、FISHが不明瞭な結果をもたらす場合がある。それ故に、それらの切断部位の位置及びそれらの転座パートナーに関係無しに、該関心のある全ての遺伝子における再配置を同時に検出することができる堅牢で、単一の、オールインワンアッセイが強く望まれている。そのようなアッセイは、本明細書において開示されている再配置検出方法を用いて可能となりうる。
DNAサンプル又は架橋化されたDNAサンプルにおける再配置検出の為の方法論は、好ましくは、以下の基準のうちのいずれか1つ以上、理想的には全てを満たすであろう:
(1)所与の疾病に関連する全ての遺伝子における再配置を同時にモニタリングすることを可能にするオールインワンメソッドであること、
(2)正確な切断部位位置及び再配置パートナーにとらわれず、既知の及び新規の転座のパートナーを見つけることができる方法、
(3)細胞の小さな(例えば5%未満の)部分集団における再配置をまた拾い上げる為に十分な感度である方法、及び
(4)再配置の不偏的な検出を提供する方法。
(1)所与の疾病に関連する全ての遺伝子における再配置を同時にモニタリングすることを可能にするオールインワンメソッドであること、
(2)正確な切断部位位置及び再配置パートナーにとらわれず、既知の及び新規の転座のパートナーを見つけることができる方法、
(3)細胞の小さな(例えば5%未満の)部分集団における再配置をまた拾い上げる為に十分な感度である方法、及び
(4)再配置の不偏的な検出を提供する方法。
核近接アッセイ、例えば近接ライゲーションアッセイ、は、4C技術によって最初に示されていたように、最初の3つの基準を満たすことができる場合がある。4C技術は、もともと、ゲノムの3次元折り畳みを研究する為に本発明者等によって開発された(Simonis et al.,2006)。該方法は、3C技術(Dekker et al.,2002)の変種であり、関心のある選択されたゲノム部位(「視点配列」(viewpoint sequence))に近接する全ての染色体セグメントの不偏のゲノム全体マッピングを可能にする。該技術は、ホルムアルデヒドを介した細胞の固定に関与し、それは、各細胞核内の物理的に近接したDNA配列の間に架橋を結果として生じる。架橋化されたDNAは、引き続き、制限酵素で消化され、そして架橋されたDNAフラグメントの間の近接ライゲーションに有利な条件下で再ライゲーションされる。従って、3C戦略は、核空間内で互いにもともと近接するDNA配列の間にライゲーション産物を生成する。4C技術において、環状ライゲーション産物における視点特異的プライマーを用いた逆PCRが行われ、それは、捕捉されたライゲーションパートナーの増幅を結果として生じる。これらは、引き続き、イルミナ配列決定され、そしてゲノムへマッピングされて、視点の接触プロファイルを明らかにしうる。
高分子物理学から予想されるように、4Cで捕捉されるフラグメントの大部分は常に、3Dコンフォーメーションに関係無しに、線形染色体テンプレートにおける視点のすぐ近傍にある配列に由来する。この事実に基づいて、本発明者等は、4C視点が、染色体再配置、例えば転座を包含する該染色体再配置、の検出に非常に適しているという仮説を立て、そして過去に実証した(Simonis et al.,2009;Homminga et al.,2011)。従って、4C視点が再配置の切断部位の近傍にある場合に、関心のあるゲノム領域の変化した接触プロファイルに基づいて、再配置及び再配置パートナーを識別する(Simonis et al.,2009)。このアッセイの感度(すなわち、転座を小さなサブ細胞集団においてまた検出する為のその能力)は、視点及び切断部位が互いに近いほど高くなる。該切断部位から100kb以内の視点であれば、転座が細胞の5%未満にしか存在しない場合であってさえも該転座を容易にみつけうる(Simonis et al.,Nat Methods 2009,及び未発表データ)。後者は、癌の生検は健康な細胞集団と種々のクローン癌細胞集団との混合物である場合がしばしばあるので、癌遺伝子診断の為に極めて重要である。要約すると、4Cは、或る候補遺伝子(例えば、臨床において再配置の為にモニターをしたい遺伝子)が再配置に関与しているかどうかを調べ、そしてその再配置パートナーを識別する高感度な方法を提供する。4Cの更なる有利点は、発表されているように(Simonis et al.,2009)、4C PCR反応が容易に多重化されることができることであり、該アッセイは、各患者サンプルにおける再配置について複数の遺伝子を同時にモニターすることができることを意味する。
4C技術以外にも、同じ原理に基づき、関心のあるゲノム領域を有する染色体再配置を識別することがまたできる多くの他の近接ライゲーション法があることを本発明者等は分かっている。例えば、標的遺伝子座増幅(TLA:targeted locus amplification)、捕捉-C(capture-C)又は捕捉-HiC法、Hi-C及びイン・シチューHi-C、ChIA-PET及びHi-ChIPである。原理的には、核内で関心のあるゲノム領域に近接するDNAフラグメントを識別する近接ライゲーションを実行する方法は全て、染色体再配置及び転座の検出を可能にする。
近接ライゲーション方法は、染色体再配置を識別する為に用いられることができる。近接ライゲーション方法に基づいて構造的変異を識別することを目的とする最先端技術は、試験サンプル(例えば、疾病を有する患者からのサンプル)中の関心のあるゲノム領域に対して近接ライゲーションされたDNAフラグメントのクラスタリング(又はクラスタリングの欠如)であって、対照サンプル(例えば、健常人からのサンプル)中のその同じゲノム座で見られる近接ライゲーションされたDNAフラグメントのクラスタリングと明らかに異なるところのクラスタリングをゲノムにおいて見つける為に、該関心のあるゲノム領域の接触プロファイルの視覚的検査にしばしば依拠する。該関心のあるゲノム領域の接触プロファイルのそのような視覚的検査に応じて見つけられる転座及び他の染色体再配置の例が、下記に示されている(Simonis et al.,2009;de Vree et al.,2014;Harewood et al.2017及び国際公開公報WO2008084405号パンフレット)。他の現在の実験設計において、疾病(例えば、癌)細胞から作成された試験サンプルにおいて得られた核近接データセットは、染色体再配置を示す核近接DNAフラグメントの異常ゲノム分布を識別する為に正常な(健康な)細胞から生成された対照核近接データセットと計算的に比較され(Diaz et al.2018)。Dixon et al.2018は、染色体末端又は小さい染色体に由来するフラグメントの高められた相互作用を説明する予想された染色体間相互作用頻度を推定する為に、9つの核型正常細胞株から作成された核近接データセットを組み合わせることによって広範な対照データセットを利用する。このような試験サンプル対対照サンプルの補正アプローチの欠点は、核近接アッセイ、例えば近接ライゲーションアッセイ、において容易に生じることができるサンプル固有のバイアスを考慮することができないことである。例えば、研究中のサンプルの純度、架橋化能力、フラグメント化効率及び(近接ライゲーションアッセイにおける)ライゲーション効率、該関心のあるゲノム領域の3D近接に位置するフラグメントが、生成された核近接データセットにおいてどの程度よく表されるかに実質的に影響を与える可能性がある。それ故に、これらの隠れた実験特異的バイアスを修正することは、感受性遺伝子座の構造的完全性を評価する為に核近接技術を利用する際の大きな障害であり、従って臨床用途の為にこれらの方法論を使用する際の障害である。
そこで、本発明者等は、データセット固有の技術的バイアス並びに実験的バイアスを考慮することによって、関心のある領域の構造的変異を識別する為の戦略を考案した。これらの戦略は、調査中の近接ライゲーションデータセット(例えば、患者の腫瘍から得られた試験サンプルからのものである)から計算されるバックグラウンドモデルを構築すること、そして次に、該バックグラウンドモデルを利用して、その同じ試験サンプルのゲノムにわたるライゲーションされたDNAフラグメントのクラスタリングの有意性を評価することを含みうる。このデータ内在性解析手順において、対照サンプルデータセットを使用する必要がない場合がある。
本発明者等は、関心のある領域と構造変異(例えば、染色体再配置又は転座)に関与するフラグメントが、偶然に予想されるよりも多くの独立してライゲーションされたDNAフラグメントを示すことに気が付いた。
以上の前提に基づき、本明細書に開示されている方法、装置及びコンピュータプログラム技術を用いて、染色体再配置における関心のあるゲノム領域の関与が評価されうる。
或る実施態様において、染色体再配置における関心のあるゲノム領域の関与は、以下によって評価されうる:
a.関心のあるゲノム領域を有する独立してライゲーションされたDNAフラグメントのデータセット(本明細書において、近接ライゲーションされた/連結された製品としてまた云われる)を作成するところの近接ライゲーションアッセイを実行すること;
b.各フラグメントの該ゲノム近傍におけるライゲーション頻度を、例えば合計することによって集約し、各フラグメントに「観察された集約されたライゲーションスコア」を割り当てること;
c.(観察されたライゲーション頻度が0に等しいDNAフラグメントを含む)各DNAフラグメントのライゲーション頻度を、ランダムに選ばれた別のDNAフラグメントによって順列化(スワップ)すること;
d.各フラグメント及びその近傍フラグメントの順列化されたライゲーション頻度を集約して、各フラグメントについてのランダム化され集約化されたライゲーションスコアを算出すること;
e.工程c~dを何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントについての「予想された集約されたライゲーションスコア」を形成すること;
f.任意的に、該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアをゼロに設定すること、ここで、これらのフラグメントは、例えば、該関心のあるゲノム領域から最大で10Mb離れた染色体区間中に位置されていることができ、ここで、この工程fは、該関心のあるゲノム領域に隣接するゲノム領域の該観察された集約されたライゲーションスコアを効果的に除外し、そのことは、この領域は、再配置に関与しているのではなく、再配置されていないゲノムにおいて関心のある領域と線形的に隣接する故に高い有意なスコアを有する可能性がある;
g.各DNAフラグメントの該観察された集約されたライゲーションスコアを、該予想され集約されたライゲーションスコアとを比較して、高い有意性のDNAフラグメント(すなわち、該予想され集約されたライゲーションスコアよりも観察された集約されたライゲーションスコアが有意に大きい)を識別すること
を含む。
a.関心のあるゲノム領域を有する独立してライゲーションされたDNAフラグメントのデータセット(本明細書において、近接ライゲーションされた/連結された製品としてまた云われる)を作成するところの近接ライゲーションアッセイを実行すること;
b.各フラグメントの該ゲノム近傍におけるライゲーション頻度を、例えば合計することによって集約し、各フラグメントに「観察された集約されたライゲーションスコア」を割り当てること;
c.(観察されたライゲーション頻度が0に等しいDNAフラグメントを含む)各DNAフラグメントのライゲーション頻度を、ランダムに選ばれた別のDNAフラグメントによって順列化(スワップ)すること;
d.各フラグメント及びその近傍フラグメントの順列化されたライゲーション頻度を集約して、各フラグメントについてのランダム化され集約化されたライゲーションスコアを算出すること;
e.工程c~dを何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントについての「予想された集約されたライゲーションスコア」を形成すること;
f.任意的に、該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアをゼロに設定すること、ここで、これらのフラグメントは、例えば、該関心のあるゲノム領域から最大で10Mb離れた染色体区間中に位置されていることができ、ここで、この工程fは、該関心のあるゲノム領域に隣接するゲノム領域の該観察された集約されたライゲーションスコアを効果的に除外し、そのことは、この領域は、再配置に関与しているのではなく、再配置されていないゲノムにおいて関心のある領域と線形的に隣接する故に高い有意なスコアを有する可能性がある;
g.各DNAフラグメントの該観察された集約されたライゲーションスコアを、該予想され集約されたライゲーションスコアとを比較して、高い有意性のDNAフラグメント(すなわち、該予想され集約されたライゲーションスコアよりも観察された集約されたライゲーションスコアが有意に大きい)を識別すること
を含む。
或る実施態様において、シス染色体再配置(例えば、染色体内欠失、逆位、又は挿入)における該関心のあるゲノム領域の関与を評価する為のプロセスが提供され、シス染色体対トランス染色体に由来するフラグメントの該予想されるライゲーション頻度の間の差を説明する為に、コンテクストを考慮した予想され集約されたライゲーションスコアが、
a.関心のあるゲノム領域を有する独立してライゲーションされたDNAフラグメントのデータセット(本明細書において、近接ライゲーションされた/連結された製品としてまた云われる)を作成するところの近接ライゲーションアッセイを実行すること;
b.該データセット中の各フラグメントの近傍中に存在するフラグメントの該ライゲーション頻度を集約して、各フラグメントの為に、観察され「集約されたライゲーションスコア」を生成すること;
c.シス染色体に由来する(観察されたライゲーション頻度がゼロに等しいシスのDNAフラグメントを含む)各フラグメントのライゲーション頻度を、シス染色体に由来するランダムに選ばれた別のフラグメントによって順列化すること;
d.シス染色体に由来する各フラグメント及びその近傍フラグメントの順列化されたライゲーション頻度を集約し、シス染色体に由来する各フラグメントについてのランダム化された集約されたライゲーションスコアを計算すること;
e.工程c~dを何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントについての予想された集約されたライゲーションスコアを形成すること;
f.任意的に、該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアをゼロに設定すること;
g.該シス染色体に由来する各フラグメントの該観察された集約されたライゲーションスコアを該予想され集約されたライゲーションスコアと比較して、高い有意性を有する(すなわち、有意に増加した該観察された集約されたライゲーションスコアを有する)該関心のあるゲノム領域を含むシス染色体中のフラグメントを識別すること
によって使用される。
a.関心のあるゲノム領域を有する独立してライゲーションされたDNAフラグメントのデータセット(本明細書において、近接ライゲーションされた/連結された製品としてまた云われる)を作成するところの近接ライゲーションアッセイを実行すること;
b.該データセット中の各フラグメントの近傍中に存在するフラグメントの該ライゲーション頻度を集約して、各フラグメントの為に、観察され「集約されたライゲーションスコア」を生成すること;
c.シス染色体に由来する(観察されたライゲーション頻度がゼロに等しいシスのDNAフラグメントを含む)各フラグメントのライゲーション頻度を、シス染色体に由来するランダムに選ばれた別のフラグメントによって順列化すること;
d.シス染色体に由来する各フラグメント及びその近傍フラグメントの順列化されたライゲーション頻度を集約し、シス染色体に由来する各フラグメントについてのランダム化された集約されたライゲーションスコアを計算すること;
e.工程c~dを何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントについての予想された集約されたライゲーションスコアを形成すること;
f.任意的に、該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアをゼロに設定すること;
g.該シス染色体に由来する各フラグメントの該観察された集約されたライゲーションスコアを該予想され集約されたライゲーションスコアと比較して、高い有意性を有する(すなわち、有意に増加した該観察された集約されたライゲーションスコアを有する)該関心のあるゲノム領域を含むシス染色体中のフラグメントを識別すること
によって使用される。
他の実施態様において、シス染色体対トランス染色体に由来するフラグメントの予想されるライゲーション頻度の間の差を説明する為に、コンテクストを考慮した予想され集約されたライゲーションスコアを使用しながら、染色体間再配置(すなわち、染色体の間の転座)における関心のあるゲノム領域の関与を、
a.関心のあるゲノム領域を有する独立してライゲーションされたDNAフラグメントのデータセット(本明細書において、近接ライゲーションされた/連結された製品としてまた云われる)を作成するところの近接ライゲーションアッセイを実行すること;
b.該データセット中の各フラグメントの近傍中に存在するフラグメントの該ライゲーション頻度を集約して、各フラグメントの為に、観察され「集約されたライゲーションスコア」を生成すること;
c.トランス染色体に由来する(観察されたライゲーション頻度がゼロに等しいトランスのDNAフラグメントを含む)各フラグメントのライゲーション頻度を、トランス染色体に由来するランダムに選ばれた別のフラグメントによって順列化すること;
d.トランス染色体に由来する各フラグメント及びその近傍フラグメントの順列化されたライゲーション頻度を集約し、トランス染色体に由来する各フラグメントについてのランダム化された集約されたライゲーションスコアを計算すること;
e.工程b~dを何度も繰り返し(典型的に、n=1000)、該データセット中の各トランスDNAフラグメントについての予想された集約されたライゲーションスコアを形成すること;
f.トランス染色体に由来する各フラグメントの該観察され集約されたライゲーションスコアを該予想され集約されたライゲーションスコアと比較して、高い有意性を有する(すなわち、有意に増加した該観察された集約されたライゲーションスコアを有する)トランス染色体中のフラグメントを識別すること
によって評価する方法が提供される。
a.関心のあるゲノム領域を有する独立してライゲーションされたDNAフラグメントのデータセット(本明細書において、近接ライゲーションされた/連結された製品としてまた云われる)を作成するところの近接ライゲーションアッセイを実行すること;
b.該データセット中の各フラグメントの近傍中に存在するフラグメントの該ライゲーション頻度を集約して、各フラグメントの為に、観察され「集約されたライゲーションスコア」を生成すること;
c.トランス染色体に由来する(観察されたライゲーション頻度がゼロに等しいトランスのDNAフラグメントを含む)各フラグメントのライゲーション頻度を、トランス染色体に由来するランダムに選ばれた別のフラグメントによって順列化すること;
d.トランス染色体に由来する各フラグメント及びその近傍フラグメントの順列化されたライゲーション頻度を集約し、トランス染色体に由来する各フラグメントについてのランダム化された集約されたライゲーションスコアを計算すること;
e.工程b~dを何度も繰り返し(典型的に、n=1000)、該データセット中の各トランスDNAフラグメントについての予想された集約されたライゲーションスコアを形成すること;
f.トランス染色体に由来する各フラグメントの該観察され集約されたライゲーションスコアを該予想され集約されたライゲーションスコアと比較して、高い有意性を有する(すなわち、有意に増加した該観察された集約されたライゲーションスコアを有する)トランス染色体中のフラグメントを識別すること
によって評価する方法が提供される。
近傍DNAフラグメントの近接頻度の集約は、総和、ローリング平均、ローリング中央値、最小値、最大値、標準偏差、三角カーネル、ガウスカーネル、半ガウスカーネル、若しくは他のタイプの加重和、又は任意の他の集約方法、例えば、ゲノム内の特定のDNAフラグメントの周囲のDNAフラグメントのウィンドウ内の2乗頻度値の平均、を含みうる。
染色体増幅は典型的には、増幅された染色体セグメント全体にわたって相対的に均一な近接頻度を示しうる。しかしながら、再配置パートナーは典型的に、該パートナーを該関心のあるゲノム領域に融合させる該切断部位付近で最も高い近接頻度を有しうる。その上、そのような再配置パートナーは典型的には、該切断部位から遠く離れたフラグメントについてより小さい近接頻度を示しうる。
或る実施態様において、染色体増幅は、近接頻度を(例えば、工程c又は工程401において)該関心のあるゲノム領域にライゲーションされるフラグメントの間だけで順列化することによって再配置パートナーから識別されうる。すなわち、予想され集約された近接性スコアを計算する場合に、ゼロよりも高い近接頻度を有するDNAフラグメントのみが順列化される。
或る実施態様において、染色体再配置を検出する為に、本明細書において開示されているような異なる計算方法のうちの幾つかが実行される。検出精度を向上させる為に、これらの異なる計算方法の結果が組み合わせられうる。例えば、該予想され集約される近接頻度は、観察された近接頻度がゼロに等しいDNAフラグメントを含むDNAフラグメントの順列化、又は観察された近接頻度が非ゼロのDNAフラグメントのみの順列化のいずれかを使用することによって計算されうる。しかしながら、両方の方法を用いて、2つのバージョンの該予想され集約された近接頻度を計算し、そして、両方の予想され集約された近接頻度からの何らかの偏差の有意性を決定し、そして、両方の方法の結果を組み合わせることがまた可能である。例えば、両方の方法が有意な偏差をもたらす場合にのみ、染色体再配置と判断されうる。代替的には、染色体再配置の可能性が両方の方法から決定されてもよく、そして、染色体再配置の最終的な可能性が、異なる適用方法の可能性を組み合わせることによって決定されてもよい。そのような組み合わせ方法は例えば、本明細書において開示されているように、染色体間再配置を検出する場合に実行されうる。
或る実施態様において、ゲノムに沿ったDNAフラグメントは、近接頻度が、各DNAフラグメントについて個別にではなく、近縁の関連するDNAフラグメントのビンについて検出されるように、ビン化されていてもよい。そのような場合、順列は、個々のDNAフラグメントの順列ではなく、ビンの順列であってもよい。
或る実施態様において、DNAフラグメント又はビンの観察され集約された近接頻度の有意スコアは、各DNAフラグメント又はビンの観察され集約された近接頻度を、実験において考慮された全てのDNAフラグメント又はビンから見て、該予想され集約される近接頻度と比較することによって計算されてもよい。そのような手順は、偽陽性コールの数を軽減するのに役立つ場合がある。
或る実施態様において、予想され集約された近接性スコアは、コンテクストを考慮したものであってもよい。例えば、DNAフラグメントの近接度数の順列は、或る基準に従って、関連するDNAフラグメント(又はビン)の間のスワップに制限されてもよい。「関連するフラグメント」及び「関連するビン」は例えば、同じトランス染色体に由来するフラグメント若しくはビンであってもよく、又は該関心のあるゲノム領域からの定義された線形距離に位置するシス染色体セグメントに由来するフラグメント若しくはビンであってもよく、又は類似の長さのフラグメント(若しくはフラグメントを有するビン)であってもよく、又は類似の架橋化効率、消化効率、ライゲーション効率及び/又はマッピング効率のフラグメント(若しくはフラグメントを有するビン)であってもよく、又は類似の架橋効率、消化効率、ライゲーション効率及び/又はマッピング効率を有する染色体セグメントからのフラグメント(若しくはフラグメントを有するビン)であってもよく、又は(調査中の細胞タイプにおいて)類似の転写活性若しくは類似の複製タイミングを有する染色体セグメントからのフラグメント(若しくはフラグメントを有するビン)であってもよく、又は類似のGC含量若しくはヌクレオチド組成若しくは保存の程度を有するフラグメント又はビンであってもよく、又は同じ空間核区画(例えばHi-C法により決定される場合のA区画及びB区画)中に存在するフラグメント又はビン、又はそれらの組み合わせである。これらの基準において、「類似」は、例えば、スワップされる2つのDNAフラグメント(又はビン)における関連する量の値の間の最大差を設定することによって、実装されうる。
或る実施態様において、該関心のあるゲノム領域を包含する染色体再配置を識別する為に、例えば、近傍集約の為に複数のサイズを考慮することによって、異なるゲノム長さスケールが考慮される。例えば、該解析は、200kb、750kb及び3mbのサイズであるゲノム近傍にわたる3つの異なるゲノム長さスケールの為に有意性スコアを計算することができる。例えば、集約は、N個の最近接DNAフラグメントの近接頻度を平均化することを含むことができ、ここで、Nは、長さスケールに対応する整数である。代替的には、集約は、カーネルを適用することによって、近接するDNAフラグメントの近接頻度の加重和を含むことができる。例えば、カーネルは、標準偏差を有するガウス分布に対応し得、ここで、該標準偏差は、ゲノムの長さスケールに対応する。同様に、他のパラメータ化されたカーネルが使用されてもよく、該カーネルの該パラメータはゲノム長さスケールに対応しうる。
或る実施態様において、ゲノム近傍の複数の異なる長さスケールについて計算された有意差スコアが組み合わされて、「スケール不変の」有意差スコアを生成しうる。有意差スコアの組み合わせの為の典型的な演算子は最小値及び平均値であるが、他の演算子が同様に利用されることができる。
或る実施態様において、該近接頻度は、ゲノム中のフラグメントの総数(N)と、或るDNAフラグメントに少なくとも1つのリードがマップされる下記の確率を考慮した二項検定を用いて、疎データセット中の各DNAフラグメントの近傍に少なくとも1つのリードがマップされたDNAフラグメントの密度(k)の為に補正されうる。
ここで、Mは、データセット中の少なくとも1つのリードがマップされたDNAフラグメントの総数である。次に、その結果得られたp値が、各フラグメントの近接頻度とみなされる(下記の式1を参照)。近傍フラグメントの該近接度数は、集約された近接度スコア内に組み合わされる。
或る実施態様において、該予想される近接性スコアは、2つの独立した二項検定を採用することによって、シス染色体対トランス染色体におけるフラグメントの予想される近接頻度の間の差の為に補正されうる。二項検定のうちの1つは、該データセット中のシスフラグメントの総数と、少なくとも1つのリードによってカバーされているシスフラグメントの総数とを説明するものである。他の二項検定は、該データセット中のトランスフラグメントの総数と、少なくとも1つのリードによってカバーされているトランスフラグメントの総数とについて説明する。
円形化された染色体コンフォーメーション捕捉(4C)データを使用した該関心のある領域における染色体転座検出の例
この例において、関心のある領域が選択される。該関心のある領域はしばしば、癌遺伝子又は癌抑制遺伝子を包含し、並びに該領域は、特定のタイプの癌において再配置されることが一般的に見出される。次に、4C実験が、頻繁に転座される少なくとも1つの部位に隣接するように設計されたプライマーを用いて該関心のある領域において行われる(Krijger et al.2019)。任意的に、一意な分子識別子(UMI:Unique Molecule Identifier)がプライマーに付されて、ライゲーションが独立して捕捉されるようにすることができる(Schwartzman et al.2016)。ライゲーション産物のPCR増幅を含む4C(様)実験においてUMIを使用すること無しに、フラグメントのライゲーション頻度が、好ましくは最初にPCR重複を取り除く為にフィルタリングされ、それは例えば下流解析におけるデータ二値化によって行われることができる(すなわち、捕捉されたフラグメント(1)と、捕捉されていないフラグメント(0)とを区別するためだけである)。従って、生成されたリードが参照ゲノムに一旦マッピングされると、各フラグメントにマッピングされたリードの数に従って、各フラグメントのライゲーション頻度が計算されることができる。UMIが使用されない場合、少なくとも1つのリードによってカバーされているフラグメントのライゲーション頻度が1に設定され、並びに残りが0と設定される(すなわち、独立してライゲーションされたフラグメントのみを考慮する二値化)。
近傍フラグメントのライゲーション頻度は、例えば各フラグメントを中心としたガウスカーネルによって集約され、該観察され集約されたライゲーションスコアを形成しうる。該近傍パラメータは、200kb、750kb及び3mb、又は任意の他の適切な値に設定されることができる。ここで、kbはキロベース、並びにmbはメガベースを表す。
次に、シス染色体に由来する各フラグメントのライゲーション頻度が、シス染色体に由来するランダムに選択された別のフラグメントとスワッピングされる。言い換えれば、シス染色体に由来する第1のフラグメントのライゲーション頻度が、シス染色体に由来するランダムに選択された第2のフラグメントに割り当てられ、第2のフラグメントのライゲーション頻度が、該第1のフラグメントに割り当てられる。この動作により、該第1のフラグメントと該第2のフラグメントの元々のライゲーション頻度が、該第2のフラグメントと該第1のフラグメントのライゲーション頻度によってそれぞれ上書きされる。
同様に、トランス染色体に由来する各フラグメントのライゲーション頻度が、トランス染色体に由来するランダムに選択された別のフラグメントとスワッピングされる。
各フラグメント及びその近傍のフラグメントのスワッピングされたライゲーション頻度が、各フラグメントを中心とするガウスカーネルによって集約され、各フラグメントの為にランダムな集約されたライゲーションスコアを計算する。該スワッピング手順が何度も繰り返されて(典型的に、n=1000)、データセット中の各フラグメントの為に、予想され集約されるライゲーションスコアのコレクションを形成する。このコレクションから、予想され集約されたライゲーションスコアの平均及び標準偏差が各フラグメントについて計算されることができる。最後に、各フラグメントの該観察され集約されたライゲーションスコアが、対応するフラグメントの該予想され集約されたライゲーションスコアについての平均及び標準偏差と比較され、各フラグメントの為に、z-スコア(又は、好ましい場合にはp値)を計算する。該z-スコア(又はp-値)は、該観察され集約されたライゲーションスコアが有意に増加したフラグメントを識別する。
或る実施態様において、該関心のある領域における構造的変異検出実験は、例えば、以下のようにして実行されることができる:
1.構造的完全性試験を受ける必要がある関心のある領域を選択すること;
2.転座される頻度の高い1以上の部位に隣接するように設計されたプライマーを使用して、該関心のある領域において4C実験を行うこと(Krijger et al.2019);
3.任意的に、プライマーにUMIを付着させ、独立してライゲーションされたフラグメントを見分けること(Schwartzman et al.2016);
4.捕捉されたリードを参照ゲノムにマッピングすること;
5.各フラグメントにマッピングされたリードの数に従って、各フラグメントのライゲーション頻度を算出すること;
6.UMIが使用されない場合に、少なくとも1つのリードによってカバーされているフラグメントのライゲーション頻度を1に設定し、並びに該フラグメントの残りを0に設定する(すなわち、二値化する);
7.各フラグメントを中心としたガウスカーネルを用いて、近傍フラグメントのライゲーション頻度を集約して、観察され集約されたライゲーションスコアを形成すること、ここで、近傍パラメータは、例えば、200kb、750kb及び3mbに設定されることができ、しかしながら、任意の所望の近傍パラメータが考慮されることができる;
8.シス染色体に由来する各フラグメントのライゲーション頻度を、シス染色体に由来し、ランダムに選ばれた別のフラグメントとスワッピングすること;
9.トランス染色体に由来する各フラグメントのライゲーション頻度を、トランス染色体に由来し、ランダムに選ばれた別のフラグメントとスワッピングすること;
10.各フラグメントを中心としたガウスカーネルを用いて、各フラグメント及びその近傍フラグメントのスワッピングされたライゲーション頻度を集約し、各フラグメントについてのランダム化され集約されたライゲーションスコアを計算すること;
11.スワッピングの手順を何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントの為に、集約されたライゲーションスコアのコレクションを形成すること;
12.任意的に、該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアを0として設定すること、ここで、該領域は、例えば、該関心のある領域から+/-10mb離れているとされることができ、しかしながら、該領域の大きさは任意に選択されてもよく、この工程は、該関心のある領域と線形に隣接している故に高い有意スコアを有する可能性のある該観察され集約されたライゲーションスコアを、該解析から除外する為に使用されうる;
13.該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアの平均及び標準偏差を、集約されたライゲーションスコアの該コレクションを使用して計算すること;
14.各フラグメントの該観察され集約されたライゲーションスコアを、予想され集約されたライゲーションスコアの平均及び標準偏差と比較して、z-スコア(及び/又はp値、好ましい場合)を計算すること;並びに
15.z-スコアが或る閾値よりも上、例えば7よりも上、を有するフラグメントは、該関心のある領域とのゲノム再配置に関与していると考えられうる。同様に、p値が或る閾値よりも下、例えば0.1よりも下、を有するフラグメントは、該関心のある領域とのゲノム再配置に関与していると考えられうる。
1.構造的完全性試験を受ける必要がある関心のある領域を選択すること;
2.転座される頻度の高い1以上の部位に隣接するように設計されたプライマーを使用して、該関心のある領域において4C実験を行うこと(Krijger et al.2019);
3.任意的に、プライマーにUMIを付着させ、独立してライゲーションされたフラグメントを見分けること(Schwartzman et al.2016);
4.捕捉されたリードを参照ゲノムにマッピングすること;
5.各フラグメントにマッピングされたリードの数に従って、各フラグメントのライゲーション頻度を算出すること;
6.UMIが使用されない場合に、少なくとも1つのリードによってカバーされているフラグメントのライゲーション頻度を1に設定し、並びに該フラグメントの残りを0に設定する(すなわち、二値化する);
7.各フラグメントを中心としたガウスカーネルを用いて、近傍フラグメントのライゲーション頻度を集約して、観察され集約されたライゲーションスコアを形成すること、ここで、近傍パラメータは、例えば、200kb、750kb及び3mbに設定されることができ、しかしながら、任意の所望の近傍パラメータが考慮されることができる;
8.シス染色体に由来する各フラグメントのライゲーション頻度を、シス染色体に由来し、ランダムに選ばれた別のフラグメントとスワッピングすること;
9.トランス染色体に由来する各フラグメントのライゲーション頻度を、トランス染色体に由来し、ランダムに選ばれた別のフラグメントとスワッピングすること;
10.各フラグメントを中心としたガウスカーネルを用いて、各フラグメント及びその近傍フラグメントのスワッピングされたライゲーション頻度を集約し、各フラグメントについてのランダム化され集約されたライゲーションスコアを計算すること;
11.スワッピングの手順を何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントの為に、集約されたライゲーションスコアのコレクションを形成すること;
12.任意的に、該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアを0として設定すること、ここで、該領域は、例えば、該関心のある領域から+/-10mb離れているとされることができ、しかしながら、該領域の大きさは任意に選択されてもよく、この工程は、該関心のある領域と線形に隣接している故に高い有意スコアを有する可能性のある該観察され集約されたライゲーションスコアを、該解析から除外する為に使用されうる;
13.該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアの平均及び標準偏差を、集約されたライゲーションスコアの該コレクションを使用して計算すること;
14.各フラグメントの該観察され集約されたライゲーションスコアを、予想され集約されたライゲーションスコアの平均及び標準偏差と比較して、z-スコア(及び/又はp値、好ましい場合)を計算すること;並びに
15.z-スコアが或る閾値よりも上、例えば7よりも上、を有するフラグメントは、該関心のある領域とのゲノム再配置に関与していると考えられうる。同様に、p値が或る閾値よりも下、例えば0.1よりも下、を有するフラグメントは、該関心のある領域とのゲノム再配置に関与していると考えられうる。
TLA(Targeted Locus Amplification)データを用いた該関心のある領域における染色体転座検出の実施例
この例において、関心のある領域が選択されうる。該関心のある領域はしばしば、癌遺伝子抑制遺伝子又は癌抑制遺伝子を包含し、並びに該領域は、特定のタイプの癌において再配置されることが一般的に見出されている場合がある。次に、TLA実験が、頻繁に転座される1つの部位又は頻繁に転座される複数の部位に隣接するように設計されたプライマーを用いて、該関心のある領域において行われる(Hottentot et al.2017)。捕捉されたリードが参照ゲノムに一旦マッピングされると、各フラグメントのライゲーション頻度が、各フラグメントにマッピングされたリードの数に従って計算されることができる。少なくとも1つのリードによってカバーされているフラグメントのライゲーション頻度が1に設定されてもよく、並びに残りが0に設定されてもよい(すなわち、二値化)。
近傍フラグメントのライゲーション頻度は、各フラグメントを中心としたガウスカーネルによって集約され、該観察され集約されたライゲーションスコアを形成しうる。該近傍パラメータは、200kb、750kb、3mb、又は任意の他の値に設定されることができる。
次に、シス染色体に由来する複数のフラグメントの集約されたライゲーション頻度又は集約されていないライゲーション頻度が、シス染色体に由来するランダムに選択された別のフラグメントとスワッピングされる。同様に、トランス染色体に由来する複数のフラグメントのライゲーション頻度が、トランス染色体に由来するランダムに選択された別のフラグメントとスワッピングされる。各フラグメント及びその近傍フラグメントのスワッピングされたライゲーション頻度は、例えば、各フラグメントを中心とするガウスカーネルを適用することによって集約され、各フラグメントの為にランダムに集約されたライゲーションスコアを計算する。該スワッピング手順が何度も繰り返されて(典型的に、n=1000)、該データセット中の各フラグメントの為に、ありうる集約されたライゲーションスコアのコレクションを形成する。このコレクションから、予想され集約されたライゲーションスコアの平均及び標準偏差が計算されることができる。最後に、各フラグメントの該観察され集約されたライゲーションスコアが、予想され集約されるライゲーションスコアのそれぞれの平均及び標準偏差と比較され、各フラグメントの為に、z-スコア(又は、好ましい場合にはp値)を計算する。該z-スコア(又はp-値)は、該観察され集約されたライゲーションスコアが有意に増加したフラグメントを識別する。
或る実施態様において、該関心のある領域における構造的変異検出実験は、例えば、以下のようにして実行されることができる:
1.構造的完全性試験を受ける必要がある関心のある領域を選択すること;
2.転座される頻度の高い少なくとも1つの部位に隣接するように設計されたプライマーを使用して、該関心のある領域においてTLA実験を行うこと(Hottentot et al.2017);
3.捕捉されたリードを参照ゲノムにマッピングすること;
4.少なくとも1つのリードによってカバーされているフラグメントのライゲーション頻度を1に設定し、並びに該フラグメントの残りを0に設定すること(すなわち、二値化する);
5.各フラグメントを中心としたガウスカーネルによって、近傍フラグメントのライゲーション頻度を集約して、観察され集約されたライゲーションスコアを形成すること、ここで、近傍パラメータは、200kb、750kb、3mb又は任意の他の値に設定されることができる;
6.シス染色体に由来する各フラグメントのライゲーション頻度を、シス染色体に由来し、ランダムに選ばれた別のフラグメントとスワッピングすること;
7.トランス染色体に由来する各フラグメントのライゲーション頻度を、トランス染色体に由来し、ランダムに選ばれた別のフラグメントとスワッピングすること;
8.各フラグメントを中心としたガウスカーネルによって、各フラグメント及びその近傍フラグメントのスワッピングされたライゲーション頻度を集約し、各フラグメントについてのランダム化され集約されたライゲーションスコアを計算すること;
9.該スワッピングの手順を何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアを形成すること;
10.該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアの平均及び標準偏差を計算すること;
11.該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアを0として設定すること、ここで、該領域は典型的に、該関心のある領域から+/-10mb離れているとされることができ、このことが、該関心のある領域と線形に隣接している故に高められる可能性のある該観察され集約されたライゲーションスコアを除外する;
12.各フラグメントの該観察され集約されたライゲーションスコアを、予想され集約されたライゲーションスコアの平均及び標準偏差と比較して、z-スコア(及びp値、好ましい場合)を計算すること;並びに
13.z-スコアが或る閾値よりも上、例えば7よりも上、を有するフラグメントは、該関心のある領域とのゲノム再配置に関与していると考えられうる。
1.構造的完全性試験を受ける必要がある関心のある領域を選択すること;
2.転座される頻度の高い少なくとも1つの部位に隣接するように設計されたプライマーを使用して、該関心のある領域においてTLA実験を行うこと(Hottentot et al.2017);
3.捕捉されたリードを参照ゲノムにマッピングすること;
4.少なくとも1つのリードによってカバーされているフラグメントのライゲーション頻度を1に設定し、並びに該フラグメントの残りを0に設定すること(すなわち、二値化する);
5.各フラグメントを中心としたガウスカーネルによって、近傍フラグメントのライゲーション頻度を集約して、観察され集約されたライゲーションスコアを形成すること、ここで、近傍パラメータは、200kb、750kb、3mb又は任意の他の値に設定されることができる;
6.シス染色体に由来する各フラグメントのライゲーション頻度を、シス染色体に由来し、ランダムに選ばれた別のフラグメントとスワッピングすること;
7.トランス染色体に由来する各フラグメントのライゲーション頻度を、トランス染色体に由来し、ランダムに選ばれた別のフラグメントとスワッピングすること;
8.各フラグメントを中心としたガウスカーネルによって、各フラグメント及びその近傍フラグメントのスワッピングされたライゲーション頻度を集約し、各フラグメントについてのランダム化され集約されたライゲーションスコアを計算すること;
9.該スワッピングの手順を何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアを形成すること;
10.該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアの平均及び標準偏差を計算すること;
11.該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアを0として設定すること、ここで、該領域は典型的に、該関心のある領域から+/-10mb離れているとされることができ、このことが、該関心のある領域と線形に隣接している故に高められる可能性のある該観察され集約されたライゲーションスコアを除外する;
12.各フラグメントの該観察され集約されたライゲーションスコアを、予想され集約されたライゲーションスコアの平均及び標準偏差と比較して、z-スコア(及びp値、好ましい場合)を計算すること;並びに
13.z-スコアが或る閾値よりも上、例えば7よりも上、を有するフラグメントは、該関心のある領域とのゲノム再配置に関与していると考えられうる。
Hi-Cデータを用いた該関心のある領域における染色体転座検出の実施例
Hi-Cデータは、細胞の集団におけるクロマチン相互作用のゲノムワイドなビューを提供する(Lieberman-Aiden et al.2009)。該関心のある領域を表す選択されたフラグメント(いわゆる「視点」(viewpoint))とゲノム中の任意の他のフラグメントとの間で生じる3D相互作用(4C又はTLAにおいて行われるように;1つ対全戦略(one vs.all)としてまた呼ばれる)を描くことの代わりに、Hi-Cデータは、ゲノム中のそれぞれのフラグメントと該ゲノム中の任意の他のフラグメントとの間の相互作用を表す(全対全戦略(all vs.all)としてまた呼ばれる)。それ故に、Hi-Cデータは、多くの該関心のある領域に分割されることができ、それぞれの領域は、本明細書において開示されている技術を用いて構造的完全性の為に独立して分析されることができる。この目的の為に、Hi-Cで得られた配列決定されたリードは、参照ゲノムに最初にマッピングされうる。次に、選択された該関心のある領域にライゲーションされていることが見つけられたリードが選択されうる。次に、該選択されたリードを用いて、各フラグメントのライゲーション頻度が、各フラグメントにマッピングされた選択されたリードの数に従って計算されうる。
近傍フラグメントのライゲーション頻度は、例えば各フラグメントを中心としたガウスカーネルによって集約され、該観察され集約ライゲーションスコアを形成しうる。該近傍パラメータ(すなわち、長さスケール)は、200kb、750kb及び3mbに設定されることができるが、他のサイズがまた考慮されることができる。
次に、シス染色体に由来する各フラグメントのライゲーション頻度が、シス染色体に由来するランダムに選択された別のフラグメントとスワッピングされる。同様に、トランス染色体由来の各フラグメントのライゲーション頻度が、トランス染色体由来のランダムに選択された別のフラグメントとスワッピングされる。各フラグメント及びその近傍のフラグメントのスワッピングされたライゲーション頻度が、例えば各フラグメントを中心とするガウスカーネルによって集約され、各フラグメントの為にランダムな集約されたライゲーションスコアを計算しうる。
該スワッピング手順が何度も繰り返されて(典型的に、n=1000)、データセット中の各フラグメントの為に、集約されたライゲーションスコアのコレクションを形成しうる。このコレクションから、各フラグメントの為に、予想され集約されたライゲーションスコアの平均及び標準偏差を計算することができる。最後に、各フラグメントの該観察され集約されたライゲーションスコアが、予想される集約されたライゲーションスコアの個々の平均及び標準偏差と比較され、各フラグメントのスコアの為に、例えばzスコア又はp値、を計算する。このスコアは、該観察され集約されたライゲーションスコアが有意に増加したフラグメントを識別する。
或る実施態様において、該関心のある領域における構造的変異検出実験は、例えば、以下のようにして実行されることができる:
1.関心のある細胞/組織におけるHi-C実験を行うこと(Lieberman-Aiden et al.2009);
2.配列決定されたリードを参照ゲノムにマッピングすること;
3.構造的完全性試験を受けようとする該関心のあるゲノム領域を定義すること;
4.該関心のある領域にライゲーションされていることが見つけられたリードを選択すること;
5.近傍フラグメントのライゲーション頻度を、例えば各フラグメントを中心としたガウスカーによって集約し、該集約されたライゲーションスコアを形成すること、ここで、近傍パラメータは200kb、750kb及び3mbに設定されることができるが、他の類似サイズがまた考慮されることができる;
6.シス染色体に由来する各フラグメントのライゲーション頻度を、シス染色体に由来するランダムに選ばれた別のフラグメントとスワッピングすること;
7.トランス染色体由来の各フラグメントのライゲーション頻度を、トランス染色体由来のランダムに選ばれた別のフラグメントとスワッピングすること;
8.各フラグメント及びその近傍のフラグメントのスワッピングされたライゲーション頻度を、例えば各フラグメントを中心としたガウスカーネルによって集約し、各フラグメントのランダム化され集約されたライゲーションスコアを計算すること;
9.該スワッピングの手順を何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアを形成すること;
10.該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアの平均及び標準偏差を計算すること;
11.該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアを0として設定すること、ここで、例えば、このことが、該関心のある領域から典型的に+/-10mb離れたゲノム領域に適用され、この任意の工程は、該関心のある領域への線形に隣接している故に高められる可能性のある該観察され集約されたライゲーションスコアを除外する為に実行されうる;
12.各フラグメントの該観察され集約されたライゲーションスコアを、予想され集約されたライゲーションスコアの平均及び標準偏差と比較して、スコア、例えばz-スコア(及び/又はp値、好ましい場合)を計算すること;
13.スコアが或る閾値よりも上、例えばz-スコア7よりも上、を有するフラグメントは、該関心のある領域とのゲノム再配置に関与していると考えられうる。
1.関心のある細胞/組織におけるHi-C実験を行うこと(Lieberman-Aiden et al.2009);
2.配列決定されたリードを参照ゲノムにマッピングすること;
3.構造的完全性試験を受けようとする該関心のあるゲノム領域を定義すること;
4.該関心のある領域にライゲーションされていることが見つけられたリードを選択すること;
5.近傍フラグメントのライゲーション頻度を、例えば各フラグメントを中心としたガウスカーによって集約し、該集約されたライゲーションスコアを形成すること、ここで、近傍パラメータは200kb、750kb及び3mbに設定されることができるが、他の類似サイズがまた考慮されることができる;
6.シス染色体に由来する各フラグメントのライゲーション頻度を、シス染色体に由来するランダムに選ばれた別のフラグメントとスワッピングすること;
7.トランス染色体由来の各フラグメントのライゲーション頻度を、トランス染色体由来のランダムに選ばれた別のフラグメントとスワッピングすること;
8.各フラグメント及びその近傍のフラグメントのスワッピングされたライゲーション頻度を、例えば各フラグメントを中心としたガウスカーネルによって集約し、各フラグメントのランダム化され集約されたライゲーションスコアを計算すること;
9.該スワッピングの手順を何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアを形成すること;
10.該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアの平均及び標準偏差を計算すること;
11.該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアを0として設定すること、ここで、例えば、このことが、該関心のある領域から典型的に+/-10mb離れたゲノム領域に適用され、この任意の工程は、該関心のある領域への線形に隣接している故に高められる可能性のある該観察され集約されたライゲーションスコアを除外する為に実行されうる;
12.各フラグメントの該観察され集約されたライゲーションスコアを、予想され集約されたライゲーションスコアの平均及び標準偏差と比較して、スコア、例えばz-スコア(及び/又はp値、好ましい場合)を計算すること;
13.スコアが或る閾値よりも上、例えばz-スコア7よりも上、を有するフラグメントは、該関心のある領域とのゲノム再配置に関与していると考えられうる。
Hi-Cデータを用いたゲノムワイドな染色体転座検出の例
Hi-Cデータは、細胞の集団におけるクロマチン相互作用のゲノムワイドなビューを提供する(Lieberman-Aiden et al.2009)。該関心のある領域を表す選択されたフラグメント(いわゆる「視点」(viewpoint))とゲノム中の任意の他のフラグメントとの間で生じる3D相互作用(4C又はTLAにおいて行われるように;1つ対全戦略(one vs.all)としてまた呼ばれる)を描くことの代わりに、Hi-Cデータは、ゲノム中のそれぞれのフラグメントと該ゲノム中の任意の他のフラグメントとの間の相互作用を表す(全対全戦略(all vs.all)としてまた呼ばれる)。それ故に、記載された方法に若干の修正を加えることによって、該Hi-Cデータはゲノム全体の構造的完全性の全体像を明らかにする為に利用されることができる。この目的の為に、Hi-Cで得られた配列決定されたリードは、参照ゲノムに最初にマッピングされうる。次に、ライゲーションされたフラグメントの対が選択される。次に、該選択されたフラグメントの対を用いて、各フラグメントペアのライゲーション頻度が計算されうる。このことは、ゲノム中のDNAフラグメント対の組み合わせ毎に、互いにライゲーションされているDNAフラグメント対を観察する頻度を保持する行列を形成する。
近傍フラグメント対のライゲーション頻度は、例えば各フラグメント対を中心とした2次元ガウスカーネルによって集約され、該観察され集約されたライゲーションスコアを形成しうる。該近傍パラメータ(すなわち、長さスケール)は、200kb、750kb及び3mbに設定されることができるが、他のサイズがまた考慮されることができる。
次に、各フラグメント対のライゲーション頻度が、ランダムに選択された別の関連する(図4参照)フラグメント対によってスワッピングされうる。各フラグメント対及びその近傍のフラグメントの該スワッピングされたライゲーション頻度は、例えば各フラグメント対を中心とするガウスカーネルによって集約され、各フラグメント対のランダム化され集約されたライゲーションスコアが計算されうる。
該スワッピング手順が何度も繰り返されて(典型的に、約n=1000回)、データセット中の各フラグメント対の為に、集約されたライゲーションスコアのコレクションを形成しうる。このコレクションから、各フラグメント対の為に、予想され集約されたライゲーションスコアの平均及び標準偏差を計算することができる。最後に、各フラグメント対の該観察され集約されたライゲーションスコアが、予想され集約されるライゲーションスコアの個々の平均値及び標準偏差と比較されて、各フラグメント対の為に、スコア、例えばzスコア又はp値、を計算する。このスコアは、該観察され集約されたライゲーションスコアが有意に増加したフラグメント対を識別する。
或る実施態様において、構造的変異検出実験は、例えば、以下のようにして実行されることができる:
1.関心のある細胞/組織におけるHi-C実験を行うこと(Lieberman-Aiden et al.2009);
2.配列決定されたリードを参照ゲノムにマッピングすること;
3.ライゲーションされたフラグメント対を選択すること;
4.近傍フラグメントのライゲーション頻度を、例えば各フラグメント対を中心としたガウスカーによって集約し、該集約されたライゲーションスコアを形成すること、ここで、近傍パラメータは200kb、750kb及び3mbに設定されることができるが、他の類似サイズがまた考慮されることができる;
5.各フラグメント対のライゲーション頻度を、ランダムに選ばれた別の関連するDNAフラグメント対とスワッピングすること;
6.各フラグメント対及びその近傍のフラグメント対のスワッピングされたライゲーション頻度を、例えば各フラグメントを中心としたガウスカーネルによって集約し、各フラグメント対のランダム化され集約されたライゲーションスコアを計算すること;
7.該スワッピングの手順を何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメント対の為に、予想され集約されたライゲーションスコアを形成すること;
8.該データセット中の各フラグメント対の為に、予想され集約されたライゲーションスコアの平均及び標準偏差を計算すること;
9.該関心のある領域の近傍に存在するフラグメント対の該観察され集約されたライゲーションスコアを0に設定すること、ここで、例えば、このことが、該関心のある領域から典型的に+/-10mb離れたゲノム領域に適用され、この任意の工程は、該関心のある領域への線形に隣接している故に高められる可能性のある該観察され集約されたライゲーションスコアを除外する為に実行されうる;
10.各フラグメント対の該観察され集約されたライゲーションスコアを、予想され集約されたライゲーションスコアの平均及び標準偏差と比較して、スコア、例えばz-スコア(及び/又はp値、好ましい場合)を計算すること;
11.スコアが或る閾値よりも上、例えばz-スコア7よりも上、を有するフラグメント対は、該関心のある領域とのゲノム再配置に関与していると考えられうる。
1.関心のある細胞/組織におけるHi-C実験を行うこと(Lieberman-Aiden et al.2009);
2.配列決定されたリードを参照ゲノムにマッピングすること;
3.ライゲーションされたフラグメント対を選択すること;
4.近傍フラグメントのライゲーション頻度を、例えば各フラグメント対を中心としたガウスカーによって集約し、該集約されたライゲーションスコアを形成すること、ここで、近傍パラメータは200kb、750kb及び3mbに設定されることができるが、他の類似サイズがまた考慮されることができる;
5.各フラグメント対のライゲーション頻度を、ランダムに選ばれた別の関連するDNAフラグメント対とスワッピングすること;
6.各フラグメント対及びその近傍のフラグメント対のスワッピングされたライゲーション頻度を、例えば各フラグメントを中心としたガウスカーネルによって集約し、各フラグメント対のランダム化され集約されたライゲーションスコアを計算すること;
7.該スワッピングの手順を何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメント対の為に、予想され集約されたライゲーションスコアを形成すること;
8.該データセット中の各フラグメント対の為に、予想され集約されたライゲーションスコアの平均及び標準偏差を計算すること;
9.該関心のある領域の近傍に存在するフラグメント対の該観察され集約されたライゲーションスコアを0に設定すること、ここで、例えば、このことが、該関心のある領域から典型的に+/-10mb離れたゲノム領域に適用され、この任意の工程は、該関心のある領域への線形に隣接している故に高められる可能性のある該観察され集約されたライゲーションスコアを除外する為に実行されうる;
10.各フラグメント対の該観察され集約されたライゲーションスコアを、予想され集約されたライゲーションスコアの平均及び標準偏差と比較して、スコア、例えばz-スコア(及び/又はp値、好ましい場合)を計算すること;
11.スコアが或る閾値よりも上、例えばz-スコア7よりも上、を有するフラグメント対は、該関心のある領域とのゲノム再配置に関与していると考えられうる。
捕捉Hi-Cデータを用いた関心のある領域における染色体転座検出の実施例
核内で関心のあるゲノム領域の配列に近接していたフラグメントにライゲーションされた関心のあるゲノム領域(例えば、遺伝子座全体、又は複数の部分に細分化された遺伝子座)の配列をプルダウンし、そして抽出し、該関心のあるゲノム領域におけるありうる再配置パートナー及び切断部位を識別するのに役立つところの、捕捉プローブを用いた捕捉Hi-C実験(Dryden et al.2014)又は同様の実験を用いることが可能である。例えば、関心のあるゲノム領域が関与する相互転座は、その領域の一部が一方の派生染色体に融合した領域の一部分と、該関心のあるゲノム領域の他の部分が他方の派生染色体に融合した関心のあるゲノム領域の他の部分とを有するであろう。その結果、再配列の切断部位の片側にある該関心のあるゲノム領域の該部分は、該切断部位で且つ該融合したトランス染色体の片側に向かって有意に増加したライゲーション頻度を示し、一方、再配列の切断部位の反対側にある該関心のあるゲノム領域の該部分は、該切断部位から該融合したトランス染色体の反対側に向かって有意に増加したライゲーション頻度を有することが示すであろう。本明細書に開示されている技術を用いて、該関心のあるゲノム領域の異なる部分のライゲーション産物を選択的に分析することによって、両方の再配置された座における切断部位の位置を推定し又は決定さえすることができる。
捕捉されたリードが参照ゲノムにマッピングされると、各フラグメントのライゲーション頻度が、フラグメントにマッピングされたリードの数に従って計算されることができる。ペアエンド配列決定(paired-end sequencing)が行われる場合には、配列決定されたリードが、該関心のある領域におけるライゲーションされたゲノム部分(又はフラグメント)に応じて複数のデータセットに分割されることができる。
近傍フラグメントのライゲーション頻度は、例えば各フラグメントを中心としたガウスカーネルによって集約され、該観察され集約されたライゲーションスコアを形成しうる。近傍パラメータは、200kb、750kb及び3mbに設定されることができるが、他のサイズがまた考慮されることができる。
次に、シス染色体に由来する各フラグメントのライゲーション頻度が、シス染色体に由来するランダムに選ばれた別のフラグメントとスワッピングされうる。同様に、トランス染色体由来の各フラグメントのライゲーション頻度が、トランス染色体由来のランダムに選択された別のフラグメントとスワッピングされうる。各フラグメントとその近傍のフラグメントの該ライゲーション頻度は、例えば、各フラグメントを中心とするガウスカーネルによって集約され、各フラグメントのランダム化され集約されたライゲーションスコアが計算されうる。
該スワッピング手順が何度も繰り返されて(例えば、n=1000回)、データセット中の各フラグメントの為に、順列化され集約されたライゲーションスコアのコレクションを形成しうる。このコレクションから、該予想され集約されるライゲーションスコアについての平均及び標準偏差が計算されることができる。
最後に、各フラグメントの該観察され集約されたライゲーションスコアが、予想され集約されたライゲーションスコアの個々の平均及び標準偏差と比較して、各フラグメントのスコア、例えばzスコア又はp値、を計算しうる。このスコアは、該観察され集約されたライゲーションスコアが有意に増加したフラグメントを識別しうる。
或る実施態様において、該関心のある領域における構造的変異検出実験は、例えば、以下のようにして実行されることができる:
1.構造的完全性試験を受ける必要がある関心のある領域を選択すること;
2.転座される頻度の高い少なくとも1つのゲノム部位をカバーするように設計されたプローブの1組を使用して、該関心のある領域において捕捉HiC実験を行うこと(Dryden et al.2014);
3.捕捉されたリードを参照ゲノムにマッピングすること;
4.ペアエンド配列決定の場合、マッピングされたリードを、ライゲーションされた関心のあるゲノム部位に応じて複数のデータセットへと分割することがおそらく可能であること、選択された該関心のある領域にライゲーションされたフラグメントのデータセットで、下記の工程を実行すること;
5.任意的に、少なくとも1つのリードによってカバーされているフラグメントのライゲーション頻度を1に設定し、並びに該フラグメントの残りを0に設定すること(すなわち、二値化する);
6.例えば各フラグメントを中心としたガウスカーネルによって、近傍フラグメントのライゲーション頻度を集約して、観察され集約されたライゲーションスコアを形成すること、ここで、近傍パラメータは、200kb、750kb及び3mbに設定されることができるが、他のサイズ又は任意の他のサイズがまた考慮されることができる;
7.シス染色体に由来する各フラグメントのライゲーション頻度を、シス染色体に由来するランダムに選ばれた別のフラグメントとスワッピングすること;
8.トランス染色体由来の各フラグメントのライゲーション頻度を、トランス染色体由来のランダムに選ばれた別のフラグメントとスワッピングすること;
9.各フラグメント及びその近傍のフラグメントのスワッピングされたライゲーション頻度を、例えば各フラグメントを中心としたガウスカーネルによって集約し、各フラグメントのランダム化され集約されたライゲーションスコアを計算すること;
10.該スワッピングの手順を何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントの為に、集約され順列化されたライゲーションスコアのコレクションを形成すること;
11.該集約され順列化されたライゲーションスコアのコレクションから、該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアの平均及び標準偏差を計算すること;
12.該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアを0として設定すること、ここで、該領域は例えば、該関心のある領域から+/-10mb離れていてもよく、このことは、該関心のある領域への線形に隣接している故に高められる可能性のある該観察され集約されたライゲーションスコアを除外する;
13.各フラグメントの該観察され集約されたライゲーションスコアを、該予想され集約されたライゲーションスコアの平均及び標準偏差と比較して、スコア、例えばz-スコア及び/又は好ましい場合にはp値を計算すること;
14.スコアが或る閾値よりも上、例えばz-スコア7よりも上、を有するフラグメントは、該関心のある領域とのゲノム再配置に関与していると考えられうる。
15.工程4において複数のデータセットが作成される場合(関心のある変えられた領域を用いて)、他のデータセットの少なくとも幾つかについて、そのデータセットに適用するゲノム該関心のあるゲノム領域で工程5~14を繰り返すこと、ここで、異なるデータセットの結果を組み合わせて、再配置の位置についてより詳細な情報を得ること。
1.構造的完全性試験を受ける必要がある関心のある領域を選択すること;
2.転座される頻度の高い少なくとも1つのゲノム部位をカバーするように設計されたプローブの1組を使用して、該関心のある領域において捕捉HiC実験を行うこと(Dryden et al.2014);
3.捕捉されたリードを参照ゲノムにマッピングすること;
4.ペアエンド配列決定の場合、マッピングされたリードを、ライゲーションされた関心のあるゲノム部位に応じて複数のデータセットへと分割することがおそらく可能であること、選択された該関心のある領域にライゲーションされたフラグメントのデータセットで、下記の工程を実行すること;
5.任意的に、少なくとも1つのリードによってカバーされているフラグメントのライゲーション頻度を1に設定し、並びに該フラグメントの残りを0に設定すること(すなわち、二値化する);
6.例えば各フラグメントを中心としたガウスカーネルによって、近傍フラグメントのライゲーション頻度を集約して、観察され集約されたライゲーションスコアを形成すること、ここで、近傍パラメータは、200kb、750kb及び3mbに設定されることができるが、他のサイズ又は任意の他のサイズがまた考慮されることができる;
7.シス染色体に由来する各フラグメントのライゲーション頻度を、シス染色体に由来するランダムに選ばれた別のフラグメントとスワッピングすること;
8.トランス染色体由来の各フラグメントのライゲーション頻度を、トランス染色体由来のランダムに選ばれた別のフラグメントとスワッピングすること;
9.各フラグメント及びその近傍のフラグメントのスワッピングされたライゲーション頻度を、例えば各フラグメントを中心としたガウスカーネルによって集約し、各フラグメントのランダム化され集約されたライゲーションスコアを計算すること;
10.該スワッピングの手順を何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントの為に、集約され順列化されたライゲーションスコアのコレクションを形成すること;
11.該集約され順列化されたライゲーションスコアのコレクションから、該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアの平均及び標準偏差を計算すること;
12.該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアを0として設定すること、ここで、該領域は例えば、該関心のある領域から+/-10mb離れていてもよく、このことは、該関心のある領域への線形に隣接している故に高められる可能性のある該観察され集約されたライゲーションスコアを除外する;
13.各フラグメントの該観察され集約されたライゲーションスコアを、該予想され集約されたライゲーションスコアの平均及び標準偏差と比較して、スコア、例えばz-スコア及び/又は好ましい場合にはp値を計算すること;
14.スコアが或る閾値よりも上、例えばz-スコア7よりも上、を有するフラグメントは、該関心のある領域とのゲノム再配置に関与していると考えられうる。
15.工程4において複数のデータセットが作成される場合(関心のある変えられた領域を用いて)、他のデータセットの少なくとも幾つかについて、そのデータセットに適用するゲノム該関心のあるゲノム領域で工程5~14を繰り返すこと、ここで、異なるデータセットの結果を組み合わせて、再配置の位置についてより詳細な情報を得ること。
本開示において、異常、例えば染色体再配置、を検出する為に、近接ライゲーションアッセイからのデータを処理する方法が記載されている。この解析方法の為の出発点として使用されるデータは、近接ライゲーションアッセイを実行し、その近接ライゲーションアッセイの近接ライゲーションフラグメントを配列決定し、そして、該配列決定された近接ライゲーションフラグメントを参照ゲノムにマッピングすることによって得られるデータセットでありうる。
従って、解析の為の出発点は、参照ゲノムにマッピングされた、配列決定された複数の近接結合フラグメントを含むデータセットでありうる。その上、関心のあるゲノム領域は、手元のアプリケーションに従って、又はユーザが評価したい任意の仮説に従って選択されうる。
或る実施態様において、シスDNAフラグメントの近接性スコアと参照ゲノム中の該関心のある領域へのそれらの線形染色体距離との間の関係が考慮されて、シス染色体中のDNAフラグメントの予想され集約されたライゲーションスコアをより厳密に推定され、以下に更に詳述されているように、シス染色体再配置、例えば欠失(deletions)又は逆位(inversions)又は挿入(insertions)、を検索する。この目的の為に、シス染色体に由来する各DNAフラグメントについて、関連するDNAフラグメントは、該関心のある領域へのそれらの類似の線形距離に基づいて、又は該関心のある領域から遠いDNAフラグメントほど減少する非線形距離関数に基づいて、確率的に定義される(Geeven et al.2018)。順列化の間、関連するDNAフラグメントは、シス染色体中の各DNAフラグメントの為に、予想され集約されたライゲーションスコアを推定する為にランダムに選択される。
或る実施態様において、シス染色体上の他の場所又はトランス染色体上の他の場所に由来するDNA配列の該関心のあるゲノム領域内への(又は、該関心のあるゲノム領域に近接する配列内への)挿入は、近接有意スコアがある閾値よりも上を有するシス染色体上の他の場所又はトランス染色体上からのDNAフラグメントを検索することによって検出される。
或る実施態様において、該関心のあるゲノム領域(又は、該関心のあるゲノム領域に近接する配列)を含むDNA配列のゲノム欠失は、シス染色体におけるDNAフラグメントの該予想され集約された近接性スコアを最初に補正し、そして次に、これらのDNAフラグメントが欠失されたことを示す或る閾値未満の負の有意差スコアを有するゲノムDNAフラグメントを検索することによって認識される。代替的に、又は追加的に、該ゲノム欠失は、或る閾値以上の有意差スコアを有するゲノムDNAフラグメントを検索することによって認識され、それは、これらのDNAフラグメントが、該関心のあるゲノム領域と比較して該シス染色体上の該欠失された部分の反対側に位置し、その結果、該関心のあるゲノム領域に近接する欠失がもたらされることを示す。
同様に、該関心のある領域の一部と該関心のあるゲノム領域に近接する配列とを含むDNA配列のゲノム逆位は、シス染色体中のDNAフラグメントの該予想され集約されたライゲーションスコアを最初に補正することによって認識され、そして次に、該逆位したゲノム領域の遠位端を表す或る閾値よりも上の正の有意スコアを有するところの該関心のある領域のシス染色体中のゲノムDNAフラグメントと、該逆位したゲノム領域の近位端を表す或る閾値よりも下の負の有意スコアを有するところの該関心のある領域のシス染色体中のゲノムDNAフラグメントとを検索することによって認識される。
或る実施態様において、検出された構造変異を独立して確認する為に、特定のDNAフラグメントにおける構造的変異の推定された有意スコアが、とりわけ該参照ゲノムにおいて互いに隣接していない2つの配列の融合を塩基対分解能で表すリードの近接(ライゲーション)データセットにおける発見を容易にすることによって、構造的変異の存在の為の追加の証拠の識別を容易にすることができる。
或る実施態様において、ハプロタイプ(haplotype)特異的構造変異は、該関心のある領域に由来するライゲーションされたDNAフラグメント内の共起一塩基ヌクレオチド変化に従って、該関心のある領域中のDNAフラグメントを連結することによって検出されることができる。これらの連結を用いて、ハプロタイプ特異的近接ライゲーションデータセットが形成される。次に、各データセットは、開示された技術に従って処理され、ハプロタイプ特異的構造的変異を識別する。
或る実施態様において、ハプロタイプ特異的構造変異は、構造的変異に関与しているとしてスコアリングされたDNAフラグメントと、それらが近接して見出された該関心のあるゲノム領域からのDNAフラグメントとを含むリードの対を、構造的変異がハプロタイプで解決されることができるように、対立遺伝子を区別する遺伝子変異のそれぞれについて分析することによって検出されうる。
本発明の幾つかの又は全ての態様は、ソフトウェア、特にコンピュータプログラム製品、の形態で実装されるのに適している場合がある。該コンピュータプログラム製品は、非一時的なコンピュータ可読媒体に格納されたコンピュータプログラムを含んでいてもよい。また、該コンピュータプログラムは、伝送媒体、例えば光ファイバケーブル又は空気、によって伝送される信号、光信号又は電磁信号、によって表されてもよい。該コンピュータプログラムの一部又は全部は、該コンピュータシステムによって実行されるのに適したソースコード、オブジェクトコード又は疑似コードの形態を有していてもよい。例えば、該コードは、1以上のプロセッサによって実行可能でありうる。
本明細書に記載されているように、近接アッセイ、例えば近接ライゲーションアッセイ、は、再配置及び再配置パートナー候補を識別する為に適している。本発明者等は、そのようなアッセイによる再配置の検出が、再配置が該関心のあるゲノム領域内で生じることを必ずしも示すものではないことに気付いた。当業者であれば理解されるであろう通り、該関心のあるゲノム領域の外側の再配置は、該関心のあるゲノム領域に関して機能的な結果をもたらさない可能性が高い。本明細書において更に議論されているように、本発明者等は、該関心のあるゲノム領域内の5'末端に隣接するゲノムフラグメントと3'末端に隣接するフラグメントとを含む近接結合された生成物の富化が、該関心のあるゲノム領域内の切断部位を含む染色体再配置を識別する正確さを改善することに気付いた。具体的には、富化戦略は、内因性ノイズを最小限に抑えることを目的として設計され、それは、該関心のある領域外の染色体再配置(「偽の陽性コール(false positive calls)」)から、該関心のあるゲノム領域内の真の染色体再配置(「真の陽性コール(true positive calls)」)をより適切に区別する為のダウンストリーム分析をサポートする。より重要なことは、染色体切断部位を有する染色体再配置を、該染色体切断部位をシス(同じ染色体上)を有し、しかし該関心のあるゲノム領域外にある染色体再配置と区別し、関連する事象と関連しない事象と区別することを可能にするように富化戦略が設計される必要がある。
染色体再配置についての偽の陽性コールは様々な理由で起こる可能性があり、その1つの理由は、ゲノム内の別の場所にある標的外の配列に、望まれないプローブ又はプライマーハイブリダイゼーションがあることである。その結果、標的外の近接ライゲーション産物が富化され、配列決定され、そしてマッピングされ、それ故に、標的でないハイブリダイゼーション配列を有する染色体区分上の近接ライゲーション産物の蓄積を示す可能性がある。シグナルのそのような蓄積は、染色体再配置を有するとして誤って認識されうる(偽の陽性コール)。
複数の戦略が、この望ましくない効果を考慮する為に開発されてきた。その一つの戦略は、染色体の関心のある領域を含む再配置を有すると予想されない対照個体を用いることである。対照サンプルにおける同じ染色体再配置の識別は、これらのコールを偽陽性と認識する為に十分な証拠である。
そのような場合、対応する染色体セグメントをカバーする再配置がブラックリスト化されることができる。標的外のプローブ又はプライマーハイブリダイゼーションと、その結果として生じる標的外の染色体近接産物の富化から生じる再配置の為の偽陽性コールを防ぐ為の他の戦略は、標的外のハイブリダイゼーションの原因である個々のプローブ又はプライマーを識別し、物理的に又はイン・シリコ(in silico)で、該染色体の関心のある領域を標的とするプローブ又はプライマーパネルからそれらを除外する。
そのような場合、対応する染色体セグメントをカバーする再配置がブラックリスト化されることができる。標的外のプローブ又はプライマーハイブリダイゼーションと、その結果として生じる標的外の染色体近接産物の富化から生じる再配置の為の偽陽性コールを防ぐ為の他の戦略は、標的外のハイブリダイゼーションの原因である個々のプローブ又はプライマーを識別し、物理的に又はイン・シリコ(in silico)で、該染色体の関心のある領域を標的とするプローブ又はプライマーパネルからそれらを除外する。
偽陽性のもう一つの原因は、研究対象のサンプルのゲノム中に存在するコピー数の変化に起因する。基礎となる生物学的理由は、標的外プローブ又はプライマーハイブリダイゼーションとは異なるが、増加したコピー数の変化が生じたゲノムのゲノムセグメントは、近接結合された生成物の蓄積を示す可能性がある。再び、シグナルのそのような蓄積は、染色体再配置と誤って認識される可能性がある(偽の陽性コール)。これを解決する為に、同じサンプルにおいて定義された関心のある他の領域からの近接連結されたデータセットが解析されることができる。この目的の為に、同じ染色体再配置が、同一サンプル中の関心のある異なる領域から識別されたかどうかを問い合わせることによって、コピー数の変動の存在が認識されることができるが、必ずしも十分でない。
上述されているように、近接アッセイは染色体再配置容易に検出することができる。しかしながら、本明細書において記載された例は、そのようなアッセイが、該関心のあるゲノム領域内の切断部位接合(関連)を有する事象と該関心のあるゲノム領域外の染色体切断部位接合(非関連)とを必ずしも区別しないことを実証する。驚くべきことに、染色体切断点が該関心のあるゲノム領域外に位置する多くの場合に、融合されたゲノムパートナー上に蓄積する予想されたよりも有意に高い核近接生成物が識別され、該事象が検出され、そして「陽性」と呼ばれることをもたらした。該例は更に、切断部位が該関心のある領域から(同じ染色体上で)シス方向にメガの塩基分離れている場合に、そのような偽陽性コールが起こりうることさえも実証する。多くの用途において、これらの2つのシナリオを区別することが非常に重要である。
当業者に周知であり、変異した場合に、例えば、再配置の結果として、障害、例えば癌、に関連付けられた多数の遺伝子が存在する。医療従事者が該障害を正確に診断又は予後判定をする為には、該関心のあるゲノム領域との関係で、どこに再配置が生じるかを知ることが重要である。例えば、発癌性融合遺伝子産物を作り出す融合遺伝子を探索する場合に、染色体切断部位を遺伝子内部の位置にマッピングすることが好ましい。別の例として、癌原遺伝子を、その発現レベルを癌原性活性レベルに変化させる新規な転写調節DNA配列の影響下に置く可能性のある染色体再配置を検索する場合に、調節されたその転写変化を予想する為に、癌原遺伝子に十分に近い染色体位置にマッピングすることが好ましい。
本発明者等は、先行技術の方法が、真の「陽性」のコールに関する増加した信頼性を提供するように改良されることができることに気付いた。従って、本開示の1つの観点は、サンプル(特に、患者サンプル、例えば腫瘍細胞サンプル)が臨床的に関連する染色体再配置を含むかどうかを確認する為に有用な方法を提供する。本開示は更に、特定の疾患、予後を示す、又は処置に対する反応を予測する染色体再配置を識別する方法を提供する。
本開示は、関心のあるゲノム領域内のある位置に再配置パートナー候補を融合するところの染色体切断部位接合部の存在を確認する方法を提供する。本明細書において使用される場合、染色体切断点接合の存在を確認することはまた、関心のあるゲノム領域内の位置に再配置パートナー候補を融合する染色体切断点接合の存在を検出することを言及する。好ましくは、該方法は、参照ゲノムにおいて該関心のあるゲノム領域を決定することを含む。幾つかの実施形態において、該関心のあるゲノム領域は、100bp~1Mb、例えば1kb~10,00kb、である。
好ましい実施態様において、該関心のあるゲノム領域は、遺伝子のオープンリーディングフレームをコードするDNA配列を云う。当業者は、オープンリーディングフレーム内に存在する切断部位融合が、該遺伝子の機能に影響を与える可能性が高いことを容易に理解するであろう。再配置の性質に依存して、該再配置は、例えば、該関心のあるゲノム領域によってコードされるタンパク質の時期尚早の切断、該関心のあるゲノム領域によってコードされるタンパク質の一部と該再配置パートナーによってコードされるタンパク質の一部とを含む融合タンパク質、並びに該関心のあるゲノム領域によってコードされるタンパク質の少なくとも一部と現在「ネオ」(neo)タンパク質配列をコードするところの該再配置パートナーからのアウトオブフレーム配列(out-of-frame sequences)とを含む新規タンパク質につながりうる。
好ましい実施態様において、該関心のあるゲノム領域は、遺伝子を云う。当業者は、遺伝子配列内に存在する切断部位融合が、当該遺伝子の機能に影響を及ぼす可能性があることを容易に理解するであろう。オープンリーディングフレーム内で起こる再配置に関して上述された効果に加えて、再配置はまた、例えば、mRNAの発現及び/又は転写に影響を与えることができる。例えば、染色体再配置は、遺伝子を、新規の、遺伝子の発現レベルを変化させうる転写調節DNA配列の影響下にもたらしうる。転写制御の可能性を有する配列にまたがるゲノム領域は、遺伝子ごとに大きさが異なるであろう。染色体コンフォーメーション研究によって検出された標的遺伝子を含む構造ドメイン又はトポロジカル・アソシエイティング・ドメイン(TAD:topologically associating domain)を、好ましくは、関心のある組織又は細胞型で考慮することは、関連する染色体再配置を検出する際のアッセイの効率を向上しうる。構造ドメイン又はTADは、配列が優先的に互いに接触する染色体セグメントであり、並びに、それらは、該ドメイン外の転写調節配列と接触し、そして調節される遺伝子を防ぐところの境界によって隣接されている。それ故に、構造ドメイン外に位置する染色体切断部位は、標的遺伝子の発現に影響を与える可能性が低い。構造ドメイン又はTADが定義されていない場合、1メガ塩基よりも遠い距離にわたって作用することができる転写調節配列は非常に少ない故に、例えば、標的遺伝子のプロモータの上流1メガ塩基及び下流1メガ塩基として、該関心のあるゲノム領域を定義することができる。当業者は、遺伝子砂漠(すなわち、標的遺伝子を囲む遺伝子がないか又はは非常に少ないゲノム区間)のコンテクストにある場合に、転写調節配列が遺伝子からさらに離れている可能性があることをまた認識している。遺伝子砂漠は典型的には、線形的に孤立した遺伝子に大きな距離で作用することができる転写調節配列を含む。
好ましくは、関心のあるゲノム領域は、再配置が起こることが当業者に知られている遺伝子又はオープンリーディングフレームの部分配列である。例えば、関心のあるゲノム領域は、好ましくは、切断部位クラスター領域を云う。そのようなクラスターは、当業者によく知られている。特に、当業者は、特定の障害に関連付けられた潜在的な切断部位クラスターについて認識している。幾つかの実施形態において、本方法は、特定の障害に関連付けられた切断部位クラスター内で再配置が生じるかどうかを決定する為に適している。切断部位クラスター領域の一例は、ヒトにおける第18番染色体上のBCL2遺伝子の3'UTRをコードする領域における175bp長の最も長い3'エクソンであり、それはBCL2遺伝子での全ての切断の50%を占める(Tsai & Lieber,BMC genomics (2010) 11:1)。切断部位クラスター領域の他の例は、ヒトにおける第11番染色体上のMLL遺伝子のエクソン9とエクソン13との間の且つそれらを含む7466bp長の染色体領域である(Burmeister et al.,Leukemia (2006) 20,451-457)。
該方法は、複数の近接結合された生成物を生成する為の近接アッセイを実施することを含む。幾つかの実施態様において、該アッセイは、複数の近接ライゲーションされた分子を生成する為の近接ライゲーションアッセイである(例えば、図1を参照)。そのような近接ライゲーションアッセイは、本明細書においてさらに記載されている。例示的な近接ライゲーションアッセイにおいて、近接ライゲーション分子を生成する為に、架橋化されたDNA(例えば、ホルムアルデヒドで架橋化された)が制限酵素で消化され、そして、架橋化されたDNAフラグメントの間の近接ライゲーションを好む条件下で再ライゲーションされる。ライゲーションの後、該架橋化が反転されることが好ましい。
幾つかの実施態様において、該近接ライゲーションアッセイは、
a)架橋化されたDNAのサンプルを用意すること;
b)該架橋化されたDNAを断片化すること;
c)該断片化した架橋化されたDNAをライゲーションして、近接ライゲーションされた分子を得ること;
d)該架橋を反転させること;
e)任意的に、工程d)のDNAを、断片化すること(例えば、制限酵素又は超音波処理を用いて)を含む。幾つかの実施態様において、該方法は更に、
f)工程d)又は工程e)の断片化したDNAを少なくとも1つのアダプターにライゲーションすること、及び
g)標的ヌクレオチド配列にハイブリダイズする少なくとも1つのプライマーを用いて、標的ヌクレオチド配列を含む工程d)若しくは工程e)のライゲーションされたDNA断片を増幅すること、又は標的ヌクレオチド配列にハイブリダイズする少なくとも1つのプライマー及び該少なくとも1つのアダプターにハイブリダイズする少なくとも1つのプライマーを用いて、工程f)のライゲーションされたDNA断片を増幅すること
を含む。
a)架橋化されたDNAのサンプルを用意すること;
b)該架橋化されたDNAを断片化すること;
c)該断片化した架橋化されたDNAをライゲーションして、近接ライゲーションされた分子を得ること;
d)該架橋を反転させること;
e)任意的に、工程d)のDNAを、断片化すること(例えば、制限酵素又は超音波処理を用いて)を含む。幾つかの実施態様において、該方法は更に、
f)工程d)又は工程e)の断片化したDNAを少なくとも1つのアダプターにライゲーションすること、及び
g)標的ヌクレオチド配列にハイブリダイズする少なくとも1つのプライマーを用いて、標的ヌクレオチド配列を含む工程d)若しくは工程e)のライゲーションされたDNA断片を増幅すること、又は標的ヌクレオチド配列にハイブリダイズする少なくとも1つのプライマー及び該少なくとも1つのアダプターにハイブリダイズする少なくとも1つのプライマーを用いて、工程f)のライゲーションされたDNA断片を増幅すること
を含む。
好ましくは、該方法は、該近接アッセイの為に、架橋化されたDNAのサンプルを用意することを含む。
幾つかの実施態様において、該方法は、該関心のあるゲノム領域又は該関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントを含む近接結合された生成物を富化することを含む。当業者は、多数の様々な標的化されたDNA富化戦略を知っている。一般的に、そのような方法は、関心のある配列に対するオリゴヌクレオチド(例えば、プローブ又はプライマー)のハイブリダイゼーションに依存する。
1つの実施態様において、該方法は、該関心のあるゲノム領域の5'末端に隣接する配列を含むゲノムフラグメントを含む近接結合された生成物を富化すること、及び該関心のあるゲノム領域の3'末端に隣接する配列を含むゲノムフラグメントを含む近接結合された生成物を富化することを含む。該近接結合された生成物が、塩基配列決定されて、配列決定リードを生成し、該関心のあるゲノム領域の5'末端又は3'末端に隣接する配列を含む該ゲノムフラグメントに近接する該ゲノムフラグメントの配列が参照配列にマッピングされうる。ここで、「隣接する配列」(flanking sequences)は、着目する領域に隣接する配列をいう。隣接する配列は、該関心のある領域に直接的に隣接していてもよく又は間接的に隣接していてもよい。
1つの実施態様において、該方法は、該関心のあるゲノム領域の5'領域に隣接する配列に少なくとも部分的に相補的な少なくとも1つのオリゴヌクレオチドプローブ又はプライマーを提供すること、及び/又は該関心のあるゲノム領域の3'領域に隣接する配列に少なくとも部分的に相補的な少なくとも1つのオリゴヌクレオチドプローブ又はプライマーを提供することを含む。幾つかの実施態様において、該プローブ及びプライマーは、反復DNAへのハイブリダイゼーションを防止する為に、固有の標的配列に相補的である。該オリゴヌクレオチドプローブは、固体表面に付着させることができ、又は固体表面、例えばストレプトアビジンビーズ、における捕捉を可能にするタグ、例えばビオチン、を含むことができる。幾つかの実施態様において、アダプター配列は、フラグメント化されたDNAにライゲーションされうる。次に、PCR増幅が、該関心のあるゲノム領域に隣接する配列に相補的な一方のプライマーと、アダプター配列に相補的な他方のプライマーとを用いて行われうる。代替的に又はそれに加えて、該アダプター配列は、配列決定リードを生成する為に使用されうる。プローブ及びプライマーの設計は、当業者に周知である。好ましくは、オリゴヌクレオチドプローブ及びプライマーは、該関心のあるゲノム領域から上流又は下流の1bp~1Mbpの配列に相補的である。代替的に、隣接することは、問題の染色体の長さの0.5%以下だけ離れたゲノム領域又は配列を云う場合がある。幾つかの実施態様において、該関心のあるゲノム領域に隣接するプローブ/プライマーのパネルが使用されうる。
該方法は更に、該関心のあるゲノム領域を有する該ゲノムフラグメント、又は該関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントの近接頻度に基づいて、少なくとも1つのゲノムフラグメントを再配置パートナー候補として識別することを含む。本明細書において更に記載されているように、本方法は、i)該関心のあるゲノム領域の少なくとも一部と、ii)該関心のあるゲノム領域に近接しているゲノムフラグメントとを含む近接結合された生成物を富化することを含みうる。好ましくは、本方法は、該関心のあるゲノム領域の少なくとも1つの部分を富化する。該関心のあるゲノム領域内の切断部位接合部の存在は、関心のあるゲノム領域に隣接する配列からなる近接ライゲーション分子について富化することによって確認されるが、候補転位パートナーの同定は、関心のあるゲノム領域又は関心のあるゲノム領域に隣接する配列のいずれかを含む配列決定リードに基づいて実施することができる。好ましくは、該方法は、関心のあるゲノム領域の少なくとも1つの部分を富化する。該関心のあるゲノム領域内の切断部位接合部の存在は、該関心のあるゲノム領域に隣接する配列を含む近接ライゲーションされた分子を富化することによって確認されるが、再配置パートナー候補の識別は、該関心のあるゲノム領域又は該関心のあるゲノム領域に隣接する配列のいずれかを含む配列決定リードに基づいて実施されることができる。
例示的な実施態様において、近接アッセイは、該関心のあるゲノム領域を含む核近接産物のプルダウン及び富化の為の相補的オリゴヌクレオチドプローブの使用によって、関心のある特定のゲノム領域に標的化されうる。代替的には、染色体近接アッセイは、該関心のあるゲノム領域を含む染色体近接産物の線形又は指数関数的増幅及び富化の為の1以上の相補的オリゴヌクレオチドプライマーの使用によって、関心のある特定のゲノム領域に標的化されうる。富化後、近接生成物は配列決定され、そして、配列リードが参照ゲノムにマッピングされる。染色体再配置は、該ゲノム内の他の場所において、該関心のあるゲノム領域に関与する核近接産物の予想されるよりも有意に高い蓄積を示すゲノムセグメントの識別に基づいて見つけられる。
近接頻度に基づいて再配置パートナー候補を識別する為の好適な方法は、当技術分野において知られており且つ本明細書に記載されている。例えば、該関心のあるゲノム領域の接触プロファイルの目視検査が使用されてもよい(例えば、Simonis et al., 2009;de Vree et al., 2014;及び国際公開公報WO2008084405号パンフレットを参照)。上位1%の高度に相互作用する染色体内領域の選択に基づく方法については、例えば、Harewood等(Genome Biology 2017 18:125)を参照されたい。本明細書に記載されているDiaz et al.2018及びDixon et al.2018に記載された方法をまた参照されたい。他の方法は、SALSA、GOTHiC、HiCcompare、HiFI、V4C、LACHESIS、HiNT、bin3Cを含む。Mifsudは、近接ライゲーションデータから真の相互作用を同定するモデル(GOTHiC)を説明し、並びにまた、再配置パートナーを識別する為の他の周知のモデルについてもレビューしている(PLOS ONE 2017 12(4):e0174744)。
再配置パートナー候補を識別する為の好ましい方法は、図1~図6に例示されており、本明細書においてPLIERと云われる。幾つかの実施態様において、1以上の再配置パートナー候補を識別する方法は、
該関心のあるゲノム領域にマッピングされた配列を含むところの、配列決定された近接連結された複数のDNA分子を選択すること;
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101);ここで、各ゲノムフラグメントの該観察された近接性スコアが、該関心のあるゲノム領域に近接し且つ該ゲノムフラグメントに対応する1つの配列を含む少なくとも1つの配列決定リードのデータセットにおける存在を示す;
予想される近接性スコアを、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに割り当てること(102)、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値を含む;
該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成すること(103)、及び該ゲノムフラグメントを再配置パートナー候補として識別すること
を含む。この方法の好ましい実施態様は、本明細書において更に説明されており、図6は、この方法の特に好ましい実施態様を提供する。
該関心のあるゲノム領域にマッピングされた配列を含むところの、配列決定された近接連結された複数のDNA分子を選択すること;
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101);ここで、各ゲノムフラグメントの該観察された近接性スコアが、該関心のあるゲノム領域に近接し且つ該ゲノムフラグメントに対応する1つの配列を含む少なくとも1つの配列決定リードのデータセットにおける存在を示す;
予想される近接性スコアを、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに割り当てること(102)、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値を含む;
該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成すること(103)、及び該ゲノムフラグメントを再配置パートナー候補として識別すること
を含む。この方法の好ましい実施態様は、本明細書において更に説明されており、図6は、この方法の特に好ましい実施態様を提供する。
再配置パートナー候補が識別されることに応じて、該関心のあるゲノム領域の5'末端に隣接する配列を含む該ゲノムフラグメントに近接している再配置パートナー候補のゲノムフラグメントと、該関心のあるゲノム領域の3'末端に隣接する配列を含む該ゲノムフラグメントに近接している再配置パートナー候補のゲノムフラグメントとが重なり合っているか又は線形に離れているかを判定することを含む方法であって、転位パートナー候補のゲノムは、目的のゲノムを挟む配列を含むゲノムのフラグメントを含む。
関心のあるゲノム領域の第1部分又は該関心のある領域に隣接する領域に近接するゲノムフラグメントは、関心のあるゲノム領域の第2部分又は該関心のある領域に隣接する領域に近接するゲノムフラグメントと「交錯される」(intermingled)又は「分割される」(divided)のいずれかの集積を示すであろう。交錯した蓄積を示すフラグメントは、本明細書において「重なり」(overlapping)と呼ばれ、分割された蓄積を示すフラグメントは「線形に分離された」(linearly separated)と云われる。好ましくは、該方法は、該関心のあるゲノム領域の第1部分に近接する又は該関心のある領域に隣接する領域に近接する再配置パートナー候補のゲノムフラグメントと、該関心のあるゲノム領域の第2部分に近接する又は該関心のある領域に近接する再配置パートナー候補のゲノムフラグメントとが、再配置パートナー候補の参照配列にマッピングされる場合に、重なり合っているか又は線形に離れているかを決定することを含む。
例えば、該関心のあるゲノム領域に隣接する上流及び下流の配列に由来する近接生成物が解析されて、再配置パートナー全体に分布することを決定することができる。隣接するゲノム配列が、再配置パートナーの線形参照テンプレートにおいて、連結された生成物の重複する(交錯する)蓄積を示す場合、これは切断部位が該関心のあるゲノム領域内部に位置していないことを示す。再配置パートナーの線形参照テンプレートにおける隣接するゲノム配列が、分割された蓄積(本明細書において「転移」(transition)又は「線形に離れている」(linearly separated)とまた呼ばれる)を示す場合、これは該切断部位が該関心のあるゲノム領域の内部に位置していることを示す。再配置パートナーに関して、該染色体切断部位は、該関心のあるゲノム領域に隣接する上流配列に由来する近接生成物から、該関心のあるゲノム領域に隣接する下流配列に由来する近接生成物への蓄積の移行をマーク付けするゲノムセグメントに配置される。隣接する領域の1つだけ(すなわち、5'近傍配列だけ、又は3'近傍配列だけ)が再配置パートナーに対して近接生成物を寄与する場合、このことは、アンバランスな染色体再配置、又は該関心のあるゲノム領域の内部に切断部位を有し、他の隣接する配列の欠失又はゲノム内の別のパートナーへの融合のいずれか(例えば、図9を参照)、並びに外来DNAの挿入を有する複合染色体再配置を示す。
好ましい実施態様において、該関心のあるゲノム領域の3'末端に隣接する配列を含むゲノムフラグメントに近接するゲノムフラグメントの配列位置(例えば、再配置パートナー候補に対応する)が、該関心のあるゲノム領域の5'末端に隣接する配列を含むゲノムフラグメントに近接するゲノムフラグメントの配列位置(例えば、再配置パートナー候補に対応する)と比較される。該再配置パートナー候補ゲノムフラグメントが線形に離れていることは、該関心のあるゲノム領域内の染色体切断部位接合部を示す。幾つかの実施態様において、該方法は、再配置パートナーと、該関心のある遺伝子に隣接する標的化された5'配列と3'配列との間でそれぞれ形成された富化された近接結合された生成物が、再配置パートナーを含む線形染色体テンプレート上で離れているかどうかを分析することを含む。そのように線形に離れていることは、関心のある遺伝子の内部に染色体切断部位についての証拠である。
重複している及び線形に離れていることを可視化する為の1つの方法は、ゲノムフラグメントに対応する配列リードから行列を生成し、ここで、一方の軸が、該関心のある領域に対応するゲノムフラグメントの配列位置又は該関心のある領域に隣接する配列に対応するゲノムフラグメントの配列位置を表し、並びに他方の軸が、該関心のある領域に連結されたゲノムフラグメントの配列位置又は該関心のある領域に隣接する配列(例えば、再配置パートナー候補)に連結されたゲノムフラグメントの配列位置を表すことである。該行列内の各要素が、該関心のある領域内の対応するゲノムセグメント又は該関心の或る領域に隣接する対応するゲノムセグメントと、該関心のある領域内の該対応するゲノムセグメント又は該関心のある領域に隣接する該対応するゲノムセグメントに連結したゲノムセグメントとを含む連結された産物が発見された回数を表すように、連結された近接産物が該行列上に重畳されることができる。例えば、位置4での再配置を描く図9Bを参照されたい。再配置パートナー候補の配列は、該関心のある領域のゲノム領域の位置「a」及び位置「b」の両方で重なり合う。当業者には明らかであるように、再配置パートナー候補配列が重なることは、「a」を含む近接ライゲーションされた分子と「b」を含む近接ライゲーション分子が、同一又は物理的に重なり合う再配置パートナー配列をまた含まなければならないことを要求しない。むしろ当業者は、そのような配列の交錯があることを理解する。これは、後述される線形に離れていることと比較する。
上述されているように、線形に離れていることを可視化する1つの方法は、行列を生成することである。線形に離れていることは、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表す軸上の1つ以上の座標が、再配置候補パートナーからのゲノムセグメントの近接頻度における推移を示す場合に示されている。特に、本明細書において開示される近接アッセイを用いて富化された、該関心のある領域及び/又は該関心のある領域に隣接する領域からのゲノムフラグメントに近接する再配置パートナー候補からのゲノムセグメントの近接頻度が比較される。
幾つかの実施態様において、該関心のあるゲノム領域を含む近接結合された生成物がまた富化される。好ましくは、プローブ/プライマーは、近接データが該関心のあるゲノム領域のかなりの部分について利用可能であるように、該関心のあるゲノム領域のかなりの部分をカバーする為に使用される。該行列が、隣接する四分円の間の頻度における最大差と、隣接する四分円の間の頻度における最小差とに基づいて、特定の位置で四分円へと分割されることができる場合、それは線形に離れていることを示し、それは、染色体切断部位を示す。例えば、図9Bは、1、2及び3の位置での再配置、並びに図9Cにおける例を描く。これらの例は、相互再配置の可能性を示す。
線形に離れていることはまた、ゲノムフラグメント(例えば、再配置パートナー候補に対応する)が、例えば該関心のあるゲノム領域の5'領域に隣接する配列に近接するが、該関心のあるゲノム領域の3'領域に隣接する配列に近接しない(又は、その逆)場合において存在する。線形に離れているこの形態は、再配置パートナー候補からのゲノムセグメントの近接頻度における推移を示すところの関心のあるゲノム領域の配列位置及び/又は関心のあるゲノム領域に隣接する領域の配列位置を表す軸上の1以上の座標を識別することによって、行列において可視化されることができる。非相互再配置位の場合、該遷移は、再配置パートナー候補からのゲノムセグメントの特定の近接頻度から再配置パートナー候補配列の(統計的に有意な)非存在への遷移である。例示的な実施態様において、線形に離れているこの形態は、単一の四分円におけるゲノムフラグメント(例えば、再配置パートナー候補に対応する)の存在、及び他の3つの四分円における転位パートナー候補配列の(統計的に有意な)不存在によって蝶形格子行列において可視化されることができる。例えば、図9Dにおいて描かれている例を参照されたい。
幾つかの実施態様において、該方法は、該近接結合された生成物の交叉(すなわち、重複)の程度に対してスコアを割り当てることを含む。幾つかの実施態様において、該割り当てられたスコアは、該再配置が互恵的染色体再配置であるか又は染色体再配置であるかを示す。
下記の実施例において実証されているように、該関心のあるゲノム領域の5'末端に隣接する配列を含むゲノムフラグメントを含む近接結合された生成物と、該関心のあるゲノム領域の3'末端に隣接する配列を含むゲノムフラグメントを含む近接結合された生成物とを富化することは、驚くべきことに、該関心のあるゲノム領域内で切断部位接合部を結果として生じる再配置を確認することを可能にし、「偽陽性」を低減させる(図9Aを参照)。
上述されているように、本方法は更に、i)関心のあるゲノム領域の少なくとも一部、及びii)該関心のあるゲノム領域に近接しているゲノムフラグメントを含む近接結合された生成物を富化することを含みうる。幾つかの実施態様において、該方法は、該関心のあるゲノム領域に少なくとも部分的に相補的である複数のプローブ又はプライマーを提供することを含む。複数のオリゴヌクレオチドプローブ/プライマーの各々は、該関心のあるゲノム領域の異なる部分配列又は重複する部分配列に向けられてもよい。幾つかの実施態様において、プローブ/プライマーのパネルは、100kb毎に、10kb毎に、又は1kb毎に少なくとも1つのプローブ/プライマーの間隔でゲノム領域を標的化するように設計されている。そのような方法は、再配置パートナー候補を該関心のあるゲノム領域内の位置に融合する染色体切断部位接合部の位置を決定する為に、又はむしろ該切断点接合部を「ファインマッピング」(fine-mapping)する他面に有用である。
そのような実施態様において、該方法は更に、i)該関心のあるゲノム領域の少なくとも一部及びii)該関心のあるゲノム領域に近接するゲノムフラグメントを含む該近接連結されたDNA分子を配列決定して、該関心のあるゲノム領域配列決定リードを生成することを含む。
該方法は更に、染色体切断部位をマッピングすることを含んでいてもよく、ここで、該マッピングは、該関心のあるゲノム領域の少なくとも一部を含み、並びに該再配置パートナー配列の線形に離れていることを有する近接ライゲーションされたDNA分子を検出することを含む。当業者には明らかであるように、本方法は、互いに線形配列が最も近く、並びに転位パートナー配列の線形に離れていることを有するゲノム領域関心フラグメントを含む近接ライゲーション分子を同定することを含みうる。これは、例えば、(該関心のあるゲノム領域の少なくとも一部と、該関心のあるゲノム領域に近接しているゲノムフラグメント、例えば転位パートナー候補とを含む)近接結合された生成物を、該関心のあるゲノム領域の線形テンプレートにおける起源のそれらの位置に従って編成し、そして、該関心のあるゲノム領域における線形編成が該再配置パートナーにマッピングされたそれらの近接結合された連結産物の線形位置とどのように関連しているかを例えばスライドウィンドウ手法によって分析することにより行われることができる。該関心のあるゲノム領域を横切ってスライドすることに応じて、該再配置パートナーの線形テンプレート上で混ざり合う(すなわち、重ね合わせる)近接結合された生成物から、該再配置パートナーの線形テンプレート上で離された近接結合された生成物への移行を示す位置が、該関心のあるゲノム領域内の染色体切断部位位置を定める。
幾つかの実施態様において、染色体切断部位をマッピングすることは、配列決定リードの少なくともサブセットの為に行列を生成することを含み、ここで、該行列の一方の軸が、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する配列の配列位置を表し、並びに他方の軸が、該再配列パートナー候補の配列位置を表し、ここで、該行列内の各要素が、該関心のある領域のゲノムフラグメントと該再配置パートナーからのゲノムフラグメントとを含む近接された連結されたDNA分子の頻度を表すように、該行列が、該配列決定リードを該行列上に重畳することによって生成される。好ましい行列は、蝶形格子である。BCL2及びMYC遺伝子における切断部位接合部のマッピングについては、図9を参照されたい。
幾つかの実施態様において、該方法は、該切断部位にまたがる1つのゲノム領域の配列を決定することを含み、該方法が、i)該関心のあるゲノム領域の切断部位-近位ゲノムフラグメントとii)再配置パートナーゲノムフラグメントとを含む近接結合された生成物を識別することを含む。本明細書に記載されている方法の1つの利点は、配列決定データ中に存在する「ノイズ」(noise)リードから「本物」(real)の融合リードをフィルタリングする能力に関する。標準的な次世代配列決定方法は、主に(本物とノイズとの間の)周波数における差及び/又は融合パートナーに関する事前知識に関するフィルタリング工程を可能にする。本開示の幾つかの態様において、「本物」の融合リードは、再配置パートナー候補を配置するPLIERアルゴリズムを最初に適用することによって、ノイズから分離されうる。代替的に、又はPLIERアルゴリズムに加えて、複数のプローブ/プライマーを使用する方法が、該切断部位の位置を更に細かくマッピングする為に提供される。行列、例えば蝶形格子、の作成は、切断部位の位置を識別することを支援する。従って、該開示された方法は、該切断部位接合部を含むゲノム配列を含む可能性が最も高い近接ライゲーションされた分子を識別する。このことは、バックグラウンドノイズレベルを大幅に低減する。本物の融合リードの識別が、ゲノム内の制限酵素認識部位(+/-1塩基対)、又は寧ろ、近接ライゲーションアッセイ中にフラグメント化の為に使用される制限部位で融合される近接ライゲーションされた産物を破棄することによって、また改善される。
幾つかの実施態様において、該方法は更に、染色体再配置の結果として生じる変異(又は寧ろ、変異の配列)を決定することを含む。
本開示は更に、関心のあるゲノム領域内の位置に再配置パートナーを融合する染色体切断部位を検出する為のコンピュータプログラム製品であって、該コンピュータプログラム製品がコンピュータ可読命令を含み、該コンピュータ可読命令が、プロセッサシステムによって実行される場合に、
配列決定リードの少なくともサブセットについての行列を生成すること、ここで、該配列決定リードが近接結合された生成物の配列に対応し、該製品が、該関心のあるゲノム領域からのゲノムフラグメント、又は関心のある該領域に隣接するゲノムフラグメントを含み、ここで、近接結合された生成物の少なくともサブセットが再配置パートナー候補のゲノムフラグメントを含み、ここで、該行列の一方の軸が、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表し、並びに他方の軸が、該再配置パートナー候補の配列位置を表し、ここで、該行列内の各要素が、該関心のあるゲノム領域のゲノムフラグメント又は該関心のある該領域に隣接するゲノムフラグメントと該再配置パートナーからのゲノムフラグメントとを含む同定された1つの近接結合された生成物の頻度を表すように、該行列が、該配列決定リードを該行列上に重畳することによって生成される、及び
該行列を検索して該ゲノムセグメントの近接頻度で該再配置パートナー候補から遷移することを示す、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表す軸上の該1以上の複数の座標を検出すること
を該プロセッサシステムに行わせる、上記のコンピュータプログラム製品を提供する。
配列決定リードの少なくともサブセットについての行列を生成すること、ここで、該配列決定リードが近接結合された生成物の配列に対応し、該製品が、該関心のあるゲノム領域からのゲノムフラグメント、又は関心のある該領域に隣接するゲノムフラグメントを含み、ここで、近接結合された生成物の少なくともサブセットが再配置パートナー候補のゲノムフラグメントを含み、ここで、該行列の一方の軸が、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表し、並びに他方の軸が、該再配置パートナー候補の配列位置を表し、ここで、該行列内の各要素が、該関心のあるゲノム領域のゲノムフラグメント又は該関心のある該領域に隣接するゲノムフラグメントと該再配置パートナーからのゲノムフラグメントとを含む同定された1つの近接結合された生成物の頻度を表すように、該行列が、該配列決定リードを該行列上に重畳することによって生成される、及び
該行列を検索して該ゲノムセグメントの近接頻度で該再配置パートナー候補から遷移することを示す、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表す軸上の該1以上の複数の座標を検出すること
を該プロセッサシステムに行わせる、上記のコンピュータプログラム製品を提供する。
幾つかの実施態様において、プロセッサシステムが該行列を探索して、隣接する複数の四分円間の頻度差が最大となり、且つ対向する四分円間の差が最小化されるように、該行列のうちの少なくとも一部を4つの四分円へと分割する1以上の要素を検出する。そのような実施態様はまた、該関心のあるゲノム領域の異なる部分を含むところの複数の近接結合された生成物を富化する実施形態において特に有用である。コンピュータプログラム製品の幾つかの実施態様は、該プロセッサシステムは、識別された4つの四分円を比較し、及び2つの対向する四分円が最小の頻度差を示し且つ隣接する四分円が最大の頻度差を示す場合に、相互再配置をもたらすものとして該染色体切断部位を分類し、又は、1つの四分円が他の3つの四分円と比較して最大の頻度差を示す場合に、非相互再配置をもたらすものとして該染色体切断部位を分類する。本明細書において記載されているコンピュータプログラム製品は、本明細書に記載される方法を実行する為に有用である。
幾つかの実施態様において、計算方法が、該切断部位位置を自動的に検出する為に、本明細書において記載されている方法のコンピュータプログラム製品において使用される。コンピュータビジョン分野(Vision field)における標準的なテンプレートマッチング戦略(例えば、カーネルサーチ)が、行列を分割する為の最も可能性の高い位置を推定する為に用いられる。加えて、順列化戦略(すなわち、行列全体でライゲーション産物をシャッフルする)を利用することによって、該計算方法は、該検出されたパターンの重要性を推定する。該計算方法が、順列化戦略を平滑化戦略(例えば、ガウシアンカーネル)並びにスケール空間モデリングと組み合わせて、観察された近接結合された生成物がまばらに入力されている行列を特別に使用してパターンマッチング及び有意推定の固有ノイズを低減する場合に、このアプローチは更に強化される。
参考文献
本明細書において記載された例及び実施態様は、本発明を限定するのでなく、寧ろ、本発明を説明する為に役立つ。当業者は、添付の特許請求の範囲及びその均等物によって定義される本開示の精神及び範囲から逸脱すること無しに、代替の実施態様を設計することができるであろう。特許請求の範囲において括弧内に置かれた参照符号は、特許請求の範囲の範囲を限定するものと解釈してはならない。特許請求の範囲又は明細書において別個の実体として記載された項目は、記載された項目の特徴を組み合わせた単一のハードウェア又はソフトウェア項目として実装されうる。
実施例
構造的変異(SV:Structural variation)は、癌の再発の特徴である。特に、転座(複数の染色体間のゲノム再配置)は、多くの種類の血液リンパ系悪性腫瘍において再発性のドライバー(recurrent drivers)として見つけられている。それらはまた、様々な固形癌、例えば肺癌、前立腺癌、軟部肉腫、においても、診断、予後及び更には治療選択をガイドする為の予測パラメータ(predictive parameters)としてさえ、益々重要視されてきている。それ故に、標的遺伝子の特定の組の転座解析は、これらの悪性腫瘍のルーチン診断ワークフローに益々実装されている。病理診断業務は、ホルマリン固定及びパラフィン包埋(FFPE:formalin-fixation and paraffin embedding)手順に大きく依存する。結果として得られるFFPE標本ブロックは、長期保存方法を提供し、特に形態学的評価、例えば免疫組織化学及びイン・シチューハイブリダイゼーション技術(ISH:in situ hybridization techniques)を包含する上記の形態学的評価、に適している。現在、蛍光イン・シチューハイブリダイゼーション(FISH:fluorescence in situ hybridization)は、リンパ腫のFFPEサンプルにおける転座検出の「ゴールドスタンダード」である。この方法は世界中で一般的に適用されており、多くの事例で成功しているが、それは様々な限界を有する。FISH評価は、十分な形態学に依存する。それ故に、破砕によるアーティファクト、不十分な固定、広範な壊死及びアポトーシスは頻繁に形態を損ない、信頼性できる解釈をしばしば妨げてしまう。その上、FISHアッセイは免疫組織化学と同じ自動化された方法で日常的に実行されることができるにもかかわらず、結果の解析及び再配置検出が大部分手作業で行われており、それは労力がかかり、誤りを起こしやすく、且つ高価なものである。その上、蛍光シグナルの複雑なパターンを結果としてもたらす珍しい切断部位、ポリソミー又は欠失の場合1,2、FISH評価は困難であり、不明瞭であり、又は主観的である場合がある。一方、融合FISHは、転座パートナーが既知である特定の状況、例えばMYC-IGH転座、の場合にのみ適用される。再配置の正確な構成を知ることは、腫瘍の進行挙動及びその下位分類をしばしば明確にする為に不可欠な情報である3。最後に、FISH分析は多重化されることができない。
最近では、次世代配列決定(NGS:Next-Generation Sequencing)DNA捕捉方法が、FFPEサンプル中の選択された遺伝子パネルにおける再配置検出の為に導入されており、それは、塩基対分解能での切断部位を検出し且つ転座パートナー遺伝子を識別することを可能にした4~7。しかしながら、そのような方法は、明確な融合リードを捕捉することに依存し、該切断部位に隣接する非ユニークな配列がある場合には困難である可能性がある8。これは、特に悪性リンパ腫における転座においてよく見られる状況であり、それは、癌遺伝子に対する転座パートナーとして免疫グロブリン及びT細胞受容体遺伝子が典型的に関与している9。RNAベースの検出法は、FFPE材料における再配置検出の為のもう一つのアプローチであり、現在、軟部腫瘍について典型的であるように、キメラ又は変化したRNA産物を結果としてもたらす再配置の為に日常診療に導入されている10~12。RNAはDNAよりも安定性が低いため、FFPE標本におけるRNAベースの診断方法の性能に影響を及ぼすことがある13。更に、RNA ベースの検出方法は、制御変位効果を通じて癌を駆動する非コード配列において再配置を検出することができない。これは、免疫グロブリン及びT細胞受容体のエンハンサー配列が、更に変化していない癌遺伝子の過剰発現を媒介する悪性リンパ腫で最もよく見られるケースである。これらのことを総合すると、FFPE標本における転座をより確実に検出し且つ正確に特徴付ける方法論に対する日常の病理診断実践における明確な必要性がなおある。
重要なことは、病理組織処理におけるホルマリン固定と(予定外の)DNAフラグメント化が、近接ライゲーション(又は「染色体コンフォーメーション捕捉」(chromosome conformation capture))法において必須の工程であるということである。元々は染色体の折り畳みを研究する為に考案され14、近接ライゲーション方法法では、ホルムアルデヒドを用いた固定と、その後のイン・シチュー(in situ)でのDNAフラグメント化、そしてライゲーションを行い、細胞核内で最も近接したDNAフラグメントを融合する。次に、ライゲーション産物のNGS及び定量分析は、細胞集団における一対の配列間の接触頻度の為の相対的見積もりを提供し、それによって、再帰的な染色体折り畳みパターンを分析することを可能にする。一対のDNA配列間の接触頻度を決定する最も支配的な要因は、同じ染色体上でのそれらの線形の隣接性であり、このような接触頻度は、2つのDNA配列間の線形に離れていることが増大すると指数関数的に減少する。興味深いことに、ゲノムの再配置は染色体の線形配列を変化させ、それによって、近接ライゲーション方法において生成されるDNAの接触パターンを変化させる。この理解に基づいて、近接ライゲーション方法は、ゲノム再配置を識別する為の強力な技術として導入された15~20。近接ライゲーション方法がまた、FFPE材料中のSVを検出することができるという概念実証は、最近、Hi-Cプロトコル(すなわち、近接ライゲーションアッセイのゲノム規模の変異体)を15のFFPE腫瘍サンプルに適用された非盲検試験において提供された。ほとんどの場合、この方法(「Fix-C」と呼ばれる)は、FISHによる再配置を有する為に以前にスコア化された遺伝子において視覚的に認識できる変更された接触頻度を与えた21。そのようなワイドなゲノム解析は、新規の再配置遺伝子を識別する為に関連する可能性がある一方で、既知の臨床的意義を有する選択された遺伝子における再配列の識別が必要とされる臨床設定にはあまり関連しない高価なディープ配列決定が必要である。
本発明者等はFFPEで標的化された遺伝子座捕捉(FFPE-TLC:FFPE-Targeted Locus Capture)を提示し、該FFPE-TLCは、オリゴヌクレオチドプローブセットと組み合わされた、架橋化されたDNAフラグメントのイン・シチュー(in situ)ライゲーションを使用し、既知の臨床的に重要な遺伝子の近接ライゲーション産物を選択的にプルダウンし、配列決定し及び解析する。FFPE-TLCは、切除又は針生検によって得られた149個のリンパ腫及び対照FFPEサンプルに盲目的に適用された。再配置は、「近接ライゲーションに基づく、再配置の識別」(PLIER:Proximity-Ligation based IdEntification of Rearrangements)、FFPE-TLCで配列決定されたデータセットを処理し且つ大幅に濃縮された近接ライゲーション産物に基づいて標的遺伝子の再編成パートナーを有意に富化されたそれらの近接ライゲーション産物に基づく標的遺伝子の再配置パートナーを識別するところ専用の計算及び統計フレームワークを使用して自動的にスコア化される。FISH、標的化されたNGS-捕捉、FFPE-TLCの結果の比較は、FFPE-TLCが、特異性と、感度と、検出された再配置における詳細とにおいて両方法を凌駕していることを示した。それ故に、FFPE-TLCは、悪性リンパ腫及び他の転座を介在する悪性腫瘍におけるFFPEサンプルにおけるSV検出の為の強力な新ツールである。
簡単に言うと、FFPE-TLCにおいて、代表的な腫瘍サンプルのFFPEスクロールが脱パラフィン化され、そして、穏やかに脱架橋化されて、中央値サイズ141bpを有するフラグメントを作成する制限酵素(NlaIII)によるイン・シチューDNA消化を可能にした。イン・シチューライゲーション、そして逆架橋化の後、(プローブベースの)ハイブリダイゼーションキャプチャリング(hybridization capturing)の為の標準プロトコルが続き(詳細は下記の方法を参照)、そして、結果として得られたライブラリーがIllumina配列決定マシーンにおいて配列決定される(図8A及び図13を参照)。本発明者等のリンパ腫用プローブパネルにおいて、BCL2遺伝子、BCL6遺伝子、MYC遺伝子及び免疫グロブリン遺伝子座IGH、IGK、IGL並びに血液リンパ系悪性腫瘍に関与する他の遺伝子座を標的とした。本発明者等は、FISHによって元々検出されたMYC、BCL2又はCL6を含む再配置の存在又は非存在で選別された129個のリンパ腫腫瘍サンプルにFFPE-TLCを適用した(図13)。加えて、反応性リンパ節(主に乳癌患者からの反応性リンパ節)からの20個のFFPEサンプル20個が含まれており、これらはFISHによって分析されていないが、6個の標的遺伝子において再配置がないことが予想されるものであった。サンプルはオランダにおける5つの異なる医療センターによって提供され、組織ブロックの年齢、DNAフラグメント化の程度、並びに壊死及び/又は破砕損傷の有無が異なっていた(データは示されていない)。149個のサンプル全ては匿名化されており、それ故に、この(ブラインド)研究においては、いずれかの標的遺伝子における再配置の存在又は非存在は本発明者等から隠されていた。結果を説明する為に、図8Bは典型的なFFPE-TLC実験から取り出された配列のゲノムワイドカバレッジを示す。MYC、BCL2又はBCL6のプローブ標的化された遺伝子座及びその周辺で捕捉された配列(図8C)を詳細に観察すると、再配置検出の為にNGS捕捉を近接ライゲーションと組み合わせることの付加価値を強調する:FFPE-TLCによってプローブ相補ゲノム配列(青)が効率的に回収されるだけでなく、隣接する配列(すなわち、図8CでMYC(ピンク)、BCL2(ブラウン)及びBCL6(オレンジ)について示されている近接ライゲーション産物)のメガベースも強く富化する。標的遺伝子座を有する再配置は新規な隣接する配列にそれらを並置する故に、再配置されたパートナー遺伝子座は、FFPE-TLCにおいて近接ライゲーション配列の増加された密度を示し、それ故に発見される可能性がある。この現象は図8Bにおいて示されており、ここで、MYC(緑)はGRHPR遺伝子(赤)を含む遺伝子座と異常に多くの近接ライゲーション産物を形成し、この転座を有する腫瘍細胞を示す22。
FFPE-TLCデータセット中の転座パートナー遺伝子を自動化された態様で客観的に識別する為に、本発明者等はPLIER(Proximity-Ligation based IdEntification of Rearrangements)と呼ばれる計算パイプラインを開発した。簡潔には、PLIERは、配列決定されたFFPE-TLCサンプルを複数のFFPE-TLCデータセットへと最初に分割し、ここで、各データセットは特異的な標的化された遺伝子(例:MYC)によって捕捉される近接ライゲーション産物から構成される。次に、(標的遺伝子の)所与のFFPE-TLCデータセットについて、PLIERはゲノム全体の近接ライゲーション産物の密度を評価し、ゲノム区間に対して観察され且つ予想された近接性スコアを割り当てし、そして比較し、富化スコアを計算する(詳細は、下記の方法及び図15を参照)。有意に高められた富化スコアを有するゲノム区間は、標的遺伝子の再配置パートナーの有力候補である。本発明者らは、包括的な最適化手順を通じてPLIERの最適なパラメータを最初に識別した(最適化手順の詳細については、下記の方法を参照)。次に、本発明者等は全149個のサンプルにPLIERを適用し、臨床的に関連する3つの標的化された遺伝子MYC、BCL2及びBCL6を含む再配置を検索した。該識別された再配置の概要とそれらのFISH診断との比較が図13において提供されている。20個の対照サンプル全体で、FFPE-TLCは再配置を検出せず、近接ライゲーションデータセットに不可避的に存在する固有のトポロジー及び方法論的ノイズをマスクするPLIERの堅牢性を実証し、一方で、リンパ腫サンプル全体でMYC、BCL2及びBCL6を含む再配置を検出することができることを実証した。
すなわち、56箇所のMYC再配置(49個のリンパ腫サンプル中)、39箇所のBCL2再配置(34個のサンプル中)、42箇所のBCL6再配置(40個のサンプル中)であった(図9A)。PLIERで識別されたゲノム領域が調べられた標的遺伝子の真の再配置であるかどうかを明確に評価する為に、本発明者等はそれぞれの推定されるパートナーの線形配列に沿ったそれらの近接ライゲーション産物の分布を、所謂、蝶形格子、で詳細に観察した23。相互転座に関与している場合、各遺伝子座は、パートナー遺伝子座の一方と優先的に近接ライゲーション産物を形成するその上流配列と、パートナー遺伝子座のもう一方と優先的に接触しライゲーションするその下流配列とを分ける「切断部位」位置を明らかにするはずである(図9B)。図9Cは、蝶形格子によって明らかになった3つの相互再配置の例を示し、それぞれMYC、BCL2及びBCL6が関与する。再配置はまた、標的遺伝子座の一部分だけが所定のパートナーに融合するような非相互的でありうる。図9Dは、MYC、BCL2及びBCL6のより複雑な再配置の蝶形格子を示す。分析された全てのサンプルにおいて、MYCは41個の相互転座(IGHと26個、非IG座と15個)と15個のより複雑な再配置(IGHと4個)、34個の相互転座中のBCL2(IGHと33個、及びIGKと1個)並びに5超のより複雑な再配置、並びに37個の相互転座中のBCL6(IGHと16個、IGLと5個、及び非IG座と16個)並びに5超の複雑な再配置に関与することが見つかっている。
MYC、BCL2又はBLC6遺伝子座に切断部位を有する137個の再配置に加えて、PLIERはまた近接ライゲーション産物における有意な富化を生じる可能性がある2つのバイスタンダーカテゴリー(bystander categories)のゲノム再配置をまた検出すると予想された。一つは増幅されたゲノム領域(コピー数の変動)であり、これらはPLIERが全ての標的遺伝子でそれらをスコア付けする故に、真の陽性再配置と区別することができる(図9E)。PLIERは、分析した全てのリンパ腫サンプルにおいて、ゲノム全体で23個の増幅を発見した。PLIERによってスコア付けされた2つ目のバイスタンダーカテゴリは、標的遺伝子を含んだ染色体を含むゲノム再配置であったが、プローブ標的化された領域の外に切断部位を有する上記ゲノム再配置であった。結果として、そのような再配置は、蝶形格子において、識別された再配置と標的遺伝子座との間の近接ライゲーションシグナルの線形遷移を示さなかった(図9Bを参照)。これらの再配置のうち6つが見つかり、2つの事例(F209及びF262)については、本発明者等は3番染色体を含む再配置であるが、BCL6遺伝子座からメガ塩基離れたところに切断部位を有することが確認された(図16)。PLIERによってスコア付けされたバイスタンダー再配置は、関心のある遺伝子には無関係と考えられ、それ故に陰性として分類された。
図10Aは、本研究において識別された再配置パートナーをシルコス(Circos)プロットを用いてグラフ化した概要を提供する24。本発明者等のサンプルコレクションにおいて、本発明者等はMYC及びBCL2及びBCL6における転座について陽性である3個のサンプル(すなわち、トリプルヒット)、MYCとBCL2又はBCL6の両方における転座について陽性である19個のサンプル(ダブルヒット)、並びに、BCL2及びBCL6の両方において再配置を有する8個のサンプルを見つけた。5つの腫瘍において、MYCはBCL6(F72、F190、F194)遺伝子座に直接的に融合されているか、IGH及びBLC2(F197、F274)との複合3元融合に関与していた。免疫グロブリン遺伝子座の他に、KYNU/TEX41遺伝子座(F67、F188、BCL6と共に、並びにF201、MYCと共に)、TBL1XR1(F49、F273、F329、BCL6と共に)、IKZF1(F210、F281、BCL6と共に)並びにTOX遺伝子座(F74、F271、MYCと共に)を包含する幾つかの他の相互再配置パートナーを本発明者等は見つけた。驚くべきことに、GRHPRはBCL6(F77、F199)及びMYC(F202、F209、F269)の再配置パートナーとして5回見つけられた(図10A)。F197(MYC)及びF331(BCL6)のような事例において、本発明者等は、標的遺伝子座の異なる部分を異なるゲノムパートナーに融合する非相互転座事象の強い示唆が見つけられた(図10B)。他の例において、対立遺伝子3方向再配置の証拠があり、しばしばIGH遺伝子座、MYC(F50、F212、F274)、BCL2(F193、F274、F282)又はBCL6(F77)及び第3パートナーが関与していた(図10C、例として)。更に、F67(BCL6)(図10D)、F202(MYC)及びF197(BCL2)のような稀な事象において、標的とされる遺伝子座の対立遺伝子の両方が再配置に独立して関与しているようであった。
FFPE-TLC及びPLIERを用いて、本発明者等は、BCL2、BCL6、MYCを含む137個の識別されたSVについて、90個の切断部位スパン融合リードを容易に取り出すことができた。該切断部位を標的遺伝子に並びにIGH遺伝子座にマッピングすることが、並びに前述されたように、MYC、BLC2、BCL6及びIGHにおいて繰り返し存在する切断部位クラスターを確認することができた(図10E及び図15)5,25。
IG遺伝子座のプローブ設計は最適ではなかったが(エンハンサー領域のみを中心としたプローブ)、IG遺伝子を標的とした場合に、PLIERは、相互にMYC、BCL2及びBCL6との再配置をほとんど(91個のうち79個)同定した。加えて、IG遺伝子座を他の遺伝子と結合する多くの再配置が見つけられ、それらの多くは下記の再配置パートナーとして記述されている:IGH-PAX5/GRHPR(F21)22,26、IGH-FOXP1(F41)27、IGH-PRDM6(F43)、IGH-CPT1A(F58)28、IGL-BACH2(F223)29、及びIGH-ACSF3(F278)30。そのような事例は、特にリンパ腫の他の既知のドライバーを有さないサンプルにおいて見つけられた故に、更なる調査を必要とする。
検証の為に、及び代替的な近接ライゲーション方法を探る為に、本発明者等は、47個のFFPEサンプルを4C-seqで処理した31。4C-seqにおいて、ハイブリダイゼーション捕捉の代わりに、逆PCRが、関心のある選択された部位と形成される近接ライゲーション産物を富化する為に使用される32。本研究の為に、MYC、BCL2及びBCL6遺伝子座に分布する14個のプライマーセットと、IGH、IGL及びIGK遺伝子座を標的とする7個のプライマーセット(合計21個のプライマーセット)を用いたマルチプレックス4C PCRが使用された。FFPE-4Cタイプのデータをサポートし、並びに再配置パートナーをスコア付けする為に、PLIERの修正バージョンが使用され(下記の方法を参照)。試験され全てのサンプルにおいて、FFPE-4Cが再配置を検出することに失敗した2つの例外(F54及びF67)を除いて、FFPE-TLCとFFPE-4Cとの結果は一致した。いずれも2007年及び2009年それぞれの古いサンプルで、DNAのフラグメント化が激しかった。このことは、FFPE-TLCがFFPE-4Cよりもサンプルの質が悪い場合に耐性があることを示唆された。このことは、4Cは更に(小さな)近接ライゲーション産物の環化を必要とすることから予想されることであった。
本発明者等の研究の主な目的は、FFPE標本における再配置検出の為の診断方法として、FFPE-TLCをFISHと比較することであった。陰性対照組織におけるバックグラウンドスコア付けを考慮すると、FISHは一般的に異常シグナルが細胞の10~20%未満に生じた場合に、診断上陰性とみなされる(正確なカットオフは遺伝子毎に、診断センター毎に異なる可能性がある)。FFPE-TLCの感度は、再配置パートナー候補を識別する為のPLIER能力に依存する。PLIERの性能及び感度をより系統的に調べる為に、本発明者等はMYC(2倍)、BCL2(2倍)及びBCL6(2倍)におけるFISH有効化された再配置を有し、FISH陽性細胞の既知の割合を有する6つのFFPEサンプルを採取し、(プローブプルダウンの前に)再配置を有しない対照サンプルで、5%、1%及び0.2%の割合で各サンプルを希釈した。本発明者等は、その結果、PLIERはどのサンプルにおいても偽陽性を示すことなく、5%以上の陽性細胞を有する全てのサンプルにおいて、実際の再配置のパートナーを確実にスコア付けすることを見つけた(図11A~図11B及び図17を参照)。このことは、FFPE-TLCがFISHと比較して優れた感度を提供することを示唆した。しかしながら、腫瘍細胞の割合が低いこと又は腫瘍の不均一性によって引き起こされる転座の低い割合であることの臨床的意味が決定される必要がある。
本発明者等はFISHの結果と本発明者等のFFPE-TLCの結果とを比較した。FFPE-TLCによってMYC陽性とスコア付けされた49サンプルのうち、47サンプルがまたFISHによっても陽性と分類された(図13)。FISHによって見逃されたMYC再配置はいずれもシスであり、同じ第8染色体上のパートナー(F16及びF221:本明細書において、FISHは複数のシグナルを検出した)であった(図11C)。BCL2については、本発明者等が陽性とスコア付けした34個のサンプルのうち31個のサンプルが以前にFISHによって報告されていた。新たに識別された3つの再配置は、それぞれBCL2-IGH転座を有するがFISHによって解析されていなかった。BCL6については、BCL6再配置を有する40個の腫瘍のうちの29個はFISHによって陽性とスコア付けされていた。3つのBCL6再配置(F38、F40、F49)がそのうちの2つの事例においてFISHによって検出されなかった(図11D)。これは、再配置を有する細胞の割合が閾値を下回ったためである(10%(F38)及び6%(F40))。3例目(F49)において、FFPE-TLCは、TBL1XR1遺伝子座のBCL6遺伝子座への1.35Mb挿入を検出した(図11E)。後から考えてみると、FISH画像(図11F)において、当初は無関係と考えられていたシグナルの分裂が観察されることができた。FFPE-TLCで識別された2つのBCL6再配置(そのうちの1つはIGH)は、単一蛍光シグナルの為にFISHによって結論が出ないと以前は考えられていた(F25、F261)。新たに識別された6つのBCL6再配置(2xIGH、2xIGL)は、FISHによって解析されていなかった(図13)。逆に、FISHによってスコア付けされた再配置は、2つ(F217及びF322、いずれも複雑な核型を持つとして記述されている)を除いて、全てFFPE-TLCにおいて確認された。ここでFFPE-TLC又はFISHのどちらが間違っていたかは、残念ながら判断されることができなかった。要約すると、FFPE-TLCで解析され149個のサンプル全てが、FISHと非常に高い一致率を示した。FISHによってスコア付けされた2つの再配置を見逃したが、FISHによってスコア付けされなかった2つのMYC再配置と5つのBCL6再配置とを識別し、そして、特徴付けられた。その上、FFPE-TLCは複数の遺伝子の再配置を同時に解析することができるため、FISHによって発見できなかったBCL2及びBCL6再配置を9例発見することを可能にした。4例において、この発見は、サンプルの当初の腫瘍分類を変更した。サンプルF16は、MYC及びBCL2の為の再配置が「ヒットなし」から「ダブルヒット」(DH)に、サンプルF67はシングル(MYC)ヒットからMYC-BCL6 DH腫瘍(パートナーIGH及びIGLあり)に、サンプルF194はシングル(MYC)ヒットからMYC-BCL2-BCL6トリプルヒット(TH、ただしMYC及びBCL6は一緒に融合された)、並びにサンプルF209はDHからTHへ分類変更された。
また、本発明者等はまた、FFPE標本における構造変異の検出及び解析の為に、FFPE-TLCと標的化されたDNA捕捉ベースの配列決定法(捕捉-NGS)を比較したいと考えた5~7。この為に、本発明者等は、捕捉-NGSによって以前に解析された200超のFFPEサンプルから成る大規模コホートの一部である19個のFFPEサンプルにおいて、捕捉-NGS及びFFPE-TLCの性能を比較した。該選択されたサンプルは、捕捉-NGSの結果が元のFISH診断と不一致であったサブセットを含んでいた。図12Aは、この比較の結果を示す。捕捉-NGSがFISHで報告された合計7個の転座を識別することに失敗した6個のFFPEリンパ腫サンプルのうちの6個が、報告された7個の転座をFFPE-TLCによって有することが確認された(サンプルF190(MYC及びBCL6)、F197及びF198(MYC)、F193(BCL2)、F188、F191、F192(全てBCL6))。捕捉-NGSがこれらの再配置を見逃してしまった根本的な理由を明らかにする為に、3つの事例において、実際の切断部位が捕捉-NGSプローブ標的領域の外にあることを本発明者等は発見した(F188、F197、F192)。1つの事例(F190)において、FFPE-TLCは、FISHによって識別されたMYC及びBCL6の再配置が実際には1つのMYC-BCL6再配置であることを実証した。捕捉-NGSは切断部位融合リードを見つけることを失敗し、それ故にこの再配置を見逃した。なぜならば、BCL6切断部位がプローブ標的領域の外側に位置していたのに対して、MYC切断部位はプローブによってカバーされることができない反復配列に位置していたためである(図12B)。このように、プローブがカバーする領域の外側に切断部位が発生した場合、捕捉-NGSは再配置を特定できなかったが、FFPE-TLCは前述の通り、そのような再配置を問題なく検出できた。このことを更に説明する為に、本発明者等はBCL2(2倍)、BCL6(2倍)又はMYC(2倍)のいずれかで、FISHで確認された再配置を有する6個のサンプルのデータセットを再解析したが、マッピングされた切断部位からの距離が長くなるように置かれた50kbの区間による捕捉のみを考慮してリードをフィルタリングしたところ、全ての事例において、PLIERが非常に高い信頼度で再配置を見つけた(図12C)。他の3つの事例(F191、F192、F198)において、捕捉-NGSが非一意な配列で壊れて融合した故に、該捕捉-NGSは再配置パートナーを識別することができなかった。NGS戦略が切断部位融合リードマッピングに基づく再配置を識別する際に有しうる困難を更に評価する為に、異なるリード長にわたって、本研究において見つけられた全ての切断部位隣接配列のマッピング可能性を本発明者等は分析した。図12Dは、識別された再配置の約5%が一意にマッピングされることが可能でなく、それ故に、パートナー配列内の50ヌクレオチドを読み込んだ場合でさえも見逃されることを示す。逆に、捕捉NGSがMYC転座を示唆する融合リードを識別した1つの事例があったが、それはFISH免疫組織化学により及びMYC免疫組織化学により未確認であり、FFPE-TLCがまた転座においてスコア付けされなかった(F189)。PCR及び配列決定による詳細な解析は、8番染色体の240塩基対をX染色体へと配置する小さな挿入であり、しかしMYC遺伝子座に影響を及ぼしていないことを明らかにした(図12E)。
結論として、FFPE-TLCは、染色体再配置の検出において、通常の捕捉-NGS方法よりも優れている。捕捉-NGSは、再配置の検出の為の切断部位融合リードの識別に依存し、プローブがカバーする領域の外側及び/又は反復性DNAにおいて切断が生じる場合に、それが大きな障害となる。FFPE-TLCは、本発明者等が示すように、標的遺伝子とその再配置パートナーとの間の近接ライゲーション対を分析するので、これらの再配置を正確に見つける。
議論
本発明者等は、FFPE-TLC、すなわち、FFPE腫瘍サンプル中の臨床的に重要な遺伝子における染色体再配置の標的化された識別の為の近接ライゲーションに基づく方法を提示する。診断において適用されるアッセイとして、FFPE-TLCは、リンパ腫のFFPEサンプルにおける標的化された再配置検出の為の現在のゴールドスタンダードであるFISHと比較して、重要な利点を提供する。第1に、FFPE-TLCとは異なり、FISHは良質の組及び細胞の形態に大きく依存しており、それは、切除標本における壊死、アポトーシス及び破砕アーティファクトによって、及びコア針生検標本からの非常に限られた材料によって否定的な影響を受ける場合がある。本発明者等は、本研究において、コア針生検サンプルを含め、それは、非常に小さなサンプルでさえも良質のFFPE-TLCの結果を与えた。第2に、FISHの結果は、細胞当たりのFISHシグナルの数が異常な場合に、結論が決定的でなかったり又は主観的な解釈をもたらしたりする場合がある。FFPE-TLCは、データ解析アルゴリズムであるPLIERに基づき、選択され標的遺伝子座に関与する再配置を客観的にスコア付けする大きな利点を与える。第3に、FFPE-TLCの結果は、再配置に関するはるかにより詳細な情報を提供する。この方法は、FISHと同様に、臨床的に関連する遺伝子が無傷であるか又は再配置であるかどうかをスコア付けするだけでなく、該方法は追加的に、再配置パートナー、関与する遺伝子との関連における切断の位置、及びさらに多くの場合、塩基対分解能で再配置を記述する融合リードを識別する。病気の進行及び処置応答に関連したこの詳細な情報を集めることは、癌患者の診断、予後及び処置が改善されることが期待されている。塩基対レベルでの転座情報はまた、最小残存疾病検査の為の腫瘍特異的な個別化アッセイの設計を可能にする個別化腫瘍マーカーを提供する。最後に、FFPE-TLCは、偽陽性コールを避ける為により高感度であり、FISH評価は一般的に、正常対照基準によって設定され、3~5μm切片中の直径10~20μmの腫瘍細胞からの信号を「切り取る」(cutting off)ことによって生じる異常信号の10~20%のカットポイント(cut point)を使用する。FFPE-TLCは、細胞のわずか5%しか存在しない場合でさえも再配置を確実に検出し、それはまた、固形癌における融合遺伝子検出に適用できる興味深い方法である。
通常のNGS-捕捉法がまた、SVを識別する為に、融合パートナーを発見する為に、再配置における切断部位に関する詳細な情報を提供する為に用いられているが、これらの方法と比較して、FFPE-TLCは、特にプルダウンと融合リードの認識の成功に厳密に依存しない為に、重要な利点を有している。寧ろ、FFPE-TLCは、切断部位に隣接する染色体区間の蓄積された近接ライゲーション事象を測定して、再配置を識別する。このことは、本発明者等も示している通り、例えば、プローブが、融合リードをプルダウンする為に該切断部位に十分に近い位置に配置されていない場合に、又は該切断部位に近接する非特異的な配列が融合リードの認識を損なう場合に、通常のNGS-捕捉方法によって見逃される再配置を確実に検出することが可能である。
本発明者等の研究の重要な観点は、FFPE-TLCデータセットに再配置のパートナーを本発明者等の客観的に照会する為の計算/統計パイプラインであるPLIERの開発であった。現在利用されている融合リードファインダーは、標的化されたNGSアプローチから生成されたデータを処理する為に、多くの場合、一定レベルの手動データキュレーションを必要とし、完全に自動化された及び並列データ処理の妨げになっている。FFPE-TLCにおいて、PLIERは染色体再配置の自動化された同定を可能にし、配列決定されたFFPE-TLCライブラリーの処理から、識別された再配置を含む簡易テーブルの配信までを行う。PLIERは、参照(又は対照)データセットと比較する必要無しに、独立したライゲーションされたフラグメントの密度を有意に富化する染色体区間を、各テストサンプル内で検索する。それによって、サンプル間の固有の信号対雑音レベルにおける差が考慮され、それは、FFPEサンプルからのDNA品質の範囲が様々な組織、様々な病院、様々なアーカイブ保存時間及び条件から比較的広いことを考えると不可欠である。最初に6個のサンプルの精選されたデータセットにおいてトレーニングされ、そして次に、全てのサンプルの完全なデータセットに適用され、PLIERは、様々なレベルのノイズに対して非常に堅牢であり、同時に、本発明者等の研究において、149個の全てのサンプルで再配置を検出する際の感度が高いことを実証する。
本研究において明らかになった悪性リンパ腫の多数の再配置は、世界保健機関(WHO:World Health Organization)のリンパ腫の分類に照らして考察することが必要である。現在、MYCとBCL2及び/又はBCL6の転座を併せ持つ侵攻性B細胞リンパ腫(所謂、ダブルヒット又はトリプルヒット、DH/THリンパ腫)は、形態的特徴とは無関係に別の存在として分類されている。その根拠は、「生物学的に意味のある分類」(biologically meaningful classification)を目指すことにあるだけでなく、より強化された第一選択治療を正当化する特徴的な不良臨床転帰にある。最近、Lunenburg Lymphoma Biomarker Consortiumは、そのようなリンパ腫の非常に大規模なシリーズにおいて、この悪い転帰はMYC再配置に対するIGパートナーを有するDH/THリンパ腫に実際には限られ、一方、他の全てのコンテクスト(MYCシングルヒット、非IGパートナー)はMYC再配置を有しないDLBCLと同様の転帰を有することを示すことができた。その結果、近い将来、病理医は治療決定を支援する為に、侵攻性B細胞リンパ腫における転座の状態をこのレベルで詳細に提供することが求められるであろう。FISHを使用して、4つのアッセイ(BCL2,-BA(ブレーク-アパート(break-apart))、BCL6-BA、MYC-BA、MYC-IGH-F(融合))がDH/THリンパ腫の診断に必要であり、一方、MYC-IGL融合FISHの為の市販プローブがない故にMYC-IGL転座を有する症例がまだ見落とされている。FFPE-TLCを用いれば、この転座コンテクストがまた、1回のアッセイで確実に診断され、そのことは、時間的にもコスト的にも明らかに改善される。MYC-IGLが4例、及びMYC-IGKが1例であり、そのうちの臨床的影響が直ちに現れるであろうDH事例が1例(F264)であることを本発明者等は識別した。MYC-BCL6融合の3事例(F072、F190、F194)及びMYC、BCL2及びIGHを融合する2事例(F197、F274)はFISHによって識別されることができず、4つの事例においてDHコンテクスト、1つの事例でTHコンテクストとして解釈されることを本発明者等は気付いた。しかしながら、1つの転座事象が両方の転座パートナー遺伝子を活性化し、並びに2つの別々の事象と同様の生物学的影響をもたらすかどうかは不明である。同様に、MYC及びBCL6の両方は、悪性B細胞の挙動に生物学的影響を与えると考えられる遺伝子(例えば、TBL1XR1、CIITA、IKZF1、MEF2C、TCL1)に頻繁に転座される。それにもかかわらず、これまで、そのような融合パートナーの影響が、臨床の場において研究されることができなかった。
結論として、客観的な再配置コーリングの為の、PLIERを組み合わせられたFFPE-TLCは、リンパ腫FFPE標本の分子診断の為に、通常のNGS-捕捉アプローチ及びFISHよりも明らかな有利点を提供する。今後の前向き研究は、臨床的に関連する染色体再配置が頻繁にまた見られる他の癌種、例えば、軟部肉腫、前立腺癌及び非小細胞肺癌(NSCLC:non-small cell lung carcinoma)、に対するFFPE-TLCの性能を実証する必要がある。
参考文献
材料及び方法
患者サンプル:本レトロスペクティブ研究は、129個のアーカイブB細胞非ホジキンリンパ腫組織サンプルのセットを使用し、それらは各施設によって選択され、それ故に、個々の施設におけるサンプルの完全な無作為抽出を表していない可能性がある。対応するリンパ腫患者は、2007年から2019年の間に、University Medical Centre Utrecht,Amsterdam University Medical Centre – location VUMC,Laboratorium Pathologie Oost-Nederland,Leiden University Medical Centre and University Medical Centre Groningen及びそれらの関連病院で診断されていた。それらは、ほとんどがDLBCLとして診断されていたが、バーキットリンパ腫、濾胞性リンパ腫、及び辺縁帯リンパ腫、並びにその他の診断が含まれている。20個の非リンパ腫対照サンプルがまた分析され、そのほとんどは反応性リンパ節サンプルと扁桃摘出標本であった。ホルマリン固定及びパラフィン包埋(FFPE:formalin-fixed and paraffin-embedded)組織サンプルが、標準的な診断手順で得られた。患者毎に、FFPE組織ブロックの1以上の10μmスクロール又は4μmの未染色切片が、チューブ中又はスライド上でFFPE-TLC分析の為に提供された。この研究は、地元の施設委員会の要求に従って実施され、この研究は、地元の機関委員会の要件に従って実施され、この研究中は、関連する全ての倫理及びプライバシー規則が守られた。
分子生物学的解析:全ての患者のサンプルが、選択された事例においてブレイクアパートプローブ(break-apart probes)及びフュージョンプローブ(fusion-probes)を使用して、大部分の症例において下記の3つの遺伝子全てについて解析されている:BCL2(Cytocell LPS028;Vysis Abbott 05N51-020;IGH/BCL2 Dual Fusion Vysis Abbott 05J71-001)、BCL6(Cytocell LPH 035;Vysis Abbott 01N23-020)及びMYC(Cytocell LPS 027;Vysis Abbott 05J91-001;IGH/MYC/CEP 8 Dual Fusion Vysis Abbott 04N10-020)が検出された。19個のサンプルのサブセットがまた、Amsterdam University Medical Centre - location VUMCチームによって開発された捕捉-NGS方法で解析されている。このアプローチの詳細な説明が、下記の補足資料及び方法において記載されている。
FFPE-TLCライブラリーの調製:簡単に言えば、単一のFFPE切片が、1.5mlバイアル中又はスライド上の巻物として、本研究における医療機関によって提供された。スライドが提供された場合、該スライド中に含まれる物質が削り取られ、そして、1.5mlのバイアルに移された。余分なパラフィンが3分間、80℃の熱処理によって除去され、その後遠心分離が行われ、M220 Focused-ultrasonicator(Covaris)を用いた超音波処理で組織を破砕しホモジナイズした。サンプルが、0.3%のSDSと80℃で2時間インキュベートすることによって酵素消化の為のプライミングが行われ、次に、NlaIII(4塩基対カッター制限酵素;NEB)で、37℃、1時間で消化され、そして最後に、T4 DNAリガーゼ(Roche)で、室温で、2時間ライゲーションされた。次に、80℃で、一晩インキュベーションすることにより完全な逆架橋が行われ、DNAがイソプロパノール沈殿及び磁気ビーズ分離を使用して精製された。溶出後、100ngの調製された物質が200~300bpにフラグメント化され(M220 Focused-ultrasonicator,Covaris)、そして、NGS library prep(Roche Kapa Hyperprep,Kapa Unique Dual indexed adapter kit)に付された。独立して調製された合計16~20のライブラリーが総質量2μgで等モルにプールされ、そして、Roche Hypercap試薬及び製造元の説明書に従ったワークフローを用いて、捕捉プローブプールとのハイブリダイゼーション、洗浄工程及びPCR増幅に付された。ペアエンド配列決定が、Illumina Novaseq 6000シーケンシングマシンを用いて行われた。全ての近接ライゲーションライブラリーが、必要と判断されるよりも深く配列決定された。カバレッジが最も低いサンプルが、約20Mのリード深度まで配列決定され、それは必ず再配置の検出の為に十分であった。
FFPE-TLCのデータ処理:個々のサンプル(患者)からのシーケンスリードが、BWA-MEM(設定:-SP-k12-A2-B3)を用いて、ヒトゲノム(hg19)にペアエンドモード(paired-end mode)でマッピングされた33。BWA-MEMは、単一のリードがゲノム内の複数のフラグメント(すなわち、別の領域)へとマッピングされる「スプリットマッピング」(split-mapping)を可能にするアライナーである。このことは、FFPE-TLCにおける各配列決定されたリードが、ゲノム中の様々な場所にマッピングされる複数のフラグメントを含む可能性があるので、FFPE-TLCデータをマッピングする為には必須であった(図14を参照)。マッピング品質(MQ:mapping quality)が0超であるフラグメントは、近接ライゲーションデータ処理で一般的に行われているように、マッピングされたものとみなされた32,34。リードは、関連する標的遺伝子又は「視点」(viewpoint)(すなわち、プローブセット、例えばMYC、BCL2)に、それらのフラグメントと視点の座標(図18はプローブセットの座標についでである)とのオーバーラップに基づいて割り当てられた。どの視点とも重複しないリードは破棄された。1つのリードが複数の視点と重複しているフラグメントの場合は、該リードは、最も重複している視点に割り当てられた。この手順の結果、サンプルと視点との組み合わせごとに、独立したFFPE-TLCアライメントファイル(BAM)が作成された。
参照ゲノムが、NlaIII制限酵素の認識配列(CATG)に基づいて、「セグメント」内にイン・シリコ(in silico)で分割され、ここで、各セグメントはNlaIII認識部位で始まり並びに終わる。次に、マップされたフラグメントが、セグメント上に重ね合わされた。稀にアライメントエラーにより、1つのリード内に複数のフラグメントが重なる可能性がある。そのような場合、その特定のセグメントは1つのフラグメントのみがカウントされ、そのリード上の余分なオーバーラップフラグメントが無視された。本発明者等はFFPE-TLCのデータセットを格納する為にHDF5形式を使用し35、このHDF5形式は、プラットフォーム及び言語を超えたファイル保存規格であり、それ故にFFPE-TLCの将来のユーザにとって利便性の高いものである。
再配置の識別:Seede Ridder et al.36は、ゲノム上で予想以上に富化されたシグナル(すなわち、カバレッジ)を識別することを目的とする。所与のFFPE-TLCデータセットにおいて、PLIERは、参照ゲノムを等間隔のゲノム区間(例えば、5kb又は75kbビン)へと最初に分割し、そして次に、各区間について、少なくとも一つのフラグメント(すなわち、近接ライゲーション生成物)によってカバーされるところのそのゲノム区間内のセグメントの数によって定義される「近接頻度」を計算する(手順全体に関する概略図は図6を参照)。次に、「近接性スコア」が、各染色体にわたる近接頻度のガウス平滑化によって計算されて、偽の可能性が高い近接頻度における非常に局所的で且つ急激な増加(又は減少)を除去する。次に、ゲノム上で観察された近接頻度をイン・シリコでシャッフルし、各染色体にわたってガウス平滑化することで、類似の特性を持つゲノム区間(例えば、トランス染色体上に存在するゲノム区間)に対して期待される(又は平均)近接性スコアと対応する標準偏差が推定される。最後に、zスコアが、その観察された近接性スコアと、近接性スコアの関連する期待値及び標準偏差とを用いて、各ゲノム区間について計算される。最後に、複数のスケール(すなわち、区間幅、例えば5kb及び75kb)から計算されたzスコアを組み合わせることによって、スケール不変の富化スコア(scale-invariant enrichment score)が計算される(詳細は、富化スコア推定(Enrichment score estimation)とPLIERの為のパラメータ最適化(Parameter optimization for PLIER)の項を参照)。このスケール不変の富化スコアが、観察されたライゲーション産物の上昇されたクラスタリングを有するゲノム区間を認識する為に使用される。
シス染色体上に存在するゲノム区間について、本発明者等は、標的化された遺伝子座に隣接するゲノム区間の既知の上昇された近接頻度を最初に補正した。この目的の為に、所与のFFPE-TLCデータセットについて、本発明者等は、プローブされた領域並びにその周辺の+/-250kbの領域を最初に除外した。次に、本発明者等は、該プローブ領域の両側の近接頻度において、染色体末端までガウス平滑化(σ=0.75、スパン=31区間)を実施した。次に、ピークCにヒントを得て34、本発明者等は、平滑化された近接頻度に対してアイソトニック回帰(Isotonic-regression)を行った。各シス区間について、本発明者等は、その平滑化された近接頻度と対応するアイソトニック回帰予測値(prediction value)との差を近接性スコアとみなした。この手順は、標的化された(又はプローブ化された)遺伝子座に隣接するゲノム区間における近接性スコアの既知の上昇が説明されることを確実にする。最後に、シス区間の富化スコアが、地ランス区間と同様のシャッフル手順で計算された(上述された)。本発明者等は、視点とその近傍の真の3次元相互作用が再配置と見なされないように、視点周辺の+/-3mb領域(すなわち、線形染色体を横切って測定された視点に3mbよりも近い)において識別されたシス再配置を破棄した。
上記の統計的アプローチは、FFPE-TLCデータセットがまばらでなく且つ少なくとも独立したライゲーション産物が最低限存在する(すなわち、ゲノムの多様なゲノムセグメントをカバーする)場合にうまく機能することは注目に値する。しかしながら、疎なFFPE-TLCは、貧弱なサンプル(組織)の質、貧弱なDNA抽出、低い消化又はライゲーション効率、又はライブラリー調製における他の難しさで調製されたライブラリーから生じる可能性がある。そのような場合に、ゲノム中の最小数のゲノム区間だけが、0超の近接性スコアを有するであろう。その結果、利用された順列戦略(すなわち、区間のランダムシャッフル)は、真の予想される近接性スコアを過小評価し、それ故に、ゼロ超の近接性スコアを有する多くの区間が、誤って富化されているとみなされるであろう。この問題を改善する為に、本発明者等は、(全ての区間のランダムシャッフリングの代わりに)近接頻度が0超のゲノム区間のみをスワップし、そして次に、スワッピング順列戦略を用いて、観察される近接性スコアと予想される近接性スコアとを比較することによって対応するz-スコアを計算するという補完順列アプローチを本発明者等は考慮した。各ゲノム区間について、本発明者等は、シャッフリングとスワッピン順列との間の最小z-スコアを、その特定のゲノム区間の最終z-スコアとして採用した。この追加は、疎なFFPE-TLCデータセットにおいてさえも偽陽性コールの数を制限し、並びにPLIERがFFPE-4C実験に同様に適するようにされた。全ての順列化において、本発明者等はシャッフル又はスワッピングを1000回繰り返して、対応する近接性スコアの期待値及び標準偏差を予想した。
このアプローチにおいて、既知のバイアス、例えばGC含量、マップ可能性セグメント又は制限部位密度(すなわち、区間毎の制限の数)、又は捕捉された近接頻度に影響を与える可能性のある他の多くの既知の因子を本発明者等は補正しないことに注意することが重要である。PLIERの柔軟性により、同様の染色体コンパートメント、GC含量、制限部位密度等を有する区間のみをスワッピング(又はシャッフル)することによって、これらのパラメータがバックグラウンド推定に考慮されることができる。しかしながら、本発明者等の予備的な解析は、これらのパラメータがバックグラウンド推定において補正されても大きな改善は見られなかった為に、本発明者等はPLIERの計算負荷を軽減する為に、モデルの単純化を選択した。この決定は特に重要であり、何故ならば、本発明者等は、最小限の計算量で臨床に適した軽量のパイプラインを作成することを目指したからである。PLIERのソースコードは、Githubから下記からダウンロード可能である:https://github.com/deLaatLab/PLIER。
富化スコアの推定:所与のサンプル(例えば、患者)及び視点(例えば、BCL2)及びゲノム区間幅(例えば、5kb)について、本発明者等は、z-スコアが5.0超のゲノム区間を最初に選択し、そして、それらが1mbよりも近い場合には、選択された近傍区間を統合した。本発明者等は、統合された区間の90パーセンタイルのz-スコアをそれらの統合されたz-スコアとして取得した。複数の区間幅(例えば、5kb及び75kb)から「スケール不変」(scale-invariant)な富化スコアを推定する為に、本発明者等は、10mbよりも近いマージ区間をグループ化し、そして、最大のスケール(この場合には、75kb)を有する区間のzスコア値を最終富化スコアとして取得した。スケール全体でマージされた間隔の各コレクションは、本研究において「コール」(call)として云われる。
PLIERの為のパラメータ最適化(すなわち、トレーニング段階):PLIERの為の最適なパラメータを識別する為に、本発明者等は3つのリンパ腫(「陽性」)サンプルと3つの対照(「陰性」)サンプルの6つのFFPE-TLCサンプルのコレクションを使用した。具体的には、FISH(ゴールドスタンダード)に基づき、それぞれBCL2、BCL6又はMYCにおいて単一の再配置を有し、他の2つの遺伝子に再配置がないと予想される3つのリンパ腫サンプル(すなわちF73、F37及びF50)が含まれていた。他の3つの「陰性」データセット(すなわちF29、F30及びF33)は、3つの遺伝子のいずれにおいても再配置がないと予想される対照データセットであった。BCL2、BCL6及びMYCの3つの遺伝子については、本発明者等は臨床/診断用のFISHデータしか持ち合わせていなかった為に、最適化を制限した。本発明者等はまた、3つのリンパ腫サンプル(すなわち、F73、F37及びF50)の希釈(すなわち、5%、1%及び0.2%)実験を最適化手順に含めた。まとめると、本発明者等は、PLIERが再配置を識別するはずの12件の陽性事例(元の患者3名と、各患者の追加の3つの希釈サンプル)(すなわち、「真陽性」セット)、及びPLIERがゲノム上の再配置を識別しないはずの33件の陰性事例(各3遺伝子の対照と12個のリンパ腫サンプルにおける2つの非再配置遺伝子)(すなわち、「真陰性」セット)を有した。正しく識別された再配置とは別に、ゲノム全域の陽性事例において見つけられた何らかの余分な再配置が「偽陽性」再配置とみなされた。性能尺度としては陽性事例よりも多い陰性事例を本発明者等は有している可能性があるので(すなわち、クラス頻度が不均衡)、本発明者等は、曲線下面積(Area Under the Curve)の代わりにPR下の面積(AUC-PR:Area Under Precision Recall)を使用した。
PLIERの統計的枠組みの効果的な性能の為に、幾つかのパラメータが最適に定義される必要がある。本発明者等は、University Medical Center Utrechtのハイパフォーマンスコンピューティング(HPC:High Performance Computing)を用いて大規模なパラメータスイープを行って、PLIERの為に最適なパラメータを識別した。これらのパラメータは、下記を含む:ガウス平滑化度(Gaussian smoothing degree)(σ=0.1,0.25,0.5,0.75,1.0,1.5,2.0,2.5,3.0,3.5,4.0)、ガウスカーネルスパンゲノミックインターバルナンバー(Gaussian kernel span genomic interval number)(#ステップ=11,21,31,41,51,61)及びゲノム区間幅(幅=5kb,10kb,25kb,50kb,62kb,75kb,100kb)。また、区間幅については、本発明者等はまた、複数の区間幅を組み合わせることで(すなわち、スケール不変の富化スコア)、より良いパフォーマンスが得られるかどうかを検証した。加えて、マージされた区間のz-スコア(すなわち、互いに1mb近傍以内の区間)がどのようにマージされるべきかを識別する為に、最大値、90パーセンタイル、及び中央値を有する演算子で実験することを考慮した。
パラメータスイープの後、本発明者等は、PLIERの最適なパラメータとして、ガウス平滑化σ=0.75,ガウスカーネルスパン #ステップ=31、区間幅=5kb+75kb(すなわち、両方のz-スコアが5.0よりも上)、及び隣接(<1mb)区間のz-スコアの90パーセンタイルが、最終のz-スコアとして統合されることを識別した。最後に、有意に富化されたコールを考慮する為に、有意閾値を推定する必要があった。偽発見率(FDR:False Discovery Rate)の最大値を1%に設定することによって、本発明者等は、トランスインターバルの富化スコアの為の最適な有意閾値として8.0の有意に到達した。計算機の制約及び診断データの制限された利用可能性の故に、BCL2、BCL6及びMYCのトランスインターバルに対してのみPLIERパラメータを最適化した。次に、本発明者等は、本研究における他の遺伝子(すなわち、IGH、IGL及びIGK)のトランスインターバルに対して、これらのパラメータを(更なる最適化無しで)使用した。本発明者等の研究における全ての遺伝子のシスインターバルに対して、本発明者等は、有意の閾値を除いて、再び前述されたパラメータを使用した。これらのコールの為に、本発明者等は、より高い有意閾値(すなわち、>16.0)という保守的なアプローチをとった。PLIERからの各出力コールは、スケール不変の富化スコアが有意閾値を上回った境界を示す2つのゲノム座標で構成されている。
増幅の検出:FFPE-TLCは増幅を識別する為に設計されたものではないが、PLIERによって同一サンプル及び同一領域において異なるプローブセットから識別された反復再配置は、その領域における増幅事象を示唆する。そこで、本発明者等は、本発明者等の研究において、相対的に広い領域がプローブされている3つの主要遺伝子(すなわち、MYC、BCL2及びBCL6)に着目した(詳細は図18を参照)。各サンプルについて、発明者等は、特定の再配置(すなわち、同じ領域における再配置)が複数の遺伝子から報告されているかどうかを尋ねた。PLIERによって識別されたそのような増幅の例が図9Eに描かれている。注目すべきは、リンパ腫サンプルが、IGH領域に特異的なダブルヒット再配置(例えば、BCL2及びMYC)を潜在的に保有する可能性があることである。発明者等は、そのような再配置を増幅イベントとしてコールすることを避ける為に増幅検出解析からIGH領域への呼び出しを除外した。
ブラックリスト化された領域:本発明者等は、本発明者等のIGL及びIGKのプローブセットが、ゲノムにおける特異的領域を繰り返し識別する傾向があることに注目した。本発明者等は、再配置がないと予想される本発明者等の対照サンプルにおいてさえも、そのようなコールを観察した。特に、本発明者等のIGLプローブセットは、ヒト(hg19)ゲノムのchr9:131.5-132.5mbを頻繁に識別し、及び本発明者等のIGKプローブセットは、ヒト(hg19)ゲノムのchr22:22-24mb領域を頻繁に識別した。chr22:22-24mbの領域はIGL遺伝子を有し、それ故に、そのようなコールは更に調査する為に興味深い可能性があることは言うまでもない。しかしながら、本発明者等は、対応するIGLの視点が、IGKを相互に識別していないことに注目した。結果として、本発明者等は、富化スコアの上昇の原因が、IGLとIGKとの配列の高い類似性がマッピング手順の際にミスアラインメントを引き起こすことが原因であると考えた。まとめると、本発明者等は、両方の領域はそれぞれIGKプローブ及びIGLプローブの標的外結合とみなし、並びにこれらの2つのプローブセットによってこれらの領域において確認された再配置は無視した。
融合リードの識別:所与のFFPE-TLCデータセット(例えば、MYC)において融合リードを識別する為に、本発明者等は、スプリットアラインメント(split-alignments)(すなわち、ゲノムの複数の領域にマッピングされた個々のリード配列)を収集した。次に、FFPE-TLCにおける酵素消化を参照する該スプリットアラインメントが、ゲノム内の制限酵素認識部位(+/-塩基対)で融合するスプリットアラインメントを破棄することによってフィルタリングした。(PLIERによって識別された)再配置座標で生じるスプリットアラインメントがIGVで手動チェックされて、リード融合の存在を確認した。
融合リードのマッピング可能性:該融合リードから識別された切断部位座標がマッピング解析において使用され、参照ゲノムから対応する配列を抽出した。151bp(配列決定リード長に等しい)の合計347個の配列において、切断部位の上流及び下流が参照ゲノムから抽出された。これら347個の配列がblastn(設定:-perc_identity 80-dust no-evalue 0.1)を用いて、20~151個の異なる配列長で、1bpの工程サイズを用いてアライメントした。該Blastの結果が解析され、各長さで完全にヒットした配列を数えた。正確に1つヒットした場合には、その配列はユニークとみなされ、複数ヒットした場合にはその配列は非ユニークとみなされる。非ユニーク配列の割合が棒グラフでプロットされた。
サンプルF189におけるchrXへの240bpのchr8挿入の確認:対照DNAとサンプルF189から単離されたDNA(Nebnext Q5 mix,NEB)において、chrX上の挿入に隣接する最初のPCR用の2つのプライマー(Fwd:ATTTTGATCGGCTTAGACCA,Rev:GGTTGATCAAAGCCAGTC)とネステッドPCRの為の2つのプライマー(Fwd:GTCCAGCTTTGTCCTGTATT,Rev:GTCATGGCTGGTCAAGATAG。PCR産物がアガロースゲルにおいて分けられ、サンプルF189のみ予想通りのサイズの挿入産物が形成されていた(データは示されていない)を用いて2x20サイクルのネステッドPCR(nested PCR)が行われた。更なる確認の為、一次PCR産物が同じネステッドPCRにおいて増幅されたが、今度はIllumina配列決定アダプターとインデックス配列(Fwd:GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGTCCAGCTTTGTCCTGTATT,Rev:ACACTCTTTCCCTACACGACGCTCTTCCGATCTGTCATGGCTGGTCAAGATAG)に付された。
データの入手可能性:本研究において使用された全ての配列決定データが、参照ゲノム(hg19)にマッピングされ、並びにEuropean Genome-phenome Archiveを通じて入手可能である。
補足材料及び方法:捕捉-NGS
DNAの単離、ライブラリーの調製、及び配列決定:DNAが、QIAamp DNA FFPE Tissue Kit(Qiagen,Hilden,Germany)を用いて3~10x10μmのFFPE切片から製造者のプロトコルに従って抽出された。末梢血DNAが、QIAamp Blood Mini Kit(Qiagen,Hilden,Germany)を用いて製造元のスピンプロトコルに従って抽出された。分けられたDNAはQubitBRキット(Thermo Fisher Scientific,Carlsbad CA,USA)を用いてQubit 2.0 Fluorometerで定量され、総量130μl中、250~800ngがCovaris S2又はME220(Covaris Inc,Woburn MA,USA)を用いてCovaris S2では1バースト200サイクルで平均180~220bp,1000サイクルで3分かけて平均250~300bpのサイズでフラグメント化された。DNA濃度とフラグメント化プロファイル/サイズ分布が、Agilent DNA 1000 kit (Agilent Technologies,Santa Clara,CA)を用いて、2100バイオアナライザーで測定された。250ngの180~220又は250~300bpのフラグメント化されたDNAが使用されて、KAPAライブラリー調製キット(KAPA Biosystems,Wilmington MA,USA)を用いてNGSライブラリーが作成された。すなわち、DNA末端が修復され(20℃、30分)、シングルA-tailがライゲーションされた(30℃、30分)。その後、一意にインデックス付けされたアダプター(Roche Nimblegen,MadisonWI,USA;IDT,Coralville IA,USA)が一晩(16℃)ライゲーションされ、その後、サイズ選択が行われ、250~450bpの間のフラグメントが保持されるようにした。DNAは7サイクルのポリメラーゼ連鎖反応(PCR)によって増幅された。作成されたDNAライブラリーのアリコートが標的化捕捉に供された。NimbleGen design software(Roche)が用いられて捕捉パネルが設計された。捕捉パネルは、変異解析の為に約350の遺伝子のエクソン(~1.5Mb)、転座解析の為に複数の染色体領域(遺伝子、イントロン、遺伝子間領域を含む;~1.5Mb)をカバーする(Roche order ID 0200204534,ID 43712,及びID 1000002633)。捕捉がNimbleGenEZ SeqCap library protocol V5.1(Roche Nimblegen,MadisonWI,USA)に従って行われた。1回の捕捉につき、8個のライブラリーのDNAが1つのチューブに等モルでプールされ、合計1μgのDNAとされたた。プローブのハイブリダイゼーションが47℃で一晩行われた。該プールは14回のPCRサイクルで増幅された。3つのプールが等モルでプールされ、1つのシーケンスレーンにロードされ、そして、HiSeq 2500又は4000それぞれで125bp又は150bpのペアエンドで配列決定された。
シーケンスリードのアライメント:NGSリードはBcl2fastq(Illumina)でデマルチプレックスされた。アダプター及び貧弱な品質の塩基がSeqPurge(-min len 20;v0.1-104)でトリミングされた。BWA mem(-M -R;v0.7.12)が用いられてヒト参照ゲノム(hg19)に対してアライメントが行われた(Heng 2013)。ABRA(v0.96)でのリード再アラインメント(Mose et al.2014)が、アラインメント精度を向上させる為に使用された。該アライメントされたbamファイルが、Sambamba(v0.5.6)でのクエリ名でソートされ、そして、重複リードが、ASSUME SORTORDER=querynameを設定することを使用して、PicardtoolsMarkDuplicates(v2.4.1)でフラグ付けされた。この設定は、一次配列の重複に加えて、二次配列の重複もマーク付けする為に必要である(Tarasov et al.2015;'Picard tools')。次に、リードが、データ解析パイプラインの残りの部分との互換性の為に座標によってソートされた(Sambamba)。
構造変異体解析:転座、逆位、欠失、挿入、重複を包含する構造変異体の解析の為のパイプライン部分が、ワークフロー管理システムであるSnakemake (Koster and Rahmann 2012)において生成された。高い感度及び特異性を得る為に、4つの転座検出アルゴリズムが組み合わされていた:BreaKmer(v.0.0.4)(Abo et al.2015)、GRIDSS(v.1.4.2)(Cameron et al.2017)、NovoBreak(v.1.1.3)、及びWham(v.1.1.3)(Kronenberg et al.2015)。これらは、以下の基準で選定された。1.転座の検出が可能であること、2.2.短い挿入サイズを有するペアエンドのIllumina配列決定データで動作する、3.3.標的化された配列決定データで使用可能であること、4.4.文書化が可能であること、5.5.少なくとも2017年までメンテナンスされていること、BreaKmer、GRIDSS及びnovoBreakはデフォルトの設定で実行された。Whamは、mapping quality 10 (-p)及びbase quality 5 (-q)で実行された。BreaKmerとの互換性を保つため、bamファイルから染色体-接頭語(chromosome-prefix)が削除された。BreaKmerは、転座検出の為に、関心のある領域を含むターゲットベッドファイル(target bed file)を必要とし、アセンブリ時間を短縮する為に、より高い精度を得る為に、転座ターゲットがターゲットベッドファイル内で5kbの領域に分割された。
これらのツールの出力を組み合わせることができるように、該出力がツール間で比較できるようにR(v.3.4.1)で変換され、そして、遺伝子アノテーションが追加された。ノイズを除去する為に、フィルターが適用された。その後の順序で、以下のSVがデータから削除された:
両方の切断部位がオフターゲットで、捕捉プローブの位置から300bp以上外れたSV;
同じツールで検出された全く同じ切断部位を有する重複SV;
ツールに設定された閾値を満たしていないSV。BreaKmerの場合は、少なくとも4本のスプリットリードと3本の不一致リード、Whamの場合は少なくとも8本のリード(不一致リードとスプリットリードの合計)、GRIDSSは450以上の品質スコア、novoBreakは少なくとも4本の高いマッピング品質の転座リードの平均カバレッジを必要とする;
4つのツールのSV出力が一緒にされ、そして1つのツールで検出されたSVのみを削除した。従って、少なくとも2つのツールによって認識されたSVのみが含まれていた。それ故に、10bpのマージン内にある切断部位は同一のSVであるとみなされた。
両方の切断部位がオフターゲットで、捕捉プローブの位置から300bp以上外れたSV;
同じツールで検出された全く同じ切断部位を有する重複SV;
ツールに設定された閾値を満たしていないSV。BreaKmerの場合は、少なくとも4本のスプリットリードと3本の不一致リード、Whamの場合は少なくとも8本のリード(不一致リードとスプリットリードの合計)、GRIDSSは450以上の品質スコア、novoBreakは少なくとも4本の高いマッピング品質の転座リードの平均カバレッジを必要とする;
4つのツールのSV出力が一緒にされ、そして1つのツールで検出されたSVのみを削除した。従って、少なくとも2つのツールによって認識されたSVのみが含まれていた。それ故に、10bpのマージン内にある切断部位は同一のSVであるとみなされた。
ブラックリスト:試験の結果、複数のSVがしばしば繰り返されることがわかった。インテグレイティブ・ゲノム・ビューアー(IGV:integrative genome viewer)においてこれらの事象を手動で検査した結果、これらのSVは異なる起源を持つアーティファクトであることが分かった。これらのSVの一部は、ゲノム中の高度に反復的な領域の結果であり、他のものは、部分的に相同な領域によってもたらされたものであった。更に、幾つかの一般的な生殖細胞系列のSV、特に小さなインデル(indels)、がデータにおいて検出された。これらの問題のある領域を出力から取り除く為に、25個の非腫瘍サンプル(12個の血液サンプル、4個のFFPE過形成リンパ節、6個のFFPE反応性リンパ節、3個のFFPE上皮組織)のパネルに基づいてブラックリストが作成された。これらの25個のサンプルについて、SV検出は、全く同じDNA、分離、調製、配列決定、及び選択した4つの検出ツールに同じ設定で従って実施された。少なくとも2つの非腫瘍サンプルで10bpのマージン内で検出された共通の切断部位位置は、Bed-tools multi-inter(v0.2.17)を使用してブラックリストに追加された。ブラックリストに登録された50bp未満の領域は、Bedtools mergeで1つの領域にマージされた。ブラックリストに載った領域内に切断部位の1つがあるSVは、SV検出の出力から削除された。残ったSVはIGVにおいて手動で検査された。
Claims (26)
- 複数のDNAリードのデータセットを使用して、関心のあるゲノム領域に関与する染色体再配置を検出する方法であって、ここで、前記データセットは、関心のあるゲノム領域に核近接するゲノムフラグメントを表す複数のDNAリードを含み、前記方法が、
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101)、ここで、各ゲノムフラグメントの前記観察された近接性スコアが、関心のあるゲノム領域に核近接し且つ前記ゲノムフラグメントに対応する1つの配列を含む少なくとも1つのDNAリードの前記データセットにおける存在を示す;
予想される近接性スコアを、前記複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに、前記複数のゲノムフラグメントの前記観察された近接性スコアに基づいて割り当てること(102)、ここで、前記予想される近接性スコアは、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記近接性スコアの予想された値を含む;及び
前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記観察された近接性スコア及び前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアに基づいて生成すること(103)
を含む、前記方法。 - 前記予想される近接性スコアを、前記少なくとも1つのゲノムフラグメント割り当てること(102)が、
複数の関連する近接性スコアを、複数の関連するゲノムフラグメントの前記観察された近接性スコアに基づいて決定すること(303)、ここで、前記関連するゲノムフラグメントは、選択基準の1組に従って前記少なくとも1つのゲノムフラグメントに関連する;及び
前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアを、前記複数の関連する近接性スコアに基づいて決定すること(304)
を含む、請求項1に記載の方法。 - 前記複数の関連する近接性スコアを決定すること(303)が、
前記観察された近接性スコアの複数の順列を生成し(401)、それによって、前記複数のゲノムフラグメントのそれぞれのゲノムフラグメントの対応する複数の順列化され観察された近接性スコアを識別すること、ここで、順列を生成することが、選択基準の前記1組に従って、互いに関連しているランダムに選択されたゲノムフラグメントの前記観察された近接性スコアをスワッピングすることを含む
を含む、請求項2に記載の方法。 - 前記少なくとも1つのゲノムフラグメントの各関連する近接性スコアを決定すること(303)が更に、順列内の前記少なくとも1つのゲノムフラグメントのゲノム近傍における前記ゲノムフラグメントの前記順列化され観察された近接性スコアを集約して(402)、各順列についての前記ゲノムフラグメントの集約され順列化され観察された近接性スコアを得ることを更に含む、請求項3に記載の方法。
- 前記方法が、前記少なくとも1つのゲノムフラグメントの前記ゲノム近傍における前記ゲノムフラグメントの前記観察された近接性スコアを集約して(101a)、前記少なくとも1つのゲノムフラグメントの集約され観察された近接性スコアを得ることを更に含み、
ここで、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントが染色体再配置に関与しているか否かの指標を生成すること(103)が、前記少なくとも1つのゲノムフラグメントの前記集約され観察された近接性スコアと前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアとに基づいて行われる、請求項4に記載の方法。 - 前記方法が、各ゲノムフラグメントの前記ゲノム近傍における前記ゲノムフラグメントの前記観察された近接性スコアを集約して(101a)、各ゲノムフラグメントの集約され観察された近接性スコアを得ることを更に含み、
ここで、前記順列が、各ゲノムフラグメントの前記集約され観察された近接性スコアに基づいて生成され(401)、及び
ここで、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントが染色体再配置に関与しているか否かの前記指標を生成すること(103)が、前記少なくとも1つのゲノムフラグメントの前記集約され観察された近接性スコア及び前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアに基づいて行われる、請求項5に記載の方法。 - 前記近接性スコアを集約すること(101a)、前記予想される近接性スコアを割り当てること(102)、及び前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントが染色体再配置に関与している前記可能性の指標を生成すること(103)の工程が、複数の異なるスケール(501)について反復され(502)、ここで、各反復(101a’,102’,103’)において、前記ゲノム近傍のサイズが前記スケールに基づく、請求項5又は6に記載の方法。
- 前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアを決定すること(304)が、前記少なくとも1つのゲノムフラグメントの前記複数の関連する近接性スコアを組み合わせて、例えば平均及び/又は標準偏差を決定することを含む、請求項1~7のいずれか1項に記載の方法。
- 前記観察された近接性スコアを、前記複数のゲノムフラグメントそれぞれに割り当てること(101)が、
観察された近接頻度を、1つのゲノムの複数のゲノムフラグメントに割り当てること(201)、ここで、前記観察された近接頻度は、前記対応する1つのゲノムフラグメントの少なくとも1つのDNAリードの前記データセットにおける存在を示す;及び、
各ゲノムフラグメントのゲノム近傍における前記観察された近接頻度を組み合わせることによって、例えば前記観察された近接頻度をビンニングによって、各観察された近接性スコアを計算すること(202)、好ましくは、ここで、前記観察された近接頻度は、前記ゲノムフラグメントに対応する前記DNAリードが前記データセット中に存在するか否かを示すバイナリ値、又は前記データセット中の前記ゲノムフラグメントに対応する複数のDNAリードの数を示す値を含む、
を含む、請求項1~8のいずれか1項に記載の方法。 - 前記複数のDNAリードのデータセットを用意することが、
a.参照ゲノム中の前記関心のあるゲノム領域を決定すること;
b.近接ライゲーションアッセイを実行して、ライゲーションされた複数の近接フラグメントを生成すること;
c.前記ライゲーションされた近接フラグメントを配列決定すること;
d.前記配列決定されライゲーションされた近接フラグメントを参照ゲノムにマッピングすること;
e.前記関心のあるゲノム領域にマッピングされた配列を含むところの前記配列決定されライゲーションされた複数の近接フラグメントを選択すること;及び、
f.前記選択され配列決定されライゲーションされた複数の近接フラグメントのうちの少なくとも1つの近接フラグメントにおいて、前記関心のあるゲノム領域にライゲーションされたゲノムフラグメントを検出すること
を含む、請求項1~9のいずれか1項に記載の方法。 - 前記ゲノムフラグメントに関連する前記複数の関連するゲノムフラグメントを識別する為の選択基準の前記1組が、
a.関連するゲノムフラグメント候補が、参照ゲノムにおいて、前記関心のあるゲノム領域をまた有する同じ染色体にシスで局在化しているかどうか;
b.前記関連するゲノムフラグメント候補が、前記参照ゲノムにおいて、前記関心のあるゲノム領域をまた有する前記同じ染色体の特定の部分にシスで局在化しているかどうか;及び、
c.前記関連するゲノムフラグメント候補が、前記参照ゲノムにおいて、前記関心のあるゲノム領域を有しない染色体にトランスに局在化しているかどうか
のうちの少なくとも1つを含む、請求項2~10のいずれか1項に記載の方法。 - 前記ゲノムフラグメントに関連する前記複数の関連するゲノムフラグメントを識別する為の選択基準の前記1組が、
i.前記関連するゲノムフラグメント候補が、核近接アッセイによって決定される場合に、前記関心のあるゲノム領域と同じ活性又は不活性の三次元核コンパートメント(例えば、A又はBのコンパートメント)のゲノム部分に局在化しているかどうか;
ii.前記関連するゲノムフラグメント候補が、例えば所定のヒストン修飾のゲノム分布を解析するエピジェネティックプロファイリング法によって決定される場合に、前記関心のあるゲノム領域と同じ又は類似のエピジェネティッククロマチンプロファイルを有するところのゲノム部分に局在するかどうか;
iii.前記関連するゲノムフラグメント候補が、転写プロファイリング法によって決定される場合に、関心のあるゲノム領域と同様の転写活性を有するところのゲノム部分に局在化しているかどうか;
iv.前記関連するゲノムフラグメント候補が、複製タイミングプロファイリング法によって決定される場合に、前記関心のあるゲノム領域と類似の複製タイミングを有するところのゲノム部分に局在化しているかどうか;
v.前記関連するゲノムフラグメント候補が、前記関心のあるゲノム領域として実験的に作成されたフラグメントの関連する密度を有するところのゲノム部分に局在化しているかどうか;及び、
vi.前記関連するゲノムフラグメント候補が、前記関心のあるゲノム領域として、マップ可能でないフラグメント又はフラグメント末端の関連する密度を有するところのゲノム部分に局在化しているかどうか
のうちの少なくとも1つを含む、請求項2~11のいずれか1項に記載の方法。 - 前記複数の関連するゲノムフラグメントを識別する為の選択基準の前記1組が、前記関連するゲノムフラグメント候補の前記近接性スコアが複数のDNAリードのゼロでない数を示す値を有するという要件を含み、好ましくは、ここで、前記少なくとも1つのゲノムフラグメントが染色体再配置に関連しているところの前記可能性の指標を生成することが、
前記関連するゲノムフラグメント候補の前記近接性スコアが複数のDNAリードのゼロでない数を示す値を有するという要件を除く選択基準の1組を使用して、前記少なくとも1つのゲノムフラグメントが染色体再配置に関連しているところの前記可能性の第1の指標を生成すること;
前記関連するゲノムフラグメント候補の前記近接性スコアが複数のDNAリードのゼロでない数を示す値を有するという要件を含む選択基準の前記1組を使用して、前記少なくとも1つのゲノムフラグメントが染色体再配置に関連しているところの前記可能性の第2の指標を生成すること;及び、
前記第1の指標及び前記第2の指標に基づいて、前記少なくとも1つのゲノムフラグメントが染色体再配列に関連しているところの可能性の第3の指標を生成すること
を含む、請求項1~12のいずれか1項に記載の方法。 - コンピュータプログラム製品であって、該コンピュータプログラム製品がコンピュータ可読命令を含み、該コンピュータ可読命令が、プロセッサシステムによって実行される場合に、
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101)、ここで、1つのゲノムフラグメントの前記観察された近接性スコアが、前記ゲノムフラグメントに対応する少なくとも1つのDNAリードの前記データセットにおける存在を示し、前記データセットが複数のDNAリードを含み、前記複数のDNAリードが、関心のあるゲノム領域に核近接するゲノムフラグメントを表す;
予想される近接性スコアを、前記複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに、前記複数のゲノムフラグメントの前記観察された近接性スコアに基づいて割り当てること(102)、ここで、前記予想される近接性スコアは、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記近接性スコアの予想された値である;及び
前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記観察された近接性スコア及び前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアに基づいて生成すること(103)
を前記プロセッサシステムに行わせる、前記コンピュータプログラム製品。 - 関心のあるゲノム領域内の位置に再配置パートナー候補を融合する染色体切断部位接合部の存在を確認する方法であって、
a.DNAを含むサンプルにおいて近接アッセイを実行して、複数の近接結合された生成物を生成すること;
b.前記関心のあるゲノム領域の5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、前記近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、前記関心のあるゲノム領域の前記5’末端に隣接する配列を含むゲノムフラグメントに近接する;
前記近接結合された生成物を配列決定して、配列決定リードを生成すること、
前記関心のあるゲノム領域の前記5’末端に隣接する配列を含む前記ゲノムフラグメントに近接する前記ゲノムフラグメントの前記配列を参照配列にマッピングすること;
c.前記関心のあるゲノム領域の3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、前記近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに近接する;
前記近接結合された生成物を配列決定して、配列決定リードを生成すること、
前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに近接する前記ゲノムフラグメントの前記配列を参照配列にマッピングすること;
d.前記関心のあるゲノム領域を有する前記ゲノムフラグメント、又は前記関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントの近接頻度に基づいて、少なくとも1つのゲノムフラグメントを再配置パートナー候補として識別すること、ここで、前記工程d.は、
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101)、ここで、各ゲノムフラグメントの前記観察された近接性スコアが、前記関心のあるゲノム領域に近接し且つ前記ゲノムフラグメントに対応する1つの配列を含む少なくとも1つの配列決定リードの前記データセットにおける存在を示す;
予想される近接性スコアを、前記複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに、前記複数のゲノムフラグメントの前記観察された近接性スコアに基づいて割り当てること(102)、ここで、前記予想される近接性スコアは、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記近接性スコアの予想された値を含む;及び
前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記観察された近接性スコア及び前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアに基づいて生成すること(103)、及び前記ゲノムフラグメントを再配置パートナー候補として識別すること
を含む、
e.前記関心のあるゲノム領域の前記5’末端に隣接する配列を含む前記ゲノムフラグメントに隣接する前記再配置パートナー候補のゲノムフラグメントと、前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに隣接する前記再配置パートナー候補のゲノムフラグメントとが重なり合っているか又は線形に離れているかを判定すること、ここで、前記再配置パートナー候補ゲノムフラグメントの線形に離れていることが、前記関心のあるゲノム領域内の染色体切断部位接合部を示す、
を含む、前記方法。 - 関心のあるゲノム領域内の位置に再配置パートナー候補を融合する染色体切断部位接合部の存在を確認する方法であって、
a.DNAを含むサンプルにおいて近接アッセイを実行して、複数の近接結合された生成物を生成すること;
b.前記関心のあるゲノム領域の5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、前記近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、前記関心のあるゲノム領域の前記5’末端に隣接する配列を含むゲノムフラグメントに近接している;
前記近接結合された生成物を配列決定して、配列決定リードを生成すること、
前記関心のあるゲノム領域の前記5’末端に隣接する配列を含む前記ゲノムフラグメントに近接する前記ゲノムフラグメントの前記配列を参照配列にマッピングすること;
c.前記関心のあるゲノム領域の3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、前記近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに近接する;
前記近接結合された生成物を配列決定して、配列決定リードを生成すること、
前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに近接する前記ゲノムフラグメントの前記配列を参照配列にマッピングすること;
d.前記関心のあるゲノム領域を有する前記ゲノムフラグメント、又は前記関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントの近接頻度に基づいて、少なくとも1つのゲノムフラグメントを再配置パートナー候補として識別すること、
e.前記関心のあるゲノム領域の前記5’末端に隣接する配列を含む前記ゲノムフラグメントに隣接する前記再配置パートナー候補のゲノムフラグメントと、前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに隣接する前記再配置パートナー候補のゲノムフラグメントとが重なり合っているか又は線形に離れているかを判定すること、ここで、前記再配置パートナー候補ゲノムフラグメントの線形に離れていることが、前記関心のあるゲノム領域内の染色体切断部位接合部を示す、
を含む、前記方法。 - 前記近接アッセイが、複数のライゲーションされた近接生成物を生成する近接ライゲーションアッセイである、請求項15又は16に記載の方法。
- 工程b.がオリゴヌクレオチドプローブハイブリダイゼーション又はプライマーベースの増幅を実行して、前記関心のあるゲノム領域の前記5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、及び/又は工程c.がオリゴヌクレオチドプローブハイブリダイゼーション又はプライマーベースの増幅を実行して、前記関心のあるゲノム領域の前記3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、好ましくは、ここで、工程b.が、前記関心のあるゲノム領域の5'領域に隣接する配列に少なくとも部分的に相補的である少なくとも1つのオリゴヌクレオチドプローブ又はプライマーを提供することを含み、及び/又は工程c.が、前記関心のあるゲノム領域の3’領域に隣接する配列に少なくとも部分的に相補的である少なくとも1つのオリゴヌクレオチドプローブ又はプライマーを提供することを含む、
請求項15~17のいずれか1項に記載の方法。 - 前記方法が、前記再配置パートナー候補を前記関心のあるゲノム領域内の位置に融合する前記染色体切断部位接合部の位置を決定することを更に含み、
前記方法が、
i)前記関心のあるゲノム領域のうちの少なくとも一部と、ii)前記関心のあるゲノム領域に近接するゲノムフラグメントとを含む近接結合産物を富化すること、前記近接結合された生成物を配列決定し、そして、前記染色体切断点をマッピングすること、ここで、前記マッピングすることが、I)前記関心のあるゲノム領域のうちの少なくとも第1の部分と前記再配置パートナーのゲノムフラグメントとを含む近接結合された生成物、及びII)前記関心のあるゲノム領域のうちの少なくとも第2の部分と前記再配置パートナーのゲノムフラグメントとを含む近接結合された生成物を検出することを含み、ここで、前記I)及びII)からの前記再配置パートナーゲノムフラグメントは線形に離れており、好ましくは、オリゴヌクレオチドプローブハイブリダイゼーション又はプライマーベースの増幅を実行して、i)前記関心のあるゲノム領域の少なくとも一部及びii)前記関心のあるゲノム領域に近接するゲノムフラグメントを含む近接結合された生成物を富化することを含む、
請求項15~18のいずれか1項に記載の方法。 - 前記方法が、配列決定リードの少なくともサブセットについての行列を生成することを含み、前記行列の一方の軸が、前記関心のあるゲノム領域及び/又は前記関心のあるゲノム領域に隣接する領域の配列位置を表し、並びに他方の軸が、前記再配置パートナー候補の配列位置を表し、ここで、前記行列内の各要素が、前記関心のあるゲノム領域のゲノムフラグメント又は前記関心のある前記領域に隣接するゲノムフラグメントと前記再配置パートナーからのゲノムフラグメントとを含む同定された1つの近接結合された生成物の頻度を表すように、前記行列が、前記配列決定リードを前記行列上に重畳することによって生成され、好ましくは、前記行列が蝶形格子である、請求項15~19のいずれか1項に記載の方法。
- 前記方法が、前記切断部位にまたがる1つのゲノム領域の配列を決定することを更に含み、前記方法が、
i)前記関心のあるゲノム領域の切断部位-近位ゲノムフラグメントとii)再配置パートナーゲノムフラグメントとを含む近接結合された生成物を識別することを含む、請求項15~20のいずれか1項に記載の方法。 - 工程d.が、
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101)、ここで、各ゲノムフラグメントの前記観察された近接性スコアが、前記関心のあるゲノム領域に近接し且つ前記ゲノムフラグメントに対応する1つの配列を含む少なくとも1つの配列決定リードのデータセットにおける存在を示す;
予想される近接性スコアを、前記複数のゲノムフラグメントの前記観察された近接性スコアに基づいて、前記複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに割り当てること(102)、ここで、前記予想される近接性スコアは、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記近接性スコアの予想された値を含む;及び
前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記観察された近接性スコア及び前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアに基づいて生成すること(103)、及び前記ゲノムフラグメントを再配置パートナー候補として識別すること
を含む、請求項16~21のいずれか1項に記載の方法。 - 関心のあるゲノム領域内の位置に再配置パートナー候補を融合する染色体切断部位接合部の存在を確認する方法であって、
関心のあるゲノム領域を定義すること;
DNAを含むサンプルにおいて近接アッセイを実行して、複数の近接結合された生成物を生成すること;
前記関心のあるゲノム領域の5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、前記近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、前記関心のあるゲノム領域の前記5’末端に隣接する配列を含む前記ゲノムフラグメントに近接する、
前記近接結合された生成物を配列決定して、配列決定リードを生成すること、
前記関心のあるゲノム領域の前記5’末端に隣接する配列を含む前記ゲノムフラグメントに近接する前記ゲノムフラグメントの前記配列を参照配列にマッピングすること;
前記関心のあるゲノム領域の3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、前記近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに近接する、
前記近接結合された生成物を配列決定して、配列決定リードを生成すること、
前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに近接する前記ゲノムフラグメントの前記配列を参照配列にマッピングすること;
i)前記関心のあるゲノム領域のうちの少なくとも一部と、ii)前記関心のあるゲノム領域に近接するゲノムフラグメントとを含む近接結合産物を富化すること、
前記近接結合された生成物を配列決定して、配列決定リードを生成すること、
前記関心のあるゲノム領域に近接する前記ゲノムフラグメントの前記配列を参照配列にマッピングすること;
前記関心のあるゲノム領域を有する前記ゲノムフラグメント、又は前記関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントの近接頻度に基づいて、少なくとも1つのゲノムフラグメントを再配置パートナー候補として識別すること、好ましくは、該識別することが、
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101)によって、ここで、各ゲノムフラグメントの前記観察された近接性スコアが、前記関心のあるゲノム領域に近接し且つ前記ゲノムフラグメントに対応する1つの配列を含む少なくとも1つの配列決定リードのデータセットにおける存在を示す;
予想される近接性スコアを、前記複数のゲノムフラグメントの前記観察された近接性スコアに基づいて、前記複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに割り当てること(102)によって、ここで、前記予想される近接性スコアは、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記近接性スコアの予想された値を含む;及び
前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記観察された近接性スコア及び前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアに基づいて生成すること(103)、及び前記ゲノムフラグメントを再配置パートナー候補として識別することによって
行われる;
前記関心のあるゲノム領域の前記5’末端に隣接する配列を含む前記ゲノムフラグメントに隣接する前記再配置パートナー候補のゲノムフラグメントと、前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに隣接する前記再配置パートナー候補のゲノムフラグメントとが重なり合っているか又は線形に離れているかを判定すること、ここで、前記再配置パートナー候補ゲノムフラグメントの線形に離れていることが、前記関心のあるゲノム領域内の染色体切断部位接合部を示す;
染色体切断部位の前記位置をマッピングすることであって、前記マッピングすることが、I)前記関心のあるゲノム領域のうちの少なくとも第1の部分と前記再配置パートナーのゲノムフラグメントとを含む近接結合された生成物、及びII)前記関心のあるゲノム領域のうちの少なくとも第2の部分と前記再配置パートナーのゲノムフラグメントとを含む近接結合された生成物を検出することを含み、ここで、前記I)及びII)からの前記再配置パートナーゲノムフラグメントは線形に離れている、
前記方法。 - 関心のあるゲノム領域内の位置に再配置パートナーを融合する染色体切断部位を検出する為のコンピュータプログラム製品であって、前記コンピュータプログラム製品がコンピュータ可読命令を含み、該コンピュータ可読命令が、プロセッサシステムによって実行される場合に、
配列決定リードの少なくともサブセットについての行列を生成すること、ここで、前記配列決定リードが近接結合された生成物の配列に対応し、前記製品が、前記関心のあるゲノム領域からのゲノムフラグメント、又は関心のある前記領域に隣接するゲノムフラグメントを含み、ここで、近接結合された生成物の少なくともサブセットが再配置パートナー候補のゲノムフラグメントを含み、ここで、前記行列の一方の軸が、前記関心のあるゲノム領域及び/又は前記関心のあるゲノム領域に隣接する領域の配列位置を表し、並びに他方の軸が、前記再配置パートナー候補の配列位置を表し、ここで、前記行列内の各要素が、前記関心のあるゲノム領域のゲノムフラグメント又は前記関心のある前記領域に隣接するゲノムフラグメントと前記再配置パートナーからのゲノムフラグメントとを含む同定された1つの近接結合された生成物の頻度を表すように、前記行列が、前記配列決定リードを前記行列上に重畳することによって生成される、及び
前記行列を検索して前記ゲノムセグメントの近接頻度で前記再配置パートナー候補から遷移することを示す、前記関心のあるゲノム領域及び/又は前記関心のあるゲノム領域に隣接する領域の配列位置を表す軸上の該1以上の複数の座標を検出すること
を前記プロセッサシステムに行わせる、前記コンピュータプログラム製品。 - 前記プロセッサシステムが前記行列を探索して、前記行列のうちの少なくとも一部を4つの四分円へと分割し、隣接する複数の四分円間の頻度差が最大となり、且つ対向する四分円間の差が最小化されるところの前記関心のあるゲノム領域に隣接する前記関心のあるゲノム領域及び/又は前記関心のあるゲノム領域に隣接する領域の配列位置を表す軸上の該1以上の座標を検出し、好ましくは、ここで、前記プロセッサシステムが、
識別された4つの四分円を比較し、及び
2つの対向する四分円が最小の頻度差を示し且つ隣接する四分円が最大の頻度差を示す場合に、相互再配置をもたらすものとして前記染色体切断部位を分類し、又は、1つの四分円が他の3つの四分円と比較して最大の頻度差を示す場合に、非相互再配置をもたらすものとして前記染色体切断部位を分類する、
請求項24に記載のコンピュータプログラム製品 - 請求項24~25のいずれか1項に記載のコンピュータプログラム製品を使用して、関心のあるゲノム領域内の位置に再配置パートナーを融合する染色体切断部位を検出することを含む、請求項15~23のいずれか1項に記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20171092.8 | 2020-04-23 | ||
EP20171092 | 2020-04-23 | ||
EP20205208.0 | 2020-11-02 | ||
EP20205208 | 2020-11-02 | ||
PCT/NL2021/050268 WO2021215927A1 (en) | 2020-04-23 | 2021-04-23 | Structural variation detection in chromosomal proximity experiments |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023523002A true JP2023523002A (ja) | 2023-06-01 |
Family
ID=75747006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022564377A Pending JP2023523002A (ja) | 2020-04-23 | 2021-04-23 | 染色体近接実験における構造的変異検出 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20230170042A1 (ja) |
EP (1) | EP4139483A1 (ja) |
JP (1) | JP2023523002A (ja) |
KR (1) | KR20230016627A (ja) |
CN (1) | CN115803447A (ja) |
AU (1) | AU2021258994A1 (ja) |
CA (1) | CA3174973A1 (ja) |
WO (1) | WO2021215927A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114512183B (zh) * | 2022-01-27 | 2022-09-20 | 北京吉因加医学检验实验室有限公司 | 一种预测met基因扩增或多倍体的方法及装置 |
WO2023172882A2 (en) * | 2022-03-07 | 2023-09-14 | Arima Genomics, Inc. | Methods and compositions for identifying structural variants |
CN116434837B (zh) * | 2023-06-12 | 2023-08-29 | 广州盛安医学检验有限公司 | 一种基于ngs的染色体平衡易位检测分析系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BRPI0806565A2 (pt) | 2007-01-11 | 2014-05-06 | Erasmus University Medical Center | Captura de conformação de cromossomo circular |
KR102218512B1 (ko) * | 2010-05-25 | 2021-02-19 | 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 | Bambam:고처리율 서열분석 데이터의 병렬 비교 분석 |
EP3031929A1 (en) * | 2014-12-11 | 2016-06-15 | Mdc Max-Delbrück-Centrum Für Molekulare Medizin Berlin - Buch | Genome architecture mapping |
US11485996B2 (en) * | 2016-10-04 | 2022-11-01 | Natera, Inc. | Methods for characterizing copy number variation using proximity-litigation sequencing |
-
2021
- 2021-04-23 WO PCT/NL2021/050268 patent/WO2021215927A1/en unknown
- 2021-04-23 AU AU2021258994A patent/AU2021258994A1/en active Pending
- 2021-04-23 CN CN202180045178.6A patent/CN115803447A/zh active Pending
- 2021-04-23 US US17/919,970 patent/US20230170042A1/en active Pending
- 2021-04-23 EP EP21722581.2A patent/EP4139483A1/en active Pending
- 2021-04-23 JP JP2022564377A patent/JP2023523002A/ja active Pending
- 2021-04-23 CA CA3174973A patent/CA3174973A1/en active Pending
- 2021-04-23 KR KR1020227039652A patent/KR20230016627A/ko unknown
Also Published As
Publication number | Publication date |
---|---|
US20230170042A1 (en) | 2023-06-01 |
AU2021258994A1 (en) | 2022-11-03 |
WO2021215927A1 (en) | 2021-10-28 |
CA3174973A1 (en) | 2021-10-28 |
KR20230016627A (ko) | 2023-02-02 |
EP4139483A1 (en) | 2023-03-01 |
CN115803447A (zh) | 2023-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220195530A1 (en) | Identification and use of circulating nucleic acid tumor markers | |
TWI661049B (zh) | 使用不含細胞之dna片段大小以測定複製數變異之方法 | |
KR102638152B1 (ko) | 서열 변이체 호출을 위한 검증 방법 및 시스템 | |
CN110520542A (zh) | 用于靶向核酸序列富集的方法及在错误纠正的核酸测序中的应用 | |
JP2023523002A (ja) | 染色体近接実験における構造的変異検出 | |
WO2019125864A1 (en) | Machine learning system and method for somatic mutation discovery | |
US20190309352A1 (en) | Multimodal assay for detecting nucleic acid aberrations | |
WO2016154584A1 (en) | Alignment and variant sequencing analysis pipeline | |
CN108138230A (zh) | 用于捕获融合基因的锁核酸 | |
WO2020243722A1 (en) | Methods and systems for improving patient monitoring after surgery | |
JP2022505050A (ja) | プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および試薬 | |
US20220228219A1 (en) | Target-enriched multiplexed parallel analysis for assessment of tumor biomarkers | |
US20230360727A1 (en) | Computational modeling of loss of function based on allelic frequency | |
CN114616343A (zh) | 用于在甲基化分区测定中分析无细胞dna的组合物和方法 | |
CN116631508B (zh) | 肿瘤特异性突变状态的检测方法及其应用 | |
JP2023526252A (ja) | 相同組換え修復欠損の検出 | |
JP2024056984A (ja) | エピジェネティック区画アッセイを較正するための方法、組成物およびシステム | |
EP3409788B1 (en) | Method and system for nucleic acid sequencing | |
CN112970068A (zh) | 用于检测样品之间的污染的方法和系统 | |
WO2024050386A2 (en) | Methods and reagents for detection of circular dna molecules in biological samples | |
JP2023524681A (ja) | 分配された核酸を使用した配列決定のための方法 | |
CN118248319A (en) | Thyroid nodule benign and malignant auxiliary diagnosis system based on combination of genome variation and abnormal expression | |
Cradic | Next Generation Sequencing: Applications for the Clinic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240213 |