JP2022509532A - Gramc:シス調節モジュールのゲノムスケールレポーターアッセイ法 - Google Patents
Gramc:シス調節モジュールのゲノムスケールレポーターアッセイ法 Download PDFInfo
- Publication number
- JP2022509532A JP2022509532A JP2021548555A JP2021548555A JP2022509532A JP 2022509532 A JP2022509532 A JP 2022509532A JP 2021548555 A JP2021548555 A JP 2021548555A JP 2021548555 A JP2021548555 A JP 2021548555A JP 2022509532 A JP2022509532 A JP 2022509532A
- Authority
- JP
- Japan
- Prior art keywords
- nucleic acid
- reporter
- linear
- cells
- acid molecules
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003556 assay Methods 0.000 title description 36
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 408
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 408
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 383
- 238000000034 method Methods 0.000 claims abstract description 196
- 230000001105 regulatory effect Effects 0.000 claims abstract description 30
- 238000011002 quantification Methods 0.000 claims abstract description 16
- 210000004027 cell Anatomy 0.000 claims description 218
- 108020004414 DNA Proteins 0.000 claims description 139
- 239000013598 vector Substances 0.000 claims description 108
- 239000005547 deoxyribonucleotide Substances 0.000 claims description 83
- 125000002637 deoxyribonucleotide group Chemical group 0.000 claims description 83
- 108010061982 DNA Ligases Proteins 0.000 claims description 54
- 102000012410 DNA Ligases Human genes 0.000 claims description 54
- 108060002716 Exonuclease Proteins 0.000 claims description 48
- 102000013165 exonuclease Human genes 0.000 claims description 48
- 238000003752 polymerase chain reaction Methods 0.000 claims description 48
- 239000002299 complementary DNA Substances 0.000 claims description 45
- -1 cyclic nucleic acid Chemical class 0.000 claims description 41
- 102000003960 Ligases Human genes 0.000 claims description 39
- 108090000364 Ligases Proteins 0.000 claims description 39
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 claims description 34
- 238000012163 sequencing technique Methods 0.000 claims description 33
- 102100034343 Integrase Human genes 0.000 claims description 32
- 108091028664 Ribonucleotide Proteins 0.000 claims description 32
- 239000002773 nucleotide Substances 0.000 claims description 32
- 125000003729 nucleotide group Chemical group 0.000 claims description 32
- 239000002336 ribonucleotide Substances 0.000 claims description 32
- 125000002652 ribonucleotide group Chemical group 0.000 claims description 32
- 108010007577 Exodeoxyribonuclease I Proteins 0.000 claims description 26
- 102100029075 Exonuclease 1 Human genes 0.000 claims description 26
- 108010052305 exodeoxyribonuclease III Proteins 0.000 claims description 24
- 239000011324 bead Substances 0.000 claims description 21
- 125000004122 cyclic group Chemical group 0.000 claims description 20
- 230000001580 bacterial effect Effects 0.000 claims description 15
- 102000034287 fluorescent proteins Human genes 0.000 claims description 15
- 108091006047 fluorescent proteins Proteins 0.000 claims description 15
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 claims description 14
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 claims description 14
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 claims description 14
- 108010093099 Endoribonucleases Proteins 0.000 claims description 14
- 230000003321 amplification Effects 0.000 claims description 14
- 210000004962 mammalian cell Anatomy 0.000 claims description 14
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 14
- 108090000731 ribonuclease HII Proteins 0.000 claims description 13
- 230000002538 fungal effect Effects 0.000 claims description 11
- 210000002889 endothelial cell Anatomy 0.000 claims description 9
- 210000000130 stem cell Anatomy 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 8
- 230000002441 reversible effect Effects 0.000 claims description 8
- 201000010099 disease Diseases 0.000 claims description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 6
- 210000001671 embryonic stem cell Anatomy 0.000 claims description 6
- 210000003494 hepatocyte Anatomy 0.000 claims description 6
- 102000006943 Uracil-DNA Glycosidase Human genes 0.000 claims description 5
- 108010072685 Uracil-DNA Glycosidase Proteins 0.000 claims description 5
- 210000002865 immune cell Anatomy 0.000 claims description 4
- 210000003292 kidney cell Anatomy 0.000 claims description 4
- 230000002107 myocardial effect Effects 0.000 claims description 4
- 210000002220 organoid Anatomy 0.000 claims description 4
- 241000713869 Moloney murine leukemia virus Species 0.000 claims description 3
- 238000001502 gel electrophoresis Methods 0.000 claims description 3
- 238000002955 isolation Methods 0.000 claims description 2
- 102100030011 Endoribonuclease Human genes 0.000 claims 6
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims 4
- 206010028980 Neoplasm Diseases 0.000 claims 2
- 210000002449 bone cell Anatomy 0.000 claims 2
- 201000011510 cancer Diseases 0.000 claims 2
- 210000004927 skin cell Anatomy 0.000 claims 2
- 241000700605 Viruses Species 0.000 claims 1
- 241000196324 Embryophyta Species 0.000 abstract description 11
- 241001465754 Metazoa Species 0.000 abstract description 8
- 238000001514 detection method Methods 0.000 abstract description 8
- 241000203069 Archaea Species 0.000 abstract description 2
- 241000894006 Bacteria Species 0.000 abstract description 2
- 241000233866 Fungi Species 0.000 abstract description 2
- 241000124008 Mammalia Species 0.000 abstract description 2
- 108090000623 proteins and genes Proteins 0.000 description 45
- 239000003623 enhancer Substances 0.000 description 40
- 238000006243 chemical reaction Methods 0.000 description 39
- 230000014509 gene expression Effects 0.000 description 38
- 108091023040 Transcription factor Proteins 0.000 description 35
- 102000040945 Transcription factor Human genes 0.000 description 34
- 230000000694 effects Effects 0.000 description 34
- 239000005090 green fluorescent protein Substances 0.000 description 34
- 238000011969 continuous reassessment method Methods 0.000 description 31
- 102000053602 DNA Human genes 0.000 description 30
- 101150044687 crm gene Proteins 0.000 description 27
- 108010043121 Green Fluorescent Proteins Proteins 0.000 description 26
- 102000004144 Green Fluorescent Proteins Human genes 0.000 description 26
- 102000004190 Enzymes Human genes 0.000 description 23
- 108090000790 Enzymes Proteins 0.000 description 23
- 239000012634 fragment Substances 0.000 description 22
- 239000013612 plasmid Substances 0.000 description 22
- 108091028043 Nucleic acid sequence Proteins 0.000 description 20
- 239000000047 product Substances 0.000 description 18
- 238000010586 diagram Methods 0.000 description 15
- 230000004927 fusion Effects 0.000 description 15
- 238000011160 research Methods 0.000 description 15
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 15
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 14
- 101710163270 Nuclease Proteins 0.000 description 14
- 108020004682 Single-Stranded DNA Proteins 0.000 description 14
- 238000010804 cDNA synthesis Methods 0.000 description 14
- 239000000523 sample Substances 0.000 description 14
- 238000001353 Chip-sequencing Methods 0.000 description 13
- 101150031628 PITX2 gene Proteins 0.000 description 13
- 238000000137 annealing Methods 0.000 description 13
- 239000000872 buffer Substances 0.000 description 13
- 238000012360 testing method Methods 0.000 description 13
- 238000003908 quality control method Methods 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 11
- 108010008532 Deoxyribonuclease I Proteins 0.000 description 10
- 102000007260 Deoxyribonuclease I Human genes 0.000 description 10
- 230000000295 complement effect Effects 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 10
- 239000000203 mixture Substances 0.000 description 10
- 238000001890 transfection Methods 0.000 description 10
- 238000010790 dilution Methods 0.000 description 9
- 239000012895 dilution Substances 0.000 description 9
- 239000000499 gel Substances 0.000 description 9
- 102000004169 proteins and genes Human genes 0.000 description 9
- 238000011282 treatment Methods 0.000 description 9
- 102000002494 Endoribonucleases Human genes 0.000 description 8
- 239000011543 agarose gel Substances 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 8
- 239000003153 chemical reaction reagent Substances 0.000 description 8
- 230000029087 digestion Effects 0.000 description 8
- 108010048367 enhanced green fluorescent protein Proteins 0.000 description 8
- 230000000670 limiting effect Effects 0.000 description 8
- 210000001519 tissue Anatomy 0.000 description 8
- 108091023043 Alu Element Proteins 0.000 description 7
- 102000006382 Ribonucleases Human genes 0.000 description 7
- 108010083644 Ribonucleases Proteins 0.000 description 7
- 238000010276 construction Methods 0.000 description 7
- 230000001605 fetal effect Effects 0.000 description 7
- 230000002068 genetic effect Effects 0.000 description 7
- 210000004185 liver Anatomy 0.000 description 7
- 210000004379 membrane Anatomy 0.000 description 7
- 238000002360 preparation method Methods 0.000 description 7
- 239000000243 solution Substances 0.000 description 7
- 241000713838 Avian myeloblastosis virus Species 0.000 description 6
- 102100037799 DNA-binding protein Ikaros Human genes 0.000 description 6
- 108010053770 Deoxyribonucleases Proteins 0.000 description 6
- 102000016911 Deoxyribonucleases Human genes 0.000 description 6
- 108010067770 Endopeptidase K Proteins 0.000 description 6
- 101000599038 Homo sapiens DNA-binding protein Ikaros Proteins 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000012216 screening Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 108091033409 CRISPR Proteins 0.000 description 5
- 108010077544 Chromatin Proteins 0.000 description 5
- 108010042407 Endonucleases Proteins 0.000 description 5
- 230000027455 binding Effects 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 5
- 210000003483 chromatin Anatomy 0.000 description 5
- 238000003776 cleavage reaction Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000005014 ectopic expression Effects 0.000 description 5
- 238000004520 electroporation Methods 0.000 description 5
- 238000009396 hybridization Methods 0.000 description 5
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 5
- 239000003550 marker Substances 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 239000002609 medium Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000007017 scission Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000002103 transcriptional effect Effects 0.000 description 5
- 108091093088 Amplicon Proteins 0.000 description 4
- 102000004533 Endonucleases Human genes 0.000 description 4
- 108091092584 GDNA Proteins 0.000 description 4
- 241000868219 Halogeometricum Species 0.000 description 4
- 229910019142 PO4 Inorganic materials 0.000 description 4
- 108091034057 RNA (poly(A)) Proteins 0.000 description 4
- 239000013614 RNA sample Substances 0.000 description 4
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 4
- 230000033228 biological regulation Effects 0.000 description 4
- 239000000090 biomarker Substances 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000000835 fiber Substances 0.000 description 4
- 238000007852 inverse PCR Methods 0.000 description 4
- 239000012528 membrane Substances 0.000 description 4
- 238000002493 microarray Methods 0.000 description 4
- 238000007481 next generation sequencing Methods 0.000 description 4
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 4
- 239000010452 phosphate Substances 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 238000010839 reverse transcription Methods 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 238000009966 trimming Methods 0.000 description 4
- 238000011144 upstream manufacturing Methods 0.000 description 4
- 238000001262 western blot Methods 0.000 description 4
- 238000010354 CRISPR gene editing Methods 0.000 description 3
- 108020004635 Complementary DNA Proteins 0.000 description 3
- 108020004394 Complementary RNA Proteins 0.000 description 3
- 108091026908 Downstream promoter element Proteins 0.000 description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- 102000014150 Interferons Human genes 0.000 description 3
- 108010050904 Interferons Proteins 0.000 description 3
- 240000007594 Oryza sativa Species 0.000 description 3
- 235000007164 Oryza sativa Nutrition 0.000 description 3
- 238000012408 PCR amplification Methods 0.000 description 3
- 108020002230 Pancreatic Ribonuclease Proteins 0.000 description 3
- 102000005891 Pancreatic ribonuclease Human genes 0.000 description 3
- 238000000692 Student's t-test Methods 0.000 description 3
- 108091027544 Subgenomic mRNA Proteins 0.000 description 3
- 210000004413 cardiac myocyte Anatomy 0.000 description 3
- 239000003184 complementary RNA Substances 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 230000003394 haemopoietic effect Effects 0.000 description 3
- 230000002440 hepatic effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 229940079322 interferon Drugs 0.000 description 3
- 239000006166 lysate Substances 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 108020004999 messenger RNA Proteins 0.000 description 3
- 239000013642 negative control Substances 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000001575 pathological effect Effects 0.000 description 3
- 238000000746 purification Methods 0.000 description 3
- 238000003753 real-time PCR Methods 0.000 description 3
- 108010054624 red fluorescent protein Proteins 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 235000009566 rice Nutrition 0.000 description 3
- 238000012353 t test Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- OZFAFGSSMRRTDW-UHFFFAOYSA-N (2,4-dichlorophenyl) benzenesulfonate Chemical compound ClC1=CC(Cl)=CC=C1OS(=O)(=O)C1=CC=CC=C1 OZFAFGSSMRRTDW-UHFFFAOYSA-N 0.000 description 2
- 108091007507 ADAM12 Proteins 0.000 description 2
- 241000726121 Acidianus Species 0.000 description 2
- 241001505548 Acidilobus Species 0.000 description 2
- 241000580482 Acidobacteria Species 0.000 description 2
- 241000212079 Aciduliprofundum Species 0.000 description 2
- 102100026656 Actin, alpha skeletal muscle Human genes 0.000 description 2
- 241001156739 Actinobacteria <phylum> Species 0.000 description 2
- 241000567147 Aeropyrum Species 0.000 description 2
- 229920000936 Agarose Polymers 0.000 description 2
- 241001142141 Aquificae <phylum> Species 0.000 description 2
- 241000219194 Arabidopsis Species 0.000 description 2
- 241000205046 Archaeoglobus Species 0.000 description 2
- 241000228212 Aspergillus Species 0.000 description 2
- 241000605059 Bacteroidetes Species 0.000 description 2
- 241000949049 Caldiserica Species 0.000 description 2
- 241001291866 Caldivirga Species 0.000 description 2
- 241000577795 Caldococcus Species 0.000 description 2
- 241000512863 Candidatus Korarchaeota Species 0.000 description 2
- 241000218236 Cannabis Species 0.000 description 2
- 241000205484 Cenarchaeum Species 0.000 description 2
- 241001185363 Chlamydiae Species 0.000 description 2
- 241000195585 Chlamydomonas Species 0.000 description 2
- 241000191368 Chlorobi Species 0.000 description 2
- 241001142109 Chloroflexi Species 0.000 description 2
- HEDRZPFGACZZDS-UHFFFAOYSA-N Chloroform Chemical compound ClC(Cl)Cl HEDRZPFGACZZDS-UHFFFAOYSA-N 0.000 description 2
- 241001143290 Chrysiogenetes <phylum> Species 0.000 description 2
- 108020004638 Circular DNA Proteins 0.000 description 2
- 102100034622 Complement factor B Human genes 0.000 description 2
- 241000192700 Cyanobacteria Species 0.000 description 2
- 102000011724 DNA Repair Enzymes Human genes 0.000 description 2
- 108010076525 DNA Repair Enzymes Proteins 0.000 description 2
- 102100024607 DNA topoisomerase 1 Human genes 0.000 description 2
- 241001143296 Deferribacteres <phylum> Species 0.000 description 2
- 241000192095 Deinococcus-Thermus Species 0.000 description 2
- 241000205236 Desulfurococcus Species 0.000 description 2
- 241000970811 Dictyoglomi Species 0.000 description 2
- 102100031112 Disintegrin and metalloproteinase domain-containing protein 12 Human genes 0.000 description 2
- 239000012591 Dulbecco’s Phosphate Buffered Saline Substances 0.000 description 2
- 239000006145 Eagle's minimal essential medium Substances 0.000 description 2
- 241000257465 Echinoidea Species 0.000 description 2
- 241001260322 Elusimicrobia <phylum> Species 0.000 description 2
- 241000588722 Escherichia Species 0.000 description 2
- 102100039111 FAD-linked sulfhydryl oxidase ALR Human genes 0.000 description 2
- 241000531184 Ferroglobus Species 0.000 description 2
- 241001280345 Ferroplasma Species 0.000 description 2
- 241000923108 Fibrobacteres Species 0.000 description 2
- 241000192125 Firmicutes Species 0.000 description 2
- 241001453172 Fusobacteria Species 0.000 description 2
- 241001265526 Gemmatimonadetes <phylum> Species 0.000 description 2
- 241000502550 Geogemma Species 0.000 description 2
- 241001406895 Geoglobus Species 0.000 description 2
- 241001477024 Haladaptatus Species 0.000 description 2
- 241000329363 Halalkalicoccus Species 0.000 description 2
- 241000266757 Haloalcalophilium Species 0.000 description 2
- 241000205065 Haloarcula Species 0.000 description 2
- 241000205062 Halobacterium Species 0.000 description 2
- 241000159657 Halobaculum Species 0.000 description 2
- 241001171121 Halobiforma Species 0.000 description 2
- 241000204953 Halococcus Species 0.000 description 2
- 241000204991 Haloferax Species 0.000 description 2
- 241001171107 Halomicrobium Species 0.000 description 2
- 241000546770 Halopiger Species 0.000 description 2
- 241000172279 Haloplanus Species 0.000 description 2
- 241001150697 Haloquadratum Species 0.000 description 2
- 241001313297 Halorhabdus Species 0.000 description 2
- 241000557006 Halorubrum Species 0.000 description 2
- 241000694283 Halosimplex Species 0.000 description 2
- 241000526120 Haloterrigena Species 0.000 description 2
- 241000339091 Halovivax Species 0.000 description 2
- 102100022373 Homeobox protein DLX-5 Human genes 0.000 description 2
- 101000834207 Homo sapiens Actin, alpha skeletal muscle Proteins 0.000 description 2
- 101000710032 Homo sapiens Complement factor B Proteins 0.000 description 2
- 101000830681 Homo sapiens DNA topoisomerase 1 Proteins 0.000 description 2
- 101000959079 Homo sapiens FAD-linked sulfhydryl oxidase ALR Proteins 0.000 description 2
- 101000901627 Homo sapiens Homeobox protein DLX-5 Proteins 0.000 description 2
- 101000974349 Homo sapiens Nuclear receptor coactivator 6 Proteins 0.000 description 2
- 101000595669 Homo sapiens Pituitary homeobox 2 Proteins 0.000 description 2
- 101000690940 Homo sapiens Pro-adrenomedullin Proteins 0.000 description 2
- 101000807561 Homo sapiens Tyrosine-protein kinase receptor UFO Proteins 0.000 description 2
- 240000005979 Hordeum vulgare Species 0.000 description 2
- 235000007340 Hordeum vulgare Nutrition 0.000 description 2
- 241000531259 Hyperthermus Species 0.000 description 2
- 241000531173 Ignicoccus Species 0.000 description 2
- 241000356737 Ignisphaera Species 0.000 description 2
- 101710203526 Integrase Proteins 0.000 description 2
- 101150075823 KISS1 gene Proteins 0.000 description 2
- 241001387859 Lentisphaerae Species 0.000 description 2
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 2
- 241000134732 Metallosphaera Species 0.000 description 2
- 241000305995 Methanimicrococcus Species 0.000 description 2
- 241000202974 Methanobacterium Species 0.000 description 2
- 241000202987 Methanobrevibacter Species 0.000 description 2
- 241001233112 Methanocalculus Species 0.000 description 2
- 241001486996 Methanocaldococcus Species 0.000 description 2
- 241000204999 Methanococcoides Species 0.000 description 2
- 241001621918 Methanofollis Species 0.000 description 2
- 241000203390 Methanogenium Species 0.000 description 2
- 241000204639 Methanohalobium Species 0.000 description 2
- 241000203006 Methanohalophilus Species 0.000 description 2
- 241000586167 Methanolacinia Species 0.000 description 2
- 241000205017 Methanolobus Species 0.000 description 2
- 241001450794 Methanomethylovorans Species 0.000 description 2
- 241000205280 Methanomicrobium Species 0.000 description 2
- 241000204679 Methanoplanus Species 0.000 description 2
- 241000204675 Methanopyrus Species 0.000 description 2
- 241000900014 Methanoregula Species 0.000 description 2
- 241001487033 Methanosalsum Species 0.000 description 2
- 241000205276 Methanosarcina Species 0.000 description 2
- 241000204677 Methanosphaera Species 0.000 description 2
- 241001487032 Methanospirillaceae Species 0.000 description 2
- 241000205265 Methanospirillum Species 0.000 description 2
- 241001302035 Methanothermobacter Species 0.000 description 2
- 241000202997 Methanothermus Species 0.000 description 2
- 241000205011 Methanothrix Species 0.000 description 2
- 241000228347 Monascus <ascomycete fungus> Species 0.000 description 2
- 241000235395 Mucor Species 0.000 description 2
- 241001437658 Nanoarchaeota Species 0.000 description 2
- 241001455244 Nanoarchaeum Species 0.000 description 2
- 241000894751 Natrialba Species 0.000 description 2
- 241000018643 Natrinema Species 0.000 description 2
- 241000204974 Natronobacterium Species 0.000 description 2
- 241001147451 Natronococcus Species 0.000 description 2
- 241001349901 Natronolimnobius Species 0.000 description 2
- 241000935266 Natronorubrum Species 0.000 description 2
- 241000221960 Neurospora Species 0.000 description 2
- 241000402149 Nitrosopumilus Species 0.000 description 2
- 241000192121 Nitrospira <genus> Species 0.000 description 2
- 102000001756 Notch2 Receptor Human genes 0.000 description 2
- 108010029751 Notch2 Receptor Proteins 0.000 description 2
- 102100022929 Nuclear receptor coactivator 6 Human genes 0.000 description 2
- 108091005461 Nucleic proteins Proteins 0.000 description 2
- 241001648789 Palaeococcus Species 0.000 description 2
- 241001520808 Panicum virgatum Species 0.000 description 2
- 241000235648 Pichia Species 0.000 description 2
- 241000204826 Picrophilus Species 0.000 description 2
- 102100036090 Pituitary homeobox 2 Human genes 0.000 description 2
- 241001180199 Planctomycetes Species 0.000 description 2
- 229920002594 Polyethylene Glycol 8000 Polymers 0.000 description 2
- 108010021757 Polynucleotide 5'-Hydroxyl-Kinase Proteins 0.000 description 2
- 102000008422 Polynucleotide 5'-hydroxyl-kinase Human genes 0.000 description 2
- 102100026651 Pro-adrenomedullin Human genes 0.000 description 2
- 241000192142 Proteobacteria Species 0.000 description 2
- 241000205226 Pyrobaculum Species 0.000 description 2
- 241000205160 Pyrococcus Species 0.000 description 2
- 241000204671 Pyrodictium Species 0.000 description 2
- 241000531151 Pyrolobus Species 0.000 description 2
- 238000003559 RNA-seq method Methods 0.000 description 2
- 108700008625 Reporter Genes Proteins 0.000 description 2
- 241000235527 Rhizopus Species 0.000 description 2
- 101710205841 Ribonuclease P protein component 3 Proteins 0.000 description 2
- 102100033795 Ribonuclease P protein subunit p30 Human genes 0.000 description 2
- 108010046983 Ribonuclease T1 Proteins 0.000 description 2
- 241000235070 Saccharomyces Species 0.000 description 2
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 2
- 240000003768 Solanum lycopersicum Species 0.000 description 2
- 244000061456 Solanum tuberosum Species 0.000 description 2
- 235000002595 Solanum tuberosum Nutrition 0.000 description 2
- 241001180364 Spirochaetes Species 0.000 description 2
- 241000196294 Spirogyra Species 0.000 description 2
- 241000205219 Staphylothermus Species 0.000 description 2
- 241000508776 Stetteria Species 0.000 description 2
- 241000132988 Stygiolobus Species 0.000 description 2
- 241000205101 Sulfolobus Species 0.000 description 2
- 241000520811 Sulfophobococcus Species 0.000 description 2
- 241000985077 Sulfurisphaera Species 0.000 description 2
- 241000390529 Synergistetes Species 0.000 description 2
- 108700026226 TATA Box Proteins 0.000 description 2
- 241000131694 Tenericutes Species 0.000 description 2
- 241000895722 Thermocladium Species 0.000 description 2
- 241000205188 Thermococcus Species 0.000 description 2
- 241001143138 Thermodesulfobacteria <phylum> Species 0.000 description 2
- 241000531244 Thermodiscus Species 0.000 description 2
- 241000205174 Thermofilum Species 0.000 description 2
- 241000204667 Thermoplasma Species 0.000 description 2
- 241000205204 Thermoproteus Species 0.000 description 2
- 241000531141 Thermosphaera Species 0.000 description 2
- 241001143310 Thermotogae <phylum> Species 0.000 description 2
- 241000223259 Trichoderma Species 0.000 description 2
- 241000209140 Triticum Species 0.000 description 2
- 235000021307 Triticum Nutrition 0.000 description 2
- 102100037236 Tyrosine-protein kinase receptor UFO Human genes 0.000 description 2
- 241001261005 Verrucomicrobia Species 0.000 description 2
- 241000366307 Vulcanisaeta Species 0.000 description 2
- 240000008042 Zea mays Species 0.000 description 2
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 2
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 239000012190 activator Substances 0.000 description 2
- 210000001789 adipocyte Anatomy 0.000 description 2
- 150000001413 amino acids Chemical class 0.000 description 2
- 230000033115 angiogenesis Effects 0.000 description 2
- 210000004102 animal cell Anatomy 0.000 description 2
- 210000000601 blood cell Anatomy 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 210000000555 contractile cell Anatomy 0.000 description 2
- 235000005822 corn Nutrition 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 231100000433 cytotoxic Toxicity 0.000 description 2
- 230000001472 cytotoxic effect Effects 0.000 description 2
- 230000003013 cytotoxicity Effects 0.000 description 2
- 231100000135 cytotoxicity Toxicity 0.000 description 2
- 230000002526 effect on cardiovascular system Effects 0.000 description 2
- 210000002308 embryonic cell Anatomy 0.000 description 2
- 210000001339 epidermal cell Anatomy 0.000 description 2
- 210000002919 epithelial cell Anatomy 0.000 description 2
- 210000002744 extracellular matrix Anatomy 0.000 description 2
- 239000012091 fetal bovine serum Substances 0.000 description 2
- 210000004602 germ cell Anatomy 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- 238000001727 in vivo Methods 0.000 description 2
- PHTQWCKDNZKARW-UHFFFAOYSA-N isoamylol Chemical compound CC(C)CCO PHTQWCKDNZKARW-UHFFFAOYSA-N 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 210000005229 liver cell Anatomy 0.000 description 2
- 230000001404 mediated effect Effects 0.000 description 2
- 239000007758 minimum essential medium Substances 0.000 description 2
- 230000037361 pathway Effects 0.000 description 2
- 102000040430 polynucleotide Human genes 0.000 description 2
- 108091033319 polynucleotide Proteins 0.000 description 2
- 239000002157 polynucleotide Substances 0.000 description 2
- 230000003389 potentiating effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 210000002955 secretory cell Anatomy 0.000 description 2
- 238000013207 serial dilution Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000009870 specific binding Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 210000003606 umbilical vein Anatomy 0.000 description 2
- 229940035893 uracil Drugs 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- QKNYBSVHEMOAJP-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;hydron;chloride Chemical compound Cl.OCC(N)(CO)CO QKNYBSVHEMOAJP-UHFFFAOYSA-N 0.000 description 1
- 241000576133 Alphasatellites Species 0.000 description 1
- 102100032423 Bcl-2-associated transcription factor 1 Human genes 0.000 description 1
- 108091003079 Bovine Serum Albumin Proteins 0.000 description 1
- 108010061979 CEL I nuclease Proteins 0.000 description 1
- 101710167800 Capsid assembly scaffolding protein Proteins 0.000 description 1
- 208000031229 Cardiomyopathies Diseases 0.000 description 1
- 108091062157 Cis-regulatory element Proteins 0.000 description 1
- 108091028732 Concatemer Proteins 0.000 description 1
- 230000006820 DNA synthesis Effects 0.000 description 1
- 101100310856 Drosophila melanogaster spri gene Proteins 0.000 description 1
- 208000030453 Drug-Related Side Effects and Adverse reaction Diseases 0.000 description 1
- 108091035710 E-box Proteins 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 102100031780 Endonuclease Human genes 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 102100035237 GA-binding protein alpha chain Human genes 0.000 description 1
- 102100033840 General transcription factor IIF subunit 1 Human genes 0.000 description 1
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 1
- 102100031181 Glyceraldehyde-3-phosphate dehydrogenase Human genes 0.000 description 1
- 229920002527 Glycogen Polymers 0.000 description 1
- 102000011787 Histone Methyltransferases Human genes 0.000 description 1
- 108010036115 Histone Methyltransferases Proteins 0.000 description 1
- 108700005087 Homeobox Genes Proteins 0.000 description 1
- 101000798490 Homo sapiens Bcl-2-associated transcription factor 1 Proteins 0.000 description 1
- 101001022105 Homo sapiens GA-binding protein alpha chain Proteins 0.000 description 1
- 101000640758 Homo sapiens General transcription factor IIF subunit 1 Proteins 0.000 description 1
- 101001002066 Homo sapiens Pleiotropic regulator 1 Proteins 0.000 description 1
- 101001041525 Homo sapiens Transcription factor 12 Proteins 0.000 description 1
- 101000596093 Homo sapiens Transcription initiation factor TFIID subunit 1 Proteins 0.000 description 1
- 101000940144 Homo sapiens Transcriptional repressor protein YY1 Proteins 0.000 description 1
- 108010001336 Horseradish Peroxidase Proteins 0.000 description 1
- 241000571697 Icarus Species 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- 102100025169 Max-binding protein MNT Human genes 0.000 description 1
- 108020005196 Mitochondrial DNA Proteins 0.000 description 1
- 241000714177 Murine leukemia virus Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 102000007560 NF-E2-Related Factor 1 Human genes 0.000 description 1
- 108010071380 NF-E2-Related Factor 1 Proteins 0.000 description 1
- 108010016592 Nuclear Respiratory Factor 1 Proteins 0.000 description 1
- 101100281925 Oryza sativa subsp. japonica G1L2 gene Proteins 0.000 description 1
- 239000002033 PVDF binder Substances 0.000 description 1
- ISWSIDIOOBJBQZ-UHFFFAOYSA-N Phenol Chemical compound OC1=CC=CC=C1 ISWSIDIOOBJBQZ-UHFFFAOYSA-N 0.000 description 1
- 102100035968 Pleiotropic regulator 1 Human genes 0.000 description 1
- 108091036407 Polyadenylation Proteins 0.000 description 1
- 101710130420 Probable capsid assembly scaffolding protein Proteins 0.000 description 1
- 101710156592 Putative TATA-binding protein pB263R Proteins 0.000 description 1
- 238000002123 RNA extraction Methods 0.000 description 1
- 108010034634 Repressor Proteins Proteins 0.000 description 1
- 102000009661 Repressor Proteins Human genes 0.000 description 1
- 101710204410 Scaffold protein Proteins 0.000 description 1
- 102100040296 TATA-box-binding protein Human genes 0.000 description 1
- 101710145783 TATA-box-binding protein Proteins 0.000 description 1
- RYYWUUFWQRZTIU-UHFFFAOYSA-N Thiophosphoric acid Chemical class OP(O)(S)=O RYYWUUFWQRZTIU-UHFFFAOYSA-N 0.000 description 1
- 206010070863 Toxicity to various agents Diseases 0.000 description 1
- 102100021123 Transcription factor 12 Human genes 0.000 description 1
- 102100035222 Transcription initiation factor TFIID subunit 1 Human genes 0.000 description 1
- 102100031142 Transcriptional repressor protein YY1 Human genes 0.000 description 1
- 102100024121 U1 small nuclear ribonucleoprotein 70 kDa Human genes 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 101150063416 add gene Proteins 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 229960000723 ampicillin Drugs 0.000 description 1
- AVKUERGKIZMTKX-NJBDSQKTSA-N ampicillin Chemical compound C1([C@@H](N)C(=O)N[C@H]2[C@H]3SC([C@@H](N3C2=O)C(O)=O)(C)C)=CC=CC=C1 AVKUERGKIZMTKX-NJBDSQKTSA-N 0.000 description 1
- 239000003242 anti bacterial agent Substances 0.000 description 1
- 229940088710 antibiotic agent Drugs 0.000 description 1
- 210000004507 artificial chromosome Anatomy 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004113 cell culture Methods 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 210000002230 centromere Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000019113 chromatin silencing Effects 0.000 description 1
- 239000013611 chromosomal DNA Substances 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 230000001332 colony forming effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 229960003964 deoxycholic acid Drugs 0.000 description 1
- KXGVEGMKQFWNSR-LLQZFEROSA-N deoxycholic acid Chemical compound C([C@H]1CC2)[C@H](O)CC[C@]1(C)[C@@H]1[C@@H]2[C@@H]2CC[C@H]([C@@H](CCC(O)=O)C)[C@@]2(C)[C@@H](O)C1 KXGVEGMKQFWNSR-LLQZFEROSA-N 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000012470 diluted sample Substances 0.000 description 1
- 235000021186 dishes Nutrition 0.000 description 1
- 230000003828 downregulation Effects 0.000 description 1
- 238000010828 elution Methods 0.000 description 1
- 210000002257 embryonic structure Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 238000012869 ethanol precipitation Methods 0.000 description 1
- 108010092809 exonuclease Bal 31 Proteins 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 108020004445 glyceraldehyde-3-phosphate dehydrogenase Proteins 0.000 description 1
- 229940096919 glycogen Drugs 0.000 description 1
- 238000012203 high throughput assay Methods 0.000 description 1
- 238000010842 high-capacity cDNA reverse transcription kit Methods 0.000 description 1
- 108010051779 histone H3 trimethyl Lys4 Proteins 0.000 description 1
- 230000000415 inactivating effect Effects 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000009630 liquid culture Methods 0.000 description 1
- 230000031142 liver development Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000003670 luciferase enzyme activity assay Methods 0.000 description 1
- 239000012139 lysis buffer Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 230000000442 meristematic effect Effects 0.000 description 1
- 210000000473 mesophyll cell Anatomy 0.000 description 1
- 230000000394 mitotic effect Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000008188 pellet Substances 0.000 description 1
- 239000012071 phase Substances 0.000 description 1
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 1
- 230000000865 phosphorylative effect Effects 0.000 description 1
- 238000007747 plating Methods 0.000 description 1
- 229920002401 polyacrylamide Polymers 0.000 description 1
- 230000008488 polyadenylation Effects 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 229920002981 polyvinylidene fluoride Polymers 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001846 repelling effect Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 239000003161 ribonuclease inhibitor Substances 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 238000007873 sieving Methods 0.000 description 1
- 101150083938 snrnp70 gene Proteins 0.000 description 1
- 239000011780 sodium chloride Substances 0.000 description 1
- 210000004872 soft tissue Anatomy 0.000 description 1
- 239000007790 solid phase Substances 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 210000001324 spliceosome Anatomy 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000006228 supernatant Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000001847 surface plasmon resonance imaging Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 108091035539 telomere Proteins 0.000 description 1
- 210000003411 telomere Anatomy 0.000 description 1
- 102000055501 telomere Human genes 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 108091006107 transcriptional repressors Proteins 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000013603 viral vector Substances 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1051—Gene trapping, e.g. exon-, intron-, IRES-, signal sequence-trap cloning, trap vectors
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1086—Preparation or screening of expression libraries, e.g. reporter assays
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/686—Polymerase chain reaction [PCR]
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
- C40B40/04—Libraries containing only organic compounds
- C40B40/06—Libraries containing nucleotides or polynucleotides, or derivatives thereof
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2521/00—Reaction characterised by the enzymatic activity
- C12Q2521/10—Nucleotidyl transfering
- C12Q2521/107—RNA dependent DNA polymerase,(i.e. reverse transcriptase)
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2531/00—Reactions of nucleic acids characterised by
- C12Q2531/10—Reactions of nucleic acids characterised by the purpose being amplify/increase the copy number of target nucleic acid
- C12Q2531/113—PCR
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2563/00—Nucleic acid detection characterized by the use of physical, structural and functional properties
- C12Q2563/179—Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a nucleic acid
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Organic Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Biophysics (AREA)
- Microbiology (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Analytical Chemistry (AREA)
- Plant Pathology (AREA)
- Immunology (AREA)
- General Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Description
関連出願の相互参照
本出願は、参照によりその全体が本明細書に組み込まれる、2018年10月31日に出願された米国仮出願第62/753,608号の利益を主張する。
本出願は、参照によりその全体が本明細書に組み込まれる、2018年10月31日に出願された米国仮出願第62/753,608号の利益を主張する。
分野
本出願は、レポーター核酸、例えば機能的調節エレメントのライブラリー、ならびにそのようなライブラリーを構築および使用するための方法およびキットを提供する。
本出願は、レポーター核酸、例えば機能的調節エレメントのライブラリー、ならびにそのようなライブラリーを構築および使用するための方法およびキットを提供する。
エンハンサー、プロモーター、およびリプレッサーなどのシス調節モジュール(CRM)は、ゲノムの機能的エレメントである。ヒトゲノムにわたって数十万個のCRMが散在していると推定されている(Niu, et al. Nucleic acids research 46.11 (2018): 5395-5409; Visel, et al. Nature 461.7261 (2009):199;ENCODE Project Consortium. Nature 489.7414 (2012):57)。CRMは、遺伝子が、いつ、どこで、どのレベルで発現されるかを調節するため、CRMは、ほぼすべての生物学的プロセスに関与する。個々のCRMが複数の転写因子と直接的に相互作用し、複数のCRMが一緒になって機能して遺伝子調節活性を媒介する(Davidson. The Regulatory Genome, Elsevier (2006); Levine, et al. Cell 157.1 (2014): 13-25;De Laat, et al. Nature 502.7472 (2013): 499)。こうしたエレメントの包括的な実験的同定は困難である。
CRMを同定するための標準的なレポーターアッセイは、基本プロモーターおよびレポーター遺伝子の上流にある候補CRMをクローニングし、レポーター遺伝子の発現を駆動するその能力を調査することである(Rosenthal, Methods in enzymology 152 (1987): 704-720;Arnone, et al. Methods in cell biology 74. (2004): 621-652;Banerji, et al. Cell 27.2 (1981): 299-308)。同じレポーター構築物により、CRMが、遺伝子摂動に対して(Nam, et al.PLoS One 7.4 (2012): e35934.)、および転写結合部位の変異に対して(Damle, et al. Developmental biology 357.2 (2011): 505-517;de-Leon, et al. PNAS USA 107.22 (2010): 10103-10108;Cui, et al. Cell reports 19.2 (2017): 364-374;Emison, et al. Nature 434.7035 (2005): 857;Guerreiro, et al. PNAS USA 110.26 (2013): 10682-10686)、どのように応答するかをモニターすることができる。しかしながら、このような従来の1つずつのレポーターアッセイは、ゲノムに含有されている何百万個もの潜在的なCRMの分析(例えば、ハイスループット分析)には好適ではない。幾つかのハイスループットアッセイが試みられているが、バイアスが問題となることがある。
Rosenthal、Methods in enzymology(1987)152:704~720
Arnoneら、Methods in cell biology(2004)74:621~652
Banerjiら、Cell(1981)27.2:299~308
本明細書には、核酸分子レポーターライブラリーを構築する方法、および本明細書に開示されている方法を使用して産生される核酸分子レポーターライブラリーが開示されている。本開示のゲノムスケールレポーターアッセイ法は、標準的なレポーターアッセイの場合と同様に、エンハンサーおよびプロモーターの両方に対して効果的である。本アッセイは、長鎖DNAインサートにも対応し、部分的なCRMではなく完全なCRMのスクリーニングを可能にする。ゲノムカバレッジおよびDNAバーコードが過剰であると実験コストが増加し、ゲノムカバレッジおよびDNAバーコードが不十分であると、信頼性の低いデータがもたらされる。しかしながら、本明細書で開示されているライブラリーおよび方法では、ゲノムカバレッジおよびライブラリー内のDNAバーコードの数は調整可能である。最後に、本アッセイは、現在利用可能な方法と同等のまたはそれよりも少ない入力材料で、再現性のあるデータを生成する。
一部の実施形態では、核酸分子レポーターライブラリーを構築する方法は、選択されたサイズ範囲(例えば、約750~850塩基対長など、100~3000塩基対長のサイズ範囲)の複数の核酸分子(例えば、ゲノムDNAまたは合成DNA)を単離するステップ;複数の単離された核酸分子を、少なくとも1つの線状アダプター配列(3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドが隣接する少なくとも2つの連続したリボヌクレオチドを含むアダプターなど)にライゲートして、インサート(単離された核酸分子)およびアダプターを含む複数の環状核酸分子を形成するステップ;複数の環状核酸分子を、複数の線状核酸分子を産生するのに十分な条件下で酵素と接触させるステップ;ならびに複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させて複数のレポーター構築物を産生し、核酸分子レポーターライブラリーを形成するステップを含む。
ゲノムDNA(ゲノムDNA断片など)または合成DNAを含む、任意の核酸分子を使用することができる。一部の例では、核酸は、目的の細胞または目的の細胞の集団から得られるゲノムDNAである。ゲノムDNAは、これらに限定されないが、動物(例えば、哺乳動物)、植物、細菌、真菌、または古細菌を含む、任意の目的の生物に由来してもよい。一部の例では、本方法は、ゲル電気泳動またはビーズに基づくサイズ選択を使用して、単離された核酸分子のサイズ範囲を選択するステップを含む。一部の例では、本方法は、複数の単離された核酸分子を、リガーゼを使用して少なくとも1つの線状アダプター配列にライゲートするステップを含む。一部の例では、リガーゼは、T4 DNAリガーゼなどのDNAリガーゼを含む。線状アダプター配列は、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドが隣接する少なくとも2つの連続したリボヌクレオチド(例えば、配列番号1および/または配列番号2の核酸)を含んでいてもよい。したがって、ライゲーションにより、インサートおよびアダプターを含む複数の環状核酸分子が産生される。
一部の例では、本方法は、環状核酸を線状化する前に、複数の環状核酸分子を、複数の環状核酸分子から線状核酸分子を除去するのに十分な条件下で、エキソヌクレアーゼ(例えば、エキソヌクレアーゼI、エキソヌクレアーゼIII、および/またはラムダエキソヌクレアーゼ)と接触させるステップをさらに含む。一部の例では、本方法は、次いで、複数の環状核酸分子を、インサートが隣接する、各々が3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを含む複数の線状核酸分子を産生するのに十分な条件下で、エンドリボヌクレアーゼ(例えば、RNase HIIまたはウラシル-DNAグリコシラーゼなどの、DNA二重鎖内のリボヌクレオチドに特異的なエンドリボヌクレアーゼ)と接触させるステップを含む。一部の例では、本方法は、複数の線状核酸分子を少なくとも1つのレポーター核酸(例えば、蛍光タンパク質をコードする核酸および/またはバーコードを含む核酸)と融合させて、複数のレポーター構築物を産生するステップを含む。
一部の例では、本方法は、複数の線状核酸分子のゲノムカバレッジを決定するステップをさらに含む。例えば、ゲノムカバレッジを決定するステップは、少なくとも1つの目的のゲノム領域を選択するステップ、複数の線状核酸分子を増幅するステップ、ならびに選択されたゲノム領域が複数の線状核酸分子に存在するか否か、複数の線状核酸分子における選択されたゲノム領域のコピー数、および/またはゲノムカバレッジを決定するステップを含んでいてもよい。一部の例では、ゲノムカバレッジは、分析のために1つまたは複数の単一コピー標的を選択することにより決定される。例示的な単一コピー標的としては、ACTA1、ADM、ADAM12、AXL、CFB、DLX5、Kiss1、NCOA6、Notch2、RPP30、およびTOP1が挙げられる。ライブラリーの出発材料の供給源に応じて、追加のまたは代替の単一コピー標的を選択することができる。
一部の例では、本方法は、複数の核酸分子を線状ベクター核酸(例えば、基本プロモーターを含む線状ベクター核酸)と融合させるステップを含む。したがって、本方法を使用して、核酸分子を含む複数の線状ベクターを産生することができる。
一部の例では、少なくとも1つのレポーター核酸は、蛍光タンパク質をコードする核酸を含み、複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させるステップは、複数の線状ベクターを蛍光レポーター核酸と融合させるステップを含む。したがって、本方法を使用して、複数の蛍光レポーター構築物を産生することができる。別の例では、少なくとも1つのレポーター核酸は、バーコードをコードする核酸を含み、複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させるステップは、複数のレポーター線状ベクターをバーコード核酸と融合させるステップを含む。したがって、本方法を使用して、複数のバーコードレポーター構築物を産生することができる。一部の例では、少なくとも1つのレポーター核酸は、バーコードをコードする核酸および蛍光タンパク質をコードする核酸を含み、複数の線状ベクターを少なくとも1つのレポーター核酸と融合させるステップは、複数のレポーター構築物を、バーコード核酸および蛍光タンパク質をコードする核酸と融合させるステップを含む。したがって、本方法を使用して、複数の蛍光およびバーコードレポーター構築物を産生することができる。
一部の例では、本方法は、複数の線状ベクターの各々を、バーコードレポーター構築物を含むプライマー核酸と接触させるステップをさらに含む。一部の例では、本方法は、次いで、ポリメラーゼ連鎖反応(PCR)を実施するステップを含む。したがって、本明細書の方法を使用して、バーコードレポーター構築物を含む複数の増幅されたベクターを産生することができる。一部の例では、本方法は、次いで、バーコードレポーター構築物を含む増幅されたベクターを自己ライゲートさせて、環状ベクターを産生するステップを含む。したがって、本明細書の方法を使用して、バーコードレポーター構築物を産生することができる。一部の例では、本明細書の方法は、バーコードレポーター構築物を含む複数の環状ベクターを、バーコードレポーター構築物を含む複数の環状ベクターから線状核酸分子を除去するのに十分な条件下で、エキソヌクレアーゼ(例えば、エキソヌクレアーゼI、エキソヌクレアーゼIII、および/またはラムダエキソヌクレアーゼ)と接触させるステップをさらに含む。
核酸分子レポーターライブラリーを構築する方法の特定の例では、本方法は、選択されたサイズ範囲の複数の核酸分子を単離するステップ;複数の単離された核酸分子を、リガーゼを使用して少なくとも1つの線状アダプター配列にライゲートするステップであって、線状アダプター配列は、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドが隣接する少なくとも2つの連続したリボヌクレオチドを含み、それによりインサートおよびアダプターを含む複数の環状核酸分子を産生する、ステップ;複数の環状核酸分子を、複数の環状核酸分子から線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼと接触させるステップ;複数の環状核酸分子を、インサートが隣接する、各々が3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを含む複数の線状核酸分子を産生するのに十分な条件下でエンドリボヌクレアーゼと接触させるステップ;ならびに(a)複数の核酸分子を線状ベクター核酸と融合させ、それにより核酸分子を含む複数の線状ベクターを産生するステップ、(b)核酸分子を含む複数の線状ベクターの各々を、バーコード核酸を含むプライマーと接触させるステップ、および(c)ポリメラーゼ連鎖反応(PCR)およびライゲーション反応を実施して、バーコードレポーター構築物を含む複数の環状ベクターを産生するステップなどによって、複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させて、複数のレポーター構築物を産生するステップ;ならびにバーコードレポーター構築物を含む複数の環状ベクターを、バーコードレポーター構築物を含む複数の環状ベクターから線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼと接触させるステップを含む。一部の例では、本方法は、複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させる前に、インサートのゲノムカバレッジを決定するステップをさらに含む。
本明細書には、機能的核酸調節エレメントを検出する方法(例えば、ハイスループット法)がさらに開示されている。一部の例では、本方法は、本明細書で開示されているライブラリーのいずれかを、少なくとも1つの目的の細胞にトランスフェクトまたは形質転換するステップを含む。例示的な細胞としては、動物(例えば、哺乳動物)細胞、細菌細胞、植物細胞、真菌細胞、および古細菌細胞が挙げられる。例えば、哺乳動物細胞としては、心筋細胞、ニューロン、肝細胞、内皮細胞、胚性幹細胞、オルガノイド由来細胞、オルガノイド由来細胞、および誘導幹細胞を挙げることができる。一部の例では、本方法は、少なくとも2つの被験体から少なくとも1つの目的の細胞を収集するステップを含み、少なくとも2つの被験体は、疾患または状態を有する少なくとも1つの被験体および疾患または状態を有していない少なくとも1つの被験体を含む。一部の例では、本方法は、少なくとも1つの被験体から少なくとも1つの目的の細胞を収集するステップを含み、被験体からは、複数の細胞が異なる条件下で収集される。
また、一部の例では、本方法は、少なくとも1つのレポーターを測定するステップを含む。例えば、一部の方法は、少なくとも1つのレポーターを同定および/または定量化するステップを含んでいてもよい。一部の例では、本方法は、目的の細胞からRNAを単離して、単離されたRNAを産生するステップを含む。一部の例では、レポーターを同定するステップは、組換えモロニーマウス白血病ウイルス(rMoMuLV)逆転写酵素またはトリ骨髄芽球症ウイルス(AMV)逆転写酵素を使用してなど、単離されたRNAを逆転写してcDNAを産生するステップを含む。また、特定の例では、RNA依存性およびDNA依存性DNAポリメラーゼを使用して、単離されたRNAを逆転写することができる。
一部の例では、本方法は、次いで、cDNAを検出するステップを含む。一部の例では、検出は、cDNAを増幅するステップを含む。例えば、少なくとも1つのレポーターが、少なくとも1つの固有バーコード核酸である場合、cDNAを増幅するステップは、少なくとも1つの固有核酸バーコードを含むヌクレオチドに特異的なプライマーを選択するステップ、プライマーをcDNAと接触させるステップ、ならびにプライマーおよびcDNAを使用してPCRを実施して増幅されたDNAを産生するステップを含んでいてもよい。
一部の例では、本方法は、少なくとも1つの固有核酸バーコードを同定するステップをさらに含む。一部の例では、少なくとも1つの固有核酸バーコードは、増幅されたDNAを配列決定することにより同定される。また、一部の例では、本方法は、少なくとも1つの固有核酸バーコードを定量化するステップを含む。
本明細書の方法の一部の例では、複数の核酸分子、例えば、本明細書に記載の方法を使用して産生されるライブラリー中の複数の核酸分子は、選択された目的のゲノムの少なくとも80%を含む。本明細書の方法の一部の例では、複数の核酸分子は、選択された目的のゲノム中のシス調節エレメントの少なくとも80%を含む。
また、本明細書には、核酸分子レポーターライブラリーを構築するためのキットが開示されている。一部の例では、キットは、本明細書に記載のレポーター核酸のいずれかの少なくとも1つを含む。一部の例では、レポーター核酸は、配列番号1および/または配列番号2の線状アダプター配列を含む。また、例示的なキットは、少なくとも1つのリガーゼ、エキソヌクレアーゼ、エンドリボヌクレアーゼ、および/またはポリメラーゼを含んでいてもよい。
本明細書には、機能的核酸調節エレメントのハイスループット同定および/または定量化のためのキットがさらに開示されている。一部の例では、キットは、目的のゲノムの少なくとも80%をカバーするライブラリーなど、本明細書で開示されているライブラリーのいずれかを含む。キットの追加の例は、少なくとも1つの逆転写酵素および/またはPCRプライマーおよび高忠実度DNAポリメラーゼを含む。
本開示の上述の特徴および他の特徴は、添付の図面を参照してなされている以下の詳細な説明からより明らかになるだろう。
配列表
添付の配列表に列挙されている核酸配列およびアミノ酸配列は、米国特許法1.822に規定のように、ヌクレオチド塩基は標準文字略語およびアミノ酸は3文字コードを使用して示されている。各核酸配列の一方の鎖のみが示されているが、相補鎖は、表示されている鎖への任意の参照により含まれることが理解される。配列表は、2019年10月30日に作成された30kbのASCIIテキストファイルとして提出されており、参照により本明細書に組み込まれる。添付の配列表では、
添付の配列表に列挙されている核酸配列およびアミノ酸配列は、米国特許法1.822に規定のように、ヌクレオチド塩基は標準文字略語およびアミノ酸は3文字コードを使用して示されている。各核酸配列の一方の鎖のみが示されているが、相補鎖は、表示されている鎖への任意の参照により含まれることが理解される。配列表は、2019年10月30日に作成された30kbのASCIIテキストファイルとして提出されており、参照により本明細書に組み込まれる。添付の配列表では、
配列番号1および2は、例示的な線状アダプター核酸配列である。
配列番号3~116は、例示的なプライマー配列である。
配列番号117~124は、例示的なトリミングアダプター配列である。
特に明記されていない限り、技術用語は、従来の用法に従って使用されている。分子生物学における一般用語の定義は、以下の文献に見出すことができる:Benjamin Lewin, Genes VII, published by Oxford University Press, 2000 (ISBN 019879276X);Kendrew et al. (eds.), The Encyclopedia of Molecular Biology, published by Blackwell Publishers, 1994 (ISBN 0632021829);Robert A. Meyers (ed.), Molecular Biology and Biotechnology: a Comprehensive Desk Reference, published by Wiley, John & Sons, Inc., 1995 (ISBN 0471186341);およびGeorge P. Redei, Encyclopedic Dictionary of Genetics, Genomics, and Proteomics, 2nd Edition, 2003 (ISBN: 0-471-26821-6)。
単数形「1つの(a)」、「1つの(an)」、および「その(the)」は、状況による明確に別様な指示がない限り、1つまたは複数を指す。「または」という用語は、状況による明確に別様な指示がない限り、記載されている代替要素のうちの単一の要素または2つもしくはそれよりも多くの要素の組合せを指す。本明細書で使用される場合、「含む(comprise)」は「含む(include)」を意味する。したがって、「AまたはBを含む(comprising)」は、「A、B、またはAおよびBを含む(including)」ことを意味し、追加の要素を除外しない。
さらに、核酸またはポリペプチドに対して与えられる、すべての塩基サイズまたはアミノ酸サイズ、およびすべての分子量または分子質量の値は、おおよその値であり、説明のために提供されていることが理解されるべきである。本開示の実施または試験には、本明細書に記載のものと同様のまたは等価な方法および材料を使用することができるが、下記には、好適な方法および材料が記載されている。本明細書で言及されているすべての刊行物、特許出願、特許、および他の参考文献は、参照によりそれらの全体が組み込まれており、GenBank(登録商標)受託番号(2018年10月31日に存在する配列の)も同様である。矛盾する場合、用語の説明を含む本明細書が優先されるものとする。加えて、材料、方法、および例は、例示に過ぎず、限定を意図するものではない。
本開示の種々の実施形態の検討を容易にするために、特定の用語の説明が以下に提供されている。
アダプター(またはアダプター配列またはリンカー):他の核酸分子(例えば、DNAおよび/またはRNA)の末端にライゲートすることができる一本鎖または二本鎖核酸(例えば、DNA、RNA、または両方の組合せ)。二本鎖アダプターは、平滑末端、粘着末端、または粘着末端および平滑末端を有するように合成することができる。特定の例では、アダプター配列は、例えば、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチド(例えば、3’末端および/または5’末端の、少なくとも約1、2、5、10、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、100、250、500、もしくは1000個のデオキシリボヌクレオチド、または約5~45、10~40、15~35、20~30、1~50、1~100、1~250、1~500、もしくは1~1000個のデオキシリボヌクレオチド、または約21、28、もしくは29個、または約15~35もしくは20~30個のデオキシリボヌクレオチド)が隣接する少なくとも1つのリボヌクレオチドまたは少なくとも2つの連続したリボヌクレオチド(例えば、約2~5個、2~10個、2~25個、25~50個、もしくは50~100個のリボヌクレオチド、または約2個のリボヌクレオチドなど、少なくとも約2、3、4、5、6、7、8、9、10、25、50、もしくは100個のリボヌクレオチド)を含む。アダプター配列の具体的で非限定的な例としては、配列番号1および2が挙げられる。
バーコード:任意の核酸または遺伝子マーカー。バーコードは、ランダム(例えば、ハイスループット適用など、レポーター適用の場合)、半ランダム、または非ランダム(例えば、そのような同定のための分類学的群に特異的な固有バーコードなど、分類学的適用の場合)であってもよい。特定の例では、バーコードは、ランダムバーコードである。一部の例では、バーコードは、約10~100、100~103、103~104、104~106、106~107、107~108、108~109、もしくは106~109個のバーコード、または約107~2×107個のバーコード、または約2×107個のバーコードのライブラリーなど、少なくとも10、25、50、100、250、500、103、104、105、106、107、108、または109個のバーコードのライブラリーなどの、バーコードのライブラリー(例えば、既存の、またはアルゴリズムにより生成されたバーコードライブラリー)に由来する。特定の例では、バーコードは、約2×107個のバーコードのランダムライブラリーに由来する。一部の例では、バーコードは、短鎖バーコード、例えば、少なくとも約5、10、15、20、25、30、35、40、45、50、75、100、250、500、1000、2000、3000、もしくは5000ヌクレオチド長、または約5~10、10~20、15~40、20~30、10~50、10~75、10~100、100~250、250~500、500~1000、1000~3000、もしくは1000~5000ヌクレオチド長、または約20、25、30、15~40、もしくは20~30ヌクレオチド長である。
相補的:2つの分子が十分な数の相補的ヌクレオチド(例えば、A-T、A-U、またはG-C)を共有し、鎖が、例えばワトソン・クリック、フーグスティーン、または逆フーグスティーン塩基対を形成することにより互いに結合する(ハイブリダイズする)と、安定的な二重鎖または三重鎖を形成する場合、核酸分子は、別の核酸分子と相補的であると言われる。安定的なまたは特異的な結合は、必要とされる条件下で核酸分子の相補的ヌクレオチド間に塩基対が形成される結果として、核酸分子が別の核酸と検出可能に結合したままである場合に生じる。
~に十分な条件:所望の活性を可能にする、例えば、2つの分子間(核酸とタンパク質との間または2つの核酸間など)の特異的結合を可能にするか、または酵素活性(リガーゼ活性またはヌクレアーゼ活性など)を可能にする任意の環境。
接触:直接物理的に関連するように配置すること。固体形態および液体形態の両方を含む。例えば、接触は、in vitroにてまたは細胞内にて、核酸、タンパク質、および/または酵素(例えば、リガーゼまたはヌクレアーゼ)で生じてもよい。
検出:作用剤(核酸分子および/またはレポーター分子など)が存在するかまたは存在しないかを決定すること。一部の例では、検出は、同定および/または定量化をさらに含んでいてもよい。例えば、特定の例では、本開示の方法および検出プローブを使用することにより、核酸またはレポーター分子(レポーター核酸など)の存在、量、および/または同一性の決定が可能になる。
ハイブリダイゼーション:相補的な一本鎖DNA、RNA、またはDNA/RNAハイブリッドが二本鎖分子(ハイブリダイゼーション複合体とも呼ばれる)を形成する能力。
ライゲートする:1つの核酸分子の3’ヒドロキシル基と第2の核酸分子の5’リン酸基との間のホスホジエステル結合により2つの核酸分子を一緒に接合すること。核酸の並置された5’リン酸末端と3’ヒドロキシル末端との間のホスホジエステル結合の形成を触媒する酵素は、リガーゼと呼ばれる。例示的なリガーゼとしては、以下のものが挙げられる:DNAリガーゼ(T4 DNAリガーゼ、T3 DNAリガーゼ、T7 DNAリガーゼ、Taq DNAリガーゼ(例えば、Taq DNAリガーゼ、またはHiFi Taq DNAリガーゼなどの高忠実度Taq DNAリガーゼ)を含む)、熱安定性DNAリガーゼ(例えば、9°N(登録商標)DNAリガーゼなど、相補的DNA鎖にギャップ無しでハイブリダイズし正確に対合している2つの隣接するDNA鎖の5’リン酸と3’ヒドロキシルとの間のホスホジエステル結合の形成を触媒する熱安定性リガーゼ)、および相補的RNA鎖によりスプリントされた(splinted)隣接する一本鎖DNAをライゲートするリガーゼ(例えば、SPLINTR(登録商標)リガーゼ)。一部の例では、リガーゼは、二本鎖核酸の平滑末端のライゲートに十分である(例えば、T4 DNAリガーゼまたはT3 DNAリガーゼ)。特定の例では、リガーゼは、T4 DNAリガーゼである。
ヌクレアーゼ:ホスホジエステル結合を切断する酵素。エンドヌクレアーゼは、ヌクレオチド鎖内の内部ホスホジエステル結合を切断する酵素である(ヌクレオチド鎖の末端のホスホジエステル結合を切断するエキソヌクレアーゼとは対照的に)。エンドヌクレアーゼとしては、エンドリボヌクレアーゼ(RNAを配列特異的部位で切断する)、例えばRNase HII(例えば、あらゆるリボヌクレオチドを除去するための)などの制限エンドヌクレアーゼまたは他の部位特異的エンドヌクレアーゼ、またはウラシル-DNAグリコシラーゼが挙げられる。ヌクレアーゼの他の例としては、DNase I、S1ヌクレアーゼ、CEL Iヌクレアーゼ、マングビーンヌクレアーゼ、リボヌクレアーゼA(RNase A)、リボヌクレアーゼT1(RNase T1)、リボヌクレアーゼH(RNase H)、RNase I、RNase PhyM、RNase U2、RNase CLB、小球菌ヌクレアーゼ、および脱プリン/脱ピリミジンエンドヌクレアーゼが挙げられる。エキソヌクレアーゼとしては、エキソヌクレアーゼI、エキソヌクレアーゼIII、ラムダエキソヌクレアーゼ、エキソヌクレアーゼVII、およびBal31ヌクレアーゼが挙げられる。本明細書の特定の例では、ヌクレアーゼは、RNase HII(例えば、あらゆるリボヌクレオチドを除去するための)などのRNA特異的ヌクレアーゼ、またはウラシル-DNAグリコシラーゼ、またはエキソヌクレアーゼI、エキソヌクレアーゼIII、もしくはラムダエキソヌクレアーゼなどのエキソヌクレアーゼである。
調節エレメント:特定の遺伝子の発現を増加または減少させることが可能な核酸分子のセグメント。例示的な調節エレメントとしては、プロモーター(例えば、遺伝子の転写を開始するDNAの領域)などの活性化因子、およびエンハンサー(例えば、タンパク質などの他の分子と相互作用して、特定の遺伝子の転写の可能性を増加させることができる転写因子またはDNAの領域)、またはサイレンサーなどのリプレッサー(例えば、リプレッサータンパク質または転写因子に結合すると、DNA配列のRNAへの転写を阻害するDNAの領域)が挙げられる。
被験体:ヒトおよび非ヒト哺乳動物(例えば、獣医学的被験体)などの任意の多細胞脊椎動物。
ベクター:外来性遺伝物質を別の細胞へと人工的に運搬するためのビヒクルとして使用される核酸(例えば、DNAまたはRNA)。ベクターの例示的なタイプとしては、プラスミド、ウイルスベクター、コスミド、および人工染色体が挙げられる。ベクターに含まれる例示的なエレメントは、複製起点、調節エレメント(例えば、プロモーターまたはエンハンサー)、マルチクローニング部位、マーカー、および/またはレポーターである。特定の例では、ベクターは、少なくとも、マルチクローニングサイト;調節エレメント;例えば、プロモーター(例えば、基本プロモーターおよび/またはスーパーコアプロモーターなどの合成プロモーター)、エンハンサー、またはリプレッサー;およびポリ(A)テールを含んでいてもよい。
核酸分子レポーターライブラリーを構築する方法
本明細書には、核酸分子レポーターライブラリーを構築する方法が記載されている。したがって、ゲノム(例えば、動物ゲノムまたはヒトゲノム)などのより大きな核酸配列内の特異的および/または機能的配列などの、目的の核酸配列の存在もしくは非存在および/または目的の核酸配列の発現の決定を可能にする方法が提供される。本明細書の方法は、機能的核酸配列、例えば、遺伝子の発現を調節する核酸配列(例えば、シス調節エレメントまたはモジュールなどの調節エレメントまたはモジュール)などの任意の目的の核酸配列と共に使用することができる。一部の例では、本開示の方法は、目的の核酸配列の同定または定量化を可能にする。一部の例では、本方法は、目的の核酸配列を含む複数の核酸配列などの複数の核酸配列を単離するステップ、および複数の核酸配列をレポーター核酸と融合させて、複数のレポーター構築物を産生するステップを含む。
本明細書には、核酸分子レポーターライブラリーを構築する方法が記載されている。したがって、ゲノム(例えば、動物ゲノムまたはヒトゲノム)などのより大きな核酸配列内の特異的および/または機能的配列などの、目的の核酸配列の存在もしくは非存在および/または目的の核酸配列の発現の決定を可能にする方法が提供される。本明細書の方法は、機能的核酸配列、例えば、遺伝子の発現を調節する核酸配列(例えば、シス調節エレメントまたはモジュールなどの調節エレメントまたはモジュール)などの任意の目的の核酸配列と共に使用することができる。一部の例では、本開示の方法は、目的の核酸配列の同定または定量化を可能にする。一部の例では、本方法は、目的の核酸配列を含む複数の核酸配列などの複数の核酸配列を単離するステップ、および複数の核酸配列をレポーター核酸と融合させて、複数のレポーター構築物を産生するステップを含む。
一部の実施形態では、本方法は、選択されたサイズ範囲の複数の核酸分子を単離するステップを含む。ゲノムDNA(ゲノムDNA断片など)または合成DNAを含む、任意の核酸分子を使用することができる。一部の例では、核酸は、目的の細胞または目的の細胞の集団から得られるゲノムDNAである。動物細胞(例えば、哺乳動物細胞)、植物細胞、細菌細胞、真菌細胞、または古細菌細胞など、任意の細胞または細胞の集団を使用することができる。一部の例では、哺乳動物細胞は、幹細胞、神経細胞、心臓血管細胞、肝臓細胞、内皮細胞、上皮細胞、口腔細胞、生殖細胞、内分泌細胞、水晶体細胞、脂肪細胞、分泌細胞、腎臓細胞、細胞外基質細胞、収縮性細胞、免疫細胞、血液細胞、または胚細胞の少なくとも1つを含む。特定の非限定的な例では、哺乳動物細胞は、心筋細胞、ニューロン、肝細胞、内皮細胞(例えば、血管新生モデルなどにおける、ヒト臍帯静脈内皮細胞、HUVEC)、胚性幹細胞、誘導多能性幹細胞、HepG2細胞、LNCaP細胞、HeLa細胞、HCT116細胞、またはK562細胞の少なくとも1つである。一部の例では、植物細胞は、分裂組織細胞(meristematic cell)(分裂組織派生細胞を含む)、柔組織細胞(parenchyma cell)(葉肉細胞、輸送細胞(transfer cell)、または緑色組織細胞(chlorenchyma cell)など)、厚角組織細胞(collenchyma cell)、厚膜組織細胞(厚膜細胞(sclerenchyma sclereid)または厚膜組織線維など)、仮導管、導管要素、師部細胞(篩管、伴細胞、師部繊維、または師部厚膜細胞(phloem sclereid)など)、または表皮細胞(気孔孔辺細胞(stomatal guard cell)など)の少なくとも1つを含む。特定の非限定的な例では、植物細胞は、Arabidopsis、大麻、トウモロコシ、イネ、オオムギ、コムギ、スイッチグラス、トマト、ジャガイモ、Chlamydomonas、Hydrodictyon、Spirogyra、およびActebulariaの少なくとも1つである。一部の例では、細菌細胞は、グラム陰性細菌細胞またはグラム陽性細菌細胞、例えば、Acidobacteria、Actinobacteria、Aquificae、Bacteroidetes、Caldiserica、Chlamydiae、Chlorobi、Chloroflexi、Chrysiogenetes、Cyanobacteria、Deferribacteres、Deinococcus-Thermus、Dictyoglomi、Escherichia、Elusimicrobia、Fibrobacteres、Firmicutes、Fusobacteria、Gemmatimonadetes、Lentisphaerae、Nitrospira、Planctomycetes、Proteobacteria、Spirochaetes、Synergistetes、Tenericutes、Thermodesulfobacteria、Thermotogae、またはVerrucomicrobia細胞の少なくとも1つを含む。一部の例では、真菌細胞は、Trichoderma、Neurospora、Aspergillus、Monascus、Mucor、Saccharomyces、Pichia、またはRhizopusの少なくとも1つを含む。一部の例では、古細菌細胞は、Cenarchaeum、Caldococcus、Ignisphaera、Acidilobus、Acidococcus、Aeropyrum、Desulfurococcus、Ignicoccus、Staphylothermus、Stetteria、Sulfophobococcus、Thermodiscus、Thermosphaera、Geogemma、Hyperthermus、Pyrodictium、Pyrolobus、Nitrosopumilus(candidatus)、Acidianus、Metallosphaera、Stygiolobus、Sulfolobus、Sulfurisphaera、Thermofilum、Caldivirga、Pyrobaculum、Thermocladium、Thermoproteus、Vulcanisaeta、Aciduliprofundum、Archaeoglobus、Ferroglobus、Geoglobus、Haladaptatus、Halalkalicoccus、Haloalcalophilium、Haloarcula、Halobacterium、Halobaculum、Halobiforma、Halococcus、Haloferax、Halogeometricum、Halomicrobium、Halopiger、Haloplanus、Haloquadra、Halorhabdus、Halorubrum、Halosarcina、Halosimplex、Haloterrigena、Halovivax、Natrialba、Natrinema、Natronobacterium、Natronococcus、Natronolimnobius、Natronorubrum、Methanoregula(candidatus)、Methanocalculus、Methanobacterium、Methanobrevibacter、Methanosphaera、Methanothermobacter、Methanothermus、Methanocaldococcus、Methanotorris、Methanococcus、Methanothermococcus、Methanocorpusculum、Methanoculleus、Methanofollis、Methanogenium、Methanolacinia、Methanomicrobium、Methanoplanus、Methanospirillaceae、Methanospirillum、Methanosaeta、Methanimicrococcus、Methanococcoides、Methanohalobium、Methanohalophilus、Methanolobus、Methanomethylovorans、Methanosalsum、Methanosarcina、Methanopyrus、Palaeococcus、Pyrococcus、Thermococcus、Ferroplasma、Picrophilus、Thermoplasma、Korarchaeota、Nanoarchaeota、またはNanoarchaeum細胞の少なくとも1つを含む。
選択されたサイズ範囲の複数の核酸分子は、任意の供給源、例えば、染色体DNAおよびミトコンドリアDNAを含む、細胞に由来するゲノムまたは部分的なゲノムに由来してもよい。したがって、一部の例では、単離された核酸は、選択された細胞タイプまたは細胞タイプの集団から単離されている。DNA(例えば、ゲノムDNA)は、例えば、消化、剪断、超音波処理、またはそれらの組合せにより断片化されている。一部の例では、核酸は、選択された長さまたは長さの範囲のランダム二本鎖DNA配列などの合成DNAである。合成DNAの産生には、任意のDNA合成法を使用することができる。特定の例では、合成DNA(例えば、選択されたサイズ範囲のDNA)は、選択されたサイズ範囲のDNAよりも小さな2つまたはそれよりも多くのDNA分子をライゲートすることにより生成してもよい(例えば、約750~850塩基対または約800塩基対の選択された範囲のサイズのDNAの場合、より小さなDNAは、少なくとも約25、50、100、200、300、もしくは400塩基対、または約25~50、25~100、25~200、25~400、もしくは100~400塩基対、または約100塩基対であってもよい)。選択されたサイズ範囲の合成DNA核酸分子を生成するための例示的な方法は、図13に示されている。
一部の例では、単離されている核酸のサイズ範囲は、約50~200、100~200、100~300、300~500、100~1500、500~1200、700~1000、700~900、もしくは750~850塩基対長、または約800塩基対長など、約50~3000または100~3000塩基対長などの、少なくとも約50、100、200、300、400、500、750、800、900、1000、1200、1500、2000、2500、または3000塩基対長である。任意の方法を使用して、所望のサイズ範囲の複数の核酸分子を選択することができる。一部の例では、複数の核酸分子は、ゲル電気泳動(例えば、1~5%、1~2%、2~3%、もしくは3~5%アガロースゲル、または1.2%アガロースゲルなど、少なくとも1%、1.2%、1.5%、2%、3%、もしくは5%アガロースゲルなどの、手作業で調製されたアガロースゲルもしくはアガロースゲルカセットなどのアガロースゲルを使用し、例えば、定電圧もしくは可変電圧などを使用して)、またはビーズに基づくサイズ選択(例えば、常磁性ビーズ、例えば、カルボキシルコーティングを有する常磁性ビーズなどを使用した、固相可逆的固定化、SPRI)を使用して選択される。
一部の例では、本方法は、核酸分子(例えば、選択されたサイズの複数の単離された核酸分子、本明細書では「インサート」とも呼ばれる)をアダプター配列(例えば、少なくとも1つの線状アダプター配列など、少なくとも1つのアダプター配列)にライゲートするステップを含む。複数の単離された核酸分子とのライゲーションなどにより環状核酸分子(例えば、複数の環状核酸分子)を形成することが可能な線状アダプター配列など、任意のアダプター配列を使用することができる。一部の例では、アダプター配列は、リボヌクレオチドおよびデオキシリボヌクレオチドを含む。特定の例では、アダプター配列は、1つのリボヌクレオチドまたは少なくとも2つの連続したリボヌクレオチド(例えば、約2~5、2~10、2~25、25~50、もしくは50~100個のリボヌクレオチド、または約2つのリボヌクレオチドなど、少なくとも約2、3、4、5、6、7、8、9、10、25、50、または100個のヌクレオチド)を含む。一部の例では、アダプター配列は、3’末端の少なくとも1つのデオキシリボヌクレオチド(例えば、3’末端の、少なくとも約1、2、5、10、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、100、250、500、もしくは1000個のデオキシリボヌクレオチド、または約5~45、10~40、15~35、20~30、1~50、1~100、1~250、1~500、もしくは1~1000個のデオキシリボヌクレオチド、または約21、28、もしくは29個、または約15~35もしくは20~30個のデオキシリボヌクレオチド)、および5’末端の少なくとも1つのデオキシリボヌクレオチド(例えば、5’末端の、少なくとも約1、2、5、10、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、100、250、500、もしくは1000個のデオキシリボヌクレオチド、または約5~45、10~40、15~35、20~30、1~50、1~100、1~250、1~500、もしくは1~1000個のデオキシリボヌクレオチド、または約21、28、もしくは29個、または約15~35もしくは20~30個のデオキシリボヌクレオチド)が隣接する1つのリボヌクレオチドまたは少なくとも2つの連続したリボヌクレオチドを含む。特定の例では、線状アダプター配列は以下のものを含んでいてもよい:
CTGCTGAATCACTAGTGAATTATTACCCrUrUCAAGACACTACTCTCCAGCAGT(配列番号1)またはCTGCTGGAGAGTAGTGTCTTGrArAGGGTAATAATTCACTAGTGATTCAGCAGT(配列番号2)。配列中、「rU」および「rA」はリボヌクレオチドを示す。特定の例では、アダプターは、配列番号1および2の核酸のハイブリダイゼーションにより調製される二本鎖線状アダプターである。
CTGCTGAATCACTAGTGAATTATTACCCrUrUCAAGACACTACTCTCCAGCAGT(配列番号1)またはCTGCTGGAGAGTAGTGTCTTGrArAGGGTAATAATTCACTAGTGATTCAGCAGT(配列番号2)。配列中、「rU」および「rA」はリボヌクレオチドを示す。特定の例では、アダプターは、配列番号1および2の核酸のハイブリダイゼーションにより調製される二本鎖線状アダプターである。
複数の単離された核酸分子(複数のインサートなど)は、任意のライゲーション法(例えば、リガーゼ媒介性ライゲーションまたは化学ライゲーション)を使用して、アダプター配列(例えば、少なくとも1つの線状アダプター配列など、少なくとも1つのアダプター配列、例えば、配列番号1および/または配列番号2)にライゲートされる。一部の例では、少なくとも1つのリガーゼがライゲーションに使用される。本明細書に記載の任意の核酸またはアダプター配列を使用することができる。一部の例では、ライゲーション法は、「インサート」核酸分子およびアダプター配列(例えば、配列番号1および配列番号2を含む二本鎖アダプター)を含む環状核酸分子(例えば、複数の環状核酸分子)を形成するのに十分である。したがって、特定の例では、こうした方法を使用して、各々がインサートおよびアダプター配列を有する複数の環状核酸分子を産生することができる。一部の例では、DNAリガーゼが使用される。核酸のライゲートに十分な任意のリガーゼ(例えば、T4 DNAリガーゼ)を使用することができる。使用することができるリガーゼの例としては、以下のものが挙げられる:DNAリガーゼ(T4 DNAリガーゼ、T3 DNAリガーゼ、T7 DNAリガーゼ、Taq DNAリガーゼ(例えば、Taq DNAリガーゼ、またはHiFi Taq DNAリガーゼなどの高忠実度Taq DNAリガーゼ)を含む)、熱安定性DNAリガーゼ(例えば、9°N(登録商標)DNAリガーゼなど、相補的DNA鎖にギャップ無しでハイブリダイズし正確に対合している2つの隣接するDNA鎖の5’リン酸と3’ヒドロキシルとの間のホスホジエステル結合の形成を触媒する熱安定性リガーゼ)、および相補的RNA鎖によりスプリントされた隣接する一本鎖DNAをライゲートするリガーゼ(例えば、SPLINTR(登録商標)リガーゼ)。一部の例では、リガーゼは、二本鎖核酸の平滑末端のライゲートに十分である(例えば、T4 DNAリガーゼまたはT3 DNAリガーゼ)。特定の例では、リガーゼは、T4 DNAリガーゼである。
一部の実施形態では、本方法は、複数の環状核酸分子を、環状核酸分子(例えば、複数の環状核酸分子など、本明細書に記載の任意の環状核酸分子)から線状核酸を除去するのに十分な条件下で、ポリヌクレオチド分子の末端から連続したヌクレオチドを除去することに特異的な少なくとも1つの酵素(例えば、少なくとも約1、2、5、もしくは10個の酵素、または約1~2、1~5、もしくは1~10個の酵素、または約1つもしくは2つの酵素)(例えば、少なくとも約1、2、5、もしくは10個のエキソヌクレアーゼ、または約1~2、1~5、もしくは1~10個のエキソヌクレアーゼ、または約1つもしくは2つのエキソヌクレアーゼなど、少なくとも1つのエキソヌクレアーゼ)と接触させるステップをさらに含む。一部の例では、少なくとも1つのエキソヌクレアーゼは、エキソヌクレアーゼI、エキソヌクレアーゼIII、および/またはラムダエキソヌクレアーゼを含む。特定の例では、少なくとも1つのエキソヌクレアーゼは、エキソヌクレアーゼIおよびエキソヌクレアーゼIIIである。
一部の実施形態では、本方法は、インサートおよびアダプター配列を含む複数の環状核酸分子を、インサートおよびアダプターを含む複数の環状核酸分子から線状核酸分子(例えば、複数の線状核酸分子)を産生するのに十分な条件下で、ポリヌクレオチド鎖内のヌクレオチドを分離することに特異的な酵素(例えば、5’末端または3’末端のヌクレオチド以外のヌクレオチド、エンドヌクレアーゼなど)と接触させるステップを含む。一部の例では、産生される線状核酸分子は各々、例えば、インサート(例えば、本明細書に記載の任意のインサート)が隣接する、5’末端の少なくとも1つのデオキシリボヌクレオチドおよび3’末端の少なくとも1つのデオキシリボヌクレオチドを含む。一部の例では、産生される線状核酸分子は、5’末端の少なくとも1つのデオキシリボヌクレオチドおよび3’末端の少なくとも1つのデオキシリボヌクレオチドが隣接するインサートを含む。例えば、5’末端または3’末端の少なくとも1つのデオキシリボヌクレオチドは、少なくとも約1、2、5、10、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、100、250、500、もしくは1000個のデオキシリボヌクレオチド、または約5~45、10~40、15~35、20~30、1~50、1~100、1~250、1~500、もしくは1~1000個のデオキシリボヌクレオチド、または約21、28、もしくは29個、または約15~35もしくは20~30個のデオキシリボヌクレオチドなど、少なくとも1つのデオキシリボヌクレオチドを含んでいてもよい。特定の例では、酵素は、二本鎖核酸内のリボヌクレオチドの除去に特異的である(例えば、エンドリボヌクレアーゼ)。例えば、酵素は、約2~5、2~10、2~25、25~50、もしくは50~100個のリボヌクレオチド、または約2個のリボヌクレオチド)など、少なくとも約2、3、4、5、6、7、8、9、10、25、50、または100個のリボヌクレオチドなどの少なくとも1つのリボヌクレオチドを、環状核酸(例えば、複数の環状核酸分子など、本明細書に記載の環状核酸分子のいずれか)から除去することができる。特定の例では、酵素(例えば、エンドリボヌクレアーゼ)は、RNase HII(例えば、任意のリボヌクレオチドを除去するため)またはウラシル-DNAグリコシラーゼ(例えば、ウラシルを除去するため)を含んでいてもよい。環状核酸の線状化により、インサート核酸、ならびに3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを含む複数の線状核酸分子が産生される。
一部の実施形態では、本方法は、インサート、ならびに3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを含む環状核酸を線状化することにより得られる複数の線状核酸分子を、少なくとも1つのレポーター核酸と融合させる(例えば、核酸分子レポーターライブラリーなど、複数のレポーター構築物を産生する)ステップを含む。任意のレポーター核酸、例えば、蛍光タンパク質をコードする核酸および/またはバーコードを含む核酸など、蛍光レポーター核酸またはバーコードレポーター核酸を使用することができる。一部の例では、少なくとも1つのレポーターは、蛍光タンパク質をコードする核酸である。青色、紫色、緑色、黄色、橙色、または赤色蛍光タンパク質、またはそのような蛍光の任意の組合せもしくは変形形態を示すタンパク質など、任意の蛍光タンパク質をコードすることができる。特定の例では、少なくとも1つのレポーター核酸は、緑色蛍光タンパク質(GFP)をコードする核酸である。他の例では、少なくとも1つのレポーター核酸は、バーコード(例えば、核酸または遺伝子マーカー)を含む核酸である。任意の核酸または遺伝子マーカーを、バーコードとして使用することができる。一部の例では、バーコードは、短鎖核酸または遺伝子マーカー、例えば、少なくとも約5、10、15、20、25、30、35、40、45、50、75、100、250、500、1000、2000、3000、もしくは5000ヌクレオチド長、または約5~10、10~20、15~40、20~30、10~50、10~75、10~100、100~250、250~500、500~1000、1000~3000、もしくは1000~5000ヌクレオチド長、または約20、25、30、15~40、もしくは20~30ヌクレオチド長の核酸または遺伝子マーカーである。さらなる例では、レポーターは、蛍光タンパク質をコードする少なくとも1つの核酸および少なくとも1つのバーコード核酸を含む。
特定の例では、少なくとも1つのレポーター核酸は、バーコード核酸である。任意の核酸バーコードを使用することができる。例えば、バーコードライブラリーに由来するものなど、ランダム、半ランダム、または非ランダムバーコードを使用することができる。特定の例では、バーコードは、ランダムバーコードである。一部の例では、バーコードは、約10~100、100~103、103~104、104~106、106~107、107~108、108~109、もしくは106~109個のバーコード、または約107~2×107個のバーコード、または約2×107個のバーコードなど、少なくとも10、25、50、100、250、500、103、104、105、106、107、108、もしくは109個のバーコードのライブラリーなどの、バーコードのライブラリー(例えば、既存の、またはアルゴリズムにより生成されたバーコードライブラリー)に由来する。特定の例では、バーコードは、約2×107個のバーコードのランダムライブラリーに由来する。
一部の実施形態では、本方法は、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを有するインサート核酸を含む線状核酸分子ならびにレポーターを線状ベクター核酸と融合させて、複数の線状ベクターを産生するステップを含む。任意の線状ベクター核酸を使用することができる。例えば、線状ベクター核酸は、ヌクレアーゼ切断部位および転写または翻訳調節エレメント(プロモーター、エンハンサー、リプレッサー、および/またはポリ(A)テールなど)を含んでいてもよい。一部の例では、線状ベクター核酸は、基本プロモーターおよび/または合成プロモーターなどの少なくとも1つのプロモーターを含んでいてもよい。例えば、線状ベクター核酸は、少なくとも約1、2、3、4、5、6、8、もしくは10個のプロモーター、または約1~4、5~10、もしくは1~10個のプロモーターを含んでいてもよい。一部の例では、基本および/または合成プロモーターなどの少なくとも1つのプロモーターは、少なくとも約1、2、3、4、5、6、8、もしくは10個のプロモーターモチーフ、または約1~4、5~10、もしくは1~10個のプロモーターモチーフ、または約4つのプロモーターモチーフなどの少なくとも1つのプロモーターモチーフを含んでいてもよく、例えば合成プロモーターは、TATAボックス、イニシエーター(Inr)、モチーフ10エレメント(MTE)、下流プロモーターエレメント(DPE)、B認識エレメント(BRE)、E-ボックス、CCAATボックス、NRF-1、GABPA、YY1、ACTACAnnTCCC、および/またはデカマープロモーターモチーフを含んでいてもよい。特定の例では、少なくとも1つのプロモーターは、TATAボックス、Inr、MTE、およびDPEモチーフを含む合成プロモーター(例えば、スーパーコアプロモーター)である。追加の例示的なプロモーターは、参照によりその全体が本明細書に組み込まれる、Morgan, addgene blog:“Plasmids 101: The Promoter Region - Let's Go!”, 2014に見出すことができる。
3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを有するインサート核酸を含む線状核酸分子は、任意の時点で、例えば、線状核酸分子を少なくとも1つのレポーター核酸と融合させる際に、融合させる前に、または融合させた後で、線状ベクター核酸と融合させることができる。一部の例では、線状ベクター核酸は、少なくとも1つのレポーター核酸(例えば、緑色蛍光タンパク質などの蛍光タンパク質をコードする少なくとも1つのレポーター核酸、または少なくとも1つのバーコードを含む少なくとも1つのレポーター核酸)を含み、したがって、線状核酸分子を線状ベクター核酸と融合させるステップは、少なくとも1つのレポーター核酸との融合を含む。一部の例では、本方法は、線状核酸分子を少なくとも1つのレポーター核酸(例えば、蛍光タンパク質をコードする核酸またはバーコードを含む核酸)と融合させる前に、線状核酸分子を線状ベクター核酸と融合させるステップを含む。例えば、複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させるステップは、複数の線状ベクターを、蛍光タンパク質をコードするレポーター核酸(例えば、蛍光レポーター核酸)と融合させて、複数の蛍光レポーター構築物を産生するステップを含んでいてもよい。一部の例では、複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させるステップは、複数の線状ベクターを、バーコードを含むレポーター核酸(例えば、バーコードレポーター核酸)と融合させて、複数のバーコードレポーター構築物を産生するステップを含んでいてもよい。他の例では、線状核酸は、線状ベクター核酸との融合前に、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを有するインサート核酸、およびレポーター核酸を含む。
本方法は、任意の数のレポーター核酸を、核酸分子、例えば、少なくとも約1、2、3、4、5、10、15、20、もしくは25個、または約1~2、1~5、1~10、10~20、15~25、もしくは1~25個、または約2個のレポーター核酸を含む複数の線状核酸分子または複数の線状ベクターと融合させるステップを含む。一部の例では、本方法は、複数の線状核酸分子または核酸分子を含む複数の線状ベクターを、蛍光レポーター核酸(例えば、GFPをコードするレポーター核酸)と融合させて、複数の蛍光レポーター構築物を産生するステップを含む。一部の例では、本方法は、複数の線状核酸分子または核酸分子を含む複数の線状ベクターを、バーコードレポーター核酸(例えば、約25ヌクレオチド長のバーコードなど、短鎖バーコードを含むレポーター核酸)と融合させて、複数のバーコードレポーター構築物を産生するステップを含む。一部の例では、本方法は、複数の線状核酸分子または核酸分子を含む複数の線状ベクターを、蛍光レポーター核酸およびバーコードレポーター核酸(例えば、GFPをコードするレポーター核酸、および約25ヌクレオチド長のバーコードなどの短鎖バーコードを含むレポーター核酸)と融合させて、複数の蛍光およびバーコードレポーター構築物を産生するステップを含む。特定の例では、本方法は、核酸分子を含む複数の線状ベクターを、蛍光レポーター核酸および/またはバーコードレポーター核酸(例えば、GFPをコードするレポーター核酸、および/または約25ヌクレオチド長のバーコードなどの短鎖バーコードを含むレポーター核酸)と融合させて、複数の蛍光およびバーコードレポーター構築物を産生するステップを含む。
一部の実施形態では、複数の線状核酸分子または核酸分子を含む複数の線状ベクターをバーコードレポーター核酸と融合させるステップは、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを有するインサート核酸を含む複数の線状核酸分子、または3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを有するインサート核酸を含む複数の線状ベクターを、バーコードレポーター核酸(例えば、約25ヌクレオチド長のバーコードなどの短鎖バーコードを含むレポーター核酸)を含むプライマー核酸と接触させるステップを含む。一部の例では、複数の線状核酸分子または線状核酸分子を含む複数の線状ベクター、およびバーコードレポーター核酸を含む少なくとも1つのプライマー核酸を使用してポリメラーゼ連鎖反応(PCR)を実施して、例えば、線状核酸分子または複数の線状ベクターを伸長して、複数のバーコードレポーター構築物またはバーコードレポーター構築物を含む複数の線状ベクターを産生する。特定の例では、核酸分子を含む複数の線状ベクター、およびバーコードレポーター核酸を含むプライマー核酸を使用して、ポリメラーゼ連鎖反応(PCR)を実施して、バーコードレポーター構築物を含む複数の線状ベクターを産生する。
一部の例では、本方法は、リガーゼを使用して、レポーター構築物(例えば、蛍光レポーター構築物および/またはバーコードレポーター構築物)を含む複数の線状ベクターの末端をライゲートして、レポーター構築物(例えば、蛍光レポーター構築物および/またはバーコードレポーター構築物)を含む複数の環状ベクターを産生するステップを含む。特定の例では、本方法は、リガーゼを使用して、バーコードレポーター構築物を含む複数の線状ベクターの末端をライゲートして、バーコードレポーター構築物を含む複数の環状ベクターを産生するステップを含む。本明細書に記載の任意のリガーゼ(例えば、T4 DNAリガーゼなどのDNAリガーゼ)を使用することができる。一部の例では、リガーゼは、二本鎖核酸の平滑末端のライゲートに十分である(例えば、T4 DNAリガーゼまたはT3 DNAリガーゼ)。特定の例では、リガーゼは、T4 DNAリガーゼである。一部の例では、本方法は、バーコードレポーター構築物を含む複数の環状ベクターを少なくとも1つのエキソヌクレアーゼと接触させて、複数の環状ベクターから線状核酸分子を除去するステップをさらに含む。本明細書に記載の任意のエキソヌクレアーゼを使用することができる(例えば、エキソヌクレアーゼI、エキソヌクレアーゼIII、および/またはラムダエキソヌクレアーゼ)。特定の例では、少なくとも1つのエキソヌクレアーゼは、エキソヌクレアーゼIおよびエキソヌクレアーゼIIIである。
また、一部の実施形態では、本方法は、複数の線状核酸分子のゲノムカバレッジを決定するステップを含み、例えば、複数の線状核酸分子はゲノムDNAを含む。ゲノムカバレッジは、任意の時点で決定することができる。一部の例では、ゲノムカバレッジは、インサート核酸、ならびに3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを含む複数の線状核酸分子を、レポーター核酸と融合させる前に決定される。特定の例では、カバレッジは、複数の線状核酸分子(例えば、核酸分子およびアダプター配列を含む線状核酸分子)を使用して決定することができる。ゲノムカバレッジは、任意の方法を使用して決定することができる。特定の例では、ゲノムカバレッジは、少なくとも1つの目的のゲノム領域(例えば、ゲノム全体または部分的ゲノム)を選択し、複数の線状核酸分子を増幅し(例えば、定量的PCR、QPCRなどのPCRを使用して)、選択されたゲノム領域が複数の線状核酸分子に存在するか否かを決定することにより決定される。線状核酸分子が核酸分子およびアダプター配列を含む場合など、一部の例では、PCRは、アダプター配列に相補的なプライマー(例えば、核酸分子に対して5’に位置するアダプター配列のすべてまたは一部など、アダプター配列のすべてまたは一部に相補的であるプライマー)を使用して実施される。
核酸分子レポーターライブラリーを構築する方法の特定の例では、本方法は、選択されたサイズ範囲(例えば、約50~200、100~200、100~300、300~500、100~1500、500~1200、700~1000、もしくは750~850塩基対長、または約800塩基対長など、約50~3000もしくは100~3000塩基対長などの少なくとも約50、100、200、300、400、500、750、800、900、1000、1200、1500、2000、2500、もしくは3000塩基対長)の複数の核酸分子を単離するステップ;複数の核酸分子を、リガーゼ(例えば、T4リガーゼ)を使用して少なくとも1つの線状アダプター配列にライゲートするステップであって、線状アダプター配列は、配列番号1または配列番号2など、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチド(例えば、3’末端または5’末端の少なくとも約21、28、もしくは29個、または約15~35もしくは20~30個のデオキシリボヌクレオチド)が隣接する少なくとも2つの連続したリボヌクレオチドを含み、それによりインサートおよびアダプターを含む複数の環状核酸分子を産生する、ステップ;複数の環状核酸分子を、複数の環状核酸分子から線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼ(例えば、エキソヌクレアーゼIおよび/またはエキソヌクレアーゼIII)と接触させるステップ;複数の環状核酸分子を、インサートが隣接する、各々が3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを含む複数の線状核酸分子を産生するのに十分な条件下でエンドリボヌクレアーゼ(例えば、RNase HII)と接触させるステップ;ならびに(a)複数の核酸分子を線状ベクター核酸と融合させ、それにより核酸分子を含む複数の線状ベクターを産生するステップ;(b)核酸分子を含む複数の線状ベクターの各々を、バーコード核酸を含むプライマーと接触させるステップ;および(c)ポリメラーゼ連鎖反応(PCR)を実施して、バーコードレポーター構築物を含む複数の環状ベクターを産生するステップなどによって、複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させて複数のレポーター構築物を産生するステップ;ならびにバーコードレポーター構築物を含む複数の環状ベクターを、バーコードレポーター構築物を含む複数の環状ベクターから線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼ(例えば、エキソヌクレアーゼIおよび/またはエキソヌクレアーゼIII)と接触させるステップを含む。
核酸分子レポーターライブラリーを構築するための組成物およびキット
本明細書には、本明細書に記載の方法のいずれかを使用して産生される核酸分子レポーターライブラリーが企図されている。レポーターライブラリーは、任意の数のレポーター構築物を含んでいてもよい。一部の例では、レポーター構築物の数は、核酸配列または目的の配列に依存する場合がある。例えば、核酸分子レポーターライブラリーが、ゲノム(例えば、動物またはヒトゲノム、植物ゲノム、細菌ゲノム、真菌ゲノム、または古細菌ゲノム)などのより大きな配列に由来する核酸分子を含む場合、レポーター構築物の数は、より大きな配列のサイズおよび/またはライブラリーによるカバレッジのレベルに依存する場合がある。一部の例では、レポーター構築物の数は、約10~100、100~103、103~104、104~106、106~107、107~108、108~109、もしくは106~109、または約107~2×107もしくは約2×107(例えば、1.91×107)など、少なくとも約10、25、50、100、250、500、103、104、105、106、107、108、または109である。
本明細書には、本明細書に記載の方法のいずれかを使用して産生される核酸分子レポーターライブラリーが企図されている。レポーターライブラリーは、任意の数のレポーター構築物を含んでいてもよい。一部の例では、レポーター構築物の数は、核酸配列または目的の配列に依存する場合がある。例えば、核酸分子レポーターライブラリーが、ゲノム(例えば、動物またはヒトゲノム、植物ゲノム、細菌ゲノム、真菌ゲノム、または古細菌ゲノム)などのより大きな配列に由来する核酸分子を含む場合、レポーター構築物の数は、より大きな配列のサイズおよび/またはライブラリーによるカバレッジのレベルに依存する場合がある。一部の例では、レポーター構築物の数は、約10~100、100~103、103~104、104~106、106~107、107~108、108~109、もしくは106~109、または約107~2×107もしくは約2×107(例えば、1.91×107)など、少なくとも約10、25、50、100、250、500、103、104、105、106、107、108、または109である。
本明細書には、レポーター分子および核酸分子(例えば、インサート)を含むレポーター構築物のライブラリーが企図されている。また、本明細書の方法を使用して産生される核酸分子レポーターライブラリー中のレポーター構築物のエレメントは、同定および/または定量化の企図されている方法に応じて様々であってもよい。例えば、本明細書の方法を使用して産生されるライブラリーは、in vivoまたはin vitroで使用することができ、同定および/または定量化は、視覚に基づくレポーター(例えば、蛍光レポーター、例えば、視覚および/または分光分析に基づく同定および/または定量化などのための、青色、紫色、緑色、黄色、橙色、または赤色蛍光タンパク質をコードする核酸)を使用することから、配列に基づくレポーター(例えば、アレイに基づくおよび/または配列に基づく同定および/または定量化などのための、バーコードレポーター、例えば、少なくとも約5、10、15、20、25、30、35、40、45、50、75、100、250、500、1000、2000、3000、もしくは5000ヌクレオチド長、または約5~10、10~20、15~40、20~30、10~50、10~75、10~100、100~250、250~500、500~1000、1000~3000、もしくは1000~5000ヌクレオチド長、または約20、25、30、15~40、もしくは20~30ヌクレオチド長の核酸または遺伝子マーカーを含む、ランダム、半ランダム、または非ランダムバーコード)まで、多岐にわたっていてもよい。本明細書には、1つよりも多くのレポーターまたはレポーターのタイプを含むライブラリーが企図されている。一部の例では、ライブラリーは、蛍光レポーターおよびバーコードレポーターを含むライブラリーなど、視覚に基づくレポーターおよび配列に基づくレポーターを含んでいてもよい。特定の例では、ライブラリーは、GFPをコードする核酸および短鎖バーコード(例えば、約25ヌクレオチド長のバーコード)を含む核酸を両方とも有するレポーター構築物を含む。また、レポーター構築物の企図されるインサートのサイズは、同定および/または定量化の企図される方法に応じて様々であってもよい。例えば、インサートサイズ範囲は、約50~200、100~200、100~300、300~500、100~1500、500~1200、700~1000、もしくは750~850塩基対長、または約800塩基対長など、約50~3000または100~3000塩基対長などの、少なくとも約50、100、200、300、400、500、750、800、900、1000、1200、1500、2000、2500、または3000塩基対長である。
本明細書には、レポーター分子以外の他のエレメントを含むレポーター構築物のライブラリーがさらに企図されている。例えば、レポーター核酸の線状アダプター配列またはその部分(例えば、配列番号1および/または配列番号2またはそれらの部分)が含まれていてもよい。また、例えば、レポーター構築物は、ヌクレアーゼ切断部位および転写または翻訳調節エレメント、例えば、プロモーター(例えば、基本プロモーターおよび/またはスーパーコアプロモーターなどの合成プロモーター)、エンハンサー、リプレッサー、および/またはポリ(A)テールなど、本明細書に記載のベクターおよび/またはベクターエレメントのいずれを含んでいてもよい。
また、本明細書には、核酸分子レポーターライブラリーを構築するためのキットが企図されている。一部の例では、キットは、1つまたは複数の線状アダプター、例えば、配列番号1および/または配列番号2を含む。一部の例では、キットは、本明細書に記載のレポーター核酸のいずれかを含む。例えば、視覚に基づく核酸レポーター(例えば、蛍光レポーター、例えば、視覚に基づくおよび/または分光分析に基づく同定および/または定量化などのための、青色、紫色、緑色、黄色、橙色、または赤色蛍光タンパク質をコードする核酸)および/または配列に基づくレポーター(例えば、アレイに基づくおよび/または配列に基づく同定および/または定量化などのための、少なくとも約5、10、15、20、25、30、35、40、45、50、75、100、250、500、1000、2000、3000、もしくは5000ヌクレオチド長、または約5~10、10~20、15~40、20~30、10~50、10~75、10~100、100~250、250~500、500~1000、1000~3000、もしくは1000~5000ヌクレオチド長、または約20、25、30、15~40、もしくは20~30ヌクレオチド長の核酸または遺伝子マーカーを含むバーコードレポーター、例えば、ランダム、半ランダム、または非ランダムバーコード)が含まれていてもよい。1つよりも多くのレポーターまたはレポーターのタイプが企図される。例えば、キットは、蛍光レポーターおよびバーコードレポーターなど、視覚に基づくレポーターおよび配列に基づくレポーターを含んでいてもよい。特定の例では、キットは、GFPをコードし、かつ短鎖バーコード(例えば、約25ヌクレオチド長のバーコード)を含む核酸レポーターを含む。
本明細書には、レポーター分子以外の他のエレメントを含むレポーター構築物を有するキットがさらに企図されている。例えば、レポーター核酸の線状アダプター配列が含まれていてもよい(例えば、配列番号1および/または配列番号2)。また、キットは、ヌクレアーゼ切断部位および転写または翻訳調節エレメント、例えば、プロモーター(例えば、基本プロモーターおよび/またはスーパーコアプロモーターなどの合成プロモーター)、エンハンサー、リプレッサー、および/またはポリ(A)テールなど、本明細書に記載のベクターおよび/またはベクターエレメントのいずれを含んでいてもよい。本明細書に記載の方法を実施するための酵素はいずれも企図される。例えば、キットは、DNAリガーゼ(T4 DNAリガーゼ、T3 DNAリガーゼ、T7 DNAリガーゼ、Taq DNAリガーゼ(例えば、Taq DNAリガーゼ、またはHiFi Taq DNAリガーゼなどの高忠実度Taq DNAリガーゼ)を含む)、熱安定性DNAリガーゼ(例えば、9°N(登録商標)DNAリガーゼなど、相補的DNA鎖にギャップ無しでハイブリダイズし正確に対合している2つの隣接するDNA鎖の5’リン酸と3’ヒドロキシルとの間のホスホジエステル結合の形成を触媒する熱安定性リガーゼ)、および相補的RNA鎖によりスプリントされた隣接する一本鎖DNAをライゲートするリガーゼ(例えば、SPLINTR(登録商標)リガーゼ)などの少なくとも1つのリガーゼ;少なくとも約1、2、5、もしくは10個のエキソヌクレアーゼ、または約1~2、1~5、もしくは1~10個のエキソヌクレアーゼ、または約1つもしくは2つのエキソヌクレアーゼ(例えば、エキソヌクレアーゼI、エキソヌクレアーゼIII、および/またはラムダエキソヌクレアーゼ)などの少なくとも1つのエキソヌクレアーゼ;エンドリボヌクレアーゼ(例えば、RNase HIIまたはウラシル-DNAグリコシラーゼ)、および/またはPCRに好適な任意のポリメラーゼ(例えば、高忠実度ポリメラーゼ)を含むポリメラーゼを含んでいてもよい。
機能的核酸調節エレメントを検出する方法およびそのためのキット
本開示のライブラリーは、目的のゲノム中のシス調節エレメントを同定することを含む、様々な目的に使用することができる。一部の例では、本開示のライブラリーを使用して、同じ種の異なる個体に由来するCRMの機能的な違いを直接的に測定することができる。本開示のライブラリーおよび方法は、細胞に基づく手法(例えば、心筋細胞、ニューロン、肝細胞)における配列変動の機能的帰結を直接的に測定することができる。他の例では、本開示のライブラリーおよび方法を使用して、薬物の細胞毒性を媒介するCRM、細胞の病理学的状態を維持するCRM、および/または健康な細胞状態を維持するCRMなど、バイオマーカーCRMを同定することができる。
本開示のライブラリーは、目的のゲノム中のシス調節エレメントを同定することを含む、様々な目的に使用することができる。一部の例では、本開示のライブラリーを使用して、同じ種の異なる個体に由来するCRMの機能的な違いを直接的に測定することができる。本開示のライブラリーおよび方法は、細胞に基づく手法(例えば、心筋細胞、ニューロン、肝細胞)における配列変動の機能的帰結を直接的に測定することができる。他の例では、本開示のライブラリーおよび方法を使用して、薬物の細胞毒性を媒介するCRM、細胞の病理学的状態を維持するCRM、および/または健康な細胞状態を維持するCRMなど、バイオマーカーCRMを同定することができる。
例えば、本開示のライブラリーおよび方法は、薬物の細胞毒性に応答するCRMを同定することができる。複数の異なる細胞毒性効果を検出するバイオマーカーCRMのコレクションを生成できる。このバイオマーカーのコレクションを使用して、1回のスクリーニングで薬物の毒性を試験することができる。また、本開示のライブラリーおよび方法は、患者由来細胞(例えば、iPSC由来心筋症細胞)の病理学的細胞状態に特異的なCRMを同定することができる。さらに、本開示のライブラリーおよび方法を使用して、対照細胞(例えば、iPSC由来対照心筋細胞)の健康な細胞状態に特異的なCRMを同定することができる。さらに、3つすべてのタイプのバイオマーカーCRMをプールすることにより、細胞毒性効果を引き起こすことなく単一のスクリーニングで、病理学的細胞状態を正常状態にすることができる薬物をスクリーニングすることができる。
別の実施形態では、本開示のライブラリーおよび方法は、任意の所望の活性を保有する人工CRMをスクリーニングすることができる。そうしたCRMとしては、任意の細胞タイプにおける選択マーカーの強力な駆動因子(例えば、操作された細胞(細菌細胞、真菌細胞、植物細胞、古細菌細胞、哺乳動物細胞)において遺伝子発現(例えば、酵素)を正確に制御するための駆動因子)を挙げることができる。
他の実施形態では、本開示のライブラリーおよび方法は、例えば、種々の細胞タイプ(例えば、胚性幹細胞または誘導幹細胞などの幹細胞から形成される、例えば、相互に排他的な細胞タイプ)における遺伝子調節相互作用を検出するためなど、宿主細胞タイプにおける非発現転写因子の富化モチーフをスクリーニングすることができる。例示的な適用としては、例えば、特定の細胞タイプを生成するための組織工学が挙げられる。例えば、1つの細胞タイプを抑制することができ、別の細胞タイプを促進することができる(例えば、1つの細胞タイプが別の細胞タイプに変わり得る適用、例えば、所望の細胞タイプまたは目的の細胞タイプが、望ましくない細胞タイプまたは目的ではない細胞タイプに変わり得る適用の場合)。
本明細書には、機能的核酸調節エレメント(例えば、プロモーター、エンハンサー、および/またはリプレッサーなどのCRM)を検出する方法が開示されている。一部の例では、本方法は、少なくとも1つの目的の細胞に、本明細書で開示されている核酸分子レポーターライブラリーをトランスフェクトするステップを含んでいてもよい。一部の例では、本方法は、目的の細胞を選択するステップを含む。動物細胞(例えば、哺乳動物細胞)、植物細胞、真菌細胞、細菌細胞、または古細菌細胞など、任意の目的の細胞を使用および/または選択することができる。一部の例では、哺乳動物細胞は、幹細胞、神経細胞、心臓血管細胞、肝臓細胞、内皮細胞、上皮細胞、口腔細胞、生殖細胞、内分泌細胞、水晶体細胞、脂肪細胞、分泌細胞、腎臓細胞、細胞外基質細胞、収縮性細胞、免疫細胞、血液細胞、または胚細胞の少なくとも1つを含む。特定の非限定的な例では、哺乳動物細胞は、心筋細胞、ニューロン、肝細胞、内皮細胞(例えば、血管新生モデルなどにおける、ヒト臍帯静脈内皮細胞、HUVEC)、胚性幹細胞、誘導多能性幹細胞、HepG2細胞、LNCaP細胞、HeLa細胞、HCT116細胞、またはK562細胞の少なくとも1つである。一部の例では、植物細胞は、分裂組織細胞(分裂組織派生細胞を含む)、柔組織細胞(葉肉細胞、輸送細胞、または緑色組織細胞など)、厚角組織細胞、厚膜組織細胞(厚膜細胞または厚膜組織線維など)、仮導管、導管要素、師部細胞(篩管、伴細胞、師部繊維、または師部厚膜細胞など)、または表皮細胞(気孔孔辺細胞など)の少なくとも1つを含む。特定の非限定的な例では、植物細胞は、Arabidopsis、大麻、トウモロコシ、イネ、オオムギ、コムギ、スイッチグラス、トマト、ジャガイモ、Chlamydomonas、Hydrodictyon、Spirogyra、およびActebulariaの少なくとも1つである。一部の例では、細菌細胞は、グラム陰性細菌細胞またはグラム陽性細菌細胞、例えば、Acidobacteria、Actinobacteria、Aquificae、Bacteroidetes、Caldiserica、Chlamydiae、Chlorobi、Chloroflexi、Chrysiogenetes、Cyanobacteria、Deferribacteres、Deinococcus-Thermus、Dictyoglomi、Elusimicrobia、Escherichia、Fibrobacteres、Firmicutes、Fusobacteria、Gemmatimonadetes、Lentisphaerae、Nitrospira、Planctomycetes、Proteobacteria、Spirochaetes、Synergistetes、Tenericutes、Thermodesulfobacteria、Thermotogae、またはVerrucomicrobia細胞の少なくとも1つを含む。一部の例では、真菌細胞は、Trichoderma、Neurospora、Aspergillus、Monascus、Mucor、Saccharomyces、Pichia、またはRhizopusの少なくとも1つを含む。一部の例では、古細菌細胞は、Cenarchaeum、Caldococcus、Ignisphaera、Acidilobus、Acidococcus、Aeropyrum、Desulfurococcus、Ignicoccus、Staphylothermus、Stetteria、Sulfophobococcus、Thermodiscus、Thermosphaera、Geogemma、Hyperthermus、Pyrodictium、Pyrolobus、Nitrosopumilus(candidatus)、Acidianus、Metallosphaera、Stygiolobus、Sulfolobus、Sulfurisphaera、Thermofilum、Caldivirga、Pyrobaculum、Thermocladium、Thermoproteus、Vulcanisaeta、Aciduliprofundum、Archaeoglobus、Ferroglobus、Geoglobus、Haladaptatus、Halalkalicoccus、Haloalcalophilium、Haloarcula、Halobacterium、Halobaculum、Halobiforma、Halococcus、Haloferax、Halogeometricum、Halomicrobium、Halopiger、Haloplanus、Haloquadra、Halorhabdus、Halorubrum、Halosarcina、Halosimplex、Haloterrigena、Halovivax、Natrialba、Natrinema、Natronobacterium、Natronococcus、Natronolimnobius、Natronorubrum、Methanoregula(candidatus)、Methanocalculus、Methanobacterium、Methanobrevibacter、Methanosphaera、Methanothermobacter、Methanothermus、Methanocaldococcus、Methanotorris、Methanococcus、Methanothermococcus、Methanocorpusculum、Methanoculleus、Methanofollis、Methanogenium、Methanolacinia、Methanomicrobium、Methanoplanus、Methanospirillaceae、Methanospirillum、Methanosaeta、Methanimicrococcus、Methanococcoides、Methanohalobium、Methanohalophilus、Methanolobus、Methanomethylovorans、Methanosalsum、Methanosarcina、Methanopyrus、Palaeococcus、Pyrococcus、Thermococcus、Ferroplasma、Picrophilus、Thermoplasma、Korarchaeota、Nanoarchaeota、またはNanoarchaeum細胞の少なくとも1つを含む。
一部の例では、本方法は、少なくとも1つの目的の細胞を収集すること(例えば、少なくとも1つの被験体から)を含む。一部の例では、細胞は、疾患または状態を有する少なくとも1つの被験体および疾患または状態を有していない少なくとも1つの被験体など、少なくとも2つの被験体から収集される。他の例では、細胞は、異なる条件下の(例えば、薬物または処置プロトコールなどの試薬またはプロトコールの投与前または投与後の)細胞または被験体から収集される。本明細書に記載のライブラリーのいずれを使用してもよい。また、本方法は、少なくとも1つのレポーターを測定するステップを含む。また、一部の実施形態では、本方法は、少なくとも1つのレポーターを同定および/または定量化するステップを含む。特定の実施形態では、少なくとも1つのレポーターの同定および/または定量化は、レポーターに連結された1つまたは複数のCRMの存在を示す。CRMは、例えば、レポーターに連結された核酸を単離し、核酸を配列決定することにより、さらに特徴付けることができる。単離された核酸をさらに試験して、核酸に含まれるCRMを同定することができる。
一部の実施形態では、本方法は、核酸レポーターライブラリーをトランスフェクトした目的の細胞からRNAを単離し、それにより単離されたRNAを産生するステップを含む。抽出法および沈殿法を含む、任意の方法を使用してRNAを単離することができる(例えば、参照によりその全体が本明細書に組み込まれる、Tan et al. Journal of biomedicine & biotechnology (2009): 574398-574398)。一部の例では、単離されたRNAの純度を増強するためなどの、追加のステップが含まれていてもよい。RNAを、DNAに特異的な酵素、例えば、DNase(例えば、DNase I)および/またはエキソヌクレアーゼ(例えば、エキソヌクレアーゼIおよび/またはエキソヌクレアーゼIII)と接触させることなど、任意の追加のRNA単離ステップが含まれていてもよい。
一部の実施形態では、レポーターを同定するステップは、cDNAを合成するステップを含む。一部の例では、cDNAを合成するステップは、単離されたRNA(例えば、本明細書に記載の方法のいずれかを使用して単離されたRNA)を逆転写し、それによりcDNAを産生するステップを含む。任意の逆転写法を使用することができる。一部の例では、本方法は、単離されたRNAを、少なくとも1つの逆転写酵素と接触させるステップを含む。任意の逆転写酵素を使用することができる。一部の例では、組換えモロニーマウス白血病ウイルス(rMoMuLV)逆転写酵素および/またはトリ骨髄芽球症ウイルス(AMV)逆転写酵素を使用することができる。任意の追加のcDNA合成ステップが含まれていてもよい。特定の例では、追加のcDNA合成ステップは、RNAおよび少なくとも1つの逆転写酵素を、RNA依存性およびDNA依存性DNAポリメラーゼとさらに接触させるステップを含む。一部の例では、追加のcDNA合成ステップは、RNase(例えば、RNase Ifなどの、一本鎖RNAに特異的なRNase)を添加するステップを含む。
一部の実施形態では、本方法は、cDNA(例えば、本明細書に記載の方法のいずれかを使用して合成されたcDNA)を検出および/または同定するステップを含む。cDNAを検出および/または同定するための任意の方法を使用することができる(例えば、次世代シーケンシング法、マイクロアレイおよびハイブリダイゼーション、ならびに/または定量的PCRなど、配列決定に基づく方法、マイクロアレイに基づく方法、および/またはPCRに基づく方法)。一部の例では、cDNAは、少なくとも1つの固有バーコードレポーターを含む。一部の例では、cDNAを検出するステップは、バーコードレポーターcDNA(例えば、バーコードレポーターcDNA)などのcDNAを増幅するステップを含む(例えば、cDNAを、高忠実度ポリメラーゼおよび/または1対のユニバーサルプライマーなどの少なくとも1つのプライマーと接触させることによる、例えば、高忠実度PCRなどのPCRを使用して)。特定の例では、cDNAを増幅するステップは、少なくとも1つの固有核酸バーコードを含むヌクレオチドに特異的なプライマーを選択するステップを含む(例えば、1対のプライマー、例えば、1対のユニバーサルプライマーなどの少なくとも1つのプライマー)。一部の例では、プライマーは、cDNA中のバーコードのプールを増幅する一対のユニバーサルプライマーを含む。一部の例では、cDNAを増幅するステップは、プライマーをcDNAと接触させるステップ、およびPCRを実施するステップ(例えば、プライマーおよびcDNAを使用して)をさらに含む。したがって、一部の例では、本方法を使用して、増幅されたバーコードDNAなどの増幅されたDNA(例えば、cDNA)を産生することができる。一部の例では、本方法は、レポーター(例えば、核酸バーコード)を同定することなどによりcDNAを同定するステップを含む。一部の例では、本方法は、次世代シーケンシング、マイクロアレイおよびハイブリダイゼーション、ならびに/または定量的PCRなど、配列決定に基づく方法、マイクロアレイに基づく方法、および/またはPCRに基づく方法を使用して、核酸バーコードを同定するステップを含む。特定の例では、cDNAは、核酸バーコードを配列決定することにより同定される(例えば、次世代シーケンシングを使用して)。例示的な方法は、定量化ステップ(例えば、少なくとも1つの固有核酸バーコードを定量化すること)をさらに含んでいてもよい。
一部の例では、本明細書に記載の方法は、ハイスループット法である。一部の例では、本明細書に記載のライブラリー中の複数の核酸分子は、選択された目的のゲノム(例えば、動物ゲノムまたはヒトゲノム)の少なくとも約10%、20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、98%、もしくは100%、または約10~20%、20~40%、25~50%、50~75%、75~85%、80~90%、85~90%、85~100%、もしくは90~100%、または約93%、93.4%、もしくは94%をカバーする。他の例では、ライブラリー中の複数の核酸は、1Xよりも大きなゲノムのカバレッジを提供する(例えば、1X、1.5X、2X、2.5X、3X、3.5X、4X、4.5X、5X、8X、10X、またはそれよりも大きなカバレッジ)。一部の例では、複数の核酸分子は、選択された目的のゲノム中のシス調節エレメントの少なくとも約10%、20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、98%、もしくは100%、または約10~20%、20~40%、25~50%、50~75%、75~85%、80~90%、85~90%、85~100%、もしくは90~100%、または約85%、90%、もしくは95%を含む。
本明細書には、機能的核酸調節エレメントを検出するためのキットがさらに企図されている。一部の例では、キットは、機能的核酸調節エレメントの同定および/または定量化のために使用することができる。一部の例では、キットは、機能的核酸調節エレメントのハイスループット検出、同定、および/または定量化のために使用することができる。一部の例では、キットは、本明細書に記載の任意の核酸レポーターライブラリーを含んでいてもよい。一部の例では、ライブラリーは、選択された目的のゲノム(例えば、動物ゲノムまたはヒトゲノム)の少なくとも約10%、20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、98%、もしくは100%、または約10~20%、20~40%、25~50%、50~75%、75~85%、80~90%、85~90%、85~100%、もしくは90~100%、または約93%、93.4%、もしくは94%をカバーする。一部の例では、ライブラリーは、選択された目的のゲノム(例えば、動物ゲノムまたはヒトゲノム)中のシス調節エレメントの少なくとも約10%、20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、98%、もしくは100%、または約10~20%、20~40%、25~50%、50~75%、75~85%、80~90%、85~90%、85~100%、もしくは90~100%、または約85%、90%、もしくは95%を含む。
一部の例では、キットは、少なくとも1つの逆転写酵素(例えば、組換えモロニーマウス白血病ウイルス(rMoMuLV)逆転写酵素、トリ骨髄芽球症ウイルス(AMV)逆転写酵素)をさらに含む。RNA依存性およびDNA依存性DNAポリメラーゼおよび/またはRNase(例えば、RNase Ifなどの、一本鎖RNAに特異的なRNase)などの追加のcDNA合成エレメントが含まれていてもよい。一部の例では、キットは、PCRなどによる増幅のための(例えば、少なくとも1つの固有バーコードを含むcDNAなどのcDNAの)エレメントを含む。特定の例では、キットは、PCRプライマーおよびDNAポリメラーゼ(例えば、高忠実度DNAポリメラーゼ)を含む。
以下の例は、ある特定の具体的な特徴および/または実施形態を例示するために提供されている。これらの例は、本開示を、記載されている特定の特徴または実施形態に限定するものとして解釈されるべきでない。これらの例では、シス調節モジュール(CRM)のゲノムスケールレポーターアッセイ法が説明されている。GRAMcは、ランダムに断片化された約800bpのインサートを有する2億個のHepG2細胞においてヒトゲノムのほぼ90%のシス調節活性を確実に測定することができる。≧15M個のランダムに断片化された約800bpのインサートを用いて、ヒトゲノムを約4回カバーする(4×カバレッジ)レポーター構築物のライブラリーを生成した。
(実施例1)
この例には、実施例1~7で使用した方法および材料が記載されている。
この例には、実施例1~7で使用した方法および材料が記載されている。
GRAMcライブラリー構築
融合アダプター調製:GRAMc調製は、不要な連結体の形成を最小限に抑えるためのカスタム設計融合アダプターを含む(図6)。2つの相補的ハイブリッドオリゴマーは、Integrated DNA Technologies(IDT)が合成した:p-AD4_F(5’-/p/CTGCTGAATCACTAGTGAATTATTACCCrUrUCAAGACACTACTCTCCAGCAGT-3’;配列番号1)およびp-AD4_R(5’-/p/CTGCTGGAGAGTAGTGTCTTGrArAGGGTAATAATTCACTAGTGATTCAGCAGT-3’;配列番号2))。リボヌクレオチド部位は、「rU」および「rA」と標記されている。融合アダプターは、p-AD4_Fおよびp-AD4_Rを、1×T4 DNAリガーゼ緩衝液(NEB(登録商標)B0202S)で4pmol/μLに希釈し、続いて95℃で2分間アニーリングし、その後-0.5℃/20秒サイクルの速度で160サイクルにわたって温度を低下させて、調製した。アニーリングしたアダプターを3μl容量にアリコートし、使用するまで-80℃で維持した。
融合アダプター調製:GRAMc調製は、不要な連結体の形成を最小限に抑えるためのカスタム設計融合アダプターを含む(図6)。2つの相補的ハイブリッドオリゴマーは、Integrated DNA Technologies(IDT)が合成した:p-AD4_F(5’-/p/CTGCTGAATCACTAGTGAATTATTACCCrUrUCAAGACACTACTCTCCAGCAGT-3’;配列番号1)およびp-AD4_R(5’-/p/CTGCTGGAGAGTAGTGTCTTGrArAGGGTAATAATTCACTAGTGATTCAGCAGT-3’;配列番号2))。リボヌクレオチド部位は、「rU」および「rA」と標記されている。融合アダプターは、p-AD4_Fおよびp-AD4_Rを、1×T4 DNAリガーゼ緩衝液(NEB(登録商標)B0202S)で4pmol/μLに希釈し、続いて95℃で2分間アニーリングし、その後-0.5℃/20秒サイクルの速度で160サイクルにわたって温度を低下させて、調製した。アニーリングしたアダプターを3μl容量にアリコートし、使用するまで-80℃で維持した。
GRAMcベクター調製:pGEM-T Easyベクター(PROMEGA(登録商標))に基づく既存ベクター(Nam, et al. PLoS One 7.4 (2012): e35934)のGFP ORF上流のウニ結節基本プロモーターをスーパーコアプロモーター1(SCP)(Juven-Gershon, et al. Developmental biology 339.2 (2010): 225-229)に置き換えることにより、GRAMcベクターを構築した。GFP ORFは、pGREEN LANTERN(登録商標)(GIBCO BRL(登録商標))(Arnone, et al. Development 124.22 (1997): 4649-4659)に由来する。ベクターを、AflII/HindIIIで一晩消化することにより線状化し、10サイクルのPCRで20ngの線状化鋳型から2つの別々のカセットとして増幅した(図7)。50μLのQ5(登録商標)高忠実度DNAポリメラーゼ反応液(NEB(登録商標)M0491)中で、SCP-GFPカセットの場合は、プライマーNJ-95およびNJ-145を使用して、ベクター骨格の場合は、NJ-146およびNJ-96を用いて、62℃のアニーリング温度および2分間の伸長を使用して増幅した。NJ145およびNJ146の5’末端にある6個のホスホロチオエート化塩基の配列は、その後のGIBSON ASSEMBLY(登録商標)中のプライマー部位喪失を防止する。
ゲノムインサート調製:200μLの水中にてQSONICA(登録商標)Q125を20%アンペア数で用いて15秒パルス/10秒休止の3サイクルで、20マイクログラムのNG16408ゲノムDNA(Coriell Institute)をランダムに断片化した。Zymo-25カラム(Zymo Research)を使用してDNAをカラムクリーンアップし、約800bp断片を1.2%アガロースゲルでサイズ選択した。ゲル精製したgDNAの部分を、2%アガロースE-ゲル(THERMOFISHER(登録商標)G501802)でサイズ確認した。残りの精製断片を、1×THERMOPOL(登録商標)緩衝液、100μM dNTP、1×NAD+、および0.5μLのPreCR酵素を含有する25μLのPreCR反応液(NEB(登録商標)M0309)中で30分間37℃にて修復した。Zymo-6カラムを使用してPreCR処理断片をカラム精製し、32.5μL反応液中でEnd Repair/dA Tailing Module(NEB(登録商標)E7370)を用いて処理し、続いて、TA Ligation Module(NEB E7370)の41μL反応液中にて、アニーリングされたAD4融合アダプターの10:1アダプター対インサートモル比で処理した。未ライゲーションアダプターおよびゲノムインサートを、CutSmart緩衝液で1×に追加補充した50μL反応液中で、各々20UのエキソヌクレアーゼI(NEB M0293)およびエキソヌクレアーゼIII(NEB(登録商標)M0206)を用いて除去した。ライゲート物をカラムクリーンアップし(Zymo-6)、次いで1×THERMOPOL(登録商標)緩衝液の30μL反応液中にて15UのRNaseHII(NEB(登録商標)M0288)を用いて37℃で90分間線状化した。また、RNase HIIは、AD4アダプターのコンカテマーを約60bp単位に切断する。それらは、その後の磁気ビーズ精製で除去することができる。線状化インサートを、17%PEG8000および10mM MgCl2の最終濃度に追加補充された20μLのAXYGEN(登録商標)磁気ビーズ(AXYGEN(登録商標))を使用して精製し、続いて70%エタノールで3回洗浄し、30μLの水で溶出した。
短鎖ランダムオリゴマーからの長鎖ランダムDNA配列の段階的合成:多数の長鎖ランダムDNA配列のde novo合成は依然として困難であるため、一部の例では、長鎖ランダムDNA配列のプールを、市販の短鎖ランダム一本鎖DNAから生成した(ssDNA;図13)。第1に、2μgのssDNAを、ポリヌクレオチドキナーゼを使用してリン酸化し、続いてランダムヘキサマー、dNTP、およびクレノウ酵素により二本鎖DNA(dsDNA)へと変換した。並行して、1μgのリン酸化されていないssDNAを、ランダムヘキサマー、dNTP、およびクレノウ酵素を使用してdsDNAへと変換した。第2に、1×T4 DNAリガーゼ緩衝液に200ngのリン酸化されていないdsDNAおよびT4 DNAリガーゼを有する反応チューブを調製した。リン酸化されていないdsDNAを、リン酸化dsDNAにライゲートした。第3に、ライゲーションを開始するため、50ngのリン酸化dsDNA(または約1/4などの、リン酸化されていないDNAの一部分)をライゲーション反応チューブに添加した。反応液中に過剰量のリン酸化されていないDNAが存在したため、ほとんどのリン酸化DNAは、リン酸化されていないDNAにライゲートした。リン酸化されていないDNAの各分子は、最大で2分子のリン酸化DNAを受け入れることができる(各末端に1分子)。ライゲーション産物は、リン酸化されていない5’末端を含む。ライゲーションプロセスを少なくとも1サイクル繰り返した(例えば、少なくとも約1、2、3、4、5、6、7、8、9、10、12、15、18、20、25、30、45、50、60、75、90、もしくは100サイクル、または約1~5、1~10、1~15、1~20、5~20、10~25、25~50、もしくは50~100サイクル、または約16サイクル)。サイクル数(X)は、≧2×L/Iであることが予想され、式中、LおよびIはそれぞれ、生成されるランダムDNAの所望の長さおよび出発核酸の長さである。例えば、約800bp長のDNA分子のプールを100bp長の核酸で合成するには、Xは約≧16でなければならない。第4に、ライゲーション産物のニックを、DNA修復酵素(NEB(登録商標)PreCR Repair Mix、カタログ番号M0309S)で修復した。第5に、所望の長さのDNA分子を、ゲルに基づくまたはビーズに基づくサイズ選択で富化した。溶出したDNAは、この時点で、GRAMcライブラリー構築または他の適用に使用する準備ができた。本発明者らは、この方法を使用して、約800bp長のおよそ1M個のランダムDNA配列を含有するGRAMcライブラリーを生成した。
ゲノムカバレッジ推定:1Xゲノムカバレッジを表わす、アダプターライゲートインサートの量を決定するため、0.5ng/μl、0.25ng/μl、0.1ng/μl、0.05ng/μl、および0.025ng/μLのインサートの希釈物を調製した。各希釈物を、2つのアダプター特異的プライマー、NJ-213およびNJ-214を用いて、サイクル試験で決定されたように61℃でのアニーリングおよび1分間の伸長で増幅した。Q5(登録商標)高忠実度DNAポリメラーゼキット(NEB(登録商標)M0491)を使用した。アンプリコンをAXYGEN(登録商標)でクリーンアップした。1ウェル当たり8ナノグラムの各増幅希釈物およびNG16408ストックDNAを、以下の単一コピー標的:ACTA1、ADM、ADAM12、AXL、CFB、DLX5、Kiss1、NCOA6、Notch2、RPP30、およびTOP1に対するQPCRのために使用した。各希釈試料について、ストックゲノムDNAと比較してdCT>5の標的を非存在として計数した。
ライブラリーに存在するゲノム領域のポアソン確率(P)は、P=1-(1-p)XNとして与えられる(p=(インサートサイズ)/(ゲノムサイズ)、N=所与のインサートサイズのゲノムのパーティション数、およびX=意図されているゲノムカバレッジ)。QPCRにより存在すると同定された標的の割合をPの値と比較した。このモデルに基づくと、ゲノムカバレッジが約1Xの試料のPは、約0.6だった。0.1ng/μLの希釈物を試験したところ、11個の標的のうちの6つが陽性であり、すなわち0.545の割合で陽性であり、これは、カバレッジが0.5X~1Xであることを表す。したがって、0.2ngのインサートが、約1Xのゲノムカバレッジを表すと決定した。等モル量の独立して増幅された複製物を混合して、5Xのゲノムカバレッジのインサートのプールを得た。
GRAMcライブラリーのインサートクローニングおよびN25バーコード化:30ナノグラムの5Xゲノムインサートを、16μLのNEBUILDER(登録商標)HiFiアセンブリ反応液(NEB(登録商標)E2621)中で、1:1:1モル比の2片の線状化GRAMcベクター、SCP-GFP、および骨格カセットに50℃で20分間クローニングした。アセンブリされた線状DNAをカラム精製し、20μLの水に溶出した。バーコード化用のアセンブリされたライブラリーを調製するため、8ngの精製アセンブリの4つの複製物を、62℃のアニーリング温度および5分間の伸長時間を使用し、プライマーNJ-101およびNJ-126を用いて、サイクル試験で決定されたように9サイクルのPCRで増幅した。複製物を合わせて、カラムクリーンアップした。
GFP ORFの下流にN25バーコードを付加するため、150ngのライブラリーを、50μLのQ5高忠実度DNAポリメラーゼ反応液中で60℃のアニーリング温度で40秒間および15分間の伸長時間を用いた、ランダム25bpバーコード配列、コアポリ(A)シグナル(Nag, et al. RNA 12.8 (2006): 1534-1544)、および5’ビオチン化を含有するNJ-127による単一サイクルのPCRに使用した。NJ-126をPCRにおける競合物質として使用して、対向鎖の占有および伸長による鋳型乗換えの可能性を低減させた。50μLのビーズおよび20μL水溶出を記載のように使用して、AXYGEN(登録商標)ビーズ精製によりプライマーを除去した。製造業者のプロトコールに従ってビーズを準備、結合、および洗浄して、20μLのDYNABEADS(登録商標)MyOne C1ビーズ(INVITROGEN(登録商標)65001)を使用して、バーコード化ライブラリーを単離した。
単離後、C1ビーズを20μLの水で洗浄し、次いで50μLの水に再懸濁した。バーコード化ライブラリーの半分を、24×20μL複製Q5(登録商標)高忠実度DNAポリメラーゼ反応液中で、NJ-128およびNJ-129、61℃のアニーリング、ならびに5分間の伸長を用いて、サイクル試験で決定されたように9サイクルで増幅した。複製物を合わせて、AXYGEN(登録商標)ビーズでクリーンアップし、次いでゲル精製し(Zymo Research)、追加のAXYGEN(登録商標)ビーズクリーンアップを行った。
次いで、バーコード化GRAMcライブラリーをセルフライゲーションさせた。分子間ライゲーションを低減するため、125ngのバーコード化ライブラリーを、600μLの1×T4 リガーゼ緩衝液(NEB(登録商標)B0202)中で14,000Uの高濃度T4 DNAリガーゼ(NEB(登録商標)M0202T)を用いて20℃で4時間ライゲートした。ライゲーション産物を、67μLのラムダエキソヌクレアーゼ緩衝液、ならびに各々30UのエキソヌクレアーゼI(NEB(登録商標)M0293)およびラムダエキソヌクレアーゼ(NEB(登録商標)M0262S)で1時間37℃にて追加補充し、次いで、1μLのプロテイナーゼK(THERMOFISHER(登録商標))で15分間37℃にてスパイクした。プロテイナーゼK処理は、ライゲーションミックスの粘性を低減させ、DNA収量をほぼ2倍増加させる。ライブラリーを、15%PEG8000および10mM MgCl2の最終濃度に追加補充された25μLの磁気ビーズ(AXYGEN(登録商標))を用いて精製し、続いて70%エタノールで4回洗浄し、6.5μLの水に溶出した。このプロセスの産物は、環状化GRAMcライブラリーの純粋な集団である。
GRAMcライブラリーの形質転換およびサイズ推定:エレクトロポレーションの規模を決定するため、1μlのライゲーション産物を、25μLのELECTROMAX(登録商標)DH10B(登録商標)コンピテント細胞(THERMOFISHER(登録商標)18290015)にエレクトロポレーションした。形質転換体を、直ちに1mlの予め温めたSOC培地に再懸濁し、形質転換体の1/500を、10倍段階希釈に使用し、回復させずにプレーティングして、プール全体のコロニー数を推定した。この試験に基づいて、目標コロニー数に到達するための形質転換の規模を決定する。4~10ngのライゲーション産物のエレクトロポレーションは、約40M個のコロニーを生成する。
200M個のコロニー標的を有する完全なGRAMcライブラリーを生成するため、2×25μLのELECTROMAX(登録商標)DH10B(登録商標)コンピテント細胞の各々当たり30ngのライブラリーライゲート物(12ng/μL)を使用して二連のエレクトロポレーションステップを実施した。エレクトロポレーション直後に、各複製物を1mlのSOC培地に再懸濁し、次いで複製物を合わせた。GRAMcライブラリーのサイズを推定するため、形質転換体の1/2000を、10倍段階希釈に使用し、回復させずにプレーティングした。残りの形質転換体を直ちに使用して180mlのLBに接種し、20分間の回復後、それに100μg/mlのアンピシリンを添加し、続いて一晩培養した。ZYMOPURE(登録商標)IIプラスミドMaxiprepキット(Zymo Research)を使用して、プラスミドライブラリーを調製した。以降、このライブラリーを、Hs800_GRAMcライブラリーと呼ぶ。
品質管理ステップとして、プレートから12個のコロニーを選択し、プラスミドを抽出して、サンガー配列決定を使用してインサートサイズおよびバーコードを調べた。各コロニーのプラスミドには、インサート(約800bp)およびバーコードが含有されているはずである。ライゲーション産物が高度なバーコード多様性を含む場合、コロニーから同定されたバーコード配列は、最終ライブラリーには存在しないはずである。使用したGRAMcベクターおよびオリゴマーの配列例は、表3に示されている。
ILLUMINA(登録商標)ペアエンド配列決定によるGRAMcライブラリー特徴付け
配列決定ライブラリー:個々のレポーター構築物のインサートおよび関連バーコードを同定するため、NextSeq500プラットフォームでのペアエンド配列決定を使用した。ILLUMINA(登録商標)プラットフォームでのHs800_GRAMcライブラリーの配列決定は、2つの理由で問題だった:i)レポーター構築物の長さがペアエンド配列決定には長すぎること、およびii)アダプター配列には多様性が欠如しているため、ILLUMINA(登録商標)プラットフォームとは適合しないこと。長さの問題を解決するため、インバースPCRおよびセルフライゲーションでSCP-GFP領域またはベクター骨格のいずれかを欠失させることによりインサートとN25バーコードとをより近づけることにより、構築物の長さを低減させた。配列多様性が低いという問題を解決するため、一組の位相化プライマー(Wu, et al. BMC microbiology 15.1 (2015): 125)を使用して、配列多様性を人為的に増加させた。SCP-GFP領域またはベクター骨格のいずれかを欠く配列決定ライブラリーの2つの異なる集団の生成も、アダプター領域における配列多様性を増加させる(図8)。
この例では、配列決定ライブラリーの構築は、ベクター骨格またはGFP ORFのいずれかに対するsgRNAを使用して、500ngのmaxi調製したプラスミドを、Cas9(NEB(登録商標)M0386)で切断することから始まる。両sgRNAは、ヒトゲノムに7つのオフターゲット部位を有することが予想された(crispr.mit.edu)。プライマー対、NJ-179/NJ-183およびNJ-180/NJ-183を使用して、それぞれ骨格およびGFPを標的とするsgRNAのin vitro転写のための鋳型を産生した。プライマー配列は表3に示されている。CRISPR切断プラスミドライブラリーを、等モル量の未切断プラスミドライブラリーと混合した。NJ-209およびNJ-141(「Hs800_23」と表記)を使用して5ngのGFP切断線状ライブラリー混合物のインバースPCRを実施し、SCP-GFP領域を除去した。NJ-208およびNJ-142(「Hs800_14」と表記)を使用して、5ngの骨格切断線状ライブラリー混合物のインバースPCRを実施して、ベクター骨格を除去した。PCRにはQ5(登録商標)高忠実度DNAポリメラーゼ(NEB(登録商標))を使用した。鋳型/プライマー対ごとに合計で20個の複製物を調製した。それぞれの複製物を合わせ、カラム濃縮し、ゲル単離し、AXYGEN(登録商標)ビーズでクリーンアップした。それぞれの増幅物を、350μLの1×T4 DNAリガーゼ緩衝液中75ngの濃度で3μLの濃縮T4リガーゼにより20℃にて一晩セルフライゲーションさせ、各々20UのエキソヌクレアーゼIおよびエキソヌクレアーゼIIIで1時間37℃にて追加補充し、続いてプロテイナーゼKと共に37℃で10分間インキュベートした。ライゲート物を、AXYGEN(登録商標)ビーズでクリーンアップし、30μLの水に溶出した。
インサート::N25カセットを増幅するため、環状化された第1ラウンドPCR産物から、2ngのHs800_14ライゲート物を含有する4つの複製物を、NJ-209およびNJ141を使用して増幅し(以降、Hs800_1423と表記)、2ngのHs800_23ライゲート物を含有する4つの複製物をNJ-208およびNJ142を使用し、60℃のアニーリング温度および90秒の伸長時間の合計8サイクルを用いて増幅した(以降、Hs800_2314と表記)。その後PCR増幅してILLUMINA(登録商標)配列決定用のPEアダプター配列を付加するために、産物をカラムでクリーンアップし、ゲル単離し、ビーズでクリーンアップした。
ILLUMINA(登録商標)プラットフォームで配列決定するためにHs800_1423およびHs800_2314配列決定ライブラリーの多様性を増加させるため、各ライブラリー(Hs800_1423およびHs800_2314)を、7つの異なる位相化PE1含有プライマーを使用して増幅した。Hs800_1423ライブラリーの場合、2ngの鋳型を、各々別々の反応ごとに、PE2含有プライマーNJ-401、ならびに以下の部分的PE1含有プライマー:NJ-400、NJ-504、NJ-505、NJ-506、NJ-507、NJ-508、およびNJ-509の各々と共に、60℃のアニーリング温度および90秒の伸長時間の合計7サイクルで使用した。Hs800_2314ライブラリーの場合、2ngの鋳型を、各々別々の反応ごとに、PE2含有プライマーNJ-403、ならびに以下の部分的PE1含有プライマー:NJ-402、NJ-498、NJ-499、NJ-500、NJ-501、NJ-502、およびNJ-503の各々と共に、60℃のアニーリング温度および90秒の伸長時間の合計7サイクルで使用した。位相化PE1プライマーをPCR増幅前にプールして、手順を簡略化にすることができる。個々の増幅物を、カラムでクリーンアップし、ゲル単離し、AXYGEN(登録商標)ビーズでクリーンアップした。7つの位相化Hs800_1423ライブラリーの各々を、NJ-497およびNJ-401を使用して増幅し、PE1アダプター配列を完成させた。7つの位相化Hs800_2314ライブラリーの各々を、NJ-497およびNJ-403を使用して増幅し、PE1アダプター配列を完成させた。各増幅物について、2ngの対応するライブラリー鋳型を、60℃のアニーリング温度および90秒の伸長時間の6サイクルのPCRで増幅した。ライブラリーを再び精製し、ゲル単離し、AXYGEN(登録商標)ビーズでクリーンアップした。等モル量の14個の位相化ライブラリー(各方向から7つ)を、90%の配列決定プール+10%のPhiX対照と組み合わせて、ペアエンド配列決定に使用した。プライマーの配列は、表3に示されている。
インサートおよびバーコードからのアダプター配列のトリミング:インサートの5’末端および3’末端ならびにその関連N25バーコードを、各対の配列リードから抽出した。Trimmomatic(Bolger, et al. Bioinformatics 30.15 (2014): 2114-2120)を使用してアダプター配列を除去し、seqtk(github.com)を使用して相補配列を逆転させた。インサートの5’末端および3’末端を抽出するため、それぞれP1アダプターおよびP2アダプターをトリミングした。N25バーコードを抽出するため、配列リードの配向に応じて、まずP3アダプターまたはP4アダプターをトリミングし、トリミングした配列を逆相補化し、P4アダプターまたはP3アダプターをトリミングした。任意のアダプター配列のトリミングに失敗したペアエンドリードを破棄した。N25バーコード配列の場合、各アダプターからの1bpが保持され、27bpリードがもたらされることに留意されたい。トリミングに使用されるアダプター配列は、表3に示されている。
ヒトゲノムにおける配列リードのマッピングおよびインサートの同定:インサートを同定するため、インサートの抽出した5’末端および3’末端をGRCh38/hg38アセンブリに対してマッピングした(genome.ucsc.eduからダウンロード)。Burrows-Wheelerアランメントツール(BWA)(Li, et al. Bioinformatics 25.14 (2009): 1754-1760)を使用して、以下のコマンド「bwa mem -W1500」で配列をマッピングした。>1,500bpまたは<300bpにわたるマッピングされたリード対を破棄した。2つのマッピングされたインサートが重複し、それらの中間点が20bp範囲内にあり、両末端が50bp範囲内にある場合、それらを組み合わせて1つのインサートにして、その長さを最大化する座標をとる。
N25バーコードのクラスタリング:同じバーコードからのリードを同定するため、抽出したバーコードリードを、以下の手順に基づいてクラスター化した。i)Khmerソフトウェアパッケージ(Crusoe, et al. F1000 Research 4 (2015))を使用してコマンド「normalize-by-median.py -C1 -k 25 -N 5-x 2.5e9」により冗長リードをフィルタリングすることにより代表的リードを生成し;ii)バーコードリードのセット全体を、BWAソフトウェア(Li, et al. Bioinformatics 25.14 (2009): 1754-1760)を使用してコマンド「bwa aln -n 2 -o 2 -e -1 -M 3 -O 11 -E 8 -k 1 -l 6」で、代表的リードに対して比較した。代表的リードのいずれとも一致しなかったバーコードリードを、代表的リードファイルに追加し、BWA検索を繰り返した。同じバーコードのリードを、シングルリンケージクラスタリング(single-linkage-clustering)で同定し、固有バーコードクラスター(bcl)番号を各クラスターに割り当てた。将来の使用のために、bcl番号を有する代表的リードの新しいファイルを生成した(下記を参照、HepG2でのGRAMcアッセイ:バーコードリードとバーコードクラスターとの比較)。
ゲノムインサートとバーコードクラスター(bcl)との関連付け:各バーコードリードは、ペアエンドリードのインサートに由来するリードと本来的に接続されているが、bclの少数部分は、同定されたゲノムインサートの1つよりも多くに関連付けられていた。この多義性が生じる主な理由は、ゲノムには非常に類似した重複領域があるためである。bclの割り当ては、そのbclについて最も多くのリードを有していたインサートに対してなされるように強制した。≧2個のインサートが、あるbclについて同数のリードを有していた場合、そのbclはどのインサートにも割り当てなかった。
HepG2でのGRAMcアッセイ
細胞培養:HepG2細胞(ATCC HB-8065)を、10%ウシ胎児血清で追加補充されたEMEMの供給業者の推奨条件下で抗生物質を用いずに成長させた。すべての実験で、HepG2細胞は、受領から16継代以内に使用した。実験はすべて、解凍してから最低でも5継代を経た細胞で実施した。それは、<5継代の細胞でのレポーター発現が、≧5継代の細胞と比べて異なっていたからである。
細胞培養:HepG2細胞(ATCC HB-8065)を、10%ウシ胎児血清で追加補充されたEMEMの供給業者の推奨条件下で抗生物質を用いずに成長させた。すべての実験で、HepG2細胞は、受領から16継代以内に使用した。実験はすべて、解凍してから最低でも5継代を経た細胞で実施した。それは、<5継代の細胞でのレポーター発現が、≧5継代の細胞と比べて異なっていたからである。
ゲノムスケールトランスフェクションおよびライセート収集:各ゲノムスケールトランスフェクションバッチについて、107個の細胞を、10×150mm培養皿の各々の30ml培地に播種し(100M個の細胞)、30時間にわたって付着させた。100μgのHs800_GRAMcライブラリーを、2×2mLシリコン処理チューブに調製した4mlのOPTI-MEM(登録商標)(THERMOFISHER(登録商標))中で、100μLのHepG2用DNA-IN(登録商標)試薬(MTI-Globalstem)を使用し、製造業者のプロトコールに従って細胞にトランスフェクトした。合計10組の10×150mm皿を使用して、1バッチ当たり約200M個の細胞を収集した。
収集のため、トランスフェクション後、細胞を、1×PBSで26時間洗浄し、1プレート当たり2.4mLのRNA-STAT-60(AMSBIO(登録商標))中で擦過して収集した。ライセートを合わせて、製造業者のプロトコールに従って、2回目の70%エタノール洗浄を追加して調製した。
RNA調製およびcDNA合成:このプロトコールでは、2つのパラメーターに着目した:i)RNA試料中の夾雑DNAを徹底的に除去すること、ii)大量(約4mg)の全RNAを用いた逆転写(RT)の効率を最大化すること。DNase Iは一本鎖DNAに対しての効率がより低いため、DNase Iを、エキソヌクレアーゼIおよびIIIのカクテルで追加補充することにより、二本鎖および一本鎖両方の夾雑DNAを徹底的に除去する。RT反応のcDNA収量を損なわずに、RTをコスト効率よく最大化するため、製造業者が推奨する最大入力RNAよりも15倍多くのRNAを使用した。この手順の概略図は、図9に示されている。
夾雑DNAを除去するため、単離した全RNA(約4mg)を1.7mLの無ヌクレアーゼ水に再懸濁し、1×DNase I緩衝液、100UのDNase I(NEB(登録商標)M0303)、および各々900UのエキソヌクレアーゼI(ExoI)およびエキソヌクレアーゼIII(ExoIII)を含有する2mL反応液中にて最低でも4時間37℃で消化した。DNA除去の進行は、GFP ORF(NJ-443およびNJ-444)に対するQPCRによりモニターした。この品質管理ステップでは、RNAの希釈試料を80℃で20分間熱不活化し、等体積の約1000細胞/ウェルで負荷した。必要に応じて、QPCR Ct値が30よりも大きくなるまで、DNase消化を一晩進行させた。消化した後、フェノール:クロロホルム:イソアミルアルコール(25:24:1)での抽出によりヌクレアーゼを除去し、-20℃で一晩エタノール沈殿させ、続いて75%エタノールで2回洗浄した。RNAを、1mLの無RNase水に再懸濁した。
逆転写(RT)の品質管理として、約4000個の細胞(約1μg)を含有する等体積の全RNAを、製造業者のプロトコールに従ってHigh Capacity cDNA逆転写キット(APPLIED BIOSYSTEMS(登録商標)4368813)を使用し、5pmolのGRAMcライブラリー特異的RTオリゴ(NJ-489)を添加してcDNA合成に使用し、転写産物からの最大cDNA合成の基準として使用した。
残りの全RNA(約4mg)を1.420mLに希釈し、2000pmolのGRAMc_RT_oligo(NJ-489)を添加した。RNA/プライマー混合物を65℃で1分間インキュベートし、氷上で冷却した後、ランダムオリゴマーは使用せずに、200μLの10×High Capacity緩衝液、80μLの10mM dNTP、および100μLのMultiscribeを添加した。反応液を室温で10分間、次いで37℃で4時間インキュベートした。ゲノムスケールcDNA合成の進行は、等体積の100細胞/ウェルを使用した基準RT対照と比較して、GFPに対するQPCRによりモニターした。Ct値が基準RT反応と同様になるまで反応を進行させた。必要に応じて、反応液を、M-MuLV逆転写酵素(NEB(登録商標)M0253)および追加のdNTPでスパイクし、一晩進行させた。
RT反応が完了したら、試料をエタノール沈殿して体積を低減した。RNA/cDNAを再懸濁し、1×NEBUFFER(登録商標)3を有する500μL反応液中にて1000UのRNase If(NEB(登録商標)M0243)により一晩37℃で消化した。過剰なタンパク質を除去するために、1μLのプロテイナーゼK溶液を反応液に添加し、37℃で15分間インキュベートした。cDNAを、担体としてのグリコーゲンと共に-20℃で一晩エタノール沈殿させ、80%エタノールで3回洗浄した。cDNAペレットを200μLの水に再懸濁し、10分間95℃に加熱して、残留プロテイナーゼKを破壊した。cDNAライブラリーの試料を、QPCRによる品質管理に供した。
NGSのための発現N25バーコードの調製:発現N25のプール全体を、50μlのQ5(登録商標)PCR反応液の8つの複製物中でプライマーNJ-141およびNJ-142を使用し、62℃のアニーリング温度および1分の伸長時間の合計8サイクルを使用して増幅した。複製物をバッチごとに合わせた。各バッチの50μLアリコートを以下のように処理した:不要な長鎖DNAを、0.5×体積のAXYGEN(登録商標)ビーズを使用して室温で20分間にわたって結合させた。上清に由来する所望の短鎖アンプリコン(65bp)を、二連のZymoカラムを使用して各バッチごとにさらに精製し、各々を20μLの水に溶出した。発現バーコードを配列決定するためのアンプリコンを調製するため、2ngの第1ラウンド増幅およびクリーンアップされたN25バーコードを、NJ-141およびNJ-142を用いた別の9サイクルの増幅に供した。入力ライブラリーを配列決定するためのアンプリコンを調製するため、2ngの入力ライブラリーを、未切断/CRISPR骨格-切断/CRISPR GFP-切断プラスミドライブラリー鋳型の混合物から、NJ-141プライマーおよびNJ-142プライマーを使用して9サイクルのPCRで増幅した。
IONTORRENT(登録商標)Proton配列決定(バッチ1:NJ197およびNJ-523;バッチ2:NJ-198およびNJ-523)およびILLUMINA(登録商標)NextSeq500配列決定(NJ-400/NJ-504/NJ-505/NJ-506/NJ-507/NJ-508/NJ-509とNJ364とを使用した、またはNJ-402/NJ-498/NJ-499/NJ-500/NJ-501/NJ-502/NJ-503とNJ-399とを使用した14個の位相化ライブラリー)の両方のために、配列決定ライブラリーを調製した。これらの増幅はすべて、65℃のアニーリング温度と20秒の伸長時間を合計6サイクルで使用した。プライマーの配列は、表3に示されている。
バーコードリードとバーコードクラスター(bcl)との比較:このステップの目標は、発現バーコードまたは各バーコードクラスター(bcl)の入力ライブラリーのいずれかに由来するバーコードリードの数を計数することである。アダプタートリミングバーコードリードを、上記と同じコマンドを用いたBWA検索を使用して、上記で確立された代表的バーコードリードと比較した。バーコードリードが1つよりも多くのbclと一致した場合、各一致を、対応するbclに計数した。発現バーコードおよび入力ライブラリーの両方に対して同じ手順を適用したため、バーコードリードの複数計数の影響は中和される。
CRM活性の算出:このステップでは、発現バーコードおよび入力ライブラリーから計数される各bclのリード数に基づき、各インサートのシス調節活性が算出される。インサートが≧2つのbcl(インサートの99%)に関連付けられる場合、このインサートのすべてのbclのリード計数を合わせた。まず、入力計数が少な過ぎることによる偽陽性CRMを回避するため、入力ライブラリーからの≧10計数のインサートまたは実験の両バッチについて≧50計数の発現バーコードを保持した。このフィルタリングの結果、保持基準を満たす9,339,996個のインサートがもたらされた。次に、発現バーコードのリード計数を入力ライブラリーのリード計数で除算し、得られた数値を順位付けた。データの中央30%を使用して、バックグラウンド活性(bg)を算出した(例えば、26)。さらに、CRM活性をバックグラウンド活性に対して正規化した。少なくとも1つのバッチが≧5×bgを示し、別のバッチが≧4.5×bg(5×bgの90%)を示した場合、インサートをCRMとみなした。基準に合格した合計54,115個のインサートが同定された。ゲノムの他の部分に≧95%同一配列を有するインサートを除去し、重複するCRMをマージした後、最終セットには、41,216個の固有非重複CRMが含有されていた。図2Aには散布図が示されている。この散布図は、500,000個のランダム選択インサートを使用し、Rパッケージ(cran.r-project.org)のggplot2(Wickham. ggplot2: Elegant Graphics for Data Analysis, Springer-Verlag New York, 2009)を使用して作成した。
CRMのゲノム分布
CRMおよび遺伝子のゲノム位置を比較するため、ftp.ensembl.orgから公的に入手可能な遺伝子注釈ファイル「GRCh38.89.gff3」、ならびにencodeproject.orgからのHepG2細胞のRNA-seqデータ「ENCFF861GCRおよびENCFF640ZBJ」を使用した。両方のRNA-seqデータにおいてFPKM≧1を有する遺伝子は、「発現される」とみなした。図2Cおよび図10A~10Fに示されているマップを作成するため、RのGrid Graphicsパッケージ(Murrell. R graphics. CRC Press, 2016)を、1Mbのビンサイズで使用した。
CRMおよび遺伝子のゲノム位置を比較するため、ftp.ensembl.orgから公的に入手可能な遺伝子注釈ファイル「GRCh38.89.gff3」、ならびにencodeproject.orgからのHepG2細胞のRNA-seqデータ「ENCFF861GCRおよびENCFF640ZBJ」を使用した。両方のRNA-seqデータにおいてFPKM≧1を有する遺伝子は、「発現される」とみなした。図2Cおよび図10A~10Fに示されているマップを作成するため、RのGrid Graphicsパッケージ(Murrell. R graphics. CRC Press, 2016)を、1Mbのビンサイズで使用した。
遺伝子に関するゲノム領域におけるCRMの富化を算出するため(図2D)、2kbよりも大きなウインドウにわたるインサート/CRMを、インサートと最も重複するウインドウに割り当てた。遺伝子の5’末端および3’末端のゲノム座標を、GRCh38.89.gff3ファイルから抽出した。インサート/CRMは、遺伝子ごとに1回のみ計数したが、異なる遺伝子については複数回の計数を可能にした。
検証のための1つずつのレポーターアッセイ
個々のレポーター構築物の製作:20個のゲノム領域(11個のCRM、5つのわずかに活性な領域、および4つの不活性領域)を、個々にPCRで増幅し、GIBSON ASSEMBLY(登録商標)(Gibson, et al. Methods in enzymology 498 (2011): 349-361)によって事前バーコード化SCP-GRAMcベクター(Guay, et al. Developmental biology 422.2 (2017): 92-104)にクローニングした。プライマーを使用して、ベクターに存在するアダプター配列と重複する隣接配列を含有するインサートを増幅した。各アセンブリは、2μLのNEBUILDER(登録商標)HiFiアセンブリ反応液を使用して実施した。アセンブリ反応液を使用して、Mix and Go DH10Bコンピテント細胞(Zymo Research T3019)を形質転換し、コロニーPCRにより陽性クローンを同定した。無エンドトキシンプラスミドを調製した(Zymo Research D4208T)。
個々のレポーター構築物の製作:20個のゲノム領域(11個のCRM、5つのわずかに活性な領域、および4つの不活性領域)を、個々にPCRで増幅し、GIBSON ASSEMBLY(登録商標)(Gibson, et al. Methods in enzymology 498 (2011): 349-361)によって事前バーコード化SCP-GRAMcベクター(Guay, et al. Developmental biology 422.2 (2017): 92-104)にクローニングした。プライマーを使用して、ベクターに存在するアダプター配列と重複する隣接配列を含有するインサートを増幅した。各アセンブリは、2μLのNEBUILDER(登録商標)HiFiアセンブリ反応液を使用して実施した。アセンブリ反応液を使用して、Mix and Go DH10Bコンピテント細胞(Zymo Research T3019)を形質転換し、コロニーPCRにより陽性クローンを同定した。無エンドトキシンプラスミドを調製した(Zymo Research D4208T)。
事前バーコード化SCP-GRAMcベクターをさらに使用して、個々のクローンのGFPレポーター発現のQPCRに使用するためのEGFP内部対照ベクターを生成した。このステップでは、NJ731およびNJ732を用いたインバースPCRによりベクターを増幅した。pEGFP-C1のEGFP ORFを、NJ729およびNJ730を使用して増幅し、NEBUILDER(登録商標)HiFiアセンブリマスターミックスを使用して、GIBSON ASSEMBLY(登録商標)を2:1の比で使用してSCP-GRAMcベクターへとアセンブリした。GRAMcベクターに使用されているGFP ORFは、一般的に使用されているEGFP ORFとは異なり、QPCRにより2つのGFPを差次的に検出することができる。プライマーの配列は、表3に示されている。
GRAMcの結果を検証するための個々のレポーターアッセイ:HepG2細胞を、24ウェルプレートの10%FBSで追加補充された500μLのEMEMに1ウェル当たり約60K個の細胞で播種した。ゲノムスケールアッセイとの一貫性のために、ATCCから受領してから12~15継代であり、回復後少なくとも7継代の細胞を使用した。細胞を、24時間付着させ、50μLのOPTI-MEM(登録商標)、200ngのGFPを含有する個々の試験プラスミド、200ngのSCP-EGFP対照ベクター、および1.2μLのDNA-IN(登録商標)試薬の混合物を用いてトランスフェクトした。26時間後(ゲノムスケールアッセイと一致する約80~85%コンフルエンシー)、細胞をDPBS中で2回洗浄し、300μLのDNA/RNA溶解緩衝液(ZymoResearch)に収集し、各試料のgDNAおよび全RNAを、製造業者のプロトコールに従って結合および洗浄を行い、ZymoIIカラムを使用して精製した。RNAを34μLの水に溶出した。各試料の全RNAの半分を、20μLのTurbo DNase反応液(THERMOFISHER(登録商標))中にて1時間37℃で処理した。2μLのDNase不活化試薬(THERMOFISHER(登録商標))で反応を停止させた。DNase処理RNAの半分を、追加の10pモルのGRAMc_RT_oligo(NJ-489)およびRNase阻害剤を有する20μLの1×High-Capacity cDNA合成反応液中で使用した。元の試料の1/40,000に相当する全gDNA、全RNA試料の1/40に相当する非RT対照、および元の試料の1/160に相当するcDNAでのGFPおよびEGFPに対してQPCRを実施した。個々の試験断片により駆動されるGFP発現を、内部対照(EGFP発現、NJ404/NJ405)に対して正規化した。QPCRプライマーの配列は、表3に示されている。
不活性インサートと比べた、CRMにおけるENCODE注釈の相対的富化
ENCODE ChIP-seqファイルを、encodeproject.orgから得た。CRMと個々のENCODEデータとの間の重複を、bedtools(Quinlan, et al. Bioinformatics 26.6 (2010): 841-842)を使用して、コマンド「bedtools jaccard -f 1E-09 -F 1E-09」で算出した。CRMにおけるENCODE注釈の相対的富化を、以下の手順で算出した。i)まず、CRMとENCODE注釈との間で重複する塩基対のゲノム割合を算出した。ii)2つのデータセットのゲノム割合を乗算することにより、ランダムに予想される重複を算出した。iii)i)の結果をii)の結果で除算して、富化を算出した。iv)同じ手順に従って、不活性領域(L1群)における同じENCODE注釈の富化を算出した。v)iiiおよびivの比をとることにより相対富化を算出した。
ENCODE ChIP-seqファイルを、encodeproject.orgから得た。CRMと個々のENCODEデータとの間の重複を、bedtools(Quinlan, et al. Bioinformatics 26.6 (2010): 841-842)を使用して、コマンド「bedtools jaccard -f 1E-09 -F 1E-09」で算出した。CRMにおけるENCODE注釈の相対的富化を、以下の手順で算出した。i)まず、CRMとENCODE注釈との間で重複する塩基対のゲノム割合を算出した。ii)2つのデータセットのゲノム割合を乗算することにより、ランダムに予想される重複を算出した。iii)i)の結果をii)の結果で除算して、富化を算出した。iv)同じ手順に従って、不活性領域(L1群)における同じENCODE注釈の富化を算出した。v)iiiおよびivの比をとることにより相対富化を算出した。
CRMにおけるモチーフ富化および予測された強力なエンハンサー
GRAMcインサートの選択:ChromHMM(Ernst, et al. Nature 473.7345 (2011): 43; Ernst, et al. Nature biotechnology 28.8 (2010): 817)により予測されるHepG2の強力なエンハンサーを、CRM活性およびモチーフ富化についてGRAMcデータと比較した。クロマチン状態のゲノム座標を、liftOver(Hinrichs, et al. Nucleic acids research 34. suppl_1 (2006): D590-D598)でhg38に変換した。まず、予測された強力なエンハンサーと長さが≧90%重複する非重複GRAMcインサートを、ランダムに選択した。この選択プロセスにより、予測された強力なエンハンサーに対応する18,898個のGRAMcインサートが得られた。このデータを利用して、図3Aを生成した。
GRAMcインサートの選択:ChromHMM(Ernst, et al. Nature 473.7345 (2011): 43; Ernst, et al. Nature biotechnology 28.8 (2010): 817)により予測されるHepG2の強力なエンハンサーを、CRM活性およびモチーフ富化についてGRAMcデータと比較した。クロマチン状態のゲノム座標を、liftOver(Hinrichs, et al. Nucleic acids research 34. suppl_1 (2006): D590-D598)でhg38に変換した。まず、予測された強力なエンハンサーと長さが≧90%重複する非重複GRAMcインサートを、ランダムに選択した。この選択プロセスにより、予測された強力なエンハンサーに対応する18,898個のGRAMcインサートが得られた。このデータを利用して、図3Aを生成した。
モチーフ富化を比較するため、予測されたエンハンサーを考慮せずに、別の18,898個の非重複GRAMc CRM(≧5×bgまたはG5)をランダムにサンプリングした。陰性対照として、37,796個の非重複不活性(≦1×bgまたはL1)インサートもサンプリングした。
モチーフ富化調査:推定転写因子結合部位(TFBS)モチーフを調査するため、サンプリングした75,592個のインサートを同時に分析した。HOCOMOCOv10データベース(Kulakovskiy, et al. Nucleic acids research 44. D1 (2015): D116-D125)およびFIMOソフトウェア(Cuellar-Partida, et al. Bioinformatics 28.1 (2011): 56-62;Bailey, et al. Nucleic acids research 37 (2009): W202-W208)を、1E-5のE値カットオフで使用した。各モチーフの存在量は、所与のセットごとの、モチーフ内包インサートの割合である。相対的モチーフ富化は、CRMにおけるモチーフまたは予測されたエンハンサーの存在量を陰性対照セットの同じモチーフの存在量で除算することにより算出した。
CRMにおけるモチーフの富化とChIP-seqピークとの比較:HOCOMOCOv10とENCODE ChIP-seqデータとの間で共通する58個の転写因子が名称により同定された。算出された相対富化スコアを使用して、図4Bを作成した。
CRMに対する遺伝子異所性発現の効果の測定
GRAMcライブラリーのランダムサブセットの調製:pitx2またはikzf1の異所性発現による摂動実験用のGRAMcライブラリーの小規模サブセットを得るため、約50μLの凍結グリセロールストックを、2mlのLB培地に希釈し、20分間37℃での250RPMのオービタル振盪で回復させた。一連の2倍希釈物を調製し、その1/100を、プレーティングおよびコロニー計数用の2つの10倍希釈物に使用し、各2倍希釈培養物の残りを使用して、150mlのLB-Amp培養物に播種し、一晩成長させた。約80,000個のコロニー(80Kライブラリー)を含有すると推定された培養物を、ZYMOPURE(登録商標)プラスミドMaxiprepキットを使用して処理した。
GRAMcライブラリーのランダムサブセットの調製:pitx2またはikzf1の異所性発現による摂動実験用のGRAMcライブラリーの小規模サブセットを得るため、約50μLの凍結グリセロールストックを、2mlのLB培地に希釈し、20分間37℃での250RPMのオービタル振盪で回復させた。一連の2倍希釈物を調製し、その1/100を、プレーティングおよびコロニー計数用の2つの10倍希釈物に使用し、各2倍希釈培養物の残りを使用して、150mlのLB-Amp培養物に播種し、一晩成長させた。約80,000個のコロニー(80Kライブラリー)を含有すると推定された培養物を、ZYMOPURE(登録商標)プラスミドMaxiprepキットを使用して処理した。
80K構築物ライブラリーの摂動アッセイ:3つの同時トランスフェクション:80Kライブラリー+CMV::pitx2(Genscript OHu17480D)、80Kライブラリー+CMV::IKZF1(Genscript OHu28016D)、および80Kライブラリー+CMV::EGFP(Clontech pEGFP-C1)の各々を用いて、細胞を10cm2プレート1つ当たり約2M個細胞の二連で播種してトランスフェクションした。トランスフェクション前に細胞を約24時間培養した。製造業者のプロトコールに従って調製した36μLのHepG2用DNA-IN(登録商標)試薬(MTI-Globalstem)および1.2mlのOPTI-MEM(登録商標)(THERMOFISHER(登録商標))を使用して、9μgの80Kライブラリーおよび3μgのそれぞれの発現ベクターを細胞に同時トランスフェクトした。
トランスフェクションの24時間後に、細胞を、トリプシン処理および1×DPBS洗浄により採取した。細胞の1/10部分を、ウエスタンブロット解析してPitx2およびIKZF1の発現を確認するために確保した。残りの細胞を溶解し、Zymo-Duetキットを使用してIIICGカラムにより、オンカラムDNase I処理は行わずにDNAおよびRNAを両方とも処理した。DNAを100μLに溶出し、RNAを80μLに溶出し、100μLの1×DNase I緩衝液の総反応体積中で最低でも4時間37℃にて、DNase I(8U)/ExoI(100U)/ExoIII(100U)で処理した。1試料当たり約10M個細胞であると仮定し、GFPによるQPCRを標的として使用して、約10,000個細胞のgDNAおよび約5000個細胞のヌクレアーゼ処理RNAの当量を試験し、それぞれトランスフェクションの品質およびRNA中のDNA除去の完了を確認した。必要に応じて、別の2UのDNase Iを反応液にスパイクした。Zymo-IIICカラムを使用してRNAをカラムクリーンアップし、50μLの水に溶出した。ゲノムスケールのプロトコールに記載のような標準的RT反応の品質管理の尺度として、約4000個細胞の当量を使用した。残りのRNAを、RTの2時間後の品質管理QPCRのために、8μLのMultiscribeおよび3.2μLのdNTPを使用したが、ランダムプライマーを使用しなかった80μLの1×High-Capacity cDNA合成反応液中にて、cDNA合成に使用した80pモルのGRAMc_RT_oligo(NJ-489)と共に、4時間から一晩37℃でインキュベートした。DNA消化が完了したら、4μLのNEBUFFER(登録商標)3および2μLのRNase Ifを反応液に添加して37℃にて2時間置き、次いでプロテイナーゼKをスパイクして37℃にて15分間置き、95℃で10分間熱不活化し、続いて一晩エタノール沈殿させ、30μLの水に再懸濁した。
N25バーコードを、上記に記載のように事前に増幅したが、6サイクルの、単一の50μL Q5(登録商標)高忠実度DNAポリメラーゼ反応を使用し、IONTORRENT(登録商標)Proton配列決定用のIXバーコード化を、以下のプライマー対を用いて使用した:対照-1の場合、NJ-197/NJ523;対照2の場合、NJ-198/NJ523;Pitx2-1の場合、NJ-200/NJ523;Pitx2-2の場合、NJ-132/NJ523;IKZF1-1の場合、NJ-133/NJ523;およびIKZF1-2の場合、NJ-134/NJ523。データ分析は上記に記載のように実施した。プライマーの配列は、表3に示されている。
ウエスタンブロットによる異所性転写因子発現の確認:各トランスフェクション条件(80Kライブラリー+CMV::pitx2、80Kライブラリー+CMV::IKZF1、および80Kライブラリー+CMV::EGFP)のアリコートを、1:100希釈のHaltプロテアーゼ阻害剤カクテル(THERMOFISHER(登録商標))をスパイクした80μLのRIPA緩衝液(150mM NaCl、1%NP40、0.5%デオキシコール酸ナトリウム、0.1%SDS、50mM Tris-HCl pH8.0、5mM EDTA)中で、断続的に軽くはじきながら氷上で30分間溶解した。ライセートを12,000RPMで10分間4℃にて遠心分離し、BCA試薬を使用して定量化した。
各試料のおよそ25ngを、二連のセット(発現および対照)で負荷し、12%ポリアクリルアミドゲルで分離し、PVDF膜に転写し、FLAG(1:500、Santa Cruz sc-166355)またはGAPDH(1:1000、Santa Cruz sc-25778)に対する抗体でブロットした。西洋ワサビペルオキシダーゼコンジュゲート二次抗体(1:5000)および高感度化学発光試薬(GE Healthcare)を使用して、Bio-Rad ChemiDoc MPシステムでバンドを検出した。
(実施例2)
この例には、GRAMcライブラリーの構築が記載されている。この例では、GRAMcライブラリーを、以下の手順で生成した(図1A~1D)。第1に、ランダムゲノムDNA断片をサイズ選択し、アダプターライゲートし、段階希釈して、意図されているゲノムカバレッジに到達させた(図1A)。アダプターライゲーションの正確度を向上させるため、アダプター(図6)を融合させて、非ライゲートDNAおよび線状連結体を含む線状DNAに対するエキソヌクレアーゼI/III処理に耐性であり得る環状ライゲーション産物を形成した。エキソヌクレアーゼで処理した後、環状ライゲーション産物を、融合アダプター内のリボヌクレオチド部位(UU/AA)を切断するRNase HIIで線状化した。次いで、線状化ライゲート物を段階希釈し、アダプター特異的プライマーを使用してPCR増幅した。意図されているゲノムカバレッジの希釈物を、QPCRで、11個のランダムに選択されたゲノム領域の有無を計数することにより同定した。約4M個のランダムにサンプリングされた約800bp長のゲノムDNA断片(平均で1×ゲノムカバレッジ)を含有する希釈物の場合、標的領域の予想存在率は0.6である。5×の希釈物(または任意の所望のゲノムカバレッジ)を、2つの一般的なDNA片と共にアセンブリし、ゲノム試験断片、基本プロモーター、GFP ORF(Arnone, et al. Development 124.22 (1997): 4649-4659)、およびベクター骨格を含有する線状DNA産物のライブラリーを形成した(図7)。ベクター系には、汎用左右相称スーパーコアプロモーター1(pan-bilaterian Super Core Promoter 1)(SCP)(Juven-Gershon, et al. Developmental biology 339.2 (2010): 225-229)を使用する。
この例には、GRAMcライブラリーの構築が記載されている。この例では、GRAMcライブラリーを、以下の手順で生成した(図1A~1D)。第1に、ランダムゲノムDNA断片をサイズ選択し、アダプターライゲートし、段階希釈して、意図されているゲノムカバレッジに到達させた(図1A)。アダプターライゲーションの正確度を向上させるため、アダプター(図6)を融合させて、非ライゲートDNAおよび線状連結体を含む線状DNAに対するエキソヌクレアーゼI/III処理に耐性であり得る環状ライゲーション産物を形成した。エキソヌクレアーゼで処理した後、環状ライゲーション産物を、融合アダプター内のリボヌクレオチド部位(UU/AA)を切断するRNase HIIで線状化した。次いで、線状化ライゲート物を段階希釈し、アダプター特異的プライマーを使用してPCR増幅した。意図されているゲノムカバレッジの希釈物を、QPCRで、11個のランダムに選択されたゲノム領域の有無を計数することにより同定した。約4M個のランダムにサンプリングされた約800bp長のゲノムDNA断片(平均で1×ゲノムカバレッジ)を含有する希釈物の場合、標的領域の予想存在率は0.6である。5×の希釈物(または任意の所望のゲノムカバレッジ)を、2つの一般的なDNA片と共にアセンブリし、ゲノム試験断片、基本プロモーター、GFP ORF(Arnone, et al. Development 124.22 (1997): 4649-4659)、およびベクター骨格を含有する線状DNA産物のライブラリーを形成した(図7)。ベクター系には、汎用左右相称スーパーコアプロモーター1(pan-bilaterian Super Core Promoter 1)(SCP)(Juven-Gershon, et al. Developmental biology 339.2 (2010): 225-229)を使用する。
第2に、得られたゲノムDNAライブラリーを、ベクター骨格を含むライブラリー全体を増幅することができる1対の共通プライマーを用いたPCRにより、過剰数のランダム25mer(N25)でバーコード化した(図1B)。共通プライマーの1つであるprimer_Rは、中央にランダムN25およびコア-ポリアデニル化シグナル(ポリA)を含有する(Nag, et al. RNA 12.8 (2006): 1534-1544)。バーコード化ライブラリーを自己ライゲートさせ、エキソヌクレアーゼI/IIIで処理し、ライブラリー増幅およびプラスミド抽出のために、E.coliへとエレクトロポレーションした。ごく一部の未回復形質転換体(例えば、1/1,000)を使用して、コロニー形成単位(cfu)を測定し、残りを、液体培養でのライブラリー増幅およびその後のプラスミド抽出に使用した。PCR媒介姓バーコード化は過剰なバーコードを導入するため、事実上すべての個々の形質転換体が固有バーコードを含有する。例えば、コロニー計数に使用した形質転換体に存在するバーコードは、最終ライブラリーでは同定されなかった。GRAMcライブラリーの固有バーコードレポーターの数は、エレクトロポレーションの規模により制御することができる。本明細書で使用されるプロトコールでは、約800bpのインサートを有する4~10ngの環状ライゲーション産物は、一貫して約40M cfuを生成した。これは、市販のコンピテント細胞の宣伝されている効率と同等である。採取した固有バーコードの数が固有インサートの数よりも大幅に大きい限り、最初のステップで決定されたライブラリーのゲノムカバレッジは維持される。精製したプラスミドを、ライブラリー特徴付けに使用した。ライブラリー特徴付けは、ILLUMINA(登録商標)ペアエンド配列決定(実施例1および図8を参照)により、ゲノムインサートならびにインサートおよびバーコードレポーターの対を同定することを含む。
この方法を使用して、約800bp長のインサートのヒトGRAMcライブラリーを生成した。このライブラリー中の固有ゲノムDNAインサートの意図されている数および固有バーコードの意図されている数は、それぞれ20M個(5×ゲノムカバレッジ)および200M個(10個バーコード/インサート)だった。hg38アセンブリにマッピングされた479.1M対の配列を分析したところ(519M個のペアエンドリードのうち)、15.6M個のゲノム領域が同定された。これらのゲノム領域に関連付けられた固有バーコードの総数は191M個だった。このライブラリーは、ヒトゲノムの93.4%を少なくとも1回はカバーしていた(表1)。
より多くの配列決定リードを得ればこれらの数は向上することになるが、これらの数は、ライブラリー中のインサートおよびバーコードの意図されている数に既に近い。検出された15.6M個のゲノム領域のうち、13.8M個のインサートは配列が固有だった(他のゲノム領域との配列同一性は<95%)。加えて、固有インサートのゲノム分布は、ある程度均一だった(図2C)。固有インサートの場合(図1C)、インサートの71%が750~850bpの範囲内にあった。これはサイズ選択が効果的であったことを示す。さらに、1インサート当たりのバーコード数を考慮すると(図1D)、大多数のインサートのバーコード数は、予想される数である10から著しく逸脱したが、固有インサート99%および55%は、それぞれ≧2個のバーコードおよび≧10個のバーコードに接続されていた。したがって、レポーター発現に対するバーコード特異的効果は、GRAMcライブラリーでは些細なものであった。インサートおよびそれらの関連バーコードのゲノム座標のリストは、図6に示されている。
(実施例3)
(実施例3)
この例では、HepG2細胞でのGRAMc適用が記載されている。GRAMcライブラリーを、播種時に100M個のHepG2細胞、またはトランスフェクション時に200M個の細胞の2つのバッチで試験した。比較として、以前のゲノムスケールエンハンサースクリーニングでは、300M個のLNCaP細胞(Liu, et al. Genome biology 18.1 (2017): 219)および800M個のHeLa細胞(Muerdter, et al. Nature methods 15.2 (2018): 141)を使用し、ゲノムスケールプロモータースクリーニングでは、100M個のK562細胞を使用した(van Arensbergen, et al. Nature biotechnology 35.2 (2017): 145)。GRAMcライブラリーを細胞にトランスフェクトした後、全RNAを抽出し、逆転写し、発現バーコードをPCR増幅した。mRNAの二次富化中にレポーター転写産物(Muerdter, et al. Nature methods 15.2 (2018): 141)またはレポーター転写産物(Tewhey, et al. Cell 165.6 (2016): 1519-1529)が失われることを回避するため、全RNAおよびGRAMc特異的オリゴマーを、逆転写に使用した。発現バーコードを、PCRで増幅し、レポーターの発現レベルを、ILLUMINA(登録商標)配列決定で測定した。RNAを配列決定ライブラリーへと処理するための概略図は、関連品質管理ステップと共に、図9に示されている。レポーター発現を、入力GRAMcライブラリー内のインサートの相対コピー数、および順位付けされたレポーター発現の中央30%の平均活性であるバックグラウンド活性に対して二重正規化した(Nam, et al. PNAS USA 107.8 (2010): 3930-3935)。このように測定されたバックグラウンド活性は、ウニ胚における公知の不活性断片の漏出活性と非常に類似している(Nam, et al. PNAS USA 107.8 (2010): 3930-3935, Guay, et al. Developmental biology 422.2 (2017): 92-104)。
発現バーコードの各バッチからおよそ200M個のリードを得た。バーコードの78~79%が、関連ゲノム領域を有するバーコードと一致した。コピー数の変動を説明するため、入力プラスミドからおよそ450M個のバーコードリードを得た。インサートの99%が≧2つのバーコードを駆動しているため、同じインサートの複数のバーコードのリード数を合わせた。入力プラスミドに由来する≧10個のリードを有するおよそ7.5M個のインサートを、データ分析に使用した。41,216個の非重複ゲノム領域に由来する合計50,993個のインサートは、2つの独立実験にて、バックグラウンド(bg)活性よりも≧5倍大きな活性(赤色ドット、≧5×bg)を表示した(図2A)。複製GRAMcデータは、0.95のピアソン相関係数(r)を示し、1つのバッチのCRMが別のバッチのCRMとみなされる確率は0.80だった(80%のCRM再現性)。カットオフをバックグラウンドの3倍に低下させると(橙色ドットおよび赤色ドット、≧3×bg)、活性領域の数は、150,011に増加した(62%のCRM再現性)。
GRAMcの正確度を検証するため、11個のCRM(≧5×bg、赤色ドット)、5つのわずかに活性な断片(3~5×bg、橙色ドット)、および4つの不活性断片(≦1×bg、黒色ドット)をランダムに選択し、それらの調節活性を、1つずつのレポーターアッセイで個々に試験した(図2B)。トランスフェクトされたDNAのコピーと比べたGFP転写産物のレベルを、QPCRで測定した。レポーター発現を、4つの不活性レポーター構築物の平均レベルであるバックグラウンド活性(bg)に対してさらに正規化した。4つの独立したアッセイの平均レベルは、個々のインサートに関して黒色バーで示されている。試験した11個のCRMのうち、8つのインサートは≧5×bgだったが、2つのインサートおよび1つのインサートは、それぞれ2.8×bgおよび1.9×bgだった。この結果は、GRAMcにおける80%CRM再現性と同等である(図2A)。5つのわずかに活性なインサートの場合、1つのインサートは10×bgであり、3つのインサートは、3~5×bgの予想範囲内であり、1つのインサートは、1.4×bgだった。全体として、GRAMcで測定されたシス調節活性は、独立したアッセイで再現可能だった(R2=0.83)。これらの結果は、GRAMcが、CRMをゲノムスケールで発見するための、信頼性が高く効率的なツールであることを示す。
(実施例4)
この例では、予想されるCRM特徴を保有するGRAMc同定CRMが記載されている。GRAMcは、レポーター構築物の標準構成に基づくため、GRAMc同定CRMは、従来のレポーターアッセイで同定されている公知のCRM特徴を保有するはずである。第1に、CRMは、主に、HepG2で発現された遺伝子付近に位置するはずである。HepG2で発現された遺伝子、CRM、および入力ライブラリーのゲノム位置を比較したところ、発現された遺伝子およびCRMは同様のパターンを有したが、入力ライブラリーは、おおよそ均一に分布していた(図2Cおよび図10A~10F)。
この例では、予想されるCRM特徴を保有するGRAMc同定CRMが記載されている。GRAMcは、レポーター構築物の標準構成に基づくため、GRAMc同定CRMは、従来のレポーターアッセイで同定されている公知のCRM特徴を保有するはずである。第1に、CRMは、主に、HepG2で発現された遺伝子付近に位置するはずである。HepG2で発現された遺伝子、CRM、および入力ライブラリーのゲノム位置を比較したところ、発現された遺伝子およびCRMは同様のパターンを有したが、入力ライブラリーは、おおよそ均一に分布していた(図2Cおよび図10A~10F)。
第2に、CRMは、遺伝子の5’近位に富化されていることが知られている(プロモーター)。しかしながら、大多数は、近位領域の外側に位置している(遠位エンハンサー)(26)。発現遺伝子の上流または下流の移動2kbウインドウ内にある試験したインサートの数についてCRMの割合を算出した場合、5’近位2kb領域は、最も高い富化(0.03)を示した(図2D)。3’近位2kb領域は、2番目に高いピークを示したが、遺伝子領域ではCRMはわずかに枯渇している。こうした領域変動にも関わらず、CRMは、ゲノム平均の0.0067と比較して、各方向の少なくとも100kb領域内の発現遺伝子周囲において一貫して富化されている。同様のパターンは、非発現遺伝子付近でも観察されたが、富化の度合いは、発現遺伝子付近よりも低かった。これらの結果は、GRAMcが、近位プロモーターおよび遠位エンハンサーを両方とも効率的に同定することができることを示す。
第3に、CRMは、CRM機能に肯定的な影響を及ぼす転写因子および他のタンパク質の結合に関連付けられることが予想される。不活性断片と比べたCRMにおける狭いピークの相対的富化(ランダム予想に対する共有総塩基対)を、HepG2に由来する167個のENCODE ChIP-seqまたはDNase-seqデータから算出した(図2E)。153個のデータは、不活性領域と比べてCRMにおいて≧2倍の富化を示した。これらには、一般的な転写因子(例えば、GTF2F1、TAF1、およびTBP)、転写共活性化因子(P300)、およびヒストン修飾酵素(例えば、H3K4me3およびH3K9ac)が含まれる。CRMにおいて富化されていなかったか、または枯渇さえしていたChIP-seqピークとしては、転写因子(TCF12およびBCLAF1)、スプライセオソーム成分(PLRG1およびSNRNP70)、およびヒストンメチラーゼ(H3K27me3、H3K36me3、およびH3K9me3)が挙げられる。興味深いことには、全体的な富化にも関わらず、GRAMc同定CRMの32%のみが、CRMの≧2倍富化を示す153個のENCODEデータと重複し、CRMの58%は、この分析で使用したいかなるENCODEデータとも重複しなかった。より多くの転写因子のChIP-seqデータを得ることにより重複を増加させることができるが、レポーターアッセイは、クロマチンサイレンシングのためゲノムでは活性ではないCRMまたはChIP-seqによる検出を回避することができるCRMを検出する場合がある。
(実施例5)
この例では、モチーフ富化が、ChromHMMで予測されたエンハンサーの活性が異なることを説明することが示される。以前の研究では、クロマチンマークに基づくCRM予測は、機能的に検証されたCRMでは富化されるが、予測されたCRMの大多数は、レポーターアッセイでは著しい発現を駆動しないことが示されている(Liu, et al. Genome biology 18.1 (2017): 219;Muerdter, et al. Nature methods 15.2 (2018): 141;van Arensbergen, et al. Nature biotechnology 35.2 (2017): 145)。これらの観察結果と一致して、HepG2のChromHMMで予測された強力なエンハンサー(Ernst, et al. Nature methods 9.3 (2012): 215)と≧90%重複するGRAMc試験断片のシス調節活性のアッセイでは、予測されたエンハンサーのおよそ80%は、GRAMcのバックグラウンド活性の≦2倍を示した(図3A)。予測されたエンハンサーが真のエンハンサーであれば、転写因子結合部位(TFBS)モチーフの富化が予想されるだろう。プロモーターは本来的にモチーフで富化されており、予測された弱いエンハンサーは多義性を増加させる場合があるため、ここでは予測された強力なエンハンサーに焦点を当てた。
この例では、モチーフ富化が、ChromHMMで予測されたエンハンサーの活性が異なることを説明することが示される。以前の研究では、クロマチンマークに基づくCRM予測は、機能的に検証されたCRMでは富化されるが、予測されたCRMの大多数は、レポーターアッセイでは著しい発現を駆動しないことが示されている(Liu, et al. Genome biology 18.1 (2017): 219;Muerdter, et al. Nature methods 15.2 (2018): 141;van Arensbergen, et al. Nature biotechnology 35.2 (2017): 145)。これらの観察結果と一致して、HepG2のChromHMMで予測された強力なエンハンサー(Ernst, et al. Nature methods 9.3 (2012): 215)と≧90%重複するGRAMc試験断片のシス調節活性のアッセイでは、予測されたエンハンサーのおよそ80%は、GRAMcのバックグラウンド活性の≦2倍を示した(図3A)。予測されたエンハンサーが真のエンハンサーであれば、転写因子結合部位(TFBS)モチーフの富化が予想されるだろう。プロモーターは本来的にモチーフで富化されており、予測された弱いエンハンサーは多義性を増加させる場合があるため、ここでは予測された強力なエンハンサーに焦点を当てた。
予測されたエンハンサー内の601個のHOCOMOCO_v10 HUMANモチーフ(Kulakovskiy, et al. Nucleic acids research 44.D1 (2015): D116-D125)、GRAMc同定CRM、および不活性断片の富化を、FIMOソフトウェア(Cuellar-Partida, et al. Bioinformatics 28.1 (2011): 56-62; Bailey, et al. Nucleic acids research 37 (2009): W202-W208)を使用して比較した。全体として、GRAMc同定CRMは、予測されたエンハンサーよりも強力なモチーフ富化を示した(図3B)。GRAMcにおいて活性であったかまたはわずかに活性であった予測されたエンハンサー(図3C~3D)は、GRAMc同定CRMのものと同等のモチーフの富化または枯渇を表示した。対照的に、モチーフの富化は、より弱いレポーター発現を示す予測されたエンハンサーでは徐々に希薄化した(図3E~3G)。著しいレポーター発現を駆動することができないことおよびモチーフ富化が弱いことを考慮すると、予測されたエンハンサーの大多数は真のエンハンサーではない可能性が高い。しかしながら、これは、クロマチンマークが、正確な位置ではなくエンハンサーの近傍を示し得る可能性、および予測されたエンハンサーが、レポーターアッセイでは測定することができない他のタイプのシス調節活性を保有し得る可能性を排除するものではない。
インターフェロン経路の活性化は、DNAトランスフェクション時にインターフェロン応答性エンハンサーの誤った同定をもたらし(Muerdter, et al. Nature methods 15.2 (2018): 141)、そのようなアーチファクトは、GRAMc同定CRMとChromHMM予測との間の重複を低減させてしまう場合がある。しかしながら、HepG2細胞がこの経路を活性化しないという独自の発見と一致して、IRF1-9およびhMX1を含むインターフェロン刺激転写因子のモチーフは、GRAMc同定CRMでは富化されていなかった。
(実施例6)
この例では、CRMの富化モチーフは、潜在的に新しいタイプの遺伝子調節相互作用を予測することが示される。小型レポーター構築物により測定されるレポーター発現のパターンは、宿主細胞のトランス調節環境の直接的な読み出しである。CRMのDNA配列は転写因子の結合部位を含有しているため、遺伝子調節プログラムを推定するためには計算的モチーフ分析が多用されている(例えば、Xie, et al. Nature 434.7031 (2005): 338;Mariani, et al. Cell systems 5.3 (2017): 187-201;Enuameh, et al. Genome research (2013): gr-151472;Markstein, et al. Development 131.10 (2004): 2387-2394;Halfon, et al. BMC genomics 12.1 (2011): 578)。FIMOによりCRMおよび不活性断片(陰性対照)において計算的に予測された601個のHOCOMOCO_v10 HUMANモチーフ(Kulakovskiy, et al. Nucleic acids research 44.D1 (2015): D116-D125)に基づき、存在量(モチーフ陽性CRMまたは不活性断片の割合)およびモチーフの相対的富化(不活性断片と比べたCRMにおけるモチーフの相対的存在量)を算出した(図4A)。結果は、601個のモチーフのうちの176個のモチーフが、不活性断片と比較してCRMでは≧2倍富化されていたことを示す。富化モチーフの大多数(65%)は、発現(FPKM≧1)転写因子に関してであったが、興味深いことには、残りは、発現されていないかまたは発現が非常に低い(FPKM<1)転写因子についてであった(3)。
この例では、CRMの富化モチーフは、潜在的に新しいタイプの遺伝子調節相互作用を予測することが示される。小型レポーター構築物により測定されるレポーター発現のパターンは、宿主細胞のトランス調節環境の直接的な読み出しである。CRMのDNA配列は転写因子の結合部位を含有しているため、遺伝子調節プログラムを推定するためには計算的モチーフ分析が多用されている(例えば、Xie, et al. Nature 434.7031 (2005): 338;Mariani, et al. Cell systems 5.3 (2017): 187-201;Enuameh, et al. Genome research (2013): gr-151472;Markstein, et al. Development 131.10 (2004): 2387-2394;Halfon, et al. BMC genomics 12.1 (2011): 578)。FIMOによりCRMおよび不活性断片(陰性対照)において計算的に予測された601個のHOCOMOCO_v10 HUMANモチーフ(Kulakovskiy, et al. Nucleic acids research 44.D1 (2015): D116-D125)に基づき、存在量(モチーフ陽性CRMまたは不活性断片の割合)およびモチーフの相対的富化(不活性断片と比べたCRMにおけるモチーフの相対的存在量)を算出した(図4A)。結果は、601個のモチーフのうちの176個のモチーフが、不活性断片と比較してCRMでは≧2倍富化されていたことを示す。富化モチーフの大多数(65%)は、発現(FPKM≧1)転写因子に関してであったが、興味深いことには、残りは、発現されていないかまたは発現が非常に低い(FPKM<1)転写因子についてであった(3)。
発現転写因子の富化モチーフは、HepG2で同定されたCRMの正の調節因子を予測するはずである。調節因子をアッセイするため、モチーフ分析の結果を、HepG2細胞からのENCODE ChIP-seqデータと比較した(3)。モチーフ富化に基づいて予測された転写因子が正しければ、同じ転写因子のChIP-seqピークも富化されているはずである。合計58個の転写因子が、2つのデータセット間で共通していた。58個の因子のうち、31個のモチーフおよび56個のChIP-seqピークは、不活性断片と比べて、CRMでは≧2倍富化されていた(図4B)。富化モチーフの1つを除くすべてがChIP-seqデータでも富化されていたことを考慮すると、モチーフ富化に基づく正の調節因子の予測は、非常に低い偽陽性率を示す(<<0.1)。転写因子の他のおよそ50%は、<2倍のモチーフ富化を示したが、ChIP-seqピークは依然として高度に富化されていた。より詳細な分析が必要であるが、保守的なシナリオでは、ここでのモチーフに基づく予測は、約0.5の偽陰性率を呈する。
非発現転写因子のモチーフ富化は、それらが、他の細胞タイプもしくは状態において活性化因子またはリプレッサーのいずれかとして、HepG2-CRMを制御することを示す(図4C)。HepG2における転写因子候補の異所性発現を使用して、そのような調節因子をアッセイした。2つの転写因子遺伝子pitx2(ホメオボックス遺伝子)およびikzf1(イカロスホモログ)を調査した。マウスでは、pitx2は、胎児肝臓で発現され、胎児肝臓の造血機能に必要であり、胎児肝臓のpitx2および造血機能を両方とも阻止することは、胎児肝臓から成体肝臓への分化に不可欠である(Kieusseian, et al. Blood 107.2 (2006): 492-500)。同様に、ikzf1は、造血系発生の重要な調節因子であり(Davis. Therapeutic advances in hematology 2.6 (2011): 359-368)、胎児肝臓で発現されるが(Roy, et al. PNAS USA (2012): 201211405)、肝発生におけるその機能は未知である。pitx2(CMV::pitx2)またはikzf1(CMV::ikzf1)のmRNAを構成的に発現することができるプラスミドを、完全なGRAMcライブラリーからランダムに選択された約80,000個のGRAMcレポーター構築物のセットと共に同時トランスフェクトした。対照実験として、GFP mRNA(CMV::gfp)を構成的に発現することができるプラスミドを、レポーター構築物の同じセットと共に同時トランスフェクトした。3つすべての実験の反復実験は再現性が高かった(ピアソンのr≧0.99)(図14)。HepG2でのpitx2の異所性発現は、CRMの大多数を≧2倍下方制御し、この下方制御は、pitx2モチーフ陽性CRMでより顕著だった(2標本t検定、P=4.4E-16)(図4D)。ikzf1の場合、9つのCRMのみが≧2倍下方制御され、9つの下方制御CRMのうち6つがIKZF1モチーフに対して陽性だった(2標本t検定、P=2.5E-4)(図4E)。両組換え遺伝子のタンパク質発現を、ウエスタンブロット(図11)で確認した。これらの結果は、pitx2(および程度はわずかだがikzf1)が、胎児肝臓でのHepG2-CRM抑制を維持し、成体肝臓におけるHepG2-CRMおよび遺伝子発現の活性化にはpitx2のクリアランスが重要であることを示す。これらの結果は、CRMが、宿主細胞の調節プログラムを予測するためだけでなく、時間的におよび空間的に分離された細胞間の調節相互作用を予測するのにも有用であることを示す。
(実施例7)
この例では、SINE/Aluエレメントが、CRMにおいて富化されていることが示される。真核生物遺伝子調節の初期モデルでは、反復エレメントが、遺伝子発現制御に重要な役割を果たすと提案されていた(McClintock. PNAS USA 36.6 (1950): 344-355;Britten, et al. Science 165.3891 (1969): 349-357)。その後、これらの予測は、遺伝子調節およびその発生に寄与するAluおよびERVエレメントという複数の例により支持された(Britten. PNAS USA 93.18 (1996): 9374-9377)。さらに、クロマチンシグネチャーのゲノム調査は、SINE/Aluエレメントが推定CRMにおいて富化されていることを示している(Su, et al. Cell reports 7.2 (2014): 376-385;Trizzino, et al. BMC genomics 19.1 (2018): 468)。しかしながら、エンハンサー(Muerdter, et al. Nature methods 15.2 (2018): 141)またはプロモーター(van Arensbergen, et al. Nature biotechnology 35.2 (2017): 145)のゲノムスケールレポーターアッセイでは、CRMにおけるLTR/ERV1およびLTR/ERVL-MaLRの富化は検出されたが、SINE/Aluの富化は検出されていない。GRAMc同定CRMのこのような富化をアッセイするため、本明細書のデータを、ヒトゲノムの注釈付き反復エレメントと比較した(Smit, et al. "RepeatMasker Open-4.0" (2015))。3つの反復エレメントのファミリーであるサテライト/テロメア、SINE/Alu、およびLTR/ERV1が、CRMでは≧2倍に富化されていたことが検出されたが(図5AのG5セット)、LTR/ERVL-MaLRは、CRMでは富化されていなかった。3つのエレメントは、わずかに活性なG3L4およびG4L5セットでも、程度は低いが富化されていた。興味深いことには、アルファサテライトは、CRMが約8分の1に枯渇されていた。これは、抑制機能またはHepG2の他のCRMと非適合性であることを示す。しかしながら、肝臓での転写リプレッサーであると予測されたレトロポゾン/SVAエレメントの枯渇は検出されなかった(Trizzino. Genome research 27.10 (2017): 1623-1633)。
この例では、SINE/Aluエレメントが、CRMにおいて富化されていることが示される。真核生物遺伝子調節の初期モデルでは、反復エレメントが、遺伝子発現制御に重要な役割を果たすと提案されていた(McClintock. PNAS USA 36.6 (1950): 344-355;Britten, et al. Science 165.3891 (1969): 349-357)。その後、これらの予測は、遺伝子調節およびその発生に寄与するAluおよびERVエレメントという複数の例により支持された(Britten. PNAS USA 93.18 (1996): 9374-9377)。さらに、クロマチンシグネチャーのゲノム調査は、SINE/Aluエレメントが推定CRMにおいて富化されていることを示している(Su, et al. Cell reports 7.2 (2014): 376-385;Trizzino, et al. BMC genomics 19.1 (2018): 468)。しかしながら、エンハンサー(Muerdter, et al. Nature methods 15.2 (2018): 141)またはプロモーター(van Arensbergen, et al. Nature biotechnology 35.2 (2017): 145)のゲノムスケールレポーターアッセイでは、CRMにおけるLTR/ERV1およびLTR/ERVL-MaLRの富化は検出されたが、SINE/Aluの富化は検出されていない。GRAMc同定CRMのこのような富化をアッセイするため、本明細書のデータを、ヒトゲノムの注釈付き反復エレメントと比較した(Smit, et al. "RepeatMasker Open-4.0" (2015))。3つの反復エレメントのファミリーであるサテライト/テロメア、SINE/Alu、およびLTR/ERV1が、CRMでは≧2倍に富化されていたことが検出されたが(図5AのG5セット)、LTR/ERVL-MaLRは、CRMでは富化されていなかった。3つのエレメントは、わずかに活性なG3L4およびG4L5セットでも、程度は低いが富化されていた。興味深いことには、アルファサテライトは、CRMが約8分の1に枯渇されていた。これは、抑制機能またはHepG2の他のCRMと非適合性であることを示す。しかしながら、肝臓での転写リプレッサーであると予測されたレトロポゾン/SVAエレメントの枯渇は検出されなかった(Trizzino. Genome research 27.10 (2017): 1623-1633)。
GRAMc同定CRMを使用して、エンハンサーへと向かうAluエレメントの進化を時間の関数としてアッセイした(Su, et al. Cell reports 7.2 (2014): 376-385)。CRMにおけるAluエレメントの富化は、年齢と正に相関するはずである。しかしながら、Aluの3つの主要なサブファミリー(図5B)を調査したところ、最年少のサブファミリー(AluY)および中間サブファミリー(AluS)は、CRMでの≧3倍富化を示したが、最年長のサブファミリー(AluJ)は、中程度の富化しか示さなかった(1.3倍)。元の研究は、HeLa細胞のクロマチン注釈に基づいているため、この不一致は、細胞タイプが違うことにより説明することができる。したがって、HeLa細胞においてルシフェラーゼアッセイを使用して試験された19個のAluエレメントのサブファミリーがまとめられた(Su, et al. Cell reports 7.2 (2014): 376-385)。これらの結果と一致して、8/10個のAluYまたはAluSエレメントが活性であり、AluJエレメントは4/9個のみが活性だった。したがって、本結果は、Aluエレメントが年齢と共に調節活性を失うという対立モデルと一致する。
こうした結果により、GRAMcデータは、複数の進化ゲノミクス仮説の試験に有用であり得ること、およびGRAMcデータは、より初期のゲノムスケールレポーターアッセイまたはクロマチン注釈により生成されたデータと比較して異なる結論に結び付き得ることが実証される。さらに、GRAMcとより初期のレポーターアッセイとの間で観察される不一致は、大部分は、使用される細胞タイプが異なることに起因する可能性がある。反復エレメントのリスト全体の富化は、表2に示されている。
本開示の原理を適用することができる実施形態は数多く考え得るため、説明されている実施形態は例に過ぎず、本発明の範囲を限定するものと解釈されるべきではないことが認識されるべきである。むしろ、本発明の範囲は、以下の特許請求の範囲により規定される。したがって、本発明者らは、こうした特許請求の範囲および趣旨内に含まれるすべてのものを本発明者らの発明であると主張する。
Claims (56)
- 核酸分子レポーターライブラリーを構築する方法であって、
選択されたサイズ範囲の複数の核酸分子を単離するステップ;
前記選択されたサイズ範囲の前記複数の単離された核酸分子を、リガーゼを使用して少なくとも1つの線状アダプター配列にライゲートするステップであって、前記線状アダプター配列は、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドが隣接する少なくとも2つの連続したリボヌクレオチドを含み、それによりインサートおよびアダプターを含む複数の環状核酸分子を産生する、ステップ;
インサートおよびアダプターを含む前記複数の環状核酸分子を、前記複数の環状核酸分子から線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼと接触させるステップ;
インサートおよびアダプターを含む前記複数の環状核酸分子を、前記インサートが隣接する、各々が前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む複数の線状核酸分子を産生するのに十分な条件下でエンドリボヌクレアーゼと接触させるステップ;ならびに
前記複数の線状核酸分子の各々を少なくとも1つのレポーター核酸と融合させて複数のレポーター構築物を産生し、それにより前記核酸分子レポーターライブラリーを産生するステップ
を含む、方法。 - 前記リガーゼは、DNAリガーゼを含む、請求項1に記載の方法。
- 前記リガーゼは、T4 DNAリガーゼを含む、請求項1または請求項2に記載の方法。
- 選択されたサイズ範囲の前記複数の核酸分子は、約100~3000塩基対長である、請求項1から3のいずれか一項に記載の方法。
- 選択されたサイズ範囲の前記複数の核酸分子は、約750~850塩基対長である、請求項4に記載の方法。
- 選択されたサイズ範囲の前記複数の単離された核酸分子は、ゲル電気泳動またはビーズに基づくサイズ選択を使用して選択される、請求項1から5のいずれか一項に記載の方法。
- 選択されたサイズ範囲の前記複数の核酸分子は、ゲノムDNAまたは合成DNAを含む、請求項1から6のいずれか一項に記載の方法。
- 前記ゲノムDNAは、哺乳動物細胞、植物細胞、細菌細胞、真菌細胞、または古細菌細胞に由来する、請求項7に記載の方法。
- 前記ゲノムDNAは、哺乳動物細胞に由来する、請求項8に記載の方法。
- 哺乳動物細胞に由来する前記ゲノムDNAは、心筋細胞、ニューロン、肝細胞、内皮細胞、胚性幹細胞、皮膚細胞、がん細胞、腎臓細胞、免疫細胞、骨細胞、オルガノイド由来細胞、または誘導幹細胞の少なくとも1つに由来する、請求項8に記載の方法。
- 前記ゲノムDNAは、植物細胞に由来する、請求項8に記載の方法。
- 前記ゲノムDNAは、細菌細胞に由来する、請求項8に記載の方法。
- 前記ゲノムDNAは、真菌細胞に由来する、請求項8に記載の方法。
- 前記ゲノムDNAは、古細菌細胞に由来する、請求項8に記載の方法。
- インサートおよびアダプターを含む前記複数の環状核酸分子を前記エンドリボヌクレアーゼと接触させるステップは、インサートおよびアダプターを含む前記複数の環状核酸分子を、DNA二重鎖内のリボヌクレオチドに特異的なエンドリボヌクレアーゼと接触させるステップを含む、請求項1から14のいずれか一項に記載の方法。
- 前記エンドリボヌクレアーゼは、RNase HIIまたはウラシル-DNAグリコシラーゼである、請求項15に記載の方法。
- 前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子のゲノムカバレッジを決定するステップをさらに含む、請求項1から16のいずれか一項に記載の方法。
- 前記ゲノムカバレッジを決定するステップは、
少なくとも1つの目的のゲノム領域を選択するステップ、
前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を増幅するステップ、
前記選択されたゲノム領域が前記複数の線状核酸分子に存在するか否かを決定するステップ
を含む、請求項17に記載の方法。 - 前記少なくとも1つのレポーター核酸は、蛍光タンパク質をコードする、および/またはバーコード核酸を含む核酸を含む、請求項1から18のいずれか一項に記載の方法。
- 前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を、線状ベクター核酸と融合させ、それにより複数の線状ベクターを産生するステップをさらに含む、請求項1から19のいずれか一項に記載の方法。
- 前記線状ベクター核酸は、基本プロモーターを含む、請求項20に記載の方法。
- 前記少なくとも1つのレポーター核酸は、蛍光タンパク質をコードする核酸を含み、前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させるステップは、前記複数の線状ベクターを蛍光レポーター核酸と融合させ、それにより複数の蛍光レポーター構築物を産生するステップを含むか、または
前記少なくとも1つのレポーター核酸は、バーコード核酸を含み、前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させるステップは、複数のレポーター線状ベクターをバーコード核酸と融合させ、それにより複数のバーコードレポーター構築物を産生するステップを含むか、または
前記少なくとも1つのレポーター核酸は、バーコード核酸および蛍光タンパク質をコードする核酸を含み、前記複数の線状ベクターを少なくとも1つのレポーター核酸と融合させるステップは、前記複数のレポーター構築物を、バーコード核酸および蛍光タンパク質をコードする核酸と融合させ、それにより複数の蛍光およびバーコードレポーター構築物を産生するステップを含む、請求項20または請求項21に記載の方法。 - 前記複数の線状ベクターの各々を、バーコードレポーター構築物を含むプライマー核酸と接触させるステップ、
ポリメラーゼ連鎖反応(PCR)を実施し、それにより前記バーコードレポーター構築物を含む複数の増幅されたベクターを産生するステップ、
前記バーコードレポーター構築物を含む前記増幅されたベクターをライゲートし、それにより前記バーコードレポーター構築物を含む複数の環状ベクターを産生するステップ、および
前記バーコードレポーター構築物を含む前記複数の環状ベクターを、前記バーコードレポーター構築物を含む前記複数の環状ベクターから線状核酸分子を除去するのに十分な条件下で、エキソヌクレアーゼと接触させるステップ
をさらに含む、請求項20から22のいずれか一項に記載の方法。 - 核酸分子レポーターライブラリーを構築する方法であって、
(i)選択されたサイズ範囲の複数の核酸分子を単離するステップ;
前記選択されたサイズ範囲の前記複数の単離された核酸分子を、リガーゼを使用して少なくとも1つの線状アダプター配列にライゲートするステップであって、前記線状アダプター配列は、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドが隣接する少なくとも2つの連続したリボヌクレオチドを含み、それによりインサートおよびアダプターを含む複数の環状核酸分子を産生する、ステップ;
(ii)インサートおよびアダプターを含む前記複数の環状核酸分子を、前記複数の環状核酸分子から線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼと接触させるステップ;
(iii)インサートおよびアダプターを含む前記複数の環状核酸分子を、前記インサートが隣接する、各々が前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む複数の線状核酸分子を産生するのに十分な条件下でエンドリボヌクレアーゼと接触させるステップ;
(iv)前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子のゲノムカバレッジを決定するステップであって、
(a)少なくとも1つの目的のゲノム領域を選択するステップ、
(b)前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を増幅するステップ、および
(c)前記選択されたゲノム領域が前記複数の線状核酸分子に存在するか否かを決定するステップ
を含む、ステップ;ならびに
(v)前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を、少なくとも1つのレポーター核酸と融合させて、複数のレポーター構築物を産生するステップであって、
(a)前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を、線状ベクター核酸と融合させ、それにより複数の線状ベクターを産生するステップ、
(b)前記複数の線状ベクターの各々を、バーコード核酸を含むプライマーと接触させるステップ、および
(c)ポリメラーゼ連鎖反応(PCR)を実施して、前記インサートおよびバーコードが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含むバーコードレポーター構築物を含む複数の環状ベクターを産生するステップ、および
(d)前記バーコードレポーター構築物を含む前記複数の環状ベクターを、バーコードレポーター構築物を含む前記複数の環状ベクターから線状核酸分子を除去するのに十分な条件下で、エキソヌクレアーゼと接触させるステップ
を含む、ステップ
を含む、方法。 - 前記エキソヌクレアーゼは、エキソヌクレアーゼI、エキソヌクレアーゼIII、および/またはラムダエキソヌクレアーゼである、請求項1から24のいずれか一項に記載の方法。
- 前記少なくとも1つの線状アダプター配列は、配列番号1および/または配列番号2を含む、請求項1から25のいずれか一項に記載の方法。
- 前記線状アダプター配列は、配列番号1および/または配列番号2の二本鎖の二重鎖を含む、請求項1~26のいずれか一項に記載の方法。
- 請求項1から27のいずれかに記載の方法を使用して産生される核酸分子レポーターライブラリー。
- 機能的核酸調節エレメントを検出する方法であって、
少なくとも1つの目的の細胞に、請求項28に記載のライブラリーをトランスフェクトするステップ、および
少なくとも1つのレポーターを測定するステップ
を含む、方法。 - 前記少なくとも1つのレポーターを同定および/または定量化するステップをさらに含む、請求項29に記載の方法。
- 前記目的の細胞からRNAを単離して、単離されたRNAを産生するステップをさらに含む、請求項29または30のいずれか一項に記載の方法。
- 前記レポーターを測定するステップは、
前記単離されたRNAを逆転写して、cDNAを産生するステップ、および
前記cDNAを検出するステップ
を含む、請求項29から31のいずれか一項に記載の方法。 - 前記単離されたRNAを逆転写するステップは、組換えモロニーマウス白血病ウイルス(rMoMuLV)逆転写酵素またはトリ骨髄芽球症ウイルス(AMV)逆転写酵素を使用するステップを含む、請求項32に記載の方法。
- RNA依存性およびDNA依存性DNAポリメラーゼを使用するステップをさらに含む、請求項32または請求項33に記載の方法。
- 前記少なくとも1つのレポーターは、少なくとも1つの固有バーコード核酸である、請求項29から34に記載のいずれか一項に記載の方法。
- 前記cDNAを検出するステップは、
前記cDNAを増幅するステップ、および
前記少なくとも1つの固有核酸バーコードを同定するステップ
を含む、請求項35に記載の方法。 - 前記cDNAを増幅するステップは、
少なくとも1つの固有核酸バーコードを含むヌクレオチドに特異的なプライマーを選択するステップ、
前記プライマーを前記cDNAと接触させるステップ、および
前記プライマーおよび前記cDNAを使用してPCRを実施して、増幅されたDNAを産生するステップ
を含む、請求項36に記載の方法。 - 前記少なくとも1つの固有核酸バーコードを同定するステップは、前記増幅されたDNAを配列決定するステップを含む、請求項37に記載の方法。
- 前記少なくとも1つの固有核酸バーコードを定量化するステップをさらに含む、請求項35から38のいずれか一項に記載の方法。
- 前記少なくとも1つの細胞は、哺乳動物細胞、植物細胞、真菌細胞、細菌細胞、または古細菌細胞である、請求項29から39のいずれか一項に記載の方法。
- 前記細胞は、哺乳動物細胞である、請求項40に記載の方法。
- 前記哺乳動物細胞は、心筋細胞、ニューロン、肝細胞、内皮細胞、胚性幹細胞、皮膚細胞、がん細胞、腎臓細胞、免疫細胞、骨細胞、オルガノイド由来細胞、または誘導幹細胞の少なくとも1つである、請求項41に記載の方法。
- 前記細胞は、植物細胞である、請求項40に記載の方法。
- 前記細胞は、細菌細胞である、請求項40に記載の方法。
- 前記細胞は、真菌細胞である、請求項40に記載の方法。
- 前記細胞は、古細菌細胞である、請求項40に記載の方法。
- 疾患もしくは状態を有する少なくとも1つの被験体および疾患もしくは状態を有していない少なくとも1つの被験体を含む少なくとも2つの被験体、または
複数の細胞が異なる条件下で収集される少なくとも1つの被験体
から収集される、前記少なくとも1つの目的の細胞を収集するステップをさらに含む、請求項29から46のいずれか一項に記載の方法。 - ハイスループットである、請求項29から47のいずれか一項に記載の方法。
- 前記複数の核酸分子は、選択された目的のゲノムの少なくとも80%を含む、請求項1から48のいずれか一項に記載の方法。
- 前記複数の核酸分子は、選択された目的のゲノム中のシス調節エレメントの少なくとも80%を含む、請求項1から49のいずれか一項に記載の方法。
- 請求項1から28のいずれか一項に記載の少なくとも1つのレポーター核酸を含む、核酸分子レポーターライブラリーを構築するためのキット。
- 前記レポーター核酸の線状アダプター配列は、配列番号1および/または配列番号2を含む、請求項51に記載のキット。
- 少なくとも1つのリガーゼ、エキソヌクレアーゼ、エンドリボヌクレアーゼ、および/またはポリメラーゼをさらに含む、請求項51または請求項52に記載のキット。
- 機能的核酸調節エレメントのハイスループット同定および/または定量化のためのキットであって、請求項28に記載のライブラリーを含み、前記ライブラリーは、目的のゲノムの少なくとも80%をカバーする、キット。
- 少なくとも1つの逆転写酵素をさらに含む、請求項54に記載のキット。
- PCRプライマーおよび高忠実度DNAポリメラーゼをさらに含む、請求項54または請求項55に記載のキット。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862753608P | 2018-10-31 | 2018-10-31 | |
US62/753,608 | 2018-10-31 | ||
PCT/US2019/058921 WO2020092614A1 (en) | 2018-10-31 | 2019-10-30 | Gramc: genome-scale reporter assay method for cis-regulatory modules |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022509532A true JP2022509532A (ja) | 2022-01-20 |
Family
ID=70464138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021548555A Pending JP2022509532A (ja) | 2018-10-31 | 2019-10-30 | Gramc:シス調節モジュールのゲノムスケールレポーターアッセイ法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20220017895A1 (ja) |
EP (1) | EP3874065A4 (ja) |
JP (1) | JP2022509532A (ja) |
KR (1) | KR20210086644A (ja) |
CN (1) | CN112996927A (ja) |
AU (1) | AU2019369528A1 (ja) |
CA (1) | CA3116174A1 (ja) |
WO (1) | WO2020092614A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022051621A1 (en) | 2020-09-03 | 2022-03-10 | Ciscovery Bio Inc. | Methods of targeting aberrant cells |
WO2023227699A1 (en) * | 2022-05-25 | 2023-11-30 | Epigenica Ab | Adaptor ligation |
CN115810395B (zh) * | 2022-12-05 | 2023-09-26 | 武汉贝纳科技有限公司 | 一种基于高通量测序动植物基因组t2t组装方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009519710A (ja) * | 2005-12-16 | 2009-05-21 | ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー | 遺伝子発現調節エレメントのハイスループットでの特徴付けのための機能性アレイ |
SG10201405158QA (en) * | 2006-02-24 | 2014-10-30 | Callida Genomics Inc | High throughput genome sequencing on dna arrays |
US9540637B2 (en) * | 2008-01-09 | 2017-01-10 | Life Technologies Corporation | Nucleic acid adaptors and uses thereof |
WO2013186306A1 (en) * | 2012-06-15 | 2013-12-19 | Boehringer Ingelheim International Gmbh | Method for identifying transcriptional regulatory elements |
US10233490B2 (en) * | 2014-11-21 | 2019-03-19 | Metabiotech Corporation | Methods for assembling and reading nucleic acid sequences from mixed populations |
GB201705121D0 (en) * | 2017-03-30 | 2017-05-17 | Norwegian Univ Of Science And Tech | Modulation of gene expression |
-
2019
- 2019-10-30 KR KR1020217014199A patent/KR20210086644A/ko active Search and Examination
- 2019-10-30 CA CA3116174A patent/CA3116174A1/en active Pending
- 2019-10-30 EP EP19879237.6A patent/EP3874065A4/en active Pending
- 2019-10-30 US US17/289,841 patent/US20220017895A1/en active Pending
- 2019-10-30 JP JP2021548555A patent/JP2022509532A/ja active Pending
- 2019-10-30 AU AU2019369528A patent/AU2019369528A1/en active Pending
- 2019-10-30 CN CN201980072431.XA patent/CN112996927A/zh active Pending
- 2019-10-30 WO PCT/US2019/058921 patent/WO2020092614A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
US20220017895A1 (en) | 2022-01-20 |
EP3874065A4 (en) | 2022-07-20 |
CA3116174A1 (en) | 2020-05-07 |
CN112996927A (zh) | 2021-06-18 |
WO2020092614A9 (en) | 2020-07-02 |
WO2020092614A1 (en) | 2020-05-07 |
KR20210086644A (ko) | 2021-07-08 |
AU2019369528A1 (en) | 2021-05-13 |
EP3874065A1 (en) | 2021-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113166797A (zh) | 基于核酸酶的rna耗尽 | |
KR102310441B1 (ko) | Rna-염색질 상호작용 분석용 조성물 및 이의 용도 | |
JP2018532419A (ja) | CRISPR−Cas sgRNAライブラリー | |
JP2009072062A (ja) | 核酸の5’末端を単離するための方法およびその適用 | |
KR20170020704A (ko) | 개별 세포 또는 세포 개체군으로부터 핵산을 분석하는 방법 | |
KR20170020470A (ko) | 서열결정에 의해 평가된 DSB의 게놈 전체에 걸친 비편향된 확인 (GUIDE-Seq) | |
WO2015021990A1 (en) | Rna probing method and reagents | |
JP2022509532A (ja) | Gramc:シス調節モジュールのゲノムスケールレポーターアッセイ法 | |
JP4644685B2 (ja) | 塩基配列タグの調製方法 | |
CN112384620A (zh) | 用于筛选和鉴定功能性lncRNA的方法 | |
US20230257799A1 (en) | Methods of identifying and characterizing gene editing variations in nucleic acids | |
EP2032721B1 (en) | Nucleic acid concatenation | |
US10287621B2 (en) | Targeted chromosome conformation capture | |
US20090111099A1 (en) | Promoter Detection and Analysis | |
KR20220147616A (ko) | 재프로그래밍된 tracrRNA를 사용한 RNA 검출 및 전사-의존적 편집 | |
JP2022545539A (ja) | 初代ヒトT細胞へのGUIDE-Seqの実施方法 | |
CN111334531A (zh) | 高信噪比阴性遗传筛选方法 | |
Grünberger et al. | Insights into rRNA processing and modification mapping in Archaea using Nanopore-based RNA sequencing | |
US20110071047A1 (en) | Promoter detection and analysis | |
US20240150830A1 (en) | Phased genome scale epigenetic maps and methods for generating maps | |
Guay et al. | Unbiased genome-scale identification of cis-regulatory modules in the human genome by GRAMc | |
US20240182951A1 (en) | Methods for targeted nucleic acid sequencing | |
Leppek et al. | VELCRO-IP RNA-seq explores ribosome expansion segment function in translation genome-wide | |
WO2024059516A1 (en) | Methods for generating cdna library from rna | |
WO2023137292A1 (en) | Methods and compositions for transcriptome analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231003 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20231205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240403 |