CN116096892A - 具有RuvC结构域的酶 - Google Patents
具有RuvC结构域的酶 Download PDFInfo
- Publication number
- CN116096892A CN116096892A CN202180049158.6A CN202180049158A CN116096892A CN 116096892 A CN116096892 A CN 116096892A CN 202180049158 A CN202180049158 A CN 202180049158A CN 116096892 A CN116096892 A CN 116096892A
- Authority
- CN
- China
- Prior art keywords
- sequence
- endonuclease
- seq
- identity
- nos
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 102000004190 Enzymes Human genes 0.000 title abstract description 176
- 108090000790 Enzymes Proteins 0.000 title abstract description 176
- 108010042407 Endonucleases Proteins 0.000 claims abstract description 988
- 102000004533 Endonucleases Human genes 0.000 claims abstract description 145
- 238000000034 method Methods 0.000 claims abstract description 144
- 150000007523 nucleic acids Chemical class 0.000 claims description 379
- 229920002477 rna polymer Polymers 0.000 claims description 335
- 102000039446 nucleic acids Human genes 0.000 claims description 328
- 108020004707 nucleic acids Proteins 0.000 claims description 328
- 239000002773 nucleotide Substances 0.000 claims description 309
- 101710163270 Nuclease Proteins 0.000 claims description 300
- 125000003729 nucleotide group Chemical group 0.000 claims description 298
- 102000053602 DNA Human genes 0.000 claims description 296
- 108020004414 DNA Proteins 0.000 claims description 296
- 210000004027 cell Anatomy 0.000 claims description 246
- 108020005004 Guide RNA Proteins 0.000 claims description 216
- 230000008685 targeting Effects 0.000 claims description 216
- 108090000623 proteins and genes Proteins 0.000 claims description 149
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 116
- 102000004169 proteins and genes Human genes 0.000 claims description 104
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 81
- 125000006850 spacer group Chemical group 0.000 claims description 66
- 108700026244 Open Reading Frames Proteins 0.000 claims description 61
- 230000027455 binding Effects 0.000 claims description 49
- 238000009739 binding Methods 0.000 claims description 49
- 102000040430 polynucleotide Human genes 0.000 claims description 47
- 108091033319 polynucleotide Proteins 0.000 claims description 47
- 239000002157 polynucleotide Substances 0.000 claims description 47
- 102000004196 processed proteins & peptides Human genes 0.000 claims description 46
- 230000000295 complement effect Effects 0.000 claims description 42
- 238000000338 in vitro Methods 0.000 claims description 39
- 239000013612 plasmid Substances 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 39
- 229920001184 polypeptide Polymers 0.000 claims description 35
- 241000282414 Homo sapiens Species 0.000 claims description 34
- 210000004962 mammalian cell Anatomy 0.000 claims description 29
- 230000001580 bacterial effect Effects 0.000 claims description 26
- 210000001744 T-lymphocyte Anatomy 0.000 claims description 25
- 230000002538 fungal effect Effects 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 22
- 230000030648 nucleus localization Effects 0.000 claims description 22
- 108091033409 CRISPR Proteins 0.000 claims description 21
- 108020004999 messenger RNA Proteins 0.000 claims description 21
- 210000003527 eukaryotic cell Anatomy 0.000 claims description 20
- 238000010845 search algorithm Methods 0.000 claims description 20
- 108010019670 Chimeric Antigen Receptors Proteins 0.000 claims description 19
- 230000033616 DNA repair Effects 0.000 claims description 19
- 108020004682 Single-Stranded DNA Proteins 0.000 claims description 19
- 210000005260 human cell Anatomy 0.000 claims description 19
- 210000004102 animal cell Anatomy 0.000 claims description 18
- 241000894006 Bacteria Species 0.000 claims description 17
- 244000005700 microbiome Species 0.000 claims description 17
- 210000003205 muscle Anatomy 0.000 claims description 17
- 210000001236 prokaryotic cell Anatomy 0.000 claims description 17
- 108020000946 Bacterial DNA Proteins 0.000 claims description 16
- 108020000999 Viral RNA Proteins 0.000 claims description 16
- 230000005782 double-strand break Effects 0.000 claims description 16
- 210000000822 natural killer cell Anatomy 0.000 claims description 16
- 230000005783 single-strand break Effects 0.000 claims description 16
- 108020004635 Complementary DNA Proteins 0.000 claims description 14
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 11
- 102000040650 (ribonucleotides)n+m Human genes 0.000 claims description 11
- 101001000998 Homo sapiens Protein phosphatase 1 regulatory subunit 12C Proteins 0.000 claims description 11
- 102100035620 Protein phosphatase 1 regulatory subunit 12C Human genes 0.000 claims description 11
- 238000010008 shearing Methods 0.000 claims description 11
- 102100031585 ADP-ribosyl cyclase/cyclic ADP-ribose hydrolase 1 Human genes 0.000 claims description 10
- 101000777636 Homo sapiens ADP-ribosyl cyclase/cyclic ADP-ribose hydrolase 1 Proteins 0.000 claims description 10
- 241000283984 Rodentia Species 0.000 claims description 10
- 101000831007 Homo sapiens T-cell immunoreceptor with Ig and ITIM domains Proteins 0.000 claims description 9
- 102100024834 T-cell immunoreceptor with Ig and ITIM domains Human genes 0.000 claims description 9
- 210000003958 hematopoietic stem cell Anatomy 0.000 claims description 9
- 210000003719 b-lymphocyte Anatomy 0.000 claims description 8
- 108700004991 Cas12a Proteins 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 7
- 241000124008 Mammalia Species 0.000 claims description 4
- 241000288906 Primates Species 0.000 claims description 4
- 238000011134 hematopoietic stem cell transplantation Methods 0.000 claims description 4
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 claims description 4
- 241000702421 Dependoparvovirus Species 0.000 claims description 3
- 241000206602 Eukaryota Species 0.000 claims description 3
- 241000233866 Fungi Species 0.000 claims description 3
- 241000713666 Lentivirus Species 0.000 claims description 3
- 238000012258 culturing Methods 0.000 claims description 3
- 210000002845 virion Anatomy 0.000 claims description 3
- 210000002865 immune cell Anatomy 0.000 claims description 2
- 102100031780 Endonuclease Human genes 0.000 description 843
- 235000018102 proteins Nutrition 0.000 description 100
- 230000000694 effects Effects 0.000 description 83
- 241000588724 Escherichia coli Species 0.000 description 56
- 238000003776 cleavage reaction Methods 0.000 description 44
- 239000000499 gel Substances 0.000 description 44
- 230000007017 scission Effects 0.000 description 41
- 239000000047 product Substances 0.000 description 40
- 101710153660 Nuclear receptor corepressor 2 Proteins 0.000 description 34
- 230000006870 function Effects 0.000 description 34
- 102100030569 Nuclear receptor corepressor 2 Human genes 0.000 description 31
- 102000003676 Glucocorticoid Receptors Human genes 0.000 description 26
- 108090000079 Glucocorticoid Receptors Proteins 0.000 description 26
- 241000196324 Embryophyta Species 0.000 description 23
- 239000000872 buffer Substances 0.000 description 22
- 238000012163 sequencing technique Methods 0.000 description 22
- 108020004705 Codon Proteins 0.000 description 21
- 102100022494 Mucin-5B Human genes 0.000 description 21
- 238000012360 testing method Methods 0.000 description 20
- 235000001014 amino acid Nutrition 0.000 description 19
- 229940024606 amino acid Drugs 0.000 description 18
- 150000001413 amino acids Chemical class 0.000 description 18
- 239000012636 effector Substances 0.000 description 17
- -1 ribonucleoside triphosphates Chemical class 0.000 description 17
- 230000003321 amplification Effects 0.000 description 16
- 238000003199 nucleic acid amplification method Methods 0.000 description 16
- 108091026890 Coding region Proteins 0.000 description 15
- 108091027544 Subgenomic mRNA Proteins 0.000 description 14
- 238000003556 assay Methods 0.000 description 14
- 239000000470 constituent Substances 0.000 description 14
- 101100118093 Drosophila melanogaster eEF1alpha2 gene Proteins 0.000 description 13
- 101000756632 Homo sapiens Actin, cytoplasmic 1 Proteins 0.000 description 13
- 101000579123 Homo sapiens Phosphoglycerate kinase 1 Proteins 0.000 description 13
- 101710128836 Large T antigen Proteins 0.000 description 13
- 101710135898 Myc proto-oncogene protein Proteins 0.000 description 13
- 102100038895 Myc proto-oncogene protein Human genes 0.000 description 13
- 238000012408 PCR amplification Methods 0.000 description 13
- KJWZYMMLVHIVSU-IYCNHOCDSA-N PGK1 Chemical compound CCCCC[C@H](O)\C=C\[C@@H]1[C@@H](CCCCCCC(O)=O)C(=O)CC1=O KJWZYMMLVHIVSU-IYCNHOCDSA-N 0.000 description 13
- 102100028251 Phosphoglycerate kinase 1 Human genes 0.000 description 13
- 108091028113 Trans-activating crRNA Proteins 0.000 description 13
- 101710150448 Transcriptional regulator Myc Proteins 0.000 description 13
- 101150109071 UBC gene Proteins 0.000 description 13
- 210000004899 c-terminal region Anatomy 0.000 description 13
- 238000012216 screening Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 12
- 238000012512 characterization method Methods 0.000 description 12
- 238000010200 validation analysis Methods 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 11
- 239000013604 expression vector Substances 0.000 description 11
- 239000012634 fragment Substances 0.000 description 11
- 238000001890 transfection Methods 0.000 description 11
- 238000000684 flow cytometry Methods 0.000 description 10
- 238000013207 serial dilution Methods 0.000 description 10
- 238000006467 substitution reaction Methods 0.000 description 10
- 108091028664 Ribonucleotide Proteins 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 9
- 239000002336 ribonucleotide Substances 0.000 description 9
- 125000002652 ribonucleotide group Chemical group 0.000 description 9
- 108020004465 16S ribosomal RNA Proteins 0.000 description 8
- 238000010362 genome editing Methods 0.000 description 8
- 238000010453 CRISPR/Cas method Methods 0.000 description 7
- 230000001413 cellular effect Effects 0.000 description 7
- 229920000642 polymer Polymers 0.000 description 7
- 210000004986 primary T-cell Anatomy 0.000 description 7
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 6
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 6
- 241000191967 Staphylococcus aureus Species 0.000 description 6
- 230000011559 double-strand break repair via nonhomologous end joining Effects 0.000 description 6
- 230000001105 regulatory effect Effects 0.000 description 6
- 241000894007 species Species 0.000 description 6
- 238000013518 transcription Methods 0.000 description 6
- 230000035897 transcription Effects 0.000 description 6
- 229950010342 uridine triphosphate Drugs 0.000 description 6
- 230000007018 DNA scission Effects 0.000 description 5
- 125000003275 alpha amino acid group Chemical group 0.000 description 5
- 230000003197 catalytic effect Effects 0.000 description 5
- 238000012761 co-transfection Methods 0.000 description 5
- VYXSBFYARXAAKO-UHFFFAOYSA-N ethyl 2-[3-(ethylamino)-6-ethylimino-2,7-dimethylxanthen-9-yl]benzoate;hydron;chloride Chemical compound [Cl-].C1=2C=C(C)C(NCC)=CC=2OC2=CC(=[NH+]CC)C(C)=CC2=C1C1=CC=CC=C1C(=O)OCC VYXSBFYARXAAKO-UHFFFAOYSA-N 0.000 description 5
- 230000012010 growth Effects 0.000 description 5
- 238000001727 in vivo Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 230000035772 mutation Effects 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 230000009663 quantitative growth Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 239000000523 sample Substances 0.000 description 5
- 239000001226 triphosphate Substances 0.000 description 5
- 235000011178 triphosphate Nutrition 0.000 description 5
- OAKPWEUQDVLTCN-NKWVEPMBSA-N 2',3'-Dideoxyadenosine-5-triphosphate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@H]1CC[C@@H](CO[P@@](O)(=O)O[P@](O)(=O)OP(O)(O)=O)O1 OAKPWEUQDVLTCN-NKWVEPMBSA-N 0.000 description 4
- 101001131990 Homo sapiens Peroxidasin homolog Proteins 0.000 description 4
- 102100034601 Peroxidasin homolog Human genes 0.000 description 4
- 238000003559 RNA-seq method Methods 0.000 description 4
- 241000193996 Streptococcus pyogenes Species 0.000 description 4
- ARLKCWCREKRROD-POYBYMJQSA-N [[(2s,5r)-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl] phosphono hydrogen phosphate Chemical compound O=C1N=C(N)C=CN1[C@@H]1O[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)CC1 ARLKCWCREKRROD-POYBYMJQSA-N 0.000 description 4
- RGWHQCVHVJXOKC-SHYZEUOFSA-J dCTP(4-) Chemical compound O=C1N=C(N)C=CN1[C@@H]1O[C@H](COP([O-])(=O)OP([O-])(=O)OP([O-])([O-])=O)[C@@H](O)C1 RGWHQCVHVJXOKC-SHYZEUOFSA-J 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 239000013613 expression plasmid Substances 0.000 description 4
- 239000011325 microbead Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- ABZLKHKQJHEPAX-UHFFFAOYSA-N tetramethylrhodamine Chemical compound C=12C=CC(N(C)C)=CC2=[O+]C2=CC(N(C)C)=CC=C2C=1C1=CC=CC=C1C([O-])=O ABZLKHKQJHEPAX-UHFFFAOYSA-N 0.000 description 4
- 241000186045 Actinomyces naeslundii Species 0.000 description 3
- 108010053770 Deoxyribonucleases Proteins 0.000 description 3
- 102000016911 Deoxyribonucleases Human genes 0.000 description 3
- AHCYMLUZIRLXAA-SHYZEUOFSA-N Deoxyuridine 5'-triphosphate Chemical compound O1[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C[C@@H]1N1C(=O)NC(=O)C=C1 AHCYMLUZIRLXAA-SHYZEUOFSA-N 0.000 description 3
- 108700024394 Exon Proteins 0.000 description 3
- 101000581981 Homo sapiens Neural cell adhesion molecule 1 Proteins 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 102100027347 Neural cell adhesion molecule 1 Human genes 0.000 description 3
- 241001261005 Verrucomicrobia Species 0.000 description 3
- HDRRAMINWIWTNU-NTSWFWBYSA-N [[(2s,5r)-5-(2-amino-6-oxo-3h-purin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl] phosphono hydrogen phosphate Chemical compound C1=2NC(N)=NC(=O)C=2N=CN1[C@H]1CC[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 HDRRAMINWIWTNU-NTSWFWBYSA-N 0.000 description 3
- 230000000735 allogeneic effect Effects 0.000 description 3
- 125000000539 amino acid group Chemical group 0.000 description 3
- URGJWIFLBWJRMF-JGVFFNPUSA-N ddTTP Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)CC1 URGJWIFLBWJRMF-JGVFFNPUSA-N 0.000 description 3
- 238000010790 dilution Methods 0.000 description 3
- 239000012895 dilution Substances 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000004520 electroporation Methods 0.000 description 3
- 239000003623 enhancer Substances 0.000 description 3
- 230000002255 enzymatic effect Effects 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 229920002521 macromolecule Polymers 0.000 description 3
- 239000002609 medium Substances 0.000 description 3
- 108091070501 miRNA Proteins 0.000 description 3
- 230000008488 polyadenylation Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000000746 purification Methods 0.000 description 3
- PYWVYCXTNDRMGF-UHFFFAOYSA-N rhodamine B Chemical compound [Cl-].C=12C=CC(=[N+](CC)CC)C=C2OC2=CC(N(CC)CC)=CC=C2C=1C1=CC=CC=C1C(O)=O PYWVYCXTNDRMGF-UHFFFAOYSA-N 0.000 description 3
- 239000013049 sediment Substances 0.000 description 3
- 239000011780 sodium chloride Substances 0.000 description 3
- 239000002689 soil Substances 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 125000002264 triphosphate group Chemical class [H]OP(=O)(O[H])OP(=O)(O[H])OP(=O)(O[H])O* 0.000 description 3
- 230000003612 virological effect Effects 0.000 description 3
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 2
- VGIRNWJSIRVFRT-UHFFFAOYSA-N 2',7'-difluorofluorescein Chemical compound OC(=O)C1=CC=CC=C1C1=C2C=C(F)C(=O)C=C2OC2=CC(O)=C(F)C=C21 VGIRNWJSIRVFRT-UHFFFAOYSA-N 0.000 description 2
- QKNYBSVHEMOAJP-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;hydron;chloride Chemical compound Cl.OCC(N)(CO)CO QKNYBSVHEMOAJP-UHFFFAOYSA-N 0.000 description 2
- WCKQPPQRFNHPRJ-UHFFFAOYSA-N 4-[[4-(dimethylamino)phenyl]diazenyl]benzoic acid Chemical compound C1=CC(N(C)C)=CC=C1N=NC1=CC=C(C(O)=O)C=C1 WCKQPPQRFNHPRJ-UHFFFAOYSA-N 0.000 description 2
- ZKHQWZAMYRWXGA-KQYNXXCUSA-J ATP(4-) Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP([O-])(=O)OP([O-])(=O)OP([O-])([O-])=O)[C@@H](O)[C@H]1O ZKHQWZAMYRWXGA-KQYNXXCUSA-J 0.000 description 2
- ZKHQWZAMYRWXGA-UHFFFAOYSA-N Adenosine triphosphate Natural products C1=NC=2C(N)=NC=NC=2N1C1OC(COP(O)(=O)OP(O)(=O)OP(O)(O)=O)C(O)C1O ZKHQWZAMYRWXGA-UHFFFAOYSA-N 0.000 description 2
- 108091093088 Amplicon Proteins 0.000 description 2
- 241000203069 Archaea Species 0.000 description 2
- 241001480043 Arthrodermataceae Species 0.000 description 2
- 241000218631 Coniferophyta Species 0.000 description 2
- KQLDDLUWUFBQHP-UHFFFAOYSA-N Cordycepin Natural products C1=NC=2C(N)=NC=NC=2N1C1OCC(CO)C1O KQLDDLUWUFBQHP-UHFFFAOYSA-N 0.000 description 2
- FBPFZTCFMRRESA-KVTDHHQDSA-N D-Mannitol Chemical compound OC[C@@H](O)[C@@H](O)[C@H](O)[C@H](O)CO FBPFZTCFMRRESA-KVTDHHQDSA-N 0.000 description 2
- 108090000626 DNA-directed RNA polymerases Proteins 0.000 description 2
- 102000004163 DNA-directed RNA polymerases Human genes 0.000 description 2
- 241001508502 Dermabacter Species 0.000 description 2
- 101150047053 GR gene Proteins 0.000 description 2
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 2
- XKMLYUALXHKNFT-UUOKFMHZSA-N Guanosine-5'-triphosphate Chemical compound C1=2NC(N)=NC(=O)C=2N=CN1[C@@H]1O[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)[C@H]1O XKMLYUALXHKNFT-UUOKFMHZSA-N 0.000 description 2
- 108091006054 His-tagged proteins Proteins 0.000 description 2
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 2
- TWRXJAOTZQYOKJ-UHFFFAOYSA-L Magnesium chloride Chemical compound [Mg+2].[Cl-].[Cl-] TWRXJAOTZQYOKJ-UHFFFAOYSA-L 0.000 description 2
- 229930195725 Mannitol Natural products 0.000 description 2
- XUMBMVFBXHLACL-UHFFFAOYSA-N Melanin Chemical compound O=C1C(=O)C(C2=CNC3=C(C(C(=O)C4=C32)=O)C)=C2C4=CNC2=C1C XUMBMVFBXHLACL-UHFFFAOYSA-N 0.000 description 2
- 101150065958 NR3C1 gene Proteins 0.000 description 2
- 108091034117 Oligonucleotide Proteins 0.000 description 2
- 102000006382 Ribonucleases Human genes 0.000 description 2
- 108010083644 Ribonucleases Proteins 0.000 description 2
- 108091027967 Small hairpin RNA Proteins 0.000 description 2
- 108020004459 Small interfering RNA Proteins 0.000 description 2
- 108091008874 T cell receptors Proteins 0.000 description 2
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 description 2
- 108020004566 Transfer RNA Proteins 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 208000000260 Warts Diseases 0.000 description 2
- 238000002679 ablation Methods 0.000 description 2
- 239000011543 agarose gel Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000003115 biocidal effect Effects 0.000 description 2
- 230000004071 biological effect Effects 0.000 description 2
- 108091092259 cell-free RNA Proteins 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- OFEZSBMBBKLLBJ-BAJZRUMYSA-N cordycepin Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)C[C@H]1O OFEZSBMBBKLLBJ-BAJZRUMYSA-N 0.000 description 2
- OFEZSBMBBKLLBJ-UHFFFAOYSA-N cordycepine Natural products C1=NC=2C(N)=NC=NC=2N1C1OC(CO)CC1O OFEZSBMBBKLLBJ-UHFFFAOYSA-N 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- SUYVUBYJARFZHO-RRKCRQDMSA-N dATP Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 SUYVUBYJARFZHO-RRKCRQDMSA-N 0.000 description 2
- SUYVUBYJARFZHO-UHFFFAOYSA-N dATP Natural products C1=NC=2C(N)=NC=NC=2N1C1CC(O)C(COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 SUYVUBYJARFZHO-UHFFFAOYSA-N 0.000 description 2
- 230000037304 dermatophytes Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000034431 double-strand break repair via homologous recombination Effects 0.000 description 2
- LYCAIKOWRPUZTN-UHFFFAOYSA-N ethylene glycol Natural products OCCO LYCAIKOWRPUZTN-UHFFFAOYSA-N 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- GNBHRKFJIUUOQI-UHFFFAOYSA-N fluorescein Chemical compound O1C(=O)C2=CC=CC=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 GNBHRKFJIUUOQI-UHFFFAOYSA-N 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 229930182470 glycoside Natural products 0.000 description 2
- 150000002338 glycosides Chemical class 0.000 description 2
- 238000011534 incubation Methods 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000000594 mannitol Substances 0.000 description 2
- 235000010355 mannitol Nutrition 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 229930182817 methionine Natural products 0.000 description 2
- 238000010369 molecular cloning Methods 0.000 description 2
- 239000002243 precursor Substances 0.000 description 2
- 239000011541 reaction mixture Substances 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 108020004418 ribosomal RNA Proteins 0.000 description 2
- 201000010153 skin papilloma Diseases 0.000 description 2
- 150000003384 small molecules Chemical class 0.000 description 2
- 235000000346 sugar Nutrition 0.000 description 2
- 150000008163 sugars Chemical class 0.000 description 2
- MPLHNVLQVRSVEE-UHFFFAOYSA-N texas red Chemical compound [O-]S(=O)(=O)C1=CC(S(Cl)(=O)=O)=CC=C1C(C1=CC=2CCCN3CCCC(C=23)=C1O1)=C2C1=C(CCC1)C3=[N+]1CCCC3=C2 MPLHNVLQVRSVEE-UHFFFAOYSA-N 0.000 description 2
- 230000035899 viability Effects 0.000 description 2
- JKMHFZQWWAIEOD-UHFFFAOYSA-N 2-[4-(2-hydroxyethyl)piperazin-1-yl]ethanesulfonic acid Chemical compound OCC[NH+]1CCN(CCS([O-])(=O)=O)CC1 JKMHFZQWWAIEOD-UHFFFAOYSA-N 0.000 description 1
- VLEIUWBSEKKKFX-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;2-[2-[bis(carboxymethyl)amino]ethyl-(carboxymethyl)amino]acetic acid Chemical compound OCC(N)(CO)CO.OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O VLEIUWBSEKKKFX-UHFFFAOYSA-N 0.000 description 1
- LAXVMANLDGWYJP-UHFFFAOYSA-N 2-amino-5-(2-aminoethyl)naphthalene-1-sulfonic acid Chemical compound NC1=CC=C2C(CCN)=CC=CC2=C1S(O)(=O)=O LAXVMANLDGWYJP-UHFFFAOYSA-N 0.000 description 1
- 101150029857 23 gene Proteins 0.000 description 1
- 101150094083 24 gene Proteins 0.000 description 1
- ZLOIGESWDJYCTF-XVFCMESISA-N 4-thiouridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=S)C=C1 ZLOIGESWDJYCTF-XVFCMESISA-N 0.000 description 1
- SJQRQOKXQKVJGJ-UHFFFAOYSA-N 5-(2-aminoethylamino)naphthalene-1-sulfonic acid Chemical compound C1=CC=C2C(NCCN)=CC=CC2=C1S(O)(=O)=O SJQRQOKXQKVJGJ-UHFFFAOYSA-N 0.000 description 1
- LQLQRFGHAALLLE-UHFFFAOYSA-N 5-bromouracil Chemical compound BrC1=CNC(=O)NC1=O LQLQRFGHAALLLE-UHFFFAOYSA-N 0.000 description 1
- NJYVEMPWNAYQQN-UHFFFAOYSA-N 5-carboxyfluorescein Chemical compound C12=CC=C(O)C=C2OC2=CC(O)=CC=C2C21OC(=O)C1=CC(C(=O)O)=CC=C21 NJYVEMPWNAYQQN-UHFFFAOYSA-N 0.000 description 1
- WQZIDRAQTRIQDX-UHFFFAOYSA-N 6-carboxy-x-rhodamine Chemical compound OC(=O)C1=CC=C(C([O-])=O)C=C1C(C1=CC=2CCCN3CCCC(C=23)=C1O1)=C2C1=C(CCC1)C3=[N+]1CCCC3=C2 WQZIDRAQTRIQDX-UHFFFAOYSA-N 0.000 description 1
- FVFVNNKYKYZTJU-UHFFFAOYSA-N 6-chloro-1,3,5-triazine-2,4-diamine Chemical compound NC1=NC(N)=NC(Cl)=N1 FVFVNNKYKYZTJU-UHFFFAOYSA-N 0.000 description 1
- HRPVXLWXLXDGHG-UHFFFAOYSA-N Acrylamide Chemical compound NC(=O)C=C HRPVXLWXLXDGHG-UHFFFAOYSA-N 0.000 description 1
- 241000251468 Actinopterygii Species 0.000 description 1
- 235000001674 Agaricus brunnescens Nutrition 0.000 description 1
- 101100123845 Aphanizomenon flos-aquae (strain 2012/KM1/D3) hepT gene Proteins 0.000 description 1
- 239000004475 Arginine Substances 0.000 description 1
- 239000000592 Artificial Cell Substances 0.000 description 1
- 241000512259 Ascophyllum nodosum Species 0.000 description 1
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 description 1
- 241000271566 Aves Species 0.000 description 1
- 235000000832 Ayote Nutrition 0.000 description 1
- 102000006942 B-Cell Maturation Antigen Human genes 0.000 description 1
- 108010008014 B-Cell Maturation Antigen Proteins 0.000 description 1
- 241000193830 Bacillus <bacterium> Species 0.000 description 1
- 241001474374 Blennius Species 0.000 description 1
- 241001465180 Botrytis Species 0.000 description 1
- 101150002659 CD38 gene Proteins 0.000 description 1
- 108091079001 CRISPR RNA Proteins 0.000 description 1
- 238000010354 CRISPR gene editing Methods 0.000 description 1
- 241001175455 Candidatus Melainabacteria Species 0.000 description 1
- 241000223282 Candidatus Peregrinibacteria Species 0.000 description 1
- 244000025254 Cannabis sativa Species 0.000 description 1
- 235000012766 Cannabis sativa ssp. sativa var. sativa Nutrition 0.000 description 1
- 235000012765 Cannabis sativa ssp. sativa var. spontanea Nutrition 0.000 description 1
- 241000252229 Carassius auratus Species 0.000 description 1
- 108090000994 Catalytic RNA Proteins 0.000 description 1
- 102000053642 Catalytic RNA Human genes 0.000 description 1
- 241000195585 Chlamydomonas Species 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 229920000742 Cotton Polymers 0.000 description 1
- 108091029523 CpG island Proteins 0.000 description 1
- 241000938605 Crocodylia Species 0.000 description 1
- 241000195493 Cryptophyta Species 0.000 description 1
- 240000004244 Cucurbita moschata Species 0.000 description 1
- 235000009854 Cucurbita moschata Nutrition 0.000 description 1
- 235000009804 Cucurbita pepo subsp pepo Nutrition 0.000 description 1
- 102000004127 Cytokines Human genes 0.000 description 1
- 108090000695 Cytokines Proteins 0.000 description 1
- 150000008574 D-amino acids Chemical class 0.000 description 1
- 102000012410 DNA Ligases Human genes 0.000 description 1
- 108010061982 DNA Ligases Proteins 0.000 description 1
- 239000012625 DNA intercalator Substances 0.000 description 1
- 230000006820 DNA synthesis Effects 0.000 description 1
- 239000006144 Dulbecco’s modified Eagle's medium Substances 0.000 description 1
- 241000258955 Echinodermata Species 0.000 description 1
- 102100030011 Endoribonuclease Human genes 0.000 description 1
- 108010093099 Endoribonucleases Proteins 0.000 description 1
- 101100382541 Escherichia coli (strain K12) casD gene Proteins 0.000 description 1
- 241000266331 Eugenia Species 0.000 description 1
- 108700028146 Genetic Enhancer Elements Proteins 0.000 description 1
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 1
- 239000004471 Glycine Substances 0.000 description 1
- 244000068988 Glycine max Species 0.000 description 1
- 235000010469 Glycine max Nutrition 0.000 description 1
- 241000219146 Gossypium Species 0.000 description 1
- 239000007995 HEPES buffer Substances 0.000 description 1
- 102000029812 HNH nuclease Human genes 0.000 description 1
- 108060003760 HNH nuclease Proteins 0.000 description 1
- 102000003839 Human Proteins Human genes 0.000 description 1
- 108090000144 Human Proteins Proteins 0.000 description 1
- 229930010555 Inosine Natural products 0.000 description 1
- UGQMRVRMYYASKQ-KQYNXXCUSA-N Inosine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C2=NC=NC(O)=C2N=C1 UGQMRVRMYYASKQ-KQYNXXCUSA-N 0.000 description 1
- 102100034343 Integrase Human genes 0.000 description 1
- 101710203526 Integrase Proteins 0.000 description 1
- 108091029795 Intergenic region Proteins 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 1
- 150000008575 L-amino acids Chemical class 0.000 description 1
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical compound OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 description 1
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 1
- HNDVDQJCIGZPNO-YFKPBYRVSA-N L-histidine Chemical compound OC(=O)[C@@H](N)CC1=CN=CN1 HNDVDQJCIGZPNO-YFKPBYRVSA-N 0.000 description 1
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 1
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 1
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 1
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 1
- 241000218652 Larix Species 0.000 description 1
- 235000005590 Larix decidua Nutrition 0.000 description 1
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 1
- 239000004472 Lysine Substances 0.000 description 1
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 1
- 241000218922 Magnoliophyta Species 0.000 description 1
- 240000003183 Manihot esculenta Species 0.000 description 1
- 235000016735 Manihot esculenta subsp esculenta Nutrition 0.000 description 1
- 108060004795 Methyltransferase Proteins 0.000 description 1
- 102000016397 Methyltransferase Human genes 0.000 description 1
- 101100387131 Myxococcus xanthus (strain DK1622) devS gene Proteins 0.000 description 1
- 241000224474 Nannochloropsis Species 0.000 description 1
- 241001250129 Nannochloropsis gaditana Species 0.000 description 1
- 241000244206 Nematoda Species 0.000 description 1
- 244000061176 Nicotiana tabacum Species 0.000 description 1
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 1
- 108020004711 Nucleic Acid Probes Proteins 0.000 description 1
- 108091005461 Nucleic proteins Proteins 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 229910019142 PO4 Inorganic materials 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 108091005804 Peptidases Proteins 0.000 description 1
- 108091093037 Peptide nucleic acid Proteins 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 241000985694 Polypodiopsida Species 0.000 description 1
- 239000004365 Protease Substances 0.000 description 1
- 102000002067 Protein Subunits Human genes 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 229930185560 Pseudouridine Natural products 0.000 description 1
- PTJWIQPHWPFNBW-UHFFFAOYSA-N Pseudouridine C Natural products OC1C(O)C(CO)OC1C1=CNC(=O)NC1=O PTJWIQPHWPFNBW-UHFFFAOYSA-N 0.000 description 1
- 101710086053 Putative endonuclease Proteins 0.000 description 1
- 230000006819 RNA synthesis Effects 0.000 description 1
- 230000004570 RNA-binding Effects 0.000 description 1
- 241000700159 Rattus Species 0.000 description 1
- 108020004511 Recombinant DNA Proteins 0.000 description 1
- 108010008281 Recombinant Fusion Proteins Proteins 0.000 description 1
- 102000007056 Recombinant Fusion Proteins Human genes 0.000 description 1
- 102000018120 Recombinases Human genes 0.000 description 1
- 108010091086 Recombinases Proteins 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 102100037486 Reverse transcriptase/ribonuclease H Human genes 0.000 description 1
- 241000219053 Rumex Species 0.000 description 1
- 240000000111 Saccharum officinarum Species 0.000 description 1
- 235000007201 Saccharum officinarum Nutrition 0.000 description 1
- 241000195474 Sargassum Species 0.000 description 1
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 1
- 240000003768 Solanum lycopersicum Species 0.000 description 1
- 244000061456 Solanum tuberosum Species 0.000 description 1
- 235000002595 Solanum tuberosum Nutrition 0.000 description 1
- 241000320123 Streptococcus pyogenes M1 GAS Species 0.000 description 1
- 241000282887 Suidae Species 0.000 description 1
- 108700026226 TATA Box Proteins 0.000 description 1
- PZBFGYYEXUXCOF-UHFFFAOYSA-N TCEP Chemical compound OC(=O)CCP(CCC(O)=O)CCC(O)=O PZBFGYYEXUXCOF-UHFFFAOYSA-N 0.000 description 1
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 1
- 239000004473 Threonine Substances 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 239000007983 Tris buffer Substances 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 244000098338 Triticum aestivum Species 0.000 description 1
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 1
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- NOXMCJDDSWCSIE-DAGMQNCNSA-N [[(2R,3S,4R,5R)-5-(2-amino-4-oxo-3H-pyrrolo[2,3-d]pyrimidin-7-yl)-3,4-dihydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl] phosphono hydrogen phosphate Chemical compound C1=2NC(N)=NC(=O)C=2C=CN1[C@@H]1O[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)[C@H]1O NOXMCJDDSWCSIE-DAGMQNCNSA-N 0.000 description 1
- AZJLCKAEZFNJDI-DJLDLDEBSA-N [[(2r,3s,5r)-5-(4-aminopyrrolo[2,3-d]pyrimidin-7-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl] phosphono hydrogen phosphate Chemical compound C1=CC=2C(N)=NC=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 AZJLCKAEZFNJDI-DJLDLDEBSA-N 0.000 description 1
- AZRNEVJSOSKAOC-VPHBQDTQSA-N [[(2r,3s,5r)-5-[5-[(e)-3-[6-[5-[(3as,4s,6ar)-2-oxo-1,3,3a,4,6,6a-hexahydrothieno[3,4-d]imidazol-4-yl]pentanoylamino]hexanoylamino]prop-1-enyl]-2,4-dioxopyrimidin-1-yl]-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl] phosphono hydrogen phosphate Chemical compound O1[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C[C@@H]1N1C(=O)NC(=O)C(\C=C\CNC(=O)CCCCCNC(=O)CCCC[C@H]2[C@H]3NC(=O)N[C@H]3CS2)=C1 AZRNEVJSOSKAOC-VPHBQDTQSA-N 0.000 description 1
- PGAVKCOVUIYSFO-UHFFFAOYSA-N [[5-(2,4-dioxopyrimidin-1-yl)-3,4-dihydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl] phosphono hydrogen phosphate Chemical compound OC1C(O)C(COP(O)(=O)OP(O)(=O)OP(O)(O)=O)OC1N1C(=O)NC(=O)C=C1 PGAVKCOVUIYSFO-UHFFFAOYSA-N 0.000 description 1
- ZXZIQGYRHQJWSY-NKWVEPMBSA-N [hydroxy-[[(2s,5r)-5-(6-oxo-3h-purin-9-yl)oxolan-2-yl]methoxy]phosphoryl] phosphono hydrogen phosphate Chemical compound O1[C@H](COP(O)(=O)OP(O)(=O)OP(O)(=O)O)CC[C@@H]1N1C(NC=NC2=O)=C2N=C1 ZXZIQGYRHQJWSY-NKWVEPMBSA-N 0.000 description 1
- 230000021736 acetylation Effects 0.000 description 1
- 238000006640 acetylation reaction Methods 0.000 description 1
- 102000005421 acetyltransferase Human genes 0.000 description 1
- 108020002494 acetyltransferase Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 210000005006 adaptive immune system Anatomy 0.000 description 1
- 238000001042 affinity chromatography Methods 0.000 description 1
- 238000000246 agarose gel electrophoresis Methods 0.000 description 1
- 235000004279 alanine Nutrition 0.000 description 1
- 150000003862 amino acid derivatives Chemical class 0.000 description 1
- 239000003242 anti bacterial agent Substances 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 1
- 235000009582 asparagine Nutrition 0.000 description 1
- 229960001230 asparagine Drugs 0.000 description 1
- 125000000613 asparagine group Chemical group N[C@@H](CC(N)=O)C(=O)* 0.000 description 1
- 235000003704 aspartic acid Nutrition 0.000 description 1
- WGDUUQDYDIIBKT-UHFFFAOYSA-N beta-Pseudouridine Natural products OC1OC(CN2C=CC(=O)NC2=O)C(O)C1O WGDUUQDYDIIBKT-UHFFFAOYSA-N 0.000 description 1
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 1
- 230000008238 biochemical pathway Effects 0.000 description 1
- 239000011616 biotin Substances 0.000 description 1
- 229960002685 biotin Drugs 0.000 description 1
- 235000020958 biotin Nutrition 0.000 description 1
- 238000006664 bond formation reaction Methods 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 235000009120 camo Nutrition 0.000 description 1
- 101150049463 cas5 gene Proteins 0.000 description 1
- CZPLANDPABRVHX-UHFFFAOYSA-N cascade blue Chemical compound C=1C2=CC=CC=C2C(NCC)=CC=1C(C=1C=CC(=CC=1)N(CC)CC)=C1C=CC(=[N+](CC)CC)C=C1 CZPLANDPABRVHX-UHFFFAOYSA-N 0.000 description 1
- 230000030833 cell death Effects 0.000 description 1
- 230000010261 cell growth Effects 0.000 description 1
- 239000002771 cell marker Substances 0.000 description 1
- 235000013339 cereals Nutrition 0.000 description 1
- 235000005607 chanvre indien Nutrition 0.000 description 1
- 238000007385 chemical modification Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- NKLPQNGYXWVELD-UHFFFAOYSA-M coomassie brilliant blue Chemical compound [Na+].C1=CC(OCC)=CC=C1NC1=CC=C(C(=C2C=CC(C=C2)=[N+](CC)CC=2C=C(C=CC=2)S([O-])(=O)=O)C=2C=CC(=CC=2)N(CC)CC=2C=C(C=CC=2)S([O-])(=O)=O)C=C1 NKLPQNGYXWVELD-UHFFFAOYSA-M 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- HAAZLUGHYHWQIW-KVQBGUIXSA-N dGTP Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 HAAZLUGHYHWQIW-KVQBGUIXSA-N 0.000 description 1
- UFJPAQSLHAGEBL-RRKCRQDMSA-N dITP Chemical compound O1[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C[C@@H]1N1C(N=CNC2=O)=C2N=C1 UFJPAQSLHAGEBL-RRKCRQDMSA-N 0.000 description 1
- NHVNXKFIZYSCEB-XLPZGREQSA-N dTTP Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C1 NHVNXKFIZYSCEB-XLPZGREQSA-N 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000000326 densiometry Methods 0.000 description 1
- 239000005549 deoxyribonucleoside Substances 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000005546 dideoxynucleotide Substances 0.000 description 1
- ZPTBLXKRQACLCR-XVFCMESISA-N dihydrouridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)CC1 ZPTBLXKRQACLCR-XVFCMESISA-N 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- ZMMJGEGLRURXTF-UHFFFAOYSA-N ethidium bromide Chemical compound [Br-].C12=CC(N)=CC=C2C2=CC=C(N)C=C2[N+](CC)=C1C1=CC=CC=C1 ZMMJGEGLRURXTF-UHFFFAOYSA-N 0.000 description 1
- 229960005542 ethidium bromide Drugs 0.000 description 1
- 108020001507 fusion proteins Proteins 0.000 description 1
- 102000037865 fusion proteins Human genes 0.000 description 1
- 238000001476 gene delivery Methods 0.000 description 1
- 239000003862 glucocorticoid Substances 0.000 description 1
- 235000013922 glutamic acid Nutrition 0.000 description 1
- 239000004220 glutamic acid Substances 0.000 description 1
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 1
- 230000013595 glycosylation Effects 0.000 description 1
- 238000006206 glycosylation reaction Methods 0.000 description 1
- 229940029575 guanosine Drugs 0.000 description 1
- 239000011487 hemp Substances 0.000 description 1
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 1
- 230000006801 homologous recombination Effects 0.000 description 1
- 238000002744 homologous recombination Methods 0.000 description 1
- 101150090192 how gene Proteins 0.000 description 1
- 244000005702 human microbiome Species 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 238000012750 in vivo screening Methods 0.000 description 1
- 230000000415 inactivating effect Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 229960003786 inosine Drugs 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 229960000310 isoleucine Drugs 0.000 description 1
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 1
- 231100000518 lethal Toxicity 0.000 description 1
- 230000001665 lethal effect Effects 0.000 description 1
- 230000029226 lipidation Effects 0.000 description 1
- 239000002502 liposome Substances 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 229910001629 magnesium chloride Inorganic materials 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000037353 metabolic pathway Effects 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 230000002906 microbiologic effect Effects 0.000 description 1
- 210000001589 microsome Anatomy 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000003068 molecular probe Substances 0.000 description 1
- 125000004573 morpholin-4-yl group Chemical group N1(CCOCC1)* 0.000 description 1
- 238000002887 multiple sequence alignment Methods 0.000 description 1
- 230000006780 non-homologous end joining Effects 0.000 description 1
- 239000002853 nucleic acid probe Substances 0.000 description 1
- 238000012803 optimization experiment Methods 0.000 description 1
- 230000003647 oxidation Effects 0.000 description 1
- 238000007254 oxidation reaction Methods 0.000 description 1
- 239000003415 peat Substances 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 239000010452 phosphate Substances 0.000 description 1
- 230000026731 phosphorylation Effects 0.000 description 1
- 238000006366 phosphorylation reaction Methods 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 239000013600 plasmid vector Substances 0.000 description 1
- 230000023603 positive regulation of transcription initiation, DNA-dependent Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 235000004252 protein component Nutrition 0.000 description 1
- PTJWIQPHWPFNBW-GBNDHIKLSA-N pseudouridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1C1=CNC(=O)NC1=O PTJWIQPHWPFNBW-GBNDHIKLSA-N 0.000 description 1
- 235000015136 pumpkin Nutrition 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 238000010188 recombinant method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001177 retroviral effect Effects 0.000 description 1
- 239000002342 ribonucleoside Substances 0.000 description 1
- 108091092562 ribozyme Proteins 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 101150071322 ruvC gene Proteins 0.000 description 1
- 229930000044 secondary metabolite Natural products 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000003007 single stranded DNA break Effects 0.000 description 1
- 238000002415 sodium dodecyl sulfate polyacrylamide gel electrophoresis Methods 0.000 description 1
- 239000007790 solid phase Substances 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 230000009870 specific binding Effects 0.000 description 1
- 238000010186 staining Methods 0.000 description 1
- 239000012536 storage buffer Substances 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 229940037128 systemic glucocorticoids Drugs 0.000 description 1
- IBVCSSOEYUMRLC-GABYNLOESA-N texas red-5-dutp Chemical compound O1[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C[C@@H]1N1C(=O)NC(=O)C(C#CCNS(=O)(=O)C=2C=C(C(C=3C4=CC=5CCCN6CCCC(C=56)=C4OC4=C5C6=[N+](CCC5)CCCC6=CC4=3)=CC=2)S([O-])(=O)=O)=C1 IBVCSSOEYUMRLC-GABYNLOESA-N 0.000 description 1
- 150000003573 thiols Chemical class 0.000 description 1
- ANRHNWWPFJCPAZ-UHFFFAOYSA-M thionine Chemical compound [Cl-].C1=CC(N)=CC2=[S+]C3=CC(N)=CC=C3N=C21 ANRHNWWPFJCPAZ-UHFFFAOYSA-M 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000003151 transfection method Methods 0.000 description 1
- UNXRWKVEANCORM-UHFFFAOYSA-N triphosphoric acid Chemical compound OP(O)(=O)OP(O)(=O)OP(O)(O)=O UNXRWKVEANCORM-UHFFFAOYSA-N 0.000 description 1
- LENZDBCJOHFCAS-UHFFFAOYSA-N tris Chemical compound OCC(N)(CO)CO LENZDBCJOHFCAS-UHFFFAOYSA-N 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 230000034512 ubiquitination Effects 0.000 description 1
- 238000010798 ubiquitination Methods 0.000 description 1
- 239000004474 valine Substances 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
- 239000013603 viral vector Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 210000005253 yeast cell Anatomy 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/102—Mutagenizing nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/16—Hydrolases (3) acting on ester bonds (3.1)
- C12N9/22—Ribonucleases RNAses, DNAses
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/113—Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/87—Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
- C12N15/90—Stable introduction of foreign DNA into chromosome
- C12N15/902—Stable introduction of foreign DNA into chromosome using homologous recombination
- C12N15/907—Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K2319/00—Fusion polypeptide
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K2319/00—Fusion polypeptide
- C07K2319/01—Fusion polypeptide containing a localisation/targetting motif
- C07K2319/09—Fusion polypeptide containing a localisation/targetting motif containing a nuclear localisation signal
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/10—Type of nucleic acid
- C12N2310/20—Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2800/00—Nucleic acids vectors
- C12N2800/80—Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Biomedical Technology (AREA)
- Zoology (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Wood Science & Technology (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Physics & Mathematics (AREA)
- Plant Pathology (AREA)
- Biophysics (AREA)
- Medicinal Chemistry (AREA)
- Crystallography & Structural Chemistry (AREA)
- Mycology (AREA)
- Cell Biology (AREA)
- Enzymes And Modification Thereof (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本公开提供了一种具有区别性结构域特征的核酸内切酶,以及使用此类酶或其变体的方法。
Description
相关申请
本申请要求于2020年5月8日提交的名称为“具有RuvC结构域的酶”的美国临时申请号63/022,320、于2020年5月29日提交的名称为“具有RuvC结构域的酶”的美国临时申请号63/032,464、于2020年11月19日提交的名称为“具有RuvC结构域的酶”的美国临时申请号63/116,155、于2021年4月27日提交的名称为“具有RuvC结构域的酶”的美国临时申请号63/180,570的优先权,所有这些申请以其全文通过引用并入本文。
背景技术
Cas酶连同它们相关的成簇的规律间隔的短回文重复序列(CRISPR)指导核糖核酸(RNA)似乎是原核免疫系统的普遍(~45%的细菌,~84%的古菌)组分,用于通过CRISPR-RNA指导的核酸剪切保护此类微生物对抗非自身核酸,如感染性病毒和质粒。虽然编码CRISPR RNA元件的脱氧核糖核酸(DNA)元件在结构和长度上可以是相对保守的,但是它们的CRISPR相关(Cas)蛋白是高度多样化的,含有各种各样的核酸相互作用结构域。虽然早在1987年就已经观察到CRISPR DNA元件,但是CRISPR/Cas复合物的可编程核酸内切酶剪切能力(cleavage ability)仅相对最近才被认识到,导致重组CRISPR/Cas系统在多种DNA操纵和基因编辑应用中的使用。
序列表
本申请包含以ASCII格式电子提交的序列表,在此以其全文并入本文。所述ASCII副本在2020年5月29日创建,命名为55921_712_601_SL.txt,大小为24,659,439字节。
发明内容
在一些方面,本公开提供了一种工程化核酸酶系统,其包含:(a)包含RuvC_III结构域和HNH结构域的核酸内切酶,其中核酸内切酶来源于未经培养的微生物,其中核酸内切酶是2类II型Cas核酸内切酶;以及(b)被构造成与核酸内切酶形成复合物的工程化指导核糖核酸结构,其包含:(i)指导核糖核酸序列,其被构造成与靶脱氧核糖核酸序列杂交;和(ii)tracr核糖核酸序列,其被构造成结合核酸内切酶。在一些实施方案中,RuvC_III结构域包含与SEQ ID NO:1827-3637中任一项具有至少70%、至少75%、至少80%、至少85%、至少88%、至少90%、至少92%、至少95%或至少98%序列同一性的序列。
在一些方面,本公开提供了一种工程化核酸酶系统,其包含:(a)具有RuvC_III结构域的核酸内切酶,该RuvC_III结构域与SEQ ID NO:1827-3637中任一项具有至少70%、至少75%、至少80%、至少85%、至少88%、至少90%、至少92%、至少95%或至少98%序列同一性;和(b)被构造成与核酸内切酶形成复合物的工程化指导核糖核酸结构,其包含:(i)指导核糖核酸序列,其被构造成与靶脱氧核糖核酸序列杂交;和(ii)tracr核糖核酸序列,其被构造成结合核酸内切酶。
在一些方面,本公开提供了一种工程化核酸酶系统,其包含:(a)被构造成结合包含SEQ ID NO:5512-5537的原间隔区相邻基序(PAM)序列的核酸内切酶,其中核酸内切酶是2类II型Cas核酸内切酶;以及(b)被构造成与核酸内切酶形成复合物的工程化指导核糖核酸结构,其包含:(i)指导核糖核酸序列,其被构造成与靶脱氧核糖核酸序列杂交;和(ii)tracr核糖核酸序列,其被构造成结合核酸内切酶。
在一些实施方案中,核酸内切酶来源于未经培养的微生物。在一些实施方案中,核酸内切酶未被工程化以结合不同的PAM序列。在一些实施方案中,核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas13d核酸内切酶。在一些实施方案中,核酸内切酶与Cas9核酸内切酶具有小于80%的同一性。在一些实施方案中,核酸内切酶还包含HNH结构域。在一些实施方案中,tracr核糖核酸序列包含与选自SEQ ID NO:5476-5511和SEQ ID NO:5538中任一项的约60至90个连续核苷酸具有至少80%序列同一性的序列。
在一些方面,本公开提供了一种工程化核酸酶系统,其包含:(a)工程化指导核糖核酸结构,其包含:(i)指导核糖核酸序列,其被构造成与靶脱氧核糖核酸序列杂交;和(ii)tracr核糖核酸序列,其被构造成结合核酸内切酶,其中tracr核糖核酸序列包含与选自SEQID NO:5476-5511和SEQ ID NO:5538中任一项的约60至90个连续核苷酸具有至少80%序列同一性的序列;以及(b)被构造成结合工程化指导核糖核酸的2类II型Cas核酸内切酶。在一些实施方案中,核酸内切酶被构造成结合选自SEQ ID NO:5512-5537的原间隔区相邻基序(PAM)序列。
在一些实施方案中,工程化指导核糖核酸结构包含至少两条核糖核酸多核苷酸。在一些实施方案中,工程化指导核糖核酸结构包含一个含有指导核糖核酸序列和tracr核糖核酸序列的核糖核酸多核苷酸。
在一些实施方案中,指导核糖核酸序列与原核、细菌、古菌、真核、真菌、植物、哺乳动物或人基因组序列互补。在一些实施方案中,指导核糖核酸序列的长度为15-24个核苷酸。在一些实施方案中,核酸内切酶包含邻近核酸内切酶的N-末端或C-末端的一个或多个核定位序列(NLS)。在一些实施方案中,NLS包含选自SEQ ID NO:5597-5612的序列。
在一些实施方案中,工程化核酸酶系统还包含单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含靶脱氧核糖核酸序列5'的至少20个核苷酸的序列;至少10个核苷酸的合成DNA序列;以及第二同源臂,其包含靶序列3'的至少20个核苷酸的序列。在一些实施方案中,第一同源臂或第二同源臂包含至少40、80、120、150、200、300、500或1,000个核苷酸的序列。
在一些实施方案中,系统还物包含Mg2+来源。
在一些实施方案中,核酸内切酶和tracr核糖核酸序列来源于同一门内不同的细菌物种。在一些实施方案中,核酸内切酶来源于属于皮杆菌属(Dermabacter)的细菌。在一些实施方案中,核酸内切酶来源于属于疣微菌门(Phylum Verrucomicrobia)、候选异域菌门(Phylum Candidatus Peregrinibacteria)或候选黑色素杆菌门(Phylum CandidatusMelainabacteria)的细菌。在一些实施方案中,核酸内切酶来源于包含与SEQ ID NO:5592-5595中任一项具有至少90%同一性的16S rRNA基因的细菌。
在一些实施方案中,HNH结构域包含与SEQ ID NO:5638-5460中任一项具有至少70%或至少80%同一性的序列。在一些实施方案中,核酸内切酶包含SEQ ID NO:1-1826或与其具有至少55%同一性的其变体。在一些实施方案中,核酸内切酶包含与选自SEQ IDNO:1827-1830或SEQ ID NO:1827-2140的序列具有至少70%、80%或90%同一性的序列。
在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:3638-3641或SEQ ID NO:3638-3954的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含选自SEQ ID NO:5615-5632的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:1-4或SEQ ID NO:1-319的序列具有至少70%、80%或90%同一性的序列。
在一些实施方案中,指导RNA结构包含与选自SEQ ID NO:5461-5464、SEQ ID NO:5476-5479或SEQ ID NO:5476-5489的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,指导RNA结构包含预测包含由茎和环组成的发夹和不对称凸出(asymmetricbulge)的RNA序列,其中茎包含至少10个、至少12个或至少14个碱基配对的核糖核苷酸,且不对称凸出位于环的4个碱基对内。
在一些实施方案中,核酸内切酶被构造成结合包含选自SEQ ID NO:5512-5515或SEQ ID NO:5527-5530的序列的PAM。
在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:1827具有至少70%、至少80%或至少90%同一性的序列;(b)指导RNA结构包含与SEQ ID NO:5461或SEQ ID NO:5476中的至少一项具有至少70%、至少80%或至少90%同一性的序列;以及(c)核酸内切酶被构造成结合包含SEQ ID NO:5512或SEQ ID NO:5527的PAM。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:1828具有至少70%、至少80%或至少90%同一性的序列;(b)指导RNA结构包含与SEQ ID NO:5462或SEQ ID NO:5477中的至少一项具有至少70%、至少80%或至少90%同一性的序列;以及(c)核酸内切酶被构造成结合包含SEQ ID NO:5513或SEQ IDNO:5528的PAM。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:1829具有至少70%、至少80%或至少90%同一性的序列;(b)指导RNA结构包含与SEQ ID NO:5463或SEQ ID NO:5478中的至少一项具有至少70%、至少80%或至少90%同一性的序列;以及(c)核酸内切酶被构造成结合包含SEQ ID NO:5514或SEQ ID NO:5529的PAM。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:1830具有至少70%、至少80%或至少90%同一性的序列;(b)指导RNA结构包含与SEQ ID NO:5464或SEQ ID NO:5479中的至少一项具有至少70%、至少80%或至少90%同一性的序列;以及(c)核酸内切酶被构造成结合包含SEQ ID NO:5515或SEQID NO:5530的PAM。
在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:2141-2142或SEQ ID NO:2141-2241的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:3955-3956或SEQ ID NO:3955-4055的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含选自SEQ ID NO:5632-5638的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:320-321或SEQ ID NO:320-420的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,指导RNA结构包含与选自SEQ ID NO:5465、SEQ ID NO:5490-5491或SEQ ID NO:5490-5494的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,指导RNA结构包含tracr核糖核酸序列,tracr核糖核酸序列包含发夹,发夹包含至少8个、至少10个或至少12个碱基配对的核糖核苷酸。在一些实施方案中,核酸内切酶被构造成结合包含选自SEQ ID NO:5516和SEQ ID NO:5531的序列的PAM。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:2141具有至少70%、80%或90%同一性的序列;(b)指导RNA结构包含与SEQ ID NO:5490具有至少70%、80%或90%同一性的序列;以及(c)核酸内切酶被构造成结合包含SEQ ID NO:5531的PAM。在一些实施方案中:(a)核酸内切酶包含与SEQ IDNO:2142具有至少70%、80%或90%同一性的序列;(b)指导RNA结构包含与SEQ ID NO:5465或SEQ ID NO:5491具有至少70%、80%或90%同一性的序列;和(c)核酸内切酶被构造成结合包含SEQ ID NO:5516的PAM。
在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:2245-2246的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:4059-4060的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含选自SEQ ID NO:5639-5648的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:424-425的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,指导RNA结构包含与选自SEQ ID NO:5498-5499和SEQ ID NO:5539的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,指导RNA结构包含预测包含发夹的指导核糖核酸序列,发夹具有包含指导核糖核酸序列的至少8个核苷酸和tracr核糖核酸序列的至少8个核苷酸的不间断碱基配对区(uninterrupted base-paired region),并且其中tracr核糖核酸序列从5'至3'包含第一发夹和第二发夹,其中第一发夹具有比第二发夹更长的茎。
在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:2242-2244或SEQ ID NO:2247-2249的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:4056-4058以及SEQ ID NO:4061-4063的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含选自SEQ ID NO:5639-5648的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:421-423或SEQ ID NO:426-428的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,指导RNA结构包含与选自SEQ ID NO:5466-5467、SEQ ID NO:5495-5497、SEQ ID NO:5500-5502和SEQ ID NO:5539的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,指导RNA结构包含预测包含发夹的指导核糖核酸序列,发夹具有包含指导核糖核酸序列的至少8个核苷酸和tracr核糖核酸序列的至少8个核苷酸的不间断碱基配对区(uninterrupted base-paired region),并且其中tracr核糖核酸序列从5'至3'包含第一发夹和第二发夹,其中第一发夹具有比第二发夹更长的茎。在一些实施方案中,核酸内切酶被构造成结合包含选自SEQ ID NO:5517-5518或SEQ ID NO:5532-5534的序列的PAM。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:2247具有至少70%、80%或90%同一性的序列;(b)指导RNA结构包含与SEQ ID NO:5500具有至少70%、80%或90%同一性的序列;以及(c)核酸内切酶被构造成结合包含SEQ ID NO:5517或SEQ ID NO:5532的PAM。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:2248具有至少70%、80%或90%同一性的序列;(b)指导RNA结构包含与SEQ ID NO:5501具有至少70%、80%或90%同一性的序列;以及(c)核酸内切酶被构造成结合包含SEQ ID NO:5518或SEQ ID NO:5533的PAM。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:2249具有至少70%、80%或90%同一性的序列;(b)指导RNA结构包含与SEQ ID NO:5502具有至少70%、80%或90%同一性的序列;以及(c)核酸内切酶被构造成结合包含SEQ ID NO:5534的PAM。
在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:2253或SEQ ID NO:2253-2481的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:4067或SEQ ID NO:4067-4295的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含根据SEQ ID NO:5649的肽基序。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:432或SEQ ID NO:432-660的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,指导RNA结构包含与选自SEQ ID NO:5468或SEQ ID NO:5503的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶被构造成结合包含选自SEQ ID NO:5519的序列的PAM。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:2253具有至少70%、80%或90%同一性的序列;(b)指导RNA结构包含与SEQ ID NO:5468或SEQ ID NO:5503具有至少70%、80%或90%同一性的序列;以及(c)核酸内切酶被构造成结合包含SEQ ID NO:5519的PAM。
在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:2482-2489的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:4296-4303的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:661-668的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:2490-2498的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:4304-4312的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:669-677的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,指导RNA结构包含与选自SEQ ID NO:5504的序列具有至少70%、80%或90%同一性的序列。
在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:2499或SEQ ID NO:2499-2750的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:4313或SEQ ID NO:4313-4564的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含选自SEQ ID NO:5650-5667的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。在一些实施方案中,核酸内切酶包含与选自SEQ IDNO:678或SEQ ID NO:678-929的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,指导RNA结构包含与SEQ ID NO:5469或SEQ ID NO:5505具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶被构造成结合包含SEQ ID NO:5520或SEQID NO:5535的PAM。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:2499具有至少70%、80%或90%同一性的序列;(b)指导RNA结构包含与SEQ ID NO:5469或SEQ ID NO:5505具有至少70%、80%或90%同一性的序列;以及(c)核酸内切酶被构造成结合包含SEQID NO:5520或SEQ ID NO:5535的PAM。
在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:2751或SEQ ID NO:2751-2913的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:4565或SEQ ID NO:4565-4727的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含选自SEQ ID NO:5668-5678的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。在一些实施方案中,核酸内切酶包含与选自SEQ IDNO:930或SEQ ID NO:930-1092的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,指导RNA结构包含与SEQ ID NO:5470或SEQ ID NO:5506具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶被构造成结合包含选自SEQ ID NO:5521或SEQ ID NO:5536的序列的PAM。在一些实施方案中:(a)核酸内切酶包含与SEQ IDNO:2751具有至少70%、80%或90%同一性的序列;(b)指导RNA结构包含与SEQ ID NO:5470或SEQ ID NO:5506具有至少70%、80%或90%同一性的序列;以及(c)核酸内切酶被构造成结合包含SEQ ID NO:5521或SEQ ID NO:5536的PAM。
在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:2914或SEQ ID NO:2914-3174的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:4728或SEQ ID NO:4728-4988的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含选自SEQ ID NO:5676-5678的至少1个、至少2个或至少3个肽基序。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:1093或SEQ IDNO:1093-1353的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,指导RNA结构包含与选自SEQ ID NO:5471、SEQ ID NO:5507和SEQ ID NO:5540-5542的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,指导RNA结构包含预测包含至少两个发夹的tracr核糖核酸序列,发夹包含少于5个碱基配对的核糖核苷酸。在一些实施方案中,核酸内切酶被构造成结合包含SEQ ID NO:5522的PAM。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:2914具有至少70%、80%或90%同一性的序列;(b)指导RNA结构包含与SEQ ID NO:5471或SEQ ID NO:5507具有至少70%、80%或90%同一性的序列;以及(c)核酸内切酶被构造成结合包含SEQ ID NO:5522的PAM。
在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:3175或SEQ ID NO:3175-3330的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:4989或SEQ ID NO:4989-5146的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含选自SEQ ID NO:5679-5686的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。在一些实施方案中,核酸内切酶包含与选自SEQ IDNO:1354或SEQ ID NO:1354-1511的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,指导RNA结构包含与选自SEQ ID NO:5472或SEQ ID NO:5508的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶被构造成结合包含选自SEQ ID NO:5523或SEQ ID NO:5537的序列的PAM。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:3175具有至少70%、80%或90%同一性的序列;(b)指导RNA结构包含与SEQID NO:5472或SEQ ID NO:5508具有至少70%、80%或90%同一性的序列;以及(c)核酸内切酶被构造成结合包含SEQ ID NO:5523或SEQ ID NO:5537的PAM。
在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:3331或SEQ ID NO:3331-3474的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:5147或SEQ ID NO:5147-5290的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含选自SEQ ID NO:5674-5675和SEQ ID NO:5687-5693的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:1512或SEQ ID NO:1512-1655的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,指导RNA结构包含与选自SEQ ID NO:5473或SEQID NO:5509的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶被构造成结合包含SEQ ID NO:5524的PAM。在一些实施方案中:(a)核酸内切酶包含与SEQID NO:3331具有至少70%、80%或90%同一性的序列;(b)指导RNA结构包含与SEQ ID NO:5473或SEQ ID NO:5509具有至少70%、80%或90%同一性的序列;以及(c)核酸内切酶被构造成结合包含SEQ ID NO:5524的PAM。
在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:3475或SEQ ID NO:3475-3568的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:5291或SEQ ID NO:5291-5389的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含选自SEQ ID NO:5694-5699的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。在一些实施方案中,核酸内切酶包含与选自SEQ IDNO:1656或SEQ ID NO:1656-1755的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,所述指导RNA结构包含与SEQ ID NO:5474或SEQ ID NO:5510具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶被构造成结合包含SEQ ID NO:5525的PAM。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:3475具有至少70%、80%或90%同一性的序列;(b)指导RNA结构包含与SEQ ID NO:5474或SEQ ID NO:5510具有至少70%、80%或90%同一性的序列;以及(c)核酸内切酶被构造成结合包含SEQ ID NO:5525的PAM。
在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:3569或SEQ ID NO:3569-3637的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:5390或SEQ ID NO:5390-5460的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶包含选自SEQ ID NO:5700-5717的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。在一些实施方案中,核酸内切酶包含与选自SEQ IDNO:1756或SEQ ID NO:1756-1826的序列具有至少70%、80%或90%同一性的序列。在一些实施方案中,指导RNA结构包含与SEQ ID NO:5475或SEQ ID NO:5511具有至少70%、80%或90%同一性的序列。在一些实施方案中,核酸内切酶被构造成结合包含SEQ ID NO:5526的PAM。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:3569具有至少70%、80%或90%同一性的序列;(b)指导RNA结构包含与SEQ ID NO:5475或SEQ ID NO:5511具有至少70%、80%或90%同一性的序列;以及(c)核酸内切酶被构造成结合包含SEQ ID NO:5526的PAM。在一些实施方案中,序列同一性通过BLASTP、CLUSTALW、MUSCLE、MAFFT或CLUSTALW,使用Smith-Waterman同源性搜索算法的参数来确定。在一些实施方案中,序列同一性通过BLASTP同源性搜索算法来确定,所述BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数,以及将空位成本设定为存在为11、延伸为1并且使用条件组成得分矩阵调整的BLOSUM62打分矩阵。
在一些方面,本公开提供了一种工程化指导核糖核酸多核苷酸,其包含:(a)DNA靶向区段,其包含与靶DNA分子中的靶序列互补的核苷酸序列;和(b)蛋白质结合区段(protein-binding segment),其包含杂交形成双链RNA(dsRNA)双链体的两个互补核苷酸段(complementary stretches of nucleotides),其中两个互补核苷酸段用居间核苷酸(intervening nucleotide)彼此共价连接,并且其中工程化指导核糖核酸多核苷酸被构造成与包含RuvC_III结构域的核酸内切酶形成复合物并且将复合物靶向靶DNA分子的靶序列,该核酸内切酶与SEQ ID NO:1827-3637中任一项具有至少70%、至少75%、至少80%、至少85%、至少88%、至少90%、至少92%、至少95%或至少98%序列同一性。在一些实施方案中,DNA靶向区段位于两个互补核苷酸段的5'。
在一些实施方案中:(a)蛋白质结合区段包含与选自SEQ ID NO:5476-5479或SEQID NO:5476-5489的序列具有至少70%、至少75%、至少80%、至少85%、至少88%、至少90%、至少92%、至少95%或至少98%同一性的序列;(b)蛋白质结合区段包含与选自(SEQID NO:5490-5491或SEQ ID NO:5490-5494)和SEQ ID NO:5538的序列具有至少70%、至少80%或至少90%同一性的序列;(c)蛋白质结合区段包含与选自SEQ ID NO:5498-5499的序列具有至少70%、至少80%或至少90%同一性的序列;(d)蛋白质结合区段包含与选自SEQID NO:5495-5497和SEQ ID NO:5500-5502的序列具有至少70%、至少80%或至少90%同一性的序列;(e)蛋白质结合区段包含与SEQ ID NO:5503具有至少70%、至少80%或至少90%同一性的序列;(f)蛋白质结合区段包含与SEQ ID NO:5504具有至少70%、至少80%或至少90%同一性的序列;(g)蛋白质结合区段包含与SEQ ID NO:5505具有至少70%、至少80%或至少90%同一性的序列;(h)蛋白质结合区段包含与SEQ ID NO:5506具有至少70%、至少80%或至少90%同一性的序列;(i)蛋白质结合区段包含与SEQ ID NO:5507具有至少70%、至少80%或至少90%同一性的序列;(j)蛋白质结合区段包含与SEQ ID NO:5508具有至少70%、至少80%或至少90%同一性的序列;(k)蛋白质结合区段包含与SEQ ID NO:5509具有至少70%、至少80%或至少90%同一性的序列;(L)蛋白质结合区段包含与SEQ ID NO:5510具有至少70%、至少80%或至少90%同一性的序列;或(m)蛋白质结合区段包含与SEQ IDNO:5511具有至少70%、至少80%或至少90%同一性的序列。
在一些实施方案中:(a)指导核糖核酸多核苷酸包含RNA序列,RNA序列包含发夹和不对称凸出,发夹包含茎和环,其中茎包含至少10个、至少12个或至少14个碱基配对的核糖核苷酸,且不对称凸出位于环的4个碱基对内;(b)指导核糖核酸多核苷酸包含预测包含发夹的tracr核糖核酸序列,发夹包含至少8个、至少10个或至少12个碱基配对的核糖核苷酸;(c)指导核糖核酸多核苷酸包含预测包含发夹的指导核糖核酸序列,发夹具有包含指导核糖核酸序列的至少8个核苷酸和tracr核糖核酸序列的至少8个核苷酸的不间断碱基配对区,并且其中tracr核糖核酸序列从5'至3'包含第一发夹和第二发夹,其中第一发夹具有比第二发夹更长的茎;或(d)指导核糖核酸多核苷酸包含预测包含至少两个发夹的tracr核糖核酸序列,发夹包含少于5个碱基配对的核糖核苷酸。
在一些方面,本公开提供了一种编码本文所述的任何工程化指导核糖核酸多核苷酸的脱氧核糖核酸多核苷酸。
在一些方面,本公开提供了一种包含经优化用于在生物体中表达的工程化核酸序列的核酸,其中该核酸编码包含RuvC_III结构域和HNH结构域的2类II型Cas核酸内切酶,并且其中该核酸内切酶来源于未经培养的微生物。
在一些方面,本公开提供了一种包含经优化用于在生物体中表达的工程化核酸序列的核酸,其中核酸编码包含RuvC_III结构域的核酸内切酶,该RuvC_III结构域与SEQ IDNO:1827-3637中任一项具有至少70%序列同一性。在一些实施方案中,核酸内切酶包含与SEQ ID NO:3638-5460中任一项具有至少70%或至少80%序列同一性的HNH结构域。在一些实施方案中,核酸内切酶包含SEQ ID NO:5572-5591或与其具有至少70%序列同一性的其变体。在一些实施方案中,核酸内切酶包含编码邻近核酸内切酶的N-末端或C-末端的一个或多个核定位序列(NLS)的序列。在一些实施方案中,NLS包含选自SEQ ID NO:5597-5612的序列。
在一些实施方案中,生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿类动物或人。在一些实施方案中,生物体是大肠杆菌,并且:(a)核酸序列与选自SEQ IDNO:5572-5575的序列具有至少70%、80%或90%同一性;(b)核酸序列与选自SEQ ID NO:5576-5577的序列具有至少70%、80%或90%同一性;(c)核酸序列与选自SEQ ID NO:5578-5580的序列具有至少70%、80%或90%同一性;(d)核酸序列与SEQ ID NO:5581具有至少70%、80%或90%同一性;(e)核酸序列与SEQ ID NO:5582具有至少70%、80%或90%的同一性;(f)核酸序列与SEQ ID NO:5583具有至少70%、80%或90%同一性;(g)核酸序列与SEQ ID NO:5584具有至少70%、80%或90%同一性;(h)核酸序列与SEQ ID NO:5585具有至少70%、80%或90%同一性;(i)核酸序列与SEQ ID NO:5586具有至少70%、80%或90%同一性;或(j)核酸序列与SEQ ID NO:5587具有至少70%、80%或90%同一性。在一些实施方案中,生物体是人,并且:(a)核酸序列与SEQ ID NO:5588或SEQ ID NO:5589具有至少70%、80%或90%同一性;或(b)核酸序列与SEQ ID NO:5590或SEQ ID NO:5591具有至少70%、80%或90%同一性。
在一些方面,本公开提供了一种包含编码包含RuvC_III结构域和HNH结构域的2类II型Cas核酸内切酶的核酸序列的载体,其中核酸内切酶来源于未经培养的微生物。
在一些方面,本公开提供了一种包含本文所述的任何核酸的载体。在一些实施方案中,载体还包含编码工程化指导核糖核酸结构的核酸,该工程化指导核糖核酸结构被构造成与核酸内切酶形成复合物,其包含:(a)被构造成与靶脱氧核糖核酸序列杂交的指导核糖核酸序列;和(b)被构造成结合核酸内切酶的tracr核糖核酸序列。在一些实施方案中,载体是质粒、微环、CELiD、来源于腺相关病毒(AAV)的病毒粒子或慢病毒。
在一些方面,本公开提供了一种包含本文所述的任何载体的细胞。
在一些方面,本公开提供了一种生产核酸内切酶的方法,其包括培养本文所述的任何细胞。
在一些方面,本公开提供了一种用于结合、剪切、标记或修饰双链脱氧核糖核酸多核苷酸的方法,其包括:(a)使双链脱氧核糖核酸多核苷酸与2类II型Cas核酸内切酶接触,2类II型Cas核酸内切酶与工程化指导核糖核酸结构复合,该工程化指导核糖核酸结构被构造成结合核酸内切酶和双链脱氧核糖核酸多核苷酸;(b)其中双链脱氧核糖核酸多核苷酸包含原间隔区相邻基序(PAM);以及(c)其中PAM包含选自SEQ ID NO:5512-5526或SEQ IDNO:5527-5537的序列。在一些实施方案中,双链脱氧核糖核酸多核苷酸包含第一链和第二链,其中第一链包含与工程化指导核糖核酸结构的序列互补的序列,且第二链包含PAM。在一些实施方案中,PAM直接邻近与工程化指导核糖核酸结构的序列互补的序列的3'端。
在一些实施方案中,2类II型Cas核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas13d核酸内切酶。在一些实施方案中,2类II型Cas核酸内切酶来源于未经培养的微生物。在一些实施方案中,双链脱氧核糖核酸多核苷酸是真核生物、植物、真菌、哺乳动物、啮齿动物或人双链脱氧核糖核酸多核苷酸。
在一些实施方案中:(a)PAM包含选自SEQ ID NO:5512-5515和SEQ ID NO:5527-5530的序列;(b)PAM包含SEQ ID NO:5516或SEQ ID NO:5531;(c)PAM包含SEQ ID NO:5539;(d)PAM包含SEQ ID NO:5517或SEQ ID NO:5518;(e)PAM包含SEQ ID NO:5519;(f)PAM包含SEQ ID NO:5520或SEQ ID NO:5535;(g)PAM包含SEQ ID NO:5521或SEQ ID NO:5536;(h)PAM包含SEQ ID NO:5522;(i)PAM包含SEQ ID NO:5523或SEQ ID NO:5537;(j)PAM包含SEQID NO:5524;(k)PAM包含SEQ ID NO:5525;或(1)PAM包含SEQ ID NO:5526。
在一些方面,本公开提供了一种修饰靶核酸基因座的方法,该方法包括向靶核酸基因座递送本文所述的任何工程化核酸酶系统,其中核酸内切酶被构造成与工程化指导核糖核酸结构形成复合物,并且其中复合物被构造成使得在复合物与靶核酸基因座结合时,该复合物修饰靶核酸基因座。在一些实施方案中,修饰靶核酸基因座包括结合、切刻(nicking)、剪切(cleaving)或标记靶核酸基因座。在一些实施方案中,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。在一些实施方案中,靶核酸包括基因组DNA、病毒DNA、病毒RNA或细菌DNA。在一些实施方案中,靶核酸基因座位于体外。在一些实施方案中,靶核酸基因座位于细胞内。在一些实施方案中,细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞或人细胞。
在一些实施方案中,将工程化核酸酶系统递送至靶核酸基因座包括递送本文所述的任何核酸或本文所述的任何载体。在一些实施方案中,将工程化核酸酶系统递送至靶核酸基因座包括递送包含编码核酸内切酶的开放阅读框的核酸。在一些实施方案中,核酸包含与编码核酸内切酶的开放阅读框可操作地连接的启动子。在一些实施方案中,将工程化核酸酶系统递送至靶核酸基因座包括递送含有编码核酸内切酶的开放阅读框的加帽mRNA。在一些实施方案中,将工程化核酸酶系统递送至靶核酸基因座包括递送翻译的多肽。在一些实施方案中,将工程化核酸酶系统递送至靶核酸基因座包括递送脱氧核糖核酸(DNA),该脱氧核糖核酸编码可操作地连接至核糖核酸(RNA)polIII启动子的工程化指导核糖核酸结构。在一些实施方案中,核酸内切酶在靶基因座处或其附近诱导单链断裂或双链断裂。
在一些方面,本公开提供了一种工程化核酸酶系统,其包含:(a)核酸内切酶,其包含与SEQ ID NO:5718-5846或6257中任一项具有至少75%序列同一性的序列;以及(b)被构造成与所述核酸内切酶形成复合物的工程化指导核糖核酸结构,其包含:(i)核糖核酸序列,其被构造成与靶脱氧核糖核酸序列杂交;和(ii)核糖核酸序列,其被构造成结合所述核酸内切酶。在一些方面,本公开提供了一种工程化核酸酶系统,其包含:(a)被构造成结合包含SEQ ID NO:5847-5861或6258-6278的原间隔区相邻基序(PAM)序列的核酸内切酶,其中所述核酸内切酶是2类II型Cas核酸内切酶;以及(b)被构造成与所述核酸内切酶形成复合物的工程化指导核糖核酸结构,其包含:(i)核糖核酸序列,其被构造成与靶脱氧核糖核酸序列杂交;和(ii)核糖核酸序列,其被构造成结合所述核酸内切酶。在一些实施方案中,所述核酸内切酶来源于未经培养的微生物。在一些实施方案中,所述核酸内切酶未被工程化以结合不同的PAM序列。在一些实施方案中,所述核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas13d核酸内切酶。在一些实施方案中,所述核酸内切酶与Cas9核酸内切酶具有小于80%的同一性。在一些实施方案中,所述核糖核酸序列包含与:(a)SEQ ID NO:5886-5887、5891、5893或5894中任一项;或(b)SEQ ID NO:5862-5885、5888-5890、5892、5895-5896或6279-6301中任一项的非简并核苷酸具有至少80%序列同一性的序列。在一些方面,本公开提供了一种工程化核酸酶系统,其包含:(a)工程化指导核糖核酸结构,其包含:(i)核糖核酸序列,其被构造成与靶脱氧核糖核酸序列杂交;和(ii)核糖核酸序列,其被构造成结合核酸内切酶,其中所述核糖核酸序列包含与(a)SEQ ID NO:5886-5887、5891、5893或5894中任一项;或(b)SEQID NO:5862-5885、5888-5890、5892、5895-5896或6279-6301中任一项的非简并核苷酸具有至少80%序列同一性的序列;以及被构造成结合所述工程化指导核糖核酸的2类II型Cas核酸内切酶。在一些实施方案中,核酸内切酶被构造成结合选自SEQ ID NO:5847-5861或6258-6278的原间隔区相邻基序(PAM)序列。在一些实施方案中,所述指导核糖核酸序列的长度为15-24个核苷酸或19-24个核苷酸。在一些实施方案中,所述核酸内切酶包含邻近所述核酸内切酶的N-末端或C-末端的一个或多个核定位序列(NLS)。在一些实施方案中,所述NLS包含选自SEQ ID NO:5597-5612的序列。在一些实施方案中,系统还包含单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含所述靶脱氧核糖核酸序列5'的至少20个核苷酸的序列;至少10个核苷酸的合成DNA序列;以及第二同源臂,其包含所述靶序列3'的至少20个核苷酸的序列。在一些实施方案中,所述第一同源臂或第二同源臂包含至少40、80、120、150、200、300、500或1,000个核苷酸的序列。在一些实施方案中,所述序列同一性通过BLASTP、CLUSTALW、MUSCLE、MAFFT或CLUSTALW,使用Smith-Waterman同源性搜索算法的参数来确定。在一些实施方案中,所述序列同一性通过所述BLASTP同源性搜索算法来确定,所述BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数,以及将空位成本设定为存在为11、延伸为1并且使用条件组成得分矩阵调整的BLOSUM62打分矩阵。
在一些方面,本公开提供了一种工程化指导核糖核酸多核苷酸,其包含:(a)DNA靶向区段,其包含与靶DNA分子中的靶序列互补的核苷酸序列;和(b)蛋白质结合区段,其包含杂交形成双链RNA(dsRNA)双链体的两个互补核苷酸段,其中所述两个互补核苷酸段用居间核苷酸彼此共价连接,并且其中所述工程化指导核糖核酸多核苷酸被构造成与核酸内切酶形成复合物并将所述复合物靶向所述靶DNA分子的所述靶序列,其包含与SEQ ID NO:5718-5846或6257中任一项具有至少75%序列同一性的序列。在一些实施方案中,所述DNA靶向区段位于所述两个互补核苷酸段的5'。
在一些方面,本公开提供了一种编码本文所述的任何工程化指导核糖核酸多核苷酸的脱氧核糖核酸多核苷酸。
在一些方面,本公开提供了一种包含经优化用于在生物体中表达的工程化核酸序列的核酸,其中所述核酸编码核酸内切酶,包含与SEQ ID NO:5718-5846或6257中任一项具有至少75%序列同一性的序列。在一些实施方案中,所述核酸内切酶包含编码邻近所述核酸内切酶的N-末端或C-末端的一个或多个核定位序列(NLS)的序列。在一些实施方案中,所述NLS包含选自SEQ ID NO:5597-5612的序列。在一些实施方案中,所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿类动物或人。
在一些方面,本公开提供了一种包含本文所述的任何核酸的载体。在一些实施方案中,载体还包含编码工程化指导核糖核酸结构的核酸,该工程化指导核糖核酸结构被构造成与所述核酸内切酶形成复合物,所述核酸内切酶包含:(a)被构造成与靶脱氧核糖核酸序列杂交的核糖核酸序列;和(b)被构造成结合所述核酸内切酶的核糖核酸序列。在一些实施方案中,载体是质粒、微环、CELiD、来源于腺相关病毒(AAV)的病毒粒子或慢病毒。
在一些方面,本公开提供了一种包含本文所述的任何载体的细胞。
在一些方面,本公开提供了一种生产核酸内切酶的方法,其包括培养本文所述的任何细胞。
在一些方面,本公开提供了一种用于结合、剪切、标记或修饰双链脱氧核糖核酸多核苷酸的方法,其包括:使所述双链脱氧核糖核酸多核苷酸与2类II型Cas核酸内切酶接触,2类II型Cas核酸内切酶与工程化指导核糖核酸结构复合,该工程化指导核糖核酸结构被构造成结合所述核酸内切酶和所述双链脱氧核糖核酸多核苷酸;其中所述双链脱氧核糖核酸多核苷酸包含原间隔区相邻基序(PAM);并且其中所述PAM包含选自SEQ ID NO:5847-5861或6258-6278的序列。在一些实施方案中,所述双链脱氧核糖核酸多核苷酸包含第一链和第二链,其中第一链包含与所述工程化指导核糖核酸结构的序列互补的序列,且第二链包含所述PAM。在一些实施方案中,所述PAM直接邻近与所述工程化指导核糖核酸结构的所述序列互补的所述序列的3'端。在一些实施方案中,所述2类II型Cas核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas13d核酸内切酶。在一些实施方案中,所述双链脱氧核糖核酸多核苷酸是真核生物、植物、真菌、哺乳动物、啮齿动物或人双链脱氧核糖核酸多核苷酸。
在一些方面,本公开提供了一种修饰靶核酸基因座的方法,所述方法包括将本文所述的任何工程化核酸酶系统递送至所述靶核酸基因座,其中所述核酸内切酶被构造成与所述工程化指导核糖核酸结构形成复合物,并且其中所述复合物被构造成使得在所述复合物与所述靶核酸基因座结合时,所述复合物修饰所述靶核酸基因座。在一些实施方案中,所述修饰靶核酸基因座包括结合、切刻(nicking)、剪切(cleaving)或标记所述靶核酸基因座。在一些实施方案中,所述靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。在一些实施方案中,所述靶核酸包括基因组DNA、病毒DNA、病毒RNA或细菌DNA。在一些实施方案中,所述靶核酸基因座位于体外。在一些实施方案中,所述靶核酸基因座位于细胞内。在一些实施方案中,所述细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞或人细胞。在一些实施方案中,将所述工程化核酸酶系统递送至所述靶核酸基因座包括递送本文所述的任何核酸或本文所述的任何载体。在一些实施方案中,将所述工程化核酸酶系统递送至所述靶核酸基因座包括递送包含编码所述核酸内切酶的开放阅读框的核酸。在一些实施方案中,所述核酸包含与编码所述核酸内切酶的所述开放阅读框可操作地连接的启动子。在一些实施方案中,将所述工程化核酸酶系统递送至所述靶核酸基因座包括递送含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA。在一些实施方案中,将所述工程化核酸酶系统递送至所述靶核酸基因座包括递送翻译的多肽。在一些实施方案中,将所述工程化核酸酶系统递送至所述靶核酸基因座包括递送脱氧核糖核酸(DNA),该脱氧核糖核酸编码可操作地连接至核糖核酸(RNA)polIII启动子的所述工程化指导核糖核酸结构。在一些实施方案中,所述核酸内切酶在所述靶基因座处或其附近诱导单链断裂或双链断裂。
在一些方面,本公开提供了一种编辑细胞中的TRAC基因座的方法,其包括使所述细胞接触(a)RNA指导的核酸内切酶;和(b)工程化指导RNA,其中所述工程化指导RNA被构造成与所述核酸内切酶形成复合物,并且所述工程化指导RNA包含被构造成与所述TRAC基因座的区域杂交的间隔区序列,其中所述工程化指导RNA包含具有与SEQ ID NO:5950-5958或5959-5965中任一项的至少19个、至少20个、至少21个、至少22个、至少23个、或至少24个连续核苷酸具有至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性、或至少100%同一性的靶向序列。在一些实施方案中,所述RNA指导的核酸内切酶是II类II型Cas核酸内切酶。在一些实施方案中,所述RNA指导的核酸内切酶包含RuvCIII结构域,该RuvCIII结构域包含与SEQ ID NO:2242或SEQ ID NO:2244具有至少75%同一性、至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或至少100%同一性的序列。在一些实施方案中,所述RNA指导的核酸内切酶还包含HNH结构域。在一些实施方案中,所述RNA指导的核酸内切酶包含与SEQ ID NO:421或SEQ ID NO:423具有至少75%同一性、至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或至少100%同一性的序列。在一些实施方案中,所述工程化指导RNA包含与SEQID NO:5950-5958中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列,并且所述核酸内切酶包含与SEQ ID NO:421具有至少75%同一性的序列。在一些实施方案中,所述工程化指导RNA包含与SEQ ID NO:5959-5965中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列,并且所述核酸内切酶包含与SEQ ID NO:423具有至少75%同一性的序列。在一些实施方案中,所述工程化指导RNA包含与SEQ ID NO:5953-5957中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。在一些实施方案中,所述工程化指导RNA包含与SEQ ID NO:5960-5961或5963-5964中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
在一些方面,本公开提供了一种编辑细胞中的TRBC基因座的方法,其包括使所述细胞接触(a)RNA指导的核酸内切酶;和(b)工程化指导RNA,其中所述工程化指导RNA被构造成与所述核酸内切酶形成复合物,并且所述工程化指导RNA包含被构造成与所述TRBC基因座的区域杂交的间隔区序列,其中所述工程化指导RNA包含具有与SEQ ID NO:5966-6004或6005-6025中任一项的至少19个、至少20个、至少21个、至少22个、至少23个、或至少24个连续核苷酸具有至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性、或至少100%同一性的靶向序列。在一些实施方案中,所述RNA指导的核酸内切酶是II类II型Cas核酸内切酶。在一些实施方案中,所述RNA指导的核酸内切酶包含RuvCIII结构域,该RuvCIII结构域包含与SEQ ID NO:2242或SEQ ID NO:2244具有至少75%同一性、至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或至少100%同一性的序列。在一些实施方案中,所述RNA指导的核酸内切酶还包含HNH结构域。在一些实施方案中,所述RNA指导的核酸内切酶包含与SEQ ID NO:421或SEQ ID NO:423具有至少75%同一性、至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或至少100%同一性的序列。在一些实施方案中,所述工程化指导RNA包含与SEQID NO:5966-6004中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列,并且所述核酸内切酶包含与SEQ ID NO:421具有至少75%同一性的序列。在一些实施方案中,所述工程化指导RNA包含与SEQ ID NO:6005-6025中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列,并且所述核酸内切酶包含与SEQ ID NO:423具有至少75%同一性的序列。在一些实施方案中,所述工程化指导RNA包含与SEQ ID NO:5970、5971、5983或5984中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。在一些实施方案中,所述工程化指导RNA包含与SEQ ID NO:6006、6010、6011或6012中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
在一些方面,本公开提供了一种编辑细胞中的GR(NR3C1)基因座的方法,其包括使所述细胞接触(a)RNA指导的核酸内切酶;和(b)工程化指导RNA,其中所述工程化指导RNA被构造成与所述核酸内切酶形成复合物,并且所述工程化指导RNA包含被构造成与所述GR(NR3C1)基因座的区域杂交的间隔区序列,其中所述工程化指导RNA包含具有与SEQ ID NO:6026-6090或6091-6121中任一项的至少19个、至少20个、至少21个、至少22个、至少23个、或至少24个连续核苷酸具有至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性、或至少100%同一性的靶向序列。在一些实施方案中,所述RNA指导的核酸内切酶是II类II型Cas核酸内切酶。在一些实施方案中,所述RNA指导的核酸内切酶包含RuvCIII结构域,该RuvCIII结构域包含与SEQ ID NO:2242或SEQ ID NO:2244具有至少75%同一性、至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或至少100%同一性的序列。在一些实施方案中,所述RNA指导的核酸内切酶还包含HNH结构域。在一些实施方案中,所述RNA指导的核酸内切酶包含与SEQ ID NO:421或SEQ ID NO:423具有至少75%同一性的序列。在一些实施方案中,所述工程化指导RNA包含与SEQ ID NO:6026-6090中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列,并且所述核酸内切酶包含与SEQ ID NO:421具有至少75%同一性的序列。在一些实施方案中,所述工程化指导RNA包含与SEQ ID NO:6091-6121中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列,并且所述核酸内切酶包含与SEQ ID NO:423具有至少75%同一性的序列。在一些实施方案中,所述工程化指导RNA包含与SEQ ID NO:6027-6028、6029、6038、6043、6049,6076、6080、6081或6086中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。在一些实施方案中,所述工程化指导RNA包含与SEQ ID NO:6092、6115或6119中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
在一些方面,本公开提供了一种编辑AAVS1基因座的方法,其包括使所述细胞接触(a)RNA指导的核酸内切酶;和(b)工程化指导RNA,其中所述工程化指导RNA被构造成与所述核酸内切酶形成复合物,并且所述工程化指导RNA包含被构造成与所述AAVS1基因座的区域杂交的间隔区序列,其中所述工程化指导RNA包含具有与SEQ ID NO:6122-6152中任一项的至少19个、至少20个、至少21个、至少22个、至少23个、或至少24个连续核苷酸具有至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性、或至少100%同一性的靶向序列。在一些实施方案中,所述RNA指导的核酸内切酶是II类II型Cas核酸内切酶。在一些实施方案中,所述RNA指导的核酸内切酶包含RuvCIII结构域,该RuvCIII结构域包含与SEQ ID NO:2242或SEQ ID NO:2244具有至少75%同一性、至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或至少100%同一性的序列。在一些实施方案中,所述RNA指导的核酸内切酶还包含HNH结构域。在一些实施方案中,所述RNA指导的核酸内切酶包含与SEQ ID NO:421或SEQ ID NO:423具有至少75%同一性、至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或至少100%同一性的序列。在一些实施方案中,所述工程化指导RNA包含与SEQ ID NO:6122、6125-6126、6128、6131、6133、6136、6141、6143或6148中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
在一些方面,本公开提供了一种编辑TIGIT基因座的方法,其包括使所述细胞接触(a)RNA指导的核酸内切酶;和(b)工程化指导RNA,其中所述工程化指导RNA被构造成与所述核酸内切酶形成复合物,并且所述工程化指导RNA包含被构造成与所述TIGIT基因座的区域杂交的间隔区序列,其中所述工程化指导RNA包含具有与SEQ ID NO:6153-6181中任一项的至少19个、至少20个、至少21个、至少22个、至少23个、或至少24个连续核苷酸具有至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性、或至少100%同一性的靶向序列。在一些实施方案中,所述RNA指导的核酸内切酶是II类II型Cas核酸内切酶。在一些实施方案中,所述RNA指导的核酸内切酶包含与SEQ ID NO:421或SEQ ID NO:423具有至少75%同一性、至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或至少100%同一性的序列。在一些实施方案中,所述RNA指导的核酸内切酶包含RuvCIII结构域,该RuvCIII结构域包含与SEQ ID NO:2242或SEQ ID NO:2244具有至少75%同一性、至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或至少100%同一性的序列。在一些实施方案中,所述RNA指导的核酸内切酶还包含HNH结构域。在一些实施方案中,所述工程化指导RNA包含与SEQ ID NO:66155、6159、616或6172中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
在一些方面,本公开提供了一种编辑CD38基因座的方法,其包括使所述细胞接触(a)RNA指导的核酸内切酶;和(b)工程化指导RNA,其中所述工程化指导RNA被构造成与所述核酸内切酶形成复合物,并且所述工程化指导RNA包含被构造成与所述CD38基因座的区域杂交的间隔区序列,其中所述工程化指导RNA包含具有与SEQ ID NO:6182-6248或6249-6256中任一项的至少19个、至少20个、至少21个、至少22个、至少23个、或至少24个连续核苷酸具有至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性、或至少100%同一性的靶向序列。在一些实施方案中,所述RNA指导的核酸内切酶是II类II型Cas核酸内切酶。在一些实施方案中,所述RNA指导的核酸内切酶包含RuvCIII结构域,该RuvCIII结构域包含与SEQ ID NO:2242或SEQ ID NO:2244具有至少75%同一性、至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或至少100%同一性的序列。在一些实施方案中,所述RNA指导的核酸内切酶还包含HNH结构域。在一些实施方案中,所述RNA指导的核酸内切酶包含与SEQ ID NO:421或SEQ ID NO:423具有至少75%同一性、至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或至少100%同一性的序列。在一些实施方案中,所述工程化指导RNA包含与SEQID NO:6182-6248中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列,并且所述核酸内切酶包含与SEQ ID NO:421具有至少75%同一性的序列。在一些实施方案中,所述工程化指导RNA包含与SEQ ID NO:6249-6256中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列,并且所述核酸内切酶包含与SEQ ID NO:423具有至少75%同一性的序列。在一些实施方案中,所述工程化指导RNA包含与SEQ ID NO:6182-6183、6189、6191、6208、6210、6211或6215中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。在一些实施方案中,所述工程化指导RNA包含与SEQ ID NO:6251的至少18个连续核苷酸具有至少85%同一性的靶向序列。
在用于编辑上述细胞中的特定基因座的任何方法的一些实施方案中,所述细胞是外周血单核细胞、T细胞、NK细胞、造血干细胞(HSCT)或B细胞或其任何组合。
在一些方面,本公开提供了一种工程化指导核糖核酸多核苷酸,其包含:(a)DNA靶向区段,其包含与靶DNA分子中的靶序列互补的核苷酸序列;和(b)包含杂交形成双链RNA(dsRNA)双链体的两个互补核苷酸段的蛋白质结合区段,其中所述两个互补核苷酸段用居间核苷酸彼此共价连接,并且其中所述工程化指导核糖核酸多核苷酸被构造成与2类II型Cas核酸内切酶形成复合物并且将所述复合物靶向所述靶DNA分子的所述靶序列,其中所述DNA靶向区段包含与SEQ ID NO:5950-5965、5966-6025、6026-6121、6122-6152、6153-6181或6182-6256中任一项的至少19个、至少20个、至少21个、至少22个、至少23个、或至少24个连续核苷酸具有至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或至少100%同一性的序列。在一些实施方案中,所述蛋白质结合区段包含与SEQ ID NO:5466或6304中任一项具有至少85%同一性的序列。
在一些方面,本公开提供了一种用于产生经编辑的免疫细胞的系统,其包括:(a)RNA指导的核酸内切酶;(b)根据权利要求97所述的工程化指导核糖核酸多核苷酸,其被构造成结合所述RNA指导的核酸内切酶;和(c)单链或双链DNA修复模板,其包含位于编码嵌合抗原受体(CAR)的序列侧翼的第一同源臂和第二同源臂。在一些实施方案中,所述细胞是外周血单核细胞、T细胞、NK细胞、造血干细胞(HSCT)或B细胞或其任何组合。在一些方面,所述RNA指导的核酸内切酶是II类II型Cas核酸内切酶。在一些方面,所述RNA指导的核酸内切酶包含RuvCIII结构域,该RuvCIII结构域包含与SEQ ID NO:2242或SEQ ID NO:2244具有至少75%同一性、至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或至少100%同一性的序列。在一些方面,所述RNA指导的核酸内切酶还包含HNH结构域。在一些方面,所述RNA指导的核酸内切酶包含与SEQ ID NO:421或SEQ ID NO:423具有至少75%同一性、至少80%同一性、至少82%同一性、至少84%同一性、至少86%同一性、至少88%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或至少100%同一性的序列。
从以下详细描述中,本公开的其他方面和优点对于本领域技术人员将变得显而易见,其中仅示出和描述了本公开的说明性实施方案。如将认识到的,本公开能够具有其他和不同的实施方案,并且其若干细节能够在各种明显的方面进行修改,所有这些都不脱离本公开。因此,附图和说明书本质上被认为是说明性的,而不是限制性的。
引用合并
在本说明书中提到的所有出版物、专利和专利申请都通过引用并入本文,其程度与每个单独的出版物、专利或专利申请被具体地和单独地指出通过引用并入的程度相同。
附图说明
本发明的新颖特征在所附权利要求中具体阐述。通过参考以下详细描述和附图(在此也称为“图(Figure)”和“图(FIG.)”)将获得对本发明的特征和优点的更好理解,以下详细描述阐述了利用本发明的原理的说明性实施方案,在附图中:
图1描述了不同类别和类型的CRISPR/Cas基因座的典型组织。
图2描述了与其中两者连接的杂合sgRNA相比的天然2类/II型crRNA/tracrRNA对的结构。
图3描述了显示编码来自MG1家族的酶的CRISPR基因座的组织的示意图。
图4描述了显示编码来自MG2家族的酶的CRISPR基因座的组织的示意图。
图5描述了显示编码来自MG3家族的酶的CRISPR基因座的组织的示意图。
图6描述了本公开的酶(MG1-1)与来自金黄色葡萄球菌的Cas9(SEQ ID NO:5613)的基于结构的比对。预测的功能的必需残基位于序列下方;保守残基以黑色突出显示。
图7描述了本公开的酶(MG2-1)与来自金黄色葡萄球菌的Cas9(SEQ ID NO:5613)的基于结构的比对。预测的功能的必需残基位于序列下方;保守残基以黑色突出显示。
图8描述了本公开的酶(MG3-1)与来自内氏放线菌的Cas9(SEQ ID NO:5614)的基于结构的比对。预测的功能的必需残基位于序列下方;保守残基以黑色突出显示。
图9A、9B、9C、9D、9E、9F、9G和9H描绘了MG1家族酶MG1-1至MG1-6(SEQ ID NO:5、6、9、1、2和3)的基于结构的比对。预测的功能的必需残基位于序列下方;保守残基以黑色突出显示。
图10描述了MG1-4与其相应的含有不同长度的靶向序列的sgRNA的复合物对DNA的体外剪切。
图11描述了使用MG1-4连同它的相应sgRNA对大肠杆菌基因组DNA进行细胞剪切。上图显示了用MG1-4连同靶或非靶间隔区转化的稀释系列细胞;下图显示了定量的数据,其中左栏表示非靶sgRNA,且右栏表示靶sgRNA。
图12描述了通过用实施例11中描述的MG1-4或MG1-6构建体连同它们的相应sgRNA转染HEK细胞产生的细胞插入缺失形成,该sgRNA含有靶向人基因组中不同位置的各种不同靶向序列。
图13描述了MG3-6在与其相应的含有不同长度的靶向序列的sgRNA的复合物中对DNA的体外剪切。
图14描述了使用MG3-7及其相应sgRNA对大肠杆菌基因组DNA进行细胞剪切。上图显示了用MG3-7连同靶或非靶间隔区转化的稀释系列细胞;下图显示了定量的数据,其中左栏表示非靶sgRNA,且右栏表示靶sgRNA。
图15描述了通过用实施例13中描述的MG3-7构建体连同它们的相应sgRNA转染HEK细胞产生的细胞插入缺失形成,该sgRNA含有靶向人基因组中不同位置的各种不同靶向序列。
图16描述了MG15-1与其相应的含有不同长度的靶向序列的sgRNA的复合物对DNA的体外剪切。
图17、18、19和20描述了琼脂糖凝胶,其显示了在含有各种MG家族核酸酶及其相应tracrRNA或sgRNA的TXTL提取物存在下PAM载体文库剪切的结果。
图21、22、23、24、25和26描述了本文所述MG酶的相应sgRNA的预测结构(例如,如实施例7中预测的)。
图27、28、29、30、31、32和33描述了如本文所述(例如,如实施例6中所述)通过来源于NGS的PAM序列的seqLogo表示。
图34描述了使用MG2-7及其相应sgRNA对大肠杆菌基因组DNA进行细胞剪切。上图显示了用MG2-7连同靶或非靶间隔区转化的稀释系列细胞;下图显示了定量的数据,其中右栏代表非靶sgRNA,且左栏代表靶sgRNA。
图35描述了使用MG14-1连同它的相应sgRNA对大肠杆菌基因组DNA进行细胞剪切。上图显示了用MG14-1连同靶或非靶间隔区转化的稀释系列细胞;下图显示了定量的数据,其中右栏代表非靶sgRNA,且左栏代表靶sgRNA。
图36描述了使用MG15-1连同它的相应sgRNA对大肠杆菌基因组DNA进行细胞剪切。上图显示了用MG15-1连同靶或非靶间隔区转化的稀释系列细胞;下图显示了定量的数据,其中右栏代表非靶sgRNA,且左栏代表靶sgRNA。
图37-图39描述了通过用实施例11中描述的MG1-4、MG1-6和MG1-7构建体连同它们的相应sgRNA转染HEK细胞产生的细胞插入缺失形成,该sgRNA含有靶向人基因组中不同位置的各种不同靶向序列。
图40-图42描述了通过用实施例13中描述的MG3-6、MG3-7和MG3-8构建体连同它们的相应sgRNA转染HEK细胞产生的细胞插入缺失形成,该sgRNA含有靶向人基因组中不同位置的各种不同靶向序列。
图43描述了通过用实施例14中描述的MG14-1构建体连同它们的相应sgRNA转染HEK细胞产生的细胞插入缺失形成,该sgRNA含有靶向人基因组中不同位置的各种不同靶向序列。
图44描述了通过用实施例17中描述的MG18-1构建体连同它们的相应sgRNA转染HEK细胞产生的细胞插入缺失形成,该sgRNA含有靶向人基因组中不同位置的各种不同靶向序列。
图45描述了本文所述核酸酶的环境分布。显示了所选蛋白家族的代表性蛋白长度。颜色指示每种蛋白质被鉴定所来自的环境或环境类型。
图46描述了本文所述核酸酶的预测的催化残基。显示了所选蛋白家族的代表性蛋白长度。颜色指示预测的每种蛋白质的催化残基数目。对于本文所述的效应酶,搜索了六个对应于HNH和RuvC结构域的催化残基。
图47描述了本文所述核酸酶的候选活性与蛋白质长度的关系。
图48描述了预测的本文所述核酸酶的催化残基数目。
图49显示了本文所述所选核酸酶的各种特征信息的表。
图50-图54描述了如本文所述(例如,如实施例6中所述)通过来源于NGS的PAM序列的seqLogo表示。
图55显示了TRAC中MG3-6和MG3-8的指导RNA筛选。对于上图(MG3-6),x轴数字是指对应于SEQ ID NO:5950-5958的间隔区;对于下图(MG3-8),x轴数字是指对应于SEQ ID NO:5959-5965的间隔区。
图56显示了具有不同核心序列、长度和剂量的指导RNA的MG3-6的活性(%插入缺失)。
图57显示了具有各种序列和长度的指导RNA的MG3-8的活性(%插入缺失)。
图58显示了具有TRAC Guide6的MG3-6和具有TRAC Guide8的MG3-8的活性(%插入缺失)。
图59通过流式细胞术显示了具有TRAC6指导RNA的MG3-6对T细胞受体表达的影响。编辑后的存活力(viability)没有变化。
图60显示了用较高量的gRNA增加TRAC编辑效率。
图61显示了如何消除TCR表达并用CAR表达代替。
图62显示了与MG3-6的靶向CAR整合。
图63显示了用靶向NR3C1基因的各种外显子的各种指导RNA通过MG3-6编辑的GR(NR3C1)。
图64显示了用靶向NR3C1基因的各种外显子的各种指导RNA通过MG3-8编辑的GR(NR3C1)。
图65比较了两个MG3-6批次和各种指导RNA的GR编辑。
图66显示了基因编辑如何用于产生同种异体CAR-NK细胞的过程。
图67显示了使用具有TRAC 6指导RNA的MG3-6进行TRAC编辑。
图68通过流式细胞术显示了CD56+NK细胞中MG3-6的CAR表达(Y轴)。
图69显示了使用具有各种指导RNA的MG3-6和MG3-8在原代NK细胞中进行CD38编辑。
图70显示了具有各种指导RNA的MG3-6和MG3-8在造血干细胞中进行TRAC编辑。
图71使用两种不同的缓冲液显示了具有TRAC指导6的MG3-6在B细胞中进行TRAC编辑。
图72显示了通过实施例25的方法测定的MG48-1(A)和MG48-3(B)的共有PAM序列。
图73显示了RNaseq作图,其中突出显示了测序的tracr区域,如通过实施例25的方法对MG48-1(A)和MG48-3(B)进行的。
序列表说明
本文提交的序列表提供了用于根据本公开的方法、组合物和系统的示例性多核苷酸和多肽序列。以下是其中序列的示例性描述。
MG1
SEQ ID NO:1-319显示了MG1核酸酶的全长肽序列。
SEQ ID NO:1827-2140显示了上述MG1核酸酶的RuvC_III结构域的肽序列。
SEQ ID NO:3638-3955显示了上述MG1核酸酶的HNH结构域的肽。
SEQ ID NO:5476-5479显示了来源于与上述MG1核酸酶相同的基因座(例如,分别与SEQ ID NO:1-4相同的基因座)的MG1 tracrRNA的核苷酸序列。
SEQ ID NO:5461-5464显示了经工程化而具有MG1核酸酶(例如,分别为SEQ IDNO:1-4)功能的sgRNA的核苷酸序列,其中Ns表示靶向序列的核苷酸。
SEQ ID NO:5572-5575显示了MG1家族酶(SEQ ID NO:1-4)的大肠杆菌密码子优化的编码序列的核苷酸序列。
SEQ ID NO:5588-5589显示了MG1家族酶(SEQ ID NO:1和3)的人密码子优化的编码序列的核苷酸序列。
SEQ ID NO:5616-5632显示了MG1家族酶的特征性肽基序。
MG2
SEQ ID NO:320-420显示了MG2核酸酶的全长肽序列。
SEQ ID NO:2141-2241显示了上述MG2核酸酶的RuvC_III结构域的肽序列。
SEQ ID NO:3955-4055显示了上述MG2核酸酶的HNH结构域的肽。
SEQ ID NO:5490-5494显示了来源于与上述MG2核酸酶相同的基因座(例如,分别与SEQ ID NO:320、321、323、325和326相同的基因座)的MG2 tracrRNA的核苷酸序列。
SEQ ID NO:5465显示了经工程化而具有MG2核酸酶(例如,上述SEQ ID NO:321)功能的sgRNA的核苷酸序列。
SEQ ID NO:5572-5575显示了MG2家族酶的大肠杆菌密码子优化的编码序列的核苷酸序列。
SEQ ID NO:5631-5638显示了MG2家族酶的特征性肽序列。
MG3
SEQ ID NO:421-431显示了MG3核酸酶的全长肽序列。
SEQ ID NO:2242-2252显示了上述MG3核酸酶的RuvC_III结构域的肽序列。
SEQ ID NO:4056-4066显示了上述MG3核酸酶的HNH结构域的肽。
SEQ ID NO:5495-5502显示了来源于与上述MG3核酸酶相同的基因座(例如,分别与SEQ ID NO:421-428相同的基因座)的MG3tracrRNA的核苷酸序列。
SEQ ID NO:5466-5467显示了经工程化而具有MG3核酸酶(例如,SEQ ID NO:421-423)功能的sgRNA的核苷酸序列。
SEQ ID NO:5578-5580显示了MG3家族酶的大肠杆菌密码子优化的编码序列的核苷酸序列。
SEQ ID NO:5639-5648显示了MG3家族酶的特征性肽序列。
MG4
SEQ ID NO:432-660显示了MG4核酸酶的全长肽序列。
SEQ ID NO:2253-2481显示了上述MG4核酸酶的RuvC_III结构域的肽序列。
SEQ ID NO:4067-4295显示了上述MG4核酸酶的HNH结构域的肽。
SEQ ID NO:5503显示了来源于与上述MG4核酸酶相同基因座的MG4 tracrRNA的核苷酸序列。
SEQ ID NO:5468显示了经工程化而具有MG4核酸酶功能的sgRNA的核苷酸序列。
SEQ ID NO:5649显示了MG4家族酶的特征性肽序列。
MG6
SEQ ID NO:661-668显示了MG6核酸酶的全长肽序列。
SEQ ID NO:2482-2489显示了上述MG6核酸酶的RuvC_III结构域的肽序列。
SEQ ID NO:4296-4303显示了上述MG6核酸酶的HNH结构域的肽。
MG7
SEQ ID NO:669-677显示了MG7核酸酶的全长肽序列。
SEQ ID NO:2490-2498显示了上述MG7核酸酶的RuvC_III结构域的肽序列。
SEQ ID NO:4304-4312显示了上述MG3核酸酶的HNH结构域的肽。
SEQ ID NO:5504显示了来源于与上述MG7核酸酶相同基因座的MG7 tracrRNA的核苷酸序列。
MG14
SEQ ID NO:678-929显示了MG14核酸酶的全长肽序列。
SEQ ID NO:2499-2750显示了上述MG14核酸酶的RuvC_III结构域的肽序列。
SEQ ID NO:4313-4564显示了上述MG14核酸酶的HNH结构域的肽。
SEQ ID NO:5505显示了来源于与上述MG14核酸酶相同基因座的MG14 tracrRNA的核苷酸序列。
SEQ ID NO:5581显示了MG14家族酶的大肠杆菌密码子优化的编码序列的核苷酸序列。
SEQ ID NO:5650-5667显示了MG14家族酶的特征性肽序列。
MG15
SEQ ID NO:930-1092显示了MG15核酸酶的全长肽序列。
SEQ ID NO:2751-2913显示了上述MG15核酸酶的RuvC_III结构域的肽序列。
SEQ ID NO:4565-4727显示了上述MG15核酸酶的HNH结构域的肽。
SEQ ID NO:5506显示了来源于与上述MG15核酸酶相同基因座的MG15 tracrRNA的核苷酸序列。
SEQ ID NO:5470显示了经工程化而具有MG15核酸酶功能的sgRNA的核苷酸序列。
SEQ ID NO:5582显示了MG15家族酶的大肠杆菌密码子优化的编码序列的核苷酸序列。
SEQ ID NO:5668-5675显示了MG15家族酶的特征性肽序列。
MG16
SEQ ID NO:1093-1353显示了MG16核酸酶的全长肽序列。
SEQ ID NO:2914-3174显示了上述MG16核酸酶的RuvC_III结构域的肽序列。
SEQ ID NO:4728-4988显示了上述MG16核酸酶的HNH结构域的肽。
SEQ ID NO:5507显示了来源于与上述MG3核酸酶相同基因座的MG16 tracrRNA的核苷酸序列。
SEQ ID NO:5471显示了经工程化而具有MG16核酸酶功能的sgRNA的核苷酸序列。
SEQ ID NO:5583显示了MG16家族酶的大肠杆菌密码子优化的编码序列的核苷酸序列。
SEQ ID NO:5676-5678显示了MG16家族酶的特征性肽序列。
MG18
SEQ ID NO:1354-1511显示了MG18核酸酶的全长肽序列。
SEQ ID NO:3175-3330显示了上述MG18核酸酶的RuvC_III结构域的肽序列。
SEQ ID NO:4989-5146显示了上述MG18核酸酶的HNH结构域的肽。
SEQ ID NO:5508显示了来源于与上述MG18核酸酶相同基因座的MG18 tracrRNA的核苷酸序列。
SEQ ID NO:5472显示了经工程化而具有MG18核酸酶功能的sgRNA的核苷酸序列。
SEQ ID NO:5584显示了MG18家族酶的大肠杆菌密码子优化的编码序列的核苷酸序列。
SEQ ID NO:5679-5686显示了MG18家族酶的特征性肽序列。
MG21
SEQ ID NO:1512-1655显示了MG21核酸酶的全长肽序列。
SEQ ID NO:3331-3474显示了上述MG21核酸酶的RuvC_III结构域的肽序列。
SEQ ID NO:5147-5290显示了上述MG21核酸酶的HNH结构域的肽。
SEQ ID NO:5509显示了来源于与上述MG21核酸酶相同基因座的MG21 tracrRNA的核苷酸序列。
SEQ ID NO:5473显示了经工程化而具有MG21核酸酶功能的sgRNA的核苷酸序列。
SEQ ID NO:5585显示了MG21家族酶的大肠杆菌密码子优化的编码序列的核苷酸序列。
SEQ ID NO:5687-5692和5674-5675显示了MG21家族酶的特征性肽序列。
MG22
SEQ ID NO:1656-1755显示了MG22核酸酶的全长肽序列。
SEQ ID NO:3475-3568显示了上述MG22核酸酶的RuvC_III结构域的肽序列。
SEQ ID NO:5291-5389显示了上述MG22核酸酶的HNH结构域的肽。
SEQ ID NO:5510显示了来源于与上述MG22核酸酶相同基因座的MG22 tracrRNA的核苷酸序列。
SEQ ID NO:5474显示了经工程化而具有MG22核酸酶功能的sgRNA的核苷酸序列。
SEQ ID NO:5586显示了MG22家族酶的大肠杆菌密码子优化的编码序列的核苷酸序列。
SEQ ID NO:5694-5699显示了MG22家族酶的特征性肽序列。
MG23
SEQ ID NO:1756-1826显示了MG23核酸酶的全长肽序列。
SEQ ID NO:3569-3637显示了上述MG23核酸酶的RuvC_III结构域的肽序列。
SEQ ID NO:5390-5460显示了上述MG23核酸酶的HNH结构域的肽。
SEQ ID NO:5511显示了来源于与上述MG23核酸酶相同基因座的MG23 tracrRNA的核苷酸序列。
SEQ ID NO:5475显示了经工程化而具有MG23核酸酶功能的sgRNA的核苷酸序列。
SEQ ID NO:5587显示了MG23家族酶的大肠杆菌密码子优化的编码序列的核苷酸序列。
SEQ ID NO:5700-5717显示了MG23家族酶的特征性肽序列。
MG40
SEQ ID NO:5718-5750显示了MG40核酸酶的全长肽序列。
SEQ ID NO:5847-5852显示了与MG40核酸酶相关的原间隔区相邻基序。
SEQ ID NO:5862-5873显示了经工程化而具有MG40核酸酶功能的sgRNA的核苷酸序列。
MG47
SEQ ID NO:5751-5768显示了MG47核酸酶的全长肽序列。
SEQ ID NO:5853-5854显示了与MG47核酸酶相关的原间隔区相邻基序。
SEQ ID NO:5878-5881显示了经工程化而具有MG47核酸酶功能的sgRNA的核苷酸序列。
MG48
SEQ ID NO:5769-5804显示了MG48核酸酶的全长肽序列。
SEQ ID NO:5855-5856显示了与MG48核酸酶相关的原间隔区相邻基序。
SEQ ID NO:5886、5890和5893显示了来源于与上述MG48核酸酶相同基因座的MG48tracrRNA的核苷酸序列。
SEQ ID NO:5887、5891和5894显示了与本文所述MG48核酸酶相关的CRISPR重复。
SEQ ID NO:5888-5889、5892和5895-5896显示了被设计成具有MG48核酸酶功能的推定的sgRNA。
MG49
SEQ ID NO:5805-5823显示了MG49核酸酶的全长肽序列。
SEQ ID NO:5857-5858显示了与MG49核酸酶相关的原间隔区相邻基序。
SEQ ID NO:5862-5873显示了经工程化而具有MG40核酸酶功能的sgRNA的核苷酸序列。
SEQ ID NO:5876-5877显示了经工程化而具有MG49核酸酶功能的sgRNA的核苷酸序列。
MG50
SEQ ID NO:5824-5826显示了MG50核酸酶的全长肽序列。
SEQ ID NO:5859显示了与MG50核酸酶相关的原间隔区相邻基序。
SEQ ID NO:5884-5885显示了经工程化而具有MG50核酸酶功能的sgRNA的核苷酸序列。
MG51
SEQ ID NO:5827-5830显示了MG51核酸酶的全长肽序列。
SEQ ID NO:5860显示了与MG51核酸酶相关的原间隔区相邻基序。
SEQ ID NO:5882-5883显示了经工程化而具有MG51核酸酶功能的sgRNA的核苷酸序列。
MG52
SEQ ID NO:5831-5846显示了MG52核酸酶的全长肽序列。
SEQ ID NO:5861显示了与MG52核酸酶相关的原间隔区相邻基序。
SEQ ID NO:5874-5875显示了经工程化而具有MG42核酸酶功能的sgRNA的核苷酸序列。
具体实施方式
虽然本文已经示出和描述了本发明的各种实施方案,但是对于本领域的技术人员显而易见的是,这些实施方案仅作为示例提供。在不脱离本发明的情况下,本领域技术人员可以想到许多变化、改变和替换。应当理解,可以采用本文所述的本发明实施方案的各种替代方案。
除非另有说明,本文公开的一些方法的实践使用了免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA技术。参见例如Sambrook和Green,Molecular Cloning:A Laboratory Manual,第4版(2012);the series CurrentProtocols in Molecular Biology(F.M.Ausubel等人编著);the series Methods InEnzymology(Academic Press,Inc.),PCR 2:APractical Approach(M.J.MacPherson,B.D.Hames和G.R.Taylor编著(1995)),Harlow和Lane编著(1988)Antibodies,ALaboratory Manual,and Culture of Animal Cells:AManual of Basic Technique andSpecialized Applications,第6版(R.I.Freshney编著(2010))(其通过引用全文并入本文)。
如本文所用,单数形式“一(a、an)”和“该(the))”也旨在包括复数形式,除非上下文另外清楚地指示。此外,就在详细描述和/或权利要求书中使用的术语“包括(including、includes)”、“含有(having、has)”,“具有(with)”或其变体而言,这些术语旨在以类似于术语“包含(comprising)”的方式包括在内。
术语“约(about)”或“近似(approximately)”是指在由本领域普通技术人员确定的特定值的可接受误差范围内,这将部分地取决于如何测量或确定该值,即测量系统的限制。例如,“约”可意指根据本领域的实践在一个或多于一个标准偏差内。或者,“约”可意指给定值的至多20%、至多15%、至多10%、至多5%或至多1%的范围。
如本文所用,“细胞”通常是指生物细胞。细胞可以是活生物体的基本结构、功能和/或生物单元。细胞可源自具有一种或多种细胞的任何生物体。一些非限制性实例包括:原核细胞、真核细胞、细菌细胞、古菌细胞、单细胞真核生物细胞、原生动物细胞、来自植物的细胞(例如,来自植物作物、水果、蔬菜、谷物、大豆、玉米、玉米、小麦、种子、番茄、水稻、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、蕨类植物、石松、金鱼藻、苔类植物、藓类植物的细胞)、藻类细胞(例如,布朗葡萄藻、莱茵衣藻、微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻、展枝马尾藻等)、海藻(例如,海带)、真菌细胞(例如,酵母细胞、来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如,鱼、两栖动物、爬行动物、鸟、哺乳动物)的细胞、来自哺乳动物(例如,猪、牛、山羊、绵羊、啮齿动物、大鼠、小鼠、非人灵长类动物、人等)的细胞等。有时细胞不是源生自天然生物体(例如,细胞可以是合成制备的,有时称为人工细胞)。
如本文所用,术语“核苷酸”通常是指碱基-糖-磷酸组合。核苷酸可包括合成的核苷酸。核苷酸可包括合成的核苷酸类似物。核苷酸可以是核酸序列(例如,脱氧核糖核酸(DNA)和核糖核酸(RNA))的单体单元。术语核苷酸可包括核糖核苷三磷酸如腺苷三磷酸(ATP)、尿苷三磷酸(UTP)、胞嘧啶三磷酸(CTP)、鸟苷三磷酸(GTP)以及脱氧核糖核苷三磷酸如dATP、dCTP、dITP、dUTP、dGTP、dTTP或其衍生物。此类衍生物可包括例如[αS]dATP、7-脱氮-dGTP和7-脱氮-dATP以及赋予含有它们的核酸分子核酸酶抗性的核苷酸衍生物。如本文所用,术语核苷酸可以指双脱氧核苷三磷酸(ddNTP)及其衍生物。双脱氧核苷三磷酸的说明性实例可包括但不限于ddATP、ddCTP、ddGTP、ddITP和ddTTP。核苷酸可以是未标记的或可检测地标记的,例如使用包含可光学检测的部分(例如,荧光团)的部分。标记也可以用量子点进行。可检测标记可包括例如,放射性同位素、荧光标记、化学发光标记、生物发光标记和酶标记。核苷酸的荧光标记可以包括但不限于荧光素、5-羧基荧光素(FAM)、2′7′-二甲氧基-4′5-二氯-6-羧基荧光素(JOE)、罗丹明、6-羧基罗丹明(R6G)、N,N,N′,N′-四甲基-6-羧基罗丹明(TAMRA)、6-羧基-X-罗丹明(ROX)、4-(4′二甲基氨基苯偶氮)苯甲酸(DABCYL)、CascadeBlue、俄勒冈绿(Oregon Green)、德克萨斯红(Texas Red)、花青和5-(2′-氨乙基)氨基萘-1-磺酸(EDANS)。荧光标记的核苷酸的具体实例可以包括购自美国加州福斯特市珀金埃尔默(Perkin Elmer,Foster City,Calif)的[R6G]dUTP、[TAMRA]dUTP、[R110]dCTP、[R6G]dCTP、[TAMRA]dCTP、[JOE]ddATP、[R6G]ddATP、[FAM]ddCTP、[R110]ddCTP、[TAMRA]ddGTP、[ROX]ddTTP、[dR6G]ddATP、[dR110]ddCTP、[dTAMRA]ddGTP和[dROX]ddTTP;购自伊利诺伊州阿灵顿高地的安玛西亚公司(Amersham,Arlington Heights,Ill.)的FluoroLinkDeoxyNucleotides、FluoroLink Cy3-dCTP、FluoroLink Cy5-dCTP、FluoroLink Fluor X-dCTP、FluoroLink Cy3-dUTP和FluoroLink Cy5-dUTP;购自印第安纳州印第安纳波利斯的宝灵曼公司(Boehringer Mannheim,Indianapolis,Ind.)的荧光素-15-dATP、荧光素-12-dUTP、四甲基-罗丹明-6-dUTP、IR770-9-dATP、荧光素-12-ddUTP、荧光素-12-UTP和荧光素-15-2′-dATP;以及购自俄勒冈州尤金的分子探针公司(Molecular Probes,Eugene,Oreg.)的染色体标记的核苷酸、BODIPY-FL-14-UTP、BODIPY-FL-4-UTP、BODIPY-TMR-14-UTP、BODIPY-TMR-14-dUTP、BODIPY-TR-14-UTP、BODIPY-TR-14-dUTP、Cascade Blue-7-UTP、Cascade Blue-7-dUTP、荧光素-12-UTP、荧光素-12-dUTP、俄勒冈绿488-5-dUTP、罗丹明绿-5-UTP、罗丹明绿-5-dUTP、四甲基罗丹明-6-UTP、四甲基罗丹明-6-dUTP、德克萨斯红-5-UTP、德克萨斯红-5-dUTP和德克萨斯红-12-dUTP。核苷酸也可以通过化学修饰来标记(labled)或标识(marked)。化学修饰的单核苷酸可以是生物素-dNTP。生物素化dNTP的一些非限制性实例可包括生物素-dATP(例如,bio-N6-ddATP、生物素-14-dATP)、生物素-dCTP(例如,生物素-11-dCTP、生物素-14-dCTP)和生物素-dUTP(例如,生物素-11-dUTP、生物素-16-dUTP、生物素-20-dUTP)。
术语“多核苷酸”、“寡核苷酸”和“核酸”可互换使用,通常是指任何长度的脱氧核糖核苷酸或其类似物的聚合形式的核苷酸,其为单链、双链或多链形式。多核苷酸对于细胞可以是外源的或内源的。多核苷酸可以存在于无细胞环境中。多核苷酸可以是基因或其片段。多核苷酸可以是DNA。多核苷酸可以是RNA。多核苷酸可以具有任何三维结构并且可以执行任何功能。多核苷酸可以包含一种或多种类似物(例如,改变的主链、糖或核碱基)。如果存在,可以在组装聚合物之前或之后对核苷酸结构进行修饰。类似物的一些非限制性实例包括:5-溴尿嘧啶、肽核酸、异种核酸(xeno nucleic acid)、吗啉代、锁核酸、乙二醇核酸、苏糖核酸、双脱氧核苷酸、虫草素(cordycepin)、7-脱氮-GTP、荧光团(例如,与糖连接的罗丹明或荧光素)、含硫醇的核苷酸、生物素连接的核苷酸、荧光碱基类似物、CpG岛、甲基-7-鸟苷、甲基化核苷酸、肌苷、硫尿苷、假尿苷、二氢尿苷、辫苷(queuosine)和丫苷(wyosine)。多核苷酸的非限制性实例包括基因或基因片段的编码或非编码区、由连锁分析限定的基因座、外显子、内含子、信使RNA(mRNA)、转运RNA(tRNA)、核糖体RNA(rRNA)、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微小RNA(miRNA)、核酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的RNA、包括无细胞DNA(cfDNA)和无细胞RNA(cfRNA)的无细胞多核苷酸、核酸探针和引物。核苷酸序列可以被非核苷酸组件中断。
术语“转染(transfection)”或“转染的(transfected)”通常指通过非病毒或基于病毒的方法将核酸引入细胞。核酸分子可以是编码完整蛋白质或其功能部分的基因序列。参见,例如,Sambrook等人,1989,Molecular Cloning:ALaboratory Manual,18.1-18.88。
术语“肽”、“多肽”和“蛋白质”在本文中可互换使用,通常是指通过肽键连接的至少两个氨基酸残基的聚合物。该术语不表示特定长度的聚合物,也不旨在暗示或区分肽是使用重组技术、化学或酶促合成产生的还是天然存在的。该术语适用于天然存在的氨基酸聚合物以及包含至少一个修饰的氨基酸的氨基酸聚合物。在一些情况下,聚合物可以被非氨基酸中断。该术语包括任何长度的氨基酸链,包括全长蛋白质以及具有或不具有二级和/或三级结构(例如,结构域)的蛋白质。该术语还包括已被修饰的氨基酸聚合物,例如通过二硫键形成、糖基化、脂化、乙酰化、磷酸化、氧化和任何其他操作如与标记组分缀合。本文所用的术语“氨基酸”通常指天然和非天然氨基酸,包括但不限于修饰的氨基酸和氨基酸类似物。修饰的氨基酸可以包括天然氨基酸和非天然氨基酸,它们已经被化学修饰以包括氨基酸上不天然存在的基团或化学部分。氨基酸类似物可以指氨基酸衍生物。术语“氨基酸”包括D-氨基酸和L-氨基酸。
如本文所用,“非天然(non-native)”通常是指在天然核酸或蛋白质中未发现的核酸或多肽序列。非天然可以指亲和标签。非天然可以指融合。非天然可以指包含突变、插入和/或缺失的天然存在的核酸或多肽序列。非天然序列可表现出和/或编码活性(例如,酶活性、甲基转移酶活性、乙酰基转移酶活性、激酶活性、泛素化活性等),该活性也可由与非天然序列融合的核酸和/或多肽序列表现出。非天然核酸或多肽序列可以通过基因工程与天然存在的核酸或多肽序列(或其变体)连接以产生编码嵌合核酸和/或多肽的嵌合核酸和/或多肽序列。
本文所用的术语“启动子”通常是指控制基因转录或表达的调节DNA区,其可位于RNA转录起始处的核苷酸或核苷酸区附近或与其重叠。启动子可以含有结合蛋白因子(通常称为转录因子)的特异性DNA序列,该蛋白因子促进RNA聚合酶与导致基因转录的DNA的结合。“基础启动子(basal promoter)”,也称为“核心启动子(core promoter)”,通常可以指含有促进可操作连接的多核苷酸的转录表达的所有基本必需元件的启动子。真核基础启动子通常,尽管不是必需的,含有TATA盒和/或CAAT盒。
如本文所用,术语“表达”通常是指核酸序列或多核苷酸从DNA模板转录(例如转录成mRNA或其他RNA转录本)的过程和/或转录的mRNA随后翻译成肽、多肽或蛋白质的过程。转录本和编码的多肽可以统称为“基因产物”。如果多核苷酸来源于基因组DNA,则表达可包括真核细胞中mRNA的剪接。
如本文所用,“可操作地连接的(operably linked)”、“可操作的连接(operablelinkage)”、“可操作地连接的(operatively linked)”或其语法等同物通常是指遗传元件(例如,启动子、增强子、聚腺苷酸化序列等)的并置(juxtaposition),其中元件处于允许它们以预期方式操作的关系。例如,如果调控元件帮助启动编码序列的转录,则可以包含启动子和/或增强子序列的调控元件可操作地连接到编码区。在调控元件和编码区之间可能存在居间残基(intervening residue),只要保持这种功能关系。
本文所用的“载体”通常指大分子或大分子的缔合物,其包含多核苷酸或与多核苷酸缔合,并且可用于介导多核苷酸向细胞的递送。载体的实例包括质粒、病毒载体、脂质体和其他基因递送载体。载体通常包含可操作地连接到基因以促进基因在靶中表达的遗传元件(例如,调控元件)。
如本文所用,“表达盒”和“核酸盒”可互换使用,通常是指一起表达或可操作地连接用于表达的核酸序列或元件的组合。在一些情况下,表达盒是指调控元件和与其可操作地连接用于表达的基因的组合。
DNA或蛋白质序列的“功能性片段”通常是指保留与全长DNA或蛋白质序列的生物活性基本相似的生物活性(功能性或结构性)的片段。DNA序列的生物活性可以是其以已知的归因于全长序列的方式影响表达的能力。
如本文所用,“工程化(engineered)”对象通常表示该对象已经通过人为干预而被修饰。根据非限制性实例:核酸可以通过将其序列改变为自然界中不存在的序列来修饰;核酸可以通过将其连接至其在自然界中不缔合的核酸来修饰,使得连接的产物具有在原始核酸中不存在的功能;工程化核酸可以在体外合成,其具有自然界中不存在的序列;蛋白质可以通过将其氨基酸序列改变为自然界不存在的序列来修饰;工程化蛋白质可获得新的功能或性质。“工程化”系统包含至少一个工程化组件。
如本文所用,“合成的”和“人工的”可互换使用,是指与天然存在的人蛋白质具有较低序列同一性(例如,小于50%序列同一性、小于25%序列同一性、小于10%序列同一性、小于5%序列同一性、小于1%序列同一性)的蛋白质或其结构域。例如,VPR和VP64结构域是合成的反式激活结构域。
如本文所用,术语“tracrRNA”或“tracr序列”通常是指与野生型示例性tracrRNA序列(例如,来自酿脓链球菌、金黄色葡萄球菌等或SEQ ID NO:5476-5511的tracrRNA)具有至少约5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%或100%序列同一性和/或序列相似性的核酸。tracrRNA可以指与野生型示例性tracrRNA序列(例如,来自酿脓链球菌、金黄色葡萄球菌等的tracrRNA)具有至多约5%、10%、20%、30%、40%、50%、60%、70%、80%、90%或100%序列同一性和/或序列相似性的核酸。tracrRNA可以指修饰形式的tracrRNA,修饰形式可以包含核苷酸变化如缺失、插入或取代、变体、突变或嵌合体。tracrRNA可以指在一段至少6个连续核苷酸上的序列上与野生型示例性tracrRNA序列(例如,来自酿脓链球菌、金黄色葡萄球菌等的tracrRNA)具有至少约60%同一性的核酸。例如,tracrRNA序列可以在一段至少6个连续核苷酸上的序列上与野生型示例性tracrRNA(例如,来自酿脓链球菌、金黄色葡萄球菌等的tracrRNA)具有至少约60%同一性,至少约65%同一性、至少约70%同一性、至少约75%同一性、至少约80%同一性、至少约85%同一性、至少约90%同一性、至少约95%同一性、至少约98%同一性、至少约99%同一性或100%同一性。通过鉴定与相邻CRISPR阵列中的重复序列的一部分具有互补性的区域,可以在基因组序列上预测II型tracrRNA序列。
如本文所用,“指导核酸(guide nucleic acid)”通常是指可与另一核酸杂交的核酸。指导核酸可以是RNA。指导核酸可以是DNA。可以对指导核酸进行编程以位点特异性地结合核酸序列。待靶向的核酸或靶核酸可以包含核苷酸。指导核酸可以包含核苷酸。靶核酸的一部分可以与指导核酸的一部分互补。与指导核酸互补并杂交的双链靶多核苷酸的链可称为互补链。与互补链互补并因此可能不与指导核酸互补的双链靶多核苷酸的链可称为非互补链。指导核酸可以包含一条多核苷酸链并且可以称为“单指导核酸”。指导核酸可以包含两条多核苷酸链并且可以称为“双指导核酸”。如果没有另外说明,术语“指导核酸”可以是包括性的,指单指导核酸和双指导核酸。指导核酸可以包含可称为“核酸靶向区段”或“核酸靶向序列”的区段。核酸靶向区段可以包含可称为“蛋白质结合区段”或“蛋白质结合序列”或“Cas蛋白质结合区段”的亚区段。
在两个或更多个核酸或多肽序列的情况下,术语“序列同一性”或“同一性百分比”通常是指当在局部或全局比较窗口上比较和比对最大对应性时,如使用序列比较算法测量的,两个(例如,成对比对)或更多个(例如,多序列比对)序列是相同的或具有指定百分比的相同氨基酸残基或核苷酸。用于多肽序列的合适的序列比较算法包括,例如,对于长于30个残基的多肽序列使用字长(W)为3、期望值(E)为10的参数以及将空位成本设定为存在为11、延伸为1并且使用条件组成得分矩阵调整的BLOSUM62打分矩阵的BLASTP;对于少于30个残基的序列使用字长(W)为2、期望值(E)为1000000的参数以及将空位成本设定为开放空位为9且延伸空位为1的PAM30打分矩阵(这些是可在https://blast.ncbi.nlm.nih.gov获得的BLAST套件中BLASTP的默认参数)的BLASTP;参数为的CLUSTALW:参数匹配为2、错配为-1且空位为-1的Smith-Waterman同源性检索算法;具有默认参数的MUSCLE;参数retree为2且最大迭代次数为1000的MAFFT;具有默认参数的Novafold;具有默认参数的HMMER hmmalign。
本公开内容包括具有一个或多个保守氨基酸取代的本文所述的任何酶的变体。这种保守取代可以在多肽的氨基酸序列中进行而不破坏多肽的三维结构或功能。保守取代可以通过用具有相似疏水性、极性和R链长度的氨基酸彼此取代来完成。另外地或可选地,通过比较来自不同物种的同源蛋白质的比对序列,可以通过定位在物种之间已经突变的氨基酸残基(例如,非保守残基)而不改变所编码蛋白质的基本功能来鉴定保守取代。这种保守取代的变体可包括与本文所述的任一种核酸内切酶蛋白序列(例如,本文所述的MG1、MG2、MG3、MG4、MG6、MG7、MG14、MG15、MG16、MG18、MG21、MG22或MG23家族核酸内切酶)具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%同一性的变体。在一些实施方案中,这种保守取代的变体是功能性变体。这种功能性变体可以包含具有取代的序列,使得核酸内切酶的关键活性位点残基的活性不被破坏。在一些实施方案中,本文所述的任何蛋白质的功能性变体缺乏图6、7、8、9A、9B、9C、9D、9E、9F、9G或9H中所示的保守或功能性残基中的至少一个的取代。在一些实施方案中,本文所述的任何蛋白质的功能性变体缺乏图6、7、8、9A、9B、9C、9D、9E、9F、9G或9H中所示的保守或功能性残基中的所有取代。
提供功能上相似的氨基酸的保守取代表可获自多种参考文献中(参见,例如,Creighton,Proteins:Structures and Molecular Properties(W H Freeman&Co.;第2版(1993年12月))。以下八组各自含有彼此保守取代的氨基酸:
1)丙氨酸(A),甘氨酸(G);
2)天冬氨酸(D),谷氨酸(E);
3)天冬酰胺(N),谷氨酰胺(Q);
4)精氨酸(R),赖氨酸(K);
5)异亮氨酸(I),亮氨酸(L),甲硫氨酸(M),缬氨酸(V);
6)苯丙氨酸(F),酪氨酸(Y),色氨酸(W);
7)丝氨酸(S),苏氨酸(T);以及
8)半胱氨酸(C),甲硫氨酸(M)
如本文所用,术语“RuvC_III结构域”通常是指RuvC核酸内切酶结构域的第三不连续区段(RuvC核酸酶结构域由三个不连续片段RuvC_I、RuvC_II和RuvC_III组成)。RuvC结构域或其片段通常可以通过与已知结构域序列的比对、与具有注释结构域的蛋白质的结构比对、或通过与基于已知结构域序列(例如,RuvC_III的Pfam HMM PF18541)构建的隐马尔可夫模型(HMM)的比较来鉴定。
如本文所用,术语“HNH结构域”通常是指具有特征性组氨酸和天冬酰胺残基的核酸内切酶结构域。HNH结构域通常可以通过与已知结构域序列的比对、与具有注释结构域的蛋白质的结构比对、或通过与基于已知结构域序列(例如,结构域HNH的Pfam HMM PF01844)构建的隐马尔可夫模型(HMM)的比较来鉴定。
综述
具有独特功能性和结构的新型Cas酶的发现可提供进一步破坏脱氧核糖核酸(DNA)编辑技术、提高速度、特异性、功能性和易用性的潜力。相对于微生物中成簇的规律间隔的短回文重复序列(CRISPR)系统的预测流行率和微生物物种的绝对多样性,文献中存在相对较少的功能表征的CRISPR/Cas酶。这部分是因为大量的微生物物种可能不容易在实验室条件下培养。来自代表大量微生物物种的天然环境生态位(niche)的宏基因组测序可以提供极大地增加已知的新CRISPR/Cas系统的数目并加速新寡核苷酸编辑功能性的发现的潜力。这种方法的结果的富有成效的最近例子通过2016年发现来自天然微生物群落的宏基因组分析的Casx/Casy CRISPR系统得到证实。
CRISPR/Cas系统是RNA定向的核酸酶复合物,其已被描述为在微生物中起适应性免疫系统的作用。在其自然背景下,CRISPR/Cas系统在CRISPR(成簇的规律间隔的短回文重复序列)操纵子或基因座中出现,其通常包含两个部分:(i)由同样短的间隔序列分隔的短重复序列(30-40bp)的阵列,其编码基于RNA的靶向元件;和(ii)编码Cas的ORF编码由基于RNA的靶向元件定向的核酸酶多肽以及辅助蛋白/酶。特定靶核酸序列的有效核酸酶靶向通常需要(i)靶(靶种子)的前6-8个核酸与crRNA指导之间的互补杂交;和(ii)在靶种子的确定的邻近区域内存在原间隔区相邻基序(PAM)序列(PAM通常是在宿主基因组内不常见的序列)。根据系统的确切功能和组织,CRISPR-Cas系统通常基于共有的功能特征和进化相似性被组织成2类、5型和16亚型。
I类CRISPR-Cas系统具有大的多亚基效应子复合物,并且包括I、III和IV型。
就组分而言,I型CRISPR-Cas系统被认为具有中等复杂性。在I型CRISPR-Cas系统中,RNA靶向元件的阵列被转录为长前体crRNA(前crRNA(pre-crRNA)),该长前体crRNA在重复元件处被加工以释放短的、成熟的crRNA,这些crRNA在它们后面跟随称为原间隔区相邻基序(PAM)的合适的短共有序列时将核酸酶复合物定向至核酸靶。这种加工通过称为Cascade的大核酸内切酶复合物的内切核糖核酸酶亚基(Cas6)发生,该复合物还包含crRNA定向的核酸酶复合物(crRNA-directed nuclease complex)的核酸酶(Cas3)蛋白组分。CasI核酸酶主要起DNA核酸酶的作用。
III型CRISPR系统的特征可以在于存在称为Cas10的中心核酸酶,以及包含Csm或Cmr蛋白亚基的重复相关神秘蛋白(RAMP)。与I型系统类似,使用Cas6样酶从前crRNA加工成熟crRNA。与I型和II型系统不同,III型系统似乎靶向并剪切DNA-RNA双链体(例如,DNA链用作RNA聚合酶的模板)。
IV型CRISPR-Cas系统具有效应子复合物,其由高度还原的大亚基核酸酶(csf1)、Cas5(csf3)和Cas7(csf2)组的RAMP蛋白的两个基因、以及在一些情况下预测的小亚基的基因组成;这些系统通常存在于内源质粒上。
II类CRISPR-Cas系统通常具有单一多肽多结构域核酸酶效应子,并且包括II、V和VI型。
就组分而言,II型CRISPR-Cas系统被认为是最简单的。在II型CRISPR-Cas系统中,将CRISPR阵列加工成成熟的crRNA不需要存在特定的核酸内切酶亚基,而是具有与阵列重复序列互补的区域的小的反式编码的crRNA(tracrRNA);tracrRNA与其相应的效应子核酸酶(例如,Cas9)和重复序列相互作用以形成前体dsRNA结构,其被内源RNAse III剪切以产生装载tracrRNA和crRNA的成熟效应子酶。Cas II核酸酶称为DNA核酸酶。2型效应子通常显示由RuvC样核酸内切酶结构域组成的结构,该RuvC样核酸内切酶结构域采用RNase H折叠,不相关的HNH核酸酶结构域插入RuvC样核酸酶结构域的折叠内。RuvC样结构域负责剪切靶(例如,crRNA互补的)DNA链,而HNH结构域负责剪切置换的DNA链。
V型CRISPR-Cas系统的特征在于与II型效应子类似的核酸酶效应子(例如Cas12)结构,其包含RuvC样结构域。与II型相似,大多数(但不是全部)V型CRISPR系统使用tracrRNA将前crRNA加工成成熟crRNA;然而,与需要RNAse III将前crRNA剪切成多个crRNA的II型系统不同,V型系统能够使用效应子核酸酶来剪切前crRNA。与II型CRISPR-Cas系统类似,V型CRISPR-Cas系统又被称为DNA核酸酶。与II型CRISPR-Cas系统不同,一些V型酶(例如,Cas12a)似乎具有稳健的单链非特异性脱氧核糖核酸酶活性,其通过双链靶序列的第一crRNA定向剪切而活化。
VI型CRIPSR-Cas系统具有RNA指导的RNA核酸内切酶。代替RuvC样结构域,VI型系统的单一多肽效应子(例如,Cas13)包含两个HEPN核糖核酸酶结构域。与II型和V型系统不同,VI型系统似乎也不需要tracrRNA来将前crRNA加工成crRNA。然而,类似于V型系统,一些VI型系统(例如,C2C2)似乎具有由靶RNA的第一crRNA定向剪切激活的稳健的单链非特异性核酸酶(核糖核酸酶)活性。
由于其更简单的结构,II类CRISPR-Cas已作为设计者核酸酶/基因组编辑应用最广泛地用于工程化和开发。
这种体外使用的系统的早期适应性之一可见于Jinek等人(Science.2012.8.17;337(6096):816-21,其通过引用全文并入本文)。Jinek研究首先描述了一种系统,其包含(i)重组表达的、纯化的全长Cas9(例如,II类II型Cas酶),其由酿脓链球菌SF370分离;(ii)纯化的成熟的~42nt crRNA,其携带与期望被剪切的靶DNA序列互补的~20nt 5'序列,随后是3'tracr结合序列(整个crRNA在体外由携带T7启动子序列的合成DNA模板转录);(iii)纯化tracrRNA,其由携带T7启动子序列的合成DNA模板体外转录;和(iv)Mg2+。Jinek稍后描述了一种改进的工程化系统,其中(ii)的crRNA通过接头(例如,GAAA)连接至(iii)的5'端以形成能够将Cas9自身定向至靶的单一融合合成指导RNA(sgRNA)(比较图2的上图和下图)。
Mali等人(Science.2013.2.15;339(6121):823-826.,其通过引用全文并入本文)随后通过提供DNA载体而使该系统适用于哺乳动物细胞,DNA载体编码(i)在合适的哺乳动物启动子控制下的编码密码子优化的Cas9(例如,II类II型Cas酶)的ORF,其具有C-末端核定位序列(例如,SV40 NLS)和合适的聚腺苷酸化信号(例如,TK pA信号);和(ii)在合适的聚合酶III启动子(例如,U6启动子)下编码sgRNA(具有以G开始的5'序列,随后是与3'tracr结合序列、接头和tracrRNA序列连接的20nt的互补靶向核酸序列)的ORF。
MG酶
在一个方面,本公开提供了一种通过宏基因组测序发现的工程化核酸酶系统。在一些情况下,对样品进行宏基因组测序。在一些情况下,可以通过各种环境收集样品。这样的环境可以是人微生物组(microbiome)、动物微生物组、高温环境、低温环境。这种环境可以包括沉积物。本文所述的工程化核酸酶系统的此类环境类型的实例可见于图45。
MG1酶
在一个方面,本公开提供了一种包含(a)核酸内切酶的工程化核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型II类Cas核酸内切酶。核酸内切酶可以包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:1827-2140中任一项具有至少约70%的序列同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:1827-2140中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:1827-2140中任一项基本上相同。核酸内切酶可以包含与SEQID NO:1827-1831中任一项具有至少约70%序列同一性的RuvC_III结构域。在一些情况下,核酸内切酶可以包含RuvC_III结构域,该RuvC_III结构域与SEQ ID NO:1827-1831中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含与SEQ ID NO:1827-1831中任一项基本上相同的RuvC_III结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与否ID NO:1827具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%至少约99%的同一性。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与否ID NO:1828中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%至少约99%的同一性。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与否ID NO:1829具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%至少约99%的同一性。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与否ID NO:1830具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%至少约99%的同一性。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与否ID NO:1831具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%至少约99%的同一性。
核酸内切酶可以包含与SEQ ID NO:3638-3955中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:3638-3955中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:3638-3955中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:3638-3955中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:3638-3955中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:3638-3955中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:3638-3641中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:3638-3641中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:3638-3641中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:3638中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:3638中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:3638中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:3639中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:3639中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:3639中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:3640中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:3640中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:3640中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:3641中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:3641中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:3641中任一项基本上相同的HNH结构域。
在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:1-6或9-319中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:1-6或9-319中任一项基本相同。在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:1-4中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:1-4中任一项基本上相同。在一些情况下,核酸内切酶可以包含与SEQ ID NO:5615、5616或5617中任一项基本上相同的肽基序。
在一些情况下,核酸内切酶可以包含具有一个或多个核定位序列(NLS)的变体。NLS可以邻近所述核酸内切酶的N-末端或C-末端。NLS可以附加到SEQ ID NO:1-6或9-319中任一项的N-末端或C-末端,或附加到变体的N-末端或C-末端,该变体与SEQ ID NO:1-319中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可以包含与SEQ ID NO:5593-5608中任一项具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:5593-5608中任一项基本上相同的序列。NLS可以包含下表1中的任何序列或其组合:
表1:根据本公开内容的可以与Cas效应子一起使用的示例NLS序列
在一些情况下,核酸内切酶可以是重组的(例如,通过合适的方法如在大肠杆菌中表达然后进行表位标记纯化进行克隆、表达和纯化)。在一些情况下,核酸内切酶可以来源于具有与SEQ ID NO:5592-5595中任一项具有至少约90%同一性的16S rRNA基因的细菌。核酸内切酶可以来源于具有16S rRNA基因的物种,该16S rRNA与SEQ ID NO:5592-5595中任一项具有至少约80%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性。核酸内切酶可来源于具有与SEQ ID NO:5592-5595中任一项基本相同的16S rRNA基因的物种。核酸内切酶可以来源于属于疣微菌门或候选异域菌门的细菌。
在一些情况下,序列同一性可以通过BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或CLUSTALW,使用Smith-Waterman同源性搜索算法的参数来确定。序列同一性可以通过BLASTP算法来确定,所述BLASTP算法使用字长(W)为3、期望值(E)为10的参数,并且使用将空位成本设定为存在为11、延伸为1以及用条件组成得分矩阵调整的BLOSUM62打分矩阵。
在一些情况下,上述系统可以包含(b)至少一种工程化的合成指导核糖核酸(sgRNA),其能够与携带与所需剪切序列互补的5'靶向区域的核酸内切酶形成复合物。在一些情况下,5'靶向区域可以包含与核酸内切酶相容的PAM序列。在一些情况下,靶向区域的最5'核苷酸可以是G。在一些情况下,5'靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为单独的核糖核酸(RNA)或单一核糖核酸(RNA)提供。指导RNA可以包含与靶向区3'结合的crRNA tracrRNA序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区的3'的4-核苷酸接头。sgRNA的5′至3′可以包含:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。
在一些情况下,tracr序列可以具有特定序列。tracr序列可以与天然tracrRNA序列的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。tracr序列可以与SEQ ID NO:5476-5489中任一项的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。在一些情况下,tracrRNA可以与SEQ ID NO:5476-5489中任一项的至少约60-90(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,tracrRNA可以与SEQ ID NO:5476-5489中任一项的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本上相同。tracrRNA可以包含SEQ ID NO:5476-5489中任一项。
在一些情况下,能够与核酸内切酶形成复合物的至少一种工程化合成指导核糖核酸(sgRNA)可以包含与SEQ ID NO:5461-5464中任一项具有至少约80%同一性的序列。sgRNA可以包含与SEQ ID NO:5461-5464中任一项具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。sgRNA可以包含与SEQ ID NO:5461-5464中任一项基本上相同的序列。
在一些情况下,上述系统可以包含靶向第一区和第二区以在靶DNA基因座中剪切的两种不同的sgRNA,其中第二区位于第一区的3'。在一些情况下,上述系统可以包含单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含在所述第一区5'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列;至少约10个核苷酸的合成DNA序列;和第二同源臂,其包含在所述第二区3'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列。
在另一方面,本公开提供了一种用于修饰靶核酸基因座的方法。该方法可包括向靶核酸基因座递送本文公开的任何非天然系统,包括本文公开的酶和至少一种合成指导RNA(sgRNA)。酶可以与至少一种sgRNA形成复合物,并且当复合物与靶核酸基因座结合时,可以修饰靶核酸基因座。将酶递送到所述基因座可以包括用该系统或编码该系统的核酸转染细胞。将核酸酶递送到所述基因座可以包括用该系统或编码该系统的核酸电穿孔细胞。将核酸酶递送到所述基因座可以包括将系统在缓冲液中与包含目标基因座(locus ofinterest)的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可以包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以位于细胞内。靶核酸基因座可以位于体外。靶核酸基因座可以位于真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古菌细胞或植物细胞。酶可以在目标靶基因座处或其附近诱导单链或双链断裂。
在其中靶核酸基因座可以位于细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,该RuvC_III结构域与SEQ ID NO:1827-2140中任一项具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。含有编码所述核酸内切酶的开放阅读框的脱氧核糖核酸(DNA)可以包含与SEQ ID NO:5572-5575中任一项基本上相同的序列或与SEQ ID NO:5572-5575中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性的变体。在一些情况下,核酸包含与编码核酸内切酶的开放阅读框可操作地连接的启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程化的sgRNA可以作为脱氧核糖核酸(DNA)的形式提供,该脱氧核糖核酸含有编码所述至少一种工程化的sgRNA的基因序列,该基因序列与核糖核酸(RNA)polIII启动子可操作地连接。在一些情况下,生物体可以是真核的。在一些情况下,生物体可以是真菌的。在一些情况下,生物体可以是人。
在一些情况下,本公开可提供一种包含本文公开的系统或本文描述的核酸的表达盒。在一些情况下,表达盒或核酸可以作为载体提供。在一些情况下,表达盒、核酸或载体可以在细胞中提供。在一些情况下,细胞是具有与SEQ ID NO:5592-5595中任一项具有至少约90%(例如,至少约99%)同一性的16S rRNA基因的细菌的细胞。
MG2酶
在一个方面,本公开提供了一种包含(a)核酸内切酶的工程化核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型II类Cas核酸内切酶。核酸内切酶可以包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:2141-2241中任一项具有至少约70%的序列同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:2141-2241中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:2141-2142中任一项基本上相同。核酸内切酶可以包含与SEQID NO:2141-2142中任一项具有至少约70%序列同一性的RuvC_III结构域。在一些情况下,核酸内切酶可以包含RuvC_III结构域,该RuvC_III结构域与SEQ ID NO:2141-2142中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含与SEQ ID NO:2141-2142中任一项基本上相同的RuvC_III结构域。
核酸内切酶可以包含与SEQ ID NO:3955-4055中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:3955-4055中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:3955-4055中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:3955-3956中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:3955-3956中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:3955-3956中任一项基本上相同的HNH结构域。
在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:320-420中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:320-420中任一项基本上相同。在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:320-321中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:320-321中任一项基本上相同。
在一些情况下,核酸内切酶可以包含具有一个或多个核定位序列(NLS)的变体。NLS可以邻近所述核酸内切酶的N-末端或C-末端。NLS可以附加到SEQ ID NO:320-420中任一项的N-末端或C-末端,或附加到变体的N-末端或C-末端,该变体与SEQ ID NO:320-420中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可以包含与SEQ ID NO:5593-5608中任一项具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:5593-5608中任一项基本上相同的序列。NLS可以包含表1中的任何序列或其组合:
在一些情况下,序列同一性可以通过BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或CLUSTALW,使用Smith-Waterman同源性搜索算法的参数来确定。序列同一性可以通过BLASTP算法来确定,所述BLASTP算法使用字长(W)为3、期望值(E)为10的参数,并且使用将空位成本设定为存在为11、延伸为1以及用条件组成得分矩阵调整的BLOSUM62打分矩阵。
在一些情况下,上述系统可以包含(b)至少一种工程化的合成指导核糖核酸(sgRNA),其能够与携带与所需剪切序列互补的5'靶向区域的核酸内切酶形成复合物。在一些情况下,5'靶向区域可以包含与核酸内切酶相容的PAM序列。在一些情况下,靶向区域的最5'核苷酸可以是G。在一些情况下,5'靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为单独的核糖核酸(RNA)或单一核糖核酸(RNA)提供。指导RNA可以包含与靶向区3'结合的crRNA tracrRNA序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区的3'的4-核苷酸接头。sgRNA的5′至3′可以包含:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。
在一些情况下,tracr序列可以具有特定序列。tracr序列可以与天然tracrRNA序列的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。tracr序列可以与SEQ ID NO:5490-5494中任一项的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。在一些情况下,tracrRNA可以与SEQ ID NO:5490-5494中任一项的至少约60-90(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,tracrRNA可以与SEQ ID NO:5490-5494中任一项的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本上相同。tracrRNA可以包含SEQ ID NO:5490-5494中任一项。
在一些情况下,能够与核酸内切酶形成复合物的至少一种工程化合成指导核糖核酸(sgRNA)可以包含与SEQ ID NO:5465具有至少约80%同一性的序列。sgRNA可以包含与SEQ ID NO:5465具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。sgRNA可以包含与SEQ ID NO:5465基本上相同的序列。
在一些情况下,上述系统可以包含靶向第一区和第二区以在靶DNA基因座中剪切的两种不同的sgRNA,其中第二区位于第一区的3'。在一些情况下,上述系统可以包含单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含在所述第一区5'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列;至少约10个核苷酸的合成DNA序列;和第二同源臂,其包含在所述第二区3'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列。
在另一方面,本公开提供了一种用于修饰目标靶核酸基因座的方法。该方法可包括向靶核酸基因座递送本文公开的任何非天然系统,包括本文公开的酶和至少一种合成指导RNA(sgRNA)。酶可以与至少一种sgRNA形成复合物,并且当复合物与目标靶核酸基因座结合时,可以修饰该目标靶核酸基因座。将酶递送到所述基因座可以包括用该系统或编码该系统的核酸转染细胞。将核酸酶递送到所述基因座可以包括用该系统或编码该系统的核酸电穿孔细胞。将核酸酶递送到所述基因座可以包括将系统在缓冲液中与包含目标基因座(locus of interest)的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可以包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以位于细胞内。靶核酸基因座可以位于体外。靶核酸基因座可以位于真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古菌细胞或植物细胞。酶可以在目标靶基因座处或其附近诱导单链或双链断裂。
在其中靶核酸基因座可以位于细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,该RuvC_III结构域与SEQ ID NO:2141-2241中任一项具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。含有编码所述核酸内切酶的开放阅读框的脱氧核糖核酸(DNA)可以包含与SEQ ID NO:5576-5577中任一项基本上相同的序列或与SEQ ID NO:5576-5577中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性的变体。在一些情况下,核酸包含与编码核酸内切酶的开放阅读框可操作地连接的启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程化的sgRNA可以作为脱氧核糖核酸(DNA)的形式提供,该脱氧核糖核酸含有编码所述至少一种工程化的sgRNA的基因序列,该基因序列与核糖核酸(RNA)polIII启动子可操作地连接。在一些情况下,生物体可以是真核的。在一些情况下,生物体可以是真菌的。在一些情况下,生物体可以是人。
MG3酶
在一个方面,本公开提供了一种包含(a)核酸内切酶的工程化核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型II类Cas核酸内切酶。核酸内切酶可以包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:2242-2251中任一项具有至少约70%的序列同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:2242-2251中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:2242-2251中任一项基本上相同。核酸内切酶可以包含与SEQID NO:2242-2244中任一项具有至少约70%序列同一性的RuvC_III结构域。在一些情况下,核酸内切酶可以包含RuvC_III结构域,该RuvC_III结构域与SEQ ID NO:2242-2244中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,该RuvC_III结构域与SEQ ID NO:2242-2244中任一项基本上相同。
核酸内切酶可以包含与SEQ ID NO:4056-4066中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:4056-4066中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:4056-4066中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:4056-4058中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:4056-4058中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:4056-4058中任一项基本上相同的HNH结构域。
在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:421-431中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:421-431中任一项基本上相同。在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:421-423中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:421-423中任一项基本上相同。
在一些情况下,核酸内切酶可以包含具有一个或多个核定位序列(NLS)的变体。NLS可以邻近所述核酸内切酶的N-末端或C-末端。NLS可以附加到SEQ ID NO:421-431中任一项的N-末端或C-末端,或附加到变体的N-末端或C-末端,该变体与SEQ ID NO:421-431中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可以包含与SEQ ID NO:5593-5608中任一项具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:5593-5608中任一项基本上相同的序列。NLS可以包含表1中的任何序列或其组合:
在一些情况下,序列同一性可以通过BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或CLUSTALW,使用Smith-Waterman同源性搜索算法的参数来确定。序列同一性可以通过BLASTP算法来确定,所述BLASTP算法使用字长(W)为3、期望值(E)为10的参数,并且使用将空位成本设定为存在为11、延伸为1以及用条件组成得分矩阵调整的BLOSUM62打分矩阵。
在一些情况下,上述系统可以包含(b)至少一种工程化的合成指导核糖核酸(sgRNA),其能够与携带与所需剪切序列互补的5'靶向区域的核酸内切酶形成复合物。在一些情况下,5'靶向区域可以包含与核酸内切酶相容的PAM序列。在一些情况下,靶向区域的最5'核苷酸可以是G。在一些情况下,5'靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为单独的核糖核酸(RNA)或单一核糖核酸(RNA)提供。指导RNA可以包含与靶向区3'结合的crRNA tracrRNA序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区的3'的4-核苷酸接头。sgRNA的5′至3′可以包含:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。
在一些情况下,tracr序列可以具有特定序列。tracr序列可以与天然tracrRNA序列的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。tracr序列可以与SEQ ID NO:5495-5502中任一项的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。在一些情况下,tracrRNA可以与SEQ ID NO:5495-5502中任一项的至少约60-90(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,tracrRNA可以与SEQ ID NO:5495-5502中任一项的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本上相同。tracrRNA可以包含SEQ ID NO:5495-5502中任一项。
在一些情况下,能够与核酸内切酶形成复合物的至少一种工程化合成指导核糖核酸(sgRNA)可以包含与SEQ ID NO:5466-5467中任一项具有至少约80%同一性的序列。sgRNA可以包含与SEQ ID NO:5466-5467中任一项具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。sgRNA可以包含与SEQ ID NO:5466-5467中任一项基本上相同的序列。
在一些情况下,上述系统可以包含靶向第一区和第二区以在靶DNA基因座中剪切的两种不同的sgRNA,其中第二区位于第一区的3'。在一些情况下,上述系统可以包含单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含在所述第一区5'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列;至少约10个核苷酸的合成DNA序列;和第二同源臂,其包含在所述第二区3'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列。
在另一方面,本公开提供了一种用于修饰目标靶核酸基因座的方法。该方法可包括向靶核酸基因座递送本文公开的任何非天然系统,包括本文公开的酶和至少一种合成指导RNA(sgRNA)。酶可以与至少一种sgRNA形成复合物,并且当复合物与目标靶核酸基因座结合时,可以修饰该目标靶核酸基因座。将酶递送到所述基因座可以包括用该系统或编码该系统的核酸转染细胞。将核酸酶递送到所述基因座可以包括用该系统或编码该系统的核酸电穿孔细胞。将核酸酶递送到所述基因座可以包括将系统在缓冲液中与包含目标基因座(locus of interest)的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可以包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以位于细胞内。靶核酸基因座可以位于体外。靶核酸基因座可以位于真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古菌细胞或植物细胞。酶可以在目标靶基因座处或其附近诱导单链或双链断裂。
在其中靶核酸基因座可以位于细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,该RuvC_III结构域与SEQ ID NO:2242-2251中任一项具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。含有编码所述核酸内切酶的开放阅读框的脱氧核糖核酸(DNA)可以包含与SEQ ID NO:5578-5580中任一项基本上相同的序列或与SEQ ID NO:5578-5580中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性的变体。在一些情况下,核酸包含与编码核酸内切酶的开放阅读框可操作地连接的启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程化的sgRNA可以作为脱氧核糖核酸(DNA)的形式提供,该脱氧核糖核酸含有编码所述至少一种工程化的sgRNA的基因序列,该基因序列与核糖核酸(RNA)polIII启动子可操作地连接。在一些情况下,生物体可以是真核的。在一些情况下,生物体可以是真菌的。在一些情况下,生物体可以是人。
MG4酶
在一个方面,本公开提供了一种包含(a)核酸内切酶的工程化核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型II类Cas核酸内切酶。核酸内切酶可以包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:2253-2481中任一项具有至少约70%的序列同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:2253-2481中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:2253-2481中任一项基本上相同。核酸内切酶可以包含与SEQID NO:2253-2481中任一项具有至少约70%序列同一性的RuvC_III结构域。在一些情况下,核酸内切酶可以包含RuvC_III结构域,该RuvC_III结构域与SEQ ID NO:2253-2481中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含与SEQ ID NO:2253-2481中任一项基本上相同的RuvC_III结构域。
核酸内切酶可以包含与SEQ ID NO:4067-4295中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:4067-4295中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:4067-4295中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:4067-4295中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:4067-4295中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:4067-4295中任一项基本上相同的HNH结构域。
在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:432-660中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:432-660中任一项基本上相同。在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:432-660中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:432-660中任一项基本上相同。
在一些情况下,核酸内切酶可以包含具有一个或多个核定位序列(NLS)的变体。NLS可以邻近所述核酸内切酶的N-末端或C-末端。NLS可以附加到SEQ ID NO:432-660中任一项的N-末端或C-末端,或附加到变体的N-末端或C-末端,该变体与SEQ ID NO:432-660中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可以包含与SEQ ID NO:5593-5608中任一项具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:5593-5608中任一项基本上相同的序列。NLS可以包含表1中的任何序列或其组合:
在一些情况下,序列同一性可以通过BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或CLUSTALW,使用Smith-Waterman同源性搜索算法的参数来确定。序列同一性可以通过BLASTP算法来确定,所述BLASTP算法使用字长(W)为3、期望值(E)为10的参数,并且使用将空位成本设定为存在为11、延伸为1以及用条件组成得分矩阵调整的BLOSUM62打分矩阵。
在一些情况下,上述系统可以包含(b)至少一种工程化的合成指导核糖核酸(sgRNA),其能够与携带与所需剪切序列互补的5'靶向区域的核酸内切酶形成复合物。在一些情况下,5'靶向区域可以包含与核酸内切酶相容的PAM序列。在一些情况下,靶向区域的最5'核苷酸可以是G。在一些情况下,5'靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为单独的核糖核酸(RNA)或单一核糖核酸(RNA)提供。指导RNA可以包含与靶向区3'结合的crRNA tracrRNA序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区的3'的4-核苷酸接头。sgRNA的5′至3′可以包含:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。
在一些情况下,tracr序列可以具有特定序列。tracr序列可以与天然tracrRNA序列的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。tracr序列可以与SEQ ID NO:5503的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。在一些情况下,tracrRNA可以与SEQID NO:5503的至少约60-90(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,tracrRNA可以与SEQ ID NO:5503的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本上相同。tracrRNA可以包含SEQ ID NO:5503。
在一些情况下,能够与核酸内切酶形成复合物的至少一种工程化合成指导核糖核酸(sgRNA)可以包含与SEQ ID NO:5468具有至少约80%同一性的序列。sgRNA可以包含与SEQ ID NO:5468具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。sgRNA可以包含与SEQ ID NO:5468基本上相同的序列。
在一些情况下,上述系统可以包含靶向第一区和第二区以在靶DNA基因座中剪切的两种不同的sgRNA,其中第二区位于第一区的3'。在一些情况下,上述系统可以包含单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含在所述第一区5'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列;至少约10个核苷酸的合成DNA序列;和第二同源臂,其包含在所述第二区3'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列。
在另一方面,本公开提供了一种用于修饰目标靶核酸基因座的方法。该方法可包括向靶核酸基因座递送本文公开的任何非天然系统,包括本文公开的酶和至少一种合成指导RNA(sgRNA)。酶可以与至少一种sgRNA形成复合物,并且当复合物与目标靶核酸基因座结合时,可以修饰该目标靶核酸基因座。将酶递送到所述基因座可以包括用该系统或编码该系统的核酸转染细胞。将核酸酶递送到所述基因座可以包括用该系统或编码该系统的核酸电穿孔细胞。将核酸酶递送到所述基因座可以包括将系统在缓冲液中与包含目标基因座(locus of interest)的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可以包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以位于细胞内。靶核酸基因座可以位于体外。靶核酸基因座可以位于真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古菌细胞或植物细胞。酶可以在目标靶基因座处或其附近诱导单链或双链断裂。
在其中靶核酸基因座可以位于细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,该RuvC_III结构域与SEQ ID NO:2253-2481中任一项具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。在一些情况下,核酸包含与编码核酸内切酶的开放阅读框可操作地连接的启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程化的sgRNA可以作为脱氧核糖核酸(DNA)的形式提供,该脱氧核糖核酸含有编码所述至少一种工程化的sgRNA的基因序列,该基因序列与核糖核酸(RNA)polIII启动子可操作地连接。在一些情况下,生物体可以是真核的。在一些情况下,生物体可以是真菌的。在一些情况下,生物体可以是人。
MG6酶
在一个方面,本公开提供了一种包含(a)核酸内切酶的工程化核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型II类Cas核酸内切酶。核酸内切酶可以包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:2482-2489中任一项具有至少约70%的序列同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:2482-2489中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:2482-2489中任一项基本上相同。
核酸内切酶可以包含与SEQ ID NO:4296-4303中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:4296-4303中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:4056-4066中任一项基本上相同的HNH结构域。
在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:661-668中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:661-668中任一项基本上相同。
在一些情况下,核酸内切酶可以包含具有一个或多个核定位序列(NLS)的变体。NLS可以邻近所述核酸内切酶的N-末端或C-末端。NLS可以附加到SEQ ID NO:661-668中任一项的N-末端或C-末端,或附加到变体的N-末端或C-末端,该变体与SEQ ID NO:661-668中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可以包含与SEQ ID NO:5593-5608中任一项具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:5593-5608中任一项基本上相同的序列。NLS可以包含表1中的任何序列或其组合:
在一些情况下,序列同一性可以通过BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或CLUSTALW,使用Smith-Waterman同源性搜索算法的参数来确定。序列同一性可以通过BLASTP算法来确定,所述BLASTP算法使用字长(W)为3、期望值(E)为10的参数,并且使用将空位成本设定为存在为11、延伸为1以及用条件组成得分矩阵调整的BLOSUM62打分矩阵。
在一些情况下,上述系统可以包含(b)至少一种工程化的合成指导核糖核酸(sgRNA),其能够与携带与所需剪切序列互补的5'靶向区域的核酸内切酶形成复合物。在一些情况下,5'靶向区域可以包含与核酸内切酶相容的PAM序列。在一些情况下,靶向区域的最5'核苷酸可以是G。在一些情况下,5'靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为单独的核糖核酸(RNA)或单一核糖核酸(RNA)提供。指导RNA可以包含与靶向区3'结合的crRNA tracrRNA序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区的3'的4-核苷酸接头。sgRNA的5′至3′可以包含:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。
在一些情况下,tracr序列可以具有特定序列。tracr序列可以与天然tracrRNA序列的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。
在一些情况下,上述系统可以包含靶向第一区和第二区以在靶DNA基因座中剪切的两种不同的指导RNA,其中第二区位于第一区的3'。在一些情况下,上述系统可以包含单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含在所述第一区5'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列;至少约10个核苷酸的合成DNA序列;和第二同源臂,其包含在所述第二区3'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列。
在另一方面,本公开提供了一种用于修饰目标靶核酸基因座的方法。该方法可包括向靶核酸基因座递送本文公开的任何非天然系统,包括本文公开的酶和至少一种合成指导RNA(sgRNA)。酶可以与至少一种sgRNA形成复合物,并且当复合物与目标靶核酸基因座结合时,可以修饰该目标靶核酸基因座。将酶递送到所述基因座可以包括用该系统或编码该系统的核酸转染细胞。将核酸酶递送到所述基因座可以包括用该系统或编码该系统的核酸电穿孔细胞。将核酸酶递送到所述基因座可以包括将系统在缓冲液中与包含目标基因座(locus of interest)的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可以包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以位于细胞内。靶核酸基因座可以位于体外。靶核酸基因座可以位于真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古菌细胞或植物细胞。酶可以在目标靶基因座处或其附近诱导单链或双链断裂。
在其中靶核酸基因座可以位于细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,该RuvC_III结构域与SEQ ID NO:2482-2489中任一项具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。在一些情况下,核酸包含与编码核酸内切酶的开放阅读框可操作地连接的启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程化的sgRNA可以作为脱氧核糖核酸(DNA)的形式提供,该脱氧核糖核酸含有编码所述至少一种工程化的sgRNA的基因序列,该基因序列与核糖核酸(RNA)polIII启动子可操作地连接。在一些情况下,生物体可以是真核的。在一些情况下,生物体可以是真菌的。在一些情况下,生物体可以是人。
MG7酶
在一个方面,本公开提供了一种包含(a)核酸内切酶的工程化核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型II类Cas核酸内切酶。核酸内切酶可以包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:2490-2498中任一项具有至少约70%的序列同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:2490-2498中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:2490-2498中任一项基本上相同。核酸内切酶可以包含与SEQID NO:2490-2498中任一项具有至少约70%序列同一性的RuvC_III结构域。在一些情况下,核酸内切酶可以包含RuvC_III结构域,该RuvC_III结构域与SEQ ID NO:2490-2498中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含与SEQ ID NO:2490-2498中任一项基本上相同的RuvC_III结构域。
核酸内切酶可以包含与SEQ ID NO:4304-4312中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:4304-4312中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:4304-4312中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:4304-4312中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:4304-4312中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:4304-4312中任一项基本上相同的HNH结构域。
在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:669-677中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:669-677中任一项基本上相同。在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:669-677中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:669-677中任一项基本上相同。
在一些情况下,核酸内切酶可以包含具有一个或多个核定位序列(NLS)的变体。NLS可以邻近所述核酸内切酶的N-末端或C-末端。NLS可以附加到SEQ ID NO:669-677中任一项的N-末端或C-末端,或附加到变体的N-末端或C-末端,该变体与SEQ ID NO:669-677中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可以包含与SEQ ID NO:5593-5608中任一项具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:5593-5608中任一项基本上相同的序列。NLS可以包含表1中的任何序列或其组合:
在一些情况下,序列同一性可以通过BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或CLUSTALW,使用Smith-Waterman同源性搜索算法的参数来确定。序列同一性可以通过BLASTP算法来确定,所述BLASTP算法使用字长(W)为3、期望值(E)为10的参数,并且使用将空位成本设定为存在为11、延伸为1以及用条件组成得分矩阵调整的BLOSUM62打分矩阵。
在一些情况下,上述系统可以包含(b)至少一种工程化的合成指导核糖核酸(sgRNA),其能够与携带与所需剪切序列互补的5'靶向区域的核酸内切酶形成复合物。在一些情况下,5'靶向区域可以包含与核酸内切酶相容的PAM序列。在一些情况下,靶向区域的最5'核苷酸可以是G。在一些情况下,5'靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为单独的核糖核酸(RNA)或单一核糖核酸(RNA)提供。指导RNA可以包含与靶向区3'结合的crRNA tracrRNA序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区的3'的4-核苷酸接头。sgRNA的5′至3′可以包含:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。
在一些情况下,tracr序列可以具有特定序列。tracr序列可以与天然tracrRNA序列的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。tracr序列可以与SEQ ID NO:5504的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。在一些情况下,tracrRNA可以与SEQID NO:5504的至少约60-90(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,tracrRNA可以与SEQ ID NO:5504的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本上相同。tracrRNA可以包含SEQ ID NO:5504。
在一些情况下,上述系统可以包含靶向第一区和第二区以在靶DNA基因座中剪切的两种不同的sgRNA,其中第二区位于第一区的3'。在一些情况下,上述系统可以包含单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含在所述第一区5'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列;至少约10个核苷酸的合成DNA序列;和第二同源臂,其包含在所述第二区3'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列。
在另一方面,本公开提供了一种用于修饰目标靶核酸基因座的方法。该方法可包括向靶核酸基因座递送本文公开的任何非天然系统,包括本文公开的酶和至少一种合成指导RNA(sgRNA)。酶可以与至少一种sgRNA形成复合物,并且当复合物与目标靶核酸基因座结合时,可以修饰该目标靶核酸基因座。将酶递送到所述基因座可以包括用该系统或编码该系统的核酸转染细胞。将核酸酶递送到所述基因座可以包括用该系统或编码该系统的核酸电穿孔细胞。将核酸酶递送到所述基因座可以包括将系统在缓冲液中与包含目标基因座(locus of interest)的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可以包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以位于细胞内。靶核酸基因座可以位于体外。靶核酸基因座可以位于真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古菌细胞或植物细胞。酶可以在目标靶基因座处或其附近诱导单链或双链断裂。
在其中靶核酸基因座可以位于细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,该RuvC_III结构域与SEQ ID NO:2490-2498中任一项具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。在一些情况下,核酸包含与编码核酸内切酶的开放阅读框可操作地连接的启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程化的sgRNA可以作为脱氧核糖核酸(DNA)的形式提供,该脱氧核糖核酸含有编码所述至少一种工程化的sgRNA的基因序列,该基因序列与核糖核酸(RNA)polIII启动子可操作地连接。在一些情况下,生物体可以是真核的。在一些情况下,生物体可以是真菌的。在一些情况下,生物体可以是人。
MG14酶
在一个方面,本公开提供了一种包含(a)核酸内切酶的工程化核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型II类Cas核酸内切酶。核酸内切酶可以包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:2499-2750中任一项具有至少约70%的序列同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:2499-2750中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:2499-2750中任一项基本上相同。核酸内切酶可以包含与SEQID NO:2499-2750中任一项具有至少约70%序列同一性的RuvC_III结构域。在一些情况下,核酸内切酶可以包含RuvC_III结构域,该RuvC_III结构域与SEQ ID NO:2499-2750中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含与SEQ ID NO:2499-2750中任一项基本上相同的RuvC_III结构域。
核酸内切酶可以包含与SEQ ID NO:4313-4564中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:4313-4564中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:4313-4564中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:4313-4564中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:4067-4295中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:4313-4564中任一项基本上相同的HNH结构域。
在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:678-929中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:678-929中任一项基本上相同。在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:678-929中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:678-929中任一项基本上相同。
在一些情况下,核酸内切酶可以包含具有一个或多个核定位序列(NLS)的变体。NLS可以邻近所述核酸内切酶的N-末端或C-末端。NLS可以附加到SEQ ID NO:678-929中任一项的N-末端或C-末端,或附加到变体的N-末端或C-末端,该变体与SEQ ID NO:678-929中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可以包含与SEQ ID NO:5593-5608中任一项具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:5593-5608中任一项基本上相同的序列。NLS可以包含表1中的任何序列或其组合:
在一些情况下,序列同一性可以通过BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或CLUSTALW,使用Smith-Waterman同源性搜索算法的参数来确定。序列同一性可以通过BLASTP算法来确定,所述BLASTP算法使用字长(W)为3、期望值(E)为10的参数,并且使用将空位成本设定为存在为11、延伸为1以及用条件组成得分矩阵调整的BLOSUM62打分矩阵。
在一些情况下,上述系统可以包含(b)至少一种工程化的合成指导核糖核酸(sgRNA),其能够与携带与所需剪切序列互补的5'靶向区域的核酸内切酶形成复合物。在一些情况下,5'靶向区域可以包含与核酸内切酶相容的PAM序列。在一些情况下,靶向区域的最5'核苷酸可以是G。在一些情况下,5'靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为单独的核糖核酸(RNA)或单一核糖核酸(RNA)提供。指导RNA可以包含与靶向区3'结合的crRNA tracrRNA序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区的3'的4-核苷酸接头。sgRNA的5′至3′可以包含:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。
在一些情况下,tracr序列可以具有特定序列。tracr序列可以与天然tracrRNA序列的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。tracr序列可以与SEQ ID NO:5505的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。在一些情况下,tracrRNA可以与SEQID NO:5505的至少约60-90(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,tracrRNA可以与SEQ ID NO:5505的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本上相同。tracrRNA可以包含SEQ ID NO:5505。
在一些情况下,能够与核酸内切酶形成复合物的至少一种工程化合成指导核糖核酸(sgRNA)可以包含与SEQ ID NO:5469具有至少约80%同一性的序列。sgRNA可以包含与SEQ ID NO:5469具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。sgRNA可以包含与SEQ ID NO:5469基本上相同的序列。
在一些情况下,上述系统可以包含靶向第一区和第二区以在靶DNA基因座中剪切的两种不同的sgRNA,其中第二区位于第一区的3'。在一些情况下,上述系统可以包含单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含在所述第一区5'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列;至少约10个核苷酸的合成DNA序列;和第二同源臂,其包含在所述第二区3'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列。
在另一方面,本公开提供了一种用于修饰目标靶核酸基因座的方法。该方法可包括向靶核酸基因座递送本文公开的任何非天然系统,包括本文公开的酶和至少一种合成指导RNA(sgRNA)。酶可以与至少一种sgRNA形成复合物,并且当复合物与目标靶核酸基因座结合时,可以修饰该目标靶核酸基因座。将酶递送到所述基因座可以包括用该系统或编码该系统的核酸转染细胞。将核酸酶递送到所述基因座可以包括用该系统或编码该系统的核酸电穿孔细胞。将核酸酶递送到所述基因座可以包括将系统在缓冲液中与包含目标基因座(locus of interest)的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可以包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以位于细胞内。靶核酸基因座可以位于体外。靶核酸基因座可以位于真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古菌细胞或植物细胞。酶可以在目标靶基因座处或其附近诱导单链或双链断裂。
在其中靶核酸基因座可以位于细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,该RuvC_III结构域与SEQ ID NO:2499-2750中任一项具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。含有编码所述核酸内切酶的开放阅读框的脱氧核糖核酸(DNA)可以包含与SEQ ID NO:5581基本上相同的序列或与SEQ ID NO:5581具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性的变体。在一些情况下,核酸包含与编码核酸内切酶的开放阅读框可操作地连接的启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程化的sgRNA可以作为脱氧核糖核酸(DNA)的形式提供,该脱氧核糖核酸含有编码所述至少一种工程化的sgRNA的基因序列,该基因序列与核糖核酸(RNA)polIII启动子可操作地连接。在一些情况下,生物体可以是真核的。在一些情况下,生物体可以是真菌的。在一些情况下,生物体可以是人。
MG15酶
在一个方面,本公开提供了一种包含(a)核酸内切酶的工程化核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型II类Cas核酸内切酶。核酸内切酶可以包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:2751-2913中任一项具有至少约70%的序列同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:2751-2913中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:2751-2913中任一项基本上相同。核酸内切酶可以包含与SEQID NO:2751-2913中任一项具有至少约70%序列同一性的RuvC_III结构域。在一些情况下,核酸内切酶可以包含RuvC_III结构域,该RuvC_III结构域与SEQ ID NO:2751-2913中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含与SEQ ID NO:2751-2913中任一项基本上相同的RuvC_III结构域。
核酸内切酶可以包含与SEQ ID NO:4565-4727中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:4565-4727中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:4565-4727中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:4565-4727中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:4565-4727中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:4565-4727中任一项基本上相同的HNH结构域。
在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:930-1092中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:930-1092中任一项基本上相同。在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:930-1092中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:930-1092中任一项基本上相同。
在一些情况下,核酸内切酶可以包含具有一个或多个核定位序列(NLS)的变体。NLS可以邻近所述核酸内切酶的N-末端或C-末端。NLS可以附加到SEQ ID NO:930-1092中任一项的N-末端或C-末端,或附加到变体的N-末端或C-末端,该变体与SEQ ID NO:930-1092中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可以包含与SEQ ID NO:5593-5608中任一项具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:5593-5608中任一项基本上相同的序列。NLS可以包含表1中的任何序列或其组合:
在一些情况下,序列同一性可以通过BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或CLUSTALW,使用Smith-Waterman同源性搜索算法的参数来确定。序列同一性可以通过BLASTP算法来确定,所述BLASTP算法使用字长(W)为3、期望值(E)为10的参数,并且使用将空位成本设定为存在为11、延伸为1以及用条件组成得分矩阵调整的BLOSUM62打分矩阵。
在一些情况下,上述系统可以包含(b)至少一种工程化的合成指导核糖核酸(sgRNA),其能够与携带与所需剪切序列互补的5'靶向区域的核酸内切酶形成复合物。在一些情况下,5'靶向区域可以包含与核酸内切酶相容的PAM序列。在一些情况下,靶向区域的最5'核苷酸可以是G。在一些情况下,5'靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为单独的核糖核酸(RNA)或单一核糖核酸(RNA)提供。指导RNA可以包含与靶向区3'结合的crRNA tracrRNA序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区的3'的4-核苷酸接头。sgRNA的5′至3′可以包含:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。
在一些情况下,tracr序列可以具有特定序列。tracr序列可以与天然tracrRNA序列的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。tracr序列可以与SEQ ID NO:5506的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。在一些情况下,tracrRNA可以与SEQID NO:5506的至少约60-90(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,tracrRNA可以与SEQ ID NO:5506的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本上相同。tracrRNA可以包含SEQ ID NO:5506。
在一些情况下,能够与核酸内切酶形成复合物的至少一种工程化合成指导核糖核酸(sgRNA)可以包含与SEQ ID NO:5470具有至少约80%同一性的序列。sgRNA可以包含与SEQ ID NO:5470具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。sgRNA可以包含与SEQ ID NO:5470基本上相同的序列。
在一些情况下,上述系统可以包含靶向第一区和第二区以在靶DNA基因座中剪切的两种不同的sgRNA,其中第二区位于第一区的3'。在一些情况下,上述系统可以包含单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含在所述第一区5'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列;至少约10个核苷酸的合成DNA序列;和第二同源臂,其包含在所述第二区3'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列。
在另一方面,本公开提供了一种用于修饰目标靶核酸基因座的方法。该方法可包括向靶核酸基因座递送本文公开的任何非天然系统,包括本文公开的酶和至少一种合成指导RNA(sgRNA)。酶可以与至少一种sgRNA形成复合物,并且当复合物与目标靶核酸基因座结合时,可以修饰该目标靶核酸基因座。将酶递送到所述基因座可以包括用该系统或编码该系统的核酸转染细胞。将核酸酶递送到所述基因座可以包括用该系统或编码该系统的核酸电穿孔细胞。将核酸酶递送到所述基因座可以包括将系统在缓冲液中与包含目标基因座(locus of interest)的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可以包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以位于细胞内。靶核酸基因座可以位于体外。靶核酸基因座可以位于真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古菌细胞或植物细胞。酶可以在目标靶基因座处或其附近诱导单链或双链断裂。
在其中靶核酸基因座可以位于细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,该RuvC_III结构域与SEQ ID NO:2751-2913中任一项具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。含有编码所述核酸内切酶的开放阅读框的脱氧核糖核酸(DNA)可以包含与SEQ ID NO:5582基本上相同的序列或与SEQ ID NO:5582具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性的变体。在一些情况下,核酸包含与编码核酸内切酶的开放阅读框可操作地连接的启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程化的sgRNA可以作为脱氧核糖核酸(DNA)的形式提供,该脱氧核糖核酸含有编码所述至少一种工程化的sgRNA的基因序列,该基因序列与核糖核酸(RNA)polIII启动子可操作地连接。在一些情况下,生物体可以是真核的。在一些情况下,生物体可以是真菌的。在一些情况下,生物体可以是人。
MG16酶
在一个方面,本公开提供了一种包含(a)核酸内切酶的工程化核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型II类Cas核酸内切酶。核酸内切酶可以包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:2914-3174中任一项具有至少约70%的序列同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:2914-3174中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:2914-3174中任一项基本上相同。核酸内切酶可以包含与SEQID NO:2914-3174中任一项具有至少约70%序列同一性的RuvC_III结构域。在一些情况下,核酸内切酶可以包含RuvC_III结构域,该RuvC_III结构域与SEQ ID NO:2914-3174中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含与SEQ ID NO:2914-3174中任一项基本上相同的RuvC_III结构域。
核酸内切酶可以包含与SEQ ID NO:4728-4988中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:4728-4988中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:4728-4988中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:4728-4988中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:4728-4988中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:4728-4988中任一项基本上相同的HNH结构域。
在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:1093-1353中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:1093-1353中任一项基本上相同。在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:1093-1353中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:1093-1353中任一项基本上相同。
在一些情况下,核酸内切酶可以包含具有一个或多个核定位序列(NLS)的变体。NLS可以邻近所述核酸内切酶的N-末端或C-末端。NLS可以附加到SEQ ID NO:1093-1353中任一项的N-末端或C-末端,或附加到变体的N-末端或C-末端,该变体与SEQ ID NO:1093-1353中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可以包含与SEQ ID NO:5593-5608中任一项具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:5593-5608中任一项基本上相同的序列。NLS可以包含表1中的任何序列或其组合:
在一些情况下,序列同一性可以通过BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或CLUSTALW,使用Smith-Waterman同源性搜索算法的参数来确定。序列同一性可以通过BLASTP算法来确定,所述BLASTP算法使用字长(W)为3、期望值(E)为10的参数,并且使用将空位成本设定为存在为11、延伸为1以及用条件组成得分矩阵调整的BLOSUM62打分矩阵。
在一些情况下,上述系统可以包含(b)至少一种工程化的合成指导核糖核酸(sgRNA),其能够与携带与所需剪切序列互补的5'靶向区域的核酸内切酶形成复合物。在一些情况下,5'靶向区域可以包含与核酸内切酶相容的PAM序列。在一些情况下,靶向区域的最5'核苷酸可以是G。在一些情况下,5'靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为单独的核糖核酸(RNA)或单一核糖核酸(RNA)提供。指导RNA可以包含与靶向区3'结合的crRNA tracrRNA序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区的3'的4-核苷酸接头。sgRNA的5′至3′可以包含:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。
在一些情况下,tracr序列可以具有特定序列。tracr序列可以与天然tracrRNA序列的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。tracr序列可以与SEQ ID NO:5507的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。在一些情况下,tracrRNA可以与SEQID NO:5507的至少约60-90(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,tracrRNA可以与SEQ ID NO:5507的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本上相同。tracrRNA可以包含SEQ ID NO:5507。
在一些情况下,能够与核酸内切酶形成复合物的至少一种工程化合成指导核糖核酸(sgRNA)可以包含与SEQ ID NO:5471具有至少约80%同一性的序列。sgRNA可以包含与SEQ ID NO:5471具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。sgRNA可以包含与SEQ ID NO:5471基本上相同的序列。
在一些情况下,上述系统可以包含靶向第一区和第二区以在靶DNA基因座中剪切的两种不同的sgRNA,其中第二区位于第一区的3'。在一些情况下,上述系统可以包含单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含在所述第一区5'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列;至少约10个核苷酸的合成DNA序列;和第二同源臂,其包含在所述第二区3'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列。
在另一方面,本公开提供了一种用于修饰目标靶核酸基因座的方法。该方法可包括向靶核酸基因座递送本文公开的任何非天然系统,包括本文公开的酶和至少一种合成指导RNA(sgRNA)。酶可以与至少一种sgRNA形成复合物,并且当复合物与目标靶核酸基因座结合时,可以修饰该目标靶核酸基因座。将酶递送到所述基因座可以包括用该系统或编码该系统的核酸转染细胞。将核酸酶递送到所述基因座可以包括用该系统或编码该系统的核酸电穿孔细胞。将核酸酶递送到所述基因座可以包括将系统在缓冲液中与包含目标基因座(locus of interest)的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可以包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以位于细胞内。靶核酸基因座可以位于体外。靶核酸基因座可以位于真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古菌细胞或植物细胞。酶可以在目标靶基因座处或其附近诱导单链或双链断裂。
在其中靶核酸基因座可以位于细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,该RuvC_III结构域与SEQ ID NO:2914-3174中任一项具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。含有编码所述核酸内切酶的开放阅读框的脱氧核糖核酸(DNA)可以包含与SEQ ID NO:5583基本上相同的序列或与SEQ ID NO:5583具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性的变体。在一些情况下,核酸包含与编码核酸内切酶的开放阅读框可操作地连接的启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程化的sgRNA可以作为脱氧核糖核酸(DNA)的形式提供,该脱氧核糖核酸含有编码所述至少一种工程化的sgRNA的基因序列,该基因序列与核糖核酸(RNA)polIII启动子可操作地连接。在一些情况下,生物体可以是真核的。在一些情况下,生物体可以是真菌的。在一些情况下,生物体可以是人。
MG18酶
在一个方面,本公开提供了一种包含(a)核酸内切酶的工程化核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型II类Cas核酸内切酶。核酸内切酶可以包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:3175-3300中任一项具有至少约70%的序列同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:3175-3300中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:3175-3300中任一项基本上相同。核酸内切酶可以包含与SEQID NO:3175-3300中任一项具有至少约70%序列同一性的RuvC_III结构域。在一些情况下,核酸内切酶可以包含RuvC_III结构域,该RuvC_III结构域与SEQ ID NO:3175-3300中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含与SEQ ID NO:3175-3300中任一项基本上相同的RuvC_III结构域。
核酸内切酶可以包含与SEQ ID NO:4989-5146中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:4989-5146中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:4989-5146中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:4989-5146中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:4989-5146中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:4989-5146中任一项基本上相同的HNH结构域。
在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:1354-1511中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:1354-1511中任一项基本上相同。在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:1354-1511中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:1354-1511中任一项基本上相同。
在一些情况下,核酸内切酶可以包含具有一个或多个核定位序列(NLS)的变体。NLS可以邻近所述核酸内切酶的N-末端或C-末端。NLS可以附加到SEQ ID NO:1354-1511中任一项的N-末端或C-末端,或附加到变体的N-末端或C-末端,该变体与SEQ ID NO:1354-1511中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可以包含与SEQ ID NO:5593-5608中任一项具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:5593-5608中任一项基本上相同的序列。NLS可以包含表1中的任何序列或其组合:
在一些情况下,序列同一性可以通过BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或CLUSTALW,使用Smith-Waterman同源性搜索算法的参数来确定。序列同一性可以通过BLASTP算法来确定,所述BLASTP算法使用字长(W)为3、期望值(E)为10的参数,并且使用将空位成本设定为存在为11、延伸为1以及用条件组成得分矩阵调整的BLOSUM62打分矩阵。
在一些情况下,上述系统可以包含(b)至少一种工程化的合成指导核糖核酸(sgRNA),其能够与携带与所需剪切序列互补的5'靶向区域的核酸内切酶形成复合物。在一些情况下,5'靶向区域可以包含与核酸内切酶相容的PAM序列。在一些情况下,靶向区域的最5'核苷酸可以是G。在一些情况下,5'靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为单独的核糖核酸(RNA)或单一核糖核酸(RNA)提供。指导RNA可以包含与靶向区3'结合的crRNA tracrRNA序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区的3'的4-核苷酸接头。sgRNA的5′至3′可以包含:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。
在一些情况下,tracr序列可以具有特定序列。tracr序列可以与天然tracrRNA序列的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。tracr序列可以与SEQ ID NO:5508的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。在一些情况下,tracrRNA可以与SEQID NO:5508的至少约60-90(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,tracrRNA可以与SEQ ID NO:5508的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本上相同。tracrRNA可以包含SEQ ID NO:5508。
在一些情况下,能够与核酸内切酶形成复合物的至少一种工程化合成指导核糖核酸(sgRNA)可以包含与SEQ ID NO:5472具有至少约80%同一性的序列。sgRNA可以包含与SEQ ID NO:5472具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。sgRNA可以包含与SEQ ID NO:5472基本上相同的序列。
在一些情况下,上述系统可以包含靶向第一区和第二区以在靶DNA基因座中剪切的两种不同的sgRNA,其中第二区位于第一区的3'。在一些情况下,上述系统可以包含单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含在所述第一区5'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列;至少约10个核苷酸的合成DNA序列;和第二同源臂,其包含在所述第二区3'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列。
在另一方面,本公开提供了一种用于修饰目标靶核酸基因座的方法。该方法可包括向靶核酸基因座递送本文公开的任何非天然系统,包括本文公开的酶和至少一种合成指导RNA(sgRNA)。酶可以与至少一种sgRNA形成复合物,并且当复合物与目标靶核酸基因座结合时,可以修饰该目标靶核酸基因座。将酶递送到所述基因座可以包括用该系统或编码该系统的核酸转染细胞。将核酸酶递送到所述基因座可以包括用该系统或编码该系统的核酸电穿孔细胞。将核酸酶递送到所述基因座可以包括将系统在缓冲液中与包含目标基因座(locus of interest)的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可以包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以位于细胞内。靶核酸基因座可以位于体外。靶核酸基因座可以位于真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古菌细胞或植物细胞。酶可以在目标靶基因座处或其附近诱导单链或双链断裂。
在其中靶核酸基因座可以位于细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,该RuvC_III结构域与SEQ ID NO:3175-3300中任一项具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。含有编码所述核酸内切酶的开放阅读框的脱氧核糖核酸(DNA)可以包含与SEQ ID NO:5584基本上相同的序列或与SEQ ID NO:5584具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性的变体。在一些情况下,核酸包含与编码核酸内切酶的开放阅读框可操作地连接的启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程化的sgRNA可以作为脱氧核糖核酸(DNA)的形式提供,该脱氧核糖核酸含有编码所述至少一种工程化的sgRNA的基因序列,该基因序列与核糖核酸(RNA)polIII启动子可操作地连接。在一些情况下,生物体可以是真核的。在一些情况下,生物体可以是真菌的。在一些情况下,生物体可以是人。
MG21酶
在一个方面,本公开提供了一种包含(a)核酸内切酶的工程化核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型II类Cas核酸内切酶。核酸内切酶可以包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:3331-3474中任一项具有至少约70%的序列同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:3331-3474中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:3331-3474中任一项基本上相同。核酸内切酶可以包含与SEQID NO:3331-3474中任一项具有至少约70%序列同一性的RuvC_III结构域。在一些情况下,核酸内切酶可以包含RuvC_III结构域,该RuvC_III结构域与SEQ ID NO:3331-3474中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含与SEQ ID NO:3331-3474中任一项基本上相同的RuvC_III结构域。
核酸内切酶可以包含与SEQ ID NO:5147-5290中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:5147-5290中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:5147-5290中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:5147-5290中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:5147-5290中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:5147-5290中任一项基本上相同的HNH结构域。
在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:1512-1655中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:1512-1655中任一项基本上相同。在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:1512-1655中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:1512-1655中任一项基本上相同。
在一些情况下,核酸内切酶可以包含具有一个或多个核定位序列(NLS)的变体。NLS可以邻近所述核酸内切酶的N-末端或C-末端。NLS可以附加到SEQ ID NO:1512-1655中任一项的N-末端或C-末端,或附加到变体的N-末端或C-末端,该变体与SEQ ID NO:1512-1655中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可以包含与SEQ ID NO:5593-5608中任一项具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:5593-5608中任一项基本上相同的序列。NLS可以包含表1中的任何序列或其组合:
在一些情况下,序列同一性可以通过BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或CLUSTALW,使用Smith-Waterman同源性搜索算法的参数来确定。序列同一性可以通过BLASTP算法来确定,所述BLASTP算法使用字长(W)为3、期望值(E)为10的参数,并且使用将空位成本设定为存在为11、延伸为1以及用条件组成得分矩阵调整的BLOSUM62打分矩阵。
在一些情况下,上述系统可以包含(b)至少一种工程化的合成指导核糖核酸(sgRNA),其能够与携带与所需剪切序列互补的5'靶向区域的核酸内切酶形成复合物。在一些情况下,5'靶向区域可以包含与核酸内切酶相容的PAM序列。在一些情况下,靶向区域的最5'核苷酸可以是G。在一些情况下,5'靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为单独的核糖核酸(RNA)或单一核糖核酸(RNA)提供。指导RNA可以包含与靶向区3'结合的crRNA tracrRNA序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区的3'的4-核苷酸接头。sgRNA的5′至3′可以包含:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。
在一些情况下,tracr序列可以具有特定序列。tracr序列可以与天然tracrRNA序列的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。tracr序列可以与SEQ ID NO:5509的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。在一些情况下,tracrRNA可以与SEQID NO:5509的至少约60-90(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,tracrRNA可以与SEQ ID NO:5509的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本上相同。tracrRNA可以包含SEQ ID NO:5509。
在一些情况下,能够与核酸内切酶形成复合物的至少一种工程化合成指导核糖核酸(sgRNA)可以包含与SEQ ID NO:5473具有至少约80%同一性的序列。sgRNA可以包含与SEQ ID NO:5473具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。sgRNA可以包含与SEQ ID NO:5473基本上相同的序列。
在一些情况下,上述系统可以包含靶向第一区和第二区以在靶DNA基因座中剪切的两种不同的sgRNA,其中第二区位于第一区的3'。在一些情况下,上述系统可以包含单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含在所述第一区5'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列;至少约10个核苷酸的合成DNA序列;和第二同源臂,其包含在所述第二区3'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列。
在另一方面,本公开提供了一种用于修饰目标靶核酸基因座的方法。该方法可包括向靶核酸基因座递送本文公开的任何非天然系统,包括本文公开的酶和至少一种合成指导RNA(sgRNA)。酶可以与至少一种sgRNA形成复合物,并且当复合物与目标靶核酸基因座结合时,可以修饰该目标靶核酸基因座。将酶递送到所述基因座可以包括用该系统或编码该系统的核酸转染细胞。将核酸酶递送到所述基因座可以包括用该系统或编码该系统的核酸电穿孔细胞。将核酸酶递送到所述基因座可以包括将系统在缓冲液中与包含目标基因座(locus of interest)的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可以包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以位于细胞内。靶核酸基因座可以位于体外。靶核酸基因座可以位于真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古菌细胞或植物细胞。酶可以在目标靶基因座处或其附近诱导单链或双链断裂。
在其中靶核酸基因座可以位于细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,该RuvC_III结构域与SEQ ID NO:3331-3474中任一项具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。含有编码所述核酸内切酶的开放阅读框的脱氧核糖核酸(DNA)可以包含与SEQ ID NO:5585基本上相同的序列或与SEQ ID NO:5585具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性的变体。在一些情况下,核酸包含与编码核酸内切酶的开放阅读框可操作地连接的启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程化的sgRNA可以作为脱氧核糖核酸(DNA)的形式提供,该脱氧核糖核酸含有编码所述至少一种工程化的sgRNA的基因序列,该基因序列与核糖核酸(RNA)polIII启动子可操作地连接。在一些情况下,生物体可以是真核的。在一些情况下,生物体可以是真菌的。在一些情况下,生物体可以是人。
MG22酶
在一个方面,本公开提供了一种包含(a)核酸内切酶的工程化核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型II类Cas核酸内切酶。核酸内切酶可以包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:3475-3568中任一项具有至少约70%的序列同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:3475-3568中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:3475-3568中任一项基本上相同。核酸内切酶可以包含与SEQID NO:3475-3568中任一项具有至少约70%序列同一性的RuvC_III结构域。在一些情况下,核酸内切酶可以包含RuvC_III结构域,该RuvC_III结构域与SEQ ID NO:3475-3568中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含与SEQ ID NO:3475-3568中任一项基本上相同的RuvC_III结构域。
核酸内切酶可以包含与SEQ ID NO:5291-5389中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:5291-5389中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:5291-5389中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:5291-5389中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:5291-5389中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:5291-5389中任一项基本上相同的HNH结构域。
在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:1656-1755中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:1656-1755中任一项基本上相同。在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:1656-1755中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:1656-1755中任一项基本上相同。
在一些情况下,核酸内切酶可以包含具有一个或多个核定位序列(NLS)的变体。NLS可以邻近所述核酸内切酶的N-末端或C-末端。NLS可以附加到SEQ ID NO:432-660中任一项的N-末端或C-末端,或附加到变体的N-末端或C-末端,该变体与SEQ ID NO:1656-1755中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可以包含与SEQ ID NO:5593-5608中任一项具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:5593-5608中任一项基本上相同的序列。NLS可以包含表1中的任何序列或其组合:
在一些情况下,序列同一性可以通过BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或CLUSTALW,使用Smith-Waterman同源性搜索算法的参数来确定。序列同一性可以通过BLASTP算法来确定,所述BLASTP算法使用字长(W)为3、期望值(E)为10的参数,并且使用将空位成本设定为存在为11、延伸为1以及用条件组成得分矩阵调整的BLOSUM62打分矩阵。
在一些情况下,上述系统可以包含(b)至少一种工程化的合成指导核糖核酸(sgRNA),其能够与携带与所需剪切序列互补的5'靶向区域的核酸内切酶形成复合物。在一些情况下,5'靶向区域可以包含与核酸内切酶相容的PAM序列。在一些情况下,靶向区域的最5'核苷酸可以是G。在一些情况下,5'靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为单独的核糖核酸(RNA)或单一核糖核酸(RNA)提供。指导RNA可以包含与靶向区3'结合的crRNA tracrRNA序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区的3'的4-核苷酸接头。sgRNA的5′至3′可以包含:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。
在一些情况下,tracr序列可以具有特定序列。tracr序列可以与天然tracrRNA序列的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。tracr序列可以与SEQ ID NO:5510的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。在一些情况下,tracrRNA可以与SEQID NO:5510的至少约60-90(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,tracrRNA可以与SEQ ID NO:5510的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本上相同。tracrRNA可以包含SEQ ID NO:5510。
在一些情况下,能够与核酸内切酶形成复合物的至少一种工程化合成指导核糖核酸(sgRNA)可以包含与SEQ ID NO:5474具有至少约80%同一性的序列。sgRNA可以包含与SEQ ID NO:5474具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。sgRNA可以包含与SEQ ID NO:5474基本上相同的序列。
在一些情况下,上述系统可以包含靶向第一区和第二区以在靶DNA基因座中剪切的两种不同的sgRNA,其中第二区位于第一区的3'。在一些情况下,上述系统可以包含单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含在所述第一区5'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列;至少约10个核苷酸的合成DNA序列;和第二同源臂,其包含在所述第二区3'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列。
在另一方面,本公开提供了一种用于修饰目标靶核酸基因座的方法。该方法可包括向靶核酸基因座递送本文公开的任何非天然系统,包括本文公开的酶和至少一种合成指导RNA(sgRNA)。酶可以与至少一种sgRNA形成复合物,并且当复合物与目标靶核酸基因座结合时,可以修饰该目标靶核酸基因座。将酶递送到所述基因座可以包括用该系统或编码该系统的核酸转染细胞。将核酸酶递送到所述基因座可以包括用该系统或编码该系统的核酸电穿孔细胞。将核酸酶递送到所述基因座可以包括将系统在缓冲液中与包含目标基因座(locus of interest)的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可以包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以位于细胞内。靶核酸基因座可以位于体外。靶核酸基因座可以位于真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古菌细胞或植物细胞。酶可以在目标靶基因座处或其附近诱导单链或双链断裂。
在其中靶核酸基因座可以位于细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,该RuvC_III结构域与SEQ ID NO:3475-3568中任一项具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。含有编码所述核酸内切酶的开放阅读框的脱氧核糖核酸(DNA)可以包含与SEQ ID NO:5586基本上相同的序列或与SEQ ID NO:5586具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性的变体。在一些情况下,核酸包含与编码核酸内切酶的开放阅读框可操作地连接的启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程化的sgRNA可以作为脱氧核糖核酸(DNA)的形式提供,该脱氧核糖核酸含有编码所述至少一种工程化的sgRNA的基因序列,该基因序列与核糖核酸(RNA)polIII启动子可操作地连接。在一些情况下,生物体可以是真核的。在一些情况下,生物体可以是真菌的。在一些情况下,生物体可以是人。
MG23酶
在一个方面,本公开提供了一种包含(a)核酸内切酶的工程化核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型II类Cas核酸内切酶。核酸内切酶可以包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:3569-3637中任一项具有至少约70%的序列同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:3569-3637中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含RuvC_III结构域,其中RuvC_III结构域与SEQ ID NO:3569-3637中任一项基本上相同。核酸内切酶可以包含与SEQID NO:3569-3637中任一项具有至少约70%序列同一性的RuvC_III结构域。在一些情况下,核酸内切酶可以包含RuvC_III结构域,该RuvC_III结构域与SEQ ID NO:3569-3637中任一项具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%的同一性。在一些情况下,核酸内切酶可以包含与SEQ ID NO:3569-3637中任一项基本上相同的RuvC_III结构域。
核酸内切酶可以包含与SEQ ID NO:5390-5460中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:5390-5460中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:5390-5460中任一项基本上相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:5390-5460中任一项具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可以包含HNH结构域,该HNH结构域与SEQ ID NO:5390-5460中任一项具有至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。核酸内切酶可以包含与SEQ ID NO:5390-5460中任一项基本上相同的HNH结构域。
在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:1756-1826中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:1756-1826中任一项基本上相同。在一些情况下,核酸内切酶可以包含变体,该变体与SEQ ID NO:1756-1826中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,核酸内切酶可以与SEQ ID NO:1756-1826中任一项基本上相同。
在一些情况下,核酸内切酶可以包含具有一个或多个核定位序列(NLS)的变体。NLS可以邻近所述核酸内切酶的N-末端或C-末端。NLS可以附加到SEQ ID NO:1756-1826中任一项的N-末端或C-末端,或附加到变体的N-末端或C-末端,该变体与SEQ ID NO:1756-1826中任一项具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可以包含与SEQ ID NO:5593-5608中任一项具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:5593-5608中任一项基本上相同的序列。NLS可以包含表1中的任何序列或其组合:
在一些情况下,序列同一性可以通过BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或CLUSTALW,使用Smith-Waterman同源性搜索算法的参数来确定。序列同一性可以通过BLASTP算法来确定,所述BLASTP算法使用字长(W)为3、期望值(E)为10的参数,并且使用将空位成本设定为存在为11、延伸为1以及用条件组成得分矩阵调整的BLOSUM62打分矩阵。
在一些情况下,上述系统可以包含(b)至少一种工程化的合成指导核糖核酸(sgRNA),其能够与携带与所需剪切序列互补的5'靶向区域的核酸内切酶形成复合物。在一些情况下,5'靶向区域可以包含与核酸内切酶相容的PAM序列。在一些情况下,靶向区域的最5'核苷酸可以是G。在一些情况下,5'靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为单独的核糖核酸(RNA)或单一核糖核酸(RNA)提供。指导RNA可以包含与靶向区3'结合的crRNA tracrRNA序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区的3'的4-核苷酸接头。sgRNA的5′至3′可以包含:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。
在一些情况下,tracr序列可以具有特定序列。tracr序列可以与天然tracrRNA序列的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。tracr序列可以与SEQ ID NO:5511的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%的序列同一性。在一些情况下,tracrRNA可以与SEQID NO:5511的至少约60-90(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在一些情况下,tracrRNA可以与SEQ ID NO:5511的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本上相同。tracrRNA可以包含SEQ ID NO:5511。
在一些情况下,能够与核酸内切酶形成复合物的至少一种工程化合成指导核糖核酸(sgRNA)可以包含与SEQ ID NO:5475具有至少约80%同一性的序列。sgRNA可以包含与SEQ ID NO:5475具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。sgRNA可以包含与SEQ ID NO:5475基本上相同的序列。
在一些情况下,上述系统可以包含靶向第一区和第二区以在靶DNA基因座中剪切的两种不同的sgRNA,其中第二区位于第一区的3'。在一些情况下,上述系统可以包含单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含在所述第一区5'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列;至少约10个核苷酸的合成DNA序列;和第二同源臂,其包含在所述第二区3'的至少约20个(例如,至少约40、80、120、150、200、300、500或1kb)核苷酸的序列。
在另一方面,本公开提供了一种用于修饰目标靶核酸基因座的方法。该方法可包括向靶核酸基因座递送本文公开的任何非天然系统,包括本文公开的酶和至少一种合成指导RNA(sgRNA)。酶可以与至少一种sgRNA形成复合物,并且当复合物与目标靶核酸基因座结合时,可以修饰该目标靶核酸基因座。将酶递送到所述基因座可以包括用该系统或编码该系统的核酸转染细胞。将核酸酶递送到所述基因座可以包括用该系统或编码该系统的核酸电穿孔细胞。将核酸酶递送到所述基因座可以包括将系统在缓冲液中与包含目标基因座(locus of interest)的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可以包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以位于细胞内。靶核酸基因座可以位于体外。靶核酸基因座可以位于真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古菌细胞或植物细胞。酶可以在目标靶基因座处或其附近诱导单链或双链断裂。
在其中靶核酸基因座可以位于细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,该RuvC_III结构域与SEQ ID NO:3569-3637中任一项具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。含有编码所述核酸内切酶的开放阅读框的脱氧核糖核酸(DNA)可以包含与SEQ ID NO:5587基本上相同的序列或与SEQ ID NO:5587具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性的变体。在一些情况下,核酸包含与编码核酸内切酶的开放阅读框可操作地连接的启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程化的sgRNA可以作为脱氧核糖核酸(DNA)的形式提供,该脱氧核糖核酸含有编码所述至少一种工程化的sgRNA的基因序列,该基因序列与核糖核酸(RNA)polIII启动子可操作地连接。在一些情况下,生物体可以是真核的。在一些情况下,生物体可以是真菌的。在一些情况下,生物体可以是人。
本公开的系统可用于各种应用,例如核酸编辑(例如,基因编辑)、与核酸分子结合(例如,序列特异性结合)。此类系统可用于例如解决(例如,去除或替换)可在对象中引起疾病的遗传遗传突变、使基因失活以确定其在细胞中的功能、作为诊断工具以检测引起疾病的遗传元件(例如,通过剪切逆转录病毒RNA或编码引起疾病的突变的扩增DNA序列)、作为失活酶与探针组合以靶向和检测特定核苷酸序列(例如,编码抗生素抗性细菌的序列)、通过靶向病毒基因组使病毒失活或不能感染宿主细胞、向工程生物体添加基因或修改代谢途径以产生有价值的小分子、大分子或次级代谢物、建立用于进化选择的基因驱动元件、通过作为生物传感器的外源小分子和核苷酸检测细胞扰动。
实施例
实施例1.-新蛋白质的宏基因组分析
从沉积物、土壤和动物收集宏基因组样品。用Zymobiomics DNA mini-prep试剂盒提取脱氧核糖核酸(DNA),并在Illumina2500上测序。在财产所有者同意下收集样品。来自公共来源的其他原始序列数据包括动物微粒体、沉积物、土壤、温泉、热液出口、海洋、泥炭沼、冻土和污水序列。使用基于已知的Cas蛋白序列(包括II型Cas效应蛋白)生成的隐马尔可夫模型搜索宏基因组序列数据以鉴定新的Cas效应子(参见图45,其显示从不同样品类型检测到的此类蛋白的分布)。通过搜索鉴定的新效应蛋白与已知蛋白比对以鉴定潜在的活性位点(参见图46,其显示从不同位点鉴定的酶中Cas催化残基的分布)。该宏基因组工作流程描绘了本文所述的II类II型CRISPR核酸内切酶的MG1、MG2、MG3、MG4、MG6、MG14、MG15、MG16、MG18、MG21、MG22和MG23家族。
实施例2A.-CRISPR系统的MG1家族的发现
对来自实施例1的宏基因组分析的数据的分析揭示了最初包含六个成员(分别记录为SEQ ID NO:5、6、1、2和3的MG1-1、MG1-2、MG1-3、MG1-4、MG1-5和MG1-6)的先前未描述的推定的CRISPR系统的新簇。该家族的特征在于具有HNH和RuvC结构域的酶。该家族的RuvC结构域具有与前述Cas9家族成员具有低同源性的RuvC_III部分。尽管最初的家族成员在它们之间具有最多56.8%的同一性,但是所有6种酶都表现出RuvC结构域的发散RuvC_III部分,并且具有共同基序RHHALDAMV(SEQ ID NO:5615)、KHHALDAMC(SEQ ID NO:5616)或KHHALDAIC(SEQ ID NO:5617)。这些基序描述的Cas9样酶中没有发现这些基序。这些新酶及其相关亚结构域的相应蛋白质和核酸序列显示于序列表中。根据它们相对于其他基因的位置鉴定推定的tracrRNA序列,并表示为SEQ ID NO:5476-5479。基于来自含有CRISPR系统的基因组箱(genome bin)的16S rRNA的序列,酶系统似乎源自疣微菌门、候选异域菌门或候选黑色素杆菌门。16S rRNA序列如SEQ ID NO:5592-5596所示)。图9A、9B、9C、9D、9E、9F、9G和9H描述了由Shmakov等人(Mol Cell.2015.11.5;60(3):385-97,其通过引用全文并入本文)描述的特征调出的CRISPR系统序列的详细结构域水平比对。MG1-1、1-2和1-3与其他专有蛋白质数据集的比较揭示了具有相似结构的其他蛋白质序列,表示为SEQ NO:7-319。这些MG1蛋白序列导致发现如SEQ ID NO:5618-5632所示的另外的MG1基序。
实施例2B.-CRISPR系统的MG2家族的发现
对来自实施例1的宏基因组分析的数据的分析揭示了包含六个成员(MG2-1、MG2-2、MG2-3、MG2-5和MG2-6)的先前未描述的推定的CRISPR系统的新簇。这些新酶和示例性亚结构域的相应蛋白质和核酸序列如SEQ ID NO:320、322-325所示。基于它们相对于其他基因的位置,在操纵子中鉴定了推定的tracrRNA序列,并表示为SEQ ID NO:5490、5492-5494和5538。图7中描述了如Shmakov等人(Mol Cell.2015.11.5;60(3):385-97.)所述的这些序列与Cas9的详细结构域水平比对。
MG2-1、MG2-2、MG2-3、MG2-5和MG2-6与其他专有蛋白质数据集的比较揭示了具有相似结构的其他蛋白质序列,如SEQ NO:321和326-420所示。通常在MG2家族成员中发现的基序如SEQ ID NO:5631-5638所示。
实施例2C.-MG3家族的CRISPR系统的发现
对来自实施例1的宏基因组分析的数据的分析揭示了新的先前未描述的推定的CRISPR系统:MG3-1。该新酶及其示例性亚结构域的相应氨基酸序列如SEQ ID NO:424、2245和4059所示。基于与操纵子中其他元件的邻近性(proximity),鉴定了推定的含有tracrRNA的序列,并包括在SEQ ID NO:5498中。图8描述了序列与来自内氏放线菌(Actinomycesnaeslundii)的Cas9的详细结构域水平比对。
MG3-1与其他专有蛋白质数据集的比较揭示了具有相似结构的其他蛋白质序列,如SEQ NO:421-423、425-431所示。
实施例2D.-CRISPR系统的MG4、7、14、15、16、18、21、22、23家族的发现
对来自实施例1的宏基因组分析的数据的分析揭示了先前未描述的推定的CRISPR系统的新簇,其包含9个家族,每个家族一个成员(MG4-5、MG7-2、MG14-1、MG15-1、MG16-2、MG18-1、MG21-1、MG22-1、MG23-1)。这些新酶及其示例性亚结构域的相应蛋白质和核酸序列如SEQ ID NO:432、669、678、930、1093、1354、1512、1656、1756所示。基于与操纵子中其他元件的邻近性,为每个家族鉴定了推定的含有tracr的序列。这些序列分别显示于序列表中的SEQ ID NO:5503-5511。
MG 4-5、MG7-2、MG14-1、MG15-1、MG16-2、MG18-1、MG21-1、MG22-1、MG23-1与其他专有蛋白质数据集的比较揭示了具有类似结构的其他蛋白质序列,表示为SEQ NO:433-660、670-677、679-929、931-1092、1094-1353、1355-1511、1513-1655、1657-1755和1757-1826。这些CRISPR系统组的核酸酶共有的基序对于MG4表示为SEQ ID NO:5649;对于MG14表示为SEQ ID NO:5650-5667;对于MG15表示为5668-5675;对于MG16表示为5676-5678;对于MG18表示为SEQ ID NO:5679-5686;对于MG21表示为SEQ ID NO:5687-5693和SEQ ID NO:5674-5675;对于MG22表示为SEQ ID NO:5694-5699;以及对于MG23表示为SEQ ID NO:5700-5717。
实施例3.预言性确定原间隔区相邻基序
实验如Karvelis等人.Methods.2017.5.15;121-122:3-8(其通过引用全文并入本文)所述的任何实施例中那样进行,以鉴定本文所述的新酶的原间隔区相邻基序(PAM)序列特异性,以允许最佳合成序列靶向。
在一个实例中(体内筛选),携带编码本文所述的任何酶的质粒和原间隔区靶向指导RNA的细胞用含有抗生素抗性基因和侧翼为随机化PAM序列的原间隔区序列的质粒文库共转化。含有功能性PAM的质粒被酶剪切,导致细胞死亡。分离自存活细胞的抗酶剪切质粒库的深度测序展示了一组贫化质粒(depleted plasmid),其含有允许功能性剪切的PAM。
在另一个实例中(体外筛选),DNA质粒或串联重复形式的PAM文库通过在体外或在细胞剪切物中组装的RNP复合物(例如,包括酶、tracrRNA和crRNA或酶和杂合sgRNA)进行剪切。通过衔接子连接捕获来自成功剪切事件的所得游离DNA末端,随后PCR扩增PAM侧产物。对扩增的功能性PAM文库进行深度测序并鉴定许可DNA剪切的PAM。
实施例4.如本文所述的合成CRISPR系统在哺乳动物细胞中用于基因组编辑的预言性用途
制备编码以下的DNA/RNA序列:(i)编码在细胞相容性启动子下的密码子优化的酶的ORF,该启动子具有细胞相容性C末端核定位序列(例如,在人细胞的情况下为SV40 NLS)和合适的聚腺苷酸化信号(例如,在人细胞的情况下为TK pA信号);和(ii)在合适的聚合酶III启动子(例如,哺乳动物细胞中的U6启动子)下制备编码sgRNA(具有以G开始的5'序列,随后是20nt的靶向基因组DNA的互补靶向核酸序列,随后是通过实施例3鉴定的相应的相容PAM和3'tracr结合序列、接头和tracrRNA序列)的ORF。在一些实施方案中,这些序列在相同或不同的质粒载体上制备,其通过合适的技术转染到真核细胞中。在一些实施方案中,这些序列被制备为不同的DNA序列,将其转染或显微注射到细胞中。在一些实施方案中,这些序列被制备为合成的RNA或体外转录的RNA,其被转染或显微注射到细胞中。在一些实施方案中,这些序列被翻译成蛋白质并转染或显微注射到细胞中。
无论选择哪种转染方法,都可以将(i)和(ii)引入细胞。允许经过一段时间的孵育,这样使得酶和/或sgRNA可以被转录和/或翻译成活性形式。孵育期后,(例如,通过测序)分析靶向序列附近的基因组DNA。作为酶介导的剪切和非同源末端连接的结果,将插入缺失引入到靶向序列附近的基因组DNA中。
在一些实施方案中,将(i)和(ii)引入具有第三修复核苷酸的细胞中,该第三修复核苷酸编码大小为25bp或更大的剪切位点侧翼的基因组区域,这将促进同源定向修复(homology directed repair)。在这些侧翼序列中可以含有单碱基对突变、功能基因片段、用于表达的外源或天然基因或组成生物化学途径的数个基因。
实施例5.如本文所述的合成CRISPR系统的体外的预言性用途
将本文所述的任何酶克隆到合适的含有纯化标签的大肠杆菌表达质粒中,以及在大肠杆菌中重组表达并使用重组标签纯化。通过合适的固相RNA合成方法合成RNA,其包含5'G,随后是20nt的靶向序列和PAM序列、相容的crRNA的tracrRNA结合区、GAAA接头和相容的tracrRNA。将重组酶和sgRNA在含有Mg2+的合适剪切缓冲液(例如,20mM HEPES pH 7.5,100mM KCl,5mM MgCl2,1mM DTT,5%甘油)中组合,并通过引入包含与靶向序列和PAM序列互补的序列的靶DNA来引发反应。通过合适的测定(例如,琼脂糖凝胶电泳,随后溴化乙锭染色(或类似作用的DNA插入剂)和UV可视化)监测DNA的剪切。
实施例6.-(一般方案)本文所述的核酸内切酶的PAM序列鉴定/确认
通过对含有随机产生的PAM序列的质粒测序来确定PAM序列,该随机产生的PAM序列可被基于大肠杆菌剪切物的表达系统中表达的推定的核酸内切酶剪切(myTXTL,ArborBiosciences)。在该系统中,在T7启动子控制下由PCR片段转录和翻译大肠杆菌密码子优化的核苷酸序列。在相同的反应中转录第二个PCR片段,其具有T7启动子下的tracr序列和由T7启动子和随后的重复序列-间隔区-重复序列组成的最小CRISPR阵列。核酸内切酶和tracr序列在TXTL系统中的成功表达以及随后的CRISPR阵列处理提供了有活性的体外CRISPR核酸酶复合物。
将含有匹配最小阵列的间隔区序列、随后是8N混合碱基(推定的PAM序列)的靶质粒文库与TXTL反应的输出物一起孵育。1-3小时后,停止反应,通过DNA纯化试剂盒(例如,Zymo DCC、AMPure XP微珠、QiaQuick等)回收DNA。用已经被核酸内切酶剪切的活性PAM序列将衔接子序列平端连接到DNA上,而未被剪切的DNA不能连接。然后用特异于文库和衔接子序列的引物通过PCR扩增包含活性PAM序列的DNA片段。在凝胶上解析PCR扩增产物以鉴定对应于剪切事件的扩增子。剪切反应的扩增片段也用作制备NGS文库的模板。对此所得文库(其为起始8N文库的子集)进行测序显示了含有活性CRISPR复合物的正确PAM的序列。对于使用单一RNA构建体的PAM测试,重复相同的程序,除了体外转录的RNA与质粒文库一起添加并且省略tracr/最小CRISPR阵列模板。对于制备NGS文库的核酸内切酶,构造了seqLogo(参见,例如,Huber等人,Nat Methods.2015.2;12(2):115-21)的表示并显示于图27、图38、图29、图30、图31、图32、图33、图34和图35中。用于构建这些表示的seqLogo模块采用了DNA序列基序(例如,PAM序列)的位置权重矩阵,并绘制了由Schneider和Stephens引入的相应序列标识图(参见,例如,Schneider等人,Nucleic Acids Res.1990.10.25;18(20):6097-100。)seqLogo表示中表示序列的字符对于对齐的序列(例如,PAM序列)中的每个位置彼此上下堆叠。每个字母的高度与其频率成比例,并且这些字母已经被排序,因此最常见的一个位于顶部。
实施例7.-(一般方案)tracrRNA和sgRNA结构的RNA折叠
使用Andronescu等人.Bioinformatics.2007.7.1;23(13):i19-28(其通过引用全文并入本文)的方法计算在37℃下指导RNA序列的折叠结构。本文所述的示例性sgRNA的预测结构显示于图21、22、23、24、25和26中。
实施例8.-(一般方案)MG CRISPR复合物的体外剪切效率
核酸内切酶在蛋白酶缺陷型大肠杆菌B菌株中由诱导型T7启动子表达为His-标签的融合蛋白。表达His-标签蛋白的细胞通过超声剪切,并通过HisTrap FF柱(GELifescience)上的Ni-NTA亲和层析在AKTA Avant FPLC(GE Lifescience)上纯化His-标签蛋白。洗脱物通过SDS-PAGE在丙烯酰胺凝胶(Bio-Rad)上解析,并用InstantBlueUltrafast考马斯亮蓝(Sigma-Aldrich)染色。用ImageLab软件(Bio-Rad)使用蛋白质条带的密度测定法确定纯度。将纯化的核酸内切酶透析到由50mM Tris-HCl,300mM NaCl,1mMTCEP,5%甘油组成的储存缓冲液中;pH为7.5并储存在-80℃。
通过DNA合成构建含有间隔区序列和PAM序列的靶DNA(例如,如实施例6中确定的)。当PAM具有简并碱基时,选择单个代表性PAM用于测试。靶DNA包含2200bp的线性DNA,该线性DNA通过使用PAM和位于一端700bp的间隔区的PCR扩增而来源于质粒。成功的剪切产生了700和1500bp的片段。将靶DNA、体外转录的单个RNA和纯化的重组蛋白在剪切缓冲液(10mM Tris,100mM NaCl,10mM MgCl2)中与过量的蛋白质和RNA合并,并孵育5分钟至3小时,通常1小时。通过加入RNAseA并在60分钟孵育终止反应。然后将反应物在1.2% TAE琼脂糖凝胶上解析,并在ImageLab软件中定量剪切的靶DNA的部分。
实施例9-(一般方案)大肠杆菌中MG CRISPR复合物的基因组剪切活性的测试
大肠杆菌缺乏有效修复双链DNA断裂的能力。因此,基因组DNA的剪切可以是致死事件。利用这种现象,通过在具有整合到其基因组DNA中的间隔区/靶和PAM序列的靶菌株中重组表达核酸内切酶和tracrRNA,在大肠杆菌中测试了核酸内切酶活性。
在该测定中,PAM序列特异于通过实施例6中描述的方法测定的被测试的核酸内切酶。基于tracrRNA的序列和预测结构确定sgRNA序列。选择8-12bp(通常10bp)的重复-抗-重复配对,从重复的5'端开始。重复的剩余3'末端和tracrRNA的5'末端被四环取代。通常,四环是GAAA,但也可使用其他四环,特别是如果预测GAAA序列干扰折叠时。在这些情况下,使用TTCG四环。
用编码核酸内切酶的DNA转化具有整合到其基因组DNA中的PAM序列的工程菌株。然后使转化子成为化学感受态并用50ng对靶序列(“靶上”)特异或对靶序列(“非靶”)非特异的单指导RNA进行转化。热激后,在37℃下在SOC中恢复转化2小时。然后通过在诱导培养基上生长的5倍稀释系列确定核酸酶效率。从稀释系列中定量菌落,一式三份。
实施例10a.-(一般方案)哺乳动物细胞中MG CRISPR复合物的基因组剪切活性的测试
为了显示哺乳动物细胞中的靶向和剪切活性,在两种哺乳动物表达载体中测试了MG Cas效应子蛋白序列:(a)一种具有C-末端SV40NLS和2A-GFP标签,并且(b)一种不含GFP标签,但具有位于N-末端和C-末端的两个SV40 NLS序列。在一些情况下,对编码核酸内切酶的核苷酸序列进行密码子优化以在哺乳动物细胞中表达。
将连接有靶向序列的相应单指导RNA序列(sgRNA)克隆到第二哺乳动物表达载体中。将两种质粒共转染到HEK293T细胞中。将表达质粒和sgRNA靶向质粒共转染到HEK293T细胞中后72小时,提取DNA并用于制备NGS文库。通过靶位点测序中的插入缺失测量NHEJ百分比以证明酶在哺乳动物细胞中的靶向效率。选择至少10个不同的靶位点来测试每种蛋白质的活性。
实施例10b(一般方案)哺乳动物细胞中MG CRISPR复合物的基因组剪切活性的测试
为了在哺乳动物细胞中显示靶向和剪切活性,将MG Cas效应子蛋白序列克隆到两个哺乳动物表达载体中:(a)一个具有侧翼N和C-末端SV40 NLS序列、C-末端His标签和在His标签后C-末端的2A-GFP标签(主链1),和(b)一个具有侧翼NLS序列和C-末端His标签但没有T2A GFP标签的(主链2)。在一些情况下,编码核酸内切酶的核苷酸序列是天然序列,经密码子优化用于在大肠杆菌中表达,或经密码子优化用于在哺乳动物细胞中表达。
将连接有靶向序列的相应单指导RNA序列(sgRNA)克隆到第二哺乳动物表达载体中。将两种质粒共转染到HEK293T细胞中。将表达质粒和sgRNA靶向质粒共转染到HEK293T细胞中后72小时,提取DNA并用于制备NGS文库。通过靶位点测序中的插入缺失测量NHEJ百分比以证明酶在哺乳动物细胞中的靶向效率。选择约7-12个不同的靶位点来测试每种蛋白质的活性。使用5%插入缺失的任意阈值来鉴定活性候选物。
实施例11-MG1家族成员的表征
PAM特异性,tracrRNA/sgRNA验证
使用实施例6中描述的myTXTL系统证实MG1家族核酸内切酶系统的靶向核酸内切酶活性。在该测定中,剪切的靶质粒的PCR扩增产生了在凝胶中以约170bp迁移的产物,如图17-20所示。观察MG1-4的扩增产物(双指导:参见凝胶1,泳道3,单指导:参见凝胶6,泳道2),MG1-5的扩增产物(凝胶2,泳道10),MG1-6的扩增产物(双指导:参见凝胶5,泳道6,单指导:参见凝胶6,泳道5)和MG1-7的扩增产物(双指导:参见凝胶3,泳道13,单指导:参见凝胶3,泳道2)(分别为蛋白质SEQ ID NO:1-4)。对PCR产物测序揭示了这些酶的活性PAM序列,如表2所示。
表2:MG1酶的PAM序列特异性和相关数据
基于tracrRNA的序列和预测结构设计合成的单指导RNA(sgRNA),并表示为SEQ IDNO:5461-5464。用sgRNA重复实施例6的PAM序列筛选。该实验的结果也显示于表2中,其显示当使用sgRNA时PAM的特异性稍微改变。
体外靶向核酸内切酶活性
使用实施例8的方法验证MG1-4核酸内切酶系统(蛋白质SEQ ID NO:1和sgRNA SEQID NO:5461)对具有PAM序列CAGGAAGG的靶DNA的体外活性。使用上面报道的单指导序列(SEQ ID NO:5461),用18-24nt的不同间隔区/靶向序列长度替换该序列的Ns。结果如图10显示,其中左图显示了证明MG1-4与具有不同靶向序列长度(18-24nt)的相应单指导sgRNA组合的DNA剪切的凝胶,右图显示了量化为条形图的相同数据。数据证明来自18-24个核苷酸的靶向序列对于MG1-4/sgRNA系统是有功能的。
细菌细胞中的靶向核酸内切酶活性
如实施例9所述,用PAM序列CAGGAAGG测试MG1-4核酸内切酶系统(蛋白质SEQ IDNO:1,sgRNA SEQ ID NO:5461)的体内活性。将转化的大肠杆菌以系列稀释物铺板,并将结果(显示了左图中的大肠杆菌系列稀释液和右图中的定量生长)显示于图11中。与表达非靶sgRNA的大肠杆菌相比,表达靶sgRNA的大肠杆菌生长的实质性降低表明基因组DNA在大肠杆菌细胞中被核酸内切酶特异性剪切。
哺乳动物细胞中的靶向核酸内切酶活性(a)
实施例10的方法用于证明哺乳动物细胞中的靶向和剪切活性。将编码MG1-4(蛋白质SEQ ID NO:5527)和MG1-6(蛋白质SEQ ID NO:5529)序列的开放阅读框克隆到2种哺乳动物表达载体中,一种具有C-末端SV40 NLS和2A-GFP标签(大肠杆菌MG-BB)并且一种不含GFP标签,但具有位于N-末端和C-末端的2个NLS序列(大肠杆菌pMG5-BB)。对于MG1-6,开放阅读框另外被密码子优化用于哺乳动物表达(SEQ ID NO:5589)并克隆到2-NLS质粒主链(MG-16hs)中。本实验结果如图12所示。将核酸内切酶表达载体与用于表达sgRNA(例如,SEQ IDNO:5512或5515)的第二载体共转染到HEK293T细胞中,sgRNA具有核酸内切酶特异性的tracr序列和选自表3-4的指导序列。共转染72小时后,提取DNA并用于制备NGS文库。通过邻近靶位点序列的内部缺失(NHEJ残余)的出现检测剪切活性。在靶位点的测序中通过插入缺失测量NHEJ百分比以证明酶哺乳动物细胞中的靶向效率,并显示于图12中。
表3:MG1-4哺乳动物靶向序列
表4:MG1-6哺乳动物靶向序列
哺乳动物细胞中靶向核酸内切酶活性(b)
选择MG1-4靶基因座来测试具有PAM nRRRAA(SEQ ID NO:5527)在基因组中的位置。将对应于所选靶位点的间隔区克隆到实施例10b所述的哺乳动物载体系统主链2中的sgRNA支架中。位点如表4a所列出。MG1-4在各种靶位点处的活性示于表4a和图37中。
表4a:MG1-4在各种靶位点处的活性
选择MG1-6靶基因座来测试具有PAM nnRRAC(SEQ ID NO:5529)在基因组中的位置。将对应于所选靶位点的间隔区克隆到实施例10b所述的哺乳动物载体系统主链2中的sgRNA支架中。位点如表4b所列出。MG1-6在各种靶位点处的活性示于表4b和图38中。
表4b:MG1-6在各种靶位点处的活性。
选择MG1-7靶基因座来测试具有PAM nRRRAAG(SEQ ID NO:5515)在基因组中的位置。将对应于所选靶位点的间隔区克隆到实施例10b所述的哺乳动物载体系统主链2中的sgRNA支架中。位点如表4c所列出。MG1-7在各种靶位点处的活性如表4c和图39所示。
表4c:MG1-7在各种靶位点处的活性
实施例12-MG2家族成员的表征
PAM特异性,tracrRNA/sgRNA验证
在如实施例6所述的myTXTL系统中证实了MG2家族成员的靶向核酸内切酶活性。该测定结果如表17-20所示。在图17-20所示的测定中,成功剪切文库的活性蛋白质在凝胶中产生约170bp的条带。观察MG2-1(参见凝胶2泳道11和凝胶4泳道6)和MG2-7(参见凝胶11泳道10)的扩增产物(分别为SEQ ID NO:320和321)。对PCR产物测序揭示了下表5中的活性PAM序列:
表5:MG2酶的PAM序列特异性和相关数据
细菌细胞中的靶向核酸内切酶活性
使用实施例9的方法验证MG2-7核酸内切酶系统与sgRNA(核酸内切酶SEQ ID NO:321;sgRNA SEQ ID NO:5465)和AGCGTAAG PAM序列的体内活性。将转化的大肠杆菌以系列稀释物铺板,并将结果(显示了左图中的大肠杆菌系列稀释液和右图中的定量生长)显示于图34中。与表达非靶sgRNA的大肠杆菌相比,表达靶sgRNA的大肠杆菌生长的实质性降低表明基因组DNA在大肠杆菌细胞中被MG1-4核酸内切酶特异性剪切。
实施例13.MG3家族成员的表征
PAM特异性,tracrRNA/sgRNA验证
使用如实施例6中所述的myTXTL系统,使用tracr序列和CRISPR阵列证实MG3家族成员的靶向核酸内切酶活性。在该测定中,剪切的靶质粒的PCR扩增产生了在凝胶中以约170bp迁移的产物,如图17-20所示。观察MG3-6(双指导:参见凝胶2泳道8;单指导:参见凝胶3泳道3)、MG3-7(双指导:参见凝胶2泳道3,单指导:参见凝胶3泳道4)和MG3-8(双指导:参见凝胶9泳道5)(分别为SEQ ID NO:421、422和423)的扩增产物。对PCR产物测序揭示了下表6中的活性PAM序列:
表6:MG3酶的PAM序列特异性和相关数据
基于tracrRNA的序列和预测结构设计合成的单指导RNA(sgRNA),并表示为SEQ IDNO:5466-5467。用sgRNA重复实施例6的PAM序列筛选。该实验的结果也显示于表6中,其显示当使用sgRNA时PAM的特异性稍微改变。
体外靶向核酸内切酶活性
使用实施例8的方法,用PAM序列GTGGGTTA验证MG3-6(核酸内切酶SEQ ID NO:421)的体外活性。使用上面报道的单指导序列(SEQ ID NO:5466),用18-24nt的不同间隔区/靶向序列长度替换该序列的Ns。结果如图13所示,其中上图显示了证明MG3-6与具有不同靶向序列长度(18-24nt)的不同sgRNA组合的DNA剪切的凝胶,下图显示了量化为条形图的相同数据。数据证明来自18-24个核苷酸的靶向序列对于MG3-6/sgRNA系统是有功能的。
细菌细胞中的靶向核酸内切酶活性
使用实施例9所述的方法,用PAM序列TGGACCTG测试MG3-7核酸内切酶系统(蛋白质SEQ ID NO:422;sgRNA SEQ ID NO:5467)的体内活性。将转化的大肠杆菌以系列稀释物铺板,并将结果(显示了上图中的大肠杆菌系列稀释液和下图中的定量生长)显示于图14中。与表达非靶sgRNA的大肠杆菌相比,表达靶sgRNA的大肠杆菌生长的实质性降低表明基因组DNA在大肠杆菌细胞中被MG3-7核酸内切酶系统特异性剪切。
哺乳动物细胞中的靶向核酸内切酶活性(a)
实施例10的方法用于证明哺乳动物细胞中的靶向和剪切活性。将编码MG3-7(蛋白质SEQ ID NO:422)的开放阅读框克隆到2种哺乳动物表达载体中,一种具有C-末端SV40NLS和2A-GFP标签(大肠杆菌MG-BB)并且一种不含GFP标签,但具有位于N-末端和C-末端的2个NLS序列(大肠杆菌pMG5-BB)。将核酸内切酶表达载体与第二载体共转染到HEK293T细胞中,该第二载体用于表达具有选自表7的指导序列的上述sgRNA。本实验结果如图12所示。共转染72小时后,提取DNA并用于制备NGS文库。通过在靶位点附近出现内部缺失(NHEJ残余)来检测剪切活性。结果显示于图15中。
在sgRNA质粒上编码的靶位点如下表7所示。
表7:MG3-7哺乳动物靶向序列
哺乳动物细胞中靶向核酸内切酶活性(b)
选择MG3-6靶基因座来测试具有PAM nnRGGTT(SEQ ID NO:5532)的基因组中的位置。将对应于所选靶位点的间隔区克隆到实施例10b所述的哺乳动物载体系统主链1中的sgRNA支架中。位点如表7a所列出。MG3-6在各种靶位点处的活性如表7a和图40中所示。
表7a:MG3-6在各种靶位点处的活性
选择MG3-7靶基因座以测试PAM nnRnTAC(SEQ ID NO:6303)在基因组中的位置。将对应于所选靶位点的间隔区克隆到实施例10b所述的哺乳动物载体系统中的sgRNA支架中。位点如表7b所列出。MG3-7在各种靶位点处的活性如表7b和图41所示。
表7b:MG3-7在各种靶位点处的活性
选择MG3-8靶基因座来测试具有PAM nnRGGTT(SEQ ID NO:5534)的基因组中的位置。将对应于所选靶位点的间隔区克隆到实施例10b所述的哺乳动物载体系统主链1中的sgRNA支架中。位点如表7c所列出。MG3-8在各种靶位点处的活性如表7c和图42所示。
表7c:MG3-8在各种靶位点处的活性
实施例13.MG4家族成员的表征
PAM特异性,tracrRNA/sgRNA验证
使用如实施例6所述的myTXTL系统证实了MG4家族核酸内切酶系统的靶向核酸内切酶活性。在该测定中,剪切的靶质粒的PCR扩增产生了在凝胶中以约170bp迁移的产物,如图17-20所示。观察到MG4-2的扩增产物(双指导:参见凝胶2泳道9,单指导:参见凝胶10泳道7)(SEQ ID NO:432)。对PCR产物测序揭示了如下表8中的s所示活性PAM序列。
表8:MG4酶的PAM序列特异性和相关数据
实施例14.MG14家族成员的表征
PAM特异性,tracrRNA/sgRNA验证
使用如实施例6所述的myTXTL系统证实MG14家族成员的靶向核酸内切酶活性。在该测定中,剪切的靶质粒的PCR扩增产生了在凝胶中以约170bp迁移的产物,如图17-20所示。观察MG14-1的扩增产物(双指导:参见凝胶1泳道4,单指导:参见凝胶3泳道8)(SEQ IDNO:678)。对PCR产物测序揭示了如下表9所示的活性PAM序列特异性。
表9:MG14酶的PAM序列特异性和相关数据
细菌细胞中的靶向核酸内切酶活性
使用实施例9的方法验证MG14-1核酸内切酶系统与sgRNA(核酸内切酶SEQ ID NO:678;sgRNA SEQ ID NO:5469)和GGCGGGGA PAM序列的体内活性。将转化的大肠杆菌以系列稀释物铺板,并将结果(显示了左图中的大肠杆菌系列稀释液和右图中的定量生长)显示于图35中。与表达非靶sgRNA的大肠杆菌相比,表达靶sgRNA的大肠杆菌生长的实质性降低表明基因组DNA在大肠杆菌细胞中被MG1-4核酸内切酶特异性剪切。
哺乳动物细胞中靶向核酸内切酶活性
选择MG14-1靶基因座来测试具有PAM nnnnGGTA(SEQ ID NO:5535)的基因组中的位置。将对应于所选靶位点的间隔区克隆到实施例10b所述的哺乳动物载体系统主链2中的sgRNA支架中。位点如表9a所列出。MG14-1在各种靶位点处的活性示于表9a和图43中。
表9a:MG14-1在各种靶位点处的活性
实施例15-MG15家族成员的表征
PAM特异性,tracrRNA/sgRNA验证
使用如实施例6所述的myTXTL系统证实了MG15家族成员的靶向核酸内切酶活性。在该测定中,剪切的靶质粒的PCR扩增产生了在凝胶中以约170bp迁移的产物,如图17-20所示。观察MG15-1的扩增产物(双指导:参见凝胶7泳道7,单指导:参见凝胶3泳道9)(SEQ IDNO:930)。对PCR产物测序揭示了活性PAM序列特异性,详见下表10。
表10:
体外活性
使用实施例8所述的方法,用PAM序列TGGACCTG测试MG15-1核酸内切酶系统(蛋白质SEQ ID NO:930;sgRNA SEQ ID NO:5470)的体外活性。使用上面报道的单指导序列(SEQID NO:5470),用18-24nt的不同间隔区/靶向序列长度(替换该序列的Ns)。结果如图16所示,其中上图显示了证明MG15-1与具有不同靶向序列长度(18-24nt)的不同sgRNA组合的DNA剪切的凝胶,下图显示了量化为条形图的相同数据。数据证明来自18-24个核苷酸的靶向序列对于MG15-1/sgRNA系统是有功能的。
细菌细胞中的靶向核酸内切酶活性
使用实施例9的方法验证MG15-1核酸内切酶系统与sgRNA(核酸内切酶SEQ ID NO:930;sgRNA SEQ ID NO:5470)和GGGTCAAA PAM序列的体内活性。将转化的大肠杆菌以系列稀释物铺板,并将结果(显示了左图中的大肠杆菌系列稀释液和右图中的定量生长)显示于图35中。与表达非靶sgRNA的大肠杆菌相比,表达靶sgRNA的大肠杆菌生长的实质性降低表明基因组DNA在大肠杆菌细胞中被MG1-4核酸内切酶特异性剪切。
实施例16-MG16家族成员的表征
PAM特异性,tracrRNA/sgRNA验证
使用如实施例6所述的myTXTL系统证实了MG16家族成员的靶向核酸内切酶活性。在该测定中,剪切的靶质粒的PCR扩增产生了在凝胶中以约170bp迁移的产物,如图17-20所示。观察MG16-2的扩增产物(参见凝胶11,泳道17)(SEQ ID NO:1093)。对PCR产物测序揭示了活性PAM序列特异性,详见下表11。
表11:MG16酶的PAM序列特异性和相关数据
实施例17.MG18家族成员的表征
PAM特异性,tracrRNA/sgRNA验证
使用如实施例6所述的myTXTL系统证实了MG18家族成员的靶向核酸内切酶活性。在该测定中,剪切的靶质粒的PCR扩增产生了在凝胶中以约170bp迁移的产物,如图17-20所示。观察MG18-1的扩增产物(双指导:参见凝胶9泳道9,单指导:参见凝胶11泳道12)(SEQ IDNO:1354)。对PCR产物测序揭示了活性PAM序列特异性,详见下表12。
表12:MG18酶的PAM序列特异性和相关数据
哺乳动物细胞中靶向核酸内切酶活性
选择MG18-1靶基因座来测试具有PAM nRWART(SEQ ID NO:5537)的基因组中的位置。将对应于所选靶位点的间隔区克隆到实施例10b所述的哺乳动物载体系统主链1中的sgRNA支架中。位点如表12a所列出。MG18-1在各种靶位点处的活性示于表12a和图44中。
表12a:MG18-1在各种靶位点处的活性
实施例18-MG21家族成员的表征
PAM特异性,tracrRNA/sgRNA验证
使用如实施例6所述的myTXTL系统证实了MG21家族的靶向核酸内切酶活性。在该测定中,剪切的靶质粒的PCR扩增产生了在凝胶中以约170bp迁移的产物,如图17-20所示。观察MG21-1的扩增产物(参见凝胶11泳道2)(SEQ ID NO:1512)。对PCR产物测序揭示了活性PAM序列特异性,详见下表13。
表13:
实施例19-MG22家族成员的表征
PAM特异性,tracrRNA/sgRNA验证
使用如实施例6所述的myTXTL系统证实了MG22家族成员的靶向核酸内切酶活性。在该测定中,剪切的靶质粒的PCR扩增产生了在凝胶中以约170bp迁移的产物,如图17-20所示。图17-20所示的测定中,成功剪切文库的活性蛋白质在凝胶中产生约170bp的条带。观察MG22-1的扩增产物(参见凝胶11泳道3)(SEQ ID蛋白NO:1656)。对PCR产物测序揭示了活性PAM序列特异性,详见下表14。
表14:
实施例20-MG23家族成员的表征
PAM特异性,tracrRNA/sgRNA验证
使用如实施例6所述的myTXTL系统证实了MG23家族成员的靶向核酸内切酶活性。在该测定中,剪切的靶质粒的PCR扩增产生了在凝胶中以约170bp迁移的产物,如图17-20所示。观察MG23-1的扩增产物(参见凝胶11泳道4)(SEQ ID NO:1756)。对PCR产物测序揭示了这些酶的活性PAM序列特异性,详见下表15。
表15:
实施例21.MG21-MG23家族成员的哺乳动物活性
为了在哺乳动物细胞中显示靶向和剪切活性,将蛋白质序列克隆到具有侧翼N和C-末端SV40 NLS序列、C-末端His标签和在His标签后C-末端的2A-GFP标签的哺乳动物表达载体(主链1)或具有侧翼NLS序列和C-末端His标签但没有2A GFP标签的表达载体(主链2)中。蛋白质的DNA序列可以是天然序列、大肠杆菌密码子优化的序列或哺乳动物密码子优化的序列。也将具有目标基因靶的单指导RNA序列克隆到哺乳动物表达载体中。将两种质粒共转染到HEK293T细胞中。将表达质粒和sgRNA靶向质粒共转染到HEK293T细胞中后72小时,提取DNA并用于制备NGS文库。通过靶位点测序中的插入缺失测量NHEJ百分比以证明酶在哺乳动物细胞中的靶向效率。选择7-12个不同的靶位点来测试每种蛋白质的活性。使用5%插入缺失的任意阈值来鉴定活性候选物。
选择MG21-1靶基因座来测试具有PAM nnRnR的位置。将对应于所选靶位点的间隔区克隆到上述哺乳动物载体系统主链2中的sgRNA支架中。位点如表16所列出。
表16:MG21靶基因座和在哺乳动物细胞中证明的靶效率
选择MG22-1靶基因座来测试具有PAM nnRCnT的位置。将对应于所选靶位点的间隔区克隆到上述哺乳动物载体系统主链2中的sgRNA支架中。位点如表17所列出。
表17:MG22靶基因座和在哺乳动物细胞中证明的靶效率
选择MG23-1靶基因座来测试具有PAM nRRA的位置。将对应于所选靶位点的间隔区克隆到上述哺乳动物载体系统主链2中的sgRNA支架中。位点如表18所列出。
表18:MG23靶基因座和在哺乳动物细胞中证明的靶效率
实施例22-使用本文所述系统的T细胞编辑
已经确定各种MG系统在哺乳动物细胞中起作用,我们试图测试它们用于编辑人T细胞基因组的用途。为了首次使用MG3-6(蛋白质序列SEQ ID NO:421)和MG3-8(蛋白质序列SEQ ID NO:423)用于此目的,我们确定了基于人细胞中的指导活性,MG3-6共有PAM序列是5'-NNRGRYY-3'(SEQ ID NO:5949)。MG3-8的PAM先前被确定为5'-NNRGGTT-3'(SEQ ID NO:5534)。
TRAC基因座靶向
为了产生编辑的细胞,针对MG3-6(例如,SEQ ID NO:5950-5958中表示的间隔区,在实验中称为MG3-6指导1-9)和MG3-8(例如SEQ ID NO:5959-5965中表示的间隔区,在实验中称为“MG3-8指导1-7”)设计靶向T细胞中TRAC基因座的适当间隔区序列。间隔区序列用于MG3-6的SEQ ID NO:5466sgRNA和MG3-8的SEQ ID NO:6304sgRNA的背景中(如下所列)。
我们首先试图确定用于靶向与每种核酸内切酶相容的TRAC基因的间隔区的最佳长度。对于MG3-6,我们用上述间隔区的亚组(SEQ ID NO:5953-5957,在实验中称为“MG3-6指导4-8”)对sgRNA进行核转染,该间隔区的亚组长度为22-16个核苷酸,当序列被缩短时,核苷酸从5'PAM-远端截短。使用Lonza 4D电穿孔仪和溶液P3在每种条件下将这些携带间隔区的指导RNA核转染到200K原代T细胞(其先前已经用CD2/3/28微珠扩增)中,分别递送26或52或104pmol的Mg3-6蛋白和32或64或128pmol的指导RNA。3天后收获来自T细胞的基因组DNA并用NGS分析。数据显示于图56中,其显示了由22-16个核苷酸截短的MG3-6指导4-8的作用,证明19-22个核苷酸的长度显示出优于MG3-6的较短间隔区的性能。
为了用MG3-8进行相同的间隔区长度优化实验,我们用上述间隔区的亚组(SEQ IDNO:5960-5961和5963-5964,在实验中称为MG3-8指导2、3、5和8)对sgRNA进行核转染,该间隔区的亚组长度为22-16个核苷酸,当序列被缩短时,核苷酸从5'PAM-远端截短。使用Lonza4D电穿孔仪和溶液P3在每种条件下将这些携带间隔区的指导RNA核转染到200K原代T细胞(其先前已经用CD2/3/28微珠扩增)中,递送104pmol的Mg3-8蛋白和120pmol的指导RNA。3天后收获来自T细胞的基因组DNA并用NGS分析。数据显示于图57中,其显示了由22-16个核苷酸截短的MG3-8指导2、3、5和8的作用,证明19-22个核苷酸的长度显示出优于MG3-8的较短间隔区的性能。
已经鉴定了似乎靶向TRAC的间隔区序列,我们测试了这些间隔区诱导TRAC基因中的插入缺失并破坏细胞中TRAC表达的能力。我们使用104pmol的MG3-6蛋白和128pmol的指导RNA将表现最好的携带22个核苷酸间隔区的sgRNA(MG3-6指导6、SEQ ID NO:5955;以及MG3-8指导5、SEQ ID NO:5963)如上文核转染到原代T细胞中。回收3天后收获基因组DNA,并通过NGS分析插入缺失的出现或使用抗TCR-α链Ab通过流式细胞术分析。NGS插入缺失分析如图58所示,其证明MG3-6和MG3-8 sgRNA/酶组合在TRAC基因中产生了约90%或更高频率的插入缺失。流式细胞仪分析如图59所示,其证明MG3-6sgRNA/酶组合产生了约95%的TCR阴性细胞。
已经观察到MG3-6/指导6组合通过流式细胞术有效地产生TRAC敲除,我们测试了携带较低性能MG3-6 TRAC间隔区的指导,添加转染增强剂或更高的指导浓度是否可以改善敲除的效率。因此,我们如上转染T细胞,递送52pmol的MG3-6蛋白和60pmol的指导RNA和1μL的IDT转染增强子(如果使用)或120pmol的指导RNA或180pmol的指导RNA用于MG3-6指导4至6中的每一个(间隔区序列SEQ ID NO:5953-5955并且长度为22个核苷酸),并且使用抗TCR-α链Ab通过流式细胞术再次测定。结果如图60所示,其表明对于指导4和5,通过增加指导浓度,TRAC敲除的效率可分别增加至约87%或约71%。
靶向TRBC基因座
已经证实在上述T细胞中靶向TRAC基因座,我们接下来设计和筛选了用于靶向TRBC基因座的试剂。因此,我们再次如上所述为MG3-6和MG3-8设计了相应的间隔区(参见MG3-6的表19和MG3-8的表20),仅将其定向至TRBC基因座中的序列。由于TRBC具有两个剪接变体(TRBC1和TRBC2),我们设计了间隔区以靶向每个。我们将每个携带22-nt间隔区的指导RNA与上述酶一起核转染到T细胞中,并使用抗-TCR Ab评估T细胞受体的表达。每个携带间隔区的指导的TCR与流式细胞术时T细胞的存活力%如下面的表19和20所示。表19和20显示,几个间隔区(对于MG3-6为5、6、18和19,对于MG3-8为2、6、7和8)在诱导T细胞中的TCR敲除方面是中度至高度有效的。
表19-MG3-6 TRBC指导筛选
表20-MG3-8 TRBC指导筛选
与CAR-T表达并行的TCR消融
已经证明我们可以使用我们的核酸内切酶/指导组合有效地敲除T细胞中的TCR表达,我们接下来询问我们是否可以通过敲除TCR并在相同细胞中表达异源的CAR(嵌合抗原受体)来产生同种异体的CAR-T细胞。在图61中描述了我们用于该实验的方案,其显示了提出的TCR基因座的靶向,随后通过同源重组将CAR整合到相同的基因座。
因此,我们如上所述使用高效MG3-6酶和TRAC靶向MG3-6指导6(SEQ ID NO:5955)对T细胞进行核转染,仅用携带具有TRAC同源臂的异源的CAR序列的AAV#3029以300K的MOI感染相同的T细胞。在使用针对TCR受体和异源的CAR抗原的流式细胞术观察转染细胞以及对照后,我们观察到MG3-6转染条件可以约60%的频率产生CAR+/TCR-细胞。
GR(糖皮质激素受体)基因座靶向
已经证明我们可以使用我们的核酸内切酶/指导组合有效地敲除T细胞中的TCR表达,我们接下来询问我们是否可以靶向GR(糖皮质激素受体)基因座以调节T细胞的其他特征(例如,对糖皮质激素的应答)。我们再次为MG3-6和MG3-8设计了合适的间隔区,但这次靶向GR基因座中的序列(参见下表21和下表22)。
对于MG3-6靶向序列(表21),序列1-40被设计成靶向GR外显子2,序列41-45被设计成靶向GR外显子3,序列46被设计成靶向GR外显子4,序列47-54被设计成靶向GR外显子5,序列55-58被设计成靶向GR外显子6,序列59-61被设计成靶向GR外显子7,以及序列62-65被设计成靶向GR外显子8。通过使用126pmol的MG3-6蛋白和160pmol的指导核转染到上述原代T细胞中来筛选序列,如前所述通过NGS分析。筛选结果描述于图63,其描述了由表21中编号的指南产生的插入缺失%。结果表明,使用MG3-6,几种间隔区序列(下表21中的2、3、4、13、18、24、51、55、56和61)在GR基因中产生插入缺失方面适度有效。
表21-MG3-6 GR指导
对于MG3-8靶向序列(表22),序列1-17被设计成靶向GR外显子2,序列18被设计成靶向GR外显子3,序列19-20被设计成靶向GR外显子4,序列21-24被设计成靶向GR外显子5,序列25-26被设计成靶向GR外显子6,序列27-29被设计成靶向GR外显子7,以及序列30-31被设计成靶向GR外显子8。通过使用52pmol的MG3-8蛋白和60pmol的指导核转染到上述原代T细胞中来筛选序列,如前所述通过NGS分析。筛选结果描述于图64,其描述了由表22中编号的指南产生的插入缺失%。结果表明,使用MG3-8,一些间隔区序列(下表22中的2、25和29)在GR基因中产生插入缺失方面适度有效。
表22-MG3-8指导的GR(NR3C1)指导筛选
AAVS1安全港基因座靶向
已经证明我们可以使用我们的核酸内切酶/指导组合有效地敲除T细胞中的TCR表达,我们接下来询问我们是否可以靶向T细胞中的AAVS1安全港基因座。我们为MG3-6设计了适当的间隔区,但这次靶向AAVS1基因座中的序列(参见下表23)。如上所述使用126pmol的MG3-6蛋白和160pmol的指导通过核转染到原代T细胞中筛选序列,并通过NGS分析AAVS1基因座中的插入缺失形成。表23显示了在转染的T细胞中与每个AAVS1靶向间隔区序列并排产生的插入缺失的百分比,证明几种序列(A1、D1、E1、G1、B2、D2、G2、D3、F3和C4)在具有MG3-6的AAVS1基因座中以中等至高频率生成插入缺失。
表23-具有MG3-6的AAVS1指导筛选
TIGIT基因座靶向
已经证明我们可以使用我们的核酸内切酶/指导组合有效地敲除T细胞中的TCR表达,我们接下来询问我们是否可以靶向T细胞中的TIGIT基因座。我们为MG3-6设计了适当的间隔区,但这次靶向TIGIT基因座中的序列(参见下表24)。通过使用126pmol的MG3-6蛋白和160pmol的指导核转染到上述原代T细胞中来筛选序列,并如上所述NGS分析。表24显示了在转染的T细胞中与每个TIGIT靶向间隔区序列并排产生的插入缺失的百分比,证明几种序列(C1、G1、H1、D3)对MG3-6具有教高的插入缺失生成活性。3天后收获基因组DNA并通过NGS分析(参见下表24)。
表24-具有MG3-6的TIGIT指导筛选
实施例23-使用本文所述系统的NK细胞编辑
与CAR表达联合的TCR消融
已经观察到我们可以有效地敲除T细胞中的TCR表达,我们接下来询问我们是否可以编辑NK细胞中的TRAC,例如在引入具有TRAC同源臂的CAR的同时破坏TCR以产生同种异体CAR-NK细胞(参见图66的示例性方案)。因此,我们使用Cloudz人NK细胞扩增试剂盒培养NK细胞。利用Lonza4D系统使用Rautela等人(参见https://doi.org/10.1101/406934,其通过引用并入本文)的含甘露醇缓冲液转染NK细胞,该缓冲液含有104pmol的MG3-6蛋白和180pmol的指导RNA(使用高效MG3-6酶和靶向TRAC的MG3-6指导6,SEQ ID NO:5955),随后使用携带具有TRAC同源臂的CAR序列的AAV#3029以300K MOI感染。回收5天后从细胞中收获基因组DNA并用NGS分析。同时,通过流式细胞术使用生物素化BCMA蛋白与NK细胞标记物CD56的抗体平行测定CAR表达。结果显示于图67(其显示TRAC插入缺失形成)和图68(其显示流式细胞术分析x轴上的CD56表达和y轴上的CAR表达)中。结果证明MG3-6/指导RNA组合与CAR表达一起有效产生CAR阳性的NK细胞。
CD38靶向
然后使用针对MG3-6(表24)和MG3-8(表25)设计的间隔区序列在原代NK细胞中进行CD38指导筛选以靶向NK细胞中的CD38基因。结果与表24和25中的序列一起显示,证明当几种序列(A1、B1、H1、B2、C4、E4、F4、B5、D5、MG3-6和C1、MG3-8)与它们各自的核酸内切酶一起引入细胞时,它们在CD38基因座中具有中等至较高的插入缺失生成活性。
表24-使用MG3-6的CD38指导筛选
表25-使用MG3-8的CD38指导筛选
实施例23-使用本文所述系统在造血干细胞中进行基因编辑
对于造血干细胞(HSC)编辑,HSC以37/Allcells细胞说明解冻,在DMEM+10% FBS中洗涤,重悬于Stemspan II培养基加CC110细胞因子中。使用Lonza 4D电穿孔仪和溶液P3对200K细胞进行核转染。转染后3天收获基因组DNA并用NGS分析(见图70)。用TRAC指导5(SEQ ID NO:5954)和TRAC指导6(SEQ ID NO:5955)测试MG3-6。用TRAC指导2(SEQ ID NO:5960)和TRAC指导5(SEQ ID NO:5963)测试MG3-8。
实施例24-使用本文所述系统在B细胞中进行基因编辑
对于B细胞编辑,使用Lonza 4D系统,用含104pmol的MG3-6蛋白质和180pmol的指导的缓冲液P3或缓冲液#2(含甘露醇的缓冲液描述于Rautela等人,“Efficient genomeediting of human natural killer cells by CRISPR RNP,”(2021)(可获自https://doi.org/10.1101/406934))转染B细胞。转染后3天收获基因组DNA并用NGS分析(见图71)。用TRAC指导6(SEQ ID NO:5955)测试MG3-6。
实施例25-MG48家族成员的表征
用于转录/翻译的模板DNA
用T7启动子对MG48-1(蛋白质序列SEQ ID NO:5769)和MG48-3(蛋白质序列SEQ IDNO:5771)的大肠杆菌密码子优化序列进行排序(Twist Biosciences)。通过PCR从质粒扩增线性模板以包括T7和核酸酶序列。从由T7启动子、天然重复、靶向我们的质粒文库的通用间隔区、天然重复、侧翼为用于扩增的衔接子序列组成的序列扩增最小阵列线性模板。从宏基因组重叠群中鉴定出ORF或CRISPR阵列附近的三个基因间序列,并将其排序为用于扩增的具有侧翼衔接子序列的gBlocks(Integrated DNA Technologies)。
转录/翻译和剪切反应
MG48-1和MG48-3核酸酶,基因间序列和最小阵列在转录-翻译反应混合物中使用Sigma 70Master Mix试剂盒(Arbor Biosciences)表达。最终的反应混合物含有5nM核酸酶DNA模板、12nM基因间DNA模板、15nM最小阵列DNA模板、0.1nM的pTXTL-P70a-T7rnap和1X的Sigma 70Master Mix。将反应物在29℃下孵育16小时,然后在4℃下储存。
通过将5nM靶文库、5倍稀释的TXTL表达、10nM Tris-HCl,10nM MgCl2和100mMNaCl在37℃下混合2小时来进行质粒文库DNA剪切反应。停止反应,用SPRIselect微珠(Beckman Coulter,Inc.)清洗,并在Tris EDTA pH 8.0缓冲液中洗脱。将1.5nM的剪切产物与150nM的衔接子、1XT4连接酶缓冲液(New England Biolabs)、20U/μL T4DNA连接酶(NewEngland Biolabs)在室温下连接20分钟。用NGS引物通过PCR扩增连接产物,并用NGS测序以获得PAM。该实验的结果如图72中所示,其显示了从NGS获得的MG48-1(图A,SEQ ID NO:5855)和MG48-3(图B,SEQ ID NO:5856)的共有PAM序列。
转录/翻译基因间富集的RNAseq文库制备
按照Quick-RNATMMiniprep试剂盒(Zymo Research)从TXTL表达中提取RNA,并在50μL水中洗脱。在Nanodrop和Tapestation上测量转录物的总浓度。
使用RealSeq-AC miRNA Library试剂盒(Somagenics)制备来自每个样品的100ng总RNA以用于RNA测序。用Tapestation定量162-163bp之间的扩增子,并汇集至20nM的终浓度。将6pM的终浓度加载到Nano MiSeq V2试剂盒中并在Miseq系统(Illumina)中测序。RNAseq读数用于鉴定基因的tracr序列(MG48-1的SEQ ID NO:5886和MG48-3的SEQ ID NO:5893)(参见图73,其示出了RNAseq图谱,突出显示了测序的tracr区域)。使用tracr序列,我们设计了sgRNA(MG48-1的SEQ ID NO:5888和MG48-3的SEQ ID NO:5895),使用HiScribe T7试剂盒(New England Biolabs)从dsDNA模板体外转录sgRNA。使用与上述实施例相同的方案体外测试sgRNA以验证活性并验证其功能。
实施方案
下列实施方案在本质上是说明性的并且不旨在以任何方式进行限制:
1.一种工程化核酸酶系统,其包含:
(a)包含RuvC_III结构域和HNH结构域的核酸内切酶,其中所述核酸内切酶来源于未经培养的微生物,其中所述核酸内切酶是2类II型Cas核酸内切酶;以及
(b)被构造成与所述核酸内切酶形成复合物的工程化指导核糖核酸结构,其包含:
(i)指导核糖核酸序列,其被构造成与靶脱氧核糖核酸序列杂交;以及
(ii)tracr核糖核酸序列,其被构造成结合所述核酸内切酶。
2.如实施方案1所述的工程化核酸酶系统,其中所述RuvC_III结构域包含与SEQID NO:1827-3637中任一项具有至少70%、至少75%、至少80%或至少90%序列一致性的序列。
3.一种工程化核酸酶系统,其包含:
(a)包含RuvC_III结构域的核酸内切酶,所述RuvC_III结构域与SEQ ID NO:1827-3637中任一项具有至少75%的序列同一性;以及
(b)被构造成与所述核酸内切酶形成复合物的工程化指导核糖核酸结构,其包含:
(i)指导核糖核酸序列,其被构造成与靶脱氧核糖核酸序列杂交;以及
(ii)tracr核糖核酸序列,其被构造成结合所述核酸内切酶。
4.一种工程化核酸酶系统,其包含:
(a)被构造成结合包含SEQ ID NO:5512-5537的原间隔区相邻基序(PAM)序列的核酸内切酶,其中所述核酸内切酶是2类II型Cas核酸内切酶;以及
(b)被构造成与所述核酸内切酶形成复合物的工程化指导核糖核酸结构,其包含:
(i)指导核糖核酸序列,其被构造成与靶脱氧核糖核酸序列杂交;以及
(ii)tracr核糖核酸序列,其被构造成结合所述核酸内切酶。
5.如实施方案2所述的工程化核酸酶系统,其中所述核酸内切酶来源于未经培养的微生物。
6.如实施方案2-3中任一项所述的工程化核酸酶系统,其中所述核酸内切酶未被工程化以结合不同的PAM序列。
7.如实施方案2所述的工程化核酸酶系统,其中所述核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas13d核酸内切酶。
8.如实施方案2所述的工程化核酸酶系统,其中所述核酸内切酶与Cas9核酸内切酶具有小于80%的同一性。
9.如实施方案1-6中任一项所述的工程化核酸酶系统,其中所述核酸内切酶还包含HNH结构域。
10.如实施方案1-9中任一项所述的工程化核酸酶系统,其中所述tracr核糖核酸序列包含与选自SEQ ID NO:5476-5511和SEQ ID NO:5538中任一项的约60至90个连续核苷酸具有至少80%序列同一性的序列。
11.一种工程化核酸酶系统,其包含:
(a)工程化指导核糖核酸结构,其包含:
(i)指导核糖核酸序列,其被构造成与靶脱氧核糖核酸序列杂交;以及
(ii)tracr核糖核酸序列,其被构造成结合核酸内切酶,
其中所述tracr核糖核酸序列包含与选自SEQ ID NO:5476-5511和SEQ ID NO:5538中任一项的约60至90个连续核苷酸具有至少80%序列同一性的序列。以及
(b)被构造成结合所述工程化指导核糖核酸的2类II型Cas核酸内切酶。
12.如实施方案1-1或8中任一项所述的工程化核酸酶系统,其中所述核酸内切酶被构造成结合选自SEQ ID NO:5512-5537的原间隔区相邻基序(PAM)序列。
13.如实施方案1-8中任一项所述的工程化核酸酶系统,其中所述工程化指导核糖核酸结构包含至少两个核糖核酸多核苷酸。
14.如实施方案1-8中任一项所述的工程化核酸酶系统,其中所述工程化指导核糖核酸结构包含一个含有所述指导核糖核酸序列和所述tracr核糖核酸序列的核糖核酸多核苷酸。
15.如实施方案1-14中任一项所述的工程化核酸酶系统,其中所述指导核糖核酸序列与原核、细菌、古菌、真核、真菌、植物、哺乳动物或人基因组序列互补。
16.如实施方案1-15中任一项所述的工程化核酸酶系统,其中所述指导核糖核酸序列长度为15-24个核苷酸。
17.如实施方案1-10中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含邻近所述核酸内切酶的N-末端或C-末端的一个或多个核定位序列(NLS)。
18.如实施方案1-11中任一项所述的工程化核酸酶系统,其中所述NLS包含选自SEQ ID NO:5597-5612的序列.
19.如实施方案1-12中任一项所述的工程化核酸酶系统,还包含
单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含所述靶脱氧核糖核酸序列5'的至少20个核苷酸的序列;至少10个核苷酸的合成DNA序列;以及第二同源臂,其包含所述靶序列3'的至少20个核苷酸的序列。
20.如实施方案13所述的工程化核酸酶系统,其中所述第一同源臂或第二同源臂包含至少40、80、120、150、200、300、500或1,000个核苷酸的序列。
21.如实施方案1-14中任一项所述的工程化核酸酶系统,其中所述系统还包含Mg2+源。
22.如实施方案1-21中任一项所述的工程化核酸酶系统,其中所述核酸内切酶和所述tracr核糖核酸序列来源于相同门内的不同细菌物种。
23.如实施方案1-22中任一项所述的工程化核酸酶系统,其中所述核酸内切酶来源于属于皮杆菌属(Dermabacter)的细菌。
24.如实施方案1-22中任一项所述的工程化核酸酶系统,其中所述核酸内切酶来源于属于疣微菌门、候选异域菌门或候选黑色素杆菌门的细菌。
25.如实施方案1-22中任一项所述的工程化核酸酶系统,其中所述核酸内切酶来源于包含与SEQ ID NO:5592-5595中任一项具有至少90%同一性的16S rRNA基因的细菌。
26.如实施方案1-25中任一项所述的工程化核酸酶系统,其中所述HNH结构域包含与SEQ ID NO:3638-3955中任一项具有至少70%或至少80%同一性的序列。
27.如实施方案1-26中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含SEQ ID NO:1-1826或与其具有至少55%同一性的其变体。
28.如实施方案1-27中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:1827-1830或SEQ ID NO:1827-2140的序列具有至少70%、80%或90%同一性的序列。
29.如实施方案1-28中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:3638-3641或SEQ ID NO:3638-3954的序列具有至少70%、80%或90%同一性的序列。
30.如实施方案1-29中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含选自SEQ ID NO:5615-5632的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。
31.如实施方案1-30中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:1-4或SEQ ID NO:1-319的序列具有至少70%、80%或90%同一性的序列。
32.如实施方案1-31中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含与选自SEQ ID NO:5461-5464、SEQ ID NO:5476-5479或SEQ ID NO:5476-5489的序列具有至少70%、80%或90%同一性的序列。
33.如实施方案1-32中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含预测包含由茎和环组成的发夹和不对称凸出(asymmetric bulge)的RNA序列,其中茎包含至少10个、至少12个或至少14个碱基配对的核糖核苷酸,且不对称凸出位于环的4个碱基对内。
34.如实施方案1-33中任一项所述的工程化核酸酶系统,其中所述核酸内切酶被构造成结合包含选自SEQ ID NO:5512-5515或SEQ ID NO:5527-5530的序列的PAM。
35.如实施方案1-34中任一项所述的工程化核酸酶系统,其中:
a)所述核酸内切酶包含与SEQ ID NO:1827具有至少70%、至少80%或至少90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5461或SEQ ID NO:5476中的至少一项具有至少70%、至少80%或至少90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5512或SEQ ID NO:5527的PAM。
36.如实施方案1-34中任一项所述的工程化核酸酶系统,其中:
a)所述核酸内切酶包含与SEQ ID NO:1828具有至少70%、至少80%或至少90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5462或SEQ ID NO:5477中的至少一项具有至少70%、至少80%或至少90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5513或SEQ ID NO:5528的PAM。
37.如实施方案1-34中任一项所述的工程化核酸酶系统,其中:
a)所述核酸内切酶包含与SEQ ID NO:1829具有至少70%、至少80%或至少90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5463或SEQ ID NO:5478中的至少一项具有至少70%、至少80%或至少90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5514或SEQ ID NO:5529的PAM。
38.如实施方案1-34中任一项所述的工程化核酸酶系统,其中:
a)所述核酸内切酶包含与SEQ ID NO:1830具有至少70%、至少80%或至少90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5464或SEQ ID NO:5479中的至少一项具有至少70%、至少80%或至少90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5515或SEQ ID NO:5530的PAM。
39.如实施方案1-27中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:2141-2142或SEQ ID NO:2141-2241的序列具有至少70%、80%或90%同一性的序列。
40.如实施方案1-27或实施方案39中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:3955-3956或SEQ ID NO:3955-4055的序列具有至少70%、80%或90%同一性的序列。
41.如实施方案1-27或实施方案39-40中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含选自SEQ ID NO:5632-5638的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。
42.如实施方案1-27或实施方案39-41中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:320-321或SEQ ID NO:320-420的序列具有至少70%、80%或90%同一性的序列。
43.如实施方案1-27或实施方案39-42中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含与选自SEQ ID NO:-5465、SEQ ID NO:5490-5491或SEQ ID NO:5490-5494的序列具有至少70%、80%或90%同一性的序列。
44.如实施方案1-27或实施方案39-43中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含tracr核糖核酸序列,tracr核糖核酸序列包含发夹,发夹包含至少8个、至少10个或至少12个碱基配对的核糖核苷酸。
45.如实施方案1-27或实施方案39-44中任一项所述的工程化核酸酶系统,其中所述核酸内切酶被构造成结合包含选自SEQ ID NO:5516和SEQ ID NO:5531的序列的PAM。
46.如实施方案1-27或实施方案39-45中任一项所述的工程化核酸酶系统,其中:
a)所述核酸内切酶包含与SEQ ID NO:2141具有至少70%、80%或90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5490具有至少70%、80%或90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5531的PAM。
47.如实施方案1-27或实施方案39-45中任一项所述的工程化的核酸酶系统,其中
a)所述核酸内切酶包含与SEQ ID NO:2142具有至少70%、80%或90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5465或SEQ ID NO:5491具有至少70%、80%或90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5516的PAM。
48.如实施方案1-27中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:2245-2246的序列具有至少70%、80%或90%同一性的序列。
49.如实施方案1-27或实施方案48中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:4059-4060的序列具有至少70%、80%或90%同一性的序列。
50.如实施方案1-27或实施方案48-49中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含选自SEQ ID NO:5639-5648的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。
51.如实施方案1-27或实施方案48-50中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:424-425的序列具有至少70%、80%或90%同一性的序列。
52.如实施方案1-27或实施方案48-51中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含与选自SEQ ID NO:5498-5499和SEQ ID NO:5539的序列具有至少70%、80%或90%同一性的序列。
53.如实施方案1-27或实施方案48-52中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含预测包含发夹的指导核糖核酸序列,发夹具有包含指导核糖核酸序列的至少8个核苷酸和tracr核糖核酸序列的至少8个核苷酸的不间断碱基配对区(uninterrupted base-paired region),并且其中所述tracr核糖核酸序列从5'至3'包含第一发夹和第二发夹,其中所述第一发夹具有比所述第二发夹更长的茎。
54.如实施方案1-27中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:2242-2244或SEQ ID NO:2247-2249的序列具有至少70%、80%或90%同一性的序列。
55.如实施方案1-27或实施方案54中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:4056-4058以及SEQ ID NO:4061-4063的序列具有至少70%、80%或90%同一性的序列。
56.如实施方案1-27或实施方案54-55中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含选自SEQ ID NO:5639-5648的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。
57.如实施方案1-27或实施方案54-56中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:421-423或SEQ ID NO:426-428的序列具有至少70%、80%或90%同一性的序列。
58.如实施方案1-27或实施方案54-57中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含与选自SEQ ID NO:5466-5467、SEQ ID NO:5495-5497、SEQ ID NO:5500-5502和SEQ ID NO:5539的序列具有至少70%、80%或90%同一性的序列。
59.如实施方案1-27或实施方案54-58中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含预测包含发夹的指导核糖核酸序列,发夹具有包含指导核糖核酸序列的至少8个核苷酸和tracr核糖核酸序列的至少8个核苷酸的不间断碱基配对区(uninterrupted base-paired region),并且其中所述tracr核糖核酸序列从5'至3'包含第一发夹和第二发夹,其中所述第一发夹具有比所述第二发夹更长的茎。
60.如实施方案1-27或实施方案54-59中任一项所述的工程化核酸酶系统,其中所述核酸内切酶被构造成结合包含选自SEQ ID NO:5517-5518或SEQ ID NO:5532-5534的序列的PAM。
61.如实施方案1-27或实施方案54-60中任一项所述的工程化的核酸酶系统,其中:
a)所述核酸内切酶包含与SEQ ID NO:2247具有至少70%、80%或90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5500具有至少70%、80%或90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5517或SEQ ID NO:5532的PAM。
62.如实施方案1-27或实施方案54-60中任一项所述的工程化的核酸酶系统,其中:
a)所述核酸内切酶包含与SEQ ID NO:2248具有至少70%、80%或90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5501具有至少70%、80%或90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5518或SEQ ID NO:5533的PAM。
63.如实施方案1-27或实施方案54-60中任一项所述的工程化的核酸酶系统,其中:
a)所述核酸内切酶包含与SEQ ID NO:2249具有至少70%、80%或90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5502具有至少70%、80%或90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5534的PAM。
64.如实施方案1-27中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:2253或SEQ ID NO:2253-2481的序列具有至少70%、80%或90%同一性的序列。
65.如实施方案1-27或实施方案64中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:4067或SEQ ID NO:4067-4295的序列具有至少70%、80%或90%同一性的序列。
66.如实施方案1-27或实施方案64-65中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含根据SEQ ID NO:5649的肽基序。
67.如实施方案1-27或实施方案64-66中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:432或SEQ ID NO:432-660的序列具有至少70%、80%或90%同一性的序列。
68.如实施方案1-27或实施方案64-67中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含与选自SEQ ID NO:5468或SEQ ID NO:5503的序列具有至少70%、80%或90%同一性的序列。
69.如实施方案1-27或实施方案64-68中任一项所述的工程化核酸酶系统,其中所述核酸内切酶被构造成结合包含选自SEQ ID NO:5519的序列的PAM。
70.如实施方案1-27或实施方案64-69中任一项所述的工程化的核酸酶系统,其中:
a)所述核酸内切酶包含与SEQ ID NO:2253具有至少70%、80%或90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5468或SEQ ID NO:5503具有至少70%、80%或90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5519的PAM。
71.如实施方案1-27中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:2482-2489的序列具有至少70%、80%或90%同一性的序列。
72.如实施方案1-27或实施方案71中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:4296-4303的序列具有至少70%、80%或90%同一性的序列。
73.如实施方案1-27或实施方案71-72中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID或NO:661-668的序列具有至少70%、80%或90%同一性的序列。
74.如实施方案1-27中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID或NO:2490-2498的序列具有至少70%、80%或90%同一性的序列。
75.如实施方案1-27或实施方案74中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:4304-4312的序列具有至少70%、80%或90%同一性的序列。
76.如实施方案1-27或实施方案74-75中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:669-677的序列具有至少70%、80%或90%同一性的序列。
77.如实施方案1-27或实施方案74-76中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含与选自SEQ ID NO:5504的序列具有至少70%、80%或90%同一性的序列。
78.如实施方案1-27中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:2499或SEQ ID NO:2499-2750的序列具有至少70%、80%或90%同一性的序列。
79.如实施方案1-27或实施方案78中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:4313或SEQ ID NO:4313-4564的序列具有至少70%、80%或90%同一性的序列。
80.如实施方案1-27或实施方案78-79中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含选自SEQ ID NO:5650-5667的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。
81.如实施方案1-27或实施方案78-80中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:678或SEQ ID NO:678-929的序列具有至少70%、80%或90%同一性的序列。
82.如实施方案1-27或实施方案78-81中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含与SEQ ID NO:5469或SEQ ID NO:5505具有至少70%、80%或90%同一性的序列。
83.如实施方案1-27或实施方案78-82中任一项所述的工程化核酸酶系统,其中所述核酸内切酶被构造成结合包含SEQ ID NO:5520或SEQ ID NO:5535的PAM。
84.如实施方案1-27或实施方案78-83中任一项所述的工程化的核酸酶系统,其中:
a)所述核酸内切酶包含与SEQ ID NO:2499具有至少70%、80%或90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5469或SEQ ID NO:5505具有至少70%、80%或90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5520或SEQ ID NO:5535的PAM。
85.如实施方案1-27中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:2751或SEQ ID NO:2751-2913的序列具有至少70%、80%或90%同一性的序列。
86.如实施方案1-27或实施方案85中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:4565或SEQ ID NO:4565-4727的序列具有至少70%、80%或90%同一性的序列。
87.如实施方案1-27或实施方案85-86中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含选自SEQ ID NO:5668-5678的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。
88.如实施方案1-27或实施方案85-87中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:930或SEQ ID NO:930-1092的序列具有至少70%、80%或90%同一性的序列。
89.如实施方案1-27或实施方案85-88中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含与SEQ ID NO:5470或SEQ ID NO:5506具有至少70%、80%或90%同一性的序列。
90.如实施方案1-27或实施方案85-89中任一项所述的工程化核酸酶系统,其中所述核酸内切酶被构造成结合包含选自SEQ ID NO:5521或SEQ ID NO:5536的序列的PAM。
91.如实施方案1-27或实施方案85-90中任一项所述的工程化的核酸酶系统,其中:
a)所述核酸内切酶包含与SEQ ID NO:2751具有至少70%、80%或90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5470或SEQ ID NO:5506具有至少70%、80%或90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5521或SEQ ID NO:5536的PAM。
92.如实施方案1-27中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:2914或SEQ ID NO:2914-3174的序列具有至少70%、80%或90%同一性的序列。
93.如实施方案1-27或实施方案92中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:4728或SEQ ID NO:4728-4988的序列具有至少70%、80%或90%同一性的序列。
94.如实施方案1-27或实施方案92-93中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含选自SEQ ID NO:5676-5678的至少1个、至少2个、至少3个肽基序。
95.如实施方案1-27或实施方案92-94中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:1093或SEQ ID NO:1093-1353的序列具有至少70%、80%或90%同一性的序列。
96.如实施方案1-27或实施方案92-95中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含与选自SEQ ID NO:5471、SEQ ID NO:5507和SEQ ID NO:5540-5542的序列具有至少70%、80%或90%同一性的序列。
97.如实施方案1-27或实施方案92-96中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含预测包含至少两个发夹的tracr核糖核酸序列,发夹包含少于5个碱基配对的核糖核苷酸。
98.如实施方案1-27或实施方案92-97中任一项所述的工程化核酸酶系统,其中所述核酸内切酶被构造成结合包含SEQ ID NO:5522的PAM。
99.如实施方案1-27或实施方案92-98中任一项所述的工程化的核酸酶系统,其中:
a)所述核酸内切酶包含与SEQ ID NO:2914具有至少70%、80%或90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5471或SEQ ID NO:5507具有至少70%、80%或90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5522的PAM。
100.如实施方案1-27中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:3175或SEQ ID NO:3175-3330的序列具有至少70%、80%或90%同一性的序列。
101.如实施方案1-27或实施方案100中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:4989或SEQ ID NO:4989-5146的序列具有至少70%、80%或90%同一性的序列。
102.如实施方案1-27或实施方案100-101中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含选自SEQ ID NO:5679-5686的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。
103.如实施方案1-27或实施方案100-102中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:1354或SEQ ID NO:1354-1511的序列具有至少70%、80%或90%同一性的序列。
104.如实施方案1-27或实施方案100-103中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含与选自SEQ ID NO:5472或SEQ ID NO:5508的序列具有至少70%、80%或90%同一性的序列。
105.如实施方案1-27或实施方案100-104中任一项所述的工程化核酸酶系统,其中所述核酸内切酶被构造成结合包含选自SEQ ID NO:5523或SEQ ID NO:5537的序列的PAM。
106.如实施方案1-27或实施方案100-105中任一项所述的工程化的核酸酶系统,其中:
a)所述核酸内切酶包含与SEQ ID NO:3175具有至少70%、80%或90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5472或SEQ ID NO:5508具有至少70%、80%或90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5523或SEQ ID NO:5537的PAM。
107.如实施方案1-27中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:3331或SEQ ID NO:3331-3474的序列具有至少70%、80%或90%同一性的序列。
108.如实施方案1-27或实施方案107中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:5147或SEQ ID NO:5147-5290的序列具有至少70%、80%或90%同一性的序列。
109.如实施方案1-27或实施方案107-108中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含选自SEQ ID NO:5674-5675和SEQ ID NO:5687-5693的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。
110.如实施方案1-27或实施方案107-109中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:1512或SEQ ID NO:1512-1655的序列具有至少70%、80%或90%同一性的序列。
111.如实施方案1-27或实施方案107-110中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含与选自SEQ ID NO:5473或SEQ ID NO:5509的序列具有至少70%、80%或90%同一性的序列。
112.如实施方案1-27或实施方案107-111中任一项所述的工程化核酸酶系统,其中所述核酸内切酶被构造成结合包含SEQ ID NO:5524的PAM。
113.如实施方案1-27或实施方案107-112中任一项所述的工程化的核酸酶系统,其中:
a)所述核酸内切酶包含与SEQ ID NO:3331具有至少70%、80%或90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5473或SEQ ID NO:5509具有至少70%、80%或90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5524的PAM。
114.如实施方案1-27中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:3475或SEQ ID NO:3475-3568的序列具有至少70%、80%或90%同一性的序列。
115.如实施方案1-27或实施方案114中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:5291或SEQ ID NO:5291-5389的序列具有至少70%、80%或90%同一性的序列。
116.如实施方案1-27或实施方案114-115中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含选自SEQ ID NO:5694-5699的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。
117.如实施方案1-27或实施方案114-116中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:1656或SEQ ID NO:1656-1755的序列具有至少70%、80%或90%同一性的序列。
118.如实施方案1-27或实施方案114-117中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含与SEQ ID NO:5474或SEQ ID NO:5510具有至少70%、80%或90%同一性的序列。
119.如实施方案1-27或实施方案114-118中任一项所述的工程化核酸酶系统,其中所述核酸内切酶被构造成结合包含NO ID NO:5525的PAM。
120.如实施方案1-27或实施方案114-119中任一项所述的工程化的核酸酶系统,其中:
a)所述核酸内切酶包含与SEQ ID NO:3475具有至少70%、80%或90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5474或SEQ ID NO:5510具有至少70%、80%或90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5525的PAM。
121.如实施方案1-27中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:3569或SEQ ID NO:3569-3637的序列具有至少70%、80%或90%同一性的序列。
122.如实施方案1-27或实施方案121中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:5390或SEQ ID NO:5390-5460的序列具有至少70%、80%或90%同一性的序列。
123.如实施方案1-27或实施方案121-122中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含选自SEQ ID NO:5700-5717的至少1个、至少2个、至少3个、至少4个或至少5个肽基序。
124.如实施方案1-27或实施方案121-123中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含与选自SEQ ID NO:1756或SEQ ID NO:1756-1826的序列具有至少70%、80%或90%同一性的序列。
125.如实施方案1-27或实施方案121-124中任一项所述的工程化核酸酶系统,其中所述指导RNA结构包含与SEQ ID NO:5475或SEQ ID NO:5511具有至少70%、80%或90%同一性的序列。
126.如实施方案1-27或实施方案121-125中任一项所述的工程化核酸酶系统,其中所述核酸内切酶被构造成结合包含SEQ ID NO:5526的PAM。
127.如实施方案1-27或实施方案121-126中任一项所述的工程化的核酸酶系统,其中:
a)所述核酸内切酶包含与SEQ ID NO:3569具有至少70%、80%或90%同一性的序列;
b)所述指导RNA结构包含与SEQ ID NO:5475或SEQ ID NO:5511具有至少70%、80%或90%同一性的序列;以及
c)所述核酸内切酶被构造成结合包含SEQ ID NO:5526的PAM。
128.如实施方案1-127中任一项所述的工程化核酸酶系统,其中所述序列同一性通过BLASTP、CLUSTALW、MUSCLE、MAFFT或Smith-Waterman同源性搜索算法来确定。
129.如实施方案15所述的工程化核酸酶系统,其中所述序列同一性通过所述BLASTP同源性搜索算法来确定,所述BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数,以及将空位成本设定为存在为11、延伸为1并且使用条件组成得分矩阵调整的BLOSUM62打分矩阵。
130.一种工程化指导核糖核酸多核苷酸,其包含:
a)DNA靶向区段,其包含与靶DNA分子中的靶序列互补的核苷酸序列;以及
b)蛋白质结合区段,其包含杂交形成双链RNA(dsRNA)双链体的两个互补核苷酸段,
其中所述两个互补核苷酸段与居间核苷酸彼此共价连接,并且
其中所述工程化指导核糖核酸多核苷酸被构造成与包含RuvC_III结构域的核酸内切酶形成复合物,所述RuvC_III结构域与SEQ ID NO:1827-3637中任一项具有至少75%的序列同一性,并且将所述复合物靶向所述靶DNA分子的所述靶序列。
131.如实施方案17所述的工程化指导核糖核酸多核苷酸,其中所述DNA靶向区段位于所述两个互补核苷酸段的5'。
132.如实施方案17-18中任一项所述的工程化指导核糖核酸多核苷酸,其中:
a)所述蛋白质结合区段包含与选自SEQ ID NO:5476-5479或SEQ ID NO:5476-5489的序列具有至少70%、至少80%或至少90%同一性的序列;
b)所述蛋白质结合区段包含与选自(SEQ ID NO:5490-5491或SEQ ID NO:5490-5494)和SEQ ID NO:5538的序列具有至少70%、至少80%或至少90%同一性的序列;
c)所述蛋白质结合区段包含与选自SEQ ID NO:5498-5499的序列具有至少70%、至少80%或至少90%同一性的序列;
d)所述蛋白质结合区段包含与选自SEQ ID NO:5495-5497和SEQ ID NO:5500-5502的序列具有至少70%、至少80%或至少90%同一性的序列;
e)所述蛋白质结合区段包含与SEQ ID NO:5503具有至少70%、至少80%或至少90%同一性的序列;
f)所述蛋白质结合区段包含与SEQ ID NO:5504具有至少70%、至少80%或至少90%同一性的序列;
g)所述蛋白质结合区段包含与SEQ ID NO:5505具有至少70%、至少80%或至少90%同一性的序列;
h)所述蛋白质结合区段包含与SEQ ID NO:5506具有至少70%、至少80%或至少90%同一性的序列;
i)所述蛋白质结合区段包含与SEQ ID NO:5507具有至少70%、至少80%或至少90%同一性的序列;
j)所述蛋白质结合区段包含与SEQ ID NO:5508具有至少70%、至少80%或至少90%同一性的序列;
k)所述蛋白质结合区段包含与SEQ ID NO:5509具有至少70%、至少80%或至少90%同一性的序列;
l)所述蛋白质结合区段包含与SEQ ID NO:5510具有至少70%、至少80%或至少90%同一性的序列;或者
m)所述蛋白质结合区段包含与SEQ ID NO:5511具有至少70%、至少80%或至少90%同一性的序列;
133.如实施方案17-132中任一项所述的工程化指导核糖核酸多核苷酸,其中:
a)所述指导核糖核酸多核苷酸包含RNA序列,RNA序列包含发夹和不对称凸出,发夹包含茎和环,其中所述茎包含至少10个、至少12个或至少14个碱基配对的核糖核苷酸,且不对称凸出位于环的4个碱基对内;
b)所述指导核糖核酸多核苷酸包含预测包含发夹的tracr核糖核酸序列,发夹包含至少8个、至少10个或至少12个碱基配对的核糖核苷酸;
c)所述指导核糖核酸多核苷酸包含预测包含发夹的指导核糖核酸序列,发夹具有包含指导核糖核酸序列的至少8个核苷酸和tracr核糖核酸序列的至少8个核苷酸的不间断碱基配对区,并且其中所述tracr核糖核酸序列从5'至3'包含第一发夹和第二发夹,其中所述第一发夹具有比第二发夹更长的茎;或者
d)所述指导核糖核酸多核苷酸包含预测包含至少两个发夹的tracr核糖核酸序列,发夹包含少于5个碱基配对的核糖核苷酸。
134.一种编码实施方案17-133中任一项所述的工程化指导核糖核酸多核苷酸的脱氧核糖核酸多核苷酸。
135.一种包含经优化用于在生物体中表达的工程化核酸序列的核酸,其中所述核酸编码包含RuvC_III结构域和HNH结构域的2类II型Cas核酸内切酶,并且其中所述核酸内切酶来源于未经培养的微生物。
136.一种包含经优化用于在生物体中表达的工程化核酸序列的核酸,其中所述核酸编码包含RuvC_III结构域的核酸内切酶,所述RuvC_III结构域与SEQ ID NO:1827-3637中任一项具有至少70%序列同一性。
137.如实施方案135-20中任一项所述的核酸,其中所述核酸酶包含与SEQ ID NO:3638-5460中任一项具有至少70%或至少80%序列同一性的HNH结构域。
138.如实施方案135-137中任一项所述的核酸,其中所述核酸内切酶包含SEQ IDNO:5572-5591或与其具有至少70%序列同一性的其变体。
139.如实施方案135-138中任一项所述的核酸,其中所述核酸内切酶包含编码邻近所述核酸内切酶的N-末端或C-末端的一个或多个核定位序列(NLS)的序列。
140.如实施方案21所述的核酸,其中所述NLS包含选自SEQ ID NO:5597-5612的序列。
141.如实施方案135-22中任一项所述的核酸,其中所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人。
142.如实施方案23所述的核酸,其中所述生物体是大肠杆菌,并且其中:
a)所述核酸序列与选自SEQ ID NO:5572-5575的序列具有至少70%、80%或90%同一性;
b)所述核酸序列与选自SEQ ID NO:5576-5577的序列具有至少70%、80%或90%同一性;
c)所述核酸序列与选自SEQ ID NO:5578-5580的序列具有至少70%、80%或90%同一性;
d)所述核酸序列与SEQ ID NO:5581具有至少70%、80%或90%同一性;
e)所述核酸序列与SEQ ID NO:5582具有至少70%、80%或90%同一性;
f)所述核酸序列与SEQ ID NO:5583具有至少70%、80%或90%同一性;
g)所述核酸序列与SEQ ID NO:5584具有至少70%、80%或90%同一性;
h)所述核酸序列与SEQ ID NO:5585具有至少70%、80%或90%同一性;
i)所述核酸序列与SEQ ID NO:5586具有至少70%、80%或90%同一性;或者
j)所述核酸序列与SEQ ID NO:5587具有至少70%、80%或90%同一性。
143.如实施方案23所述的核酸,其中所述生物体是人,并且其中:
a)所述核酸序列与SEQ ID NO:5588或SEQ ID NO:5589具有至少70%、80%或90%同一性;或者
b)所述核酸序列与SEQ ID NO:5590或SEQ ID NO:5591具有至少70%、80%或90%同一性。
144.一种包含编码包含RuvC_III结构域和HNH结构域的2类II型Cas核酸内切酶的核酸序列的载体,其中所述核酸内切酶来源于未经培养的微生物。
145.一种包含实施方案135-143中任一项所述的核酸的载体。
146.如实施方案144-24中任一项所述的载体,其还包含编码工程化指导核糖核酸结构的核酸,所述工程化指导核糖核酸结构被构造成与所述核酸内切酶形成复合物,所述复合物包含:
a)被构造成与靶脱氧核糖核酸序列杂交的指导核糖核酸序列;以及
b)被构造成结合所述核酸内切酶的tracr核糖核酸序列。
147.如实施方案144-25中任一项所述的载体,其中所述载体是质粒、微环、CELiD、来源于腺相关病毒(AAV)的病毒粒子或慢病毒。
148.一种包含实施方案144-26中任一项所述的载体的细胞。
149.一种生产核酸内切酶的方法,包括培养实施方案146所述的细胞。
150.一种用于结合、剪切、标记或修饰双链脱氧核糖核酸多核苷酸的方法,包括:
(a)使所述双链脱氧核糖核酸多核苷酸与2类II型Cas核酸内切酶接触,所述核酸内切酶与工程化指导核糖核酸结构复合,所述工程化指导核糖核酸结构被构造成结合所述核酸内切酶和所述双链脱氧核糖核酸多核苷酸;
(b)其中所述双链脱氧核糖核酸多核苷酸包含原间隔区相邻基序(PAM);以及
(c)其中所述PAM包含选自SEQ ID NO:5512-5526或SEQ ID NO:5527-5537的序列。
151.如实施方案28所述的方法,其中所述双链脱氧核糖核酸多核苷酸包含第一链和第二链,其中所述第一链包含与所述工程化指导核糖核酸结构的序列互补的序列,且所述第二链包含所述PAM。
152.如实施方案30所述的方法,其中所述PAM直接邻近与所述工程化指导核糖核酸结构的所述序列互补的所述序列的3'端。
153.如实施方案28-31中任一项所述的方法,其中所述2类II型Cas核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas13d核酸内切酶。
154.如实施方案28-32中任一项所述的方法,其中所述2类II型Cas核酸内切酶来源于未经培养的微生物。
155.如实施方案28-154中任一项所述的方法,其中所述双链脱氧核糖核酸多核苷酸是真核生物、植物、真菌、哺乳动物、啮齿动物或人双链脱氧核糖核酸多核苷酸。
156.如实施方案28-33中任一项所述的方法,其中:
a)所述PAM包含选自SEQ ID NO:5512-5515和SEQ ID NO:5527-5530的序列;
b)所述PAM包含SEQ ID NO:5516或SEQ ID NO:5531;
c)所述PAM包含SEQ ID NO:5539;
d)所述PAM包含SEQ ID NO:5517或SEQ ID NO:5518;
e)所述PAM包含SEQ ID NO:5519;
f)所述PAM包含SEQ ID NO:5520或SEQ ID NO:5535;
g)所述PAM包含SEQ ID NO:5521或SEQ ID NO:5536;
h)所述PAM包含SEQ ID NO:5522;
i)所述PAM包含SEQ ID NO:5523或SEQ ID NO:5537;
j)所述PAM包含SEQ ID NO:5524;
k)所述PAM包含SEQ ID NO:5525;或者
l)所述PAM包含SEQ ID NO:5526。
157.一种修饰靶核酸基因座的方法,所述方法包括将实施方案1-16中任一项所述的工程化核酸酶系统递送至所述靶核酸基因座,其中所述核酸内切酶被构造成与所述工程化指导核糖核酸结构形成复合物,并且其中所述复合物被构造成使得在所述复合物与所述靶核酸基因座结合时,所述复合物修饰所述靶核酸基因座。
158.一种如实施方案34所述的方法,其中修饰所述靶核酸基因座包括结合、切刻、剪切或标记所述靶核酸基因座。
159.一种如实施方案34-35中任一项所述的方法,其中所述靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。
160.一种如实施方案36所述的方法,其中所述靶核酸包括基因组DNA、病毒DNA、病毒RNA或细菌DNA。
161.一种如实施方案34-37中任一项所述的方法,其中所述靶核酸基因座位于体外。
162.一种如实施方案34-37中任一项所述的方法,其中所述靶核酸基因座位于细胞内。
163.一种如实施方案39所述的方法,其中所述细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞或人细胞。
164.一种如实施方案39-40中任一项所述的方法,其中将所述工程化核酸酶系统递送至所述靶核酸基因座包括递送如实施方案135-22中任一项所述的核酸或如实施方案142-25中任一项所述的载体。
165.一种如实施方案39-40中任一项所述的方法,其中将所述工程化核酸酶系统递送至所述靶核酸基因座包括递送包含编码所述核酸内切酶的开放阅读框的核酸。
166.一种实施方案41所述的方法,其中所述核酸包含与编码所述核酸内切酶的所述开放阅读框可操作地连接的启动子。
167.一种如实施方案39-40中任一项所述的方法,其中将所述工程化核酸酶系统递送至所述靶核酸基因座包括递送含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA。
168.一种如实施方案39-40中任一项所述的方法,其中将所述工程化核酸酶系统递送至所述靶核酸基因座包括递送翻译的多肽。
169.一种如实施方案39-40中任一项所述的方法,其中将所述工程化核酸酶系统递送至所述靶核酸基因座包括递送脱氧核糖核酸(DNA),所述脱氧核糖核酸编码可操作地连接至核糖核酸(RNA)polIII启动子的所述工程化指导核糖核酸结构。
170.一种如实施方案34-46中任一项所述的方法,其中所述核酸内切酶在所述靶基因座处或其附近诱导单链断裂或双链断裂。
虽然本文已经示出和描述了本发明的优选实施方案,但是对于本领域的技术人员显而易见的是,这些实施方案仅作为示例提供。本发明不受说明书中提供的具体实施例的限制。虽然已经参考前述说明书描述了本发明,但是本文中的实施方案的描述和说明并不意味着以限制的意义来解释。在不脱离本发明的情况下,本领域的技术人员将想到许多变化、改变和替换。此外,应当理解,本发明的所有方面不限于本文所述的具体描述、配置或相对比例,其取决于各种条件和变量。应当理解,在实施本发明时可以采用本文所述的本发明实施方案的各种替代方案。因此,预期本发明还将涵盖任何此类替代、修改、变化或等效物。以下权利要求书旨在限定本发明的范围,并且这些权利要求书范围内的方法和结构及其等同物由此被涵盖。
Claims (104)
1.一种工程化核酸酶系统,其包含:
(a)核酸内切酶,其包含与SEQ ID NO:5718-5846或6257中任一项具有至少75%序列同一性的序列;以及
(b)被构造成与所述核酸内切酶形成复合物的工程化指导核糖核酸结构,其包含:
(i)被构造成与靶脱氧核糖核酸序列杂交的核糖核酸序列;以及
(ii)被构造成结合所述核酸内切酶的核糖核酸序列。
2.一种工程化核酸酶系统,其包含:
(a)被构造成结合包含SEQ ID NO:5847-5861或6258-6278的原间隔区相邻基序(PAM)序列的核酸内切酶,其中所述核酸内切酶是2类II型Cas核酸内切酶;以及
(b)被构造成与所述核酸内切酶形成复合物的工程化指导核糖核酸结构,其包含:
(i)被构造成与靶脱氧核糖核酸序列杂交的核糖核酸序列;以及
(ii)被构造成结合所述核酸内切酶的核糖核酸序列。
3.如权利要求1或2所述的工程化核酸酶系统,其中所述核酸内切酶来源于未经培养的微生物。
4.如权利要求1-3中任一项所述的工程化核酸酶系统,其中所述核酸内切酶未被工程化以结合不同的PAM序列。
5.如权利要求1-4中任一项所述的工程化核酸酶系统,其中所述核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas13d核酸内切酶。
6.如权利要求1-5中任一项所述的工程化核酸酶系统,其中所述核酸内切酶与Cas9核酸内切酶具有小于80%的同一性。
7.如权利要求1-6中任一项所述的工程化核酸酶系统,其中所述核糖核酸序列包含与(a)SEQ ID NO:5886-5887、5891、5893或5894中任一项;或(b)SEQ ID NO:5862-5885、5888-5890、5892、5895-5896或6279-6301中任一项的非简并核苷酸具有至少80%序列同一性的序列。
8.一种工程化核酸酶系统,其包含:
(a)工程化指导核糖核酸结构,其包含:
(i)被构造成与靶脱氧核糖核酸序列杂交的核糖核酸序列;以及
(ii)被构造成结合核酸内切酶的核糖核酸序列,
其中所述核糖核酸序列包含与(a)SEQ ID NO:5886-5887、5891、5893或5894中任一项;或(b)SEQ ID NO:5862-5885、5888-5890、5892、5895-5896或6279-6301中任一项的非简并核苷酸具有至少80%序列同一性的序列;以及
(b)被构造成结合所述工程化指导核糖核酸的2类II型Cas核酸内切酶。
9.如权利要求8所述的工程化核酸酶系统,其中所述核酸内切酶被构造成结合选自SEQID NO:5847-5861或6258-6278的原间隔区相邻基序(PAM)序列。
10.如权利要求8-9中任一项所述的工程化核酸酶系统,其中所述指导核糖核酸序列长度为15-24个核苷酸或19-24个核苷酸。
11.如权利要求1-10中任一项所述的工程化核酸酶系统,其中所述核酸内切酶包含邻近所述核酸内切酶的N-末端或C-末端的一个或多个核定位序列(NLS)。
12.如权利要求1-11中任一项所述的工程化核酸酶系统,其中所述NLS包含选自SEQ IDNO:5597-5612的序列。
13.如权利要求1-12中任一项所述的工程化核酸酶系统,还包含单链或双链DNA修复模板,其从5'至3'包含:第一同源臂,其包含所述靶脱氧核糖核酸序列5'的至少20个核苷酸的序列;至少10个核苷酸的合成DNA序列;以及第二同源臂,其包含所述靶序列3'的至少20个核苷酸的序列。
14.如权利要求13所述的工程化核酸酶系统,其中所述第一同源臂或第二同源臂包含至少40、80、120、150、200、300、500或1,000个核苷酸的序列。
15.如权利要求1-14中任一项所述的工程化核酸酶系统,其中所述序列同一性通过BLASTP、CLUSTALW、MUSCLE、MAFFT或CLUSTALW,使用Smith-Waterman同源性搜索算法的参数来确定。
16.如权利要求15所述的工程化核酸酶系统,其中所述序列同一性通过所述BLASTP同源性搜索算法来确定,所述BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数,以及将空位成本设定为存在为11、延伸为1并且使用条件组成得分矩阵调整的BLOSUM62打分矩阵。
17.一种工程化指导核糖核酸多核苷酸,其包含:
a)DNA靶向区段,其包含与靶DNA分子中的靶序列互补的核苷酸序列;以及
b)蛋白质结合区段,其包含杂交形成双链RNA(dsRNA)双链体的两个互补核苷酸段,
其中所述两个互补核苷酸段与居间核苷酸彼此共价连接,并且
其中所述工程化指导核糖核酸多核苷酸被构造成与包含与SEQ ID NO:5718-5846或6257中任一项具有至少75%序列同一性的序列的核酸内切酶形成复合物,并且将所述复合物靶向所述靶DNA分子的所述靶序列。
18.如权利要求17所述的工程化指导核糖核酸多核苷酸,其中所述DNA靶向区段位于所述两个互补核苷酸段的5'。
19.一种脱氧核糖核酸多核苷酸,其编码权利要求17-18中任一项所述的工程化指导核糖核酸多核苷酸或结构。
20.一种包含经优化用于在生物体中表达的工程化核酸序列的核酸,其中所述核酸编码核酸内切酶,其包含与SEQ ID NO:5718-5846或6257中任一项具有至少75%序列同一性的序列。
21.如权利要求20所述的核酸,其中所述核酸内切酶包含编码邻近所述核酸内切酶的N-末端或C-末端的一个或多个核定位序列(NLS)的序列。
22.如权利要求21所述的核酸,其中所述NLS包含选自SEQ IDNO:5597-5612的序列。
23.如权利要求20-22中任一项所述的核酸,其中所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人。
24.一种包含权利要求20-23中任一项所述的核酸的载体。
25.如权利要求24中任一项所述的载体,其还包含编码工程化指导核糖核酸结构的核酸,所述工程化指导核糖核酸结构被构造成与所述核酸内切酶形成复合物,所述复合物包含:
a)被构造成与靶脱氧核糖核酸序列杂交的核糖核酸序列;以及
b)被构造成结合所述核酸内切酶的核糖核酸序列。
26.如权利要求24-25中任一项所述的载体,其中所述载体是质粒、微环、CELiD、来源于腺相关病毒(AAV)的病毒粒子或慢病毒。
27.一种包含权利要求24-26中任一项所述的载体的细胞。
28.一种生产核酸内切酶的方法,包括培养权利要求27所述的细胞。
29.一种用于结合、剪切、标记或修饰双链脱氧核糖核酸多核苷酸的方法,包括:
使所述双链脱氧核糖核酸多核苷酸与2类II型Cas核酸内切酶接触,所述核酸内切酶与工程化指导核糖核酸结构复合,所述工程化指导核糖核酸结构被构造成结合所述核酸内切酶和所述双链脱氧核糖核酸多核苷酸;
其中所述双链脱氧核糖核酸多核苷酸包含原间隔区相邻基序(PAM);以及
其中所述PAM包含选自SEQ ID NO:5847-5861或6258-6278的序列。
30.如权利要求29所述的方法,其中所述双链脱氧核糖核酸多核苷酸包含第一链和第二链,其中所述第一链包含与所述工程化指导核糖核酸结构的序列互补的序列,且所述第二链包含所述PAM。
31.如权利要求30所述的方法,其中所述PAM直接邻近与所述工程化指导核糖核酸结构的所述序列互补的所述序列的3'端。
32.如权利要求29-31中任一项所述的方法,其中所述2类II型Cas核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas13d核酸内切酶。
33.如权利要求29-32中任一项所述的方法,其中所述双链脱氧核糖核酸多核苷酸是真核生物、植物、真菌、哺乳动物、啮齿动物或人双链脱氧核糖核酸多核苷酸。
34.一种修饰靶核酸基因座的方法,所述方法包括将权利要求1-16中任一项所述的工程化核酸酶系统递送至所述靶核酸基因座,其中所述核酸内切酶被构造成与所述工程化指导核糖核酸结构形成复合物,并且其中所述复合物被构造成使得在所述复合物与所述靶核酸基因座结合时,所述复合物修饰所述靶核酸基因座。
35.如权利要求34所述的方法,其中修饰所述靶核酸基因座包括结合、切刻、剪切或标记所述靶核酸基因座。
36.如权利要求34-35中任一项所述的方法,其中所述靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。
37.如权利要求36所述的方法,其中所述靶核酸包括基因组DNA、病毒DNA、病毒RNA或细菌DNA。
38.如权利要求34-37中任一项所述的方法,其中所述靶核酸基因座位于体外。
39.如权利要求34-37中任一项所述的方法,其中所述靶核酸基因座位于细胞内。
40.如权利要求39所述的方法,其中所述细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞或人细胞。
41.如权利要求34-40中任一项所述的方法,其中将所述工程化核酸酶系统递送至所述靶核酸基因座包括递送如权利要求20-23中任一项所述的核酸或如权利要求24-26中任一项所述的载体。
42.如权利要求34-40中任一项所述的方法,其中将所述工程化核酸酶系统递送至所述靶核酸基因座包括递送包含编码所述核酸内切酶的开放阅读框的核酸。
43.如权利要求41所述的方法,其中所述核酸包含与编码所述核酸内切酶的所述开放阅读框可操作地连接的启动子。
44.如权利要求34-41中任一项所述的方法,其中将所述工程化核酸酶系统递送至所述靶核酸基因座包括递送含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA。
45.如权利要求34-41中任一项所述的方法,其中将所述工程化核酸酶系统递送至所述靶核酸基因座包括递送翻译的多肽。
46.如权利要求34-41中任一项所述的方法,其中将所述工程化核酸酶系统递送至所述靶核酸基因座包括递送脱氧核糖核酸(DNA),所述脱氧核糖核酸编码可操作地连接至核糖核酸(RNA)polIII启动子的所述工程化指导核糖核酸结构。
47.如权利要求34-46中任一项所述的方法,其中所述核酸内切酶在所述靶基因座处或其附近诱导单链断裂或双链断裂。
48.一种编辑细胞中的TRAC基因座的方法,其包括使所述细胞接触
(a)RNA指导的核酸内切酶;以及
(b)工程化指导RNA,其中所述工程化指导RNA被构造成与所述核酸内切酶形成复合物,并且所述工程化指导RNA包含被构造成与所述TRAC基因座的区域杂交的间隔区序列,
其中所述工程化指导RNA包含与SEQ ID NO:5950-5958或5959-5965中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
49.如权利要求48所述的方法,其中所述RNA指导的核酸内切酶是II类II型Cas核酸内切酶。
50.如权利要求48或权利要求49所述的方法,其中所述RNA指导的核酸内切酶包含RuvCIII结构域,所述RuvCIII结构域包含与SEQ ID NO:2242或SEQ ID NO:2244具有至少75%同一性的序列。
51.如权利要求50所述的方法,其中所述RNA指导的核酸内切酶还包含HNH结构域。
52.如权利要求48-51中任一项所述的方法,其中所述RNA指导的核酸内切酶包含与SEQID NO:421或SEQ ID NO:423具有至少75%同一性的序列。
53.如权利要求48-52中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:5950-5958中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列,并且所述核酸内切酶包含与SEQ ID NO:421具有至少75%同一性的序列。
54.如权利要求48-52中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:5959-5965中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列,并且所述核酸内切酶包含与SEQ ID NO:423具有至少75%同一性的序列。
55.如权利要求48-52中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:5953-5957中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
56.如权利要求48-52中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:5960-5961或5963-5964中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
57.一种编辑细胞中的TRBC基因座的方法,其包括使所述细胞接触
(a)RNA指导的核酸内切酶;以及
(b)工程化指导RNA,其中所述工程化指导RNA被构造成与所述核酸内切酶形成复合物,并且所述工程化指导RNA包含被构造成与所述TRBC基因座的区域杂交的间隔区序列,
其中所述工程化指导RNA包含与SEQ ID NO:5966-6004或6005-6025中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
58.如权利要求57所述的方法,其中所述RNA指导的核酸内切酶是II类II型Cas核酸内切酶。
59.如权利要求57或权利要求58所述的方法,其中所述RNA指导的核酸内切酶包含RuvCIII结构域,所述RuvCIII结构域包含与SEQ ID NO:2242或SEQ ID NO:2244具有至少75%同一性的序列。
60.如权利要求59所述的方法,其中所述RNA指导的核酸内切酶还包含HNH结构域。
61.如权利要求57-60中任一项所述的方法,其中所述RNA指导的核酸内切酶包含与SEQID NO:421或SEQ ID NO:423具有至少75%同一性的序列。
62.如权利要求57-61中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:5966-6004中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列,并且所述核酸内切酶包含与SEQ ID NO:421具有至少75%同一性的序列。
63.如权利要求57-61中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:6005-6025中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列,并且所述核酸内切酶包含与SEQ ID NO:423具有至少75%同一性的序列。
64.如权利要求57-61中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:5970、5971、5983或5984中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
65.如权利要求57-61中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:6006、6010、6011或6012中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
66.一种编辑细胞中的GR(NR3C1)基因座的方法,其包括使所述细胞接触
(a)RNA指导的核酸内切酶;以及
(b)工程化指导RNA,其中所述工程化指导RNA被构造成与所述核酸内切酶形成复合物,并且所述工程化指导RNA包含被构造成与所述GR(NR3C1)基因座的区域杂交的间隔区序列,
其中所述工程化指导RNA包含与SEQ ID NO:6026-6090或6091-6121中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
67.如权利要求66所述的方法,其中所述RNA指导的核酸内切酶是II类II型Cas核酸内切酶。
68.如权利要求66或权利要求67所述的方法,其中所述RNA指导的核酸内切酶包含RuvCIII结构域,所述RuvCIII结构域包含与SEQ ID NO:2242或SEQ ID NO:2244具有至少75%同一性的序列。
69.如权利要求68所述的方法,其中所述RNA指导的核酸内切酶还包含HNH结构域。
70.如权利要求66-69中任一项所述的方法,其中所述RNA指导的核酸内切酶包含与SEQID NO:421或SEQ ID NO:423具有至少75%同一性的序列。
71.如权利要求66-70中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:6026-6090中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列,并且所述核酸内切酶包含与SEQ ID NO:421具有至少75%同一性的序列。
72.如权利要求66-70中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:6091-6121中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列,并且所述核酸内切酶包含与SEQ ID NO:423具有至少75%同一性的序列。
73.如权利要求66-70中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:6027-6028、6029、6038、6043、6049、6076、6080、6081或6086中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
74.如权利要求66-70中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:6092、6115或6119中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
75.一种编辑细胞中的AAVS1基因座的方法,其包括使所述细胞接触
(a)RNA指导的核酸内切酶;以及
(b)工程化指导RNA,其中所述工程化指导RNA被构造成与所述核酸内切酶形成复合物,并且所述工程化指导RNA包含被构造成与所述AAVS1基因座的区域杂交的间隔区序列,
其中所述工程化指导RNA包含与SEQ ID NO:6122-6152中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
76.如权利要求75所述的方法,其中所述RNA指导的核酸内切酶是2类II型Cas核酸内切酶。
77.如权利要求75或权利要求76所述的方法,其中所述RNA指导的核酸内切酶包含RuvCIII结构域,所述RuvCIII结构域包含与SEQ ID NO:2242或SEQ ID NO:2244具有至少75%同一性的序列。
78.如权利要求68所述的方法,其中所述RNA指导的核酸内切酶还包含HNH结构域。
79.如权利要求75-78中任一项所述的方法,其中所述RNA指导的核酸内切酶包含与SEQID NO:421或SEQ ID NO:423具有至少75%同一性的序列。
80.如权利要求75-79中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:6122、6125-6126、6128、6131、6133、6136、6141、6143或6148中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
81.一种编辑细胞中的TIGIT基因座的方法,其包括使所述细胞接触
(a)RNA指导的核酸内切酶;以及
(b)工程化指导RNA,其中所述工程化指导RNA被构造成与所述核酸内切酶形成复合物,并且所述工程化指导RNA包含被构造成与所述TIGIT基因座的区域杂交的间隔区序列,
其中所述工程化指导RNA包含与SEQ ID NO:6153-6181中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
82.如权利要求81所述的方法,其中所述RNA指导的核酸内切酶是II类II型Cas核酸内切酶。
83.如权利要求81或权利要求82所述的方法,其中所述RNA指导的核酸内切酶包含与SEQ ID NO:421或SEQ ID NO:423具有至少75%同一性的序列。
84.如权利要求81-83中任一项所述的方法,其中所述RNA指导的核酸内切酶包含RuvCIII结构域,所述RuvCIII结构域包含与SEQ ID NO:2242或SEQ ID NO:2244具有至少75%同一性的序列。
85.如权利要求84所述的方法,其中所述RNA指导的核酸内切酶还包含HNH结构域。
86.如权利要求81-85中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:66155、6159、616或6172中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
87.一种编辑细胞中的CD38基因座的方法,其包括使所述细胞接触
(a)RNA指导的核酸内切酶;以及
(b)工程化指导RNA,其中所述工程化指导RNA被构造成与所述核酸内切酶形成复合物,并且所述工程化指导RNA包含被构造成与所述CD38基因座的区域杂交的间隔区序列,
其中所述工程化指导RNA包含与SEQ ID NO:6182-6248或6249-6256中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
88.如权利要求87所述的方法,其中所述RNA指导的核酸内切酶是II类II型Cas核酸内切酶。
89.如权利要求87或88所述的方法,其中所述RNA指导的核酸内切酶包含RuvCIII结构域,所述RuvCIII结构域包含与SEQ ID NO:2242或SEQ ID NO:2244具有至少75%同一性的序列。
90.如权利要求89所述的方法,其中所述RNA指导的核酸内切酶还包含HNH结构域。
91.如权利要求87-90中任一项所述的方法,其中所述RNA指导的核酸内切酶包含与SEQID NO:421或SEQ ID NO:423具有至少75%同一性的序列。
92.如权利要求87-91中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:6182-6248中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列,并且所述核酸内切酶包含与SEQ ID NO:421具有至少75%同一性的序列。
93.如权利要求87-91中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:6249-6256中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列,并且所述核酸内切酶包含与SEQ ID NO:423具有至少75%同一性的序列。
94.如权利要求87-91中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:6182-6183、6189、6191、6208、6210、6211或6215中任一项的至少18个连续核苷酸具有至少85%同一性的靶向序列。
95.如权利要求87-91中任一项所述的方法,其中所述工程化指导RNA包含与SEQ IDNO:6251的至少18个连续核苷酸具有至少85%同一性的靶向序列。
96.如权利要求48-95中任一项所述的方法,其中所述细胞是外周血单核细胞、T细胞、NK细胞、造血干细胞(HSCT)或B细胞。
97.一种工程化指导核糖核酸多核苷酸,其包含:
a)DNA靶向区段,其包含与靶DNA分子中的靶序列互补的核苷酸序列;以及
b)蛋白质结合区段,其包含杂交形成双链RNA(dsRNA)双链体的两个互补核苷酸段,
其中所述两个互补核苷酸段与居间核苷酸彼此共价连接,并且
其中所述工程化指导核糖核酸多核苷酸被构造成与2类II型Cas核酸内切酶形成复合物,并且将所述复合物靶向所述靶DNA分子的所述靶序列,其中所述DNA靶向区段包含与SEQID NO:5950-5965、5966-6025、6026-6121、6122-6152、6153-6181或6182-6256中任一项具有至少85%同一性的序列。
98.如权利要求97所述的工程化指导核糖核酸多核苷酸,其中所述蛋白质结合区段包含与SEQ ID NO:5466或6304中任一项具有至少85%同一性的序列。
99.一种用于产生经编辑的免疫细胞的系统,其包含:
(a)RNA指导的核酸内切酶;
(b)根据权利要求97所述的工程化指导核糖核酸多核苷酸,其被构造成结合所述RNA指导的核酸内切酶;以及
(c)单链或双链DNA修复模板,其包含位于编码嵌合抗原受体(CAR)的序列侧翼的第一同源臂和第二同源臂。
100.如权利要求99所述的系统,其中所述细胞是外周血单核细胞、T细胞、NK细胞、造血干细胞(HSCT)或B细胞。
101.如权利要求99或100所述的系统,其中所述RNA指导的核酸内切酶是II类II型Cas核酸内切酶。
102.如权利要求99-101中任一项所述的方法,其中所述RNA指导的核酸内切酶包含RuvCIII结构域,所述RuvCIII结构域包含与SEQ ID NO:2242或SEQ ID NO:2244具有至少75%同一性的序列。
103.如权利要求102所述的方法,其中所述RNA指导的核酸内切酶还包含HNH结构域。
104.如权利要求99-103中任一项所述的方法,其中所述RNA指导的核酸内切酶包含与SEQ ID NO:421或SEQ ID NO:423具有至少75%同一性的序列。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063022320P | 2020-05-08 | 2020-05-08 | |
US63/022,320 | 2020-05-08 | ||
US202063032464P | 2020-05-29 | 2020-05-29 | |
US63/032,464 | 2020-05-29 | ||
US202063116155P | 2020-11-19 | 2020-11-19 | |
US63/116,155 | 2020-11-19 | ||
US202163180570P | 2021-04-27 | 2021-04-27 | |
US63/180,570 | 2021-04-27 | ||
PCT/US2021/031136 WO2021226363A1 (en) | 2020-05-08 | 2021-05-06 | Enzymes with ruvc domains |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116096892A true CN116096892A (zh) | 2023-05-09 |
Family
ID=78468763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180049158.6A Pending CN116096892A (zh) | 2020-05-08 | 2021-05-06 | 具有RuvC结构域的酶 |
Country Status (10)
Country | Link |
---|---|
US (1) | US20240209332A1 (zh) |
EP (1) | EP4146800A1 (zh) |
JP (1) | JP2023533417A (zh) |
KR (1) | KR20230021657A (zh) |
CN (1) | CN116096892A (zh) |
AU (1) | AU2021267379A1 (zh) |
CA (1) | CA3177828A1 (zh) |
GB (1) | GB2612458A (zh) |
MX (1) | MX2022014067A (zh) |
WO (1) | WO2021226363A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10982200B2 (en) | 2019-02-14 | 2021-04-20 | Metagenomi Ip Technologies, Llc | Enzymes with RuvC domains |
CA3174557A1 (en) | 2020-03-06 | 2021-09-10 | Metagenomi, Inc. | Class ii, type v crispr systems |
CN116096877A (zh) | 2020-03-31 | 2023-05-09 | 宏基因组学公司 | Ii类ii型crispr系统 |
AU2022210762A1 (en) * | 2021-01-22 | 2023-08-24 | Metagenomi, Inc. | Novel engineered and chimeric nucleases |
WO2023118349A1 (en) * | 2021-12-21 | 2023-06-29 | Alia Therapeutics Srl | Type ii cas proteins and applications thereof |
WO2023137451A1 (en) * | 2022-01-14 | 2023-07-20 | Arbor Biotechnologies, Inc. | Compositions comprising an rna guide targeting cd38 and uses thereof |
WO2023194359A1 (en) * | 2022-04-04 | 2023-10-12 | Alia Therapeutics Srl | Compositions and methods for treatment of usher syndrome type 2a |
WO2024056880A2 (en) * | 2022-09-16 | 2024-03-21 | Alia Therapeutics Srl | Enqp type ii cas proteins and applications thereof |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3617311A4 (en) * | 2017-03-30 | 2021-04-21 | Kyoto University | METHOD FOR THE INDUCTION OF EXON SKIPPING BY GENOME EDITIING |
US9982279B1 (en) * | 2017-06-23 | 2018-05-29 | Inscripta, Inc. | Nucleic acid-guided nucleases |
-
2021
- 2021-05-06 AU AU2021267379A patent/AU2021267379A1/en active Pending
- 2021-05-06 KR KR1020227042270A patent/KR20230021657A/ko active Search and Examination
- 2021-05-06 GB GB2217378.5A patent/GB2612458A/en active Pending
- 2021-05-06 CN CN202180049158.6A patent/CN116096892A/zh active Pending
- 2021-05-06 CA CA3177828A patent/CA3177828A1/en active Pending
- 2021-05-06 MX MX2022014067A patent/MX2022014067A/es unknown
- 2021-05-06 EP EP21800930.6A patent/EP4146800A1/en not_active Withdrawn
- 2021-05-06 JP JP2022567462A patent/JP2023533417A/ja active Pending
- 2021-05-06 WO PCT/US2021/031136 patent/WO2021226363A1/en active Application Filing
-
2022
- 2022-11-07 US US18/053,232 patent/US20240209332A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
MX2022014067A (es) | 2023-02-22 |
AU2021267379A1 (en) | 2022-12-08 |
JP2023533417A (ja) | 2023-08-03 |
WO2021226363A1 (en) | 2021-11-11 |
KR20230021657A (ko) | 2023-02-14 |
GB2612458A (en) | 2023-05-03 |
US20240209332A1 (en) | 2024-06-27 |
GB202217378D0 (en) | 2023-01-04 |
EP4146800A1 (en) | 2023-03-15 |
CA3177828A1 (en) | 2021-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2020223370B2 (en) | Enzymes with RuvC domains | |
US10913941B2 (en) | Enzymes with RuvC domains | |
CN116096892A (zh) | 具有RuvC结构域的酶 | |
US20240336905A1 (en) | Class ii, type v crispr systems | |
WO2020168234A1 (en) | Enzymes with ruvc domains | |
WO2021178934A1 (en) | Class ii, type v crispr systems | |
US20220220460A1 (en) | Enzymes with ruvc domains | |
EP4165177A1 (en) | Enzymes with ruvc domains | |
WO2023076952A1 (en) | Enzymes with hepn domains | |
WO2023039377A1 (en) | Class ii, type v crispr systems | |
GB2617659A (en) | Enzymes with RUVC domains | |
WO2023164590A2 (en) | Fusion proteins | |
EP4330386A2 (en) | Enzymes with ruvc domains |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |