CN117120607A - 工程化2类v型crispr系统 - Google Patents
工程化2类v型crispr系统 Download PDFInfo
- Publication number
- CN117120607A CN117120607A CN202180092530.1A CN202180092530A CN117120607A CN 117120607 A CN117120607 A CN 117120607A CN 202180092530 A CN202180092530 A CN 202180092530A CN 117120607 A CN117120607 A CN 117120607A
- Authority
- CN
- China
- Prior art keywords
- seq
- grna
- sequence
- fold
- cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108091033409 CRISPR Proteins 0.000 title claims description 124
- 238000010354 CRISPR gene editing Methods 0.000 title claims description 17
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 291
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 241
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 241
- 108020005004 Guide RNA Proteins 0.000 claims abstract description 137
- 238000000034 method Methods 0.000 claims abstract description 117
- 101710163270 Nuclease Proteins 0.000 claims abstract description 62
- 108090000623 proteins and genes Proteins 0.000 claims description 637
- 102000004169 proteins and genes Human genes 0.000 claims description 548
- 230000004048 modification Effects 0.000 claims description 173
- 238000012986 modification Methods 0.000 claims description 173
- 230000001976 improved effect Effects 0.000 claims description 156
- 102000004389 Ribonucleoproteins Human genes 0.000 claims description 151
- 108010081734 Ribonucleoproteins Proteins 0.000 claims description 151
- 230000001965 increasing effect Effects 0.000 claims description 150
- 230000000694 effects Effects 0.000 claims description 146
- 239000002773 nucleotide Substances 0.000 claims description 136
- 125000003729 nucleotide group Chemical group 0.000 claims description 135
- 210000004027 cell Anatomy 0.000 claims description 128
- 230000008685 targeting Effects 0.000 claims description 125
- 230000027455 binding Effects 0.000 claims description 124
- 238000009739 binding Methods 0.000 claims description 118
- 108020004414 DNA Proteins 0.000 claims description 107
- 238000003776 cleavage reaction Methods 0.000 claims description 104
- 230000007017 scission Effects 0.000 claims description 104
- 150000001413 amino acids Chemical class 0.000 claims description 92
- 230000037431 insertion Effects 0.000 claims description 91
- 238000003780 insertion Methods 0.000 claims description 91
- 238000010362 genome editing Methods 0.000 claims description 89
- 230000037430 deletion Effects 0.000 claims description 87
- 238000012217 deletion Methods 0.000 claims description 87
- 238000006467 substitution reaction Methods 0.000 claims description 73
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 63
- 239000013598 vector Substances 0.000 claims description 52
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 50
- 230000035772 mutation Effects 0.000 claims description 48
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 48
- 230000000295 complement effect Effects 0.000 claims description 46
- 125000006850 spacer group Chemical group 0.000 claims description 42
- 238000003556 assay Methods 0.000 claims description 32
- 238000000099 in vitro assay Methods 0.000 claims description 32
- 230000003197 catalytic effect Effects 0.000 claims description 31
- JTIJZYSPRDTGGH-UHFFFAOYSA-L disodium;2-nitro-5-sulfonatosulfanylbenzoate Chemical compound [Na+].[Na+].[O-]C(=O)C1=CC(SS([O-])(=O)=O)=CC=C1[N+]([O-])=O JTIJZYSPRDTGGH-UHFFFAOYSA-L 0.000 claims description 31
- 230000004927 fusion Effects 0.000 claims description 30
- 230000002829 reductive effect Effects 0.000 claims description 29
- 239000000203 mixture Substances 0.000 claims description 27
- 239000002245 particle Substances 0.000 claims description 21
- 201000003426 X-linked dystonia-parkinsonism Diseases 0.000 claims description 20
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 18
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 16
- 230000034994 death Effects 0.000 claims description 15
- 210000003527 eukaryotic cell Anatomy 0.000 claims description 15
- 230000006872 improvement Effects 0.000 claims description 14
- 238000000338 in vitro Methods 0.000 claims description 14
- 238000011068 loading method Methods 0.000 claims description 14
- 208000009869 Neu-Laxova syndrome Diseases 0.000 claims description 13
- 108010077850 Nuclear Localization Signals Proteins 0.000 claims description 13
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical class CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 claims description 13
- 201000010099 disease Diseases 0.000 claims description 11
- 239000003795 chemical substances by application Substances 0.000 claims description 10
- 239000003814 drug Substances 0.000 claims description 10
- 230000034431 double-strand break repair via homologous recombination Effects 0.000 claims description 8
- 238000001727 in vivo Methods 0.000 claims description 8
- 208000035475 disorder Diseases 0.000 claims description 7
- 230000005782 double-strand break Effects 0.000 claims description 7
- 238000003197 gene knockdown Methods 0.000 claims description 7
- 239000013612 plasmid Substances 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 7
- 108700028369 Alleles Proteins 0.000 claims description 6
- 239000000543 intermediate Substances 0.000 claims description 6
- 230000009438 off-target cleavage Effects 0.000 claims description 6
- 102000003886 Glycoproteins Human genes 0.000 claims description 5
- 108090000288 Glycoproteins Proteins 0.000 claims description 5
- 208000002352 blister Diseases 0.000 claims description 5
- 229940113082 thymine Drugs 0.000 claims description 5
- 239000004214 Fast Green FCF Substances 0.000 claims description 4
- 210000004369 blood Anatomy 0.000 claims description 4
- 239000008280 blood Substances 0.000 claims description 4
- 210000003979 eosinophil Anatomy 0.000 claims description 4
- 230000001747 exhibiting effect Effects 0.000 claims description 4
- 210000005260 human cell Anatomy 0.000 claims description 4
- 230000006780 non-homologous end joining Effects 0.000 claims description 4
- 238000012800 visualization Methods 0.000 claims description 4
- 108020004705 Codon Proteins 0.000 claims description 3
- 241000702421 Dependoparvovirus Species 0.000 claims description 3
- 101710170658 Endogenous retrovirus group K member 10 Gag polyprotein Proteins 0.000 claims description 3
- 101710186314 Endogenous retrovirus group K member 21 Gag polyprotein Proteins 0.000 claims description 3
- 101710162093 Endogenous retrovirus group K member 24 Gag polyprotein Proteins 0.000 claims description 3
- 101710094596 Endogenous retrovirus group K member 8 Gag polyprotein Proteins 0.000 claims description 3
- 101710177443 Endogenous retrovirus group K member 9 Gag polyprotein Proteins 0.000 claims description 3
- 101710177291 Gag polyprotein Proteins 0.000 claims description 3
- 101710203526 Integrase Proteins 0.000 claims description 3
- 206010028980 Neoplasm Diseases 0.000 claims description 3
- 241000283984 Rodentia Species 0.000 claims description 3
- 229910052799 carbon Inorganic materials 0.000 claims description 3
- 238000005304 joining Methods 0.000 claims description 3
- 210000001236 prokaryotic cell Anatomy 0.000 claims description 3
- 108091005804 Peptidases Proteins 0.000 claims description 2
- 239000004365 Protease Substances 0.000 claims description 2
- 102220514520 Vitronectin_T76E_mutation Human genes 0.000 claims description 2
- 102220364503 c.245T>C Human genes 0.000 claims description 2
- 102220354772 c.254G>T Human genes 0.000 claims description 2
- 201000011510 cancer Diseases 0.000 claims description 2
- 102200002392 rs2306986 Human genes 0.000 claims description 2
- 230000005783 single-strand break Effects 0.000 claims description 2
- 150000003384 small molecules Chemical class 0.000 claims description 2
- 102100035102 E3 ubiquitin-protein ligase MYCBP2 Human genes 0.000 claims 13
- 108700004025 env Genes Proteins 0.000 claims 7
- 210000000130 stem cell Anatomy 0.000 claims 7
- 229940122426 Nuclease inhibitor Drugs 0.000 claims 6
- 229940124158 Protease/peptidase inhibitor Drugs 0.000 claims 6
- 239000002502 liposome Substances 0.000 claims 6
- 239000000137 peptide hydrolase inhibitor Substances 0.000 claims 6
- 229940124597 therapeutic agent Drugs 0.000 claims 6
- 102200057225 rs771170000 Human genes 0.000 claims 4
- 102100037486 Reverse transcriptase/ribonuclease H Human genes 0.000 claims 3
- 230000000735 allogeneic effect Effects 0.000 claims 3
- 210000002950 fibroblast Anatomy 0.000 claims 3
- 210000003734 kidney Anatomy 0.000 claims 3
- 102200086445 rs16948986 Human genes 0.000 claims 3
- 239000013607 AAV vector Substances 0.000 claims 2
- 241001655883 Adeno-associated virus - 1 Species 0.000 claims 2
- 241000702423 Adeno-associated virus - 2 Species 0.000 claims 2
- 241000202702 Adeno-associated virus - 3 Species 0.000 claims 2
- 241000580270 Adeno-associated virus - 4 Species 0.000 claims 2
- 241001634120 Adeno-associated virus - 5 Species 0.000 claims 2
- 241000972680 Adeno-associated virus - 6 Species 0.000 claims 2
- 241001164823 Adeno-associated virus - 7 Species 0.000 claims 2
- 241001164825 Adeno-associated virus - 8 Species 0.000 claims 2
- 241000649045 Adeno-associated virus 10 Species 0.000 claims 2
- 108090000565 Capsid Proteins Proteins 0.000 claims 2
- 102100023321 Ceruloplasmin Human genes 0.000 claims 2
- 108060003393 Granulin Proteins 0.000 claims 2
- 108090001074 Nucleocapsid Proteins Proteins 0.000 claims 2
- 206010035226 Plasma cell myeloma Diseases 0.000 claims 2
- 241000288906 Primates Species 0.000 claims 2
- 241000700584 Simplexvirus Species 0.000 claims 2
- 210000002449 bone cell Anatomy 0.000 claims 2
- 210000004413 cardiac myocyte Anatomy 0.000 claims 2
- 210000002889 endothelial cell Anatomy 0.000 claims 2
- 230000001605 fetal effect Effects 0.000 claims 2
- 210000003958 hematopoietic stem cell Anatomy 0.000 claims 2
- 201000000050 myeloid neoplasm Diseases 0.000 claims 2
- 230000001177 retroviral effect Effects 0.000 claims 2
- 102220341259 rs1555341945 Human genes 0.000 claims 2
- 102200068690 rs281865204 Human genes 0.000 claims 2
- 241000649046 Adeno-associated virus 11 Species 0.000 claims 1
- 241000649047 Adeno-associated virus 12 Species 0.000 claims 1
- 102220617579 Cerebellin-3_K80A_mutation Human genes 0.000 claims 1
- 241000699800 Cricetinae Species 0.000 claims 1
- 241000699802 Cricetulus griseus Species 0.000 claims 1
- 102220641296 Juxtaposed with another zinc finger protein 1_K47P_mutation Human genes 0.000 claims 1
- 108010081143 P8 peptide Proteins 0.000 claims 1
- 101800004193 Peptide P3 Proteins 0.000 claims 1
- 101800001494 Protease 2A Proteins 0.000 claims 1
- 101800001066 Protein 2A Proteins 0.000 claims 1
- 101800001065 Protein 2B Proteins 0.000 claims 1
- 210000001744 T-lymphocyte Anatomy 0.000 claims 1
- 210000001789 adipocyte Anatomy 0.000 claims 1
- 210000004504 adult stem cell Anatomy 0.000 claims 1
- 210000003719 b-lymphocyte Anatomy 0.000 claims 1
- 210000001185 bone marrow Anatomy 0.000 claims 1
- 210000002798 bone marrow cell Anatomy 0.000 claims 1
- 102220402617 c.86A>G Human genes 0.000 claims 1
- 210000000803 cardiac myoblast Anatomy 0.000 claims 1
- 238000000423 cell based assay Methods 0.000 claims 1
- 239000002458 cell surface marker Substances 0.000 claims 1
- 210000001671 embryonic stem cell Anatomy 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 claims 1
- 210000002919 epithelial cell Anatomy 0.000 claims 1
- 210000004602 germ cell Anatomy 0.000 claims 1
- 108700026078 glutathione trisulfide Proteins 0.000 claims 1
- 210000002064 heart cell Anatomy 0.000 claims 1
- 210000004408 hybridoma Anatomy 0.000 claims 1
- 238000002513 implantation Methods 0.000 claims 1
- 210000004263 induced pluripotent stem cell Anatomy 0.000 claims 1
- 238000001802 infusion Methods 0.000 claims 1
- 238000002347 injection Methods 0.000 claims 1
- 239000007924 injection Substances 0.000 claims 1
- 210000005229 liver cell Anatomy 0.000 claims 1
- 210000002901 mesenchymal stem cell Anatomy 0.000 claims 1
- 210000005033 mesothelial cell Anatomy 0.000 claims 1
- 210000002894 multi-fate stem cell Anatomy 0.000 claims 1
- 210000000663 muscle cell Anatomy 0.000 claims 1
- 210000003098 myoblast Anatomy 0.000 claims 1
- 210000000651 myofibroblast Anatomy 0.000 claims 1
- 210000000822 natural killer cell Anatomy 0.000 claims 1
- 230000001537 neural effect Effects 0.000 claims 1
- 210000004498 neuroglial cell Anatomy 0.000 claims 1
- 210000002569 neuron Anatomy 0.000 claims 1
- 210000004248 oligodendroglia Anatomy 0.000 claims 1
- 210000000963 osteoblast Anatomy 0.000 claims 1
- 210000001672 ovary Anatomy 0.000 claims 1
- XZKAKQROJCKAOP-YWZUXTQFSA-N p20 peptide Chemical compound C([C@@H](C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCCCN)C(N)=O)NC(=O)CNC(=O)[C@H](CC(N)=O)NC(=O)[C@H](CC(N)=O)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CC=1C=CC(O)=CC=1)NC(=O)[C@H](CCC(O)=O)NC(=O)CNC(=O)[C@H](CCC(O)=O)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H](C)NC(=O)[C@H](CCC(O)=O)NC(=O)CNC(=O)[C@H](CCC(O)=O)NC(=O)[C@H](CC=1C=CC(O)=CC=1)NC(=O)[C@@H](NC(=O)CNC(=O)[C@H](C)N)C(C)C)C1=CC=CC=C1 XZKAKQROJCKAOP-YWZUXTQFSA-N 0.000 claims 1
- 210000004738 parenchymal cell Anatomy 0.000 claims 1
- 230000002207 retinal effect Effects 0.000 claims 1
- 102200080929 rs104894870 Human genes 0.000 claims 1
- 102220004477 rs121918668 Human genes 0.000 claims 1
- 102200149719 rs1303389437 Human genes 0.000 claims 1
- 102220278155 rs149010606 Human genes 0.000 claims 1
- 102200151154 rs386834188 Human genes 0.000 claims 1
- 102200049817 rs74626221 Human genes 0.000 claims 1
- 102220333970 rs759874234 Human genes 0.000 claims 1
- 102220143767 rs768012717 Human genes 0.000 claims 1
- 102220216497 rs782192817 Human genes 0.000 claims 1
- 210000002363 skeletal muscle cell Anatomy 0.000 claims 1
- 238000011269 treatment regimen Methods 0.000 claims 1
- 230000003612 virological effect Effects 0.000 claims 1
- 210000005253 yeast cell Anatomy 0.000 claims 1
- 235000018102 proteins Nutrition 0.000 description 525
- 235000001014 amino acid Nutrition 0.000 description 115
- 229940024606 amino acid Drugs 0.000 description 93
- 229920002477 rna polymer Polymers 0.000 description 75
- 102000004196 processed proteins & peptides Human genes 0.000 description 40
- 230000035897 transcription Effects 0.000 description 39
- 238000013518 transcription Methods 0.000 description 39
- 229920001184 polypeptide Polymers 0.000 description 38
- 239000012634 fragment Substances 0.000 description 32
- 108020001580 protein domains Proteins 0.000 description 32
- 102000053602 DNA Human genes 0.000 description 25
- 230000006870 function Effects 0.000 description 22
- -1 silencers Substances 0.000 description 22
- 108020001507 fusion proteins Proteins 0.000 description 20
- 102000037865 fusion proteins Human genes 0.000 description 20
- 102000040430 polynucleotide Human genes 0.000 description 19
- 108091033319 polynucleotide Proteins 0.000 description 19
- 239000002157 polynucleotide Substances 0.000 description 19
- 108091026890 Coding region Proteins 0.000 description 17
- 210000005266 circulating tumour cell Anatomy 0.000 description 16
- 239000000047 product Substances 0.000 description 16
- 238000011002 quantification Methods 0.000 description 16
- 230000001105 regulatory effect Effects 0.000 description 16
- 102000053642 Catalytic RNA Human genes 0.000 description 14
- 108090000994 Catalytic RNA Proteins 0.000 description 14
- 108091092562 ribozyme Proteins 0.000 description 14
- 125000000539 amino acid group Chemical group 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 12
- 230000014616 translation Effects 0.000 description 12
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 11
- 238000013519 translation Methods 0.000 description 11
- 108010033040 Histones Proteins 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 10
- 102000004190 Enzymes Human genes 0.000 description 9
- 108090000790 Enzymes Proteins 0.000 description 9
- 108091034117 Oligonucleotide Proteins 0.000 description 9
- 108020004682 Single-Stranded DNA Proteins 0.000 description 9
- 239000003623 enhancer Substances 0.000 description 9
- 230000002255 enzymatic effect Effects 0.000 description 9
- 238000005462 in vivo assay Methods 0.000 description 9
- 230000004936 stimulating effect Effects 0.000 description 9
- 239000004475 Arginine Substances 0.000 description 8
- 238000010453 CRISPR/Cas method Methods 0.000 description 8
- 102100036279 DNA (cytosine-5)-methyltransferase 1 Human genes 0.000 description 8
- 101000931098 Homo sapiens DNA (cytosine-5)-methyltransferase 1 Proteins 0.000 description 8
- 108060004795 Methyltransferase Proteins 0.000 description 8
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 8
- 239000012190 activator Substances 0.000 description 8
- 238000002703 mutagenesis Methods 0.000 description 8
- 231100000350 mutagenesis Toxicity 0.000 description 8
- 230000007115 recruitment Effects 0.000 description 8
- 102000003893 Histone acetyltransferases Human genes 0.000 description 7
- 108090000246 Histone acetyltransferases Proteins 0.000 description 7
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 7
- 235000009697 arginine Nutrition 0.000 description 7
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 125000005647 linker group Chemical group 0.000 description 7
- 230000001404 mediated effect Effects 0.000 description 7
- 238000003752 polymerase chain reaction Methods 0.000 description 7
- 238000011144 upstream manufacturing Methods 0.000 description 7
- 101710169336 5'-deoxyadenosine deaminase Proteins 0.000 description 6
- 102000055025 Adenosine deaminases Human genes 0.000 description 6
- 102000000311 Cytosine Deaminase Human genes 0.000 description 6
- 108010080611 Cytosine Deaminase Proteins 0.000 description 6
- 230000007018 DNA scission Effects 0.000 description 6
- 241000196324 Embryophyta Species 0.000 description 6
- 101000615488 Homo sapiens Methyl-CpG-binding domain protein 2 Proteins 0.000 description 6
- 108010021625 Immunoglobulin Fragments Proteins 0.000 description 6
- 102000008394 Immunoglobulin Fragments Human genes 0.000 description 6
- 102100034347 Integrase Human genes 0.000 description 6
- HNDVDQJCIGZPNO-YFKPBYRVSA-N L-histidine Chemical compound OC(=O)[C@@H](N)CC1=CN=CN1 HNDVDQJCIGZPNO-YFKPBYRVSA-N 0.000 description 6
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 6
- 239000004472 Lysine Substances 0.000 description 6
- 102100021299 Methyl-CpG-binding domain protein 2 Human genes 0.000 description 6
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 6
- 108091028113 Trans-activating crRNA Proteins 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 235000014304 histidine Nutrition 0.000 description 6
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 6
- 238000002334 isothermal calorimetry Methods 0.000 description 6
- 239000003446 ligand Substances 0.000 description 6
- 235000018977 lysine Nutrition 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 230000000717 retained effect Effects 0.000 description 6
- 235000004400 serine Nutrition 0.000 description 6
- 235000000346 sugar Nutrition 0.000 description 6
- 238000002198 surface plasmon resonance spectroscopy Methods 0.000 description 6
- 210000001519 tissue Anatomy 0.000 description 6
- 241001135761 Deltaproteobacteria Species 0.000 description 5
- 108010042407 Endonucleases Proteins 0.000 description 5
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 5
- 108010061833 Integrases Proteins 0.000 description 5
- ODKSFYDXXFIFQN-BYPYZUCNSA-P L-argininium(2+) Chemical compound NC(=[NH2+])NCCC[C@H]([NH3+])C(O)=O ODKSFYDXXFIFQN-BYPYZUCNSA-P 0.000 description 5
- KDXKERNSBIXSRK-YFKPBYRVSA-N L-lysine Chemical compound NCCCC[C@H](N)C(O)=O KDXKERNSBIXSRK-YFKPBYRVSA-N 0.000 description 5
- 102000016397 Methyltransferase Human genes 0.000 description 5
- 108700026244 Open Reading Frames Proteins 0.000 description 5
- 102000004316 Oxidoreductases Human genes 0.000 description 5
- 108090000854 Oxidoreductases Proteins 0.000 description 5
- 241000700605 Viruses Species 0.000 description 5
- 239000012636 effector Substances 0.000 description 5
- 238000002875 fluorescence polarization Methods 0.000 description 5
- 230000002209 hydrophobic effect Effects 0.000 description 5
- 230000002401 inhibitory effect Effects 0.000 description 5
- 230000011987 methylation Effects 0.000 description 5
- 238000007069 methylation reaction Methods 0.000 description 5
- 238000007481 next generation sequencing Methods 0.000 description 5
- 230000001124 posttranscriptional effect Effects 0.000 description 5
- 239000000758 substrate Substances 0.000 description 5
- 229940035893 uracil Drugs 0.000 description 5
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 4
- MTCFGRXMJLQNBG-REOHCLBHSA-N (2S)-2-Amino-3-hydroxypropansäure Chemical compound OC[C@H](N)C(O)=O MTCFGRXMJLQNBG-REOHCLBHSA-N 0.000 description 4
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 description 4
- 241001297342 Candidatus Sungbacteria Species 0.000 description 4
- 239000004215 Carbon black (E152) Substances 0.000 description 4
- YZCKVEUIGOORGS-OUBTZVSYSA-N Deuterium Chemical compound [2H] YZCKVEUIGOORGS-OUBTZVSYSA-N 0.000 description 4
- 102100031780 Endonuclease Human genes 0.000 description 4
- 241000724709 Hepatitis delta virus Species 0.000 description 4
- 102100022846 Histone acetyltransferase KAT2B Human genes 0.000 description 4
- 102100022893 Histone acetyltransferase KAT5 Human genes 0.000 description 4
- 102100033071 Histone acetyltransferase KAT6A Human genes 0.000 description 4
- 102100033070 Histone acetyltransferase KAT6B Human genes 0.000 description 4
- 102000006947 Histones Human genes 0.000 description 4
- 101001047006 Homo sapiens Histone acetyltransferase KAT2B Proteins 0.000 description 4
- 101000944179 Homo sapiens Histone acetyltransferase KAT6A Proteins 0.000 description 4
- 101001088879 Homo sapiens Lysine-specific demethylase 5D Proteins 0.000 description 4
- XUJNEKJLAYXESH-REOHCLBHSA-N L-Cysteine Chemical compound SC[C@H](N)C(O)=O XUJNEKJLAYXESH-REOHCLBHSA-N 0.000 description 4
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical compound OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 description 4
- ZDXPYRJPNDTMRX-VKHMYHEASA-N L-glutamine Chemical compound OC(=O)[C@@H](N)CCC(N)=O ZDXPYRJPNDTMRX-VKHMYHEASA-N 0.000 description 4
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 4
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 description 4
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 4
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 4
- 102100033247 Lysine-specific demethylase 5B Human genes 0.000 description 4
- 102100033143 Lysine-specific demethylase 5D Human genes 0.000 description 4
- 102000044126 RNA-Binding Proteins Human genes 0.000 description 4
- 108090000292 RNA-binding protein FUS Proteins 0.000 description 4
- 102000003890 RNA-binding protein FUS Human genes 0.000 description 4
- 108091028664 Ribonucleotide Proteins 0.000 description 4
- 108010003723 Single-Domain Antibodies Proteins 0.000 description 4
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 4
- 239000004473 Threonine Substances 0.000 description 4
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 4
- 239000000427 antigen Substances 0.000 description 4
- 108091007433 antigens Proteins 0.000 description 4
- 102000036639 antigens Human genes 0.000 description 4
- 235000009582 asparagine Nutrition 0.000 description 4
- 229960001230 asparagine Drugs 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000005520 cutting process Methods 0.000 description 4
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 4
- 235000018417 cysteine Nutrition 0.000 description 4
- 229910052805 deuterium Inorganic materials 0.000 description 4
- OVBPIULPVIDEAO-LBPRGKRZSA-N folic acid Chemical compound C=1N=C2NC(N)=NC(=O)C2=NC=1CNC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 OVBPIULPVIDEAO-LBPRGKRZSA-N 0.000 description 4
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 4
- 235000004554 glutamine Nutrition 0.000 description 4
- 229930195733 hydrocarbon Natural products 0.000 description 4
- 229960000310 isoleucine Drugs 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 229930182817 methionine Natural products 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 4
- 230000008488 polyadenylation Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- RXWNCPJZOCPEPQ-NVWDDTSBSA-N puromycin Chemical compound C1=CC(OC)=CC=C1C[C@H](N)C(=O)N[C@H]1[C@@H](O)[C@H](N2C3=NC=NC(=C3N=C2)N(C)C)O[C@@H]1CO RXWNCPJZOCPEPQ-NVWDDTSBSA-N 0.000 description 4
- 230000008439 repair process Effects 0.000 description 4
- 239000002336 ribonucleotide Substances 0.000 description 4
- 125000002652 ribonucleotide group Chemical group 0.000 description 4
- 230000001225 therapeutic effect Effects 0.000 description 4
- 235000008521 threonine Nutrition 0.000 description 4
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 4
- 235000002374 tyrosine Nutrition 0.000 description 4
- 239000004474 valine Substances 0.000 description 4
- 230000033616 DNA repair Effects 0.000 description 3
- 108010008532 Deoxyribonuclease I Proteins 0.000 description 3
- 102000007260 Deoxyribonuclease I Human genes 0.000 description 3
- 108060002716 Exonuclease Proteins 0.000 description 3
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 3
- 239000004471 Glycine Substances 0.000 description 3
- 208000037262 Hepatitis delta Diseases 0.000 description 3
- 108010014594 Heterogeneous Nuclear Ribonucleoprotein A1 Proteins 0.000 description 3
- 102000017013 Heterogeneous Nuclear Ribonucleoprotein A1 Human genes 0.000 description 3
- 108010074870 Histone Demethylases Proteins 0.000 description 3
- 102000008157 Histone Demethylases Human genes 0.000 description 3
- 102100021455 Histone deacetylase 3 Human genes 0.000 description 3
- 102100038715 Histone deacetylase 8 Human genes 0.000 description 3
- 101000899282 Homo sapiens Histone deacetylase 3 Proteins 0.000 description 3
- 101001032118 Homo sapiens Histone deacetylase 8 Proteins 0.000 description 3
- 101001088887 Homo sapiens Lysine-specific demethylase 5C Proteins 0.000 description 3
- 101000687346 Homo sapiens PR domain zinc finger protein 2 Proteins 0.000 description 3
- 241000725303 Human immunodeficiency virus Species 0.000 description 3
- 102100037924 Insulin-like growth factor 2 mRNA-binding protein 1 Human genes 0.000 description 3
- 108091092195 Intron Proteins 0.000 description 3
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 3
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 3
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 3
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 3
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 3
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 3
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 3
- 102100033249 Lysine-specific demethylase 5C Human genes 0.000 description 3
- 102100022913 NAD-dependent protein deacetylase sirtuin-2 Human genes 0.000 description 3
- 102100035402 Nuclear RNA export factor 1 Human genes 0.000 description 3
- 102100024885 PR domain zinc finger protein 2 Human genes 0.000 description 3
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 3
- 230000004570 RNA-binding Effects 0.000 description 3
- 102000018120 Recombinases Human genes 0.000 description 3
- 108010091086 Recombinases Proteins 0.000 description 3
- 108010041216 Sirtuin 2 Proteins 0.000 description 3
- 241000251131 Sphyrna Species 0.000 description 3
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 3
- 108700009124 Transcription Initiation Site Proteins 0.000 description 3
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 3
- 230000021736 acetylation Effects 0.000 description 3
- 238000006640 acetylation reaction Methods 0.000 description 3
- 102000005421 acetyltransferase Human genes 0.000 description 3
- 108020002494 acetyltransferase Proteins 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 235000003704 aspartic acid Nutrition 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 3
- 238000012219 cassette mutagenesis Methods 0.000 description 3
- 230000021615 conjugation Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 102000013165 exonuclease Human genes 0.000 description 3
- 239000013604 expression vector Substances 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 102000034287 fluorescent proteins Human genes 0.000 description 3
- 108091006047 fluorescent proteins Proteins 0.000 description 3
- 235000013922 glutamic acid Nutrition 0.000 description 3
- 239000004220 glutamic acid Substances 0.000 description 3
- 208000029570 hepatitis D virus infection Diseases 0.000 description 3
- 238000009396 hybridization Methods 0.000 description 3
- 239000003112 inhibitor Substances 0.000 description 3
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 108020004999 messenger RNA Proteins 0.000 description 3
- 229910052757 nitrogen Inorganic materials 0.000 description 3
- 238000012856 packing Methods 0.000 description 3
- 238000002708 random mutagenesis Methods 0.000 description 3
- 108010054624 red fluorescent protein Proteins 0.000 description 3
- 230000010076 replication Effects 0.000 description 3
- 102220285757 rs747302288 Human genes 0.000 description 3
- 238000010561 standard procedure Methods 0.000 description 3
- 229910052717 sulfur Inorganic materials 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 108091006106 transcriptional activators Proteins 0.000 description 3
- 238000011282 treatment Methods 0.000 description 3
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 2
- OVONXEQGWXGFJD-UHFFFAOYSA-N 4-sulfanylidene-1h-pyrimidin-2-one Chemical compound SC=1C=CNC(=O)N=1 OVONXEQGWXGFJD-UHFFFAOYSA-N 0.000 description 2
- 108020003589 5' Untranslated Regions Proteins 0.000 description 2
- RYVNIFSIEDRLSJ-UHFFFAOYSA-N 5-(hydroxymethyl)cytosine Chemical compound NC=1NC(=O)N=CC=1CO RYVNIFSIEDRLSJ-UHFFFAOYSA-N 0.000 description 2
- PEHVGBZKEYRQSX-UHFFFAOYSA-N 7-deaza-adenine Chemical compound NC1=NC=NC2=C1C=CN2 PEHVGBZKEYRQSX-UHFFFAOYSA-N 0.000 description 2
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 2
- 101710159080 Aconitate hydratase A Proteins 0.000 description 2
- 101710159078 Aconitate hydratase B Proteins 0.000 description 2
- 101100385358 Alicyclobacillus acidoterrestris (strain ATCC 49025 / DSM 3922 / CIP 106132 / NCIMB 13137 / GD3B) cas12b gene Proteins 0.000 description 2
- 101100219315 Arabidopsis thaliana CYP83A1 gene Proteins 0.000 description 2
- 101100331657 Arabidopsis thaliana DML2 gene Proteins 0.000 description 2
- 101100091498 Arabidopsis thaliana ROS1 gene Proteins 0.000 description 2
- 108090001008 Avidin Proteins 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 2
- 101150064551 DML1 gene Proteins 0.000 description 2
- 108010024491 DNA Methyltransferase 3A Proteins 0.000 description 2
- 108010024985 DNA methyltransferase 3B Proteins 0.000 description 2
- 230000008836 DNA modification Effects 0.000 description 2
- 230000004568 DNA-binding Effects 0.000 description 2
- 101150117307 DRM3 gene Proteins 0.000 description 2
- 101001095965 Dictyostelium discoideum Phospholipid-inositol phosphatase Proteins 0.000 description 2
- 108010028143 Dioxygenases Proteins 0.000 description 2
- 102000016680 Dioxygenases Human genes 0.000 description 2
- 101710091045 Envelope protein Proteins 0.000 description 2
- 102000002241 Eukaryotic Initiation Factors Human genes 0.000 description 2
- 108010014863 Eukaryotic Initiation Factors Proteins 0.000 description 2
- 108700028146 Genetic Enhancer Elements Proteins 0.000 description 2
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 2
- 108091005772 HDAC11 Proteins 0.000 description 2
- 108090001102 Hammerhead ribozyme Proteins 0.000 description 2
- 108010068250 Herpes Simplex Virus Protein Vmw65 Proteins 0.000 description 2
- 108010036115 Histone Methyltransferases Proteins 0.000 description 2
- 102000011787 Histone Methyltransferases Human genes 0.000 description 2
- 101710116149 Histone acetyltransferase KAT5 Proteins 0.000 description 2
- 102100038885 Histone acetyltransferase p300 Human genes 0.000 description 2
- 102100039996 Histone deacetylase 1 Human genes 0.000 description 2
- 102100039385 Histone deacetylase 11 Human genes 0.000 description 2
- 102100039999 Histone deacetylase 2 Human genes 0.000 description 2
- 102100021454 Histone deacetylase 4 Human genes 0.000 description 2
- 102100021453 Histone deacetylase 5 Human genes 0.000 description 2
- 102100038720 Histone deacetylase 9 Human genes 0.000 description 2
- 108010016918 Histone-Lysine N-Methyltransferase Proteins 0.000 description 2
- 102000000581 Histone-lysine N-methyltransferase Human genes 0.000 description 2
- 102100022103 Histone-lysine N-methyltransferase 2A Human genes 0.000 description 2
- 102100026265 Histone-lysine N-methyltransferase ASH1L Human genes 0.000 description 2
- 102100035042 Histone-lysine N-methyltransferase EHMT2 Human genes 0.000 description 2
- 102100029768 Histone-lysine N-methyltransferase SETD1A Human genes 0.000 description 2
- 102100030095 Histone-lysine N-methyltransferase SETD1B Human genes 0.000 description 2
- 102100029239 Histone-lysine N-methyltransferase, H3 lysine-36 specific Human genes 0.000 description 2
- 101000804879 Homo sapiens 5'-3' exoribonuclease 1 Proteins 0.000 description 2
- 101000901099 Homo sapiens Achaete-scute homolog 1 Proteins 0.000 description 2
- 101001046967 Homo sapiens Histone acetyltransferase KAT2A Proteins 0.000 description 2
- 101001046996 Homo sapiens Histone acetyltransferase KAT5 Proteins 0.000 description 2
- 101000944174 Homo sapiens Histone acetyltransferase KAT6B Proteins 0.000 description 2
- 101001035024 Homo sapiens Histone deacetylase 1 Proteins 0.000 description 2
- 101001035011 Homo sapiens Histone deacetylase 2 Proteins 0.000 description 2
- 101000899259 Homo sapiens Histone deacetylase 4 Proteins 0.000 description 2
- 101000899255 Homo sapiens Histone deacetylase 5 Proteins 0.000 description 2
- 101001045846 Homo sapiens Histone-lysine N-methyltransferase 2A Proteins 0.000 description 2
- 101000785963 Homo sapiens Histone-lysine N-methyltransferase ASH1L Proteins 0.000 description 2
- 101000877312 Homo sapiens Histone-lysine N-methyltransferase EHMT2 Proteins 0.000 description 2
- 101000865038 Homo sapiens Histone-lysine N-methyltransferase SETD1A Proteins 0.000 description 2
- 101000864672 Homo sapiens Histone-lysine N-methyltransferase SETD1B Proteins 0.000 description 2
- 101000634050 Homo sapiens Histone-lysine N-methyltransferase, H3 lysine-36 specific Proteins 0.000 description 2
- 101100019690 Homo sapiens KAT6B gene Proteins 0.000 description 2
- 101000613629 Homo sapiens Lysine-specific demethylase 4B Proteins 0.000 description 2
- 101001088893 Homo sapiens Lysine-specific demethylase 4C Proteins 0.000 description 2
- 101001088895 Homo sapiens Lysine-specific demethylase 4D Proteins 0.000 description 2
- 101001088883 Homo sapiens Lysine-specific demethylase 5B Proteins 0.000 description 2
- 101000653360 Homo sapiens Methylcytosine dioxygenase TET1 Proteins 0.000 description 2
- 101001017254 Homo sapiens Myb-binding protein 1A Proteins 0.000 description 2
- 101000738757 Homo sapiens Phosphatidylglycerophosphatase and protein-tyrosine phosphatase 1 Proteins 0.000 description 2
- 101000912957 Homo sapiens Protein DEK Proteins 0.000 description 2
- 101000686031 Homo sapiens Proto-oncogene tyrosine-protein kinase ROS Proteins 0.000 description 2
- 101000755643 Homo sapiens RIMS-binding protein 2 Proteins 0.000 description 2
- 101000579423 Homo sapiens Regulator of nonsense transcripts 1 Proteins 0.000 description 2
- 101000756365 Homo sapiens Retinol-binding protein 2 Proteins 0.000 description 2
- 101000596093 Homo sapiens Transcription initiation factor TFIID subunit 1 Proteins 0.000 description 2
- 102100034349 Integrase Human genes 0.000 description 2
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 2
- 102000003960 Ligases Human genes 0.000 description 2
- 108090000364 Ligases Proteins 0.000 description 2
- 102100040860 Lysine-specific demethylase 4B Human genes 0.000 description 2
- 102100033230 Lysine-specific demethylase 4C Human genes 0.000 description 2
- 102100033231 Lysine-specific demethylase 4D Human genes 0.000 description 2
- 102100033246 Lysine-specific demethylase 5A Human genes 0.000 description 2
- 101710105712 Lysine-specific demethylase 5B Proteins 0.000 description 2
- 241000124008 Mammalia Species 0.000 description 2
- 102100030819 Methylcytosine dioxygenase TET1 Human genes 0.000 description 2
- 101100269674 Mus musculus Alyref2 gene Proteins 0.000 description 2
- 102100034005 Myb-binding protein 1A Human genes 0.000 description 2
- OVBPIULPVIDEAO-UHFFFAOYSA-N N-Pteroyl-L-glutaminsaeure Natural products C=1N=C2NC(N)=NC(=O)C2=NC=1CNC1=CC=C(C(=O)NC(CCC(O)=O)C(O)=O)C=C1 OVBPIULPVIDEAO-UHFFFAOYSA-N 0.000 description 2
- 102100031455 NAD-dependent protein deacetylase sirtuin-1 Human genes 0.000 description 2
- 101710139195 Nuclear RNA export factor 1 Proteins 0.000 description 2
- 108090001145 Nuclear Receptor Coactivator 3 Proteins 0.000 description 2
- 102100022883 Nuclear receptor coactivator 3 Human genes 0.000 description 2
- 230000010718 Oxidation Activity Effects 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 229910019142 PO4 Inorganic materials 0.000 description 2
- 102000005877 Peptide Initiation Factors Human genes 0.000 description 2
- 108010044843 Peptide Initiation Factors Proteins 0.000 description 2
- 102000004160 Phosphoric Monoester Hydrolases Human genes 0.000 description 2
- 108090000608 Phosphoric Monoester Hydrolases Proteins 0.000 description 2
- 108091000080 Phosphotransferase Proteins 0.000 description 2
- 239000002202 Polyethylene glycol Substances 0.000 description 2
- 102100026113 Protein DEK Human genes 0.000 description 2
- 108010029485 Protein Isoforms Proteins 0.000 description 2
- 102000001708 Protein Isoforms Human genes 0.000 description 2
- 101710188315 Protein X Proteins 0.000 description 2
- 102100023347 Proto-oncogene tyrosine-protein kinase ROS Human genes 0.000 description 2
- 108091093078 Pyrimidine dimer Proteins 0.000 description 2
- 102000015097 RNA Splicing Factors Human genes 0.000 description 2
- 108010039259 RNA Splicing Factors Proteins 0.000 description 2
- 230000014632 RNA localization Effects 0.000 description 2
- 230000007022 RNA scission Effects 0.000 description 2
- 108700020471 RNA-Binding Proteins Proteins 0.000 description 2
- 101710105008 RNA-binding protein Proteins 0.000 description 2
- 241000700159 Rattus Species 0.000 description 2
- 102100028287 Regulator of nonsense transcripts 1 Human genes 0.000 description 2
- 102100040756 Rhodopsin Human genes 0.000 description 2
- 101100140580 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) REF2 gene Proteins 0.000 description 2
- 108010041191 Sirtuin 1 Proteins 0.000 description 2
- 108010090804 Streptavidin Proteins 0.000 description 2
- 108010022394 Threonine synthase Proteins 0.000 description 2
- 241000723677 Tobacco ringspot virus Species 0.000 description 2
- 102100035222 Transcription initiation factor TFIID subunit 1 Human genes 0.000 description 2
- 108020004566 Transfer RNA Proteins 0.000 description 2
- 108700019146 Transgenes Proteins 0.000 description 2
- 108010020764 Transposases Proteins 0.000 description 2
- 102000008579 Transposases Human genes 0.000 description 2
- 101150049278 US20 gene Proteins 0.000 description 2
- 102000006275 Ubiquitin-Protein Ligases Human genes 0.000 description 2
- 108010083111 Ubiquitin-Protein Ligases Proteins 0.000 description 2
- 108010003533 Viral Envelope Proteins Proteins 0.000 description 2
- 101000771024 Zea mays DNA (cytosine-5)-methyltransferase 1 Proteins 0.000 description 2
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 2
- DZBUGLKDJFMEHC-UHFFFAOYSA-N acridine Chemical compound C1=CC=CC2=CC3=CC=CC=C3N=C21 DZBUGLKDJFMEHC-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000006154 adenylylation Effects 0.000 description 2
- 235000004279 alanine Nutrition 0.000 description 2
- 230000029936 alkylation Effects 0.000 description 2
- 238000005804 alkylation reaction Methods 0.000 description 2
- 101150010487 are gene Proteins 0.000 description 2
- 125000003118 aryl group Chemical group 0.000 description 2
- 230000033590 base-excision repair Effects 0.000 description 2
- 238000010256 biochemical assay Methods 0.000 description 2
- 229960002685 biotin Drugs 0.000 description 2
- 235000020958 biotin Nutrition 0.000 description 2
- 239000011616 biotin Substances 0.000 description 2
- 239000006227 byproduct Substances 0.000 description 2
- 210000004899 c-terminal region Anatomy 0.000 description 2
- 102220349575 c.32G>A Human genes 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 108010031100 chloroplast transit peptides Proteins 0.000 description 2
- HISOCSRUFLPKDE-KLXQUTNESA-N cmt-2 Chemical compound C1=CC=C2[C@](O)(C)C3CC4C(N(C)C)C(O)=C(C#N)C(=O)[C@@]4(O)C(O)=C3C(=O)C2=C1O HISOCSRUFLPKDE-KLXQUTNESA-N 0.000 description 2
- 239000002299 complementary DNA Substances 0.000 description 2
- 230000009918 complex formation Effects 0.000 description 2
- 125000000151 cysteine group Chemical group N[C@@H](CS)C(=O)* 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 2
- 230000009615 deamination Effects 0.000 description 2
- 238000006481 deamination reaction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000017858 demethylation Effects 0.000 description 2
- 238000010520 demethylation reaction Methods 0.000 description 2
- 230000027832 depurination Effects 0.000 description 2
- 230000009504 deubiquitination Effects 0.000 description 2
- 102000004419 dihydrofolate reductase Human genes 0.000 description 2
- 238000007323 disproportionation reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000007850 fluorescent dye Substances 0.000 description 2
- 229960000304 folic acid Drugs 0.000 description 2
- 235000019152 folic acid Nutrition 0.000 description 2
- 239000011724 folic acid Substances 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000010353 genetic engineering Methods 0.000 description 2
- 208000006454 hepatitis Diseases 0.000 description 2
- 231100000283 hepatitis Toxicity 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- FDGQSTZJBFJUBT-UHFFFAOYSA-N hypoxanthine Chemical compound O=C1NC=NC2=C1NC=N2 FDGQSTZJBFJUBT-UHFFFAOYSA-N 0.000 description 2
- 239000003999 initiator Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- DRAVOWXCEBXPTN-UHFFFAOYSA-N isoguanine Chemical compound NC1=NC(=O)NC2=C1NC=N2 DRAVOWXCEBXPTN-UHFFFAOYSA-N 0.000 description 2
- 230000000155 isotopic effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 150000002632 lipids Chemical class 0.000 description 2
- 108010021853 m(5)C rRNA methyltransferase Proteins 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007498 myristoylation Effects 0.000 description 2
- 229920001542 oligosaccharide Polymers 0.000 description 2
- 150000002482 oligosaccharides Chemical class 0.000 description 2
- 235000021317 phosphate Nutrition 0.000 description 2
- 102000020233 phosphotransferase Human genes 0.000 description 2
- 229920001223 polyethylene glycol Polymers 0.000 description 2
- 102000054765 polymorphisms of proteins Human genes 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- YPFDHNVEDLHUCE-UHFFFAOYSA-N propane-1,3-diol Chemical compound OCCCO YPFDHNVEDLHUCE-UHFFFAOYSA-N 0.000 description 2
- 150000003212 purines Chemical class 0.000 description 2
- 229950010131 puromycin Drugs 0.000 description 2
- 239000013635 pyrimidine dimer Substances 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 102220278894 rs1221290124 Human genes 0.000 description 2
- 101150071322 ruvC gene Proteins 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 230000000087 stabilizing effect Effects 0.000 description 2
- 150000003431 steroids Chemical class 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- WYWHKKSPHMUBEB-UHFFFAOYSA-N tioguanine Chemical compound N1C(N)=NC(=S)C2=C1N=CN2 WYWHKKSPHMUBEB-UHFFFAOYSA-N 0.000 description 2
- 238000001890 transfection Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000014621 translational initiation Effects 0.000 description 2
- 230000005945 translocation Effects 0.000 description 2
- 230000010415 tropism Effects 0.000 description 2
- 239000003981 vehicle Substances 0.000 description 2
- 108700001624 vesicular stomatitis virus G Proteins 0.000 description 2
- 239000011782 vitamin Substances 0.000 description 2
- 235000013343 vitamin Nutrition 0.000 description 2
- 229940088594 vitamin Drugs 0.000 description 2
- 229930003231 vitamin Natural products 0.000 description 2
- BEJKOYIMCGMNRB-GRHHLOCNSA-N (2s)-2-amino-3-(4-hydroxyphenyl)propanoic acid;(2s)-2-amino-3-phenylpropanoic acid Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1.OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 BEJKOYIMCGMNRB-GRHHLOCNSA-N 0.000 description 1
- XQCZBXHVTFVIFE-UHFFFAOYSA-N 2-amino-4-hydroxypyrimidine Chemical compound NC1=NC=CC(O)=N1 XQCZBXHVTFVIFE-UHFFFAOYSA-N 0.000 description 1
- MWBWWFOAEOYUST-UHFFFAOYSA-N 2-aminopurine Chemical compound NC1=NC=C2N=CNC2=N1 MWBWWFOAEOYUST-UHFFFAOYSA-N 0.000 description 1
- 108020005345 3' Untranslated Regions Proteins 0.000 description 1
- WCKQPPQRFNHPRJ-UHFFFAOYSA-N 4-[[4-(dimethylamino)phenyl]diazenyl]benzoic acid Chemical compound C1=CC(N(C)C)=CC=C1N=NC1=CC=C(C(O)=O)C=C1 WCKQPPQRFNHPRJ-UHFFFAOYSA-N 0.000 description 1
- 102100036962 5'-3' exoribonuclease 1 Human genes 0.000 description 1
- UPJKSWLLCONYMW-UHFFFAOYSA-N 5'-Adenosine monophosphate Natural products COc1cc(O)c(C(=O)C)c(OC2OC(COC3OC(C)C(O)C(O)C3O)C(O)C(O)C2O)c1 UPJKSWLLCONYMW-UHFFFAOYSA-N 0.000 description 1
- UHPMCKVQTMMPCG-UHFFFAOYSA-N 5,8-dihydroxy-2-methoxy-6-methyl-7-(2-oxopropyl)naphthalene-1,4-dione Chemical compound CC1=C(CC(C)=O)C(O)=C2C(=O)C(OC)=CC(=O)C2=C1O UHPMCKVQTMMPCG-UHFFFAOYSA-N 0.000 description 1
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 description 1
- UJBCLAXPPIDQEE-UHFFFAOYSA-N 5-prop-1-ynyl-1h-pyrimidine-2,4-dione Chemical compound CC#CC1=CNC(=O)NC1=O UJBCLAXPPIDQEE-UHFFFAOYSA-N 0.000 description 1
- VOBFOFTXJVSVTJ-UHFFFAOYSA-N 5-prop-2-enyl-1h-pyrimidine-2,4-dione Chemical compound C=CCC1=CNC(=O)NC1=O VOBFOFTXJVSVTJ-UHFFFAOYSA-N 0.000 description 1
- 108020005075 5S Ribosomal RNA Proteins 0.000 description 1
- DCPSTSVLRXOYGS-UHFFFAOYSA-N 6-amino-1h-pyrimidine-2-thione Chemical compound NC1=CC=NC(S)=N1 DCPSTSVLRXOYGS-UHFFFAOYSA-N 0.000 description 1
- CZJGCEGNCSGRBI-UHFFFAOYSA-N 6-amino-5-ethyl-1h-pyrimidin-2-one Chemical compound CCC1=CNC(=O)N=C1N CZJGCEGNCSGRBI-UHFFFAOYSA-N 0.000 description 1
- QNNARSZPGNJZIX-UHFFFAOYSA-N 6-amino-5-prop-1-ynyl-1h-pyrimidin-2-one Chemical compound CC#CC1=CNC(=O)N=C1N QNNARSZPGNJZIX-UHFFFAOYSA-N 0.000 description 1
- 102220542309 60S ribosomal protein L27_Y29S_mutation Human genes 0.000 description 1
- LHCPRYRLDOSKHK-UHFFFAOYSA-N 7-deaza-8-aza-adenine Chemical compound NC1=NC=NC2=C1C=NN2 LHCPRYRLDOSKHK-UHFFFAOYSA-N 0.000 description 1
- LOSIULRWFAEMFL-UHFFFAOYSA-N 7-deazaguanine Chemical compound O=C1NC(N)=NC2=C1CC=N2 LOSIULRWFAEMFL-UHFFFAOYSA-N 0.000 description 1
- 229960005508 8-azaguanine Drugs 0.000 description 1
- MSSXOMSJDRHRMC-UHFFFAOYSA-N 9H-purine-2,6-diamine Chemical compound NC1=NC(N)=C2NC=NC2=N1 MSSXOMSJDRHRMC-UHFFFAOYSA-N 0.000 description 1
- 208000035657 Abasia Diseases 0.000 description 1
- 101000910050 Actinomyces naeslundii (strain ATCC 12104 / DSM 43013 / CCUG 2238 / JCM 8349 / NCTC 10301 / Howell 279) CRISPR-associated endonuclease Cas9 Proteins 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 102220614420 Adenosine deaminase_E75D_mutation Human genes 0.000 description 1
- 101710095342 Apolipoprotein B Proteins 0.000 description 1
- 102100040202 Apolipoprotein B-100 Human genes 0.000 description 1
- 101100011863 Arabidopsis thaliana ERD15 gene Proteins 0.000 description 1
- 101100137444 Arabidopsis thaliana PCMP-H40 gene Proteins 0.000 description 1
- 241000203069 Archaea Species 0.000 description 1
- 102000008682 Argonaute Proteins Human genes 0.000 description 1
- 108010088141 Argonaute Proteins Proteins 0.000 description 1
- BHELIUBJHYAEDK-OAIUPTLZSA-N Aspoxicillin Chemical compound C1([C@H](C(=O)N[C@@H]2C(N3[C@H](C(C)(C)S[C@@H]32)C(O)=O)=O)NC(=O)[C@H](N)CC(=O)NC)=CC=C(O)C=C1 BHELIUBJHYAEDK-OAIUPTLZSA-N 0.000 description 1
- 108091032955 Bacterial small RNA Proteins 0.000 description 1
- 102100026596 Bcl-2-like protein 1 Human genes 0.000 description 1
- 101500025162 Bos taurus Inter-alpha-trypsin inhibitor light chain Proteins 0.000 description 1
- 108091079001 CRISPR RNA Proteins 0.000 description 1
- 101100014712 Caenorhabditis elegans gld-2 gene Proteins 0.000 description 1
- 241000282832 Camelidae Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 101710132601 Capsid protein Proteins 0.000 description 1
- 108700004991 Cas12a Proteins 0.000 description 1
- 102000000844 Cell Surface Receptors Human genes 0.000 description 1
- 108010001857 Cell Surface Receptors Proteins 0.000 description 1
- 108010077544 Chromatin Proteins 0.000 description 1
- 108020004638 Circular DNA Proteins 0.000 description 1
- 102000011591 Cleavage And Polyadenylation Specificity Factor Human genes 0.000 description 1
- 108010076130 Cleavage And Polyadenylation Specificity Factor Proteins 0.000 description 1
- 102000005221 Cleavage Stimulation Factor Human genes 0.000 description 1
- 108010081236 Cleavage Stimulation Factor Proteins 0.000 description 1
- UDMBCSSLTHHNCD-UHFFFAOYSA-N Coenzym Q(11) Natural products C1=NC=2C(N)=NC=NC=2N1C1OC(COP(O)(O)=O)C(O)C1O UDMBCSSLTHHNCD-UHFFFAOYSA-N 0.000 description 1
- 102100026810 Cyclin-dependent kinase 7 Human genes 0.000 description 1
- 101710106276 Cyclin-dependent kinase 7 Proteins 0.000 description 1
- 102100031565 Cytidine and dCMP deaminase domain-containing protein 1 Human genes 0.000 description 1
- 108010031325 Cytidine deaminase Proteins 0.000 description 1
- 230000005778 DNA damage Effects 0.000 description 1
- 231100000277 DNA damage Toxicity 0.000 description 1
- 230000008265 DNA repair mechanism Effects 0.000 description 1
- 102000052510 DNA-Binding Proteins Human genes 0.000 description 1
- 101710096438 DNA-binding protein Proteins 0.000 description 1
- QOSSAOTZNIDXMA-UHFFFAOYSA-N Dicylcohexylcarbodiimide Chemical compound C1CCCCC1N=C=NC1CCCCC1 QOSSAOTZNIDXMA-UHFFFAOYSA-N 0.000 description 1
- LTMHDMANZUZIPE-AMTYYWEZSA-N Digoxin Natural products O([C@H]1[C@H](C)O[C@H](O[C@@H]2C[C@@H]3[C@@](C)([C@@H]4[C@H]([C@]5(O)[C@](C)([C@H](O)C4)[C@H](C4=CC(=O)OC4)CC5)CC3)CC2)C[C@@H]1O)[C@H]1O[C@H](C)[C@@H](O[C@H]2O[C@@H](C)[C@H](O)[C@@H](O)C2)[C@@H](O)C1 LTMHDMANZUZIPE-AMTYYWEZSA-N 0.000 description 1
- 102220480613 Dimethylglycine dehydrogenase, mitochondrial_L41A_mutation Human genes 0.000 description 1
- 206010059866 Drug resistance Diseases 0.000 description 1
- 102100032049 E3 ubiquitin-protein ligase LRSAM1 Human genes 0.000 description 1
- 101150068427 EP300 gene Proteins 0.000 description 1
- 102100038132 Endogenous retrovirus group K member 6 Pro protein Human genes 0.000 description 1
- 102000004533 Endonucleases Human genes 0.000 description 1
- 108010022894 Euchromatin Proteins 0.000 description 1
- 102000012858 Eukaryotic Initiation Factor-4G Human genes 0.000 description 1
- 108010057192 Eukaryotic Initiation Factor-4G Proteins 0.000 description 1
- 101710091919 Eukaryotic translation initiation factor 4G Proteins 0.000 description 1
- 108091029865 Exogenous DNA Proteins 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 241000223218 Fusarium Species 0.000 description 1
- 108010008945 General Transcription Factors Proteins 0.000 description 1
- 102000006580 General Transcription Factors Human genes 0.000 description 1
- 108010014458 Gin recombinase Proteins 0.000 description 1
- 108010043121 Green Fluorescent Proteins Proteins 0.000 description 1
- 102000004144 Green Fluorescent Proteins Human genes 0.000 description 1
- 101150010036 HNT3 gene Proteins 0.000 description 1
- 108091027305 Heteroduplex Proteins 0.000 description 1
- 101710155878 Histone acetyltransferase p300 Proteins 0.000 description 1
- 102000003964 Histone deacetylase Human genes 0.000 description 1
- 108090000353 Histone deacetylase Proteins 0.000 description 1
- 102100027770 Histone-lysine N-methyltransferase KMT5B Human genes 0.000 description 1
- 102100023696 Histone-lysine N-methyltransferase SETDB1 Human genes 0.000 description 1
- 101710168120 Histone-lysine N-methyltransferase SETDB1 Proteins 0.000 description 1
- 102100028988 Histone-lysine N-methyltransferase SUV39H2 Human genes 0.000 description 1
- 102100039489 Histone-lysine N-methyltransferase, H3 lysine-79 specific Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101001032113 Homo sapiens Histone deacetylase 7 Proteins 0.000 description 1
- 101001032092 Homo sapiens Histone deacetylase 9 Proteins 0.000 description 1
- 101001008821 Homo sapiens Histone-lysine N-methyltransferase KMT5B Proteins 0.000 description 1
- 101000696699 Homo sapiens Histone-lysine N-methyltransferase SUV39H2 Proteins 0.000 description 1
- 101000963360 Homo sapiens Histone-lysine N-methyltransferase, H3 lysine-79 specific Proteins 0.000 description 1
- 101000599778 Homo sapiens Insulin-like growth factor 2 mRNA-binding protein 1 Proteins 0.000 description 1
- 101001025971 Homo sapiens Lysine-specific demethylase 6B Proteins 0.000 description 1
- 101001050886 Homo sapiens Lysine-specific histone demethylase 1A Proteins 0.000 description 1
- 101000988591 Homo sapiens Minor histocompatibility antigen H13 Proteins 0.000 description 1
- 101000708645 Homo sapiens N-lysine methyltransferase SMYD2 Proteins 0.000 description 1
- 101000864039 Homo sapiens Nonsense-mediated mRNA decay factor SMG5 Proteins 0.000 description 1
- 101000597417 Homo sapiens Nuclear RNA export factor 1 Proteins 0.000 description 1
- 101000602926 Homo sapiens Nuclear receptor coactivator 1 Proteins 0.000 description 1
- 101001120260 Homo sapiens Polyadenylate-binding protein 1 Proteins 0.000 description 1
- 101000651467 Homo sapiens Proto-oncogene tyrosine-protein kinase Src Proteins 0.000 description 1
- 101000687317 Homo sapiens RNA-binding motif protein, X chromosome Proteins 0.000 description 1
- 101000964436 Homo sapiens Z-DNA-binding protein 1 Proteins 0.000 description 1
- 101000818735 Homo sapiens Zinc finger protein 10 Proteins 0.000 description 1
- 241000713772 Human immunodeficiency virus 1 Species 0.000 description 1
- 102000004157 Hydrolases Human genes 0.000 description 1
- 108090000604 Hydrolases Proteins 0.000 description 1
- 241000223290 Hypherpes complex Species 0.000 description 1
- UGQMRVRMYYASKQ-UHFFFAOYSA-N Hypoxanthine nucleoside Natural products OC1C(O)C(CO)OC1N1C(NC=NC2=O)=C2N=C1 UGQMRVRMYYASKQ-UHFFFAOYSA-N 0.000 description 1
- 101710126181 Insulin-like growth factor 2 mRNA-binding protein 1 Proteins 0.000 description 1
- 108091029795 Intergenic region Proteins 0.000 description 1
- 108020004684 Internal Ribosome Entry Sites Proteins 0.000 description 1
- 101150018389 Kdm3a gene Proteins 0.000 description 1
- 108010021101 Lamin Type B Proteins 0.000 description 1
- 108010047294 Lamins Proteins 0.000 description 1
- 102000000717 Lysine methyltransferases Human genes 0.000 description 1
- 108050008120 Lysine methyltransferases Proteins 0.000 description 1
- 102100040581 Lysine-specific demethylase 3A Human genes 0.000 description 1
- 102100037461 Lysine-specific demethylase 6B Human genes 0.000 description 1
- 102100024985 Lysine-specific histone demethylase 1A Human genes 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699660 Mus musculus Species 0.000 description 1
- 101100350375 Mus musculus Rho gene Proteins 0.000 description 1
- 101000663223 Mus musculus Serine/arginine-rich splicing factor 1 Proteins 0.000 description 1
- 101100046352 Mus musculus Tjap1 gene Proteins 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- NQTADLQHYWFPDB-UHFFFAOYSA-N N-Hydroxysuccinimide Chemical compound ON1C(=O)CCC1=O NQTADLQHYWFPDB-UHFFFAOYSA-N 0.000 description 1
- 102100032806 N-lysine methyltransferase SMYD2 Human genes 0.000 description 1
- 102100029940 Nonsense-mediated mRNA decay factor SMG5 Human genes 0.000 description 1
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 102220479495 Pantetheinase_K11T_mutation Human genes 0.000 description 1
- 102000004861 Phosphoric Diester Hydrolases Human genes 0.000 description 1
- 108090001050 Phosphoric Diester Hydrolases Proteins 0.000 description 1
- 241001180199 Planctomycetes Species 0.000 description 1
- 102100024380 Poly(A) RNA polymerase GLD2 Human genes 0.000 description 1
- 101710091450 Poly(A) RNA polymerase GLD2 Proteins 0.000 description 1
- 101710124239 Poly(A) polymerase Proteins 0.000 description 1
- 102100026090 Polyadenylate-binding protein 1 Human genes 0.000 description 1
- 102100033073 Polypyrimidine tract-binding protein 1 Human genes 0.000 description 1
- 101710132817 Polypyrimidine tract-binding protein 1 Proteins 0.000 description 1
- 102100026531 Prelamin-A/C Human genes 0.000 description 1
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 description 1
- 102100027384 Proto-oncogene tyrosine-protein kinase Src Human genes 0.000 description 1
- 241000635201 Pumilus Species 0.000 description 1
- 108091034057 RNA (poly(A)) Proteins 0.000 description 1
- 108020005067 RNA Splice Sites Proteins 0.000 description 1
- 238000010357 RNA editing Methods 0.000 description 1
- 230000026279 RNA modification Effects 0.000 description 1
- 102100024939 RNA-binding motif protein, X chromosome Human genes 0.000 description 1
- 102100039691 RNA-binding protein 8A Human genes 0.000 description 1
- 101710203082 RNA-binding protein 8A Proteins 0.000 description 1
- 101000599776 Rattus norvegicus Insulin-like growth factor 2 mRNA-binding protein 1 Proteins 0.000 description 1
- 108020004511 Recombinant DNA Proteins 0.000 description 1
- 102000007056 Recombinant Fusion Proteins Human genes 0.000 description 1
- 108010008281 Recombinant Fusion Proteins Proteins 0.000 description 1
- 102100021087 Regulator of nonsense transcripts 2 Human genes 0.000 description 1
- 108700008625 Reporter Genes Proteins 0.000 description 1
- 108010034634 Repressor Proteins Proteins 0.000 description 1
- 102000009661 Repressor Proteins Human genes 0.000 description 1
- 102220637987 Retinol-binding protein 1_K41L_mutation Human genes 0.000 description 1
- 108010057163 Ribonuclease III Proteins 0.000 description 1
- 102000003661 Ribonuclease III Human genes 0.000 description 1
- 101100191082 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GLC7 gene Proteins 0.000 description 1
- 101100274406 Schizosaccharomyces pombe (strain 972 / ATCC 24843) cid1 gene Proteins 0.000 description 1
- 101100433523 Schizosaccharomyces pombe (strain 972 / ATCC 24843) pab1 gene Proteins 0.000 description 1
- 102000011990 Sirtuin Human genes 0.000 description 1
- 108050002485 Sirtuin Proteins 0.000 description 1
- 102100038020 Speckle targeted PIP5K1A-regulated poly(A) polymerase Human genes 0.000 description 1
- 101710140499 Speckle targeted PIP5K1A-regulated poly(A) polymerase Proteins 0.000 description 1
- PFNFFQXMRSDOHW-UHFFFAOYSA-N Spermine Natural products NCCCNCCCCNCCCN PFNFFQXMRSDOHW-UHFFFAOYSA-N 0.000 description 1
- 108091081024 Start codon Proteins 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 1
- 108700026226 TATA Box Proteins 0.000 description 1
- 108091036066 Three prime untranslated region Proteins 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 102220581386 Transcription factor E2F6_L68E_mutation Human genes 0.000 description 1
- 101710195626 Transcriptional activator protein Proteins 0.000 description 1
- 241000223259 Trichoderma Species 0.000 description 1
- 108010082433 UDP-glucose-hexose-1-phosphate uridylyltransferase Proteins 0.000 description 1
- 101710028540 UPF2 Proteins 0.000 description 1
- 108010003535 UTP-RNA uridylyltransferase Proteins 0.000 description 1
- 101100406776 Xenopus laevis pabpc1-a gene Proteins 0.000 description 1
- 102100040310 Z-DNA-binding protein 1 Human genes 0.000 description 1
- 101710181770 Z-DNA-binding protein 1 Proteins 0.000 description 1
- 102100021112 Zinc finger protein 10 Human genes 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000000370 acceptor Substances 0.000 description 1
- 230000002378 acidificating effect Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 239000011543 agarose gel Substances 0.000 description 1
- 101150084233 ago2 gene Proteins 0.000 description 1
- 125000001931 aliphatic group Chemical group 0.000 description 1
- 150000001336 alkenes Chemical class 0.000 description 1
- 150000001345 alkine derivatives Chemical class 0.000 description 1
- 125000000217 alkyl group Chemical group 0.000 description 1
- 125000005600 alkyl phosphonate group Chemical group 0.000 description 1
- 125000003368 amide group Chemical group 0.000 description 1
- 150000001408 amides Chemical class 0.000 description 1
- 150000001412 amines Chemical class 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 235000010208 anthocyanin Nutrition 0.000 description 1
- 239000004410 anthocyanin Substances 0.000 description 1
- 229930002877 anthocyanin Natural products 0.000 description 1
- 150000004636 anthocyanins Chemical class 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 125000004429 atom Chemical group 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 239000003124 biologic agent Substances 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 238000006664 bond formation reaction Methods 0.000 description 1
- UORVGPXVDQYIDP-BJUDXGSMSA-N borane Chemical compound [10BH3] UORVGPXVDQYIDP-BJUDXGSMSA-N 0.000 description 1
- 229910000085 borane Inorganic materials 0.000 description 1
- 210000000234 capsid Anatomy 0.000 description 1
- 125000003917 carbamoyl group Chemical group [H]N([H])C(*)=O 0.000 description 1
- 125000002915 carbonyl group Chemical group [*:2]C([*:1])=O 0.000 description 1
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 1
- 101150059443 cas12a gene Proteins 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 108020001778 catalytic domains Proteins 0.000 description 1
- 101150059448 cdk7 gene Proteins 0.000 description 1
- 230000034303 cell budding Effects 0.000 description 1
- 239000002771 cell marker Substances 0.000 description 1
- 230000007073 chemical hydrolysis Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000003483 chromatin Anatomy 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000536 complexating effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 102000003675 cytokine receptors Human genes 0.000 description 1
- 108010057085 cytokine receptors Proteins 0.000 description 1
- 230000000254 damaging effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000022811 deglycosylation Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006114 demyristoylation Effects 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000368 destabilizing effect Effects 0.000 description 1
- 230000029180 desumoylation Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- LTMHDMANZUZIPE-PUGKRICDSA-N digoxin Chemical compound C1[C@H](O)[C@H](O)[C@@H](C)O[C@H]1O[C@@H]1[C@@H](C)O[C@@H](O[C@@H]2[C@H](O[C@@H](O[C@@H]3C[C@@H]4[C@]([C@@H]5[C@H]([C@]6(CC[C@@H]([C@@]6(C)[C@H](O)C5)C=5COC(=O)C=5)O)CC4)(C)CC3)C[C@@H]2O)C)C[C@@H]1O LTMHDMANZUZIPE-PUGKRICDSA-N 0.000 description 1
- 229960005156 digoxin Drugs 0.000 description 1
- LTMHDMANZUZIPE-UHFFFAOYSA-N digoxine Natural products C1C(O)C(O)C(C)OC1OC1C(C)OC(OC2C(OC(OC3CC4C(C5C(C6(CCC(C6(C)C(O)C5)C=5COC(=O)C=5)O)CC4)(C)CC3)CC2O)C)CC1O LTMHDMANZUZIPE-UHFFFAOYSA-N 0.000 description 1
- 238000010494 dissociation reaction Methods 0.000 description 1
- 230000005593 dissociations Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000012361 double-strand break repair Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000000975 dye Substances 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 238000009710 electro sinter forging Methods 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- JOZGNYDSEBIJDH-UHFFFAOYSA-N eniluracil Chemical compound O=C1NC=C(C#C)C(=O)N1 JOZGNYDSEBIJDH-UHFFFAOYSA-N 0.000 description 1
- 230000007071 enzymatic hydrolysis Effects 0.000 description 1
- 238000006047 enzymatic hydrolysis reaction Methods 0.000 description 1
- 230000004049 epigenetic modification Effects 0.000 description 1
- QTTMOCOWZLSYSV-QWAPEVOJSA-M equilin sodium sulfate Chemical compound [Na+].[O-]S(=O)(=O)OC1=CC=C2[C@H]3CC[C@](C)(C(CC4)=O)[C@@H]4C3=CCC2=C1 QTTMOCOWZLSYSV-QWAPEVOJSA-M 0.000 description 1
- 230000008029 eradication Effects 0.000 description 1
- 210000000632 euchromatin Anatomy 0.000 description 1
- GNBHRKFJIUUOQI-UHFFFAOYSA-N fluorescein Chemical compound O1C(=O)C2=CC=CC=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 GNBHRKFJIUUOQI-UHFFFAOYSA-N 0.000 description 1
- 238000001943 fluorescence-activated cell sorting Methods 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 238000001415 gene therapy Methods 0.000 description 1
- 238000009650 gentamicin protection assay Methods 0.000 description 1
- 125000003630 glycyl group Chemical group [H]N([H])C([H])([H])C(*)=O 0.000 description 1
- 239000005090 green fluorescent protein Substances 0.000 description 1
- 229910052736 halogen Inorganic materials 0.000 description 1
- 150000002367 halogens Chemical class 0.000 description 1
- 125000005842 heteroatom Chemical group 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000006460 hydrolysis reaction Methods 0.000 description 1
- 230000005661 hydrophobic surface Effects 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 230000005965 immune activity Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 108091006086 inhibitor proteins Proteins 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000012212 insulator Substances 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 125000002346 iodo group Chemical group I* 0.000 description 1
- 150000002540 isothiocyanates Chemical class 0.000 description 1
- 210000005053 lamin Anatomy 0.000 description 1
- 238000002865 local sequence alignment Methods 0.000 description 1
- 210000004962 mammalian cell Anatomy 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 125000001360 methionine group Chemical group N[C@@H](CCSC)C(=O)* 0.000 description 1
- 125000000956 methoxy group Chemical group [H]C([H])([H])O* 0.000 description 1
- 108091005601 modified peptides Proteins 0.000 description 1
- 238000010369 molecular cloning Methods 0.000 description 1
- 230000000869 mutational effect Effects 0.000 description 1
- 210000005155 neural progenitor cell Anatomy 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 230000030147 nuclear export Effects 0.000 description 1
- 108091008104 nucleic acid aptamers Proteins 0.000 description 1
- 239000002777 nucleoside Substances 0.000 description 1
- 150000003833 nucleoside derivatives Chemical class 0.000 description 1
- 230000009437 off-target effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000008194 pharmaceutical composition Substances 0.000 description 1
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 1
- 239000010452 phosphate Substances 0.000 description 1
- 150000004713 phosphodiesters Chemical class 0.000 description 1
- UEZVMMHDMIWARA-UHFFFAOYSA-M phosphonate Chemical compound [O-]P(=O)=O UEZVMMHDMIWARA-UHFFFAOYSA-M 0.000 description 1
- XUYJLQHKOGNDPB-UHFFFAOYSA-N phosphonoacetic acid Chemical compound OC(=O)CP(O)(O)=O XUYJLQHKOGNDPB-UHFFFAOYSA-N 0.000 description 1
- ZJAOAACCNHFJAH-UHFFFAOYSA-N phosphonoformic acid Chemical compound OC(=O)P(O)(O)=O ZJAOAACCNHFJAH-UHFFFAOYSA-N 0.000 description 1
- LFGREXWGYUGZLY-UHFFFAOYSA-N phosphoryl Chemical group [P]=O LFGREXWGYUGZLY-UHFFFAOYSA-N 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 230000004481 post-translational protein modification Effects 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 230000037452 priming Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000069 prophylactic effect Effects 0.000 description 1
- 230000004952 protein activity Effects 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 238000001814 protein method Methods 0.000 description 1
- 230000017854 proteolysis Effects 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 230000008263 repair mechanism Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- PYWVYCXTNDRMGF-UHFFFAOYSA-N rhodamine B Chemical compound [Cl-].C=12C=CC(=[N+](CC)CC)C=C2OC2=CC(N(CC)CC)=CC=C2C=1C1=CC=CC=C1C(O)=O PYWVYCXTNDRMGF-UHFFFAOYSA-N 0.000 description 1
- 108020004418 ribosomal RNA Proteins 0.000 description 1
- 102220197841 rs1057519729 Human genes 0.000 description 1
- 102220133209 rs147559626 Human genes 0.000 description 1
- 102220285814 rs1555570421 Human genes 0.000 description 1
- 102220046348 rs200632093 Human genes 0.000 description 1
- 102200082934 rs35474880 Human genes 0.000 description 1
- 102220223774 rs375605948 Human genes 0.000 description 1
- 102220005204 rs63750783 Human genes 0.000 description 1
- 102220097830 rs757411357 Human genes 0.000 description 1
- 102220058659 rs767802663 Human genes 0.000 description 1
- 102220098139 rs878852992 Human genes 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 230000003584 silencer Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 230000009870 specific binding Effects 0.000 description 1
- 229940063675 spermine Drugs 0.000 description 1
- 238000009987 spinning Methods 0.000 description 1
- 150000008163 sugars Chemical class 0.000 description 1
- 125000000475 sulfinyl group Chemical group [*:2]S([*:1])=O 0.000 description 1
- 239000011593 sulfur Substances 0.000 description 1
- 230000010741 sumoylation Effects 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 108010066587 tRNA Methyltransferases Proteins 0.000 description 1
- 102000018477 tRNA Methyltransferases Human genes 0.000 description 1
- 108091035539 telomere Proteins 0.000 description 1
- 102000055501 telomere Human genes 0.000 description 1
- 210000003411 telomere Anatomy 0.000 description 1
- 238000011191 terminal modification Methods 0.000 description 1
- 231100001274 therapeutic index Toxicity 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 125000002813 thiocarbonyl group Chemical group *C(*)=S 0.000 description 1
- 125000003396 thiol group Chemical group [H]S* 0.000 description 1
- 150000003573 thiols Chemical class 0.000 description 1
- RYYWUUFWQRZTIU-UHFFFAOYSA-K thiophosphate Chemical compound [O-]P([O-])([O-])=S RYYWUUFWQRZTIU-UHFFFAOYSA-K 0.000 description 1
- 229960003087 tioguanine Drugs 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 108091006107 transcriptional repressors Proteins 0.000 description 1
- 238000011830 transgenic mouse model Methods 0.000 description 1
- 230000032258 transport Effects 0.000 description 1
- UORVGPXVDQYIDP-UHFFFAOYSA-N trihydridoboron Substances B UORVGPXVDQYIDP-UHFFFAOYSA-N 0.000 description 1
- 210000000623 ulna Anatomy 0.000 description 1
- 241001478277 uncultured delta proteobacterium Species 0.000 description 1
- 239000013603 viral vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 150000003722 vitamin derivatives Chemical class 0.000 description 1
Landscapes
- Peptides Or Proteins (AREA)
Abstract
本文提供了可用于编辑靶核酸的工程化2类V型核酸酶和向导RNA。还提供了制备和使用此类变体修饰核酸的方法。
Description
相关申请的交叉引用
本申请要求提交于2020年12月3日的美国临时专利申请号63/121,196;提交于2021年3月17日的美国临时专利申请号63/162,346;提交于2021年6月9日的美国临时专利申请号63/208,855的优先权,这些美国临时专利申请中的每一者的内容以引用方式整体并入本文。
以引用方式并入序列表
以电子方式提交的文本文件的内容以引用方式整体并入本文:序列表的计算机可读格式拷贝(文件名:SCRB_031_03WO_SeqList_ST25,记录日期:2021年12月1日,文件大小5.61兆字节)。
背景技术
细菌和古细菌的CRISPR-Cas系统赋予一种形式的针对噬菌体和病毒的获得性免疫。过去十年的深入研究已经揭示了这些系统的生物化学原理。CRISPR-Cas系统由Cas蛋白和CRISPR阵列组成,Cas蛋白参与外源DNA或RNA的获取、靶向和切割,CRISPR阵列包括将Cas蛋白引导至其靶标的短间隔区序列侧翼的直接重复。2类CRISPR-Cas是流线型形式,其中与RNA结合的单个Cas蛋白负责与靶向序列的结合和切割。这些最小系统的可编程性质促进了它们作为使基因组操作领域变革的通用技术的使用。
迄今为止,仅发现了几个广泛使用的2类CRISPR/Cas系统。其中,V型的独特之处在于,它们利用单个统一的RuvC样内切核酸酶(RuvC)结构域,该结构域识别与Cas9识别的3'PAM序列不同的5'PAM序列,并在靶核酸中形成具有5、7或10nt 5'突起部的交错切割(Yang等人,PAM-dependent target DNA recognition and cleavage by C2c1 CRISPR-Casendonuclease,Cell,第167卷:第1814页,2016年)。然而,V型野生型Cas和向导序列具有低编辑效率。因此,本领域需要另外的2类V型CRISPR/Cas系统(例如,Cas蛋白加向导RNA的组合),其已经被优化和/或提供优于早代系统的改善,以用于多种治疗、诊断和研究应用中。
发明内容
本公开涉及用于修饰真核细胞中的基因的靶核酸的向导核糖核酸(gRNA)、工程化2类V型CRISPR蛋白以及工程化2类V型CRISPR蛋白和向导核糖核酸(gRNA)的系统。在一些实施方案中,本公开提供了包含相对于参考CasX的结构域的一个或多个修饰的工程化2类V型蛋白,并且与SEQ ID NO:2的参考CasX蛋白相比表现出一种或多种改善的特征。在其它实施方案中,本公开提供了CasX变体蛋白的工程化序列变体,诸如CasX 491(SEQ ID NO:336)或CasX 515(SEQ ID NO:416),其中2类V型蛋白相对于CasX变体的结构域包含至少一个修饰,并且与CasX变体蛋白相比表现出一种或多种改善的特征。在一些实施方案中,2类V型变体能够与向导核糖核酸(gRNA)形成复合物,其中该复合物能够结合并切割靶核酸,其中该靶核酸包含非靶链和靶链。
在一些实施方案中,本公开提供了能够结合2类V型变体蛋白的向导核糖核酸(gRNA),包括单向导组合物,其中与SEQ ID NO:2238或SEQ ID NO:2239的gRNA相比,该gRNA在区域中包含至少一个修饰。在一些实施方案中,gRNA的支架的经修饰的区域包括:(a)延伸茎环;(b)支架茎环;(c)三链体;和(d)假结。在一些情况下,变体gRNA的支架延伸茎还包含对泡的修饰。在其它情况下,gRNA的支架还包含对三链体环区域的修饰。在其它情况下,变体gRNA的支架还在延伸茎中包含异源RNA,包括发夹序列。
在一些实施方案中,本公开提供了包含本文所述的任何实施方案的工程化2类V型蛋白和gRNA变体的基因编辑对,其中与包含SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白和SEQ ID NO:4或SEQ ID NO:5的gRNA的基因编辑对相比,该基因编辑对表现出至少一种改善的特征。在具体实施方案中,工程化2类V型蛋白包含选自如表3所示的SEQ IDNO:247-592和1147-1231的序列的序列,或与其具有至少约85%、至少约90%、或至少约95%、或至少约95%、或至少约96%、或至少约97%、或至少约98%、或至少约99%序列同一性的序列,并且gRNA是选自如表2所示的SEQ ID NO:2101-2332和2353-2398的序列的序列,或与其具有至少约85%、至少约90%、或至少约95%、或至少约95%、或至少约96%、或至少约97%、或至少约98%、或至少约99%序列同一性的序列。在具体实施方案中,工程化2类V型蛋白包含选自SEQ ID NO:270-592和1147-1231的序列的序列,或与其具有至少约85%、至少约90%、或至少约95%、或至少约95%、或至少约96%、或至少约97%、或至少约98%、或至少约99%序列同一性的序列,并且gRNA是选自SEQ ID NO:2238-2332和2353-2398的序列的序列,或与其具有至少约85%、至少约90%、或至少约95%、或至少约95%、或至少约96%、或至少约97%、或至少约98%、或至少约99%序列同一性的序列。在具体实施方案中,工程化2类V型蛋白包含选自SEQ ID NO:415-592和1147-1231的序列的序列,或与其具有至少约85%、至少约90%、或至少约95%、或至少约95%、或至少约96%、或至少约97%、或至少约98%、或至少约99%序列同一性的序列,并且gRNA是选自SEQ ID NO:2281-2332和2353-2398的序列的序列,或与其具有至少约85%、至少约90%、或至少约95%、或至少约95%、或至少约96%、或至少约97%、或至少约98%、或至少约99%序列同一性的序列。
在一些实施方案中,本公开提供了编码本文所述的工程化2类V型变体蛋白、gRNA变体和基因编辑对的多核苷酸和载体。在一些实施方案中,载体是病毒载体,诸如腺相关病毒(AAV)载体。在其它实施方案中,载体是称为XDP的CasX递送颗粒,其包含基因编辑对的RNP。
在一些实施方案中,本公开提供了包含本文所述的多核苷酸、载体、工程化2类V型蛋白和gRNA的细胞。在其它实施方案中,本公开提供了包含通过本文所述的编辑实施方案的方法编辑的靶核酸的细胞。
在一些实施方案中,本公开提供了包含本文所述的多核苷酸、载体、工程化2类V型蛋白、gRNA和基因编辑对的试剂盒。
在一些实施方案中,本公开提供了编辑靶核酸的方法,这些方法包括使靶核酸与本文所述的2类V型蛋白和gRNA变体接触,其中该接触导致对靶核酸进行编辑或修饰。
在一些实施方案中,本公开提供了在细胞群中编辑靶核酸的方法,包括使细胞与一个或多个本文所述的基因编辑对接触,其中所述接触导致对细胞群中靶核酸进行编辑或修饰。
在其它实施方案中,本公开提供了治疗对其有需要的受试者的方法,这些方法包括施用基因编辑对或包含或编码本文所述的任何实施方案的基因编辑对的载体。
在另一个方面,本文提供了用作药物的基因编辑对、包含基因编辑对的组合物或者包含或编码基因编辑对的载体。
在另一个方面,本文提供了用于治疗方法中的基因编辑对、包含基因编辑对的组合物或者包含或编码基因编辑对的载体,其中该方法包括编辑或修饰靶核酸;任选地,其中编辑发生在基因的等位基因中具有突变的受试者中,其中该突变引起受试者的疾病或障碍,优选地其中该编辑将该突变改变为该基因的野生型等位基因或者敲低或敲除引起受试者的疾病或障碍的基因的等位基因。
以引用方式并入
本说明书中提及的所有出版物、专利和专利申请以引用方式并入本文,其程度如同每个单独的出版物、专利或专利申请被具体地且单独地指示以引用方式并入。公开CasX变体和gRNA变体以及递送它们的方法的WO 2020/247882、WO 2020/247883和WO 2021/113772的内容以引用方式整体并入本文。
附图说明
在所附权利要求中具体阐述了本发明的新颖特征。通过参考以下详细描述和附图将获得对本发明的特征和优点的更好理解,该详细描述阐述了其中利用了本发明的原理的说明性实施方案,在附图中:
图1是由sgRNA174(SEQ ID NO:2238)和CasX变体119、457、488和491形成的RNP的活性比例的定量测定结果的图,如实施例8中所述。对应于sgRNA和CasX变体的序列分别提供于表2和表3中。将等摩尔量的RNP和靶共孵育,并在指定时间点测定切割的靶的量。示出了每个时间点的三次独立重复的平均值和标准偏差。示出了组合重复的双相拟合。“2”是指SEQ ID NO:2的参考CasX蛋白。
图2示出了由CasX2(SEQ ID NO:2的参考CasX蛋白)和经修饰的sgRNA形成的RNP的活性比例的定量,如实施例8中所述。将等摩尔量的RNP和靶共孵育,并在指定时间点测定切割的靶的量。示出了每个时间点的三次独立重复的平均值和标准偏差。示出了组合重复的双相拟合。
图3示出了在向导物限制条件下由CasX 491和经修饰的sgRNA形成的RNP的活性比例的定量,如实施例8中所述。将等摩尔量的RNP和靶共孵育,并在指定时间点测定切割的靶的量。示出了数据的双相拟合。
图4示出了由sgRNA174和CasX变体形成的RNP的切割速率的定量,如实施例8中所述。将靶DNA与20倍过量的指定RNP一起孵育,并在指定时间点测定切割的靶的量。除了示出了单个重复的488和491之外,还示出了每个时间点的三次独立重复的平均值和标准偏差。示出了组合重复的单相拟合。
图5示出了由CasX2和sgRNA变体形成的RNP的切割速率的定量,如实施例8中所述。将靶DNA与20倍过量的指定RNP一起孵育,并在指定时间点测定切割的靶的量。示出了每个时间点的三次独立重复的平均值和标准偏差。示出了组合重复的单相拟合。
图6示出了由CasX2和sgRNA变体形成的RNP的初始速度的定量,如实施例8中所述。将先前切割实验的前两个时间点用线性模型拟合以确定初始切割速度。
图7示出了由CasX491和sgRNA变体形成的RNP的切割速率的定量,如实施例8中所述。将靶DNA与20倍过量的指定RNP在10℃下一起孵育,并在指定时间点测定切割的靶的量。示出了时间点的单相拟合。
图8示出了在使用等摩尔量的指定RNP和互补靶的情况下,相比于与gRNA 2复合的参考CasX 2的RNP,与gRNA变体174复合的CasX变体515和526的RNP的有切割能力的比例的定量,如实施例8中所述。示出了每个时间过程或一组组合重复的双相拟合。
图9示出了在使用20倍过量的指定RNP的情况下,相比于与gRNA 2复合的参考CasX2的RNP,与gRNA变体174复合的CasX变体515和526的RNP的切割速率的定量,如实施例8中所述。
图10A示出了CasX变体在TTC PAM上的切割速率的定量,如实施例5中所述。将具有相同间隔区和指定PAM序列的靶DNA底物与20倍过量的指定RNP在37℃下一起孵育,并在指定时间点测定切割的靶的量。示出了单个重复的单相拟合。
图10B示出了CasX变体在CTC PAM上的切割速率的定量,如实施例5中所述。将具有相同间隔区和指定PAM序列的靶DNA底物与20倍过量的指定RNP在37℃下一起孵育,并在指定时间点测定切割的靶的量。示出了单个重复的单相拟合。
图10C示出了CasX变体在GTC PAM上的切割速率的定量,如实施例5中所述。将具有相同间隔区和指定PAM序列的靶DNA底物与20倍过量的指定RNP在37℃下一起孵育,并在指定时间点测定切割的靶的量。示出了单个重复的单相拟合。
图10D示出了CasX变体在ATC PAM上的切割速率的定量,如实施例5中所述。将具有相同间隔区和指定PAM序列的靶DNA底物与20倍过量的指定RNP在37℃下一起孵育,并在指定时间点测定切割的靶的量。示出了单个重复的单相拟合。
图11A示出了CasX变体491和向导物174的RNP在NTC PAM上的切割速率的定量,如实施例5中所述。在2分钟的过程中获取时间点,并将切割的比例对每个靶和时间点作图,但为了清楚起见仅示出了该时间过程的前两分钟。
图11B示出了CasX变体491和向导物174的RNP在NTT PAM上的切割速率的定量,如实施例5中所述。在10分钟的过程中获取时间点,并将切割的比例对每个靶和时间点作图。
图12A示出了在使用长度为18、19或20个核苷酸的间隔区的情况下,由sgRNA174和CasX变体515形成的RNP切割的定量,如实施例9中所述。将靶DNA与20倍过量的指定RNP一起孵育,并在指定时间点测定切割的靶的量。示出了每个时间点的三次独立重复的平均值和标准偏差。示出了组合重复的单相拟合。
图12B示出了在使用长度为18、19或20个核苷酸的间隔区的情况下,由sgRNA174和CasX变体526形成的RNP切割的定量,如实施例9中所述。将靶DNA与20倍过量的指定RNP一起孵育,并在指定时间点测定切割的靶的量。示出了每个时间点的三次独立重复的平均值和标准偏差。示出了组合重复的单相拟合。
图13是示出了用于在腺相关病毒(AAV)中包装的CasX蛋白和支架DNA序列的示例的示意图。在AAV生产期间,由编码CasX的DNA及其启动子和编码支架的DNA及其启动子组成的AAV反向末端重复序列(ITR)之间的DNA片段被包装在AAV衣壳内。
图14示出了在分离自Ai9-tdtomato转基因小鼠的小鼠神经祖细胞(mNPC)中将gRNA支架229-237与支架174进行比较的编辑测定结果,如实施例21中所述。细胞用指定剂量的p59质粒进行核转染,这些质粒编码CasX 491、支架和靶向mRHO的间隔区11.30(5'AAGGGGCUCCGCACCACGCC 3',SEQ ID NO:17)。转染后5天通过NGS评估mRHO基因座处的编辑,并且表明与具有支架174的构建体相比,具有支架230、231、234和235的构建体的编辑在两种剂量下都表现出较大的编辑。
图15示出了将gRNA支架229-237与mNPC细胞中的支架174进行比较的编辑测定结果,如实施例21中所述。细胞用指定剂量的p59质粒进行核转染,这些质粒编码CasX 491、支架和靶向重复元件的间隔区12.7(5'CUGCAUUCUAGUUGUGGUUU 3',SEQ ID NO:1146),这些重复元件阻止tdTomato荧光蛋白的表达。转染后5天通过FACS评估编辑,以定量tdTomato阳性细胞的比例。与具有支架174的构建体相比,用支架231-235进行核转染的细胞在高剂量下表现出大约35%的较大编辑,并且在低剂量下表现出大约25%的较大编辑。
图16是示出使用深度突变进化(DME)制备本公开的CasX蛋白和向导RNA变体的示例性方法的图。在一些示例性实施方案中,DME建立并测试生物分子及其组合/多重中几乎每种可能的突变、插入和缺失,并且提供对生物分子的适应度景观和序列空间中朝向期望结果的路径的接近全面且无偏的评估。如本文所述,DME可应用于CasX蛋白和向导RNA两者。
图17A描述了δ-变形菌纲(Deltaproteobacteria)CasX蛋白:sgRNA RNP复合物的CryoEM结构(PDB id:6YN2),包括两个茎环、假结和三链体,如实施例13中所述。
图17B描述了SEQ ID NO:4的sgRNA的二级结构,其使用RNAPDBee 2.0(rnapdbee.cs.put.poznan.pl/,使用3DNA/DSSR并使用VARNA可视化工具)从(A)中所示的结构鉴定。指示了RNA区域。在PDB晶体结构文件中不明显的残基用纯文本字母指示(即,未圈出),并且不包括在残基编号中。
图18是用于设计支架文库的向导RNA的区域和结构域的示意图,如实施例13中所述。
图19是支架文库的相对分布和设计的饼图,其中指示了非偏突变(双突变和单突变)和靶向突变(朝向三链体、支架茎泡、假结以及延伸茎和环),如实施例13中所述。
图20是设计成将交替的形成三链体的碱基对特异性掺入到三链体中的三链体诱变的示意图,如实施例13中所述。实线指示三链体中的沃森-克里克对;第三链核苷酸用虚线指示,表示与双链体的嘌呤的非经典相互作用。在文库中,用所有可能的三链体基序(G:GC、T:AT、G:GC)=243个序列替换所指示的5个位置中的每一者。ACUGGCGCUUUUAUCUGAUUACUUUGAGAGCCAUCANNNAUCAAAG(SEQ ID NO:1022)的序列。
图21是各筛选中参考向导物支架174和175的富集值结果的柱状图,如实施例13中所述。
图22是散点图,示出了每个测量的单核苷酸取代、缺失或插入的log2富集值,如在用于向导物支架174和175的突变体文库的两个独立筛选的每一者中测量的,如实施例13中所述。
图23是向导物支架174和175中单个突变体的热图,示出了跨序列的支架中的特异性可突变区域,如实施例13中所述。黄色色调反映与参考支架具有类似富集的值;红色色调指示相对于参考支架的富集增加,因此活性增加;蓝色色调指示相对于野生型支架的活性损失;白色指示缺失数据(或会导致野生型序列的取代)。
图24是比较参考向导物支架174和175上单核苷酸突变的log2富集的散点图,如实施例13中所述。仅示出了在174和175之间类似位置的那些突变。结果表明,总体而言,向导物支架174比175更耐受变化。
图25是示出一组支架的平均(和95%置信区间)log2富集值的柱状图,其中假结对已被打乱,使得每个新的假结具有相同的碱基对组成,但在茎内为不同的顺序,如实施例13中所述。每个柱表示一组支架,其中指示了G:A(或A:G)对的位置(参见右图)。测试了291个假结茎;柱上的数字指示在每个位置具有G:A(或A:G)对的茎数量。
图26是图55和图56的假结序列的示意图,给定5'至3',其中两条链序列由下划线分开。
图27是示出支架的平均(和95%置信区间)log2富集值除以假结茎区域的预测的二级结构稳定性的柱状图,如实施例13中所述。具有非常稳定茎(例如,ΔG<-7kcal/mol)的支架平均具有高富集值,而具有不稳定茎(ΔG≥-5kcal/mol)的支架平均具有低富集值。
图28是支架175中位置7和29的所有双突变体的热图,如实施例13中所述。假结序列给定5'至3',在右边。
图29A示出了在ARPE-19核转染的细胞中的编辑结果,与具有靶向Rho基因座的P23位点的11.1间隔区(具有CasX 491)的174相比,使用工程化向导235,证实了235变体的改善的活性,其中在WT外源RHO处具有增加的靶上活性,而在突变体RHO报告基因处没有脱靶切割(通过非靶向间隔区),如实施例21中所述。
图29B是显示在用1000ng各质粒转染的ARPE-1细胞中根据基准p59.491.174.11.1水平(设定为值1.0)归一化的p59.491.235.11.1编辑水平的倍数变化的柱状图,如实施例21中所述。
图30示出了比较定制HEK293细胞系PASS_V1.01中的Cas核酸酶2、119、491、515、527、528、529、530和531的编辑测定的结果,如实施例17中所述。将细胞用2μg的编码指定Cas蛋白的p67质粒进行脂质转染。五天后,提取细胞基因组DNA。进行PCR扩增和下一代测序以在定制设计的靶上编辑位点处分离所编辑的细胞并定量所编辑的细胞的比例。对于每个样品,在由以下PAM序列组成的靶位点(单独的点)处评价编辑:48个TTC单独位点、14个ATC单独位点、22个CTC单独位点、11个GTC单独位点,并将编辑百分比根据溶媒对照归一化。用任何核酸酶进行脂质转染的细胞在TTC PAM靶位点(水平条)处表现出比野生型核酸酶Cas2(Cas 528除外)更高的平均编辑。任何给定核酸酶对四种不同PAM序列的相对偏好也由小提琴图表示。特别地,Cas核酸酶527、528和529表现出与野生型核酸酶Cas 2基本上不同的PAM偏好。
图31示出了在定制的HEK293细胞系PASS_V1.01中将改善的Cas核酸酶491与改善的核酸酶532和533进行比较的编辑测定结果,如实施例18所述。将细胞用2μg的编码指定Cas蛋白和嘌呤霉素抗性基因的p67质粒进行脂质转染,一式两份,并在嘌呤霉素选择下生长。三天后,提取细胞基因组DNA。进行PCR扩增和下一代测序以在定制设计的靶上编辑位点处分离所编辑的细胞并定量所编辑的细胞的比例。对于每个样品,在由以下PAM序列组成的靶位点处评价编辑:48个TTC单独位点、14个ATC单独位点、22个CTC单独位点、11个GTC单独位点,并将编辑比例根据溶媒对照归一化。用Cas 532或533进行脂质转染的细胞在PAM序列中的每个序列处表现出比Cas 491更高的平均编辑,但TTC PAM靶位点处的Cas533除外。误差棒表示n=2个生物样品的平均值的标准误差
图32是测定当被CasX蛋白515和支架174靶向时CcdB选择对不同间隔区的选择性严格性的存活测定的图,如实施例14中所述。
图33A至图33E是CasX 515的变体的热图,证实了每个突变体在TTC PAM靶位点处的中性或改善的生化切割,作为三个间隔区的平均值,如实施例14中所述。该图显示了CasX515序列全长的结果。
图34A至图34E是CasX 515变体的热图,其证实了在CTC PAM靶位点处每种突变体的中性或改善的生化切割,作为单个间隔区处三次生物重复的平均值,如实施例14中所述。该图显示了CasX 515序列全长的结果。
图35A至35E是CasX 515变体的热图,其证实了CTC PAM靶位点处每种突变体的中性或改善的生化切割,作为单个间隔区处三次生物重复的平均值,如实施例14中所述。该图显示了CasX 515序列全长的结果。
图36A至图36E是CasX 515的变体的热图,证实了每个突变体在ATC PAM靶位点处的中性或改善的生化切割,作为在单个间隔区处的三次生物重复的平均值,如实施例14中所述。该图显示了CasX 515序列全长的结果。
图37A是示出间隔区长度对用Jurkat细胞中的RNP编辑靶核酸的能力的影响的图,如实施例15中所述,对于间隔区15.3。
图37B是显示间隔区长度对用Jurkat细胞中的RNP编辑靶核酸的能力的影响的图,如实施例15所述,对于间隔区15.5。
图38是选择CasX变体蛋白及其在四个不同PAM序列(TTC、ATC、CTC和GTC)对重复样品的编辑效率的柱状图,如实施例16中所述。数据表示为编辑百分比+/-SD。
图39是示出在48个不同的TTC PAM靶位点处选择的CasX核酸酶相对于CasX 491的平均编辑效率柱状图,如实施例19中所述。将两次实验的平均值的传播标准误差绘制为误差棒。星号指示CasX 527和CasX 491之间的显著差异(通过Welch双尾t检验,p=0.0000635)。
图40是基于同源参考CasX 1(SEQ ID NO:1;蛋白质数据库标识号:6NY2)的公开的CryoEM结构的图,示出了靶DNA PAM序列、PAM相互作用环、NTSB结构域和氨基酸位置26的物理位置,如实施例19中所述。
图41是选择的CasX变体蛋白及其在48个TTC PAM靶位点的编辑效率的小提琴图,如实施例19中所述。
图42是选择的CasX变体蛋白及其在48个TTC PAM靶位点处相对于CasX 491的编辑效率的柱状图,如实施例19中所述。数据表示为平均相对编辑效率,其中1.0等于CasX 491编辑。灰色虚线示出了CasX 119的编辑效率。误差为+/-重复样品的扩展SEM。
图43是示出相对于CasX 491的平均编辑效率以及选择的CasX核酸酶的平均特异性比率的柱状图,如实施例20中所述。
图44是说明测试的突变组合及其对所得CasX变体的活性和特异性两者的影响之间的定性关系的流程图,如实施例21中所述。
图45A示出了AAV介导的编辑测定的结果,其在一定范围的MOI内在mNPC的内源小鼠Rho外显子1基因座处比较了gRNA支架235与支架174以及向导物11.30和11.31,如实施例21中所述。
图45B示出了在以5.0e+5MOI感染的细胞中支架235相对于具有间隔区11.30的向导物174(设定为1.0)的编辑水平的倍数变化的编辑结果,如实施例21中所述。
图46是示出了在gRNA变体175中延伸茎环中进行的修饰的示意图,所述修饰被掺入到gRNA变体235中。sgRNA 175延伸茎环:SEQ ID NO:1285;sgRNA 325延伸茎环:SEQ IDNO:1286。
图47是gRNA变体235的示意图,指示相对于gRNA变体174和175,在三链体、支架茎泡和延伸茎环中的修饰。假结和三链体环:SEQ ID NO:1287;支架茎和延伸茎:SEQ ID NO:1288。
图48是说明MS2发夹内碱基位置的示意图,如实施例23中所述。图中的MS2序列:SEQ ID NO:1289。
图49是通过用指定支架变体包装的XDP的tdTomato荧光测量的tdTomato基因座的编辑百分比的图,其中gRNA支架188和251用作碱基变体,如实施例23中所述。使用两种MS2形式(MS2 353和MS2 WT)。
图50示出了使用NanoSight测定的用于在NPC中的tdTomato基因座编辑的EC50值相对于用指定gRNA支架变体包装的XDP的滴度的改善,其中支架188和251用作碱基对照,如实施例23中所述。使用两种MS2形式,MS2 353和MS2野生型(WT)。
图51示出了MS2发夹亲和力(KD)与用所述gRNA支架变体包装的XDP的EC50之间的关联,如实施例23中所述。
图52示出了MS2发夹亲和力(KD)与用所述gRNA支架变体包装的XDP的滴度之间的关联,如实施例23中所述。
具体实施方式
虽然本文已经示出并描述了本发明的优选实施方案,但是对于本领域技术人员来说显而易见的是,此类实施方案仅以示例的方式提供。在不脱离本发明的情况下,本领域技术人员现在将想到许多变型形式、改变和替换。应当理解,在实施本发明时可采用本文所述的本发明的实施方案的各种替代方案。以下权利要求旨在限定本发明的范围,并且这些权利要求的范围内的方法和结构以及它们的等同物由此被覆盖。
除非另有定义,否则本文所用的所有技术和科学术语都具有与由本发明所属领域中的普通技术人员通常理解相同的含义。尽管在本文实施方案的实践和测试中可使用与本文所述的那些相似或等同的方法和材料,但下文描述了合适的方法和材料。在发生冲突的情况下,以包括定义的专利说明书为准。此外,材料、方法和实施例仅是说明性的,并非旨在进行限制。在不脱离本发明的情况下,本领域技术人员现在将想到许多变型形式、改变和替换。
定义
术语“多核苷酸”和“核酸”在本文中可互换使用,指任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)的聚合形式。因此,术语“多核苷酸”和“核酸”包括单链DNA;双链DNA;多链DNA;单链RNA;双链RNA;多链RNA;基因组DNA;cDNA;DNA-RNA杂交体;和包含嘌呤和嘧啶碱基或其它天然的、化学或生物化学修饰的、非天然的或衍生的核苷酸碱基的聚合物。
“可杂交的”或“互补的”可互换使用,意指核酸(例如RNA、DNA)包含核苷酸的序列,该核苷酸的序列使其能够在适当的体外和/或体内温度和溶液离子强度条件下以序列特异性、反向平行的方式(即,核酸与互补核酸特异性结合)与另一核酸非共价结合(即,形成沃森-克里克碱基对和/或G/U碱基对)、“退火”或“杂交”。应当理解,多核苷酸的序列不必与其可特异性杂交的靶核酸序列的序列100%互补;该多核苷酸的序列可具有至少约70%、至少约80%、或至少约90%、或至少约95%的序列同一性并且仍与靶核酸序列杂交。此外,多核苷酸可在一个或多个片段上杂交,使得间插或相邻片段不参与杂交事件(例如,环结构或发夹结构、“凸起”、“泡”等)。
出于本公开内容的目的,“基因”包括编码基因产物(例如,蛋白质、RNA)的DNA区域,以及调控基因产物的产生的所有DNA区域,无论此类调控序列是否与编码和/或转录序列相邻。因此,基因可包括辅助元件序列,这些调控序列包括但不必限于启动子序列、终止子、翻译调控序列(诸如核糖体结合位点和内部核糖体进入位点)、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点和基因座控制区。编码序列在转录或转录和翻译时编码基因产物;本公开的编码序列可包含片段,并且不必含有全长的开放阅读框。基因可包括被转录的链以及含有反密码子的互补链。
术语“下游”是指位于参考核苷酸序列的3'处的核苷酸序列。在某些实施方案中,下游核苷酸序列涉及转录起点之后的序列。例如,基因的翻译起始密码子位于转录起始位点的下游。
术语“上游”是指位于参考核苷酸序列的5'处的核苷酸序列。在某些实施方案中,上游核苷酸序列涉及位于编码区或转录起点的5'侧的序列。例如,大多数启动子位于转录起始位点的上游。
与多核苷酸或氨基酸序列有关的术语“与……相邻”是指在多核苷酸或多肽中彼此相邻或邻接的序列。技术人员将理解,两个序列可以被认为是彼此相邻的,并且仍然包含有限量的插入序列,例如1、2、3、4、5、6、7、8、9或10个核苷酸或氨基酸。
术语“辅助元件”在本文中可与术语“辅助序列”互换使用,并且旨在包括尤其是多腺苷酸化信号(poly(A)信号)、增强子元件、内含子、转录后调控元件(PTRE)、核定位信号(NLS)、脱氨酶、DNA转葡糖基酶抑制剂、另外的启动子、刺激CRISPR介导的同源定向修复的因子(例如顺式或反式)的因子、转录的激活因子或阻遏因子、自切割序列和融合结构域,例如与CRISPR蛋白融合的融合结构域。应当理解,适当的一个或多个辅助元件的选择将取决于待表达的经编码的组分(例如,蛋白质或RNA),或者取决于核酸是否包含需要不同聚合酶或并非旨在作为融合蛋白表达的多种组分。
术语“启动子”是指含有转录起始点以及促进聚合酶结合和转录的附加序列的DNA序列。示例性真核启动子包括元件诸如TATA盒和/或B识别元件(BRE),并且辅助或促进相关可转录多核苷酸序列和/或基因(或转基因)的转录和表达。启动子可合成产生,或者可源自已知或天然存在的启动子序列或另一启动子序列。启动子可位于待转录基因的近端或远端。启动子还可包括嵌合启动子,该嵌合启动子包含两种或更多种异源序列的组合以赋予某些特性。本公开的启动子可包括与本文已知或提供的其它启动子序列在组成方面相似但不相同的启动子序列的变体。启动子可根据与可操作地连接至启动子的相关编码或可转录序列或基因的表达模式相关的标准进行分类,诸如组成型、发育型、组织特异性型、诱导型等。启动子也可根据其强度进行分类。如在启动子的上下文中所使用的,“强度”指由启动子控制的基因的转录速率。“强”启动子意指转录速率高,而“弱”启动子意指转录速率相对低。
本发明的启动子可以是聚合酶II(Pol II)启动子。聚合酶II转录所有蛋白质编码和许多非编码基因。代表性的Pol II启动子包括核心启动子,其是围绕转录起始位点的约100个碱基对的序列,并且充当Pol II聚合酶和相关的一般转录因子的结合平台。启动子可含有一个或多个核心启动子元件,诸如TATA盒、BRE、起始子(INR)、基序十元件(MTE)、下游核心启动子元件(DPE)、下游核心元件(DCE),尽管缺少这些元件的核心启动子是本领域已知的。
本发明的启动子可以是聚合酶III(Pol III)启动子。Pol III转录DNA以合成小核糖体RNA,诸如5S rRNA、tRNA和其它小RNA。代表性的Pol III启动子使用内部对照序列(基因转录部分内的序列)支持转录,尽管有时也使用上游元件诸如TATA盒。所有Pol III启动子都被认为在本发明的范围内。
术语“增强子”指调控DNA序列,当其由被称为转录因子的特定蛋白结合时,调控相关基因的表达。增强子可位于基因的内含子中,或者位于基因的编码序列的5'或3'处。增强子可位于基因的近端(即,在启动子的数十或数百个碱基对(bp)内),或者可位于基因的远端(即,离启动子数千bp、数十万bp或甚至数百万bp远)。单个基因可由多于一种增强子调控,所有这些增强子都被认为在本公开的范围内。
如本文所用,“转录后调控元件(PRE)”,诸如肝炎PRE,是指一种DNA序列,该序列在转录时产生能够表现出转录后活性以增强或促进与其可操作地连接的相关基因的表达的三级结构。
如本文所用,“转录后调控元件(PTRE)”,诸如肝炎PTRE,是指一种DNA序列,该序列在转录时产生能够表现出转录后活性以增强或促进与其可操作地连接的相关基因的表达的三级结构。
如本文所用,“重组”意指特定核酸(DNA或RNA)是克隆、限制性和/或连接步骤的各种组合的产物,产生具有与天然系统中发现的内源核酸可区分的结构编码或非编码序列的构建体。通常,编码结构编码序列的DNA序列可由cDNA片段和短寡核苷酸接头组装,或由一系列合成的寡核苷酸组装,以提供能够由细胞中或不含细胞的转录和翻译系统中包含的重组转录单元表达的合成核酸。此类序列可以未被内部非翻译序列或内含子(其通常存在于真核基因中)中断的开放阅读框形式提供。包含相关序列的基因组DNA也可用于形成重组基因或转录单元。非翻译DNA的序列可存在于开放阅读框的5'或3'处,其中此类序列不干扰编码区的操作或表达,并且实际上可通过各种机制(参见上文的“增强子”和“启动子”)调节期望产物的产生。
术语“重组多核苷酸”或“重组核酸”是指非天然存在的多核苷酸或核酸,例如通过人为干预两个原本单独的序列片段的人工组合而制备的多核苷酸或核酸。这种人工组合通常通过化学合成方法或通过人工操作核酸的分离片段(例如通过基因工程技术)来完成。这样做通常用编码相同或保守氨基酸的冗余密码子替换密码子,同时通常引入或去除序列识别位点。另选地,将具有期望功能的核酸片段连接在一起以产生期望的功能组合。这种人工组合通常通过化学合成方法或通过人工操作核酸的分离片段(例如通过基因工程技术)来完成。
类似地,术语“重组多肽”或“重组蛋白”是指非天然存在的多肽或蛋白,例如通过人为干预两个原本单独的氨基酸序列片段的人工组合而制备的多肽或蛋白。因此,例如包含异源氨基酸序列的蛋白质是重组的。
如本文所用,术语“接触”是指在两个或更多个实体之间建立物理连接。例如,使靶核酸与向导核酸接触,意指使靶核酸和向导核酸共享物理连接;例如,如果这些序列共享序列相似性,则可以杂交。
“解离常数”或“Kd”可互换使用,并且是指配体“L”与蛋白质“P”之间的亲和力;即,配体与特定蛋白结合的紧密程度。亲和力可使用公式Kd=[L][P]/[LP]来计算,其中[P]、[L]和[LP]分别表示蛋白质、配体和复合物的摩尔浓度。
本公开提供了用于编辑靶核酸序列的系统和方法。如本文所用,“编辑”可与“修饰”互换使用,包括但不限于切割、切口、缺失、敲入、敲除等。
“切割”是指靶核酸分子(例如RNA、DNA)的共价主链的断裂。切割可通过多种方法引发,包括但不限于磷酸二酯键的酶促或化学水解。单链切割和双链切割都是可能的,并且双链切割可由于两个不同的单链切割事件而发生。
术语“敲除”是指消除基因或基因的表达。例如,可通过缺失或添加导致阅读框破坏的核苷酸序列来敲除基因。又如,可通过用不相关的序列替换基因的一部分来敲除该基因。本文所用的术语“敲低”是指降低基因或其基因产物的表达。作为基因敲低的结果,蛋白质活性或功能可被减弱,或者蛋白质水平可被降低或消除。
如本文所用,“同源定向修复”(HDR)是指在细胞中双链断裂修复期间发生的DNA修复形式。该过程需要核苷酸序列同源性,并且使用供体模板来修复或敲除靶DNA,并且导致遗传学信息从供体转移到靶。如果供体模板与靶DNA序列不同并且该供体模板的部分或全部序列掺入到靶DNA中,则同源定向修复可通过插入、缺失或突变导致靶序列的序列改变。
如本文所用,“非同源末端连接”(NHEJ)是指通过将断裂末端彼此直接连接而无需同源模板来修复DNA中的双链断裂(与需要同源序列来指导修复的同源定向修复相反)。NHEJ通常导致双链断裂位点附近的核苷酸序列的损失(缺失)。
如本文所用,“微同源介导的末端连接”(MMEJ)是指诱变DSB修复机制,其总是与断裂位点侧翼的缺失相关,而无需同源模板(与需要同源序列来指导修复的同源定向修复相反)。MMEJ通常导致双链断裂位点附近的核苷酸序列的损失(缺失)。多核苷酸或多肽与另一多核苷酸或多肽具有一定百分比的“序列相似性”或“序列同一性”,意味着当比对时,在对两个序列进行比较时,碱基或氨基酸的百分比是相同的,并且处于相同的相对位置。序列相似性(有时称为相似性百分比、同一性百分比或同源性)可以多种不同方式确定。为了确定序列相似性,可使用本领域已知的方法和计算机程序来比对序列,包括BLAST,可通过万维网以ncbi.nlm.nih.gov/BLAST访问。可使用任何方便的方法测定核酸内的特定核酸序列片段之间的互补性百分比。示例性方法包括BLAST程序(局部序列排比检索基本工具)和PowerBLAST程序(Altschul等人,J.Mol.Biol.,1990,215,403-410;Zhang和Madden,GenomeRes.,1997,7,649-656),或通过使用Gap程序(威斯康星序列分析软件包,适用于Unix的版本8,来自威斯康星州麦迪逊,大学研究园,遗传计算机公司(Genetics Computer Group)),例如使用默认设置,其使用Smith和Waterman的算法(Adv.Appl.Math.,1981,2,482-489)。
术语“多肽”和“蛋白质”在本文中可互换使用,并且是指具有任何长度的氨基酸的聚合形式,其可包括编码的和非编码的氨基酸、化学或生物化学修饰或衍生的氨基酸以及具有经修饰的肽主链的多肽。该术语包括融合蛋白,包括但不限于具有异源氨基酸序列的融合蛋白。
“载体”或“表达载体”是复制子,诸如质粒、噬菌体、病毒或粘粒,另一个DNA片段(即“插入物”)可附着于其上,从而引起所附着的片段在细胞中的复制或表达。
如本文所用,应用于核酸、多肽、细胞或生物体的术语“天然存在的”或“未经修饰的”或“野生型”是指自然界中存在的核酸、多肽、细胞或生物体。
如本文所用,“突变”是指与野生型或参考氨基酸序列或者野生型或参考核苷酸序列相比,一个或多个氨基酸或核苷酸的插入、缺失、取代、复制或倒位。
如本文所用,术语“分离的”意指描述处于与多核苷酸、多肽或细胞天然存在的环境不同的环境中的多核苷酸、多肽或细胞。分离的经基因修饰的宿主细胞可存在于经基因修饰的宿主细胞的混合群体中。
如本文所用,“宿主细胞”表示真核细胞、原核细胞或来自多细胞生物体(例如,在细胞系中)的细胞,并且包括已由核酸进行基因修饰的原始细胞的后代,这些真核细胞或原核细胞用作核酸(例如,表达载体)的受体。应当理解,由于天然的、偶然的或有意的突变,单细胞的后代在形态上或在基因组或总DNA互补序列上可不必与原始亲本完全相同。“重组宿主细胞”(也称为“经基因修饰的宿主细胞”)是其中已经引入了异源核酸(例如表达载体)的宿主细胞。
如本文所用,术语“嗜性”是指病毒样颗粒(XDP,有时在本文中也称为XDP)优先进入某些细胞或组织类型和/或与促进进入某些细胞或组织类型的细胞表面优先相互作用,任选地并且优选地随后表达(例如转录和任选地翻译)由XDP携带的序列进入细胞。
如本文所用,术语“假型”或“假型化”是指已被具有优选特征的另一个病毒的病毒包膜蛋白取代的病毒包膜蛋白。例如,HIV可用水泡性口炎病毒G-蛋白(VSV-G)包膜蛋白(除其它外,下文所述)假型化,这允许HIV感染更广范围的细胞,因为HIV包膜蛋白将病毒主要靶向CD4+呈递细胞。
如本文所用,术语“嗜性因子”是指整合到XDP表面的成分,其为特定细胞或组织类型提供嗜性。嗜性因子的非限制性示例包括靶细胞标记的糖蛋白、抗体片段(例如,scFv、纳米抗体、线性抗体等)、受体和配体。
“靶细胞标记”是指由靶细胞表达的分子,包括但不限于细胞表面受体、细胞因子受体、抗原、肿瘤相关抗原、糖蛋白、寡核苷酸、酶底物、抗原决定簇或结合位点,其可存在于靶组织或细胞的表面上,或可充当抗体片段或糖蛋白嗜性因子的配体。
术语“保守氨基酸取代”指蛋白质中具有相似侧链的氨基酸残基的可交换性。例如,具有脂族侧链的一组氨基酸由甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸组成;具有脂族-羟基侧链的一组氨基酸由丝氨酸和苏氨酸组成;具有含酰胺侧链的一组氨基酸由天冬酰胺和谷氨酰胺组成;具有芳族侧链的一组氨基酸由苯丙氨酸、酪氨酸和色氨酸组成;具有碱性侧链的一组氨基酸由赖氨酸、精氨酸和组氨酸组成;并且具有含硫侧链的一组氨基酸由半胱氨酸和甲硫氨酸组成。示例性保守氨基酸取代基团是:缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸和天冬酰胺-谷氨酰胺。
如本文所用,术语“抗体”涵盖各种抗体结构,包括但不限于单克隆抗体、多克隆抗体、多特异性抗体(例如双特异性抗体)、纳米抗体、单结构域抗体诸如VHH抗体和抗体片段,只要它们表现出期望的抗原结合活性或免疫活性即可。抗体表示一大类分子,包括几种类型的分子,诸如IgD、IgG、IgA、IgM和IgE。
“抗体片段”是指除完整抗体以外的分子,其包含完整抗体的一部分并且结合完整抗体所结合的抗原。抗体片段的示例包括但不限于Fv、Fab、Fab'、Fab'-SH、F(ab')2、双抗体、单链双抗体、线性抗体、单结构域抗体、单结构域骆驼科抗体、单链可变片段(scFv)抗体分子和由抗体片段形成的多特异性抗体。
如本文所用,“疗法”或“治疗”在本文中可互换使用并且是指获得有益或期望结果的方法,包括但不限于治疗性有益效果和/或预防性有益效果。治疗性有益效果是指根除或改善所治疗的潜在障碍或疾病。治疗性有益效果还可通过以下方式得到实现:根除或改善一种或多种症状,或者改善与基础疾病相关的一种或多种临床参数使得在受试者体内观察到改善,尽管该受试者可能仍然患有该潜在障碍。
如本文所用,术语“治疗有效量”和“治疗有效剂量”是指当以一次剂量或重复剂量施用于受试者(诸如人或实验动物)时,能够对疾病状态或病症的任何症状、方面、测量的参数或特征具有任何可检测的有益效果的药物或生物制剂(单独或作为组合物的一部分)的量。此类效果不必是绝对有益的。
如本文所用,“施用”意指向受试者给予一定剂量的化合物(例如,本公开的组合物)或组合物(例如,药物组合物)的方法。
“受试者”是哺乳动物。哺乳动物包括但不限于驯养的动物、非人灵长类动物、人、狗、兔、小鼠、大鼠和其它啮齿动物。
本说明书中提及的所有出版物、专利和专利申请以引用方式并入本文,其程度如同每个单独的出版物、专利或专利申请被具体地且单独地指示以引用方式并入。
I.一般方法
除非另有说明,否则本发明的实践采用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的常规技术,其可见于标准教科书诸如“MolecularCloning:A Laboratory Manual”,第3版(Sambrook等人,Harbor Laboratory Press,2001年);“Short Protocols in Molecular Biology”,第4版(Ausubel等人编辑,John Wiley&Sons,1999年);“Protein Methods”(Bollag等人,John Wiley&Sons,1996年);“NonviralVectors for Gene Therapy”(Wagner等人编辑,Academic Press,1999年);“ViralVectors”(Kaplift和Loewy编辑,Academic Press,1995年);“Immunology MethodsManual”(I.Lefkovits编辑,Academic Press,1997年);和“Cell and Tissue Culture:Laboratory Procedures in Biotechnology”(Doyle和Griffiths,John Wiley&Sons,1998年),这些教科书的公开内容以引用方式并入本文。
在提供数值范围的情况下,应当理解为包括端点,并且包括在该范围的上限和下限之间的每个中间值(除非上下文另有明确规定,否则至下限单位的十分之一)以及该指定范围中的任何其它指定值或中间值。这些较小范围的上限和下限可独立地包括在较小范围内,并且还包括在受限于指定范围内任何明确排除的限值内。当指定范围包括限值中的一个或两个值时,也包括排除那些所包括的限值中的任一个或两个值的范围。
除非另有定义,否则本文所用的所有技术和科学术语都具有与由本发明所属领域中的普通技术人员通常理解相同的含义。本文提及的所有出版物以引用方式并入本文,以公开并描述与所引用的出版物有关的方法和/或材料。
必须注意的是,如本文所用并且在所附权利要求书中,除非上下文另有明确规定,否则单数形式“一个”、“一种”和“所述”包括复数指代。
应当理解,为了清楚起见,在单独的实施方案的上下文中描述的本公开的某些特征还可在单个实施方案中以组合来提供。在其它情况下,为了简洁起见,在单个实施方案的上下文中描述的本公开的各种特征还可单独地或以任何合适的子组合来提供。与本公开有关的实施方案的所有组合旨在由本公开具体涵盖并且在本文公开,就如同每个和每种组合单独地且明确地公开一样。另外,各种实施方案及其要素的所有子组合也由本公开具体涵盖并且在本文中公开,就如同每个和每种此类子组合在本文中单独地且明确地公开一样。
II.用于遗传编辑和基因编辑对的系统
在第一方面,本公开提供了包含2类V型CRISPR核酸酶蛋白和一种或多种向导核酸(例如gRNA)的系统,这些系统用于修饰或编辑基因的靶核酸,包括编码区和非编码区。通常,可使用本文提供的可编程系统和方法来靶向基因的任何部分。如本文所用,“系统”(诸如包含本公开的CRISPR核酸酶蛋白和一种或多种gRNA作为基因编辑对以及核酸和载体的系统,该核酸编码CRISPR核酸酶蛋白和gRNA,该载体包含本公开的核酸或CRISPR核酸酶蛋白和一种或多种gRNA)可与术语“组合物”互换使用。
在一些实施方案中,本公开提供了被特别设计成修饰真核细胞中的基因的靶核酸的系统;在受试者体外、离体或体内。通常,可使用本文提供的可编程组合物和方法来靶向基因的任何部分。在一些实施方案中,CRISPR核酸酶是2类V型核酸酶。尽管2类V型CRISPRCas核酸酶中的成员具有差异,但它们共有一些将它们与Cas9系统区分开的共同特征。首先,V型核酸酶具有RNA指导的单一效应子(其含RuvC结构域但不含HNH结构域),并且这些核酸酶识别TC基序PAM 5'上游至非靶向链上的靶区域,这不同于在靶序列的3'侧依赖于富含G的PAM的Cas9系统。不同于Cas9在靠近PAM的近端位点产生平端,V型核酸酶在PAM序列的远端产生交错的双链断裂。此外,当由靶dsDNA或以顺式方式结合的ssDNA进行激活时,V型核酸酶以反式方式降解ssDNA。在一些实施方案中,本公开提供了选自以下项的2类V型核酸酶:Cas12a、Cas12b、Cas12c、Cas12d(CasY)、Cas12j、Cas12k、C2c4、C2c8、C2c5、C2c10、C2c9、CasZ和CasX。在一些实施方案中,本公开提供了包含一种或多种CasX变体蛋白和一种或多种向导核酸(gRNA)变体的系统作为CasX:gRNA系统。
本文提供了包含2类V型蛋白和gRNA变体的系统,在本文中称为基因编辑对。在一些实施方案中,2类V型变体是CasX变体,诸如但不限于SEQ ID NO:416的序列。术语CasX变体蛋白和CasX变体在本文中可互换使用。在一些实施方案中,gRNA是另一个gRNA的变体,诸如但不限于SEQ ID NO:2238和2239的序列。gRNA和CasX蛋白可经由非共价相互作用结合在一起以形成基因编辑对复合物,在本文中称为核糖核蛋白(RNP)复合物。在一些实施方案中,使用预复合的CasX:gRNA RNP在将系统组分递送至细胞或靶核酸以编辑靶核酸方面具有优势。在RNP中,gRNA可通过包含具有与靶核酸序列互补的核苷酸序列的靶向序列(或“间隔区”)来提供对RNP复合物的靶特异性。在RNP中,预复合的CasX:gRNA的CasX蛋白提供位点特异性活性,并且由于其与gRNA的缔合而被引导至待修饰的靶核酸序列内的靶位点(并且进一步稳定在靶位点)。RNP复合物的CasX变体蛋白提供了复合物的位点特异性活性,诸如CasX蛋白对靶序列的结合、切割或切口。本文提供了包含CasX变体蛋白、gRNA变体以及本文所述的CasX变体和gRNA变体实施方案的任何组合的CasX:gRNA基因编辑对的系统和细胞,以及包含CasX:gRNA的递送形式。这些组分中的每一者及其在编辑基因的靶核酸中的用途如下文所述。
在一些实施方案中,本公开提供了基因编辑对的系统,这些系统包含选自表3的CasX变体蛋白(SEQ ID NO:247-592和1147-1231或与其具有至少约85%、至少约90%、或至少约95%、或至少约95%、或至少约96%、或至少约97%、或至少约98%、或至少约99%序列同一性的序列中的任一者的CasX变体蛋白,而gRNA是如本文所述的gRNA变体(例如表2中所示的SEQ ID NO:2101-2332和2353-2398),或与其具有至少60%、或至少70%、至少约80%、或至少约90%、或至少约95%序列同一性的序列变体,其中gRNA包含与靶核酸互补的靶向序列。在一些实施方案中,本公开提供了基因编辑对的系统,这些系统包含选自表3的CasX变体蛋白(SEQ ID NO:270-592和1147-1231)中的任一者的CasX变体蛋白,而gRNA是如本文所述的gRNA变体(例如,SEQ ID NO:2238-2332和2353-2398),其中gRNA包含与靶核酸互补的靶向序列。在一些实施方案中,本公开提供了基因编辑对的系统,其包含选自表3的CasX变体蛋白(SEQ ID NO:415-592和1147-1231)中的任一种的CasX变体蛋白,而gRNA是如本文所述的gRNA变体(例如,SEQ ID NO:2281-2332和2353-2398),其中gRNA包含与靶核酸互补的靶向序列。在其它实施方案中,本公开提供了基因编辑对的系统,这些系统包含CasX变体蛋白、如本文所述的具有靶向序列的第一gRNA变体;例如,表2中所示的SEQ ID NO:2101-2332或2353-2398)和第二gRNA变体,其中与第一gRNA的靶向序列相比,第二gRNA变体具有与靶核酸的不同或重叠部分互补的靶向序列。在其它实施方案中,本公开提供了基因编辑对的系统,其包含CasX变体蛋白、如本文所述的具有靶向序列的第一gRNA变体;例如,SEQID NO:2101-2332或2353-2398)和第二gRNA变体,其中与第一gRNA的靶向序列相比,第二gRNA变体具有与靶核酸的不同或重叠部分互补的靶向序列。在其它实施方案中,本公开提供了基因编辑对的系统,其包含CasX变体蛋白、如本文所述的具有靶向序列的第一gRNA变体;例如,SEQ ID NO:2281-2332或2353-2398)具有靶向序列和第二gRNA变体,其中与第一gRNA的靶向序列相比,第二gRNA变体具有与靶核酸的不同或重叠部分互补的靶向序列。在本公开的CasX:gRNA基因编辑对的一些实施方案中,CasX变体蛋白选自表3的CasX变体蛋白515、528、529、534-539、668、672和678(SEQ ID NO:416、428、434-439、567、570和576),并且sgRNA变体选自表2的gRNA变体229-237(SEQ ID NO:2286-2294)。在具体实施方案中,基因编辑对包含选自CasX变体蛋白668(SEQ ID NO:567)、672(SEQ ID NO:570)或676(SEQ IDNO:574)和gRNA变体235(SEQ ID NO:2292)中的任一者的CasX变体蛋白。
在一些实施方案中,基因编辑对能够缔合在一起以形成核糖核蛋白复合物(RNP)。在其它实施方案中,基因编辑对在核糖核蛋白复合物(RNP)中缔合在一起。在一些实施方案中,基因编辑对的RNP能够结合并切割靶核酸的双链,包括编码序列、编码序列的互补序列、非编码序列和调控元件。在一些实施方案中,基因编辑对的RNP能够结合靶核酸并在靶核酸中产生一个或多个单链切口。在一些实施方案中,基因编辑对的RNP能够结合靶核酸,但不能切割靶核酸。
在一些实施方案中,与包含SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白和SEQ ID NO:5或SEQ ID NO:4的参考gRNA的参考基因编辑对相比,变体基因编辑对具有一种或多种改善的特征。在其它实施方案中,与包含由变体衍生的CasX变体(例如,CasX515,SEQ ID NO:416)和由变体衍生的gRNA变体(例如,gRNA支架174(SEQ ID NO:2238)或175(SEQ ID NO:2239)的基因编辑对相比,CasX变体和gRNA变体的变体基因编辑对具有一种或多种改善的特征。在前述实施方案中,该一种或多种改善的特征可在体外测定中在可比较条件下对基因编辑对和参考CasX和参考gRNA进行测定。在一些实施方案中,如本文所述的示例性改善的特征可包括CasX:gRNA RNP复合物稳定性、CasX和gRNA之间增加的结合亲和力、RNP复合物形成的改善的动力学、更高百分比的有切割能力的RNP、靶核酸的增加的RNP结合亲和力、靶核酸的解旋、增加的编辑活性、增加的编辑效率、靶核酸的增加的编辑特异性、减少的脱靶编辑或切割、增加的核酸酶活性、增加的双链切割的靶链负载、降低的单链切口的靶链负载、增加的DNA非靶链的结合或对核酸酶活性的增加的抗性。在前述实施方案中,与参考CasX蛋白和参考gRNA对的特征相比,或与基因编辑对所来源的CasX变体和gRNA变体的特征相比,改善为至少约2倍、至少约5倍、至少约10倍、至少约50倍、至少约100倍、至少约500倍、至少约1000倍、至少约5000倍、至少约10,000倍或至少约100,000倍。在其它情况下,与参考基因编辑对或者由该基因编辑对衍生的CasX变体和gRNA变体的特征相比,该一种或多种改善的特征可改善了约1.1倍至100,00倍、约1.1倍至10,00倍、约1.1倍至1,000倍、约1.1倍至500倍、约1.1倍至100倍、约1.1倍至50倍、约1.1倍至20倍、约10倍至100,00倍、约10倍至10,00倍、约10倍至1,000倍、约10倍至500倍、约10倍至100倍、约10倍至50倍、约10倍至20倍、约2倍至70倍、约2倍至50倍、约2倍至30倍、约2倍至20倍、约2倍至10倍、约5倍至50倍、约5倍至30倍、约5倍至10倍、约100倍至100,00倍、约100倍至10,00倍、约100倍至1,000倍、约100倍至500倍、约500倍至100,00倍、约500倍至10,00倍、约500倍至1,000倍、约500倍至750倍、约1,000倍至100,00倍、约10,000倍至100,00倍、约20倍至500倍、约20倍至250倍、约20倍至200倍、约20倍至100倍、约20倍至50倍、约50倍至10,000倍、约50倍至1,000倍、约50倍至500倍、约50倍至200倍、或约50倍至100倍。在其它情况下,与参考基因编辑对或者由该基因编辑对衍生的CasX变体和gRNA变体的特征相比,该一种或多种改善的特征可改善了约1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、1.6倍、1.7倍、1.8倍、1.9倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍、15倍、16倍、17倍、18倍、19倍、20倍、25倍、30倍、40倍、45倍、50倍、55倍、60倍、70倍、80倍、90倍、100倍、110倍、120倍、130倍、140倍、150倍、160倍、170倍、180倍、190倍、200倍、210倍、220倍、230倍、240倍、250倍、260倍、270倍、280倍、290倍、300倍、310倍、320倍、330倍、340倍、350倍、360倍、370倍、380倍、390倍、400倍、425倍、450倍、475倍或500倍或更多。
在一些实施方案中,其中基因编辑对包含如本文所述的CasX变体蛋白和gRNA变体两者,基因编辑对的该一种或多种特征被改善超过通过单独改变CasX蛋白或gRNA可实现的特征。在一些实施方案中,CasX变体蛋白和gRNA变体相加地起作用以改善基因编辑对的一种或多种特征。在一些实施方案中,CasX变体蛋白和gRNA变体协同地起作用以改善基因编辑对的一种或多种特征。在前述实施方案中,与参考CasX蛋白和参考gRNA对的特征相比,或与基因编辑对所来源的CasX变体和gRNA变体的特征相比,改善为至少约2倍、至少约5倍、至少约10倍、至少约50倍、至少约100倍、至少约500倍、至少约1000倍、至少约5000倍、至少约10,000倍或至少约100,000倍。
在一些实施方案中,本公开提供了本文公开的任何实施方案的基因编辑对的组合物,其用作用于治疗患有疾病的受试者的药物。
在其它实施方案中,本公开的系统包含一种或多种CasX变体蛋白、一种或多种向导核酸(gRNA)和一种或多种供体模板核酸,该一种或多种供体模板核酸包含编码基因的一部分的核酸,其中供体模板核酸包含用于校正突变的野生型序列,或者与用于敲低或敲除基因的野生型基因组核酸序列相比包含一个或多个核苷酸的缺失、插入或突变。
在其它实施方案中,本公开提供了编码或包含CasX变体、gRNA变体和任选的供体模板的载体,用于产生和/或递送CasX:gRNA系统。本文还提供了制备CasX变体蛋白和gRNA变体的方法,以及使用CasX变体和gRNA变体的方法,包括基因编辑的方法和治疗方法。CasX:gRNA系统的CasX变体蛋白和gRNA变体组分以及它们的特征,以及递送形式和使用该系统的方法在下文更全面地描述。
CasX:gRNA系统的供体模板根据它们是否用于校正靶基因中的突变或在基因组中的不同基因座处插入转基因(“敲入”),或用于破坏异常的基因产物的表达来设计;例如,其包含一个或多个突变,该一个或多个突变降低基因产物的表达或使蛋白质功能障碍(“敲低”或“敲除”)。在一些实施方案中,供体模板是单链DNA模板或单链RNA模板。在其它实施方案中,供体模板是双链DNA模板。在一些实施方案中,用于编辑靶核酸的CasX:gRNA系统包含供体模板,该供体模板具有靶核酸中基因的开放阅读框的全部或至少一部分,用于插入校正的野生型序列以校正缺陷蛋白。在其它情况下,供体模板包含野生型基因的全部或一部分,用于插入基因组中不同的基因座以表达基因产物。在其它情况下,可将基因的一部分插入靶核酸中突变的上游('5),其中供体模板基因部分跨越至基因的C末端或具有突变的序列的3'端,从而在其插入靶核酸后导致功能性基因产物的表达。
在一些实施方案中,供体模板序列包含与靶核酸的断裂位点同源的两个区域5'和3'侧翼的非同源序列(即同源臂),从而促进非同源序列在靶区域处的插入,这可通过同源定向修复(HDR)或同源非依赖性靶向整合(HITI)介导。通过HITI插入的外源供体模板可以是任何长度,例如长度为10至50个核苷酸之间的相对短序列,或者长度为约50至1000个核苷酸的更长序列。同源性的缺乏可以是,例如,具有不超过20%至50%序列同一性,以及/或者在低严格性下缺乏特异性杂交。在其它情况下,缺乏同源性还可包括具有不超过5bp、6bp、7bp、8bp或9bp同一性的判据。在这种情况下,同源臂的使用促进非同源序列在由核酸酶引入的断裂位点处的插入。在一些实施方案中,供体模板多核苷酸包含至少约10个、至少约50个、至少约100个、或至少约200个、或至少约300个、或至少约400个、或至少约500个、或至少约600个、或至少约700个、或至少约800个、或至少约900个、或至少约1000个、或至少约10,000个、或至少约15,000个核苷酸。在其它实施方案中,供体模板包含至少约10至约15,000个核苷酸、或至少约100至约10,000个核苷酸、或至少约400至约8,000个核苷酸、或至少约600至约5000个核苷酸、或至少约1000至约2000个核苷酸。供体模板序列可包含与基因组序列相比的某些序列差异;例如限制性位点、核苷酸多态性、可选择标记(例如药物抗性基因、荧光蛋白、酶等)等,其可用于评估供体核酸在切割位点处的成功插入,或在一些情况下可用于其它目的(例如,以表示在靶向基因组基因座处的表达)。另选地,这些序列差异可包括侧翼重组序列,诸如FLP、loxP序列等,这些侧翼重组序列在后续时间被激活以去除标记序列。
III.用于基因编辑的系统的向导核酸
在另一个方面,本公开涉及特异性设计的向导核糖核酸(gRNA),其包含与基因的靶核酸序列互补(并且因此能够与之杂交)的靶向序列(在本文中也称为间隔区),该gRNA在与CRISPR核酸酶复合时在细胞中靶核酸的基因组编辑中具有效用。据设想,在一些实施方案中,在用于修饰靶核酸的系统中递送多种gRNA。例如,当各自与CRISPR核酸酶复合时,可使用具有针对靶核酸序列的不同或重叠区域的靶向序列的一对gRNA,以便在基因内的两个不同或重叠位点结合并切割,然后通过非同源末端连接(NHEJ)、同源定向修复(HDR)、同源非依赖性靶向整合(HITI)、微同源介导的末端连接(MMEJ)、单链退火(SSA)或碱基切除修复(BER)进行编辑。
在一些实施方案中,本公开提供了在系统中使用的gRNA,其在真核细胞中基因组编辑基因中具有效用。在具体实施方案中,系统的gRNA能够与CRISPR核酸酶形成复合物;一种核糖核蛋白(RNP)复合物,更详细地描述于下文。
a.参考gRNA和gRNA变体
如本文所用,“参考gRNA”是指包含天然存在的gRNA的野生型序列的CRISPR向导核酸。在一些实施方案中,本公开的参考gRNA可经历一种或多种诱变方法,诸如本文所述的在实施例(例如实施例13,以及PCT/US20/36506和WO2020247883A2,这些文献以引用方式并入本文)中的诱变方法,这些诱变方法可包括深度突变进化(DME)、深度突变扫描(DMS)、易错PCR、盒式诱变、随机诱变、交错延伸PCR、基因改组或结构域交换,以便产生相对于参考gRNA具有增强或变化的性质的一种或多种向导核酸变体(在本文中称为“gRNA变体”)。gRNA变体还包括包含一种或多种外源序列的变体,例如融合至5'或3'末端,或插入内部。参考gRNA或由其衍生的变体的活性可用作比较gRNA变体的活性的基准,由此测量gRNA变体的功能或其它特征的改善。在其它实施方案中,参考gRNA或gRNA变体可经历一个或多个有意的、特异性靶向的突变,以便产生gRNA变体;例如设计合理的变体。
本公开的gRNA包含两个片段:靶向序列和蛋白质结合片段。gRNA的靶向片段包括与靶核酸序列(例如,靶ssRNA、靶ssDNA、双链靶DNA的链等)内的特定序列(靶位点)互补(并且因此与之杂交)的核苷酸序列(可互换地称为向导序列、间隔区、靶向子或靶向序列),下文更全面地描述。gRNA的靶向序列能够与靶核酸序列和调控元件结合,该靶核酸序列包括编码序列、编码序列的互补序列、非编码序列。蛋白结合片段(或“激活因子”或“蛋白结合序列”)与作为复合物的CasX蛋白相互作用(例如,结合),形成RNP(下文更全面地描述)。蛋白质结合片段在本文中也称为“支架”,其由若干个区域组成,下文更全面地描述。
在双向导RNA(dgRNA)的情况下,靶向子和激活因子部分各自具有双链体形成片段,其中靶向子的双链体形成片段和激活因子的双链体形成片段彼此互补并且彼此杂交,以形成双链的双链体(用于gRNA的dsRNA双链体)。当gRNA为gRNA时,在本文中使用的术语“靶向子”或“靶向子RNA”是指CasX双向导RNA的crRNA样分子(crRNA:“CRISPR RNA”)(并且因此当“激活因子”和“靶向子”例如通过插入核苷酸连接在一起时,是指CasX单向导RNA的crRNA样分子)。crRNA具有与tracrRNA退火的5'区,随后是靶向序列的核苷酸。因此,例如,向导RNA(dgRNA或sgRNA)包含向导序列以及crRNA的双链体形成片段,该双链体形成片段也可称为crRNA重复。对应的tracrRNA样分子(激活因子)还包含核苷酸的双链体形成片段,该双链体形成片段形成了向导RNA的蛋白结合片段的dsRNA双链体的另一半。因此,靶向子和激活因子作为对应的对,杂交形成双向导RNA,本文称为“双分子gRNA”、“dgRNA”、“双分子向导RNA”或“双分子向导RNA”。CasX蛋白对靶核酸序列(例如基因组DNA)的位点特异性结合和/或切割可发生在由gRNA的靶向序列与靶核酸序列之间的碱基配对互补性决定的一个或多个位置(例如靶核酸的序列)处。因此,例如,本公开的gRNA具有与靶核酸互补的序列,并且因此可与该靶核酸杂交,该靶核酸邻近与TC PAM基序或PAM序列互补的序列,诸如ATC、CTC、GTC或TTC。因为向导序列的靶向序列与靶核酸序列的序列杂交,所以只要考虑到PAM序列的位置,用户就可修饰靶向子以与特定靶核酸序列杂交。因此,在一些情况下,靶向子的序列可以是非天然存在的序列的互补序列。在其它情况下,靶向子的序列可以是源自待编辑的基因序列的互补序列的天然存在的序列。在其它实施方案中,gRNA的激活因子和靶向子彼此共价连接(而不是彼此杂交)并包含单个分子,本文称为“单分子gRNA”、“单向导RNA”、“单分子向导RNA”、“单个分子向导RNA”或“sgRNA”。在一些实施方案中,sgRNA包括“激活因子”或“靶向子”,因此可以分别是“激活因子-RNA”和“靶向子-RNA”。在一些实施方案中,gRNA是核糖核酸分子(“gRNA”),并且在其它实施方案中,gRNA是嵌合体,并且包含DNA和RNA两者。如本文所用,术语gRNA涵盖天然存在的分子以及序列变体(例如非天然存在的经修饰的核苷酸)。
总的来说,本公开的组装的gRNA包含四个不同的区域或结构域:RNA三链体、支架茎、延伸茎和靶向序列,在本公开的实施方案中,该靶向序列对靶核酸具有特异性并且位于gRNA的3'末端。RNA三链体、支架茎和延伸茎一起被称为gRNA的“支架”(gRNA支架)。本发明的gRNA支架可包含RNA或RNA和DNA。gRNA支架可含有尿嘧啶(U),并且一个或多个尿嘧啶可被胸腺嘧啶(T)替换。
b.RNA三链体
在本文提供的向导RNA的一些实施方案中,gRNA包括RNA三链体,在一些情况下,该RNA三链体包含UUU--NX(~4-15)--UUU茎环(SEQ ID NO:241)的序列,该序列在2个插入茎环(支架茎环和延伸茎环)后以AAAG结束,从而形成假结,该假结还可延伸超过该三链体成为双链体假结。三链体的UU-UUU-AAA序列形成为靶向序列、支架茎和延伸茎之间的结合。在示例性gRNA中,首先编码UUU-环-UUU区域,然后编码支架茎环,随后编码延伸茎环(其通过四元环连接),然后在变成靶向序列之前以AAAG封闭三链体。
c.支架茎环
在本公开的gRNA的一些实施方案中,三链体区域之后是支架茎环。支架茎环是当RNP形成时gRNA中的与CasX蛋白(诸如参考或CasX变体蛋白)结合的区域。在一些实施方案中,支架茎环是相当短且稳定的茎环,并且增加了gRNA的总体稳定性。在一些情况下,支架茎环不允许有许多变化,并且需要某些形式的RNA泡。在一些实施方案中,支架茎是gRNA功能所必需的。尽管该支架茎可能类似于作为关键茎环的Cas9向导物的结合茎,但在一些实施方案中,gRNA的支架茎具有与CRISPR/Cas系统中存在的许多其它茎环不同的必需凸起(RNA泡)。在一些实施方案中,该凸起的存在在与不同CasX蛋白相互作用的gRNA中是保守的。gRNA的支架茎环序列的示例性序列包括序列CCAGCGACUAUGUCGUAUGG(SEQ ID NO:242)。
d.延伸茎环
在本公开的gRNA的一些实施方案中,支架茎环之后是延伸茎环。在一些实施方案中,延伸茎包含大部分未与CasX蛋白结合的合成的tracr和crRNA融合体。在一些实施方案中,延伸茎环可以是高度可延展的。在一些实施方案中,用GAAA四元环接头或GAGAAA接头在延伸茎环中的tracr与crRNA之间制备单向导gRNA。在一些情况下,sgRNA的靶向子和激活因子通过插入核苷酸彼此连接,并且接头可具有3至20个核苷酸的长度。在本公开的sgRNA的一些实施方案中,延伸茎是一个大的32-bp环,其位于核糖核蛋白复合物中的CasX蛋白的外部。参考gRNA的延伸茎环序列的示例性序列包括序列GCGCUUAUUUAUCGGAGAGAAAUCCGAUAAAUAAGAAGC(SEQ ID NO:15)。
e.靶向序列
在本公开的gRNA的一些实施方案中,延伸茎环之后是形成三链体的一部分的区域,然后是gRNA的3'末端的靶向序列(或“间隔区”)。靶向序列将CasX核糖核蛋白全复合物靶向至待修饰的基因的靶核酸序列的特定区域。因此,例如,当TC PAM基序或者PAM序列TTC、ATC、GTC或CTC中的任一者位于与靶序列互补的非靶链序列的5'端1个核苷酸处时,本公开的gRNA靶向序列具有与真核细胞的靶核酸(例如,真核染色体、染色体序列等)中基因的一部分(其作为RNP的组分)互补并且因此可与之杂交的序列。可修饰gRNA的靶向序列,使得gRNA可靶向任何期望的靶核酸序列的期望序列,只要考虑PAM序列位置即可。在一些实施方案中,gRNA支架是靶向序列的5'末端,其中靶向序列在gRNA的3'末端。在一些实施方案中,被RNP的核酸酶识别的PAM基序序列是TC。在其它实施方案中,被RNP的核酸酶识别的PAM序列是NTC;即,ATC、CTC、GTC或TTC。
在一些实施方案中,本公开提供了gRNA,其中gRNA的靶向序列与待修饰的基因的靶核酸序列互补。在一些实施方案中,与野生型基因序列相比,gRNA的靶向序列与包含一个或多个突变的基因的靶核酸序列互补,目的是用本公开的CasX:gRNA系统编辑包含突变的序列。在这种情况下,由CasX:gRNA系统实现的修饰可校正或补偿突变,或者可敲低或敲除突变基因产物的表达。在其它实施方案中,gRNA的靶向序列与野生型基因的靶核酸序列互补,目的是编辑序列以用本公开的CasX:gRNA系统引入突变以便敲低或敲除基因。在一些实施方案中,gRNA的靶向序列被设计成对靶核酸的基因的外显子具有特异性。在其它实施方案中,gRNA的靶向序列被设计成对靶核酸的基因的内含子具有特异性。在其它实施方案中,gRNA的靶向序列被设计成对靶核酸的基因的内含子-外显子连接具有特异性。在其它实施方案中,gRNA的靶向序列被设计成对靶核酸的基因的调控元件具有特异性。在一些实施方案中,gRNA的靶向序列被设计成与靶核酸的基因中包含一个或多个单核苷酸多态性(SNP)的序列互补。在编码序列内或在非编码序列内的SNP均在本公开的范围内。在其它实施方案中,gRNA的靶向序列被设计成与靶核酸的基因的基因间区域的序列互补。
在一些实施方案中,靶向序列被设计成对调控基因产物表达的调控元件具有特异性。此类调控元件包括但不限于启动子区域、增强子区域、基因间区域、5'非翻译区域(5'UTR)、3'非翻译区域(3'UTR)、保守元件,以及包含顺式调控元件的区域。启动子区域旨在包括编码序列的起始点5kb内的核苷酸,或者在基因增强子元件或保守元件的情况下,可距离靶核酸基因的编码序列数千bp、数十万bp或甚至数百万bp。在上文中,靶是这样的靶,其中靶的编码基因旨在被敲除或敲低,使得基因产物在细胞中不表达或以较低水平表达。
在一些实施方案中,gRNA的靶向序列具有14至35个连续核苷酸。在一些实施方案中,gRNA的靶向序列具有10至30个连续核苷酸。在一些实施方案中,靶向序列具有10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个连续核苷酸。在一些实施方案中,gRNA的靶向序列由20个连续核苷酸组成。在一些实施方案中,靶向序列由19个连续核苷酸组成。在一些实施方案中,靶向序列由18个连续核苷酸组成。在一些实施方案中,靶向序列由17个连续核苷酸组成。在一些实施方案中,靶向序列由16个连续核苷酸组成。在一些实施方案中,靶向序列由15个连续核苷酸组成。在一些实施方案中,靶向序列具有10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个连续核苷酸,并且靶向序列可包含相对于靶核酸序列的0至5个、0至4个、0至3个或0至2个错配,并且保留足够的结合特异性,使得包含gRNA的RNP可相对于靶核酸形成互补键,该gRNA包含靶向序列。
在一些实施方案中,CasX:gRNA系统包含第一gRNA并且还包含第二(和任选的第三、第四、第五或更多)gRNA,其中与第一gRNA的靶向序列相比,第二gRNA或另外的gRNA具有与靶核酸序列的不同或重叠部分互补的靶向序列,使得靶核酸中的多个点被靶向,并且例如通过CasX在靶核酸中引入多个断裂。应当理解,在这种情况下,第二gRNA或另外的gRNA与另外拷贝的CasX蛋白复合。通过选择gRNA的靶向序列,可使用本文所述的CasX:gRNA系统修饰或编辑包含突变的靶核酸序列的限定区域,包括在例如发生突变重复或去除包含突变的外显子从未导致功能性基因产物表达的情况下促进供体模版的插入或切割位点之间DNA的切除。
f.gRNA支架
除了靶向序列区域之外,gRNA的其余区域在本文中被称为支架。在一些实施方案中,gRNA支架源自天然存在的序列,下文描述为参考gRNA。在其它实施方案中,gRNA支架是其它gRNA变体的变体,其中引入突变、插入、缺失或结构域取代以赋予gRNA期望的性质。
在一些实施方案中,参考gRNA包含从δ-变形菌纲分离或由其衍生的序列。在一些实施方案中,序列是CasX tracrRNA序列。从δ-变形菌纲分离或由其衍生的示例性参考tracrRNA序列可包括:ACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGGAGA(SEQ ID NO:6)和ACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGG(SEQ ID NO:7)。从δ-变形菌纲分离或由其衍生的示例性crRNA序列可包含CCGAUAAGUAAAACGCAUCAAAG(SEQ ID NO:243)的序列。
在一些实施方案中,参考向导RNA包含从浮霉菌门(Planctomycetes)分离或由其衍生的序列。在一些实施方案中,序列是tracrRNA序列。从浮霉菌门分离或由其衍生的示例性参考tracrRNA序列可包括:UACUGGCGCUUUUAUCUCAUUACUUUGAGAGCCAUCACCAGCGACUAUGUCGUAUGGGUAAAGCGCUUAUUUAUCGGAGA(SEQ ID NO:8)和
UACUGGCGCUUUUAUCUCAUUACUUUGAGAGCCAUCACCAGCGACUAUGUCGUAUGGGUAAAGCGCUUAUUUAUCGG(SEQ ID NO:9)。从浮霉菌门分离或由其衍生的示例性crRNA序列可包含UCUCCGAUAAAUAAGAAGCAUCAAAG(SEQ ID NO:244)的序列。
在一些实施方案中,参考gRNA包含从Candidatus Sungbacteria分离或由其衍生的序列。从Candidatus Sungbacteria分离或由其衍生的示例性CasX参考tracrRNA序列可包含以下序列:GUUUACACACUCCCUCUCAUAGGGU(SEQ ID NO:10)、GUUUACACACUCCCUCUCAUGAGGU(SEQ ID NO:11)、UUUUACAUACCCCCUCUCAUGGGAU(SEQ ID NO:12)和GUUUACACACUCCCUCUCAUGGGGG(SEQ ID NO:13))。
表1提供了参考gRNA tracr、cr和支架序列的序列。在一些实施方案中,本公开提供了gRNA变体序列,其中gRNA具有包含相对于参考gRNA序列具有至少一个核苷酸修饰的序列的支架,该参考gRNA序列具有表1的SEQ ID NO:4-16中的任一者的序列。应当理解,在其中载体包含gRNA的DNA编码序列的那些实施方案中,或其中gRNA是RNA和DNA的嵌合体的那些实施方案中,胸腺嘧啶(T)碱基可取代本文所述的任何gRNA序列实施方案中的尿嘧啶(U)碱基。
表1:参考gRNA tracr、cr和支架序列
g.gRNA变体
在另一个方面,本公开涉及gRNA变体,其包含相对于参考gRNA支架的一个或多个修饰或衍生自另一个gRNA变体。如本文所用,“支架”是指gRNA功能所必需的gRNA的所有部分,但靶向序列除外。
在一些实施方案中,相对于本公开的参考gRNA序列,gRNA变体包含具有一个或多个核苷酸取代、插入、缺失、或交换或替换的区域。在一些实施方案中,突变可发生在参考gRNA支架的任何区域中以产生gRNA变体。在一些实施方案中,gRNA变体序列的支架与SEQID NO:4或SEQ ID NO:5的序列具有至少20%、至少30%、至少40%、至少50%、至少60%、或至少70%、至少80%、至少85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。在其它实施方案中,相对于本公开的gRNA变体序列,gRNA变体包含具有一个或多个核苷酸取代、插入、缺失、或交换或替换的区域。在一些实施方案中,gRNA变体序列的支架与SEQ ID NO:2238或SEQ ID NO:2239的序列具有至少50%、至少60%、或至少70%、至少80%、至少85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。
在一些实施方案中,gRNA变体包含参考gRNA支架的一个或多个区域内的一个或多个核苷酸变化,该gRNA支架变体改善了参考gRNA的特征。在其它实施方案中,gRNA变体包含在由其衍生自的gRNA变体支架的一个或多个区域内的一个或多个核苷酸变化,该gRNA变体相对于该gRNA改善了特征。示例性区域包括RNA三链体、假结、支架茎环和延伸茎环。在一些情况下,变体支架茎还包含泡。在其它情况下,变体支架还包含三链体环区域。在另一些情况下,变体支架还包含5'非结构化区域。在一些实施方案中,gRNA变体支架包含与SEQ IDNO:14具有至少60%序列同一性、至少70%序列同一性、至少80%序列同一性、至少90%序列同一性、至少95%序列同一性或至少99%序列同一性的支架茎环。在其它实施方案中,gRNA变体包含具有序列CCAGCGACUAUGUCGUAGUGG(SEQ ID NO:245)的支架茎环。在其它实施方案中,本公开提供了gRNA支架,其相对于SEQ ID NO:5包含C18G取代、G55插入、U1缺失和经修饰的延伸茎环中的一者或多者,其中最初的6nt环和13个最靠近环的碱基对(总计32个核苷酸)被Uvsx发夹(4nt环和5个靠近环的碱基对;总计14个核苷酸)替换,并且通过缺失A99和取代G65U,将延伸茎的环远端碱基转变为与新Uvsx发夹邻接的完全碱基配对的茎。在前述实施方案中,gRNA支架是gRNA变体174并且包含序列ACUGGCGCUUUUAUCUGAUUACUUUGAGAGCCAUCACCAGCGACUAUGUCGUAGUGGGUAAAGCUCCCUCUUCGGAGGGAGCAUCAAAG(SEQ ID NO:2238)。
当将变体gRNA与参考gRNA或经诱变以产生本文所述的新gRNA变体的gRNA变体进行比较时,具有一种或多种改善的特征或添加一种或多种新功能的所有gRNA变体被认为在本公开的范围内。此类gRNA变体的代表性示例是向导物235(SEQ ID NO:2292),其设计描述于实施例中。在一些实施方案中,gRNA变体向包含gRNA变体的RNP添加新功能。在一些实施方案中,gRNA变体具有改善的特征,该改善的特征选自:增加的稳定性;增加的gRNA的转录;增加的对核酸酶活性的抗性;增加的gRNA折叠速率;减少的折叠期间副产物的形成;增加的生产性折叠;增加的对CasX蛋白的结合亲和力;当与CasX蛋白复合时,增加的对靶核酸的结合亲和力;当与CasX蛋白复合时,增加的基因编辑;当与CasX蛋白复合时,增加的靶核酸编辑特异性;当与CasX蛋白复合时,降低的脱靶编辑;以及当与CasX蛋白以及任何组合复合时,在靶核酸的编辑中利用更广谱的一种或多种PAM序列(包括ATC、CTC、GTC或TTC)的增加能力。在一些情况下,与SEQ ID NO:4或SEQ ID NO:5的参考gRNA或者gRNA变体174或175相比,gRNA变体的该一种或多种改善的特征增加到至少约1.1倍至约100,000倍。在其它情况下,与SEQ ID NO:4或SEQ ID NO:5的参考gRNA或者gRNA变体174或175相比,gRNA变体的一种或多种改善的特征增加到至少约1.1倍、至少约10倍、至少约100倍、至少约1000倍、至少约10,000倍、至少约100,000倍或更多。在其它情况下,与SEQ ID NO:4或SEQ ID NO:5的参考gRNA或者gRNA变体174或175相比,gRNA变体的该一种或多种改善的特征增加到约1.1倍至100,00倍、约1.1倍至10,00倍、约1.1倍至1,000倍、约1.1倍至500倍、约1.1倍至100倍、约1.1倍至50倍、约1.1倍至20倍、约10倍至100,00倍、约10倍至10,00倍、约10倍至1,000倍、约10倍至500倍、约10倍至100倍、约10倍至50倍、约10倍至20倍、约2倍至70倍、约2倍至50倍、约2倍至30倍、约2倍至20倍、约2倍至10倍、约5倍至50倍、约5倍至30倍、约5倍至10倍、约100倍至100,00倍、约100倍至10,00倍、约100倍至1,000倍、约100倍至500倍、约500倍至100,00倍、约500倍至10,00倍、约500倍至1,000倍、约500倍至750倍、约1,000倍至100,00倍、约10,000倍至100,00倍、约20倍至500倍、约20倍至250倍、约20倍至200倍、约20倍至100倍、约20倍至50倍、约50倍至10,000倍、约50倍至1,000倍、约50倍至500倍、约50倍至200倍、或约50倍至100倍。在其它情况下,与SEQ ID NO:4或SEQ ID NO:5的参考gRNA或者gRNA变体174或175相比,gRNA变体的该一种或多种改善的特征增加到约1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、1.6倍、1.7倍、1.8倍、1.9倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍、15倍、16倍、17倍、18倍、19倍、20倍、25倍、30倍、40倍、45倍、50倍、55倍、60倍、70倍、80倍、90倍、100倍、110倍、120倍、130倍、140倍、150倍、160倍、170倍、180倍、190倍、200倍、210倍、220倍、230倍、240倍、250倍、260倍、270倍、280倍、290倍、300倍、310倍、320倍、330倍、340倍、350倍、360倍、370倍、380倍、390倍、400倍、425倍、450倍、475倍或500倍。
在一些实施方案中,新gRNA变体可通过使参考gRNA或gRNA变体经历一种或多种诱变方法来产生,诸如在以下实施例中的本文所述的诱变方法,这些诱变方法可包括深度突变进化(DME)、深度突变扫描(DMS)、易错PCR、盒式诱变、随机诱变、交错延伸PCR、基因改组或结构域交换,以便产生本公开的gRNA变体。经历诱变的参考gRNA或gRNA变体的活性可用作比较gRNA变体活性的基准,由此测量gRNA变体的功能的改善。在其它实施方案中,参考gRNA或gRNA可经历一个或多个有意的、靶向的突变、取代或结构域交换,以便产生gRNA变体,例如设计合理的变体。通过此类方法产生的示例性gRNA变体描述于实施例中,并且gRNA支架的代表性序列示于表2中。
在一些实施方案中,与参考gRNA或gRNA变体支架序列相比,gRNA变体包含一个或多个修饰,其中该一个或多个修饰选自:gRNA的区域中的至少一个核苷酸取代;gRNA的区域中的至少一个核苷酸缺失;gRNA的区域中的至少一个核苷酸插入;gRNA的区域的全部或一部分的取代;gRNA的区域的全部或一部分的缺失;或前述的任何组合。在一些情况下,该修饰是gRNA的一个或多个区域中1至15个连续或非连续核苷酸的取代。在其它情况下,该修饰是gRNA的一个或多个区域中1至10个连续或非连续核苷酸的缺失。在其它情况下,该修饰是gRNA的一个或多个区域中1至10个连续或非连续核苷酸的插入。在其它情况下,该修饰是用RNA茎环序列对支架茎环或延伸茎环的取代,该RNA茎环序列来自具有近端5'末端和3'末端的异源RNA来源。在一些情况下,本公开的gRNA变体包含相对于参考gRNA或gRNA变体的一个区域中的两个或更多个修饰。在其它情况下,本公开的gRNA变体包含两个或更多个区域中的修饰。在其它情况下,gRNA变体包含本段落中描述的前述修饰的任何组合。
在一些实施方案中,将5'G添加到相对于原始gRNA的gRNA变体序列中用于体内表达,因为当+1核苷酸为G时,来自U6启动子的转录在起始位点方面更有效且更一致。在其它实施方案中,添加两个5'G以产生gRNA变体序列,从而用于体外转录以增加生产效率,因为T7聚合酶强烈偏好+1位置的G和+2位置的嘌呤。在一些情况下,将5'G碱基添加到表1的参考支架中。在其它情况下,将5'G碱基添加到表2的变体支架中。
表2提供了示例性gRNA变体支架序列。在一些实施方案中,gRNA变体支架包含表2中列出的序列SEQ ID NO:2101-2332或2353-2398中的任一者,或与其具有至少约50%、至少约60%、至少约70%、至少约80%、至少约90%、至少约95%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%序列同一性的序列。在一些实施方案中,gRNA变体支架包含序列SEQ ID NO:2238-2332或2353-2398中的任一者,或与其具有至少约50%、至少约60%、至少约70%、至少约80%、至少约90%、至少约95%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%序列同一性的序列。在一些实施方案中,gRNA变体支架包含序列SEQ ID NO:2281-2332或2353-2398中的任一者,或与其具有至少约50%、至少约60%、至少约70%、至少约80%、至少约90%、至少约95%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%序列同一性的序列。应当理解,在其中载体包含gRNA的DNA编码序列的那些实施方案中,或其中gRNA是RNA和DNA的嵌合体的那些实施方案中,胸腺嘧啶(T)碱基可取代本文所述的任何gRNA序列实施方案中的尿嘧啶(U)碱基。
表2:示例性gRNA变体支架序列
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
在一些实施方案中,sgRNA变体包含对表2的SEQ ID NO:2238、SEQ ID NO:2239、SEQ ID NO:2240、SEQ ID NO:2241、SEQ ID NO:2243、SEQ ID NO:2256、SEQ ID NO:2274、SEQ ID NO:2275、SEQ ID NO:2279、SEQ ID NO:2281、SEQ ID NO:2285、SEQ ID NO:2289、SEQ ID NO:2292或SEQ ID NO:2308的序列的一个或多个附加修饰。
在本公开的gRNA变体的一些实施方案中,与SEQ ID NO:5的参考向导物支架相比,gRNA变体包含至少一个修饰,其中该至少一个修改选自以下项中的一者或多者:(a)三链体环中的C18G取代;(b)茎泡中的G55插入;(c)U1缺失;(d)延伸茎环的修饰,其中(i)6nt环和13个环-近端碱基对被Uvsx发夹替换;并且(ii)A99的缺失和G65U的取代产生完全碱基配对的环-远端碱基。
在一些实施方案中,gRNA变体包含具有长链非编码RNA(lncRNA)的外源茎环。如本文所用,lncRNA是指长度长于大约200bp的非编码RNA。在一些实施方案中,外源茎环的5'末端和3'末端是碱基配对的;即,相互作用以形成双链体RNA的区域。在一些实施方案中,外源茎环的5'末端和3'末端是碱基配对的,并且外源茎环的5'末端与3'末端之间的一个或多个区域不是碱基配对的,从而形成环。
在一些实施方案中,本公开提供了相对于参考gRNA具有核苷酸修饰的gRNA变体,该gRNA变体具有:(a)在gRNA变体的一个或多个区域中1至15个连续或非连续核苷酸的取代;(b)在gRNA变体的一个或多个区域中1至10个连续或非连续核苷酸的缺失;(c)在gRNA变体的一个或多个区域中1至10个连续或非连续核苷酸的插入;(d)用RNA茎环序列对支架茎环或延伸茎环的取代,该RNA茎环序列来自具有近端5'末端和3'末端的异源RNA来源;或(a)至(d)的任何组合。可组合本文所述的任何取代、插入和缺失以产生本公开的gRNA变体。例如,gRNA变体可包含相对于参考gRNA的至少一个取代和至少一个缺失,相对于参考gRNA的至少一个取代和至少一个插入,相对于参考gRNA的至少一个插入和至少一个缺失,或相对于参考gRNA的至少一个取代、一个插入和一个缺失。
在一些实施方案中,本公开的sgRNA变体包含对先前产生的变体的序列的一个或多个修饰,该先前产生的变体本身充当待修饰的序列。在一些情况下,将一个或多个修饰引入支架的假结区域。在其它情况下,将一个或多个修饰引入支架的三链体区域。在其它情况下,将一个或多个修饰引入支架泡中。在其它情况下,将一个或多个修饰引入支架的延伸茎区域。在其它情况下,将一个修饰引入两个或更多个前述区域中。此类修饰可包括在前述区域中插入、缺失或取代一个或多个核苷酸,或它们的任何组合。产生和评估修饰的示例性方法描述于实施例15中。
在一些实施方案中,sgRNA变体包含对SEQ ID NO:2238、SEQ ID NO:2239、SEQ IDNO:2240、SEQ ID NO:2241、SEQ ID NO:2241、SEQ ID NO:2274、SEQ ID NO:2275、SEQ IDNO:2279或SEQ ID NO:2285、SEQ ID NO:2289、SEQ ID NO:2292或SEQ ID NO:2308的序列的一个或多个修饰。
在示例性实施方案中,gRNA变体包含相对于gRNA支架变体174(SEQ ID NO:2238)的一个或多个修饰,其中当在可比较条件下在体外或体内测定中评估时,所得gRNA变体与亲本174相比表现出改善的功能特征。在其它示例性实施方案中,gRNA变体包含相对于gRNA支架变体175(SEQ ID NO:2239)的一个或多个修饰,其中当在可比较条件下在体外或体内测定中评估时,所得gRNA变体与亲本175相比表现出改善的功能特征。例如,具有对gRNA变体175的三链体环的修饰的变体示出了相对于175支架的高富集,特别是C15或C17的突变。另外,G7和A29之间的假结茎中预测对的任一成员的改变都相对于175支架高度富集,其中将A29转化为C或T以形成经典沃森-克里克配对(G7:C29),并且其中的第二个将形成GU摆动对(G7:U29),这两者都可预期增加螺旋相对于G:A对的稳定性。此外,在向导物支架175的位置54处插入C导致富集的修饰。
在一些实施方案中,本公开提供了gRNA变体,该gRNA变体包含对gRNA支架变体174(SEQ ID NO:2238)的一个或多个修饰,该一个或多个修饰选自表19的修饰,其中当在可比较条件下在体外或体内测定中评估时,所得gRNA变体与亲本174相比显示出改善的功能特征。在一些实施方案中,改善的功能特征是选自以下的一种或多种功能特性:增加的编辑活性、增加的假结茎稳定性、增加的三链体区域稳定性、增加的支架茎稳定性、延伸茎稳定性、减少的脱靶折叠中间体和增加的对2类V型CRISPR蛋白的结合亲和力。在前述实施方案中,在体外测定中,与SEQ ID NO:2238的gRNA支架的得分相比,包含选自表16的修饰(具有连接的靶向序列并且与2类V型CRISPR蛋白复合)的对gRNA支架变体174的一个或多个修饰的gRNA表现出至少约2.0、至少约2.5、至少约3或至少约3.5的改善的富集得分(log2)。
在一些实施方案中,本公开提供了gRNA变体,其包含选自表20的修饰的对gRNA支架变体175(SEQ ID NO:2239)的一个或多个修饰,其中当在可比较条件下在体外或体内测定中评估时,所得gRNA变体表现出与亲本175相比改善的功能特征。在一些实施方案中,改善的功能特征是选自以下的一种或多种功能特性:增加的编辑活性、增加的假结茎稳定性、增加的三链体区域稳定性、增加的支架茎稳定性、延伸茎稳定性、减少的脱靶折叠中间体和增加的对2类V型CRISPR蛋白的结合亲和力。在前述实施方案中,在体外测定中,与SEQ IDNO:2239的gRNA支架的得分相比,包含选自表16的修饰(具有连接的靶向序列并且与2类V型CRISPR蛋白复合)的对gRNA支架变体175的一个或多个修饰的gRNA表现出至少约1.2、至少约1.5、至少约2.0、至少约2.5、至少约3或至少约3.5的改善的富集得分(log2)。
在具体实施方案中,gRNA支架变体174的该一个或多个修饰选自核苷酸位置U11、U24、A29、U65、C66、C68、A69、U76、G77、A79和A87。在具体实施方案中,gRNA支架变体174的修饰是U11C、U24C、A29C、U65C、C66G、C68U、在位置69处插入ACGGA、在位置76处插入UCCGU、G77A、在位置79处插入GA、A87G。在另一个具体实施方案中,gRNA支架变体175的修饰选自核苷酸位置C9、U11、C17、U24、A29、G54、C65、A89和A96。在具体实施方案中,gRNA支架变体174的修饰是C9U、U11C、C17G、U24C、A29C、在位置54处插入G、在位置65处插入C、A89G和A96G。
在示例性实施方案中,gRNA变体包含相对于gRNA支架变体215(SEQ ID NO:2275)的一个或多个修饰,其中当在可比较条件下在体外或体内测定中评估时,所得gRNA变体与亲本215相比表现出改善的功能特征。
在示例性实施方案中,gRNA变体包含相对于gRNA支架变体221(SEQ ID NO:2281)的一个或多个修饰,其中当在可比较条件下在体外或体内测定中评估时,所得gRNA变体与亲本221相比表现出改善的功能特征。
在示例性实施方案中,gRNA变体包含相对于gRNA支架变体225(SEQ ID NO:2285)的一个或多个修饰,其中当在可比较条件下在体外或体内测定中评估时,所得gRNA变体与亲本225相比表现出改善的功能特征。
在示例性实施方案中,gRNA变体包含相对于gRNA支架变体235(SEQ ID NO:2292)的一个或多个修饰,其中当在可比较条件下在体外或体内测定中评估时,所得gRNA变体与亲本225相比表现出改善的功能特征。
在示例性实施方案中,gRNA变体包含相对于gRNA支架变体251(SEQ ID NO:2308)的一个或多个修饰,其中当在可比较条件下在体外或体内测定中评估时,所得gRNA变体与亲本251相比表现出改善的功能特征。
在前述实施方案中,改善的功能特征包括但不限于以下中的一种或多种:增加的稳定性、增加的gRNA转录、增加的对核酸酶活性的抗性、增加的gRNA折叠速率、降低的折叠期间副产物形成、增加的生产性折叠、增加的对CasX蛋白的结合亲和力、当与CasX蛋白复合时增加的对靶核酸的结合亲和力、当与CasX蛋白复合时增加的基因编辑、当与CasX蛋白复合时增加的编辑特异性、当与CasX蛋白复合时减少的脱靶编辑、以及当与CasX蛋白复合时在靶核酸的修饰中利用更广谱的一种或多种PAM序列(包括ATC、CTC、GTC或TTC)的能力增加。在一些情况下,与由其衍生的gRNA相比,gRNA变体的该一种或多种改善的特征改善了至少约1.1倍至约100,000倍。在其它情况下,与由其衍生的gRNA相比,gRNA变体的这些改善的特征中的一者或多者改善了至少约1.1倍、至少约10倍、至少约100倍、至少约1000倍、至少约10,000倍、至少约100,000倍或更多。在其它情况下,与由其衍生的gRNA相比,gRNA变体的该一种或多种改善的特征改善了约1.1倍至100,00倍、约1.1倍至10,00倍、约1.1倍至1,000倍、约1.1倍至500倍、约1.1倍至100倍、约1.1倍至50倍、约1.1倍至20倍、约10倍至100,00倍、约10倍至10,00倍、约10倍至1,000倍、约10倍至500倍、约10倍至100倍、约10倍至50倍、约10倍至20倍、约2倍至70倍、约2倍至50倍、约2倍至30倍、约2倍至20倍、约2倍至10倍、约5倍至50倍、约5倍至30倍、约5倍至10倍、约100倍至100,00倍、约100倍至10,00倍、约100倍至1,000倍、约100倍至500倍、约500倍至100,00倍、约500倍至10,00倍、约500倍至1,000倍、约500倍至750倍、约1,000倍至100,00倍、约10,000倍至100,00倍、约20倍至500倍、约20倍至250倍、约20倍至200倍、约20倍至100倍、约20倍至50倍、约50倍至10,000倍、约50倍至1,000倍、约50倍至500倍、约50倍至200倍、或约50倍至100倍。在其它情况下,与由其衍生的gRNA相比,gRNA变体的该一种或多种改善的特征改善了约1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、1.6倍、1.7倍、1.8倍、1.9倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍、15倍、16倍、17倍、18倍、19倍、20倍、25倍、30倍、40倍、45倍、50倍、55倍、60倍、70倍、80倍、90倍、100倍、110倍、120倍、130倍、140倍、150倍、160倍、170倍、180倍、190倍、200倍、210倍、220倍、230倍、240倍、250倍、260倍、270倍、280倍、290倍、300倍、310倍、320倍、330倍、340倍、350倍、360倍、370倍、380倍、390倍、400倍、425倍、450倍、475倍或500倍。
在一些实施方案中,gRNA变体包含外源延伸茎环,其中与参考gRNA的此类差异如下所述。在一些实施方案中,外源延伸茎环与本文公开的参考茎环区域(例如,SEQ ID NO:15)几乎没有同一性或没有同一性。在一些实施方案中,外源茎环为至少10bp、至少20bp、至少30bp、至少40bp、至少50bp、至少60bp、至少70bp、至少80bp、至少90bp、至少100bp、至少200bp、至少300bp、至少400bp、至少500bp、至少600bp、至少700bp、至少800bp、至少900bp、至少1,000bp、至少2,000bp、至少3,000bp、至少4,000bp、至少5,000bp、至少6,000bp、至少7,000bp、至少8,000bp、至少9,000bp、至少10,000bp、至少12,000bp、至少15,000bp或至少20,000bp。在一些实施方案中,gRNA变体包含延伸茎环区域,该延伸茎环区域包含至少10个、至少100个、至少500个、至少1000个或至少10,000个核苷酸。在一些实施方案中,异源茎环增加gRNA的稳定性。在一些实施方案中,异源RNA茎环能够结合蛋白质、RNA结构、DNA序列或小分子。在一些实施方案中,替换该茎环的外源茎环区域包含RNA茎环或发夹,其中所得gRNA具有增加的稳定性,并且取决于环的选择可与某些细胞蛋白或RNA相互作用。此类外源延伸茎环可包含例如热稳定RNA,诸如MS2发夹(ACAUGAGGAUCACCCAUGU(SEQ ID NO:1137))、Qβ发夹(UGCAUGUCUAAGACAGCA(SEQ ID NO:32))、U1发夹II(AAUCCAUUGCACUCCGGAUU(SEQ IDNO:33))、Uvsx(CCUCUUCGGAGG(SEQ ID NO:34))、PP7发夹(AGGAGUUUCUAUGGAAACCCU(SEQ IDNO:35))、噬菌体复制环(AGGUGGGACGACCUCUCGGUCGUCCUAUCU(SEQ ID NO:36))、吻式环_a(UGCUCGCUCCGUUCGAGCA(SEQ ID NO:37))、吻式环_b1(UGCUCGACGCGUCCUCGAGCA(SEQ IDNO:38))、吻式环_b2(UGCUCGUUUGCGGCUACGAGCA(SEQ ID NO:39))、G四重M3q(AGGGAGGGAGGGAGAGG(SEQ ID NO:40))、G四重端粒篮(GGUUAGGGUUAGGGUUAGG(SEQ ID NO:41))、Sarcin-ricin环(CUGCUCAGUACGAGAGGAACCGCAG(SEQ ID NO:42))或假结(UACACUGGGAUCGCUGAAUUAGAGAUCGGCGUCCUUUCAUUCUAUAUACUUUGGAGUUUUAAAAUGUCUCUAAGUACA(SEQ IDNO:43))。在一些实施方案中,将前述发夹序列中的一者掺入到茎环中,以便于在将配对配体结合到XDP的Gag多蛋白中时将gRNA(以及RNP复合物中的相关CasX)的掺入物运输至出芽XDP中(下文更全面地描述)。
在一些实施方案中,gRNA变体包含末端融合配偶体。术语gRNA变体包括包括外源序列诸如末端融合或内部插入的变体。示例性末端融合可包括gRNA与自切割核酶或蛋白结合基序的融合。如本文所用,“核酶”是指具有类似于蛋白酶的一种或多种催化活性的RNA或其片段。示例性核酶催化活性可包括例如RNA的切割和/或连接、DNA的切割和/或连接、或肽键形成。在一些实施方案中,此类融合可改善支架折叠或募集DNA修复机制。例如,在一些实施方案中,gRNA可与丁型肝炎病毒(HDV)反基因组核酶、HDV基因组核酶、hatchet核酶(来自宏基因组数据)、env25手枪核酶(腐烂别样杆菌(Aliistipes putredinis)的代表)、HH15最小锤头状核酶、烟草环斑病毒(TRSV)核酶、WT病毒锤头状核酶(和合理变体)或TwistedSister 1或RBMX募集基序融合。锤头状核酶是在RNA分子内的特定位点处催化可逆切割和连接反应的RNA基序。锤头状核酶包括I型、II型和III型锤头状核酶。HDV、手枪和hatchet核酶具有自切割活性。与gRNA参考相比,包含一个或多个核酶的gRNA变体可允许扩展的gRNA功能。例如,在一些实施方案中,包含自切割核酶的gRNA可作为多顺反子转录物的一部分被转录和加工成成熟gRNA。这种融合可发生在gRNA的5'或3'端。在一些实施方案中,gRNA变体在5'和3'端均包含融合体,其中每个融合体独立地如本文所述。
在gRNA变体的实施方案中,gRNA变体还包含位于gRNA的3'末端的间隔区(或靶向序列)区域,该gRNA变体能够与靶核酸杂交,该靶核酸包含至少14至约35个核苷酸,其中该间隔区设计有与靶核酸互补的序列。在一些实施方案中,经编码的gRNA变体包含与靶核酸互补的具有至少10至20个核苷酸的靶向序列。在一些实施方案中,靶向序列具有14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。在一些实施方案中,经编码的gRNA变体包含具有20个核苷酸的靶向序列。在一些实施方案中,靶向序列具有25个核苷酸。在一些实施方案中,靶向序列具有24个核苷酸。在一些实施方案中,靶向序列具有23个核苷酸。在一些实施方案中,靶向序列具有22个核苷酸。在一些实施方案中,靶向序列具有21个核苷酸。在一些实施方案中,靶向序列具有20个核苷酸。在一些实施方案中,靶向序列具有19个核苷酸。在一些实施方案中,靶向序列具有18个核苷酸。在一些实施方案中,靶向序列具有17个核苷酸。在一些实施方案中,靶向序列具有16个核苷酸。在一些实施方案中,靶向序列具有15个核苷酸。在一些实施方案中,靶向序列具有14个核苷酸。
h.与2类V型蛋白的复合物形成
在一些实施方案中,在表达后,gRNA变体作为RNP与包括CasX变体蛋白的2类V型蛋白复合,该CasX变体蛋白包含表3的序列SEQ ID NO:247-592或1147-1231中的任一者,或与其具有至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。在一些实施方案中,在表达后,gRNA变体作为RNP与CasX变体蛋白复合,该CasX变体蛋白包含序列SEQ ID NO:270-592或1147-1231中的任一者,或与其具有至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。在一些实施方案中,在表达后,gRNA变体作为RNP与CasX变体蛋白复合,该CasX变体蛋白包含序列SEQ ID NO:415-592或1147-1231中的任一者,或与其具有至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。
在一些实施方案中,当与参考gRNA相比时,gRNA变体具有改善的与CasX变体蛋白形成复合物的能力,由此改善其与CasX蛋白形成切割能力核糖核蛋白(RNP)复合物的功能,如实施例中所述。在一些实施方案中,改善核糖核蛋白复合物的形成可以提高功能性RNP的组装效率。在一些实施方案中,大于90%、大于93%、大于95%、大于96%、大于97%、大于98%或大于99%的RNP(其包含gRNA变体及其靶向序列)能够用于靶核酸的基因编辑。
在一些实施方案中,可改善gRNA变体与CasX蛋白形成复合物的能力的示例性核苷酸变化可包括用热稳定茎环替换支架茎。不希望受任何理论束缚,用热稳定茎环替换支架茎可增加gRNA变体与CasX蛋白的总体结合稳定性。另选地,或除此之外,去除茎环的一大部分可改变gRNA变体折叠动力学,并使功能性折叠gRNA更容易且更快地进行结构组装,例如通过降低gRNA变体自身可“缠结”的程度。在一些实施方案中,支架茎环序列的选择可随着用于gRNA的不同靶向序列而变化。在一些实施方案中,支架序列可针对靶向序列并因此针对靶序列定制。生化测定可用于评价CasX蛋白对gRNA变体形成RNP的结合亲和力,包括实施例的测定。例如,普通技术人员可测量与固定化CasX蛋白结合的荧光标记gRNA的量的变化,作为对另外的未标记的“冷竞争物”gRNA浓度增加的响应。另选地,或除此之外,当不同量的荧光标记gRNA流过固定化CasX蛋白时,可监测荧光信号或观察荧光信号如何变化。另选地,形成RNP的能力可使用针对确定的靶核酸序列的体外切割测定法来评估,如实施例中所述。
i.经化学修饰的gRNA
在一些实施方案中,本公开提供了经化学修饰的gRNA。在一些实施方案中,本公开提供了经化学修饰的gRNA,其具有向导NA功能性并且具有降低的对核酸酶切割的敏感性。包含除四种经典核糖核苷酸A、C、G和U以外的任何核苷酸或脱氧核苷酸的gRNA是经化学修饰的gRNA。在一些情况下,经化学修饰的gRNA包含除天然磷酸二酯核苷酸间键以外的任何主链或核苷酸间键。在某些实施方案中,保留的功能性包括经修饰的gRNA与本文所述的任何实施方案的CasX结合的能力。在某些实施方案中,保留的功能性包括经修饰的gRNA与靶核酸序列结合的能力。在某些实施方案中,保留的功能性包括靶向CasX蛋白或者预复合RNP与靶核酸序列结合的能力。在某些实施方案中,保留的功能性包括通过CasX-gRNA切割靶多核苷酸的能力。在某些实施方案中,保留的功能性包括通过CasX-gRNA切割靶核酸序列的能力。在某些实施方案中,保留的功能性是在具有本公开的实施方案的CasX嵌合蛋白的重组系统中gRNA的任何其它已知功能。
在一些实施方案中,本公开提供了经化学修饰的gRNA,其中核苷酸糖修饰掺入到gRNA中,该核苷酸糖修饰选自2'-O-C1-4烷基诸如2'-O-甲基(2'-OMe)、2'-脱氧(2'-H)、2'-O-C1-3烷基-O-C1-3烷基诸如2'-甲氧基乙基(“2'-MOE”)、2'-氟(“2'-F”)、2'-氨基(“2'-NH2”)、2'-阿拉伯糖基(“2'-阿拉伯糖”)核苷酸、2'-F-阿拉伯糖基(“2'-F-阿拉伯糖”)核苷酸、2'-锁核酸(“LNA”)核苷酸、2'-解锁核酸(“ULNA”)核苷酸、L型糖(“L-糖”)和4'-硫代核糖基核苷酸。在其它实施方案中,掺入到向导RNA中的核苷酸间连接修饰选自:硫代磷酸酯“P(S)”(P(S))、膦酰基羧酸酯(P(CH2)nCOOR)诸如膦酰基乙酸酯“PACE”(P(CH2COO-))、硫代膦酰基羧酸酯((S)P(CH2)nCOOR)诸如硫代膦酰基乙酸酯、“thioPACE”((S)P(CH2)nCOO-))、烷基膦酸酯(P(C1-3烷基)诸如甲基膦酸酯-P(CH3)、硼烷膦酸酯(P(BH3))和二硫代磷酸酯(P(S)2)。
在某些实施方案中,本公开提供了经化学修饰的gRNA,其中核碱基(“碱基”)修饰掺入到gRNA中,该修饰选自:2-硫尿嘧啶(“2-thioU”)、2-硫胞嘧啶(“2-thioC”)、4-硫尿嘧啶(“4-thioU”)、6-硫鸟嘌呤(“6-thioG”)、2-氨基腺嘌呤(“2-aminoA”)、2-氨基嘌呤、假尿嘧啶、次黄嘌呤、7-脱氮鸟嘌呤、7-脱氮-8-氮杂鸟嘌呤、7-脱氮腺嘌呤、7-脱氮-8-氮杂腺嘌呤、5-甲基胞嘧啶(“5-methylC”)、5-甲基尿嘧啶(“5-methylU”)、5-羟甲基胞嘧啶、5-羟甲基尿嘧啶、5,6-二氢尿嘧啶、5-丙炔基胞嘧啶、5-丙炔基尿嘧啶、5-乙基胞嘧啶、5-乙炔基尿嘧啶、5-烯丙基尿嘧啶(“5-allylU”)、5-烯丙基胞嘧啶(“5-allylC”)、5-氨基烯丙基尿嘧啶(“5-aminoallylU”)、5-氨基烯丙基胞嘧啶(“5-aminoallylC”)、脱碱基核苷酸、Z碱基、P碱基、非结构化核酸(“UNA”)、异鸟嘌呤(“isoG”)、异胞嘧啶(“isoC”)、5-甲基-2-嘧啶、x(A,G,C,T)和y(A,G,C,T)。
在其它实施方案中,本公开提供了经化学修饰的gRNA,其中在核苷酸糖、核碱基、磷酸二酯键和/或核苷酸磷酸上引入一个或多个同位素修饰,包括包含一个或多个15N、13C、14C、氘、3H、32P、125I、131I原子或用作示踪剂的其它原子或元素的核苷酸。
在一些实施方案中,掺入gRNA中的“末端”修饰选自下组:PEG(聚乙二醇)、烃接头(包括:杂原子(O,S,N)取代的烃间隔区;卤素取代的烃间隔区;酮基-、羧基-、酰氨基-、亚硫酰基-、氨基甲酰基-、含硫代氨基甲酰基的烃间隔区)、精胺接头、染料(包括与接头诸如例如6-荧光素-己基连接的荧光染料(例如荧光素、罗丹明、花青素))、猝灭剂(例如dabcyl、BHQ)和其它标记(例如生物素、地高辛、吖啶、链霉亲和素、抗生物素蛋白、肽和/或蛋白)。在一些实施方案中,“末端”修饰包括gRNA与包含脱氧核苷酸和/或核糖核苷酸的寡核苷酸、肽、蛋白、糖、寡糖、类固醇、脂质、叶酸、维生素和/或其它分子的另一分子的缀合(或连接)。在某些实施方案中,本公开提供了经化学修饰的gRNA,其中“末端”修饰(如上所述)经由接头(诸如例如2-(4-丁基氨基荧光素)丙烷-1,3-二醇双(磷酸二酯酶)接头)位于gRNA序列内部,该接头作为磷酸二酯键掺入并且可掺入gRNA中两个核苷酸之间的任何地方。
在一些实施方案中,本公开提供了具有末端修饰的经化学修饰的gRNA,该末端修饰包含末端官能团,诸如胺、硫醇(或巯基)、羟基、羧基、羰基、亚硫酰基、硫代羰基、氨基甲酰基、硫代氨基甲酰基、磷酰、烯烃、炔烃、卤素或官能团封端的接头,该接头可随后与选自以下项的期望部分缀合:荧光染料、非荧光标记、标签(对于14C,示例生物素、抗生物素蛋白、链霉亲和素,或含有同位素标记诸如15N、13C、氘、3H、32P、125I等的部分)、寡核苷酸(包含脱氧核苷酸和/或核糖核苷酸,包括核酸适配体)、氨基酸、肽、蛋白、糖、寡糖、类固醇、脂质、叶酸和维生素。缀合采用本领域熟知的标准化学,包括但不限于经由N-羟基琥珀酰亚胺、异硫氰酸酯、DCC(或DCI)的偶联,和/或如在以下文献中所述的任何其它标准方法:“BioconjugateTechniques”,Greg T.Hermanson,Publisher Eslsevier Science,第3版,2013年,其内容以引用方式整体并入本文。
IV.用于修饰靶核酸的2类V型CRISPR蛋白
本公开提供了包含CRISPR核酸酶的系统,该核酸酶在真核细胞的基因组编辑中具有效用。在一些实施方案中,基因组编辑系统中采用的CRISPR核酸酶是2类V型核酸酶。尽管2类V型CRISPR Cas系统中的成员具有差异,但它们共有一些将它们与Cas9系统区分开的共同特征。首先,2类V型核酸酶具有单一RNA指导的效应子(其含RuvC结构域但不含HNH结构域),并且这些核酸酶识别TC基序PAM 5'上游至非靶向链上的靶区域,这不同于在靶序列的3'侧依赖于富含G的PAM的Cas9系统。不同于Cas9在靠近PAM的近端位点产生平端,V型核酸酶在PAM序列的远端产生交错的双链断裂。此外,当由靶dsDNA或以顺式方式结合的ssDNA进行激活时,V型核酸酶以反式方式降解ssDNA。在一些实施方案中,实施方案的V型核酸酶识别5'-TC PAM基序并产生仅由RuvC结构域切割的交错末端。在一些实施方案中,V型核酸酶选自Cas12a、Cas12b、Cas12c、Cas12d(CasY)、Cas12j、Cas12k、C2c4、C2c8、C2c5、C2c10、C2c9、CasZ和CasX。在一些实施方案中,本公开提供了包含CasX变体蛋白和一种或多种gRNA变体的系统(CasX:gRNA系统),这些系统被特别设计成修饰真核细胞中的靶核酸序列。
如本文所用,术语“CasX蛋白”是指蛋白家族,并且包括所有天然存在的CasX蛋白、与天然存在的CasX蛋白具有至少50%同一性的蛋白,以及相对于天然存在的参考CasX蛋白或由其衍生的另一种CasX变体具有一种或多种改善的特征的CasX变体。
本公开的CasX蛋白包含以下结构域中的至少一者:非靶链结合(NTSB)结构域、靶链加载(TSL)结构域、螺旋I结构域(其进一步分为螺旋I-I和I-II亚结构域)、螺旋II结构域、寡核苷酸结合结构域(OBD,其进一步分为OBD-I和OBD-II亚结构域)和RuvC DNA切割结构域(其进一步分为RuvC-I和II亚结构域)。RuvC结构域可在催化死亡的CasX变体中被修饰或缺失,下文将更全面地描述。
在一些实施方案中,CasX蛋白可结合和/或修饰(例如,切口、催化双链断裂、甲基化、去甲基化等)由相关gRNA靶向的特定序列处的靶核酸,该相关gRNA与靶核酸序列内的序列杂交。
a.参考CasX蛋白
本公开提供了天然存在的CasX蛋白(本文称为“参考CasX蛋白”),其随后被修饰以产生本公开的CasX变体。例如,参考CasX蛋白可分离自天然存在的原核生物,诸如δ-变形菌纲(Deltaproteobacteria)、浮霉菌门(Planctomycetes)或Candidatus Sungbacteria菌种。参考CasX蛋白是属于CasX(可互换地称为Cas12e)蛋白家族的II型CRISPR/Cas核酸内切酶,其与向导RNA相互作用以形成核糖核蛋白(RNP)复合物。
在一些情况下,参考CasX蛋白分离自或源自δ-变形菌纲,其具有以下序列:
在一些情况下,参考CasX蛋白分离自或源自浮霉菌门,其具有以下序列:
在一些情况下,参考CasX蛋白分离自或源自Candidatus Sungbacteria,其具有以下序列:
b.2类V型CasX变体蛋白
本公开提供了参考CasX蛋白的2类V型CasX变体或源自其它CasX变体的变体(参见,例如图44)(在本文中可互换地称为“2类V型CasX变体”、“CasX变体”或“CasX变体蛋白”),其中2类V型CasX变体相对于参考CasX蛋白在至少一个结构域包含至少一个修饰,包括但不限于SEQ ID NO:1-3的序列,或相对于另一个CasX变体包含至少一个修饰。导致CasX蛋白的改善的特征的参考CasX蛋白或另一种CasX变体蛋白的氨基酸序列的任何变化被认为是本公开的CasX变体蛋白。例如,CasX变体可包含相对于参考CasX蛋白序列的一个或多个氨基酸取代、插入、缺失或交换结构域或它们的任何组合。
本公开的CasX变体与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白或由其衍生的变体相比具有一种或多种改善的特征;例如CasX 491(SEQ ID NO:336)或CasX 515(SEQ ID NO:416)。CasX变体实施方案的示例性改善的特征包括但不限于改善的变体折叠、增加的对gRNA的结合亲和力、增加的对靶核酸的结合亲和力、改善的在靶核酸的编辑和/或结合中利用更广谱的PAM序列的能力、改善的靶DNA的解旋、增加的编辑活性、改善的编辑效率、改善的编辑特异性、增加的对靶核酸的编辑特异性、减少的脱靶编辑或切割、增加的可有效编辑的真核基因组的百分比、增加的核酸酶活性、增加的用于双链切割的靶链加载、减少的用于单链切口的靶链加载、改善的DNA非靶链的结合、改善的蛋白质稳定性、改善的蛋白质:gRNA(RNP)复合物稳定性和改善的融合特征。在前述实施方案中,当以可比较的方式测定时,与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白或CasX491(SEQ ID NO:336)或CasX 515(SEQ ID NO:416)相比,CasX变体的该一种或多种改善的特征改善了至少约1.1倍至约100,000倍。在其它实施方案中,当以可比较的方式测定时,与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白或CasX 491或CasX 515相比,该改善为至少约1.1倍、至少约2倍、至少约5倍、至少约10倍、至少约50倍、至少约100倍、至少约500倍、至少约1000倍、至少约5000倍、至少约10,000倍或至少约100,000倍。在其它情况下,与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白和表1的gRNA或者CasX491或CasX 515以及gRNA 174的RNP相比,CasX变体和gRNA变体的RNP的一种或多种改善的特征改善了至少约1.1倍、至少约10倍、至少约100倍、至少约1000倍、至少约10,000倍、至少约100,000倍或更多。在其它情况下,当以可比较的方式测定时,与SEQ ID NO:1、SEQ IDNO:2或SEQ ID NO:3的参考CasX蛋白和表1的gRNA或者CasX 491或CasX 515以及gRNA 174的RNP相比,CasX变体和gRNA变体的RNP的该一种或多种改善的特征改善了约1.1倍至100,00倍、约1.1倍至10,00倍、约1.1倍至1,000倍、约1.1倍至500倍、约1.1倍至100倍、约1.1倍至50倍、约1.1倍至20倍、约10倍至100,00倍、约10倍至10,00倍、约10倍至1,000倍、约10倍至500倍、约10倍至100倍、约10倍至50倍、约10倍至20倍、约2倍至70倍、约2倍至50倍、约2倍至30倍、约2倍至20倍、约2倍至10倍、约5倍至50倍、约5倍至30倍、约5倍至10倍、约100倍至100,00倍、约100倍至10,00倍、约100倍至1,000倍、约100倍至500倍、约500倍至100,00倍、约500倍至10,00倍、约500倍至1,000倍、约500倍至750倍、约1,000倍至100,00倍、约10,000倍至100,00倍、约20倍至500倍、约20倍至250倍、约20倍至200倍、约20倍至100倍、约20倍至50倍、约50倍至10,000倍、约50倍至1,000倍、约50倍至500倍、约50倍至200倍、或约50倍至100倍。在其它情况下,当以可比较的方式测定时,与SEQ ID NO:1、SEQ ID NO:2或SEQ IDNO:3的参考CasX蛋白和表1的gRNA或者CasX 491或CasX 515以及gRNA 174的RNP相比,CasX变体和gRNA变体的RNP的一种或多种改善的特征改善了约1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、1.6倍、1.7倍、1.8倍、1.9倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍、15倍、16倍、17倍、18倍、19倍、20倍、25倍、30倍、40倍、45倍、50倍、55倍、60倍、70倍、80倍、90倍、100倍、110倍、120倍、130倍、140倍、150倍、160倍、170倍、180倍、190倍、200倍、210倍、220倍、230倍、240倍、250倍、260倍、270倍、280倍、290倍、300倍、310倍、320倍、330倍、340倍、350倍、360倍、370倍、380倍、390倍、400倍、425倍、450倍、475倍或500倍。
在一些实施方案中,CasX变体的修饰是参考CasX的一个或多个氨基酸中的突变。在其它实施方案中,修饰是插入或取代来自不同CasX蛋白的结构域的部分或全部。在具体实施方案中,SEQ ID NO:415-592和1147-1231的CasX变体具有SEQ ID NO:1的NTSB和螺旋1B结构域,而除了本文所述的选择结构域的单个修饰之外,其它结构域源自SEQ ID NO:2。突变可引入参考CasX蛋白的任一个或多个结构域中或CasX变体中以产生CasX变体,并且可包括例如一个或多个结构域的部分或全部的缺失,或者参考CasX蛋白质或由其衍生的CasX变体的任何结构域中的一个或多个氨基酸取代、缺失或插入。CasX蛋白的结构域包括非靶链结合(NTSB)结构域、靶链加载(TSL)结构域、螺旋I结构域、螺旋II结构域、寡核苷酸结合结构域(OBD)和RuvC DNA切割结构域。不受理论或机制束缚,CasX中的NTSB结构域允许结合非靶核酸链并且可帮助非靶链和靶链的解旋。推测NTSB结构域负责解旋或捕获解旋状态的非靶核酸链。示例性NTSB结构域包含SEQ ID NO:1的氨基酸100-190或SEQ ID NO:2的氨基酸102-191。在一些实施方案中,参考CasX蛋白的NTSB结构域包含四链β片。在一些实施方案中,TSL用于以折叠状态放置或捕获靶链,该折叠状态将靶链DNA主链的易裂磷酸酯放置在RuvC活性位点中。示例性TSL包含SEQ ID NO:1的氨基酸824-933或SEQ ID NO:2的氨基酸811-920。不希望受理论束缚,认为在一些情况下,螺旋I结构域可有助于原间隔序列相邻基序(PAM)的结合。在一些实施方案中,参考CasX蛋白的螺旋I结构域包含一个或多个α螺旋。示例性螺旋I_I和I-II结构域分别包含SEQ ID NO:1的氨基酸56-99和191-331,或分别包含SEQ ID NO:2的氨基酸58-101和192-332。螺旋II结构域负责与向导RNA支架茎环以及结合的DNA结合。示例性螺旋II结构域包含SEQ ID NO:1的氨基酸332-508,或SEQ ID NO:2的氨基酸333-500。OBD主要结合向导RNA支架的RNA三链体。OBD还可负责结合原间隔序列相邻基序(PAM)。示例性OBD I和II结构域分别包含SEQ ID NO:1的氨基酸1-55和509-659,或分别包含SEQ ID NO:2的氨基酸1-57和501-646。RuvC具有DED基序活性位点,其负责切割DNA的两条链(一条接一条,最可能首先在11-14个核苷酸(nt)处将非靶链切割成靶序列,然后在靶序列之后的2-4个核苷酸处切割靶链,从而导致交错切割)。特别是在CasX中,RuvC结构域是独特的,因为它还负责结合对CasX功能关键的向导RNA支架茎环。示例性RuvC I和II结构域分别包含SEQ ID NO:1的氨基酸660-823和934-986,或分别包含SEQ ID NO:2的氨基酸647-810和921-978,而CasX变体可包含相对于SEQ ID NO:2在位置I658和A708处的突变,或下文所述的CasX 515的突变。
在一些实施方案中,CasX变体蛋白在参考CasX蛋白(包括SEQ ID NO:1-3的序列)的至少1个结构域、至少2个结构域的每个结构域、至少3个结构域的每个结构域、至少4个结构域的每个结构域或至少5个结构域的每个结构域中包含至少一个修饰。在一些实施方案中,CasX变体蛋白在参考CasX蛋白的至少一个结构域中包含两个或更多个修饰。在一些实施方案中,CasX变体蛋白在参考CasX蛋白的至少一个结构域中包含至少两个修饰,在参考CasX蛋白的至少一个结构域中包含至少三个修饰,或者在参考CasX蛋白的至少一个结构域中包含至少四个或更多个修饰。在一些实施方案中,其中与参考CasX蛋白相比,CasX变体包含两个或更多个修饰,并且每个修饰在独立地选自NTSB、TSL、螺旋I结构域、螺旋II结构域、OBD和RuvC DNA切割结构域的结构域中进行。在一些实施方案中,其中与参考CasX蛋白相比,CasX变体包含两个或更多个修饰,在两个或更多个结构域中进行修饰。在一些实施方案中,CasX变体蛋白的至少一个修饰包含SEQ ID NO:1-3的参考CasX蛋白的一个结构域的至少一部分的缺失。在一些实施方案中,缺失位于NTSB结构域、TSL结构域、螺旋I结构域、螺旋II结构域、OBD或RuvC DNA切割结构域中。
在一些情况下,本公开的CasX变体在可包含一个或多个结构域的结构区域中包含修饰。在一些实施方案中,CasX变体包含CasX变体的非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基形成其中发生gRNA:靶核酸与CasX变体复合的通道。在其它实施方案中,CasX变体包含CasX变体的非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基形成与gRNA结合的界面。在其它实施方案中,CasX变体包含CasX变体的非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基形成与非靶链DNA结合的通道。在其它实施方案中,CasX变体包含CasX变体的非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基形成与靶核酸的原间隔序列相邻基序(PAM)结合的界面。在其它实施方案中,CasX变体包含CasX变体的非邻接表面暴露氨基酸残基的区域的至少一个修饰。在其它实施方案中,CasX变体包含非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基通过疏水堆积在CasX变体的结构域中形成核心。在本段落的前述实施方案中,该区域的修饰可包括该区域的一个或多个氨基酸的缺失、插入或取代中的一者或多者;或者CasX变体的区域的2至15个氨基酸残基被带电荷氨基酸取代;或者CasX变体的区域的2至15个氨基酸残基被极性氨基酸取代;或者CasX变体的区域的2至15个氨基酸残基被堆叠或与DNA或RNA碱基具有亲和力的氨基酸取代。
在其它实施方案中,本公开提供了CasX变体,其中这些CasX变体包含相对于另一CasX变体的至少一个修饰;例如,CasX变体515和527是CasX变体491的变体,并且CasX变体668和672是CasX 535的变体(参见,图44)。在一些实施方案中,该至少一个修饰选自氨基酸插入、缺失或取代。当与本文所述的参考CasX蛋白或由其衍生的变体相比时,改善CasX变体蛋白的一种或多种功能或特征的所有变体被认为在本公开的范围内。如实施例中所述,可诱变CasX变体以产生另一个CasX变体。在具体实施方案中,在实施例14中,本公开提供了通过向编码序列引入修饰而产生的CasX 515(SEQ ID NO:416)的变体,导致在一个或多个结构域中的一个或多个位置处的氨基酸取代、缺失或插入。
用于产生本公开的CasX变体蛋白的合适诱变方法可包括例如深度突变进化(DME)、深度突变扫描(DMS)、易错PCR、盒式诱变、随机诱变、交错延伸PCR、基因改组或结构域交换(描述于PCT/US20/36506和WO2020247883A2中,这些文献以引用方式并入本文)。在一些实施方案中,设计CasX变体,例如通过在鉴定的CasX变体中选择多个期望的突变,例如使用实施例中描述的测定。在某些实施方案中,将诱变前的参考CasX或CasX变体蛋白的活性用作比较一种或多种所得CasX变体的活性的基准,由此测量新的CasX变体的功能的改善。
在本文所述的CasX变体的一些实施方案中,至少一个修饰包括:(a)与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3的参考CasX、CasX变体491(SEQ ID NO:336)或CasX变体515(SEQ ID NO:416)相比,CasX变体中1至100个连续或非连续氨基酸的取代;(b)与参考CasX或由其衍生的变体相比,CasX变体中1至100个连续或非连续氨基酸的缺失;(c)与参考CasX或由其衍生的变体相比,CasX中1至100个连续或非连续氨基酸的插入;或(d)(a)至(c)的任何组合。在一些实施方案中,至少一个修饰包括:(a)与SEQ ID NO:1、SEQ ID NO:2、SEQ IDNO:3的参考CasX变体或由其衍生的变体相比,CasX变体中1至10个连续或非连续氨基酸的取代;(b)与参考CasX或由其衍生的变体相比,CasX变体中1至5个连续或非连续氨基酸的缺失;(c)与参考CasX或由其衍生的变体相比,CasX中1至5个连续或非连续氨基酸的插入;或(d)(a)至(c)的任何组合。
在一些实施方案中,与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、CasX 491或CasX515的序列相比,CasX变体蛋白包含以下序列或由该序列组成:该序列具有至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个或至少100个改变。在一些实施方案中,CasX变体蛋白包含相对于CasX 491或SEQ ID NO:336的一个或多个取代。在一些实施方案中,CasX变体蛋白包含相对于CasX 515或SEQ ID NO:416的一个或多个取代。这些改变可以是氨基酸插入、缺失、取代或它们的任何组合。这些改变可位于CasX变体的一个结构域或任何结构域或者结构域的任何组合中。在本文所述的取代中,任何氨基酸可被任何其它氨基酸取代。该取代可以是保守取代(例如,一个碱性氨基酸被另一个碱性氨基酸取代)。该取代可以是非保守取代(例如,碱性氨基酸被酸性氨基酸取代,或反之亦然)。例如,参考CasX蛋白中的脯氨酸可被精氨酸、组氨酸、赖氨酸、天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、半胱氨酸、甘氨酸、丙氨酸、异亮氨酸、亮氨酸、甲硫氨酸、苯丙氨酸、色氨酸、酪氨酸或缬氨酸中的任一者取代,以产生本公开的CasX变体蛋白。
可组合本文所述的取代、插入和缺失实施方案的任何排列,以产生本公开的CasX变体蛋白。例如,CasX变体蛋白可包含相对于参考CasX蛋白序列或者CasX 491或CasX 515的序列的至少一个取代和至少一个缺失,相对于参考CasX蛋白序列或者CasX 491或CasX515的序列的至少一个取代和至少一个插入,相对于参考CasX蛋白序列或者CasX 491或CasX 515的序列的至少一个插入和至少一个缺失,或相对于参考CasX蛋白序列或者CasX491或CasX 515的序列的至少一个取代、一个插入和一个缺失。
在一些实施方案中,CasX变体蛋白包含400至2000个氨基酸、500至1500个氨基酸、700至1200个氨基酸、800至1100个氨基酸或900至1000个氨基酸。
在一些实施方案中,CasX变体蛋白包含如表3所示的SEQ ID NO:247-592和1147-1231的序列。在一些实施方案中,CasX变体蛋白由如表3所示的SEQ ID NO:247-592或1147-1231的序列组成。在其它实施方案中,CasX变体蛋白包含与如表3所示的SEQ ID NO:247-592和1147-1231的序列至少60%相同、至少65%相同、至少70%相同、至少75%相同、至少80%相同、至少81%相同、至少82%相同、至少83%相同、至少84%相同、至少85%相同、至少86%相同、至少86%相同、至少87%相同、至少88%相同、至少89%相同、至少89%相同、至少90%相同、至少91%相同、至少92%相同、至少93%相同、至少94%相同、至少95%相同、至少96%相同、至少97%相同、至少98%相同、至少99%相同、至少99.5%相同的序列。在一些实施方案中,CasX变体蛋白包含SEQ ID NO:270-592或1147-1231的序列或由其组成。在其它实施方案中,CasX变体蛋白包含与SEQ ID NO:270-592或1147-1231的序列至少60%相同、至少65%相同、至少70%相同、至少75%相同、至少80%相同、至少81%相同、至少82%相同、至少83%相同、至少84%相同、至少85%相同、至少86%相同、至少86%相同、至少87%相同、至少88%相同、至少89%相同、至少89%相同、至少90%相同、至少91%相同、至少92%相同、至少93%相同、至少94%相同、至少95%相同、至少96%相同、至少97%相同、至少98%相同、至少99%相同、至少99.5%相同的序列。在一些实施方案中,CasX变体蛋白包含SEQ ID NO:415-592或1147-1231的序列或由其组成。在其它实施方案中,CasX变体蛋白包含与SEQ ID NO:416-592或1147-1231的序列至少60%相同、至少65%相同、至少70%相同、至少75%相同、至少80%相同、至少81%相同、至少82%相同、至少83%相同、至少84%相同、至少85%相同、至少86%相同、至少86%相同、至少87%相同、至少88%相同、至少89%相同、至少89%相同、至少90%相同、至少91%相同、至少92%相同、至少93%相同、至少94%相同、至少95%相同、至少96%相同、至少97%相同、至少98%相同、至少99%相同、至少99.5%相同的序列。(ND=未描述,或者未提供)。
表3:CasX变体序列
/>
/>
/>
/>
/>
/>
/>
/>
c.具有来自多种来源蛋白的结构域的CasX变体蛋白
在某些实施方案中,本公开提供了嵌合CasX蛋白,其包含来自两种或更多种不同CasX蛋白(诸如两种或更多种天然存在的CasX蛋白,或两种或更多种如本文所述的CasX变体蛋白序列)的蛋白结构域。如本文所用,“嵌合CasX蛋白”是指含有分离自或源自不同来源(诸如两种天然存在的蛋白)的至少两个结构域的CasX,该至少两个结构域在一些实施方案中可分离自不同物种。例如,在一些实施方案中,嵌合CasX蛋白包含来自第一CasX蛋白的第一结构域和来自第二不同CasX蛋白的第二结构域。在一些实施方案中,第一结构域可选自NTSB结构域、TSL结构域、螺旋I结构域、螺旋II结构域、OBD结构域和RuvC结构域。在一些实施方案中,第二结构域选自NTSB结构域、TSL结构域、螺旋I结构域、螺旋II结构域、OBD结构域和RuvC结构域,其中第二结构域不同于前述第一结构域。在具体实施方案中,514-791的CasX变体(SEQ ID NO:415-592和1147-1231)具有源自SEQ ID NO:1的序列的NTSB和螺旋1B结构域,而其它结构域衍生自SEQ ID NO:2,应理解变体在选择的位置具有另外的氨基酸改变。
d.对gRNA的蛋白亲和力
在一些实施方案中,相对于参考CasX蛋白,CasX变体蛋白具有改善的对gRNA的亲和力,导致核糖核蛋白复合物(RNP)的形成。CasX变体蛋白对gRNA的增加的亲和力可例如导致产生RNP复合物的较低Kd,这在一些情况下可导致更稳定的核糖核蛋白复合物形成。在一些实施方案中,当递送至人细胞时,CasX变体蛋白对gRNA增加的亲和力导致核糖核蛋白复合物增加的稳定性。这种增加的稳定性可影响复合物在受试者的细胞中的功能和效用,以及当递送至受试者时导致血液中改善的药代动力学特性。在一些实施方案中,CasX变体蛋白的增加的亲和力以及所得核糖核蛋白复合物的增加的稳定性允许将较低剂量的CasX变体蛋白递送至受试者或细胞,同时仍具有期望的活性,例如体内或体外基因编辑。在一些实施方案中,当CasX变体蛋白和gRNA两者都保留在RNP复合物中时,CasX变体蛋白对gRNA的更高亲和力(更紧密结合)允许更大量的编辑事件。增加的编辑事件可使用编辑测定(诸如本文所述的tdTom编辑测定)来评估。在一些实施方案中,与参考CasX蛋白相比,CasX变体蛋白对gRNA的Kd增加至少约1.1倍、至少约1.2倍、至少约1.3倍、至少约1.4倍、至少约1.5倍、至少约1.6倍、至少约1.7倍、至少约1.8倍、至少约1.9倍、至少约2倍、至少约3倍、至少约4倍、至少约5倍、至少约6倍、至少约7倍、至少约8倍、至少约9倍、至少约10倍、至少约15倍、至少约20倍、至少约25倍、至少约30倍、至少约35倍、至少约40倍、至少约45倍、至少约50倍、至少约60倍、至少约70倍、至少约80倍、至少约90倍或至少约100倍。在一些实施方案中,与SEQID NO:2的参考CasX蛋白相比,CasX变体对gRNA具有约1.1倍至约10倍增加的结合亲和力。
在一些实施方案中,CasX变体蛋白对gRNA增加的亲和力导致核糖核蛋白复合物在递送至哺乳动物细胞(包括体内递送至受试者)时增加的稳定性。这种增加的稳定性可影响复合物在受试者的细胞中的功能和效用,以及当递送至受试者时导致血液中改善的药代动力学特性。在一些实施方案中,CasX变体蛋白的增加的亲和力以及所得核糖核蛋白复合物的增加的稳定性允许将较低剂量的CasX变体蛋白递送至受试者或细胞,同时仍具有期望的活性;例如体内或体外基因编辑。形成RNP并将它们保持在稳定形式的增加的能力可使用测定(诸如本文实施例所述的体外切割测定)来评估。在一些实施方案中,与包含SEQ ID NO:1-3的参考CasX的RNP相比,当复合为RNP时,包含本公开的CasX变体的RNP能够实现至少2倍、至少5倍或至少10倍高的k切割速率。
在一些实施方案中,当CasX变体蛋白和gRNA两者都保留在RNP复合物中时,CasX变体蛋白对gRNA的更高亲和力(更紧密结合)允许更大量的编辑事件。增加的编辑事件可使用编辑测定(诸如本文所述的测定)来评估。
不希望受理论束缚,在一些实施方案中,螺旋I结构域中的氨基酸变化可增加CasX变体蛋白与gRNA靶向序列的结合亲和力,同时螺旋II结构域中的变化可增加CasX变体蛋白与gRNA支架茎环的结合亲和力,并且寡核苷酸结合结构域(OBD)中的变化增加CasX变体蛋白与gRNA三链体的结合亲和力。
测定CasX蛋白对gRNA的结合亲和力的方法包括使用纯化的CasX蛋白和gRNA的体外方法。如果gRNA或CasX蛋白标记有荧光团,则可通过荧光偏振测量参考CasX和变体蛋白的结合亲和力。另选地,或除此之外,结合亲和力可通过生物膜干涉技术、电泳迁移率变动分析(EMSA)或过滤结合法来测量。定量RNA结合蛋白(诸如参考CasX和本公开的变体蛋白)对特定gRNA(诸如参考gRNA及其变体)的绝对亲和力的其它标准技术包括但不限于等温量热法(ITC)和表面等离子体共振(SPR)以及实施例的方法。
催化死亡的在一些实施方案中,CasX变体蛋白包含非邻接残基区域中的一个或多个修饰,这些非邻接残基形成其中发生gRNA:靶核酸复合的通道。在一些实施方案中,CasX变体蛋白包含一个或多个修饰,该一个或多个修饰包含非邻接残基区域,这些非邻接残基形成与gRNA结合的界面。例如,在参考CasX蛋白的一些实施方案中,螺旋I、螺旋II和OBD结构域全部接触或接近gRNA:靶核酸复合物,并且对任何这些结构域内的非邻接残基的一个或多个修饰可改善CasX变体蛋白的功能。
在一些实施方案中,CasX变体蛋白包含非邻接残基区域中的一个或多个修饰,这些非邻接残基形成与非靶链DNA结合的通道。例如,CasX变体蛋白可包含对NTSB结构域的非邻接残基的一个或多个修饰。在一些实施方案中,CasX变体蛋白包含非邻接残基区域中的一个或多个修饰,这些非邻接残基形成与PAM结合的界面。例如,CasX变体蛋白可包含对螺旋I结构域或OBD的非邻接残基的一个或多个修饰。在一些实施方案中,CasX变体蛋白包含一个或多个修饰,该一个或多个修饰包含非邻接表面暴露残基区域。如本文所用,“表面暴露残基”是指CasX蛋白表面上的氨基酸,或其中氨基酸的至少一部分(诸如主链或者侧链的一部分)位于蛋白表面上的氨基酸。暴露于含水胞内环境的细胞蛋白诸如CasX的表面暴露残基通常选自带正电荷的亲水性氨基酸,例如精氨酸、天冬酰胺、天冬氨酸、谷氨酰胺、谷氨酸、组氨酸、赖氨酸、丝氨酸和苏氨酸。因此,例如,在本文提供的变体的一些实施方案中,与参考CasX蛋白相比,表面暴露残基区域包含一个或多个插入、缺失或取代。在一些实施方案中,一个或多个带正电荷的残基被一个或多个其它带正电荷的残基、或带负电荷的残基、或不带电荷的残基、或它们的任何组合取代。在一些实施方案中,用于取代的一个或多个氨基酸残基是接近结合的核酸,例如接触靶核酸的RuvC结构域或螺旋I结构域中的残基,或结合gRNA的OBD或螺旋II结构域中的残基,可被一个或多个带正电荷或极性的氨基酸取代。
在一些实施方案中,CasX变体蛋白包含非邻接残基区域中的一个或多个修饰,这些非邻接残基在参考CasX蛋白的结构域中通过疏水堆积形成核心。不希望受任何理论束缚,通过疏水堆积形成核心的区域富含疏水性氨基酸,诸如缬氨酸、异亮氨酸、亮氨酸、甲硫氨酸、苯丙氨酸、色氨酸和半胱氨酸。例如,在一些参考CasX蛋白中,RuvC结构域包含与活性位点相邻的疏水口袋。在一些实施方案中,该区域的2至15个残基是带电荷的、极性的或碱基堆积的。带电荷的氨基酸(在本文中有时称为残基)可包括例如精氨酸、赖氨酸、天冬氨酸和谷氨酸,并且这些氨基酸的侧链可形成盐桥,条件是还存在桥配偶体(参见图14)。极性氨基酸可包括例如谷氨酰胺、天冬酰胺、组氨酸、丝氨酸、苏氨酸、酪氨酸和半胱氨酸。在一些实施方案中,极性氨基酸可形成氢键作为质子供体或受体,这取决于它们侧链的特性。如本文所用,“碱基堆积”包括氨基酸残基(诸如色氨酸、酪氨酸、苯丙氨酸或组氨酸)的芳族侧链与核酸中堆积的核苷酸碱基的相互作用。对空间上紧密接近以形成CasX变体蛋白的功能部分的非邻接氨基酸区域的任何修饰被认为在本公开的范围内。
e.具有来自多种来源蛋白的结构域的CasX变体蛋白
在某些实施方案中,本公开提供了嵌合CasX变体蛋白,其包含来自两种或更多种不同CasX蛋白(诸如两种或更多种天然存在的CasX蛋白,或两种或更多种如本文所述的CasX变体蛋白序列)的蛋白结构域。如本文所用,“嵌合CasX蛋白”是指含有分离自或源自不同来源(诸如两种天然存在的蛋白)的至少两个结构域的CasX,该至少两个结构域在一些实施方案中可分离自不同物种。例如,在一些实施方案中,嵌合CasX蛋白包含来自第一CasX蛋白的第一结构域和来自第二不同CasX蛋白的第二结构域。在一些实施方案中,第一结构域可选自NTSB结构域、TSL结构域、螺旋I结构域、螺旋II结构域、OBD结构域和RuvC结构域。在一些实施方案中,第二结构域选自NTSB结构域、TSL结构域、螺旋I结构域、螺旋II结构域、OBD结构域和RuvC结构域,其中第二结构域不同于前述第一结构域。例如,嵌合CasX蛋白可包含来自SEQ ID NO:2的CasX蛋白的NTSB、TSL、螺旋I、螺旋II、OBD结构域,和来自SEQ IDNO:1的CasX蛋白的RuvC结构域,或反之亦然。再如,嵌合CasX蛋白可包含来自SEQ ID NO:2的CasX蛋白的NTSB、TSL、螺旋II、OBD和RuvC结构域,和来自SEQ ID NO:1的CasX蛋白的螺旋I结构域,或反之亦然。因此,在某些实施方案中,嵌合CasX蛋白可包含来自第一CasX蛋白的NTSB、TSL、螺旋II、OBD和RuvC结构域,和来自第二CasX蛋白的螺旋I结构域。在嵌合CasX蛋白的一些实施方案中,第一CasX蛋白的结构域源自SEQ ID NO:1、SEQ ID NO:2或SEQ IDNO:3的序列,并且第二CasX蛋白的结构域源自SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的序列,并且第一和第二CasX蛋白不相同。在一些实施方案中,第一CasX蛋白的结构域包含源自SEQ ID NO:1的序列,并且第二CasX蛋白的结构域包含源自SEQ ID NO:2的序列。在一些实施方案中,第一CasX蛋白的结构域包含源自SEQ ID NO:1的序列,并且第二CasX蛋白的结构域包含源自SEQ ID NO:3的序列。在一些实施方案中,第一CasX蛋白的结构域包含源自SEQ ID NO:2的序列,并且第二CasX蛋白的结构域包含源自SEQ ID NO:3的序列。作为前述的示例,嵌合RuvC结构域包含SEQ ID NO:1的氨基酸660至823和SEQ ID NO:2的氨基酸921至978。作为前述的任选示例,嵌合RuvC结构域包含SEQ ID NO:2的氨基酸647至810和SEQID NO:1的氨基酸934至986。在一些实施方案中,该至少一个嵌合结构域包含嵌合螺旋I结构域,其中嵌合螺旋I结构域包含SEQ ID NO:1的氨基酸56-99和SEQ ID NO:2的氨基酸192-332。在一些实施方案中,嵌合CasX变体被进一步修饰,包括选自SEQ ID NO:270、SEQ IDNO:328、SEQ ID NO:336、SEQ ID NO:780、SEQ ID NO:412、SEQ ID NO:413、SEQ ID NO:414、SEQ ID NO:416、SEQ ID NO:435、SEQ ID NO:329、SEQ ID NO:781、SEQ ID NO:330、SEQ IDNO:782、SEQ ID NO:331、SEQ ID NO:783、SEQ ID NO:332、SEQ ID NO:784、SEQ ID NO:333、SEQ ID NO:785、SEQ ID NO:334、SEQ ID NO:786、SEQ ID NO:335、SEQ ID NO:567、SEQ IDNO:570、SEQ ID NO:574、SEQ ID NO:787和SEQ ID NO:788的序列的CasX变体。在一些实施方案中,该一种或多种另外的修饰包括如本文所述的插入、取代或缺失。
在分体式或非邻接结构域诸如螺旋I、RuvC和OBD的情况下,非邻接结构域的一部分可被来自任何其它来源的对应部分替换。例如,SEQ ID NO:2中的螺旋I-I结构域(有时称为螺旋I-a)可被来自SEQ ID NO:1的对应螺旋I-I序列替换,等等。来自参考CasX蛋白的结构域序列及其坐标示于表4中。嵌合CasX蛋白的代表性示例包括CasX 472-483、485-491和515的变体,这些变体的序列示于表3中。
表4:参考CasX蛋白中的结构域坐标
结构域名称 | SEQ ID NO:1中的坐标 | SEQ ID NO:2中的坐标 |
OBD-I | 1-55 | 1-57 |
螺旋I-I | 56-99 | 58-101 |
NTSB | 100-190 | 102-191 |
螺旋I-II | 191-331 | 192-332 |
螺旋II | 332-508 | 333-500 |
OBD-II | 509-659 | 501-646 |
RuvC-I | 660-823 | 647-810 |
TSL | 824-933 | 811-920 |
RuvC-II | 934-986 | 921-978 |
*OBD I和II、螺旋I-I和I-II以及RuvC I和II在本文中也称为OBD a和b、螺旋I a和b以及RuvC a和b。
示例性结构域序列提供于下表5中。
表5:示例性结构域序列
/>
SEQ ID NO:2351提供了另一示例性螺旋II结构域序列,并且SEQ ID NO:2352提供了另一示例性RuvC a结构域序列。
在其它实施方案中,CasX变体蛋白包含如表3所示的SEQ ID NO:247-592或1147-1231的序列,并且进一步在N末端、C末端或两者处或附近包含一个或多个本文公开的NLS。在其它实施方案中,CasX变体蛋白包含SEQ ID NO:270-592和1147-1231的序列,并且进一步在N末端、C末端或两者处或附近包含一个或多个本文公开的NLS。在其它实施方案中,CasX变体蛋白包含SEQ ID NO:415-592和1147-1231的序列,并且还在N末端、C末端或这两者处或附近包含一个或多个本文公开的NLS。应当理解,在一些情况下,表中CasX变体的N-末端甲硫氨酸在翻译后修饰期间从表达的CasX变体中去除。本领域普通技术人员将理解,靠近蛋白的N或C末端的NLS可在N或C末端的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、20或20个氨基酸内。
f.源自其它CasX变体的CasX变体
在产生变体蛋白的进一步迭代中,变体蛋白可用于产生本公开的另外的CasX变体。例如,并且如图44所示,CasX 119(SEQ ID NO:270)、CasX 491(SEQ ID NO:336)和CasX515(SEQ ID NO:416)是示例性变体蛋白,这些示例性变体蛋白被修饰以产生本公开的另外的CasX变体,这些另外的CasX变体相对于由它们衍生的参考CasX或CasX变体具有改善或另外的性质。CasX 119含有SEQ ID NO:2的L379R的取代、A708K的取代和位置793处的P的缺失。CasX 491含有来自SEQ ID NO:1的NTSB和螺旋1B交换。CasX 515通过在位置793(相对于SEQ ID NO:2)处插入P而源自CasX 491,并用于产生实施例13和实施例14中所述的CasX变体。例如,相对于CasX 515,CasX 668具有在位置26处R的插入以及G223S的取代。相对于CasX 515,CasX 672具有L169K和G223S的取代。相对于CasX 515,CasX 676具有L169K和G223S的取代以及在位置26处R的插入。
用于产生和评价源自其它CasX变体的CasX变体的示例性方法描述于实施例中,其通过向编码序列引入修饰而产生,导致CasX变体的一个或多个结构域中的一个或多个位置处的氨基酸取代、缺失或插入。特别地,实施例14和实施例15描述了用于产生CasX 515(SEQID NO:416)的变体的方法,然后测定这些变体以确定序列中当通过氨基酸插入、缺失或取代修饰时导致测定中富集或改善的那些位置。在一些情况下,将测定结果用于产生图34至图36的热图,这提供了通过这些方法修饰的给定氨基酸位置处的定性和定量数据。出于本公开的目的,CasX 515的结构域的序列提供于表4中并且包括具有SEQ ID NO:2342的序列的OBD-I结构域、具有SEQ ID NO:2347的序列的OBD-II结构域、具有SEQ ID NO:2335的序列的NTSB结构域、具有SEQ ID NO:2343的序列的螺旋I-I结构域、具有SEQ ID NO:2336的序列的螺旋I-II结构域、具有SEQ ID NO:2351的序列的螺旋II结构域、具有SEQ ID NO:2352的序列的RuvC-I结构域、具有SEQ ID NO:2350的序列的RuvC-II结构域和具有SEQ ID NO:2349的序列的TSL结构域。通过本公开的方法,修饰、测定CasX 515的结构域中的各个位置,并且相对于它们在每个结构域或亚结构域中的位置,提供导致随后的富集或改善的所得位置和示例性修饰。在一些情况下,此类位置公开于实施例的表21至表24中。在一些实施方案中,本公开提供了源自CasX515的CasX变体,这些变体相对于SEQ ID NO:2335在NTSB结构域中的一个或多个氨基酸位置处包含一个或多个修饰(即插入、缺失或取代),该一个或多个修饰选自:P2、S4、Q9、E15、G20、G33、L41、Y51、F55、L68、A70、E75、K88和G90,其中该修饰导致相对于CasX 515的改善的特征。在具体实施方案中,相对于SEQ ID NO:2335在NTSB结构域中的一个或多个氨基酸位置处的该一个或多个修饰选自:^G2、^I4、^L4、Q9P、E15S、G20D、[S30]、G33T、L41A、Y51T、F55V、L68D、L68E、L68K、A70Y、A70S、E75A、E75D、E75P、K88Q和G90Q(其中“^”表示插入,并且“[]”表示该位置处的缺失)。在一些实施方案中,本公开提供了源自CasX 515的CasX变体,这些变体相对于SEQ ID NO:2336在螺旋I-II结构域中的一个或多个氨基酸位置处包含一个或多个修饰,该一个或多个修饰选自:I24、A25、Y29 G32、G44、S48、S51、Q54、I56、V63、S73、L74、K97、V100、M112、L116、G137、F138和S140,其中该修饰导致相对于CasX 515的改善的特征。在具体实施方案中,在螺旋I-II结构域中的一个或多个氨基酸位置处的该一个或多个修饰选自:^T24、^C25、Y29F、G32Y、G32N、G32H、G32S、G32T、G32A、G32V、[G32]、G32S、G32T、G44L、G44H、S48H、S48T、S51T、Q54H、I56T、V63T、S73H、L74Y、K97G、K97S、K97D、K97E、V100L、M112T、M112W、M112R、M112K、L116K、G137R、G137K、G137N、^Q138和S140Q。在一些实施方案中,本公开提供了源自CasX515的CasX变体,这些变体相对于SEQ ID NO:2351在螺旋II结构域中的一个或多个氨基酸位置处包含一个或多个修饰,该一个或多个修饰选自:L2、V3、E4、R5、Q6、A7、E9、V10、D11、W12、W13、D14、M15、V16、C17、N18、V19、K20、L22、I23、E25、K26、K31、Q35、L37、A38、K41、R 42、Q43、E44、L46、K57、Y65、G68、L70、L71、L72、E75、G79、D81、W82、K84、V85、Y86、D87、I93、K95、K96、E98、L100、K102、I104、K105、E109、R110、D114、K118、A120、L121、W124、L125、R126、A127、A129、I133、E134、G135、L136、E138、D140、K141、D142、E143、F144、C145、C147、E148、L149、K150、L151、Q152、K153、L158、E166和A167,其中该修饰导致相对于CasX515的改善的特征。在具体实施方案中,在螺旋II结构域中的一个或多个氨基酸位置处的该一个或多个修饰选自:^A2、^H2、[L2]+[V3]、V3E、V3Q、V3F、[V3]、^D3、V3P、E4P、[E4]、E4D、E4L、E4R、R5N、Q6V、^Q6、^G7、^H9、^A9、VD10、^T10、[V10]、^F10、^D11、[D11]、D11S、[W12]、W12T、W12H、^P12、^Q13、^G12、^R13、W13P、W13D、^D13、W13L、^P14、^D14、[D14]+[M15]、[M15]、^T16、^P17、N18I、V19N、V19H、K20D、L22D、I23S、E25C、E25P、^G25、K26T、K27E、K31L、K31Y、Q35D、Q35P、^S37、[L37]+[A38]、K41L、^R42、[Q43]+[E44]、L46N、K57Q、Y65T、G68M、L70V、L71C、L72D、L72N、L72W、L72Y、E75F、E75L、E75Y,G79P、^E79、^T81、^R81、^W81、^Y81、^W82、^Y82、W82G、W82R、K84D、K84H、K84P、K84T、V85L、V85A、^L85、Y86C、D87G、D87M、D87P、I93C、K95T、K96R、E98G、L100A、K102H、I104T、I104S、I104Q、K105D、^K109、E109L、R110D、[R110]、D114E、^D114、K118P、A120R、L121T、W124L、L125C、R126D、A127E、A127L、A129T、A129K、I133E、^C133、^S134、^G134、^R135、G135P、L136K、L136D、L136S、L136H、[E138]、D140R、^D140、^P141、^D142、[E143]+[F144]、^Q143、F144K、[F144]、[F144]+[C145]、C145R、^G145、C145K、C147D、^V148、E148D、^H149、L149R、K150R、L151H、Q152C、K153P、L158S、E166L和^F167。在一些实施方案中,本公开提供了源自CasX515的CasX变体,这些变体相对于SEQ ID NO:2352在RuvC-I结构域中的一个或多个氨基酸位置处包含一个或多个修饰,该一个或多个修饰选自:I4、K5、P6、M7、N8、L9、V12、G49、K63、K80、N83、R90、M125和L146,其中该修饰导致相对于CasX 515的改善的特征。在具体实施方案中,在RuvC-I结构域中的一个或多个氨基酸位置处的该一个或多个修饰选自:^I4、^S5、^T6、^N6、^R7、^K7、^H8、^S8、V12L、G49W、G49R、S51R、S51K、K62S、K62T、K62E、V65A、K80E、N83G、R90H、R90G、M125S、M125A、L137Y、^P137、[L141]、L141R、L141D、^Q142、^R143、^N143、E144N、^P146、L146F、P147A、K149Q、T150V、^R152、^H153、T155Q、^H155、^R155、^L156、[L156]、^W156、^A157、^F157、A157S、Q158K、[Y159]、T160Y、T160F、^I161、S161P、T163P、^N163、C164K和C164M。在一些实施方案中,本公开提供了源自CasX 515的CasX变体,这些变体相对于SEQ ID NO:2342在OBD-I结构域中的一个或多个氨基酸位置处包含一个或多个修饰,该一个或多个修饰选自:I4、K5、P6、M7、N8、L9、V12、G49、K63、K80、N83、R90、M125和L146,其中该修饰导致相对于CasX 515的改善的特征。在具体实施方案中,在OBD-I结构域中的一个或多个氨基酸位置处的该一个或多个修饰选自:^G3、I3G、I3E、^G4、K4G、K4P、K4S、K4W、K4W、R5P、^P5、^G5、R5S、^S5、R5A、R5P、R5G、R5L、I6A、I6L、^G6、N7Q、N7L、N7S、K8G、K15F、D16W、^F16、^F18、^P27、M28P、M28H、V33T、R34P、M36Y、R41P、L47P、^P48、E52P、^P55、[P55]+[Q56]、Q56S、Q56P、^D56、^T56和Q56P。在一些实施方案中,本公开提供了源自CasX 515的CasX变体,这些变体相对于SEQ ID NO:2347在OBD-II结构域中的一个或多个氨基酸位置处包含一个或多个修饰,该一个或多个修饰选自:I4、K5、P6、M7、N8、L9、V12、G49、K63、K80、N83、R90、M125和L146,其中该修饰导致相对于CasX 515的改善的特征。在具体实施方案中,在OBD-I结构域中的一个或多个氨基酸位置处的该一个或多个修饰选自:[S2]、I3R、I3K、[I3]+[L4]、[L4]、K11T、^P24、K37G、R42E、^S53、^R58、[K63]、M70T、I82T、Q92I、Q92F、Q92V、Q92A、^A93、K110Q、R115Q、L121T、^A124、^R141、^D143、^A143、^W144和^A145。在一些实施方案中,本公开提供了源自CasX 515的CasX变体,这些变体相对于SEQ ID NO:2349在TSL结构域中的一个或多个氨基酸位置处包含一个或多个修饰,该一个或多个修饰选自S1、N2、C3、G4、F5、I7、K18、V58、S67、T76、G78、S80、G81、E82、S85、V96和E98,其中该修饰导致相对于CasX 515的改善的特征。在具体实施方案中,在OBD-I结构域中的一个或多个氨基酸位置处的该一个或多个修饰选自:^M1、[N2]、^V2、C3S、^G4、^W4、F5P、^W7、K18G、V58D、^A67、T76E、T76D、T76N、G78D、[S80]、[G81]、^E82、^N82、S85I、V96C、V96T和E98D。应当理解,可类似地将该段落的任何相同前述修饰的组合引入本公开的CasX变体中,从而产生具有改善的特征的CasX变体。例如,在一个实施方案中,本公开提供了CasX变体535(SEQ ID NO:435),其相对于CasX 515具有G223S的单个突变。在另一个实施方案中,本公开提供了CasX变体668(SEQID NO:567),其相对于CasX 515具有在位置26处R的插入以及G223S的取代。在另一个实施方案中,本公开提供了CasX 672(SEQ ID NO:570),其相对于CasX 515具有L169K和G223S的取代。在另一个实施方案中,本公开提供了CasX 676(SEQ ID NO:574),其相对于CasX 515具有L169K和G223S的取代以及在位置26处R的插入。相对于CasX 515具有改善的特征的CasX变体包括表3的变体。
相对于参考CasX蛋白中的相同特征或相对于由它们衍生的CasX变体,CasX变体蛋白中可改善的示例性特征包括但不限于改善的变体折叠、增加的对gRNA的结合亲和力、增加的对靶核酸的结合亲和力、改善的在靶核酸的编辑和/或结合中利用更广谱的PAM序列的能力、改善的靶DNA的解旋、增加的编辑活性、改善的编辑效率、改善的编辑特异性、增加的对靶核酸的编辑特异性、减少的脱靶编辑或切割、增加的可有效编辑的真核基因组的百分比、增加的核酸酶活性、增加的用于双链切割的靶链加载、减少的用于单链切口的靶链加载、改善的DNA非靶链的结合、改善的蛋白质稳定性、改善的蛋白质:gRNA(RNP)复合物稳定性和改善的融合特征。在具体实施方案中,如实施例中所述,此类改善的特征可包括但不限于在具有TTC、ATC和CTC PAM序列的靶核酸中改善的切割活性、增加的对靶核酸序列的切割的特异性和减少的靶核酸的脱靶切割。
表6:CasX 515结构域序列
/>
本文所述的实施方案的CasX变体具有与本文公开的gRNA形成RNP复合物的能力。在一些实施方案中,包含CasX变体蛋白和浓度为20pM或更低的本公开的gRNA的RNP能够以至少80%的效率切割双链DNA靶标。在一些实施方案中,浓度为20pM或更低的RNP能够以至少40%、至少50%、至少60%、至少70%、至少80%、至少85%、至少90%或至少95%的效率切割双链DNA靶标。在一些实施方案中,浓度为50pM或更低、40pM或更低、30pM或更低、20pM或更低、10pM或更低、或5pM或更低的RNP能够以至少40%、至少50%、至少60%、至少70%、至少80%、至少85%、至少90%或至少95%的效率切割双链DNA靶标。下文更详细地描述了这些改善的特征。
g.蛋白稳定性
在一些实施方案中,本公开提供了相对于参考CasX蛋白具有改善的稳定性的CasX变体蛋白。在一些实施方案中,CasX变体蛋白的改善的稳定性导致更高稳态的蛋白的表达,这改善了编辑效率。在一些实施方案中,CasX变体蛋白的改善的稳定性导致更大部分的CasX蛋白保持折叠成功能构象并改善编辑效率或改善用于制造目的的可纯化性。如本文所用,“功能构象”是指处于其中蛋白能够结合gRNA和靶核酸的构象的CasX蛋白。在其中CasX变体不携带使其催化死亡的一个或多个突变的实施方案中,当与gRNA复合时,CasX变体能够切割、切口或以其它方式修饰靶核酸,其中靶向序列能够与靶核酸杂交。CasX的功能构象是指“切割能力”构象。在一些示例性实施方案中,包括其中CasX变体蛋白产生保留折叠成功能构象的更大部分的CasX蛋白的那些实施方案,与参考CasX蛋白相比,应用诸如基因编辑需要更低浓度的CasX变体。因此,在一些实施方案中,在一个或多个基因编辑环境中,与参考CasX相比,具有改善的稳定性的CasX变体具有改善的效率。
在一些实施方案中,本公开提供了CasX变体蛋白,其相对于参考CasX蛋白:gRNA复合物具有改善的CasX变体蛋白:gRNA RNP复合物的稳定性,使得RNP保留功能形式。稳定性改善可包括增加的热稳定性,对蛋白水解降解的抗性,增强的药代动力学性质,在一系列pH条件、盐条件和张力下的稳定性。在一些实施方案中,改善的复合物的稳定性可导致改善的编辑效率。在一些实施方案中,与表1中的SEQ ID NO:1-3的参考CasX和SEQ ID NO:4或5的gRNA的RNP相比,CasX变体和gRNA变体的RNP具有至少2倍、至少3倍或至少4倍更高百分比的有切割能力的RNP。实施例中提供了增加的有切割能力的RNP的示例性数据。
在一些实施方案中,CasX变体蛋白的改善的稳定性包括相对于参考CasX蛋白改善的CasX变体蛋白的折叠动力学。在一些实施方案中,CasX变体蛋白的折叠动力学相对于参考CasX蛋白改善了至少约5倍、至少约10倍、至少约50倍、至少约100倍、至少约500倍、至少约1,000倍、至少约2,000倍、至少约3,000倍、至少约4,000倍、至少约5,000倍或至少约10,000倍改善。在一些实施方案中,CasX变体蛋白的折叠动力学相对于参考CasX蛋白改善了至少约1kJ/mol、至少约5kJ/mol、至少约10kJ/mol、至少约20kJ/mol、至少约30kJ/mol、至少约40kJ/mol、至少约50kJ/mol、至少约60kJ/mol、至少约70kJ/mol、至少约80kJ/mol、至少约90kJ/mol、至少约100kJ/mol、至少约150kJ/mol、至少约200kJ/mol、至少约250kJ/mol、至少约300kJ/mol、至少约350kJ/mol、至少约400kJ/mol、至少约450kJ/mol或至少约500kJ/mol。
相对于参考CasX蛋白可增加CasX变体蛋白的稳定性的示例性氨基酸改变可包括但不限于增加CasX变体蛋白内的氢键数、增加CasX变体蛋白内的二硫键数、增加CasX变体蛋白内的盐桥数、增强CasX变体蛋白各部分之间的相互作用、增加CasX变体蛋白的埋入疏水性表面积或它们的任何组合的氨基酸改变。
h.对gRNA的蛋白亲和力
在一些实施方案中,相对于参考CasX蛋白或相对于由其衍生的另一个CasX变体,CasX变体蛋白具有改善的对gRNA的亲和力,导致核糖核蛋白复合物的形成。CasX变体蛋白对gRNA的增加的亲和力可例如导致产生RNP复合物的较低Kd,这在一些情况下可导致更稳定的RNP复合物形成。在一些实施方案中,当递送至人细胞时,CasX变体蛋白对gRNA增加的亲和力导致RNP复合物增加的稳定性。这种增加的稳定性可影响复合物在受试者的细胞中的功能和效用,以及当递送至受试者时导致血液中改善的药代动力学特性。在一些实施方案中,CasX变体蛋白的增加的亲和力以及所得RNP复合物的增加的稳定性允许将较低剂量的CasX变体蛋白递送至受试者或细胞,同时仍具有期望的活性,例如体内或体外基因编辑。
在一些实施方案中,当CasX变体蛋白和gRNA两者都保留在RNP复合物中时,CasX变体蛋白对gRNA的更高亲和力(更紧密结合)允许更大量的编辑事件。增加的编辑事件可使用本文所述编的辑测定来评估。
在一些实施方案中,与参考CasX蛋白相比或与由其衍生的另一个CasX变体相比,CasX变体蛋白对gRNA的Kd增加至少约1.1倍、至少约1.2倍、至少约1.3倍、至少约1.4倍、至少约1.5倍、至少约1.6倍、至少约1.7倍、至少约1.8倍、至少约1.9倍、至少约2倍、至少约3倍、至少约4倍、至少约5倍、至少约6倍、至少约7倍、至少约8倍、至少约9倍、至少约10倍、至少约15倍、至少约20倍、至少约25倍、至少约30倍、至少约35倍、至少约40倍、至少约45倍、至少约50倍、至少约60倍、至少约70倍、至少约80倍、至少约90倍或至少约100倍。在一些实施方案中,与SEQ ID NO:2的参考CasX蛋白相比,CasX变体对gRNA具有约1.1倍至约10倍增加的结合亲和力。
不希望受理论束缚,在一些实施方案中,螺旋I结构域中的氨基酸变化可增加CasX变体蛋白与gRNA靶向序列的结合亲和力,同时螺旋II结构域中的变化可增加CasX变体蛋白与gRNA支架茎环的结合亲和力,并且寡核苷酸结合结构域(OBD)中的变化增加CasX变体蛋白与gRNA三链体的结合亲和力。
测定CasX蛋白对gRNA的结合亲和力的方法包括使用纯化的CasX蛋白和gRNA的体外方法。如果gRNA或CasX蛋白标记有荧光团,则可通过荧光偏振测量参考CasX和变体蛋白的结合亲和力。另选地,或除此之外,结合亲和力可通过生物膜干涉技术、电泳迁移率变动分析(EMSA)或过滤结合法来测量。定量RNA结合蛋白(诸如参考CasX和本公开的变体蛋白)对特定gRNA(诸如参考gRNA及其变体)的绝对亲和力的其它标准技术包括但不限于等温量热法(ITC)和表面等离子体共振(SPR)以及实施例的方法。
i.对靶核酸的亲和力
在一些实施方案中,相对于参考CasX蛋白对靶核酸或由其衍生的另一种CasX变体的亲和力,CasX变体蛋白对靶核苷酸具有增加的结合亲和力。在一些实施方案中,对其靶核酸具有更高亲和力的CasX变体能够比对靶核酸不具有增加的亲和力的参考CasX蛋白更快地切割靶核酸序列。
在一些实施方案中,对靶核酸的改善的亲和力包括对靶核酸的靶序列或原间隔序列的改善的亲和力、对PAM序列的改善的亲和力、对DNA搜索靶序列的改善的能力、或它们的任何组合。不希望受理论束缚,认为CRISPR/Cas系统蛋白诸如CasX可通过沿DNA分子的一维扩散找到它们的靶序列。该过程被认为包括(1)将核糖核蛋白结合到DNA上,随后(2)停止在靶序列上,在一些实施方案中,这两种情况中的任一者可能受到CasX蛋白对靶核酸序列改善的亲和力的影响,从而与参考CasX蛋白相比改善了CasX变体蛋白的作用。
在一些实施方案中,具有改善的靶核酸亲和力的CasX变体蛋白具有增加的亲和力或利用除由SEQ ID NO:2的参考CasX蛋白识别的经典TTC PAM以外的特定PAM序列(包括选自TTC、ATC、GTC和CTC的PAM序列)的能力,从而与野生型CasX核酸酶或CasX 199或491的核酸酶相比增加了可编辑的靶核酸的量。不希望受理论束缚,可能的是,这些蛋白变体可总体上与DNA更强烈地相互作用,并且由于利用超出野生型参考CasX或CasX 199或491的核酸酶的另外PAM序列的能力,可具有增加的接近和编辑靶核酸内的序列的能力,从而允许CasX蛋白对于靶序列的更有效的搜索过程。在一些实施方案中,对DNA的更高的总体亲和力还可增加CasX蛋白能够有效地开始并完成结合和解旋步骤的频率,从而促进靶链侵入和R-环形成,并且最终促进靶核酸序列的切割。
不希望受理论束缚,可能的是,NTSB结构域中增加解旋或捕获解旋状态的非靶核酸链的效率的氨基酸变化可增加CasX变体蛋白对靶核酸的亲和力。另选地,或除此之外,NTSB结构域中增加NTSB结构域在解旋期间稳定DNA的能力的氨基酸改变可增加CasX变体蛋白对靶核酸的亲和力。另选地,或除此之外,OBD中的氨基酸改变可增加CasX变体蛋白与原间隔序列相邻基序(PAM)结合的亲和力,从而增加CasX可变蛋白对靶核酸的亲和力。另选地,或除此之外,螺旋I和/或II、RuvC和TSL结构域中增加CasX变体蛋白对靶核酸链的亲和力的氨基酸改变可增加CasX变体蛋白对靶核酸的亲和力。
在一些实施方案中,与参考CasX蛋白相比或与由其衍生的另一种CasX变体相比,本公开的CasX变体蛋白对靶核酸分子的结合亲和力增加至少约1.1倍、至少约1.2倍、至少约1.3倍、至少约1.4倍、至少约1.5倍、至少约1.6倍、至少约1.7倍、至少约1.8倍、至少约1.9倍、至少约2倍、至少约3倍、至少约4倍、至少约5倍、至少约6倍、至少约7倍、至少约8倍、至少约9倍、至少约10倍、至少约15倍、至少约20倍、至少约25倍、至少约30倍、至少约35倍、至少约40倍、至少约45倍、至少约50倍、至少约60倍、至少约70倍、至少约80倍、至少约90倍或至少约100倍。在一些实施方案中,与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考蛋白相比或与CasX 491和515变体相比,CasX变体蛋白对靶核酸具有约1.1倍至约100倍增加的结合亲和力。
在一些实施方案中,CasX变体蛋白对靶核酸的非靶链具有增加的结合亲和力。如本文所用,术语“非靶链”是指不与gRNA中的靶向序列形成沃森和克里克碱基对并且与靶核酸链互补的DNA靶核酸序列的链。在一些实施方案中,与SEQ ID NO:1、SEQ ID NO:2或SEQID NO:3的参考蛋白相比或与SEQ ID NO:270或SEQ ID NO:336的CasX变体相比,CasX变体蛋白对靶核酸的非靶序列具有约1.1倍至约100倍增加的结合亲和力。
测量CasX蛋白(诸如参考或变体)对靶和/或非靶核酸分子亲和力的方法可包括电泳迁移率变动分析(EMSA)、过滤结合法、等温量热法(ITC)和表面等离子体共振(SPR)、荧光偏振和生物膜干涉技术(BLI)。测量CasX蛋白对靶的亲和力的其它方法包括测量随时间推移的DNA切割事件的体外生化测定。
j.改善的对靶位点的特异性
在一些实施方案中,相对于参考CasX蛋白或与由其衍生的另一种CasX变体相比,CasX变体蛋白对靶核酸序列具有改善的特异性。如本文所用,“特异性”有时被称为“靶特异性”,是指CRISPR/Cas系统核糖核蛋白复合物切割与靶核酸序列相似但不相同的脱靶序列的程度;例如,相对于参考CasX蛋白,具有较高程度特异性的CasX变体RNP将展示出序列的减少的脱靶切割。CRISPR/Cas系统蛋白的特异性和降低的潜在有害脱靶效应可能是至关重要的,以便实现在哺乳动物受试者中使用的可接受的治疗指数。
在一些实施方案中,CasX变体蛋白对与gRNA的靶向序列互补的靶向序列内的靶位点具有改善的特异性。如上所述,与改善的特异性相关的是减少的脱靶编辑。在一些实施方案中,CasX变体蛋白表现出对靶序列内的靶位点的减少的脱靶编辑或切割,该靶序列与gRNA的靶向序列不100%互补,该gRNA与作为RNP的CasX变体复合。不希望受理论束缚,可能的是,螺旋I和II结构域中的氨基酸变化(其增加CasX变体蛋白对靶核酸链的特异性)可整体增加CasX变体蛋白对靶核酸的特异性。在一些实施方案中,氨基酸变化(其增加CasX变体蛋白对靶核酸的特异性)还可导致CasX变体蛋白对DNA的降低的亲和力。
测试CasX蛋白(诸如变体或参考物)靶特异性的方法可包括用于通过测序体外报告切割效应(CIRCLE-seq)的引导和环化,或类似方法。简言之,在CIRCLE-seq技术中,基因组DNA通过茎-环衔接子的连接而被剪切和环化,这些茎-环衔接子在茎-环区域被切口以暴露4个核苷酸回文突起部。随后进行分子内连接和剩余线性DNA的降解。随后用CasX将含有CasX切割位点的环状DNA分子线性化,并将衔接子衔接子连接到所暴露的末端,随后进行高通量测序以产生含有关于脱靶位点的信息的配对末端读段。可用于检测脱靶事件并因此检测CasX蛋白特异性的其它测定包括用于检测和定量在那些所选脱靶位点处形成的插入缺失(插入和缺失)的测定,诸如错配检测核酸酶测定和下一代测序(NGS)。示例性错配检测测定包括核酸酶测定,其中将来自用CasX和sgRNA处理的细胞的基因组DNA进行PCR扩增、变性和再杂交,以形成含有一条野生型链和一条具有插入缺失的链的异源双链体DNA。错配由错配检测核酸酶(诸如Surveyor核酸酶或T7内切酶I)识别和切割。评价CasX变体的特异性的方法以及证明CasX变体的实施方案的改善的特异性的支持数据描述于实施例中。
k.原间隔序列和PAM序列
在本文中,原间隔序列被定义为与向导RNA的靶向序列互补的DNA序列(称为靶链)和与该DNA序列互补的DNA(称为非靶链)。如本文所用,PAM是邻近原间隔序列的核苷酸序列,其与gRNA的靶向序列一起帮助CasX的取向和定位以潜在地切割原间隔序列链。
PAM序列可以是简并的,并且特异性RNP构建体可具有支持不同切割效率的不同优选且耐受的PAM序列。按照惯例,除非另有说明,否则本公开涉及PAM和原间隔序列两者以及它们根据非靶链的取向的方向性。这并不意味着非靶链(而不是靶链)的PAM序列是切割的决定因素,或者在机制上参与靶识别。例如,当提及TTC PAM时,它实际上可以是靶切割所需的互补GAA序列,或者它可以是来自这两条链的核苷酸的一些组合。在本文公开的CasX蛋白的情况下,PAM位于原间隔序列的5'处,其中单个核苷酸将PAM与原间隔序列的第一个核苷酸分开。因此,在参考CasX的情况下,TTC PAM应当理解为意指遵循式5'-…NNTTCN(原间隔序列)NNNNNN…3'(SEQ ID NO:19)的序列,其中“N”是任何DNA核苷酸并且“(原间隔序列)”是与向导RNA的靶向序列具有同一性的DNA序列。在具有扩展的PAM识别的CasX变体的情况下,TTC、CTC、GTC或ATC PAM应当理解为意指遵循下式的序列:5'-…NNTTCN(原间隔序列)NNNNNN…3'(SEQ ID NO:19);5'-…NNCTCN(原间隔序列)NNNNNN…3'(SEQ ID NO:20);5'-…NNGTCN(原间隔序列)NNNNNN…3'(SEQ ID NO:21);或5'-…NNATCN(原间隔序列)NNNNNN…3'(SEQ ID NO:22)。另选地,TC PAM应理解为意指遵循式5'-…NNNTCN(原间隔序列)NNNNNN…3'(SEQ ID NO:23)的序列。
另外,与参考CasX蛋白和参考gRNA的RNP相比或与由其衍生的另一种CasX变体(诸如CasX 491)以及gRNA 174的RNP相比,本公开的CasX变体蛋白当与作为RNP的gRNA复合时,利用PAM TC基序(包括选自TTC、ATC、GTC或CTC的PAM序列)(以5'至3'方向)具有增强的有效编辑和/或结合靶核酸的能力。在上文中,与在可比较的测定系统中包含参考CasX蛋白和参考gRNA的RNP的编辑效率和/或结合相比,PAM序列位于在测定系统中与gRNA的靶向序列具有同一性的原间隔序列的非靶链的5'端至少1个核苷酸处。在一个实施方案中,与在可比较的测定系统中包含参考CasX蛋白和参考gRNA的RNP(或与由其衍生的另一种CasX变体(诸如CasX 491)以及gRNA 174的RNP)相比,CasX变体和gRNA变体的RNP对靶核酸中的靶序列表现出更高的编辑效率和/或结合,其中靶DNA的PAM序列是TTC。在另一个实施方案中,与在可比较的测定系统中包含参考CasX蛋白和参考gRNA的RNP(或与由其衍生的另一种CasX变体(诸如CasX 491)以及gRNA 174的RNP)相比,CasX变体和gRNA变体的RNP对靶核酸中靶序列表现出更高的编辑效率和/或结合,其中靶DNA的PAM序列是ATC。在前述的具体实施方案中,其中CasX变体表现出用ATC PAM增强的编辑,CasX变体是528(SEQ ID NO:428)。在另一个实施方案中,与在可比较的测定系统中包含参考CasX蛋白和参考gRNA的RNP(或与由其衍生的另一种CasX变体(诸如CasX491)以及gRNA 174的RNP)相比,CasX变体和gRNA变体的RNP对靶核酸中靶序列表现出更高的编辑效率和/或结合,其中靶DNA的PAM序列是CTC。在另一个实施方案中,与在可比较的测定系统中包含参考CasX蛋白和参考gRNA的RNP(或与由其衍生的另一种CasX变体以及gRNA 174的RNP)相比,CasX变体和gRNA变体的RNP对靶核酸中靶序列表现出更高的编辑效率和/或结合,其中靶DNA的PAM序列是GTC。在前述实施方案中,与SEQ IDNO:1-3的CasX蛋白中的任一者和表1的gRNA的RNP对PAM序列的编辑效率和/或结合亲和力相比,对一种或多种PAM序列的增加的编辑效率和/或结合亲和力大到至少1.5倍、至少2倍、至少4倍、至少10倍、至少20倍、至少30倍或至少40倍或更多。证明改善编辑的示例性测定在本文的实施例中描述(参见例如图41)。在一些实施方案中,CasX蛋白可结合和/或修饰(例如,切割、切口、甲基化、去甲基化等)靶核酸和/或与靶核酸相关的多肽(例如,组蛋白尾的甲基化或乙酰化)。在一些实施方案中,CasX蛋白是催化死亡的(dCasX),但保留与靶核酸结合的能力。
l.DNA的解旋
在一些实施方案中,相对于参考CasX蛋白,CasX变体蛋白具有改善的使DNA解旋的能力。先前已示出了不良的dsDNA解旋会削弱或阻止CRISPR/Cas系统蛋白AnaCas9或Cas14s切割DNA的能力。因此,不希望受任何理论束缚,本公开的一些CasX变体蛋白所增加的DNA切割活性可能至少部分归因于在靶位点发现和解旋dsDNA的能力增加。测量CasX蛋白(诸如变体或参考物)解旋DNA的能力的方法包括但不限于在荧光偏振或生物膜干涉技术中观察到dsDNA靶的速率增加的体外测定。
不希望受理论束缚,认为NTSB结构域中的氨基酸变化可产生具有增加的DNA解旋特征的CasX变体蛋白。另选地,或除此之外,与PAM相互作用的OBD或螺旋结构域区域中的氨基酸变化也可产生具有增加的DNA解旋特征的CasX变体蛋白。
测量CasX蛋白(诸如变体或参考物)解旋DNA的能力的方法包括但不限于在荧光偏振或生物膜干涉技术中观察到dsDNA靶的速率增加的体外测定。
m.催化活性
本文公开的CasX:gRNA系统的核糖核蛋白复合物包含与结合靶核酸的gRNA变体复合的CasX变体,并且在一些情况下切割靶核酸。在一些实施方案中,CasX变体蛋白相对于参考CasX蛋白或相对于由其衍生的另一种CasX变体具有改善的催化活性。不希望受理论束缚,认为在一些情况下,靶链的切割可能是Cas12样分子在产生dsDNA断裂时的限制因素。在一些实施方案中,CasX变体蛋白改善DNA的靶链的弯曲和该链的切割,从而导致CasX核糖核蛋白复合物对dsDNA切割的总体效率的改善。
在一些实施方案中,与参考CasX蛋白或由其衍生的另一种CasX变体相比,CasX变体蛋白具有增加的核酸酶活性。具有增加的核酸酶活性的变体可例如通过RuvC核酸酶结构域中的氨基酸变化来产生。在一些实施方案中,CasX变体包含具有切口酶活性的RuvC核酸酶结构域。在上文中,CasX:gRNA系统的CasX切口酶在非靶链中PAM位点的3'端10至18个核苷酸内产生单链断裂。在其它实施方案中,CasX变体包含具有双链切割活性的RuvC核酸酶结构域。在上文中,CasX:gRNA系统的CasX在靶链上的PAM位点的5'端18至26个核苷酸内和非靶链上的3'端10至18个核苷酸内产生双链断裂。核酸酶活性可通过多种方法测定,包括实施例中的那些方法。在一些实施方案中,与参考CasX相比,CasX变体具有大到至少2倍、或至少3倍、或至少4倍、或至少5倍、或至少6倍、或至少7倍、或至少8倍、或至少9倍、或至少10倍的k切割常数。
在一些实施方案中,CasX变体蛋白具有与gRNA形成RNP的改善的特征,该改善的特征导致与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白和gRNA的RNP相比,具有更高百分比的有切割能力的RNP,如实施例中所述。有切割能力是指所形成的RNP具有切割靶核酸的能力。在一些实施方案中,与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白和表2的gRNA的RNP相比,CasX变体和gRNA的RNP表现出至少2倍、或至少3倍、或至少4倍、或至少5倍、或至少10倍的切割速率。在前述实施方案中,改善的切割能力速率可在体外测定中证实,诸如实施例中所述。
在一些实施方案中,与参考CasX相比,CasX变体蛋白对双链切割具有增加的靶链加载。具有增加的靶链加载活性的变体可例如通过TLS结构域中的氨基酸变化来产生。不希望受理论束缚,TSL结构域中的氨基酸变化可导致具有改善的催化活性的CasX变体蛋白。另选地,或除此之外,RNA:DNA双链体的结合通道周围的氨基酸变化也可改善CasX变体蛋白的催化活性。
在一些实施方案中,与参考CasX蛋白相比,CasX变体蛋白具有增加的侧链切割活性。如本文所用,“侧链切割活性”是指在靶核酸序列的识别和切割之后,核酸的另外的、非靶向切割。在一些实施方案中,与参考CasX蛋白相比,CasX变体蛋白具有降低的侧链切割活性。
表征CasX蛋白的催化活性的示例性方法可包括但不限于体外切割测定法,包括下文实施例中的那些方法。在一些实施方案中,DNA产物在琼脂糖凝胶上的电泳可用于研究链切割的动力学。
n.对靶RNA的亲和力
在一些实施方案中,包含参考CasX蛋白或其变体的核糖核蛋白复合物与靶RNA结合并切割靶核酸。在一些实施方案中,当与参考CasX蛋白相比时,参考CasX蛋白的变体增加了CasX变体蛋白对靶RNA的特异性并且增加了CasX变体蛋白相对于靶RNA的活性。例如,当与参考CasX蛋白相比时,CasX变体蛋白可显示对靶RNA的增加的结合亲和力或靶RNA的增加的切割。在一些实施方案中,包含CasX变体蛋白的核糖核蛋白复合物结合靶RNA并且/或者切割靶RNA。在一些实施方案中,与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考蛋白或者与SEQ ID NO:270或SEQ ID NO:336的CasX变体相比,CasX变体对靶核酸具有至少约两倍至约10倍增加的结合亲和力。
o.催化死亡的CasX变体
在一些实施方案中,例如包括其中靶核酸序列的切割不是期望结果的应用的那些实施方案,改善CasX变体蛋白的催化活性包括改变、降低或消除CasX变体蛋白的催化活性。在一些实施方案中,本公开提供了催化死亡的CasX变体蛋白,其虽然当与具有与靶核酸互补的靶向序列的gRNA复合时能够结合靶核酸,但不能切割靶核酸。示例性催化死亡的CasX蛋白在CasX蛋白的RuvC结构域的活性位点中包含一个或多个突变。在一些实施方案中,催化死亡的CasX变体蛋白包含相对于SEQ ID NO:1在残基672、769和/或935处的取代。在一个实施方案中,催化死亡的CasX变体蛋白包含相对于SEQ ID NO:1的参考CasX蛋白的D672A、E769A和/或D935A的取代。在其它实施方案中,催化死亡的CasX变体蛋白包含相对于SEQ IDNO:2的参考CasX蛋白在氨基酸659、756和/或922处的取代。在一些实施方案中,催化死亡的CasX变体蛋白包含相对于SEQ ID NO:2的参考CasX蛋白的D659A、E756A和/或D922A的取代。在一些实施方案中,催化死亡的CasX变体527、668和676蛋白包含D660A、E757A和D922A的修饰以消除内切核酸酶活性。在其它实施方案中,催化死亡的CasX蛋白包含CasX蛋白的RuvC结构域的全部或部分的缺失。应当理解,可类似地将相同的前述取代引入本公开的CasX变体中,从而产生催化死亡的CasX(dCasX)变体。在一个实施方案中,从CasX变体中缺失全部或部分RuvC结构域,从而产生dCasX变体。在一些实施方案中,无催化活性的dCasX变体蛋白可用于碱基编辑或表观遗传修饰。在一些实施方案中,在对DNA具有更高亲和力的情况下,相对于催化活性的CasX,无催化活性的dCasX变体蛋白可更快地发现其靶核酸,保留与靶核酸结合更长时间,以更稳定的方式结合靶核酸,或它们的组合,从而与保留其切割能力的CasX变体相比,改善了催化死亡的CasX变体蛋白的这些功能。示例性dCasX变体序列如表7所示的SEQ ID NO:44-62和1232-1235公开。在一些实施方案中,dCasX变体与SEQ ID NO:44-62或1232-1235的序列至少80%相同、至少85%相同、至少90%相同、至少95%相同、至少96%相同、至少97%相同、至少98%相同或至少99%相同,并且保留了dCasX变体蛋白的功能特性。在一些实施方案中,dCasX变体包含SEQ ID NO:44-62或1232-1235的序列。
表7:催化死亡的CasX变体蛋白
构建体 | SEQ ID NO |
CAS100 | 44 |
CAS098 | 45 |
CAS085 | 46 |
CAS087 | 47 |
CAS086 | 48 |
CAS083 | 49 |
CAS082 | 50 |
CAS069 | 51 |
CAS068 | 52 |
CAS070 | 53 |
CAS071 | 54 |
CAS072 | 55 |
CAS073 | 56 |
CAS074 | 57 |
CAS075 | 58 |
CAS076 | 59 |
CAS077 | 60 |
CAS078 | 61 |
CAS081 | 62 |
CAS096 | 1232 |
CAS401 | 1233 |
CAS142(dCasX527) | 1234 |
CAS402(dCasX676) | 1235 |
p.CasX融合蛋白
在一些实施方案中,本公开提供了包含与CasX融合的异源蛋白的CasX变体蛋白,包括本文描述的任何实施方案的CasX变体。这包括CasX变体,其包含CasX与异源蛋白或其结构域的N末端、C末端或内部融合。
在一些实施方案中,CasX融合蛋白包含与具有不同感兴趣活性的一种或多种蛋白或其结构域融合的变体SEQ ID NO:247-592或1147-1231中的任一者或表3的序列,从而产生融合蛋白。在一些实施方案中,CasX融合蛋白包含与具有不同感兴趣活性的一种或多种蛋白或其结构域融合的变体SEQ ID NO:270-592或1147-1231中的任一者。在一些实施方案中,CasX融合蛋白包含与具有不同感兴趣活性的一种或多种蛋白或其结构域融合的变体SEQ ID NO:415-592或1147-1231中的任一者。例如,在一些实施方案中,CasX变体蛋白与抑制转录、修饰靶核酸或修饰与核酸相关的多肽(例如组蛋白修饰)的蛋白(或其结构域)融合。
在一些实施方案中,可将异源多肽(或异源氨基酸诸如半胱氨酸残基或非天然氨基酸)插入CasX蛋白内的一个或多个位置处以产生CasX融合蛋白。在其它实施方案中,可将半胱氨酸残基插入CasX蛋白内的一个或多个位置处,随后缀合下述异源多肽。在一些另选的实施方案中,可将异源多肽或异源氨基酸添加到参考或CasX变体蛋白的N末端或C末端。在其它实施方案中,可将异源多肽或异源氨基酸插入CasX蛋白的序列内部。
在一些实施方案中,CasX变体融合蛋白保留RNA指导的序列特异性靶核酸结合和切割活性。在一些情况下,CasX变体融合蛋白具有(保留)对应CasX变体蛋白(其没有异源蛋白插入)的50%或更多的活性(例如切割和/或结合活性)。在一些情况下,CasX变体融合蛋白保留对应CasX蛋白(其没有异源蛋白插入)的至少约60%、或至少约70%、至少约80%、或至少约90%、或至少约92%、或至少约95%、或至少约98%、或约100%的活性(例如切割和/或结合活性)。
在一些情况下,相对于没有异源氨基酸或异源多肽插入的CasX蛋白的活性,参考CasX或CasX变体融合蛋白保留(具有)靶核酸结合活性。在一些情况下,参考CasX或CasX变体融合蛋白保留对应CasX蛋白(其没有异源蛋白插入)的至少约60%、或至少约70%、至少约80%、或至少约90%、或至少约92%、或至少约95%、或至少约98%、或约100%的结合活性。
在一些情况下,相对于没有异源氨基酸或异源多肽插入的亲本CasX蛋白的活性,CasX变体融合蛋白保留(具有)靶核酸结合和/或切割活性。例如,在一些情况下,CasX变体融合蛋白具有(保留)对应亲本CasX蛋白(不具有插入的CasX蛋白)的50%或更多的结合和/或切割活性。例如,在一些情况下,CasX变体融合蛋白具有(保留)对应CasX亲本蛋白(不具有插入的CasX蛋白)的60%或更多(70%或更多、80%或更多、90%或更多、92%或更多、95%或更多、98%或更多、或100%)的结合和/或切割活性。测量CasX蛋白和/或CasX融合蛋白的切割和/或结合活性的方法将是本领域普通技术人员已知的,并且可使用任何方便的方法。
多种异源多肽适于包含在本公开的CasX变体融合蛋白中。在一些情况下,融合配偶体可调节靶核酸的转录(例如抑制转录、增加转录)。例如,在一些情况下,融合配偶体是抑制转录的蛋白质(或来自蛋白质的结构域)(例如,转录阻遏蛋白,经由募集转录抑制剂蛋白质、修饰靶核酸(诸如甲基化)、募集DNA修饰基因、调节与靶核酸相关的组蛋白、募集组蛋白修饰基因(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰基因)等而起作用的蛋白质)。在一些情况下,融合配偶体是增加转录的蛋白质(或来自蛋白质的结构域)(例如,转录激活因子,经由募集转录激活因子蛋白质、修饰靶核酸(诸如去甲基化)、募集DNA修饰基因、调节与靶核酸相关的组蛋白、募集组蛋白修饰基因(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰基因)等而起作用的蛋白质)。
在一些情况下,融合配偶体具有修饰靶核酸序列的酶活性;例如核酸酶活性、甲基转移酶活性、去甲基化酶活性、DNA修复活性、DNA损伤活性、脱氨活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光解酶活性或糖基化酶活性。在一些实施方案中,CasX变体包含SEQ ID NO:247-592或1147-1231中的任一者,以及具有以下活性的多肽:甲基转移酶活性、去甲基化酶活性、乙酰转移酶活性、去乙酰化酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酰化活性、去腺苷化活性、SUMOylating活性、deSUMOylating活性、核糖基化活性、去核糖基化活性、豆蔻酰化活性或去豆蔻酰化活性。在一些实施方案中,CasX变体包含SEQ ID NO:270-592或1147-1231中的任一者和如上所述的多肽。在一些实施方案中,CasX变体包含SEQ ID NO:415-592或1147-1231中的任一个和如上文所述的多肽。
可用作融合配偶体以增加转录的蛋白质(或其片段)的示例包括但不限于:转录激活因子,诸如VP16、VP64、VP48、VP160、p65亚结构域(例如,来自NFkB),以及EDLL的激活结构域和/或TAL激活结构域(例如,用于植物中的活性);组蛋白赖氨酸甲基转移酶,诸如SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1等;组蛋白赖氨酸去甲基化酶,诸如JHDM2a/b、UTX、JMJD3等;组蛋白乙酰转移酶,诸如GCN5、PCAF、CBP、p300、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、SRC1、ACTR、P160、CLOCK等;DNA去甲基化酶,诸如十-十一易位(TET)双加氧酶1(TET1CD)、TET1、DME、DML1、DML2、ROS1等。
可用作融合配偶体以减少转录的蛋白质(或其片段)的示例包括但不限于:转录阻遏蛋白,诸如Kruppel相关盒(KRAB或SKD);KOX1抑制结构域;Mad mSIN3相互作用结构域(SID);ERF阻遏蛋白结构域(ERD)、SRDX抑制结构域(例如,用于植物中的抑制)等;组蛋白赖氨酸甲基转移酶,诸如Pr-SET7/8、SUV4-20H1、RIZ1等;组蛋白赖氨酸去甲基化酶,诸如JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID 1C/SMCX、JARID1D/SMCY等;组蛋白赖氨酸去乙酰化酶,诸如HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等;DNA甲基化酶,诸如HhaIDNA m5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等;以及外周募集元件,诸如核纤层蛋白A、核纤层蛋白B等。
在一些情况下,CasX变体的融合配偶体具有修饰靶核酸(例如ssRNA、dsRNA、ssDNA、dsDNA)的酶活性。可由融合配偶体提供的酶活性的示例包括但不限于:核酸酶活性,诸如由限制性酶(例如FokI核酸酶)提供;甲基转移酶活性,诸如由甲基转移酶(Hhal DNAm5c-甲基转移酶(M.Hhal)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等)提供;去甲基化酶活性,诸如由去甲基化酶(例如十-十一易位(TET)双加氧酶1(TET 1CD)、TET1、DME、DML1、DML2、ROS1等)提供;DNA修复活性;DNA损伤活性;脱氨活性,诸如由脱氨酶(例如胞嘧啶脱氨酶,例如APOBEC蛋白诸如大鼠载脂蛋白B mRNA编辑酶,催化多肽1{APOBEC1})提供;歧化酶活性;烷基化活性;脱嘌呤活性;氧化活性;嘧啶二聚体形成活性;整合酶活性,诸如由整合酶和/或解离酶(例如Gin转化酶,诸如Gin转化酶的高活性突变体、GinH106Y;人免疫缺陷病毒1型整合酶(IN);Tn3解离酶;等等)提供;转座酶活性;重组酶活性,诸如由重组酶(例如Gin重组酶的催化结构域)提供;聚合酶活性;连接酶活性;解旋酶活性;光解酶活性和糖基化酶活性)。
在一些情况下,本公开的CasX变体蛋白与选自以下项的多肽融合:用于增加转录的结构域(例如VP16结构域、VP64结构域)、用于减少转录的结构域(例如KRAB结构域,例如来自Kox1蛋白)、组蛋白乙酰转移酶的核心催化结构域(例如组蛋白乙酰转移酶p300)、提供可检测信号的蛋白质/结构域(例如荧光蛋白,诸如GFP)、核酸酶结构域(例如Fokl核酸酶)或碱基编辑器(例如胞苷脱氨酶,诸如APOBEC1)。
在一些实施方案中,CasX变体包含SEQ ID NO:247-592或1147-1231中的任一者,或SEQ ID NO:270-592或1147-1231中的任一者,或SEQ ID NO:415-592或1147-1231中的任一者,或表3的序列,其与选自以下的多肽融合:用于降低转录的结构域、具有酶活性的结构域、组蛋白乙酰转移酶的核心催化结构域、提供可检测信号的蛋白/结构域、核酸酶结构域和碱基编辑器。在一些实施方案中,CasX变体包含与多肽融合的SEQ ID NO:247-592或1147-1231中的任一者,其与选自以下的多肽融合:用于降低转录的结构域、具有酶活性的结构域、组蛋白乙酰转移酶的核心催化结构域、提供可检测信号的蛋白/结构域、核酸酶结构域和碱基编辑器。在一些实施方案中,CasX变体包含与上述多肽融合的SEQ ID NO:270-592或1147-1231中的任一者。在一些实施方案中,CasX变体包含与上文所述多肽融合的SEQID NO:415-592或1147-1231中的任一个。在一些实施方案中,CasX变体包含SEQ ID NO:760-789中的任一者,其与选自以下的多肽融合:用于降低转录的结构域、具有酶活性的结构域、组蛋白乙酰转移酶的核心催化结构域、提供可检测信号的蛋白/结构域、核酸酶结构域和碱基编辑器。在一些实施方案中,CasX变体包含与选自以下的多肽融合的SEQ ID NO:411-592中的任一个:用于降低转录的结构域、具有酶活性的结构域、组蛋白乙酰转移酶的核心催化结构域、提供可检测信号的蛋白质/结构域、核酸酶结构域和碱基编辑器。
在一些情况下,将本公开的参考CasX蛋白或CasX变体与碱基编辑器融合。碱基编辑器包括可改变核苷或核苷酸上的鸟嘌呤、腺嘌呤、胞嘧啶、胸腺嘧啶或尿嘧啶碱基的那些。碱基编辑器包括但不限于腺苷脱氨酶、胞嘧啶脱氨酶(例如,APOBEC1)和鸟嘌呤氧化酶。因此,本文提供的任何CasX变体可包含碱基编辑器(即,与其融合);例如,本公开的CasX变体可与腺苷脱氨酶、胞嘧啶脱氨酶或鸟嘌呤氧化酶融合。在示例性实施方案中,包含SEQ IDNO:247-592或1147-1231中任一者的本公开的CasX变体与腺苷脱氨酶、胞嘧啶脱氨酶或鸟嘌呤氧化酶融合。在其它示例性实施方案中,包含SEQ ID NO:270-592或1147-1231中任一者的本公开的CasX变体与腺苷脱氨酶、胞嘧啶脱氨酶或鸟嘌呤氧化酶融合。在进一步的示例性实施方案中,包含SEQ ID NO:415-592或1147-1231中任一者的本公开的CasX变体与腺苷脱氨酶、胞嘧啶脱氨酶或鸟嘌呤氧化酶融合。
在一些情况下,CasX变体的融合配偶体具有修饰与靶核酸(例如,ssRNA、dsRNA、ssDNA、dsDNA)相关的蛋白(例如,组蛋白、RNA结合蛋白、DNA结合蛋白等)的酶活性。可由具有CasX变体的融合配偶体提供的酶活性(修饰与靶核酸相关的蛋白质)的示例包括但不限于:甲基转移酶活性,诸如由组蛋白甲基转移酶(HMT)(例如色斑3-9抑制因子同系物1(SUV39H1,也称为KMT1A)、常染色质组蛋白赖氨酸甲基转移酶2(G9A,也称为KMT1C和EHMT2)、SUV39H2、ESET/SETDB 1等、SET1A、SET1B、MLL1至5、ASH1、SMYD2、NSD1、DOT1样组蛋白赖氨酸甲基转移酶(DOT1L)、Pr-SET7/8、赖氨酸甲基转移酶5B(SUV4-20H1)、zeste 2多克隆抑制复合物2亚单位增强子(EZH2)、PR/SET结构域2(RIZ1)提供;去甲基化酶活性,诸如由组蛋白去甲基化酶(例如赖氨酸去甲基化酶1A(KDM1A,也称为LSD1)、JHDM2a/b、JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY、UTX、JMJD3等)提供;乙酰转移酶活性,诸如由组蛋白乙酰化酶转移酶(例如人乙酰转移酶p300的催化核心/片段、GCN5、PCAF、CBP、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、HB01/MYST2、HMOF/MYST1、SRC1、ACTR、P160、CLOCK等)提供;去乙酰化酶活性,诸如由组蛋白去乙酰化酶(例如HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等)提供;激酶活性;磷酸酶活性;泛素连接酶活性;去泛素化活性;腺苷酰化活性;去腺苷化活性;SUMOylating活性;deSUMOylating活性;核糖基化活性;去核糖基化活性;豆蔻酰化活性和去豆蔻酰化活性。
CasX变体的合适融合配偶体的其它示例是(i)二氢叶酸还原酶(DHFR)去稳定化结构域(例如,以产生化学可控的目标RNA指导的多肽),和(ii)叶绿体转运肽。
在一些实施方案中,CasX变体包含SEQ ID NO:247-592或1147-1231中的任一者,或SEQ ID NO:270-592或1147-1231中的任一者,或SEQ ID NO 415-592或1147-1231中的任一者,或表3的序列,以及叶绿体转运肽,包括但不限于:MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGR VKCMQVWPPIGKKKFETLSYLPPLTRDSRA(SEQ ID NO:338);MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKS(SEQ ID NO:339);MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDITSITSNGGRVNCMQVWPPIEKKKFETLSYLPDLTDSGGRVNC(SEQ ID NO:340);MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIG SELRPLKVMSSVSTAC(SEQ ID NO:341);MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIG SELRPLKVMSSVSTAC(SEQ ID NO:342);MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANSMLVLKKDSIFMQLF CSFRISASVATAC(SEQID NO:343);MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRTVGASAAPKQSRKPHRFDRRCLSMVV(SEQ ID NO:344);MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDATSLSVTTSARATPKQ QRSVQRGSRRFPSVVVC(SEQ ID NO:345);MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLDITSIASNGGRVQC(SEQ ID NO:346);MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVKCSAAVTPQASPVIS RSAAAA(SEQ ID NO:347);以及MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRTVKCCASSWNSTINGAAATTNGASAASS(SEQ ID NO:348)。
在一些情况下,本公开的CasX变体蛋白可包括内体逃逸肽。在一些情况下,内体逃逸多肽包含氨基酸序列GLFXALLXLLXSLWXLLLXA(SEQ ID NO:349),其中每个X独立地选自赖氨酸、组氨酸和精氨酸。在一些情况下,内体逃逸多肽包含氨基酸序列GLFHALLHLLHSLWHLLLHA(SEQ ID NO:350)或HHHHHHHHH(SEQ ID NO:351)。在一些实施方案中,CasX变体包含SEQ ID NO:247-592或1147-1231中任一者,或SEQ ID NO:270-592或1147-1231中的任一者,或SEQ ID NO:415-592或1147-1231中的任一者的序列,或表3的序列,以及内体逃逸多肽。
用于靶向ssRNA靶核酸时使用的CasX变体的合适融合配偶体的非限制性示例包括(但不限于):剪接因子(例如,RS结构域);蛋白翻译组分(例如翻译起始、延伸和/或释放因子;例如,真核翻译起始因子4γ{eIF4G});RNA甲基化酶;RNA编辑酶(例如RNA脱氨酶,例如作用于RNA的腺苷脱氨酶(ADAR),包括A至I和/或C至U编辑酶);解旋酶;RNA结合蛋白;等等。应当理解,异源多肽可包括整个蛋白质,或者在一些情况下可包括蛋白质的片段(例如,功能结构域)。
在一些实施方案中,SEQ ID NO:247-592或1147-1231中的任一者,或SEQ ID NO:270-592或1147-1231中的任一者,或SEQ ID NO 415-592或1147-1231中的任一者,或表3的序列的CasX变体包含能够与ssRNA(出于本公开的目的,其包括分子内和/或分子间二级结构,例如双链RNA双链体,诸如发夹、茎环等)瞬时地或不可逆地、直接地或间接地相互作用的任何结构域的融合配偶体,包括但不限于选自以下项的效应子结构域:核酸内切酶(例如RNase III、CRR22 DYW结构域、Dicer和来自蛋白质诸如SMG5和SMG6的PIN(PilT N-末端)结构域);负责刺激RNA切割的蛋白和蛋白结构域(例如切割和多腺苷酸化特异性因子{CPSF}、切割刺激因子{CstF}、CFIm和CFIIm);核酸外切酶(例如染色质结合核酸外切酶XRN1(XRN-1)或核酸外切酶T);去腺苷化酶(例如DNA 5'-腺苷一磷酸水解酶{HNT3});负责无义介导的RNA衰变的蛋白质和蛋白质结构域(例如UPF1 RNA解旋酶和ATP酶{UPF1}、UPF2、UPF3、UPF3b、RNP SI、RNA结合基序蛋白8A{Y14}、DEK原癌基因{DEK}、RNA加工蛋白REF2{REF2}和丝氨酸-精氨酸重复基质1{SRm160});负责稳定RNA的蛋白质和蛋白质结构域(例如聚(A)结合蛋白质细胞质1{PABP});负责抑制翻译的蛋白质和蛋白质结构域(例如argonaute RISC催化组分2{Ago2}和Ago4);负责刺激翻译的蛋白质和蛋白质结构域(例如Staufen);负责(例如,能够)调节翻译的蛋白质和蛋白质结构域(例如翻译因子,诸如起始因子、延长因子、释放因子等,例如eIF4G);负责RNA聚腺苷酸化的蛋白质和蛋白质结构域(例如聚(A)聚合酶(PAP1)、含有PAP相关结构域的蛋白质;聚(A)RNA聚合酶GLD-2{GLD-2}和Star-PAP);负责使RNA聚尿苷化的蛋白质和蛋白质结构域(例如末端尿苷基转移酶{CID1}和末端尿苷酸转移酶);负责RNA定位的蛋白质和蛋白质结构域(例如来自胰岛素样生长因子2mRNA结合蛋白1{IMP1}、Z-DNA结合蛋白1{ZBP1}、She2p、She3p和Bicaudal-D);负责核内滞留RNA的蛋白质和蛋白质结构域(例如Rrp6);负责RNA核外转移的蛋白质和蛋白质结构域(例如核RNA输出因子1{TAP}、核RNA输出因子1{NXF1}、THO复合物{THO}、TREX、REF和Aly/REF输出因子{Aly});负责抑制RNA剪接的蛋白质和蛋白质结构域(例如聚嘧啶道结合蛋白1{PTB}、含有KH RNA结合结构域的信号转导相关蛋白1Sam68}和异质核核糖核蛋白A1{hnRNP A1});负责刺激RNA剪接的蛋白质和蛋白质结构域(例如富含丝氨酸/精氨酸(SR)结构域);负责降低转录效率的蛋白质和蛋白质结构域(例如FUS RNA结合蛋白{FUS(TLS)});以及负责刺激转录的蛋白质和蛋白质结构域(例如细胞周期蛋白依赖性激酶7{CDK7}和HIV Tat)。另选地,该效应子结构域可选自:核酸内切酶;能够刺激RNA切割的蛋白质和蛋白质结构域;核酸外切酶;去腺苷化酶;具有无义介导的RNA衰变活性的蛋白质和蛋白质结构域;能够稳定RNA的蛋白质和蛋白质结构域;能够抑制翻译的蛋白质和蛋白质结构域;能够刺激翻译的蛋白质和蛋白质结构域;能够调节翻译的蛋白质和蛋白质结构域(例如翻译因子,诸如起始因子、延长因子、释放因子等,例如eIF4G);能够使RNA聚腺苷酸化的蛋白质和蛋白质结构域;能够使RNA聚尿苷化的蛋白质和蛋白质结构域;具有RNA定位活性的蛋白质和蛋白质结构域;能够核内滞留RNA的蛋白质和蛋白质结构域;具有RNA核输出活性的蛋白质和蛋白质结构域;能够抑制RNA剪接的蛋白质和蛋白质结构域;能够刺激RNA剪接的蛋白质和蛋白质结构域;能够降低转录效率的蛋白质和蛋白质结构域;以及能够刺激转录的蛋白质和蛋白质结构域。另一种合适的异源多肽是PUF RNA结合结构域,其更详细地描述于WO2012068627中,该文献据此全文以引用方式并入。
可用作与CasX变体一起使用的融合配偶体的一些RNA剪接因子(整体或作为其片段)具有模块化组织,具有单独的序列特异性RNA结合模块和剪接效应子结构域。例如,富含丝氨酸/精氨酸(SR)蛋白家族的成员含有与前mRNA中的外显子剪接增强子(ESE)结合的N末端RNA识别基序(RRM),以及促进外显子包含的C末端RS结构域。又如,hnRNP蛋白hnRNP A1通过其RRM结构域与外显子剪接沉默子(ESS)结合,并且通过C末端富含甘氨酸的结构域抑制外显子包含。一些剪接因子可通过与两个可选位点之间的调控序列结合来调控剪接位点(ss)的可选用途。例如,ASF/SF2可识别ESE并促进内含子近端位点的使用,而hnRNP A1可与ESS结合并将剪接移向内含子远端位点的使用。此类因子的一个应用是产生调节内源基因(特别是疾病相关基因)的可选剪接的ESF。例如,BCL2样1(Bcl-x)前mRNA产生具有两个可选5'剪接位点的两个剪接同种型,以编码具有相反功能的蛋白质。长剪接同种型Bcl-xL是一种有效凋亡抑制剂,其在长寿命的有丝分裂后细胞中表达并且在许多癌细胞中上调,保护细胞免受凋亡信号的影响。短同种型Bcl-xS是一种促凋亡同种型,并且在具有周转率的细胞(例如,发育中的淋巴细胞)中以高水平表达。两种Bcl-x剪接同种型的比例由位于核心外显子区域或外显子延伸区域(即,在两个可选5'剪接位点之间)的多个cc元件调控。更多示例参见WO2010075303,该文献据此全文以引用方式并入。
与CasX变体一起使用的其它合适融合配偶体包括但不限于:作为边界元件(例如CTCF)的蛋白质(或其片段),提供外周募集的蛋白质及其片段(例如核纤层蛋白A、核纤层蛋白B等)和蛋白质停靠元件(例如FKBP/FRB、Pill/Abyl等)。
附加地或另选地,本公开的CasX变体蛋白可与多肽渗透结构域融合以促进细胞的摄取。许多渗透结构域是本领域已知的并且可用于本公开的非整合多肽,包括肽、肽模拟物和非肽载体。例如,通过以引用方式整体并入本文的WO2017/106569和US20180363009A1描述了Cas蛋白与一个或多个核定位序列(NLS)的融合以促进细胞摄取。在其它实施方案中,渗透肽可源自黑腹果蝇(Drosophila melanogaster)转录因子触角足基因(Antennapaedia)的第三α螺旋,称为穿透素,其包含氨基酸序列RQIKIWFQNRRMKWKK(SEQ IDNO:398)。又如,渗透肽包含HIV-1tat碱性区域氨基酸序列,其可包括例如天然存在的tat蛋白的氨基酸49-57。其它渗透结构域包括聚精氨酸基序,例如,HIV-1rev蛋白的氨基酸34-56的区域、九精氨酸、八精氨酸等。可选择进行融合的位点以优化多肽的生物活性、分泌或结合特征。最佳位点将通过常规实验确定。
在一些情况下,与CasX变体一起使用的异源多肽(融合配偶体)提供亚细胞定位;即异源多肽含有亚细胞定位序列(例如,靶向细胞核的核定位信号(NLS)、将融合蛋白保持在细胞核外的序列(例如核输出序列(NES))、将融合蛋白保留在细胞质内的序列、靶向线粒体的线粒体定位信号、靶向叶绿体的叶绿体定位信号、ER滞留信号等)。在一些实施方案中,目标RNA指导的多肽或条件活性RNA指导的多肽和/或目标CasX融合蛋白不包括NLS,使得该蛋白未靶向细胞核,这可能是有利的;例如当靶核酸序列是存在于细胞溶胶中的RNA时。在一些实施方案中,融合配偶体可提供标签(即,异源多肽是可检测的标记)以便于跟踪和/或纯化(例如荧光蛋白,例如绿色荧光蛋白(GFP)、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)、青色荧光蛋白(CFP)、mCherry、tdTomato等;组氨酸标签,例如6XHis标签;血凝素(HA)标签;FLAG标签;Myc标签;等等)。在一些实施方案中,CasX变体包含SEQ ID NO:XX-XX中的任一者和亚细胞定位序列或标签。
在一些情况下,参考或CasX变体蛋白包括核定位信号(NLS)(与其融合)。适合与CasX变体一起使用的NLS的非限制性示例包括与源自以下项的序列具有至少约80%、至少约90%或至少约95%同一性或相同的序列:具有氨基酸序列PKKKRKV(SEQ ID NO:352)的SV40病毒大T抗原的NLS;来自核质蛋白的NLS(例如,具有序列KRPAATKKAGQAKKKK(SEQ IDNO:353)的双分型核质蛋白NLS;具有氨基酸序列PAAKRVKLD(SEQ ID NO:354))或RQRRNELKRSP(SEQ ID NO:355)的c-myc NLS;具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:356)的hRNPAl M9 NLS;来自输入蛋白-α的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:357);肌肉瘤T蛋白的序列VSRKRPRP(SEQ ID NO:358)和PPKKARED(SEQ ID NO:359);人p53的序列PQPKKKPL(SEQ ID NO:360);小鼠c-abl IV的序列SALIKKKKKMAP(SEQ ID NO:361);流感病毒NS1的DRLRR(SEQ ID NO:362)和PKQKKRK序列(SEQ ID NO:363);肝炎病毒δ抗原的RKLKKKIKKL序列(SEQ ID NO:364);小鼠Mxl蛋白的序列REKKKFLKRR(SEQ ID NO:365);人聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK(SEQ ID NO:366);类固醇激素受体(人)糖皮质激素的序列RKCLQAGMNLEARKTKK(SEQ ID NO:367);博尔纳病(Borna disease)病毒P蛋白(BDV-P1)的序列PRPRKIPR(SEQ ID NO:368);丙型肝炎病毒非结构蛋白(HCV-NS5A)的序列PPRKKRTVV(SEQID NO:369);LEF1的序列NLSKKKKRKREK(SEQ ID NO:370);ORF57 simirae的序列RRPSRPFRKP(SEQ ID NO:371);EBV LANA的序列KRPRSPSS(SEQ ID NO:372);甲型流感病毒蛋白的序列KRGINDRNFWRGENERKTR(SEQ ID NO:373);人RNA解旋酶A(RHA)的序列PRPPKMARYDN(SEQ ID NO:374);核仁RNA解旋酶II的序列KRSFSKAF(SEQ ID NO:375);TUS-蛋白的序列KLKIKRPVK(SEQ ID NO:376);与输入蛋白-α相关的序列PKKKRKVPPPPAAKRVKLD(SEQ ID NO:377);来自HTLV-1中Rex蛋白的序列PKTRRRPRRSQRKRPPT(SEQ ID NO:378);来自秀丽隐杆线虫(Caenorhabditis elegans)的EGL-13蛋白的序列SRRRKANPTKLSENAKKLAKEVEN(SEQ ID NO:379);以及序列KTRRRPRRSQRKRPPT(SEQ ID NO:380)、RRKKRRPRRKKRR(SEQ ID NO:381)、PKKKSRKPKKKSRK(SEQ ID NO:382)、HKKKHPDASVNFSEFSK(SEQ ID NO:383)、QRPGPYDRPQRPGPYDRP(SEQ ID NO:384)、LSPSLSPLLSPSLSPL(SEQ ID NO:385)、RGKGGKGLGKGGAKRHRK(SEQ ID NO:386)、PKRGRGRPKRGRGR(SEQ ID NO:387)、PKKKRKVPPPPAAKRVKLD(SEQ ID NO:388)、PKKKRKVPPPPKKKRKV(SEQ ID NO:389)、PAKRARRGYKC(SEQ ID NO:63)、KLGPRKATGRW(SEQ IDNO:64)、PRRKREE(SEQ ID NO:65)、PYRGRKE(SEQ ID NO:66)、PLRKRPRR(SEQ ID NO:67)、PLRKRPRRGSPLRKRPRR(SEQ ID NO:68)、PAAKRVKLDGGKRTADGSEFESPKKKRKV(SEQ ID NO:69)、PAAKRVKLDGGKRTADGSEFESPKKKRKVGIHGVPAA(SEQ ID NO:70)、PAAKRVKLDGGKRTADGSEFESPKKKRKVAEAAAKEAAAKEAAAKA(SEQ ID NO:71)、PAAKRVKLDGGKRTADGSEFESPKKKRKVPG(SEQ IDNO:72)、KRKGSPERGERKRHW(SEQ ID NO:73)、KRTADSQHSTPPKTKRKVEFEPKKKRKV(SEQ ID NO:74)和PKKKRKVGGSKRTADSQHSTPPKTKRKVEFEPKKKRKV(SEQ ID NO:75)。在一些实施方案中,该一个或多个NLS通过接头肽与CRISPR蛋白或与相邻NLS连接,其中该接头肽选自RS、(G)n(SEQ ID NO:1023)、(GS)n(SEQ ID NO:1024)、(GSGGS)n(SEQ ID NO:399)、(GGSGGS)n(SEQID NO:400)、(GGGS)n(SEQ ID NO:401)、GGSG(SEQ ID NO:402)、GGSGG(SEQ ID NO:403)、GSGSG(SEQ ID NO:404)、GSGGG(SEQ ID NO:405)、GGGSG(SEQ ID NO:406)、GSSSG(SEQ IDNO:407)、GPGP(SEQ ID NO:408)、GGP、PPP、PPAPPA(SEQ ID NO:409)、PPPG(SEQ ID NO:24)、PPPGPPP(SEQ ID NO:410)、PPP(GGGS)n(SEQ ID NO:25)、(GGGS)nPPP(SEQ ID NO:26)、AEAAAKEAAAKEAAAKA(SEQ ID NO:1025)和TPPKTKRKVEFE(SEQ ID NO:27),其中n为1至5。通常,NLS(或多个NLS)具有足够的强度以驱动CasX变体融合蛋白在真核细胞的细胞核中的累积。检测细胞核中的累积可通过任何合适的技术进行。例如,可检测标记可与CasX变体融合蛋白融合,使得后者在细胞内的位置可被可视化。细胞核还可分离自细胞,然后可通过任何合适的用于检测蛋白质的方法(诸如免疫组织化学、蛋白质印迹或酶活性测定)来分析其内容物。还可间接测定细胞核中的累积。
本公开考虑了用于连接CRISPR蛋白的各种构型的多个NLS的组装。在一些实施方案中,1、2、3、4或更多个NLS通过接头肽与CRISPR蛋白的N末端连接。在其它实施方案中,1、2、3、4或更多个NLS通过接头肽与CRISPR蛋白的C末端连接。在一些实施方案中,与CRISPR蛋白的N末端连接的NLS和与C末端连接的NLS相同。在其它实施方案中,与CRISPR蛋白的N末端连接的NLS和与C末端连接的NLS不同。在一些实施方案中,与CRISPR蛋白的N末端连接的NLS选自表8所示的N末端序列。在一些实施方案中,与CRISPR蛋白的C末端连接的NLS选自表8所示的C末端序列。检测细胞核中的累积可通过任何合适的技术进行。例如,可检测标记可与参考或CasX变体融合蛋白融合,使得后者在细胞内的位置可被可视化。细胞核还可分离自细胞,然后可通过任何合适的用于检测蛋白质的方法(诸如免疫组织化学、蛋白质印迹或酶活性测定)来分析其内容物。还可间接测定细胞核中的累积。
表8:NLS序列
/>
/>
/>
/>
在一些实施方案中,CasX变体包含与SEQ ID NO:63-75、219-236、239、352-389、983-1021、1237-1278中的任一者或表8中的序列中的任一者的一个或多个NLS融合的SEQID NO:247-592或1147-1231中的任一者,或SEQ ID NO:270-592或1147-1231中的任一者,或SEQ ID NO:415-592或1147-1231中的任一者,或表3的序列。在一些实施方案中,一个或多个NLS与CasX变体的N末端融合或与其接近。在一些实施方案中,一个或多个NLS与CasX变体的C末端融合或与其接近。在一些实施方案中,一个或多个NLS与CasX变体的N和C末端两者融合。在一些实施方案中,NLS通过接头与另一个NLS连接。
在一些情况下,参考或CasX变体融合蛋白包括“蛋白质转导结构域”或PTD(也称为CPP—细胞穿透肽),其是指促进穿过脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的蛋白质、多核苷酸、碳水化合物或有机或无机化合物。与另一分子连接的PTD(其范围可从小的极性分子至大分子和/或纳米颗粒)促进该分子穿过膜,例如从胞外空间到胞内空间,或者从细胞溶胶到细胞器内。在一些实施方案中,PTD共价连接至参考或CasX变体融合蛋白的氨基末端。在一些实施方案中,PTD共价连接至参考或CasX变体融合蛋白的羧基末端。在一些情况下,PTD在合适的插入位点处插入参考或CasX变体融合蛋白的序列内部。在一些情况下,参考或CasX变体融合蛋白包括(缀合至、融合至)一个或多个PTD(例如两个或更多个、三个或更多个、四个或更多个PTD)。在一些情况下,PTD包括一个或多个核定位信号(NLS)。PTD的示例包括但不限于HIV TAT的肽转导结构域,该HIV TAT包含:YGRKKRRQRRR(SEQ ID NO:390)、RKKRRQRR(SEQ ID NO:391);YARAAARQARA(SEQ ID NO:392);THRLPRRRRRR(SEQ ID NO:393);GGRRARRRRRR(SEQ ID NO:394);聚精氨酸序列,其包含足以直接进入细胞的精氨酸数量(例如3、4、5、6、7、8、9、10或10至50个精氨酸,SEQ ID NO:1026);VP22结构域(Zender等人,(2002)Cancer Gene Ther.9(6):489-96);果蝇触角蛋白质转导结构域(Noguchi等人,(2003)Diabetes 52(7):1732-1737);截短的人降钙素肽(Trehin等人,(2004)Pharm.Research 21:1248-1256);聚赖氨酸(Wender等人,(2000)Proc.Natl.Acad.Sci.USA97:13003-13008);RRQRRTSKLMKR(SEQ ID NO:395);转运蛋白GWTLNSAGYLLGKINLKALAALAKKIL(SEQ ID NO:396);KALAWEAKLAKALAKALAKHLAKALAKALKCEA(SEQ ID NO:397);RQIKIWFQNRRMKWKK(SEQ ID NO:398)。在一些实施方案中,PTD是可激活的CPP(ACPP)(Aguilera等人,(2009)Integr Biol(Camb)June;1(5-6):371-381)。ACPP包含经由可切割接头连接至匹配聚阴离子(例如Glu9或“E9”)的聚阳离子CPP(例如Arg9或“R9”),这将净电荷减少至几乎为零,并且由此抑制粘附和摄入到细胞。在切割接头后,释放聚阴离子,局部暴露聚精氨酸及其固有的粘附性,从而“激活”ACPP以穿过膜。在一些实施方案中,CasX变体包含SEQ ID NO:247-592或1147-1231中任一者,或SEQ ID NO:270-592或1147-1231中的任一者,或SEQ ID NO:415-592或1147-1231中的任一者,或表3的序列,以及PTD。
在一些实施方案中,CasX变体融合蛋白可包括经由接头多肽(例如,一个或多个接头多肽)连接至内部插入有异源氨基酸或异源多肽(异源氨基酸序列)的CasX蛋白。在一些实施方案中,参考或CasX变体融合蛋白可经由接头多肽(例如,一个或多个接头多肽)在C末端和/或N末端连接至异源多肽(融合配偶体)。接头多肽可具有多种氨基酸序列中的任一种。蛋白质可通过通常具有柔性性质的间隔肽来连接,尽管不排除其它化学键。合适的接头包括长度为4个氨基酸至40个氨基酸,或长度为4个氨基酸至25个氨基酸的多肽。这些接头通常通过使用合成的、编码接头的寡核苷酸偶联蛋白质来产生。可使用具有一定程度灵活性的肽接头。连接肽实际上可具有任何氨基酸序列,需记住的是,优选的接头将具有产生一般柔性肽的序列。小氨基酸(诸如甘氨酸和丙氨酸)的用途可用于产生柔性肽。此类序列的产生对本领域技术人员来说是常规的。多种不同的接头是可商购获得的并且被认为是适合使用的。示例性接头多肽包括甘氨酸聚合物(G)n、甘氨酸-丝氨酸聚合物(包括例如(GS)n(SEQ ID NO:1024)、(GSGGS)n(SEQ ID NO:399)、(GGSGGS)n(SEQ ID NO:400)和(GGGS)n(SEQ ID NO:401),其中n是至少为一的整数)、甘氨酸-丙氨酸聚合物、丙氨酸-丝氨酸聚合物、甘氨酸-脯氨酸聚合物、脯氨酸聚合物和脯氨酸-丙氨酸聚合物。示例性接头可包括氨基酸序列,包括但不限于:RS、(G)n、(GS)n(SEQ ID NO:1024)、(GSGGS)n(SEQ ID NO:399)、(GGSGGS)n(SEQ ID NO:400)、(GGGS)n(SEQ ID NO:401)、GGSG(SEQ ID NO:402)、GGSGG(SEQID NO:403)、GSGSG(SEQ ID NO:404)、GSGGG(SEQ ID NO:405)、GGGSG(SEQ ID NO:406)、GSSSG(SEQ ID NO:407)、GPGP(SEQ ID NO:)408、GGP、PPP、PPAPPA(SEQ ID NO:409)、PPPG(SEQ ID NO:24)、PPPGPPP(SEQ ID NO:410)、PPP(GGGS)n(SEQ ID NO:25)、(GGGS)nPPP(SEQID NO:26)、AEAAAKEAAAKEAAAKA(SEQ ID NO:1025)和TPPKTKRKVEFE(SEQ ID NO:27),其中n为1至5。普通技术人员将认识到,与上述任何元件缀合的肽的设计可包括全部或部分柔性的接头,使得该接头可包括柔性接头以及赋予较少柔性结构的一个或多个部分。
V.制备CasX变体蛋白和gRNA变体的方法
本文所述的CasX变体蛋白和gRNA变体可通过多种方法构建。此类方法可包括例如下文和实施例中以及申请PCT/US20/36506和WO2020247883A2(以引用方式并入本文)中所述的深度突变进化(DME)。
a.深度突变进化(DME)
在一些实施方案中,DME用于鉴定具有改善的功能的CasX蛋白和sgRNA支架变体。在一些实施方案中,DME方法包括建立和测试起始生物分子的突变的综合组以产生生物分子变体的文库;例如,CasX变体蛋白或sgRNA支架变体的文库。DME可包括对起始生物分子进行氨基酸(在蛋白质情况下)或核苷酸(在RNA或DNA情况下)的所有可能的取代、以及所有可能的小插入和所有可能的缺失。DME方法的示意图如图16所示。在一些实施方案中,DME包含所有此类可能的取代、插入和缺失的子集。在DME的某些实施方案中,构建一个或多个变体文库,评价功能变化,并且该信息用于构建一个或多个另外的文库。变体的这种反复构建和评价可导致例如鉴定导致某些功能结果的突变主题,诸如当以某种方式突变时导致一种或多种功能的改善的蛋白质或RNA区域。然后,此类鉴定的突变的分层可进一步改善功能,例如通过加成或协同相互作用。DME包括文库设计、文库构建和文库筛选。在一些实施方案中,进行多轮设计、构建和筛选。
b.文库设计
DME方法产生生物分子的变体,其是许多单体的聚合物。在一些实施方案中,生物分子包含蛋白质或核糖核酸(RNA)分子,其中单体单元分别是氨基酸或核糖核苷酸。生物分子突变的基本单元包括:(1)将一种单体交换为不同同一性的另一种单体(取代);(2)在生物分子中插入一种或多种另外的单体(插入);(3)从生物分子中去除一个或多个单体(缺失)。包含对本文所述的任何生物分子内的任一个或多个单体单独或组合的取代、插入和缺失的DME文库被认为在本发明的范围内。
在一些实施方案中,DME用于构建和测试生物分子的突变的综合组,包括所有可能的取代,以及氨基酸(在蛋白质情况下)或核苷酸(在RNA情况下)的小插入和缺失。这些突变的构建和功能读出可用多种已建立的分子生物学方法实现。在一些实施方案中,该文库包含对单体的所有可能修饰的子集。例如,在一些实施方案中,对于生物分子中总单体位置的至少10%,文库共同表示一种单体的单一修饰,其中每个单一修饰选自取代、单一插入和单一缺失。在一些实施方案中,对于起始生物分子中的总单体位置的至少5%、至少10%、至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或至多100%,该文库共同表示一种单体的单一修饰。在某些实施方案中,对于起始生物分子中一定百分比的总单体位置,文库共同表示一种单体的每种可能的单一修饰,诸如用19种其它天然存在的氨基酸(对于蛋白质)或3种其它天然存在的核糖核苷酸(对于RNA)的所有可能的取代,20种天然存在的氨基酸(对于蛋白质)或4种天然存在的核糖核苷酸(对于RNA)中的每一者的插入,或单体的缺失。在另外其它实施方案中,在每个位置处的插入独立地大于一个单体,例如插入两个或更多个、三个或更多个、或四个或更多个单体,或者插入一至四个、二至四个、或一至三个单体。在一些实施方案中,位置处的缺失独立地大于一个单体,例如缺失两个或更多个、三个或更多个、或四个或更多个单体,或者缺失一至四个、二至四个、或一至三个单体。CasX变体和gRNA变体的此类文库的示例分别描述于实施例14和实施例15中。
在一些实施方案中,生物分子是蛋白质,并且单个单体是氨基酸。在生物分子是蛋白质的那些实施方案中,蛋白质中每个单体(氨基酸)位置处可能的DME突变数包括19个氨基酸取代、20个氨基酸插入和1个氨基酸缺失,导致蛋白质中每个氨基酸总共有40个可能的突变。
在一些实施方案中,包含插入的CasX变体蛋白的DME文库是1个氨基酸插入文库、2个氨基酸插入文库、3个氨基酸插入文库、4个氨基酸插入文库、5个氨基酸插入文库、6个氨基酸插入文库、7个氨基酸插入文库、8个氨基酸插入文库、9个氨基酸插入文库或10个氨基酸插入文库。在一些实施方案中,包含插入的CasX变体蛋白的DME文库包含1至4个氨基酸插入。
在一些实施方案中,生物分子是RNA。在生物分子是RNA的那些实施方案中,RNA中每个单体(核糖核苷酸)位置处可能的DME突变数包括3个核苷酸取代、4个核苷酸插入和1个核苷酸缺失,导致每个核苷酸总共有8个可能的突变。
在一些实施方案中,DME文库设计包括枚举生物分子中一个或多个靶单体中每一者的所有可能突变。如本文所用,“靶单体”是指具有本文所述的取代、插入和缺失的靶向DME的生物分子聚合物中的单体。例如,靶单体可以是蛋白质中规定位置处的氨基酸,或RNA中特定位置处的核苷酸。生物分子可具有至少1、2、3、4、5、6、7、8、9、10、20、30、40、50、100或更多个靶单体,这些靶单体被系统地突变以产生生物分子变体的DME文库。在一些实施方案中,生物分子中的每个单体都是靶单体。例如,在其中存在两个靶氨基酸的蛋白质的DME中,DME文库设计包括在两个靶氨基酸中的每一者上枚举40个可能的DME突变。在其它示例中,在其中存在四个靶核苷酸的RNA的DME中,DME文库设计包括在四个靶核苷酸中的每一者上枚举8个可能的DME突变。在一些实施方案中,生物分子的每个靶单体独立地随机选择或通过有意设计选择。因此,在一些实施方案中,DME文库包含随机变体,或设计的变体,或在单个生物分子内包含随机突变和设计突变的变体,或它们的任何组合。
在DME方法的一些实施方案中,将DME突变掺入到编码生物分子的双链DNA中。该DNA可在标准克隆载体中维持和复制,例如细菌质粒,在本文中称为靶质粒。示例性靶质粒含有编码将经历DME的起始生物分子的DNA序列、细菌复制起点和合适的抗生素抗性表达盒。在一些实施方案中,抗生素抗性盒赋予对卡那霉素、氨苄青霉素、奇放线菌素、博莱霉素、链霉素、红霉素、四环素或氯霉素的抗性。在一些实施方案中,抗生素抗性盒赋予对卡那霉素的抗性。
可以多种方式构建包含所述变体的文库。在某些实施方案中,质粒重组用于构建文库。此类方法可使用编码一个或多个突变的DNA寡核苷酸以将所述突变掺入到编码参考生物分子的质粒中。对于具有多种突变的生物分子变体,在一些实施方案中,使用多于一种寡核苷酸。在一些实施方案中,DNA寡核苷酸编码一个或多个突变,其中突变区域侧翼为10和100个与所述靶质粒同源的核苷酸,5'和3'两者均与该突变同源。在一些实施方案中,此类寡核苷酸可商业合成并用于PCR扩增。编码突变的寡核苷酸的示例性模板提供如下:
5'-(N)10-100-突变-(N')10-100-3'
在该示例性寡核苷酸设计中,Ns表示与靶质粒相同的序列,在本文中称为同源臂。当生物分子中的特定单体靶向突变时,这些同源臂侧翼直接为靶质粒中编码该单体的DNA。在其中经历DME的生物分子是蛋白质的一些示例性实施方案中,使用同一组同源臂的40个不同寡核苷酸用于编码靶向DME的蛋白质中的每个氨基酸残基的所枚举的40个不同氨基酸突变。当突变是单个氨基酸时,编码期望的一个或多个突变的区域包含编码氨基酸的三个核苷酸(对于取代或单个插入)或零个核苷酸(对于缺失)。在一些实施方案中,寡核苷酸编码多于一个氨基酸的插入。例如,其中寡核苷酸编码X个氨基酸的插入,编码期望突变的区域包含编码X个氨基酸的3*X个核苷酸。在一些实施方案中,突变区域编码多于一个突变,例如紧密接近的生物分子的两个或更多个单体的突变(例如,彼此相邻,或在彼此的1、2、3、4、5、6、7、8、9或10个或更多个单体内)。
在其中经历DME的生物分子是RNA的一些示例性实施方案中,使用同一组同源臂的8个不同寡核苷酸针对靶向DME的RNA中的每个核苷酸编码8个不同单核苷酸突变。当突变是单个核糖核苷酸时,编码突变的寡核苷酸区域可由以下核苷酸序列组成:指定一个核苷酸(对于取代或插入)或零个核苷酸(对于缺失)的一个核苷酸。在一些实施方案中,寡核苷酸被合成为单链DNA寡核苷酸。在一些实施方案中,合并靶向经历DME的生物分子的特定氨基酸或核苷酸的所有寡核苷酸。在一些实施方案中,合并靶向经历DME的生物分子的所有寡核苷酸。对可在DME文库中同时产生的突变的类型或数量没有限制。
c.文库筛选
用于筛选或选择DME文库的任何合适的方法在本发明的范围内设想如下。高通量方法可用于评价具有数千个单个突变的大文库。在一些实施方案中,文库筛选或选择测定的通量具有以百万个单个细胞计的通量。在一些实施方案中,利用活细胞的测定是优选的,因为表型和基因型在活细胞中通过被包含在同一脂质双层内的性质而在物理上连接。活细胞也可用于直接扩增整个文库的亚群。在其它实施方案中,在DME方法中使用较小的测定,例如以筛选通过多轮突变和评价开发的聚焦文库。筛选文库的示例性方法描述于实施例14和实施例15中。
在一些实施方案中,进一步表征已经针对高度功能变体筛选或选择的DME文库。在一些实施方案中,进一步表征DME文库包括通过测序诸如Sanger测序单独分析DME变体,以鉴定产生高度功能变体的一个或多个特定突变。生物分子的单个突变变体可通过标准分子生物学技术分离,用于随后的功能分析。在一些实施方案中,进一步表征DME文库包括I文库和该一个或多个高度功能变体文库两者的高通量测序。在一些实施方案中,该方法可允许快速鉴定与原初DME文库相比在该一个或多个高度功能变体文库中过表示的突变。不希望受任何理论束缚,在高度功能变体的该一个或多个文库中过表示的突变可能负责高度功能变体的活性。在一些实施方案中,进一步表征DME文库包括单个变体的测序以及I原初文库和该一个或多个高度功能变体文库两者的高通量测序。
高通量测序可产生指示文库成员的功能效果的高通量数据。在其中一个或多个文库表示每个单体位置的每个可能的突变的实施方案中,这样的高通量测序可评价每个可能的DME突变的功能效果。这种测序也可用于评价给定文库的一个或多个高度功能亚群,这在一些实施方案中可导致鉴定导致改善的功能的突变。深度突变扫描
在一些实施方案中,深度突变扫描(DMS)用于鉴定具有改善的功能的CasX变体蛋白。深度突变扫描评估蛋白质可塑性,因为它与功能相关。在DMS方法中,蛋白质的每个氨基酸都被改变为每个其它氨基酸,并且测定绝对蛋白质功能。例如,CasX蛋白中的每个氨基酸都可被改变为每个其它氨基酸,并且测定突变的CasX蛋白结合或切割DNA的能力。可用于表征DMS CasX变体蛋白集合的示例性测定诸如CRISPRi测定法或基于细菌的切割测定描述于以下中:Oakes等人,2016年,“Profiling of engineering hotspots identifies anallosteric CRISPR-Cas9 switch”,Nat Biotechnol,第34卷第6期:第646-651页;以及Liu等人,2019年,“CasX enzymes comprise a distinct family of RNA-guided genomeeditors”,Nature doi.org/10.1038/s41586-019-0908;这些文献的内容以引用方式整体并入本文。
在一些实施方案中,DMS用于鉴定具有改善的DNA结合活性的CasX蛋白。在一些实施方案中,使用CRISPRi测定来测定DNA结合活性。在CRISPRi测定的非限制性示例性实施方案中,使用FACS测定表达荧光蛋白诸如绿色荧光蛋白(GFP)或红色荧光蛋白(RFP)的细胞,以鉴定能够以sgRNA依赖性方式抑制荧光蛋白表达的CasX变体。在该实施例中,使用催化死亡的CasX(dCasX)产生待测定的DMS突变体的集合。野生型CasX蛋白与其同源sgRNA结合并形成蛋白-RNA复合物。该复合物通过sgRNA和DNA靶之间的沃森-克里克碱基配对结合特异性DNA靶,在这种情况下,DNA序列编码荧光蛋白。在野生型CasX的情况下,由于CasX蛋白的核酸酶活性,DNA将被切割。然而,不希望受理论束缚,很可能dCasX仍然能够与sgRNA形成复合物并结合特异性DNA靶标。当dCasX靶向蛋白编码区域时,其阻断RNA聚合酶II和转录起始和/或延伸,导致可通过FAC检测的荧光蛋白表达降低。
在一些实施方案中,DMS用于鉴定具有改善的DNA切割活性的CasX蛋白。测定CasX变体蛋白的DNA切割效率的方法对于本领域普通技术人员将是显而易见的。例如,与sgRNA复合的CasX蛋白和与特定靶核酸序列互补的间隔区可用于在合适的细胞类型中体外或体内切割DNA靶序列,并测定切割位点处插入和缺失的频率。不希望受理论束缚,CasX的切割或切口在DNA中产生双链断裂,其随后通过非同源末端连接途径(NHEJ)的修复在双链断裂的位点产生小的插入或缺失(插入缺失)。CasX切割位点处的插入缺失频率可使用靶序列的高通量或Sanger测序来测量。另选地,或除此之外,通过CasX切割靶序列产生插入缺失的频率可使用错配测定诸如T7内切核酸酶I(T7EI)或Surveyor错配测定来测量。
在一些实施方案中,在DMS后,产生与其所得表型相关的DMS突变体的基因型的图谱(例如,热图谱)并用于表征蛋白质的基本原理。所有可能的突变都被表征为产生功能或非功能蛋白质产物以建立该蛋白质的功能状况。
d.易错PCR
在一些实施方案中,易错PCR用于产生具有改善的功能的CasX蛋白或sgRNA支架变体。复制DNA的聚合酶具有不同水平的保真性。将随机突变引入基因的一种方式是通过易错聚合酶,其将以一定频率范围掺入不正确的核苷酸。该频率可根据期望的结果进行调制。在一些实施方案中,选择导致在蛋白质序列中产生平均n 1至4个氨基酸变化的核苷酸变化频率的聚合酶和聚合酶活性条件。示例性易错聚合酶包括Agilent的GeneMorphII试剂盒。根据制造商的方案,GeneMorphII试剂盒可用于扩增编码野生型CasX蛋白(例如,SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的蛋白)的DNA序列,从而使该蛋白经历无偏随机诱变并产生不同的CasX变体蛋白群。然后可使用上述用于DMS的相同测定来测定该CasX变体蛋白的不同群体,以观察基因型的变化如何与表型的变化相关。
e.盒诱变
在一些实施方案中,盒诱变用于产生具有改善的功能的CasX变体蛋白或sgRNA支架变体。盒诱变利用被变性核苷酸取代的独特限制性酶位点,以在感兴趣基因(诸如CasX蛋白或sgRNA支架)的选择区域中产生高度多样性的小区域。在示例性盒诱变方案中,使用限制性酶在编码包含在合适载体中的CasX蛋白或sgRNA支架的DNA分子上的靶向诱变的序列附近进行切割。该步骤去除了靶向诱变的序列和限制性位点之间的一切。然后,将含有所需突变和与限制酶切消化末端互补的末端的合成双链DNA分子连接在已经通过限制酶切消化去除的序列的位置,并用连接的载体转化合适的细胞,诸如大肠杆菌(E.coli)。在一些实施方案中,盒诱变可用于在CasX蛋白或sgRNA支架中产生一个或多个特异性突变。在一些实施方案中,盒诱变可用于产生CasX变体蛋白或sgRNA支架变体的文库,可使用本文所述的方法筛选或选择所述文库以改善功能。例如,在使用盒诱变产生CasX变体时,非靶链结合(NTSB)结构域的部分可用简并核苷酸的序列替换。简并核苷酸的序列可高度定位于CasX蛋白的区域,例如因为它们的高度可移动的元件或它们与DNA的直接接触而感兴趣的NTSB的区域。然后可使用本文所述的DME、DMS和易错PCR的测定筛选经由盒诱变产生的CasX变体蛋白文库,并且可选择具有改善功能的变体。
f.随机诱变
在一些实施方案中,随机诱变用于产生具有改善功能的CasX变体蛋白或sgRNA支架变体。随机诱变是一种改变DNA的无偏方式。随机诱变的示例性方法是本领域普通技术人员已知的,并且包括暴露于化学品、UV光、X射线或使用不稳定的细胞系。不同的诱变剂产生不同类型的突变,并且普通技术人员将能够选择合适的试剂以产生期望类型的突变。例如,甲磺酸乙酯(EMS)和N-乙基-N-亚硝脲(ENU)可用于产生单个碱基对变化,而X射线通常导致缺失和总染色体重排。UV光暴露在DNA中相邻嘧啶之间产生二聚体,这可导致点突变、缺失和重排。易错细胞系还可用于例如在包含本公开的CasX蛋白或sgRNA支架的质粒上引入突变。可将编码CasX蛋白(例如,SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的蛋白)或sgRNA支架的DNA分子群体暴露于诱变剂以产生CasX变体蛋白或sgRNA支架变体的集合,并且可使用本文所述的任何测定来测定这些集合的改善的功能。
g.交错延伸过程(StEP)
在一些实施方案中,交错延伸过程(StEP)用于产生具有改善的功能的CasX变体蛋白或sgRNA支架变体。交错延伸过程是专门的PCR方案,其允许在PCR反应期间繁殖蛋白质的多个变体。StEP利用具有低持续合成能力的聚合酶(例如Taq或Vent聚合酶)从两个或更多个不同模板链产生具有显著水平的序列相似性的短引物。然后将短引物延伸短时间间隔,以允许模板链的改组。该方法还可用作堆叠DME变体的手段。示例性StEP方案描述于以下中:Zhao、H.等人,1998年,“Molecular evolution by staggered extension process(StEP)in vitro recombination”,Nature Biotechnology,第16卷:第258-261页,该文献的内容以引用方式整体并入本文。StEP可用于产生CasX变体蛋白或sgRNA支架变体的集合,并且可使用本文所述的任何测定来测定这些集合的改善的功能。
h.基因改组
在一些实施方案中,基因改组用于产生具有改善功能的CasX变体蛋白或sgRNA支架变体。在一些实施方案中,基因改组用于组合(在本文中有时称为“堆叠”)通过本文所述的其它方法(诸如质粒重组工程)产生的变体。在示例性基因改组方案中,使用DNase(例如DNase I)将一组亲本基因剪切成长度为50至100碱基对(bp)的片段。在一些实施方案中,这些亲本基因包含使用本文所述的方法产生和分离的具有改善的功能的CasX变体蛋白。在一些实施方案中,这些亲本基因包含使用本文所述的方法产生和分离的具有改善的功能的sgRNA支架变体。然后进行无引物的聚合酶链式反应(PCR)的Dnase裂解。具有足够重叠同源序列的DNA片段将彼此退火,然后通过DNA聚合酶延伸。如果包含不同突变的不同片段退火,则结果是组合这两个突变的新变体。在一些实施方案中,无引物的PCR之后进行PCR延伸,并纯化已达到亲本基因大小的改组DNA分子(例如,编码CasX蛋白或sgRNA支架的序列)。然后可用另一种PCR扩增这些基因,例如通过添加与经历改组的基因的5'和3'末端互补的PCR引物。在一些实施方案中,引物可具有添加到其5'端的另外的序列,诸如用于连接到克隆载体中所需的限制性酶识别位点的序列。
i.结构域交换
在一些实施方案中,结构域交换用于产生具有改善的功能的CasX变体蛋白或sgRNA支架变体。为了产生CasX变体蛋白,工程化结构域交换可用于将部分与其它蛋白和CRISPR分子混合和匹配。例如,CRISPR蛋白具有保守RuvC结构域,因此CasX RuvC结构域可与其它CRISPR蛋白的结构域交换,并且使用本文所述的测定来测定所得蛋白的改善的DNA切割。对于sgRNA,支架茎、延伸茎或环可与在其它RNA中发现的结构交换,例如sgRNA的支架茎和延伸茎可与来自其它RNA的热稳定茎环交换,并且使用本文所述的测定来测定所得变体的改善的功能。在一些实施方案中,结构域交换可用于将新结构域插入CasX蛋白或sgRNA中。在其中将结构域交换应用于蛋白质的一些示例性实施方案中,所插入的结构域包含完整的第二蛋白质。
j.CasX和gRNA变体的生产
可使用标准克隆和分子生物学技术或如实施例中所述,通过真核细胞或通过用编码载体(下文所述)转化的原核细胞体外产生本公开的CasX变体蛋白。具体的顺序和制备方式将由便利性、经济性、所需的纯度等决定。在一些实施方案中,首先制备含有编码CasX变体的DNA序列的构建体。制备此类构建体的示例性方法描述于实施例中。在一些实施方案中,编码CasX蛋白的核苷酸序列是针对预期宿主细胞优化的密码子。然后使用构建体产生适于转化宿主细胞的表达载体,该宿主细胞诸如原核或真核宿主细胞,用于表达和回收蛋白质。在期望的情况下,宿主细胞是大肠杆菌(E.coli)。在其它实施方案中,宿主细胞是真核细胞。真核宿主细胞可选自幼仓鼠肾成纤维细胞(BHK)、人胚胎肾293(HEK293)、人胚胎肾293T(HEK293T)、NS0细胞、SP2/0细胞、YO骨髓瘤细胞、P3X63小鼠骨髓瘤细胞、PER细胞、PER.C6细胞、杂交瘤细胞、NIH3T3细胞、具有SV40遗传物质(COS)的原始CV-1(猿)、HeLa、中国仓鼠卵巢(CHO)或酵母细胞,或本领域已知的适于产生重组产物的其它真核细胞。
如果需要,可在合成期间或表达期间将各种基团引入序列中,这允许与其它分子或表面连接。因此,半胱氨酸可用于制备硫醚、用于与金属离子络合物连接的组氨酸、用于形成酰胺或酯的羧基、用于形成酰胺的氨基等。本公开的CasX变体蛋白还可根据重组合成的常规方法进行分离和纯化。可制备表达宿主的裂解物,并使用高效液相色谱法(HPLC)、排阻色谱法、凝胶电泳、亲和色谱法或其它纯化技术纯化该裂解物。就大部分而言,所使用的组合物将包含80重量%或更多的期望产物,更通常90重量%或更多,优选95重量%或更多,并且出于治疗目的,相对于与产物的制备方法及其纯化相关的污染物,通常99.5重量%或更多。
在生产本公开的gRNA的情况下,编码gRNA的重组表达载体可被体外转录,例如使用T7启动子调节序列和T7聚合酶来产生gRNA,然后可通过常规方法回收该gRNA;例如,如实施例中所述经由凝胶电泳纯化。一旦合成,gRNA就可用于基因编辑对以直接接触靶核酸或可通过用于将核酸引入细胞中的任何熟知技术(例如,显微注射、电穿孔、转染等)引入细胞中。
VI.多核苷酸和载体
在另一个方面,本公开涉及编码2类V型核酸酶和gRNA的多核苷酸,该多核苷酸在细胞中靶核酸的编辑中具有效用。在一些实施方案中,本公开提供了编码CasX蛋白的多核苷酸和本文所述的任何CasX:gRNA系统实施方案中的gRNA的多核苷酸。
在一些实施方案中,本公开提供了编码本文所述的任何实施方案的CasX变体的多核苷酸序列,包括如表3所述的SEQ ID NO:247-592或1147-1231的CasX蛋白变体,或与表3的SEQ ID NO:247-592和1147-1231的序列具有至少约50%、至少约60%、至少约70%、至少约80%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%序列同一性的序列。在一些实施方案中,本公开提供了编码SEQ ID NO:270-592或1147-1231中的任一者的CasX变体的多核苷酸序列,或与其具有至少约50%、至少约60%、至少约70%、至少约80%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%序列同一性的序列。在一些实施方案中,本公开提供了编码SEQ ID NO:415-592或1147-1231中的任一者的CasX变体的多核苷酸序列,或与其具有至少约50%、至少约60%、至少约70%、至少约80%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%序列同一性的序列。在一些实施方案中,本公开提供了分离的多核苷酸序列,其编码本文所述的任何实施方案的gRNA变体序列,包括表2的SEQ ID NO:2101-2332和2353-2398的序列,以及能够与待修饰的靶核酸杂交的靶向序列。在一些实施方案中,本公开提供了编码SEQ ID NO:2238-2332或2353-2398中任一者的gRNA变体序列的分离的多核苷酸序列,以及能够与待修饰的靶核酸杂交的靶向序列。在一些实施方案中,本公开提供了编码SEQ IDNO:2281-2332或2353-2398中任一者的gRNA变体序列的分离的多核苷酸序列,以及能够与待修饰的靶核酸杂交的靶向序列。
在一些实施方案中,本公开提供了编码待修饰的基因的部分或全部的供体模板多核苷酸。在一些实施方案中,供体模板旨在与CasX:gRNA系统结合进行基因编辑,并且包括待修饰的基因的至少一部分。在其它实施方案中,供体序列包含编码待修饰的基因的外显子的至少一部分的序列。在其它实施方案中,供体模板具有编码待修饰的基因的内含子的至少一部分的序列。在其它实施方案中,供体模板具有编码待修饰的基因的内含子-外显子连接的至少一部分的序列。在其它实施方案中,供体模板具有编码待修饰的基因的基因间区域的至少一部分的序列。在其它实施方案中,供体模板具有编码待修饰的基因的调节元件的至少一部分的序列。在一些情况下,供体模板是编码待修饰的基因的至少一部分的野生型序列。在其它情况下,供体模板序列包含相对于待敲低或敲除的野生型基因的一个或多个突变。在这种情况下,相对于野生型序列,供体模板将具有至少1至5个或更多个突变。在前述实施方案中,供体模板是至少10个核苷酸、至少100个核苷酸、至少200个核苷酸、至少300个核苷酸、至少400个核苷酸、至少500个核苷酸、至少600个核苷酸、至少700个核苷酸、至少800个核苷酸、至少900个核苷酸、至少1,000个核苷酸、至少2,000个核苷酸、至少3,000个核苷酸、至少4,000个核苷酸、至少5,000个核苷酸、至少6,000个核苷酸、至少7,000个核苷酸、至少8,000个核苷酸、至少9,000个核苷酸、至少10,000个核苷酸、至少12,000个核苷酸或至少15,000个核苷酸。在一些实施方案中,供体模板包含至少约10至约15,000个核苷酸。在一些实施方案中,供体模板是单链DNA模板。在其它实施方案中,供体模板是单链RNA模板。在其它实施方案中,供体模板是双链DNA模板。在一些实施方案中,供体模板可作为系统中的裸核酸提供,以编辑基因并且不需要掺入载体中。在其它实施方案中,可将供体模板掺入载体中以促进将该供体模板递送至细胞中;例如,在病毒载体中。
在其它方面,本公开涉及产生编码本文所述的任何实施方案的CasX变体或gRNA(包括它们的同源变体)的多核苷酸序列的方法,以及表达由这些多核苷酸序列表达的蛋白质或转录的RNA的方法。一般而言,这些方法包括产生编码本文所述的任何实施方案的CasX变体或gRNA的多核苷酸序列,并将经编码的基因掺入适用于宿主细胞的表达载体中。分子生物学中的标准重组技术可用于制备本公开的多核苷酸和表达载体。为了产生本文所述的任何实施方案的经编码的参考CasX、CasX变体或gRNA,这些方法包括:用包含经编码的多核苷酸的表达载体转化适当的宿主细胞,并且在引起或允许本文所述的任何实施方案的所得参考CasX、CasX变体或gRNA在已转化的宿主细胞中表达或转录的条件下培养宿主细胞,从而产生CasX变体或gRNA,该CasX变体或gRNA通过本文所述的方法或通过本领域已知的标准纯化方法或如实施例中所述进行回收
根据本公开,编码本文所述的任何实施方案的CasX变体或gRNA(或它们的互补物)的核酸序列用于产生重组DNA分子,这些重组DNA分子指导在适当的宿主细胞中表达。若干种克隆策略适用于执行本公开,其中许多策略用于产生包含编码本公开组合物的基因或其互补序列的构建体。在一些实施方案中,克隆策略用于产生编码构建体的基因,该构建体包含编码CasX变体的核苷酸,或用于转化宿主细胞以表达组合物的gRNA。
在一些方法中,首先制备含有编码CasX变体或gRNA的DNA序列的构建体。制备此类构建体的示例性方法描述于实施例中。然后使用构建体产生适于转化宿主细胞的表达载体,该宿主细胞诸如原核或真核宿主细胞,在CasX或gRNA的情况下,用于表达和回收蛋白质构建体。在期望的情况下,宿主细胞是大肠杆菌(E.coli)。在其它实施方案中,宿主细胞是真核细胞。真核宿主细胞可选自幼仓鼠肾成纤维细胞(BHK)、人胚胎肾293(HEK293)、人胚胎肾293T(HEK293T)、NS0细胞、SP2/0细胞、YO骨髓瘤细胞、P3X63小鼠骨髓瘤细胞、PER细胞、PER.C6细胞、杂交瘤细胞、NIH3T3细胞、具有SV40遗传物质(COS)的原始CV-1(猿)、HeLa、中国仓鼠卵巢(CHO)或酵母细胞,或本领域已知的适于产生重组产物的其它真核细胞。用于产生表达载体、转化宿主细胞以及表达和回收CasX变体或gRNA的示例性方法描述于实施例中。
编码CasX变体或gRNA构建体的基因可在一个或多个步骤中制备,完全合成或通过与酶方法组合来合成,诸如限制性酶介导的克隆、PCR和重叠延伸,包括在实施例中更全面描述的方法。本文公开的方法可用于例如连接多核苷酸的序列,这些多核苷酸编码期望序列的各种组分(例如CasX和gRNA)基因。使用基因合成的标准技术从寡核苷酸组装编码多肽组合物的基因。
在一些实施方案中,编码CasX蛋白的核苷酸序列是针对预期宿主细胞优化的密码子。这种类型的优化可能需要编码核苷酸序列的突变,以模拟预期宿主生物体或细胞的密码子偏好,同时编码相同的CasX蛋白。因此,密码子可以变化,但经编码的蛋白质或gRNA保持不变。例如,如果CasX蛋白的预期靶细胞为人细胞,则可使用人密码子优化的CasX编码的核苷酸序列。作为另一个非限制性示例,如果预期宿主细胞是小鼠细胞,则可产生小鼠密码子优化的CasX编码的核苷酸序列。可使用优化密码子用途和氨基酸组成的算法来进行基因设计,该密码子用途和氨基酸组成适用于在参考CasX或CasX变体的生产中使用的宿主细胞。在本公开的一种方法中,产生编码构建体组分的多核苷酸文库,然后如上所述进行组装。然后组装所得基因,并将所得基因用于转化宿主细胞并产生和回收CasX变体或gRNA组合物以评估它们的性质,如本文所述。
本公开提供了含有复制和控制序列的质粒表达载体用于控制多肽表达或RNA转录的用途,这些复制和控制序列与宿主细胞相容并被宿主细胞识别,并且可操作地连接至编码多肽的基因。此类载体序列对于多种细菌、酵母和病毒是熟知的。可使用的有用的表达载体包括例如染色体、非染色体和合成DNA序列的片段。“表达载体”是指含有可操作地连接至合适的控制序列的DNA序列的DNA构建体,该合适的控制序列能够实现编码多肽的DNA在合适宿主中的表达。要求是载体在所选择的宿主细胞中是可复制和存活的。可根据需要使用低拷贝数载体或高拷贝数载体。载体的控制序列包括实现转录的启动子、控制此类转录的任选的操纵子序列、编码合适的mRNA核糖体结合位点的序列以及控制转录和翻译终止的序列。在一些实施方案中,编码gRNA的核苷酸序列可操作地连接至控制元件,例如转录控制元件,诸如启动子。在一些实施方案中,编码CasX蛋白的核苷酸序列可操作地连接至控制元件,例如转录控制元件,诸如启动子。在其它情况下,编码CasX和gRNA的核苷酸是连接的并且可操作地连接至单个控制元件。启动子可以是在所选择的宿主细胞中示出转录活性的任何DNA序列,并且可源自编码与宿主细胞同源或异源的蛋白质的基因。示例性调控元件包括转录启动子、转录增强子元件、转录终止信号、允许从单个转录物翻译多个基因的内部核糖体进入位点(IRES)或P2A肽、促进下游转录终止的聚腺苷酸化序列、用于优化翻译起始的序列,以及翻译终止序列。在一些情况下,启动子是组成型活性启动子。在一些情况下,启动子是可调控的启动子。在一些情况下,启动子是诱导型启动子。在一些情况下,启动子是组织特异性启动子。在一些情况下,启动子是细胞类型特异性启动子。在一些情况下,转录控制元件(例如,启动子)在靶向细胞类型或靶向细胞群体中起作用。例如,在一些情况下,转录控制元件可在真核细胞中起作用,这些真核细胞例如用于病毒或XDP载体的包装细胞、造血干细胞(HSC)、造血祖细胞(HPC)、CD34+细胞、间充质干细胞(MSC)、胚胎干(ES)细胞、诱导多能干细胞(iPSC)、普通髓系祖细胞、原成红细胞和成红细胞。
pol II启动子的非限制性示例包括但不限于EF-1α、EF-1α核心启动子、JensTornoe(JeT)、来自细胞巨化病毒(CMV)、CMV即刻早期(CMVIE)的启动子、CMV增强子、单纯疱疹病毒(HSV)胸苷激酶、早期和晚期猿猴病毒40(SV40)、SV40增强子、来自逆转录病毒的长末端重复序列(LTR)、小鼠金属硫蛋白-I、腺病毒主要晚期启动子(Ad MLP)、CMV启动子全长启动子、最小CMV启动子、鸡 CBA杂合子(CBh)、具有细胞巨化病毒增强子的鸡/> 鸡β-肌动蛋白启动子和兔β-珠蛋白剪接受体位点融合体(CAG)、劳斯(Rous)肉瘤病毒(RSV)启动子、HIV-Ltr启动子、hPGK启动子、HSV TK启动子、7SK启动子、Mini-TK启动子、赋予神经元特异性表达的人突触蛋白I(SYN)启动子、β-肌动蛋白启动子、超核心启动子1(SCP1)、在神经元中选择性表达的Mecp2启动子、最小IL-2启动子、劳斯肉瘤病毒增强子/启动子(单个)、脾脏病灶形成病毒长末端重复序列(LTR)启动子、TBG启动子、来自人甲状腺素结合球蛋白基因(肝脏特异性)的启动子、PGK启动子、人泛素C启动子(UBC)、UCOE启动子(HNRPA2B1-CBX3的启动子)、合成CAG启动子、组蛋白H2启动子、组蛋白H3启动子、U1a1小核RNA启动子(226nt)、U1a1小核RNA启动子(226nt)、U1b2小核RNA启动子(246nt)26、GUSB启动子、CBh启动子、视紫红质(Rho)启动子、易沉默的脾脏病灶形成病毒(SFFV)启动子、人H1启动子(H1)、POL1启动子、TTR最小增强子/启动子、b-驱动蛋白启动子、小鼠乳腺肿瘤病毒长末端重复序列(LTR)启动子、人真核启动因子4A(EIF4A1)启动子、ROSA26启动子、甘油醛-3-磷酸脱氢酶(GAPDH)启动子、tRNA启动子,以及上述物质的截短变型和序列变体。在具体实施方案中,pol II启动子是EF-1α,其中该启动子增强转染效率、增强CRISPR核酸酶的转基因转录或表达、增加表达阳性克隆的比例,并且增加长期培养物中的离子型载体的拷贝数。
pol III启动子的非限制性示例包括但不限于U6、微型U6、U6截短的启动子、7SK和H1变体、BiH1(双向H1启动子)、BiU6、Bi7SK、BiH1(双向U6、7SK和H1启动子)、大猩猩U6、恒河猴U6、人7SK、人H1启动子,以及它们的序列变体。在前述实施方案中,pol III启动子增强gRNA的转录。
适当的载体和启动子的选择完全在本领域普通技术人员的水平范围内,因为该选择与控制表达相关,例如用于修饰基因。表达载体还可含有用于翻译起始的核糖体结合位点以及转录终止子。表达载体还可包含用于扩增表达的适当序列。表达载体还可包含编码可与CasX蛋白融合的蛋白标签(例如,6xHis标签、血凝素标签、荧光蛋白等)的核苷酸序列,从而产生用于纯化或检测的嵌合CasX蛋白。
本公开的重组表达载体还可包含促进本公开的CasX蛋白和gRNA的稳健表达的元件。例如,重组表达载体可包含聚腺苷酸化信号(聚(A))、内含子序列或转录后调控元件(诸如美洲旱獺(woodchuck)肝炎转录后调控元件(WPRE))中的一者或多者。示例性聚(A)序列包括hGH聚(A)信号(短)、HSV TK聚(A)信号、合成的聚腺苷酸化信号、SV40聚(A)信号、β-珠蛋白聚(A)信号等。本领域普通技术人员将能够选择合适的元件,以将这些合适的元件包含在本文所述的重组表达载体中。
在一些实施方案中,本文提供了一种或多种重组表达载体,其包含以下项中的一者或多者:(i)供体模板核酸的核苷酸序列,其中该供体模板包含与靶核酸的靶基因座(例如,靶基因组)的序列具有同源性的核苷酸序列;(ii)编码gRNA的核苷酸序列,该gRNA与靶向基因组的基因座的靶序列杂交(例如,被构造为单或双向导RNA),该核苷酸序列可操作地连接至在靶细胞(诸如真核细胞)中可操作的启动子;和(iii)编码CasX蛋白的核苷酸序列,该核苷酸序列可操作地连接至在靶细胞(诸如真核细胞)中可操作的启动子。在一些实施方案中,编码供体模板、gRNA和CasX蛋白的序列位于不同的重组表达载体中,并且在其它实施方案中,一个或多个多核苷酸序列(用于供体模板、CasX和gRNA)位于相同的重组表达载体中。
通过多种方法将多核苷酸序列插入载体中。通常,使用本领域已知的技术将DNA插入适当的限制性核酸内切酶位点中。载体组分通常包括但不限于信号序列、复制起点、一种或多种标记基因、增强子元件、启动子和转录终止序列中的一者或多者。含有这些组分中的一者或多者的合适载体的构建采用技术人员已知的标准连接技术。此类技术在本领域中是熟知的,并且在科学和专利文献中有很好的描述。各种载体是公众可获得的。载体可以是例如可方便地进行重组DNA操作的质粒、粘粒、病毒颗粒或噬菌体的形式,并且载体的选择通常取决于其待引入的宿主细胞。因此,载体可以是自主复制的载体,即作为染色体外实体存在的载体,其复制不依赖于染色体复制,例如质粒。另选地,该载体可以是这样一种载体:当将其引入宿主细胞中时,其被整合到宿主细胞基因组中并与其所整合到其中的染色体一起复制。一旦引入合适的宿主细胞中,参与抗原过程、抗原呈递、抗原识别和/或抗原应答的蛋白质的表达就可使用本领域已知的任何核酸或蛋白质测定法来测定。例如,参考CasX或CasX变体的转录mRNA的存在可通过以下方法使用与多核苷酸的任何区域互补的探针来检测和/或定量:常规杂交测定(例如Northern印迹分析)、扩增程序(例如RT-PCR)、SAGE(美国专利号5,695,937)和基于阵列的技术(参见例如美国专利号5,405,783、5,412,087和5,445,934)。
可通过多种方法将多核苷酸和重组表达载体递送至靶宿主细胞。此类方法包括但不限于病毒感染、转染、脂质转染、电穿孔法、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、微注射、脂质体介导的转染、粒子枪技术、核转染、通过细胞穿透与供体DNA融合或募集该供体DNA的CasX蛋白来直接添加、细胞挤压、磷酸钙沉淀、直接微注射、纳米颗粒介导的核苷酸递送,以及使用来自Qiagen的可商购获得的试剂、来自Stemgent的StemfectTM RNA转染试剂盒和来自Mirus Bio LLC的/>-mRNA转染试剂盒、核转染、Maxagen电穿孔法等。
可将重组表达载体序列包装到病毒或病毒样颗粒(本文也称为“颗粒”或“病毒体”)中,用于随后离体、体外或体内的细胞感染和转化。此列颗粒或病毒体通常包括包裹或包装载体基因组的蛋白质。合适的表达载体可包括:基于牛痘病毒、脊髓灰质炎病毒、腺病毒的病毒表达载体;逆转录病毒载体(例如,鼠白血病病毒);脾坏死病毒;以及源自逆转录病毒(诸如劳斯肉瘤病毒、哈威肉瘤(Harvey Sarcoma)病毒、禽类白血病病毒、慢病毒、人免疫缺陷病毒、骨髓增生性肉瘤病毒和乳房肿瘤病毒)的载体;等等。在一些实施方案中,本公开的重组表达载体是重组腺相关病毒(AAV)载体。在一些实施方案中,本公开的重组表达载体是重组慢病毒载体。在一些实施方案中,本公开的重组表达载体是重组逆转录病毒载体。
在一些实施方案中,本公开的重组表达载体是重组腺相关病毒(AAV)载体。在一些实施方案中,本公开的重组表达载体是重组慢病毒载体。在一些实施方案中,本公开的重组表达载体是重组逆转录病毒载体。
AAV是一种小的(20nm)非致病性病毒,其在使用病毒载体递送至细胞诸如真核细胞的情况下可用于治疗人类疾病,体内或离体制备用于施用至受试者的细胞。产生构建体,例如编码如本文所述的任何CasX蛋白和/或CasX gRNA实施方案的构建体,并且侧翼具有AAV反向末端重复(ITR)序列,从而使得能够将AAV载体包装到AAV病毒颗粒中。
“AAV”载体可以指天然存在的野生型病毒本身或其衍生物。除非另有要求,否则该术语涵盖所有亚型、血清型和假型,以及天然存在形式和重组形式。如本文所用,术语“血清型”是指基于衣壳蛋白与确定的抗血清的反应性而被其它AAV鉴定并区别于其它AAV的AAV,例如存在许多已知的灵长类动物AAV血清型。在一些实施方案中,AAV载体选自AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV11、AAV12、AAV 44.9、AAV-Rh74(恒河猴来源的AAV)和AAVRh10,以及这些血清型的经修饰的衣壳。例如,血清型AAV-2用于指含有衣壳蛋白(其由AAV-2的cap基因编码)和基因组(其含有来自相同AAV-2血清型的5'和3'ITR序列)的AAV。假型AAV是指含有衣壳蛋白(其来自一种血清型)和病毒基因组(其包含第二血清型的5'-3'ITR)的AAV。假型rAAV期望具有衣壳血清型的细胞表面结合特性和与ITR血清型一致的遗传特性。假型重组AAV(rAAV)使用本领域所述的标准技术产生。如本文所用,例如,rAAV1可用于指具有来自相同血清型的衣壳蛋白和5'-3'ITR两者的AAV,或其可指具有来自血清型1的衣壳蛋白和来自不同AAV血清型(例如,AAV血清型2)5'-3'ITR的AAV。对于本文所述的每个示例,载体设计和生产的说明书描述了衣壳和5'-3'ITR序列的血清型。
“AAV病毒”或“AAV病毒颗粒”是指由至少一种AAV衣壳蛋白(优选野生型AAV的所有衣壳蛋白)和衣壳化的多核苷酸组成的病毒颗粒。如果颗粒另外包含异源多核苷酸(即,待递送至哺乳动物细胞的除野生型AAV基因组以外的多核苷酸),则通常将其称为“rAAV”。示例性异源多核苷酸是包含本文所述的任何实施方案的CasX蛋白和/或sgRNA以及任选的供体模板的多核苷酸。
“腺相关病毒反向末端重复序列”或“AAV ITR”是指在AAV基因组的每一端发现的本领域公认的区域,其以顺式方式同时作为DNA复制起点和作为病毒的包装信号起作用。AAV ITR与AAV rep编码区一起提供了有效切除和挽救,并且将插入两个侧翼ITR之间的核苷酸序列整合到哺乳动物细胞基因组中。
AAV ITR区域的核苷酸序列是已知的。参见例如Kotin,R.M.(1994)Human GeneTherapy 5:793-801;Berns,K.I.“Parvoviridae and their Replication”inFundamental Virology,第2版(B.N.Fields和D.M.Knipe编辑)。如本文所用,AAV ITR不必具有所述野生型核苷酸序列,但可例如通过核苷酸的插入、缺失或取代来改变。另外,AAVITR可源自若干种AAV血清型中的任一种,包括但不限于AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV-Rh74和AAVRh10,以及这些血清型的经修饰的衣壳。此外,在AAV载体中位于所选核苷酸序列侧翼的5'和3'ITR不必是相同的或者源自相同的AAV血清型或分离物,只要它们按预期发挥作用,即,允许从宿主细胞基因组或载体切除和挽救感兴趣的序列,并且当AAV Rep基因产物存在于细胞中时允许将异源序列整合到受体细胞基因组中。AAV血清型用于将异源序列整合到宿主细胞中的用途是本领域已知的(参见例如,WO2018195555A1和US20180258424A1,这些文献以引用方式并入本文)。
“AAV rep编码区”是指AAV基因组中编码复制蛋白Rep 78、Rep68、Rep 52和Rep 40的区域。这些Rep表达产物已被证明具有许多功能,包括识别、结合和切口DNA复制的AAV起点,DNA解旋酶活性以及调节AAV(或其它异源)启动子的转录。Rep表达产物是复制AAV基因组的共同需要。“AAV cap编码区”是指编码衣壳蛋白VP1、VP2和VP3或它们的功能同系物的AAV基因组的区域。这些Cap表达产物提供包装病毒基因组所共同需要的包装功能。
在一些实施方案中,用于将CasX和gRNA以及任选的DMPK供体模板核苷酸的经编码序列递送至宿主细胞的AAV衣壳可源自若干种AAV血清型中的任一种,包括但不限于AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV11、AAV12、AAV 44.9、AAV-Rh74(恒河猴来源的AAV)和AAVRh10,以及源自AAV血清型2的AAV ITR。在具体实施方案中,AAV1、AAV7、AAV6、AAV8或AAV9用于将CasX、gRNA和任选的供体模板核苷酸递送至宿主肌细胞。
为了产生rAAV病毒颗粒,使用已知技术(诸如通过转染)将AAV表达载体引入合适的宿主细胞中。包装细胞通常用于形成病毒颗粒;此类细胞包括包装腺病毒的HEK293细胞(以及本领域已知的其它细胞)。许多转染技术在本领域中是公知的;参见例如Sambrook等人,(1989年),“Molecular Cloning,a laboratory manual”,冷泉港实验室,纽约。特别合适的转染方法包括磷酸钙共沉淀、直接微注射到培养的细胞中、电穿孔、脂质体介导的基因转移、脂质介导的转导和使用高速微粒的核酸递送。
在本公开的rAAV构建体的优点中,较小尺寸的2类V型CRISPR V型核酸酶;例如,实施方案的CasX变体允许将所有必需的编辑和辅助表达组分包含到转基因中,使得单个rAAV颗粒可以导致能够有效修饰靶细胞的靶核酸的CRISPR核酸酶和gRNA的表达的形式将这些组分递送和转导至靶细胞中。此类构建体的代表性示意图示于图13中。这与其它CRISPR系统(诸如Cas9)形成鲜明对比,在其它CRISPR系统中,通常使用双颗粒系统将必需的编辑组分递送至靶细胞。因此,在rAAV系统的一些实施方案中,本公开提供了:i)第一质粒,其包含ITRs、编码CasX变体的序列、编码一种或多种gRNA的序列、可操作地连接至CasX的第一启动子和可操作地连接至gRNA的第二启动子,以及任选的一种或多种增强子元件;ii)第二质粒,其包含rep和cap基因;和iii)第三质粒,其包含辅助基因,其中在转染适当的包装细胞后,该细胞能够产生具有将能够表达CasX核酸酶的序列和具有编辑靶细胞的靶核酸的能力的gRNA递送至靶细胞能力的rAAV(以单个颗粒的形式)。在rAAV系统的一些实施方案中,编码CRISPR蛋白的序列和编码至少第一gRNA的序列长度小于约3100个、小于约3090个、小于约3080个、小于约3070个、小于约3060个、小于约3050个或小于约3040个核苷酸,使得编码第一启动子和第二启动子以及任选的一个或多个增强元件的序列可具有至少约1300个、至少约1350个、至少约1360个、至少约1370个、至少约1380个、至少约1390个、至少约1400个、至少约1500个、至少约1600个核苷酸、至少1650个、至少约1700个、至少约1750个、至少约1800个、至少约1850个或至少约1900个核苷酸的组合长度。在rAAV系统的一些实施方案中,编码第一启动子和至少一种辅助元件的序列具有大于至少约1300个、至少约1350个、至少约1360个、至少约1370个、至少约1380个、至少约1390个、至少约1400个、至少约1500个、至少约1600个核苷酸、至少1650个、至少约1700个、至少约1750个、至少约1800个、至少约1850个或至少约1900个核苷酸的组合长度。在rAAV系统的一些实施方案中,编码第一启动子和第二启动子以及至少一种辅助元件的序列具有大于至少约1300个、至少约1350个、至少约1360个、至少约1370个、至少约1380个、至少约1390个、至少约1400个、至少约1500个、至少约1600个核苷酸、至少1650个、至少约1700个、至少约1750个、至少约1800个、至少约1850个或至少约1900个核苷酸的组合长度。
在一些实施方案中,使用上述AAV表达载体转染的宿主细胞能够提供AAV辅助功能,以便复制和衣壳化侧翼为AAV ITR的核苷酸序列,从而产生rAAV病毒颗粒。AAV辅助功能通常是AAV衍生的编码序列,这些AAV衍生的编码序列可被表达以提供AAV基因产物,这些AAV基因产物继而以反式方式发挥作用以用于生产性AAV复制。本文使用AAV辅助功能来补充AAV表达载体中缺失的必需AAV功能。因此,AAV辅助功能包括主要AAV ORF(开放阅读框)中一者或两者,即编码rep和cap编码区或它们的功能同系物。可使用本领域技术人员已知的方法将辅助功能引入宿主细胞中,然后在宿主细胞中表达。通常,通过使用不相关的辅助病毒感染宿主细胞来提供辅助功能。在一些实施方案中,使用辅助功能载体来提供辅助功能。取决于所使用的宿主/载体系统,许多合适的转录和翻译控制元件中的任一者(包括组成型和诱导型启动子、转录增强子元件、转录终止子等)可用于表达载体中。在一些实施方案中,本公开提供了包含本文公开的实施方案的AAV载体的宿主细胞。
在其它实施方案中,合适的载体可包括病毒样颗粒(VLP)。病毒样颗粒(VLP)是与病毒非常相似的颗粒,但不含有病毒遗传物质,因此是非感染性的。在一些实施方案中,VLP包含编码感兴趣的转基因(其与一种或多种病毒结构蛋白包装在一起)的多核苷酸,例如本文所述的CasX蛋白和/或gRNA实施方案以及任选的供体模板多核苷酸中的任一种。
在其它实施方案中,本公开提供了体外产生的CasX递送颗粒(XDP),其包含CasX:gRNA RNP复合物和任选的供体模板。来自不同病毒的结构蛋白的组合可用于产生XDP,包括来自病毒家族的组分,该病毒家族包括细小病毒(例如腺相关病毒)、逆转录病毒(例如α逆转录病毒、β逆转录病毒、γ逆转录病毒、δ逆转录病毒、ε逆转录病毒或慢病毒)、黄病毒(例如丙型肝炎病毒)、副黏液病毒(例如Nipah)和噬菌体(例如Qβ、AP205)。在一些实施方案中,本公开提供了使用逆转录病毒的组分设计的XDP系统,该逆转录病毒包括慢病毒(诸如HIV)和α逆转录病毒、β逆转录病毒、γ逆转录病毒、δ逆转录病毒、ε逆转录病毒,其中将包含编码各种组分的多核苷酸的各个质粒引入包装细胞内,该包装细胞继而产生XDP。在一些实施方案中,本公开提供了XDP,其包含以下项的一种或多种组分:i)蛋白酶;ii)蛋白酶切割位点;iii)选自基质蛋白(MA)、核衣壳蛋白(NC)、衣壳蛋白(CA)、p1肽、p6肽、P2A肽、P2B肽、P10肽、p12肽、PP21/24肽、P12/P3/P8肽和P20肽的Gag多蛋白的一种或多种组分;v)CasX;vi)gRNA;和vi)靶向糖蛋白或抗体片段,其中所得XDP颗粒包裹CasX:gRNA RNP。编码Gag、CasX和gRNA的多核苷酸还可包含成对的组分,这些成对的组分被设计成帮助将这些组分运输出宿主细胞的细胞核并促进复合的CasX:gRNA募集到出芽XDP中。此类组分的非限制性示例包括掺入gRNA中作为结合配偶体的发夹RNA,诸如MS2发夹、PP7发夹、Qβ发夹和U1发夹II,其分别对与Gag多蛋白融合的包装募集物MS2外壳蛋白、PP7外壳蛋白、Qβ外壳蛋白和U1A信号识别颗粒具有结合亲和力。已经发现,插入向导RNA中的结合配偶体和插入到包含Gag多肽的核酸中的包装募集物的结合促进了XDP颗粒的包装,部分原因是CasX对gRNA的亲和力,导致RNP,使得gRNA和CasX在XDP的包衣过程期间与Gag缔合,与缺乏结合配偶体和包装募集物的构建体相比增加了包含RNP的XDP的比例。在其它实施方案中,gRNA可包含Rev应答元件(RRE)或该RRE对Rev具有结合亲和力的部分,该Rev可与Gag多蛋白连接。在其它实施方案中,gRNA可包含一个或多个RRE和一个或多个MS2发夹序列。RRE可选自Rev应答元件(RRE)的茎IIB、RRE的茎II-V、RRE的茎II、茎IIB的Rev结合元件(RBE)以及全长RRE。在前述实施方案中,这些组分包括UGGGCGCAGCGUCAAUGACGCUGACGGUACA(茎IIB,SEQ ID NO:1280)、GCACUAUGGGCGCAGCGUCAAUGACGCUGACGGUACAGGCCAGACAAUUAUUGUCUGGUAUAGUGC(茎II,SEQ ID NO:1281)、CAGGAAGCACUAUGGGCGCAGCGUCAAUGACGCUGACGGUACAGGCCAGACAAUUAUUGUCUGGUAUAGUGCAGCAGCAGAACAAUUUGCUGAGGGCUAUUGAGGCGCAACAGCAUCUGUUGCAACUCACAGUCUGGGGCAUCAAGCAGCUCCAGGCAAGAAUCCUG(茎II-V,SEQ ID NO:1282)、GCUGACGGUACAGGC(RBE,SEQ ID NO:1284)和AGGAGCUUUGUUCCUUGGGUUCUUGGGAGCAGCAGGAAGCACUAUGGGCGCAGCGUCAAUGACGCUGACGGUACAGGCCAGACAAUUAUUGUCUGGUAUAGUGCAGCAGCAGAACAAUUUGCUGAGGGCUAUUGAGGCGCAACAGCAUCUGUUGCAACUCACAGUCUGGGGCAUCAAGCAGCUCCAGGCAAGAAUCCUGGCUGUGGAAAGAUACCUAAAGGAUCAACAGCUCCU(全长RRE,SEQ ID NO:1283)的序列。在其它实施方案中,gRNA可包含一个或多个RRE和一个或多个MS2发夹序列。在具体实施方案中,gRNA包含MS2发夹变体,后者被优化以增加对MS2外壳蛋白的结合亲和力,从而增强将gRNA和相关CasX掺入到出芽XDP中。在一些实施方案中,包含MS2发夹变体和RRE的gRNA变体包括gRNA变体275-315(SEQ ID NO:2353-2393),其包含表36所示的MS2序列。在一些实施方案中,本公开提供了包含一种或多种MS2发夹序列变体的gRNA变体,其中该变体表现出对其MS2外壳蛋白配体的小于100nM、小于50nM、小于35nM、小于10nM、小于3nM或小于2nM的KD,并且包含gRNA变体的XDP在体外细胞测定中表现出对靶核酸改善的编辑活性,其中EC50小于108、或小于107、或小于106个颗粒以在50%的细胞中实现编辑。表面上的靶向糖蛋白或抗体片段为靶细胞提供了XDP的嗜性,其中在施用并进入靶细胞后,RNP分子被自由转运到细胞的细胞核中。包膜糖蛋白可源自本领域已知的赋予XDP嗜性的任何包膜病毒,包括但不限于:阿根廷出血热病毒、澳大利亚蝙蝠病毒、苜蓿丫纹夜蛾核多角体病毒、禽白血病病毒、狒狒内源性病毒、玻利维亚出血热病毒、博尔纳病病毒、布雷达(Breda)病毒、布尼亚韦拉(Bunyamawa)病毒、金迪普拉(Chandipura)病毒、基孔肯雅(Chkungunya)病毒、克里米亚-刚果出血热病毒、登革热病毒、杜文海格(Duvenhage)病毒、东部马脑炎病毒、埃博拉出血热病毒、埃博拉扎伊尔病毒、肠道腺病毒、短暂热病毒、爱泼斯坦-巴尔(Epstein-Bar)病毒(EBV)、欧洲蝙蝠病毒1、欧洲蝙蝠病毒2、Fug合成gP融合体、长臂类人猿白血病病毒、汉坦病毒、亨德拉病毒、甲型肝炎病毒、乙型肝炎病毒、丙型肝炎病毒、丁型肝炎病毒、戊型肝炎病毒、庚型肝炎病毒(GB病毒C)、单纯疱疹病毒1型、单纯疱疹病毒2型、人细胞巨化病毒(HHV5)、人类泡沫病毒、人类疱疹病毒(HHV)、人类疱疹病毒7、人类疱疹病毒6型、人类疱疹病毒8型、人类免疫缺陷病毒1(HIV-1)、人类偏肺病毒、人类嗜T淋巴球病毒1、甲型流感病毒、乙型流感病毒、丙型流感病毒、乙型脑炎病毒、卡波西氏(Kaposi’s)肉瘤相关疱疹病毒(HHV8)、卡萨诺尔森林病(Kaysanur Forest disease)病毒、拉克罗斯(La Crosse)病毒、拉各斯蝙蝠病毒、拉沙热病毒、淋巴细胞性脉络丛脑膜炎病毒(LCMV)、马秋波(Machupo)病毒、马尔堡(Marburg)出血热病毒、麻疹病毒、中东呼吸综合征相关冠状病毒、莫科拉(Mokola)病毒、莫洛尼鼠白血病病毒、猴痘、小鼠乳腺肿瘤病毒、流行性腮腺炎病毒、鼠γ疱疹病毒、新城病病毒、尼帕病毒、尼帕病毒、诺瓦克病毒、鄂木斯克出血热病毒、乳突瘤病毒、细小病毒、伪狂犬病病毒、夸兰菲尔(Quaranfil)病毒、狂犬病病毒、RD114内源性猫逆转录病毒、呼吸道合胞病毒(RSV)、裂谷热病毒、罗斯河病毒、轮状病毒、劳斯肉瘤病毒、风疹病毒、萨比亚相关出血热病毒、SARS相关冠状病毒(SARS-CoV)、仙台病毒、塔卡里伯病毒、托高土病毒、引起蜱传脑炎的病毒、水痘带状疱疹病毒(HHV3)、水痘带状疱疹病毒(HHV3)、大天花病毒、小天花病毒、委内瑞拉马脑炎病毒、委内瑞拉出血热病毒、水疱性口炎病毒(VSV)、VSV-G、水疱病毒、西尼罗河病毒、西部马脑炎病毒和寨卡病毒。
在其它实施方案中,本公开提供了前述XDP并且还包含pol多蛋白(例如,蛋白酶)的一种或多种组分,以及任选的第二CasX或供体模板。本公开考虑了经编码的组分的布置的多种配置,包括一些经编码的组分的复制。上文提供了优于本领域其它载体的优点,因为病毒转导至分裂和非分裂细胞是有效的,并且XDP递送有效的且短寿命的RNP,该RNP可逃避受试者的免疫监视机制,否则会检测到外源蛋白质。非限制性的示例性XDP系统描述于PCT/US20/63488和WO2021113772A1中,这些文献以引用方式并入本文。在一些实施方案中,本公开提供了包含编码任何前述XDP实施方案的多核苷酸或载体的宿主细胞。
在产生并回收包含本文所述的任何实施方案的CasX:gRNA RNP的XDP后,XDP可用于通过施用此类XDP来编辑受试者的靶细胞的方法中,如下文更全面地描述。
对于非病毒递送,还可递送载体,其中将编码CasX变体和gRNA的该一种或多种载体配制在纳米颗粒中,其中考虑的纳米颗粒包括但不限于纳米球、脂质体、脂质纳米颗粒、量子点、聚乙二醇颗粒、水凝胶和胶束。脂质纳米颗粒通常由可离子化的阳离子脂质和三种或更多种另外的组分组成,诸如胆固醇、DOPE、聚乳酸羟基乙酸共聚物和含有聚乙二醇(PEG)的脂质。在一些实施方案中,将本文公开的实施方案的CasX变体配制在脂质纳米颗粒中。在一些实施方案中,脂质纳米颗粒包含本文公开的实施方案的gRNA。在一些实施方案中,脂质纳米颗粒包含与gRNA复合的CasX变体的RNP。在一些实施方案中,该系统包含脂质纳米颗粒,该脂质纳米颗粒包含编码CasX变体和gRNA的核酸以及任选的供体模板核酸。在一些实施方案中,将CasX:gRNA系统的组分配制在单独的脂质纳米颗粒中以递送至细胞或施用给对其有需要的受试者。
VII.用于修饰靶核酸的方法
本文提供的CRISPR蛋白、向导核酸和它们的变体以及编码此类组分的载体可用于各种应用,包括治疗、诊断和研究。
在一些实施方案中,为了实现用于细胞中靶核酸的基因编辑和修饰的本公开的方法,本文提供了可编程的2类V型CasX变体和gRNA变体编辑对(CasX:gRNA)。本文提供的这些对的可编程性质允许精确靶向以在基因靶核酸中一个或多个预先确定感兴趣的区域实现期望的修饰。可采用多种策略和方法来使用本文提供的系统,以在细胞中修饰靶核酸序列。本文所用的“修饰”包括但不限于切割、切口、编辑、缺失、敲除、敲低、突变、校正、外显子跳读等。如本文所述,引入靶核酸的双链切割的CasX变体在靶链上的PAM位点的5'端18至26个核苷酸内和非靶链上的3'端10至18个核苷酸内产生双链断裂。所得修饰可通过非同源DNA末端连接(NHEJ)修复机制在那些区域中产生随机插入或缺失(插入缺失),或一个或多个核苷酸的取代、复制、移码或倒位。
在一些实施方案中,本公开提供了在细胞中修饰靶核酸的方法,该方法包括使细胞的靶核酸与以下物质接触:i)2类V型CRISPR蛋白和gRNA(CasX:gRNA)编辑对,该编辑对包含本文所述的实施方案中的任一者的CasX变体和gRNA变体;ii)CasX:gRNA编辑对连同本文所述的实施方案中的任一者的供体模板;iii)编码CasX和gRNA编辑并且任选地包含供体模板的核酸;iv)包含上述(iii)的核酸的载体;v)包含本文所述的实施方案中的任一者的CasX:gRNA编辑对的XDP;或vi)(i)至(v)中的两者或更多者的组合,其中靶核酸与CasX蛋白和gRNA基因编辑对以及任选的供体模板的接触对靶核酸进行了修饰。在一些情况下,该修饰导致细胞中突变的校正或补偿,从而产生编辑细胞,使得可发生功能基因产物的表达。在该方法的其它实施方案中,该修饰包括通过基因的敲低或敲除来抑制或消除基因产物的表达。
在修饰细胞中的靶核酸序列的方法的一些实施方案中,其中该方法包括使该细胞的靶核酸与CasX:gRNA编辑对接触,其中该编辑对包含选自如表3所示的SEQ ID NO:247-592和1147-1231的CasX变体,选自SEQ ID NO:270-592和1147-1231的CasX变体,选自SEQID NO:415-592和1147-1231的CasX变体,或与其至少60%相同、至少70%相同、至少80%相同、至少81%相同、至少82%相同、至少83%相同、至少84%相同、至少85%相同、至少86%相同、至少86%相同、至少87%相同、至少88%相同、至少89%相同、至少89%相同、至少90%相同、至少91%相同、至少92%相同、至少93%相同、至少94%相同、至少95%相同、至少96%相同、至少97%相同、至少98%相同、至少99%相同或至少99.5%相同的变体序列;gRNA支架包含选自如表2所示的SEQ ID NO:2101-2332和2353-2398的序列,gRNA支架包含选自SEQ ID NO:2238-2332和2353-2398的序列,RNA支架包含选自SEQ ID NO:2281-2332和2353-2398的序列,或与其至少65%相同、至少70%相同、至少75%相同、至少80%相同、至少81%相同、至少82%相同、至少83%相同、至少84%相同、至少85%相同、至少86%相同、至少86%相同、至少87%相同、至少88%相同、至少89%相同、至少89%相同、至少90%相同、至少91%相同、至少92%相同、至少93%相同、至少94%相同、至少95%相同、至少96%相同、至少97%相同、至少98%相同、至少99%相同、至少99.5%相同的序列;并且gRNA包含与靶核酸互补并且能够与靶核酸杂交的靶向序列。
在一些实施方案中,CasX:gRNA基因编辑对能够在核糖核蛋白复合物(RNP)中缔合在一起。在一些实施方案中,CasX:gRNA基因编辑对在核糖核蛋白复合物(RNP)中缔合在一起。在一些实施方案中,RNP能够结合并在靶核酸中产生双链断裂,这导致靶核酸中永久的插入缺失或突变。在其它实施方案中,RNP能够结合靶核酸并在该靶核酸中产生一个或多个单链切口,这导致靶核酸中永久的插入缺失或突变。在其它实施方案中,RNP能够结合靶核酸,但不能切割靶核酸;即,含有dCasX变体。在该方法的一些实施方案中,CasX变体蛋白可作为多肽提供给细胞,该多肽可任选地与增加产物溶解度的多肽结构域融合。该结构域可通过确定的蛋白酶切割位点连接到多肽上;例如被TEV蛋白酶切割的TEV序列。接头还可包括一个或多个柔性序列;例如1至10个甘氨酸残基。在一些实施方案中,融合蛋白的切割在维持产物溶解度的缓冲液中进行。例如在0.5M至2M尿素的存在下,在增加溶解度的多肽和/或多核苷酸的存在下等。感兴趣结构域可包括内溶结构域;例如流感HA结构域;以及有助于生产的其它多肽,例如IF2结构域、GST结构域、GRPE结构域等。可配制多肽以改善稳定性。例如,肽可以是聚乙二醇化的,其中聚乙烯氧基提供了在血流中延长的寿命。
在细胞中修饰靶核酸序列的方法的其它实施方案中,该方法包括使靶核酸序列与多个RNP接触,其中第一gRNA和第二gRNA或多种gRNA靶向基因的不同或重叠部分,其中CasX蛋白在靶核酸中引入多个断裂,导致靶核酸中的永久插入缺失或突变(如本文所述),或中断之间的插入序列的切除,伴有基因产物表达的对应调节或该基因产物的功能改变,从而产生经修饰的细胞。
在一些实施方案中,修饰靶核酸的方法包括使靶核酸与如本文所述的CasX:gRNA基因编辑对和供体模板接触。因此,在一些情况下,如本文提供的方法包括使靶核酸与供体多核苷酸接触(例如,通过将供体多核苷酸引入细胞中),其中供体多核苷酸、供体多核苷酸的一部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的一部分被整合到靶核酸中。例如,外源供体模板可包含侧翼为引入细胞中的靶核酸序列中的上游序列和下游序列的待整合的校正序列。在其它情况下,供体模板可含有相对于基因组序列的一个或多个单个碱基变化、插入、缺失、倒位或重排,条件是与靶核酸序列具有足够的同源以支持将其整合到靶核酸中,这可导致细胞中的缺陷基因的对应敲低或敲除的移码或其它突变,或靶核酸序列的该部分的替换。相对于切割位点的上游和下游序列与靶核酸中的整合位点(即同源臂)的任一侧共享序列相似性,从而促进插入。在其它情况下,通过同源性非依赖性靶向整合(HITI)机制,在CasX切割产生的末端之间插入外源供体模板。通过HITI插入的外源序列可以是任何长度,例如长度为10至50个核苷酸之间的相对短序列,或者长度为约50至1000个核苷酸的更长序列。同源性的缺乏可以是,例如,具有不超过20%至50%序列同一性,以及/或者在低严格性下缺乏特异性杂交。在其它情况下,缺乏同源性还可包括具有不超过5bp、6bp、7bp、8bp或9bp同一性的判据。在一些实施方案中,供体模板多核苷酸包含至少约10个、至少约50个、至少约100个、或至少约200个、或至少约300个、或至少约400个、或至少约500个、或至少约600个、或至少约700个、或至少约800个、或至少约900个、或至少约1000个、或至少约10,000个、或至少约15,000个核苷酸。在其它实施方案中,供体模板包含至少约10至约15,000个核苷酸、或至少约100至约10,000个核苷酸、或至少约400至约8,000个核苷酸、或至少约600至约5000个核苷酸、或至少约1000至约2000个核苷酸。在一些实施方案中,供体模板是单链DNA模板或单链RNA模板。在其它实施方案中,供体模板是双链DNA模板。供体模板序列可包含与基因组序列相比的某些序列差异,例如限制性位点、核苷酸多态性、可选择标记(例如药物抗性基因、荧光蛋白、酶等)等,其可用于评估供体核酸在切割位点处的成功插入,或在一些情况下可用于其它目的(例如,以表示在靶向基因组基因座处的表达)。另选地,这些序列差异可包括侧翼重组序列,诸如FLP、loxP序列等。
在一些实施方案中,本公开提供了修饰细胞的靶核酸序列的方法,这些方法包括使所述细胞的靶核酸与本文所述的任何实施方案的一种或多种多核苷酸接触,其中多核苷酸编码CasX:gRNA基因编辑对,其中gRNA包含与靶核酸序列互补并因此能够与靶核酸序列杂交的靶向序列,并且其中接触导致靶核酸的修饰。将核酸(例如,包含供体多核苷酸序列的核酸、编码如本文所述的CasX变体蛋白和gRNA变体的一种或多种核酸)引入细胞中的方法是本领域已知的,并且可使用任何方便的方法。合适的方法包括病毒感染、转染、脂质转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、核转染、电穿孔、通过细胞穿透与供体DNA融合或募集该供体DNA的CasX蛋白来直接添加、细胞挤压、磷酸钙沉淀、直接显微注射和纳米颗粒介导的核酸递送。可使用充分开发的转染技术将核酸提供给细胞,并且这些转染技术为可商购获得的来自Qiagen的试剂、来自Stemgent的StemfectTMRNA转染试剂盒和来自MirusBio LLC的/>-mRNA转染试剂盒、Lonza核转染、Maxagen电穿孔法等。包含编码CasX变体蛋白的核苷酸序列的核酸在一些情况下是RNA。因此,在一些实施方案中,可将CasX变体蛋白作为RNA引入细胞中。将RNA导入细胞中的方法是本领域已知的,并且可包括例如直接注射、转染或用于引入DNA的任何其它方法。
在其它实施方案中,本公开提供了修饰细胞的靶核酸序列的方法,这些方法包括使所述细胞与本文所述的任何实施方案的载体接触,该载体包含编码CasX:gRNA基因编辑对的核酸,该CasX:gRNA基因编辑对包含本文所述的任何实施方案的CasX变体蛋白和gRNA变体以及任选的供体模板,其中gRNA包含与靶核酸序列互补并因此能够与靶核酸序列杂交的靶向序列,其中接触导致靶核酸的修饰。将重组表达载体引入细胞中可在任何合适的培养基中和在促进细胞存活的任何合适的培养条件下进行。将重组表达载体引入靶细胞可体内、体外或离体进行。
在一些实施方案中,可将载体直接提供给靶宿主细胞。例如,细胞可与包含目标核酸的载体(例如,具有供体模板序列和编码gRNA变体和CasX变体蛋白的重组表达载体)接触,使得这些载体被细胞摄取。用于使细胞与作为质粒的核酸载体接触的方法包括电穿孔、氯化钙转染、显微注射和脂转染是本领域熟知的。对于病毒载体递送,可将细胞与包含本主题病毒表达载体的病毒颗粒接触;例如,载体是病毒颗粒诸如AAV或VLP,其包含编码CasX:gRNA组分的多核苷酸。对于非病毒递送,载体或CasX:gRNA组分还可被配制用于在脂质纳米颗粒中递送,其中预期的脂质纳米颗粒包括但不限于纳米球、脂质体、量子点、聚乙二醇颗粒、水凝胶和胶束。
在一些实施方案中,靶核酸的编辑发生在体外,在细胞内部,例如在细胞培养系统中。在一些实施方案中,编辑在体内发生在受试者的细胞内部,例如在动物的细胞中。在一些实施方案中,细胞是真核细胞。示例性真核细胞可包括选自小鼠细胞、大鼠细胞、猪细胞、狗细胞和非人灵长类细胞的细胞。在一些实施方案中,细胞为人细胞。细胞的非限制性示例包括胚胎干细胞、诱导的多能干细胞、生殖细胞、成纤维细胞、少突胶质细胞、神经胶质细胞、造血干细胞、神经元祖细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞、视网膜细胞、癌细胞、T-细胞、B-细胞、NK细胞、胎儿心肌细胞、肌成纤维细胞、间充质干细胞、自体移植扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源性细胞、内源性细胞、干细胞、造血干细胞、骨髓来源的祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞或产后干细胞。在另选的实施方案中,细胞是原核细胞。
在体外或离体修饰细胞的靶核酸以诱导对靶核酸、本公开的gRNA变体和CasX变体蛋白和任选的供体模板序列的切割或任何期望修饰的方法的一些实施方案中,无论它们是作为核酸或多肽、复合RNP、载体或XDP引入,将它们提供给细胞持续约30分钟至约24小时,或至少约1小时、1.5小时、2小时、2.5小时、3小时、3.5小时、4小时、5小时、6小时、7小时、8小时、12小时、16小时、18小时、20小时,或从约30分钟至约24小时的任何其它时间段,它们可以约每天至约每4天的频率重复,例如,每1.5天、每2天、每3天,或从约每天至约每四天的任何其它频率重复。可将试剂一次或多次(例如一次、两次、三次或多于三次)提供给目标细胞,并且允许细胞在每次接触事件后与试剂一起孵育一定量的时间;例如,30分钟至约24小时。在基于体外的方法的情况下,在与CasX和gRNA(以及任选的供体模板)的孵育期后,用新鲜培养基替换培养基并进一步培养细胞。
在一些实施方案中,该方法包括向受试者施用治疗有效剂量的经修饰以校正或补偿基因突变的细胞群体。在一些实施方案中,经修饰的细胞的施用导致野生型或功能基因产物在受试者中表达。在该方法的一些实施方案中,总细胞的剂量在为或约为104个细胞/千克(kg)体重和为或约为109个细胞/kg之间的范围内,诸如105和106个细胞/kg体重之间,例如为或约为1×105个细胞/kg、1.5×105个细胞/kg、2×105个细胞/kg或1×106个细胞/kg体重。例如,在一些实施方案中,以为或约为104和为或约为109个细胞/千克(kg)体重之间,诸如105个细胞/kg体重和106个细胞/kg体重之间,例如为或约为1×105个细胞/kg、1.5×105个细胞/kg、2×105个细胞/kg或1×106个细胞/kg体重施用细胞,或在一定误差范围内施用细胞。在一个实施方案中,这些细胞相对于待施用这些细胞的受试者是自体的。在另一个实施方案中,这些细胞相对于待施用这些细胞的受试者是同种异体的。在一些情况下,受试者选自小鼠、大鼠、猪和非人灵长类动物。在其它情况下,受试者是人。
VIII.治疗方法
在另一个方面,本公开涉及治疗对其有需要的受试者的疾病或障碍的方法。许多治疗策略已被用于设计用于治疗患有与基因突变相关的疾病或障碍的受试者的方法的系统。在一些实施方案中,靶核酸的修饰发生在基因的等位基因中具有突变的受试者中,其中该突变引起该受试者的疾病或障碍。在一些实施方案中,靶核酸的修饰将突变改变为基因的野生型等位基因或导致功能基因产物的表达。在一些实施方案中,靶核酸的修饰敲低或敲除引起受试者的疾病或障碍的基因的等位基因的表达。
在一些实施方案中,该方法包括向受试者施用治疗有效剂量的系统,该系统包含本文公开的2类V型CRISPR核酸酶变体和向导RNA变体的基因编辑对。在一些实施方案中,该治疗方法包括向受试者施用治疗有效剂量的:i)包含本文所述的任何实施方案的第一CasX变体和第一gRNA变体(具有与待修饰的靶核酸互补的靶向序列)的CasX:gRNA系统;ii)包含第一CasX蛋白和第一gRNA以及供体模板的CasX:gRNA系统,该第一gRNA具有与靶核酸互补的靶向序列;iii)编码(i)或(ii)的CasX:gRNA系统的核酸;iv)包含(iii)的核酸的载体,该载体可以是本文所述的任何实施方案的AAV;v)包含(i)或(ii)的CasX:gRNA系统的XDP;或vi)(i)至(v)中的两者或更多者的组合,其中1)被第一gRNA靶向的受试者的细胞的基因由CasX蛋白(和任选的供体模板)修饰(例如,敲低或敲除);或2)被第一gRNA靶向的受试者的细胞的基因被CasX蛋白(以及任选的供体模板)校正或修饰,使得功能基因产物可被表达。在一些实施方案中,该治疗方法还包括施用第二或多个gRNA或编码该第二或多个gRNA的核酸,其中第二或多个gRNA与第一gRNA相比具有与靶核酸序列的不同或重叠部分互补的靶向序列。应当理解,在上文中,每种不同gRNA与CasX蛋白配对。在其中向细胞提供两个或更多个基因编辑对(例如,包含两个gRNA,该gRNA包含与相同或不同靶核酸内的不同序列互补的两个或更多个不同间隔区)的实施方案中,可同时提供(例如,作为两个RNP和/或载体)或同时递送基因对。另选地,可连续地提供它们,例如,首先提供第一基因编辑对,随后是第二基因编辑对,或反之亦然。
在一些实施方案中,治疗方法包括施用治理有效剂量的编码CasX:gRNA系统的AAV载体,并且将该载体以至少约1×105个载体基因组/kg(vg/kg)、至少约1×106vg/kg、至少约1×107vg/kg、至少约1×108vg/kg、至少约1×109vg/kg、至少约1×1010vg/kg、至少约1×1011vg/kg、至少约1×1012vg/kg、至少约1×1013vg/kg、至少约1×1014vg/kg、至少约1×1015vg/kg或至少约1×1016vg/kg的剂量施用于受试者。在该方法的其它实施方案中,将AAV载体以至少约1×105vg/kg至约1×1016vg/kg、至少约1×106vg/kg至约1×1015vg/kg,或至少约1×107vg/kg至约1×1014vg/kg的剂量施用于受试者。在上文中,AAV载体选自AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV-Rh74或AAVRh10。在其它实施方案中,该治疗方法包括将包含CasX:gRNA系统的RNP的XDP以治疗有效剂量施用于受试者。在一个实施方案中,将XDP以至少约1×105个颗粒/kg、至少约1×106个颗粒/kg、至少约1×107个颗粒/kg、至少约1×108个颗粒/kg、至少约1×109个颗粒/kg、至少约1×1010个颗粒/kg、至少约1×1011个颗粒/kg、至少约1×1012个颗粒/kg、至少约1×1013个颗粒/kg、至少约1×1014个颗粒/kg、至少约1×1015个颗粒/kg、至少约1×1016个颗粒/kg的剂量施用于受试者。在另一个实施方案中,XDP以至少约1×105颗粒/kg至约1×1016颗粒/kg、或至少约1×106颗粒/kg至约1×1015颗粒/kg、或至少约1×107颗粒/kg至约1×1014颗粒/kg的剂量施用于受试者。载体或XDP可通过选自以下的施用途径施用:脑实质内、静脉内、动脉内、肌内、皮下、脑室内、脑池内、鞘内、颅内、玻璃体内、视网膜下、囊内和腹膜内途径或它们的组合,其中施用方法是注射、输血或植入。施用可以是一次、两次,或者可使用每周、每两周、每月、每季度、每六个月、每年一次或每2或3年的方案时间表来多次施用。在一些情况下,受试者选自小鼠、大鼠、猪和非人灵长类动物。在其它情况下,受试者是人。
在一些实施方案中,修饰包括在受试者的靶向细胞的靶核酸中引入单链断裂。在其它情况下,修饰包括在受试者的靶向细胞的靶核酸中引入双链断裂。在一些实施方案中,修饰在靶核酸中引入一个或多个突变,诸如基因中一个或多个核苷酸的插入、缺失、取代、复制或倒位,其中与未经修饰的细胞相比,受试者的经修饰的细胞中基因产物的表达降低至少约10%、至少约20%、至少约30%、至少约40%、至少约50%、至少约60%、至少约70%、至少约80%或至少约90%。在一些情况下,受试者的经修饰的细胞的基因被修饰,使得至少70%、至少75%、至少80%、至少85%、至少90%或至少95%的经修饰的细胞不表达可检测水平的基因产物。在一些实施方案中,向患有疾病的受试者施用治疗有效量的CasX:gRNA系统以敲低或敲除基因产物的表达导致基础疾病的预防或改善,使得在受试者中观察到改善,尽管受试者可能仍患有该基础疾病。在其它实施方案中,基因可通过NHEJ宿主修复机制修饰,或与通过HDR或HITI机制插入的供体模板联合使用以切除、校正或补偿受试者细胞中的突变,使得与未修饰的细胞相比,修饰细胞中野生型或功能性基因产物的表达增加至少约50%、至少约60%、至少约70%、至少约80%、至少约90%或至少约95%。在一些实施方案中,施用治疗有效量的CasX-gRNA系统导致疾病的至少一个临床相关参数的改善。
在一些情况下,本公开的核酸(例如,本公开的重组表达载体)或CasX变体或gRNA变体可用脂质以有组织的结构如胶束、脂质体或脂质纳米颗粒覆盖。当该有组织的结构与DNA复合时,其被称为脂质体复合物。存在三种类型的脂质,即阴离子(带负电)、中性或阳离子(带正电)。利用阳离子脂质的脂质体复合物已被证明可用于基因转移。阳离子脂质由于它们的正电荷而与带负电荷的DNA天然复合。还由于它们的电荷,它们与细胞膜相互作用。然后发生脂质体复合物的内吞作用,并且DNA被释放到细胞质中。阳离子脂质还防止DNA被细胞降解。
在一些情况下,本公开的核酸(例如,表达载体)包括感兴趣向导序列的插入位点。例如,核酸可包括感兴趣向导序列的插入位点,其中该插入位点紧邻编码gRNA变体的在向导序列改变以与期望的靶序列杂交时不改变的部分(例如支架区域)的核苷酸序列。因此,在一些情况下,除了编码gRNA的间隔区序列部分的部分是插入序列(插入位点)之外,表达载体包括编码gRNA的核苷酸序列。插入位点是用于在期望序列中插入间隔区的任何核苷酸序列。用于各种技术的“插入位点”是本领域普通技术人员已知的,并且可使用任何方便的插入位点。插入位点可用于操作核酸序列的任何方法。例如,在一些情况下,插入位点是多克隆位点(MCS)(例如,包括一个或多个限制性酶识别序列的位点)、用于连接非依赖性克隆的位点、用于基于重组的克隆的位点(例如,基于ATT位点的重组)、由基于CRISPR/Cas(例如Cas9)的技术识别的核苷酸序列等。
IX.细胞
在另外其它实施方案中,本文提供了包含本文所述的任何CasX:gRNA系统的组分的细胞。在一些实施方案中,这些细胞包含如本文所述的任何gRNA变体实施方案,并且还包含与靶核酸互补的间隔区。在一些实施方案中,这些细胞还包含如本文所述的CasX变体(例如,表3和表7的序列)。在其它实施方案中,这些细胞包含本文所述的任何CasX:gRNA实施方案的RNP。在其它实施方案中,本公开提供了包含编码本文所述的任何实施方案的CasX:gRNA系统的载体的细胞。在其它实施方案中,这些细胞包含已由本文所述的CasX:gRNA实施方案编辑的靶核酸;要么纠正突变(敲入)要么敲低或敲除缺陷基因。
在一些实施方案中,该细胞是包含核酸的经修饰的细胞(例如,经遗传修饰的细胞),该核酸包含编码本公开的CasX变体蛋白的核苷酸序列。在一些实施方案中,用包含编码CasX变体蛋白的核苷酸序列的mRNA对经遗传修饰的细胞进行遗传修饰。在一些实施方案中,用重组表达载体对细胞进行遗传修饰,该重组表达载体包含:a)编码本公开的CasX变体蛋白的核苷酸序列;和b)编码本公开的gRNA的核苷酸序列,并且任选地包含核苷酸序列,该核苷酸序列包含供体模板。在一些情况下,此类细胞用于产生CasX:gRNA系统的单个组分或RNP以用于编辑靶核酸。在其它情况下,以这种方式经基因修饰的细胞可出于诸如基因疗法的目的而施用于受试者;例如,用于治疗由遗传突变或缺陷引起的疾病或病症。
可用作本公开的CasX变体蛋白和/或gRNA的受体以及/或者包含编码CasX变体蛋白和/或gRNA变体的核苷酸序列的核酸的细胞可以是多种细胞中的任一者,包括例如体外细胞;体内细胞;离体细胞;主小区;无限增殖化细胞系的细胞;癌细胞;动物细胞;植物细胞;藻类细胞;真菌细胞;等等。细胞可以是本公开的CasX RNP的受体。细胞可以是本公开的CasX系统的单一组分的受体。细胞可以是编码本文所述的任何实施方案的CasX、gRNA和任选的CasX:gRNA系统的供体模板的载体的受体。
可用作生产本文公开的CasX:gRNA系统的宿主细胞的细胞的非限制性示例包括原核细胞(例如大肠杆菌)和真核细胞(例如幼仓鼠肾成纤维细胞(BHK)细胞、人胚胎肾293(HEK293)细胞、人胚胎肾293T(HEK293T)细胞、NS0细胞、SP2/0细胞、YO骨髓瘤细胞、P3X63小鼠骨髓瘤细胞、PER细胞、PER.C6细胞、杂交瘤细胞、NIH3T3细胞、具有SV40遗传物质(COS)细胞的原始CV-1(猿)、HeLa细胞、中国仓鼠卵巢(CHO)细胞或酵母细胞,或本领域已知的适于产生重组产物的其它真核细胞
在一些实施方案中,本公开提供了经修饰用于施用于受试者以治疗疾病或障碍的细胞群体。此类细胞相对于待施用所述细胞的受试者而言可以是自体的。在其它实施方案中,这些细胞相对于待施用所述细胞的受试者可能是同种异体的。细胞可以是动物细胞或源自动物细胞。细胞可以是哺乳动物细胞或源自哺乳动物细胞。细胞可以是啮齿动物细胞或源自啮齿动物细胞诸如大鼠或小鼠。细胞可以是非人灵长类动物细胞或源自非人灵长类动物细胞。细胞可以是人细胞或源自人细胞。在一些实施方案中,合适的细胞可包括干细胞(例如,胚胎干(ES)细胞、诱导的多能干(iPS)细胞;生殖细胞(例如,卵母细胞、精子、卵原细胞、精原细胞等);体细胞,例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血干细胞、神经元祖细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞、视网膜细胞、癌细胞、T-细胞、B-细胞、胎儿心肌细胞、肌成纤维细胞、间充质干细胞、自体移植扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源性细胞、内源性细胞、干细胞、造血干细胞、骨髓来源的祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。在一些实施方案中,该细胞为免疫细胞。在一些情况下,免疫细胞为T细胞、B细胞、单核细胞、自然杀伤细胞、树突状细胞或巨噬细胞。在一些情况下,免疫细胞为细胞毒性T细胞。在一些情况下,免疫细胞为辅助T细胞。在一些情况下,免疫细胞为调节T细胞(Treg)。在一些情况下,细胞表达嵌合抗原受体(Car-T)。在一些实施方案中,细胞为干细胞。干细胞可包括,例如,成体干细胞。成体干细胞也可被称为体细胞干细胞。在一些实施方案中,干细胞为造血干细胞(HSC)、神经干细胞或间充质干细胞。在其它实施方案中,干细胞为间充质干细胞(MSC)。最初源自胚胎中胚层并从成人骨髓中分离的MSC可分化形成肌肉、骨、软骨、脂肪、骨髓基质和腱。分离MSC的方法是本领域已知的;并且可使用任何已知的方法获得MSC。
X.试剂盒和制品
在另一个方面,本文提供了试剂盒,这些试剂盒包括本公开的任何实施方案的CasX蛋白和一种或多种gRNA,以及合适的容器(例如管、小瓶或板)。在一些实施方案中,试剂盒包括本公开的gRNA变体,或者SEQ ID NO:5或SEQ ID NO:4的参考gRNA。可包括的示例性gRNA变体包含如表2所示的SEQ ID NO:2238-XX中的任一者的序列。
在一些实施方案中,该试剂盒包括本公开的CasX变体蛋白(例如,表3和表7的序列),或SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白。在示例性实施方案中,本公开的试剂盒包括SEQ ID NO:247-592和1147-1231中任一者的CasX变体。在其它示例性实施方案中,本公开的试剂盒包括SEQ ID NO:270-592和1147-1231中任一者的CasX变体。在其它示例性实施方案中,本公开的试剂盒包括SEQ ID NO:415-592和1147-1231中任一者的CasX变体。
在一些实施方案中,该试剂盒包括gRNA或编码gRNA的载体,其中该gRNA包含选自SEQ ID NO:2101-2332和2353-2398的序列。在一些实施方案中,gRNA包含选自SEQ ID NO:2238-2332和2353-2398的序列。在一些实施方案中,gRNA包含选自SEQ ID NO:2281-2332和2353-2398的序列。在一些实施方案中,gRNA包含选自SEQ ID NO:2236、2237、2238、2241、2244、2248、2249和2259-2280的序列。在一些实施方案中,gRNA包含选自表2所示的序列中的任一者的序列。
在某些实施方案中,本文提供了包含CasX蛋白和gRNA编辑对的试剂盒,该编辑对包含表3和表7的CasX变体蛋白和如本文所述的gRNA变体(例如,表2的序列)。在示例性实施方案中,本公开的试剂盒包括CasX和gRNA编辑对,其中CasX变体包含SEQ ID NO:247-592或1147-1231中的任一者。在其它示例性实施方案中,本公开的试剂盒包括CasX和gRNA编辑对,其中CasX变体包含SEQ ID NO:270-592和1147-1231中的任一者。在其它示例性实施方案中,本公开的试剂盒包括CasX和gRNA编辑对,其中CasX变体包含SEQ ID NO:415-592和1147-1231中的任一者。在一些实施方案中,基因编辑对的gRNA包含SEQ ID NO:2101-2332和2353-2398中的任一者。在一些实施方案中,基因编辑对的gRNA包含SEQ ID NO:2238-2332或2353-2398中的任一者。在一些实施方案中,基因编辑对的gRNA包含SEQ ID NO:2281-2332或2353-2398中的任一者。在一些实施方案中,基因编辑对的gRNA包含SEQ IDNO:2236、2237、2238、2241、2244、2248、2249或2259-2280中的任一者。
在一些实施方案中,该试剂盒还包含缓冲液、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记可视化试剂或前述物质的任何组合。在一些实施方案中,该试剂盒还包含药学上可接受的载体、稀释剂或赋形剂。
在一些实施方案中,该试剂盒包括用于基因编辑应用的适当对照组合物和使用说明书。
在一些实施方案中,该试剂盒包括载体,该载体包含编码本公开的CasX变体蛋白、本公开的gRNA变体、任选的供体模板或它们的组合的序列。
本说明书阐述了许多示例性配置、方法、参数等。然而,应当认识到,此类描述并非旨在作为对本公开的范围的限制,而是作为示例性实施方案的描述来提供。上述本主题的实施方案单独或与一个或多个其它方面或实施方案组合可能是有益的。在不限制前述描述的情况下,下文提供了本公开的某些非限制性实施方案。如本领域技术人员在阅读本公开后将显而易见的,单独编号的实施方案中的每一者可与之前或之后单独编号的实施方案中的任一者一起使用或组合。这旨在提供对实施方案的所有此类组合的支持,并且不限于以下明确提供的实施方案的组合:
列举的实施方案
本发明可参考以下列举的例示性实施方案来定义。
组I
实施方案1:一种参考CasX蛋白的变体(CasX变体),其中:
a.该CasX变体在该参考CasX蛋白中包含至少一个修饰;并且
b.与该参考CasX蛋白相比,该CasX变体表现出至少一种改善的特征,任选地其中该变体包含选自表3和表8中提供的那些的序列。
实施方案2:根据实施方案1所述的CasX变体,其中该CasX变体的该改善的特征选自:该CasX变体的改善的折叠;改善的对向导核酸(gNA)的结合亲和力;改善的对靶DNA的结合亲和力;改善的在靶DNA的编辑中利用更广谱的包括ATC、CTC、GTC或TTC的一种或多种PAM序列的能力;改善的靶DNA的解旋;增加的编辑活性;改善的编辑效率;改善的编辑特异性;增加的核酸酶活性;增加的用于双链切割的靶链加载;减少的用于单链切口的靶链加载;减少的脱靶切割;改善的非靶DNA链的结合;改善的蛋白质稳定性;改善的蛋白质溶解度;改善的蛋白质:gRNA复合物(RNP)稳定性;改善的蛋白质:gRNA复合物溶解度;改善的蛋白质产量;改善的蛋白质表达;改善的融合特征或其组合。
实施方案3:根据实施方案1或2所述的CasX变体,其中该至少一个修饰包括:
a.在该CasX变体的结构域中的至少一个氨基酸取代;
b.在该CasX变体的结构域中的至少一个氨基酸缺失;
c.在该CasX变体的结构域中的至少一个氨基酸插入;
d.取代来自不同CasX的结构域的全部或一部分;
e.该CasX变体的结构域的全部或一部分的缺失;或
f.(a)至(e)的任何组合。
实施方案4:根据实施方案1至3中任一项所述的CasX变体,其中该参考CasX蛋白包含SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:270或SEQ ID NO:336的该序列。
实施方案5:根据实施方案1至4中任一项所述的CasX变体,其中该至少一个修饰在选自以下的结构域中:
a.非靶链结合(NTSB)结构域;
b.靶链加载(TSL)结构域;
c.螺旋I结构域;
d.螺旋II结构域;
e.寡核苷酸结合结构域(OBD);或
f.RuvC DNA切割结构域。
实施方案6:根据实施方案5所述的CasX变体,该CasX变体在该NTSB结构域中包含至少一个修饰。
实施方案7:根据实施方案5所述的CasX变体,该CasX变体在TSL结构域中包含至少一个修饰。
实施方案8:根据实施方案5所述的CasX变体,该CasX变体在该螺旋I结构域中包含至少一个修饰。
实施方案9:根据实施方案5至8中任一项所述的CasX变体,该CasX变体在该螺旋II结构域中包含至少一个修饰。
实施方案10:根据实施方案5所述的CasX变体,该CasX变体在OBD结构域中包含至少一个修饰。
实施方案11:根据实施方案5所述的CasX变体,该CasX变体在该RuvC DNA切割结构域中包含至少一个修饰。
实施方案12:根据实施方案5至11中任一项所述的CasX变体,其中该修饰导致编辑该靶DNA的能力增加。
实施方案13:根据实施方案1至12中任一项所述的CasX变体,其中该CasX变体能够与向导核酸(gNA)形成核糖核蛋白复合物(RNP)。
实施方案14:根据实施方案1至13中任一项所述的CasX变体,其中该至少一个修饰包括:
a.该CasX变体中1至100个连续或非连续氨基酸的取代;
b.该CasX变体中1至100个连续或非连续氨基酸的缺失;
c.该CasX中1至100个连续或非连续氨基酸的插入;或
d.(a)至(c)的任何组合。
实施方案15:根据实施方案14所述的CasX变体,其中该至少一个修饰包括:
a.该CasX变体中5至10个连续或非连续氨基酸的取代;
b.该CasX变体中1至5个连续或非连续氨基酸的缺失;
c.该CasX中1至5个连续或非连续氨基酸的插入;或
d.(a)至(c)的任何组合。
实施方案16:根据实施方案1至15中任一项所述的CasX变体,其中该CasX变体在一个结构域中包含两个或更多个修饰。
实施方案17:根据任一实施方案1至16所述的CasX变体,其中该CasX变体在两个或更多个结构域中包含修饰。
实施方案18:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含该CasX变体的非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基形成其中发生gNA:靶DNA与该CasX变体复合的通道。
实施方案19:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含该CasX变体的非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基形成与gNA结合的界面。
实施方案20:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含该CasX变体的非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基形成与该非靶链DNA结合的通道。
实施方案21:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含该CasX变体的非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基形成与该靶DNA的原间隔序列相邻基序(PAM)结合的界面。
实施方案22:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含该CasX变体的非邻接表面暴露氨基酸残基区域的至少一个修饰。
实施方案23:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基通过疏水堆积在该CasX变体的结构域中形成核心。
实施方案24:根据实施方案18至23中任一项所述的CasX变体,其中该修饰是该区域的一个或多个氨基酸的缺失、插入或取代中的一者或多者。
实施方案25:根据实施方案18至23中任一项所述的CasX变体,其中该CasX变体的该区域的2至15个氨基酸残基被带电荷的氨基酸取代。
实施方案26:根据实施方案18至23中任一项所述的CasX变体,其中该CasX变体的该区域的2至15个氨基酸残基被极性氨基酸取代。
实施方案27:根据实施方案18至23中任一项所述的CasX变体,其中该CasX变体的该区域的2至15个氨基酸残基被与DNA或RNA碱基堆叠的氨基酸取代。
实施方案28:根据实施方案1至5中任一项所述的CasX变体,其中该CasX变体具有序列,该序列选自表3的序列、或与其具有至少约50%、至少约60%、至少约70%、至少约80%、至少约90%、或至少约95%、或至少约96%、或至少约97%、或至少约98%、或至少约99%序列同一性的序列。
实施方案29:根据实施方案1至5中任一项所述的CasX变体,该CasX变体进一步包含来自不同CasX的NTSB和/或螺旋1b结构域的取代。
实施方案30:根据实施方案29所述的CasX变体,其中所取代的NTSB和/或该螺旋1b结构域来自SEQ ID NO:1的参考CasX。
实施方案31:根据实施方案1至30中任一项所述的CasX变体,该CasX变体还包含一个或多个核定位信号(NLS)。
实施方案32:根据实施方案31所述的CasX变体,其中该一个或多个NLS选自由PKKKRKV(SEQ ID NO:352)、KRPAATKKAGQAKKKK(SEQ ID NO:353)、PAAKRVKLD(SEQ ID NO:354)、RQRRNELKRSP(SEQ ID NO:355)、NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ IDNO:356)、RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:357)、VSRKRPRP(SEQ ID NO:358)、PPKKARED(SEQ ID NO:35()、PQPKKKPL(SEQ ID NO:360)、SALIKKKKKMAP(SEQ ID NO:361)、DRLRR(SEQ ID NO:362)、PKQKKRK(SEQ ID NO:363)、RKLKKKIKKL(SEQ IDNO:364)、REKKKFLKRR(SEQ ID NO:365)、KRKGDEVDGVDEVAKKKSKK(SEQ ID NO:366)、RKCLQAGMNLEARKTKK(SEQ ID NO:367)、PRPRKIPR(SEQ ID NO:368)、PPRKKRTVV(SEQ ID NO:369)、NLSKKKKRKREK(SEQ ID NO:370)、RRPSRPFRKP(SEQ ID NO:371)、KRPRSPSS(SEQ IDNO:372)、KRGINDRNFWRGENERKTR(SEQ ID NO:373)、PRPPKMARYDN(SEQ ID NO:374)、KRSFSKAF(SEQ ID NO:375)、KLKIKRPVK(SEQ ID NO:376)、PKKKRKVPPPPAAKRVKLD(SEQ IDNO:377)、PKTRRRPRRSQRKRPPT(SEQ ID NO:378)、SRRRKANPTKLSENAKKLAKEVEN(SEQ ID NO:379)、KTRRRPRRSQRKRPPT(SEQ ID NO:380)、RRKKRRPRRKKRR(SEQ ID NO:381)、PKKKSRKPKKKSRK(SEQ ID NO:382)、HKKKHPDASVNFSEFSK(SEQ ID NO:383)、QRPGPYDRPQRPGPYDRP(SEQ ID NO:384)、LSPSLSPLLSPSLSPL(SEQ ID NO:385)、RGKGGKGLGKGGAKRHRK(SEQ ID NO:386)、PKRGRGRPKRGRGR(SEQ ID NO:387)、和PKKKRKVPPPPKKKRKV(SEQ ID NO:389)组成的序列。
实施方案33:根据实施方案31或实施方案32所述的CasX变体,其中该一个或多个NLS被定位在该CasX蛋白的C末端处或其附近。
实施方案34:根据实施方案31或实施方案32所述的CasX变体,其中该一个或多个NLS被定位在该CasX蛋白的N末端处或其附近。
实施方案35:根据实施方案31或实施方案32所述的CasX变体,该CasX变体包含至少两个NLS,其中该至少两个NLS被定位在该CasX蛋白的N末端处或其附近以及C末端处或其附近。
实施方案36:根据实施方案2至35中任一项所述的CasX变体,其中与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的该参考CasX蛋白相比,该CasX变体的这些改善的特征中的一者或多者改善了至少约1.1倍至约100倍或更多。
实施方案37:根据实施方案2至35所述的CasX变体,其中与SEQ ID NO:1、SEQ IDNO:2、SEQ ID NO:3、SEQ ID NO:270或SEQ ID NO:336的该参考CasX蛋白相比,该CasX变体的这些改善的特征中的一者或多者改善了至少约1.1倍、至少约2倍、至少约10倍、至少约100倍或更多。
实施方案38:根据实施方案2至37中任一项所述的CasX变体,其中该改善的特征包括编辑效率,并且与SEQ ID NO:270或SEQ ID NO:336的该参考CasX蛋白相比,该CasX变体包括1.1倍至100倍的编辑效率改善。
实施方案39:根据实施方案1至38中任一项所述的CasX变体,其中当这些PAM序列TTC、ATC、GTC或CTC中的任一者位于与细胞测定系统中该gRNA的该靶向序列具有同一性的该原间隔序列的该非靶链的5'端1个核苷酸处时,与在可比较的测定系统中对包含参考CasX蛋白RNP的该编辑效率和/或结合相比,包含该CasX变体的该RNP表现出对该靶DNA中的靶序列更高的编辑效率和/或结合。
实施方案40:根据实施方案39所述的CasX变体,其中该PAM序列是TTC。
实施方案41:根据实施方案39所述的CasX变体,其中该PAM序列是ATC。
实施方案42:根据实施方案39所述的CasX变体,其中该PAM序列是CTC。
实施方案43:根据实施方案39所述的CasX变体,其中该PAM序列是GTC。
实施方案44:根据实施方案39中任一项所述的CasX变体,其中与包含该参考CasX的该RNP相比,包含该CasX变体的该RNP的该改善的编辑效率和/或与该靶DNA的结合改善了至少约1.1倍至约100倍。
实施方案45:根据实施方案1至44中任一项所述的CasX变体,其中该CasX变体包含400至2000个氨基酸。
实施方案46:根据实施方案1至45中任一项所述的CasX变体,其中该CasX变体蛋白包含具有切口酶活性的核酸酶结构域。
实施方案47:根据实施方案1至45中任一项所述的CasX变体,其中该CasX变体蛋白包含具有双链切割活性的核酸酶结构域。
实施方案48:根据实施方案1至45中任一项所述的CasX变体,其中该CasX蛋白是无催化活性的CasX(dCasX)蛋白,并且其中该dCasX和该gNA保留与该靶DNA结合的能力。
实施方案49:根据实施方案48所述的CasX变体,其中该dCasX在以下残基处包含突变:
a.对应于SEQ ID NO:1的该CasX蛋白的D672、和/或E769、和/或D935;或者
b.对应于SEQ ID NO:2的该CasX蛋白的D659、和/或E756、和/或D922。
实施方案50:根据实施方案49所述的CasX变体,其中该突变是用丙氨酸取代该残基。
实施方案51:根据实施方案1至50中任一项所述的CasX变体,其中该CasX变体包含来自第一CasX蛋白的第一结构域和来自不同于该第一CasX蛋白的第二CasX蛋白的第二结构域。
实施方案52:根据实施方案51所述的CasX变体,其中该第一结构域选自该NTSB结构域、TSL结构域、螺旋I结构域、螺旋II结构域、OBD结构域和RuvC结构域。
实施方案53:根据实施方案51所述的CasX变体,其中该第二结构域选自该NTSB结构域、TSL结构域、螺旋I结构域、螺旋II结构域、OBD结构域和RuvC结构域。
实施方案54:根据实施方案51至53中任一项所述的CasX变体,其中该第一结构域和第二结构域不是相同的结构域。
实施方案55:根据实施方案1至50中任一项所述的CasX变体,其中该CasX变体包含至少一个嵌合结构域,该至少一个嵌合结构域包含来自第一CasX蛋白的第一部分和来自不同于该第一CasX蛋白的第二CasX蛋白的第二部分。
实施方案56:根据实施方案55所述的CasX变体,其中该至少一个嵌合结构域选自该NTSB结构域、TSL结构域、螺旋I结构域、螺旋II结构域、OBD结构域和RuvC结构域。
实施方案57:根据实施方案56所述的CasX变体,其中该至少一个嵌合结构域包含嵌合RuvC结构域。
实施方案58:根据实施方案1至57中任一项所述的CasX变体,该CasX变体包含与该CasX融合的异源蛋白或其结构域。
实施方案59:根据实施方案58所述的CasX变体,其中该异源蛋白或其结构域是碱基编辑器。
实施方案60:根据实施方案59所述的CasX变体,其中该碱基编辑器是腺苷脱氨酶、胞嘧啶脱氨酶或鸟嘌呤氧化酶。
实施方案61:一种能够结合参考CasX蛋白或CasX变体的参考向导核酸支架的变体(gNA变体),其中:
a.与该参考向导核酸支架序列相比,该gNA变体包含至少一个修饰;并且
b.与该参考向导核酸支架相比,该gNA变体表现出一种或多种改善的特征。
实施方案62:根据实施方案61所述的gNA变体,其中该一种或多种改善的特征选自:改善的稳定性;改善的溶解度;改善的该gNA的转录;改善的对核酸酶活性的抗性;增加的该gNA折叠速率;减少的折叠期间副产物的形成;增加的生产性折叠;改善的对CasX蛋白的结合亲和力;当与该CasX蛋白复合时,改善的对靶DNA的结合亲和力;当与该CasX蛋白复合时,改善的基因编辑;当与该CasX蛋白复合时,改善的编辑特异性;以及当与该CasX蛋白复合时,在靶DNA的编辑中利用更广谱的一种或多种PAM序列(包括ATC、CTC、GTC或TTC)的改善能力。
实施方案63:根据实施方案61或62所述的gNA变体,其中该参考向导物支架包含选自SEQ ID NO:4-16或SEQ ID NO:2238或SEQ ID NO:2239的这些序列的序列。
实施方案64:根据实施方案61至63中任一项所述的gNA变体,其中该至少一个修饰包括:
a.该gNA变体的区域中的至少一个核苷酸取代;
b.该gNA变体的区域中的至少一个核苷酸缺失;
c.该gNA变体的区域中的至少一个核苷酸插入;
d.该gNA变体的区域的全部或一部分的取代;
e.该gNA变体的区域的全部或一部分的缺失;或
f.(a)至(e)的任何组合。
实施方案65:根据实施方案64所述的gNA变体,其中该gNA变体的该区域选自延伸茎环、支架茎环、三链体和假结。
实施方案66:根据实施方案65所述的gNA变体,其中该支架茎还包含泡。
实施方案67:根据实施方案65或实施方案66所述的gNA变体,其中该支架还包含三链体环区域。
实施方案68:根据实施方案65至67中任一项所述的gNA变体,其中该支架还包含5'非结构化区域。
实施方案69:根据实施方案64至68中任一项所述的gNA变体,其中该至少一个修饰包括:
a.在该gNA变体的一个或多个区域中1至15个连续或非连续核苷酸的缺失;
b.在该gNA变体的一个或多个区域中1至10个连续或非连续核苷酸的缺失;
c.在该gNA变体的一个或多个区域中1至10个连续或非连续核苷酸的插入;
d.用RNA茎环序列对该支架茎环或该延伸茎环的取代,该RNA茎环序列来自具有近端5'末端和3'末端的异源RNA来源;或
e.(a)至(d)的任何组合。
实施方案70:根据实施方案61至69中任一项所述的gNA变体,该gNA变体包含延伸茎环区域,该延伸茎环区域包含至少10个、至少100个、至少500个、至少1000个或至少10,000个核苷酸。
实施方案71:根据实施方案69所述的gNA变体,其中该异源RNA茎环序列增加了该gNA的稳定性。
实施方案72:根据实施方案71所述的gNA变体,其中该异源RNA茎环能够结合蛋白质、RNA结构、DNA序列或小分子。
实施方案73:根据实施方案71或实施方案72所述的gNA变体,其中该异源RNA茎环序列选自MS2、Qβ、U1发夹II、Uvsx或PP7茎环。
实施方案74:根据实施方案61至73中任一项所述的gNA变体,该gNA变体在一个区域中包含两个或更多个修饰。
实施方案75:根据实施方案61至74中任一项所述的gNA变体,其中该gNA变体在两个或更多个区域中包含修饰。
实施方案76:根据实施方案61至75中任一项所述的gNA变体,其中该gNA变体进一步包含靶向序列,其中该靶向序列与该靶DNA序列互补。
实施方案77:根据实施方案76所述的gNA变体,其中该靶向序列具有14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个核苷酸。
实施方案78:根据实施方案76或实施方案77中任一项所述的gNA变体,其中该靶向序列具有20个核苷酸。
实施方案79:根据实施方案76至78中任一项所述的gNA变体,其中该gNA是包含与该靶向序列连接的该支架序列的单向导gNA。
实施方案80:根据实施方案61至79中任一项所述的gNA变体,其中与SEQ ID NO:4或SEQ ID NO:5的参考gNA相比,该CasX变体的该一种或多种这些改善的特征改善了至少约1.1倍至约100倍或更多。
实施方案81:根据实施方案61至79中任一项所述的gNA变体,其中与SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:2238、SEQ ID NO:2239的该参考gNA、变体支架174(表2)或变体支架175(表2)相比,该gNA变体的这些改善的特征中的一者或多者改善了至少约1.1倍、至少约2倍、至少约10倍或至少约100倍或更多。
实施方案82:根据实施方案61至81中任一项所述的gNA变体,该gNA变体包含与SEQID NO:4或SEQ ID NO:5具有至少60%序列同一性的支架区域,不包括该延伸茎区域。
实施方案83:根据实施方案61至81中任一项所述的gNA变体,该gNA变体包含与SEQID NO:14具有至少60%序列同一性的支架茎环。
实施方案84:根据实施方案61至81中任一项所述的gNA变体,其中该gNA变体序列的该支架与SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:2238、SEQ ID NO:2239的该序列、变体支架174(表2)或变体支架175(表2)具有至少20%、至少30%、至少40%、至少50%、至少60%、或至少70%、至少80%、至少85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。
实施方案85:根据实施方案61至81中任一项所述的gNA变体,该gNA变体序列的该支架包含选自SEQ ID NO:2101-2285和4433-4437的序列,或与其具有至少约80%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。
实施方案86:根据实施方案85所述的gNA变体,其中该gNA变体序列的该支架由选自SEQ ID NO:2101-2285或4433-4437的序列的序列组成。
实施方案87:根据实施方案61至86中任一项所述的gNA变体,该gNA变体进一步包含一种或多种核酶。
实施方案88:根据实施方案87所述的gNA变体,其中该一种或多种核酶独立地与该gNA变体的末端融合。
实施方案89:根据实施方案87或实施方案88所述的gNA变体,其中该一种或多种核酶中的至少一者是丁型肝炎病毒(HDV)核酶、锤头核酶、手枪式核酶、弯刀核酶或烟草环斑病毒(TRSV)核酶。
实施方案90:根据实施方案61至89中任一项所述的gNA变体,该gNA变体进一步包含蛋白结合基序。
实施方案91:根据实施方案61至90中任一项所述的gNA变体,该gNA变体进一步包含热稳定茎环。
实施方案92:根据实施方案61至91中任一项所述的gNA变体,其中该gNA被化学修饰。
实施方案93:根据实施方案61至92中任一项所述的gNA变体,其中该gNA包含来自第一gNA的第一区域和来自不同于该第一gNA的第二gNA的第二区域。
实施方案94:根据实施方案93所述的gNA变体,其中该第一区域选自三链体区域、支架茎环和延伸茎环。
实施方案95:根据实施方案93或实施方案94所述的gNA变体,其中该第二区域选自三链体区域、支架茎环和延伸茎环。
实施方案96:根据实施方案93至95中任一项所述的gNA变体,其中该第一区域和第二区域不是相同的区域。
实施方案97:根据实施方案93至95中任一项所述的gNA变体,其中该第一gNA包含SEQ ID NO:4的序列并且该第二gNA包含SEQ ID NO:5的序列。
实施方案98:根据实施方案61至97中任一项所述的gNA变体,该gNA变体包含至少一个嵌合区域,该至少一个嵌合区域包含来自第一gNA的第一部分和来自第二gNA的第二部分。
实施方案99:根据实施方案98所述的gNA变体,其中该至少一个嵌合区域选自三链体区域、支架茎环和延伸茎环。
实施方案100:根据实施方案61所述的gNA变体,该gNA变体包含SEQ ID NO:2101-2285中的任一者的该序列。
实施方案101:一种基因编辑对,该基因编辑对包含CasX蛋白和第一gNA。
实施方案102:根据实施方案101所述的基因编辑对,其中该CasX和该gNA能够在核糖核蛋白复合物(RNP)中缔合在一起。
实施方案103:根据实施方案101所述的基因编辑对,其中该CasX和该gNA在核糖核蛋白复合物(RNP)中缔合在一起。
实施方案104:根据实施方案101至103中任一项所述的基因编辑对,其中该第一gNA包含根据实施方案76至100中任一项所述的gNA变体、靶向序列,其中该靶向序列与该靶DNA互补。
实施方案105:根据实施方案101至104中任一项所述的基因编辑对,其中该CasX包含根据实施方案1至60中任一项所述的CasX变体。
实施方案106:根据实施方案101至105中任一项所述的基因编辑对,该基因编辑对包含:
a.根据实施方案76至100中任一项所述的gNA变体,和
b.根据实施方案1至60中任一项所述的CasX变体。
实施方案107:根据实施方案106所述的基因编辑对,其中与包含SEQ ID NO:1、SEQID NO:2、SEQ ID NO:3、SEQ ID NO:270或SEQ ID NO:336的参考CasX蛋白和SEQ ID NO:4、5、2238或2239的参考向导核酸的基因编辑对相比,该CasX变体和该gNA变体的该基因编辑对具有一种或多种改善的特征。
实施方案108:根据实施方案107所述的基因编辑对,其中该一种或多种改善的特征包括改善的CasX:gNA(RNP)复合物稳定性、改善的CasX和gNA之间的结合亲和力、改善的RNP复合物形成动力学、更高百分比的有切割能力的RNP、改善的对靶DNA的RNP结合亲和力、利用增加的PAM序列谱的能力、改善的靶DNA的解旋、增加的编辑活性、改善的编辑效率、改善的编辑特异性、增加的核酸酶活性、增加的双链切割的靶链加载、减少的单链切口的靶链加载、减少的脱靶切割、改善的DNA非靶链的结合或改善的对核酸酶活性的抗性。
实施方案109:根据实施方案107或实施方案108所述的基因编辑对,其中与该参考CasX蛋白和该参考向导核酸的基因编辑配对相比,这些改善的特征中的该至少一者或多者改善了至少约1.1倍至约100倍或更多。
实施方案110:根据实施方案107或108所述的基因编辑对,其中相对于该参考CasX蛋白和该参考向导核酸的基因编辑对,该CasX变体的这些改善的特征中的一者或多者改善了至少约1.1倍、至少约2倍、至少约10倍、或至少约100倍或更多。
实施方案111:根据实施方案107或实施方案108所述的基因编辑对,其中与SEQ IDNO:2和SEQ ID NO:5的参考编辑对相比,该改善的特征包括编辑活性增加到4倍至9倍。
实施方案112:一种组合物,该组合物包含根据实施方案101至111中任一项所述的基因编辑对,该组合物包含:
a.第二基因编辑对,该第二基因编辑对包含根据实施方案1至60中任一项所述的CasX变体;和
b.根据实施方案61至100中任一项所述的第二gNA变体,其中与该第一gNA的该靶向序列相比,该第二gNA变体具有与该靶DNA的不同或重叠部分互补的靶向序列。
实施方案113:根据实施方案101至112中任一项所述的基因编辑对,其中与参考CasX蛋白和参考向导核酸的RNP相比,该CasX变体和该gNA变体的该RNP具有更高百分比的有切割能力的RNP。
实施方案114:根据实施方案101至113中任一项所述的基因编辑对,其中该RNP能够结合并切割靶DNA。
实施方案115:根据实施方案101至112中任一项所述的基因编辑对,其中该RNP能够结合靶DNA但不能切割该靶DNA。
实施方案116:根据实施方案101至112中任一项所述的基因编辑对,其中该RNP能够结合靶DNA并且在该靶DNA中产生一个或多个单链切口。
实施方案117:一种CasX变体,该CasX变体包含SEQ ID NO:4416-4432中任一项所述的氨基酸序列。
实施方案118:一种gNA变体,该gNA变体包含SEQ ID NO:4433-4437中任一项所述的氨基酸序列。
组II
实施方案1:一种参考CasX蛋白的变体(CasX变体),其中:
a.CasX变体在参考CasX蛋白中包含至少一个修饰;并且
b.与参考CasX蛋白相比,CasX变体表现出至少一种改善的特征,任选地其中变体包含选自表3和表8中提供的那些的序列。
实施方案2:根据实施方案1所述的CasX变体,其中该CasX变体的改善的特征选自:该CasX变体的改善的折叠;改善的对向导核酸(gNA)的结合亲和力;改善的对靶DNA的结合亲和力;改善的在靶DNA的编辑中利用更广谱的包括ATC、CTC、GTC或TTC的一种或多种PAM序列的能力;改善的靶DNA的解旋;增加的编辑活性;改善的编辑效率;改善的编辑特异性;增加的核酸酶活性;增加的用于双链切割的靶链加载;减少的用于单链切口的靶链加载;减少的脱靶切割;改善的非靶DNA链的结合;改善的蛋白质稳定性;改善的蛋白质溶解度;改善的蛋白质:gNA复合物(RNP)稳定性;改善的蛋白质:gNA复合物溶解度;改善的蛋白质产量;改善的蛋白质表达;改善的融合特征或其组合。
实施方案3:根据实施方案1或2所述的CasX变体,其中该至少一个修饰包括:
a.在CasX变体的结构域中的至少一个氨基酸取代;
b.在CasX变体的结构域中的至少一个氨基酸缺失;
c.在CasX变体的结构域中的至少一个氨基酸插入;
d.取代来自不同CasX的结构域的全部或一部分;
e.CasX变体的结构域的全部或一部分的缺失;或
f.(a)至(e)的任何组合。
实施方案4:根据实施方案1至3中任一项所述的CasX变体,其中该参考CasX蛋白包含SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的该序列。
实施方案5:根据实施方案1至4中任一项所述的CasX变体,其中该至少一个修饰在选自以下的结构域中:
a.非靶链结合(NTSB)结构域;
b.靶链加载(TSL)结构域;
c.螺旋I结构域;
d.螺旋II结构域;
e.寡核苷酸结合结构域(OBD);或
f.RuvC DNA切割结构域。
实施方案6:根据实施方案5所述的CasX变体,该CasX变体在NTSB结构域中包含至少一个修饰。
实施方案7:根据实施方案5所述的CasX变体,该CasX变体在TSL结构域中包含至少一个修饰。
实施方案8:根据实施方案5所述的CasX变体,该CasX变体在螺旋I结构域中包含至少一个修饰。
实施方案9:根据实施方案5至8中任一项所述的CasX变体,该CasX变体在螺旋II结构域中包含至少一个修饰。
实施方案10:根据实施方案5所述的CasX变体,该CasX变体在OBD结构域中包含至少一个修饰。
实施方案11:根据实施方案5所述的CasX变体,该CasX变体在RuvC DNA切割结构域中包含至少一个修饰。
实施方案根据实施方案5至11中任一项所述的CasX变体,其中该修饰导致编辑该靶DNA的能力增加。
实施方案13:根据实施方案1至12中任一项所述的CasX变体,其中该CasX变体能够与向导核酸(gNA)形成核糖核蛋白复合物(RNP)。
实施方案14:根据实施方案1至13中任一项所述的CasX变体,其中该至少一个修饰包括:
a.CasX变体中1至100个连续或非连续氨基酸的取代;
b.CasX变体中1至100个连续或非连续氨基酸的缺失;
c.CasX中1至100个连续或非连续氨基酸的插入;或
d.(a)至(c)的任何组合。
实施方案15:根据实施方案14所述的CasX变体,其中该至少一个修饰包括:
a.CasX变体中5至10个连续或非连续氨基酸的取代;
b.CasX变体中1至5个连续或非连续氨基酸的缺失;
c.CasX中1至5个连续或非连续氨基酸的插入;或
d.(a)至(c)的任何组合。
实施方案16:根据实施方案1至15中任一项所述的CasX变体,其中该CasX变体在一个结构域中包含两个或更多个修饰。
实施方案17:根据实施方案1至16中任一项所述的CasX变体,其中该CasX变体在两个或更多个结构域中包含修饰。
实施方案18:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含该CasX变体的非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基形成其中发生gNA:靶DNA与该CasX变体复合的通道。
实施方案19:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含该CasX变体的非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基形成与gNA结合的界面。
实施方案20:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含该CasX变体的非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基形成与该非靶链DNA结合的通道。
实施方案21:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含该CasX变体的非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基形成与该靶DNA的原间隔序列相邻基序(PAM)结合的界面。
实施方案22:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含该CasX变体的非邻接表面暴露氨基酸残基区域的至少一个修饰。
实施方案23:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基通过疏水堆积在该CasX变体的结构域中形成核心。
实施方案24:根据实施方案18至23中任一项所述的CasX变体,其中该修饰是该区域的一个或多个氨基酸的缺失、插入或取代中的一者或多者。
实施方案25:根据实施方案18至23中任一项所述的CasX变体,其中该CasX变体的该区域的2至15个氨基酸残基被带电荷的氨基酸取代。
实施方案26:根据实施方案18至23中任一项所述的CasX变体,其中该CasX变体的该区域的2至15个氨基酸残基被极性氨基酸取代。
实施方案27:根据实施方案18至23中任一项所述的CasX变体,其中该CasX变体的该区域的2至15个氨基酸残基被与DNA或RNA碱基堆叠的氨基酸取代。
实施方案28:根据实施方案1至5中任一项所述的CasX变体,其中该CasX变体具有序列,该序列选自表3的序列、或与其具有至少约50%、至少约60%、至少约70%、至少约80%、至少约90%、或至少约95%、或至少约96%、或至少约97%、或至少约98%、或至少约99%序列同一性的序列。
实施方案29:根据实施方案1至5中任一项所述的CasX变体,该CasX变体进一步包含来自不同CasX的NTSB和/或螺旋1b结构域的取代。
实施方案30:根据实施方案29所述的CasX变体,其中所取代的NTSB和/或该螺旋1b结构域来自SEQ ID NO:1的参考CasX。
实施方案31:根据实施方案1至30中任一项所述的CasX变体,其还包含一个或多个核定位信号(NLS)。
实施方案32:根据实施方案31所述的CasX变体,其中该一个或多个NLS选自由PKKKRKV(SEQ ID NO:352)、KRPAATKKAGQAKKKK(SEQ ID NO:353)、PAAKRVKLD(SEQ ID NO:354)、RQRRNELKRSP(SEQ ID NO:355)、NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ IDNO:356)、RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:357)、VSRKRPRP(SEQ ID NO:358)、PPKKARED(SEQ ID NO:35()、PQPKKKPL(SEQ ID NO:360)、SALIKKKKKMAP(SEQ ID NO:361)、DRLRR(SEQ ID NO:362)、PKQKKRK(SEQ ID NO:363)、RKLKKKIKKL(SEQ IDNO:364)、REKKKFLKRR(SEQ ID NO:365)、KRKGDEVDGVDEVAKKKSKK(SEQ ID NO:366)、RKCLQAGMNLEARKTKK(SEQ ID NO:367)、PRPRKIPR(SEQ ID NO:368)、PPRKKRTVV(SEQ ID NO:369)、NLSKKKKRKREK(SEQ ID NO:370)、RRPSRPFRKP(SEQ ID NO:371)、KRPRSPSS(SEQ IDNO:372)、KRGINDRNFWRGENERKTR(SEQ ID NO:373)、PRPPKMARYDN(SEQ ID NO:374)、KRSFSKAF(SEQ ID NO:375)、KLKIKRPVK(SEQ ID NO:376)、PKKKRKVPPPPAAKRVKLD(SEQ IDNO:377)、PKTRRRPRRSQRKRPPT(SEQ ID NO:378)、SRRRKANPTKLSENAKKLAKEVEN(SEQ ID NO:379)、KTRRRPRRSQRKRPPT(SEQ ID NO:380)、RRKKRRPRRKKRR(SEQ ID NO:381)、PKKKSRKPKKKSRK(SEQ ID NO:382)、HKKKHPDASVNFSEFSK(SEQ ID NO:383)、QRPGPYDRPQRPGPYDRP(SEQ ID NO:384)、LSPSLSPLLSPSLSPL(SEQ ID NO:385)、RGKGGKGLGKGGAKRHRK(SEQ ID NO:386)、PKRGRGRPKRGRGR(SEQ ID NO:387)、PKKKRKVPPPPKKKRKV(SEQ ID NO:389)、PAKRARRGYKC(SEQ ID NO:4599)、KLGPRKATGRW(SEQID NO:4600)、PRRKREE(SEQ ID NO:4601)、PYRGRKE(SEQ ID NO:4602)、PLRKRPRR(SEQ IDNO:4603)、PLRKRPRRGSPLRKRPRR(SEQ ID NO:4604)、PAAKRVKLDGGKRTADGSEFESPKKKRKV(SEQID NO:4605)、PAAKRVKLDGGKRTADGSEFESPKKKRKVGIHGVPAA(SEQ ID NO:4606)、PAAKRVKLDGGKRTADGSEFESPKKKRKVAEAAAKEAAAKEAAAKA(SEQ ID NO:4607)、PAAKRVKLDGGKRTADGSEFESPKKKRKVPG(SEQ ID NO:4608)、KRKGSPERGERKRHW(SEQ ID NO:4609)、KRTADSQHSTPPKTKRKVEFEPKKKRKV(SEQ ID NO:4610)和PKKKRKVGGSKRTADSQHSTPPKTKRKVEFEPKKKRKV(SEQ ID NO:4611)组成的序列。
实施方案33:根据实施方案31或实施方案32所述的CasX变体,其中该一个或多个NLS被定位在该CasX蛋白的C末端处或其附近。
实施方案34:根据实施方案31或实施方案32所述的CasX变体,其中该一个或多个NLS被定位在该CasX蛋白的N末端处或其附近。
实施方案35:根据实施方案31或实施方案32所述的CasX变体,其包含至少两个NLS,其中该至少两个NLS被定位在CasX蛋白的N末端处或附近以及C末端处或附近。
实施方案36:根据实施方案2至35中任一项所述的CasX变体,其中与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的该参考CasX蛋白相比,该CasX变体的这些改善的特征中的一者或多者改善了至少约1.1倍至约100倍或更多。
实施方案37:根据实施方案2至35所述的CasX变体,其中与SEQ ID NO:1、SEQ IDNO:2、SEQ ID NO:3、SEQ ID NO:270或SEQ ID NO:336的该CasX蛋白相比,该CasX变体的这些改善的特征中的一者或多者改善了至少约1.1倍、至少约2倍、至少约10倍、至少约100倍或更多。
实施方案38:根据实施方案2至37中任一项所述的CasX变体,其中该改善的特征包括编辑效率,并且与SEQ ID NO:270或SEQ ID NO:336的该CasX蛋白相比,该CasX变体包括1.1倍至100倍的编辑效率改善。
实施方案39:根据实施方案1至38中任一项所述的CasX变体,其中当这些PAM序列TTC、ATC、GTC或CTC中的任一者位于与细胞测定系统中该gNA的该靶向序列具有同一性的该原间隔序列的该非靶链的5'端1个核苷酸处时,与在可比较的测定系统中对包含参考CasX蛋白RNP的该编辑效率和/或结合相比,包含该CasX变体的该RNP表现出对该靶DNA中的靶序列更高的编辑效率和/或结合。
实施方案40:根据实施方案39所述的CasX变体,其中该PAM序列是TTC。
实施方案41:根据实施方案39所述的CasX变体,其中该PAM序列是ATC。
实施方案42:根据实施方案39所述的CasX变体,其中该PAM序列是CTC。
实施方案43:根据实施方案39所述的CasX变体,其中该PAM序列是GTC。
实施方案44:根据实施方案39中任一项所述的CasX变体,其中与包含该参考CasX的该RNP相比,包含该CasX变体的该RNP的该改善的编辑效率和/或与该靶DNA的结合改善了至少约1.1倍至约100倍。
实施方案45:根据实施方案1至44中任一项所述的CasX变体,其中该CasX变体包含400至2000个氨基酸。
实施方案46:根据实施方案1至45中任一项所述的CasX变体,其中该CasX变体蛋白包含具有切口酶活性的核酸酶结构域。
实施方案47:根据实施方案1至45中任一项所述的CasX变体,其中该CasX变体蛋白包含具有双链切割活性的核酸酶结构域。
实施方案48:根据实施方案1至45中任一项所述的CasX变体,其中该CasX蛋白是无催化活性的CasX(dCasX)蛋白,并且其中该dCasX和该gNA保留与该靶DNA结合的能力。
实施方案49:根据实施方案48所述的CasX变体,其中该dCasX在以下残基处包含突变:
a.对应于SEQ ID NO:1的该CasX蛋白的D672、和/或E769、和/或D935;或者
b.对应于SEQ ID NO:2的该CasX蛋白的D659、和/或E756、和/或D922。
实施方案50:根据实施方案49所述的CasX变体,其中该突变是用丙氨酸取代该残基。
实施方案51:根据实施方案1至50中任一项所述的CasX变体,其中该CasX变体包含来自第一CasX蛋白的第一结构域和来自不同于该第一CasX蛋白的第二CasX蛋白的第二结构域。
实施方案52:根据实施方案51所述的CasX变体,其中第一结构域选自NTSB结构域、TSL结构域、螺旋I结构域、螺旋II结构域、OBD结构域和RuvC结构域。
实施方案53:根据实施方案51所述的CasX变体,其中该第二结构域选自NTSB结构域、TSL结构域、螺旋I结构域、螺旋II结构域、OBD结构域和RuvC结构域。
实施方案54:根据实施方案51至53中任一项所述的CasX变体,其中该第一结构域和第二结构域不是相同的结构域。
实施方案55:根据实施方案1至50中任一项所述的CasX变体,其中该CasX变体包含至少一个嵌合结构域,该至少一个嵌合结构域包含来自第一CasX蛋白的第一部分和来自不同于该第一CasX蛋白的第二CasX蛋白的第二部分。
实施方案56:根据实施方案55所述的CasX变体,其中该至少一个嵌合结构域选自NTSB结构域、TSL结构域、螺旋I结构域、螺旋II结构域、OBD结构域和RuvC结构域。
实施方案57:根据实施方案56所述的CasX变体,其中该至少一个嵌合结构域包含嵌合RuvC结构域。
实施方案58:根据实施方案1至57中任一项所述的CasX变体,该CasX变体包含与该CasX融合的异源蛋白或其结构域。
实施方案59:根据实施方案58所述的CasX变体,其中该异源蛋白或其结构域是碱基编辑器。
实施方案60:根据实施方案59所述的CasX变体,其中该碱基编辑器是腺苷脱氨酶、胞嘧啶脱氨酶或鸟嘌呤氧化酶。
实施方案61:一种能够结合参考CasX蛋白或CasX变体的参考向导核酸支架的变体(gNA变体),其中:
a.与该参考向导核酸支架序列相比,gNA变体包含至少一个修饰;并且
b.与该参考向导核酸支架相比,该gNA变体表现出一种或多种改善的特征。
实施方案62:根据实施方案61所述的gNA变体,其中该一种或多种改善的特征选自:改善的稳定性;改善的溶解度;改善的gNA的转录;改善的对核酸酶活性的抗性;增加的gNA折叠速率;减少的折叠期间副产物的形成;增加的生产性折叠;改善的对CasX蛋白的结合亲和力;当与CasX蛋白复合时,改善的对靶DNA的结合亲和力;当与该CasX蛋白复合时,改善的基因编辑;当与该CasX蛋白复合时,改善的编辑特异性;以及当与该CasX蛋白复合时,在靶DNA的编辑中利用更广谱的一种或多种PAM序列(包括ATC、CTC、GTC或TTC)的改善能力。
实施方案63:根据实施方案61或62所述的gNA变体,其中该参考向导物支架包含选自SEQ ID NO:4-16的这些序列的序列。
实施方案64:根据实施方案61至63中任一项所述的gNA变体,其中该至少一个修饰包括:
a.gNA变体的区域中的至少一个核苷酸取代;
b.gNA变体的区域中的至少一个核苷酸缺失;
c.gNA变体的区域中的至少一个核苷酸插入;
d.gNA变体的区域的全部或一部分的取代;
e.gNA变体的区域的全部或一部分的缺失;或
f.(a)至(e)的任何组合。
实施方案65:根据实施方案64所述的gNA变体,其中该gNA变体的该区域选自延伸茎环、支架茎环、三链体和假结。
实施方案66:根据实施方案65所述的gNA变体,其中该支架茎还包含泡。
实施方案67:根据实施方案65或实施方案66所述的gNA变体,其中该支架还包含三链体环区域。
实施方案68:根据实施方案65至67中任一项所述的gNA变体,其中该支架还包含5'非结构化区域。
实施方案69:根据实施方案64至68中任一项所述的gNA变体,其中该至少一个修饰包括:
a.在gNA变体的一个或多个区域中1至15个连续或非连续核苷酸的缺失;
b.在gNA变体的一个或多个区域中1至10个连续或非连续核苷酸的缺失;
c.在gNA变体的一个或多个区域中1至10个连续或非连续核苷酸的插入;
d.用RNA茎环序列对支架茎环或延伸茎环的取代,该RNA茎环序列来自具有近端5'末端和3'末端的异源RNA来源;或
e.(a)至(d)的任何组合。
实施方案70:根据实施方案61至69中任一项所述的gNA变体,该gNA变体包含延伸茎环区域,该延伸茎环区域包含至少10个、至少100个、至少500个、至少1000个或至少10,000个核苷酸。
实施方案71:根据实施方案69所述的gNA变体,其中该异源RNA茎环序列增加了该gNA的稳定性。
实施方案72:根据实施方案71所述的gNA变体,其中该异源RNA茎环能够结合蛋白质、RNA结构、DNA序列或小分子。
实施方案73:根据实施方案71或实施方案72所述的gNA变体,其中该异源RNA茎环序列选自MS2、Qβ、U1发夹II、Uvsx或PP7茎环。
实施方案74:根据实施方案61至73中任一项所述的gNA变体,该gNA变体在一个区域中包含两个或更多个修饰。
实施方案75:根据实施方案61至74中任一项所述的gNA变体,其中该gNA变体在两个或更多个区域中包含修饰。
实施方案76:根据实施方案61至75中任一项所述的gNA变体,其中该gNA变体还包含靶向序列,其中该靶向序列与该靶DNA序列互补。
实施方案77:根据实施方案76所述的gNA变体,其中该靶向序列具有14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个核苷酸。
实施方案78:根据实施方案76或实施方案77中任一项所述的gNA变体,其中该靶向序列具有20个核苷酸。
实施方案79:根据实施方案76至78中任一项所述的gNA变体,其中该gNA是包含与靶向序列连接的支架序列的单向导gNA。
实施方案80:根据实施方案61至79中任一项所述的gNA变体,其中与SEQ ID NO:4或SEQ ID NO:5的参考gNA相比,该CasX变体的这些改善的特征中的一者或多者改善了至少约1.1倍至约100倍或更多。
实施方案81:根据实施方案61至79中任一项所述的gNA变体,其中与SEQ ID NO:4的该参考gNA、SEQ ID NO:5的参考gNA、变体支架SEQ ID NO:2238或变体支架SEQ ID NO:2239相比,该gNA变体的这些改善的特征中的一者或多者改善了至少约1.1倍、至少约2倍、至少约10倍或至少约100倍或更多。
实施方案82:根据实施方案61至81中任一项所述的gNA变体,该gNA变体包含与SEQID NO:4或SEQ ID NO:5具有至少60%序列同一性的支架区域,不包括延伸茎区域。
实施方案83:根据实施方案61至81中任一项所述的gNA变体,该gNA变体包含与SEQID NO:14具有至少60%序列同一性的支架茎环。
实施方案84:根据实施方案61至81中任一项所述的gNA变体,其中该gNA变体序列的该支架与SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:2238或SEQ ID NO:2239的该序列具有至少20%、至少30%、至少40%、至少50%、至少60%、或至少70%、至少80%、至少85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。
实施方案85:根据实施方案61至81中任一项所述的gNA变体,该gNA变体序列的该支架包含选自SEQ ID NO:2101-2280和4433-4446的序列,或与其具有至少约80%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。
实施方案86:根据实施方案85所述的gNA变体,其中该gNA变体序列的该支架由选自SEQ ID NO:2101-2280或4433-4446的序列的序列组成。
实施方案87:根据实施方案61至86中任一项所述的gNA变体,该gNA变体还包含一种或多种核酶。
实施方案88:根据实施方案87所述的gNA变体,其中该一种或多种核酶独立地与该gNA变体的末端融合。
实施方案89:根据实施方案87或实施方案88所述的gNA变体,其中该一种或多种核酶中的至少一者是丁型肝炎病毒(HDV)核酶、锤头核酶、手枪式核酶、弯刀核酶或烟草环斑病毒(TRSV)核酶。
实施方案90:根据实施方案61至89中任一项所述的gNA变体,该gNA变体还包含蛋白结合基序。
实施方案91:根据实施方案61至90中任一项所述的gNA变体,该gNA变体还包含热稳定茎环。
实施方案92:根据实施方案61至91中任一项所述的gNA变体,其中该gNA被化学修饰。
实施方案93:根据实施方案61至92中任一项所述的gNA变体,其中该gNA包含来自第一gNA的第一区域和来自不同于该第一gNA的第二gNA的第二区域。
实施方案94:根据实施方案93所述的gNA变体,其中该第一区域选自三链体区域、支架茎环和延伸茎环。
实施方案95:根据实施方案93或实施方案94所述的gNA变体,其中该第二区域选自三链体区域、支架茎环和延伸茎环。
实施方案96:根据实施方案93至95中任一项所述的gNA变体,其中该第一区域和第二区域不是相同的区域。
实施方案97:根据实施方案93至95中任一项所述的gNA变体,其中该第一gNA包含SEQ ID NO:4的序列且该第二gNA包含SEQ ID NO:5的序列。
实施方案98:根据实施方案61至97中任一项所述的gNA变体,该gNA变体包含至少一个嵌合区域,该至少一个嵌合区域包含来自第一gNA的第一部分和来自第二gNA的第二部分。
实施方案99:根据实施方案98所述的gNA变体,其中该至少一个嵌合区域选自三链体区域、支架茎环和延伸茎环。
实施方案100:根据实施方案61所述的gNA变体,该gNA变体包含SEQ ID NO:2101-2280或4433-4446中任一者中任一者的该序列。
实施方案101:一种基因编辑对,该基因编辑对包含CasX蛋白和第一gNA。
实施方案102:根据实施方案101所述的基因编辑对,其中CasX和gNA能够在核糖核蛋白复合物(RNP)中缔合在一起。
实施方案103:根据实施方案101所述的基因编辑对,其中该CasX和该gNA在核糖核蛋白复合物(RNP)中缔合在一起。
实施方案104:根据实施方案101至103中任一项所述的基因编辑对,其中该第一gNA包含根据实施方案76至100中任一项所述的gNA变体、靶向序列,其中该靶向序列与该靶DNA互补。
实施方案105:根据实施方案101至104中任一项所述的基因编辑对,其中该CasX包含根据实施方案1至60中任一项所述的CasX变体。
实施方案106:根据实施方案101至105中任一项所述的基因编辑对,该基因编辑对包含:
a.根据实施方案76至100中任一项所述的gNA变体,和
b..根据实施方案1至60中任一项所述的CasX变体。
实施方案107:根据实施方案106所述的基因编辑对,其中与包含SEQ ID NO:1、SEQID NO:2或SEQ ID NO:3的参考CasX蛋白和SEQ ID NO:4或5的参考向导核酸的基因编辑对相比,该CasX变体和该gNA变体的该基因编辑对具有一种或多种改善的特征。
实施方案108:根据实施方案107所述的基因编辑对,其中该一种或多种改善的特征包括改善的CasX:gNA(RNP)复合物稳定性、改善的CasX和gNA之间的结合亲和力、改善的RNP复合物形成动力学、更高百分比的有切割能力的RNP、改善的对靶DNA的RNP结合亲和力、利用增加的PAM序列谱的能力、改善的靶DNA的解旋、增加的编辑活性、改善的编辑效率、改善的编辑特异性、增加的核酸酶活性、增加的双链切割的靶链加载、减少的单链切口的靶链加载、减少的脱靶切割、改善的DNA非靶链的结合或改善的对核酸酶活性的抗性。
实施方案109:根据实施方案107或实施方案108所述的基因编辑对,其中与该参考CasX蛋白和该参考向导核酸的基因编辑配对相比,这些改善的特征中的该至少一者或多者改善了至少约1.1倍至约100倍或更多。
实施方案110:根据实施方案107或108所述的基因编辑对,其中相对于该参考CasX蛋白和该参考向导核酸的基因编辑对,该CasX变体的这些改善的特征中的一者或多者改善了至少约1.1倍、至少约2倍、至少约10倍、或至少约100倍或更多。
实施方案111:根据实施方案107或实施方案108所述的基因编辑对,其中与SEQ IDNO:2和SEQ ID NO:5的参考编辑对相比,该改善的特征包括编辑活性增加到4倍至9倍。
实施方案112:一种组合物,该组合物包含根据实施方案101至111中任一项所述的基因编辑对,该组合物包含:
a.第二基因编辑对,该第二基因编辑对包含根据实施方案1至60中任一项所述的CasX变体;和
b.根据实施方案61至100中任一项所述的第二gNA变体,其中与该第一gNA的该靶向序列相比,该第二gNA变体具有与该靶DNA的不同或重叠部分互补的靶向序列。
实施方案113:根据实施方案101至112中任一项所述的基因编辑对,其中与参考CasX蛋白和参考向导核酸的RNP相比,该CasX变体和该gNA变体的RNP具有更高百分比的有切割能力的RNP。
实施方案114:根据实施方案101至113中任一项所述的基因编辑对,其中该RNP能够结合并切割靶DNA。
实施方案115:根据实施方案101至112中任一项所述的基因编辑对,其中该RNP能够结合靶DNA但不能切割该靶DNA。
实施方案116:根据实施方案101至112中任一项所述的基因编辑对,其中该RNP能够结合靶DNA并且在该靶DNA中产生一个或多个单链切口。
实施方案117:一种CasX变体,该CasX变体包含SEQ ID NO:4416-4432或4597-4598中任一项所述的氨基酸序列。
实施方案118:一种gNA变体,该gNA变体包含SEQ ID NO:4433-4446中任一项所述的氨基酸序列。
组III
实施方案1:一种参考CasX蛋白的变体(CasX变体),其中:
a.CasX变体在参考CasX蛋白中包含至少一个修饰;并且
b.与该参考CasX蛋白相比,该CasX变体表现出至少一种改善的特征,
任选地其中该变体包含选自SEQ ID NO:89-101、247-337、411-592和760-982的序列。
实施方案2:根据实施方案1所述的CasX变体,其中该CasX变体的该改善的特征选自:该CasX变体的改善的折叠;改善的对向导核酸(gNA)的结合亲和力;改善的对靶核酸的结合亲和力;改善的在靶核酸的编辑中利用更广谱的包括ATC、CTC、GTC或TTC的一种或多种PAM序列的能力;改善的靶核酸的解旋;增加的编辑活性;改善的编辑效率;改善的编辑特异性;增加的核酸酶活性;增加的用于双链切割的靶链加载;减少的用于单链切口的靶链加载;减少的脱靶切割;改善的非靶核酸链的结合;改善的蛋白质稳定性;改善的蛋白质溶解度;改善的蛋白质:gNA复合物(RNP)稳定性;改善的蛋白质:gNA复合物溶解度;改善的蛋白质产量;改善的蛋白质表达;改善的融合特征或其组合。
实施方案3:根据实施方案1或2所述的CasX变体,其中该至少一个修饰包括:
a.在CasX变体的结构域中的至少一个氨基酸取代;
b.在CasX变体的结构域中的至少一个氨基酸缺失;
c.在CasX变体的结构域中的至少一个氨基酸插入;
d.取代来自不同CasX的结构域的全部或一部分;
e.CasX变体的结构域的全部或一部分的缺失;或
f.(a)至(e)的任何组合。
实施方案4:根据实施方案1至3中任一项所述的CasX变体,其中该参考CasX蛋白包含SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的序列。
实施方案5:根据实施方案1至4中任一项所述的CasX变体,其中该至少一个修饰在选自以下的结构域中:
a.非靶链结合(NTSB)结构域;
b.靶链加载(TSL)结构域;
c.螺旋I结构域;
d.螺旋II结构域;
e.寡核苷酸结合结构域(OBD);或
f.RuvC DNA切割结构域。
实施方案6:根据实施方案5所述的CasX变体,该CasX变体在NTSB结构域中包含至少一个修饰。
实施方案7:根据实施方案5所述的CasX变体,该CasX变体在TSL结构域中包含至少一个修饰。
实施方案8:根据实施方案5所述的CasX变体,该CasX变体在螺旋I结构域中包含至少一个修饰。
实施方案9:根据实施方案5至8中任一项所述的CasX变体,该CasX变体在螺旋II结构域中包含至少一个修饰。
实施方案10:根据实施方案5所述的CasX变体,该CasX变体在OBD结构域中包含至少一个修饰。
实施方案11:根据实施方案5所述的CasX变体,该CasX变体在RuvC DNA切割结构域中包含至少一个修饰。
实施方案12:根据实施方案5至11中任一项所述的CasX变体,其中该修饰导致编辑该靶核酸的能力增加。
实施方案13:根据实施方案1至12中任一项所述的CasX变体,其中该CasX变体能够与向导核酸(gNA)形成核糖核蛋白复合物(RNP)。
实施方案14:根据实施方案1至13中任一项所述的CasX变体,其中该至少一个修饰包括:
a.CasX变体中1至100个连续或非连续氨基酸的取代;
b.CasX变体中1至100个连续或非连续氨基酸的缺失;
c.CasX中1至100个连续或非连续氨基酸的插入;或
d.(a)至(c)的任何组合。
实施方案15:根据实施方案14所述的CasX变体,其中该至少一个修饰包括:
a.CasX变体中5至10个连续或非连续氨基酸的取代;
b.CasX变体中1至5个连续或非连续氨基酸的缺失;
c.CasX中1至5个连续或非连续氨基酸的插入;或
d.(a)至(c)的任何组合。
实施方案16:根据实施方案1至15中任一项所述的CasX变体,其中该CasX变体在一个结构域中包含两个或更多个修饰。
实施方案17:根据实施方案1至16中任一项所述的CasX变体,其中该CasX变体在两个或更多个结构域中包含修饰。
实施方案18:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含该CasX变体的非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基形成其中发生gNA:靶核酸与该CasX变体复合的通道。
实施方案19:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含该CasX变体的非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基形成与gNA结合的界面。
实施方案20:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含该CasX变体的非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基形成与该非靶链DNA结合的通道。
实施方案21:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含该CasX变体的非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基形成与该靶核酸的原间隔序列相邻基序(PAM)结合的界面。
实施方案22:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含该CasX变体的非邻接表面暴露氨基酸残基区域的至少一个修饰。
实施方案23:根据实施方案1至15中任一项所述的CasX变体,该CasX变体包含非邻接氨基酸残基区域的至少一个修饰,这些非邻接氨基酸残基通过疏水堆积在该CasX变体的结构域中形成核心。
实施方案24:根据实施方案18至23中任一项所述的CasX变体,其中该修饰是该区域的一个或多个氨基酸的缺失、插入或取代中的一者或多者。
实施方案25:根据实施方案18至23中任一项所述的CasX变体,其中该CasX变体区域的2至15个氨基酸残基被带电荷的氨基酸取代。
实施方案26:根据实施方案18至23中任一项所述的CasX变体,其中该CasX变体的区域的2至15个氨基酸残基被极性氨基酸取代。
实施方案27:根据实施方案18至23中任一项所述的CasX变体,其中该CasX变体的区域的2至15个氨基酸残基被与DNA或RNA碱基堆叠的氨基酸取代。
实施方案28:根据实施方案1至5中任一项所述的CasX变体,该CasX变体还包含来自不同CasX的NTSB和/或螺旋1b结构域的取代。
实施方案29:根据实施方案28所述的CasX变体,其中取代的NTSB和/或螺旋1b结构域来自SEQ ID NO:1的参考CasX。
实施方案30:根据实施方案1至29中任一项所述的CasX变体,其中该CasX变体具有选自SEQ ID NO:89-101、247-337、411-592和760-982的序列、或与其具有至少约50%、至少约60%、至少约70%、至少约80%、至少约90%、或至少约95%、或至少约96%、或至少约97%、或至少约98%、或至少约99%序列同一性的序列。
实施方案31:根据实施方案1至30中任一项所述的CasX变体,该CasX变体还包含一个或多个核定位信号(NLS)。
实施方案32:根据实施方案31所述的CasX变体,其中该一个或多个NLS选自由以下组成的序列:PKKKRKV(SEQ ID NO:352)、KRPAATKKAGQAKKKK(SEQ ID NO:353)、PAAKRVKLD(SEQ ID NO:354)、RQRRNELKRSP(SEQ ID NO:355)、NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:356)、RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:357)、VSRKRPRP(SEQ ID NO:358)、PPKKARED(SEQ ID NO:359)、PQPKKKPL(SEQ ID NO:360)、SALIKKKKKMAP(SEQ ID NO:361)、DRLRR(SEQ ID NO:362)、PKQKKRK(SEQ ID NO:363)、RKLKKKIKKL(SEQ ID NO:364)、REKKKFLKRR(SEQ ID NO:365)、KRKGDEVDGVDEVAKKKSKK(SEQID NO:366)、RKCLQAGMNLEARKTKK(SEQ ID NO:367)、PRPRKIPR(SEQ ID NO:368)、PPRKKRTVV(SEQ ID NO:369)、NLSKKKKRKREK(SEQ ID NO:370)、RRPSRPFRKP(SEQ ID NO:371)、KRPRSPSS(SEQ ID NO:372)、KRGINDRNFWRGENERKTR(SEQ ID NO:373)、PRPPKMARYDN(SEQ IDNO:374)、KRSFSKAF(SEQ ID NO:375)、KLKIKRPVK(SEQ ID NO:376)、PKKKRKVPPPPAAKRVKLD(SEQ ID NO:377)、PKTRRRPRRSQRKRPPT(SEQ ID NO:378)、SRRRKANPTKLSENAKKLAKEVEN(SEQID NO:379)、KTRRRPRRSQRKRPPT(SEQ ID NO:380)、RRKKRRPRRKKRR(SEQ ID NO:381)、PKKKSRKPKKKSRK(SEQ ID NO:382)、HKKKHPDASVNFSEFSK(SEQ ID NO:383)、QRPGPYDRPQRPGPYDRP(SEQ ID NO:384)、LSPSLSPLLSPSLSPL(SEQ ID NO:385)、RGKGGKGLGKGGAKRHRK(SEQ ID NO:386)、PKRGRGRPKRGRGR(SEQ ID NO:387)、PKKKRKVPPPPKKKRKV(SEQ ID NO:389)、PAKRARRGYKC(SEQ ID NO:63)、KLGPRKATGRW(SEQ IDNO:64)、PRRKREE(SEQ ID NO:65)、PYRGRKE(SEQ ID NO:66)、PLRKRPRR(SEQ ID NO:67)、PLRKRPRRGSPLRKRPRR(SEQ ID NO:68)、PAAKRVKLDGGKRTADGSEFESPKKKRKV(SEQ ID NO:69)、PAAKRVKLDGGKRTADGSEFESPKKKRKVGIHGVPAA(SEQ ID NO:70)、PAAKRVKLDGGKRTADGSEFESPKKKRKVAEAAAKEAAAKEAAAKA(SEQ ID NO:71)、PAAKRVKLDGGKRTADGSEFESPKKKRKVPG(SEQ IDNO:72)、KRKGSPERGERKRHW(SEQ ID NO:73)、KRTADSQHSTPPKTKRKVEFEPKKKRKV(SEQ ID NO:74)和PKKKRKVGGSKRTADSQHSTPPKTKRKVEFEPKKKRKV(SEQ ID NO:75),并且任选地该一个或多个NLS连接到该CasX变体或具有接头肽的相邻NLS,其中该接头肽选自(G)n(SEQ ID NO:1023)、(GS)n(SEQ ID NO:1024)、(GSGGS)n(SEQ ID NO:399)、(GGSGGS)n(SEQ ID NO:400)、(GGGS)n(SEQ ID NO:401)、GGSG(SEQ ID NO:402)、GGSGG(SEQ ID NO:403)、GSGSG(SEQ IDNO:404)、GSGGG(SEQ ID NO:405)、GGGSG(SEQ ID NO:406)、GSSSG(SEQ ID NO:407)、GPGP(SEQ ID NO:408)、GGP、PPP、PPAPPA(SEQ ID NO:409)、PPPG(SEQ ID NO:24)、PPPGPPP(SEQID NO:410)、PPP(GGGS)n(SEQ ID NO:25)、(GGGS)nPPP(SEQ ID NO:26)、AEAAAKEAAAKEAAAKA(SEQ ID NO:1025)和TPPKTKRKVEFE(SEQ ID NO:27),其中n为1至5。
实施方案33:根据实施方案31或实施方案32所述的CasX变体,其中该一个或多个NLS被定位在该CasX蛋白的该C末端处或其附近。
实施方案34:根据实施方案31或实施方案32所述的CasX变体,其中该一个或多个NLS被定位在该CasX蛋白的该N末端处或其附近。
实施方案35:根据实施方案31或实施方案32所述的CasX变体,其包含至少两个NLS,其中该至少两个NLS被定位在CasX蛋白的N末端处或附近以及C末端处或附近。
实施方案36:根据实施方案2至35中任一项所述的CasX变体,其中当在可比较条件下在体外测定中比较时,与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的该参考CasX蛋白相比,该CasX变体的这些改善的特征中的一种或多种改善了至少约1.1倍至约100倍或更多。
实施方案37:根据实施方案2至35所述的CasX变体,其中当在可比较条件下在体外测定中比较时,与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:270或SEQ ID NO:336的该CasX蛋白相比,该CasX变体的这些改善的特征中的一者或多者改善了至少约1.1倍、至少约2倍、至少约10倍、至少约100倍或更多。
实施方案38:根据实施方案2至37中任一项所述的CasX变体,其中该改善的特征包括编辑效率,并且当在可比较条件下在体外测定中比较时,与SEQ ID NO:270或SEQ ID NO:336的该CasX蛋白相比,该CasX变体包括1.1倍至100倍的该靶核酸的编辑效率改善。
实施方案39:根据实施方案1至38中任一项所述的CasX变体,其中当这些PAM序列TTC、ATC、GTC或CTC中的任一者位于与体外细胞测定系统中该gNA的该靶向序列具有同一性的该原间隔序列的该非靶链的5'端1个核苷酸处时,与在可比较的测定系统中对包含参考CasX蛋白RNP的该编辑效率和/或结合相比,包含该CasX变体的RNP表现出对该靶核酸中的序列更高的编辑效率和/或结合。
实施方案40:根据实施方案39所述的CasX变体,其中该PAM序列是TTC。
实施方案41:根据实施方案39所述的CasX变体,其中该PAM序列是ATC。
实施方案42:根据实施方案39所述的CasX变体,其中该PAM序列是CTC。
实施方案43:根据实施方案39所述的CasX变体,其中该PAM序列是GTC。
实施方案44:根据实施方案39至43中任一项所述的CasX变体,其中与包含该参考CasX的该RNP相比,包含该CasX变体的该RNP的该改善的编辑效率和/或与通过该RNP的该靶核酸的结合改善了至少约1.1倍至约100倍。
实施方案45:根据实施方案1至44中任一项所述的CasX变体,其中该CasX变体包含400至2000个氨基酸。
实施方案46:根据实施方案1至45中任一项所述的CasX变体,其中该CasX变体蛋白包含具有切口酶活性的核酸酶结构域。
实施方案47:根据实施方案1至45中任一项所述的CasX变体,其中该CasX变体蛋白包含具有双链切割活性的核酸酶结构域。
实施方案48:根据实施方案1至37中任一项所述的CasX变体,其中该CasX蛋白是无催化活性的CasX(dCasX)蛋白,并且其中该dCasX和该gNA保留与该靶核酸结合的能力,并且任选地其中该dCasX蛋白包含SEQ ID NO:44-62的序列。
实施方案49:根据实施方案48所述的CasX变体,其中该dCasX在以下残基处包含突变:
a.对应于SEQ ID NO:1的该CasX蛋白的D672、和/或E769、和/或D935;或者
b.对应于SEQ ID NO:2的该CasX蛋白的D659、和/或E756、和/或D922。
实施方案50:根据实施方案49所述的CasX变体,其中该突变是用丙氨酸取代该残基。
实施方案51:根据实施方案1至50中任一项所述的CasX变体,其中该CasX变体包含来自第一CasX蛋白的第一结构域和来自不同于该第一CasX蛋白的第二CasX蛋白的第二结构域。
实施方案52:根据实施方案51所述的CasX变体,其中该第一结构域选自NTSB结构域、TSL结构域、螺旋I结构域、螺旋II结构域、OBD结构域和RuvC结构域。
实施方案53:根据实施方案51所述的CasX变体,其中该第二结构域选自NTSB结构域、TSL结构域、螺旋I结构域、螺旋II结构域、OBD结构域和RuvC结构域。
实施方案54:根据实施方案51至53中任一项所述的CasX变体,其中该第一结构域和第二结构域不是相同的结构域。
实施方案55:根据实施方案1至50中任一项所述的CasX变体,其中该CasX变体包含至少一个嵌合结构域,该至少一个嵌合结构域包含来自第一CasX蛋白的第一部分和来自不同于该第一CasX蛋白的第二CasX蛋白的第二部分。
实施方案56:根据实施方案55所述的CasX变体,其中该至少一个嵌合结构域选自NTSB结构域、TSL结构域、螺旋I结构域、螺旋II结构域、OBD结构域和RuvC结构域。
实施方案57:根据实施方案56所述的CasX变体,其中该至少一个嵌合结构域包含嵌合RuvC结构域。
实施方案58:根据实施方案1至57中任一项所述的CasX变体,该CasX变体包含与该CasX融合的异源蛋白或其结构域。
实施方案59:根据实施方案58所述的CasX变体,其中该异源蛋白或其结构域是碱基编辑器。
实施方案60:根据实施方案59所述的CasX变体,其中该碱基编辑器是腺苷脱氨酶、胞嘧啶脱氨酶或鸟嘌呤氧化酶。
实施方案61:一种能够结合参考CasX蛋白或CasX变体的参考向导核酸支架的变体(gNA变体),其中:
a.与参考向导核酸支架序列相比,gNA变体包含至少一个修饰;并且
b.与该参考向导核酸支架相比,该gNA变体表现出一种或多种改善的特征,
任选地其中该变体包含选自SEQ ID NO:2101-2332的序列。
实施方案62:根据实施方案61所述的gNA变体,其中该一种或多种改善的特征选自:改善的稳定性;改善的溶解度;改善的gNA的转录;改善的对核酸酶活性的抗性;增加的gNA折叠速率;减少的折叠期间副产物的形成;增加的生产性折叠;改善的对CasX蛋白的结合亲和力;当与该CasX蛋白复合时,改善的对靶核酸的结合亲和力;当与CasX蛋白复合时,改善的基因编辑;当与CasX蛋白复合时,改善的编辑特异性;以及当与该CasX蛋白复合时,改善的形成有切割能力的RNP的能力。
实施方案63:根据实施方案61或62所述的gNA变体,其中该参考向导物支架包含选自SEQ ID NO:4-16的这些序列的序列。
实施方案64:根据实施方案61至63中任一项所述的gNA变体,其中该至少一个修饰包括:
a.gNA变体的区域中的至少一个核苷酸取代;
b.gNA变体的区域中的至少一个核苷酸缺失;
c.gNA变体的区域中的至少一个核苷酸插入;
d.gNA变体的区域的全部或一部分的取代;
e.gNA变体的区域的全部或一部分的缺失;或
f.(a)至(e)的任何组合。
实施方案65:根据实施方案64所述的gNA变体,其中该gNA变体的区域选自延伸茎环、支架茎环、三链体和假结。
实施方案66:根据实施方案65所述的gNA变体,其中该支架茎还包含泡。
实施方案67:根据实施方案65或实施方案66所述的gNA变体,其中该支架还包含三链体环区域。
实施方案68:根据实施方案65至67中任一项所述的gNA变体,其中该支架还包含5'非结构化区域。
实施方案69:根据实施方案64至68中任一项所述的gNA变体,其中该至少一个修饰包括:
a.在该gNA变体的一个或多个区域中1至15个连续或非连续核苷酸的缺失;
b.在该gNA变体的一个或多个区域中1至10个连续或非连续核苷酸的缺失;
c.在该gNA变体的一个或多个区域中1至10个连续或非连续核苷酸的插入;
d.用RNA茎环序列对该支架茎环或该延伸茎环的取代或插入其中,该RNA茎环序列来自具有近端5'末端和3'末端的异源RNA来源;或
e.(a)至(d)的任何组合。
实施方案70:根据实施方案61至69中任一项所述的gNA变体,该gNA变体在一个区域中包含两个或更多个修饰。
实施方案71:根据实施方案61至69中任一项所述的gNA变体,其中该gNA变体在两个或更多个区域中包含修饰。
实施方案72:根据实施方案61至71中任一项所述的gNA变体,该gRNA变体包含延伸茎环区域,该延伸茎环区域包含至少10个、至少100个、至少500个、至少1000个或至少10,000个核苷酸。
实施方案73:根据实施方案72所述的gNA变体,其中该异源RNA茎环序列增加了该gNA的稳定性。
实施方案74:根据实施方案72或实施方案73所述的gNA变体,其中该异源RNA茎环能够结合蛋白质、RNA结构、DNA序列或小分子。
实施方案75:根据实施方案74所述的gNA变体,其中插入该延伸茎环中的该异源RNA茎环序列选自MS2发夹、Qβ发夹、U1发夹II、Uvsx发夹或PP7发夹,其中该异源茎环能够分别结合MS2外壳蛋白、Qβ外壳蛋白、U1A信号识别颗粒、T4噬菌体的Uvsx蛋白或PP7外壳蛋白。
实施方案76:根据实施方案61至75中任一项所述的gNA变体,其中该修饰包括在该延伸茎环中插入选自以下的一种或多种组分:
a.Rev应答元件(RRE)的茎IIB,
b.RRE的茎II-V;
c.RRE的茎II;
d.茎IIB的Rev-结合元件(RBE);和
e.和全长RRE,
其中该一种或多种组分能够结合Rev。
实施方案77:根据实施方案61至76中任一项所述的gNA变体,其中该gNA变体进一步包含靶向序列,其中该靶向序列与该靶核酸序列互补。
实施方案78:根据实施方案77所述的gNA变体,其中该靶向序列具有14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个核苷酸。
实施方案79:根据实施方案78所述的gNA变体,其中该靶向序列具有18、19或20个核苷酸。
实施方案80:根据实施方案79所述的gNA变体,其中当在可比较条件下在体外基于细胞的测定中测定时,与包含具有20个核苷酸的靶向序列的该gNA变体的RNP相比,包含具有18个核苷酸的靶向序列的该gNA变体的RNP表现出至少2倍、至少3倍或至少4倍的更高编辑效率。
实施方案81:根据实施方案79所述的gNA变体,其中当在可比较条件下在体外基于细胞的测定中测定时,与包含具有20个核苷酸的靶向序列的gNA变体的RNP相比,包含具有19个核苷酸的靶向序列的gNA变体的RNP表现出至少2倍、至少3倍或至少4倍的更高编辑效率。
实施方案82:根据实施方案77至79或中任一项所述的gNA变体,其中该靶向序列具有20个核苷酸。
实施方案83:根据实施方案77至80中任一项所述的gNA变体,其中该gNA是包含与该靶向序列连接的支架序列的单向导gNA。
实施方案84:根据实施方案61至83中任一项所述的gNA变体,其中与SEQ ID NO:4或SEQ ID NO:5的该参考gNA相比,该gNA变体的该一种或多种这些改善的特征改善了至少约1.1倍至约100倍或更多。
实施方案85:根据实施方案61至83中任一项所述的gNA变体,其中与SEQ ID NO:4的该参考gNA、SEQ ID NO:5的参考gNA、变体支架SEQ ID NO:2238、变体支架SEQ ID NO:2239、变体支架174(SEQ ID NO:2238)或变体支架175(SEQ ID NO:2239)相比,该gNA变体的这些改善的特征中的一者或多者改善了至少约1.1倍、至少约2倍、至少约10倍或至少约100倍或更多。
实施方案86:根据实施方案61至85中任一项所述的gNA变体,该gNA变体包含与SEQID NO:4或SEQ ID NO:5具有至少60%序列同一性的支架区域,不包括该延伸茎区域。
实施方案87:根据实施方案61至85中任一项所述的gNA变体,该gNA变体包含与SEQID NO:14具有至少60%序列同一性的支架茎环。
实施方案88:根据实施方案61至85中任一项所述的gNA变体,其中该gNA变体序列的支架与SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:2238或SEQ ID NO:2239的序列具有至少20%、至少30%、至少40%、至少50%、至少60%、或至少70%、至少80%、至少85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的同一性。
实施方案89:根据实施方案61至85中任一项所述的gNA变体,其中该gNA变体序列的该支架包含选自SEQ ID NO:2101-2332的序列,或与其具有至少约80%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。
实施方案90:根据实施方案89所述的gNA变体,其中该gNA变体序列的该支架由选自SEQ ID NO:2101-2332的序列组成。
实施方案91:根据实施方案61至90中任一项所述的gNA变体,该gNA变体还包含一种或多种核酶。
实施方案92:根据实施方案91所述的gNA变体,其中该一种或多种核酶独立地与该gNA变体的末端融合。
实施方案93:根据实施方案91或实施方案92所述的gNA变体,其中该一种或多种核酶中的至少一者是丁型肝炎病毒(HDV)核酶、锤头核酶、手枪式核酶、弯刀核酶或烟草环斑病毒(TRSV)核酶。
实施方案94:根据实施方案61至93中任一项所述的gNA变体,该gNA变体还包含热稳定茎环。
实施方案95:根据实施方案61至94中任一项所述的gNA变体,其中该gNA被化学修饰。
实施方案96:根据实施方案61至95中任一项所述的gNA变体,其中该gNA包含来自第一gNA的第一区域和来自不同于该第一gNA的第二gNA的第二区域。
实施方案97:根据实施方案96所述的gNA变体,其中该第一区域选自三链体区域、支架茎环和延伸茎环。
实施方案98:根据实施方案96或实施方案97所述的gNA变体,其中该第二区域选自三链体区域、支架茎环和延伸茎环。
实施方案99:根据实施方案96至98中任一项所述的gNA变体,其中该第一区域和第二区域不是相同的区域。
实施方案100:根据实施方案96至98中任一项所述的gNA变体,其中该第一gNA包含SEQ ID NO:4的序列且该第二gNA包含SEQ ID NO:5的序列。
实施方案101:根据实施方案61至100中任一项所述的gNA变体,该gNA变体包含至少一个嵌合区域,该至少一个嵌合区域包含来自第一gNA的第一部分和来自第二gNA的第二部分。
实施方案102:根据实施方案101所述的gNA变体,其中该至少一个嵌合区域选自三链体区域、支架茎环和延伸茎环。
实施方案103:根据实施方案61所述的gNA变体,该gNA变体包含SEQ ID NO:2101-2332中的任一者的序列。
实施方案104:一种基因编辑对,该基因编辑对包含CasX变体蛋白和第一gNA变体。
实施方案105:根据实施方案104所述的基因编辑对,其中该CasX变体蛋白和该gNA变体能够在核糖核蛋白复合物(RNP)中缔合在一起。
实施方案106:根据实施方案104所述的基因编辑对,其中该CasX变体和该gNA变体在核糖核蛋白复合物(RNP)中缔合在一起。
实施方案107:根据实施方案104至107中任一项所述的基因编辑对,其中该第一gNA包含根据实施方案77至103中任一项所述的gNA变体以及靶向序列,其中该靶向序列与该靶核酸互补。
实施方案108:根据实施方案104至107中任一项所述的基因编辑对,其中该CasX变体包含根据实施方案1至60中任一项所述的CasX变体。
实施方案109:根据实施方案104至108中任一项所述的基因编辑对,该基因编辑对包含:
a.根据实施方案77至103中任一项所述的gNA变体,和
b.根据实施方案1至60中任一项所述的CasX变体。
实施方案110:根据实施方案109所述的基因编辑对,其中与包含SEQ ID NO:1、SEQID NO:2或SEQ ID NO:3的参考CasX蛋白和SEQ ID NO:4或5的参考向导核酸的基因编辑对相比,CasX变体和gNA变体的基因编辑对具有一种或多种改善的特征。
实施方案111:根据实施方案110所述的基因编辑对,其中该一种或多种改善的特征包括改善的CasX:gNA(RNP)复合物稳定性、改善的CasX和gNA之间的结合亲和力、改善的RNP复合物形成动力学、更高百分比的有切割能力的RNP、改善的对靶核酸的RNP结合亲和力、利用增加的PAM序列谱的能力、改善的靶核酸的解旋、增加的编辑活性、改善的编辑效率、改善的编辑特异性、增加的核酸酶活性、增加的双链切割的靶链加载、减少的单链切口的靶链加载、减少的脱靶切割、改善的DNA非靶链的结合或改善的对核酸酶活性的抗性。
实施方案112:根据实施方案110或实施方案111所述的基因编辑对,其中与包含SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白或CasX变体119或491或以及SEQID NO:4或5的参考向导核酸或174的gNA变体(SEQ ID NO:2238)的基因编辑对相比,该改善的特征是利用ATC、GTC或CTC的非经典PAM序列的靶核酸的增强的编辑效率。
实施方案113:根据实施方案110所述的基因编辑对,其中与该参考CasX蛋白和该参考向导核酸的基因编辑配对相比,这些改善的特征中的该至少一者或多者改善了至少约1.1倍至约100倍或更多。
实施方案114:根据实施方案110所述的基因编辑对,其中相对于该参考CasX蛋白和该参考向导核酸或174的gNA变体(SEQ ID NO:2238)的基因编辑对,该CasX变体的这些改善的特征中的一者或多者改善了至少约1.1倍、至少约2倍、至少约4倍、至少约6倍、至少约6倍、至少约10倍、或至少约100倍或更多。
实施方案115:根据实施方案110所述的基因编辑对,其中当在可比较条件下在体外测定中测定时,与SEQ ID NO:2和SEQ ID NO:5的参考编辑对或174的gNA变体(SEQ IDNO:2238)相比,该改善的特征包括编辑效率增加到4倍至9倍。
实施方案116:根据实施方案104至115中任一项所述的基因编辑对,其中与参考CasX蛋白和参考向导核酸的RNP相比,该CasX变体和该gNA变体的RNP具有更高百分比的有切割能力的RNP。
实施方案117:根据clam 116所述的基因编辑对,其中与该参考CasX蛋白和该参考向导核酸的该RNP相比,该CasX变体和该gNA变体的该RNP具有至少2倍、至少3倍、至少4倍或至少5倍更高百分比的有切割能力的RNP。
实施方案118:根据实施方案104至117中任一项所述的基因编辑对,其中该RNP能够结合并切割靶核酸。
实施方案119:根据实施方案104至118中任一项所述的基因编辑对,其中当在可比较条件下在体外测定中进行靶上/脱靶编辑测定时,与SEQ IDNO:2和SEQ ID NO:5的参考编辑对或174的gNA变体(SEQ ID NO:2238)相比,该CasX变体和该gNA变体的该RNP表现出至少10%、或至少15%、或至少20%内的特异性比率。
实施方案120:根据实施方案104至111中任一项所述的基因编辑对,其中该RNP能够结合靶核酸但不能切割该靶核酸。
实施方案121:根据实施方案104至117中任一项所述的基因编辑对,其中该RNP能够结合靶核酸并且在该靶核酸中产生一个或多个单链切口。
实施方案122:一种组合物,该组合物包含根据实施方案104至119中任一项所述的基因编辑对,该组合物包含:
a.第二基因编辑对,该第二基因编辑对包含根据实施方案1至60中任一项所述的CasX变体;和
b.根据实施方案61至103中任一项所述的第二gNA变体,其中与该第一gNA的该靶向序列相比,该第二gNA变体具有与该靶核酸的不同或重叠部分互补的靶向序列。
实施方案123:一种CasX变体,该CasX变体包含SEQ ID NO:89-101、247-337、411-592或760-982中任一项所述的氨基酸序列。
实施方案124:一种gNA变体,该gNA变体包含SEQ ID NO:2101-2332中任一项所述的氨基酸序列。
实施方案125:根据实施方案104至121中任一项所述的基因编辑对,该基因编辑对用作用于治疗患有疾病的受试者的药物。
组IV
实施方案1:一种向导RNA(gRNA)支架,该gRNA支架包含与选自SEQ ID NO:2292、2291、2307、2281-2290、2293-2306、2308-2332和23530-2398的序列中的任一个具有至少60%、至少70%、至少80%、至少90%、至少95%、至少98%、至少99%或100%序列同一性的序列。
实施方案2:根据实施方案1所述的gRNA支架,该gRNA支架包含选自SEQ ID NO:2292、2291、2307、2281-2290、2293-2306、2308-2332和23530-2398的序列。
实施方案3:根据实施方案1所述的gRNA支架,该gRNA支架包含相对于SEQ ID NO:2238具有一个或多个修饰的序列,其中该一个或多个修饰导致改善的特征。
实施方案4:根据实施方案3所述的gRNA支架,其中该一个或多个修饰包括如表19所示的一个或多个核苷酸取代、插入和/或缺失。
实施方案5:根据实施方案3或实施方案4所述的gRNA支架,其中该改善的特征是任选地在体外测定中的选自以下的一种或多种功能性质:增加的编辑活性、增加的假结茎稳定性、增加的三链体区域稳定性、增加的支架茎稳定性、延伸茎稳定性、减少的脱靶折叠中间体和增加的对2类V型CRISPR蛋白的结合亲和力。
实施方案6:根据实施方案3至5中任一项所述的gRNA支架,其中与SEQ ID NO:2238的该gRNA支架在体外测定中的得分相比,该gRNA支架表现出至少约2.0、至少约2.5、至少约3或至少约3.5的改善的富集得分(log2)。
实施方案7:根据实施方案1所述的gRNA支架,该gRNA支架包含相对于SEQ ID NO:2239具有一个或多个修饰的序列,其中该一个或多个修饰导致改善的特征。
实施方案8:根据实施方案7所述的gRNA支架,其中该一个或多个修饰包括如表20所示的一个或多个核苷酸取代、插入和/或缺失。
实施方案9:根据实施方案7或实施方案8所述的gRNA支架,其中该改善的特征是任选地在体外测定中的选自以下的一种或多种功能性质:增加的编辑活性、增加的假结茎稳定性、增加的三链体区域稳定性、增加的支架茎稳定性、延伸茎稳定性、减少的脱靶折叠中间体和增加的对2类V型CRISPR蛋白的结合亲和力。
实施方案10:根据实施方案7至9中任一项所述的gRNA支架,其中与SEQ ID NO:2239的该gRNA支架在体外测定中的得分相比,该gRNA支架表现出至少约1.2、至少约1.5、至少约2.0、至少约2.5、至少约3或至少约3.5的改善的富集得分(log2)。
实施方案11:根据实施方案1所述的gRNA支架,该gRNA支架包含在相对于SEQ IDNO:2239的该序列的选自C9、U11、C17、U24、A29、U54、G64、A88和A95的位置处的一个或多个修饰。
实施方案12:根据实施方案11所述的gRNA支架,该gRNA支架包含相对于SEQ IDNO:2239的该序列的选自C9U、U11C、C17G、U24C、A29C、在位置54处的插入G、在位置64处的插入C、A88G和A95G的一个或多个修饰。
实施方案13:根据实施方案12所述的gRNA支架,该gRNA支架包含相对于SEQ IDNO:2239的该序列的由C9U、U11C、C17G、U24C、A29C、在位置54处的插入G、在位置64处的插入C、A88G和A95G组成的修饰。
实施方案14:根据实施方案7至13中任一项所述的gRNA支架,其中该改善的特征选自假结茎稳定性、三链体区域稳定性、支架泡稳定性、延伸茎稳定性和对2类V型CRISPR蛋白的结合亲和力。
实施方案15:根据实施方案14所述的gRNA支架,其中相对于SEQ ID NO:2239的该序列,该在位置64处的插入C和该取代A88G解析该延伸茎的不对称凸起元件,从而增强该gRNA支架的该延伸茎的该稳定性。
实施方案16:根据实施方案14所述的gRNA支架,其中这些取代U11C、U24C和A95G增加了该gRNA支架的该三链体区域的该稳定性。
实施方案17:根据实施方案14所述的gRNA支架,其中该取代A29C增加了该假结茎的该稳定性。
实施方案18:根据实施方案1或实施方案2所述的gRNA支架,其中该gRNA支架包含该延伸茎中的一个或多个异源RNA序列。
实施方案19:根据实施方案18所述的gRNA支架,其中该异源RNA选自MS2发夹、Qβ发夹、U1发夹II、Uvsx发夹和PP7茎环,或它们的序列变体。
实施方案20:根据实施方案18或实施方案19所述的gRNA支架,其中该异源RNA序列增加了该gRNA的该稳定性。
实施方案21:根据实施方案18或实施方案19所述的gRNA支架,其中该异源RNA能够结合蛋白质、RNA、DNA或小分子。
实施方案22:根据实施方案18至21中任一项所述的gRNA支架,其中该gRNA支架包含Rev应答元件(RRE)或其部分。
实施方案23:根据实施方案22所述的gRNA支架,其中该RRE或其部分选自具有序列UGGGCGCAGCGUCAAUGACGCUGACGGUACA(SEQ ID NO:1280)的该RRE的茎IIB、具有序列CAGGAAGCACUAUGGGCGCAGCGUCAAUGACGCUGACGGUACAGGCCAGACAAUUAUUGUCUGGUAUAGUGCAGCAGCAGAACAAUUUGCUGAGGGCUAUUGAGGCGCAACAGCAUCUGUUGCAACUCACAGUCUGGGGCAUCAAGCAGCUCCAGGCAAGAAUCCUG(SEQ ID NO:1282)的该RRE的茎II-V、具有序列GCACUAUGGGCGCAGCGUCAAUGACGCUGACGGUACAGGCCAGACAAUUAUUGUCUGGUAUAGUGC(SEQ ID NO:1281)的该RRE的茎II、具有序列GCUGACGGUACAGGC(SEQ ID NO:1284)的茎IIB的Rev结合元件(RBE)和具有序列AGGAGCUUUGUUCCUUGGGUUCUUGGGAGCAGCAGGAAGCACUAUGGGCGCAGCGUCAAUGACGCUGACGGUACAGGCCAGACAAUUAUUGUCUGGUAUAGUGCAGCAGCAGAACAAUUUGCUGAGGGCUAUUGAGGCGCAACAGCAUCUGUUGCAACUCACAGUCUGGGGCAUCAAGCAGCUCCAGGCAAGAAUCCUGGCUGUGGAAAGAUACCUAAAGGAUCAACAGCUCCU(SEQID NO:1283)的全长RRE。
实施方案24:根据实施方案1至23中任一项所述的gRNA,其中该gRNA支架包含一个或多个胸腺嘧啶(T)。
实施方案25:一种gRNA,该gRNA包含根据实施方案1至24中任一项所述的gRNA支架和在该gRNA支架的3'末端与靶核酸序列互补的靶向序列。
实施方案26:根据实施方案25所述的gRNA,其中该靶向序列具有10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。
实施方案27:根据实施方案26所述的gRNA,其中该靶向序列具有18、19或20个核苷酸。
实施方案28:根据实施方案25至27中任一项所述的gRNA,其中该gRNA能够与2类V型CRISPR蛋白形成核糖核蛋白(RNP)复合物。
实施方案29:一种工程化2类V型CRISPR蛋白,该工程化2类V型CRISPR蛋白包含:
a.NTSB结构域,该NTSB结构域包含QPASKKIDQNKLKPEMDEKGNLTTAGFACSQCGQPLFVYKLEQVSEKGKAYTNYFGRCNVAEHEKLILLAQLKPEKDSDEAVTYSLGKFGQ(SEQ ID NO:2335)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列;
b.螺旋I-II结构域,该螺旋I-II结构域包含RALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKALSDACMGTIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKENLEYPSVTLPPQPHTKEGVDAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFPSF(SEQ ID NO:2336)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列;
c.螺旋II结构域,该螺旋II结构域包含PLVERQANEVDWWDMVCNVKKLINEKKEDGKVFWQNLAGYKRQEALRPYLSSEEDRKKGKKFARYQLGDLLLHLEKKHGEDWGKVYDEAWERIDKKVEGLSKHIKLEEERRSEDAQSKAALTDWLRAKASFVIEGLKEADKDEFCRCELKLQKWYGDLRGKPFAIEAE(SEQ ID NO:2351)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列;和
d.RuvC-I结构域,该RuvC-I结构域包含SSNIKPMNLIGVDRGENIPAVIALTDPEGCPLSRFKDSLGNPTHILRIGESYKEKQRTIQAKKEVEQRRAGGYSRKYASKAKNLADDMVRNTARDLLYYAVTQDAMLIFENLSRGFGRQGKRTFMAERQYTRMEDWLTAKLAYEGLPSKTYLSKTLAQYTSKTC(SEQ ID NO:2352)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列。
实施方案30:根据实施方案29所述的2类V型CRISPR蛋白,其中该CRISPR蛋白包含OBD-I结构域,该OBD-I结构域包含QEIKRINKIRRRLVKDSNTKKAGKTGPMKTLLVRVMTPDLRERLENLRKKPENIPQ(SEQ ID NO:2342)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列。
实施方案31:根据实施方案29或实施方案30所述的2类V型CRISPR蛋白,其中该CRISPR蛋白包含OBD-II结构域,该OBD-II结构域包含NSILDISGFSKQYNCAFIWQKDGVKKLNLYLIINYFKGGKLRFKKIKPEAFEANRFYTVINKKSGEIVPMEVNFNFDDPNLIILPLAFGKRQGREFIWNDLLSLETGSLKLANGRVIEKTLYNRRTRQDEPALFVALTFERREVLD(SEQ ID NO:2347)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列。
实施方案32:根据实施方案29至31中任一项所述的2类V型CRISPR蛋白,其中该CRISPR蛋白包含螺旋I-I结构域,该螺旋I-I结构域包含PISNTSRANLNKLLTDYTEMKKAILHVYWEEFQKDPVGLMSRVA(SEQ ID NO:2343)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列。
实施方案33:根据实施方案29至32中任一项所述的2类V型CRISPR蛋白,其中该CRISPR蛋白包含TSL结构域,该TSL结构域包含SNCGFTITSADYDRVLEKLKKTATGWMTTINGKELKVEGQITYYNRYKRQNVVKDLSVELDRLSEESVNNDISSWTKGRSGEALSLLKKRFSHRPVQEKFVCLNCGFETH(SEQID NO:2349)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列。
实施方案34:根据实施方案29至33中任一项所述的2类V型CRISPR蛋白,其中该CRISPR蛋白包含RuvC-II结构域,该RuvC-II结构域包含ADEQAALNIARSWLFLRSQEYKKYQTNKTTGNTDKRAFVETWQSFYRKKLKEVWKPAV(SEQ ID NO:2350)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列。
实施方案35:根据实施方案34所述的2类V型CRISPR蛋白,该CRISPR蛋白包含SEQID NO:416的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列。
实施方案36:根据实施方案29至35中任一项所述的2类V型CRISPR蛋白,其中该2类V型CRISPR蛋白在一个或多个结构域中包含至少一个修饰。
实施方案37:根据实施方案36所述的2类V型CRISPR蛋白,其中该至少一个修饰包括:
a.结构域中的至少一个氨基酸取代;
b.结构域中的至少一个氨基酸缺失;
c.结构域中的至少一个氨基酸插入;或
d.(a)至(c)的任何组合。
实施方案38:根据实施方案36或实施方案37所述的2类V型CRISPR蛋白,该CRISPR蛋白包含相对于SEQ ID NO:2335在该NTSB结构域中的一个或多个氨基酸位置处的修饰,该修饰选自P2、S4、Q9、E15、G20、G33、L41、Y51、F55、L68、A70、E75、K88和G90。
实施方案39:根据实施方案38所述的2类V型CRISPR蛋白,其中相对于SEQ ID NO:2335,在该NTSB结构域中的一个或多个氨基酸位置处的该一个或多个修饰选自在位置2处的插入G、在位置4处的插入I、在位置4处的插入L、Q9P、E15S、G20D、在位置30处的缺失S、G33T、L41A、Y51T、F55V、L68D、L68E、L68K、A70Y、A70S、E75A、E75D、E75P、K88Q和G90Q。
实施方案40:根据实施方案36至39中任一项所述的2类V型CRISPR蛋白,该CRISPR蛋白包含相对于SEQ ID NO:2336在该螺旋I-II结构域中的一个或多个氨基酸位置处的修饰,该修饰选自I24、A25、Y29G32、G44、S48、S51、Q54、I56、V63、S73、L74、K97、V100、M112、L116、G137、F138和S140。
实施方案41:根据实施方案40所述的2类V型CRISPR蛋白,其中相对于SEQ ID NO:2336,在该螺旋I-II结构域中的一个或多个氨基酸位置处的该一个或多个修饰选自在位置24处的插入T、在位置25处的插入C、Y29F、G32Y、G32N、G32H、G32S、G32T、G32A、G32V、在位置32处的缺失G、G32S、G32T、G44L、G44H、S48H、S48T、S51T、Q54H、I56T、V63T、S73H、L74Y、K97G、K97S、K97D、K97E、V100L、M112T、M112W、M112R、M112K、L116K、G137R、G137K、G137N、在位置138处的插入Q和S140Q。
实施方案42:根据实施方案36至41中任一项所述的2类V型CRISPR蛋白,该CRISPR蛋白包含相对于SEQ ID NO:2351在该螺旋II结构域中的一个或多个氨基酸位置处的修饰,该修饰选自L2、V3、E4、R5、Q6、A7、E9、V10、D11、W12、W13、D14、M15、V16、C17、N18、V19、K20、L22、I23、E25、K26、K31、Q35、L37、A38、K41、R42、Q43、E44、L46、K57、Y65、G68、L70、L71、L72、E75、G79、D81、W82、K84、V85、Y86、D87、I93、K95、K96、E98、L100、K102、I104、K105、E109、R110、D114、K118、A120、L121、W124、L125、R126、A127、A129、I133、E134、G135、L136、E138、D140、K141、D142、E143、F144、C145、C147、E148、L149、K150、L151、Q152、K153、L158、E166和A167。
实施方案43:根据实施方案42所述的2类V型CRISPR蛋白,其中相对于SEQ ID NO:2351,在该螺旋II结构域中的一个或多个氨基酸位置处的该一个或多个修饰选自在位置2处的插入A、在位置2处的插入H、在位置2处的缺失L和在位置3处的缺失V、V3E、V3Q、V3F、在位置3处的缺失V、在位置3处的缺失D、V3P、E4P、在位置4处的缺失E、E4D、E4L、E4R、R5N、Q6V、在位置6处的插入Q、在位置7处的插入G、在位置9处的插入H、在位置9处的插入A、VD10、在位置0处的插入T1、在位置10处的缺失V、在位置10处的插入F、在位置11处的插入D、在位置11处的缺失D、D11S、在位置12处的缺失W、W12T、W12H、在位置12处的插入P、在位置13处的插入Q、在位置12处的插入G、在位置13处的插入R、W13P、W13D、在位置13处的插入D、W13L、在位置14处的插入P、在位置14处的插入D、在位置14处的缺失D和在位置15处的缺失M、在位置15处的缺失M、在位置16处的插入T、在位置17处的插入P、N18I、V19N、V19H、K20D、L22D、I23S、E25C、E25P、在位置25处的插入G、K26T、K27E、K31L、K31Y、Q35D、Q35P、在位置37处的插入S、在位置37处的缺失L和在位置38处的缺失A、K41L、在位置42处的插入R、在位置43处的缺失Q和在位置44处的缺失E、L46N、K57Q、Y65T、G68M、L70V、L71C、L72D、L72N、L72W、L72Y、E75F、E75L、E75Y、G79P、在位置79处的插入E、在位置81处的插入T、在位置81处的插入R、在位置81处的插入W、在位置81处的插入Y、在位置82处的插入W、在位置82处的插入Y、W82G、W82R、K84D、K84H、K84P、K84T、V85L、V85A、在位置85处的插入L、Y86C、D87G、D87M、D87P、I93C、K95T、K96R、E98G、L100A、K102H、I104T、I104S、I104Q、K105D、在位置109处的插入K、E109L、R110D、在位置110处的缺失R、D114E、在位置114处的插入D、K118P、A120R、L121T、W124L、L125C、R126D、A127E、A127L、A129T、A129K、I133E、在位置133处的插入C、在位置134处的插入S、在位置134处的插入G、在位置135处的插入R、G135P、L136K、L136D、L136S、L136H、在位置138处的缺失E、D140R、在位置140处的插入D、在位置141处的插入P、在位置142处的插入D、在位置143处的缺失E+在位置144处的缺失F、在位置143处的插入Q、F144K、在位置144处的缺失F、在位置144处的缺失F和在位置145处的缺失C、C145R、在位置145处的插入G、C145K、C147D、在位置148处的插入V、E148D、在位置149处的插入H、L149R、K150R、L151H、Q152C、K153P、L158S、E166L和在位置167处的插入F。
实施方案44:根据实施方案36至43中任一项所述的2类V型CRISPR蛋白,该CRISPR蛋白包含相对于SEQ ID NO:2352在该RuvC-I结构域中的一个或多个氨基酸位置处的修饰,该修饰选自I4、K5、P6、M7、N8、L9、V12、G49、K63、K80、N83、R90、M125和L146。
实施方案45:根据实施方案44所述的2类V型CRISPR蛋白,其中相对于SEQ ID NO:2351,在该RuvC-I结构域的一个或多个氨基酸位置处的该一个或多个修饰选自在位置4处的插入I、在位置5处的插入S、在位置6处的插入T、在位置6处的插入N、在位置7处的插入R、在位置7处的插入K、在位置8处的插入H、在位置8处的插入S、V12L、G49W、G49R、S51R、S51K、K62S、K62T、K62E、V65A、K80E、N83G、R90H、R90G、M125S、M125A、L137Y、在位置137处的插入P、在位置141处的缺失L、L141R、L141D、在位置142处的插入Q、在位置143处的插入R、在位置143处的插入N、E144N、在位置146处的插入P、L146F、P147A、K149Q、T150V、在位置152处的插入R、插入H153、T155Q、在位置155处的插入H、在位置155处的插入R、在位置156处的插入L、在位置156处的缺失L、在位置156处的插入W、在位置157处的插入A、在位置157处的插入F、A157S、Q158K、在位置159处的插入Y、T160Y、T160F、在位置161处的插入I、S161P、T163P、在位置163处的插入N、C164K和C164M。
实施方案46:根据实施方案36至45中任一项所述的2类V型CRISPR蛋白,该CRISPR蛋白包含相对于SEQ ID NO:2342在该OBD-I结构域中的一个或多个氨基酸位置处的修饰,该修饰选自I3、K4、R5、I6、N7、K8、K15、D16、N18、P27、M28、V33、R34、M36、R41、L47、R48、E52、P55和Q56。
实施方案47:根据实施方案46所述的2类V型CRISPR蛋白,其中相对于SEQ ID NO:2342,在该OBD-I结构域中的一个或多个氨基酸位置处的该一个或多个修饰选自在位置3处的插入G、I3G、I3E、在位置4处的插入G、K4G、K4P、K4S、K4W、K4W、R5P、在位置5处的插入P、在位置5处的插入G、R5S、在位置5处的插入S、R5A、R5P、R5G、R5L、I6A、I6L、在位置6处的插入G、N7Q、N7L、N7S、K8G、K15F、D16W、在位置16处的插入F、插入F18、在位置27处的插入P、M28P、M28H、V33T、R34P、M36Y、R41P、L47P、在位置48处的插入P、E52P、在位置55处的插入P、在位置55处的缺失P和在位置56处的缺失Q、Q56S、Q56P、在位置56处的插入D、在位置56处的插入T和Q56P。
实施方案48:根据实施方案36至47中任一项所述的2类V型CRISPR蛋白,该CRISPR蛋白包含相对于SEQ ID NO:2347在该OBD-II结构域中的一个或多个氨基酸位置处的修饰,该修饰选自S2、I3、L4、K11、V24、K37、R42、A53、T58、K63、M70、I82、Q92、G93、K110、L121、R124、R141、E143、V144和L145。
实施方案49:根据实施方案48所述的2类V型CRISPR蛋白,其中相对于SEQ ID NO:2342,在该OBD-II结构域中的一个或多个氨基酸位置处的该一个或多个修饰选自在位置2处的缺失S、I3R、I3K、在位置3处的缺失I和缺失L4、在位置4处的缺失L、K11T、在位置24处的插入P、K37G、R42E、在位置53处的插入S、在位置58处的插入R、在位置63处的缺失K、M70T、I82T、Q92I、Q92F、Q92V、Q92A、在位置93处的插入A、K110Q、R115Q、L121T、在位置124处的插入A、在位置141处的插入R、在位置143处的插入D、在位置143处的插入A、在位置144处的插入W和位置145处的插入A。
实施方案50:根据实施方案36至49中任一项所述的2类V型CRISPR蛋白,该CRISPR蛋白包含相对于SEQ ID NO:2349在该TSL结构域中的一个或多个氨基酸位置处的修饰,该修饰选自S1、N2、C3、G4、F5、I7、K18、V58、S67、T76、G78、S80、G81、E82、S85、V96和E98。
实施方案51:根据实施方案50所述的2类V型CRISPR蛋白,其中相对于SEQ ID NO:2349,在该OBD-II结构域中的一个或多个氨基酸位置处的该一个或多个修饰选自在位置1处的插入M、在位置2处的缺失N、在位置2处的插入V、C3S、在位置4处的插入G、在位置4处的插入W、F5P、在位置7处的插入W、K18G、V58D、在位置67处的插入A、T76E、T76D、T76N、G78D、在位置80处的缺失S、在位置81处的缺失G、在位置82处的插入E、在位置82处的插入N、S85I、V96C、V96T和E98D。
实施方案52:根据实施方案29至51中任一项所述的2类V型CRISPR蛋白,相对于SEQID NO:2,该CRISPR蛋白表现出改善的特征,其中该改善的特征包括增加的对gRNA的结合亲和力、增加的对该靶核酸的结合亲和力、改善的在该靶核酸的该编辑中利用更广谱的PAM序列的能力、改善的该靶核酸的解旋、增加的编辑活性、改善的编辑效率、改善的编辑特异性、增加的对切割该靶核酸的编辑特异性、减少的该靶核酸的脱靶编辑或切割、增加的能够编辑的真核基因组的百分比、增加的该核酸酶的活性、增加的用于双链切割的靶链加载、减少的用于单链切口的靶链加载、增加的DNA的该非靶链的结合、改善的蛋白质稳定性、增加的蛋白质:gRNA(RNP)复合物稳定性和改善的融合特征。
实施方案53:根据实施方案52所述的2类V型CRISPR蛋白,其中该改善的特征包括对包含TTC、ATC、GTC或CTC PAM序列的靶核酸序列的增加的切割活性。
实施方案54:根据实施方案53所述的2类V型CRISPR蛋白,其中该改善的特征包括与SEQ ID NO:416的该序列的切割活性相比,对包含ATC或CTC PAM序列的靶核酸序列的增加的切割活性。
实施方案55:根据实施方案54所述的2类V型CRISPR蛋白,其中该改善的切割活性是在体外测定中与SEQ ID NO:416的该序列的得分相比高至少约1.5、至少约2.0、至少约2.5、至少约3、至少约3.5、至少约4、至少约4.5、至少约5、至少约6、至少约7、至少约8或更多的富集得分(log2)。
实施方案56:根据实施方案54所述的2类V型CRISPR蛋白,其中该改善的特征包括与SEQ ID NO:416的该序列相比,对包含CTC PAM序列的靶核酸序列的增加的切割活性。
实施方案57:根据实施方案56所述的2类V型CRISPR蛋白,其中该改善的切割活性是在体外测定中与SEQ ID NO:416的该序列的该得分相比高至少约2、至少约2.5、至少约3、至少约3.5、至少约4、至少约4.5、至少约5、或至少约6或更多的富集得分(log2)。
实施方案58:根据实施方案53所述的2类V型CRISPR蛋白,其中该改善的特征包括与SEQ ID NO:416的该序列相比,对包含TTC PAM序列的靶核酸序列的增加的切割活性。
实施方案59:根据实施方案58所述的2类V型CRISPR蛋白,其中该改善的切割活性是在体外测定中与SEQ ID NO:416的该序列相比高至少约1.5、至少约2.0、至少约2.5、至少约3、至少约3.5、至少约4、至少约4.5、至少约5或至少约6log2或更多的富集得分。
实施方案60:根据实施方案52所述的2类V型CRISPR蛋白,其中该改善的特征包括相对于SEQ ID NO:416的该序列,对该靶核酸序列的增加的切割特异性。
实施方案61:根据实施方案60所述的2类V型CRISPR蛋白,其中该增加的特异性是在体外测定中与SEQ ID NO:416的该序列相比高至少约2.0、至少约2.5、至少约3、至少约3.5、至少约4、至少约4.5、至少约5或至少约6log2或更多的富集得分。
实施方案62:根据实施方案52所述的2类V型CRISPR蛋白,其中该改善的特征包括减少的该靶核酸序列的脱靶切割。
实施方案63:根据实施方案29至62中任一项所述的2类V型CRISPR蛋白,其中该2类V型CRISPR蛋白具有序列,该序列选自如表3所示的SEQ ID NO:415-592和1147-1231的这些序列、或与其具有至少约50%、至少约60%、至少约70%、至少约80%、至少约90%、或至少约95%、或至少约96%、或至少约97%、或至少约98%、或至少约99%序列同一性的序列。
实施方案64:根据实施方案29至62中任一项所述的2类V型CRISPR蛋白,该CRISPR蛋白包含选自如表3所示的SEQ ID NO:415-592和1147-1231的序列。
实施方案65:根据实施方案29至64中任一项所述的2类V型CRISPR蛋白,该CRISPR蛋白包含一种或多种核定位信号(NLS)。
实施方案66:根据实施方案65所述的2类V型CRISPR蛋白,其中该一个或多个NLS选自由以下组成的序列:PKKKRKV(SEQ ID NO:352)、KRPAATKKAGQAKKKK(SEQ ID NO:353)、PAAKRVKLD(SEQ ID NO:354)、RQRRNELKRSP(SEQ ID NO:355)、NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:356)、RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQID NO:357)、VSRKRPRP(SEQ ID NO:358)、PPKKARED(SEQ ID NO:359)、PQPKKKPL(SEQ IDNO:360)、SALIKKKKKMAP(SEQ ID NO:361)、DRLRR(SEQ ID NO:362)、PKQKKRK(SEQ ID NO:363)、RKLKKKIKKL(SEQ ID NO:364)、REKKKFLKRR(SEQ ID NO:365)、KRKGDEVDGVDEVAKKKSKK(SEQ ID NO:366)、RKCLQAGMNLEARKTKK(SEQ ID NO:367)、PRPRKIPR(SEQ ID NO:368)、PPRKKRTVV(SEQ ID NO:369)、NLSKKKKRKREK(SEQ ID NO:370)、RRPSRPFRKP(SEQ ID NO:371)、KRPRSPSS(SEQ ID NO:372)、KRGINDRNFWRGENERKTR(SEQ ID NO:373)、PRPPKMARYDN(SEQ ID NO:374)、KRSFSKAF(SEQ ID NO:375)、KLKIKRPVK(SEQ ID NO:376)、PKKKRKVPPPPAAKRVKLD(SEQ ID NO:377)、PKTRRRPRRSQRKRPPT(SEQ ID NO:378)、SRRRKANPTKLSENAKKLAKEVEN(SEQ ID NO:379)、KTRRRPRRSQRKRPPT(SEQ ID NO:380)、RRKKRRPRRKKRR(SEQ ID NO:381)、PKKKSRKPKKKSRK(SEQ ID NO:382)、HKKKHPDASVNFSEFSK(SEQ ID NO:383)、QRPGPYDRPQRPGPYDRP(SEQ ID NO:384)、LSPSLSPLLSPSLSPL(SEQ ID NO:385)、RGKGGKGLGKGGAKRHRK(SEQ ID NO:386)、PKRGRGRPKRGRGR(SEQ ID NO:387)、PKKKRKVPPPPKKKRKV(SEQ ID NO:389)、PAKRARRGYKC(SEQ ID NO:63)、KLGPRKATGRW(SEQ IDNO:64)、PRRKREE(SEQ ID NO:65)、PYRGRKE(SEQ ID NO:66)、PLRKRPRR(SEQ ID NO:67)、PLRKRPRRGSPLRKRPRR(SEQ ID NO:68)、PAAKRVKLDGGKRTADGSEFESPKKKRKV(SEQ ID NO:69)、PAAKRVKLDGGKRTADGSEFESPKKKRKVGIHGVPAA(SEQ ID NO:70)、PAAKRVKLDGGKRTADGSEFESPKKKRKVAEAAAKEAAAKEAAAKA(SEQ ID NO:71)、PAAKRVKLDGGKRTADGSEFESPKKKRKVPG(SEQ IDNO:72)、KRKGSPERGERKRHW(SEQ ID NO:73)、KRTADSQHSTPPKTKRKVEFEPKKKRKV(SEQ ID NO:74)和PKKKRKVGGSKRTADSQHSTPPKTKRKVEFEPKKKRKV(SEQ ID NO:75),并且任选地其中该一个或多个NLS连接到该2类V型CRISPR蛋白或具有接头肽的相邻NLS,其中该接头肽选自SR、RS、(G)n(SEQ ID NO:1023)、(GS)n(SEQ ID NO:1024)、(GSGGS)n(SEQ ID NO:399)、(GGSGGS)n(SEQ ID NO:400)、(GGGS)n(SEQ ID NO:401)、GGSG(SEQ ID NO:402)、GGSGG(SEQID NO:403)、GSGSG(SEQ ID NO:404)、GSGGG(SEQ ID NO:405)、GGGSG(SEQ ID NO:406)、GSSSG(SEQ ID NO:407)、GPGP(SEQ ID NO:408)、GGP、PPP、PPAPPA(SEQ ID NO:409)、PPPG(SEQ ID NO:24)、PPPGPPP(SEQ ID NO:410)、PPP(GGGS)n(SEQ ID NO:25)、(GGGS)nPPP(SEQID NO:26)、AEAAAKEAAAKEAAAKA(SEQ ID NO:1025)和TPPKTKRKVEFE(SEQ ID NO:27),其中n为1至5。
实施方案67:根据实施方案65或实施方案66所述的2类V型CRISPR蛋白,其中该一个或多个NLS被定位在该蛋白的C末端处或其附近。
实施方案68:根据实施方案65或实施方案66所述的2类V型CRISPR蛋白,其中该一个或多个NLS被定位在该蛋白的N末端处或其附近。
实施方案69:根据实施方案65或实施方案66所述的2类V型CRISPR蛋白,该CRISPR蛋白包含至少两个NLS,其中该至少两个NLS被定位在该蛋白的该N末端处或其附近以及该C末端处或其附近。
实施方案70:根据实施方案29至69中任一项所述的2类V型CRISPR蛋白,其中该2类V型CRISPR蛋白能够与gRNA形成核糖核蛋白复合物(RNP)。
实施方案71:根据实施方案70所述的2类V型CRISPR蛋白,其中与SEQ ID NO:1-3中任一者的参考蛋白和SEQ ID NO:4或SEQ ID NO:5的gRNA的RNP相比,该RNP表现出至少一种或多种改善的特征。
实施方案72:根据实施方案71所述的2类V型CRISPR蛋白,其中该改善的特征选自增加的对向导核酸(gRNA)的结合亲和力;增加的对靶核酸的结合亲和力;改善的在靶核酸的编辑中利用更广谱的包括ATC、CTC、GTC或TTC的一种或多种PAM序列的能力;增加的靶核酸的解旋;增加的编辑活性;改善的编辑效率;增加的靶核酸的编辑特异性;增加的核酸酶活性;增加的用于双链切割的靶链加载;减少的用于单链切口的靶链加载;减少的靶核酸的脱靶切割;增加的非靶核酸链的结合;以及增加的蛋白质:gRNA复合物(RNP)稳定性。
实施方案73:根据实施方案71或实施方案72所述的2类V型CRISPR蛋白,其中与SEQID NO:1、SEQ ID NO:2或SEQ ID NO:3的该参考蛋白和SEQ ID NO:4或SEQ ID NO:5的该gRNA的该RNP相比,该RNP的该改善的特征增加到至少约1.1倍至约100,000倍。
实施方案74:根据实施方案71或实施方案72所述的2类V型CRISPR蛋白,其中与SEQID NO:1、SEQ ID NO:2或SEQ ID NO:3的该参考蛋白和SEQ ID NO:4或5的该gRNA的该RNP相比,该RNP的该改善的特征增加到至少约10倍、至少约100倍、至少约1,000倍或至少约10,000倍。
实施方案75:根据实施方案71至74中任一项所述的2类V型CRISPR蛋白,其中与SEQID NO:2的该参考蛋白和包含SEQ ID NO:4或5的该gRNA的该RNP相比,该RNP的该改善的特征包括编辑效率的1.1倍至100倍改善。
实施方案76:一种基因编辑对,该基因编辑对包含gRNA和2类V型CRISPR蛋白,该基因编辑对包含:
a.根据实施方案25至28中任一项所述的gRNA;和
b.根据实施方案29至75中任一项所述的2类V型CRISPR蛋白。
实施方案77:根据实施方案76所述的基因编辑对,其中该gRNA和该2类V型CRISPR蛋白能够形成核糖核蛋白复合物(RNP)。
实施方案78:根据实施方案76或实施方案77所述的基因编辑对,其中该gRNA和该2类V型CRISPR蛋白缔合在一起作为核糖核蛋白复合物(RNP)。
实施方案79:根据实施方案77或实施方案78所述的基因编辑对,其中与SEQ IDNO:1、SEQ ID NO:2或SEQ ID NO:3的参考蛋白和包含SEQ ID NO:4或SEQ ID NO:5的序列的gRNA的RNP相比,该2类V型CRISPR蛋白和该gRNA的RNP表现出至少一种或多种改善的特征。
实施方案80:根据实施方案79所述的基因编辑对,其中该改善的特征选自由以下组成的组中的一种或多种:该2类V型CRISPR蛋白对该gRNA的增加的结合亲和力;增加的对靶核酸的结合亲和力;增加的在靶核酸的编辑中利用更广谱的包括ATC、CTC、GTC或TTC的一种或多种PAM序列的能力;增加的靶核酸的解旋;增加的编辑活性;改善的编辑效率;增加的靶核酸的编辑特异性;增加的核酸酶活性;增加的用于双链切割的靶链加载;减少的用于单链切口的靶链加载;减少的靶核酸的脱靶切割;增加的非靶核酸链的结合;增加的蛋白质:gRNA复合物(RNP)稳定性;和增加的融合特征。
实施方案81:根据实施方案79或实施方案80所述的基因编辑对,其中在可比较的体外测定系统中,与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的该参考蛋白和包含SEQ IDNO:4或SEQ ID NO:5的序列的该gRNA的该RNP相比,该2类V型CRISPR蛋白和该gRNA的该RNP的该改善的特征增加到至少约1.1倍至约100倍或更多。
实施方案82:根据实施方案79或实施方案80所述的基因编辑对,其中在可比较的体外测定系统中,与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的该参考蛋白和包含SEQ IDNO:4或SEQ ID NO:5的序列的该gRNA相比,该2类V型CRISPR蛋白的该改善的特征增加到至少约1.1倍、至少约2倍、至少约10倍、至少约100倍或更多。
实施方案83:根据实施方案77至82中任一项所述的基因编辑对,其中当该PAM序列TTC、ATC、GTC或CTC中的任一者位于与细胞测定系统中该gRNA的该靶向序列具有同一性的原间隔序列的非靶链的5'端1个核苷酸处时,与在可比较的测定系统中对包含SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考蛋白和参考gRNA的RNP的该编辑效率和/或结合相比,包含该2类V型CRISPR蛋白和该gRNA的该RNP表现出对该靶核酸中的靶核酸序列更高的编辑效率和/或结合。
实施方案84:根据实施方案83所述的基因编辑对,其中该PAM序列是TTC。
实施方案85:根据实施方案83所述的基因编辑对,其中该PAM序列是ATC。
实施方案86:根据实施方案83所述的基因编辑对,其中该PAM序列是CTC。
实施方案87:根据实施方案83所述的基因编辑对,其中该PAM序列是GTC。
实施方案88:根据实施方案83至87中任一项所述的基因编辑对,其中当在可比较的体外测定系统中评估时,与SEQ ID NO:1-3的这些参考蛋白中的任一者和SEQ ID NO:4或SEQ ID NO:5的该gRNA的RNP的该结合亲和力相比,包含该2类V型CRISPR和该gRNA的该RNP表现出对该一种或多种PAM序列大到至少1.5倍、至少2倍、至少4倍、至少10倍、至少20倍、至少30倍或至少40倍的增加的结合亲和力。
实施方案89:根据实施方案77至88中任一项所述的基因编辑对,其中当在可比较的体外测定系统中评估时,与SEQ ID NO:1-3的这些参考蛋白中的任一者和SEQ ID NO:4或SEQ ID NO:5的该gRNA的RNP的该编辑效率相比,该2类V型CRISPR蛋白和该gRNA的该RNP表现出大到至少1.5倍、至少2倍、至少4倍、至少10倍、至少20倍、至少30倍或至少40倍的增加的编辑效率。
实施方案90:根据实施方案77至89中任一项所述的基因编辑对,其中当在可比较的体外测定系统中评估时,与SEQ ID NO:1-3的这些参考蛋白中的任一者和SEQ ID NO:4或SEQ ID NO:5的该gRNA的RNP相比,该2类V型CRISPR和该gRNA能够形成具有至少约5%、至少约10%、至少约15%或至少约20%更高百分比的有切割能力的构象的RNP。
实施方案91:根据实施方案77至90中任一项所述的基因编辑对,其中当在可比较的体外测定系统中评估时,与SEQ ID NO:1-3的这些参考蛋白中的任一者和SEQ ID NO:4或SEQ ID NO:5的该gRNA的RNP相比,包含该2类V型CRISPR和该gRNA的该RNP在定时体外测定中表现出对该靶核酸高到至少约5倍、至少约10倍或至少约20倍的切割速率。
实施方案92:根据实施方案77至91中任一项所述的基因编辑对,其中当在可比较的体外测定系统中评估时,与SEQ ID NO:1-3的这些参考蛋白中的任一者和SEQ ID NO:4或SEQ ID NO:5的该gRNA的RNP相比,包含该2类V型CRISPR和该gRNA的该RNP在定时体外测定中表现出更高百分比的该靶核酸的编辑,即高到至少约5倍、至少约10倍、至少约20倍或至少约100倍。
实施方案93:一种催化死亡的2类V型CRISPR蛋白,该CRISPR蛋白包含如表7所示的选自SEQ NO:44-62和1232-1235的序列,或与其具有至少60%、至少70%、至少80%、至少90%、至少95%、至少98%、至少99%的序列。
实施方案94:一种催化死亡的2类V型CRISPR蛋白,该CRISPR蛋白包含如表7所示的选自SEQ NO:44-62和1232-1235的序列。
实施方案95:根据实施方案93或实施方案94所述的2类V型CRISPR蛋白,其中并且该催化死亡的2类V型CRISPR蛋白和根据实施方案25至28中任一项所述的gRNA的RNP保留结合靶核酸的能力。
实施方案96:一种包含序列的核酸,该序列编码根据实施方案1至24中任一项所述的gRNA支架或根据实施方案25至28中任一项所述的gRNA。
实施方案97:一种包含序列的核酸,该序列编码根据实施方案29至75中任一项所述的2类V型CRISPR蛋白。
实施方案98:根据实施方案97所述的核酸,其中编码该2类V型CRISPR蛋白的该序列经密码子优化以用于在真核细胞中表达。
实施方案99:一种载体,该载体包含根据实施方案25至28中任一项所述的gRNA、根据实施方案29至75中任一项所述的2类V型CRISPR蛋白或根据实施方案96至98中任一项所述的核酸。
实施方案100:根据实施方案99所述的载体,其中该载体包含启动子。
实施方案101:根据实施方案99或实施方案100所述的载体,其中该载体选自逆转录病毒载体、慢病毒载体、腺病毒载体、腺相关病毒(AAV)载体、单纯疱疹病毒(HSV)载体、CasX递送颗粒(XDP)、质粒、微环、纳米质粒、DNA载体和RNA载体。
实施方案102:根据实施方案101所述的载体,其中该载体为AAV载体。
实施方案103:根据实施方案102所述的载体,其中该AAV载体选自AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV11、AAV12、AAV-Rh74或AAVRh10。
实施方案104:根据实施方案101所述的载体,其中该载体为逆转录病毒载体。
实施方案105:根据实施方案101所述的载体,其中该载体为包含gag多蛋白的一种或多种组分的XDP。
实施方案106:根据实施方案105所述的载体,其中该gag多蛋白的该一种或多种组分选自基质蛋白(MA)、核衣壳蛋白(NC)、衣壳蛋白(CA)、p1肽、p6肽、P2A肽、P2B肽、P10肽、p12肽、PP21/24肽、P12/P3/P8肽、P20肽和蛋白酶切割位点。
实施方案107:根据实施方案105或实施方案106所述的载体,其中该2类V型CRISPR蛋白和该gRNA在RNP中缔合在一起。
实施方案108:根据实施方案105至107中任一项所述的载体,该载体包含糖蛋白嗜性因子。
实施方案109:根据实施方案108所述的载体,其中该糖蛋白嗜性因子对靶细胞的细胞表面标记具有结合亲和力并且促进该XDP进入该靶细胞。
实施方案110:根据实施方案99至109中任一项所述的载体,该载体包含该供体模板。
实施方案111:一种宿主细胞,该宿主细胞包含根据实施方案99至110中任一项所述的载体。
实施方案112:根据实施方案111所述的宿主细胞,其中该宿主细胞选自幼仓鼠肾成纤维细胞(BHK)细胞、人胚肾293(HEK293)细胞、人胚肾293T(HEK293T)细胞、NS0细胞、SP2/0细胞、YO骨髓瘤细胞、P3X63小鼠骨髓瘤细胞、PER细胞、PER.C6细胞、杂交瘤细胞、NIH3T3细胞、源于SV40遗传物质(COS)的CV-1(猿猴)细胞、HeLa、中国仓鼠卵巢(CHO)细胞或酵母细胞。
实施方案113:一种修饰细胞中靶核酸的方法,该方法包括使该细胞的该靶核酸与以下物质接触:i)根据实施方案76至92中任一项所述的基因编辑对;ii)根据实施方案76至92中任一项所述的基因编辑对以及供体模板;iii)编码(i)或(ii)的基因编辑对的一种或多种核酸;iv)包含(iii)的核酸的载体;v)包含(i)或(ii)的所述基因编辑对的XDP;或vi)(i)至(v)中的两者或更多者的组合,其中该靶核酸的该接触修饰该靶核酸。
实施方案114:根据实施方案113所述的方法,该方法包括使该靶标与包含第一gRNA和第二gRNA或多种gRNA的多个基因编辑对接触,该gRNA包含与该靶核酸的不同或重叠区域互补的靶向序列。
实施方案115:根据实施方案113所述的方法,该方法包括使该靶标与编码包含第一gRNA和第二gRNA或多种gRNA的基因编辑对的多个核酸接触,该gRNA包含与该靶核酸的不同或重叠区域互补的靶向序列。
实施方案116:根据实施方案113所述的方法,该方法包括使该靶标与包含基因编辑对的多个XDP接触,这些基因编辑对包含第一gRNA和第二gRNA或多种gRNA,该gRNA包含与该靶核酸的不同或重叠区域互补的靶向序列。
实施方案117:根据实施方案113中任一项所述的方法,其中该接触包括将该靶核酸与该基因编辑对结合并且在该靶核酸中引入一个或多个单链断裂,其中该修饰包括在该靶核酸中引入突变、插入或缺失。
实施方案118:根据实施方案113至116中任一项所述的方法,其中该接触包括结合该靶核酸并在该靶核酸中引入一个或多个双链断裂,其中该修饰包括在该靶核酸中引入突变、插入或缺失。
实施方案119:根据实施方案113至118中任一项所述的方法,该方法包括使该靶核酸与供体模板核酸的核苷酸序列接触,其中该供体模板包含与该靶核酸具有同源性的核苷酸序列。
实施方案120:根据实施方案119所述的方法,其中该供体模板在该供体模板的5'和3'末端包含同源臂。
实施方案121:根据实施方案119或实施方案120所述的方法,其中通过同源定向修复将该供体模板在断裂位点处插入该靶核酸中。
实施方案122:根据实施方案121所述的方法,其中通过非同源末端连接(NHEJ)或微同源末端连接(MMEJ)将该供体模板在该断裂位点处插入该靶核酸中。
实施方案123:根据实施方案113至122中任一项所述的方法,其中该细胞的该修饰体外发生。
实施方案124:根据实施方案113至122中任一项所述的方法,其中该细胞的该修饰体内发生。
实施方案125:根据实施方案113至124中任一项所述的方法,其中该细胞为真核细胞
实施方案126:根据实施方案125所述的方法,其中该真核细胞选自啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞和非人灵长类动物细胞。
实施方案127:根据实施方案125所述的方法,其中该真核细胞为人细胞。
实施方案128:根据实施方案113至127中任一项所述的方法,其中该细胞选自胚胎干细胞、诱导的多能干细胞、生殖细胞、成纤维细胞、少突胶质细胞、神经胶质细胞、造血干细胞、神经元祖细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞、视网膜细胞、癌细胞、T-细胞、B-细胞、NK细胞、胎儿心肌细胞、肌成纤维细胞、间充质干细胞、自体移植扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源性细胞、内源性细胞、干细胞、造血干细胞、骨髓来源的祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞、自体细胞和产后干细胞。
实施方案129:根据实施方案124至128中任一项所述的方法,其中该细胞在受试者中。
实施方案130:根据实施方案129所述的方法,其中该修饰发生在该受试者的在基因的等位基因中具有突变的这些细胞中,其中该突变导致该受试者的疾病或障碍。
实施方案131:根据实施方案130所述的方法,其中该修饰将该突变改变为该基因的野生型等位基因或导致功能基因产物的表达。
实施方案132:根据实施方案130所述的方法,其中该修饰敲低或敲除引起该受试者的该疾病或障碍的该基因的该等位基因。
实施方案133:根据实施方案129至132中任一项所述的方法,其中该细胞相对于该受试者是自体的。
实施方案134:根据实施方案129至132中任一项所述的方法,其中该细胞相对于该受试者是同种异体自体的。
实施方案135:根据实施方案113至134中任一项所述的方法,其中该载体为腺相关病毒(AAV)载体。
实施方案136:根据实施方案135所述的方法,其中该AAV为AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV-Rh74或AAVRh10。
实施方案137:根据实施方案113所述的方法,其中该载体为慢病毒载体。
实施方案138:根据实施方案113至137中任一项所述的方法,其中使用治疗有效剂量将该载体施用于对其有需要的受试者。
实施方案139:根据实施方案138所述的方法,其中该受试者选自小鼠、大鼠、猪和非人灵长类动物。
实施方案140:根据实施方案138所述的方法,其中该受试者为人。
实施方案141:根据实施方案138至140中任一项所述的方法,其中该载体以至少约1×105个载体基因组/kg(vg/kg)、至少约1×106vg/kg、至少约1×107vg/kg、至少约1×108vg/kg、至少约1×109vg/kg、至少约1×1010vg/kg、至少约1×1011vg/kg、至少约1×1012vg/kg、至少约1×1013vg/kg、至少约1×1014vg/kg、至少约1×1015vg/kg或至少约1×1016vg/kg的剂量施用于该受试者。
实施方案142:根据实施方案138至140中任一项所述的方法,其中该载体以至少约1×105vg/kg至约1×1016vg/kg、至少约1×106vg/kg至约1×1015vg/kg或至少约1×107vg/kg至约1×1014vg/kg的剂量施用于该受试者。
实施方案143:根据实施方案113所述的方法,其中该载体为XDP。
实施方案144:根据实施方案143所述的方法,其中使用治疗有效剂量将该XDP施用于对其有需要的该受试者。
实施方案145:根据实施方案144所述的方法,其中将该XDP以至少约1×105个颗粒/kg、至少约1×106个颗粒/kg、至少约1×107个颗粒/kg、至少约1×108个颗粒/kg、至少约1×109个颗粒/kg、至少约1×1010个颗粒/kg、至少约1×1011个颗粒/kg、至少约1×1012个颗粒/kg、至少约1×1013个颗粒/kg、至少约1×1014个颗粒/kg、至少约1×1015个颗粒/kg、至少约1×1016个颗粒/kg的剂量施用于该受试者。
实施方案146:根据实施方案143所述的方法,其中将该XDP以至少约1×105个颗粒/kg至约1×1016个颗粒/kg、或至少约1×106个颗粒/kg至约1×1015个颗粒/kg、或至少约1×107个颗粒/kg至约1×1014个颗粒/kg的剂量施用于该受试者。
实施方案147:根据实施方案138至146中任一项所述的方法,其中该载体通过选自以下的施用途径施用:脑实质内、静脉内、动脉内、脑室内、脑池内、鞘内、颅内和腹膜内途径,其中该施用方法是注射、输注或植入。
实施方案148:根据实施方案141至147中任一项所述的方法,其中根据治疗方案将该载体施用于该受试者,该治疗方案包括使用治疗有效剂量的该载体的一次或多次连续剂量。
实施方案149:根据实施方案148所述的方法,其中该治疗有效剂量在至少两周、或至少一个月、或至少两个月、或至少三个月、或至少四个月、或至少五个月、或至少六个月、或每年一次、或每2年或3年的时间内以两个或更多个剂量施用于该受试者。
实施方案150:一种细胞,该细胞包含由根据实施方案76至92中任一项所述的基因编辑对修饰的靶核酸。
实施方案151:一种细胞,该细胞由根据实施方案113至149中任一项所述的方法编辑。
实施方案152:根据实施方案150或151所述的细胞,其中该细胞为原核细胞。
实施方案153:根据实施方案150或151所述的细胞,其中该细胞为真核细胞。
实施方案154:根据实施方案153所述的细胞,其中该真核细胞选自啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞和非人灵长类动物细胞。
实施方案155:根据实施方案153所述的细胞,其中该真核细胞为人细胞。
实施方案156:一种组合物,该组合物包含根据实施方案29至75中任一项所述的2类V型CRISPR蛋白。
实施方案157:根据实施方案156所述的组合物,该组合物包含根据实施方案25至28中任一项所述的gRNA。
实施方案158:根据实施方案157所述的组合物,其中该蛋白和该gRNA在核糖核蛋白复合物(RNP)中缔合在一起。
实施方案159:根据实施方案156至158中任一项所述的组合物,该组合物包含供体模板核酸,其中该供体模板包含与靶核酸具有同源性的核苷酸序列。
实施方案160:根据实施方案156至159中任一项所述的组合物,该组合物包含缓冲液、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记可视化试剂或前述物质的任何组合。
实施方案161:一种组合物,该组合物包含根据实施方案1至24中任一项所述的gRNA支架或根据实施方案25至28中任一项所述的gRNA。
实施方案162:根据实施方案161所述的组合物,该组合物包含根据实施方案29至75中任一项所述的2类V型CRISPR蛋白。
实施方案163:根据实施方案162所述的组合物,其中该2类V型CRISPR蛋白和该gRNA在核糖核蛋白复合物(RNP)中缔合在一起。
实施方案164:根据实施方案161至163中任一项所述的组合物,该组合物包含供体模板核酸,其中该供体模板包含与靶核酸具有同源性的核苷酸序列。
实施方案165:根据实施方案161至164中任一项所述的组合物,该组合物包含缓冲液、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记可视化试剂或前述物质的任何组合。
实施方案166:一种组合物,该组合物包含根据实施方案76至92中任一项所述的基因编辑对。
实施方案167:根据实施方案166所述的组合物,该组合物包含供体模板核酸,其中该供体模板包含与靶核酸具有同源性的核苷酸序列。
实施方案168:根据实施方案166或实施方案167所述的组合物,该组合物包含缓冲液、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记可视化试剂或前述物质的任何组合。
实施方案169:一种试剂盒,该试剂盒包括根据实施方案29至75中任一项所述的2类V型CRISPR蛋白以及容器。
实施方案170:根据实施方案169所述的试剂盒,该试剂盒包括根据实施方案1至24中任一项所述的gRNA支架或根据实施方案25至28中任一项所述的gRNA。
实施方案171:根据实施方案169或实施方案170所述的试剂盒,该试剂盒包括供体模板核酸,其中该供体模板包含与靶核酸的靶核酸序列具有同源性的核苷酸序列。
实施方案172:根据实施方案169至171中任一项所述的试剂盒,该试剂盒包括缓冲液、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记可视化试剂或前述物质的任何组合。
实施方案173:一种试剂盒,该试剂盒包括根据实施方案1至24中任一项所述的gRNA支架或根据实施方案25至28中任一项所述的gRNA。
实施方案174:根据实施方案173所述的试剂盒,该试剂盒包括根据实施方案29至75中任一项所述的2类V型CRISPR蛋白。
实施方案175:根据实施方案173或实施方案174所述的试剂盒,该试剂盒包括供体模板核酸,其中该供体模板包含与靶核酸的靶核酸序列具有同源性的核苷酸序列。
实施方案176:根据实施方案173至175中任一项所述的试剂盒,该试剂盒包括缓冲液、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记可视化试剂或前述物质的任何组合。
实施方案177:一种试剂盒,该试剂盒包括根据实施方案76至92中任一项所述的基因编辑对。
实施方案178:根据实施方案177所述的试剂盒,该试剂盒包括供体模板核酸,其中该供体模板包含与靶核酸具有同源性的核苷酸序列。
实施方案179:根据实施方案177或实施方案178所述的试剂盒,该试剂盒包括缓冲液、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记可视化试剂或前述物质的任何组合。
实施方案180:一种工程化2类V型CRISPR蛋白,该工程化2类V型CRISPR蛋白包含表3中列出的序列中的任一种。
实施方案181:一种gRNA,该gRNA包含表2中列出的gRNA支架变体序列中的任一种。
实施方案182:根据实施方案181所述的gRNA,其中表2序列的该gRNA支架变体的一个或多个尿嘧啶(U)被胸腺嘧啶(T)替换。
实施方案183:根据实施方案182所述的gRNA,该gRNA包含与靶核酸互补的至少10至30个核苷酸的靶向序列。
实施方案184:根据实施方案183所述的gRNA,其中该靶向序列具有20个核苷酸。
实施方案185:根据实施方案183所述的gRNA,其中该靶向序列具有19个核苷酸。
实施方案186:根据实施方案183所述的gRNA,其中该靶向序列具有18个核苷酸。
实施方案187:根据实施方案183所述的gRNA,其中该靶向序列具有17个核苷酸。
实施方案188:根据实施方案183所述的gRNA,其中该靶向序列具有16个核苷酸。
实施方案189:根据实施方案183所述的gRNA,其中该靶向序列具有15个核苷酸。
实施方案190:一种治疗对其有需要的受试者的疾病的方法,该方法包括向该受试者施用治疗有效量的组合物,该组合物包含:(a)根据实施方案29至75和180中任一项所述的工程化2类V型CRISPR蛋白和(b)根据实施方案25至28和181至189中任一项所述的gRNA。
实施方案191:一种组合物,该组合物包含:(a)根据实施方案29至75和180中任一项所述的工程化2类V型CRISPR蛋白和(b)根据实施方案25至28和181至189中任一项所述的gRNA,该组合物用作用于治疗患有疾病的受试者的药物。
以下实施例仅仅是说明性的,并不意味着以任何方式限制本公开的任何方面。
实施例
实施例1:产生CasX变体构建体
为了产生CasX 488构建体(表9中的序列),使用标准克隆方法将密码子优化的CasX 119构建体(基于CasX Stx2构建体,编码浮霉菌门CasX SEQ ID NO:2,具有氨基酸取代和缺失)克隆到目的质粒(pStX)中。为了产生CasX 491构建体(表9中的序列),使用标准克隆方法将密码子优化的CasX 484构建体(基于CasX Stx2构建体,编码浮霉菌门CasX SEQID NO:2,具有某些氨基酸的取代和缺失,具有融合的NLS,以及连接的向导物和非靶向序列)克隆到目的质粒(pStX)中。使用标准克隆方法将构建体CasX 1(CasX SEQ ID NO:1)克隆到目的载体中。为了构建CasX 488,CasX 119构建体DNA在两个反应中根据制造商规程使用Q5 DNA聚合酶并使用通用的合适引物进行了PCR扩增。为了构建CasX 491,密码子优化的CasX 484构建体DNA在两个反应中根据制造商规程使用Q5 DNA聚合酶并使用合适引物进行了PCR扩增。CasX 1构建体在两个反应中根据制造商规程使用Q5 DNA聚合酶并使用通用的合适引物进行了PCR扩增。根据制造商规程使用Zymoclean凝胶DNA回收试剂盒,通过从1%琼脂糖凝胶(Gold Bio目录号A-201-500)进行凝胶提取纯化每个PCR产物。然后使用Gibson组装(New England BioLabs目录号E2621S)按照制造商规程将对应的片段拼接在一起。将pStx1中的组装产物转化到化学感受态的Turbo感受态大肠杆菌细菌细胞中,接种在含有卡那霉素的LB-琼脂板上。挑出单个菌落并使用Qiagen离心小量制备试剂盒按照制造商规程进行微量制备。使用Sanger测序对所得质粒进行测序以确保正确的组装。然后使用限制性酶克隆将正确的克隆亚克隆到哺乳动物表达载体pStx34中。分别用XbaI和BamHI消化pStx1中的pStx34主链和CasX 488和491克隆。根据制造商规程使用Zymoclean凝胶DNA回收试剂盒,通过从1%琼脂糖凝胶(Gold Bio目录号A-201-500)进行凝胶提取纯化所消化的主链和相应的插入片段。然后根据制造商规程使用T4连接酶(New England Biolabs目录号M0202L)将干净的主链和插入物连接在一起。将连接的产物转化到化学感受态的Turbo感受态大肠杆菌细菌细胞中,接种在含有羧苄青霉素的LB-琼脂板上。挑出单个菌落并使用Qiagen离心小量制备试剂盒按照制造商规程进行微量制备。使用Sanger测序对所得质粒进行测序以确保正确的组装。
为了构建CasX 515(表9中的序列),CasX 491构建体DNA在两个反应中根据制造商规程使用Q5 DNA聚合酶并使用合适引物进行了PCR扩增。为了构建CasX 527(表9中的序列),CasX 491构建体DNA在两个反应中根据制造商规程使用Q5 DNA聚合酶并使用合适引物进行了PCR扩增。根据制造商规程使用Zymoclean凝胶DNA回收试剂盒,通过从1%琼脂糖凝胶进行凝胶提取纯化PCR产物。使用XbaI和SpeI消化pStX主链,以去除质粒pStx56中两个位点之间的DNA的2931个碱基对片段。根据制造商规程使用Zymoclean凝胶DNA回收试剂盒,通过从1%琼脂糖凝胶进行凝胶提取纯化所消化的主链片段。然后使用Gibson组装(NewEngland BioLabs目录号E2621S)按照制造商规程将插入物和主链片段拼接在一起。将pStx56中的组装产物转化到化学感受态的Turbo感受态大肠杆菌细菌细胞中,接种在含有卡那霉素的LB-琼脂板上。挑出单个菌落并使用Qiagen离心小量制备试剂盒按照制造商规程进行微量制备。使用Sanger测序对所得质粒进行测序以确保正确的组装。pStX34包括该蛋白的EF-1α启动子以及嘌呤霉素和羧苄青霉素两者的选择标记。pStX56包括该蛋白的EF-1α启动子以及嘌呤霉素和羧苄青霉素两者的选择标记。编码靶向感兴趣基因的靶向序列的序列是基于CasX PAM位置设计的。靶向序列DNA被排序为由靶向序列和该序列的反向互补序列组成的单链DNA(ssDNA)寡核苷酸(Integrated DNA Technologies)。将这两个寡核苷酸一起退火,并使用T4 DNA连接酶和用于质粒的合适限制性酶通过Golden Gate组装单独或批量克隆到pStX中。将Golden Gate产物转化到化学或电感受态细胞诸如NEB Turbo感受态大肠杆菌(NEB目录号C2984I)中,接种在含有适当抗生素的LB-琼脂板上。挑出单个菌落并使用Qiaprep离心小量制备试剂盒并按照制造商规程进行微量制备。使用Sanger测序对所得质粒进行测序以确保正确的连接。
为了构建CasX 535-537(表9中的序列),CasX 515构建体DNA在每个构建体的两个反应中根据制造商规程使用Q5 DNA聚合酶进行了PCR扩增。对于CasX 535,使用合适引物进行扩增。对于CasX 536,使用合适引物。对于CasX 537,使用合适引物。根据制造商规程使用Zymoclean凝胶DNA回收试剂盒,通过从1%琼脂糖凝胶进行凝胶提取纯化PCR产物。使用XbaI和SpeI消化pStX主链,以去除质粒pStx56中两个位点之间的DNA的2931个碱基对片段。根据制造商规程使用Zymoclean凝胶DNA回收试剂盒,通过从1%琼脂糖凝胶进行凝胶提取纯化所消化的主链片段。然后使用Gibson组装按照制造商规程将插入物和主链片段拼接在一起。将pStx56中的组装产物转化到化学感受态的Turbo感受态大肠杆菌细菌细胞中,接种在含有卡那霉素的LB-琼脂板上。挑出单个菌落并使用Qiagen离心小量制备试剂盒按照制造商规程进行微量制备。使用Sanger测序对所得质粒进行测序以确保正确的组装。pStX34包括该蛋白的EF-1α启动子以及嘌呤霉素和羧苄青霉素两者的选择标记。pStX56包括该蛋白的EF-1α启动子以及嘌呤霉素和羧苄青霉素两者的选择标记。编码靶向感兴趣基因的靶向序列的序列是基于CasX PAM位置设计的。靶向序列DNA被排序为由靶向序列和该序列的反向互补序列组成的单链DNA(ssDNA)寡核苷酸(Integrated DNA Technologies)。将这两个寡核苷酸一起退火,并使用T4DNA连接酶和用于质粒的合适限制性酶通过Golden Gate组装单独或批量克隆到pStX中。将Golden Gate产物转化到化学或电感受态细胞诸如NEBTurbo感受态大肠杆菌中,接种在含有适当抗生素的LB-琼脂板上。挑出单个菌落并使用Qiaprep离心小量制备试剂盒并按照制造商规程进行微量制备。使用Sanger测序对所得质粒进行测序以确保正确的连接。
所有后续的CasX变体,诸如CasX 544和CasX 660-664、668、670、672、676和677,使用上述相同的方法,使用突变特异性内部引物和通用正向和反向引物(它们之间的差异是所设计的突变特异性引物以及所使用的CasX碱基构建体)进行克隆。与上述pStX质粒类似地制备SaCas9和SpyCas9对照质粒,将pStX的蛋白质和引导区换成相应的蛋白质和引导区。SaCas9和SpyCas9的靶向序列从文献中获得或根据已建立的方法合理地设计。
使用标准方法进行CasX构建体的表达和回收,并总结如下:
纯化:
冷冻样品在磁力搅拌下于4℃解冻过夜。通过超声处理降低所得裂解物的粘度,并使用NanoDeBEE(BEE International)在20k PSI下通过两次均质化完成裂解。通过在4℃下以50,000x g离心30分钟来澄清裂解物,并收集上清液。使用AKTA纯FPLC(Cytiva)将澄清的上清液应用于肝素6快速流动柱(Cytiva)。柱用5CV肝素缓冲液A(50mM HEPES-NaOH、250mMNaCl、5mM MgCl2、0.5mM TCEP、10%甘油,pH 8)洗涤,然后用3CV肝素缓冲液B(NaCl浓度调节至500mM的缓冲液A)洗涤。蛋白质用1.75CV肝素缓冲液C(NaCl浓度调节至1M的缓冲液A)洗脱。使用FPLC将洗脱液应用于StrepTactin HP柱(Cytiva)。用10CV的Strep缓冲液(50mMHEPES-NaOH、500mM NaCl、5mM MgCl2、0.5mM TCEP、10%甘油,pH 8)洗涤柱。使用添加了2.5mM脱硫生物素的1.65CV的Strep缓冲液从柱上洗脱蛋白质。将含CasX的级分合并,使用50kDa截留旋转浓缩器(Amicon)在4℃下浓缩,并在Superdex 200pg柱(Cytiva)上通过尺寸排阻色谱法进行纯化。该柱用SEC缓冲液(25mM磷酸钠、300mM NaCl、1mM TCEP、10%甘油,pH7.25)平衡并通过FPLC操作。将以适当分子量洗脱的含CasX的级分合并,使用50kDa截留旋转浓缩器在4℃下浓缩,将其等分,并在液氮中快速冷冻,然后储存在-80℃下。
CasX变体488:通过胶体考马斯染色评价,平均产量为每升培养物2.7mg纯化的CasX蛋白,纯度为98.8%。
CasX变体491:通过胶体考马斯染色评价,平均产量为每升培养物12.4mg纯化的CasX蛋白,纯度为99.4%。
CasX变体515:通过胶体考马斯染色评价,平均产量为每升培养物7.8mg纯化的CasX蛋白,纯度为90%。
CasX变体526:平均产量为每升培养物13.79mg,纯度为93%。纯度通过胶体考马斯染色评价。
CasX变体668:平均产量为每升培养物3.32mg,纯度为93%。纯度通过胶体考马斯染色评价。
CasX变体672:平均产量为每升培养物6.50mg,纯度为88%。纯度通过胶体考马斯染色评价。
CasX变体676:平均产量为每升培养物5.05mg,纯度为92%。纯度通过胶体考马斯染色评价。
CasX变体677:平均产量为每升培养物2.93mg,纯度为81%。纯度通过胶体考马斯染色评价。
表9:CasX变体DNA和氨基酸序列
实施例2:RNA向导物的产生
为了产生RNA单向导物和靶向序列,通过用Q5聚合酶、用于每个主链的模板引物和具有T7启动子和靶向序列的扩增引物进行PCR来产生用于体外转录的模板。T7启动子的DNA引物序列、用于向导物的向导和靶向序列以及靶向序列示于下表10中。sg1、sg2、sg32、sg64、sg174和sg235分别对应于SEQ ID NO:4、5、2104、2106、2238和2292,不同的是sg2、sg32和sg64用另外的5'G修饰以增加转录效率(比较表10与表2中的序列)。7.37靶向序列靶向β2-微球蛋白(B2M)。PCR扩增后,清洗模板并通过苯酚-氯仿-异戊醇萃取然后乙醇沉淀来分离。
在含有50mM Tris pH 8.0、30mM MgCl2、0.01% Triton X-100、2mM亚精胺、20mMDTT、5mM NTP、0.5μM模板和100μg/mL T7 RNA聚合酶的缓冲液中进行体外转录。反应物在37℃下孵育过夜。每1mL转录体积加入20单位的DNase I(Promega#M6101)并孵育1小时。RNA产物通过变性PAGE纯化,乙醇沉淀,并重悬于1X磷酸盐缓冲盐水中。为了折叠sgRNA,将样品加热至70℃保持5分钟,然后冷却至室温。将反应物补充至1mM最终MgCl2浓度,加热至50℃保持5分钟,然后冷却至室温。最终的RNA向导产物储存在-80℃下。
表10:T7启动子的DNA引物序列、用于向导物的向导和靶向序列
实施例3:评估与向导RNA的结合亲和力
纯化的野生型和改善的CasX将与含有3’Cy7.5部分的合成单向导RNA在含有氯化镁和肝素的低盐缓冲液中孵育,以防止非特异性结合和聚集。sgRNA将维持在10pM的浓度,而蛋白质将在单独的结合反应中从1pM滴定到100μM。在使反应达到平衡后,使样品通过具有硝酸纤维素膜和带正电荷的尼龙膜的真空歧管过滤结合测定,这些膜分别结合蛋白质和核酸。将对膜进行成像以鉴定向导RNA,并且结合的RNA与未结合的RNA的比例将通过硝酸纤维素膜与尼龙膜上每种蛋白质浓度的荧光量来测定,以计算蛋白质-sgRNA复合物的解离常数。该实验也将使用sgRNA的改善变体进行,以确定这些突变是否也影响向导物对野生型蛋白质和突变型蛋白质的亲和力。我们还将进行电迁移率变动分析以定性地与过滤结合测定进行比较,并且确认可溶性结合而不是聚集是蛋白质-RNA缔合的主要贡献因素。
实施例4:评估与靶DNA的结合亲和力
纯化的野生型和改善的CasX将与携带与靶核酸互补的靶向序列的单向导RNA复合。将RNP复合物与含有PAM的双链靶DNA和在靶链上具有5’Cy7.5标记的适当靶核酸序列在含有氯化镁以及肝素的低盐缓冲液中孵育,以防止非特异性结合和聚集。靶DNA将维持在1nM的浓度,而RNP将在单独的结合反应中从1pM滴定到100μM。使反应达到平衡后,使样品在天然5%聚丙烯酰胺凝胶上电泳,以分离结合的和未结合的靶DNA。将凝胶成像以鉴定靶DNA的迁移率变化,并计算每种蛋白质浓度的结合的RNA与未结合的RNA的比例,以确定RNP-靶DNA三元复合物的解离常数。
实施例5:体外评估差异PAM识别。[图#使用SCRB-038]
1.参考变体和CasX变体的比较
使用与sg174.7.37复合的CasX2、CasX119和CasX438进行体外切割测定,基本上如实施例8中所述。使用具有7.37间隔区和TTC、CTC、GTC或ATC PAM的荧光标记的dsDNA靶(序列在表11中)。时间点取0.25分钟、0.5分钟、1分钟、2分钟、5分钟、10分钟、30分钟和60分钟。凝胶用Cytiva Typhoon成像,并用IQTL 8.2软件定量。测定每个靶上的每个CasX:sgRNA复合物的非靶链切割的表观一级速率常数(k切割)。将具有非TTC PAM的靶的速率常数与TTCPAM靶的速率常数进行比较,以确定在给定的蛋白变体中是否改变了对每种PAM的相对偏好。
对于所有变体,TTC靶支持最高的切割速率,接着是ATC,然后是CTC,最后是GTC靶(图10A至图10D,表12)。对于CasX变体和NTC PAM的每种组合,显示了切割速率k切割。对于所有非NTC PAM,与该变体的TTC速率相比的相对切割速率显示在括号中。所有非TTC PAM表现出显著降低的切割速率(所有的>10倍)。给定的非TTC PAM的切割速率与特定变体的TTCPAM之间的比率在所有变体中通常保持一致。CTC靶支持的切割速率达到TTC靶的切割速率的3.5%-4.3%;GTC靶支持的切割速率达到1.0%-1.4%;并且ATC靶支持的切割速率达到6.5%-8.3%。对于491是例外的,其中在TTC PAM处的切割动力学太快而不允许精确测量,这人为地降低了TTC与非TTC PAM之间的表观差异。比较491在GTC、CTC和ATC PAM上的相对速率(其落入可测量的范围内),产生与其它变体在与非TTC PAM比较时的相对速率相当的比率,与串联增加的速率一致。总之,变体之间的差异不足以表明各种NTC PAM的相对偏好已改变。然而,变体的较高基础切割速率允许具有ATC或CTC PAM的靶在10分钟内几乎完全被切割,并且表观k切割与CasX2在TTC PAM上的k切割相当或更大(表12)。这种增加的切割速率可超过人细胞中有效基因组编辑所需的阈值,解释了这些变体的PAM灵活性的明显增加。
表11:用于体外PAM切割测定的DNA底物的序列
*每一者的PAM序列以粗体显示。TS-靶链。NTS-非靶链。
表12:CasX变体与NTC PAM相比的表观切割速率
2.使用单一CasX变体的PAM识别的比较
材料和方法:使用具有7.37间隔区和TTC、CTC、GTC、ATC、TTT、CTT、GTT或ATT PAM的荧光标记的dsDNA靶(序列在表13中)。寡核苷酸用5'氨基修饰排序,并且针对靶链寡核苷酸用Cy7.5 NHS酯标记,针对非靶链寡核苷酸用Cy5.5 NHS酯标记。通过在1x切割缓冲液(20mMTris HCl pH 7.5、150mM NaCl、1mM TCEP、5%甘油、10mM MgCl2)中以1:1比率混合寡核苷酸,加热至95℃保持10分钟,并使溶液冷却至室温来形成dsDNA靶。
CasX变体491与sg174.7.37复合。在1X切割缓冲液中将向导物稀释至1.5μM的最终浓度,然后加入蛋白质至1μM的最终浓度。在37℃孵育RNP 10分钟,然后置于冰上。
通过在切割缓冲液中稀释RNP至200nM的最终浓度并加入dsDNA靶至10nM的最终浓度来进行切割测定。时间点取0.25分钟、0.5分钟、1分钟、2分钟、5分钟和10分钟,并通过加入等体积的95%甲酰胺和20mM EDTA猝灭。通过使切割产物在10%脲-PAGE凝胶上电泳来分离切割产物。凝胶用Amersham Typhoon成像,并用IQTL 8.2软件定量。使用GraphPad Prism测定每个靶的非靶链切割的表观一级速率常数(k切割)。
结果:
研究了491.174RNP在各种PAM上的相对切割速率。除了有助于预测细胞中靶和潜在脱靶的切割效率之外,这些数据还将允许我们调节合成靶的切割速率。在自限性AAV载体的情况下,其中可在载体内添加新的原间隔序列以允许自我靶向,我们推断可通过改变PAM来上调或下调附加体切割的速率。
我们测试了RNP对除PAM外序列相同的各种dsDNA底物的切割速率。该实验设置应该考虑到PAM本身作用的分离,而不是将PAM识别与由间隔区序列和基因组背景产生的作用进行卷积。测试所有NTC和NTT PAM。如所预期的,RNP用TTC PAM最快速地切割靶,到第一时间点基本上将其全部转化为产物(图11A)。虽然TTC的快速切割使得在这些测定条件下难以确定准确的k切割,但是CTC的切割速度大约是一半,这些测定条件被优化以捕获更宽的切割速率范围(图11A,表14)。在NTC PAM中,GTC靶被切割得最慢,切割速率为TTC靶的约1/6。所有NTT PAM比所有NTC PAM切割得更慢,TTT切割最有效,随后是GTT(图11B,表14)。与所有NTC PAM中的低GTC切割速率相比,所有NTT PAM中GTT切割的相对效率证明单个PAM核苷酸的识别是背景依赖性的,其中PAM中一个位置处的核苷酸同一性影响其它位置处的序列偏好。
本文测试的PAM序列产生跨越三个数量级的切割速率,同时仍维持相同间隔区序列的切割活性。这些数据表明,通过改变相关的PAM,可容易地改变在给定合成靶上的切割速率,从而允许调节自切割活性,以允许在切割和消除AAV附加体之前有效靶向基因组靶。
表13:用于体外PAM切割测定的DNA底物的序列*
*显示了用于产生每种dsDNA底物的DNA序列。每一者的PAM序列以粗体显示。TS-靶链。NTS-非靶链。
表14:CasX 491.174与NTC和NTT PAM相比的表观切割速率
PAM | TTC | ATC | CTC | GTC | TTT | ATT | CTT | GTT |
k切割(min-1) | 15.6* | 6.66 | 9.45 | 2.52 | 1.33 | 0.0675 | 0.0204 | 0.330 |
*TTC切割的速率超过该测定的分辨率,因此所得k-切割应视为下限。
实施例6:评估双链切割的核酸酶活性
纯化的野生型和工程化CasX变体将与带有固定HRS靶向序列的单向导RNA复合。将RNP复合物以100nM的最终浓度加入到含有MgCl2的缓冲液中,并与以10nM的浓度在靶或非靶链上具有5’Cy7.5标记的双链靶DNA一起孵育。在固定的时间点取等分试样的反应物,并通过加入等体积的50mM EDTA和95%甲酰胺猝灭。使样品在变性聚丙烯酰胺凝胶上电泳,以分离切割和未切割的DNA底物。结果将被可视化,并且将测定野生型和工程化变体对靶链和非靶链的切割速率。为了更清楚地区分靶结合的变化与溶核反应本身的催化速率,将在10nM至1μM的范围内滴定蛋白质浓度,并且将在每个浓度下测定切割速率,以产生假米氏拟合并测定kcat*和KM*。KM*的变化表示改变的结合,而kcat*的变化表示改变的催化作用。
实施例7:PASS测定鉴定了具有不同PAM序列特异性的CasX蛋白变体。
进行实验以鉴定CasX蛋白2(SEQ ID NO:2)、491、515、533、535、668和672的PAM序列特异性。为了实现这一点,在至少两个重复实验中用上述CasX蛋白处理HEK293细胞系PASS_V1.01或PASS_V1.02,并且进行下一代测序(NGS)以计算在它们的预期靶位点处使用多种间隔区的编辑百分比。
材料和方法:采用多重合并方法,利用PASS系统测定克隆蛋白变体。简言之,产生了两个合并的HEK293细胞系并命名为PASS_V1.01和PASS_V1.02。池内的每个细胞含有基因组整合的单向导RNA(sgRNA),与特定靶位点配对。在转染蛋白质表达构建体后,特定间隔区在特定靶处的编辑可通过NGS定量。设计每个向导物-靶对以提供与CasX-向导RNP复合物的活性、特异性和靶向性相关的数据。
配对的间隔区-靶序列由Twist Biosciences合成并作为寡核苷酸的等摩尔池获得。该池通过PCR扩增并通过Golden Gate克隆进行克隆,以生成命名为p77的最终质粒文库。每个质粒含有sgRNA表达元件和靶位点以及GFP表达元件。sgRNA表达元件由驱动gRNA支架174(SEQ ID NO:2238)转录的U6启动子,随后是将向导物和CasX变体的RNP靶向预期靶位点的间隔区序列组成。设计并合成了250个可能的独特、配对的间隔区-靶合成序列。然后根据制造商的说明书,使用LentiX生产系统(Takara Bio USA,Inc)从该质粒文库产生慢病毒池。然后通过qPCR定量所得病毒制剂,并以低感染复数转导至标准HEK293细胞系中,以生成单拷贝整合。然后通过荧光激活细胞分选(FACS)纯化所得细胞系以完成PASS_V1.01或PASS_V1.02的产生。然后将细胞系接种在六孔板形式中,并用水一式两份处理或用2μg质粒p67转染,该质粒通过Lipofectamine转染试剂(ThermoFisher)根据制造商的说明书递送。质粒p67含有驱动用SV40核定位序列标记的CasX蛋白表达的EF-1α启动子。两天后,收集经处理的细胞,裂解,并使用基因组DNA分离试剂盒(Zymo Research)提取基因组DNA。然后用定制引物对基因组DNA进行PCR扩增,以产生与Illumina NGS兼容的扩增子,并在NextSeq仪器上测序。将样品读数解复用并过滤质量。然后对处理过的样品中每个间隔区-靶合成序列的编辑结果指标(具有插入缺失的读段的比例)进行定量。
为了评估CasX蛋白的PAM序列特异性,对四种不同PAM序列的编辑结果指标进行分类。对于TTC PAM靶位点,定量了48个不同的间隔区-靶对;对于ATC、CTC和GTC PAM靶位点,分别定量了14、22和11个单独的靶位点。对于一些CasX蛋白,重复实验在几个月内重复了几十次。对于这些实验中的每个实验,计算上述间隔区中的每个间隔区的平均编辑效率。然后从所有此类实验计算四类PAM序列的平均编辑效率,以及这些测量值的标准偏差。
结果:表15列出了跨PAM类别和跨CasX蛋白变体的平均编辑效率,以及这些测量值的标准偏差。还示出了每个类别的测量次数。这些数据表明工程化CasX变体491和515对经典PAM序列TTC是特异性的,而CasX的其它工程化变体对所测试的PAM序列表现得更有效或更无效。特别地,对于CasX 491,PAM偏好的平均等级顺序为TTC>>ATC>CTC>GTC,或对于CasX515则为TTC>>ATC>GTC>CTC,而野生型CasX 2表现出TTC>>GTC>CTC>ATC的平均等级顺序。请注意,对于较低的编辑PAM序列,这些平均测量值的误差很高。相比之下,CasX变体535、668和672具有相当广泛的PAM识别,其等级顺序为TTC>CTC>ATC>GTC。最后,CasX 533表现出相对于WT CasX完全重新排序的等级,ATC>CTC>>GTC>TTC。这些数据可用于为感兴趣的靶DNA序列工程化最大活性的治疗性CasX分子。
在实验条件下,鉴定了一组CasX蛋白,其在人细胞中在与序列TTC、ATC、CTC或GTC的PAM相关的靶DNA序列处的双链DNA切割得到改善,支持了CasX变体具有相对于改变的PAM特异性谱
表15:所选CasX蛋白在与TTC、ATC、CTC或GTC的PAM序列相关的间隔区的平均编辑
/>
实施例8:CasX:gRNA体外切割测定
1.RNP的组装
CasX的纯化的野生型和RNP以及单向导RNA(sgRNA)在实验前立即制备,或者在液氮中制备并快速冷冻,并在-80℃下储存以备后用。为了制备RNP复合物,将CasX蛋白与sgRNA以1:1.2摩尔比孵育。简言之,将sgRNA加入到缓冲液#1(25mM NaPi、150mM NaCl、200mM海藻糖、1mM MgCl2)中,然后将CasX加入到sgRNA溶液中,在涡旋下缓慢加入,并在37℃下孵育10分钟以形成RNP复合物。RNP复合物在使用前通过用200μl缓冲液#1预润湿的0.22μm Costar 8160过滤器过滤。如果需要,用0.5ml Ultra 100-Kd截止过滤器(Millipore part#UFC510096)浓缩RNP样品,直到获得所需体积。如下所述评估有切割能力的RNP的形成。
2.确定与野生型参考CasX比较的蛋白变体的有切割能力的比例
与参考CasX相比,CasX变体形成活性RNP的能力使用体外切割测定来确定。用于切割测定的β-2微球蛋白(B2M)7.37靶如下产生。具有序列TGAAGCTGACAGCATTCGGGCCGAGATGTCTCGCTCCGTGGCCTTAGCTGTGCTCGCGCT(非靶链,NTS(SEQ ID NO:1069))和AGCGCGAGCACAGCTAAGGCCACGGAGCGAGACATCTCGGCCCGAATGCTGTCAGCTTCA(靶链,TS(SEQ ID NO:1068))的DNA寡核苷酸与5'荧光标记(分别为LI-COR IRDye 700和800)一起购买。通过在1x切割缓冲液(20mM Tris HCl pH 7.5、150mM NaCl、1mM TCEP、5%甘油、10mM MgCl2)以1:1的比率混合寡核苷酸,加热至95℃保持10分钟,并使溶液冷却至室温来形成dsDNA靶。
除非另有说明,否则用指定的CasX和向导物(参见图表)并加入1.5倍过量的指定向导物,将CasX RNP在37℃下在1×切割缓冲液(20mM Tris HCl pH 7.5,150mM NaCl,1mMTCEP,5%甘油,10mM MgCl2)中以1μM的最终浓度重构10分钟,然后移至冰上直至准备使用。使用7.37靶以及具有与7.37靶互补的间隔区的sgRNA。
用100nM的最终RNP浓度和100nM的最终靶浓度准备切割反应。反应在37℃下进行,并通过加入7.37靶DNA引发。在5分钟、10分钟、30分钟、60分钟和120分钟取等分试样,并通过加入95%甲酰胺、20mM EDTA猝灭。通过在95℃加热10分钟使样品变性,并使样品在10%脲-PAGE凝胶上电泳。凝胶要么使用LI-COR Odyssey CLx成像并使用LI-COR Image Studio软件定量,要么使用Cytiva Typhoon成像并使用Cytiva IQTL软件定量。所得数据使用Prism绘制和分析。我们假设CasX在测定条件下基本上作为单周转酶起作用,如通过以下观察所表明的,即亚化学计量量的酶甚至在延长的时间尺度下也不能切割大于化学计量量的靶,而是接近与存在的酶量成比例的平台。因此,在长时间范围内被等摩尔量的RNP切割的靶的比例指示了多少比例的RNP被适当地形成并且对于切割是有活性的。用双相速率模型拟合切割迹线,因为在该浓度方案下切割反应明显偏离单相,并且对于三次独立重复的每次独立重复确定平台。计算平均值和标准偏差以确定活性比例(表16)。
如图1所示,测定了CasX2+向导物174+7.37间隔区、CasX119+向导物174+7.37间隔区、CasX457+向导物174+7.37间隔区、CasX488+向导物174+7.37间隔区和CasX491+向导物174+7.37间隔区形成的RNP的表观活性(有切割能力)比例。测定的活性比例显示在表16中。所有CasX变体具有比野生型CasX2更高的活性比例,表明与野生型CasX相比,工程化CasX变体在测试条件下以相同向导物形成显著更具活性且更稳定的RNP。这可能是由于对sgRNA的亲和力增加、在sgRNA存在下的稳定性或溶解度增加、或者工程化CasX:sgRNA复合物的有切割能力的构象的稳定性更大。与CasX2相比,当向sgRNA中加入CasX457、CasX488或CasX491时,所观察到的形成的沉淀明显减少,这表明RNP的溶解度增加。
3.体外切割测定—确定单向导变体相对于参考单向导物的有切割能力的比例
如图2和表16所示,还使用相同的方案将CasX2.2.7.37、CasX2.32.7.37、CasX2.64.7.37和CasX2.174.7.37的有切割能力的比例测定为16±3%、13±3%、5±2%和22±5%。
在不同条件下测试第二组向导物,以更好地分离向导物对RNP形成的贡献。将具有7.37间隔区的向导物174、175、185、186、196、214和215与CasX 491以对于向导物为1μM且对于蛋白质为1.5μM的最终浓度混合,而不是如之前使用过量向导物。结果示于图3和表16中。这些向导物中的许多向导物表现出超过174的额外改善,其中185和196分别达到了91±4%和91±1%的有切割能力的比例,相比之下,在这些向导物限制条件下,174的有切割能力的比例为80%±9%。
数据指示,与野生型CasX和野生型sgRNA相比,CasX变体和sgRNA变体都能够与向导RNA形成更高程度的活性RNP。
与野生型参考CasX相比,CasX变体119、457、488和491的表观切割速率使用用于靶7.37的切割的体外荧光测定来测定。
4.体外切割测定—确定与野生型参考CasX相比CasX变体的k切割
用指定CasX(参见图4)并加入1.5倍过量的指定向导物,将CasX RNP在37℃下在1×切割缓冲液(20mM Tris HCl pH 7.5,150mM NaCl,1mM TCEP,5%甘油,10mM MgCl2)中以1μM的最终浓度重构10分钟,然后移至冰上直至准备使用。用200nM的最终RNP浓度和10nM的最终靶浓度建立切割反应。除非另有说明,否则反应在37℃下进行,并通过加入靶DNA引发。在0.25分钟、0.5分钟、1分钟、2分钟、5分钟和10分钟取等分试样,并通过加入95%甲酰胺、20mM EDTA猝灭。通过在95℃加热10分钟使样品变性,并使样品在10%脲-PAGE凝胶上电泳。凝胶使用LI-COR Odyssey CLx成像并使用LI-COR Image Studio软件定量,或使用CytivaTyphoon成像并使用Cytiva IQTL软件定量。所得数据使用Prism绘制和分析,并且测定单独复制的每个CasX:sgRNA组合的非靶链切割的表观一级速率常数(k切割)。具有独立拟合的三次重复的平均值和标准偏差示于表16中,并且切割迹线示于图5中。
测定野生型CasX2和CasX变体119、457、488和491的表观切割速率常数,其中在每个测定中使用向导物174和间隔区7.37(参见表16和图4)。所有CasX变体相对于野生型CasX2具有提高的切割速率。CasX 457比119切割得更慢,尽管如上所测定,CasX 457具有更高的有切割能力的比例。CasX 488和CasX 491具有遥遥领先的最高切割速率;这是因为靶在第一时间点几乎完全被切割,真实的切割速率超过了该测定的分辨率,并且所报告的k切割应视为下限。
数据表明CasX变体具有更高水平的活性,k切割与野生型CasX2相比达到至少30倍高的速率。
5.体外切割测定:向导变体与野生型向导物的比较
还使用野生型参考CasX2和参考向导物2与向导变体32、64和174比较来进行切割测定,以确定变体是否改善了切割。如上所述进行实验。由于许多所得的RNP在所测试的时间内没有接近靶的完全切割,我们测定了初始反应速度(V0)而不是一级速率常数。将前两个时间点(15秒和30秒)用每个CasX:sgRNA组合和重复的线拟合。测定三次重复的斜率的平均值和标准偏差。
在测定条件下,使用向导物2、32、64和174的CasX2的V0为20.4±1.4nM/min、18.4±2.4nM/min、7.8±1.8nM/min和49.3±1.4nM/min(参见表16和图5和图6)。向导物174显示出所得RNP的切割速率的显著提高(相对于2为约2.5倍,参见图6),而向导物32和64的表现与向导物2相似或更差。值得注意的是,向导物64支持比向导物2的切割速率更低的切割速率,但在体内表现好得多(数据未显示)。产生向导物64的一些序列改变可能以参与三链体形成的核苷酸为代价改善体内转录。向导物64的改善的表达可能解释了其改善的体内活性,而其降低的稳定性可能导致不适当的体外折叠。
用向导物174、175、185、186、196、214和215以及间隔区7.37和CasX 491进行另外的实验来确定相对切割速率。为了将切割动力学降低到我们的测定可测量的范围,将切割反应物在10℃下孵育。结果示于图7和表16中。在这些条件下,215是支持比174更快的切割速率的唯一向导物。在向导物限制条件下表现出最高活性比例的RNP的196具有与174基本上相同的动力学,再次强调不同变体导致不同特征的改善。
数据支持,在测定条件下,将大多数向导变体与CasX结合使用使RNP比使用野生型向导物的RNP具有更高的活性水平,初始切割速度的改善范围为约2倍至>6倍。表16中的数字从左到右指示RNP构建体的CasX变体、sgRNA支架和间隔区序列。在下表中的RNP构建体名称中,CasX蛋白变体、向导物支架和间隔区从左到右显示。
6.体外切割测定:将515.174和526.174的切割速率和有切割能力的比例与参考 2.2进行比较。
我们希望将与工程化单向导变体174复合的工程化蛋白CasX变体515和526与参考野生型蛋白2(SEQ ID NO:2)和最低限度工程化的向导变体2(SEQ ID NO:5)进行比较。如上所述组装RNP复合物,使用1.5倍过量的向导物。如上所述进行确定k切割和有切割能力的比例的切割测定,两者均在37℃下进行,并且由于反应接近完成所需的时间显著不同,使用不同的时间点来确定野生型RNP与工程化RNP的有切割能力的比例。
所得的数据清楚地表明,通过工程化蛋白质和向导物两者,RNP活性得到显著改善。与2.2的16%相比,515.174和526.174的RNP分别具有76%和91%的有切割能力的比例(图8,表16)。在动力学测定中,515.174和526.174两者在第一时间点基本上切割了所有的靶DNA,超过了测定的分辨率,并且分别导致了17.10min-1和19.87min-1的估计切割速率(图9,表16)。相比之下,2.2的RNP在最后10分钟时间点平均切割少于60%的靶DNA,并且估计的k切割比工程化RNP低几乎两个数量级。对蛋白质和向导物进行的修饰已得到更稳定的RNP,更可能形成活性颗粒,并且在每个颗粒的基础上也更有效地切割DNA。
表16:切割和RNP形成测定的结果
*平均值和标准偏差
**速率超过了测定的分辨率
实施例9:测试间隔区长度对体外切割动力学的影响
测试了具有不同长度间隔区的两种CasX变体和向导RNA的核糖核蛋白复合物(RNP)的体外切割活性,以确定什么间隔区长度支持靶核酸的最有效切割以及间隔区长度偏好是否随蛋白质而改变。
方法:
测试具有不同长度间隔区的CasX和向导RNA的核糖核蛋白复合物(RNP)的体外切割活性,以确定什么间隔区长度支持靶核酸的最有效切割。
如上所述纯化CasX变体515和526。通过体外转录(IVT)制备具有支架174(SEQ IDNO:2238)的向导物。根据推荐的方案使用Q5聚合酶(NEB M0491)、每个支架主链的模板寡核苷酸,以及具有T7启动子和20个核苷酸或从3'末端截短至18或19个核苷酸的7.37间隔区(GGCCGAGATGTCTCGCTCCG(SEQ ID NO:1084);靶向tdTomato)的扩增引物,通过PCR生成IVT模板。用于生成每个模板的间隔区序列以及寡核苷酸示于表17中。然后将所得模板与T7RNA聚合酶一起使用以根据标准方案产生RNA向导物。使用变性聚丙烯酰胺凝胶电泳纯化这些向导物,并在使用前重新折叠。
CasX RNP通过如下方式来重构:在1x切割缓冲液(20mM Tris HCl pH 7.5、150mMNaCl、1mM TCEP、5%甘油、10mM MgCl2)中将CasX稀释至1μM,加入sgRNA至1.2μM并在37℃下孵育10分钟,然后移至冰上直至准备使用。荧光标记的7.37靶DNA作为单独的寡核苷酸购自Integrated DNA Technologies(序列见表17),并且通过在1x切割缓冲液中加热两条互补链的等摩尔混合物并缓慢冷却至室温来制备dsDNA靶。
将RNP在切割缓冲液中稀释至200nM的最终浓度,并在10℃下孵育而不振摇。通过加入7.37靶DNA至10nM的最终浓度来引发切割反应。时间点取0.25分钟、0.5分钟、1分钟、2分钟、5分钟、10分钟和30分钟。通过加入等体积的95%甲酰胺、20mM EDTA在时间点进行猝灭。通过在95℃加热10分钟使样品变性,并使样品在10%脲-PAGE凝胶上电泳。凝胶用Amersham Typhoon成像,并用IQTL软件分析。所得数据使用Prism绘制和分析。用单指数函数拟合非靶链的切割,以确定表观一级速率常数(k切割)。
结果:
比较与具有18、19或20个核苷酸间隔区的sgRNA复合的CasX变体515和526的切割速率,以确定哪种间隔区长度导致对每种蛋白变体的最有效切割。与用体外转录的sgRNA进行的其它实验一致,18-nt间隔区向导物对两种蛋白变体表现最佳(图12A和图12B,表18)。18-nt间隔区的切割速率对于蛋白515是20-nt间隔区的1.4倍,对于蛋白526是20-nt间隔区的3倍。19-nt间隔区对这两种蛋白质具有中等活性,尽管对于变体526的差异更显著。通常,已经观察到短于20-nt的间隔区在一系列蛋白质、间隔区和递送方法中具有增加的活性,但是改善的程度和最佳间隔区长度各有不同。这些数据显示,序列非常相似(仅两个残基不同)的两种工程化蛋白可能由于间隔区长度在方向上相似但在程度上显著不同而具有活性变化。
表17:相关序列和寡核苷酸
/>
表18:具有截短的间隔区的RNP的切割速率
间隔区长度 | 515k切割(min-1) | 526k切割(min-1) |
18 | 0.215 | 0.427 |
19 | 0.182 | 0.282 |
20 | 0.150 | 0.143 |
实施例10:评估与向导RNA的结合亲和力
纯化的野生型和改善的CasX将与含有3’Cy7.5部分的合成单向导RNA在含有氯化镁和肝素的低盐缓冲液中孵育,以防止非特异性结合和聚集。sgRNA将维持在10pM的浓度,而蛋白质将在单独的结合反应中从1pM滴定到100μM。在使反应达到平衡后,使样品通过具有硝酸纤维素膜和带正电荷的尼龙膜的真空歧管过滤结合测定,这些膜分别结合蛋白质和核酸。将对膜进行成像以鉴定向导RNA,并且结合的RNA与未结合的RNA的比例将通过硝酸纤维素膜与尼龙膜上每种蛋白质浓度的荧光量来测定,以计算蛋白质-sgRNA复合物的解离常数。该实验也将使用sgRNA的改善变体进行,以确定这些突变是否也影响向导物对野生型蛋白质和突变型蛋白质的亲和力。我们还将进行电迁移率变动分析以定性地与过滤结合测定进行比较,并且确认可溶性结合而不是聚集是蛋白质-RNA缔合的主要贡献因素。
实施例11:评估与靶DNA的结合亲和力
纯化的野生型和改善的CasX将与携带与靶核酸互补的靶向序列的单向导RNA复合。将RNP复合物与含有PAM的双链靶DNA和在靶链上具有5’Cy7.5标记的适当靶核酸序列在含有氯化镁以及肝素的低盐缓冲液中孵育,以防止非特异性结合和聚集。靶DNA将维持在1nM的浓度,而RNP将在单独的结合反应中从1pM滴定到100μM。使反应达到平衡后,使样品在天然5%聚丙烯酰胺凝胶上电泳,以分离结合的和未结合的靶DNA。将凝胶成像以鉴定靶DNA的迁移率变化,并计算每种蛋白质浓度的结合的RNA与未结合的RNA的比例,以确定RNP-靶DNA三元复合物的解离常数。预期该实验将证明与包含参考CasX和参考gRNA的RNP相比,包含CasX变体和gRNA变体的RNP的改善的结合亲和力。
实施例12:评估用于RNP生产的CasX变体的改善的表达和溶解度特征
在相同条件下,野生型和修饰的CasX变体将在BL21(DE3)大肠杆菌中表达。所有蛋白质将处于IPTG诱导型T7启动子的控制下。细胞将在37℃下在TB培养基中生长至0.6的OD,此时生长温度将降至16℃并且将通过加入0.5mM IPTG诱导表达。表达18小时后收获细胞。可溶性蛋白质级分将被提取并在SDS-PAGE凝胶上分析。通过考马斯染色来鉴定可溶性CasX表达的相对水平。根据上述方案平行纯化蛋白质,并比较纯蛋白质的最终产量。为了确定纯化蛋白质的溶解度,将构建体浓缩在储存缓冲液中,直至蛋白质开始沉淀。通过离心去除沉淀的蛋白质,并测量可溶性蛋白质的最终浓度以确定每种变体的最大溶解度。最后,CasX变体将与单向导RNA复合并浓缩直至沉淀开始。通过离心去除沉淀的RNP,并测量可溶性RNP的最终浓度,以确定当结合到向导RNA时每种变体的最大溶解度。
实施例13:向导RNA向导物支架平台进化
进行实验以鉴定向导RNA向导物支架变体,其对双链DNA(dsDNA)切割表现出改善的活性。为了实现这一点,设计了支架变体的大规模文库并以合并方式测试了报告基因在人细胞中的功能敲除。通过对池内的功能元件进行测序和随后的计算分析来确定导致改善的敲除的支架变体。
材料与方法
文库设计
RNA二级结构稳定性的评估
RNAfold(v2.4.14)(Lorenz R等人,ViennaRNA包2.0.,Algorithms Mol Biol.,第6卷:第26页,2011年)用于预测RNA序列的二级结构稳定,类似于armoskaite I.等人所做:Aquantitative and predictive model for RNA binding by human pumilio proteins,Mol Cell,第74卷第5期:第966页,2019年。为了评估ΔΔG_BC值,计算无约束系综的系综自由能(ΔG),然后计算约束系综的系综自由能(ΔG)。ΔΔG_BC是约束和非约束ΔG值之间的差值。使用约束串,其反映了假结茎、支架茎和延伸茎的碱基配对,并且需要三链体的碱基不配对。
假结茎二级结构稳定性的计算
使用来自向导物支架175的三链体环序列,计算跨越位置3-33的整个茎-环的假结结构稳定性。此外,产生强制假结碱基配对和解除三链体环中碱基配对的约束串。因此,稳定性的变化可能仅是由于假结茎序列的差异。例如,通过插入三链体环序列CUUUAUCUCAUUACUUUGA(SEQ ID NO:158)将假结序列AAAACG_CGTTTT转变成茎-环序列,使得最终序列将是AAAACGCUUUAUCUCAUUACUUUGACGTTTT(SEQ ID NO:159),并且约束串是:“((((((xxxxxxxxxxxxxxxxxxx))))))”(SEQ ID NO:160,其中x=n)。
分子生物学
文库构建的分子生物学
从Twist Biosciences合成并获得所设计的向导RNA支架变体文库,然后用对文库具有特异性的引物通过PCR扩增。这些引物在文库的5'和3'末端扩增另外的序列以引入限制性酶SapI的序列识别位点。用Q5 DNA聚合酶(New England Biolabs)进行PCR,并根据制造商的说明书进行。典型的PCR条件是:在50μl反应物中10ng模版文库DNA、1x Q5 DNA聚合酶缓冲液、300nM dNTP、300nM每种引物、0.25μl Q5 DNA聚合酶。在热循环仪上,典型的程序将是:在95℃下循环5min;然后在98℃下15s、在65℃下20s、在72℃下1min,进行20个循环;其中在72℃下最后延长2min。用DNA Clean and Concentrator试剂盒(Zymo Research)纯化扩增的DNA产物。然后将该PCR扩增子以及质粒pKB4用限制性酶SapI(New EnglandBiolabs)消化,并根据制造商的说明书通过琼脂糖凝胶电泳随后凝胶提取(Zymo)对两者进行独立地凝胶纯化。然后使用T4 DNA连接酶(New England Biolabs)连接文库,用DNAClean and Concentrator试剂盒(Zymo)纯化,并转化到MegaX DH10B T1R Electrocomp细胞(ThermoFisher Scientific)中,全部根据制造商的说明书进行。转化的文库在SOC培养基中回收一小时,然后在5mL的2xyt培养基中在37℃°下振荡生长过夜。然后从培养物(QIAGEN)中小量制备质粒DNA。然后通过用限制性酶Esp3I(New England Biolabs)消化进一步克隆的质粒DNA,随后与具有互补单链DNA突起部和用于靶向GFP的期望间隔区序列的退火寡核苷酸连接。寡核苷酸具有5个磷酸化修饰,并通过加热至95℃下1min进行退火,随后将温度每分钟降低两度直至达到25℃的最终温度。以Golden Gate组装反应进行连接,其中典型的反应条件由在总体积为40μL水中的1μg的预消化的质粒文库、1μM退火的寡核苷酸、2μL T4 DNA连接酶、2μL Esp3I和1×T4 DNA连接酶缓冲液组成。该反应在37℃下3分钟和16℃下5分钟之间循环25次。如上所述,将文库纯化、转化、生长过夜并小量制备。然后将所得质粒文库用于生产慢病毒。
文库筛选
LV产物
慢病毒颗粒是通过转染LentiX HEK293T细胞产生的,先接种24h,汇合度为70%-90%。在无血清培养基中,将含有合并文库的质粒引入含有包装和具有聚乙烯亚胺的VSV-G包膜质粒的第二代慢病毒系统。对于颗粒生产,转染后12小时更换培养基,并在转染后36-48h收获病毒。使用0.45μm PES膜过滤器过滤病毒上清液,并且在适当时在细胞培养基中稀释,然后添加到靶细胞中。
过滤后72小时,通过TaqMan qPCR滴定慢病毒上清液的等分试样。用苯酚-氯仿提取(TRIzol)分离病毒基因组RNA,随后用醇沉淀。通过纳米液滴读数评价提取的质量和数量。然后在通过ThermoFischer SuperScript IV反转录酶产生cDNA前,用DNase I消化任何残留的质粒DNA。病毒cDNA通过1:1000进行系列稀释,并与基于WPRE的引物和TaqManMaster Mix组合,然后通过Bio-Rad CFX96进行qPCR。将所有样品稀释液一式两份加入,并在滴度计算前相对于已知的基于质粒的标准曲线取平均值。水总是作为阴性对照测量。
LV筛选(转导、维持、门控、分选、gDNA分离)
靶报告细胞在转导前24h至48h通过以确保细胞分裂发生。在转导时,用胰蛋白酶处理细胞,计数,并稀释至适当的密度。以低MOI(0.1-5,通过病毒基因组)在未处理、含文库或对照的纯慢病毒上清液中重悬细胞,以最小化双重慢病毒整合。慢病毒-细胞混合物以40-60%的汇合度接种,然后在37℃、5% CO2下温育。选择细胞在用1μg/ml至3μg/ml的嘌呤霉素转导后48h成功转导4天至6天,随后在HEK或Fb培养基中回收。
选择后,将细胞悬浮于4',6-二脒基-2-苯基吲哚(DAPI)和磷酸盐缓冲盐水(PBS)中。然后用Corning滤网-盖FACS管(产品352235)过滤细胞,并在Sony MA900上进行分选。除了经由标准方法对单个活细胞进行门控之外,还对细胞进行分选以敲低荧光报道基因。裂解从实验中分选出的细胞,并使用Zymo Quick-DNA Miniprep Plus按照制造商的方案提取基因组。
下一代测序(NGS)的处理
利用对编码DNA的向导RNA具有特异性的引物经由PCR扩增基因组DNA,以形成靶扩增子。这些引物在5'末端含有额外的序列以引入Illumina读段和2个序列。典型的PCR条件将是:在50μl反应物中2μg gDNA、1x Kapa Hifi缓冲液、300nM dNTP、300nM每种引物、0.75μl的Kapa Hifi Hotstart DNA聚合酶。在热循环仪上,在95℃下循环5min;然后在98℃下15s、在62℃下20s、在72℃下1min,进行15个循环;其中在72℃下最后延长2min。扩增的DNA产物用Ampure XP DNA清除试剂盒纯化。用索引衔接子进行第二个PCR步骤以允许在Illumina平台上进行多重化。在50μl反应物中,将来自前一步骤的20μl的纯化产物与1×Kapa GC缓冲液、300nM dNTP、200nM每种引物、0.75μl的Kapa Hifi Hotstart DNA聚合酶组合。在热循环仪上,在95℃下循环5min;然后在98℃下15s、在65℃下15s、在72℃下30s,进行5-16个循环;其中在72℃下最后延长2min。扩增的DNA产物用Ampure XP DNA清除试剂盒纯化。使用Fragment Analyzer DNA分析试剂盒(Agilent,dsDNA 35-1500bp)评估扩增子的质量和定量。根据制造商的说明书,在Illumina Miseq上对扩增子进行测序(v3,单末端测序的150个循环)。
NGS分析(样品处理和数据分析)
用cutadapt(2.1版)针对衔接子序列修剪读数,并且针对每个读数提取向导序列(包含支架序列和间隔区序列)(也使用cutadapt v 2.1连接的衔接子来提取上游和下游扩增子序列之间的序列)。对独特的向导RNA序列进行计数,然后将每个支架序列与设计序列的列表以及向导物支架174(SEQ ID NO:2238)和175(SEQ ID NO:2239)的序列进行比较,以确定每个的同一性。
使用平均归一化针对测序深度对每个独特的向导RNA序列的读数计数进行归一化。通过将每个GFP样品中的归一化读数除以相关原初样品中的归一化读数来计算每个序列的富集。对于两种选择(R2和R4),在分开的三天对GFP和原初群体进行NGS处理,形成一式三份的每个支架的富集值。在对一式三份样品中的原初和GFP样品的读数计数相加后,计算每个支架的总富集得分。
来自不同选择的两个富集得分通过单个log2富集得分的加权平均进行组合,通过它们在原初群体内的相对表示进行加权。
对log2富集得分的误差进行估计,计算一式三份样品的平均富集得分的95%置信区间。当组合两个单独选择的富集值时,会传播这些误差。
结果和讨论
文库设计、排序和克隆
向导RNA变体的文库被设计成以无偏方式和靶向方式测试RNA支架的变化,该靶向方式集中于RNA支架内的关键模块。
在文库的无偏部分中,所有的单核苷酸取代、插入和缺失都被设计为向导物支架174(SEQ ID NO:2238)和175(SEQ ID NO:2239)(约2800个个体序列)的每个残基。双突变体被设计成特异性地集中于可能相互作用的区域;因此如果在CryoEM结构(PDBid:6NY2)中,两个残基参与经典或非经典碱基配对相互作用,或者两个残基被预测在由RNAfold(v2.4.14)预测的最低能量结构中配对,则向导物支架174和174中的对应残基发生突变(包括两个残基的所有可能的取代、插入和缺失)。与这些“相互作用”残基相邻的残基也发生突变;然而对于这些,仅包括两个残基中每一者的取代。在最终文库中,设计了具有相对于向导物支架174或175的两个突变的约27K序列。
在专用于RNA支架关键区域的特异性诱变的文库部分中,修饰被设计成:假结区域、三链体区域、支架泡和延伸茎(区域鉴定参见图18)。在文库的这些靶向部分的每一者中,以假设驱动的方式诱变整个结构域(图19)。例如,对于三链体区域,将包含三链体的碱基三链体中的每一者诱变为不同的三链体形成基序(参见图20)。这种类型的诱变不同于在支架茎泡中采用的诱变,其中围绕泡的碱基的所有可能的取代发生诱变(即,相对于向导序列174或175具有多达5个突变)。再次相反,包含假结茎的5个碱基对完全被替换为交替的沃森-克里克配对序列(多达10个不同的碱基发生诱变)。
文库的最终靶向部分意在优化更可能形成易于结合蛋白的二级结构的序列。简言之,在两个条件下预测序列的二级结构稳定性:1)不存在任何约束,2)被约束使得形成关键二级结构元件诸如假结茎、支架茎和延伸茎(参见材料和方法)。我们的假设是这两种条件(此处称为ΔΔG_BC)之间的稳定性差异对于更易与蛋白结合的序列而言将是最小的,因此我们应该寻找其中该差异最小的序列。
根据Twist对所设计的文库(约40K独特序列)进行排序,并合成以包括用于克隆到还表达蛋白STX119的慢病毒质粒主链中的golden gate位点(参见材料和方法)。将靶向GFP基因的间隔区序列克隆到文库载体中,从每个RNA支架变体有效地产生单向导RNA以靶向GFP基因。用下一代测序评估所设计的文库变体的表示(参见材料和方法)。
文库筛选和评估
将含有向导RNA变体和单个CasX蛋白(119版本)的质粒文库制成慢病毒颗粒(参见材料和方法);使用qPCR测定(参见材料和方法)基于病毒基因组的拷贝数对颗粒进行滴定。用慢病毒颗粒文库以低感染复数(MOI)转导稳定表达GFP的细胞系以强制每个细胞整合至多一个文库成员。选择细胞池以仅保留具有基因组整合的细胞。最后,对细胞群体进行GFP表达分选,并获得GFP阴性细胞群体。这些GFP阴性细胞含有有效地将CasX RNP靶向GFP蛋白的文库成员,从而引起插入缺失和随后的功能丧失。
对来自未分选的细胞群体(“原初”)和GFP阴性群体的基因组DNA进行处理,以分离每个细胞中向导RNA文库成员的序列。为了确定向导RNA在原初和GFP阴性群体中的表示,进行下一代测序。通过将文库成员在GFP群体中的表示除以其在原初群体中的表示来计算每个文库成员的富集得分:高富集得分指示文库成员在活性GFP阴性群体中比在起始池中更频繁,并且因此是能够在GFP基因内有效产生插入缺失的活性变体(富集值>1,log2富集>0)。低富集得分指示,与原初相比,文库成员在活性GFP群体中被耗尽,并且因此在形成插入缺失方面无效(富集值<1,log2富集<0)。作为用于比较的最终统计,将相对富集值计算为文库成员的富集(在GFP阴性对原初群体中)除以参考支架序列的富集(在GFP阴性对原初群体中)。(在对数空间中,这些值被简单地减去。)参考支架序列的富集值显示在图21中。)
进行多次筛选,其中独立产生慢病毒颗粒、转导细胞、选择和分选以获得原初和GFP阴性群体,并测序以了解每个文库成员的富集值。这些筛选被称为R2和R4,并且在向导物支架174和175上大量再现了对于单核苷酸变体获得的富集值(图22)。该筛选能够鉴定富集在功能GFP群体中的许多可能的突变组合,并且因此可产生功能RNP。相反,没有富集含有非靶向间隔区的向导物,从而证实了富集是选择性截断(数据未示出)。在表19和表20中分别给出了所富集的向导物支架174和175上的整组突变。这些列表揭示了仍然能够实现靶向的功能RNP的序列多样性。
单核苷酸突变指示支架的可变区域:
为了确定相对于向导物支架174和175导致类似或改善的活性的支架突变,绘制了单核苷酸取代、插入或缺失的富集值(图23)。通常,174上的单核苷酸变化比175更耐受,这可能反映了174在这种情况下更高的活性,因此对抑制活性的突变具有更高的耐受性(图21和图24)。在绝大多数情况下,175上有利的单核苷酸突变在174的背景中也是有利的(图24),因此支架175上的突变值被认为是突变效应的更严格的读数。通过该分析揭示了关键可变区域,如以下段落中所述:
最显著的特征是延伸茎,其示出与参考序列174或175类似的富集值,表明支架可耐受该区域中的变化,类似于过去所观察到的,并且将通过CasX RNP的结构分析来预测,其中观察到延伸茎与蛋白几乎没有接触。
三链体环是相对于参考支架显示高富集的另一区域,特别是当在向导物支架175中制备时(例如,特别是C15或C17的突变)。值得注意的是,175中的C17位置已经突变为支架174中的G,这是支架175的该位置处的两个高度富集的突变中的一者。
G7和A29之间的假结茎中预测对的任一成员的变化均相对于参考高度富集,特别是在向导物支架175中。在两个向导物支架174和175中,该配对是非经典G:A配对。在这些位置最强富集的突变是在向导物支架175中,将A29转化为C或T;其中的第一个将形成经典沃森-克里克配对(G7:C29),并且其中的第二个将形成GU摆动对(G7:U29),相对于G:A对,这两者都可预期增加螺旋的稳定性。将G7转化为T也是高度富集的,这将在该位置形成经典对(U7:A29)。显然,这些位置有利于更稳定地配对。通常,5'末端是可突变的,其中几乎没有变化导致去富集。
最后,在向导物支架175中的位置54处的插入C是高度富集的,而在向导物支架174中的类似位置处的A或插入的G的缺失两者均具有与参考相似的富集值。总之,向导物支架可优选在该支架茎泡中具有两个核苷酸,但其可能不是强优选。在下文的部分中进一步检查这些结果。
假结茎稳定性是支架活性所必需的。
为了进一步探索假结茎对支架活性的影响,以以下方式修饰假结茎:(1)改组茎内的碱基对,使得每个新的假结具有相同的碱基对组成,但在茎内成不同的顺序;(2)碱基对完全被随机的、WC配对的序列替换。测试了291个假结茎。第一组序列的分析示出,相对于其它可能的位置(2-6;在野生型序列中,它在位置5;图25),G-A对位于假结茎的第一个位置的强烈偏好,而结果证明,在假结茎的位置2-6的每个位置都具有GA对通常是不利的,具有低的平均富集。在位置1处具有G-A碱基可能通过允许螺旋的其余部分仅由堆积、沃森-克里克对形成而稳定假结茎。该结果进一步支持支架优选完全配对的假结茎。
大量假结序列具有正log2富集,表明用交替碱基对替换该序列通常是耐受的(图26中的假结结构)。为了进一步测试假结茎中更稳定的螺旋将产生更具活性的支架的假设,计算了每个假结茎的二级结构稳定性(材料和方法)。在假结稳定性和富集以及因此活性之间观察到强关系(图27:更具活性的支架具有稳定的假结茎),具有稳定的假结茎(<-7kcal/mol)的向导物支架具有高富集,并且具有不稳定的假结茎(≥-3kcal/mol)的向导物支架具有非常低的富集。
双突变指示向导物支架的可突变区域:
检查对每个参考向导物支架的双突变以进一步鉴定支架内的可突变区域,以及改善支架活性的潜在突变。仅关注于预测在假结茎中形成非经典G:A对的单位置对—位置7和29,并且支持诱变(参见以上部分)—我们可绘制该位置对的所有64个双突变(图28)。经典对在这两个位置处是有利的(例如,在位置7处的取代C和在位置29处的取代G产生了G:C对并且是富集的;在位置7的取代C和在位置29的插入G类似地产生了G:C对,在位置7处的取代A和在位置29的取代U产生了A:U对)。没有富集插入对,可能是因为考虑到G:A对在螺旋中向上移位一个位置并且没有完全去除,此处插入一个经典对不足以稳定该螺旋。令人惊奇的是,几个富集的双突变没有形成经典对;例如在位置7处的取代U和在位置29处的取代C(其形成非经典U:C对),在位置7处的取代U和在位置29处的取代U(形成U:U对),以及一些其它取代(图28)。可能的是,嘌呤:嘌呤对比其它非经典对实质上更破坏螺旋。事实上,在位置7处的取代A和在位置29处的取代G的再次形成A:G对,其在该位置不富集。
从热图确定向导物支架175的每个关键结构元件内的双取代的富集值,其中每个位置可具有多达三个取代。确定支架茎对突变的耐受性最低,从而表明在该区域中是紧密约束的序列。
结果证明,当用于编辑测定时,可对向导物支架进行实质性改变,其仍可导致功能基因敲除。特别地,结果证明,可用于通过在向导物支架中的修饰来改善活性的关键位置,包括在支架内增加的假结茎的二级结构稳定性。
表19:向导物174突变和所得相对富集
/>
/>
/>
/>
/>
/>
*突变序列用“;”分隔,并且每个序列的多个突变用“、”分隔
表20:向导物175突变和产生的相对富集
/>
/>
/>
/>
/>
/>
*突变序列用“;”分隔,并且每个序列的多个突变用“、”分隔
实施例14:CcdB选择分析鉴定在TTC、ATC和CTC PAM序列上具有改善的dsDNA切割 或改善的间隔区特异性的CasX蛋白变体。
进行实验以鉴定源自CasX 515(SEQ ID NO:416)的变体组,该变体组具有生物化学活性,并且与CasX 515相比,对于在与TTC或ATC或CTC的PAM序列相关的靶DNA序列处的双链DNA(dsDNA)切割表现出改善的活性或改善的间隔区特异性。为了实现这一点,首先,在使用CasX 515和向导物支架174的CcdB选择实验中鉴定了存活高于背景水平的间隔区组。第二,用这些间隔区进行CcdB选择以确定源自CasX 515的变体组,这些变体对于在经典“野生型”PAM序列TTC处的dsDNA切割具有生化能力。第三,进行CcdB选择实验以确定CasX 515的变体组,这些变体能够改善在ATC型或CTC型的PAM序列处的dsDNA切割。第四,进行质粒反选择实验以确定源自CasX 515的变体组,这些变体导致改善的间隔区特异性。
材料和方法:
对于CcdB选择实验,将表达指定CasX蛋白(或文库)和sgRNA的300ng质粒DNA(p73)电穿孔到携带表达CcdB毒性蛋白的质粒的大肠杆菌菌株BW25113中。转化后,在37℃下使培养物在富含葡萄糖的培养基中振荡回收20分钟,然后加入IPTG至最终浓度为1mM,并且将培养物进一步温育另外40分钟。然后将回收的培养物在含有对质粒有选择性的抗生素的LB琼脂板(Teknova目录号L9315)上滴定。在含有葡萄糖(CcdB毒素不表达)或阿拉伯糖(CcdB毒素表达)的平板上滴定细胞,并且计算相对存活并作图,如图32所示。接下来,如上所述将培养物电穿孔并回收,并将所回收的级分保存用于滴定。在回收期后分离所回收的培养物的剩余部分,并在含有葡萄糖或阿拉伯糖的培养基中生长,以便分别收集无选择或强选择的合并文库的样品。收获这些培养物并使用质粒小量制备试剂盒(QIAGEN)根据制造商的说明书提取存活的质粒池。重复整个过程,总共进行三轮选择。
分离最终的质粒池,并使用对独特分子标识符(UMI)具有特异性的引物进行p73质粒的PCR扩增。这些UMI序列已被设计成使得每个特定UMI与CasX 515蛋白的一个且仅一个单突变相关。使用典型的PCR条件进行扩增CasX 515的变体池包含在称为深度突变进化(DME)方法中的许多可能的氨基酸取代,以及可能的插入和单个氨基酸缺失。。扩增的DNA产物用Ampure XP DNA清除试剂盒纯化,在30μl的水中洗脱。然后制备用于第二PCR测序的扩增子,以根据制造商的说明书在MiSeq仪器或NextSeq仪器(Illumina)上加入与下一代测序(NGS)相容的衔接子序列。对所制备的样品进行NGS。如下处理返回的原始数据文件:(1)为了质量和衔接子序列修整序列;(2)将来自读段1和读段2的序列合并成单个插入序列;以及(3)相对于CasX 515的参考序列,定量含有与突变相关的UMI的每个序列。对相对于CasX515的单个突变的发生率进行计数。将选择后的突变计数除以选择前的突变计数,并使用假计数十来产生“富集得分”。计算该得分的以二为底的对数(log2),并绘制为图33至图36中描绘的热图。指示了单个间隔区的生物重复,并且计算这些重复的平均值并且绘制为总富集得分。对于图33中描绘的实验,使文库通过CcdB选择,其中两个TTC PAM间隔区一式三份地进行(间隔区23.2AGAGCGTGATATTACCCTGT,SEQ ID NO:161,以及23.13CCCTTTGACGTTGGAGTCCA,SEQ ID NO:162),并且一个TTC PAM间隔区一式两份地进行(间隔区23.11TCCCCGATATGCACCACCGG,SEQ ID NO:154),并且将一式三份测量的平均值绘制在作为CasX 515的测量变体的热图的log2富集标度上。与CasX 515相比保留了完全切割能力的CasX 515的变体表现出约零的log2富集值;与CasX 515的值相比,丧失切割功能的变体表现出小于零的log2值,而使用该选择具有改善的切割的变体导致大于零的log2值。产生图34至图36的热图的实验使用以下单个间隔区(分别为11.2AAGTGGCTGCGTACCACACC,SEQID NO:163;23.27GTACATCCACAAACAGACGA,SEQ ID NO:164;以及23.19CCGATATGCACCACCGGGTA,SEQ ID NO:157)进行选择性实验。
对于质粒反选择实验,在由使用TTC PAM间隔区的CcdB选择产生的最终质粒池上进行另外轮的细菌选择。反选择的总体方案是仅允许同时含有两个质粒群体的大肠杆菌的那些细胞的复制。第一质粒(p73)表达CasX蛋白(在ATc诱导表达下)和sgRNA(组成型表达),以及抗生素抗性基因(氯霉素)。注意该质粒还可用于标准的正向选择测定,诸如CcdB,并且间隔区序列完全自由地根据实验人员的期望而变化。第二个质粒(p74)仅用于表达抗生素抗性基因(卡那霉素),但被修饰为含有(或不含有)与p73中编码的间隔区匹配的靶位点。此外,这些靶位点可被设计成掺入相对于间隔区序列的“错配”,由间隔区的RNA和靶位点的DNA之间的非经典沃森-克里克碱基配对组成。如果从p73表达的RNP能够切割p74中的靶位点,则细胞将仅保持对氯霉素的抗性。相反,如果RNP不能切割靶位点,则细胞将保持对氯霉素和卡那霉素的抗性。最后,上述双质粒复制系统可以两种方式实现。在连续方法中,可首先将任一质粒递送到细胞中,然后使该菌株具有电感受态并递送第二质粒(均通过电穿孔)。先前的工作已经示出质粒递送的任一顺序对于成功的反选择是足够的,并且进行了两个方案:在称为筛选5的实验中,将p73电穿孔到携带p74的感受态细胞中,而在筛选6中,情况相反。将培养物电穿孔、回收、滴定并在如上所述的选择性条件下生长一轮,并且也如上所述进行质粒回收,随后进行扩增、NGS和富集计算。
最后,以类似的方式进行另外的CcdB选择,但是使用向导物支架235和另选启动子WGAN45、Ran2和Ran4,所有这些都靶向具有间隔区23.2的毒性CcdB质粒。预期这些启动子与上述CcdB选择相比更弱地表达向导RNA,并因此预期降低细菌细胞中CasX RNP的总浓度。这种生理作用应降低选择性测定中细菌细胞的总体存活,从而增加富集得分的动态范围并更精确地与TTC PAM间隔区23.2处的RNP核酸酶活性相关。对于每个启动子,如上一式三份地进行三轮选择,并且每轮实验得到如上的富集数据。这些实验在下文中称为筛选7。
结果:
图32中描绘的结果证明,当使用靶向与TTC PAM序列相关的DNA序列的间隔区(以下列出)靶向时,与向导物支架174复合的CasX 515能够切割CcdB表达质粒。相反,利用另选的PAM序列的间隔区显示出更多可变的存活。ATC PAM间隔区(下文列出)的存活范围从百分之几到远小于0.1%,而CTC PAM间隔区(下文列出)使得存活范围从>50%到小于1%。最后,GTC PAM间隔区(下文列出)仅能够以或低于0.1%存活。这些基准数据支持这种选择流水线的实验设计,并证明了CcdB细菌测定的强大选择性能力。具体地,不能切割双链DNA的CasX蛋白被去富集至少四个数量级,而生化上有能力切割的CasX蛋白将在测定中存活。
图33的热图用于鉴定对于在与TTC PAM序列相关的靶DNA序列处的dsDNA切割具有生化能力的CasX 515变体组,图34和图35的热图用于鉴定对于在与CTC的PAM序列相关的靶DNA序列处的dsDNA切割表现出改善的那些变体(间隔区11.2和23.27),而图36的热图是从与ATC的PAM序列相关的间隔区(间隔区(23.19))的相同变体组产生的。
图33A至图33E的结果鉴定并分类了能够在三个TTC PAM靶位点处编辑的CasX 515的变体。这三个数据集(单独地或组合地)表示变体之间的潜在生物化学差异,并且鉴定用于改善的CasX治疗剂的未来工程化以用于人基因组编辑的感兴趣区域。作为这一点的证据,内部对照作为原初文库的一部分被均匀地包括,诸如在整个蛋白质的每个位置处存在终止密码子。持续观察到这些终止密码子在所有轮的选择中丢失,这与部分截短的CasX515不应使dsDNA切割的预期一致。类似地,观察到具有反映在热图数据中的活性损失的变体在选择期间已经耗尽,并且因此在该测定中具有对于双链DNA切割的适应性的严重损失。然而,富集值为一或更大的变体(以及对应log2富集值为零或更大)至少在生物化学切割方面是中性的。重要的是,如果在变体的该特定子集中鉴定的这些突变中的一者或多者表现出治疗分子的期望性质,则这些突变建立了显示与生化功能相容的结构-功能关系。更具体地,这些突变可影响性质诸如CasX蛋白转录、翻译、折叠、稳定性、核糖核蛋白(RNP)形成、PAM识别、双链DNA解旋、非靶链切割和靶链切割。
图34A至图34E、图35A至图35E和图36A至图36E用于鉴定和分类在与CTC和ATC PAM序列相关的序列处具有切割能力的变体。这些数据集中富集的变体(富集>1,相当于大约0的值的log2富集)表示特异性改善CTC或ATC PAM靶位点的切割的突变。满足这些标准的突变可以两种一般方式进一步细分类:突变通过改善PAM的识别来改善切割速率(1型),或者突变改善分子的整体切割速率而与PAM序列无关(2型)。
作为第一种类型的示例,发现位置223处的取代突变在所有测试样品中富集了几百倍。该位置编码野生型参考CasX蛋白CasX 1和2中的甘氨酸,其被测量为距公开的CasX 1的CryoEM结构(PDB ID:6NY2)中的DNA非靶链的-4核苷酸位置6.34埃。因此,在位置223处的这些取代突变在物理上接近于新PAM的改变的核苷酸,并且可能直接与DNA相互作用。进一步支持该结论,许多富集的取代编码能够相对于被替换的氨基酸(甘氨酸)形成另外的氢键的氨基酸。这些发现证明,通过引入与一个或两个DNA链相互作用的突变,特别是当在物理上接近PAM DNA序列时(在十埃内),可在CasX蛋白中实现新PAM序列的改善识别。图34至图36中热图的另外的特征可表示使得能够增加非经典PAM序列的识别的突变,但是它们的作用机制尚未被研究。
作为第二种类型突变的示例,图34A至图34E、图35A至图35E和图36A至图36E热图的结果用于鉴定与CasX 515相比改善总体切割速率但不必特异性识别DNA的PAM序列的突变。例如,在用间隔区11.2(CTC PAM)和间隔区23.19(ATC PAM)的选择中,测量到由在位置27的插入精氨酸组成的CasX 515的变体具有大于一的富集值。该变体先前已经通过在CTCPAM间隔区上的可比较的选择进行鉴定,其中该突变富集了几个数量级(数据未示出)。该氨基酸突变的位置在物理上接近(9.29埃)上述结构模型中位置-1处的DNA靶链。这些见解表明了一种机制,其中由CasX RNP与双链DNA形成的成熟R-环被精氨酸的侧链稳定,可能是通过DNA靶链的带正电荷的侧链与带负电荷的主链的离子相互作用。这种相互作用有益于整体切割动力学而不改变PAM的特异性。这些数据支持以下结论:在图34A至图34E、图35A至图35E和图36A至图36E中示出的一些富集的突变表示当在物理上接近它们(在十埃内)时通过与任一或两条DNA链在物理上相互作用而改善CasX 515的总体切割活性的变体。
该数据支持以下结论:在与从图34A至图34E、图35A至图35E和图36A至图36E中的热图鉴定的CTC或ATC PAM序列相关的序列处测量的许多改善切割的突变可被分类为上述两种类型的突变中的任一者。对于类型一的突变,表21中列出了由在CTC PAM测试的间隔区中的至少一者中具有大富集得分的位置223的突变组成的变体,以及相关最大富集得分。对于类型二的突变,从数千富集的变体中系统地选择较小的突变列表。为了鉴定与CasX 515相比高度可能改善总体切割活性的那些突变,采用以下方法。首先,对在CTC或ATM PAM间隔区中最持续富集的突变进行过滤。对于每个间隔区的每个突变的富集得分定义了下限(LB)。LB定义为一式三份生物样品的组合的log2富集得分减去各个重复的log2富集得分的标准偏差。第二,对于三个独立实验数据集中的至少两者(一个ATC PAM选择和两个CTC PAM选择),取这些突变的子集,其中LB>1。第三,通过排除那些在三个TTC PAM选择的任一者中测量到负log2富集的突变来进一步减少该突变子集。最后,在至少一个实验中基于结构特征和强富集得分的组合手动选择各个突变。表22中列出了满足这些标准的所得274个突变,以及图34A至图34E、图35A至图35E和图36A至图36E的热图中表示的来自两个CTC或一个ATCPAM实验的最大观察到的log2富集得分,以及其中突变所处的结构域。
与I类突变相反,存在另一类突变改善CasX RNP区分基因组DNA中的靶上和脱靶位点的能力,如通过间隔区序列所确定的,称为II类,其改善CasX蛋白的核酸酶活性的间隔区特异性。进行两个另外的实验以特异性地鉴定II类突变,其中这些实验由质粒反选择组成并且导致富集得分,这些富集得分表示与CasX 515相比,所产生的变体对向导RNA的间隔区序列和预期的靶DNA之间的单个错配的敏感性。对实验数据中所有观察到的突变的所得富集得分进行排序,并且进行以下分析以鉴定可能改善CasX蛋白的间隔区特异性而基本上不降低期望的靶上位点处的核酸酶活性的突变子集。首先,使用间隔区23.2通过三个技术重复的平均富集得分对来自筛选5的突变进行排序。如从与靶位点结合的CasX RNP的公开模型(PDB ID:6NY2)推断的,去除物理上接近核苷酸错配的那些突变,以便丢弃那些可能仅在间隔区23.2处而不是在整个间隔区之间普遍赋予特异性改善的II类突变。最后,如果来自三个TTC PAM CcdB选择的它们的平均log2富集小于零,如果它们在靶上TTC PAM位点处的切割活性受到突变的负面影响,则丢弃这些II类突变。表23中列出了满足这些临界条件的所得突变,以及来自筛选5的最大观察到的log2富集得分和突变所处的结构域。另外,从反选择实验筛选6鉴定了II类突变。这些突变通过它们的平均富集得分类似地排序,但是应用不同的过滤步骤。特别地,从以下类别的每一者中鉴定突变:具有来自间隔区23.2、间隔区23.11或间隔区23.13的最高平均富集得分的那些;具有来自间隔区23.2和间隔区23.11的最高组合平均富集得分的那些;具有来自间隔区23.11和间隔区23.13的最高组合平均富集得分的那些;或具有来自筛选5中的间隔区23.2和筛选6中的间隔区23.2的最高组合平均富集得分的那些。表23中列出了这些所得突变,以及来自筛选6的最大观察到的log2富集得分和突变所处的结构域。
除了I类或II类突变之外,还存在另一类突变已被直接观察到改善TTC-PAM序列的dsDNA编辑活性。当在筛选7中使用间隔区23.2靶向CcdB质粒时,这些突变(称为III类突变)通过表现出高于CasX 515的富集得分的方式证明了改善的核酸酶活性。使用计算过滤步骤来鉴定特别感兴趣的这些富集突变的子集。具体地,鉴定了在三次重复中具有平均富集值的突变,该平均富集值对于所测试的三个启动子中的每一者都大于零。最后,使用整个氨基酸序列的富集得分的特征来鉴定富集位置处的另外的突变。感兴趣的示例特征包括以下:在蛋白结构域的连接处的插入或缺失,以便促进拓扑改变;将氨基酸取代为脯氨酸,以便扭结多肽主链;将氨基酸取代为带正电荷的氨基酸,以便在蛋白质和向导RNA或靶DNA的任一链的带负电荷的核酸主链之间加入离子键;缺失氨基酸,其中连续缺失均是高度富集的;取代到含有许多高度富集的取代的位置;在蛋白质的末端N末端用氨基酸取代高度富集的氨基酸。这些产生的突变以及从筛选6观察到的最大log2富集得分和突变所在的结构域列在表24中。
表21:CasX 515(SEQ ID NO:416)的突变,这些突变通过与DNA的PAM核苷酸在物理 上相互作用而改善在CTC PAM序列处的切割活性。
位置 | 参考 | 替代方案 | 在Ccdb选择中观察到的最大log2富集 | 结构域 |
223 | G | Y | 4.6 | 螺旋I-II |
223 | G | N | 5.7 | 螺旋I-II |
223 | G | H | 4.2 | 螺旋I-II |
223 | G | S | 4.6 | 螺旋I-II |
223 | G | T | 3.8 | 螺旋I-II |
223 | G | A | 6.3 | 螺旋I-II |
223 | G | V | 3.6 | 螺旋I-II |
表22:从所有数据集中系统地鉴定的CasX 515(SEQ ID NO:416)的突变,以改善 ATC和CTC PAM序列的切割活性。
/>
/>
/>
/>
/>
/>
/>
/>
表23:从所有数据集中系统地鉴定的CasX 515(SEQ ID NO:416)的突变以改善间
隔区特异性
/>
/>
表24:从所有数据集中系统地鉴定的CasX 515(SEQ ID NO:416)的突变,以改善
TTC PAM序列的切割活性。
/>
/>
实施例15:当作为RNP递送时,对细胞中编辑的间隔区长度的评价
实验的目的是确定间隔区(靶向序列)长度对通过CasX的RNP编辑靶核酸和细胞内递送的向导物的影响。
如上所述纯化CasX变体491。通过体外转录(IVT)制备具有支架174的向导RNA。根据推荐的方案使用Q5聚合酶(NEB M0491),每个支架主链的模板寡核苷酸,以及具有T7启动子和全长(20个核苷酸)的15.3(CAAACAAATGTGTCACAAAG,SEQ ID NO:165)或15.5(GGAATAATGCTGTTGTTGAA,SEQ ID NO:166)间隔区或从各自间隔区的3'末端截短一个或两个核苷酸的扩增引物(表26中的序列),通过PCR产生IVT模板。用于产生IVT模板的引物的序列示于表25中。然后将所得模板与T7 RNA聚合酶一起使用以根据标准方案产生RNA向导物。使用变性聚丙烯酰胺凝胶电泳纯化这些向导物,并在使用前重新折叠。通过在含有25mM磷酸钠缓冲液(pH 7.25)、300mM NaCl、1mM MgCl2和200mM海藻糖的缓冲液中将蛋白质与1.2倍摩尔过量的向导物混合来组装各个RNP。将RNP在37℃下温育10分钟,然后经由尺寸排阻色谱法纯化,并交换到含有25mM磷酸钠缓冲液(pH 7.25)、150mM NaCl、1mM MgCl2和200mM海藻糖的缓冲液(缓冲液1)中。在纯化后使用Pierce660nm蛋白测定来确定RNP的浓度。
测试纯化的RNP在Jurkat细胞的T细胞受体α(TCRα)基因座处的编辑。使用Lonza4-D核转染系统通过电穿孔递送RNP。将700,000个细胞重悬于20μL的Lonza缓冲液SE中,并加入到在缓冲液1中稀释至适当浓度的RNP中,并且最终体积为2μL。使用Lonza 96-孔穿梭系统,使用方案CL-120对细胞进行电穿孔。在37℃下在预平衡的RPMI中回收细胞,然后将每个电穿孔条件分到96孔板的三个孔中。在核转染后一天将细胞交换到新鲜的RPMI中。在核转染后第三天,将细胞用Alexa Fluor 647标记的抗TCRα/β(BioLegend)抗体染色并使用Attune Nxt流式细胞仪评估表面TCRα/β的损失。在不存在编辑下,Jurkat细胞的级分的TCRα/β染色不呈阳性。为了解释这一点并估计经由编辑敲除TCRα的细胞的实际百分比,应用了公式TCRKO=(TCR-obs-TCR-neg)/(1-TCR-neg),其中TCRKO是TCRα的估计敲除率,TCR-obs是在实验样品中观察到的TCR染色阴性的细胞的级分,并且TCR-neg是在无RNP对照样品中TCR染色阴性的细胞的级分。该公式假定表达和不表达TCRα/β的细胞以相等的速率编辑。使用Prism绘制TCRα敲除细胞的校正级分对RNP的浓度。对于每个间隔区,使用除了EC50之外的共有参数,将三个间隔区长度与剂量响应曲线拟合。所报告的p值是可用相同的EC50参数对20nt间隔区的剂量曲线和所比较的截断间隔区的浓度曲线进行建模的概率。
表25:用于产生IVT模板的寡核苷酸
表26:间隔区序列
构建体 | RNA序列 |
15.3 20-nt间隔区 | CAAACAAAUGUGUCACAAAG(SEQ ID NO:1099) |
15.3 19-nt间隔区 | CAAACAAAUGUGUCACAAA(SEQ ID NO:1100) |
15.3 18-nt间隔区 | CAAACAAAUGUGUCACAA(SEQ ID NO:1101) |
15.5 20-nt间隔区 | GGAAUAAUGCUGUUGUUGAA(SEQ ID NO:1102) |
15.5 19-nt间隔区 | GGAAUAAUGCUGUUGUUGA(SEQ ID NO:1103) |
15.5 18-nt间隔区 | GGAAUAAUGCUGUUGUUG(SEQ ID NO:1104) |
结果:使用CasX变体491和由具有间隔区15.3或15.5的支架174组成的向导物组装CasX RNP,两者均靶向TCRα基因的恒定区。测试具有全长20-nt间隔区以及截短的19-和18-nt间隔区的向导物,以确定当将预组装的RNP核转染用于离体编辑时,较短间隔区的使用是否支持增加的编辑。在22μL核感染反应中,在范围0.3125μM至2.5μM的2倍稀释度下测试RNP。在核转染后三天通过流式细胞术评估编辑。对于两个间隔区序列,具有截短间隔区的RNP在剂量范围内比具有20-nt间隔区的RNP编辑得更有效(图37A至图37B,剂量-反应曲线)。对于间隔区15.3,18-nt和19-nt间隔区的EC50值分别为0.225μM和0.299μM,而20-nt间隔区为1.414μM(两种截短的p<0.0001;额外平方和F检验)。对于间隔区15.5,18-nt间隔区的EC50为0.519μM对20-nt间隔区的0.938μM(p=0.0001),而19-nt间隔区更类似于20-nt间隔区,其中EC50为0.808μM(p=0.0762)。尽管事实是19-nt 15.3间隔区具有类似于18-nt间隔区的编辑,而19-nt 15.5间隔区更接近地类似于对应20-nt间隔区,然而,对于两种测试的间隔区,趋势的方向保持一致并且表明当CasX编辑分子作为预组装的RNP递送时,使用具有18-nt间隔区的向导物可以是用于增加编辑的可推广策略,并且证明在通过RNP的离体编辑中,与20个碱基的间隔区相比,18或19的较短间隔区支持增加的活性。
实施例16:该测定鉴定具有新PAM序列特异性的CasX蛋白变体
实验的目的是鉴定CasX蛋白515(SEQ ID NO:416)的序列变体的PAM序列特异性。为了实现这一点,将HEK293细胞系PASS_V1.01用CasX蛋白491(SEQ ID NO:336)或515或者515的变体连同向导物174(SEQ ID NO:2238)处理,并且进行下一代测序(NGS)以计算在多种间隔区和相关靶位点处的编辑百分比。
材料和方法:采用多重合并方法,利用PASS系统测定克隆蛋白变体。简言之,产生合并的HEK细胞系并命名为PASS_V1.01。池内的每个细胞含有基因组整合的单向导RNA(sgRNA),与特定靶位点配对。在转染蛋白质表达构建体后,特定间隔区在特定靶处的编辑可通过NGS定量。设计每个向导物-靶对以提供与CasX-向导RNP复合物的活性、特异性和靶向性相关的数据。
配对的间隔区-靶序列由Twist Biosciences合成并作为寡核苷酸的等摩尔池获得。该池通过PCR扩增并通过Golden Gate克隆进行克隆,以生成命名为p77的最终质粒文库。每个质粒含有sgRNA表达元件和靶位点以及GFP表达元件。sgRNA表达元件由驱动gRNA支架174(SEQ ID NO:2238)转录的U6启动子,随后是将向导物和CasX变体的RNP靶向配对靶位点的间隔区序列组成。设计并合成了250个可能的独特、配对的间隔区-靶合成序列。然后根据制造商的说明书,使用LentiX生产系统(Takara Bio USA,Inc)从该质粒文库产生慢病毒池。然后通过qPCR定量所得病毒制剂,并以低感染复数转导至标准HEK293细胞系中,以生成单拷贝整合。然后通过荧光激活细胞分选(FACS)纯化所得细胞系以完成PASS_V1.01的产生。然后将该细胞系接种在六孔板形式中,并用水一式两份处理或用2μg质粒p67转染,该质粒通过Lipofectamine转染试剂(ThermoFisher)根据制造商的说明书递送。质粒p67含有驱动用SV40核定位序列标记的CasX蛋白表达的EF-1α启动子。两天后,收集经处理的PASS_V1.01细胞,裂解,并使用基因组DNA分离试剂盒(Zymo Research)提取基因组DNA。然后用定制引物对基因组DNA进行PCR扩增,以产生与Illumina NGS兼容的扩增子,并在NextSeq仪器上测序。将样品读数解复用并过滤质量。然后对处理过的样品中每个间隔区-靶合成序列的编辑结果指标(具有插入缺失的读段的比例)进行定量。
为了评估分子的PAM序列特异性,对四种不同PAM序列的编辑结果指标进行分类。对于TTC PAM靶位点,定量了48个不同的间隔区-靶对;对于ATC、CTC和GTC PAM靶位点,分别定量了14、22和11个单独的靶位点。对于这些间隔区中的每一者计算两个生物重复的平均值的平均编辑效率和标准误差。还计算了四类PAM序列的平均编辑效率以及平均值的标准误差。
结果:表27列出了当靶向CasX蛋白变体515时上述间隔区的平均编辑效率,计算为两个实验的平均值。指示了间隔区名称和相关PAM序列。表28列出了CasX蛋白变体534的相同数据。另外,计算这四类PAM序列中每一者的平均编辑效率。
表27:具有与TTC、ATC、CTC或GTC的PAM序列相关的间隔区的CasX515的平均编辑
/>
/>
/>
表28:CasX 534在与TTC、ATC、CTC或GTC的PAM序列相关的间隔区的平均编辑
/>
/>
图38是示出跨PAM类别和跨CasX蛋白变体的平均编辑效率的柱状图,将两次实验的平均值的标准误差绘制为误差棒。这些数据指示CasX491和515两者对经典PAM序列TTC是特异性的,而CasX的其它变体对所测试的PAM序列表现得更有效或更无效。特别地,观察到在CasX位置223处取代的不同氨基酸有利于在PAM核苷酸序列的紧邻5'位置处的不同碱基。对于这四个PAM序列中的每一者,具有最高编辑活性的CasX变体列在表29中。对于指定PAM序列,规定了变体名称和氨基酸取代,以及编辑相对于CasX 515的改善折叠。这些数据表明,在该位置的氨基酸侧链的同一性对于PAM识别是关键的。很可能四个核苷酸中的每一者与CasX蛋白的该区域中的不同键网络或化学环境最互补。这些数据可用于为感兴趣的靶DNA序列工程化最大活性的治疗性CasX分子。
在实验条件下,鉴定了一组CasX蛋白515的变体,其在人细胞中在与序列TTC、ATC、CTC或GTC的PAM相关的靶DNA序列处的双链DNA切割得到改善,支持可产生相对于野生型CasX具有增加的PAM特异性谱的CasX变体。
表29:改善NTC PAM序列的切割活性的CasX 515的突变
CasX蛋白 | 位置 | 参考 | 替代方案 | PAM序列 | 折叠改善对515 |
515 | 223 | G | 不适用 | TTC | 1.0 |
528 | 223 | G | Y | ATC | 6.7 |
535 | 223 | G | S | CTC | 5.2 |
534 | 223 | G | H | GTC | 3.2 |
实施例17:PASS测定比较了在TTC、ATC、CTC或GTC的PAM序列上具有改善的编辑效
率的CasX蛋白变体
实验的目的是比较利用CasX蛋白2(SEQ ID NO:2)的工程化变体和新变体在人细胞中的基因组编辑效率。为了实现这一点,将HEK293细胞系PASS_V1.00用野生型参考CasX蛋白2或工程化变体119(SEQ ID NO:270)、491(SEQ ID NO:336)和515(SEQ ID NO:416)或515的序列变体进行处理,并且进行下一代测序(NGS)以计算在多种间隔区和相关靶位点处的编辑百分比。
材料和方法:采用多重合并方法,利用PASS系统测定克隆蛋白变体。简言之,产生合并的HEK细胞系并命名为PASS_V1.00。池内的每个细胞含有基因组整合的单向导RNA(sgRNA;SEQ ID NO:2238),与特定靶位点配对。在转染蛋白质表达构建体后,特定间隔区在特定靶处的编辑可通过NGS定量。设计每个向导物-靶对以提供与CasX-向导RNP复合物的活性、特异性和靶向性相关的数据。
配对的间隔区-靶序列由Twist Biosciences合成并作为寡核苷酸的等摩尔池获得。该池通过PCR扩增并通过Golden Gate克隆进行克隆,以生成命名为p66的最终质粒文库。每个质粒含有sgRNA表达元件和靶位点,以及GFP表达元件和潮霉素表达元件。sgRNA表达元件由驱动gRNA支架174(SEQ ID NO:2238)转录的U6启动子,随后是将向导物和CasX变体的RNP靶向配对靶位点的间隔区序列组成。设计并合成了250个可能的独特、配对的间隔区-靶合成序列。然后根据制造商的说明书,使用LentiX生产系统(Takara Bio USA,Inc)从该质粒文库产生慢病毒池。然后通过qPCR定量所得病毒制剂,并以低感染复数转导至标准HEK293细胞系中,以生成单拷贝整合。然后通过荧光激活细胞分选(FACS)纯化所得细胞系以完成PASS_V1.00的产生。然后将细胞系接种在六孔板形式中,并用水处理或用2μg质粒p67转染,该质粒通过Lipofectamine转染试剂(ThermoFisher)根据制造商的说明书递送。质粒p67含有驱动用SV40核定位序列标记的CasX蛋白表达的EF-1α启动子。五天后,收集经处理的PASS_V1.00细胞,裂解,并使用基因组DNA分离试剂盒(Zymo Research)提取基因组DNA。然后用定制引物对基因组DNA进行PCR扩增,以产生与Illumina NGS兼容的扩增子,并在NextSeq仪器上测序。将样品读数解复用并过滤质量。然后对处理过的样品中每个间隔区-靶合成序列的编辑结果指标(具有插入缺失的读段的比例)进行定量。
为了评估分子的编辑效率,对四种不同PAM序列的编辑结果指标进行分类。对于TTC PAM靶位点,定量了48个不同的间隔区-靶对;对于ATC、CTC和GTC PAM靶位点,分别定量了14、22和11个单独的靶位点。计算这些间隔区中的每一者的编辑效率,并且通过减去在水处理的样品中观察到的编辑而针对背景信号进行归一化。
结果:图30是示出整个PAM类别和整个CasX蛋白变体的编辑效率的小提琴图。单个间隔区的编辑效率被示出为点,并且平均编辑效率用水平条来指示。用任何核酸酶进行脂质转染的细胞在TTC PAM靶位点(水平条)处表现出比野生型核酸酶Cas 2(Cas 528除外(SEQ ID NO:428))更高的平均编辑。任何给定核酸酶对四种不同PAM序列的相对偏好也由小提琴图表示。CasX核酸酶527(SEQ ID NO:427)、528(SEQ ID NO:428)和529(SEQ ID NO:429)表现出与野生型核酸酶CasX 2显著不同的PAM偏好。这些数据表明CasX氨基酸序列的某些区域对于PAM识别是关键的,并且这些数据可用于工程化用于感兴趣靶DNA序列的最大活性的治疗性CasX分子。
在实验条件下,鉴定了工程化CasX变体119、491和515或者515的序列变体,与WTCasX 2蛋白相比,其在人细胞中在与序列TTC、ATC、CTC或GTC的PAM相关的靶DNA序列处的双链DNA切割得到改善。这些数据支持可产生相对于野生型参考CasX具有增加的PAM特异性谱的CasX变体。
实施例18:PASS测定比较了在TTC、ATC、CTC或GTC的PAM序列上具有改善的最大编
辑效率的CasX蛋白变体
实验的目的是比较CasX蛋白变体以确定对于选择的靶核酸序列在TTC、ATC、CTC或GTC的PAM序列的最大编辑效率。为了实现这一点,将HEK293细胞系PASS_V1.00用工程化CasX蛋白491(SEQ ID NO:336)或其它工程化变体532(SEQ ID NO:432)或533(SEQ ID NO:433)处理,并且进行下一代测序(NGS)以计算在多种间隔区和相关靶核酸位点处的编辑百分比。
材料和方法:采用多重合并方法,利用PASS系统测定克隆蛋白变体。简言之,产生合并的HEK细胞系并命名为PASS_V1.00。池内的每个细胞含有基因组整合的单向导RNA(sgRNA),与特定靶位点配对。在转染蛋白质表达构建体后,特定间隔区在特定靶处的编辑可通过NGS定量。设计每个向导物-靶对以提供与CasX-向导RNP复合物的活性、特异性和靶向性相关的数据。
配对的间隔区-靶序列由Twist Biosciences合成并作为寡核苷酸的等摩尔池获得。该池通过PCR扩增并通过Golden Gate克隆进行克隆,以生成命名为p66的最终质粒文库。每个质粒含有sgRNA表达元件和靶位点,以及GFP表达元件和潮霉素表达元件。sgRNA表达元件由驱动gRNA支架174(SEQ ID NO:2238)转录的U6启动子,随后是将向导物和CasX变体的RNP靶向配对靶位点的间隔区序列组成。设计并合成了250个可能的独特、配对的间隔区-靶合成序列。然后根据制造商的说明书,使用LentiX生产系统(Takara Bio USA,Inc)从该质粒文库产生慢病毒池。然后通过qPCR定量所得病毒制剂,并以低感染复数转导至标准HEK293细胞系中,以生成单拷贝整合。然后通过荧光激活细胞分选(FACS)纯化所得细胞系以完成PASS_V1.00的产生。然后将该细胞系接种在六孔板形式中,并用水一式两份处理或用2μg质粒p67转染,该质粒通过Lipofectamine转染试剂(ThermoFisher)根据制造商的说明书递送。质粒p67含有驱动用SV40核定位序列标记的CasX蛋白表达的EF-1α启动子。五天后,收集经处理的PASS_V1.00细胞,裂解,并使用基因组DNA分离试剂盒(Zymo Research)提取基因组DNA。然后用定制引物对基因组DNA进行PCR扩增,以产生与Illumina NGS兼容的扩增子,并在NextSeq仪器上测序。将样品读数解复用并过滤质量。然后对处理过的样品中每个间隔区-靶合成序列的编辑结果指标(具有插入缺失的读段的比例)进行定量。
为了评估分子的编辑效率,对四种不同PAM序列的编辑结果指标进行分类。对于TTC PAM靶位点,定量了48个不同的间隔区-靶对;对于ATC、CTC和GTC PAM靶位点,分别定量了14、22和11个单独的靶位点。计算这些间隔区中的每一者的编辑效率,并且通过减去在水处理的样品中观察到的编辑而针对背景信号进行归一化。然后计算两个生物重复的平均值,以及平均值的标准误差(SEM)。最后,对于每一类PAM(TTC、ATC、CTC或GTC),计算所有间隔区的平均编辑效率以及传播的SEM。
结果:图31是示出整个PAM类别和整个CasX蛋白变体的编辑效率的柱状图。用Cas532或533进行脂质转染的细胞在PAM序列中的每个序列处表现出比CasX 491更高的平均编辑,但TTC PAM靶位点处的Cas 533除外。这些数据表明CasX变体532或533可改善对感兴趣治疗靶标的编辑活性。
当靶DNA序列与序列TTC、ATC、CTC或GTC的PAM结合时,工程化CasX变体532和533被鉴定为与CasX 491相比在人细胞中具有改善的编辑效率。这些数据支持,与CasX 491相比,CasX变体532和533可改善感兴趣治疗靶标的编辑效率,特别是对于与非经典PAM序列相关的那些靶标。
实施例19:PASS测定鉴定相对于CasX 491或CasX 119具有增强的编辑活性的CasX
蛋白变体
实验的目的是鉴定相对于CasX 491或119在人细胞中具有改善的编辑的CasX变体。为了实现这一点,将HEK293细胞系PASS_V1.01用野生型CasX蛋白2或工程化CasX蛋白变体119或491(SEQ ID NO:336)或另一种CasX蛋白变体处理,并且进行下一代测序(NGS)以计算在多种间隔区和相关靶位点处的编辑百分比。
材料和方法:采用多重合并方法,利用PASS系统测定克隆蛋白变体。简言之,产生合并的HEK细胞系并命名为PASS_V1.01。池内的每个细胞含有基因组整合的单向导RNA(sgRNA:SEQ ID NO:2238),与特定靶位点配对(列于表30中)。在转染蛋白质表达构建体后,特定间隔区在特定靶处的编辑可通过NGS定量。设计每个向导物-靶对以提供与CasX-向导RNP复合物的活性、特异性和靶向性相关的数据。
配对的间隔区-靶序列由Twist Biosciences合成并作为寡核苷酸的等摩尔池获得。该池通过PCR扩增并通过Golden Gate克隆进行克隆,以生成命名为p77的最终质粒文库。每个质粒含有sgRNA表达元件和靶位点以及GFP表达元件。sgRNA表达元件由驱动gRNA支架174(SEQ ID NO:2238)转录的U6启动子,随后是将向导物和CasX变体的RNP靶向配对靶位点的间隔区序列组成。设计并合成了250个可能的独特、配对的间隔区-靶合成序列。然后根据制造商的说明书,使用LentiX生产系统(Takara Bio USA,Inc)从该质粒文库产生慢病毒池。然后通过qPCR定量所得病毒制剂,并以低感染复数转导至标准HEK293细胞系中,以生成单拷贝整合。然后通过荧光激活细胞分选(FACS)纯化所得细胞系以完成PASS_V1.01的产生。然后将细胞系接种在六孔板形式中,并用水一式两份处理或作为单个样品或用2μg质粒p67转染,该质粒通过Lipofectamine转染试剂(ThermoFisher)根据制造商的说明书递送。质粒p67含有驱动用SV40核定位序列标记的CasX蛋白表达的EF-1a启动子以及嘌呤霉素抗性基因。一天后,将细胞转移到对嘌呤霉素抗性有选择性的培养基(Sigma)中。另外四天后,收集经处理的PASS_V1.01细胞,裂解,并使用基因组DNA分离试剂盒(Zymo Research)提取基因组DNA。然后用定制引物对基因组DNA进行PCR扩增,以产生与Illumina NGS兼容的扩增子,并在NextSeq仪器上测序。将样品读数解复用并过滤质量。然后对处理过的样品中每个间隔区-靶合成序列的编辑结果指标(具有插入缺失的读段的比例)进行定量。
为了评估CasX核酸酶在人靶位点处的编辑活性,对48个TTC PAM靶位点进行定量。对于所指示的这些间隔区中的每一者计算两个生物重复的平均值的平均编辑效率和标准误差。还计算了整个48个间隔区的平均编辑效率,以及所指示的平均的传播标准误差。
结果:图39是示出在人细胞中48个不同TTC PAM靶位点处选择的CasX核酸酶相对于CasX 491的平均编辑效率的柱状图。将两次实验的平均值的传播标准误差绘制为误差棒。这些数据指示CasX 119和491都比野生型CasX 2实质上更有效。此外,与CasX 491的编辑效率相比,CasX515没有显著不同。令人惊奇的是,CasX 527在TTC PAM序列上表现出比491更高的效率(通过Welch双尾t检验,p=0.0000635)。CasX核酸酶527被工程化以表现出对ATC、CTC或GTC的PAM序列的改善的编辑效率,这可能是通过用非经典PAM序列稳定具有双链DNA靶位点的CasX核糖核蛋白(RNP)的R环结构。CasX 527由在CasX 491的位置26处插入的精氨酸氨基酸组成。该位置在物理上接近CasX PAM识别环(氨基酸位置223)与DNA非靶链(NTS)的PAM核苷酸的相互作用。
图40图示了同源参考CasX蛋白1(SEQ ID NO:1;蛋白数据库标识号:6NY2)的公开的CryoEM结构上的PAM识别环和CasX 527突变(位置26)的位置。可能的是,插入的精氨酸和DNA NTS之间的另外的离子相互作用促进在PAM序列TTC、ATC、CTC或GTC中的任一者处的改善的稳定性,从而导致在这些间隔区处的改善的总体编辑效率。
图41是比较CasX 2和CasX 527的编辑效率以在48TTC PAM间隔区选择CasX 515的变体的小提琴图,其中中值编辑效率表示为水平条。如上所述,先前观察到CasX 527具有等于或优于CasX 491的编辑效率,并且此处观察到几种新CasX变体相对于CasX 527具有进一步改善的编辑效率。出乎意料地,CasX 583的编辑速率特别均匀且高。这可能是R环结构稳定性的巨大改善的结果,使得通常在间隔区之间观察到的编辑变化大部分被克服。支持这种假设的是,CasX 583与CasX 515的不同之处在于,在蛋白质的非靶链结合结构域(NTSB)中,位置168处的疏水性亮氨酸取代了带正电荷的赖氨酸,这可促进与靶DNA的NTS的另外离子键。该区域在上述CryoEM结构中是未结构化的,并且为了清楚起见已经标记了NTSB结构域。表30列出了当用CasX蛋白变体527或583靶向时48个TTC PAM间隔区的编辑效率,证明了在测定条件下,CasX 583在大多数靶标处的增强的编辑效率。指示了间隔区名称和相关PAM序列。
图42是示出在人细胞中48个不同TTC PAM靶位点处选择的CasX核酸酶相对于CasX491的平均编辑效率的柱状图。将两次实验的平均值的传播标准误差绘制为误差棒。灰色虚线指示CasX 119的编辑活性。这些数据指示从429至458的CasX变体相对于CasX 119表现出可变的编辑效率,并且在一些情况下相对于CasX 119表现出改善的编辑效率,相对于CasX491其编辑为70.8%。特别地,CasX 450基本上比CasX 119更有效,相对于CasX 491编辑为95.9%,并且相对于CasX 119序列由四个取代突变组成。这四种取代突变如下:D732N、E385P、Y857R、I658V。重要的是,CasX 449由相同的序列组成,减去取代I658V,并且效率相当低,相对于CasX 491编辑仅为58.1%。该比较指示该突变对于活性的增加是至关重要的。这些数据表明,当对CasX 119进行取代突变的组合时,可实现改善的编辑活性。值得注意的是,这些活性增强与所观察到的由同源CasX蛋白序列之间的结构域交换引起的增强是分开的。特别地,CasX 484与CasX 491的不同之处仅在于CasX 2结构域NTSB和螺旋Ib被CasX 1中发现的那些替换,其中活性对应地从62.0%增加到100.0%。这些数据示出,CasX 119核酸酶活性可通过各个取代突变的组合或通过与同源CasX蛋白的结构域交换来增强。
在实验条件下,鉴定了一组CasX蛋白491或515的变体,其对于人细胞中与序列TTC的PAM相关的靶DNA序列处的双链DNA切割进行了改善,并且提供了突变的特定位置或位置组合的证据,这些突变可用于进一步工程化对感兴趣靶DNA序列具有增强的活性的CasX变体分子。
表30:CasX 527或CasX 583在与TTC的PAM序列相关的48个间隔区处的编辑百分比
/>
实施例20:PASS测定鉴定相对于CasX 491具有增强的特异性的CasX蛋白变体
本实验的目的是鉴定CasX的变体,其在人细胞中的靶上位点与脱靶位点处的切割特异性得到改善。为了实现这一点,将HEK293细胞系PASS_V1.01用野生型CasX蛋白2或用工程化CasX蛋白变体119或491(SEQ ID NO:336)或另一种CasX蛋白变体连同单向导RNA(sgRNA;SEQ ID NO:2238)处理,并且进行下一代测序(NGS)以计算在多种间隔区和相关靶位点处的编辑百分比。
材料和方法:采用多重合并方法,利用PASS系统测定克隆蛋白变体,如实施例19所述。
为了评估CasX核酸酶在人靶位点处的编辑活性以及特异性,对两组靶位点进行定量。首先,对48个TTC PAM靶位点进行定量,并且对于这些间隔区中的每一者计算两个生物重复的平均值的平均编辑效率和标准误差。还计算了整个48个间隔区的平均编辑效率,以及平均的传播标准误差。第二,对28组两个TTC PAM间隔区-靶位点对进行定量。每组间隔区-靶对由固定的间隔区序列和两个不同的靶位点组成。两个靶位点的不同之处在于靶位点的二十个位置中的一者处的单核苷酸错配。一个靶位点(靶上间隔区-靶对)与间隔区序列完全互补,而另一个(脱靶间隔区-靶对)由间隔区的RNA和DNA靶链之间的错配组成。对于这些间隔区中的每一者计算两个生物重复的平均值的平均编辑效率和标准误差。对于这28组靶位点中的每一者,计算脱靶和靶上位点之间的编辑效率的比率以及平均值的传播标准误差。该度量被定义为特异性比率。最后,计算整个28组靶位点的平均特异性比率,以及平均值的传播标准误差。
结果:图43是示出相对于CasX 491的平均编辑效率以及选择的CasX核酸酶的平均特异性比率的柱状图。将两次实验的平均值的传播标准误差绘制为误差棒。这些数据指示CasX 119和491都比野生型CasX 2实质上更有效,并且与CasX 2相比(CasX 2的平均特异性比率为0.171,而CasX 119的平均特异性比率为0.182),CasX 119仍对间隔区中的单核苷酸错配具有特异性(低特异性比率)。相反,CasX 491在这些条件下丧失了大量的单核苷酸错配的特异性(平均特异性比率为0.446)。CasX 491的另外突变(在位置793处插入脯氨酸)产生CasX 515略微改善了分子的特异性,尽管该结果不是统计学上显著的。此外,在CasX 491的位置26处插入精氨酸以产生CasX 527显著地且显著地恶化分子的特异性(平均特异性比率为0.839)。然而,重要的是,CasX 515的另外单个突变进一步改善了该分子的特异性。CasX 535、537、542、543和544都显著改善了特异性。CasX 544最大程度地改善了特异性,达到0.183的平均特异性比率,这与野生型CasX 2没有显著不同。同时,与CasX 491的平均编辑效率相比,CasX 544保持97.7%的平均编辑效率并且没有显著不同。这些数据表明当在人细胞中编辑靶向DNA序列时,对CasX 491或515进行的单个突变可改变核酸酶的活性或特异性或两者。图68是说明测试的突变组合及其对活性和特异性两者的影响之间的定性关系的流程图。表31对在28组靶上或脱靶间隔区-靶对上CasX 491的平均编辑百分比进行了定量,说明了靶上与脱靶编辑效率的平均比率。表32对选择的CasX变体相对于CasX 2或CasX变体491的平均编辑活性进行了定量,以及对作为零和一之间的绝对值的每个变体的平均特异性比率进行了定量。在所有情况下,与参考CasX2(SEQ ID NO:2)相比,工程化变体示出改善的编辑效率,在测定条件下编辑多4倍至接近7倍,而CasX 527(SEQ ID NO:427)和532(SEQ ID NO:432)相对于CasX 491(SEQ ID NO:336)示出有所改善。CasX 542(SEQ ID NO:442)、543(SEQ ID NO:443)和544(SEQ ID NO:444)的活性基本上与CasX 491一样,但保留了与参考CasX 2相当的特异性。
在实验条件下,鉴定了一组CasX蛋白491或515的变体,这些变体对于人细胞中与序列TTC的PAM相关的靶DNA序列处的双链DNA切割而言是改善的。此外,这些蛋白质变体的特异性通过测量靶上位点与脱靶位点的编辑进行定量。这些数据可用于为感兴趣靶标DNA序列工程化最大活性和最大特异性的治疗性CasX变体分子。
表31:在28组靶上或脱靶间隔区-靶对处CasX 491的平均编辑百分比
/>
表31:CasX蛋白的活性和特异性
实施例21:改善的向导RNA变体在体外证实了在小鼠和人RHO外显子1基因座处的 增强的靶上活性。
进行实验以鉴定在不同基因组靶点(包括治疗相关的小鼠和人Rho外显子1)具有增加的活性的新工程化向导RNA变体。先前的测定鉴定了支架序列内的许多不同的“热点”区域(例如,茎环),其具有显著增加编辑效率以及特异性的潜力(表33中的序列)。另外,进行筛选以鉴定将增加我们的CRISPR系统在整个多种不同PAM-间隔区组合的AAV载体中的总体活性而不触发脱靶或非特异性编辑的支架变体。与目前的基准载体相比实现增加的编辑效率将允许减少的病毒载体剂量用于体内研究中,从而改善AAV介导的CasX-向导系统的安全性。
材料和方法:
将新CasX变体序列和gRNA支架变体插入到AAV转基因构建体中用于质粒和病毒载体验证。我们在概念上将ITR之间的AAV转基因分解成不同部分,这些部分由我们的治疗货物(CasX和gRNA变体+间隔区)和与哺乳动物细胞中的表达相关的辅助元件(例如启动子、NLS、聚(A))组成。通过限制性酶位点分离AAV基因组中的每个部分以允许模块克隆。将部分排序为来自Twist的基因片段,进行PCR扩增并用对应限制性酶消化,清洗,然后连接到用相同酶消化的载体中。然后将新AAV构建体转化到有化学感受态大肠杆菌(Turbos或Stbl3s)中,在37℃下回收1小时后将其接种在卡那霉素LB-琼脂板上。挑取单个菌落,小量制备,并进行Sanger测序。然后将序列验证的构建体克隆到具有间隔区12.7的BbsI Golden-Gate组装中(靶向tdTomato:CTGCATTCTAGTTGTGGTTT,SEQ ID NO:194)。通过将两个寡核苷酸退火并在水中稀释来制备间隔区。然后重复转化和小量制备方案,并再次对间隔区-克隆载体进行序列验证。验证的构建体被大量制备。为了评估大量制备的质量,构建体在两种不同的消化物中进行处理,其中XmaI(在ITR的每一者的几个位点切割)和XhoI(在AAV基因组中切割一次)。然后将这些消化物和未切割的构建体在1%琼脂糖凝胶上电泳并在ChemiDoc上成像。如果质粒>90%的超螺旋,大小正确,并且ITR完整,则构建体继续经由核转染进行测试,随后使用AAV载体生产。
表33:克隆到p59.491.U6.X.Y.质粒中的向导序列。(X=导向物;Y=间隔区)
/>
/>
/>
/>
/>
报告细胞系:
将从Ai9-tdTomato中分离的永生化神经祖细胞系在预平衡的mNPC培养基(具有GlutaMax的DMEM/F12、10mM HEPES、1X MEM非必需氨基酸、1X青霉素/链霉素、1:1000 2-巯基乙醇、1X B-27补充物、减去维生素A、具有补充的生长因子bFGF和EGF的1X N2)中悬浮培养。在测试前,使用accutase将细胞提起,轻轻重悬,监测神经球的完全分离。然后用培养基猝灭细胞,离心并重悬于新鲜培养基中。对细胞进行计数并直接用于核转染,或者在AAV转导前2天,将10,000个细胞在用PLF(1X Poly-DL-鸟氨酸氢溴酸盐,在无菌diH20中10mg/mL、1X层粘连蛋白和1X纤连蛋白)包被的96孔板中温育。
通过将组成性表达与GFP连接的人RHO基因的外显子1和与mscarlet连接的人P23H.RHO的外显子1的两个转基因盒敲入HEK293T细胞中来产生HEK293T双报告细胞系。每3天至5天通过连续传代扩增所修饰的细胞,并维持在成纤维细胞(FB)培养基中,该培养基由杜氏改良Eagle培养基(DMEM;Corning Cellgro,#10-013-CV)(补充有10%胎牛血清(FBS;Seradigm,#1500-500))和100单位/mL青霉素和100mg/mL链霉素(100x-Pen-Strep;GIBCO#15140-122)组成,并且可另外包括丙酮酸钠(100x,ThermoFisher#11360070)、非必需氨基酸(100x ThermoFisher#11140050)、HEPES缓冲液(100x ThermoFisher#15630080)和2-巯基乙醇(1000x ThermoFisher#21985023)。将细胞在37℃和5% CO2下培养。在1周至2周后,将GFP+/mscarlet+细胞批量分选到FB培养基中。每3天至5天通过连续传代扩增报告细胞系,并在37℃和5% CO2的培养箱中维持在FB培养基中。通过限制性稀释法产生报告克隆。经由流式细胞术、基因组测序和使用先前验证的RHO靶向CasX分子对RHO基因座的功能性修饰来表征克隆系。最佳报告基因系被鉴定为i)每个细胞具有正确整合的WTRHO.GFP和mutRHO.mscarlet的单个拷贝,ii)维持与未修饰细胞相等的倍增时间,以及iii)当使用下述方法测定时,在RHO基因断裂后导致GFP和mscarlet荧光的降低。
核转染:
驱动CasX支架向导系统表达的AAV顺式质粒使用Lonza P3原代细胞96-孔核转染试剂盒在mNPC中进行核转染。对于ARPE-19系,使用Lonza SF溶液和补充物。将质粒稀释至200ng/μl、100ng/μL的浓度。将每个构建体5μL的DNA分别加入到含有200,000个tdTomatomNPC或ARPE-19细胞的P3或SF溶液中。根据制造商的指导,使用Lonza 4D核转染系统对合并的溶液进行核转染。核转染后,用合适的培养基猝灭溶液。然后将溶液在96孔板中一式三份等分(大约67,000个细胞/孔)。转染后48小时,用含有生长因子的新鲜mNPC培养基补充处理过的细胞。转染后5天,除去tdTomato mNPC并通过FACS评估活性。
AAV产物:
悬浮HEK293T细胞取材于亲本HEK293T并在FreeStyle 293培养基中生长。为了筛选目的,在转染当天将小规模培养物(20mL至30mL在125mL锥形瓶中培养并以110rpm搅拌)稀释至1.5e+6个细胞/mL的密度。在无血清OPTIMEM培养基中,使用PEIMax(Polysciences)将侧翼为ITR重复序列的转基因的无内毒素pAAV质粒与提供用于复制的腺病毒辅助基因和AAV rep/cap基因组的质粒共转染。转染后3小时用10%CDM4HEK293(HyClone)补充培养物。三天后,培养物以1000rpm离心10分钟以从细胞沉淀中分离上清液。将上清液与40% PEG2.5M NaCl(8%最终浓度)混合,并在冰上温育至少2小时以沉淀AAV病毒颗粒。将含有大部分AAV载体的细胞沉淀重悬于裂解培养基(0.15M NaCl、50mM Tris HCl、0.05%吐温,pH8.5)中,在冰上超声处理(15秒,30%振幅)并用Benzonase(250U/μL,Novagen)在37℃下处理30分钟。然后将粗裂解物和PEG处理的上清液在4℃下以4000rpm旋转20分钟,以使PEG沉淀的AAV(沉淀)与无细胞碎片的粗裂解物(上清液)重悬。使用0.45μm过滤器进一步澄清。
为了测定病毒基因组滴度,用DNase和ProtK消化来自粗裂解物病毒的1μL,随后进行定量PCR。在由IDT引物时间主混合物和一组引物以及设计成扩增CMV启动子区域(Fwd5'-CATCTACGTATTAGTCATCGCTATTACCA-3'(SEQ ID NO:752)的6'FAM/Zen/IBFQ探针(IDT)组成的25μL qPCR反应物中使用5μL消化的病毒;Rev 5'-GAAATCCCCGTGAGTCAAACC-3'(SEQ IDNO:753)、探针5'-TCAATGGGCGTGGATAG-3'(SEQ ID NO:754)或位于AAV2-ITR中的62bp片段(Fwd 5'-GGAACCCCTAGTGATGGAGTT-3'(SEQ ID NO:755);Rev 5'-CGGCCTCAGTGAGCGA-3'(SEQ ID NO:756),探针5'-CACTCCCTCTCTGCGCGCTCG-3'(SEQ ID NO:757))。将AAV ITR质粒的十倍系列稀释液(2e+9至2e+4DNA拷贝/mL各自5μl)用作参考标准来计算病毒样品的滴度(病毒基因组(vg)/mL)。QPCR程序设定为:初始变性步骤在95℃下5分钟,随后进行40个循环的95℃下变性1min和60℃下退火/延伸1min。
AAV转导:
在AAV转导前48小时,将10,000个细胞/孔的mNPC接种在96孔板中的PLF包被的孔上。所有病毒感染条件一式三份进行,其中实验载体中vg数归一化,一系列3倍感染复数(MOI)稀释范围为1.0e+6至1.0e+4vg/细胞。基于转染时每孔20,000个细胞的估计数进行计算。将在补充有bFGF/EGF生长因子的预平衡mNPC培养基中稀释的50μL的AAV载体的最终体积(20ng/ml终浓度)应用于每个孔中。转染后48小时,用补充有生长因子的新鲜培养基进行完全培养基更换。转染后5天通过FACS评估编辑活性(tdt+细胞定量)。
通过FACS评估编辑活性:
转染后5天,用dPBS洗涤96孔板中处理的tdTomato mNPC或ARPE-19细胞,并用50μLTrypLE和胰蛋白酶(0.25%)分别处理15分钟和5分钟。细胞解离后,用含有DMEM、10% FBS和1X青霉素/链霉素的培养基猝灭处理的孔。将重悬的细胞转移至圆底96孔板中并以1000g离心5min。然后用含有1X DAPI的dPBS重悬细胞沉淀,并将板加载到Attune NxT流式细胞仪自动进样器中。使用以下门控参数运行Attune NxT流式细胞仪:FSC-A×SSC-A选择细胞,FSC-H×FSC-A选择单细胞,FSC-A×VL1-A选择DAPI阴性活细胞,以及FSC-A×YL1-A选择tdTomato阳性细胞。
mRHO外显子1基因座处的插入缺失的NGS分析:
转染后5天,用dPBS洗涤96孔板中处理的tdTomato mNPC,并用50μL TrypLE和胰蛋白酶(0.25%)分别处理15分钟和5分钟。细胞解离后,用含有DMEM、10% FBS和1X青霉素/链霉素的培养基猝灭处理的孔。然后将细胞离心沉降并将所得细胞沉淀用PBS洗涤,然后根据制造商的说明书使用Zymo mini DNA试剂盒将它们处理用于gDNA提取。为了评估在小鼠RHO外显子1基因座处发生的编辑水平,用一组引物(Fwd 5'-ACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNNNNGCAGCCTTGGTCTCTGTCTACG-3'(SEQ ID NO:758);Rev 5'-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGCCCCAGTCTCTCTGCTCATACC-3'(SEQ ID NO:759))从200ng gDNA扩增扩增子;经珠纯化(Beckman coulter,Agencourt Ampure XP),然后再扩增以掺入Illumina衔接子序列和16nt独特分子标识符(UMI)。使用Fragment Analyzer DNA分析试剂盒(Agilent,dsDNA 35-1500bp)评估扩增子的质量和定量。根据制造商的说明书,在IlluminaMiseq上对扩增子进行测序。如下处理来自测序的原始fastq文件:(1)使用程序cutadapt(v.2.1)对序列进行质量和衔接子序列的修剪。(2)使用程序flash2(v2.2.00)将来自读段1和读段2的序列合并成单个插入序列;以及(3)使共有插入序列连同预期的扩增子序列和间隔区序列一起通过程序CRISPResso2(v 2.0.29)运行。该程序定量在间隔区3'末端周围的窗口(以距间隔区3'末端-3bp处为中心的30bp窗口)中被修饰的读段的百分比。CasX活性被定量为在该窗口内任何地方含有插入、取代和/或缺失的读段的总百分比。
结果:
进行不同的编辑实验以定量由CasX 491与具有靶向多个感兴趣基因组基因座的不同间隔区的新gRNA支架变体(向导物174和229-237)配对介导的靶上切割。将构建体克隆到AAV主链p59中,侧翼为ITR2序列,在CMV启动子的控制下驱动蛋白Cas 491的表达,以及在人U6启动子的控制下驱动支架-间隔区的表达。使用mNPC-tdT报告细胞系来评估由tdTomato基因座处的单个间隔区(间隔区12.7,TTC PAM)介导的双重切割功效,以及内源小鼠RHO外显子1基因座处的单个切割功效(间隔区11.30,CTCN PAM)。整合在ARPE-19衍生的细胞系中的双报告系统也用于评估在外源表达的人WT Rho基因座处的靶上编辑(间隔区11.1,CTC PAM)。
分别在图14和图15所指示的两种不同剂量下,经由核转染在小鼠NPC细胞系中测试具有间隔区12.7和11.30的gRNA支架变体。将构建体与当前基准gRNA支架174活性进行比较。在两个靶向基因座处,向导物支架变体231、233、234和235的构建体以比含有支架174的构建体更高的水平进行。与支架174相比,支架235显示在mRHO外显子1基因座处的活性增加2倍。我们进一步验证了支架235通过用构建体p59.491.174.11.1和p59.491.235.11.1以及非靶向间隔区对照核转染双报告子ARPE-19细胞系在不增加脱靶切割的情况下持续改善活性。间隔区11.1靶向外源表达的mRHO-GFP基因。与174相比,支架235显示3倍增加的活性(Rho-GFP-细胞分别为9%与3%)。通过观察P23H-RHO Scarlett细胞群体的百分比来评估等位基因特异性,该序列与WT相差1bp。
最后,我们试图证明这些支架变体在AAV中有效包装并且当以病毒方式递送时保持效力。用表达具有间隔区11.30(靶上,小鼠WT RHO)和11.31(脱靶,小鼠P23 RHO)的向导物支架变体174和235的AAV载体转导的mNPC显示,与靶上基因座处的支架174相比,含有235支架变体的构建体在3.0e+5MOI下的活性增加(增加5倍以上,图45A和图45B),同时未检测到脱靶插入缺失。
结果支持具有新结构突变的支架变体可在具有治疗相关基因组靶标(诸如小鼠和人RHO外显子1基因座)的双报告系统中以增加的活性进行工程化。此外,虽然新表征的支架显示活性总体上增加>2倍,但没有检测到具有1-bp错配间隔区的脱靶切割。这与等位基因特异性治疗策略诸如adRP P23H Rho相关,该突变等位基因与WT序列相差1个核苷酸,由间隔区11.31靶向。该研究进一步证实,向导物支架235在设计用于P23H RHO拯救和基因毒性研究以及其它治疗靶标的AAV载体中的用途。
实施例22:证明催化死亡的CasX在体外不编辑内源B2M基因座
进行实验以证明催化死亡的CasX不能在体外编辑内源基因β-2-微球蛋白(B2M)。
材料和方法:
催化死亡的CasX(dCasX)构建体的产生和克隆:
CasX变体491、527、668和676与支架变体174将用于这些实验中。还将包括Cas9的阳性对照和合适的向导物。为了产生催化死亡的CasX 491(dCasX491;CAS096;SEQ ID NO:1107)和催化死亡的CasX 527(dCasX527;CAS142;SEQ ID NO:1109),CasX变体527的RuvC结构域的D659、E756、D921催化残基和CasX变体491的RuvC结构域的D660、E757和D922催化残基将突变为丙氨酸以消除内切核酸酶活性。类似地,在CasX变体668和676的RuvC结构域内的催化残基处的D660、E757、D923至丙氨酸突变将被设计成产生催化死亡的CasX 668(dCasX668;CAS401;SEQ ID NO:XX)和催化死亡的CasX 676(dCasX676;CAS402;SEQ ID NO:XX)。所得质粒(表7中列出的dCasX变体氨基酸序列)将含有具有以下构型的构建体:Ef1α-SV40NLS-dCasX变体-SV40NLS。质粒还将含有编码gRNA支架变体174的序列,该gRNA支架变体具有靶向内源B2M基因座的间隔区(间隔区7.37;GGCCGAGAUGUCUCGCUCCG,SEQ ID NO:1105)或非靶向对照(间隔区0.0;CGAGACGUAAUUACGUCUCG;SEQ ID NO:1106)。
包含编码dCasX491、dCasX527、dCasX668和dCasX676的序列的构建体将被排序为寡核苷酸并通过重叠延伸PCR组装,随后等温组装以构建编码催化死亡的CasX变体的质粒。等温装配后,将所得质粒转化到化学感受态大肠杆菌细胞中,在37℃下回收1小时后,将其接种在卡那霉素LB-琼脂板上。挑取单个菌落进行菌落PCR和Sanger测序。序列验证的构建体将被中量制备用于随后转染HEK293T细胞。
质粒转染HEK293T细胞:
将HEK293T细胞以30,000个细胞的密度接种在96孔板的每个孔中。第二天,用含有编码CasX变体491、dCasX491、dCasX527、dCasX668或dCasX676(表7中的序列)的CasX:gRNA构建体的100ng催化死亡的变体质粒使用lipofectamine瞬时转染每个孔,其中gRNA具有针对B2M基因座的非靶向间隔区0.0或靶向间隔区7.37。每个构建体将一式三份进行测试。转染后24小时,用2μg/mL嘌呤霉素选择细胞。转染后六天,收集细胞,通过下一代测序(NGS)进行编辑分析,并经由B2M免疫染色随后通过流式细胞术进行B2M蛋白表达分析。通过使用抗体(BioLegend)测定B2M的表达,该抗体将检测在细胞表面上表达的B2M依赖性HLA蛋白。使用Attune NxT流式细胞仪测量HLA+细胞。
NGS处理和分析:
按照制造商的说明书,将使用Zymo Quick DNA Miniprep Plus试剂盒从收获的细胞中提取基因组DNA(gDNA)。通过用对人B2M基因座具有特异性的一组引物从200ng提取的gDNA扩增感兴趣区域来形成靶扩增子。这些基因特异性引物在5'末端含有另外的序列以引入Illumina衔接子和16个核苷酸的独特分子标识符。扩增的DNA产物将用Ampure XP DNA清除试剂盒纯化。将使用Fragment Analyzer DNA分析试剂盒(Agilent,dsDNA 35-1500bp)评估扩增子的质量和定量。根据制造商的说明书,将在Illumina Miseq上对扩增子进行测序。使用cutadapt v2.1、flash2 v2.2.00和CRISPResso2 v2.0.29对来自测序的原始fastq文件进行质量控制和处理。在间隔区3'末端周围的窗口(以距间隔区3'末端-3bp处为中心的30bp窗口)中,相对于参考序列,将对每个序列进行定量以包含插入或缺失(插入缺失)。CasX活性将被定量为对于每个样品在该窗口内任何地方含有插入、取代和/或缺失的读段的总百分比。
结果:
预期这些实验证明由催化活性CasX 491介导的B2M基因座编辑,这将导致降低的B2M蛋白表达。另一方面,dCasX491、dCasX527、dCasX668和dCasX676都没有预期示出在B2M基因座处的编辑。考虑到催化死亡的CasX分子在B2M基因座的转录起始位点处的预期空间位阻,预计任一种酶失活的CasX蛋白分子都会轻微抑制B2M蛋白表达。
实施例23:改善MS2发夹结合亲和力增强了XDP编辑效力
进行实验以确定是否可使用募集策略来改善XDP的编辑效力,由此CasX:gRNA RNP复合物的gRNA含有具有对Gag-MS2 RNA结合蛋白(RBP)具有高亲和力的MS2发夹的功能化RNA延伸茎。RNA发夹与MS2 RBP的结合使得CasX-RNP货物能够募集到XDP颗粒。当将XDP递送至靶细胞进行编辑时,预期该RNA发夹MS2 RBP解离,从而允许CasX易位至细胞核。因此,增加MS2蛋白-RNA复合物的稳定性支持XDP形成,这可通过改变MS2 RNA结合蛋白或RNA发夹序列以增加这些组分之间的结合亲和力来实现。
为了进一步探索该原理,使用高通量体外生物化学测定评价了掺入对MS2 RBP具有不同亲和力的RNA发夹变体的gRNA,以评估平衡结合和解离动力学(Buenrostro等人,Quantitative analysis of RNA-protein interactions on a massively parallelarray reveals biophysical and evolutionary landscapes,Nat Biotechnol.,第32卷第6期:第562页,2014年)。表34中列出了gRNA发夹变体及其相关的KD(解离常数)值;表35中提供了编码不同MS2 RNA发夹变体的向导质粒的序列,并且表36中提供了MS2发夹的序列。进行实验以研究含有具有改善的结合亲和力的MS2发夹变体的gRNA是否将增强XDP形成或编辑效力。具体地,评估具有不同平衡结合亲和力的多种MS2发夹变体对XDP效力和滴度的影响。几种非结合变体也包括在这些实验中。
表34:gRNA支架含有具有不同亲和力的MS2发夹变体及其解离常数值(KD)。指定核 苷酸突变的具体位置是指图48中描绘的碱基MS2发夹(支架188)的位置。
表35:XDP质粒的序列
/>
/>
表36:MS2发夹变体序列
材料和方法:
编码CasX蛋白的所有质粒都属于CasX变体491。所有XDP用10%VSV-G假型化(VSV-G质粒相对于其它XDP结构质粒的百分比)。用RNAfold web服务器和VARNA软件产生RNA折叠结构。本文以及WO2021113772A1(该文献以引用方式整体并入本文)中描述了生产XDP的方法。
结构质粒克隆:
简言之,为了产生XDP结构质粒,从pXDP1(UC Berkeley)中去除Gag-pol序列,并使用In-Fusion HD克隆试剂盒(Takara)按照制造商的方案将扩增和纯化的编码CasX 491、HIV-1或MS2 CP组分的片段克隆到质粒主链中。将组装的产物转化到化学感受态的Turbo感受态大肠杆菌细胞中,在37℃下回收后接种在含有氨苄青霉素的LB-琼脂板上。挑取单个菌落,进行小量制备,并进行Sanger测序以进行装配验证。质粒序列列于表35中。
向导质粒克隆:
含有MS2 RNA发夹变体的所有向导质粒都掺入了tdTomato靶向间隔区12.7(CUGCAUUCUAGUUGUGGUUU;SEQ ID NO:1146)。如前所述克隆tdTomato靶向间隔区。简言之,通过退火两个寡核苷酸来制备间隔区,并用合适的限制性酶经由Golden Gate组装而克隆到具有另选支架的pSG质粒中。使克隆的间隔区经历转化、小量制备和Sanger测序以进行验证。
pGP2糖蛋白质粒克隆:
简言之,如前所述扩增和纯化从卡那霉素抗性质粒获得的编码VSV-G糖蛋白和CMV启动子和主链的序列。按照制造商的方案,使用InHD克隆试剂盒(Takara)将这些构建体克隆到质粒主链中。将组装的产物转化到化学感受态的Turbo感受态大肠杆菌细胞中,在37℃下回收后接种在含有卡那霉素的LB-琼脂板上。挑取单个菌落,进行小量制备,并进行Sanger测序以进行装配验证。
XDP产物:
简言之,在转染前24小时将HEK293T Lenti-X细胞以20×106个细胞/皿接种于15cm皿中以达到70%至90%的汇合度。第二天,使用PEI Max(Polypus)用以下质粒转染Lenti-X细胞:XDP结构质粒(也编码CasX变体)、向导质粒变体和用于XDP假型化的pGP2。转染后24小时,用Opti-MEM(Thermo Fisher)替换培养基。转染后72小时收集含XDP的培养基并通过0.45μm PES过滤器过滤。将上清液浓缩并经由离心纯化。将XDP重悬于500μL补充有Glutamax、HEPES、NEAA、Pen/Strep、2-巯基乙醇、不含维生素A的B-27和N2的DMEM/F12中。
tdTomato神经祖细胞(NPC)的XDP转导:
tdTomato NPC在补充有Glutamax、HEPES、NEAA、Pen/Strep、2-巯基乙醇、不含维生素A的B-27和N2的DMEM/F12中生长。使用StemPro Accutase细胞解离试剂收获细胞并接种在PLF包被的96孔板上。48小时后,用含有tdTomato靶向间隔区的XDP转导细胞,从纯的重悬病毒开始并进行5个半对数稀释。然后将细胞以1000xg离心15分钟。转导的NPC生长96小时,然后通过流式细胞术分析tdTomato荧光作为在tdTomato基因座处编辑的标记,其中将EC50确定为在50%细胞中实现编辑所需的XDP颗粒数,如通过流式细胞术确定的。对每个样品进行2-3次测定,结果相似。
结果:
由Gag-MS2、Gag-pro、CasX、gRNA支架变体和VSV-G组成的XDP用原始MS2(MS2 WT)或MS2高亲和力变体(MS2 353)产生。随后评估产生的XDP在NPC中的tdTomato基因座处的编辑效果。图49示出了当使用0.007μL的浓缩XDP制备物转导NPC时,使用流式细胞术通过tdTomato荧光测量的tdTomato基因座处的编辑百分比。除了基础对照gRNA支架188和251之外,高亲和力支架变体296和298显示了对MS2 WT和MS2 353的增强的效力,其中KD值范围为1.8nM至2.1nM。此外,具有在9.2nM至36.9nM范围内的KD值的中亲和力支架变体303、304、305、307、310和313产生有希望的编辑效率。图50示出了掺入MS2 WT和MS 353构型的不同gRNA支架的EC50结果。与支架188相比,支架变体296、297和305表现出稍高的效力,这是对于MS2 353构型更明显的优点。图51示出了gRNA MS2发夹的亲和力(KD)和所得XDP效力(EC50)之间的清楚相关性,其中R2值为0.81(p<0.001)。包含亲和力<35nM的MS2的XDP导致CasX RNP有效募集和包装到XDP中。然而,在这些实验的条件下,没有观察到gRNA MS2发夹的亲和力(KD)和所得XDP滴度之间的相关性(图52)。
Claims (191)
1.一种向导RNA(gRNA)支架,所述gRNA支架包含与选自SEQ ID NO:2292、2291、2307、2281-2290、2293-2306、2308-2332和23530-2398的序列中的任一个具有至少60%、至少70%、至少80%、至少90%、至少95%、至少98%、至少99%或100%序列同一性的序列。
2.根据权利要求1所述的gRNA支架,所述gRNA支架包含选自SEQ ID NO:2292、2291、2307、2281-2290、2293-2306、2308-2332和23530-2398的序列。
3.根据权利要求1所述的gRNA支架,所述gRNA支架包含相对于SEQ ID NO:2238具有一个或多个修饰的序列,其中所述一个或多个修饰导致改善的特征。
4.根据权利要求3所述的gRNA支架,其中所述一个或多个修饰包括如表19所示的一个或多个核苷酸取代、插入和/或缺失。
5.根据权利要求3或权利要求4所述的gRNA支架,其中所述改善的特征是任选地在体外测定中的选自以下的一种或多种功能性质:增加的编辑活性、增加的假结茎稳定性、增加的三链体区域稳定性、增加的支架茎稳定性、延伸茎稳定性、减少的脱靶折叠中间体和增加的对2类V型CRISPR蛋白的结合亲和力。
6.根据权利要求3至5中任一项所述的gRNA支架,其中与SEQ ID NO:2238的gRNA支架在体外测定中的得分相比,所述gRNA支架表现出至少约2.0、至少约2.5、至少约3或至少约3.5的改善的富集得分(log2)。
7.根据权利要求1所述的gRNA支架,所述gRNA支架包含相对于SEQ ID NO:2239具有一个或多个修饰的序列,其中所述一个或多个修饰导致改善的特征。
8.根据权利要求7所述的gRNA支架,其中所述一个或多个修饰包括如表20所示的一个或多个核苷酸取代、插入和/或缺失。
9.根据权利要求7或权利要求8所述的gRNA支架,其中所述改善的特征是任选地在体外测定中的选自以下的一种或多种功能性质:增加的编辑活性、增加的假结茎稳定性、增加的三链体区域稳定性、增加的支架茎稳定性、延伸茎稳定性、减少的脱靶折叠中间体和增加的对2类V型CRISPR蛋白的结合亲和力。
10.根据权利要求7至9中任一项所述的gRNA支架,其中与SEQ ID NO:2239的gRNA支架在体外测定中的得分相比,所述gRNA支架表现出至少约1.2、至少约1.5、至少约2.0、至少约2.5、至少约3或至少约3.5的改善的富集得分(log2)。
11.根据权利要求1所述的gRNA支架,所述gRNA支架包含在相对于SEQ ID NO:2239的序列的选自C9、U11、C17、U24、A29、U54、G64、A88和A95的位置处的一个或多个修饰。
12.根据权利要求11所述的gRNA支架,所述gRNA支架包含相对于SEQ ID NO:2239的序列的选自C9U、U11C、C17G、U24C、A29C、在位置54处的插入G、在位置64处的插入C、A88G和A95G的一个或多个修饰。
13.根据权利要求12所述的gRNA支架,所述gRNA支架包含相对于SEQ ID NO:2239的序列的由C9U、U11C、C17G、U24C、A29C、在位置54处的插入G、在位置64处的插入C、A88G和A95G组成的修饰。
14.根据权利要求7至13中任一项所述的gRNA支架,其中所述改善的特征选自假结茎稳定性、三链体区域稳定性、支架泡稳定性、延伸茎稳定性和对2类V型CRISPR蛋白的结合亲和力。
15.根据权利要求14所述的gRNA支架,其中相对于SEQ ID NO:2239的序列,所述在位置64处的插入C和所述取代A88G解析所述延伸茎的不对称凸起元件,从而增强所述gRNA支架的所述延伸茎的稳定性。
16.根据权利要求14所述的gRNA支架,其中所述取代U11C、U24C和A95G增加了所述gRNA支架的所述三链体区域的稳定性。
17.根据权利要求14所述的gRNA支架,其中所述取代A29C增加了所述假结茎的稳定性。
18.根据权利要求1或权利要求2所述的gRNA支架,其中所述gRNA支架包含所述延伸茎中的一个或多个异源RNA序列。
19.根据权利要求18所述的gRNA支架,其中所述异源RNA选自MS2发夹、Qβ发夹、U1发夹II、Uvsx发夹和PP7茎环,或它们的序列变体。
20.根据权利要求18或权利要求19所述的gRNA支架,其中所述异源RNA序列增加了所述gRNA的稳定性。
21.根据权利要求18或权利要求19所述的gRNA支架,其中所述异源RNA能够结合蛋白质、RNA、DNA或小分子。
22.根据权利要求18至21中任一项所述的gRNA支架,其中所述gRNA支架包含Rev应答元件(RRE)或其部分。
23.根据权利要求22所述的gRNA支架,其中所述RRE或其部分选自具有序列UGGGCGCAGCGUCAAUGACGCUGACGGUACA(SEQ ID NO:1280)的所述RRE的茎IIB、具有序列CAGGAAGCACUAUGGGCGCAGCGUCAAUGACGCUGACGGUACAGGCCAGACAAUUAUUGUCUGGUAUAGUGCAGCAGCAGAACAAUUUGCUGAGGGCUAUUGAGGCGCAACAGCAUCUGUUGCAACUCACAGUCUGGGGCAUCAAGCAGCUCCAGGCAAGAAUCCUG(SEQ ID NO:1282)的所述RRE的茎II-V、具有序列GCACUAUGGGCGCAGCGUCAAUGACGCUGACGGUACAGGCCAGACAAUUAUUGUCUGGUAUAGUGC(SEQ ID NO:1281)的所述RRE的茎II、具有序列GCUGACGGUACAGGC(SEQ ID NO:1284)的茎IIB的Rev结合元件(RBE)和具有序列AGGAGCUUUGUUCCUUGGGUUCUUGGGAGCAGCAGGAAGCACUAUGGGCGCAGCGUCAAUGACGCUGACGGUACAGGCCAGACAAUUAUUGUCUGGUAUAGUGCAGCAGCAGAACAAUUUGCUGAGGGCUAUUGAGGCGCAACAGCAUCUGUUGCAACUCACAGUCUGGGGCAUCAAGCAGCUCCAGGCAAGAAUCCUGGCUGUGGAAAGAUACCUAAAGGAUCAACAGCUCCU(SEQ ID NO:1283)的全长RRE。
24.根据权利要求1至23中任一项所述的gRNA,其中所述gRNA支架包含一个或多个胸腺嘧啶(T)。
25.一种gRNA,所述gRNA包含根据权利要求1至24中任一项所述的gRNA支架和在所述gRNA支架的3'末端与靶核酸序列互补的靶向序列。
26.根据权利要求25所述的gRNA,其中所述靶向序列具有10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。
27.根据权利要求26所述的gRNA,其中所述靶向序列具有18、19或20个核苷酸。
28.根据权利要求25至27中任一项所述的gRNA,其中所述gRNA能够与2类V型CRISPR蛋白形成核糖核蛋白(RNP)复合物。
29.一种工程化2类V型CRISPR蛋白,所述工程化2类V型CRISPR蛋白包含:
a.NTSB结构域,所述NTSB结构域包含QPASKKIDQNKLKPEMDEKGNLTTAGFACSQCGQPLFVYKLEQVSEKGKAYTNYFGRCNVAEHEKLILLAQLKPEKDSDEAVTYSLGKFGQ(SEQ ID NO:2335)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列;
b.螺旋I-II结构域,所述螺旋I-II结构域包含RALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKALSDACMGTIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKENLEYPSVTLPPQPHTKEGVDAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFPSF(SEQ ID NO:2336)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列;
c.螺旋II结构域,所述螺旋II结构域包含PLVERQANEVDWWDMVCNVKKLINEKKEDGKVFWQNLAGYKRQEALRPYLSSEEDRKKGKKFARYQLGDLLLHLEKKHGEDWGKVYDEAWERIDKKVEGLSKHIKLEEERRSEDAQSKAAL TDWLRAKASFVIEGLKEADKDEFCRCELKLQKWYGDLRGKPFAIEAE(SEQ ID NO:2351)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列;和
d.RuvC-I结构域,所述RuvC-I结构域包含SSNIKPMNLIGVDRGENIPAVIALTDPEGCPLSRFKDSLGNPTHILRIGESYKEKQRTIQAKKEVEQRRAGGYSRKYASKAKNLADDMVRNTARDLLYYAVTQDAMLIFENLSRGFGRQGKRTFMAERQYTRMEDWLTAKLAYEGLPSKTYLSKTLAQYTSKTC(SEQ ID NO:2352)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列。。
30.根据权利要求29所述的2类V型CRISPR蛋白,其中所述CRISPR蛋白包含OBD-I结构域,所述OBD-I结构域包含QEIKRINKIRRRLVKDSNTKKAGKTGPMKTLLVRVMTPDLRERLENLRKKPENIPQ(SEQ ID NO:2342)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列。
31.根据权利要求29或权利要求30所述的2类V型CRISPR蛋白,其中所述CRISPR蛋白包含OBD-II结构域,所述OBD-II结构域包含NSILDISGFSKQYNCAFIWQKDGVKKLNLYLIINYFKGGKLRFKKIKPEAFEANRFYTVINKKSGEIVPMEVNFNFDDPNLIILPLAFGKRQGREFIWNDLLSLETGSLKLANGRVIEKTLYNRRTRQDEPALFVALTFERREVLD(SEQ ID NO:2347)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列。
32.根据权利要求29至31中任一项所述的2类V型CRISPR蛋白,其中所述CRISPR蛋白包含螺旋I-I结构域,所述螺旋I-I结构域包含PISNTSRANLNKLLTDYTEMKKAILHVYWEEFQKDPVGLMSRVA(SEQ ID NO:2343)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列。
33.根据权利要求29至32中任一项所述的2类V型CRISPR蛋白,其中所述CRISPR蛋白包含TSL结构域,所述TSL结构域包含SNCGFTITSADYDRVLEKLKKTATGWMTTINGKELKVEGQITYYNRYKRQNVVKDLSVELDRLSEESVNNDISSWTKGRSGEALSLLKKRFSHRPVQEKFVCLNCGFETH(SEQ ID NO:2349)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列。
34.根据权利要求29至33中任一项所述的2类V型CRISPR蛋白,其中所述CRISPR蛋白包含RuvC-II结构域,所述RuvC-II结构域包含
ADEQAALNIARSWLFLRSQEYKKYQTNKTTGNTDKRAFVETWQSFYRKKLKEVWKPAV(SEQ ID NO:2350)的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列。
35.根据权利要求34所述的2类V型CRISPR蛋白,所述2类V型CRISPR蛋白包含SEQ IDNO:416的序列,或与其具有至少80%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列。
36.根据权利要求29至35中任一项所述的2类V型CRISPR蛋白,其中所述2类V型CRISPR蛋白在一个或多个结构域中包含至少一个修饰。
37.根据权利要求36所述的2类V型CRISPR蛋白,其中所述至少一个修饰包括:
a.结构域中的至少一个氨基酸取代;
b.结构域中的至少一个氨基酸缺失;
c.结构域中的至少一个氨基酸插入;或
d.(a)至(c)的任何组合。
38.根据权利要求36或权利要求37所述的2类V型CRISPR蛋白,所述2类V型CRISPR蛋白包含相对于SEQ ID NO:2335在所述NTSB结构域中的一个或多个氨基酸位置处的修饰,所述修饰选自P2、S4、Q9、E15、G20、G33、L41、Y51、F55、L68、A70、E75、K88和G90。
39.根据权利要求38所述的2类V型CRISPR蛋白,其中相对于SEQ ID NO:2335,在所述NTSB结构域中的一个或多个氨基酸位置处的所述一个或多个修饰选自在位置2处的插入G、在位置4处的插入I、在位置4处的插入L、Q9P、E15S、G20D、在位置30处的缺失S、G33T、L41A、Y51T、F55V、L68D、L68E、L68K、A70Y、A70S、E75A、E75D、E75P、K88Q和G90Q。
40.根据权利要求36至39中任一项所述的2类V型CRISPR蛋白,所述2类V型CRISPR蛋白包含相对于SEQ ID NO:2336在所述螺旋I-II结构域中的一个或多个氨基酸位置处的修饰,所述修饰选自I24、A25、Y29 G32、G44、S48、S51、Q54、I56、V63、S73、L74、K97、V100、M112、L116、G137、F138和S140。
41.根据权利要求40所述的2类V型CRISPR蛋白,其中相对于SEQ ID NO:2336,在所述螺旋I-II结构域中的一个或多个氨基酸位置处的所述一个或多个修饰选自在位置24处的插入T、在位置25处的插入C、Y29F、G32Y、G32N、G32H、G32S、G32T、G32A、G32V、在位置32处的缺失G、G32S、G32T、G44L、G44H、S48H、S48T、S51T、Q54H、I56T、V63T、S73H、L74Y、K97G、K97S、K97D、K97E、V100L、M112T、M112W、M112R、M112K、L116K、G137R、G137K、G137N、在位置138处的插入Q和S140Q。
42.根据权利要求36至41中任一项所述的2类V型CRISPR蛋白,所述2类V型CRISPR蛋白包含相对于SEQ ID NO:2351在所述螺旋II结构域中的一个或多个氨基酸位置处的修饰,所述修饰选自L2、V3、E4、R5、Q6、A7、E9、V10、D11、W12、W13、D14、M15、V16、C17、N18、V19、K20、L22、I23、E25、K26、K31、Q35、L37、A38、K41、R 42、Q43、E44、L46、K57、Y65、G68、L70、L71、L72、E75、G79、D81、W82、K84、V85、Y86、D87、I93、K95、K96、E98、L100、K102、I104、K105、E109、R110、D114、K118、A120、L121、W124、L125、R126、A127、A129、I133、E134、G135、L136、E138、D140、K141、D142、E143、F144、C145、C147、E148、L149、K150、L151、Q152、K153、L158、E166和A167。
43.根据权利要求42所述的2类V型CRISPR蛋白,其中相对于SEQ ID NO:2351,在所述螺旋II结构域中的一个或多个氨基酸位置处的所述一个或多个修饰选自在位置2处的插入A、在位置2处的插入H、在位置2处的缺失L和在位置3处的缺失V、V3E、V3Q、V3F、在位置3处的缺失V、在位置3处的缺失D、V3P、E4P、在位置4处的缺失E、E4D、E4L、E4R、R5N、Q6V、在位置6处的插入Q、在位置7处的插入G、在位置9处的插入H、在位置9处的插入A、VD10、在位置0处的插入T1、在位置10处的缺失V、在位置10处的插入F、在位置11处的插入D、在位置11处的缺失D、D11S、在位置12处的缺失W、W12T、W12H、在位置12处的插入P、在位置13处的插入Q、在位置12处的插入G、在位置13处的插入R、W13P、W13D、在位置13处的插入D、W13L、在位置14处的插入P、在位置14处的插入D、在位置14处的缺失D和在位置15处的缺失M、在位置15处的缺失M、在位置16处的插入T、在位置17处的插入P、N18I、V19N、V19H、K20D、L22D、I23S、E25C、E25P、在位置25处的插入G、K26T、K27E、K31L、K31Y、Q35D、Q35P、在位置37处的插入S、在位置37处的缺失L和在位置38处的缺失A、K41L、在位置42处的插入R、在位置43处的缺失Q和在位置44处的缺失E、L46N、K57Q、Y65T、G68M、L70V、L71C、L72D、L72N、L72W、L72Y、E75F、E75L、E75Y、G79P、在位置79处的插入E、在位置81处的插入T、在位置81处的插入R、在位置81处的插入W、在位置81处的插入Y、在位置82处的插入W、在位置82处的插入Y、W82G、W82R、K84D、K84H、K84P、K84T、V85L、V85A、在位置85处的插入L、Y86C、D87G、D87M、D87P、I93C、K95T、K96R、E98G、L100A、K102H、I104T、I104S、I104Q、K105D、在位置109处的插入K、E109L、R110D、在位置110处的缺失R、D114E、在位置114处的插入D、K118P、A120R、L121T、W124L、L125C、R126D、A127E、A127L、A129T、A129K、I133E、在位置133处的插入C、在位置134处的插入S、在位置134处的插入G、在位置135处的插入R、G135P、L136K、L136D、L136S、L136H、在位置138处的缺失E、D140R、在位置140处的插入D、在位置141处的插入P、在位置142处的插入D、在位置143处的缺失E+在位置144处的缺失F、在位置143处的插入Q、F144K、在位置144处的缺失F、在位置144处的缺失F和在位置145处的缺失C、C145R、在位置145处的插入G、C145K、C147D、在位置148处的插入V、E148D、在位置149处的插入H、L149R、K150R、L151H、Q152C、K153P、L158S、E166L和在位置167处的插入F。
44.根据权利要求36至43中任一项所述的2类V型CRISPR蛋白,所述2类V型CRISPR蛋白包含相对于SEQ ID NO:2352在所述RuvC-I结构域中的一个或多个氨基酸位置处的修饰,所述修饰选自I4、K5、P6、M7、N8、L9、V12、G49、K63、K80、N83、R90、M125和L146。
45.根据权利要求44所述的2类V型CRISPR蛋白,其中相对于SEQ ID NO:2351,在所述RuvC-I结构域的一个或多个氨基酸位置处的所述一个或多个修饰选自在位置4处的插入I、在位置5处的插入S、在位置6处的插入T、在位置6处的插入N、在位置7处的插入R、在位置7处的插入K、在位置8处的插入H、在位置8处的插入S、V12L、G49W、G49R、S51R、S51K、K62S、K62T、K62E、V65A、K80E、N83G、R90H、R90G、M125S、M125A、L137Y、在位置137处的插入P、在位置141处的缺失L、L141R、L141D、在位置142处的插入Q、在位置143处的插入R、在位置143处的插入N、E144N、在位置146处的插入P、L146F、P147A、K149Q、T150V、在位置152处的插入R、插入H153、T155Q、在位置155处的插入H、在位置155处的插入R、在位置156处的插入L、在位置156处的缺失L、在位置156处的插入W、在位置157处的插入A、在位置157处的插入F、A157S、Q158K、在位置159处的插入Y、T160Y、T160F、在位置161处的插入I、S161P、T163P、在位置163处的插入N、C164K和C164M。
46.根据权利要求36至45中任一项所述的2类V型CRISPR蛋白,所述2类V型CRISPR蛋白包含相对于SEQ ID NO:2342在所述OBD-I结构域中的一个或多个氨基酸位置处的修饰,所述修饰选自I3、K4、R5、I6、N7、K8、K15、D16、N18、P27、M28、V33、R34、M36、R41、L47、R48、E52、P55和Q56。
47.根据权利要求46所述的2类V型CRISPR蛋白,其中相对于SEQ ID NO:2342,在所述OBD-I结构域中的一个或多个氨基酸位置处的所述一个或多个修饰选自在位置3处的插入G、I3G、I3E、在位置4处的插入G、K4G、K4P、K4S、K4W、K4W、R5P、在位置5处的插入P、在位置5处的插入G、R5S、在位置5处的插入S、R5A、R5P、R5G、R5L、I6A、I6L、在位置6处的插入G、N7Q、N7L、N7S、K8G、K15F、D16W、在位置16处的插入F、插入F18、在位置27处的插入P、M28P、M28H、V33T、R34P、M36Y、R41P、L47P、在位置48处的插入P、E52P、在位置55处的插入P、在位置55处的缺失P和在位置56处的缺失Q、Q56S、Q56P、在位置56处的插入D、在位置56处的插入T和Q56P。
48.根据权利要求36至47中任一项所述的2类V型CRISPR蛋白,所述2类V型CRISPR蛋白包含相对于SEQ ID NO:2347在所述OBD-II结构域中的一个或多个氨基酸位置处的修饰,所述修饰选自S2、I3、L4、K11、V24、K37、R42、A53、T58、K63、M70、I82、Q92、G93、K110、L121、R124、R141、E143、V144和L145。
49.根据权利要求48所述的2类V型CRISPR蛋白,其中相对于SEQ ID NO:2342,在所述OBD-II结构域中的一个或多个氨基酸位置处的所述一个或多个修饰选自在位置2处的缺失S、I3R、I3K、在位置3处的缺失I和缺失L4、在位置4处的缺失L、K11T、在位置24处的插入P、K37G、R42E、在位置53处的插入S、在位置58处的插入R、在位置63处的缺失K、M70T、I82T、Q92I、Q92F、Q92V、Q92A、在位置93处的插入A、K110Q、R115Q、L121T、在位置124处的插入A、在位置141处的插入R、在位置143处的插入D、在位置143处的插入A、在位置144处的插入W和位置145处的插入A。
50.根据权利要求36至49中任一项所述的2类V型CRISPR蛋白,所述2类V型CRISPR蛋白包含相对于SEQ ID NO:2349在所述TSL结构域中的一个或多个氨基酸位置处的修饰,所述修饰选自S1、N2、C3、G4、F5、I7、K18、V58、S67、T76、G78、S80、G81、E82、S85、V96和E98。
51.根据权利要求50所述的2类V型CRISPR蛋白,其中相对于SEQ ID NO:2349,在所述OBD-II结构域中的一个或多个氨基酸位置处的所述一个或多个修饰选自在位置1处的插入M、在位置2处的缺失N、在位置2处的插入V、C3S、在位置4处的插入G、在位置4处的插入W、F5P、在位置7处的插入W、K18G、V58D、在位置67处的插入A、T76E、T76D、T76N、G78D、在位置80处的缺失S、在位置81处的缺失G、在位置82处的插入E、在位置82处的插入N、S85I、V96C、V96T和E98D。
52.根据权利要求29至51中任一项所述的2类V型CRISPR蛋白,相对于SEQ ID NO:2,所述2类V型CRISPR蛋白表现出改善的特征,其中所述改善的特征包括增加的对gRNA的结合亲和力、增加的对所述靶核酸的结合亲和力、改善的在所述靶核酸的所述编辑中利用更广谱的PAM序列的能力、改善的所述靶核酸的解旋、增加的编辑活性、改善的编辑效率、改善的对切割所述靶核酸的编辑特异性、减少的所述靶核酸的脱靶编辑或切割、增加的能够编辑的真核基因组的百分比、增加的所述核酸酶的活性、增加的用于双链切割的靶链加载、减少的用于单链切口的靶链加载、增加的DNA的非靶链的结合、改善的蛋白质稳定性、增加的蛋白质:gRNA(RNP)复合物稳定性和改善的融合特征。
53.根据权利要求52所述的2类V型CRISPR蛋白,其中所述改善的特征包括对包含TTC、ATC、GTC或CTC PAM序列的靶核酸序列的增加的切割活性。
54.根据权利要求53所述的2类V型CRISPR蛋白,其中所述改善的特征包括与SEQ IDNO:416的序列的切割活性相比,对包含ATC或CTC PAM序列的靶核酸序列的增加的切割活性。
55.根据权利要求54所述的2类V型CRISPR蛋白,其中所述改善的切割活性是在体外测定中与所述SEQ ID NO:416的序列的得分相比高至少约1.5、至少约2.0、至少约2.5、至少约3、至少约3.5、至少约4、至少约4.5、至少约5、至少约6、至少约7、至少约8或更多的富集得分(log2)。
56.根据权利要求54所述的2类V型CRISPR蛋白,其中所述改善的特征包括与所述SEQID NO:416的序列相比,对包含CTC PAM序列的靶核酸序列的增加的切割活性。
57.根据权利要求56所述的2类V型CRISPR蛋白,其中所述改善的切割活性是在体外测定中与所述SEQ ID NO:416的序列的所述得分相比高至少约2、至少约2.5、至少约3、至少约3.5、至少约4、至少约4.5、至少约5、或至少约6或更多的富集得分(log2)。
58.根据权利要求53所述的2类V型CRISPR蛋白,其中所述改善的特征包括与所述SEQID NO:416的序列相比,对包含TTC PAM序列的靶核酸序列的增加的切割活性。
59.根据权利要求58所述的2类V型CRISPR蛋白,其中所述改善的切割活性是在体外测定中与所述SEQ ID NO:416的序列相比高至少约1.5、至少约2.0、至少约2.5、至少约3、至少约3.5、至少约4、至少约4.5、至少约5或至少约6log2或更多的富集得分。
60.根据权利要求52所述的2类V型CRISPR蛋白,其中所述改善的特征包括相对于所述SEQ ID NO:416的序列,对所述靶核酸序列的增加的切割特异性。
61.根据权利要求60所述的2类V型CRISPR蛋白,其中所述增加的特异性是在体外测定中与所述SEQ ID NO:416的序列相比高至少约2.0、至少约2.5、至少约3、至少约3.5、至少约4、至少约4.5、至少约5或至少约6log2或更多的富集得分。
62.根据权利要求52所述的2类V型CRISPR蛋白,其中所述改善的特征包括减少的所述靶核酸序列的脱靶切割。
63.根据权利要求29至62中任一项所述的2类V型CRISPR蛋白,其中所述2类V型CRISPR蛋白具有序列,所述序列选自如表3所示的SEQ ID NO:415-592和1147-1231的序列、或与其具有至少约50%、至少约60%、至少约70%、至少约80%、至少约90%、或至少约95%、或至少约96%、或至少约97%、或至少约98%、或至少约99%序列同一性的序列。
64.根据权利要求29至62中任一项所述的2类V型CRISPR蛋白,所述2类V型CRISPR蛋白包含选自如表3所示的SEQ ID NO:415-592和1147-1231的序列。
65.根据权利要求29至64中任一项所述的2类V型CRISPR蛋白,所述2类V型CRISPR蛋白包含一种或多种核定位信号(NLS)。
66.根据权利要求65所述的2类V型CRISPR蛋白,其中所述一个或多个NLS选自由以下组成的序列:PKKKRKV(SEQ ID NO:352)、KRPAATKKAGQAKKKK(SEQ ID NO:353)、PAAKRVKLD(SEQID NO:354)、RQRRNELKRSP(SEQ ID NO:355)、NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQID NO:356)、RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:357)、VSRKRPRP(SEQ ID NO:358)、PPKKARED(SEQ ID NO:359)、PQPKKKPL(SEQ ID NO:360)、SALIKKKKKMAP(SEQ ID NO:361)、DRLRR(SEQ ID NO:362)、PKQKKRK(SEQ ID NO:363)、RKLKKKIKKL(SEQ ID NO:364)、REKKKFLKRR(SEQ ID NO:365)、KRKGDEVDGVDEVAKKKSKK(SEQID NO:366)、RKCLQAGMNLEARKTKK(SEQ ID NO:367)、PRPRKIPR(SEQ ID NO:368)、PPRKKRTVV(SEQ ID NO:369)、NLSKKKKRKREK(SEQ ID NO:370)、RRPSRPFRKP(SEQ ID NO:371)、KRPRSPSS(SEQ ID NO:372)、KRGINDRNFWRGENERKTR(SEQ ID NO:373)、PRPPKMARYDN(SEQ IDNO:374)、KRSFSKAF(SEQ ID NO:375)、KLKIKRPVK(SEQ ID NO:376)、PKKKRKVPPPPAAKRVKLD(SEQ ID NO:377)、PKTRRRPRRSQRKRPPT(SEQ ID NO:378)、SRRRKANPTKLSENAKKLAKEVEN(SEQID NO:379)、KTRRRPRRSQRKRPPT(SEQ ID NO:380)、RRKKRRPRRKKRR(SEQ ID NO:381)、PKKKSRKPKKKSRK(SEQ ID NO:382)、HKKKHPDASVNFSEFSK(SEQ ID NO:383)、QRPGPYDRPQRPGPYDRP(SEQ ID NO:384)、LSPSLSPLLSPSLSPL(SEQ ID NO:385)、RGKGGKGLGKGGAKRHRK(SEQ ID NO:386)、PKRGRGRPKRGRGR(SEQ ID NO:387)、PKKKRKVPPPPKKKRKV(SEQ ID NO:389)、PAKRARRGYKC(SEQ ID NO:63)、KLGPRKATGRW(SEQ IDNO:64)、PRRKREE(SEQ ID NO:65)、PYRGRKE(SEQ ID NO:66)、PLRKRPRR(SEQ ID NO:67)、PLRKRPRRGSPLRKRPRR(SEQ ID NO:68)、PAAKRVKLDGGKRTADGSEFESPKKKRKV(SEQ ID NO:69)、PAAKRVKLDGGKRTADGSEFESPKKKRKVGIHGVPAA(SEQ ID NO:70)、PAAKRVKLDGGKRTADGSEFESPKKKRKVAEAAAKEAAAKEAA AKA(SEQ ID NO:71)、PAAKRVKLDGGKRTADGSEFESPKKKRKVPG(SEQ IDNO:72)、KRKGSPERGERKRHW(SEQ ID NO:73)、KRTADSQHSTPPKTKRKVEFEPKKKRKV(SEQ ID NO:74)和PKKKRKVGGSKRTADSQHSTPPKTKRKVEFEPKKKRKV(SEQ ID NO:75),并且任选地其中所述一个或多个NLS连接到所述2类V型CRISPR蛋白或具有接头肽的相邻NLS,其中所述接头肽选自SR、RS、(G)n(SEQ ID NO:1023)、(GS)n(SEQ ID NO:1024)、(GSGGS)n(SEQ ID NO:399)、(GGSGGS)n(SEQ ID NO:400)、(GGGS)n(SEQ ID NO:401)、GGSG(SEQ ID NO:402)、GGSGG(SEQID NO:403)、GSGSG(SEQ ID NO:
404)、GSGGG(SEQ ID NO:405)、GGGSG(SEQ ID NO:406)、GSSSG(SEQ ID NO:407)、GPGP(SEQ ID NO:408)、GGP、PPP、PPAPPA(SEQ ID NO:409)、PPPG(SEQ ID NO:
24)、PPPGPPP(SEQ ID NO:410)、PPP(GGGS)n(SEQ ID NO:
25)、(GGGS)nPPP(SEQ ID NO:26)、AEAAAKEAAAKEAAAKA(SEQ ID NO:1025)和TPPKTKRKVEFE(SEQ ID NO:27),其中n为1至5。
67.根据权利要求65或权利要求66所述的2类V型CRISPR蛋白,其中所述一个或多个NLS被定位在所述蛋白的C末端处或其附近。
68.根据权利要求65或权利要求66所述的2类V型CRISPR蛋白,其中所述一个或多个NLS被定位在所述蛋白的N末端处或其附近。
69.根据权利要求65或权利要求66所述的2类V型CRISPR蛋白,所述2类V型CRISPR蛋白包含至少两个NLS,其中所述至少两个NLS被定位在所述蛋白的所述N末端处或其附近以及所述C末端处或其附近。
70.根据权利要求29至69中任一项所述的2类V型CRISPR蛋白,其中所述2类V型CRISPR蛋白能够与gRNA形成核糖核蛋白复合物(RNP)。
71.根据权利要求70所述的2类V型CRISPR蛋白,其中与SEQ ID NO:1-3中任一者的参考蛋白和SEQ ID NO:4或SEQ ID NO:5的gRNA的RNP相比,所述RNP表现出至少一种或多种改善的特征。
72.根据71所述的2类V型CRISPR蛋白,其中所述改善的特征选自增加的对向导核酸(gRNA)的结合亲和力;增加的对靶核酸的结合亲和力;改善的在靶核酸的编辑中利用更广谱的包括ATC、CTC、GTC或TTC的一种或多种PAM序列的能力;增加的所述靶核酸的解旋;增加的编辑活性;改善的编辑效率;增加的所述靶核酸的编辑特异性;增加的核酸酶活性;增加的用于双链切割的靶链加载;减少的用于单链切口的靶链加载;减少的所述靶核酸的脱靶切割;增加的非靶核酸链的结合;以及增加的蛋白质:gRNA复合物(RNP)稳定性。
73.根据权利要求71或权利要求72所述的2类V型CRISPR蛋白,其中与SEQ ID NO:1、SEQID NO:2或SEQ ID NO:3的参考蛋白和SEQ ID NO:4或SEQ ID NO:5的所述gRNA的RNP相比,所述RNP的所述改善的特征增加到至少约1.1倍至约100,000倍。
74.根据权利要求71或权利要求72所述的2类V型CRISPR蛋白,其中与SEQ ID NO:1、SEQID NO:2或SEQ ID NO:3的所述参考蛋白和SEQ ID NO:4或5的所述gRNA的RNP相比,所述RNP的所述改善的特征增加到至少约10倍、至少约100倍、至少约1,000倍或至少约10,000倍。
75.根据权利要求71至74中任一项所述的2类V型CRISPR蛋白,其中与SEQ ID NO:2的所述参考蛋白和包含SEQ ID NO:4或5的所述gRNA的RNP相比,所述RNP的所述改善的特征包括编辑效率的1.1倍至100倍改善。
76.一种基因编辑对,所述基因编辑对包含gRNA和2类V型CRISPR蛋白,所述基因编辑对包含:
a.根据权利要求25至28中任一项所述的gRNA;和
b.根据权利要求29至75中任一项所述的2类V型CRISPR蛋白。
77.根据权利要求76所述的基因编辑对,其中所述gRNA和所述2类V型CRISPR蛋白能够形成核糖核蛋白复合物(RNP)。
78.根据权利要求76或权利要求77所述的基因编辑对,其中所述gRNA和所述2类V型CRISPR蛋白缔合在一起作为核糖核蛋白复合物(RNP)。
79.根据权利要求77或权利要求78所述的基因编辑对,其中与SEQ ID NO:1、SEQ IDNO:2或SEQ ID NO:3的参考蛋白和包含SEQ ID NO:4或SEQ ID NO:5的序列的gRNA的RNP相比,所述2类V型CRISPR蛋白和所述gRNA的RNP表现出至少一种或多种改善的特征。
80.根据权利要求79所述的基因编辑对,其中所述改善的特征选自由以下组成的组中的一种或多种:所述2类V型CRISPR蛋白对所述gRNA的增加的结合亲和力;增加的对靶核酸的结合亲和力;增加的在靶核酸的编辑中利用更广谱的包括ATC、CTC、GTC或TTC的一种或多种PAM序列的能力;增加的所述靶核酸的解旋;增加的编辑活性;改善的编辑效率;增加的所述靶核酸的编辑特异性;增加的核酸酶活性;增加的用于双链切割的靶链加载;减少的用于单链切口的靶链加载;减少的所述靶核酸的脱靶切割;增加的非靶核酸链的结合;增加的蛋白质:gRNA复合物(RNP)稳定性;和增加的融合特征。
81.根据权利要求79或权利要求80所述的基因编辑对,其中在可比较的体外测定系统中,与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考蛋白和包含SEQ ID NO:4或SEQ IDNO:5的序列的所述gRNA的RNP相比,所述2类V型CRISPR蛋白和所述gRNA的所述RNP的所述改善的特征增加到至少约1.1倍至约100倍或更多。
82.根据权利要求79或权利要求80所述的基因编辑对,其中在可比较的体外测定系统中,与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的所述参考蛋白和包含SEQ ID NO:4或SEQID NO:5的序列的所述gRNA相比,所述2类V型CRISPR蛋白的所述改善的特征增加到至少约1.1倍、至少约2倍、至少约10倍、至少约100倍或更多。
83.根据权利要求77至82中任一项所述的基因编辑对,其中当所述PAM序列TTC、ATC、GTC或CTC中的任一者位于与细胞测定系统中所述gRNA的所述靶向序列具有同一性的原间隔序列的非靶链的5'端1个核苷酸处时,与在可比较的测定系统中对包含SEQ ID NO:1、SEQID NO:2或SEQ ID NO:3的参考蛋白和参考gRNA的RNP的所述编辑效率和/或结合相比,包含所述2类V型CRISPR蛋白和所述gRNA的所述RNP表现出对所述靶核酸中的靶核酸序列更高的编辑效率和/或结合。
84.根据权利要求83所述的基因编辑对,其中所述PAM序列是TTC。
85.根据权利要求83所述的基因编辑对,其中所述PAM序列是ATC。
86.根据权利要求83所述的基因编辑对,其中所述PAM序列是CTC。
87.根据权利要求83所述的基因编辑对,其中所述PAM序列是GTC。
88.根据权利要求83至87中任一项所述的基因编辑对,其中当在可比较的体外测定系统中评估时,与SEQ ID NO:1-3的所述参考蛋白中的任一者和SEQ ID NO:4或SEQ ID NO:5的所述gRNA的RNP的所述结合亲和力相比,包含所述2类V型CRISPR和所述gRNA的所述RNP表现出对所述一种或多种PAM序列大到至少1.5倍、至少2倍、至少4倍、至少10倍、至少20倍、至少30倍或至少40倍的增加的结合亲和力。
89.根据权利要求77至88中任一项所述的基因编辑对,其中当在可比较的体外测定系统中评估时,与SEQ ID NO:1-3的所述参考蛋白中的任一者和SEQ ID NO:4或SEQ ID NO:5的所述gRNA的RNP的所述编辑效率相比,所述2类V型CRISPR蛋白和所述gRNA的所述RNP表现出大到至少1.5倍、至少2倍、至少4倍、至少10倍、至少20倍、至少30倍或至少40倍的增加的编辑效率。
90.根据权利要求77至89中任一项所述的基因编辑对,其中当在可比较的体外测定系统中评估时,与SEQ ID NO:1-3的所述参考蛋白中的任一者和SEQ ID NO:4或SEQ ID NO:5的所述gRNA的RNP相比,所述2类V型CRISPR和所述gRNA能够形成具有至少约5%、至少约10%、至少约15%或至少约20%更高百分比的有切割能力的构象的RNP。
91.根据权利要求77至90中任一项所述的基因编辑对,其中当在可比较的体外测定系统中评估时,与SEQ ID NO:1-3的所述参考蛋白中的任一者和SEQ ID NO:4或SEQ ID NO:5的所述gRNA的RNP相比,包含所述2类V型CRISPR和所述gRNA的所述RNP在定时体外测定中表现出对所述靶核酸高到至少约5倍、至少约10倍或至少约20倍的切割速率。
92.根据权利要求77至91中任一项所述的基因编辑对,其中当在可比较的体外测定系统中评估时,与SEQ ID NO:1-3的所述参考蛋白中的任一者和SEQ ID NO:4或SEQ ID NO:5的所述gRNA的RNP相比,包含所述2类V型CRISPR和所述gRNA的所述RNP在定时体外测定中表现出更高百分比的所述靶核酸的编辑,即高到至少约5倍、至少约10倍、至少约20倍或至少约100倍。
93.一种催化死亡的2类V型CRISPR蛋白,所述催化死亡的2类V型CRISPR蛋白包含如表7所示的选自SEQ NO:44-62和1232-1235的序列,或与其具有至少60%、至少70%、至少80%、至少90%、至少95%、至少98%、至少99%的序列。
94.一种催化死亡的2类V型CRISPR蛋白,所述催化死亡的2类V型CRISPR蛋白包含如表7所示的选自SEQ NO:44-62和1232-1235的序列。
95.根据权利要求93或权利要求94所述的2类V型CRISPR蛋白,其中并且所述催化死亡的2类V型CRISPR蛋白和根据权利要求25至28中任一项所述的gRNA的RNP保留结合靶核酸的能力。
96.一种包含序列的核酸,所述序列编码根据权利要求1至24中任一项所述的gRNA支架或根据权利要求25至28中任一项所述的gRNA。
97.一种包含序列的核酸,所述序列编码根据权利要求29至75中任一项所述的2类V型CRISPR蛋白。
98.根据权利要求97所述的核酸,其中编码所述2类V型CRISPR蛋白的所述序列经密码子优化以用于在真核细胞中表达。
99.一种载体,所述载体包含根据权利要求25至28中任一项所述的gRNA、根据权利要求29至75中任一项所述的2类V型CRISPR蛋白或根据权利要求96至98中任一项所述的核酸。
100.根据权利要求99所述的载体,其中所述载体包含启动子。
101.根据权利要求99或权利要求100所述的载体,其中所述载体选自逆转录病毒载体、慢病毒载体、腺病毒载体、腺相关病毒(AAV)载体、单纯疱疹病毒(HSV)载体、CasX递送颗粒(XDP)、质粒、微环、纳米质粒、DNA载体和RNA载体。
102.根据权利要求101所述的载体,其中所述载体为AAV载体。
103.根据权利要求102所述的载体,其中所述AAV载体选自AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV11、AAV12、AAV-Rh74或AAVRh10。
104.根据权利要求101所述的载体,其中所述载体为逆转录病毒载体。
105.根据权利要求101所述的载体,其中所述载体为包含gag多蛋白的一种或多种组分的XDP。
106.根据权利要求105所述的载体,其中所述gag多蛋白的所述一种或多种组分选自基质蛋白(MA)、核衣壳蛋白(NC)、衣壳蛋白(CA)、p1肽、p6肽、P2A肽、P2B肽、P10肽、p12肽、PP21/24肽、P12/P3/P8肽、P20肽和蛋白酶切割位点。
107.根据权利要求105或权利要求106所述的载体,其中所述2类V型CRISPR蛋白和所述gRNA在RNP中缔合在一起。
108.根据权利要求105至107中任一项所述的载体,所述载体包含糖蛋白嗜性因子。
109.根据权利要求108所述的载体,其中所述糖蛋白嗜性因子对靶细胞的细胞表面标记具有结合亲和力并且促进所述XDP进入所述靶细胞。
110.根据权利要求99至109中任一项所述的载体,所述载体包含供体模板。
111.一种宿主细胞,所述宿主细胞包含根据权利要求99至110中任一项所述的载体。
112.根据权利要求111所述的宿主细胞,其中所述宿主细胞选自幼仓鼠肾成纤维细胞(BHK)细胞、人胚肾293(HEK293)细胞、人胚肾293T(HEK293T)细胞、NS0细胞、SP2/0细胞、YO骨髓瘤细胞、P3X63小鼠骨髓瘤细胞、PER细胞、PER.C6细胞、杂交瘤细胞、NIH3T3细胞、源于SV40遗传物质(COS)的CV-1(猿猴)细胞、HeLa、中国仓鼠卵巢(CHO)细胞或酵母细胞。
113.一种修饰细胞中靶核酸的方法,所述方法包括使所述细胞的所述靶核酸与以下物质接触:i)根据权利要求76至92中任一项所述的基因编辑对;ii)根据权利要求76至92中任一项所述的基因编辑对以及供体模板;iii)编码(i)或(ii)的基因编辑对的一种或多种核酸;iv)包含(iii)的核酸的载体;v)包含(i)或(ii)的所述基因编辑对的XDP;或vi)(i)至(v)中的两者或更多者的组合,其中所述靶核酸的接触修饰所述靶核酸。
114.根据权利要求113所述的方法,所述方法包括使靶标与包含第一gRNA和第二gRNA或多种gRNA的多个基因编辑对接触,所述gRNA包含与所述靶核酸的不同或重叠区域互补的靶向序列。
115.根据权利要求113所述的方法,所述方法包括使所述靶标与编码包含第一gRNA和第二gRNA或多种gRNA的基因编辑对的多个核酸接触,所述gRNA包含与所述靶核酸的不同或重叠区域互补的靶向序列。
116.根据权利要求113所述的方法,所述方法包括使所述靶标与包含基因编辑对的多个XDP接触,所述基因编辑对包含第一gRNA和第二gRNA或多种gRNA,所述gRNA包含与所述靶核酸的不同或重叠区域互补的靶向序列。
117.根据权利要求113中任一项所述的方法,其中所述接触包括将所述靶核酸与所述基因编辑对结合并且在所述靶核酸中引入一个或多个单链断裂,其中所述修饰包括在所述靶核酸中引入突变、插入或缺失。
118.根据权利要求113至116中任一项所述的方法,其中所述接触包括结合所述靶核酸并且在所述靶核酸中引入一个或多个双链断裂,其中所述修饰包括在所述靶核酸中引入突变、插入或缺失。
119.根据权利要求113至118中任一项所述的方法,所述方法包括使所述靶核酸与供体模板核酸的核苷酸序列接触,其中所述供体模板包含与所述靶核酸具有同源性的核苷酸序列。
120.根据权利要求119所述的方法,其中所述供体模板在所述供体模板的5'和3'末端包含同源臂。
121.根据权利要求119或权利要求120所述的方法,其中通过同源定向修复将所述供体模板在断裂位点处插入所述靶核酸中。
122.根据权利要求121所述的方法,其中通过非同源末端连接(NHEJ)或微同源末端连接(MMEJ)将所述供体模板在所述断裂位点处插入所述靶核酸中。
123.根据权利要求113至122中任一项所述的方法,其中所述细胞的所述修饰体外发生。
124.根据权利要求113至122中任一项所述的方法,其中所述细胞的所述修饰体内发生。
125.根据权利要求113至124中任一项所述的方法,其中所述细胞为真核细胞。
126.根据权利要求125所述的方法,其中所述真核细胞选自啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞和非人灵长类动物细胞。
127.根据权利要求125所述的方法,其中所述真核细胞为人细胞。
128.根据权利要求113至127中任一项所述的方法,其中所述细胞选自胚胎干细胞、诱导的多能干细胞、生殖细胞、成纤维细胞、少突胶质细胞、神经胶质细胞、造血干细胞、神经元祖细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞、视网膜细胞、癌细胞、T-细胞、B-细胞、NK细胞、胎儿心肌细胞、肌成纤维细胞、间充质干细胞、自体移植扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源性细胞、内源性细胞、干细胞、造血干细胞、骨髓来源的祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞、自体细胞和产后干细胞。
129.根据权利要求124至128中任一项所述的方法,其中所述细胞在受试者中。
130.根据权利要求129所述的方法,其中所述修饰发生在所述受试者的在基因的等位基因中具有突变的细胞中,其中所述突变导致所述受试者的疾病或障碍。
131.根据权利要求130所述的方法,其中所述修饰将所述突变改变为所述基因的野生型等位基因或导致功能基因产物的表达。
132.根据权利要求130所述的方法,其中所述修饰敲低或敲除引起所述受试者的所述疾病或障碍的所述基因的所述等位基因。
133.根据权利要求129至132中任一项所述的方法,其中所述细胞相对于所述受试者是自体的。
134.根据权利要求129至132中任一项所述的方法,其中所述细胞相对于所述受试者是同种异体自体的。
135.根据权利要求113至134中任一项所述的方法,其中所述载体为腺相关病毒(AAV)载体。
136.根据权利要求135所述的方法,其中所述AAV为AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV-Rh74或AAVRh10。
137.根据权利要求113所述的方法,其中所述载体为慢病毒载体。
138.根据权利要求113至137中任一项所述的方法,其中使用治疗有效剂量将所述载体施用于对其有需要的受试者。
139.根据权利要求138所述的方法,其中所述受试者选自小鼠、大鼠、猪和非人灵长类动物。
140.根据权利要求138所述的方法,其中所述受试者为人。
141.根据权利要求138至140中任一项所述的方法,其中所述载体以至少约1×105个载体基因组/kg(vg/kg)、至少约1×106vg/kg、至少约1×107vg/kg、至少约1×108vg/kg、至少约1×109vg/kg、至少约1×1010vg/kg、至少约1×1011vg/kg、至少约1×1012vg/kg、至少约1×1013vg/kg、至少约1×1014vg/kg、至少约1×1015vg/kg或至少约1×1016vg/kg的剂量施用于所述受试者。
142.根据权利要求138至140中任一项所述的方法,其中所述载体以至少约1×105vg/kg至约1×1016vg/kg、至少约1×106vg/kg至约1×1015vg/kg或至少约1×107vg/kg至约1×1014vg/kg的剂量施用于所述受试者。
143.根据权利要求113所述的方法,其中所述载体为XDP。
144.根据权利要求143所述的方法,其中使用治疗有效剂量将所述XDP施用于对其有需要的所述受试者。
145.根据权利要求144所述的方法,其中将所述XDP以至少约1×105个颗粒/kg、至少约1×106个颗粒/kg、至少约1×107个颗粒/kg、至少约1×108个颗粒/kg、至少约1×109个颗粒/kg、至少约1×1010个颗粒/kg、至少约1×1011个颗粒/kg、至少约1×1012个颗粒/kg、至少约1×1013个颗粒/kg、至少约1×1014个颗粒/kg、至少约1×1015个颗粒/kg、至少约1×1016个颗粒/kg的剂量施用于所述受试者。
146.根据权利要求143所述的方法,其中将所述XDP以至少约1×105个颗粒/kg至约1×1016个颗粒/kg、或至少约1×106个颗粒/kg至约1×1015个颗粒/kg、或至少约1×107个颗粒/kg至约1×1014个颗粒/kg的剂量施用于所述受试者。
147.根据权利要求138至146中任一项所述的方法,其中所述载体通过选自以下的施用途径施用:脑实质内、静脉内、动脉内、脑室内、脑池内、鞘内、颅内和腹膜内途径,其中所述施用方法是注射、输注或植入。
148.根据权利要求141至147中任一项所述的方法,其中根据治疗方案将所述载体施用于所述受试者,所述治疗方案包括使用治疗有效剂量的所述载体的一次或多次连续剂量。
149.根据权利要求148所述的方法,其中所述治疗有效剂量在至少两周、或至少一个月、或至少两个月、或至少三个月、或至少四个月、或至少五个月、或至少六个月、或每年一次、或每2年或3年的时间内以两个或更多个剂量施用于所述受试者。
150.一种细胞,所述细胞包含由根据权利要求76至92中任一项所述的基因编辑对修饰的靶核酸。
151.一种细胞,所述细胞由根据权利要求113至149中任一项所述的方法编辑。
152.根据权利要求150或151所述的细胞,其中所述细胞为原核细胞。
153.根据权利要求150或151所述的细胞,其中所述细胞为真核细胞。
154.根据权利要求153所述的细胞,其中所述真核细胞选自啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞和非人灵长类动物细胞。
155.根据权利要求153所述的细胞,其中所述真核细胞为人细胞。
156.一种组合物,所述组合物包含根据权利要求29至75中任一项所述的2类V型CRISPR蛋白。
157.根据权利要求156所述的组合物,所述组合物包含根据权利要求25至28中任一项所述的gRNA。
158.根据权利要求157所述的组合物,其中所述蛋白和所述gRNA在核糖核蛋白复合物(RNP)中缔合在一起。
159.根据权利要求156至158中任一项所述的组合物,所述组合物包含供体模板核酸,其中所述供体模板包含与靶核酸具有同源性的核苷酸序列。
160.根据权利要求156至159中任一项所述的组合物,所述组合物包含缓冲液、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记可视化试剂或前述物质的任何组合。
161.一种组合物,所述组合物包含根据权利要求1至24中任一项所述的gRNA支架或根据权利要求25至28中任一项所述的gRNA。
162.根据权利要求161所述的组合物,所述组合物包含根据权利要求29至75中任一项所述的2类V型CRISPR蛋白。
163.根据权利要求162所述的组合物,其中所述2类V型CRISPR蛋白和所述gRNA在核糖核蛋白复合物(RNP)中缔合在一起。
164.根据权利要求161至163中任一项所述的组合物,所述组合物包含供体模板核酸,其中所述供体模板包含与靶核酸具有同源性的核苷酸序列。
165.根据权利要求161至164中任一项所述的组合物,所述组合物包含缓冲液、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记可视化试剂或前述物质的任何组合。
166.一种组合物,所述组合物包含根据权利要求76至92中任一项所述的基因编辑对。
167.根据权利要求166所述的组合物,所述组合物包含供体模板核酸,其中所述供体模板包含与靶核酸具有同源性的核苷酸序列。
168.根据权利要求166或权利要求167所述的组合物,所述组合物包含缓冲液、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记可视化试剂或前述物质的任何组合。
169.一种试剂盒,所述试剂盒包括根据权利要求29至75中任一项所述的2类V型CRISPR蛋白以及容器。
170.根据权利要求169所述的试剂盒,所述试剂盒包括根据权利要求1至24中任一项所述的gRNA支架或根据权利要求25至28中任一项所述的gRNA。
171.根据权利要求169或权利要求170所述的试剂盒,所述试剂盒包括供体模板核酸,其中所述供体模板包含与靶核酸的靶核酸序列具有同源性的核苷酸序列。
172.根据权利要求169至171中任一项所述的试剂盒,所述试剂盒包括缓冲液、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记可视化试剂或前述物质的任何组合。
173.一种试剂盒,所述试剂盒包括根据权利要求1至24中任一项所述的gRNA支架或根据权利要求25至28中任一项所述的gRNA。
174.根据权利要求173所述的试剂盒,所述试剂盒包括根据权利要求29至75中任一项所述的2类V型CRISPR蛋白。
175.根据权利要求173或权利要求174所述的试剂盒,所述试剂盒包括供体模板核酸,其中所述供体模板包含与靶核酸的靶核酸序列具有同源性的核苷酸序列。
176.根据权利要求173至175中任一项所述的试剂盒,所述试剂盒包括缓冲液、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记可视化试剂或前述物质的任何组合。
177.一种试剂盒,所述试剂盒包括根据权利要求76至92中任一项所述的基因编辑对。
178.根据权利要求177所述的试剂盒,所述试剂盒包括供体模板核酸,其中所述供体模板包含与靶核酸具有同源性的核苷酸序列。
179.根据权利要求177或权利要求178所述的试剂盒,所述试剂盒包括缓冲液、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记可视化试剂或前述物质的任何组合。
180.一种工程化2类V型CRISPR蛋白,所述工程化2类V型CRISPR蛋白包含表3中列出的序列中的任一种。
181.一种gRNA,所述gRNA包含表2中列出的gRNA支架变体序列中的任一种。
182.根据权利要求181所述的gRNA,其中表2序列的所述gRNA支架变体的一个或多个尿嘧啶(U)被胸腺嘧啶(T)替换。
183.根据权利要求182所述的gRNA,所述gRNA包含与靶核酸互补的至少10至30个核苷酸的靶向序列。
184.根据权利要求183所述的gRNA,其中所述靶向序列具有20个核苷酸。
185.根据权利要求183所述的gRNA,其中所述靶向序列具有19个核苷酸。
186.根据权利要求183所述的gRNA,其中所述靶向序列具有18个核苷酸。
187.根据权利要求183所述的gRNA,其中所述靶向序列具有17个核苷酸。
188.根据权利要求183所述的gRNA,其中所述靶向序列具有16个核苷酸。
189.根据权利要求183所述的gRNA,其中所述靶向序列具有15个核苷酸。
190.一种治疗对其有需要的受试者的疾病的方法,所述方法包括向所述受试者施用治疗有效量的组合物,所述组合物包含:(a)根据权利要求29至75和180中任一项所述的工程化2类V型CRISPR蛋白和(b)根据权利要求25至28和181至189中任一项所述的gRNA。
191.一种组合物,所述组合物包含:(a)根据权利要求29至75和180中任一项所述的工程化2类V型CRISPR蛋白和(b)根据权利要求25至28和181至189中任一项所述的gRNA,所述组合物用作用于治疗患有疾病的受试者的药物。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/121,196 | 2020-12-03 | ||
US63/162,346 | 2021-03-17 | ||
US202163208855P | 2021-06-09 | 2021-06-09 | |
US63/208,855 | 2021-06-09 | ||
PCT/US2021/061673 WO2022120095A1 (en) | 2020-12-03 | 2021-12-02 | Engineered class 2 type v crispr systems |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117120607A true CN117120607A (zh) | 2023-11-24 |
Family
ID=88802514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180092530.1A Pending CN117120607A (zh) | 2020-12-03 | 2021-12-02 | 工程化2类v型crispr系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117120607A (zh) |
-
2021
- 2021-12-02 CN CN202180092530.1A patent/CN117120607A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11560555B2 (en) | Engineered proteins | |
US20230054437A1 (en) | Engineered class 2 type v crispr systems | |
US20230032369A1 (en) | Compositions and methods for the targeting of htt | |
US11613742B2 (en) | Compositions and methods for the targeting of SOD1 | |
CA3159316A1 (en) | Compositions and methods for the targeting of rhodopsin | |
WO2021188729A1 (en) | Compositions and methods for the targeting of c9orf72 | |
US20240026386A1 (en) | Compositions and methods for the targeting of bcl11a | |
CN115427570A (zh) | 用于靶向pcsk9的组合物和方法 | |
CA3201392A1 (en) | Aav vectors for gene editing | |
US20240100185A1 (en) | Compositions and methods for the targeting of ptbp1 | |
CN117120607A (zh) | 工程化2类v型crispr系统 | |
IL303360A (en) | CRISPR systems engineered class 2 V type |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |