CN117529552A - Type I-C CRISPR-Cas3系统及其应用 - Google Patents
Type I-C CRISPR-Cas3系统及其应用 Download PDFInfo
- Publication number
- CN117529552A CN117529552A CN202280039558.3A CN202280039558A CN117529552A CN 117529552 A CN117529552 A CN 117529552A CN 202280039558 A CN202280039558 A CN 202280039558A CN 117529552 A CN117529552 A CN 117529552A
- Authority
- CN
- China
- Prior art keywords
- sequence
- protein
- target
- repeat
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010440 CRISPR–Cas3 gene editing Methods 0.000 title claims abstract description 46
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 400
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 124
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 122
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 122
- 238000012217 deletion Methods 0.000 claims abstract description 96
- 230000037430 deletion Effects 0.000 claims abstract description 96
- 238000000034 method Methods 0.000 claims abstract description 57
- 239000012634 fragment Substances 0.000 claims abstract description 37
- 238000010362 genome editing Methods 0.000 claims abstract description 29
- 239000000203 mixture Substances 0.000 claims abstract description 20
- 102000004169 proteins and genes Human genes 0.000 claims description 334
- 239000013598 vector Substances 0.000 claims description 144
- 108020005004 Guide RNA Proteins 0.000 claims description 118
- 210000004027 cell Anatomy 0.000 claims description 98
- 125000003729 nucleotide group Chemical group 0.000 claims description 98
- 239000002773 nucleotide Substances 0.000 claims description 96
- 230000002746 orthostatic effect Effects 0.000 claims description 93
- 230000000694 effects Effects 0.000 claims description 91
- 101100387128 Myxococcus xanthus (strain DK1622) devR gene Proteins 0.000 claims description 77
- 101150044165 cas7 gene Proteins 0.000 claims description 77
- 101100382536 Saccharolobus solfataricus (strain ATCC 35092 / DSM 1617 / JCM 11322 / P2) cas5c gene Proteins 0.000 claims description 76
- 230000008685 targeting Effects 0.000 claims description 67
- 101100005249 Escherichia coli (strain K12) ygcB gene Proteins 0.000 claims description 58
- 101150055191 cas3 gene Proteins 0.000 claims description 58
- 230000014509 gene expression Effects 0.000 claims description 56
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 55
- 101710169336 5'-deoxyadenosine deaminase Proteins 0.000 claims description 54
- 102000055025 Adenosine deaminases Human genes 0.000 claims description 54
- 102000000311 Cytosine Deaminase Human genes 0.000 claims description 54
- 108010080611 Cytosine Deaminase Proteins 0.000 claims description 54
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 54
- 241000196324 Embryophyta Species 0.000 claims description 49
- 108020004414 DNA Proteins 0.000 claims description 47
- 238000007792 addition Methods 0.000 claims description 47
- 210000001938 protoplast Anatomy 0.000 claims description 47
- 238000006467 substitution reaction Methods 0.000 claims description 47
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 42
- 102000053602 DNA Human genes 0.000 claims description 41
- 230000004048 modification Effects 0.000 claims description 41
- 238000012986 modification Methods 0.000 claims description 41
- 240000008042 Zea mays Species 0.000 claims description 40
- 235000002017 Zea mays subsp mays Nutrition 0.000 claims description 40
- 108010077850 Nuclear Localization Signals Proteins 0.000 claims description 38
- 230000001939 inductive effect Effects 0.000 claims description 36
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 claims description 34
- 235000009973 maize Nutrition 0.000 claims description 34
- 230000027455 binding Effects 0.000 claims description 33
- 229920001184 polypeptide Polymers 0.000 claims description 25
- 102000004196 processed proteins & peptides Human genes 0.000 claims description 25
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 claims description 22
- 150000001413 amino acids Chemical class 0.000 claims description 21
- 241000209094 Oryza Species 0.000 claims description 19
- 235000007164 Oryza sativa Nutrition 0.000 claims description 19
- 230000035772 mutation Effects 0.000 claims description 19
- 235000009566 rice Nutrition 0.000 claims description 19
- 241000219194 Arabidopsis Species 0.000 claims description 17
- 230000007018 DNA scission Effects 0.000 claims description 16
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 15
- 102000040430 polynucleotide Human genes 0.000 claims description 15
- 108091033319 polynucleotide Proteins 0.000 claims description 15
- 239000002157 polynucleotide Substances 0.000 claims description 15
- 229930024421 Adenine Natural products 0.000 claims description 14
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 claims description 14
- 229960000643 adenine Drugs 0.000 claims description 14
- 210000004102 animal cell Anatomy 0.000 claims description 14
- 210000003527 eukaryotic cell Anatomy 0.000 claims description 14
- 101710163270 Nuclease Proteins 0.000 claims description 13
- 230000007022 RNA scission Effects 0.000 claims description 12
- 239000013612 plasmid Substances 0.000 claims description 12
- 230000029279 positive regulation of transcription, DNA-dependent Effects 0.000 claims description 12
- 230000037426 transcriptional repression Effects 0.000 claims description 12
- 229940104302 cytosine Drugs 0.000 claims description 11
- 239000000969 carrier Substances 0.000 claims description 10
- 210000005260 human cell Anatomy 0.000 claims description 10
- 238000000338 in vitro Methods 0.000 claims description 10
- 210000004962 mammalian cell Anatomy 0.000 claims description 10
- 210000001236 prokaryotic cell Anatomy 0.000 claims description 10
- 230000008439 repair process Effects 0.000 claims description 9
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 claims description 8
- FDGQSTZJBFJUBT-UHFFFAOYSA-N hypoxanthine Chemical compound O=C1NC=NC2=C1NC=N2 FDGQSTZJBFJUBT-UHFFFAOYSA-N 0.000 claims description 8
- 239000002245 particle Substances 0.000 claims description 8
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 claims description 8
- 239000013603 viral vector Substances 0.000 claims description 8
- 102000040650 (ribonucleotides)n+m Human genes 0.000 claims description 6
- 108010033040 Histones Proteins 0.000 claims description 6
- 101000615488 Homo sapiens Methyl-CpG-binding domain protein 2 Proteins 0.000 claims description 6
- 102100021299 Methyl-CpG-binding domain protein 2 Human genes 0.000 claims description 6
- 108020004682 Single-Stranded DNA Proteins 0.000 claims description 6
- 230000000295 complement effect Effects 0.000 claims description 6
- 230000002103 transcriptional effect Effects 0.000 claims description 6
- 241000702421 Dependoparvovirus Species 0.000 claims description 5
- 241000713666 Lentivirus Species 0.000 claims description 5
- 230000008030 elimination Effects 0.000 claims description 5
- 238000003379 elimination reaction Methods 0.000 claims description 5
- 241000701161 unidentified adenovirus Species 0.000 claims description 5
- UGQMRVRMYYASKQ-UHFFFAOYSA-N Hypoxanthine nucleoside Natural products OC1C(O)C(CO)OC1N1C(NC=NC2=O)=C2N=C1 UGQMRVRMYYASKQ-UHFFFAOYSA-N 0.000 claims description 4
- 210000000349 chromosome Anatomy 0.000 claims description 4
- 210000001808 exosome Anatomy 0.000 claims description 4
- 238000009472 formulation Methods 0.000 claims description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 claims description 4
- 150000002632 lipids Chemical class 0.000 claims description 4
- 239000002502 liposome Substances 0.000 claims description 4
- 229910052751 metal Inorganic materials 0.000 claims description 4
- 239000002184 metal Substances 0.000 claims description 4
- 150000002739 metals Chemical class 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims description 4
- 235000000346 sugar Nutrition 0.000 claims description 4
- 150000008163 sugars Chemical class 0.000 claims description 4
- 229940113082 thymine Drugs 0.000 claims description 4
- 229940035893 uracil Drugs 0.000 claims description 4
- -1 vesicles Substances 0.000 claims description 4
- 230000005782 double-strand break Effects 0.000 claims description 3
- 229920000742 Cotton Polymers 0.000 claims description 2
- 244000068988 Glycine max Species 0.000 claims description 2
- 235000010469 Glycine max Nutrition 0.000 claims description 2
- 241000219146 Gossypium Species 0.000 claims description 2
- 240000005979 Hordeum vulgare Species 0.000 claims description 2
- 235000007340 Hordeum vulgare Nutrition 0.000 claims description 2
- 241000209140 Triticum Species 0.000 claims description 2
- 235000021307 Triticum Nutrition 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 230000002759 chromosomal effect Effects 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000002068 genetic effect Effects 0.000 claims description 2
- 238000003780 insertion Methods 0.000 claims description 2
- 230000037431 insertion Effects 0.000 claims description 2
- 230000001172 regenerating effect Effects 0.000 claims description 2
- 230000010076 replication Effects 0.000 claims description 2
- 108091081062 Repeated sequence (DNA) Proteins 0.000 claims 5
- 108020005198 Long Noncoding RNA Proteins 0.000 abstract description 3
- 239000003623 enhancer Substances 0.000 abstract description 3
- 230000001105 regulatory effect Effects 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 description 39
- 238000013461 design Methods 0.000 description 22
- 238000012163 sequencing technique Methods 0.000 description 22
- 239000000047 product Substances 0.000 description 21
- 230000009261 transgenic effect Effects 0.000 description 14
- 239000005089 Luciferase Substances 0.000 description 11
- 238000010276 construction Methods 0.000 description 11
- 108091033409 CRISPR Proteins 0.000 description 10
- 238000012408 PCR amplification Methods 0.000 description 9
- 238000010453 CRISPR/Cas method Methods 0.000 description 8
- 230000009977 dual effect Effects 0.000 description 8
- 108060001084 Luciferase Proteins 0.000 description 7
- 230000008827 biological function Effects 0.000 description 7
- 101150063264 O2 gene Proteins 0.000 description 6
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 6
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 6
- 235000005822 corn Nutrition 0.000 description 6
- 230000001580 bacterial effect Effects 0.000 description 5
- 239000012636 effector Substances 0.000 description 5
- 239000013604 expression vector Substances 0.000 description 5
- 125000006850 spacer group Chemical group 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000011144 upstream manufacturing Methods 0.000 description 5
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 4
- 230000006798 recombination Effects 0.000 description 4
- 238000005215 recombination Methods 0.000 description 4
- 239000006228 supernatant Substances 0.000 description 4
- LZZYPRNAOMGNLH-UHFFFAOYSA-M Cetrimonium bromide Chemical compound [Br-].CCCCCCCCCCCCCCCC[N+](C)(C)C LZZYPRNAOMGNLH-UHFFFAOYSA-M 0.000 description 3
- 108020004705 Codon Proteins 0.000 description 3
- 102000004190 Enzymes Human genes 0.000 description 3
- 108090000790 Enzymes Proteins 0.000 description 3
- 101100382541 Escherichia coli (strain K12) casD gene Proteins 0.000 description 3
- 101150005218 GA2 gene Proteins 0.000 description 3
- 101100387131 Myxococcus xanthus (strain DK1622) devS gene Proteins 0.000 description 3
- 101150110992 SLR1 gene Proteins 0.000 description 3
- HEMHJVSKTPXQMS-UHFFFAOYSA-M Sodium hydroxide Chemical compound [OH-].[Na+] HEMHJVSKTPXQMS-UHFFFAOYSA-M 0.000 description 3
- 241000700605 Viruses Species 0.000 description 3
- 101150049463 cas5 gene Proteins 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 3
- 230000009615 deamination Effects 0.000 description 3
- 238000006481 deamination reaction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000003301 hydrolyzing effect Effects 0.000 description 3
- 239000011780 sodium chloride Substances 0.000 description 3
- 239000000758 substrate Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 101150028074 2 gene Proteins 0.000 description 2
- 101150101112 7 gene Proteins 0.000 description 2
- 241000589158 Agrobacterium Species 0.000 description 2
- 101100506740 Arabidopsis thaliana GL2 gene Proteins 0.000 description 2
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 2
- 241000605762 Desulfovibrio vulgaris Species 0.000 description 2
- 238000002965 ELISA Methods 0.000 description 2
- 101001117317 Homo sapiens Programmed cell death 1 ligand 1 Proteins 0.000 description 2
- 206010020649 Hyperkeratosis Diseases 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 101100337779 Oryza sativa subsp. japonica GRF4 gene Proteins 0.000 description 2
- 102100024216 Programmed cell death 1 ligand 1 Human genes 0.000 description 2
- 108700008625 Reporter Genes Proteins 0.000 description 2
- 102000004389 Ribonucleoproteins Human genes 0.000 description 2
- 108010081734 Ribonucleoproteins Proteins 0.000 description 2
- 229960005305 adenosine Drugs 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 125000000539 amino acid group Chemical group 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 210000004436 artificial bacterial chromosome Anatomy 0.000 description 2
- 210000004507 artificial chromosome Anatomy 0.000 description 2
- 210000001106 artificial yeast chromosome Anatomy 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 229940041514 candida albicans extract Drugs 0.000 description 2
- 238000004113 cell culture Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000012258 culturing Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001962 electrophoresis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001502 gel electrophoresis Methods 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 238000010369 molecular cloning Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 210000004940 nucleus Anatomy 0.000 description 2
- 230000037361 pathway Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 239000012137 tryptone Substances 0.000 description 2
- 239000012138 yeast extract Substances 0.000 description 2
- UHDGCWIWMRVCDJ-UHFFFAOYSA-N 1-beta-D-Xylofuranosyl-NH-Cytosine Natural products O=C1N=C(N)C=CN1C1C(O)C(O)C(CO)O1 UHDGCWIWMRVCDJ-UHFFFAOYSA-N 0.000 description 1
- QKNYBSVHEMOAJP-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;hydron;chloride Chemical compound Cl.OCC(N)(CO)CO QKNYBSVHEMOAJP-UHFFFAOYSA-N 0.000 description 1
- 101150090724 3 gene Proteins 0.000 description 1
- 101150044182 8 gene Proteins 0.000 description 1
- 101150106774 9 gene Proteins 0.000 description 1
- 101100396142 Arabidopsis thaliana IAA14 gene Proteins 0.000 description 1
- 101150076489 B gene Proteins 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- UHDGCWIWMRVCDJ-PSQAKQOGSA-N Cytidine Natural products O=C1N=C(N)C=CN1[C@@H]1[C@@H](O)[C@@H](O)[C@H](CO)O1 UHDGCWIWMRVCDJ-PSQAKQOGSA-N 0.000 description 1
- FBPFZTCFMRRESA-KVTDHHQDSA-N D-Mannitol Chemical compound OC[C@@H](O)[C@@H](O)[C@H](O)[C@H](O)CO FBPFZTCFMRRESA-KVTDHHQDSA-N 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 241000701959 Escherichia virus Lambda Species 0.000 description 1
- 241001524679 Escherichia virus M13 Species 0.000 description 1
- 241000206602 Eukaryota Species 0.000 description 1
- 108090000331 Firefly luciferases Proteins 0.000 description 1
- 206010017472 Fumbling Diseases 0.000 description 1
- 101150065110 GL2 gene Proteins 0.000 description 1
- 108700028146 Genetic Enhancer Elements Proteins 0.000 description 1
- 108010043121 Green Fluorescent Proteins Proteins 0.000 description 1
- 101000993973 Homo sapiens Inositol-pentakisphosphate 2-kinase Proteins 0.000 description 1
- 229930010555 Inosine Natural products 0.000 description 1
- UGQMRVRMYYASKQ-KQYNXXCUSA-N Inosine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C2=NC=NC(O)=C2N=C1 UGQMRVRMYYASKQ-KQYNXXCUSA-N 0.000 description 1
- 102100031525 Inositol-pentakisphosphate 2-kinase Human genes 0.000 description 1
- 229930195725 Mannitol Natural products 0.000 description 1
- 239000004677 Nylon Substances 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 101100203380 Oryza sativa subsp. japonica SLR1 gene Proteins 0.000 description 1
- 241001631646 Papillomaviridae Species 0.000 description 1
- 108020004511 Recombinant DNA Proteins 0.000 description 1
- 108010052090 Renilla Luciferases Proteins 0.000 description 1
- 108020005091 Replication Origin Proteins 0.000 description 1
- 241000700584 Simplexvirus Species 0.000 description 1
- 101100273269 Thermus thermophilus (strain ATCC 27634 / DSM 579 / HB8) cse3 gene Proteins 0.000 description 1
- 108091079639 Type I family Proteins 0.000 description 1
- 108091068141 Type II family Proteins 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000037429 base substitution Effects 0.000 description 1
- 101150106467 cas6 gene Proteins 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 210000003763 chloroplast Anatomy 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- UHDGCWIWMRVCDJ-ZAKLUEHWSA-N cytidine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@@H](O)[C@H](CO)O1 UHDGCWIWMRVCDJ-ZAKLUEHWSA-N 0.000 description 1
- 210000000805 cytoplasm Anatomy 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000012153 distilled water Substances 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000000799 fluorescence microscopy Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 108020001507 fusion proteins Proteins 0.000 description 1
- 102000037865 fusion proteins Human genes 0.000 description 1
- 230000006801 homologous recombination Effects 0.000 description 1
- 238000002744 homologous recombination Methods 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 229960003786 inosine Drugs 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000006166 lysate Substances 0.000 description 1
- 235000010355 mannitol Nutrition 0.000 description 1
- 239000000594 mannitol Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000006780 non-homologous end joining Effects 0.000 description 1
- 229920001778 nylon Polymers 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000003463 organelle Anatomy 0.000 description 1
- 208000003154 papilloma Diseases 0.000 description 1
- 101150054448 pdl-1 gene Proteins 0.000 description 1
- 239000008188 pellet Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 230000009870 specific binding Effects 0.000 description 1
- 230000001954 sterilising effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000005026 transcription initiation Effects 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
- 238000001890 transfection Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 241000701447 unidentified baculovirus Species 0.000 description 1
- 241001529453 unidentified herpesvirus Species 0.000 description 1
- 241001430294 unidentified retrovirus Species 0.000 description 1
- 230000002477 vacuolizing effect Effects 0.000 description 1
- 239000003981 vehicle Substances 0.000 description 1
- DGVVWUTYPXICAM-UHFFFAOYSA-N β‐Mercaptoethanol Chemical compound OCCS DGVVWUTYPXICAM-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A01—AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
- A01H—NEW PLANTS OR NON-TRANSGENIC PROCESSES FOR OBTAINING THEM; PLANT REPRODUCTION BY TISSUE CULTURE TECHNIQUES
- A01H1/00—Processes for modifying genotypes ; Plants characterised by associated natural traits
-
- A—HUMAN NECESSITIES
- A01—AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
- A01K—ANIMAL HUSBANDRY; AVICULTURE; APICULTURE; PISCICULTURE; FISHING; REARING OR BREEDING ANIMALS, NOT OTHERWISE PROVIDED FOR; NEW BREEDS OF ANIMALS
- A01K67/00—Rearing or breeding animals, not otherwise provided for; New or modified breeds of animals
- A01K67/027—New or modified breeds of vertebrates
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N5/00—Undifferentiated human, animal or plant cells, e.g. cell lines; Tissues; Cultivation or maintenance thereof; Culture media therefor
- C12N5/10—Cells modified by introduction of foreign genetic material
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Engineering & Computer Science (AREA)
- Zoology (AREA)
- Organic Chemistry (AREA)
- Biomedical Technology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Wood Science & Technology (AREA)
- General Engineering & Computer Science (AREA)
- Environmental Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Plant Pathology (AREA)
- Molecular Biology (AREA)
- Physics & Mathematics (AREA)
- Cell Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Animal Husbandry (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Botany (AREA)
- Developmental Biology & Embryology (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
Abstract
涉及规律成簇的间隔短回文重复(CRISPR)技术领域。提供了用于核酸编辑(例如,基因或基因组编辑,大片段缺失,单碱基编辑,基因组结构变异)的方法以及组合物,包括使用Type I‑C CRISPR‑Cas3系统。Type I‑C CRISPR‑Cas3系统可以实现基因组的精确的大片段缺失,例如,对于单个基因编码框任意长度的敲除,基因调控元件如长的lncRNA或者增强子的敲除,以及实现基因或基因组的单碱基编辑和基因组大的结构变异。
Description
本发明涉及规律成簇的间隔短回文重复(CRISPR)技术领域。具体而言,本发明提供了用于核酸编辑(例如,基因或基因组编辑,大片段缺失,单碱基编辑,基因组结构变异)的方法以及组合物,包括使用Type I-C CRISPR-Cas3系统。本发明的Type I-C CRISPR-Cas3系统可以实现基因组的精确的大片段的缺失,例如,对于单个基因编码框任意长度的敲除,基因调控元件如长的lncRNA或者增强子的敲除,以及实现基因或基因组的单碱基编辑和基因组大的结构变异。
CRISPR/Cas技术是一种被广泛使用的基因编辑技术,它通过RNA引导对基因组上的靶序列进行特异性结合并切割DNA产生双链断裂,进而通过利用生物非同源末端连接或同源重组的修复方式进行基因组的定点编辑。
目前基于现有的CRISPR系统的分类可以将其分为class1和class2两大类(Liu and Doudna 2020),class1系统主要由单个效应蛋白组成,被广泛应用的CRISPR/Cas9系统即属于class1系统中的type Ⅱ家族。尽管CRISPR/Cas9系统在基因编辑领域的技术应用已经很成熟,然而由于CRISPR/Cas9在基因组编辑后所产生编辑类型主要为小的缺失片段,因此,利用CRISPR/Cas9系统进行基因组大片段删除或者染色体消除等方面的应用仍然具有很大难度。
class2系统主要由多个效应蛋白组成,目前主要分为type I、type Ⅱ、type Ⅲ共3个家族,研究较为成熟的主要为type I家族中E型系统。class2系统与class1系统相同,在guide RNA的引导下通过对PAM基序的识别进而入侵靶序列,实现对底物DNA的结合和切割。Type I-E系统主要由两个部分组成,一部分为具有核酸酶活性的cas3蛋白以及形成Cascade复合体的Cas5,Cas6,Cas7,Cas8e,Cas11蛋白。guide RNA通过与级联复合体结合识别底物DNA,之后进一步招募Cas3蛋白对底物DNA进行裂解。目前已报道的利用type I-E系统进行人类293T细胞编辑发现type I-E系统主要诱导基因组远程的长片段的缺失,然而这种片段的缺失长度是随机的,使其在生产应用上具有局限性;同时利用class1其他家族进行真核生物基因组编辑的技术鲜有报道。
因此,鉴于目前CRISPR/Cas系统对于基因组编辑产生的缺失长度的缺陷以及type I系统编辑产生的随机片段缺失的局限性,开发一种更稳健的、可以实现基因组精确的大片段缺失的CRISPR/Cas系统对具有重要意义。
发明内容
本申请的发明人经过大量实验和反复摸索,出人意料地开发了新的Type I-C CRISPR-Cas3系统或载体系统以及应用所述系统的方法,其可用于实现靶基因或基因组精确的大片段缺失和/或其他靶核酸编辑(例如修饰基因、敲除基因、改变基因产物的表达、修复突变、和/或插入多核苷酸、单碱基突变等)。在某些实施方案中,所述系统在真核细胞中的应用是特别有利的。
I.含cas11c的Type I-C系统
一方面,本申请提供了一种Type I-C CRISPR-Cas3系统,其包含:
(1)cas5c蛋白或编码cas5c蛋白的核苷酸序列;
(2)cas8c蛋白或编码cas8c蛋白的核苷酸序列,
(3)cas7蛋白或编码cas7蛋白的核苷酸序列;以及,
(4)cas11c蛋白或编码cas11c蛋白的核苷酸序列。
在某些优选的实施方案中,所述系统还包括:(5)cas3蛋白或编码cas3蛋白的核苷酸序列。
在某些优选的实施方案中,所述系统中,(1)-(5)任一项中所述的蛋白任选地包含另外的蛋白或多肽,所述另外的蛋白或多肽选自表位标签、报告基因序列、核定位信号(NLS)序列、靶向部分、转录激活结构域(例如,VP64)、转录抑制结构域(例如,KRAB结构域或SID结构域)、核酸酶结构域(例如,Fok1),腺苷脱氨酶(例如,TadA8e),胞嘧啶脱氨酶(例如,APOBEC3),具有选自下列的活性的结构域:甲基化酶活性,去甲基化酶活性,转录激活活性,转录抑制活性,转录释放因子活性,组蛋白修饰活性,核酸酶活性,单链RNA切割活性,双链RNA切割活性,单链DNA切割活性,双链DNA切割活性和核酸结合活性;以及其任意组合。
在某些优选的实施方案中,(1)-(5)任一项中所述的蛋白中的至少1个(例如至少2个,至少3个,至少4个或全部5个)包含所述另外的蛋白或多肽;例如,(1)-(5)每一项中所述的蛋白均包含所述另外的蛋白或多肽。
在某些优选的实施方案中,所述另外的蛋白或多肽是NLS序列;例如,(1)-(5)每一项中所述的蛋白均包含NLS序列。在某些优选的实施方案中,所述NLS序列如SEQ ID NO:15所示。
在某些优选的实施方案中,所述另外的蛋白或多肽通过接头或者不通过接头与所述蛋白连接。在某些优选的实施方案中,所述接头是肽接头或非肽接头。在某些优选的实施方案中,所述肽接头序列如SEQ ID NO:16、17或66所示。
在某些优选的实施方案中,所述NLS序列位于、靠近或接近所述蛋白的末端(例如,N端或C端)。
在某些优选的实施方案中,所述另外的蛋白或多肽是腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3)。在某些优选的实施方案中,(1)-(4)任一项中所述的蛋白中的1个包含腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3)。在某些优选的实施方案中,所述腺苷脱氨酶或胞嘧啶脱氨酶氨基酸序列位于、靠近或接近所述蛋白(例如cas8c蛋白)的末端(例如,N端或C端)。在某些优选的实施方案中,所述腺苷脱氨酶或胞嘧啶脱氨酶氨基酸序列位于、靠近或接近所述cas8c蛋白的N端。
在某些优选的实施方案中,所述系统中:
(1)所述cas3蛋白包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:1所示的序列;(ii)与SEQ ID NO:1所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:1所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列;
(2)所述cas5c蛋白包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:2所示的序列;(ii)与SEQ ID NO:2所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:2所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列;
(3)所述cas8c蛋白包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:3所示的序列;(ii)与SEQ ID NO:3所示的序列相比具有一个或多个氨基酸的置 换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:2所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列;
(4)所述cas7蛋白包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:4所示的序列;(ii)与SEQ ID NO:4所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:4所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列;
(5)所述cas11c蛋白包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:5所示的序列;(ii)与SEQ ID NO:5所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:5所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列。
在某些优选的实施方案中,所述系统中:
(1)所述cas3蛋白包含NLS序列,并且包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:18所示的序列;(ii)与SEQ ID NO:18所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:18所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列;
(2)所述cas5c蛋白包含NLS序列,并且包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:19所示的序列;(ii)与SEQ ID NO:19所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:19所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少 94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列;
(3)所述cas8c蛋白包含NLS序列,并且包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:21所示的序列;(ii)与SEQ ID NO:21所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:21所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列;
(4)所述cas7蛋白包含NLS序列,并且包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:20所示的序列;(ii)与SEQ ID NO:20所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:20所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列;
(5)所述cas11c蛋白包含NLS序列,并且包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:22所示的序列;(ii)与SEQ ID NO:22所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:22所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列。
在某些优选的实施方案中,所述系统不包括cas3蛋白或编码cas3蛋白的核苷酸序列。在此类实施方案中,所述系统中的一个cas蛋白(例如cas5c、cas8c蛋白、cas7或cas11c)包含腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3);例如,所述腺苷脱氨酶或胞嘧啶脱氨酶的氨基酸序列位于、靠近或接近所述cas蛋白的末端(例如,N端或C端)。在某些优选的实施方案中,所述系统中的cas8c蛋白包含腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3);例如,所述腺苷脱氨酶或胞嘧啶 脱氨酶氨基酸序列位于、靠近或接近所述cas8c蛋白的N端。例如,所述腺苷脱氨酶或胞嘧啶脱氨酶通过接头或者不通过接头与所述蛋白连接;例如,所述接头是肽接头或非肽接头;例如,所述肽接头序列如SEQ ID NO:16、17或66所示。例如,所述系统中的cas8c蛋白包含TadA8e,所述cas8c蛋白包含如SEQ ID NO:67所示的序列。
在某些优选的实施方案中,所述系统进一步包含Type I-C CRISPR-Cas3系统的导向RNA(guide RNA)或编码所述导向RNA的核苷酸序列;其中,所述导向RNA包含同向重复序列以及能够与靶序列杂交的导向序列。
在某些优选的实施方案中,所述同向重复序列包含茎环结构。
在某些优选的实施方案中,所述同向重复序列能够与所述系统中的一种或多种cas蛋白结合;例如,所述同向重复序列能够与选自cas5c蛋白、cas8c蛋白、cas7蛋白、cas11c蛋白中的一种或多种蛋白结合;例如,所述导向RNA能够与cas5c蛋白、cas8c蛋白、cas7蛋白、cas11c蛋白形成的Cascade复合物结合。
在某些优选的实施方案中,当所述靶序列为DNA时,所述靶序列位于原间隔序列临近基序(PAM)的3’端,并且所述PAM具有5’TTC-所示的序列。
在某些优选的实施方案中,所述系统中,所述同向重复序列包含第一区域和第二区域,所述第一区域包含茎环结构。
在某些优选的实施方案中,所述第一区域位于所述第二区域的5’端。
在某些优选的实施方案中,所述第一区域与所述第二区域之间含有或不含有多余核苷酸。
在某些优选的实施方案中,所述系统中,所述导向RNA包含两个拷贝的同向重复序列,即,同向重复序列的第一拷贝和同向重复序列的第二拷贝,以及位于所述同向重复序列第一拷贝和同向重复序列第二拷贝之间的导向序列。
在某些优选的实施方案中,所述系统中,所述导向RNA包含同向重复序列第一拷贝的第二区域,导向序列,以及同向重复序列第二拷贝的第一区域。
在某些优选的实施方案中,所述导向序列位于所述同向重复序列第一拷贝的第二区域和所述同向重复序列第二拷贝的第一区域之间。
在某些优选的实施方案中,所述同向重复序列第一拷贝的第二区域位于所述导向序列的5’端,并且,所述同向重复序列第二拷贝的第一区域位于所述导向序列的3’端。
在某些优选的实施方案中,所述同向重复序列第一拷贝的第二区域与所述导向序列之 间含有或不含有多余核苷酸。
在某些优选的实施方案中,所述导向序列与所述同向重复序列第二拷贝的第一区域之间含有或不含有多余核苷酸。
在某些优选的实施方案中,所述系统中,当所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白的序列如上文中所定义时,所述同向重复序列包含SEQ ID NO:11所示的序列或由SEQ ID NO:11所示的序列组成。
在某些优选的实施方案中,所述系统中,当所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白的序列如上文中所定义时,所述同向重复序列的第一区域包含SEQ ID NO:13所示的序列或由SEQ ID NO:13所示的序列组成,所述同向重复序列的第二区域包含SEQ ID NO:14所示的序列或由SEQ ID NO:14所示的序列组成。
II.含cas11c的双靶向Type I-C系统
在某些优选的实施方案中,所述系统进一步包含Type I-C CRISPR-Cas3系统的一种或多种导向RNA或编码所述一种或多种导向RNA的核苷酸序列;其中,所述一种或多种导向RNA包含同向重复序列、能够与第一靶序列杂交的第一导向序列以及能够与第二靶序列杂交的第二导向序列;其中,所述第一靶序列和第二靶序列分别位于双链靶核酸分子中待修饰区域(例如待缺失区域)的侧翼。
在某些优选的实施方案中,所述第一靶序列和第二靶序列分别位于所述待修饰区域的两条单链上。例如,所述第一靶序列和第二靶序列在各自单链中分别位于所述待修饰区域的3’端。
在某些优选的实施方案中,所述同向重复序列包含茎环结构。
在某些优选的实施方案中,所述同向重复序列能够与所述系统中的一种或多种cas蛋白结合;例如,所述同向重复序列能够与选自cas5c蛋白、cas8c蛋白、cas7蛋白、cas11c蛋白中的一种或多种蛋白结合。例如,所述导向RNA能够与cas5c蛋白、cas8c蛋白、cas7蛋白、cas11c蛋白形成的Cascade复合物结合。
在某些优选的实施方案中,当所述靶序列为DNA时,所述靶序列位于原间隔序列临近基序(PAM)的3’端,并且所述PAM具有5’TTC-所示的序列。
在某些优选的实施方案中,所述系统中,所述同向重复序列包含第一区域和第二区域,所述第一区域包含茎环结构。
在某些优选的实施方案中,所述第一区域位于所述第二区域的5’端。
在某些优选的实施方案中,所述第一区域与所述第二区域之间含有或不含有多余核苷酸。
在某些优选的实施方案中,所述系统中,所述一种导向RNA包含:
(i)同向重复序列的第一拷贝,能够与第一靶序列杂交的第一导向序列,同向重复序列的第二拷贝,能够与第二靶序列杂交的第二导向序列,同向重复序列的第三拷贝;或者,
(ii)同向重复序列的第一拷贝的第二区域,能够与第一靶序列杂交的第一导向序列,同向重复序列的第二拷贝,能够与第二靶序列杂交的第二导向序列,同向重复序列的第三拷贝的第一区域。
在某些优选的实施方案中,(i)中,所述一种导向RNA从5’至3’方向包含:所述同向重复序列的第一拷贝,所述第一导向序列,所述同向重复序列的第二拷贝,所述第二导向序列,所述同向重复序列的第三拷贝。
在某些优选的实施方案中,(ii)中,所述一种导向RNA从5’至3’方向包含:所述同向重复序列的第一拷贝的第二区域,所述第一导向序列,所述同向重复序列的第二拷贝,所述第二导向序列,所述同向重复序列的第三拷贝的第一区域。
在某些优选的实施方案中,当所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白的序列如上文中所定义时,所述同向重复序列如SEQ ID NO:11所示。
在某些优选的实施方案中,当所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白如上文中所定义时,所述同向重复序列的第一区域包含SEQ ID NO:13所示的序列或由SEQ ID NO:13所示的序列组成,所述同向重复序列的第二区域包含SEQ ID NO:14所示的序列或由SEQ ID NO:14所示的序列组成。
在某些优选的实施方案中,所述系统中,所述多种导向RNA包含:
包含同向重复序列以及能够与第一靶序列杂交的第一导向序列的第一导向RNA;和
包含同向重复序列以及能够与第二靶序列杂交的第二导向序列的第二导向RNA。
在某些优选的实施方案中,所述系统中:
所述第一导向RNA包含两个拷贝的同向重复序列,即,同向重复序列的第一拷贝和同向重复序列的第二拷贝,以及位于所述两个拷贝的重复序列之间的第一导向序列;或者,所述第一导向RNA从5’至3’方向包含同向重复序列第一拷贝的第二区域,第一导向 序列,以及同向重复序列第二拷贝的第一区域;
所述第二导向RNA包含两个拷贝的同向重复序列,即,同向重复序列的第一拷贝和同向重复序列的第二拷贝,以及位于所述两个拷贝的重复序列之间的第二导向序列;或者,所述第二导向RNA从5’至3’方向包含同向重复序列第一拷贝的第二区域,第二导向序列,以及同向重复序列第二拷贝的第一区域。
在某些优选的实施方案中,当所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白如上文中所定义时,所述同向重复序列的第一区域包含SEQ ID NO:13所示的序列或由SEQ ID NO:13所示的序列组成,所述同向重复序列的第二区域包含SEQ ID NO:14所示的序列或由SEQ ID NO:14所示的序列组成。
III.含cas11c的Type I-C载体系统
在一方面,本申请提供了一种Type I-C CRISPR-Cas3载体系统,其包含一种或多种载体,所述一种或多种载体包含:编码Type I-C CRISPR-Cas3系统中的cas蛋白的核苷酸序列,所述cas蛋白包含cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白。
在某些优选的实施方案中,所述cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白如上文中定义。
在某些优选的实施方案中,所述一种或多种载体还包含编码cas3蛋白的核苷酸序列。在某些优选的实施方案中,所述cas3蛋白如上文中定义。在某些优选的实施方案中,所述一种或多种载体包含:第一表达盒,其包含编码cas3蛋白的核苷酸序列;以及,第二表达盒,其包含编码cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白的核苷酸序列。例如,所述第一表达盒包含启动子,例如诱导型启动子。例如,所述第二表达盒包含启动子,例如诱导型启动子。例如,在所述第二表达盒中,所述编码cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白的核苷酸序列以任意顺序排列。例如,在所述第二表达盒中,所述编码cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白的核苷酸序列彼此之间由编码自裂解肽(例如T2A)的核苷酸序列连接。
在某些优选的实施方案中,所述一种或多种载体不包含编码cas3蛋白的核苷酸序列。在此类实施方案中,所述系统中的一个cas蛋白(例如cas5c、cas8c蛋白、cas7或cas11c)包含腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3);例如,所述腺苷脱氨酶或胞嘧啶脱氨酶的氨基酸序列位于、靠近或接近所述cas蛋白的末端(例 如,N端或C端)。在某些优选的实施方案中,所述系统中的cas8c蛋白包含腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3);例如,所述腺苷脱氨酶或胞嘧啶脱氨酶氨基酸序列位于、靠近或接近所述cas8c蛋白的N端。例如,所述腺苷脱氨酶或胞嘧啶脱氨酶通过接头或者不通过接头与所述蛋白连接;例如,所述接头是肽接头或非肽接头;例如,所述肽接头序列如SEQ ID NO:16、17或66所示。例如,所述系统中的cas8c蛋白包含TadA8e,所述cas8c蛋白包含如SEQ ID NO:67所示的序列。
在某些优选的实施方案中,所述一种或多种载体包含:第一表达盒,其包含编码cas8c蛋白的核苷酸序列;以及,第二表达盒,其包含编码cas5c蛋白、cas7蛋白和cas11c蛋白的核苷酸序列。例如,所述cas8c蛋白包含腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3)。例如,所述第一表达盒包含启动子,例如诱导型启动子。例如,所述第二表达盒包含启动子,例如诱导型启动子。例如,在所述第二表达盒中,所述编码cas5c蛋白、cas7蛋白和cas11c蛋白的核苷酸序列以任意顺序排列。例如,在所述第二表达盒中,所述编码cas5c蛋白、cas7蛋白和cas11c蛋白的核苷酸序列彼此之间由编码自裂解肽(例如T2A)的核苷酸序列连接。
在某些优选的实施方案中,所述载体系统中,所述一种或多种载体还包括:包含编码Type I-C CRISPR-Cas3系统中的导向RNA的核苷酸序列,所述导向RNA如第I部分中定义。
在某些优选的实施方案中,所述编码Type I-C CRISPR-Cas3系统中的导向RNA的核苷酸序列位于另外的表达盒中;例如,所述另外的表达盒包含启动子,例如诱导型启动子。
IV.含cas11c的双靶向Type I-C载体系统
在某些优选的实施方案中,所述载体系统中,所述一种或多种载体还包括:编码Type I-C CRISPR-Cas3系统中的一种或多种导向RNA的核苷酸序列,所述一种或多种导向RNA如第II部分中定义。
在某些优选的实施方案中,所述编码Type I-C CRISPR-Cas3系统中的一种或多种导向RNA的核苷酸序列位于另外的表达盒中;例如,所述另外的表达盒包含启动子,例如诱导型启动子。
在某些优选的实施方案中,所述载体系统中,所述编码cas蛋白的核苷酸序列均位于同一载体上。
在某些优选的实施方案中,所述编码cas蛋白的核苷酸序列以及编码导向RNA的核苷酸序列均位于同一载体上。
V.双靶向Type I-C CRISPR-Cas3系统
在一方面,本申请提供了一种Type I-C CRISPR-Cas3系统,其包含:一种或多种导向RNA或编码所述一种或多种导向RNA的核苷酸序列;其中,所述一种或多种导向RNA包含同向重复序列、能够与第一靶序列杂交的第一导向序列以及能够与第二靶序列杂交的第二导向序列;其中,所述第一靶序列和第二靶序列分别位于双链靶核酸分子中待修饰区域(例如待缺失区域)的侧翼。
在某些优选的实施方案中,所述第一靶序列和第二靶序列分别位于所述待修饰区域的两条单链上;例如,所述第一靶序列和第二靶序列在各自单链中分别位于所述待修饰区域的3’端。
在某些优选的实施方案中,所述同向重复序列包含茎环结构。
在某些优选的实施方案中,所述同向重复序列能够与Type I-C CRISPR-Cas3系统中的一种或多种cas蛋白结合。
在某些优选的实施方案中,当所述靶序列为DNA时,所述靶序列位于原间隔序列临近基序(PAM)的3’端,并且所述PAM具有5’TTC-所示的序列。
在某些优选的实施方案中,所述系统中,所述同向重复序列包含第一区域和第二区域,所述第一区域包含茎环结构。
在某些优选的实施方案中,所述第一区域位于所述第二区域的5’端。
在某些优选的实施方案中,所述第一区域与所述第二区域之间含有或不含有多余核苷酸。
在某些优选的实施方案中,所述系统,其中,所述一种导向RNA包含:
(i)同向重复序列的第一拷贝,能够与第一靶序列杂交的第一导向序列,同向重复序列的第二拷贝,能够与第二靶序列杂交的第二导向序列,同向重复序列的第三拷贝;或者,
(ii)同向重复序列的第一拷贝的第二区域,能够与第一靶序列杂交的第一导向序 列,同向重复序列的第二拷贝,能够与第二靶序列杂交的第二导向序列,同向重复序列的第三拷贝的第一区域。
在某些优选的实施方案中,(i)中,所述一种导向RNA从5’至3’方向包含:所述同向重复序列的第一拷贝,所述第一导向序列,所述同向重复序列的第二拷贝,所述第二导向序列,所述同向重复序列的第三拷贝。
在某些优选的实施方案中,(ii)中,所述一种导向RNA从5’至3’方向包含:所述同向重复序列的第一拷贝的第二区域,所述第一导向序列,所述同向重复序列的第二拷贝,所述第二导向序列,所述同向重复序列的第三拷贝的第一区域。
在某些优选的实施方案中,所述系统中,所述多种导向RNA包含:
包含同向重复序列以及能够与第一靶序列杂交的第一导向序列的第一导向RNA;和
包含同向重复序列以及能够与第二靶序列杂交的第二导向序列的第二导向RNA。
在某些优选的实施方案中,所述系统中:
所述第一导向RNA包含两个拷贝的同向重复序列,即,同向重复序列的第一拷贝和同向重复序列的第二拷贝,以及位于所述两个拷贝的重复序列之间的第一导向序列;或者,所述第一导向RNA从5’至3’方向包含同向重复序列第一拷贝的第二区域,第一导向序列,以及同向重复序列第二拷贝的第一区域;
所述第二导向RNA包含两个拷贝的同向重复序列,即,同向重复序列的第一拷贝和同向重复序列的第二拷贝,以及位于所述两个拷贝的重复序列之间的第二导向序列;或者,所述第二导向RNA从5’至3’方向包含同向重复序列第一拷贝的第二区域,第二导向序列,以及同向重复序列第二拷贝的第一区域。
在某些优选的实施方案中,所述系统中,所述系统进一步包括:Type I-C CRISPR-Cas3系统中的cas蛋白或编码所述cas蛋白的核苷酸序列。
在某些优选的实施方案中,所述cas蛋白各自还包含另外的蛋白或多肽,所述另外的蛋白或多肽选自表位标签、报告基因序列、核定位信号(NLS)序列、靶向部分、转录激活结构域(例如,VP64)、转录抑制结构域(例如,KRAB结构域或SID结构域)、核酸酶结构域(例如,Fok1),腺苷脱氨酶(例如,TadA8e),胞嘧啶脱氨酶(例如,APOBEC3),具有选自下列的活性的结构域:甲基化酶活性,去甲基化酶活性,转录激活活性,转录抑制活性,转录释放因子活性,组蛋白修饰活性,核酸酶活性,单链RNA切割活性,双链RNA切割活性,单链DNA切割活性,双链DNA切割活性和核酸结合活性; 以及其任意组合。
在某些优选的实施方案中,所述另外的蛋白或多肽是NLS序列。在某些优选的实施方案中,所述另外的蛋白或多肽是腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3)。
在某些优选的实施方案中,所述系统中,所述cas蛋白包含cas3蛋白、cas5c蛋白、cas8c蛋白和cas7蛋白。在某些优选的实施方案中,所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白如第I部分中定义。
在某些优选的实施方案中,所述的系统中,所述cas蛋白包含cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白以及cas11c蛋白。在某些优选的实施方案中,所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白以及cas11c蛋白如第I部分中定义。
在某些优选的实施方案中,所述cas蛋白包含cas5c蛋白、cas8c蛋白、cas7蛋白以及cas11c蛋白,并且不包含cas3蛋白。在某些优选的实施方案中,所述cas5c蛋白、cas8c蛋白、cas7蛋白以及cas11c蛋白如第I部分中定义。在此类实施方案中,所述系统中的一个cas蛋白(例如cas5c、cas8c蛋白、cas7或cas11c)包含腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3);例如,所述腺苷脱氨酶或胞嘧啶脱氨酶的氨基酸序列位于、靠近或接近所述cas蛋白的末端(例如,N端或C端)。在某些优选的实施方案中,所述系统中的cas8c蛋白包含腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3);例如,所述腺苷脱氨酶或胞嘧啶脱氨酶氨基酸序列位于、靠近或接近所述cas8c蛋白的N端。例如,所述腺苷脱氨酶或胞嘧啶脱氨酶通过接头或者不通过接头与所述蛋白连接;例如,所述接头是肽接头或非肽接头;例如,所述肽接头序列如SEQ ID NO:16、17或66所示。例如,所述系统中的cas8c蛋白包含TadA8e,所述cas8c蛋白包含如SEQ ID NO:67所示的序列。
VI.双靶向Type I-C CRISPR-Cas3载体系统
在一方面,本申请提供了一种Type I-C CRISPR-Cas3载体系统,其包含一种或多种载体,所述一种或多种载体包含:编码Type I-C CRISPR-Cas3系统中的一种或多种导向RNA的核苷酸序列,所述一种或多种导向RNA如第V部分中定义。
在某些优选的实施方案中,所述载体系统中,所述一种或多种载体还包含:编码 Type I-C CRISPR-Cas3系统中的cas蛋白的核苷酸序列。
在某些优选的实施方案中,所述cas蛋白各自还包含另外的蛋白或多肽,所述另外的蛋白或多肽选自表位标签、报告基因序列、核定位信号(NLS)序列、靶向部分、转录激活结构域(例如,VP64)、转录抑制结构域(例如,KRAB结构域或SID结构域)、核酸酶结构域(例如,Fok1),腺苷脱氨酶(例如,TadA8e),胞嘧啶脱氨酶(例如,APOBEC3),具有选自下列的活性的结构域:甲基化酶活性,去甲基化酶活性,转录激活活性,转录抑制活性,转录释放因子活性,组蛋白修饰活性,核酸酶活性,单链RNA切割活性,双链RNA切割活性,单链DNA切割活性,双链DNA切割活性和核酸结合活性;以及其任意组合。
在某些优选的实施方案中,所述另外的蛋白或多肽是NLS序列。在某些优选的实施方案中,所述另外的蛋白或多肽是腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3)。
在某些优选的实施方案中,所述系统中,所述cas蛋白包含cas3蛋白、cas5c蛋白、cas8c蛋白和cas7蛋白。在某些优选的实施方案中,所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白如第I部分中定义。
在某些优选的实施方案中,所述的系统中,所述cas蛋白包含cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白以及cas11c蛋白。在某些优选的实施方案中,所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白以及cas11c蛋白如第I部分中定义。
在某些优选的实施方案中,所述cas蛋白包含cas5c蛋白、cas8c蛋白、cas7蛋白以及cas11c蛋白,并且不包含cas3蛋白。在某些优选的实施方案中,所述cas5c蛋白、cas8c蛋白、cas7蛋白以及cas11c蛋白如第I部分中定义。在此类实施方案中,所述系统中的一个cas蛋白(例如cas5c、cas8c蛋白、cas7或cas11c)包含腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3);例如,所述腺苷脱氨酶或胞嘧啶脱氨酶的氨基酸序列位于、靠近或接近所述cas蛋白的末端(例如,N端或C端)。在某些优选的实施方案中,所述系统中的cas8c蛋白包含腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3);例如,所述腺苷脱氨酶或胞嘧啶脱氨酶氨基酸序列位于、靠近或接近所述cas8c蛋白的N端。例如,所述腺苷脱氨酶或胞嘧啶脱氨酶通过接头或者不通过接头与所述蛋白连接;例如,所述接头是肽接头或非肽接头;例如,所述肽接头序列如 SEQ ID NO:16、17或66所示。例如,所述系统中的cas8c蛋白包含TadA8e,所述cas8c蛋白包含如SEQ ID NO:67所示的序列。
在某些优选的实施方案中,所述载体系统中,所述编码Type I-C CRISPR-Cas3系统中的一种或多种导向RNA的核苷酸序列与所述编码Type I-C CRISPR-Cas3系统中的cas蛋白的核苷酸序列位于不同的表达盒内。
在某些优选的实施方案中,所述编码cas3蛋白的核苷酸序列与编码其他cas蛋白的核苷酸序列位于不同的表达盒内;例如,位于同一表达盒内的所述编码cas蛋白的核苷酸序列彼此之间由编码自裂解肽(例如T2A)的核苷酸序列连接。
在某些优选的实施方案中,所述的载体系统,其中,所述编码cas蛋白的核苷酸序列均位于同一载体上。
在某些优选的实施方案中,所述编码cas蛋白的核苷酸序列以及所述编码一种或多种导向RNA的核苷酸序列均位于同一载体上。
试剂盒
在一方面,本申请提供了试剂盒,其包括I-VI任一部分中所述的系统或载体系统;以及使用所述系统进行核酸编辑(例如基因或基因组编辑,基因或基因组大片段缺失,基因或基因组单碱基修饰,基因组结构变异)的说明书。
递送组合物
在一方面,本申请提供了递送组合物,其包含I-VI任一部分中所述的系统或载体系统,以及递送系统。
在某些优选的实施方案中,所述递送系统选自粒子、囊泡或病毒载体。
在某些优选的实施方案中,所述粒子包含脂质、糖、金属或蛋白质。
在某些优选的实施方案中,所述囊泡包含外来体或脂质体。
在某些优选的实施方案中,所述病毒载体包含腺病毒、慢病毒或腺相关病毒。
方法
在一方面,本申请提供了在靶基因组中诱导缺失的方法,所述靶基因组包含互补的第一核酸链和第二核酸链,所述方法包括:将I-VI任一部分中所述的系统或载体系统与所 述靶基因组接触,或者递送至包含所述靶基因组的细胞中。
在某些优选的实施方案中,所述系统或载体系统中所包含的一种或多种cas蛋白能够与导向RNA形成复合物,并且在所述复合物与靶序列结合后,诱导对包含该靶序列的区域的缺失。
在某些优选的实施方案中,所述缺失是大片段缺失,例如大于0.1kb、大于0.2kb、大于0.5kb、大于1kb、大于10kb、大于100kb、大于10kb、大于50kb、大于100kb、例如小于500kb、小于400kb、小于300kb、小于200kb的片段缺失。
在某些优选的实施方案中,所述系统或载体系统所包含的一种或多种导向RNA包含同向重复序列、能够与第一靶序列杂交的第一导向序列以及能够与第二靶序列杂交的第二导向序列;其中,所述第一靶序列和第二靶序列分别位于所述靶基因组中待缺失区域的侧翼。
在某些优选的实施方案中,所述第一靶序列位于所述靶基因组的第一核酸链,所述第二靶序列位于所述靶基因组的第二核酸链;例如,在第一核酸链中,所述第一靶序列位于所述待缺失区域的3’端,并且,第二核酸链中,所述第二靶序列位于所述待缺失区域的3’端。
在某些优选的实施方案中,所述待缺失区域的长度大于0.1kb,例如大于0.2kb,大于0.3kb,大于0.4kb,大于0.5kb;例如,所述待缺失区域的长度小于500kb,例如小于400kb,小于300kb,小于200kb;例如所述待缺失区域的长度为0.2kb-200kb(例如0.2kb-2kb、0.2kb-5kb、0.2kb-10kb、0.2kb-100kb、0.2kb-200kb;例如0.5kb-1.5kb、0.5kb-2kb、0.5kb-10kb)。
在某些优选的实施方案中,所述靶基因组存在于细胞内,或者,所述靶基因组存在于体外的核酸分子(例如,质粒)中。
在某些优选的实施方案中,所述细胞是原核细胞。
在某些优选的实施方案中,所述细胞是真核细胞。
在某些优选的实施方案中,所述细胞选自动物细胞(例如,哺乳动物细胞,例如人类细胞)、植物细胞(例如玉米细胞、玉米原生质体、水稻细胞,拟南芥细胞、拟南芥原生质体)。
在某些优选的实施方案中,所述方法用于染色体消除。
在一方面,本申请提供了一种诱导基因组结构变异的方法,所述基因组包含互补的第一核酸链和第二核酸链,所述方法包括:将I-VI任一部分中所述的系统或载体系统与靶基因组接触,或者递送至包含所述靶基因组的细胞中。
在某些优选的实施方案中,所述系统或载体系统中所包含的一种或多种cas蛋白能够与导向RNA形成复合物,并且在所述复合物与靶序列结合后,诱导对包含该靶序列的区域的缺失从而诱导基因组结构变异。
在某些优选的实施方案中,所述缺失是大片段缺失,例如大于0.1kb、大于0.2kb、大于0.5kb、大于1kb、大于10kb、大于100kb、大于10kb、大于50kb、大于100kb、例如小于500kb、小于400kb、小于300kb、小于200kb的片段缺失。
在某些优选的实施方案中,所述系统或载体系统所包含的一种或多种导向RNA包含同向重复序列、能够与第一靶序列杂交的第一导向序列以及能够与第二靶序列杂交的第二导向序列;其中,所述第一靶序列和第二靶序列分别位于所述靶基因组中待缺失区域的侧翼。
在某些优选的实施方案中,所述第一靶序列位于所述靶基因组的第一核酸链,所述第二靶序列位于所述靶基因组的第二核酸链;例如,在第一核酸链中,所述第一靶序列位于所述待缺失区域的3’端,并且,第二核酸链中,所述第二靶序列位于所述待缺失区域的3’端。
在某些优选的实施方案中,所述待缺失区域的长度大于0.1kb,例如大于0.2kb,大于0.3kb,大于0.4kb,大于0.5kb;例如,所述待缺失区域的长度小于500kb,例如小于400kb,小于300kb,小于200kb;例如所述待缺失区域的长度为0.2kb-200kb(例如0.2kb-2kb、0.2kb-5kb、0.2kb-10kb、0.2kb-100kb、0.2kb-200kb;例如0.5kb-1.5kb、0.5kb-2kb、0.5kb-10kb)。
在某些优选的实施方案中,所述靶基因组存在于细胞内,或者,所述靶基因组存在于体外的核酸分子(例如,质粒)中。
在某些优选的实施方案中,所述细胞是原核细胞。
在某些优选的实施方案中,所述细胞是真核细胞。
在某些优选的实施方案中,所述细胞选自动物细胞(例如,哺乳动物细胞,例如人类细胞)、植物细胞(例如玉米细胞、玉米原生质体、水稻细胞,拟南芥细胞、拟南芥原生 质体)。
在一方面,本申请提供了修饰靶核酸分子的方法,其包括:将I-VI任一部分中所述的系统或载体系统与所述靶核酸分子接触,或者递送至包含所述靶核酸分子的细胞中。
在某些优选的实施方案中,所述系统或载体系统中所包含的一种或多种cas蛋白能够与导向RNA形成复合物,并且在所述复合物与靶序列结合后,诱导对包含该靶序列的靶核酸分子的修饰。
在某些优选的实施方案中,所述靶核酸分子是RNA或DNA。
在某些优选的实施方案中,所述靶核酸分子是双链DNA。
在某些优选的实施方案中,所述靶核酸分子是基因或基因组。
在某些优选的实施方案中,所述靶核酸分子存在于细胞内,或者,所述靶核酸分子存在于体外的核酸分子(例如,质粒)中。
在某些优选的实施方案中,所述细胞是原核细胞。
在某些优选的实施方案中,所述细胞是真核细胞。
在某些优选的实施方案中,所述细胞选自动物细胞(例如,哺乳动物细胞,例如人类细胞)、植物细胞(例如玉米细胞、玉米原生质体、水稻细胞,拟南芥细胞、拟南芥原生质体)。
在某些优选的实施方案中,所述修饰是指所述靶核酸分子的大片段缺失。
在某些优选的实施方案中,所述修饰是指所述靶核酸分子的断裂,如DNA的双链断裂;例如,所述修饰还包括将外源核酸插入所述断裂中。
在某些优选的实施方案中,所述修饰是指述靶核酸分子中的单碱基(例如胞嘧啶,腺嘌呤)发生改变。
在一方面,本申请提供了一种诱导靶核酸分子产生单碱基突变的方法,其包括:将I-VI任一部分中所述的系统或载体系统与所述靶核酸分子接触,或者递送至包含所述靶核酸分子的细胞中。
在某些优选的实施方案中,所述系统或载体系统中所包含的一种或多种cas蛋白能够与导向RNA形成复合物,并且在所述复合物与靶序列结合后,诱导对包含该靶序列的靶核酸分子中单碱基的修饰,并在核酸修复或复制过程产生单碱基突变。
在某些优选的实施方案中,所述单碱基的修饰是指能改变待修饰碱基的碱基互补配对方式的修饰;例如,经修饰前,所述待修饰碱基与第一碱基互补配对,经修饰后,所述被修饰碱基与第二碱基互补配对。
在某些优选的实施方案中,所述系统或载体系统中所包含的一种或多种cas蛋白还包含腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3)。
在某些优选的实施方案中,所述所述系统或载体系统中所包含的一种或多种cas蛋白(例如cas8c蛋白)还包含腺苷脱氨酶(例如,TadA8e),所述待修饰碱基为腺嘌呤,经修饰前,腺嘌呤与胸腺嘧啶互补配对,经修饰后,腺嘌呤被修饰为次黄嘌呤,次黄嘌呤与胞嘧啶互补配对。
在某些优选的实施方案中,所述所述系统或载体系统中所包含的一种或多种cas蛋白(例如cas8c蛋白)还包含胞嘧啶脱氨酶(例如,APOBEC3),所述待修饰碱基为胞嘧啶,经修饰前,胞嘧啶与鸟嘌呤互补配对,经修饰后,胞嘧啶被修饰为尿嘧啶,尿嘧啶与胸腺嘧啶互补配对。
在某些优选的实施方案中,所述靶核酸分子是RNA或DNA。
在某些优选的实施方案中,所述靶核酸分子是双链DNA。
在某些优选的实施方案中,所述靶核酸分子是基因或基因组。
在某些优选的实施方案中,所述靶核酸分子存在于细胞内,或者,所述靶核酸分子存在于体外的核酸分子(例如,质粒)中。
在某些优选的实施方案中,所述细胞是原核细胞。
在某些优选的实施方案中,所述细胞是真核细胞。
在某些优选的实施方案中,所述细胞选自动物细胞(例如,哺乳动物细胞,例如人类细胞)、植物细胞(例如玉米细胞、玉米原生质体、水稻细胞,拟南芥细胞、拟南芥原生质体)。
在一方面,本申请提供了改变基因产物的表达的方法,其包括:将I-VI任一部分中所述的系统或载体系统与编码所述基因产物的靶核酸分子接触,或者递送至包含所述靶核酸分子的细胞中。
在某些优选的实施方案中,所述系统或载体系统中所包含的一种或多种cas蛋白能够与导向RNA形成复合物,并且在所述复合物与靶序列结合后,诱导对包含该靶序列的靶 核酸分子的修饰从而改变基因产物的表达。
在某些优选的实施方案中,所述靶核酸分子存在于细胞内,或者所述靶核酸分子存在于体外的核酸分子(例如,质粒)中。
在某些优选的实施方案中,所述细胞是原核细胞。
在某些优选的实施方案中,所述细胞是真核细胞。
在某些优选的实施方案中,所述细胞选自动物细胞(例如,哺乳动物细胞,例如人类细胞)、植物细胞(例如玉米细胞,玉米原生质体、水稻细胞,拟南芥细胞、拟南芥原生质体)。
在某些优选的实施方案中,所述基因产物的表达被改变(例如,增强或降低)。
在某些优选的实施方案中,所述基因产物是蛋白。
在一方面,本申请提供了产生具有经修饰性状的植物的方法,所述方法包括将植物细胞与I-VI任一部分中所述的系统或载体系统接触,或者使该植物细胞经受权利要求如上文所述的在靶基因组中诱导缺失的方法、诱导基因组结构变异的方法、修饰靶核酸分子的方法、诱导靶核酸分子产生单碱基突变的方法或改变基因表达产物的方法,由此修饰或编辑该植物细胞的靶基因或基因组中的靶核酸分子,并且由所述植物细胞再生植物。
在某些优选的实施方案中,所述植物是农业植物,例如玉米、大麦、棉花、大米、大豆、小麦、水稻。
在某些优选的实施方案中,所述的的在靶基因组中诱导缺失的方法、诱导基因组结构变异的方法、修饰靶核酸分子的方法、诱导靶核酸分子产生单碱基突变的方法、改变基因表达产物的方法或产生具有经修饰性状的植物的方法中,所述系统或载体系统中所包含的cas蛋白或编码cas蛋白的核苷酸序列、导向RNA或编码导向RNA的核苷酸序列存在于递送系统中。
在某些优选的实施方案中,所述递送系统选自粒子、囊泡或病毒载体。
在某些优选的实施方案中,所述粒子包含脂质、糖、金属或蛋白质。
在某些优选的实施方案中,所述囊泡包含外来体或脂质体。
在某些优选的实施方案中,所述病毒载体包含腺病毒、慢病毒或腺相关病毒。
在一方面,本申请提供了I-VI任一部分中所述的系统或载体系统、试剂盒或递送组 合物,用于核酸编辑的用途,或者在制备制剂中的用途,所述制剂用于核酸编辑。
在某些优选的实施方案中,所述核酸编辑包括基因或基因组编辑。
在某些优选的实施方案中,所述基因或基因组编辑包括核酸大片段缺失、修饰基因、敲除基因、改变基因产物的表达、修复突变、和/或插入多核苷酸、单碱基突变。
在某些优选的实施方案中,所述核酸编辑包括诱导基因组结构变异或染色体消除。
在一方面,本申请提供了I-VI任一部分中所述的系统或载体系统、试剂盒或递送组合物,在制备制剂中的用途,所述制剂用于编辑靶基因座中的靶核苷酸序列来修饰生物或非人类生物(例如植物)。
术语定义
在本申请中,除非另有说明,否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且,本文中所用的核酸化学实验室操作步骤均为相应领域内广泛使用的常规步骤。同时,为了更好地理解本发明,下面提供相关术语的定义和解释。除非在本文别处具体限定或不同地描述,否则以下与本发明有关的术语和描述应按照下面给出的定义来理解。
当本文使用术语“例如”、“如”、“诸如”、“包括”、“包含”或其变体时,这些术语将不被认为是限制性术语,而将被解释为表示“但不限于”或“不限于”。
除非本文另外指明或根据上下文明显矛盾,否则术语“一个”和“一种”以及“该”和类似指称物在描述本发明的上下文中(尤其在以下权利要求的上下文中)应被解释成覆盖单数和复数。
如本文所用,术语“Type I-C CRISPR-CAS3系统”是指包含多亚基crRNA-效应子复合物的1类CRISPR-CAS系统,更具体地涉及I型系统,甚至更具体地涉及亚型I-C系统。亚型I-C系统可以包括多个不同的CAS组件,例如包括Cas3、Cas5(例如cas5c)、Cas7和Cas8(例如,Cas8c)等CAS组件以及任选的其他CAS组件(参见例如Makarova et al.2020.Nature Reviews Microbiology 18(2):67–83.https://doi.org/10.1038/s41579-019-0299-x.、Koonin,Makarova,and Zhang 2017.Current Opinion in Microbiology 37:67–78.https://doi.org/10.1016/j.mib.2017.05.008.、Koonin and Makarova 2019.Russian Veterinary Journal 2019(2):29– 36.http://dx.doi.org/10.1098/rstb.2018.0087,上述文献全文通过引用并入本文)。在某些实施方案中,本申请中使用的CAS蛋白源自或衍生自具有天然I-C系统的原核生物,例如Desulfovibrio vulgaris str.Hildenborough(参见Hochstrasser et al.2016.Molecular Cell 63(5):840–51.https://doi.org/10.1016/j.molcel.2016.07.027.、McBride et al.2020.Molecular Cell 80(6):971-979.e7.https://doi.org/10.1016/j.molcel.2020.11.003.;上述文献全文通过引用并入本文)。但是应当理解,可以使用来自任何来源的CAS蛋白(例如,Cas3、Cas5(例如,Cas5c)、Cas7、Cas8(例如,Cas8c)、cas11c)或其衍生物。在某些实施方案中,本申请使用的不同CAS组件可源自或衍生自同一种生物或不同种生物。
在某些实施方案中,所述cas3蛋白的氨基酸序列可参见NCBI Genbank ID:504337588。然而,本领域技术人员理解,在cas3蛋白的氨基酸序列中,可天然产生或人工引入突变或变异(包括但不限于,置换,缺失和/或添加,例如不同来源的I-C CRISPR-CAS3系统中的cas3蛋白),而不影响其生物学功能。因此,在本发明中,术语“cas3蛋白”应包括所有此类序列,包括例如SEQ ID NO:1所示的序列以及其天然或人工的变体。
在某些实施方案中,所述cas5c蛋白的氨基酸序列可参见NCBI Genbank ID:499490067。然而,本领域技术人员理解,在cas5c蛋白的氨基酸序列中,可天然产生或人工引入突变或变异(包括但不限于,置换,缺失和/或添加,例如不同来源的I-C CRISPR-CAS3系统中的cas5c蛋白),而不影响其生物学功能。因此,在本发明中,术语“cas5c蛋白”应包括所有此类序列,包括例如SEQ ID NO:2所示的序列以及其天然或人工的变体。
在某些实施方案中,所述cas8c蛋白的氨基酸序列可参见NCBI Genbank ID:499490068。然而,本领域技术人员理解,在cas8c蛋白的氨基酸序列中,可天然产生或人工引入突变或变异(包括但不限于,置换,缺失和/或添加,例如不同来源的I-C CRISPR-CAS3系统中的cas8c蛋白),而不影响其生物学功能。因此,在本发明中,术语“cas8c蛋白”应包括所有此类序列,包括例如SEQ ID NO:3所示的序列以及其天然或人工的变体。
在某些实施方案中,所述cas7蛋白的氨基酸序列可参见NCBI Genbank ID:499490069。然而,本领域技术人员理解,在cas7蛋白的氨基酸序列中,可天然产生 或人工引入突变或变异(包括但不限于,置换,缺失和/或添加,例如不同来源的I-C CRISPR-CAS3系统中的cas7蛋白),而不影响其生物学功能。因此,在本发明中,术语“cas7蛋白”应包括所有此类序列,包括例如SEQ ID NO:4所示的序列以及其天然或人工的变体。
在某些实施方案中,所述cas11c蛋白的氨基酸序列可参见NCBI Genbank ID:499490068。然而,本领域技术人员理解,在cas11c蛋白的氨基酸序列中,可天然产生或人工引入突变或变异(包括但不限于,置换,缺失和/或添加,例如不同来源的I-C CRISPR-CAS3系统中的cas11c蛋白),而不影响其生物学功能。因此,在本发明中,术语“cas11c蛋白”应包括所有此类序列,包括例如SEQ ID NO:5所示的序列以及其天然或人工的变体。
如本文中所使用的,术语“导向RNA(guide RNA)”、“成熟crRNA”可互换地使用并且具有本领域技术人员通常理解的含义。一般而言,导向RNA可以包含同向(direct)重复序列和导向序列(guide sequence),或者基本上由或由同向重复序列和导向序列(在内源性CRISPR系统背景下也称为间隔序列(spacer))组成。在某些情况下,导向序列是与靶序列具有足够互补性从而与所述靶序列杂交并引导CRISPR/Cas复合物与所述靶序列的特异性结合的任何多核苷酸序列。在某些实施方案中,当最佳比对时,导向序列与其相应靶序列之间的互补程度为至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、或至少99%。确定最佳比对在本领域的普通技术人员的能力范围内。例如,存在公开和可商购的比对算法和程序,诸如但不限于ClustalW、matlab中的史密斯-沃特曼算法(Smith-Waterman)、Bowtie、Geneious、Biopython以及SeqMan。
在某些情况下,所述导向序列在长度上为至少5个、至少10个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少21个、至少22个、至少23个、至少24个、至少25个、至少26个、至少27个、至少28个、至少29个、至少30个、至少35个、至少40个、至少45个或至少50个核苷酸。在某些情况下,所述导向序列在长度上为不超过50个、45个、40个、35个、30个、25个、24个、23个、22个、21个、20个、15个、10个或更少个核苷酸。在某些实施方案中,所述导向序列在长度上为10-50个、或15-40个、或20-40个核苷酸。
在某些情况下,所述同向重复序列在长度上为至少10个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少21个、至少22个、至少23个、 至少24个、至少25个、至少26个、至少27个、至少28个、至少29个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少56个、至少57个、至少58个、至少59个、至少60个、至少61个、至少62个、至少63个、至少64个、至少65个或至少70个核苷酸。在某些情况下,所述同向重复序列在长度上为不超过70个、65个、64个、63个、62个、61个、60个、59个、58个、57个、56个、55个、50个、45个、40个、35个、30个、29个、28个、27个、26个、25个、24个、23个、22个、21个、20个、15个、10个或更少个核苷酸。在某些实施方案中,所述同向重复序列在长度上为55-70个核苷酸,例如55-65个核苷酸,例如60-65个核苷酸,例如62-65个核苷酸,例如63-64个核苷酸。在某些实施方案中,所述同向重复序列在长度上为15-40个核苷酸,例如15-38个核苷酸,例如20-40个核苷酸,例如22-38个核苷酸,例如32个核苷酸。在某些实施方案中,所述同向重复序列在长度上不少于30nt,例如30nt-37nt。
如本文中所使用的,术语“CRISPR/Cas复合物”是指,导向RNA(guide RNA)或成熟crRNA与Cas蛋白结合所形成的核糖核蛋白复合体,其包含杂交到靶序列上并且与Cas蛋白结合的导向序列。该核糖核蛋白复合体能够识别并切割能与该导向RNA或成熟crRNA杂交的多核苷酸。
因此,在形成CRISPR/Cas复合物的情况下,“靶序列”是指被设计为具有靶向性的导向序列所靶向的多核苷酸,例如与该导向序列具有互补性的序列,其中靶序列与导向序列之间的杂交将促进CRISPR/Cas复合物的形成。完全互补性不是必需的,只要存在足够互补性以引起杂交并且促进一种CRISPR/Cas复合物的形成即可。靶序列可以包含任何多核苷酸,如DNA或RNA。在某些情况下,所述靶序列位于细胞的细胞核或细胞质中。在某些情况下,该靶序列可位于真核细胞的一个细胞器例如线粒体或叶绿体内。
在本发明中,表述“靶序列”或“靶多核苷酸”可以是对细胞(例如,真核细胞)而言任何内源或外源的多核苷酸。例如,该靶多核苷酸可以是一种存在于真核细胞的细胞核中的多核苷酸。该靶多核苷酸可以是一个编码基因产物(例如,蛋白质)的序列或一个非编码序列(例如,调节多核苷酸或无用DNA)。在某些情况下,据信该靶序列应该与原间隔序列临近基序(PAM)相关。对PAM的精确序列和长度要求取决于使用的Cas效应酶而不同,但是PAM典型地是临近原间隔序列(也即,靶序列)的2-5个碱基对序列。本领域技术人员能够鉴定与给定的Cas效应蛋白一起使用的PAM序列。
如本文所用,术语“腺苷脱氨酶”是指催化腺嘌呤或腺苷的水解脱氨的蛋白。在一些 实施方案中,所述腺苷脱氨酶催化腺嘌呤或腺苷在脱氧核糖核酸(DNA)中水解脱氨为肌苷。在一些实施方案中,所述腺苷脱氨酶是TadA8e。在某些实施方案中,所述腺苷脱氨酶的氨基酸序列可参见NCBI Genbank ID:UNJ19119.1或NCBI Genbank ID:QHD44350.1。然而,本领域技术人员理解,在腺苷脱氨酶的氨基酸序列中,可天然产生或人工引入突变或变异(包括但不限于,置换,缺失和/或添加,例如不同来源的腺苷脱氨酶),而不影响其生物学功能。因此,在本发明中,术语“腺苷脱氨酶”应包括所有此类序列,包括例如NCBI Genbank ID:UNJ19119.1或NCBI Genbank ID:QHD44350.1所示的序列以及其天然或人工的变体。
如本文所用,术语“胞嘧啶脱氨酶”是指催化胞苷或胞嘧啶水解脱氨的蛋白。在某些实施方案中,所述胞嘧啶脱氨酶是APOBEC3。在某些实施方案中,所述胞嘧啶脱氨酶的氨基酸序列可参见NCBI Genbank ID:76096346或NCBI Genbank ID:176865758。然而,本领域技术人员理解,在胞嘧啶脱氨酶的氨基酸序列中,可天然产生或人工引入突变或变异(包括但不限于,置换,缺失和/或添加,例如不同来源的胞嘧啶脱氨酶),而不影响其生物学功能。因此,在本发明中,术语“胞嘧啶脱氨酶”应包括所有此类序列,包括例如NCBI Genbank ID:76096346或NCBI Genbank ID:176865758所示的序列以及其天然或人工的变体。
如本文中所使用的,术语“同一性”用于指两个多肽之间或两个核酸之间序列的匹配情况。为了测定两个氨基酸序列或两个核酸序列的百分比同一性,为了最佳比较目的将序列进行比对(例如,可在第一氨基酸序列或核酸序列中引入缺口以与第二氨基酸或核酸序列最佳比对)。然后比较对应氨基酸位置或核苷酸位置处的氨基酸残基或核苷酸。当第一序列中的位置被与第二序列中的对应位置相同的氨基酸残基或核苷酸占据时,则分子在该位置上是同一的。两个序列之间的百分比同一性是由序列所共享的同一性位置的数目的函数(即,百分比同一性=同一重叠位置的数目/位置的总数×100%)。在某些实施方案中,两个序列长度相同。
两个序列之间的百分比同一性的测定还可使用数学算法来实现。用于两个序列的比较的数学算法的一个非限制性实例是Karlin和Altschul的算法,1990,Proc.Natl.Acad.Sci.U.S.A.87:2264-2268,如同Karlin和Altschul,1993,Proc.Natl.Acad.Sci.U.S.A.90:5873-5877中改进的。将这样的算法整合至Altschul等人,1990,J.Mol.Biol.215:403的NBLAST和XBLAST程序中。
如本文中所使用的,术语“载体”是指,可将多聚核苷酸插入其中的一种核酸运载工具。当载体能使插入的多核苷酸编码的蛋白获得表达时,载体称为表达载体。载体可以通过转化,转导或者转染导入宿主细胞,使其携带的遗传物质元件在宿主细胞中获得表达。载体是本领域技术人员公知的,包括但不限于:质粒;噬菌粒;柯斯质粒;人工染色体,例如酵母人工染色体(YAC)、细菌人工染色体(BAC)或P1来源的人工染色体(PAC);噬菌体如λ噬菌体或M13噬菌体及动物病毒等。可用作载体的动物病毒包括但不限于,逆转录酶病毒(包括慢病毒)、腺病毒、腺相关病毒、疱疹病毒(如单纯疱疹病毒)、痘病毒、杆状病毒、乳头瘤病毒、乳头多瘤空泡病毒(如SV40)。一种载体可以含有多种控制表达的元件,包括但不限于,启动子序列、转录起始序列、增强子序列、选择元件及报告基因。另外,载体还可含有复制起始位点。
发明的有益效果
与现有技术相比,本发明的I-C CRISPR-Cas3系统具有显著的应用价值。例如,本发明提供的I-C CRISPR-Cas3系统可以实现基因组大片段的缺失,如对于基因编码区的敲除,长的lncRNA或者增强子的敲除,以及应用于染色体消除等方面具有更大的优势。例如,本发明提供的I-C CRISPR-Cas3系统具有pre-crRNA的加工活性,其相较于Cas9系统无需tracrRNA,可以更加简便地应用于多靶点的基因编辑。例如,本发明提供的包含两个反向靶位点的导向RNA与type I-E系统利用单个靶位点的基因编辑相比可以实现基因组精确的片段缺失。
下面将结合附图和实施例对本发明的实施方案进行详细描述,但是本领域技术人员将理解,下列附图和实施例仅用于说明本发明,而不是对本发明的范围的限定。根据附图和优选实施方案的下列详细描述,本发明的各种目的和有利方面对于本领域技术人员来说将变得显然。
图1为实施例1中载体的设计图谱。图1A为type I-C系统的载体设计,图1B为Cas11c蛋白缺失的type I-C系统(D11C)的载体设计,图1C为type I-E系统的载体设计。
图2为实施例2中YFFP报告系统检测的结果。图2A为YFFP报告系统原理图;图2B为YFFP报告系统中的靶点设计,其中,IC-1、IC-2和IC-3为type I-C靶向YFFP重组序列的三个示例性靶点;2C为经type I-C系统和YFFP报告系统共转化的原生质体的荧光显微镜检测结果。
图3为实施例3中双荧光素酶报告系统的检测结果。图3A为双荧光素酶报告系统检测的实验流程图,图3B为type I-C系统、D11C系统、type I-E系统、Cas9系统的双荧光素酶报告系统检测结果,纵坐标表示各系统相对荧光值。
图4为实施例4中玉米内源基因编辑活性的检测。图4A为type I-C系统的PCR检测结果,图4B为D11C系统的PCR检测结果,图4C为type I-C系统在O2基因上第一个检测位点的一代测序比对结果,图4D为type I-C系统在O2基因上第二个检测位点的一代测序比对结果。
图5为实施例5中type I-C系统和type I-E系统的在玉米内源基因O2(位点1,O2-1;和,位点2,O2-2),PDL1,GL2和IPK1编辑活性比较的结果。
图6为实施例6中腺嘌呤单碱基编辑载体(I-C TadA8e)的设计图谱。
图7为实施例7中type I-C系统在玉米稳定转基因植株的基因编辑检测结果。图7A为靶向ZB7基因的双靶点设计,其中#g1和#g2分别为两个靶点;图7B为靶向GA2基因的双靶点设计,其中#g1和#g2分别为两个靶点;图7C为ZB7基因转基因植株编辑情况检测的一代测序比对结果;图7D为GA2基因转基因植株编辑情况检测的一代测序比对结果。
图8为实施例8中type I-C系统在水稻稳定转基因植株的基因编辑检测结果。图8A为靶向SLR1基因的双靶点设计,其中#g1和#g2分别为两个靶点;图8B为SLR1基因转基因植株编辑情况检测的一代测序比对结果。
图9为实施例9中type I-C系统在拟南芥原生质体的基因编辑检测结果。图9A为靶向RBSC1B、RBSC2B、RBSC3B基因的靶点设计,其中#g1和#g2分别为两个靶点,位于RBSC1B、RBSC2B、RBSC3B基因的同源序列上;图9B为拟南芥原生质体编辑情况检测的一代测序比对结果。
序列信息
本发明涉及的部分序列的信息提供于下面的表1中。
表1:序列信息
现参照下列意在举例说明本发明(而非限定本发明)的实施例来描述本发明。
除非特别指明,否则基本上按照本领域内熟知的以及在各种参考文献中描述的常规方法进行实施例中描述的实验和方法。例如,本发明中所使用的免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA等常规技术,可参见萨姆布鲁克(Sambrook)、弗里奇(Fritsch)和马尼亚蒂斯(Maniatis),《分子克隆:实验室手册》(MOLECULAR CLONING:A LABORATORY MANUAL),第 2次编辑(1989);《当代分子生物学实验手册》(CURRENT PROTOCOLS IN MOLECULAR BIOLOGY)(F.M.奥苏贝尔(F.M.Ausubel)等人编辑,(1987));《酶学方法》(METHODS IN ENZYMOLOGY)系列(学术出版公司):《PCR 2:实用方法》(PCR 2:A PRACTICAL APPROACH)(M.J.麦克弗森(M.J.MacPherson)、B.D.黑姆斯(B.D.Hames)和G.R.泰勒(G.R.Taylor)编辑(1995)),以及《动物细胞培养》(ANIMAL CELL CULTURE)(R.I.弗雷谢尼(R.I.Freshney)编辑(1987))。
另外,实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。本领域技术人员知晓,实施例以举例方式描述本发明,且不意欲限制本发明所要求保护的范围。本文中提及的全部公开案和其他参考资料以其全文通过引用合并入本文。
以下实施例涉及的部分试剂的来源如下:
LB液体培养基:10g胰蛋白胨(Tryptone),5g酵母提取物(Yeast Extract),10g NaCl,定容至1L,灭菌。
CTAB溶液:CTAB(十六烷基三甲基溴化铵)16.7g,5M NaCl 234mL,1M Tris-HCl(pH 8.0)83.5mL,0.5M EDTA(pH 8.0)33.4mL用蒸馏水补充至1L体积,使用时按比例加入100:1的β-巯基乙醇。
W5溶液:154mM NaCl,125mM CaCl
2,5mM KCl,4mM MES定容至500mL,用NaOH调pH为5.7。
MMG溶液:0.4mM甘露醇,15mM MgCl
2,4mM MES定容至10ML。
大提质粒试剂盒采购自QIAGEN公司,货号:12963。
Blunt-smiple载体采购自上海翌圣生物科技有限公司,货号:CB111-02。
大肠杆菌感受态DH5α购自北京擎科生物有限公司,货号:TSV-A07。
双荧光素酶报告系统检测试剂盒购至上海翌圣生物科技有限公司,货号:11402ES60。
P3301载体购自优宝生物公司,货号VT1386。
Puc19载体购自Takara生物公司,货号3219。
除非特别指明,以下实施例中涉及的序列合成均由南京金斯瑞生物科技有限公司完成,涉及的测序均由北京睿博兴科生物技术有限公司和六合华大公司完成。
实施例1.实验相关的载体设计
1.通过NCBI数据库查找了Desulfovibrio vulgaris str.Hildenborough菌株中相应的蛋白注释,分别获得了Cas3、Cas5c、Cas8c、Cas7的蛋白质氨基酸序列信息(SEQ ID NOs:1-4),并进行了真核生物玉米的密码子优化,优化后的蛋白编码序列如SEQ ID NOs:6-10所示。
2.利用玉米UBI启动子以及T2A剪切肽设计了用于表达Cas8c、Cas7、Cas5c的单顺反子表达载体。为了检测Cas11c蛋白在真核生物编辑的作用,我们同时设计了含有Cas11c蛋白和Cas11c蛋白缺失(D11C)的载体,并在每个蛋白的N端加入了核定位信号(核定位信号氨基酸序列如SEQ ID NO:15所示)。载体结构分别如图1A和1B所示。
3.为了评估type Ⅰ-C系统的活性,我们同时根据动物细胞type Ⅰ-E系统的应用设计了植物type Ⅰ-E系统的表达载体(结构如图1C所示)作为对照组。上述所有的载体中Cas3蛋白用CMV35S启动子进行表达,导向RNA通过OsU3启动子进行表达,并将以上各个蛋白和RNA组分构建至P3301载体(购自优宝生物,货号:VT1386)进行后续的实验检测。
实施例2.YFFP报告系统检测
1.为了初步鉴定该系统能否具有DNA剪切活性,我们首先构建了YFFP的报告系统。构建方式为:将一段55bp含有type Ⅰ-C PAM识别位点的DNA序列插入至YFP的DNA序列第289个核苷酸残基之后,同时加入TGA终止密码子,构建一段两侧含有223bp同源序列的YFFP重组序列,并将其构建至PUC19载体上,用35S启动子进行表达,得到含有YFFP报告系统的重组载体。YFFP报告系统的原理如图2A所示,如果所述type Ⅰ-C系统可以在插入的DNA序列的靶位点上进行DNA的裂解,之后通过单链退火的修复途径将YFFP修复成为完整的YFP,进而在蓝色激发光下发出绿色荧光。因此,可通过荧光信号判断所述Type Ⅰ-C系统的DNA剪切活性。
2.在上述步骤1制备的重组载体上选择含有type Ⅰ-C识别PAM(TTC)的DNA序列作为靶位点,例如,如图2B中所示的IC-1、IC-2或IC-3所示的靶点,各靶点所用导向RNA序列分别如SEQ ID NO:49、50或51所示,进行P3301-type Ⅰ-C载体 (载体结构如图1A所示)的构建。
3.原生质体的提取
选取叶片的中部分离原生质体,用锋利的刀片切成大约0.5mm宽的条块,可以20~30个放在一起切开;
将其转移到配好的酶解液中,避光,真空泵-15~-20(inHg)抽真空30分钟;再避光酶解5~6小时,同时缓慢摇动(脱色摇床,速度10rpm);
酶解结束后,加等量的W5溶液,稍有力地用手水平摇动10秒钟,释放原生质体;
使用40um尼龙膜过滤原生质体到50mL的圆底离心管中,100g水平离心3分钟沉淀原生质体,吸出上清;
加W5重悬原生质体,冰浴30分钟,使原生质体自然沉降,尽可能弃上清;
加适量MMG溶液重悬,原生质体浓度为2*106/ml,血球计数器计数。
4.将上述步骤1和2中构建完成的载体进行原生质体的共转化,28℃培养48h后用荧光显微镜进行观察。
结果如图2C所示,在荧光显微镜下观察到,转化type Ⅰ-C系统的原生质体中具有绿色荧光信号的细胞,表明实施例1中如图1A构建的载体具有DNA裂解的活性。
实施例3.双荧光素酶报告系统的检测
1.为了进一步确定Cas11c蛋白是否是真核生物编辑所必须的,我们构建了基于玉米原生质体转化系统的双荧光素酶报告系统。该系统的构建与实施例2中YFFP报告系统的构建方法类似。构建方式为:将一段55bp含有type Ⅰ-C PAM识别位点的DNA序列插入至FLuc的1190bp的核苷酸残基处,并加入TGA终止密码子,同时在该DNA两侧设计了780bp的同源臂,并将该改造后的氨基酸序列用35S启动子启动表达。同时,选择puc19载体作为骨架,用35S启动子启动Rluc的表达作为内参表达载体。双荧光素酶报告系统的检测流程如图3A所示,如果所述Cas系统(I-C、D11C、Cas9系统,或,type Ⅰ-E系统)可以在插入的DNA序列的靶位点上进行DNA的裂解,之后通过单链退火的修复途径将Fluc修复成为完整的Fluc,进而恢复荧光素酶活性。因此,可通过荧光素酶活性的测定判断所述Cas系统的DNA剪切活性。
2.选择含有type Ⅰ-C系统PAM(TTC)的DNA序列进行实施例1中如图1A和1B的载体构建,并分别命名为I-C和D11C,同时选择Cas9系统PAM(NGG)的DNA序 列进行Cas9对照载体的构建(参见ref:Jinjie Zhu et al.2015)以及I-E系统PAM(A AG)的DNA序列进行type Ⅰ-E系统载体的构建(ref:Hiroyuki Morisaka et al.2019)。
3.将上述步骤2构建的I-C、D11C、Cas9和I-E载体分别与上述步骤1构建的双荧光素酶报告系统进行原生质体共转化。
4.将转化后的原生质体每个4个重复混成一个体系于1.5mL离心管中,8000rpm离心3min后去上清,加入双荧光酶报告基因检测试剂盒中的裂解液500uL,于冰上放置5min孵育,12000rpm离心1min后取20uL上清与黑色酶标板中,加入100uL萤火虫荧光素酶反应液,酶标仪测定荧光读值。之后加入100uL海肾荧光素酶反应液,酶标仪测定荧光读值,所有的数据经过处理后用Graphpad prism8.0进行作图。
各编辑系统(type Ⅰ-C系统、D11C系统、type Ⅰ-E系统、Cas9系统)的双荧光素酶报告系统检测结果如图3B所示,由图可知,Ⅰ-C系统、Ⅰ-E系统、Cas9系统的相对荧光值都要高于未处理的实验组(约为未处理实验组的3-5倍);而缺少了Cas11c表达的系统(即D11C系统)的相对荧光值与未处理的实验组没有显著性差异,说明Cas11c蛋白在真核生物的编辑过程具有重要的作用。
实施例4.玉米内源基因编辑活性的检测
1.为了进一步检测Ⅰ-C系统在真核生物内源基因的编辑活性,我们选择玉米O2基因(GRMZM2G015534)、PDL1基因(GRMZM2G091481)、GL2基因(GRMZM2G098239)作为靶向的基因。为了提高基因片段缺失长度的准确度,我们针对每个检测位点分别设计了两个反向双靶点。例如,针对O2基因的两个检测位点,所述双靶点的设计如图4C中c1和c2(第一个检测位点,O2-1),和,如图4D中c3和c4所示(第二个检测位点,O2-2)。
2.根据步骤1中的靶位点设计方法,我们选择具有5’-TTC特征的DNA序列(34nt)作为靶向位点,并选择两个反向距离1kb左右的DNA序列(34nt)作为间隔序列进行U3-RNA载体的构建。之后将每个构建完成的U3-RNA载体连接至p3301载体上。为了进一步评估Cas11c蛋白的作用,我们将靶向O2基因的U3-RNA载体同时连接至Cas11c蛋白缺失的p3301载体上。
3.为了评估type Ⅰ-C系统的活性,我们选择了type Ⅰ-E系统作为活性参照,并参 考上述步骤2中type Ⅰ-C的双靶点设计,选择具有5’-AAG特征的DNA序列(32nt)作为靶向位点,设计了基于type Ⅰ-E系统的载体。靶点设计方法与type Ⅰ-C系统相同,两个反向靶位点之间的距离为1kb左右。
4.将步骤2和步骤3中构建好的载体分别进行原生质体的转化,28℃培养48h后提取玉米基因组的DNA。设计引物扩增靶点上下游1kb左右的区间,将扩增后的产物连接Blunt-simple载体,随机挑选96个重组的克隆用M13F/M13R引物对进行菌P检测,进行凝胶电泳分析。电泳结果如图4A所示,结果表明type Ⅰ-C系统编辑产物在O2基因位点上具有小于野生型基因组扩增长度(2Kb)的PCR条带(1kb左右,如图4A中星号标注的泳道所示)。将红色星号标注的PCR产物用M13F进行一代测序,将一代测序结果与B73参考基因组进行序列比对,结果发现该序列都含有大片段的缺失,缺失的片段主要为两个靶点之间(如图4C和4D)所示。
5.同上述步骤4中的检测方法,我们同时扩增了O2位点由D11C载体转化的原生质体的DNA,将扩增后的产物连接Blunt-simple载体,随机挑选96个重组的克隆用M13F/M13R引物对进行菌P检测,然而进行凝胶电泳分析,电泳结果如图4B所示,结果表明,所述96个重组克隆的PCR产物的大小都与野生型基因组PCR扩增的长度相同(2Kb),即,Cas11c蛋白缺失的D11C载体不能有效实现玉米内源基因的编辑,该结果进一步证实Cas11c蛋白在type Ⅰ-C系统作用于真核生物基因组编辑具有重要的作用。
6.将步骤4中的一代测序结果与原始的基因组进行BLAST比对,通过比对发现缺失的片段大部分都位于两个靶点之间,如图4C所示,第一个检测位点的缺失片段长度为904bp-944bp,如图4D所示,第二个检测位点的缺失片段长度为894bp-1282bp。初步统计编辑的效率,第一个检测位点的编辑效率为5.21%,第二个检测位点的编辑效率为15.58%。
实施例5.Type Ⅰ-C系统和type Ⅰ-E系统的真核编辑活性比较
1.根据实施例4中的实验方法,我们检测了由type Ⅰ-E系统即图1C中所示载体转化的原生质体的DNA,并将其PCR扩增产物进行一代测序,测序结果表明,type Ⅰ-E系统所产生的片段的缺失也是主要位于两个靶点之间。而之前文献(ref:Dolan et al.2019)(ref:Hiroyuki Morisaka et al.2019)中所使用的单个靶点的编辑结果主要造成随机的大片段的缺失,因此,本发明两个反向的靶位点的设计弥补了type Ⅰ系统对于片 段随机长度缺失的不足,提高了片段缺失长度的准确度。
2.type Ⅰ-E系统和本发明的type Ⅰ-C在玉米内源基因O2(位点1,O2-1;和,位点2,O2-2),PDL1,GL2和IPK1的编辑效率如图5所示,由图可知,type Ⅰ-C系统的编辑效率在5%-55%之间,平均效率为23.14%,type Ⅰ-E系统的编辑效率在4%-45%之间,平均效率为14.87%。因此,在我们目前所检测的玉米内源基因中,type Ⅰ-C系统的编辑效率远高于目前已经应用于动物细胞编辑的type Ⅰ-E系统。
实施例6.Type Ⅰ-C系统用于腺嘌呤碱基编辑
1.腺嘌呤单碱基编辑载体(I-C TadA8e)设计
利用玉米UBI启动子以及T2A剪切肽设计了用于表达Cas7、Cas5c、Cas11c的单顺反子表达载体,TadA8e-Cas8c融合蛋白用CMV35S启动子进行表达,并在每个蛋白的N端加入了核定位信号(核定位信号氨基酸序列如SEQ ID NO:15所示)。导向RNA通过OsU3启动子进行表达,并将以上各个蛋白和RNA组分构建至P3301载体(购自优宝生物,货号:VT1386)进行后续的实验。载体设计图谱如图6所示。
2.选取玉米基因组上含有type I-C识别PAM(TTC)的DNA序列作为靶序列,进行腺嘌呤单碱基编辑载体(I-C TadA8e)的构建。
3.将以上构建好的载体进行玉米原生质体的转化,提取转化后的DNA,进行靶位点上下游的PCR扩增,将PCR扩增后的DNA产物连接B载体并进行测序,从测序结果判断靶序列附近是否有Ato G的碱基替换。
实施例7.Type Ⅰ-C系统在玉米稳定转基因植株的基因编辑检测
1.为了检测Type I-C系统在玉米稳定转基因植株的编辑效率,我们选择了玉米ZB7基因(GRMZM2G027059)、GA2基因(GRMZM2G368411)作为靶向基因,并在每个基因上设计两个反向的靶点,如图7所示。例如,针对ZB7基因的两个检测位点,所述双靶点的设计如图7A中#g1和#g2。
2.根据步骤1中的靶位点设计方法,我们选择具有5’-TTC特征的DNA序列(34nt)作为靶向位点,并选择两个反向距离1kb左右的DNA序列(34nt)作为间隔序列进行U3-RNA载体的构建。之后将每个构建完成的U3-RNA载体连接至p3301载体上。
3.将步骤2中构建好的载体进行农杆菌的转化和愈伤组织的再生,提取T0代转基因植株的叶片的DNA并进行PCR扩增。检测方法同实施例4中步骤4的检测方法,在靶点的上下游500bp附近设计基因组特异性的引物进行PCR扩增,并将扩增的PCR连接Blunt-simple载体,随机挑选24个重组的克隆用M13F/M13R引物对进行菌P检测和一代测序,将一代测序的结果与参考基因的基因组序列进行比对,比对结果如图7C(ZB7基因)和7D(GA2基因)所示。
4.根据步骤3的一代测序结果,每个转基因事件含有1个及以上的缺失的克隆认为该转基因事件为基因编辑阳性植株,统计ZB7基因和GA2基因的基因编辑阳性植株的比例分别为86.67%和60%,如表2所示。
表2 基因编辑阳性植株的比例
实施例8.Type Ⅰ-C系统在水稻稳定转基因植株的基因编辑检测
1.为了检测Type I-C系统在水稻稳定转基因植株的编辑效率,我们选择了水稻SLR1基因(LOC_Os03g49990)作为靶向基因,并在该个基因上设计两个反向的靶点,所述双靶点的设计如图8A中#g1和#g2。
2.根据步骤1中的靶位点设计方法,我们选择具有5’-TTC特征的DNA序列(34nt)作为靶向位点,并选择两个反向距离1kb左右的DNA序列(34nt)作为间隔序列进行U3-RNA载体的构建。之后将每个构建完成的U3-RNA载体连接至p1300载体上。
3.将步骤2中构建好的载体进行农杆菌的转化和愈伤组织的再生,提取T0代转基因植株的叶片的DNA并进行PCR扩增。检测方法同实施例7中步骤3的检测方法,在靶点的上下游500bp附近设计基因组特异性的引物进行PCR扩增,并将扩增的PCR连接Blunt-simple载体,随机挑选24个重组的克隆用M13F/M13R引物对进行菌P检测和一代测序,将一代测序的结果与参考基因的基因组序列进行比对,比对结果如图8B所示。
4.根据步骤3的一代测序结果,每个转基因事件含有1个及以上的缺失的克隆认为该转基因事件为基因编辑阳性植株,根据表3的统计结果,在水稻稳定转基因植株的T0代 中基因编辑阳性植株的比例为80%。
表3 基因编辑阳性植株的比例
实施例9.Type Ⅰ-C系统在拟南芥原生质体的基因编辑检测
1.为了检测Type I-C系统在拟南芥原生质体的编辑效率,我们选择了拟南芥RBCS1B基因(AT5G38430)、RBCS2B基因(AT5G38420)、RBCS3B基因(AT5G38410)作为靶向基因,并在这3个基因上的同源区域设计了两个反向的靶点,如图9A所示,所述双靶点的设计如图9A中#g1和#g2。
2.根据步骤1中的靶位点设计方法,我们选择具有5’-TTC特征的DNA序列(34nt)作为靶向位点,并选择两个反向距离最大为7kb左右的DNA序列(34nt)作为间隔序列进行U3-RNA载体的构建。之后将每个构建完成的U3-RNA载体连接至p1300载体上。
3.将步骤2中构建好的载体进行拟南芥原生质体的转化,22℃暗培养48h后提取原生质体的DNA并进行PCR扩增。检测方法同实施例4中步骤4的检测方法,在靶点的上下游500bp附近设计基因组特异性的引物进行PCR扩增,并将扩增的PCR连接Blunt-simple载体,随机挑选96个重组的克隆用M13F/M13R引物对进行菌P检测和一代测序,将一代测序的结果与参考基因的基因组序列进行比对,比对结果如图9B所示。根据一代测序结果,type I-C系统在拟南芥原生质体的编辑效率为7.29%(如表4所示)。
表4 编辑效率统计
尽管本发明的具体实施方式已经得到详细的描述,但本领域技术人员将理解:根据已经公布的所有教导,可以对细节进行各种修改和变动,并且这些改变均在本发明的保护范围之内。本发明的全部分为由所附权利要求及其任何等同物给出。
Claims (52)
- 一种Type I-C CRISPR-Cas3系统,其包含:(1)cas5c蛋白或编码cas5c蛋白的核苷酸序列;(2)cas8c蛋白或编码cas8c蛋白的核苷酸序列;(3)cas7蛋白或编码cas7蛋白的核苷酸序列;以及,(4)cas11c蛋白或编码cas11c蛋白的核苷酸序列。
- 权利要求1所述的系统,其中,所述系统还包括:(5)cas3蛋白或编码cas3蛋白的核苷酸序列。
- 权利要求1或2所述的系统,其中,(1)-(5)任一项中所述的蛋白任选地包含另外的蛋白或多肽,所述另外的蛋白或多肽选自表位标签、报告基因序列、核定位信号(NLS)序列、靶向部分、转录激活结构域(例如,VP64)、转录抑制结构域(例如,KRAB结构域或SID结构域)、核酸酶结构域(例如,Fok1),腺苷脱氨酶(例如,TadA8e),胞嘧啶脱氨酶(例如,APOBEC3),具有选自下列的活性的结构域:甲基化酶活性,去甲基化酶活性,转录激活活性,转录抑制活性,转录释放因子活性,组蛋白修饰活性,核酸酶活性,单链RNA切割活性,双链RNA切割活性,单链DNA切割活性,双链DNA切割活性和核酸结合活性;以及其任意组合;例如,(1)-(5)任一项中所述的蛋白中的至少1个(例如至少2个,至少3个,至少4个或全部5个)包含所述另外的蛋白或多肽;例如,(1)-(5)每一项中所述的蛋白均包含所述另外的蛋白或多肽;例如,所述另外的蛋白或多肽是NLS序列;例如,(1)-(5)每一项中所述的蛋白均包含NLS序列;例如,所述NLS序列如SEQ ID NO:15所示;例如,所述另外的蛋白或多肽通过接头或者不通过接头与所述蛋白连接;例如,所述接头是肽接头或非肽接头;例如,所述肽接头序列如SEQ ID NO:16、17或66所示;例如,所述NLS序列位于、靠近或接近所述蛋白的末端(例如,N端或C端);例如,所述另外的蛋白或多肽是腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3);例如,(1)-(4)任一项中所述的蛋白中的1个包含腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3);例如,所述腺苷脱氨酶或胞嘧啶脱氨酶的氨基酸序列位于、靠近或接近所述蛋白(例如cas8c蛋白)的末端(例如,N端或C端);例如,所述腺苷脱氨酶或胞嘧啶脱氨酶氨基酸序列位于、靠近或接近所述cas8c蛋白的N端。
- 权利要求1-3任一项所述的系统,其中:(1)所述cas5c蛋白包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:2所示的序列;(ii)与SEQ ID NO:2所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:2所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列;(2)所述cas8c蛋白包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:3所示的序列;(ii)与SEQ ID NO:3所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:2所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列;(3)所述cas7蛋白包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:4所示的序列;(ii)与SEQ ID NO:4所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:4所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列;(4)所述cas11c蛋白包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:5所示的序列;(ii)与SEQ ID NO:5所示的序列相比具有一个或多个氨基酸的置 换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:5所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列;优选地,所述cas3蛋白包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:1所示的序列;(ii)与SEQ ID NO:1所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:1所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列。
- 权利要求1-4任一项所述的系统,其中:(1)所述cas5c蛋白包含NLS序列,并且包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:19所示的序列;(ii)与SEQ ID NO:19所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:19所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列;(2)所述cas8c蛋白包含NLS序列,并且包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:21所示的序列;(ii)与SEQ ID NO:21所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:21所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列;(3)所述cas7蛋白包含NLS序列,并且包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:20所示的序列;(ii)与SEQ ID NO:20所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8 个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:20所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列;(4)所述cas11c蛋白包含NLS序列,并且包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:22所示的序列;(ii)与SEQ ID NO:22所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:22所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列;优选地,所述cas3蛋白包含NLS序列,并且包含选自下列的序列,或由选自下列的序列组成:(i)SEQ ID NO:18所示的序列;(ii)与SEQ ID NO:18所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或(iii)与SEQ ID NO:18所示的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列。
- 权利要求1-5任一项所述的系统,其中,所述系统不包含cas3蛋白或编码cas3蛋白的核苷酸序列;例如,所述系统中的一个cas蛋白(例如cas5c、cas8c蛋白、cas7或cas11c)包含腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3);例如,所述腺苷脱氨酶或胞嘧啶脱氨酶的氨基酸序列位于、靠近或接近所述cas蛋白的末端(例如,N端或C端);例如,所述系统中的cas8c蛋白包含腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3);例如,所述腺苷脱氨酶或胞嘧啶脱氨酶氨基酸序列位于、靠近或接近所述cas8c蛋白的N端;例如,所述腺苷脱氨酶或胞嘧啶脱氨酶通过接头或者不通过接头与所述蛋白连接;例如,所述接头是肽接头或非肽接头;例如,所述肽接头序列如SEQ ID NO:16、17或66所示;例如,所述系统中的cas8c蛋白包含TadA8e,所述cas8c蛋白包含如SEQ ID NO:67所示的序列。
- 权利要求1-6任一项所述的系统,其进一步包含Type I-C CRISPR-Cas3系统的导向RNA(guide RNA)或编码所述导向RNA的核苷酸序列;其中,所述导向RNA包含同向重复序列以及能够与靶序列杂交的导向序列;例如,所述同向重复序列包含茎环结构;例如,所述同向重复序列能够与所述系统中的一种或多种cas蛋白结合;例如,所述同向重复序列能够与选自cas5c蛋白、cas8c蛋白、cas7蛋白、cas11c蛋白中的一种或多种蛋白结合;例如,所述导向RNA能够与cas5c蛋白、cas8c蛋白、cas7蛋白、cas11c蛋白形成的Cascade复合物结合;例如,当所述靶序列为DNA时,所述靶序列位于原间隔序列临近基序(PAM)的3’端,并且所述PAM具有5’TTC-所示的序列。
- 权利要求7所述的系统,其中,所述同向重复序列包含第一区域和第二区域,所述第一区域包含茎环结构;例如,所述第一区域位于所述第二区域的5’端;例如,所述第一区域与所述第二区域之间含有或不含有多余核苷酸。
- 权利要求8所述的系统,其中,所述导向RNA包含两个拷贝的同向重复序列,即,同向重复序列的第一拷贝和同向重复序列的第二拷贝,以及位于所述同向重复序列第一拷贝和同向重复序列第二拷贝之间的导向序列。
- 权利要求8所述的系统,其中,所述导向RNA包含同向重复序列第一拷贝的第二区域,导向序列,以及同向重复序列第二拷贝的第一区域;优选地,所述导向序列位于所述同向重复序列第一拷贝的第二区域和所述同向重复序 列第二拷贝的第一区域之间;优选地,所述同向重复序列第一拷贝的第二区域位于所述导向序列的5’端,并且,所述同向重复序列第二拷贝的第一区域位于所述导向序列的3’端;优选地,所述同向重复序列第一拷贝的第二区域与所述导向序列之间含有或不含有多余核苷酸;优选地,所述导向序列与所述同向重复序列第二拷贝的第一区域之间含有或不含有多余核苷酸。
- 权利要求7所述的系统,其中,当所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白如权利要求4或5中定义时,所述同向重复序列包含SEQ ID NO:11所示的序列或由SEQ ID NO:11所示的序列组成。
- 权利要求8所述的系统,其中,当所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白如权利要求4或5中定义时,所述同向重复序列的第一区域包含SEQ ID NO:13所示的序列或由SEQ ID NO:13所示的序列组成,所述同向重复序列的第二区域包含SEQ ID NO:14所示的序列或由SEQ ID NO:14所示的序列组成。
- 权利要求1-6任一项所述的系统,其进一步包含Type I-C CRISPR-Cas3系统的一种或多种导向RNA或编码所述一种或多种导向RNA的核苷酸序列;其中,所述一种或多种导向RNA包含同向重复序列、能够与第一靶序列杂交的第一导向序列以及能够与第二靶序列杂交的第二导向序列;其中,所述第一靶序列和第二靶序列分别位于双链靶核酸分子中待修饰区域(例如待缺失区域)的侧翼;例如,所述第一靶序列和第二靶序列分别位于所述待修饰区域的两条单链上;例如,所述第一靶序列和第二靶序列在各自单链中分别位于所述待修饰区域的3’端;例如,所述同向重复序列包含茎环结构;例如,所述同向重复序列能够与所述系统中的一种或多种cas蛋白结合;例如,所述同向重复序列能够与选自cas5c蛋白、cas8c蛋白、cas7蛋白、cas11c蛋白中的一种或多种蛋白结合;例如,所述导向RNA能够与cas5c蛋白、cas8c蛋白、cas7蛋白、cas11c蛋 白形成的Cascade复合物结合;例如,当所述靶序列为DNA时,所述靶序列位于原间隔序列临近基序(PAM)的3’端,并且所述PAM具有5’TTC-所示的序列。
- 权利要求13所述的系统,其中,所述同向重复序列包含第一区域和第二区域,所述第一区域包含茎环结构;例如,所述第一区域位于所述第二区域的5’端;例如,所述第一区域与所述第二区域之间含有或不含有多余核苷酸。
- 权利要求13或14所述的系统,其中,所述一种导向RNA包含:(i)同向重复序列的第一拷贝,能够与第一靶序列杂交的第一导向序列,同向重复序列的第二拷贝,能够与第二靶序列杂交的第二导向序列,同向重复序列的第三拷贝;或者,(ii)同向重复序列的第一拷贝的第二区域,能够与第一靶序列杂交的第一导向序列,同向重复序列的第二拷贝,能够与第二靶序列杂交的第二导向序列,同向重复序列的第三拷贝的第一区域;优选地,(i)中,所述一种导向RNA从5’至3’方向包含:所述同向重复序列的第一拷贝,所述第一导向序列,所述同向重复序列的第二拷贝,所述第二导向序列,所述同向重复序列的第三拷贝;优选地,(ii)中,所述一种导向RNA从5’至3’方向包含:所述同向重复序列的第一拷贝的第二区域,所述第一导向序列,所述同向重复序列的第二拷贝,所述第二导向序列,所述同向重复序列的第三拷贝的第一区域;例如,当所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白如权利要求4或5中定义时,所述同向重复序列如SEQ ID NO:11所示;例如,当所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白如权利要求4或5中定义时,所述同向重复序列的第一区域包含SEQ ID NO:13所示的序列或由SEQ ID NO:13所示的序列组成,所述同向重复序列的第二区域包含SEQ ID NO:14所示的序列或由SEQ ID NO:14所示的序列组成。
- 权利要求13或14所述的系统,其中,所述多种导向RNA包含:包含同向重复序列以及能够与第一靶序列杂交的第一导向序列的第一导向RNA;和包含同向重复序列以及能够与第二靶序列杂交的第二导向序列的第二导向RNA。
- 权利要求16所述的系统,其中:所述第一导向RNA包含两个拷贝的同向重复序列,即,同向重复序列的第一拷贝和同向重复序列的第二拷贝,以及位于所述两个拷贝的重复序列之间的第一导向序列;或者,所述第一导向RNA从5’至3’方向包含同向重复序列第一拷贝的第二区域,第一导向序列,以及同向重复序列第二拷贝的第一区域;所述第二导向RNA包含两个拷贝的同向重复序列,即,同向重复序列的第一拷贝和同向重复序列的第二拷贝,以及位于所述两个拷贝的重复序列之间的第二导向序列;或者,所述第二导向RNA从5’至3’方向包含同向重复序列第一拷贝的第二区域,第二导向序列,以及同向重复序列第二拷贝的第一区域;例如,当所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白如权利要求4或5中定义时,所述同向重复序列如SEQ ID NO:11所示;例如,当所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白如权利要求4或5中定义时,所述同向重复序列的第一区域包含SEQ ID NO:13所示的序列或由SEQ ID NO:13所示的序列组成,所述同向重复序列的第二区域包含SEQ ID NO:14所示的序列或由SEQ ID NO:14所示的序列组成。
- 一种Type I-C CRISPR-Cas3载体系统,其包含一种或多种载体,所述一种或多种载体包含:编码Type I-C CRISPR-Cas3系统中的cas蛋白的核苷酸序列,所述cas蛋白包含cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白;例如,所述cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白如权利要求3-5任一项中定义。
- 权利要求18所述的载体系统,其中,所述一种或多种载体还包含编码cas3蛋白的核苷酸序列;例如,所述cas3蛋白如权利要求3-5任一项中定义。
- 权利要求19所述的载体系统,其中,所述一种或多种载体包含:第一表达盒,其包含编码cas3蛋白的核苷酸序列;以及,第二表达盒,其包含编码cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白的核苷酸序列;例如,所述第一表达盒包含启动子,例如诱导型启动子;例如,所述第二表达盒包含启动子,例如诱导型启动子;例如,在所述第二表达盒中,所述编码cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白的核苷酸序列以任意顺序排列;例如,在所述第二表达盒中,所述编码cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白的核苷酸序列彼此之间由编码自裂解肽(例如T2A)的核苷酸序列连接。
- 权利要求18所述的载体系统,其中,所述一种或多种载体不包含编码cas3蛋白的核苷酸序列;例如,所述系统中的cas蛋白如权利要求6中定义。
- 权利要求21所述的载体系统,其中,所述一种或多种载体包含:第一表达盒,其包含编码cas8c蛋白的核苷酸序列;以及,第二表达盒,其包含编码cas5c蛋白、cas7蛋白和cas11c蛋白的核苷酸序列;例如,所述cas8c蛋白如权利要求6中定义;例如,所述第一表达盒包含启动子,例如诱导型启动子;例如,所述第二表达盒包含启动子,例如诱导型启动子;例如,在所述第二表达盒中,所述编码cas5c蛋白、cas7蛋白和cas11c蛋白的核苷酸序列以任意顺序排列;例如,在所述第二表达盒中,所述编码cas5c蛋白、cas7蛋白和cas11c蛋白的核苷酸序列彼此之间由编码自裂解肽(例如T2A)的核苷酸序列连接。
- 权利要求18-22任一项所述的载体系统,其中,所述一种或多种载体还包括:包含编码Type I-C CRISPR-Cas3系统中的导向RNA的核苷酸序列,所述导向RNA如权利要求7-12任一项中定义;例如,所述编码Type I-C CRISPR-Cas3系统中的导向RNA的核苷酸序列位于另外的表达盒中;例如,所述另外的表达盒包含启动子,例如诱导型启动子。
- 权利要求18-22任一项所述的载体系统,其中,所述一种或多种载体还包括:编码Type I-C CRISPR-Cas3系统中的一种或多种导向RNA的核苷酸序列,所述一种或多种导向RNA如权利要求13-17任一项中定义;例如,所述编码Type I-C CRISPR-Cas3系统中的一种或多种导向RNA的核苷酸序列位于另外的表达盒中;例如,所述另外的表达盒包含启动子,例如诱导型启动子。
- 权利要求18-24任一项所述的载体系统,其中,所述编码cas蛋白的核苷酸序列均位于同一载体上;例如,所述编码cas蛋白的核苷酸序列以及编码导向RNA的核苷酸序列均位于同一载体上。
- 一种Type I-C CRISPR-Cas3系统,其包含:一种或多种导向RNA或编码所述一种或多种导向RNA的核苷酸序列;其中,所述一种或多种导向RNA包含同向重复序列、能够与第一靶序列杂交的第一导向序列以及能够与第二靶序列杂交的第二导向序列;其中,所述第一靶序列和第二靶序列分别位于双链靶核酸分子中待修饰区域(例如待缺失区域)的侧翼;例如,所述第一靶序列和第二靶序列分别位于所述待修饰区域的两条单链上;例如,所述第一靶序列和第二靶序列在各自单链中分别位于所述待修饰区域的3’端;例如,所述同向重复序列包含茎环结构;例如,所述同向重复序列能够与Type I-C CRISPR-Cas3系统中的一种或多种cas蛋白结合;例如,当所述靶序列为DNA时,所述靶序列位于原间隔序列临近基序(PAM)的3’端,并且所述PAM具有5’TTC-所示的序列。
- 权利要求26所述的系统,其中,所述同向重复序列包含第一区域和第二区域,所述第一区域包含茎环结构;优选地,所述第一区域位于所述第二区域的5’端;例如,所述第一区域与所述第二区域之间含有或不含有多余核苷酸。
- 权利要求26或27所述的系统,其中,所述一种导向RNA包含:(i)同向重复序列的第一拷贝,能够与第一靶序列杂交的第一导向序列,同向重复序列的第二拷贝,能够与第二靶序列杂交的第二导向序列,同向重复序列的第三拷贝;或者,(ii)同向重复序列的第一拷贝的第二区域,能够与第一靶序列杂交的第一导向序列,同向重复序列的第二拷贝,能够与第二靶序列杂交的第二导向序列,同向重复序列的第三拷贝的第一区域;优选地,(i)中,所述一种导向RNA从5’至3’方向包含:所述同向重复序列的第一拷贝,所述第一导向序列,所述同向重复序列的第二拷贝,所述第二导向序列,所述同向重复序列的第三拷贝;优选地,(ii)中,所述一种导向RNA从5’至3’方向包含:所述同向重复序列的第一拷贝的第二区域,所述第一导向序列,所述同向重复序列的第二拷贝,所述第二导向序列,所述同向重复序列的第三拷贝的第一区域。
- 权利要求26或27所述的系统,其中,所述多种导向RNA包含:包含同向重复序列以及能够与第一靶序列杂交的第一导向序列的第一导向RNA;和包含同向重复序列以及能够与第二靶序列杂交的第二导向序列的第二导向RNA。
- 权利要求29所述的系统,其中:所述第一导向RNA包含两个拷贝的同向重复序列,即,同向重复序列的第一拷贝和同向重复序列的第二拷贝,以及位于所述两个拷贝的重复序列之间的第一导向序列;或者,所述第一导向RNA从5’至3’方向包含同向重复序列第一拷贝的第二区域,第一导向序列,以及同向重复序列第二拷贝的第一区域;所述第二导向RNA包含两个拷贝的同向重复序列,即,同向重复序列的第一拷贝和同向重复序列的第二拷贝,以及位于所述两个拷贝的重复序列之间的第二导向序列;或者,所述第二导向RNA从5’至3’方向包含同向重复序列第一拷贝的第二区域,第二导向 序列,以及同向重复序列第二拷贝的第一区域。
- 权利要求26-30任一项所述的系统,其中,所述系统进一步包括:Type I-CCRISPR-Cas3系统中的cas蛋白或编码所述cas蛋白的核苷酸序列;例如,所述cas蛋白各自还包含另外的蛋白或多肽,所述另外的蛋白或多肽选自表位标签、报告基因序列、核定位信号(NLS)序列、靶向部分、转录激活结构域(例如,VP64)、转录抑制结构域(例如,KRAB结构域或SID结构域)、核酸酶结构域(例如,Fok1),腺苷脱氨酶(例如,TadA8e),胞嘧啶脱氨酶(例如,APOBEC3),具有选自下列的活性的结构域:甲基化酶活性,去甲基化酶活性,转录激活活性,转录抑制活性,转录释放因子活性,组蛋白修饰活性,核酸酶活性,单链RNA切割活性,双链RNA切割活性,单链DNA切割活性,双链DNA切割活性和核酸结合活性;以及其任意组合;例如,所述另外的蛋白或多肽是NLS序列;例如,所述另外的蛋白或多肽是腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3)。
- 权利要求31所述的系统,其中,所述cas蛋白包含cas3蛋白、cas5c蛋白、cas8c蛋白和cas7蛋白;例如,所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白如权利要求3-5任一项中定义。
- 权利要求31所述的系统,其中,所述cas蛋白包含cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白以及cas11c蛋白;例如,所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白以及cas11c蛋白如权利要求3-5任一项中定义。
- 权利要求31所述的系统,其中,所述cas蛋白包含cas5c蛋白、cas8c蛋白、cas7蛋白以及cas11c蛋白,并且不包含cas3蛋白;例如,所述cas5c蛋白、cas8c蛋白、cas7蛋白以及cas11c蛋白如权利要求3-5任一项中定义;例如,所述cas蛋白如权利要求6中定义。
- 一种Type I-C CRISPR-Cas3载体系统,其包含一种或多种载体,所述一种或多种载体包含:编码Type I-C CRISPR-Cas3系统中的一种或多种导向RNA的核苷酸序列,所述一种或多种导向RNA如权利要求13-17任一项中定义。
- 权利要求35所述的载体系统,其中,所述一种或多种载体还包含:编码Type I-C CRISPR-Cas3系统中的cas蛋白的核苷酸序列;例如,所述cas蛋白各自还包含另外的蛋白或多肽,所述另外的蛋白或多肽选自表位标签、报告基因序列、核定位信号(NLS)序列、靶向部分、转录激活结构域(例如,VP64)、转录抑制结构域(例如,KRAB结构域或SID结构域)、核酸酶结构域(例如,Fok1),腺苷脱氨酶(例如,TadA8e),胞嘧啶脱氨酶(例如,APOBEC3),具有选自下列的活性的结构域:甲基化酶活性,去甲基化酶活性,转录激活活性,转录抑制活性,转录释放因子活性,组蛋白修饰活性,核酸酶活性,单链RNA切割活性,双链RNA切割活性,单链DNA切割活性,双链DNA切割活性和核酸结合活性;以及其任意组合;例如,所述另外的蛋白或多肽是NLS序列;例如,所述另外的蛋白或多肽是腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3)。
- 权利要求36所述的载体系统,其中,所述cas蛋白包含cas3蛋白、cas5c蛋白、cas8c蛋白、和cas7蛋白;例如,所述cas3蛋白、cas5c蛋白、cas8c蛋白、和cas7蛋白如权利要求3-5任一项中定义。
- 权利要求36所述的载体系统,其中,所述cas蛋白包含cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白;例如,所述cas3蛋白、cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白如权利要求3-5任一项中定义。
- 权利要求36所述的载体系统,其中,所述cas蛋白包含cas5c蛋白、cas8c蛋白、cas7蛋白和cas11c蛋白;并且不包含cas3蛋白;例如,所述cas蛋白如权利要求6中定义。
- 权利要求35-39任一项所述的载体系统,其中,所述编码Type I-C CRISPR-Cas3系统中的一种或多种导向RNA的核苷酸序列与所述编码Type I-C CRISPR-Cas3系统中的cas蛋白的核苷酸序列位于不同的表达盒内;例如,所述编码cas3蛋白的核苷酸序列与编码其他cas蛋白的核苷酸序列位于不同的表达盒内;例如,位于同一表达盒内的所述编码cas蛋白的核苷酸序列彼此之间由编码自裂解肽(例如T2A)的核苷酸序列连接。
- 权利要求35-40任一项所述的载体系统,其中,所述编码cas蛋白的核苷酸序列均位于同一载体上;例如,所述编码cas蛋白的核苷酸序列以及所述编码一种或多种导向RNA的核苷酸序列均位于同一载体上。
- 试剂盒,其包括权利要求1-17任一项所述的系统、权利要求18-25任一项所述的载体系统、权利要求26-34任一项所述的系统或权利要求35-41任一项所述的载体系统;以及使用所述系统进行核酸编辑(例如基因或基因组编辑,基因或基因组大片段缺失,基因或基因组单碱基修饰,基因组结构变异)的说明书;例如,所述试剂盒包含权利要求7-12任一项所述的系统;例如,所述试剂盒包含权利要求13-17任一项所述的系统;例如,所述试剂盒包含权利要求18-22所述的载体系统;例如,所述试剂盒包含权利要求23-25任一项所述的载体系统;例如,所述试剂盒包含权利要求31-34任一项所述的系统;例如,所述试剂盒包含权利要求36-41任一项所述的载体系统。
- 递送组合物,其包含权利要求1-17任一项所述的系统、权利要求18-25任一项所述的载体系统、权利要求26-34任一项所述的系统或权利要求35-41任一项所述的载体系 统,以及递送系统;例如,所述递送系统选自粒子、囊泡或病毒载体;例如,所述粒子包含脂质、糖、金属或蛋白质;例如,所述囊泡包含外来体或脂质体;例如,所述病毒载体包含腺病毒、慢病毒或腺相关病毒;例如,所述递送组合物包含权利要求7-12任一项所述的系统;例如,所述递送组合物包含权利要求13-17任一项所述的系统;例如,所述递送组合物包含权利要求18-22所述的载体系统;例如,所述递送组合物包含权利要求23-25任一项所述的载体系统;例如,所述递送组合物包含权利要求31-34任一项所述的系统;例如,所述递送组合物包含权利要求36-41任一项所述的载体系统。
- 在靶基因组中诱导缺失的方法,所述靶基因组包含互补的第一核酸链和第二核酸链,所述方法包括:将权利要求13-17任一项所述的系统或权利要求24或25所述的载体系统、权利要求31-34任一项所述的系统、或权利要求36-41任一项所述的载体系统与所述靶基因组接触,或者递送至包含所述靶基因组的细胞中;例如,所述系统或载体系统中所包含的一种或多种cas蛋白能够与导向RNA形成复合物,并且在所述复合物与靶序列结合后,诱导对包含该靶序列的区域的缺失;例如,所述缺失是大片段缺失,例如大于0.1kb、大于0.2kb、大于0.5kb、大于1kb、大于10kb、大于100kb、大于10kb、大于50kb、大于100kb、例如小于500kb、小于400kb、小于300kb、小于200kb的片段缺失;例如,所述系统或载体系统所包含的一种或多种导向RNA包含同向重复序列、能够与第一靶序列杂交的第一导向序列以及能够与第二靶序列杂交的第二导向序列;其中,所述第一靶序列和第二靶序列分别位于所述靶基因组中待缺失区域的侧翼;例如,所述第一靶序列位于所述靶基因组的第一核酸链,所述第二靶序列位于所述靶基因组的第二核酸链;例如,在第一核酸链中,所述第一靶序列位于所述待缺失区域的3’端,并且,第二核酸链中,所述第二靶序列位于所述待缺失区域的3’端;例如,所述待缺失区域的长度大于0.1kb,例如大于0.2kb,大于0.3kb,大于0.4kb,大于0.5kb;例如,所述待缺失区域的长度小于500kb,例如小于400kb,小于 300kb,小于200kb;例如所述待缺失区域的长度为0.2kb-200kb(例如0.2kb-2kb、0.2kb-5kb、0.2kb-10kb、0.2kb-100kb、0.2kb-200kb;例如0.5kb-1.5kb、0.5kb-2kb、0.5kb-10kb);例如,所述靶基因组存在于细胞内,或者,所述靶基因组存在于体外的核酸分子(例如,质粒)中;例如,所述细胞是原核细胞;例如,所述细胞是真核细胞;例如,所述细胞选自动物细胞(例如,哺乳动物细胞,例如人类细胞)、植物细胞(例如玉米细胞、玉米原生质体,水稻细胞,拟南芥细胞、拟南芥原生质体);例如,所述方法用于染色体消除。
- 诱导基因组结构变异的方法,所述基因组包含互补的第一核酸链和第二核酸链,所述方法包括:将权利要求13-17任一项所述的系统或权利要求24或25所述的载体系统、权利要求31-34任一项所述的系统、或权利要求36-41任一项所述的载体系统与靶基因组接触,或者递送至包含所述靶基因组的细胞中;例如,所述系统或载体系统中所包含的一种或多种cas蛋白能够与导向RNA形成复合物,并且在所述复合物与靶序列结合后,诱导对包含该靶序列的区域的缺失从而诱导基因组结构变异;例如,所述缺失是大片段缺失,例如大于0.1kb、大于0.2kb、大于0.5kb、大于1kb、大于10kb、大于100kb、大于10kb、大于50kb、大于100kb、例如小于500kb、小于400kb、小于300kb、小于200kb的片段缺失;例如,所述系统或载体系统所包含的一种或多种导向RNA包含同向重复序列、能够与第一靶序列杂交的第一导向序列以及能够与第二靶序列杂交的第二导向序列;其中,所述第一靶序列和第二靶序列分别位于所述靶基因组中待缺失区域的侧翼;例如,所述第一靶序列位于所述靶基因组的第一核酸链,所述第二靶序列位于所述靶基因组的第二核酸链;例如,在第一核酸链中,所述第一靶序列位于所述待缺失区域的3’端,并且,第二核酸链中,所述第二靶序列位于所述待缺失区域的3’端;例如,所述待缺失区域的长度大于0.1kb,例如大于0.2kb,大于0.3kb,大于0.4kb,大于0.5kb;例如,所述待缺失区域的长度小于500kb,例如小于400kb,小于 300kb,小于200kb;例如所述待缺失区域的长度为0.2kb-200kb(例如0.2kb-2kb、0.2kb-5kb、0.2kb-10kb、0.2kb-100kb、0.2kb-200kb;例如0.5kb-1.5kb、0.5kb-2kb、0.5kb-10kb);例如,所述靶基因组存在于细胞内,或者,所述靶基因组存在于体外的核酸分子(例如,质粒)中;例如,所述细胞是原核细胞;例如,所述细胞是真核细胞;例如,所述细胞选自动物细胞(例如,哺乳动物细胞,例如人类细胞)、植物细胞(例如玉米细胞、玉米原生质体、水稻细胞,拟南芥细胞、拟南芥原生质体)。
- 修饰靶核酸分子的方法,其包括:将权利要求7-17任一项所述的系统、权利要求23-25任一项所述的载体系统、权利要求31-34任一项所述的系统、或权利要求36-41任一项所述的载体系统与所述靶核酸分子接触,或者递送至包含所述靶核酸分子的细胞中;例如,所述系统或载体系统中所包含的一种或多种cas蛋白能够与导向RNA形成复合物,并且在所述复合物与靶序列结合后,诱导对包含该靶序列的靶核酸分子的修饰;例如,所述靶核酸分子是RNA或DNA;例如,所述靶核酸分子是双链DNA;例如,所述靶核酸分子是基因或基因组;例如,所述靶核酸分子存在于细胞内,或者,所述靶核酸分子存在于体外的核酸分子(例如,质粒)中;例如,所述细胞是原核细胞;例如,所述细胞是真核细胞;例如,所述细胞选自动物细胞(例如,哺乳动物细胞,例如人类细胞)、植物细胞(例如玉米细胞、玉米原生质体、水稻细胞,拟南芥细胞、拟南芥原生质体);例如,所述修饰是指所述靶核酸分子的大片段缺失;例如,所述修饰是指所述靶核酸分子的断裂,如DNA的双链断裂;例如,所述修饰还包括将外源核酸插入所述断裂中;例如,所述修饰是指述靶核酸分子中的单碱基(例如胞嘧啶,腺嘌呤)发生改变。
- 诱导靶核酸分子产生单碱基突变的方法,其包括:将权利要求7-17所述的系统、权利要求23-25任一项所述的载体系统、权利要求31-34任一项所述的系统、或权利要求36-41任一项所述的载体系统与所述靶核酸分子接触,或者递送至包含所述靶核酸分子的细胞中;例如,所述系统或载体系统中所包含的cas蛋白如权利要求6中定义;例如,所述系统或载体系统中所包含的一种或多种cas蛋白能够与导向RNA形成复合物,并且在所述复合物与靶序列结合后,诱导对包含该靶序列的靶核酸分子中单碱基的修饰,并在核酸修复或复制过程产生单碱基突变;例如,所述单碱基的修饰是指能改变待修饰碱基的碱基互补配对方式的修饰;例如,经修饰前,所述待修饰碱基与第一碱基互补配对,经修饰后,所述被修饰碱基与第二碱基互补配对;例如,所述系统或载体系统中所包含的一种或多种cas蛋白还包含腺苷脱氨酶(例如,TadA8e)或胞嘧啶脱氨酶(例如,APOBEC3);例如,所述所述系统或载体系统中所包含的一种或多种cas蛋白(例如cas8c蛋白)还包含腺苷脱氨酶(例如,TadA8e),所述待修饰碱基为腺嘌呤,经修饰前,腺嘌呤与胸腺嘧啶互补配对,经修饰后,腺嘌呤被修饰为次黄嘌呤,次黄嘌呤与胞嘧啶互补配对;例如,所述所述系统或载体系统中所包含的一种或多种cas蛋白(例如cas8c蛋白)还包含胞嘧啶脱氨酶(例如,APOBEC3),所述待修饰碱基为胞嘧啶,经修饰前,胞嘧啶与鸟嘌呤互补配对,经修饰后,胞嘧啶被修饰为尿嘧啶,尿嘧啶与胸腺嘧啶互补配对;例如,所述靶核酸分子是RNA或DNA;例如,所述靶核酸分子是双链DNA;例如,所述靶核酸分子是基因或基因组;例如,所述靶核酸分子存在于细胞内,或者,所述靶核酸分子存在于体外的核酸分子(例如,质粒)中;例如,所述细胞是原核细胞;例如,所述细胞是真核细胞;例如,所述细胞选自动物细胞(例如,哺乳动物细胞,例如人类细胞)、植物细胞(例如玉米细胞、玉米原生质体、水稻细胞,拟南芥细胞、拟南芥原生质体)。
- 改变基因产物的表达的方法,其包括:将权利要求7-17任一项所述的系统、权利要求23-25任一项所述的载体系统、权利要求31-34任一项所述的系统、或权利要求36-41任一项所述的载体系统与编码所述基因产物的靶核酸分子接触,或者递送至包含所述靶核酸分子的细胞中;例如,所述系统或载体系统中所包含的一种或多种cas蛋白能够与导向RNA形成复合物,并且在所述复合物与靶序列结合后,诱导对包含该靶序列的靶核酸分子的修饰从而改变基因产物的表达;例如,所述靶核酸分子存在于细胞内,或者所述靶核酸分子存在于体外的核酸分子(例如,质粒)中;例如,所述细胞是原核细胞;例如,所述细胞是真核细胞;例如,所述细胞选自动物细胞(例如,哺乳动物细胞,例如人类细胞)、植物细胞(例如玉米细胞,玉米原生质体、水稻细胞,拟南芥细胞、拟南芥原生质体);例如,所述基因产物的表达被改变(例如,增强或降低);例如,所述基因产物是蛋白。
- 产生具有经修饰性状的植物的方法,所述方法包括将植物细胞与权利要求7-17任一项所述的系统、权利要求23-25任一项所述的载体系统、权利要求31-34任一项所述的系统、或权利要求36-41任一项所述的载体系统接触,或者使该植物细胞经受权利要求44-48任一项所述的方法,由此修饰或编辑该植物细胞的靶基因或基因组中的靶核酸分子,并且由所述植物细胞再生植物;例如,所述方法包括将植物细胞与权利要求13-17任一项所述的系统或权利要求24或25所述的载体系统、权利要求31-34任一项所述的系统、或权利要求36-41任一项所述的载体系统接触;例如,所述植物是农业植物,例如玉米、大麦、棉花、大米、大豆、小麦、水稻。
- 权利要求44-49任一项所述的方法,其中所述系统或载体系统中所包含的cas蛋白或编码cas蛋白的核苷酸序列、导向RNA或编码导向RNA的核苷酸序列存在于递送 系统中;例如,所述递送系统选自粒子、囊泡或病毒载体;例如,所述粒子包含脂质、糖、金属或蛋白质;例如,所述囊泡包含外来体或脂质体;例如,所述病毒载体包含腺病毒、慢病毒或腺相关病毒。
- 权利要求1-17任一项所述的系统、权利要求18-25任一项所述的载体系统、权利要求26-34任一项所述的系统或权利要求35-41任一项所述的载体系统,权利要求42所述的试剂盒或权利要求43所述的递送组合物,用于核酸编辑的用途,或者在制备制剂中的用途,所述制剂用于核酸编辑;例如,所述核酸编辑包括基因或基因组编辑;例如,所述基因或基因组编辑包括核酸大片段缺失、修饰基因、敲除基因、改变基因产物的表达、修复突变、和/或插入多核苷酸、单碱基突变;例如,所述核酸编辑包括诱导基因组结构变异或染色体消除。
- 权利要求1-17任一项所述的系统、权利要求18-25任一项所述的载体系统、权利要求26-34任一项所述的系统或权利要求35-41任一项所述的载体系统,权利要求42所述的试剂盒或权利要求43所述的递送组合物,在制备制剂中的用途,所述制剂用于编辑靶基因座中的靶核苷酸序列来修饰生物或非人类生物(例如植物)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110620180 | 2021-06-03 | ||
CN2021106201803 | 2021-06-03 | ||
PCT/CN2022/096648 WO2022253277A1 (zh) | 2021-06-03 | 2022-06-01 | Type I-C CRISPR-Cas3系统及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117529552A true CN117529552A (zh) | 2024-02-06 |
Family
ID=84323922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280039558.3A Pending CN117529552A (zh) | 2021-06-03 | 2022-06-01 | Type I-C CRISPR-Cas3系统及其应用 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117529552A (zh) |
WO (1) | WO2022253277A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015081114A2 (en) * | 2013-11-27 | 2015-06-04 | Gen9, Inc. | Libraries of nucleic acids and methods for making the same |
AU2015101792A4 (en) * | 2014-12-24 | 2016-01-28 | Massachusetts Institute Of Technology | Engineering of systems, methods and optimized enzyme and guide scaffolds for sequence manipulation |
KR20230035689A (ko) * | 2018-06-13 | 2023-03-14 | 카리부 바이오사이언시스 인코포레이티드 | 조작된 캐스케이드 구성성분 및 캐스케이드 복합체 |
CN111613272B (zh) * | 2020-05-21 | 2023-10-13 | 西湖大学 | 程序化框架gRNA及其应用 |
-
2022
- 2022-06-01 CN CN202280039558.3A patent/CN117529552A/zh active Pending
- 2022-06-01 WO PCT/CN2022/096648 patent/WO2022253277A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022253277A1 (zh) | 2022-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7083364B2 (ja) | 配列操作のための最適化されたCRISPR-Cas二重ニッカーゼ系、方法および組成物 | |
US11753651B2 (en) | Cas9 proteins and guiding features for DNA targeting and genome editing | |
JP6723094B2 (ja) | 遺伝子産物の発現を変更するためのCRISPR−Cas系および方法 | |
Kim et al. | Genome‐wide analysis of Agrobacterium T‐DNA integration sites in the Arabidopsis genome generated under non‐selective conditions | |
CN106222177B (zh) | 一种靶向人STAT6的CRISPR-Cas9系统及其用于治疗过敏性疾病的应用 | |
KR102271292B1 (ko) | Rna-안내 게놈 편집의 특이성을 증가시키기 위한 rna-안내 foki 뉴클레아제(rfn)의 용도 | |
EP3004339B1 (en) | New compact scaffold of cas9 in the type ii crispr system | |
JP2020103295A (ja) | Cas9ターゲッティングをガイドする配列に関する方法および組成物 | |
CA2913865C (en) | A method for producing precise dna cleavage using cas9 nickase activity | |
JP6552965B2 (ja) | 配列操作のための改善された系、方法および酵素組成物のエンジニアリングおよび最適化 | |
US11898270B2 (en) | Pig genome-wide specific sgRNA library, preparation method therefor and application thereof | |
WO2017049129A2 (en) | Methods of making guide rna | |
EP3387134A1 (en) | Methods and compositions for enhanced nuclease-mediated genome modification and reduced off-target site effects | |
CN111742051A (zh) | 延伸的单向导rna及其用途 | |
WO2016205623A1 (en) | Methods and compositions for genome editing in bacteria using crispr-cas9 systems | |
CN106062197A (zh) | 用于序列操纵的串联指导系统、方法和组合物的递送、工程化和优化 | |
AU2014341929A1 (en) | Optimal maize loci | |
AU2014341934A1 (en) | Optimal soybean loci | |
JP2016539653A (ja) | 微小藻類のゲノム操作のためのCas9ヌクレアーゼプラットフォーム | |
WO2020087631A1 (zh) | 基于C2c1核酸酶的基因组编辑系统和方法 | |
CN117529552A (zh) | Type I-C CRISPR-Cas3系统及其应用 | |
WO2020037087A1 (en) | Methods of managing nucleic acid replication, expression, and cleavage using crispr associated nucleases | |
WO2020036181A1 (ja) | 細胞を単離又は同定する方法及び細胞集団 | |
AU2020356441A1 (en) | A nucleic acid delivery vector comprising a circular single stranded polynucleotide | |
CA3133940A1 (en) | Suppression of target gene expression through genome editing of native mirnas |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |