CN118813586A - 突变的Cas蛋白及其应用 - Google Patents
突变的Cas蛋白及其应用 Download PDFInfo
- Publication number
- CN118813586A CN118813586A CN202411068288.6A CN202411068288A CN118813586A CN 118813586 A CN118813586 A CN 118813586A CN 202411068288 A CN202411068288 A CN 202411068288A CN 118813586 A CN118813586 A CN 118813586A
- Authority
- CN
- China
- Prior art keywords
- protein
- cas
- amino acid
- sequence
- seq
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 183
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 157
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 104
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 93
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 93
- 108010021466 Mutant Proteins Proteins 0.000 claims abstract description 89
- 102000008300 Mutant Proteins Human genes 0.000 claims abstract description 89
- 235000018102 proteins Nutrition 0.000 claims description 150
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 121
- 108020005004 Guide RNA Proteins 0.000 claims description 53
- 239000013598 vector Substances 0.000 claims description 52
- 108020001507 fusion proteins Proteins 0.000 claims description 48
- 102000037865 fusion proteins Human genes 0.000 claims description 48
- 150000001413 amino acids Chemical class 0.000 claims description 45
- 238000000034 method Methods 0.000 claims description 36
- 102000040430 polynucleotide Human genes 0.000 claims description 34
- 108091033319 polynucleotide Proteins 0.000 claims description 34
- 239000002157 polynucleotide Substances 0.000 claims description 34
- 102000055025 Adenosine deaminases Human genes 0.000 claims description 30
- 239000002773 nucleotide Substances 0.000 claims description 30
- 125000003729 nucleotide group Chemical group 0.000 claims description 30
- 101710169336 5'-deoxyadenosine deaminase Proteins 0.000 claims description 29
- 238000010362 genome editing Methods 0.000 claims description 27
- 239000000203 mixture Substances 0.000 claims description 26
- 108010031325 Cytidine deaminase Proteins 0.000 claims description 22
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 22
- 102100026846 Cytidine deaminase Human genes 0.000 claims description 21
- 230000027455 binding Effects 0.000 claims description 19
- 102000004196 processed proteins & peptides Human genes 0.000 claims description 18
- 238000012217 deletion Methods 0.000 claims description 17
- 230000037430 deletion Effects 0.000 claims description 17
- 229920001184 polypeptide Polymers 0.000 claims description 17
- 230000001105 regulatory effect Effects 0.000 claims description 14
- 230000035772 mutation Effects 0.000 claims description 13
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 9
- 239000003153 chemical reaction reagent Substances 0.000 claims description 4
- 201000010099 disease Diseases 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims description 4
- 235000004252 protein component Nutrition 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 2
- 230000037429 base substitution Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 45
- 235000001014 amino acid Nutrition 0.000 description 95
- 210000004027 cell Anatomy 0.000 description 75
- 229940024606 amino acid Drugs 0.000 description 70
- 108010077850 Nuclear Localization Signals Proteins 0.000 description 31
- 238000006467 substitution reaction Methods 0.000 description 29
- 230000008685 targeting Effects 0.000 description 27
- 125000000539 amino acid group Chemical group 0.000 description 23
- 108020004414 DNA Proteins 0.000 description 22
- 108091028043 Nucleic acid sequence Proteins 0.000 description 19
- 230000014509 gene expression Effects 0.000 description 19
- 241000196324 Embryophyta Species 0.000 description 17
- 210000003527 eukaryotic cell Anatomy 0.000 description 14
- 238000007792 addition Methods 0.000 description 12
- 230000000295 complement effect Effects 0.000 description 11
- 101710163270 Nuclease Proteins 0.000 description 10
- 238000001890 transfection Methods 0.000 description 10
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 8
- 238000010453 CRISPR/Cas method Methods 0.000 description 8
- 108010048367 enhanced green fluorescent protein Proteins 0.000 description 8
- 238000009396 hybridization Methods 0.000 description 8
- 102000053602 DNA Human genes 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 7
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 7
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 7
- 241000482268 Zea mays subsp. mays Species 0.000 description 7
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 6
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 210000001236 prokaryotic cell Anatomy 0.000 description 6
- 210000001519 tissue Anatomy 0.000 description 6
- 108091033409 CRISPR Proteins 0.000 description 5
- 108091026890 Coding region Proteins 0.000 description 5
- 244000241257 Cucumis melo Species 0.000 description 5
- 241000588724 Escherichia coli Species 0.000 description 5
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 5
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Chemical compound CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 5
- 210000004102 animal cell Anatomy 0.000 description 5
- UCMIRNVEIXFBKS-UHFFFAOYSA-N beta-alanine Chemical compound NCCC(O)=O UCMIRNVEIXFBKS-UHFFFAOYSA-N 0.000 description 5
- 229910052799 carbon Inorganic materials 0.000 description 5
- 239000003623 enhancer Substances 0.000 description 5
- 229910052739 hydrogen Inorganic materials 0.000 description 5
- 230000030648 nucleus localization Effects 0.000 description 5
- 239000002245 particle Substances 0.000 description 5
- 125000006850 spacer group Chemical group 0.000 description 5
- 238000013518 transcription Methods 0.000 description 5
- 230000035897 transcription Effects 0.000 description 5
- 239000013603 viral vector Substances 0.000 description 5
- 240000002791 Brassica napus Species 0.000 description 4
- 240000007124 Brassica oleracea Species 0.000 description 4
- 235000003899 Brassica oleracea var acephala Nutrition 0.000 description 4
- 244000221633 Brassica rapa subsp chinensis Species 0.000 description 4
- 235000010149 Brassica rapa subsp chinensis Nutrition 0.000 description 4
- 108020004705 Codon Proteins 0.000 description 4
- 235000015510 Cucumis melo subsp melo Nutrition 0.000 description 4
- 108020004684 Internal Ribosome Entry Sites Proteins 0.000 description 4
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 4
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 4
- 241000700605 Viruses Species 0.000 description 4
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 4
- 230000004071 biological effect Effects 0.000 description 4
- 235000005822 corn Nutrition 0.000 description 4
- 238000005520 cutting process Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 4
- 239000013604 expression vector Substances 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 125000001360 methionine group Chemical group N[C@@H](CCSC)C(=O)* 0.000 description 4
- 229920001223 polyethylene glycol Polymers 0.000 description 4
- 230000003007 single stranded DNA break Effects 0.000 description 4
- 239000000758 substrate Substances 0.000 description 4
- SLXKOJJOQWFEFD-UHFFFAOYSA-N 6-aminohexanoic acid Chemical compound NCCCCCC(O)=O SLXKOJJOQWFEFD-UHFFFAOYSA-N 0.000 description 3
- QTBSBXVTEAMEQO-UHFFFAOYSA-N Acetic acid Chemical compound CC(O)=O QTBSBXVTEAMEQO-UHFFFAOYSA-N 0.000 description 3
- 244000291564 Allium cepa Species 0.000 description 3
- 235000002732 Allium cepa var. cepa Nutrition 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 3
- 241000283690 Bos taurus Species 0.000 description 3
- 235000009854 Cucurbita moschata Nutrition 0.000 description 3
- 240000001980 Cucurbita pepo Species 0.000 description 3
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 3
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical compound OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 240000007594 Oryza sativa Species 0.000 description 3
- 235000007164 Oryza sativa Nutrition 0.000 description 3
- 241000700159 Rattus Species 0.000 description 3
- 108700008625 Reporter Genes Proteins 0.000 description 3
- 240000003829 Sorghum propinquum Species 0.000 description 3
- 235000011684 Sorghum saccharatum Nutrition 0.000 description 3
- 235000021307 Triticum Nutrition 0.000 description 3
- 244000098338 Triticum aestivum Species 0.000 description 3
- 230000002378 acidificating effect Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 3
- 230000003197 catalytic effect Effects 0.000 description 3
- 238000003776 cleavage reaction Methods 0.000 description 3
- 230000009615 deamination Effects 0.000 description 3
- 238000006481 deamination reaction Methods 0.000 description 3
- 238000001212 derivatisation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005714 functional activity Effects 0.000 description 3
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 description 3
- 239000001257 hydrogen Substances 0.000 description 3
- 230000003301 hydrolyzing effect Effects 0.000 description 3
- 238000000338 in vitro Methods 0.000 description 3
- 230000002779 inactivation Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000001638 lipofection Methods 0.000 description 3
- 239000002502 liposome Substances 0.000 description 3
- 210000004962 mammalian cell Anatomy 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 108020004999 messenger RNA Proteins 0.000 description 3
- 244000005700 microbiome Species 0.000 description 3
- 238000010369 molecular cloning Methods 0.000 description 3
- 239000000178 monomer Substances 0.000 description 3
- 238000002703 mutagenesis Methods 0.000 description 3
- 231100000350 mutagenesis Toxicity 0.000 description 3
- 239000013612 plasmid Substances 0.000 description 3
- 230000008488 polyadenylation Effects 0.000 description 3
- 235000009566 rice Nutrition 0.000 description 3
- 230000007017 scission Effects 0.000 description 3
- 241000701161 unidentified adenovirus Species 0.000 description 3
- 241001430294 unidentified retrovirus Species 0.000 description 3
- 229940035893 uracil Drugs 0.000 description 3
- 235000013311 vegetables Nutrition 0.000 description 3
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- 244000105624 Arachis hypogaea Species 0.000 description 2
- 235000007319 Avena orientalis Nutrition 0.000 description 2
- 244000075850 Avena orientalis Species 0.000 description 2
- 244000063299 Bacillus subtilis Species 0.000 description 2
- 235000014469 Bacillus subtilis Nutrition 0.000 description 2
- 235000016068 Berberis vulgaris Nutrition 0.000 description 2
- 241000335053 Beta vulgaris Species 0.000 description 2
- 241000219310 Beta vulgaris subsp. vulgaris Species 0.000 description 2
- 241000167854 Bourreria succulenta Species 0.000 description 2
- 235000011293 Brassica napus Nutrition 0.000 description 2
- 235000011299 Brassica oleracea var botrytis Nutrition 0.000 description 2
- 235000011301 Brassica oleracea var capitata Nutrition 0.000 description 2
- 235000004221 Brassica oleracea var gemmifera Nutrition 0.000 description 2
- 235000001169 Brassica oleracea var oleracea Nutrition 0.000 description 2
- 235000012905 Brassica oleracea var viridis Nutrition 0.000 description 2
- 240000003259 Brassica oleracea var. botrytis Species 0.000 description 2
- 244000308368 Brassica oleracea var. gemmifera Species 0.000 description 2
- 235000000540 Brassica rapa subsp rapa Nutrition 0.000 description 2
- 235000004977 Brassica sinapistrum Nutrition 0.000 description 2
- 101100011365 Caenorhabditis elegans egl-13 gene Proteins 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 2
- 240000006740 Cichorium endivia Species 0.000 description 2
- 241000207199 Citrus Species 0.000 description 2
- 240000007154 Coffea arabica Species 0.000 description 2
- 229920000742 Cotton Polymers 0.000 description 2
- 241000195493 Cryptophyta Species 0.000 description 2
- 235000009852 Cucurbita pepo Nutrition 0.000 description 2
- RGSFGYAAUTVSQA-UHFFFAOYSA-N Cyclopentane Chemical compound C1CCCC1 RGSFGYAAUTVSQA-UHFFFAOYSA-N 0.000 description 2
- 244000019459 Cynara cardunculus Species 0.000 description 2
- 108010080611 Cytosine Deaminase Proteins 0.000 description 2
- 102000000311 Cytosine Deaminase Human genes 0.000 description 2
- 102100040264 DNA dC->dU-editing enzyme APOBEC-3D Human genes 0.000 description 2
- 230000007018 DNA scission Effects 0.000 description 2
- 241000702421 Dependoparvovirus Species 0.000 description 2
- 108010042407 Endonucleases Proteins 0.000 description 2
- 102000004533 Endonucleases Human genes 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 108700028146 Genetic Enhancer Elements Proteins 0.000 description 2
- 239000004471 Glycine Substances 0.000 description 2
- 235000010469 Glycine max Nutrition 0.000 description 2
- 244000068988 Glycine max Species 0.000 description 2
- 229940113491 Glycosylase inhibitor Drugs 0.000 description 2
- 241000219146 Gossypium Species 0.000 description 2
- 208000009889 Herpes Simplex Diseases 0.000 description 2
- 101000964382 Homo sapiens DNA dC->dU-editing enzyme APOBEC-3D Proteins 0.000 description 2
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 2
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 2
- 241000208822 Lactuca Species 0.000 description 2
- 235000003228 Lactuca sativa Nutrition 0.000 description 2
- 101710128836 Large T antigen Proteins 0.000 description 2
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 2
- 239000004472 Lysine Substances 0.000 description 2
- 101710175625 Maltose/maltodextrin-binding periplasmic protein Proteins 0.000 description 2
- 240000003183 Manihot esculenta Species 0.000 description 2
- 235000016735 Manihot esculenta subsp esculenta Nutrition 0.000 description 2
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- 101710135898 Myc proto-oncogene protein Proteins 0.000 description 2
- 102100038895 Myc proto-oncogene protein Human genes 0.000 description 2
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 2
- 244000061176 Nicotiana tabacum Species 0.000 description 2
- 241000283973 Oryctolagus cuniculus Species 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 239000002202 Polyethylene glycol Substances 0.000 description 2
- 235000014360 Punica granatum Nutrition 0.000 description 2
- 244000294611 Punica granatum Species 0.000 description 2
- 230000007022 RNA scission Effects 0.000 description 2
- 108020004511 Recombinant DNA Proteins 0.000 description 2
- 241000283984 Rodentia Species 0.000 description 2
- 102100022433 Single-stranded DNA cytosine deaminase Human genes 0.000 description 2
- 101710143275 Single-stranded DNA cytosine deaminase Proteins 0.000 description 2
- 240000003768 Solanum lycopersicum Species 0.000 description 2
- 235000002597 Solanum melongena Nutrition 0.000 description 2
- 244000061458 Solanum melongena Species 0.000 description 2
- 235000009470 Theobroma cacao Nutrition 0.000 description 2
- 244000299461 Theobroma cacao Species 0.000 description 2
- 101710150448 Transcriptional regulator Myc Proteins 0.000 description 2
- DRTQHJPVMGBUCF-XVFCMESISA-N Uridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-XVFCMESISA-N 0.000 description 2
- 244000078534 Vaccinium myrtillus Species 0.000 description 2
- FJJCIZWZNKZHII-UHFFFAOYSA-N [4,6-bis(cyanoamino)-1,3,5-triazin-2-yl]cyanamide Chemical compound N#CNC1=NC(NC#N)=NC(NC#N)=N1 FJJCIZWZNKZHII-UHFFFAOYSA-N 0.000 description 2
- 239000002253 acid Substances 0.000 description 2
- 229960000643 adenine Drugs 0.000 description 2
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 2
- 235000004279 alanine Nutrition 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 235000016520 artichoke thistle Nutrition 0.000 description 2
- 230000001580 bacterial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008827 biological function Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004113 cell culture Methods 0.000 description 2
- 235000013339 cereals Nutrition 0.000 description 2
- 235000019693 cherries Nutrition 0.000 description 2
- 235000003733 chicria Nutrition 0.000 description 2
- 235000020971 citrus fruits Nutrition 0.000 description 2
- 235000016213 coffee Nutrition 0.000 description 2
- 235000013353 coffee beverage Nutrition 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 210000000805 cytoplasm Anatomy 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000539 dimer Substances 0.000 description 2
- 239000003797 essential amino acid Substances 0.000 description 2
- 235000020776 essential amino acid Nutrition 0.000 description 2
- 210000001808 exosome Anatomy 0.000 description 2
- 229910052731 fluorine Inorganic materials 0.000 description 2
- 229960003692 gamma aminobutyric acid Drugs 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000002744 homologous recombination Methods 0.000 description 2
- 230000006801 homologous recombination Effects 0.000 description 2
- 210000005260 human cell Anatomy 0.000 description 2
- 238000001727 in vivo Methods 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 229930182817 methionine Natural products 0.000 description 2
- 229910052757 nitrogen Inorganic materials 0.000 description 2
- 235000014571 nuts Nutrition 0.000 description 2
- 210000003463 organelle Anatomy 0.000 description 2
- 235000020232 peanut Nutrition 0.000 description 2
- 229910052698 phosphorus Inorganic materials 0.000 description 2
- 229920000642 polymer Polymers 0.000 description 2
- 230000029279 positive regulation of transcription, DNA-dependent Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004952 protein activity Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000001177 retroviral effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009870 specific binding Effects 0.000 description 2
- 235000020354 squash Nutrition 0.000 description 2
- 210000000130 stem cell Anatomy 0.000 description 2
- 125000001424 substituent group Chemical group 0.000 description 2
- 229910052717 sulfur Inorganic materials 0.000 description 2
- 230000005030 transcription termination Effects 0.000 description 2
- 230000037426 transcriptional repression Effects 0.000 description 2
- 229910052721 tungsten Inorganic materials 0.000 description 2
- 101150059931 tus gene Proteins 0.000 description 2
- 239000003981 vehicle Substances 0.000 description 2
- 229910052727 yttrium Inorganic materials 0.000 description 2
- DSSYKIVIOFKYAU-XCBNKYQSSA-N (R)-camphor Chemical compound C1C[C@@]2(C)C(=O)C[C@@H]1C2(C)C DSSYKIVIOFKYAU-XCBNKYQSSA-N 0.000 description 1
- UHDGCWIWMRVCDJ-UHFFFAOYSA-N 1-beta-D-Xylofuranosyl-NH-Cytosine Natural products O=C1N=C(N)C=CN1C1C(O)C(O)C(CO)O1 UHDGCWIWMRVCDJ-UHFFFAOYSA-N 0.000 description 1
- MXHRCPNRJAMMIM-SHYZEUOFSA-N 2'-deoxyuridine Chemical compound C1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C=C1 MXHRCPNRJAMMIM-SHYZEUOFSA-N 0.000 description 1
- CKTSBUTUHBMZGZ-SHYZEUOFSA-N 2'‐deoxycytidine Chemical compound O=C1N=C(N)C=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 CKTSBUTUHBMZGZ-SHYZEUOFSA-N 0.000 description 1
- FWBHETKCLVMNFS-UHFFFAOYSA-N 4',6-Diamino-2-phenylindol Chemical compound C1=CC(C(=N)N)=CC=C1C1=CC2=CC=C(C(N)=N)C=C2N1 FWBHETKCLVMNFS-UHFFFAOYSA-N 0.000 description 1
- 108010079649 APOBEC-1 Deaminase Proteins 0.000 description 1
- 240000004507 Abelmoschus esculentus Species 0.000 description 1
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 235000009434 Actinidia chinensis Nutrition 0.000 description 1
- 235000009436 Actinidia deliciosa Nutrition 0.000 description 1
- 241000251468 Actinopterygii Species 0.000 description 1
- 108010052875 Adenine deaminase Proteins 0.000 description 1
- 108700040115 Adenosine deaminases Proteins 0.000 description 1
- WQVFQXXBNHHPLX-ZKWXMUAHSA-N Ala-Ala-His Chemical compound C[C@H](N)C(=O)N[C@@H](C)C(=O)N[C@@H](Cc1cnc[nH]1)C(O)=O WQVFQXXBNHHPLX-ZKWXMUAHSA-N 0.000 description 1
- YYSWCHMLFJLLBJ-ZLUOBGJFSA-N Ala-Ala-Ser Chemical compound C[C@H](N)C(=O)N[C@@H](C)C(=O)N[C@@H](CO)C(O)=O YYSWCHMLFJLLBJ-ZLUOBGJFSA-N 0.000 description 1
- RDIKFPRVLJLMER-BQBZGAKWSA-N Ala-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H](C)N RDIKFPRVLJLMER-BQBZGAKWSA-N 0.000 description 1
- 101000935845 Aliivibrio fischeri Blue fluorescence protein Proteins 0.000 description 1
- 235000005254 Allium ampeloprasum Nutrition 0.000 description 1
- 240000006108 Allium ampeloprasum Species 0.000 description 1
- 235000010167 Allium cepa var aggregatum Nutrition 0.000 description 1
- 240000002234 Allium sativum Species 0.000 description 1
- 244000144725 Amygdalus communis Species 0.000 description 1
- 235000007119 Ananas comosus Nutrition 0.000 description 1
- 244000099147 Ananas comosus Species 0.000 description 1
- 240000007087 Apium graveolens Species 0.000 description 1
- 235000015849 Apium graveolens Dulce Group Nutrition 0.000 description 1
- 235000010591 Appio Nutrition 0.000 description 1
- 241000219194 Arabidopsis Species 0.000 description 1
- 235000017060 Arachis glabrata Nutrition 0.000 description 1
- 235000010777 Arachis hypogaea Nutrition 0.000 description 1
- 235000018262 Arachis monticola Nutrition 0.000 description 1
- PTVGLOCPAVYPFG-CIUDSAMLSA-N Arg-Gln-Asp Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(O)=O)C(O)=O PTVGLOCPAVYPFG-CIUDSAMLSA-N 0.000 description 1
- 239000004475 Arginine Substances 0.000 description 1
- 235000011330 Armoracia rusticana Nutrition 0.000 description 1
- 240000003291 Armoracia rusticana Species 0.000 description 1
- PTNFNTOBUDWHNZ-GUBZILKMSA-N Asn-Arg-Met Chemical compound [H]N[C@@H](CC(N)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCSC)C(O)=O PTNFNTOBUDWHNZ-GUBZILKMSA-N 0.000 description 1
- LJUOLNXOWSWGKF-ACZMJKKPSA-N Asn-Asn-Glu Chemical compound C(CC(=O)O)[C@@H](C(=O)O)NC(=O)[C@H](CC(=O)N)NC(=O)[C@H](CC(=O)N)N LJUOLNXOWSWGKF-ACZMJKKPSA-N 0.000 description 1
- KHCNTVRVAYCPQE-CIUDSAMLSA-N Asn-Lys-Asn Chemical compound [H]N[C@@H](CC(N)=O)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC(N)=O)C(O)=O KHCNTVRVAYCPQE-CIUDSAMLSA-N 0.000 description 1
- FANQWNCPNFEPGZ-WHFBIAKZSA-N Asp-Asp-Gly Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H](CC(O)=O)C(=O)NCC(O)=O FANQWNCPNFEPGZ-WHFBIAKZSA-N 0.000 description 1
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 description 1
- 244000003416 Asparagus officinalis Species 0.000 description 1
- 235000005340 Asparagus officinalis Nutrition 0.000 description 1
- 235000007558 Avena sp Nutrition 0.000 description 1
- 235000000832 Ayote Nutrition 0.000 description 1
- 235000000318 Bindesalat Nutrition 0.000 description 1
- 244000106835 Bindesalat Species 0.000 description 1
- 235000011332 Brassica juncea Nutrition 0.000 description 1
- 235000017647 Brassica oleracea var italica Nutrition 0.000 description 1
- 235000000536 Brassica rapa subsp pekinensis Nutrition 0.000 description 1
- 235000004936 Bromus mango Nutrition 0.000 description 1
- 102100040397 C->U-editing enzyme APOBEC-1 Human genes 0.000 description 1
- 102100040399 C->U-editing enzyme APOBEC-2 Human genes 0.000 description 1
- 125000001433 C-terminal amino-acid group Chemical group 0.000 description 1
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 1
- 108010040467 CRISPR-Associated Proteins Proteins 0.000 description 1
- 241000219357 Cactaceae Species 0.000 description 1
- 241000282465 Canis Species 0.000 description 1
- 235000002566 Capsicum Nutrition 0.000 description 1
- 235000009467 Carica papaya Nutrition 0.000 description 1
- 241000219172 Caricaceae Species 0.000 description 1
- 235000003255 Carthamus tinctorius Nutrition 0.000 description 1
- 244000020518 Carthamus tinctorius Species 0.000 description 1
- 235000009025 Carya illinoensis Nutrition 0.000 description 1
- 244000068645 Carya illinoensis Species 0.000 description 1
- 108700004991 Cas12a Proteins 0.000 description 1
- 235000014036 Castanea Nutrition 0.000 description 1
- 241001070941 Castanea Species 0.000 description 1
- 241000010804 Caulobacter vibrioides Species 0.000 description 1
- 235000003301 Ceiba pentandra Nutrition 0.000 description 1
- 244000146553 Ceiba pentandra Species 0.000 description 1
- 235000021538 Chard Nutrition 0.000 description 1
- 244000045195 Cicer arietinum Species 0.000 description 1
- 235000010523 Cicer arietinum Nutrition 0.000 description 1
- 241000723346 Cinnamomum camphora Species 0.000 description 1
- 244000223760 Cinnamomum zeylanicum Species 0.000 description 1
- 244000241235 Citrullus lanatus Species 0.000 description 1
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 1
- 235000013162 Cocos nucifera Nutrition 0.000 description 1
- 244000060011 Cocos nucifera Species 0.000 description 1
- 235000006481 Colocasia esculenta Nutrition 0.000 description 1
- 244000205754 Colocasia esculenta Species 0.000 description 1
- 241000218631 Coniferophyta Species 0.000 description 1
- 240000000491 Corchorus aestuans Species 0.000 description 1
- 235000011777 Corchorus aestuans Nutrition 0.000 description 1
- 235000010862 Corchorus capsularis Nutrition 0.000 description 1
- 241000723382 Corylus Species 0.000 description 1
- 235000007466 Corylus avellana Nutrition 0.000 description 1
- 241000238424 Crustacea Species 0.000 description 1
- 235000009847 Cucumis melo var cantalupensis Nutrition 0.000 description 1
- 235000015001 Cucumis melo var inodorus Nutrition 0.000 description 1
- 240000002495 Cucumis melo var. inodorus Species 0.000 description 1
- 240000008067 Cucumis sativus Species 0.000 description 1
- 235000010799 Cucumis sativus var sativus Nutrition 0.000 description 1
- 235000009804 Cucurbita pepo subsp pepo Nutrition 0.000 description 1
- 241000219130 Cucurbita pepo subsp. pepo Species 0.000 description 1
- 235000003954 Cucurbita pepo var melopepo Nutrition 0.000 description 1
- XDTMQSROBMDMFD-UHFFFAOYSA-N Cyclohexane Chemical compound C1CCCCC1 XDTMQSROBMDMFD-UHFFFAOYSA-N 0.000 description 1
- 235000017788 Cydonia oblonga Nutrition 0.000 description 1
- 235000019106 Cynara scolymus Nutrition 0.000 description 1
- UHDGCWIWMRVCDJ-PSQAKQOGSA-N Cytidine Natural products O=C1N=C(N)C=CN1[C@@H]1[C@@H](O)[C@@H](O)[C@H](CO)O1 UHDGCWIWMRVCDJ-PSQAKQOGSA-N 0.000 description 1
- 102000005381 Cytidine Deaminase Human genes 0.000 description 1
- QNAYBMKLOCPYGJ-UHFFFAOYSA-N D-alpha-Ala Natural products CC([NH3+])C([O-])=O QNAYBMKLOCPYGJ-UHFFFAOYSA-N 0.000 description 1
- 102000011724 DNA Repair Enzymes Human genes 0.000 description 1
- 102100040263 DNA dC->dU-editing enzyme APOBEC-3A Human genes 0.000 description 1
- 102100040262 DNA dC->dU-editing enzyme APOBEC-3B Human genes 0.000 description 1
- 102100040261 DNA dC->dU-editing enzyme APOBEC-3C Human genes 0.000 description 1
- 102100040266 DNA dC->dU-editing enzyme APOBEC-3F Human genes 0.000 description 1
- 102100038050 DNA dC->dU-editing enzyme APOBEC-3H Human genes 0.000 description 1
- 101710082737 DNA dC->dU-editing enzyme APOBEC-3H Proteins 0.000 description 1
- 230000004568 DNA-binding Effects 0.000 description 1
- 244000000626 Daucus carota Species 0.000 description 1
- 235000002767 Daucus carota Nutrition 0.000 description 1
- 241000238557 Decapoda Species 0.000 description 1
- CKTSBUTUHBMZGZ-UHFFFAOYSA-N Deoxycytidine Natural products O=C1N=C(N)C=CN1C1OC(CO)C(O)C1 CKTSBUTUHBMZGZ-UHFFFAOYSA-N 0.000 description 1
- 108010008532 Deoxyribonuclease I Proteins 0.000 description 1
- 102000007260 Deoxyribonuclease I Human genes 0.000 description 1
- 235000011511 Diospyros Nutrition 0.000 description 1
- 241000723267 Diospyros Species 0.000 description 1
- 241000283073 Equus caballus Species 0.000 description 1
- 101000935842 Escherichia coli O127:H6 (strain E2348/69 / EPEC) Major structural subunit of bundle-forming pilus Proteins 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 241000282324 Felis Species 0.000 description 1
- 240000009088 Fragaria x ananassa Species 0.000 description 1
- 102100039556 Galectin-4 Human genes 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 108700007698 Genetic Terminator Regions Proteins 0.000 description 1
- NUSWUSKZRCGFEX-FXQIFTODSA-N Glu-Glu-Cys Chemical compound OC(=O)CC[C@H](N)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CS)C(O)=O NUSWUSKZRCGFEX-FXQIFTODSA-N 0.000 description 1
- 241000282575 Gorilla Species 0.000 description 1
- 241000606768 Haemophilus influenzae Species 0.000 description 1
- 244000020551 Helianthus annuus Species 0.000 description 1
- 235000003222 Helianthus annuus Nutrition 0.000 description 1
- 102100021519 Hemoglobin subunit beta Human genes 0.000 description 1
- 108091005904 Hemoglobin subunit beta Proteins 0.000 description 1
- 101001023784 Heteractis crispa GFP-like non-fluorescent chromoprotein Proteins 0.000 description 1
- 102000017013 Heterogeneous Nuclear Ribonucleoprotein A1 Human genes 0.000 description 1
- 108010014594 Heterogeneous Nuclear Ribonucleoprotein A1 Proteins 0.000 description 1
- 244000043261 Hevea brasiliensis Species 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000964322 Homo sapiens C->U-editing enzyme APOBEC-2 Proteins 0.000 description 1
- 101000964378 Homo sapiens DNA dC->dU-editing enzyme APOBEC-3A Proteins 0.000 description 1
- 101000964385 Homo sapiens DNA dC->dU-editing enzyme APOBEC-3B Proteins 0.000 description 1
- 101000964383 Homo sapiens DNA dC->dU-editing enzyme APOBEC-3C Proteins 0.000 description 1
- 101000964377 Homo sapiens DNA dC->dU-editing enzyme APOBEC-3F Proteins 0.000 description 1
- 101000608765 Homo sapiens Galectin-4 Proteins 0.000 description 1
- 101000615488 Homo sapiens Methyl-CpG-binding domain protein 2 Proteins 0.000 description 1
- 101000741544 Homo sapiens Properdin Proteins 0.000 description 1
- 101000800426 Homo sapiens Putative C->U-editing enzyme APOBEC-4 Proteins 0.000 description 1
- 101001079872 Homo sapiens RING finger protein 112 Proteins 0.000 description 1
- 240000005979 Hordeum vulgare Species 0.000 description 1
- 235000007340 Hordeum vulgare Nutrition 0.000 description 1
- 206010020460 Human T-cell lymphotropic virus type I infection Diseases 0.000 description 1
- 241000714260 Human T-lymphotropic virus 1 Species 0.000 description 1
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 244000025221 Humulus lupulus Species 0.000 description 1
- IOVUXUSIGXCREV-DKIMLUQUSA-N Ile-Leu-Phe Chemical compound CC[C@H](C)[C@H](N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@H](C(O)=O)CC1=CC=CC=C1 IOVUXUSIGXCREV-DKIMLUQUSA-N 0.000 description 1
- 235000010702 Insulata Nutrition 0.000 description 1
- 244000165077 Insulata Species 0.000 description 1
- 244000017020 Ipomoea batatas Species 0.000 description 1
- 235000002678 Ipomoea batatas Nutrition 0.000 description 1
- 241000758791 Juglandaceae Species 0.000 description 1
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 1
- 235000015802 Lactuca sativa var crispa Nutrition 0.000 description 1
- 240000004201 Lactuca sativa var. crispa Species 0.000 description 1
- 241000283953 Lagomorpha Species 0.000 description 1
- 241000218195 Lauraceae Species 0.000 description 1
- 240000004322 Lens culinaris Species 0.000 description 1
- 235000014647 Lens culinaris subsp culinaris Nutrition 0.000 description 1
- 241000713666 Lentivirus Species 0.000 description 1
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 1
- 235000004431 Linum usitatissimum Nutrition 0.000 description 1
- 240000006240 Linum usitatissimum Species 0.000 description 1
- 244000108452 Litchi chinensis Species 0.000 description 1
- 241000282553 Macaca Species 0.000 description 1
- 241000282567 Macaca fascicularis Species 0.000 description 1
- 241000218922 Magnoliophyta Species 0.000 description 1
- 244000070406 Malus silvestris Species 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 235000014826 Mangifera indica Nutrition 0.000 description 1
- 240000007228 Mangifera indica Species 0.000 description 1
- 240000004658 Medicago sativa Species 0.000 description 1
- 235000017587 Medicago sativa ssp. sativa Nutrition 0.000 description 1
- 102100021299 Methyl-CpG-binding domain protein 2 Human genes 0.000 description 1
- 241000878007 Miscanthus Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 240000005561 Musa balbisiana Species 0.000 description 1
- 125000001429 N-terminal alpha-amino-acid group Chemical group 0.000 description 1
- 125000000729 N-terminal amino-acid group Chemical group 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 235000015742 Nephelium litchi Nutrition 0.000 description 1
- 108091092724 Noncoding DNA Proteins 0.000 description 1
- 108091005461 Nucleic proteins Proteins 0.000 description 1
- 241000219925 Oenothera Species 0.000 description 1
- 235000004496 Oenothera biennis Nutrition 0.000 description 1
- 240000007817 Olea europaea Species 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- 241000282577 Pan troglodytes Species 0.000 description 1
- 235000008753 Papaver somniferum Nutrition 0.000 description 1
- 240000001090 Papaver somniferum Species 0.000 description 1
- 240000004370 Pastinaca sativa Species 0.000 description 1
- 235000017769 Pastinaca sativa subsp sativa Nutrition 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 241000009328 Perro Species 0.000 description 1
- 235000008673 Persea americana Nutrition 0.000 description 1
- 244000025272 Persea americana Species 0.000 description 1
- 244000062780 Petroselinum sativum Species 0.000 description 1
- WEMYTDDMDBLPMI-DKIMLUQUSA-N Phe-Ile-Lys Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CCCCN)C(=O)O)NC(=O)[C@H](CC1=CC=CC=C1)N WEMYTDDMDBLPMI-DKIMLUQUSA-N 0.000 description 1
- YTILBRIUASDGBL-BZSNNMDCSA-N Phe-Leu-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@@H](N)CC1=CC=CC=C1 YTILBRIUASDGBL-BZSNNMDCSA-N 0.000 description 1
- KIQUCMUULDXTAZ-HJOGWXRNSA-N Phe-Tyr-Tyr Chemical compound N[C@@H](Cc1ccccc1)C(=O)N[C@@H](Cc1ccc(O)cc1)C(=O)N[C@@H](Cc1ccc(O)cc1)C(O)=O KIQUCMUULDXTAZ-HJOGWXRNSA-N 0.000 description 1
- 241000758706 Piperaceae Species 0.000 description 1
- 240000006711 Pistacia vera Species 0.000 description 1
- 235000010582 Pisum sativum Nutrition 0.000 description 1
- 240000004713 Pisum sativum Species 0.000 description 1
- 239000004952 Polyamide Substances 0.000 description 1
- 239000004698 Polyethylene Substances 0.000 description 1
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 description 1
- 235000009827 Prunus armeniaca Nutrition 0.000 description 1
- 244000018633 Prunus armeniaca Species 0.000 description 1
- 244000141353 Prunus domestica Species 0.000 description 1
- 240000005809 Prunus persica Species 0.000 description 1
- 235000006029 Prunus persica var nucipersica Nutrition 0.000 description 1
- 235000006040 Prunus persica var persica Nutrition 0.000 description 1
- 244000017714 Prunus persica var. nucipersica Species 0.000 description 1
- 102100033091 Putative C->U-editing enzyme APOBEC-4 Human genes 0.000 description 1
- 241000220324 Pyrus Species 0.000 description 1
- 244000088415 Raphanus sativus Species 0.000 description 1
- 235000006140 Raphanus sativus var sativus Nutrition 0.000 description 1
- 235000001537 Ribes X gardonianum Nutrition 0.000 description 1
- 235000001535 Ribes X utile Nutrition 0.000 description 1
- 235000016919 Ribes petraeum Nutrition 0.000 description 1
- 244000281247 Ribes rubrum Species 0.000 description 1
- 235000002355 Ribes spicatum Nutrition 0.000 description 1
- 240000000528 Ricinus communis Species 0.000 description 1
- 235000004443 Ricinus communis Nutrition 0.000 description 1
- 240000007651 Rubus glaucus Species 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 240000000111 Saccharum officinarum Species 0.000 description 1
- 235000007201 Saccharum officinarum Nutrition 0.000 description 1
- 241000293871 Salmonella enterica subsp. enterica serovar Typhi Species 0.000 description 1
- 241000209056 Secale Species 0.000 description 1
- 235000007238 Secale cereale Nutrition 0.000 description 1
- QMCDMHWAKMUGJE-IHRRRGAJSA-N Ser-Phe-Val Chemical compound [H]N[C@@H](CO)C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H](C(C)C)C(O)=O QMCDMHWAKMUGJE-IHRRRGAJSA-N 0.000 description 1
- FZXOPYUEQGDGMS-ACZMJKKPSA-N Ser-Ser-Gln Chemical compound [H]N[C@@H](CO)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCC(N)=O)C(O)=O FZXOPYUEQGDGMS-ACZMJKKPSA-N 0.000 description 1
- DKGRNFUXVTYRAS-UBHSHLNASA-N Ser-Ser-Trp Chemical compound [H]N[C@@H](CO)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC1=CNC2=C1C=CC=C2)C(O)=O DKGRNFUXVTYRAS-UBHSHLNASA-N 0.000 description 1
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 1
- 241000863432 Shewanella putrefaciens Species 0.000 description 1
- 244000044822 Simmondsia californica Species 0.000 description 1
- 235000004433 Simmondsia californica Nutrition 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 241000207763 Solanum Species 0.000 description 1
- 235000002634 Solanum Nutrition 0.000 description 1
- 235000002595 Solanum tuberosum Nutrition 0.000 description 1
- 244000061456 Solanum tuberosum Species 0.000 description 1
- 235000009337 Spinacia oleracea Nutrition 0.000 description 1
- 244000300264 Spinacia oleracea Species 0.000 description 1
- 235000009184 Spondias indica Nutrition 0.000 description 1
- 241000191967 Staphylococcus aureus Species 0.000 description 1
- 101710172711 Structural protein Proteins 0.000 description 1
- 241000271567 Struthioniformes Species 0.000 description 1
- 235000021536 Sugar beet Nutrition 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- COYHRQWNJDJCNA-NUJDXYNKSA-N Thr-Thr-Thr Chemical compound C[C@@H](O)[C@H](N)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H]([C@@H](C)O)C(O)=O COYHRQWNJDJCNA-NUJDXYNKSA-N 0.000 description 1
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 1
- 239000004473 Threonine Substances 0.000 description 1
- 244000294925 Tragopogon dubius Species 0.000 description 1
- 235000004478 Tragopogon dubius Nutrition 0.000 description 1
- 235000012363 Tragopogon porrifolius Nutrition 0.000 description 1
- 241000219793 Trifolium Species 0.000 description 1
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 1
- ARJASMXQBRNAGI-YESZJQIVSA-N Tyr-Leu-Pro Chemical compound CC(C)C[C@@H](C(=O)N1CCC[C@@H]1C(=O)O)NC(=O)[C@H](CC2=CC=C(C=C2)O)N ARJASMXQBRNAGI-YESZJQIVSA-N 0.000 description 1
- 102000006943 Uracil-DNA Glycosidase Human genes 0.000 description 1
- 108010072685 Uracil-DNA Glycosidase Proteins 0.000 description 1
- 235000003095 Vaccinium corymbosum Nutrition 0.000 description 1
- 240000001717 Vaccinium macrocarpon Species 0.000 description 1
- 235000017537 Vaccinium myrtillus Nutrition 0.000 description 1
- 241000219094 Vitaceae Species 0.000 description 1
- 235000009754 Vitis X bourquina Nutrition 0.000 description 1
- 235000012333 Vitis X labruscana Nutrition 0.000 description 1
- 240000006365 Vitis vinifera Species 0.000 description 1
- 235000014787 Vitis vinifera Nutrition 0.000 description 1
- 108091093126 WHP Posttrascriptional Response Element Proteins 0.000 description 1
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 229960005305 adenosine Drugs 0.000 description 1
- 125000001931 aliphatic group Chemical group 0.000 description 1
- 235000020224 almond Nutrition 0.000 description 1
- 150000001408 amides Chemical class 0.000 description 1
- 150000003862 amino acid derivatives Chemical class 0.000 description 1
- 229960002684 aminocaproic acid Drugs 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 235000009582 asparagine Nutrition 0.000 description 1
- 229960001230 asparagine Drugs 0.000 description 1
- 235000003704 aspartic acid Nutrition 0.000 description 1
- 235000021015 bananas Nutrition 0.000 description 1
- 230000033590 base-excision repair Effects 0.000 description 1
- DRTQHJPVMGBUCF-PSQAKQOGSA-N beta-L-uridine Natural products O[C@H]1[C@@H](O)[C@H](CO)O[C@@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-PSQAKQOGSA-N 0.000 description 1
- 229940000635 beta-alanine Drugs 0.000 description 1
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 1
- 235000021029 blackberry Nutrition 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 235000021014 blueberries Nutrition 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 239000001506 calcium phosphate Substances 0.000 description 1
- 229910000389 calcium phosphate Inorganic materials 0.000 description 1
- 235000011010 calcium phosphates Nutrition 0.000 description 1
- 229960000846 camphor Drugs 0.000 description 1
- 229930008380 camphor Natural products 0.000 description 1
- 125000002837 carbocyclic group Chemical group 0.000 description 1
- 239000011203 carbon fibre reinforced carbon Substances 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 125000002091 cationic group Chemical group 0.000 description 1
- 230000022131 cell cycle Effects 0.000 description 1
- 108091092356 cellular DNA Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007385 chemical modification Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 210000003763 chloroplast Anatomy 0.000 description 1
- 235000017803 cinnamon Nutrition 0.000 description 1
- 239000013599 cloning vector Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 235000021019 cranberries Nutrition 0.000 description 1
- 244000038559 crop plants Species 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- UHDGCWIWMRVCDJ-ZAKLUEHWSA-N cytidine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@@H](O)[C@H](CO)O1 UHDGCWIWMRVCDJ-ZAKLUEHWSA-N 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- MXHRCPNRJAMMIM-UHFFFAOYSA-N desoxyuridine Natural products C1C(O)C(CO)OC1N1C(=O)NC(=O)C=C1 MXHRCPNRJAMMIM-UHFFFAOYSA-N 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002050 diffraction method Methods 0.000 description 1
- 230000005782 double-strand break Effects 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 238000002003 electron diffraction Methods 0.000 description 1
- 239000012039 electrophile Substances 0.000 description 1
- 238000004520 electroporation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 244000037666 field crops Species 0.000 description 1
- 238000000684 flow cytometry Methods 0.000 description 1
- MHMNJMPURVTYEJ-UHFFFAOYSA-N fluorescein-5-isothiocyanate Chemical compound O1C(=O)C2=CC(N=C=S)=CC=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 MHMNJMPURVTYEJ-UHFFFAOYSA-N 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 108010021843 fluorescent protein 583 Proteins 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002538 fungal effect Effects 0.000 description 1
- 235000004611 garlic Nutrition 0.000 description 1
- 238000012239 gene modification Methods 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 235000013922 glutamic acid Nutrition 0.000 description 1
- 239000004220 glutamic acid Substances 0.000 description 1
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 1
- 125000003827 glycol group Chemical group 0.000 description 1
- 235000021021 grapes Nutrition 0.000 description 1
- 235000021384 green leafy vegetables Nutrition 0.000 description 1
- 229940047650 haemophilus influenzae Drugs 0.000 description 1
- DMEGYFMYUHOHGS-UHFFFAOYSA-N heptamethylene Natural products C1CCCCCC1 DMEGYFMYUHOHGS-UHFFFAOYSA-N 0.000 description 1
- 125000001072 heteroaryl group Chemical group 0.000 description 1
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000000411 inducer Substances 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 1
- 229960000310 isoleucine Drugs 0.000 description 1
- 235000021374 legumes Nutrition 0.000 description 1
- 150000002632 lipids Chemical group 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 210000004698 lymphocyte Anatomy 0.000 description 1
- 235000009973 maize Nutrition 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 239000002923 metal particle Substances 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 238000000520 microinjection Methods 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 239000002105 nanoparticle Substances 0.000 description 1
- 239000013642 negative control Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000006780 non-homologous end joining Effects 0.000 description 1
- 230000025308 nuclear transport Effects 0.000 description 1
- 239000012038 nucleophile Substances 0.000 description 1
- 230000009437 off-target effect Effects 0.000 description 1
- 244000080466 oignon Species 0.000 description 1
- 239000003921 oil Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 210000000496 pancreas Anatomy 0.000 description 1
- 235000021017 pears Nutrition 0.000 description 1
- 235000011197 perejil Nutrition 0.000 description 1
- 125000001997 phenyl group Chemical group [H]C1=C([H])C([H])=C(*)C([H])=C1[H] 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 238000005222 photoaffinity labeling Methods 0.000 description 1
- 230000029553 photosynthesis Effects 0.000 description 1
- 238000010672 photosynthesis Methods 0.000 description 1
- 230000004962 physiological condition Effects 0.000 description 1
- 235000020233 pistachio Nutrition 0.000 description 1
- 235000021018 plums Nutrition 0.000 description 1
- 229920002647 polyamide Polymers 0.000 description 1
- 229920000728 polyester Polymers 0.000 description 1
- -1 polyethylene Polymers 0.000 description 1
- 229920000573 polyethylene Polymers 0.000 description 1
- 239000013641 positive control Substances 0.000 description 1
- 235000012015 potatoes Nutrition 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 108020001580 protein domains Proteins 0.000 description 1
- 238000002818 protein evolution Methods 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 235000015136 pumpkin Nutrition 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 235000021013 raspberries Nutrition 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 239000013605 shuttle vector Substances 0.000 description 1
- 230000005783 single-strand break Effects 0.000 description 1
- 238000002741 site-directed mutagenesis Methods 0.000 description 1
- 210000003491 skin Anatomy 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 235000013599 spices Nutrition 0.000 description 1
- 235000021012 strawberries Nutrition 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 150000003573 thiols Chemical class 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- QORWJWZARLRLPR-UHFFFAOYSA-H tricalcium bis(phosphate) Chemical compound [Ca+2].[Ca+2].[Ca+2].[O-]P([O-])([O-])=O.[O-]P([O-])([O-])=O QORWJWZARLRLPR-UHFFFAOYSA-H 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- DRTQHJPVMGBUCF-UHFFFAOYSA-N uracil arabinoside Natural products OC1C(O)C(CO)OC1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-UHFFFAOYSA-N 0.000 description 1
- 229940045145 uridine Drugs 0.000 description 1
- NQPDZGIKBAWPEJ-UHFFFAOYSA-N valeric acid Chemical compound CCCCC(O)=O NQPDZGIKBAWPEJ-UHFFFAOYSA-N 0.000 description 1
- 239000004474 valine Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 210000002845 virion Anatomy 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- 235000020234 walnut Nutrition 0.000 description 1
- 108091005957 yellow fluorescent proteins Proteins 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/16—Hydrolases (3) acting on ester bonds (3.1)
- C12N9/22—Ribonucleases [RNase]; Deoxyribonucleases [DNase]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/113—Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K2319/00—Fusion polypeptide
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Genetics & Genomics (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Biomedical Technology (AREA)
- Wood Science & Technology (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Zoology (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Plant Pathology (AREA)
- Medicinal Chemistry (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明属于核酸编辑领域,特别是规律成簇的间隔短回文重复(CRISPR)技术领域。具体而言,本发明提供了一种活性改善、编辑效率提高的Cas突变蛋白,相对于野生型亲本Cas蛋白,本发明的Cas突变蛋白缩短了蛋白大小,提高了编辑效率,能够高效的用于靶核酸的单碱基编辑,具有广泛的应用前景。
Description
本申请要求申请日为2023年9月14日的中国专利申请CN202311188877.3的优先权。本申请引用上述中国专利申请的全文。
技术领域
本发明涉及基因编辑领域,特别是规律成簇的间隔短回文重复(CRISPR)技术领域。具体而言,本发明涉及一种活性改善、编辑效率提高的突变的Cas蛋白及其应用。
背景技术
CRISPR/Cas技术是一种被广泛使用的基因编辑技术,它通过RNA引导对基因组上的靶序列进行特异性结合并切割DNA产生双链断裂,利用生物非同源末端连接或同源重组进行定点基因编辑。
CRISPR/Cas9系统是最常用的II型CRISPR系统,它识别3’-NGG的PAM基序,对靶标序列进行平末端切割。CRISPR/Cas Type V系统是一类新发现的CRISPR系统,它具有5’-TTN的基序,对靶标序列进行粘性末端切割,例如Cpf1,C2c1,CasX,CasY。然而目前存在的不同的CRISPR/Cas各有不同的优点和缺陷。例如Cas9,C2c1和CasX均需要两条RNA进行指导RNA,而Cpf1只需要一条指导RNA而且可以用来进行多重基因编辑。CasX具有980个氨基酸的大小,而常见的Cas9,C2c1,CasY和Cpf1通常大小在1300个氨基酸左右。此外,Cas9,Cpf1,CasX,CasY的PAM序列都比较复杂多样,而C2c1识别严谨的5’-TTN,因此它的靶标位点比其他系统容易被预测从而降低了潜在的脱靶效应。
中国发明专利CN111757889B中公开了一种Cas蛋白Cas12f.4,还公开了该蛋白可以在真核细胞中进行基因编辑,为了提高该蛋白的编辑效率和递送效率,本申请对该蛋白进行了优化,改变蛋白大小,提高了其在真核细胞中的编辑效率和递送效率。
发明内容
本申请的发明人经过大量实验和反复摸索,通过对Cas12f.4(本申请中将其称之为,Cas12i3或Cas12i.3)蛋白的改造,提高了其编辑活性,扩展了其应用范围。
Cas效应蛋白
一方面,本发明提供了一种活性改善或活性提高的Cas突变蛋白,所述突变蛋白与亲本Cas蛋白的氨基酸序列相比,具有氨基酸的缺失。
在一个实施方式中,所述突变蛋白与亲本Cas蛋白的氨基酸序列相比,缺失了对应于SEQ ID No.1或SEQ ID No.13所示氨基酸序列的第891位-第1045位氨基酸区域。
在一个实施方式中,所述突变蛋白与亲本Cas蛋白的氨基酸序列相比,缺失了对应于SEQ ID No.1或SEQ ID No.13所示氨基酸序列的第1034位-第1045位氨基酸区域。
在一个实施方式中,所述突变蛋白与亲本Cas蛋白的氨基酸序列相比,缺失了对应于SEQ ID No.1或SEQ ID No.13所示氨基酸序列的第911位-1045位氨基酸区域。
在一个实施方式中,所述突变蛋白与亲本Cas蛋白的氨基酸相比,缺失了对应于SEQ ID No.1或SEQ ID No.13所示氨基酸序列的第1014-1045位氨基酸区域。
在一个实施方式中,所述突变蛋白与亲本Cas蛋白的氨基酸相比,缺失了对应于SEQ ID No.1或SEQ ID No.13所示氨基酸序列的第833-1045位氨基酸区域。
在一个实施方式中,所述突变蛋白与亲本Cas蛋白的氨基酸序列相比,在对应于SEQ ID No.1所示氨基酸序列的以下氨基酸位点存在突变:第844位。
在一个实施方式中,所述第844位氨基酸突变为非E的氨基酸,例如,A,V,G,L,Q,F,W,Y,N,S,D,K,M,T,C,P,H,R,I;优选,所述第844位氨基酸突变为A。
在一个实施方式中,所述突变蛋白与亲本Cas蛋白的氨基酸序列相比,在对应于SEQ ID No.1所示氨基酸序列的以下氨基酸位点存在突变:第619位。
在一个实施方式中,所述第619位氨基酸突变为非D的氨基酸,例如,A,V,G,L,Q,F,W,Y,N,S,E,K,M,T,C,P,H,R,I;优选,所述第619位氨基酸突变为A。
在一个实施方式中,所述亲本Cas蛋白的氨基酸序列与SEQ ID No.1或SEQ IDNo.13相比具有至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、或至少99.9%的序列同一性。
在一个实施方式中,所述亲本Cas蛋白的氨基酸序列与SEQ ID No.1或SEQ IDNo.13相比,具有一个或多个氨基酸的置换、缺失或添加;所述一个或多个氨基酸包括1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加。
上述氨基酸位点是指SEQ ID No.1的N端起的位点。
在一个实施方式中,所述亲本Cas蛋白的氨基酸序列如SEQ ID No.1或SEQ IDNo.13所示。
在一个实施方式中,所述亲本Cas蛋白为Cas12家族的Cas蛋白,例如,Cas12a、Cas12i;优选,Cas12i家族的Cas蛋白,例如,Cas12i1、Cas12i2、Cas12i3等。
在一个实施方式中,通过对Cas12i3进行氨基酸定点突变得到的突变的Cas12i3可以作为本发明的亲本Cas蛋白,例如,申请号为2022103148077、2022102697541、2022106036073、2022109432359、2023100884374、2023100667809、2023104503761的中国专利申请中记载的通过氨基酸突变得到的Cas12i3。
在一些实施方案中,所述亲本Cas蛋白为天然野生型Cas蛋白;在其他的实施方式中,所述亲本Cas蛋白为经过工程化改造后的Cas蛋白。
在一个实施方式中,所述Cas蛋白为Cas12i。
在一个实施方式中,所述Cas蛋白可以天然存在的,也可以是非天然存在经过工程化改造的。
来自多种生物体的Cas蛋白或Cas12i蛋白都可以用作亲本Cas蛋白,在一些实施方式中,所述亲本Cas蛋白或Cas12i蛋白具有核酸酶活性。在一些实施方案中,所述亲本Cas蛋白是核酸酶,即切割靶双螺旋核酸(例如,双螺旋DNA)的两条链。在一些实施方案中,所述亲本Cas蛋白是切口酶,即切割靶双螺旋核酸(例如,双螺旋DNA)的单链。
在一个实施方式中,所述Cas突变蛋白选自以下I-III任意一组:
I、由SEQ ID No.1或SEQ ID No.13所示氨基酸序列缺失了第891位-1045位氨基酸区域后产生突变得到的Cas突变蛋白;
II、与I所述的Cas突变蛋白相比,具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的Cas突变蛋白;
III、与I所述的Cas突变蛋白相比,具有一个或多个氨基酸的置换、缺失或添加的序列;所述一个或多个氨基酸包括1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加。
在一个实施方式中,所述Cas突变蛋白选自以下I-III任意一组:
I、由SEQ ID No.1或SEQ ID No.13所示氨基酸序列缺失了第1034位-1045位氨基酸区域后产生突变得到的Cas突变蛋白;
II、与I所述的Cas突变蛋白相比,具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的Cas突变蛋白;
III、与I所述的Cas突变蛋白相比,具有一个或多个氨基酸的置换、缺失或添加的序列;所述一个或多个氨基酸包括1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加。
在一个实施方式中,所述Cas突变蛋白选自以下I-III任意一组:
I、由SEQ ID No.1或SEQ ID No.13所示氨基酸序列缺失了911位-1045位氨基酸区域后产生突变得到的Cas突变蛋白;
II、与I所述的Cas突变蛋白相比,具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的Cas突变蛋白;
III、与I所述的Cas突变蛋白相比,具有一个或多个氨基酸的置换、缺失或添加的序列;所述一个或多个氨基酸包括1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加。
在一个实施方式中,所述Cas突变蛋白选自以下I-III任意一组:
I、由SEQ ID No.1或SEQ ID No.13所示氨基酸序列缺失了第1014位-1045位氨基酸区域后产生突变得到的Cas突变蛋白;
II、与I所述的Cas突变蛋白相比,具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的Cas突变蛋白;
III、与I所述的Cas突变蛋白相比,具有一个或多个氨基酸的置换、缺失或添加的序列;所述一个或多个氨基酸包括1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加。
在一个实施方式中,所述Cas突变蛋白选自以下I-III任意一组:
I、由SEQ ID No.1或SEQ ID No.13所示氨基酸序列缺失了第833位-1045位氨基酸区域后产生突变得到的Cas突变蛋白;
II、与I所述的Cas突变蛋白相比,具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的Cas突变蛋白;
III、与I所述的Cas突变蛋白相比,具有一个或多个氨基酸的置换、缺失或添加的序列;所述一个或多个氨基酸包括1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加。
所述Cas蛋白的生物学功能包括但不限于,与指导RNA结合的活性、核酸内切酶活性、在指导RNA引导下与靶序列特定位点结合并切割的活性,包括但不限于Cis切割活性和Trans切割活性。
本发明中,“Cas突变蛋白”也可以称之为突变的Cas蛋白,或者Cas蛋白变体。
本发明还提供了一种融合蛋白,所述融合蛋白包括如上所述的Cas突变蛋白和其他的修饰部分。
在一个实施方式中,所述修饰部分选自另外的蛋白或多肽、可检测的标记或其任意组合。
在一个实施方式中,所述修饰部分选自表位标签、报告基因序列、核定位信号(NLS)序列、靶向部分、转录激活结构域(例如,VP64)、转录抑制结构域(例如,KRAB结构域或SID结构域)、核酸酶结构域(例如,Fok1),以及具有选自下列的活性的结构域:核苷酸脱氨酶,腺苷脱氨酶,胞苷脱氨酶,甲基化酶活性,去甲基化酶,转录激活活性,转录抑制活性,转录释放因子活性,组蛋白修饰活性,核酸酶活性,单链RNA切割活性,双链RNA切割活性,单链DNA切割活性,双链DNA切割活性和核酸结合活性;以及其任意组合。所述NLS序列是本领域技术人员熟知的,其实例包括但不限于所述,SV40大T抗原,EGL-13,c-Myc以及TUS蛋白。
在一个实施方式中,所述NLS序列位于、靠近或接近本发明的Cas蛋白的末端(例如,N端、C端或两端)。
所述表位标签(epitope tag)是本领域技术人员熟知的,包括但不限于His、V5、FLAG、HA、Myc、VSV-G、Trx等,并且本领域技术人员可以选择其他合适的表位标签(例如,纯化、检测或示踪)。
所述报告基因序列是本领域技术人员熟知的,其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。
在一个实施方式中,本发明的融合蛋白包含能够与DNA分子或细胞内分子结合的结构域,例如麦芽糖结合蛋白(MBP)、Lex A的DNA结合结构域(DBD)、GAL4的DBD等。
在一个实施方式中,本发明的融合蛋白包含可检测的标记,例如荧光染料,例如FITC或DAPI。
在一个实施方式中,本发明的Cas蛋白任选地通过接头与所述修饰部分偶联、缀合或融合。
在一个实施方式中,所述修饰部分直接连接至本发明的Cas蛋白的N端或C端。
在一个实施方式中,所述修饰部分通过接头连接至本发明的Cas蛋白的N端或C端。这类接头是本领域熟知的,其实例包括但不限于包含一个或多个(例如,1个,2个,3个,4个或5个)氨基酸(如,Glu或Ser)或氨基酸衍生物(如,Ahx、β-Ala、GABA或Ava)的接头,或PEG等。
在一个实施方式中,所述Cas突变蛋白为核酸酶失活的Cas蛋白(dCas)。
在一个实施方式中,所述修饰部分为核苷酸脱氨酶,例如,腺苷脱氨酶,胞苷脱氨酶。
在一个实施方式中,所述修饰部分为腺苷脱氨酶。
本发明中,腺苷脱氨酶,又称之为腺嘌呤脱氨酶,其催化腺嘌呤或腺苷的水解脱氨基作用。本文提供的腺苷脱氨酶(例如,工程化的腺苷脱氨酶、演化的腺苷脱氨酶)可以来自任何生物体,例如细菌。
在一些实施方式中,腺苷脱氨酶是天然存在的腺苷脱氨酶,也可以是发生突变但仍具有腺苷脱氨酶活性的变体。
在一些实施方式中,腺苷脱氨酶来自原核生物。在一些实施方案中,腺苷脱氨酶来自细菌。在一些实施方案中,腺苷脱氨酶来自大肠杆菌(Escherichia coli)、金黄色葡萄球菌(Staphylococcus aureus)、鼠伤寒沙门氏菌(Salmonella typhi)、腐败希瓦氏菌(Shewanella putrefaciens)、流感嗜血杆菌(Haemophilus influenzae)、新月柄杆菌(Caulobacter crescentus)或枯草芽孢杆菌(Bacillus subtilis)。
在一些实施方式中,腺苷脱氨酶是TadA脱氨酶。在一些实施方案中,TadA脱氨酶是大肠杆菌TadA脱氨酶,也可以是TadA脱氨酶的变体,例如TadA7-10,例如,TadA8e。
在一些实施方式中,TadA脱氨酶是大肠杆菌TadA脱氨酶(ecTadA)。在一些实施例中,TadA脱氨酶是截短的E.coli TadA脱氨酶。例如,相对于全长的ecTadA,截短的ecTadA可以缺失一个或多个N-末端氨基酸。在一些实施方式中,相对于全长的ecTadA,截短的ecTadA可以缺失1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个N末端氨基酸残基。在一些实施方式中,相对于全长的ecTadA,截短的ecTadA可以缺失1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个C末端氨基酸残基。在一些实施方式中,ecTadA脱氨酶不包含N末端甲硫氨酸。
在一个实施方式中,所述腺苷脱氨酶的氨基酸序列与SEQ ID No.3相比,具有至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%、或至少99.9%的序列同一性。
在优选的实施方式中,本发明,所述腺苷脱氨酶的氨基酸序列如SEQ ID No.3所示。。
在一个实施方式中,所述修饰部分为胞苷脱氨酶。
本发明中,胞苷脱氨酶,又称之为胞嘧啶脱氨酶,催化胞苷或脱氧胞苷水解脱氨基化为尿苷或脱氧尿苷。在一些实施方案中,胞苷脱氨酶催化胞嘧啶水解脱氨基化为尿嘧啶。在一些实施方案中,胞苷脱氨酶是来自生物体,如人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠的天然存在的脱氨酶。在一些实施方案中,脱氨酶或脱氨酶域是来自生物体的天然存在的脱氨酶的变体,但仍保留了胞苷脱氨酶的活性。
在另一优选例中,所述胞嘧啶脱氨酶包括APOBEC。在一个实施方式中,所述APOBEC选自下组:APOBEC1(A1)、APOBEC2(A2)、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3E、APOBEC3F、APOBEC3H、APOBEC4(A4)、活化诱导脱氨酶(activation inducedcytidine deaminase,AID)、或其组合。
在另一优选例中,所述胞苷脱氨酶包括CBE2.0、CBE2.1、CBE2.2、CBE2.3、CBE2.4。
在一个实施方式中,所述胞苷脱氨酶的氨基酸序列与SEQ ID No.4相比,具有至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%、或至少99.9%的序列同一性。
STDAEYVRIHEKLDIYTFKKQFSNNKKSVSHRCYVLFELKRRGERRACFWGYAVNKPQSGTERGIHAEIFSIRKVEEYLRDNPGQFTINWYSSWSPCADCAEKILEWYNQELRGNGHTLKIWVCKLYYEKNARNQIGLWNLRDNGVGLNVMVSEHYQCCRKIFIQSSHNQLNENRWLEKTLKRAEKRRSELSIMFQVKILHTTKSPAV(SEQ IDNo.4)。
在优选的实施方式中,所述胞苷脱氨酶的氨基酸序列如SEQ ID No.4所示。
在一个实施方式中,所述融合蛋白中的Cas突变蛋白融合在核苷酸脱氨酶的N端,在其他的实施方式中,所述融合蛋白中的Cas突变蛋白融合在腺苷脱氨酶的C端。
在一个实施方式中,所述融合蛋白中的Cas突变蛋白和核苷酸脱氨酶通过接头连接。
本发明中,接头可以用于连接本发明的任何肽或蛋白结构域。在某些实施方案中,接头是多肽。在某些实施方案中,接头是共价键(例如,碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中,接头是酰胺连接的碳-氮键。在某些实施方案中,接头是环状或无环的、取代或未取代的、支链或无支链的脂族或杂脂族接头。在某些实施方案中,接头是聚合的(例如聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,接头包含氨基链烷酸的单体、二聚体或聚合物。在某些实施方案中,接头包含氨基链烷酸(例如甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在某些实施方案中,接头包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中,接头基于碳环部分(例如环戊烷,环己烷)。在其他实施方案中,接头包含聚乙二醇部分(PEG)。在其他实施方案中,接头包含氨基酸。在某些实施方案中,接头包含肽。在某些实施方案中,接头包含芳基或杂芳基部分。在某些实施方案中,接头基于苯环。接头可以包含官能化部分以促进来自肽的亲核体(例如硫醇,氨基)与接头的附接。任何亲电体可以用作接头的一部分。
在一个实施方式中,接头为XTEN接头,优选的,其氨基酸序列如SEQ ID No.5所示。
在一个实施方式中,本发明的融合蛋白还包含核定位序列(NLS)。在一些实施方案中,NLS与融合蛋白的N端融合。在一些实施方案中,NLS与融合蛋白的C端融合。在其他的实施方式中,融合蛋白的N端和C段均连接有NLS。
在一些实施方案中,NLS与Cas蛋白的N端融合。在一些实施方案中,NLS与Cas蛋白的C端融合。在一些实施方案中,NLS与脱氨酶的N端融合。在一些实施方案中,NLS与脱氨酶的C端融合。在一些实施方案中,NLS经由一个或多个接头与融合蛋白融合。在一些实施方案中,NLS与融合蛋白在没有接头的情况下融合。
核定位序列(NLS)是本领域已知的并且对于技术人员是显而易见的,在一些实施方案中,NLS的序列包含氨基酸序列为SEQ ID No.6或SEQ ID No.7所示。
在一个实施方式中,所述融合蛋白中的脱氨酶为胞苷脱氨酶;所述融合蛋白包括Cas蛋白和胞苷脱氨酶,进一步的,所述融合蛋白还包括尿嘧啶糖基化酶抑制剂(UGI)。
术语“尿嘧啶糖基化酶抑制剂”或“UGI”指能够抑制尿嘧啶-DNA糖基化酶碱基切割修复酶的蛋白质。
在一些实施方案中,UGI与Cas蛋白的N端或C端融合。在一个实施方式中,经由接头融合UGI和Cas蛋白;在其他的实施方式中,UGI和Cas蛋白不经接头融合。所述接头优选为XTEN接头。
在一些实施方案中,UGI与脱氨酶的N端或C端融合。在一个实施方式中,经由接头融合UGI和脱氨酶;在其他的实施方式中,UGI和脱氨酶不经接头融合。所述接头优选为XTEN接头。
在一个实施方式中,所述UGI可以为1个或多个UGI,例如,可以为2个、3个、4个或更多个UGI连接而成。
在一个实施方式中,所述UGI的氨基酸序列与SEQ ID No.8相比,具有至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%、或至少99.9%的序列同一性。
TNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKML(SEQ ID No.8)。
在优选的实施方式中,所述UGI的氨基酸序列如SEQ ID No.8所示。
本领域技术人员清楚,可以改变蛋白质的结构而不对其活性和功能性产生不利影响,例如,可以在蛋白质氨基酸序列中引入一个或多个保守性氨基酸取代,而不会对蛋白质分子的活性和/或三维结构产生不利影响。本领域技术人员清楚保守性氨基酸取代的实例以及实施方式。具体的说,可以用与待取代位点属于相同组的另一氨基酸残基取代该氨基酸残基,即用非极性氨基酸残基取代另一非极性氨基酸残基,用极性不带电荷的氨基酸残基取代另一极性不带电荷的氨基酸残基,用碱性氨基酸残基取代另一碱性氨基酸残基,和用酸性氨基酸残基取代另一酸性氨基酸残基。这样的取代的氨基酸残基可以是也可以不是由遗传密码编码的。只要取代不导致蛋白质生物活性的失活,则一种氨基酸被属于同组的其他氨基酸替换的保守取代落在本发明的范围内。因此,本发明的蛋白可以在氨基酸序列中包含一个或多个保守性取代,这些保守性取代最好根据表1进行替换而产生。另外,本发明也涵盖还包含一个或多个其他非保守取代的蛋白,只要该非保守取代不显著影响本发明的蛋白质的所需功能和生物活性即可。
保守氨基酸置换可以在一个或多个预测的非必需氨基酸残基处进行。“非必需”氨基酸残基是可以发生改变(缺失、取代或置换)而不改变生物活性的氨基酸残基,而“必需”氨基酸残基是生物活性所需的。“保守氨基酸置换”是其中氨基酸残基被具有类似侧链的氨基酸残基替代的置换。氨基酸置换可以在上述Cas突变蛋白的非保守区域中进行。一般而言,此类置换不对保守的氨基酸残基,或者不对位于保守基序内的氨基酸残基进行,其中此类残基是蛋白质活性所需的。然而,本领域技术人员应当理解,功能变体可以具有较少的在保守区域中的保守或非保守改变。
表1
最初的残基 | 代表性的取代 | 优选的取代 |
Ala(A) | Val;Leu;Ile | Val |
Arg(R) | Lys;Gln;Asn | Lys |
Asn(N) | Gln;His;Lys;Arg | Gln |
Asp(D) | Glu | Glu |
Cys(C) | Ser | Ser |
Gln(Q) | Asn | Asn |
Glu(E) | Asp | Asp |
Gly(G) | Pro;Ala | Ala |
His(H) | Asn;Gln;Lys;Arg | Arg |
Ile(I) | Leu;Val;Met;Ala;Phe | Leu |
Leu(L) | Ile;Val;Met;Ala;Phe | Ile |
Lys(K) | Arg;Gln;Asn | Arg |
Met(M) | Leu;Phe;Ile | Leu |
Phe(F) | Leu;Val;Ile;Ala;Tyr | Leu |
Pro(P) | Ala | Ala |
Ser(S) | Thr | Thr |
Thr(T) | Ser | Ser |
Trp(W) | Tyr;Phe | Tyr |
Tyr(Y) | Trp;Phe;Thr;Ser | Phe |
Val(V) | Ile;Leu;Met;Phe;Ala | Leu |
本领域熟知,可以从蛋白质的N和/或C末端改变(置换、删除、截短或插入)一或多个氨基酸残基而仍保留其功能活性。因此,从Cas蛋白的N和/或C末端改变了一或多个氨基酸残基、同时保留了其所需功能活性的蛋白,也在本发明的范围内。这些改变可以包括通过现代分子方法例如PCR而引入的改变,所述方法包括借助于在PCR扩增中使用的寡核苷酸之中包含氨基酸编码序列而改变或延长蛋白质编码序列的PCR扩增。
应认识到,蛋白质可以以各种方式进行改变,包括氨基酸置换、删除、截短和插入,用于此类操作的方法是本领域通常已知的。例如,可以通过对DNA的突变来制备上述蛋白的氨基酸序列变体。还可以通过其他诱变形式和/或通过定向进化来完成,例如,使用已知的诱变、重组和/或改组(shuffling)方法,结合相关的筛选方法,来进行单个或多个氨基酸取代、缺失和/或插入。
领域技术人员能够理解,本发明Cas蛋白中的这些微小氨基酸变化可以出现(例如天然存在的突变)或者产生(例如使用r-DNA技术)而不损失蛋白质功能或活性。如果这些突变出现在蛋白的催化结构域、活性位点或其它功能结构域中,则多肽的性质可改变,但多肽可保持其活性。如果存在的突变不接近催化结构域、活性位点或其它功能结构域中,则可预期较小影响。
本领域技术人员可以根据本领域已知的方法,例如定位诱变或蛋白进化或生物信息系的分析,来鉴定本发明Cas突变蛋白的必需氨基酸。蛋白的催化结构域、活性位点或其它功能结构域也能够通过结构的物理分析而确定,如通过以下这些技术:如核磁共振、晶体学、电子衍射或光亲和标记,结合推定的关键位点氨基酸的突变来确定。
本发明中,氨基酸残基可以用单字母表示,也可以用三字母表示,例如:丙氨酸(Ala,A),缬氨酸(Val,V),甘氨酸(Gly,G),亮氨酸(Leu,L),谷酰胺酸(Gln,Q),苯丙氨酸(Phe,F),色氨酸(Trp,W),酪氨酸(Tyr,Y),天冬氨酸(Asp,D),天冬酰胺(Asn,N),谷氨酸(Glu,E),赖氨酸(Lys,K),甲硫氨酸(Met,M),丝氨酸(Ser,S),苏氨酸(Thr,T),半胱氨酸(Cys,C),脯氨酸(Pro,P),异亮氨酸(Ile,I),组氨酸(His,H),精氨酸(Arg,R)。
术语“AxxB”表示第xx位的氨基酸A变为氨基酸B,例如E844A表示第844位的E突变为A。
本发明所述蛋白质内的特定氨基酸位置(编号)是利用标准序列比对工具通过将目标蛋白质的氨基酸序列与SEQ ID No.1进行比对而确定的,譬如用Smith-Waterman运算法则或用CLUSTALW2运算法则比对两个序列,其中当比对得分最高时认为所述序列是对准的。比对得分可依照Wilbur,W.J.and Lipman,D.J.(1983)Rapid similarity searchesofnucleic acid and protein data banks.Proc.Natl.Acad.Sci.USA,80:726-730中所述的方法进行计算。在ClustalW2(1.82)运算法则中优选使用默认参数:蛋白质缺口开放罚分=10.0;蛋白质缺口延伸罚分=0.2;蛋白质矩阵=Gonnet;蛋白质/DNA端隙=-1;蛋白质/DNAGAPDIST=4。优选采用AlignX程序(vectorNTI组中的一部分),以适于多重比对的默认参数(缺口开放罚分:10;g缺口延伸罚分0.05)通过将蛋白质的氨基酸序列与SEQ IDNo.1进行比来确定本发明所述蛋白质内特定氨基酸的位置。
本发明的Cas蛋白、蛋白衍生物或融合蛋白不受其产生方式的限定,例如,其可以通过基因工程方法(重组技术)产生,也可以通过化学合成方法产生。
本发明还提供了包含上述融合蛋白的碱基编辑工具,例如,单碱基编辑工具。
Cas蛋白的核酸
另一方面,本发明提供了一种分离的多核苷酸,其包含:
(a)编码本发明的Cas突变蛋白或融合蛋白的多核苷酸序列;
或者,与(a)所述的多核苷酸互补的多核苷酸。
在一个实施方式中,所述的核苷酸序列经密码子优化用于在原核细胞中进行表达。在一个实施方式中,所述的核苷酸序列经密码子优化用于在真核细胞中进行表达。
在一个实施方式中,所述细胞是动物细胞,例如,哺乳动物细胞。
在一个实施方式中,所述细胞是人类细胞。
在一个实施方式中,所述细胞是植物细胞,例如栽培植物(如木薯、玉米、高粱、小麦或水稻)、藻类、树或蔬菜具有的细胞。
在一个实施方式中,所述的多核苷酸优选是单链的或双链的。
指导RNA(gRNA)
另一方面,本发明提供了一种gRNA,所述gRNA包括第一区段和第二区段;所述第一区段又称为“骨架区”、“蛋白质结合区段”、“蛋白质结合序列”、或者“同向重复(DirectRepeat)序列”;所述第二区段又称为“靶向核酸的靶向序列”或者“靶向核酸的靶向区段”,或者“靶向靶序列的引导序列”。
所述gRNA的第一区段能够与本发明的Cas突变蛋白相互作用,从而使Cas突变蛋白和gRNA形成复合物。
在优选的实施方式中,所述第一区段为如上所述的同向重复序列。
本发明靶向核酸的靶向序列或靶向核酸的靶向区段包含与靶核酸中的序列互补的核苷酸序列。换言之,本发明靶向核酸的靶向序列或靶向核酸的靶向区段经过杂交(即,碱基配对)以序列特异性方式与靶核酸相互作用。因此,靶向核酸的靶向序列或靶向核酸的靶向区段可改变,或可被修饰以杂交靶核酸内的任何希望的序列。所述核酸选自DNA或RNA。
靶向核酸的靶向序列或靶向核酸的靶向区段与靶核酸的靶序列之间的互补百分比可为至少60%(例如,至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少97%、至少98%、至少99%或100%)。
本发明gRNA的“骨架区”、“蛋白质结合区段”、“蛋白质结合序列”、或者“同向重复序列”可以与CRISPR蛋白(或者,Cas蛋白)相互作用。本发明gRNA经过靶向核酸的靶向序列的作用将其相互作用的Cas蛋白引导至靶核酸内的特异性核苷酸序列。
优选的,所述指导RNA从5’至3’方向包含第一区段和第二区段。
本发明中,所述第二区段还可以理解为与靶序列杂交的引导序列。
本发明的gRNA能够与所述Cas蛋白形成复合物。
载体
本发明还提供了一种载体,其包含如上述的Cas突变蛋白、融合蛋白、分离的核酸分子或多核苷酸;优选的,其还包括与之可操作连接的调控元件。
在一个实施方式中,所述的调控元件选自下组中的一种或多种:增强子、转座子、启动子、终止子、前导序列、多腺苷酸序列、标记基因。
在一个实施方式中,所述的载体包括克隆载体、表达载体、穿梭载体、整合载体。
在一些实施方案中,所述系统中包括的载体是病毒载体(例如逆转录病毒载体,慢病毒载体,腺病毒载体,腺相关载体和单纯疱疹载体),还可以是质粒、病毒、粘粒、噬菌体等类型,它们是本领域技术人员所熟知的。
CRISPR系统
本发明提供了一种工程化的非天然存在的载体系统,或者是CRISPR-Cas系统,该系统包括Cas突变蛋白或编码所述Cas突变蛋白的核酸序列以及编码一种或多种指导RNA的核酸。
在一种实施方式中,所述编码所述Cas突变蛋白的核酸序列和编码一种或多种指导RNA的核酸是人工合成的。
在一种实施方式中,所述编码所述Cas突变蛋白的核酸序列和编码一种或多种指导RNA的核酸并不共同天然存在。
该一种或多种指导RNA在细胞中靶向一个或多个靶序列。所述一个或多个靶序列与编码一种或多种基因产物的DNA分子的基因组座位杂交,并且引导该Cas蛋白到达所述一种或多种基因产物的DNA分子的基因组座位部位,Cas蛋白到达靶序列位置后对靶序列进行修饰、编辑或切割,由此该一种或多种基因产物的表达被改变或修饰。
本发明的细胞包括动物、植物或微生物中的一种或多种。
在一些实施例中,该Cas蛋白是密码子优化的,用于在细胞中进行表达。
在一些实施例中,该Cas蛋白指导切割在该靶序列位置处的一条或两条链。
本发明还提供了一种工程化的非天然存在的载体系统,该载体系统可以包括一种或多种载体,该一种或多种载体包括:
a)第一调控元件,该第一调控元件可操作地与gRNA连接,
b)第二调控元件,该第二调控元件可操作地与所述Cas蛋白连接;
其中组分(a)和(b)位于该系统的相同或不同载体上。
所述第一和第二调控元件包括启动子(例如,组成型启动子或诱导型启动子)、增强子(例如35S promoter或35S enhanced promoter)、内部核糖体进入位点(IRES)、和其他表达控制元件(例如转录终止信号,如多聚腺苷酸化信号和多聚U序列)。
在一些实施方案中,所述系统中的载体是病毒载体(例如逆转录病毒载体,慢病毒载体,腺病毒载体,腺相关载体和单纯疱疹载体),还可以是质粒、病毒、粘粒、噬菌体等类型,它们是本领域技术人员所熟知的。
在一些实施例中,本文提供的系统处于递送系统中。在一些实施方案中,递送系统是纳米颗粒,脂质体,外体,微泡和基因枪。
在一个实施方式中,所述靶序列是来自原核细胞或真核细胞的DNA或RNA序列。在一个实施方式中,所述靶序列是非天然存在的DNA或RNA序列。
在一个实施方式中,所述靶序列存在于细胞内。在一个实施方式中,所述靶序列存在于细胞核内或细胞质(例如,细胞器)内。在一个实施方式中,所述细胞是真核细胞。在其他实施方式中,所述细胞是原核细胞。
在一个实施方式中,所述Cas蛋白连接有一个或多个NLS序列。在一个实施方式中,所述融合蛋白包含一个或多个NLS序列。在一个实施方式中,所述NLS序列连接至所述蛋白的N端或C端。在一个实施方式中,所述NLS序列融合至所述蛋白的N端或C端。
另一方面,本发明涉及一种工程化的CRISPR系统,所述系统包含上述Cas蛋白以及一种或多种指导RNA,其中,所述指导RNA包括同向重复序列和能够与靶核酸杂交的间隔序列,所述Cas蛋白能够结合所述指导RNA并靶向与间隔序列互补的靶核酸序列。
蛋白-核酸复合物/组合物
另一方面,本发明提供了一种复合物或者组合物,其包含:
(i)蛋白组分,其选自:上述融合蛋白;和
(ii)核酸组分,其包含(a)能够与靶序列杂交的引导序列;以及(b)能够与本发明的Cas蛋白结合的同向重复序列。
所述蛋白组分与核酸组分相互结合形成复合物。
在一个实施方式中,所述核酸组分是CRISPR-Cas系统中的指导RNA。
在一个实施方式中,所述复合物或组合物是非天然存在的或经修饰的。在一个实施方式中,所述复合物或组合物中的至少一个组分是非天然存在的或经修饰的。在一个实施方式中,所述第一组分是非天然存在的或经修饰的;和/或,所述第二组分是非天然存在的或经修饰的。
活化的CRISPR复合物
另一方面,本发明还提供了一种活化的CRISPR复合物,所述活化的CRISPR复合物包含:(1)蛋白组分,其选自:上述的融合蛋白;(2)gRNA,其包含(a)能够与靶序列杂交的引导序列;以及(b)能够与本发明的Cas蛋白结合的同向重复序列;以及(3)结合在gRNA上的靶序列。优选的,所述结合为通过gRNA上的靶向核酸的靶向序列与靶核酸进行的结合。
本文所用术语“活化的CRISPR复合物”,“活化复合物”或“三元复合物”是指CRISPR系统中Cas蛋白、gRNA与靶核酸结合或修饰后的复合物。
本发明的Cas蛋白和gRNA可以形成二元复合物,该二元复合物在与核酸底物结合时被活化,形成活化的CRISPR复合物该核酸底物与gRNA中的间隔序列(或者称之为,与靶核酸杂交的引导序列)互补。在一些实施方案中,gRNA的间隔序列与靶底物完全匹配。在其它实施方案中,gRNA的间隔序列与靶底物的部分(连续或不连续)匹配。
递送及递送组合物
本发明的Cas蛋白、gRNA、融合蛋白、核酸分子、载体、系统、复合物和组合物,可以通过本领域已知的任何方法进行递送。此类方法包括但不限于,电穿孔、脂转染、核转染、显微注射、声孔效应、基因枪、磷酸钙介导的转染、阳离子转染、脂质体转染、树枝状转染、热激转染、核转染、磁转染、脂转染、穿刺转染、光学转染、试剂增强性核酸摄取、以及经由脂质体、免疫脂质体、病毒颗粒、人工病毒体等的递送。
因此,在另一个方面,本发明提供了一种递送组合物,其包含递送载体,以及选自下列的一种或任意几种:本发明的Cas蛋白、融合蛋白、核酸分子、载体、系统、复合物和组合物。
在一个实施方式中,所述递送载体是粒子。
在一个实施方式中,所述递送载体选自脂质颗粒、糖颗粒、金属颗粒、蛋白颗粒、脂质体、外泌体、微泡、基因枪或病毒载体(例如,复制缺陷型逆转录病毒、慢病毒、腺病毒或腺相关病毒)。
宿主细胞
本发明还涉及一种体外的、离体的或体内的细胞或细胞系或它们的子代,所述细胞或细胞系或它们的子代包含:本发明所述的Cas蛋白、融合蛋白、核酸分子、蛋白-核酸复合物、活化的CRISPR复合物、载体、本发明递送组合物。
在某些实施方案中,所述细胞是原核细胞。
在某些实施方案中,所述细胞是真核细胞。在某些实施方案中,所述细胞是哺乳动物细胞。在某些实施方案中,所述细胞是人类细胞。某些实施方案中,所述细胞是非人哺乳动物细胞,例如非人灵长类动物、牛、羊、猪、犬、猴、兔、啮齿类(如大鼠或小鼠)的细胞。在某些实施方案中,所述细胞是非哺乳动物真核细胞,例如家禽鸟类(如鸡)、鱼类或甲壳动物(如蛤蜊、虾)的细胞。在某些实施方案中,所述细胞是植物细胞,例如单子叶植物或双子叶植物具有的细胞或栽培植物或粮食作物如木薯、玉米、高粱、大豆、小麦、燕麦或水稻具有的细胞,例如藻类、树或生产植物、果实或蔬菜(例如,树类如柑橘树、坚果树;茄属植物、棉花、烟草、番茄、葡萄、咖啡、可可等)。
在某些实施方案中,所述细胞是干细胞或干细胞系。
在某些情况下,本发明的宿主细胞包含基因或基因组的修饰,该修饰是在其野生型中不存在的修饰。
基因编辑方法和应用
本发明的Cas突变蛋白、核酸、上述组合物、上述CIRSPR/Cas系统、上述载体系统、上述递送组合物或上述活化的CRISPR复合物或者上述宿主细胞可用于以下任一或任意几个用途:靶向和/或编辑靶核酸;特异性地编辑双链核酸;碱基编辑双链核酸;碱基编辑单链核酸。在其他的实施方式中,还可以用于制备用于上述任一或任意几个用途的试剂或试剂盒。
本发明还提供了一种编辑核酸的方法,该方法包括使核酸(例如双链DNA序列)的靶区域与包含上述融合蛋白和gRNA的复合物接触的步骤;其中,所述靶区域包含靶向的碱基对,将靶区域中所述靶向的碱基对进行碱基替换。在一个实施方式中,所述融合蛋白中的脱氨酶为腺苷脱氨酶,所述靶向的碱基对由A:T替换为G:C,在一个实施方式中,所述融合蛋白中的脱氨酶为胞苷脱氨酶,所述靶向的碱基对由C:G替换为A:T。
上述A:T是指组成碱基对所配对的碱基为A和T;类似的,G:C是指组成碱基对所配对的碱基为G和C,C:G是指组成碱基对所配对的碱基为C和G。
本发明还提供了融合蛋白、核酸、上述组合物、上述CIRSPR/Cas系统、上述载体系统、上述递送组合物或者上述宿主细胞在基因编辑中的应用;或者,在制备用于基因编辑的试剂或试剂盒中的用途。
在一个实施方式中,所述基因编辑为在细胞内和/或细胞外进行基因编辑。
在一个实施方式中,所述基因编辑为对靶基因进行单碱基编辑。
本发明还提供了一种编辑靶核酸的方法,所述方法包括将靶核酸与上述融合蛋白、核酸、上述组合物、上述CIRSPR/Cas系统、上述载体系统或上述递送组合物进行接触。在一个实施方式中,所述方法为在细胞内或细胞外编辑靶核酸。
所述基因编辑或编辑靶核酸包括对靶基因的单碱基进行编辑的步骤。
所述编辑可以在原核细胞和/或真核细胞中进行编辑。
另一方面,本发明还提供了一种用于基因编辑的试剂盒,所述试剂盒包括上述腺苷脱氨酶、融合蛋白、gRNA、核酸、上述组合物、上述CIRSPR/Cas系统、上述载体系统、上述递送组合物或上述宿主细胞。
另一方面,发明提供了上述腺苷脱氨酶、融合蛋白、核酸、上述组合物、上述CIRSPR/Cas系统、上述载体系统、上述递送组合物或上述宿主细胞在制备制剂或试剂盒中的用途,所述制剂或试剂盒用于:
(i)基因或基因组编辑;
(ii)编辑靶基因座中的靶序列来修饰生物;
(iii)单碱基编辑;
(iv)疾病的治疗。
优选的,上述基因或基因组编辑为在细胞内或细胞外进行基因或基因组编辑。
优选的,所述疾病的治疗为治疗由靶基因座中的靶序列的缺陷引起的病症。
特异性修饰靶核酸的方法
另一方面,本发明还提供了一种特异性修饰靶核酸的方法,方法包括:使靶核酸与上述融合蛋白、核酸、上述组合物、上述CIRSPR/Cas系统、上述载体系统、上述递送组合物或上述活化的CRISPR复合物接触。
该特异性修饰可以发生在体内或者体外。
该特异性修饰可以发生在细胞内或者细胞外。
在一些情况下,细胞选自原核细胞或真核细胞,例如,动物细胞、植物细胞或微生物。
术语定义
在本发明中,除非另有说明,否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且,本文中所用的分子遗传学、核酸化学、化学、分子生物学、生物化学、细胞培养、微生物学、细胞生物学、基因组学和重组DNA等操作步骤均为相应领域内广泛使用的常规步骤。同时,为了更好地理解本发明,下面提供相关术语的定义和解释。
CRISPR系统
如本文中所使用的,术语“规律成簇的间隔短回文重复(CRISPR)-CRISPR-相关(Cas)(CRISPR-Cas)系统”或“CRISPR系统”可互换地使用并且具有本领域技术人员通常理解的含义,其通常包含与CRISPR相关(“Cas”)基因的表达有关的转录产物或其他元件,或者能够指导所述Cas基因活性的转录产物或其他元件。本发明中的Cas蛋白,即为Crisprassociated protein。
CRISPR/Cas复合物
如本文中所使用的,术语“CRISPR/Cas复合物”是指,指导RNA(guide RNA)或成熟crRNA与Cas蛋白结合所形成的复合体,其包含杂交到靶序列的引导序列上并且与Cas蛋白结合的同向重复序列,该复合体能够识别并切割能与该指导RNA或成熟crRNA杂交的多核苷酸。
指导RNA(guideRNA,gRNA)
如本文中所使用的,术语“指导RNA(guide RNA,gRNA)”、“成熟crRNA”、“指导序列”可互换地使用并且具有本领域技术人员通常理解的含义。一般而言,指导RNA可以包含同向重复序列(direct repeat)和引导序列,或者基本上由或由同向重复序列和引导序列组成。
在某些情况下,指导序列是与靶序列具有足够互补性从而与所述靶序列杂交并引导CRISPR/Cas复合物与所述靶序列的特异性结合的任何多核苷酸序列。在一个实施方式中,当最佳比对时,指导序列与其相应靶序列之间的互补程度为至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、或至少99%。确定最佳比对在本领域的普通技术人员的能力范围内。例如,存在公开和可商购的比对算法和程序,诸如但不限于ClustalW、matlab中的史密斯-沃特曼算法(Smith-Waterman)、Bowtie、Geneious、Biopython以及SeqMan。
靶序列
“靶序列”是指被gRNA中的引导序列所靶向的多核苷酸,例如与该引导序列具有互补性的序列,其中靶序列与引导序列之间的杂交将促进CRISPR/Cas复合物(包括Cas蛋白和gRNA)的形成。完全互补性不是必需的,只要存在足够互补性以引起杂交并且促进一种CRISPR/Cas复合物的形成即可。
靶序列可以包含任何多核苷酸,如DNA或RNA。在某些情况下,所述靶序列位于细胞内或细胞外。在某些情况下,所述靶序列位于细胞的细胞核或细胞质中。在某些情况下,该靶序列可位于真核细胞的一个细胞器例如线粒体或叶绿体内。可被用于重组到包含该靶序列的靶基因座中的序列或模板被称为“编辑模板”或“编辑多核苷酸”或“编辑序列”。在一个实施方式中,所述编辑模板为外源核酸。在一个实施方式中,该重组是同源重组。
在本发明中,“靶序列”或“靶多核苷酸”或“靶核酸”可以是对细胞(例如,真核细胞)而言任何内源或外源的多核苷酸。例如,该靶多核苷酸可以是一种存在于真核细胞的细胞核中的多核苷酸。该靶多核苷酸可以是一个编码基因产物(例如,蛋白质)的序列或一个非编码序列(例如,调节多核苷酸或无用DNA)。在某些情况下,该靶序列应该与原间隔序列临近基序(PAM)相关。
碱基编辑
术语“碱基编辑”是指基因组编辑技术,其涉及将特定核酸碱基转化成靶向基因组基因座处的另一个碱基。在某些实施例中,这可以在不需要双链DNA断裂(DSB)或单链断裂(nicking)的情况下实现。迄今为止,包括基于CRISPR的系统的其他基因组编辑技术以在感兴趣的座位处引入DSB开始。随后,细胞DNA修复酶修补断裂,通常导致DSB位点处碱基的随机插入或缺失(indel)。然而,当期望在靶基因座处引入或校正点突变而不是整个基因的随机破坏时,这些基因组编辑技术不适合,因为校正率低(通常0.1%至5%),其中主要的基因组编辑产物是indel。为了在不引入Rando indel的情况下增加基因校正的效率,本发明人使用腺苷脱氨酶与CRISPR系统结合,将一个DNA碱基直接转化为另一个DNA碱基,而不形成DSB。
野生型
如本文中所使用的,术语“野生型”具有本领域技术人员通常理解的含义,其表示生物、菌株、基因的典型形式或者当它在自然界存在时区别于突变体或变体形式的特征,其可从自然中的来源分离并且没有被人为有意地修饰。
衍生化
如本文中所使用的,术语“衍生化”是指,对氨基酸、多肽或蛋白的化学修饰,其中一个或多个取代基已与所述氨基酸、多肽或蛋白共价连接。取代基也可称为侧链。
衍生化的蛋白是该蛋白的衍生物,通常,蛋白的衍生化不会不利影响该蛋白的期望活性(例如,与指导RNA结合的活性、核酸内切酶活性、在指导RNA引导下与靶序列特定位点结合并切割的活性),也就是说蛋白的衍生物与蛋白有相同的活性。
衍生化蛋白
又称“蛋白衍生物”,是指蛋白的经修饰形式,例如其中所述蛋白的一个或多个氨基酸可以被缺失、插入、修饰和/或取代。
非天然存在的
如本文中所使用的,术语“非天然存在的”或“工程化的”可互换地使用并且表示人工的参与。当这些术语用于描述核酸分子或多肽时,其表示该核酸分子或多肽至少基本上从它们在自然界中或如发现于自然界中的与其结合的至少另一种组分游离出来。
直系同源物(orthologue,ortholog)
如本文中所使用的,术语“直系同源物(orthologue,ortholog)”具有本领域技术人员通常理解的含义。作为进一步指导,如本文中所述的蛋白质的“直系同源物”是指属于不同物种的蛋白质,该蛋白质执行与作为其直系同源物的蛋白相同或相似的功能。
同一性
如本文中所使用的,术语“同一性”用于指两个多肽之间或两个核酸之间序列的匹配情况。当两个进行比较的序列中的某个位置都被相同的碱基或氨基酸单体亚单元占据时(例如,两个DNA分子的每一个中的某个位置都被腺嘌呤占据,或两个多肽的每一个中的某个位置都被赖氨酸占据),那么各分子在该位置上是同一的。两个序列之间的“百分数同一性”是由这两个序列共有的匹配位置数目除以进行比较的位置数目×100的函数。例如,如果两个序列的10个位置中有6个匹配,那么这两个序列具有60%的同一性。例如,DNA序列CTGACT和CAGGTT共有50%的同一性(总共6个位置中有3个位置匹配)。通常,在将两个序列比对以产生最大同一性时进行比较。这样的比对可通过使用,例如,可通过计算机程序例如Align程序(DNAstar,Inc.)方便地进行的Needleman等人(1970)J.Mol.Biol.48:443-453的方法来实现。还可使用已整合入ALIGN程序(版本2.0)的E.Meyers和W.Miller(Comput.ApplBiosci.,4:11-17(1988))的算法,使用PAM120权重残基表(weight residue table)、12的缺口长度罚分和4的缺口罚分来测定两个氨基酸序列之间的百分数同一性。此外,可使用已整合入GCG软件包(可在www.gcg.com上获得)的GAP程序中的Needleman和Wunsch(J MoIBiol.48:444-453(1970))算法,使用Blossum 62矩阵或PAM250矩阵以及16、14、12、10、8、6或4的缺口权重(gap weight)和1、2、3、4、5或6的长度权重来测定两个氨基酸序列之间的百分数同一性。
载体
术语“载体”是指一种核酸分子,它能够运送与其连接的另一种核酸分子。载体包括但不限于,单链、双链、或部分双链的核酸分子;包括一个或多个自由端、无自由端(例如环状的)的核酸分子;包括DNA、RNA、或两者的核酸分子;以及本领域已知的其他多种多样的多核苷酸。载体可以通过转化,转导或者转染导入宿主细胞,使其携带的遗传物质元件在宿主细胞中获得表达。一种载体可以被引入到宿主细胞中而由此产生转录物、蛋白质、或肽,包括由如本文所述的蛋白、融合蛋白、分离的核酸分子等(例如,CRISPR转录物,如核酸转录物、蛋白质、或酶)。一种载体可以含有多种控制表达的元件,包括但不限于,启动子序列、转录起始序列、增强子序列、选择元件及报告基因。另外,载体还可含有复制起始位点。
一种类型的载体是“质粒”,其是指其中可以例如通过标准分子克隆技术插入另外的DNA片段的环状双链DNA环。
另一种类型的载体是病毒载体,其中病毒衍生的DNA或RNA序列存在于用于包装病毒(例如,逆转录病毒、复制缺陷型逆转录病毒、腺病毒、复制缺陷型腺病毒、以及腺相关病毒)的载体中。病毒载体还包含由用于转染到一种宿主细胞中的病毒携带的多核苷酸。某些载体(例如,具有细菌复制起点的细菌载体和附加型哺乳动物载体)能够在它们被导入的宿主细胞中自主复制。
其他载体(例如,非附加型哺乳动物载体)在引入宿主细胞后整合到该宿主细胞的基因组中,并且由此与该宿主基因组一起复制。而且,某些载体能够指导它们可操作连接的基因的表达。这样的载体在此被称为“表达载体”。
宿主细胞
如本文中所使用的,术语“宿主细胞”是指,可用于导入载体的细胞,其包括但不限于,如大肠杆菌或枯草菌等的原核细胞,如微生物细胞、真菌细胞、动物细胞和植物细胞的真核细胞。
本领域技术人员将理解,表达载体的设计可取决于诸如待转化的宿主细胞的选择、所希望的表达水平等因素。
调控元件
如本文中所使用的,术语“调控元件”旨在包括启动子、增强子、内部核糖体进入位点(IRES)、和其他表达控制元件(例如转录终止信号,如多聚腺苷酸化信号和多聚U序列),其详细描述可参考戈德尔(Goeddel),《基因表达技术:酶学方法》(GENE EXPRESSIONTECHNOLOGY:METHODS IN ENZYMOLOGY)185,学术出版社(Academic Press),圣地亚哥(SanDiego),加利福尼亚州(1990)。在某些情况下,调控元件包括指导一个核苷酸序列在许多类型的宿主细胞中的组成型表达的那些序列以及指导该核苷酸序列只在某些宿主细胞中表达的那些序列(例如,组织特异型调节序列)。组织特异型启动子可主要指导在感兴趣的期望组织中的表达,所述组织例如肌肉、神经元、骨、皮肤、血液、特定的器官(例如肝脏、胰腺)、或特殊的细胞类型(例如淋巴细胞)。在某些情况下,调控元件还可以时序依赖性方式(如以细胞周期依赖性或发育阶段依赖性方式)指导表达,该方式可以是或者可以不是组织或细胞类型特异性的。在某些情况下,术语“调控元件”涵盖的是增强子元件,如WPRE;CMV增强子;在HTLV-I的LTR中的R-U5’片段((Mol.Cell.Biol.,第8(1)卷,第466-472页,1988);SV40增强子;以及在兔β-珠蛋白的外显子2与3之间的内含子序列(Proc.Natl.Acad.Sci.USA.,第78(3)卷,第1527-31页,1981)。
启动子
如本文中所使用的,术语“启动子”具有本领域技术人员公知的含义,其是指一段位于基因的上游能启动下游基因表达的非编码核苷酸序列。组成型(constitutive)启动子是这样的核苷酸序列:当其与编码或者限定基因产物的多核苷酸可操作地相连时,在细胞的大多数或者所有生理条件下,其导致细胞中基因产物的产生。诱导型启动子是这样的核苷酸序列,当可操作地与编码或者限定基因产物的多核苷酸相连时,基本上只有当对应于所述启动子的诱导物在细胞中存在时,其导致所述基因产物在细胞内产生。组织特异性启动子是这样的核苷酸序列:当可操作地与编码或者限定基因产物的多核苷酸相连时,基本上只有当细胞是该启动子对应的组织类型的细胞时,其才导致在细胞中产生基因产物。
NLS
“核定位信号”或“核定位序列”(NLS)是对蛋白质“加标签”以通过核转运导入细胞核的氨基酸序列,即,具有NLS的蛋白质被转运至细胞核。典型地,NLS包含暴露在蛋白质表面的带正电荷的Lys或Arg残基。示例性核定位序列包括但不限于来自以下的NLS:SV40大T抗原,EGL-13,c-Myc以及TUS蛋白。在一些实施例中,该NLS包含PKKKRKV序列。在一些实施例中,该NLS包含AVKRPAATKKAGQAKKKKLD序列。在一些实施例中,该NLS包含PAAKRVKLD序列。在一些实施例中,该NLS包含MSRRRKANPTKLSENAKKLAKEVEN序列。在一些实施例中,该NLS包含KLKIKRPVK序列。其他核定位序列包括但不限于hnRNP A1的酸性M9结构域、酵母转录抑制子Matα2中的序列KIPIK和PY-NLS。
可操作地连接
如本文中所使用的,术语“可操作地连接”旨在表示感兴趣的核苷酸序列以一种允许该核苷酸序列的表达的方式被连接至该一种或多种调控元件(例如,处于一种体外转录/翻译系统中或当该载体被引入到宿主细胞中时,处于该宿主细胞中)。
互补性
如本文中所使用的,术语“互补性”是指核酸与另一个核酸序列借助于传统的沃森-克里克或其他非传统类型形成一个或多个氢键的能力。互补百分比表示一个核酸分子中可与一个第二核酸序列形成氢键(例如,沃森-克里克碱基配对)的残基的百分比(例如,10个之中有5、6、7、8、9、10个即为50%、60%、70%、80%、90%、和100%互补)。“完全互补”表示一个核酸序列的所有连续残基与一个第二核酸序列中的相同数目的连续残基形成氢键。如本文使用的“基本上互补”是指在一个具有8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50个或更多个核苷酸的区域上至少为60%、65%、70%、75%、80%、85%、90%、95%、97%、98%、99%、或100%的互补程度,或者是指在严格条件下杂交的两个核酸。
严格条件
如本文中所使用的,对于杂交的“严格条件”是指与靶序列具有互补性的一个核酸主要地与该靶序列杂交并且基本上不杂交到非靶序列上的条件。严格条件通常是序列依赖性的,并且取决于许多因素而变化。一般而言,该序列越长,则该序列特异性地杂交到其靶序列上的温度就越高。
杂交
术语“杂交”或“互补的”或“基本上互补的”是指核酸(例如RNA、DNA)包含使其能够非共价结合的核苷酸序列,即以序列特异性,反平行的方式(即核酸特异性结合互补核酸)与另一核酸形成碱基对和/或G/U碱基对,“退火”或“杂交”。
杂交需要两个核酸含有互补序列,尽管碱基之间可能存在错配。两个核酸之间杂交的合适条件取决于核酸的长度和互补程度,这是本领域公知的变量。典型地,可杂交核酸的长度为8个核苷酸或更多(例如,10个核苷酸或更多,12个核苷酸或更多,15个核苷酸或更多,20个核苷酸或更多,22个核苷酸或更多,25个核苷酸或更多,或30个核苷酸或更多)。
应当理解,多核苷酸的序列不需要与其靶核酸的序列100%互补以特异性杂交。多核苷酸可包含60%或更高,65%或更高,70%或更高,75%或更高,80%或更高,85%或更高,90%或更高,95%或更高,98%或更高,99%或更高,99.5%或更高,或与其杂交的靶核酸序列中的靶区域的序列互补性为100%。
靶序列与gRNA的杂交代表靶序列和gRNA的核酸序列至少60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的可以杂交,形成复合物;或者代表靶序列和gRNA的核酸序列至少有12个、15个、16个、17个、18个、19个、20个、21个、22个或更多个碱基可以互补配对,杂交形成复合物。
表达
如本文中所使用的,术语“表达”是指,藉此从DNA模板转录成多核苷酸(如转录成mRNA或其他RNA转录物)的过程和/或转录的mRNA随后藉此翻译成肽、多肽或蛋白质的过程。转录物和编码的多肽可以总称为“基因产物”。如果多核苷酸来源于基因组DNA,表达可以包括真核细胞中mRNA的剪接。
接头
如本文中所使用的,术语“接头”是指,由多个氨基酸残基通过肽键连接形成的线性多肽。本发明的接头可以为人工合成的氨基酸序列,或天然存在的多肽序列,例如具有铰链区功能的多肽。此类接头多肽是本领域众所周知的(参见例如,Holliger,P.等人(1993)Proc.Natl.Acad.Sci.USA90:6444-6448;Poljak,R.J.等人(1994)Structure 2:1121-1123)。
治疗
如本文中所使用的,术语“治疗”是指,治疗或治愈病症,延缓病症的症状的发作,和/或延缓病症的发展。
受试者
如本文中所使用的,术语“受试者”包括但不限于各种动物、植物和微生物。
动物
例如哺乳动物,例如牛科动物、马科动物、羊科动物、猪科动物、犬科动物、猫科动物、兔科动物、啮齿类动物(例如,小鼠或大鼠)、非人灵长类动物(例如,猕猴或食蟹猴)或人。在某些实施方式中,所述受试者(例如人)患有病症(例如,疾病相关基因缺陷所导致的病症)。
植物
术语“植物”应理解为能够进行光合作用的任何分化的多细胞生物,在包括处于任何成熟或发育阶段的作物植物,特别是单子叶或双子叶植物,蔬菜作物,包括洋蓟、球茎甘蓝、芝麻菜、韭葱、芦笋、莴苣(例如,结球莴苣、叶莴苣、长叶莴苣)、小白菜(bok choy)、黄肉芋、瓜类(例如,甜瓜、西瓜、克伦肖瓜(crenshaw)、白兰瓜、罗马甜瓜)、油菜作物(例如,球芽甘蓝、卷心菜、花椰菜、西兰花、羽衣甘蓝、无头甘蓝、大白菜、小白菜)、刺菜蓟、胡萝卜、洋白菜(napa)、秋葵、洋葱、芹菜、欧芹、鹰嘴豆、欧洲防风草、菊苣、胡椒、马铃薯、葫芦(例如,西葫芦、黄瓜、小西葫芦、倭瓜、南瓜)、萝卜、干球洋葱、芜菁甘蓝、紫茄子(也称为茄子)、婆罗门参、苣菜、青葱、苦苣、大蒜、菠菜、绿洋葱、倭瓜、绿叶菜类(greens)、甜菜(糖甜菜和饲料甜菜)、甘薯、唐莴苣、山葵、西红柿、芜菁、以及香辛料;水果和/或蔓生作物,如苹果、杏、樱桃、油桃、桃、梨、李子、西梅、樱桃、榅桲、杏仁、栗子、榛子、山核桃、开心果、胡桃、柑橘、蓝莓、博伊增莓(boysenberry)、小红莓、穗醋栗、罗甘莓、树莓、草莓、黑莓、葡萄、鳄梨、香蕉、猕猴桃、柿子、石榴、菠萝、热带水果、梨果、瓜、芒果、木瓜、以及荔枝;大田作物,如三叶草、苜蓿、月见草、白芒花、玉米/玉蜀黍(饲料玉米、甜玉米、爆米花)、啤酒花、荷荷芭、花生、稻、红花、小粒谷类作物(大麦、燕麦、黑麦、小麦等)、高粱、烟草、木棉、豆科植物(豆类、小扁豆、豌豆、大豆)、含油植物(油菜、芥菜、罂粟、橄榄、向日葵、椰子、蓖麻油植物、可可豆、落花生)、拟南芥属、纤维植物(棉花、亚麻、黄麻)、樟科(肉桂、莰酮)、或一种植物如咖啡、甘蔗、茶、以及天然橡胶植物;和/或花坛植物,如开花植物、仙人掌、肉质植物和/或观赏植物,以及树如森林(阔叶树和常绿树,如针叶树)、果树、观赏树、以及结坚果的树(nut-bearingtree)、以及灌木和其他苗木。
发明的有益效果
本发明通过对Cas蛋白的改进,提高其编辑活性,进而使其与脱氨酶结合后,能够用于靶核酸的单碱基编辑,具有广泛的应用前景。
下面将结合附图和实施例对本发明的实施方案进行详细描述,但是本领域技术人员将理解,下列附图和实施例仅用于说明本发明,而不是对本发明的范围的限定。根据附图和优选实施方案的下列详细描述,本发明的各种目的和有利方面对于本领域技术人员来说将变得显然。
本申请涉及的序列信息如下:
附图说明
图1.Cas12i3的蛋白结构示意图。
图2.ABE编辑工具结构示意图。
图3.CBE编辑工具结构示意图。
图4.ABE荧光报告系统目标序列示意图。
图5.不同突变后的ABE报告系统的编辑效率对比图。
具体实施方式
以下实施例仅用于描述本发明,而非限定本发明。除非特别指明,否则基本上按照本领域内熟知的以及在各种参考文献中描述的常规方法进行实施例中描述的实验和方法。例如,本发明中所使用的免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA等常规技术,可参见萨姆布鲁克(Sambrook)、弗里奇(Fritsch)和马尼亚蒂斯(Maniatis),《分子克隆:实验室手册》(MOLECULAR CLONING:ALABORATORY MANUAL),第2次编辑(1989);《当代分子生物学实验手册》(CURRENT PROTOCOLS IN MOLECULAR BIOLOGY)(F.M.奥苏贝尔(F.M.Ausubel)等人编辑,(1987));《酶学方法》(METHODS IN ENZYMOLOGY)系列(学术出版公司):《PCR 2:实用方法》(PCR 2:A PRACTICAL APPROACH)(M.J.麦克弗森(M.J.MacPherson)、B.D.黑姆斯(B.D.Hames)和G.R.泰勒(G.R.Taylor)编辑(1995))、哈洛(Harlow)和拉内(Lane)编辑(1988)《抗体:实验室手册》(ANTIBODIES,ALABORATORYMANUAL),以及《动物细胞培养》(ANIMAL CELL CULTURE)(R.I.弗雷谢尼(R.I.Freshney)编辑(1987))。
另外,实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。本领域技术人员知晓,实施例以举例方式描述本发明,且不意欲限制本发明所要求保护的范围。本文中提及的全部公开案和其他参考资料以其全文通过引用合并入本文。
实施例1.Cas突变蛋白的获得
针对已知的Cas蛋白(CN111757889B中的Cas12f.4,本实施例中,将其称之为Cas12i3)进行改造。具体的,将Cas12i3编码序列经过密码子优化并合成,野生型Cas12i3的氨基酸序列如SEQ ID No.1所示,其核酸序列如SEQ ID No.2所示,Cas12i3的结构如图1所示。
本实施方式中,亲本Cas蛋白采用的是优化的Cas12i3,相对于SEQ ID No.1,优化的Cas12i3序列如SEQ ID No.13所示(记载在中国发明专利申请CN116004573A中);本实施方式中,对SEQ ID No.13所示的优化的Cas12i3进行改造。
本实施方式中,通过对Cas12i3的结构分析,分别删除RuvcII、Nuc和RuvcIII结构域,得到不同的突变体蛋白△1034aa(相对于SEQ ID No.13删掉了第1034位开始的氨基酸区域,即删除了SEQ ID No.13第1034位-第1045位氨基酸区域),△RuvcIII(相对于SEQ IDNo.13删掉了RuvcIII结构域,即删除了SEQ ID No.13第1014位-第1045位氨基酸区域),△Nuc-RuvcIII(相对于SEQ ID No.13删掉了Nuc和RuvcIII结构域,即删除了SEQ ID No.13第911位-第1045位氨基酸区域),△891aa(相对于SEQ ID No.13删掉了第891氨基酸开始的氨基酸区域,即删除了SEQ ID No.13第891位-第1045位氨基酸区域),△RuvcII-Nuc-RuvcIII(相对于SEQ ID No.13删掉了RuvcII、Nuc和RuvcIII结构域,即删除了SEQ ID No.13第833位-第1045位氨基酸区域)。
实施例2.Cas突变蛋白的单碱基编辑活性的验证
将实施例1中得到的多种突变蛋白与腺苷脱氨酶结合验证基因编辑的活性,本实施方式的荧光报告系统参考本领域技术人员熟知的实验方法,构建了适于验证ABE的荧光报告系统。申请人通过生物信息学预测Cas12i3可能影响其生物学功能的关键氨基酸位点,并将氨基酸位点进行突变,将第844位的E突变为A(E844A),获得核酸酶活性失活的dCas12i3(氨基酸序列与SEQ ID No.1相比在第844位存在突变,突变为A),同时对以下突变蛋白△RuvcII-Nuc-RuvcIII,△891aa,△Nuc-RuvcIII,△RuvcIII,△1034aa氨基酸序列对应于SEQ ID No.1所示的氨基酸序列的第844位进行突变,突变为A,得到核酸酶活性失活的突变蛋白(其中,△RuvcII-Nuc-RuvcIII由于已经缺失了对应于SEQ ID No.1第833位氨基酸之后的序列,因此,不需要再将对应于SEQ ID No.1第844位氨基酸进行突变),将上述核酸酶活性失活的突变蛋白与脱氨酶(腺苷脱氨酶或胞苷脱氨酶)构建单碱基编辑体系。
在其他的实施方式中,也可以将上述Cas突变蛋白对应于SEQ ID No.1所示的第619位氨基酸突变为A从而得到核酸酶活性失活的Cas突变蛋白。
在本实施方式中,腺苷脱氨酶采用TadA8e(氨基酸序列如SEQ ID No.3所示),胞苷脱氨酶采用BE4max(氨基酸序列如SEQ ID No.4所示);上述腺苷脱氨酶和胞苷脱氨酶只是示例性的脱氨酶,在其他的实施方式中,也可以采用其他的腺苷脱氨酶和胞苷脱氨酶。
采用腺苷脱氨酶TadA8e所构建的ABE编辑元件的示意图如图2所示,采用胞苷脱氨酶采用BE4max所构建的CBE编辑元件的示意图如图3所示;其中,EGFP是为了筛选阳性细胞所设计的标签。
如图2-图3所示,脱氨酶(腺苷脱氨酶或胞苷脱氨酶)在dCas12i3(E844A)的N端,通过XTEN接头连接;脱氨酶和dCas12i3的另一末端还连接有NLS。在胞苷脱氨酶的CBE编辑元件中,dCas12i3的C端还连接有UGI(dCas12i3和UGI通过接头连接),在本实施方式中,采用2个UGI串联。以上只是示例性的脱氨酶和dCas12i3的连接方式,将上述中获得的失活后的多种突变蛋白(△RuvcII-Nuc-RuvcIII,△891aa,△Nuc-RuvcIII,△RuvcIII,△1034aa)与脱氨酶(腺苷脱氨酶或胞苷脱氨酶)的以相同的连接方式构建,在其他的实施方式中,本领域技术人员可以对上述元件的位置或连接顺序进行调整。
本实施方式中所设计的基于野生型的dCas12i3的ABE编辑元件的氨基酸序列和DNA序列分别如SEQ ID No.9和SEQ ID No.10所示;所设计的基于野生型的dCas12i3的CBE编辑元件的氨基酸序列和DNA序列分别如SEQ ID No.11和SEQ ID No.12所示。为了构建基于不同的突变的Cas蛋白的ABE或CBE编辑元件,将上述dCas12i3分别替换为核酸酶活性失活的突变蛋白(即,对应于SEQ ID No.1第844位氨基酸突变为A的△RuvcII-Nuc-RuvcIII、△891aa、△Nuc-RuvcIII、△RuvcIII或△1034aa)即可。
在动物细胞中验证上述ABE单碱基编辑体系的活性,如图4所示,目标DNA序列为EGFP基因和dCas蛋白之间的tga终止子区域,其PAM为TTG,EGFP不能正常发光,只有ABE报告系统通过单碱基编辑,将tga终止子转变为cga(R),使EGFP发出绿色荧光,通过检测绿色荧光产生的比例来评价ABE基编辑系统的编辑效率,所述构建后的表达载体转染293T细胞系,48h后通过流式细胞仪荧光检测并计算EGFP比例;单碱基编辑效率计算为EGFP阳性细胞数/总的细胞数。
结果如图5所示,PC为EGFP正常表达的阳性对照,NC为含有tga终止子,EGFP不能正常表达的阴性对照,基于核酸酶失活的优化的Cas12i3(SEQ ID No.13第844位氨基酸突变为A)的ABE单碱基编辑效率为68.05%(图中ABE8e.1-dCas12i3);突变的△1034aa-ABE的单碱基编辑效率为69.18%(图中的△1034aa,即删除了SEQ ID No.13第1034位-第1045位氨基酸区域失活的突变蛋白的单碱基编辑效率);突变△RuvcIII-ABE的单碱基编辑效率为57.48%(图中的△RuvcIII,即删除了SEQ ID No.13第1014位-第1045位氨基酸区域、同时第844位氨基酸突变为A的突变蛋白的单碱基编辑效率);突变的△Nuc-RuvcIII-ABE的单碱基编辑效率为65.06%(图中的△Nuc-RuvcIII,即删除了SEQ ID No.13第911位-第1045位氨基酸区域、同时第844位氨基酸突变为A的突变蛋白的单碱基编辑效率);突变△891aa-ABE的单碱基编辑效率为69.97%(图中的△891aa-ABE,即删除了SEQ ID No.13第891位-第1045位氨基酸区域、同时第844位氨基酸突变为A的突变蛋白的单碱基编辑效率);突变的△RuvcII-Nuc-RuvcIII-ABE的单碱基编辑效率为11.83%(图中的△RuvcII-Nuc-RuvcIII,即删除了SEQ ID No.13第833位-第1045位氨基酸区域失活的突变蛋白的单碱基编辑效率)。
由上述结果可知,通过删除氨基酸序列的不同长度,可以获得类似结构蛋白,并保持了较高的编辑活性,以删除SEQ ID No.13氨基酸序列的第891位-第1045位氨基酸(对应于SEQ ID No.1所示的野生型Cas12i3的第891位-第1045位氨基酸)后的Cas突变蛋白具有最高的编辑活性,同时Cas突变蛋白尺寸更小更便于递送,扩展了基于dCas的编辑系统在精准基因编辑领域的应用范围。
尽管本发明的具体实施方式已经得到详细的描述,但本领域技术人员将理解:根据已经公布的所有教导,可以对细节进行各种修改和变动,并且这些改变均在本发明的保护范围之内。本发明的全部分为由所附权利要求及其任何等同物给出。
Claims (10)
1.一种Cas突变蛋白,所述突变蛋白与亲本Cas蛋白的氨基酸序列相比,具有氨基酸的缺失,其特征在于,
所述突变蛋白与亲本Cas蛋白的氨基酸相比,缺失了对应于SEQ ID No.1所示氨基酸序列的第891-1045位氨基酸区域;或者,
所述突变蛋白与亲本Cas蛋白的氨基酸相比,缺失了对应于SEQ ID No.1所示氨基酸序列的第1034-1045位氨基酸区域;或者,
所述突变蛋白与亲本Cas蛋白的氨基酸相比,缺失了对应于SEQ ID No.1所示氨基酸序列的第911-1045位氨基酸区域;或者,
所述突变蛋白与亲本Cas蛋白的氨基酸相比,缺失了对应于SEQ ID No.1所示氨基酸序列的第1014-1045位氨基酸区域;或者,
所述突变蛋白与亲本Cas蛋白的氨基酸相比,缺失了对应于SEQ ID No.1所示氨基酸序列的第833-1045位氨基酸区域;
优选的,所述突变蛋白与亲本Cas蛋白的氨基酸序列相比,在对应于SEQ ID No.1所示氨基酸序列以下氨基酸位点存在突变:第844位或第619位,优选的,所述第844位或第619位氨基酸突变为A;
优选的,所述亲本Cas蛋白为Cas12i家族的Cas蛋白;
更优选的,所述亲本Cas蛋白的氨基酸序列与SEQ ID No.1相比具有至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、或至少99.9%的序列同一性。
2.一种融合蛋白,所述融合蛋白包括权利要求1所述的Cas突变蛋白以及其他的修饰部分;优选的,所述修饰部分选自另外的蛋白或多肽、可检测的标记或其任意组合。
3.一种分离的多核苷酸,其特征在于,所述多核苷酸为编码权利要求1所述Cas突变蛋白的多核苷酸序列,或编码权利要求2所述融合蛋白的多核苷酸序列。
4.一种载体,其特征在于,所述载体包含权利要求3所述的多核苷酸以及与之可操作连接的调控元件。
5.一种CRISPR-Cas系统,其特征在于,所述系统包括权利要求2所述的融合蛋白以及至少一种gRNA,所述gRNA包括能够结合权利要求2所述的融合蛋白中的Cas突变蛋白。
6.一种组合物,其特征在于,所述组合物包含:
(i)蛋白组分,其选自:权利要求1所述Cas突变蛋白或权利要求2所述的融合蛋白;
(ii)核酸组分,其为gRNA,所述gRNA包括能够结合权利要求1所述的Cas突变蛋白的同向重复序列和能够与靶序列杂交的引导序列。
7.一种工程化的宿主细胞,其特征在于,所述宿主细胞包含权利要求1所述的Cas突变蛋白,或权利要求2所述的融合蛋白,或权利要求3所述的多核苷酸,或权利要求4所述的载体,或权利要求5所述的CRISPR-Cas系统,或权利要求6所述的组合物。
8.权利要求1所述的Cas突变蛋白,或权利要求2所述的融合蛋白,或权利要求3所述的多核苷酸,或权利要求4所述的载体,或权利要求5所述的CRISPR-Cas系统,或权利要求6所述的组合物,或权利要求7所述的宿主细胞在基因编辑中的应用;
或者,在制备试剂或试剂盒中的用途,所述试剂或试剂盒用于基因编辑,编辑靶基因座中的靶序列来修饰生物,或疾病的治疗;
优选的,所述基因编辑为对靶基因进行单碱基编辑。
9.一种用于基因编辑的试剂盒,其特征在于,所述试剂盒包括权利要求1所述的Cas突变蛋白,或权利要求2所述的融合蛋白,或权利要求3所述的多核苷酸,或权利要求4所述的载体,或权利要求5所述的CRISPR-Cas系统,或权利要求6所述的组合物,或权利要求7所述的宿主细胞。
10.一种编辑核酸的方法,该方法包括使核酸的靶区域与权利要求2所述的融合蛋白和gRNA接触的步骤,所述gRNA包含能够结合权利要求2所述的融合蛋白中的Cas突变蛋白以及能够结合所述核酸的靶区域的区段;所述融合蛋白中的修饰部分为核苷酸脱氨酶;其中,所述靶区域包含靶向的碱基对,所述融合蛋白能够将所述靶向的碱基对进行碱基替换;
优选的,所述融合蛋白中的核苷酸脱氨酶为腺苷脱氨酶,所述靶向的碱基对由A:T替换为G:C;
优选的,所述融合蛋白中的核苷酸脱氨酶为胞苷脱氨酶,所述靶向的碱基对由C:G替换为A:T。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311188877 | 2023-09-14 | ||
CN2023111888773 | 2023-09-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118813586A true CN118813586A (zh) | 2024-10-22 |
Family
ID=93071159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411068288.6A Pending CN118813586A (zh) | 2023-09-14 | 2024-08-06 | 突变的Cas蛋白及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118813586A (zh) |
-
2024
- 2024-08-06 CN CN202411068288.6A patent/CN118813586A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116004573B (zh) | 编辑活性提高的Cas蛋白及其应用 | |
CN114438055B (zh) | 新型的crispr酶和系统以及应用 | |
WO2024041299A1 (zh) | 突变的CRISPR-Cas蛋白及其应用 | |
WO2024040874A1 (zh) | 突变的Cas12j蛋白及其应用 | |
CN116555225B (zh) | 活性改善的Cas蛋白及其应用 | |
CN117050971A (zh) | Cas突变蛋白及其应用 | |
CN116732012A (zh) | 碱基编辑器及其应用 | |
CN116555227A (zh) | 新型Cas酶以及应用 | |
CN116179510A (zh) | Cas酶和系统以及应用 | |
CN115725543A (zh) | Crispr酶以及系统 | |
CN118813586A (zh) | 突变的Cas蛋白及其应用 | |
CN118006585B (zh) | 一种优化的Cas蛋白及其应用 | |
CN117821424B (zh) | 一种优化的IscB蛋白及其应用 | |
WO2025131035A1 (zh) | 一种碱基编辑工具及其应用 | |
WO2025044685A1 (zh) | 编辑活性改善的cas12j蛋白及其应用 | |
WO2025108148A1 (zh) | 一种活性改善的cas蛋白及其应用 | |
CN116200369A (zh) | 一类新型的Cas酶及其应用 | |
CN118076730A (zh) | 活性改善的Cas蛋白及其应用 | |
CN118613580A (zh) | 一种工程化的Cas蛋白及其应用 | |
WO2025010912A1 (zh) | 一种工程化的Cas蛋白及其应用 | |
CN120098967A (zh) | 一种新型Cas酶和系统及应用 | |
CN118910008A (zh) | 一种新型crispr酶和系统及应用 | |
CN116218816A (zh) | 新型的Cas12酶和系统以及应用 | |
CN117327679A (zh) | 碱基编辑工具及其应用 | |
CN117625578A (zh) | Crispr酶和系统及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |