CN117187220A - 腺嘌呤脱氨酶及其在碱基编辑中的用途 - Google Patents
腺嘌呤脱氨酶及其在碱基编辑中的用途 Download PDFInfo
- Publication number
- CN117187220A CN117187220A CN202310217401.1A CN202310217401A CN117187220A CN 117187220 A CN117187220 A CN 117187220A CN 202310217401 A CN202310217401 A CN 202310217401A CN 117187220 A CN117187220 A CN 117187220A
- Authority
- CN
- China
- Prior art keywords
- base editing
- amino acid
- seq
- sequence
- fusion protein
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108010052875 Adenine deaminase Proteins 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 57
- 108090000623 proteins and genes Proteins 0.000 claims description 80
- 210000004027 cell Anatomy 0.000 claims description 62
- 108091033409 CRISPR Proteins 0.000 claims description 58
- 241000196324 Embryophyta Species 0.000 claims description 56
- 150000007523 nucleic acids Chemical class 0.000 claims description 55
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 49
- 102000039446 nucleic acids Human genes 0.000 claims description 47
- 108020004707 nucleic acids Proteins 0.000 claims description 47
- 102000004169 proteins and genes Human genes 0.000 claims description 47
- 239000002773 nucleotide Substances 0.000 claims description 45
- 125000003729 nucleotide group Chemical group 0.000 claims description 45
- 150000001413 amino acids Chemical class 0.000 claims description 44
- 102000037865 fusion proteins Human genes 0.000 claims description 41
- 108020001507 fusion proteins Proteins 0.000 claims description 41
- 238000006467 substitution reaction Methods 0.000 claims description 36
- 201000010099 disease Diseases 0.000 claims description 25
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 25
- 230000014509 gene expression Effects 0.000 claims description 25
- 108020005004 Guide RNA Proteins 0.000 claims description 24
- 238000010354 CRISPR gene editing Methods 0.000 claims description 23
- 230000009466 transformation Effects 0.000 claims description 20
- 230000008685 targeting Effects 0.000 claims description 19
- 229930024421 Adenine Natural products 0.000 claims description 18
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 claims description 18
- 240000007594 Oryza sativa Species 0.000 claims description 18
- 235000007164 Oryza sativa Nutrition 0.000 claims description 18
- 229960000643 adenine Drugs 0.000 claims description 18
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 18
- 235000009566 rice Nutrition 0.000 claims description 18
- 239000012636 effector Substances 0.000 claims description 17
- 102000004196 processed proteins & peptides Human genes 0.000 claims description 16
- 229920001184 polypeptide Polymers 0.000 claims description 15
- 210000001938 protoplast Anatomy 0.000 claims description 12
- 244000062793 Sorghum vulgare Species 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 11
- 241000272517 Anseriformes Species 0.000 claims description 10
- 235000021307 Triticum Nutrition 0.000 claims description 9
- 238000010362 genome editing Methods 0.000 claims description 9
- 230000009615 deamination Effects 0.000 claims description 8
- 238000006481 deamination reaction Methods 0.000 claims description 8
- 230000001404 mediated effect Effects 0.000 claims description 8
- 108020004705 Codon Proteins 0.000 claims description 7
- 241000124008 Mammalia Species 0.000 claims description 7
- 240000008042 Zea mays Species 0.000 claims description 7
- 235000002017 Zea mays subsp mays Nutrition 0.000 claims description 7
- 241000287828 Gallus gallus Species 0.000 claims description 6
- 244000068988 Glycine max Species 0.000 claims description 6
- 235000010469 Glycine max Nutrition 0.000 claims description 6
- 240000005979 Hordeum vulgare Species 0.000 claims description 6
- 235000007340 Hordeum vulgare Nutrition 0.000 claims description 6
- 235000011684 Sorghum saccharatum Nutrition 0.000 claims description 6
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 claims description 6
- 235000013330 chicken meat Nutrition 0.000 claims description 6
- 235000009973 maize Nutrition 0.000 claims description 6
- 241000283690 Bos taurus Species 0.000 claims description 5
- 235000014698 Brassica juncea var multisecta Nutrition 0.000 claims description 5
- 235000006008 Brassica napus var napus Nutrition 0.000 claims description 5
- 240000000385 Brassica napus var. napus Species 0.000 claims description 5
- 235000006618 Brassica rapa subsp oleifera Nutrition 0.000 claims description 5
- 235000004977 Brassica sinapistrum Nutrition 0.000 claims description 5
- 241000282472 Canis lupus familiaris Species 0.000 claims description 5
- 241000282693 Cercopithecidae Species 0.000 claims description 5
- 229920000742 Cotton Polymers 0.000 claims description 5
- 241000282326 Felis catus Species 0.000 claims description 5
- 244000020551 Helianthus annuus Species 0.000 claims description 5
- 235000003222 Helianthus annuus Nutrition 0.000 claims description 5
- 241000282412 Homo Species 0.000 claims description 5
- 241000282414 Homo sapiens Species 0.000 claims description 5
- 235000007688 Lycopersicon esculentum Nutrition 0.000 claims description 5
- 240000003183 Manihot esculenta Species 0.000 claims description 5
- 235000016735 Manihot esculenta subsp esculenta Nutrition 0.000 claims description 5
- 240000004658 Medicago sativa Species 0.000 claims description 5
- 235000017587 Medicago sativa ssp. sativa Nutrition 0.000 claims description 5
- 244000061176 Nicotiana tabacum Species 0.000 claims description 5
- 235000002637 Nicotiana tabacum Nutrition 0.000 claims description 5
- 241001494479 Pecora Species 0.000 claims description 5
- 241000700159 Rattus Species 0.000 claims description 5
- 240000000111 Saccharum officinarum Species 0.000 claims description 5
- 235000007201 Saccharum officinarum Nutrition 0.000 claims description 5
- 240000003768 Solanum lycopersicum Species 0.000 claims description 5
- 244000061456 Solanum tuberosum Species 0.000 claims description 5
- 235000002595 Solanum tuberosum Nutrition 0.000 claims description 5
- 244000038559 crop plants Species 0.000 claims description 5
- 235000019713 millet Nutrition 0.000 claims description 5
- 239000008194 pharmaceutical composition Substances 0.000 claims description 5
- 244000144977 poultry Species 0.000 claims description 5
- 235000013594 poultry meat Nutrition 0.000 claims description 5
- 241000699670 Mus sp. Species 0.000 claims description 4
- 241000282887 Suidae Species 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 241000589158 Agrobacterium Species 0.000 claims description 3
- 241000700605 Viruses Species 0.000 claims description 3
- 230000030648 nucleus localization Effects 0.000 claims description 3
- 208000024827 Alzheimer disease Diseases 0.000 claims description 2
- 206010003805 Autism Diseases 0.000 claims description 2
- 208000020706 Autistic disease Diseases 0.000 claims description 2
- 208000024172 Cardiovascular disease Diseases 0.000 claims description 2
- 241000702421 Dependoparvovirus Species 0.000 claims description 2
- 208000026350 Inborn Genetic disease Diseases 0.000 claims description 2
- 206010061218 Inflammation Diseases 0.000 claims description 2
- 241000713666 Lentivirus Species 0.000 claims description 2
- 206010028980 Neoplasm Diseases 0.000 claims description 2
- 208000018737 Parkinson disease Diseases 0.000 claims description 2
- 241000700618 Vaccinia virus Species 0.000 claims description 2
- 208000036142 Viral infection Diseases 0.000 claims description 2
- 206010064930 age-related macular degeneration Diseases 0.000 claims description 2
- 239000001506 calcium phosphate Substances 0.000 claims description 2
- 229910000389 calcium phosphate Inorganic materials 0.000 claims description 2
- 235000011010 calcium phosphates Nutrition 0.000 claims description 2
- 239000003937 drug carrier Substances 0.000 claims description 2
- 206010013663 drug dependence Diseases 0.000 claims description 2
- 238000004520 electroporation Methods 0.000 claims description 2
- 230000004054 inflammatory process Effects 0.000 claims description 2
- 238000001638 lipofection Methods 0.000 claims description 2
- 208000002780 macular degeneration Diseases 0.000 claims description 2
- 238000000520 microinjection Methods 0.000 claims description 2
- 201000000980 schizophrenia Diseases 0.000 claims description 2
- 208000011117 substance-related disease Diseases 0.000 claims description 2
- 238000001890 transfection Methods 0.000 claims description 2
- QORWJWZARLRLPR-UHFFFAOYSA-H tricalcium bis(phosphate) Chemical compound [Ca+2].[Ca+2].[Ca+2].[O-]P([O-])([O-])=O.[O-]P([O-])([O-])=O QORWJWZARLRLPR-UHFFFAOYSA-H 0.000 claims description 2
- 241000701161 unidentified adenovirus Species 0.000 claims description 2
- 241000701447 unidentified baculovirus Species 0.000 claims description 2
- 230000009385 viral infection Effects 0.000 claims description 2
- 101710154124 Adenine deaminase 1 Proteins 0.000 claims 2
- 244000299507 Gossypium hirsutum Species 0.000 claims 2
- 244000098338 Triticum aestivum Species 0.000 claims 2
- 230000002068 genetic effect Effects 0.000 claims 2
- 210000004602 germ cell Anatomy 0.000 claims 2
- 108010080611 Cytosine Deaminase Proteins 0.000 claims 1
- 102000000311 Cytosine Deaminase Human genes 0.000 claims 1
- 208000028782 Hereditary disease Diseases 0.000 claims 1
- 208000024556 Mendelian disease Diseases 0.000 claims 1
- 241000699666 Mus <mouse, genus> Species 0.000 claims 1
- 241000282898 Sus scrofa Species 0.000 claims 1
- 235000003869 genetically modified organism Nutrition 0.000 abstract description 4
- 238000010353 genetic engineering Methods 0.000 abstract description 2
- 235000001014 amino acid Nutrition 0.000 description 60
- 235000018102 proteins Nutrition 0.000 description 44
- 229940024606 amino acid Drugs 0.000 description 37
- 101710163270 Nuclease Proteins 0.000 description 27
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 18
- 108020004414 DNA Proteins 0.000 description 16
- 230000004048 modification Effects 0.000 description 16
- 238000012986 modification Methods 0.000 description 16
- 230000001105 regulatory effect Effects 0.000 description 15
- 108091028043 Nucleic acid sequence Proteins 0.000 description 14
- 101710199622 tRNA-specific adenosine deaminase Proteins 0.000 description 13
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 210000001519 tissue Anatomy 0.000 description 11
- 230000035772 mutation Effects 0.000 description 9
- 108091033319 polynucleotide Proteins 0.000 description 8
- 102000040430 polynucleotide Human genes 0.000 description 8
- 239000002157 polynucleotide Substances 0.000 description 8
- 241000588724 Escherichia coli Species 0.000 description 7
- 241000209140 Triticum Species 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 241000894007 species Species 0.000 description 7
- 238000013518 transcription Methods 0.000 description 7
- 230000035897 transcription Effects 0.000 description 7
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 6
- 108091026890 Coding region Proteins 0.000 description 6
- 102220605874 Cytosolic arginine sensor for mTORC1 subunit 2_D10A_mutation Human genes 0.000 description 6
- 102000053602 DNA Human genes 0.000 description 6
- 229960005305 adenosine Drugs 0.000 description 6
- 230000009418 agronomic effect Effects 0.000 description 6
- 108010012029 Guanine Deaminase Proteins 0.000 description 5
- 102000013587 Guanine deaminase Human genes 0.000 description 5
- 229930010555 Inosine Natural products 0.000 description 5
- UGQMRVRMYYASKQ-KQYNXXCUSA-N Inosine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C2=NC=NC(O)=C2N=C1 UGQMRVRMYYASKQ-KQYNXXCUSA-N 0.000 description 5
- 108020004682 Single-Stranded DNA Proteins 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 5
- 229960003786 inosine Drugs 0.000 description 5
- 108091033380 Coding strand Proteins 0.000 description 4
- 108010008532 Deoxyribonuclease I Proteins 0.000 description 4
- 102000007260 Deoxyribonuclease I Human genes 0.000 description 4
- 108091081021 Sense strand Proteins 0.000 description 4
- 230000004075 alteration Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 4
- 238000000338 in vitro Methods 0.000 description 4
- 230000001939 inductive effect Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 229920000642 polymer Polymers 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- -1 single-stranded DNA Chemical class 0.000 description 4
- 239000000243 solution Substances 0.000 description 4
- 230000001131 transforming effect Effects 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 3
- 241000219146 Gossypium Species 0.000 description 3
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 3
- 108700026244 Open Reading Frames Proteins 0.000 description 3
- 108091081024 Start codon Proteins 0.000 description 3
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 3
- 239000003623 enhancer Substances 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 229930182817 methionine Natural products 0.000 description 3
- 239000013612 plasmid Substances 0.000 description 3
- 230000004853 protein function Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 239000000758 substrate Substances 0.000 description 3
- 230000002103 transcriptional effect Effects 0.000 description 3
- 239000011701 zinc Substances 0.000 description 3
- 229910052725 zinc Inorganic materials 0.000 description 3
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 2
- 101000909256 Caldicellulosiruptor bescii (strain ATCC BAA-1888 / DSM 6725 / Z-1320) DNA polymerase I Proteins 0.000 description 2
- 101710177611 DNA polymerase II large subunit Proteins 0.000 description 2
- 101710184669 DNA polymerase II small subunit Proteins 0.000 description 2
- 230000007018 DNA scission Effects 0.000 description 2
- 230000004568 DNA-binding Effects 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 241000206602 Eukaryota Species 0.000 description 2
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 2
- NYHBQMYGNKIUIF-UUOKFMHZSA-N Guanosine Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O NYHBQMYGNKIUIF-UUOKFMHZSA-N 0.000 description 2
- 108060003760 HNH nuclease Proteins 0.000 description 2
- 102000029812 HNH nuclease Human genes 0.000 description 2
- 102000004157 Hydrolases Human genes 0.000 description 2
- 108090000604 Hydrolases Proteins 0.000 description 2
- 108091092195 Intron Proteins 0.000 description 2
- 108091005461 Nucleic proteins Proteins 0.000 description 2
- 101000902592 Pyrococcus furiosus (strain ATCC 43587 / DSM 3638 / JCM 8422 / Vc1) DNA polymerase Proteins 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 2
- 241000191967 Staphylococcus aureus Species 0.000 description 2
- 241000193996 Streptococcus pyogenes Species 0.000 description 2
- 101000910035 Streptococcus pyogenes serotype M1 CRISPR-associated endonuclease Cas9/Csn1 Proteins 0.000 description 2
- 101100059152 Thermococcus onnurineus (strain NA1) csm1 gene Proteins 0.000 description 2
- IQFYYKKMVGJFEH-XLPZGREQSA-N Thymidine Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 IQFYYKKMVGJFEH-XLPZGREQSA-N 0.000 description 2
- 108091028113 Trans-activating crRNA Proteins 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 2
- DRTQHJPVMGBUCF-XVFCMESISA-N Uridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-XVFCMESISA-N 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 125000000539 amino acid group Chemical group 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000000692 anti-sense effect Effects 0.000 description 2
- 230000004071 biological effect Effects 0.000 description 2
- 101150090505 cas10 gene Proteins 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000003776 cleavage reaction Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000005782 double-strand break Effects 0.000 description 2
- 239000013604 expression vector Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012239 gene modification Methods 0.000 description 2
- 230000005017 genetic modification Effects 0.000 description 2
- 230000007614 genetic variation Effects 0.000 description 2
- 235000013617 genetically modified food Nutrition 0.000 description 2
- FDGQSTZJBFJUBT-UHFFFAOYSA-N hypoxanthine Chemical compound O=C1NC=NC2=C1NC=N2 FDGQSTZJBFJUBT-UHFFFAOYSA-N 0.000 description 2
- 230000002779 inactivation Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 235000018977 lysine Nutrition 0.000 description 2
- 108020004999 messenger RNA Proteins 0.000 description 2
- 108091005573 modified proteins Proteins 0.000 description 2
- 102000035118 modified proteins Human genes 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 229920001223 polyethylene glycol Polymers 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 239000006228 supernatant Substances 0.000 description 2
- DIGQNXIGRZPYDK-WKSCXVIASA-N (2R)-6-amino-2-[[2-[[(2S)-2-[[2-[[(2R)-2-[[(2S)-2-[[(2R,3S)-2-[[2-[[(2S)-2-[[2-[[(2S)-2-[[(2S)-2-[[(2R)-2-[[(2S,3S)-2-[[(2R)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[2-[[(2S)-2-[[(2R)-2-[[2-[[2-[[2-[(2-amino-1-hydroxyethylidene)amino]-3-carboxy-1-hydroxypropylidene]amino]-1-hydroxy-3-sulfanylpropylidene]amino]-1-hydroxyethylidene]amino]-1-hydroxy-3-sulfanylpropylidene]amino]-1,3-dihydroxypropylidene]amino]-1-hydroxyethylidene]amino]-1-hydroxypropylidene]amino]-1,3-dihydroxypropylidene]amino]-1,3-dihydroxypropylidene]amino]-1-hydroxy-3-sulfanylpropylidene]amino]-1,3-dihydroxybutylidene]amino]-1-hydroxy-3-sulfanylpropylidene]amino]-1-hydroxypropylidene]amino]-1,3-dihydroxypropylidene]amino]-1-hydroxyethylidene]amino]-1,5-dihydroxy-5-iminopentylidene]amino]-1-hydroxy-3-sulfanylpropylidene]amino]-1,3-dihydroxybutylidene]amino]-1-hydroxy-3-sulfanylpropylidene]amino]-1,3-dihydroxypropylidene]amino]-1-hydroxyethylidene]amino]-1-hydroxy-3-sulfanylpropylidene]amino]-1-hydroxyethylidene]amino]hexanoic acid Chemical compound C[C@@H]([C@@H](C(=N[C@@H](CS)C(=N[C@@H](C)C(=N[C@@H](CO)C(=NCC(=N[C@@H](CCC(=N)O)C(=NC(CS)C(=N[C@H]([C@H](C)O)C(=N[C@H](CS)C(=N[C@H](CO)C(=NCC(=N[C@H](CS)C(=NCC(=N[C@H](CCCCN)C(=O)O)O)O)O)O)O)O)O)O)O)O)O)O)O)N=C([C@H](CS)N=C([C@H](CO)N=C([C@H](CO)N=C([C@H](C)N=C(CN=C([C@H](CO)N=C([C@H](CS)N=C(CN=C(C(CS)N=C(C(CC(=O)O)N=C(CN)O)O)O)O)O)O)O)O)O)O)O)O DIGQNXIGRZPYDK-WKSCXVIASA-N 0.000 description 1
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 1
- UHDGCWIWMRVCDJ-UHFFFAOYSA-N 1-beta-D-Xylofuranosyl-NH-Cytosine Natural products O=C1N=C(N)C=CN1C1C(O)C(O)C(CO)O1 UHDGCWIWMRVCDJ-UHFFFAOYSA-N 0.000 description 1
- YKBGVTZYEHREMT-KVQBGUIXSA-N 2'-deoxyguanosine Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](CO)O1 YKBGVTZYEHREMT-KVQBGUIXSA-N 0.000 description 1
- CKTSBUTUHBMZGZ-ULQXZJNLSA-N 4-amino-1-[(2r,4s,5r)-4-hydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-tritiopyrimidin-2-one Chemical compound O=C1N=C(N)C([3H])=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 CKTSBUTUHBMZGZ-ULQXZJNLSA-N 0.000 description 1
- 230000005730 ADP ribosylation Effects 0.000 description 1
- 102000007469 Actins Human genes 0.000 description 1
- 108010085238 Actins Proteins 0.000 description 1
- 102000052866 Amino Acyl-tRNA Synthetases Human genes 0.000 description 1
- 108700028939 Amino Acyl-tRNA Synthetases Proteins 0.000 description 1
- 241000219194 Arabidopsis Species 0.000 description 1
- 235000017060 Arachis glabrata Nutrition 0.000 description 1
- 244000105624 Arachis hypogaea Species 0.000 description 1
- 235000010777 Arachis hypogaea Nutrition 0.000 description 1
- 235000018262 Arachis monticola Nutrition 0.000 description 1
- 231100000699 Bacterial toxin Toxicity 0.000 description 1
- 101710172824 CRISPR-associated endonuclease Cas9 Proteins 0.000 description 1
- 238000010453 CRISPR/Cas method Methods 0.000 description 1
- 101150075629 CSM2 gene Proteins 0.000 description 1
- 101150069031 CSN2 gene Proteins 0.000 description 1
- 101150078885 CSY3 gene Proteins 0.000 description 1
- 241000701489 Cauliflower mosaic virus Species 0.000 description 1
- MIKUYHXYGGJMLM-GIMIYPNGSA-N Crotonoside Natural products C1=NC2=C(N)NC(=O)N=C2N1[C@H]1O[C@@H](CO)[C@H](O)[C@@H]1O MIKUYHXYGGJMLM-GIMIYPNGSA-N 0.000 description 1
- UHDGCWIWMRVCDJ-PSQAKQOGSA-N Cytidine Natural products O=C1N=C(N)C=CN1[C@@H]1[C@@H](O)[C@@H](O)[C@H](CO)O1 UHDGCWIWMRVCDJ-PSQAKQOGSA-N 0.000 description 1
- 241000701022 Cytomegalovirus Species 0.000 description 1
- FBPFZTCFMRRESA-KVTDHHQDSA-N D-Mannitol Chemical compound OC[C@@H](O)[C@@H](O)[C@H](O)[C@H](O)CO FBPFZTCFMRRESA-KVTDHHQDSA-N 0.000 description 1
- NYHBQMYGNKIUIF-UHFFFAOYSA-N D-guanosine Natural products C1=2NC(N)=NC(=O)C=2N=CN1C1OC(CO)C(O)C1O NYHBQMYGNKIUIF-UHFFFAOYSA-N 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 101100275895 Emericella nidulans (strain FGSC A4 / ATCC 38163 / CBS 112.46 / NRRL 194 / M139) csnB gene Proteins 0.000 description 1
- 101100007788 Escherichia coli (strain K12) casA gene Proteins 0.000 description 1
- 101100007792 Escherichia coli (strain K12) casB gene Proteins 0.000 description 1
- 101100219622 Escherichia coli (strain K12) casC gene Proteins 0.000 description 1
- 101100382541 Escherichia coli (strain K12) casD gene Proteins 0.000 description 1
- 241000589599 Francisella tularensis subsp. novicida Species 0.000 description 1
- 101100273274 Haloferax volcanii (strain ATCC 29605 / DSM 3757 / JCM 8879 / NBRC 14742 / NCIMB 2012 / VKM B-1768 / DS2) cas8b gene Proteins 0.000 description 1
- UGQMRVRMYYASKQ-UHFFFAOYSA-N Hypoxanthine nucleoside Natural products OC1C(O)C(CO)OC1N1C(NC=NC2=O)=C2N=C1 UGQMRVRMYYASKQ-UHFFFAOYSA-N 0.000 description 1
- 241000689670 Lachnospiraceae bacterium ND2006 Species 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 241000209510 Liliopsida Species 0.000 description 1
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 1
- 239000004472 Lysine Substances 0.000 description 1
- 241000829100 Macaca mulatta polyomavirus 1 Species 0.000 description 1
- 229930195725 Mannitol Natural products 0.000 description 1
- 102000003792 Metallothionein Human genes 0.000 description 1
- 108090000157 Metallothionein Proteins 0.000 description 1
- 101100387131 Myxococcus xanthus (strain DK1622) devS gene Proteins 0.000 description 1
- 239000004677 Nylon Substances 0.000 description 1
- 229920001030 Polyethylene Glycol 4000 Polymers 0.000 description 1
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 1
- 108020004511 Recombinant DNA Proteins 0.000 description 1
- 241000714474 Rous sarcoma virus Species 0.000 description 1
- 239000005708 Sodium hypochlorite Substances 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 108700041896 Zea mays Ubi-1 Proteins 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 101710185494 Zinc finger protein Proteins 0.000 description 1
- 102100023597 Zinc finger protein 816 Human genes 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 235000009697 arginine Nutrition 0.000 description 1
- 150000001484 arginines Chemical class 0.000 description 1
- 239000000688 bacterial toxin Substances 0.000 description 1
- 102000005936 beta-Galactosidase Human genes 0.000 description 1
- 108010005774 beta-Galactosidase Proteins 0.000 description 1
- DRTQHJPVMGBUCF-PSQAKQOGSA-N beta-L-uridine Natural products O[C@H]1[C@@H](O)[C@H](CO)O[C@@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-PSQAKQOGSA-N 0.000 description 1
- 230000027455 binding Effects 0.000 description 1
- 102000023732 binding proteins Human genes 0.000 description 1
- 108091008324 binding proteins Proteins 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 210000004899 c-terminal region Anatomy 0.000 description 1
- 101150111685 cas4 gene Proteins 0.000 description 1
- 101150049463 cas5 gene Proteins 0.000 description 1
- 101150038500 cas9 gene Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 210000003763 chloroplast Anatomy 0.000 description 1
- 239000013611 chromosomal DNA Substances 0.000 description 1
- 101150095330 cmr5 gene Proteins 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 101150088252 csy1 gene Proteins 0.000 description 1
- 101150016576 csy2 gene Proteins 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- UHDGCWIWMRVCDJ-ZAKLUEHWSA-N cytidine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@@H](O)[C@H](CO)O1 UHDGCWIWMRVCDJ-ZAKLUEHWSA-N 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 230000001086 cytosolic effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- MTHSVFCYNBDYFN-UHFFFAOYSA-N diethylene glycol Chemical compound OCCOCCO MTHSVFCYNBDYFN-UHFFFAOYSA-N 0.000 description 1
- 230000003828 downregulation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 241001233957 eudicotyledons Species 0.000 description 1
- 238000000684 flow cytometry Methods 0.000 description 1
- 230000006251 gamma-carboxylation Effects 0.000 description 1
- 238000012214 genetic breeding Methods 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 125000000291 glutamic acid group Chemical group N[C@@H](CCC(O)=O)C(=O)* 0.000 description 1
- 230000013595 glycosylation Effects 0.000 description 1
- 238000006206 glycosylation reaction Methods 0.000 description 1
- 229940029575 guanosine Drugs 0.000 description 1
- 230000003054 hormonal effect Effects 0.000 description 1
- 230000033444 hydroxylation Effects 0.000 description 1
- 238000005805 hydroxylation reaction Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 229960000310 isoleucine Drugs 0.000 description 1
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004020 luminiscence type Methods 0.000 description 1
- 150000002669 lysines Chemical class 0.000 description 1
- 235000010355 mannitol Nutrition 0.000 description 1
- 239000000594 mannitol Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 238000005374 membrane filtration Methods 0.000 description 1
- 230000033607 mismatch repair Effects 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 230000002438 mitochondrial effect Effects 0.000 description 1
- 231100000219 mutagenic Toxicity 0.000 description 1
- 230000003505 mutagenic effect Effects 0.000 description 1
- 229920001778 nylon Polymers 0.000 description 1
- 230000009437 off-target effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000003463 organelle Anatomy 0.000 description 1
- 210000001672 ovary Anatomy 0.000 description 1
- 235000020232 peanut Nutrition 0.000 description 1
- 238000003976 plant breeding Methods 0.000 description 1
- 210000002706 plastid Anatomy 0.000 description 1
- 230000008488 polyadenylation Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000009145 protein modification Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- SUKJFIGYRHOWBL-UHFFFAOYSA-N sodium hypochlorite Chemical compound [Na+].Cl[O-] SUKJFIGYRHOWBL-UHFFFAOYSA-N 0.000 description 1
- 239000008223 sterile water Substances 0.000 description 1
- 230000019635 sulfation Effects 0.000 description 1
- 238000005670 sulfation reaction Methods 0.000 description 1
- 230000014626 tRNA modification Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 230000005030 transcription termination Effects 0.000 description 1
- 230000009261 transgenic effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000003827 upregulation Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- DRTQHJPVMGBUCF-UHFFFAOYSA-N uracil arabinoside Natural products OC1C(O)C(CO)OC1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-UHFFFAOYSA-N 0.000 description 1
- 229940045145 uridine Drugs 0.000 description 1
- 239000013603 viral vector Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/16—Hydrolases (3) acting on ester bonds (3.1)
- C12N9/22—Ribonucleases RNAses, DNAses
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/78—Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Biotechnology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Medicinal Chemistry (AREA)
- Plant Pathology (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
- Enzymes And Modification Thereof (AREA)
Abstract
本发明涉及基因工程领域。具体而言,本发明涉及腺嘌呤脱氨酶及其在碱基编辑中的用途。更具体而言,本发明涉及一种基于新鉴定的腺嘌呤脱氨酶的碱基编辑系统,使用该碱基编辑系统对生物体(例如植物)基因组中的靶序列进行碱基编辑的方法,以及通过所述方法产生的经遗传修饰的生物体(例如植物)及其后代。
Description
技术领域
本发明涉及基因工程领域。具体而言,本发明涉及腺嘌呤脱氨酶及其在碱基编辑中的用途。更具体而言,本发明涉及一种基于新鉴定的腺嘌呤脱氨酶的碱基编辑系统,使用该碱基编辑系统对生物体(例如植物)基因组中的靶序列进行碱基编辑的方法,以及通过所述方法产生的经遗传修饰的生物体(例如植物)及其后代。
发明背景
对生物体的基因组进行特定序列的修改,可以赋予生物体新的可稳定遗传的性状。其中,特定位点的单核苷酸的变异,有可能导致基因的氨基酸序列发生改变或提前终止,或者导致调控序列的改变,从而导致优良性状的产生。基因组编辑技术,例如CRISPR/Cas9系统,可以实现对目标序列的靶向功能。利用基因组编辑系统与目标序列结合的特性,将其与脱氨酶进行结合所开发出的碱基编辑系统,可以实现精准地对基因组上的靶位点进行脱氨的功能。目前,最常用的量大碱基编辑系统包括胞嘧啶碱基编辑系统和腺嘌呤碱基编辑系统。其中,通过融合大肠杆菌TadA(tRNA-specific adenosine deaminase)的变体,可以实现目标位点腺嘌呤(A)向次黄嘌呤(I)的转变。DNA上的I可以被细胞识别为鸟嘌呤(G),并且在复制过程中I会被G所替换。因此,目标位点的A可以最终实现向G进行转变。此外,通过在对侧未发生脱氨的单链引入缺刻使其断裂,可以显著提升碱基编辑的效率。由于自然界中不存在可以直接对DNA的腺嘌呤(A)进行脱氨的腺嘌呤脱氨酶,目前可用于DNA水平上的腺嘌呤脱氨酶的系统只有由David R.Liu团队经过进化得到的一系列来源于大肠杆菌的ecTadA变体。因此,寻找新型的腺嘌呤脱氨酶,对于扩充现有的腺嘌呤碱基编辑系统、提升精确操纵目标DNA序列的能力具有非常重要的意义。
附图简述
图1:No.135潜在腺嘌呤脱氨酶与大肠杆菌ecTadA的序列相似度。
图2:对NO.135潜在脱氨酶关键位点进行改造后可在报告系统中实现腺嘌呤碱基编辑。
图3:随机挑选的具有VnxN10xHAEnxPCxMC特征序列并且分别被注释为鸟嘌呤脱氨酶、赖氨酸tRNA合成酶、HAD水解酶和尚未被注释蛋白功能的蛋白与TadA的结构相似度。其中浅色为大肠杆菌TadA,深色为候选蛋白。
图4:No.1299和No.1417鸟嘌呤脱氨酶与大肠杆菌ecTadA的序列相似度。
图5:对NO.1299潜在脱氨酶关键位点进行改造后可在报告系统中实现腺嘌呤碱基编辑。
图6:对NO.1417潜在脱氨酶关键位点进行改造后可在报告系统中实现腺嘌呤碱基编辑。
发明详述
一、定义
在本发明中,除非另有说明,否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且,本文中所用的蛋白质和核酸化学、分子生物学、细胞和组织培养、微生物学、免疫学相关术语和实验室操作步骤均为相应领域内广泛使用的术语和常规步骤。同时,为了更好地理解本发明,下面提供相关术语的定义和解释。
如本文所用,术语“和/或”涵盖由该术语连接的项目的所有组合,应视作各个组合已经单独地在本文列出。例如,“A和/或B”涵盖了“A”、“A和B”以及“B”。例如,“A、B和/或C”涵盖“A”、“B”、“C”、“A和B”、“A和C”、“B和C”以及“A和B和C”。
“基因组”如本文所用不仅涵盖存在于细胞核中的染色体DNA,而且还包括存在于细胞的亚细胞组分(如线粒体、质体)中的细胞器DNA。
如本文所用,“生物体”包括适于基因组编辑的任何生物体,优选真核生物。生物体的实例包括但不限于,哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫;家禽如鸡、鸭、鹅;植物包括单子叶植物和双子叶植物,例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等。
“经遗传修饰的生物体”或“经遗传修饰的细胞”意指在其基因组内包含外源多核苷酸或经修饰的基因或表达调控序列的生物体或细胞。例如外源多核苷酸能够稳定地整合进生物体或细胞的基因组中,并遗传连续的世代。外源多核苷酸可单独地或作为重组DNA构建体的部分整合进基因组中。经修饰的基因或表达调控序列为在生物体或细胞基因组中所述序列包含单个或多个脱氧核苷酸取代、缺失和添加。
针对序列而言的“外源”意指来自外来物种的序列,或者如果来自相同物种,则指通过蓄意的人为干预而从其天然形式发生了组成和/或基因座的显著改变的序列。
“多核苷酸”、“核酸序列”、“核苷酸序列”或“核酸片段”可互换使用并且是单链或双链RNA或DNA聚合物,任选地可含有合成的、非天然的或改变的核苷酸碱基。核苷酸通过如下它们的单个字母名称来指代:“A”为腺苷或脱氧腺苷(分别对应RNA或DNA),“C”表示胞苷或脱氧胞苷,“G”表示鸟苷或脱氧鸟苷,“U”表示尿苷,“T”表示脱氧胸苷,“R”表示嘌呤(A或G),“Y”表示嘧啶(C或T),“K”表示G或T,“H”表示A或C或T,“I”表示肌苷,并且“N”表示任何核苷酸。
“多肽”、“肽”、和“蛋白质”在本发明中可互换使用,指氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基是相应的天然存在的氨基酸的人工化学类似物的氨基酸聚合物,以及适用于天然存在的氨基酸聚合物。术语“多肽”、“肽”、“氨基酸序列”和“蛋白质”还可包括修饰形式,包括但不限于糖基化、脂质连接、硫酸盐化、谷氨酸残基的γ羧化、羟化和ADP-核糖基化。
序列“相同性”具有本领域公认的含义,并且可以利用公开的技术计算两个核酸或多肽分子或区域之间序列相同性的百分比。可以沿着多核苷酸或多肽的全长或者沿着该分子的区域测量序列相同性。(参见,例如:Computational Molecular Biology,Lesk,A.M.,ed.,Oxford University Press,New York,1988;Biocomputing:Informatics and GenomeProjects,Smith,D.W.,ed.,Academic Press,New York,1993;Computer Analysis ofSequence Data,Part I,Griffin,A.M.,and Griffin,H.G.,eds.,Humana Press,NewJersey,1994;Sequence Analysis in Molecular Biology,von Heinje,G.,AcademicPress,1987;and Sequence Analysis Primer,Gribskov,M.and Devereux,J.,eds.,MStockton Press,New York,1991)。虽然存在许多测量两个多核苷酸或多肽之间的相同性的方法,但是术语“相同性”是技术人员公知的(Carrillo,H.&Lipman,D.,SIAM J AppliedMath 48:1073(1988))。
“包含”一词在本文中用于描述蛋白质或核酸的序列时,所述蛋白质或核酸可以是由所述序列组成,或者在所述蛋白质或核酸的一端或两端可以具有额外的氨基酸或核苷酸,但仍然具有本发明所述的活性。此外,本领域技术人员清楚多肽N端由起始密码子编码的甲硫氨酸在某些实际情况下(例如在特定表达系统表达时)会被保留,但不实质影响多肽的功能。因此,本申请说明书和权利要求书中在描述具体的多肽氨基酸序列时,尽管其可能不包含N端由起始密码子编码的甲硫氨酸,然而此时也涵盖包含该甲硫氨酸的序列,相应地,其编码核苷酸序列也可以包含起始密码子;反之亦然。
在肽或蛋白中,合适的保守型氨基酸取代是本领域技术人员已知的,并且一般可以进行而不改变所得分子的生物活性。通常,本领域技术人员认识到多肽的非必需区中的单个氨基酸取代基本上不改变生物活性(参见,例如,Watson et al.,Molecular Biologyof the Gene,4th Edition,1987,The Benjamin/Cummings Pub.co.,p.224)。
如本发明所用,“表达构建体”是指适于感兴趣的核苷酸序列在生物体中表达的载体如重组载体。“表达”指功能产物的产生。例如,核苷酸序列的表达可指核苷酸序列的转录(如转录生成mRNA或功能RNA)和/或RNA翻译成前体或成熟蛋白质。
本发明的“表达构建体”可以是线性的核酸片段、环状质粒、病毒载体,或者,在一些实施方式中,可以是能够翻译的RNA(如mRNA)。
本发明的“表达构建体”可包含不同来源的调控序列和感兴趣的核苷酸序列,或相同来源但以不同于通常天然存在的方式排列的调控序列和感兴趣的核苷酸序列。
“调控序列”和“调控元件”可互换使用,指位于编码序列的上游(5'非编码序列)、中间或下游(3'非编码序列),并且影响相关编码序列的转录、RNA加工或稳定性或者翻译的核苷酸序列。调控序列可包括但不限于启动子、翻译前导序列、内含子和多腺苷酸化识别序列。
“启动子”指能够控制另一核酸片段转录的核酸片段。在本发明的一些实施方案中,启动子是能够控制细胞中基因转录的启动子,无论其是否来源于所述细胞。启动子可以是组成型启动子或组织特异性启动子或发育调控启动子或诱导型启动子。
“组成型启动子”指一般将引起基因在多数细胞类型中在多数情况下表达的启动子。“组织特异性启动子”和“组织优选启动子”可互换使用,并且指主要但非必须专一地在一种组织或器官中表达,而且也可在一种特定细胞或细胞型中表达的启动子。“发育调控启动子”指其活性由发育事件决定的启动子。“诱导型启动子”响应内源性或外源性刺激(环境、激素、化学信号等)而选择性表达可操纵连接的DNA序列。
启动子的实例包括但不限于聚合酶(pol)I、pol II或pol III启动子。pol I启动子的实例包括鸡RNA pol I启动子。pol II启动子的实例包括但不限于巨细胞病毒立即早期(CMV)启动子、劳斯肉瘤病毒长末端重复(RSV-LTR)启动子和猿猴病毒40(SV40)立即早期启动子。pol III启动子的实例包括U6和H1启动子。可以使用诱导型启动子如金属硫蛋白启动子。启动子的其他实例包括T7噬菌体启动子、T3噬菌体启动子、β-半乳糖苷酶启动子和Sp6噬菌体启动子。当用于植物时,启动子可以是花椰菜花叶病毒35S启动子、玉米Ubi-1启动子、小麦U6启动子、水稻U3启动子、玉米U3启动子、水稻肌动蛋白启动子。
如本文中所用,术语“可操作地连接”指调控元件(例如但不限于,启动子序列、转录终止序列等)与核酸序列(例如,编码序列或开放读码框)连接,使得核苷酸序列的转录被所述转录调控元件控制和调节。用于将调控元件区域可操作地连接于核酸分子的技术为本领域已知的。
将核酸分子(例如质粒、线性核酸片段、RNA等)或蛋白质“导入”生物体是指用所述核酸或蛋白质转化生物体细胞,使得所述核酸或蛋白质在细胞中能够发挥功能。本发明所用的“转化”包括稳定转化和瞬时转化。
“稳定转化”指将外源核苷酸序列导入基因组中,导致外源基因稳定遗传。一旦稳定转化,外源核酸序列稳定地整合进所述生物体和其任何连续世代的基因组中。
“瞬时转化”指将核酸分子或蛋白质导入细胞中,执行功能而没有外源基因稳定遗传。瞬时转化中,外源核酸序列不整合进基因组中。
二、腺嘌呤脱氨酶和包含其的碱基编辑融合蛋白
在一方面,本申请提供一种腺嘌呤脱氨酶,其
1)包含特征序列基序VXnNX10HAEXnPCXMC;和/或
2)包含与SEQ ID NO:1、10或12具有至少50%、至少60%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%序列相同性的氨基酸序列,且在对应于SEQ ID NO:14的第108位的氨基酸位置处的氨基酸为N。
在一些实施方案中,所述腺嘌呤脱氨酶在对应于SEQ ID NO:14的第106位的氨基酸位置处的氨基酸是A或V。在一些实施方案中,所述腺嘌呤脱氨酶在对应于SEQ ID NO:14的第107位的氨基酸位置处的氨基酸是L或R。在一些实施方案中,所述腺嘌呤脱氨酶在对应于SEQ ID NO:14的第109位的氨基酸位置处的氨基酸是K或S。
在一些实施方案中,所述腺嘌呤脱氨酶在对应于SEQ ID NO:14的第106-109位的氨基酸位置处的氨基酸为VRNS、ALNK、ALNS、ARNK、ARNS、VLNK、VLNS、或VRNK。
在一些实施方案中,所述腺嘌呤脱氨酶包含选自SEQ ID NO:2-9、11和13的氨基酸序列。
在一些实施方案中,所述“腺嘌呤脱氨酶”能够接受核酸例如单链DNA作为底物,催化腺苷或脱氧腺苷(A)形成肌苷(I)。
如本文所用,“在对应于SEQ ID NO:14的第108位的氨基酸位置处的氨基酸”意思是指在与SEQ ID NO:14的氨基酸序列进行序列比对后,本文所述腺嘌呤脱氨酶中与SEQ IDNO:14的第108位的氨基酸对齐的氨基酸。本文其它类似术语/短句有着类似的含义。不同序列中的氨基酸的对应性可以根据本领域公知的序列比对方法确定。例如氨基酸对应性可以通过EMBL-EBI的在线比对工具来确定(https://www.ebi.ac.uk/Tools/psa/),其中两个序列可以使用Needleman-Wunsch算法,使用默认参数来对齐。
在本文各个方面的所述特征序列基序VXnNX10HAEXnPCXMC中,X代表任意氨基酸;n代表任意整数,例如1-100、1-50、1-20或1-10范围中的任意整数。
在一方面,本申请涉及腺嘌呤脱氨酶用于在生物体或生物体细胞中进行基因编辑例如碱基编辑中的用途,其中所述腺嘌呤脱氨酶
1)包含特征序列基序VXnNX10HAEXnPCXMC;和/或
2)包含与SEQ ID NO:1、10或12具有至少50%、至少60%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%序列相同性的氨基酸序列,且在对应于SEQ ID NO:14的第108位的氨基酸位置处的氨基酸为N。
在一些实施方案中,所述腺嘌呤脱氨酶在对应于SEQ ID NO:14的第106位的氨基酸位置处的氨基酸是A或V。在一些实施方案中,所述腺嘌呤脱氨酶在对应于SEQ ID NO:14的第107位的氨基酸位置处的氨基酸是L或R。在一些实施方案中,所述腺嘌呤脱氨酶在对应于SEQ ID NO:14的第109位的氨基酸位置处的氨基酸是K或S。
在一些实施方案中,所述腺嘌呤脱氨酶在对应于SEQ ID NO:14的第106-109位的氨基酸位置处的氨基酸为VRNS、ALNK、ALNS、ARNK、ARNS、VLNK、VLNS、或VRNK。
在一些实施方案中,所述腺嘌呤脱氨酶包含选自SEQ ID NO:2-9、11和13的氨基酸序列。
在一些实施方案中,所述“腺嘌呤脱氨酶”能够接受核酸例如单链DNA作为底物,催化腺苷或脱氧腺苷(A)形成肌苷(I)。
在一些实施方案中,所述腺嘌呤脱氨酶用于制备碱基编辑融合蛋白或碱基编辑系统,所述碱基编辑融合蛋白或碱基编辑系统用于在生物体或生物体细胞中进行碱基编辑。
在另一方面,本发明提供一种碱基编辑融合蛋白,其包含核酸靶向结构域和腺嘌呤脱氨结构域,其中所述腺嘌呤脱氨结构域包含至少一个(例如一个或两个)腺嘌呤脱氨酶多肽,所述腺嘌呤脱氨酶
1)包含特征序列基序VXnNX10HAEXnPCXMC;和/或
2)包含与SEQ ID NO:1、10或12具有至少50%、至少60%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%序列相同性的氨基酸序列,且在对应于SEQ ID NO:14的第108位的氨基酸位置处的氨基酸为N。
在一些实施方案中,所述腺嘌呤脱氨酶在对应于SEQ ID NO:14的第106位的氨基酸位置处的氨基酸是A或V。在一些实施方案中,所述腺嘌呤脱氨酶在对应于SEQ ID NO:14的第107位的氨基酸位置处的氨基酸是L或R。在一些实施方案中,所述腺嘌呤脱氨酶在对应于SEQ ID NO:14的第109位的氨基酸位置处的氨基酸是K或S。
在一些实施方案中,所述腺嘌呤脱氨酶在对应于SEQ ID NO:14的第106-109位的氨基酸位置处的氨基酸为VRNS、ALNK、ALNS、ARNK、ARNS、VLNK、VLNS、或VRNK。
在一些实施方案中,所述腺嘌呤脱氨酶包含选自SEQ ID NO:2-9、11和13的氨基酸序列。
在一些实施方案中,所述“腺嘌呤脱氨酶”能够接受核酸例如单链DNA作为底物,催化腺苷或脱氧腺苷(A)形成肌苷(I)。
在本文实施方案中,“碱基编辑融合蛋白”和“碱基编辑器”可互换使用,指的是可以以序列特异性方式介导基因组中靶序列的一或多个核苷酸取代的蛋白。所述一或多个核苷酸取代例如是A至G的取代。
如本文所用,“核酸靶向结构域”指的是能够介导所述碱基编辑融合蛋白以序列特异性方式(例如通过向导RNA)附着至基因组中特定靶序列处的结构域。在一些实施方案中,所述核酸靶向结构域可以包括针对特定靶序列的一或多个锌指蛋白结构域(ZFP)或转录因子效应物结构域(TALE)。。在一些实施方案中,所述核酸靶向结构域包含至少一个(例如一个)CRISPR效应蛋白(CRISPR effector)多肽。
“锌指结蛋白结构域(ZFP)”通常含有3-6个单独的锌指重复序列,每个锌指重复序列可以识别例如3bp的独特序列。通过组合不同的锌指重复序列,可以靶向不同的基因组序列。
转录激活因子样效应物结构域”是转录激活因子样效应物(TALE)的DNA结合结构域。TALE经工程化后可以结合几乎任何想要的DNA序列。
如本文所用,术语“CRISPR效应蛋白”通常指在天然存在的CRISPR系统中存在的核酸酶(CRISPR核酸酶)或其功能性变体。该术语涵盖基于CRISPR系统的能够在细胞内实现序列特异性靶向的任何效应蛋白。
如本文所用,就CRISPR核酸酶而言的“功能性变体”意指其至少保留向导RNA介导的序列特异性靶向能力。优选地,所述功能性变体是核酸酶失活的变体,即其缺失双链核酸切割活性。然而,缺失双链核酸切割活性的CRISPR核酸酶也涵盖切口酶(nickase),其在双链核酸分子形成切口(nick),但不完全切断双链核酸。在本发明的一些优选的实施方案中,本发明所述CRISPR效应蛋白具有切口酶活性。在一些实施方案中,所述功能性变体相对于野生型核酸酶识别不同的PAM(前间区序列邻近基序)序列。
“CRISPR效应蛋白”可以衍生自Cas9核酸酶,包括Cas9核酸酶或其功能性变体。所述Cas9核酸酶可以是来自不同物种的Cas9核酸酶,例如来自化脓链球菌(S.pyogenes)的spCas9或衍生自金黄色葡萄球菌(S.aureus)的SaCas9。“Cas9核酸酶”和“Cas9”在本文中可互换使用,指的是包括Cas9蛋白或其片段(例如包含Cas9的活性DNA切割结构域和/或Cas9的gRNA结合结构域的蛋白)的RNA指导的核酸酶。Cas9是CRISPR/Cas(成簇的规律间隔的短回文重复序列及其相关系统)基因组编辑系统的组分,能在向导RNA的指导下靶向并切割DNA靶序列形成DNA双链断裂(DSB)。野生型SpCas9的示例性氨基酸序列示于SEQ ID NO:15。
“CRISPR效应蛋白”还可以衍生自Cpf1(即Cas12a)核酸酶,包括Cpf1核酸酶或其功能性变体。所述Cpf1核酸酶可以是来自不同物种的Cpf1核酸酶,例如来自Francisellanovicida U112、Acidaminococcus sp.BV3L6和Lachnospiraceae bacterium ND2006的Cpf1核酸酶。
可用的“CRISPR效应蛋白”还可以衍生自Cas3、Cas8a、Cas5、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Cas10、Csx11、Csx10、Csf1、Csn2、Cas4、C2c1(Cas12b)、C2c3、C2c2、Cas12c、Cas12d(即CasY)、Cas12e(即CasX)、Cas12f(即Cas14)、Cas12g、Cas12h、Cas12i、Cas12j(即CasΦ)、Cas12k、Cas12l、Cas12m等核酸酶,例如包括这些核酸酶或其功能性变体。
在一些实施方案中,所述CRISPR效应蛋白是核酸酶失活的Cas9。Cas9核酸酶的DNA切割结构域已知包含两个亚结构域:HNH核酸酶亚结构域和RuvC亚结构域。HNH亚结构域切割与gRNA互补的链,而RuvC亚结构域切割非互补的链。在这些亚结构域中的突变可以使Cas9的核酸酶活性失活,形成“核酸酶失活的Cas9”。所述核酸酶失活的Cas9仍然保留gRNA指导的DNA结合能力。
本发明所述核酸酶失活的Cas9可以衍生自不同物种的Cas9,例如,衍生自化脓链球菌(S.pyogenes)Cas9(SpCas9),或衍生自金黄色葡萄球菌(S.aureus)Cas9(SaCas9)。同时突变Cas9的HNH核酸酶亚结构域和RuvC亚结构域(例如,包含突变D10A和H840A)使Cas9的核酸酶失去活性,成为核酸酶死亡Cas9(dCas9)。突变失活其中一个亚结构域可以使得Cas9具有切口酶活性,即获得Cas9切口酶(nCas9),例如,仅具有突变D10A的nCas9。
因此,在本发明各方面的一些实施方案中,本发明所述核酸酶失活的Cas9变体相对于野生型Cas9包含氨基酸取代D10A和/或H840A,其中氨基酸编号参照SEQ ID NO:15。在一些优选实施方式中,所述核酸酶失活的Cas9相对于野生型Cas9包含氨基酸取代D10A,其中氨基酸编号参照SEQ ID NO:15。在一些实施方式中,所述核酸酶失活的Cas9包含SEQ IDNO:16所示的氨基酸序列(nCas9(D10A))。
Cas9核酸酶在用于基因编辑时,通常需要靶序列在3’端具有5’-NGG-3’的PAM(前间区序列邻近基序)序列。然而,本发明人令人惊奇地发现,这一PAM序列在某些物种例如水稻中出现频率很低,极大地限制了在这些物种如水稻中的基因编辑。为此,本发明中可以使用识别不同的PAM序列的CRISPR效应蛋白,例如具有不同的PAM序列的Cas9核酸酶功能性变体。
在本发明的一些实施方案中,融合蛋白中的腺嘌呤脱氨结构域能够将CRISPR效应蛋白-向导RNA-DNA复合物形成中产生的单链DNA的腺苷脱氨转换成肌苷(I),由于DNA聚合酶会将肌苷(I)当做鸟嘌呤(G)处理,因此通过碱基错配修复可以实现A至G的取代。
在本发明的一些实施方案中,所述核酸靶向结构域和所述腺嘌呤脱氨结构域通过接头融合。
如本文所用,“接头”可以是长1-50个(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或20-25个、25-50个)或更多个氨基酸、无二级以上结构的非功能性氨基酸序列。例如,所述接头可以是柔性接头。
在一些实施方案中,所述碱基编辑融合蛋白从N端至C端方向按以下顺序包含:腺嘌呤脱氨结构域和核酸靶向结构域。
在本发明的一些实施方案中,本发明的融合蛋白还可以包含核定位序列(NLS)。一般而言,所述融合蛋白中的一个或多个NLS应具有足够的强度,以便在细胞的核中驱动所述融合蛋白以可实现其碱基编辑功能的量积聚。一般而言,核定位活性的强度由所述融合蛋白中NLS的数目、位置、所使用的一个或多个特定的NLS、或这些因素的组合决定。
在本发明的一些实施方案中,本发明的融合蛋白的NLS可以位于N端和/或C端。在本发明的一些实施方案中,本发明的融合蛋白的NLS还可以位于所述腺嘌呤脱氨结构域和核酸靶向结构域之间。在一些实施方案中,所述融合蛋白包含约1、2、3、4、5、6、7、8、9、10个或更多个NLS。在一些实施方案中,所述融合蛋白包含在或接近于N端的约1、2、3、4、5、6、7、8、9、10个或更多个NLS。在一些实施方案中,所述融合蛋白包含在或接近于C端约1、2、3、4、5、6、7、8、9、10个或更多个NLS。在一些实施方案中,所述多肽包含这些的组合,如包含在N端的一个或多个NLS以及在C端的一个或多个NLS。当存在多于一个NLS时,每一个可以被选择为不依赖于其他NLS。
一般而言,NLS由暴露于蛋白表面上的带正电的赖氨酸或精氨酸的一个或多个短序列组成,但其他类型的NLS也是已知的。NLS的非限制性实例包括:KKRKV、PKKKRKV或KRPAATKKAGQAKKKK。
此外,根据所需要编辑的DNA位置,本发明的融合蛋白还可以包括其他的定位序列,例如细胞质定位序列、叶绿体定位序列、线粒体定位序列等。
三、碱基编辑系统
在另一方面,本发明提供一种用于对基因组中靶核酸区域进行修饰的碱基编辑系统,其包含:
i)本发明的碱基编辑融合蛋白和/或含有编码所述碱基编辑融合蛋白的核苷酸序列的表达构建体;和/或
ii)至少一种向导RNA和/或至少一种含有编码所述至少一种向导RNA的核苷酸序列的表达构建体,
其中所述至少一种向导RNA针对所述靶核酸区域内的至少一个靶序列。
如本文所用,“碱基编辑系统”是指用于对细胞或生物体内基因组进行碱基编辑所需的成分的组合。其中所述系统的各个成分,例如碱基编辑融合蛋白、一种或多种向导RNA可以各自独立地存在,或者可以以任意的组合作为组合物的形式存在。
如本文所用,“向导RNA”和“gRNA”可互换使用,指的是能够与CRISPR效应蛋白形成复合物并由于与靶序列具有一定相同性而能够将所述复合物靶向靶序列的RNA分子。向导RNA通过与靶序列互补链之间的碱基配对而靶向所述靶序列。例如,Cas9核酸酶或其功能性变体所采用的gRNA通常由部分互补形成复合物的crRNA和tracrRNA分子构成,其中crRNA包含与靶序列具有足够相同性以便与该靶序列的互补链杂交并且指导CRISPR复合物(Cas9+crRNA+tracrRNA)与该靶序列序列特异性地结合的引导序列(也称种子序列)。然而,本领域已知可以设计单向导RNA(sgRNA),其同时包含crRNA和tracrRNA的特征。而Cpf1核酸酶或其功能性变体所采用的gRNA通常仅由成熟crRNA分子构成,其也可称为sgRNA。基于所使用的CRISPR核酸酶和待编辑的靶序列设计合适的gRNA属于本领域技术人员的能力范围内。
本领域技术人员将知晓,如果所述碱基编辑融合蛋白不是基于CRISPR效应蛋白,则所述系统可能无需向导RNA或编码其的表达构建体。
在一些实施方案中,本发明的碱基编辑系统在导入所述细胞后,所述碱基编辑融合蛋白和所述向导RNA能够形成复合物,并且该复合物在向导RNA介导下特异性靶向靶序列,并导致靶序列中一或多个A被G取代。
在一些实施方案中,所述至少一种向导RNA可以针对位于基因组靶核酸区域内有义链(例如蛋白编码链)和/或反义链上的靶序列。当向导RNA靶向有义链(例如蛋白编码链)时,本发明的碱基编辑组合物可以导致有义链(例如蛋白编码链)上靶序列内的一或多个A被G取代。当向导RNA靶向反义链时,本发明的碱基编辑组合物可以导致有义链(例如蛋白编码链)上靶序列内的一或多个T被C取代。
为了在细胞中获得有效表达,在本发明的一些实施方式中,编码所述碱基编辑融合蛋白的核苷酸序列针对其基因组待进行修饰的生物体进行密码子优化。
密码子优化是指通过用在宿主细胞的基因中更频繁地或者最频繁地使用的密码子代替天然序列的至少一个密码子(例如约或多于约1、2、3、4、5、10、15、20、25、50个或更多个密码子同时维持该天然氨基酸序列而修饰核酸序列以便增强在感兴趣宿主细胞中的表达的方法。不同的物种对于特定氨基酸的某些密码子展示出特定的偏好。密码子偏好性(在生物之间的密码子使用的差异)经常与信使RNA(mRNA)的翻译效率相关,而该翻译效率则被认为依赖于被翻译的密码子的性质和特定的转运RNA(tRNA)分子的可用性。细胞内选定的tRNA的优势一般反映了最频繁用于肽合成的密码子。因此,可以将基因定制为基于密码子优化在给定生物中的最佳基因表达。密码子利用率表可以容易地获得,例如在www.kazusa.orjp/codon/上可获得的密码子使用数据库(“Codon Usage Database”)中,并且这些表可以通过不同的方式调整适用。参见,Nakamura Y.等,“Codon usage tabulatedfrom the international DNA sequence databases:status for theyear2000.Nucl.Acids Res.,28:292(2000)。
可以通过本发明的碱基编辑系统进行基因组修饰的生物体包括适于碱基编辑的任何生物体,优选真核生物。生物体的实例包括但不限于,哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫;家禽如鸡、鸭、鹅;植物,包括单子叶植物和双子叶植物,例如,所述植物是作物植物,包括但不限于小麦、水稻、玉米、大豆、向日葵、高粱、油菜、苜蓿、棉花、大麦、粟、甘蔗、番茄、烟草、木薯和马铃薯。
四、产生经遗传修饰的细胞的方法
在另一方面,本发明还提一种产生至少一个经遗传修饰的细胞的方法,包括将本发明的碱基编辑系统导入至少一个所述细胞,由此导致所述至少一个细胞中靶核酸区域内的一个或多个核苷酸取代。在一些实施方案中,所述一个或多个核苷酸取代是A至G取代。
在一些实施方案中,所述方法还包括从所述至少一个细胞筛选具有期望的一个或多个核苷酸取代的细胞的步骤。
在一些实施方式中,本发明的方法在体外进行。例如,所述细胞是分离的细胞,或在分离的组织或器官中的细胞。
在另一方面,本发明还提供经遗传修饰的生物体,其包含通过本发明的方法产生的经遗传修饰的细胞或其后代细胞。优选地,所述经遗传修饰的细胞或其后代细胞具有期望的一个或多个核苷酸取代。
在本发明中,待进行修饰的靶核酸区域可以位于基因组的任何位置,例如位于功能基因如蛋白编码基因内,或者例如可以位于基因表达调控区如启动子区或增强子区,从而实现对所述基因功能修饰或对基因表达的修饰。在一些实施方案中,所述期望的核苷酸取代导致期望的基因功能修饰或基因表达修饰。
在一些实施方案中,所述靶核酸区域与所述细胞或生物体的性状相关。在一些实施方案中,所述靶核酸区域中的突变导致所述细胞或生物体的性状的改变。在一些实施方案中,所述靶核酸区域位于蛋白的编码区。在一些实施方案中,所述靶核酸区域编码蛋白的功能相关基序或结构域。在一些优选实施方案中,所述靶核酸区域中的一个或多个核苷酸取代导致所述蛋白的氨基酸序列中的氨基酸取代。在一些实施方案中,所述一个或多个核苷酸取代导致蛋白的功能的改变。
在本发明的方法中,所述碱基编辑系统可以通过本领域技术人员熟知的各种方法导入细胞。
可用于将本发明的碱基编辑系统导入细胞的方法包括但不限于:磷酸钙转染、原生质融合、电穿孔、脂质体转染、微注射、病毒感染(如杆状病毒、痘苗病毒、腺病毒、腺相关病毒、慢病毒和其他病毒)、基因枪法、PEG介导的原生质体转化、土壤农杆菌介导的转化。
可以通过本发明的方法进行碱基编辑的细胞可以来自例如,哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫;家禽如鸡、鸭、鹅;植物,包括单子叶植物和双子叶植物,优选作物植物,包括但不限于小麦、水稻、玉米、大豆、向日葵、高粱、油菜、苜蓿、棉花、大麦、粟、甘蔗、番茄、烟草、木薯和马铃薯。
五、在植物中的应用
本发明的碱基编辑融合蛋白、碱基编辑系统和产生经遗传修饰的细胞的方法特别适合用于对植物进行遗传学修饰。优选地,所述植物是作物植物,包括但不限于小麦、水稻、玉米、大豆、向日葵、高粱、油菜、苜蓿、棉花、大麦、粟、甘蔗、番茄、烟草、木薯和马铃薯。更优选地,所述植物是水稻。
在另一方面,本发明提供了一种产生经遗传修饰的植物的方法,包括将本发明的碱基编辑系统导入至少一个所述植物,由此导致所述至少一个植物的基因组中靶核酸区域内的一个或多个核苷酸取代。
在一些实施方案中,所述方法还包括从所述至少一个植物筛选具有期望的一个或多个核苷酸取代的植物。
在本发明的方法中,所述碱基编辑组合物可以本领域技术人员熟知的各种方法导入植物。可用于将本发明的碱基编辑系统导入植物的方法包括但不限于:基因枪法、PEG介导的原生质体转化、土壤农杆菌介导的转化、植物病毒介导的转化、花粉管通道法和子房注射法。优选地,通过瞬时转化将所述碱基编辑组合物导入植物。
在本发明的方法中,只需在植物细胞中导入或产生所述碱基编辑融合蛋白和向导RNA即可实现对靶序列的修饰,并且所述修饰可以稳定遗传,无需将编码所述碱基编辑系统的组分的外源多核苷酸稳定转化植物。这样避免了稳定存在的(持续产生的)碱基编辑组合物的潜在脱靶作用,也避免外源核苷酸序列在植物基因组中的整合,从而具有更高生物安全性。
在一些优选实施方式中,所述导入在不存在选择压力下进行,从而避免外源核苷酸序列在植物基因组中的整合。
在一些实施方式中,所述导入包括将本发明的碱基编辑系统转化至分离的植物细胞或组织,然后使所述经转化的植物细胞或组织再生为完整植物。优选地,在不存在选择压力下进行所述再生,也即是,在组织培养过程中不使用任何针对表达载体上携带的选择基因的选择剂。不使用选择剂可以提高植物的再生效率,获得不含外源核苷酸序列的经修饰的植物。
在另一些实施方式中,可以将本发明的碱基编辑系统转化至完整植物上的特定部位,例如叶片、茎尖、花粉管、幼穗或下胚轴。这特别适合于难以进行组织培养再生的植物的转化。
在本发明的一些实施方式中,直接将体外表达的蛋白质和/或体外转录的RNA分子(例如,所述表达构建体是体外转录的RNA分子)转化至所述植物。所述蛋白质和/或RNA分子能够在植物细胞中实现碱基编辑,随后被细胞降解,避免了外源核苷酸序列在植物基因组中的整合。
因此,在一些实施方式中,使用本发明的方法对植物进行遗传修饰和育种可以获得其基因组无外源多核苷酸整合的植物,即非转基因(transgene-free)的经修饰的植物。
在本发明的一些实施方式中,其中所述被修饰的靶核酸区域与植物性状如农艺性状相关,由此所述一个或多个核苷酸取代导致所述植物相对于野生型植物具有改变的(优选改善的)性状,例如农艺性状。
在一些实施方式中,所述方法还包括筛选具有期望的一个或多个核苷酸取代和/或期望的性状如农艺性状的植物的步骤。
在本发明的一些实施方式中,所述方法还包括获得所述经遗传修饰的植物的后代。优选地,所述经遗传修饰的植物或其后代具有期望的一个或多个核苷酸取代和/或期望的性状如农艺性状。
在另一方面,本发明还提供了经遗传修饰的植物或其后代或其部分,其中所述植物通过本发明上述的方法获得。在一些实施方式中,所述经遗传修饰的植物或其后代或其部分是非转基因的。优选地,所述经遗传修饰的植物或其后代具有期望的遗传修饰和/或期望的性状如农艺性状。
在另一方面,本发明还提供了一种植物育种方法,包括将通过本发明上述的方法获得的在靶核酸区域包含一个或多个核苷酸取代的经遗传修饰的第一植物与不含有所述一个或多个核苷酸取代的第二植物杂交,从而将所述一个或多个核苷酸取代导入第二植物。优选地,所述经遗传修饰的第一植物具有期望的性状如农艺性状。
六、治疗应用
本发明还涵盖本发明的碱基编辑系统在疾病治疗中的应用。
通过本发明的碱基编辑系统对疾病相关基因进行修饰,可以实现疾病相关基因的上调、下调、失活、激活或者突变纠正等,从而实现疾病的预防和/或治疗。例如,本发明中所述靶核酸区域可以位于疾病相关基因的蛋白编码区内,或者例如可以位于基因表达调控区如启动子区或增强子区,从而可以实现对所述疾病相关基因功能修饰或对疾病相关基因表达的修饰。因此,本文所述修饰疾病相关基因包括对疾病相关基因本身(例如蛋白编码区)的修饰,也包含对其表达调控区域(如启动子、增强子、内含子等)的修饰。
“疾病相关”基因是指与非疾病对照的组织或细胞相比,在来源于疾病影响的组织的细胞中以异常水平或以异常形式产生转录或翻译产物的任何基因。在改变的表达与疾病的出现和/或进展相关的情况下,它可以是以异常高的水平被表达的基因;它可以是以异常低的水平被表达的基因。疾病相关基因还指具有一个或多个突变或直接负责或与一个或多个负责疾病的病因学的基因连锁不平衡的遗传变异的基因。所述突变或遗传变异例如是单核苷酸变异(SNV)。转录的或翻译的产物可以是已知的或未知的,并且可以处于正常或异常水平。
因此,本发明还提供治疗有需要的对象中的疾病的方法,包括向所述对象递送有效量的本发明的碱基编辑系统以修饰与所述疾病相关的基因。
本发明还提供本发明的碱基编辑系统在制备用于治疗有需要的对象中的疾病的药物组合物中的用途,其中所述碱基编辑系统用于修饰与所述疾病相关的基因。
本发明还提供用于治疗有需要的对象中的疾病的药物组合物,其包含本发明的碱基编辑系统,以及任选的药学可接受的载体,其中所述碱基编辑系统用于修饰与所述疾病相关的基因。
在一些实施方式中,所述对象是哺乳动物,例如人。
所述疾病的实例包括但不限于肿瘤、炎症、帕金森病、心血管疾病、阿尔茨海默病、自闭症、药物成瘾、年龄相关性黄斑变性、精神分裂症、遗传性疾病等。
七、试剂盒
本发明还包括用于本发明的方法的试剂盒,该试剂盒包括本发明的碱基编辑融合蛋白和/或含有编码所述碱基编辑融合蛋白的核苷酸序列的表达构建体,或包含本发明的碱基编辑系统。试剂盒一般包括表明试剂盒内容物的预期用途和/或使用方法的标签。术语标签包括在试剂盒上或与试剂盒一起提供的或以其他方式随试剂盒提供的任何书面的或记录的材料。本发明所述试剂盒还可以包含用于构建本发明的碱基编辑系统中的表达载体的合适的材料。本发明所述试剂盒还可以包含适于将本发明的碱基编辑融合蛋白或碱基编辑系统转化进细胞的试剂。
八、制备用于碱基编辑的腺嘌呤脱氨酶的方法
在另一方面,本发明还提供一种获得/制备用于碱基编辑的腺嘌呤脱氨酶的方法,包括
1)鉴定包含特征序列基序VXnNX10HAEXnPCXMC的腺嘌呤脱氨酶;和
2)将所述包含特征序列基序VXnNX10HAEXnPCXMC的腺嘌呤脱氨酶中对应于SEQ IDNO:14的第108位的氨基酸位置处的氨基酸突变为N。
在一些实施方案中,所述方法包括将所述包含特征序列基序VXnNX10HAEXnPCXMC的腺嘌呤脱氨酶中对应于SEQ ID NO:14的第106-109位的氨基酸位置处的氨基酸突变为VRNS、ALNK、ALNS、ARNK、ARNS、VLNK、VLNS、或VRNK。
实施例
为了便于理解本发明,下面将参照相关具体实施例及附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
材料与方法
1、载体构建
对挖掘到的脱氨酶序列进行构建,序列均由金斯瑞公司进行水稻和小麦双密码子优化。将序列构建至PABE-7载体骨架(addgene号#115628)。实施例中使用到的报告系统的质粒由发明人前期构建完成(Li,C.,Zong,Y.,Wang,Y.,Jin,S.,Zhang,D.,Song,Q.,Zhang,R.,&Gao,C.(2018).Expanded base editing in rice and wheat using aCas9-adenosine deaminase fusion.Genome biology,19(1),59.)。
2、原生质体分离和转化
本发明中使用的原生质体来自于水稻中花11品种。
2.1水稻苗培养
水稻种子先用75%乙醇漂洗1分钟,再用4%次氯酸钠处理30分钟,无菌水洗涤5次以上。放在M6培养基上培养3-4周,26℃,避光处理。
2.2原生质体分离
(1)剪下水稻茎秆,用刀片将其中间部分切成0.5-1mm的丝,放入0.6M的Mannitol溶液中避光处理10min,再用滤网过滤,将其放入50mL酶解液(0.45μm滤膜过滤)中,抽真空(压强约15Kpa)30min,取出后放置于摇床(10rpm)上室温酶解5h;
(2)加30-50mL W5稀释酶解产物,用75μm尼龙滤膜过滤酶解液于圆底离心管中(50mL);
(3)23℃,250g(rcf),升3降3,离心3min,弃上清;
(4)用20mL W5轻轻悬起细胞,重复步骤(3)
(5)加适量MMG悬浮,待转化。
2.3水稻原生质体转化
(1)分别加所需转化载体各10μg于2mL离心管,混匀后,用去尖的枪头吸取200μL原生质体,轻弹混匀,加入220μL PEG4000溶液,轻弹混匀,室温避光诱导转化20-30min;
(2)加880μL W5轻轻颠倒混匀,250g(rcf),升3降3,离心3min,弃上清;
(3)加1mL WI溶液,轻轻颠倒混匀,轻轻转至转移到流式管中,室温暗处培养48小时。
3、流式细胞仪观察细胞荧光情况
使用FACSAria III(BD Biosciences)仪器流式分析原生质体GFP阴性和阳性群体。
实施例1、通过序列搜索可用于碱基编辑的候选腺嘌呤脱氨酶
TadA为作用于tRNA的腺嘌呤脱氨酶,目前使用的腺嘌呤碱基编辑系统中的脱氨酶均为大肠杆菌的TadA变体。其所属分支为Tad1/ADAR分支。Rubio等经过研究和总结表明,TadA脱氨酶具有氨基酸序列包含H(C)xE和PCxxC(其中x代表1个任意氨基酸)的特征(Rubio,M.A.,Pastar,I.,Gaston,K.W.,Ragone,F.L.,Janzen,C.J.,Cross,G.A.,Papavasiliou,F.N.,&Alfonzo,J.D.(2007).An adenosine-to-inosine tRNA-editingenzyme that can perform C-to-U deamination of DNA.Proceedings of the NationalAcademy of Sciences of the United States of America,104(19),7821-7826.)。为了寻找新型的TadA脱氨酶,通过在Uniprot sprot(https://www.uniprot.org/uniprot/)数据库中根据符合特征序列的蛋白质进行进一步的注释,并对特征序列进行了进一步的解析和修改。本发明人发现当特征序列为VnxN10xHAEnxPCxMC时(nx代表数量任意的任意氨基酸,10x代表10个任意数量的氨基酸),在Uniprot sprot数据库(表1)及Uniprot tremble数据库(表2)中找到的结果多数为注释为TadA的蛋白序列,证明了该特征序列对于搜索新型腺嘌呤脱氨酶具有很高的可信度。
表1.利用修改后特征序列在Uniprot sprot数据库中寻找到的蛋白功能及占比
表2.利用修改后特征序列在Uniprot tremble数据库中寻找到的蛋白功能及占比
实施例2、No.135潜在新型TadA脱氨酶的改造
本发明人发现,Iyer等(Iyer,L.M.,Zhang,D.,Rogozin,I.B.,&Aravind,L.(2011).Evolution of the deaminase fold and multiple origins of eukaryoticediting and mutagenic nucleic acid deaminases from bacterial toxinsystems.Nucleic acids research,39(22),9473-9497.所列举的编号为135的潜在脱氨酶具有该特征序列。并且该序列与大肠杆菌TadA脱氨酶相似度很低,只有41.89%(图1)。为了使其可作用于DNA,本发明人参照ABE8e变体序列(Richter,M.F.,Zhao,K.T.,Eton,E.,Lapinaite,A.,Newby,G.A.,Thuronyi,B.W.,Wilson,C.,Koblan,L.W.,Zeng,J.,Bauer,D.E.,Doudna,J.A.,&Liu,D.R.(2020).Phage-assisted evolution of an adenine baseeditor with improved Cas domain compatibility and activity.Naturebiotechnology,38(7),883-891.),对其101-104位氨基酸(对应ABE8e的106-109位氨基酸)进行突变。本发明人发现,当第103位的D变为N时,可以使No.135脱氨酶具有对DNA上目标位点的腺嘌呤进行脱氨的功能(图2和表3)。因此,编号为135的蛋白具有对单链DNA进行腺嘌呤脱氨的功能,基于该蛋白可建立新型腺嘌呤碱基编辑系统。
表3.No.135潜在脱氨酶101-104位氨基酸突变信息及报告系统发光情况
实施例3、鸟嘌呤脱氨酶分支中的蛋白改造成新型腺嘌呤脱氨酶
通过VnxN10xHAEnxPCxMC特征序列搜索结果发现,除了数据库中已被注释为TadA的序列外,还有一些被注释为其他功能的蛋白,例如鸟嘌呤脱氨酶、tRNA异亮氨酸合成酶、HAD水解酶等以及一些功能尚未被解析的蛋白。本发明人挑选了其中的一些蛋白,发现他们在结构上都与TadA高度相似,而序列上与TadA相似性极低(图4)。因此,根据Iyer等所列举的鸟嘌呤脱氨酶分支选择编号为1299和1417的蛋白与ecTadA进行比对,发现它们与ecTadA的相似度仅为47.24%和42.66%(图3)。根据比对结果对1299和1417的4个关键氨基酸进行改造(替换为VRNS),原生质体实验结果表明改造后的蛋白可以使报告系统发光(图5、6),即他们可以实现目标位点腺嘌呤的脱氨。
序列表
>SEQ ID NO:1No.135
MGKEYFLKVALREAKRAFEKGEVPVGAIIVKEGEIISKAHNSVEELKDPTAHAEMLAIKEACRRLNTKYLEGCELYVTLEPCIMCSYALVLSRIEKVIFSALDKKHGGVVSVFNILDEPTLNHRVKWEYYPLEEASELLSEFFKKLRNNII
>SEQ ID NO:2No.135-m2
MGKEYFLKVALREAKRAFEKGEVPVGAIIVKEGEIISKAHNSVEELKDPTAHAEMLAIKEACRRLNTKYLEGCELYVTLEPCIMCSYALVLSRIEKVIFSALNKKHGGVVSVFNILDEPTLNHRVKWEYYPLEEASELLSEFFKKLRNNII
>SEQ ID NO:3No.135-m3
MGKEYFLKVALREAKRAFEKGEVPVGAIIVKEGEIISKAHNSVEELKDPTAHAEMLAIKEACRRLNTKYLEGCELYVTLEPCIMCSYALVLSRIEKVIFSALNSKHGGVVSVFNILDEPTLNHRVKWEYYPLEEASELLSEFFKKLRNNII
>SEQ ID NO:4No.135-m6
MGKEYFLKVALREAKRAFEKGEVPVGAIIVKEGEIISKAHNSVEELKDPTAHAEMLAIKEACRRLNTKYLEGCELYVTLEPCIMCSYALVLSRIEKVIFSARNKKHGGVVSVFNILDEPTLNHRVKWEYYPLEEASELLSEFFKKLRNNII
>SEQ ID NO:5No.135-m7
MGKEYFLKVALREAKRAFEKGEVPVGAIIVKEGEIISKAHNSVEELKDPTAHAEMLAIKEACRRLNTKYLEGCELYVTLEPCIMCSYALVLSRIEKVIFSARNSKHGGVVSVFNILDEPTLNHRVKWEYYPLEEASELLSEFFKKLRNNII
>SEQ ID NO:6 No.135-m10
MGKEYFLKVALREAKRAFEKGEVPVGAIIVKEGEIISKAHNSVEELKDPTAHAEMLAIKEACRRLNTKYLEGCELYVTLEPCIMCSYALVLSRIEKVIFSVLNKKHGGVVSVFNILDEPTLNHRVKWEYYPLEEASELLSEFFKKLRNNII
>SEQ ID NO:7 No.135-m11
MGKEYFLKVALREAKRAFEKGEVPVGAIIVKEGEIISKAHNSVEELKDPTAHAEMLAIKEACRRLNTKYLEGCELYVTLEPCIMCSYALVLSRIEKVIFSVLNSKHGGVVSVFNILDEPTLNHRVKWEYYPLEEASELLSEFFKKLRNNII
>SEQ ID NO:8 No.135-m14
MGKEYFLKVALREAKRAFEKGEVPVGAIIVKEGEIISKAHNSVEELKDPTAHAEMLAIKEACRRLNTKYLEGCELYVTLEPCIMCSYALVLSRIEKVIFSVRNKKHGGVVSVFNILDEPTLNHRVKWEYYPLEEASELLSEFFKKLRNNII
>SEQ ID NO:9 No.135-m15
MGKEYFLKVALREAKRAFEKGEVPVGAIIVKEGEIISKAHNSVEELKDPTAHAEMLAIKEACRRLNTKYLEGCELYVTLEPCIMCSYALVLSRIEKVIFSVRNSKHGGVVSVFNILDEPTLNHRVKWEYYPLEEASELLSEFFKKLRNNII
>SEQ ID NO:10 No.1299
MSGPGFMTLALAEAEAASARGEVPVGAVIVKDGQVIAQAGNRVEELGDSTAHAEMLALRAATLFLGDKRLEDCDLYVTLEPCPMCAAAISLARIRRLYFGAYDPKSGGVEHGAKVFDHATCHHRPEVYGGLEERRSASLLSRFFAERR
>SEQ ID NO:11 No.1299-VRNS
MSGPGFMTLALAEAEAASARGEVPVGAVIVKDGQVIAQAGNRVEELGDSTAHAEMLALRAATLFLGDKRLEDCDLYVTLEPCPMCAAAISLARIRRLYFGVRNSKSGGVEHGAKVFDHATCHHRPEVYGGLEERRSASLLSRFFAERR
>SEQ ID NO:12 No.1417
MTAPTFATDDIRYMRIALEEARAAADEGEIPIGAVIVCKGQIVARAHNRVERLNDPTAHAEMLAITMAVDAIGGKYLRDCTLYVTVEPCLMCAGALRWTQIPRVVYGASEPKVGYRLFTDHALHPKCLVEGGILADESENLMRSFFAERR
>SEQ ID NO:13 No.1417-VRNS
MTAPTFATDDIRYMRIALEEARAAADEGEIPIGAVIVCKGQIVARAHNRVERLNDPTAHAEMLAITMAVDAIGGKYLRDCTLYVTVEPCLMCAGALRWTQIPRVVYGVRNSKVGYRLFTDHALHPKCLVEGGILADESENLMRSFFAERR
>SEQ ID NO:14 ABE8e
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNSKRGAAGSLMNVLNYPGMNHRVEITEGILADECAALLCDFYRMPRQVFNAQKKAQSSIN
>SEQ ID NO:15 SpCas9
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
>SEQ ID NO:16 nCas9(D10A)
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
>SEQ ID NO:17 wt ecTadA
MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD
>SEQ ID NO:18
VRNS
>SEQ ID NO:19
ALNK
>SEQ ID NO:20
ALNS
>SEQ ID NO:21
ARNK
>SEQ ID NO:22
ARNS
>SEQ ID NO:23
VLNK
>SEQ ID NO:24
VLNS
>SEQ ID NO:25
VRNK
>SEQ ID NO:26
KKRKV
>SEQ ID NO:27
PKKKRKV
>SEQ ID NO:28
KRPAATKKAGQAKKKK
Claims (22)
1.胞嘧啶脱氨酶用于在生物体或生物体细胞中进行基因编辑例如碱基编辑中的用途,其中所述腺嘌呤脱氨酶
1)包含特征序列基序VXnNX10HAEXnPCXMC;和/或
2)包含与SEQ ID NO:1、10或12具有至少50%、至少60%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%序列相同性的氨基酸序列,且在对应于SEQ ID NO:14的第108位的氨基酸位置处的氨基酸为N,
所述用途不包括用于改变人类的种系遗传同一性的方法。
2.一种碱基编辑融合蛋白,其包含核酸靶向结构域和腺嘌呤脱氨结构域,其中所述腺嘌呤脱氨结构域包含至少一个(例如一个或两个)腺嘌呤脱氨酶多肽,所述腺嘌呤脱氨酶
1)包含特征序列基序VXnNX10HAEXnPCXMC;和/或
2)包含与SEQ ID NO:1、10或12具有至少50%、至少60%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%序列相同性的氨基酸序列,且在对应于SEQ ID NO:14的第108位的氨基酸位置处的氨基酸为N。
3.权利要求1的用途或权利要求2的碱基编辑融合蛋白,其中所述腺嘌呤脱氨酶
i)在对应于SEQ ID NO:14的第106位的氨基酸位置处的氨基酸是A或V;
ii)在对应于SEQ ID NO:14的第107位的氨基酸位置处的氨基酸是L或R;和/或
iii)在对应于SEQ ID NO:14的第109位的氨基酸位置处的氨基酸是K或S。
4.权利要求3的用途或碱基编辑融合蛋白,其中所述腺嘌呤脱氨酶在对应于SEQ IDNO:14的第106-109位的氨基酸位置处的氨基酸为VRNS、ALNK、ALNS、ARNK、ARNS、VLNK、VLNS、或VRNK。
5.权利要求4的用途或碱基编辑融合蛋白,其中所述腺嘌呤脱氨酶包含选自SEQ IDNO:2-9、11和13的氨基酸序列。
6.权利要求2-5中任一项的碱基编辑融合蛋白,其中所述核酸靶向结构域包含至少一个CRISPR效应蛋白(CRISPR effector)多肽。
7.权利要求6的碱基编辑融合蛋白,其中所述CRISPR效应蛋白是核酸酶失活的Cas9,例如,所述核酸酶失活的Cas9包含SEQ ID NO:16所示的氨基酸序列。
8.权利要求2-7中任一项的碱基编辑融合蛋白,其中所述核酸靶向结构域和所述腺嘌呤脱氨结构域通过接头融合。
9.权利要求2-8中任一项的碱基编辑融合蛋白,其中所述碱基编辑融合蛋白从N端至C端方向按以下顺序包含:腺嘌呤脱氨结构域和核酸靶向结构域。
10.权利要求2-9中任一项的碱基编辑融合蛋白,其中所述碱基编辑融合蛋白还包含一或多个核定位序列(NLS)。
11.一种用于对生物体或生物体细胞的基因组中靶核酸区域进行修饰的碱基编辑系统,其包含:
i)权利要求2-10中一项的碱基编辑融合蛋白和/或含有编码所述碱基编辑融合蛋白的核苷酸序列的表达构建体;和/或
ii)至少一种向导RNA和/或至少一种含有编码所述至少一种向导RNA的核苷酸序列的表达构建体,
其中所述至少一种向导RNA针对所述靶核酸区域内的至少一个靶序列。
12.权利要求11的碱基编辑系统,其中编码所述碱基编辑融合蛋白的核苷酸序列针对其基因组待进行修饰的生物体进行密码子优化。
13.权利要求11或12的碱基编辑系统,其中所述生物体是真核生物体,包括哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫;家禽如鸡、鸭、鹅;植物,包括单子叶植物和双子叶植物,例如,所述植物是作物植物,包括但不限于小麦、水稻、玉米、大豆、向日葵、高粱、油菜、苜蓿、棉花、大麦、粟、甘蔗、番茄、烟草、木薯和马铃薯。
14.一种产生至少一个经遗传修饰的细胞的方法,包括将权利要求11-13中任一项的碱基编辑系统导入至少一个所述细胞,由此导致所述至少一个细胞中靶核酸区域内的一个或多个核苷酸,例如,所述一个或多个核苷酸取代是A至G取代,其中所述方法不包括用于改变人类的种系遗传同一性的方法。
15.权利要求14的方法,还包括从所述至少一个细胞筛选具有期望的一个或多个核苷酸取代的细胞的步骤。
16.权利要求14或15的方法,其中所述碱基编辑系统通过选自以下的方法导入细胞:磷酸钙转染、原生质融合、电穿孔、脂质体转染、微注射、病毒感染(如杆状病毒、痘苗病毒、腺病毒、腺相关病毒、慢病毒和其他病毒)、基因枪法、PEG介导的原生质体转化、土壤农杆菌介导的转化。
17.权利要求14-16中任一项的方法,其中所述细胞来自哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫;家禽如鸡、鸭、鹅;植物,包括单子叶植物和双子叶植物,优选作物植物,例如小麦、水稻、玉米、大豆、向日葵、高粱、油菜、苜蓿、棉花、大麦、粟、甘蔗、番茄、烟草、木薯和马铃薯。
18.一种用于治疗有需要的对象中的疾病的药物组合物,其包含权利要求11-13中任一项的碱基编辑系统,以及任选的药学可接受的载体,其中所述碱基编辑系统用于修饰与所述疾病相关的基因。
19.权利要求18的药物组合物,其中所述对象是哺乳动物,例如人。
20.权利要求18或19的药物组合物,所述疾病选自肿瘤、炎症、帕金森病、心血管疾病、阿尔茨海默病、自闭症、药物成瘾、年龄相关性黄斑变性、精神分裂症、遗传性疾病等。
21.一种获得/制备用于碱基编辑的腺嘌呤脱氨酶的方法,包括
1)鉴定包含特征序列基序VXnNX10HAEXnPCXMC的腺嘌呤脱氨酶;和
2)将所述包含特征序列基序VXnNX10HAEXnPCXMC的腺嘌呤脱氨酶中对应于SEQ ID NO:14的第108位的氨基酸位置处的氨基酸突变为N。
22.权利要求21的方法,其中所述方法包括将所述包含特征序列基序VXnNX10HAEXnPCXMC的腺嘌呤脱氨酶中对应于SEQ ID NO:14的第106-109位的氨基酸位置处的氨基酸突变为VRNS、ALNK、ALNS、ARNK、ARNS、VLNK、VLNS、或VRNK。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2022102204188 | 2022-03-08 | ||
CN202210220418 | 2022-03-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117187220A true CN117187220A (zh) | 2023-12-08 |
Family
ID=87936083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310217401.1A Pending CN117187220A (zh) | 2022-03-08 | 2023-03-08 | 腺嘌呤脱氨酶及其在碱基编辑中的用途 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117187220A (zh) |
WO (1) | WO2023169454A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117701532A (zh) * | 2024-02-06 | 2024-03-15 | 深锐(天津)生物医学有限公司 | 用于KRAS-G12D基因编辑的gRNA及包含其的分子系统和应用 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116987715B (zh) * | 2023-09-25 | 2024-01-30 | 中国科学院遗传与发育生物学研究所 | 人工基因驱动系统 |
CN117384883A (zh) * | 2023-09-27 | 2024-01-12 | 微光基因(苏州)有限公司 | CRISPR-Cas系统及其应用 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020051561A1 (en) * | 2018-09-07 | 2020-03-12 | Beam Therapeutics Inc. | Compositions and methods for delivering a nucleobase editing system |
CN114072496A (zh) * | 2019-02-13 | 2022-02-18 | 比姆医疗股份有限公司 | 腺苷脱氨酶碱基编辑器及使用其修饰靶标序列中的核碱基的方法 |
EP3924484A1 (en) * | 2019-02-13 | 2021-12-22 | Beam Therapeutics, Inc. | Methods of editing a disease-associated gene using adenosine deaminase base editors, including for the treatment of genetic disease |
CN112143753A (zh) * | 2020-09-17 | 2020-12-29 | 中国农业科学院植物保护研究所 | 一套腺嘌呤碱基编辑器及其相关生物材料与应用 |
-
2023
- 2023-03-08 CN CN202310217401.1A patent/CN117187220A/zh active Pending
- 2023-03-08 WO PCT/CN2023/080251 patent/WO2023169454A1/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117701532A (zh) * | 2024-02-06 | 2024-03-15 | 深锐(天津)生物医学有限公司 | 用于KRAS-G12D基因编辑的gRNA及包含其的分子系统和应用 |
CN117701532B (zh) * | 2024-02-06 | 2024-04-16 | 深锐(天津)生物医学有限公司 | 用于KRAS-G12D基因编辑的gRNA及包含其的分子系统和应用 |
Also Published As
Publication number | Publication date |
---|---|
WO2023169454A1 (zh) | 2023-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019120310A1 (en) | Base editing system and method based on cpf1 protein | |
US11702643B2 (en) | System and method for genome editing | |
CN117187220A (zh) | 腺嘌呤脱氨酶及其在碱基编辑中的用途 | |
CN111742051A (zh) | 延伸的单向导rna及其用途 | |
WO2020224611A1 (en) | Improved gene editing system | |
WO2021032155A1 (zh) | 一种碱基编辑系统和其使用方法 | |
US20240117368A1 (en) | Multiplex genome editing method and system | |
CN112048493B (zh) | 一种增强Cas9及其衍生蛋白介导的基因操纵系统的方法及应用 | |
WO2023169410A1 (zh) | 胞嘧啶脱氨酶及其在碱基编辑中的用途 | |
CN117264998A (zh) | 双功能基因组编辑系统及其用途 | |
CN112805385B (zh) | 基于人apobec3a脱氨酶的碱基编辑器及其用途 | |
JP7361109B2 (ja) | C2c1ヌクレアーゼに基づくゲノム編集のためのシステムおよび方法 | |
EP4130257A1 (en) | Improved cytosine base editing system | |
EP4242237A1 (en) | Foki nuclease domain variant | |
WO2022188816A1 (zh) | 改进的cg碱基编辑系统 | |
US20230002453A1 (en) | Gene editing system derived from flavobacteria | |
WO2024051850A1 (zh) | 基于dna聚合酶的基因组编辑系统和方法 | |
WO2023227050A1 (zh) | 一种在基因组中定点插入外源序列的方法 | |
CN117187213A (zh) | 新的crispr基因编辑系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |