CN117729931A - 用于治疗转甲状腺素蛋白淀粉样变性的组合物和方法 - Google Patents
用于治疗转甲状腺素蛋白淀粉样变性的组合物和方法 Download PDFInfo
- Publication number
- CN117729931A CN117729931A CN202280049413.1A CN202280049413A CN117729931A CN 117729931 A CN117729931 A CN 117729931A CN 202280049413 A CN202280049413 A CN 202280049413A CN 117729931 A CN117729931 A CN 117729931A
- Authority
- CN
- China
- Prior art keywords
- seq
- sequence
- sgrna
- ttr
- amino acid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 218
- 239000000203 mixture Substances 0.000 title claims description 57
- 201000007905 transthyretin amyloidosis Diseases 0.000 title abstract description 26
- 108090000765 processed proteins & peptides Proteins 0.000 claims abstract description 306
- 229920001184 polypeptide Polymers 0.000 claims abstract description 300
- 102000004196 processed proteins & peptides Human genes 0.000 claims abstract description 300
- 108010071690 Prealbumin Proteins 0.000 claims abstract description 251
- 108020005004 Guide RNA Proteins 0.000 claims abstract description 186
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 121
- 230000035772 mutation Effects 0.000 claims abstract description 83
- 230000004075 alteration Effects 0.000 claims abstract description 36
- 206010002022 amyloidosis Diseases 0.000 claims abstract description 35
- 102000009190 Transthyretin Human genes 0.000 claims abstract 89
- 108091033409 CRISPR Proteins 0.000 claims description 461
- 102000040430 polynucleotide Human genes 0.000 claims description 265
- 108091033319 polynucleotide Proteins 0.000 claims description 265
- 239000002157 polynucleotide Substances 0.000 claims description 265
- 125000003729 nucleotide group Chemical group 0.000 claims description 178
- 239000002773 nucleotide Substances 0.000 claims description 175
- 108010031325 Cytidine deaminase Proteins 0.000 claims description 159
- 101710169336 5'-deoxyadenosine deaminase Proteins 0.000 claims description 156
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 138
- 150000007523 nucleic acids Chemical group 0.000 claims description 122
- 102000053602 DNA Human genes 0.000 claims description 105
- 108020004414 DNA Proteins 0.000 claims description 105
- 108020001507 fusion proteins Proteins 0.000 claims description 104
- 102000037865 fusion proteins Human genes 0.000 claims description 104
- 102000039446 nucleic acids Human genes 0.000 claims description 84
- 108020004707 nucleic acids Proteins 0.000 claims description 84
- 230000000694 effects Effects 0.000 claims description 72
- 101710163270 Nuclease Proteins 0.000 claims description 66
- 230000004568 DNA-binding Effects 0.000 claims description 53
- 210000004027 cell Anatomy 0.000 claims description 53
- 239000012634 fragment Substances 0.000 claims description 51
- 230000008859 change Effects 0.000 claims description 49
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 40
- 230000000295 complement effect Effects 0.000 claims description 39
- 102000004533 Endonucleases Human genes 0.000 claims description 37
- 108010042407 Endonucleases Proteins 0.000 claims description 37
- 238000006467 substitution reaction Methods 0.000 claims description 36
- 230000014509 gene expression Effects 0.000 claims description 33
- -1 cationic lipid Chemical class 0.000 claims description 31
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 claims description 30
- 102000004190 Enzymes Human genes 0.000 claims description 27
- 108090000790 Enzymes Proteins 0.000 claims description 27
- 230000005782 double-strand break Effects 0.000 claims description 25
- 210000004900 c-terminal fragment Anatomy 0.000 claims description 24
- 230000001717 pathogenic effect Effects 0.000 claims description 24
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 claims description 23
- 102100026846 Cytidine deaminase Human genes 0.000 claims description 23
- 210000004898 n-terminal fragment Anatomy 0.000 claims description 23
- 239000008194 pharmaceutical composition Substances 0.000 claims description 23
- 229930024421 Adenine Natural products 0.000 claims description 22
- 229960000643 adenine Drugs 0.000 claims description 22
- 108010077850 Nuclear Localization Signals Proteins 0.000 claims description 21
- 210000003494 hepatocyte Anatomy 0.000 claims description 21
- 208000009869 Neu-Laxova syndrome Diseases 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 19
- 102220605874 Cytosolic arginine sensor for mTORC1 subunit 2_D10A_mutation Human genes 0.000 claims description 16
- 241000288906 Primates Species 0.000 claims description 16
- UHDGCWIWMRVCDJ-UHFFFAOYSA-N 1-beta-D-Xylofuranosyl-NH-Cytosine Natural products O=C1N=C(N)C=CN1C1C(O)C(O)C(CO)O1 UHDGCWIWMRVCDJ-UHFFFAOYSA-N 0.000 claims description 15
- UHDGCWIWMRVCDJ-PSQAKQOGSA-N Cytidine Natural products O=C1N=C(N)C=CN1[C@@H]1[C@@H](O)[C@@H](O)[C@H](CO)O1 UHDGCWIWMRVCDJ-PSQAKQOGSA-N 0.000 claims description 15
- 230000008439 repair process Effects 0.000 claims description 15
- 229940035893 uracil Drugs 0.000 claims description 15
- 101100385358 Alicyclobacillus acidoterrestris (strain ATCC 49025 / DSM 3922 / CIP 106132 / NCIMB 13137 / GD3B) cas12b gene Proteins 0.000 claims description 13
- 241000193830 Bacillus <bacterium> Species 0.000 claims description 13
- 108091081024 Start codon Proteins 0.000 claims description 13
- 108091079001 CRISPR RNA Proteins 0.000 claims description 12
- 241000282567 Macaca fascicularis Species 0.000 claims description 12
- 241000193996 Streptococcus pyogenes Species 0.000 claims description 11
- RYYWUUFWQRZTIU-UHFFFAOYSA-K thiophosphate Chemical compound [O-]P([O-])([O-])=S RYYWUUFWQRZTIU-UHFFFAOYSA-K 0.000 claims description 11
- 239000013603 viral vector Substances 0.000 claims description 10
- 239000004475 Arginine Substances 0.000 claims description 9
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 claims description 9
- 150000002632 lipids Chemical class 0.000 claims description 9
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 claims description 8
- 239000004473 Threonine Substances 0.000 claims description 8
- 239000003112 inhibitor Substances 0.000 claims description 8
- 210000005229 liver cell Anatomy 0.000 claims description 8
- 108700004991 Cas12a Proteins 0.000 claims description 7
- 241000588694 Erwinia amylovora Species 0.000 claims description 7
- 241000194020 Streptococcus thermophilus Species 0.000 claims description 7
- 108020004999 messenger RNA Proteins 0.000 claims description 7
- 102200017272 rs28931576 Human genes 0.000 claims description 7
- 240000001046 Lactobacillus acidophilus Species 0.000 claims description 6
- 235000013956 Lactobacillus acidophilus Nutrition 0.000 claims description 6
- 241000124008 Mammalia Species 0.000 claims description 6
- 210000004962 mammalian cell Anatomy 0.000 claims description 6
- 239000000546 pharmaceutical excipient Substances 0.000 claims description 6
- 102200150628 rs151220873 Human genes 0.000 claims description 6
- 102220470698 BUD13 homolog_V30P_mutation Human genes 0.000 claims description 5
- 102220558130 Olfactory receptor 2A1/2A42_V30L_mutation Human genes 0.000 claims description 5
- 230000007918 pathogenicity Effects 0.000 claims description 5
- 102220059866 rs786203652 Human genes 0.000 claims description 5
- 102200009432 rs79993407 Human genes 0.000 claims description 5
- 108091032955 Bacterial small RNA Proteins 0.000 claims description 4
- 108700028146 Genetic Enhancer Elements Proteins 0.000 claims description 4
- 210000005260 human cell Anatomy 0.000 claims description 4
- 241000175212 Herpesvirales Species 0.000 claims description 3
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 claims description 3
- 101100166144 Staphylococcus aureus cas9 gene Proteins 0.000 claims description 3
- 241000194007 Streptococcus canis Species 0.000 claims description 3
- 230000000415 inactivating effect Effects 0.000 claims description 3
- 229930182817 methionine Natural products 0.000 claims description 3
- 239000002105 nanoparticle Substances 0.000 claims description 3
- 230000001177 retroviral effect Effects 0.000 claims description 3
- 229940113491 Glycosylase inhibitor Drugs 0.000 claims description 2
- 108700026226 TATA Box Proteins 0.000 claims description 2
- 102000055025 Adenosine deaminases Human genes 0.000 claims 19
- UHDGCWIWMRVCDJ-ZAKLUEHWSA-N cytidine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@@H](O)[C@H](CO)O1 UHDGCWIWMRVCDJ-ZAKLUEHWSA-N 0.000 claims 4
- 102220128569 rs777178486 Human genes 0.000 claims 4
- 102000052510 DNA-Binding Proteins Human genes 0.000 abstract description 17
- 210000000056 organ Anatomy 0.000 abstract description 11
- 238000009825 accumulation Methods 0.000 abstract description 7
- 108091026890 Coding region Proteins 0.000 abstract description 6
- 108700020911 DNA-Binding Proteins Proteins 0.000 abstract description 6
- 230000002159 abnormal effect Effects 0.000 abstract description 3
- 102000009091 Amyloidogenic Proteins Human genes 0.000 abstract description 2
- 108010048112 Amyloidogenic Proteins Proteins 0.000 abstract description 2
- 102000007584 Prealbumin Human genes 0.000 description 159
- 125000000539 amino acid group Chemical group 0.000 description 145
- 102100036664 Adenosine deaminase Human genes 0.000 description 136
- 102000005381 Cytidine Deaminase Human genes 0.000 description 135
- 230000000875 corresponding effect Effects 0.000 description 114
- 235000001014 amino acid Nutrition 0.000 description 97
- 102000004169 proteins and genes Human genes 0.000 description 92
- 235000018102 proteins Nutrition 0.000 description 89
- 150000001413 amino acids Chemical class 0.000 description 66
- 229940024606 amino acid Drugs 0.000 description 64
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 44
- 230000027455 binding Effects 0.000 description 42
- 108010008532 Deoxyribonuclease I Proteins 0.000 description 38
- 102000007260 Deoxyribonuclease I Human genes 0.000 description 38
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 38
- 230000003197 catalytic effect Effects 0.000 description 36
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 35
- 230000002829 reductive effect Effects 0.000 description 29
- 201000010099 disease Diseases 0.000 description 26
- 229920002477 rna polymer Polymers 0.000 description 25
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 23
- 229960005305 adenosine Drugs 0.000 description 23
- 101150038500 cas9 gene Proteins 0.000 description 23
- 230000037431 insertion Effects 0.000 description 23
- 238000003780 insertion Methods 0.000 description 23
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 22
- 238000006481 deamination reaction Methods 0.000 description 21
- 230000009615 deamination Effects 0.000 description 19
- 230000037430 deletion Effects 0.000 description 19
- 238000012217 deletion Methods 0.000 description 19
- 238000003776 cleavage reaction Methods 0.000 description 18
- 230000007017 scission Effects 0.000 description 18
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 17
- 230000034431 double-strand break repair via homologous recombination Effects 0.000 description 17
- 229940104302 cytosine Drugs 0.000 description 16
- 101710172824 CRISPR-associated endonuclease Cas9 Proteins 0.000 description 15
- 230000006780 non-homologous end joining Effects 0.000 description 15
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 14
- 210000001519 tissue Anatomy 0.000 description 14
- 210000004899 c-terminal region Anatomy 0.000 description 13
- UHDGCWIWMRVCDJ-XVFCMESISA-N cytidine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 UHDGCWIWMRVCDJ-XVFCMESISA-N 0.000 description 13
- 208000035475 disorder Diseases 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 238000009396 hybridization Methods 0.000 description 12
- 230000000670 limiting effect Effects 0.000 description 12
- 238000001890 transfection Methods 0.000 description 12
- 101710096438 DNA-binding protein Proteins 0.000 description 11
- 101000910035 Streptococcus pyogenes serotype M1 CRISPR-associated endonuclease Cas9/Csn1 Proteins 0.000 description 11
- 239000011780 sodium chloride Substances 0.000 description 11
- 239000001509 sodium citrate Substances 0.000 description 11
- HRXKRNGNAMMEHJ-UHFFFAOYSA-K trisodium citrate Chemical compound [Na+].[Na+].[Na+].[O-]C(=O)CC(O)(CC([O-])=O)C([O-])=O HRXKRNGNAMMEHJ-UHFFFAOYSA-K 0.000 description 11
- 229940038773 trisodium citrate Drugs 0.000 description 11
- 108090000056 Complement factor B Proteins 0.000 description 10
- 102000003712 Complement factor B Human genes 0.000 description 10
- ZHNUHDYFZUAESO-UHFFFAOYSA-N Formamide Chemical compound NC=O ZHNUHDYFZUAESO-UHFFFAOYSA-N 0.000 description 10
- IQFYYKKMVGJFEH-XLPZGREQSA-N Thymidine Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 IQFYYKKMVGJFEH-XLPZGREQSA-N 0.000 description 10
- 230000034994 death Effects 0.000 description 9
- 239000012636 effector Substances 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 9
- 239000002777 nucleoside Substances 0.000 description 9
- 239000000047 product Substances 0.000 description 9
- 125000006850 spacer group Chemical group 0.000 description 9
- 238000011144 upstream manufacturing Methods 0.000 description 9
- 238000002965 ELISA Methods 0.000 description 8
- DBMJMQXJHONAFJ-UHFFFAOYSA-M Sodium laurylsulphate Chemical compound [Na+].CCCCCCCCCCCCOS([O-])(=O)=O DBMJMQXJHONAFJ-UHFFFAOYSA-M 0.000 description 8
- 208000031753 acute bilirubin encephalopathy Diseases 0.000 description 8
- 101150059443 cas12a gene Proteins 0.000 description 8
- 150000001875 compounds Chemical class 0.000 description 8
- 238000010362 genome editing Methods 0.000 description 8
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 8
- 210000002216 heart Anatomy 0.000 description 8
- FDGQSTZJBFJUBT-UHFFFAOYSA-N hypoxanthine Chemical compound O=C1NC=NC2=C1NC=N2 FDGQSTZJBFJUBT-UHFFFAOYSA-N 0.000 description 8
- 230000003993 interaction Effects 0.000 description 8
- 208000024891 symptom Diseases 0.000 description 8
- 108010052875 Adenine deaminase Proteins 0.000 description 7
- 210000004556 brain Anatomy 0.000 description 7
- 239000003795 chemical substances by application Substances 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 230000001404 mediated effect Effects 0.000 description 7
- 230000000051 modifying effect Effects 0.000 description 7
- 238000007481 next generation sequencing Methods 0.000 description 7
- 101150071322 ruvC gene Proteins 0.000 description 7
- 230000008685 targeting Effects 0.000 description 7
- 229940113082 thymine Drugs 0.000 description 7
- 108010080611 Cytosine Deaminase Proteins 0.000 description 6
- 102000000311 Cytosine Deaminase Human genes 0.000 description 6
- 230000007018 DNA scission Effects 0.000 description 6
- NYHBQMYGNKIUIF-UUOKFMHZSA-N Guanosine Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O NYHBQMYGNKIUIF-UUOKFMHZSA-N 0.000 description 6
- 238000011529 RT qPCR Methods 0.000 description 6
- 241000191967 Staphylococcus aureus Species 0.000 description 6
- DRTQHJPVMGBUCF-XVFCMESISA-N Uridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-XVFCMESISA-N 0.000 description 6
- 235000004279 alanine Nutrition 0.000 description 6
- 229910052739 hydrogen Inorganic materials 0.000 description 6
- 239000001257 hydrogen Substances 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 6
- 210000004185 liver Anatomy 0.000 description 6
- 208000033808 peripheral neuropathy Diseases 0.000 description 6
- 238000003762 quantitative reverse transcription PCR Methods 0.000 description 6
- 241000894007 species Species 0.000 description 6
- 239000000758 substrate Substances 0.000 description 6
- 238000005406 washing Methods 0.000 description 6
- LRFVTYWOQMYALW-UHFFFAOYSA-N 9H-xanthine Chemical compound O=C1NC(=O)NC2=C1NC=N2 LRFVTYWOQMYALW-UHFFFAOYSA-N 0.000 description 5
- DWRXFEITVBNRMK-UHFFFAOYSA-N Beta-D-1-Arabinofuranosylthymine Natural products O=C1NC(=O)C(C)=CN1C1C(O)C(O)C(CO)O1 DWRXFEITVBNRMK-UHFFFAOYSA-N 0.000 description 5
- 238000010356 CRISPR-Cas9 genome editing Methods 0.000 description 5
- 101100329224 Coprinopsis cinerea (strain Okayama-7 / 130 / ATCC MYA-4618 / FGSC 9003) cpf1 gene Proteins 0.000 description 5
- HMFHBZSHGGEWLO-SOOFDHNKSA-N D-ribofuranose Chemical compound OC[C@H]1OC(O)[C@H](O)[C@@H]1O HMFHBZSHGGEWLO-SOOFDHNKSA-N 0.000 description 5
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 5
- 101000772194 Homo sapiens Transthyretin Proteins 0.000 description 5
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 description 5
- 101100154773 Macaca fascicularis TTR gene Proteins 0.000 description 5
- PYMYPHUHKUWMLA-LMVFSUKVSA-N Ribose Natural products OC[C@@H](O)[C@@H](O)[C@@H](O)C=O PYMYPHUHKUWMLA-LMVFSUKVSA-N 0.000 description 5
- 101150091380 TTR gene Proteins 0.000 description 5
- HMFHBZSHGGEWLO-UHFFFAOYSA-N alpha-D-Furanose-Ribose Natural products OCC1OC(O)C(O)C1O HMFHBZSHGGEWLO-UHFFFAOYSA-N 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 238000003556 assay Methods 0.000 description 5
- 239000002299 complementary DNA Substances 0.000 description 5
- 102000056556 human TTR Human genes 0.000 description 5
- 125000003835 nucleoside group Chemical group 0.000 description 5
- 210000000278 spinal cord Anatomy 0.000 description 5
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 description 4
- 108020004705 Codon Proteins 0.000 description 4
- XUIIKFGFIJCVMT-GFCCVEGCSA-N D-thyroxine Chemical compound IC1=CC(C[C@@H](N)C(O)=O)=CC(I)=C1OC1=CC(I)=C(O)C(I)=C1 XUIIKFGFIJCVMT-GFCCVEGCSA-N 0.000 description 4
- 101100219622 Escherichia coli (strain K12) casC gene Proteins 0.000 description 4
- 208000034846 Familial Amyloid Neuropathies Diseases 0.000 description 4
- UGQMRVRMYYASKQ-UHFFFAOYSA-N Hypoxanthine nucleoside Natural products OC1C(O)C(CO)OC1N1C(NC=NC2=O)=C2N=C1 UGQMRVRMYYASKQ-UHFFFAOYSA-N 0.000 description 4
- UGQMRVRMYYASKQ-KQYNXXCUSA-N Inosine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C2=NC=NC(O)=C2N=C1 UGQMRVRMYYASKQ-KQYNXXCUSA-N 0.000 description 4
- 229930010555 Inosine Natural products 0.000 description 4
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 4
- 108091034117 Oligonucleotide Proteins 0.000 description 4
- 108700026244 Open Reading Frames Proteins 0.000 description 4
- 101100273269 Thermus thermophilus (strain ATCC 27634 / DSM 579 / HB8) cse3 gene Proteins 0.000 description 4
- FPIPGXGPPPQFEQ-OVSJKPMPSA-N all-trans-retinol Chemical compound OC\C=C(/C)\C=C\C=C(/C)\C=C\C1=C(C)CCCC1(C)C FPIPGXGPPPQFEQ-OVSJKPMPSA-N 0.000 description 4
- 125000004429 atom Chemical group 0.000 description 4
- 230000001580 bacterial effect Effects 0.000 description 4
- IQFYYKKMVGJFEH-UHFFFAOYSA-N beta-L-thymidine Natural products O=C1NC(=O)C(C)=CN1C1OC(CO)C(O)C1 IQFYYKKMVGJFEH-UHFFFAOYSA-N 0.000 description 4
- 101150090505 cas10 gene Proteins 0.000 description 4
- 108020001778 catalytic domains Proteins 0.000 description 4
- 101150085344 csa5 gene Proteins 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 229960003786 inosine Drugs 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 210000005036 nerve Anatomy 0.000 description 4
- 150000003833 nucleoside derivatives Chemical class 0.000 description 4
- 150000003839 salts Chemical class 0.000 description 4
- 235000000346 sugar Nutrition 0.000 description 4
- 229940104230 thymidine Drugs 0.000 description 4
- ZDTFMPXQUSBYRL-UUOKFMHZSA-N 2-Aminoadenosine Chemical compound C12=NC(N)=NC(N)=C2N=CN1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O ZDTFMPXQUSBYRL-UUOKFMHZSA-N 0.000 description 3
- ZAYHVCMSTBRABG-JXOAFFINSA-N 5-methylcytidine Chemical compound O=C1N=C(N)C(C)=CN1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 ZAYHVCMSTBRABG-JXOAFFINSA-N 0.000 description 3
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 3
- 241000283690 Bos taurus Species 0.000 description 3
- MIKUYHXYGGJMLM-GIMIYPNGSA-N Crotonoside Natural products C1=NC2=C(N)NC(=O)N=C2N1[C@H]1O[C@@H](CO)[C@H](O)[C@@H]1O MIKUYHXYGGJMLM-GIMIYPNGSA-N 0.000 description 3
- NYHBQMYGNKIUIF-UHFFFAOYSA-N D-guanosine Natural products C1=2NC(N)=NC(=O)C=2N=CN1C1OC(CO)C(O)C1O NYHBQMYGNKIUIF-UHFFFAOYSA-N 0.000 description 3
- 101100326871 Escherichia coli (strain K12) ygbF gene Proteins 0.000 description 3
- 108700024394 Exon Proteins 0.000 description 3
- 101150106478 GPS1 gene Proteins 0.000 description 3
- 241000282412 Homo Species 0.000 description 3
- 108091092195 Intron Proteins 0.000 description 3
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 3
- 101100219625 Mus musculus Casd1 gene Proteins 0.000 description 3
- 241000588650 Neisseria meningitidis Species 0.000 description 3
- 241000251745 Petromyzon marinus Species 0.000 description 3
- 241000605861 Prevotella Species 0.000 description 3
- 108020004511 Recombinant DNA Proteins 0.000 description 3
- 108020004682 Single-Stranded DNA Proteins 0.000 description 3
- 125000003295 alanine group Chemical group N[C@@H](C)C(=O)* 0.000 description 3
- 125000003277 amino group Chemical group 0.000 description 3
- 235000003704 aspartic acid Nutrition 0.000 description 3
- 210000003403 autonomic nervous system Anatomy 0.000 description 3
- DRTQHJPVMGBUCF-PSQAKQOGSA-N beta-L-uridine Natural products O[C@H]1[C@@H](O)[C@H](CO)O[C@@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-PSQAKQOGSA-N 0.000 description 3
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 3
- 230000036772 blood pressure Effects 0.000 description 3
- 125000002915 carbonyl group Chemical group [*:2]C([*:1])=O 0.000 description 3
- 101150117416 cas2 gene Proteins 0.000 description 3
- 101150055766 cat gene Proteins 0.000 description 3
- 210000003169 central nervous system Anatomy 0.000 description 3
- 238000003501 co-culture Methods 0.000 description 3
- 239000013078 crystal Substances 0.000 description 3
- 230000029087 digestion Effects 0.000 description 3
- 210000001508 eye Anatomy 0.000 description 3
- 238000003197 gene knockdown Methods 0.000 description 3
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 3
- 229940029575 guanosine Drugs 0.000 description 3
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 3
- 230000003301 hydrolyzing effect Effects 0.000 description 3
- 238000001727 in vivo Methods 0.000 description 3
- 230000002401 inhibitory effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 230000000813 microbial effect Effects 0.000 description 3
- 238000010369 molecular cloning Methods 0.000 description 3
- 230000030648 nucleus localization Effects 0.000 description 3
- 230000037361 pathway Effects 0.000 description 3
- 210000001428 peripheral nervous system Anatomy 0.000 description 3
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 3
- 239000013612 plasmid Substances 0.000 description 3
- 229920000642 polymer Polymers 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 229960003471 retinol Drugs 0.000 description 3
- 239000011607 retinol Substances 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000005783 single-strand break Effects 0.000 description 3
- 239000002904 solvent Substances 0.000 description 3
- 230000001225 therapeutic effect Effects 0.000 description 3
- 229940034208 thyroxine Drugs 0.000 description 3
- XUIIKFGFIJCVMT-UHFFFAOYSA-N thyroxine-binding globulin Natural products IC1=CC(CC([NH3+])C([O-])=O)=CC(I)=C1OC1=CC(I)=C(O)C(I)=C1 XUIIKFGFIJCVMT-UHFFFAOYSA-N 0.000 description 3
- 230000032258 transport Effects 0.000 description 3
- DRTQHJPVMGBUCF-UHFFFAOYSA-N uracil arabinoside Natural products OC1C(O)C(CO)OC1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-UHFFFAOYSA-N 0.000 description 3
- 229940045145 uridine Drugs 0.000 description 3
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 2
- MTCFGRXMJLQNBG-REOHCLBHSA-N (2S)-2-Amino-3-hydroxypropansäure Chemical compound OC[C@H](N)C(O)=O MTCFGRXMJLQNBG-REOHCLBHSA-N 0.000 description 2
- FPIPGXGPPPQFEQ-UHFFFAOYSA-N 13-cis retinol Natural products OCC=C(C)C=CC=C(C)C=CC1=C(C)CCCC1(C)C FPIPGXGPPPQFEQ-UHFFFAOYSA-N 0.000 description 2
- YKBGVTZYEHREMT-KVQBGUIXSA-N 2'-deoxyguanosine Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](CO)O1 YKBGVTZYEHREMT-KVQBGUIXSA-N 0.000 description 2
- CKTSBUTUHBMZGZ-SHYZEUOFSA-N 2'‐deoxycytidine Chemical compound O=C1N=C(N)C=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 CKTSBUTUHBMZGZ-SHYZEUOFSA-N 0.000 description 2
- FZWGECJQACGGTI-UHFFFAOYSA-N 2-amino-7-methyl-1,7-dihydro-6H-purin-6-one Chemical compound NC1=NC(O)=C2N(C)C=NC2=N1 FZWGECJQACGGTI-UHFFFAOYSA-N 0.000 description 2
- ASJSAQIRZKANQN-CRCLSJGQSA-N 2-deoxy-D-ribose Chemical compound OC[C@@H](O)[C@@H](O)CC=O ASJSAQIRZKANQN-CRCLSJGQSA-N 0.000 description 2
- YTVCXBVFGQEBAL-ARJAWSKDSA-N 2-methoxy-5-[(z)-2-(7-methoxy-1,3-benzodioxol-5-yl)ethenyl]phenol Chemical compound C=1C=2OCOC=2C(OC)=CC=1\C=C/C1=CC=C(OC)C(O)=C1 YTVCXBVFGQEBAL-ARJAWSKDSA-N 0.000 description 2
- OIVLITBTBDPEFK-UHFFFAOYSA-N 5,6-dihydrouracil Chemical compound O=C1CCNC(=O)N1 OIVLITBTBDPEFK-UHFFFAOYSA-N 0.000 description 2
- RYVNIFSIEDRLSJ-UHFFFAOYSA-N 5-(hydroxymethyl)cytosine Chemical compound NC=1NC(=O)N=CC=1CO RYVNIFSIEDRLSJ-UHFFFAOYSA-N 0.000 description 2
- ZAYHVCMSTBRABG-UHFFFAOYSA-N 5-Methylcytidine Natural products O=C1N=C(N)C(C)=CN1C1C(O)C(O)C(CO)O1 ZAYHVCMSTBRABG-UHFFFAOYSA-N 0.000 description 2
- 241001063273 Alicyclobacillus acidiphilus Species 0.000 description 2
- 241000193412 Alicyclobacillus acidoterrestris Species 0.000 description 2
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 2
- 238000010453 CRISPR/Cas method Methods 0.000 description 2
- 101150075629 CSM2 gene Proteins 0.000 description 2
- 101150017047 CSM3 gene Proteins 0.000 description 2
- 101150069031 CSN2 gene Proteins 0.000 description 2
- 101150078885 CSY3 gene Proteins 0.000 description 2
- 241000589875 Campylobacter jejuni Species 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 206010007509 Cardiac amyloidosis Diseases 0.000 description 2
- 208000006029 Cardiomegaly Diseases 0.000 description 2
- 241000918600 Corynebacterium ulcerans Species 0.000 description 2
- CKTSBUTUHBMZGZ-UHFFFAOYSA-N Deoxycytidine Natural products O=C1N=C(N)C=CN1C1OC(CO)C(O)C1 CKTSBUTUHBMZGZ-UHFFFAOYSA-N 0.000 description 2
- 101100275895 Emericella nidulans (strain FGSC A4 / ATCC 38163 / CBS 112.46 / NRRL 194 / M139) csnB gene Proteins 0.000 description 2
- 241000283086 Equidae Species 0.000 description 2
- 101100007788 Escherichia coli (strain K12) casA gene Proteins 0.000 description 2
- 101100007792 Escherichia coli (strain K12) casB gene Proteins 0.000 description 2
- 101100005249 Escherichia coli (strain K12) ygcB gene Proteins 0.000 description 2
- 108060002716 Exonuclease Proteins 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 241000589601 Francisella Species 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 2
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 2
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 2
- 101100412102 Haemophilus influenzae (strain ATCC 51907 / DSM 11121 / KW20 / Rd) rec2 gene Proteins 0.000 description 2
- 101100356020 Haemophilus influenzae (strain ATCC 51907 / DSM 11121 / KW20 / Rd) recA gene Proteins 0.000 description 2
- 101100273270 Haloferax volcanii (strain ATCC 29605 / DSM 3757 / JCM 8879 / NBRC 14742 / NCIMB 2012 / VKM B-1768 / DS2) cas7 gene Proteins 0.000 description 2
- 206010019889 Hereditary neuropathic amyloidosis Diseases 0.000 description 2
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 2
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 2
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 2
- 239000004472 Lysine Substances 0.000 description 2
- 101100387128 Myxococcus xanthus (strain DK1622) devR gene Proteins 0.000 description 2
- 101100495430 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) hH3v gene Proteins 0.000 description 2
- 108091005461 Nucleic proteins Chemical group 0.000 description 2
- 241001494479 Pecora Species 0.000 description 2
- 102220531513 Piwi-like protein 1_V30A_mutation Human genes 0.000 description 2
- 241001135221 Prevotella intermedia Species 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 229930185560 Pseudouridine Natural products 0.000 description 2
- PTJWIQPHWPFNBW-UHFFFAOYSA-N Pseudouridine C Natural products OC1C(O)C(CO)OC1C1=CNC(=O)NC1=O PTJWIQPHWPFNBW-UHFFFAOYSA-N 0.000 description 2
- 241000283984 Rodentia Species 0.000 description 2
- 206010040030 Sensory loss Diseases 0.000 description 2
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 2
- 102100022433 Single-stranded DNA cytosine deaminase Human genes 0.000 description 2
- 241000202917 Spiroplasma Species 0.000 description 2
- 241000282887 Suidae Species 0.000 description 2
- 108700009124 Transcription Initiation Site Proteins 0.000 description 2
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 2
- 108010017070 Zinc Finger Nucleases Proteins 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 239000012491 analyte Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 235000009582 asparagine Nutrition 0.000 description 2
- 229960001230 asparagine Drugs 0.000 description 2
- 230000033590 base-excision repair Effects 0.000 description 2
- 239000011324 bead Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- WGDUUQDYDIIBKT-UHFFFAOYSA-N beta-Pseudouridine Natural products OC1OC(CN2C=CC(=O)NC2=O)C(O)C1O WGDUUQDYDIIBKT-UHFFFAOYSA-N 0.000 description 2
- 230000004071 biological effect Effects 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 101150055191 cas3 gene Proteins 0.000 description 2
- 101150111685 cas4 gene Proteins 0.000 description 2
- 101150102600 cas5a gene Proteins 0.000 description 2
- 101150084354 cas5d gene Proteins 0.000 description 2
- 101150106467 cas6 gene Proteins 0.000 description 2
- 101150066299 cas6f gene Proteins 0.000 description 2
- 101150044165 cas7 gene Proteins 0.000 description 2
- 101150100788 cmr3 gene Proteins 0.000 description 2
- 101150040342 cmr4 gene Proteins 0.000 description 2
- 101150095330 cmr5 gene Proteins 0.000 description 2
- 101150034961 cmr6 gene Proteins 0.000 description 2
- 101150042828 csa1 gene Proteins 0.000 description 2
- 101150076151 csa3 gene Proteins 0.000 description 2
- 101150022488 csm5 gene Proteins 0.000 description 2
- 101150064365 csm6 gene Proteins 0.000 description 2
- 101150037603 cst-1 gene Proteins 0.000 description 2
- 101150016576 csy2 gene Proteins 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009881 electrostatic interaction Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 102000013165 exonuclease Human genes 0.000 description 2
- 239000000499 gel Substances 0.000 description 2
- 235000013922 glutamic acid Nutrition 0.000 description 2
- 239000004220 glutamic acid Substances 0.000 description 2
- 239000001963 growth medium Substances 0.000 description 2
- 238000004128 high performance liquid chromatography Methods 0.000 description 2
- 125000000487 histidyl group Chemical group [H]N([H])C(C(=O)O*)C([H])([H])C1=C([H])N([H])C([H])=N1 0.000 description 2
- 230000036039 immunity Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 2
- 229960000310 isoleucine Drugs 0.000 description 2
- 210000003734 kidney Anatomy 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 230000007823 neuropathy Effects 0.000 description 2
- 201000001119 neuropathy Diseases 0.000 description 2
- QJGQUHMNIGDVPM-UHFFFAOYSA-N nitrogen group Chemical group [N] QJGQUHMNIGDVPM-UHFFFAOYSA-N 0.000 description 2
- 230000009437 off-target effect Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 210000003446 pia mater Anatomy 0.000 description 2
- 238000002264 polyacrylamide gel electrophoresis Methods 0.000 description 2
- 230000003389 potentiating effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 108020001580 protein domains Proteins 0.000 description 2
- PTJWIQPHWPFNBW-GBNDHIKLSA-N pseudouridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1C1=CNC(=O)NC1=O PTJWIQPHWPFNBW-GBNDHIKLSA-N 0.000 description 2
- 125000004219 purine nucleobase group Chemical group 0.000 description 2
- 102000005912 ran GTP Binding Protein Human genes 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 108091008146 restriction endonucleases Proteins 0.000 description 2
- 235000020944 retinol Nutrition 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000004474 valine Substances 0.000 description 2
- 229940075420 xanthine Drugs 0.000 description 2
- RIFDKYBNWNPCQK-IOSLPCCCSA-N (2r,3s,4r,5r)-2-(hydroxymethyl)-5-(6-imino-3-methylpurin-9-yl)oxolane-3,4-diol Chemical compound C1=2N(C)C=NC(=N)C=2N=CN1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O RIFDKYBNWNPCQK-IOSLPCCCSA-N 0.000 description 1
- RKSLVDIXBGWPIS-UAKXSSHOSA-N 1-[(2r,3r,4s,5r)-3,4-dihydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-iodopyrimidine-2,4-dione Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C(I)=C1 RKSLVDIXBGWPIS-UAKXSSHOSA-N 0.000 description 1
- QLOCVMVCRJOTTM-TURQNECASA-N 1-[(2r,3r,4s,5r)-3,4-dihydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-prop-1-ynylpyrimidine-2,4-dione Chemical compound O=C1NC(=O)C(C#CC)=CN1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 QLOCVMVCRJOTTM-TURQNECASA-N 0.000 description 1
- PISWNSOQFZRVJK-XLPZGREQSA-N 1-[(2r,4s,5r)-4-hydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-methyl-2-sulfanylidenepyrimidin-4-one Chemical compound S=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 PISWNSOQFZRVJK-XLPZGREQSA-N 0.000 description 1
- UVBYMVOUBXYSFV-XUTVFYLZSA-N 1-methylpseudouridine Chemical compound O=C1NC(=O)N(C)C=C1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 UVBYMVOUBXYSFV-XUTVFYLZSA-N 0.000 description 1
- VGONTNSXDCQUGY-RRKCRQDMSA-N 2'-deoxyinosine Chemical compound C1[C@H](O)[C@@H](CO)O[C@H]1N1C(N=CNC2=O)=C2N=C1 VGONTNSXDCQUGY-RRKCRQDMSA-N 0.000 description 1
- MXHRCPNRJAMMIM-SHYZEUOFSA-N 2'-deoxyuridine Chemical compound C1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C=C1 MXHRCPNRJAMMIM-SHYZEUOFSA-N 0.000 description 1
- XXSIICQLPUAUDF-TURQNECASA-N 4-amino-1-[(2r,3r,4s,5r)-3,4-dihydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-prop-1-ynylpyrimidin-2-one Chemical compound O=C1N=C(N)C(C#CC)=CN1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 XXSIICQLPUAUDF-TURQNECASA-N 0.000 description 1
- AGFIRQJZCNVMCW-UAKXSSHOSA-N 5-bromouridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C(Br)=C1 AGFIRQJZCNVMCW-UAKXSSHOSA-N 0.000 description 1
- FHIDNBAQOFJWCA-UAKXSSHOSA-N 5-fluorouridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C(F)=C1 FHIDNBAQOFJWCA-UAKXSSHOSA-N 0.000 description 1
- ZXIATBNUWJBBGT-JXOAFFINSA-N 5-methoxyuridine Chemical compound O=C1NC(=O)C(OC)=CN1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 ZXIATBNUWJBBGT-JXOAFFINSA-N 0.000 description 1
- KDOPAZIWBAHVJB-UHFFFAOYSA-N 5h-pyrrolo[3,2-d]pyrimidine Chemical compound C1=NC=C2NC=CC2=N1 KDOPAZIWBAHVJB-UHFFFAOYSA-N 0.000 description 1
- BXJHWYVXLGLDMZ-UHFFFAOYSA-N 6-O-methylguanine Chemical compound COC1=NC(N)=NC2=C1NC=N2 BXJHWYVXLGLDMZ-UHFFFAOYSA-N 0.000 description 1
- DCPSTSVLRXOYGS-UHFFFAOYSA-N 6-amino-1h-pyrimidine-2-thione Chemical compound NC1=CC=NC(S)=N1 DCPSTSVLRXOYGS-UHFFFAOYSA-N 0.000 description 1
- UEHOMUNTZPIBIL-UUOKFMHZSA-N 6-amino-9-[(2r,3r,4s,5r)-3,4-dihydroxy-5-(hydroxymethyl)oxolan-2-yl]-7h-purin-8-one Chemical compound O=C1NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O UEHOMUNTZPIBIL-UUOKFMHZSA-N 0.000 description 1
- OGHAROSJZRTIOK-KQYNXXCUSA-O 7-methylguanosine Chemical compound C1=2N=C(N)NC(=O)C=2[N+](C)=CN1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OGHAROSJZRTIOK-KQYNXXCUSA-O 0.000 description 1
- HCAJQHYUCKICQH-VPENINKCSA-N 8-Oxo-7,8-dihydro-2'-deoxyguanosine Chemical compound C1=2NC(N)=NC(=O)C=2NC(=O)N1[C@H]1C[C@H](O)[C@@H](CO)O1 HCAJQHYUCKICQH-VPENINKCSA-N 0.000 description 1
- 108010029988 AICDA (activation-induced cytidine deaminase) Proteins 0.000 description 1
- 241000590020 Achromobacter Species 0.000 description 1
- 108700028369 Alleles Proteins 0.000 description 1
- 208000037259 Amyloid Plaque Diseases 0.000 description 1
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 101100123845 Aphanizomenon flos-aquae (strain 2012/KM1/D3) hepT gene Proteins 0.000 description 1
- 241001600407 Aphis <genus> Species 0.000 description 1
- 101100412103 Arabidopsis thaliana REC3 gene Proteins 0.000 description 1
- 206010003591 Ataxia Diseases 0.000 description 1
- 241000972773 Aulopiformes Species 0.000 description 1
- 230000007082 Aβ accumulation Effects 0.000 description 1
- 241000825009 Bacillus hisashii Species 0.000 description 1
- 241000194110 Bacillus sp. (in: Bacteria) Species 0.000 description 1
- 241001495667 Bacillus thermoamylovorans Species 0.000 description 1
- 102100021663 Baculoviral IAP repeat-containing protein 5 Human genes 0.000 description 1
- 241000616876 Belliella baltica Species 0.000 description 1
- 241000282832 Camelidae Species 0.000 description 1
- 241000282465 Canis Species 0.000 description 1
- 241000283707 Capra Species 0.000 description 1
- 206010007572 Cardiac hypertrophy Diseases 0.000 description 1
- 208000031229 Cardiomyopathies Diseases 0.000 description 1
- 241000700198 Cavia Species 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 206010008111 Cerebral haemorrhage Diseases 0.000 description 1
- 108091060290 Chromatid Proteins 0.000 description 1
- 206010010774 Constipation Diseases 0.000 description 1
- 206010010904 Convulsion Diseases 0.000 description 1
- 241000186216 Corynebacterium Species 0.000 description 1
- 241000186227 Corynebacterium diphtheriae Species 0.000 description 1
- 238000010442 DNA editing Methods 0.000 description 1
- 230000033616 DNA repair Effects 0.000 description 1
- 230000004543 DNA replication Effects 0.000 description 1
- 206010012289 Dementia Diseases 0.000 description 1
- 206010012735 Diarrhoea Diseases 0.000 description 1
- LTMHDMANZUZIPE-AMTYYWEZSA-N Digoxin Natural products O([C@H]1[C@H](C)O[C@H](O[C@@H]2C[C@@H]3[C@@](C)([C@@H]4[C@H]([C@]5(O)[C@](C)([C@H](O)C4)[C@H](C4=CC(=O)OC4)CC5)CC3)CC2)C[C@@H]1O)[C@H]1O[C@H](C)[C@@H](O[C@H]2O[C@@H](C)[C@H](O)[C@@H](O)C2)[C@@H](O)C1 LTMHDMANZUZIPE-AMTYYWEZSA-N 0.000 description 1
- 208000003556 Dry Eye Syndromes Diseases 0.000 description 1
- 206010013774 Dry eye Diseases 0.000 description 1
- 208000012661 Dyskinesia Diseases 0.000 description 1
- 101100275882 Emericella nidulans (strain FGSC A4 / ATCC 38163 / CBS 112.46 / NRRL 194 / M139) csnA gene Proteins 0.000 description 1
- 102100038132 Endogenous retrovirus group K member 6 Pro protein Human genes 0.000 description 1
- 241000283073 Equus caballus Species 0.000 description 1
- 230000010337 G2 phase Effects 0.000 description 1
- 208000010412 Glaucoma Diseases 0.000 description 1
- 239000004471 Glycine Substances 0.000 description 1
- 108050008753 HNH endonucleases Proteins 0.000 description 1
- 102000000310 HNH endonucleases Human genes 0.000 description 1
- 101100273274 Haloferax volcanii (strain ATCC 29605 / DSM 3757 / JCM 8879 / NBRC 14742 / NCIMB 2012 / VKM B-1768 / DS2) cas8b gene Proteins 0.000 description 1
- 206010019280 Heart failures Diseases 0.000 description 1
- 108091027305 Heteroduplex Proteins 0.000 description 1
- 108010015268 Integration Host Factors Proteins 0.000 description 1
- ODKSFYDXXFIFQN-BYPYZUCNSA-P L-argininium(2+) Chemical compound NC(=[NH2+])NCCC[C@H]([NH3+])C(O)=O ODKSFYDXXFIFQN-BYPYZUCNSA-P 0.000 description 1
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical compound OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 description 1
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 1
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 1
- KDXKERNSBIXSRK-YFKPBYRVSA-N L-lysine Chemical compound NCCCC[C@H](N)C(O)=O KDXKERNSBIXSRK-YFKPBYRVSA-N 0.000 description 1
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 1
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- UBORTCNDUKBEOP-UHFFFAOYSA-N L-xanthosine Natural products OC1C(O)C(CO)OC1N1C(NC(=O)NC2=O)=C2N=C1 UBORTCNDUKBEOP-UHFFFAOYSA-N 0.000 description 1
- 241000282838 Lama Species 0.000 description 1
- 108091026898 Leader sequence (mRNA) Proteins 0.000 description 1
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 1
- 241000186781 Listeria Species 0.000 description 1
- 241000186805 Listeria innocua Species 0.000 description 1
- 208000001089 Multiple system atrophy Diseases 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 208000010428 Muscle Weakness Diseases 0.000 description 1
- 206010028372 Muscular weakness Diseases 0.000 description 1
- 206010052904 Musculoskeletal stiffness Diseases 0.000 description 1
- 101150114527 Nkx2-5 gene Proteins 0.000 description 1
- 108091092724 Noncoding DNA Proteins 0.000 description 1
- 108020004485 Nonsense Codon Proteins 0.000 description 1
- 206010065508 Orthostatic hypertension Diseases 0.000 description 1
- 206010031127 Orthostatic hypotension Diseases 0.000 description 1
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 108091005804 Peptidases Proteins 0.000 description 1
- 206010035226 Plasma cell myeloma Diseases 0.000 description 1
- 239000004365 Protease Substances 0.000 description 1
- 241000577544 Psychroflexus torquis Species 0.000 description 1
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 1
- 230000004570 RNA-binding Effects 0.000 description 1
- 241000700159 Rattus Species 0.000 description 1
- 102000007056 Recombinant Fusion Proteins Human genes 0.000 description 1
- 108010008281 Recombinant Fusion Proteins Proteins 0.000 description 1
- 102000003661 Ribonuclease III Human genes 0.000 description 1
- 108010057163 Ribonuclease III Proteins 0.000 description 1
- 230000018199 S phase Effects 0.000 description 1
- 101100528972 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RPD3 gene Proteins 0.000 description 1
- 101710143275 Single-stranded DNA cytosine deaminase Proteins 0.000 description 1
- 108020004688 Small Nuclear RNA Proteins 0.000 description 1
- 102000039471 Small Nuclear RNA Human genes 0.000 description 1
- 108020004459 Small interfering RNA Proteins 0.000 description 1
- 206010041415 Spastic paralysis Diseases 0.000 description 1
- 241001606419 Spiroplasma syrphidicola Species 0.000 description 1
- 241000203029 Spiroplasma taiwanense Species 0.000 description 1
- 241000194017 Streptococcus Species 0.000 description 1
- 241000194056 Streptococcus iniae Species 0.000 description 1
- 101100166134 Streptococcus thermophilus (strain ATCC BAA-491 / LMD-9) cas9-1 gene Proteins 0.000 description 1
- 101100166135 Streptococcus thermophilus (strain ATCC BAA-491 / LMD-9) cas9-2 gene Proteins 0.000 description 1
- 108010002687 Survivin Proteins 0.000 description 1
- 238000010459 TALEN Methods 0.000 description 1
- 101100059152 Thermococcus onnurineus (strain NA1) csm1 gene Proteins 0.000 description 1
- 108091036066 Three prime untranslated region Proteins 0.000 description 1
- 108010043645 Transcription Activator-Like Effector Nucleases Proteins 0.000 description 1
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 1
- 108010072685 Uracil-DNA Glycosidase Proteins 0.000 description 1
- 102000006943 Uracil-DNA Glycosidase Human genes 0.000 description 1
- 101710172430 Uracil-DNA glycosylase inhibitor Proteins 0.000 description 1
- 108020005202 Viral DNA Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 208000034700 Vitreous opacities Diseases 0.000 description 1
- UBORTCNDUKBEOP-HAVMAKPUSA-N Xanthosine Natural products O[C@@H]1[C@H](O)[C@H](CO)O[C@H]1N1C(NC(=O)NC2=O)=C2N=C1 UBORTCNDUKBEOP-HAVMAKPUSA-N 0.000 description 1
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 239000000370 acceptor Substances 0.000 description 1
- 230000002378 acidificating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 210000005006 adaptive immune system Anatomy 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 150000001408 amides Chemical group 0.000 description 1
- PYMYPHUHKUWMLA-WDCZJNDASA-N arabinose Chemical class OC[C@@H](O)[C@@H](O)[C@H](O)C=O PYMYPHUHKUWMLA-WDCZJNDASA-N 0.000 description 1
- PYMYPHUHKUWMLA-UHFFFAOYSA-N arabinose Natural products OCC(O)C(O)C(O)C=O PYMYPHUHKUWMLA-UHFFFAOYSA-N 0.000 description 1
- 206010003119 arrhythmia Diseases 0.000 description 1
- 230000006793 arrhythmia Effects 0.000 description 1
- 210000004507 artificial chromosome Anatomy 0.000 description 1
- 239000011668 ascorbic acid Substances 0.000 description 1
- 150000001508 asparagines Chemical class 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008970 bacterial immunity Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- SRBFZHDQGSBBOR-UHFFFAOYSA-N beta-D-Pyranose-Lyxose Natural products OC1COC(O)C(O)C1O SRBFZHDQGSBBOR-UHFFFAOYSA-N 0.000 description 1
- 230000008512 biological response Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 229960002685 biotin Drugs 0.000 description 1
- 235000020958 biotin Nutrition 0.000 description 1
- 239000011616 biotin Substances 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 230000000981 bystander Effects 0.000 description 1
- 230000000747 cardiac effect Effects 0.000 description 1
- 208000003295 carpal tunnel syndrome Diseases 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000022131 cell cycle Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000033077 cellular process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000009614 chemical analysis method Methods 0.000 description 1
- 125000003636 chemical group Chemical group 0.000 description 1
- 238000007385 chemical modification Methods 0.000 description 1
- 239000012707 chemical precursor Substances 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 210000002987 choroid plexus Anatomy 0.000 description 1
- 210000004756 chromatid Anatomy 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 239000013599 cloning vector Substances 0.000 description 1
- 229910017052 cobalt Inorganic materials 0.000 description 1
- 239000010941 cobalt Substances 0.000 description 1
- GUTLYIVDDKVIGB-UHFFFAOYSA-N cobalt atom Chemical compound [Co] GUTLYIVDDKVIGB-UHFFFAOYSA-N 0.000 description 1
- 238000004440 column chromatography Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012866 crystallographic experiment Methods 0.000 description 1
- 101150088639 csm4 gene Proteins 0.000 description 1
- 101150008672 csn-1 gene Proteins 0.000 description 1
- 101150088252 csy1 gene Proteins 0.000 description 1
- 239000012228 culture supernatant Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- VGONTNSXDCQUGY-UHFFFAOYSA-N desoxyinosine Natural products C1C(O)C(CO)OC1N1C(NC=NC2=O)=C2N=C1 VGONTNSXDCQUGY-UHFFFAOYSA-N 0.000 description 1
- MXHRCPNRJAMMIM-UHFFFAOYSA-N desoxyuridine Natural products C1C(O)C(CO)OC1N1C(=O)NC(=O)C=C1 MXHRCPNRJAMMIM-UHFFFAOYSA-N 0.000 description 1
- 239000003599 detergent Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- LTMHDMANZUZIPE-PUGKRICDSA-N digoxin Chemical compound C1[C@H](O)[C@H](O)[C@@H](C)O[C@H]1O[C@@H]1[C@@H](C)O[C@@H](O[C@@H]2[C@H](O[C@@H](O[C@@H]3C[C@@H]4[C@]([C@@H]5[C@H]([C@]6(CC[C@@H]([C@@]6(C)[C@H](O)C5)C=5COC(=O)C=5)O)CC4)(C)CC3)C[C@@H]2O)C)C[C@@H]1O LTMHDMANZUZIPE-PUGKRICDSA-N 0.000 description 1
- 229960005156 digoxin Drugs 0.000 description 1
- LTMHDMANZUZIPE-UHFFFAOYSA-N digoxine Natural products C1C(O)C(O)C(C)OC1OC1C(C)OC(OC2C(OC(OC3CC4C(C5C(C6(CCC(C6(C)C(O)C5)C=5COC(=O)C=5)O)CC4)(C)CC3)CC2O)C)CC1O LTMHDMANZUZIPE-UHFFFAOYSA-N 0.000 description 1
- ZPTBLXKRQACLCR-XVFCMESISA-N dihydrouridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)CC1 ZPTBLXKRQACLCR-XVFCMESISA-N 0.000 description 1
- 206010013023 diphtheria Diseases 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 230000004406 elevated intraocular pressure Effects 0.000 description 1
- 230000002616 endonucleolytic effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 125000001495 ethyl group Chemical group [H]C([H])([H])C([H])([H])* 0.000 description 1
- 210000003527 eukaryotic cell Anatomy 0.000 description 1
- 230000006846 excision repair Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 230000004077 genetic alteration Effects 0.000 description 1
- 231100000118 genetic alteration Toxicity 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 125000000404 glutamine group Chemical group N[C@@H](CCC(N)=O)C(=O)* 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 229910052736 halogen Inorganic materials 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 150000002402 hexoses Chemical class 0.000 description 1
- 229940088597 hormone Drugs 0.000 description 1
- 239000005556 hormone Substances 0.000 description 1
- 208000003906 hydrocephalus Diseases 0.000 description 1
- 230000002209 hydrophobic effect Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 201000001881 impotence Diseases 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 230000017730 intein-mediated protein splicing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000010410 layer Substances 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 230000004777 loss-of-function mutation Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000027939 micturition Effects 0.000 description 1
- 230000037230 mobility Effects 0.000 description 1
- 102000035118 modified proteins Human genes 0.000 description 1
- 108091005573 modified proteins Proteins 0.000 description 1
- 231100000350 mutagenesis Toxicity 0.000 description 1
- 239000003471 mutagenic agent Substances 0.000 description 1
- 231100000707 mutagenic chemical Toxicity 0.000 description 1
- 239000013642 negative control Substances 0.000 description 1
- 230000002981 neuropathic effect Effects 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 102000044158 nucleic acid binding protein Human genes 0.000 description 1
- 108700020942 nucleic acid binding protein Proteins 0.000 description 1
- 229940127073 nucleoside analogue Drugs 0.000 description 1
- 230000005257 nucleotidylation Effects 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 231100000862 numbness Toxicity 0.000 description 1
- 239000003960 organic solvent Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 150000004713 phosphodiesters Chemical group 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 239000002504 physiological saline solution Substances 0.000 description 1
- 239000000902 placebo Substances 0.000 description 1
- 229940068196 placebo Drugs 0.000 description 1
- 229920002401 polyacrylamide Polymers 0.000 description 1
- 230000008488 polyadenylation Effects 0.000 description 1
- 230000023603 positive regulation of transcription initiation, DNA-dependent Effects 0.000 description 1
- 208000022256 primary systemic amyloidosis Diseases 0.000 description 1
- 210000001236 prokaryotic cell Anatomy 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000000069 prophylactic effect Effects 0.000 description 1
- 235000019419 proteases Nutrition 0.000 description 1
- 230000016434 protein splicing Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 125000000561 purinyl group Chemical group N1=C(N=C2N=CNC2=C1)* 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000003259 recombinant expression Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000008263 repair mechanism Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- DWRXFEITVBNRMK-JXOAFFINSA-N ribothymidine Chemical compound O=C1NC(=O)C(C)=CN1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 DWRXFEITVBNRMK-JXOAFFINSA-N 0.000 description 1
- 101150101962 rplI gene Proteins 0.000 description 1
- 102220258017 rs1553619274 Human genes 0.000 description 1
- 102220278924 rs864622656 Human genes 0.000 description 1
- 235000019515 salmon Nutrition 0.000 description 1
- 230000003007 single stranded DNA break Effects 0.000 description 1
- 235000019333 sodium laurylsulphate Nutrition 0.000 description 1
- 230000009870 specific binding Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 150000008163 sugars Chemical class 0.000 description 1
- 238000007910 systemic administration Methods 0.000 description 1
- 229940065721 systemic for obstructive airway disease xanthines Drugs 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 108091006106 transcriptional activators Proteins 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 125000002987 valine group Chemical group [H]N([H])C([H])(C(*)=O)C([H])(C([H])([H])[H])C([H])([H])[H] 0.000 description 1
- 239000003981 vehicle Substances 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- 229940045997 vitamin a Drugs 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
- 208000027121 wild type ATTR amyloidosis Diseases 0.000 description 1
- UBORTCNDUKBEOP-UUOKFMHZSA-N xanthosine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(NC(=O)NC2=O)=C2N=C1 UBORTCNDUKBEOP-UUOKFMHZSA-N 0.000 description 1
- 229910052725 zinc Inorganic materials 0.000 description 1
- 239000011701 zinc Substances 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/87—Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
- C12N15/90—Stable introduction of foreign DNA into chromosome
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/111—General methods applicable to biologically active non-coding nucleic acids
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61K—PREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
- A61K48/00—Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
- A61K48/005—Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy characterised by an aspect of the 'active' part of the composition delivered, i.e. the nucleic acid delivered
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K14/00—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
- C07K14/435—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
- C07K14/46—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
- C07K14/47—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/113—Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/16—Hydrolases (3) acting on ester bonds (3.1)
- C12N9/22—Ribonucleases RNAses, DNAses
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/78—Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Y—ENZYMES
- C12Y305/00—Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
- C12Y305/04—Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
- C12Y305/04004—Adenosine deaminase (3.5.4.4)
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Y—ENZYMES
- C12Y305/00—Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
- C12Y305/04—Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
- C12Y305/04005—Cytidine deaminase (3.5.4.5)
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/10—Type of nucleic acid
- C12N2310/20—Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2320/00—Applications; Uses
- C12N2320/30—Special therapeutic applications
- C12N2320/34—Allele or polymorphism specific uses
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2800/00—Nucleic acids vectors
- C12N2800/80—Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Wood Science & Technology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Medicinal Chemistry (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Plant Pathology (AREA)
- Epidemiology (AREA)
- Veterinary Medicine (AREA)
- Public Health (AREA)
- Animal Behavior & Ethology (AREA)
- Pharmacology & Pharmacy (AREA)
- Mycology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Gastroenterology & Hepatology (AREA)
- Toxicology (AREA)
- Enzymes And Modification Thereof (AREA)
- Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
- Medicines Containing Material From Animals Or Micro-Organisms (AREA)
Abstract
淀粉样变性是一种以淀粉样蛋白的异常沉积物在身体器官和组织中的积聚为特征的病状。转甲状腺素蛋白(TTR)基因中的突变能够引起转甲状腺素蛋白淀粉样变性。本文描述了工程化DNA结合蛋白(多肽)和脱氨酶与引导RNA,用以靶向转甲状腺素蛋白(TTR)编码序列内以供改变的特定核碱基位置。
Description
相关申请的交叉引用
本申请要求2021年5月14日提交的第63/189,060号美国临时申请的优先权和权益,该临时申请的全部内容以引用的方式并入本文。
序列表
本申请含有序列表,所述序列表已经按ASCII格式以电子方式提交,并且特此以引用的方式全文并入。所述ASCII副本创建于2022年5月10日,命名为180802_055001_PCT_SL.txt,并且大小为2,351,655字节。
背景技术
淀粉样变性是一种以淀粉样蛋白的异常沉积物在身体器官和组织中的积聚为特征的病状。这些蛋白质沉积物可出现在外周神经系统中,外周神经系统由将脑和脊髓与肌肉和感觉细胞连接的神经组成,这些神经检测诸如触觉、疼痛、热和声音的感觉。这些神经中的蛋白质沉积物可导致四肢感觉丧失(外周神经病变)。控制不自主身体功能如血压、心率和消化的自主神经系统也可能会受淀粉样变性的影响。在一些情况下,脑和脊髓(中枢神经系统)受影响。转甲状腺素蛋白(TTR)基因的突变可导致转甲状腺素蛋白淀粉样变性。此外,表达野生型TTR的患者也可能会发生淀粉样变性。肝脏移植仍然是治疗转甲状腺素蛋白淀粉样变性的金标准。
因此,仍然需要用于编辑转甲状腺素蛋白多核苷酸序列的组合物和方法。这些方法可用于治疗淀粉样变性。
发明内容
如下所述,本发明的特征在于编辑转甲状腺素蛋白多核苷酸序列以治疗转甲状腺素蛋白淀粉样变性的组合物和方法。
一方面,本公开的发明的特征在于编辑转甲状腺素蛋白(TTR)多核苷酸序列的方法。所述方法涉及:使所述多核苷酸序列与引导RNA和含有多核苷酸可编程DNA结合多肽和脱氨酶的碱基编辑器接触。引导RNA靶向碱基编辑器以实现TTR多核苷酸序列的核碱基的改变。
另一方面,本公开的发明的特征在于编辑转甲状腺素蛋白(TTR)多核苷酸序列的方法。所述方法涉及:使所述多核苷酸序列与引导RNA和含有多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域的融合蛋白接触。腺苷脱氨酶结构域在以下氨基酸序列的氨基酸位置147处含有精氨酸(R)或苏氨酸(T),并且腺苷脱氨酶结构域与以下氨基酸序列具有至少约85%的序列同一性:MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:4;TadA*7.10)。引导RNA靶向融合蛋白以实现TTR多核苷酸序列的核碱基的改变。
另一方面,本公开的发明的特征在于编辑转甲状腺素蛋白(TTR)多核苷酸序列的方法。所述方法涉及:使所述多核苷酸序列与引导RNA和含有多核苷酸可编程DNA结合结构域和胞苷脱氨酶结构域的融合蛋白接触。胞苷脱氨酶结构域含有与如下氨基酸序列具有至少约85%的序列同一性的氨基酸序列:MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK(SEQ ID NO:15;BE4胞苷脱氨酶结构域)。引导RNA靶向融合蛋白以实现TTR多核苷酸序列的核碱基的改变。
另一方面,本公开的发明的特征在于编辑转甲状腺素蛋白(TTR)多核苷酸序列的方法。所述方法涉及:使所述多核苷酸序列与引导RNA和Cas12b核酸内切酶接触,其中引导RNA靶向核酸内切酶以实现TTR多核苷酸序列的双链断裂。
另一方面,本公开的发明的特征在于治疗受试者的淀粉样变性的方法。所述方法涉及向受试者施用引导RNA和含有多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域的融合蛋白。腺苷脱氨酶结构域在以下氨基酸序列的氨基酸位置147处含有精氨酸(R)或苏氨酸(T),并且腺苷脱氨酶结构域与以下氨基酸序列具有至少约85%的序列同一性:MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLN NRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPG MNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:4;TadA*7.10)。引导RNA靶向融合蛋白以实现TTR多核苷酸序列的核碱基的改变。
另一方面,本公开的发明的特征在于治疗受试者的淀粉样变性的方法。所述方法涉及向受试者施用引导RNA和含有多核苷酸可编程DNA结合结构域和胞苷脱氨酶结构域的融合蛋白。胞苷脱氨酶结构域含有与如下氨基酸序列具有至少约85%的序列同一性的氨基酸序列:MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINW GGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK(SEQ ID NO:15)。引导RNA靶向融合蛋白以实现TTR多核苷酸序列的核碱基的改变。
另一方面,本公开的发明的特征在于治疗受试者的淀粉样变性的方法。所述方法涉及向受试者施用引导RNA和编码碱基编辑器的多核苷酸,所述碱基编辑器含有多核苷酸可编程DNA结合多肽和脱氨酶。引导RNA靶向碱基编辑器以实现TTR多核苷酸序列的核碱基的改变。
另一方面,本公开的发明的特征在于编辑受试者中的转甲状腺素蛋白(TTR)多核苷酸序列的方法。所述方法涉及向受试者施用引导RNA和Cas12b核酸内切酶。引导RNA靶向核酸内切酶以实现TTR多核苷酸序列的双链断裂。
另一方面,本公开的发明的特征在于含有一种或多种编码融合蛋白和引导RNA的多核苷酸的组合物。引导RNA含有与转甲状腺素蛋白(TTR)多核苷酸互补的核酸序列。融合蛋白含有多核苷酸可编程DNA结合结构域和脱氨酶结构域。
另一方面,本公开的发明的特征在于含有一种或多种编码核酸内切酶和引导RNA的多核苷酸的组合物。引导RNA含有与转甲状腺素蛋白(TTR)多核苷酸互补的核酸序列。所述核酸内切酶含有如下氨基酸序列:
bhCas12b
v4MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYGERSRFENSRLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCRVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMSGGSKRTADGSEFESPKKKRKVE(SEQ ID NO:450)。引导RNA靶向核酸内切酶以实现TTR多核苷酸序列的双链断裂。
另一方面,本公开的发明的特征在于用于治疗转甲状腺素蛋白(TTR)淀粉样变性的药物组合物。所述药物组合物含有:在药学上可接受的赋形剂中的核酸内切酶或编码所述核酸内切酶的核酸和含有与转甲状腺素蛋白(TTR)多核苷酸互补的核酸序列的引导RNA(gRNA)。所述核酸内切酶含有如下氨基酸序列:
bhCas12b
v4MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYGERSRFENSRLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCRVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMSGGSKRTADGSEFESPKKKRKVE(SEQ ID NO:450),
其中引导RNA靶向核酸内切酶以实现TTR多核苷酸序列的双链断裂。
另一方面,本公开的发明的特征在于用于治疗转甲状腺素蛋白(TTR)淀粉样变性的药物组合物。所述药物组合物含有任何上述方面或其实施方案的组合物和药学上可接受的赋形剂。
另一方面,本公开的发明的特征在于治疗转甲状腺素蛋白(TTR)淀粉样变性的方法。所述方法涉及向有需要的受试者施用任何上述方面或其实施方案的药物组合物。
另一方面,本公开的发明的特征在于任何上述方面或其实施方案的组合物在治疗受试者的转甲状腺素蛋白(TTR)淀粉样变性中的用途。
另一方面,本公开的发明的特征在于治疗受试者的淀粉样变性的方法。所述方法涉及向受试者全身施用引导RNA和含有多核苷酸可编程DNA结合结构域和脱氨酶结构域的融合蛋白。引导RNA靶向碱基编辑器以实现受试者的肝细胞中存在的TTR多核苷酸序列的核碱基的改变。
在任何上述方面或其实施方案中,所述脱氨酶是腺苷脱氨酶或胞苷脱氨酶。
在任何上述方面或其实施方案中,所述编辑引入纠正TTR多核苷酸中的突变的改变。在任何上述方面或其实施方案中,所述编辑引入减少或消除TTR多肽的表达的改变。在任何上述方面或其实施方案中,所述编辑引入相对于参考减少或消除TTR多肽的表达至少约50%的改变。在任何上述方面或其实施方案中,所述改变在剪接受体、剪接供体、内含子序列、外显子序列、增强子或启动子中。
在任何上述方面或其实施方案中,碱基编辑器含有与多核苷酸可编程DNA结合多肽和引导RNA复合的脱氨酶,或者碱基编辑器是含有多核苷酸可编程DNA结合多肽和脱氨酶的融合蛋白。
在任何上述方面或其实施方案中,所述改变在启动子中。在任何上述方面或其实施方案中,所述改变在TTR启动子的对应于TTR启动子的核苷酸位置+1至-225的区域中,其中位置+1对应于TTR多核苷酸序列的起始密码子(ATG)的A。在任何上述方面或其实施方案中,所述改变在TTR启动子的对应于TTR启动子的核苷酸位置+1至-198的区域中,其中位置+1对应于TTR多核苷酸序列的起始密码子(ATG)的A。在任何上述方面或其实施方案中,所述改变在TTR启动子的对应于TTR启动子的核苷酸位置+1至-177的区域中,其中位置+1对应于TTR多核苷酸序列的起始密码子(ATG)的A。在任何上述方面或其实施方案中,所述改变在TTR启动子的对应于TTR启动子的核苷酸位置-106至-176的区域中,其中位置+1对应于TTR多核苷酸序列的起始密码子(ATG)的A。在任何上述方面或其实施方案中,所述改变在TATA盒或ATG起始密码子中。
在任何上述方面或其实施方案中,核碱基的改变破坏基因剪接。
在任何上述方面或其实施方案中,TTR多核苷酸序列编码含有选自T60A、V30M、V30A、V30G、V30L、V122I和V122A中的一者或多者的致病性改变的成熟TTR多肽。在任何上述方面或其实施方案中,致病性改变是V122I。
在任何上述方面或其实施方案中,腺苷脱氨酶将TTR多核苷酸序列中的靶标A·T转化为G·C。在任何上述方面或其实施方案中,胞苷脱氨酶将TTR多核苷酸序列中的靶标C·G转化为T·A。
在任何上述方面或其实施方案中,改变的核碱基是核苷酸序列TATAGGAAAACCAGTGAGTC(SEQ ID NO:425;对应于sgRNA_361的TSBTx2602/gRNA1598靶位点序列)的4A;核苷酸序列TACTCACCTCTGCATGCTCA(SEQ ID NO:426;对应于sgRNA_362的TSBTx2603/gRNA1599靶位点序列)的6A;核苷酸序列ACTCACCTCTGCATGCTCAT(SEQ ID NO:427;对应于sgRNA_363的TSBTx2604/gRNA1606靶位点序列)的5A;核苷酸序列ATACTCACCTCTGCATGCTCA(SEQ ID NO:429;对应于sgRNA_365的TSBTx2606靶位点序列)的7A;核苷酸序列TTGGCAGGATGGCTTCTCATCG(SEQ ID NO:431;对应于sgRNA_367的TSBTx2608/gRNA-#19靶位点)的6A;序列TTGGCAGGATGGCTTCTCATCG(SEQ ID NO:431;对应于sgRNA_367的TSBTx2608/gRNA-#19靶位点)的9A;序列GGCTATCGTCACCAATCCCA(SEQ ID NO:439;对应于sgRNA_375)的5A;或序列GCTATCGTCACCAATCCCAA(SEQ ID NO:440;对应于sgRNA_376)的4A。在任何上述方面或其实施方案中,改变的核碱基是核苷酸序列TACTCACCTCTGCATGCTCA(SEQID NO:426;对应于sgRNA_362的TSBTx2603/gRNA1599靶位点)的7C;核苷酸序列ACTCACCTCTGCATGCTCAT(SEQ ID NO:427;对应于sgRNA_363的TSBTx2604/gRNA1606靶位点)的6C;核苷酸序列TACCACCTATGAGAGAAGAC(SEQ ID NO:428;对应于sgRNA_364的TSBTx2605靶位点)的7C;核苷酸序列ATACTCACCTCTGCATGCTCA(SEQ ID NO:429;对应于sgRNA_365的TSBTx2606靶位点)的8C;或核苷酸序列ACTGGTTTTCCTATAAGGTGT(SEQ ID NO:430;对应于sgRNA_366的TSBTx2607靶位点)的11C。
在任何上述方面或其实施方案中,多核苷酸可编程DNA结合结构域含有Cas多肽。在任何上述方面或其实施方案中,多核苷酸可编程DNA结合结构域含有Cas9或Cas12多肽或其片段。在若干实施方案中,Cas9多肽含有酿脓链球菌(Streptococcus pyogenes)Cas9(SpCas9)、金黄色葡萄球菌(Staphylococcus aureus)Cas9(SaCas9)、嗜热链球菌1(Streptococcus thermophilus 1)Cas9(St1Cas9)或犬链球菌(Steptococcus canis)Cas9(ScCas9)。在若干实施方案中,Cas12多肽含有Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i。在若干实施方案中,Cas12多肽含有与外村尚芽孢杆菌(Bacillushisashii)Cas12b、热噬淀粉芽孢杆菌(Bacillus thermoamylovorans)Cas12b、芽孢杆菌属某种(Bacillus sp.)V3-13Cas12b或嗜酸脂环酸芽胞杆菌(Alicyclobacillusacidiphilus)Cas12b具有至少约85%的氨基酸序列同一性的序列。
在任何上述方面或其实施方案中,多核苷酸可编程DNA结合结构域含有对选自5′-NGG-3′、5′-NAG-3′、5′-NGA-3′、5′-NAA-3′、5′-NNAGGA-3′、5′-NNGRRT-3′或5′-NNACCA-3′的核酸序列具有原型间隔区序列相邻基序(PAM)特异性的Cas9多肽。在任何上述方面或其实施方案中,多核苷酸可编程DNA结合结构域含有对改变的原型间隔区序列相邻基序(PAM)具有特异性的Cas9多肽。在若干实施方案中,改变的PAM的核酸序列选自5′-NNNRRT-3′、5′-NGA-3′、5′-NGCG-3′、5′-NGN-3′、5′-NGCN-3′、5′-NGTN-3′和5′-NAA-3′。
在任何上述方面或其实施方案中,多核苷酸可编程DNA结合结构域是核酸酶非活性变体或切口酶变体。在若干实施方案中,核酸酶失活变体是含有氨基酸取代D10A或在相应氨基酸位置处的取代的Cas9(dCas9)。在若干实施方案中,核酸酶失活变体是含有氨基酸取代D952A、S893R、K846R和E837G或在相应氨基酸位置处的取代的bhCas12b。
在任何上述方面或其实施方案中,腺苷脱氨酶结构域能够使脱氧核糖核酸(DNA)中的腺嘌呤脱氨基。在任何上述方面或其实施方案中,胞苷脱氨酶结构域能够使脱氧核糖核酸(DNA)中的胞苷脱氨基。在若干实施方案中,腺苷脱氨酶是TadA脱氨酶。在若干实施方案中,TadA脱氨酶是TadA*7.10、TadA*8.1、TadA*8.2、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.15、TadA*8.16、TadA*8.19、TadA*8.20、TadA*8.21或TadA*8.24。在若干实施方案中,TadA脱氨酶是TadA*7.10、TadA*8.8或TadA*8.13。
在任何上述方面或其实施方案中,碱基编辑器含有融合蛋白,所述融合蛋白含有侧接可编程DNA结合多肽的N末端片段和C末端片段的脱氨酶,其中DNA结合多肽是Cas9多肽。在任何上述方面或其实施方案中,脱氨酶插在与以下氨基酸序列具有至少约70%、80%、85%、90%、95%或100%的序列同一性的序列的氨基酸位置1029-1030或1247-1248之间:
spCas9
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ ID NO:201)。
在任何上述方面或其实施方案中,胞苷脱氨酶是APOBEC或其变体。在任何上述方面或其实施方案中,胞苷脱氨酶含有氨基酸序列:MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK(SEQ ID NO:15;BE4胞苷脱氨酶结构域),或所述氨基酸序列省略第一个甲硫氨酸(M)的型式。
在任何上述方面或其实施方案中,碱基编辑器进一步含有一种或多种尿嘧啶糖基化酶抑制剂(UGI)。
在任何上述方面或其实施方案中,碱基编辑器进一步含有一个或多个核定位信号(NLS)。在若干实施方案中,NLS是二分NLS。
在任何上述方面或其实施方案中,引导RNA含有CRISPR RNA(crRNA)和反式编码的小RNA(tracrRNA)。crRNA含有与TTR多核苷酸序列互补的核酸序列。
在任何上述方面或其实施方案中,碱基编辑器在复合物中或与含有与TTR多核苷酸序列互补的核酸序列的单引导RNA(sgRNA)形成复合物。
在任何上述方面或其实施方案中,所述方法进一步涉及改变两个或更多个核碱基。在任何上述方面或其实施方案中,所述方法进一步涉及使所述多核苷酸序列与靶向TTR多核苷酸序列的两种或更多种不同的引导RNA接触。
在任何上述方面或其实施方案中,引导RNA含有选自表1、表2A或表2B中列出的那些序列中的一者或多者的核苷酸序列;或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
在任何上述方面或其实施方案中,引导RNA含有选自以下中的一者或多者的核苷酸序列:
5’-UAUAGGAAAACCAGUGAGUC-3’(SEQ ID NO:408;sgRNA_361/gRNA1598);
5’-UACUCACCUCUGCAUGCUCA-3’(SEQ ID NO:409;sgRNA_362/gRNA1599);
5’-ACUCACCUCUGCAUGCUCAU-3’(SEQ ID NO:410;sgRNA_363/gRNA1606);
5’-AUACUCACCUCUGCAUGCUCA-3’(SEQ ID NO:412;sgRNA_365);
5’-UUGGCAGGAUGGCUUCUCAUCG-3’(SEQ ID NO:414;sgRNA_367/gRNA-#19);
5’-GGCUAUCGUCACCAAUCCCA-3’(SEQ ID NO:422;sgRNA_375);
5’-GCUAUCGUCACCAAUCCCAA-3’(SEQ ID NO:423;sgRNA_376);
5’-ACACCUUAUAGGAAAACCAG-3’(SEQ ID NO:561;gRNA1604);
5’-CUCUCAUAGGUGGUAUUCAC-3’(SEQ ID NO:554;gRNA1597);
5’-GCAACUUACCCAGAGGCAAA-3’(SEQ ID NO:557;gRNA1600);
5’-CAACUUACCCAGAGGCAAAU-3’(SEQ ID NO:551;gRNA1594);
5’-UCUGUAUACUCACCUCUGCA-3’(SEQ ID NO:558;gRNA1601);
5’-CAAAUAUGAACCUUGUCUAG-3’(SEQ ID NO:462;gRNA1756);
5’-GAACCUUGUCUAGAGAGAUU-3’(SEQ ID NO:470;gRNA1764);
5’-UGAGUAUAAAAGCCCCAGGC-3’(SEQ ID NO:492;gRNA1786);和
5’-GCCAUCCUGCCAAGAAUGAG-3’(SEQ ID NO:478;gRNA1772);或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
在任何上述方面或其实施方案中,引导RNA含有选自以下中的一者或多者的核苷酸序列:
5’-UACUCACCUCUGCAUGCUCA-3’(SEQ ID NO:409;sgRNA_362/gRNA1599)、
5’-ACUCACCUCUGCAUGCUCAU-3’(SEQ ID NO:410;sgRNA_363/gRNA1606)、
5’-UACCACCUAUGAGAGAAGAC-3’(SEQ ID NO:411;sgRNA_364)、
5’-AUACUCACCUCUGCAUGCUCA-3’(SEQ ID NO:412;sgRNA_365)、
5’-ACUGGUUUUCCUAUAAGGUGU-3’(SEQ ID NO:413;sgRNA_366)、
5’-CAACUUACCCAGAGGCAAAU-3’(SEQ ID NO:551;gRNA1594),和
5’-UGUUGACUAAGUCAAUAAUC-3’(SEQ ID NO:496;gRNA1790);或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
在任何上述方面或其实施方案中,引导RNA含有选自以下中的一者或多者的核苷酸序列:
5’-UCCUAUAAGGUGUGAAAGUCUG-3’(SEQ ID NO:415;sgRNA_368)、
5’-UGAGCCCAUGCAGCUCUCCAGA-3’(SEQ ID NO:416;sgRNA_369)、
5’-CUCCUCAGUUGUGAGCCCAUGC-3’(SEQ ID NO:417;sgRNA_370)、
5’-GUAGAAGGGAUAUACAAAGUGG-3’(SEQ ID NO:418;sgRNA_371)、
5’-CCACUUUGUAUAUCCCUUCUAC-3’(SEQ ID NO:419;sgRNA_372)、
5’-GGUGUCUAUUUCCACUUUGUAU-3’(SEQ ID NO:420;sgRNA_373),和
5’-CAUGAGCAUGCAGAGGUGAGUA-3’(SEQ ID NO:421;sgRNA_374);或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
在任何上述方面或其实施方案中,引导RNA含有在3’端和在5’端的2-5个连续的2’-O-甲基化核碱基。在任何上述方面或其实施方案中,引导RNA含有在3’端和在5’端的2-5个含有硫代磷酸酯核苷酸间键的连续核碱基。
在任何上述方面或其实施方案中,Cas12b多肽是bhCAS12b多肽。在任何上述方面或其实施方案中,bhCAS12b多肽含有氨基酸序列:
bhCas12b
v4MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYGERSRFENSRLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCRVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMSGGSKRTADGSEFESPKKKRKVE(SEQ ID NO:450)。
在任何上述方面或其实施方案中,接触在哺乳动物细胞中进行。在任何上述方面或其实施方案中,所述细胞是灵长类动物细胞。在若干实施方案中,灵长类动物细胞是人细胞或食蟹猴(Macaca fascicularis)细胞。在任何上述方面或其实施方案中,所述细胞是肝脏细胞。在若干实施方案中,肝脏细胞是灵长类动物体内肝脏细胞。在若干实施方案中,灵长类动物细胞是人细胞或食蟹猴细胞。
在任何上述方面或其实施方案中,细胞对双链断裂的修复导致在TTR多核苷酸序列中引入插入缺失(indel)突变。
在任何上述方面或其实施方案中,所述方法进一步涉及使所述多核苷酸序列与靶向TTR多核苷酸序列的两种或更多种不同的引导RNA接触。
在任何上述方面或其实施方案中,脱氨酶与多核苷酸可编程DNA结合多肽和引导RNA复合。在任何上述方面或其实施方案中,碱基编辑器是含有多核苷酸可编程DNA结合多肽和脱氨酶的融合蛋白。
在任何上述方面或其实施方案中,核碱基的改变将致病性改变替换为非致病性改变或野生型氨基酸。
在任何上述方面或其实施方案中,受试者是灵长类动物。在若干实施方案中,灵长类动物是人。在任何上述方面或其实施方案中,受试者是哺乳动物。在若干实施方案中,灵长类动物是人或食蟹猴。
在任何上述方面或其实施方案中,多核苷酸序列在肝细胞中。在若干实施方案中,所述肝细胞是原代肝细胞。在若干实施方案中,所述肝细胞是原代食蟹猴(cyno)肝细胞。
在任何上述方面或其实施方案中,腺苷脱氨酶结构域在以下氨基酸序列的氨基酸位置147处含有精氨酸(R)或苏氨酸(T),并且腺苷脱氨酶结构域与以下氨基酸序列具有至少约85%的序列同一性:MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:4;TadA*7.10)。引导RNA靶向融合蛋白以实现TTR多核苷酸序列的核碱基的改变。
在任何上述方面或其实施方案中,胞苷脱氨酶结构域含有与如下氨基酸序列具有至少约85%的序列同一性的氨基酸序列:MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK(SEQ ID NO:15),其中引导RNA靶向融合蛋白以实现TTR多核苷酸序列的核碱基的改变。
在任何上述方面或其实施方案中,碱基编辑器不含尿嘧啶糖基化酶抑制剂(UGI)。
在任何上述方面或其实施方案中,所述融合蛋白:
(i)含有与以下序列具有至少80%、85%、90%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列:
ABE8.8
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQ ID NO:442);
(ii)含有与以下序列具有至少80%、85%、90%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列:
BE4
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSKRTADGSEFESPKKKRKVE(SEQ ID NO:443);
(iii)含有与以下序列具有至少80%、85%、90%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列:
ABE8.8-VRQR
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQ ID NO:444);
(iv)含有与以下序列具有至少80%、85%、90%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列:
BE4-VRQR
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSKRTADGSEFESPKKKRKVE(SEQ ID NO:445);
(v)含有与以下序列具有至少80%、85%、90%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列:
saABE8.8
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSKRNYILGLAIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEENSKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRELINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYNNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPRIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKGEGADKRTADGSEFESPKKKRKV(SEQ ID NO:446);
(vi)含有与以下序列具有至少80%、85%、90%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列:
saBE4
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKSGGSSGGSSGSETPGTSESATPESSGGSSGGSGKRNYILGLAIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEENSKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRELINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYNNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPRIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKGGSPKKKRKVSSDYKDHDGDYKDHDIDYKDDDDKSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSKRTADGSEFESPKKKRKVE(SEQ ID NO:447);
(vii)含有与以下序列具有至少80%、85%、90%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列:
saBE4-KKH
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKSGGSSGGSSGSETPGTSESATPESSGGSSGGSGKRNYILGLAIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEENSKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRKLINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYKNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPHIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKGGSPKKKRKVSSDYKDHDGDYKDHDIDYKDDDDKSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSKRTADGSEFESPKKKRKVE(SEQ ID NO:448);或
(viii)含有与以下序列具有至少80%、85%、90%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列:
ABE-bhCAS12b
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSK
RGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYS
VYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTL
ADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRL
IYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDE
SIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNI
EPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIE
SLEIGLRVMSIALGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELY
AVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVL
HFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPY
KDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNI
DEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKED
RLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYN
PYKERSRFENSRLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSS
RFHAKTGSPGIRCRVVTKEKLQDNRFFKNLQREGRLTLDKIAVLK
EGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTH
GFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVY
EWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLML
YRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKK(SEQ ID NO:449)。
在任何上述方面或其实施方案中,引导RNA含有15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个与TTR多核苷酸完全互补的连续核苷酸。在任何上述方面或其实施方案中,引导RNA含有如下核酸序列,所述核酸序列含有15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个与TTR多核苷酸序列互补的连续核苷酸。
在任何上述方面或其实施方案中,所述组合物或药物组合物进一步含有脂质或脂质纳米颗粒。在若干实施方案中,脂质是阳离子脂质。在任何上述方面或其实施方案中,引导RNA含有如下核酸序列,所述核酸序列含有至少10个与TTR多核苷酸序列互补的连续核苷酸。
在任何上述方面或其实施方案中,编码融合蛋白的一种或多种多核苷酸含有mRNA。
在任何上述方面或其实施方案中,所述组合物或药物组合物进一步含有药学上可接受的赋形剂。在任何上述方面或其实施方案中,gRNA和碱基编辑器一起或分开配制。
在任何上述方面或其实施方案中,所述多核苷酸存在于适合在哺乳动物细胞中表达的载体中。在若干实施方案中,载体是病毒载体。在若干实施方案中,病毒载体是逆转录病毒载体、腺病毒载体、慢病毒载体、疱疹病毒载体或腺相关病毒载体(AAV)。
在任何上述方面或其实施方案中,所述改变减少或消除野生型或突变型TTR多肽的表达。
定义
除另有定义外,本文使用的所有技术和科学术语具有本发明所属领域的技术人员通常理解的含义。以下参考文献为技术人员提供了本发明中使用的许多术语的一般定义:Singleton等人,Dictionary of Microbiology and Molecular Biology(第2版,1994);The Cambridge Dictionary of Science and Technology(Walker编,1988);TheGlossary of Genetics,第5版,R.Rieger等人(编),Springer Verlag(1991);和Hale&Marham,The Harper Collins Dictionary of Biology(1991)。如本文所用,除非另有说明,以下术语具有下文对它们赋予的含义。
所谓“转甲状腺素蛋白(TTR)多肽”意指与NCBI参考序列号NP_000362.1提供的氨基酸序列或其结合抗TTR抗体的片段具有至少约95%的氨基酸序列同一性的多肽或其片段。在一些实施方案中,TTR多肽或其片段具有全视黄醇结合蛋白(RBP)和/或甲状腺素(T4)转运活性。通常,TTR多肽突变的氨基酸位置参考成熟TTR多肽(即,没有信号序列的TTR多肽)进行编号。在若干实施方案中,TTR能够形成四聚体。示例性TTR多肽序列如下(信号肽序列为粗体;因此,成熟TTR多肽对应于以下序列的氨基酸21至147):
所谓“转甲状腺素蛋白(TTR)多核苷酸”意指编码TTR以及内含子、外显子、3′非翻译区、5′非翻译区和与其表达相关的调控序列的核酸分子或其片段。在若干实施方案中,调控序列是启动子区域。在若干实施方案中,TTR多核苷酸是与TTR表达相关和/或TTR表达所需的基因组序列、cDNA、mRNA或基因。下面提供了示例性TTR多核苷酸序列(对应于共有编码序列(CCDS)No.11899.1)。进一步的示例性TTR多核苷酸序列包括基因Ensembl ID:ENSG00000118271和转录物Ensembl ID:ENST00000237014.8。
ATGGCTTCTCATCGTCTGCTCCTCCTCTGCCTTGCTGGACTGGTATTTGTGTCTGAGGCTGGCCCTACGGGCACCGGTGAATCCAAGTGTCCTCTGATGGTCAAAGTTCTAGATGCTGTCCGAGGCAGTCCTGCCATCAATGTGGCCGTGCATGTGTTCAGAAAGGCTGCTGATGACACCTGGGAGCCATTTGCCTCTGGGAAAACCAGTGAGTCTGGAGAGCTGCATGGGCTCACAACTGAGGAGGAATTTGTAGAAGGGATATACAAAGTGGAAATAGACACCAAATCTTACTGGAAGGCACTTGGCATCTCCCCATTCCATGAGCATGCAGAGGTGGTATTCACAGCCAACGACTCCGGCCCCCGCCGCTACACCATTGCCGCCCTGCTGAGCCCCTACTCCTATTCCACCACGGCTGTCGTCACCAATCCCAAGGAATGA(SEQID NO:2)。
NCBI参考序列号NG_009490.1提供了进一步的示例性TTR多核苷酸序列,并且如下(其中编码TTR多肽的外显子为粗体,内含子为斜体,并且示例性启动子区域由加下划线和粗体加下划线的文本组合(启动子位置-1至-177)以及由粗体加下划线的文本(启动子位置-106至-176)指示;进一步的示例性启动子区域示于图9A、9B、12A和12B中):
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
在NCBI参考序列号NG_009490.1提供的上述TTR多核苷酸序列中,编码TTR多肽的外显子对应于核苷酸5137..5205、6130..6260、8354..8489和11802..11909的联合,并且间插序列对应于内含子序列。核苷酸5137..5205、6130..6260、8354..8489和11802..11909的联合对应于共有编码序列(CCDS)No.11899.1。
所谓“转甲状腺素蛋白淀粉样变性”意指与包含转甲状腺素蛋白的淀粉样蛋白沉积物在受试者的组织中积聚相关的疾病。所述组织可以是器官组织。器官可以是肝脏。
所谓“淀粉样变性”意指与淀粉样蛋白在受试者的组织中积聚相关的疾病。所述组织可以是器官组织。器官可以是肝脏。
所谓“腺嘌呤”或“9H-嘌呤-6-胺”意指分子式为C5H5N5、具有结构且对应于CAS No.73-24-5的嘌呤核碱基。
所谓“腺苷”或“4-氨基-1-[(2R,3R,4S,5R)-3,4-二羟基-5-(羟甲基)氧杂环戊烷-2-基]嘧啶-2(1H)-酮”意指经由糖苷键连接于核糖的腺嘌呤分子,其具有结构并且对应于CAS No.65-46-3。其分子式为C10H13N5O4。术语“腺嘌呤”和“腺苷”在本文件通篇中可互换使用。
所谓“腺苷脱氨酶”或“腺嘌呤脱氨酶”意指能够催化腺嘌呤或腺苷水解脱氨基的多肽或其片段。术语“腺嘌呤脱氨酶”和“腺苷脱氨酶”在整个申请中可互换使用。在一些实施方案中,脱氨酶或脱氨酶结构域是将腺苷催化水解脱氨基为肌苷或将脱氧腺苷催化水解脱氨基为脱氧肌苷的腺苷脱氨酶。在一些实施方案中,腺苷脱氨酶催化脱氧核糖核酸(DNA)中的腺嘌呤或腺苷的水解脱氨基。本文提供的腺苷脱氨酶(例如工程化的腺苷脱氨酶、进化的腺苷脱氨酶)可来自任何生物体,如细菌。在一些实施方案中,腺苷脱氨酶是具有一个或多个改变并且能够使靶多核苷酸(例如,DNA)中的腺嘌呤和胞嘧啶脱氨基的腺苷脱氨酶变体。在一些实施方案中,靶多核苷酸是单链或双链的。在一些实施方案中,腺苷脱氨酶变体能够使DNA中的腺嘌呤和胞嘧啶脱氨基。在一些实施方案中,腺苷脱氨酶变体能够使单链DNA中的腺嘌呤和胞嘧啶脱氨基。在一些实施方案中,腺苷脱氨酶变体能够使RNA中的腺嘌呤和胞嘧啶脱氨基。
所谓“腺苷脱氨酶活性”意指催化多核苷酸中的腺嘌呤或腺苷脱氨基为鸟嘌呤。在一些实施方案中,如本文提供的腺苷脱氨酶变体维持腺苷脱氨酶活性(例如,参考腺苷脱氨酶(例如,TadA*8.20或TadA*8.19)的活性的至少约30%、40%、50%、60%、70%、80%、90%或更多)。
所谓“腺苷碱基编辑器8.8(ABE8.8)多肽”或“ABE8.8”意指包含腺苷脱氨酶的碱基编辑器。
所谓“腺苷碱基编辑器(ABE)多核苷酸”意指编码ABE的多核苷酸。
所谓“腺苷碱基编辑器8(ABE8.8)”或“ABE8.8”意指包含腺苷脱氨酶变体的如本文所定义的碱基编辑器,所述腺苷脱氨酶变体相对于以下参考序列包含改变Y123H、Y147R和Q154R:MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:4;TadA*7.10),或另一腺苷脱氨酶中的相应位置。在一些实施方案中,ABE8.8相对于参考序列包含进一步的改变(例如,1、2、3、4、5、6、7、8、9、10、11、13、14或15个改变),或另一腺苷脱氨酶中的相应位置。
所谓“腺苷碱基编辑器8.8(ABE8.8)多核苷酸”意指编码ABE8.8多肽的多核苷酸。
所谓“腺苷碱基编辑器8.13(ABE8.13)多肽”或“ABE8.13”意指包含腺苷脱氨酶变体的如本文所定义的碱基编辑器,所述腺苷脱氨酶变体相对于以下参考序列包含改变I76Y、Y123H、Y147R和Q154R:MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:4;TadA*7.10)。在一些实施方案中,ABE8.13相对于参考序列包含进一步的改变(例如,1、2、3、4、5、6、7、8、9、10、11、13、14或15个改变)。
所谓“腺苷碱基编辑器8.13(ABE8.13)多核苷酸”意指编码ABE8.13多肽的多核苷酸。
“施用”在本文中是指向患者或受试者提供本文所述的一种或多种组合物。
所谓“剂”意指任何小分子化学化合物、抗体、核酸分子或多肽或其片段。
所谓“改变”意指如通过标准领域已知的方法(如本文描述的那些方法)检测到的分析物、基因或多肽的水平、结构或活性的变化(增加或减少)。如本文所用,改变包括表达水平的10%的变化、表达水平的25%的变化、40%的变化和50%或更大的变化。在一些实施方案中,改变包括核碱基或氨基酸的插入、缺失或取代。
所谓“改善”意指减少、抑制、减轻、减弱、阻止或稳定疾病的发展或进展。
所谓“类似物”意指不完全相同但具有类似功能或结构特征的分子。例如,多肽类似物保留了相应的天然存在的多肽的生物活性,同时具有相对于天然存在的多肽增强了类似物的功能的某些生物化学修饰。这类生物化学修饰可增加类似物的蛋白酶抗性、膜渗透性或半衰期,而不改变例如配体结合。类似物可包括非天然氨基酸。
所谓“碱基编辑器(BE)”或“核碱基编辑器多肽(NBE)”意指结合多核苷酸并具有核碱基修饰活性的剂。在各种实施方案中,碱基编辑器包含核碱基修饰多肽(例如,脱氨酶)和与引导多核苷酸(例如,引导RNA(gRNA))结合的多核苷酸可编程核苷酸结合结构域(例如,Cas9或Cpf1)。碱基编辑器的代表性核酸和蛋白质序列在序列表中提供为SEQ ID NO:5-14。
所谓“碱基编辑器4多肽”或“BE4”意指包含胞苷脱氨酶变体的如本文所定义的碱基编辑器,所述胞苷脱氨酶变体包含与以下参考序列具有至少约85%的序列同一性的序列:MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK(SEQ ID NO:15;BE4胞苷脱氨酶结构域)。在一些实施方案中,BE4相对于参考序列包含进一步的改变(例如,1、2、3、4、5、6、7、8、9、10、11、13、14或15个改变)。
所谓“碱基编辑器4多核苷酸”或“BE4多核苷酸”意指编码BE4多肽的多核苷酸。
所谓“碱基编辑活性”意指发挥以化学方式改变多核苷酸内的碱基的作用。在一个实施方案中,第一碱基被转化为第二碱基。在一个实施方案中,碱基编辑活性是胞苷脱氨酶活性,例如将靶标C·G转化为T·A。在另一实施方案中,碱基编辑活性是腺苷或腺嘌呤脱氨酶活性,例如将A·T转化为G·C。
术语“碱基编辑器系统”是指用于编辑靶核苷酸序列的核碱基的分子间复合物。在各种实施方案中,碱基编辑器(BE)系统包含(1)多核苷酸可编程核苷酸结合结构域、用于使靶核苷酸序列中的核碱基脱氨基的脱氨酶结构域(例如,胞苷脱氨酶或腺苷脱氨酶);和(2)与多核苷酸可编程核苷酸结合结构域结合的一个或多个引导多核苷酸(例如,引导RNA)。在各种实施方案中,碱基编辑器(BE)系统包含选自腺苷脱氨酶或胞苷脱氨酶的核碱基编辑器结构域和具有核酸序列特异性结合活性的结构域。在一些实施方案中,碱基编辑器系统包含(1)碱基编辑器(BE),其包含多核苷酸可编程DNA结合结构域和用于使靶核苷酸序列中的一个或多个核碱基脱氨基的脱氨酶结构域;和(2)与核苷酸可编程DNA结合结构域结合的一个或多个引导RNA。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,碱基编辑器是胞苷碱基编辑器(CBE)。在一些实施方案中,碱基编辑器是腺嘌呤或腺苷碱基编辑器(ABE)。在一些实施方案中,碱基编辑器是腺嘌呤或腺苷碱基编辑器(ABE)或胞苷碱基编辑器(CBE)。
所谓“碱基编辑活性”意指发挥以化学方式改变多核苷酸内的碱基的作用。在一个实施方案中,第一碱基被转化为第二碱基。在一个实施方案中,碱基编辑活性是胞苷脱氨酶活性,例如将靶标C·G转化为T·A。在另一实施方案中,碱基编辑活性是腺苷脱氨酶活性,例如将A·T转化为G·C。
所谓“bhCas12b v4多肽”或“bhCas12b v4”意指包含与以下参考序列具有至少约85%的序列同一性的序列并具有核酸内切酶活性的核酸内切酶变体:MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKK GLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYGERSRFENSRLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCRVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMSGGSKRTADGSEFESPKKKRKVE(SEQ IDNO:450)。在一些实施方案中,bhCAS12b v4相对于参考序列包含进一步的改变(例如,1、2、3、4、5、6、7、8、9、10、11、13、14或15个改变)。
所谓“bhCas12b v4多核苷酸”意指编码bhCas12b v4的多核苷酸。
术语“Cas9”或“Cas9结构域”是指包含Cas9蛋白或其片段(例如,包含Cas9的活性、非活性或部分活性DNA切割结构域和/或Cas9的gRNA结合结构域的蛋白)的RNA引导的核酸酶。Cas9核酸酶有时也被称为casnl核酸酶或CRISPR(成簇规则间隔短回文重复序列)相关核酸酶。
术语“保守氨基酸取代”或“保守突变”是指一个氨基酸被另一个具有共同特性的氨基酸替换。定义个别氨基酸之间的共同特性的一种功能方式是分析同源生物体的相应蛋白质之间的氨基酸变化的归一化频率(Schulz,G.E.和Schirmer,R.H.,Principles ofProtein Structure,Springer-Verlag,New York(1979))。根据这类分析,可以定义氨基酸组,其中组内的氨基酸优先彼此交换,因此在它们对整体蛋白质结构的影响方面彼此最相似(Schulz,G.E.和Schirmer,R.H.,同上)。保守突变的非限制性实例包括氨基酸的氨基酸取代,例如赖氨酸取代精氨酸,以及反过来,使得可以维持正电荷;谷氨酸取代天冬氨酸,以及反过来,使得可以维持负电荷;丝氨酸取代苏氨酸,使得可以维持游离–OH;以及谷氨酰胺取代天冬酰胺,使得可以维持游离–NH2。
在本文中可互换使用的术语“编码序列”或“蛋白质编码序列”是指多核苷酸的编码蛋白质的区段。编码序列也可以被称为开放阅读框。所述区域或序列在靠近5’端以起始密码子为界,并且靠近3’端是终止密码子。可与本文所述的碱基编辑器一起使用的终止密码子包括以下:
谷氨酰胺CAG→TAG终止密码子
CAA→TAA
精氨酸 CGA→TGA
色氨酸 TGG→TGA
TGG→TAG
TGG→TAA
所谓“复合物”意指其相互作用依赖于分子间力的两个或更多个分子的组合。分子间力的非限制性实例包括共价和非共价相互作用。非共价相互作用的非限制性实例包括氢键、离子键、卤素键、疏水键、范德华相互作用(例如,偶极-偶极相互作用、偶极-诱导偶极相互作用和伦敦色散力)以及π-效应。在一实施方案中,复合物包含多肽、多核苷酸或一种或多种多肽和一种或多种多核苷酸的组合。在一个实施方案中,复合物包含缔合形成碱基编辑器的一种或多种多肽(例如,包含核酸可编程DNA结合蛋白如Cas9和脱氨酶的碱基编辑器)和多核苷酸(例如,引导RNA)。在一实施方案中,复合物通过氢键保持在一起。应当了解的是,碱基编辑器的一种或多种组分(例如,脱氨酶或核酸可编程DNA结合蛋白)可共价或非共价缔合。作为一个实例,碱基编辑器可包括与核酸可编程DNA结合蛋白共价连接(例如,通过肽键)的脱氨酶。或者,碱基编辑器可包括非共价缔合的脱氨酶和核酸可编程DNA结合蛋白(例如,其中碱基编辑器的一种或多种组分以反式提供,并且直接或经由另一分子如蛋白质或核酸缔合)。在一实施方案中,复合物的一种或多种组分通过氢键保持在一起。在整个本公开中,只要碱基编辑器的实施方案被设想为含有融合蛋白,则也设想包含碱基编辑器的一个或多个结构域或其片段的复合物。
所谓“胞苷”意指经由糖苷键连接于核糖的胞嘧啶分子,其具有结构并且对应于CAS No.65-46-3。其分子式为C9H13N3O5。术语“胞嘧啶”和“胞苷”在本文件通篇中可互换使用。
所谓“胞苷脱氨酶”意指能够催化将胞苷的氨基转化为羰基的脱氨基反应的多肽或其片段。在一个实施方案中,胞苷脱氨酶将胞嘧啶转化为尿嘧啶,或将5-甲基胞嘧啶转化为胸腺嘧啶。术语“胞苷脱氨酶”和“胞嘧啶脱氨酶”在整个申请中可互换使用。来源于海七鳃鳗(Petromyzon marinus)的PmCDA1(SEQ ID NO:17-18)(海七鳃鳗胞嘧啶脱氨酶1,“PmCDA1”)、来源于哺乳动物(例如,人、猪、牛、马、猴等)的AID(激活诱导的胞苷脱氨酶;AICDA)(示例性AID多肽序列在序列表中提供为SEQ ID NO:19-25)和APOBEC是示例性胞苷脱氨酶(示例性APOBEC多肽序列在序列表中提供为SEQ ID NO:15和26-65。进一步的示例性胞苷脱氨酶(CDA)序列在序列表中提供为SEQ ID NO:66-70。另外的示例性胞苷脱氨酶序列,包括APOBEC多肽序列,在序列表中提供为SEQ ID NO:71-193。
所谓“胞嘧啶”或“4-氨基嘧啶-2(1H)-酮”意指分子式为C4H5N3O、具有结构且对应于CAS No.71-30-7的嘌呤核碱基。
所谓“胞嘧啶脱氨酶活性”意指催化多核苷酸中的胞嘧啶的脱氨基,从而将氨基转化为羰基。在一个实施方案中,具有胞嘧啶脱氨酶活性的多肽将胞嘧啶转化为尿嘧啶(即,C转化为U),或将5-甲基胞嘧啶转化为胸腺嘧啶(即,5mC转化为T)。在一些实施方案中,如本文提供的腺苷脱氨酶变体相对于参考腺苷脱氨酶(例如,TadA*8.20或TadA*8.19)具有增加的胞嘧啶脱氨酶活性(例如,至少10倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍或更多)。
如本文所用的术语“脱氨酶”或“脱氨酶结构域”是指催化脱氨基反应的蛋白质或酶。
“检测”是指鉴定要检测的分析物的存在、不存在或量。在一个实施方案中,检测多核苷酸或多肽中的序列改变。在另一实施方案中,检测插入缺失的存在。
所谓“可检测标记”意指当连接于所关注的分子时使后者可通过光谱、光化学、生物化学、免疫化学或化学方式检测的组合物。例如,有用的标记包括放射性同位素、磁珠、金属珠、胶体颗粒、荧光染料、电子致密试剂、酶(例如,如在酶联免疫吸附测定(ELISA)中通常使用的)、生物素、地高辛或半抗原。
所谓“疾病”意指损害或干扰细胞、组织或器官的正常功能的任何病状或病症。示例性疾病包括适合使用本公开的方法和/或组合物治疗的疾病,作为非限制性实例包括淀粉样变性、心肌病变、家族性淀粉样蛋白多神经病变(FAP)、家族性淀粉样蛋白心肌病变(FAC)、家族性转甲状腺素蛋白淀粉样变性(FTA)、老年全身性淀粉样变性(SSA)、转甲状腺素蛋白淀粉样变性等。所述疾病可以是与转甲状腺素蛋白(TTR)多核苷酸序列的突变相关的任何疾病。
所谓“有效量”意指相对于未治疗的患者或未患疾病的个体(即,健康个体)而言改善疾病的症状所需的剂或活性化合物(例如,如本文所述的碱基编辑器)的量,或者是足以引起所需生物反应的剂或活性化合物的量。用于实施本发明以对疾病进行治疗性治疗的活性化合物的有效量根据施用方式、受试者的年龄、体重和一般健康状况而变化。最终,主治医师或兽医将决定适当的量和剂量方案。这样的量被称为“有效”量。在一个实施方案中,有效量是本发明的碱基编辑器足以在细胞(例如,体外或体内细胞)中引入所关注的基因的改变的量。在一个实施方案中,有效量是实现治疗效果所需的碱基编辑器的量。这样的治疗效果不需要足以改变受试者、组织或器官的所有细胞中的致病性基因,而仅需改变受试者、组织或器官中存在的约1%、5%、10%、25%、50%、75%或更多的细胞中的致病性基因。在一个实施方案中,有效量足以改善疾病的一种或多种症状。
术语“核酸外切酶”是指能够从游离端消化核酸分子的蛋白质或多肽。核酸可以是DNA或RNA。
术语“核酸内切酶”是指能够催化核酸分子中的内部区域的蛋白质或多肽。核酸分子可以是DNA或RNA。
所谓“片段”意指多肽或核酸分子的一部分。这部分含有参考核酸分子或多肽的全长的至少约10%、20%、30%、40%、50%、60%、70%、80%或90%。片段可含有10、20、30、40、50、60、70、80、90或100、200、300、400、500、600、700、800、900或1000个核苷酸或氨基酸。
所谓“引导RNA”或“gRNA”意指对靶序列具有特异性并且可以与多核苷酸可编程核苷酸结合结构域蛋白(例如,Cas12b、Cas9或Cpf1)形成复合物的多核苷酸或多核苷酸复合物。在一实施方案中,引导多核苷酸是引导RNA(gRNA)。gRNA可作为两个或更多个RNA的复合物或作为单个RNA分子存在。
“杂交”意指互补核碱基之间的氢键合,其可以是Watson-Crick、Hoogsteen或反向Hoogsteen氢键合。例如,腺嘌呤和胸腺嘧啶是通过形成氢键配对的互补核碱基。
所谓“增加”意指至少10%、25%、50%、75%或100%的正改变。
术语“碱基修复的抑制剂”、“碱基修复抑制剂”、“IBR”或其语法等同表述是指能够抑制核酸修复酶例如碱基切除修复酶的活性的蛋白质。
“内含肽”是一种蛋白质的片段,其能够在称为蛋白质剪接的过程中切除其自身,并用肽键连接剩余的片段(外显肽)。
术语“分离的”、“纯化的”或“生物纯的”是指在不同程度上不含通常伴随其天然状态所见的组分的物质。“分离”表示与原始来源或周围环境分开的程度。“纯化”表示高于分离的分开程度。“纯化的”或“生物纯的”蛋白质充分不含其它物质,因此任何杂质不会实质性影响蛋白质的生物学特性或引起其它不良后果。也就是说,如果本发明的核酸或肽在通过重组DNA技术产生时基本上不含细胞物质、病毒物质或培养基,或者在化学合成时基本上不含化学前体或其它化学物质,则其是纯化的。纯度和均质性通常采用分析化学技术来确定,例如聚丙烯酰胺凝胶电泳或高效液相色谱法。术语“纯化的”可表示核酸或蛋白质在电泳凝胶中基本上产生一条带。对于可进行修饰(例如磷酸化或糖基化)的蛋白质,不同的修饰可产生可以分开纯化的不同的分离蛋白质。
所谓“分离的多核苷酸”意指不含某些基因的核酸分子,这些基因在本发明的核酸分子所来源的生物体的天然存在的基因组中位于所述基因的侧翼。该术语因此包括例如整合到载体中;整合到自主复制的质粒或病毒中;或整合到原核细胞或真核细胞的基因组DNA中;或作为独立于其它序列的单独分子(例如,过PCR或限制性核酸内切酶消化产生的cDNA或基因组或cDNA片段)存在的重组DNA。此外,该术语包括从DNA分子转录的RNA分子,以及作为编码另外的多肽序列的杂交基因的一部分的重组DNA。
所谓“分离的多肽”意指本发明的多肽,其已经与天然伴随其的组分分开。通常,当多肽至少60重量%不含与其天然缔合的蛋白质和天然存在的有机分子时,该多肽是分离的。优选地,制剂为至少75重量%、更优选至少90重量%且最优选至少99重量%的本发明的多肽。本发明的分离的多肽可例如通过从天然来源中提取、通过表达编码这种多肽的重组核酸;或通过化学合成蛋白质来获得。可以通过任何适当的方法测量纯度,例如柱色谱法、聚丙烯酰胺凝胶电泳或通过HPLC分析。
如本文所用的术语“接头”是指连接两个部分的分子。在一个实施方案中,术语“接头”是指共价接头(例如,共价键)或非共价接头。
所谓“标志物”意指与疾病或病症相关的表达、水平、结构或活性发生改变的任何蛋白质或多核苷酸。在一实施方案中,标志物是淀粉样蛋白的积累。在一实施方案中,标志物是转甲状腺素蛋白多肽和/或转甲状腺素蛋白多核苷酸的序列的改变(例如,突变)。
如本文所用的术语“突变”是指序列(例如,核酸或氨基酸序列)内的残基被另一残基取代,或者在序列内缺失或插入一个或多个残基。本文中通常通过鉴定原始残基、接着鉴定所述残基在序列内的位置以及接着鉴定新取代的残基的身份来描述突变。进行本文中提供的氨基酸取代(突变)的各种方法是本领域中熟知的,并且由例如Green和Sambrook,Molecular Cloning:A Laboratory Manual(第4版,Cold Spring Harbor LaboratoryPress,Cold Spring Harbor,N.Y.(2012))提供。
如本文所用的术语“核酸”和“核酸分子”是指包含核碱基和酸性部分的化合物,例如核苷、核苷酸或核苷酸的聚合物。通常,聚合核酸(例如,包含三个或更多个核苷酸的核酸分子)是线性分子,其中相邻的核苷酸经由磷酸二酯键彼此连接。在一些实施方案中,“核酸”是指单独的核酸残基(例如核苷酸和/或核苷)。在一些实施方案中,“核酸”是指包含三个或更多个单独的核苷酸残基的寡核苷酸链。如本文所用,术语“寡核苷酸”和“多核苷酸”可以互换使用,指核苷酸的聚合物(例如,至少三个核苷酸的串)。在一些实施方案中,“核酸”涵盖RNA以及单链和/或双链DNA。核酸可以是天然存在的,例如在基因组、转录物、mRNA、tRNA、rRNA、siRNA、snRNA、质粒、粘粒、染色体、染色单体或其它天然存在的核酸分子的背景下。另一方面,核酸分子可以是非天然存在的分子,例如重组DNA或RNA、人工染色体、工程化基因组或其片段,或合成的DNA、RNA、DNA/RNA杂h合体,或包括非天然存在的核苷酸或核苷。此外,术语“核酸”、“DNA”、“RNA”和/或类似的术语包括核酸类似物,例如具有除了磷酸二酯主链以外的组分的类似物。核酸可由天然来源纯化、使用重组表达系统产生,并且任选是纯化的、化学合成的等。在适当时,例如在化学合成的分子的情况下,核酸可包含核苷类似物,如具有化学修饰的碱基或糖和主链修饰的类似物。除另指出外,核酸序列按5′至3′方向给出。在一些实施方案中,核酸是或包含天然核苷(例如腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷);核苷类似物(例如,2-氨基腺苷、2-硫代胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷、5-甲基胞苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基-尿苷、C5-丙炔基-胞苷、C5-甲基胞苷、2-氨基腺苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、O(6)-甲基鸟嘌呤和2-硫代胞苷);化学修饰的碱基;生物修饰的碱基(例如,甲基化碱基);插入碱基;修饰的糖(例如,2′-氟核糖、核糖、2′-脱氧核糖、阿拉伯糖和己糖);和/或修饰的磷酸酯基团(例如,硫代磷酸酯和5′-N-亚磷酰胺键)。
术语“核定位序列”、“核定位信号”或“NLS”是指促进蛋白质向细胞核中输入的氨基酸序列。核定位序列是本领域中已知的,并且例如在Plank等人的国际PCT申请PCT/EP2000/011690中有描述,该申请提交于2000年11月23日,在2001年5月31日公布为WO/2001/038547,其内容中关于示例性核定位序列的公开内容以引用的方式并入本文。在其它实施方案中,NLS是例如由Koblan等人,Nature Biotec h.2018doi:10.1038/nbt.4172描述的优化NLS。在一些实施方案中,NLS包含氨基酸序列KRTADGSEFESPKKKRKV(SEQ ID NO:194)、KRPAATKKAGQAKKKK(SEQ ID NO:195)、KKTELQTTNAE NKTKKL(SEQ ID NO:196)、KRGINDRNFWRGENGRKTR(SEQ ID NO:197)、RKSGKIAAIVVKRPRK(SEQ ID NO:198)、PKKK RKV(SEQ ID NO:199)或MDSLLMNRRKFLYQFKNVRWAKGRR ETYLC(SEQ ID NO:200)。
在本文中可互换使用的术语“核碱基”、“含氮碱基”或“碱基”是指形成核苷的含氮生物化合物,而核苷又是核苷酸的组分。核碱基形成碱基对并相互堆叠的能力直接导致长链螺旋结构,如核糖核酸(RNA)和脱氧核糖核酸(DNA)。五种核碱基,即腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U),被称为一级的或规范的。腺嘌呤和鸟嘌呤来源于嘌呤,且胞嘧啶、尿嘧啶和胸腺嘧啶来源于嘧啶。DNA和RNA还可以含有被修饰的其它(非一级)碱基。非限制性示例的修饰核碱基可包括次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶(m5C)和5-羟甲基胞嘧啶。次黄嘌呤和黄嘌呤可通过诱变剂存在而产生,它们都是通过脱氨基(用羰基替换胺基团)产生的。次黄嘌呤可由腺嘌呤修饰而成。黄嘌呤可由鸟嘌呤修饰而成。尿嘧啶可由胞嘧啶的脱氨基产生。“核苷”由核碱基和五碳糖(核糖或脱氧核糖)组成。核苷的实例包括腺苷、鸟苷、尿苷、胞苷、5-甲基尿苷(m5U)、脱氧腺苷、脱氧鸟苷、胸苷、脱氧尿苷和脱氧胞苷。具有修饰的核碱基的核苷的实例包括肌苷(I)、黄苷(X)、7-甲基鸟苷(m7G)、二氢尿苷(D)、5-甲基胞苷(m5C)和假尿苷(Ψ)。“核苷酸”由核碱基、五碳糖(核糖或脱氧核糖)和至少一个磷酸酯基团组成。修饰的核碱基和/或修饰的核碱基可包括的化学修饰的非限制性实例如下:假尿苷、5-甲基-胞嘧啶、2′-O-甲基-3′-膦酰基乙酸酯、2′-O-甲硫基PACE(MSP)、2′-O-甲基-PACE(MP)、2′-氟RNA(2′-F-RNA)、受限乙基(S-cEt)、2′-O-甲基(‘M’)、2′-O-甲基-3′-硫代磷酸酯(‘MS’)、2′-O-甲基-3′-硫代膦酰乙酸酯(‘MSP’)、5-甲氧基尿苷、硫代磷酸酯和N1-甲基假尿苷。
术语“核酸可编程DNA结合蛋白”或“napDNAbp”可以与“多核苷酸可编程核苷酸结合结构域”互换使用,是指与核酸(例如,DNA或RNA)缔合的蛋白质,所述核酸如将napDNAbp引导至特定核酸序列的引导核酸或引导多核苷酸(例如,gRNA)。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是多核苷酸可编程RNA结合结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是Cas9蛋白。Cas9蛋白可以与将Cas9蛋白引导至特定DNA序列的引导RNA缔合,所述特定DNA序列与引导RNA互补。在一些实施方案中,napDNAbp是Cas9结构域,例如核酸酶活性Cas9、Cas9切口酶(nCas9)或核酸酶非活性Cas9(dCas9)。核酸可编程DNA结合蛋白的非限制性实例包括Cas9(例如,dCas9和nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i和Cas12j/CasΦ(Cas12j/Casphi)。Cas酶的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(也称为Csn1或Csx12)、Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Cas12j/CasΦ、Cpf1、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csx11、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、II型Cas效应蛋白、V型Cas效应蛋白、VI型Cas效应蛋白、CARF、DinG、其同源体或其修饰或工程化型式。其它核酸可编程DNA结合蛋白也在本公开的范围内,尽管在本公开中可能没有将它们具体列出。参见例如Makarova等人,“Classification and Nomenclature ofCRISPR-Cas Systems:Where from Here?”CRISPR J.2018年10月;1:325-336.doi:10.1089/crispr.2018.0033;Yan等人,“Functionally diverse type V CRISPR-Cassystems”Science.2019年1月4日;363(6422):88-91.doi:10.1126/science.aav7271,每一者的全部内容以引用的方式特此并入。示例性核酸可编程DNA结合蛋白和编码核酸可编程DNA结合蛋白的核酸序列在序列表中提供为SEQ ID NO:201-234和383。
如本文所用的术语“核碱基编辑结构域”或“核碱基编辑蛋白”是指这样的蛋白质或酶,其可以催化RNA或DNA中的核碱基修饰,如胞嘧啶(或胞苷)至尿嘧啶(或尿苷)或胸腺嘧啶(或胸苷)和腺嘌呤(或腺苷)至次黄嘌呤(或肌苷)脱氨基,以及非模板化核苷酸添加和插入。在一些实施方案中,核碱基编辑结构域是脱氨酶结构域(例如,腺嘌呤脱氨酶或腺苷脱氨酶;或胞苷脱氨酶或胞嘧啶脱氨酶)。
如本文所用,“获得剂”中的“获得”包括合成、购买或以其它方式获取剂。
所谓“受试者”意指哺乳动物,包括但不限于人或非人哺乳动物,如牛、马、犬、绵羊、啮齿动物或猫。在一实施方案中,如本文所用的“患者”或“受试者”是指被诊断患有疾病或病症、有患有或发生疾病或病症的风险或疑似患有或发生疾病或病症的哺乳动物受试者或个体。在一些实施方案中,术语“患者”是指发生疾病或病症的可能性高于平均的哺乳动物受试者。示例性患者可以是人、非人灵长类动物、猫、狗、猪、牛、猫、马、骆驼、美洲驼、山羊、绵羊、啮齿动物(例如,小鼠、兔、大鼠或豚鼠)和可受益于本文公开的疗法的其他哺乳动物。示例性人患者可以是男性和/或女性。
“有需要的患者”或“有需要的受试者”在本文中是指被诊断患有疾病或病症、有患有疾病或病症的风险或患有疾病或病症、预先确定患有疾病或病症或疑似患有疾病或病症的患者。
术语“致病性突变”、“致病性变体”、“引起疾病的突变”、“引起疾病的变体”、“有害突变”或“诱发性突变”是指与疾病或病症相关的遗传改变或突变,其增加个体对某种疾病或病症的易感性或易染性。在一些实施方案中,致病性突变包含在由基因编码的蛋白质中被至少一个致病性氨基酸取代的至少一个野生型氨基酸。在一些实施方案中,致病性突变在终止区(例如,终止密码子)中。在一些实施方案中,致病性突变在非编码区(例如,内含子、启动子等)中。
术语“蛋白质”、“肽”、“多肽”以及它们的语法等同表述在本文中可互换使用,是指由肽(酰胺)键连接在一起的氨基酸残基的聚合物。蛋白质、肽或多肽可以是天然存在的、重组的或合成的,或其任意组合。
如本文所用的术语“融合蛋白”是指包含来自至少两种不同蛋白质的蛋白质结构域的杂交多肽。
如本文在蛋白质或核酸的上下文中所用的术语“重组”是指在自然界中不存在、而是人类工程化的产物的蛋白质或核酸。例如,在一些实施方案中,重组蛋白或核酸分子包含与任何天然存在的序列相比包含至少一个、至少两个、至少三个、至少四个、至少五个、至少六个或至少七个突变的氨基酸或核苷酸序列。
所谓“减少”意指至少10%、25%、50%、75%或100%的负改变。
所谓“参考”意指标准或对照条件。在一个实施方案中,参考是野生型或健康细胞。在其它实施方案中且无限制地,参考是未经处理的细胞,其未经受测试条件,或经受的是安慰剂或生理盐水、培养基、缓冲液和/或不含所关注的多核苷酸的对照载剂。参考可以是在转甲状腺素蛋白(TTR)多核苷酸序列和/或转甲状腺素蛋白(TTR)多肽序列中具有致病性突变的细胞或受试者。参考可以是有淀粉样变性(例如,转甲状腺素蛋白淀粉样变性)的受试者或细胞或没有淀粉样变性的受试者或细胞。
“参考序列”是用作序列比较的基础的确定序列。参考序列可以是指定序列的子集或整体;例如全长cDNA或基因序列的区段或完整的cDNA或基因序列。对于多肽,参考多肽序列的长度将通常为至少约16个氨基酸、至少约20个氨基酸、至少约25个氨基酸、约35个氨基酸、约50个氨基酸或约100个氨基酸。对于核酸,参考核酸序列的长度将通常为至少约50个核苷酸、至少约60个核苷酸、至少约75个核苷酸、约100个核苷酸或约300个核苷酸,或其附近或其间的任何整数。在一些实施方案中,参考序列是所关注的蛋白质的野生型序列。在其它实施方案中,参考序列是编码野生型蛋白质的多核苷酸序列。
术语“RNA可编程核酸酶”和“RNA引导的核酸酶”与不是切割靶标的一种或多种RNA一起使用。在一些实施方案中,当在与RNA的复合物中时,RNA可编程核酸酶可以被称为核酸酶-RNA复合物(或者,称为核酸酶_RNA复合物)。通常,结合的RNA被称为引导RNA(gRNA)。在一些实施方案中,RNA可编程核酸酶是(CRISPR相关系统)Cas9核酸内切酶,例如来自酿脓链球菌的Cas9(Csnl)(例如,SEQ ID NO:201)、来自脑膜炎奈瑟氏球菌(Neisseriameningitidis)的Cas9(NmeCas9;SEQ ID NO:212)、Nme2Cas9(SEQ ID NO:213)或其衍生物(例如与Cas9有至少约85%的序列同一性的序列,如Nme2Cas9或spCas9)。
术语“单核苷酸多态性(SNP)”是发生在基因组中的特定位置的单核苷酸的变异,其中每个变异在群体内以某种可察觉的程度存在(例如,>1%)。
所谓“特异性结合”意指识别并结合本发明的多肽和/或核酸分子的核酸分子、多肽、多肽/多核苷酸复合物、化合物或分子,但其基本上不识别和结合样品(例如,生物样品)中的其它分子。
所谓“基本上同一的”意指多肽或核酸分子表现出与参考氨基酸序列至少50%的同一性。在一个实施方案中,参考序列是野生型氨基酸或核酸序列。在另一实施方案中,参考序列是本文所述的氨基酸或核酸序列中的任一者。在一个实施方案中,这种序列在氨基酸水平或核酸水平上与用于比较的序列具有至少60%、80%、85%、90%、95%或甚至99%同一性。
通常使用序列分析软件(例如,Genetics Computer Group的序列分析软件包,University of Wisconsin Biotechnology Center,1710University Avenue,Madison,Wis.53705,BLAST、BESTFIT、GAP或PILEUP/PRETTYBOX程序)来测量序列同一性。这样的软件通过对各种取代、缺失和/或其它修饰指定同源性程度来匹配同一的或相似的序列。保守取代通常包括以下组内的取代:甘氨酸、丙氨酸;缬氨酸、异亮氨酸、亮氨酸;天冬氨酸、谷氨酸、天冬酰胺、谷氨酰胺;丝氨酸、苏氨酸;赖氨酸、精氨酸;和苯丙氨酸、酪氨酸。在确定同一性程度的示例性方法中,可以使用BLAST程序,其中e-3与e-100之间的概率分数表示密切相关的序列。
COBALT例如与以下参数一起使用:
a)比对参数:空位罚分-11、-1和端空位罚分-5、-1,
b)CDD参数:使用RPS BLAST开;Blast E值0.003;查找保守列并重新计算开,和
c)查询聚类参数:使用查询聚类开;字体大小4;最大聚类距离0.8;按字母表规则。
EMBOSS Needle例如与以下参数一起使用:
a)矩阵:BLOSUM62;
b)空位开放:10;
c)空位延伸:0.5;
d)输出格式:对;
e)端空位罚分:假;
f)端空位开放:10;和
g)端空位延伸:0.5。
可用于本发明的方法的核酸分子包括编码本发明的多肽或其片段的任何核酸分子。这类核酸分子不需要与内源核酸序列具有100%同一性,但通常将表现出基本上的同一性。与内源序列具有“基本上的同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。可用于本发明的方法的核酸分子包括编码本发明的多肽或其片段的任何核酸分子。这类核酸分子不需要与内源核酸序列具有100%同一性,但通常将表现出基本上的同一性。与内源序列具有“基本上的同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。所谓“杂交”意指在各种严格条件下,互补多核苷酸序列(例如,本文所述的基因)或其部分之间配对以形成双链分子。(参见例如Wahl,G.M.和S.L.Berger(1987)MethodsEnzymol.152:399;Kimmel,A.R.(1987)Methods Enzymol.152:507)。
例如,严格的盐浓度将通常小于约750mM NaCl和75mM柠檬酸三钠,优选小于约500mM NaCl和50mM柠檬酸三钠,且更优选小于约250mM NaCl和25mM柠檬酸三钠。低严格杂交可以在不存在有机溶剂(例如,甲酰胺)的情况下获得,而高严格杂交可以在至少约35%的甲酰胺、更优选至少约50%的甲酰胺存在下获得。严格的温度条件将通常包括至少约30℃、更优选至少约37℃且最优选至少约42℃的温度。改变另外的参数,如杂交时间、洗涤剂(例如,十二烷基硫酸钠(SDS))的浓度以及运载DNA的包含或排除是本领域技术人员熟知的。通过根据需要组合这些不同的条件来实现不同的严格性水平。在优选的实施方案中,杂交将在30℃下在750mM NaCl、75mM柠檬酸三钠和1%SDS中进行。在更优选的实施方案中,杂交将在37℃下在500mM NaCl、50mM柠檬酸三钠、1%SDS、35%甲酰胺和100μg/ml变性鲑鱼精子DNA(ssDNA)中进行。在最优选的实施方案中,杂交将在42℃下在250mM NaCl、25mM柠檬酸三钠、1%SDS、50%甲酰胺和200μg/ml ssDNA中进行。这些条件的有用变化对于本领域技术人员来说将是显而易见的。
对于大多数应用来说,杂交之后的洗涤步骤在严格性上也会有所不同。洗涤严格条件可通过盐浓度和温度来限定。如上所述,可通过降低盐浓度或通过提高温度来提高洗涤严格性。例如,洗涤步骤的严格盐浓度将优选小于约30mM NaCl和3mM柠檬酸三钠,且最优选小于约15mM NaCl和1.5mM柠檬酸三钠。洗涤步骤的严格温度条件将通常包括至少约25℃、更优选至少约42℃且甚至更优选至少约68℃的温度。在一实施方案中,洗涤步骤将在25℃下在30mM NaCl、3mM柠檬酸三钠和0.1%SDS中进行。在另一实施方案中,洗涤步骤将在42℃下在15mM NaCl、1.5mM柠檬酸三钠和0.1%SDS中进行。在更优选的实施方案中,洗涤步骤将在68℃下在15mM NaCl、1.5mM柠檬酸三钠和0.1%SDS中进行。这些条件的另外的变化对于本领域技术人员来说将是显而易见的。杂交技术是本领域技术人员熟知的,并且描述于例如以下文献中:Benton和Davis(Science 196:180,1977);Grunstein和Hogness(Proc.Natl.Acad.Sci.,USA72:3961,1975);Ausubel等人(Current Protocols inMolecular Biology,Wiley Interscience,New York,2001);Berger和Kimmel(Guide toMolecular Cloning Techniques,1987,Academic Press,New York);和Sambrook等人,Molecular Cloning:ALaboratory Manual,Cold Spring Harbor Laboratory Press,NewYork。
所谓“分裂”意指分成两个或更多个片段。
“分裂Cas9蛋白”或“分裂Cas9”是指作为由两个单独的核苷酸序列编码的N末端片段和C末端片段提供的Cas9蛋白。对应于Cas9蛋白的N末端部分和C末端部分的多肽可以被剪接以形成“重构的”Cas9蛋白。
术语“靶位点”是指被修饰的核酸分子内的序列。在若干实施方案中,修饰是碱基的脱氨基。脱氨酶可以是胞苷或腺嘌呤脱氨酶。包含脱氨酶的融合蛋白或碱基编辑复合物可包括dCas9-腺苷脱氨酶融合蛋白、Cas12b-腺苷脱氨酶融合体或本文公开的碱基编辑器。
如本文所用,术语“治疗(treat/treating/treatment)”是指减轻或改善病症和/或与其相关的症状或获得所需的药理学和/或生理学效果。将要了解的是,治疗病症或病状并不要求完全消除病症、病状或与其相关的症状,尽管并不排除这样。在一些实施方案中,效果是治疗性的,即(但不限于)所述效果部分或完全降低、减弱、消除、减轻、缓解、减小疾病和/或可归因于该疾病的不良症状的强度或治愈该疾病和/或可归因于该疾病的不良症状。在一些实施方案中,效果是预防性的,即所述效果保护或防止疾病或病状的发生或复发。为此,本发明公开的方法包括施用治疗有效量的如本文所述的组合物。
所谓“尿嘧啶糖基化酶抑制剂”或“UGI”意指抑制尿嘧啶切除修复系统的剂。包含胞苷脱氨酶的碱基编辑器将胞嘧啶转化为尿嘧啶,后者然后通过DNA复制或修复被转化为胸腺嘧啶。在碱基编辑器中包括尿嘧啶DNA糖基化酶(UGI)的抑制剂防止将U变回C的碱基切除修复。示例性UGI包含如下的氨基酸序列:
>splP14739IUNGI_BPPB2尿嘧啶-DNA糖基化酶抑制剂
MTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHT AYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKML(SEQ IDNO:235).
本文提供的范围被理解为是该范围内的所有值的简略表达方式。例如,范围1至50被理解为包括来自由1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50组成的组的任何数、数的组合或子范围。
在本文对变量的任何定义中,对化学基团的列表的叙述包括该变量作为任何单个基团或所列基团的组合的定义。对本文的变量或方面的实施方案的叙述包括该实施方案作为任何单个实施方案或与任何其它实施方案或其部分相组合。
所有术语旨在被理解为本领域技术人员所理解的那样。除另有定义外,本文中使用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常所理解的含义相同的含义。
在本申请中,单数的使用包括复数,除非另有具体说明。必须注意的是,如说明书中所用,单数形式“一个(种)”和“该(所述)”包括复数指代项,除非上下文明确另有规定。在本申请中,除另有说明外,“或”的使用意指“和/或”。此外,各种形式的“包括”的使用不是限制性的。
如本说明书和权利要求书中所用,词语“包含”(各种形式的)、“具有”(各种形式的)、“包括”(各种形式的)或“含有”(各种形式的)是包容性或开放性的,并不排除另外未列举的要素或方法步骤。指定为“包含”特定组分或要素的任何实施方案在一些实施方案中也被设想为“由”所述特定组分或要素“组成”或“基本上由”所述特定组分或要素“组成”。预期本说明书中讨论的任何实施方案都可以相对于本公开的任何方法或组合物来实施,反之亦然。此外,本公开的组合物可用于实现本公开的方法。
术语“约”或“大约”意指由本领域普通技术人员测定的特定值在可接受的误差范围以内,这部分地取决于如何测量或测定该值,即测量系统的限制。例如,根据本领域中的实践,“约”可意指在1或1个以上标准偏差内。或者,“约”可意指给定值的最多20%、最多10%、最多5%或最多1%的范围。或者,特别是关于生物系统或过程,该术语可意指在某个数量级以内,例如在某个值的5倍以内、2倍以内。在本申请和权利要求书中描述了特定值的情况下,除另有说明外,术语“约”意指在该特定值应假定可接受的误差范围以内。
在说明书中提到“一些实施方案”、“实施方案”、“一个实施方案”或“其它实施方案”意指结合实施方案描述的特定特征、结构或特性包括在至少一些实施方案中,但不一定包括在所有实施方案中。
附图说明
图1A-1C是显示包含所示碱基编辑器与靶向转甲状腺素蛋白(TTR)多核苷酸的所示引导RNA的组合的碱基编辑器系统的碱基编辑效率的图形。图1A是使用所示碱基编辑器和引导物在保守剪接位点基序处的A>G碱基编辑效率的图形。图1B是使用所示碱基编辑器和引导物在剪接位点基序中的C>T碱基编辑效率的图形。图1C是插入缺失编辑效率的图形。
图2是显示与靶向转甲状腺素蛋白(TTR)多核苷酸的所示引导RNA组合使用的bhCas12b核酸内切酶的编辑效率的图形。
图3提供了显示在转染之前通过ELISA在PXB-细胞肝细胞中测量的人TTR蛋白浓度的柱状图。如测定中的每个点所示,每个条件以三次重复实验运行。柱状图示出平均TTR蛋白浓度,且误差线表示标准偏差。
图4提供组合的柱状图和图形,显示转染后13天通过NGS评估的PXB-细胞肝细胞中在被靶向位点处的编辑率(方块,右轴)和转染后7天通过ELISA评估的人TTR蛋白浓度(柱,左轴)。如每个点所示,每个条件以三次重复实验运行。在图4中,虚线表示使用碱基编辑系统ABE8.8_sgRNA_088编辑的细胞中的平均人TTR浓度。标星号的样品(Cas9_gRNA991*)表示测量了原型间隔区序列区内的最大插入缺失率而不是靶碱基编辑率。
图5提供组合的柱状图和图形,显示转染后13天通过NGS评估的PXB-细胞肝细胞中在被靶向位点处的编辑率(方块,右轴)和转染后13天通过ELISA评估的人TTR蛋白浓度(柱,左轴)。如每个点所示,每个条件以三次重复实验运行。在图5中,虚线表示使用碱基编辑系统ABE8.8_sgRNA_088编辑的细胞中的平均人TTR浓度。标星号的样品表示测量了原型间隔区序列区内的最大插入缺失率而不是靶碱基编辑率。
图6提供了显示在转染之前通过ELISA在原代食蟹猴肝细胞共培养物上清液中测量的食蟹猴TTR蛋白浓度的柱状图。如测定中的每个点所示,每个条件以三次重复实验运行。柱示出平均TTR蛋白浓度,且误差线表示标准偏差。
图7提供组合的柱状图和图形,显示转染后13天通过NGS评估的原代食蟹猴肝细胞共培养物中在被靶向位点处的编辑率(方块,右轴)和转染后7天通过ELISA评估的食蟹猴TTR蛋白浓度(柱,左轴)。如图示中的每个点所示,每个条件以三次重复实验运行。虚线表示使用包括ABE8.8_sgRNA_088的碱基编辑系统编辑的细胞中的平均食蟹猴TTR浓度。
图8提供组合的柱状图和图形,显示转染后13天通过NGS评估的原代食蟹猴肝细胞共培养物中在被靶向位点处的编辑率(方块,右轴)和转染后13天通过ELISA评估的食蟹猴TTR蛋白浓度(柱,左轴)。如图示中的每个点所示,每个条件以三次重复实验运行。虚线表示使用碱基编辑系统ABE8.8_sgRNA_088编辑的细胞中的平均食蟹猴TTR浓度。
图9A和9B提供显示与设计用于筛选的gRNA比对的TTR启动子序列的示意图。在图9A中,gRNA根据其链取向示于图中所示序列的上方或下方。在图9A和9B中的每一者中,gRNA原型间隔区序列加上PAM序列以每一注释示出。图9A和9B中所示的核苷酸序列在序列表中提供为SEQ ID NO:547,且图9中所示的氨基酸序列在序列表中提供为SEQ ID NO:548。
图10提供了柱状图,其显示来自用编码所示编辑器的mRNA(柱上方所示)和编码所示gRNA的gRNA(沿x轴所示)转染的HepG2细胞的三次重复实验的下一代测序(NGS)数据。点代表所示每种编辑类型(即,插入缺失、最大A到G、最大C到T)的个别数据点。最大A到G或最大C到T反映gRNA原型间隔区内的任何A或C碱基的最高编辑频率。同一天进行三次重复实验。
图11提供显示TTR敲低数据的柱状图。绘制了TTR表达数据的2次重复实验的个别数据点。对RT-qPCR的每个数据点进行三次技术重复实验,并绘制2个生物数据点的平均值。所有数据均来自在同一天进行的转染。在与测试孔是同一个的RT-qPCR板中相对于未处理的对照进行RT-qPCR分析。ACTB用作每个样品的内部对照。未处理的细胞具有与转染的细胞不同的TTR:ACTB比率,这导致在用阴性对照催化死亡Cas9编辑器或不会影响TTR表达的gRNA转染的细胞中,相对TTR表达被人为降低(0.30-0.42)。
图12A和12B提供显示在TTR RT-qPCR敲低测定中有效的启动子平铺gRNA的位置的示意图。显示了与核酸酶方法相比表现出相当的或改善的TTR敲低的所有gRNA。如通过TTRRT-qPCR测量,五种高效的gRNA为gRNA1756 ABE、gRNA1764 ABE、gRNA1790CBE、gRNA1786ABE和gRNA1772 ABE。有些降低TTR转录物水平的gRNA与推定的功能元件重叠,这些推定的功能元件包括推定的TATA盒(转录起始位点)和起始密码子(翻译起始位点),如图12A和12B中所示。在图12A和12B中,*表示gRNA在与ABE或CBE搭配时是高效的;**表示此gRNA的编辑频率<50%,无意受理论的束缚,这可能表明gRNA通过不同于碱基编辑或除了碱基编辑之外的机制起作用;且***表示gRNA在与ABE或CBE搭配时是高效的,并且此gRNA的编辑频率<50%。在图12B中,如通过TTR RT-qPCR测量的五种强效的gRNA以白色显示(gRNA1756 ABE、gRNA1764ABE、gRNA1790 CBE、gRNA1786 ABE和gRNA1772 ABE)。图12A中所示的核苷酸序列在序列表中提供为SEQ ID NO:549,且图12A中所示的氨基酸序列在序列表中提供为SEQ IDNO:550。图12B中所示的核苷酸序列对应于SEQ ID NO:1160。
图13提供了显示转染后72小时通过NGS评估的在被靶向位点处的编辑率的柱状图。每个实验条件以三次重复实验运行,并显示为平均值与平均值的标准误差。没有非预期的基因内编辑的总剪接位点破坏显示为每对柱的左柱,且非预期编辑显示为每对柱的右柱。通过gRNA991 spCas9对照的总编辑显示为“gRNA991+spCas9”样品的左柱。
具体实施方式
本发明的特征在于用于编辑转甲状腺素蛋白多核苷酸序列以治疗转甲状腺素蛋白淀粉样变性的组合物和方法。
本发明至少部分地基于这样的发现,即编辑可用于破坏转甲状腺素蛋白多肽的表达或编辑转甲状腺素蛋白多肽中的致病性突变。在一个特定的实施方案中,本发明提供引导RNA序列,其有效地与碱基编辑系统结合使用,用于编辑转甲状腺素蛋白(TTR)基因序列以破坏剪接或纠正致病性突变。在另一实施方案中,本发明提供引导RNA序列,其靶向Cas12b核酸酶以编辑TTR基因序列,从而破坏TTR多肽表达。
因此,本发明提供适合与ABE和/或BE4一起用于转甲状腺素蛋白(TTR)基因剪接位点破坏的引导RNA序列和适合与bhCas12b核酸酶一起用于破坏转甲状腺素蛋白(TTR)基因的引导RNA序列。在若干实施方案中,本发明的组合物和方法可用于编辑肝细胞中的TTR基因。本文提供的方法可包括减少或消除肝细胞中TTR的表达以治疗淀粉样变性。
淀粉样变性
淀粉样变性是一种涉及器官或组织(例如,肝脏)中淀粉样蛋白的细胞外沉积的病症。当突变的转甲状腺素蛋白多肽聚集(例如,呈原纤维的形式)时,可能发生淀粉样变性。由转甲状腺素蛋白基因的突变引起的淀粉样变性可以被称为“转甲状腺素蛋白淀粉样变性”。一些形式的转甲状腺素蛋白淀粉样变性与转甲状腺素蛋白基因的突变无关。可导致淀粉样变性的成熟转甲状腺素蛋白(TTR)蛋白的突变的非限制性实例包括改变T60A、V30M、V30A、V30G、V30L、V122I、V122A和V122(-)。治疗转甲状腺素蛋白淀粉样变性的一种方法包括破坏受试者的细胞(任选肝细胞)中的转甲状腺素蛋白的表达或活性。因此,本文提供了减少或消除细胞中转甲状腺素蛋白的表达的方法。细胞中的转甲状腺素蛋白可以是致病性变体。可以通过破坏转甲状腺素蛋白转录物的剪接来破坏细胞中转甲状腺素蛋白的表达。
转甲状腺素蛋白淀粉样变性
转甲状腺素蛋白淀粉样变性是一种进行性病状,其特征在于蛋白质沉积物在器官和/或组织中的积聚。这些蛋白质沉积物可出现在外周神经系统中,外周神经系统由将脑和脊髓与肌肉和感觉细胞连接的神经组成,这些神经检测诸如触觉、疼痛、热和声音的感觉。这些神经中的蛋白质沉积物导致四肢感觉丧失(外周神经病变)。控制不自主身体功能如血压、心率和消化的自主神经系统也可能会受淀粉样变性的影响。在一些情况下,脑和脊髓(即,中枢神经系统)受影响。淀粉样变性的其它部位包括心脏、肾脏、眼睛、肝脏和胃肠道。开始出现症状的年龄可在20岁与70岁之间。
转甲状腺素蛋白淀粉样变性有三种主要形式,根据其症状及其影响的身体系统来区分:神经病变性、软脑膜性和心脏性。
神经病变形式的转甲状腺素蛋白淀粉样变性主要影响外周和自主神经系统,导致外周神经病变和难以控制身体功能。身体功能受损可包括阳痿、腹泻、便秘、排尿有问题和站立时血压急剧下降(直立性低血压)。一些人还会出现心脏和肾脏问题。可能会出现各种眼睛问题,如充满眼球的透明凝胶浑浊(玻璃体混浊)、干眼症、眼压升高(青光眼)或瞳孔呈现不规则或“扇形”外观。一些患有这种形式的转甲状腺素蛋白淀粉样变性的人会出现腕管综合征,这种综合征可能涉及手和手指麻木、刺痛和无力。
软脑膜形式的转甲状腺素蛋白淀粉样变性主要影响中枢神经系统。在患有这种形式的人中,淀粉样变性发生在软脑膜中,软脑膜是覆盖脑和脊髓的两个薄层组织。蛋白质在此组织中的积聚可导致中风和脑出血、脑中液体积累(脑积水)、运动协调困难(共济失调)、肌肉僵硬和无力(痉挛性麻痹)、癫痫发作和智力功能丧失(痴呆)。也可能会出现与神经病变形式中的那些类似的眼睛问题。当患有软脑膜转甲状腺素蛋白淀粉样变性的人有相关的眼睛问题时,他们被认为患有的是眼软脑膜(oculoleptomeningeal)形式。
心脏形式的转甲状腺素蛋白淀粉样变性影响心脏。患有心脏淀粉样变性的人可能会出现心跳异常(心律失常)、心脏扩大(心脏肥大)或直立性高血压。这些异常可导致进行性心力衰竭和死亡。有时,患有心脏形式的转甲状腺素蛋白淀粉样变性的人会出现轻度外周神经病变。
转甲状腺素蛋白(TTR)基因的突变导致转甲状腺素蛋白淀粉样变性。转甲状腺素蛋白在整个身体中转运维生素A(视黄醇)和被称为甲状腺素的激素。不受理论的束缚,为了转运视黄醇和甲状腺素,转甲状腺素蛋白必须形成四聚体。转甲状腺素蛋白主要在肝脏中(即,在肝细胞)中产生。少量转甲状腺素蛋白(TTR)在大脑中被称为脉络丛的部位中和在视网膜中产生。
TTR基因突变可改变转甲状腺素蛋白的结构,削弱其与其它转甲状腺素蛋白结合的能力。TTR基因突变可以是常染色体显性的。
剪接位点
基因剪接位点和剪接位点基序是本领域中熟知的,并且专业人员有能力鉴定序列中的剪接位点(参见例如Sheth等人,“Comprehensive splice-site analysis usingcomparative genomics”,Nucleic Acids Research,34:3955-3967(2006);Dogan等人,“AplicePort–an interactive splice-site analysis tool”,Nucleic Acids Research,35:W285-W291(2007);和Zuallaert等人,“SpliceRover:interpretable convolutionalneural networks for improved splice site prediction”,Bioinformatics,34:4180-4188(2018))。
靶基因的编辑
为了编辑转甲状腺素蛋白(TTR)基因,使细胞(例如,肝细胞)与引导RNA和包含核酸可编程DNA结合蛋白(napDNAbp)和胞苷脱氨酶或腺苷脱氨酶的核碱基编辑器多肽接触以编辑基因序列的碱基。碱基的编辑可导致剪接位点的破坏(例如,通过改变剪接位点基序核碱基)。碱基的编辑可导致用非致病性变体氨基酸替换致病性变体氨基酸。作为非限制性示例,碱基的编辑可导致用非致病性变体或野生型缬氨酸残基替换成熟转甲状腺素蛋白(TTR)多肽中的T60A、V30M、V30A、V30G、V30L、V122I、V122A或V122(-)改变。胞苷脱氨酶可以是BE4(例如,saBE4)。腺苷脱氨酶可以是ABE(例如,saABE.8.8)。在一些实施方案中,同时编辑多个靶位点。在一些实施方案中,通过使细胞与核酸酶和引导RNA接触以将插入缺失引入到基因序列中来编辑TTR基因。插入缺失可能与基因表达的减少或消除相关。核酸酶可以是Cas12b(例如,bhCas12b)。细胞可以在体内或离体进行编辑。引导RNA可以是单引导物或双引导物。在一些实施方案中,使要编辑的细胞与至少一种核酸和核碱基编辑器多肽接触,其中至少一种核酸编码引导RNA或两种或更多种引导RNA,所述核碱基编辑器多肽包含核酸可编程DNA结合蛋白(napDNAbp)和脱氨酶,例如腺苷脱氨酶或胞苷脱氨酶。在一些实施方案中,gRNA包含核苷酸类似物。这些核苷酸类似物可抑制细胞过程对gRNA的降解。示例性单引导RNA(sgRNA)序列提供于表1中,且示例性间隔区序列和靶序列提供于表2A、2B和2C中。
在各种情况下,有利的是间隔区序列包括5’和/或3’“G”核苷酸。在一些情况下,例如,本文提供的任何间隔区序列或引导多核苷酸包含或进一步包含5'“G”,其中在一些实施方案中,5’“G”与靶序列互补或不互补。在一些实施方案中,将5’“G”添加到还不含5’“G”的间隔区序列中。例如,当引导RNA在U6启动子等的控制下表达时,可能有利的是引导RNA包括5’末端“G”,因为U6启动子偏向在转录起始位点处的“G”(参见Cong,L.等人,“Multiplexgenome engineering using CRISPR/Cas systems.Science 339:819-823(2013)doi:10.1126/science.1231143)。在一些情况下,将5’末端“G”添加到要在启动子的控制下表达的引导多核苷酸中,但如果或当引导多核苷酸不在启动子的控制下表达时,任选不添加到引导多核苷酸中。
示例性引导RNA、间隔区序列和靶序列提供于下表1、2A、2B和2C中。
在若干实施方案中,引导RNA包含与TTR多核苷酸序列的启动子区互补的序列。在若干实施方案中,启动子区跨越位置+10、+5、+1、-1、-2、-3、-4、-5、-6、-7、-8、-9、-10、-15、-20、-25、-30、-35、-40、-45、-50、-55、-60、-65、-70、-75、-80、-85、-90、-95、-100、-105、-110、-115、-120、-125、-130、-135、-140、-145、-150、-155、-160、-165、-170、-175、-180、-185、-190、-195、-200、-250或-300至位置+5、+1、-1、-2、-3、-4、-5、-6、-7、-8、-9、-10、-15、-20、-25、-30、-35、-40、-45、-50、-55、-60、-65、-70、-75、-80、-85、-90、-95、-100、-105、-110、-115、-120、-125、-130、-135、-140、-145、-150、-155、-160、-165、-170、-175、-180、-185、-190、-195、-200、-250、-300或-400,其中位置+1对应于TTR多核苷酸序列的起始密码子(ATG)的第一个A。
表1.用于编辑转甲状腺素蛋白(TTR)剪接位点和/或将插入缺失引入到TTR基因中(例如,使用bhCas12b)的引导RNA
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
小写m表示2’-O-甲基化核碱基(例如mA、mC、mG、mU),且“s”表示硫代磷酸酯。
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
表2C(续)
/>
/>
/>
/>
/>
/>
/>
表2A中对应于以下sgRNA:sgRNA_361、sgRNA_362、sgRNA_363、sgRNA_364、sgRNA_365、sgRNA_366和sgRNA_367的间隔区序列可用于靶向碱基编辑器以改变转甲状腺素蛋白多核苷酸的剪接位点的核碱基。表2A中对应于以下sgRNA:sgRNA_368、sgRNA_369、sgRNA_370、sgRNA_371、sgRNA_372、sgRNA_373和sgRNA_374的间隔区序列可用于使核酸内切酶靶向到转甲状腺素蛋白(TTR)多核苷酸序列。表2中对应于sgRNA_375、sgRNA_376和sgRNA_377的三个间隔区序列可用于改变转甲状腺素蛋白(TTR)多核苷酸的核碱基。核碱基的改变可导致异亮氨酸(I)改变为缬氨酸(V)(例如,以纠正由转甲状腺素蛋白多核苷酸编码的转甲状腺素蛋白多肽中的V122I突变)。在若干实施方案中,转甲状腺素蛋白多核苷酸可使用碱基编辑器和sgRNA序列的以下组合(参见表1和2A)进行编辑:ABE8.8和sgRNA_361;ABE8.8和sgRNA_362;ABE8.8-VRQR和sgRNA_363;BE4-VRQR和sgRNA_363;BE4-VRQR和sgRNA_364;saABE8.8和sgRNA_365;saBE4和sgRNA_365;saBE4-KKH和sgRNA_366、ABE-bhCas12b和sgRNA_367;spCas9-ABE和sgRNA_375;spCas9-VRQR-ABE和sgRNA_376;或saCas9-ABE和sgRNA_377。spCas9-ABE的PAM序列可以是AGG。spCas9-VRQR-ABE的PAM序列可以是GGA。saCas9-ABE的PAM序列可以是AGGAAT。
在某些实施方案中,本文提供的融合蛋白包含改善融合蛋白的碱基编辑活性的一种或多种特征。例如,本文提供的任何融合蛋白可包含具有降低的核酸酶活性的Cas9结构域。在一些实施方案中,本文提供的任何融合蛋白可具有无核酸酶活性的Cas9结构域(dCas9),或切割双链体DNA分子的一条链的Cas9结构域,被称为Cas9切口酶(nCas9)。不希望受任何特定理论的束缚,催化残基(例如,H840)的存在维持Cas9的活性以切割与被靶向核碱基相对的非编辑(例如,非甲基化)链。催化残基的突变(例如,D10变为A10)阻止切割被靶向A残基的编辑链。这类Cas9变体可在基于gRNA限定的靶序列的特定位置产生单链DNA断裂(切口),导致非编辑链的修复,最终导致非编辑链上的核碱基变化。
核碱基编辑器
可用于本文所述的方法和组合物的核碱基编辑器编辑、修饰或改变多核苷酸的靶核苷酸序列。本文所述的核碱基编辑器通常包括多核苷酸可编程核苷酸结合结构域和核碱基编辑结构域(例如,腺苷脱氨酶或胞苷脱氨酶)。当与结合的引导多核苷酸(例如,gRNA)结合时,多核苷酸可编程核苷酸结合结构域可与靶多核苷酸序列特异性结合,从而将碱基编辑器定位至需要编辑的靶核酸序列。
多核苷酸可编程核苷酸结合结构域
多核苷酸可编程核苷酸结合结构域结合多核苷酸(例如,RNA、DNA)。碱基编辑器的多核苷酸可编程核苷酸结合结构域本身可包含一个或多个结构域(例如,一个或多个核酸酶结构域)。在一些实施方案中,多核苷酸可编程核苷酸结合结构域的核酸酶结构域可包含核酸内切酶或核酸外切酶。核酸内切酶可切割双链核酸的单条链或双链核酸分子的两条链。在一些实施方案中,多核苷酸可编程核苷酸结合结构域的核酸酶结构域可切割靶多核苷酸的零、一或两条链。
可并入到碱基编辑器中的多核苷酸可编程核苷酸结合结构域的非限制性实例包括CRISPR蛋白来源的结构域、限制性核酸酶、大范围核酸酶、TAL核酸酶(TALEN)和锌指核酸酶(ZFN)。在一些实施方案中,碱基编辑器包含多核苷酸可编程核苷酸结合结构域,所述多核苷酸可编程核苷酸结合结构域包含天然或修饰的蛋白质或其一部分,其经由结合的引导核酸能够在CRISPR(即,成簇规则间隔短回文重复序列)介导的核酸修饰期间与核酸序列结合。这种蛋白质在本文中被称为“CRISPR蛋白”。因此,本文公开了包含多核苷酸可编程核苷酸结合结构域的碱基编辑器,所述多核苷酸可编程核苷酸结合结构域包含CRISPR蛋白的全部或一部分(即,碱基编辑器包含CRISPR蛋白的全部或一部分作为结构域,也称为碱基编辑器的“CRISPR蛋白来源的结构域”)。与CRISPR蛋白的野生型或天然型式相比,并入到碱基编辑器中的CRISPR蛋白来源的结构域可以被修饰。例如,如下所述,CRISPR蛋白来源的结构域相对于CRISPR蛋白的野生型或天然型式可包含一个或多个突变、插入、缺失、重排和/或重组。
本文中可以使用的Cas蛋白包括1类和2类。Cas蛋白的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas9(也称为Csn1或Csx12)、Cas10、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、Cas12a/Cpf1、Cas12b/C2c1(例如,SEQ ID NO:236)、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i和Cas12j/CasΦ、CARF、DinG、其同源体或其修饰型式。CRISPR酶可指导一条或两条链在靶序列处的切割,如在靶序列内和/或在靶序列的互补序列内。例如,CRISPR酶可指导在从靶序列的第一个或最后一个核苷酸开始的约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500或更多个碱基对内切割一条或两条链。
可以使用编码CRISPR酶的载体,所述CRISPR酶相对于相应的野生型酶是突变的,使得突变的CRISPR酶缺乏切割含有靶序列的靶多核苷酸的一条或两条链的能力。Cas蛋白(例如,Cas9、Cas12)或Cas结构域(例如,Cas9、Cas12)可以指与野生型示例性Cas多肽或Cas结构域具有至少或至少约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性和/或序列同源性的多肽或结构域。Cas(例如,Cas9、Cas12)可以指Cas蛋白的野生型或修饰形式,其可包含氨基酸变化,如缺失、插入、取代、变体、突变、融合、嵌合或其任意组合。
在一些实施方案中,碱基编辑器的CRISPR蛋白来源的结构域可包括来自以下的Cas9的全部或一部分:溃疡棒状杆菌(Corynebacterium ulcerans)(NCBI参考序列:NC_015683.1、NC_017317.1);白喉棒状杆菌(Corynebacterium diphtheria)(NCBI参考序列:NC_016782.1、NC_016786.1);食蚜蝇螺原体(Spiroplasma syrphidicola)(NCBI参考序列:NC_021284.1);中间普雷沃菌(Prevotella intermedia)(NCBI参考序列:NC_017861.1);台湾螺原体(Spiroplasma taiwanense)(NCBI参考序列:NC_021846.1);海豚链球菌(Streptococcus iniae)(NCBI参考序列:NC_021314.1);波罗的海贝利菌(Belliellabaltica)(NCBI参考序列:NC_018010.1);扭曲冷弯曲菌(Psychroflexus torquis)(NCBI参考序列:NC_018721.1);嗜热链球菌(NCBI参考序列:YP_820832.1);无害李斯特菌(Listeria innocua)(NCBI参考序列:NP_472073.1);空肠弯曲杆菌(Campylobacterjejuni)(NCBI参考序列:YP_002344900.1);脑膜炎奈瑟氏球菌(NCBI参考序列:YP_002342100.1);酿脓链球菌或金黄色葡萄球菌。
Cas9核酸酶序列和结构是本领域技术人员熟知的(参见例如,“Complete genomesequence of an Ml strain of Streptococcus pyogenes.”Ferretti等人,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III.”Deltcheva E.等人,Nature 471:602-607(2011);和“Aprogrammabledual-RNA-guided DNA endonuclease in adaptivebacterial immunity.”Jinek M.等人,Science 337:816-821(2012),上述文献中的每一者以引用的方式并入本文)。已经在包括但不限于酿脓链球菌和嗜热链球菌在内的多种物种中描述了Cas9直系同源物。基于本公开,另外的合适Cas9核酸酶和序列对于本领域技术人员来说将是显而易见的,并且这类Cas9核酸酶和序列包括来自Chylinski、Rhun和Charpentier,“The tracrRNA and Cas9 families of type IICRISPR-Cas immunitysystems”(2013)RNA Biology 10:5,726-737中公开的生物体和基因座的Cas9序列,该文献的全部内容以引用的方式并入本文。
高保真Cas9结构域
本公开的一些方面提供高保真Cas9结构域。高保真Cas9结构域是本领域中已知的,并且描述于例如以下文献中:Kleinstiver,B.P.等人,“High-fidelity CRISPR-Cas9nucleases with no detectable genome-wide off-target effects.”Nature 529,490-495(2016);和Slaymaker,I.M.等人,“Rationally engineered Cas9 nucleases withimproved specificity.”Science 351,84-88(2015);上述文献中的每一者的全部内容以引用的方式并入本文。示例性高保真Cas9结构域在序列表中提供为SEQ ID NO:237。在一些实施方案中,高保真Cas9结构域是包含一个或多个突变的工程化Cas9结构域,相对于相应的野生型Cas9结构域,所述突变降低了Cas9结构域与DNA的糖-磷酸酯主链之间的静电相互作用。与DNA的糖-磷酸酯主链的静电相互作用降低的高保真Cas9结构域具有较少的脱靶效应。在一些实施方案中,Cas9结构域(例如,野生型Cas9结构域(SEQ ID NO:201和204))包含减少Cas9结构域与DNA的糖-磷酸酯主链之间的缔合的一个或多个突变。在一些实施方案中,Cas9结构域包含一个或多个突变,所述突变使Cas9结构域与DNA的糖-磷酸酯主链之间的缔合减少至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%或至少70%。
在一些实施方案中,本文提供的任何Cas9融合蛋白包含D10A、N497X、R661X、Q695X和/或Q926X突变中的一者或多者或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,高保真Cas9酶是SpCas9(K855A)、eSpCas9(1.1)、SpCas9-HF1或超精确Cas9变体(HypaCas9)。在一些实施方案中,修饰的Cas9 eSpCas9(1.1)含有削弱HNH/RuvC沟与非靶DNA链之间的相互作用的丙氨酸取代,从而阻止了链分离并且在脱靶位点切割。类似地,SpCas9-HF1通过破坏Cas9与DNA磷酸酯主链的相互作用的丙氨酸取代来降低脱靶编辑。HypaCas9含有在REC3结构域中的增加Cas9校对和靶辨别的突变(SpCas9N692A/M694A/Q695A/H698A)。所有三种高保真酶比野生型Cas9产生更少的脱靶编辑。
排他性降低的Cas9结构域
通常,Cas9蛋白(如来自酿脓链球菌的Cas9(spCas9))需要“原型间隔区序列相邻基序(PAM)”或PAM样基序,所述基序是在CRISPR细菌适应性免疫系统中紧接着由Cas9核酸酶靶向的DNA序列的2-6个碱基对的DNA序列。NGG PAM序列的存在是结合特定核酸区域所需的,其中“NGG”中的“N”是腺苷(A)、胸苷(T)或胞嘧啶(C),且G是鸟苷。这可能会限制编辑基因组内所需碱基的能力。在一些实施方案中,本文提供的碱基编辑融合蛋白可能需要被放置在精确位置,例如包含在PAM上游的靶碱基的区域。参见例如Komor,A.C.等人,“Programmable editing of a target base in genomic DNA without double-strandedDNA cleavage”Nature 533,420-424(2016),该文献的全部内容以引用的方式特此并入。能够结合PAM序列的spCas9蛋白的示例性多肽序列在序列表中提供为SEQ ID NO:201、205和238-241。因此,在一些实施方案中,本文提供的任何融合蛋白可含有能够结合不含规范(例如,NGG)PAM序列的核苷酸序列的Cas9结构域。与非规范PAM序列结合的Cas9结构域在本领域中已经有所描述,并且对于技术人员来说是显而易见的。例如,以下文献中已经描述了结合非规范PAM序列的Cas9结构域:Kleinstiver,B.P.等人,“Engineered CRISPR-Cas9nucleases with altered PAM specificities”Nature 523,481-485(2015);和Kleinstiver,B.P.等人,“Broadening the targeting range of Staphylococcus aureusCRISPR-Cas9 by modifying PAM recognition”Nature Biotechnology 33,1293-1298(2015);上述每一者的全部内容以引用的方式特此并入。
切口酶
在一些实施方案中,多核苷酸可编程核苷酸结合结构域可包含切口酶结构域。在本文中,术语“切口酶”是指包含核酸酶结构域的多核苷酸可编程核苷酸结合结构域,所述核酸酶结构域能够仅切割双链体核酸分子(例如,DNA)的两条链中的一条链。在一些实施方案中,切口酶可通过将一个或多个突变引入到活性多核苷酸可编程核苷酸结合结构域中而得自完全催化活性(例如,天然)形式的多核苷酸可编程核苷酸结合结构域。例如,例如,在多核苷酸可编程核苷酸结合结构域包含来源于Cas9的切口酶结构域的情况下,Cas9来源的切口酶结构域可包括在位置840处的D10A突变和组氨酸。在这类实施方案中,残基H840保留催化活性,并因此可切割核酸双链体的单链。在另一实例中,Cas9来源的切口酶结构域可包含H840A突变,而位置10处的氨基酸残基仍然是D。在一些实施方案中,切口酶可通过移除全部核酸酶结构域或核酸酶结构域的不是切口酶活性所需的部分而得自完全催化活性(例如,天然)形式的多核苷酸可编程核苷酸结合结构域。例如,例如,在多核苷酸可编程核苷酸结合结构域包含来源于Cas9的切口酶结构域的情况下,Cas9来源的切口酶结构域可包含RuvC结构域或HNH结构域的全部或一部分的缺失。
在一些实施方案中,野生型Cas9对应于或包含以下氨基酸序列:
/>
在一些实施方案中,被包含切口酶结构域(例如,Cas9来源的切口酶结构域、Cas12来源的切口酶结构域)的碱基编辑器切割的核酸双链体靶多核苷酸序列的链是不被碱基编辑器编辑的链(即,被碱基编辑器切割的链与包含要编辑的碱基的链相对)。在其它实施方案中,包含切口酶结构域(例如,Cas9来源的切口酶结构域、Cas12来源的切口酶结构域)的碱基编辑器可切割DNA分子的被靶向用于编辑的链。在这类实施方案中,非靶向链不被切割。
在一些实施方案中,Cas9核酸酶具有非活性(例如,失活)DNA切割结构域,也就是说,Cas9是切口酶,被称为“nCas9”蛋白(对于“切口酶”Cas9)。Cas9切口酶可以是能够仅切割双链体核酸分子(例如,双链体DNA分子)的一条链的Cas9蛋白。在一些实施方案中,Cas9切口酶切割双链体核酸分子的靶链,这意味着Cas9切口酶切割与同Cas9结合的gRNA(例如,sgRNA)碱基配对(互补)的链。在一些实施方案中,Cas9切口酶包含D10A突变,并且在位置840处具有组氨酸。在一些实施方案中,Cas9切口酶切割双链体核酸分子的非靶标、非碱基编辑链,这意味着Cas9切口酶切割与同Cas9结合的gRNA(例如,sgRNA)不是碱基配对的链。在一些实施方案中,Cas9切口酶包含H840A突变,并且具有在位置10处的天冬氨酸残基或相应的突变。在一些实施方案中,Cas9切口酶包含与本文提供的任一种Cas9切口酶具有至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性的氨基酸序列。基于本公开和本领域的知识,另外的合适Cas9切口酶对于本领域技术人员来说将是显而易见的,并且在本公开的范围内。
示例性催化Cas9切口酶(nCas9)的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTY
AHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFL
KSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLA
GSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG
QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQN
GRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKN
RGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERG
GLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIRE
VKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTAL
IKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNI
MNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLS
MPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYG
GFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPI
DFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGN
ELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEI
IEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTN
LGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD(SEQ ID NO:205)
Cas9核酸酶具有两个功能性核酸内切酶结构域:RuvC和HNH。Cas9在靶结合时经历构象变化,所述靶结合定位核酸酶结构域以切割靶DNA的相对链。Cas9介导的DNA切割的最终结果是靶DNA(PAM序列上游的约3-4个核苷酸)内的双链断裂(DSB)。然后通过两种一般修复途径之一来修复所得DSB:(1)高效但容易出错的非同源末端连接(NHEJ)途径;或(2)效率较低但高保真的同源定向修复(HDR)途径。
可通过任何方便的方法来计算非同源末端连接(NHEJ)和/或同源定向修复(HDR)的“效率”。例如,在一些实施方案中,可以用成功的HDR的百分比来表示效率。例如,surveyor核酸酶测定法可用于产生切割产物,且产物与底物的比率可用于计算所述百分比。例如,可以使用surveyor核酸酶,其直接切割含有作为成功HDR的结果的新整合的限制序列的DNA。更多的切割底物表示更大的HDR百分比(更高的HDR的效率)。作为说明性示例,可以使用以下等式计算HDR的分数(百分比):[(切割产物)/(底物加切割产物)](例如,(b+c)/(a+b+c),其中“a”是DNA底物的带强度,且“b”和“c”是切割产物)。
在一些实施方案中,可以用成功的NHEJ的百分比来表示效率。例如,T7核酸内切酶I测定法可用于产生切割产物,且产物与底物的比率可用于计算NHEJ百分比。T7核酸内切酶I切割由野生型和突变型DNA链的杂交产生的错配异源双链体DNA(NHEJ在原始断裂位点处产生小的随机插入或缺失(插入缺失))。更多的切割表示更大的NHEJ百分比(更高的NHEJ的效率)。作为说明性示例,可以使用以下等式计算NHEJ的分数(百分比):(1-(1-(b+c)/(a+b+c))1/2)×100,其中“a”是DNA底物的带强度,且“b”和“c”是切割产物(Ran等人,Cell.2013年9月12日;154(6):1380-9;和Ran等人,Nat Protoc.2013年11月;8(11):2281–2308)。
NHEJ修复途径是最活跃的修复机制,并且其经常导致在DSB位点处的小核苷酸插入或缺失(插入缺失)。NHEJ介导的DSB修复的随机性具有重要的实际意义,因为表达Cas9和gRNA或引导多核苷酸的细胞群可导致各种各样的突变。在大多数实施方案中,NHEJ在靶DNA中产生导致氨基酸缺失、插入或移码突变的小插入缺失,从而导致产生被靶向基因的开放阅读框(ORF)内的过早终止密码子。理想的最终结果是被靶向基因内的功能丧失突变。
虽然NHEJ介导的DSB修复通常会破坏基因的开放阅读框,但同源定向修复(HDR)可用于产生特定的核苷酸变化,范围从单个核苷酸变化到大的插入,如荧光团或标签的添加。
为了利用HDR进行基因编辑,可以将含有所需序列的DNA修复模板与gRNA和Cas9或Cas9切口酶一起递送到所关注的细胞类型中。修复模板可含有所需的编辑以及靶标的紧靠的上游和下游的另外的同源序列(称为左同源臂和右同源臂)。每个同源臂的长度可取决于所引入的变化的大小,较大的插入需要较长的同源臂。修复模板可以是单链寡核苷酸、双链寡核苷酸或双链DNA质粒。HDR的效率通常很低(<10%的修饰等位基因),即使在表达Cas9、gRNA和外源修复模板的细胞中也是如此。可以通过同步化细胞来提高HDR的效率,因为HDR发生在细胞周期的S期和G2期。在化学或遗传上抑制参与NHEJ的基因也可增加HDR频率。
在一些实施方案中,Cas9是修饰的Cas9。给定的gRNA靶向序列可在整个基因组中具有其中存在部分同源性的另外的位点。这些位点被称为脱靶靶标,并且在设计gRNA时需要加以考虑。除了优化gRNA设计外,还可以通过对Cas9进行修饰来增加CRISPR特异性。Cas9通过两个核酸酶结构域RuvC和HNH的组合活性产生双链断裂(DSB)。Cas9切口酶是一种SpCas9的D10A突变体,其保留一个核酸酶结构域,并产生DNA切口而不是DSB。切口酶系统也可以与HDR介导的基因编辑组合用于特定的基因编辑。
催化死亡核酸酶(Catalytically Dead Nucleases)
本文还提供包含催化死亡的(即,不能切割靶多核苷酸序列)多核苷酸可编程核苷酸结合结构域的碱基编辑器。在本文中,术语“催化死亡”和“核酸酶死亡”可互换使用,是指具有一个或多个突变和/或缺失的多核苷酸可编程核苷酸结合结构域,所述突变和/或缺失导致其不能切割核酸的链。在一些实施方案中,催化死亡多核苷酸可编程核苷酸结合结构域碱基编辑器可由于一个或多个核酸酶结构域中的特定点突变而缺乏核酸酶活性。例如,在包含Cas9结构域的碱基编辑器的情况下,Cas9可包含D10A突变和H840A突变两者。这类突变使两个核酸酶结构域失活,从而导致核酸酶活性丧失。在其它实施方案中,催化死亡多核苷酸可编程核苷酸结合结构域可包含催化结构域(例如,RuvC1和/或HNH结构域)的全部或一部分的一个或多个缺失。在进一步的实施方案中,催化死亡多核苷酸可编程核苷酸结合结构域包含点突变(例如,D10A或H840A)以及核酸酶结构域的全部或一部分的缺失。dCas9结构域是本领域中已知的,并且描述于例如Qi等人,“Repurposing CRISPR as an RNA-guided platform for sequence-specific control of gene expression.”Cell.2013;152(5):1173-83中,该文献的全部内容以引用的方式并入本文。
基于本公开和本领域的知识,另外的合适核酸酶非活性dCas9结构域对于本领域技术人员来说将是显而易见的,并且在本公开的范围内。这类另外的示例性合适核酸酶非活性Cas9结构域包括但不限于D10A/H840A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突变结构域(参见例如Prashant等人,CAS9 transcriptional activators for targetspecificity screening and paired nickases for cooperative genomeengineering.Nature Biotechnology.2013;31(9):833-838,该文献的全部内容以引用的方式并入本文)。
在一些实施方案中,dCas9对应于或者部分或整体地包含具有一个或多个使Cas9核酸酶活性失活的突变的Cas9氨基酸序列。在一些实施方案中,核酸酶非活性dCas9结构域包含本文中所示的氨基酸序列的D10X突变和H840X突变,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸变化。在一些实施方案中,核酸酶非活性dCas9结构域包含本文中所示的氨基酸序列的D10A突变和H840A突变,或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,核酸酶非活性Cas9结构域包含克隆载体pPlatTET-gRNA2(登录号BAV54124)中所示的氨基酸序列。
在一些实施方案中,变体Cas9蛋白可切割引导靶序列的互补链,但切割双链引导靶序列的非互补链的能力降低。例如,变体Cas9蛋白可具有降低RuvC结构域的功能的突变(氨基酸取代)。作为非限制性示例,在一些实施方案中,变体Cas9蛋白具有D10A(在氨基酸位置10处的天冬氨酸变为丙氨酸),并因此可切割双链引导靶序列的互补链,但切割双链引导靶序列的非互补链的能力降低(因此当变体Cas9蛋白切割双链靶核酸时导致单链断裂(SSB)而不是双链断裂(DSB))(参见例如Jinek等人,Science.2012年8月17日;337(6096):816-21)。
在一些实施方案中,变体Cas9蛋白可切割双链引导靶序列的非互补链,但切割引导靶序列的互补链的能力降低。例如,变体Cas9蛋白可具有降低HNH结构域(RuvC/HNH/RuvC结构域基序)的功能的突变(氨基酸取代)。作为非限制性示例,在一些实施方案中,变体Cas9蛋白具有H840A(在氨基酸位置840处的组氨酸变为丙氨酸)突变,并因此可切割引导靶序列的非互补链,但切割引导靶序列的互补链的能力降低(因此当变体Cas9蛋白切割双链引导靶序列时导致SSB而不是DSB)。这种Cas9蛋白切割引导靶序列(例如,单链引导靶序列)的能力降低,但保留结合引导靶序列(例如,单链引导靶序列)的能力。
作为另一非限制性示例,在一些实施方案中,变体Cas9蛋白携带W476A和W1126A突变,使得多肽切割靶DNA的能力降低。这种Cas9蛋白切割靶DNA(例如,单链靶DNA)的能力降低,但保留结合靶DNA(例如,单链靶DNA)的能力。
作为另一非限制性示例,在一些实施方案中,变体Cas9蛋白携带P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得多肽切割靶DNA的能力降低。这种Cas9蛋白切割靶DNA(例如,单链靶DNA)的能力降低,但保留结合靶DNA(例如,单链靶DNA)的能力。
作为另一非限制性示例,在一些实施方案中,变体Cas9蛋白携带H840A、W476A和W1126A突变,使得多肽切割靶DNA的能力降低。这种Cas9蛋白切割靶DNA(例如,单链靶DNA)的能力降低,但保留结合靶DNA(例如,单链靶DNA)的能力。作为另一非限制性示例,在一些实施方案中,变体Cas9蛋白携带H840A、D10A、W476A和W1126A突变,使得多肽切割靶DNA的能力降低。这种Cas9蛋白切割靶DNA(例如,单链靶DNA)的能力降低,但保留结合靶DNA(例如,单链靶DNA)的能力。在一些实施方案中,变体Cas9在Cas9HNH结构域中的位置840处具有恢复的催化His残基(A840H)。
作为另一非限制性示例,在一些实施方案中,变体Cas9蛋白携带H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得多肽切割靶DNA的能力降低。这种Cas9蛋白切割靶DNA(例如,单链靶DNA)的能力降低,但保留结合靶DNA(例如,单链靶DNA)的能力。作为另一非限制性示例,在一些实施方案中,变体Cas9蛋白携带D10A、H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得多肽切割靶DNA的能力降低。这种Cas9蛋白切割靶DNA(例如,单链靶DNA)的能力降低,但保留结合靶DNA(例如,单链靶DNA)的能力。在一些实施方案中,当变体Cas9蛋白携带W476A和W1126A突变时或当变体Cas9蛋白携带P475A、W476A、N477A、D1125A、W1126A和D1127A突变时,变体Cas9蛋白不与PAM序列有效结合。因此,在一些这类实施方案中,当这种变体Cas9蛋白用在结合的方法中时,所述方法不需要PAM序列。换句话说,在一些实施方案中,当这种变体Cas9蛋白用在结合的方法中时,所述方法可包括引导RNA,但所述方法可以在不存在PAM序列的情况下进行(且结合的特异性因此由引导RNA的靶向区段提供)。可以使其它残基突变以实现上述效果(即,使一个或其它核酸酶部分失活)。作为非限制性示例,残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987可以被改变(即,取代)。而且,除了丙氨酸取代之外的突变也是合适的。
在一些实施方案中,变体Cas9蛋白具有降低的催化活性(例如,当Cas9蛋白具有D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987突变时,例如D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A和/或D986A),所述变体Cas9蛋白仍然可以以位点特异性方式与靶DNA结合(因为其仍然由引导RNA引导至靶DNA序列),只要其保留与引导RNA相互作用的能力即可。
在一些实施方案中,变体Cas蛋白可以是spCas9、spCas9-VRQR、spCas9-VRER、xCas9(sp)、saCas9、saCas9-KKH、spCas9-MQKSER、spCas9-LRKIQK或spCas9-LRVSQL。
在一些实施方案中,Cas9结构域是来自金黄色葡萄球菌的Cas9结构域(SaCas9)。在一些实施方案中,SaCas9结构域是核酸酶活性SaCas9、核酸酶非活性SaCas9(SaCas9d)或SaCas9切口酶(SaCas9n)。在一些实施方案中,SaCas9包含N579A突变或在随本文提交的序列表中提供的任何氨基酸序列中的相应突变。
在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可以与具有非规范PAM的核酸序列结合。在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可以与具有NNGRRT或NNGRRV PAM序列的核酸序列结合。在一些实施方案中,SaCas9结构域包含E781X、N967X和R1014X突变中的一者或多者或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,SaCas9结构域包含E781K、N967K和R1014H突变中的一者或多者,或本文提供的任何氨基酸序列中的一个或多个相应突变。在一些实施方案中,SaCas9结构域包含E781K、N967K或R1014H突变,或本文提供的任何氨基酸序列中的相应突变。
在一些实施方案中,融合蛋白中存在的Cas9结构域之一可以用对PAM序列没有要求的引导核苷酸序列可编程DNA结合蛋白结构域替换。在一些实施方案中,Cas9是SaCas9。SaCas9的残基A579可由N579突变以产生SaCas9切口酶。残基K781、K967和H1014可由E781、N967和R1014突变以产生SaKKH Cas9。
在一些实施方案中,使用包括氨基酸取代D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(SpCas9-MQKFRAER)且对改变的PAM 5’-NGC-3’具有特异性的修饰SpCas9。
酿脓链球菌Cas9的替代者可包括来自Cpf1家族的RNA引导的核酸内切酶,其在哺乳动物细胞中表现出切割活性。来自普雷沃菌属(Prevotella)和弗朗西斯菌属1(Francisella 1)的CRISPR(CRISPR/Cpf1)是类似于CRISPR/Cas9系统的DNA编辑技术。Cpf1是II类CRISPR/Cas系统的RNA引导的核酸内切酶。这种获得性免疫机制见于普雷沃菌属和弗朗西斯菌属的细菌中。Cpf1基因与CRISPR基因座相关,其编码使用引导RNA来寻找和切割病毒DNA的核酸内切酶。Cpf1是比Cas9更小且更简单的核酸内切酶,这克服了一些CRISPR/Cas9系统限制。与Cas9核酸酶不同,Cpf1介导的DNA切割的结果是具有短3′突出端的双链断裂。Cpf1的交错切割模式可以开辟类似于传统限制酶克隆的定向基因转移的可能性,这可提高基因编辑的效率。与上述的Cas9变体和直系同源物一样,Cpf1也可以扩展可被CRISPR靶向到缺乏SpCas9偏好的NGG PAM位点的富含AT的区域或富含AT的基因组的位点的数目。Cpf1基因座含有混合的α/β结构域、RuvC-I,接着是螺旋区、RuvC-II和锌指样结构域。Cpf1蛋白具有与Cas9的RuvC结构域类似的RuvC样核酸内切酶结构域。
此外,与Cas9不同,Cpf1没有HNH核酸内切酶结构域,并且Cpf1的N末端没有Cas9的α螺旋识别叶。Cpf1 CRISPR-Cas结构域架构显示Cpf1在功能上是独特的,被归类为2类V型CRISPR系统。Cpf1基因座编码Cas1、Cas2和Cas4蛋白,这些蛋白比起II型系统更类似于I型和III型。功能性Cpf1不需要反式激活CRISPR RNA(tracrRNA),因此只需要CRISPR(crRNA)。这对基因组编辑有益,因为Cpf1不仅比Cas9小,而且其具有更小的sgRNA分子(大约是Cas9的一半的核苷酸)。与由Cas9靶向的富含G的PAM形成对比,Cpf1-crRNA复合物通过识别原型间隔区序列相邻基序5’-YTN-3’或5’-TTN-3’来切割靶DNA或RNA。在识别PAM后,Cpf1引入具有4或5个核苷酸的突出端的粘端样DNA双链断裂。
在一些实施方案中,Cas9是对改变的PAM序列具有特异性的Cas9变体。在一些实施方案中,另外的Cas9变体和PAM序列描述于Miller,S.M.等人,Continuous evolution ofSpCas9 variants compatible with non-G PAMs,Nat.Biotechnol.(2020)中,该文献的全部内容以引用的方式并入本文。在一些实施方案中,Cas9变量没有特定的PAM要求。在一些实施方案中,Cas9变体(例如SpCas9变体)对NRNH PAM具有特异性,其中R是A或G,且H是A、C或T。在一些实施方案中,SpCas9变体对PAM序列AAA、TAA、CAA、GAA、TAT、GAT或CAC具有特异性。在一些实施方案中,SpCas9变体在位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1218、1219、1221、1249、1256、1264、1290、1318、1317、1320、1321、1323、1332、1333、1335、1337或1339或其相应位置处包含氨基酸取代。在一些实施方案中,SpCas9变体在位置1114、1135、1218、1219、1221、1249、1320、1321、1323、1332、1333、1335或1337或其相应位置处包含氨基酸取代。在一些实施方案中,SpCas9变体在位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1219、1221、1256、1264、1290、1318、1317、1320、1323、1333或其相应位置处包含氨基酸取代。在一些实施方案中,SpCas9变体在位置1114、1131、1135、1150、1156、1180、1191、1218、1219、1221、1227、1249、1253、1286、1293、1320、1321、1332、1335、1339或其相应位置处包含氨基酸取代。在一些实施方案中,SpCas9变体在位置1114、1127、1135、1180、1207、1219、1234、1286、1301、1332、1335、1337、1338、1349或其相应位置处包含氨基酸取代。SpCas9变体的示例性氨基酸取代和PAM特异性示于表3A-3D中。
表3A.SpCas9变体和PAM特异性
/>
/>
/>
具有修饰的PAM识别的进一步的示例性Cas9(例如,SaCas9)多肽描述于Kleinstiver等人,“Broadening the targeting range of Staphylococcus aureusCRISPR-Cas9 by modifying PAM recognition,”Nature Biotechnology,33:1293-1298(2015)DOI:10.1038/nbt.3404中,该文献的公开内容出于所有目的以全文引用的方式并入本文。在一些实施方案中,包含改变E782K、N929R、N968K和/或R1015H中的一者或多者的Cas9变体(例如,SaCas9变体)相对于参考多肽(例如,SaCas9)在NNNRRT或NNHRRT PAM序列处对增加的编辑活性具有特异性或与增加的编辑活性相关,其中N代表任何核苷酸,H代表除G之外的任何核苷酸(即,“非G”),且R代表嘌呤。在若干实施方案中,Cas9变体(例如,SaCas9变体)包含改变E782K、N968K和R1015H或改变E782K、K929R和R1015H。
在一些实施方案中,核酸可编程DNA结合蛋白(napDNAbp)是微生物CRISPR-Cas系统的单一效应子。微生物CRISPR-Cas系统的单一效应子包括但不限于Cas9、Cpf1、Cas12b/C2c1和Cas12c/C2c3。通常,微生物CRISPR-Cas系统分为1类和2类系统。1类系统具有多亚基效应子复合物,而2类系统具有单一蛋白效应子。例如,Cas9和Cpf1是2类效应子。除了Cas9和Cpf1之外,Shmakov等人,“Discovery and Functional Characterization of DiverseClass 2CRISPR Cas Systems”,Mol.Cell,2015年11月5日;60(3):385-397描述了三种不同的2类CRISPR-Cas系统(Cas12b/C2c1和Cas12c/C2c3),该文献的全部内容以引用的方式特此并入。系统中的两者Cas12b/C2c1和Cas12c/C2c3的效应子含有与Cpf1相关的RuvC样核酸内切酶结构域。第三种系统含有具有两个预测的HEPN RNA酶结构域的效应子。与通过Cas12b/C2c1产生CRISPR RNA不同,成熟CRISPR RNA的产生是tracrRNA非依赖性的。Cas12b/C2c1依赖CRISPR RNA和tracrRNA进行DNA切割。
在一些实施方案中,napDNAbp是环状排列突变体(circular permutant)(例如,SEQ ID NO:242)。
据报道酸土脂环酸杆菌(Alicyclobaccillus acidoterrastris)Cas12b/C2c1(AacC2c1)的晶体结构与嵌合单分子引导RNA(sgRNA)复合。参见例如Liu等人,“C2c1-sgRNAComplex Structure Reveals RNA-Guided DNACleavage Mechanism”,Mol.Cell,2017年1月19日;65(2):310-322,该文献的全部内容以引用的方式特此并入。在酸土脂环酸杆菌C2c1中也报道了作为三元复合物与靶DNA结合的晶体结构。参见例如Yang等人,“PAM-dependent Target DNA Recognition and Cleavage by C2C1 CRISPR-Casendonuclease”,Cell,2016年12月15日;167(7):1814-1828,该文献的全部内容以引用的方式特此并入。具有靶和非靶DNA链的AacC2c1的有催化能力的构象已被捕获,独立地定位在单个RuvC催化袋内,Cas12b/C2c1介导的切割导致靶DNA的交错七核苷酸断裂。Cas12b/C2c1三元复合物与先前鉴定的Cas9和Cpf1对应体之间的结构比较证明了CRISPR-Cas9系统所采用的机制的多样性。
在一些实施方案中,本文提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是Cas12b/C2c1或Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp是Cas12b/C2c1蛋白。在一些实施方案中,napDNAbp是Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp包含与天然存在的Cas12b/C2c1或Cas12c/C2c3蛋白具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性的氨基酸序列。在一些实施方案中,napDNAbp是天然存在的Cas12b/C2c1或Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp包含与本文提供的任一napDNAbp序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性的氨基酸序列。应当了解的是,根据本公开也可以使用来自其它细菌种的Cas12b/C2c1或Cas12c/C2c3。
在一些实施方案中,napDNAbp是指Cas12c。在一些实施方案中,Cas12c蛋白是Cas12c1(SEQ ID NO:243)或Cas12c1的变体。在一些实施方案中,Cas12蛋白是Cas12c2(SEQID NO:244)或Cas12c2的变体。在一些实施方案中,Cas12蛋白是来自嗜油菌属(Oleiphilus)种HI0009的Cas12c蛋白(即,OspCas12c;SEQ ID NO:245)或OspCas12c的变体。这些Cas12c分子已描述于Yan等人,“Functionally Diverse Type V CRISPR-CasSystems,”Science,2019年1月4日;363:88-91中,该文献的全部内容以引用的方式特此并入。在一些实施方案中,napDNAbp包含与天然存在的Cas12c1、Cas12c2或OspCas12c蛋白具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性的氨基酸序列。在一些实施方案中,napDNAbp是天然存在的Cas12c1、Cas12c2或OspCas12c蛋白。在一些实施方案中,napDNAbp包含与本文所述的任何Cas12c1、Cas12c2或OspCas12c蛋白具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性的氨基酸序列。应当了解的是,根据本公开也可以使用来自其它细菌种的Cas12c1、Cas12c2或OspCas12c。
在一些实施方案中,napDNAbp是指已经描述于例如Yan等人,“FunctionallyDiverse Type V CRISPR-Cas Systems,”Science,2019年1月4日;363:88-91中的Cas12g、Cas12h或Cas12i,每一者的全部内容以引用的方式特此并入。示例性Cas12g、Cas12h和Cas12i多肽序列在序列表中提供为SEQ ID NO:246-249。通过聚集超过10太字节的序列数据,鉴定了V型Cas蛋白的新分类,其显示出与先前表征的V类蛋白有弱的相似性,包括Cas12g、Cas12h和Cas12i。在一些实施方案中,Cas12蛋白是Cas12g或Cas12g的变体。在一些实施方案中,Cas12蛋白是Cas12h或Cas12h的变体。在一些实施方案中,Cas12蛋白是Cas12i或Cas12i的变体。应当了解的是,其它RNA引导的DNA结合蛋白可用作napDNAbp,并且在本公开的范围内。在一些实施方案中,napDNAbp包含与天然存在的Cas12g、Cas12h或Cas12i蛋白具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性的氨基酸序列。在一些实施方案中,napDNAbp是天然存在的Cas12g、Cas12h或Cas12i蛋白。在一些实施方案中,napDNAbp包含与本文所述的任何Cas12g、Cas12h或Cas12i蛋白具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性的氨基酸序列。应当了解的是,根据本公开也可以使用来自其它细菌种的Cas12g、Cas12h或Cas12i。在一些实施方案中,Cas12i是Cas12i1或Cas12i2。
在一些实施方案中,本文提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是Cas12j/CasΦ蛋白。Cas12j/CasΦ描述于Pausch等人,“CRISPR-CasΦfrom huge phages is a hypercompact genome editor”,Science,2020年7月17日,第369卷,第6501期,第333-337页中,该文献以全文引用的方式并入本文。在一些实施方案中,napDNAbp包含与天然存在的Cas12j/CasΦ蛋白具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性的氨基酸序列。在一些实施方案中,napDNAbp是天然存在的Cas12j/CasΦ蛋白。在一些实施方案中,napDNAbp是核酸酶非活性(“死”)Cas12j/CasΦ蛋白。应当了解的是,根据本公开也可以使用来自其它物种的Cas12j/CasΦ。
具有内部插入的融合蛋白
本文提供了包含与核酸可编程核酸结合蛋白(例如,napDNAbp)融合的异源多肽的融合蛋白。异源多肽可以是不存在于天然或野生型napDNAbp多肽序列中的多肽。异源多肽可以在napDNAbp的C末端、napDNAbp的N末端处与napDNAbp融合,或者插入在napDNAbp的内部位置处。在一些实施方案中,异源多肽是脱氨酶(例如,腺苷脱氨酶的胞苷)或其功能片段。例如,融合蛋白可包含侧接Cas9或Cas12(例如,Cas12b/C2c1)多肽的N末端片段和C末端片段的脱氨酶。在一些实施方案中,胞苷脱氨酶是APOBEC脱氨酶(例如,APOBEC1)。在一些实施方案中,腺苷脱氨酶是TadA(例如,TadA*7.10或TadA*8)。在一些实施方案中,TadA是TadA*8或TadA*9。如本文所述的TadA序列(例如,TadA7.10或TadA*8)是上述融合蛋白的合适的脱氨酶。
在一些实施方案中,融合蛋白包含如下结构:
NH2-[napDNAbp的N末端片段]-[脱氨酶]-[napDNAbp的C末端片段]-COOH;
NH2-[Cas9的N末端片段]-[腺苷脱氨酶]-[Cas9的C末端片段]-COOH;
NH2-[Cas12的N末端片段]-[腺苷脱氨酶]-[Cas12的C末端片段]-COOH;
NH2-[Cas9的N末端片段]-[胞苷脱氨酶]-[Cas9的C末端片段]-COOH;
NH2-[Cas12的N末端片段]-[胞苷脱氨酶]-[Cas12的C末端片段]-COOH;
其中“]-[”的每个实例是任选的接头。
脱氨酶可以是环状排列突变体脱氨酶。例如,脱氨酶可以是环状排列突变体腺苷脱氨酶。在一些实施方案中,脱氨酶是环状排列突变体TadA,其在按TadA参考序列中编号的氨基酸残基116、136或65处发生环状排列突变。
融合蛋白可包含多于一种脱氨酶。融合蛋白可包含例如1、2、3、4、5或更多种脱氨酶。在一些实施方案中,融合蛋白包含一种或两种脱氨酶。融合蛋白中的两种或更多种脱氨酶可以是腺苷脱氨酶、胞苷脱氨酶或其组合。两种或更多种脱氨酶可以是同二聚体或异二聚体。两种或更多种脱氨酶可串联插入napDNAbp中。在一些实施方案中,两种或更多种脱氨酶可以不在napDNAbp中串联。
在一些实施方案中,融合蛋白中的napDNAbp是Cas9多肽或其片段。Cas9多肽可以是变体Cas9多肽。在一些实施方案中,Cas9多肽是Cas9切口酶(nCas9)多肽或其片段。在一些实施方案中,Cas9多肽是核酸酶死亡Cas9(dCas9)多肽或其片段。融合蛋白中的Cas9多肽可以是全长Cas9多肽。在一些情况下,融合蛋白中的Cas9多肽可以不是全长Cas9多肽。Cas9多肽可相对于天然存在的Cas9蛋白在例如N末端或C末端被截短。Cas9多肽可以是环状排列突变Cas9蛋白。Cas9多肽可以是Cas9多肽的仍然能够结合靶多核苷酸和引导核酸序列的片段、部分或结构域。
在一些实施方案中,Cas9多肽是酿脓链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)或本文所述的任何Cas9多肽的片段或变体。
在一些实施方案中,融合蛋白包含插入在Cas9内的腺苷脱氨酶结构域和胞苷脱氨酶结构域。在一些实施方案中,腺苷脱氨酶融合在Cas9内,且胞苷脱氨酶与C末端融合。在一些实施方案中,腺苷脱氨酶融合在Cas9内,且胞苷脱氨酶与N末端融合。在一些实施方案中,胞苷脱氨酶融合在Cas9内,且腺苷脱氨酶与C末端融合。在一些实施方案中,胞苷脱氨酶融合在Cas9内,且腺苷脱氨酶与N末端融合。
具有腺苷脱氨酶和胞苷脱氨酶及Cas9的融合蛋白的示例性结构提供如下:
NH2-[Cas9(腺苷脱氨酶)]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9(腺苷脱氨酶)]-COOH;
NH2-[Cas9(胞苷脱氨酶)]-[腺苷脱氨酶]-COOH;或
NH2-[腺苷脱氨酶]-[Cas9(胞苷脱氨酶)]-COOH。
在一些实施方案中,上述一般架构中使用的“-”表示存在任选的接头。
在各种实施方案中,催化结构域具有DNA修饰活性(例如,脱氨酶活性),如腺苷脱氨酶活性。在一些实施方案中,腺苷脱氨酶是TadA(例如,TadA*7.10)。在一些实施方案中,TadA是TadA*8。在一些实施方案中,TadA*8融合在Cas9内,且胞苷脱氨酶与C末端融合。在一些实施方案中,TadA*8融合在Cas9内,且胞苷脱氨酶与N末端融合。在一些实施方案中,胞苷脱氨酶融合在Cas9内,且TadA*8与C末端融合。在一些实施方案中,胞苷脱氨酶融合在Cas9内,且TadA*8与N末端融合。具有TadA*8和胞苷脱氨酶及Cas9的融合蛋白的示例性结构提供如下:
NH2-[Cas9(TadA*8)]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9(TadA*8)]-COOH;
NH2-[Cas9(胞苷脱氨酶)]-[TadA*8]-COOH;或
NH2-[TadA*8]-[Cas9(胞苷脱氨酶)]-COOH。
在一些实施方案中,上述一般架构中使用的“-”表示存在任选的接头。
异源多肽(例如,脱氨酶)可以在合适的位置处插入到napDNAbp(例如,Cas9或Cas12(例如,Cas12b/C2c1))中,例如使得napDNAbp保留其结合靶多核苷酸和引导核酸的能力。脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可插入到napDNAbp中,而不损害脱氨酶的功能(例如,碱基编辑活性)或napDNAbp的功能(例如,与靶核酸和引导核酸结合的能力)。脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以在例如无序区或包含高温因子或B因子的区域插入napDNAbp中,如晶体学研究所示。蛋白质中有序度较低、无序或非结构化的区域,例如溶剂暴露区域和环,可用于插入而不损害结构或功能。脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可插入napDNAbp的柔性环区域或溶剂暴露区域中。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入Cas9或Cas12b/C2c1多肽的柔性环中。
在一些实施方案中,通过Cas9多肽的晶体结构的B因子分析来确定脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)的插入位置。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入Cas9多肽的包含高于平均的B因子(例如,与包含无序区域的总蛋白质或蛋白质结构域相比更高的B因子)的区域中。B因子或温度因子可以指示原子相对其平均位置的波动(例如,由于温度依赖性原子振动或晶格中的静态无序)。主链原子的高B因子(例如,高于平均的B因子)可以指示具有相对高的局部迁移率的区域。这种区域可用于插入脱氨酶而不损害结构或功能。脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以在具有如下残基的位置处插入,所述残基具有的Cα原子的B因子比总蛋白质的平均B因子大50%、60%、70%、80%、90%、100%、110%、120%、130%、140%、150%、160%、170%、180%、190%、200%或超过200%。脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以在具有如下残基的位置处插入,所述残基具有的Cα原子的B因子比包含所述残基的Cas9蛋白质结构域的平均B因子大50%、60%、70%、80%、90%、100%、110%、120%、130%、140%、150%、160%、170%、180%、190%、200%或超过200%。包含高于平均的B因子的Cas9多肽位置可包括例如按上述Cas9参考序列编号的残基768、792、1052、1015、1022、1026、1029、1067、1040、1054、1068、1246、1247和1248。包含高于平均的B因子的Cas9多肽区域可包括例如按上述Cas9参考序列编号的残基792-872、792-906和2-791。
异源多肽(例如,脱氨酶)可以在选自以下的氨基酸残基处插入napDNAbp中:按上述Cas9参考序列编号的768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247和1248,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,异源多肽在按上述Cas9参考序列编号的氨基酸位置768-769、791-792、792-793、1015-1016、1022-1023、1026-1027、1029-1030、1040-1041、1052-1053、1054-1055、1067-1068、1068-1069、1247-1248或1248-1249之间或其相应的氨基酸位置处插入。在一些实施方案中,异源多肽在按上述Cas9参考序列编号的氨基酸位置769-770、792-793、793-794、1016-1017、1023-1024、1027-1028、1030-1031、1041-1042、1053-1054、1055-1056、1068-1069、1069-1070、1248-1249或1249-1250之间或其相应的氨基酸位置处插入。在一些实施方案中,异源多肽替换选自以下的氨基酸残基:按上述Cas9参考序列编号的768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247和1248,或另一Cas9多肽中的相应氨基酸残基。应当理解的是,关于插入位置提到上述Cas9参考序列是出于说明性目的。如本文讨论的插入不限于上述Cas9参考序列的Cas9多肽序列,而是包括变体Cas9多肽中的相应位置处的插入,所述变体Cas9多肽例如为Cas9切口酶(nCas9)、核酸酶死亡Cas9(dCas9)、缺乏核酸酶结构域的Cas9变体、截短的Cas9或缺乏部分或完整HNH结构域的Cas9结构域。
异源多肽(例如,脱氨酶)可以在选自以下的氨基酸残基处插入napDNAbp中:按上述Cas9参考序列编号的768、792、1022、1026、1040、1068和1247,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,异源多肽在按上述Cas9参考序列编号的氨基酸位置768-769、792-793、1022-1023、1026-1027、1029-1030、1040-1041、1068-1069或1247-1248之间或其相应的氨基酸位置处插入。在一些实施方案中,异源多肽在按上述Cas9参考序列编号的氨基酸位置769-770、793-794、1023-1024、1027-1028、1030-1031、1041-1042、1069-1070或1248-1249之间或其相应的氨基酸位置处插入。在一些实施方案中,异源多肽替换选自以下的氨基酸残基:按上述Cas9参考序列编号的768、792、1022、1026、1040、1068和1247,或另一Cas9多肽中的相应氨基酸残基。
异源多肽(例如,脱氨酶)可以在如本文所述的氨基酸残基或另一Cas9多肽中的相应氨基酸残基处插入napDNAbp中。在一实施方案中,异源多肽(例如,脱氨酶)可以在选自以下的氨基酸残基处插入napDNAbp中:按上述Cas9参考序列编号的1002、1003、1025、1052-1056、1242-1247、1061-1077、943-947、686-691、569-578、530-539和1060-1077,或另一Cas9多肽中的相应氨基酸残基。脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以在所述残基的N末端或C末端插入或替换所述残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在所述残基的C末端插入。
在一些实施方案中,腺苷脱氨酶(例如,TadA)在选自以下的氨基酸残基处插入:按上述Cas9参考序列编号的1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,将腺苷脱氨酶(例如,TadA)插入以代替按上述Cas9参考序列编号的残基792-872、792-906或2-791,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,腺苷脱氨酶在选自以下的氨基酸的N末端处插入:按上述Cas9参考序列编号的1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246;或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,腺苷脱氨酶在选自以下的氨基酸的C末端处插入:按上述Cas9参考序列编号的1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246;或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,将腺苷脱氨酶插入以替换选自以下的氨基酸:按上述Cas9参考序列编号的1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,胞苷脱氨酶(例如,APOBEC1)在选自以下的氨基酸残基处插入:按上述Cas9参考序列编号的1016、1023、1029、1040、1069和1247,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,胞苷脱氨酶在选自以下的氨基酸的N末端处插入:按上述Cas9参考序列编号的1016、1023、1029、1040、1069和1247;或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,胞苷脱氨酶在选自以下的氨基酸的C末端处插入:按上述Cas9参考序列编号的1016、1023、1029、1040、1069和1247;或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,将胞苷脱氨酶插入以替换选自以下的氨基酸:按上述Cas9参考序列编号的1016、1023、1029、1040、1069和1247,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基768或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基768的N末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基768的C末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以替换按上述Cas9参考序列编号的氨基酸残基768或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基791处插入或按上述Cas9参考序列编号的氨基酸残基792或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基791的N末端插入或按上述Cas9参考序列编号的氨基酸792的N末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸791的C末端插入或按上述Cas9参考序列编号的氨基酸792的N末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以替换按上述Cas9参考序列编号的氨基酸791或插入以替换按上述Cas9参考序列编号的氨基酸792或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1016或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1016的N末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1016的C末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以替换按上述Cas9参考序列编号的氨基酸残基1016或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1022处插入或按上述Cas9参考序列编号的氨基酸残基1023或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1022的N末端插入或按上述Cas9参考序列编号的氨基酸残基1023的N末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1022的C末端插入或按上述Cas9参考序列编号的氨基酸残基1023的C末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以替换按上述Cas9参考序列编号的氨基酸残基1022或插入以替换按上述Cas9参考序列编号的氨基酸残基1023或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1026处插入或按上述Cas9参考序列编号的氨基酸残基1029或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1026的N末端插入或按上述Cas9参考序列编号的氨基酸残基1029的N末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1026的C末端插入或按上述Cas9参考序列编号的氨基酸残基1029的C末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以替换按上述Cas9参考序列编号的氨基酸残基1026或插入以替换按上述Cas9参考序列编号的氨基酸残基1029或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1040或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1040的N末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1040的C末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以替换按上述Cas9参考序列编号的氨基酸残基1040或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1052处插入或在按上述Cas9参考序列编号的氨基酸残基1054或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1052的N末端插入或在按上述Cas9参考序列编号的氨基酸残基1054的N末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1052的C末端插入或在按上述Cas9参考序列编号的氨基酸残基1054的C末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以替换按上述Cas9参考序列编号的氨基酸残基1052或插入以替换按上述Cas9参考序列编号的氨基酸残基1054或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1067处插入或在按上述Cas9参考序列编号的氨基酸残基1068处插入或按上述Cas9参考序列编号的氨基酸残基1069或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1067的N末端处插入或在按上述Cas9参考序列编号的氨基酸残基1068的N末端处插入或在按上述Cas9参考序列编号的氨基酸残基1069的N末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1067的C末端处插入或在按上述Cas9参考序列编号的氨基酸残基1068的C末端处插入或在按上述Cas9参考序列编号的氨基酸残基1069的C末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以替换按上述Cas9参考序列编号的氨基酸残基1067或插入以替换按上述Cas9参考序列编号的氨基酸残基1068或插入以替换按上述Cas9参考序列编号的氨基酸残基1069或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1246处插入或在按上述Cas9参考序列编号的氨基酸残基1247处插入或在按上述Cas9参考序列编号的氨基酸残基1248或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1246的N末端处插入或在按上述Cas9参考序列编号的氨基酸残基1247的N末端处插入或在按上述Cas9参考序列编号的氨基酸残基1248的N末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)在按上述Cas9参考序列编号的氨基酸残基1246的C末端处插入或在按上述Cas9参考序列编号的氨基酸残基1247的C末端处插入或在按上述Cas9参考序列编号的氨基酸残基1248的C末端或另一Cas9多肽中的相应氨基酸残基处插入。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以替换按上述Cas9参考序列编号的氨基酸残基1246或插入以替换按上述Cas9参考序列编号的氨基酸残基1247或插入以替换按上述Cas9参考序列编号的氨基酸残基1248或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,异源多肽(例如,脱氨酶)插入Cas9多肽的柔性环中。柔性环部分可选自按上述Cas9参考序列编号的530-537、569-570、686-691、943-947、1002-1025、1052-1077、1232-1247或1298-1300或另一Cas9多肽中的相应氨基酸残基。柔性环部分可选自:按上述Cas9参考序列编号的1-529、538-568、580-685、692-942、948-1001、1026-1051、1078-1231或1248-1297,或另一Cas9多肽中的相应氨基酸残基。
异源多肽(例如,腺嘌呤脱氨酶)可插入到对应于以下氨基酸残基的Cas9多肽区域中:按上述Cas9参考序列编号的1017-1069、1242-1247、1052-1056、1060-1077、1002–1003、943-947、530-537、568-579、686-691、1242-1247、1298–1300、1066-1077、1052-1056或1060-1077,或另一Cas9多肽中的相应氨基酸残基。
可以将异源多肽(例如,腺嘌呤脱氨酶)插入以代替Cas9多肽的缺失区域。缺失区域可对应于Cas9多肽的N末端或C末端部分。在一些实施方案中,缺失区域对应于按上述Cas9参考序列编号的残基792-872或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,缺失区域对应于按上述Cas9参考序列编号的残基792-906或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,缺失区域对应于按上述Cas9参考序列编号的残基2-791或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,缺失区域对应于按上述Cas9参考序列编号的残基1017-1069,或其相应的氨基酸残基。
示例性内部融合碱基编辑器提供于下表4中。
表4:Cas9蛋白中的插入基因座,其中“IBE”代表“内部碱基编辑器”
BE ID | 修饰 | 其它ID |
IBE001 | Cas9 TadA插入1015 | ISLAY01 |
IBE002 | Cas9 TadA插入1022 | ISLAY02 |
IBE003 | Cas9 TadA插入1029 | ISLAY03 |
IBE004 | Cas9 TadA插入1040 | ISLAY04 |
IBE005 | Cas9 TadA插入1068 | ISLAY05 |
IBE006 | Cas9 TadA插入1247 | ISLAY06 |
IBE007 | Cas9 TadA插入1054 | ISLAY07 |
IBE008 | Cas9 TadA插入1026 | ISLAY08 |
IBE009 | Cas9 TadA插入768 | ISLAY09 |
IBE020 | delta HNH TadA 792 | ISLAY20 |
IBE021 | N末端融合单TadA螺旋截短165终止 | ISLAY21 |
IBE029 | TadA-环状排列突变体116插入1067 | ISLAY29 |
IBE031 | TadA-环状排列突变体136插入1248 | ISLAY31 |
IBE032 | TadA-环状排列突变体136插入1052 | ISLAY32 |
IBE035 | delta 792-872TadA插入 | ISLAY35 |
IBE036 | delta 792-906TadA插入 | ISLAY36 |
IBE043 | TadA-环状排列突变体65插入1246 | ISLAY43 |
IBE044 | TadA插入C末端截短2 791 | ISLAY44 |
异源多肽(例如,脱氨酶)可插入Cas9多肽的结构或功能结构域内。异源多肽(例如,脱氨酶)可插入Cas9多肽的两个结构或功能结构域之间。可以插入异源多肽(例如,脱氨酶)代替Cas9多肽的结构或功能结构域,例如在使所述结构域从Cas9多肽中缺失之后。Cas9多肽的结构或功能结构域可包括例如RuvC I、RuvC II、RuvC III、Rec1、Rec2、PI或HNH。
在一些实施方案中,Cas9多肽缺乏选自以下的一个或多个结构域:RuvC I、RuvCII、RuvC III、Rec1、Rec2、PI或HNH结构域。在一些实施方案中,Cas9多肽缺乏核酸酶结构域。在一些实施方案中,Cas9多肽缺乏HNH结构域。在一些实施方案中,Cas9多肽缺乏HNH结构域的一部分,使得Cas9多肽具有降低或消除的HNH活性。在一些实施方案中,Cas9多肽包含核酸酶结构域的缺失,并且插入脱氨酶以替换核酸酶结构域。在一些实施方案中,使HNH结构域缺失,并且将脱氨酶插入其位置。在一些实施方案中,使一个或多个RuvC结构域缺失,并且将脱氨酶插入其位置。
包含异源多肽的融合蛋白可侧接napDNAbp的N末端和C末端片段。在一些实施方案中,融合蛋白包含侧接Cas9多肽的N末端片段和C末端片段的脱氨酶。N末端片段或C末端片段可结合靶多核苷酸序列。N末端片段的C末端或C末端片段的N末端可包含Cas9多肽的柔性环的一部分。N末端片段的C末端或C末端片段的N末端可包含Cas9多肽的α-螺旋结构的一部分。N末端片段或C末端片段可包含DNA结合结构域。N末端片段或C末端片段可包含RuvC结构域。N末端片段或C末端片段可包含HNH结构域。在一些实施方案中,N末端片段和C末端片段都不包含HNH结构域。
在一些实施方案中,当融合蛋白使靶核碱基脱氨基时,N末端Cas9片段的C末端包含靠近靶核碱基的氨基酸。在一些实施方案中,当融合蛋白使靶核碱基脱氨基时,C末端Cas9片段的N末端包含靠近靶核碱基的氨基酸。不同脱氨酶的插入位置可以不同,以便靶核碱基与N末端Cas9片段的C末端或C末端Cas9片段的N末端中的氨基酸之间具有靠近关系。例如,脱氨酶的插入位置可以在选自以下的氨基酸残基处:按上述Cas9参考序列编号的1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一Cas9多肽中的相应氨基酸残基。
融合蛋白的N末端Cas9片段(即,侧接融合蛋白中的脱氨酶的N末端Cas9片段)可包含Cas9多肽的N末端。融合蛋白的N末端Cas9片段可包含至少约100、200、300、400、500、600、700、800、900、1000、1100、1200或1300个氨基酸的长度。融合蛋白的N末端Cas9片段可包含对应于以下氨基酸残基的序列:按上述Cas9参考序列编号的1-56、1-95、1-200、1-300、1-400、1-500、1-600、1-700、1-718、1-765、1-780、1-906、1-918或1-1100,或另一Cas9多肽中的相应氨基酸残基。N末端Cas9片段可包含与以下氨基酸残基包含至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的序列同一性的序列:按上述Cas9参考序列编号的1-56、1-95、1-200、1-300、1-400、1-500、1-600、1-700、1-718、1-765、1-780、1-906、1-918或1-1100,或另一Cas9多肽中的相应氨基酸残基。
融合蛋白的C末端Cas9片段(即,侧接融合蛋白中的脱氨酶的C末端Cas9片段)可包含Cas9多肽的C末端。融合蛋白的C末端Cas9片段可包含至少约100、200、300、400、500、600、700、800、900、1000、1100、1200或1300个氨基酸的长度。融合蛋白的C末端Cas9片段可包含对应于以下氨基酸残基的序列:按上述Cas9参考序列编号的1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368或56-1368,或另一Cas9多肽中的相应氨基酸残基。N末端Cas9片段可包含与以下氨基酸残基包含至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的序列同一性的序列:按上述Cas9参考序列编号的1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368或56-1368,或另一Cas9多肽中的相应氨基酸残基。
融合蛋白的N末端Cas9片段和C末端Cas9片段合在一起可以不对应于全长天然存在的Cas9多肽序列,例如,如上述Cas9参考序列中所示。
本文所述的融合蛋白可实现靶向的脱氨基,其中在非靶位点(例如,脱靶位点)处的脱氨基减少,如基因组宽的虚假脱氨基减少。本文所述的融合蛋白可实现靶向的脱氨基,其中在非靶位点处的旁观者脱氨基减少。与例如包含与Cas9多肽的N末端或C末端融合的脱氨酶的末端融合蛋白相比,非所需脱氨基或脱靶脱氨基可减少至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或至少99%。与例如包含与Cas9多肽的N末端或C末端融合的脱氨酶的末端融合蛋白相比,非所需脱氨基或脱靶脱氨基可减少至少一倍、至少两倍、至少三倍、至少四倍、至少五倍、至少十倍、至少十五倍、至少二十倍、至少三十倍、至少四十倍、至少五十倍、至少60倍、至少70倍、至少80倍、至少90倍或至少一百倍。
在一些实施方案中,融合蛋白的脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)使R-环范围内不超过两个核碱基脱氨基。在一些实施方案中,融合蛋白的脱氨酶使R-环范围内不超过三个核碱基脱氨基。在一些实施方案中,融合蛋白的脱氨酶使R-环范围内不超过2、3、4、5、6、7、8、9或10个核碱基脱氨基。R-环是三链核酸结构,包括DNA:RNA杂交体、DNA:DNA或RNA:RNA互补结构,并且与单链DNA缔合。如本文所用,当靶多核苷酸与CRISPR复合物或碱基编辑复合物接触时,R-环可形成,其中引导多核苷酸(例如引导RNA)的一部分与靶多核苷酸(例如靶DNA)的一部分杂交并将其替换。在一些实施方案中,R-环包含间隔区序列和靶DNA互补序列的杂交区域。R-环区域的长度可以是约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核碱基对。在一些实施方案中,R-环区域的长度为约20个核碱基对。应当理解的是,如本文所用,R环区域不限于与引导多核苷酸杂交的靶DNA链。例如,R环区域内的靶核碱基的编辑可以是针对包含引导RNA的互补链的DNA链,或者可以是针对作为与引导RNA互补的链的相反链的DNA链。在一些实施方案中,R环的区域中的编辑包括编辑靶DNA序列中的引导RNA的非互补链(原型间隔区链)上的核碱基。
本文所述的融合蛋白可在不同于规范碱基编辑的编辑窗口中实现靶脱氨基。在一些实施方案中,靶核碱基在靶多核苷酸序列中的PAM序列上游约1至约20个碱基处。在一些实施方案中,靶核碱基在靶多核苷酸序列中的PAM序列上游约2至约12个碱基处。在一些实施方案中,靶核碱基距离PAM序列为如下个碱基对或者是PAM序列上游的如下个碱基对:约1至9个碱基对、约2至10个碱基对、约3至11个碱基对、约4至12个碱基对、约5至13个碱基对、约6至14个碱基对、约7至15个碱基对、约8至16个碱基对、约9至17个碱基对、约10至18个碱基对、约11至19个碱基对、约12至20个碱基对、约1至7个碱基对,约2至8个碱基对、约3至9个碱基对、约4至10个碱基对、约5至11个碱基对、约6至12个碱基对、约7至13个碱基对、约8至14个碱基对、约9至15个碱基对、约10至16个碱基对、约11至17个碱基对、约12至18个碱基对、约13至19个碱基对、约14至20个碱基对、约1至5个碱基对、约2至6个碱基对、约3至7个碱基对、约4至8个碱基对、约5至9个碱基对、约6至10个碱基对、约7至11个碱基对、约8至12个碱基对、约9至13个碱基对、约10至14个碱基对、约11至15个碱基对、约12至16个碱基对、约13至17个碱基对、约14至18个碱基对、约15至19个碱基对、约16至20个碱基对、约1至3个碱基对、约2至4个碱基对、约3至5个碱基对、约4至6个碱基对、约5至7个碱基对、约6至8个碱基对、约7至9个碱基对、约8至10个碱基对、约9至11个碱基对、约10至12个碱基对、约11至13个碱基对、约12至14个碱基对、约13至15个碱基对、约14至16个碱基对、约15至17个碱基对、约16至18个碱基对、约17至19个碱基对、约18至20个碱基对。在一些实施方案中,靶核碱基距离PAM序列为如下个碱基对或者是PAM序列上游的如下个碱基对:约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个碱基对。在一些实施方案中,靶核碱基是PAM序列上游的约1、2、3、4、5、6、7、8或9个碱基对。在一些实施方案中,靶核碱基是PAM序列上游的约2、3、4或6个碱基对。
融合蛋白可包含多于一种异源多肽。例如,融合蛋白可另外包含一个或多个UGI结构域和/或一个或多个核定位信号。两个或更多个异源结构域可以串联插入。两个或更多个异源结构域可插入在使得它们不在NapDNAbp中串联的位置处。
融合蛋白可以包含在脱氨酶与napDNAbp多肽之间的接头。接头可以是肽或非肽接头。例如,接头可以是XTEN、(GGGS)n(SEQ ID NO:250)、(GGGGS)n(SEQ ID NO:251)、(G)n、(EAAAK)n(SEQ ID NO:252)、(GGS)n、SGSETPGTSESATPES(SEQ ID NO:253)。在一些实施方案中,融合蛋白包含在N末端Cas9片段与脱氨酶之间的接头。在一些实施方案中,融合蛋白包含在C末端Cas9片段与脱氨酶之间的接头。在一些实施方案中,将napDNAbp的N末端和C末端片段用接头与脱氨酶连接。在一些实施方案中,将N末端和C末端片段在没有接头的情况下与脱氨酶结构域连接。在一些实施方案中,融合蛋白包含在N末端Cas9片段与脱氨酶之间的接头,但不包含在C末端Cas9片段与脱氨酶之间的接头。在一些实施方案中,融合蛋白包含在C末端Cas9片段与脱氨酶之间的接头,但不包含在N末端Cas9片段与脱氨酶之间的接头。
在一些实施方案中,融合蛋白中的napDNAbp是Cas12多肽,例如Cas12b/C2c1,或其片段。Cas12多肽可以是变体Cas12多肽。在其它实施方案中,Cas12多肽的N或C末端片段包含核酸可编程DNA结合结构域或RuvC结构域。在其它实施方案中,融合蛋白含有在Cas12多肽与催化结构域之间的接头。在其它实施方案中,接头的氨基酸序列是GGSGGS(SEQ ID NO:254)或GSSGSETPGTSESATPESSG(SEQ ID NO:255)。在其它实施方案中,接头是刚性接头。在上述方面的其它实施方案中,接头由GGAGGCTCTGGAGGAAGC(SEQ ID NO:256)或GGCTCTTCTGGATCTGAAACACCTGGCACAAGCGAGAGCGCCACCCCTGAGAGCTCTGGC(SEQ ID NO:257)编码。
包含侧接Cas12多肽的N和C末端片段的异源催化结构域的融合蛋白也可用于如本文所述的方法中的碱基编辑。包含Cas12和一个或多个脱氨酶结构域(例如,腺苷脱氨酶)或包含侧接Cas12序列的腺苷脱氨酶结构域的融合蛋白也可用于靶序列的高度特异性和有效的碱基编辑。在一个实施方案中,嵌合Cas12融合蛋白含有插入在Cas12多肽内的异源催化结构域(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)。在一些实施方案中,融合蛋白包含插入在Cas12内的腺苷脱氨酶结构域和胞苷脱氨酶结构域。在一些实施方案中,腺苷脱氨酶融合在Cas12内,且胞苷脱氨酶与C末端融合。在一些实施方案中,腺苷脱氨酶融合在Cas12内,且胞苷脱氨酶与N末端融合。在一些实施方案中,胞苷脱氨酶融合在Cas12内,且腺苷脱氨酶与C末端融合。在一些实施方案中,胞苷脱氨酶融合在Cas12内,且腺苷脱氨酶与N末端融合。具有腺苷脱氨酶和胞苷脱氨酶及Cas12的融合蛋白的示例性结构提供如下:
NH2-[Cas12(腺苷脱氨酶)]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas12(腺苷脱氨酶)]-COOH;
NH2-[Cas12(胞苷脱氨酶)]-[腺苷脱氨酶]-COOH;或
NH2-[腺苷脱氨酶]-[Cas12(胞苷脱氨酶)]-COOH;
在一些实施方案中,上述一般架构中使用的“-”表示存在任选的接头。
在各种实施方案中,催化结构域具有DNA修饰活性(例如,脱氨酶活性),如腺苷脱氨酶活性。在一些实施方案中,腺苷脱氨酶是TadA(例如,TadA*7.10)。在一些实施方案中,TadA是TadA*8。在一些实施方案中,TadA*8融合在Cas12内,且胞苷脱氨酶与C末端融合。在一些实施方案中,TadA*8融合在Cas12内,且胞苷脱氨酶与N末端融合。在一些实施方案中,胞苷脱氨酶融合在Cas12内,且TadA*8与C末端融合。在一些实施方案中,胞苷脱氨酶融合在Cas12内,且TadA*8与N末端融合。具有TadA*8和胞苷脱氨酶及Cas12的融合蛋白的示例性结构提供如下:
N-[Cas12(TadA*8)]-[胞苷脱氨酶]-C;
N-[胞苷脱氨酶]-[Cas12(TadA*8)]-C;
N-[Cas12(胞苷脱氨酶)]-[TadA*8]-C;或
N-[TadA*8]-[Cas12(胞苷脱氨酶)]-C。
在一些实施方案中,上述一般架构中使用的“-”表示存在任选的接头。
在其它实施方案中,融合蛋白含有一个或多个催化结构域。在其它实施方案中,一个或多个催化结构域中的至少一个插入Cas12多肽内,或者在Cas12 N末端或C末端融合。在其它实施方案中,一个或多个催化结构域中的至少一个插入Cas12多肽的环、α螺旋区域、非结构化部分或溶剂可及部分内。在其它实施方案中,Cas12多肽是Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ。在其它实施方案中,Cas12多肽具有与外村尚芽孢杆菌Cas12b、热噬淀粉芽孢杆菌Cas12b、芽孢杆菌属某种V3-13Cas12b或嗜酸脂环酸芽胞杆菌Cas12b(SEQ ID NO:258)至少约85%的氨基酸序列同一性。在其它实施方案中,Cas12多肽具有与外村尚芽孢杆菌Cas12b(SEQ ID NO:259)、热噬淀粉芽孢杆菌Cas12b、芽孢杆菌属某种V3-13 Cas12b或嗜酸脂环酸芽胞杆菌Cas12b至少约90%的氨基酸序列同一性。在其它实施方案中,Cas12多肽具有与外村尚芽孢杆菌Cas12b、热噬淀粉芽孢杆菌Cas12b(SEQ ID NO:260)、芽孢杆菌属某种V3-13 Cas12b(SEQ ID NO:261)或嗜酸脂环酸芽胞杆菌Cas12b至少约95%的氨基酸序列同一性。在其它实施方案中,Cas12多肽含有外村尚芽孢杆菌Cas12b、热噬淀粉芽孢杆菌Cas12b、菌芽孢杆属某种V3-13 Cas12b或嗜酸脂环酸芽胞杆菌Cas12b的片段或基本上由上述片段组成。在若干实施方案中,Cas12多肽含有BvCas12b(V4),其在一些实施方案中被表达为5’mRNA帽---5’UTR---bhCas12b---终止序列---3’UTR---120多聚腺苷酸尾(SEQ ID NO:262-264)。
在其它实施方案中,催化结构域插入在BhCas12b的氨基酸位置153-154、255-256、306-307、980-981、1019-1020、534-535、604-605或344-345或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ的相应氨基酸残基之间。在其它实施方案中,催化结构域插入在BhCas12b的氨基酸P153与S154之间。在其它实施方案中,催化结构域插入在BhCas12b的氨基酸K255与E256之间。在其它实施方案中,催化结构域插入在BhCas12b的氨基酸D980与G981之间。在其它实施方案中,催化结构域插入在BhCas12b的氨基酸K1019与L1020之间。在其它实施方案中,催化结构域插入在BhCas12b的氨基酸F534与P535之间。在其它实施方案中,催化结构域插入在BhCas12b的氨基酸K604与G605之间。在其它实施方案中,催化结构域插入在BhCas12b的氨基酸H344与F345之间。在其它实施方案中,催化结构域插入在BvCas12b的氨基酸位置147与148、248与249、299与300、991与992或1031与1032或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ的相应氨基酸残基之间。在其它实施方案中,催化结构域插入在BvCas12b的氨基酸P147与D148之间。在其它实施方案中,催化结构域插入在BvCas12b的氨基酸G248与G249之间。在其它实施方案中,催化结构域插入在BvCas12b的氨基酸P299与E300之间。在其它实施方案中,催化结构域插入在BvCas12b的氨基酸G991与E992之间。在其它实施方案中,催化结构域插入在BvCas12b的氨基酸K1031与M1032之间。在其它实施方案中,催化结构域插入在AaCas12b的氨基酸位置157与158、258与259、310与311、1008与1009或1044与1045或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ的相应氨基酸残基之间。在其它实施方案中,催化结构域插入在AaCas12b的氨基酸P157与G158之间。在其它实施方案中,催化结构域插入在AaCas12b的氨基酸V258与G259之间。在其它实施方案中,催化结构域插入在AaCas12b的氨基酸D310与P311之间。在其它实施方案中,催化结构域插入在AaCas12b的氨基酸G1008与E1009之间。在其它实施方案中,催化结构域插入在AaCas12b的氨基酸G1044与K1045之间。
在其它实施方案中,融合蛋白含有核定位信号(例如,二分核定位信号)。在其它实施方案中,核定位信号的氨基酸序列是MAPKKKRKVGIHGVPAA(SEQ ID NO:265)。在上述方面的其它实施方案中,核定位信号由以下序列编码:ATGGCCCCAAAGAAGAAGCGGAAGGTCGGTATCCACGGAGTCC CAGCAGCC(SEQ ID NO:266)。在其它实施方案中,Cas12b多肽含有使RuvC结构域的催化活性沉默的突变。在其它实施方案中,Cas12b多肽含有D574A、D829A和/或D952A突变。在其它实施方案中,融合蛋白进一步含有标签(例如,流感血凝素标签)。
在一些实施方案中,融合蛋白包含具有内部融合的核碱基编辑结构域(例如,脱氨酶结构域例如腺苷脱氨酶结构域的全部或一部分)的napDNAbp结构域(例如,Cas12来源的结构域)。在一些实施方案中,napDNAbp是Cas12b。在一些实施方案中,碱基编辑器包含具有插入在下表5中提供的基因座处的内部融合的TadA*8结构域的BhCas12b结构域。
表5:Cas12b蛋白中的插入基因座
/>
作为非限制性示例,腺苷脱氨酶(例如,TadA*8.13)可以被插入到BhCas12b中以产生有效编辑核酸序列的融合蛋白(例如,TadA*8.13-BhCas12b)。
在一些实施方案中,本文所述的碱基编辑系统是具有插入到Cas9中的TadA的ABE。具有插入到Cas9中的TadA的相关ABE的多肽序列在所附序列表中提供为SEQ ID NO:267-312。
在一些实施方案中,产生腺苷碱基编辑器以将TadA或其变体在鉴定的位置处插入到Cas9多肽中。
国际PCT申请第PCT/US2020/016285号以及美国临时申请第62/852,228和62/852,224号中描述了示例但非限制性的融合蛋白,上述申请的内容以全文引用的方式并入本文。
A到G编辑
在一些实施方案中,本文所述的碱基编辑器包含腺苷脱氨酶结构域。碱基编辑器的这种腺苷脱氨酶结构域可促进将腺嘌呤(A)核碱基编辑为鸟嘌呤(G)核碱基,方式是通过使A脱氨基以形成表现出G的碱基配对特性的肌苷(I)。腺苷脱氨酶能够使脱氧核糖核酸(DNA)中的脱氧腺苷残基的腺嘌呤脱氨基(即,移除胺基团)。在一些实施方案中,A到G碱基编辑器进一步包含肌苷碱基切除修复的抑制剂,例如尿嘧啶糖基化酶抑制剂(UGI)结构域或催化非活性肌苷特异性核酸酶。不希望受任何特定理论的束缚,UGI结构域或催化非活性肌苷特异性核酸酶可抑制或阻止脱氨基的腺苷残基(例如,肌苷)的碱基切除修复,这可提高碱基编辑器的活性或效率。
包含腺苷脱氨酶的碱基编辑器可作用于任何多核苷酸,包括DNA、RNA和DNA-RNA杂交体。在某些实施方案中,包含腺苷脱氨酶的碱基编辑器可以使包含RNA的多核苷酸的靶A脱氨基。例如,碱基编辑器可包含能够使RNA多核苷酸和/或DNA-RNA杂交多核苷酸的靶A脱氨基的腺苷脱氨酶结构域。在一个实施方案中,并入到碱基编辑器中的腺苷脱氨酶包含作用于RNA (ADAR,例如ADAR1或ADAR2)或tRNA(ADAT)的腺苷脱氨酶的全部或一部分。包含腺苷脱氨酶结构域的碱基编辑器也能够使DNA多核苷酸的A核碱基脱氨基。在一实施方案中,碱基编辑器的腺苷脱氨酶结构域包含ADAT的全部或一部分,所述ADAT包含一个或多个允许ADAT使DNA中的靶A脱氨基的突变。例如,碱基编辑器可包含来自大肠杆菌的ADAT(EcTadA)的全部或一部分,其包含以下突变中的一个或多个:D108N、A106V、D147Y、E155V、L84F、H123Y、I156F,或另一腺苷脱氨酶中的相应突变。示例性ADAT同源物多肽序列在序列表中提供为SEQ ID NO:4和313-319。
腺苷脱氨酶可来源于任意合适的生物体(例如,大肠杆菌)。在一些实施方案中,腺苷脱氨酶来自原核生物。在一些实施方案中,腺苷脱氨酶来自细菌。在一些实施方案中,腺苷脱氨酶来自大肠杆菌、金黄色葡萄球菌、伤寒沙门氏菌(Salmonella typhi)、腐败希瓦菌(Shewanella putrefaciens)、流感嗜血杆菌(Haemophilus influenzae)、新月柄杆菌(Caulobacter crescentus)或枯草芽孢杆菌(Bacillus subtilis)。在一些实施方案中,腺苷脱氨酶来自大肠杆菌。在一些实施方案中,腺嘌呤脱氨酶是天然存在的腺苷脱氨酶,其包括对应于本文提供的任何突变(例如,ecTadA中的突变)的一个或多个突变。任何同源蛋白质中的相应残基可通过例如序列比对和同源残基的确定来鉴定。任何天然存在的腺苷脱氨酶(例如,与ecTadA具有同源性)中对应于本文所述的任何突变(例如,在ecTadA中鉴定的任何突变)的突变可相应地产生。
在一些实施方案中,腺苷脱氨酶包含与本文提供的任何腺苷脱氨酶中所示的任一氨基酸序列具有至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性的氨基酸序列。应当了解的是,本文提供的腺苷脱氨酶可包括一个或多个突变(例如,本文提供的任何突变)。本公开提供了具有一定百分比同一性加上本文所述的任何突变或其组合的任何脱氨酶结构域。在一些实施方案中,腺苷脱氨酶包含与参考序列或本文提供的任何腺苷脱氨酶相比具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变的氨基酸序列。在一些实施方案中,腺苷脱氨酶包含与本领域中已知或本文所述的任一氨基酸序列相比具有至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少110个、至少120个、至少130个、至少140个、至少150个、至少160个或至少170个相同的连续氨基酸残基的氨基酸序列。
应当了解的是,本文提供的任何突变(例如,基于TadA参考序列)可以被引入到其它腺苷脱氨酶中,如大肠杆菌TadA(ecTadA)、金黄色葡萄球菌TadA(saTadA)或其它腺苷脱氨酶(例如,细菌腺苷脱氨酶)。对于技术人员显而易见的是,可以类似地比对另外的脱氨酶以鉴定可如本文所提供的那样突变的同源氨基酸残基。因此,在TadA参考序列中鉴定的任何突变都可以在具有同源氨基酸残基的其它腺苷脱氨酶(例如,ecTada)中产生。还应当了解的是,本文提供的任何突变可以在TadA参考序列或另一腺苷脱氨酶中单独或任意组合地产生。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D108X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D108G、D108N、D108V、D108A或D108Y突变或另一腺苷脱氨酶中的相应突变。然而应当了解的是,可以类似地比对另外的脱氨酶以鉴定可如本文所提供的那样突变的同源氨基酸残基。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E155X突变或另一腺苷脱氨酶中的相应突变,其中X的存在表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E155D、E155G或E155V突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D147X突变或另一腺苷脱氨酶中的相应突变,其中X的存在表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D147Y突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106X、E155X或D147X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含E155D、E155G或E155V突变。在一些实施方案中,腺苷脱氨酶包含D147Y。
还应当了解的是,本文提供的任何突变可以在ecTadA或另一腺苷脱氨酶中单独或任意组合地产生。例如,腺苷脱氨酶可含有TadA参考序列中的D108N、A106V、E155V和/或D147Y突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的以下突变组(突变组由“;”隔开)或另一腺苷脱氨酶中的相应突变:D108N和A106V;D108N和E155V;D108N和D147Y;A106V和E155V;A106V和D147Y;E155V和D147Y;D108N、A106V和E155V;D108N、A106V和D147Y;D108N、E155V和D147Y;A106V、E155V和D147Y;以及D108N、A106V、E155V和D147Y。然而应当了解的是,本文提供的相应突变的任意组合可以在腺苷脱氨酶(例如,ecTadA)中产生。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列(例如,TadA*7.10)中的突变或另一腺苷脱氨酶中的相应突变的组合:V82G+Y147T+Q154S;I76Y+V82G+Y147T+Q154S;L36H+V82G+Y147T+Q154S+N157K;V82G+Y147D+F149Y+Q154S+D167N;L36H+V82G+Y147D+F149Y+Q154S+N157K+D167N;L36H+I76Y+V82G+Y147T+Q154S+N157K;I76Y+V82G+Y147D+F149Y+Q154S+D167N;或L36H+I76Y+V82G+Y147D+F149Y+Q154S+N157K+D167N。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8X、T17X、L18X、W23X、L34X、W45X、R51X、A56X、E59X、E85X、M94X、I95X、V102X、F104X、A106X、R107X、D108X、K110X、M118X、N127X、A138X、F149X、M151X、R153X、Q154X、I156X和/或K157X突变中的一者或多者或另一腺苷脱氨酶中的一个或多个相应突变,其中X的存在表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、T17S、L18E、W23L、L34S、W45L、R51H、A56E或A56S、E59G、E85K或E85G、M94L、I95L、V102A、F104L、A106V、R107C或R107H或R107P、D108G或D108N或D108V或D108A或D108Y、K110I、M118K、N127S、A138V、F149Y、M151V、R153C、Q154L、I156D和/或K157R突变中的一者或多者或另一腺苷脱氨酶中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8X、D108X和/或N127X突变中的一者或多者或另一腺苷脱氨酶中的一个或多个相应突变,其中X表示任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N和/或N127S突变中的一者或多者或另一腺苷脱氨酶中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8X、R26X、M61X、L68X、M70X、A106X、D108X、A109X、N127X、D147X、R152X、Q154X、E155X、K161X、Q163X和/或T166X突变中的一者或多者或另一腺苷脱氨酶中的一个或多个相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、R26W、M61I、L68Q、M70V、A106T、D108N、A109T、N127S、D147Y、R152C、Q154H or Q154R、E155G or E155V or E155D、K161Q、Q163H和/或T166P突变中的一者或多者或另一腺苷脱氨酶中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自H8X、D108X、N127X、D147X、R152X和Q154X的一个、两个、三个、四个、五个或六个突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变或多个突变,其中X表示存在除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自H8X、M61X、M70X、D108X、N127X、Q154X、E155X和Q163X的一个、两个、三个、四个、五个、六个、七个或八个突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变或多个突变,其中X表示存在除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自H8X、D108X、N127X、E155X和T166X的一个、两个、三个、四个或五个突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变或多个突变,其中X表示存在除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶包含选自H8X、A106X和D108X的一个、两个、三个、四个、五个或六个突变或另一腺苷脱氨酶中的相应突变或多个突变,其中X表示存在除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含选自H8X、R26X、L68X、D108X、N127X、D147X和E155X的一个、两个、三个、四个、五个、六个、七个或八个突变或另一腺苷脱氨酶中的相应突变或多个突变,其中X表示存在除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自H8X、R126X、L68X、D108X、N127X、D147X和E155X的一个、两个、三个、四个、五个、六个或七个突变或另一腺苷脱氨酶中的相应突变或多个突变,其中X表示存在除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自H8X、D108X、A109X、N127X和E155X的一个、两个、三个、四个或五个突变或另一腺苷脱氨酶中的相应突变或多个突变,其中X表示存在除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自H8Y、D108N、N127S、D147Y、R152C和Q154H的一个、两个、三个、四个、五个或六个突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变或多个突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自H8Y、M61I、M70V、D108N、N127S、Q154R、E155G和Q163H的一个、两个、三个、四个、五个、六个、七个或八个突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变或多个突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自H8Y、D108N、N127S、E155V和T166P的一个、两个、三个、四个或五个突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变或多个突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自H8Y、A106T、D108N、N127S、E155D和K161Q的一个、两个、三个、四个、五个或六个突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变或多个突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自H8Y、R26W、L68Q、D108N、N127S、D147Y和E155V的一个、两个、三个、四个、五个、六个、七个或八个突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变或多个突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自H8Y、D108N、A109T、N127S和E155G的一个、两个、三个、四个或五个突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变或多个突变。
在一些实施方案中,腺苷脱氨酶包含一个或多个或另一腺苷脱氨酶中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D108N、D108G或D108V突变或另一腺苷脱氨酶中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V和D108N突变或另一腺苷脱氨酶中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R107C和D108N突变或另一腺苷脱氨酶中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N、N127S、D147Y和Q154H突变或另一腺苷脱氨酶中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N、N127S、D147Y和E155V突变或另一腺苷脱氨酶中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D108N、D147Y和E155V突变或另一腺苷脱氨酶中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N和N127S突变或另一腺苷脱氨酶中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V、D108N、D147Y和E155V突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S2X、H8X、I49X、L84X、H123X、N127X、I156X和/或K160X突变中的一者或多者或另一腺苷脱氨酶中的一个或多个相应突变,其中X的存在表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S2A、H8Y、I49F、L84F、H123Y、N127S、I156F和/或K160S突变中的一者或多者或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含L84X突变腺苷脱氨酶,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的L84F突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H123X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H123Y突变或另一腺苷脱氨酶中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的I156X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的I156F突变或另一腺苷脱氨酶中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自L84X、A106X、D108X、H123X、D147X、E155X和I156X的一个、两个、三个、四个、五个、六个或七个突变或另一腺苷脱氨酶中的相应突变或多个突变,其中X表示存在除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自S2X、I49X、A106X、D108X、D147X和E155X的一个、两个、三个、四个、五个或六个突变或另一腺苷脱氨酶中的相应突变或多个突变,其中X表示存在除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自H8X、A106X、D108X、N127X和K160X的一个、两个、三个、四个或五个突变或另一腺苷脱氨酶中的相应突变或多个突变,其中X表示存在除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自L84F、A106V、D108N、H123Y、D147Y、E155V和I156F的一个、两个、三个、四个、五个、六个或七个突变或另一腺苷脱氨酶中的相应突变或多个突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自S2A、I49F、A106V、D108N、D147Y和E155V的一个、两个、三个、四个、五个或六个突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中选自H8Y、A106T、D108N、N127S和K160S的一个、两个、三个、四个或五个突变或另一腺苷脱氨酶中的相应突变或多个突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E25X、R26X、R107X、A142X和/或A143X突变中的一者或多者或另一腺苷脱氨酶中的一个或多个相应突变,其中X的存在表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E25M、E25D、E25A、E25R、E25V、E25S、E25Y、R26G、R26N、R26Q、R26C、R26L、R26K、R107P、R107K、R107A、R107N、R107W、R107H、R107S、A142N、A142D、A142G、A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变中的一者或多者或另一腺苷脱氨酶中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含对应于TadA参考序列的本文所述的突变中的一者或多者或另一腺苷脱氨酶中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E25X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E25M、E25D、E25A、E25R、E25V、E25S或E25Y突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R26X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R26G、R26N、R26Q、R26C、R26L或R26K突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R107X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R107P、R107K、R107A、R107N、R107W、R107H或R107S突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142N、A142D、A142G突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A143X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H36X、N37X、P48X、I49X、R51X、M70X、N72X、D77X、E134X、S146X、Q154X、K157X和/或K161X突变中的一者或多者或另一腺苷脱氨酶中的一个或多个相应突变,其中X的存在表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H36L、N37T、N37S、P48T、P48L、I49V、R51H、R51L、M70L、N72S、D77G、E134G、S146R、S146C、Q154H、K157N和/或K161T突变中的一者或多者或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H36X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H36L突变或另一腺苷脱氨酶中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的N37X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的N37T或N37S突变或另一腺苷脱氨酶中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48T或P48L突变或另一腺苷脱氨酶中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R51X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R51H或R51L突变或另一腺苷脱氨酶中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S146X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S146R或S146C突变或另一腺苷脱氨酶中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的K157X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的K157N突变或另一腺苷脱氨酶中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48S、P48T或P48A突变或另一腺苷脱氨酶中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142N突变或另一腺苷脱氨酶中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的W23X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的W23R或W23L突变或另一腺苷脱氨酶中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R152X突变或另一腺苷脱氨酶中的相应突变,其中X表示除了野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R152P或R52H突变或另一腺苷脱氨酶中的相应突变。
在一个实施方案中,腺苷脱氨酶可包含突变H36L、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、I156F和K157N。在一些实施方案中,腺苷脱氨酶相对于TadA参考序列包含突变的以下组合,其中组合中的每个突变由“_”隔开,并且突变的每个组合在括号之间:
(A106V_D108N)、
(R107C_D108N)、
(H8Y_D108N_N127S_D147Y_Q154H)、
(H8Y_D108N_N127S_D147Y_E155V)、
(D108N_D147Y_E155V)、
(H8Y_D108N_N127S)、
(H8Y_D108N_N127S_D147Y_Q154H)、
(A106V_D108N_D147Y_E155V)、
(D108Q_D147Y_E155V)、
(D108M_D147Y_E155V)、
(D108L_D147Y_E155V)、
(D108K_D147Y_E155V)、
(D108I_D147Y_E155V)、
(D108F_D147Y_E155V)、
(A106V_D108N_D147Y)、
(A106V_D108M_D147Y_E155V)、
(E59A_A106V_D108N_D147Y_E155V)、
(E59A催化死亡_A106V_D108N_D147Y_E155V)、(L84F_A106V_D108N_H123Y_D147Y_E155V_I156Y)、(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、(D103A_D104N)、
(G22P_D103A_D104N)、
(D103A_D104N_S138A)、
(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)、
(E25G_R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)、
(E25D_R26G_L84F_A106V_R107K_D108N_H123Y_A142N_A143G_D147Y_E155V_I156F)、(R26Q_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)、
(E25M_R26G_L84F_A106V_R107P_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)、(R26C_L84F_A106V_R107H_D108N_H123Y_A142N_D147Y_E155V_I156F)、(L84F_A106V_D108N_H123Y_A142N_A143L_D147Y_E155V_I156F)、
(R26G_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)、
(E25A_R26G_L84F_A106V_R107N_D108N_H123Y_A142N_A143E_D147Y_E155V_I156F)、(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)、
(A106V_D108N_A142N_D147Y_E155V)、
(R26G_A106V_D108N_A142N_D147Y_E155V)、
(E25D_R26G_A106V_R107K_D108N_A142N_A143G_D147Y_E155V)、(R26G_A106V_D108N_R107H_A142N_A143D_D147Y_E155V)、
(E25D_R26G_A106V_D108N_A142N_D147Y_E155V)、
(A106V_R107K_D108N_A142N_D147Y_E155V)、
(A106V_D108N_A142N_A143G_D147Y_E155V)、
(A106V_D108N_A142N_A143L_D147Y_E155V)、
(H36L_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、
(N37T_P48T_M70L_L84F_A106V_D108N_H123Y_D147Y_I49V_E155V_I156F)、
(N37S_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K161T)、
(H36L_L84F_A106V_D108N_H123Y_D147Y_Q154H_E155V_I156F)、
(N72S_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F)、
(H36L_P48L_L84F_A106V_D108N_H123Y_E134G_D147Y_E155V_I156F)、
(H36L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N)(H36L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F)、
(L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T)、
(N37S_R51H_D77G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(R51L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N)、
(D24G_Q71R_L84F_H96L_A106V_D108N_H123Y_D147Y_E155V_I156F_K160E)、
(H36L_G67V_L84F_A106V_D108N_H123Y_S146T_D147Y_E155V_I156F)、
(Q71L_L84F_A106V_D108N_H123Y_L137M_A143E_D147Y_E155V_I156F)、
(E25G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L)、
(L84F_A91T_F104I_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(N72D_L84F_A106V_D108N_H123Y_G125A_D147Y_E155V_I156F)、
(P48S_L84F_S97C_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(W23G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(D24G_P48L_Q71R_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L)、
(L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)、
(H36L_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N)、(N37S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_K161T)、
(L84F_A106V_D108N_D147Y_E155V_I156F)、
(R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K161T)、
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K161T)、
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E_K161T)、
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E)、(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(R74A_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(L84F_R98Q_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(L84F_A106V_D108N_H123Y_R129Q_D147Y_E155V_I156F)、
(P48S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)、
(P48S_A142N)、
(P48T_I49V_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_L157N)、
(P48T_I49V_A142N)、
(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、
(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N)、
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N)、(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F_K157N)、
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T)、
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152H_E155V_I156F_K157N)、
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)、
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)、
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_E155V_I156F_K157N)、
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_R152P_E155V_I156F_K157N)、
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T)、
(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)、(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_R152P_E155 V_I156F_K157N)。
在一些实施方案中,TadA脱氨酶是TadA变体。在一些实施方案中,TadA变体是TadA*7.10。在特定的实施方案中,融合蛋白包含单个TadA*7.10结构域(例如,作为单体提供)。在其它实施方案中,融合蛋白包含能够形成异二聚体的TadA*7.10和TadA(wt)。在一个实施方案中,本发明的融合蛋白包含与TadA*7.10连接的野生型TadA,TadA*7.10与Cas9切口酶连接。
在一些实施方案中,TadA*7.10包含至少一个改变。在一些实施方案中,腺苷脱氨酶包含以下序列中的改变:
TadA*7.10
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:4)
在一些实施方案中,TadA*7.10包含氨基酸82和/或166处的改变。在特定的实施方案中,TadA*7.10包含以下改变中的一者或多者:Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R。在其它实施方案中,TadA*7.10的变体包含选自以下组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。
在一些实施方案中,TadA*7.10的变体包含选自L36H、I76Y、V82G、Y147T、Y147D、F149Y、Q154S、N157K和/或D167N的改变中的一者或多者。在一些实施方案中,TadA*7.10的变体包含V82G、Y147T/D、Q154S以及L36H、I76Y、F149Y、N157K和D167N中的一者或多者。在其它实施方案中,TadA*7.10的变体包含选自以下的组的改变的组合:V82G+Y147T+Q154S;I76Y+V82G+Y147T+Q154S;L36H+V82G+Y147T+Q154S+N157K;V82G+Y147D+F149Y+Q154S+D167N;L36H+V82G+Y147D+F149Y+Q154S+N157K+D167N;L36H+I76Y+V82G+Y147T+Q154S+N157K;I76Y+V82G+Y147D+F149Y+Q154S+D167N;L36H+I76Y+V82G+Y147D+F149Y+Q154S+N157K+D167N。
在一些实施方案中,腺苷脱氨酶变体(例如,TadA*8)包含缺失。在一些实施方案中,腺苷脱氨酶变体包含C末端的缺失。在特定的实施方案中,相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变,腺苷脱氨酶变体包含始于残基149、150、151、152、153、154、155、156和157的C末端的缺失。
在其它实施方案中,腺苷脱氨酶变体(例如,TadA*8)是相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含以下改变中的一者或多者的单体:Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R。在其它实施方案中,腺苷脱氨酶变体(TadA*8)是相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含选自以下的组的改变的组合的单体:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。
在其它实施方案中,腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如,TadA*8)的同二聚体,每个腺苷脱氨酶结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变具有以下改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R中的一者或多者。在其它实施方案中,腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如,TadA*8)的同二聚体,每个腺苷脱氨酶结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变具有选自以下的组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。
在其它实施方案中,本公开的碱基编辑器包含腺苷脱氨酶变体(例如,TadA*8)单体,所述单体相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含以下改变中的一者或多者:R26C、V88A、A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和/或D167N。在其它实施方案中,腺苷脱氨酶变体(TadA*8)单体相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含选自以下的组的改变的组合:R26C+A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N;V88A+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;R26C+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;V88A+T111R+D119N+F149Y;和A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N。
在一些实施方案中,腺苷脱氨酶变体(例如,MSP828)是相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含以下改变L36H、I76Y、V82G、Y147T、Y147D、F149Y、Q154S、N157K和/或D167N中的一者或多者的单体。在一些实施方案中,腺苷脱氨酶变体(例如,MSP828)是相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含V82G、Y147T/D、Q154S以及L36H、I76Y、F149Y、N157K和D167N中的一者或多者的单体。在其它实施方案中,腺苷脱氨酶变体(TadA变体)是相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含选自以下的组的改变的组合的单体:V82G+Y147T+Q154S;I76Y+V82G+Y147T+Q154S;L36H+V82G+Y147T+Q154S+N157K;V82G+Y147D+F149Y+Q154S+D167N;L36H+V82G+Y147D+F149Y+Q154S+N157K+D167N;L36H+I76Y+V82G+Y147T+Q154S+N157K;I76Y+V82G+Y147D+F149Y+Q154S+D167N;L36H+I76Y+V82G+Y147D+F149Y+Q154S+N157K+D167N。
在其它实施方案中,腺苷脱氨酶变体是野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如,TadA*8)的异二聚体,所述腺苷脱氨酶变体结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含以下改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R中的一者或多者。在其它实施方案中,腺苷脱氨酶变体是野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如,TadA*8)的异二聚体,所述腺苷脱氨酶变体结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含选自以下的组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。
在其它实施方案中,本公开的碱基编辑器包含腺苷脱氨酶变体(例如,TadA*8)同二聚体,所述同二聚体包含两个腺苷脱氨酶结构域(例如,TadA*8),每个腺苷脱氨酶结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变具有以下改变R26C、V88A、A109S,T111R、D119N、H122N、Y147D、F149Y、T166I和/或D167N中的一者或多者。在其它实施方案中,腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如,TadA*8)的同二聚体,每个腺苷脱氨酶结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变具有选自以下的组的改变的组合:R26C+A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N;V88A+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;R26C+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;V88A+T111R+D119N+F149Y;和A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N。
在一些实施方案中,腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如,TadA*7.10)的同二聚体,每个腺苷脱氨酶结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变具有以下改变L36H、I76Y、V82G、Y147T、Y147D、F149Y、Q154S、N157K和/或D167N中的一者或多者。在一些实施方案中,腺苷脱氨酶变体是包含两个腺苷脱氨酶变体结构域(例如,MSP828)的同二聚体,每个腺苷脱氨酶变体结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变具有以下改变V82G、Y147T/D、Q154S以及L36H、I76Y、F149Y、N157K和D167N中的一者或多者。在其它实施方案中,腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如,TadA*7.10)的同二聚体,每个腺苷脱氨酶结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变具有选自以下的组的改变的组合:V82G+Y147T+Q154S;I76Y+V82G+Y147T+Q154S;L36H+V82G+Y147T+Q154S+N157K;V82G+Y147D+F149Y+Q154S+D167N;L36H+V82G+Y147D+F149Y+Q154S+N157K+D167N;L36H+I76Y+V82G+Y147T+Q154S+N157K;I76Y+V82G+Y147D+F149Y+Q154S+D167N;L36H+I76Y+V82G+Y147D+F149Y+Q154S+N157K+D167N。
在其它实施方案中,腺苷脱氨酶变体是TadA*7.10结构域和相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含以下改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R中的一者或多者的腺苷脱氨酶变体结构域(例如,TadA*8)的异二聚体。在其它实施方案中,腺苷脱氨酶变体是TadA*7.10结构域和腺苷脱氨酶变体结构域(例如,TadA*8)的异二聚体,所述腺苷脱氨酶变体结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含选自以下的组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。
在其它实施方案中,碱基编辑器包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如,TadA*8)的异二聚体,所述腺苷脱氨酶变体结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含以下改变R26C、V88A、A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和/或D167N中的一者或多者。在其它实施方案中,碱基编辑器包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如,TadA*8)的异二聚体,所述腺苷脱氨酶变体结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含选自以下的组的改变的组合:R26C+A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N;V88A+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;R26C+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;V88A+T111R+D119N+F149Y;和A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N。
在其它实施方案中,腺苷脱氨酶变体是野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如,TadA*7.10)的异二聚体,所述腺苷脱氨酶变体结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含以下改变L36H、I76Y、V82G、Y147T、Y147D、F149Y、Q154S、N157K和/或D167N中的一者或多者。在一些实施方案中,腺苷脱氨酶变体是包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如,MSP828)的异二聚体,所述腺苷脱氨酶变体结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变具有以下改变V82G、Y147T/D、Q154S以及L36H、I76Y、F149Y、N157K和D167N中的一者或多者。在其它实施方案中,腺苷脱氨酶变体是野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如,TadA*7.10)的异二聚体,所述腺苷脱氨酶变体结构域对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含选自以下的组的改变的组合:V82G+Y147T+Q154S;I76Y+V82G+Y147T+Q154S;L36H+V82G+Y147T+Q154S+N157K;V82G+Y147D+F149Y+Q154S+D167N;L36H+V82G+Y147D+F149Y+Q154S+N157K+D167N;L36H+I76Y+V82G+Y147T+Q154S+N157K;I76Y+V82G+Y147D+F149Y+Q154S+D167N;L36H+I76Y+V82G+Y147D+F149Y+Q154S+N157K+D167N。
在其它实施方案中,腺苷脱氨酶变体是TadA*7.10结构域和相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含以下改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R中的一者或多者的腺苷脱氨酶变体结构域(例如,TadA*8)的异二聚体。在其它实施方案中,腺苷脱氨酶变体是TadA*7.10结构域和腺苷脱氨酶变体结构域(例如,TadA*8)的异二聚体,所述腺苷脱氨酶变体结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含选自以下的组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。
在特定的实施方案中,腺苷脱氨酶异二聚体包含TadA*8结构域和腺苷脱氨酶结构域,所述腺苷脱氨酶结构域选自金黄色葡萄球菌(S.aureus)TadA、枯草芽孢杆菌(B.subtilis)TadA、鼠伤寒沙门氏菌(S.typhimurium)TadA、腐败希瓦菌(S.putrefaciens)TadA、流感嗜血杆菌F3031(H.influenzae)TadA、新月柄杆菌(C.crescentus)TadA、硫还原地杆菌(G.sulfurreducens)TadA或TadA*7.10。
在一些实施方案中,腺苷脱氨酶是TadA*8。在一个实施方案中,腺苷脱氨酶是包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由以下序列或其具有腺苷脱氨酶活性的片段组成的TadA*8:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:320)
在一些实施方案中,TadA*8被截短。在一些实施方案中,截短的TadA*8相对于全长TadA*8缺失1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个N末端氨基酸残基。在一些实施方案中,截短的TadA*8相对于全长TadA*8缺失1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个C末端氨基酸残基。在一些实施方案中,腺苷脱氨酶变体是全长TadA*8。
在一些实施方案中,TadA*8是TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23或TadA*8.24。
在其它实施方案中,本公开的碱基编辑器包含腺苷脱氨酶变体(例如,TadA*8)单体,所述单体相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含以下改变中的一者或多者:R26C、V88A、A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和/或D167N。在其它实施方案中,腺苷脱氨酶变体(TadA*8)单体相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含选自以下的组的改变的组合:R26C+A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N;V88A+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;R26C+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;V88A+T111R+D119N+F149Y;和A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N。
在其它实施方案中,碱基编辑器包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如,TadA*8)的异二聚体,所述腺苷脱氨酶变体结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含以下改变R26C、V88A、A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和/或D167N中的一者或多者。在其它实施方案中,碱基编辑器包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如,TadA*8)的异二聚体,所述腺苷脱氨酶变体结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含选自以下的组的改变的组合:R26C+A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N;V88A+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;R26C+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;V88A+T111R+D119N+F149Y;和A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N。
在其它实施方案中,碱基编辑器包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如,TadA*8)的异二聚体,所述腺苷脱氨酶变体结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含以下改变R26C、V88A、A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和/或D167N中的一者或多者。在其它实施方案中,碱基编辑器包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如,TadA*8)的异二聚体,所述腺苷脱氨酶变体结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含选自以下的组的改变的组合:R26C+A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N;V88A+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;R26C+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;V88A+T111R+D119N+F149Y;和A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N。
在其它实施方案中,腺苷脱氨酶变体是TadA*7.10结构域和腺苷脱氨酶变体结构域(例如,TadA*7.10)的异二聚体,所述腺苷脱氨酶变体结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变包含以下改变L36H、I76Y、V82G、Y147T、Y147D、F149Y、Q154S、N157K和/或D167N中的一者或多者。在一些实施方案中,腺苷脱氨酶变体是包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如,MSP828)的异二聚体,所述腺苷脱氨酶变体结构域相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变具有以下改变V82G、Y147T/D、Q154S以及L36H、I76Y、F149Y、N157K和D167N中的一者或多者。在其它实施方案中,腺苷脱氨酶变体是TadA*7.10结构域和腺苷脱氨酶变体结构域(例如,TadA*7.10)的异二聚体,所述腺苷脱氨酶变体结构域包含选自以下的组的改变的组合:V82G+Y147T+Q154S;I76Y+V82G+Y147T+Q154S;L36H+V82G+Y147T+Q154S+N157K;V82G+Y147D+F149Y+Q154S+D167N;L36H+V82G+Y147D+F149Y+Q154S+N157K+D167N;L36H+I76Y+V82G+Y147T+Q154S+N157K;I76Y+V82G+Y147D+F149Y+Q154S+D167N;L36H+I76Y+V82G+Y147D+F149Y+Q154S+N157K+D167N。
在一些实施方案中,TadA*8是如表6中所示的变体。表6显示了TadA氨基酸序列中的某些氨基酸位置编号和在TadA-7.10腺苷脱氨酶中的那些位置存在的氨基酸。表6还显示了在噬菌体辅助非连续进化(PANCE)和噬菌体辅助连续进化(PACE)之后TadA变体相对于TadA-7.10的氨基酸变化,如M.Richter等人,2020,Nature Biotechnology,doi.org/10.1038/s41587-020-0453-z中所述,该文献的全部内容以引用的方式并入本文。在一些实施方案中,TadA*8是TadA*8a、TadA*8b、TadA*8c、TadA*8d或TadA*8e。在一些实施方案中,TadA*8是TadA*8e。
表6.选择TadA*8变体
在一些实施方案中,TadA变体是如表6.1中所示的变体。表6.1显示了TadA氨基酸序列中的某些氨基酸位置编号和在TadA*7.10腺苷脱氨酶中的那些位置存在的氨基酸。在一些实施方案中,TadA变体是MSP605、MSP680、MSP823、MSP824、MSP825、MSP827、MSP828或MSP829。在一些实施方案中,TadA变体是MSP828。在一些实施方案中,TadA变体是MSP829。
表6.1.TadA变体
在一个实施方案中,本发明的融合蛋白包含与连接于Cas9切口酶的本文所述的腺苷脱氨酶变体(例如,TadA*8)连接的野生型TadA。在特定的实施方案中,融合蛋白包含单个TadA*8结构域(例如,作为单体提供)。在其它实施方案中,融合蛋白包含能够形成异二聚体的TadA*8和TadA(wt)。
在一些实施方案中,腺苷脱氨酶包含与本文提供的任何腺苷脱氨酶中所示的任一氨基酸序列具有至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性的氨基酸序列。应当了解的是,本文提供的腺苷脱氨酶可包括一个或多个突变(例如,本文提供的任何突变)。本公开提供了具有一定百分比同一性加上本文所述的任何突变或其组合的任何脱氨酶结构域。在一些实施方案中,腺苷脱氨酶包含与参考序列或本文提供的任何腺苷脱氨酶相比具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变的氨基酸序列。在一些实施方案中,腺苷脱氨酶包含与本领域中已知或本文所述的任一氨基酸序列相比具有至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少110个、至少120个、至少130个、至少140个、至少150个、至少160个或至少170个相同的连续氨基酸残基的氨基酸序列。
在特定的实施方案中,TadA*8包含在以粗体显示的任何以下位置处的一个或多个突变。在其它实施方案中,TadA*8包含在加下划线显示的任何位置处的一个或多个突变:
例如,相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变,TadA*8单独或与以下Y147T、Y147R、Q154S、Y123H和/或Q154R中的任何一者或多者组合地包含在氨基酸位置82和/或166处的改变(例如,V82S、T166R)。在特定的实施方案中,相对于TadA*7.10、TadA参考序列或另一TadA中的相应突变,改变的组合选自:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。
在一些实施方案中,TadA*8被截短。在一些实施方案中,截短的TadA*8相对于全长TadA*8缺失1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个N末端氨基酸残基。在一些实施方案中,截短的TadA*8相对于全长TadA*8缺失1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个C末端氨基酸残基。在一些实施方案中,腺苷脱氨酶变体是全长TadA*8。
在一个实施方案中,本发明的融合蛋白包含与连接于Cas9切口酶的本文所述的腺苷脱氨酶变体(例如,TadA*8)连接的野生型TadA。在特定的实施方案中,融合蛋白包含单个TadA*8结构域(例如,作为单体提供)。在其它实施方案中,碱基编辑器包含能够形成异二聚体的TadA*8和TadA(wt)。
在特定的实施方案中,融合蛋白包含单个(例如,作为单体提供)TadA*8。在一些实施方案中,TadA*8与Cas9切口酶连接。在一些实施方案中,本发明的融合蛋白包含与TadA*8连接的野生型TadA(TadA(wt))的异二聚体。在其它实施方案中,本发明的融合蛋白包含与TadA*8连接的TadA*7.10的异二聚体。在一些实施方案中,碱基编辑器是包含TadA*8变体单体的ABE8。在一些实施方案中,碱基编辑器是包含TadA*8和TadA(wt)的异二聚体的ABE8。在一些实施方案中,碱基编辑器是包含TadA*8和TadA*7.10的异二聚体的ABE8。在一些实施方案中,碱基编辑器是包含TadA*8的异二聚体的ABE8。在一些实施方案中,TadA*8选自表6、12或13。在一些实施方案中,ABE8选自表12、13或15。
在一些实施方案中,腺苷脱氨酶是TadA*9变体。在一些实施方案中,腺苷脱氨酶是选自下述变体并参考以下序列(称为TadA*7.10)的TadA*9变体:
MSEVEFSHEY WMRHALTLAK RARDEREVPVGAVLVLNNRVIGEGWNRAIG
LHDPTAHAEI MALRQGGLVM QNYRLIDATL YVTFEPCVMCAGAMIHSRIG
RVVFGVRNAK TGAAGSLMDV LHYPGMNHRV EITEGILADECAALLCYFFR
MPRQVFNAQK KAQSSTD(SEQ ID NO:4)
在一些实施方案中,腺苷脱氨酶包含以下改变中的一者或多者:R21N、R23H、E25F、N38G、L51W、P54C、M70V、Q71M、N72K、Y73S、V82T、M94V、P124W、T133K、D139L、D139M、C146R和A158K。一个或多个改变在上述序列中以加下划线和加粗字体显示。
在一些实施方案中,腺苷脱氨酶包含改变的以下组合中的一者或多者:V82S+Q154R+Y147R;V82S+Q154R+Y123H;V82S+Q154R+Y147R+Y123H;Q154R+Y147R+Y123H+I76Y+V82S;V82S+I76Y;V82S+Y147R;V82S+Y147R+Y123H;V82S+Q154R+Y123H;Q154R+Y147R+Y123H+I76Y;V82S+Y147R;V82S+Y147R+Y123H;V82S+Q154R+Y123H;V82S+Q154R+Y147R;V82S+Q154R+Y147R;Q154R+Y147R+Y123H+I76Y;Q154R+Y147R+Y123H+I76Y+V82S;I76Y_V82S_Y123H_Y147R_Q154R;Y147R+Q154R+H123H;和V82S+Q154R。
在一些实施方案中,腺苷脱氨酶包含改变的以下组合中的一者或多者:E25F+V82S+Y123H、T133K+Y147R+Q154R;E25F+V82S+Y123H+Y147R+Q154R;L51W+V82S+Y123H+C146R+Y147R+Q154R;Y73S+V82S+Y123H+Y147R+Q154R;P54C+V82S+Y123H+Y147R+Q154R;N38G+V82T+Y123H+Y147R+Q154R;N72K+V82S+Y123H+D139L+Y147R+Q154R;E25F+V82S+Y123H+D139M+Y147R+Q154R;Q71M+V82S+Y123H+Y147R+Q154R;E25F+V82S+Y123H+T133K+Y147R+Q154R;E25F+V82S+Y123H+Y147R+Q154R;V82S+Y123H+P124W+Y147R+Q154R;L51W+V82S+Y123H+C146R+Y147R+Q154R;P54C+V82S+Y123H+Y147R+Q154R;Y73S+V82S+Y123H+Y147R+Q154R;N38G+V82T+Y123H+Y147R+Q154R;R23H+V82S+Y123H+Y147R+Q154R;R21N+V82S+Y123H+Y147R+Q154R;V82S+Y123H+Y147R+Q154R+A158K;N72K+V82S+Y123H+D139L+Y147R+Q154R;E25F+V82S+Y123H+D139M+Y147R+Q154R;和M70V+V82S+M94V+Y123H+Y147R+Q154R
在一些实施方案中,腺苷脱氨酶包含改变的以下组合中的一者或多者:Q71M+V82S+Y123H+Y147R+Q154R;E25F+I76Y+V82S+Y123H+Y147R+Q154R;I76Y+V82T+Y123H+Y147R+Q154R;N38G+I76Y+V82S+Y123H+Y147R+Q154R;R23H+I76Y+V82S+Y123H+Y147R+Q154R;P54C+I76Y+V82S+Y123H+Y147R+Q154R;R21N+I76Y+V82S+Y123H+Y147R+Q154R;I76Y+V82S+Y123H+D139M+Y147R+Q154R;Y73S+I76Y+V82S+Y123H+Y147R+Q154R;E25F+I76Y+V82S+Y123H+Y147R+Q154R;I76Y+V82T+Y123H+Y147R+Q154R;N38G+I76Y+V82S+Y123H+Y147R+Q154R;R23H+I76Y+V82S+Y123H+Y147R+Q154R;P54C+I76Y+V82S+Y123H+Y147R+Q154R;R21N+I76Y+V82S+Y123H+Y147R+Q154R;I76Y+V82S+Y123H+D139M+Y147R+Q154R;Y73S+I76Y+V82S+Y123H+Y147R+Q154R;和V82S+Q154R;N72K_V82S+Y123H+Y147R+Q154R;Q71M_V82S+Y123H+Y147R+Q154R;V82S+Y123H+T133K+Y147R+Q154R;V82S+Y123H+T133K+Y147R+Q154R+A158K;M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R;N72K_V82S+Y123H+Y147R+Q154R;Q71M_V82S+Y123H+Y147R+Q154R;M70V+V82S+M94V+Y123H+Y147R+Q154R;V82S+Y123H+T133K+Y147R+Q154R;V82S+Y123H+T133K+Y147R+Q154R+A158K;和M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R。在一些实施方案中,腺苷脱氨酶被表达为单体。在其它实施方案中,腺苷脱氨酶被表达为异二聚体。在一些实施方案中,脱氨酶或其它多肽序列缺少甲硫氨酸,例如当作为融合蛋白的组分被包括时。这可以改变位置的编号。然而,技术人员将理解的是,这类相应的突变是指相同的突变,例如Y73S和Y72S以及D139M和D138M。
在一些实施方案中,TadA*9变体包含如本文所述的表16中所述的改变。在一些实施方案中,TadA*9变体是单体。在一些实施方案中,TadA*9变体是与野生型TadA腺苷脱氨酶的异二聚体。在一些实施方案中,TadA*9变体是与另一TadA变体(例如,TadA*8、TadA*9)的异二聚体。国际PCT申请第PCT/2020/049975号描述了TadA*9腺苷脱氨酶的另外的细节,该申请以全文引用的方式并入本文。
本文提供的任何突变和任何另外的突变(例如,基于ecTadA氨基酸序列)可以被引入到任何其它腺苷脱氨酶中。本文提供的任何突变可以在TadA参考序列或另一腺苷脱氨酶(例如,ecTadA)中单独或任意组合地产生。
A到G核碱基编辑蛋白的细节描述于国际PCT申请第PCT/2017/045381号(WO2018/027078)和Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C ingenomic DNA without DNAcleavage”Nature,551,464-471(2017),上述文献的全部内容以引用的方式特此并入。
C到T编辑
在一些实施方案中,本文公开的碱基编辑器包含融合蛋白,所述融合蛋白包含胞苷脱氨酶,所述胞苷脱氨酶能够使多核苷酸的靶胞苷(C)碱基脱氨基以产生具有胸腺嘧啶的碱基配对特性的尿苷(U)。在一些实施方案中,例如在多核苷酸是双链(例如,DNA)的情况下,尿苷碱基然后可以被胸苷碱基取代(例如,通过细胞修复机制)以产生C:G到T:A转变。在其它实施方案中,核酸中的C通过碱基编辑器脱氨基为U不能伴随U取代为T。
多核苷酸中的靶C脱氨基以产生U是可由本文所述的碱基编辑器执行的碱基编辑类型的一个非限制性示例。在另一示例中,包含胞苷脱氨酶结构域的碱基编辑器可介导胞嘧啶(C)碱基转化为鸟嘌呤(G)碱基。例如,通过碱基编辑器的胞苷脱氨酶结构域使胞苷脱氨基产生的多核苷酸的U可通过碱基切除修复机制(例如,通过尿嘧啶DNA糖基化酶(UDG)结构域)从多核苷酸上切除,产生无碱基位点。然后与无碱基位点相对的核碱基可通过例如跨损伤聚合酶被另一个碱基(如C)取代(例如,通过碱基修复机制)。虽然与无碱基位点相对的核碱基被C替换是典型的,但也可能发生其它取代(例如,A、G或T)。
因此,在一些实施方案中,本文所述的碱基编辑器包含能够将多核苷酸中的靶C脱氨基为U的脱氨基结构域(例如,胞苷脱氨酶结构域)。进一步地,如下所述,碱基编辑器可包含促进由脱氨基产生的U在一些实施方案中转化为T或G的另外的结构域。例如,包含胞苷脱氨酶结构域的碱基编辑器可进一步包含尿嘧啶糖基化酶抑制剂(UGI)结构域以介导U被T取代,完成C到T碱基编辑事件。在另一示例中,碱基编辑器可并入跨损伤聚合酶以提高C到G碱基编辑的效率,因为跨损伤聚合酶可促进与无碱基位点相对的C的并入(即,导致G在无碱基位点并入,完成C到G碱基编辑事件)。
包含胞苷脱氨酶作为结构域的碱基编辑器可以使任何多核苷酸基(包括DNA、RNA和DNA-RNA杂交体)中的靶C脱氨。通常,胞苷脱氨酶催化在多核苷酸的单链部分的情形中定位的C核碱基。在一些实施方案中,包含靶C的完整多核苷酸可以是单链的。例如,并入到碱基编辑器中的胞苷脱氨酶可以使单链RNA多核苷酸中的靶C脱氨基。在其它实施方案中,包含胞苷脱氨酶结构域的碱基编辑器可作用于双链多核苷酸,但靶C可定位在多核苷酸的一部分中,该部分在脱氨基反应之时处于单链状态。例如,在NAGPB结构域包含Cas9结构域的实施方案中,在Cas9-gRNA-靶DNA复合物的形成期间,若干核苷酸可保持未配对,从而导致cas9“R环复合物”的形成。这些未配对的核苷酸可形成单链DNA泡,其可作为单链特异性核苷酸脱氨酶(例如,胞苷脱氨酶)的底物。
在一些实施方案中,碱基编辑器的胞苷脱氨酶可包含载脂蛋白BmRNA编辑复合物(APOBEC)家族脱氨酶的全部或一部分。APOBEC是一个进化上保守的胞苷脱氨酶家族。此家族的成员是C到U编辑酶。APOBEC样蛋白的N末端结构域是催化结构域,而C末端结构域是假催化结构域。更具体地,催化结构域是锌依赖性胞苷脱氨酶结构域,并且对于胞苷脱氨基很重要。APOBEC家族成员包括APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D(“APOBEC3E”现在指的是此)、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4和激活诱导的(胞苷)脱氨酶。在一些实施方案中,并入到碱基编辑器中的脱氨酶包含APOBEC1脱氨酶的全部或一部分。在一些实施方案中,并入到碱基编辑器中的脱氨酶包含APOBEC2脱氨酶的全部或一部分。在一些实施方案中,并入到碱基编辑器中的脱氨酶包含APOBEC3脱氨酶的全部或一部分。在一些实施方案中,并入到碱基编辑器中的脱氨酶包含APOBEC3A脱氨酶的全部或一部分。在一些实施方案中,并入到碱基编辑器中的脱氨酶包含APOBEC3B脱氨酶的全部或一部分。在一些实施方案中,并入到碱基编辑器中的脱氨酶包含APOBEC3C脱氨酶的全部或一部分。在一些实施方案中,并入到碱基编辑器中的脱氨酶包含APOBEC3D脱氨酶的全部或一部分。在一些实施方案中,并入到碱基编辑器中的脱氨酶包含APOBEC3E脱氨酶的全部或一部分。在一些实施方案中,并入到碱基编辑器中的脱氨酶包含APOBEC3F脱氨酶的全部或一部分。在一些实施方案中,并入到碱基编辑器中的脱氨酶包含APOBEC3G脱氨酶的全部或一部分。在一些实施方案中,并入到碱基编辑器中的脱氨酶包含APOBEC3H脱氨酶的全部或一部分。在一些实施方案中,并入到碱基编辑器中的脱氨酶包含APOBEC4脱氨酶的全部或一部分。在一些实施方案中,并入到碱基编辑器中的脱氨酶包含激活诱导的脱氨酶(AID)的全部或一部分。在一些实施方案中,并入到碱基编辑器中的脱氨酶包含胞苷脱氨酶1(CDA1)的全部或一部分。应当了解的是,碱基编辑器可包含来自任意合适的生物体(例如,人或大鼠)的脱氨酶。在一些实施方案中,碱基编辑器的脱氨酶结构域来自人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠。在一些实施方案中,碱基编辑器的脱氨酶结构域来源于大鼠(例如,大鼠APOBEC1)。在一些实施方案中,碱基编辑器的脱氨酶结构域是人APOBEC1。在一些实施方案中,碱基编辑器的脱氨酶结构域是pmCDA1。
下面提供了根据本公开的若干方面可以与Cas9融合的其它示例性脱氨酶。在若干实施方案中,脱氨酶是激活诱导的脱氨酶(AID)。应当理解的是,在一些实施方案中,可以使用相应序列的活性结构域,例如没有定位信号的结构域(核定位序列,没有核输出信号、细胞质定位信号)。
本公开的一些方面基于这样的认识,即例如通过在脱氨酶结构域中产生点突变来调节本文所述的任何融合蛋白的脱氨酶结构域催化活性会影响融合蛋白(例如,碱基编辑器)的持续合成能力。例如,降低但不消除碱基编辑融合蛋白内的脱氨酶结构域的催化活性的突变可以使得脱氨酶结构域将不太可能催化与靶残基相邻的残基的脱氨基,从而窄化脱氨基窗口。窄化脱氨基窗口的能力可防止与特定靶残基相邻的残基发生不需要的脱氨基,这可减少或防止脱靶效应。
例如,在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含选自rAPOBEC1的H121X、H122X、R126X、R126X、R118X、W90X、W90X和R132X的一个或多个突变或另一APOBEC脱氨酶中的一个或多个相应突变,其中X是任何氨基酸。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含选自rAPOBEC1的H121R、H122R、R126A、R126E、R118A、W90A、W90Y和R132E的一个或多个突变或另一APOBEC脱氨酶中的一个或多个相应突变。
在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含选自hAPOBEC3G的D316X、D317X、R320X、R320X、R313X、W285X、W285X、R326X的一个或多个突变或另一APOBEC脱氨酶中的一个或多个相应突变,其中X是任何氨基酸。在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,所述APOBEC脱氨酶包含选自hAPOBEC3G的D316R、D317R、R320A、R320E、R313A、W285A、W285Y、R326E的一个或多个突变或另一APOBEC脱氨酶中的一个或多个相应突变。
在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含rAPOBEC1的H121R和H122R突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含rAPOBEC1的R126A突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含rAPOBEC1的R126E突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含rAPOBEC1的R118A突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含rAPOBEC1的W90A突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含rAPOBEC1的W90Y突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含rAPOBEC1的R132E突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含rAPOBEC1的W90Y和R126E突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含rAPOBEC1的R126E和R132E突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含rAPOBEC1的W90Y和R132E突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含rAPOBEC1的W90Y、R126E和R132E突变或另一APOBEC脱氨酶中的一个或多个相应突变。
在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含hAPOBEC3G的D316R和D317R突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,本文提供的任何融合蛋白包含这样的APOBEC脱氨酶,其包含hAPOBEC3G的R320A突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含hAPOBEC3G的R320E突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含hAPOBEC3G的R313A突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含hAPOBEC3G的W285A突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含hAPOBEC3G的W285Y突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含hAPOBEC3G的R326E突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含hAPOBEC3G的W285Y和R320E突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含hAPOBEC3G的R320E和R326E突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含hAPOBEC3G的W285Y和R326E突变或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入到碱基编辑器中的APOBEC脱氨酶可包含这样的APOBEC脱氨酶,其包含hAPOBEC3G的W285Y、R320E和R326E突变或另一APOBEC脱氨酶中的一个或多个相应突变。
许多修饰的胞苷脱氨酶是可商购的,包括但不限于SaBE3、SaKKH-BE3、VQR-BE3、EQR-BE3、VRER-BE3、YE1-BE3、EE-BE3、YE2-BE3和YEE-BE3,它们可购自Addgene(质粒85169、85170、85171、85172、85173、85174、85175、85176、85177)。在一些实施方案中,并入到碱基编辑器中的脱氨酶包含APOBEC1脱氨酶的全部或一部分。
国际PCT申请第PCT/US2016/058344号(WO2017/070632)和Komor,A.C.等人,“Programmable editing of a target base in genomic DNA without double-strandedDNA cleavage”Nature 533,420-424(2016)中描述了C到T核碱基编辑蛋白的细节,上述文献的全部内容以引用的方式特此并入。
胞苷脱氨酶
在一些实施方案中,本发明的融合蛋白包含一个或多个胞苷脱氨酶结构域。在一些实施方案中,本文提供的胞苷脱氨酶能够使胞嘧啶或5-甲基胞嘧啶脱氨基为尿嘧啶或胸腺嘧啶。在一些实施方案中,本文提供的胞苷脱氨酶能够使DNA中的胞嘧啶脱氨基。胞苷脱氨酶可来源于任意合适的生物体。在一些实施方案中,胞苷脱氨酶是天然存在的胞苷脱氨酶,其包括对应于本文提供的任何突变的一个或多个突变。本领域技术人员将能够例如通过序列比对和同源残基的确定来鉴定任何同源蛋白质中的相应残基。因此,本领域技术人员将能够在任何天然存在的胞苷脱氨酶中产生对应于本文所述的任何突变的突变。在一些实施方案中,胞苷脱氨酶来自原核生物。在一些实施方案中,胞苷脱氨酶来自细菌。在一些实施方案中,胞苷脱氨酶来自哺乳动物(例如,人)。
在一些实施方案中,胞苷脱氨酶包含与本文所示的任一胞苷脱氨酶氨基酸序列具有至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性的氨基酸序列。应当了解的是,本文提供的胞苷脱氨酶可包括一个或多个突变(例如,本文提供的任何突变)。一些实施方案提供了编码任何前述方面或如本文描述的胞苷脱氨酶核碱基编辑器多肽的多核苷酸分子。在一些实施方案中,多核苷酸是密码子优化的。
本公开提供了具有一定百分比同一性加上本文所述的任何突变或其组合的任何脱氨酶结构域。在一些实施方案中,胞苷脱氨酶包含与参考序列或本文提供的任何胞苷脱氨酶相比具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变的氨基酸序列。在一些实施方案中,胞苷脱氨酶包含与本领域中已知或本文所述的任一氨基酸序列相比具有至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少110个、至少120个、至少130个、至少140个、至少150个、至少160个或至少170个相同的连续氨基酸残基的氨基酸序列。
本发明第二蛋白质的融合蛋白包含两个或更多个核酸编辑结构域。
引导多核苷酸
多核苷酸可编程核苷酸结合结构域当与结合的引导多核苷酸(例如,gRNA)结合时可以与靶多核苷酸序列特异性结合(即,经由结合的引导核酸的碱基与靶多核苷酸序列的碱基之间的互补碱基配对),从而将碱基编辑器定位到需要编辑的靶核酸序列。在一些实施方案中,靶多核苷酸序列包括单链DNA或双链DNA。在一些实施方案中,靶多核苷酸序列包括RNA。在一些实施方案中,靶多核苷酸序列包括DNA-RNA杂交体。
CRISPR是针对可移动遗传元件(病毒、转座元件和缀合型质粒)提供保护的适应性免疫系统。CRISPR簇含有间隔区、与先前可移动元件互补的序列和靶侵入核酸。CRISPR簇被转录并加工成CRISPR RNA(crRNA)。在II型CRISPR系统中,前crRNA的正确加工需要反式编码的小RNA(tracrRNA)、内源核糖核酸酶3(rnc)和Cas9蛋白。tracrRNA作为核糖核酸酶3辅助加工前crRNA的引导物。随后,Cas9/crRNA/tracrRNA以核酸内切方式切割与间隔区互补的线性或环状dsDNA靶标。与crRNA不互补的靶链首先以核酸内切方式被切割,然后以3′-5′核酸外切方式被修剪。在自然界中,DNA结合和切割通常需要蛋白质和两种RNA。然而,单引导RNA(“sgRNA”或简称“gNRA”)可以被工程化,以便将crRNA和tracrRNA两者的若干方面并入到单个RNA种类中。参见例如Jinek M.、Chylinski K.、Fonfara I.、Hauer M.、DoudnaJ.A.、Charpentier E.Science 337:816-821(2012),该文献的全部内容以引用的方式特此并入。Cas9识别CRISPR重复序列中的短基序(PAM或原型间隔区序列相邻基序),以帮助区分自身与非自身。参见例如,“Complete genome sequence of an M1 strain ofStreptococcus pyogenes.”Ferretti,J.J.等人,Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNA maturation by trans-encoded small RNA and host factorRNase III.”Deltcheva E.等人,Nature471:602-607(2011);和“Programmabledual-RNA-guided DNA endonuclease in adaptive bacterial immunity.”Jinek M.等人,Science337:816-821(2012),上述文献中的每一者的全部内容以引用的方式并入本文)。
PAM序列可以是本领域中已知的任何PAM序列。合适的PAM序列包括但不限于NGG、NGA、NGC、NGN、NGT、NGCG、NGAG、NGAN、NGNG、NGCN、NGCG、NGTN、NNGRRT、NNNRRT、NNGRR(N)、TTTV、TYCV、TYCV、TATV、NNNNGATT、NNAGAAW或NAAAAC。Y是嘧啶;N是任何核苷酸碱基;W是A或T。
在一个实施方案中,本文所述的引导多核苷酸可以是RNA或DNA。在一个实施方案中,引导多核苷酸是gRNA。RNA/Cas复合物可协助“引导”Cas蛋白到达靶DNA。Cas9/crRNA/tracrRNA以核酸内切方式切割与间隔区互补的线性或环状dsDNA靶标。与crRNA不互补的靶链首先以核酸内切方式被切割,然后以3’-5’核酸外切方式被修剪。在自然界中,DNA结合和切割通常需要蛋白质和两种RNA。然而,单引导RNA (“sgRNA”或简称“gNRA”)可以被工程化,以便将crRNA和tracrRNA两者的若干方面并入到单个RNA种类中。参见例如,Jinek M.等人,Science 337:816-821(2012),该文献的全部内容以引用的方式特此并入。
在一些实施方案中,引导多核苷酸是至少一种单引导RNA(“sgRNA”或“gNRA”)。在一些实施方案中,引导多核苷酸包含两个或更多个单独的多核苷酸,它们可经由例如互补碱基配对彼此相互作用(例如,双引导多核苷酸,双gRNA)。例如,引导多核苷酸可包含CRISPR RNA(crRNA)和反式激活CRISPR RNA(tracrRNA),或者可包含一个或多个反式激活CRISPR RNA(tracrRNA)。
在一些实施方案中,引导多核苷酸是至少一个tracrRNA。在一些实施方案中,引导多核苷酸不需要PAM序列来将多核苷酸可编程DNA结合结构域(例如,Cas9或Cpf1)引导至靶核苷酸序列。
引导多核苷酸可包括天然或非天然(或不是天然的)核苷酸(例如,肽核酸或核苷酸类似物)。在一些情况下,引导核酸序列的靶向区域的长度可以为至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。引导核酸的靶向区域的长度可以在10-30个核苷酸之间,或者长度在15-25个核苷酸之间,或者长度在15-20个核苷酸之间。
在一些实施方案中,本文提供的碱基编辑器利用一个或多个引导多核苷酸(例如,多个gRNA)。在一些实施方案中,单个引导多核苷酸用于本文所述的不同碱基编辑器。例如,单个引导多核苷酸可用于胞苷碱基编辑器和腺苷碱基编辑器。
在一些实施方案中,本文所述的方法可利用工程化的Cas蛋白。引导RNA (gRNA)是短合成RNA,由Cas结合所需的支架序列和用户定义的约20个核苷酸的间隔区组成,所述间隔区限定要修饰的基因组靶标。示例性gRNA支架序列在序列表中提供为SEQ ID NO:321-331。因此,技术人员可以改变Cas蛋白的基因组靶标,特异性部分地由与基因组的其余部分相比gRNA靶向序列对于基因组靶标的特异性程度来确定。
在其它实施方案中,引导多核苷酸可以在单个分子中包含核酸的多核苷酸靶向部分和核酸的支架部分(即,单分子引导核酸)。例如,单分子引导多核苷酸可以是单引导RNA(sgRNA或gRNA)。在本文中,术语引导多核苷酸序列涵盖能够与碱基编辑器相互作用并将碱基编辑器导向靶多核苷酸序列的任何单、双或多分子核酸。
通常,引导多核苷酸(例如,crRNA/trRNA复合物或gRNA)包含“多核苷酸靶向区段”和“蛋白质结合区段”,前者包括能够识别靶多核苷酸序列并与之结合的序列,后者使引导多核苷酸稳定在碱基编辑器的多核苷酸可编程核苷酸结合结构域组件内。在一些实施方案中,引导多核苷酸的多核苷酸靶向区段识别DNA多核苷酸并与之结合,从而促进DNA中的碱基的编辑。在其它情况下,引导多核苷酸的多核苷酸靶向区段识别RNA多核苷酸并与之结合,从而促进RNA中的碱基的编辑。在本文中,“区段”是指分子的部分或区域,例如引导多核苷酸中的连续核苷酸段。区段还可以指复合物的区域/部分,使得区段可包含多于一个分子的区域。例如,在引导多核苷酸包含多个核酸分子的情况下,其蛋白质结合区段可包括例如沿互补性的区域杂交的多个单独分子的全部或一部分。在一些实施方案中,包含两个单独分子的DNA靶向RNA的蛋白质结合区段可包含(i)长度为100个碱基对的第一RNA分子的碱基对40-75;(ii)长度为50个碱基对的第二RNA分子的碱基对10-25。除在特定的上下文中另有具体定义外,“区段”的定义不限于总碱基对的具体数目、不限于来自给定RNA分子的碱基对的任何特定数目、不限于复合物中单独分子的特定数目,并且可以包括RNA分子的任意总长度的区域,并且可以包括与其它分子具有互补性的区域。
引导多核苷酸可以化学合成、酶促合成或以其组合方式合成。例如,可采用标准的基于亚磷酰胺的固相合成方法来合成gRNA。或者,可以通过将编码gRNA的DNA可操作地连接于由噬菌体RNA聚合酶识别的启动子控制序列来体外合成gRNA。合适的噬菌体启动子序列的实例包括T7、T3、SP6启动子序列或其变型。在其中gRNA包含两个单独分子(例如,crRNA和tracrRNA)的实施方案中,可以化学合成crRNA,并且可以酶促合成tracrRNA。
gRNA分子可以在体外转录。
引导多核苷酸可例如由编码gRNA的DNA表达,例如包含编码gRNA的序列的DNA载体。gRNA可以单独编码或与编码的碱基编辑器一起编码。这类DNA序列可以一起或单独地被引入到表达系统(例如,细胞)中。例如,可以将编码多核苷酸可编程核苷酸结合结构域和gRNA的DNA序列引入到细胞中,每个DNA序列可以是单独分子的一部分(例如,含有多核苷酸可编程核苷酸结合结构域编码序列的一个载体和含有gRNA编码序列的第二载体),或者两者可以是同一分子的一部分(例如,含有用于多核苷酸可编程核苷酸结合结构域和gRNA两者的编码(和调控)序列的一个载体)。RNA可以由合成的DNA分子(例如,基因片段)转录。
gRNA或引导多核苷酸可包含三个区域:在5’端的可与染色体序列中的靶位点互补的第一区域;可形成茎环结构的第二内部区域;和可以是单链的第三3’区域。每个gRNA的第一区域也可以是不同的,使得每个gRNA将融合蛋白引导至特定的靶位点。进一步地,在所有gRNA中,每个gRNA的第二和第三区域可以是相同的。
gRNA或引导多核苷酸的第一区域可以与在染色体序列中的靶位点处的序列互补,使得gRNA的第一区域可以与靶位点碱基配对。在一些情况下,gRNA的第一区域可包含10个核苷酸至25个核苷酸或约10个核苷酸至25个核苷酸(即,10个核苷酸至核苷酸;或约10个核苷酸至约25个核苷酸;或10个核苷酸至约25个核苷酸;或约10个核苷酸至25个核苷酸)或更多。例如,gRNA的第一区域与染色体序列中的靶位点之间的碱基配对的区域的长度可以为约10、11、12、13、14、15、16、17、18、19、20、22、23、24、25或更多个核苷酸。有时,gRNA的第一区域的长度可以为19、20或21个核苷酸或可以为约19、20或21个核苷酸。
gRNA或引导多核苷酸还可以包含形成二级结构的第二区域。例如,由gRNA形成的二级结构可包含茎(或发夹)和环。环和茎的长度可有所不同。例如,环的长度范围可以是3至10个核苷酸或约3至10个核苷酸,且茎的长度范围可以是6至20个碱基对或约6至20个碱基对。茎可包含一个或多个1至10个或约10个核苷酸的凸起。第二区域的总长度范围可以是16至60个核苷酸或约16至60个核苷酸。例如,环的长度可以是4个核苷酸或可以是约4个核苷酸,且茎可以是12个碱基对或可以是约12个碱基对。
gRNA或引导多核苷酸还可以在3’端包含可基本上是单链的第三区域。例如,第三区域有时与所关注的细胞中任何染色体序列都不互补,并且有时与gRNA的其余部分不互补。进一步地,第三区域的长度可有所不同。第三区域的长度可超过4个核苷酸或超过约4个核苷酸。例如,第三区域的长度范围可以是5至60个核苷酸或约5至60个核苷酸。
gRNA或引导多核苷酸可靶向基因靶标的任何外显子或内含子。在一些情况下,引导物可靶向基因的外显子1或2;在其它情况下,引导物可靶向基因的外显子3或4。在一些实施方案中,组合物包含全部靶向同一外显子的多个gRNA或靶向不同外显子的多个gRNA。可以靶向基因的外显子和/或内含子。
gRNA或引导多核苷酸可以靶向约20个核苷酸或少于约20个核苷酸(例如,至少约5、10、15、16、17、18、19、20、21、22、23、24、25、30个核苷酸)或约1-100之间的任意个核苷酸(例如,5、10、15、16、17、18、19、20、21、22、23、24、25、30、40、50、60、70、80、90、100个)的核酸序列。靶核酸序列可以是紧邻PAM的第一核苷酸的5’的20个碱基或可以是紧邻PAM的第一核苷酸的5’的约20个碱基。gRNA可以靶向核酸序列。靶核酸可以是至少1-10、1-20、1-30、1-40、1-50、1-60、1-70、1-80、1-90或1-100个核苷酸或至少约1-10、1-20、1-30、1-40、1-50、1-60、1-70、1-80、1-90或1-100个核苷酸。
选择、设计和验证引导多核苷酸(例如,gRNA)和靶向序列的方法在本文中有描述,并且是本领域技术人员已知的。例如,为了最小化核碱基编辑器系统中的脱氨酶结构域(例如,AID结构域)的潜在底物混杂的影响,可以最小化可能被无意地靶向用于脱氨基的残基的数目(例如,可能潜在地存在于靶核酸基因座内的单链DNA上的脱靶C残基)。此外,可以使用软件工具来优化与靶核酸序列相对应的gRNA,例如以最小化跨基因组的总脱靶活性。例如,对于使用酿脓链球菌Cas9的每个可能的靶向结构域选择,可以跨基因组鉴定出含有最多一定数目(例如,1、2、3、4、5、6、7、8、9或10个)错配碱基对的所有脱靶序列(在选定的PAM之前,例如NAG或NGG)。可以鉴定与靶位点互补的gRNA的第一区域,并且所有第一区域(例如,crRNA)可以根据其总预测脱靶分数进行排序;排序最高的靶向结构域代表可能具有最大中靶和最小脱靶活性的那些。可通过采用本领域中已知和/或如本文所示的方法在功能上评价候选靶向gRNA。
作为非限制性示例,可以使用DNA序列搜索算法来鉴定与Cas9一起使用的gRNA的crRNA中的靶DNA杂交序列。基于如Bae S.、Park J.和Kim J.-S.Cas-OFFinder:A fast andversatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases.Bioinformatics 30,1473-1475(2014)中所述的公共工具cas-offinder,使用定制的gRNA设计软件进行gRNA设计。这一软件在计算了引导物的全基因组脱靶倾向后对引导物进行评分。对于长度范围从17至24的引导物,通常考虑范围从完全匹配至7个错配的匹配。一旦计算确定了脱靶位点,则计算每个引导物的总分,并使用网站界面以表格输出进行汇总。除了鉴定与PAM序列相邻的潜在靶位点外,该软件还鉴定与选定的靶位点相差1、2、3或多于3个核苷酸的所有PAM相邻序列。可以获得靶核酸序列(例如,靶基因)的基因组DNA序列,并且可以使用可公开获得的工具(例如,RepeatMasker程序)筛选重复序列元件。RepeatMasker搜索输入DNA序列中的重复序列的元件和低复杂性的区域。输出是给定查询序列中存在的重复序列的详细注释。
鉴定之后,gRNA的第一区域(例如,crRNA)基于其与靶位点的距离、其正交性以及与相关PAM序列密切匹配的5’核苷酸(例如,基于鉴定在含有相关PAM例如酿脓链球菌的NGGPAM、金黄色葡萄球菌的NNGRRT或NNGRRV PAM的人基因组中的密切匹配的5′G)的存在被分级为若干层级。如本文所用,正交性是指人基因组中含有与靶序列的错配数最少的序列数。“高水平的正交性”或“良好的正交性”可例如是指20-mer靶向结构域,其在人基因组中除了预期的靶标之外没有相同的序列,也没有在靶序列中含有一个或两个错配的任何序列。可以选择具有良好正交性的靶向结构域以最小化脱靶DNA切割。
然后可以将gRNA作为RNA分子或非RNA核酸分子(例如,DNA分子)引入到细胞或胚胎中。在一个实施方案中,编码gRNA的DNA可操作地连接于启动子控制序列,用于在所关注的细胞或胚胎中表达gRNA。RNA编码序列可以可操作地连接于由RNA聚合酶III(Pol III)识别的启动子序列。可用于表达gRNA的质粒载体包括但不限于px330载体和px333载体。在一些情况下,质粒载体(例如,px333载体)可包含至少两个gRNA编码DNA序列。进一步地,载体可包含另外的表达控制序列(例如,增强子序列、Kozak序列、聚腺苷酸化序列、转录终止序列等)、可选择标志物序列(例如,GFP或抗生素抗性基因,如嘌呤霉素)、复制起点等。编码gRNA的DNA分子也可以是线性的。编码gRNA或引导多核苷酸的DNA分子也可以是环状的。
在一些实施方案中,报告系统用于检测碱基编辑活性和测试候选引导多核苷酸。在一些实施方案中,报告系统包括基于报告基因的测定,在所述测定中碱基编辑活性导致报告基因的表达。例如,报告系统可包括包含失活起始密码子的报告基因,例如模板链上从3’-TAC-5’到3’-CAC-5’的突变。靶C成功脱氨基后,相应的mRNA将被转录为5’-AUG-3’而不是5’-GUG-3’,从而实现报告基因的翻译。合适的报告基因对于本领域技术人员来说将是显而易见的。报告基因的非限制性示例包括编码绿色荧光蛋白(GFP)、红色荧光蛋白(RFP)、萤光素酶、分泌型碱性磷酸酶(SEAP)的基因或其表达对于本领域技术人员来说是可检测的和显而易见的任何其它基因。报告系统可用于测试许多不同的gRNA,例如以便确定相应的脱氨酶相对于靶DNA序列将靶向哪个(些)残基。还可以测试靶向非模板链的sgRNA,以便评估特定碱基编辑蛋白(例如,Cas9脱氨酶融合蛋白)的脱靶效应。在一些实施方案中,可以设计这类gRNA,使得突变的起始密码子将不与gRNA碱基配对。引导多核苷酸可包含标准核糖核苷酸、修饰的核糖核苷酸(例如,假尿苷)、核糖核苷酸异构体和/或核糖核苷酸类似物。在一些实施方案中,引导多核苷酸可包含至少一个可检测标记。可检测标记可以是荧光团(例如,FAM、TMR、Cy3、Cy5、德克萨斯红、俄勒冈绿、Alexa Fluors、Halo标签或合适的荧光染料)、检测标签(例如,生物素、地高辛等)、量子点或金颗粒。
在一些实施方案中,碱基编辑器系统可包含多个引导多核苷酸,例如gRNA。例如,gRNA可以靶向碱基编辑器系统中包含的一个或多个靶基因座(例如,至少1个gRNA、至少2个gRNA、至少5个gRNA、至少10个gRNA、至少20个gRNA、至少30个gRNA、至少50个gRNA)。多个gRNA序列可以串联排列,并且优选由同向重复序列隔开。
修饰的多核苷酸
为了增强表达、稳定性和/或基因组/碱基编辑效率和/或降低可能的毒性,碱基编辑器编码序列(例如,mRNA)和/或引导多核苷酸(例如,gRNA)可以被修饰以包括一个或多个修饰的核苷酸和/或化学修饰,例如使用假尿苷、5-甲基-胞嘧啶、2′-O-甲基-3′-膦酰乙酸酯、2′-O-甲硫基PACE(MSP)、2′-O-甲基-PACE(MP)、2′-氟RNA(2′-F-RNA)、=约束乙基(S-cEt)、2′-O-甲基(‘M’)、2′-O-甲基-3′-硫代磷酸酯(‘MS’)、2′-O-甲基-3′-硫代膦酰乙酸酯(‘MSP’)、5-甲氧基尿苷、硫代磷酸酯和N1-甲基假尿苷。化学保护的gRNA可体内和离体增强稳定性和编辑效率。使用化学修饰的mRNA和引导RNA的方法是本领域中已知的,并且例如在Jiang等人,Chemical modifications of adenine base editor mRNA and guide RNAexpand its application scope.Nat Commun 11,1979(2020).doi.org/10.1038/s41467-020-15892-8;Callum等人,N1-Methylpseudouridine substitution enhances theperformance of synthetic mRNA switches in cells,Nucleic Acids Research,第48卷,第6期,2020年4月6日,第e35页;和Andries等人,Journal of Controlled Release,第217卷,2015年11月10日,第337-344页中有描述,上述文献中的每一者以全文引用的方式并入本文。
在特定的实施方案中,化学修饰是2’-O-甲基(2’-OMe)修饰。修饰的引导RNA可提高saCas9功效还有特异性。单个修饰的效果根据所用化学修饰的位置和组合以及与其它修饰的核苷酸的分子间和分子内相互作用而变化。举例来说,S-cEt已被用于改善寡核苷酸分子内折叠。
在一些实施方案中,引导多核苷酸在引导物的5’端和/或3’端包含一个或多个修饰的核苷酸。在一些实施方案中,引导多核苷酸包含在引导多核苷酸的5’端和/或3’端的两个、三个、四个或更多个修饰的核苷。在一些实施方案中,引导多核苷酸包含在引导多核苷酸的5’端和/或3’端的两个、三个、四个或更多个修饰的核苷。在一些实施方案中,引导多核苷酸在引导物的5’端包含四个修饰的核苷,并且在引导物的3’端包含四个修饰的核苷。在一些实施方案中,修饰的核苷包含2’O-甲基或硫代磷酸酯。
在一些实施方案中,引导物包含至少约50%-75%的修饰核苷酸。在一些实施方案中,引导物包含至少约85%或更多的修饰核苷酸。在一些实施方案中,在gRNA的5’端的至少约1-5个核苷酸被修饰,并且在gRNA的3’端的至少约1-5个核苷酸被修饰。在一些实施方案中,在gRNA的5’和3’末端中的每一者处的至少约3-5个连续核苷酸被修饰。在一些实施方案中,同向重复序列或反向重复序列中存在的核苷酸的至少约20%被修饰。在一些实施方案中,同向重复序列或反向重复序列中存在的核苷酸的至少约50%被修饰。在一些实施方案中,同向重复序列或反向重复序列中存在的核苷酸的至少约50-75%被修饰。在一些实施方案中,同向重复序列或反向重复序列中存在的核苷酸至少约100被修饰。在一些实施方案中,存在于gRNA支架中的发夹中存在的核苷酸的至少约20%或更多被修饰。在一些实施方案中,存在于gRNA支架中的发夹中存在的核苷酸的至少约50%或更多被修饰。在一些实施方案中,引导物包含可变长度间隔区。在一些实施方案中,引导物包含20-40个核苷酸间隔区。在一些实施方案中,引导物包含间隔区,所述间隔区包含至少约20-25个核苷酸或至少约30-35个核苷酸。在一些实施方案中,间隔区包含修饰的核苷酸。在一些实施方案中,引导物包含以下中的两者或更多者:
在gRNA的5’端的至少约1-5个核苷酸被修饰,并且在gRNA的3’端的至少约1-5个核苷酸被修饰;
同向重复序列或反向重复序列中存在的核苷酸的至少约20%被修饰;
同向重复序列或反向重复序列中存在的核苷酸的至少约50-75%被修饰;
存在于gRNA支架中的发夹中存在的核苷酸的至少约20%或更多被修饰;
可变长度间隔区;和
包含修饰的核苷酸的间隔区。
在若干实施方案中,gRNA含有许多修饰的核苷酸和/或化学修饰(“重修饰”)。这类重修饰可在体内或体外将碱基编辑增加约2倍。对于这类修饰,mN=2′-OMe;Ns=硫代磷酸酯(PS),其中“N”代表如本领域技术人员所理解的任意核苷酸。在一些情况下,核苷酸(N)可含有两个修饰,例如2’-OMe和PS修饰两者。例如,具有硫代磷酸酯和2’OMe的核苷酸表示为“mNs”;当有两个修饰彼此紧邻时,标记为“mNsmNs”。
在修饰的gRNA的一些实施方案中,gRNA包含选自2′-O-甲基(2’-OMe)、硫代磷酸酯(PS)、2′-O-甲硫基PACE(MSP)、2′-O-甲基-PACE(MP)、2′-O-甲硫基PACE(MSP)、2′-氟RNA(2’-F-RNA)和约束乙基(S-cEt)的一个或多个化学修饰。在若干实施方案中,gRNA包含2’-O-甲基或硫代磷酸酯修饰。在一实施方案中,gRNA包含2’-O-甲基和硫代磷酸酯修饰。在一个实施方案中,修饰将碱基编辑增加至少约2倍。
引导多核苷酸可包含一个或多个修饰以给核酸提供新的或增强的特征。引导多核苷酸可包含核酸亲和标签。引导多核苷酸可包含合成核苷酸、合成核苷酸类似物、核苷酸衍生物和/或修饰的核苷酸。
在一些情况下,gRNA或引导多核苷酸可包含修饰。修饰可以在gRNA或引导多核苷酸的任何位置进行。可以对单个gRNA或引导多核苷酸进行多于一个的修饰。gRNA或引导多核苷酸可以在修饰后经受质量控制。在一些情况下,质量控制可包括PAGE、HPLC、MS或其任意组合。
gRNA或引导多核苷酸的修饰可以是取代、插入、缺失、化学修饰、物理修饰、稳定化、纯化或其任意组合。
gRNA或引导多核苷酸还可以被以下修饰:5’腺苷酸、5’鸟苷-三磷酸帽、5’N7-甲基鸟苷-三磷酸帽、5’三磷酸帽、3’磷酸、3’硫代磷酸、5’磷酸、5’硫代磷酸、Cis-Syn胸苷二聚体、三聚体、C12间隔区、C3间隔区、C6间隔区、d间隔区、PC间隔区、r间隔区、间隔区18、间隔区9、3’-3’修饰、2’-O-甲硫基PACE(MSP)、2’-O-甲基-PACE(MP)和约束乙基(S-cEt)、5’-5’修饰、无碱基、吖啶、偶氮苯、生物素、生物素BB、生物素TEG、胆固醇基TEG、脱硫生物素TEG、DNP TEG、DNP-X、DOTA、dT-生物素、双生物素、PC生物素、补骨脂素C2、补骨脂素C6、TINA、3’DABCYL、黑洞淬灭剂1、黑洞淬灭剂2、DABCYL SE、dT-DABCYL、IRDye QC-1、QSY-21、QSY-35、QSY-7、QSY-9、羧基接头、硫醇接头、2’-脱氧核糖核苷类似物嘌呤、2’-脱氧核糖核苷类似物嘧啶、核糖核苷类似物、2’-O-甲基核糖核苷类似物、糖修饰的类似物、摆动/通用碱基、荧光染料标记、2’-氟RNA、2’-O-甲基RNA、甲基膦酸酯、磷酸二酯DNA、磷酸二酯RNA、硫代磷酸酯DNA、硫代磷酸酯RNA、UNA、假尿苷-5’-三磷酸、5’-甲基胞苷-5’-三磷酸或其任意组合。
在一些情况下,修饰是永久性的。在其它情况下,修饰是短暂的。在一些情况下,对gRNA或引导多核苷酸进行多重修饰。gRNA或引导多核苷酸修饰可以改变核苷酸的生理化学性质,如它们的构象、极性、疏水性、化学反应性、碱基配对相互作用或其任意组合。
可以通过用分离的gRNA或包含编码引导RNA的序列和启动子的质粒DNA转染细胞来将引导多核苷酸转移到细胞中。也可以以其它方式将gRNA或引导多核苷酸转移到细胞中,如采用病毒介导的基因递送。可以分离gRNA或引导多核苷酸。例如,可以将gRNA以分离的RNA的形式转染到细胞或生物体中。可以使用本领域中已知的任何体外转录系统通过体外转录来制备gRNA。可以将gRNA以分离的RNA的形式而不是以包含gRNA的编码序列的质粒的形式转移到细胞中。
修饰也可以是硫代磷酸酯取代物。在一些情况下,天然磷酸二酯键可能容易被细胞核酸酶快速降解;使用硫代磷酸酯(PS)键取代物的核苷酸间键的修饰对于通过细胞降解的水解可能更稳定。修饰可提高gRNA或引导多核苷酸中的稳定性。修饰还可以增强生物活性。在一些情况下,硫代磷酸酯增强的RNA gRNA可抑制RNA酶A、RNA酶T1、小牛血清核酸酶或其任意组合。这些特性可允许PS-RNA gRNA用于其中体内或体外暴露于核酸酶的可能性高的应用中。例如,可以在gRNA的5’或3’端的最后3-5个核苷酸之间引入硫代磷酸酯(PS)键,这可抑制核酸外切酶降解。在一些情况下,可以在整个gRNA中添加硫代磷酸酯键以减少核酸内切酶的攻击。
在一些实施方案中,引导RNA被设计为破坏剪接位点(即,剪接受体(SA)或剪接供体(SD))。在一些实施方案中,设计引导RNA,使得碱基编辑导致过早的终止密码子。
原型间隔区序列相邻基序
术语“原型间隔区序列相邻基序(PAM)”或PAM样基序是指在CRISPR细菌适应性免疫系统中紧接由Cas9核酸酶靶向的DNA序列之后的2-6个碱基对DNA序列。在一些实施方案中,PAM可以是5’PAM(即,位于原型间隔区序列的5’端的上游)。在其它实施方案中,PAM可以是3’PAM(即,位于原型间隔区序列的5’端的下游)。PAM序列对于靶结合至关重要,但确切的序列取决于Cas蛋白的类型。PAM序列可以是本领域中已知的任何PAM序列。合适的PAM序列包括但不限于NGG、NGA、NGC、NGN、NGT、NGTT、NGCG、NGAG、NGAN、NGNG、NGCN、NGCG、NGTN、NNGRRT、NNNRRT、NNGRR(N)、TTTV、TYCV、TYCV、TATV、NNNNGATT、NNAGAAW或NAAAAC。Y是嘧啶;N是任何核苷酸碱基;W是A或T。
本文提供的碱基编辑器可包含CRISPR蛋白来源的结构域,其能够结合含有规范或非规范原型间隔区序列相邻基序(PAM)序列的核苷酸序列。PAM位点是靠近靶多核苷酸序列的核苷酸序列。本公开的一些方面提供包含具有不同PAM特异性的CRISPR蛋白的全部或一部分的碱基编辑器。
例如,典型的Cas9蛋白如来自酿脓链球菌的Cas9(spCas9)需要规范的NGG PAM序列来结合特定的核酸区域,其中“NGG”中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C),且G是鸟嘌呤。PAM可以是CRISPR蛋白特异性的,并且在包含不同CRISPR蛋白来源的结构域的不同碱基编辑器之间可以是不同的。PAM可以是靶序列的5’或3’。PAM可以在靶序列的上游或下游。PAM的长度可以是1、2、3、4、5、6、7、8、9、10或更多个核苷酸。通常,PAM的长度在2-6个核苷酸之间。
在一些实施方案中,PAM是“NRN”PAM,其中“NRN”中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C),且R是腺嘌呤(A)或鸟嘌呤(G);或者PAM是“NYN”PAM,其中NYN中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C),且Y是胞苷(C)或胸腺嘧啶(T),例如,如R.T.Walton等人,2020,Science,10.1126/science.aba8853(2020)中所述,该文献的全部内容以引用的方式并入本文。
下表7中描述了若干PAM变体。
表7.Cas9蛋白和相应的PAM序列
变体 | PAM |
spCas9 | NGG |
spCas9-VRQR | NGA |
spCas9-VRER | NGCG |
xCas9(sp) | NGN |
saCas9 | NNGRRT |
saCas9-KKH | NNNRRT |
spCas9-MQKSER | NGCG |
spCas9-MQKSER | NGCN |
spCas9-LRKIQK | NGTN |
spCas9-LRVSQK | NGTN |
spCas9-LRVSQL | NGTN |
spCas9-MQKFRAER | NGC |
Cpf1 | 5’(TTTV) |
SpyMac | 5’-NAA-3’ |
在一些实施方案中,PAM是NGC。在一些实施方案中,NGC PAM由Cas9变体识别。在一些实施方案中,NGC PAM变体包括选自D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(统称为“MQKFRAER”)的一个或多个氨基酸取代。
在一些实施方案中,PAM是NGT。在一些实施方案中,NGT PAM由Cas9变体识别。在一些实施方案中,NGT PAM变体通过在一个或多个残基1335、1337、1135、1136、1218和/或1219处靶向的突变产生。在一些实施方案中,NGT PAM变体通过在一个或多个残基1219、1335、1337、1218处靶向的突变产生。在一些实施方案中,NGT PAM变体通过在一个或多个残基1135、1136、1218、1219和1335处靶向的突变产生。在一些实施方案中,NGT PAM变体选自下表8A和8B中提供的靶向的突变组。
表8A.残基1219、1335、1337、1218处的NGT PAM变体突变
/>
表8B.残基1135、1136、1218、1219和1335处的NGT PAM变体突变
变体 | D1135L | S1136R | G1218S | E1219V | R1335Q |
27 | G | ||||
28 | V | ||||
29 | I | ||||
30 | A | ||||
31 | W | ||||
32 | H | ||||
33 | K | ||||
34 | K | ||||
35 | R | ||||
36 | Q | ||||
37 | T | ||||
38 | N | ||||
39 | I | ||||
40 | A | ||||
41 | N | ||||
42 | Q | ||||
43 | G | ||||
44 | L | ||||
45 | S | ||||
46 | T | ||||
47 | L | ||||
48 | I | ||||
49 | V | ||||
50 | N | ||||
51 | S | ||||
52 | T | ||||
53 | F | ||||
54 | Y | ||||
55 | N1286Q | I1331F |
在一些实施方案中,NGT PAM变体选自表8A和表8B中的变体5、7、28、31或36。在一些实施方案中,变体具有改善的NGT PAM识别。
在一些实施方案中,NGT PAM变体在残基1219、1335、1337和/或1218处具有突变。在一些实施方案中,从下表9中提供的变体中选择具有识别改善的突变的NGT PAM变体。
表9.残基1219、1335、1337和1218处的NGT PAM变体突变
变体 | E1219V | R1335Q | T1337 | G1218 |
1 | F | V | T | |
2 | F | V | R | |
3 | F | V | Q | |
4 | F | V | L | |
5 | F | V | T | R |
6 | F | V | R | R |
7 | F | V | Q | R |
8 | F | V | L | R |
在一些实施方案中,NGT PAM选自下表10中提供的变体。
表10.NGT PAM变体
在一些实施方案中,NGTN变体是变体1。在一些实施方案中,NGTN变体是变体2。在一些实施方案中,NGTN变体是变体3。在一些在实施方案中,NGTN变体是变体4。在一些实施方案中,NGTN变体是变体5。在一些实施方案中,NGTN变体是变体6。
在一些实施方案中,Cas9结构域是来自酿脓链球菌的Cas9结构域(SpCas9)。在一些实施方案中,SpCas9结构域是核酸酶活性SpCas9、核酸酶非活性SpCas9(SpCas9d)或SpCas9切口酶(SpCas9n)。在一些实施方案中,SpCas9包含D9X突变或本文提供的任何氨基酸序列中的相应突变,其中X是除D之外的任何氨基酸。在一些实施方案中,SpCas9包含D9A突变或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,SpCas9结构域、SpCas9d结构域或SpCas9n结构域可以与具有非规范PAM的核酸序列结合。在一些实施方案中,SpCas9结构域、SpCas9d结构域或SpCas9n结构域可以与具有NGG、NGA或NGCG PAM序列的核酸序列结合。
在一些实施方案中,SpCas9结构域包含D1135X、R1335X和T1337X突变中的一者或多者或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域包含D1135E、R1335Q和T1337R突变中的一者或多者或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,SpCas9结构域包含D1135E、R1335Q和T1337R突变或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,SpCas9结构域包含D1135X、R1335X和T1337X突变中的一者或多者或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域包含D1135V、R1335Q和T1337R突变中的一者或多者或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,SpCas9结构域包含D1135V、R1335Q和T1337R突变或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,SpCas9结构域包含D1135X、G1218X、R1335X和T1337X突变中的一者或多者或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域包含D1135V、G1218R、R1335Q和T1337R突变中的一者或多者或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,SpCas9结构域包含D1135V、G1218R、R1335Q和T1337R突变或本文提供的任何氨基酸序列中的相应突变。
在一些示例中,可以在与编码碱基编辑器的插入物(例如,AAV插入物)分开的寡核苷酸上对细胞提供由本文公开的碱基编辑器的CRISPR蛋白来源的结构域识别的PAM。在这类实施方案中,在单独的寡核苷酸上提供PAM可允许切割原本无法切割的靶序列,因为在与靶序列相同的多核苷酸上不存在相邻的PAM。
在一实施方案中,酿脓链球菌Cas9(SpCas9)可用作用于基因组工程化的CRISPR核酸内切酶。然而,也可以使用其它的。在一些实施方案中,不同的核酸内切酶可用于靶向某些基因组靶标。在一些实施方案中,可以使用具有非NGG PAM序列的合成SpCas9来源的变体。另外,已经鉴定了来自各种物种的其它Cas9直系同源物,并且这些“非SpCas9”可结合也可用于本公开的多种PAM序列。例如,相对较大的SpCas9(大约4kb编码序列)可产生携带不能在细胞中有效表达的SpCas9 cDNA的质粒。相反,金黄色葡萄球菌Cas9(SaCas9)的编码序列比SpCas9短大约1千个碱基,这可能允许其在细胞中有效表达。与SpCas9类似,SaCas9核酸内切酶能够在体外修饰哺乳动物细胞中的靶基因和在体内修饰小鼠中的靶基因。在一些实施方案中,Cas蛋白可靶向不同的PAM序列。在一些实施方案中,靶基因可与例如Cas9PAM,即5’-NGG相邻。在其它实施方案中,其它Cas9直系同源物可具有不同的PAM要求。例如,也可以发现其它PAM与靶基因相邻,如嗜热链球菌(CRISPR1为5’-NNAGAA,且CRISPR3为5’-NGGNG)和脑膜炎奈瑟氏球菌(5’-NNNNGATT)的那些。
在一些实施方案中,对于酿脓链球菌系统,靶基因序列可以在5’-NGG PAM之前(即,其5’侧),且20-nt引导RNA序列可以与相对的链碱基配对,以介导与PAM相邻的Cas9切割。在一些实施方案中,相邻切割可以是PAM上游的3个碱基对或可以是约3个碱基对。在一些实施方案中,相邻切割可以是PAM上游的10个碱基对或可以是约10个碱基对。在一些实施方案中,相邻切割可以是PAM上游的0-20个碱基对或可以是约0-20个碱基对。例如,相邻切割可紧邻PAM上游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个碱基对。相邻切割也可以是PAM下游的1-30个碱基对。能够结合PAM序列的示例性SpCas9蛋白的序列如下:
在一些实施方案中,工程化的SpCas9变体能够识别侧接3′H(非G PAM)的原型间隔区序列相邻基序(PAM)序列(参见表3A-3D)。在一些实施方案中,SpCas9变体识别NRNH PAM(其中R是A或G,且H是A、C或T)。在一些实施方案中,非G PAM是NRRH、NRTH或NRCH(参见例如Miller,S.M.等人,Continuous evolution of SpCas9variants compatible with non-GPAMs,Nat.Biotechnol.(2020),该文献的内容以全文引用的方式并入本文)。
在一些实施方案中,Cas9结构域是重组Cas9结构域。在一些实施方案中,重组Cas9结构域是SpyMacCas9结构域。在一些实施方案中,SpyMacCas9结构域是核酸酶活性SpyMacCas9、核酸酶非活性SpyMacCas9(SpyMacCas9d)或SpyMacCas9切口酶(SpyMacCas9n)。在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可以与具有非规范PAM的核酸序列结合。在一些实施方案中,SpyMacCas9结构域、SpCas9d结构域或SpCas9n结构域可以与具有NAA PAM序列的核酸序列结合。
具有天然5’-NAAN-3’PAM特异性的猕猴链球菌(Streptococcus macacae)中的SpyCas9的示例性Cas9 A同源物的序列是本领域中已知的,并且描述于例如Jakimo等人(Chatterjee等人,“A Cas9 with PAM recognition for adenine dinucleotides”,Nature Communications,第11卷,文章编号2474(2020))中,并且在序列表中为SEQ ID NO:241。
在一些实施方案中,变体Cas9蛋白携带H840A、P475A、W476A、N477A、D1125A、W1126A和D1218A突变,使得多肽切割靶DNA或RNA的能力降低。这种Cas9蛋白切割靶DNA(例如,单链靶DNA)的能力降低,但保留结合靶DNA(例如,单链靶DNA)的能力。作为另一非限制性示例,在一些实施方案中,变体Cas9蛋白携带D10A、H840A、P475A、W476A、N477A、D1125A、W1126A和D1218A突变,使得多肽切割靶DNA的能力降低。这种Cas9蛋白切割靶DNA(例如,单链靶DNA)的能力降低,但保留结合靶DNA(例如,单链靶DNA)的能力。在一些实施方案中,当变体Cas9蛋白携带W476A和W1126A突变时或当变体Cas9蛋白携带P475A、W476A、N477A、D1125A、W1126A和D1218A突变时,变体Cas9蛋白不与PAM序列有效结合。因此,在一些这类情况下,当这种变体Cas9蛋白用在结合的方法中时,所述方法不需要PAM序列。换句话说,在一些实施方案中,当这种变体Cas9蛋白用在结合的方法中时,所述方法可包括引导RNA,但所述方法可以在不存在PAM序列的情况下进行(且结合的特异性因此由引导RNA的靶向区段提供)。可以使其它残基突变以实现上述效果(即,使一个或其它核酸酶部分失活)。作为非限制性示例,残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987可以被改变(即,取代)。而且,除了丙氨酸取代之外的突变也是合适的。
在一些实施方案中,碱基编辑器的CRISPR蛋白来源的结构域可包含具有规范PAM序列(NGG)的Cas9蛋白的全部或一部分。在其它实施方案中,碱基编辑器的Cas9来源的结构域可采用非规范PAM序列。这类序列在本领域中已经有所描述,并且对技术人员来说将是显而易见的。例如,以下文献中已经描述了结合非规范PAM序列的Cas9结构域:Kleinstiver,B.P.等人,“Engineered CRISPR-Cas9 nucleases with altered PAM specificities”Nature 523,481-485(2015);和Kleinstiver,B.P.等人,“Broadening the targetingrange of Staphylococcus aureus CRISPR-Cas9 by modifying PAM recognition”Nature Biotechnology 33,1293-1298(2015);R.T.Walton等人,“Unconstrained genometargeting with near-PAMless engineered CRISPR-Cas9 variants”Science 10.1126/science.aba8853(2020);Hu等人,“Evolved Cas9 variants with broad PAMcompatibility and high DNA specificity,”Nature,2018年4月5日,556(7699),57-63;Miller等人,“Continuous evolution of SpCas9 variants compatible with non-GPAMs”Nat.Biotechnol.,2020年4月;38(4):471-481;上述文献每一者的全部内容以引用的方式特此并入。
包含NapDNAbp和胞苷脱氨酶和/或腺苷脱氨酶的融合蛋白
本公开的一些方面提供包含Cas9结构域或其它核酸可编程DNA结合蛋白(例如,Cas12)和一个或多个胞苷脱氨酶或腺苷脱氨酶结构域的融合蛋白。应当了解的是,Cas9结构域可以是本文提供的任何Cas9结构域或Cas9蛋白(例如,dCas9或nCas9)。在一些实施方案中,本文提供的任何Cas9结构域或Cas9蛋白(例如,dCas9或nCas9)可以与本文提供的任何胞苷脱氨酶和/或腺苷脱氨酶融合。本文公开的碱基编辑器的结构域可以按任何顺序排列。
在一些实施方案中,融合蛋白包含以下结构域A-C、A-D或A-E:
NH2-[A-B-C]-COOH;
NH2-[A-B-C-D]-COOH;或
NH2-[A-B-C-D-E]-COOH;
其中A和C或A、C和E各自包含以下中的一者或多者:
腺苷脱氨酶结构域或其活性片段,
胞苷脱氨酶结构域或其活性片段,且
其中B或B和D各自包含一个或多个具有核酸序列特异性结合活性的结构域。
在一些实施方案中,融合蛋白包含以下结构:
NH2-[An-Bo-Cn]-COOH;
NH2-[An-Bo-Cn-Do]-COOH;或
NH2-[An-Bo-Cp-Do-Eq]-COOH;
其中A和C或A、C和E各自包含以下中的一者或多者:
腺苷脱氨酶结构域或其活性片段,
胞苷脱氨酶结构域或其活性片段,且
其中n是整数:1、2、3、4或5,其中p是整数:0、1、2、3、4或5;其中q是整数0、1、2、3、4或5;且其中B或B和D各自包含具有核酸序列特异性结合活性的结构域;并且其中o是整数:1、2、3、4或5。
例如且不限于,在一些实施方案中,融合蛋白包含以下结构:
NH2-[腺苷脱氨酶]-[Cas9结构域]-COOH;
NH2-[Cas9结构域]-[腺苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9结构域]-COOH;
NH2-[Cas9结构域]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9结构域]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[Cas9结构域]-[胞苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[胞苷脱氨酶]-[Cas9结构域]-COOH;
NH2-[胞苷脱氨酶]-[腺苷脱氨酶]-[Cas9结构域]-COOH;
NH2-[Cas9结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH;或
NH2-[Cas9结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH。
在一些实施方案中,本文提供的任何Cas12结构域或Cas12蛋白可以与本文提供的任何胞苷或腺苷脱氨酶融合。例如且不限于,在一些实施方案中,融合蛋白包含以下结构:
NH2-[腺苷脱氨酶]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[腺苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas12结构域]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[Cas12结构域]-[胞苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[胞苷脱氨酶]-[Cas12结构域]-COOH;
NH2-[胞苷脱氨酶]-[腺苷脱氨酶]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH;或
NH2-[Cas12结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH。
在一些实施方案中,腺苷脱氨酶是TadA*8。示例性融合蛋白结构包括以下:
NH2-[TadA*8]-[Cas9结构域]-COOH;
NH2-[Cas9结构域]-[TadA*8]-COOH;
NH2-[TadA*8]-[Cas12结构域]-COOH;或
NH2-[Cas12结构域]-[TadA*8]-COOH。
在一些实施方案中,融合蛋白的腺苷脱氨酶包含TadA*8和胞苷脱氨酶和/或腺苷脱氨酶。在一些实施方案中,TadA*8是TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23或TadA*8.24。
示例性融合蛋白结构包括以下:
NH2-[TadA*8]-[Cas9/Cas12]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[Cas9/Cas12]-[TadA*8]-COOH;
NH2-[TadA*8]-[Cas9/Cas12]-[胞苷脱氨酶]-COOH;或
NH2-[胞苷脱氨酶]-[Cas9/Cas12]-[TadA*8]-COOH。
在一些实施方案中,融合蛋白的腺苷脱氨酶包含TadA*9和胞苷脱氨酶和/或腺苷脱氨酶。示例性融合蛋白结构包括以下:
NH2-[TadA*9]-[Cas9/Cas12]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[Cas9/Cas12]-[TadA*9]-COOH;
NH2-[TadA*9]-[Cas9/Cas12]-[胞苷脱氨酶]-COOH;或
NH2-[胞苷脱氨酶]-[Cas9/Cas12]-[TadA*9]-COOH。
在一些实施方案中,融合蛋白可包含侧接Cas9或Cas12多肽的N末端片段和C末端片段的脱氨酶。在一些实施方案中,融合蛋白包含侧接Cas9或Cas12多肽的N末端片段和C末端片段的胞苷脱氨酶。在一些实施方案中,融合蛋白包含侧接Cas9或Cas12多肽的N末端片段和C末端片段的腺苷脱氨酶。
在一些实施方案中,包含胞苷脱氨酶或腺苷脱氨酶和napDNAbp(例如,Cas9或Cas12结构域)的融合蛋白不包括接头序列。在一些实施方案中,胞苷或腺苷脱氨酶与napDNAbp之间存在接头。在一些实施方案中,上述一般架构中使用的“-”表示存在任选接头。在一些实施方案中,胞苷或腺苷脱氨酶和napDNAbp经由本文提供的任何接头融合。例如,在一些实施方案中,胞苷或腺苷脱氨酶和napDNAbp经由本文提供的任何接头融合。
应当了解的是,本公开的融合蛋白可包含一种或多种另外的特征。例如,在一些实施方案中,融合蛋白可包含抑制剂、细胞质定位序列、输出序列(如核输出序列)或其它定位序列以及可用于融合蛋白的溶解、纯化或检测的序列标签。本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载体蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血凝素(HA)标签、多组氨酸标签(也称为组氨酸标签或His标签)、麦芽糖结合蛋白(MBP)标签、nus标签、谷胱甘肽-S-转移酶(GST)标签、绿色荧光蛋白(GFP)标签、硫氧还蛋白标签、S标签、软标签(例如,软标签1、软标签3)、链球菌标签、生物素连接酶标签、FlAsH标签、V5标签和SBP标签。另外合适的序列对于本领域技术人员来说将是显而易见的。在一些实施方案中,融合蛋白包含一个或多个His标签。
国际PCT申请第PCT/2017/044935、PCT/US2019/044935和PCT/US2020/016288号中描述了示例性但非限制性的融合蛋白,上述申请中的每一者以全文引用的方式并入本文。
包含核定位序列(NLS)的融合蛋白
在一些实施方案中,本文提供的融合蛋白进一步包含一个或多个(例如,2、3、4、5个)核靶向序列,例如核定位序列(NLS)。在一个实施方案中,使用二分NLS。在一些实施方案中,NLS包含促进包含NLS的蛋白质输入到细胞核中(例如,通过核转运)的氨基酸序列。在一些实施方案中,NLS与融合蛋白的N末端或C末端融合。在一些实施方案中,NLS与nCas9结构域或dCas9结构域的C末端或N末端融合。在一些实施方案中,NLS与Cas12结构域的N末端或C末端融合。在一些实施方案中,NLS与胞苷或腺苷脱氨酶的N末端或C末端融合。在一些实施方案中,NLS经由一个或多个接头与融合蛋白融合。在一些实施方案中,NLS在没有接头的情况下与融合蛋白融合。在一些实施方案中,NLS包含本文提供或提到的任一种NL S序列的氨基酸序列。另外的核定位序列是本领域中已知的,并且对技术人员来说将是显而易见的。例如,Plank等人,PCT/EP2000/011690中描述了NLS序列,该申请就其公开的示例性核定位序列的内容以引用的方式并入本文。在一些实施方案中,NLS包含氨基酸序列PKKKRKVEGADKRTADGSEFESPKKKRKV(SEQ ID NO:332)、KR TADGSEFESPKKKRKV(SEQ ID NO:194)、KRPAATKKAGQAKK KK(SEQ ID NO:195)、KKTELQTTNAENKTKKL(SEQ ID NO:196)、KRGINDRNFWRGENGRKTR(SEQ ID NO:197)、RKSGKI AAIVVKRPRKPKKKRKV(SEQ ID NO:333)或MDSLLMNRRKFL YQFKNVRWAKGRRETYLC(SEQ ID NO:200)。
在一些实施方案中,包含胞苷或腺苷脱氨酶、Cas9结构域和NLS的融合蛋白不包含接头序列。在一些实施方案中,存在一个或多个结构域或蛋白质(例如,胞苷或腺苷脱氨酶、Cas9结构域或NLS)之间的接头序列。在一些实施方案中,在胞苷脱氨酶和腺苷脱氨酶结构域与napDNAbp之间存在接头。在一些实施方案中,下面的一般架构中使用的“-”表示存在任选接头。在一些实施方案中,胞苷脱氨酶和腺苷脱氨酶及napDNAbp经由本文提供的任何接头融合。例如,在一些实施方案中,胞苷脱氨酶和腺苷脱氨酶及napDNAbp经由本文提供的任何接头融合。
在一些实施方案中,具有胞苷或腺苷脱氨酶和napDNAbp(例如,Cas9或Cas12)结构域的示例性napDNAbp(例如,Cas9或Cas12)融合蛋白的一般架构包含以下结构中的任一者,其中NLS是核定位序列(例如,本文提供的任何NLS),NH2是融合蛋白的N末端,且COOH是融合蛋白的C末端:
NH2-NLS-[胞苷脱氨酶]-[napDNAbp结构域]-COOH;
NH2-NLS[napDNAbp结构域]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[napDNAbp结构域]-NLS-COOH;
NH2-[napDNAbp结构域]-[胞苷脱氨酶]-NLS-COOH;
NH2-NLS-[腺苷脱氨酶]-[napDNAbp结构域]-COOH;
NH2-NLS[napDNAbp结构域]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[napDNAbp结构域]-NLS-COOH;
NH2-[napDNAbp结构域]-[腺苷脱氨酶]-NLS-COOH;
NH2-NLS-[胞苷脱氨酶]-[napDNAbp结构域]-[腺苷脱氨酶]-COOH;
NH2-NLS-[腺苷脱氨酶]-[napDNAbp结构域]-[胞苷脱氨酶]-COOH;
NH2-NLS-[腺苷脱氨酶][胞苷脱氨酶]-[napDNAbp结构域]-COOH;
NH2-NLS-[胞苷脱氨酶]-[腺苷脱氨酶]-[napDNAbp结构域]-COOH;
NH2-NLS-[napDNAbp结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH;
NH2-NLS-[napDNAbp结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[napDNAbp结构域]-[腺苷脱氨酶]-NLS-COOH;
NH2-[腺苷脱氨酶]-[napDNAbp结构域]-[胞苷脱氨酶]-NLS-COOH;
NH2-[腺苷脱氨酶][胞苷脱氨酶]-[napDNAbp结构域]-NLS-COOH;
NH2-[胞苷脱氨酶]-[腺苷脱氨酶]-[napDNAbp结构域]-NLS-COOH;
NH2-[napDNAbp结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-NLS-COOH;或
NH2-[napDNAbp结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-NLS-COOH。在一些实施方案中,NLS存在于接头中,或者NLS侧接例如本文所述的接头。二分NLS包含两个碱性氨基酸簇,它们被相对较短的间隔区序列隔开(因此是二分的-2个部分,而单分NLS则不然)。核质蛋白的NLS,KR[PAATKKAGQA]KKKK(SEQ ID NO:195),是普遍存在的二分信号的原型:碱性氨基酸的两个簇,由约10个氨基酸的间隔区隔开。示例性二分NLS的序列如下:
PKKKRKVEGADKRTADGSEFESPKKKRKV(SEQ ID NO:332)
可以使用编码包含一个或多个核定位序列(NLS)的CRISPR酶的载体。例如,可以使用1、2、3、4、5、6、7、8、9、10个NLS或约1、2、3、4、5、6、7、8、9、10个NLS。CRISPR酶可以包含在氨基末端或附近的NLS,在羧基末端或附近的约或多于约1、2、3、4、5、6、7、8、9、10个NLS,或其任意组合(例如,在氨基末端的一个或多个NLS和在羧基末端的一个或多个NLS)。当存在多于一个NLS时,每个都可以独立于其它进行选择,使得单个NLS可存在于多于一个拷贝中,和/或与一个或多个其它NLS组合存在于一个或多个拷贝中。
所述方法中使用的CRISPR酶可包含约6个NLS。当与NLS最近的氨基酸在沿着多肽链距N或C末端约50个氨基酸以内(例如1、2、3、4、5、10、15、20、25、30、40或50个氨基酸以内)时,NLS被认为在N或C末端附近。
另外的结构域
本文所述的碱基编辑器可包括有助于促进多核苷酸的核碱基的核碱基编辑、修饰或改变的任何结构域。在一些实施方案中,碱基编辑器包含多核苷酸可编程核苷酸结合结构域(例如,Cas9)、核碱基编辑结构域(例如,脱氨酶结构域)和一个或多个另外的结构域。在一些实施方案中,另外的结构域可促进碱基编辑器的酶促或催化功能、碱基编辑器的结合功能,或者是可以干扰所需碱基编辑结果的细胞机器(例如,酶)的抑制剂。在一些实施方案中,碱基编辑器可包含核酸酶、切口酶、重组酶、脱氨酶、甲基转移酶、甲基化酶、乙酰化酶、乙酰基转移酶、转录激活因子或转录抑制因子结构域。
在一些实施方案中,碱基编辑器可包含尿嘧啶糖基化酶抑制剂(UGI)结构域。在一些实施方案中,对U:G异源双链体DNA的存在的细胞DNA修复反应可能是细胞中核碱基编辑效率降低的原因。在这类实施方案中,尿嘧啶DNA糖基化酶(UDG)可催化从细胞中的DNA中移除U,这可以启动碱基切除修复(BER),主要导致U:G对回复为C:G对。在这类实施方案中,可以在包含一个或多个结合单链、阻断所编辑的碱基、抑制UGI、抑制BER、保护所编辑的碱基和/或促进非编辑链的修复的结构域的碱基编辑器中抑制BER。因此,本公开考虑了包含UGI结构域的碱基编辑器融合蛋白。
在一些实施方案中,碱基编辑器包含双链断裂(DSB)结合蛋白的全部或一部分作为结构域。例如,DSB结合蛋白可包括噬菌体Mu的Gam蛋白,其可与DSB的端部结合,并且可以保护它们免于降解。参见Komor,A.C.等人,“Improved base excision repair inhibitionand bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances 3:eaao4774(2017),该文献的全部内容以引用的方式特此并入。
另外,在一些实施方案中,Gam蛋白可与碱基编辑器的N末端融合。在一些实施方案中,Gam蛋白可与碱基编辑器的C末端融合。噬菌体Mu的Gam蛋白可与双链断裂(DSB)的端部结合,并保护它们免于降解。在一些实施方案中,使用Gam来结合DSB的游离端可在碱基编辑过程期间减少插入缺失形成。在一些实施方案中,174个残基的Gam蛋白与碱基编辑器的N末端融合。参见Komor,A.C.等人,“Improved base excision repair inhibition andbacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances 3:eaao4774(2017)。在一些实施方案中,突变或多个突变可改变碱基编辑器结构域相对于野生型结构域的长度。例如,至少一个结构域中至少一个氨基酸的缺失可减小碱基编辑器的长度。在另一种情况下,突变或多个突变不改变结构域相对于野生型结构域的长度。例如,任何结构域中的取代都不改变碱基编辑器的长度。
在所有结构域的长度与野生型结构域相同的情况下,这类碱基编辑器的非限制性示例可包括:
NH2-[核碱基编辑结构域]-接头1-[APOBEC1]-接头2-[核碱基编辑结构域]-COOH;
NH2-[核碱基编辑结构域]-接头1-[APOBEC1]-[核碱基编辑结构域]-COOH;
NH2-[核碱基编辑结构域]-[APOBEC1]-接头2-[核碱基编辑结构域]-COOH;
NH2-[核碱基编辑结构域]-[APOBEC1]-[核碱基编辑结构域]-COOH;
NH2-[核碱基编辑结构域]-接头1-[APOBEC1]-接头2-[核碱基编辑结构域]-[UGI]-COOH;
NH2-[核碱基编辑结构域]-接头1-[APOBEC1]-[核碱基编辑结构域]-[UGI]-COOH;
NH2-[核碱基编辑结构域]-[APOBEC1]-接头2-[核碱基编辑结构域]-[UGI]-COOH;
NH2-[核碱基编辑结构域]-[APOBEC1]-[核碱基编辑结构域]-[UGI]-COOH;
NH2-[UGI]-[核碱基编辑结构域]-接头1-[APOBEC1]-接头2-[核碱基编辑结构域]-COOH;
NH2-[UGI]-[核碱基编辑结构域]-接头1-[APOBEC1]-[核碱基编辑结构域]-COOH;
NH2-[UGI]-[核碱基编辑结构域]-[APOBEC1]-接头2-[核碱基编辑结构域]-COOH;或
NH2-[UGI]-[核碱基编辑结构域]-[APOBEC1]-[核碱基编辑结构域]-COOH。
碱基编辑器系统
本文提供了使用碱基编辑器系统编辑核碱基的系统、组合物和方法。在一些实施方案中,碱基编辑器系统包含(1)包含多核苷酸可编程核苷酸结合结构域和用于编辑核碱基的核碱基编辑结构域(例如,脱氨酶结构域)的碱基编辑器(BE);和(2)与多核苷酸可编程核苷酸结合结构域结合的引导多核苷酸(例如,引导RNA)。在一些实施方案中,碱基编辑器系统是胞苷碱基编辑器(CBE)或腺苷碱基编辑器(ABE)。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是多核苷酸可编程DNA或RNA结合结构域。在一些实施方案中,核碱基编辑结构域是脱氨酶结构域。在一些实施方案中,脱氨酶结构域可以是胞苷脱氨酶或胞嘧啶脱氨酶。在一些实施方案中,脱氨酶结构域可以是腺嘌呤脱氨酶或腺苷脱氨酶。在一些实施方案中,腺苷碱基编辑器可以使DNA中的腺嘌呤脱氨基。在一些实施方案中,碱基编辑器能够使DNA中的胞苷脱氨基。
在一些实施方案中,如本文提供的碱基编辑系统提供了一种基因组编辑的新方法,所述方法使用含有催化缺陷型酿脓链球菌Cas9、脱氨酶(例如,胞苷或腺苷脱氨酶)和碱基切除修复的抑制剂的融合蛋白来诱导DNA中的可编程单核苷酸(C→T或A→G)变化,而不产生双链DNA断裂,不需要供体DNA模板,并且不诱导过量的随机插入和缺失。
国际PCT申请第PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)号中描述了核碱基编辑蛋白的细节,上述申请中的每一者以全文引用的方式并入本文。另参见Komor,A.C.等人,“Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.等人,“Programmable base editing of A·T转化为G·C in genomic DNAwithout DNAcleavage”Nature 551,464-471(2017);和Komor,A.C.等人,“Improved baseexcision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),上述文献的全部内容以引用的方式特此并入。
使用本文提供的碱基编辑器系统包括如下步骤:(a)使受试者的多核苷酸(例如,双链或单链DNA或RNA)的靶核苷酸序列与包含核碱基编辑器(例如,腺苷碱基编辑器或胞苷碱基编辑器)和引导多核酸(例如,gRNA)的碱基编辑器系统接触,其中靶核苷酸序列包含被靶向的核碱基对;(b)诱导所述靶区域的链分离;(c)将靶区域的单链中的所述靶核碱基对的第一核碱基转化为第二核碱基;并(d)切割所述靶区域的不多于一条链,其中与第一核碱基互补的第三核碱基被与第二核碱基互补的第四核碱基替换。应当了解的是,在一些实施方案中,省略步骤(b)。在一些实施方案中,所述被靶向的核碱基对是一个或多个基因中的多个核碱基对。在一些实施方案中,本文提供的碱基编辑器系统能够对一个或多个基因中的多个核碱基对进行多重编辑。在一些实施方案中,多个核碱基对位于同一基因中。在一些实施方案中,多个核碱基对位于一个或多个基因中,其中至少一个基因位于不同的基因座中。
在一些实施方案中,使切割的单链(切口链)与引导核酸杂交。在一些实施方案中,切割的单链与包含第一核碱基的链相对。在一些实施方案中,碱基编辑器包含Cas9结构域。在一些实施方案中,第一碱基是腺嘌呤,且第二碱基不是G、C、A或T。在一些实施方案中,第二碱基是肌苷。
在一些实施方案中,可利用单引导多核苷酸将脱氨酶靶向靶核酸序列。在一些实施方案中,可利用单对引导多核苷酸将不同的脱氨酶靶向靶核酸序列。
碱基编辑器系统的组件(例如,脱氨酶结构域、引导RNA和/或多核苷酸可编程核苷酸结合结构域)可彼此共价或非共价缔合。例如,在一些实施方案中,脱氨酶结构域可通过多核苷酸可编程核苷酸结合结构域被靶向靶核苷酸序列,任选其中多核苷酸可编程核苷酸结合结构域与多核苷酸(例如,引导RNA)复合。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以与脱氨酶结构域融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可通过与脱氨酶结构域的非共价相互作用或缔合将脱氨酶结构域靶向靶核苷酸序列。例如,在一些实施方案中,核碱基编辑组件(例如,脱氨酶组件)包含另外的异源部分或结构域,其能够与作为多核苷酸可编程核苷酸结合结构域和/或与其复合的引导多核苷酸(例如,引导RNA)的一部分的相应异源部分、抗原或结构域相互作用、缔合或能够与之形成复合物。在一些实施方案中,多核苷酸可编程核苷酸结合结构域和/或与其复合的引导多核苷酸(例如,引导RNA)包含另外的异源部分或结构域,其能够与作为核碱基编辑结构域(例如,脱氨酶组件)的一部分的相应异源部分、抗原或结构域相互作用、缔合或能够与之形成复合物。在一些实施方案中,另外的异源部分可以能够与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,另外的异源部分可以能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,另外的异源部分可以能够与引导多核苷酸结合。在一些实施方案中,另外的异源部分可以能够与多肽接头结合。在一些实施方案中,另外的异源部分能够与多核苷酸接头结合。另外的异源部分可以是蛋白质结构域。在一些实施方案中,另外的异源部分包含多肽,如λ噬菌体抗终止子蛋白N(N22p)的22个氨基酸的RNA结合结构域、2G12 IgG同二聚体结构域、ABI、抗体(例如结合碱基编辑器系统的组件或其异源部分的抗体)或其片段(例如IgM(MHD2)或IgE(EHD2)的重链结构域2(CH2)、免疫球蛋白Fc区、IgG或IgA的重链结构域3(CH3)、IgM或IgE的重链结构域4(CH4)、Fab、Fab2、微抗体和/或ZIP抗体)、barnase-barstar二聚体结构域、Bcl-xL结构域、钙调神经磷酸酶A(CAN)结构域、心脏受磷蛋白跨膜五聚体结构域、胶原结构域、Com RNA结合蛋白结构域(例如SfMu Com外壳蛋白结构域和SfMu Com结合蛋白结构域)、亲环蛋白-Fas融合蛋白(CyP-Fas)结构域、Fab结构域、Fe结构域、纤维素蛋白折叠子结构域、FK506结合蛋白(FKBP)结构域、mTOR的FKBP结合结构域(FRB)结构域、折叠子结构域、片段X结构域、GAI结构域、GID1结构域、血型糖蛋白A跨膜结构域、GyrB结构域、Halo标签、HIV Gp41三聚化结构域、HPV45癌蛋白E7 C末端二聚体结构域、疏水性多肽、K同源(KH)结构域、Ku蛋白结构域(例如,Ku异二聚体)、亮氨酸拉链、LOV结构域、线粒体抗病毒信号传导蛋白CARD丝结构域、MS2外壳蛋白结构域(MCP)、结合相应RNA基序/适体的非天然RNA适体配体、甲状旁腺激素二聚化结构域、PP7外壳蛋白(PCP)结构域、PSD95-Dlgl-zo-1(PDZ)结构域、PYL结构域、SNAP标签、SpyCatcher部分、SpyTag部分、链霉亲和素结构域、链霉亲和素结合蛋白结构域、链霉亲和素结合蛋白(SBP)结构域、端粒酶Sm7蛋白结构域(例如Sm7同七聚体或单体Sm样蛋白)和/或其片段。在若干实施方案中,另外的异源部分包含多核苷酸(例如,RNA基序),如MS2噬菌体操纵子茎环(例如MS2、MS2 C-5突变体或MS2 F-5突变体)、非天然RNA基序、PP7操纵子茎环、SfMu phate Com茎环、sterilα基序、端粒酶Ku结合基序、端粒酶Sm7结合基序和/或其片段。另外的异源部分的非限制性示例包括与SEQ ID NO:385、387、389、391-393或其片段中的任何一者或多者具有至少约85%序列同一性的多肽。另外的异源部分的非限制性示例包括与SEQ ID NO:384、386、388、390或其片段中的任何一者或多者具有至少约85%序列同一性的多核苷酸。
碱基编辑器系统可进一步包含引导多核苷酸组件。应当了解的是,碱基编辑器系统的组件可经由共价键、非共价相互作用或其缔合和相互作用的任意组合彼此缔合。在一些实施方案中,脱氨酶结构域可通过引导多核苷酸被靶向靶核苷酸序列。例如,在一些实施方案中,碱基编辑器系统的核碱基编辑组件(例如,脱氨酶组件)包含能够与异源部分或区段(例如,多核苷酸基序)或引导多核苷酸的抗原相互作用、缔合或能够与之形成复合物的另外的异源部分或结构域(例如,多核苷酸结合结构域,如RNA或DNA结合蛋白)。在一些实施方案中,另外的异源部分或结构域(例如,多核苷酸结合结构域,如RNA或DNA结合蛋白)可以与脱氨酶结构域融合或连接。在一些实施方案中,另外的异源部分可以能够与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,另外的异源部分可以能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,另外的异源部分可以能够与引导多核苷酸结合。在一些实施方案中,另外的异源部分可以能够与多肽接头结合。在一些实施方案中,另外的异源部分可以能够与多核苷酸接头结合。另外的异源部分可以是蛋白质结构域。在一些实施方案中,另外的异源部分包含多肽,如λ噬菌体抗终止子蛋白N的22个氨基酸的RNA结合结构域(N22p)、2G12 IgG同二聚体结构域、ABI、抗体(例如结合碱基编辑器系统的组件或其异源部分的抗体)或其片段(例如IgM(MHD2)或IgE(EHD2)的重链结构域2(CH2)、免疫球蛋白Fc区、IgG或IgA的重链结构域3(CH3)、IgM或IgE的重链结构域4(CH4)、Fab、Fab2、微抗体和/或ZIP抗体)、barnase-barstar二聚体结构域、Bcl-xL结构域、钙调神经磷酸酶A(CAN)结构域、心脏受磷蛋白跨膜五聚体结构域、胶原结构域、Com RNA结合蛋白结构域(例如SfMu Com外壳蛋白结构域和SfMu Com结合蛋白结构域)、亲环蛋白-Fas融合蛋白(CyP-Fas)结构域、Fab结构域、Fe结构域、纤维素蛋白折叠子结构域、FK506结合蛋白(FKBP)结构域、mTOR的FKBP结合结构域(FRB)结构域、折叠子结构域、片段X结构域、GAI结构域、GID1结构域、血型糖蛋白A跨膜结构域、GyrB结构域、Halo标签、HIV Gp41三聚化结构域、HPV45癌蛋白E7 C末端二聚体结构域、疏水性多肽、K同源(KH)结构域、Ku蛋白结构域(例如,Ku异二聚体)、亮氨酸拉链、LOV结构域、线粒体抗病毒信号传导蛋白CARD丝结构域、MS2外壳蛋白结构域(MCP)、结合相应RNA基序/适体的非天然RNA适体配体、甲状旁腺激素二聚化结构域、PP7外壳蛋白(PCP)结构域、PSD95-Dlgl-zo-1(PDZ)结构域、PYL结构域、SNAP标签、SpyCatcher部分、SpyTag部分、链霉亲和素结构域、链霉亲和素结合蛋白结构域、链霉亲和素结合蛋白(SBP)结构域、端粒酶Sm7蛋白结构域(例如Sm7同七聚体或单体Sm样蛋白)和/或其片段。在若干实施方案中,另外的异源部分包含多核苷酸(例如,RNA基序),如MS2噬菌体操纵子茎环(例如MS2、MS2 C-5突变体或MS2F-5突变体)、非天然RNA基序、PP7操纵子茎环、SfMu phate Com茎环、sterilα基序、端粒酶Ku结合基序、端粒酶Sm7结合基序和/或其片段。另外的异源部分的非限制性示例包括与SEQ ID NO:385、387、389、391-393或其片段中的任何一者或多者具有至少约85%序列同一性的多肽。另外的异源部分的非限制性示例包括与SEQ ID NO:384、386、388、390或其片段中的任何一者或多者具有至少约85%序列同一性的多核苷酸。
在一些实施方案中,碱基编辑器系统可进一步包含碱基切除修复(BER)组件的抑制剂。应当了解的是,碱基编辑器系统的组件可经由共价键、非共价相互作用或其缔合和相互作用的任意组合彼此缔合。BER组件的抑制剂可包含碱基切除修复抑制剂。在一些实施方案中,碱基切除修复的抑制剂可以是尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方案中,碱基切除修复的抑制剂可以是肌苷碱基切除修复抑制剂。在一些实施方案中,碱基切除修复的抑制剂可以通过多核苷酸可编程核苷酸结合结构域被靶向靶核苷酸序列,任选其中多核苷酸可编程核苷酸结合结构域与多核苷酸(例如,引导RNA)复合。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以与碱基切除修复的抑制剂融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以与脱氨酶结构域和碱基切除修复的抑制剂融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以通过与碱基切除修复的抑制剂非共价相互作用或缔合将碱基切除修复的抑制剂靶向靶核苷酸序列。例如,在一些实施方案中,碱基切除修复组件的抑制剂包含另外的异源部分或结构域,其能够与作为多核苷酸可编程核苷酸结合结构域的一部分的相应另外的异源部分、抗原或结构域相互作用、缔合或能够与之形成复合物。在一些实施方案中,多核苷酸编程核苷酸结合结构域组件和/或与其复合的引导多核苷酸(例如,引导RNA)包含另外的异源部分或结构域,其能够与作为碱基切除修复组件的抑制剂的一部分的相应异源部分、抗原或结构域相互作用、缔合或能够形成所述的相应异源部分、抗原或结构域。在一些实施方案中,碱基切除修复的抑制剂可以通过引导多核苷酸被靶向靶核苷酸序列。例如,在一些实施方案中,碱基切除修复的抑制剂包含能够与引导多核苷酸的一部分或区段(例如,多核苷酸基序)相互作用、缔合或能够与之形成复合物的另外的异源部分或结构域(例如,多核苷酸结合结构域,如RNA或DNA结合蛋白)。在一些实施方案中,引导多核苷酸的另外的异源部分或结构域(例如,多核苷酸结合结构域,如RNA或DNA结合蛋白)可以与碱基切除修复的抑制剂融合或连接。在一些实施方案中,另外的异源部分可以能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,另外的异源部分可以能够与引导多核苷酸结合。在一些实施方案中,另外的异源部分可以能够与多肽接头结合。在一些实施方案中,另外的异源部分可以能够与多核苷酸接头结合。另外的异源部分可以是蛋白质结构域。在一些实施方案中,另外的异源部分包含多肽,如λ噬菌体抗终止子蛋白N(N22p)的22个氨基酸的RNA结合结构域、2G12 IgG同二聚体结构域、ABI、抗体(例如结合碱基编辑器系统的组件或其异源部分的抗体)或其片段(例如IgM(MHD2)或IgE(EHD2)的重链结构域2(CH2)、免疫球蛋白Fc区、IgG或IgA的重链结构域3(CH3)、IgM或IgE的重链结构域4(CH4)、Fab、Fab2、微抗体和/或ZIP抗体)、barnase-barstar二聚体结构域、Bcl-xL结构域、钙调神经磷酸酶A(CAN)结构域、心脏受磷蛋白跨膜五聚体结构域、胶原结构域、Com RNA结合蛋白结构域(例如SfMu Com外壳蛋白结构域和SfMu Com结合蛋白结构域)、亲环蛋白-Fas融合蛋白(CyP-Fas)结构域、Fab结构域、Fe结构域、纤维素蛋白折叠子结构域、FK506结合蛋白(FKBP)结构域、mTOR的FKBP结合结构域(FRB)结构域、折叠子结构域、片段X结构域、GAI结构域、GID1结构域、血型糖蛋白A跨膜结构域、GyrB结构域、Halo标签、HIV Gp41三聚化结构域、HPV45癌蛋白E7 C末端二聚体结构域、疏水性多肽、K同源(KH)结构域、Ku蛋白结构域(例如,Ku异二聚体)、亮氨酸拉链、LOV结构域、线粒体抗病毒信号传导蛋白CARD丝结构域、MS2外壳蛋白结构域(MCP)、结合相应RNA基序/适体的非天然RNA适体配体、甲状旁腺激素二聚化结构域、PP7外壳蛋白(PCP)结构域、PSD95-Dlgl-zo-1(PDZ)结构域、PYL结构域、SNAP标签、SpyCatcher部分、SpyTag部分、链霉亲和素结构域、链霉亲和素结合蛋白结构域、链霉亲和素结合蛋白(SBP)结构域、端粒酶Sm7蛋白结构域(例如Sm7同七聚体或单体Sm样蛋白)和/或其片段。在若干实施方案中,另外的异源部分包含多核苷酸(例如,RNA基序),如MS2噬菌体操纵子茎环(例如MS2、MS2 C-5突变体或MS2F-5突变体)、非天然RNA基序、PP7操纵子茎环、SfMu phate Com茎环、sterilα基序、端粒酶Ku结合基序、端粒酶Sm7结合基序和/或其片段。另外的异源部分的非限制性示例包括与SEQ ID NO:385、387、389、391-393或其片段中的任何一者或多者具有至少约85%序列同一性的多肽。另外的异源部分的非限制性示例包括与SEQ ID NO:384、386、388、390或其片段中的任何一者或多者具有至少约85%序列同一性的多核苷酸。
在一些情况下,碱基编辑系统的组件通过亮氨酸拉链结构域(例如,SEQ ID NO:392和393)的相互作用彼此缔合。在一些情况下,碱基编辑系统的组件通过多肽结构域(例如,FokI结构域)彼此缔合,所述多肽结构域缔合以形成含有约、至少约或不多于约1、2(即,二聚化)、3、4、5、6、7、8、9、10个多肽结构域单元的蛋白质复合物,任选多肽结构域可包括降低或消除其活性的改变。
在一些情况下,碱基编辑系统的组件通过多聚抗体或其片段(例如,IgG、IgD、IgA、IgM、IgE、IgM(MHD2)或IgE(EHD2)的重链结构域2(CH2)、免疫球蛋白Fc区、IgG或IgA的重链结构域3(CH3)、IgM或IgE的重链结构域4(CH4)、Fab和Fab2)的相互作用而彼此缔合。在一些情况下,抗体是二聚、三聚或四聚的。在若干实施方案中,二聚抗体结合碱基编辑系统的多肽或多核苷酸组件。
在一些情况下,碱基编辑系统的组件通过多核苷酸结合蛋白结构域与多核苷酸的相互作用而彼此缔合。在一些情况下,碱基编辑系统的组件通过一个或多个多核苷酸结合蛋白结构域与自互补和/或彼此互补的多核苷酸的相互作用而彼此缔合,使得多核苷酸彼此的互补结合使它们各自结合的多核苷酸结合蛋白结构域相缔合。
在一些情况下,碱基编辑系统的组件通过多肽结构域与小分子(例如,二聚化的化学诱导剂(CID),也称为“二聚化剂”)的相互作用而彼此缔合。CID的非限制性示例包括以下文献中公开的那些:Amara等人,“Aversatile synthetic dimerizer for the regulationof protein-protein interactions,”PNAS,94:10618-10623(1997);和Voβ等人,“Chemically induced dimerization:reversible and spatiotemporal control ofprotein function in cells,”Current Opinion in Chemical Biology,28:194-201(2015),上述文献中的每一者的公开内容出于所有目的以全文引用的方式并入本文。下表10.1中提供了可二聚化的多肽及其相应的二聚化剂的非限制性示例。
表10.1.化学诱导的二聚化系统。
在若干实施方案中,另外的异源部分是引导RNA分子的一部分。在一些情况下,另外的异源部分含有或者是RNA基序。RNA基序可位于引导RNA分子的5’或3’端或引导RNA分子的各种位置。在若干实施方案中,RNA基序位于引导RNA内以减少空间位阻,任选其中这种位阻与RNA支架的其它大体积环相关。在一些情况下,有利的是经过接头将RNA基序连接于引导RNA的其它部分,其中接头的长度可以是约、至少约或不多于约1、2、3、4、5、6、7、8、9、10或更多个核苷酸。任选地,接头含有富含GC的核苷酸序列。引导RNA可含有RNA基序的1、2、3、4、5个或更多个拷贝,任选其中它们连续定位,和/或任选它们各自通过接头彼此隔开。RNA基序可包括本文所述的多核苷酸修饰中的任何一者或多者。RNA基序的合适修饰的非限制性示例包括2’脱氧-2-氨基嘌呤、2’核糖-2-氨基嘌呤、硫代磷酸酯修饰、2’-O甲基修饰、2’-氟修饰和LNA修饰。有利地,修饰有助于增加稳定性并促进由RNA基序形成的发夹的更强的键/折叠结构。
在一些实施方案中,修饰RNA基序以包括延伸。在若干实施方案中,延伸含有约、至少约或不多于约2、3、4、5、10、15、20或25个核苷酸。在一些情况下,延伸导致由RNA基序形成的茎的长度的改变(例如,延长或缩短)。可能有利的是由RNA基序形成的茎的长度是约、至少约或不多于约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100个核苷酸。在各种实施方案中,延伸增加了RNA基序的柔性和/或增加了与相应RNA基序的结合。
在一些实施方案中,碱基编辑器抑制被编辑链的碱基切除修复(BER)。在一些实施方案中,碱基编辑器保护或结合未编辑的链。在一些实施方案中,碱基编辑器包含UGI活性。在一些实施方案中,碱基编辑器包含催化非活性肌苷特异性核酸酶。在一些实施方案中,碱基编辑器包含切口酶活性。在一些实施方案中,碱基对的预期编辑在PAM位点的上游。在一些实施方案中,碱基对的预期编辑是PAM位点上游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,碱基对的预期编辑在PAM位点的下游。在一些实施方案中,预期编辑的碱基对是PAM位点下游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。
在一些实施方案中,所述方法不需要规范的(例如,NGG)PAM位点。在一些实施方案中,核碱基编辑器包含接头或间隔区。在一些实施方案中,接头或间隔区长度为1-25个氨基酸。在一些实施方案中,接头或间隔区长度为5-20个氨基酸。在一些实施方案中,接头或间隔区长度为10、11、12、13、14、15、16、17、18、19或20个氨基酸。
在一些实施方案中,本文提供的碱基编辑融合蛋白需要定位在精确位置,例如其中将靶碱基置于限定区域内(例如,“脱氨基窗口”)。在一些实施方案中,靶标可以在4个碱基区域内。在一些实施方案中,这种限定的靶区域可以在PAM的上游大约15个碱基处。参见Komor,A.C.等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNAcleavage”Nature 533,420-424(2016);Gaudelli,N.M.等人,“Programmable base editing of A·T转化为G·Cin genomic DNAwithoutDNAcleavage”Nature 551,464-471(2017);和Komor,A.C.等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abaseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),上述文献的全部内容以引用的方式特此并入。
在一些实施方案中,靶区域包含靶窗口,其中靶窗口包含靶核碱基对。在一些实施方案中,靶窗口包含1-10个核苷酸。在一些实施方案中,靶窗口的长度是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,碱基对的预期编辑在靶窗口内。在一些实施方案中,靶窗口包含碱基对的预期编辑。在一些实施方案中,使用本文提供的任何碱基编辑器进行所述方法。在一些实施方案中,靶窗口是脱氨基窗口。脱氨基窗口可以是其中碱基编辑器作用于靶核苷酸并使靶核苷酸脱氨基的限定区域。在一些实施方案中,脱氨基窗口在2、3、4、5、6、7、8、9或10个碱基区域内。在一些实施方案中,脱氨基窗口是PAM上游的5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个碱基。
本公开的碱基编辑器可包含促进靶多核苷酸序列的编辑的任何结构域、特征或氨基酸序列。例如,在一些实施方案中,碱基编辑器包含核定位序列(NLS)。在一些实施方案中,碱基编辑器的NLS位于脱氨酶结构域与多核苷酸可编程核苷酸结合结构域之间。在一些实施方案中,碱基编辑器的NLS位于多核苷酸可编程核苷酸结合结构域的C末端。
如本文公开的碱基编辑器中可存在的其它示例性特征有定位序列,如细胞质定位序列、输出序列(如核输出序列)或其它定位序列以及可用于融合蛋白的溶解、纯化或检测的序列标签。本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载体蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血凝素(HA)标签、多组氨酸标签(也称为组氨酸标签或His标签)、麦芽糖结合蛋白(MBP)标签、nus标签、谷胱甘肽-S-转移酶(GST)标签、绿色荧光蛋白(GFP)标签、硫氧还蛋白标签、S标签、软标签(例如,软标签1、软标签3)、链球菌标签、生物素连接酶标签、FlAsH标签、V5标签和SBP标签。另外合适的序列对于本领域技术人员来说将是显而易见的。在一些实施方案中,融合蛋白包含一个或多个His标签。
在一些实施方案中,非限制性示例胞苷碱基编辑器(CBE)包括BE1(APOBEC1-XTEN-dCas9)、BE2(APOBEC1-XTEN-dCas9-UGI)、BE3(APOBEC1-XTEN-dCas9(A840H)-UGI)、BE3-Gam、saBE3、saBE4-Gam、BE4、BE4-Gam、saBE4或saB4E-Gam。BE4将APOBEC1-Cas9n(D10A)接头延伸为32个氨基酸,并且将Cas9n-UGI接头延伸为9个氨基酸,并用另一个9个氨基酸的接头将UGI的第二拷贝附加于构建体的C末端,成为单碱基编辑器构建体。碱基编辑器saBE3和saBE4将酿脓链球菌Cas9n(D10A)替换为较小的金黄色葡萄球菌Cas9n(D10A)。BE3-Gam、saBE3-Gam、BE4-Gam和saBE4-Gam有174个Gam蛋白的残基,其经由16个氨基酸的XTEN接头与BE3、saBE3、BE4和saBE4的N末端融合。
在一些实施方案中,腺苷碱基编辑器(ABE)可以使DNA中的腺嘌呤脱氨基。在一些实施方案中,通过用天然或工程化的大肠杆菌TadA、人ADAR2、小鼠ADA或人ADAT2替换BE3的APOBEC1组件来产生ABE。在一些实施方案中,ABE包含进化的TadA变体。在一些实施方案中,ABE是ABE 1.2(TadA*-XTEN-nCas9-NLS)。在一些实施方案中,TadA*包含A106V和D108N突变。
在一些实施方案中,ABE是第二代ABE。在一些实施方案中,ABE是ABE2.1,其包含TadA*(TadA*2.1)中的另外的突变D147Y和E155V。在一些实施方案中,ABE是与催化失活形式的人烷基腺嘌呤DNA糖基化酶(具有E125Q突变的AAG)融合的ABE2.2、ABE2.1。在一些实施方案中,ABE是与催化失活形式的大肠杆菌Endo V(用D35A突变失活)融合的ABE2.3、ABE2.1。在一些实施方案中,ABE是ABE2.6,其具有两倍于ABE2.1中的接头长度的接头(32个氨基酸,(SGGS)2(SEQ ID NO:334)-XTEN-(SGGS)2(SEQ ID NO:334))。在一些实施方案中,ABE是ABE2.7,其是用另外的野生型TadA单体系链的ABE2.1。在一些实施方案中,ABE是ABE2.8,其是用另外的TadA*2.1单体系链的ABE2.1。在一些实施方案中,ABE是ABE2.9,其是进化的TadA(TadA*2.1)与ABE2.1的N末端的直接融合物。在一些实施方案中,ABE是ABE2.10,其是野生型TadA与ABE2.1的N末端的直接融合物。在一些实施方案中,ABE是ABE2.11,其是在TadA*单体的N末端具有失活E59A突变的ABE2.9。在一些实施方案中,ABE是ABE2.12,其是在内部TadA*单体中具有失活E59A突变的ABE2.9。
在一些实施方案中,ABE是第三代ABE。在一些实施方案中,ABE是ABE3.1,其是具有三个另外的TadA突变(L84F、H123Y和I156F)的ABE2.3。
在一些实施方案中,ABE是第四代ABE。在一些实施方案中,ABE是ABE4.3,其是具有另外的TadA突变A142N(TadA*4.3)的ABE3.1。
在一些实施方案中,ABE是第五代ABE。在一些实施方案中,ABE是ABE5.1,其是通过将来自存活克隆(H36L、R51L、S146C和K157N)的共有突变组导入到ABE3.1中产生的。在一些实施方案中,ABE是ABE5.3,其具有含有与内部进化的TadA*融合的野生型大肠杆菌TadA的异二聚构建体。在一些实施方案中,ABE是如下表11中所示的ABE5.2、ABE5.4、ABE5.5、ABE5.6、ABE5.7、ABE5.8、ABE5.9、ABE5.10、ABE5.11、ABE5.12、ABE5.13或ABE5.14。在一些实施方案中,ABE是第六代ABE。在一些实施方案中,ABE是如下表11中所示的ABE6.1、ABE6.2、ABE6.3、ABE6.4、ABE6.5或ABE6.6。在一些实施方案中,ABE是第七代ABE。在一些实施方案中,ABE是如下表11中所示的ABE7.1、ABE7.2、ABE7.3、ABE7.4、ABE7.5、ABE7.6、ABE7.7、ABE7.8、ABE7.9或ABE7.10。
表11.ABE的基因型
/>
在一些实施方案中,碱基编辑器是第八代ABE(ABE8)。在一些实施方案中,ABE8含有TadA*8变体。在一些实施方案中,ABE8具有含有TadA*8变体(“ABE8.x-m”)的单体构建体。在一些实施方案中,ABE8是ABE8.1-m,其具有含有带Y147T突变的TadA*7.10的单体构建体(TadA*8.1)。在一些实施方案中,ABE8是ABE8.2-m,其具有含有带Y147R突变的TadA*7.10的单体构建体(TadA*8.2)。在一些实施方案中,ABE8是ABE8.3-m,其具有含有带Q154S突变的TadA*7.10的单体构建体(TadA*8.3)。在一些实施方案中,ABE8是ABE8.4-m,其具有含有带Y123H突变的TadA*7.10的单体构建体(TadA*8.4)。在一些实施方案中,ABE8是ABE8.5-m,其具有含有带V82S突变的TadA*7.10的单体构建体(TadA*8.5)。在一些实施方案中,ABE8是ABE8.6-m,其具有含有带T166R突变的TadA*7.10的单体构建体(TadA*8.6)。在一些实施方案中,ABE8是ABE8.7-m,其具有含有带Q154R突变的TadA*7.10的单体构建体(TadA*8.7)。在一些实施方案中,ABE8是ABE8.8-m,其具有含有带Y147R、Q154R和Y123H突变的TadA*7.10的单体构建体(TadA*8.8)。在一些实施方案中,ABE8是ABE8.9-m,其具有含有带Y147R、Q154R和I76Y突变的TadA*7.10的单体构建体(TadA*8.9)。在一些实施方案中,ABE8是ABE8.10-m,其具有含有带Y147R、Q154R和T166R突变的TadA*7.10的单体构建体(TadA*8.10)。在一些实施方案中,ABE8是ABE8.11-m,其具有含有带Y147T和Q154R突变的TadA*7.10的单体构建体(TadA*8.11)。在一些实施方案中,ABE8是ABE8.12-m,其具有含有带Y147T和Q154S突变的TadA*7.10的单体构建体(TadA*8.12)。
在一些实施方案中,ABE8是ABE8.13-m,其具有含有带Y123H(自H123Y回复的Y123H)、Y147R、Q154R和I76Y突变的TadA*7.10的单体构建体(TadA*8.13)。在一些实施方案中,ABE8是ABE8.14-m,其具有含有带I76Y和V82S突变的TadA*7.10的单体构建体(TadA*8.14)。在一些实施方案中,ABE8是ABE8.15-m,其具有含有带V82S和Y147R突变的TadA*7.10的单体构建体(TadA*8.15)。在一些实施方案中,ABE8是ABE8.16-m,其具有含有带V82S、Y123H(自H123Y回复的Y123H)和Y147R突变的TadA*7.10的单体构建体(TadA*8.16)。在一些实施方案中,ABE8是ABE8.17-m,其具有含有带V82S和Q154R突变的TadA*7.10的单体构建体(TadA*8.17)。在一些实施方案中,ABE8是ABE8.18-m,其具有含有带V82S、Y123H(自H123Y回复的Y123H)和Q154R突变的TadA*7.10的单体构建体(TadA*8.18)。在一些实施方案中,ABE8是ABE8.19-m,其具有含有带V82S、Y123H(自H123Y回复的Y123H)、Y147R和Q154R突变的TadA*7.10的单体构建体(TadA*8.19)。在一些实施方案中,ABE8是ABE8.20-m,其具有含有带I76Y、V82S、Y123H(自H123Y回复的Y123H)、Y147R和Q154R突变的TadA*7.10的单体构建体(TadA*8.20)。在一些实施方案中,ABE8是ABE8.21-m,其具有含有带Y147R和Q154S突变的TadA*7.10的单体构建体(TadA*8.21)。在一些实施方案中,ABE8是ABE8.22-m,其具有含有带V82S和Q154S突变的TadA*7.10的单体构建体(TadA*8.22)。在一些实施方案中,ABE8是ABE8.23-m,其具有含有带V82S和Y123H(自H123Y回复的Y123H)突变的TadA*7.10的单体构建体(TadA*8.23)。在一些实施方案中,ABE8是ABE8.24-m,其具有含有带V82S、Y123H(自H123Y回复的Y123H)和Y147T突变的TadA*7.10的单体构建体(TadA*8.24)。
在一些实施方案中,ABE8具有含有与TadA*8变体(“ABE8.x-d”)融合的野生型大肠杆菌TadA的异二聚构建体。在一些实施方案中,ABE8是ABE8.1-d,其具有含有与带Y147T突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.1)。在一些实施方案中,ABE8是ABE8.2-d,其具有含有与带Y147R突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.2)。在一些实施方案中,ABE8是ABE8.3-d,其具有含有与带Q154S突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.3)。在一些实施方案中,ABE8是ABE8.4-d,其具有含有与带Y123H突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.4)。在一些实施方案中,ABE8是ABE8.5-d,其具有含有与带V82S突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.5)。在一些实施方案中,ABE8是ABE8.6-d,其具有含有与带T166R突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.6)。在一些实施方案中,ABE8是ABE8.7-d,其具有含有与带Q154R突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.7)。在一些实施方案中,ABE8是ABE8.8-d,其具有含有与带Y147R、Q154R和Y123H突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.8)。在一些实施方案中,ABE8是ABE8.9-d,其具有含有与带Y147R、Q154R和I76Y突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.9)。在一些实施方案中,ABE8是ABE8.10-d,其具有含有与带Y147R、Q154R和T166R突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.10)。在一些实施方案中,ABE8是ABE8.11-d,其具有含有与带Y147T和Q154R突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.11)。在一些实施方案中,ABE8是ABE8.12-d,其具有含有与带Y147T和Q154S突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.12)。在一些实施方案中,ABE8是ABE8.13-d,其具有含有与带Y123H(自H123Y回复的Y123H)、Y147R、Q154R和I76Y突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.13)。在一些实施方案中,ABE8是ABE8.14-d,其具有含有与带I76Y和V82S突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.14)。在一些实施方案中,ABE8是ABE8.15-d,其具有含有与带V82S和Y147R突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.15)。在一些实施方案中,ABE8是ABE8.16-d,其具有含有与带V82S、Y123H(自H123Y回复的Y123H)和Y147R突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.16)。在一些实施方案中,ABE8是ABE8.17-d,其具有含有与带V82S和Q154R突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.17)。在一些实施方案中,ABE8是ABE8.18-d,其具有含有与带V82S、Y123H(自H123Y回复的Y123H)和Q154R突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.18)。在一些实施方案中,ABE8是ABE8.19-d,其具有含有与带V82S、Y123H(自H123Y回复的Y123H)、Y147R和Q154R突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.19)。在一些实施方案中,ABE8是ABE8.20-d,其具有含有与带I76Y、V82S、Y123H(自H123Y回复的Y123H)、Y147R和Q154R突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.20)。在一些实施方案中,ABE8是ABE8.21-d,其具有含有与带Y147R和Q154S突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.21)。在一些实施方案中,ABE8是ABE8.22-d,其具有含有与带V82S和Q154S突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.22)。在一些实施方案中,ABE8是ABE8.23-d,其具有含有与带V82S和Y123H(自H123Y回复的Y123H)突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.23)。在一些实施方案中,ABE8是ABE8.24-d,其具有含有与带V82S、Y123H(自H123Y回复的Y123H)和Y147T突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8.24)。
在一些实施方案中,ABE8具有含有与TadA*8变体(“ABE8.x-7”)融合的TadA*7.10的异二聚构建体。在一些实施方案中,ABE8是ABE8.1-7,其具有含有与带Y147T突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.1)。在一些实施方案中,ABE8是ABE8.2-7,其具有含有与带Y147R突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.2)。在一些实施方案中,ABE8是ABE8.3-7,其具有含有与带Q154S突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.3)。在一些实施方案中,ABE8是ABE8.4-7,其具有含有与带Y123H突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.4)。在一些实施方案中,ABE8是ABE8.5-7,其具有含有与带V82S突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.5)。在一些实施方案中,ABE8是ABE8.6-7,其具有含有与带T166R突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.6)。在一些实施方案中,ABE8是ABE8.7-7,其具有含有与带Q154R突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.7)。在一些实施方案中,ABE8是ABE8.8-7,其具有含有与带Y147R、Q154R和Y123H突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.8)。在一些实施方案中,ABE8是ABE8.9-7,其具有含有与带Y147R、Q154R和I76Y突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.9)。在一些实施方案中,ABE8是ABE8.10-7,其具有含有与带Y147R、Q154R和T166R突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.10)。在一些实施方案中,ABE8是ABE8.11-7,其具有含有与带Y147T和Q154R突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.11)。在一些实施方案中,ABE8是ABE8.12-7,其具有含有与带Y147T和Q154S突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.12)。在一些实施方案中,ABE8是ABE8.13-7,其具有含有与带Y123H(自H123Y回复的Y123H)、Y147R、Q154R和I76Y突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.13)。在一些实施方案中,ABE8是ABE8.14-7,其具有含有与带I76Y和V82S突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.14)。在一些实施方案中,ABE8是ABE8.15-7,其具有含有与带V82S和Y147R突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.15)。在一些实施方案中,ABE8是ABE8.16-7,其具有含有与带V82S、Y123H(自H123Y回复的Y123H)和Y147R突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.16)。在一些实施方案中,ABE8是ABE8.17-7,其具有含有与带V82S和Q154R突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.17)。在一些实施方案中,ABE8是ABE8.18-7,其具有含有与带V82S、Y123H(自H123Y回复的Y123H)和Q154R突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.18)。在一些实施方案中,ABE8是ABE8.19-7,其具有含有与带V82S、Y123H(自H123Y回复的Y123H)、Y147R和Q154R突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.19)。在一些实施方案中,ABE8是ABE8.20-7,其具有含有与带I76Y、V82S、Y123H(自H123Y回复的Y123H)、Y147R和Q154R突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.20)。在一些实施方案中,ABE8是ABE8.21-7,其具有含有与带Y147R和Q154S突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.21)。在一些实施方案中,ABE8是ABE8.22-7,其具有含有与带V82S和Q154S突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.22)。在一些实施方案中,ABE8是ABE8.23-7,其具有含有与带V82S和Y123H(自H123Y回复的Y123H)突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.23)。在一些实施方案中,ABE8是ABE8.24-7,其具有含有与带V82S、Y123H(自H123Y回复的Y123H)和Y147T突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8.24)。
在一些实施方案中,ABE是如下表12中所示的ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d或ABE8.24-d。
表12.腺苷碱基编辑器8(ABE8)变体
/>
/>
在一些实施方案中,ABE8是ABE8a-m,其具有含有带R26C、A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10的单体构建体(TadA*8a)。在一些实施方案中,ABE8是ABE8b-m,其具有含有带V88A、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10的单体构建体(TadA*8b)。在一些实施方案中,ABE8是ABE8c-m,其具有含有带R26C、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10的单体构建体(TadA*8c)。在一些实施方案中,ABE8是ABE8d-m,其具有含有带V88A、T111R、D119N和F149Y突变的TadA*7.10的单体构建体(TadA*8d)。在一些实施方案中,ABE8是ABE8e-m,其具有含有带A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10的单体构建体(TadA*8e)。
在一些实施方案中,ABE8是ABE8a-d,其具有含有与带R26C、A109S、T111R、D119、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8a)。在一些实施方案中,ABE8是ABE8b-d,其具有含有与带V88A、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8b)。在一些实施方案中,ABE8是ABE8c-d,其具有含有与带R26C、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8c)。在一些实施方案中,ABE8是ABE8d-d,其具有含有与带V88A、T111R、D119N和F149Y突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8d)。在一些实施方案中,ABE8是ABE8e-d,其具有含有与带A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10融合的野生型大肠杆菌TadA的异二聚构建体(TadA*8e)。
在一些实施方案中,ABE8是ABE8a-7,其具有含有与带R26C、A109S、T111R、D119、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8a)。在一些实施方案中,ABE8是ABE8b-7,其具有含有与带V88A、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8b)。在一些实施方案中,ABE8是ABE8c-7,其具有含有与带R26C、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8c)。在一些实施方案中,ABE8是ABE8d-7,其具有含有与带V88A、T111R、D119N和F149Y突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8d)。在一些实施方案中,ABE8是ABE8e-7,其具有含有与带A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10融合的TadA*7.10的异二聚构建体(TadA*8e)。
在一些实施方案中,ABE是如下表13中所示的ABE8a-m、ABE8b-m、ABE8c-m、ABE8d-m、ABE8e-m、ABE8a-d、ABE8b-d、ABE8c-d、ABE8d-d或ABE8e-d。在一些实施方案中,ABE是ABE8e-m或ABE8e-d。当与除SpCas9之外的Cas同源体例如SaCas9、SaCas9-KKH、Cas12a同源体例如LbCas12a、enAs-Cas12a、SpCas9-NG以及环状排列突变CP1028-SpCas9和CP1041-SpCas9一起使用时,ABE8e显示出有效的腺嘌呤碱基编辑活性和低插入缺失形成。除了表13中显示的ABE8e的突变外,通过将V106W取代引入到TadA结构域中也减少了脱靶RNA和DNA编辑(如M.Richter等人,2020,Nature Biotechnology,doi.org/10.1038/s41587-020-0453-z中所述,该文献的全部内容以引用的方式并入本文)。
表13.另外的腺苷碱基编辑器8变体在表中,“单体”表示包含含有所示改变的单个TadA*7.10的ABE,且“异二聚体”表示包含含有与大肠杆菌TadA腺苷脱氨酶融合的所示改变的TadA*7.10的ABE。
在一些实施方案中,通过将腺苷脱氨酶变体(例如,TadA*8)克隆到包括环状排列突变体Cas9(例如,CP5或CP6)和二分核定位序列的支架中来产生碱基编辑器(例如,ABE8)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是NGC PAM CP5变体(酿脓链球菌Cas9或spVRQR Cas9)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是AGA PAM CP5变体(酿脓链球菌Cas9或spVRQR Cas9)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是NGC PAM CP6变体(酿脓链球菌Cas9或spVRQR Cas9)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是AGA PAM CP6变体(酿脓链球菌Cas9或spVRQR Cas9)。
在一些实施方案中,ABE具有如下表14中所示的基因型。
表14.ABE的基因型
23 | 26 | 36 | 37 | 48 | 49 | 51 | 72 | 84 | 87 | 105 | 108 | 123 | 125 | 142 | 145 | 147 | 152 | 155 | 156 | 157 | 161 | |
ABE7.9 | L | R | L | N | A | L | N | F | S | V | N | Y | G | N | C | Y | P | V | F | N | K | |
ABE7.10 | R | R | L | N | A | L | N | F | S | V | N | Y | G | A | C | Y | P | V | F | N | K |
如下表11中所示,描述了40个ABE8的基因型。示出了ABE的进化大肠杆菌TadA部分中的残基位置。当与ABE7.10突变不同时,显示了ABE8中的突变变化。在一些实施方案中,ABE具有如下表15中所示的ABE之一的基因型。
表15.进化TadA中的残基身份
/>
在一些实施方案中,碱基编辑器是ABE8.1,其包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由以下序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.1_Y147T_CP5_NGC PAM_单体
/>
/>
在上述序列中,普通文本表示腺苷脱氨酶序列,粗体序列表示来源于Cas9的序列,斜体序列表示接头序列,且加下划线序列表示二分核定位序列。所附序列表中提供了其它ABE8序列(SEQ ID NO:336-358)。
在一些实施方案中,碱基编辑器是第九代ABE(ABE9)。在一些实施方案中,ABE9含有TadA*9变体。ABE9碱基编辑器包括腺苷脱氨酶变体,所述腺苷脱氨酶变体包含相对于ABE7*10参考序列含有改变的氨基酸序列,如本文所述。表16中列出了示例性ABE9变体。国际PCT申请第PCT/2020/049975号中描述了ABE9碱基编辑器的细节,该申请以全文引用的方式并入本文。
表16.腺苷碱基编辑器9(ABE9)变体。在表中,“单体”表示包含含有所示改变的单个TadA*7.10的ABE,且“异二聚体”表示包含含有与大肠杆菌TadA腺苷脱氨酶融合的所示改变的TadA*7.10的ABE。
/>
/>
在一些实施方案中,碱基编辑器包括腺苷脱氨酶变体,所述腺苷脱氨酶变体包含相对于ABE 7*10参考序列含有改变的氨基酸序列,如本文所述。如表16.1中所用的术语“单体”是指包含所述改变的TadA*7.10的单体形式。如表16.1中所用的术语“异二聚体”是指与包含所述改变的TadA*7.10融合的指定野生型大肠杆菌TadA腺苷脱氨酶。
表16.1.腺苷脱氨酶碱基编辑器变体
在一些实施方案中,碱基编辑器包含含有尿嘧啶糖基化酶抑制剂(UGI)的全部或一部分的结构域。在一些实施方案中,碱基编辑器包含含有核酸聚合酶的全部或一部分的结构域。在一些实施方案中,碱基编辑器可包含核酸聚合酶(NAP)的全部或一部分作为结构域。例如,碱基编辑器可包含真核NAP的全部或一部分。在一些实施方案中,并入到碱基编辑器中的NAP或其一部分是DNA聚合酶。在一些实施方案中,并入到碱基编辑器中的NAP或其一部分具有跨损伤聚合酶活性。在一些实施方案中,并入到碱基编辑器中的NAP或其一部分是跨损伤DNA聚合酶。在一些实施方案中,并入到碱基编辑器中的NAP或其一部分是Rev7、Rev1复合物、聚合酶ι、聚合酶κ或聚合酶η。在一些实施方案中,并入到碱基编辑器中的NAP或其一部分是真核聚合酶α、β、γ、δ、ε、γ、η、ι、κ、λ、μ或ν组件。在一些实施方案中,并入到碱基编辑器中的NAP或其一部分包含与核酸聚合酶(例如,跨损伤DNA聚合酶)具有至少75%、80%、85%、90%、95%、96%、97%、98%、99%或99.5%同一性的氨基酸序列。在一些实施方案中,并入到碱基编辑器中的核酸聚合酶或其一部分是跨损伤DNA聚合酶。
在一些实施方案中,碱基编辑器的结构域可包含多个结构域。例如,包含来源于Cas9的多核苷酸可编程核苷酸结合结构域的碱基编辑器可包含对应于野生型或天然Cas9的REC叶和NUC叶的REC叶和NUC叶。在另一示例中,碱基编辑器可包含RuvCI结构域、BH结构域、REC1结构域、REC2结构域、RuvCII结构域、L1结构域、HNH结构域、L2结构域、RuvCIII结构域、WED结构域、TOPO结构域或CTD结构域中的一者或多者。在一些实施方案中,碱基编辑器的一个或多个结构域相对于包含所述结构域的多肽的野生型形式包含突变(例如,取代、插入、缺失)。例如,多核苷酸可编程DNA结合结构域的HNH结构域可包含H840A取代。在另一示例中,多核苷酸可编程DNA结合结构域的RuvCI结构域可包含D10A取代。
可以使用或不使用一个或多个接头结构域(例如,XTEN接头结构域)将本文公开的碱基编辑器的不同结构域(例如,相邻结构域)彼此连接。在一些实施方案中,接头结构域可以是键(例如,共价键)、化学基团或连接两个分子或部分的分子,例如融合蛋白的两个结构域,例如第一结构域(例如,Cas9来源的结构域)和第二结构域(例如,腺苷脱氨酶结构域或胞苷脱氨酶结构域)。在一些实施方案中,接头是共价键(例如,碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中,接头是酰胺键接的碳氮键。在某些实施方案中,接头是环状或无环、取代或未取代、支链或非支链的脂族或杂脂族接头。在某些实施方案中,接头是聚合的(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,接头包含氨基链烷酸的单体、二聚体或聚合物。在一些实施方案中,接头包含氨基链烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在一些实施方案中,接头包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中,接头基于碳环部分(例如,环戊烷、环己烷)。在其它实施方案中,接头包含聚乙二醇部分(PEG)。在某些实施方案中,接头包含芳基或杂芳基部分。在某些实施方案中,接头基于苯基环。接头可包括官能化部分以促进来自肽的亲核体(例如,硫醇、氨基)与接头的连接。任何亲电体均可用作接头的一部分。示例性亲电体包括但不限于活化酯、活化酰胺、迈克尔受体、烷基卤、芳基卤、酰基卤和异硫氰酸酯。在一些实施方案中,接头连接RNA可编程核酸酶的gRNA结合结构域(包括Cas9核酸酶结构域)和核酸编辑蛋白的催化结构域。在一些实施方案中,接头连接dCas9和第二结构域(例如,UGI等)。
接头
在某些实施方案中,接头可用于连接本发明的任何肽或肽结构域。接头可以简单为共价键,或者其可以是长度为许多原子的聚合接头。在某些实施方案中,接头是多肽或基于氨基酸。在其它实施方案中,接头不是肽样的。在某些实施方案中,接头是共价键(例如,碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中,接头是酰胺键接的碳-氮键。在某些实施方案中,接头是环状或无环、取代或未取代、支链或非支链的脂族或杂脂族接头。在某些实施方案中,接头是聚合的(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,接头包含氨基链烷酸的单体、二聚体或聚合物。在某些实施方案中,接头包含氨基链烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在某些实施方案中,接头包含氨基己酸(Ahx)的单体、二聚体或多聚体。在某些实施方案中,接头基于碳环部分(例如,环戊烷、环己烷)。在其它实施方案中,接头包含聚乙二醇部分(PEG)。在其它实施方案中,接头包含氨基酸。在某些实施方案中,接头包含肽。在某些实施方案中,接头包含芳基或杂芳基部分。在某些实施方案中,接头基于苯基环。接头可包括官能化部分以促进来自肽的亲核体(例如,硫醇、氨基)与接头的连接。任何亲电体均可用作接头的一部分。示例性亲电体包括但不限于活化酯、活化酰胺、迈克尔受体、烷基卤、芳基卤、酰基卤和异硫氰酸酯。
通常,接头位于两个基团、分子或其它部分之间或者侧接两个基团、分子或其它部分,并且经由共价键连接每一者,从而将两者连接。在一些实施方案中,接头是氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,接头是有机分子、基团、聚合物或化学部分。在一些实施方案中,接头的长度为2-100个氨基酸,例如长度为2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150或150-200个氨基酸。在一些实施方案中,接头的长度为约3至约104个(例如,5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95或100个)氨基酸。也考虑了更长或更短的接头。
在一些实施方案中,本文提供的任何融合蛋白包含经由接头彼此融合的胞苷或腺苷脱氨酶和Cas9结构域。胞苷或腺苷脱氨酶与Cas9结构域之间的各种接头长度和柔性均可采用(例如,从形式为(GGGS)n(SEQ ID NO:250)、(GGGGS)n(SEQ ID NO:251)和(G)n的非常柔性的接头到形式为(EAAAK)n(SEQ ID NO:252)、(SGGS)n(SEQ ID NO:359)、SGSETPGTSESATPES(SEQ ID NO:253)的更加刚性的接头(参见例如,Guilinger JP等人,Fusion of catalytically inactive Cas9 to FokI nuclease improves thespecificity of genome modification.Nat.Biotechnol.2014;32(6):577-82;全部内容以引用的方式并入本文)和(XP)n),以便实现对于胞苷或腺苷脱氨酶核碱基编辑器的活性为最佳的长度。在一些实施方案中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,接头包含(GGS)n基序,其中n是1、3或7。在一些实施方案中,本文提供的任何融合蛋白的胞苷脱氨酶或腺苷脱氨酶和Cas9结构域经由包含氨基酸序列SGSETPGTSESATPES(SEQ ID NO:253)的接头融合,该接头也可以被称为XTEN接头。
在一些实施方案中,碱基编辑器的结构域经由包含以下氨基酸序列的接头融合:
SGGSSGSETPGTSESATPESSGGS(SEQ ID NO:361)、
SGGSSGGSSGSETPGTSESATPESSGGSSGGS(SEQ ID NO:362)或GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAP GSPAGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATSGGSGGS(SEQ ID NO:362)。
在一些实施方案中,碱基编辑器的结构域经由包含氨基酸序列SGSETPGTSESATPES(SEQ ID NO:253)的接头融合,该接头也可以被称为XTEN接头。在一些实施方案中,接头包含氨基酸序列SGGS。在一些实施方案中,接头的长度为24个氨基酸。在一些实施方案中,接头包含氨基酸序列SGGSSGGSSGSETPGTSESATPES(SEQ ID NO:363)。在一些实施方案中,接头的长度为40个氨基酸。在一些实施方案中,接头包含氨基酸序列:SGGSSGGSSGSETPGTSESATPES SGGSSGGSSGGSSGGS(SEQ ID NO:364)。在一些实施方案中,接头的长度为64个氨基酸。在一些实施方案中,接头包含氨基酸序列:SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGSSGSETPG TSESATPESSGGSSGGS(SEQ ID NO:365)。在一些实施方案中,接头的长度为92个氨基酸。在一些实施方案中,接头包含氨基酸序列:PGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTS TEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATS(SEQ ID NO:366)。
在一些实施方案中,接头包含多个脯氨酸残基,并且长度为5-21、5-14、5-9、5-7个氨基酸,例如PAPAP(SEQ ID NO:367)、PAPAPA(SEQ ID NO:368)、PAPAPAP(SEQ ID NO:369)、PAPAPAPA(SEQ ID NO:370)、P(AP)4(SEQ ID NO:371)、P(AP)7(SEQ ID NO:372)、P(AP)10(SEQ ID NO:373)(参见例如,Tan J、Zhang F、Karcher D、Bock R.Engineering of high-precision base editors for site-specific single nucleotide replacement.NatCommun.2019年1月25日;10(1):439;全部内容以引用的方式并入本文)。这类富含脯氨酸的接头也被称为“刚性”接头。
在另一实施方案中,碱基编辑器系统包含这样的组件(蛋白质),其与脱氨酶(DNA脱氨酶)例如腺苷或胞苷脱氨酶非共价相互作用,并且将腺苷或胞苷脱氨酶瞬时吸引至靶多核苷酸序列中的靶核碱基以用于特异性编辑,同时具有最小或降低的旁观者或靶邻近效应。涉及脱氨酶相互作用蛋白的这种非共价系统和方法用于将DNA脱氨酶吸引至特定的基因组靶核碱基,并使中靶和靶邻近编辑的事件解偶联,从而增强更精确的单碱基取代突变的实现。在一实施方案中,脱氨酶相互作用蛋白与脱氨酶(例如,腺苷脱氨酶或胞苷脱氨酶)结合,而不阻断或干扰脱氨酶的活性(催化)位点接合靶核碱基(例如,分别为腺苷或胞苷)。这种称为“MagnEdit”的系统涉及与Cas9和gRNA复合物系链的相互作用蛋白,并且可吸引共表达的腺苷或胞苷脱氨酶(外源性或内源性的)以编辑特定的基因组靶位点,并且在McCann,J.等人,2020,“MagnEdit–interacting factors that recruit DNA-editingenzymes to single base targets,”Life-Science-Alliance,第3卷,第4期(e201900606),(doi 10.26508/Isa.201900606)中进行了描述,该文献的内容以全文引用的方式并入本文。在一实施方案中,DNA脱氨酶是如本文所述的腺苷脱氨酶变体(例如,TadA*8)。
在另一实施方案中,称为“Suntag”的系统涉及非共价相互作用组分,其用于将碱基编辑器的蛋白质(例如,腺苷脱氨酶或胞苷脱氨酶)组分或其多个拷贝募集到多核苷酸靶位点,以在所述位点实现碱基编辑,且相邻靶编辑减少,例如,如Tanenbaum,M.E..等人,“Aprotein tagging system for signal amplification in gene expression andfluorescence imaging,”Cell.2014年10月23日;159(3):635–646.doi:10.1016/j.cell.2014.09.039;和Huang,Y.-H.等人,2017,“DNA epigenome editing usingCRISPR-Cas SunTag-directed DNMT3A,”Genome Biol 18:176.doi:10.1186/s13059-017-1306-z中所述,上述文献中的每一者的内容以全文引用的方式并入本文。在一实施方案中,DNA脱氨酶是如本文所述的腺苷脱氨酶变体(例如,TadA*8)。
具有引导RNA的核酸可编程DNA结合蛋白
本文提供了用于细胞中的碱基编辑的组合物和方法。本文进一步提供了包含引导多核酸序列的组合物,例如引导RNA序列,或如本文提供的2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个引导RNA的组合。在一些实施方案中,如本文提供的用于碱基编辑的组合物进一步包含编码碱基编辑器(例如C-碱基编辑器或A-碱基编辑器)的多核苷酸。例如,用于碱基编辑的组合物可包含编码BE、BE4、ABE的mRNA序列和所提供的一个或多个引导RNA的组合。用于碱基编辑的组合物可包含碱基编辑器多肽和本文提供的任何引导RNA中的一者或多者的组合。这种组合物可用于通过不同的递送方法在细胞中实现碱基编辑,所述递送方法如通过电穿孔、核转染、病毒转导或转染。在一些实施方案中,用于碱基编辑的组合物包含编码碱基编辑器的mRNA序列和本文提供的一个或多个引导RNA序列的组合用于电穿孔。
本公开的一些方面提供了复合物,其包含本文提供的任何融合蛋白和与融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)结构域(例如,Cas9(例如,dCas9、核酸酶活性Cas9或Cas9切口酶)或Cas12)结合的引导RNA。这些复合物也称为核糖核蛋白(RNP)。在一些实施方案中,引导核酸(例如,引导RNA)的长度为15-100个核苷酸,并且包含与靶序列互补的至少10个连续核苷酸的序列。在一些实施方案中,引导RNA是15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸长。在一些实施方案中,引导RNA包含与靶序列互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个连续核苷酸的序列。在一些实施方案中,靶序列是DNA序列。在一些实施方案中,靶序列是RNA序列。在一些实施方案中,靶序列是细菌、酵母、真菌、昆虫、植物或动物的基因组中的序列。在一些实施方案中,靶序列是人的基因组中的序列。在一些实施方案中,靶序列的3’端紧邻规范PAM序列(NGG)。在一些实施方案中,靶序列的3’端紧邻非规范PAM序列(例如,表7中列出的序列或5’-NAA-3’)。在一些实施方案中,引导核酸(例如,引导RNA)与所关注的基因(例如,与疾病或病症相关的基因)中的序列互补。
本公开的一些方面提供使用本文提供的融合蛋白或复合物的方法。例如,本公开的一些方面提供包括使DNA分子与本文提供的任何融合蛋白以及与至少一个引导RNA接触的方法,其中引导RNA长约15-100个核苷酸,并且包含与靶序列互补的至少10个连续核苷酸的序列。在一些实施方案中,靶序列的3’端紧邻AGC、GAG、TTT、GTG或CAA序列。在一些实施方案中,靶序列的3’端紧邻NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN或5’(TTTV)序列。在一些实施方案中,靶序列的3’端紧邻例如TTN、DTTN、GTTN、ATTN、ATTC、DTTNT、WTTN、HATY、TTTN、TTTV、TTTC、TG、RTR或YTN PAM位点。
将要理解的是,各序列中具体位置或残基的编号取决于所用的特定蛋白质和编号方案。例如成熟蛋白质的前体和成熟蛋白质本身中的编号可能不同,并且物种间的序列差异可能影响编号。本领域技术人员将能够通过本领域中熟知的方法鉴定任何同源蛋白质和相应编码核酸中的相应残基,例如通过序列比对和同源残基的测定。
对于本领域技术人员来说将显而易见的是,为了将本文公开的任何融合蛋白靶向至靶位点,例如包含要编辑的突变的位点,通常需要将融合蛋白与引导RNA一起共表达。如本文别处更详细解释的那样,引导RNA通常包含允许napDNAbp(例如,Cas9或Cas12)结合的tracrRNA框架和给napDNAbp:核酸编辑酶/结构域融合蛋白赋予序列特异性的引导序列。或者,引导RNA和tracrRNA可作为两个核酸分子分开提供。在一些实施方案中,引导RNA包含这样的结构,其中引导序列包含与靶序列互补的序列。引导序列通常为20个核苷酸长。基于本公开,用于将napDNAbp:核酸编辑酶/结构域融合蛋白靶向至特定基因组靶位点的合适引导RNA的序列对于本领域技术人员来说将是显而易见的。这类合适的引导RNA序列通常包含与要编辑的靶核苷酸上游或下游50个核苷酸内的核酸序列互补的引导序列。本文提供了适合将任何所提供的融合蛋白靶向至特定靶序列的一些示例性引导RNA序列。
预测sgRNA的不同部分形成与Cas9(例如,SpyCas9)和/或DNA靶标相互作用的各种特征物。已经在天然crRNA:tracrRNA双链体和单引导RNA(sgRNA)内鉴定了六个指导Cas9核酸内切酶活性的保守模块(参见Briner等人,Guide RNAFunctional Modules DirectCas9Activity and Orthogonality Mol Cell.2014年10月23日;56(2):333-339)。这六个模块包括负责DNA靶向的间隔区,由CRISPR重复序列:tracrRNA双链体形成的上茎、凸起、下茎,连结(nexus)和来自tracrRNA的3’端的发夹。上茎和下茎主要通过与磷酸酯主链的非序列依赖性相互作用而与Cas9相互作用。在一些实施方案中,上茎是可有可无的。在一些实施方案中,下茎基部处的保守尿嘧啶核苷酸序列是可有可无的。凸起参与与Cas9的Rec1结构域的特异性侧链相互作用。U44的核碱基与Tyr 325和His 328的侧链相互作用,而G43与Tyr329相互作用。连结形成sgRNA:Cas9相互作用的核心,并且位于sgRNA与Cas9和靶DNA之间的交叉点。A51和A52的核碱基与Phe 1105的侧链相互作用;U56与Arg 457和Asn 459相互作用;U59的核碱基插入到由Arg 74、Asn 77、Pro 475、Leu 455、Phe446和Ile 448的侧链限定的疏水口袋中;C60与Leu 455、Ala 456和Asn 459相互作用,且C61与Arg 70的侧链相互作用,Arg 70又与C15相互作用。在一些实施方案中,这些突变中的一者或多者在Cas9(例如,spyCas9)的sgRNA的凸起和/或连结中产生,以优化sgRNA:Cas9相互作用。
此外,tracrRNA连结和发夹对于Cas9配对至关重要,并且可以交换以跨越分隔不同Cas9蛋白的正交屏障,这有助于进一步利用正交Cas9蛋白。在一些实施方案中,连结和发夹被交换以靶向正交Cas9蛋白。在一些实施方案中,sgRNA被分配了上茎、发夹1和/或下茎的序列柔性,以设计更紧凑和构象稳定的引导RNA。在一些实施方案中,使用具有各种嵌合引导物的单个Cas9或通过同时使用具有嵌合sgRNA的不同组合的正交系统来修饰模块以优化多重编辑。关于引导物功能模块及其方法的细节描述于例如Briner等人,Guide RNAFunctional Modules Direct Cas9 Activity and Orthogonality Mol Cell.2014年10月23日;56(2):333-339中,该文献的内容以全文引用的方式并入本文。
本文公开的碱基编辑器的结构域可以以任意顺序排列。包含融合蛋白的碱基编辑器的非限制性示例可排列如下,所述融合蛋白包含例如多核苷酸可编程核苷酸结合结构域(例如,Cas9或Cas12)和脱氨酶结构域(例如,胞苷或腺苷脱氨酶):
NH2-[核碱基编辑结构域]-接头1-[核碱基编辑结构域]-COOH;
NH2-[脱氨酶]-接头1-[核碱基编辑结构域]-COOH;
NH2-[脱氨酶]-接头1-[核碱基编辑结构域]-接头2-[UGI]-COOH;
NH2-[脱氨酶]-接头1-[核碱基编辑结构域]-COOH;
NH2-[腺苷脱氨酶]-接头1-[核碱基编辑结构域]-COOH;
NH2-[核碱基编辑结构域]-[脱氨酶]-COOH;
NH2-[脱氨酶]-[核碱基编辑结构域]-[肌苷BER抑制剂]-COOH;
NH2-[脱氨酶]-[肌苷BER抑制剂]-[核碱基编辑结构域]-COOH;
NH2-[肌苷BER抑制剂]-[脱氨酶]-[核碱基编辑结构域]-COOH;
NH2-[核碱基编辑结构域]-[脱氨酶]-[肌苷BER抑制剂]-COOH;
NH2-[核碱基编辑结构域]-[肌苷BER抑制剂]-[脱氨酶]-COOH;
NH2-[肌苷BER抑制剂]-[核碱基编辑结构域]-[脱氨酶]-COOH;
NH2-[核碱基编辑结构域]-接头1-[脱氨酶]-接头2-[核碱基编辑结构域]-COOH;
NH2-[核碱基编辑结构域]-接头1-[脱氨酶]-[核碱基编辑结构域]-COOH;
NH2-[核碱基编辑结构域]-[脱氨酶]-接头2-[核碱基编辑结构域]-COOH;
NH2-[核碱基编辑结构域]-[脱氨酶]-[核碱基编辑结构域]-COOH;
NH2-[核碱基编辑结构域]-接头1-[脱氨酶]-接头2-[核碱基编辑结构域]-[肌苷BER抑制剂]-COOH;
NH2-[核碱基编辑结构域]-接头1-[脱氨酶]-[核碱基编辑结构域]-[肌苷BER抑制剂]-COOH;
NH2-[核碱基编辑结构域]-[脱氨酶]-接头2-[核碱基编辑结构域]-[肌苷BER抑制剂]-COOH;
NH2-[核碱基编辑结构域]-[脱氨酶]-[核碱基编辑结构域]-[肌苷BER抑制剂]-COOH;
NH2-[肌苷BER抑制剂]-[核碱基编辑结构域]-接头1-[脱氨酶]-接头2-[核碱基编辑结构域]-COOH;
NH2-[肌苷BER抑制剂]-[核碱基编辑结构域]-接头1-[脱氨酶]-[核碱基编辑结构域]-COOH;
NH2-[肌苷BER抑制剂]-[核碱基编辑结构域]-[脱氨酶]-接头2-[核碱基编辑结构域]-COOH;或
NH2-[肌苷BER抑制剂]NH2-[核碱基编辑结构域]-[脱氨酶]-[核碱基编辑结构域]-COOH。
在一些实施方案中,本文提供的碱基编辑融合蛋白需要定位在精确位置,例如其中将靶碱基置于限定区域内(例如,“脱氨基窗口”)。在一些实施方案中,靶标可以在4个碱基的区域内。在一些实施方案中,这种限定的靶区域可以在PAM的上游大约15个碱基处。参见Komor,A.C.等人,“Programmable editing of a target base in genomic DNAwithoutdouble-stranded DNAcleavage”Nature 533,420-424(2016);Gaudelli,N.M.等人,“Programmable base editing of A·T转化为G·C in genomic DNA withoutDNAcleavage”Nature 551,464-471(2017);和Komor,A.C.等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abaseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),上述文献的全部内容以引用的方式特此并入。
限定的靶区域可以是脱氨基窗口。脱氨基窗口可以是其中碱基编辑器作用于靶核苷酸并使靶核苷酸脱氨基的限定区域。在一些实施方案中,脱氨基窗口在2、3、4、5、6、7、8、9或10个碱基区域内。在一些实施方案中,脱氨基窗口是PAM上游的5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个碱基。
本公开的碱基编辑器可包含促进靶多核苷酸序列的编辑的任何结构域、特征或氨基酸序列。例如,在一些实施方案中,碱基编辑器包含核定位序列(NLS)。在一些实施方案中,碱基编辑器的NLS位于脱氨酶结构域与napDNAbp结构域之间。在一些实施方案中,碱基编辑器的NLS位于napDNAbp结构域的C末端。
可包括在融合蛋白中的蛋白质结构域的非限制性示例包括脱氨酶结构域(例如,腺苷脱氨酶或胞苷脱氨酶)、尿嘧啶糖基化酶抑制剂(UGI)结构域、表位标签、报告基因序列和/或具有一种或多种本文所述的活性的蛋白质结构域。
可以用表位标签、报告蛋白、其它结合结构域来检测或标记结构域。表位标签的非限制性示例包括组氨酸(His)标签、V5标签、FLAG标签、流感血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(Trx)标签。报告基因的示例包括但不限于谷胱甘肽-5-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)β-半乳糖苷酶、β-葡萄糖醛酸酶、荧光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和自发荧光蛋白,包括蓝色荧光蛋白(BFP)。另外的蛋白质序列可包括结合DNA分子或结合其它细胞分子的氨基酸序列,包括但不限于麦芽糖结合蛋白(MBP)、S标签、Lex ADNA结合结构域(DBD)融合体、GAL4 DNA结合结构域融合体和单纯疱疹病毒(HSV)BP16蛋白融合体。
使用包含胞苷或腺苷脱氨酶和Cas9结构域的融合蛋白的方法
本公开的一些方面提供使用本文提供的融合蛋白或复合物的方法。例如,本公开的一些方面提供包括使DNA分子与本文提供的任何融合蛋白以及与本文所述的至少一个引导RNA接触的方法。
在一些实施方案中,本发明的融合蛋白用于编辑所关注的靶基因。特别地,本文所述的胞苷脱氨酶或腺苷脱氨酶核碱基编辑器能够在靶序列内产生多个突变。这些突变可影响靶标的功能。例如,当胞苷脱氨酶或腺苷脱氨酶核碱基编辑器用于靶向调控区时,调控区的功能改变,并且下游蛋白质的表达减少或消除。
将要理解的是,各序列中具体位置或残基的编号取决于所用的特定蛋白质和编号方案。例如成熟蛋白质的前体和成熟蛋白质本身中的编号可能是不同的,并且物种间的序列差异可能影响编号。本领域技术人员将能够通过本领域中熟知的方法鉴定任何同源蛋白质和相应编码核酸中的相应残基,例如通过序列比对和同源残基的测定。
对于本领域技术人员来说将显而易见的是,为了将如本文公开的包含Cas9结构域和胞苷或腺苷脱氨酶的任何融合蛋白靶向至靶位点,例如包含要编辑的突变的位点,通常需要将融合蛋白与引导RNA(例如,sgRNA)一起共表达。如本文别处更详细解释的那样,引导RNA通常包含允许Cas9结合的tracrRNA框架和给Cas9:核酸编辑酶/结构域融合蛋白赋予序列特异性的引导序列。或者,引导RNA和tracrRNA可作为两个核酸分子分开提供。在一些实施方案中,引导RNA包含这样的结构,其中引导序列包含与靶序列互补的序列。引导序列通常为20个核苷酸长。基于本公开,用于将Cas9:核酸编辑酶/结构域融合蛋白靶向至特定基因组靶位点的合适引导RNA的序列对于本领域技术人员来说将是显而易见的。这类合适的引导RNA序列通常包含与要编辑的靶核苷酸上游或下游50个核苷酸内的核酸序列互补的引导序列。本文提供了适合将任何所提供的融合蛋白靶向至特定靶序列的一些示例性引导RNA序列。
碱基编辑器效率
在一些实施方案中,本文提供的方法的目的是经由基因编辑改变基因和/或基因产物。本文提供的核碱基编辑蛋白可用于体外或体内基于基因编辑的人治疗。技术人员将理解的是,本文提供的核碱基编辑蛋白,例如包含多核苷酸可编程核苷酸结合结构域(例如,Cas9)和核碱基编辑结构域(例如,腺苷脱氨酶结构域或胞苷脱氨酶结构域)的融合蛋白,可用于将核苷酸从A编辑为G或从C编辑为T。
有利地,如本文提供的碱基编辑系统提供基因组编辑,而不产生双链DNA断裂,不需要供体DNA模板,并且不像CRISPR可能的那样诱导过量的随机插入和缺失。在一些实施方案中,本公开提供碱基编辑器,其有效地在核酸(例如,受试者的基因组内的核酸)中产生预期突变,如终止密码子,而不产生显著数量的非预期突变,如非预期点突变。在一些实施方案中,预期突变是由与引导多核苷酸(例如,gRNA)结合的特定碱基编辑器(例如,腺苷碱基编辑器或胞苷碱基编辑器)产生的突变,所述引导多核苷酸被特别设计用来产生预期突变。在一些实施方案中,预期突变在与疾病或病症相关的靶抗原相关基因中,所述疾病或病症例如为淀粉样蛋白疾病,如心肌病变、家族性淀粉样蛋白多神经病变(FAP)、家族性淀粉样蛋白心肌病变(FAC)、家族性转甲状腺素蛋白淀粉样变性(FTA)、老年全身性淀粉样变性(SSA)、转甲状腺素蛋白淀粉样变性等。在一些实施方案中,预期突变是与疾病或病症相关的靶抗原相关基因中的腺嘌呤(A)到鸟嘌呤(G)点突变(例如,SNP),所述疾病或病症例如为淀粉样蛋白疾病,如心肌病变、家族性淀粉样蛋白多神经病变(FAP)、家族性淀粉样蛋白心肌病变(FAC)、家族性转甲状腺素蛋白淀粉样变性(FTA)、老年全身性淀粉样变性(SSA)、转甲状腺素蛋白淀粉样变性等。在一些实施方案中,预期突变是基因的编码区或非编码区(例如,调控区或元件)内的腺嘌呤(A)到鸟嘌呤(G)点突变。在一些实施方案中,预期突变是与疾病或病症相关的靶抗原相关基因中的胞嘧啶(C)到胸腺嘧啶(T)点突变(例如,SNP),所述疾病或病症例如为淀粉样蛋白疾病,如心肌病变、家族性淀粉样蛋白多神经病变(FAP)、家族性淀粉样蛋白心肌病变(FAC)、家族性转甲状腺素蛋白淀粉样变性(FTA)、老年全身性淀粉样变性(SSA)、转甲状腺素蛋白淀粉样变性等。在一些实施方案中,预期突变是基因的编码区或非编码区(例如,调控区或元件)内的胞嘧啶(C)到胸腺嘧啶(T)点突变。在一些实施方案中,预期突变是产生终止密码子的点突变,例如基因的编码区内的过早终止密码子。在一些实施方案中,预期突变是消除终止密码子的突变。
本发明的碱基编辑器有利地修饰编码蛋白质的特定核苷酸碱基,而不产生显著比例的插入缺失。如本文所用的“插入缺失”是指核酸内的核苷酸碱基的插入或缺失。这类插入或缺失可导致基因的编码区内的移码突变。在一些实施方案中,期望产生有效修饰(例如突变)核酸内的特定核苷酸的碱基编辑器,而不在核酸中产生大量的插入或缺失(即,插入缺失)。在一些实施方案中,期望产生有效修饰(例如突变或甲基化)核酸内的特定核苷酸的碱基编辑器,而不在核酸中产生大量的插入或缺失(即,插入缺失)。在某些实施方案中,本文提供的任何碱基编辑器可产生与插入缺失相比更大比例的预期修饰(例如,甲基化)。在某些实施方案中,本文提供的任何碱基编辑器可产生与插入缺失相比更大比例的预期修饰(例如,突变)。
在一些实施方案中,本文提供的碱基编辑器能够产生大于1:1的预期突变与插入缺失的比率(即,预期点突变:非预期点突变)。在一些实施方案中,本文提供的碱基编辑器能够产生至少1.5:1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少10:1、至少12:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少200:1、至少300:1、至少400:1、至少500:1、至少600:1、至少700:1、至少800:1、至少900:1或至少1000:1或更大的预期突变与插入缺失的比率。可以采用任意合适的方法来确定预期突变和插入缺失的数量。
在一些实施方案中,本文提供的碱基编辑器可限制核酸区域中插入缺失的形成。在一些实施方案中,所述区域在由碱基编辑器靶向的核苷酸处或者是由碱基编辑器靶向的核苷酸的2、3、4、5、6、7、8、9或10个核苷酸内的区域。在一些实施方案中,本文提供的任何碱基编辑器可以将核酸区域处的插入缺失形成限制为小于1%、小于1.5%、小于2%、小于2.5%、小于3%、小于3.5%、小于4%、小于4.5%、小于5%、小于6%、小于7%、小于8%、小于9%、小于10%、小于12%、小于15%或小于20%。在核酸区域处形成的插入缺失的数量可取决于核酸(例如,细胞的基因组内的核酸)暴露于碱基编辑器的时间量。在一些实施方案中,在将核酸(例如,细胞的基因组内的核酸)暴露于碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天后确定插入缺失的数量或比例。
本公开的一些方面基于这样的认识,即本文提供的任何碱基编辑器能够在核酸(例如受试者的基因组内的核酸)中有效产生预期突变,而不产生相当数量的非预期突变(例如,虚假的脱靶编辑或旁观者编辑)。在一些实施方案中,预期突变是由专门设计用于产生预期突变的与gRNA结合的特异性碱基编辑器产生的突变。在一些实施方案中,预期突变是产生终止密码子的突变,例如基因的编码区内的过早终止密码子。在一些实施方案中,预期突变是消除终止密码子的突变。在一些实施方案中,预期突变是改变基因的剪接的突变。在一些实施方案中,预期突变是改变基因的调控序列(例如,基因启动子或基因抑制因子)的突变。在一些实施方案中,本文提供的任何碱基编辑器能够产生大于1:1的预期突变与非预期突变的比率(例如,预期突变:非预期突变)。在一些实施方案中,本文提供的任何碱基编辑器能够产生至少1.5:1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少10:1、至少12:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少150:1、至少200:1、至少250:1、至少500:1或至少1000:1或更大的预期突变与非预期突变的比率。应当了解的是,本文所述的碱基编辑器的特征可应用于任何融合蛋白或使用本文提供的融合蛋白的方法。
碱基编辑通常被称为“修饰”,如遗传修饰、基因修饰和核酸序列的修饰,并且基于修饰是碱基编辑修饰的背景是可清楚理解的。因此碱基编辑修饰是在核苷酸碱基水平上的修饰,例如作为整个公开中讨论的脱氨酶活性的结果,其然后导致基因序列的变化,并且可能影响基因产物。因此在本质上,本文所述的基因编辑修饰可导致基因在结构和/或功能上的修饰,其中基因产物的表达可以被修饰,例如基因的表达被敲除;或者相反被增强,或者在一些情况下,基因功能或活性可以被修饰。采用本文公开的方法,碱基编辑效率可以被确定为其中进行碱基编辑的基因的敲低效率,其中碱基编辑旨在敲低基因的表达。敲低水平可通过用任何检测测定法确定表达水平来定量验证,所述检测测定法如蛋白质表达水平的测定法,例如通过流式细胞术;检测RNA表达的测定法,如定量RT-PCR、RNA印迹分析,或任何其它合适的测定法,如焦磷酸测序;并且可以通过核苷酸测序反应进行定性验证。
在一些实施方案中,修饰(例如单碱基编辑)导致基因被靶向的表达减少至少10%。在一些实施方案中,碱基编辑效率可导致基因被靶向的表达减少至少10%。在一些实施方案中,碱基编辑效率可导致基因被靶向的表达减少至少20%。在一些实施方案中,碱基编辑效率可导致基因被靶向的表达减少至少30%。在一些实施方案中,碱基编辑效率可导致基因被靶向的表达减少至少40%。在一些实施方案中,碱基编辑效率可导致基因被靶向的表达减少至少50%。在一些实施方案中,碱基编辑效率可导致被靶向的基因表达减少至少60%。在一些实施方案中,碱基编辑效率可导致被靶向的基因表达减少至少70%。在一些实施方案中,碱基编辑效率可导致被靶向的基因表达减少至少80%。在一些实施方案中,碱基编辑效率可导致被靶向的基因表达减少至少90%。在一些实施方案中,碱基编辑效率可导致被靶向的基因表达减少至少91%。在一些实施方案中,碱基编辑效率可导致被靶向的基因表达减少至少92%。在一些实施方案中,碱基编辑效率可导致被靶向的基因表达减少至少93%。在一些实施方案中,碱基编辑效率可导致被靶向的基因表达减少至少94%。在一些实施方案中,碱基编辑效率可导致被靶向的基因表达减少至少95%。在一些实施方案中,碱基编辑效率可导致被靶向的基因表达减少至少96%。在一些实施方案中,碱基编辑效率可导致被靶向的基因表达减少至少97%。在一些实施方案中,碱基编辑效率可导致被靶向的基因表达减少至少98%。在一些实施方案中,碱基编辑效率可导致被靶向的基因表达减少至少99%。在一些实施方案中,碱基编辑效率可导致被靶向的基因的敲除(基因表达的100%敲低)。
在一些实施方案中,本文提供的任何碱基编辑器系统导致靶多核苷酸序列中少于50%、少于40%、少于30%、少于20%、少于19%、少于18%、少于17%、少于16%、少于15%、少于14%、少于13%、少于12%、少于11%、少于10%、少于9%、少于8%、少于7%、少于6%、少于5%、少于4%、少于3%、少于2%、少于1%、少于0.9%、少于0.8%、少于0.7%、少于0.6%、少于0.5%、少于0.4%、少于0.3%、少于0.2%、少于0.1%、少于0.09%、少于0.08%、少于0.07%、少于0.06%、少于0.05%、少于0.04%、少于0.03%、少于0.02%或少于0.01%的插入缺失形成。
在一些实施方案中,被靶向的修饰,例如单碱基编辑,被用于同时靶向至少4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个不同的内源序列,用于用不同的引导RNA进行碱基编辑。在一些实施方案中,被靶向的修饰,例如单碱基编辑,被用于顺序靶向至少4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个不同的内源基因序列,用于用不同的引导RNA进行碱基编辑。
本公开的一些方面基于这样的认识,即本文提供的任何碱基编辑器能够在核酸(例如,受试者的基因组内的核酸)中有效产生预期突变,如点突变,而不产生显著数量的非预期突变,如非预期点突变(即,旁观者的突变)。在一些实施方案中,本文提供的任何碱基编辑器能够产生至少0.01%的预期突变(即,至少0.01%的碱基编辑效率)。在一些实施方案中,本文提供的任何碱基编辑器能够产生至少0.01%、1%、2%、3%、4%、5%、10%、15%、20%、25%、30%、40%、45%、50%、60%、70%、80%、90%、95%或99%的预期突变。
在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中少于50%、少于40%、少于30%、少于20%、少于19%、少于18%、少于17%、少于16%、少于15%、少于14%、少于13%、少于12%、少于11%、少于10%、少于9%、少于8%、少于7%、少于6%、少于5%、少于4%、少于3%、少于2%、少于1%、少于0.9%、少于0.8%、少于0.7%、少于0.6%、少于0.5%、少于0.4%、少于0.3%、少于0.2%、少于0.1%、少于0.09%、少于0.08%、少于0.07%、少于0.06%、少于0.05%、少于0.04%、少于0.03%、少于0.02%或少于0.01%的插入缺失形成。在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中少于0.8%的插入缺失形成。在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中至多0.8%的插入缺失形成。在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中少于0.3%的插入缺失形成。在一些实施方案中,与包含ABE7碱基编辑器之一的碱基编辑器系统相比,包含所述ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中较低的插入缺失形成。在一些实施方案中,与包含ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中较低的插入缺失形成。
在一些实施方案中,与包含ABE7碱基编辑器之一的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统的插入缺失频率降低。在一些实施方案中,与包含ABE7碱基编辑器之一的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统的插入缺失频率降低至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%或至少95%。在一些实施方案中,与包含ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的碱基编辑器系统的插入缺失频率降低至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%或至少95%。
本发明提供了效率和特异性增加的腺苷脱氨酶变体(例如,ABE8变体)。特别地,本文所述的腺苷脱氨酶变体更有可能编辑多核苷酸内的所需碱基,并且不太可能编辑不打算改变的碱基(例如,“旁观者”)。
在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统具有减少的旁观者编辑或突变。在一些实施方案中,非预期编辑或突变是旁观者突变或旁观者编辑,例如在靶核苷酸序列的靶窗口中的非预期或非靶标位置的靶碱基(例如,A或C)的碱基编辑。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统具有减少的旁观者编辑或突变。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统将旁观者编辑或突变减少了至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统将旁观者编辑或突变减少至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍。
在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统具有减少的虚假编辑。在一些实施方案中,非预期编辑或突变是虚假突变或虚假编辑,例如基因组的非预期或非靶标区域中的靶碱基(例如,A或C)的非特异性编辑或非引导依赖性编辑。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统具有减少的虚假编辑。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统将虚假编辑减少了至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统将虚假编辑减少至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍。
在一些实施方案中,本文所述的任何ABE8碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的碱基编辑效率。在一些实施方案中,可以通过计算细胞群体中被编辑的核碱基的百分比来测量碱基编辑效率。在一些实施方案中,如通过细胞群体中被编辑的核碱基测量,本文所述的任何ABE8碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的碱基编辑效率。
在一些实施方案中,与ABE7碱基编辑器相比,本文所述的任何ABE8碱基编辑器变体具有更高的碱基编辑效率。在一些实施方案中,与ABE7碱基编辑器例如ABE7.10相比,本文所述的任何ABE8碱基编辑器变体的碱基编辑效率高至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少230%、至少240%、至少250%、至少260%、至少270%、至少280%、至少290%、至少300%、至少310%、至少320%、至少330%、至少340%、至少350%、至少360%、至少370%、至少380%、至少390%、至少400%、至少450%或至少500%。
在一些实施方案中,与ABE7碱基编辑器例如ABE7.10相比,本文所述的任何ABE8碱基编辑器变体的碱基编辑效率高至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍。
在一些实施方案中,本文所述的任何ABE8碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的中靶碱基编辑效率。在一些实施方案中,如通过细胞群体中被编辑的靶核碱基测量,本文所述的任何ABE8碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的中靶碱基编辑效率。
在一些实施方案中,与ABE7碱基编辑器相比,本文所述的任何ABE8碱基编辑器变体具有更高的中靶碱基编辑效率。在一些实施方案中,与ABE7碱基编辑器例如ABE7.10相比,本文所述的任何ABE8碱基编辑器变体的中靶碱基编辑效率高至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少230%、至少240%、至少250%、至少260%、至少270%、至少280%、至少290%、至少300%、至少310%、至少320%、至少330%、至少340%、至少350%、至少360%、至少370%、至少380%、至少390%、至少400%、至少450%或至少500%。
在一些实施方案中,与ABE7碱基编辑器例如ABE7.10相比,本文所述的任何ABE8碱基编辑器变体的中靶碱基编辑效率高至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍。
可经由质粒、载体、LNP复合物或mRNA将本文所述的ABE8碱基编辑器变体递送至宿主细胞。在一些实施方案中,本文所述的任何ABE8碱基编辑器变体作为mRNA被递送至宿主细胞。在一些实施方案中,如通过被编辑的核碱基测量,经由基于核酸的递送系统(例如,mRNA)递送的ABE8碱基编辑器具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的中靶编辑效率。在一些实施方案中,与由质粒或载体系统递送的ABE8碱基编辑器相比,由mRNA系统递送的ABE8碱基编辑器具有更高的碱基编辑效率。在一些实施方案中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少230%、至少240%、至少250%、至少260%、至少270%、至少280%、至少290%、至少300%更高、至少310%、至少320%、至少330%、至少340%、至少350%、至少360%、至少370%、至少380%、至少390%、至少400%、至少450%或至少500%的中靶编辑效率。在一些实施方案中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体的中靶编辑效率高至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍。
在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中少于50%、少于40%、少于30%、少于20%、少于19%、少于18%、少于17%、少于16%、少于15%、少于14%、少于13%、少于12%、少于11%、少于10%、少于9%、少于8%、少于7%、少于6%、少于5%、少于4%、少于3%、少于2%、少于1%、少于0.9%、少于0.8%、少于0.7%、少于0.6%、少于0.5%、少于0.4%、少于0.3%、少于0.2%、少于0.1%、少于0.09%、少于0.08%、少于0.07%、少于0.06%、少于0.05%、少于0.04%、少于0.03%、少于0.02%或少于0.01%的脱靶编辑。
在一些实施方案中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有更低的引导脱靶编辑效率。在一些实施方案中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有低至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的引导脱靶编辑效率。在一些实施方案中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体的引导脱靶编辑效率低至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍。在一些实施方案中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体的引导脱靶编辑效率降低至少约2.2倍。
在一些实施方案中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有更低的非引导依赖性脱靶编辑效率。在一些实施方案中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有低至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的非引导依赖性脱靶编辑效率。在一些实施方案中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体的非引导依赖性脱靶编辑效率低至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少5.0倍、至少10.0倍、至少20.0倍、至少50.0倍、至少70.0倍、至少100.0倍、至少120.0倍、至少130.0倍或至少150.0倍。在一些实施方案中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的ABE8碱基编辑器变体的非引导依赖性脱靶编辑效率(例如,虚假RNA脱氨基)降低134.0倍。在一些实施方案中,本文所述的ABE8碱基编辑器变体不增加整个基因组的非引导依赖性突变率。
在一些实施方案中,单个基因递送事件(例如,通过转导、转染、电穿孔或任何其它方法)可用于细胞的基因组内5个序列的靶碱基编辑。在一些实施方案中,单个基因递送事件可用于细胞的基因组内6个序列的靶碱基编辑。在一些实施方案中,单个基因递送事件可用于细胞的基因组内7个序列的靶碱基编辑。在一些实施方案中,单个电穿孔事件可用于细胞的基因组内8个序列的靶碱基编辑。在一些实施方案中,单个基因递送事件可用于细胞的基因组内9个序列的靶碱基编辑。在一些实施方案中,单个基因递送事件可用于细胞的基因组内10个序列的靶碱基编辑。在一些实施方案中,单个基因递送事件可用于细胞的基因组内20个序列的靶碱基编辑。在一些实施方案中,单个基因递送事件可用于细胞的基因组内30个序列的靶碱基编辑。在一些实施方案中,单个基因递送事件可用于细胞的基因组内40个序列的靶碱基编辑。在一些实施方案中,单个基因递送事件可用于细胞的基因组内50个序列的靶碱基编辑。
在一些实施方案中,本文所述的方法(例如碱基编辑方法)脱靶效应最小或没有脱靶效应。
在一些实施方案中,本文所述的碱基编辑方法导致至少50%的细胞群体被成功编辑(即,细胞被成功地工程化)。在一些实施方案中,本文所述的碱基编辑方法导致至少55%的细胞群体被成功编辑。在一些实施方案中,本文所述的碱基编辑方法导致至少60%的细胞群体被成功编辑。在一些实施方案中,本文所述的碱基编辑方法导致至少65%的细胞群体被成功编辑。在一些实施方案中,本文所述的碱基编辑方法导致至少70%的细胞群体被成功编辑。在一些实施方案中,本文所述的碱基编辑方法导致至少75%的细胞群体被成功编辑。在一些实施方案中,本文所述的碱基编辑方法导致至少80%的细胞群体被成功编辑。在一些实施方案中,本文所述的碱基编辑方法导致至少85%的细胞群体被成功编辑。在一些实施方案中,本文所述的碱基编辑方法导致至少90%的细胞群体被成功编辑。在一些实施方案中,本文所述的碱基编辑方法导致至少95%的细胞群体被成功编辑。在一些实施方案中,本文所述的碱基编辑方法导致约91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的细胞群体被成功编辑。
在一些实施方案中,碱基编辑干预之后的活细胞恢复高于碱基编辑事件时的起始细胞群体的至少60%、70%、80%、90%。在一些实施方案中,如上所述的活细胞恢复为约70%。在一些实施方案中,如上所述的活细胞恢复为约75%。在一些实施方案中,如上所述的活细胞恢复为约80%。在一些实施方案中,如上所述的活细胞恢复为约85%。在一些实施方案中,如上所述的活细胞恢复为碱基编辑事件时的群体中的细胞的约90%或约91%、92%、93%、94%、95%、96%、97%、98%或99%或100%。
在一些实施方案中,工程化细胞群体可以在体外进一步扩增约2倍、约3倍、约4倍、约5倍、约6倍、约7倍、约8倍、约9倍、约10倍、约15倍、约20倍、约25倍、约30倍、约35倍、约40倍、约45倍、约50倍或约100倍。
可以采用任意合适的方法来测定预期突变和插入缺失的数量,例如,如以下文献中所述:国际PCT申请第PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)号;Komor,A.C.等人,“Programmable editing of a target base in genomicDNA without double-stranded DNAcleavage”Nature 533,420-424(2016);Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C in genomic DNAwithoutDNAcleavage”Nature 551,464-471(2017);和Komor,A.C.等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abaseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017);上述文献的全部内容以引用的方式特此并入。
在一些实施方案中,为了计算插入缺失频率,扫描测序读数以获得与侧接其中可能出现插入缺失的窗口两侧的两个10-bp序列的精确匹配。如果找不出精确匹配,则从分析中排除该读数。如果此插入缺失窗口的长度精确匹配参考序列,则该读数被分类为不含插入缺失。如果插入缺失窗口比参考序列长或短两个或更多个碱基,则测序读数分别被分类为插入或缺失。在一些实施方案中,本文提供的碱基编辑器可限制核酸区域中插入缺失的形成。在一些实施方案中,所述区域在由碱基编辑器靶向的核苷酸处或者是由碱基编辑器靶向的核苷酸的2、3、4、5、6、7、8、9或10个核苷酸内的区域。
在靶核苷酸区域处形成的插入缺失的数量可取决于核酸(例如,细胞的基因组内的核酸)暴露于碱基编辑器的时间量。在一些实施方案中,在将靶核苷酸序列(例如,细胞的基因组内的核酸)暴露于碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天后确定插入缺失的数量或比例。应当了解的是,如本文所述的碱基编辑器的特征可应用于任何融合蛋白或使用本文提供的融合蛋白的方法。
国际PCT申请第PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO2017/070632)号中描述了碱基编辑器效率的细节,上述申请中的每一者以全文引用的方式并入本文。另参见Komor,A.C.等人,“Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C in genomicDNAwithout DNA cleavage”Nature 551,464-471(2017);和Komor,A.C.等人,“Improvedbase excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity”ScienceAdvances 3:eaao4774(2017),上述文献的全部内容以引用的方式特此并入。在一些实施方案中,采用本文提供的方法编辑一个或多个基因中的多个核碱基对导致至少一个预期突变的形成。在一些实施方案中,所述至少一个预期突变的所述形成导致基因的正常功能的破坏。在一些实施方案中,所述至少一个预期突变的所述形成导致减少或消除由基因编码的蛋白质的表达。应当了解的是,可以采用本文提供的任何方法或方法的组合来完成多重编辑。
多重编辑
在一些实施方案中,本文提供的碱基编辑器系统能够对一个或多个基因中的多个核碱基对进行多重编辑。在一些实施方案中,多个核碱基对位于同一基因或一个或多个基因中,其中至少一个基因位于不同的基因座中。在一些实施方案中,多重编辑可包含一个或多个引导多核苷酸。在一些实施方案中,多重编辑可包含一个或多个碱基编辑器系统。在一些实施方案中,多重编辑可包含具有单个引导多核苷酸或多个引导多核苷酸的一个或多个碱基编辑器系统。在一些实施方案中,使用单碱基编辑器系统,多重编辑可包含一个或多个引导多核苷酸。在一些实施方案中,多重编辑可包含至少一个引导多核苷酸,其需要或不需要PAM序列来靶向结合靶多核苷酸序列。在一些实施方案中,多重编辑可包含至少一个不需要PAM序列来靶向结合靶多核苷酸序列的引导多核苷酸和至少一个需要PAM序列来靶向结合靶多核苷酸序列的引导多核苷酸的混合物。应当了解的是,使用如本文所述的任何碱基编辑器的多重编辑的特征可应用于使用本文提供的任何碱基编辑器的方法的任意组合。还应当了解的是,使用如本文所述的任何碱基编辑器的多重编辑可包括多个核碱基对的顺序编辑。
在一些实施方案中,多个核碱基对在一个或多个基因中。在一些实施方案中,多个核碱基对在同一基因中。在一些实施方案中,一个或多个基因中的至少一个基因位于不同的基因座中。
在一些实施方案中,所述编辑是编辑至少一个蛋白质编码区、至少一个蛋白质非编码区或至少一个蛋白质编码区和至少一个蛋白质非编码区中的多个核碱基对。
在一些实施方案中,将编辑与一个或多个引导多核苷酸结合。在一些实施方案中,碱基编辑器系统可以包括一个或多个碱基编辑器系统。在一些实施方案中,碱基编辑器系统可包含与单个引导多核苷酸或多个引导多核苷酸结合的一个或多个碱基编辑器系统。在一些实施方案中,使用单碱基编辑器系统,将编辑一个或多个引导多核苷酸结合。在一些实施方案中,将编辑与至少一个不需要PAM序列来靶向结合靶多核苷酸序列的引导多核苷酸,或与至少一个需要PAM序列来靶向结合靶多核苷酸序列的引导多核苷酸,或与至少一个不需要PAM序列来靶向结合靶多核苷酸序列的引导多核苷酸和至少一个确实需要PAM序列来靶向结合靶多核苷酸序列的引导多核苷酸的混合物结合。应当了解的是,使用如本文所述的任何碱基编辑器的多重编辑的特征可应用于使用本文提供的任何碱基编辑器的方法的任意组合。还应当了解的是,编辑可包括多个核碱基对的顺序编辑。
在一些实施方案中,能够多重编辑一个或多个基因中的多个核碱基对的碱基编辑器系统包含ABE7、ABE8和/或ABE9碱基编辑器之一。在一些实施方案中,与包含ABE7碱基编辑器之一的能够多重编辑的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的能够多重编辑的碱基编辑器系统具有更高的多重编辑效率。在一些实施方案中,与包含ABE7碱基编辑器之一的能够多重编辑的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的能够多重编辑的碱基编辑器系统的多重编辑效率高至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少230%、至少240%、至少250%、至少260%、至少270%、至少280%、至少290%、至少300%、高至少310%、至少320%、至少330%、至少340%、至少350%、至少360%、至少370%、至少380%、至少390%、至少400%、至少450%或至少500%。在一些实施方案中,与包含ABE7碱基编辑器之一的能够多重编辑的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的能够多重编辑的碱基编辑器系统的多重编辑效率高至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少4.0倍、至少4.5倍、至少5.0倍、至少5.5倍或至少6.0倍。
递送系统
如本文所述评价核碱基编辑器靶向基因(例如,转甲状腺素蛋白(TTR)基因)中的一个或多个核苷酸的适合性。在一个实施方案中,用编码本文所述的碱基编辑系统的核酸分子或多个分子与少量编码报告蛋白(例如,GFP)的载体一起来转染、转导或以其它方式修饰所关注的单细胞。这些细胞可以是本领域中已知的任何细胞系,包括肝细胞。或者,可以使用原代细胞(例如,人的)。细胞也可以获自受试者或个体,如获自组织活检、外科手术、血液、血浆、血清或其它生物流体。这类细胞可能与最终的细胞靶标相关。
可以使用病毒载体进行递送。在一个实施方案中,可以采用脂质转染(如Lipofectamine或Fugene)或通过电穿孔来进行转染。转染之后,可以通过荧光显微术或流式细胞术来确定报告蛋白(例如,GFP)的表达,以确认一致和高水平的转染。这些初步转染可包含不同的核碱基编辑器,以确定哪些编辑器的组合产生最大的活性。系统可包含一个或多个不同的载体。在一个实施方案中,碱基编辑器被密码子优化以用于表达所需的细胞类型,优选真核细胞,优选哺乳动物细胞或人细胞。
如本文所述评估核碱基编辑器的活性,即通过对细胞的基因组进行测序以检测靶序列中的改变。对于桑格测序,将纯化的PCR扩增子克隆到质粒主链中,进行转化、小量制备,并用单一引物进行测序。也可以采用下一代测序(NGS)技术来进行测序。当采用下一代测序时,扩增子可以为300-500bp,预期切割位点不对称放置。PCR之后,可以将下一代测序衔接子和条形码(例如Illumina多重衔接子和索引)添加到扩增子的端部,例如用于高通量测序(例如在Illumina MiSeq上)。可以选择在初始测试中诱导最大水平的靶特异性改变的融合蛋白用于进一步评价。
在特定的实施方案中,核碱基编辑器用于靶向所关注的多核苷酸。在一个实施方案中,本发明的核碱基编辑器与用于靶向细胞的基因组内所关注的一个或多个核酸序列的一个或多个引导RNA一起被递送至细胞(例如,肝细胞),从而改变靶基因(例如,转甲状腺素蛋白基因(TTR))。在一些实施方案中,碱基编辑器被一个或多个引导RNA靶向,以将一个或多个编辑引入一个或多个所关注的基因(例如,转甲状腺素蛋白基因(TTR))的序列中。在一些实施方案中,对一个或多个所关注的基因的序列的一个或多个编辑降低或消除了宿主细胞中由所述基因编码的蛋白质(例如,转甲状腺素蛋白(TTR)多肽)的表达。在一些实施方案中,由一个或多个所关注的基因(例如,转甲状腺素蛋白(TTR)基因)编码的一个或多个蛋白质的表达在宿主细胞(例如,肝细胞)中被完全敲除或消除。
在一些实施方案中,宿主细胞是哺乳动物细胞。在一些实施方案中,宿主细胞是人细胞。
碱基编辑器系统的基于核酸的递送
可以通过本领域已知的方法或如本文所述在体外或体内将编码根据本公开的碱基编辑器系统的核酸分子施用给受试者或递送到细胞中。例如,可以通过载体(例如,病毒或非病毒载体)或通过裸DNA、DNA复合物、脂质纳米颗粒或前述组合物的组合来递送包含脱氨酶(例如,胞苷或腺嘌呤脱氨酶)的碱基编辑器系统。
可以是有机或无机的纳米颗粒可用于递送碱基编辑器系统或其组件。纳米颗粒是本领域中熟知的,并且任意合适的纳米颗粒均可用于递送碱基编辑器系统或其组件或编码这类组件的核酸分子。在一个示例中,有机(例如脂质和/或聚合物)纳米颗粒适合用作本公开的某些实施方案中的递送媒介物。用于纳米颗粒制剂和/或基因转移的示例性脂质示于(下)表17中。
表17.用于基因转移的脂质。
/>
表18列出了用于基因转移和/或纳米颗粒制剂的示例性聚合物。
表18.用于基因转移的聚合物。
/>
表19总结了编码本文所述的融合蛋白的多核苷酸的递送方法。
表19.递送方法。
/>
另一方面,可以通过将核糖核蛋白(RNP)递送至细胞来实现递送碱基编辑器系统组件或编码这类组件的核酸,所述组件例如为多核苷酸可编程核苷酸结合结构域(例如,Cas9),例如Cas9或其变体,以及靶向所关注的核酸序列的gRNA。RNP包含与靶向gRNA复合的多核苷酸可编程核苷酸结合结构域(例如,Cas9)。可采用已知的方法将本文所述的RNP或多核苷酸递送至细胞,例如采用电穿孔、核转染或阳离子脂质介导的方法,例如,如Zuris,J.A.等人,2015,Nat.Biotechnology,33(1):73-80所报告,该文献以引用的方式全文并入。RNP有利地用于CRISPR碱基编辑系统,特别是用于难以转染的细胞,如原代细胞。此外,RNP还可以减轻细胞中的蛋白质表达可能会出现的困难,特别是当可用在CRISPR质粒中的真核启动子(例如,CMV或EF1A)没有良好表达时。有利的是,使用RNP不需要将外源DNA递送到细胞中。此外,因为包含核酸结合蛋白和gRNA复合物的RNP随着时间的推移而降解,所以使用RNP具有限制脱靶效应的潜力。以类似于基于质粒的技术的方式,RNP可用于递送结合蛋白(例如,Cas9变体)和指导同源定向修复(HDR)。
编码碱基编辑器系统的核酸分子可例如借助于转染或电穿孔作为裸DNA或RNA直接递送至细胞(例如,肝细胞),或者可以与促进由靶细胞摄取的分子(例如,N-乙酰半乳糖胺)缀合。也可以使用编码碱基编辑器系统和/或其组件的载体。在特定的实施方案中,多核苷酸(例如编码碱基编辑器系统或其功能组件的mRNA)可以与如本文所述的一个或多个引导RNA共电穿孔。
核酸载体可包含编码本文所述的融合蛋白的结构域的一个或多个序列。载体还可以编码与核定位信号、核仁定位信号或线粒体定位信号可操作地连接的碱基编辑器系统的蛋白质组件。作为一个示例,载体可包括Cas9编码序列,其包括一个或多个核定位序列(例如,来自SV40的核定位序列)和一个或多个脱氨酶。
载体还可以包括任意合适数量的调控/控制元件,例如启动子、增强子、内含子、聚腺苷酸化信号、Kozak共有序列或内部核糖体进入位点(IRES)。这些元件是本领域中熟知的。
根据本公开的载体包括重组病毒载体。示例性病毒载体如上文所示。也可以使用本领域中已知的其它病毒载体。此外,病毒颗粒可用于递送核酸和/或蛋白质形式的碱基编辑器系统组件。例如,“空”病毒颗粒可以被组装成含有碱基编辑器系统或组件作为货物。病毒载体和病毒颗粒也可以被工程化成并入靶向配体以改变靶组织特异性。
本文所述的载体可包含调控元件以驱动碱基编辑器系统或其组件的表达。这类载体包括具有反向长末端重复序列的腺相关病毒(AAV ITR)。AAV-ITR的使用有利于消除对另外的启动子元件的需求,另外的启动子元件可能会占据载体中的空间。释放出来的另外的空间可用于驱动另外的元件,如引导核酸或可选择标志物的表达。ITR活性可用于减少由过表达所致的潜在毒性。
任意合适的启动子可用于驱动碱基编辑器系统或其组件以及(在适当情况下)引导核酸的表达。对于普遍表达,启动子包括CMV、CAG、CBh、PGK、SV40、铁蛋白重链或轻链。对于脑或其它CNS细胞表达,合适的启动子包括:用于所有神经元的突触蛋白I、用于兴奋性神经元的CaMKIIα、用于GABA能神经元的GAD67或GAD65或VGAT。对于肝脏细胞表达,合适的启动子包括白蛋白启动子。对于肺细胞表达,合适的启动子包括SP-B。对于内皮细胞,合适的启动子包括ICAM。对于造血细胞表达,合适的启动子包括IFNβ或CD45。对于成骨细胞表达,合适的启动子可以包括OG-2。
在一些实施方案中,本公开的碱基编辑器系统的大小小到足以允许单独的启动子驱动碱基编辑器和同一核酸分子内的相容性引导核酸的表达。例如,载体或病毒载体可包含与编码碱基编辑器的核酸可操作地连接的第一启动子和与引导核酸可操作地连接的第二启动子。
用来驱动引导核酸的表达的启动子可包括:Pol III启动子,如U6或H1使用Pol II启动子和内含子盒以表达gRNA腺相关病毒(AAV)。
在特定的实施方案中,本发明的融合蛋白由病毒载体(例如,腺相关病毒(AAV)、AAV3、AAV3b、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAVrh8、AAV10及其变体)或任何病毒载体的合适衣壳蛋白中存在的多核苷酸编码。因此,在一些方面,本公开涉及融合蛋白的病毒递送。病毒载体的示例包括逆转录病毒载体(例如马洛尼鼠白血病病毒,MML-V)、腺病毒载体(例如AD100)、慢病毒载体(基于HIV和FIV的载体)、疱疹病毒载体(例如HSV-2)。
在一些方面,本文所述的用于编辑细胞中的特定基因的方法可用于对细胞进行遗传修饰。在若干实施方案中,细胞是肝细胞。
病毒载体
因此本文所述的碱基编辑器可以与病毒载体一起递送。在一些实施方案中,本文公开的碱基编辑器可以在病毒载体中所含的核酸上编码。在一些实施方案中,碱基编辑器系统的一个或多个组件可以在一个或多个病毒载体上编码。例如,碱基编辑器和引导核酸可以在单个病毒载体上编码。在其它实施方案中,碱基编辑器和引导核酸在不同的病毒载体上编码。在任一种情况下,碱基编辑器和引导核酸可以各自与启动子和终止子可操作地连接。可以通过选择的病毒载体的货物大小限制来确定在病毒载体上编码的组件的组合。
使用基于RNA或DNA病毒的系统来递送碱基编辑器利用了高度进化的过程,用于将病毒靶向至培养物中或宿主中的特定细胞,并将病毒有效载荷运输至细胞核或宿主细胞基因组。可以对培养物、患者(体内)中的细胞直接施用病毒载体,或者它们可用于在体外处理细胞,并且可任选向患者(离体)施用修饰的细胞。常规的基于病毒的系统可包括用于基因转移的逆转录病毒、慢病毒、腺病毒、腺相关病毒和单纯疱疹病毒载体。使用逆转录病毒、慢病毒和腺相关病毒基因转移方法有可能整合在宿主基因组中,通常导致插入转基因的长期表达。另外,在许多不同的细胞类型和靶组织中观察到高转导效率。
病毒载体可包括慢病毒(例如,基于HIV和FIV的载体)、腺病毒(例如,AD100)、逆转录病毒(例如,马洛尼鼠白血病病毒,MML-V)、疱疹病毒载体(例如,HSV-2)和腺相关病毒(AAV),或其它质粒或病毒载体类型,特别是使用来自例如美国专利第8,454,972号(腺病毒的制剂、剂量)、美国专利第8,404,658号(AAV的制剂、剂量)和美国专利第5,846,946号(DNA质粒的制剂、剂量)以及来自临床试验和关于涉及慢病毒、AAV和腺病毒的临床试验的出版物的制剂和剂量。例如,对于AAV,施用途径、制剂和剂量可以如美国专利第8,454,972号和如涉及AAV的临床试验中的那样。对于腺病毒,施用途径、制剂和剂量可以如美国专利第8,404,658号和如涉及腺病毒的临床试验中的那样。对于质粒递送,施用途径、制剂和剂量可以如美国专利第5,846,946号和如涉及质粒的临床研究中的那样。剂量可基于或外推至平均70kg的个体(例如男性成年人),并且可以针对不同体重和物种的患者、受试者、哺乳动物进行调整。施用的频率在医学或兽医学从业者(例如,医生、兽医)的技能范围内,这取决于通常的因素,包括患者或受试者的年龄、性别、一般健康状况、其它病状以及所要解决的特定病状或症状。可以将病毒载体注射到所关注的组织中。对于细胞类型特异性碱基编辑,碱基编辑器和任选的引导核酸的表达可由细胞类型特异性启动子驱动。
可以通过并入外源包膜蛋白、扩大靶细胞的潜在靶群体来改变逆转录病毒的嗜性。慢病毒载体是能够转导或感染非分裂细胞并通常产生高病毒滴度的逆转录病毒载体。因此逆转录病毒基因转移系统的选择取决于靶组织。逆转录病毒载体由顺式作用的长末端重复序列组成,具有多达6-10kb的外源序列的包装容量。最小顺式作用LTR足以复制和包装载体,然后载体用于将治疗基因整合到靶细胞中,以提供永久的转基因表达。广泛使用的逆转录病毒载体包括基于鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猿猴免疫缺陷病毒(SIV)、人免疫缺陷病毒(HIV)及其组合的那些(参见例如,Buchscher等人,J.Virol.66:2731-2739(1992);Johann等人,J.Virol.66:1635-1640(1992);Sommnerfelt等人,Virol.176:58-59(1990);Wilson等人,J.Virol.63:2374-2378(1989);Miller等人,J.Virol.65:2220-2224(1991);PCT/US94/05700)。
逆转录病毒载体,特别是慢病毒载体,可能需要比给定长度短的多核苷酸序列来有效地整合到靶细胞中。例如,长度大于9kb的逆转录病毒载体与大小较小的那些相比可导致低病毒滴度。在一些方面,本公开的碱基编辑器具有足够的大小,以便能够经由逆转录病毒载体有效包装和递送到靶细胞中。在一些实施方案中,碱基编辑器的大小使得即使当与引导核酸和/或可靶向核酸酶系统的其它组件一起表达时也允许有效的包装和递送。
包装细胞通常用于形成能够感染宿主细胞的病毒颗粒。这类细胞包括包装腺病毒的293细胞和包装逆转录病毒的psi.2细胞或PA317细胞。通常是通过产生将核酸载体包装到病毒颗粒中的细胞系来产生用于基因治疗的病毒载体。载体通常含有包装和随后整合到宿主中所需的最小病毒序列,其它病毒序列被要表达的多核苷酸的表达盒替换。缺失的病毒功能通常由包装细胞系反式提供。例如,用于基因治疗的腺相关病毒(“AAV”)载体通常仅拥有来自包装和整合到宿主基因组中所需的AAV基因组的ITR序列。病毒DNA可以被包装在细胞系中,该细胞系含有编码其它AAV基因(即rep和cap)的辅助质粒,但缺乏ITR序列。该细胞系也可以用腺病毒作为辅助物感染。辅助病毒可促进AAV载体的复制和来自辅助质粒的AAV基因的表达。辅助质粒在一些情况下由于缺乏ITR序列而没有被大量包装。可以通过例如热处理来减少腺病毒的污染,腺病毒比AAV对热处理更敏感。
在短暂表达是优选的应用中,可以使用基于腺病毒的系统。基于腺病毒的载体能够在许多细胞类型中具有非常高的转导效率,并且不需要细胞分裂。利用这类载体,已经获得了高滴度和表达水平。这种载体可以在相对简单的系统中大量产生。腺相关病毒(“AAV”)载体也可用于用靶核酸转导细胞,例如在核酸和肽的体外产生中,以及用于体内和离体基因治疗程序(参见例如,West等人,Virology 160:38-47(1987);美国专利第4,797,368号;WO 93/24641;Kotin,Human Gene Therapy 5:793-801(1994);Muzyczka,J.Clin.Invest.94:1351(1994)。许多出版物中描述了重组AAV载体的构建,包括美国专利第5,173,414号;Tratschin等人,Mol.Cell.Biol.5:3251-3260(1985);Tratschin等人,Mol.Cell.Biol.4:2072-2081(1984);Hermonat和Muzyczka,PNAS 81:6466-6470(1984);和Samulski等人,J.Virol.63:03822-3828(1989)。
在一些实施方案中,AAV载体用于用编码如本文提供的碱基编辑器或碱基编辑器系统的多核苷酸转导所关注的细胞。AAV是一种小型单链DNA依赖性病毒,属于细小病毒家族。4.7kb的野生型(wt)AAV基因组由分别编码四个复制蛋白和三个衣壳蛋白的两个基因组成,并且在两侧侧接145-bp的反向末端重复序列(ITR)。病毒体由三种衣壳蛋白Vp1、Vp2和Vp3组成,它们以1:1:10的比率自同一开放阅读框产生,但来自差异剪接(Vp1)和替代的翻译起始位点(分别为Vp2和Vp3)。Vp3是病毒体中最丰富的亚单位,并且参与在限定病毒的嗜性的细胞表面处的受体识别。已经在Vp1的独特N末端鉴定了在病毒感染性方面起作用的磷脂酶结构域。
与wt AAV类似,重组AAV(rAAV)利用顺式作用的145-bp ITR侧接载体转基因盒,提供多达4.5kb用于外源DNA的包装。继感染之后,rAAV可以表达本发明的融合蛋白,并且通过在环状头对尾串联体中以游离体形式存在的方式持续存在,而不整合到宿主基因组中。尽管在体外和体内有许多rAAV成功使用此系统的示例,但当基因的编码序列的长度大小等于或大于wt AAV基因组时,有限的包装容量限制采用AAV介导的基因递送。
可基于应用选择病毒载体。例如,对于体内基因递送,AAV可能优于其它病毒载体。在一些实施方案中,AAV允许低毒性,这可能是由于纯化方法不需要可激活免疫反应的细胞颗粒的超速离心。在一些实施方案中,AAV允许引起插入诱变的低概率,因为其不整合到宿主基因组中。腺病毒通常用作疫苗,因为它们诱导强烈的免疫原性反应。病毒载体的包装容量可限制可包装到载体中的碱基编辑器的大小。
AAV具有约4.5Kb或4.75Kb的包装容量,包括两个145个碱基的反向末端重复序列(ITR)。这意味着公开的碱基编辑器以及启动子和转录终止子可嵌入到单个病毒载体中。大于4.5或4.75Kb的构建体可导致病毒产生显著减少。例如,SpCas9相当大,基因本身超过4.1Kb,这使得其难以包装到AAV中。因此,本公开的实施方案包括利用所公开的长度比常规碱基编辑器短的碱基编辑器。在一些示例中,碱基编辑器小于4kb。所公开的碱基编辑器可小于4.5kb、4.4kb、4.3kb、4.2kb、4.1kb、4kb、3.9kb、3.8kb、3.7kb、3.6kb、3.5kb、3.4kb、3.3kb、3.2kb、3.1kb、3kb、2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2kb或1.5kb。在一些实施方案中,所公开的碱基编辑器的长度为4.5kb或更短。
AAV可以是AAV1、AAV2、AAV5或其任意组合。可以根据要靶向的细胞来选择AAV的类型;例如可以选择AAV血清型1、2、5或杂交衣壳AAV1、AAV2、AAV5或其任意组合,用于靶向脑或神经元细胞;并且可以选择AAV4用于靶向心脏组织。AAV8可用于递送至肝脏。关于这些细胞的某些AAV血清型的列表可见于Grimm,D.等人,J.Virol.82:5887-5911(2008))。
在一些实施方案中,慢病毒载体用于用编码碱基编辑器系统的多核苷酸转导所关注的细胞。慢病毒是复杂的逆转录病毒,其有能力在有丝分裂和有丝分裂后的细胞中感染和表达其基因。最常见的慢病毒是人免疫缺陷病毒(HIV),其使用其它病毒的包膜糖蛋白来靶向广泛的细胞类型。
可如下制备慢病毒。在克隆pCasES10(其含有慢病毒转移质粒主链)后,将低传代(p=5)的HEK293FT接种在T-75烧瓶中,至在含有10%胎牛血清且不含抗生素的DMEM中转染前一天达到50%汇合。20小时后,将培养基换成OptiMEM(无血清)培养基,并在4小时后进行转染。用10μg慢病毒转移质粒(pCasES10)和以下包装质粒转染细胞:5μg的pMD2.G(VSV-g假型)和7.5μg的psPAX2(gag/pol/rev/tat)。转染可以在含有阳离子脂质递送剂(50μlLipofectamine 2000和100μl Plus试剂)的4mL OptiMEM中进行。6小时后,将培养基更换为含有10%胎牛血清的无抗生素DMEM。这些方法在细胞培养期间使用血清,但无血清方法是优选的。
可以如下纯化慢病毒。48小时后收获病毒上清液。首先清除上清液中的碎片,并通过0.45μm低蛋白结合(PVDF)过滤器过滤。然后将它们在超速离心机中以24,000rpm旋转2小时。在4℃下将病毒沉淀重悬于50μl的DMEM中过夜。然后将它们等分,并立即在-80℃下冷冻。
在另一实施方案中,还考虑了基于马传染性贫血病毒(EIAV)的最小非灵长类慢病毒载体。在另一实施方案中,是基于马传染性贫血病毒的慢病毒基因治疗载体,其表达血管生成抑制蛋白内皮抑制素和血管抑制素,其预期经由视网膜下注射递送。在另一实施方案中,考虑使用自失活慢病毒载体。
系统的任何RNA,例如引导RNA或碱基编辑器编码mRNA,都可以以RNA的形式递送。碱基编辑器编码mRNA可采用体外转录产生。例如,可以使用含有以下元件的PCR盒来合成核酸酶mRNA:T7启动子、任选的kozak序列(GCCACC)、核酸酶序列和3’UTR,如来自β珠蛋白-多聚腺苷酸尾的3’UTR。所述盒可用于通过T7聚合酶进行转录。引导多核苷酸(例如,gRNA)也可以采用体外转录从含有T7启动子、接着是序列“GG”和引导多核苷酸序列的盒中转录。
为了增强表达和减少可能的毒性,可以修饰碱基编辑器编码序列和/或引导核酸以包括一个或多个修饰的核苷,例如使用假-U或5-甲基-C。
AAV载体的小包装容量使递送超过此大小的基因量和/或使用大的生理调控元件具有挑战性。可以例如通过将要递送的蛋白质分成两个或更多个片段来解决这些挑战,其中N末端片段与分裂的内含肽-N融合,且C末端片段与分裂的内含肽-C融合。然后将这些片段包装到两个或更多个AAV载体中。如本文所用,“内含肽”是指连接侧接N末端和C末端外显子(例如,要连接的片段)的自剪接蛋白内含子(例如,肽)。例如Wood等人,J.Biol.Chem.289(21);14512-9(2014)中描述了某些内含肽用于连接异源蛋白质片段的用途。例如,当与单独的蛋白质片段融合时,内含肽IntN和IntC彼此识别,将自身剪接出来,并同时连接与它们所融合的蛋白质片段的侧接N末端和C末端外显肽,从而由两个蛋白质片段重构全长蛋白。其它合适的内含肽对于本领域技术人员来说将是显而易见的。
本发明的融合蛋白的片段的长度可以变化。在一些实施方案中,蛋白质片段的长度范围是2个氨基酸至约1000个氨基酸。在一些实施方案中,蛋白质片段的长度范围是约5个氨基酸至约500个氨基酸。在一些实施方案中,蛋白质片段的长度范围是约20个氨基酸至约200个氨基酸。在一些实施方案中,蛋白质片段的长度范围是约10个氨基酸至约100个氨基酸。其它长度的合适蛋白质片段对于本领域技术人员来说将是显而易见的。
在一个实施方案中,通过将大的转基因表达盒分成两个单独的半部(5’和3’端,或头和尾)来产生双AAV载体,其中盒的每一半包装在单个AAV载体(<5kb)中。然后在通过两个双AAV载体共感染相同细胞后实现全长转基因表达盒的重新组装,接着是(1)5′与3′基因组之间的同源重组(HR)(双AAV重叠载体);(2)ITR介导的5′和3′基因组的尾对头串联化(双AAV反式剪接载体);或(3)这两种机制的组合(双AAV杂交载体)。在体内使用双AAV载体导致全长蛋白质的表达。双AAV载体平台的使用代表了针对大小>4.7kb的转基因的有效且可行的基因转移策略。
内含肽
内含肽(介入蛋白)是见于多种不同生物体中的自动加工结构域,其执行被称为蛋白质剪接的过程。蛋白质剪接是包括肽键的切割和形成的多步骤生物化学反应。虽然蛋白质剪接的内源底物是见于含有内含肽的生物体中的蛋白质,但内含肽也可用于化学操纵几乎任何多肽主链。
在蛋白质剪接中,内含肽通过切割两个肽键将其自身从前体多肽中切除出来,从而经由新肽键的形成连接侧接外显肽(外部蛋白质)序列。此重排发生在翻译(或者可能是共翻译)后。内含肽介导的蛋白质剪接是自发发生的,仅需要内含肽结构域的折叠。
约5%的内含肽是分裂的内含肽,它们被转录和翻译为两个单独的多肽,即N-内含肽和C-内含肽,每一者与一个外显肽融合。翻译后,内含肽片段自发且非共价地组装成规范内含肽结构,以进行反式蛋白质剪接。蛋白质剪接的机制需要一系列酰基转移反应,这些反应导致在内含肽-外显肽连接处的两个肽键的切割,和在N外显肽与C外显肽之间新肽键的形成。这一过程是通过连接N-外显肽和内含肽的N末端的肽键的激活启动的。几乎所有的内含肽在它们的N末端都有攻击C末端N-外显肽残基的羰基碳的半胱氨酸或丝氨酸。保守的苏氨酸和组氨酸(被称为TXXH基序(SEQ ID NO:374))连同常见的天冬氨酸促进这种N至O/S酰基转移,导致形成线性(硫代)酯中间体。接下来,此中间体通过第一C-外显肽残基(+1)(其是半胱氨酸、丝氨酸或苏氨酸)的亲核攻击进行反式(硫代)酯化。所得支链(硫代)酯中间体通过独特的转化:内含肽的高度保守的C末端天冬酰胺的环化被拆分。此过程由组氨酸(见于高度保守的HNF基序中)和倒数第二个组氨酸促进,并且还可能涉及天冬氨酸。这种琥珀酰亚胺形成反应从反应复合物中切除内含肽,并留下通过非肽键连接的外显肽。此结构以非内含肽依赖性方式快速重排成稳定的肽键。
内含肽的非限制性示例包括本领域中已知的任何内含肽或内含肽对,其包括基于dnaE内含肽的合成内含肽,Cfa-N(例如,分裂内含肽-N)和Cfa-C(例如,分裂内含肽-C)内含肽对已经被描述(例如,在Stevens等人,J Am Chem Soc.2016年2月24日;138(7):2162-5,以引用的方式并入本文),和DnaE。可根据本公开使用的内含肽的非限制性示例包括:CfaDnaE内含肽、Ssp GyrB内含肽、Ssp DnaX内含肽、Ter DnaE3内含肽、Ter ThyX内含肽、RmaDnaB内含肽和Cne Prp8内含肽(例如,如以引用的方式并入本文的美国专利第8,394,604号中所述)。内含肽的示例性核苷酸和氨基酸序列在序列表中提供为SEQ ID NO:375-382。
内含肽-N和内含肽-C可分别与分裂Cas9的N末端部分和分裂Cas9的C末端部分融合,用于连接分裂Cas9的N末端部分和分裂Cas9的C末端部分。例如,在一些实施方案中,内含肽-N与分裂Cas9的N末端部分的C末端融合,即形成N--[分裂Cas9的N末端部分]--[内含肽-N]--C的结构。在一些实施方案中,内含肽-C与分裂Cas9的C末端部分的N末端融合,即形成N-[内含肽-C]--[分裂Cas9的C末端部分]-C的结构。内含肽介导的蛋白质剪接用于连接内含肽所融合的蛋白质(例如,分裂Cas9)的机制是本领域中已知的,例如,如Shah等人,Chem Sci.2014;5(1):446-461中所述,以引用的方式并入本文。设计和使用内含肽的方法是本领域中已知的,并且例如由WO2014004336、WO2017132580、US20150344549和US20180127780描述,上述专利文献中的每一者以全文引用的方式并入本文。
在一些实施方案中,核酸酶(例如,Cas9)的一部分或片段与内含肽融合。核酸酶可与内含肽的N末端或C末端融合。在一些实施方案中,融合蛋白的一部分或片段与内含肽融合,并且与AAV衣壳蛋白融合。内含肽、核酸酶和衣壳蛋白可以按任何排列融合在一起(例如,核酸酶-内含肽-衣壳、内含肽-核酸酶-衣壳、衣壳-内含肽-核酸酶等)。在一些实施方案中,碱基编辑器(例如,ABE、CBE)的N末端片段与分裂的内含肽-N融合,并且C末端片段与分裂的内含肽-C融合。然后将这些片段包装到两个或更多个AAV载体中。在一些实施方案中,内含肽的N末端与融合蛋白的C末端融合,并且内含肽的C末端与AAV衣壳蛋白的N末端融合。
在一个实施方案中,利用内含肽来连接接枝到AAV衣壳蛋白上的胞苷或腺苷碱基编辑器蛋白的片段或部分。例如Wood等人,J.Biol.Chem.289(21);14512-9(2014)中描述了某些内含肽用于连接异源蛋白质片段的用途。例如,当与单独的蛋白质片段融合时,内含肽IntN和IntC彼此识别,将自身剪接出来,并同时连接与它们所融合的蛋白质片段的侧接N末端和C末端外显肽,从而由两个蛋白质片段重构全长蛋白。其它合适的内含肽对于本领域技术人员来说将是显而易见的。
在一些实施方案中,ABE在SpCas9的选定区域内的Ala、Ser、Thr或Cys残基处被分裂成N末端和C末端片段。这些区域对应于由Cas9晶体结构分析鉴定的环区域。
每个片段的N末端与内含肽-N融合,并且每个片段的C末端在氨基酸位置S303、T310、T313、S355、A456、S460、A463、T466、S469、T472、T474、C574、S577、A589和S590处与内含肽C融合,上述位置在下面的序列(称为“Cas9参考序列”)中以大写字母表示。
药物组合物
在一些方面,本发明提供了药物组合物,其包含本文所述的任何遗传修饰细胞、碱基编辑器、融合蛋白或融合蛋白-引导多核苷酸复合物。
本发明的药物组合物可以根据已知的技术来制备。参见例如Remington,TheScience And Practice of Pharmacy(第21版,2005)。一般来说,细胞或其群体在施用或储存之前与合适的载剂混合,并且在一些实施方案中,药物组合物进一步包含药学上可接受的载剂。合适的药学上可接受的载剂通常包含惰性物质,其有助于向受试者施用药物组合物,有助于将药物组合物加工成可递送制剂,或者有助于在施用之前储存药物组合物。药学上可接受的载剂可包括可以稳定、优化或以其它方式改变制剂的形式、稠度、粘度、pH、药代动力学、溶解度的剂。这类剂包括缓冲剂、润湿剂、乳化剂、稀释剂、包封剂和皮肤渗透促进剂。例如,载剂可包括但不限于盐水、缓冲盐水、右旋糖、精氨酸、蔗糖、水、甘油、乙醇、山梨糖醇、葡聚糖、羧甲基纤维素钠及其组合。
可用作药学上可接受的载剂的物质的一些非限制性示例包括:(1)糖类,如乳糖、葡萄糖和蔗糖;(2)淀粉,如玉米淀粉和马铃薯淀粉;(3)纤维素及其衍生物,如羧甲基纤维素钠、甲基纤维素、乙基纤维素、微晶纤维素和乙酸纤维素;(4)粉状黄蓍胶;(5)麦芽;(6)明胶;(7)润滑剂,如硬脂酸镁、十二烷基硫酸钠和滑石;(8)赋形剂,如可可脂和栓剂蜡;(9)油类,如花生油、棉籽油、红花油、芝麻油、橄榄油、玉米油和大豆油;(10)二醇,如丙二醇;(11)多元醇,如甘油、山梨糖醇、甘露糖醇和聚乙二醇(PEG);(12)酯类,如油酸乙酯和月桂酸乙酯;(13)琼脂;(14)缓冲剂,如氢氧化镁和氢氧化铝;(15)海藻酸;(16)无热原水;(17)等渗盐水;(18)林格氏溶液;(19)乙醇;(20)pH缓冲溶液;(21)聚酯、聚碳酸酯和/或聚酸酐;(22)膨松剂,如多肽和氨基酸;(23)血清醇,如乙醇;和(23)药物制剂中使用的其它无毒相容性物质。制剂中也可以存在润湿剂、着色剂、脱模剂、包衣剂、甜味剂、调味剂、芳香剂、防腐剂和抗氧化剂。
药物组合物可包含一种或多种pH缓冲化合物,以将制剂的pH维持在反映生理pH的预定水平,如在约5.0至约8.0的范围内。水性液体制剂中使用的pH缓冲化合物可以是氨基酸或氨基酸的混合物,如组氨酸或诸如组氨酸和甘氨酸的氨基酸混合物。或者,pH缓冲化合物优选为将制剂的pH维持在预定水平(如在约5.0至约8.0的范围内)且不螯合钙离子的剂。这类pH缓冲化合物的说明性示例包括但不限于咪唑和乙酸根离子。pH缓冲化合物可以以适合将制剂的pH维持在预定水平的任意量存在。
药物组合物还可以含有一种或多种渗透调节剂,即将制剂的渗透性质(例如,张力、渗透压和/或渗透压力)调节到接受个体的血流和血细胞可接受的水平的化合物。渗透调节剂可以是不螯合钙离子的剂。渗透调节剂可以是本领域技术人员已知或可获得的调节制剂的渗透性质的任何化合物。本领域技术人员可以凭经验确定给定的渗透调节剂用于本发明制剂的适用性。合适类型的渗透调节剂的说明性示例包括但不限于:盐,如氯化钠和乙酸钠;糖,如蔗糖、右旋糖和甘露糖醇;氨基酸,如甘氨酸;以及这些试剂和/或试剂类型中的一者或多者的混合物。渗透调节剂可以以足以调节制剂的渗透性质的任何浓度存在。
除了修饰的细胞或其群体和载剂之外,本发明的药物组合物还可以包括可用于治疗疾病的至少一种另外的治疗剂。例如,本文所述的药物组合物的一些实施方案进一步包含化疗剂。在一些实施方案中,药物组合物进一步包含细胞因子肽或编码细胞因子肽的核酸序列。在一些实施方案中,包含细胞或其群体的药物组合物可以与另外的治疗剂分开施用。
关于本发明的遗传修饰细胞的治疗用途的一个考虑因素是达到最佳或满意效果所需的细胞量。对于接受治疗的受试者来说,要施用的细胞量可以不同。在一个实施方案中,向人受试者施用104至1010个之间、105至109个之间或106与108个之间的本发明的遗传修饰细胞。在一些实施方案中,向人受试者施用至少约1x 108、2x 108、3x108、4x 108和5x 108个本发明的遗传修饰细胞。可基于每一个体受试者的因素确定精确的有效剂量,所述因素包括他们的体型、年龄、性别、体重和状况。本领域技术人员根据本公开和本领域的知识可以很容易地确定剂量。
技术人员可以很容易地确定组合物中的细胞数量和任选的添加剂、媒介物和/或载剂的量,并在本发明的方法中进行施用。通常,添加剂(除了细胞之外)以在磷酸盐缓冲盐水中的0.001至50%(重量)的溶液的量存在,并且活性成分以微克至毫克的量级存在,如约0.0001至约5重量%,优选约0.0001至约1重量%,还更优选约0.0001至约0.05重量%或约0.001至约20重量%,优选约0.01至约10重量%,并且还更优选约0.05至约5重量%。当然,对于要向动物或人施用的任何组合物以及对于任何特定的施用方法,因此优选的是确定:毒性,如通过确定在合适的动物模型(例如,啮齿动物,如小鼠)中的致死剂量(LD)和LD50;以及引发合适反应的组合物的剂量、其中的组分的浓度和施用组合物的时机。根据技术人员的知识、本公开内容和本文引用的文献,这类确定不需要进行过度的实验。并且,无需进行过度实验就可以确定顺序施用的时间。
在一些实施方案中,药物组合物被配制用于递送给受试者。施用本文所述的药物组合物的合适途径包括但不限于:局部、皮下、透皮、皮内、病灶内、关节内、腹膜内、膀胱内、经粘膜、经牙龈、牙内、耳蜗内、经鼓膜、器官内、硬膜外、鞘内、肌内、静脉内、血管内、骨内、眼周、瘤内、脑内和脑室内施用。
在一些实施方案中,向患病部位(例如,肝脏)局部施用本文所述的药物组合物。在一些实施方案中,通过注射、借助于导管、借助于栓剂或借助于植入物向受试者施用本文所述的药物组合物,植入物是多孔、无孔或凝胶状材料,包括膜如硅酸盐弹性材料膜或纤维。
在其它实施方案中,在受控释放系统中递送本文所述的药物组合物。在一个实施方案中,可以使用泵(参见例如,Langer,1990,Science249:1527-1533;Sefton,1989,CRCCrit.Ref.Biomed.Eng.14:201;Buchwald等人,1980,Surgery 88:507;Saudek等人,1989,N.Engl.J.Med.321:574)。在另一实施方案中,可以使用聚合物材料。(参见例如,MedicalApplications of Controlled Release(Langer和Wise编著,CRC Press,Boca Raton,Fla.,1974);Controlled Drug Bioavailability,Drug Product Design andPerformance(Smolen和Ball编著,Wiley,New York,1984);Ranger和Peppas,1983,Macromol.Sci.Rev.Macromol.Chem.23:61。还参见Levy等人,1985,Science 228:190;During等人,1989,Ann.Neurol.25:351;Howard等人,1989,J.Neurosurg.71:105)。Langer例如在上文中讨论了其它受控释放系统。
在一些实施方案中,根据常规程序将药物组合物配制为适合于向受试者(例如,人)静脉内或皮下施用的组合物。在一些实施方案中,用于通过注射施用的药物组合物是无菌等渗溶液,用作增溶剂和局部麻醉剂如利多卡因以减轻注射部位的疼痛。一般地,各成分以单位剂型单独或混合在一起提供,例如作为干燥的冻干粉末或无水浓缩物,不透气密封在标明活性剂量的容器如安瓿或小袋中。在通过输注施用药物的情况下,其可以用含有无菌药物级水或盐水的输注瓶来分配。在通过注射施用药物组合物的情况下,可以提供装有无菌注射用水或盐水的安瓿,以便可以在施用之前混合各成分。
用于全身施用的药物组合物可以是液体,例如无菌盐水、乳酸林格溶液或汉克氏溶液。此外,药物组合物可以呈固体形式,并在紧临使用之前重新溶解或悬浮。也考虑了冻干形式。药物组合物可包含在脂质颗粒或囊泡内,如脂质体或微晶,其也适合于肠胃外施用。颗粒可具有任意合适的结构,如单层或多层,只要其中含有组合物即可。可以将化合物包埋在“稳定的质粒-脂质颗粒”(SPLP)中,该颗粒含有促融合脂质二油酰磷脂酰乙醇胺(DOPE)、低水平(5-10摩尔%)的阳离子脂质,并通过聚乙二醇(PEG)包衣稳定(Zhang Y.P.等人,Gene Ther.1999,6:1438-47)。带正电荷的脂质如N-[1-(2,3-二油酰氧基)丙基]-N,N,N-三甲基-甲基硫酸铵或“DOTAP”用于这类颗粒和囊泡是特别优选的。这类脂质颗粒的制备是熟知的。参见例如美国专利第4,880,635;4,906,477;4,911,928;4,917,951;4,920,016;和4,921,757号,上述专利中的每一者以引用的方式并入本文。
本文所述的药物组合物可例如作为单位剂量施用或包装。在提到本公开的药物组合物时使用的术语“单位剂量”是指适合作为用于受试者的单一剂量的物理上离散的单位,每个单位含有预定量的活性物质,所述预定量的活性物质经计算与所需的稀释剂(即,载剂或媒介物)结合产生所需的治疗效果。
进一步地,药物组合物可以作为药物试剂盒提供,其包含(a)含有冻干形式的本发明的化合物的容器,和(b)含有药学上可接受的稀释剂(例如,用于复原或稀释本发明的冻干化合物的无菌稀释剂)的第二容器。任选可以有与这类容器关联的由管理药物或生物制品的制造、使用或销售的政府机构规定的形式的通知,该通知反映由该机构批准了用于人施用的制造、使用或销售。
另一方面,包括含有可用于治疗上述疾病的物质的制品。在一些实施方案中,制品包含容器和标签。合适的容器包括例如瓶子、小瓶、注射器和试管。容器可由多种材料形成,如玻璃或塑料。在一些实施方案中,容器容纳对治疗本文所述的疾病有效的组合物,并且可具有无菌进入口。例如,容器可以是具有可被皮下注射针刺穿的塞子的静脉注射溶液袋或小瓶。组合物中的活性剂是本发明的化合物。在一些实施方案中,容器上或与容器关联的标签指示组合物用于治疗所选择的疾病。制品可进一步包含第二容器,该第二容器包含药学上可接受的缓冲液,如磷酸盐缓冲盐水、林格氏溶液或右旋糖溶液。其可进一步包括从商业和用户角度来看可取的其它物质,包括其它缓冲液、稀释剂、过滤器、针头、注射器和带有使用说明书的包装插页。
在一些实施方案中,本文所述的任何融合蛋白、gRNA和/或复合物作为药物组合物的一部分提供。在一些实施方案中,药物组合物包含本文提供的任何融合蛋白。在一些实施方案中,药物组合物包含本文提供的任何复合物。在一些实施方案中,药物组合物包含核糖核蛋白复合物,所述核糖核蛋白复合物包含与gRNA和阳离子脂质形成复合物的RNA引导的核酸酶(例如,Cas9)。在一些实施方案中,药物组合物包含gRNA、核酸可编程DNA结合蛋白、阳离子脂质和药学上可接受的赋形剂。药物组合物可任选包含一种或多种另外的治疗活性物质。
在一些实施方案中,向受试者(例如向人受试者)施用本文提供的组合物,以便在受试者体内实现靶向的基因组修饰。在一些实施方案中,细胞获自受试者,并与本文提供的任何药物组合物接触。在一些实施方案中,任选在细胞中已经实现或检测到所需基因组修饰后,将从受试者中取出并与药物组合物离体接触的细胞重新引入到受试者中。递送包含核酸酶的药物组合物的方法是已知的,并且描述于例如美国专利第6,453,242;6,503,717;6,534,261;6,599,692;6,607,882;6,689,558;6,824,978;6,933,113;6,979,539;7,013,219;和7,163,824号中,上述所有专利的公开内容以全文引用的方式并入本文。尽管对本文提供的药物组合物的描述主要是针对适合于向人施用的药物组合物,但技术人员将理解的是,这类组合物通常适合于对所有种类的动物或生物体施用,例如用于兽医用途。
对适合于向人施用的药物组合物进行修饰以便使组合物适合于向各种动物施用是熟知的,并且普通的兽医药师可以仅利用普通的(如果有的话)实验来设计和/或进行这种修饰。考虑施用药物组合物的受试者包括但不限于人和/或其他灵长类动物;哺乳动物、家养动物、宠物和商业上相关的哺乳动物,如牛、猪、马、绵羊、猫、狗、小鼠和/或大鼠;和/或鸟类,包括商业上相关的鸟类,如鸡、鸭、鹅和/或火鸡。
可以通过药理学领域中已知的或以后开发的任何方法制备本文所述的药物组合物的制剂。一般来说,这类制备方法包括如下步骤,即将活性成分与赋形剂和/或一种或多种其它辅助成分结合,然后,如果必要和/或期望的话,将产品成型和/或包装成所需的单剂量或多剂量单位。药物制剂可另外包含药学上可接受的赋形剂,如本文所用,其包括适于所需的特定剂型的任何及所有的溶剂、分散介质、稀释剂或其它液体媒介物、分散或悬浮助剂、表面活性剂、等渗剂、增稠剂或乳化剂、防腐剂、固体粘结剂、润滑剂等。Remington的TheScience and Practice of Pharmacy,第21版,A.R.Gennaro(Lippincott,Williams&Wilkins,Baltimore,MD,2006;以全文引用的方式并入本文)公开了用于配制药物组合物的各种赋形剂及其制备的已知技术。关于制备包含核酸酶的药物组合物的另外合适的方法、试剂、赋形剂和溶剂,还参见PCT申请PCT/US2010/055131(公布号WO2011/053982A8,2010年11月2日提交),其以全文引用的方式并入本文。
除非任何常规赋形剂介质与物质或其衍生物不相容,例如因为产生任何不期望的生物学效应或以其它有害的方式与药物组合物的任何其它组分相互作用,否则其用途预期在本公开的范围内。
可以以有效量施用如上所述的组合物。有效量将取决于施用方式、所治疗的特定病状和期望的结果。其也可取决于病状的阶段、受试者的年龄和身体状况、同步疗法(如果有的话)的性质以及医疗从业者熟知的类似因素。对于治疗应用,该量足以实现医学上期望的结果。
在一些实施方案中,根据本公开的组合物可用于治疗多种疾病、病症和/或病状中的任一种。
治疗方法
本发明的一些方面提供治疗患有淀粉样变性或有患淀粉样变性倾向的受试者的方法,所述方法包括向有需要的受试者施用有效治疗量的如本文所述的药物组合物。在一些实施方案中,本发明的方法包括表达或向受试者的细胞中引入碱基编辑器多肽和一个或多个能够靶向编码包含致病突变的转甲状腺素蛋白多肽的核酸分子的引导RNA。
本领域的普通技术人员将认识到,可能需要多次施用在特定实施方案中考虑的药物组合物以实现所需的治疗。例如,可以在1周、2周、3周、1个月、2个月、3个月、4个月、5个月、6个月、1年、2年、5年、10年或更长的时间跨度内向受试者施用1、2、3、4、5、6、7、8、9或10次或更多次组合物。在任何这类方法中,所述方法可包括向所述受试者施用有效量的被编辑的细胞或碱基编辑器系统或编码这种系统的多核苷酸。在任何这类方法中,所述方法可包括每天施用一个或多个剂量的有效量的被编辑的细胞。在任何这类方法中,所述方法可包括每天施用两个或更多个剂量的有效量的被编辑的细胞。在任何这类方法中,所述方法可包括每天施用三个或更多个剂量的有效量的被编辑的细胞。在任何这类方法中,所述方法可包括每周施用一个或多个剂量的有效量的被编辑的细胞。在任何这类方法中,所述方法可包括每周施用两个或更多个剂量的有效量的被编辑的细胞。在任何这类方法中,所述方法可包括每周施用三个或更多个剂量的有效量的被编辑的细胞。在任何这类方法中,所述方法可包括每月施用一个或多个剂量的有效量的被编辑的细胞。在任何这类方法中,所述方法可包括每月施用两个或更多个剂量的有效量的被编辑的细胞。在任何这类方法中,所述方法可包括每月施用三个或更多个剂量的有效量的被编辑的细胞。
施用本文考虑的药物组合物可采用常规技术进行,包括但不限于输注、输液或胃肠外。在一些实施方案中,肠胃外施用包括血管内、静脉内、肌内、动脉内、鞘内、瘤内、皮内、腹膜内、经气管、皮下、表皮下、关节内、囊下、蛛网膜下和胸骨内输注或注射。
在一些实施方案中,本文所述的组合物(例如,被编辑的细胞、碱基编辑器系统)以约0.5-30mg/千克人受试者体重的剂量施用。在另一实施方案中,施用的组合物的量为约0.5-20mg/千克人受试者体重。在另一实施方案中,施用的组合物的量为约0.5-10mg/千克人受试者体重。在另一实施方案中,施用的组合物的量为约0.04mg、约0.08mg、约0.16mg、约0.32mg、约0.64mg、约1.25mg、约1.28mg、约1.92mg、约2.5mg、约3.56mg、约3.75mg、约5.0mg、约7.12mg、约7.5mg、约10mg、约14.24mg、约15mg、约20mg或约30mg/千克人受试者体重。在另一实施方案中,施用的组合物的量为约1.92mg、约3.75mg、约7.5mg、约15.0mg或约30.0mg/千克人受试者体重,并且组合物一周施用两次。在另一实施方案中,施用的组合物的量为约1.28mg、约2.56mg、约5.0mg、约10mg或约20mg/千克人受试者体重,并且组合物一周施用两次。在另一实施方案中,施用的组合物的量为约1.92mg、约3.75mg、约7.5mg、约15.0mg或约30.0mg/千克人受试者体重,并且组合物一周施用一次。在另一实施方案中,施用的组合物的量为约1.28mg、约2.56mg、约5.0mg、约10mg或约20mg/千克人受试者体重,并且组合物一周施用一次。在另一实施方案中,施用的组合物的量为约1.92mg、约3.75mg、约7.5mg、约15.0mg或约30.0mg/千克人受试者体重,并且组合物一天施用一次,在七天时间内施用三次、五次或七次。在另一实施方案中,组合物一天静脉内施用一次,在七天时间内施用七次。在另一实施方案中,施用的组合物的量为约1.28mg、约2.56mg、约5.0mg、约10mg或约20mg/千克人受试者体重,并且组合物一天施用一次,在七天时间内施用三次、五次或七次。在另一实施方案中,组合物一天静脉内施用一次,在七天时间内施用七次。
在一些实施方案中,经0.25h、0.5h、1h、2h、3h、4h、5h、6h、7h、8h、9h、10h、11h或12h的时间施用组合物。在另一实施方案中,经0.25-2h的时间施用组合物。在另一实施方案中,经1h的时间逐渐施用组合物。在另一实施方案中,经2h的时间逐渐施用组合物。
本公开的治疗可导致受试者中淀粉样变性的减少。治疗可导致受试者的细胞(例如,肝细胞)中转甲状腺素蛋白(TTR)的减少或消除。
试剂盒
本发明提供了用于治疗受试者的淀粉样变性的试剂盒。在一些实施方案中,试剂盒进一步包括碱基编辑器系统或编码碱基编辑器系统的多核苷酸,其中碱基编辑器多肽系统包含核酸可编程DNA结合蛋白(napDNAbp)、脱氨酶和引导RNA。在一些实施方案中,napDNAbp是Cas9或Cas12。在一些实施方案中,编码碱基编辑器的多核苷酸是mRNA序列。在一些实施方案中,脱氨酶是胞苷脱氨酶或腺苷脱氨酶。在一些实施方案中,试剂盒包含被编辑的细胞和关于使用这种细胞的说明书。
试剂盒可进一步包含使用碱基编辑器系统和/或被编辑的细胞的书面说明书。在其它实施方案中,说明书包括以下中的至少一项:注意事项;警告;临床研究;和/或参考文献。说明书可以直接印在容器(如果有的话)上,或者作为标签贴在容器上,或者作为提供在容器中或随容器提供的单独的纸片、小册子、卡片或文件夹。在进一步的实施方案中,试剂盒可包含关于合适的操作参数的标签或独立插页(包装插页)形式的说明书。在又一实施方案中,试剂盒可包含一个或多个容器,其具有要用作检测、校准或标准化的标准物的适当阳性和阴性对照或对照样品。试剂盒可进一步包含第二容器,该第二容器包含药学上可接受的缓冲液,如(无菌)磷酸盐缓冲盐水、林格氏溶液或右旋糖溶液。其可进一步包括从商业和用户角度来看可取的其它物质,包括其它缓冲液、稀释剂、过滤器、针头、注射器和带有使用说明书的包装插页。
除另指出外,本发明的实践采用分子生物学(包括重组技术)、微生物学、细胞生物学、生物化学和免疫学的常规技术,这些技术完全在技术人员所掌握的能力范围内。这类技术在文献中有充分解释,如“Molecular Cloning:A Laboratory Manual”,第二版(Sambrook,1989);“Oligonucleotide Synthesis”(Gait,1984);“Animal Cell Culture”(Freshney,1987);“Methods in Enzymology”“Handbook of Experimental Immunology”(Weir,1996);“Gene Transfer Vectors for Mammalian Cells”(Miller和Calos,1987);“Current Protocols in Molecular Biology”(Ausubel,1987);“PCR:The PolymeraseChain Reaction”(Mullis,1994);“Current Protocols in Immunology”(Coligan,1991)。这些技术适用于本发明的多核苷酸和多肽的产生,且因此可以在制备和实施本发明时加以考虑。在下面的章节中将讨论对于特定实施方案特别有用的技术。
给出以下实施例是为了向本领域的普通技术人员提供如何进行和利用本发明的测定、筛选和治疗方法的完整公开和描述,而不是旨在限制发明人认为是他们的发明的范围。
实施例
实施例1.转甲状腺素蛋白基因改变
筛选表1中列出的引导RNA用于通过破坏剪接位点(图1A-1C)或利用bhCas12b核酸酶策略(图2)来编辑转甲状腺素蛋白(TTR)基因。总共筛选了15个引导RNA。使用碱基编辑器和作为mRNA和sgRNA递送的bhCas12b,在HEK293T细胞中通过Lo-I进行筛选。作为引导RNA的sgRNA_361和sgRNA_362在使用ABE和/或BE4的剪接位点破坏(图1A-1C)中表现良好。一些gRNA作为bhCas12b核酸酶gRNA发挥着良好的作用。
图1A-1C中所示的碱基编辑器以及bhCas12b核酸内切酶的序列列于下表20中。
/>
/>
/>
/>
/>
/>
/>
/>
实施例2.肝细胞中转甲状腺素蛋白(TTR)表达缺失的确认
在实施例1中鉴定为在使用ABE和/或BE4的剪接位点破坏中表现良好或利用bhCas12b表现良好的引导RNA用于编辑肝细胞中的转甲状腺素蛋白(TTR),以导致TTR表达的缺失或减少。采用培养肝细胞的标准方法(参见例如,Shulman和Nahmias,“Long-termand coculture of primary rate and human hepatocytes”,Methods Mol.Biol.,945:287-302(2013);和Castell J.,Gσmez-Lechσn M.(2009)Liver Cell CultureTechniques。见于:Dhawan A.、Hughes R.(编著)Hepatocyte Transplantation.Methodsin Molecular Biology,第481卷,Humana Press,Totowa,NJ.https://doi.org/10.1007/978-1-59745-201-4_4)。对于基因编辑,使用脂质纳米颗粒将碱基编辑器和bhCas12b与sgRNA组合递送至细胞。在基因编辑之后,细胞中的转甲状腺素蛋白(TTR)表达被证实为减少或消除。采用分子生物学中的标准技术(例如,实时定量逆转录PCR)证实表达的减少或消除。
实施例3.转甲状腺素蛋白(TTR)V122I突变的直接纠正
成熟转甲状腺素蛋白(TTR)多肽中的突变V122I是非裔美国人群体创始人突变。该突变是非裔美国人群体心血管疾病死亡(即,心脏淀粉样变性)的主要原因。约3.9%的非裔美国人有V122I突变。V122I突变可使用ABE进行编辑。因此,ABE用于直接纠正细胞中的V122I突变。
ABE mRNA和sgRNA被递送至编码具有V122I突变的转甲状腺素蛋白(TTR)多肽的细胞(例如,肝细胞或HEK293T细胞)。将编码下表21中所示的碱基编辑器的ABE mRNA与包含所示间隔区序列的sgRNA组合施用。细胞中的转甲状腺素蛋白(TTR)基因被成功编辑为不再编码致病V122I突变,而是编码转甲状腺素蛋白的非致病形式(例如,在位置122具有缬氨酸的转甲状腺素蛋白)。
表21.碱基编辑器和核酸酶序列。本领域技术人员将理解的是,一些靶位点序列对应于上述提供的转甲状腺素蛋白多核苷酸序列的反向互补序列;即靶序列可对应于编码转甲状腺素蛋白多核苷酸的dsDNA分子的任一条链。
在若干实施方案中,改变的氨基酸在剪接位点或起始密码子中,如以下序列中所示。剪接位点中的改变破坏了编码的TTR多肽的表达。对以下序列中的每一者的相应靶标的描述示于括号中:
核苷酸序列TATAGGAAAACCAGTGAGTC(SEQ ID NO:425)的4A;(剪接位点)
核苷酸序列TACTCACCTCTGCATGCTCA(SEQ ID NO:426)的6A;(剪接位点)
核苷酸序列ACTCACCTCTGCATGCTCAT(SEQ ID NO:427)的5A;(剪接位点)
核苷酸序列ATACTCACCTCTGCATGCTCA(SEQ ID NO:429)的7A;(剪接位点)
核苷酸序列TTGGCAGGATGGCTTCTCATCG(SEQ ID NO:431)的6A;(剪接位点)
序列TTGGCAGGATGGCTTCTCATCG(SEQ ID NO:431)的9A;(起始密码子)
序列GGCTATCGTCACCAATCCCA (SEQ ID NO:439)的5A(致病突变的纠正);或
序列GCTATCGTCACCAATCCCAA(SEQ ID NO:440)的4A(致病突变的纠正)。
核苷酸序列TACTCACCTCTGCATGCTCA(SEQ ID NO:426)的7C;(剪接位点)
核苷酸序列ACTCACCTCTGCATGCTCAT(SEQ ID NO:427)的6C;(剪接位点)
核苷酸序列TACCACCTATGAGAGAAGAC(SEQ ID NO:428)的7C;(剪接位点)
核苷酸序列ATACTCACCTCTGCATGCTCA(SEQ ID NO:429)的8C;或(剪接位点)
核苷酸序列ACTGGTTTTCCTATAAGGTGT(SEQ ID NO:430)的11C。(剪接位点)
实施例4.原代肝细胞中的转甲状腺素蛋白(TTR)引导物筛选和功能敲低评估
进行实验以确定上述实施例中开发的碱基编辑器系统在编辑人或灵长类原代肝细胞中的功效。如上所述,设计了十五个引导RNA以敲低HEK293T细胞中的转甲状腺素蛋白(TTR)蛋白质表达。这些引导物利用剪接位点破坏的碱基编辑策略或基于核酸酶的bhCas12b策略。最初优先考虑的是碱基编辑策略。碱基编辑引导物与ABE(腺苷碱基编辑器)或CBE(胞苷碱基编辑器)一起用于剪接位点破坏,并且引导物的子集适合与ABE和CBE一起使用。六种引导物编辑器组合在HEK293T细胞中表现出良好的编辑效率(图1):ABE8.8_sgRNA_361;ABE8.8_sgRNA_362;BE4_sgRNA_362;ABE8.8-VRQR_sgR NA_363;BE4-VRQR_sgRNA_363;和BE4-KKH_sgRNA_366。进行实验来评价原代肝细胞(人和食蟹猴两者)中的这四个引导物(sgRNA 361、362、363、366;序列列于表1中),以评估原代细胞中的编辑效率和TTR蛋白质表达的功能敲低的能力。
在PXB细胞原代人肝细胞中筛选Hek293T验证的TTR敲低引导物
在3天的细胞温育之后,将编辑器mRNA_sgRNA组合(即碱基编辑器系统)在提取自人源化小鼠肝脏的人肝细胞(PXB细胞,PhoenixBio)中一式三份地转染。除了所关注的6个引导物-编辑器对(ABE8.8_sgRNA_361;ABE8.8_sgRNA_362;BE4_sgRNA_362;ABE8.8-VRQR_sgRNA_363;BE4-VRQR_sgRNA_363;和BE4-KKH_sgRNA_366)之外,也转染了两个阳性对照引导物-编辑器对。这些阳性对照包括ABE8.8_sgRNA_088(其含有间隔区序列CAGGAUCCGCACAGACUCCA(SEQ ID NO:581),并且已知在TTR基因外部的编辑位点有效)和Cas9_gRNA991(Gillmore,J.D.等人,“CRISPR-Cas9 In Vivo Gene Editing forTransthyretin Amyloidosis”,New Engl J Med 385,493–502(2021))(其含有对应于靶序列AAAGGCTGCTGATGACACCT(SEQ ID NO:580)的间隔区序列AAAGGCUGCUGAUGACACCU(SEQ IDNO:565))。已知引导gRNA991有效用于诱导肝细胞中的功能性TTR敲低。也包括未经处理的情况作为阴性对照。为了评估功能性TTR敲低,收集细胞上清液,并在-80℃下储存。在转染之前(3天温育)以及转染后4、7、10和13天进行收集。转染后1天进行另外的培养基更换,但弃去上清液。转染后13天从细胞中收获基因组DNA,并通过下一代测序(NGS)评估编辑效率。采用人TTR ELISA测定法评估转染前以及转染后7天和13天的细胞上清液中的TTR蛋白浓度。
转染前,在样品之间没有观察到TTR浓度的显著差异(图3)。到转染后7天,与未在TTR基因内编辑的对照ABE8.8_sgRNA_088相比,观察到ABE8.8_sgRNA_361和ABE8.8_sgRNA_362的TTR水平减少大约50%(图4)。这种减少与阳性对照Cas9_gRNA991相当(图4)。转染后13天观察到类似的趋势(图5)。ABE8.8_sgRNA_361和ABE8.8_sgRNA_362的编辑效率都很高,大约为60%(图2和5)。这与对照ABE8.8_sgRNA_088和Cas9_gRNA991相当(图4和5)。TTR蛋白敲低与样品间编辑率呈正相关(图4和5)。
在原代食蟹猴肝细胞中评估ABE8.8_sgRNA361和ABE8.8_sgRNA
362的编辑性能和
功能性敲低产生
将在PXB细胞中均表现出高靶碱基编辑和功能性TTR蛋白敲低的ABE8.8_sgRNA_361和ABE8.8_sgRNA_362在原代食蟹猴(Macaca fascicularis)肝细胞共培养物中一式三份转染。ABE8.8_sgRNA_088作为阳性对照转染,且包括未处理的情况作为阴性对照,均为一式三份。为了评估功能性TTR敲低,收集细胞上清液,并在-80℃下储存。在转染之前(3天温育)以及转染后4、7、10和13天进行收集。转染后1天进行另外的培养基更换,但弃去上清液。转染后13天从细胞中收获基因组DNA,并通过下一代测序(NGS)评估编辑效率。采用改进的TTR ELISA测定法评估转染前以及转染后7天和13天的细胞上清液中的食蟹猴TTR蛋白浓度。
转染前,在样品之间没有观察到食蟹猴TTR浓度的显著差异(图6)。到转染后7天,与未在TTR基因内编辑的ABE8.8_sgRNA_088相比,观察到ABE8.8_sgRNA_361和ABE8.8_sgRNA_362的食蟹猴TTR水平减少大约60-70%(图7)。转染后13天观察到类似的趋势(图8)。ABE8.8_sgRNA_361和ABE8.8_sgRNA_362的编辑效率都很高,大约为70%(图7和8)。这与ABE8.8_sgRNA_088阳性对照相当(图7和8)。
本实施例中采用以下物质和方法。
PXB细胞维护
从PhoenixBio订购PXB细胞肝细胞的一个24孔板。接收细胞后,用预温热的dHCGM培养基(PhoenixBio)+10%胎牛血清(Thermo Fisher,A3160401)更换培养基两次。然后根据制造商的说明温育细胞,每3天更换培养基。转染后次日进行额外的培养基更换,之后恢复3天培养基更换计划。对于除了两次初始更换和转染后次日之外的所有培养基更换(转染前和转染后4、7、10和13天),将培养基收集起来,分布在多个96孔板中,并在-80℃下储存。
原代食蟹猴肝细胞(PCH)共培养物产生和维护
将原代食蟹猴肝细胞的冷冻小瓶(IVAL,A75245,批次号#10286011)解冻,并与50mL预温热的CHRM培养基(Invitrogen,CM7000)混合。将管在室温下以100x g离心10分钟。弃去CHRM培养基,并将细胞沉淀重悬于4mL INVITROGRO CP培养基(Bio IVT,Z990003)+2.2%Torpedo抗生素混合物(Bio IVT,Z99000)中。使用Neubauer改进型细胞计数仪(SKC,Inc.,DHCN015)对细胞进行计数,并将350,000个细胞/孔铺板于24孔BioCoat大鼠胶原蛋白I板(Corning,354408)中。有足够数量的细胞用于18个孔。铺板后5小时,通过向每个孔中添加新鲜CP+Torpedo培养基中的20,000个3T3-J2细胞(Stem Cell Technologies,100-0353)来产生共培养物。在第二天更换培养基之后,根据制造商的说明温育细胞,每3天更换CP+Torpedo培养基。转染后次日进行额外的培养基更换,之后恢复3天培养基更换计划。
细胞转染
PXB细胞在接收之后3天进行转染。在转染之前,对所有孔进行培养基更换。将用过的培养基在多个96孔板中等分,并在-80℃下储存。对于每种条件,将200ng sgRNA(Agilentand Synthego)和600ng编辑器mRNA(Beam生产)在96孔板中用OPTIMEM(Thermo Fisher,31985062)稀释至25μl。单独地,对于每种条件,将RNA总体积的1.5倍的转染试剂lipofectamine MessengerMAX试剂(Thermo Fisher,LMRNA015)在减血清培养基OPTIMEM中稀释至25μl,充分混合,并在室温下温育10分钟。然后将MessengerMAX溶液与相应的sgRNA+编辑器溶液合并,并进行充分混合。在室温下温育5分钟之后,将脂质包封的mRNA+sgRNA混合物滴加到PXB细胞上。转染之后<16小时,更换培养基,并弃去用过的培养基。
在添加3T3-J2饲细胞之后4天转染PCH样品。在转染之前,对所有孔进行培养基更换。将与用于PXB细胞相同的转染方案用于PCH。
下一代DNA测序(NGS)
收集培养基之后,根据以下方案在转染后13天从每个PXB细胞孔中分离基因组DNA。向每个孔中添加200μl的QuickExtract DNA提取溶液(Lucigen,QE09050)。将细胞在37℃下温育5分钟,之后通过吸移从每个孔的底部手动移出细胞。将细胞在37℃下再次温育5分钟,之后将缓冲液-细胞混合物充分混合,并将150μl转移至96孔板。将96孔板在65℃下温育15分钟,然后在98℃下温育10分钟。
使用Phusion U Green Multiplex PCR主混合物(Fisher Scientific,F564L)和区域特异性引物进行PCR。然后对第一轮PCR产物进行第二轮PCR,以将带条形码的Illumina衔接子序列添加到每个样品中。使用SPRIselect珠(Thermo Fisher Scientific,B23317)以1:1的珠与PCR比率纯化第二轮PCR产物。使用Qubit 1X dsDNA HS测定试剂盒(ThermoFisher Scientific,Q33231)对合并的文库浓度进行定量,并使用Miseq试剂微量试剂盒v2(300个循环)(Illumina,MS-103-1002)对文库进行测序。将读数与适当的参考序列进行比对,并在适当的位点评估编辑效率。
如上对于PCH进行基因组DNA分离、NGS和分析。使用Miseq试剂纳米试剂盒v2(300个循环)(Illumina,MS-103-1001)对文库进行测序。
TTR蛋白质定量
使用人前白蛋白(TTR)ELISA试剂盒(Abcam,ab231920)测量在转染前和转染后不同时间点的PXB细胞上清液中的TTR蛋白水平。将PXB细胞上清液在室温下解冻,并在4℃下以2000x g离心10分钟。然后在上样到ELISA板上之前将上清液在提供的样品稀释剂NS缓冲液中进行1:1000稀释。然后根据制造商的说明进行ELISA测定。在添加终止溶液之前允许样品在展开溶液中展开18分钟。使用Infinite M Plex平板读数器(Tecan)在450nm处读取吸光度。
为了检测原代食蟹猴(Macaca fascicularis)肝细胞共培养物上清液中的食蟹猴TTR蛋白,使用已知浓度的纯化食蟹猴TTR蛋白(Abcam,ab239566)来评估人TTR ELISA试剂盒(Abcam,ab231920)的交叉反应性。通过这种方法,确定试剂盒与食蟹猴TTR蛋白有大约4%的交叉反应性。然后使用纯化的食蟹猴TTR蛋白产生能够准确测量食蟹猴TTR蛋白水平的一组新的标准物(标准物1-7为20ng-0.3125ng)。不然以等同于制造商的说明的方式进行测定。在添加终止溶液之前,将上清液1:1000稀释,并在展开溶液中展开17分钟。
实施例5.用于基因表达敲低的转甲状腺素蛋白(TTR)启动子筛选
进行实验以开发适合于通过向基因的启动子区中引入改变来敲除人中TTR基因的表达的碱基编辑器系统。
鼠(参见Costa,R.H.和Grayson,D.R.Site-directed mutagenesis ofhepatocyte nuclear factor(HNF)binding sites in the mouse transthyretin(TTR)promoter reveal synergistic interactions with its enhancer region.NucleicAcids Res 19,4139–4145(1991),该文献的公开内容出于所有目的以全文引用的方式并入本文;GGCAAGGTTCATATTTGTGTAGGTTACTTATTCTCCTTTTGTTGACTAAGTCAATAATCAGAATCAGCAGG(SEQ ID NO:582))与人TTR启动子区之间的序列同源性用于定义人启动子区,以指导设计用于敲除人中TTR的引导RNA序列(图9A和9B)。
设计对应于具有3’PAM的四种CRISPR-Cas酶NGG、NGA、NNGRRT和NNNRRT的gRNA以平铺报告的启动子区(图9A和9B)。设计碱基编辑策略以在启动子区内产生将敲低TTR mRNA表达的突变。设计3’NGG PAM gRNA以与含有酿脓链球菌CRISPR-Cas9的碱基编辑器配对。设计3’NGA PAM gRNA以与含有突变的酿脓链球菌CRISPR-Cas9的碱基编辑器配对。设计3’NNGRRT PAM gRNA以与含有金黄色葡萄球菌CRISPR-Cas9的碱基编辑器配对。设计3’NNNRRTPAM gRNA以与含有突变的金黄色葡萄球菌CRISPR-Cas9的碱基编辑器配对。
对这些gRNA运行计算机模拟脱靶分析,并且由于潜在的脱靶效应,将与肿瘤抑制基因具有0、1、2或3个核苷酸错配的任何gRNA从筛选中排除。进一步过滤gRNA列表以移除与人基因组中的任何位置具有0或1个错配并且与人基因组中的任何外显子具有0、1或2个错配的任何gRNA。这个过滤的列表含有覆盖靶启动子区的47个独特gRNA(图9)。这47个gRNA可以与腺嘌呤碱基编辑器(ABE)或胞嘧啶碱基编辑器(CBE)配对,以形成94种独特的引导物-碱基编辑器类型组合。
具有碱基编辑器的gRNA的DNA编辑效率
进行gRNA效力的细胞筛选。这种筛选使用编码所关注的碱基编辑器的mRNA和化学合成的化学末端保护的gRNA。在HepG2人细胞中进行筛选。在同一天将三个重复物转染到细胞中。转染后三天收获DNA用于下一代测序。
基因组编辑的阳性对照如下:已知具有良好编辑效率并且不靶向预测对TTR mRNA表达有任何影响的DNA的gRNA-mRNA对(sgRNA_088与NGG-SpCas9-ABE8.8配对)、靶向TTR基因内的剪接位点的三个gRNA-碱基编辑器对(gRNA sg_361、sg_362、gRNA1597和gRNA1604[参考有关这些gRNA的先前申请])和一个Cas9核酸酶与已知适合于诱导人中TTR敲低的gRNA相组合(Cas9核酸酶+gRNA991)(Gillmore,J.D.等人,CRISPR-Cas9 In Vivo GeneEditing for Transthyretin Amyloidosis.New Engl J Med 385,493–502(2021))。
基因组编辑的阴性对照如下:无处理和催化死亡Cas9核酸酶加gRNA991(死亡Cas9核酸酶+gRNA991)。
用于启动子筛选的每个gRNA与CBE(这里使用Yu,Y.等人,Cytosine base editorswith minimized unguided DNA and RNA off-target events and high on-targetactivity.Nat Commun 11,2052(2020)中所述的ppAPOBEC1脱氨酶)或ABE(这里使用Gaudelli,N.M.等人,Directed evolution of adenine base editors with increasedactivity and therapeutic application.Nat Biotechnol 38,892–900(2020)中所述的ABE8.20)配对。下一代测序(NGS)数据表明,当与CBE配对时,22/46启动子平铺gRNA产生>80%的平均编辑频率,且9/46gRNA产生<10%的编辑频率。(图10)。当与ABE配对时,24/47启动子平铺gRNA产生>80%的平均编辑频率,且4/47gRNA产生<10%的平均编辑频率。
由启动子编辑产生的TTR敲低效率
对于所有启动子筛选gRNA和对照gRNA,采用RT-qPCR测量TTR敲低效率。用作DNA编辑的阳性对照的gRNA之一也用作TTR敲低的阴性对照:通常产生高编辑效率并且不靶向已知对TTR mRNA表达有任何影响的DNA的gRNA-mRNA对(sgRNA_088与NGG-SpCas9-ABE8.8配对)。其它阴性对照包括用于RT-qPCR的每个板运行的无处理对照和与gRNA_991组合的催化死亡Cas9。
TTR敲低的阳性对照如下:靶向TTR基因内的剪接位点的三个先前鉴定的gRNA-碱基编辑器对(gRNA sg_361、sg_362、gRNA1597)和一个Cas9核酸酶与已知诱导人中TTR敲低的gRNA相组合(Cas9核酸酶+gRNA991)。
具有与测试探针(TTR)正交的荧光探针的内部对照(ACTB)用于使RT-qPCR样品能够在孔之间准确比较。使用每个板中存在的无处理孔的ΔCt(TTR-ACTB)对照的平均值来测量无处理对照与每个测试处理孔之间的TTR mRNA丰度的倍数变化差异。用于检测相对TTR表达水平的方法是2^(-1*(ΔCt(TTR-ACTB)样品-ΔCt(TTR-ACTB)对照)(Livak,K.J.和Schmittgen,T.D.Analysis of Relative Gene Expression Data Using Real-TimeQuantitative PCR and the 2-ΔΔC T Method.Methods 25,402–408(2001))。未处理的细胞具有与转染的细胞不同的TTR:ACTB比率,这导致在用阴性对照催化死亡Cas9编辑器或不影响TTR表达的gRNA转染的细胞中,相对TTR表达被人为降低(0.30-0.42)。尽管如此,这种方法适合作为比较不同转染条件之间的TTR敲低功效的相对方法。
总共,测试的21/94碱基编辑器-gRNA组合(其在本公开全文中标记为“碱基_编辑器_名称_gRNA_名称”)显示出与阳性对照gRNA_991相当或相比更大的TTR敲低(图12A和12B)。五个有效的启动子平铺gRNA中,一个当与ABE组合时编辑被认为是TTR的TATA盒的序列(gRNA1786),且一个当与ABE组合时破坏ATG起始密码子(gRNA1772)。其它三个在启动子区中的别处结合。
本实施例中采用以下物质和方法。
细胞转染
在转染之前24小时,在200μL补充培养基中,将HepG2细胞以25,000个细胞/孔的密度铺板到48孔聚-D-赖氨酸(PDL)包被的板(Corning,354509)中。转染当天,将600ng编码所需编辑器的mRNA(Beam生产)和200ng化学末端保护的gRNA(IDT)等分到96孔板中。将Lipofectamine MessengerMax(Thermo Fisher,LMRNA015)在Optimem(Thermo Fisher,31985062)中稀释,充分涡旋,并在室温下温育至少5分钟,之后以每孔1.5μL MessengerMax脂质的最终浓度添加到预先等分的mRNA和gRNA混合物上。将脂质包封的mRNA和gRNA混合物在室温下温育10-20分钟,之后添加到细胞板上。
细胞培养
将HepG2细胞(ATCC,HB8065)根据制造商的方案进行培养,并且至少每四天进行分裂。将细胞在补充有10%胎牛血清(Thermo Fisher,A3160401)的EMEM(Gibco,670086)中培养。
下一代DNA测序(NGS)
转染后3天从转染的细胞中收获DNA。从细胞中移除培养基,并将100μL解冻的快速提取物裂解缓冲液(Lucigen,QEP70750)添加到每个孔中。将缓冲液-细胞混合物在65℃下温育8分钟,然后在98℃下温育15分钟。进行PCR以扩增每个样品的gRNA靶区域。进行第二轮PCR以将条形码衔接子添加到来自PCR1的产物上。将所得产物纯化,并使用300-试剂盒在Miseq(Illumina)上进行测序。对所得序列进行与参考序列的DNA序列比对和编辑定量。对于gRNA原型间隔区序列和PAM区域内的任何碱基,最大编辑(绘制在图10和11中)对应于A到G编辑或C到T编辑的最高值。
RT-qPCR
转染后5天将细胞冷冻。从每个孔中移除培养基,将所得板密封并在-80℃下储存。随后根据制造商的说明(74192)使用RNeasy PLUS试剂盒(Qiagen)以96孔板形式收获RNA。RNA被分离后,Taqpath 1步RT-qPCR主混合物CG(Thermo Fisher,A15299)具有两个探针:具有VIC(4448489)的ACTB和具有FAM(4331182)的TTR,都是Thermo Fisher的。根据制造商的说明使用探针,在20μL反应中输入0.5μL的RNA,以评估TTR的相对表达水平。Quantstudio 7(Thermo Fisher)用于运行RT-qPCR测定。每个板运行三次技术重复。Ct值的自动阈值用于每个单独的值。从分析中排除任何指示无扩增或扩增不确定的重复,导致有些样品仅有两次技术重复。为了计算TTR的相对表达,采用^(-1*(ΔCt(TTR-ACTB)样品-ΔCt(TTR-ACTB)对照)方法(Livak,K.J.和Schmittgen,T.D.Analysis of Relative Gene Expression DataUsing Real-Time Quantitative PCR and the 2-ΔΔC T Method.Methods 25,402–408(2001))。
实施例6.Hek293T细胞中的转甲状腺素蛋白(TRR)引导物筛选和功能敲低评估
采用碱基编辑策略设计十四个引导RNA,用于使用ABE7.10替代性PAM编辑器或IBE变体进行剪接位点破坏,总共26种新的实验组合。九(9)个测试的组合在Hek293T细胞中表现出良好的编辑效率(图13)。
将编辑器mRNA和sgRNA一式三份转染到Hek293T细胞中。表2B中提供了sgRNA的间隔区序列。所有sgRNA均从IDT订购,具有80-mer spCas9支架。除了26种实验组合之外,将已知诱导人中TTR敲低的gRNA991(Gillmore,J.D.等人,CRISPR-Cas9 In Vivo Gene Editingfor Transthyretin Amyloidosis.New Engl J Med 385,493–502(2021))与spCas9相组合及无处理分别用作阳性和阴性对照。转染后72小时收获基因组DNA,并采用下一代测序法进行测序。根据条件,检测到导致剪接位点破坏的总编辑在约79%-0.4%的范围内,一些组合产生的总编辑导致剪接破坏在79%与63.5%之间的范围内。大多数编辑器变体在靶基因座处表现出可检测的编辑。以下组合显示出相对高水平的编辑:ISLAY3-VRQR_gRNA1604;ISLAY3-MQKFRAER_gRNA1597;ABE7.10-MQKFRAER_gRNA1597;ISLAY3_gRNA1599;ISLAY3_gRNA1600;ABE7.10-MQKFRAER_gRNA1594;ISLAY6_gRNA1599;ISLAY6-MQKFRAER_gRNA1597;ISLAY3-MQKFRAER_gRNA1601。有关内部碱基编辑器(ISLAY)的描述,参见表4和7。内部碱基编辑器(即,ISLAY3和ISLAY6)各自含有TadA*7.10脱氨酶结构域。PCT/US20/16285中描述了内部碱基编辑器,该申请的公开内容出于所有目的以全文引用的方式并入本文。特别地,gRN A1604和ISLAY3-VRQR的组合表现出约79%的编辑效率。gRNA1597与ISLAY3-MQKFRAER和ABE7.10两者的组合也表现出良好的编辑效率。
实施例中采用以下物质和方法。
Hek293T细胞培养和维护
将传代计数为3的Hek293T细胞的冷冻小瓶解冻,与15mL预温热的DMEM高葡萄糖丙酮酸培养基(Thermofisher,11995065)混合,所述培养基含有10%胎牛血清(Thermofisher,A3160401)和青霉素/链霉素(Thermofisher,10378016),并在37℃下在5%CO2温育箱(Thermofisher 51033547)中铺板于T75组织培养物处理的烧瓶(Corning,430641U)上。第二天早上吸出并更换培养基,并且此后每隔一天更换。在3天后达到70-80%汇合时,经由吸出培养基以1:20分裂细胞,接着与2mL TrypLE(Thermofisher 12605036)一起温育3分钟,轻轻搅动并移液管混合,并再次将100μL转移到15mL预温热的培养基中。再5天后重复此过程,在此期间,在将从烧瓶中获得的2mL TrypLE细胞悬液稀释在10mL培养基中后,通过将获自NucleoCounter NC-200的两个结果进行平均来获得细胞计数。然后在200μL培养基中,将细胞以25k个细胞/孔接种到聚-D-赖氨酸48孔板(Corning,354509)中。
细胞转染
接种后第二天转染Hek293T细胞。转染之前更换培养基。每个孔接受200ng gRNA(Synthego定制订单)(引导RNA的序列提供于表1和2B中;gRNA991含有间隔区序列AAAGGCUGCUGAUGACACCU(SEQ ID NO:565)和含有1.5μL Lipofectamine Messenger Max(Thermofisher,LMRNA150)的600ng mRNA。在水中以1mg/mL由冻干形式复原引导RNA,并以2mg/mL接受mRNA。将gRNA/mRNA和试剂作为半混合物单独添加到每孔26μL的OptiMEM(Thermofisher,31985062)中,并温育10分钟,之后将RNA和试剂半混合物合并,并再温育5分钟。将54μL合并的主混合物滴加到每个靶培养物孔中。然后将板短暂且轻轻地章动,并置于37℃和5%CO2温育箱中。第二天更换培养基。
下一代DNA测序(NGS)
转染后72小时,吸出培养基,并用10mM Tris-HCl pH8.0、0.05%SDS、50ug/mL蛋白酶K(Thermofisher,EO0491)的裂解缓冲液分离基因组DNA。每个孔添加200μL裂解缓冲液,并将板在37℃下温育45分钟,之后剧烈混合样品,并将100μL体积转移到96孔PCR板中。将板在95℃下温育15分钟,并将1μL转移到PCR混合物中。使用Q5 Hotstart 2x主混合物(M0494L)和靶位点特异性扩增子引物进行PCR。每个孔使用25μL主混合物、正向和反向引物各5uM以及50μL水。用一半体积进行第二轮条形码PCR。通过扩增子序列汇集PCR产物,并将166μL添加到33μL Purple 6x染料(B7024S)中,并在1%琼脂糖中进行凝胶提取,然后使用Zymo凝胶提取(D4007)和PCR净化(D4013)试剂盒纯化两次,在150μL 10mM Tris pH7.5中洗脱。经由NanoDrop(Thermofisher,ND-ONE-W)对文库浓度进行定量,并标准化为4nM。使用MiSeq试剂盒v2(500个循环)(Illumina,MS-102-2003)进行测序,读数与参考序列进行比对,并计算分析编辑效率。
在上述实施例中采用以下方法。
一般HEK293T哺乳动物培养条件
将细胞在37℃与5%CO2下进行培养。将HEK293T细胞[CLBTx013,美国典型细胞培养物保藏中心(ATCC)]在含有10%(v/v)胎牛血清(A31606-02,Thermo FisherScientific)的Dulbecco改良伊格尔培养基加Glutamax(10566-016,Thermo FisherScientific)中培养。从供应商处收到细胞后,支原体测试呈阴性。
脂转染
将HEK293T细胞以35,000个细胞/孔的密度接种到48孔聚-D-赖氨酸处理的BioCoat板(Corning)上,并在铺板后转染18-24小时。使用NucleoCounter NC-200(Chemometec)对细胞进行计数。制备含有Opti-MEM减血清培养基(ThermoFisherScientific)、碱基编辑器、核酸酶或对照mRNA和sgRNA的溶液。将溶液与LipofectamineMessengerMAX(ThermoFisher)在Opti-MEM减血清培养基中合并,并在室温下搁置15分钟。然后将所得混合物转移到预接种的Hek293T细胞中,并静置温育约120h。
DNA提取和编辑的分析
收获细胞并提取DNA。对于DNA分析,将细胞在1X PBS中洗涤一次,然后根据制造商的说明在100μl QuickExtractTM缓冲液(Lucigen)中裂解。
在进行PCR以扩增被编辑区之后,使用Illumina Miseq测序仪对基因组DNA进行测序。
mRNA产生
采用以下合成方案产生所有碱基编辑器和bhCas12b mRNA。碱基编辑器或bhCas12b被克隆到质粒中,所述质粒编码dT7启动子,接着是5’UTR、Kozak序列、ORF和3’UTR。dT7启动子在T7启动子内携带阻止由环状质粒转录的失活点突变。这一质粒模板化PCR反应(Q5热启动2X主混合物),其中正向引物纠正T7启动子内的SNP,且反向引物将多聚腺苷酸尾附加至3’UTR。将所得PCR产物在Zymo Research 25μg DCC柱上纯化,并在随后的体外转录中用作mRNA模板。根据说明书手册使用NEB HiScribe高产试剂盒,但用N1-甲基-假尿苷完全取代尿苷,并用CleanCap AG(三联体连接)进行共转录加帽。通过氯化锂沉淀进行反应净化。用于扩增的引物可见于表22。
表22:用于ABE8 T7体外转录反应的引物
其它实施方案
从前面的描述中显而易见的是,可以对本文所述的发明进行变化和修改以使其适用于各种用途和条件。这类实施方案也在以下权利要求的范围内。
本文对变量的任何定义中的要素列表的叙述包括该变量作为任何单个要素或所列要素的组合(或子组合)的定义。对本文的实施方案的叙述包括该实施方案作为任何单个实施方案或与任何其它实施方案或其部分相组合。
本说明书中提到的所有专利和出版物均以引用的方式并入本文,其程度如同每个独立的专利和出版物被具体且单独地指示以引用的方式并入一样。
Claims (201)
1.一种编辑转甲状腺素蛋白(TTR)多核苷酸序列的方法,所述方法包括:使所述多核苷酸序列与引导RNA和包含多核苷酸可编程DNA结合多肽和脱氨酶的碱基编辑器接触,其中所述引导RNA靶向所述碱基编辑器以实现所述TTR多核苷酸序列的核碱基的改变。
2.如权利要求1所述的方法,其中所述脱氨酶是腺苷脱氨酶或胞苷脱氨酶。
3.如权利要求1或权利要求2所述的方法,其中所述编辑引入纠正TTR多核苷酸中的突变的改变。
4.如权利要求1或2所述的方法,其中所述编辑引入减少或消除TTR多肽的表达的改变。
5.如权利要求4所述的方法,其中所述编辑引入使TTR多肽的表达相对于参考减少或消除至少约50%的改变。
6.如权利要求4所述的方法,其中所述改变在剪接受体、剪接供体、内含子序列、外显子序列、增强子或启动子中。
7.如权利要求1或权利要求2所述的方法,其中所述碱基编辑器包含与所述多核苷酸可编程DNA结合多肽和所述引导RNA复合的脱氨酶,或其中所述碱基编辑器是包含所述多核苷酸可编程DNA结合多肽和所述脱氨酶的融合蛋白。
8.一种编辑转甲状腺素蛋白(TTR)多核苷酸序列的方法,所述方法包括:使所述多核苷酸序列与引导RNA和包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域的融合蛋白接触,其中所述腺苷脱氨酶结构域在以下氨基酸序列的氨基酸位置147处包含精氨酸(R)或苏氨酸(T),且所述腺苷脱氨酶结构域与以下氨基酸序列具有至少约85%的序列同一性:MSEVEFSHEYWMRHALTLAKRARDEREVP VGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:4;TadA*7.10),其中所述引导RNA靶向所述融合蛋白以实现所述TTR多核苷酸序列的核碱基的改变。
9.一种编辑转甲状腺素蛋白(TTR)多核苷酸序列的方法,所述方法包括:使所述多核苷酸序列与引导RNA和包含多核苷酸可编程DNA结合结构域和胞苷脱氨酶结构域的融合蛋白接触,其中所述胞苷脱氨酶结构域包含与以下氨基酸序列具有至少约85%的序列同一性的氨基酸序列:MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKET CLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK(SEQ ID NO:15;BE4胞苷脱氨酶结构域),其中所述引导RNA靶向所述融合蛋白以实现所述TTR多核苷酸序列的核碱基的改变。
10.如权利要求8或权利要求9所述的方法,其中所述编辑引入纠正TTR多核苷酸中的突变的改变。
11.如权利要求8或权利要求9所述的方法,其中所述编辑引入减少或消除TTR多肽的表达的改变。
12.如权利要求11所述的方法,其中所述编辑引入使TTR多肽的表达相对于参考减少或消除至少约50%的改变。
13.如权利要求11所述的方法,其中所述改变在剪接受体、剪接供体、内含子序列、外显子序列、增强子或启动子中。
14.如权利要求13所述的方法,其中所述改变在启动子中。
15.如权利要求14所述的方法,其中所述改变在所述TTR启动子的对应于所述TTR启动子的核苷酸位置+1至-225的区域中,其中位置+1对应于所述TTR多核苷酸序列的所述起始密码子(ATG)的A。
16.如权利要求14所述的方法,其中所述改变在所述TTR启动子的对应于所述TTR启动子的核苷酸位置+1至-198的区域中,其中位置+1对应于所述TTR多核苷酸序列的所述起始密码子(ATG)的A。
17.如权利要求14所述的方法,其中所述改变在所述TTR启动子的对应于所述TTR启动子的核苷酸位置+1至-177的区域中,其中位置+1对应于所述TTR多核苷酸序列的所述起始密码子(ATG)的A。
18.如权利要求14所述的方法,其中所述改变在所述TTR启动子的对应于所述TTR启动子的核苷酸位置-106至-176的区域中,其中位置+1对应于所述TTR多核苷酸序列的所述起始密码子(ATG)的A。
19.如权利要求14所述的方法,其中所述改变在TATA盒或ATG起始密码子中。
20.如权利要求1-13中任一项所述的方法,其中所述核碱基的改变破坏基因剪接。
21.如权利要求1-20中任一项所述的方法,其中所述TTR多核苷酸序列编码成熟TTR多肽,所述成熟TTR多肽包含选自T60A、V30M、V30A、V30G、V30L、V122I和V122A的致病性改变。
22.如权利要求21所述的方法,其中所述致病性改变是V122I。
23.如权利要求2-22中任一项所述的方法,其中所述腺苷脱氨酶将所述TTR多核苷酸序列中的靶标A·T转化为G·C。
24.如权利要求2-22中任一项所述的方法,其中所述胞苷脱氨酶将所述TTR多核苷酸序列中的靶标C·G转化为T·A。
25.如权利要求23所述的方法,其中所述改变的核碱基是
核苷酸序列TATAGGAAAACCAGTGAGTC(SEQ ID NO:425;对应于sgRNA_361的TSBTx2602/gRNA1598靶位点序列)的4A;
核苷酸序列TACTCACCTCTGCATGCTCA(SEQ ID NO:426;对应于sgRNA_362的TSBTx2603/gRNA1599靶位点序列)的6A;
核苷酸序列ACTCACCTCTGCATGCTCAT(SEQ ID NO:427;对应于sgRNA_363的TSBTx2604/gRNA1606靶位点序列)的5A;
核苷酸序列ATACTCACCTCTGCATGCTCA(SEQ ID NO:429;对应于sgRNA_365的TSBTx2606靶位点序列)的7A;
核苷酸序列TTGGCAGGATGGCTTCTCATCG(SEQ ID NO:431;对应于sgRNA_367的TSBTx2608/gRNA-#19靶位点)的6A;
序列TTGGCAGGATGGCTTCTCATCG(SEQ ID NO:431;对应于sgRNA_367的TSBTx2608/gRNA-#19靶位点)的9A;
序列GGCTATCGTCACCAATCCCA(SEQ ID NO:439;对应于sgRNA_375)的5A;或
序列GCTATCGTCACCAATCCCAA(SEQ ID NO:440;对应于sgRNA_376)的4A。
26.如权利要求24所述的方法,其中所述改变的核碱基是
核苷酸序列TACTCACCTCTGCATGCTCA(SEQ ID NO:426;对应于sgRNA_362的TSBTx2603/gRNA1599靶位点)的7C;
核苷酸序列ACTCACCTCTGCATGCTCAT(SEQ ID NO:427;对应于sgRNA_363的TSBTx2604/gRNA1606靶位点)的6C;
核苷酸序列TACCACCTATGAGAGAAGAC(SEQ ID NO:428;对应于sgRNA_364的TSBTx2605靶位点)的7C;
核苷酸序列ATACTCACCTCTGCATGCTCA(SEQ ID NO:429;对应于sgRNA_365的TSBTx2606靶位点)的8C;或
核苷酸序列ACTGGTTTTCCTATAAGGTGT(SEQ ID NO:430;对应于sgRNA_366的TSBTx2607靶位点)的11C。
27.如权利要求1-26中任一项所述的方法,其中所述多核苷酸可编程DNA结合结构域包含Cas多肽。
28.如权利要求1-27中任一项所述的方法,其中所述多核苷酸可编程DNA结合结构域包含Cas9或Cas12多肽或其片段。
29.如权利要求28所述的方法,其中所述Cas9多肽包含酿脓链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)或犬链球菌Cas9(ScCas9)。
30.如权利要求28所述的方法,其中所述Cas12多肽包含Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i。
31.如权利要求30所述的方法,其中所述Cas12多肽包含与外村尚芽孢杆菌Cas12b、热噬淀粉芽孢杆菌Cas12b、芽孢杆菌属某种V3-13 Cas12b或嗜酸脂环酸芽胞杆菌Cas12b具有至少约85%的氨基酸序列同一性的序列。
32.如权利要求1-31中任一项所述的方法,其中所述多核苷酸可编程DNA结合结构域包含对选自5′-NGG-3′、5′-NAG-3′、5′-NGA-3′、5′-NAA-3′、5′-NNAGGA-3′、5′-NNGRRT-3′或5′-NNACCA-3′的核酸序列具有原型间隔区序列相邻基序(PAM)特异性的Cas9多肽。
33.如权利要求1-32中任一项所述的方法,其中所述多核苷酸可编程DNA结合结构域包含对改变的原型间隔区序列相邻基序(PAM)具有特异性的Cas9多肽。
34.如权利要求33所述的方法,其中所述改变的PAM的核酸序列选自5′-NNNRRT-3′、5′-NGA-3′、5′-NGCG-3′、5′-NGN-3′、5′-NGCN-3′、5′-NGTN-3′和5′-NAA-3′。
35.如权利要求1-34中任一项所述的方法,其中所述多核苷酸可编程DNA结合结构域是核酸酶非活性或切口酶变体。
36.如权利要求35所述的方法,其中所述核酸酶失活变体是包含氨基酸取代D10A或在相应氨基酸位置处的取代的Cas9(dCas9)。
37.如权利要求35所述的方法,其中所述核酸酶失活变体是包含氨基酸取代D952A、S893R、K846R和E837G或在相应氨基酸位置处的取代的bhCas12b。
38.如权利要求2-37中任一项所述的方法,其中所述腺苷脱氨酶结构域能够使脱氧核糖核酸(DNA)中的腺嘌呤脱氨基。
39.如权利要求2-38中任一项所述的方法,其中所述胞苷脱氨酶结构域能够使脱氧核糖核酸(DNA)中的胞苷脱氨基。
40.如权利要求2-39中任一项所述的方法,其中所述腺苷脱氨酶是TadA脱氨酶。
41.如权利要求40所述的方法,其中所述TadA脱氨酶是TadA*7.10、TadA*8.1、TadA*8.2、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.15、TadA*8.16、TadA*8.19、TadA*8.20、TadA*8.21或TadA*8.24。
42.如权利要求41所述的方法,其中所述TadA脱氨酶是TadA*7.10、TadA*8.8或TadA*8.13。
43.如权利要求2-42中任一项所述的方法,其中所述碱基编辑器包含融合蛋白,所述融合蛋白包含侧接所述可编程DNA结合多肽的N末端片段和C末端片段的脱氨酶,其中所述DNA结合多肽是Cas9多肽。
44.如权利要求43所述的方法,其中所述脱氨酶插在与以下氨基酸序列具有至少约70%、80%、85%、90%、95%或100%的序列同一性的序列的氨基酸位置1029-1030或1247-1248之间:
spCas9
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ ID NO:201)。
45.如权利要求2-44中任一项所述的方法,其中所述胞苷脱氨酶是APOBEC或其变体。
46.如权利要求45所述的方法,其中所述胞苷脱氨酶包含氨基酸序列:MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEI NWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK(SEQ ID NO:15;BE4胞苷脱氨酶结构域),或所述氨基酸序列省略第一个甲硫氨酸(M)的形式。
47.如权利要求1-46中任一项所述的方法,其中所述碱基编辑器进一步包含一个或多个尿嘧啶糖基化酶抑制剂(UGI)。
48.如权利要求1-47中任一项所述的方法,其中所述碱基编辑器进一步包含一个或多个核定位信号(NLS)。
49.如权利要求48所述的方法,其中所述NLS是二分NLS。
50.如权利要求1-49中任一项所述的方法,其中所述引导RNA包含CRISPR RNA(crRNA)和反式编码的小RNA(tracrRNA),其中所述crRNA包含与所述TTR多核苷酸序列互补的核酸序列。
51.如权利要求1-50中任一项所述的方法,其中所述碱基编辑器与单引导RNA(sgRNA)复合或与单引导RNA(sgRNA)形成复合物,所述单引导RNA(sgRNA)包含与所述TTR多核苷酸序列互补的核酸序列。
52.如权利要求1-51中任一项所述的方法,其进一步包括改变两个或更多个核碱基。
53.如权利要求1-52中任一项所述的方法,其进一步包括使所述多核苷酸序列与靶向所述TTR多核苷酸序列的两个或更多个不同的引导RNA接触。
54.如权利要求1-53中任一项所述的方法,其中所述引导RNA包含选自表1、表2A或表2B中列出的那些序列中的一者或多者的核苷酸序列;或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
55.如权利要求1-54中任一项所述的方法,其中所述引导RNA包含选自以下的核苷酸序列:
5’-UAUAGGAAAACCAGUGAGUC-3’(SEQ ID NO:408;sgRNA_361/gRNA1598);
5’-UACUCACCUCUGCAUGCUCA-3’(SEQ ID NO:409;sgRNA_362/gRNA1599);
5’-ACUCACCUCUGCAUGCUCAU-3’(SEQ ID NO:410;sgRNA_363/gRNA1606);
5’-AUACUCACCUCUGCAUGCUCA-3’(SEQ ID NO:412;sgRNA_365);
5’-UUGGCAGGAUGGCUUCUCAUCG-3’(SEQ ID NO:414;sgRNA_367/gRNA-#19);
5’-GGCUAUCGUCACCAAUCCCA-3’(SEQ ID NO:422;sgRNA_375);
5’-GCUAUCGUCACCAAUCCCAA-3’(SEQ ID NO:423;sgRNA_376);
5’-ACACCUUAUAGGAAAACCAG-3’(SEQ ID NO:561;gRNA1604);
5’-CUCUCAUAGGUGGUAUUCAC-3’(SEQ ID NO:554;gRNA1597);
5’-GCAACUUACCCAGAGGCAAA-3’(SEQ ID NO:557;gRNA1600);
5’-CAACUUACCCAGAGGCAAAU-3’(SEQ ID NO:551;gRNA1594);
5’-UCUGUAUACUCACCUCUGCA-3’(SEQ ID NO:558;gRNA1601);
5’-CAAAUAUGAACCUUGUCUAG-3’(SEQ ID NO:462;gRNA1756);
5’-GAACCUUGUCUAGAGAGAUU-3’(SEQ ID NO:470;gRNA1764);
5’-UGAGUAUAAAAGCCCCAGGC-3’(SEQ ID NO:492;gRNA1786);和
5’-GCCAUCCUGCCAAGAAUGAG-3’(SEQ ID NO:478;gRNA1772);或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
56.如权利要求1-55中任一项所述的方法,其中所述引导RNA包含选自以下的核苷酸序列:
5’-UACUCACCUCUGCAUGCUCA-3’(SEQ ID NO:409;sgRNA_362/gRNA1599)、
5’-ACUCACCUCUGCAUGCUCAU-3’(SEQ ID NO:410;sgRNA_363/gRNA1606)、
5’-UACCACCUAUGAGAGAAGAC-3’(SEQ ID NO:411;sgRNA_364)、
5’-AUACUCACCUCUGCAUGCUCA-3’(SEQ ID NO:412;sgRNA_365)、
5’-ACUGGUUUUCCUAUAAGGUGU-3’(SEQ ID NO:413;sgRNA_366)、
5’-CAACUUACCCAGAGGCAAAU-3’(SEQ ID NO:551;gRNA1594),和
5’-UGUUGACUAAGUCAAUAAUC-3’(SEQ ID NO:496;gRNA1790);或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
57.如权利要求1-56中任一项所述的方法,其中所述引导RNA在3’端和5’端包含2-5个连续的2’-O-甲基化核碱基。
58.如权利要求1-57中任一项所述的方法,其中所述引导RNA在3’端和5’端包含2-5个连续的核碱基,所述核碱基包含硫代磷酸酯核苷酸间键。
59.一种编辑转甲状腺素蛋白(TTR)多核苷酸序列的方法,所述方法包括:使所述多核苷酸序列与引导RNA和Cas12b核酸内切酶接触,其中所述引导RNA靶向所述核酸内切酶以实现所述TTR多核苷酸序列的双链断裂。
60.如权利要求59所述的方法,其中所述Cas12b多肽是bhCAS12b多肽。
61.如权利要求60所述的方法,其中所述bhCAS12b多肽包含氨基酸序列:
bhCas12b
v4MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTH EVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYGERSRFENSRLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCRVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMSGGSKRTADGSEFESPKKKRKVE(SEQ ID NO:450)。
62.如权利要求59-61中任一项所述的方法,其中所述编辑减少或消除TTR多肽的表达。
63.如权利要求62所述的方法,其中所述编辑引入使TTR多肽的表达相对于参考减少或消除至少约50%的改变。
64.如权利要求59-63中任一项所述的方法,其中所述TTR多核苷酸序列编码成熟TTR多核苷酸,所述成熟TTR多核苷酸包含选自T60A、V30M、V30A、V30G、V30L、V122I和V122A的致病性改变。
65.如权利要求64所述的方法,其中所述致病性改变是V122I。
66.如权利要求1-65中任一项所述的方法,其中所述接触在哺乳动物细胞中。
67.如权利要求66所述的方法,其中所述细胞是灵长类动物细胞。
68.如权利要求67所述的方法,其中所述灵长类动物细胞是人细胞或食蟹猴细胞。
69.如权利要求66-68中任一项所述的方法,其中所述细胞是肝脏细胞。
70.如权利要求69所述的方法,其中所述肝脏细胞是灵长类动物体内肝脏细胞。
71.如权利要求70所述的方法,其中所述灵长类动物细胞是人细胞或食蟹猴细胞。
72.如权利要求59-71中任一项所述的方法,其中所述细胞对所述双链断裂的修复导致在所述TTR多核苷酸序列中引入插入缺失突变。
73.如权利要求59-72中任一项所述的方法,其进一步包括使所述多核苷酸序列与靶向所述TTR多核苷酸序列的两个或更多个不同的引导RNA接触。
74.如权利要求59-73中任一项所述的方法,其中所述引导RNA包含选自表1、表2A或表2B中列出的那些序列中的一者或多者的核苷酸序列;或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
75.如权利要求59-74中任一项所述的方法,其中所述引导RNA包含选自以下的核苷酸序列:
5’-UCCUAUAAGGUGUGAAAGUCUG-3’(SEQ ID NO:415;sgRNA_368)、
5’-UGAGCCCAUGCAGCUCUCCAGA-3’(SEQ ID NO:416;sgRNA_369)、
5’-CUCCUCAGUUGUGAGCCCAUGC-3’(SEQ ID NO:417;sgRNA_370)、
5’-GUAGAAGGGAUAUACAAAGUGG-3’(SEQ ID NO:418;sgRNA_371)、
5’-CCACUUUGUAUAUCCCUUCUAC-3’(SEQ ID NO:419;sgRNA_372)、
5’-GGUGUCUAUUUCCACUUUGUAU-3’(SEQ ID NO:420;sgRNA_373),和
5’-CAUGAGCAUGCAGAGGUGAGUA-3’(SEQ ID NO:421;sgRNA_374);或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
76.如权利要求59-75中任一项所述的方法,其中所述引导RNA在3’端和5’端包含2-5个连续的2’-O-甲基化核碱基。
77.如权利要求59-76中任一项所述的方法,其中所述引导RNA在3’端和5’端包含2-5个连续的核碱基,所述核碱基包含硫代磷酸酯核苷酸间键。
78.一种治疗受试者的淀粉样变性的方法,所述方法包括向所述受试者施用引导RNA和编码碱基编辑器的多核苷酸,所述碱基编辑器包含多核苷酸可编程DNA结合多肽和脱氨酶,其中所述引导RNA靶向所述碱基编辑器以实现所述TTR多核苷酸序列的核碱基的改变。
79.如权利要求78所述的方法,其中所述脱氨酶是腺苷脱氨酶或胞苷脱氨酶。
80.如权利要求78或权利要求79所述的方法,其中所述脱氨酶与所述多核苷酸可编程DNA结合多肽和所述引导RNA复合。
81.如权利要求78-80中任一项所述的方法,其中所述碱基编辑器是包含所述多核苷酸可编程DNA结合多肽和所述脱氨酶的融合蛋白。
82.一种治疗受试者的淀粉样变性的方法,所述方法包括向所述受试者施用引导RNA和融合蛋白,所述融合蛋白包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域,其中所述腺苷脱氨酶结构域在以下氨基酸序列的氨基酸位置147处包含精氨酸(R)或苏氨酸(T),且所述腺苷脱氨酶结构域与以下氨基酸序列具有至少约85%的序列同一性MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:4;TadA*7.10),其中所述引导RNA靶向所述融合蛋白以实现所述TTR多核苷酸序列的核碱基的改变。
83.一种治疗受试者的淀粉样变性的方法,所述方法包括向所述受试者施用引导RNA和融合蛋白,所述融合蛋白包含多核苷酸可编程DNA结合结构域和胞苷脱氨酶结构域,其中所述胞苷脱氨酶结构域包含与以下氨基酸序列具有至少约85%的序列同一性的氨基酸序列:MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINW GGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK(SEQ ID NO:15),其中所述引导RNA靶向所述融合蛋白以实现所述TTR多核苷酸序列的核碱基的改变。
84.如权利要求78-83中任一项所述的方法,其中所述核碱基的改变破坏基因剪接。
85.如权利要求78-84中任一项所述的方法,其中所述TTR多核苷酸序列编码成熟TTR多核苷酸,所述成熟TTR多核苷酸包含选自T60A、V30M、V30A、V30G、V30L、V122I和V122A的致病性改变。
86.如权利要求85所述的方法,其中所述致病性改变是V122I。
87.如权利要求78-86中任一项所述的方法,其中所述核碱基的改变用非致病性改变或野生型氨基酸替换致病性改变。
88.如权利要求78-87中任一项所述的方法,其中所述受试者是灵长类动物。
89.如权利要求88所述的方法,其中所述灵长类动物是人。
90.如权利要求79-89中任一项所述的方法,其中所述腺苷脱氨酶将所述TTR多核苷酸序列中的靶标A·T转化为G·C。
91.如权利要求79-90中任一项所述的方法,其中所述胞苷脱氨酶将所述TTR多核苷酸序列中的靶标C·G转化为T·A。
92.如权利要求78-91中任一项所述的方法,其中所述改变的核碱基是
核苷酸序列TATAGGAAAACCAGTGAGTC(SEQ ID NO:425;对应于sgRNA_361的TSBTx2602/gRNA1598靶位点序列)的4A;
核苷酸序列TACTCACCTCTGCATGCTCA(SEQ ID NO:426;对应于sgRNA_362的TSBTx2603/gRNA1599靶位点序列)的6A;
核苷酸序列ACTCACCTCTGCATGCTCAT(SEQ ID NO:427;对应于sgRNA_363的TSBTx2604/gRNA1606靶位点序列)的5A;
核苷酸序列ATACTCACCTCTGCATGCTCA(SEQ ID NO:429;对应于sgRNA_365的TSBTx2606靶位点序列)的7A;
核苷酸序列TTGGCAGGATGGCTTCTCATCG(SEQ ID NO:431;对应于sgRNA_367的TSBTx2608/gRNA-#19靶位点)的6A;
序列TTGGCAGGATGGCTTCTCATCG(SEQ ID NO:431;对应于sgRNA_367的TSBTx2608/gRNA-#19靶位点)的9A;
序列GGCTATCGTCACCAATCCCA(SEQ ID NO:439;对应于sgRNA_375)的5A;或
序列GCTATCGTCACCAATCCCAA(SEQ ID NO:440;对应于sgRNA_376)的4A。
93.如权利要求78-92中任一项所述的方法,其中所述改变的核碱基是
核苷酸序列TACTCACCTCTGCATGCTCA(SEQ ID NO:426;对应于sgRNA_362的TSBTx2603/gRNA1599靶位点)的7C;
核苷酸序列ACTCACCTCTGCATGCTCAT(SEQ ID NO:427;对应于sgRNA_363的TSBTx2604/gRNA1606靶位点)的6C;
核苷酸序列TACCACCTATGAGAGAAGAC(SEQ ID NO:428;对应于sgRNA_364的TSBTx2605靶位点)的7C;
核苷酸序列ATACTCACCTCTGCATGCTCA(SEQ ID NO:429;对应于sgRNA_365的TSBTx2606靶位点)的8C;或
核苷酸序列ACTGGTTTTCCTATAAGGTGT(SEQ ID NO:430;对应于sgRNA_366的TSBTx2607靶位点)的11C。
94.如权利要求78-93中任一项所述的方法,其中所述多核苷酸可编程DNA结合结构域包含Cas多肽。
95.如权利要求78-94中任一项所述的方法,其中所述多核苷酸可编程DNA结合结构域包含Cas9或Cas12多肽或其片段。
96.如权利要求95所述的方法,其中所述Cas9多肽包含酿脓链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)或犬链球菌Cas9(ScCas9)。
97.如权利要求95所述的方法,其中所述Cas12多肽包含Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i。
98.如权利要求97所述的方法,其中所述Cas12多肽包含与外村尚芽孢杆菌Cas12b、热噬淀粉芽孢杆菌Cas12b、芽孢杆菌属某种V3-13 Cas12b或嗜酸脂环酸芽胞杆菌Cas12b具有至少约85%的氨基酸序列同一性的序列。
99.如权利要求78-98中任一项所述的方法,其中所述多核苷酸可编程DNA结合结构域包含对选自5′-NGG-3′、5′-NAG-3′、5′-NGA-3′、5′-NAA-3′、5′-NNAGGA-3′、5′-NNGRRT-3′或5′-NNACCA-3′的核酸序列具有原型间隔区序列相邻基序(PAM)特异性的Cas9多肽。
100.如权利要求78-98中任一项所述的方法,其中所述多核苷酸可编程DNA结合结构域包含对改变的原型间隔区序列相邻基序(PAM)具有特异性的Cas9多肽。
101.如权利要求100所述的方法,其中所述改变的PAM的核酸序列选自5′-NNNRRT-3′、5′-NGA-3′、5′-NGCG-3′、5′-NGN-3′、5′-NGCN-3′、5′-NGTN-3′和5′-NAA-3′。
102.如权利要求78-101中任一项所述的方法,其中所述多核苷酸可编程DNA结合结构域是核酸酶非活性或切口酶变体。
103.如权利要求102所述的方法,其中所述核酸酶失活变体是包含氨基酸取代D10A或在相应氨基酸位置处的取代的Cas9(dCas9)。
104.如权利要求102所述的方法,其中所述核酸酶失活变体是包含氨基酸取代D952A、S893R、K846R和E837G或在相应氨基酸位置处的取代的bhCas12b。
105.如权利要求78-104中任一项所述的方法,其中所述腺苷脱氨酶结构域能够使脱氧核糖核酸(DNA)中的腺嘌呤脱氨基。
106.如权利要求79-105中任一项所述的方法,其中所述胞苷脱氨酶结构域能够使脱氧核糖核酸(DNA)中的胞苷脱氨基。
107.如权利要求79-106中任一项所述的方法,其中所述腺苷脱氨酶是TadA脱氨酶。
108.如权利要求107所述的方法,其中所述TadA脱氨酶是TadA7*10、TadA*8.1、TadA*8.2、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.15、TadA*8.16、TadA*8.19、TadA*8.20、TadA*8.21或TadA*8.24。
109.如权利要求107或权利要求108所述的方法,其中所述TadA脱氨酶是TadA*7.10、TadA*8.8或TadA*8.13。
110.如权利要求79-109中任一项所述的方法,其中所述碱基编辑器是融合蛋白,所述融合蛋白包含侧接所述可编程DNA结合多肽的N末端片段和C末端片段的脱氨酶,其中所述DNA结合多肽是Cas9多肽。
111.如权利要求110所述的方法,其中所述脱氨酶插在与以下氨基酸序列具有至少约70%、80%、85%、90%、95%或100%的序列同一性的序列的氨基酸位置1029-1030或1247-1248之间:
spCas9
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ ID NO:201)。
112.如权利要求79-111中任一项所述的方法,其中所述胞苷脱氨酶是APOBEC或其变体。
113.如权利要求112所述的方法,其中所述胞苷脱氨酶包含氨基酸序列:MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEI NWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK(SEQ IDNO:15;BE4胞苷脱氨酶结构域),或所述氨基酸序列省略第一个甲硫氨酸(M)的形式。
114.如权利要求78-113中任一项所述的方法,其中所述碱基编辑器进一步包含一个或多个尿嘧啶糖基化酶抑制剂(UGI)。
115.如权利要求78-114中任一项所述的方法,其中所述碱基编辑器进一步包含一个或多个核定位信号(NLS)。
116.如权利要求115所述的方法,其中所述NLS是二分NLS。
117.如权利要求78-116中任一项所述的方法,其中所述引导RNA包含CRISPR RNA(crRNA)和反式编码的小RNA(tracrRNA),其中所述crRNA包含与所述TTR多核苷酸序列互补的核酸序列。
118.如权利要求78-117中任一项所述的方法,其中所述碱基编辑器与单引导RNA(sgRNA)复合或与单引导RNA(sgRNA)形成复合物,所述单引导RNA(sgRNA)包含与所述TTR多核苷酸序列互补的核酸序列。
119.如权利要求78-118中任一项所述的方法,其进一步包括改变两个或更多个核碱基。
120.如权利要求78-119中任一项所述的方法,其进一步包括使所述多核苷酸序列与靶向所述TTR多核苷酸序列的两个或更多个不同的引导RNA接触。
121.如权利要求78-120中任一项所述的方法,其中所述引导RNA包含选自表1、表2A或表2B中列出的那些序列中的一者或多者的核苷酸序列;或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
122.如权利要求78-121中任一项所述的方法,其中所述引导RNA包含选自以下的核苷酸序列:
5’-UAUAGGAAAACCAGUGAGUC-3’(SEQ ID NO:408;sgRNA_361/gRNA1598);
5’-UACUCACCUCUGCAUGCUCA-3’(SEQ ID NO:409;sgRNA_362/gRNA1599);
5’-ACUCACCUCUGCAUGCUCAU-3’(SEQ ID NO:410;sgRNA_363/gRNA1606);
5’-AUACUCACCUCUGCAUGCUCA-3’(SEQ ID NO:412;sgRNA_365);
5’-UUGGCAGGAUGGCUUCUCAUCG-3’(SEQ ID NO:414;sgRNA_367/gRNA-#19);
5’-GGCUAUCGUCACCAAUCCCA-3’(SEQ ID NO:422;sgRNA_375);
5’-GCUAUCGUCACCAAUCCCAA-3’(SEQ ID NO:423;sgRNA_376);
5’-ACACCUUAUAGGAAAACCAG-3’(SEQ ID NO:561;gRNA1604);
5’-CUCUCAUAGGUGGUAUUCAC-3’(SEQ ID NO:554;gRNA1597);
5’-GCAACUUACCCAGAGGCAAA-3’(SEQ ID NO:557;gRNA1600);
5’-CAACUUACCCAGAGGCAAAU-3’(SEQ ID NO:551;gRNA1594);
5’-UCUGUAUACUCACCUCUGCA-3’(SEQ ID NO:558;gRNA1601);
5’-CAAAUAUGAACCUUGUCUAG-3’(SEQ ID NO:462;gRNA1756);
5’-GAACCUUGUCUAGAGAGAUU-3’(SEQ ID NO:470;gRNA1764);
5’-UGAGUAUAAAAGCCCCAGGC-3’(SEQ ID NO:492;gRNA1786);和
5’-GCCAUCCUGCCAAGAAUGAG-3’(SEQ ID NO:478;gRNA1772);或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
123.如权利要求78-122中任一项所述的方法,其中所述引导RNA包含选自以下的核苷酸序列:
5’-UACUCACCUCUGCAUGCUCA-3’(SEQ ID NO:409;sgRNA_362/gRNA1599)、
5’-ACUCACCUCUGCAUGCUCAU-3’(SEQ ID NO:410;sgRNA_363/gRNA1606)、
5’-UACCACCUAUGAGAGAAGAC-3’(SEQ ID NO:411;sgRNA_364)、
5’-AUACUCACCUCUGCAUGCUCA-3’(SEQ ID NO:412;sgRNA_365)、
5’-ACUGGUUUUCCUAUAAGGUGU-3’(SEQ ID NO:413;sgRNA_366)、
5’-CAACUUACCCAGAGGCAAAU-3’(SEQ ID NO:551;gRNA1594),和
5’-UGUUGACUAAGUCAAUAAUC-3’(SEQ ID NO:496;gRNA1790);或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
124.如权利要求78-123中任一项所述的方法,其中所述引导RNA在3’端和5’端包含2-5个连续的2’-O-甲基化核碱基。
125.如权利要求78-124中任一项所述的方法,其中所述引导RNA在3’端和5’端包含2-5个连续的核碱基,所述核碱基包含硫代磷酸酯核苷酸间键。
126.一种编辑受试者中的转甲状腺素蛋白(TTR)多核苷酸序列的方法,所述方法包括向受试者施用引导RNA和Cas12b核酸内切酶,其中所述引导RNA靶向所述核酸内切酶以实现所述TTR多核苷酸序列的双链断裂。
127.如权利要求126所述的方法,其中所述Cas12b多肽是bhCAS12b多肽。
128.如权利要求127所述的方法,其中所述bhCAS12b多肽包含氨基酸序列:
bhCas12b
v4MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYGERSRFENSRLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCRVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMSGGSKRTADGSEFESPKKKRKVE(SEQ ID NO:450)。
129.如权利要求126-128中任一项所述的方法,其中所述编辑减少或消除TTR多肽的表达。
130.如权利要求129所述的方法,其中所述编辑引入使TTR多肽的表达相对于参考减少或消除至少约50%的改变。
131.如权利要求126-130中任一项所述的方法,其中所述TTR多核苷酸序列编码成熟TTR多核苷酸,所述成熟TTR多核苷酸包含选自T60A、V30M、V30A、V30G、V30L、V122I和V122A的致病性改变。
132.如权利要求131所述的方法,其中所述致病性改变是V122I。
133.如权利要求126-132中任一项所述的方法,其中所述受试者是哺乳动物。
134.如权利要求133所述的方法,其中所述受试者是灵长类动物。
135.如权利要求134所述的方法,其中所述受试者是人或食蟹猴。
136.如权利要求126-135中任一项所述的方法,其中所述多核苷酸序列在肝细胞中。
137.如权利要求136所述的方法,其中所述肝细胞是原代肝细胞。
138.如权利要求136所述的方法,其中所述肝细胞是原代食蟹猴肝细胞。
139.如权利要求126-138中任一项所述的方法,其中所述双链断裂的修复导致在所述TTR多核苷酸序列中引入插入缺失突变。
140.如权利要求126-139中任一项所述的方法,其进一步包括使所述多核苷酸序列与靶向所述TTR多核苷酸序列的两个或更多个不同的引导RNA接触。
141.如权利要求126-140中任一项所述的方法,其中所述引导RNA包含选自表1、表2A或表2B中列出的那些序列中的一者或多者的核苷酸序列;或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
142.如权利要求126-141中任一项所述的方法,其中所述引导RNA包含选自以下的核苷酸序列:
5’-UCCUAUAAGGUGUGAAAGUCUG-3’(SEQ ID NO:415;sgRNA_368)、
5’-UGAGCCCAUGCAGCUCUCCAGA-3’(SEQ ID NO:416;sgRNA_369)、
5’-CUCCUCAGUUGUGAGCCCAUGC-3’(SEQ ID NO:417;sgRNA_370)、
5’-GUAGAAGGGAUAUACAAAGUGG-3’(SEQ ID NO:418;sgRNA_371)、
5’-CCACUUUGUAUAUCCCUUCUAC-3’(SEQ ID NO:419;sgRNA_372)、
5’-GGUGUCUAUUUCCACUUUGUAU-3’(SEQ ID NO:420;sgRNA_373),和
5’-CAUGAGCAUGCAGAGGUGAGUA-3’(SEQ ID NO:421;sgRNA_374);或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
143.如权利要求126-142中任一项所述的方法,其中所述引导RNA在3’端和5’端包含2-5个连续的2’-O-甲基化核碱基。
144.如权利要求126-143中任一项所述的方法,其中所述引导RNA在3’端和5’端包含2-5个连续的核碱基,所述核碱基包含硫代磷酸酯核苷酸间键。
145.一种组合物,其包含编码融合蛋白和引导RNA的一个或多个多核苷酸,其中所述引导RNA包含与转甲状腺素蛋白(TTR)多核苷酸互补的核酸序列,且其中所述融合蛋白包含多核苷酸可编程DNA结合结构域和脱氨酶结构域。
146.如权利要求145所述的组合物,其中所述脱氨酶是胞苷或腺苷脱氨酶。
147.如权利要求146所述的组合物,其中所述腺苷脱氨酶结构域在以下氨基酸序列的氨基酸位置147处包含精氨酸(R)或苏氨酸(T),且所述腺苷脱氨酶结构域与以下氨基酸序列具有至少约85%的序列同一性:MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLV LNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:4;TadA*7.10),其中所述引导RNA靶向所述融合蛋白以实现TTR多核苷酸序列的核碱基的改变。
148.如权利要求146所述的组合物,其中所述胞苷脱氨酶结构域包含与以下氨基酸序列具有至少约85%的序列同一性的氨基酸序列:MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINW GGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK(SEQ ID NO:15),其中所述引导RNA靶向所述融合蛋白以实现TTR多核苷酸序列的核碱基的改变。
149.如权利要求146或权利要求147所述的组合物,其中所述腺苷脱氨酶能够使脱氧核糖核酸(DNA)中的腺嘌呤脱氨基。
150.如权利要求149所述的组合物,其中所述腺苷脱氨酶是TadA脱氨酶。
151.如权利要求150所述的组合物,其中所述TadA脱氨酶是TadA*7.10、TadA*8.1、TadA*8.2、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.15、TadA*8.16、TadA*8.19、TadA*8.20、TadA*8.21或TadA*8.24。
152.如权利要求145-151中任一项所述的组合物,其中所述碱基编辑器是融合蛋白,所述融合蛋白包含侧接所述可编程DNA结合多肽的N末端片段和C末端片段的脱氨酶,其中所述DNA结合多肽是Cas9多肽。
153.如权利要求152所述的组合物,其中所述脱氨酶插在与以下氨基酸序列具有至少约70%、80%、85%、90%、95%或100%的序列同一性的序列的氨基酸位置1029-1030或1247-1248之间:
spCas9
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ ID NO:201)。
154.如权利要求146或权利要求148所述的组合物,其中所述胞苷脱氨酶结构域能够使DNA中的胞苷脱氨基。
155.如权利要求154所述的组合物,其中所述胞苷脱氨酶是APOBEC或其变体。
156.如权利要求145-155中任一项所述的组合物,其中所述碱基编辑器进一步包含一个或多个尿嘧啶糖基化酶抑制剂(UGI)。
157.如权利要求145-155中任一项所述的组合物,其中所述碱基编辑器不包含尿嘧啶糖基化酶抑制剂(UGI)。
158.如权利要求145-157中任一项所述的组合物,其中所述碱基编辑器包含NLS。
159.如权利要求158所述的组合物,其中所述NLS是二分NLS。
160.如权利要求145-159中任一项所述的组合物,其中所述融合蛋白:
(i)包含与以下序列具有至少80%、85%、90%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列:
ABE8.8
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQID NO:442);
(ii)包含与以下序列具有至少80%、85%、90%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列:
BE4
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSKRTADGSEFESPKKKRKVE(SEQ ID NO:443);
(iii)包含与以下序列具有至少80%、85%、90%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列:
ABE8.8-VRQR
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQID NO:444);
(iv)包含与以下序列具有至少80%、85%、90%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列:
BE4-VRQR
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSKRTADGSEFESPKKKRKVE(SEQ ID NO:445);
(v)包含与以下序列具有至少80%、85%、90%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列:
saABE8.8
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSKRNYILGLAIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEENSKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRELINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYNNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPRIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKGEGADKRTADGSEFESPKKKRKV(SEQ ID NO:446);
(vi)包含与以下序列具有至少80%、85%、90%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列:
saBE4
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKSGGSSGGSSGSETPGTSESATPESSGGSSGGSGKRNYILGLAIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEENSKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRELINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYNNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPRIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKGGSPKKKRKVSSDYKDHDGDYKDHDIDYKDDDDKSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSKRTADGSEFESPKKKRKVE(SEQ ID NO:447);
(vii)包含与以下序列具有至少80%、85%、90%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列:
saBE4-KKH
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKSGGSSGGSSGSETPGTSESATPESSGGSSGGSGKRNYILGLAIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEENSKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRKLINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYKNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPHIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKGGSPKKKRKVSSDYKDHDGDYKDHDIDYKDDDDKSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSKRTADGSEFESPKKKRKVE(SEQ ID NO:448);或
(viii)包含与以下序列具有至少80%、85%、90%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列:
ABE-bhCAS12b
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIALGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYKERSRFENSRLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCRVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKK(SEQ ID NO:449)。
161.如权利要求145-160中任一项所述的组合物,其中所述引导RNA包含与所述TTR多核苷酸完全互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个连续核苷酸。
162.如权利要求145-161中任一项所述的组合物,其中所述引导RNA包含选自表1、表2A或表2B中列出的那些序列中的一者或多者的核苷酸序列;或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
163.如权利要求145-162中任一项所述的组合物,其中所述引导RNA包含选自以下的核苷酸序列:
5’-UAUAGGAAAACCAGUGAGUC-3’(SEQ ID NO:408;sgRNA_361/gRNA1598);
5’-UACUCACCUCUGCAUGCUCA-3’(SEQ ID NO:409;sgRNA_362/gRNA1599);
5’-ACUCACCUCUGCAUGCUCAU-3’(SEQ ID NO:410;sgRNA_363/gRNA1606);
5’-AUACUCACCUCUGCAUGCUCA-3’(SEQ ID NO:412;sgRNA_365);
5’-UUGGCAGGAUGGCUUCUCAUCG-3’(SEQ ID NO:414;sgRNA_367/gRNA-#19);
5’-GGCUAUCGUCACCAAUCCCA-3’(SEQ ID NO:422;sgRNA_375);
5’-GCUAUCGUCACCAAUCCCAA-3’(SEQ ID NO:423;sgRNA_376);
5’-ACACCUUAUAGGAAAACCAG-3’(SEQ ID NO:561;gRNA1604);
5’-CUCUCAUAGGUGGUAUUCAC-3’(SEQ ID NO:554;gRNA1597);
5’-GCAACUUACCCAGAGGCAAA-3’(SEQ ID NO:557;gRNA1600);
5’-CAACUUACCCAGAGGCAAAU-3’(SEQ ID NO:551;gRNA1594);
5’-UCUGUAUACUCACCUCUGCA-3’(SEQ ID NO:558;gRNA1601);
5’-CAAAUAUGAACCUUGUCUAG-3’(SEQ ID NO:462;gRNA1756);
5’-GAACCUUGUCUAGAGAGAUU-3’(SEQ ID NO:470;gRNA1764);
5’-UGAGUAUAAAAGCCCCAGGC-3’(SEQ ID NO:492;gRNA1786);和
5’-GCCAUCCUGCCAAGAAUGAG-3’(SEQ ID NO:478;gRNA1772);或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
164.如权利要求145-163中任一项所述的组合物,其中所述引导RNA包含选自以下的核苷酸序列:
5’-UACUCACCUCUGCAUGCUCA-3’(SEQ ID NO:409;sgRNA_362/gRNA1599)、
5’-ACUCACCUCUGCAUGCUCAU-3’(SEQ ID NO:410;sgRNA_363/gRNA1606)、
5’-UACCACCUAUGAGAGAAGAC-3’(SEQ ID NO:411;sgRNA_364)、
5’-AUACUCACCUCUGCAUGCUCA-3’(SEQ ID NO:412;sgRNA_365)、
5’-ACUGGUUUUCCUAUAAGGUGU-3’(SEQ ID NO:413;sgRNA_366)、
5’-CAACUUACCCAGAGGCAAAU-3’(SEQ ID NO:551;gRNA1594),和
5’-UGUUGACUAAGUCAAUAAUC-3’(SEQ ID NO:496;gRNA1790);或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
165.如权利要求145-164中任一项所述的组合物,其中所述引导RNA在3’端和5’端包含2-5个连续的2’-O-甲基化核碱基。
166.如权利要求145-165中任一项所述的组合物,其中所述引导RNA在3’端和5’端包含2-5个连续的核碱基,所述核碱基包含硫代磷酸酯核苷酸间键。
167.如权利要求145-166中任一项所述的组合物,其中所述组合物进一步包含脂质或脂质纳米颗粒。
168.如权利要求167所述的组合物,其中所述脂质是阳离子脂质。
169.如权利要求145-168中任一项所述的组合物,其中编码所述融合蛋白的所述一个或多个多核苷酸包含mRNA。
170.一种组合物,其包含编码核酸内切酶和引导RNA的一个或多个多核苷酸,其中所述引导RNA包含与转甲状腺素蛋白(TTR)多核苷酸互补的核酸序列,且其中所述核酸内切酶包含氨基酸序列:
bhCas12b
v4MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYGERSRFENSRLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCRVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMSGGSKRTADGSEFESPKKKRKVE(SEQ ID NO:450),其中所述引导RNA靶向所述核酸内切酶以实现所述TTR多核苷酸序列的双链断裂。
171.如权利要求170所述的组合物,其中所述引导RNA包含如下核酸序列,所述核酸序列包含与所述TTR多核苷酸序列互补的至少10个连续核苷酸。
172.如权利要求170或权利要求171所述的组合物,其中所述引导RNA包含如下核酸序列,所述核酸序列包含与所述TTR多核苷酸序列互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个连续核苷酸。
173.如权利要求170-172中任一项所述的组合物,其中所述引导RNA包含选自以下的核苷酸序列:
5’-UCCUAUAAGGUGUGAAAGUCUG-3’(SEQ ID NO:415;sgRNA_368)、
5’-UGAGCCCAUGCAGCUCUCCAGA-3’(SEQ ID NO:416;sgRNA_369)、
5’-CUCCUCAGUUGUGAGCCCAUGC-3’(SEQ ID NO:417;sgRNA_370)、
5’-GUAGAAGGGAUAUACAAAGUGG-3’(SEQ ID NO:418;sgRNA_371)、
5’-CCACUUUGUAUAUCCCUUCUAC-3’(SEQ ID NO:419;sgRNA_372)、
5’-GGUGUCUAUUUCCACUUUGUAU-3’(SEQ ID NO:420;sgRNA_373),和
5’-CAUGAGCAUGCAGAGGUGAGUA-3’(SEQ ID NO:421;sgRNA_374);或任何前述序列,其中核碱基1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
174.如权利要求170-173中任一项所述的组合物,其中所述引导RNA在3’端和5’端包含2-5个连续的核碱基,所述核碱基包含硫代磷酸酯核苷酸间键。
175.如权利要求170-174中任一项所述的组合物,其中编码所述核酸内切酶的所述一个或多个多核苷酸包含mRNA。
176.如权利要求170-175中任一项所述的组合物,其进一步包含脂质或脂质纳米颗粒。
177.如权利要求176中任一项所述的组合物,其中所述脂质是阳离子脂质。
178.如权利要求145-177中任一项所述的组合物,其进一步包含药学上可接受的赋形剂。
179.一种用于治疗转甲状腺素蛋白(TTR)淀粉样变性的药物组合物,所述药物组合物包含权利要求145-177中任一项所述的组合物和药学上可接受的赋形剂。
180.如权利要求179所述的药物组合物,其中所述gRNA和所述碱基编辑器一起或分开配制。
181.如权利要求179或权利要求180所述的药物组合物,其中所述多核苷酸存在于适合于在哺乳动物细胞中表达的载体中。
182.如权利要求181所述的药物组合物,其中所述载体是病毒载体。
183.如权利要求182所述的药物组合物,其中所述病毒载体是逆转录病毒载体、腺病毒载体、慢病毒载体、疱疹病毒载体或腺相关病毒载体(AAV)。
184.一种用于治疗转甲状腺素蛋白(TTR)淀粉样变性的药物组合物,所述药物组合物包含:在药学上可接受的赋形剂中的核酸内切酶或编码所述核酸内切酶的核酸,和包含与转甲状腺素蛋白(TTR)多核苷酸互补的核酸序列的引导RNA(gRNA),其中所述核酸内切酶包含氨基酸序列:
bhCas12b
v4MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYGERSRFENSRLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCRVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMSGGSKRTADGSEFESPKKKRKVE(SEQ ID NO:450),
其中所述引导RNA靶向所述核酸内切酶以实现所述TTR多核苷酸序列的双链断裂。
185.如权利要求184所述的药物组合物,其中所述引导RNA包含选自表1、表2A或表2B中列出的那些序列中的一者或多者的核苷酸序列;或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
186.如权利要求184所述的药物组合物,其中所述引导RNA包含选自以下的核苷酸序列:
5’-UCCUAUAAGGUGUGAAAGUCUG-3’(SEQ ID NO:415;sgRNA_368)、
5’-UGAGCCCAUGCAGCUCUCCAGA-3’(SEQ ID NO:416;sgRNA_369)、
5’-CUCCUCAGUUGUGAGCCCAUGC-3’(SEQ ID NO:417;sgRNA_370)、
5’-GUAGAAGGGAUAUACAAAGUGG-3’(SEQ ID NO:418;sgRNA_371)、
5’-CCACUUUGUAUAUCCCUUCUAC-3’(SEQ ID NO:419;sgRNA_372)、
5’-GGUGUCUAUUUCCACUUUGUAU-3’(SEQ ID NO:420;sgRNA_373),和
5’-CAUGAGCAUGCAGAGGUGAGUA-3’(SEQ ID NO:421;sgRNA_374);或任何前述序列,其中1、2、3、4或5个核苷酸从所述核苷酸序列的5’和/或3’末端缺失。
187.如权利要求184-186中任一项所述的药物组合物,其中所述引导RNA在3’端和5’端包含2-5个连续的2’-O-甲基化核碱基。
188.如权利要求184-187中任一项所述的药物组合物,其中所述引导RNA在3’端和5’端包含2-5个连续的核碱基,所述核碱基包含硫代磷酸酯核苷酸间键。
189.如权利要求184-188中任一项所述的药物组合物,其中所述gRNA和所述碱基编辑器一起或分开配制。
190.如权利要求184-189中任一项所述的药物组合物,其中所述多核苷酸存在于适合于在哺乳动物细胞中表达的载体中。
191.如权利要求190所述的药物组合物,其中所述载体是病毒载体。
192.如权利要求191所述的药物组合物,其中所述病毒载体是逆转录病毒载体、腺病毒载体、慢病毒载体、疱疹病毒载体或腺相关病毒载体(AAV)。
193.一种治疗转甲状腺素蛋白(TTR)淀粉样变性的方法,所述方法包括向有需要的受试者施用权利要求179-192中任一项所述的药物组合物。
194.权利要求179-192中任一项所述的组合物在治疗受试者的转甲状腺素蛋白(TTR)淀粉样变性中的用途。
195.如权利要求194所述的用途,其中所述受试者是哺乳动物。
196.如权利要求195所述的用途,其中所述受试者是灵长类动物。
197.如权利要求196所述的用途,其中所述灵长类动物是人。
198.一种治疗受试者的淀粉样变性的方法,所述方法包括向所述受试者全身施用引导RNA和包含多核苷酸可编程DNA结合结构域和脱氨酶结构域的融合蛋白,其中所述引导RNA靶向所述碱基编辑器以实现所述受试者的肝脏细胞中存在的所述TTR多核苷酸序列的核碱基的改变。
199.如权利要求198所述的方法,其中所述脱氨酶是腺苷脱氨酶或胞苷脱氨酶。
200.如权利要求198或权利要求199所述的方法,其中所述改变减少或消除野生型或突变型TTR多肽的表达。
201.如权利要求200所述的方法,其中所述改变在剪接受体、剪接供体、内含子序列、外显子序列、增强子或启动子中。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163189060P | 2021-05-14 | 2021-05-14 | |
US63/189,060 | 2021-05-14 | ||
PCT/US2022/029278 WO2022241270A2 (en) | 2021-05-14 | 2022-05-13 | Compositions and methods for treating transthyretin amyloidosis |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117729931A true CN117729931A (zh) | 2024-03-19 |
Family
ID=84029447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280049413.1A Pending CN117729931A (zh) | 2021-05-14 | 2022-05-13 | 用于治疗转甲状腺素蛋白淀粉样变性的组合物和方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20240117345A1 (zh) |
EP (1) | EP4337246A2 (zh) |
CN (1) | CN117729931A (zh) |
AU (1) | AU2022272250A1 (zh) |
CA (1) | CA3219767A1 (zh) |
WO (1) | WO2022241270A2 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024102972A1 (en) * | 2022-11-11 | 2024-05-16 | Beam Therapeutics Inc. | Base editing of transthyretin gene |
WO2024112775A1 (en) * | 2022-11-25 | 2024-05-30 | Beam Therapeutics Inc. | Compositions and methods for editing a transthyretin gene |
WO2024118747A1 (en) * | 2022-11-30 | 2024-06-06 | Arbor Biotechnologies, Inc. | Reverse transcriptase-mediated genetic editing of transthyretin (ttr) and uses thereof |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004521625A (ja) * | 2001-02-27 | 2004-07-22 | ユニバーシティー オブ ロチェスター | アポリポタンパク質BmRNA編集を改変するための方法および組成物 |
WO2019217941A1 (en) * | 2018-05-11 | 2019-11-14 | Beam Therapeutics Inc. | Methods of suppressing pathogenic mutations using programmable base editor systems |
US20220401530A1 (en) * | 2018-05-11 | 2022-12-22 | Beam Therapeutics Inc. | Methods of substituting pathogenic amino acids using programmable base editor systems |
AU2019266326A1 (en) * | 2018-05-11 | 2020-11-26 | Beam Therapeutics Inc. | Methods of editing single nucleotide polymorphism using programmable base editor systems |
JP2022520080A (ja) * | 2019-02-13 | 2022-03-28 | ビーム セラピューティクス インク. | 遺伝的疾患の治療用を含めアデノシンデアミナーゼ塩基エディターを用いて疾患関連遺伝子を編集する方法 |
-
2022
- 2022-05-13 WO PCT/US2022/029278 patent/WO2022241270A2/en active Application Filing
- 2022-05-13 AU AU2022272250A patent/AU2022272250A1/en active Pending
- 2022-05-13 CN CN202280049413.1A patent/CN117729931A/zh active Pending
- 2022-05-13 CA CA3219767A patent/CA3219767A1/en active Pending
- 2022-05-13 EP EP22808447.1A patent/EP4337246A2/en active Pending
-
2023
- 2023-11-13 US US18/507,980 patent/US20240117345A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4337246A2 (en) | 2024-03-20 |
CA3219767A1 (en) | 2022-11-17 |
WO2022241270A2 (en) | 2022-11-17 |
AU2022272250A9 (en) | 2023-12-07 |
WO2022241270A3 (en) | 2022-12-22 |
AU2022272250A1 (en) | 2023-11-30 |
US20240117345A1 (en) | 2024-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12016908B2 (en) | Compositions and methods for treating hemoglobinopathies | |
US20220401530A1 (en) | Methods of substituting pathogenic amino acids using programmable base editor systems | |
CN114072496A (zh) | 腺苷脱氨酶碱基编辑器及使用其修饰靶标序列中的核碱基的方法 | |
US20240117345A1 (en) | Compositions and methods for treating transthyretin amyloidosis | |
US20230101597A1 (en) | Compositions and methods for treating alpha-1 antitrypsin deficiency | |
JP2022533673A (ja) | プログラム可能塩基エディターシステムを用いた一塩基多型編集法 | |
EP3965832A1 (en) | Compositions and methods for treating hepatitis b | |
CA3198671A1 (en) | Compositions and methods for treating glycogen storage disease type 1a | |
US20240132868A1 (en) | Compositions and methods for the self-inactivation of base editors | |
US20240158775A1 (en) | Adenosine deaminase variants and uses thereof | |
CN117561074A (zh) | 腺苷脱氨酶变体及其用途 | |
WO2023086953A1 (en) | Compositions and methods for the treatment of hereditary angioedema (hae) | |
WO2023049935A1 (en) | Compositions and methods for treating hepatitis b virus infection | |
KR20240099269A (ko) | 신생아 fc 수용체의 게놈 편집을 위한 조성물 및 방법 | |
WO2023115012A2 (en) | Compositions and methods for the treatment of spinal muscular atrophy (sma) | |
CN116685684A (zh) | 用于治疗1a型糖原贮积症的组合物和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |