CN117729926A

CN117729926A - 用于使碱基编辑器自失活的组合物和方法

Info

Publication number: CN117729926A
Application number: CN202280036220.2A
Authority: CN
Inventors: 大卫·布赖森; 杰克·苏利文
Original assignee: Bim Medical Co ltd
Current assignee: Bim Medical Co ltd
Priority date: 2021-05-28
Filing date: 2022-05-27
Publication date: 2024-03-19
Also published as: WO2022251687A3; AU2022280952A9; WO2022251687A2; EP4346840A2; KR20240012377A; AU2022280952A1; CA3219628A1

Abstract

本文公开了编码脱氨酶或napDNAbp多肽的多核苷酸，其包含插入在编码所述脱氨酶或napDNAbp的开放阅读框中的内含子，进一步地其中所述内含子具有用于降低编辑mRNA的剪接的改变的剪接受体或剪接供体位点。还公开了编码包含内含子的碱基编辑器开放阅读框的多核苷酸，其中所述碱基编辑器包含napDNAbp结构域或脱氨酶结构域。

Description

用于使碱基编辑器自失活的组合物和方法

相关申请的交叉引用

本申请要求2021年5月28日提交的美国临时申请序列号63/194,431的优先权和权益，所述专利的全部内容以引用方式并入本文。

序列表

本申请含有序列表，所述序列表已以ASCII格式以电子方式提交并且以引用方式整体特此并入。所述ASCII拷贝创建于2022年5月27日，被命名为180802_049001_PCT_SL.txt并且大小为2,089,884字节。

背景技术

基因编辑技术的进步(诸如CRISPR-Cas系统在真核生物中的应用和碱基编辑的出现)使得基因组能够在多种细胞类型和生物体中进行有效编辑，从而迅速扩展了治疗人遗传性疾病的可用方法。尽管CRISPR-Cas系统和碱基编辑器对感兴趣的基因组靶标具有高度特异性，但优选地在细胞中瞬时表达基因组修饰工具，以便减轻如果表达持续超过较长时间段则更有可能发生的潜在脱靶编辑事件。因此，在成功中靶编辑后随后抑制或停止编辑活性的方法引起了广泛的兴趣，特别是当利用可能导致长期表达的递送方法，诸如通过腺相关病毒(AAV)转导、DNA转染或其他方法时。

发明内容

如下所述，本发明的特征在于自失活碱基编辑器和相关组合物和方法。

在一方面，本公开的发明特征在于一种多核苷酸，其编码脱氨酶结构域或核酸可编程DNA结合蛋白(napDNAbp)结构域或其片段。多核苷酸含有内含子。将内含子插入在编码脱氨酶或napDNAbp或其片段的开放阅读框中。

在另一方面，本公开的发明特征在于一种含有内含子的多核苷酸，其编码脱氨酶结构域或核酸可编程DNA结合蛋白(napDNAbp)结构域开放阅读框。内含子在剪接受体或剪接供体位点处含有改变。所述改变减少或消除碱基编辑器mRNA的剪接，从而减少或消除了碱基编辑器多肽的表达。

在另一方面，本公开的发明特征在于一种多核苷酸，其编码碱基编辑器多肽或其片段。多核苷酸含有内含子。将内含子插入在编码碱基编辑器多肽或其片段的开放阅读框中。

在另一方面，本公开的发明特征在于一种多核苷酸，其包含含有内含子的碱基编辑器开放阅读框。内含子在剪接受体或剪接供体位点处含有改变。所述改变减少或消除碱基编辑器mRNA的剪接，从而减少或消除了碱基编辑器多肽的表达。

在另一方面，本公开的发明特征在于一种多核苷酸，其编码含有核酸可编程DNA结合蛋白(napDNAbp)结构域或脱氨酶结构域的碱基编辑器。多核苷酸含有内含子。将内含子插入在编码napDNAbp结构域或脱氨酶的开放阅读框中。

在另一方面，本公开的发明特征在于一种多核苷酸，其编码含有核酸可编程DNA结合蛋白(napDNAbp)结构域和脱氨酶结构域或其片段的碱基编辑器。多核苷酸包含含有内含子的碱基编辑器开放阅读框。内含子在剪接受体或剪接供体位点处含有改变。所述改变减少了碱基编辑器mRNA的剪接。

在另一方面，本公开的发明特征在于一种组合物，其含有(i)编码脱氨酶结构域和核酸可编程DNA结合蛋白(napDNAbp)结构域的N端片段的第一多核苷酸，其中所述napDNAbp结构域的N端片段与分裂内含肽-N融合。组合物还含有(ii)编码所述napDNAbp结构域的C端片段的第二多核苷酸，其中所述napDNAbp结构域的C端片段与分裂内含肽-C融合。第一多核苷酸或第二多核苷酸含有内含子，其中所述内含子插入在所述多核苷酸的开放阅读框中。

在另一方面，本公开的发明特征在于一种组合物，其含有(i)编码脱氨酶结构域的N端片段的第一多核苷酸，其中所述脱氨酶结构域的N端片段与分裂内含肽-N融合。组合物还含有(ii)编码所述脱氨酶结构域的C端片段和核酸可编程DNA结合蛋白(napDNAbp)结构域的第二多核苷酸，其中所述脱氨酶结构域的C端片段与分裂内含肽-C融合。第一多核苷酸或第二多核苷酸含有内含子，其中所述内含子插入在所述多核苷酸的开放阅读框中。

在另一方面，本公开的发明特征在于一种碱基编辑器系统，其含有(i)编码含有脱氨酶结构域的碱基编辑器或其片段的多核苷酸。碱基编辑器系统还含有(ii)引导所述碱基编辑器编辑细胞基因组中的位点的一种或多种指导RNA。碱基编辑器系统还含有(iii)引导碱基编辑器编辑编码所述碱基编辑器的多核苷酸的一种或多种指导RNA。所述编辑导致所编码的碱基编辑器的活性和/或表达降低。

在另一方面，本公开的发明特征在于一种碱基编辑器系统，其含有(i)编码自失活碱基编辑器或其片段的多核苷酸，其中所述多核苷酸包含插入在所述自失活碱基编辑器或其片段的开放阅读框中的内含子。碱基编辑器系统还含有(ii)引导所述自失活碱基编辑器编辑细胞基因组中的位点的一种或多种指导RNA。碱基编辑器系统还含有(iii)引导所述自失活碱基编辑器编辑存在于编码所述自失活碱基编辑器的多核苷酸的内含子中的剪接受体或剪接供体位点的一种或多种指导RNA。

在另一方面，本公开的发明特征在于一种碱基编辑器系统，其含有(i)以上任一方面的编码碱基编辑器的多核苷酸。碱基编辑器系统还含有(ii)引导所述碱基编辑器编辑细胞基因组中的位点的一种或多种指导RNA。碱基编辑器系统还含有(iii)引导所述碱基编辑器编辑存在于编码所述碱基编辑器的多核苷酸的内含子中的剪接受体或剪接供体位点的一种或多种指导RNA。

在另一方面，本公开的发明特征在于一种碱基编辑器系统，其含有(i)以上任一方面的编码碱基编辑器的组合物。碱基编辑器系统还含有(ii)引导所述碱基编辑器编辑细胞基因组中的位点的一种或多种指导RNA。碱基编辑器系统还含有(iii)引导所述碱基编辑器编辑存在于(i)的组合物的内含子中的剪接受体或剪接供体位点的一种或多种指导RNA。

在另一方面，本公开的发明特征在于一种碱基编辑器系统，其含有(i)编码脱氨酶结构域和核酸可编程DNA结合蛋白(napDNAbp)结构域的N端片段的第一多核苷酸，其中所述napDNAbp结构域的N端片段与分裂内含肽-N融合。碱基编辑器系统还含有(ii)编码所述napDNAbp结构域的C端片段的第二多核苷酸，其中所述napDNAbp结构域的C端片段与分裂内含肽-C融合。第一多核苷酸或第二多核苷酸含有内含子，其中所述内含子插入在开放阅读框中，并且其中第一多核苷酸和第二多核苷酸编码碱基编辑器。碱基编辑器系统还含有(iii)引导所述碱基编辑器编辑细胞基因组中的位点的一种或多种指导RNA。碱基编辑器系统还含有(iv)引导所述碱基编辑器编辑存在于(i)或(ii)的多核苷酸的内含子中的剪接受体或剪接供体位点的一种或多种指导RNA。

在另一方面，本公开的发明特征在于一种碱基编辑器系统，其含有(i)编码脱氨酶结构域的N端片段的第一多核苷酸，其中所述脱氨酶结构域的N端片段与分裂内含肽-N融合。碱基编辑器系统还含有(ii)编码所述脱氨酶结构域的C端片段和核酸可编程DNA结合蛋白(napDNAbp)结构域的第二多核苷酸，其中所述脱氨酶结构域的C端片段与分裂内含肽-C融合。第一多核苷酸或第二多核苷酸含有内含子，其中所述内含子插入在开放阅读框中，并且其中第一多核苷酸和第二多核苷酸编码碱基编辑器。碱基编辑器系统还含有(iii)引导所述碱基编辑器编辑细胞基因组中的位点的一种或多种指导RNA。碱基编辑器系统还含有(iv)引导所述碱基编辑器编辑存在于(i)或(ii)的多核苷酸的内含子中的剪接受体或剪接供体位点的一种或多种指导RNA。

在另一方面，本公开的发明特征在于一种载体，其含有编码自失活碱基编辑器或其片段的多核苷酸。多核苷酸含有插入在自失活碱基编辑器或其片段的开放阅读框中的内含子。

在另一方面，本公开的发明特征在于一种载体，其含有上述任一方面或其实施方案的多核苷酸或上述任一方面或其实施方案的碱基编辑器系统。

在另一方面，本公开的发明特征在于一种载体，其含有上述任一方面的组合物的第一多核苷酸和/或第二多核苷酸。

在另一方面，本公开的发明特征在于一种细胞，其包含含有编码自失活碱基编辑器或其片段的多核苷酸的载体。多核苷酸含有插入在自失活碱基编辑器或其片段的开放阅读框中的内含子。

在另一方面，本公开的发明特征在于一种细胞，其含有上述任一方面或其实施方案的多核苷酸、上述任一方面或其实施方案的组合物、上述任一方面或其实施方案的碱基编辑器系统或上述任一方面或其实施方案的载体。

在另一方面，本公开的发明特征在于一种药物组合物，其含有上述任一方面或其实施方案的多核苷酸、上述任一方面或其实施方案的碱基编辑器系统、上述任一方面或其实施方案的载体或上述任一方面或其实施方案细胞。

在另一方面，本公开的发明特征在于一种试剂盒，其含有上述任一方面或其实施方案的多核苷酸、组合物、碱基编辑器系统、载体、细胞或药物组合物。

在另一方面，本公开的发明特征在于一种用于减少或消除自失活碱基编辑器的表达的方法。所述方法包括(a)提供编码自失活碱基编辑器或其片段的多核苷酸，其中所述多核苷酸含有插入在所述自失活碱基编辑器或其片段的开放阅读框中的内含子。所述方法还包括(b)使所述多核苷酸与指导RNA和自失活碱基编辑器多肽接触，其中所述指导RNA引导所述碱基编辑器编辑所述内含子的剪接受体或剪接供体位点，从而生成减少或消除所述自失活碱基编辑器的表达的改变。

在另一方面，本公开的发明特征在于一种使碱基编辑自失活的方法。所述方法包括(a)在细胞中表达编码含有脱氨酶结构域的碱基编辑器或其片段的多核苷酸。所述方法还包括(b)使所述细胞与引导所述碱基编辑器编辑所述细胞基因组中的位点的第一指导RNA接触，从而在所述细胞基因组中生成改变。所述方法还包括(c)使所述细胞与引导所述碱基编辑器编辑编码所述碱基编辑器的多核苷酸的第二指导RNA接触，其中所述编辑导致所编码的碱基编辑器的活性和/或表达降低，从而生成减少或消除所述碱基编辑器的表达的改变。

在另一方面，本公开的发明特征在于一种使碱基编辑自失活的方法。所述方法包括(a)在细胞中表达编码自失活碱基编辑器或其片段的多核苷酸，其中所述多核苷酸含有插入在所述自失活碱基编辑器或其片段的开放阅读框中的内含子。所述方法还包括(b)使所述细胞与引导所述自失活碱基编辑器编辑所述细胞基因组中的位点的第一指导RNA接触，从而在所述细胞基因组中生成改变。所述方法还包括(c)使所述细胞与引导所述自失活碱基编辑器编辑存在于(a)的多核苷酸的内含子中的剪接受体或剪接供体位点的第二指导RNA接触，从而生成减少或消除所述自失活碱基编辑器的表达的改变。

在另一方面，本公开的发明特征在于一种编辑生物体基因组的方法。所述方法包括(a)在生物体细胞中表达编码自失活碱基编辑器或其片段的多核苷酸，其中所述多核苷酸含有插入在所述自失活碱基编辑器或其片段的开放阅读框中的内含子。所述方法还包括(b)使所述细胞与引导所述自失活碱基编辑器编辑所述细胞基因组中的位点的第一指导RNA接触，从而在所述细胞基因组中生成改变。所述方法还包括(c)使所述细胞与引导所述自失活碱基编辑器编辑存在于(a)的多核苷酸的内含子中的剪接受体或剪接供体位点的第二指导RNA接触，从而生成减少或消除所述自失活碱基编辑器的表达的改变。

在另一方面，本公开的发明特征在于一种治疗受试者的方法。所述方法包括(a)在受试者细胞中表达编码自失活碱基编辑器或其片段的多核苷酸，其中所述多核苷酸含有插入在所述自失活碱基编辑器或其片段的开放阅读框中的内含子。所述方法还包括(b)使所述细胞与引导所述自失活碱基编辑器编辑所述细胞基因组中的位点的第一指导RNA接触，从而在所述细胞基因组中生成改变以治疗受试者。所述方法还包括(c)使所述细胞与引导所述自失活碱基编辑器编辑存在于(a)的多核苷酸的内含子中的剪接受体或剪接供体位点的第二指导RNA接触，从而生成减少或消除所述自失活碱基编辑器的表达的改变。

在另一方面，本公开的发明特征在于一种治疗受试者的方法。所述方法包括向受试者施用上述任一方面或其实施方案的碱基编辑器系统、载体、细胞或药物组合物，从而治疗受试者。

在另一方面，本公开的发明特征在于一种编辑生物体基因组的方法。所述方法包括(a)在生物体细胞中表达编码脱氨酶结构域和核酸可编程DNA结合蛋白(napDNAbp)结构域的N端片段的第一多核苷酸，其中所述napDNAbp结构域的N端片段与分裂内含肽-N融合，并且在所述生物体细胞中表达编码所述napDNAbp结构域的C端片段的第二多核苷酸，其中所述napDNAbp结构域的C端片段与分裂内含肽-C融合。所述第一多核苷酸或第二多核苷酸含有内含子。将所述内含子插入在开放阅读框中。所述第一多核苷酸和第二多核苷酸在细胞中的表达导致形成自失活碱基编辑器。所述方法还包括(b)使所述细胞与引导所述自失活碱基编辑器编辑所述细胞基因组中的位点的第一指导RNA接触，从而在所述细胞基因组中生成改变。所述方法还包括(c)使所述细胞与引导所述自失活碱基编辑器编辑存在于(a)的多核苷酸的内含子中的剪接受体或剪接供体位点的第二指导RNA接触，从而生成减少或消除所述自失活碱基编辑器的表达的改变。

在另一方面，本公开的发明特征在于一种编辑生物体基因组的方法。所述方法包括(a)在所述生物体细胞中表达编码脱氨酶结构域的N端片段的第一多核苷酸，其中所述脱氨酶结构域的N端片段与分裂内含肽-N融合，并且在所述生物体细胞中表达编码所述脱氨酶结构域的C端片段和核酸可编程DNA结合蛋白(napDNAbp)结构域的第二多核苷酸，其中所述脱氨酶结构域的C端片段与分裂内含肽-C融合。所述第一多核苷酸或第二多核苷酸含有内含子，其中所述内含子插入在开放阅读框中。所述第一多核苷酸和第二多核苷酸在细胞中的表达导致形成自失活碱基编辑器。所述方法还包括(b)使所述细胞与引导所述自失活碱基编辑器编辑所述细胞基因组中的位点的第一指导RNA接触，从而在所述细胞基因组中生成改变。所述方法还包括(c)使所述细胞与引导所述自失活碱基编辑器编辑存在于(a)的多核苷酸的内含子中的剪接受体或剪接供体位点的第二指导RNA接触，从而生成减少或消除所述自失活碱基编辑器的表达的改变。

在上述任一方面或其实施方案中，所述碱基编辑器在基因组DNA中具有高编辑效率。在上述任一方面或其实施方案中，所述碱基编辑器含有核酸可编程DNA结合蛋白(napDNAbp)结构域或脱氨酶结构域。

在上述任一方面或其实施方案中，所述脱氨酶结构域是胞苷脱氨酶结构域或腺苷脱氨酶结构域。在上述任一方面或其实施方案中，所述脱氨酶结构域是TadA结构域。

在上述任一方面或其实施方案中，所述napDNAbp结构域是选自Cas9、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i和Cas12j/CasΦ结构域中的一个或多个的Cas结构域。

在上述任一方面或其实施方案中，所述内含子来源于选自NF1、PAX2、EEF1A1、HBB、IGHG1、SLC50A1、ABCB11、BRSK2、PLXNB3、TMPRSS6、IL32、ANTXRL、PKHD1L1、PADI1、KRT6C和HMCN2中的一个或多个的序列。在上述任一方面或其实施方案中，所述内含子来源于NF1。在上述任一方面或其实施方案中，所述内含子来源于PAX2。在上述任一方面或其实施方案中，所述内含子来源于EEF1A1。在上述任一方面或其实施方案中，所述内含子来源于HBB。在上述任一方面或其实施方案中，所述内含子来源于IGHG1。在上述任一方面或其实施方案中，所述内含子来源于SLC50A1。在上述任一方面或其实施方案中，所述内含子来源于ABCB11。在上述任一方面或其实施方案中，所述内含子来源于BRSK2。在上述任一方面或其实施方案中，所述内含子来源于PLXNB3。在上述任一方面或其实施方案中，所述内含子来源于TMPRSS6。在上述任一方面或其实施方案中，所述内含子来源于IL32。在上述任一方面或其实施方案中，所述内含子来源于PKHD1L1。在上述任一方面或其实施方案中，所述内含子来源于PADI1。在上述任一方面或其实施方案中，所述内含子来源于KRT6C。在上述任一方面或其实施方案中，所述内含子来源于HMCN2。在上述任一方面或其实施方案中，所述内含子与天然存在于哺乳动物基因中的内含子具有至少约85％核酸序列同一性。在上述任一方面或其实施方案中，所述内含子与天然存在于非哺乳动物基因中的内含子具有至少约85％核酸序列同一性。在上述任一方面或其实施方案中，所述内含子是合成内含子。在上述任一方面或其实施方案中，所述内含子含有与以下之一具有至少约85％核酸序列同一性的序列：

a)GTGAGATCAAATGAAAGTTTCATATAGAAATACAAAAC CTAGAGAACTGGCATGTAAGAGAAGCAAAAATTACTTCAGCA AGGCCATGTTAGTAAATTTGCATCTGTTTGTCCACATTAG(SEQ ID NO:226)；

b)GTAGGTGACAATGCTGCAGCTGCCTAATCTAGGTGGGG GGAACTAAATTGTGGGTGAGCTGCTGAATGGTCTGTAGTCTGA GGCTGGGGTGGGGGGAGACACAACGTCCCCTCCCTGCAAACCACTGCTATTCTGTCCCTCTCTCTCCTTAG(SEQ ID NO:227)；

c)GTAAGTGGCTTTCAAGACCATTGTTAAAAAGCTCTGGG AATGGCGATTTCATGCTTACATAAATTGGCATGCTTGTGTTTCA G(SEQ ID NO:228)；

d)GTAAGTATCAAGGTTACAAGACAGGTTTAAGGAGACCA ATAGAAACTGGGCTTGTCTAGACAGAGAAGACTCTTGCGTTTC TGATAGGCACCTATTGGTCTTACTGACATCCACTTTGCCTTTCT CTCCACAG(SEQ IDNO:229)；

e)GTAAGCACAACTGGGATGGGGTGACAGGGGTGCAAGA TTGAAAACTGGCTCCTCTCCTCATAGCAGTTCTTGTGATTTCAG(SEQ ID NO:230)；

f)GTAAGAAATGTTATTTTTCAGTAAGTGATTTAGTTATTT TTCCTTTTTTCTCATTAAAATTTCTCTAACATCTCCCTCTTCATG TTTTAG(SEQ ID NO:231)；

g)GTGAGACCCTAGCCCCCTCAACCCTGCCCTGGCCTCTCC CCAAACCTGCCCCCCCACGCTGACCCCCACACCCGGCCGCCCG CAG(SEQ ID NO:232)；

h)GTGGGTGTCAGAGGCATCGGGGCTGCGGGGTAGGGGGCTGCCCCACCCCTAACGAAGTCTGCTCCTCCAG(SEQ ID NO:233)；

i)GCAGGGAAGTCCTGCTTCCGTGCCCCACCGGTGCTCAGCTGAGGCTCCCTTGAAAATGCGAGGCTGTTTCCAACTTTGGTCTGTTTCCCTGGCAG(SEQ ID NO:234)；

j)GTGGGGAGTTGGGGTCCCCGAAGGTGAGGACCCTCTGGGGATGAGGGTGCTTCTCTGAGACACTTTCTTTTCCTCACACCTGTTCCTCGCCAGCAG(SEQ ID NO:235)；

k)GTATAGACCCCTTGATCTCCTAACCCTAACCCTAACCCTAACCCTAACCTACAAAATCTTAGAGCATCAGTGGGAGCATCTCACTGTCCAGGCTCAATATTTCTTCATTTTCTTGCAG(SEQ ID NO:236)；

l)GTAATTATGATTAAAGATGGTGATTGTTTATTTTCTTTTATGATTGTCCTTAGTATTATGTAACCTGCAAATTCTATTGCAG(SEQ ID NO:237)；

m)GTGAGTGACACAAGGTGTTGTCTGGGGAGTGGGGAAGGGGGATGGAAGTGAATCCTGTTGGTGGGGTGGAGAAAGGGCGATCTCAAGAGGGCCACTCTCTCCAG(SEQ ID NO:238)；

n)GTAAGCATCTCCACCATCCTTCTGTTTACTCTGATGGGGTCTGCAAAGGGGAGATGATGTATAGGGTTGGGTATCTCTGTAAATGTCAGATGTGAAGTTGATCTTATGACCTTCTGTTCTGCAG(SEQ ID NO:239)；

o)GTGAGGGTCTCCCAGGCTGGGCAGGGGGAGGGGGCTGCTGCCTTGATTGCGTCCCAGGACACAGCCCTCCTCCAGCCTGCCCTCGCCTTGCTCATCCCCTCCCCATCTCAGCCCCACCCCCACTAACTCTCTCTCTGCTCTGACTCAG(SEQ ID NO:240)；

p)GTAATGATTGATTGCAATGTATGATTACAATAATCTCAGTATAAGTTCAGTAATAATAACCTTCCACTGCTGTCCTCTGTGTGCACCCAG(SEQ ID NO:241)；或

q)GTAAATATATACAACAGTTTTTCATTTAAATAAGTGCACGGCACAAATAAGAAAAATATGTCAAAAATGTAACCAATAGTTTTTTTCAAATTTAG(SEQ ID NO:242)。

在上述任一方面或其实施方案中，所述内含子含有来自以下之一的核酸序列：

a)GTGAGATCAAATGAAAGTTTCATATAGAAATACAAAACCTAGAGAACTGGCATGTAAGAGAAGCAAAAATTACTTCAGCAAGGCCATGTTAGTAAATTTGCATCTGTTTGTCCACATTAG(SEQ ID NO:226)；

b)GTAGGTGACAATGCTGCAGCTGCCTAATCTAGGTGGGGGGAACTAAATTGTGGGTGAGCTGCTGAATGGTCTGTAGTCTGAGGCTGGGGTGGGGGGAGACACAACGTCCCCTCCCTGCAAACCACTGCTATTCTGTCCCTCTCTCTCCTTAG(SEQ ID NO:227)；

c)GTAAGTGGCTTTCAAGACCATTGTTAAAAAGCTCTGGGAATGGCGATTTCATGCTTACATAAATTGGCATGCTTGTGTTTCAG(SEQ ID NO:228)；

d)GTAAGTATCAAGGTTACAAGACAGGTTTAAGGAGACCAATAGAAACTGGGCTTGTCTAGACAGAGAAGACTCTTGCGTTTCTGATAGGCACCTATTGGTCTTACTGACATCCACTTTGCCTTTCTCTCCACAG(SEQ IDNO:229)；

e)GTAAGCACAACTGGGATGGGGTGACAGGGGTGCAAGATTGAAAACTGGCTCCTCTCCTCATAGCAGTTCTTGTGATTTCAG(SEQ ID NO:230)；

f)GTAAGAAATGTTATTTTTCAGTAAGTGATTTAGTTATTTTTCCTTTTTTCTCATTAAAATTTCTCTAACATCTCCCTCTTCATGTTTTAG(SEQ ID NO:231)；

g)GTGAGACCCTAGCCCCCTCAACCCTGCCCTGGCCTCTCCCCAAACCTGCCCCCCCACGCTGACCCCCACACCCGGCCGCCCGCAG(SEQ ID NO:232)；

m)GTGAGTGACACAAGGTGTTGTCTGGGGAGTGGGGAAG GGGGATGGAAGTGAATCCTGTTGGTGGGGTGGAGAAAGGGCGATCTCAAGAGGGCCACTCTCTCCAG(SEQ ID NO:238)；

在上述任一方面或其实施方案中，内含子含有约10个碱基对至约500个碱基对。在上述任一方面或其实施方案中，内含子含有约70个碱基对至150个碱基对。在上述任一方面或其实施方案中，内含子含有约100个碱基对至200个碱基对。在上述任一方面或其实施方案中，将内含子插入到原型间隔区序列附近。在上述任一方面或其实施方案中，将内含子插入在原型间隔区序列的约10至30个碱基对内。在上述任一方面或其实施方案中，所述原型间隔区序列是NGG或NNGRRT。

在上述任一方面或其实施方案中，所述脱氨酶结构域含有TadA结构域。

在上述任一方面或其实施方案中，将所述内含子插入到TadA的密码子18、23、59、62、87或129内或紧接其后插入。在上述任一方面或其实施方案中，将所述内含子紧接TadA的密码子87之后插入。在上述任一方面或其实施方案中，所述改变是单碱基编辑。在上述任一方面或其实施方案中，所述单碱基编辑是A到G碱基编辑。在上述任一方面或其实施方案中，所述单碱基编辑是C到T碱基编辑。

在上述任一方面或其实施方案中，所述多核苷酸还含有编码接头的多核苷酸序列。在上述任一方面或其实施方案中，将所述内含子插入在编码所述接头的多核苷酸序列内。

在上述任一方面或其实施方案中，所述可编程DNA结合蛋白结构域是Cas9结构域。在上述任一方面或其实施方案中，所述Cas9结构域在对应于Cas9的Asn309和Thr310的氨基酸残基之间分裂，并且残基310突变为Thr310Cys。

在上述任一方面或其实施方案中，所述内含子含有剪接受体或剪接供体位点处的改变，其中所述改变减少或消除碱基编辑器mRNA的剪接。

在上述任一方面或其实施方案中，所述napDNAbp结构域是Cas9结构域。在上述任一方面或其实施方案中，所述Cas9结构域的N端结构域和C端结构域在氨基酸残基Asn309和Thr310之间分裂。在上述任一方面或其实施方案中，所述Cas9结构域含有突变Thr310Cys。

在上述任一方面或其实施方案中，所述组合物还含有接头多核苷酸序列。在上述任一方面或其实施方案中，将所述内含子插入在接头多核苷酸序列内。

在上述任一方面或其实施方案中，所述编辑改变所述脱氨酶结构域的催化残基。在上述任一方面或其实施方案中，所述脱氨酶结构域是腺苷脱氨酶结构域。在上述任一方面或其实施方案中，所述脱氨酶结构域是胞苷脱氨酶结构域。在上述任一方面或其实施方案中，所述脱氨酶结构域的改变的催化残基是以下参考序列的His57(H57)、Gl u59(E59)、Cys87(C87)或Cys90(C90)：MSEVEFSHEYWMRHAL TLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:1)，或另一腺苷脱氨酶中的相应位置。在上述任一方面或其实施方案中，改变的催化残基是E59。在上述任一方面或其实施方案中，对催化残基的改变是E59G。在上述任一方面或其实施方案中，改变的催化残基是H57。在上述任一方面或其实施方案中，对催化残基的改变是H57R。在上述任一方面或其实施方案中，改变的催化残基是C87。在上述任一方面或其实施方案中，对催化残基的改变是C87R。在上述任一方面或其实施方案中，改变的催化残基是C90。在上述任一方面或其实施方案中，对催化残基的改变是C90R。

在上述任一方面或其实施方案中，所述碱基编辑器系统含有选自以下的多核苷酸序列：

a)gGUUUUAGGUCAUGUGUGCUGUUUUAGAGCUAGAAAU AGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAA GUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:191)；

b)gUUUCUUACACAGGGCUCGAGUUUUAGAGCUAGAAAU AGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAA GUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:192)；

c)gGUUUCAGGUCAUGUGUGCUGUUUUAGAGCUAGAAAU AGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:193)；

d)GCCACUUACACAGGGCUCGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:194)；

e)gACAUUAGGUCAUGUGUGCUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:195)；

f)gGAUCUCACACAGGGCUCGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:196)；

g)gUCCUUAGGUCAUGUGUGCUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:197)；

h)GUCACCUACACAGGGCUCGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:198)；

i)GAUUUCAGGUCAUGUGUGCUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:190)；

j)gGUGCUUACACAGGGCUCGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:200)；

k)gUCCACAGGUCAUGUGUGCUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:201)；

l)GAUACUUACACAGGGCUCGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:202)；

m)gUGUUUUAGCUGCGGCAAGGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:203)；

n)gUUUCUUACAGCCAUAAUUUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:204)；

o)gCUCCACAGCUGCGGCAAGGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:205)；

p)GAUACUUACAGCCAUAAUUUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:206)；

q)gUGUUUUAGGGACGAAAGAGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:207)；

r)gUUACCUGGCUCUCUUAGCCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:208)；

s)gCUCCACAGGGACGAAAGAGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:209)；

t)gCUUGCAGGUCAUGUGUGCUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:210)；

u)gAUUGCAGGUCAUGUGUGCUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:211)；

v)gUCUCCAGGUCAUGUGUGCUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:212)；

w)gUCUGCAGGUCAUGUGUGCUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:213)；

x)gGACUCAGGUCAUGUGUGCUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:214)；

y)GCACCCAGGUCAUGUGUGCUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:215)；

z)gAAUUUAGGUCAUGUGUGCUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:216)；

aa)gCAUUAGGUCGAGAUCACAGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:217)；

bb)gCCUUAGGUCGAGAUCACAGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:218)；

cc)GUUUCAGGUCGAGAUCACAGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:219)；

dd)gACAUUAGGCUAAGAGAGCCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:220)；

ee)gUCCUUAGGCUAAGAGAGCCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:221)；

ff)gGUUUCAGGCUAAGAGAGCCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:222)；

gg)gACAUUAGAUUAUGGCUCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:223)；

hh)gUCCUUAGAUUAUGGCUCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:224)；

ii)gGUUUCAGAUUAUGGCUCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:225)；

jj)gCACCAUGAGCGAGGUCGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:524)；

kk)gGCCACCAUGAGCGAGGUCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:525)；

ll)GUGUCGAAGUUCGCCCUGGAGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:526)；

mm)gAUGCCGAGAUAAUGGCCCUCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:527)；

nn)gAUGCCGAGAUAAUGGCCCUUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:528)；

oo)gAUGCCGAGAUCAUGGCACUAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:529)；

pp)gAUGCCGAGAUCAUGGCACUCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:530)；

qq)gAUGCCGAGAUCAUGGCACUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:531)；

rr)gAUGCCGAGAUCAUGGCGCUAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:532)；

ss)gAUGCCGAGAUCAUGGCGCUCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:533)；

tt)gAUGCCGAGAUCAUGGCGUUAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:534)；

uu)gAUGCCGAGAUUAUGGCACUAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:535)；

vv)gAUGCCGAGAUUAUGGCACUCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:536)；

ww)gAUGCCGAGAUUAUGGCACUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:537)；

xx)gAUGCCGAGAUUAUGGCACUUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:538)；

yy)gAUGCCGAGAUUAUGGCGCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:539)；

zz)gAUGCCGAGAUUAUGGCUCUAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:540)；

aaa)gAUGCGGAGAUCAUGGCGCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAA AAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:541)；

bbb)gAUGCUGAGAUAAUGGCCCUCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:542)；

ccc)gAACCGCACAUGCCGAAAUUAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:543)；

ddd)gGCAGGUGUCGACAUAUCUAUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:544)；

eee)gAUGCCGAAAUUAUGGCUCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:545)；

fff)gACACAUGACACAGGGCUCGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:546)；或

ggg)gGCCCCAGCACACAUGACACAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:547)。

在上述任一方面或其实施方案中，表达载体是哺乳动物表达载体。在上述任一方面或其实施方案中，所述载体是脂质纳米颗粒。在上述任一方面或其实施方案中，所述载体是选自由以下中的一个或多个的病毒载体：腺相关病毒(AAV)、逆转录病毒载体、腺病毒载体、慢病毒载体、仙台病毒载体和疱疹病毒载体。在上述任一方面或其实施方案中，所述载体是AAV载体。在上述任一方面或其实施方案中，所述AAV载体是AAV2或AAV8。在上述任一方面或其实施方案中，所述载体含有启动子。在上述任一方面或其实施方案中，所述启动子是CMV启动子。

在上述任一方面或其实施方案中，所述细胞在体外或在体内。

在上述任一方面或其实施方案中，所述组合物或药物组合物还含有药学上可接受的赋形剂、稀释剂或载剂。

在上述任一方面或其实施方案中，所述试剂盒含有上述任一方面或其实施方案的方法的使用说明。

在上述任一方面或其实施方案中，所述方法在体内进行。

在上述任一方面或其实施方案中，所述第一多核苷酸和/或第二多核苷酸通过载体在细胞中表达。在上述任一方面或其实施方案中，所述第一多核苷酸和/或第二多核苷酸通过单独的载体在细胞中表达。在上述任一方面或其实施方案中，所述第一指导RNA和/或第二指导RNA通过载体递送至所述细胞。在上述任一方面或其实施方案中，所述第一指导RNA和/或第二指导RNA与所述第一多核苷酸和/或第二多核苷酸以同一载体递送至所述细胞。在上述任一方面或其实施方案中，所述第一指导RNA和/或第二指导RNA与所述第一多核苷酸和/或第二多核苷酸以不同的载体递送至所述细胞。在上述任一方面或其实施方案中，所述载体为病毒载体。

在上述任一方面或其实施方案中，所述碱基编辑器含有核酸可编程DNA结合蛋白(napDNAbp)结构域和脱氨酶结构域。在上述任一方面或其实施方案中，含有所述内含子的开放阅读框是在所述napDNAbp结构域或所述脱氨酶结构域中。

在上述任一方面或其实施方案中，所述自失活碱基编辑器多肽在基因组DNA中保持高编辑效率。在上述任一方面或其实施方案中，所述脱氨酶结构域是胞苷脱氨酶结构域或腺苷脱氨酶结构域。在上述任一方面或其实施方案中，所述改变是在所述内含子的5'末端处的共有剪接供体位点中或在所述内含子的3'末端处的共有剪接受体序列中。

在上述任一方面或其实施方案中，所述内含子含有与以下之一具有至少约85％、90％、95％或99％核酸序列同一性的序列：

在上述任一方面或其实施方案中，所述第二指导RNA含有选自以下的多核苷酸序列：

a)gGUUUUAGGUCAUGUGUGCUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:191)；

b)gUUUCUUACACAGGGCUCGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:192)；

c)gGUUUCAGGUCAUGUGUGCUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:193)；

aaa)gAUGCGGAGAUCAUGGCGCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:541)；

ccc)gAACCGCACAUGCCGAAAUUAGUUUUAGAGCUAGAA AUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:543)；

在上述任一方面或其实施方案中，所述多核苷酸还含有接头多核苷酸序列。在上述任一方面或其实施方案中，将所述内含子插入在接头多核苷酸序列内。

在上述任一方面或其实施方案中，所述受试者或生物体是人。在上述任一方面或其实施方案中，所述受试者或生物体是哺乳动物。在上述任一方面或其实施方案中，所述哺乳动物是人。

定义

除非另外定义，否则本文所用的所有技术和科学术语均具有由本发明所属领域的技术人员通常所理解的含义。以下参考文献为技术人员提供本发明中使用的许多术语的一般定义：Singleton等人,Diction ary of Microbiology and Molecular Biology(第2版1994)；The Cambridge Dictionary of Science and Technology(Walker编,1988)；TheGlossary of Genetics,第5版,R.Rieger等人(编),Springer Verla g(1991)；以及Hale和Marham,The Harper Collins Dictionary of Biology(1991)。除非另外详细说明，否则如本文所用的以下术语具有它们下文所述的含义。

“腺嘌呤”或“9H-嘌呤-6-胺”意指具有分子式C₅H₅N₅、具有结构并且对应于CAS号73-24-5的嘌呤核碱基。

“腺苷”或“4-氨基-1-[(2R,3R,4S,5R)-3,4-二羟基-5-(羟甲基)氧杂环戊烷-2-基]嘧啶-2(1H)-酮“意指经由糖苷键附接到核糖上、具有结构并且对应于CAS号65-46-3的腺嘌呤分子。其分子式为C₁₀H₁₃N₅O₄。

“腺苷脱氨酶”或“腺嘌呤脱氨酶”意指能够催化腺嘌呤或腺苷的水解脱氨的多肽或其功能片段。术语“腺嘌呤脱氨酶”和“腺苷脱氨酶”在整个申请中可互换使用。在一些实施方案中，脱氨酶或脱氨酶结构域是催化腺苷水解脱氨为肌苷或脱氧腺苷水解脱氢为脱氧肌苷的腺苷脱氨酶。在一些实施方案中，腺苷脱氨酶催化脱氧核糖核酸(DNA)中的腺嘌呤或腺苷的水解脱氨。本文提供的腺苷脱氨酶(例如工程化腺苷脱氨酶、进化的腺苷脱氨酶)可以来自任何生物体(例如，真核生物、原核生物)，包括但不限于藻类、细菌、真菌、植物、无脊椎动物(例如，昆虫)和脊椎动物(例如，两栖动物、哺乳动物)。在一些实施方案中，腺苷脱氨酶是具有一个或多个改变的腺苷脱氨酶变体，并且能够使靶多核苷酸(例如，DNA、RNA)中的腺嘌呤和胞嘧啶脱氨。在一些实施方案中，靶多核苷酸为单链或双链。在一些实施方案中，腺苷脱氨酶变体能够使DNA中的腺嘌呤和胞嘧啶脱氨。在一些实施方案中，腺苷脱氨酶变体能够使单链DNA中的腺嘌呤和胞嘧啶脱氨。在一些实施方案中，腺苷脱氨酶变体能够使RNA中的腺嘌呤和胞嘧啶脱氨。

“腺苷脱氨酶活性”意指催化多核苷酸中的腺嘌呤或腺苷脱氨为鸟嘌呤。在一些实施方案中，如本文提供的腺苷脱氨酶变体保持腺苷脱氨酶活性(例如，至少约30％、40％、50％、60％、70％、80％、90％或更多的参考腺苷脱氨酶(例如，TadA*8.20或TadA*8.19)活性)。

“腺苷碱基编辑器(ABE)”意指包含腺苷脱氨酶的碱基编辑器。

“腺苷碱基编辑器(ABE)多核苷酸”意指编码ABE的多核苷酸。“腺苷碱基编辑器8(ABE8)多核苷酸”或“ABE8”意指如本文所定义的包含腺苷脱氨酶或腺苷脱氨酶变体的碱基编辑器，所述腺苷脱氨酶变体包含表14中所列的一个或多个改变、表14中所列的改变组合中的一个或表14中所列的一个或多个氨基酸位置处的改变，此类改变是相对于以下参考序列：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:1)，或另一腺苷脱氨酶中的相应位置。在实施方案中，ABE8包含SEQ ID NO:1的氨基酸82和/或166处的改变。

在一些实施方案中，如本文所述，ABE8包含相对于参考序列的进一步改变。

“腺苷碱基编辑器8(ABE8)多核苷酸”意指编码ABE8多肽的多核苷酸。

“施用”在本文中是指向患者或受试者提供本文所述的一种或多种组合物。

“剂”意指任何小分子化合物、抗体、核酸分子或多肽或其片段。

“改变”意指分析物、基因或多肽的水平、结构或活性的变化(增加或减少)，如通过标准的本领域已知方法(诸如本文所述的那些方法)所检测的。如本文所用，改变包括表达水平10％的变化、25％的变化、40％的变化和表达水平50％或更大的变化。在一些实施方案中，改变包括核碱基或氨基酸的插入、缺失或取代。

“改善”意指减少、抑制、减弱、消除、阻止或稳定疾病的发展或进展。

“类似物”意指不相同但具有类似功能或结构特征的分子。例如，多肽类似物保留了对应天然存在的多肽的生物活性，同时相对于天然存在的多肽具有增强类似物功能的某些生化修饰。这种生化修饰可以增加类似物的蛋白酶抗性、膜透性或半衰期，而不改变例如配体结合。类似物可以包括非天然氨基酸。

“碱基编辑器(BE)”或“核碱基编辑器多肽(NBE)”意指结合多核苷酸并具有核碱基修饰活性的剂。在各种实施方案中，碱基编辑器包含核碱基修饰多肽(例如，脱氨酶)和与指导多核苷酸(例如，指导RNA(gRNA))结合的多核苷酸可编程核苷酸结合结构域(例如，Cas9或Cpf1)。碱基编辑器的代表性核酸和蛋白质序列提供于序列表中，为SEQ ID NO:2-11。

“碱基编辑活性”意指发生作用以化学改变多核苷酸内的碱基。在一个实施方案中，将第一个碱基转化为第二个碱基。在一个实施方案中，碱基编辑活性是胞苷脱氨酶活性，例如，将靶C·G转化为T·A。在另一个实施方案中，碱基编辑活性是腺苷或腺嘌呤脱氨酶活性，例如，将A·T转化为G·C。

术语“碱基编辑器系统”是指用于编辑靶核苷酸序列的核碱基的分子间复合物。在各种实施方案中，碱基编辑器(BE)系统包含(1)用于使靶核苷酸序列中的核碱基脱氨基的多核苷酸可编程核苷酸结合结构域、脱氨酶结构域(例如，胞苷脱氨酶或腺苷脱氨酶)；和(2)一种或多种与多核苷酸可编程核苷酸结合结构域结合的指导多核苷酸(例如，指导RNA)。在各种实施方案中，碱基编辑器(BE)系统包含选自腺苷脱氨酶或胞苷脱氨酶的核碱基编辑器结构域，和具有核酸序列特异性结合活性的结构域。在一些实施方案中，碱基编辑器系统包含(1)碱基编辑器(BE)，其包含用于使靶核苷酸序列中的一个或多个核碱基脱氨基的多核苷酸可编程DNA结合结构域和脱氨酶结构域；(2)一种或多种与多核苷酸可编程DNA结合结构域结合的指导RNA。在一些实施方案中，多核苷酸可编程核苷酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中，碱基编辑器是胞苷碱基编辑器(CBE)。在一些实施方案中，碱基编辑器是腺嘌呤或腺苷碱基编辑器(ABE)。在一些实施方案中，碱基编辑器是腺嘌呤或腺苷碱基编辑器(ABE)或胞苷或胞嘧啶碱基编辑器(CBE)。

术语“Cas9”或“Cas9结构域”是指RNA引导的核酸酶，其包含Cas9蛋白或其片段(例如，包含Cas9的活性、无活性或部分活性的DNA切割结构域和/或Cas9的gRNA结合结构域的蛋白质)。Cas9核酸酶有时也称为casnl核酸酶或CRISPR(成簇的规律间隔的短回文重复序列)相关核酸酶。

术语“保守氨基酸取代”或“保守突变”是指一种氨基酸被另一种具有共同特性的氨基酸取代。定义单个氨基酸之间共同特性的一种功能途径是分析同源生物体的对应蛋白质之间氨基酸变化的归一化频率(Schulz,G.E.和Schirmer,R.H.,Principles of ProteinStructure,Springer-Verlag,New York(1979))。根据这样的分析，可以定义氨基酸组，其中组内的氨基酸优先彼此交换，因此在它们对整体蛋白质结构的影响方面彼此最相似(Schulz,G.E.和Schirmer,R.H.，同上)。保守突变的非限制性实例包括氨基酸的氨基酸取代，例如赖氨酸取代精氨酸，反之亦然，使得可以保持正电荷；谷氨酸取代天冬氨酸，反之亦然，使得可以保持负电荷；丝氨酸取代苏氨酸，使得可以保持游离-OH；以及谷氨酰胺取代天冬酰胺，使得可以保持游离-NH₂。

如本文可互换使用的术语“编码序列”或“蛋白质编码序列”是指编码蛋白质的多核苷酸片段。编码序列也可以称为开放阅读框。所述区域或序列在更靠近5'端处以起始密码子为界，并且在更靠近3'端处以终止密码子为界。对本文所述的碱基编辑器有用的终止密码子包括以下：

谷氨酰胺CAG→TAG终止密码子

CAA→TAA

精氨酸 CGA→TGA

色氨酸 TGG→TGA

TGG→TAG

TGG→TAA

“复合物”意指两个或更多个分子的组合，其相互作用依赖于分子间作用力。分子间作用力的非限制性实例包括共价和非共价相互作用。非共价相互作用的非限制性实例包括氢键、离子键、卤键、疏水键、范德华相互作用(例如，偶极-偶极相互作用、偶极诱导偶极相互作用和伦敦色散力)和π效应。在一个实施方案中，复合物包含多肽、多核苷酸或一种或多种多肽与一种或多种多核苷酸的组合。在一个实施方案中，复合物包含缔合以形成碱基编辑器(例如，包含核酸可编程DNA结合蛋白(诸如Cas9)和脱氨酶的碱基编辑器)的一种或多种多肽和多核苷酸(例如，指导RNA)。在一个实施方案中，复合物通过氢键结合在一起。应当理解，碱基编辑器的一种或多种组分(例如，脱氨酶或核酸可编程DNA结合蛋白)可以共价或非共价缔合。例如，碱基编辑器可以包括与核酸可编程DNA结合蛋白共价连接的脱氨酶(例如，通过肽键)。或者，碱基编辑器可以包括非共价缔合的脱氨酶和核酸可编程DNA结合蛋白(例如，其中碱基编辑器的一种或多种组分以反式提供并直接缔合或经由另一分子(诸如蛋白质或核酸)缔合)。在一个实施方案中，复合物的一种或多种组分通过氢键结合在一起。在整个本公开中，无论何时考虑碱基编辑器的实施方案含有融合蛋白，也考虑包含碱基编辑器或其片段的一个或多个结构域的复合物。

“胞嘧啶”或”4-氨基嘧啶-2(1H)-酮”意指具有分子式C₄H₅N₃O、具有结构并且对应于CAS号71-30-7的嘌呤核碱基。

“胞苷”意指经由糖苷键附接至核糖、具有结构并且对应于CAS号65-46-3的胞嘧啶分子。其分子式为C₉H₁₃N₃O₅。

“胞苷碱基编辑器(CBE)”意指包含胞苷脱氨酶的碱基编辑器。

“胞苷碱基编辑器(CBE)多核苷酸”意指包含CBE的多核苷酸。

“胞苷脱氨酶”或“胞嘧啶脱氨酶”意指能够使胞苷或胞嘧啶脱氨的多肽或其片段。在一个实施方案中，胞苷脱氨酶将胞嘧啶转化为尿嘧啶或将5-甲基胞嘧啶转化为胸腺嘧啶。术语“胞苷脱氨酶”和“胞嘧啶脱氨酶”在整个申请中可互换使用。海七鳃鳗(Petromyzonmarinus)胞嘧啶脱氨酶1(PmCDA1)(SEQ ID NO:12-13)、激活诱导的胞苷脱氨酶(AICDA)(SEQ ID NO:14-16和18-21)和APOBEC(SEQ ID NO:22-62)是示例性胞苷脱氨酶。其他示例性胞苷脱氨酶(CDA)序列在序列表中提供为SEQ ID NO:63-67和SEQ ID NO:68-190。

“胞嘧啶脱氨酶活性”意指催化胞嘧啶或胞苷脱氨。在一个实施方案中，具有胞嘧啶脱氨酶活性的多肽将氨基转化为羰基。在一个实施方案中，胞嘧啶脱氨酶将胞嘧啶转化为尿嘧啶(即，C到U)或将5-甲基胞嘧啶转化为胸腺嘧啶(即，5mC到T)。在一些实施方案中，如本文所提供的胞嘧啶脱氨酶变体相对于参考胞嘧啶脱氨酶具有增加的胞嘧啶脱氨酶活性(例如，至少10倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍或更多倍)。如本文所用，术语“脱氨酶”或“脱氨酶结构域”是指催化脱氨反应的蛋白质或其片段。

“检测”是指鉴定待检测分析物的存在、不存在或量。在一个实施方案中，检测多核苷酸或多肽中的序列改变。在另一个实施方案中，检测插入缺失的存在。

“可检测标记”意指一种组合物，当其与感兴趣的分子连接时使后者可通过光谱、光化学、生物化学、免疫化学或化学手段检测。例如，有用的标记包括放射性同位素、磁珠、金属珠、胶体颗粒、荧光染料、电子致密试剂、酶(例如，酶联免疫吸附测定(ELISA)中常用的)、生物素、地高辛或半抗原。

“疾病”意指损害或干扰细胞、组织或器官的正常功能的任何疾患或病症。

“有效量”意指相对于未治疗的患者或未患疾病的个体(即，健康个体)而言改善疾病症状所需的剂或活性化合物(例如，如本文所述的碱基编辑器)的量，或者是足以引发所需生物反应的剂或活性化合物的量。用于实践本发明以治疗疾病的活性化合物的有效量根据施用方式、受试者的年龄、体重和一般健康状况而变化。最终，主治医师或兽医将决定适当的量和剂量方案。此量称为“有效”量。在一个实施方案中，有效量是足以在细胞(例如，体外或体内细胞)中引入关注基因的改变的本发明碱基编辑器的量。在一个实施方案中，有效量是实现治疗效果所需的碱基编辑器的量。这种治疗效果不需要足以改变受试者、组织或器官的所有细胞中的致病基因，而只需要改变存在于受试者、组织或器官中细胞的约1％、5％、10％、25％、50％、75％或更多。在一个实施方案中，有效量足以改善疾病的一种或多种症状。

术语“核酸外切酶”是指能够从游离端消化核酸(例如，RNA或DNA)的蛋白质或多肽。

术语“核酸内切酶”是指能够催化(例如切割)核酸(例如DNA或RNA)内部区域的蛋白质或多肽。

“片段”意指多肽或核酸分子的一部分。这部分含有参考核酸分子或多肽全长的至少约10％、20％、30％、40％、50％、60％、70％、80％或90％。片段可以含有5、10、20、30、40、50、60、70、80、90或100、200、300、400、500、600、700、800、900或1000个核苷酸或氨基酸。

“指导多核苷酸”意指多核苷酸或多核苷酸复合物，其对靶序列具有特异性并且可以与多核苷酸可编程核苷酸结合结构域蛋白(例如，Cas9或Cpf1)形成复合物。在一个实施方案中，指导多核苷酸是指导RNA(gRNA)。gRNA可以作为两个或更多个RNA的复合物存在，或作为单个RNA分子存在。

在一些实施方案中，指导多核苷酸具有选自以下的核苷酸序列，其中小写“g”表示与靶序列的5'错配：

gg)gACAUUAGAUUAUGGCUCUGGUUUUAGAGCUAGAAA UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:223)；

hh)gUCCUUAGAUUAUGGCUCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:224)；或

ii)gGUUUCAGAUUAUGGCUCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(SEQ ID NO:225)。

“异源”或“外源”意指1)已通过实验并入自然界中通常不存在的多核苷酸或多肽序列中的多核苷酸或多肽；或2)已通过实验置于通常不包含多核苷酸或多肽的细胞中的多核苷酸或多肽。在一些实施方案中，“异源”意指多核苷酸或多肽已通过实验置于非天然环境中。在一些实施方案中，异源多核苷酸或多肽来源于第一物种或宿主生物体，并且并入到来源于第二物种或宿主生物体的多核苷酸或多肽中。在一些实施方案中，第一物种或宿主生物体与第二物种或宿主生物体不同。在一些实施方案中，异源多核苷酸是DNA。在一些实施方案中，异源多核苷酸是RNA。

在一些实施方案中，异源多核苷酸是异源内含子。在一些实施方案中，异源内含子是合成内含子。在一些实施方案中，异源内含子来源于哺乳动物基因(例如，NF1、PAX2、EEF1A1、HBB、IGHG1、SLC50A1、ABCB11、BRSK2、PLXNB3、TMPRSS6、IL32、ANTXRL、PKHD1L1、PADI1、KRT6C或HMCN2)。在一些实施方案中，异源内含子来源于非哺乳动物基因(例如，HMCN2-鲑鱼、ENPEP-壁虎)。在一些实施方案中，编码如本文所提供的碱基编辑器的多核苷酸包含异源内含子。在一些实施方案中，碱基编辑器是腺苷碱基编辑器(ABE)。在一些实施方案中，碱基编辑器是胞苷碱基编辑器(CBE)。

在一些实施方案中，将异源内含子并入到编码多核苷酸可编程DNA结合蛋白或其片段的多核苷酸中。在一些实施方案中，多核苷酸可编程DNA结合蛋白是Cas9、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ结构域。在一些实施方案中，多核苷酸可编程DNA结合结构域是金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、化脓性链球菌Cas9(SpCas9)或其变体。

在一些实施方案中，将异源内含子并入到编码脱氨酶或其片段的多核苷酸中。在一些实施方案中，将异源内含子并入到编码腺苷脱氨酶的多核苷酸中。在一些实施方案中，腺苷脱氨酶是TadA。在一些实施方案中，将异源内含子并入到编码胞苷脱氨酶的多核苷酸中。

“杂交”意指互补核碱基之间的氢键合，所述氢键合可以是Watson-Crick、Hoogsteen或反向Hoogsteen氢键合。例如，腺嘌呤与胸腺嘧啶是通过形成氢键配对的互补核碱基。

“增加”意指至少10％、25％、50％、75％或100％的正改变。

术语“碱基修复抑制剂(inhibitor of base repair/base repair inhibitor)”、“IBR”或它们的语法等同物是指能够抑制核酸修复酶(例如碱基切除修复酶)活性的蛋白质。

“内含肽”是蛋白质片段，其能够自切割并在称为蛋白质剪接的过程中将剩余的片段(外显肽)与肽键连接起来。

“内含子”意指在转录物翻译之前通过剪接去除的非编码核苷酸序列。在一些实施方案中，在mRNA成熟的前体信使RNA阶段期间通过RNA剪接去除内含子。在一些实施方案中，内含子来源于生物体的基因。在一些实施方案中，内含子是合成的。在一些实施方案中，内含子包含剪接受体和剪接供体位点。在一些实施方案中，内含子长度为约10、25、50、75、100、125、150、175、200、250、300、350、400、450或500个核苷酸。在一些实施方案中，内含子长度为约50、100、125、150、175或200个核苷酸。在一些实施方案中，内含子长度为约150个核苷酸。

在一些实施方案中，内含子来源于哺乳动物基因(例如，NF1、PAX2、EEF1A1、HBB、IGHG1、SLC50A1、ABCB11、BRSK2、PLXNB3、TMPRSS6、IL32、ANTXRL、PKHD1L1、PADI1、KRT6C或HMCN2)。在一些实施方案中，内含子来源于非哺乳动物基因(例如，HMCN2-鲑鱼、ENPEP-壁虎)。在一些实施方案中，内含子具有选自以下的多核苷酸序列：

a)GTGAGATCAAATGAAAGTTTCATATAGAAATACAAAA CCTAGAGAACTGGCATGTAAGAGAAGCAAAAATTACTTCAGC AAGGCCATGTTAGTAAATTTGCATCTGTTTGTCCACATTAG(SEQ ID NO:226)；

b)GTAGGTGACAATGCTGCAGCTGCCTAATCTAGGTGGG GGGAACTAAATTGTGGGTGAGCTGCTGAATGGTCTGTAGTCT GAGGCTGGGGTGGGGGGAGACACAACGTCCCCTCCCTGCAAACCACTGCTATTCTGTCCCTCTCTCTCCTTAG(SEQ ID NO:227)；

c)GTAAGTGGCTTTCAAGACCATTGTTAAAAAGCTCTGGG AATGGCGATTTCATGCTTACATAAATTGGCATGCTTGTGTTTC AG(SEQ ID NO:228)；

d)GTAAGTATCAAGGTTACAAGACAGGTTTAAGGAGACC AATAGAAACTGGGCTTGTCTAGACAGAGAAGACTCTTGCGTT TCTGATAGGCACCTATTGGTCTTACTGACATCCACTTTGCCTT TCTCTCCACAG(SEQ IDNO:229)；

e)GTAAGCACAACTGGGATGGGGTGACAGGGGTGCAAGA TTGAAAACTGGCTCCTCTCCTCATAGCAGTTCTTGTGATTTCA G(SEQ ID NO:230)；

f)GTAAGAAATGTTATTTTTCAGTAAGTGATTTAGTTATTT TTCCTTTTTTCTCATTAAAATTTCTCTAACATCTCCCTCTTCAT GTTTTAG(SEQ ID NO:231)；

在一些实施方案中，编码如本文所提供的碱基编辑器的多核苷酸包含异源内含子。在一些实施方案中，碱基编辑器是腺苷碱基编辑器(ABE)。在一些实施方案中，碱基编辑器是胞苷碱基编辑器(CBE)。在一些实施方案中，将内含子异源并入到多核苷酸序列中。在一些实施方案中，多核苷酸序列是DNA。在一些实施方案中，多核苷酸序列是RNA。在一些实施方案中，将内含子异源并入到编码多核苷酸可编程DNA结合蛋白的多核苷酸中。在一些实施方案中，多核苷酸可编程DNA结合蛋白是Cas9、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ结构域。在一些实施方案中，多核苷酸可编程DNA结合结构域是金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、化脓性链球菌Cas9(SpCas9)或其变体。

在一些实施方案中，将内含子异源并入到编码脱氨酶的多核苷酸中。在一些实施方案中，将内含子异源并入到编码腺苷脱氨酶的多核苷酸中。在一些实施方案中，腺苷脱氨酶是TadA。在一些实施方案中，将内含子异源并入到编码胞苷脱氨酶的多核苷酸中。在一些实施方案中，将内含子异源并入到多核苷酸可编程DNA结合蛋白(例如，Cas9)中。在一些实施方案中，将内含子异源并入到接头区域。

术语“分离的”、“纯化的”或“生物纯的”是指在不同程度上与在其天然状态下发现的通常伴随其的组分分离的物质。“分离”表示与原始来源或周围环境的分离程度。“纯化”表示高于分离的分离程度。“纯化的”或“生物纯的”蛋白质充分不含其他物质，使得任何杂质不会实质性地影响蛋白质的生物学特性或导致其他不利后果。也就是说，如果当本发明的核酸和肽通过重组DNA技术产生时基本上不含细胞物质、病毒物质或培养基，或者在化学合成时基本上不含化学前体或其他化学物质，则所述核酸或肽是纯化的。纯度和均匀性通常使用分析化学技术例如聚丙烯酰胺凝胶电泳或高效液相色谱法确定。术语“纯化的”可以表示核酸或蛋白质在电泳凝胶中基本上产生一条带。对于可以进行修饰(例如磷酸化或糖基化)的蛋白质，不同的修饰可能会产生不同的分离的蛋白质，这些蛋白质可以单独纯化。

“分离的多核苷酸”意指不含在本发明的核酸分子所来源的生物体的天然存在的基因组中位于所述基因侧翼的基因的核酸分子。在实施方案中，核酸分子含有DNA或者是DNA分子。因此，此术语包括，例如，重组DNA，其被并入载体中；被并入到自主复制质粒或病毒中；或被并入到原核生物或真核生物的基因组DNA中；或以独立于其他序列的单独分子(例如，通过PCR或限制性核酸内切酶消化产生的cDNA或基因组或cDNA片段)的形式存在。此外，此术语包括从DNA分子以及编码另外的多肽序列的杂交基因的一部分的重组DNA转录的RNA分子。

“分离的多肽”意指本发明的已经从天然伴随它的组分中分离出来的多肽。通常，当多肽按重量不含至少60％与其天然缔合的蛋白质和天然存在的有机分子时，多肽是分离的。优选地，制备物按重量计占本发明的多肽的至少75％，更优选地占至少90％并且最优选地占至少99％。本发明的分离的多肽可以例如通过从天然来源中提取、通过表达编码这一多肽重组核酸或通过化学合成蛋白质来获得。可以通过任何适当的方法(例如柱色谱、聚丙烯酰胺凝胶电泳或通过HPLC分析)测量纯度。

如本文所用，术语“接头”是指连接两个部分的分子。在一个实施方案中，术语“接头”是指共价接头(例如，共价键)或非共价接头。

如本文所用，术语“突变”是指序列(例如核酸或氨基酸序列)内的残基被另一残基取代，或序列内一个或多个残基的缺失或插入。本文通常通过鉴定原始残基，然后是残基在序列内的位置以及新取代残基的身份来描述突变。用于进行本文提供的氨基酸取代(突变)的各种方法在本领域中是众所周知的，并且由例如Green和Sambrook，Molec ularCloning：A Laboratory Manual(第4版,Cold Spring Harbor Laboratory Press,ColdSpring Harbor,N.Y.(2012))提供。

如本文所用，术语“核酸”和“核酸分子”是指包含核碱基和酸性部分的化合物，例如，核苷、核苷酸或核苷酸的聚合物。通常，聚合核酸例如包含三个或更多个核苷酸的核酸分子是线性分子，其中相邻的核苷酸经由磷酸二酯键相互连接。在一些实施方案中，“核酸”是指单个核酸残基(例如核苷酸和/或核苷)。在一些实施方案中，“核酸”是指包含三个或更多个单个核苷酸残基的寡核苷酸链。如本文所用，术语“寡核苷酸”和“多核苷酸”可以互换使用以指代核苷酸的聚合物(例如，至少三个核苷酸的链)。在一些实施方案中，“核酸”涵盖RNA以及单链和/或双链DNA。核酸可以是天然存在的，例如，在基因组、转录物、mRNA、tRNA、rRNA、siRNA、snRNA、质粒、粘粒、染色体、染色单体或其他天然存在的核酸分子的情况下。另一方面，核酸分子可以是非天然存在的分子，例如重组DNA或RNA、人工染色体、工程化基因组或其片段，或合成DNA、RNA、DNA/RNA杂交体，或包括非天然存在的核苷酸或核苷。

此外，术语“核酸”、“DNA”、“RNA”和/或类似术语包括核酸类似物，例如不具有磷酸二酯主链的类似物。核酸可以纯化自天然来源、使用重组表达系统产生并任选地纯化、化学合成等。在适当的情况下，例如在化学合成分子的情况下，核酸可以包含核苷类似物，诸如具有化学修饰的碱基或糖和骨架修饰的类似物。除非另有说明，否则核酸序列以5’到3’方向呈现。在一些实施方案中，核酸是或包含天然核苷(例如腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷、和脱氧胞苷)，核苷类似物(例如，2-氨基腺苷、2-硫胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷、5-甲基胞苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基-尿苷、C5-丙炔基-胞苷、C5-甲基胞苷、2-氨基腺苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧腺苷、8-氧鸟苷、O(6)-甲基鸟嘌呤和2-硫胞苷)，化学修饰的碱基，生物修饰的碱基(例如，甲基化碱基)，插入碱基，修饰糖(例如，2′-氟核糖、核糖、2′-脱氧核糖脱氧核糖、阿拉伯糖和己糖)，和/或修饰磷酸酯基(例如，硫代磷酸酯和5′-N-氨基磷酸酯键)。

术语“核定位序列”、“核定位信号”或“NLS”是指促进蛋白质输入细胞核的氨基酸序列。核定位序列在本领域中是已知的并且描述于例如Plank等人提交于2000年11月23日，2001年5月31日出版为WO/2001/038547的国际PCT申请PCT/EP2000/011690，其内容以引用方式并入本文，因为它们公开了示例性核定位序列。在其他实施方案中，NLS是优化的NLS，例如通过Koblan等人,Nature Biotech.2018doi:10.1038/nbt.4172描述。在一些实施方案中，NLS包含氨基酸序列KRTADGSEFESPKKKRKV(SEQ ID NO:243)、KRPAATKKAG QAKKKK(SEQID NO:244)、KKTELQTTNAENKTKKL(SEQ ID NO:245)、KRGINDRNFWRGENGRKTR(SEQ ID NO:246)、RK SGKIAAIVVKRPRK(SEQ ID NO:247)、PKKKRKV(SEQ ID NO:248)或MDSLLMNRRKFLYQFKNVRWAKGRRETYLC(SEQ ID NO:249)。

本文可互换使用的术语“核碱基”、“含氮碱基”或“碱基”是指形成核苷的含氮生物化合物，核苷又是核苷酸的组分。核碱基形成碱基对和彼此堆叠的能力直接导致长链螺旋结构，诸如核糖核酸(RNA)和脱氧核糖核酸(DNA)。五种核碱基——腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)——被称为基本的或典型的。腺嘌呤和鸟嘌呤来源于嘌呤，并且胞嘧啶、尿嘧啶和胸腺嘧啶来源于嘧啶。DNA和RNA还可以含有其他修饰的(非基本)碱基。非限制性示例性修饰核碱基可以包括次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶(m5C)和5-氢甲基胞嘧啶。次黄嘌呤和黄嘌呤可以通过诱变剂的存在，两者都通过脱氨基作用(用羰基替换胺基)产生。次黄嘌呤可以由腺嘌呤经修饰而得。黄嘌呤可以由鸟嘌呤经修饰而得。尿嘧啶可以由胞嘧啶脱氨基而得。“核苷”由一个核碱基和一个五碳糖(核糖或脱氧核糖)组成。核苷的实例包括腺苷、鸟苷、尿苷、胞苷、5-甲基尿苷(m5U)、脱氧腺苷、脱氧鸟苷、胸苷、脱氧尿苷和脱氧胞苷。具有修饰的核碱基的核苷的实例包括肌苷(I)、黄苷(X)、7-甲基鸟苷(m7G)、二氢尿苷(D)、5-甲基胞苷(m5C)和假尿苷(Ψ)。“核苷酸”由一个核碱基、一个五碳糖(核糖或脱氧核糖)和至少一个磷酸基团组成。修饰的核碱基和/或修饰的核碱基可以包含的化学修饰的非限制性实例如下：假尿苷、5-甲基-胞嘧啶、2′-O-甲基-3′-膦酸脂、2′-O-甲基硫基PACE(MSP)、2′-O-甲基-PACE(MP)、2’-氟RNA(2′-F-RNA)、受限乙基(S-cEt)、2′-O-甲基(‘M’)、2'-O-甲基-3'-硫代磷酸酯(‘MS’)、2'-O-甲基-3'-硫代膦酰乙酸酯(‘MSP’)、5-甲氧基尿苷、硫代磷酸酯和N1-甲基假尿苷。

术语“核酸可编程DNA结合蛋白”或“napDNAbp”可以与“多核苷酸可编程核苷酸结合结构域”互换使用，以指代与核酸(例如，DNA或RNA)缔合的蛋白质，所述核酸诸如将napDNAbp导向特定核酸序列的指导核酸或指导多核苷酸(例如，gRNA)。在一些实施方案中，多核苷酸可编程核苷酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中，多核苷酸可编程核苷酸结合结构域是多核苷酸可编程RNA结合结构域。在一些实施方案中，多核苷酸可编程核苷酸结合结构域是Cas9蛋白。Cas9蛋白可以与将Cas9蛋白导向与指导RNA互补的特定DNA序列的指导RNA缔合。在一些实施方案中，napDNAbp是Cas9结构域，例如有核酸酶活性的Cas9、Cas9切口酶(nCas9)或无核酸酶活性的Cas9(dCas9)。核酸可编程DNA结合蛋白的非限制性实例包括Cas9(例如，dCas9和nCas9)、Cas12a/Cpf l、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i和Cas12j/CasΦ(Cas12j/Casphi)。Cas酶的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(也称为Csn1或Csx12)、Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Cas12j/CasΦ、Cpf1、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Cs m3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Cs b1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Cs x1、Csx1S、Csx11、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、II型Cas效应蛋白、V型Cas效应蛋白、VI型Cas效应蛋白、CARF、DinG、其同系物或其经修饰的或工程化的版本。其他核酸可编程DNA结合蛋白也在本公开的范围内，尽管它们可能未在本公开中具体列出。参见，例如，Makarova等人“Classification and Nomenclatureof CRISPR-Cas Systems:Where from Here？”CRISPR J.2018年10月；1:325-336.doi:10.1089/crispr.2018.0033；Yan等人,“Functionally diverse type V CRISPR-Cassystems”Science.2019年1月4日；363(6422):88-91.doi:10.1126/science.aav7271，所述文献各自的全部内容以引用方式特此并入。示例性核酸可编程DNA结合蛋白和编码核酸可编程DNA结合蛋白的核酸序列在序列表中提供为SEQ ID NO:250-283和490。

如本文所用，术语“核碱基编辑结构域”或“核碱基编辑蛋白”是指可以催化RNA或DNA中的核碱基修饰(诸如胞嘧啶(或胞苷)至尿嘧啶(或尿苷)或胸腺嘧啶(或胸苷)和腺嘌呤(或腺苷)至次黄嘌呤(或肌苷)的脱氨基作用，以及非模板化的核苷酸添加和插入)的蛋白质或酶。在一些实施方案中，核碱基编辑结构域是脱氨酶结构域(例如，腺嘌呤脱氨酶或腺苷脱氨酶；或胞苷脱氨酶或胞嘧啶脱氨酶)。

如本文所用，如“获得剂”中的“获得”包括合成、购买或以其他方式获取剂。

如本文所用，“患者”或“受试者”是指哺乳动物受试者或个体，其诊断有、有风险患有或患上，或被怀疑患有或患上疾病或病症。在一些实施方案中，术语“患者”是指具有高于患上疾病或病症的平均可能性的哺乳动物受试者。示例性患者可以是人、非人灵长类动物、猫、狗、猪、牛、猫、马、骆驼、美洲驼、山羊、绵羊、啮齿动物(例如，小鼠、兔子、大鼠或豚鼠)和其他可以受益于本文公开的治疗的哺乳动物。示例性人患者可以是男性和/或女性。

“有需要的患者”或“有需要的受试者”在本文中是指被诊断患有、有风险或患有、预先确定患有或被怀疑患有疾病或病症的患者。

术语“致病突变(pathogenic mutation)”、“致病变异(pathogenic va riant)”、“致病突变(disease causing mutation)”、“致病变异(disease ca using variant)”、“有害突变”或“易感突变”是指与疾病或病症相关或增加个体对某种疾病或病症的易感性或倾向性的基因改变或突变。在一些实施方案中，致病突变包括由基因编码的蛋白质中的至少一个致病氨基酸取代的至少一个野生型氨基酸。在一些实施方案中，致病突变是在终止区(例如，终止密码子)中。在一些实施方案中，致病突变是在非编码区(例如，内含子、启动子等)中。

术语“蛋白质”和“肽”和“多肽”和它们的语法等同物在本文中可以互换使用，并且是指通过肽(酰胺)键连接的氨基酸残基的聚合物。蛋白质、肽或多肽可以是天然存在的、重组的或合成的，或它们的任何组合。

如本文所用，术语“融合蛋白”是指包含来自至少两个不同蛋白质的蛋白质结构域的杂交多肽。

如本文在蛋白质或核酸的上下文中使用的术语“重组体”是指不存在于自然界中而是人类工程产物的蛋白质或核酸。例如，在一些实施方案中，重组蛋白质或核酸分子包含氨基酸或核苷酸序列，所述氨基酸或核苷酸序列包含至少一个、至少两个、至少三个、至少四个、至少五个、至少六个或至少七个与任何自然存在的序列相比的突变。

“减少”意指至少10％、25％、50％、75％或100％的负改变。

“参考”意指标准或对照条件。在一个实施方案中，参考是由不包含内含子的多核苷酸编码的碱基编辑器提供的编辑水平。在一个实施方案中，参考是由包含内含子的多核苷酸编码的碱基编辑器提供的编辑水平，所述内含子不包含剪接受体或剪接供体位点的改变。在一个实施方案中，参考是存在于野生型细胞或健康细胞中的分析物的水平、结构或活性。在其他实施方案中并且非限制性地，参考是存在于未经处理的细胞中的分析物的水平、结构或活性，所述细胞未经受测试条件处理，或经受安慰剂或生理盐水、培养基、缓冲液和/或不含感兴趣的多核苷酸的对照载体处理。

“参考序列”是定义的用作序列比较基础的序列。参考序列可以是指定序列的子集或全部；例如，全长cDNA或基因序列的片段，或完整的cDNA或基因序列。对于多肽，参考多肽序列的长度通常为至少约16个氨基酸、至少约20个氨基酸、至少约25个氨基酸、约35个氨基酸、约50个氨基酸或约100个氨基酸。对于核酸，参考核酸序列的长度通常为至少约50个核苷酸、至少约60个核苷酸、至少约75个核苷酸、约100个核苷酸或约300个核苷酸或它们附近或它们之间的任何整数。在一些实施方案中，参考序列是感兴趣的蛋白质的野生型序列。在其他实施方案中，参考序列是编码野生型蛋白质的多核苷酸序列。

术语“RNA可编程核酸酶”和“RNA指导的核酸酶”与一种或多种不是切割靶标的RNA一起使用(例如，结合或缔合)。在一些实施方案中，当与RNA形成复合物时，RNA可编程核酸酶可以被称为核酸酶:RNA复合物。通常，结合的RNA被称为指导RNA(gRNA)。在一些实施方案中，RNA可编程核酸酶是(CRISPR相关系统)Cas9内切核酸酶，例如，来自化脓性链球菌的Cas9(Csnl)(例如，SEQ ID NO:250)、来自脑膜炎奈瑟菌(Neisseria meningitidis)的Cas9(NmeCas9；SEQ ID NO:261)、Nme2Cas9(SEQ ID NO:262)或其衍生物(例如，与Cas9具有至少约85％序列同一性的序列，诸如Nme2Cas9或spCas9)。

术语“单核苷酸多态性(SNP)”是发生在基因组特定位置的单个核苷酸的变异，其中每种变异在群体中以一定程度存在(例如，>1％)。

“特异性结合”意指识别和结合本发明的多肽和/或核酸分子但基本上不识别和结合样品例如生物样品中的其他分子的核酸分子、多肽、多肽/多核苷酸复合物、化合物或分子。

“基本上同一”意指多肽或核酸分子表现出与参考氨基酸序列至少50％的同一性。在一个实施方案中，参考序列是野生型氨基酸或核酸序列。在另一个实施方案中，参考序列是本文所述的任何一种氨基酸或核酸序列。在一个实施方案中，这样的序列与用于比较的序列在氨基酸水平或核酸水平上至少有60％、80％、85％、90％、95％甚至99％的同一性。

序列同一性通常使用序列分析软件(例如，Sequence Analysis So ftwarePackage of the Genetics Computer Group,University of Wis consin BiotechnologyCenter,1710University Avenue,Madison,Wi s.53705,BLAST,BESTFIT,GAP或PILEUP/PRETTYBOX程序)测量。这类软件通过将同源程度分配给各种替换、缺失和/或其他修改。这类软件通过对各种替换、删除和/或其他修饰分配同源程度来匹配相同或类似的序列。保守取代通常包括以下组内的取代：甘氨酸、丙氨酸；缬氨酸、异亮氨酸、亮氨酸；天冬氨酸、谷氨酸、天冬酰胺、谷氨酰胺；丝氨酸、苏氨酸；赖氨酸、精氨酸；以及苯丙氨酸、酪氨酸。在确定同一性程度的示例性方法中，可以使用BLAST程序，其中e^-3与e^-100之间的概率评分指示密切相关的序列。例如，COBALT与以下参数一起使用：

a)比对参数：空位罚分-11、-1和末端空位罚分-5、-1，

b)CDD参数：使用RPS BLAST(on)；Blast E值0.003；查找保守列并重新计算(on)，以及

c)查询聚类参数：使用查询聚类(on)；字长(Word Size)4；最大聚类距离0.8；常规字符(Alphabet Regular)。

例如，EMBOSS Needle与以下参数一起使用：

a)矩阵：BLOSUM62；

b)空位开放(GAP OPEN)：10；

c)空位扩展(GAP EXTEND)：0.5；

d)输出格式(OUTPUT FORMAT)：配对(pair)；

e)末端空位罚分(END GAP PENALTY)：假(false)；

f)末端空位开放(END GAP OPEN)：10；以及

g)末端空位扩展(END GAP EXTEND)：0.5。

可用于本发明方法的核酸分子包括编码本发明的多肽或其片段的任何核酸分子。此类核酸分子不需要与内源核酸序列100％同一，但通常会表现出实质上的同一性。与内源序列具有“实质同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。可用于本发明方法的核酸分子包括编码本发明的多肽或其片段的任何核酸分子。此类核酸分子不需要与内源核酸序列100％同一，但通常会表现出实质上的同一性。与内源序列具有“实质同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。“杂交”意指在各种严格性条件下配对以在互补多核苷酸序列(例如本文所述的基因)或其部分之间形成双链分子。(参见例如，Wahl,G.M.和S.L.Berger(1987)Methods Enzymol.152:399；Kimmel,A.R.(1987)Methods Enzymol.152:507)。

例如，严格的盐浓度一般小于约750mM NaCl和75mM柠檬酸三钠，优选地小于约500mM NaCl和50mM柠檬酸三钠，并且更优选地小于约250mM NaCl和25mM柠檬酸三钠。低严格性杂交可以在不存在有机溶剂例如甲酰胺的情况下获得，而高严格性杂交可以在存在至少约35％甲酰胺，并且更优选地至少约50％甲酰胺的情况下获得。严格的温度条件一般包括至少约30℃、更优选地至少约37℃，并且最优选地至少约42℃的温度。不同的另外的参数，诸如杂交时间、洗涤剂(例如，十二烷基硫酸钠(SDS))的浓度，以及包含或排除载剂DNA对于本领域技术人员来说是众所周知的。通过根据需要组合这些不同的条件来实现不同级别的严格性。在一个优选的实施方案中，杂交将在30℃在750mM NaCl、75mM柠檬酸三钠和1％ SDS中发生。在一个更优选的实施方案中，杂交将在37℃在500mM NaCl、50mM柠檬酸三钠、1％ SDS、35％甲酰胺和100μg/ml变性鲑鱼精DNA(ssDNA)中发生。在一个最优选的实施方案中，杂交将在42℃在250mM NaCl、25mM柠檬酸三钠、1％ SDS、50％甲酰胺和200μg/mlssDNA中发生。这些条件的有用变化对于本领域技术人员来说将是显而易见的。

对于大多数应用，杂交后的洗涤步骤的严格性也会不同。洗涤严格性条件可以通过盐浓度和温度来定义。如上所述，可以通过降低盐浓度或通过提高温度来增加洗涤严格性。例如，洗涤步骤的严格盐浓度优选地小于约30mM NaCl和3mM柠檬酸三钠，并且最优选地小于约15mM NaCl和1.5mM柠檬酸三钠。洗涤步骤的严格温度条件一般包括至少约25℃、更优选地至少约42℃、甚至更优选地至少约68℃的温度。在一个实施方案中，洗涤步骤将在25℃下在30mM NaCl、3mM柠檬酸三钠和0.1％ SDS中发生。在另一个实施方案中，洗涤步骤将在42℃下在15mM NaCl、1.5mM柠檬酸三钠和0.1％SDS中发生。在一个更优选的实施方案中，洗涤步骤将在68℃在15mM NaCl、1.5mM柠檬酸三钠和0.1％ SDS中发生。这些条件的另外的变化对于本领域技术人员来说将是显而易见的。杂交技术是本领域技术人员所熟知的，并且描述于例如Benton和Davis(Scienc e 196:180,1977)；Grunstein和Hogness(Proc.Natl.Acad.Sci.,USA 72:3961,1975)；Ausubel等人(Current Protocols inMolecular Biology,Wiley Interscience,New York,2001)；Berger和Kimmel(Guide toMolecular Cloning Techniques,1987,Academic Press,New York)；以及Sambrook等人,Molecular Cloning:A Laboratory Manual,Col d Spring Harbor Laboratory Press,New York。

“分裂”意指分成两个或更多个片段。

“分裂的Cas9蛋白”或“分裂的Cas9”是指提供为由两个单独的核苷酸序列编码的N端片段和C端片段的Cas9蛋白。对应于Cas9蛋白的N端部分和C端部分的多肽可以剪接形成“重构的”Cas9蛋白。

术语“靶位点”是指被修饰的核酸分子内的序列。在实施方案中，核酸分子通过如本文所公开的脱氨酶、包含脱氨酶的融合蛋白或复合物或碱基编辑器脱氨。在实施方案中，脱氨酶是胞苷或腺嘌呤脱氨酶。在一些情况下，脱氨酶是dCas9-腺苷脱氨酶融合蛋白。在一些情况中，碱基编辑器是腺嘌呤或腺苷碱基编辑器(ABE)或胞苷或胞嘧啶碱基编辑器(CBE)。

如本文所使用，术语“治疗(treat/treating/treatment等)”是指减少或改善病症和/或与其相关的症状或获得所需药理和/或生理效应。应当理解，虽然不排除，但治疗病症或疾患不需要完全消除与其相关的病症、疾患或症状。在一些实施方案中，所述效应是治疗性的，即(但不限于)，所述效应部分或完全减少、减弱、消除、减轻、缓解、降低疾病的强度或治愈疾病和/或疾病引起的不良症状。在一些实施方案中，所述效应是预防性的，即所述效应保护或防止疾病或疾患的发生或复发。为此，目前公开的方法包括施用治疗有效量的如本文所述的组合物。

“尿嘧啶糖基化酶抑制剂”或“UGI”意指抑制尿嘧啶切除修复系统的剂。包含胞苷脱氨酶的碱基编辑器将胞嘧啶转化为尿嘧啶，然后通过DNA复制或修复将其转化为胸腺嘧啶。在碱基编辑器中包括尿嘧啶DNA糖基化酶(UGI)的抑制剂可以防止将U变回C的碱基切除修复。示例性UGI包含如下氨基酸序列：

>splP14739IUNGI_BPPB2尿嘧啶-DNA糖基化酶抑制剂

MTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVH TAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKML(SEQ ID NO:284)。

本文提供的范围应理解为所述范围内的所有值的简写。例如，1至50的范围应理解为包括来自由1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50组成的组的任何数字、数字组合或子范围。

在本文任何变量定义中的化学基团清单的引述包括所述变量作为任何单一基团或所列基团的组合的定义。本文对变量或方面的实施方案的引述包括作为任何单一实施方案或与任何其它实施方案或其部分组合的实施方案。

所有术语旨在以它们由本领域技术人员所理解的方式来理解。除非另外定义，否则本文使用的所有技术和科学术语均具有与本公开所属领域的普通技术人员通常所理解相同的含义。

在本申请中，除非另外明确说明，否则使用单数包括复数。必须注意，除非上下文另外清楚指明，否则如本说明书中所用，单数形式“一个/种(a/an)”和“所述(the)”包括多个指代物。在本申请中，除非另外说明，否则使用“或”意指“和/或”。此外，术语“包括(including)”以及其它形式，诸如“包括(include)”、“包括(includes)”和“包括(included)”的使用不受限制。

如本说明书和权利要求中所用，词“包含(comprising)”(以及包含(comprising)的任何形式，诸如“包含(comprise)”和“包含(comprises)”)、“具有(having)”(以及具有(having)的任何形式，诸如“具有(have)”和“具有(has)”)、“包括(including)”(以及包括(including)的任何形式，诸如“包括(includes)”和“包括(include)”)，或“含有(containing)”(以及含有(containing)的任何形式，诸如“含有(contains)”和“含有(contain)”)为包括性的或开放式的并且不排除另外的、未提及的要素或方法步骤。在一些实施方案中，指定为“包含”特定组件或元件的任何实施方案也被设想为“由特定组分或元件组成”或“基本上由特定组件或元件组成”。可以设想本说明书中讨论的任何实施方案可以以本公开的任何方法或组合物实现，并且反之亦然。此外，本公开的组合物可以用于实现本公开的方法。

术语“约”或“大约”意指由本领域普通技术人员测定的特定值处于可接受的误差范围内，所述误差范围部分取决于所述值的测量或测定方式，即测量系统的限制。

在本说明书中提及“一些实施方案”、“一个实施方案(an embodi ment/oneembodiment)”或“其他实施方案”意指结合所述实施方案描述的特定特征、结构或特性包括在本发明的至少一些实施方案但不一定是所有实施方案中。

附图说明

图1A提供了描绘碱基编辑器的自失活机制的示意图。两个gRNA引导碱基编辑在宿主基因组中的靶位点和碱基编辑器的编码区域内同时发生。如果使用的碱基编辑器是腺嘌呤碱基编辑器(ABE)，则脱氨酶结构域的催化残基(His57(H57)、Glu59(E59)、Cys87(C87)或Cys90(C90))可以通过单个A到G编辑来失活以分别在每个位点设置Arg、Gly、Arg或Arg。如果使用的碱基编辑器是胞嘧啶碱基编辑器(CBE)，则可以通过单个C到T编辑在编辑器内的任何Arg、Gln或Trp残基处设置提前终止密码子。

图1B提供了条形图，其描绘使用两个gRNA在基因组位点(AB CA4 c.5882G>A)和TadA中的自失活位点(His57、Glu59、Cys87或Cys90)处脂转染含有预先设置的TadA突变(His57Arg、Glu59Gly、Cys87Arg或Cys90Arg)的ABE7.10-m和ABE7.10-m变体之后HEK293T细胞中的碱基编辑活性。

图1C提供了示意图，其描绘TadA编码区内自失活靶位点His57和Glu59的DNA序列。3'PAM序列以灰色突出显示，并且在每个序列中的原型间隔区内的靶核苷酸及其位置是粗体。图1C中按出现顺序从上到下提供的核苷酸序列对应于SEQ ID NO:458-459。图1C中按出现顺序从上到下提供的氨基酸序列对应于SEQ ID NO:460-461。

图1D提供了描绘在HEK293T细胞中在脂转染ABE8.5-m密码子变体和靶向基因组位点(ABCA4 c.5882G>A)和TadA的自失活位点Glu59的两个gRNA之后的碱基编辑活性的图表。将变体的活性与未提供自失活gRNA的ABE8.5-m的活性进行比较。

图1E和1F提供了条形图，其显示由AAV2递送的ABE8.5-m密码子变体和两个gRNA在ARPE-19细胞中的基因组位点处和ABE的TadA催化残基处的碱基编辑动力学。图1E提供了条形图，其描绘在AAV2递送ABE8.5-m密码子变体和两个gRNA之后在基因组位点(ABCA4c.5882G>A)处的碱基编辑的5周时间进程。图1F提供了条形图，其描绘在来自5周时间进程的相同样品中的自失活位点(TadA的氨基酸残基His57或残基Glu59)处的编辑。

图1G和1H提供了条形图，其显示由AAV2递送的ABE8.5-m密码子变体和两个gRNA在ARPE-19细胞中的基因组位点和ABE的TadA催化残基处的碱基编辑动力学，其中所述自失活编辑通过两种不同的方法评估。图1G提供了条形图，其描绘在AAV2递送ABE8.5-m密码子变体和两个gRNA之后两周时在基因组位点(ABCA4 c.5882G>A)处的碱基编辑。图1H提供了条形图，其描绘通过对同一实验中来自细胞裂解物的DNA或由技术性重复样品的mRNA生成的cD NA进行靶向测序来评估的自失活率。

图2A提供了对TadA进行突变以便通过改变ABE起始密码子来使编辑器无活性的图。DNA和蛋白质序列中的突变以黑色突出显示。备用的框外起始密码子由灰色框标识。图2A中按出现顺序从上到下提供的核苷酸序列对应于SEQ ID NO:462-466。图2A中按出现顺序从上到下提供的氨基酸序列对应于SEQ ID NO:467-469。

图2B提供了条形图，其描绘在脂转染含有预先设置的起始密码子突变的ABE8.5-m变体之后在HEK293T细胞中基因组位点ABCA4c.5882G>A处的碱基编辑活性。本实验中未提供自失活gRNA。

图2C提供了显示对ABE8.5-m进行以并入PAM序列(NGG)的突变的图，所述突变将允许碱基编辑在TadA的Met1处发生。图2C中按出现顺序从上到下提供的核苷酸序列对应于SEQ ID NO:470-476。图2C中按出现顺序从上到下提供的氨基酸序列对应于SEQ ID NO:477-480。

图2D提供了条形图，其描绘与未突变的对照相比，在脂转染含有在TadA中设置的PAM序列的ABE8.5-m变体之后在HEK293T细胞中基因组位点ABCA4 c.5882G>A处的碱基编辑活性。本实验中未提供自失活gRNA。

图2E提供了条形图，其描绘在HEK293T细胞中使用两个gRNA在基因组位点(ABCA4c.5882G>A)和TadA中的自失活位点Met1处脂转染ABE8.5-m和ABE8.5-m变体之后的碱基编辑活性。

图3A提供了示意图，其显示通过将内含子并入在腺嘌呤碱基编辑器(ABE)的DNA中而使碱基编辑器自失活的机制。

图3B和3C提供了条形图，其描绘在HEK293T细胞中在脂转染TadA的特定密码子(残基)之后或之内的编码序列中含有内含子的ABE变体之后的碱基编辑活性。图3B提供了条形图，其描绘在将内含子并入在TadA的残基87(NF1、PAX2、EEF1A1、嵌合体、SLC50A1、ABCB11、BRSK2、PLXNB3、TMPRSS6、IL32)之后、残基62(嵌合体、ABCB11、PLXNB3、IL32)之后或残基23(嵌合体、ABCB11、PLXNB3、IL32)之内之后的碱基编辑活性。图3B提供了条形图，其描绘在残基87之后并入除了NF1、PAX2和EEF1A1之外的一些额外内含子(ANTXRL、PKHD1L1、PADI1、KRT6C、HMCN2、HMCN2-鲑鱼或ENPEP-壁虎)之后的碱基编辑活性。本实验中未提供自失活gRNA。

图3D提供了条形图，其描绘在HEK293T细胞中在脂转染含有具有在剪接受体位点或剪接供体位点中预先设置的编辑的内含子的ABE变体之后的碱基编辑活性。内含子位于TadA残基87(NF1受体、PAX2受体、EEF1A1受体、嵌合体受体、ANTXRL受体、PKHK1L1受体、PADI1受体、KRT6C受体、HMCN2受体、ENPEP-壁虎受体、HMCN2-鲑鱼受体、NF1供体、PAX2供体、EEF1A1供体或嵌合体供体)之后。本实验中未提供自失活gRNA。

图3E提供了条形图，其描绘在HEK293T细胞中在脂转染含有具有在剪接受体位点或剪接供体位点中预先设置的编辑的内含子的ABE变体之后的碱基编辑活性。内含子位于TadA残基129(NF1受体、PAX2受体、EEF1A1受体)、59(NF1受体、PAX2受体、EEF1A1受体)、18(NF1受体、PAX2受体、EEF1A1受体)和62(ABCB11受体)之后或位于残基23(ABCB11供体)之内。本实验中未提供自失活gRNA。

图3F提供了条形图，其描绘在脂转染的HEK293T细胞中在基因组位点(ABCA4c.5882G>A)处和位于TadA内残基87之后的内含子(NF1或PAX2)受体位点处的碱基编辑活性。

图3G提供了条形图，其描绘在脂转染的HEK293T细胞中在基因组位点(ABCA4c.5882G>A)处以及位于TadA内残基87(NF1、PAX2和EEF1A1)之后和残基62(ABCB11)之后的内含子的受体位点处的碱基编辑活性。

图3H提供了条形图，其描绘在具有或不具有在剪接受体位点处预先设置的突变的TadA内不同位置处(在残基87、129、59或18之后)含有内含子(NF1、PAX2或EEF1A1)的ABE8.5-m变体的碱基编辑活性。本实验中未提供自失活gRNA。

图3I提供了条形图，其描绘在脂转染的HEK293T细胞中在基因组位点(ABCA4c.5882G>A)处和位于TadA内残基87、129、59和18之后的内含子(NF1、PAX2和EEF1A1)受体位点处的碱基编辑活性。

图3J提供了条形图，其描绘在脂转染的HEK293T细胞中在基因组位点(ABCA4c.5882G>A)处和位于TadA内残基87之后的内含子NF1、PAX2、EEF1A1 ANTXRL、PKHD1L1、PADI1和ENPEP-壁虎的受体位点处的碱基编辑活性。

图3K、3L和3M提供了条形图和堆叠条形图，其描绘在HEK293T细胞中在质粒脂转染编码自失活gRNA、靶向基因组位点的gRNA和在TadA的编码序列中含有内含子的ABE变体的质粒DNA之后的碱基编辑活性。图3K提供了条形图，其描绘在基因组位点(ABCA4c.5882G>A)处和位于TadA内残基87之后的内含子NF1或PAX2的受体位点处的碱基编辑活性，其中通过对来自细胞分裂物的DNA进行靶向测序来评估编辑。图3L和3M提供了堆叠条形图，其描绘通过总mRNA的RNA测序评估的在ABE8.5-m mRNA内剪接变体的比例。图3K、3L和3M中的所有分析都是在同一实验中对技术性重复进行的。

图3N提供了条形图，其描绘在AAV2递送靶向剪接受体位点的自失活gRNA、靶向基因组位点的gRNA和在TadA编码序列的残基87处含有NF1内含子的ABE变体之后2周在ARPE-19细胞中的碱基编辑活性。通过对基因组DNA进行靶向测序测量基因组位点处的编辑，并且通过对恢复的AAV基因组进行靶向测序并通过对来自细胞的总mRNA进行RNA测序来测量自失活位点处的编辑。所有测量都是在同一实验中对技术性重复进行的。

图4A至4C提供了显示5周AAV2转导实验的条形图，其中在第1、3和5周(x轴)在ARPE-19细胞中测量A>G碱基转化，所述ARPE-19细胞是来源于视网膜色素上皮的细胞系。图4A提供了条形图，其显示基因组位点处的编辑(ABCA4 c.5882G>A)。图4B提供了条形图，其显示如通过DNA测序测量的在TadA催化残基或内含子剪接受体位点处的编辑。图4C提供了条形图，其显示经由RNA扩增子测序对相同基因座编辑的测量。在图4A至4C中，术语“_scrmbl”表示自失活指导序列已经被加扰。在图4A至4C中，分别使用指导g235和g239编辑NF1和PAX2剪接受体位点(参见表1C)。

图5A和5B提供了条形图，其显示在转导后指定天数(x轴)时在ARPE-19细胞中进行的2周AAV2转导实验。每个条形图表示用于转导细胞的添加的病毒基因组的数量(高、中或低)。添加用于转导细胞的病毒基因组数量为高(89k vg/细胞)、中(17k vg/细胞)或低(9kvg/细胞)。图5A提供了条形图，其显示转导后第3、7和14天对于添加的病毒量的基因组位点(ABCA4 c.5882G>A)的编辑率。图5B提供了条形图，其显示如在指定时间点通过DNA测序测量的在TadA催化残基或内含子剪接受体位点处的编辑。

图6A和6B提供了条形图，其显示ARPE-19细胞中的2周AAV2时间进程转导实验，其中在第4、7和14天测量编辑。图6A提供了条形图，其显示如经由下一代测序测量的基因组位点(ABCA4c.5882G>A)的编辑率。图6B提供了条形图，其显示如经由RNA扩增子测序测量的TadA催化残基或内含子剪接受体的编辑。

图7A和7B提供了条形图，其显示HEK293T细胞中质粒脂转染的结果，其中编辑率在脂转染后第2天和第7天测量。图7A提供了条形图，其显示如经由下一代测序测量的基因组位点(ABCA4c.5882G>A)的编辑。图7B提供了条形图，其显示如经由RNA扩增子测序测量的TadA催化残基或内含子剪接受体位点的编辑。在图7A和7B中，术语“_scrmbl”表示自失活指导序列已经被加扰。

图8A和8B提供了条形图，其显示在BALB/c小鼠中IV尾静脉注射AAV8后收集的编辑数据。图8A提供了显示如在转导1周后经由DNA和RNA扩增子测序测量的基因组位点(ABCA4c.5882G>A)处的编辑以及TadA催化残基或内含子剪接受体位点的编辑的图表。图8B提供了显示4周后的相同结果的图表。在图8A和8B中，基因组位点的编辑显示在左侧y轴，并且TadA催化残基或内含子剪接受体的编辑显示在右侧y轴。在图8A和8B中，术语“_scrmbl”表示自失活指导序列已经被加扰。

具体实施方式

本发明的特征在于包含自失活碱基编辑器的组合物以及使用此类编辑器的方法。本发明的特征还在于编码具有用于自失活的异源内含子的碱基编辑器的多核苷酸、包含此类多核苷酸的组合物以及使由此类多核苷酸编码的碱基编辑器失活的方法。

DNA碱基编辑技术通常利用与胞嘧啶脱氨酶或腺嘌呤脱氨酶的蛋白质融合物中的工程化DNA结合结构域，诸如RNA指导的Cas9切口酶(nCas9)。胞嘧啶碱基编辑器(CBE)通过尿嘧啶中间体催化胞嘧啶转化为胸腺嘧啶(C>T)，而腺嘌呤碱基编辑器(ABE)通过次黄嘌呤中间体催化腺嘌呤转化为鸟嘌呤(A>G)(Rees,H.A.和Liu,D.R.(2018).Base editing:precision chemistry on the genome and trans criptome of living cells.Nat RevGenet,19(12),770-788)。DNA碱基编辑依靠RNA指导的nCas9结构域结合在基因组中感兴趣的区域处，其替换从nCas9中以R环形式挤出的基因组DNA的非靶链，从而暴露这些未配对的碱基以进行脱氨。与gRNA结合的DNA靶链也被nCas9切口，这使细胞DNA错配修复偏向于并入设置在R环上的突变，而不是分解成未经编辑的靶链的野生型碱基对。

与所有基因组修饰工具一样，应采取预防措施以防止DNA中发生不期望的脱靶编辑，所述编辑是永久性的且可能有害(Kim,D.等人(2017).Genome-wide targetspecificities of CRISPR RNA-guided pr ogrammabledeaminases.Nat Biotechnol,35(5),475-480；Liang,P.等人(2019).Genome-wide profiling of adenine base editorspecificityby EndoV-seq.Nature Communications,10(1),67；Zuo,E.等人(2019).Cytosine base editor generates substantial off-target single-nucle otidevariants in mouse embryos.Science,364(6437),289-292)。即使脱靶活性非常低，DNA编辑器无限表达的情况(诸如由AAV递送时)(Colella,P.等人(2018).Emerging Issues inAAV-Mediated In Vivo Gene Therapy.Molecular Therapy-Methods&Clinical Development,8,87-104；Nathwani,A.C.等人(2011).Long-term Safety an d EfficacyFollowing Systemic Administration of a Self-complementa ry AAV VectorEncoding Human FIX Pseudotyped With Serotype 5and 8Capsid Proteins.MolecularTherapy,19(5),876-885；Nguyen,G.N.等人(2021).A long-term study of AAV genetherapy in dogswith hemophilia A identifies clonal expansions of transducedliver cells.Nature Biotechnology,39(1),47-55；Niemeyer,G.P.等人(2009).Long-term correction of inhibitor-prone hemophilia B dogs treat ed with liver-directed AAV2-mediated factor IX gene therapy.Blood,113(4),797-806)也可能存在潜在问题，因为在这些位点处编辑的风险随着暴露时间的增加而增加。

此外，碱基编辑器引起的脱靶RNA脱氨的持续性虽然是暂时的，但可能会改变受影响细胞的转录组谱(Grunewald,J.等人(2019).Transcriptome-wide off-target RNAediting induced by CRISPR-guided DNA base editors.Nature,569(7756),433-437；Rees,H.A.等人(2019).Analysis and minimization of cellular RNA editing by DNAadenine base editors.Sci Adv,5(5),eaax5717；Zhou,C.等人(2019).Off-target RNAmutation induced by DNA base editing and its elimination bymutagenesis.Nature,571(7764),275-278)。先前已描述了AAV递送的Cas9核酸酶的程序化自失活机制，其中表达Cas9的转基因除了靶向宿主基因组内的中靶位点外，还靶向双链DNA切割(Epstein,B.E.和Schaffer,D.V.(2016).Engineering a Self-Inactivating CRISPRSystem for AAV Vectors.Molecular Therapy,24,S50；Li,A.等人(2019).A Self-Deleting AAV-CRISPR System for In Vivo Genome Editing.Mol Ther Methods ClinDev,12,111-122)。因此，将用于Cas9表达的指令从它首先递送到的细胞中去除。

为了实现碱基编辑技术最广泛的治疗效用，本发明提供了在原本可能导致长期表达的递送方法之后减弱碱基编辑器的活性和表达的方法。与CRISPR-Cas核酸酶相比，碱基编辑器利用nCas9或无催化活性的“死”变体(dCas9)以便避免由未改变的Cas9核酸酶导致的插入缺失形成(Gaudelli,N.M.等人(2017).Programmable base editing ofA*T to G*Cin genomic DNA without DNA cleavage.Nature,551(7681),464-471；Komor,A.C.等人(2016).Programmable editing ofa target base in genomic DNA without double-stranded DNA cleav age.Nature,533(7603),420-424)。经由在DNA编码中生成双链断裂实现碱基编辑器的自失活是可能的，但需要考虑若干因素。碱基编辑器中的切口酶Cas9可以用于在编码碱基编辑器DNA的两条链上生成切口。每个切口的位点可以出现在足够近以利于碱基配对的核苷酸解离(包括且直至每条链的切口)的距离处以生成平端双链DNA断裂。此外，此类方法可能需要同时而不是依次形成这些切口以避免它们重新连接，并且包括至少两个另外的gRNA来靶向切口。并入dCas9的碱基编辑器无法使用此策略。因此，在一个实施方案中，本发明提供了依赖于在编辑器DNA内进行单碱基编辑来减少或消除进一步的编辑活性或表达的方法，其目标是使指导物依赖性和指导物非依赖性的可能性最小化(Yu,Y.等人(2020).Cytosine base editors with mini mized unguided DNA and RNA off-target events and high on-targetactivity.Nature Communications,11(1),2052)。本发明还提供的是，CBE中的四个有义密码子CAA、CAG、CGA或TGG(编码Gln、Ar g和Trp残基)中的任何一个可以通过单个C到T碱基编辑直接转化为终止密码子(Billon,P.等人(2017).CRISPR-Mediated Base Editing Enables Efficient Disruption of EukaryoticGenes through Induction of STOP Codons.Molecular Cell,67(6),1068-1079.e1064)。然而，使用ABE实现自失活需要替代方法，因为没有有义密码子可以通过A到G碱基编辑转化为无义密码子。

本文所述，本发明的特征在于在细胞递送碱基编辑器的编码遗传物质后促进碱基编辑器的自失活的组合物和方法。本发明的用于使ABE自失活的方法不依赖于有义密码子到终止密码子的直接转化，并且可以适用于使用C到T单碱基编辑来使CBE失活。这些组合物和方法利用碱基编辑以编程方式将单碱基突变设置到编码编辑器的DNA中，导致DNA编辑活性被消除或表达被改变。

在一个实施方案中，本发明至少部分地基于以下发现：指导RNA可以引导碱基编辑器使碱基编辑器的脱氨酶亚基中的活性位点残基发生突变，以产生催化失活的酶和碱基编辑活性的丧失。在另一个实施方案中，本发明还至少部分地基于以下发现：靶向碱基编辑器的起始密码子的单碱基突变可防止翻译。

在另一个实施方案中，本发明至少部分地基于以下发现：内含子可以插入在碱基编辑器编码序列(例如，开放阅读框)中。内含子提供可以被靶向用于碱基编辑以破坏或改变碱基编辑器转录物(例如，mRNA)的有效剪接，导致碱基编辑器(例如，ABE、CBE)的表达丧失的序列。在一些实施方案中，碱基编辑在内含子序列的5'或3'末端处(例如，在剪接供体或剪接受体位点中)进行。

靶多核苷酸的编辑

本发明的组合物用于例如在限定时间段内产生基因编辑。一旦达到所需编辑水平，就通过破坏存在于编码碱基编辑器的多核苷酸序列中的内含子的剪接受体或供体位点来减少或消除碱基编辑器的表达。

一般来说，进行碱基编辑以诱导受试者的细胞基因组中的治疗性变化。在本发明的一些实施方案中，将细胞(体内或体外)与两种或更多种指导RNA和核碱基编辑器多肽接触，所述核碱基编辑器多肽包含核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)、脱氨酶(例如，胞苷脱氨酶或腺苷脱氨酶)。在一些实施方案中，将待编辑的细胞与至少一种核酸分子接触，其中所述至少一种核酸分子编码两种或更多种指导RNA和核碱基编辑器多肽，所述核碱基编辑器多肽包含核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域、脱氨酶(例如，胞苷脱氨酶或腺苷脱氨酶)结构域，并且其中编码核碱基编辑器多肽的核酸分子的部分包含有包含剪接受体或剪接供体位点的内含子。在一些实施方案中，将待编辑的细胞与至少一种核酸分子接触，其中所述至少一种核酸分子编码两种或更多种指导RNA和核碱基编辑器多肽，所述核碱基编辑器多肽包含核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域、胞苷脱氨酶结构域，并且其中编码核碱基编辑器多肽的核酸分子的部分包含有包含剪接受体或剪接供体位点的内含子。在一些实施方案中，将待编辑的细胞与至少一种核酸分子接触，其中所述至少一种核酸分子编码两种或更多种指导RNA和核碱基编辑器多肽，所述核碱基编辑器多肽包含核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域、腺苷脱氨酶结构域，并且其中编码核碱基编辑器多肽的核酸分子的部分包含有包含剪接受体或剪接供体位点的内含子。在一些实施方案中，将编码两种或更多种指导RNA和核碱基编辑器多肽的至少一种核酸分子通过一种或多种载体(例如，AAV载体)递送至细胞。

在一些实施方案中，将待编辑的细胞与至少一种编码两种或更多种指导RNA的核酸分子和至少两种编码分裂核碱基编辑器多肽的核酸分子接触，其中一种核酸分子编码与分裂内含肽-N融合的核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域的N端片段和脱氨酶(例如，胞苷脱氨酶或腺苷脱氨酶)结构域，其中第二核酸分子编码与分裂内含肽-C融合的核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域的C端片段，并且第一核酸分子或第二核酸分子包含有包含剪接受体或剪接供体位点的内含子。在一些实施方案中，将待编辑的细胞与至少一种编码两种或更多种指导RNA的核酸分子和至少两种编码分裂核碱基编辑器多肽的核酸分子接触，其中一种核酸分子编码与分裂内含肽-N融合的核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域的N端片段和脱氨酶(例如，胞苷脱氨酶或腺苷脱氨酶)结构域，其中第二核酸分子编码与分裂内含肽-C融合的核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域的C端片段，并且第一核酸分子或第二核酸分子包含有包含剪接受体或剪接供体位点的内含子。

在一些实施方案中，将编码两种或更多种指导RNA的至少一种核酸分子以及编码分裂核碱基编辑器多肽的第一核酸分子和第二核酸分子通过一个或多个载体(例如，AAV载体)递送至细胞。在一些实施方案中，将编码两种或更多种指导RNA的至少一种核酸分子以及编码分裂核碱基编辑器多肽的第一核酸分子和第二核酸分子通过单独的载体(例如，AAV载体)递送至细胞。在一些实施方案中，将编码两种或更多种指导RNA的至少一种核酸分子以及编码分裂核碱基编辑器多肽的第一核酸分子和第二核酸分子以同一载体(例如，AAV载体)递送至细胞。

在一些实施方案中，编码核碱基编辑器多肽的核酸分子包含接头。在一些实施方案中，将内含子插入在编码核碱基编辑器多肽的核酸分子中的开放阅读框内。在一些实施方案中，将内含子插入在核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域、脱氨酶(例如，胞苷脱氨酶或腺苷脱氨酶)结构域或接头内。在一些实施方案中，将内含子插入到原型间隔区序列附近。在一些实施方案中，将内含子插入在原型间隔区序列的约10至30个碱基对内。在一些实施方案中，原型间隔区序列是NGG或NNGRRT。在一些实施方案中，内含子的长度在约10个碱基对至约500个碱基对之间。在一些实施方案中，内含子在约70个碱基对和150个碱基对之间。在一些实施方案中，内含子在约100个碱基对和200个碱基对之间。

在一些实施方案中，两种或更多种指导RNA包括引导核碱基编辑器多肽编辑细胞基因组中的位点的一种或多种指导RNA，以及引导核碱基编辑器多肽编辑剪接受体或剪接供体位点(例如，A到G或C到T碱基编辑)的一种或多种指导RNA，所述剪接受体或剪接供体位点存在于编码核碱基编辑器多核苷酸的核酸的内含子中。在一些实施方案中，gRNA包含核苷酸类似物。这些核苷酸类似物可以抑制细胞过程中gRNA的降解。

在各种情况下，间隔区序列包含5'和/或3'“G”核苷酸是有利的。在一些情况下，例如，本文提供的任何间隔区序列或指导多核苷酸包含或还包含5'“G”，其中，在一些实施方案中，5’“G”与靶序列互补或不互补。在一些实施方案中，将5'“G”添加到尚未含有5'“G”的间隔区序列中。例如，当指导RNA在U6启动子等的控制下表达时，指导RNA包含5'端“G”可能是有利的，因为U6启动子在转录起始位点更倾向于“G”(参见Cong,L.等人“Multiplexgenome engineering using CRISPR/Cas systems.Science 339:819-823(2013)doi:10.1126/science.1231143)。在一些情况下，将5'端“G”添加到将在启动子控制下表达的指导多核苷酸中，但如果或当指导多核苷酸未在启动子的控制下表达时，任选地不添加到指导多核苷酸中。

在一些实施方案中，本发明的碱基编辑在受试者体内进行。在一些实施方案中，将一种或多种载体(例如，AAV载体)递送至受试者体内的细胞，所述载体包含至少一种编码两种或更多种指导RNA和核碱基编辑器多肽的核酸分子，所述核碱基编辑器多肽包含核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域、脱氨酶(例如，胞苷脱氨酶或腺苷脱氨酶)结构域，并且其中编码核碱基编辑器多肽的核酸分子的部分包含内含子，所述内含子包含剪接受体或剪接供体位点。

在一些实施方案中，将一种或多种载体(例如，AAV载体)递送至受试者体内的细胞以编辑细胞基因组中的位点，所述载体包含至少一种编码一种或多种指导RNA的核酸分子，所述指导RNA引导核碱基编辑器多肽编辑细胞基因组中的位点；和至少一种编码核碱基编辑器多肽的核酸分子，所述核碱基编辑器多肽包含核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域、脱氨酶(例如，胞苷脱氨酶或腺苷脱氨酶)结构域；和包含剪接受体或剪接供体位点的内含子。在一些实施方案中，一旦在受试者中实现了期望水平的碱基编辑，将包含编码一种或多种指导RNA的至少一种核酸分子的一种或多种载体(例如，AAV载体)(其靶向编辑存在于编码核碱基编辑器多核苷酸的核酸分子的内含子中的剪接受体或剪接供体位点)递送至受试者体内的细胞以编辑(例如，A到G或C到T碱基编辑)编码核碱基编辑器多核苷酸的核酸分子的内含子中的剪接受体或剪接供体位点，从而使核碱基编辑器多核苷酸自失活以减少或消除碱基编辑活性。

在一些实施方案中，将一种或多种载体(例如，AAV载体)递送至受试者体内的细胞，所述载体包含至少一种编码两种或更多种指导RNA的核酸分子和至少两种编码分裂核碱基编辑器多肽的核酸分子，其中一种核酸分子编码与分裂内含肽-N融合的核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域的N端片段和脱氨酶(例如，胞苷脱氨酶或腺苷脱氨酶)结构域，其中第二核酸分子编码与分裂内含肽-C融合的核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域的C端片段，并且第一核酸分子或第二核酸分子包含有包含剪接受体或剪接供体位点的内含子。在一些实施方案中，将一种或多种载体(例如，AAV载体)递送至受试者体内的细胞，所述载体包含至少一种编码两种或更多种指导RNA的核酸分子和至少两种编码分裂核碱基编辑器多肽的核酸分子，其中一种核酸分子编码与分裂内含肽-N融合的核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域的N端片段和脱氨酶(例如，胞苷脱氨酶或腺苷脱氨酶)结构域，其中第二核酸分子编码与分裂内含肽-C融合的核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域的C端片段，并且第一核酸分子或第二核酸分子包含有包含剪接受体或剪接供体位点的内含子。

在一些实施方案中，将一种或多种载体(例如，AAV载体)递送至受试者体内的细胞以编辑细胞基因组中的位点，所述载体包含至少一种编码一种或多种指导RNA的核酸分子和至少两种编码分裂核碱基编辑器多肽的核酸分子，所述指导RNA引导核苷酸编辑器多肽编辑细胞基因组中的位点，其中一种核酸分子编码与分裂内含肽-N融合的核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域的N端片段和脱氨酶(例如，胞苷脱氨酶或腺苷脱氨酶)结构域，其中第二核酸分子编码与分裂内含肽-C融合的核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域的C端片段，并且第一核酸分子或第二核酸分子包含有包含剪接受体或剪接供体位点的内含子。在一些实施方案中，将一种或多种载体(例如，AAV载体)递送至受试者体内的细胞以编辑细胞基因组中的位点，所述载体包含至少一种编码一种或多种指导RNA的核酸分子和至少两种编码分裂核碱基编辑器多肽的核酸分子，所述指导RNA引导核苷酸编辑器多肽编辑细胞基因组中的位点，其中一种核酸分子编码与分裂内含肽-N融合的核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域的N端片段和脱氨酶(例如，胞苷脱氨酶或腺苷脱氨酶)结构域，其中第二核酸分子编码与分裂内含肽-C融合的核酸可编程DNA结合蛋白(napDNAbp)(例如，Cas9)结构域的C端片段，并且第一核酸分子或第二核酸分子包含有包含剪接受体或剪接供体位点的内含子。当将一种或多种载体(例如，AAV载体)递送至细胞时，细胞将表达分裂的核碱基编辑器多肽的N端和C端片段，其将结合在一起形成核碱基编辑器多肽。在一些实施方案中，一旦在受试者中实现了期望水平的碱基编辑，将包含编码一种或多种指导RNA的至少一种核酸分子的一种或多种载体(例如，AAV载体)(其靶向编辑存在于编码核碱基编辑器多核苷酸的核酸分子的内含子中的剪接受体或剪接供体位点)递送至受试者体内的细胞以编辑(例如，A到G或C到T碱基编辑)存在于编码核碱基编辑器多核苷酸的内含子的核酸分子中的剪接受体或剪接供体位点，从而使核碱基编辑器多核苷酸自失活以减少或消除碱基编辑活性。

本发明提供了治疗患有具有感兴趣的SNP的疾病的患者的方法，其例如通过施用两种含有如本文所提供的分裂内含肽碱基编辑器系统的AAV载体来进行。在一些实施方案中，AAV载体各自编码碱基编辑器的一部分：与内含肽-N融合的N端部分和与内含肽-C融合的C端部分。在碱基编辑器的两半部分中的一个或多个的编码序列中编码的是内含子序列。在一些实施方案中，靶向SNP的指导RNA也包含在AAV载体之一中。在一些实施方案中，AAV载体具有与患病细胞、组织或器官相关的趋向性(例如，AAV载体具有单一血清型)。当用碱基编辑系统的两个AAV载体感染细胞时，编码碱基编辑器两半部分的转录物就会表达，并且内含子被剪接出来。在表达两半部分的多肽后，碱基编辑器通过经由分裂内含肽标签在细胞中进行蛋白质剪接来重建。在一些实施方案中，在进行一段时间的碱基编辑以允许发生碱基编辑后，提供编码指导RNA的第三AAV，其与细胞中的碱基编辑器结合，靶向内含子中的供体或受体剪接位点。当这种AAV感染表达碱基编辑器的细胞时，所述AAV改变剪接位点以防止剪接发生。因为碱基编辑器的一部分无法正确表达，所以碱基编辑在细胞中(包括在中靶位点和脱靶位点)失活或减弱。

本发明还提供了靶向编码自失活碱基编辑器的多核苷酸的内含子的指导RNA。表1A提供了用于靶向内含子受体或供体位点的gRNA的靶内含子序列。

表1A：示例性靶内含子序列

/>

表1B提供了用于靶向内含子受体或供体位点的gRNA序列。在一些实施方案中，gRNA序列由U6启动子表达。下表1B中的小写“g”表示相对于靶序列的5'错配。

/>

在一些实施方案中，脱氨酶结构域是TadA结构域。在一些实施方案中，将内含子插入到TadA密码子内或紧接其后插入。在一些实施方案中，将内含子插入到TadA的密码子18、23、59、62、87或129内或紧接其后插入。在一些实施方案中，将内含子紧接TadA的密码子87之后插入。

下表1C提供了用于将内含子插入到TadA开放阅读框中的靶序列坐标(例如，c.100+1表示内含子序列的第一个碱基对紧接在TadA的第100个编码核苷酸之后)。因此，在一些实施方案中，内含子序列放置在紧接确定的氨基酸位置之后。在其他实施方案中，内含子序列放置在紧接确定的氨基酸位置之前。

/>

核碱基编辑器

在本文所述的方法和组合物中有用的是编辑、修饰或改变多核苷酸的靶核苷酸序列的核碱基编辑器(例如，自失活核碱基编辑器)。本文所述的核碱基编辑器通常包含多核苷酸可编程核苷酸结合结构域和核碱基编辑域(例如，腺苷脱氨酶或胞苷脱氨酶)。当与结合的指导多核苷酸(例如，gRNA)结合时，多核苷酸可编程核苷酸结合结构域可以特异性结合靶多核苷酸序列，从而将碱基编辑器定位到需要被编辑的靶核酸序列。在一些实施方案中，靶多核苷酸序列存在于内含子(例如，剪接受体或剪接供体位点)中。

在某些实施方案中，本文提供的核碱基编辑器包含改善碱基编辑活性的一种或多种特征。例如，本文提供的任何核碱基编辑器可以包含具有降低的核酸酶活性的Cas9结构域。在一些实施方案中，本文提供的任何核碱基编辑器可以具有不具有核酸酶活性的Cas9结构域(dCas9)，或切割双链DNA分子的一条链的Cas9结构域(称为Cas9切口酶(nCas9))。不受任何特定理论的束缚，催化残基(例如，H840)的存在保持Cas9的活性以切割与靶核碱基相对的未编辑(例如，未脱氨)链。催化残基(例如，D10至A10)的突变阻止了含有靶残基(例如，A或C)的编辑(例如，脱氨)链的切割。此类Cas9变体可以根据gRNA定义的靶序列在特定位置产生单链DNA断裂(切口)，从而修复未编辑链，最终导致未编辑链上的核碱基发生变化。

多核苷酸可编程核苷酸结合结构域

多核苷酸可编程核苷酸结合结构域结合多核苷酸(例如，RNA、DNA)。在一些实施方案中，内含子存在于编码碱基编辑器的核苷酸可编程核苷酸结合结构域的开放阅读框中。碱基编辑器的多核苷酸可编程核苷酸结合结构域本身可以包含一个或多个结构域(例如，一个或多个核酸酶结构域)。在一些实施方案中，多核苷酸可编程核苷酸结合结构域的核酸酶结构域可以包含核酸内切酶或核酸外切酶。核酸内切酶可以切割双链核酸的单链或双链核酸分子的两条链。在一些实施方案中，多核苷酸可编程核苷酸结合结构域的核酸酶结构域可以切割靶多核苷酸的零条、一条或两条链。

可并入到碱基编辑器中的多核苷酸可编程核苷酸结合结构域的非限制性实例包括CRISPR蛋白衍生结构域、限制性核酸酶、大范围核酸酶、TAL核酸酶(TALEN)和锌指核酸酶(ZFN)。在一些实施方案中，碱基编辑器包含多核苷酸可编程核苷酸结合结构域，所述多核苷酸可编程核苷酸结合结构域包含天然或修饰的蛋白质或其部分，其通过结合的指导核酸能够在核酸的CRISPR(即，成簇的规律间隔的短回文重复序列)介导的修饰期间结合核酸序列。这种蛋白质在本文中被称为“CRISPR蛋白质”。因此，本文公开了一种碱基编辑器，所述碱基编辑器包含有包含全部或部分CRISPR蛋白(即，包含作为结构域的全部或部分CRISPR蛋白的碱基编辑器，也称为碱基编辑器的“CRISPR蛋白衍生结构域”)的多核苷酸可编程核苷酸结合结构域。与CRISPR蛋白的野生型或天然版本相比，并入到碱基编辑器中的CRISPR蛋白衍生结构域可以被修饰。例如，如下所述，CRISPR蛋白衍生结构域可以包含相对于CRISPR蛋白的野生型或天然版本的一个或多个突变、插入、缺失、重排和/或重组。

本文可用的Cas蛋白包括1类和2类。Cas蛋白的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas9(也称为Csn1或Csx12)、Cas10、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、Cas12a/Cpf1、Cas12b/C2c1(例如SEQ ID NO:320)、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i和Cas12j/CasΦ、CARF、DinG、其同系物或其经修饰版本。CRISPR酶可以在靶序列处指导一条或两条链，诸如靶序列内和/或靶序列的互补序列内裂解。例如，CRISPR酶可以指导一条或两条链在距靶序列的第一个或最后一个核苷酸约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500个或更多个碱基对内裂解。

可使用编码相对于相应的野生型酶突变的CRISPR酶的载体，其使得突变的CRISPR酶缺乏切割含有靶序列的靶多核苷酸的一条或两条链的能力。Cas蛋白(例如，Cas9、Cas12)或Cas结构域(例如，Cas9、Cas12)可以指与野生型示例性Cas多肽或Cas结构域具有至少或至少约50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％序列同一性和/或的序列同源性的多肽或结构域。Cas(例如，Cas9、Cas12)可以指Cas蛋白的野生型或修饰形式，其可以包括氨基酸变化，诸如缺失、插入、取代、变体、突变、融合、嵌合体或其任何组合。在一些实施方案中，碱基编辑器的CRISPR蛋白衍生结构域可以包括来自以下的全部或部分Cas9：溃疡棒状杆菌(NCBI Refs:NC_015683.1,NC_017317.1)；白喉棒状杆菌(NCBI Refs:NC_016782.1,NC_016786.1)；梅毒螺旋体(Spiroplasmasyrphidicola)(NCBI Ref:NC_021284.1)；中间普氏菌(NCBI Ref:NC_017861.1)；台湾螺原体(NCBI Ref:NC_021846.1)；海豚链球菌(NC BI Ref:NC_021314.1)；波罗的海贝尔氏菌(NCBI Ref:NC_018010.1)；扭曲冷弯曲菌(Psychroflexus torquis)(NCBI Ref:NC_018721.1)；嗜热链球菌(NCBI Ref:YP_820832.1)；无害李斯特菌(NCBI Ref:NP_472073.1)；空肠弯曲杆菌(NCBI Ref:YP_002344900.1)；脑膜炎奈瑟菌(NCBI Ref:YP_002342100.1)、化脓性链球菌或金黄色葡萄球菌。

Cas9核酸酶序列和结构是本领域技术人员熟知的(参见，例如，“Complete genomesequence of an M1 strain of Streptococcus pyogenes.”Ferretti等人,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001)；“CRI SPR RNA maturation by trans-encoded small RNA and host factor RNase III.”Deltcheva E.等人,Nature 471:602-607(2011)；和“A progr ammabledual-RNA-guided DNA endonuclease in adaptivebacterial immunity.”Jinek M.等人,Science 337:816-821(2012)，其中的每一个的全部内容以引用方式并入本文)。Cas9直向同源物已在各种物种中描述，包括但不限于化脓性链球菌和嗜热链球菌。基于本公开，另外的合适的Cas9核酸酶和序列对于本领域技术人员将是显而易见的，并且此类Cas9核酸酶和序列包括来自公开于Chylinski、Rhun和Charpentier,“The tracrRNA and Cas9 families of type IICRISPR-Cas immunitysystems”(2013)RNA Biology 10:5,726-737中的生物体和基因座的Cas9序列；所述文献的全部内容以引用方式并入本文。

高保真Cas9结构域

本公开的一些方面提供了高保真Cas9结构域。高保真Cas9结构域在本领域中是已知的并且描述于例如，Kleinstiver,B.P.等人“High-fidelity CRISPR-Cas9 nucleaseswith no detectable genome-wide off-target effects.”Nature 529,490-495(2016)；和Slaymaker,I.M.等人“Rationally engineered Cas9 nucleases with improvedspecificity.”Sci ence 351,84-88(2015)；上述文献每一个的全部内容以引用方式并入本文。示例性高保真Cas9结构域在序列表中提供为SEQ ID NO:321。在一些实施方案中，高保真Cas9结构域是工程化的Cas9结构域，其包含相对于相应的野生型Cas9结构域而言减少Cas9结构域和DN A的糖-磷酸骨架之间的静电相互作用的一个或多个突变。与DNA的糖-磷酸骨架的静电相互作用减少的高保真Cas9结构域具有较少的脱靶效应。在一些实施方案中，Cas9结构域(例如，野生型Cas9结构域(SEQ ID NO:250和253))包含减少Cas9结构域和DNA的糖-磷酸骨架之间的关联的一个或多个突变。在一些实施方案中，Cas9结构域包含一个或多个突变，所述突变将Cas9结构域和DNA的糖-磷酸骨架之间的关联减少至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％或至少70％。

在一些实施方案中，任何本文提供的Cas9融合蛋白包含D10A、N497X、R661X、Q695X和Q926X突变或本文提供的任何氨基酸序列中的相应突变中的一个或多个，其中X是任何氨基酸。在一些实施方案中，高保真Cas9酶为SpCas9(K855A)、eSpCas9(1.1)、SpCas9-HF1或超精确Cas9变体(HypaCas9)。在一些实施方案中，修饰的Cas9 eSpCas9(1.1)含有丙氨酸取代，其削弱了HNH/RuvC槽和非靶DNA链之间的相互作用，防止链分离并且在脱靶位点切割。类似地，SpCas9-HF1通过破坏Cas9和DNA磷酸骨架相互作用的丙氨酸取代来减少脱靶编辑。HypaCas9在REC3结构域中含有突变(SpCas9 N692A/M694A/Q695A/H698A)，其增加Cas9校对和靶识别。与野生型Cas9相比，所有三种高保真酶产生更少的脱靶编辑。

排他性减小的Cas9结构域

通常，Cas9蛋白(诸如来自酿脓链球菌的Cas9(spCas9))需要“原型间隔区相邻基序(PAM)”或PAM样基序，其是紧接在被CRISPR细菌适应性免疫系统中的Cas9核酸酶的靶向DNA序列之后的2-6个碱基对的DNA序列。NGG PAM序列的存在是结合特定核酸区域所必需的，其中“NGG”中的“N”是腺苷(A)、胸苷(T)或胞嘧啶(C)，并且G是鸟苷。这可能会限制在基因组中编辑所需碱基的能力。在一些实施方案中，本文提供的碱基编辑融合蛋白可能需要放置在精确位置，例如包含位于PAM上游的靶碱基的区域。参见例如Komor,A.C.等人,“Programmable editing of a target base in genomic DNA without double-strandedDNA cleavage”Nature 533,420-424(2016)，其全部内容以引用方式并入本文。能够结合PAM序列的spCas9蛋白的示例性多肽序列在序列表中提供为SEQ ID NO:250、254和322-325。因此，在一些实施方案中，本文提供的任何融合蛋白可以含有能够结合不含规范(例如，NGG)PAM序列的核苷酸序列的Cas9结构域。与非规范PAM序列结合的Cas9结构域已在本领域中进行了描述，并且对于本领域技术人员来说是显而易见的。例如，结合非规范PAM序列的Cas9结构域已描述于Kleinstiver,B.P.等人,“Engineered CRIS PR-Cas9 nucleaseswith altered PAM specificities”Nature 523,481-485(2015)；和Kleintiver，B.P.等人,“Broadening the targeting range of Staphylococcus aureus CRISPR-Cas9 bymodifying PAM recog nition”Nature Biotechnology 33,1293-1298(2015)中；每一个的全部内容以引用方式并入本文。

切口酶

在一些实施方案中，多核苷酸可编程核苷酸结合结构域可以包含切口酶结构域。在本文中，术语“切口酶”是指包含核酸酶结构域的多核苷酸可编程核苷酸结合结构域，所述核酸酶结构域能够仅切割双链核酸分子(例如，DNA)中两条链中的一条链。在一些实施方案中，切口酶可以通过将一个或多个突变引入活性多核苷酸可编程核苷酸结合结构域中而来源于多核苷酸可编程核苷酸结合结构域的完全催化活性(例如，天然)形式。例如，当多核苷酸可编程核苷酸结合结构域包含来源于Cas9的切口酶结构域时，Cas9衍生的切口酶结构域在位置840处可以包含D10A突变和组氨酸。在这样的实施方案中，残基H840保留催化活性并因此可以切割核酸双链体的单链。在另一个实例中，Cas9衍生的切口酶结构域可以包含H840A突变，而位置10处的氨基酸残基仍然是D。在一些实施方案中，切口酶可以通过去除切口酶活性不需要的核酸酶结构域的全部或部分而来源于多核苷酸可编程核苷酸结合结构域的完全催化活性(例如，天然)形式。例如，在多核苷酸可编程核苷酸结合结构域包含来源于Cas9的切口酶结构域的情况下，Cas9衍生的切口酶结构域可以包含全部或部分RuvC结构域或HNH结构域的缺失。

在一些实施方案中，野生型Cas9对应于或包含以下氨基酸序列：

/> (单下划线：HNH结构域；双下划线：RuvC结构域)。

在一些实施方案中，被包含切口酶结构域(例如，Cas9衍生的切口酶结构域、Cas12衍生的切口酶结构域)的碱基编辑器切割的核酸双链体靶多核苷酸序列的链是未被碱基编辑器编辑的链(即，被碱基编辑器切割的链与包含待编辑的碱基的链相反)。在其他实施方案中，包含切口酶结构域(例如，Cas9衍生的切口酶结构域、Cas12衍生的切口酶结构域)的碱基编辑器可以切割被靶向用于编辑的DNA分子的链。在此类实施方案中，非靶向链不被切割。

在一些实施方案中，Cas9核酸酶具有无活性(例如，失活的)DNA切割结构域，即，Cas9是切口酶，被称为“nCas9”蛋白(对于“切口酶”Cas9)。Cas9切口酶可以是能够仅切割双链核酸分子(例如，双链DNA分子)的一条链的Cas9蛋白。在一些实施方案中，Cas9切口酶切割双链核酸分子的靶链，意味着Cas9切口酶切割与结合至Cas9的gRNA(例如，sgRNA)碱基配对(互补)的链。在一些实施方案中，Cas9切口酶包含D10A突变并且在位置840处具有组氨酸。在一些实施方案中，Cas9切口酶切割双链核酸分子的非靶、非碱基编辑的链，意味着Cas9切口酶切割与结合至Cas9的gRNA(例如，sgRNA)非碱基配对的链。在一些实施方案中，Cas9切口酶包含H840A突变并且在位置10处具有天冬氨酸残基，或相应的突变。在一些实施方案中，Cas9切口酶包含与本文提供的任何一种Cas9切口酶至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％相同的氨基酸序列。基于本公开和本领域知识，另外的合适的Cas9切口酶对于本领域技术人员将是显而易见的，并且在本公开的范围内。

示例性催化Cas9切口酶(nCas9)的氨基酸序列如下：

MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ ID NO:254)

Cas9核酸酶具有两个功能性核酸内切酶结构域：RuvC和HNH。Cas9在定位核酸酶结构域的靶结合时经历构象变化，以切割靶标DNA的相反链。Cas9介导的DNA切割的最终结果是靶DNA(PAM序列上游约3-4个核苷酸)内的双链断裂(DSB)。然后通过两种一般修复途径之一修复所得DSB：(1)有效但容易出错的非同源末端连接(NHEJ)途径；或(2)效率较低但高保真的同源定向修复(HDR)途径。

非同源末端连接(NHEJ)和/或同源定向修复(HDR)的“效率”可以通过任何方便的方法计算。例如，在一些实施方案中，效率可以用成功的HDR的百分比来表示。例如，surveyor核酸酶测定可以用于产生切割产物，并且产物与底物的比率可以用于计算百分比。例如，作为成功的HDR的结果，可以使用直接切割含有新整合的限制性序列的DNA的surveyor核酸酶。更多切割的底物表示更高百分比的HDR(更高的HDR效率)。作为说明性实施例，可以使用以下等式[(切割产物)/(底物加切割产物)](例如，(b+c)/(a+b+c),其中“a”是DNA底物的谱带强度，并且“b”和“c”是切割产物)计算HDR的分数(百分比)。

在一些实施方案中，效率可以用成功的NHEJ的百分比来表示。例如，T7核酸内切酶I测定可以用于生成切割产物，并且产物与底物的比率可以用于计算NHEJ百分比。T7核酸内切酶I切割由野生型和突变DNA链杂交产生的错配异源双链DNA(NHEJ在原始断裂位点生成小的随机插入或缺失(indel))。更多的切割表示更高百分比的NHEJ(更高的NHEJ效率)。作为说明性实施例，可以使用以下等式(1-(1-(b+c)/(a+b+c))^1/2)×100计算NHEJ的分数(百分比)，其中“a”是DNA底物的谱带强度，并且“b”和“c”是切割产物(Ran等人,Cell.2013年9月12日；154(6):1380-9；和Ran等人,Nat Protoc.2013年11月；8(11):2281–2308)。

NHEJ修复途径是活性最强的修复机制，并且它经常在DSB位点导致小的核苷酸插入或缺失(插入缺失(indels))。NHEJ介导的DSB修复的随机性具有重要的实际意义，因为表达Cas9和gRNA或指导多核苷酸的细胞群体可以导致多种突变。在大多数实施方案中，NHEJ在靶DNA中产生小的插入缺失，导致氨基酸缺失、插入或移码突变，从而导致靶基因的开放阅读框(ORF)内的提前终止密码子。理想的最终结果是靶基因内的功能丧失突变。

虽然NHEJ介导的DSB修复通常会破坏基因的开放阅读框，但同源定向修复(HDR)可以用于产生特定的核苷酸变化，其范围从单个核苷酸变化到大的插入如添加荧光团或标签。

为了利用HDR进行基因编辑，可以使用一种或多种gRNA和Cas9或Cas9切口酶将含有所需序列的DNA修复模板递送到感兴趣的细胞类型中。修复模板可以含有所需的编辑以及紧邻靶标上游和下游的另外的同源序列(称为左同源臂和右同源臂)。每个同源臂的长度可以取决于引入的变化的大小，较大的插入需要更长的同源臂。修复模板可以是单链寡核苷酸、双链寡核苷酸或双链DNA质粒。HDR的效率普遍较低(<10％的修饰等位基因)，即使在表达Cas9、gRNA和外源修复模板的细胞中也是如此。HDR的效率可以通过同步细胞来增强，因为HDR发生在细胞周期的S期和G2期。参与NHEJ的化学或遗传抑制基因也可以增加HDR频率。

在一些实施方案中，Cas9是修饰的Cas9。给定的gRNA靶向序列可以在存在部分同源性的整个基因组中具有另外的位点。这些位点称为脱靶位点，并且在设计gRNA时需要考虑。除了优化gRNA设计，还可以通过对Cas9的修饰来增加CRISPR的特异性。Cas9通过两种核酸酶结构域(RuvC和HNH)的组合活性生成双链断裂(DSB)。Cas9切口酶(SpCas9的D10A突变体)保留一个核酸酶结构域并生成DNA缺口而不是DSB。切口酶系统还可以与HDR介导的基因编辑相结合，以进行特定的基因编辑。

催化失活的核酸酶

本文还提供了碱基编辑器，其包含催化失活(即，不能切割靶多核苷酸序列)的多核苷酸可编程核苷酸结合结构域。在本文中，术语“催化失活”和“核酸酶失活”可以互换使用，指具有导致其不能切割核酸链的一个或多个突变和/或缺失的多核苷酸可编程核苷酸结合结构域。在一些实施方案中，催化失活的多核苷酸可编程核苷酸结合结构域碱基编辑器可能由于一个或多个核酸酶结构域中的特定点突变而缺乏核酸酶活性。例如，在碱基编辑器包含Cas9结构域的情况下，Cas9可以包含D10A突变和H840A突变。此类突变使两个核酸酶结构域失活，从而导致核酸酶活性丧失。在其他实施方案中，催化失活的多核苷酸可编程核苷酸结合结构域可以包含全部或部分催化结构域(例如，RuvC1和/或HNH结构域)的一个或多个缺失。在进一步的实施方案中，催化失活的多核苷酸可编程核苷酸结合结构域包含点突变(例如，D10A或H840A)以及核酸酶结构域的全部或部分的缺失。dCas9结构域是本领域已知的，并且例如在Qi等人,“Repurposing CRISPR as an RNA-guided platform forsequence-specific control of gene expression.”Cell.2013；152(5):1173-83中描述，其全部内容以引用方式并入本文。

基于本公开和本领域知识，另外的合适的无核酸酶活性的dCas9结构域对于本领域技术人员将是显而易见的，并且在本公开的范围内。此类另外的示例性合适的无核酸酶活性的Cas9结构域包括但不限于D10A/H840A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突变结构域(参见，例如，Prashant等人,CAS9 transcriptional ac tivators fortarget specificity screening and paired nickases for coop erative genomeengineering.Nature Biotechnology.2013；31(9):833-838，其全部内容以引用方式并入本文)。

在一些实施方案中，dCas9对应于或包含部分或全部具有一个或多个使Cas9核酸酶活性失活的突变的Cas9氨基酸序列。在一些实施方案中，无核酸酶活性的dCas9结构域包含本文说明的氨基酸序列的D10X突变和H840X突变，或本文提供的任何氨基酸序列中的相应突变，其中X是任何氨基酸变化。在一些实施方案中，无核酸酶活性的dCas9结构域包含本文说明的氨基酸序列的D10A突变和H840A突变，或本文提供的任何氨基酸序列中的相应突变，其中X是任何氨基酸变化。在一些实施方案中，无核酸酶活性的Cas9结构域包含克隆载体pPlatTET-gRNA2(登录号BAV54124)中说明的氨基酸序列。

在一些实施方案中，变体Cas9蛋白可以切割指导靶序列的互补链，但切割双链指导靶序列的非互补链的能力减小。例如，变体Cas9蛋白可以具有减小RuvC结构域的功能的突变(氨基酸取代)。作为非限制性实例，在一些实施方案中，变体Cas9蛋白具有D10A(氨基酸位置10处的天冬氨酸变为丙氨酸)，因此可以切割双链指导靶序列的互补链，但切割双链指导靶序列的非互补链的能力减小(因此当变体Cas9蛋白切割双链靶核酸时导致单链断裂(SSB)而不是双链断裂(DSB))(参见，例如Jinek等人,Science.2012年8月17日；337(6096):816-21)。

在一些实施方案中，变体Cas9蛋白可以切割双链指导靶序列的非互补链，但切割指导靶序列的互补链的能力减小。例如，变体Cas9蛋白可以具有减小HNH结构域(RuvC/HNH/RuvC结构域基序)的功能的突变(氨基酸取代)。作为非限制性实例，在一些实施方案中，变体Cas9蛋白具有H840A(氨基酸位置840处的组氨酸变为丙氨酸)突变，因此可以切割指导靶序列的非互补链，但切割指导靶序列的互补链的能力减小(因此当变体Cas9蛋白切割双链指导靶序列时导致SSB而不是DSB)。此类Cas9蛋白切割指导靶序列(例如，单链指导靶序列)的能力减小，但保留了结合指导靶序列(例如，单链指导靶序列)的能力。

作为另一个非限制性实例，在一些实施方案中，变体Cas9蛋白具有W476A和W1126A突变，使得多肽切割靶DNA的能力减小。此类Cas9蛋白切割靶DNA(例如，单链靶DNA)的能力减小，但保留了结合靶DNA(例如，单链靶DNA)的能力。

作为另一个非限制性实例，在一些实施方案中，变体Cas9蛋白具有P475A、W476A、N477A、D1125A、W1126A和D1127A突变，使得多肽切割靶DNA的能力减小。此类Cas9蛋白切割靶DNA(例如，单链靶DNA)的能力减小，但保留了结合靶DNA(例如，单链靶DNA)的能力。

作为另一个非限制性实例，在一些实施方案中，变体Cas9蛋白具有H840A、W476A和W1126A突变，使得多肽切割靶DNA的能力减小。此类Cas9蛋白切割靶DNA(例如，单链靶DNA)的能力减小，但保留了结合靶DNA(例如，单链靶DNA)的能力。作为另一个非限制性实例，在一些实施方案中，变体Cas9蛋白具有H840A、D10A、W476A和W1126A突变，使得多肽切割靶DNA的能力减小。此类Cas9蛋白切割靶DNA(例如，单链靶DNA)的能力减小，但保留了结合靶DNA(例如，单链靶DNA)的能力。在一些实施方案中，变体Cas9已恢复Cas9 HNH结构域(A840H)中位置840处的催化His残基。

作为另一个非限制性实例，在一些实施方案中，变体Cas9蛋白具有H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变，使得多肽切割靶DNA的能力减小。此类Cas9蛋白切割靶DNA(例如，单链靶DNA)的能力减小，但保留了结合靶DNA(例如，单链靶DNA)的能力。作为另一个非限制性实例，在一些实施方案中，变体Cas9蛋白具有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变，使得多肽切割靶DNA的能力减小。此类Cas9蛋白切割靶DNA(例如，单链靶DNA)的能力减小，但保留了结合靶DNA(例如，单链靶DNA)的能力。在一些实施方案中，当变体Cas9蛋白具有W476A和W1126A突变或当变体Cas9蛋白具有P475A、W476A、N477A、D1125A、W1126A和D1127A突变时，变体Cas9蛋白不能有效地结合PAM序列。因此，在一些此类实施方案中，当此类变体Cas9蛋白用于结合的方法时，所述方法不需要PAM序列。换言之，在一些实施方案中，当此类变体Cas9蛋白用于结合的方法时，所述方法可以包括指导RNA，但是此方法可以在不存在PAM序列的情况下进行(并且因此由指导RNA的靶向片段提供结合的特异性)。可以使其它残基突变以实现以上作用(即，使一个或另一个核酸酶部分失活)。作为非限制性实例，残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987可以被改变(即，取代)。同样，除了丙氨酸取代以外的突变也是合适的。

具有减小的催化活性(例如，当Cas9蛋白具有D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987突变，例如D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A和/或D986A时)的变体Cas9蛋白的一些实施方案中，变体Cas9蛋白仍可以以位点特异性方式结合靶DNA(因为它仍被指导DNA导向靶DNA序列)，只要所述变体Cas9蛋白保留了与指导RNA相互作用的能力。

在一些实施方案中，变体Cas蛋白可以是spCas9、spCas9-VRQR、spCas9-VRER、xCas9(sp)、saCas9、saCas9-KKH、spCas9-MQKSER、spCas9-LRKIQK或spCas9-LRVSQL。

在一些实施方案中，Cas9结构域是来自金黄色葡萄球菌的Cas9结构域(SaCas9)。在一些实施方案中，SaCas9结构域是核酸酶活性SaCas9、无核酸酶活性的SaCas9(SaCas9d)或SaCas9切口酶(SaCas9n)。在一些实施方案中，SaCas9包含N579A突变，或在随同提交的序列表中提供的任何氨基酸序列中的相应突变。

在一些实施方案中，SaCas9结构域、SaCas9d结构域或SaCas9n结构域可以结合具有非规范PAM的核酸序列。在一些实施方案中，SaCas9结构域、SaCas9d结构域或SaCas9n结构域可以结合具有NNGRRT或NNGRRV PAM序列的核酸序列。在一些实施方案中，SaCas9结构域包含E781X、N967X和R1014X突变或本文提供的任何氨基酸序列中的相应突变中的一个或多个，其中X是任何氨基酸。在一些实施方案中，SaCas9结构域包含E781K、N967K和R1014H突变中的一个或多个，或本文提供的任何氨基酸序列中的相应突变中的一个或多个。在一些实施方案中，SaCas9结构域包含E781K、N967K和R1014H突变或本文提供的任何氨基酸序列中的相应突变。

在一些实施方案中，融合蛋白中存在的Cas9结构域之一可以被对PAM序列没有要求的指导核苷酸序列可编程DNA结合蛋白结构域替换。在一些实施方案中，Cas9是SaCas9。SaCas9的残基A579可以从N579突变而得以产生SaCas9切口酶。残基K781、K967和H1014可以从E781、N967和R1014突变而得以产生SaKKH Cas9。

在一些实施方案中，使用包括氨基酸取代D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(SpCas9-MQKFRAER)并且对改变的PAM5'-NGC-3'具有特异性的修饰的SpCas9。

化脓性链球菌Cas9的替代方案可以包括来自在哺乳动物细胞中显示切割活性的Cpf1家族的RNA指导的核酸内切酶。来自普氏菌和弗朗西斯氏菌属1(Francisella 1)的CRISPR(CRISPR/Cpf1)是类似于CRISPR/Cas9系统的DNA编辑技术。Cpf1是II类CRISPR/Cas系统的RNA指导的核酸内切酶。这种获得性免疫机制存在于普氏菌和弗朗西斯氏菌属的细菌中。Cpf1基因与CRISPR基因座相关，编码使用指导RNA以寻找和切割病毒DNA的核酸内切酶。Cpf1是比Cas9更小、更简单的核酸内切酶，克服了一些CRISPR/Cas9系统限制。与Cas9核酸酶不同，Cpf1介导的DNA切割的结果是具有短3'悬突的双链断裂。Cpf1的交错切割模式可以开辟定向基因转移的可能性，类似于传统的限制酶克隆，这可以提高基因编辑的效率。与上述Cas9变体和直向同源物一样，Cpf1也可以将可以被CRISPR靶向的位点数量扩展至缺乏SpCas9所偏爱的NGG PAM位点的富含AT的区域或富含AT的基因组。Cpf1基因座含有混合α/β结构域、RuvC-I(后跟螺旋区域)、RuvC-II和锌指样结构域。Cpf1蛋白具有与Cas9的RuvC结构域类似的RuvC样核酸内切酶结构域。

此外，与Cas9不同，Cpf1没有HNH核酸内切酶结构域，并且Cpf1的N端没有Cas9的α-螺旋识别叶。Cpf1 CRISPR-Cas结构域架构显示Cpf1在功能上是独特的，被归类为2类V型CRISPR系统。Cpf1基因座编码Cas1、Cas2和Cas4蛋白，所述蛋白相比于II型系统更类似I型和III型系统。功能性Cpf1不需要反式激活CRISPR RNA(tracrRNA)，因此，只需要CRISPR(crRNA)。这有利于基因组编辑，因为Cpf1不仅比Cas9小，而且它具有更小的sgRNA分子(大约是Cas9的核苷酸的一半)。与Cas9靶向的富含G的PAM相比，Cpf1-crRNA复合物通过鉴定原型间隔区相邻基序5'-YTN-3'或5'-TTN-3'来切割靶DNA或RNA。在鉴定出PAM后，Cpf1引入了具有4或5个核苷酸悬突的粘性末端样DNA双链断裂。

在一些实施方案中，Cas9是对改变的PAM序列具有特异性的Cas9变体。在一些实施方案中，另外的Cas9变体和PAM序列描述于Miller,S.M.等人Continuous evolution ofSpCas9 variants compatible with non-G PAMs,Nat.Biotechnol.(2020)，其全部内容以引用方式并入本文。在一些实施方案中，Cas9变体没有特定的PAM要求。在一些实施方案中，Cas9变体例如SpCas9变体对NRNH PAM具有特异性，其中R是A或G并且H是A、C或T。在一些实施方案中，SpCas9变体对PAM序列AAA、TAA、CAA、GAA、TAT、GAT或CAC具有特异性。在一些实施方案中，SpCas9变体包含在位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1218、1219、1221、1249、1256、1264、1290、1318、1317、1320、1321、1323、1332、1333、1335、1337或1339或其相应位置处的氨基酸取代。在一些实施方案中，SpCas9变体包含在位置1114、1135、1218、1219、1221、1249、1320、1321、1323、1332、1333、1335或1337或其相应位置处的氨基酸取代。在一些实施方案中，SpCas9变体包含在位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1219、1221、1256、1264、1290、1318、1317、1320、1323、1333或其相应位置处的氨基酸取代。在一些实施方案中，SpCas9变体包含在位置1114、1131、1135、1150、1156、1180、1191、1218、1219、1221、1227、1249、1253、1286、1293、1320、1321、1332、1335、1339或其相应位置处的氨基酸取代。在一些实施方案中，SpCas9变体包含在位置1114、1127、1135、1180、1207、1219、1234、1286、1301、1332、1335、1337、1338、1349或其相应位置处的氨基酸取代。SpCas9变体的示例性氨基酸取代和PAM特异性显示在表2A至表2D中。

表2A SpCas9变体和PAM特异性

/>

具有修饰的PAM识别的其他示例性Cas9(例如，SaCas9)多肽描述于Kleinstiver等人“Broadening the targeting range of Staphylococc us aureus CRISPR-Cas9 bymodifying PAM recognition,”Nature Bi otechnology,33:1293-1298(2015)DOI:10.1038/nbt.3404，出于所有目的，其公开内容以引用方式整体并入本文。在一些实施方案中，包含改变E782K、N929R、N968K和/或R1015H中的一个或多个的Ca s9变体(例如，SaCas9变体)相对于参考多肽(例如，SaCas9)在NNNR RT或NNHRRT PAM序列处具有对增加的编辑活性的特异性或与其相关，其中N表示任何核苷酸，H表示除G以外的任何核苷酸(即，“非G”)，并且R表示嘌呤。在实施方案中，Cas9变体(例如，SaCas9变体)包含改变E782K、N968K和R1015H或改变E782K、K929R和R1015H。

在一些实施方案中，核酸可编程DNA结合蛋白(napDNAbp)是微生物CRISPR-Cas系统的单效应子。微生物CRISPR-Cas系统的单效应子包括但不限于Cas9、Cpf1、Cas12b/C2c1和Cas12c/C2c3。通常，微生物CRISPR-Cas系统分为1类和2类系统。1类系统具有多亚基效应子复合物，而2类系统具有单蛋白质效应子。例如，Cas9和Cp f1是2类效应子。除了Cas9和Cpf1，三种不同的2类CRISPR-Cas系统(Cas12b/C2c1和Cas12c/C2c3)已经描述于Shmakov等人,“Disco very and Functional Characterization of Diverse Class 2CRISPR CasSystems”,Mol.Cell,2015年11月5日；60(3):385-397，其全部内容以引用方式特此并入。两个系统的效应子Cas12b/C2c1和Cas12c/C2c3含有与Cpf1相关的RuvC样核酸内切酶结构域。第三个系统含有具有两个预测的HEPN RNA酶结构域的效应子。成熟CRISPR RNA的产生不依赖于tracrRNA，与通过Cas12b/C2c1产生CRISPR RNA不同。Cas12b/C2c1依赖于用于DNA切割的CRISPR RNA和tr acrRNA。

在一些实施方案中，napDNAbp是环状排列突变体(circular perm utant)(例如，SEQ ID NO:326)。

据报道，酸土脂环酸芽孢杆菌(Alicyclobaccillus acidoterrastris)Cas12b/C2c1(AacC2c1)的晶体结构与嵌合单分子指导RNA(sgRNA)复合。参见例如，Liu等人,“C2c1-sgRNA Complex Structure Reveal s RNA-Guided DNA Cleavage Mechanism”,Mol.Cell,2017年1月19日；65(2):310-322，其全部内容以引用方式特此并入。还报道了与靶DNA结合为三元复合物的酸土脂环酸芽孢杆菌C2c1中的晶体结构。参见例如，Yang等人,“PAM-dependent Target DNA Recogniti on and Cleavage by C2C1 CRISPR-Casendonuclease”,Cell,2016年12月15日；167(7):1814-1828，其全部内容以引用方式特此并入。AacC2c1的具有催化能力的构象(具有靶DNA链和非靶DNA链)已被独立捕获，定位在单个RuvC催化口袋内，具有Cas12b/C2c1介导的导致靶DNA的交错的7个核苷酸断裂的切割。Cas12b/C2c1三元复合物和先前鉴定的Cas9和Cpf1对应物之间的结构比较证明了CRIS PR-Cas9系统使用的机制的多样性。

在一些实施方案中，本文提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是Cas12b/C2c1或Cas12c/C2c3蛋白质。在一些实施方案中，napDNAbp是Cas12b/C2c1蛋白质。在一些实施方案中，napDNAbp是Cas12c/C2c3蛋白质。在一些实施方案中，napDNAbp包含与天然存在的Cas12b/C2c1或Cas12c/C2c3蛋白至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。在一些实施方案中，napDNAbp是天然存在的Cas12b/C2c1或者Cas12c/C2c3蛋白。在一些实施方案中，napDNAbp包含与本文提供的napDNAbp序列中的任何一个至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。应当理解，根据本公开也可以使用来自其他菌种的Cas12b/C2c1或Cas12c/C2c3。

在一些实施方案中，napDNAbp是指Cas12c。在一些实施方案中，Cas12c蛋白是Cas12c1(SEQ ID NO:327)或Cas12c1的变体。在一些实施方案中，Cas12蛋白是Cas12c2(SEQID NO:328)或Cas12c2的变体。在一些实施方案中，Cas12蛋白是来自嗜油菌属(Oleiphilussp.)HI0009的Cas12c蛋白(即，OspCas12c；SEQ ID NO:329)或OspCas12c的变体。这些Cas12c分子已描述于Yan等人,“Functionally Diverse Type V CRISPR-Cas Systems,”Science,2019年1月4日；363:88-91；其全部内容以引用方式特此并入。在一些实施方案中，napDNAbp包含与天然存在的Cas12c1、Cas12c2或OspCas12c蛋白至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。在一些实施方案中，napDNAbp是天然存在的Cas12c1、Cas12c2或OspCas12c蛋白。在一些实施方案中，napDNAbp包含与本文提供的任何Cas12c1、Cas12c2或OspCas12c蛋白至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。应当理解，根据本公开也可以使用来自其他菌种的Cas12c1、Cas12c2或OspCas12c。

在一些实施方案中，napDNAbp是指Cas12g、Cas12h或Cas12i，它们已描述于例如Yan等人,“Functionally Diverse Type V CRISPR-Cas Systems,”Science,2019年1月4日；363:88-91；每一个的全部内容均以引用方式特此并入。示例性Cas12g、Cas12h和Cas12i多肽序列在序列表中提供为SEQ ID NO:330-333。通过聚合超过10垓字节的序列数据，鉴定了V型Cas蛋白的新分类，这些分类与先前表征的V类蛋白(包括Cas12g、Cas12h和Cas12i)表现出弱类似性。在一些实施方案中，Cas12蛋白是Cas12g或Cas12g的变体。在一些实施方案中，Cas12蛋白是Cas12h或Cas12h的变体。在一些实施方案中，Cas12蛋白是Cas12i或Cas12i的变体。应当理解，其他RNA指导的DNA结合蛋白可以用作napDNAbp，并且在本公开的范围内。在一些实施方案中，napDNAbp包含与天然存在的Cas12g、Cas12h或Cas12i蛋白至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。在一些实施方案中，napDNAbp是天然存在的Cas12g、Cas12h或Cas12i蛋白。在一些实施方案中，na pDNAbp包含与本文提供的任何Cas12g、Cas12h或Cas12i蛋白至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。应当理解，根据本公开也可以使用来自其他菌种的Cas12g、Cas12h或Cas12i。在一些实施方案中，Cas12i是Cas12i1或Cas12i2。

在一些实施方案中，本文提供的任何融合蛋白的核酸可编程DN A结合蛋白(napDNAbp)可以是或Cas12j/CasΦ蛋白。Cas12j/CasΦ描述于Pausch等人,“CRISPR-CasΦfrom huge phages is a hypercomp act genome editor,”Science,2020年7月17日,第369卷,第6501期,第333-337页，其以引用方式全文并入本文。在一些实施方案中，napDNAbp包含与Cas12j/CasΦ蛋白至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。在一些实施方案中，napDNAbp是天然存在的Cas12j/CasΦ蛋白。在一些实施方案中，napDNAbp是无核酸酶活性的(“失活的”)Cas12j/CasΦ蛋白。应当理解，根据本公开也可以使用来自其他菌种的Cas12j/CasΦ。

具有内部插入的融合蛋白

本文提供了包含与核酸可编程核酸结合蛋白(例如，napDNAbp)融合的异源多肽的融合蛋白。如下文详述，本公开提供了编码以异源多肽为特征的融合蛋白的多核苷酸，其中所述多核苷酸在开放阅读框中包含编码融合蛋白的异源结构域的全部或部分的内含子。异源多肽可以是在天然或野生型napDNAbp多肽序列中未发现的多肽。异源多肽可以在napDNAbp的C端、napDNAbp的N端融合到napDNAbp，或插入到napDNAbp的内部位置。在一些实施方案中，异源多肽是脱氨酶(例如，胞苷或腺苷脱氨酶)或其功能片段。例如，融合蛋白可以包含侧翼为Cas9或Cas12(例如，Cas12b/C2c1)多肽的N端片段和C端片段的脱氨酶。在一些实施方案中，胞苷脱氨酶是APOBEC脱氨酶(例如，APOBEC1)。在一些实施方案中，腺苷脱氨酶是TadA(例如，TadA*7.10或者TadA*8)。在一些实施方案中，TadA是TadA*8或TadA*9。如本文所述的TadA序列(例如，TadA7.10或TadA*8)是用于上述融合蛋白的合适的脱氨酶。

在一些实施方案中，融合蛋白包括以下结构：

NH2-[napDNAbp的N端片段]-[脱氨酶]-[napDNAbp的C端片段]-COOH；

NH2-[Cas9的N端片段]-[腺苷脱氨酶]-[Cas9的C端片段]-COO H；

NH2-[Cas12的N端片段]-[腺苷脱氨酶]-[Cas12的C端片段]-CO OH；

NH2-[Cas9的N端片段]-[胞苷脱氨酶]-[Cas9的C端片段]-COO H；

NH2-[Cas12的N端片段]-[胞苷脱氨酶]-[Cas12的C端片段]-CO OH；

其中“]-[”的每个实例是任选的接头。

脱氨酶可以是环状排列突变体脱氨酶。例如，脱氨酶可以是环状排列突变体腺苷脱氨酶。在一些实施方案中，脱氨酶是环状排列突变体TadA，在TadA参考序列中编号的氨基酸残基116、136或65处发生环状排列突变。

融合蛋白可以包含多于一种脱氨酶。融合蛋白可以包含例如1种、2种、3种、4种、5种或更多种脱氨酶。在一些实施方案中，融合蛋白包含一种或两种脱氨酶。融合蛋白中的两种或更多种脱氨酶可以是腺苷脱氨酶、胞苷脱氨酶或其组合。两种或更多种脱氨酶可以是同二聚体或异二聚体。两种或更多种脱氨酶可以串联插入到napDNAbp中。在一些实施方案中，两种或更多种脱氨酶在napDNAbp中可以不串联。

在一些实施方案中，融合蛋白中的napDNAbp是Cas9多肽或其片段。Cas9多肽可以是变体Cas9多肽。在一些实施方案中，Cas9多肽是Cas9切口酶(nCas9)多肽或其片段。在一些实施方案中，Cas9多肽是核酸酶失活的Cas9(dCas9)多肽或其片段。融合蛋白中的Cas9多肽可以是全长Cas9多肽。在一些情况下，融合蛋白中的Cas9多肽可以不是全长Cas9多肽。Cas9多肽可以例如在相对于天然存在的Cas9蛋白的N端或C端被截短。Cas9多肽可以是环状置换的Cas9蛋白。Cas9多肽可以是仍然能够结合靶多核苷酸和指导核酸序列的Cas9多肽的片段、部分或结构域。

在一些实施方案中，Cas9多肽是酿脓链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)或本文所述的任何Cas9多肽的片段或变体。

在一些实施方案中，融合蛋白包含插入Cas9内的腺苷脱氨酶结构域和胞苷脱氨酶结构域。在一些实施方案中，腺苷脱氨酶融合在Cas9内，并且胞苷脱氨酶融合至C端。在一些实施方案中，腺苷脱氨酶融合在Cas9内，并且胞苷脱氨酶融合至N端。在一些实施方案中，胞苷脱氨酶融合在Cas9内，并且腺苷脱氨酶融合至C端。在一些实施方案中，胞苷脱氨酶融合在Cas9内，并且腺苷脱氨酶融合至N端。

具有腺苷脱氨酶和胞苷脱氨酶和Cas9的融合蛋白的示例性结构提供如下：

NH2-[Cas9(腺苷脱氨酶)]-[胞苷脱氨酶]-COOH；

NH2-[胞苷脱氨酶]-[Cas9(腺苷脱氨酶)]-COOH；

NH2-[Cas9(胞苷脱氨酶)]-[腺苷脱氨酶]-COOH；或

NH2-[腺苷脱氨酶]-[Cas9(胞苷脱氨酶)]-COOH。

在一些实施方案中，上方通用架构中使用的“-”表示存在任选的接头。

在各种实施方案中，催化结构域具有DNA修饰活性(例如脱氨酶活性)，诸如腺苷脱氨酶活性。在一些实施方案中，腺苷脱氨酶是TadA(例如，TadA*7.10)。在一些实施方案中，TadA是TadA*8。在一些实施方案中，TadA*8融合在Cas9内，并且胞苷脱氨酶融合至C端。在一些实施方案中，TadA*8融合在Cas9内，并且胞苷脱氨酶融合至N端。在一些实施方案中，胞苷脱氨酶融合在Cas9内，并且TadA*8融合至C端。在一些实施方案中，胞苷脱氨酶融合在Cas9内，并且TadA*8融合至N端。具有TadA*8和胞苷脱氨酶和Cas9的融合蛋白的示例性结构提供如下：

NH2-[Cas9(TadA*8)]-[胞苷脱氨酶]-COOH；

NH2-[胞苷脱氨酶]-[Cas9(TadA*8)]-COOH；

NH2-[Cas9(胞苷脱氨酶)]-[TadA*8]-COOH；或

NH2-[TadA*8]-[Cas9(胞苷脱氨酶)]-COOH。

异源多肽(例如，脱氨酶)可以插入到napDNAbp(例如，Cas9或Cas12(例如，Cas12b/C2c1))的合适的位置，例如，使得napDNAbp保留其结合靶多核苷酸和指导核酸的能力。脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以插入到napDNAbp中而不损害脱氨酶的功能(例如，碱基编辑活性)或napDNAbp的功能(例如，结合靶核酸和指导核酸的能力)。脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以插入到napDNAbp中的例如晶体学研究所示的无序区域或包含高温因子或B因子的区域处。不太有序、无序或非结构化的蛋白质区域，例如溶剂暴露区域和环，可以用于插入而不损害结构或功能。脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)可以插入napDNAbp中的柔性环区域或溶剂暴露区域。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9的柔性环或Cas12b/C2c1多肽中。

在一些实施方案中，通过Cas9多肽的晶体结构的B因子分析来确定脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)的插入位置。在一些实施方案中，将脱氨酶(例如腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在包含高于平均水平的B因子(例如，与包含无序区域的总蛋白或蛋白质结构域相比更高的B因子)的Cas9多肽区域中。B因子或温度因子可以指示原子相对于其平均位置的波动(例如，由于晶格中的温度依赖性原子振动或静态无序)。主链原子的高B因子(例如，高于平均B因子)可以指示具有相对高局部迁移率的区域。此区域可以用于插入脱氨酶而不损害结构或功能。脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以插入到具有具有Cα原子的残基的位置，所述Cα原子的B因子比总蛋白质的平均B因子多50％、60％、70％、80％、90％、100％、110％、120％、130％、140％、150％、160％、170％、180％、190％、200％或高于200％。脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以插入到具有具有Cα原子的残基的位置，所述Cα原子的B因子比包含残基的Cas9蛋白结构域的平均B因子多50％、60％、70％、80％、90％、100％、110％、120％、130％、140％、150％、160％、170％、180％、190％、200％或高于200％。包含高于平均水平的B因子的Cas9多肽的位置可以包括例如在以上Cas9参考序列中编号的残基768、792、1052、1015、1022、1026、1029、1067、1040、1054、1068、1246、1247和1248。包含高于平均B因子的Cas9多肽区域可以包含例如在以上Cas9参考序列中编号的残基792-872、792-906和2-791。

异源多肽(例如，脱氨酶)可以插入到napDNAbp中的氨基酸残基处，所述氨基酸残基选自由以下组成的组：在以上Cas9参考序列中编号的768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247和1248，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，异源多肽插入到在以上Cas9参考序列中编号的氨基酸位置768-769、791-792、792-793、1015-1016、1022-1023、1026-1027、1029-1030、1040-1041、1052-1053、1054-1055、1067-1068、1068-1069、1247-1248或1248-1249或其相应氨基酸位置之间。在一些实施方案中，异源多肽插入到在以上Cas9参考序列中编号的氨基酸位置769-770、792-793、793-794、1016-1017、1023-1024、1027-1028、1030-1031、1041-1042、1053-1054、1055-1056、1068-1069、1069-1070、1248-1249或1249-1250或其相应氨基酸位置之间。在一些实施方案中，异源多肽替换选自由以下组成的组的氨基酸残基：在以上Cas9参考序列中编号的768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247和1248，或另一Cas9多肽中的相应氨基酸残基。应当理解，对以上Cas9参考序列关于插入位置的引用出于说明性目的。如本文所讨论的插入不限于以上Cas9参考序列的Cas9多肽序列，而是包括在变体Cas9多肽(例如Cas9切口酶(nCas9)、核酸酶失活的Cas9(dCas9)、缺少核酸酶结构域的Cas9变体、截短的Cas9或缺少部分或完整HNH结构域的Cas9结构域)中的相应位置的插入。

异源多肽(例如，脱氨酶)可以插入到napDNAbp中的氨基酸残基处，所述氨基酸残基选自由以下组成的组：在以上Cas9参考序列中编号的768、792、1022、1026、1040、1068和1247，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，异源多肽插入到以上Cas9参考序列中编号的氨基酸位置768-769、792-793、1022-1023、1026-1027、1029-1030、1040-1041、1068-1069或1247-1248或其相应氨基酸位置之间。在一些实施方案中，异源多肽插入到以上Cas9参考序列中编号的氨基酸位置769-770、793-794、1023-1024、1027-1028、1030-1031、1041-1042、1069-1070或1248-1249或其相应氨基酸位置之间。在一些实施方案中，异源多肽替换选自由以下组成的组的氨基酸残基：在以上Cas9参考序列中编号的768、792、1022、1026、1040、1068和1247，或另一Cas9多肽中的相应氨基酸残基。

异源多肽(例如，脱氨酶)可以插入到如本文所述的napDNAbp中的氨基酸残基处，或另一Cas9多肽中的相应氨基酸残基处。在一个实施方案中，异源多肽(例如，脱氨酶)可以插入到napDNAbp中的氨基酸残基处，所述氨基酸残基选自由以下组成的组：在以上Cas9参考序列中编号的1002、1003、1025、1052-1056、1242-1247、1061-1077、943-947、686-691、569-578、530-539和1060-1077，或另一Cas9多肽中的相应氨基酸残基。脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以插入残基的N端或C端或替换残基。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入残基的C端。

在一些实施方案中，将腺苷脱氨酶(例如，TadA)插入到氨基酸残基处，所述氨基酸残基选自由以下组成的组：在以上Cas9参考序列中编号的1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，插入腺苷脱氨酶(例如，TadA)替换在以上Cas9参考序列中编号的残基792-872、792-906或2-791，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，将腺苷脱氨酶插入到氨基酸的N端，所述氨基酸选自由以下组成的组：在以上Cas9参考序列中编号的1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，将腺苷脱氨酶插入到氨基酸的C端，所述氨基酸残基选自由以下组成的组：在以上Cas9参考序列中编号的1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，插入腺苷脱氨酶以替换选自由以下组成的组的氨基酸：在以上Cas9参考序列中编号的1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将胞苷脱氨酶(例如，APOBEC1)插入到氨基酸残基处，所述氨基酸残基选自由以下组成的组：在以上Cas9参考序列中编号的1016、1023、1029、1040、1069和1247，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，将胞苷脱氨酶插入到氨基酸的N端，所述氨基酸选自由以下组成的组：在以上Cas9参考序列中编号的1016、1023、1029、1040、1069和1247，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，将胞苷脱氨酶插入到氨基酸的C端，所述氨基酸残基选自由以下组成的组：在以上Cas9参考序列中编号的1016、1023、1029、1040、1069和1247，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，插入胞苷脱氨酶以替换选自由以下组成的组的氨基酸：在以上Cas9参考序列中编号的1016、1023、1029、1040、1069和1247，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基768处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基768的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基768的C端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在以上Cas9参考序列中编号的氨基酸残基768，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基791或氨基酸残基792处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基791的N端或氨基酸792的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸791的C端或氨基酸792的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在以上Cas9参考序列中编号的氨基酸791或氨基酸792，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1016处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1016，或另一Cas9多肽中的相应氨基酸残基的N端处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1016，或另一Cas9多肽中的相应氨基酸残基的C端处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在以上Cas9参考序列中编号的氨基酸残基1016，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1022或氨基酸残基1023处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1022的N端或氨基酸残基1023的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1022的C端或氨基酸残基1023的C端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在以上Cas9参考序列中编号的氨基酸残基1022或氨基酸残基1023，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1026或氨基酸残基1029处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1026的N端或氨基酸残基1029的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1026的C端或氨基酸残基1029的C端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在以上Cas9参考序列中编号的氨基酸残基1026或氨基酸残基1029，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1040处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1040，或另一Cas9多肽中的相应氨基酸残基的N端处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1040，或另一Cas9多肽中的相应氨基酸残基的C端处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在以上Cas9参考序列中编号的氨基酸残基1040，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1052或氨基酸残基1054处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1052的N端或氨基酸残基1054的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1052的C端或氨基酸残基1054的C端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在以上Cas9参考序列中编号的氨基酸残基1052或氨基酸残基1054，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1067或氨基酸残基1068或氨基酸残基1069处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1067的N端或氨基酸残基1068的N端或氨基酸残基1069的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1067的C端或氨基酸残基1068的C端或氨基酸残基1069的C端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在以上Cas9参考序列中编号的氨基酸残基1067或氨基酸残基1068或氨基酸残基1069，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1246或氨基酸残基1247或氨基酸残基1248处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1246的N端或氨基酸残基1247的N端或氨基酸残基1248的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在以上Cas9参考序列中编号的氨基酸残基1246的C端或氨基酸残基1247的C端或氨基酸残基1248的C端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在以上Cas9参考序列中编号的氨基酸残基1246或氨基酸残基1247或氨基酸残基1248，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将异源多肽(例如，脱氨酶)插入到Cas9多肽的柔性环中。柔性环部分可以选自由以下组成的组：在以上Cas9参考序列中编号的530-537、569-570、686-691、943-947、1002-1025、1052-1077、1232-1247或1298-1300，或另一Cas9多肽中的相应氨基酸残基。柔性环部分可以选自由以下组成的组：在以上Cas9参考序列中编号的1-529、538-568、580-685、692-942、948-1001、1026-1051、1078-1231或1248-1297，或另一Cas9多肽中的相应氨基酸残基。

可以将异源多肽(例如，腺嘌呤脱氨酶)插入对应于以下氨基酸残基的Cas9多肽区域：在以上Cas9参考序列中编号的1017-1069、1242-1247、1052-1056、1060-1077、1002-1003、943-947、530-537、568-579、686-691、1242-1247、1298–1300、1066-1077、1052-1056或1060-1077，或对应于另一Cas9多肽中的相应氨基酸残基的Cas9多肽区域。

可以插入异源多肽(例如，腺嘌呤脱氨酶)以替换Cas9多肽的缺失区域。缺失的区域可以对应于Cas9多肽的N端或C端部分。在一些实施方案中，缺失的区域对应于在以上Cas9参考序列中编号的残基792-872，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，缺失的区域对应于在以上Cas9参考序列中编号的残基792-906，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，缺失的区域对应于在以上Cas9参考序列中编号的残基2-791，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，缺失的区域对应于在以上Cas9参考序列中编号的残基1017-1069，或其响应氨基酸残基。

示例性内部融合碱基编辑器提供于下方表3中：

表3：Cas9蛋白中的插入基因座

可以将异源多肽(例如，脱氨酶)插入到Cas9多肽的结构性或功能性结构域内。可以将异源多肽(例如，脱氨酶)插入到Cas9多肽的两个结构性或功能性结构域之间。可以插入异源多肽(例如，脱氨酶)以替换Cas9多肽的结构性或功能性结构域，例如在从Cas9多肽删除结构域之后。Cas9多肽的结构性或功能性结构域可以包括例如RuvC I、RuvC II、RuvCIII、Rec1、Rec2、PI或HNH。

在一些实施方案中，Cas9多肽不含一个或多个选自由以下组成的组的结构域：RuvC I、RuvC II、RuvC III、Rec1、Rec2、PI或HNH结构域。在一些实施方案中，Cas9多肽不含核酸酶结构域。在一些实施方案中，Cas9多肽不含HNH结构域。在一些实施方案中，Cas9多肽不含部分HNH结构域，使得Cas9多肽具有减小的或消除的HNH活性。在一些实施方案中，Cas9多肽包含核酸酶结构域的缺失，并且插入脱氨酶以替换核酸酶结构域。在一些实施方案中，删除HNH结构域并且在其位置插入脱氨酶。在一些实施方案中，删除一个或多个RuvC结构域并且在其位置插入脱氨酶。

包含异源多肽的融合蛋白的侧翼可以是napDNAbp的N端和C端片段。在一些实施方案中，融合蛋白包含侧翼为Cas9多肽的N端片段和C端片段的脱氨酶。N端片段或C端片段可以结合靶多核苷酸序列。N端片段的C端或C端片段的N端可以包含Cas9多肽的柔性环的一部分。N端片段的C端或C端片段的N端可以包含Cas9多肽的α-螺旋结构的一部分。N端片段或C端片段可以包含DNA结合结构域。N端片段或C端片段可以包含RuvC结构域。N端片段或C端片段可以包含HNH结构域。在一些实施方案中，N端片段和C端片段都不包含HNH结构域。

在一些实施方案中，N端Cas9片段的C端包含当融合蛋白使靶核碱基脱氨基时接近靶核碱基的氨基酸。在一些实施方案中，C端Cas9片段的N端包含当融合蛋白使靶核碱基脱氨时接近靶核碱基的氨基酸。不同脱氨酶的插入位置可以不同，以使靶核碱基与N端Cas9片段的C端或C端Cas9片段的N端中的氨基酸接近。例如，脱氨酶的插入位置可以在选自由以下组成的组的氨基酸残基处：在以上Cas9参考序列中编号的1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246，或另一Cas9多肽中的相应氨基酸残基处。

融合蛋白的N端Cas9片段(即融合蛋白中脱氨酶侧翼的N端Cas9片段)可以包含Cas9多肽的N端。融合蛋白的N端Cas9片段可以包含至少约100个、200个、300个、400个、500个、600个、700个、800个、900个、1000个、1100个、1200个或1300个氨基酸的长度。融合蛋白的N端Cas9片段可以包含对应于以下氨基酸残基的序列：在以上Cas9参考序列中编号的1-56、1-95、1-200、1-300、1-400、1-500、1-600、1-700、1-718、1-765、1-780、1-906、1-918或1-1100，或另一Cas9多肽中的相应氨基酸残基。N端Cas9片段可以包含与以下氨基酸残基：在以上Cas9参考序列中编号的1-56、1-95、1-200、1-300、1-400、1-500、1-600、1-700、1-718、1-765、1-780、1-906、1-918或1-1100或另一Cas9多肽中的相应氨基酸残基包含至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％序列同一性的序列。

融合蛋白的C端Cas9片段(即融合蛋白中脱氨酶侧翼的C端Cas9片段)可以包含Cas9多肽的C端。融合蛋白的C端Cas9片段可以包含至少约100个、200个、300个、400个、500个、600个、700个、800个、900个、1000个、1100个、1200个或1300个氨基酸的长度。融合蛋白的C端Cas9片段可以包含对应于以下氨基酸残基的序列：在以上Cas9参考序列中编号的1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368或56-1368，或另一Cas9多肽中的相应氨基酸残基。N端Cas9片段可以包含与以下氨基酸残基：在以上Cas9参考序列中编号的1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368或56-1368或另一Cas9多肽中的相应氨基酸残基包含至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％序列同一性的序列。

融合蛋白的N端Cas9片段和C端Cas9片段合在一起可能不对应于全长天然存在的Cas9多肽序列，例如，如在以上Cas9参考序列中说明的。

本文所述的融合蛋白可以实现靶向脱氨，同时减少非靶位点(例如脱靶位点)的脱氨，诸如减少全基因组的假脱氨。本文所述的融合蛋白可以实现靶向脱氨，同时减少非靶位点的旁观者脱氨。与例如包含与Cas9多肽的N端或C端融合的脱氨酶的末端融合蛋白相比，不需要的脱氨或脱靶脱氨可以减少至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％或至少99％。与例如包含与Cas9多肽的N端或C端融合的脱氨酶的末端融合蛋白相比，不需要的脱氨或脱靶脱氨可以减少至少一倍、至少二倍、至少三倍、至少四倍、至少五倍、至少十倍、至少十五倍、至少二十倍、至少三十倍、至少四十倍、至少五十倍、至少60倍、至少70倍、至少80倍、至少90倍或至少一百倍。

在一些实施方案中，融合蛋白的脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)使R环范围内的不超过两个核碱基脱氨基。在一些实施方案中，融合蛋白的脱氨酶使R环范围内的不超过三个核碱基脱氨基。在一些实施方案中，融合蛋白的脱氨酶使R环范围内的不超过2个、3个、4个、5个、6个、7个、8个、9个或10个核碱基脱氨。R环是包含DNA:RNA杂交、DNA:DNA或RNA:RNA互补结构并与单链DNA缔合的三链核酸结构。如本文所用，当靶多核苷酸与CRISPR复合物或碱基编辑复合物接触时可以形成R环，其中指导多核苷酸(例如，指导RNA)的一部分与靶多核苷酸的一部分杂交并用靶多核苷酸(例如，靶DNA)的一部分置换。在一些实施方案中，R环包含间隔区序列和靶DNA互补序列的杂交区域。R环区域的长度可以是约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核碱基对。在一些实施方案中，R环区域的长度为约20个核碱基对。应当理解，如本文所用，R环区域不限于与指导多核苷酸杂交的靶DNA链。例如，R环区域内的靶核碱基的编辑可以针对包含指导RNA互补链的DNA链，或者可以针对作为指导RNA互补链的相反链的DNA链。在一些实施方案中，R环中的编辑包括将非互补链(原型间隔链)上的核碱基编辑为靶DNA序列中的指导RNA。

本文所述的融合蛋白可以在不同于规范碱基编辑的编辑窗口中实现靶标脱氨。在一些实施方案中，靶核碱基位于靶多核苷酸序列中PAM序列上游约1至约20个碱基处。在一些实施方案中，靶核碱基位于靶多核苷酸序列中PAM序列上游约2至约12个碱基处。在一些实施方案中，靶核碱基在远离PAM序列或PAM序列上游约1至9个碱基对、约2至10个碱基对、约3至11个碱基对、约4至12个碱基对、约5至13个碱基对、约6至14个碱基对、约7至15个碱基对、约8至16个碱基对、约9至17个碱基对、约10至18个碱基对、约11至19个碱基对、约12至20个碱基对、约1至7个碱基对、约2至8个碱基对、约3至9个碱基对、约4至10个碱基对、约5至11个碱基对、约6至12个碱基对、约7至13个碱基对、约8至14个碱基对、约9至15个碱基对、约10至16个碱基对、约11至17个碱基对、约12至18个碱基对、约13至19个碱基对、约14至20个碱基对、约1至5个碱基对、约2至6个碱基对、约3至7个碱基对、约4至8个碱基对、约5至9个碱基对、约6至10个碱基对、约7至11个碱基对、约8至12个碱基对、约9至13个碱基对、约10至14个碱基对、约11至15个碱基对、约12至16个碱基对、约13至17个碱基对、约14至18个碱基对、约15至19个碱基对、约16至20个碱基对、约1至3个碱基对、约2至4个碱基对、约3至5个碱基对、约4至6个碱基对、约5至7个碱基对、约6至8个碱基对、约7至9个碱基对、约8至10个碱基对、约9至11个碱基对、约10至12个碱基对、约11至13个碱基对、约12至14个碱基对、约13至15个碱基对、约14至16个碱基对、约15至17个碱基对、约16至18个碱基对、约17至19个碱基对、约18至20个碱基对。在一些实施方案中，靶核碱基在远离PAM序列或PAM序列上游1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或更多个碱基对。在一些实施方案中，靶核碱基在PAM序列上游约1个、2个、3个、4个、5个、6个、7个、8个或9个碱基对处。在一些实施方案中，靶核碱基在PAM序列上游约2个、3个、4个或6个碱基对处。

融合蛋白可以包含多于一种异源多肽。例如，融合蛋白可以另外包含一个或多个UGI结构域和/或一种或多种核定位信号。两个或更多个异源结构域可以串联插入。两个或更多个异源结构域可以插入到使得它们在NapDNAbp中不串联的位置。

融合蛋白可以在脱氨酶和napDNAbp多肽之间包含接头。接头可以是肽或非肽接头。例如，接头可以是XTEN、(GGGS)n(SEQ ID NO:334)、(GGGGS)n(SEQ ID NO:335)、(G)n、(EAAAK)n(SEQ ID NO:336)、(GGS)n、SGSETPGTSESATPES(SEQ ID NO:337)。在一些实施方案中，融合蛋白在N端Cas9片段和脱氨酶之间包含接头。在一些实施方案中，融合蛋白在C端Cas9片段和脱氨酶之间包含接头。在一些实施方案中，napDNAbp的N端和C端片段在有接头的情况下与脱氨酶连接。在一些实施方案中，N端和C端片段在没有接头的情况下与脱氨酶结构域连接。在一些实施方案中，融合蛋白在N端Cas9片段和脱氨酶之间包含接头，但在C端Cas9片段和脱氨酶之间不包含接头。在一些实施方案中，融合蛋白在C端Cas9片段和脱氨酶之间包含接头，但在N端Cas9片段和脱氨酶之间不包含接头。

在一些实施方案中，融合蛋白中的napDNAbp是Cas12多肽(例如，Cas12b/C2c1)或其片段。Cas12多肽可以是变体Cas12多肽。在其他实施方案中，Cas12多肽的N端或C端片段包含核酸可编程DN A结合结构域或RuvC结构域。在其他实施方案中，融合蛋白在Cas12多肽和催化结构域之间含有接头。在其他实施方案中，接头的氨基酸序列是GGSGGS(SEQ ID NO:338)或GSSGSETPGTSESATPE SSG(SEQ ID NO:339)。在其他实施方案中，接头是刚性接头。在上述方面的其他实施方案中，接头由GGAGGCTCTGGAGGAAGC(SEQ ID NO:340)或GGCTCTTCTGGATCTGAAACACCTGGCACAA GCGAGAGCGCCACCCCTGAGAGCTCTGGC(SEQ ID NO:341)编码。

包含侧接有Cas12多肽的N-和C-末端片段的异源催化结构域的融合蛋白对如本文所述方法中的碱基编辑也是有用的。包含Cas12和一个或多个脱氨酶结构域(例如腺苷脱氨酶)或包含侧接有Cas12序列的腺苷脱氨酶结构域的融合蛋白对于靶序列的高度特异性和有效的碱基编辑也是有用的。在一个实施方案中，嵌合Cas12融合蛋白含有插入Cas12多肽内的异源催化结构域(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)。在一些实施方案中，融合蛋白包含插入Cas12内的腺苷脱氨酶结构域和胞苷脱氨酶结构域。在一些实施方案中，腺苷脱氨酶融合在Cas12内，并且胞苷脱氨酶融合至C端。在一些实施方案中，腺苷脱氨酶融合在Cas12内，并且胞苷脱氨酶融合至N端。在一些实施方案中，胞苷脱氨酶融合在Cas12内，并且腺苷脱氨酶融合至C端。在一些实施方案中，胞苷脱氨酶融合在Cas12内，并且腺苷脱氨酶融合至N端。具有腺苷脱氨酶和胞苷脱氨酶和Cas12的融合蛋白的示例性结构提供如下：

NH2-[Cas12(腺苷脱氨酶)]-[胞苷脱氨酶]-COOH；

NH2-[胞苷脱氨酶]-[Cas12(腺苷脱氨酶)]-COOH；

NH2-[Cas12(胞苷脱氨酶)]-[腺苷脱氨酶]-COOH；或

NH2-[腺苷脱氨酶]-[Cas12(胞苷脱氨酶)]-COOH。

在各种实施方案中，催化结构域具有DNA修饰活性(例如，脱氨酶活性)，诸如腺苷脱氨酶活性。在一些实施方案中，腺苷脱氨酶是TadA(例如，TadA*7.10)。在一些实施方案中，TadA是TadA*8。在一些实施方案中，TadA*8融合在Cas12内，并且胞苷脱氨酶融合至C端。在一些实施方案中，TadA*8融合在Cas12内，并且胞苷脱氨酶融合至N端。在一些实施方案中，胞苷脱氨酶融合在Cas12内，并且TadA*8融合至C端。在一些实施方案中，胞苷脱氨酶融合在Cas12内，并且TadA*8融合至N端。具有TadA*8和胞苷脱氨酶和Cas12的融合蛋白的示例性结构提供如下：

N-[Cas12(TadA*8)]-[胞苷脱氨酶]-C；

N-[胞苷脱氨酶]-[Cas12(TadA*8)]-C；

N-[Cas12(胞苷脱氨酶)]-[TadA*8]-C；或

N-[TadA*8]-[Cas12(胞苷脱氨酶)]-C。

在其他实施方案中，融合蛋白含有一个或多个催化结构域。在其他实施方案中，一个或多个催化结构域中的至少一个被插入Cas12多肽内或融合在Cas12 N端或C端。在其他实施方案中，一个或多个催化结构域中的至少一个插入Cas12多肽的环、α螺旋区、非结构化部分或溶剂可及部分内。在其他实施方案中，Cas12多肽是Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ。在其他实施方案中，Cas12多肽与外村尚芽孢杆菌(Bacillu s hisashii)Cas12b、嗜热淀粉芽孢杆菌(Bacillusthermoamylovorans)Ca s12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环杆菌(Alicyclobacillus ac idiphilus)Cas12b(SEQ ID NO:342)具有至少约85％氨基酸序列同一性。在其他实施方案中，Cas12多肽与外村尚芽孢杆菌Cas12b(SEQ ID NO:343)、嗜热淀粉芽孢杆菌Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环杆菌Cas12b具有至少约90％氨基酸序列同一性。在其他实施方案中，Cas12多肽与外村尚芽孢杆菌Cas12b、嗜热淀粉芽孢杆菌Cas12b(SEQ ID NO:344)、芽孢杆菌属V3-13 Cas12b(SEQ ID NO:345)或嗜酸脂环杆菌Cas12b具有至少约95％氨基酸序列同一性。在其他实施方案中，Cas12多肽含有外村尚芽孢杆菌Cas12b、嗜热淀粉芽孢杆菌Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环杆菌Cas12b的片段或基本上由其组成。在实施方案中，Cas12多肽含有BvCas12b(V4)，其在一些实施方案中表达为5’mRNA Cap---5’UTR---bhCas12b---停止序列---3’UTR---120polyA尾(SEQID NO:346-348)。

在其他实施方案中，催化结构域插入到BhCas12b或Cas12a、Ca s12c、Cas12d、Cas12e、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ的相应氨基酸残基的位置153-154、255-256、306-307、980-981、1019-1020、534-535、604-605或344-345之间。在其他实施方案中，催化结构域插入到BhCas12b的氨基酸P153和S154之间。在其他实施方案中，催化结构域插入到BhCas12b的氨基酸K255和E256之间。在其他实施方案中，催化结构域插入到BhCas12b的氨基酸D980和G981之间。在其他实施方案中，催化结构域插入到BhCas12b的氨基酸K1019和L1020之间。在其他实施方案中，催化结构域插入到BhCa s12b的氨基酸F534和P535之间。在其他实施方案中，催化结构域插入到BhCas12b的氨基酸K604和G605之间。在其他实施方案中，催化结构域插入到BhCas12b的氨基酸H344和F345之间。在其他实施方案中，催化结构域插入到BvCas12b或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ的相应氨基酸残基的位置147和148、248和249、299和300、991和992或1031和1032之间。在其他实施方案中，催化结构域插入到BvCas12b的氨基酸P147和D148之间。在其他实施方案中，催化结构域插入到BvCa s12b的氨基酸G248和G249之间。在其他实施方案中，催化结构域插入到BvCas12b的氨基酸P299和E300之间。在其他实施方案中，催化结构域插入到BvCas12b的氨基酸G991和E992之间。在其他实施方案中，催化结构域插入到BvCas12b的氨基酸K1031和M1032之间。在其他实施方案中，催化结构域插入到AaCas12b或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ的相应氨基酸残基的位置157和158、258和259、310和311、1008和1009或1044和1045之间。在其他实施方案中，催化结构域插入到AaCas12b的氨基酸P157和G158之间。在其他实施方案中，催化结构域插入到AaCas12b的氨基酸V258和G259之间。在其他实施方案中，催化结构域插入到AaCas12b的氨基酸D310和P311之间。在其他实施方案中，催化结构域插入到AaCas12b的氨基酸G1008和E1009之间。在其他实施方案中，催化结构域插入到AaCas12b的氨基酸G1044和K1045之间。

在其他实施方案中，融合蛋白含有核定位信号(例如，二分核定位信号)。在其他实施方案中，核定位信号的氨基酸序列是MAPKKK RKVGIHGVPAA(SEQ ID NO:349)。在上述方面的其他实施方案中，核定位信号由以下序列编码：

ATGGCCCCAAAGAAGAAGCGGAAGGTCGGTATCCACGGA GTCCCAGCAGCC(SEQ ID NO:350)。在其他实施方案中，Cas12b多肽含有沉默RuvC结构域的催化活性的突变。在其他实施方案中，Cas12b多肽含有D574A、D829A和/或D952A突变。在其他实施方案中，融合蛋白还含有标签(例如，流感血凝素标签)。

在一些实施方案中，融合蛋白包含具有内部融合的核碱基编辑结构域(例如，全部或部分脱氨酶结构域，例如腺苷脱氨酶结构域)的napDNAbp结构域(例如，Cas12衍生的结构域)。在一些实施方案中，napDNAbp是Cas12b。在一些实施方案中，碱基编辑器包含BhCas12b结构域，所述结构域具有插入到下表4中提供的基因座处的内部融合的TadA*8结构域。

表4：Cas12b蛋白中的插入基因座

BhCas12b	插入位点	插入aa之间
			位置1	153	PS
位置2	255	KE
			位置3	306	DE
位置4	980	DG
			位置5	1019	KL
位置6	534	FP
			位置7	604	KG
位置8	344	HF

BvCas12b	插入位点	插入aa之间
			位置1	147	PD
位置2	248	GG
			位置3	299	PE
位置4	991	GE
			位置5	1031	KM

			AaCas12b	插入位点	插入aa之间
位置1	157	PG
			位置2	258	VG
位置3	310	DP
			位置4	1008	GE
位置5	1044	GK

作为非限制性实例，腺苷脱氨酶(例如，TadA*8.13)可以插入BhCas12b以产生有效编辑核酸序列的融合蛋白(例如，TadA*8.13-BhCas12b)。

在一些实施方案中，本文所述的碱基编辑系统是具有插入Cas9的TadA的ABE。具有插入Cas9的TadA的有关ABE的多肽序列在所附序列表中提供为SEQ ID NO:351-396。

在一些实施方案中，生成腺苷碱基编辑器以将TadA或其变体插入Cas9多肽中鉴定的位置。

示例性但非限制性的融合蛋白描述于国际PCT申请号PCT/US2020/016285和美国临时申请号62/852,228和62/852,224中，其内容以引用方式整体并入本文。

A到G的编辑

在一些实施方案中，本文所述的碱基编辑器包含腺苷脱氨酶结构域。碱基编辑器的此种腺苷脱氨酶结构域可以通过使A脱氨以形成肌苷(I)来促进将腺嘌呤(A)核碱基编辑为鸟嘌呤(G)核碱基，所述肌苷(I)表现出G的碱基配对特性。腺苷脱氨酶能够使脱氧核糖核酸(DNA)中的脱氧腺苷残基的腺嘌呤脱氨(即，去除胺基)。在一些实施方案中，A到G碱基编辑器还包含肌苷碱基切除修复抑制剂，例如，尿嘧啶糖基化酶抑制剂(UGI)结构域或无催化活性的肌苷特异性核酸酶。不受任何特定理论的束缚，UGI结构域或无催化活性的肌苷特异性核酸酶可以抑制或阻止脱氨基腺苷残基(例如，肌苷)的碱基切除修复，这可以提高碱基编辑器的活性或效率。

包含腺苷脱氨酶的碱基编辑器可以作用于任何多核苷酸，包括DNA、RNA和DNA-RNA杂交体。在某些实施方案中，包含腺苷脱氨酶的碱基编辑器可以使包含RNA的多核苷酸的靶A脱氨基。例如，碱基编辑器可以包含能够使RNA多核苷酸和/或DNA-RNA杂交多核苷酸的靶A脱氨基的腺苷脱氨酶结构域。在一个实施方案中，并入到碱基编辑器中的腺苷脱氨酶包含作用于RNA(ADAR，例如，ADAR1或ADAR2)或tRNA(ADAT)的全部或部分腺苷脱氨酶。包含腺苷脱氨酶结构域的碱基编辑器也能够使DNA多核苷酸的A核碱基脱氨基。在一个实施方案中，碱基编辑器的腺苷脱氨酶结构域包含全部或部分ADAT，所述ADAT包含允许ADAT将DNA中的靶A脱氨基的一个或多个突变。例如，碱基编辑器可以包含全部或部分来自大肠杆菌的ADAT(EcTadA)，其包含以下突变中的一个或多个：D108N、A106V、D147Y、E155V、L84F、H123Y、I156F，或在另一个腺苷脱氨酶中的相应突变。示例性ADAT同源物多肽序列在序列表中提供为SEQ ID NO:1、397-403。

腺苷脱氨酶可以来源于任何合适的生物体(例如，大肠杆菌)。在一些实施方案中，腺苷脱氨酶来自原核生物。在一些实施方案中，腺苷脱氨酶来自细菌。在一些实施方案中，腺苷脱氨酶来自大肠杆菌、金黄色葡萄球菌、伤寒沙门氏菌、腐败希瓦氏菌、流感嗜血杆菌、新月柄杆菌或枯草芽孢杆菌。在一些实施方案中，腺苷脱氨酶来自大肠杆菌。在一些实施方案中，腺嘌呤脱氨酶是天然存在的腺苷脱氨酶，其包括对应于本文提供的任何突变(例如，ecTadA中的突变)的一个或多个突变。任何同源蛋白质中的相应残基可以通过例如序列比对和同源残基的确定来鉴定。可以相应地产生对应于本文描述的任何突变(例如，在ecTadA中鉴定的任何突变)的任何天然存在的腺苷脱氨酶(例如，与ecTadA具有同源性)中的突变。

在一些实施方案中，腺苷脱氨酶包含与本文提供的任何腺苷脱氨酶中说明的氨基酸序列中的任何一个至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。应当理解，本文提供的腺苷脱氨酶可以包括一个或多个突变(例如，本文提供的任何突变)。本公开提供了本文所述的具有一定百分比同一性的任何脱氨酶结构域加上任何突变或其组合。在一些实施方案中，腺苷脱氨酶包含与本文提供的参考序列或任何腺苷脱氨酶相比具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、21个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个或更多个突变的氨基酸序列。在一些实施方案中，腺苷脱氨酶包含与本领域已知或本文描述的任何一种氨基酸序列相比具有至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少110个、至少120个、至少130个、至少140个、至少150个、至少160个或至少170个相同的连续氨基酸残基的氨基酸序列。

应当理解，本文提供的任何突变(例如，基于TadA参考序列)可以被引入其他腺苷脱氨酶，诸如大肠杆菌TadA(ecTadA)、金黄色葡萄球菌TadA(saTadA)或其他腺苷脱氨酶(例如，细菌腺苷脱氨酶)。对本领域技术人员显而易见的是，可以类似地比对另外的脱氨酶以鉴定可以如本文提供的那样突变的同源氨基酸残基。因此，在TadA参考序列中鉴定的任何突变都可以在具有同源氨基酸残基的其他腺苷脱氨酶(例如，ecTada)中出现。还应理解，本文提供的任何突变可以单独或以任何组合在TadA参考序列或另一腺苷脱氨酶中出现。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的D108X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的D108G、D108N、D108V、D108A或D108Y突变，或另一腺苷脱氨酶中的相应突变。然而，应当理解，可以类似地比对额外的脱氨酶以鉴定可以如本文提供的那样突变的同源氨基酸残基。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A106X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A106V突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的E155X突变，或另一腺苷脱氨酶中的相应突变，其中存在X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的E155D、E155G或E155V突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的D147X突变，或另一腺苷脱氨酶中的相应突变，其中存在X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的D147Y突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A106X、E155X或D147X突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含E155D、E155G或E155V突变。在一些实施方案中，腺苷脱氨酶包含D147Y。

还应理解，本文提供的任何突变可以单独或以任何组合在ecTadA或另一腺苷脱氨酶中出现。例如，腺苷脱氨酶可以含有TadA参考序列中的D108N、A106V、E155V和/或D147Y突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的以下突变组(突变组由“；”分隔)，或另一腺苷脱氨酶中的相应突变：D108N和A106V；D108N和E155V；D108N和D147Y；A106V和E155V；A106V和D147Y；E155V和D147Y；D108N、A106V和E155V；D108N、A106V和D147Y；D108N、E155V和D147Y；A106V、E155V、D147Y；以及D108N、A106V、E155V和D147Y。然而，应当理解，本文提供的相应突变的任何组合可以在腺苷脱氨酶(例如，ecTadA)中出现。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列(例如，TadA*7.10)中的突变或另一腺苷脱氨酶中的相应突变的组合：V82G+Y147T+Q154S；I76Y+V82G+Y147T+Q154S；L36H+V82G+Y147T+Q154S+N157K；V82G+Y147D+F149Y+Q154S+D167N；L36H+V82G+Y147D+F149Y+Q154S+N157K+D167N；L36H+I76Y+V82G+Y147T+Q154S+N157K；I76Y+V82G+Y147D+F149Y+Q154S+D167N；或L36H+I76Y+V82G+Y147D+F149Y+Q154S+N157K+D167N。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8X、T17X、L18X、W23X、L34X、W45X、R51X、A56X、E59X、E85X、M94X、I95X、V102X、F104X、A106X、R107X、D108X、K110X、M118X、N127X、A138X、F149X、M151X、R153X、Q154X、I156X和/或K157X突变，或另一腺苷脱氨酶中的一个或多个相应突变，其中存在X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8Y、T17S、L18E、W23L、L34S、W45L、R51H、A56E，或A56S、E59G、E85K，或E85G、M94L、I95L、V102A、F104L、A106V、R107C，或R107H，或R107P，D108G，或D108N，或D108V，或D108A，或D108Y、K110I、M118K、N127S、A138V、F149Y、M151V、R153C、Q154L、I156D和/或K157R突变中的一个或多个，或另一腺苷脱氨酶中的一个或多个相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8X、D108X和/或N127X突变中的一个或多个，或另一腺苷脱氨酶中的一个或多个相应突变，其中X表示存在任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8Y、D108N或N127S突变中的一个或多个，或另一腺苷脱氨酶中的一个或多个相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8X、R26X、M61X、L68X、M70X、A106X、D108X、A109X、N127X、D147X、R152X、Q154X、E155X、K161X、Q163X和/或T166X突变中的一个或多个，或另一种腺苷脱氨酶中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8Y、R26W、M61I、L68Q、M70V、A106T、D108N、A109T、N127S、D147Y、R152C、Q154H或Q154R、E155G或E155V或E155D、K161Q、Q163H和/或T166P突变中的一个或多个，或另一腺苷脱氨酶中的一个或多个相应突变。

在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个或六个选自由TadA参考序列中的H8X、D108X、N127X、D147X、R152X和Q154X组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个、六个、七个或八个选自由TadA参考序列中的H8X、M61X、M70X、D108X、N127X、Q154X、E155X和Q163X组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个或五个选自由TadA参考序列中的H8X、D108X、N127X、E155X和T166X组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。

在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个或六个选自由H8X、A106X和D108X组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个、六个、七个或八个选自由H8X、R26X、L68X、D108X、N127X、D147X和E155X组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。

在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个、六个或七个选自由TadA参考序列中的H8X、R126X、L68X、D108X、N127X、D147X和E155X组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个或五个选自由TadA参考序列中的H8X、D108X、A109X、N127X和E155X组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。

在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个或六个选自由TadA参考序列中的H8Y、D108N、N127S、D147Y、R152C和Q154H组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个、六个、七个或八个选自由TadA参考序列中的H8Y、M61I、M70V、D108N、N127S、Q154R、E155G和Q163H组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个或五个选自由TadA参考序列中的H8Y、D108N、N127S、E155V和T166P组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个或六个选自由TadA参考序列中的H8Y、A106T、D108N、N127S、E155D和K161Q组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个、六个、七个或八个选自由TadA参考序列中的H8Y、R26W、L68Q、D108N、N127S、D147Y和E155V组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个或五个选自由TadA参考序列中的H8Y、D108N、A109T、N127S和E155G组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变。

在一些实施方案中，腺苷脱氨酶包含另一种腺苷脱氨酶中的一个或多个相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的D108N、D108G或D108V突变，或另一腺苷脱氨酶中的相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A106V和D108N突变，或另一腺苷脱氨酶中的相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R107C和D108N突变，或另一腺苷脱氨酶中的相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8Y、D108N、N127S、D147Y和Q154H突变，或另一腺苷脱氨酶中的相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8Y、D108N、N127S、D147Y和E155V突变，或另一腺苷脱氨酶中的相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的D108N、D147Y和E155V突变，或另一腺苷脱氨酶中的相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8Y、D108N和N127S突变，或另一腺苷脱氨酶中的相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A106V、D108N、D147Y和E155V突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的S2X、H8X、I49X、L84X、H123X、N127X、I156X和/或K160X突变中的一个或多个，或另一种腺苷脱氨酶中的一个或多个相应突变，其中存在X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的S2A、H8Y、I49F、L84F、H123Y、N127S、I156F和/或K160S突变中的一个或多个，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变。

在一些实施方案中，腺苷脱氨酶包括L84X突变腺苷脱氨酶，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的L84F突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H123X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H123Y突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的I156X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的I156F突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个、六个或七个选自由TadA参考序列中的L84X、A106X、D108X、H123X、D147X、E155X和I156X组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个或六个选自由TadA参考序列中的S2X、I49X、A106X、D108X、D147X和E155X组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个或五个选自由TadA参考序列中的H8X、A106X、D108X、N127X和K160X组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。

在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个、六个或七个选自由TadA参考序列中的L84F、A106V、D108N、H123Y、D147Y、E155V和I156F组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个或六个选自由TadA参考序列中的S2A、I49F、A106V、D108N、D147Y和E155V组成的组的突变。

在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个或五个选自由TadA参考序列中的H8Y、A106T、D108N、N127S和K160S组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的E25X、R26X、R107X、A142X和/或A143X突变中的一个或多个，或另一腺苷脱氨酶中的一个或多个相应突变，其中存在X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的E25M、E25D、E25A、E25R、E25V、E25S、E25Y、R26G、R26N、R26Q、R26C、R26L、R26K、R107P、R107K、R107A、R107N、R107W、R107H、R107S、A142N、A142D、A142G、A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变中的一个或多个，或另一种腺苷脱氨酶中的一个或多个相应突变。在一些实施方案中，腺苷脱氨酶包含一个或多个本文所述的对应于TadA参考序列的突变，或另一腺苷脱氨酶中的一个或多个相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的E25X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的E25M、E25D、E25A、E25R、E25V、E25S或E25Y突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R26X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R26G、R26N、R26Q、R26C、R26L或R26K突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R107X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R107P、R107K、R107A、R107N、R107W、R107H或R107S突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A142X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A142N、A142D、A142G突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A143X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H36X、N37X、P48X、I49X、R51X、M70X、N72X、D77X、E134X、S146X、Q154X、K157X和/或K161X突变中的一个或多个，或另一腺苷脱氨酶中的一个或多个相应突变，其中存在X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H36L、N37T、N37S、P48T、P48L、I49V、R51H、R51L、M70L、N72S、D77G、E134G、S146R、S146C、Q154H、K157N和/或K161T突变中的一个或多个，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H36X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H36L突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的N37X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的N37T或N37S突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的P48X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的P48T或P48L突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R51X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R51H或R51L突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的S146X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的S146R或S146C突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的K157X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的K157N突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的P48X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的P48S、P48T或P48A突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A142X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A142N突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的W23X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的W23R或W23L突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R152X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R152P或R52H突变，或另一腺苷脱氨酶中的相应突变。

在一个实施方案中，腺苷脱氨酶可以包含突变H36L、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、I156F和K157N。在一些实施方案中，腺苷脱氨酶包含以下相对于TadA参考序列的突变组合，其中组合的每个突变由“_”分隔，并且每个突变组合都在括号之间：

(A106V_D108N)、

(R107C_D108N)、

(H8Y_D108N_N127S_D147Y_Q154H)、

(H8Y_D108N_N127S_D147Y_E155V)、

(D108N_D147Y_E155V)、

(H8Y_D108N_N127S)、

(H8Y_D108N_N127S_D147Y_Q154H)、

(A106V_D108N_D147Y_E155V)、

(D108Q_D147Y_E155V)、

(D108M_D147Y_E155V)、

(D108L_D147Y_E155V)、

(D108K_D147Y_E155V)、

(D108I_D147Y_E155V)、

(D108F_D147Y_E155V)、

(A106V_D108N_D147Y)、

(A106V_D108M_D147Y_E155V)、

(E59A_A106V_D108N_D147Y_E155V)、

(E59A cat dead_A106V_D108N_D147Y_E155V),

(L84F_A106V_D108N_H123Y_D147Y_E155V_I156Y)、

(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(D103A_D104N)、

(G22P_D103A_D104N)、

(D103A_D104N_S138A)、

(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)、

(E25G_R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)、

(E25D_R26G_L84F_A106V_R107K_D108N_H123Y_A142N_A143G_D147Y_E155V_I156F)、(R26Q_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)、

(E25M_R26G_L84F_A106V_R107P_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)、

(R26C_L84F_A106V_R107H_D108N_H123Y_A142N_D147Y_E155V_I156F)、

(L84F_A106V_D108N_H123Y_A142N_A143L_D147Y_E155V_I156F)、

(R26G_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)、

(E25A_R26G_L84F_A106V_R107N_D108N_H123Y_A142N_A143E_D147Y_E155V_I156F)、

(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)、

(A106V_D108N_A142N_D147Y_E155V)、

(R26G_A106V_D108N_A142N_D147Y_E155V)、

(E25D_R26G_A106V_R107K_D108N_A142N_A143G_D147Y_E155V)、

(R26G_A106V_D108N_R107H_A142N_A143D_D147Y_E155V)、

(E25D_R26G_A106V_D108N_A142N_D147Y_E155V)、

(A106V_R107K_D108N_A142N_D147Y_E155V)、

(A106V_D108N_A142N_A143G_D147Y_E155V)、

(A106V_D108N_A142N_A143L_D147Y_E155V)、

(H36L_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、

(N37T_P48T_M70L_L84F_A106V_D108N_H123Y_D147Y_I49V_E155V_I156F)、

(N37S_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K161T)、

(H36L_L84F_A106V_D108N_H123Y_D147Y_Q154H_E155V_I156F)、

(N72S_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F)、

(H36L_P48L_L84F_A106V_D108N_H123Y_E134G_D147Y_E155V_I156F)、

(H36L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N)、

(H36L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F)、

(L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T)、

(N37S_R51H_D77G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(R51L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N)、

(D24G_Q71R_L84F_H96L_A106V_D108N_H123Y_D147Y_E155V_I156F_K160E)、

(H36L_G67V_L84F_A106V_D108N_H123Y_S146T_D147Y_E155V_I156F)、

(Q71L_L84F_A106V_D108N_H123Y_L137M_A143E_D147Y_E155V_I156F)、

(E25G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L)、

(L84F_A91T_F104I_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(N72D_L84F_A106V_D108N_H123Y_G125A_D147Y_E155V_I156F)、

(P48S_L84F_S97C_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(W23G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(D24G_P48L_Q71R_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L)、

(L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)、

(H36L_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N)、

(N37S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_K161T)、

(L84F_A106V_D108N_D147Y_E155V_I156F)、

(R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K161T)、

(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K161T)、

(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E_K161T)、

(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E)、

(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(R74A_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(L84F_R98Q_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(L84F_A106V_D108N_H123Y_R129Q_D147Y_E155V_I156F)、

(P48S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)、

(P48S_A142N)、

(P48T_I49V_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_L157N)、

(P48T_I49V_A142N)、

(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、

(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F

(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、

(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N)、

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N)、

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F_K157N)、

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、

(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T)、

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152H_E155V_I156F_K157N)、

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)、

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)、

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_E155V_I156F_K157N)、

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_R152P_E155V_I156F_K157N)、

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T)、

(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)、

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_R152P_E155V_I156F_K157N)。

在一些实施方案中，TadA脱氨酶为TadA变体。在一些实施方案中，TadA变体为TadA*7.10。在特定实施方案中，融合蛋白包含单个TadA*7.10结构域(例如，作为单体提供)。在其他实施方案中，融合蛋白包含TadA*7.10和TadA(wt)，它们能够形成异二聚体。在一个实施方案中，本发明的融合蛋白包含与TadA*7.10连接的野生型TadA，TadA*7.10与Cas9切口酶连接。

在一些实施方案中，TadA*7.10包含至少一个改变。在一些实施方案中，腺苷脱氨酶包含以下序列中的改变：

TadA*7.10

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:1)

在一些实施方案中，TadA*7.10包含氨基酸82和/或166处的改变。在特定实施方案中，TadA*7.10包含以下改变中的一个或多个：Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R。在其他实施方案中，TadA*7.10的变体包含选自下组的改变组合：Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；以及I76Y+V82S+Y123H+Y147R+Q154R。

在一些实施方案中，TadA*7.10的变体包含选自下组的一个或多个改变：L36H、I76Y、V82G、Y147T、Y147D、F149Y、Q154S、N157K和/或D167N。在一些实施方案中，TadA*7.10的变体包含V82G、Y147T/D、Q154S，以及L36H、I76Y、F149Y、N157K和D167N中的一个或多个。在其他实施方案中，TadA*7.10的变体包含选自下组的改变组合：V82G+Y147T+Q154S；I76Y+V82G+Y147T+Q154S；L36H+V82G+Y147T+Q154S+N157K；V82G+Y147D+F149Y+Q154S+D167N；L36H+V82G+Y147D+F149Y+Q154S+N157K+D167N；L36H+I76Y+V82G+Y147T+Q154S+N157K；I76Y+V82G+Y147D+F149Y+Q154S+D167N；L36H+I76Y+V82G+Y147D+F149Y+Q154S+N157K+D167N。

在一些实施方案中，腺苷脱氨酶变体(例如，TadA*8)包含缺失。在一些实施方案中，腺苷脱氨酶变体包含C端的缺失。在特定实施方案中，腺苷脱氨酶变体包含相对于TadA*7.10(TadA参考序列)从残基149、150、151、152、153、154、155、156和157开始的C端缺失，或另一TadA中的相应突变。

在其他实施方案中，腺苷脱氨酶变体(例如，TadA*8)是单体，其包含相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R，或另一TadA中的相应突变。在其他实施方案中，腺苷脱氨酶变体(TadA*8)是单体，其包含相对于TadA*7.10(TadA参考序列)的选自下组的改变组合：Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；以及I76Y+V82S+Y123H+Y147R+Q154R，或另一TadA中的相应突变。

在其他实施方案中，腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如，TadA*8)的同二聚体，所述腺苷脱氨酶结构域各自具有相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R，或另一TadA中的相应突变。在其他实施方案中，腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如，TadA*8)的同二聚体，所述腺苷脱氨酶变体结构域各自具有相对于TadA*7.10(TadA参考序列)的选自下组的改变组合：Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；以及I76Y+V82S+Y123H+Y147R+Q154R，或另一TadA中的相应突变。

在其他实施方案中，本公开的碱基编辑器包含腺苷脱氨酶变体(例如，TadA*8)单体，所述单体包含相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：R26C、V88A、A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和/或D167N，或另一TadA中的相应突变。在其他实施方案中，腺苷脱氨酶变体(TadA*8)单体包含选自下组相对于TadA*7.10(TadA参考序列)的改变的组合：R26C+A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N；V88A+A109S+T111R+D119N+H122N+F149Y+T166I+D167N；R26C+A109S+T111R+D119N+H122N+F149Y+T166I+D167N；V88A+T111R+D119N+F149Y；以及A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N，或另一TadA中的相应突变。

在一些实施方案中，腺苷脱氨酶变体(例如，MSP828)是单体，其包含相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：L36H、I76Y、V82G、Y147T、Y147D、F149Y、Q154S、N157K和/或D167N，或另一TadA中的相应突变。在一些实施方案中，腺苷脱氨酶变体(例如，MSP828)是单体，其包含相对于TadA*7.10(TadA参考序列)的V82G、Y147T/D、Q154S，以及L36H、I76Y、F149Y、N157K和D167N中的一个或多个，或另一TadA中的相应突变。在其他实施方案中，腺苷脱氨酶变体(TadA变体)是单体，其包含相对于TadA*7.10(TadA参考序列)的选自下组的改变组合：V82G+Y147T+Q154S；I76Y+V82G+Y147T+Q154S；L36H+V82G+Y147T+Q154S+N157K；V82G+Y147D+F149Y+Q154S+D167N；L36H+V82G+Y147D+F149Y+Q154S+N157K+D167N；L36H+I76Y+V82G+Y147T+Q154S+N157K；I76Y+V82G+Y147D+F149Y+Q154S+D167N；L36H+I76Y+V82G+Y147D+F149Y+Q154S+N157K+D167N，或另一TadA中的相应突变。

在其他实施方案中，腺苷脱氨酶变体是野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如，TadA*8)的异二聚体，所述腺苷脱氨酶变体结构域包含相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R，或另一TadA中的相应突变。在其他实施方案中，腺苷脱氨酶变体是野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域的(例如，TadA*8)的异二聚体，所述腺苷脱氨酶变体结构域包含相对于TadA*7.10(TadA参考序列)的选自下组的改变组合：Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；以及I76Y+V82S+Y123H+Y147R+Q154R，或另一TadA中的相应突变。

在其他实施方案中，本公开的碱基编辑器包含腺苷脱氨酶变体(例如，TadA*8)同二聚体，其包含两个腺苷脱氨酶结构域(例如，TadA*8)，各自具有相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：R26C、V88A、A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和/或D167N，或另一TadA中的相应突变。在其他实施方案中，腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如，TadA*8)的单体，所述腺苷脱氨酶结构域各自具有相对于TadA*7.10(TadA参考序列)的选自下组的改变组合：R26C+A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N；V88A+A109S+T111R+D119N+H122N+F149Y+T166I+D167N；R26C+A109S+T111R+D119N+H122N+F149Y+T166I+D167N；V88A+T111R+D119N+F149Y；以及A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N，或另一TadA中的相应突变。

在一些实施方案中，腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如，TadA*7.10)的同二聚体，所述腺苷脱氨酶结构域各自具有相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：L36H、I76Y、V82G、Y147T、Y147D、F149Y、Q154S、N157K和/或D167N，或另一TadA中的相应突变。在一些实施方案中，腺苷脱氨酶变体是包含两个腺苷脱氨酶变体结构域(例如，MSP828)的同二聚体，所述腺苷脱氨酶变体结构域各自具有相对于TadA*7.10(TadA参考序列)的以下改变：V82G、Y147T/D、Q154S，以及L36H、I76Y、F149Y、N157K和D167N中的一个或多个，或另一TadA中的相应突变。在其他实施方案中，腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如，TadA*7.10)的同二聚体，所述腺苷脱氨酶结构域各自具有相对于TadA*7.10(TadA参考序列)的选自下组的改变组合：V82G+Y147T+Q154S；I76Y+V82G+Y147T+Q154S；L36H+V82G+Y147T+Q154S+N157K；V82G+Y147D+F149Y+Q154S+D167N；L36H+V82G+Y147D+F149Y+Q154S+N157K+D167N；L36H+I76Y+V82G+Y147T+Q154S+N157K；I76Y+V82G+Y147D+F149Y+Q154S+D167N；L36H+I76Y+V82G+Y147D+F149Y+Q154S+N157K+D167N，或另一TadA中的相应突变。

在其他实施方案中，腺苷脱氨酶变体是TadA*7.10结构域和腺苷脱氨酶变体结构域(例如，TadA*8)的异二聚体，所述腺苷脱氨酶变体结构域包含相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R，或另一TadA中的相应突变。在其他实施方案中，腺苷脱氨酶变体是TadA*7.10结构域和腺苷脱氨酶变体结构域(例如，TadA*8)的异二聚体，所述腺苷脱氨酶变体结构域包含相对于TadA*7.10(TadA参考序列)的选自下组的改变组合：Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；以及I76Y+V82S+Y123H+Y147R+Q154R，或另一TadA中的相应突变。

在其他实施方案中，碱基编辑器包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如，TadA*8)的异二聚体，所述腺苷脱氨酶变体结构域包含相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：R26C、V88A、A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和/或D167N，或另一TadA中的相应突变。在其他实施方案中，碱基编辑器包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如，TadA*8)的异二聚体，所述腺苷脱氨酶变体结构域包含相对于TadA*7.10(TadA参考序列)的选自下组的改变组合：R26C+A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N；V88A+A109S+T111R+D119N+H122N+F149Y+T166I+D167N；R26C+A109S+T111R+D119N+H122N+F149Y+T166I+D167N；V88A+T111R+D119N+F149Y；以及A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N，或另一TadA中的相应突变。

在其他实施方案中，腺苷脱氨酶变体是野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如，TadA*7.10)的异二聚体，所述腺苷脱氨酶变体结构域包含相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：L36H、I76Y、V82G、Y147T、Y147D、F149Y、Q154S、N157K和/或D167N，或另一TadA中的相应突变。在一些实施方案中，腺苷脱氨酶变体是包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如，MSP828)的异二聚体，所述腺苷脱氨酶变体结构域具有相对于TadA*7.10(TadA参考序列)的以下改变：V82G、Y147T/D、Q154S，以及L36H、I76Y、F149Y、N157K和D167N中的一个或多个，或另一TadA中的相应突变。在其他实施方案中，腺苷脱氨酶变体是野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如，TadA*7.10)的异二聚体，所述腺苷脱氨酶变体结构域包含相对于TadA*7.10(TadA参考序列)的选自下组的改变组合：V82G+Y147T+Q154S；I76Y+V82G+Y147T+Q154S；L36H+V82G+Y147T+Q154S+N157K；V82G+Y147D+F149Y+Q154S+D167N；L36H+V82G+Y147D+F149Y+Q154S+N157K+D167N；L36H+I76Y+V82G+Y147T+Q154S+N157K；I76Y+V82G+Y147D+F149Y+Q154S+D167N；L36H+I76Y+V82G+Y147D+F149Y+Q154S+N157K+D167N，或另一TadA中的相应突变。

在特定实施方案中，腺苷脱氨酶异二聚体包含TadA*8结构域和腺苷脱氨酶结构域，其选自金黄色葡萄球菌(S.aureus)TadA、枯草芽孢杆菌(B.subtilis)TadA、鼠伤寒沙门氏菌(S.typhimurium)TadA、腐败希瓦氏菌(S.putrefaciens)TadA、流感嗜血杆菌F3031(H.influ enzae)TadA、新月柄杆菌(C.crescentus)TadA、硫还原地杆菌(G.sulfurreducens)TadA，或TadA*7.10。

在一些实施方案中，腺苷脱氨酶是TadA*8。在一个实施方案中，腺苷脱氨酶是TadA*8，其包含以下具有腺苷脱氨酶活性的序列或其片段，或基本上由以下具有腺苷脱氨酶活性的序列或其片段组成：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:404)

在一些实施方案中，TadA*8被截短。在一些实施方案中，截短的TadA*8变体相对于全长TadA*8丢失1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个N端氨基酸残基。在一些实施方案中，截短的TadA*8变体相对于全长TadA*8丢失1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个C端氨基酸残基。在一些实施方案中，腺苷脱氨酶变体为全长TadA*8。

在一些实施方案中，TadA*8是TadA*8.1,TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23或TadA*8.24。

在其他实施方案中，碱基编辑器包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如，TadA*8)的异二聚体，所述腺苷脱氨酶变体结构域包含相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：R26C、V88A、A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和/或D167N，或另一TadA中的相应突变。在其他实施方案中，碱基编辑器包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如，TadA*8)的异二聚体，所述腺苷脱氨酶变体结构域包含相对于TadA*7.10(TadA参考序列)的选自下组的改变组合：R26C+A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N；V88A+A109S+T111R+D119N+H122N+F149Y+T166I+D167N；R26C+A109S+T111R+D119N+H122N+F149Y+T166I+D167N；V88A+T111R+D119N+F149Y；以及A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N，或另一TadA中的相应突变。

在其他实施方案中，腺苷脱氨酶变体是TadA*7.10结构域和腺苷脱氨酶变体结构域(例如，TadA*7.10)的异二聚体，所述腺苷脱氨酶变体结构域包含相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：L36H、I76Y、V82G、Y147T、Y147D、F149Y、Q154S、N157K和/或D167N，或另一TadA中的相应突变。在一些实施方案中，腺苷脱氨酶变体是包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如，MSP828)的异二聚体，所述腺苷脱氨酶变体结构域具有相对于TadA*7.10(TadA参考序列)的以下改变：V82G、Y147T/D、Q154S，以及L36H、I76Y、F149Y、N157K和D167N中的一个或多个，或另一TadA中的相应突变。在其他实施方案中，腺苷脱氨酶变体是TadA*7.10结构域和腺苷脱氨酶变体结构域(例如，TadA*7.10)的异二聚体，所述腺苷脱氨酶变体结构域包含相对于TadA*7.10(TadA参考序列)的选自下组的改变组合：V82G+Y147T+Q154S；I76Y+V82G+Y147T+Q154S；L36H+V82G+Y147T+Q154S+N157K；V82G+Y147D+F149Y+Q154S+D167N；L36H+V82G+Y147D+F149Y+Q154S+N157K+D167N；L36H+I76Y+V82G+Y147T+Q154S+N157K；I76Y+V82G+Y147D+F149Y+Q154S+D167N；L36H+I76Y+V82G+Y147D+F149Y+Q154S+N157K+D167N，或另一TadA中的相应突变。

在一些实施方案中，TadA*8是如表5所示的变体。表5显示了TadA氨基酸序列中的某些氨基酸位置编号以及TadA-7.10腺苷脱氨酶中这些位置中存在的氨基酸。表5还显示了在噬菌体辅助非连续进化(PANCE)和噬菌体辅助连续进化(PACE)后TadA变体中相对于TadA-7.10的氨基酸变化，如M.Richter等人,2020,Nature Biotechnolo gy,doi.org/10.1038/s41587-020-0453-z中所述，其全部内容以引用方式并入本文。在一些实施方案中，TadA*8是TadA*8a、TadA*8b、TadA*8c、TadA*8d或TadA*8e。在一些实施方案中，TadA*8是Tad A*8e。

表5.选择TadA*8变体

在一些实施方案中，TadA变体是如表5.1所示的变体。表5.1显示了TadA氨基酸序列中的某些氨基酸位置编号以及TadA*7.10腺苷脱氨酶中这些位置中存在的氨基酸。在一些实施方案中，TadA变体是MSP605、MSP680、MSP823、MSP824、MSP825、MSP827、MSP828或MSP829。在一些实施方案中，TadA变体是MSP828。在一些实施方案中，TadA变体为MSP829。

表5.1.TadA变体

在一个实施方案中，本发明的融合蛋白包含与本文所述的腺苷脱氨酶变体(例如，TadA*8)连接的野生型TadA，所述腺苷脱氨酶变体与Cas9切口酶连接。在特定实施方案中，融合蛋白包含单个TadA*8结构域(例如，作为单体提供)。在其他实施方案中，融合蛋白包含TadA*8和TadA(wt)，它们能够形成异二聚体。

在特定实施方案中，TadA*8包含在以下粗体显示的任何位置的一个或多个突变。在其他实施方案中，TadA*8包含在下划线显示的任何位置的一个或多个突变：

MSEVEFSHEY WMRHALTLAK RARDEREVPV GAVLVLNNRV IGEGWNRAIG ⁵⁰LHDPTAHAEIMALRQGGLVM QNYRLIDATL YVTFEPCVMC AGAMIHSRIG ¹⁰⁰RVVFGVRNAK TGAAGSLMDVLHYPGMNHRV EITEGILADE CAALLCYFFR ¹⁵⁰MPRQVFNAQK KAQSSTD(SEQ ID NO:1)

例如，TadA*8在氨基酸位置82和/或166处包含相对于TadA*7.10(TadA参考序列)的单独改变(例如，V82S、T166R)或与以下Y147T、Y147R、Q154S、Y123H和/或Q154R中的任何一个或多个组合的改变，或另一TadA中的相应突变。在特定实施方案中，相对于TadA*7.10(TadA参考序列)的改变组合选自下组：Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；以及I76Y+V82S+Y123H+Y147R+Q154R，或另一TadA中的相应突变。

在一个实施方案中，本发明的融合蛋白包含与本文所述的腺苷脱氨酶变体(例如，TadA*8)连接的野生型TadA，所述腺苷脱氨酶变体与Cas9切口酶连接。在特定实施方案中，融合蛋白包含单个TadA*8结构域(例如，作为单体提供)。在其他实施方案中，碱基编辑器包含TadA*8和TadA(wt)，它们能够形成异二聚体。

在特定实施方案中，融合蛋白包含单个(例如，作为单体提供)TadA*8。在一些实施方案中，TadA*8与Cas9切口酶连接。在一些实施方案中，本发明的融合蛋白包含为与TadA*8连接的野生型TadA(TadA(wt))的异二聚体。在一些实施方案中，本发明的融合蛋白包含为与TadA*8连接的TadA*7.10的异二聚体。在一些实施方案中，碱基编辑器是ABE8，其包含TadA*8变体单体。在一些实施方案中，碱基编辑器是ABE8，其包含TadA*8和TadA(wt)的异二聚体。在一些实施方案中，碱基编辑器是ABE8，其包含TadA*8和TadA*7.10的异二聚体。在一些实施方案中，碱基编辑器是ABE8，其包含TadA*8的异二聚体。在一些实施方案中，TadA*8选自表5、11或12。在一些实施方案中，ABE8选自表11、12或14。

在一些实施方案中，腺苷脱氨酶是TadA*9变体。在一些实施方案中，腺苷脱氨酶是TadA*9变体，其选自下述变体并且参考以下序列(称为TadA*7.10)：

在一些实施方案中，腺苷脱氨酶包含以下改变中的一个或多个：R21N、R23H、E25F、N38G、L51W、P54C、M70V、Q71M、N72K、Y73S、V82T、M94V、P124W、T133K、D139L、D139M、C146R和A158K。一个或多个改变在上面的序列中以下划线和粗体显示。

在一些实施方案中，腺苷脱氨酶包含以下改变组合中的一种或多种：V82S+Q154R+Y147R；V82S+Q154R+Y123H；V82S+Q154R+Y147R+Y123H；Q154R+Y147R+Y123H+I76Y+V82S；V82S+I76Y；V82S+Y147R；V82S+Y147R+Y123H；V82S+Q154R+Y123H；Q154R+Y147R+Y123H+I76Y；V82S+Y147R；V82S+Y147R+Y123H；V82S+Q154R+Y123H；V82S+Q154R+Y147R；V82S+Q154R+Y147R；Q154R+Y147R+Y123H+I76Y；Q154R+Y147R+Y123H+I76Y+V82S；I76Y_V82S_Y123H_Y147R_Q154R；Y147R+Q154R+H123H；以及V82S+Q154R。

在一些实施方案中，腺苷脱氨酶包含以下改变组合中的一种或多种：E25F+V82S+Y123H、T133K+Y147R+Q154R；E25F+V82S+Y123H+Y147R+Q154R；L51W+V82S+Y123H+C146R+Y147R+Q154R；Y73S+V82S+Y123H+Y147R+Q154R；P54C+V82S+Y123H+Y147R+Q154R；N38G+V82T+Y123H+Y147R+Q154R；N72K+V82S+Y123H+D139L+Y147R+Q154R；E25F+V82S+Y123H+D139M+Y147R+Q154R；Q71M+V82S+Y123H+Y147R+Q154R；E25F+V82S+Y123H+T133K+Y147R+Q154R；E25F+V82S+Y123H+Y147R+Q154R；V82S+Y123H+P124W+Y147R+Q154R；L51W+V82S+Y123H+C146R+Y147R+Q154R；P54C+V82S+Y123H+Y147R+Q154R；Y73S+V82S+Y123H+Y147R+Q154R；N38G+V82T+Y123H+Y147R+Q154R；R23H+V82S+Y123H+Y147R+Q154R；R21N+V82S+Y123H+Y147R+Q154R；V82S+Y123H+Y147R+Q154R+A158K；N72K+V82S+Y123H+D139L+Y147R+Q154R；E25F+V82S+Y123H+D139M+Y147R+Q154R；以及M70V+V82S+M94V+Y123H+Y147R+Q154R。

在一些实施方案中，腺苷脱氨酶包含以下改变组合中的一种或多种：Q71M+V82S+Y123H+Y147R+Q154R；E25F+I76Y+V82S+Y123H+Y147R+Q154R；I76Y+V82T+Y123H+Y147R+Q154R；N38G+I76Y+V82S+Y123H+Y147R+Q154R；R23H+I76Y+V82S+Y123H+Y147R+Q154R；P54C+I76Y+V82S+Y123H+Y147R+Q154R；R21N+I76Y+V82S+Y123H+Y147R+Q154R；I76Y+V82S+Y123H+D139M+Y147R+Q154R；Y73S+I76Y+V82S+Y123H+Y147R+Q154R；E25F+I76Y+V82S+Y123H+Y147R+Q154R；I76Y+V82T+Y123H+Y147R+Q154R；N38G+I76Y+V82S+Y123H+Y147R+Q154R；R23H+I76Y+V82S+Y123H+Y147R+Q154R；P54C+I76Y+V82S+Y123H+Y147R+Q154R；R21N+I76Y+V82S+Y123H+Y147R+Q154R；I76Y+V82S+Y123H+D139M+Y147R+Q154R；Y73S+I76Y+V82S+Y123H+Y147R+Q154R；以及V82S+Q154R；N72K_V82S+Y123H+Y147R+Q154R；Q71M_V82S+Y123H+Y147R+Q154R；V82S+Y123H+T133K+Y147R+Q154R；V82S+Y123H+T133K+Y147R+Q154R+A158K；M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R；N72K_V82S+Y123H+Y147R+Q154R；Q71M_V82S+Y123H+Y147R+Q154R；M70V+V82S+M94V+Y123H+Y147R+Q154R；V82S+Y123H+T133K+Y147R+Q154R；V82S+Y123H+T133K+Y147R+Q154R+A158K；以及M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R。在一些实施方案中，腺苷脱氨酶表达为单体。在其他实施方案中，腺苷脱氨酶表达为异二聚体。在一些实施方案中，脱氨酶或其他多肽序列不含甲硫氨酸，例如当被包含为融合蛋白的组分时。这可以改变位置的编号。然而，本领域技术人员将理解此类相应突变指相同的突变，例如，Y73S和Y72S以及D139M和D138M。

在一些实施方案中，TadA*9变体包含如本文所述的表15中所述的改变。在一些实施方案中，TadA*9变体是单体。在一些实施方案中，TadA*9变体是具有野生型TadA腺苷脱氨酶的异二聚体。在一些实施方案中，TadA*9变体是具有另一个TadA变体(例如，TadA*8、TadA*9)的异二聚体。TadA*9腺苷脱氨酶的另外的细节描述于国际PCT申请号PCT/2020/049975中，其以引用方式整体并入本文。

本文提供的任何突变和任何另外的突变(例如，基于ecTadA氨基酸序列)可以被引入任何另外的腺苷脱氨酶中。本文提供的任何突变可以单独或以任何组合在TadA参考序列或另一种腺苷脱氨酶(例如，ecTadA)中出现。

A到G核碱基编辑蛋白的细节描述于国际PCT申请号PCT/2017/045381(WO2018/027078)和Gaudelli,N.M.等人,“Programmable ba se editing of A·T to G·C ingenomic DNA without DNA cleavag e”Nature,551,464-471(2017)，其全部内容以引用方式特此并入。

C到T的编辑

在一些实施方案中，本文公开的碱基编辑器包含融合蛋白，所述融合蛋白包含能够使多核苷酸的靶胞苷(C)碱基脱氨以产生具有胸腺嘧啶的碱基配对特性的尿苷(U)的胞苷脱氨酶。在一些实施方案中，例如当多核苷酸为双链(例如，DNA)时，然后尿苷碱基可以被胸苷碱基取代(例如，通过细胞修复机制)以得到C:G到T:A转变。在其他实施方案中，通过碱基编辑器是核酸中的C脱氨为U不能伴随U到T的取代。

多核苷酸中的靶C脱氨以产生U是可以由本文描述的碱基编辑器执行的碱基编辑类型的非限制性实例。在另一个实例中，包含胞苷脱氨酶结构域的碱基编辑器可以介导胞嘧啶(C)碱基向鸟嘌呤(G)碱基的转化。例如，通过碱基编辑器的胞苷脱氨酶结构域使胞苷脱氨产生的多核苷酸的U可以通过碱基切除修复机制(例如，通过尿嘧啶DNA糖基化酶(UDG)结构域)从多核苷酸切除，产生脱碱基位点。然后，脱碱基位点对面的核碱基可通过例如跨损伤聚合酶用另一个碱基(诸如C)取代(例如，通过碱基修复机制)。尽管脱碱基位点对面的核碱基通常被C替代，但也可能发生其他取代(例如，A、G或T)。

因此，在一些实施方案中，本文所述的碱基编辑器包含能够将多核苷酸中的靶C脱氨为U的脱氨结构域(例如，胞苷脱氨酶结构域)。此外，如下所述，碱基编辑器可以包含另外的结构域，其促进脱氨所得的U在一些实施方案中转化为T或G。例如，包含胞苷脱氨酶结构域的碱基编辑器还可以包含尿嘧啶糖基化酶抑制剂(UGI)结构域以介导U被T取代，完成C到T碱基编辑事件。在另一个实例中，碱基编辑器可以并入跨损伤聚合酶以提高C到G碱基编辑的效率，因为跨损伤聚合酶可以促进与脱碱基位点相对的C的并入(即，导致在脱碱基位点处并入G，完成C到G碱基编辑事件)。

包含胞苷脱氨酶作为结构域的碱基编辑器可以使任何多核苷酸(包括DNA、RNA和DNA-RNA杂交体)中的靶C脱氨。通常，胞苷脱氨酶催化位于多核苷酸单链部分背景中的C核碱基。在一些实施方案中，包含靶C的完整多核苷酸可以是单链的。例如，并入到碱基编辑器中的胞苷脱氨酶可以使单链RNA多核苷酸中的靶C脱氨。在其他实施方案中，包含胞苷脱氨酶结构域的碱基编辑器可以作用于双链多核苷酸，但是靶C可以位于在脱氨反应时处于单链状态的多核苷酸的一部分中。例如，在NAGPB结构域包含Cas9结构域的实施方案中，在Cas9-gRNA-靶DNA复合物的形成过程中，若干核苷酸可以保持不配对，导致Cas9“R环复合物”的形成。这些不配对的核苷酸可以形成单链DNA气泡，其可以作为单链特异性核苷酸脱氨酶(例如，胞苷脱氨酶)的底物。

在一些实施方案中，碱基编辑器的胞苷脱氨酶可以包含载脂蛋白B mRNA编辑复合物(APOBEC)家族脱氨酶的全部或一部分。APOB EC是进化上保守的胞苷脱氨酶家族。这个家族的成员是C到U编辑酶。APOBEC样蛋白的N端结构域是催化结构域，而C端结构域则是假催化结构域。更具体地，催化结构域是锌依赖性胞苷脱氨酶结构域，并且对于胞苷脱氨是重要的。APOBEC家族成员包括APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D(“APOBEC3E”现在是指这个)、APOBEC3F、APOBECT3G、APOBEC3H、APOBECT4和激活诱导的(胞苷)脱氨酶。在一些实施方案中，并入到碱基编辑器中的脱氨酶包含APOBEC1脱氨酶的全部或一部分。在一些实施方案中，并入到碱基编辑器中的脱氨酶包含APOBEC2脱氨酶的全部或一部分。在一些实施方案中，并入到碱基编辑器中的脱氨酶包含APOBEC3脱氨酶的全部或一部分。在一些实施方案中，并入到碱基编辑器中的脱氨酶包含APOBEC3A脱氨酶的全部或一部分。在一些实施方案中，并入到碱基编辑器中的脱氨酶包含APOBE C3B脱氨酶的全部或一部分。在一些实施方案中，并入到碱基编辑器中的脱氨酶包含APOBEC3C脱氨酶的全部或一部分。在一些实施方案中，并入到碱基编辑器中的脱氨酶包含APOBEC3D脱氨酶的全部或一部分。在一些实施方案中，并入到碱基编辑器中的脱氨酶包含APOBEC3E脱氨酶的全部或一部分。在一些实施方案中，并入到碱基编辑器中的脱氨酶包含APOBEC3F脱氨酶的全部或一部分。在一些实施方案中，并入到碱基编辑器中的脱氨酶包含APOBEC3G脱氨酶的全部或一部分。在一些实施方案中，并入到碱基编辑器中的脱氨酶包含APOBEC3H脱氨酶的全部或一部分。在一些实施方案中，并入到碱基编辑器中的脱氨酶包含APOBEC4脱氨酶的全部或一部分。在一些实施方案中，并入到碱基编辑器中的脱氨酶包含激活诱导的脱氨酶(AID)的全部或一部分。在一些实施方案中，并入到碱基编辑器中的脱氨酶包含胞苷脱氨酶1(CDA1)的全部或一部分。应当理解，碱基编辑器可以包含来自任何合适的生物体(例如，人或大鼠)的脱氨酶。在一些实施方案中，碱基编辑器的脱氨酶结构域来自人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠。在一些实施方案中，碱基编辑器的脱氨酶结构域来源于大鼠(例如，大鼠APOBEC1)。在一些实施方案中，碱基编辑器的脱氨酶结构域是人APOBEC1。在一些实施方案中，碱基编辑器的脱氨酶结构域是pmCDA1。

下面提供了根据本公开的方面可以与Cas9融合的其他示例性脱氨酶。在实施方案中，脱氨酶是激活诱导的脱氨酶(AID)。应当理解，在一些实施方案中，可以使用相应序列的活性结构域，例如，没有定位信号(核定位序列，没有核输出信号、细胞质定位信号)的结构域。

本公开的一些方面基于以下认识：调节本文所述的任何融合蛋白的脱氨酶结构域催化活性(例如通过在脱氨酶结构域中进行点突变)影响融合蛋白(例如，碱基编辑器)的持续性。例如，降低但不消除碱基编辑融合蛋白内脱氨酶结构域的催化活性的突变可以使得脱氨酶结构域不太可能催化与靶残基相邻的残基的脱氨，从而缩小脱氨窗口。缩小脱氨窗口的能力可以防止与特定靶残基相邻的残基发生不需要的脱氨，这可以减少或防止脱靶效应。

例如，在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包含选自由rAPOBEC1的H121X、H122X、R126X、R126X、R118X、W90X、W90X和R132X组成的组的一个或多个突变，或另一APOBEC脱氨酶中的一个或多个相应突变，其中X是任何氨基酸。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包含选自由rAPOBEC1的H121R、H122R、R126A、R126E、R118A、W90A、W90Y和R132E组成的组的一个或多个突变，或另一APOBEC脱氨酶中的一个或多个相应突变。

在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包含选自由hAPOBEC3G的D316X、D317X、R320X、R320X、R313X、W285X、W285X、R326X组成的组的一个或多个突变，或另一APOBEC脱氨酶中的一个或多个相应突变，其中X是任何氨基酸。在一些实施方案中，本文提供的任何融合蛋白包含APOBEC脱氨酶，其包含选自由hAPOBEC3G的D316R、D317R、R320A、R320E、R313A、W285A、W285Y、R326E组成的组的一个或多个突变，或另一APOBEC脱氨酶中的一个或多个相应突变。

在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包含rAPOBEC1的H121R和H122R突变，或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含rAPOBEC1的R126A突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含rAPOBEC1的R126E突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含rAPOBEC1的R118A突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含rAPOBEC1的W90A突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含rAPOBEC1的W90Y突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含rAPOBEC1的R132E突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含rAPOBEC1的W90Y和R126E突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含rAPOBEC1的R126E和R132E突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含rAPOBEC1的W90Y和R132E突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含rAPOBEC1的W90Y、R126E和R132E突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。

在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含hAPOBEC3G的D316R和D317R突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，本文提供的任何融合蛋白包含APOBEC脱氨酶，其包含hAPOBEC3G的R320A，或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含hAPOBEC3G的R320E突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含hAPOBEC3G的R313A突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含hAPOBEC3G的W285A突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含hAPOBEC3G的W285Y突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含hAPOBEC3G的R326E突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含hAPOBEC3G的W285Y和R320E突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含hAPOBEC3G的R320E和R326E突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含hAPOBEC3G的W285Y和R326E突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。在一些实施方案中，并入到碱基编辑器中的APOBEC脱氨酶可以包括包含hAPOBEC3G的W285Y、R320E和R326E突变或另一APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱氨酶。

许多修饰的胞苷脱氨酶是可商购获得的，包括但不限于SaBE3、SaKKH-BE3、VQR-BE3、EQR-BE3、VRER-BE3、YE1-BE3、EE-BE3、YE2-BE3和YEE-BE3，其可获得自Addgene(质粒85169、85170、85171、85172、85173、85174、85175、85176、85177)。在一些实施方案中，并入到碱基编辑器中的脱氨酶包含APOBEC1脱氨酶的全部或一部分。

在一些实施方案中，本发明的融合蛋白包含一个或多个胞苷脱氨酶结构域。在一些实施方案中，本文提供的胞苷脱氨酶能够将胞嘧啶或5-甲基胞嘧啶脱氨为尿嘧啶或胸腺嘧啶。在一些实施方案中，本文提供的胞苷脱氨酶能够使DNA中的胞嘧啶脱氨。胞苷脱氨酶可以来源于任何合适的生物体。在一些实施方案中，胞苷脱氨酶是天然存在的胞苷脱氨酶，其包含对应于本文提供的任何突变的一个或多个突变。本领域技术人员将能够例如通过序列比对和同源残基的测定来鉴定任何同源蛋白质中的相应残基。因此，本领域技术人员将能够在任何天然存在的胞苷脱氨酶中生成对应于本文描述的任何突变的突变。在一些实施方案中，胞苷脱氨酶来自原核生物。在一些实施方案中，胞苷脱氨酶来自细菌。在一些实施方案中，胞苷脱氨酶变体来自哺乳动物(例如，人)

在一些实施方案中，胞苷脱氨酶包含与本文阐述的任何一种胞苷脱氨酶氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。应当理解，本文提供的胞苷脱氨酶可以包含一个或多个突变(例如，本文提供的任何突变)。一些实施方案提供了编码任何前述方面或如本文所描述的胞苷脱氨酶核碱基编辑器多肽的多核苷酸分子。在一些实施方案中，多核苷酸是密码子优化的。

本公开提供了本文所述的具有一定百分比同一性的任何脱氨酶结构域加上任何突变或其组合。在一些实施方案中，胞苷脱氨酶包含与本文提供的参考序列或任何胞苷脱氨酶相比具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、21个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个或更多个突变的氨基酸序列。在一些实施方案中，胞苷脱氨酶包含与本领域已知或本文描述的任何一种氨基酸序列相比具有至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少110个、至少120个、至少130个、至少140个、至少150个、至少160个或至少170个相同的连续氨基酸残基的氨基酸序列。

本发明第二蛋白质的融合蛋白包含两个或更多个核酸编辑结构域。

C到T核碱基编辑蛋白的细节描述于国际PCT申请号PCT/US2016/058344(WO2017/070632)和Komor,A.C.等人,“Programmable editing of a target base in genomic DNAwithout double-stranded DNA cleavage”Nature 533,420-424(2016)，其全部内容以引用方式特此并入。

指导多核苷酸

当与结合的指导多核苷酸(例如，gRNA)结合时，多核苷酸可编程核苷酸结合结构域可以特异性结合靶多核苷酸序列(即，通过结合的指导核酸的碱基和靶多核苷酸序列的碱基之间的互补碱基配对)，从而将碱基编辑器定位到需要被编辑的靶核酸序列。在一些实施方案中，靶多核苷酸序列包括单链DNA或双链DNA。在一些实施方案中，靶多核苷酸序列包括RNA。在一些实施方案中，靶多核苷酸序列包括DNA-RNA杂交体。

CRISPR是适应性免疫系统，提供针对移动遗传因子(病毒、转座因子和接合质粒)的保护。CRISPR簇含有间隔区、与先行移动元件互补的序列和靶入侵核酸。CRISPR簇被转录并加工成CRISPR RNA(crRNA)。在II型CRISPR系统中，正确处理pre-crRNA需要反式编码的小RNA(tracrRNA)、内源性核糖核酸酶3(rnc)和Cas9蛋白。trac rRNA作为核糖核酸酶3辅助处理pre-crRNA的指导物。随后，Cas9/crRNA/tracrRNA核酸内切切割与间隔区互补的线性或环状dsDNA靶标。与crRNA不互补的靶链首先被核酸内切切割，然后被3’-5’核酸外切修剪。在自然界中，DNA结合和切割通常需要蛋白质和两种RNA。然而，可以对单指导RNA(“sgRNA”，或简称“gRNA”)进行工程化改造，以将crRNA和tracrRNA的各个方面并入单个RNA物种中。参见例如，Jinek M.等人Science 337:816-821(2012)，其全部内容以引用方式特此并入。Cas9识别CRISPR重复序列中的短基序(PA M或原型间隔区相邻基序)以帮助区分自身与非自身。参见例如，“Complete genome sequence of an M1 strain ofStreptococcus pyogen es”Ferretti,J.J.等人,Natl.Acad.Sci.U.S.A.98:4658-4663(2001)；“CRI SPR RNA maturation by trans-encoded small RNA and host factorRNase III.”Deltcheva E.等人,Nature 471:602-607(2011)；以及“Pr ogrammabledual-RNA-guided DNA endonuclease in adaptive bacteri al immunity.”Jinek M.等人,Science 337:816-821(2012)，其中的每一个的全部内容都以引用方式并入本文。

PAM序列可以是本领域已知的任何PAM序列。合适的PAM序列包括但不限于NGG、NGA、NGC、NGN、NGT、NGCG、NGAG、NGAN、NGNG、NGCN、NGCG、NGTN、NNGRRT、NNNRRT、NNGRR(N)、TTTV、TYCV、TYCV、TATV、NNNNGATT、NNAGAAW或NAAAAC。Y是嘧啶；N是任何核苷酸碱基；W是A或T。

在一个实施方案中，本文所述的指导多核苷酸可以是RNA或DNA。在一个实施方案中，指导多核苷酸是gRNA。RNA/Cas复合物可以协助将Cas蛋白“指导”到靶DNA。Cas9/crRNA/tracrRNA核酸内切切割与间隔区互补的线性或环状dsDNA靶标。与crRNA不互补的靶链首先被核酸内切切割，然后被3’-5’核酸外切修剪。在自然界中，DNA结合和切割通常需要蛋白质和两种RNA。然而，可以对单指导RNA(“sgRNA”，或简称“gRNA”)进行工程化改造，以将crRNA和tracrRNA的各个方面并入单个RNA物种中。参见例如Jinek M.等人,Science 337:816-821(2012),其全部内容以引用方式特此并入。

在一些实施方案中，指导多核苷酸是至少一个单指导RNA(“sgRNA”或“gNRA”)。在一些实施方案中，指导多核苷酸包含两个或更多个单独的多核苷酸，它们可以通过例如互补碱基配对(例如，双指导多核苷酸、双gRNA)彼此相互作用。例如，指导多核苷酸可以包含CRISPR RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)或可以包含一种或多种反式激活CRISPR RNA(tracrRNA)。

在一些实施方案中，指导多核苷酸是至少一种tracrRNA。在一些实施方案中，指导多核苷酸不需要PAM序列来将多核苷酸可编程DNA结合结构域(例如，Cas9或Cpf1)指导至靶核苷酸序列。

指导多核苷酸可以包含天然的或非天然的(non-natural或unnatural)核苷酸(例如，肽核酸或核苷酸类似物)。在一些情况下，指导核酸序列的靶区域的长度可以是至少15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个或30个核苷酸。指导核酸的靶区域的长度可以在10-30个核苷酸之间，或在15-25个核苷酸之间，或在15-20个核苷酸之间。

在一些实施方案中，本文提供的碱基编辑器利用一个或多个指导多核苷酸(例如，多个gRNA)。在一些实施方案中，单指导多核苷酸用于本文所述的不同碱基编辑器。例如，单指导多核苷酸可以用于胞苷碱基编辑器和腺苷碱基编辑器。

在一些实施方案中，本文所述的方法可以利用工程化Cas蛋白。指导RNA(gRNA)是短合成RNA，其由Cas结合所必需的支架序列和使用者定义的约20个核苷酸的间隔区组成，所述间隔区定义了要修饰的基因组靶标。示例性gRNA支架序列在序列表中提供为SEQ IDNO:405-415。因此，熟练的技术人员可以改变Cas蛋白特异性的基因组靶标，部分取决于与基因组的其余部分相比，gRNA靶向序列对基因组靶标的特异性。

在其他实施方案中，指导多核苷酸可以在单个分子(即，单分子指导核酸)中包含核酸的多核苷酸靶向部分和核酸的支架部分。例如，单分子指导多核苷酸可以是单指导RNA(sgRNA或gRNA)。在本文中，术语指导多核苷酸序列涵盖能够与靶多核苷酸序列相互作用并将碱基编辑器导向靶多核苷酸序列的任何单分子、双分子或多分子核酸。

通常，指导多核苷酸(例如，crRNA/trRNA复合物或gRNA)包含有包含能够识别并结合靶多核苷酸序列的序列的“多核苷酸靶向片段”，以及在碱基编辑器的多核苷酸可编程核苷酸结合结构域组分内稳定指导多核苷酸的“蛋白质结合片段”。在一些实施方案中，指导多核苷酸的多核苷酸靶向片段识别并结合DNA多核苷酸，从而促进DNA中碱基的编辑。在其他情况下，指导多核苷酸的多核苷酸靶向片段识别并结合RNA多核苷酸，从而促进RNA中碱基的编辑。在本文中，“片段”是指分子的部分或区域，例如，指导多核苷酸中的一段连续的核苷酸。片段还可以指复合物的区域/部分，使得片段可以包含多于一个分子的区域。例如，在指导多核苷酸包含多个核酸分子的情况下，其蛋白质结合片段可以包含例如沿着互补区域杂交的多个单独分子的全部或一部分。在一些实施方案中，包含两个单独分子的靶向DNA的RNA的蛋白质结合片段可以包含(i)长度为100个碱基对的第一RNA分子的碱基对40-75；和(ii)长度为50个碱基对的第二RNA分子的碱基对10-25。除非另外在特定背景下确切地定义，否则“片段”的定义不限于特定数目的总碱基对，不限于来自给定RNA分子的任何具体数目的碱基对，不限于复合物内的具体数目的单独分子，并且可以包括具有任何总长度的RNA分子的区域并且可以包括与其他分子具有互补性的区域。

指导多核苷酸可以化学合成、酶促合成或其组合合成。例如，可以使用标准的基于亚磷酰胺的固相合成方法合成gRNA。或者，可以通过将编码gRNA的DNA可操作地连接到由噬菌体RNA聚合酶识别的启动子控制序列来体外合成gRNA。合适的噬菌体启动子序列的实例包括T7、T3、SP6启动子序列或其变体。在gRNA包含两个单独分子(例如，crRNA和tracrRNA)的实施方案中，crRNA可以是化学合成的并且tracrRNA可以是酶促合成的。

指导多核苷酸可以例如通过编码gRNA的DNA(例如，包含编码gRNA的序列的DNA载体)来表达。gRNA可以单独编码，或与编码的碱基编辑器一起编码。这样的DNA序列可以一起或单独引入表达系统，例如细胞。例如，可以将编码多核苷酸可编程核苷酸结合结构域和gRNA的DNA序列引入细胞中，每个DNA序列可以是单独分子的一部分(例如，含有多核苷酸可编程核苷酸结合结构域编码序列的载体和含有gRNA编码序列的第二载体),或两者可以是同一分子的一部分(例如，含有多核苷酸可编程核苷酸结合结构域和gRNA两者的编码(和调节)序列的载体)。RNA可以从合成的DNA分子(例如，基因片段)转录。gRNA分子可以体外转录。

gRNA或指导多核苷酸可以包含三个区域：可以与染色体序列中的靶位点互补的5'端的第一区域，可以形成茎环结构的第二内部区域，以及可以是单链的第三3'区域。每个gRNA的第一区域也可以不同，使得每个gRNA将融合蛋白导向特定靶位点。此外，每个gRNA的第二和第三区域在所有gRNA中可以是相同的。

gRNA或指导多核苷酸的第一区域可以与染色体序列中靶位点处的序列互补，使得gRNA的第一区域可以与靶位点碱基配对。在一些情况下，gRNA的第一区域可以包含10个或约10个核苷酸至25个核苷酸(即，10个核苷酸至约25个核苷酸；或约10个核苷酸至约25个核苷酸；或10个核苷酸至约25个核苷酸；或约10个核苷酸至25个核苷酸)或更多。例如，gRNA的第一区域和染色体序列中的靶位点之间的碱基配对区域的长度可以是或可以是约10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、22个、23个、24个、25个或更多个核苷酸。有时，gRNA的第一区域的长度可以是或可以是约19个、20个或21个核苷酸。

gRNA或指导多核苷酸还可以包含形成二级结构的第二区域。例如，由gRNA形成的二级结构可以包含茎(或发夹)和环。环和茎的长度可以变化。例如，环的长度可以在约3至约10个核苷酸的范围内，并且茎的长度可以在约6至约20个碱基对的范围内。茎可以包含1至约10个或约10个核苷酸的一个或多个凸起。第二区域的总长度可以在16或约16至60个核苷酸长度的范围内。例如，环的长度可以是或可以是约4个核苷酸，并且茎可以是或可以是约12个碱基对。

gRNA或指导多核苷酸还可以在3'端包含第三区域，所述第三区域基本上可以是单链的。例如，第三区域有时与感兴趣的细胞中的任何染色体序列不互补，并且有时与gRNA的其余部分不互补。此外，第三区域的长度可以变化。第三区域的长度可以多于4个或多于约4个核苷酸。例如，第三区域的长度可以在5或约5至60个核苷酸的范围内。

gRNA或指导多核苷酸可以靶向基因靶标的任何外显肽或内含肽。在某些情况下，指导物可以靶向基因的外显肽1或2；在其他情况下，指导物可以靶向基因的外显肽3或4。在一些实施方案中，组合物包含全部靶向相同外显肽的多个gRNA或靶向不同外显肽的多个gRNA。可以靶向基因的外显肽和/或内含肽。

gRNA或指导多核苷酸可以靶向约20个核苷酸或少于约20个核苷酸(例如，至少约5个、10个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、30个核苷酸)或约1-100个之间任何数量的核苷酸(例如，5个、10个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、30个、40个、50个、60个、70个、80个、90个、100个)的核酸序列。靶核酸序列可以是紧邻PAM的第一个核苷酸的5'的20个碱基或可以是紧邻PAM的第一个核苷酸的5'的约20个碱基。gRNA可以靶向核酸序列。靶核酸可以是至少或至少约1-10个、1-20个、1-30个、1-40个、1-50个、1-60个、1-70个、1-80个、1-90或1-100个核苷酸。

用于选择、设计和验证指导多核苷酸例如gRNA和靶向序列的方法在本文中描述并且为本领域技术人员所知。例如，为了最小化核碱基编辑器系统中脱氨酶结构域(例如，AID结构域)的潜在底物混乱的影响，可能无意中被靶向以脱氨的残基(例如，靶核酸基因座内的单链DNA上的可能潜在的脱靶C残基)的数量可以被最小化。此外，软件工具可以用于优化对应于靶核酸序列的gRNA，例如，用于最小化整个基因组的总脱靶活性。例如，对于使用酿脓链球菌Cas9的每个可能的靶向结构域选择，可以在整个基因组中鉴定所有脱靶序列(在选择的PAM之前，例如NAG或NGG)，所述基因组含有多达一定数量(例如，1、2、3、4、5、6、7、8、9或10)的错配的碱基对。可以鉴定与靶位点互补的gRNA的第一区域，并且可以根据其总预测脱靶分数对所有第一区域(例如，crRNA)排序；排名靠前的靶结构域表示那些可能具有最大靶上和最小脱靶活性的结构域。可以通过使用本领域已知的方法和/或如本文说明对候选靶向gRNA进行功能评估。

作为非限制性实例，gRNA的crRNA中用于与Cas9一起使用的靶DNA杂交序列可以使用DNA序列搜索算法来鉴定。gRNA设计使用基于公共工具cas-OFFinder的自定义gRNA设计软件进行，如Bae S.,Park J.和Kim J.-S.Cas-OFFinder:A fast and versatilealgorithm that searches for potential off-target sites of Cas9 RNA-guidedendonucleases.Bioinformatics 30,1473-1475(2014)中所述。此软件在计算指导全基因组脱靶倾向后对其进行评分。对于长度在17至24范围内的指导物，通常会考虑从完全匹配到7个错配的匹配。一旦计算确定脱靶位点，就会为每个指导物计算总分，并使用Web界面以表格输出形式进行汇总。除了鉴定与PAM序列相邻的潜在靶位点外，所述软件还鉴定与选定靶位点相差1个、2个、3个或超过3个核苷酸的所有PAM相邻序列。可以获得靶核酸序列(例如，靶基因)的基因组DNA序列，并且使用公开可用的工具(例如RepeatMasker程序)可以筛选重复元件。RepeatMasker在输入DNA序列中搜索重复元件和低复杂性区域。输出是给定查询序列中存在的重复序列的详细注释。

鉴定后，gRNA的第一区域(例如，crRNA)基于它们与靶位点的距离、它们的正交性以及与相关PAM序列紧密匹配的5'核苷酸(例如，基于含有相关PAM的人基因组中密切匹配的鉴定的5'G，例如，化脓性链球菌的NGG PAM、金黄色葡萄球菌的NNGRRT或NNGRRV PAM)的存在进行分级。如本文所用，正交性是指人基因组中含有与靶序列最少的错配数量的序列的数量。例如，“高水平正交性”或“良好正交性”是指在人基因组中除预期靶标外没有相同序列的20-mer靶向结构域，或指在靶序列中含有一个或两个错配的任何序列。可以选择具有良好正交性的靶向结构域以最小化脱靶DNA切割。

然后gRNA可以作为RNA分子或非RNA核酸分子(例如，DNA分子)被引入细胞或胚胎中。在一个实施方案中，编码gRNA的DNA能够可操作地连接至启动子控制序列，以用于在感兴趣的细胞或胚胎中表达所述gRNA。RNA编码序列能够可操作地连接至由RNA聚合酶III(Pol III)识别的启动子序列。可用于表达gRNA的质粒载体包括但不限于px330载体和px333载体。在一些情况下，质粒载体(例如，px333载体)可以包含至少两个编码gRNA的DNA序列。此外，载体可以包含另外的表达控制序列(例如，增强子序列、Kozak序列、聚腺苷酸化序列、转录终止序列等)、选择性标志物序列(例如，GFP或抗生素抗性基因诸如嘌呤霉素)、复制起点等。编码gRNA的DNA分子还可以是线性的。编码gRNA或指导多核苷酸的DNA分子还可以是环状的。

在一些实施方案中，报告系统用于检测碱基编辑活性和测试候选指导多核苷酸。在一些实施方案中，报告系统包括基于报告基因的测定，其中碱基编辑活性导致报告基因的表达。例如，报告系统可以包括包含灭活起始密码子的报告基因，例如，模板链上从3'-TAC-5'到3'-CAC-5'的突变。在靶C成功脱氨后，相应的mRNA将被转录为5'-AUG-3'而不是5'-GUG-3'，从而实现报告基因的翻译。合适的报告基因对于本领域技术人员是显而易见的。报告基因的非限制性实例包括编码绿色荧光蛋白(GFP)、红色荧光蛋白(RFP)、荧光素酶、分泌型碱性磷酸酶(SEAP)的基因，或者其表达对于本领域技术人员来说是可检测的和显而易见的任何其他基因。报告系统可以用于测试许多不同的gRNA，例如，以确定相应脱氨酶将靶向哪些相对于靶DNA序列的残基。还可以测试靶向非模板链的sgRNA，以评估特定碱基编辑蛋白(例如，Cas9脱氨酶融合蛋白)的脱靶效应。在一些实施方案中，可以设计这样的gRNA，使得突变的起始密码子不会与gRNA碱基配对。指导多核苷酸可以包括标准核糖核苷酸、修饰的核糖核苷酸(例如，假尿苷)、核糖核苷酸异构体和/或核糖核苷酸类似物。在一些实施方案中，指导多核苷酸可以包含至少一种可检测标记。可检测标记可以是荧光团(例如，FAM、TMR、Cy3、Cy5、Texas Red、Oregon Green、Alexa Fluors、Halo标签或合适的荧光染料)、检测标签(例如，生物素、地高辛等)、量子点或金粒子。

在一些实施方案中，碱基编辑器系统可以包含多个指导多核苷酸，例如gRNA。例如，gRNA可以靶向一个或多个包含在碱基编辑器系统中的靶基因座(例如，至少1个gRNA、至少2个gRNA、至少5个gRNA、至少10个gRNA、至少20个gRNA、至少30个gRNA、至少50个gRNA)。多个gRNA序列可以串联排列并且优选地通过直接重复分开。

修饰的多核苷酸

为了增强表达、稳定性和/或基因组/碱基编辑效率，和/或减少可能的毒性，可以修饰碱基编辑器编码序列(例如，mRNA)和/或指导多核苷酸(例如，gRNA)以包含一种或多种修饰的核苷酸和/或化学修饰，例如，使用假尿苷、5-甲基-胞嘧啶、2′-O-甲基-3′-膦酰基乙酸酯、2′-O-甲基硫基PACE(MSP)、2′-O-甲基-PACE(MP)、2′-氟RNA(2′-F-RNA)、＝受限乙基(S-cEt)、2′-O-甲基(‘M’)、2'-O-甲基-3'-硫代磷酸酯(‘MS’)、2'-O-甲基-3'-硫代膦酰乙酸酯(‘MSP’)、5-甲氧基尿苷、硫代磷酸酯和N1-甲基假尿苷。化学保护的gRNA可以增强体内和体外的稳定性和编辑效率。使用化学修饰的mRNA和指导RNA的方法是本领域已知的，并且例如由Jiang等人,Chemical modifications of ade nine base editor mRNA and guideRNA expand its application scop e.Nat Commun 11,1979(2020).doi.org/10.1038/s41467-020-15892-8,Callum等人,N1-Methylpseudouridine substitution enhancesthe pe rformance of synthetic mRNA switches in cells,Nucleic Acids Rese arch,第48卷,第6期,2020年4月6日,第35页，以及Andries等人,Journal of ControlledRelease,第217卷,2015年11月10日,第337-344页描述，所述文献各自以引用方式整体并入本文。

在特定实施方案中，化学修饰是2'-O-甲基(2'-OMe)修饰。修饰的指导RNA可以提高saCas9的功效和特异性。单个修饰的效果基于所用化学修饰的位置和组合以及与其他修饰核苷酸的分子间和分子内相互作用而变化。举例来说，S-cEt已被用于改善寡核苷酸分子内折叠。

在一些实施方案中，指导多核苷酸在指导物的5'末端和/或3'末端包含一种或多种修饰的核苷酸。在一些实施方案中，指导多核苷酸在指导物的5'末端和/或3'末端包含两种、三种、四种或更多种修饰的核苷酸。在一些实施方案中，指导多核苷酸在指导物的5'末端和/或3'末端包含两种、三种、四种或更多种修饰的核苷酸。在一些实施方案中，指导多核苷酸在指导物的5'末端包含四种修饰的核苷酸，并且在指导物的3'末端包含四种修饰的核苷酸。在一些实施方案中，修饰的核苷酸包含2'-O-甲基或硫代磷酸酯。

在一些实施方案中，指导物包含至少约50％-75％的修饰的核苷酸。在一些实施方案中，指导物包含至少约85％或更多的修饰的核苷酸。在一些实施方案中，gRNA的5'末端处的至少约1-5个核苷酸被修饰并且gRNA的3'末端处的至少约1-5个核苷酸被修饰。在一些实施方案中，gRNA的5'和3'末端处各至少约3-5个连续核苷酸被修饰。在一些实施方案中，同向重复或反向重复中存在的至少约20％的核苷酸被修饰。在一些实施方案中，同向重复或反向重复中存在的至少约50％的核苷酸被修饰。在一些实施方案中，同向重复或反向重复中存在的至少约50％-75％的核苷酸被修饰。在一些实施方案中，同向重复或反向重复中存在的至少约100个核苷酸被修饰。在一些实施方案中，gRNA支架中存在的发夹中存在的至少约20％或更多的核苷酸被修饰。在一些实施方案中，gRNA支架中存在的发夹中存在的至少约50％或更多的核苷酸被修饰。在一些实施方案中，指导物包含可变长度间隔区。在一些实施方案中，指导物包含20-40个核苷酸的间隔区。在一些实施方案中，指导物包含间隔区，其包含至少约20-25个核苷酸或至少约30-35个核苷酸。在一些实施方案中，间隔区包含修饰的核苷酸。在一些实施方案中，指导物包含以下中的两者或更多：

gRNA的5'末端处的至少约1-5个核苷酸被修饰并且gRNA的3'末端处的至少约1-5个核苷酸被修饰；

同向重复或反向重复中存在的至少约20％的核苷酸被修饰；

同向重复或反向重复中存在的至少约50％-75％的核苷酸被修饰；

gRNA支架中存在的发夹中存在的至少约20％或更多的核苷酸被修饰；

可变长度间隔区；以及

包含修饰的核苷酸的间隔区。

在实施方案中，gRNA含有许多修饰的核苷酸和/或化学修饰(“重修饰”)。此类重修饰可以在体内或体外将碱基编辑增加约2倍。对于此类修饰，mN＝2′-OMe；Ns＝硫代磷酸酯(PS)，其中“N”代表任何核苷酸，如本领域技术人员所理解的。在一些情况下，核苷酸(N)可以含有两种修饰，例如2'-OMe和PS修饰两者。例如，具有硫代磷酸酯和2'OMe的核苷酸表示为“mNs”；当有两个修饰彼此相邻时，符号为“mNsmNs”。

在修饰的gRNA的一些实施方案中，gRNA包含选自由以下组成的组的一种或多种化学修饰：2'-O-甲基(2'-OMe)、硫代磷酸酯(PS)、2'-O-甲基硫基PACE(MSP)、2'-O-甲基-PACE(MP)、2'-O-甲基硫基PACE(MSP)、2'-氟RNA(2'-F-RNA)和受限乙基(S-cEt)。在实施方案中，gRNA包含2'-O-甲基或硫代磷酸酯修饰。在一个实施方案中，gRNA包含2'-O-甲基和硫代磷酸酯修饰。在一个实施方案中，修饰将碱基编辑增加至少约2倍。

指导多核苷酸可以包含一种或多种修饰以提供具有新的或增强的特征的核酸。指导多核苷酸可以包含核酸亲和标签。指导多核苷酸可以包含合成核苷酸、合成核苷酸类似物、核苷酸衍生物和/或修饰的核苷酸。

在一些情况下，gRNA或指导多核苷酸可以包括修饰。可以在gRNA或指导多核苷酸的任何位置进行修饰。可以对单个gRNA或指导多核苷酸进行超过一种修饰。gRNA或指导多核苷酸可以在修饰后进行质量控制。在一些情况下，质量控制可以包括PAGE、HPLC、MS或其任何组合。

gRNA或指导多核苷酸的修饰可以是取代、插入、缺失、化学修饰、物理修饰、稳定化、纯化或其任何组合。

gRNA或指导多核苷酸也可以被以下修饰：5'腺苷酸、5'鸟苷-三磷酸帽、5'N7-甲基鸟苷-三磷酸帽、5'三磷酸帽、3'磷酸、3'硫代磷酸、5'磷酸、5'硫代磷酸、Cis-Syn胸苷二聚体、三聚体、C12间隔区、C3间隔区、C6间隔区、dSpacer、PC间隔区、rSpacer、间隔区18、间隔区9、3'-3'修饰、2′-O-甲基硫基PACE(MSP)、2′-O-甲基-PACE(MP)和受限乙基(S-cEt)、5'-5'修饰、脱碱基、吖啶、偶氮苯、生物素、生物素BB、生物素TEG、胆固醇TEG、脱硫生物素TEG、DNP TEG、DNP-X、DOTA、dT-生物素、双生物素、PC生物素、补骨脂素C2、补骨脂素C6、TINA、3'DABCYL、黑洞猝灭剂1、黑洞猝灭剂2、DABCYL SE、dT-DABCYL、IRDye QC-1、QSY-21、QSY-35、QSY-7、QSY-9、羧基接头、硫醇接头、2'-脱氧核糖核苷类似物嘌呤、2'-脱氧核糖核苷类似物嘧啶、核糖核苷类似物、2'-O-甲基核糖核苷类似物、糖修饰类似物、摇摆/通用碱基、荧光染料标记、2'-氟RNA、2'-O-甲基RNA、甲基膦酸盐、磷酸二酯DNA、磷酸二酯RNA、硫代磷酸酯DNA、硫代磷酸酯RNA、UNA、假尿苷-5'-三磷酸、5'-甲基胞苷-5'-三磷酸盐，或其任何组合。

在一些情况下，修饰是永久性的。在其他情况下，修饰是瞬时的。在一些情况下，对gRNA或指导多核苷酸进行多种修饰。gRNA或指导多核苷酸修饰可以改变核苷酸的物理化学特性，诸如它们的构象、极性、疏水性、化学反应性、碱基配对相互作用或其任何组合。

通过用分离的gRNA或包含编码指导RNA的序列和启动子的质粒DNA转染细胞，可以将指导多核苷酸转移至细胞中。gRNA或指导多核苷酸也可以通过其他方式转移到细胞中，诸如使用病毒介导的基因递送。可以分离gRNA或指导多核苷酸。例如，gRNA可以以分离的RNA的形式转染到细胞或生物体中。gRNA可以通过使用本领域已知的任何体外转录系统进行体外转录来制备。gRNA可以以分离的RNA的形式而不是以包含gRNA编码序列的质粒的形式转移到细胞中。

修饰也可以是硫代磷酸酯取代。在一些情况下，天然磷酸二酯键可以易于被细胞核酸酶快速降解；并且使用硫代磷酸酯(PS)键取代物的核苷酸间键联的修饰对于通过细胞降解水解可以更稳定。修饰可以增加gRNA或指导多核苷酸的稳定性。修饰还可以增强生物活性。在一些情况下，硫代磷酸酯增强的RNA gRNA可以抑制RNA酶A、RNA酶T1、小牛血清核酸酶或其任何组合。这些特性可以允许PS-RNA gRNA用于在体内或体外暴露于核酸酶的可能性较高的应用中。例如，可以在gRNA的5'或3'末端的最后3-5个核苷酸之间引入硫代磷酸酯(PS)键，其可以抑制核酸外切酶降解。在一些情况下，可以在整个gRNA中添加硫代磷酸酯键以减少核酸内切酶的攻击。

在一些实施方案中，设计指导RNA以破坏剪接位点(即，剪接受体(SA)或剪接供体(SD))。在一些实施方案中，设计指导RNA使得碱基编辑导致提前终止密码子。

原型间隔区相邻基序

术语“原型间隔区相邻基序(PAM)”或PAM样基序是指紧随CRISPR细菌适应性免疫系统中Cas9核酸酶靶向的DNA序列的2-6个碱基对DNA序列。在一些实施方案中，PAM可以是5'PAM(即，位于原型间隔区5'端的上游)。在其他实施方案中，PAM可以是3'PAM(即，位于原型间隔区5'端的下游)。PAM序列对于靶标结合至关重要，但确切的序列取决于Cas蛋白的类型。PAM序列可以是本领域已知的任何PAM序列。合适的PAM序列包括但不限于NGG、NGA、NGC、NGN、NGT、NGTT、NGCG、NGAG、NGAN、NGNG、NGCN、NGCG、NGTN、NNGRRT、NNNRRT、NNGRR(N)、TTTV、TYCV、TYCV、TATV、NNNNGATT、NNAGAAW或NAAAAC。Y是嘧啶；N是任何核苷酸碱基；W是A或T。

本文提供的碱基编辑器可以包含CRISPR蛋白衍生结构域，所述结构域能够结合含有规范或非规范原型间隔区相邻基序(PAM)序列的核苷酸序列。PAM位点是接近靶多核苷酸序列的核苷酸序列。本公开的一些方面提供了碱基编辑器，其包含具有不同PAM特异性的CRISPR蛋白的全部或部分。

例如，Cas9蛋白，诸如来自酿脓链球菌的Cas9(spCas9)，通常需要规范的NGG PAM序列来结合特定的核酸区域，其中“NGG”中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C)，并且G是鸟嘌呤。PAM可以是CRISPR蛋白质特异性的，并且在包含不同CRISPR蛋白质衍生结构域的不同碱基编辑器之间可以不同。PAM可以是靶序列的5'或3'。PAM可以位于靶序列的上游或下游。PAM的长度可以是1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个核苷酸。通常，PAM的长度在2-6个核苷酸之间。

在一些实施方案中，PAM是“NRN”PAM，其中“NRN”中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C)，并且R是腺嘌呤(A)或鸟嘌呤(G)；或PAM为“NYN”PAM，其中NYN中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C)，并且Y是胞苷(C)或胸腺嘧啶(T)，例如，如R.T.Walton等人,2020,Science,10.1126/science.aba8853(2020)中所描述的，其全部内容以引用方式并入本文。

下表6中描述了几种PAM变体。

表6.Cas9蛋白和对应PAM序列

在一些实施方案中，PAM是NGC。在一些实施方案中，NGC PAM被Cas9变体识别。在一些实施方案中，NGC PAM变体包含一个或多个选自D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(统称为“MQKFRAER”)的氨基酸取代。

在一些实施方案中，PAM是NGT。在一些实施方案中，NGT PAM被Cas9变体识别。在一些实施方案中，NGT PAM变体是通过在一个或多个残基1335、1337、1135、1136、1218和/或1219处的靶向突变产生的。在一些实施方案中，NGT PAM变体是通过在一个或多个残基1219、1335、1337、1218处的靶向突变产生的。在一些实施方案中，NGT PAM变体是通过在一个或多个残基1135、1136、1218、1219和或1335处的靶向突变产生的。在一些实施方案中，NGT PAM变体选自下表7A和7B中提供的靶向突变组。

表7A：在残基1219、1335、1337、1218处的NGT PAM变体突变

表7B：在残基1135、1136、1218、1219和1335处的NGT PAM变体突变

在一些实施方案中，NGT PAM变体选自表7A和表7B中的变体5、7、28、31或36。在一些实施方案中，变体具有改进的NGT PAM识别。

在一些实施方案中，NGT PAM变体在残基1219、1335、1337和/或1218处具有突变。在一些实施方案中，NGT PAM变体是从下表8中提供的变体中选择的具有改进识别的突变。

表8：在残基1219、1335、1337和1218处的NGT PAM变体突变

变体	E1219V	R1335Q	T1337	G1218
					1	F	V	T
2	F	V	R
					3	F	V	Q
4	F	V	L
					5	F	V	T	R
6	F	V	R	R
					7	F	V	Q	R
8	F	V	L	R

在一些实施方案中，NGT PAM选自下表9中提供的变体。

表9.NGT PAM变体

在一些实施方案中，NGTN变体是变体1。在一些实施方案中，NGTN变体是变体2。在一些实施方案中，NGTN变体是变体3。在一些实施方案中，NGTN变体是变体4。在一些实施方案中，NGTN变体是变体5。在一些实施方案中，NGTN变体是变体6。

在一些实施方案中，Cas9结构域是来自化脓性链球菌的Cas9结构域(SpCas9)。在一些实施方案中，SpCas9结构域是核酸酶活性SpCas9、无核酸酶活性的SpCas9(SpCas9d)或SpCas9切口酶(SpCas9n)。在一些实施方案中，SpCas9包含D9X突变，或本文提供的任何氨基酸序列中的相应突变，其中X是除D之外的任何氨基酸。在一些实施方案中，SpCas9包含D9A突变，或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中，SpCas9结构域、SpCas9d结构域或SpCas9n结构域可以结合具有非规范PAM的核酸序列。在一些实施方案中，SpCas9结构域、SpCas9d结构域或SpCas9n结构域可以结合具有NGG、NGA或NGCG PAM序列的核酸序列。

在一些实施方案中，SpCas9结构域包含D1135X、R1335X和T1337X突变或本文提供的任何氨基酸序列中的相应突变中的一个或多个，其中X是任何氨基酸。在一些实施方案中，SpCas9结构域包含D1135E、R1335Q和T1337R突变或本文提供的任何氨基酸序列中的相应突变中的一个或多个。在一些实施方案中，SpCas9结构域包含D1135E、R1335Q和T1337R突变或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中，SpCas9结构域包含D1135X、R1335X和T1337X突变或本文提供的任何氨基酸序列中的相应突变中的一个或多个，其中X是任何氨基酸。在一些实施方案中，SpCas9结构域包含D1135V、R1335Q和T1337R突变或本文提供的任何氨基酸序列中的相应突变中的一个或多个。在一些实施方案中，SpCas9结构域包含D1135V、R1335Q和T1337R突变或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中，SpCas9结构域包含D1135X、G1218X、R1335X和T1337X突变或本文提供的任何氨基酸序列中的相应突变中的一个或多个，其中X是任何氨基酸。在一些实施方案中，SpCas9结构域包含D1135V、G1218R、R1335Q和T1337R突变或本文提供的任何氨基酸序列中的相应突变中的一个或多个。在一些实施方案中，SpCas9结构域包含D1135V、G1218R、R1335Q和T1337R突变或本文提供的任何氨基酸序列中的相应突变。

在一些实施例中，可将由本文公开的碱基编辑器的CRISPR蛋白衍生结构域识别的PAM提供到细胞的编码碱基编辑器的插入物(例如，AAV插入物)的单独寡核苷酸上。在这样的实施方案中，提供单独寡核苷酸上的PAM可以允许切割否则将不能被切割的靶序列，因为在与靶序列相同的多核苷酸上不存在相邻的PAM。

在一个实施方案中，酿脓链球菌Cas9(SpCas9)可以用作用于基因组工程化的CRISPR核酸内切酶。然而，也可以使用其他的。在一些实施方案中，可以使用不同的核酸内切酶来靶向某些基因组靶标。在一些实施方案中，可以使用具有非NGG PAM序列的合成SpCas9衍生变体。此外，已经鉴定了来自不同物种的另外的Cas9直向同源物，并且这些“非SpCas9”可以结合也可以用于本公开的多种PAM序列。例如，相对较大的SpCas9(大约4kb编码序列)可以导致携带不能在细胞中有效表达的SpCas9 cDNA的质粒。相反，金黄色葡萄球菌Cas9(SaCas9)的编码序列比SpCas9短大约1千碱基，可能使其能够在细胞中有效表达。与SpCas9类似，SaCas9核酸内切酶能够体外修饰哺乳动物细胞中的靶基因和体内修饰小鼠中的靶基因。在一些实施方案中，Cas蛋白可以靶向不同的PAM序列。在一些实施方案中，靶基因可以与例如Cas9 PAM、5'-NGG相邻。在其他实施方案中，其他Cas9直向同源物可以具有不同的PAM需求。例如，其他PAM，诸如嗜热链球菌(CRISPR1的5'-NNAGAA和CRISPR3的5'-NGGNG)和脑膜炎奈瑟菌(5'-NNNNGATT)的PAM，也可以与靶基因相邻。

在一些实施方案中，对于酿脓链球菌系统，靶基因序列可以在5'-NGG PAM之前(即，5'至)，并且20-nt的指导RNA序列可以与相反链碱基配对以介导与PAM相邻的Cas9切割。在一些实施方案中，相邻的切口可以是PAM上游的3个或约3个碱基对。在一些实施方案中，相邻的切口可以是PAM上游的10个或约10个碱基对。在一些实施方案中，相邻的切口可以是PAM上游的0-20个或约0-20个碱基对。例如，相邻切口可以在PAM上游1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个或30个碱基对旁。相邻的切口也可以在PAM下游1到30个碱基对。能够结合PAM序列的示例性SpCas9蛋白的序列如下。

在一些实施方案中，工程化SpCas9变体能够识别侧翼为3′H(非G PAM)的原型间隔区相邻基序(PAM)序列(参见表2A至2D)。在一些实施方案中，SpCas9变体识别NRNH PAM(其中R是A或G并且H是A、C或T)。在一些实施方案中，非G PAM是NRRH、NRTH或NRCH(参见例如Miller,S.M.等人Continuous evolution of SpCas9variants compatible with non-GPAMs,Nat.Biotechnol.(2020)，其内容以引用方式整体并入本文)。

在一些实施方案中，Cas9结构域是重组Cas9结构域。在一些实施方案中，重组Cas9结构域是SpyMacCas9结构域。在一些实施方案中，SpyMacCas9结构域是核酸酶活性SpyMacCas9、无核酸酶活性的SpyMacCas9(SpyMacCas9d)或SpyMacCas9切口酶(SpyMacCas9n)。在一些实施方案中，SaCas9结构域、SaCas9d结构域或SaCas9n结构域可以结合具有非规范PAM的核酸序列。在一些实施方案中，SpyMacCas9结构域、SpCas9d结构域或SpCas9n结构域可以结合具有NAA PAM序列的核酸序列。

猕猴链球菌(Streptococcus macacae)中具有天然5'-NAAN-3'PAM特异性的SpyCas9的示例性Cas9 A同源物的序列是本领域已知的并且例如由Chatterjee等人,“A Cas9with PAM recognition for adenine dinucleotides”,Nature Communications,第11卷,文章号2474(2020)描述，并且在序列表中为SEQ ID NO:325。

在一些实施方案中，变体Cas9蛋白具有H840A、P475A、W476A、N477A、D1125A、W1126A和D1218A突变，使得多肽切割靶DNA或RNA的能力减小。此类Cas9蛋白切割靶DNA(例如，单链靶DNA)的能力减小，但保留了结合靶DNA(例如，单链靶DNA)的能力。作为另一个非限制性实例，在一些实施方案中，变体Cas9蛋白具有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A和D1218A突变，使得多肽切割靶DNA的能力减小。此类Cas9蛋白切割靶DNA(例如，单链靶DNA)的能力减小，但保留了结合靶DNA(例如，单链靶DNA)的能力。在一些实施方案中，当变体Cas9蛋白具有W476A和W1126A突变或当变体Cas9蛋白具有P475A、W476A、N477A、D1125A、W1126A和D1218A突变时，变体Cas9蛋白不能有效地结合PAM序列。因此，在一些此类情况下，当此类变体Cas9蛋白用于结合的方法时，所述方法不需要PAM序列。换言之，在一些实施方案中，当此类变体Cas9蛋白用于结合的方法时，所述方法可以包括指导RNA，但是此方法可以在不存在PAM序列的情况下进行(并且因此由指导RNA的靶向片段提供结合的特异性)。可以使其它残基突变以实现以上作用(即，使一个或另一个核酸酶部分失活)。作为非限制性实例，残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987可以被改变(即，取代)。同样，除了丙氨酸取代以外的突变也是合适的。

在一些实施方案中，碱基编辑器的CRISPR蛋白衍生结构域可以包含具有规范PAM序列(NGG)的Cas9蛋白的全部或部分。在其他实施方案中，碱基编辑器的Cas9衍生结构域可以采用非规范PAM序列。此类序列已在本领域中描述并且对本领域技术人员来说是显而易见的。例如，结合非规范PAM序列的Cas9结构域已描述于Kleintiver,B.P.等人,“Engineered CRISPR-Cas9 nucleases with altered PAM specificities”Nature 523,481-485(2015)；和Kleintiver，B.P.等人,“Broadening the targeting range ofStaphylococcus aureus CRISPR-Cas9 by modifying PAM recognition”NatureBiotechnology 33,1293-1298(2015)；R.T.Walton等人“Unconstrained genometargeting with near-PAMless engineered CRISPR-Cas9 variants”Science 10.1126/science.aba8853(2020)；Hu等人“Evolved Cas9 variants with broad PAMcompatibility and high DNA specificity,”Nature,2018Apr.5,556(7699),57-63；Miller等人,“Continuous evolution of SpCas9 variants compatible with non-GPAMs”Nat.Biotechnol.,2020Apr；38(4):471-481；每一个的全部内容以引用方式特此并入。

包含NapDNAbp和胞苷脱氨酶和/或腺苷脱氨酶的融合蛋白

本公开的一些方面提供了包含Cas9结构域或其他核酸可编程DNA结合蛋白(例如，Cas12)和一个或多个胞苷脱氨酶或腺苷脱氨酶结构域的融合蛋白。应当理解，Cas9结构域可以是本文提供的任何Cas9结构域或Cas9蛋白(例如，dCas9或nCas9)。在一些实施方案中，本文提供的任何Cas9结构域或Cas9蛋白(例如，dCas9或nCas9)可以与本文提供的任何胞苷脱氨酶和/或腺苷脱氨酶融合。本文公开的碱基编辑器的结构域可以以任何顺序排列。

在一些实施方案中，融合蛋白包含以下结构域A-C、A-D或A-E：

NH₂-[A-B-C]-COOH；

NH₂-[A-B-C-D]-COOH；或

NH₂-[A-B-C-D-E]-COOH；

其中A和C或A、C和E各自包含以下一项或多项：

腺苷脱氨酶结构域或其活性片段，

胞苷脱氨酶结构域或其活性片段；并且

其中B或B和D各自包含一个或多个具有核酸序列特异性结合活性的结构域。

在一些实施方案中，融合蛋白包含以下结构：

NH₂-[A_n-B_o-C_n]-COOH；

NH₂-[A_n-B_o-C_n-D_o]-COOH；或

NH₂-[A_n-B_o-C_p-D_o-E_q]-COOH；

其中A和C或A、C和E各自包含以下一项或多项：

腺苷脱氨酶结构域或其活性片段，

胞苷脱氨酶结构域或其活性片段；并且

其中n是整数：1、2、3、4或5，其中p是整数：0、1、2、3、4或5；其中q是整数0、1、2、3、4，或5；并且其中B或B和D各自包含具有核酸序列特异性结合活性的结构域；其中o是整数：1、2、3、4或5。

例如但不限于，在一些实施方案中，融合蛋白包含以下结构：

NH2-[腺苷脱氨酶]-[Cas9结构域]-COOH；

NH2-[Cas9结构域]-[腺苷脱氨酶]-COOH；

NH2-[胞苷脱氨酶]-[Cas9结构域]-COOH；

NH2-[Cas9结构域]-[胞苷脱氨酶]-COOH；

NH2-[胞苷脱氨酶]-[Cas9结构域]-[腺苷脱氨酶]-COOH；

NH2-[腺苷脱氨酶]-[Cas9结构域]-[胞苷脱氨酶]-COOH；

NH2-[腺苷脱氨酶]-[胞苷脱氨酶]-[Cas9结构域]-COOH；

NH2-[胞苷脱氨酶]-[腺苷脱氨酶]-[Cas9结构域]-COOH；

NH2-[Cas9结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH；或

NH2-[Cas9结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH。

在一些实施方案中，本文提供的任何Cas12结构域或Cas12蛋白可以与本文提供的任何胞苷或腺苷脱氨酶融合。例如但不限于，在一些实施方案中，融合蛋白包含以下结构：

NH2-[腺苷脱氨酶]-[Cas12结构域]-COOH；

NH2-[Cas12结构域]-[腺苷脱氨酶]-COOH；

NH2-[胞苷脱氨酶]-[Cas12结构域]-COOH；

NH2-[Cas12结构域]-[胞苷脱氨酶]-COOH；

NH2-[胞苷脱氨酶]-[Cas12结构域]-[腺苷脱氨酶]-COOH；

NH2-[腺苷脱氨酶]-[Cas12结构域]-[胞苷脱氨酶]-COOH；

NH2-[腺苷脱氨酶]-[胞苷脱氨酶]-[Cas12结构域]-COOH；

NH2-[胞苷脱氨酶]-[腺苷脱氨酶]-[Cas12结构域]-COOH；

NH2-[Cas12结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH；或

NH2-[Cas12结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH。

在一些实施方案中，腺苷脱氨酶是TadA*8。示例性融合蛋白结构包括以下：

NH2-[TadA*8]-[Cas9结构域]-COOH；

NH2-[Cas9结构域]-[TadA*8]-COOH；

NH2-[TadA*8]-[Cas12结构域]-COOH；或

NH2-[Cas12结构域]-[TadA*8]-COOH。

在一些实施方案中，融合蛋白的腺苷脱氨酶包括TadA*8和胞苷脱氨酶和/或腺苷脱氨酶。在一些实施方案中，TadA*8是TadA*8.1,TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23或TadA*8.24。

示例性融合蛋白结构包括以下：

NH2-[TadA*8]-[Cas9/Cas12]-[腺苷脱氨酶]-COOH；

NH2-[腺苷脱氨酶]-[Cas9/Cas12]-[TadA*8]-COOH；

NH2-[TadA*8]-[Cas9/Cas12]-[胞苷脱氨酶]-COOH；或

NH2-[胞苷脱氨酶]-[Cas9/Cas12]-[TadA*8]-COOH。

在一些实施方案中，融合蛋白的腺苷脱氨酶包括TadA*9和胞苷脱氨酶和/或腺苷脱氨酶。示例性融合蛋白结构包括以下：

NH2-[TadA*9]-[Cas9/Cas12]-[腺苷脱氨酶]-COOH；

NH2-[腺苷脱氨酶]-[Cas9/Cas12]-[TadA*9]-COOH；

NH2-[TadA*9]-[Cas9/Cas12]-[胞苷脱氨酶]-COOH；或

NH2-[胞苷脱氨酶]-[Cas9/Cas12]-[TadA*9]-COOH。

在一些实施方案中，融合蛋白可以包含侧翼为Cas9或Cas12多肽的N端片段和C端片段的脱氨酶。在一些实施方案中，融合蛋白可以包含侧翼为Cas9或Cas12多肽的N端片段和C端片段的胞苷脱氨酶。在一些实施方案中，融合蛋白可以包含侧翼为Cas9或Cas12多肽的N端片段和C端片段的腺苷脱氨酶。

在一些实施方案中，包含胞苷脱氨酶或腺苷脱氨酶和napDNAbp(例如，Cas9或Cas12结构域)的融合蛋白不包含接头序列。在一些实施方案中，接头存在于胞苷或腺苷脱氨酶与napDNAbp之间。在一些实施方案中，上方通用架构中使用的“-”表示存在任选的接头。在一些实施方案中，胞苷或腺苷脱氨酶和napDNAbp通过本文提供的任何接头融合。例如，在一些实施方案中，胞苷或腺苷脱氨酶和napDNAbp通过本文提供的任何接头融合。

应当理解，本公开的融合蛋白可以包含一个或多个另外的特征。例如，在一些实施方案中，融合蛋白可以包含抑制剂、细胞质定位序列、输出序列(诸如核输出序列)或其他定位序列，以及可用于溶解、纯化或检测融合蛋白的序列标签。本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载剂蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血凝素(HA)标签、多组氨酸标签(也称为组氨酸标签或His标签)、麦芽糖结合蛋白(MBP)标签、nus标签、谷胱甘肽-S-转移酶(GST)标签、绿色荧光蛋白(GFP)标签、硫氧还蛋白标签、S标签、Softag(例如，Softag 1、Softag 3)、链球菌标签、生物素连接酶标签、FlAsH标签、V5标签和SBP标签。另外的合适序列对于本领域技术人员将是显而易见的。在一些实施方案中，融合蛋白包含一个或多个His标签。

示例性但非限制性融合蛋白描述于国际PCT申请号PCT/2017/044935、PCT/US2019/044935和PCT/US2020/016288，所述专利各自以引用方式整体并入本文。

包含核定位序列(NLS)的融合蛋白

在一些实施方案中，本文提供的融合蛋白还包含一个或多个(例如2个、3个、4个、5个)核靶向序列，例如核定位序列(NLS)。在一个实施方案中，使用二分NLS。在一些实施方案中，NLS包含有助于将蛋白质(包含NLS)输入细胞核(例如，通过核转运)的氨基酸序列。在一些实施方案中，NLS与融合蛋白的N端或C端融合。在一些实施方案中，NLS融合到nCas9结构域或dCas9结构域的C端或N端。在一些实施方案中，NLS与Cas12结构域的N端或C端融合。在一些实施方案中，NLS融合到胞苷或腺苷脱氨酶的N端或C端。在一些实施方案中，NLS通过一个或多个接头与融合蛋白融合。在一些实施方案中，NLS在没有接头的情况下与融合蛋白融合。在一些实施方案中，NLS包含本文提供或引用的任何一种NLS序列的氨基酸序列。另外的核定位序列在本领域中是已知的并且对于技术人员来说是显而易见的。例如，NLS序列描述于Plank等人,PCT/EP2000/011690，其内容以引用方式并入本文，因为其公开了示例性核定位序列。在一些实施方案中，NLS包括氨基酸序列PKKKRKVEGADKRTADGSEF ESPKKKRKV(SEQID NO:416)、KRTADGSEFESPKKKRKV(SE Q ID NO:243)、KRPAATKKAGQAKKKK(SEQ ID NO:244)、KKTELQTTNAENKTKKL(SEQ ID NO:245)、KRGINDRNFWRGE NGRKTR(SEQ ID NO:246)、RKSGKIAAIVVKRPRKPKKKRKV(SEQ ID NO:417)或MDSLLMNRRKFLYQFKNVRWAKGRRETYL C(SEQID NO:249)。

在一些实施方案中，包含胞苷或腺苷脱氨酶、Cas9结构域和NLS的融合蛋白不包含接头序列。在一些实施方案中，存在在一个或多个结构域或蛋白质(例如，胞苷或腺苷脱氨酶、Cas9结构域或NLS)之间的接头序列。在一些实施方案中，接头存在于胞苷脱氨酶和腺苷脱氨酶与napDNAbp之间。在一些实施方案中，下方通用架构中使用的“-”表示存在任选的接头。在一些实施方案中，胞苷脱氨酶和腺苷脱氨酶和napDNAbp通过本文提供的任何接头融合。例如，在一些实施方案中，胞苷脱氨酶和腺苷脱氨酶和napDNAbp通过本文提供的任何接头融合。

在一些实施方案中，具有胞苷或腺苷脱氨酶和napDNAbp(例如，Cas9或Cas12)的示例性napDNAbp(例如，Cas9或Cas12)融合蛋白结构域的一般结构包含以下结构中的任何一种，其中NLS是核定位序列(例如，本文提供的任何NLS)，NH₂是融合蛋白的N端，COOH是融合蛋白的C端：

NH₂-NLS-[胞苷脱氨酶]-[napDNAbp结构域]-COOH；

NH₂-NLS[napDNAbp结构域]-[胞苷脱氨酶]-COOH；

NH₂-[胞苷脱氨酶]-[napDNAbp结构域]-NLS-COOH；

NH₂-[napDNAbp结构域]-[胞苷脱氨酶]-NLS-COOH；

NH₂-NLS-[腺苷脱氨酶]-[napDNAbp结构域]-COOH；

NH₂-NLS[napDNAbp结构域]-[腺苷脱氨酶]-COOH；

NH₂-[腺苷脱氨酶]-[napDNAbp结构域]-NLS-COOH；

NH₂-[napDNAbp结构域]-[腺苷脱氨酶]-NLS-COOH；

NH₂-NLS-[胞苷脱氨酶]-[napDNAbp结构域]-[腺苷脱氨酶]-COO H；

NH₂-NLS-[腺苷脱氨酶]-[napDNAbp结构域]-[胞苷脱氨酶]-COO H；

NH₂-NLS-[腺苷脱氨酶][胞苷脱氨酶]-[napDNAbp结构域]-COO H；

NH₂-NLS-[胞苷脱氨酶]-[腺苷脱氨酶]-[napDNAbp结构域]-COOH；

NH₂-NLS-[napDNAbp结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH；

NH₂-NLS-[napDNAbp结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH；

NH₂-[胞苷脱氨酶]-[napDNAbp结构域]-[腺苷脱氨酶]-NLS-COOH；

NH₂-[腺苷脱氨酶]-[napDNAbp结构域]-[胞苷脱氨酶]-NLS-COOH；

NH₂-[腺苷脱氨酶][胞苷脱氨酶]-[napDNAbp结构域]-NLS-COOH；

NH₂-[胞苷脱氨酶]-[腺苷脱氨酶]-[napDNAbp结构域]-NLS-COOH；

NH₂-[napDNAbp结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-NLS-COOH；或

NH₂-[napDNAbp结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-NLS-COOH。在一些实施方案中，NLS存在于接头或接头侧接的NLS中，例如本文所述。二分NLS包含两个碱性氨基酸簇，它们由相对较短的间隔区序列分隔(因此二分-2个部分，而单组分NLS不是)。核质蛋白的NLS，KR[PAATKKAGQA]KKKK(SEQ ID NO:244)，是普遍存在的二分信号的原型：两个碱性氨基酸簇，由约10个氨基酸的间隔区分隔。示例性二分NLS的序列如下：PKKKRKVEGADKRTADGSEFESPKKKRKV(SEQ ID NO:416)。

可以使用编码包含一个或多个核定位序列(NLS)的CRISPR酶的载体。例如，可以使用或使用约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个NLS。CRISPR酶可以在氨基端处或附近包含NLS，在羧基端处或附近包含约或多于约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个NLS，或其任何组合(例如，在氨基端的一个或多个NLS和在羧基端的一个或多个NLS)。当存在多于一个NLS时，每个NLS可以独立于其他NLS选择，使得单个NLS可以存在于多于一个拷贝中和/或与一个或多个其他NLS组合存在于一个或多个拷贝中。

所述方法中使用的CRISPR酶可以包含约6个NLS。当离NLS最近的氨基酸在距N端或C端的多肽链约50个氨基酸范围内(例如，在1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、40个或50个氨基酸范围内)时，NLS被认为靠近N端或C端。

另外的结构域

本文所述的碱基编辑器可以包括有助于促进多核苷酸的核碱基的核碱基编辑、修饰或改变的任何结构域。在各种实施方案中，编码任何这些另外的结构域的开放阅读框可以被修饰以包含根据本文描述的方法进行失活的内含子。在一些实施方案中，碱基编辑器包含多核苷酸可编程核苷酸结合结构域(例如，Cas9)、核碱基编辑结构域(例如，脱氨酶结构域)和一个或多个另外的结构域。在一些实施方案中，另外的结构域可以促进碱基编辑器的酶或催化功能、碱基编辑器的结合功能，或者是可能干扰所需碱基编辑结果的细胞机制的抑制剂(例如，酶)。在一些实施方案中，碱基编辑器可以包含核酸酶、切口酶、重组酶、脱氨酶、甲基转移酶、甲基化酶、乙酰化酶、乙酰转移酶、转录激活因子或转录抑制因子结构域。

在一些实施方案中，碱基编辑器可以包含尿嘧啶糖基化酶抑制剂(UGI)结构域。在一些实施方案中，对存在U:G异源双链DNA的细胞DNA修复反应可以导致细胞中核碱基编辑效率的降低。在这样的实施方案中，尿嘧啶DNA糖基化酶(UDG)可以催化从细胞中的DNA中去除U，这可以启动碱基切除修复(BER)，主要导致U:G对逆转为C:G对。在这样的实施方案中，可以在包含一个或多个结构域的碱基编辑器中抑制BER，所述结构域结合单链、阻断编辑的碱基、抑制UGI、抑制BER、保护编辑的碱基和/或促进未编辑链的修复。因此，本公开考虑了包含UGI结构域的碱基编辑器融合蛋白。

在一些实施方案中，碱基编辑器包含作为结构域的全部或部分双链断裂(DSB)结合蛋白。例如，DSB结合蛋白可以包括噬菌体Mu的Gam蛋白，所述Gam蛋白可以结合到DSB的末端并且可以保护它们免于降解。参见Komor,A.C.等人,“Improved base excision repairinhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editorswith higher efficiency and product purity”Science Advances3:eaao4774(2017)，其全部内容以引用方式并入本文。

此外，在一些实施方案中，Gam蛋白可以融合到碱基编辑器的N端。在一些实施方案中，Gam蛋白可以融合到碱基编辑器的C端。噬菌体Mu的Gam蛋白可以结合到双链断裂(DSB)的末端并保护它们免于降解。在一些实施方案中，使用Gam结合DSB的自由端可以减少碱基编辑过程中的插入缺失形成。在一些实施方案中，174个残基的Gam蛋白融合到碱基编辑器的N端。参见Komor,A.C.,等人,“Improved base excision repair inhibition andbacteriophage Mu Gamprotein yields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances 3:eaao4774(2017)。在一些实施方案中，一个或多个突变可以改变碱基编辑器结构域相对于野生型结构域的长度。例如，至少一个结构域中的至少一个氨基酸的缺失可以减少碱基编辑器的长度。在另一种情况下，一个或多个突变不会改变结构域相对于野生型结构域的长度。例如，任何结构域中的取代都不会改变碱基编辑器的长度。

此类碱基编辑器的非限制性示例(其中所有结构域的长度与野生型结构域相同)可以包括：

NH2-[核碱基编辑结构域]-接头1-[APOBEC1]-接头2-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-接头1-[APOBEC1]-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-[APOBEC1]-接头2-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-[APOBEC1]-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-接头1-[APOBEC1]-接头2-[核碱基编辑结构域]-[UGI]-COOH；

NH2-[核碱基编辑结构域]-接头1-[APOBEC1]-[核碱基编辑结构域]-[UGI]-COOH；

NH2-[核碱基编辑结构域]-[APOBEC1]-接头2-[核碱基编辑结构域]-[UGI]-COOH；

NH2-[核碱基编辑结构域]-[APOBEC1]-[核碱基编辑结构域]-[UGI]-COOH；

NH2-[UGI]-[核碱基编辑结构域]-接头1-[APOBEC1]-接头2-[核碱基编辑结构域]-COOH；

NH2-[UGI]-[核碱基编辑结构域]-接头1-[APOBEC1]-[核碱基编辑结构域]-COOH；

NH2-[UGI]-[核碱基编辑结构域]-[APOBEC1]-接头2-[核碱基编辑结构域]-COOH；或

NH2-[UGI]-[核碱基编辑结构域]-[APOBEC1]-[核碱基编辑结构域]-COOH。

碱基编辑器系统

本文提供了用于使用特征在于自失活碱基编辑器的碱基编辑器系统编辑核碱基的系统、组合物和方法。在一些实施方案中，碱基编辑器系统包含(1)碱基编辑器(BE)，其包含多核苷酸可编程核苷酸结合结构域和用于编辑核碱基的核碱基编辑结构域(例如脱氨酶结构域)；和(2)与多核苷酸可编程核苷酸结合结构域结合的指导多核苷酸(例如，指导RNA)。在一些实施方案中，碱基编辑器系统是胞苷碱基编辑器(CBE)或腺苷碱基编辑器(ABE)。可以将内含子插入在编码多核苷酸可编程核苷酸结合结构域、核碱基编辑结构域或这些结构域之一的片段的开放阅读框中。在一些实施方案中，多核苷酸可编程核苷酸结合结构域是多核苷酸可编程DNA或RNA结合结构域。在一些实施方案中，核碱基编辑结构域是脱氨酶结构域。在一些实施方案中，脱氨酶结构域可以是胞苷脱氨酶或胞嘧啶脱氨酶。在一些实施方案中，脱氨酶结构域可以是腺嘌呤脱氨酶或腺苷脱氨酶。在一些实施方案中，腺苷碱基编辑器可以使DNA中的腺嘌呤脱氨基。在一些实施方案中，碱基编辑器能够使DNA中的胞苷脱氨基。

在一些实施方案中，如本文提供的碱基编辑系统提供了基因组编辑的新方法，所述方法使用含有催化缺陷的化脓性链球菌Cas9、脱氨酶(例如，胞苷或腺苷脱氨酶)和碱基切除修复抑制剂的融合蛋白诱导DNA中可编程的单核苷酸(C→T或A→G)变化而不会产生双链DNA断裂，不需要供体DNA模板，并且不会诱导过多的随机插入和缺失。

核碱基编辑蛋白的细节描述于国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)，所述专利各自以引用方式整体并入本文。还参见Komor,A.C.等人,“Prog rammable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016)；Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017)；以及Kom or,A.C.等人,“Improved base excisionrepair inhibition and bacterio phage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)；其全部内容以引用方式特此并入。

本文提供的自失活碱基编辑器系统的使用包括以下步骤：(a)使受试者的多核苷酸(例如双链或单链DNA或RNA)的靶核苷酸序列与包含核碱基编辑器(例如，腺苷碱基编辑器或胞苷碱基编辑器)和指导多核酸(例如gRNA)的碱基编辑器系统接触，其中所述靶核苷酸序列包含靶向核碱基对；(b)诱导所述靶区域的链分离；(c)将靶区域单链中的所述靶核碱基对的第一核碱基转化为第二核碱基；(d)切割所述靶区域的不超过一条链，其中与第一核碱基互补的第三核碱基被与第二核碱基互补的第四核碱基替换；(e)使存在于编码核碱基编辑器结构域的开放阅读框中的靶内含子序列与靶向内含子的剪接受体或剪接供体位点的指导RNA接触，并如步骤b-d中所述引入编辑，从而使碱基编辑器失活。当达到所需编辑水平时，可以随时诱导失活。应当理解，在一些实施方案中，步骤(b)或(e)被省略。在一些实施方案中，所述靶向核碱基对是一个或多个基因中的多个核碱基对。在一些实施方案中，本文提供的碱基编辑器系统能够对一个或多个基因中的多个核碱基对进行多重编辑。在一些实施方案中，多个核碱基对位于同一基因中。在一些实施方案中，多个核碱基对位于一个或多个基因中，其中至少一个基因位于不同的基因座中。

在一些实施方案中，切口单链(切口链)与指导核酸杂交。在一些实施方案中，切口单链与包含第一核碱基的链相反。在一些实施方案中，碱基编辑器包含Cas9结构域。在一些实施方案中，第一碱基是腺嘌呤，并且第二碱基不是G、C、A或T。在一些实施方案中，第二碱基是肌苷。

在一些实施方案中，可以利用单指导多核苷酸使脱氨酶靶向靶核酸序列。在一些实施方案中，可以利用一对指导多核苷酸使不同的脱氨酶靶向靶核酸序列。

碱基编辑器系统的组分(例如，脱氨酶结构域、指导RNA和/或多核苷酸可编程核苷酸结合结构域)可以彼此共价或非共价缔合。例如，在一些实施方案中，脱氨酶结构域可以通过多核苷酸可编程核苷酸结合结构域靶向靶核苷酸序列，任选地其中多核苷酸可编程核苷酸结合结构域与多核苷酸(例如，指导RNA)复合。在一些实施方案中，多核苷酸可编程核苷酸结合结构域可以与脱氨酶结构域融合或连接。在一些实施方案中，多核苷酸可编程核苷酸结合结构域可以通过与脱氨酶结构域非共价相互作用或缔合将脱氨酶结构域靶向靶核苷酸序列。例如，在一些实施方案中，核碱基编辑组分(例如，脱氨酶组分)包含另外的异源部分或结构域，其能够与是多核苷酸可编程核苷酸结合结构域和/或与其复合的指导多核苷酸(例如，指导RNA)的一部分的对应异源部分、抗原或结构域相互作用、缔合或能够与其形成复合物。在一些实施方案中，多核苷酸可编程核苷酸结合结构域和/或与其复合的指导多核苷酸(例如，指导RNA)包含能够与是核苷酸编辑结构域的一部分的对应异源部分、抗原或结构域相互作用、缔合或能够与其形成复合物的另外的异源部分或结构域。在一些实施方案中，另外的异源部分可能能够与多肽结合、相互作用、缔合或与多肽形成复合物。在一些实施方案中，另外的异源部分可能能够与多核苷酸结合、相互作用、缔合或与多肽形成复合物。在一些实施方案中，另外的异源部分可能能够结合指导多核苷酸。在一些实施方案中，另外的异源部分可能能够结合指导多肽接头。在一些实施方案中，另外的异源部分能够结合多核苷酸接头。另外的异源部分可以是蛋白质结构域。在一些实施方案中，另外的异源部分包含多肽，诸如λ噬菌体抗终止子蛋白N(N22p)的22个氨基酸的RNA结合结构域、2G12IgG同二聚体结构域、ABI、抗体(例如结合碱基编辑系统的组分或其异源部分的抗体)或其片段(例如IgM(MHD2)或IgE(EHD2)的重链结构域2(CH2)、免疫球蛋白Fc区、IgG或IgA的重链结构域3(CH3))、IgM或IgE的重链结构域4(CH4)、Fab、Fab2、小抗体和/或ZIP抗体)、芽孢杆菌RNA酶-芽孢杆菌二聚体(barnase-barstar dimer)结构域、Bcl-xL结构域、钙调磷酸酶A(CAN)结构域、心脏受磷蛋白跨膜五聚体结构域、胶原蛋白结构域、Com RNA结合蛋白结构域(例如SfMu Com外壳蛋白结构域和SfMu Com结合蛋白结构域)、亲环蛋白-Fas融合蛋白(CyP-Fas)结构域、Fab结构域、Fe结构域、纤维蛋白折叠结构域、FK506结合蛋白(FKBP)结构域、mTOR的FKBP结合结构域(FRB)结构域、折叠结构域、片段X结构域、GAI结构域、GID1结构域、血型糖蛋白A跨膜结构域、GyrB结构域、Halo标签、HIV Gp41三聚化结构域、HPV45癌蛋白E7 C端二聚体结构域、疏水性多肽、K同源性(KH)结构域、Ku蛋白结构域(例如，Ku异二聚体)、亮氨酸拉链、LOV结构域、线粒体抗病毒信号蛋白CARD丝结构域、MS2外壳蛋白结构域(MCP)、结合相应RNA基序/适体的非天然RNA适体配体、甲状旁腺激素二聚化结构域、PP7外壳蛋白(PCP)结构域、PSD95-Dlgl-zo-1(PDZ)结构域、PYL结构域、SNAP标签、捕谍器(SpyCatcher)部分、谍标签(SpyTag)部分、链霉亲和素结构域、链霉亲和素结合蛋白结构域、链霉亲和素结合蛋白(SBP)结构域、端粒酶Sm7蛋白结构域(例如Sm7同七聚体或单体Sm样蛋白)，和/或其片段。在实施方案中，另外的异源部分包含多核苷酸(例如，RNA基序)，诸如MS2噬菌体操纵子茎环(例如MS2、MS2 C-5突变体或MS2 F-5突变体)、非天然RNA基序、PP7操纵子茎环、SfMu phate Com茎环、无菌α基序、端粒酶Ku结合基序、端粒酶Sm7结合基序和/或其片段。另外的异源部分的非限制性实例包括与SEQ ID NO:492、494、496、498-500中的任何一个或多个具有至少约85％序列同一性的多肽或其片段。另外的异源部分的非限制性实例包括与SEQ ID NO:491、493、495、497中的任何一个或多个具有至少约85％序列同一性的多核苷酸或其片段。

碱基编辑器系统还可以包括指导多核苷酸组分。应当理解，碱基编辑器系统的组分可以通过共价键、非共价相互作用或其缔合和相互作用的任何组合相互缔合。在一些实施方案中，脱氨酶结构域可以通过指导多核苷酸靶向靶核苷酸序列。例如，在一些实施方案中，碱基编辑器系统的核碱基编辑组分(例如，脱氨酶组分)包含能够与指导多核苷酸的异源部分或片段(例如，多核苷酸基序)或抗原相互作用、缔合或能够与其形成复合物的另外的异源部分或结构域(例如，多核苷酸结合结构域诸如RNA或DNA结合蛋白)。在一些实施方案中，另外的异源部分或结构域(例如，多核苷酸结合结构域，诸如RNA或DNA结合蛋白)可以与脱氨酶结构域融合或连接。在一些实施方案中，另外的异源部分可能能够与多肽结合、相互作用、缔合或与多肽形成复合物。在一些实施方案中，另外的异源部分可能能够与多核苷酸结合、相互作用、缔合或与多肽形成复合物。在一些实施方案中，另外的异源部分可能能够结合指导多核苷酸。在一些实施方案中，另外的异源部分可能能够结合指导多肽接头。在一些实施方案中，另外的异源部分可能能够结合指导多核苷酸接头。另外的异源部分可以是蛋白质结构域。在一些实施方案中，另外的异源部分包含多肽，诸如λ噬菌体抗终止子蛋白N(N22p)的22个氨基酸的RNA结合结构域、2G12IgG同二聚体结构域、ABI、抗体(例如结合碱基编辑系统的组分或其异源部分的抗体)或其片段(例如IgM(MHD2)或IgE(EHD2)的重链结构域2(CH2)、免疫球蛋白Fc区、IgG或IgA的重链结构域3(CH3))、IgM或IgE的重链结构域4(CH4)、Fab、Fab2、小抗体和/或ZIP抗体)、芽孢杆菌RNA酶-芽孢杆菌二聚体(barnase-barstar dimer)结构域、Bcl-xL结构域、钙调磷酸酶A(CAN)结构域、心脏受磷蛋白跨膜五聚体结构域、胶原蛋白结构域、Com RNA结合蛋白结构域(例如SfMu Com外壳蛋白结构域和SfMu Com结合蛋白结构域)、亲环蛋白-Fas融合蛋白(CyP-Fas)结构域、Fab结构域、Fe结构域、纤维蛋白折叠结构域、FK506结合蛋白(FKBP)结构域、mTOR的FKBP结合结构域(FRB)结构域、折叠结构域、片段X结构域、GAI结构域、GID1结构域、血型糖蛋白A跨膜结构域、GyrB结构域、Halo标签、HIV Gp41三聚化结构域、HPV45癌蛋白E7 C端二聚体结构域、疏水性多肽、K同源性(KH)结构域、Ku蛋白结构域(例如，Ku异二聚体)、亮氨酸拉链、LOV结构域、线粒体抗病毒信号蛋白CARD丝结构域、MS2外壳蛋白结构域(MCP)、结合相应RNA基序/适体的非天然RNA适体配体、甲状旁腺激素二聚化结构域、PP7外壳蛋白(PCP)结构域、PSD95-Dlgl-zo-1(PDZ)结构域、PYL结构域、SNAP标签、捕谍器(SpyCatcher)部分、谍标签(SpyTag)部分、链霉亲和素结构域、链霉亲和素结合蛋白结构域、链霉亲和素结合蛋白(SBP)结构域、端粒酶Sm7蛋白结构域(例如Sm7同七聚体或单体Sm样蛋白)，和/或其片段。在实施方案中，另外的异源部分包含多核苷酸(例如，RNA基序)，诸如MS2噬菌体操纵子茎环(例如MS2、MS2 C-5突变体或MS2F-5突变体)、非天然RNA基序、PP7操纵子茎环、SfMu phate Com茎环、无菌α基序、端粒酶Ku结合基序、端粒酶Sm7结合基序和/或其片段。另外的异源部分的非限制性实例包括与SEQID NO:492、494、496、498-500中的任何一个或多个具有至少约85％序列同一性的多肽或其片段。另外的异源部分的非限制性实例包括与SEQ ID NO:491、493、495、497中的任何一个或多个具有至少约85％序列同一性的多核苷酸或其片段。

在一些实施方案中，碱基编辑器系统还可以包含碱基切除修复(BER)组分的抑制剂。应当理解，碱基编辑器系统的组分可以通过共价键、非共价相互作用或其缔合和相互作用的任何组合相互缔合。BER组分的抑制剂可以包括碱基切除修复抑制剂。在一些实施方案中，碱基切除修复抑制剂可以是尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方案中，碱基切除修复抑制剂可以是肌苷碱基切除修复抑制剂。在一些实施方案中，碱基切除修复抑制剂可以通过多核苷酸可编程核苷酸结合结构域靶向靶核苷酸序列，任选地其中多核苷酸可编程核苷酸结合结构域与多核苷酸(例如，指导RNA)复合。在一些实施方案中，多核苷酸可编程核苷酸结合结构域可以与碱基切除修复抑制剂融合或连接。在一些实施方案中，多核苷酸可编程核苷酸结合结构域可以与脱氨酶结构域和碱基切除修复抑制剂融合或连接。在一些实施方案中，多核苷酸可编程核苷酸结合结构域可以通过与碱基切除修复抑制剂非共价相互作用或缔合使碱基切除修复抑制剂靶向靶核苷酸序列。例如，在一些实施方案中，碱基切除修复抑制剂组分包含能够与是多核苷酸可编程核苷酸结合结构域的一部分的对应的另外异源部分、抗原或结构域相互作用、缔合或能够与其形成复合物的另外的异源部分或结构域。在一些实施方案中，多核苷酸编程核苷酸结合结构域组分和/或与其复合的指导多核苷酸(例如，指导RNA)包含能够与是碱基切除修复组分的一部分的对应异源部分、抗原或结构域相互作用、缔合或能够与其形成复合物的另外的异源部分或结构域。在一些实施方案中，碱基切除修复抑制剂可以通过指导多核苷酸靶向靶核苷酸序列。例如，在一些实施方案中，碱基切除修复抑制剂包含能够与指导多核苷酸的部分或片段(例如，多核苷酸基序)相互作用、缔合或能够其形成复合物的另外的异源部分或结构域(例如，多核苷酸结合结构域诸如RNA或DNA结合蛋白)。在一些实施方案中，指导多核苷酸的另外的异源部分或结构域(例如，多核苷酸结合结构域，诸如RNA或DNA结合蛋白)可以与碱基切除修复抑制剂融合或连接。在一些实施方案中，另外的异源部分可能能够与多核苷酸结合、相互作用、缔合或与多肽形成复合物。在一些实施方案中，另外的异源部分可能能够结合指导多核苷酸。在一些实施方案中，另外的异源部分可能能够结合指导多肽接头。在一些实施方案中，另外的异源部分可能能够结合指导多核苷酸接头。另外的异源部分可以是蛋白质结构域。在一些实施方案中，另外的异源部分包含多肽，诸如λ噬菌体抗终止子蛋白N(N22p)的22个氨基酸的RNA结合结构域、2G12 IgG同二聚体结构域、ABI、抗体(例如结合碱基编辑系统的组分或其异源部分的抗体)或其片段(例如IgM(MHD2)或IgE(EHD2)的重链结构域2(CH2)、免疫球蛋白Fc区、IgG或IgA的重链结构域3(CH3))、IgM或IgE的重链结构域4(CH4)、Fab、Fab2、小抗体和/或ZIP抗体)、芽孢杆菌RNA酶-芽孢杆菌二聚体(barnase-barstar dimer)结构域、Bcl-xL结构域、钙调磷酸酶A(CAN)结构域、心脏受磷蛋白跨膜五聚体结构域、胶原蛋白结构域、Com RNA结合蛋白结构域(例如SfMu Com外壳蛋白结构域和SfMu Com结合蛋白结构域)、亲环蛋白-Fas融合蛋白(CyP-Fas)结构域、Fab结构域、Fe结构域、纤维蛋白折叠结构域、FK506结合蛋白(FKBP)结构域、mTOR的FKBP结合结构域(FRB)结构域、折叠结构域、片段X结构域、GAI结构域、GID1结构域、血型糖蛋白A跨膜结构域、GyrB结构域、Halo标签、HIV Gp41三聚化结构域、HPV45癌蛋白E7 C端二聚体结构域、疏水性多肽、K同源性(KH)结构域、Ku蛋白结构域(例如，Ku异二聚体)、亮氨酸拉链、LOV结构域、线粒体抗病毒信号蛋白CARD丝结构域、MS2外壳蛋白结构域(MCP)、结合相应RNA基序/适体的非天然RNA适体配体、甲状旁腺激素二聚化结构域、PP7外壳蛋白(PCP)结构域、PSD95-Dlgl-zo-1(PDZ)结构域、PYL结构域、SNAP标签、捕谍器(SpyCatcher)部分、谍标签(SpyTag)部分、链霉亲和素结构域、链霉亲和素结合蛋白结构域、链霉亲和素结合蛋白(SBP)结构域、端粒酶Sm7蛋白结构域(例如Sm7同七聚体或单体Sm样蛋白)，和/或其片段。在实施方案中，另外的异源部分包含多核苷酸(例如，RNA基序)，诸如MS2噬菌体操纵子茎环(例如MS2、MS2 C-5突变体或MS2 F-5突变体)、非天然RNA基序、PP7操纵子茎环、SfMu phate Com茎环、无菌α基序、端粒酶Ku结合基序、端粒酶Sm7结合基序和/或其片段。另外的异源部分的非限制性实例包括与SEQ ID NO:492、494、496、498-500中的任何一个或多个具有至少约85％序列同一性的多肽或其片段。另外的异源部分的非限制性实例包括与SEQ ID NO:491、493、495、497中的任何一个或多个具有至少约85％序列同一性的多核苷酸或其片段。

在一些情况下，碱基编辑系统的组分通过亮氨酸拉链结构域(例如，SEQ ID NO:499和500)的相互作用彼此缔合。在一些情况下，碱基编辑系统的组分通过多肽结构域(例如，FokI结构域)彼此缔合，所述多肽结构域缔合以形成含有约、至少约或不超过约1、2(即，二聚化)、3、4、5、6、7、8、9、10个多肽结构域单元的蛋白质复合物，任选地，多肽结构域可以包含降低或消除其活性的改变。

在一些情况下，碱基编辑系统的组分通过多聚抗体或其片段(例如，IgG、IgD、IgA、IgM、IgE、IgM、IgM(MHD2)或IgE(EHD2)的重链结构域2(CH2)、免疫球蛋白Fc区、IgG或IgA的重链结构域3(CH3)、IgM或IgE的重链结构域4(CH4)、Fab和Fab2)的相互作用彼此缔合。在一些情况下，抗体是二聚体、三聚体或四聚体。在实施方案中，二聚体抗体结合碱基编辑系统的多肽或多核苷酸组分。

在一些情况下，碱基编辑系统的组分通过多核苷酸结合蛋白结构域与多核苷酸的相互作用而彼此缔合。在一些情况下，碱基编辑系统的组分通过一个或多个多核苷酸结合蛋白结构域与自我互补和/或彼此互补的多核苷酸的相互作用彼此缔合，使得多核苷酸彼此的互补结合将它们各自结合的多核苷酸结合蛋白结构域缔合。

在一些情况下，碱基编辑系统的组分通过多肽结构域与小分子(例如，二聚化化学诱导剂(CID)，也称为“二聚化剂”)的相互作用彼此缔合。CID的非限制性实例包括Amara等人,“A versatile synthetic dimerizer for the regulation of protein-proteininteractions,”PNAS,94:10618-10623(1997)；和Voβ等人“Chemically induceddimerization:reversible and spatiotemporal control of protein function incells,”Current Opinion in Chemical Biology,28:194-201(2015)中公开的那些，出于所有目的，其中的每一个的公开内容以引用方式整体并入本文。下表10.1中提供了可以二聚化的多肽及其相应二聚化剂的非限制性实例。

表10.1.化学诱导的二聚化系统。

/>

在实施方案中，另外的异源部分是指导RNA分子的一部分。在一些情况下，另外的异源部分含有或者是RNA基序。RNA基序可以位于指导RNA分子的5'或3'末端或指导RNA分子的各个位置。在实施方案中，RNA基序位于指导RNA内以减少空间位阻，任选地，其中此类位阻与RNA支架的其他大环相关。在一些情况下，有利的是通过接头将RNA基序连接至指导RNA的其他部分，其中接头的长度可以是约、至少约或不超过约1、2、3、4、5、6、7、8、9、10个或更多个核苷酸。任选地，接头含有富含GC的核苷酸序列。指导RNA可以含有RNA基序的1、2、3、4、5个或更多个拷贝，任选地其中它们连续定位，和/或任选地其中它们各自通过接头彼此分开。RNA基序可以包含本文所述的任何一种或多种多核苷酸修饰。RNA基序的合适修饰的非限制性实例包括2'脱氧-2-氨基嘌呤、2'核糖-2-氨基嘌呤、硫代磷酸酯修饰、2'-O甲基修饰、2'-氟修饰和LNA修饰。有利地，修饰有助于增加稳定性并促进由RNA基序形成的发夹的更强的键/折叠结构。

在一些实施方案中，RNA基序被修饰以包含延伸。在实施方案中，延伸含有约、至少约或不超过约2、3、4、5、10、15、20或25个核苷酸。在一些情况下，延伸导致由RNA基序形成的茎长度的改变(例如，延长或缩短)。有利的是，由RNA基序形成的茎长度为约、至少约或不超过约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100个核苷酸。在各种实施方案中，延伸增加RNA基序的灵活性和/或增加与相应RNA基序的结合。

在一些实施方案中，碱基编辑器抑制编辑链的碱基切除修复(BER)。在一些实施方案中，碱基编辑器保护或结合未编辑链。在一些实施方案中，碱基编辑器包括UGI活性。在一些实施方案中，碱基编辑器包含无催化活性的肌苷特异性核酸酶。在一些实施方案中，碱基编辑器包括切口酶活性。在一些实施方案中，碱基对的预期编辑在PAM位点的上游。在一些实施方案中，碱基对的预期编辑在PAM位点上游1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸处。在一些实施方案中，碱基对的预期编辑在PAM位点的下游。在一些实施方案中，碱基对的预期编辑在PAM位点下游1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸处。

在一些实施方案中，此方法不需要规范(例如，NGG)PAM位点。在一些实施方案中，核碱基编辑器包含接头或间隔区。在一些实施方案中，接头或间隔区的长度为1-25个氨基酸。在一些实施方案中，接头或间隔区的长度为5-20个氨基酸。在一些实施方案中，接头或间隔区的长度为10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个氨基酸。

在一些实施方案中，本文提供的碱基编辑融合蛋白需要定位在精确位置，例如，其中靶碱基被放置在限定区域(例如，“脱氨窗口”)内。在一些实施方案中，靶标可以在4个碱基区域内。在一些实施方案中，此限定靶区域可以在PAM上游大约15个碱基处。参见Komor,A.C.等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016)；Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017)；以及Komor,A.C.等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)；其全部内容以引用方式特此并入。

在一些实施方案中，靶区域包含靶窗口，其中所述靶窗口包含靶核碱基对。在一些实施方案中，靶窗口包含1-10个核苷酸。在一些实施方案中，靶窗口长度为1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。在一些实施方案中，碱基对的预期编辑在靶窗口内。在一些实施方案中，靶窗口包括碱基对的预期编辑。在一些实施方案中，使用本文提供的任何碱基编辑器来执行此方法。在一些实施方案中，靶窗口是脱氨窗口。脱氨窗口可以是碱基编辑器作用于靶核苷酸并使靶核苷酸脱氨基的限定区域。在一些实施方案中，脱氨窗口在2个、3个、4个、5个、6个、7个、8个、9个或10个碱基区域内。在一些实施方案中，脱氨窗口在PAM上游5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个或25个碱基处。

本公开的碱基编辑器可以包含促进靶多核苷酸序列的编辑的任何结构域、特征或氨基酸序列。例如，在一些实施方案中，碱基编辑器包含核定位序列(NLS)。在一些实施方案中，碱基编辑器的NLS位于脱氨酶结构域和多核苷酸可编程核苷酸结合结构域之间。在一些实施方案中，碱基编辑器的NLS位于多核苷酸可编程核苷酸结合结构域的C端。

可以存在于如本文公开的碱基编辑器中的其他示例性特征是定位序列，诸如细胞质定位序列、输出序列(诸如核输出序列)，或其他定位序列，以及可用于溶解、纯化或检测融合蛋白的序列标签。本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载剂蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血凝素(HA)标签、多组氨酸标签(也称为组氨酸标签或His标签)、麦芽糖结合蛋白(MBP)标签、nus标签、谷胱甘肽-S-转移酶(GST)标签、绿色荧光蛋白(GFP)标签、硫氧还蛋白标签、S标签、Softag(例如，Softag 1、Softag 3)、链球菌标签、生物素连接酶标签、FlAsH标签、V5标签和SBP标签.另外的合适序列对于本领域技术人员将是显而易见的。在一些实施方案中，融合蛋白包含一个或多个His标签。

在一些实施方案中，非限制性示例性胞苷碱基编辑器(CBE)包括BE1(APOBEC1-XTEN-dCas9)、BE2(APOBEC1-XTEN-dCas9-UGI)、BE3(APOBEC1-XTEN-dCas9(A840H)-UGI)、BE3-Gam、saBE3、saBE4-Gam、BE4、BE4-Gam、saBE4或saB4E-Gam。BE4将APOBEC1-Cas9n(D10A)接头扩展到32个氨基酸，将Cas9n-UGI接头扩展到9个氨基酸，并且将UGI的第二个拷贝附加到构建体的C端，并将另一个9个氨基酸的接头附加到单个碱基编辑器构建体中。碱基编辑器saBE3和saBE4将酿脓链球菌Cas9n(D10A)替换为较小的金黄色葡萄球菌Cas9n(D10A)。BE3-Gam、saBE3-Gam、BE4-Gam和saBE4-Gam具有经由16个氨基酸的XTEN接头与BE3、saBE3、BE4和saBE4的N端融合的174个Gam蛋白残基。

在一些实施方案中，腺苷碱基编辑器(ABE)可以使DNA中的腺嘌呤脱氨基。在一些实施方案中，ABE是通过用天然的或工程化的大肠杆菌TadA、人类ADAR2、小鼠ADA或人类ADAT2替换BE3的APOBEC1组分而产生的。在一些实施方案中，ABE包含进化的TadA变体。在一些实施方案中，ABE是ABE1.2(TadA*-XTEN-nCas9-NLS)。在一些实施方案中，TadA*包含A106V和D108N突变。

在一些实施方案中，ABE是第二代ABE。在一些实施方案中，ABE是ABE2.1，其在TadA*(TadA*2.1)中包含另外的突变D147Y和E155V。在一些实施方案中，ABE是与无催化活性形式的人类烷基腺嘌呤DNA糖基化酶(具有E125Q突变的AAG)融合的ABE2.2、ABE2.1。在一些实施方案中，ABE是与无催化活性形式的大肠杆菌Endo V(因D35A突变而失活)融合的ABE2.3、ABE2.1。在一些实施方案中，ABE是ABE2.6，其具有长度为ABE2.1中的接头的两倍(32个氨基酸，(SGGS)₂(SEQ ID NO:418)-XTEN-(SGGS)₂(SEQ ID NO:418))的接头。在一些实施方案中，ABE是ABE2.7，其是与另外的野生型TadA单体相连的ABE2.1。在一些实施方案中，ABE是ABE2.8，其是与另外的TadA*2.1单体相连的ABE2.1。在一些实施方案中，ABE是ABE2.9，其是进化的TadA(TadA*2.1)与ABE2.1的N端的直接融合。在一些实施方案中，ABE是ABE2.10，其是野生型TadA与ABE2.1的N端的直接融合。在一些实施方案中，ABE是ABE2.11，其是在TadA*单体的N端处具有失活E59A突变的ABE2.9。在一些实施方案中，ABE是ABE2.12，其是在内部TadA*单体中具有失活E59A突变的ABE2.9。

在一些实施方案中，ABE是第三代ABE。在一些实施方案中，ABE是ABE3.1，其是具有三个另外的TadA突变(L84F、H123Y和I156F)的ABE2.3。

在一些实施方案中，ABE是第四代ABE。在一些实施方案中，ABE是ABE4.3，其是具有另外的TadA突变A142N(TadA*4.3)的ABE3.1。

在一些实施方案中，ABE是第五代ABE。在一些实施方案中，ABE是ABE5.1，其通过将来自存活克隆(H36L、R51L、S146C和K157N)的共有突变组导入ABE3.1而生成。在一些实施方案中，ABE是ABE5.3，其具有含有与内部进化的TadA*融合的野生型大肠杆菌TadA的异二聚体构建体。在一些实施方案中，ABE是ABE5.2、ABE5.4、ABE5.5、ABE5.6、ABE5.7、ABE5.8、ABE5.9、ABE5.10、ABE5.11、ABE5.12、ABE5.13或ABE5.14，如下表10所示。在一些实施方案中，ABE是第六代ABE。在一些实施方案中，ABE是ABE6.1、ABE6.2、ABE6.3、ABE6.4、ABE6.5或ABE6.6，如下表10所示。在一些实施方案中，ABE是第七代ABE。在一些实施方案中，ABE是ABE7.1、ABE7.2、ABE7.3、ABE7.4、ABE7.5、ABE7.6、ABE7.7、ABE7.8、ABE7.9或ABE7.10，如下表10所示。

表10.ABE的基因型

/>

在一些实施方案中，碱基编辑器是第八代ABE(ABE8)。在一些实施方案中，ABE8含有TadA*8变体。在一些实施方案中，ABE8具有含有TadA*8变体的单体构建体(“ABE8.x-m”)。在一些实施方案中，ABE8是具有单体构建体的ABE8.1-m，所述单体构建体含有具有Y147T突变的TadA*7.10(TadA*8.1)。在一些实施方案中，ABE8是具有单体构建体的ABE8.2-m，所述单体构建体含有具有Y147R突变的TadA*7.10(TadA*8.2)。在一些实施方案中，ABE8是具有单体构建体的ABE8.3-m，所述单体构建体含有具有Q154S突变的TadA*7.10(TadA*8.3)。在一些实施方案中，ABE8是具有单体构建体的ABE8.4-m，所述单体构建体含有具有Y123H突变的TadA*7.10(TadA*8.4)。在一些实施方案中，ABE8是具有单体构建体的ABE8.5-m，所述单体构建体含有具有V82S突变的TadA*7.10(TadA*8.5)。在一些实施方案中，ABE8是具有单体构建体的ABE8.6-m，所述单体构建体含有具有T166R突变的TadA*7.10(TadA*8.6)。在一些实施方案中，ABE8是具有单体构建体的ABE8.7-m，所述单体构建体含有具有Q154R突变的TadA*7.10(TadA*8.7)。在一些实施方案中，ABE8是具有单体构建体的ABE8.8-m，所述单体构建体含有具有Y147R、Q154R和Y123H突变的TadA*7.10(TadA*8.8)。在一些实施方案中，ABE8是具有单体构建体的ABE8.9-m，所述单体构建体含有具有Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.9)。在一些实施方案中，ABE8是具有单体构建体的ABE8.10-m，所述单体构建体含有具有Y147R、Q154R和T166R突变的TadA*7.10(TadA*8.10)。在一些实施方案中，ABE8是具有单体构建体的ABE8.11-m，所述单体构建体含有具有Y147T和Q154R突变的TadA*7.10(TadA*8.11)。在一些实施方案中，ABE8是具有单体构建体的ABE8.12-m，所述单体构建体含有具有Y147T和Q154S突变的TadA*7.10(TadA*8.12)。

在一些实施方案中，ABE8是具有单体构建体的ABE8.13-m，所述单体构建体含有具有Y123H(从H123Y复原的Y123H)、Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.13)。在一些实施方案中，ABE8是具有单体构建体的ABE8.14-m，所述单体构建体含有具有I76Y和V82S突变的TadA*7.10(TadA*8.14)。在一些实施方案中，ABE8是具有单体构建体的ABE8.15-m，所述单体构建体含有具有V82S和Y147R突变的TadA*7.10(TadA*8.15)。在一些实施方案中，ABE8是具有单体构建体的ABE8.16-m，所述单体构建体含有具有V82S、Y123H(从H123Y复原的Y123H)和Y147R突变的TadA*7.10(TadA*8.16)。在一些实施方案中，ABE8是具有单体构建体的ABE8.17-m，所述单体构建体含有具有V82S和Q154R突变的TadA*7.10(TadA*8.17)。在一些实施方案中，ABE8是具有单体构建体的ABE8.18-m，所述单体构建体含有具有V82S、Y123H(从H123Y复原的Y123H)和Q154R突变的TadA*7.10(TadA*8.18)。在一些实施方案中，ABE8是具有单体构建体的ABE8.19-m，所述单体构建体含有具有V82S、Y123H(从H123Y复原的Y123H)、Y147R和Q154R突变的TadA*7.10(TadA*8.19)。在一些实施方案中，ABE8是具有单体构建体的ABE8.20-m，所述单体构建体含有具有I76Y、V82S、Y123H(从H123Y复原的Y123H)、Y147R和Q154R突变的TadA*7.10(TadA*8.20)。在一些实施方案中，ABE8是具有单体构建体的ABE8.21-m，所述单体构建体含有具有Y147R和Q154S突变的TadA*7.10(TadA*8.21)。在一些实施方案中，ABE8是具有单体构建体的ABE8.22-m，所述单体构建体含有具有V82S和Q154S突变的TadA*7.10(TadA*8.22)。在一些实施方案中，ABE8是具有单体构建体的ABE8.23-m，所述单体构建体含有具有V82S和Y123H(从H123Y复原的Y123H)突变的TadA*7.10(TadA*8.23)。在一些实施方案中，ABE8是具有单体构建体的ABE8.24-m，所述单体构建体含有具有V82S、Y123H(从H123Y复原的Y123H)和Y147T突变的TadA*7.10(TadA*8.24)。

在一些实施方案中，ABE8具有含有与TadA*8变体融合的野生型大肠杆菌TadA的异二聚体构建体(“ABE8.x-d”)。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.1-d，所述异二聚体构建体含有与具有Y147T突变的TadA*7.10(TadA*8.1)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.2-d，所述异二聚体构建体含有与具有Y147R突变的TadA*7.10(TadA*8.2)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.3-d，所述异二聚体构建体含有与具有Q154S突变的TadA*7.10(TadA*8.3)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.4-d，所述异二聚体构建体含有与具有Y123H突变的TadA*7.10(TadA*8.4)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.5-d，所述异二聚体构建体含有与具有V82S突变的TadA*7.10(TadA*8.5)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.6-d，所述异二聚体构建体含有与具有T166R突变的TadA*7.10(TadA*8.6)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.7-d，所述异二聚体构建体含有与具有Q154R突变的TadA*7.10(TadA*8.7)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.8-d，所述异二聚体构建体含有与具有Y147R、Q154R和Y123H突变的TadA*7.10(TadA*8.8)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.9-d，所述异二聚体构建体含有与具有Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.9)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.10-d，所述异二聚体构建体含有与具有Y147R、Q154R和T166R突变的TadA*7.10(TadA*8.10)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.11-d，所述异二聚体构建体含有与具有Y147T和Q154R突变的TadA*7.10(TadA*8.11)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.12-d，所述异二聚体构建体含有与具有Y147T和Q154S突变的TadA*7.10(TadA*8.12)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.13-d，所述异二聚体构建体含有与具有Y123H(从H123Y复原的Y123H)、Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.13)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.14-d，所述异二聚体构建体含有与具有I76Y和V82S突变的TadA*7.10(TadA*8.14)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.15-d，所述异二聚体构建体含有与具有V82S和Y147R突变的TadA*7.10(TadA*8.15)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.16-d，所述异二聚体构建体含有与具有V82S、Y123H(从H123Y复原的Y123H)和Y147R突变的TadA*7.10(TadA*8.16)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.17-d，所述异二聚体构建体含有与具有V82S和Q154R突变的TadA*7.10(TadA*8.17)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.18-d，所述异二聚体构建体含有与具有V82S、Y123H(从H123Y复原的Y123H)和Q154R突变的TadA*7.10(TadA*8.18)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.19-d，所述异二聚体构建体含有与具有V82S、Y123H(从H123Y复原的Y123H)、Y147R和Q154R突变的TadA*7.10(TadA*8.19)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.20-d，所述异二聚体构建体含有与具有I76Y、V82S、Y123H(从H123Y复原的Y123H)、Y147R和Q154R突变的TadA*7.10(TadA*8.20)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.21-d，所述异二聚体构建体含有与具有Y147R和Q154S突变的TadA*7.10(TadA*8.21)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.22-d，所述异二聚体构建体含有与具有V82S和Q154S突变的TadA*7.10(TadA*8.22)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.23-d，所述异二聚体构建体含有与具有V82S和Y123H(从H123Y复原的Y123H)突变的TadA*7.10(TadA*8.23)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.24-d，所述异二聚体构建体含有与具有V82S、Y123H(从H123Y复原的Y123H)和Y147T突变的TadA*7.10(TadA*8.24)融合的野生型大肠杆菌TadA。

在一些实施方案中，ABE8具有含有与TadA*8变体融合的TadA*7.10的异二聚体构建体(“ABE8.x-7”)。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.1-7，所述异二聚体构建体含有与具有Y147T突变的TadA*7.10(TadA*8.1)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.2-7，所述异二聚体构建体含有与具有Y147R突变的TadA*7.10(TadA*8.2)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.3-7，所述异二聚体构建体含有与具有Q154S突变的TadA*7.10(TadA*8.3)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.4-7，所述异二聚体构建体含有与具有Y123H突变的TadA*7.10(TadA*8.4)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.5-7，所述异二聚体构建体含有与具有V82S突变的TadA*7.10(TadA*8.5)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.6-7，所述异二聚体构建体含有与具有T166R突变的TadA*7.10(TadA*8.6)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.7-7，所述异二聚体构建体含有与具有Q154R突变的TadA*7.10(TadA*8.7)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.8-7，所述异二聚体构建体含有与具有Y147R、Q154R和Y123H突变的TadA*7.10(TadA*8.8)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.9-7，所述异二聚体构建体含有与具有Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.9)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.10-7，所述异二聚体构建体含有与具有Y147R、Q154R和T166R突变的TadA*7.10(TadA*8.10)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.11-7，所述异二聚体构建体含有与具有Y147T和Q154R突变的TadA*7.10(TadA*8.11)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.12-7，所述异二聚体构建体含有与具有Y147T和Q154S突变的TadA*7.10(TadA*8.12)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.13-7，所述异二聚体构建体含有与具有Y123H(从H123Y复原的Y123H)、Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.13)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.14-7，所述异二聚体构建体含有与具有I76Y和V82S突变的TadA*7.10(TadA*8.14)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.15-7，所述异二聚体构建体含有与具有V82S和Y147R突变的TadA*7.10(TadA*8.15)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.16-7，所述异二聚体构建体含有与具有V82S、Y123H(从H123Y复原的Y123H)和Y147R突变的TadA*7.10(TadA*8.16)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.17-7，所述异二聚体构建体含有与具有V82S和Q154R突变的TadA*7.10(TadA*8.17)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.18-7，所述异二聚体构建体含有与具有V82S、Y123H(从H123Y复原的Y123H)和Q154R突变的TadA*7.10(TadA*8.18)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.19-7，所述异二聚体构建体含有与具有V82S、Y123H(从H123Y复原的Y123H)、Y147R和Q154R突变的TadA*7.10(TadA*8.19)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.20-7，所述异二聚体构建体含有与具有I76Y、V82S、Y123H(从H123Y复原的Y123H)、Y147R和Q154R突变的TadA*7.10(TadA*8.20)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.21-7，所述异二聚体构建体含有与具有Y147R和Q154S突变的TadA*7.10(TadA*8.21)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.22-7，所述异二聚体构建体含有与具有V82S和Q154S突变的TadA*7.10(TadA*8.22)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.23-7，所述异二聚体构建体含有与具有V82S和Y123H(从H123Y复原的Y123H)突变的TadA*7.10(TadA*8.23)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.24-7，所述异二聚体构建体含有与具有V82S、Y123H(从H123Y复原的Y123H)和Y147T突变的TadA*7.10融合的TadA*7.10(TadA*8.24)。

在一些实施方案中，ABE是ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d或ABE8.24-d，如下表11所示。

表11：腺苷碱基编辑器8(ABE8)变体

/>

在一些实施方案中，ABE8是具有单体构建体的ABE8a-m，所述单体构建体含有具有R26C、A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10(TadA*8a)。在一些实施方案中，ABE8是具有单体构建体的ABE8b-m，所述单体构建体含有具有V88A、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10(TadA*8b)。在一些实施方案中，ABE8是具有单体构建体的ABE8c-m，所述单体构建体含有具有R26C、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10(TadA*8c)。在一些实施方案中，ABE8是具有单体构建体的ABE8d-m，所述单体构建体含有具有V88A、T111R、D119N和F149Y突变的TadA*7.10(TadA*8d)。在一些实施方案中，ABE8是具有单体构建体的ABE8e-m，所述单体构建体含有具有A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10(TadA*8e)。

在一些实施方案中，ABE8是具有异二聚体构建体的ABE8a-d，所述异二聚体构建体含有与具有R26C、A109S、T111R、D119、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10(TadA*8a)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8b-d，所述异二聚体构建体含有与具有V88A、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10(TadA*8b)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8c-d，所述异二聚体构建体含有与具有R26C、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10(TadA*8c)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8d-d，所述异二聚体构建体含有与具有V88A、T111R、D119N和F149Y突变的TadA*7.10(TadA*8d)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8e-d，所述异二聚体构建体含有与具有A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10(TadA*8e)融合的野生型大肠杆菌TadA。

在一些实施方案中，ABE8是具有异二聚体构建体的ABE8a-7，所述异二聚体构建体含有与具有R26C、A109S、T111R、D119、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10(TadA*8a)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8b-7，所述异二聚体构建体含有与具有V88A、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10(TadA*8b)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8c-7，所述异二聚体构建体含有与具有R26C、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10(TadA*8c)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8d-7，所述异二聚体构建体含有与具有V88A、T111R、D119N和F149Y突变的TadA*7.10(TadA*8d)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8e-7，所述异二聚体构建体含有与具有A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10(TadA*8e)融合的TadA*7.10。

在一些实施方案中，ABE是ABE8a-m、ABE8b-m、ABE8c-m、ABE8d-m、ABE8e-m、ABE8a-d、ABE8b-d、ABE8c-d、ABE8d-d或ABE8e-d，如下表12所示。在一些实施方案中，ABE是ABE8e-m或ABE8e-d。当ABE8e与除SpCas9以外的Cas同源物(例如，SaCas9、SaCas9-KKH、Cas12a同源物，例如LbCas12a、enAs-Cas12a、SpCas9-NG和环状置换的CP1028-SpCas9和CP1041-SpCas9)一起使用时显示出高效的腺嘌呤碱基编辑活性和低插入缺失形成。除了表12中显示的ABE8e突变外，通过将V106W取代引入到TadA结构域中减少了脱靶RNA和DNA编辑(如描述于M.Richter等人,2020,Nature Biotechnology,doi.org/10.1038/s41587-020-0453-z，其全部内容以引用方式并入本文)。

表12：另外的腺苷碱基编辑器8变体。在表中，“单体”表示包含单个TadA*7.10的ABE，所述TadA*7.10包含指定的改变，并且“异二聚体”表示包含与大肠杆菌TadA腺苷脱氨酶融合的TadA*7.10的ABE，所述TadA*7.10包含指定的改变。

/>

在一些实施方案中，碱基编辑器(例如，ABE8)通过将腺苷脱氨酶变体(例如，TadA*8)克隆到包括环状排列突变体Cas9(例如，CP5或CP6)和二分核定位序列的支架中而产生。在一些实施方案中，碱基编辑器(例如，ABE7.9、ABE7.10或ABE8)是NGC PAM CP5变体(酿脓链球菌Cas9或spVRQR Cas9)。在一些实施方案中，碱基编辑器(例如，ABE7.9、ABE7.10或ABE8)是AGA PAM CP5变体(酿脓链球菌Cas9或spVRQR Cas9)。在一些实施方案中，碱基编辑器(例如，ABE7.9、ABE7.10或ABE8)是NGC PAM CP6变体(化脓性链球菌Cas9或spVRQRCas9)。在一些实施方案中，碱基编辑器(例如，ABE7.9、ABE7.10或ABE8)是AGA PAM CP6变体(化脓性链球菌Cas9或spVRQR Cas9)。

在一些实施方案中，ABE具有如下表13中所示的基因型。

表13.ABE的基因型

23

26

36

37

48

49

51

72

84

87

105

108

123

125

142

145

147

152

155

156

157

161

ABE7.9

L

R

L

N

A

L

N

F

S

V

N

Y

G

N

C

Y

P

V

F

N

K

ABE7.10

R

L

N

A

L

N

F

S

V

N

Y

G

A

C

Y

P

V

F

N

K

如下表14所示，描述了40个ABE8的基因型。表示了ABE的进化大肠杆菌TadA部分中的残基位置。当与ABE7.10突变不同时，显示了ABE8中的突变变化。在一些实施方案中，ABE具有如下表14中所示的ABE之一的基因型。

表14.进化的TadA中的残基身份

23

36

48

51

76

82

84

106

108

123

146

147

152

154

155

156

157

166

ABE7.10

R

L

A

L

I

V

F

V

N

Y

C

Y

P

Q

V

F

N

T

ABE8.1-m

T

ABE8.2-m

R

ABE8.3-m

S

ABE8.4-m

H

ABE8.5-m

S

ABE8.6-m

R

ABE8.7-m

R

ABE8.8-m

H

R

ABE8.9-m

Y

R

ABE8.10-m

R

ABE8.11-m

T

R

ABE8.12-m

T

S

ABE8.13-m

Y

H

R

ABE8.14-m

Y

S

ABE8.15-m

S

R

ABE8.16-m

S

H

R

ABE8.17-m

S

R

ABE8.18-m

S

H

R

ABE8.19-m

S

H

R

ABE8.20-m

Y

S

H

R

ABE8.21-m

R

S

ABE8.22-m

S

ABE8.23-m

S

H

ABE8.24-m

S

H

T

ABE8.1-d

T

ABE8.2-d

R

ABE8.3-d

S

ABE8.4-d

H

ABE8.5-d

S

ABE8.6-d

R

ABE8.7-d

R

ABE8.8-d

H

R

ABE8.9-d

Y

R

ABE8.10-d

R

ABE8.11-d

T

R

ABE8.12-d

T

S

ABE8.13-d

Y

H

R

ABE8.14-d

Y

S

ABE8.15-d

S

R

ABE8.16-d

S

H

R

ABE8.17-d

S

R

ABE8.18-d

S

H

R

ABE8.19-d

S

H

R

ABE8.20-d

Y

S

H

R

ABE8.21-d

R

S

ABE8.22-d

S

ABE8.23-d

S

H

ABE8.24-d

S

H

T

在一些实施方案中，碱基编辑器是ABE8.1，其包含或基本上由以下具有腺苷脱氨酶活性的序列或其片段组成：

ABE8.1_Y147T_CP5_NGC PAM_单体

/>

上述序列中，普通文本表示腺苷脱氨酶序列，粗体序列表示来源于Cas9的序列，斜体序列表示接头序列，并且加下划线的序列表示二分核定位序列。其他ABE8序列提供于所附的序列表中(SEQ ID NO:420-442)。

在一些实施方案中，碱基编辑器是第九代ABE(ABE9)。在一些实施方案中，ABE9含有TadA*9变体。ABE9碱基编辑器包含腺苷脱氨酶变体，所述变体包含含有如本文所述的相对于ABE7*10参考序列含有改变的氨基酸序列。示例性ABE9变体列于表15中。ABE9碱基编辑器的细节描述于国际PCT申请号PCT/2020/049975，其以引用方式整体并入本文。

表15.腺苷碱基编辑器9(ABE9)变体。在表中，“单体”表示包含单个TadA*7.10的ABE，所述TadA*7.10包含指定的改变，并且“异二聚体”表示包含与大肠杆菌TadA腺苷脱氨酶融合的TadA*7.10的ABE，所述TadA*7.10包含指定的改变。

/>

在一些实施方案中，碱基编辑器包含腺苷脱氨酶变体，其包含如本文所述的相对于ABE7*10参考序列含有改变的氨基酸序列。如表15.1中使用的术语“单体”是指包含所描述改变的TadA*7.10的单体形式。如表15.1中使用的术语“异二聚体”是指与包含所述改变的TadA*7.10融合的特定野生型大肠杆菌TadA腺苷脱氨酶。

表15.1.腺苷脱氨酶碱基编辑器变体

/>

在一些实施方案中，碱基编辑器包含有包含全部或部分尿嘧啶糖基化酶抑制剂(UGI)的结构域。在一些实施方案中，碱基编辑器包含有包含全部或部分核酸聚合酶的结构域。在一些实施方案中，碱基编辑器可以包含作为结构域的全部或部分核酸聚合酶(NAP)。例如，碱基编辑器可以包含全部或部分真核生物NAP。在一些实施方案中，并入到碱基编辑器中的NAP或其部分是DNA聚合酶。在一些实施方案中，并入到碱基编辑器中的NAP或其部分具有跨损伤聚合酶活性。在一些实施方案中，并入到碱基编辑器中的NAP或其部分是跨损伤DNA聚合酶。在一些实施方案中，并入到碱基编辑器中的NAP或其部分是Rev7、Rev1复合物、聚合酶ι、聚合酶κ或聚合酶η。在一些实施方案中，并入到碱基编辑器中的NAP或其部分是真核聚合酶α、β、γ、δ、ε、γ、η、ι、κ、λ、μ或ν组分。在一些实施方案中，并入到碱基编辑器中的NAP或其部分包含与核酸聚合酶(例如，跨损伤DNA聚合酶)至少75％、80％、85％、90％、95％、96％、97％、98％、99％或99.5％同一的氨基酸序列。在一些实施方案中，并入到碱基编辑器中的核酸聚合酶或其部分是跨损伤DNA聚合酶。

在一些实施方案中，碱基编辑器的结构域可以包含多个结构域。例如，包含衍生自Cas9的多核苷酸可编程核苷酸结合结构域的碱基编辑器可以包含对应于野生型或天然Cas9的REC叶和NUC叶的REC叶和NUC叶。在另一个实例中，碱基编辑器可以包含RuvCI结构域、BH结构域、REC1结构域、REC2域、RuvCII结构域、L1结构域、HNH结构域、L2结构域、RuvCIII结构域、WED结构域、TOPO结构域或CTD结构域中的一个或多个。在一些实施方案中，碱基编辑器的一个或多个结构域包含相对于包含所述结构域的多肽的野生型形式的突变(例如，取代、插入、缺失)。例如，多核苷酸可编程DNA结合结构域的HNH结构域可以包含H840A取代。在另一个实例中，多核苷酸可编程DNA结合结构域的RuvCI域可以包含D10A取代。

本文公开的碱基编辑器的不同结构域(例如，相邻结构域)可以在使用或不使用一个或多个接头结构域(例如，XTEN接头结构域)的情况下彼此连接。在一些实施方案中，接头结构域可以是键(例如，共价键)、化学基团或连接两个分子或部分(例如融合蛋白的两个结构域，例如像第一结构域(例如，Cas9衍生结构域)和第二结构域(例如，腺苷脱氨酶结构域或胞苷脱氨酶结构域))的分子。在一些实施方案中，接头是共价键(例如，碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中，接头是酰胺键的碳氮键。在某些实施方案中，接头是环状或无环、取代或未取代、支链或非支链的脂族或杂脂族接头。在某些实施方案中，接头是聚合的(例如，聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中，接头包含氨基链烷酸的单体、二聚体或聚合物。在一些实施方案中，接头包含氨基链烷酸(例如，甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在一些实施方案中，接头包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中，接头基于碳环部分(例如，环戊烷、环己烷)。在其他实施方案中，接头包含聚乙二醇部分(PEG)。在某些实施方案中，接头包含芳基或杂芳基部分。在某些实施方案中，接头基于苯环。接头可以包含功能化部分以促进亲核物质(例如，硫醇、氨基)从肽连接到接头。任何亲电试剂都可以用作接头的一部分。示例性亲电试剂包括但不限于活化酯、活化酰胺、迈克尔受体、卤代烷、芳基卤、酰卤和异硫氰酸酯。在一些实施方案中，接头连接RNA可编程核酸酶的gRNA结合结构域，包括Cas9核酸酶结构域和核酸编辑蛋白的催化结构域。在一些实施方案中，接头连接dCas9和第二结构域(例如，UGI等)。

接头

在某些实施方案中，接头可以用于连接本发明的任何肽或肽结构域。接头可以像共价键一样简单，或者它可以是长度为许多原子的聚合接头。在某些实施方案中，接头是多肽或基于氨基酸。在某些实施方案中，基于多肽或氨基酸的接头可以由本发明的任何多核苷酸编码。在一些实施方案中，编码脱氨酶结构域和/或核酸可编程DNA结合蛋白(napDNAbp)结构域的多核苷酸或其片段包含接头多核苷酸序列。在一些实施方案中，编码脱氨酶结构域和/或核酸可编程DNA结合蛋白(napDNAbp)结构域的多核苷酸或其片段以及接头多核苷酸序列包括插入在开放阅读框内的内含子。在一些实施方案中，内含子插入到接头多核苷酸序列中。

在其他实施方案中，接头不是肽样的。在某些实施方案中，接头是共价键(例如，碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中，接头是酰胺键的碳-氮键。在某些实施方案中，接头是环状或无环、取代或未取代、支链或非支链的脂族或杂脂族接头。在某些实施方案中，接头是聚合的(例如，聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中，接头包含氨基链烷酸的单体、二聚体或聚合物。在某些实施方案中，接头包含氨基链烷酸(例如，甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在某些实施方案中，接头包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中，接头基于碳环部分(例如，环戊烷、环己烷)。在其他实施方案中，接头包含聚乙二醇部分(PEG)。在其他实施方案中，接头包含氨基酸。在某些实施方案中，接头包含肽。在某些实施方案中，接头包含芳基或杂芳基部分。在某些实施方案中，接头基于苯环。接头可以包含功能化部分以促进亲核物质(例如，硫醇、氨基)从肽连接到接头。任何亲电试剂都可以用作接头的一部分。示例性亲电试剂包括但不限于活化酯、活化酰胺、迈克尔受体、卤代烷、芳基卤、酰卤和异硫氰酸酯。

通常，接头位于两个基团、分子或其他部分之间或侧翼为两个基团、分子或其他部分，并通过共价键连接到每一个，从而将两者连接起来。在一些实施方案中，接头是一个氨基酸或多个氨基酸(例如，肽或蛋白质)。在一些实施方案中，接头是有机分子、基团、聚合物或化学部分。在一些实施方案中，接头长度为2-100个氨基酸，例如长度为2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、30-35个、35-40个、40-45个、45-50个、50-60个、60-70个、70-80个、80-90个、90-100个、100-150个或150-200个氨基酸。在一些实施方案中，接头长度为约3个至约104个(例如，5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个或100个)氨基酸。也考虑了更长或更短的接头。

在一些实施方案中，本文提供的任何融合蛋白包含通过接头彼此融合的胞苷或腺苷脱氨酶和Cas9结构域。可以使用胞苷或腺苷脱氨酶与Cas9结构域之间的各种接头长度和柔性(例如，范围从非常具有柔性的接头形式(GGGS)n(SEQ ID NO:334)、(GGGGS)n(SEQ IDNO:335)和(G)n到更刚性的接头形式(EAAAK)n(SEQ ID NO:336)、(SGGS)n(SEQ ID NO:443)、SGSETPGTSESATPES(SEQ ID NO:337)(参见，例如，Guilinger JP等人Fusion ofcatalytically ina ctive Cas9 to FokI nuclease improves the specificity ofgenome mo dification.Nat.Biotechnol.2014；32(6):577-82；全部内容以引用方式并入本文)和(XP)n)以获得胞苷或腺苷脱氨酶核碱基编辑器的最佳活性长度。在一些实施方案中，n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中，接头包含(GGS)n基序，其中n是1、3或7。在一些实施方案中，本文提供的任何融合蛋白的胞苷脱氨酶或腺苷脱氨酶和Cas9结构域经由包含氨基酸序列SGS ETPGTSESATPES(SEQ ID NO:237)的接头融合，所述接头也可以称为XTEN接头。

在一些实施方案中，碱基编辑器的结构域经由包含以下氨基酸序列的接头融合：

SGGSSGSETPGTSESATPESSGGS(SEQ ID NO:444)、SGGSSGGSSGSETPGTSESATPESSGGSSGGS(SEQ ID NO:445)或GGSG GSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTS TEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATSG GSGGS(SEQ ID NO:446)。

在一些实施方案中，碱基编辑器的结构域经由包含氨基酸序列SGSETPGTSESATPES(SEQ ID NO:237)的接头融合，所述接头也可以称为XTEN接头。在一些实施方案中，接头包含氨基酸序列SGGS。在一些实施方案中，接头的长度为24个氨基酸。在一些实施方案中，接头包含氨基酸序列SGGSSGGSSGSETPGTSESATPES(SEQ ID NO:447)。在一些实施方案中，接头的长度为40个氨基酸。在一些实施方案中，接头包含氨基酸序列：SGGSSGGSSGSETPGTSESATPES SGGSSGGSSGGSSGGS(SEQ ID NO:448)。在一些实施方案中，接头的长度为64个氨基酸。在一些实施方案中，接头包含氨基酸序列：SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGSSGSETPG TSESATPESSGGSSGGS(SEQ ID NO:449)。在一些实施方案中，接头的长度为92个氨基酸。在一些实施方案中，接头包含氨基酸序列：PGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPT STEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATS(SEQ ID NO:450)。

在一些实施方案中，接头包含多个脯氨酸残基并且长度为5-21个、5-14个、5-9个、5-7个氨基酸，例如PAPAP(SEQ ID NO:451)、PAPAPA(SEQ ID NO:452)、PAPAPAP(SEQ ID NO:453)、PAPAPAPA(SEQ ID NO:454)、P(AP)4(SEQ ID NO:455)、P(AP)7(SEQ ID NO:456)、P(AP)10(SEQ ID NO:457)(参见，例如Tan J,Zhang F,Karcher D,Bock R.Engineering ofhigh-precision base editors for site-specific single nucleotidereplacement.Nat Commun.2019年1月25日；10(1):439；全部内容以引用方式并入本文)。这种富含脯氨酸的接头也称为“刚性”接头。

在另一个实施方案中，碱基编辑器系统包含与脱氨酶(DNA脱氨酶)例如腺苷或胞苷脱氨酶非共价相互作用的组分(蛋白质)，并将腺苷或胞苷脱氨酶瞬时吸引至靶多核苷酸序列中的靶核碱基以进行特定编辑，具有最小的或减少的旁观者或靶相邻效应。这种涉及脱氨酶相互作用蛋白的非共价系统和方法用于将DNA脱氨酶吸引到特定的基因组靶核碱基，并解耦靶上和靶相邻编辑事件，从而增强更精确的单碱基取代突变的实现。在一个实施方案中，脱氨酶相互作用蛋白与脱氨酶(例如，腺苷脱氨酶或胞苷脱氨酶)结合，而不阻断或干扰脱氨酶的活性(催化)位点与靶核碱基(例如，分别为腺苷或胞苷)接合。诸如，称为“MagnEdit”的系统包括与Cas9和gRNA复合物相连的相互作用蛋白，并且可以吸引共表达的腺苷或胞苷脱氨酶(外源性或内源性)以编辑特定的基因组靶位点，并描述于McCann,J.等人,2020,“Magn Edit–interacting factors that recruit DNA-editing enzymes tosingl e base targets,”Life-Science-Alliance,第3卷,第4期(e201900606),(doi10.26508/Isa.201900606)，其内容以引用方式整体并入本文。在一个实施方案中，DNA脱氨酶是如本文所述的腺苷脱氨酶变体(例如，TadA*8)。

在另一个实施方案中，称为“Suntag”的系统包括用于将碱基编辑器的蛋白(例如，腺苷脱氨酶或胞苷脱氨酶)组分或其多个拷贝募集到多核苷酸靶位点以在相邻靶编辑减少的位点处实现碱基编辑的非共价相互作用组分，例如，如Tanenbaum,M.E.等人,“A proteintaggi ng system for signal amplification in gene expression and fluoresce nceimaging,”Cell.2014年10月23日；159(3):635–646.doi:10.1016/j.cell.2014.09.039；和Huang,Y.-H.等人,2017,“DNA epigenome ed iting using CRISPR-Cas SunTag-directedDNMT3A,”Genome Biol18:176.doi:10.1186/s13059-017-1306-z中所述，其中的每一个的内容都以引用方式整体并入本文。在一个实施方案中，DNA脱氨酶是如本文所述的腺苷脱氨酶变体(例如，TadA*8)。

具有指导RNA的核酸可编程DNA结合蛋白

本文提供了用于细胞中碱基编辑和/或使碱基编辑器失活的组合物和方法。本文还提供了组合物，其包含指导多核酸序列，例如指导RNA序列，或如本文提供的2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或更多个指导RNA的组合。在一些实施方案中，如本文提供的用于碱基编辑的组合物还包含编码碱基编辑器，例如C-碱基编辑器或A-碱基编辑器的多核苷酸。例如，用于碱基编辑的组合物可以包含编码BE、BE4、ABE和所提供的一种或多种指导RNA的组合的mRNA序列。在一些实施方案中，编码碱基编辑器的多核苷酸包含异源内含子。用于碱基编辑的组合物可以包含碱基编辑器多肽和本文提供的任何指导RNA中的一种或多种的组合。此类组合物可以用于通过不同的递送途径(例如电穿孔、核转染、病毒转导或转染)在细胞中实现碱基编辑或使碱基编辑器失活。在一些实施方案中，用于碱基编辑或使碱基编辑器失活的组合物包含本文提供的用于电穿孔的编码碱基编辑器的mRNA序列和一种或多种指导RNA序列的组合。在一些实施方案中，编码碱基编辑器的mRNA序列包含异源内含子。

本公开的一些方面提供了复合物，所述复合物包含本文提供的任何融合蛋白，以及与融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)结构域(例如，Cas9(例如，dCas9、核酸酶活性Cas9，或Cas9切口酶)或Cas12)结合的指导RNA。这些复合物也称为核糖核蛋白(RNP)。在一些实施方案中，指导核酸(例如，指导RNA)为15-100个核苷酸长，并且包含与靶序列互补的至少10个连续核苷酸的序列。在一些实施方案中，指导RNA为15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49或50个核苷酸长。在一些实施方案中，指导RNA包含15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个或40个与靶序列互补的连续核苷酸的序列。在一些实施方案中，靶序列是DNA序列。在一些实施方案中，靶序列是RNA序列。在一些实施方案中，靶序列是细菌、酵母、真菌、昆虫、植物或动物的基因组中的序列。在一些实施方案中，靶序列是人基因组中的序列。在一些实施方案中，靶序列的3'末端紧邻规范PAM序列(NGG)。在一些实施方案中，靶序列的3'末端紧邻非规范PAM序列(例如，表6中列出的序列或5'-NAA-3')。在一些实施方案中，指导核酸(例如，指导RNA)与感兴趣的基因(例如，与疾病或病症相关的基因)中的序列互补。

本公开的一些方面提供了使用本文提供的融合蛋白或复合物的方法。例如，本公开的一些方面提供的方法包括使DNA分子与本文提供的任何融合蛋白和至少一种指导RNA接触，其中指导RNA为约15-100个核苷酸长并且包含与靶序列互补的至少10个连续核苷酸的序列。在一些实施方案中，靶序列的3'末端紧邻AGC、GAG、TTT、GTG或CAA序列。在一些实施方案中，靶序列的3'末端紧邻NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN或5'(TTTV)序列。在一些实施方案中，靶序列的3'末端紧邻例如TTN、DTTN、GTTN、ATTN、ATTC、DTTNT、WTTN、HATY、TTTN、TTTV、TTTC、TG、RTR或YTN PAM位点。

应当理解，各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同，例如，成熟蛋白质的前体和成熟蛋白质本身的编号不同，并且物种之间的序列差异可能会影响编号。本领域技术人员将能够通过本领域熟知的方法，例如通过序列比对和同源残基的测定，鉴定任何同源蛋白质和相应编码核酸中的相应残基。

对本领域技术人员显而易见的是，为了使本文公开的任何融合蛋白靶向靶位点，例如包含待编辑的突变的位点，通常需要将融合蛋白与指导RNA一起共表达。如本文别处更详细解释，指导RNA通常包含允许napDNAbp(例如，Cas9或Cas12)结合的tracrRNA框架和指导序列，其赋予napDNAbp:核酸编辑酶/结构域融合蛋白序列特异性。或者，可以单独提供指导RNA和tracrRNA，作为两个核酸分子。在一些实施方案中，指导RNA包含一种结构，其中指导序列包含与靶序列互补的序列。指导序列通常为20个核苷酸长。基于本公开，用于将napDNAbp:核酸编辑酶/结构域靶向特定基因组靶位点的合适的指导RNA的序列对于本领域技术人员是显而易见的。这种合适的指导RNA序列通常包含与待编辑的靶核苷酸上游或下游50个核苷酸内的核酸序列互补的指导序列。本文提供了一些示例性指导RNA序列，这些指导RNA序列适用于将任何所提供的融合蛋白靶向特定的靶序列。

预计sgRNA的不同部分会形成与Cas9(例如，SpyCas9)和/或DNA靶标相互作用的各种特征。已在指导Cas9核酸内切酶活性的天然crRNA:tracrRNA双链体和单导向RNA(sgRNA)内鉴定出六个保守模块(参见Briner等人,Guide RNA Functional Modules DirectCas9Activity and Orthogonality Mol Cell.2014年10月23日；56(2):333-339)。这六个模块包括负责DNA靶向的间隔区、由CRISPR重复:tracrRNA双链体形成的上位茎、凸起、下位茎、连接、来自tracrRNA 3'末端的发夹。上位茎和下位茎主要通过与磷酸骨架的序列非依赖性相互作用与Cas9相互作用。在一些实施方案中，上位茎是可有可无的。在一些实施方案中，下位茎基部的保守尿嘧啶核苷酸序列是可有可无的。凸起参与与Cas9的Rec1结构域的特定侧链相互作用。U44的核碱基与Tyr 325和His 328的侧链相互作用，而G43与Tyr 329相互作用。连接形成sgRNA:Cas9相互作用的核心，并且位于sgRNA与Cas9和靶DNA之间的交叉点。A51和A52的核碱基与Phe 1105的侧链相互作用；U56与Arg 457和Asn 459相互作用；U59的核碱基插入由Arg74、Asn 77、Pro 475、Leu 455、Phe 446和Ile 448的侧链限定的疏水口袋中；C60与Leu 455、Ala 456和Asn 459相互作用，并且C61与Arg 70的侧链相互作用，Arg70的侧链又与C15相互作用。在一些实施方案中，这些突变中的一个或多个在凸起和/或Cas9(例如spyCas9)的sgRNA的连接中进行以优化sgRNA:Cas9相互作用。

此外，tracrRNA连接和发夹对Cas9配对至关重要，并且可以互换以跨越分离不同Cas9蛋白的正交障碍，这有助于进一步利用正交Cas9蛋白。在一些实施方案中，连接和发夹互换以靶向正交Cas9蛋白。在一些实施方案中，sgRNA被免除上位茎、发夹1和/或下位茎的序列灵活性以设计更紧凑和构象稳定的指导RNA。在一些实施方案中，使用具有各种嵌合指导物的单个Cas9或通过同时使用具有不同嵌合sgRNA组合的正交系统对模块进行修饰以优化多重编辑。关于指导功能性模块及其方法的细节描述于例如，Briner等人,Guide RNAFunctional Modules Direct Cas9 Activity and Orthogonality Mol Cell.2014年10月23日；56(2):333-339中，其内容以引用方式整体并入本文。

本文公开的碱基编辑器的结构域可以以任何顺序排列。包含有包含例如，多核苷酸可编程核苷酸结合结构域(例如，Cas9或Cas12)和脱氨酶结构域(例如，胞苷或腺苷脱氨酶)的融合蛋白的碱基编辑器的非限制性实例可以排列如下：

NH2-[核碱基编辑结构域]-接头1-[核碱基编辑结构域]-COOH；

NH2-[脱氨酶]-接头1-[核碱基编辑结构域]-COOH；

NH2-[脱氨酶]-接头1-[核碱基编辑结构域]-接头2-[UGI]-COOH；

NH2-[脱氨酶]-接头1-[核碱基编辑结构域]-COOH；

NH2-[腺苷脱氨酶]-接头1-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-[脱氨酶]-COOH；

NH2-[脱氨酶]-[核碱基编辑结构域]-[肌苷BER抑制剂]-COOH；

NH2-[脱氨酶]-[肌苷BER抑制剂]-[核碱基编辑结构域]-COOH；

NH2-[肌苷BER抑制剂]-[脱氨酶]-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-[脱氨酶]-[肌苷BER抑制剂]-COOH；

NH2-[核碱基编辑结构域]-[肌苷BER抑制剂]-[脱氨酶]-COOH；

NH2-[肌苷BER抑制剂]-[核碱基编辑结构域]-[脱氨酶]-COOH；

NH2-[核碱基编辑结构域]-接头1-[脱氨酶]-接头2-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-接头1-[脱氨酶]-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-[脱氨酶]-接头2-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-[脱氨酶]-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-接头1-[脱氨酶]-接头2-[核碱基编辑结构域]-[肌苷BER抑制剂]-COOH；

NH2-[核碱基编辑结构域]-接头1-[脱氨酶]-[核碱基编辑结构域]-[肌苷BER抑制剂]-COOH；

NH2-[核碱基编辑结构域]-[脱氨酶]-接头2-[核碱基编辑结构域]-[肌苷BER抑制剂]-COOH；

NH2-[核碱基编辑结构域]-[脱氨酶]-[核碱基编辑结构域]-[肌苷BER抑制剂]-COOH；

NH2-[肌苷BER抑制剂]-[核碱基编辑结构域]-接头1-[脱氨酶]-接头2-[核碱基编辑结构域]-COOH；

NH2-[肌苷BER抑制剂]-[核碱基编辑结构域]-接头1-[脱氨酶]-[核碱基编辑结构域]-COOH；

NH2-[肌苷BER抑制剂]-[核碱基编辑结构域]-[脱氨酶]-接头2-[核碱基编辑结构域]-COOH；或

NH2-[肌苷BER抑制剂]NH2-[核碱基编辑结构域]-[脱氨酶]-[核碱基编辑结构域]-COOH。

限定的靶区域可以是脱氨窗口。脱氨窗口可以是碱基编辑器作用于靶核苷酸并使靶核苷酸脱氨基的限定区域。在一些实施方案中，脱氨窗口在2个、3个、4个、5个、6个、7个、8个、9个或10个碱基区域内。在一些实施方案中，脱氨窗口在PAM上游5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个或25个碱基处。

本公开的碱基编辑器可以包含促进靶多核苷酸序列的编辑的任何结构域、特征或氨基酸序列。例如，在一些实施方案中，碱基编辑器包含核定位序列(NLS)。在一些实施方案中，碱基编辑器的NLS位于脱氨酶结构域和napDNAbp结构域之间。在一些实施方案中，碱基编辑器的NLS位于napDNAbp结构域的C端。

可以包含在融合蛋白中的蛋白质结构域的非限制性实例包括脱氨酶结构域(例如，腺苷脱氨酶或胞苷脱氨酶)、尿嘧啶糖基化酶抑制剂(UGI)结构域、表位标签、报告基因序列和/或具有本文所述的一种或多种活性的蛋白质结构域。

可以用表位标签、报告蛋白、其他结合结构域检测或标记结构域。表位标签的非限制性实例包括组氨酸(His)标签、V5标签、FLAG标签、流感血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(Trx)标签。报告基因的实例包括但不限于谷胱甘肽-5-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)β-半乳糖苷酶、β-葡萄糖醛酸酶、荧光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和自体荧光蛋白，包括蓝色荧光蛋白(BFP)。另外的蛋白质序列可以包括结合DNA分子或结合其他细胞分子的氨基酸序列，包括但不限于麦芽糖结合蛋白(MBP)、S-tag、Lex ADNA结合结构域(DBD)融合体、GAL4 DNA结合结构域融合体和单纯疱疹病毒(HSV)BP16蛋白融合体。

使用包含胞苷或腺苷脱氨酶和Cas9结构域的融合蛋白的方法

本公开的一些方面提供了使用本文提供的融合蛋白或复合物的方法。例如，本公开的一些方面提供的方法包括使DNA分子与本文提供的任何融合蛋白以及与本文所述的至少一种指导RNA接触。

在一些实施方案中，本发明的融合蛋白用于编辑感兴趣的靶基因或多核苷酸序列。具体而言，本文所述的胞苷脱氨酶或腺苷脱氨酶核碱基编辑器能够在靶序列内进行多个突变。这些突变可能会影响靶标的功能。例如，当使用胞苷脱氨酶或腺苷脱氨酶核碱基编辑器靶向调节区时，调节区的功能被改变并且下游蛋白质的表达减少或消除。在另一个实例中，当胞苷脱氨酶或腺苷脱氨酶核碱基编辑器用于靶向并入到编码碱基编辑器的多核苷酸序列中的异源内含子中的剪接受体或剪接供体位点时，内含子的剪接被改变并且碱基编辑器的表达或活性减少或消除。

对本领域技术人员显而易见的是，为了使本文公开的包含Cas9结构域和胞苷或腺苷脱氨酶的任何融合蛋白靶向靶位点，例如包含待编辑的突变的位点，通常需要将融合蛋白与指导RNA一起共表达。如本文别处更详细解释，指导RNA通常包含允许Cas9结合的tracrRNA框架和指导序列，其赋予Cas9:核酸编辑酶/结构域融合蛋白序列特异性。或者，可以单独提供指导RNA和tracrRNA，作为两个核酸分子。在一些实施方案中，指导RNA包含一种结构，其中指导序列包含与靶序列互补的序列。指导序列通常为20个核苷酸长。基于本公开，用于将Cas9:核酸编辑酶/结构域靶向特定基因组靶位点的合适的指导RNA的序列对于本领域技术人员是显而易见的。这种合适的指导RNA序列通常包含与待编辑的靶核苷酸上游或下游50个核苷酸内的核酸序列互补的指导序列。本文提供了一些示例性指导RNA序列，这些指导RNA序列适用于将任何所提供的融合蛋白靶向特定的靶序列。

碱基编辑器效率

在一些实施方案中，本文提供的方法的目的是改变基因和/或通过基因编辑的基因产物。本文提供的核碱基编辑蛋白可以用于体外或体内基于基因编辑的人类治疗。本领域技术人员将理解，本文提供的核碱基编辑蛋白，例如包含多核苷酸可编程核苷酸结合结构域(例如，Cas9)和核碱基编辑结构域(例如，腺苷脱氨酶结构域或胞苷脱氨酶结构域)的融合蛋白可以用于将核苷酸从A编辑到G或从C编辑到T。在一些实施方案中，碱基编辑器是自失活碱基编辑器，其中通过编辑存在于编码碱基编辑器的多核苷酸中的内含子来诱导失活。

有利地，如本文所提供的碱基编辑系统提供基因组编辑，而不生成双链DNA断裂，不需要供体DNA模板，并且不会像CRISPR那样诱导过量的随机插入和缺失。在一些实施方案中，本公开提供碱基编辑器，其在核酸(例如，受试者基因组内的核酸)中有效生成预期突变，诸如终止密码子，而不生成显著数量的非预期突变，诸如非预期点突变。在一些实施方案中，预期突变是由与指导多核苷酸(例如，gRNA)结合的特定碱基编辑器(例如，腺苷碱基编辑器或胞苷碱基编辑器)产生的突变，所述碱基编辑器被专门设计以产生预期突变。在一些实施方案中，预期突变在与靶抗原相关的基因中，所述靶抗原与疾病或病症相关。在一些实施方案中，预期突变是与靶抗原相关的基因中的腺嘌呤(A)到鸟嘌呤(G)点突变(例如，SNP)，所述靶抗原与疾病或病症相关。在一些实施方案中，预期突变是基因的编码区或非编码区(例如，调节区或元件)内的腺嘌呤(A)到鸟嘌呤(G)点突变。在一些实施方案中，预期突变是与靶抗原相关的基因中的胞嘧啶(C)到胸腺嘧啶(T)点突变(例如，SNP)，所述靶抗原与疾病或病症相关。在一些实施方案中，预期突变是基因的编码区或非编码区(例如，调节区或元件)内的胞嘧啶(C)到胸腺嘧啶(T)点突变。在一些实施方案中，预期突变是产生终止密码子(例如基因编码区内的提前终止密码子)的点突变。在一些实施方案中，预期突变是消除终止密码子的突变。

在一些实施方案中，预期编辑是在编码自失活碱基编辑器的多核苷酸的内含子中。在一些实施方案中，预期编辑在存在于编码自失活碱基编辑器的多核苷酸的内含子中的剪接受体或剪接供体位点中。在一些实施方案中，预期编辑是编码自失活碱基编辑器的多核苷酸的内含子中的腺嘌呤(A)到鸟嘌呤(G)点突变(例如，SNP)。在一些实施方案中，预期编辑是存在于编码自失活碱基编辑器的多核苷酸的内含子中的剪接受体或剪接供体位点内的腺嘌呤(A)到鸟嘌呤(G)点突变。在一些实施方案中，预期编辑是编码自失活碱基编辑器的多核苷酸的内含子中的胞嘧啶(C)到胸腺嘧啶(T)点突变(例如，SNP)。在一些实施方案中，预期突变是存在于编码自失活碱基编辑器的多核苷酸的内含子中的剪接受体或剪接供体位点内的胞嘧啶(C)到胸腺嘧啶(T)点突变。

本发明的碱基编辑器有利地修饰编码蛋白质的特定核苷酸碱基而不产生显著比例的插入缺失。如本文所用，“插入缺失”是指核苷酸碱基在核酸内的插入或缺失。这种插入或缺失可以导致基因编码区内的框移突变。在一些实施方案中，需要产生有效修饰(例如，突变)核酸内的特定核苷酸而不在核酸中产生大量插入或缺失(即，插入缺失)的碱基编辑器。在一些实施方案中，需要产生有效修饰(例如，突变或甲基化)核酸内的特定核苷酸而不在核酸中产生大量插入或缺失(即，插入缺失)的碱基编辑器。在某些实施方案中，本文提供的任何碱基编辑器可以产生相对于插入缺失更大比例的预期修饰(例如，甲基化)。在某些实施方案中，本文提供的任何碱基编辑器可以产生相对于插入缺失更大比例的预期修饰(例如，突变)。

在一些实施方案中，本文提供的碱基编辑器能够生成大于1:1的预期突变比插入缺失比率(即，预期点突变:非预期突变)。在一些实施方案中，本文提供的碱基编辑器能够生成至少1.5:1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少10:1、至少12:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少200:1、至少300:1、至少400:1、至少500:1、至少600:1、至少700:1、至少800:1、至少900:1或至少1000:1或更大的预期突变比插入缺失比率。可以使用任何合适的方法确定预期突变和插入缺失的数量。

在一些实施方案中，本文提供的碱基编辑器可以限制核酸区域中插入缺失的形成。在一些实施方案中，所述区域位于碱基编辑器靶向的核苷酸处或碱基编辑器靶向的核苷酸的2、3、4、5、6、7、8、9或10个核苷酸内的区域。在一些实施方案中，本文提供的任何碱基编辑器可以将核酸区域处插入缺失的形成限制为小于1％、小于1.5％、小于2％、小于2.5％、小于3％、小于3.5％、小于4％、小于4.5％、小于5％、小于6％、小于7％、小于8％、小于9％、小于10％、小于12％、小于15％，或小于20％。在核酸区域形成的插入缺失的数量可以取决于核酸(例如，细胞基因组内的核酸)暴露于碱基编辑器的时间量。在一些实施方案中，在将核酸(例如，细胞基因组内的核酸)暴露于碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天后确定插入缺失的数量或比例。

本公开的一些方面基于以下认识：本文提供的任何碱基编辑器能够有效地在核酸(例如，受试者基因组内的核酸)中产生预期突变，而不会产生大量非预期突变(例如，伪脱靶编辑或旁观者编辑)。在一些实施方案中，预期突变是由与gRNA结合的特定碱基编辑器产生的突变，所述碱基编辑器被专门设计以产生预期突变。在一些实施方案中，预期突变是产生终止密码子(例如基因编码区内的提前终止密码子)的突变。在一些实施方案中，预期突变是消除终止密码子的突变。在一些实施方案中，预期突变是改变基因剪接的突变。在一些实施方案中，预期突变是改变基因的调节序列(例如基因启动子或基因阻遏物)的突变。在一些实施方案中，本文提供的任何碱基编辑器能够产生大于1:1的预期突变与非预期突变比率(例如，预期突变:非预期突变)。在一些实施方案中，本文提供的任何碱基编辑器能够产生至少1.5:1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少10:1、至少12:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少150:1、至少200:1、至少250:1、至少500:1或至少1000:1或更大的预期突变与非预期突变比率。应当理解，本文所述的碱基编辑器的特征可以应用于任何融合蛋白，或本文提供的使用所述融合蛋白的方法。

碱基编辑通常被称为“修饰”，诸如遗传修饰、基因修饰和核酸序列的修饰，并且基于所述修饰是碱基编辑修饰的上下文可以清楚地理解。因此，碱基编辑修饰是核苷酸碱基水平的修饰(例如由于在整个公开中讨论的脱氨酶活性)，然后其导致基因序列的变化，并且可能影响基因产物。因此，本质上，本文所述的基因编辑修饰可以导致基因结构上和/或功能上的修饰，其中基因产物的表达可以被修饰，例如基因的表达被敲除；或相反，被增强，或在一些情况下，基因功能或活性可以被修饰。使用本文公开的方法，碱基编辑效率可以确定为进行碱基编辑的基因的敲低效率，其中碱基编辑旨在敲低基因的表达。敲低水平可以通过确定表达水平来定量验证，所述表达水平通过以下确定：任何检测测定，诸如蛋白质表达水平测定，例如流式细胞术；用于检测RNA表达的测定，诸如定量RT-PCR、RNA印迹分析，或任何其他合适的测定诸如焦磷酸法测序；并且可以通过核苷酸测序反应进行定性验证。

在一些实施方案中，修饰(例如单碱基编辑)导致基因靶向表达降低至少10％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少10％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少20％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少30％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少40％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少50％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少60％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少70％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少80％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少90％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少91％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少92％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少93％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少94％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少95％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少96％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少97％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少98％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少99％。在一些实施方案中，碱基编辑效率可以导致被靶向的基因的敲除(基因表达的100％敲低)。

在一些实施方案中，本文提供的任何碱基编辑器系统导致靶多核苷酸序列中少于50％、少于40％、少于30％、少于20％、少于19％、少于18％、少于17％、少于16％、少于15％、少于14％、少于13％、少于12％、少于11％、少于10％、少于9％、少于8％、少于7％、少于6％、少于5％、少于4％、少于3％、少于2％、少于1％、少于0.9％、少于0.8％、少于0.7％、少于0.6％、少于0.5％、少于0.4％、少于0.3％、少于0.2％、少于0.1％、少于0.09％、少于0.08％、少于0.07％、少于0.06％、少于0.05％、少于0.04％、少于0.03％、少于0.02％或少于0.01％的插入缺失形成。

在一些实施方案中，靶向修饰(例如单碱基编辑)用于同时靶向至少4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个或50个不同的内源序列，用于使用不同的指导RNA进行碱基编辑。在一些实施方案中，靶向修饰(例如单碱基编辑)用于连续靶向至少4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个或更多个不同的内源序列，用于使用不同的指导RNA进行碱基编辑。

本公开的一些方面基于以下认识：本文提供的任何碱基编辑器能够在核酸(例如，受试者基因组内的核酸)中有效地产生预期突变诸如点突变，而不会产生大量非预期突变诸如非预期点突变(即，旁观者突变)。在一些实施方案中，本文提供的任何碱基编辑器能够产生至少0.01％的预期突变(即，至少0.01％的碱基编辑效率)。在一些实施方案中，本文提供的任何碱基编辑器能够产生至少0.01％、1％、2％,3％、4％、5％、10％、15％、20％、25％、30％、40％、45％、50％、60％、70％、80％、90％、95％或99％的预期突变。

在一些实施方案中，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中少于50％、少于40％、少于30％、少于20％、少于19％、少于18％、少于17％、少于16％、少于15％、少于14％、少于13％、少于12％、少于11％、少于10％、少于9％、少于8％、少于7％、少于6％、少于5％、少于4％、少于3％、少于2％、少于1％、少于0.9％、少于0.8％、少于0.7％、少于0.6％、少于0.5％、少于0.4％、少于0.3％、少于0.2％、少于0.1％、少于0.09％、少于0.08％、少于0.07％、少于0.06％、少于0.05％、少于0.04％、少于0.03％、少于0.02％或少于0.01％的插入缺失形成。在一些实施方案中，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中少于0.8％的插入缺失形成。在一些实施方案中，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中至多0.8％的插入缺失形成。在一些实施方案中，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中少于0.3％的插入缺失形成。在一些实施方案中，与包含ABE7碱基编辑器之一的碱基编辑器系统相比，所述的包含ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中较低的插入缺失形成。在一些实施方案中，与包含ABE7.10的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中较低的插入缺失形成。

在一些实施方案中，与包含ABE7碱基编辑器之一的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的碱基编辑器系统的插入缺失频率降低。在一些实施方案中，与包含ABE7碱基编辑器之一的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑器系统的插入缺失频率降低至少0.01％、至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或至少95％。在一些实施方案中，与包含ABE7.10的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的碱基编辑器系统的插入缺失频率降低至少0.01％、至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或至少95％。

本发明提供了具有增加的效率和特异性的腺苷脱氨酶变体(例如，ABE8变体)。具体而言，本文所述的腺苷脱氨酶变体更有可能编辑多核苷酸内的所需碱基，并且不太可能编辑非预期改变的碱基(例如，“旁观者”)。

在一些实施方案中，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑系统的旁观者编辑或突变减少。在一些实施方案中，非预期编辑或突变是旁观者突变或旁观者编辑，例如，在靶核苷酸序列的靶目标窗口中的非预期或非靶位置中的靶碱基(例如，A或C)的碱基编辑。在一些实施方案中，与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑系统的旁观者编辑或突变减少。在一些实施方案中，与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的碱基编辑器系统的旁观者编辑或突变减少至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或至少99％。在一些实施方案中，与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑系统的旁观者编辑或突变已减少至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍。

在一些实施方案中，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑系统的伪编辑或减少。在一些实施方案中，非预期编辑或突变是伪突变或伪编辑，例如基因组的非预期或非靶区域中的靶碱基(例如，A或C)的非特异性编辑或指导物非依赖性编辑。在一些实施方案中，与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑系统的伪编辑减少。在一些实施方案中，与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的碱基编辑器系统的伪编辑减少至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或至少99％。在一些实施方案中，与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑系统的伪编辑已减少至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍。

在一些实施方案中，本文所述的任何ABE8碱基编辑器变体具有至少0.01％、至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或至少95％或至少99％的碱基编辑效率。在一些实施方案中，碱基编辑效率可以通过计算细胞群体中编辑的核碱基的百分比来测量。在一些实施方案中，本文所述的任何ABE8碱基编辑器变体具有通过细胞群体中编辑的核碱基测量的至少0.01％、至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或至少95％或至少99％的碱基编辑效率。

在一些实施方案中，与ABE7碱基编辑器相比，本文所述的任何ABE8碱基编辑器变体具有更高的碱基编辑效率。在一些实施方案中，与ABE7碱基编辑器(例如，ABE7.10)相比，本文所述的任何ABE8碱基编辑器变体具有升高至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少99％、至少100％、至少105％、至少110％、至少115％、至少120％、至少125％、至少130％、至少135％、至少140％、至少145％、至少150％、至少155％、至少160％、至少165％、至少170％、至少175％、至少180％、至少185％、至少190％、至少195％、至少200％、至少210％、至少220％、至少230％、至少240％、至少250％、至少260％、至少270％、至少280％、至少290％、至少300％、至少310％、至少320％、至少330％、至少340％、至少350％、至少360％、至少370％、至少380％、至少390％、至少400％、至少450％或至少500％的碱基编辑效率。

在一些实施方案中，与ABE7碱基编辑器(例如，ABE7.10)相比，本文所述的任何ABE8碱基编辑器变体具有升高至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍的碱基编辑效率。

在一些实施方案中，本文所述的任何ABE8碱基编辑器变体具有至少0.01％、至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或至少95％或至少99％的中靶碱基编辑效率。在一些实施方案中，本文所述的任何ABE8碱基编辑器变体具有通过细胞群体中编辑的靶核碱基测量的至少0.01％、至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或至少95％或至少99％的中靶碱基编辑效率。

在一些实施方案中，与ABE7碱基编辑器相比，本文所述的任何ABE8碱基编辑器变体具有更高的中靶碱基编辑效率。在一些实施方案中，与ABE7碱基编辑器(例如，ABE7.10)相比，本文所述的任何ABE8碱基编辑器变体具有升高至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少99％、至少100％、至少105％、至少110％、至少115％、至少120％、至少125％、至少130％、至少135％、至少140％、至少145％、至少150％、至少155％、至少160％、至少165％、至少170％、至少175％、至少180％、至少185％、至少190％、至少195％、至少200％、至少210％、至少220％、至少230％、至少240％、至少250％、至少260％、至少270％、至少280％、至少290％、至少300％、至少310％、至少320％、至少330％、至少340％、至少350％、至少360％、至少370％、至少380％、至少390％、至少400％、至少450％或至少500％的中靶碱基编辑效率。

在一些实施方案中，与ABE7碱基编辑器(例如，ABE7.10)相比，本文所述的任何ABE8碱基编辑器变体具有升高至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍的中靶碱基编辑效率。

本文所述的ABE8碱基编辑器变体可以通过质粒、载体、LNP复合物或mRNA递送至宿主细胞。在一些实施方案中，本文所述的任何ABE8碱基编辑器变体作为mRNA递送至宿主细胞。在一些实施方案中，通过基于核酸的递送系统(例如，mRNA)递送的ABE8碱基编辑器具有通过编辑的核碱基测量的至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或至少99％的中靶编辑效率。在一些实施方案中，与通过质粒或载体系统递送的ABE8碱基编辑器相比，由mRNA系统递送的ABE8碱基编辑器具有更高的碱基编辑效率。在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少99％、至少100％、至少105％、至少110％、至少115％、至少120％、至少125％、至少130％、至少135％、至少140％、至少145％、至少150％、至少155％、至少160％、至少165％、至少170％、至少175％、至少180％、至少185％、至少190％、至少195％、至少200％、至少210％、至少220％、至少230％、至少240％、至少250％、至少260％、至少270％、至少280％、至少290％、至少300％、至少310％、至少320％、至少330％、至少340％、至少350％、至少360％、至少370％、至少380％、至少390％、至少400％、至少450％或至少500％的中靶编辑效率。在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有升高至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍的中靶编辑效率。

在一些实施方案中，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑器系统导致在靶多核苷酸序列中少于50％、少于40％、少于30％、少于20％、少于19％、少于18％、少于17％、少于16％、少于15％、少于14％、少于13％、少于12％、少于11％、少于10％、少于9％、少于8％、少于7％、少于6％、少于5％、少于4％、少于3％、少于2％、少于1％、少于0.9％、少于0.8％、少于0.7％、少于0.6％、少于0.5％、少于0.4％、少于0.3％、少于0.2％、少于0.1％、少于0.09％、少于0.08％、少于0.07％、少于0.06％、少于0.05％、少于0.04％、少于0.03％、少于0.02％或少于0.01％的脱靶编辑。

在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有较低的指导脱靶编辑效率。在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有降低至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或至少99％的指导脱靶编辑效率。在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有降低至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍的指导脱靶编辑效率。在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有降低至少约2.2倍的指导脱靶编辑效率。

在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有较低的指导物非依赖性脱靶编辑效率。在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有降低至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或至少99％的指导物非依赖性脱靶编辑效率。在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有降低至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少5.0倍、至少10.0倍、至少20.0倍、至少50.0倍、至少70.0倍、至少100.0倍、至少120.0倍、至少130.0倍、至少150.0倍的指导物非依赖性编辑效率。在一些实施方案中，与通过质粒或载体系统递送时相比，本文所述的ABE8碱基编辑器变体在通过mRNA系统递送时具有降低134.0倍的指导物非依赖性编辑效率(例如，伪RNA脱氨作用)。在一些实施方案中，本文所述的ABE8碱基编辑器变体不增加整个基因组的指导物非依赖性突变率。

在一些实施方案中，单个基因递送事件(例如，通过转导、转染、电穿孔或任何其他方法)可以用于靶向细胞基因组内5个序列的碱基编辑。在一些实施方案中，单个基因递送事件可以用于靶向细胞基因组内6个序列的碱基编辑。在一些实施方案中，单个基因递送事件可以用于靶向细胞基因组内7个序列的碱基编辑。在一些实施方案中，单个电穿孔事件可以用于靶向细胞基因组内8个序列的碱基编辑。在一些实施方案中，单个基因递送事件可以用于靶向细胞基因组内9个序列的碱基编辑。在一些实施方案中，单个基因递送事件可以用于靶向细胞基因组内10个序列的碱基编辑。在一些实施方案中，单个基因递送事件可以用于靶向细胞基因组内20个序列的碱基编辑。在一些实施方案中，单个基因递送事件可以用于靶向细胞基因组内30个序列的碱基编辑。在一些实施方案中，单个基因递送事件可以用于靶向细胞基因组内40个序列的碱基编辑。在一些实施方案中，单个基因递送事件可以用于靶向细胞基因组内50个序列的碱基编辑。

在一些实施方案中，本文所述的方法，例如碱基编辑方法具有最小化到没有的脱靶效应。

在一些实施方案中，本文所述的碱基编辑方法导致至少50％的细胞群体已被成功编辑(即，已成功工程化改造的细胞)。在一些实施方案中，本文所述的碱基编辑方法导致至少55％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致至少60％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致至少65％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致至少70％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致至少75％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致至少80％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致至少85％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致至少90％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致至少95％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致约91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的细胞群体已被成功编辑。

在一些实施方案中，碱基编辑干预后的活细胞回收率大于碱基编辑事件发生时的起始细胞群体的至少60％、70％、80％、90％。在一些实施方案中，如上所述的活细胞回收率为约70％。在一些实施方案中，如上所述的活细胞回收率为约75％。在一些实施方案中，如上所述的活细胞回收率为约80％。在一些实施方案中，如上所述的活细胞回收率为约85％。在一些实施方案中，如上所述的活细胞回收率为碱基编辑事件发生时的群体中的细胞的约90％，或约91％、92％、93％、94％、95％、96％、97％、98％，或99％，或100％。

在一些实施方案中，工程化细胞群体可以在体外进一步扩增约2倍、约3倍、约4倍、约5倍、约6倍、约7倍、约8倍、约9倍、约10倍、约15倍、约20倍、约25倍、约30倍、约35倍、约40倍、约45倍、约50倍或约100倍。

可以使用任何合适的方法来确定预期突变和插入缺失的数量，例如，如国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)；Komor,A.C.等人,“Programmabl e editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016)；Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C in genomic DNA witho ut DNAcleavage”Nature 551,464-471(2017)；以及Komor,A.C.等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficien cy and product purity”Science Advances 3:eaao4774(2017)中所述；其全部内容以引用方式特此并入。

在一些实施方案中，为了计算插入缺失频率，扫描测序读取以对位于可以出现插入缺失的窗口两侧的两个10-bp序列进行精确匹配。如果没有定位到精确匹配，则从分析中排除读取。如果此插入缺失窗口的长度与参考序列精确匹配，则读取被分类为不包含插入缺失。如果插入缺失窗口比参考序列长或短两个或更多个碱基，则测序读取分别被分类为插入或缺失。在一些实施方案中，本文提供的碱基编辑器可以限制核酸区域中插入缺失的形成。在一些实施方案中，所述区域位于碱基编辑器靶向的核苷酸处或碱基编辑器靶向的核苷酸的2、3、4、5、6、7、8、9或10个核苷酸内的区域。

在靶核苷酸区域形成的插入缺失的数量可以取决于核酸(例如，细胞基因组内的核酸)暴露于碱基编辑器的时间量。在一些实施方案中，在将核酸靶核苷酸序列(例如，细胞基因组内的核酸)暴露于碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天后确定插入缺失的数量或比例。应当理解，如本文所述的碱基编辑器的特征可以应用于任何融合蛋白，或本文提供的使用所述融合蛋白的方法。

碱基编辑器效率的细节描述于国际PCT申请号PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO 2017/070632)，所述专利各自以引用方式整体并入本文。还参见Komor,A.C.等人,“Pr ogrammable editing of a target base in genomicDNA without doub le-stranded DNA cleavage”Nature 533,420-424(2016)；Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C in genomic DNA withoutDNA cleavage”Nature 551,464-471(2017)；以及Kom or,A.C.等人,“Improved baseexcision repair inhibition and bacterio phage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)；其全部内容以引用方式特此并入。在一些实施方案中，使用本文提供的方法编辑一个或多个基因中的多个核碱基对导致形成至少一种预期突变。在一些实施方案中，所述至少一种预期突变结果的所述形成导致基因正常功能的破坏。在一些实施方案中，所述至少一种预期突变结果的所述形成减少或消除了由所述基因编码的蛋白质的表达。应当理解，可以使用本文提供的任何方法或方法的组合来完成多重编辑。

多重编辑

在一些实施方案中，本文提供的碱基编辑器系统能够对一个或多个基因或多核苷酸序列中的多个核碱基对进行多重编辑。在一些实施方案中，多个核碱基对位于同一基因或一个或多个基因中，其中至少一个基因位于不同的基因座中。在一些实施方案中，多重编辑可以包括一个或多个指导多核苷酸。在一些实施方案中，多重编辑可以包括一个或多个碱基编辑器系统。在一些实施方案中，多重编辑可以包括一个或多个碱基编辑器系统，其具有单指导多核苷酸或多指导多核苷酸。在一些实施方案中，多重编辑可以包括一个或多个指导多核苷酸和单碱基编辑器系统。在一些实施方案中，多重编辑可以包括至少一个指导多核苷酸，所述指导多核苷酸需要或不需要PAM序列以靶向结合靶多核苷酸序列。在一些实施方案中，多重编辑可以包括至少一个不需要PAM序列以靶向结合靶多核苷酸序列的指导多核苷酸和至少一个需要PAM序列以靶向结合靶多核苷酸序列的指导多核苷酸的混合体。应当理解，使用如本文所述的任何碱基编辑器的多重编辑的特征可以应用于使用本文提供的任何碱基编辑器的方法的任何组合。还应当理解，使用如本文所述的任何碱基编辑器的多重编辑可以包括多个核碱基对的连续编辑。

在一些实施方案中，多个核碱基对在一个或多个基因中。在一些实施方案中，多个核碱基对在同一基因中。在一些实施方案中，一个或多个基因中的至少一个基因位于不同的基因座中。

在一些实施方案中，多个核碱基对在一个或多个靶多核苷酸序列中。在一些实施方案中，多个核碱基对在同一靶多核苷酸序列中。在一些实施方案中，一个或多个靶多核苷酸序列存在于编码自失活碱基编辑器的多核苷酸的内含子中。

在一些实施方案中，编辑是编辑至少一个蛋白质编码区、至少一个蛋白质非编码区或至少一个蛋白质编码区和至少一个蛋白质非编码区中的多个核碱基对。

在一些实施方案中，编辑与一个或多个指导多核苷酸结合。在一些实施方案中，碱基编辑器系统可以包含一个或多个碱基编辑器系统。在一些实施方案中，碱基编辑器系统可以包含一个或多个与单指导多核苷酸或多指导多核苷酸结合的碱基编辑器系统。在一些实施方案中，编辑与一个或多个指导多核苷酸和单个碱基编辑器系统结合。在一些实施方案中，编辑与至少一个不需要PAM序列以靶向结合靶多核苷酸序列的指导多核苷酸，或与至少一个需要PAM序列以靶向结合靶多核苷酸序列的指导多核苷酸，或与至少一个不需要PAM序列以靶向结合靶多核苷酸序列的指导多核苷酸和至少一个需要PAM序列以靶向结合靶多核苷酸序列的指导多核苷酸的混合体结合。应当理解，使用如本文所述的任何碱基编辑器的多重编辑的特征可以应用于使用本文提供的任何碱基编辑器的方法的任何组合。还应当理解，编辑可以包括多个核碱基对的连续编辑。

在一些实施方案中，能够对一个或多个基因中的多个核碱基对进行多重编辑的碱基编辑器系统包含ABE7、ABE8和/或ABE9碱基编辑器之一。在一些实施方案中，与包含ABE7碱基编辑器之一的能够多重编辑的碱基编辑器系统相比，包含本文所述的ABE8碱基编辑器变体之一的能够多重编辑的碱基编辑器系统具有更高的多重编辑效率。在一些实施方案中，与包含ABE7碱基编辑器之一的能够多重编辑的碱基编辑器系统相比，包含本文所述的ABE8碱基编辑器变体之一的能够多重编辑的碱基编辑器系统具有升高至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少99％、至少100％、至少105％、至少110％、至少115％、至少120％、至少125％、至少130％、至少135％、至少140％、至少145％、至少150％、至少155％、至少160％、至少165％、至少170％、至少175％、至少180％、至少185％、至少190％、至少195％、至少200％、至少210％、至少220％、至少230％、至少240％、至少250％、至少260％、至少270％、至少280％、至少290％、至少300％、至少310％、至少320％、至少330％、至少340％、至少350％、至少360％、至少370％、至少380％、至少390％、至少400％、至少450％或至少500％的多重编辑效率。在一些实施方案中，与包含ABE7碱基编辑器之一的能够多重编辑的碱基编辑器系统相比，包含本文所述的ABE8碱基编辑器变体之一的能够多重编辑的碱基编辑器系统具有升高至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少4.0倍、至少4.5倍、至少5.0倍、至少5.5倍或至少6.0倍的多重编辑效率。

递送系统

如本文所述评估核碱基编辑器靶向多核苷酸序列中(例如，基因或内含子)的一个或多个核苷酸的适用性。在一个实施方案中，用编码本文所述的碱基编辑系统的一个或多个核酸分子连同少量编码报告基因(例如，GFP)的载体来转染、转导或以其他方式修饰单个感兴趣的细胞。这些细胞可以是本领域已知的任何细胞系(例如，HEK293T细胞)。或者，可以使用原代细胞(例如，人)。细胞也可以是从受试者或个体，诸如从组织活检、手术、血液、血浆、血清或其他生物流体中获得。这样的细胞可能与最终的细胞靶标有关。

可以使用病毒载体进行递送。在一个实施方案中，可以使用脂质体转染(诸如脂质转染胺或Fugene)或通过电穿孔进行转染。转染后，报告基因(例如，GFP)的表达可以通过荧光显微镜或流式细胞术来确定，以确认一致和高水平的转染。这些初步转染可以包括不同的核碱基编辑器，以确定哪些编辑器组合具有最大活性。所述系统可以包括一种或多种不同的载体。在一个实施方案中，碱基编辑器被密码子优化以表达所需的细胞类型，优先真核细胞，优选哺乳动物细胞或人类细胞。

如本文所述评估核碱基编辑器的活性，即通过对细胞的基因组进行测序以检测靶序列中的改变。对于Sanger测序，将纯化的PCR扩增子克隆到质粒骨架中，转化、小规模制备并用单一引物进行测序。也可以使用下一代测序(NGS)技术进行测序。使用下一代测序时，扩增子可能为300-500bp，预期的切口位点不对称放置。在PCR之后，可以将下一代测序衔接子和条形码(例如，Illumina多重衔接子和索引)添加到扩增子的末端，例如用于高通量测序(例如，在Illumina MiSeq上)。可以选择在初始测试中诱导最大水平的靶特异性改变的融合蛋白用于进一步评估。

在特定实施方案中，核碱基编辑器用于靶向感兴趣的多核苷酸。在一个实施方案中，本发明的核碱基编辑器与一个或多个指导RNA一起被递送至细胞，所述指导RNA用于靶向细胞基因组内的一个或多个感兴趣的核酸序列，从而改变一个或多个靶基因。在一些实施方案中，碱基编辑器被一个或多个指导RNA靶向以将一种或多种编辑引入到一个或多个感兴趣的基因。在一些实施方案中，对一个或多个感兴趣的基因的序列的一种或多种编辑降低或消除宿主细胞中由所述基因编码的蛋白质的表达。在一些实施方案中，由一个或多个感兴趣的基因编码的一种或多种蛋白质的表达在宿主细胞中被完全敲除或消除。

在一些实施方案中，本发明的核碱基编辑器或编码核碱基编辑器的多核苷酸与一种或多种指导RNA一起递送至细胞(例如，宿主细胞)，从而改变靶内含子(例如，剪接受体、剪接供体位点)，所述一种或多种指导RNA靶向编码碱基编辑器的多核苷酸序列内的异源内含子。在一些实施方案中，对内含子序列的一种或多种编辑降低或消除碱基编辑活性的表达、活性或水平。

在一些实施方案中，宿主细胞选自细菌细胞、植物细胞、昆虫细胞、人细胞或哺乳动物细胞。在一些实施方案中，宿主细胞是哺乳动物细胞。在一些实施方案中，宿主细胞为人类细胞。在一些实施方案中，细胞在体外。在一些实施方案中，细胞在体内。

碱基编辑器系统基于核酸的递送

可以将编码根据本发明的碱基编辑器系统的核酸分子通过本领域已知的方法或如本文所述的方法体外或体内施用于受试者或递送到细胞中。在一些实施方案中，编码自失活碱基编辑器的核酸分子包含可以被编辑以降低细胞中碱基编辑器的水平、表达或活性的内含子。例如，可以通过载体(例如，病毒或非病毒载体)，或通过裸DNA、DNA复合物、脂质纳米颗粒或前述组分的组合递送包含脱氨酶(例如，胞苷或腺嘌呤脱氨酶)的碱基编辑器系统。

纳米颗粒(可以是有机或无机的)可以用于递送碱基编辑器系统或其组分。纳米粒子在本领域中是众所周知的，并且任何合适的纳米粒子都可以用于递送碱基编辑器系统或其组分，或编码这些组分的核酸分子。在一个实施例中，有机(例如，脂质和/或聚合物)纳米颗粒在本公开的某些实施方案中适合用作递送载体。用于纳米颗粒制剂和/或基因转移的示例性脂质，示于表16(下文)中。

表16

/>

表17列出了用于基因转移和/或纳米颗粒制剂的示例性聚合物。

表17

/>

表18总结了编码本文所述融合蛋白的多核苷酸的递送方法。

表18

/>

在另一个方面，碱基编辑系统组分或编码此类组分的核酸(例如，多核苷酸可编程核苷酸结合结构域(例如，Cas9)，例如像Cas9或其变体，以及靶向感兴趣的核酸序列的gRNA)的递送，可以通过向细胞递送核糖核蛋白(RNP)来完成。RNP包含与靶向gRNA复合的多核苷酸可编程核苷酸结合结构域(例如，Cas9)。本文所述的RNP或多核苷酸可以使用已知方法(诸如电穿孔、核转染或阳离子脂质介导的方法)递送至细胞，例如，如Zuris,J.A.等人,2015,Nat.Biotechnology,33(1):73-80所报道，其以引用方式整体并入本文。RNP有利于在CRISPR碱基编辑系统中使用，特别是对于难以转染的细胞，诸如原代细胞。此外，RNP还可以缓解细胞中蛋白质表达可能出现的困难，尤其是当可以用于CRISPR质粒的真核启动子(例如，CMV或EF1A)未良好表达时。有利地，RNP的使用不需要将外源DNA递送到细胞中。此外，因为包含核酸结合蛋白和gRNA复合物的RNP会随着时间降解，所以RNP的使用有可能限制脱靶效应。以类似于基于质粒的技术的方式，RNP可以用于递送结合蛋白(例如，Cas9变体)和指导同源定向修复(HDR)。

例如，编码碱基编辑器系统的核酸分子作为裸DNA或RNA，通过转染或电穿孔的方式可以直接递送至细胞，或者可以与促进靶细胞摄取的分子(例如，N-乙酰半乳糖胺)缀合。也可以使用编码碱基编辑器系统和/或它们的组分的载体。在特定实施方案中，多核苷酸(例如编码碱基编辑器系统或其功能组分的mRNA)可以与一种或多种如本文所述的指导RNA共电穿孔。

核酸载体可以包含一个或多个编码本文所述融合蛋白结构域的序列。载体还可以编码与核定位信号、核仁定位信号或线粒体定位信号可操作连接的碱基编辑器系统的蛋白质组分。例如，载体可以包含Cas9编码序列，其包括一种或多种核定位序列(例如，来自SV40的核定位序列)和一种或多种脱氨酶。

载体还可以包含任何合适数量的调节/控制元件，例如启动子、增强子、内含肽、聚腺苷酸化信号、Kozak共有序列或内部核糖体进入位点(IRES)。这些元件在本领域中是众所周知的。

根据本公开的载体包括重组病毒载体。示例性病毒载体如上文所说明。也可以使用本领域已知的其他病毒载体。此外，病毒颗粒可以用于以核酸和/或蛋白质形式递送碱基编辑器系统组分。例如，可以组装“空”病毒颗粒以含有碱基编辑器系统或组分作为货物。病毒载体和病毒颗粒也可以被工程化以掺入靶向配体来改变靶组织特异性。

本文所述的载体可以包括驱动碱基编辑器系统或其组件的表达的调节元件。这种载体包括具有反向长末端重复序列的腺相关病毒(AAV ITR)。使用AAV-ITR可以有利于消除对会占用载体中的空间的另外的启动子元件的需要。释放的另外的空间可以用于驱动另外的元件(诸如指导核酸或选择性标志物)的表达。ITR活性可以用于降低由于过度表达而导致的可能毒性。

可以使用任何合适的启动子来驱动碱基编辑系统或其组分以及(在适当情况下)指导核酸的表达。对于普遍表达，启动子包括CMV、CAG、CBh、PGK、SV40、铁蛋白重链或轻链。对于脑或其他CNS细胞表达，合适的启动子包括：所有神经元的SynapsinI、兴奋性神经元的CaMKIIα、GABA能神经元的GAD67或GAD65或VGAT。对于肝细胞表达，合适的启动子包括白蛋白启动子。对于肺细胞表达，合适的启动子包括SP-B。对于内皮细胞，合适的启动子包括ICAM。对于造血细胞表达，合适的启动子包括IFNβ或CD45。对于成骨细胞表达，合适的启动子可以包括OG-2。

在一些实施方案中，本公开的碱基编辑器系统具有足够小的尺寸以允许单独的启动子驱动碱基编辑器和相容的指导核酸在相同核酸分子内的表达。例如，载体或病毒载体可以包含与编码碱基编辑器的核酸可操作地连接的第一启动子和与指导核酸可操作地连接的第二启动子。

用于驱动指导核酸表达的启动子可以包括：Pol III启动子，诸如使用Pol II启动子和内含肽盒表达gRNA腺相关病毒(AAV)的U6或H1。

在特定实施方案中，本发明的融合蛋白由存在于病毒载体(例如，腺相关病毒(AAV)、AAV3、AAV3b、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAVrh8、AAV10及其变体)或任何病毒载体的合适衣壳蛋白中的多核苷酸编码。因此，在一些方面，本公开涉及融合蛋白的病毒递送。病毒载体的实例包括逆转录病毒载体(例如，莫洛尼(Maloney)鼠白血病病毒，MML-V)、腺病毒载体(例如，AD100)、慢病毒载体(基于HIV和FIV的载体)、疱疹病毒载体(例如，HSV-2)。

病毒载体

本文所述的碱基编辑器可以与病毒载体一起递送。在一些实施方案中，本文公开的碱基编辑器可以在包含在病毒载体中的核酸上编码。在一些实施方案中，碱基编辑器系统的一个或多个组分可以在一个或多个病毒载体上编码。例如，碱基编辑器和指导核酸可以在单个病毒载体上编码。在其他实施方案中，碱基编辑器和指导核酸在不同的病毒载体上编码。在任一情况下，碱基编辑器和指导核酸可以各自可操作地连接到启动子和终止子。在病毒载体上编码的组分的组合可以通过所选病毒载体的货物大小限制来确定。

使用基于RNA或DNA病毒的系统来递送碱基编辑器利用了使病毒靶向培养或宿主中的特定细胞，并将病毒有效载荷运输到核或宿主细胞基因组的高度进化过程。病毒载体可以直接向培养、患者中的细胞施用(体内)，或病毒载体可以用于体外处理细胞，并且修饰的细胞可以任选地向患者施用(离体)。基于病毒的常规系统可以包括用于基因转移的逆转录病毒、慢病毒、腺病毒、腺相关和单纯疱疹病毒载体。用逆转录病毒、慢病毒和腺相关病毒基因转移方法使宿主基因组中的整合成为可能，常常导致插入的转基因长期表达。此外，已在许多不同细胞类型和靶组织中观察到高转导效率。

病毒载体可以包括慢病毒(例如，基于HIV和FIV的载体)、腺病毒(例如，AD100)、逆转录病毒(例如，莫洛尼鼠白血病病毒、MML-V)、疱疹病毒载体(例如，HSV-2)和腺相关病毒(AAV)或其他质粒或病毒载体类型，特别是使用来自例如美国专利号8,454,972(腺病毒的配方、剂量)、美国专利号8,404,658(AAV的配方、剂量)和美国专利号5,846,946(DNA质粒的配方、剂量)以及来自涉及慢病毒、AAV和腺病毒的临床试验相关临床试验和出版物的配方和剂量。例如，对于AAV，施用途径、配方和剂量可以如美国专利号8,454,972和涉及AAV的临床试验中那样。对于腺病毒，施用途径、配方和剂量可以如美国专利号8,404,658和涉及腺病毒的临床试验中那样。对于质粒递送，施用途径、配方和剂量可以如美国专利号5,846,946和涉及质粒的临床研究中那样。剂量可以基于或外推到平均70kg的个体(例如，男性成年人类)，并且可以针对不同体重和物种的患者、受试者、哺乳动物进行调整。施用频率在医疗或兽医从业者(例如，医生、兽医)的权力范围内，取决于通常的因素，包括患者或受试者的年龄、性别、一般健康状况、其他疾患以及所解决的特定疾患或症状。病毒载体可以注射到感兴趣的组织中。对于细胞类型特异性碱基编辑，碱基编辑器和任选的指导核酸的表达可以由细胞类型特异性启动子驱动。

逆转录病毒的趋向性可以通过掺入外来包膜蛋白质、扩增靶细胞的潜在靶群体来改变。慢病毒载体是能够转导或感染非分裂细胞并且通常产生高病毒效价的逆转录病毒载体。因此，逆转录病毒基因转移系统的选择将取决于靶组织。逆转录病毒载体包含封装能力高达6-10kb外来序列的顺式作用长末端重复序列。最小顺式作用LTR就足以用于载体的复制和封装，其接着用于将治疗基因整合至靶细胞中以提供持久的转基因表达。广泛使用的逆转录病毒载体包括基于鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猿猴免疫缺陷病毒(SIV)、人免疫缺陷病毒(HIV)及其组合的那些(参见例如，Buchscher等人,J.Virol.66:2731-2739(1992)；Johann等人,J.Virol.66:1635-1640(1992)；Sommnerfelt等人,Virol.176:58-59(1990)；Wilson等人,J.Virol.63:2374-2378(1989)；Miller等人,J.Virol.65:2220-2224(1991)；PC T/US94/05700)。

逆转录病毒载体，尤其是慢病毒载体，可能需要小于给定长度的多核苷酸序列以有效整合到靶细胞中。例如，与较小尺寸的逆转录病毒载体相比，长度大于9kb的逆转录病毒载体会导致低病毒滴度。在一些方面，本公开的碱基编辑器具有足够的大小，以便能够通过逆转录病毒载体有效地封装和递送到靶细胞中。在一些实施方案中，碱基编辑器的大小使得即使在与指导核酸和/或可靶向核酸酶系统的其他组分一起表达时也允许有效封装和递送。

封装细胞通常用于形成能够感染宿主细胞的病毒粒子。这种细胞包括封装腺病毒的293细胞，以及封装逆转录病毒的ψ2细胞或PA317细胞。用于基因疗法的病毒载体通常由生产细胞系产生，所述细胞系将核酸载体封装至病毒颗粒中。载体通常含有封装并随后整合至宿主中所需要的最小病毒序列，其他病毒序列由待表达的一个或多个多核苷酸的表达盒替换。缺失的病毒功能通常由封装细胞系以反式提供。例如，用于基因疗法的腺相关病毒(“AAV”)载体通常只具有来自AAV基因组的ITR序列，所述序列为封装并整合至宿主基因组中所需要。病毒DNA可以封装于细胞系中，其含有编码其他AAV基因，即rep和cap的辅助质粒，但是缺少ITR序列。细胞系也可以作为辅助感染腺病毒。辅助病毒可以促进AAV载体的复制以及AAV基因从辅助质粒的表达。在一些情况下，由于缺乏ITR序列，辅助质粒未大量封装。腺病毒的污染可以通过例如热处理来减少，与AAV相比，腺病毒对于热处理更敏感。

在优选瞬时表达的应用中，可以使用基于腺病毒的系统。基于腺病毒的载体能够在许多细胞类型中具有极高转导效率并且不需要细胞分裂。用这种载体已获得高效价和表达水平。此载体可以在相对简单的系统中大量产生。AAV载体还可以用于用靶核酸转导细胞，例如，在体外产生核酸和肽，和体内和离体基因治疗程序中(参见，例如，West等人,Virology 160:38-47(1987)；美国专利号4,797,368；WO 93/24641；Kotin,Human GeneTherapy 5:793-801(1994)；Muzyczka,J.Clin.Invest.94:1351(1994))。许多出版物中描述了重组AAV载体的构建，包括美国专利号5,173,414；Tratschin等人,Mol.Cell.Biol.5:3251-3260(1985)；Tratschin等人,Mol.Cell.Biol.4:2072-2081(1984)；Hermonat和Muzyczka,PNAS 81:6466-6470(1984)；以及Samulski等人,J.Virol.63:03822-3828(1989)。

在一些实施方案中，AAV载体用于用编码如本文所提供的碱基编辑器或碱基编辑器系统的多核苷酸转导感兴趣的细胞。AAV是一种小型的单链DNA依赖性病毒，属于细小病毒科。4.7kb野生型(wt)AAV基因组由两个基因组成，这两个基因分别编码四种复制蛋白和三种衣壳蛋白，并且任一端上侧接有145-bp反向末端重复序列(ITR)。病毒体由三种衣壳蛋白Vp1、Vp2和Vp3组成，所述衣壳蛋白以1:1:10的比率从相同开放阅读框产生，但从差异剪接(Vp1)和替代翻译起始位点(分别Vp2和Vp3)产生。Vp3是病毒粒子中最丰富的亚基，并且参与细胞表面的受体识别，从而定义了病毒的趋向性。已在Vp1的独特N端鉴定了一个在病毒感染中起作用的磷脂酶结构域。

与wt AAV类似，重组AAV(rAAV)利用顺式作用的145-bp ITR来侧接载体转基因盒，提供高达4.5kb的外源DNA封装。感染后，rAAV可以表达本发明的融合蛋白，并且通过以环状头对尾多联体形式附加存在以继续存在而不整合到宿主基因组中。尽管在体外和体内使用此系统的rAAV成功的实例很多，但当基因编码序列的长度等于或大于wt AAV基因组的尺寸时，有限封装容量限制了AAV介导的根因递送的使用。

可以基于应用选择病毒载体。例如，对于体内基因递送，AAV可能优于其他病毒载体。在一些实施方案中，AAV允许低毒性，这可能是由于纯化方法不需要可以活化免疫反应的细胞颗粒超离心。在一些实施方案中，AAV允许引起插入诱变的低可能性，因为它不整合到宿主基因组中。腺病毒通常用作疫苗，因为它们引起强烈的免疫原性反应。病毒载体的封装容量可以限制可以封装到载体中的碱基编辑器的大小。

AAV的封装容量约为4.5Kb或4.75Kb，包括两个145个碱基的反向末端重复序列(ITR)。这意味着公开的碱基编辑器以及启动子和转录终止子可以装配到单个病毒载体中。大于4.5或4.75Kb的构建体可以导致病毒产量显著降低。例如，SpCas9相当大，基因本身超过4.1Kb，使得其很难包装到AAV中。因此，本公开的实施方案包括使用长度比常规碱基编辑器短的公开的碱基编辑器。在一些实施例中，碱基编辑器小于4kb。公开的碱基编辑器可以小于4.5kb、4.4kb、4.3kb、4.2kb、4.1kb、4kb、3.9kb、3.8kb、3.7kb、3.6kb、3.5kb、3.4kb、3.3kb、3.2kb、3.1kb、3kb、2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2kb或1.5kb。在一些实施方案中，公开的碱基编辑器的长度为4.5kb或更小。

AAV可以是AAV1、AAV2、AAV5或其任何组合。可以根据要靶向的细胞选择AAV的类型；例如，可以选择AAV血清型1、2、5或杂交衣壳AAV1、AAV2、AAV5或其任意组合用于靶向脑或神经元细胞；并且可以选择AAV4用于靶向心脏组织。AAV8可以用于递送至肝脏。关于这些细胞的某些AAV血清型的列表可以见于Grimm,D.等人,J.Virol.82:5887-5911(2008)。

在一些实施方案中，慢病毒载体用于用编码如本文所提供的碱基编辑器或碱基编辑器系统的多核苷酸转导感兴趣的细胞。慢病毒是复杂的逆转录病毒，其具有在有丝分裂和有丝分裂后细胞中感染和表达其基因的能力。最常见的慢病毒是人类免疫缺陷病毒(HIV)，其使用其他病毒的包膜糖蛋白靶向广泛的细胞类型。

慢病毒可以如下制备。克隆pCasES10(含有慢病毒转移质粒骨架)后，低通路(p＝5)的HEK293FT在具有10％胎牛血清并且没有抗生素的DMEM中进行转染的前一天被接种到T-75烧瓶中至50％汇合度。20小时后，将培养基更换为OptiMEM(无血清)培养基，并且在4小时后进行转染。用10μg慢病毒转移质粒(pCasES10)和以下封装质粒转染细胞：5μg的pMD2.G(VSV-g假型)和7.5μg的psPAX2(gag/pol/rev/tat)。可以在4mL OptiMEM中使用阳离子脂质递送剂(50μl脂质转染胺2000和100μl Plus试剂)进行转染。6小时后，将培养基更换为具有10％胎牛血清的无抗生素DMEM。这些方法在细胞培养中使用血清，但优选无血清方法。

慢病毒可以如下纯化。48小时后收获病毒上清液。首先清除上清液中的碎片并通过0.45μm低蛋白结合(PVDF)过滤器过滤。然后将它们在超速离心机中以24,000rpm的速度旋转2小时。病毒颗粒在4℃下在50μl的DMEM中重悬过夜。然后将它们等分并立即在-80℃下冷冻。

在另一个实施方案中，还考虑了基于马传染性贫血病毒(EIAV)的最小非灵长类慢病毒载体。在另一个实施方案中，是一种基于马传染性贫血病毒的表达血管抑制蛋白内皮抑素和血管抑素的慢病毒基因治疗载体，其预期通过视网膜下注射递送。在另一个实施方案中，考虑使用自灭活慢病毒载体。

系统的任何RNA，例如指导RNA或碱基编辑器编码mRNA，都可以以RNA的形式递送。可以使用体外转录生成碱基编辑器编码mRNA。例如，可以使用含有以下元件的PCR盒合成核酸酶mRNA，所述PCR盒含有以下元件：T7启动子、任选的kozak序列(GCCACC)、核酸酶序列和3'UTR，诸如来自β珠蛋白-polyA尾的3'UTR。所述盒可以用于T7聚合酶的转录。指导多核苷酸(例如，gRNA)也可以使用体外转录从含有T7启动子的盒中转录，随后是序列“GG”和指导多核苷酸序列。

为了增强表达并降低可能的毒性，碱基编辑器编码序列和/或指导核酸可以被修饰以包含一个或多个修饰的核苷，例如使用伪-U或5-甲基-C。

AAV载体的小型封装能力使得许多超过这个大小的基因的递送和/或使用大型生理调节元件具有挑战性。例如，可以通过将待递送的一个或多个蛋白质分裂成两个或多个片段来解决这些挑战，其中N端片段与分裂的内含肽-N融合，C端片段与分裂的内含肽-C融合。然后将这些片段封装到两个或更多个AAV载体中。如本文所用，“内含肽”是指连接侧翼N端和C端外显肽(例如，待连接的片段)的自剪接蛋白内含肽(例如，肽)。用于连接异源蛋白质片段的某些内含肽的用途描述于例如Wood等人,J.Biol.Chem.289(21)；14512-9(2014)。例如，当融合以分离蛋白质片段时，内含肽IntN和IntC相互识别，将自身剪接并同时连接它们所融合的蛋白质片段的侧翼N端和C端外显肽，从而由两个蛋白质片段重构全长蛋白质。其他合适的内含肽对于本领域技术人员将是显而易见的。

本发明的融合蛋白片段的长度可以不同。在一些实施方案中，蛋白质片段的长度范围为2个氨基酸至约1000个氨基酸。在一些实施方案中，蛋白质片段的长度范围为约5个氨基酸至约500个氨基酸。在一些实施方案中，蛋白质片段的长度范围为约20个氨基酸至约200个氨基酸。在一些实施方案中，蛋白质片段的长度范围为约10个氨基酸至约100个氨基酸。其他长度的合适蛋白质片段对于本领域技术人员将是显而易见的。

在一个实施方案中，双AAV载体是通过将一个大的转基因表达盒分裂成单独的两半(5'和3'末端，或头部和尾部)来产生的，其中所述盒的每一半被封装在单个AAV载体中(<5KB)。然后两个双AAV载体共感染同一细胞后，实现全长转基因表达盒的重新组装，之后进行：(1)5'和3'基因组之间的同源重组(HR)(双AAV重叠载体)；(2)ITR介导的5'和3'基因组的尾对头串联(双AAV反式剪接载体)；或(3)这两种机制的组合(双AAV杂交载体)。体内使用双AAV载体导致全长蛋白质的表达。双AAV载体平台的使用表示了针对尺寸>4.7kb的转基因的有效且可行的基因转移策略。

内含肽

内含肽(插入蛋白)是存在于多种不同生物体中的自动加工结构域，它们执行称为蛋白质剪接的过程。蛋白质剪接是一个多步骤的生物化学反应，包括肽键的切割和形成。虽然蛋白质剪接的内源性底物是存在于含有内含肽的生物体中的蛋白质，但内含肽也可以用于化学处理几乎任何多肽骨架。

在蛋白质剪接中，内含肽通过切割两个肽键将自身从前体多肽中切除，从而通过形成新的肽键连接侧翼外显肽(外部蛋白质)序列。这种重排发生在翻译后(或可能是共翻译)。内含肽介导的蛋白质剪接自发发生，只需要折叠内含肽结构域。

约5％的内含肽是分裂的内含肽，它们被转录和翻译为两个单独的多肽，即N-内含肽和C-内含肽，每一个都与一个外显肽融合。翻译后，内含肽片段自发地且非共价地组装成规范的内含肽结构，以进行蛋白质反式剪接。蛋白质剪接的机制需要一系列酰基转移反应，所述反应导致内含肽-外显肽连接处的两个肽键断裂，并在N-外显肽和C-外显肽之间形成新的肽键。这个过程是通过激活连接N-外显肽和外显肽的N端的肽键来启动的。几乎所有内含肽在其N端都具有半胱氨酸或丝氨酸，它们攻击C端N-外显肽残基的羰基碳。保守的苏氨酸和组氨酸(称为TXXH基序(SEQ ID NO:17))以及常见的天冬氨酸促进了这一N到O/S酰基转变，这导致形成线性(硫)酯中间体。接下来，此中间体通过第一个C-外显肽残基(+1)的亲核攻击进行反式(硫)酯化，所述残基是半胱氨酸、丝氨酸或苏氨酸。所得支链(硫)酯中间体通过独特的转化被分解：内含肽高度保守的C端天冬酰胺环化。此过程由组氨酸(存在于高度保守的HNF基序中)和倒数第二个组氨酸促进，并且还可能涉及天冬氨酸。这种琥珀酰亚胺形成反应从反应性复合物中切除内含肽，并留下通过非肽键连接的外含肽。这种结构以内含肽非依赖性的方式迅速重排成稳定的肽键。在一些实施方案中，分裂内含肽选自Gp41.1、IMPDH.1、NrdJ.1和Gp41.8(Carvajal-Vallejos,Patricia等人“Unprecedentedrates and efficiencies reveale d for new natural split inteins frommetagenomic sources.”J.Biol.Chem.,vol.287,34(2012))。

已描述内含肽的非限制性实例包括本领域已知的任何内含肽或内含肽对，其包括基于dnaE内含肽的合成内含肽、Cfa-N(例如，分裂内含肽-N)和Cfa-C(例如，分裂内含肽-C)内含肽对(例如，在tevens等人,J Am Chem Soc.2016年2月24日；138(7):2162-5中，以引用方式并入本文)，以及DnaE。可以根据本公开使用的内含肽对的非限制性实例包括：CfaDnaE内含肽、Ssp GyrB内含肽、Ssp DnaX内含肽、Ter DnaE3内含肽、Ter ThyX内含肽、RmaDnaB内含肽和Cne Prp8内含肽(例如，如美国专利号8,394,604中所述，其以引用方式并入本文)。内含肽的示例性核苷酸和氨基酸序列在序列表中提供为SEQ ID NO:482-489。

内含肽-N和内含肽-C可以分别融合至分裂Cas9的N端部分和分裂Cas9的C端部分，用于连接分裂Cas9的N端部分和分裂Cas9的C端部分。例如，在一些实施方案中，内含肽-N与分裂Cas9的N端部分的C端融合，即形成N--[分裂Cas9的N端部分]-[内含肽-N]--C的结构。在一些实施方案中，内含肽-C与分裂Cas9的C端部分的N端融合，即形成N-[内含肽-C]--[分裂Cas9的C端部分]-C的结构。用于连接与内含肽融合的蛋白质(例如，分裂Cas9)的内含肽介导蛋白质剪接的机制是本领域已知的，例如，如Shah等人,Chem Sci.2014；5(1):446-461中所述，其以引用方式并入本文。用于设计和使用内含肽的方法是本领域已知的，并且例如由WO2014004336、WO2017132580、US20150344549和US20180127780所描述，所述专利各自以引用方式整体并入本文。

在一些实施方案中，核酸酶(例如，Cas9)的部分或片段与内含肽融合。核酸酶可以融合到内含肽的N端或C端。在一些实施方案中，融合蛋白的部分或片段与内含肽融合并与AAV衣壳蛋白融合。内含肽、核酸酶和衣壳蛋白可以以任何排列(例如，核酸酶-内含肽-衣壳、内含肽-核酸酶-衣壳、衣壳-内含肽-核酸酶等)融合在一起。在一些实施方案中，碱基编辑器(例如，ABE、CBE)的N端片段与分裂内含肽-N融合，并且C-端片段与分裂内含肽-C融合。在一些实施方案中，核酸可编程DNA结合蛋白(napDNAbp)结构域(例如，Cas9)的N端片段与分裂内含肽-N融合，并且C端片段与分裂内含肽-C融合。在一些实施方案中，脱氨酶结构域(例如，腺苷或胞苷脱氨酶)的N端片段与分裂内含肽-N融合，并且C端片段与分裂内含肽-C融合。

然后将这些片段封装成两个或更多个AAV载体。在一些实施方案中，编码以内含肽为特征的碱基编辑器(例如，自失活碱基编辑器)的多核苷酸包含内含子。在一些实施方案中，内含肽的N端与融合蛋白的C端融合，并且内含肽的C端与AAV衣壳蛋白的N端融合。

在一个实施方案中，内含肽用于连接移植到AAV衣壳蛋白上的胞苷或腺苷碱基编辑器蛋白的片段或部分。用于连接异源蛋白质片段的某些内含肽的用途描述于例如Wood等人,J.Biol.Chem.289(21)；14512-9(2014)。例如，当融合以分离蛋白质片段时，内含肽IntN和IntC相互识别，将自身剪接并同时连接它们所融合的蛋白质片段的侧翼N端和C端外显肽，从而由两个蛋白质片段重构全长蛋白质。其他合适的内含肽对于本领域技术人员将是显而易见的。

在一些实施方案中，ABE在SpCas9的选定区域内的Ala、Ser、Thr或Cys残基处分裂成N端子和C端片段。这些区域对应于Cas9晶体结构分析鉴定的环区域。

在氨基酸位置S303、T310、T313、S355、A456、S460、A463、T466、S469、T472、T474、C574、S577、A589和S590处，每个片段的N端与内含肽-N融合，并且每个片段的C端与内含肽-C融合，在下面的序列(称为“Cas9参考序列”)中用大写字母表示。

药物组合物

在一些方面，本发明提供药物组合物，其包含本文所述的任何多核苷酸、载体、细胞、碱基编辑器(例如，自失活碱基编辑器)、碱基编辑器系统、指导多核苷酸、融合蛋白或融合蛋白指导的多核苷酸复合物。

本发明的药物组合物可以根据已知技术制备。参见，例如，Rem ington,TheScience And Practice of Pharmacy(第21版2005)。一般来说，细胞或其群体在施用或储存之前与合适的载剂混合，并且在一些实施方案中，药物组合物还包含药学上可接受的载剂。合适的药学上可接受的载剂通常包括惰性物质，所述惰性物质有助于将药物组合物施用于受试者，有助于将药物组合物加工成可递送的制剂，或有助于在施用前储存药物组合物。药学上可接受的载剂可以包括可以稳定、优化或以其他方式改变制剂的形式、稠度、粘度、pH、药代动力学、溶解度的剂。这样的试剂包括缓冲剂、润湿剂、乳化剂、稀释剂、包封剂和皮肤渗透促进剂。例如，载剂可以包括但不限于盐水、缓冲盐水、右旋糖、精氨酸、蔗糖、水、甘油、乙醇、山梨醇、葡聚糖、羧甲基纤维素钠及其组合。

可以用作药学上可接受的载剂的物质的一些非限制性实例包括：(1)糖，诸如乳糖、葡萄糖和蔗糖；(2)淀粉，诸如玉米淀粉和土豆淀粉；(3)纤维素和其衍生物，诸如羧甲基纤维素钠、甲基纤维素、乙基纤维素、微晶纤维素和乙酸纤维素；(4)粉末状黄蓍胶；(5)麦芽；(6)明胶；(7)润滑剂，诸如硬脂酸镁、月桂基磺酸钠和滑石；(8)赋形剂，诸如可可油和栓剂蜡；(9)油，诸如花生油、棉籽油、红花油、芝麻油、橄榄油、玉米油和大豆油；(10)二醇，诸如丙二醇；(11)多元醇，诸如甘油、山梨醇、甘露醇和聚乙二醇(PEG)；(12)酯，诸如油酸乙酯和月桂酸乙酯；(13)琼脂；(14)缓冲剂，诸如氢氧化镁和氢氧化铝；(15)藻酸；(16)不含热原的水；(17)等渗盐水；(18)林格氏液(Ringer'ssolution)；(19)乙醇；(20)pH缓冲溶液；(21)聚酯、聚碳酸酯和/或聚酐；(22)填充剂，诸如多肽和氨基酸；(23)血清醇，诸如乙醇；以及(24)药物制剂中采用的其他无毒相容物质。制剂中还可以存在润湿剂、着色剂、脱模剂、涂层剂、甜味剂、矫味剂、芳香剂、防腐剂和抗氧化剂。

药物组合物可以包含一种或多种pH缓冲化合物以将制剂的pH保持在反映生理pH的预定水平，诸如在约5.0至约8.0的范围内。用于水性液体制剂的pH缓冲化合物可以是氨基酸或氨基酸混合物，诸如组氨酸或氨基酸(诸如组氨酸和甘氨酸)混合物。或者，pH缓冲化合物优选为将制剂的pH保持在预定水平(诸如在约5.0至约8.0的范围内)，并且不螯合钙离子的剂。这种pH缓冲化合物的说明性实例包括但不限于咪唑和乙酸根离子。pH缓冲化合物可以以适合将制剂的pH保持在预定水平的任何量存在。

药物组合物还可以含有一种或多种渗透调节剂，即将制剂的渗透特性(例如，张力、渗透度和/或渗透压)调节到受体个体的血流和血细胞可以接受的水平。渗透调节剂可以是不螯合钙离子的剂。渗透调节剂可以是本领域技术人员已知或可获得的调节制剂的渗透特性的任何化合物。本领域技术人员可以凭经验确定给定渗透调节剂在本发明制剂中的适用性。合适的渗透调节剂类型的说明性实例包括但不限于：盐类，诸如氯化钠和乙酸钠；糖类，诸如蔗糖、右旋糖和甘露醇；氨基酸，诸如甘氨酸；以及一种或多种这些剂和/或剂型的混合物。一种或多种渗透调节剂可以以足以调节制剂的渗透特性的任何浓度存在。

除了修饰的细胞或其群体和载剂之外，本发明的药物组合物还可以包括至少一种用于治疗疾病的另外的治疗剂。例如，本文所述的药物组合物的一些实施方案还包括化疗剂。在一些实施方案中，药物组合物还包含细胞因子肽或编码细胞因子肽的核酸序列。在一些实施方案中，包含细胞或其群体的药物组合物可以与另外的治疗剂分开施用。

关于本发明的基因修饰细胞的治疗用途的一个考虑因素是实现最佳或令人满意的效果所必需的细胞数量。待施用的细胞数量可以因治疗对象而异。在一个实施方案中，将10⁴至10¹⁰、10⁵至10⁹或10⁶至10⁸个本发明的遗传修饰细胞施用于人类受试者。在一些实施方案中，将至少约1x 10⁸、2x 10⁸、3x 10⁸、4x 10⁸和5x 10⁸个本发明的遗传修饰细胞施用于人受试者。确定精确的有效剂量可以基于每个个体受试者的因素，包括他们的体型、年龄、性别、体重和疾患。本领域技术人员可以从本公开和本领域知识容易地判定剂量。

技术人员可以容易地确定在组合物中的并且在本发明的方法中要施用的细胞的数量和任选的添加剂、载体和/或载剂和将在本发明的方法中给药。通常，添加剂(除细胞外)存在于磷酸盐缓冲盐水中的0.001至50％(重量)溶液中，并且活性成分以微克到毫克的数量级存在，诸如约0.0001到约5重量％，优选约0.0001至约1重量％，还更优选约0.0001至约0.05重量％或约0.001至约20重量％，优选约0.01至约10重量％，并且还更优选约0.05至约5重量％。当然，对于要向动物或人施用的任何组合物，以及对于任何特定的施用方法，因此优选确定：毒性，诸如通过在合适的动物模型(例如，啮齿动物诸如老鼠)中确定致死剂量(LD)和LD50；以及组合物的剂量、其中组分的浓度和组合物的施用时间，这会引起合适的反应。这种确定不需要根据本领域技术人员的知识、本公开和本文引用的文件进行过度实验。并且，无需过度实验即可判定连续给药的时间。

在一些实施方案中，药物组合物被配制用于递送至受试者。施用本文所述药物组合物的合适途径包括但不限于：局部、皮下、透皮、真皮内、病灶内、关节内、腹膜内、膀胱内、经粘膜、牙龈、牙内、耳蜗内、经鼓膜、器官内、硬膜外、鞘内、肌肉内、静脉内、血管内、骨内、眼周、瘤内、脑内和脑室内施用。

在一些实施方案中，将本文所述的药物组合物局部施用至患病部位。在一些实施方案中，本文所述的药物组合物通过注射、通过导管、通过栓剂或通过植入物施用于受试者，所述植入物是多孔、无孔或凝胶状材料，包括膜，诸如唾液膜或纤维。

在其他实施方案中，本文所述的药物组合物在控释系统中递送。在一个实施方案中，可以使用泵(参见，例如，Langer,1990,Science249:1527-1533；Sefton,1989,CRCCrit.Ref.Biomed.Eng.14:201；Buchwald等人,1980,Surgery 88:507；Saudek等人,1989,N.Engl.J.Med.321:574)。在另一个实施方案中，可以使用聚合物材料。(参见，例如，Medical Applications of Controlled Release(Langer和Wise编,CRC Press,BocaRaton,Fla.,1974)；Controlled Drug Bioavaila bility,Drug Product Design andPerformance(Smolen和Ball编,Wi ley,New York,1984)；Ranger和Peppas,1983,Macromol.Sci.Rev.Macromol.Chem.23:61。还参见Levy等人,1985,Science 228:190；During等人,1989,Ann.Neurol.25:351；Howard等人,1989,J.Neur osurg.71:105。)讨论了其他控释系统，例如在Langer，同上中。

在一些实施方案中，根据常规程序将药物组合物配制成适于静脉内或皮下施用至受试者(诸如人)的组合物。在一些实施方案中，用于注射施用的药物组合物是无菌等渗溶液，用作增溶剂和局部麻醉剂，诸如减轻注射部位疼痛的利多卡因。一般来说，所述成分单独或混合在一起以单位剂型(例如作为干燥冻干粉末或无水浓缩物)提供于指示活性剂的量的密闭容器(诸如安瓿或药囊)中。当药物待通过输注施用时，所述组合物可以用含有无菌药用级水或盐水的输注瓶来分配。在药物组合物通过注射施用时，可以提供注射用无菌水或盐水的安瓿以使得成分可以在施用之前被混合。

用于全身施用的药物组合物可以是液体，例如无菌盐水、乳酸林格氏(Ringer's)液或汉克氏(Hank's)液。此外，药物组合物可以是固体形式并且再溶解或悬浮后立即使用。还考虑了冻干形式。药物组合物可以包含在脂质颗粒或囊泡中，诸如脂质体或微晶，其也适用于胃肠外施用。颗粒可以具有任何合适的结构，诸如单层或多层，只要其中含有组合物即可。化合物可以被包埋在“稳定的质粒脂质颗粒”(SPLP)中，所述颗粒含有融合脂质二油酰磷脂酰乙醇胺(DOPE)(低水平的(5-10mol％)阳离子脂质)，并通过聚乙二醇(PEG)包被而稳定(Zhang Y.P.等人,Gene Ther.1999,6:1438-47)。带正电荷的脂质，诸如N-[l-(2,3-二油酰氧基)丙基]-N,N,N-三甲基-甲基硫酸铵，或“DOTAP”对于此类颗粒和囊泡是特别优选的。这种脂质颗粒的制备是众所周知的。参见，例如，美国专利号4,880,635、4,906,477、4,911,928、4,917,951、4,920,016、4,921,757；每一个都以引用方式并入本文。

例如，本文所述的药物组合物可以以单位剂量施用或封装。术语“单位剂量”在提及本公开治疗组合物使用时，是指适合作为用于受试者的单位剂量的物理上离散的单位，每个单位含有经计算产生所需治疗效果的预定量的活性物质以及所需要的稀释剂；即，载剂或媒介物。

此外，药物组合物可以作为药物试剂盒提供，所述试剂盒包含(a)含有冻干形式的本发明化合物的容器和(b)含有药学上可接受的稀释剂(例如，用于重构或稀释本发明的冻干化合物无菌的稀释剂)的第二容器。任选地，与此类容器相伴的可以是由管制医药或生物产品的制造、使用或销售的政府机构开具的呈表格形式的报告书，所述报告书反映由制造、使用或销售的机构核准供人施用。

在另一方面，包括含有用于治疗上述疾病的材料的制品。在一些实施方案中，制品包括容器和标签。适合容器包括例如瓶、小瓶、注射器和试管。所述容器可以由诸如玻璃或塑料的各种材料制成。在一些实施方案中，所述容器容纳有效治疗本文所述疾病的组合物并且可以具有无菌入口。例如，所述容器可以是具有皮下注射针可刺穿的塞子的静脉溶液袋或小瓶。组合物中的活性剂是本发明的化合物。在一些实施方案中，容器上或与容器相关的标签表明组合物用于治疗选择的疾病。制品还可以包括第二容器，其包含药学上可接受的缓冲剂诸如磷酸盐缓冲盐水、林格氏液及右旋糖溶液。其还可以包括从商业和使用者观点来说所需的其他材料，包括其它缓冲剂、稀释剂、过滤器、针、注射器以及带有使用说明的药品说明书。

在一些实施方案中，任何融合蛋白、gRNA和/或本文所述的复合物作为药物组合物的一部分提供。在一些实施方案中，药物组合物包含本文提供的任何融合蛋白。在一些实施方案中，药物组合物包含本文提供的任何复合物。在一些实施方案中，药物组合物包含核糖核蛋白复合物，所述复合物包含与gRNA和阳离子脂质形成复合物的RNA指导的核酸酶(例如，Cas9)。在一些实施方案中，药物组合物包含gRNA、核酸可编程DNA结合蛋白、阳离子脂质和药学上可接受的赋形剂。药物组合物可以任选地包含一种或多种另外的治疗活性物质。

在一些实施方案中，将本文提供的组合物施用于受试者，例如施用于人类受试者，以在受试者内实现靶向基因组修饰。在一些实施方案中，细胞获得自受试者并与本文提供的任何药物组合物接触。在一些实施方案中，从受试者取出并离体与药物组合物接触的细胞被重新引入受试者，任选地在细胞中已实现或检测到所需的基因组修饰之后。递送包含核酸酶的药物组合物的方法是已知的，并且描述于例如美国专利号6,453,242、6,503,717、6,534,261、6,599,692、6,607,882、6,689,558、6,824,978、6,933,113、6,979,539、7,013,219和7,163,824，所有这些的公开内容以引用方式整体并入本文。虽然本文提供的药物组合物的描述主要针对适合向人类施用的药物组合物，但是技术人员将理解此类组合物通常适合向所有种类的动物或生物体施用，例如，用于兽医使用。

对适合向人类施用的药物组合物进行修饰以使所述组合物适合向各种动物施用是众所周知的，并且普通兽医药理学家可以设计和/或仅通过普通实验(如果有的话)进行此类修改。所想到的向其施用药物组合物的受试者包括但不限于人类和/或其他灵长类动物；哺乳动物，家养动物、宠物和商业上相关的哺乳动物诸如牛、猪、马、绵羊、猫、犬、小鼠和/或大鼠；和/或鸟类，包括商业上相关的鸟类，诸如鸡、鸭、鹅和/或火鸡。

本文所述的药物组合物的制剂可以通过药理学领域中已知的或以后开发的任何方法来制备。一般来说，此类制备方法包括以下步骤：使活性成分与赋形剂和/或一种或多种其他辅助成分缔合，并且然后如果必要和/或需要，使产品成形和/或包装为所需的单剂量或多剂量单位。药物制剂可以另外包含如本文所使用的药学上可接受的赋形剂，包括适合于所需的特定剂型的任何和所有溶剂、分散介质、稀释剂或其它液体媒介物、分散或悬浮助剂、表面活性剂、等渗剂、增稠剂或乳化剂、防腐剂、固体粘合剂、润滑剂等。Remington的The Science and Practice of Pharmacy,第21版,A.R.Gennaro(Lippincott,Williams&Wilkins,Baltimore,MD,2006；其以引用方式整体并入本文)公开了用于配制药物组合物的各种赋形剂和用于其制备的已知技术。还可参见PCT申请PCT/US2010/055131(公开号WO2011/053982A8，提交于2010年11月2日)，其以引用方式整体并入本文，以获得用于生产包含核酸酶的药物组合物的另外的合适的方法、试剂、赋形剂和溶剂。

除了诸如通过产生任何不需要的生物效应或另外以有害的方式与药物组合物的任何其它组分相互作用而与物质或其衍生物不相容的任何常规赋形剂介质以外，所述赋形剂的使用被考虑在本公开的范围内。

如上所述的组合物可以以有效量给药。有效量将取决于施用方式、所治疗的特定疾患和所需结果。它还可能取决于疾患的阶段、受试者的年龄和身体状况、同时治疗的性质(如果有的话)以及医生熟知的类似因素。对于治疗应用，其量足以达到医学上所需的结果。

在一些实施方案中，根据本公开的组合物可以用于治疗多种疾病、病症和/或疾患中的任一个。

治疗方法

本发明的一些方面提供了治疗有需要的受试者的方法，所述方法包括向有需要的受试者施用有效治疗量的如本文所述的药物组合物。更具体地，治疗方法包括向有需要的受试者施用一种或多种药物组合物，所述药物组合物包含一种或多种具有至少一种编辑的基因的细胞。在其他实施方案中，本发明的方法包括表达能够靶向编码至少一种多肽的核酸分子的碱基编辑器多肽(例如，自失活碱基编辑器)和一种或多种指导RNA，或将其引入细胞中。

在一个实施方案中，向受试者施用至少0.1×10⁵个细胞、至少0.5×10⁵个细胞、至少1×10⁵个细胞、至少5×10⁵个细胞、至少1×10⁶个细胞、至少0.5×10⁷个细胞，、至少1×10⁷个细胞、至少0.5×10⁸个细胞、至少1×10⁸个细胞、至少0.5×10⁹个细胞、至少1×10⁹个细胞、至少2×10⁹个细胞、至少3×10⁹个细胞、至少4×10⁹个细胞、至少4×10⁹个细胞，或至少1×10¹⁰个细胞。在特定实施方案中，将约1×10⁷个细胞至约1×10⁹个细胞、约2×10⁷个细胞至约0.9×10⁹个细胞、约3×10⁷个细胞至约0.8×10⁹个细胞、约4×10⁷个细胞至约0.7×10⁹个细胞、约5×10⁷个细胞至约0.6×10⁹个细胞，或约5×10⁷个细胞至约0.5×10⁹个细胞施用于受试者。

在一个实施方案中，向受试者施用至少0.1×10⁴个细胞/kg体重、至少0.5×10⁴个细胞/kg体重、至少1×10⁴个细胞/kg体重、至少5×10⁴个细胞/kg体重、至少1×10⁵个细胞/kg体重、至少0.5×10⁶个细胞/kg体重、至少1×10⁶个细胞/kg体重、至少0.5×10⁷个细胞/kg体重、至少1×10⁷个细胞/kg体重、至少0.5×10⁸个细胞/kg体重、至少1×10⁸个细胞/kg体重、至少2×10⁸个细胞/kg体重、至少3×10⁸个细胞/kg体重、至少4×10⁸个细胞/kg体重、至少5×10⁸个细胞/kg体重，或至少1×10⁹个细胞/kg体重。在特定实施方案中，将约1×10⁶个细胞/kg体重至约1×10⁸个细胞/kg体重、约2×10⁶个细胞/kg体重至约0.9×10⁸个细胞/kg体重、约3×10⁶个细胞/kg体重至约0.8×10⁸个细胞/kg体重、约4×10⁶个细胞/kg体重至约0.7×10⁸个细胞/kg体重、约5×10⁶个细胞/kg体重至约0.6×10⁸个细胞/kg体重，或约5×10⁶个细胞/kg体重至约0.5×10⁸个细胞/kg体重施用于受试者。

本领域普通技术人员将认识到，可能需要多次施用特定实施方案中考虑的药物组合物以实现所需的治疗。例如，可以在1周、2周、3周、1个月、2个月、3个月、4个月、5个月、6个月、1年、2年、5年、10年或更长时间的跨度内向受试者施用组合物1次、2次、3次、4次、5次、6次、7次、8次、9次或10次或更多次。在任何此类方法中，所述方法可以包括向受试者施用有效量的编辑的细胞或碱基编辑器系统或编码此类系统的多核苷酸。在任何此类方法中，所述方法可以包括每天施用一个或多个剂量的有效量的编辑的细胞。在任何此类方法中，所述方法可以包括每天施用两个或更多个剂量的有效量的编辑的细胞。在任何此类方法中，所述方法可以包括每天施用三个或更多个剂量的有效量的编辑的细胞。在任何此类方法中，所述方法可以包括每周施用一个或多个剂量的有效量的编辑的细胞。在任何此类方法中，所述方法可以包括每周施用两个或更多个剂量的有效量的编辑的细胞。在任何此类方法中，所述方法可以包括每周施用三个或更多个剂量的有效量的编辑的细胞。在任何此类方法中，所述方法可以包括每月施用一个或多个剂量的有效量的编辑的细胞。在任何此类方法中，所述方法可以包括每月施用两个或更多个剂量的有效量的编辑的细胞。在任何此类方法中，所述方法可以包括每月施用三个或更多个剂量的有效量的编辑的细胞。

本文考虑的药物组合物的施用可以使用常规技术进行，包括但不限于输注、输液或胃肠外施用。在一些实施方案中，胃肠外施用包括血管内、静脉内、肌内、动脉内、鞘内、瘤内、皮内、腹膜内、经气管、皮下、表皮下、关节内、包膜下、蛛网膜下和胸骨内输注或注射。

在一些实施方案中，本文所述的组合物(例如，编辑的细胞、碱基编辑器系统)以每千克人类受试者体重约0.5-30mg的剂量施用。在另一个实施方案中，施用的组合物的量为每千克人受试者体重约0.5-20mg。在另一个实施方案中，施用的组合物的量为每千克人类受试者体重约0.5-10mg。在另一个实施方案中，施用的组合物的量为每千克人类受试者体重约0.04mg、约0.08mg、约0.16mg、约0.32mg、约0.64mg、约1.25mg、约1.28mg、约1.92mg、约2.5mg、约3.56mg、约3.75mg、约5.0mg、约7.12mg、约7.5mg、约10mg、约14.24mg、约15mg、约20mg或约30mg。在另一个实施方案中，施用的组合物的量为每千克人受试者体重约1.92mg、约3.75mg、约7.5mg、约15.0mg或约30.0mg，并且每周施用组合物两次。在另一个实施方案中，施用的组合物的量为每千克人受试者体重约1.28mg、约2.56mg、约5.0mg、约10mg或约20mg，并且每周施用组合物两次。在另一个实施方案中，施用的组合物的量为每千克人受试者体重约1.92mg、约3.75mg、约7.5mg、约15.0mg或约30.0mg，并且每周施用组合物一次。在另一个实施方案中，施用的组合物的量为每千克人受试者体重约1.28mg、约2.56mg、约5.0mg、约10mg或约20mg，并且每周施用组合物一次。在另一个实施方案中，施用的组合物的量为每千克人受试者体重约1.92mg、约3.75mg、约7.5mg、约15.0mg或约30.0mg，并且每天施用组合物一次，在七天的时间段内施用三次、五次或七次。在另一个实施方案中，每天一次静脉内施用组合物，在七天的时间段内施用七次。在另一个实施方案中，施用的组合物的量为每千克人类受试者体重约1.28mg、约2.56mg、约5.0mg、约10mg或约20mg，并且每天施用组合物一次，在七天的时间段内施用三次、五次或七次。在另一个实施方案中，每天一次静脉内施用组合物，在七天的时间段内施用七次。

在一些实施方案中，在0.25h、0.5h、1h、2h、3h、4h、5h、6h、7h、8h、9h、10h、11h或12h的时间段内施用组合物。在另一个实施方案中，在0.25-2h的时间段内施用组合物。在另一个实施方案中，在1h的时间段内逐渐施用组合物。在另一个实施方案中，在2h的时间段内逐渐施用组合物。

试剂盒

本发明提供了一种特征在于自失活碱基编辑器的试剂盒。在一些实施方案中，试剂盒包括包含编码自失活碱基编辑器的异源内含子的多核苷酸。在一些实施方案中，内含子存在于编码核酸可编程DNA结合蛋白(napDNAbp)或其片段的多核苷酸中。在一些实施方案中，内含子存在于编码脱氨酶的多核苷酸中。在一些实施方案中，试剂盒还包括一种或多种指导多核苷酸(例如，靶向基因组序列的指导多核苷酸、靶向存在于编码自失活碱基编辑器的多核苷酸中的异源内含子的指导多核苷酸)。在一些实施方案中，试剂盒包括碱基编辑器系统，其包含自失活碱基编辑器和一种或多种指导多核苷酸，所述自失活碱基编辑器包含核酸可编程DNA结合蛋白(napDNAbp)和脱氨酶。在一些实施方案中，试剂盒包括载体，其包含编码自失活碱基编辑器的多核苷酸，其中多核苷酸的开放阅读框包含异源内含子。在一些实施方案中，试剂盒包括载体，其包含编码一种或多种指导多核苷酸的多核苷酸。在一些实施方案中，试剂盒包括细胞，其包含如本文所提供的任何多核苷酸、碱基编辑器、碱基编辑器系统、细胞或载体。

试剂盒还可以包括使用本文所述的碱基编辑器(例如，自失活碱基编辑器)或使其失活的书面说明书。在其他实施方案中，说明书包括以下至少一项：注意事项；警告；临床研究；和/或参考文献。说明书可以直接打印在容器上(当存在时)，或作为标签贴在容器上，或作为单独的纸张、小册子、卡片或容器中或随容器提供的文件夹。在进一步的实施方案中，试剂盒可以包括合适操作参数的标签或单独插页(包装插页)形式的说明书。在又一个实施方案中，试剂盒可以包括一个或多个容器，所述容器具有适当的用作检测、校准或规范化的标准的阳性和阴性对照或对照样品。试剂盒还可以包括第二容器，所述第二容器包括药学上可接受的缓冲液，诸如(无菌)磷酸盐缓冲盐水、林格氏液或右旋糖溶液。其还可以包括从商业和使用者观点来说所需的其他材料，包括其它缓冲剂、稀释剂、过滤器、针、注射器以及带有使用说明的药品说明书。

除非另有说明，否则本发明的实践采用分子生物学(包括重组技术)、微生物学、细胞生物学、生物化学和免疫学的常规技术，这些技术完全在技术人员的技术范围内。这些技术在文献中得到了充分的解释，诸如"Molecular Cloning:A Laboratory Manual",第二版(Samb rook,1989)；"Oligonucleotide Synthesis"(Gait,1984)；"Animal Cell Culture"(Freshney,1987)；"Methods in Enzymology""Handbook of Experimental Immunology"(Weir,1996)；"Gene Transfer Vectors for Mammalian Cells"(Miller和Calos,1987)；"Current Protocols in Molecular Biology"(Ausubel,1987)；"PCR:The PolymeraseChain Reaction",(Mullis,1994)；"Current Protocols in Immunology"(Coli gan,1991)。这些技术适用于本发明的多核苷酸和多肽的生产，因此可以在制造和实践本发明时考虑。用于特定实施方案的特别有用的技术将在以下部分中讨论。

提出下列实施例以为普通技术人员提供如何制造并使用本发明的测定、筛选和治疗方法的完整公开和描述，但不意图限制发明人所认为的发明范围。

实施例

实施例1：通过脱氨酶结构域的催化失活来实现自失活

传统的腺嘌呤碱基编辑器(ABE)利用进化的TadA酶使腺嘌呤DNA碱基脱氨，产生2'-脱氧肌苷产物，其在DNA修复期间被细胞识别为2'-脱氧鸟苷(Gaudelli,N.M.等人(2017).Programmable base editing of A*T to G*C in genomic DNA without DNAcleavage.Nat ure,551(7681),464-471；Gaudelli,N.M.等人(2020).Directed evolution of adenine base editors with increased activity andtherapeuticapplication.Nat Biotechnol,38(7),892-900；Richter,M.F.等人(2020).Phage-assisted evolution of an adenine base editor with improv ed Cas domaincompatibility and activity.Nature Biotechnology,38(7),883-891)。TadA含有四个负责脱氨活性的催化残基：His57(H57)、Glu59(E59)、Cys87(C87)或Cys90(C90)(Kim,J.等人(2006).Structural and kinetic characterization of Escherichia coli TadA,thewobble-specific tRNA deaminase.Biochemistry,45(20),6407-6416)。

建立了概念验证测定来进行测试：1)在将ABE的编码DNA递送至细胞后，这些位点是否可以用于使ABE自失活，以及2)共同递送编码两个指导RNA和ABE的DNA是否可以有效地且同时编辑感兴趣的基因组靶位点和编码ABE的游离DNA，以将TadA催化残基转化为无活性氨基酸(图1A)。所述测定利用HEK293T细胞的质粒脂转染，其中DNA载体编码ABE、靶向四个TadA催化残基(His57(H57)、Glu59(E59)、Cys87(C87)或Cys90(C90))之一的指导RNA和靶向细胞基因组内的位点的第二指导RNA。脂转染后将细胞孵育5天，并对由细胞裂解物生成的每个靶扩增子进行Illumina下一代测序，所述细胞裂解物包含细胞基因组DNA和回收的质粒DNA两者。为了确认TadA残基在编辑后无催化活性，将相应的突变预先设置在ABE7.10-m的TadA亚基中的对照质粒(提供氨基酸取代H57R、E59G、C87R或C90R)中，并且单独评估对照质粒在细胞基因组靶位点上的碱基编辑活性。在每种情况下，预先设置的突变在感兴趣的位点几乎没有产生编辑(<0.1％ A到G转化)，证实了这些TadA突变是失活的(图1B)。在用功能性ABE7.10-m转染的样品中，评估基因组位点处的编辑和对恢复的碱基编辑器质粒的编辑两者。TadA中仅两个靶位点(H57R和E59G)被其相应的自失活指导RNA明显地编辑，而基因组靶标的编辑率类似于含有乱序自失活指导RNA的对照的编辑率。这表明，虽然催化位点处的自编辑率相对较低(<5％ A到G转化)，但靶向编码碱基编辑器ABE的DNA是可能的，并且宿主基因组内的中靶编辑效率不会受到编辑器自失活的负面影响。

为了确定是否可以提高自失活率，优化了TadA内的密码子使用以创建优化的间隔区序列，从而发生编辑。考虑到TadA内可用的NGG PAM，E59密码子的靶腺苷位于被预测为ABE7.10以及最近描述的ABE8变体的编辑窗口内更有利的位置(E59的位置A7，与H57的位置A9)(图1C)。因此，E59位点得到优化。对靶区域中TadA的所有可能的同义密码子使用进行了生物信息学分析，并通过优先考虑每个相应指导RNA的高相对同义密码子使用(RSCU)分数并优先考虑每个相应指导RNA的低计算机脱靶预测谱来排行。然后在ABE8.5-m的背景下测试了十七名候选者，这单独证明了与ABE7.10-m相比的对感兴趣的细胞基因组靶标的编辑效率更高。使用基于质粒的测定，编辑的自失活率不同且总体较低(<5％)(图1D)，而不同变体的细胞基因组位点处的编辑范围为大约30-50％。随后将四个新变体、两个第一代变体和特征在于乱序指导RNA的第一代变体(所有这些变体都在ABE8.5-m的背景下)包装到AAV2中并转导到ARPE-19细胞中。在长达5周的多个时间点评估细胞基因组内和对AAV转基因的所得编辑。尽管在5周时大约70-76％的所有测试变体的NGS读数的细胞中基因组基因座被编辑(图1E)，但对于最优化变体，在同一时间点时恢复的编辑器DNA中自失活编辑的丰度较低(3.54％)(图1F)。然而，与同一测定中未经优化的第一代变体相比，新变体的自失活率提高了10.4倍。

虽然在基于质粒和基于病毒的体外测定中，ABE DNA的表观自失活率通常较低，但人们怀疑，测量回收的游离DNA的自失活可能会低估功能性失活率。例如，据报道，只有一部分转导的AAV2在体外转运至细胞核(Xiao,P.-J.,Li,C.等人(2012).Quantitative 3DTracing ofGene-delivery Viral Vectors in Human Cells and AnimalTissues.Molecular Therapy,20(2),317-328)。如果测定中AAV或LNP颗粒的一些部分仍然封装在细胞质内，则它们可能无法被碱基编辑器接触，也不会被转录以产生另外的碱基编辑器mRNA和蛋白质。由于细胞内的mRNA更能指示在任何给定时间表达的蛋白质，因此对DNA以及从mRNA制备的cDNA两者进行了靶向扩增子测序，以检查新实验中测量的自失活量是否存在差异。将五个AAV2包装的编辑器变体和指导RNA转导到ARPE-19细胞中。在基因组靶位点处，转导后2周之后测试的所有5个变体的编辑都很稳定(约80％ A到G编辑)(图1G)。当对回收的游离DNA进行测量时，自失活率再次类似于之前的其他变体研究(<3％)，但从mRNA制备的cDNA的靶向扩增子测序显示，五个变体中经编辑的ABE转录物的比例接近48.5％的平均值。这些结果表明，成功递送至细胞核并主动转录的ABE DNA比例有效地自失活(两周后接近50％失活)，并且基因组靶标处的同时编辑仍然保持高效。这些结果还表明，可以对CBE的自失活采取类似的方法，其中例如无论哪种情况，用于配位锌的APOBEC活性位点残基(Cys或His)可以靶向进行C到T碱基转化以生成Tyr。

实施例2：通过碱基编辑器起始密码子的突变进行自失活

在另一种方法中，通过对编辑器起始密码子的第一个核苷酸进行碱基编辑使ABE的起始密码子靶向自失活，导致Met1Val突变(ATG>GTG)。或者，通过靶向互补DNA链对起始密码子的第二个核苷酸进行碱基编辑也是可能的，导致Met1Thr突变(ATG>ACG)。为了首先确定这些突变是否会有效阻止碱基编辑器的翻译，将所需的突变预先设置到ABE8.5-m表达质粒中。当Met1突变时，如果TadA的下游Met12充当替代起始密码子，则有可能产生截短的编辑器。为了避免这个问题，调整了His8的密码子使用，使得Met12的上游存在框外ATG序列，并测量了细胞基因组内感兴趣位点的碱基编辑以确定这些突变阻止编辑器表达的能力(图2A)。Met1Thr突变比Met1Val更有效地阻止了感兴趣位点处的编辑，并且框外起始密码子的添加进一步将编辑减少了一半(图2B)。

为了对含有化脓性链球菌Cas9切口酶变体的ABE8.5-m DNA进行Met1Thr碱基编辑，TadA内将在原型间隔区编辑窗口内放置用于自失活的靶碱基的位置处需要NGG PAM序列。为了实现这种适应，制备了具有TadA突变Phe8Trp、Phe8Val或Phe8Ala的编辑器变体，以生成可用于Met1中的碱基编辑的三种不同的NGG PAM序列(图2C)。与未改变的对照ABE8.5-m相比，每个变体都能够以相同的效率编辑细胞基因组位点，表明TadA中Phe8的这些突变具有良好的耐受性。对于每个变体，通过回收的游离编辑器DNA的靶扩增子测序测量的自失活率是可变的且较低(<3％碱基转化)，并且所有新变体在基因组靶标处的同时编辑与缺乏失活指导RNA的对照ABE8.5-m一样有效(图2E)。这些结果表明，还可以经由单个A到G碱基编辑将起始密码子转化为非Met氨基酸来使碱基编辑器自失活，而不会牺牲细胞基因组内所需位点处的编辑效率。这些结果还表明，可以采取类似的方法来使CBE自失活，其中Met起始密码子可以转化为Ile以阻止或抑制翻译开始。

实施例3：将内含子并入到编码碱基编辑器的多核苷酸中以实现定制的自失活

为了实现ABE自失活的最大效用，理想的方法应该可适用于任何选定的ABE变体，所述变体可能因PAM要求、编辑窗口和给定靶位点上的相对活性而不同。通过在TadA活性位点残基、起始密码子或编辑器内任何其他特定残基内进行编辑来使ABE自失活的策略都受到靶位点的局部氨基酸序列和酶耐受的任何许可突变的限制。为了开发针对这些限制的解决方案，探索了将小内含子并入到编码ABE的DNA中的效用(图3A)。内含子通常在其5'端具有共有剪接供体序列GT，并且在其3'端具有共有剪接受体序列AG。这些位点中的每一个都可以被ABE靶向以通过将共有序列分别转化为GC和GG来中断剪接。当编辑器内的任一剪接位点被破坏时，内含子序列可能被完全或部分保留，这可能导致碱基编辑器序列提前终止或移码。这种方法的关键进步在于，它为自失活靶序列的设计提供了灵活性，因为内含子可以定制并插入到编辑器的任何有利部分中，从而提供理想的编辑位置、原型间隔区和PAM以促进如所选碱基编辑器变体所决定的有效碱基编辑。

基于内含子的CBE失活也可以通过经由非编码DNA链的C到T编辑(分别将GT转化为AT或将AG转化为AA)破坏规范剪接供体或受体位点来实现。此外，内含子可以另选地并入到编辑器的其他亚基(诸如Cas9或接头区域)中，这可能更有利于使循环排列的碱基编辑器变体或编辑器的其他构型失活(Huang,T.P.等人(2019).Circularly permuted and PAM-modified Cas9 variants broaden the targeting scope of base editors.NatBiotechnol,37(6),626-631；Nguyen Tran,M.T.等人(2020)Engineering domain-inlaidSaCas9 adenine base editors with reduced RNA off-targets and increased on-target DNA editing.Nat Commun,11(1),4871)。

ABE的进化TadA组分最初来源于细菌，因此在其天然环境中缺乏内含子。为了确定包含内含子是否对ABE表达有害，在含内含子的ABE变体催化的基因组靶位点处测量编辑率，并与缺乏内含子的对照ABE进行比较。实验中不包括自失活指导RNA。为了使编辑器的总尺寸尽可能小，仅测试了小内含子(≤约150bp)。将一组九种人内含子和一种来源于人β珠蛋白和小鼠IgG基因的嵌合内含子直接插入到TadA的密码子87之后。此外，还将内含子子集紧接TadA中的密码子62之后或密码子23的第二个核苷酸之后插入，以确定内含子的位置是否影响编辑率。选择每个内含子位置是因为它们与TadA编码序列内的NGG PAM序列相对接近，所述序列将所需的内含子编辑定位在正在检查的编辑器变体的已知碱基编辑窗口内。这些含内含子的变体在HEK293T细胞中的基因组靶位点处的编辑效率取决于TadA内的内含子序列和插入位置两者(图3B)，表明一些构型比其他构型更有效地剪接。TadA残基87处的五种不同内含子(NF1、PAX2、EEF1A1、嵌合体和SLC50A1)保持了对基因组DNA的高编辑效率。此外，当插入到TadA的残基62或23处时，内含子嵌合体和ABCB11允许相对高水平的编辑。含有其余四个内含子(BRSK2、PLXNB3、TMPRSS6和IL32)的ABE变体在感兴趣的位点处不产生编辑，或者导致与对照相比编辑率显著降低。测试了TadA残基87处的另外七种内含子的活性，并且所述七种内含子都具有同样良好的耐受性(图3C)。这些数据表明，定制的内含子序列可以插入到ABE基因的TadA亚基中，而不会牺牲基因组位点处的编辑活性。

在这一系统中，选择的内含子具有存在于真核生物中的共有剪接供体和受体序列。然而，这些二核苷酸序列并非在所有真核内含子中完全保守，并且它们对突变的敏感性可能是可变的。因此，将所需剪接受体位点或供体位点编辑预先设置在TadA内含子内，并且在基因组位点处评估碱基编辑活性，以确定其与缺乏内含子的ABE8.5-m相比的相应失活水平。TadA残基87处的内含子NF1、PAX2、EEF1A1、ANTXRL、PKHD1L1、PADI1、HMCN2、ENPEP-壁虎和HMCN2-鲑鱼被预先设置的剪接受体突变完全破坏(图3D)。如先前的实验所示，这九个内含子构型也是在不存在突变的情况下最有效的ABE变体，表明这些变体以取决于剪接受体位点处存在或不存在单个A到G碱基的二元方式发挥作用。NF1和PAX2内含子也因剪接供体突变而失活，但EEF1A1没有。嵌合体内含子是唯一完全不受剪接供体或受体位点处的突变干扰的变体。还测试了具有或没有预先设置的剪接受体或供体突变的其他构型，并且这些进一步证明剪接受体突变使位于TadA残基18、59或129处的NF1内含子完全失活，并且当置于TadA残基18或59处时，剪接受体突变使EEF1A1失活(图3E)。这些数据表明，TadA内非自然内含子的剪接可以通过剪接位点处的A到G取代来完全破坏，并且所述编辑能够消除对DNA的碱基编辑活性。此外，这些数据表明，内含子与编辑器的放置可能会影响对剪接位点突变的敏感性以及内含子的总体剪接性能。

为了确定哪些内含子变体可以在其各自的剪接位点进行有效碱基编辑，用编码ABE变体的质粒、匹配的自失活指导RNA和靶向基因组位点的指导RNA脂转染HEK293T细胞。靶向TadA残基87处的内含子NF1和PAX2的剪接供体位点保持基因组位点处的高编辑率，并且内含子供体位点内的自失活编辑程度在回收的质粒DNA中高达约6％(图3F)。或者，TadA残基87处NF1剪接受体位点处的自失活编辑量为30％，同时还在基因组位点处保持有效编辑(图3G)。

评估了TadA残基87(NF1、PAX2和EEF1A1)处表现良好的内含子的其他构型。此组被插入到TadA的密码子129、59和18之后，并且还制备了相应的预先设置的剪接受体突变。缺乏预先设置的突变的NF1变体的编辑效率根据内含子插入的位置而变化(图3H)。PAX2和EEF1A1在所有构型中均保持高基因组编辑，但当预先设置突变时，这些内含子在TadA内的所有位置上并未一致失活。

检查了这些变体中的每一个被自失活指导RNA靶向的能力。NF1在TadA残基59处的自失活率类似于NF1在TadA残基87处的自失活率(图3I)。此外，还在TadA残基87处测试了内含子序列ANTXRL、PKHD1L1、PADI1和ENPEP-壁虎在剪接受体位点的指导物依赖性自失活，因为这组内含子之前已在此构型中被验证为因突变完全失活。在同一实验中将它们与NF1、PAX2和EEF1A1进行比较，这表明NF1是其自失活指导RNA最有效的靶向，其次是PAX2和ANTXRL(图3J)。每个其余的内含子都表现出类似的、低水平的指导RNA依赖性自失活。值得注意的是，与缺乏内含子或自失活指导RNA的ABE8.5-m变体相比，在任何这些实施例中，基因组位点上的碱基编辑活性都没有受到自失活指导RNA的存在的阻碍。这些数据证明，内含子可以策略性地放置在TadA内以提供合适的碱基编辑靶位点，所述位点可以用于以指导RNA依赖性方式随着时间终止碱基编辑活性。这些结果还证明，自失活的速率足够慢以同时允许在宿主基因组DNA内的所需位点处进行有效的碱基编辑，所述碱基编辑由另外的指导RNA引导。

为了确定通过对回收的游离DNA进行测序得到的自失活率是否低估了基于内含子的研究中的自失活功能水平，用表达在TadA残基87处含有NF1或PAX2内含子的ABE8.5-m的质粒、匹配的靶向剪接受体位点的自失活指导RNA和靶向基因组位点的第二指导RNA重新进行脂转染。通过靶扩增子测序，在来自用任一内含子变体处理的细胞的基因组DNA中观察到的编辑量类似于缺乏内含子或自靶向指导RNA的对照ABE8.5-m编辑器。对于NF1和PAX2，从回收的游离DNA中测量的自失活编辑的量分别为5.38％和4.16％。为了确定细胞RNA的功能性失活率，对总mRNA进行RNA测序分析以避免由于剪接和未剪接ABE转录物之间的大小差异而可能出现的PCR偏差。与在质粒上测量的失活率形成鲜明对比的是，>84％的NF1转录物含有编辑的、未剪接的内含子，并且只有3.7％的转录物进行了功能性剪接(图3L)。其余的大部分ABE转录物(11.25％)含有未经编辑的内含子，所述内含子保留在转录物中，这导致翻译过程中的提前终止，并且小部分转录物(0.66％)进行了选择性剪接。类似地，>79％的PAX2转录物含有编辑的、未剪接的内含子，并且约16.5％的转录物进行了功能性剪接(图3M)。这些数据表明，在这个5天的实验结束时，大多数正在主动转录的ABE DNA含有编辑的内含子序列，所述内含子序列阻止了剪接的发生，因此可以合理地假设碱基编辑器表达也会减少。

最后，通过AAV递送测试TadA残基87处的NF1内含子。编辑器和指导RNA被包装到AAV2中，所述AAV2用于体外转导ARPE-19细胞，并且在转导后2周评估编辑率。通过靶扩增子测序，基因组DNA编辑在所需靶位点处非常稳定(约76％ A到G)，但回收的AAV基因组中的编辑率在内含子剪接受体位点处较低(约5.4％ A到G)(图3N)。相比之下，对总mRNA的RNA测序分析显示出更高的自失活效率，其中约88.5％的转录物含有编辑的保留的内含子。这些数据证明，AAV递送的碱基编辑器可以通过在时间尺度上改变剪接而自失活，这也允许第二指导RNA进行有效的基因组编辑。

实施例4：同时的自失活和靶基因组位点处的碱基编辑的效率评估

进行实验以评估使用含有ABE8.5-m和不同指导RNA组合的碱基编辑系统同时进行自失活和靶(即，“所需”)基因组位点碱基编辑的效率。一个指导RNA用于编辑靶基因组位点，并且另一个用于使ABE8.5-m自失活。

进行实验来评估使用两种不同自失活策略的自失活和靶位点碱基编辑的效率。这些策略包括1)通过经由引入E59G改变来改变ABE8.5-m的TadA催化位点以实现自失活，以及2)通过改变插入在编码ABE8.5-m的多核苷酸内的NF1或PAX2内含子的剪接受体位点来实现自失活。将内含子插入在编码ABE8.5-m的TadA脱氨酶的密码子87之后的ABE8.5-m的多核苷酸中。使用指导RNAv1、v122、v224、v139、v110或v113引入E59G自失活改变(序列提供于表1B)。使用指导g235引入对NF1剪接受体位点的自失活改变(参见表1B)，并且使用指导g239引入对PAX2剪接受体位点的自失活改变(参见表1B)。在整个实施例中，用于编辑靶基因组位点的指导物是g756(参见表1B)。使用含有编码ABE8.5-m的多核苷酸的AAV2病毒颗粒(具有或没有NF1或PAX2内含子插入)感染ARPE-19细胞，结合指导RNA以促进靶基因组位点的碱基编辑和对编码ABE8.5-m的TadA脱氨酶结构域的多核苷酸的一部分的自失活碱基编辑，如图4A至4C所示。使用DNA下一代测序和/或RNA测序测量基因组位点处所需(即，“靶”)碱基转化和ABE8.5-m自失活的百分比(％)。在转导后第1、3和5周进行测量。作为阴性对照，也使用序列加扰(“scrmbl”)指导物转导细胞。如图4A至4C所示，ABE8.5-m碱基编辑器系统能够同时自失活和编辑靶基因组位点。

接下来，进行滴定实验以确定AAV2剂量对靶基因组位点的碱基编辑和ABE8.5-m的自失活的影响(参见图5A和5B)。使用指导RNA v110，通过改变插入在ABE8-5-m内的NF1内含子的剪接受体位点(如上所述)或通过引入E59G改变(如上所述)使ABE8.5-m自失活(参见表1B)。使用含有编码ABE8.5-m的多核苷酸的AAV2病毒颗粒(具有或没有NF1内含子插入)感染ARPE-19细胞，结合指导RNA以促进靶基因组位点的碱基编辑和对编码ABE8.5-m的TadA脱氨酶结构域的多核苷酸的一部分的自失活碱基编辑，如图5A至5C所示。使用AAV2颗粒以89kvg/细胞(高)、17k vg/细胞(中)或9k vg/细胞(低)的剂量转导细胞。如通过在转导后3、7和14周进行的下一代DNA测序测量确定，靶基因组位点处碱基编辑的效率随着剂量的增加而增加，而自失活的效率在所评估的剂量中保持不变。还观察到，自失活和改变靶基因组位点的碱基编辑效率随着时间而增加。

接下来，进行实验以确定使用上述两种自失活策略进行同时靶基因组位点碱基编辑和自失活的效率(参见图6A和6B)。使用指导RNA v110引入E59G自失活改变(参见表1B)。使用指导g235引入对NF1剪接受体位点的自失活改变，并且使用指导g239引入对PAX2剪接受体位点的自失活改变。用于编辑靶基因组位点的指导物是g756(参见表1B)。使用含有编码ABE8.5-m的多核苷酸的AAV2病毒颗粒(具有或没有NF1或PAX2内含子插入)感染ARPE-19细胞，结合指导RNA以促进靶基因组位点的碱基编辑和对编码ABE8.5-m的TadA脱氨酶结构域的多核苷酸的一部分的自失活碱基编辑，如图6A和6B所示。使用DNA下一代测序和/或RNA测序分别测量基因组位点处所需(即，“靶”)碱基转化和ABE8.5-m自失活的百分比(％)。在转导后第4、7和14周进行测量。如图6A和6B所示，ABE8.5-m碱基编辑器系统能够同时自失活和编辑靶基因组位点。

进行实验以确定使用上述两种自失活策略的同时靶基因组位点碱基编辑和自失活的效率(参见图7A和7B)，其中使用质粒转导细胞。使用指导RNA v110引入E59G自失活改变(参见表1B)。使用指导g235引入对NF1剪接受体位点的自失活改变。用于编辑靶基因组位点的指导物是g756(参见表1A)。使HEK293T细胞与含有编码ABE8.5-m的多核苷酸的脂质纳米颗粒(具有或没有NF1内含子插入)接触，结合指导RNA以促进靶基因组位点的碱基编辑和对编码ABE8.5-m的TadA脱氨酶结构域的多核苷酸的一部分的自失活碱基编辑，如图7A和7B所示。使用DNA下一代测序和/或RNA测序分别测量基因组位点处所需(即，“靶”)碱基转化和ABE8.5-m自失活的百分比(％)。作为阴性对照，也使用序列加扰(“scrmbl”)指导物转导细胞。在转导后第2和7周进行测量。如图7A和7B所示，ABE8.5-m碱基编辑器系统能够同时自失活和编辑靶基因组位点，并且自失活和编辑靶基因组位点的效率都随着时间而增加。

接下来，进行实验以确定使用上述两种自失活策略进行同时靶基因组位点碱基编辑和自失活的效率(参见图8A和8B)，其中使用AAV8病毒颗粒转导细胞。使用指导RNA v110引入E59G自失活改变(参见表1B)。使用指导g235引入对NF1剪接受体位点的自失活改变。用于编辑靶基因组位点的指导物是g756(参见表1B)。使用含有编码ABE8.5-m的多核苷酸的AAV8病毒颗粒(具有或没有NF1内含子插入)感染ARPE-19细胞，结合指导RNA以促进靶基因组位点的碱基编辑和对编码ABE8.5-m的TadA脱氨酶结构域的多核苷酸的一部分的自失活碱基编辑，如图8A和8B所示。使用DNA下一代测序和/或RNA测序测量基因组位点处所需(即，“靶”)碱基转化和ABE8.5-m自失活的百分比(％)。作为阴性对照，也使用序列加扰(“scrmbl”)指导物转导细胞。在转导后第4(图8A)和4(图8B)周进行测量。如图8A和8B所示，ABE8.5-m碱基编辑器系统能够同时自失活和编辑靶基因组位点。

在以上实施例中采用以下材料和方法。

一般方法

实施例1-3中使用的构建体通过USER酶克隆、限制酶消化和T4 DNA连接、Gibson组装生成，或由Genewiz合成。所有PCR反应均使用Phusion U DNA聚合酶绿色多重PCR预混液(Thermo Fisher)或Q5热启动高保真2x预混液(New England Biolabs)。内含子作为基因片段从Integrated DNA Technologies(IDT)订购。所有实验(包括通过质粒脂转染进行的实验和通过AAV转导进行的实验)都使用了分裂碱基编辑器，所述碱基编辑器使用Cfa(GEP)分裂内含肽融合物进行重组，其中编辑器在对应于Cas9的Asn309和Thr310的氨基酸残基之间分裂，并且残基310突变为Thr310Cys。分裂编辑器由两个分别需要共转染或共转导的单独质粒或AAV载体编码。每个ABE片段均由CMV启动子表达。一个或多个指导RNA在载体上串联编码，所述载体也编码碱基编辑器的N端分裂，并且指导RNA使用U6启动子表达。通过连接从IDT订购的退火互补寡核苷酸，将指导RNA插入消化的受体质粒中。通过将样品加热至95℃持续3分钟并以0.1℃/秒的速率冷却至20℃，使指导寡核苷酸在IDT双链体缓冲液中退火。使用QIAGEN Plasmid Plus试剂盒从35ml Mach1(Thermo Fisher)或NEB稳定细胞培养物(New England Biolabs)中制备质粒DNA，所述细胞培养物在含有100μg/mL羧苄青霉素的LB培养基中生长。在所有描述靶向基因组靶位点的实验中，所需的编辑对应于ABCA4 c.5882G>A点突变的A到G转化，所述点突变已通过慢病毒整合到研究中使用的所有细胞系中。通过技术性重复测量由细胞的脂转染或转导所得的编辑活性。

AAV产生和滴定

rAAV载体是使用具有质粒的HEK293T细胞的悬浮培养物的瞬时三重转染来产生的，所述质粒含有(a)AAV Rep和Cap基因，(b)侧翼为反向末端重复(ITR)序列的转基因，和(c)AAV复制所必需的腺病毒基因(E4、E2a和VA)(辅助质粒)。转染后72小时，裂解细胞，并通过添加终浓度分别为0.25％(v/v)、2mM和10U/ml的Triton X-100、MgCl₂和Turbonuclease去除未包装的DNA。在振荡培养箱中在37℃下进行裂解2-5小时。通过澄清深度过滤器过滤细胞裂解液，然后进行0.2微米过滤。使用Cytiva AKTA Pure色谱系统将澄清的裂解液加载到亲和色谱柱上。使用pH 2.5-3的洗脱缓冲液洗脱捕获的AAV。捕获洗脱液，并立即中和pH。通过氯化铯密度梯度超速离心分离完整和空壳AAV颗粒。收集含有完整AAV颗粒的条带，并通过qPCR确定滴度。然后将完整颗粒样品在CsCl储备溶液中稀释至最终目标浓度，并使用尺寸适当的透析盒(MWCO 100kDa)透析至配制缓冲液(10mM Na₂HPO₄、2mM KH₂PO₄、2.7mMKCl、192mM NaCl、0.001％Pluronic F-68；pH 7.4)中。使用低蛋白结合0.1微米注射器过滤器过滤透析液，然后等分并储存在-80℃下。使用液滴数字PCR(ddPCR)从瓶装材料中确定最终AAV滴度。还确定了其他质量属性，诸如内毒素水平、聚集状态、渗透压和pH。

使用慢病毒插入生成含有感兴趣的整合靶位点的细胞系

使用5'HpaI和3'ApaI侧翼g区组(从IDT订购)通过限制性克隆生成慢病毒生产质粒，所述g区组编码人ABCA4基因片段，其包含从外显子42之前72-bp开始到外显子之后123-bp的序列并且还包含对应于ABCA4 c.5882G>A的点突变。将g区组连接到HpaI/ApaI消化的pLenti6.4 R4R2 V5-DEST载体(Thermo Fisher Scientific)中，并且最终质粒用于VigeneBiosciences的小规模慢病毒生产。使用慢病毒以0.3-10IFU/细胞的感染复数(MOI)转导HEK293T细胞[CRL-3216，美国典型细胞培养物保藏中心(ATCC)]和ARPE-19细胞(CRL-2302，ATCC)。通过在补充有10μg/mL杀稻瘟菌素的基础培养基上生长来选择稳定整合的细胞，并且一旦建立，就将细胞保持在补充有5μg/mL杀稻瘟菌素的基础培养基上。使用引物oBTx361和oBTx362同时扩增病毒整合的ABCA4片段和内源ABCA4位点，通过靶扩增子测序来评估按MOI合并的每个细胞群内每个细胞的平均慢病毒整合数。通过将含有ABCA4 c.5882G>A突变的NGS读段数乘以2除以野生型读段数来估计每个样品中的病毒整合数量(整合数＝突变读段x 2/WT读段)。将每个细胞平均含有两个或更少整合的细胞系池用于所有碱基编辑实验。

HEK293T的细胞培养

在37℃、5％ CO₂下培养细胞。遵循ATCC提供的培养方法，将慢病毒整合细胞保持在Dulbecco改良Eagles培养基中，其加有Glut amax(10566-016，Thermo FisherScientific)与10％(v/v)胎牛血清(A31606-02，Thermo Fisher Scientific)和5μg/ml杀稻瘟菌素S HCl(A1113903，Thermo Fisher Scientific)。

ARPE-19的细胞培养

在37℃、5％ CO₂下培养细胞。遵循ATCC提供的培养方法，将慢病毒整合细胞保持在Dulbecco改良Eagles培养基/营养素混合物F-12(DMEM/F-12)(11320033，Thermo FisherScientific)中，其具有10％(v/v)胎牛血清(FBS)(A31606-02，Thermo FisherScientific)和5μg/ml杀稻瘟菌素S HCl(A1113903，Thermo Fisher Scientific)。

质粒转染

将HEK293T细胞以每孔35,000个细胞的密度接种在 48孔多孔板(3338，Corning)中的加有Glutamax与10％(v/v)FBS且没有杀稻瘟菌素的Dulbecco改良Eagles培养基中。接种后约24小时转染细胞。将含有分裂碱基编辑器和至多两种指导RNA的互补质粒对以1:1摩尔比组合，总计1000ng，然后添加1.5μL Lipof ectamine 2000(Thermo Fisher Scientific)和Opti-MEM还原血清培养基(Thermo Fisher Scientific)，总体积为25μl。遵循按照制造商的说明将试剂混合物添加到孔中。在细胞裂解前的5天(120小时)内，每48小时更换一次培养基。

AAV转导

将ARPE-19细胞以每孔23,000个细胞的密度接种在 48孔多孔板中的且没有杀稻瘟菌素的DMEM/F-12培养基和10％ FBS中。接种后大约24小时，去除培养基，并且将含有分裂碱基编辑器的两个AAV中的每一个稀释至每个细胞每个病毒50,000个病毒基因组，每孔为总体积125μl的缺乏FBS的DMEM/F-12。将细胞与病毒在37℃、5％CO₂下孵育3小时，并向每个样品中添加125μl具有20％ FBS的DMEM/F-12，使终浓度为10％FBS。在用于标准AAV转导实验的细胞裂解之前，在14天的时间内每48小时用DMEM/F-12和10％ FBS更换培养基。对于时间进程实验，在5周时间内每7天裂解一次重复样品。

基因组DNA和编辑器DNA的提取

去除培养基，用100μl 1x PBS(Thermo Fisher)洗涤细胞两次，然后添加75μl细胞裂解缓冲液(10mM Tris·HCl(pH 8.0)+0.05％ SDS+100μg/mL蛋白酶K)。用移液器吸头(使用多通道)刮孔并立即转移至96孔板。将96孔板在55℃下孵育1小时，然后在95℃下热灭活20分钟。然后将样品储存在-20℃下。

或者，在裂解前测试包括Turbo DNAse(Thermo Fisher)在内的其他洗涤步骤以试图减轻存在残余细胞外质粒DNA影响自失活分析的可能性。通过NGS分析，添加或不存在Turbo DNase会产生相同的结果，因此在后续实验中排除Turbo DNAse。

将mRNA逆转录为cDNA用于靶扩增子测序

遵循制造商的方案，使用MagMAX^TMmirVana^TM总RNA分离试剂盒(A27828，ThermoFisher Scientific)分离总RNA。遵循制造商的方案，使用RevertAid RT逆转录试剂盒(K1691，Thermo Fisher Scientific)将总RNA逆转录为cDNA，只是随机六聚体引物被排除在反应之外，并使用锚定寡聚dT引物(5'-TTTTTTTTTTTTTTTTTTTTNN(SEQ ID NO:481))代替。逆转录反应在25℃下孵育10min，在37℃下孵育60min，并且在95℃下孵育5min。将粗制cDNA直接用于下游应用。

靶扩增子测序DNA和cDNA样品

将细胞裂解物(2μL)或cDNA添加到含有Q5热启动高保真2x预混液和0.5μM含有5'Illumina接头悬突的每种引物的25μL PCR反应物中。每个样品在两个单独的反应中用两种独特的引物对进行扩增：一对位于感兴趣的细胞基因组位点(oBTx360和oBTx368)的侧翼，并且另一对位于编辑器DNA序列的所需编辑位点的侧翼。引物oBTx360和oBTx368通过引发ABCA4的外显子42和ABCA4片段侧翼的V5标签来选择性扩增慢病毒整合的基因组靶位点。PCR反应如下进行：95℃持续2min，30个循环(95℃持续15s，65℃持续20s，以及72℃持续20s)，并且最后72℃延伸2min。扩增后，使用0.5μM的每种独特的Illumina条形码引物对和Q5热启动高保真2x预混液对含有感兴趣的扩增位点的2μL粗制PCR产物进行条形码标记，总体积为25μL。反应如下进行：98℃持续2min，10个循环(98℃持续20s，60℃持续30s，以及72℃持续30s)，并且最后72℃延伸2min。然后使用SPRISelect顺磁珠(Beckman Coulter)使用0.6X珠/样品比率合并并清理等体积的条形码PCR产物。用Qubit 4(Thermo FisherScientific)对洗脱的DNA浓度进行定量，并根据制造商的方案用Illumina MiSeq仪器进行测序。

总mRNA的RNA测序

如上所述培养和转染细胞。实验结束时，去除培养基，并用50μLTrypLE^TMExpress酶(1X)、酚红(12605036，Thermo Fisher Scientific)分离和解离细胞。然后沉淀细胞并用完全培养基洗涤一次，然后分成两份沉淀：一份用于如上所述的DNA靶向测序，另一份用于RNA测序。遵循制造商的方案使用MagMAX^TMmirVana^TM总RNA分离试剂盒(A27828，Thermo FisherScientific)分离总RNA。接下来，根据制造商的说明(与NEBNext Poly(A)mRNA磁分离模块(NEB E7490)一起使用的方案)，使用用于Illumin的NEBNext Ultra II定向RNA文库制备试剂盒(E7760L，New England Biolabs)处理200 ng的总RNA。最终cDNA产物在TapeStation(Agilent)上定量，归一化至4nM，按等体积合并，然后遵循制造商的方案用IlluminaNextSeq 550仪器进行测序。

扩增子测序分析详情

1.FASTQ文件是使用Illumina blc2fastq(v2.20.0.422)由MiSeq仪器创建的碱基检出文件(BCF)生成的，参数如下。

2.然后使用trimmomatic(v0.39)处理创建的FASTQ文件，设置参数以剪辑Illumina TruSeq衔接子，排除短于20个碱基的读段，如果4-bp滑动窗口中的平均碱基质量(Phred评分)下降至15以下，则修剪剩余的3'末端读段，修剪在读段末端质量评分为3或更低的任何碱基，并修剪从第1轮PCR引物引入的4个随机化碱基。

使用以下命令执行trimmomatic：

3.使用bowtie2(v2.35)在端到端模式下用指定的非常敏感标记(very-sensitiveflag)将修剪的读段与预期的扩增子序列进行比对。已将由bowtie2创建的SAM文件转换为BAM文件，使用samtools(v1.9)进行分类和索引。

4.使用bam-readcounts工具(github.com/genome/bam-readcount)处理步骤(3)中创建的BAM文件以生成纯文本文件，其总结比对中每个位置的非参考碱基、缺失和插入的数量。用于计数非参考碱基的最低碱基质量(Phred评分)设置为29，以便从关于编辑率的统计数据中排除低置信度碱基检出。将靶位点中每个位置的编辑率计算为给定类型(例如，G)的非参考碱基占比对中给定位置处通过碱基质量阈值的碱基总数的分数。

总mRNA测序分析详情

使用STAR(v2.7.2a)将泳道水平FASTQ文件分别与定制的基因组进行比对，所述基因组包括人基因组(Gencode GRCh38v31初级组装(primary assembly))和碱基编辑器构建体，设置参数以指定ReadGroup并输出基因组比对的BAM文件和转录组比对的BAM文件。将对步骤中创建的每个样品的泳道水平基因组比对合并，按坐标分类，并使用Picard(v2.20.5)标记重复。然后将BAM文件加载到IGV中以实现编辑率的可视化和定量。

其他实施方案

根据上文描述，将显而易知的是可以对本文所述的本发明作出变化和修改以使其适于各种用途和条件。所述实施方案也在以下权利要求书的范围内。

在对本文变量的任何定义中叙述一列要素包括将那个变量定义为任何单一要素或所列要素的组合(或亚组合)。在本文中叙述实施方案包括那个实施方案呈任何单一实施方案形式或与任何其它实施方案或其部分组合。

本说明书中提及的所有专利和公开以引用方式并入本文，程度如同明确地且个别地指示各独立专利和公开以引用方式并入一般。

Claims

1.一种多核苷酸，其编码脱氨酶结构域或核酸可编程DNA结合蛋白(napDNAbp)结构域或其片段，所述多核苷酸包含内含子，其中所述内含子插入在编码所述脱氨酶或napDNAbp或其片段的开放阅读框中。

2.一种包含内含子的多核苷酸，其编码脱氨酶结构域或核酸可编程DNA结合蛋白(napDNAbp)结构域开放阅读框，所述内含子包含剪接受体或剪接供体位点处的改变，其中所述改变减少或消除碱基编辑器mRNA的剪接，从而减少或消除碱基编辑器多肽的表达。

3.一种多核苷酸，其编码碱基编辑器多肽或其片段，所述多核苷酸包含内含子，其中所述内含子插入在编码所述碱基编辑器多肽或其片段的开放阅读框中。

4.如权利要求3所述的多核苷酸，其中所述碱基编辑器在基因组DNA中具有高编辑效率。

5.一种多核苷酸，其包含含有内含子的碱基编辑器开放阅读框，所述内含子包含剪接受体或剪接供体位点处的改变，其中所述改变减少或消除碱基编辑器mRNA的剪接，从而减少或消除碱基编辑器多肽的表达。

6.如权利要求3-5中任一项所述的多核苷酸，其中所述碱基编辑器包含核酸可编程DNA结合蛋白(napDNAbp)结构域或脱氨酶结构域。

7.一种多核苷酸，其编码包含核酸可编程DNA结合蛋白(napDNAbp)结构域或脱氨酶结构域的碱基编辑器，所述多核苷酸包含内含子，其中所述内含子插入在编码所述napDNAbp结构域或所述脱氨酶结构域的开放阅读框中。

8.一种多核苷酸，其编码包含核酸可编程DNA结合蛋白(napDNAbp)结构域和脱氨酶结构域或其片段的碱基编辑器，所述多核苷酸包含有包含内含子的碱基编辑器开放阅读框，所述内含子包含剪接受体或剪接供体位点处的改变，其中所述改变减少所述碱基编辑器mRNA的剪接。

9.如权利要求1、2或6-8中任一项所述的多核苷酸，其中所述脱氨酶结构域是胞苷脱氨酶结构域或腺苷脱氨酶结构域。

10.如权利要求1、2或6-9中任一项所述的多核苷酸，其中所述napDNAbp结构域是选自由Cas9、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i和Cas12j/CasΦ结构域组成的组的Cas结构域。

11.如权利要求1-10中任一项所述的多核苷酸，其中所述内含子来源于选自由NF1、PAX2、EEF1A1、HBB、IGHG1、SLC50A1、ABCB11、BRSK2、PLXNB3、TMPRSS6、IL32、ANTXRL、PKHD1L1、PADI1、KRT6C和HMCN2组成的组的序列。

12.如权利要求11所述的多核苷酸，其中所述内含子来源于NF1。

13.如权利要求11所述的多核苷酸，其中所述内含子来源于PAX2。

14.如权利要求11所述的多核苷酸，其中所述内含子来源于EEF1A1。

15.如权利要求11所述的多核苷酸，其中所述内含子来源于HBB。

16.如权利要求11所述的多核苷酸，其中所述内含子来源于IGHG1。

17.如权利要求11所述的多核苷酸，其中所述内含子来源于SLC50A1。

18.如权利要求11所述的多核苷酸，其中所述内含子来源于ABCB11。

19.如权利要求11所述的多核苷酸，其中所述内含子来源于BRSK2。

20.如权利要求11所述的多核苷酸，其中所述内含子来源于PLXNB3。

21.如权利要求11所述的多核苷酸，其中所述内含子来源于TMPRSS6。

22.如权利要求11所述的多核苷酸，其中所述内含子来源于IL32。

23.如权利要求11所述的多核苷酸，其中所述内含子来源于PKHD1L1。

24.如权利要求11所述的多核苷酸，其中所述内含子来源于PADI1。

25.如权利要求11所述的多核苷酸，其中所述内含子来源于KRT6C。

26.如权利要求11所述的多核苷酸，其中所述内含子来源于HMCN2。

27.如权利要求1-26中任一项所述的多核苷酸，其中所述内含子与天然存在于哺乳动物基因中的内含子具有至少约85％核酸序列同一性。

28.如权利要求1-26中任一项所述的多核苷酸，其中所述内含子与天然存在于非哺乳动物基因中的内含子具有至少约85％核酸序列同一性。

29.如权利要求1-10中任一项所述的多核苷酸，其中所述内含子是合成内含子。

30.如权利要求1-26中任一项所述的多核苷酸，其中所述内含子包含与以下之一具有至少约85％核酸序列同一性的序列：

d)GTAAGTATCAAGGTTACAAGACAGGTTTAAGGAGACCAATAGAAACTGGGCTTGTCTAGACAGAGAAGACTCTTGCGTTTCTGATAGGCACCTATTGGTCTTACTGACATCCACTTTGCCTTTCT CTCCACAG(SEQ ID NO:229)；

31.如权利要求1-26中任一项所述的多核苷酸，其中所述内含子包含来自以下之一的核酸序列：

d)GTAAGTATCAAGGTTACAAGACAGGTTTAAGGAGACCAATAGAAACTGGGCTTGTCTAGACAGAGAAGACTCTTGCGTTTCTGATAGGCACCTATTGGTCTTACTGACATCCACTTTGCCTTTCTCTCCACAG(SEQ ID NO:229)；

32.如权利要求1-31中任一项所述的多核苷酸，其中所述内含子包含约10个碱基对至约500个碱基对。

33.如权利要求32所述的多核苷酸，其中所述内含子包含约70个碱基对至150个碱基对。

34.如权利要求32所述的多核苷酸，其中所述内含子包含约100个碱基对至200个碱基对。

35.如权利要求1-34中任一项所述的多核苷酸，其中所述内含子插入到原型间隔区序列附近。

36.如权利要求35所述的多核苷酸，其中所述内含子插入在所述原型间隔区序列的约10至30个碱基对内。

37.如权利要求35或36所述的多核苷酸，其中所述原型间隔区序列是NGG或NNGRRT。

38.如权利要求1、2或6-37中任一项所述的多核苷酸，其中所述脱氨酶结构域包含TadA结构域。

39.如权利要求38所述的多核苷酸，其中所述内含子插入到TadA的密码子18、23、59、62、87或129内或紧接其后插入。

40.如权利要求39所述的多核苷酸，其中所述内含子紧接TadA的密码子87之后插入。

41.如权利要求2、5或8中任一项所述的多核苷酸，其中所述改变是单碱基编辑。

42.如权利要求41所述的多核苷酸，其中所述单碱基编辑是A到G碱基编辑。

43.如权利要求41所述的多核苷酸，其中所述单碱基编辑是C到T碱基编辑。

44.如权利要求1-43中任一项所述的多核苷酸，其还包含编码接头的多核苷酸序列。

45.如权利要求44所述的多核苷酸，其中所述内含子插入在编码所述接头的所述多核苷酸序列内。

46.如权利要求1-45中任一项所述的多核苷酸，其中所述可编程DNA结合蛋白结构域是Cas9结构域。

47.如权利要求46所述的多核苷酸，其中所述Cas9结构域在对应于Cas9的Asn309和Thr310的氨基酸残基之间分裂，并且残基310突变为Thr310Cys。

48.一种组合物，其包含：

(i)编码脱氨酶结构域和核酸可编程DNA结合蛋白(napDNAbp)结构域的N端片段的第一多核苷酸，其中所述napDNAbp结构域的所述N端片段与分裂内含肽-N融合，以及

(ii)编码所述napDNAbp结构域的C端片段的第二多核苷酸，其中所述napDNAbp结构域的所述C端片段与分裂内含肽-C融合；

其中所述第一多核苷酸或所述第二多核苷酸包含内含子，其中所述内含子插入在所述多核苷酸的开放阅读框中。

49.一种组合物，其包含：(i)编码脱氨酶结构域的N端片段的第一多核苷酸，其中所述脱氨酶结构域的所述N端片段与分裂内含肽-N融合，以及(ii)编码所述脱氨酶结构域的C端片段和核酸可编程DNA结合蛋白(napDNAbp)结构域的第二多核苷酸，其中所述脱氨酶结构域的所述C端片段与分裂内含肽-C融合；

50.如权利要求48或49中任一项所述的组合物，其中所述内含子包含剪接受体或剪接供体位点处的改变，其中所述改变减少或消除碱基编辑器mRNA的剪接。

51.如权利要求48-50中任一项所述的组合物，其中所述脱氨酶结构域是胞苷脱氨酶结构域或腺苷脱氨酶结构域。

52.如权利要求48-51中任一项所述的组合物，其中所述脱氨酶结构域是TadA结构域。

53.如权利要求48-52中任一项所述的组合物，其中所述napDN Abp结构域是选自由Cas9、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i和Cas12j/CasΦ结构域组成的组的Cas结构域。

54.如权利要求48-53中任一项所述的组合物，其中所述napDNAbp结构域是Cas9区域。

55.如权利要求54所述的组合物，其中所述Cas9结构域的N端结构域和C端结构域在氨基酸残基Asn309和Thr310之间分裂。

56.如权利要求54或55所述的组合物，其中所述Cas9结构域包含突变Thr310Cys。

57.如权利要求48-56中任一项所述的组合物，其中所述内含子来源于选自由NF1、PAX2、EEF1A1、HBB、IGHG1、SLC50A1、ABCB11、BRSK2、PLXNB3、TMPRSS6、IL32、ANTXRL、PKHD1L1、PADI1、KRT6C和HMCN2组成的组的序列。

58.如权利要求57所述的组合物，其中所述内含子来源于NF1。

59.如权利要求57所述的组合物，其中所述内含子来源于PAX2。

60.如权利要求57所述的组合物，其中所述内含子来源于EEF1A1。

61.如权利要求57所述的组合物，其中所述内含子来源于HBB。

62.如权利要求57所述的组合物，其中所述内含子来源于IGHG1。

63.如权利要求57所述的组合物，其中所述内含子来源于SLC50A1。

64.如权利要求57所述的组合物，其中所述内含子来源于ABCB11。

65.如权利要求57所述的组合物，其中所述内含子来源于BRSK2。

66.如权利要求57所述的组合物，其中所述内含子来源于PLXNB3。

67.如权利要求57所述的组合物，其中所述内含子来源于TMPRSS6。

68.如权利要求57所述的组合物，其中所述内含子来源于IL32。

69.如权利要求57所述的组合物，其中所述内含子来源于PKHD1L1。

70.如权利要求57所述的组合物，其中所述内含子来源于PADI1。

71.如权利要求57所述的组合物，其中所述内含子来源于KRT6C。

72.如权利要求57所述的组合物，其中所述内含子来源于HMCN2。

73.如权利要求48-72中任一项所述的组合物，其还包含接头多核苷酸序列。

74.如权利要求73所述的组合物，其中所述内含子插入在所述接头多核苷酸序列内。

75.一种碱基编辑器系统，其包含：

(i)编码包含脱氨酶结构域或其片段的碱基编辑器的多核苷酸；

(ii)引导所述碱基编辑器编辑细胞基因组中的位点的一种或多种指导RNA；以及

(iii)引导所述碱基编辑器编辑编码所述碱基编辑器的所述多核苷酸的一种或多种指导RNA，其中所述编辑导致所编码的碱基编辑器的活性和/或表达降低。

76.如权利要求75所述的碱基编辑器系统，其中所述编辑改变所述脱氨酶结构域的催化残基。

77.如权利要求75或权利要求76所述的碱基编辑器，其中所述脱氨酶结构域是腺苷脱氨酶结构域。

78.如权利要求75或权利要求76所述的碱基编辑器，其中所述脱氨酶结构域是胞苷脱氨酶结构域。

79.如权利要求77所述的碱基编辑器系统，其中所述脱氨酶结构域的所述改变的催化残基是以下参考序列的His57(H57)、Glu59(E59)、Cys87(C87)或Cys90(C90)：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:1)，或另一腺苷脱氨酶中的相应位置。

80.如权利要求76或权利要求79所述的碱基编辑器系统，其中所述改变的催化残基是E59。

81.如权利要求76或权利要求79所述的碱基编辑器，其中对所述催化残基的所述改变是E59G。

82.如权利要求76或权利要求79所述的碱基编辑器系统，其中所述改变的催化残基是H57。

83.如权利要求76或权利要求79所述的碱基编辑器，其中对所述催化残基的所述改变是H57R。

84.如权利要求76或权利要求79所述的碱基编辑器系统，其中所述改变的催化残基是C87。

85.如权利要求76或权利要求79所述的碱基编辑器，其中对所述催化残基的所述改变是C87R。

86.如权利要求76或权利要求79所述的碱基编辑器系统，其中所述改变的催化残基是C90。

87.如权利要求76或权利要求79所述的碱基编辑器，其中对所述催化残基的所述改变是C90R。

88.一种碱基编辑器系统，其包含：

(i)编码自失活碱基编辑器或其片段的多核苷酸，其中所述多核苷酸包含插入在所述自失活碱基编辑器或其片段的开放阅读框中的内含子；

(ii)引导所述自失活碱基编辑器编辑细胞基因组中的位点的一种或多种指导RNA；以及

(iii)引导所述自失活碱基编辑器编辑存在于编码所述自失活碱基编辑器的所述多核苷酸的所述内含子中的剪接受体或剪接供体位点的一种或多种指导RNA。

89.一种碱基编辑器系统，其包含：

(i)如权利要求3-47中任一项所述的多核苷酸，其编码碱基编辑器；

(iii)引导所述碱基编辑器编辑存在于编码所述碱基编辑器的所述多核苷酸的所述内含子中的剪接受体或剪接供体位点的一种或多种指导RNA。

90.一种碱基编辑器系统，其包含：

(i)如权利要求48-74中任一项所述的组合物，其编码碱基编辑器；

(ii)引导所述碱基编辑器编辑细胞基因组中的位点的一种或多种指导RNA；以及(iii)引导所述碱基编辑器编辑存在于(i)的所述组合物的所述内含子中的剪接受体或剪接供体位点的一种或多种指导RNA。

91.一种碱基编辑器系统，其包含：

(i)编码脱氨酶结构域和核酸可编程DNA结合蛋白(napDNAbp)结构域的N端片段的第一多核苷酸，其中所述napDNAbp结构域的所述N端片段与分裂内含肽-N融合；

(ii)编码所述napDNAbp结构域的C端片段的第二多核苷酸，其中所述napDNAbp结构域的所述C端片段与分裂内含肽-C融合，

其中所述第一多核苷酸或所述第二多核苷酸包含内含子，其中所述内含子插入在开放阅读框中，并且其中所述第一多核苷酸和所述第二多核苷酸编码碱基编辑器；

(iii)引导所述碱基编辑器编辑细胞基因组中的位点的一种或多种指导RNA；以及

(iv)引导所述碱基编辑器编辑存在于(i)或(ii)的所述多核苷酸的所述内含子中的剪接受体或剪接供体位点的一种或多种指导RNA。

92.一种碱基编辑器系统，其包含：

(i)编码脱氨酶结构域的N端片段的第一多核苷酸，其中所述脱氨酶结构域的所述N端片段与分裂内含肽-N融合；

(ii)编码所述脱氨酶结构域的C端片段和核酸可编程DNA结合蛋白(napDNAbp)结构域的第二多核苷酸，其中所述脱氨酶结构域的所述C端片段与分裂内含肽-C融合，

93.如权利要求75-92中任一项所述的碱基编辑器系统，其中所述碱基编辑器系统包含选自以下的多核苷酸序列：

94.一种载体，其包含编码自失活碱基编辑器或其片段的多核苷酸，其中所述多核苷酸包含插入在自失活碱基编辑器或其片段的开放阅读框中的内含子。

95.一种载体，其包含如权利要求1-47中任一项所述的多核苷酸或如权利要求75-93中任一项所述的碱基编辑器系统。

96.一种载体，其包含如权利要求48-74中任一项所述的组合物的第一多核苷酸和/或第二多核苷酸。

97.如权利要求94-96中任一项所述的载体，其中所述表达载体是哺乳动物表达载体。

98.如权利要求94-97中任一项所述的载体，其中所述载体是脂质纳米颗粒。

99.如权利要求94-98中任一项所述的载体，其中所述载体是选自由以下组成的组的病毒载体：腺相关病毒(AAV)、逆转录病毒载体、腺病毒载体、慢病毒载体、仙台病毒载体和疱疹病毒载体。

100.如权利要求99所述的载体，其中所述载体是AAV载体。

101.如权利要求100所述的载体，其中所述AAV载体是AAV2或AAV8。

102.如权利要求94-101中任一项所述的载体，其中所述载体包含启动子。

103.如权利要求102所述的载体，其中所述启动子是CMV启动子。

104.一种细胞，其包含有包含编码自失活碱基编辑器或其片段的多核苷酸的载体，其中所述多核苷酸包含插入在所述自失活碱基编辑器或其片段的开放阅读框中的内含子。

105.一种细胞，其包含如权利要求1-47中任一项所述的多核苷酸、如权利要求48-74中任一项所述的组合物、如权利要求75-93中任一项所述的碱基编辑器系统或如权利要求94-103中任一项所述的载体。

106.如权利要求104或105所述的细胞，其中所述细胞是在体外或在体内。

107.一种药物组合物，其包含如权利要求1-47中任一项所述的多核苷酸、如权利要求75-93中任一项所述的碱基编辑器系统、如权利要求94-103中任一项所述的载体或如权利要求104-106中任一项所述的细胞。

108.如权利要求107所述的药物组合物，其还包含药学上可接受的赋形剂、稀释剂或载剂。

109.一种试剂盒，其包括如权利要求1-47中任一项所述的多核苷酸、如权利要求48-74中任一项所述的组合物、如权利要求75-93中任一项所述的碱基编辑器系统、如权利要求94-103中任一项所述的载体、如权利要求104-106中任一项所述的细胞或如权利要求107或权利要求108所述的药物组合物。

110.如权利要求109所述的试剂盒，其还包括其使用说明书。

111.一种用于减少或消除自失活碱基编辑器的表达的方法，所述方法包括：

(a)提供编码自失活碱基编辑器或其片段的多核苷酸，其中所述多核苷酸包含插入在所述自失活碱基编辑器或其片段的开放阅读框中的内含子；以及

(b)使所述多核苷酸与指导RNA和自失活碱基编辑器多肽接触，其中所述指导RNA引导所述碱基编辑器编辑所述内含子的剪接受体或剪接供体位点，从而生成减少或消除所述自失活碱基编辑器的表达的改变。

112.一种使碱基编辑自失活的方法，所述方法包括：

(a)在细胞中表达编码包含脱氨酶结构域或其片段的碱基编辑器的多核苷酸；

(b)使所述细胞与引导所述碱基编辑器编辑所述细胞基因组中的位点的第一指导RNA接触，从而在所述细胞基因组中生成改变；以及

(c)使所述细胞与引导所述碱基编辑器编辑编码所述碱基编辑器的所述多核苷酸的第二指导RNA接触，其中所述编辑导致所编码的碱基编辑器的活性和/或表达降低，从而生成减少或消除所述碱基编辑器的表达的改变。

113.如权利要求112所述的方法，其中所述编辑改变所述脱氨酶结构域的催化残基。

114.如权利要求112或权利要求113所述的方法，其中所述脱氨酶结构域是腺苷脱氨酶结构域。

115.如权利要求112或权利要求113所述的方法，其中所述脱氨酶结构域是胞苷脱氨酶结构域。

116.如权利要求114所述的方法，其中所述脱氨酶结构域的改变的催化残基是以下参考序列的His57(H57)、Glu59(E59)、Cys87(C87)或Cys90(C90)：

117.如权利要求116所述的方法，其中所述改变的催化残基是E59。

118.如权利要求116所述的方法，其中对所述催化残基的所述改变是E59G。

119.如权利要求116所述的方法，其中所述改变的催化残基是H57。

120.如权利要求116所述的方法，其中对所述催化残基的所述改变是H57R。

121.如权利要求116所述的方法，其中所述改变的催化残基是C87。

122.如权利要求116所述的方法，其中对所述催化残基的所述改变是C87R。

123.如权利要求116所述的方法，其中所述改变的催化残基是C90。

124.如权利要求116所述的方法，其中对所述催化残基的所述改变是C90R。

125.一种使碱基编辑自失活的方法，所述方法包括：

(a)在细胞中表达编码自失活碱基编辑器或其片段的多核苷酸，其中所述多核苷酸包含插入在所述自失活碱基编辑器或其片段的开放阅读框中的内含子；

(b)使所述细胞与引导所述自失活碱基编辑器编辑所述细胞基因组中的位点的第一指导RNA接触，从而在所述细胞基因组中生成改变；以及

(c)使所述细胞与引导所述自失活碱基编辑器编辑存在于(a)的所述多核苷酸的所述内含子中的剪接受体或剪接供体位点的第二指导RNA接触，从而生成减少或消除所述自失活碱基编辑器的表达的改变。

126.一种编辑生物体基因组的方法，所述方法包括：

(a)在所述生物体的细胞中表达编码自失活碱基编辑器或其片段的多核苷酸，其中所述多核苷酸包含插入在所述自失活碱基编辑器或其片段的开放阅读框中的内含子；

127.一种治疗受试者的方法，所述方法包括：

(a)在所述受试者的细胞中表达编码自失活碱基编辑器或其片段的多核苷酸，其中所述多核苷酸包含插入在所述自失活碱基编辑器或其片段的开放阅读框中的内含子；

(b)使所述细胞与引导所述自失活碱基编辑器编辑所述细胞基因组中的位点的第一指导RNA接触，从而在所述细胞基因组中生成改变以治疗所述受试者；以及

128.一种治疗受试者的方法，所述方法包括向所述受试者施用如权利要求75-93中任一项所述的碱基编辑器系统、如权利要求94-103中任一项所述的载体、如权利要求104-106中任一项所述的细胞或如权利要求107或权利要求108所述的药物组合物，从而治疗所述受试者。

129.一种编辑生物体基因组的方法，所述方法包括：

(a)在所述生物体的细胞中表达编码脱氨酶结构域和核酸可编程DNA结合蛋白(napDNAbp)结构域的N端片段的第一多核苷酸，其中所述napDNAbp结构域的所述N端片段与分裂内含肽-N融合，并且在所述生物体的细胞中表达编码所述napDNAbp结构域的C端片段的第二多核苷酸，其中所述napDNAbp结构域的所述C端片段与分裂内含肽-C融合，其中所述第一多核苷酸或所述第二多核苷酸包含内含子，其中所述内含子插入在开放阅读框中，并且其中所述第一多核苷酸和所述第二多核苷酸在所述细胞中的表达导致形成自失活碱基编辑器；

130.一种编辑生物体基因组的方法，所述方法包括：

(a)在所述生物体的细胞中表达编码脱氨酶结构域的N端片段的第一多核苷酸，其中所述脱氨酶结构域的所述N端片段与分裂内含肽-N融合，并且在所述生物体的细胞中表达编码所述脱氨酶结构域的C端片段和核酸可编程DNA结合蛋白(napDNAbp)结构域的第二多核苷酸，其中所述脱氨酶结构域的所述C端片段与分裂内含肽-C融合，其中所述第一多核苷酸或所述第二多核苷酸包含内含子，其中所述内含子插入在开放阅读框中，并且其中所述第一多核苷酸和所述第二多核苷酸在所述细胞中的表达导致形成自失活碱基编辑器；

131.如权利要求111-130中任一项所述的方法，其中所述方法在体内进行。

132.如权利要求129-130中任一项所述的方法，其中所述第一多核苷酸和/或所述第二多核苷酸通过载体在细胞中表达。

133.如权利要求129-130中任一项所述的方法，其中所述第一多核苷酸和所述第二多核苷酸通过单独的载体在细胞中表达。

134.如权利要求112-133中任一项所述的方法，其中所述第一指导RNA和/或所述第二指导RNA通过载体递送至所述细胞。

135.如权利要求112-133中任一项所述的方法，其中所述第一指导RNA和/或所述第二指导RNA与所述第一多核苷酸和/或所述第二多核苷酸以同一载体递送至所述细胞。

136.如权利要求129-135中任一项所述的方法，其中所述第一指导RNA和/或所述第二指导RNA与所述第一多核苷酸和/或所述第二多核苷酸以不同的载体递送至所述细胞。

137.如权利要求132-136中任一项所述的方法，其中所述载体是脂质纳米颗粒。

138.如权利要求132-137中任一项所述的方法，其中所述载体是病毒载体。

139.如权利要求138所述的方法，其中所述病毒载体是腺相关病毒(AAV)载体。

140.如权利要求139所述的方法，其中所述AAV载体是AAV2或AAV8。

141.如权利要求129-140中任一项所述的方法，其中所述napDNAbp结构域是Cas9结构域。

142.如权利要求141所述的方法，其中所述Cas9结构域的N端结构域和C端结构域在氨基酸残基Asn309和Thr310之间分裂。

143.如权利要求141或142所述的方法，其中所述Cas9结构域包含突变Thr310Cys。

144.如权利要求111-143中任一项所述的方法，其中所述碱基编辑器包含核酸可编程DNA结合蛋白(napDNAbp)结构域和脱氨酶结构域。

145.如权利要求144所述的方法，其中包含所述内含子的所述开放阅读框是在所述napDNAbp结构域或所述脱氨酶结构域中。

146.如权利要求11或125-145中任一项所述的方法，其中所述自失活碱基编辑器多肽在基因组DNA中保持高编辑效率。

147.如权利要求83、84、112-124或129-146中任一项所述的方法，其中所述脱氨酶结构域是胞苷脱氨酶结构域或腺苷脱氨酶结构域。

148.如权利要求144或权利要求145所述的方法，其中所述napDNAbp结构域是选自由Cas9、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i和Cas12j/CasΦ结构域组成的组的Cas结构域。

149.如权利要求111、125-127或129-148中任一项所述的方法，其中所述改变是在所述内含子的5'末端处的共有剪接供体位点中或在所述内含子的3'末端处的共有剪接受体序列中。

150.如权利要求111、125-127或129-149中任一项所述的方法，其中所述内含子包含约10个碱基对至约500个碱基对。

151.如权利要求150所述的方法，其中所述内含子包含约70个碱基对至150个碱基对。

152.如权利要求150所述的方法，其中所述内含子包含约100个碱基对至200个碱基对。

153.如权利要求111、125-127或129-152中任一项所述的方法，其中所述内含子插入到原型间隔区序列附近。

154.如权利要求153所述的方法，其中所述内含子插入在所述原型间隔区序列的约10至30个碱基对内。

155.如权利要求153或154所述的方法，其中所述原型间隔区序列是NGG或NNGRRT。

156.如权利要求147所述的方法，其中所述腺苷脱氨酶结构域包含TadA结构域。

157.如权利要求156所述的方法，其中所述内含子插入到TadA的密码子18、23、59、62、87或129内或紧接其后插入。

158.如权利要求157所述的方法，其中所述内含子紧接TadA的密码子87之后插入。

159.如权利要求111-127或129-158中任一项所述的方法，其中所述改变是单碱基编辑。

160.如权利要求159所述的方法，其中所述单碱基编辑是A到G碱基编辑。

161.如权利要求159所述的方法，其中所述单碱基编辑是C到T碱基编辑。

162.如权利要求111、125-127或129-161中任一项所述的方法，其中所述内含子来源于选自由NF1、PAX2、EEF1A1、HBB、IGHG1、SLC50A1、ABCB11、BRSK2、PLXNB3、TMPRSS6、IL32、ANTXRL、PKHD1L1、PADI1、KRT6C和HMCN2组成的组的序列。

163.如权利要求162所述的方法，其中所述内含子来源于NF1。

164.如权利要求162所述的方法，其中所述内含子来源于PAX2。

165.如权利要求162所述的方法，其中所述内含子来源于EEF1A1。

166.如权利要求162所述的方法，其中所述内含子来源于HBB。

167.如权利要求162所述的方法，其中所述内含子来源于IGHG1。

168.如权利要求162所述的方法，其中所述内含子来源于SLC50A1。

169.如权利要求162所述的方法，其中所述内含子来源于ABCB11。

170.如权利要求162所述的方法，其中所述内含子来源于BRSK2。

171.如权利要求162所述的方法，其中所述内含子来源于PLXNB3。

172.如权利要求162所述的方法，其中所述内含子来源于TMPRSS6。

173.如权利要求162所述的方法，其中所述内含子来源于IL32。

174.如权利要求162所述的方法，其中所述内含子来源于PKHD1L1。

175.如权利要求162所述的方法，其中所述内含子来源于PADI1。

176.如权利要求162所述的方法，其中所述内含子来源于KRT6C。

177.如权利要求162所述的方法，其中所述内含子来源于HMCN2。

178.如权利要求111、125-127或129-161中任一项所述的方法，其中所述内含子与天然存在于哺乳动物基因中的内含子具有至少约85％核酸序列同一性。

179.如权利要求111、125-127或129-161中任一项所述的方法，其中所述内含子与天然存在于非哺乳动物基因中的内含子具有至少约85％核酸序列同一性。

180.如权利要求111、125-127或129-161中任一项所述的方法，其中所述内含子是合成内含子。

181.如权利要求111、125-127或129-161中任一项所述的方法，其中所述内含子包含与以下之一具有至少约85％、90％、95％或99％核酸序列同一性的序列：

182.如权利要求111、125-127或129-161中任一项所述的方法，其中所述内含子包含来自以下之一的核酸序列：

a)GTGAGATCAAATGAAAGTTTCATATAGAAATACAAAACCTAGAGAACTGGCATGTAAGAGAAGCAAAAATTACTTCAGCAAGGCCATGTTAGTAAATTTGCATCTGTTTGTCCACATTAG(SEQID NO:226)；

183.如权利要求112-182中任一项所述的方法，其中所述第二指导RNA包含选自以下的多核苷酸序列：

184.如权利要求111-127或129-183中任一项所述的方法，其中所述多核苷酸还包含接头多核苷酸序列。

185.如权利要求184所述的方法，其中所述内含子插入在所述接头多核苷酸序列内。

186.如权利要求126-130所述的方法，其中所述受试者或生物体是人。

187.如权利要求186所述的方法，其中所述受试者或生物体是哺乳动物。

188.如权利要求187所述的方法，其中所述哺乳动物是人。