CN117897486A

CN117897486A - 用于肌球蛋白重链碱基编辑的组合物和方法

Info

Publication number: CN117897486A
Application number: CN202280058910.8A
Authority: CN
Inventors: 安德烈亚斯·沙伊; 朗达·巴塞尔杜比; 埃里克·N·奥尔森
Original assignee: University of Texas System
Current assignee: University of Texas System
Priority date: 2021-07-01
Filing date: 2022-07-01
Publication date: 2024-04-16

Abstract

本文公开的内容涉及包含单引导RNA(sgRNA)和融合蛋白的组合物，所述融合蛋白包含设计用于CRISPR‑Cas9系统的Cas9切口酶和脱氨酶，以及将其用于预防、改善或治疗一种或多种心肌病的方法。

Description

用于肌球蛋白重链碱基编辑的组合物和方法

相关申请的交叉引用

本申请要求2021年7月1日提交的第63/217,618号美国临时申请和2021年7月2日提交的第63/218,221号美国临时申请的利益，其公开内容通过引用整体并入本文。

参考并入的序列表

本申请包含通过PatentCenter以计算机可读格式提交的序列表，且其整体通过引用并入本文。该计算机可读文件创建于2022年7月1日，名为UTSW-3923-PCT(106546-728561).xml，大小约为368,000字节。

技术领域

本发明的构思涉及包含单引导RNA(sgRNA)和包含脱氨酶和Cas9切口酶或失活的Cas9核酸内切酶的融合蛋白的组合物，以及将其用于预防、改善或治疗一种或多种心肌病的方法。

背景技术

心肌病是一种心肌的疾病，会导致心肌肿大、肥厚和/或僵硬。随着心肌病的进展，心脏会变得越来越弱，并可能导致心力衰竭或心律不齐(即心律失常)。肥厚型心肌病(HCM)是心肌病的主要类型，通常由肌节、细胞骨架和/或桥粒基因的基因突变引起。目前，除了移植外，这些心肌病还无法治愈。因此，医学界存在治疗这些心脏疾病的需求。

发明内容

本公开至少部分基于与成簇规则间隔短回文重复序列(CRISPR)-CRISPR相关蛋白9(Cas9)系统一起使用的引导RNA(gRNA)的发现，该系统通过碱基对编辑纠正基因突变，成功逆转了与家族性心肌病(如HCM)相关的表型。

本公开的一些方面提供了gRNA，其包含与SEQ ID NO:1或2的DNA核苷酸序列相对应的间隔序列。在一些方面，gRNA包含与SEQ ID NO:5或6具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的间隔序列。例如，在一些方面，gRNA可以包括包含SEQ ID NO:5或6或由其组成的间隔序列。

本公开的其他方面提供了融合蛋白，其包含与Cas9切口酶或失活的Cas9核酸内切酶共价连接的脱氨酶。

在各个方面，脱氨酶可以选自ABEmax、ABE8e、ABE7.10及其任意功能变体。在各个实例中，脱氨酶可以包含与SEQ ID NO：7、9和11中的任一个具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％序列同源性的氨基酸序列。例如，脱氨酶可以包含包括SEQ ID NO：7、9和11的氨基酸序列。在一些实施方案中，脱氨酶包含包括SEQ IDNO:7的氨基酸序列。

在本公开的各个方面，Cas9切口酶或失活的Cas9核酸内切酶选自SpRY、SpG、SpCas9-NG、SpCas9-VRQR或其变体。在一些方面，Cas9切口酶或失活的Cas9核酸内切酶包括与SEQ ID NO：15、17、19和21中的任一个具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％序列同源性的氨基酸序列。例如，Cas9切口酶或失活的Cas9核酸内切酶可以包含包括SEQ ID NO：15、17、19和21(SpRY、SpG、SpCas9-NG、SpCas9-VRQR)中任一个的氨基酸序列。在一些方面，Cas9切口酶或失活的Cas9核酸内切酶包含包括SEQ IDNO:15的氨基酸序列。

在本公开的任意方面，脱氨酶可以通过肽连接子与Cas9切口酶或失活的Cas9核酸内切酶共价连接。在一些方面，肽连接子包含包括SEQ ID NO:27的氨基酸序列。

在本文所述的任意融合蛋白中，脱氨酶和/或Cas9切口酶或失活的Cas9核酸内切酶进一步包含核定位信号(NLS)肽。在各个方面，核定位信号(NLS)肽可以选自SEQ ID NO31-42中的任意一个。在一些方面，核定位信号(NLS)肽可以包含SEQ ID NO:31或SEQ IDNO:32。

在本公开的任意方面，提供了一种融合蛋白，其包含与SEQ ID NO:45-60中的任一个具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％序列同源性的氨基酸序列。在一些方面，融合蛋白的氨基酸序列包含SEQ ID NO:45至60中的任一个或由SEQ ID NO:45至60中的任一个组成。在一些方面，融合蛋白的氨基酸序列包含SEQ IDNO:45或46(ABEmax-SpCas9_VRQR)或由SEQ ID NO:45或46(ABEmax-SpCas9_VRQR)组成。

本公开的其他方面提供了编码本文所述任意gRNA的分离核酸。其他方面提供了编码本文提供的融合蛋白的分离核酸。还提供了包含编码gRNA和/或融合蛋白或其片段的一种或多种核酸的病毒载体。在一些方面，提供了病毒载体对，其包含(a)第一病毒载体，该载体包含编码权利要求4至20中任一项所述的融合蛋白的第一片段的核酸；和(b)编码融合蛋白的第二片段的第二病毒载体，其中融合蛋白的第一片段和第二片段可以进行蛋白反式剪接以形成融合蛋白。在任意方面，第一和/或第二病毒载体可以进一步包含编码靶向SEQ IDNO:1或2的gRNA的核酸。

本公开的其他方面提供了药物组合物，该组合物包含本文提供的编码gRNA或融合蛋白(或其片段)的任意分离的核酸、本文提供的病毒载体和/或病毒载体对以及药学上可接受的载体、稀释剂和/或赋形剂。在一些方面，该药物组合物可以进一步包含脂质体。

本公开的其他方面提供了纠正细胞中MYH7基因突变的方法，该方法包括向细胞递送：Cas9切口酶或失活的Cas9核酸内切酶、脱氨酶和靶向选自SEQ ID NO.1或2中任一个的DNA核苷酸序列的gRNA，或编码Cas9切口酶或失活的Cas9核酸内切酶、脱氨酶和/或gRNA的一个或多个核酸，以实现MYH7基因内或其附近的一个或多个单链断裂(SSB)，导致MYH7基因内或附近的至少一个核苷酸的一种或多种突变，从而纠正MYH7基因的突变。在一些方面，该方法包括向细胞递送本文所述的核酸、病毒载体或病毒载体对。

本公开的进一步方面是在有需要的受试者中治疗由MYH7基因突变引起的心肌病的方法，该方法包括向表达MYH7基因的受试者中的至少一个细胞递送：RNA指导的DNA-切口酶、脱氨酶和靶向选自SEQ ID NO.1或2中任一个的DNA核苷酸序列的gRNA，或编码RNA指导的切口酶、脱氨酶和/或gRNA的一个或多个核酸，以在MYH7基因内或其附近实现一个或多个单链断裂(SSB)，导致MYH7基因内或附近的至少一个核苷酸的一种或多种突变，从而纠正受试者的至少一个细胞中MYH7基因的突变。在一些方面，该方法包括向受试者施用药物组合物，该药物组合物包含核酸或病毒载体，该病毒载体包含编码本文提供的一种或多种gRNA和/或融合蛋白的核酸。在各个方面，MYH7基因的突变包含一个或多个单核苷酸多态性，这些单核苷酸多态性导致该突变的MYH7基因编码的蛋白产物中的单个氨基酸置换。在各个方面，蛋白质产物可以是肌球蛋白或肽，单个氨基酸置换包含根据SEQ ID NO:96的R403Q。

本公开的另一些方面涉及基因编辑小鼠，该小鼠包含人核酸，该人核酸包含插入内源性小鼠Myh6基因内的MYH7 c.1208G>A(p.R403Q)人错义突变，以形成人源化突变Myh6等位基因。在一些方面，人核酸进一步包含与错义突变相邻且在其上游的第一多核苷酸，以及与错义突变相邻且在其下游的第二多核苷酸。在多个方面，第一多核苷酸包含约30至75个核苷酸、约35至约70个核苷酸、约40至约65个核苷酸、或约45至约60个核苷酸。在一些方面，第一多核苷酸包含55个核苷酸或由55个核苷酸组成。在一些方面，第二多核苷酸包含约10至30个核苷酸、约15至25个核苷酸、或约20至25个核苷酸。在另一些方面，第二多核苷酸包含21个核苷酸或由21个核苷酸组成。在多个方面，人核酸包含SEQ ID NO:97的核苷酸序列。在本文的任意方面中，小鼠的至少一个细胞表达突变的肌球蛋白，相对于包含SEQ IDNO:94的野生型肌球蛋白，该突变肌球蛋白包含R404Q置换。在另一些方面，小鼠还可以包含野生型Myh6等位基因，小鼠是人源化突变型Myh6等位基因杂合的。

附图说明

以下附图构成本说明书的一部分，用于进一步展示本公开内容的某些方面，参照附图并结合本文对具体实施方案的详细描述，可以更好地理解本公开的内容。以实施例的方式说明本发明构思的实施方案，其中相同的附图标记表示类似的元素，其中：

图1A-1C描绘了说明根据本公开的各个方面用于纠正人细胞中MYH7突变的示例性CRISPR-Cas9系统的代表性示意图和图表。图1A显示了说明gRNA设计的示例性概述的示意图，图1B显示了说明CRISPR-Cas9系统转染到人iPSC细胞的示例性概述的示意图，图1C显示了说明示例性CRISPR-Cas9系统用于纠正MYH7 R403Q突变的编辑效率的图表；

图2A和2B描绘了说明根据本公开的各个方面用于纠正人类细胞中MYH7突变的示例性CRISPR-Cas9系统的代表性示意图和图表，图2A显示了说明施用CRISPR-Cas9系统纠正MYH7 R403Q突变后的人iPSC细胞分化的示例性概述的示意图，图2B显示了描述施用CRISPR-Cas9系统纠正MYH7 R403Q突变后分化成心肌细胞的人iPSC细胞过强收缩下降的图表；

图3A和3B描绘了说明根据本公开的各个方面产生转基因小鼠品系以模拟人MYH7p.R403Q突变(图3A)，靶向小鼠肌球蛋白重链6(Myh6)基因内的相同的人致病性突变(图3B)的代表性示意图；

图4A-4E描绘了说明根据本公开的各个方面，野生型(WT；图4A)、403/+(图4B)和403/403小鼠(图4C)在P8发育阶段心脏表型的发育情况，以及野生型(WT；图4D)和403/+(图4E)小鼠出生6个月后心脏纤维化的情况的代表性图像；

图5描绘了说明根据本公开的各个方面，在人MYH7 p.R403Q突变的小鼠模型中用于纠正Myh6.R403Q突变的CRISPR-Cas9系统的代表性示意图；

图6A描绘了通过同源定向修复生成同基因HD^403/+和HD^403/403iPSC的代表性示意图；利用来自健康供体(HD^WT)的iPSC，通过使用SpCas9、sgRNA(间隔序列着色为绿色，PAM序列着色为金色)和含有突变的单链寡脱氧核苷酸(ssODN)供体模板的基于CRISPR-Cas9的同源性定向修复引入MYH7 p.R403Q(c.1208G>A)突变；分离出杂合基因型(HD^403/+)和纯合基因型(HD^403/403)；显示了针对指定基因型突出了突变插入和相应的氨基酸变化的色谱图；红色箭头表示403氨基酸中的编码核苷酸1208；

图6B描绘了显示高度同源的MYH6基因上没有突变插入的Sanger测序色谱图。红色箭头表示编码核苷酸1211和氨基酸404。

图6C描绘了图6A-6B中生成的iPSC衍生的心肌细胞的代表性图像。(α-肌动蛋白为绿色；细胞核用DAPI(4',6-二脒基-2-苯基吲哚)标记为蓝色)。比例尺，25μm；

图7A描绘了示例性sgRNA、h403_sgRNA如何可用于碱基编辑的方法，以纠正MYH7c.1208G>A(p.R403Q)的错义突变的示意图；具体来说，碱基编辑可以将突变的带中性电荷的谷氨酰胺转变回带正电荷的精氨酸，从而恢复肌球蛋白头部的正常功能；

图7B描绘了说明在一些示例性方法中，如何在纯合的MYH7c.1208G>AiPSC株系(HD^403/403)中使用候选h403_sgRNA筛选8个候选碱基编辑器变体将致病性腺嘌呤纠正为鸟嘌呤的效率的示意图；

图7C描绘了描绘HD^403/403iPSC转染候选碱基编辑器72小时后目标原间隔序列内所有腺嘌呤的DNA编辑效率的代表性柱形图，数据为三个技术重复的平均值±s.d.，编号以PAM第5'位的第一个碱基为1；目标突变腺嘌呤为A16位；

图8A描绘了对来自健康供体(HD)和两名HCM患者(HCM1和HCM2)的iPSC进行重编程，然后对HD株系进行突变敲入，并对HDM1和HCM2株系进行碱基编辑纠正的工作流程；分离出同基因克隆系，并分化成CM，用于iPSC-CM功能的下游分析；

图8B描绘了测量对目标原间隔序列h403_sgRNA中所有腺嘌呤残基的编辑的深度测序实验的结果，目标致病性腺嘌呤是A16；对经ABE处理的MYH7^403/+HCM1和MYH7^403/+HCM2iPSC进行了深度测序；

图8C描绘了来自HD、HCM1和HCM2患者的MYH7^403/+和MYH7^WT iPSC-CMs的峰值收缩力，**P<0.01，****P<0.0001(通过学生非配对双侧t检验)；

图8D描绘了在暴露于电子传递链复合体抑制剂寡霉素、羰基氰化间氯苯腙(CCCP)和抗霉素A(AntA)后，指定细胞系中氧消耗率(OCR)随时间的变化情况(上图)，以及指定细胞株的基础OCR(左下图)和最大OCR(右下图)在四个时间点的平均值和分布情况，***P<0.001，****P<0.0001(通过学生非配对双侧t检验)；

图9描绘了深度测序分析的结果，以测量前8个CRISPOR确定的候选脱靶基因座原间隔序列内58个腺嘌呤的编辑情况；

图10描绘了小鼠α-肌球蛋白重链(Myh6)和人β-肌球蛋白重链(MYH7)在谷氨酰胺403附近的氨基酸水平(上图)和DNA序列水平(下图)的同源性比较；h403_sgRNA表示为绿色，PAM序列表示为黄色；致病性c.1208G>A核苷酸位于第14-17位的规范碱基编辑窗口内，紧邻PAM的5'位的腺嘌呤核苷酸算作第1位；

图11A描绘了如何用含有p.R403Q突变的人MYH7序列置换部分天然小鼠Myh6基因组序列，从而产生人源化HCM小鼠模型；Sanger测序色谱图显示了天然Myh6^WT序列(上图)、人源化Myh6^h403/+小鼠模型序列(中图)和来自患者的iPSC株系序列(下图)；黄色方框表示敲入的人核苷酸；

图11B描绘了野生型(左)、杂合(中)和纯合基因型(右)的人源化小鼠模型在出生后第8天的大体组织学(上)和冠状(四腔)(中)和横向(下)切片的马松(Masson)三色染色，比例尺，1mm；

图11C描绘了野生型(左)和杂合(右)基因型的人源化小鼠模型在9月龄时心脏切片的马松三色、天狼猩红(Picrosirius red)和苏木精-伊红(hematoxylin&eosin)染色；比例尺：上图10×为1mm，中图10×为100μm，下图40×为25μm；

图12A描绘了编码ABEmax-VRQR碱基编辑器半部分和h403_sgRNA的靶向人MYH7p.R403Q突变的双AAV9 ABE系统的示意图；

图12B描绘了在P0期向Myh6^h403/+或Myh6^h403/+小鼠胸腔内注射生理盐水或双AAV9ABE并随后进行连续超声心动检查的实验概要；在小鼠5周龄时给予补充0.1％环孢素A的周氏饲料(Chow diet)，持续11周；

图12C-12H描绘了8-16周龄的Myh6^WT小鼠、Myh6^h403/+小鼠或ABE处理的Myh6^h403/+小鼠的舒张期左心室前壁厚度(C)、舒张期左心室后壁厚度(D)、舒张期左心室内径(E)和收缩期左心室内径(F)、射血分数(G)和分数缩短(H)，每组n＝5只；

图12I描绘了代表性的Myh6^WT小鼠、Myh6^h403/+小鼠或ABE处理的Myh6^h403/+小鼠的一系列横向切片(间隔500μm)的Masson三色染色，比例尺，1mm；

图12J-M描绘了12I中每个实验组n＝3-5只小鼠的心室横截面积(12J)、平均室壁厚度(12K)、心脏重量(HW)与胫骨长度(TL)之比(12L)、胶原面积百分比(12M)，数据为平均值±s.d.，*P<0.05，**P<0.01(通过学生非配对双侧t检验)；

图13A描绘了用ABE-AAV9或生理盐水处理Myh6^h403/h403小鼠的注射细节；

图13B是Myh6^WT小鼠(n＝7)、Myh6^h403/+小鼠(n＝8)、Myh6^h403/h403小鼠(n＝6)以及ABE处理的Myh6^h403/h403小鼠在低剂量(AAV低，n＝3)或高剂量(AAV高，n＝5)下的代表性Kaplan-Meier曲线；中位寿命：Myh6^WT和Myh6^h403/+小鼠，>40天；Myh6^h403/h403小鼠，7天；AAV低Myh6^h403 ^/h403小鼠，9天(1.3倍，P<0.05)；AAV高Myh6^h403/h403小鼠，15天(2.1倍，P<0.01)，*P<0.05，**P<0.01(通过Mantel-Cox检验)；

图13C描绘了Myh6^h403/h403小鼠和AAV高Myh6^h403/h403小鼠的Sanger测序色谱图，显示在cDNA水平对目标致病性腺嘌呤进行了35％的靶向编辑；

图13D描绘了15天龄的AAV高Myh6^h403/h403小鼠的四腔切片和Masson三色染色；

图14A描绘了在小鼠中注射双AAV9 ABE后测量基因组和转录组变化的示意图；从18周龄的Myh6^WT小鼠、Myh6h^403/+小鼠或经ABE处理的Myh6h^403/+小鼠中分离心肌细胞核，以评估基因组的纠正和转录组变化；

图14B描绘了AAV9 ABE双重处理后纠正致病性腺嘌呤核苷酸的DNA编辑效率，数据为平均值±s.d.；

图14C描绘了与Myh6^h403/+小鼠相比，经ABE处理的Myh6^h403/+小鼠表达的突变转录物的百分比，数据为平均值±s.d.，采用学生非配对双侧t检验，*P<0.05，每组n＝3个生物学重复；

图14D描绘了与经生理盐水处理的小鼠相比，经ABE处理的Myh6^h403/+小鼠的旁观者编辑，数据为平均值±s.d.，采用学生非配对双侧t检验，*P<0.05，每组n＝3个生物学重复；

图14E描绘了Myh6^WT小鼠、Myh6^h403/+小鼠和经ABE处理的Myh6^h403/+小鼠中A到I RNA编辑的全转录组核水平，数据为平均值±s.d；

图14F描绘了Myh6^WT或Myh6^h403/+小鼠与经ABE处理的Myh6^h403/+小鼠之间257个差异表达基因的热图；样本和基因按分层聚类排序，数据按每行的总和缩放，并以行最小值和行最大值显示，经ABE处理的Myh6^h403/+小鼠与Myh6^WT小鼠聚类；

图14G描绘了Myh6^h403/+小鼠和经ABE处理的Myh6^h403/+小鼠的Nppa mRNA表达的倍数变化，并相对于Myh6^WT小鼠进行了归一化；数据来自RNA-seq和qPCR，数据为平均值±s.d.，采用学生非配对双侧t检验，*P<0.05，每组n＝3个生物学重复；

图15A描绘了16周龄时的Myh6^WT小鼠、Myh6^h403/+小鼠或经ABE处理的Myh6^h403/+小鼠的代表性M型图像；

图15B-15D描绘了代表性的火山图，显示了Myh6^h403/+小鼠与Myh6^WT小鼠相比(图15B)、经ABE处理的Myh6^h403/+小鼠与Myh6^h403/+小鼠相比(图15C)以及经ABE处理的Myh6h^403/+小鼠与Myh6^WT小鼠相比(图15D)，上调(红色)和下调(蓝色)基因的倍数变化和p值。

具体实施方式

以下详细描述参考了说明本发明构思的各实施方案的附图。附图和说明书旨在充分详细地描述本发明构思的各个方面和实施方案，以便本领域技术人员能够实践本发明构思。在不脱离本发明构思范围的情况下，还可以使用其他组分并且可以进行改变。因此，以下描述不应被视为限制性的。本发明构思的范围仅由所附权利要求以及这些权利要求所享有的等同物的全部范围来界定。

本公开至少部分基于与成簇规则间隔短回文重复序列(CRISPR)-CRISPR相关蛋白9(Cas9)系统一起使用的引导RNA(gRNA)的发现，该系统通过碱基对编辑纠正基因突变，成功逆转了与家族性心肌病HCM相关的表型。在各个方面，本公开还提供了新型融合蛋白，其组合了脱氨酶和Cas9相关切口酶(例如，产生单链切口的核酸内切酶)来执行碱基对编辑以纠正这些基因突变。因此，本文提供了包含为CRISPR-Cas9系统设计的单引导RNA(sgRNA)的组合物及其用于预防、改善或治疗一种或多种心肌病的方法。还提供了包含与HCM相关的突变的小鼠模型，可用于测试本文提供的组合物和方法。

I.术语

本文所使用的措辞和术语仅用于描述目的，不应被视为是限制性的。例如，使用单数术语，如"一"，并不意在限制项目的数量。此外，在说明书中使用的关系术语，例如但不限于"顶部"、"底部"、"左"、"右"、"上方"、"下方"、"向下"、"向上"和"侧面"，是为了在具体参照图时的清楚，而不是为了限制本发明构思或所附权利要求的范围。

此外，由于本发明构思可用于多种不同形式的实施方案，因此本公开应被视为本发明构思的原理的示例，而不是将本发明构思限制在所示和所述的具体实施方案中。本发明构思的任何一个特征都可以单独使用或与任意其他特征组合使用。说明书中提及的术语"实施方案"和/或类似术语是指所提及的一个和/或多个特征至少包括在说明书的一个方面中。说明书中分别提及的术语"实施方案"和/或类似术语并不一定是指同一个实施方案，也不是相互排斥的，除非另有说明和/或本领域技术人员从说明书看是显而易见的。例如，一个实施方案中描述的特征、结构、过程、步骤、动作等也可以被包括(但不必然被包括)在其他实施方案中。因此，本发明构思可包括本文所述实施方案的各种组合和/或集成。此外，本文所描述的本公开的所有方面对于其实践并不是必需的。同样，本发明构思的其他系统、方法、特征和优点对于本领域的技术人员来说，在阅读附图和说明书后也将会或将变得显而易见。所有这样的附加系统、方法、特征和优点旨在被包括在本说明书中，属于本发明构思的范围，并由权利要求书所涵盖。

如本文所用，术语"约"可以指相对于所述值，如含量、剂量、温度、时间、百分比等，±10％、±9％、±8％、±7％、±6％、±5％、±4％、±3％、±2％或±1％。

术语"包含"、"包括"、"含有"和"具有"在本公开中可以互换使用。术语"包含"、"包括"、"含有"和"具有"是指包括，但不一定仅限于所述内容。

如本文所使用的术语"或"和"和/或"应解释为包括性的或是指任意一个或任意组合。因此，"A、B或C"或"A、B和/或C"指以下任意一种情况："A"、"B"或"C"；"A和B"；"A和C"；"B和C"；"A、B和C"。只有当要素、功能、步骤或动作的组合在某种程度上具有内在的互斥性时，本定义才会出现例外。

本文所用术语"治疗"(动词、动名词或名词形式等)，除非另有说明，可指逆转、减轻、抑制该术语所适用的疾病、病症或病况，或该疾病、病症或病况的一种或多种症状的进展，或预防该术语所适用的疾病、病症或病况，或该疾病、病症或病况的一种或多种症状，包括施用本文所述的任意组合物、药物组合物或剂型，以预防症状或并发症的发生，或减轻症状或并发症，或消除病况或病症。

术语"核酸"或"多核苷酸"是指单链或双链形式的脱氧核糖核酸(DNA)或核糖核酸(RNA)及其聚合物。除非特别限定，该术语包括含有天然核苷酸的已知类似物的核酸，其具有与参考核酸相似的结合特性，并且以与天然核苷酸相似的方式代谢。除非另有说明，特定的核酸序列还隐含地包含其保守修饰的变体(如简并密码子置换)、等位基因、直系同源物、SNP和互补序列以及明确指出的序列。具体来说，简并密码子置换可通过生成其中一个或多个选定(或全部)密码子的第三位被混合碱基和/或脱氧肌苷残基置换的序列来实现(Batzer等人，Nucleic Acid Res.19:5081(1991)；Ohtsuka等人，J.Biol.Chem.260:2605-2608(1985)；以及Rossolini等人，Mol.Cell.Probes 8:91-98(1994))。

术语"肽"、"多肽"和"蛋白质"可以互换使用，指的是由肽键共价连接的氨基酸残基组成的化合物。蛋白质或多肽必须包含至少两个氨基酸，并且对组成蛋白质或多肽序列的氨基酸的最大数量没有限制。多肽包括包含由两个或多个氨基酸通过肽键彼此连接而成的任意肽或蛋白质。如本文所用，该术语既指短链，在本领域通常也称为肽、寡肽和寡聚物等，也指长链，在本领域通常称为蛋白质，有多种类型。"多肽"包含例如生物活性片段、基本同源的多肽、寡肽、同源二聚体、异源二聚体、多肽变体、修饰多肽、衍生物、类似物、融合蛋白等。多肽包含天然多肽、重组多肽或它们的组合。

还应理解的是，除非明确指出相反的情况，否则在本文要求保护的包括大于一个步骤或动作的任意方法中，该方法的步骤或行为的顺序不一定限于该方法的步骤或行为的叙述顺序。

II.组合物

本公开提供了用于预防、改善或治疗一种或多种心肌病的组合物。在一些实施方案中，本文的组合物可以包含引导RNA(gRNA)。在一些实施方案中，本文中的组合物可以包含融合蛋白，该融合蛋白包含与RNA引导的核酸内切酶共价连接的脱氨酶。在一些实施方案中，本文中的组合物可以包含成簇规则间隔短回文重复序列(CRISPR)-CRISPR相关蛋白9(Cas9)系统。在一些实施方案中，本文的组合物可以包含AAV载体、AAV病毒颗粒或其组合，用于递送本文公开的gRNA和/或CRISPR-Cas9系统。在一些实施方案中，本文的组合物可以配制成一种或多种药物组合物。

(a)gRNA

一般而言，引导多核苷酸可以与相容的核酸引导的核酸酶复合，并可与靶序列杂交，从而将核酸酶引导至靶序列。能够与引导多核苷酸复合的主体核酸引导的核酸酶可称为与引导多核苷酸相容的核酸引导的核酸酶。此外，能够与核酸引导的核酸酶复合的引导多核苷酸可称为与核酸引导的核酸酶相容的引导多核苷酸或引导核酸。

在一些实施方案中，本文公开的工程化多核苷酸(gRNA)可被分成包含合成tracrRNA和crRNA的片段。在一些方面，本文中的gRNA可以包含与5'-CCT CAG GTG AAA GTGGGC AA-3'(SEQ ID NO:1)的核苷酸序列具有至少85％序列同一性(例如，约85％、约90％、约95％、约99％、约100％)的核酸序列。在一些方面，本文中的gRNA可以包含与5'-CCT CAGGTG AAG GTG GGC AA-3'(SEQ ID NO:2)的核苷酸序列具有至少85％序列同一性(例如，约85％、约90％、约95％、约99％、约100％)的核酸序列。在一些方面，本文中的gRNA可以包含与5'-CCU CAG GUG AAA GUG GGC AA-3'(SEQ ID NO:5)的核苷酸序列具有至少85％序列同一性(例如，约85％、约90％、约95％、约99％、约100％)的核酸序列。在一些方面，本文中的gRNA可以包含与5'-CCU CAG GUG AAG GUG GGG AA-3'(SEQ ID NO:6)的核苷酸序列具有至少85％序列同一性(例如，约85％、约90％、约95％、约99％、约100％)的核酸序列。在一些方面，本文中的gRNA可以包含5'-CCT CAG GTG AAAGTG GGC AA-3'(SEQ ID NO:1)的核酸序列。在一些方面，本文中的gRNA可以包含5'-CCT CAG GTG AAG GTG GGC AA-3'(SEQ ID NO:2)的核苷酸序列。在一些方面，本文中的gRNA可以包含CCU CAG GUG AAAGUG GGC AA-3'(SEQ ID NO:5)的核苷酸序列。在一些方面，本文中的gRNA可包含5'-CCU CAG GUG AAG GUGGGG AA-3'(SEQ ID NO:6)的核苷酸序列。

在一些实施方案中，本文中的gRNA可以包含经修饰的或非天然存在的核苷酸。在一些实施方案中，gRNA可以由本文公开的多核苷酸分子(如质粒、线性构建体或编辑框)上的DNA序列编码。在一些方面，gRNA可以由包含SEQ ID NO:1的DNA序列编码。在一些方面，RNA引导多核苷酸可以由包含SEQ ID NO:2的DNA序列编码。

在一些实施方案中，本文的引导多核苷酸(如gRNA)可以包含间隔序列。间隔序列是一种多核苷酸序列，它与靶标多核苷酸序列有足够的互补性以与靶标序列杂交，并指导复合的核酸引导的核酸酶与靶标序列的特异性结合。换句话说，gRNA分子的间隔序列可以理解为"靶向"DNA序列或"对应"DNA序列。当使用合适的比对算法进行最佳比对时，指导序列与其对应的靶序列之间的互补程度可以约为或大于约50％、约60％、约75％、约80％、约85％、约90％、约95％、约97.5％、约99％或更高。可以使用任意合适的序列比对算法来确定最佳比对。在一些实施方案中，本文中的引导序列长度可以约为或大于约5、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约21、约22、约23、约24、约25、约26、约27、约28、约29、约30、约35、约40、约45、约50、约75或更多个核苷酸。在其他实施方案中，本文的间隔序列的长度可以少于约75、约50、约45、约40、约35、约30、约25、约20个核苷酸。优选地，间隔序列的长度为10-30个核苷酸。在一些方面，本文的间隔序列的长度可以是15-20个核苷酸。

在一些实施方案中，本文的引导多核苷酸(如gRNA)可以包含支架序列。一般来说，"支架序列"可以包含具有足够序列以促进可靶向核酸酶复合物(例如CRISPR-Cas9系统)形成的任意序列，其中可靶向核酸酶复合物包含但不限于核酸引导的核酸酶，而引导多核苷酸可以包含支架序列和引导序列。支架序列内促进可靶向核酸酶复合物形成的足够序列可以包含支架序列内沿两个序列区长度方向的互补程度，例如参与形成二级结构的一个或两个序列区。在一些方面，一个或两个序列区可以由同一多核苷酸包含或编码。在一些方面，一个或两个序列区可以由不同的多核苷酸包含或编码。最佳比对可由任意合适的比对算法确定，并可进一步考虑二级结构，如一个或两个序列区内的自身互补性。在一些实施方案中，当最佳比对时，一个或两个序列区之间沿着两个序列区中较短序列区的长度的互补性程度可以约为或大于约25％、约30％、约40％、约50％、约60％、约70％、约80％、约90％、约95％、约97.5％、约99％或更高。在一些实施方案中，两个序列区中至少一个的长度可以是约或大于约5、约6、约7、约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约25、约30、约40、约50或更多个核苷酸。

在一些实施例中，本文中的受试者引导多核苷酸的支架序列可以包含二级结构。在一些实施方案中，二级结构可以包含假结区。在一些实施方案中，本文中的引导多核苷酸与核酸引导的核酸酶的结合动力学部分地由支架序列内的二级结构决定。在一些实施方案中，本文中的引导多核苷酸与核酸引导的核酸酶的结合动力学部分地由具有支架序列的核酸序列决定。

在一些实施方案中，可以将间隔序列突变引入质粒，以测试何时产生了替代gRNA序列或产生了缺失或插入突变体。这些质粒构建体(例如，具有缺失、置换或插入的质粒构建体)中的每一种都可以用于测试基因组编辑的准确性和效率。或者，在一些实施方案中，可以通过观察预设时间段内的编辑效率来测试本文所公开的组合物和方法所产生的gRNA构建体对选定靶标的最佳基因组编辑时间。根据这些实施方案，可以测试由本文公开的组合物和方法产生的gRNA构建体的最佳基因组编辑窗口，以优化编辑效率和准确性。

用于本文公开的工程化gRNA的靶标多核苷酸的实例可以包含与信号转导生化通路相关的序列/基因或基因片段，如信号转导生化通路相关基因或多核苷酸。本文考虑的其它实施方案涉及本文公开的用于工程化gRNA的靶标多核苷酸实例，可以包含与疾病相关基因或多核苷酸有关的靶标多核苷酸。

"疾病相关的"或"病症相关的"的基因或多核苷酸可以指与对照相比导致转录或翻译产物处于异常水平，或与非疾病对照的组织或细胞相比导致来自受疾病影响组织的细胞中的异常形式的任意基因或多核苷酸。它可以是一个以异常高水平表达的基因；也可以是一个以异常低水平表达的基因，或者该基因含有一个或多个突变，并且突变基因的表达的改变或表达与健康状况或病症的发生和/或进展直接相关。疾病或病症相关的基因可以指具有直接导致疾病或病症原因或进展、或者与导致疾病或病症的原因或进展的基因连锁不平衡的突变或遗传变异的基因。转录或翻译的产物可以是已知的，也可以是未知的，可以处于正常或异常水平。

在一些实施方案中，本文公开的gRNA可以靶向与心肌病相关基因或多核苷酸有关的多核苷酸。在一些方面，心肌病相关基因或多核苷酸可以是HCM相关基因或多核苷酸。在一些实施方案中，本文公开的gRNA可以靶向与心肌病相关基因有关的多核苷酸，如但不限于TTN、MYH7、MYH6、MYPN、TNNT2、TPM1或其任意组合。在一些方面，本文公开的gRNA可以靶向与一个或多个心肌病相关基因如MYH7、MYBPC3、TNNC1或其组合相关的多核苷酸。

在一些实施方案中，本文公开的gRNA可以靶向与心肌病相关基因有关的多核苷酸或具有一个或多个突变的多核苷酸。在一些实施方案中，本文公开的gRNA可以靶向与具有一个或多个突变的心肌病相关基因有关的多核苷酸，其中心肌病相关基因可以是TTN、MYH7、MYH6、MYPN、TNNT2、TPM1或其任意组合。在一些方面，本文公开的gRNA可以靶向与具有一个或多个突变的心肌病相关基因有关的多核苷酸，其中心肌病相关基因可以是MYH7或其组合。在一些实例中，本文公开的gRNA可以靶向与MYH7基因或其哺乳动物等效基因中的R403Q突变有关的多核苷酸。

(b)碱基编辑器

碱基编辑已成为用于纠正和潜在治疗遗传性疾病的具有吸引力的方法。碱基编辑器是Cas9切口酶或失活的Cas9与脱氨酶蛋白的融合蛋白，可在与单引导RNA(sgRNA)的原间隔序列邻近基序(PAM)位点相关的定义编辑窗口内进行碱基对编辑，而无需双链断裂。腺嘌呤碱基编辑器(ABE)使用脱氧腺苷脱氨酶，通过肌苷中间体将DNA的A-T碱基对转换为G-C碱基对，此前已被证明在体内和体外的许多有丝分裂后细胞中发挥作用。

因此，在一些实施方案中，本文中的组合物进一步包含融合蛋白，该融合蛋白包含脱氨酶和Cas9切口酶或失活的Cas9核酸内切酶。下文将更详细地描述合适的脱氨酶和Cas9切口酶或失活的Cas9核酸内切酶。在一些方面，融合蛋白可以进一步包含连接脱氨酶和RNA引导的核酸内切酶的柔性肽连接子。在其他方面，融合蛋白中还可包含其他辅助组件(如核定位序列)。

在一些实施方案中，本文提供的碱基编辑器可以作为重组融合蛋白，包含一个或多个蛋白结构域，从而产生碱基编辑器。在一些实施方案中，本文提供的碱基编辑器包含一种或多种提高碱基编辑器蛋白的碱基编辑活性(如效率、选择性和/或特异性)的特征。例如，本文提供的碱基编辑器蛋白可以包含具有降低核酸酶活性的Cas9结构域。在一些实施方案中，本文提供的碱基编辑器蛋白可以具有没有核酸酶活性的Cas9结构域(dCas9)，或者切割双链DNA分子的一条链的Cas9结构域，称为Cas9切口酶(nCas9)。在不希望受任何特定理论约束的情况下，催化残基(如H840)的存在可以保持Cas9的活性，以切割含有与靶标A相对的T的非编辑(如非脱氨基)链。Cas9的催化残基(例如，D10至A10)的突变防止含有靶标A残基的编辑链被切割。这种Cas9变体能够根据gRNA定义的靶序列，在特定位置产生单链DNA断裂(缺口)，导致非编辑链的修复，最终使非编辑链上的T转变为C。

(i)脱氨酶

在不同方面，融合蛋白包含作为腺嘌呤碱基编辑器(ABE)的脱氨酶。可用于复合物的合适脱氨酶有ABE-max、ABE8e或ABE7.10。为便于参考，表1和表2提供了编码这些示例性脱氨酶的氨基酸序列和核酸序列。此外，还包括包含核定位信号(NLS)的示例性脱氨酶序列(各表中均以下划线和粗体表示)，下文将详细讨论。

在各个方面，脱氨酶包含与SEQ ID NO：7、9和11中任一个具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％序列同源性的氨基酸序列。在各个方面，脱氨酶包含SEQ ID NO：7、9和11中任一个的氨基酸序列。在一些方面，脱氨酶包含SEQ ID NO:7的氨基酸序列。在一些方面，脱氨酶包含SEQ ID NO:9的氨基酸序列。在一些方面，脱氨酶包含SEQ ID NO:11的氨基酸序列。

在不同方面，脱氨酶还包含核定位信号(NLS)。合适的核定位信号如下所述。在一些方面，核定位信号包含MKRTADGSEFESPKKRKV(SEQ ID NO:31)。在一些方面，进一步包含NLS的脱氨酶包含与SEQ ID NO:8或10中的任一个具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％序列同源性的氨基酸序列。在各个方面，进一步包含NLS的脱氨酶包含SEQ ID NO:8或10的氨基酸序列。在各个方面，进一步包含NLS的脱氨酶包含SEQ ID NO:8的氨基酸序列。在各个方面，进一步包含NLS的脱氨酶包含SEQ ID NO:10的氨基酸序列。

表1-示例性脱氨酶(氨基酸)

/>

在各个方面，脱氨酶由包含SEQ ID NO：12、13、14、28、74和75中的任一种核酸编码。如下表2所示，SEQ ID NO：12、13和28对应于进一步包含核定位信号(NLS)的ABEmax和ABE8e，其中编码NLS的序列在下表中以粗体和下划线表示。SEQ ID NO：74、75和14分别对应于不含核定位信号的ABEmax、ABE8e和ABE7.10。在一些方面，本文提供的融合蛋白中的脱氨酶由包含SEQ ID NO:12或74的核酸编码。在一些方面，本文提供的融合蛋白中的脱氨酶由包含SEQ ID NO:13或75的核酸编码。在一些方面，本文提供的融合蛋白中的脱氨酶由包含SEQ ID NO:14或28的核酸编码。

表2-示例性脱氨酶(核酸)

/>

(ii)Cas9切口酶或失活的Cas9核酸内切酶

在各个方面，本文使用的融合蛋白(如碱基编辑器)包含Cas9切口酶或失活的Cas9核酸内切酶。这些蛋白质来源于CRISPR-Cas9系统，该系统是原核生物中天然存在的防御机制，已被重新用作RNA引导的DNA靶向平台，用于基因编辑。CRISPR-Cas9系统依靠DNA核酸酶Cas9和两种非编码RNA，即crisprRNA(crRNA)和反式激活RNA(tracrRNA)(即gRNA)来靶向切割DNA。CRISPR是Clustered Regularly Interspaced Short Palindromic Repeats的缩写，是在细菌和古细菌基因组中发现的DNA序列家族，其包含与先前暴露在细胞中的外来DNA(例如通过感染或攻击原核生物的病毒)相似的DNA片段(间隔序列DNA)。原核生物利用这些DNA片段来检测和破坏例如来自类似病毒在后续攻击期间再次引入的类似外来DNA。CRISPR基因座的转录导致形成包含间隔序列的RNA分子，它与能够识别和切割外来、外源DNA的Cas(CRISPR相关)蛋白结合并将其作为靶标。已描述了许多类型和类别的CRISPR-Cas系统(参见，例如，Koonin等人，(2017)Curr Opin Microbiol 37:67-78)。

crRNA通常通过与靶标DNA中的20个核苷酸(nt)序列进行沃森-克里克碱基配对来驱动CRISPR-Cas9复合物的序列识别和特异性。改变crRNA中5'20nt的序列，可以将CRISPR-Cas9复合物靶向特定位点。CRISPR-Cas9复合物只与包含与crRNA前20nt序列匹配序列的DNA序列结合，前提是靶标序列后跟有被称为原间隔序列邻近基序(PAM)的特定短DNA基序(序列为NGG)。TracrRNA与crRNA的3'端杂交，形成RNA双链体结构，该结构与Cas9核酸内切酶结合，形成具有催化活性的CRISPR-Cas9复合物，然后可以切割靶标DNA。一旦CRISPR-Cas9复合物与靶标位点的DNA结合，Cas9酶中两个独立的核酸酶结构域就会分别切割PAM位点上游的DNA链之一，留下双链断裂(DSB)，其中DNA的两条链都以碱基对(平端)终止。CRISPR-Cas9复合物与特定靶标位点的DNA结合并形成位点特异性DSB后，下一个关键步骤就是修复DSB。细胞利用两种主要的DNA修复途径来修复DSB：非同源末端连接(NHEJ)和同源定向修复(HDR)。

NHEJ是一种稳健的修复机制，其在大多数细胞类型(包括非分裂细胞)中表现出高度活性。NHEJ容易出错，经常可能导致DSB位点去除或添加一到数百个核苷酸，尽管此类修饰通常小于20nt。由此产生的插入和缺失(indel)会破坏基因的编码或非编码区。或者，HDR使用内源或外源提供的长段同源供体DNA来高保真地修复DSB。HDR只在分裂细胞中活跃，在大多数细胞类型中发生的频率相对较低。在本公开的许多实施方案中，NHEJ被用作修复操作物。

在一些实施方案中，Cas9(CRISPR相关蛋白9)核酸内切酶可用在本文所述的CRISPR方法中，用于预防、改善或治疗本文所述的一种或多种心肌病。本文所用的"Cas9分子"是指能与gRNA分子相互作用并与gRNA分子协同定位(如靶向或原位)到包含靶序列和PAM序列的位点的分子。已知Cas9蛋白存在于许多CRISPR系统中，包括但不限于海沼甲烷球菌(Methanococcus maripaludis)；白喉棒状杆菌(Corynebacterium diphtheriae)；高效棒状杆菌(Corynebacterium efficiens)；谷氨酸棒状杆菌(Corynebacteriumglutamicum)；克罗彭施泰特棒状杆菌(Corynebacterium kroppenstedtii)；脓肿分枝杆菌(Mycobacterium abscessus)；鼻疽诺卡氏菌(Nocardia farcinica)；红平红球菌(Rhodococcus erythropolis)；约斯特红球菌(Rhodococcus jostii)；浑浊红球菌(Rhodococcus opacus)；解纤维素热酸菌(Acidothermus cellulolyticus)；氯酚节杆菌(Arthrobacter chlorophenolicus)；黄色高丽菌(Kribbella flavida)；弯曲高温单孢菌(Thermomonospora curvata)；齿双歧杆菌(Bifidobacterium dentium)；长双歧杆菌(Bifidobacterium longum)；Slackia heliotrinireducens；Persephonella marina；脆弱拟杆菌(Bacteroides fragilis)；赭二氧化碳噬菌体(Capnocytophaga ochracea)；嗜冷黄杆菌(Flavobacterium psychrophilum)；嗜粘液阿克曼氏菌(Akkermansia muciniphila)；卡氏红弯曲菌(Roseiflexus castenholzii)；红弯曲菌(Roseiflexus)；集胞藻属(Synechocystis)；Elusimicrobium minutum；产琥珀酸丝状杆菌(Fibrobactersuccinogenes)；蜡样芽孢杆菌(Bacillus cereus)；无害李斯特菌(Listeria innocua)；干酪乳杆菌(Lactobacillus casei)；鼠李糖乳杆菌(Lactobacillus rhamnosus)；唾液乳杆菌(Lactobacillus salivarius)；无乳链球菌(Streptococcus agalactiae)；停乳链球菌似马亚种(Streptococcus dysgalactiae equisimilis)；马链球菌兽疫亚种(Streptococcus equi zooepidemicus)；解没食子酸链球菌(Streptococcusgallolyticus)；戈登氏链球菌(Streptococcus gordonii)；变异链球菌(Streptococcusmutans)；化脓性链球菌(Streptococcus pyogenes)；化脓性链球菌M1 GAS(Streptococcuspyogenes M1 GAS)；化脓性链球菌MGAS5005(Streptococcus pyogenes MGAS5005)；化脓性链球菌MGAS2096(Streptococcus pyogenes MGAS2096)；化脓性链球菌MGAS9429(Streptococcus pyogenes MGAS9429)；化脓性链球菌MGAS10270(Streptococcuspyogenes MGAS10270)；化脓性链球菌MGAS6180(Streptococcus pyogenes MGAS6180)；化脓性链球菌MGAS315(Streptococcus pyogenes MGAS315)；化脓性链球菌SSI-1(Streptococcus pyogenes SSI-1)；化脓性链球菌MGAS10750(Streptococcus pyogenesMGAS10750)；化脓性链球菌NZ131(Streptococcus pyogenes NZ131)；嗜热链球菌CNRZ1066(Streptococcus thermophiles CNRZ1066)；嗜热链球菌LMD-9(Streptococcusthermophiles LMD-9)；嗜热链球菌LMG 18311(Streptococcus thermophiles LMG18311)；金黄色葡萄球菌(Staphylococcus aureus)；耳葡萄球菌(Staphylococcusauricularis)；(Staphylococcus lutrae)；路邓葡萄球菌(Staphylococcuslugdunensis)；肉毒梭菌A3 Loch Maree(Clostridium botulinum A3 Loch Maree)；肉毒梭菌B Eklund 17B(Clostridium botulinum B Eklund 17B)；肉毒梭菌Ba4 657(Clostridium botulinum Ba4 657)；肉毒梭菌F Langeland(Clostridium botulinumFLangeland)；解纤维梭菌H10(Clostridium cellulolyticum H10)；大芬戈尔德菌ATCC29328(Finegoldia magna ATCC 29328)；直肠真杆菌ATCC 33656(Eubacterium rectaleATCC 33656)；鸡毒支原体(Mycoplasma gallisepticum)；移动支原体163K(Mycoplasmamobile 163K)；穿透支原体(Mycoplasma penetrans)；滑液支原体53(Mycoplasmasynoviae53)；念珠状链杆菌DSM 12112(Streptobacillus moniliformis DSM 12112)；慢生根瘤菌BTAi1(Bradyrhizobium BTAi1)；汉氏硝化细菌X14(Nitrobacter hamburgensisX14)；沼泽红假单胞菌BisB18(Rhodopseudomonas palustris BisB18)；沼泽红假单胞菌BisB5(Rhodopseudomonas palustris BisB5)；食清洁剂细小棒菌DS-1(Parvibaculumlavamentivorans DS-1)；Dinoroseobacter shibae DFL 12；固氮葡糖醋杆菌Pal 5FAPERJ(Gluconacetobacter diazotrophicus Pal 5FAPERJ)；固氮葡糖醋杆菌Pal 5JGI(Gluconacetobacter diazotrophicus Pal5JGI)；固氮螺菌B510 uid46085(AzospirillumB510 uid46085)；深红红螺菌ATCC 11170(Rhodospirillum rubrum ATCC 11170)；有益杆菌TPSY uid29975(Diaphorobacter TPSY uid29975)；Verminephrobacter eiseniaeEF01-2；脑膜炎奈瑟氏菌053442(Neisseria meningitides 053442)；脑膜炎奈瑟氏菌α14(Neisseria meningitides alpha14)；脑膜炎奈瑟氏菌Z2491(Neisseria meningitidesZ2491)；需盐脱硫弧菌DSM 2638(Desulfovibrio salexigens DSM 2638)；空肠弯曲菌doylei 269 97(Campylobacter jejuni doylei 269 97)；空肠弯曲菌81116(Campylobacter jejuni 81116)；空肠弯曲菌(Campylobacter jejuni)；拉氏弯曲菌RM2100(Campylobacter lari RM2100)；肝螺杆菌(Helicobacter hepaticus)；产琥珀酸沃林氏菌(Wolinella succinogenes)；奥湖甲苯单胞菌DSM 9187(Tolumonas auensis DSM9187)；大西洋假交替单胞菌T6c(Pseudoalteromonas atlantica T6c)；Shewanellapealeana ATCC 700345；Legionella pneumophila Paris；产琥珀酸放线杆菌130Z(Actinobacillus succinogenes 130Z)；多杀性巴氏杆菌(Pasteurella multocida)；土拉弗氏菌novicida U112(Francisella tularensis novicida U112)；土拉弗氏菌holarctica(Francisella tularensis holarctica)；土拉弗氏菌FSC 198(Francisellatularensis FSC 198)；土拉弗氏菌(Francisella tularensis)；土拉弗氏菌WY96-3418(Francisella tularensis WY96-3418)；以及齿垢密螺旋体ATCC 35405(Treponemadenticola ATCC 35405)等。

在各种实施方案中，改进的碱基编辑器可以包含核酸酶失活的Cas蛋白，其可互换地称为"dCas"或"dCas9"蛋白(指核酸酶"死亡"的Cas9)。或者，本文中使用的核酸酶失活的Cas9蛋白可称为"失活的Cas9"。产生具有无活性DNA切割结构域的Cas9蛋白(或其片段)的方法是已知的(例如，参见Jinek等人，Science.337:816-821(2012)；Qi等人，"RepurposingCRISPR as an RNA-Guided Platform for Sequence-Specific Control of GeneExpression(将CRISPR重新用作RNA引导的基因表达序列特异性控制平台)"(2013)Cell.28；152(5):1173-83，其全部内容通过引用并入本文)。例如，已知Cas9的DNA切割结构域包含两个亚结构域，即HNH核酸酶亚结构域和RuvCl亚结构域。HNH亚结构域切割与gRNA互补的链，而RuvCl亚结构域切割非互补链。这些亚结构域内的突变可以沉默Cas9的核酸酶活性。例如，D10A和H840A的突变会使化脓性链球菌Cas9的核酸酶活性完全失活(Jinek等人，Science.337:816-821(2012)；Qi等人,Cell.28；152(5):1173-83(2013))。在一些实施方案中，提供了包含Cas9片段的蛋白质。例如，在一些实施方案中，蛋白质包含两个Cas9结构域之一：(1)Cas9的gRNA结合结构域；或(2)Cas9的DNA切割结构域。

在一些实施方案中，包含Cas9或其片段的蛋白质被称为"Cas9变体"。Cas9变体与Cas9或其片段具有同源性。例如，Cas9变体与野生型Cas9至少约70％相同、至少约80％相同、至少约90％相同、至少约95％相同、至少约96％相同、至少约97％相同、至少约98％相同、至少约99％相同、至少约99.5％相同或至少约99.9％相同。在一些实施方案中，与野生型Cas9相比，Cas9变体可以具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个氨基酸变化。在一些实施方案中，Cas9变体包含Cas9的片段(例如，gRNA结合结构域或DNA切割结构域)，使得该片段与野生型Cas9的相应片段相比至少约70％相同、至少约80％相同、至少约90％相同、至少约95％相同、至少约96％相同、至少约97％相同、至少约98％相同、至少约99％相同、至少约99.5％相同或至少约99.9％相同。在一些实施方案中，该片段与相应野生型Cas9的氨基酸长度至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％相同。

在一些实施方案中，Cas9片段的长度为至少100个氨基酸。在一些实施方案中，该片段的长度为至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250或至少1300个氨基酸。在一些实施方案中，野生型Cas9对应于来自化脓性链球菌的Cas9(NCBI参考序列：NC_0l7053.l)。在其他实施方案中，野生型Cas9对应于来自化脓性链球菌的Cas9(NCBI参考序列：NC_002737.2)。在另一些实施方案中，Cas9对应于或部分或全部包含具有使Cas9核酸酶活性失活的一个或多个突变的Cas9氨基酸序列。

在一些实施方案中，Cas9结构域包含D10A突变，而相对于野生型序列，例如来自化脓链球菌的Cas9(NCBI参考序列：NC_0l7053.l)，为位于840位的残基。不希望受任何特定理论约束，催化残基H840的存在恢复了Cas9的活性，使其能够切割含有与靶标C相对的G的非编辑(例如非脱氨)链。H840(例如自A840)的恢复不会导致包含所述C的靶标链的切割。这种Cas9变体能够根据gRNA定义的靶序列在特定位置产生单链DNA断裂(缺口)，从而修复非编辑链。在腺苷碱基编辑器的情况下，腺苷(A)被脱氨基为肌苷(I)，非编辑链(包含与脱氨基A碱基配对的T)被切割，有利于去除与脱氨基A碱基配对的T，导致A-T碱基对突变为G-C碱基对。对含有T的非编辑链进行切割，有利于通过错配修复机制去除T。

在其他实施方案中，提供了具有除D10A和H840A以外的突变的dCas9变体，其例如导致核酸酶失活的Cas9(dCas9)。举例来说，相对于野生型序列、例如来自化脓性链球菌的Cas9(NCBI参考序列：NC_0l7053.l.)，此类突变包含D10和H820处的其他氨基酸置换，或在Cas9的核酸酶结构域内的其他置换(例如，HNH核酸酶亚结构域和/或RuvCl亚结构域中的置换)。在一些实施方案中，提供了dCas9的变体或同源物(例如，来自化脓性链球菌的Cas9的变体(NCBI参考序列：NC_0l7053.l))，其与NCBI参考序列NC_0l7053.l至少约70％相同、至少约80％相同、至少约90％相同、至少约95％相同、至少约98％相同、至少约99％相同、至少约99.5％相同或至少约99.9％相同。在一些实施方案中，提供了dCas9的变体(例如，NCBI参考序列：NC_0l7053.l的变体)，其氨基酸序列比NC_0l7053.l短或长约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。

在一些实施方案中，本文提供的碱基编辑器包含Cas9蛋白的全长氨基酸序列，例如本文提供的Cas9序列之一。然而，在其他实施方案中，本文提供的融合蛋白并不包含全长的Cas9序列，而仅包含其片段。例如，在一些实施方案中，本文提供的Cas9融合蛋白包含Cas9片段，其中该片段结合crRNA和tracrRNA或sgRNA，但不包含功能性核酸酶结构域，例如，它只包含核酸酶结构域的截短形式或根本不包含核酸酶结构域。本文提供了合适的Cas9结构域和Cas9片段的示例性氨基酸序列，其他合适的Cas9结构域和片段序列对于本领域技术人员来说也是显而易见的。

应当理解的是，包含其变体和同源物在内的其它Cas9蛋白也在本公开的范围之内。PCT申请公开WO2020051360A1公开了一些合适的Cas9变体、切口酶和失活的Cas9蛋白，其全文通过引用并入本文。示例性Cas9蛋白包括但不限于下文提供的那些。下表3和表4提供了这些示例性切口酶或失活的Cas9蛋白的示例性氨基酸序列和编码核酸序列。

在各个方面，Cas9切口酶或失活的Cas9核酸内切酶选自SPRY、SpG、SpCas9-NG、SpCas9-VRQR或其变体。在各个方面，Cas9切口酶或失活的Cas9核酸内切酶包含与SEQ IDNO：15、17、19和21中的任一个具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％序列同源性的氨基酸序列。例如，在一些方面，Cas9切口酶或失活的Cas9核酸内切酶包含包括SEQ ID NO：15、17、19和21中任一个的氨基酸序列。在一些方面，Cas9切口酶或失活的Cas9核酸内切酶包含包括SEQ ID NO:15的氨基酸序列。在一些方面，Cas9切口酶或失活的Cas9核酸内切酶包含包括SEQ ID NO:17的氨基酸序列。在一些方面，Cas9切口酶或失活的Cas9核酸内切酶包含包括SEQ ID NO:19的氨基酸序列。在一些方面，Cas9切口酶或失活的Cas9核酸内切酶包含包括SEQ ID NO:21的氨基酸序列。

在各个方面，Cas9切口酶或失活的Cas9核酸内切酶可以进一步包含核定位信号。在一些方面，核定位信号包含KRTADGSEFEPKKRKV(SEQ ID NO:32)。在一些方面，核定位信号通过短肽连接子与Cas9切口酶或失活的Cas9核酸内切酶连接。因此，在一些方面，通过连接子包含NLS的Cas9切口酶或失活的Cas9核酸内切酶可以包含与SEQ ID NO：16、18、20和22中的任一个具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％序列同源性的氨基酸序列。在一些方面，通过连接子包含NLS的Cas9切口酶或失活的Cas9核酸内切酶可以包含包括SEQ ID NO：16、18、20和22中任一个的氨基酸序列。在各个方面，通过连接子包含NLS的Cas9切口酶或失活的Cas9核酸内切酶可以包含SEQ ID NO:16的氨基酸序列。在各个方面，通过连接子包含NLS的Cas9切口酶或失活的Cas9核酸内切酶可以包含SEQID NO：18的氨基酸序列。在各个方面，通过连接子包含NLS的Cas9切口酶或失活的Cas9核酸内切酶可以包含SEQ ID NO:20的氨基酸序列。在各个方面，通过连接子包含NLS的Cas9切口酶或失活的Cas9核酸内切酶可以包含SEQ ID NO:22的氨基酸序列。

表3-示例性的SpCas9切口酶或失活的Cas9核酸内切酶

/>

在各个方面，SpCas9切口酶或失活的Cas9核酸内切酶由包含SEQ ID NO：23-26、83和100-102中任一种的核酸编码。如下表4所示，SEQ ID NO：23-26对应于SpCas9-VRQR、SpRY、SpG和SpCas9-NG，每个序列进一步包含通过编码连接子的核酸连接到每个核酸3'端的核定位信号(NLS)。在这些序列的每一个中，编码连接子的核酸加下划线表示，编码NLS的核酸加粗表示。SEQ ID NO:83和100-102编码相同的蛋白质(SpCas9-VRQR、SpRY、SpG和SpCas9-NG)，但不含连接子或NLS。

在一些方面，本文提供的融合蛋白中的SpCas9切口酶或失活的Cas9核酸内切酶由包含SEQ ID NO:83的核酸编码。在一些方面，本文提供的融合蛋白中的SpCas9切口酶或失活的Cas9核酸内切酶由包含SEQ ID NO:100的核酸编码。在一些方面，本文提供的融合蛋白中的SpCas9切口酶或失活的Cas9核酸内切酶由包含SEQ ID NO:101的核酸编码。在一些方面，本文提供的融合蛋白中的SpCas9切口酶或失活的Cas9核酸内切酶由包含SEQ ID NO:102的核酸编码。

在一些方面，本文提供的融合蛋白中的SpCas9切口酶或失活的Cas9核酸内切酶进一步包含核定位信号(NLS)，并由包含SEQ ID NO:23的核酸编码。在一些方面，本文提供的融合蛋白中的SpCas9切口酶或失活的Cas9核酸内切酶进一步包含核定位信号(NLS)，并由包含SEQ ID NO:24的核酸编码。在一些方面，本文提供的融合蛋白中的SpCas9切口酶或失活的Cas9核酸内切酶进一步包含核定位信号(NLS)，并由包含SEQ ID NO:25的核酸编码。在一些方面，本文提供的融合蛋白中的SpCas9切口酶或失活的Cas9核酸内切酶进一步包含核定位信号(NLS)，并由包含SEQ ID NO:26的核酸编码。

表4-编码SpCas9切口酶或失活的SpCas9的示例性核酸

/>

在一些实施方案中，本文中的Cas9酶可以来自链球菌、葡萄球菌或其变种。应当理解的是，可以使用野生型Cas9，也可以使用本文提供的改良版Cas9(例如，进化版Cas9或Cas9同源物或变体)。在一些方面，本文中的Cas9酶可以是化脓性链球菌Cas9(SpCas9)的变体。在一些方面，本文中的Cas9酶可以是与NGG PAM兼容的化脓性链球菌Cas9(SpCas9)变体。典型的PAM是序列5'-NGG-3'，其中"N"是任意核碱基，后面跟两个鸟嘌呤("G")核碱基。在一些方面，本文中的Cas9酶可以是与非NGG PAM兼容的化脓性链球菌Cas9(SpCas9)变体。在一些方面，本文中的Cas9酶可以是与选自TGAG和/或CGAG的非NGG PAM兼容的化脓性链球菌Cas9(SpCas9)变体。在一些方面，本文中的Cas9酶可以是腺嘌呤碱基编辑器(ABE)的变体ABEmax，它使用与非NGG PAM兼容的化脓性链球菌Cas9(SpCas9)变体。在一些实例中，本文中的Cas9酶可以是ABEmax-SpCas9-NG。

在一些实施方案中，活性Cas9分子与靶标核酸相互作用并切割靶标核酸的能力取决于PAM序列。PAM序列是靶标核酸中的序列。在一些实施方案中，本文的PAM可以具有与TGAG或CGAG的核苷酸序列具有至少85％(例如，约85％、90％、95％、99％、100％)序列同一性的多核苷酸序列。在一些实施方案中，本文的PAM可以具有TGAG或CGAG的核苷酸序列。在一些实施方案中，靶标核酸的切割发生在PAM序列的上游。来自不同细菌物种的活性Cas9分子可以识别不同的序列基序(如PAM序列)。在一些实施方案中，化脓性链球菌的活性Cas9分子可以识别序列基序"NGG"，并引导切割该序列上游1至10个碱基对(如3至5个碱基对)的靶标核酸序列。在一些实施方案中，化脓性链球菌的活性Cas9分子可以识别非NGG序列基序，并引导切割该序列上游1至10个(如3至5个)碱基对的目标核酸序列。

(iii)融合蛋白中的其他元件

在各个方面，融合蛋白可包含一个或多个附加元件。在不同的实例中，融合蛋白可以进一步包含肽连接子，用来例如将脱氨酶和SpCas9切口酶或失活的Cas9核酸内切酶共价连接，或将每个蛋白与一个或多个核定位信号连接。同样，核定位信号是可以作为脱氨酶和/或SpCas9切口酶或失活的Cas9核酸内切酶的一部分被包含在融合蛋白中的附加元件。

因此，在各个方面，融合蛋白还包含柔性肽连接子。下表58提供了合适的连接子。在一些方面，柔性连接子可以共价连接脱氨酶和SpCas9切口酶或失活的Cas9核酸内切酶。例如，在一些方面，连接子可以包含SEQ ID NO:27。在各个方面，柔性连接子可将核定位信号连接到脱氨酶或SpCas9切口酶或失活的Cas9核酸内切酶的N或C末端。例如，连接子可以包含SGGS(SEQ ID NO:103)。柔性肽连接子可以由核酸编码。下表6提供了可以编码连接子的合适核酸。在一些方面，连接子可以由包含SEQ ID NO:29或30的核酸编码。在一些方面，连接子可以由包含SEQ ID NO:78的核酸编码。

表5-示例性连接子(氨基酸序列)

柔性连接子	氨基酸序列	SEQ ID NO:
			连接子1	SGGSSGGSSGSETPGTSESATPESSGGSSGGS	27
连接子2	SGGS	103

表6-示例性连接子(核酸序列)

在其他方面，融合蛋白可以进一步包含一个或多个核定位信号(NLS)。一个或多个NLS可以与脱氨酶和/或Cas9切口酶或失活的Cas9核酸内切酶中的一个或两个共价附接或连接。例如，在一些方面，NLS可以与脱氨酶的N端或C端连接。在其他方面，NLS可以与Cas9切口酶或失活的Cas9核酸内切酶的N端或C端连接。例如，在一些方面，一个NLS可以与脱氨酶的N末端连接，另一个NLS可以与Cas9切口酶或失活的Cas9核酸内切酶的C末端连接。

示例性NLS包括c-myc NLS、SV40 NLS、hnRNPAI M9 NLS、核质蛋白NLS、输入蛋白-α的IBB结构域的序列RMRKFKNKGKDTAELRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO：33)、肌瘤T蛋白的序列VSRKRPRP(SEQ ID NO:34)和PPKKARED(SEQ ID NO:35)、人p53的序列PQPKKKP(SEQ ID NO：104)、小鼠c-abl IV的序列SALIKKKKKMAP(SEQ ID NO:36)、流感病毒NS1的序列DRLRR(SEQ ID NO:37)和PKQKKRK(SEQ ID NO:38)、肝炎病毒δ抗原的序列RKLKKKKIKK(SEQ ID NO:39)和小鼠Mx1蛋白的序列REKKKKFLKRR(SEQ ID NO:40)。其他可接受的核定位信号包括双核定位序列，如人聚合(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK(SEQID NO:41)或类固醇激素受体(人)糖皮质激素的序列RKCLQAGMNLEARKTKK(SEQ ID NO:42)。其他示例性NLS包括MKRTADGSEFESPKKRKV(SEQ ID NO:31)和KRTADGSEFEPKKRKV(SEQ IDNO:32)。其他合适的核定位信号(NLS)是本领域技术人员已知的。

(iii)示例性融合蛋白

根据上述公开内容，可以通过组合上面提供的至少一种脱氨酶和至少一种Cas9切口酶或失活的Cas9核酸内切酶来提供示例性融合蛋白。可以设想的非限制性组合包括ABEmax-VRQR、ABEmax-SpCas9-NG、ABEmax-SpRY、ABEmax-SpG、ABE8e-VRQR、ABE8e-SpCas9-NG、ABE8e-SpRY和ABE8e-SpG。这些融合蛋白中的每一种可以进一步包含连接脱氨酶和Cas9蛋白的连接子(例如SEQ ID NO:27或28)。此外，这些融合蛋白中的每一种可以进一步包含一个或多个核定位信号(NLS)。下表7提供了具有或不具有核定位信号的这些融合蛋白的示例性氨基酸序列。

在各个方面，融合蛋白包含与SEQ ID NO:45-60中的任意一个具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％的序列同源性的氨基酸序列。在一些方面，融合蛋白包含与SEQ ID NO：45、47、49、51、53、55、57和59中的任意一个具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％的序列同源性的氨基酸序列。在一些方面，融合蛋白包含包括SEQ ID NO：45、47、49、51、53、55、57和59中的任意一个的氨基酸序列。在一些方面，融合蛋白还包含一个或多个核定位序列(NLS)。因此，在各种情况下，融合蛋白可以包含与SEQ ID NO：46、48、50、52、54、56、58和60中的任意一个具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％序列同源性的氨基酸序列。在各个方面，融合蛋白可以包含包括SEQ ID NO：46、48、50、52、54、56、58和60中任意一个的氨基酸序列。在一些方面，融合蛋白可包含包括SEQ ID NO：46、48、50、52、54、56、58和60中任意一个的氨基酸序列。

表7-示例性融合蛋白(氨基酸序列)

/>

在各个方面，本文提供的融合蛋白可以由一种或多种核酸编码。在一些方面，融合蛋白可以由单个核酸编码。本文表8中提供了编码上述全长融合蛋白(包含连接子和NLS)的合适的核酸。在一些方面，融合蛋白可由包含SEQ ID NO:61至68中任意一个的核酸编码。在一些方面，融合蛋白可由包含SEQ ID NO：73、79和147-152中任意一个的核酸编码。

表8-示例性融合蛋白(核酸序列)

/>

(c)CRISPR基因编辑系统

在一些实施方案中，本文中的工程化CRISPR基因编辑系统(例如，用于哺乳动物细胞中的基因编辑)可以包含(1)本文中公开的引导RNA分子(gRNA)，该引导RNA分子包含靶向结构域(其能够与基因组DNA靶标序列杂交)，以及能够与Cas(例如，Cas9酶)结合的序列，以及(2)碱基编辑器(例如，脱氨酶和Cas9切口酶或失活的Cas9核酸内切酶的融合蛋白)。在一些方面，工程化的CRISPR基因编辑系统包含靶向SEQ ID NO:1或2的序列的gRNA和包含SEQID NO:45至60中任意一个的融合蛋白。在一些方面，工程化的CRISPR基因编辑系统包含靶向SEQ ID NO:1的序列(即包含SEQ ID NO:5的间隔序列)的gRNA和包含SEQ ID NO:45或46的融合蛋白。在一些方面，工程化的CRISPR基因编辑系统包含靶向SEQ ID NO:2的序列(即包含SEQ ID NO:6的间隔序列)的gRNA和包含SEQ ID NO:45或46的融合蛋白。

(i)CRISPR系统的其他元件

gRNA可以包含称为tracr结构域的结构域。靶向结构域和能够与Cas(如Cas9酶)结合的序列可以被置于同一分子(有时称为单gRNA、嵌合gRNA或sgRNA)或不同分子(有时称为双gRNA或dgRNA)上。如果布置在不同的分子上，则各自包含允许分子通过例如杂交结合的杂交结构域包含。

在一些实施方案中，为了在靶序列中产生双链断裂，本文的CRISPR-Cas9系统可以与由引导核酸(gRNA)确定的靶序列结合，并且核酸酶识别与靶标序列相邻的原间隔序列邻近基序(PAM)序列，以切割靶标序列。在一些实施方案中，本文的CRISPR-Cas9系统可以包含与核酸引导的核酸酶兼容的支架序列。在其他实施方案中，引导序列可以被工程化以与任意所需的靶标序列互补，以便有效地编辑靶标序列。在其他实施方案中，引导序列可以被工程化以与任何所需的靶标序列杂交。在一些实施方案中，靶标核酸序列的长度为20个核苷酸。在一些实施方案中，靶标核酸的长度小于20个核苷酸。在一些实施方案中，靶标核酸的长度超过20个核苷酸。在一些实施方案中，靶标核酸的长度至少为5、10、15、16、17、18、19、20、21、22、23、24、25、30个或更多个核苷酸。在一些实施方案中，靶标核酸的长度最多为5、10、15、16、17、18、19、20、21、22、23、24、25、30个或更多个核苷酸。

在一些实施方案中，本文的CRISPR-Cas9系统的靶标序列可以是原核细胞或真核细胞内源或外源的任意多核苷酸，或用于验证或其他的体外系统中。在其他实施方案中，靶标序列可以是驻留在真核细胞细胞核中的多核苷酸。靶序列可以是编码基因产物(如蛋白质)的序列，也可以是非编码序列(如调控多核苷酸或垃圾DNA)。本文预期靶标序列应与PAM相关联；即本文中CRISPR-Cas9系统识别的短序列。在一些实施方案中，PAM的序列和长度要求因所选的核酸引导的核酸酶而异。在一些实施方案中，PAM序列可以是与靶标序列相邻的约2-5个碱基对或更长的序列，具体取决于所需的PAM。下面的实施例部分给出了PAM序列的示例，本领域技术人员能够识别出与特定核酸引导的核酸酶一起使用的更多PAM序列，因为这些并不旨在限制本发明构思的这一方面。此外，PAM互作(PI)结构域的工程化可实现对PAM特异性进行编程，提高靶标位点识别的保真度，并增加核酸引导的核酸酶基因组工程平台的通用性。

(d)分离的核酸和载体

在各个方面，本文提供的CRISPR基因编辑系统的一个或多个组件(如gRNA和/或融合蛋白(碱基编辑器))可由核酸(如上述核酸)编码。因此，本文提供了编码上述一种或多种gRNA的分离核酸。还提供了编码融合蛋白的分离核酸，该融合蛋白包含脱氨酶和Cas9切口酶或Cas9核酸内切酶。根据本公开的可以作为分离的核酸提供的示例性核酸如上表所述。

编码本文中CRISPR-Cas9系统的成分的多核苷酸序列可以包含一个或多个载体。本文所用术语"载体"可以指能够转运与其连接的另一核酸的核酸分子。载体包括但不限于单链、双链或部分双链的核酸分子；包含一个或多个游离末端、无游离末端(如环状)的核酸分子；包含DNA、RNA或两者的核酸分子；以及本领域已知的多核苷酸的其他变体。一种类型的载体是"质粒"，指的是通过标例如准的分子克隆技术可以将额外的DNA片段插入其中的环状双链DNA环。另一种类型的载体是病毒载体，其中病毒衍生的DNA或RNA序列存在于载体中，用于包装成病毒(如逆转录病毒、复制缺陷逆转录病毒、腺病毒、复制缺陷腺病毒和腺相关病毒)。其他载体(如非游离型哺乳动物载体)可在导入宿主细胞后整合到宿主细胞的基因组中。重组表达载体可以包括适合于在宿主细胞中表达的本发明构思的核酸，可以是指重组表达载体包含一个或多个调控元件，这些调控元件可以根据用于表达的宿主细胞进行选择，并且与待表达的核酸序列操作性地连接。

在一些实施方案中，调控元件可以与本文中的可靶向CRISPR-Cas9系统的一个或多个元件可操作地连接，以驱动可靶向CRISPR-Cas9系统的一个或多个元件的表达。

在一些实施方案中，载体可以包含与编码本文中Cas9核酸酶的多核苷酸序列可操作连接的调控元件。编码本文中Cas9核酸酶的多核苷酸序列可以针对在特定细胞(例如原核或真核细胞)中的表达进行密码子优化。真核细胞可以是酵母、真菌、藻类、植物、动物或人类细胞。真核细胞可以是来源于特定生物的细胞，如哺乳动物，包括但不限于人、小鼠、大鼠、兔、狗或非人哺乳动物，包括非人灵长类动物。植物细胞可以包括但不限于来自种子、悬浮培养物、胚、分生组织区、愈伤组织、叶、根、芽、配子体、孢子体、花粉和小孢子的细胞。

如本文所用的，"密码子优化"可以指在维持天然氨基酸序列的同时，用宿主细胞基因中更常使用或最常使用的密码子置换天然序列中的至少一个或多个密码子，从而修改核酸序列以增强其在相关宿主细胞中的表达的过程。各种物种对特定氨基酸的一些密码子表现出特殊的偏好。正如本文所设想的，可以根据密码子优化来定制基因，以实现特定生物体内的最佳基因表达。密码子使用表例如从"密码子使用数据库"处可容易地获得。

在一些实施方案中，本文中的Cas9核酸酶和一种或多种引导核酸(如gRNA)可以作为DNA或RNA的形式递送。以(未修饰的或含有碱基或骨架修饰的)RNA分子形式递送本文的Cas9核酸酶和引导核酸可用于减少核酸引导地核酸酶在细胞中的持续时间(如缩短半衰期)。这可以降低靶细胞中的脱靶切割活性水平。由于以mRNA形式递送Cas9核酸酶需要一段时间才能翻译成蛋白质，因此本文的一个方面可以包括在递送Cas9 mRNA数小时后递送引导核酸，以最大限度地提高可用于与核酸引导的核酸酶蛋白相互作用的引导核酸的水平。在其他情况下，Cas9 mRNA和引导核酸可以同时递送。在其他实例中，引导核酸可以按顺序递送，如在Cas9 mRNA递送0.5、1、2、3、4或更多小时后递送。

在一些实施方案中，可以将RNA形式的或在DNA表达盒上编码的引导核酸(如gRNA)导入宿主细胞，该宿主细胞包括载体或染色体上编码的核酸引导的核酸酶。引导核酸可以提供在具有一个或多个多核苷酸的盒中，这些多核苷酸在盒中可以是连续的或非连续的。在一些实施方案中，引导核酸可以作为单个连续的多核苷酸提供到盒中。在其他实施方案中，可以向引导核酸添加追踪剂，以追踪其分布和活性。

在其他实施方案中，可以使用各种递送系统将gRNA和/或Cas9核酸酶引入宿主细胞中。根据这些实施方案，用于本文公开的实施方案的系统可以包括但不限于酵母系统、脂质转染系统、显微注射系统、基因枪系统、病毒体、脂质体、免疫脂质体、聚阳离子、脂质：核酸缀合物、病毒粒、人工病毒粒、病毒载体、电穿孔、细胞渗透肽、纳米颗粒、纳米线和/或外泌体。

在一些实施方案中，提供了将一种或多种多核苷酸(如本文所述的一种或多种载体或线性多核苷酸)、其一种或多种转录物和/或由其转录的一种或多种蛋白质递送到宿主细胞的方法。在一些方面，本发明构思进一步提供了通过这种方法产生的细胞，生物体可以包括此类细胞或由此类细胞产生。在一些实施方案中，将工程化的核酸酶与引导核酸组合(任选地与引导核酸复合)递送到细胞中。

在一些实施方案中，基于常规的病毒和非病毒的基因转移方法可用于将核酸引入细胞，如原核细胞、真核细胞、植物细胞、哺乳动物细胞或靶组织。这种方法可用于将编码本文中CRISPR-Cas9系统组分的核酸引入培养细胞或宿主生物体中。非病毒载体递送系统包括DNA质粒、RNA(如本文所述载体的转录物)、裸核酸和与递送载体(如脂质体)复合的核酸。病毒载体递送系统包括DNA和RNA病毒，它们在递送到细胞后具有游离基因组或整合基因组。预期本领域已知的任意基因治疗方法均可在此使用。本文还预期了核酸的非病毒递送方法。腺相关病毒("AAV")载体也可用于靶标核酸转导细胞，例如用于核酸和肽的体外生产，以及体内和体外基因治疗程序。

在一些实施方案中，可以使用腺相关病毒(AAV)将编码本文中任意构建体(例如，gRNA，包含脱氨酶和Cas9切口酶的融合蛋白或失活的Cas9蛋白)的核酸递送到细胞中。AAV是一种小型病毒，能位点特异性地整合到宿主基因组中，因此可以递送转基因。反向末端重复序列(ITR)存在于AAV基因组和/或目的转基因的侧翼，是复制的起点。AAV基因组中还存在rep蛋白和cap蛋白，它们在转录时会形成衣壳，衣壳封装AAV基因组以递送到靶细胞。这些衣壳上的表面受体赋予AAV血清型，这决定了衣壳将主要与哪些靶器官结合，从而决定了AAV将最有效地感染哪些细胞。目前有十二种已知的人AAV血清型。在一些实施方案中，任意哺乳动物AAV血清型可以在本文中用于递送本文所述的编码核酸。出于多种原因，腺相关病毒是基因治疗中最常用的病毒之一。首先，AAV在施用给哺乳动物(包括人类)后不会引起免疫反应。其次，AAV可以有效地输送到靶细胞，特别是在考虑选择适当的AAV血清型时。最后，AAV既能感染分裂细胞，也能感染非分裂细胞，因为其基因组可以在宿主细胞中持续存在而不会整合。这一特性使它们成为基因治疗的理想选择。

在一些实施方案中，可以使用至少一种AAV载体将本文公开的多核苷酸(如gRNA、Cas9)递送至细胞。AAV载体通常包含基于蛋白质的衣壳和被衣壳包封的核酸。核酸可以是例如包含侧翼有反向末端重复序列的转基因的载体基因组。AAV的"衣壳"是一种近似球形的蛋白外壳，由单个"衣壳蛋白"或"亚基"组成。AAV衣壳通常包含约60个衣壳蛋白质亚基，以T＝1二十面体对称性相关联和排列。当本文将AAV载体描述为包含AAV衣壳蛋白时，可以理解为AAV载体包含衣壳，其中衣壳包含一种或多种AAV衣壳蛋白(即亚基)。本文还描述了"类病毒颗粒"或"病毒样颗粒"，指的是不包含任何载体基因组或包含转基因的核酸的衣壳。如国际专利公开WO00/28004和Chao等人，(2000)Molecular Therapy 2:619所述，本公开的病毒载体还可以是"靶向"病毒载体(例如，具有定向趋向性)和/或"杂交"细小病毒(即病毒TR和病毒衣壳来自不同的细小病毒)。本公开的病毒载体还可以是国际专利公开WO01/92551中描述的双链细小病毒颗粒(其公开内容通过引用其全文并入本文)。因此，在一些实施方案中，双链(双链体)基因组可以被包装到本发明构思的病毒衣壳中。此外，病毒衣壳或基因组元件还可以包含其他修饰，包括插入、缺失和/或置换。

在一些实施方案中，编码本文的gRNA和/或融合蛋白的分离的核酸可以被包装到AAV载体(如AAV-Cas9载体)中。在一些实施方案中，AAV载体是野生型AAV载体。在一些实施方案中，AAV载体含有一种或多种突变。在一些实施方案中，AAV载体分离自或源自血清型AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV11或其任意组合的AAV载体。

示例性AAV-Cas9载体包含两个ITR(反向末端重复)序列，它们位于包含Cas9序列的中心序列区的侧翼。在一些实施方案中，ITR分离自或源自血清型AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV11或其任意组合的AAV载体。在一些实施方案中，ITR包含AAV血清型的全长和/或野生型序列或由其组成。在一些实施方案中，ITR包含AAV血清型的截短序列或由其组成。在一些实施方案中，ITR包含AAV血清型的延长序列或由其组成。在一些实施方案中，ITR包含或由以下序列组成，所述序列与相同AAV血清型的野生型序列相比包含序列变异。在一些实施方案中，序列变异包括置换、缺失、插入、倒置或转位中的一种或多种。在一些实施方案中，ITR至少包含100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149或150个碱基对，或由其组成。在一些实施方案中，ITR包含100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149或150个碱基对，或由其组成。在一些实施方案中，ITR的长度为110±10个碱基对。在一些实施方案中，ITR的长度为120±10个碱基对。在一些实施方案中，ITR的长度为130±10个碱基对。在一些实施方案中，ITR的长度为140±10个碱基对。在一些实施方案中，ITR的长度为150±10个碱基对。在一些实施方案中，ITR的长度为115、145或141个碱基对。

在一些实施方案中，AAV-Cas9载体可以包含一个或多个核定位信号(NLS)。在一些实施方案中，AAV-Cas9载体包含1、2、3、4或5个核定位信号。示例性NLS包含SEQ ID NO:31和32。其他示例性NLS包括c-mycNLS、SV40 NLS、hnRNPAI M9 NLS、核质蛋白NLS、输入蛋白-α的IBB结构域序列RMRKFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO：33)、肌瘤T蛋白的序列VSRKRPRP(SEQ ID NO:34)和PPKKARED(SEQ ID NO:35)、人p53的序列PQPKKKPL(SEQ ID NO：104)、小鼠c-abl IV的序列SALIKKKKKMAP(SEQ ID NO：36)、流感病毒NS1的序列DRLRR(SEQ ID NO：37)和PKQKKRK(SEQ ID NO：38)、肝炎病毒δ抗原的序列RKLKKKIKKL(SEQ ID NO：39)和小鼠Mx1蛋白的序列REKKKKFLKRR(SEQ ID NO：40)。其他可接受的核定位信号包括双核定位序列，如人聚合(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK(SEQID NO:41)或类固醇激素受体(人)糖皮质激素的序列RKCLQAGMNLEARKTKK(SEQ ID NO:42)。

在一些实施方案中，AAV-Cas9载体可以包含附加元件，以促进载体的包装和融合蛋白和/或gRNA的表达。在一些实施方案中，AAV-Cas9载体可以包含polyA序列。在一些实施方案中，polyA序列可以是bgHi-polyA序列。在一些实施方案中，AAV-Cas9载体可以包含调控元件。在一些实施方案中，调控元件是激活剂或抑制剂。在一些实施方案中，调控元件是转录后调控元件(例如，WPRE-3-土拨鼠肝炎病毒转录后调控元件-3)。

在一些实施方案中，AAV-Cas9可以包含一个或多个启动子。在一些实施方案中，该一个或多个启动子驱动Cas9的表达。在一些实施方案中，该一个或多个启动子是肌肉特异性启动子。示例性肌肉特异性启动子包含肌球蛋白轻链-2启动子、α-肌动蛋白启动子、肌钙蛋白1启动子、Na+/Ca2+交换启动子、肌营养不良蛋白启动子、α7整合素启动子、脑钠肽启动子、αB-晶状体蛋白/小热休克蛋白启动子、α-肌球蛋白重链启动子、ANF启动子、CK8启动子和CK8e启动子。在一些实施方案中，一种或多种启动子是心脏特异性启动子。示例性的心脏特异性启动子包含心肌肌钙蛋白T和α-肌球蛋白重链启动子。

在一些实施方案中，AAV-Cas9载体可以针对在酵母、细菌、昆虫细胞或哺乳动物细胞中的生产进行优化。在一些实施方案中，AAV-Cas9载体可以针对在人类细胞中的表达进行优化。在一些实施方案中，AAV-Cas9载体可针对在杆状病毒表达系统中的表达进行优化。

在本公开的基因编辑构建体的一些实施方案中，构建体包含启动子和编码本文所述融合蛋白的核酸、或由其组成。在一些实施方案中，构建体包含心肌肌钙蛋白T启动子和编码包含脱氨酶和Cas9核酸酶的融合蛋白的核酸、或由其组成。在一些实施方案中，构建体包含心肌肌钙蛋白T启动子和编码融合蛋白的核酸、或由其组成，融合蛋白包含分离自或源自化脓性葡萄球菌的脱氨酶和Cas9切口酶("SpCas9")。可用于本文AAV载体的示例性启动子可以包含SEQ ID NO:72。

在一些实施方案中，由启动子和核酸酶组成的构建体还包含至少两个反向末端重复序列(ITR)。在一些实施方案中，包含启动子和核酸酶的构建体进一步包含至少两个ITR序列，这些ITR序列分离自或源自AAV血清型2(AAV2)。在一些实施方案中，包含启动子和核酸酶的构建体进一步包含至少两个ITR序列，每个ITR序列包含SEQ ID NO:71或85的核苷酸序列、或由其组成。在一些实施方案中，包含启动子和核酸酶的构建体进一步包含至少两个ITR序列，其中第一ITR序列包含SEQ ID NO:71的核苷酸序列、或由其组成，第二ITR序列包含核苷酸序列85、或由其组成。在一些实施方案中，构建体从5'到3'包含第一ITR、编码启动子(例如心肌肌钙蛋白T启动子)的序列、编码核定位信号的序列、编码脱氨酶的序列、编码柔性肽连接子的序列、编码SpCas9切口酶片段(例如N-末端的半部分)的序列、编码gRNA的序列和第二ITR。在一些实施方案中，构建体从5'到3'包含第一ITR、编码启动子(如心肌肌钙蛋白T启动子)的序列、编码核定位信号的序列、编码SpCas9切口酶第二片段(如C-末端半部分)的序列、编码gRNA的序列和第二ITR。

(e)碱基编辑器和gRNA的AAV递送

本公开内容的一些方面涉及使用分割碱基编辑器双AAV策略递送碱基编辑器(及其相关的gRNA)。在动物体内递送碱基编辑器的一个障碍是无法将碱基编辑器包装在腺相关病毒(AAV)中，而AAV是一种有效且广泛使用的递送剂，目前仍是FDA批准的唯一体内基因治疗载体。编码碱基编辑器的DNA尺寸较大(含有化脓性链球菌Cas9的碱基编辑器为5.2kb，不包括任何引导RNA或调控序列)，因此无法将其包装到AAV中，而AAV的基因组包装大小限制为小于5kb 12。

为了绕过这种包装尺寸限制并使用AAV递送碱基编辑器，设计了分割碱基编辑器双AAV策略，其中腺嘌呤碱基编辑器(ABE)被分为N端和C端两半。这种策略在PCT专利申请公开WO2020236982A1中有所描述；其全部内容通过引用并入本文。每个碱基编辑器的一半都与快速剪接的分割内含肽的一半融合。在表达每一半碱基编辑器-分割内含肽的AAV颗粒共同感染后，蛋白质反式剪接重组出全长碱基编辑器。与其他利用小分子或sgRNA桥接分割Cas9的方法不同，内含肽剪接会去除所有外源序列，并在分裂位点重新生成天然肽键，从而产生与未修饰的碱基编辑器序列相同的单个重组蛋白。

PCT专利申请公开WO2020236982A1中描述了进一步提供用于例如经由rAAV载体将Cas9蛋白或核碱基编辑器递送到细胞的核酸分子、组合物、重组AAV(rAAV)颗粒、试剂盒和方法。通常，Cas9蛋白或核碱基编辑器被"分割"成N端部分和C端部分。Cas9蛋白或核碱基编辑器的N端部分或C端部分可以分别与内含肽系统的一个成员融合。当所得到的融合蛋白通过单独的载体(如单独的rAAV载体)递送至一个细胞并共表达时，可以连接形成完整的功能性Cas9蛋白或核碱基编辑器(如通过内含肽介导的蛋白剪接)。本文还提供了对递送载体中的调控元件的经验测试法，以实现分割的Cas9蛋白或核碱基编辑器的高表达水平。

在一些实施方案中，腺嘌呤碱基编辑器(ABE)在ABE的Cas9结构域内分割。在一些实施方案中，ABE在具有以下序列的Cas9(例如Cas9-VRQR)的Glu573和Cys574残基之间分割：

MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ ID NO:15).

为清晰起见，残基E573和C574在上述SEQ ID NO:15的序列中以粗体和下划线表示。应当理解的是，具有不同Cas9序列(如上文列出的SEQ ID NO：16-22)的ABE与SEQ IDNO:15的Cas9相比可以在相同或不同的残基(例如，如本文例示的，在距离SEQ ID NO:15的573或574残基至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90或100个残基的残基)处分割。还可以理解的是，SEQ ID NO:15包含甲硫氨酸作为起始密码子的初始氨基酸残基。当省略该氨基酸时，例如当Cas9蛋白在N端以核定位序列表达时，被分割的相应残基为E572和C573。还可以理解的是，包含与Cas9蛋白共价连接的脱氨酶的全长融合蛋白(如本文所述)也可以在Cas9蛋白中的同等位置进行分割。例如，包含SEQ ID NO:46的融合蛋白可以根据SEQ ID NO:46在E987和C988处分割。可用于鉴定其他其他Cas9序列中和融合蛋白(例如，碱基编辑器)中的相应残基的工具(例如BLAST)是本领域已知的，本领域技术人员会了解如何确定这些相应残基。在一些实施方案中，用于分割碱基编辑器的内含肽是Npu内含肽。在一些实施方案中，内含肽包含SEQ ID NO:153或154的氨基酸序列，其中SEQID NO:153是Npu DnaE N端蛋白，并且其中SEQ ID NO:154是Npu DnaE C端蛋白。

Npu DnaE N端蛋白：

CLSYETEILTVEYGLLPIGKIVEKRIECTVYSVDNNGNIYTQPVAQWHDRGEQEVFEYCLEDGSLIRATKDHKFMTVDGQMLPID(SEQ ID NO:153)

Npu DnaE C端蛋白：

IKIATRKYLGKQNVYDIGVERDHNFALKNGFIASN(SEQ ID NO:154)。

在一些实施方案中，从5'至3'包含第一ITR、编码启动子的序列、编码gRNA和/或Cas9切口酶或其片段的序列以及第二ITR，或由其组成的构建体，还包含polyA序列。在一些实施方案中，polyA序列包含bGH序列或由其组成。本公开的示例性bGH序列包含SEQ ID NO：81(ctgtgccttctagttgccagccatctgttgtttgcccctcccccgtgccttccttgaccctggaaggtgccactcccactgtcctttcctaataaaatgaggaaattgcatcgcattgtctgagtaggtgtcattctattctggggggtggggtggggcaggacagcaagggggaggattgggaagacaatagcaggcatgctggggatgcggtgggctctatgg)或由其组成。在一些实施方案中，构建体从5'到3'包含第一ITR、编码启动子的序列、编码融合蛋白(以下称为"碱基编辑器")或其片段的序列、polyA序列、编码gRNA的序列和第二ITR，或由其组成。在一些实施方案中，构建体从5'到3'包含第一ITR、编码启动子的序列、编码融合蛋白(以下称为"碱基编辑器")或其片段的序列、bgH polyA序列、编码gRNA的序列和第二ITR，或由其组成。在一些实施方案中，构建体从5'到3'包含第一AAV2ITR、编码心肌肌钙蛋白T启动子的序列、编码融合蛋白(以下称为"碱基编辑器")或其片段的序列、bgH polyA序列、编码gRNA的序列和第二AAV2 ITR，或由其组成。在一些实施方案中，从5'至3'包含第一ITR、编码启动子的序列、编码融合蛋白(以下称为"碱基编辑器")或其片段的序列、polyA序列、编码gRNA的序列和第二ITR或由其组成的构建体，进一步包含至少一个核定位信号。在一些实施方案中，从5'至3'包含第一ITR、编码启动子的序列、编码融合蛋白(以下称为"碱基编辑器")或其片段的序列、polyA序列、编码gRNA的序列和第二ITR，或由其组成的构建体，进一步包含至少两个核定位信号。本公开的编码核定位信号的示例性序列包含SEQ ID NO：43、44和90中的任何一个，或由SEQ ID NO：43、44和90中的任何一个组成。在一些实施方案中，构建体从5'到3'包含第一ITR、编码启动子的序列、编码第一核定位信号的序列、编码融合蛋白(以下称为"碱基编辑器")或其片段的序列、polyA序列、编码gRNA的序列和第二ITR，或由其组成。在一些实施方案中，构建体从5'到3'包含第一ITR、编码启动子的序列、编码第一核定位信号的序列、编码融合蛋白(以下称为"碱基编辑器")或其片段的序列、编码第二核定位信号的序列、编码polyA序列的序列、编码gRNA的序列和第二ITR，或由其组成。在一些实施方案中，从5'到3'包含第一ITR、编码启动子的序列、编码第一核定位信号的序列、编码融合蛋白(以下称为"碱基编辑器")或其片段的序列、编码第二核定位信号的序列、polyA序列、编码gRNA的序列和第二ITR，或由其组成的构建体，进一步包含终止密码子。终止密码子的序列可以是TAG、TAA或TGA。在一些实施方案中，构建体从5'到3'包含第一ITR、编码启动子的序列、编码第一核定位信号的序列、编码融合蛋白(以下称为"碱基编辑器")或其片段的序列、编码第二核定位信号的序列、终止密码子、polyA序列、编码gRNA的序列和第二ITR，或由其组成。在一些实施方案中，从5'到3'包含第一ITR、编码启动子的序列、编码第一核定位信号的序列、编码核酸酶的序列、编码第二核定位信号的序列、终止密码子、polyA序列和第二ITR，或其由组成的构建体，进一步包含调控序列。调控序列可以编码翻译后调控元件。例如，本公开的示例性调控序列包含SEQ ID NO:80的核苷酸序列或由其组成(其编码WPRE-3(土拨鼠肝炎病毒转录后调控元件-3))。在一些实施方案中，构建体从5'到3'包含第一ITR、编码启动子的序列、编码第一核定位信号的序列、编码融合蛋白(以下称"碱基编辑器")或其片段的序列、编码第二核定位信号的序列、终止密码子、编码调控元件(如SEQ ID NO:80)的序列、PolyA序列、编码gRNA的序列和第二ITR，或由其组成。在一些实施方案中，从5'到3'包含第一ITR、编码启动子的序列、编码第一核定位信号的序列、编码融合蛋白(以下称"碱基编辑")或其片段的序列、编码第二核定位信号的序列、终止密码子、调控序列、polyA序列、编码gRNA的序列和第二ITR，或由其组成的构建体，进一步包含一个或多个gRNA支架序列。合适的gRNA支架序列可包含SEQ ID NO：82、84、165和/或166中的任一个。

SEQ ID NO:82：

GAGGGCCTATTTCCCATGATTCCTTCATATTTGCATATACGATACAAGGCTGTTAGAGAGATAATTAGAATTAATTTGACTGTAAACACAAAGATATTAGTACAAAATACGTGACGTAGAAAGTAATAATTTCTTGGGTAGTTTGCAGTTTTAAAATTATGTTTTAAAATGGACTATCATATGCTTACCGTAACTTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACACCG

SEQ ID NO:84:

GCTTAAGACTATGCTGAGAAACAGCATAGCAAGTTAAGTAAGAGCTAGTCCGTATCAACTTGAAAGTGCCGAGTECGTGC

SEQ ID NO:165：

GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGC

SEQ ID NO:166：

GTTTAAGAGCTATGCTGGAAACAGCATAGCAAGTTTAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTT

因此，在一些实施方案中，构建体从5'到3'可以包含第一ITR、编码启动子的序列、编码第一核定位信号的序列、编码融合蛋白的序列(以下称"碱基编辑器")或其片段的序列、编码第二核定位信号的序列、终止密码子、调控序列、PolyA序列、编码第一gRNA支架序列的序列、编码gRNA的序列、编码第二gRNA支架序列的序列和第二ITR，或由其组成。

在一些实施方案中，构建体可以进一步包含一个或多个间隔序列。本公开的示例性间隔序列的长度为1-1500个核苷酸，包括两者之间的所有范围。在一些实施方案中，间隔序列可以位于ITR、启动子、核定位序列、编码融合蛋白的序列(以下称"碱基编辑")、终止密码子、polyA序列、gRNA支架、编码gRNA的核酸和/或调控元件的5'或3'处。

根据本文公开的内容，提供了包含编码gRNA和/或融合蛋白(碱基编辑器)或其片段的一种或多种核酸的示例性病毒载体。还提供了一对病毒载体，其包括编码本文所述融合蛋白第一片段的第一病毒载体和编码融合蛋白第二片段的第二病毒载体，其中第一和第二片段可以在细胞中通过翻译后剪接重组形成功能性融合蛋白(如上所述)。下文表9和表10描述了两种示例性载体及关键成分。

表9-编码ABEmax-VRQR融合蛋白N-末端的示例性载体

/>

表10-编码ABEmax-VRQR融合蛋白C-末端的示例性载体

/>

在一些方面，上表中提供的每种AAV载体表达ABEmax-VRQR的N端半部分(SEQ IDNO:69)或C端半部分(SEQ ID NO:70)。当两半部分蛋白接触时，它们进行蛋白转剪接，形成完整的蛋白。下表12提供了SEQ ID NO:69和70。每个序列都有带下划线的"NPU内含肽片段"(SEQ ID NO：153和154)。从最终的蛋白质构建物中去除该片段，以形成完整的融合蛋白。

表12-AAV载体表达的融合蛋白片段

/>

在一些实施方案中，本文公开的AAV载体可以被包装成病毒颗粒，用于递送基因组从而在靶细胞中表达转基因。在一些实施方案中，本文公开的AAV载体可以通过瞬时转染、使用生产细胞系、将病毒特征组合成Ad-AAV杂交体、使用疱疹病毒系统或使用杆状病毒在昆虫细胞中生产而包装成颗粒。

在一些实施方案中，生成本文包装细胞的方法涉及创建稳定表达用于AAV颗粒生产所有必须组分的细胞系。例如，将包含缺乏AAV rep和cap基因的rAAV基因组、与rAAV基因组分离的AAV rep和cap基因以及可选择标记(如新霉素抗性基因)的质粒(或多个质粒)整合到细胞的基因组中。AAV基因组已通过诸如GC加尾(Samulski等人，1982年，Proc.Natl.Acad.S6.USA，79:2077-2081)、添加含有限制性核酸内切酶切割位点的合成连接子(Laughlin等人，1983年，Gene，23:65-73)、或直接钝端连接(Senapathy&Carter，1984年，J.Biol.)的程序引入细菌质粒中。然后用辅助病毒(如腺病毒)感染包装细胞系。这种方法的优点是细胞具有可选择性，适合大规模生产rAAV。合适方法其他实例采用腺病毒或杆状病毒而不是质粒，将rAAV基因组和/或rep和cap基因引入包装细胞中。

在一些实施方案中，用如本文所述的一种或多种载体、线性多核苷酸、多肽、核酸-蛋白复合物或其任意组合瞬时转染或非瞬时转染宿主细胞。在一些实施方案中，细胞可以在体外、培养基中或离体进行转染。在一些实施方案中，细胞可以按照其天然存在于受试者中的方式进行转染。在一些实施方案中，转染的细胞可以取自受试者。在一些实施方案中，细胞来源于取自受试者的细胞，如细胞系。

在一些实施方案中，用如本文所述的一种或多种载体、线性多核苷酸、多肽、核酸-蛋白复合物或其任意组合转染的细胞可用于建立新的细胞系，该细胞系可以包含一种或多种转染衍生序列。在一些实施方案中，用本文所述的工程化核酸引导的核酸酶系统的组分(如通过瞬时转染一种或多种载体，或转染RNA)瞬时转染细胞，并通过工程化核酸酶复合物的活性进行修饰，可以用于建立新的细胞系，该细胞系可包含含有修饰但缺乏任何其它外源序列的细胞。

本文公开的一些实施方案涉及本文公开的CRISPR-Cas9系统的使用；例如，为了靶向和敲除基因、扩增基因和/或修复与DNA重复不稳定性和医学疾病相关的特定突变。在一些实施方案中，本文中的CRISPR-Cas9系统可用于利用和纠正这些基因组不稳定性缺陷。在其他实施方案中，本文公开的CRISPR-Cas9系统可用于纠正与心肌病相关的基因缺陷。

C.药物组合物

本文公开的任意AAV病毒颗粒、AAV载体、多核苷酸或编码多核苷酸的载体均可配制成药物组合物。在一些实施方案中，药物组合物可进一步包括一种或多种药学上可接受的载体、稀释剂或赋形剂。本方法中使用的任意药物组合物均可包括冻干制剂或水溶液形式的药学上可接受的载体、赋形剂或稳定剂。

药物组合物中的载体必须是"可接受的"，即它与组合物中的活性成分相兼容，优选能够稳定活性成分，并且对治疗对象无害。例如，"药学上可接受的"可指分子实体和组合物中的其他成分，这些分子实体和成分在哺乳动物(如人类)体内给药时是生理上可耐受的，通常不会产生不良反应。在一些实施例中，本文公开的药物组合物中使用的"药学上可接受的"载体可以是联邦政府或州政府的监管机构批准的，或《美国药典》或其他公认的药典中列出的可用于哺乳动物，特别是人类的载体。

医药上可接受的载体，包括缓冲剂，是本领域众所周知的，可包括磷酸、柠檬酸和其他有机酸；抗氧化剂，包括抗坏血酸和甲硫氨酸；防腐剂；低分子量多肽；蛋白质，如血清白蛋白、明胶或免疫球蛋白；氨基酸；疏水性聚合物；单糖；二糖；和其他碳水化合物；金属复合物；和/或非离子表面活性剂。参见，例如Remington(雷明顿)：The Science andPractice of Pharmacy(药学的科学与实践)第20版(2000年)Lippincott Williams和Wilkins,Ed.K.E.Hoover.K.E.Hoover.

在一些实施方案中，药物组合物或制剂可通过皮下注射、肌肉注射、静脉注射、腹膜内注射、心内注射、关节内注射或海绵体内注射给药。在一些实施方案中，药物组合物或制剂用于胃肠外给药，如静脉注射、脑室内注射、大池内(intra-cisterna magna)注射、实质内(intra-parenchymal)注射、腹膜内注射、心内注射、关节内注射或海绵体内注射，或其组合。此类药学上可接受的载体可以是无菌液体，如水和油，包括石油、动物、植物或合成来源的那些，如花生油、大豆油、矿物油等。盐溶液和葡萄糖水溶液、聚乙二醇(PEG)和甘油溶液也可用作液体载体，特别是用于注射溶液。本文所公开的药物组合物还可进一步包含其他成分，例如防腐剂、缓冲剂、滋补剂、抗氧化剂和稳定剂、非离子润湿剂或澄清剂、增粘剂等。本文所述药物组合物可以以单剂量或多剂量形式包装。

适合胃肠外给药的制剂包括水性和非水性无菌注射溶液，其中可能含有抗氧化剂、缓冲剂、抑菌剂和溶质，使制剂与目标受体的血液呈等渗状态；以及水性和非水性无菌悬浮液，其中可能含有悬浮剂和增稠剂。水溶液可适当缓冲(pH值优选为3至9)。在无菌条件下制备合适的胃肠外制剂很容易通过本领域技术人员熟知的标准制药技术完成。

用于体内给药的药物组合物应该是无菌的。这很容易通过例如无菌过滤膜过滤来实现。无菌注射溶液的制备方法一般是将所需数量的AAV颗粒与上文列举的各种其他成分(如需要)一起放入适当的溶剂中，然后进行过滤灭菌。一般来说，分散液的制备方法是将灭菌后的活性成分加入无菌载体中，该载体含有基本的分散介质和上述所列的所需其他成分。对于用于制备无菌注射溶液的无菌粉末，优选的制备方法是真空干燥和冷冻干燥技术，这两种方法可以从先前经过无菌过滤的溶液中获得活性成分粉末和所需的其他成分。

本文公开的药物组合物还可包含其他成分，如稀释剂和佐剂。可接受的载体、稀释剂和佐剂对受体无毒，优选在使用剂量和浓度下是惰性的，包括缓冲剂，如磷酸盐、柠檬酸盐或其他有机酸；抗氧化剂，如抗坏血酸；低分子量多肽；蛋白质，如血清白蛋白、明胶或免疫球蛋白；亲水性聚合物，如聚乙烯吡咯烷酮；氨基酸，如甘氨酸、谷氨酰胺、天冬酰胺、精氨酸或赖氨酸；单糖、二糖和其他碳水化合物，包括葡萄糖、甘露糖或糊精；螯合剂，如EDTA；糖醇，如甘露醇或山梨醇；成盐反离子，如钠；和/或非离子表面活性剂，如吐温、普朗尼克(pluronics)或聚乙二醇。

D.基因编辑生物--模型系统

本公开的其它方面涉及基因编辑生物(如哺乳动物)，可用于测试本文提供的基因编辑技术和组合物。例如，在一个方面，本文中的基因编辑组合物通常包含gRNA和切口酶与脱氨酶的融合蛋白，用于在人类基因的突变位点进行碱基编辑，以纠正与心肌病相关的基因突变。然而，由于相应的小鼠基因(MYH6)与人基因(MYH7)不同，而且小鼠MYH6和人MYH7不存在等效突变，因此没有合适的小鼠模型来测试这种策略。这意味着针对人MYH7基因优化的CRISPR基因编辑系统可能不会对小鼠MYH6基因产生任何影响。

因此，根据本公开的进一步方面，提供了基因编辑小鼠，该小鼠包含包括MYH7c.1208G>A(p.R403Q)人错义突变的人核酸，所述人错义突变插入内源性小鼠Myh6基因内用来形成人源化突变Myh6等位基因。在一些方面，人核酸进一步包含与错义突变相邻和位于上游的第一多核苷酸，以及与错义突变相邻和位于下游的第二多核苷酸。例如，在一些方面，第一多核苷酸包含约30至75个核苷酸、约35至约70个核苷酸、约40至约65个核苷酸、或约45至约60个核苷酸。例如，第一多核苷酸可以包含约55个核苷酸。在其他方面，第二多核苷酸包含约10至30个核苷酸、约15至25个核苷酸、或约20至25个核苷酸。例如，第二多核苷酸可以包含21个核苷酸或由21个核苷酸组成。可以插入内源性Myh6基因的示例性人核酸见下表。还提供了原生MyH6等位基因。如表13所示，人源化核酸与MYH7基因的等效部分相同，并包含相对于鼠MyH6基因的置换(下划线)。错义突变以粗体和下划线表示。SEQ ID NO:158(表14C)提供了包含G>A突变的可选的人源化等位基因，其中核苷酸N1至N6可以选自天然小鼠核苷酸或人源化核苷酸。在各个方面，相对于天然Myh6等位基因(SEQ ID NO:99或SEQ IDNO:163)，人源化突变Myh6等位基因包含SEQ ID NO:158所述的至少1个、至少2个、至少3个、至少4个、至少5个或至少6个突变。表14A-14C进一步提供了全长的小鼠和人突变型和野生型MYH6和MYH7蛋白序列(表14A)、全长的人和小鼠突变型和野生型基因转录物(cDNA序列)(表14B)以及涵盖Myh6等位基因内的和周围的任选的人源化突变的附加序列(表14C)。

在不同方面，基因编辑小鼠的至少一个细胞表达突变肌球蛋白，相对于包含SEQID NO:94的野生型肌球蛋白，突变肌球蛋白包含R404Q置换。为便于参考，表14提供了天然Myh6蛋白(小鼠)、天然人Myh7蛋白和由上述人源化Myh6等位基因表达的突变Myh6蛋白的序列。因此，在不同方面，基因编辑小鼠的至少一个细胞表达包含SEQ ID NO:96的突变肌球蛋白。在一些方面，小鼠是突变型Myh6等位基因的杂合子，还包括野生型Myh6等位基因。

表13-人源化和野生型Myh6核酸

表14A-突变体和野生型MYH6和MYH7蛋白

/>

表14B-突变体和野生型Myh6和Myh7的全长转录物

/>

表14C-人源化Myh6序列

基因编辑小鼠可以根据本领域已知的方法产生。在一些方面，基因编辑小鼠是按照本领域所述的方案(例如，H.Miura,R.M.Quadros,C.B.Gurumurthy,M.Ohtsuka,Easi-CRISPR for creating knock-in and conditional knockout mouse models using longssDNA donors.Nat Protoc 13,195-215(2018，其全部内容通过引用并入本文)，通过向受精卵显微注射Cas9mRNA(50ng/μL)(SEQ ID NO:94,IDT),sgRNA(20ng/μL)(SEQ ID NO:93,IDT)和ssODN供体模板(15ng/μL)(SEQ ID NO:92,IDT)产生的。下表15提供了根据这些方法可以用于产生本文的基因编辑小鼠的Cas9 mRNA、sgRNA和ssODN供体模板的说明性核酸。

表15-基因编辑小鼠模型的基因编辑元件

/>

III.方法

在多个方面，提供了纠正细胞中MYH7基因中的突变的方法，该方法包括向细胞递送：Cas9切口酶或失活的Cas9核酸内切酶、脱氨酶和靶向选自SEQ ID NO.1或2中任一个的DNA核苷酸序列的gRNA，或编码Cas9切口酶或失活的Cas9核酸内切酶、脱氨酶和/或gRNA的一个或多个核酸，以实现MYH7基因内或附近的一个或多个单链断裂(SSB)，导致MYH7基因内或附近的至少一个核苷酸的一个或多个突变，从而纠正MYH7基因的突变。在各个方面，该方法可以包括向细胞递送编码本文所述gRNA和/或融合蛋白的核酸。核酸可以用病毒载体递送。在一些方面，核酸可以用两种病毒载体(如上表12和表13中描述的载体)递送。

在进一步的方面中，提供了在有需要的受试者中治疗由MYH7基因突变引起的心肌病的方法，该方法包括向受试者中表达MYH7基因的至少一个细胞递送：Cas9切口酶或失活的Cas9核酸内切酶、脱氨酶和靶向选自SEQ ID NO.1或2中任一种的DNA核苷酸序列的gRNA，或编码RNA引导的切k口酶、脱氨酶和/或gRNA的一种或多种核酸，以实现MYH7基因内或附近的一个或多个单链断裂(SSB)，导致MYH7基因内或附近的至少一个核苷酸的一个或多个突变，从而纠正受试者的至少一个细胞中MYH7基因的突变。在各个方面，RNA引导的切口酶、脱氨酶和gRNA可以在本文所述的任意药物组合物中递送。在一些方面，Cas9切口酶/失活的Cas9核酸内切酶和脱氨酶以融合蛋白(如本文所述的任意融合蛋白)的形式递送。在各个方面，该方法包括向受试者施用编码融合蛋白和/或gRNA的一种或多种病毒载体。

在各个方面，通过任意这些方法纠正的MYH7基因中的突变包含一个或多个单核苷酸多态性，其导致突变的MYH7基因编码的蛋白产物中出现单个氨基酸置换。在一些情况下，蛋白质产物是肌球蛋白或肽，单个氨基酸置换包含根据SEQ ID NO:96的R403Q。

在各种实施方案中，对有需要的受试者施用本文公开的组合物后，可有效治疗心脏病。在其他实施方案中，对有需要的受试者给药后，本文公开的组合物可有效治疗一种或多种心肌病。在另一些实施方案中，对有需要的受试者施用本文公开的组合物后，可有效治疗HCM。在其他实施方案中，对有需要的受试者给药后，本文公开的组合物可有效改善HCM的至少一种症状。

本文中适合的受试者包括人、家畜、伴侣动物、实验动物或动物园动物。在一些实施方案中，受试者可以是啮齿动物，如小鼠、大鼠、豚鼠等。在一些实施方案中，受试者可以是家畜。适合的家畜动物的非限制性实例可包括猪、牛、马、山羊、绵羊、美洲驼和羊驼。在一些实施方案中，受试者可以是伴侣动物。伴侣动物的非限制性实例可包括宠物，如狗、猫、兔子和鸟类。在另一个实施方案中，受试者可以是动物园动物。本文所用的"动物园动物"指的动物园中发现的动物。这类动物包括非人灵长类动物、大型猫科动物、狼和熊。在一个具体的实施方案中，动物是一种实验动物。实验动物的非限制性示例可包括啮齿动物、犬科动物、猫科动物和非人灵长类动物。在一些实施方案中，动物是啮齿动物。啮齿动物的非限制性实例可包括小鼠、大鼠、豚鼠等。在优选的实施方案中，受试者是人。

在各种实施方案中，有需要的受试者可能已被诊断患有至少一种心脏病。在一些方面，受试者可能患有一种或多种心肌病。在一些实施方案中，受试者可能患有HCM。在一些实施方案中，受试者可能至少有一种HCM症状。在一些方面，HCM的症状可以是疲劳。在一些实施方案中，HCM的症状可以是呼吸困难。在一些实施方案中，HCM的症状可以是水肿。在一些实施方案中，HCM的症状可以是腹水。在一些实施方案中，HCM的症状可以是胸痛。在其他方面，HCM的症状可以是心脏杂音。

在一些实施方案中，与具有相同疾病状况和预测结果的未治疗受试者中心肌病诱导的心脏纤维化相比，施用本文所公开的组合物的方法可减少和/或逆转心肌病诱导的心脏纤维化。在一些实施方案中，与具有相同疾病状况和预测结果的未治疗受试者中心肌病诱导的左心室扩张相比，施用本文所公开的组合物的方法可减少和/或逆转心肌病诱导的左心室扩张。

本公开的其它实施方案是向有需要的受试者施用本文公开的组合物的方法，其中施用组合物可治疗心肌病(如HCM)。本公开的其它实施方案是将本文公开的组合物施用给有需要的受试者的方法，其中心肌病(如HCM)的至少一种的症状在给药后一个月内改善至少25％。

在各种实施方案中，本文公开的组合物可通过胃肠外施用来给药。本文所用的"胃肠外给药"是指通过消化道以外的途径施用本文公开的组合物。在一些实施方案中，本文公开的组合物可通过胃肠外注射给药。在一些方面，可通过皮下注射、肌内注射、静脉注射、腹膜内注射、心内注射、关节内注射或海绵体内注射等方式进行胃肠外注射给药。在一些实施方案中，通过胃肠外注射给药所公开的组合物可以采用本领域已知的缓慢或推注给药法。在一些实施方案中，通过胃肠外注射给药的途径可由目标位置决定。在一些实施方案中，本文所公开的组合物可配制用于通过心内注射的胃肠外给药。在一些实施方案中，本文公开的组合物可配制用于通过导管冠状动脉内输注的胃肠外给药。在一些实施方案中，本文公开的组合物可配制用于通过心包注射的胃肠外给药。

在各种实施方案中，本文公开的组合物的给药剂量没有特别限制，可根据预防和/或治疗目的、疾病类型、受试者体重或年龄、疾病严重程度等条件适当选择。在一些实施方案中，本文公开的组合物的给药剂量可包括本文公开的组合物的治疗有效量。如本文所用，术语"治疗有效"是指组合物能够治疗心脏病、减少至少一种与心脏病相关的症状、逆转/预防心肌纤维化、逆转/预防至少一个心室的扩张、减少心脏总重量、改善心脏功能、提高存活率或其组合的给药量。

在一些实施例中，本文公开的组合物可对有需要的受试者施用一次。在一些实施方案中，本文公开的组合物可对有需要的受试者施用多于一次。在一些实施方案中，本文公开的组合物第一次给药后可进行本文公开的组合物第二次给药。在一些实施方案中，第一次施用本文所公开的组合物之后，可以第二次和第三次施用本文所公开的组合物。在一些实施方案中，第一次施用本文所公开的组合物之后，可以第二次、第三次和第四次施用本文所公开的组合物。在一些实施例中，第一次施用本文公开的组合物后，可施用第二、第三、第四和第五次本文公开的组合物。

对有需要的受试者施用组合物的次数取决于医务人员的判断、心脏病的严重程度以及受试者对制剂的反应。在一些实施方案中，本文公开的组合物可以连续给药；或者，给药组合物的剂量可以暂时减少或暂时中止一段时间(即"组合物休药期")。在一些方面，组合物休药期的长度可以在2天到1年之间变化，例如2天、1周、1个月、6个月和1年。在另一个方面，组合物休药期的剂量减少可以是10％-100％，例如仅包括10％、25％、50％、75％和100％。

在各种实施方案中，本文公开的组合物的所需日剂量可以单剂量或分剂量同时(或在短时间内)或以适当间隔给药。在其他实施方案中，本文公开的组合物可以给药于受试者约每天一次、约每天两次或每天约三次。在另一些实施方案中，对受试者施用本文公开的组合物，可以每天至少一次，每天至少一次约2天，每天至少一次约3天，每天至少一次约4天，每天至少一次约5天，每天至少一次约6天，每天至少一次约1周，每天至少一次持续约2周，每天至少一次持续约3周，每天至少一次持续约4周，每天至少一次持续约8周，每天至少一次持续约12周，每天至少一次持续约16周，每天至少一次持续约24周，每天至少一次持续约52周。在一个优选的实施方案中，本文公开的组合物可对受试者施用约4周一次。

在一些实施方案中，可以先施用所公开的组合物，然后再施用一种或多种不同的组合物或治疗方案。在其他实施方案中，可以在施用一种或多种不同组合物或治疗方案后再施用所公开的组合物。

IV.试剂盒

本公开的一些实施方案包括用于封装和运输CRISPR-Cas9系统和/或本文公开的新型gRNA或本文公开的已知gRNA的试剂盒，并进一步包括至少一个容器。

在一些实施方案中，试剂盒还可以包括在本文所述的任意方法中使用CRISPR-Cas9系统、gRNA和或AAV颗粒的使用说明书。所包括的说明书可包括对受试者施用本文所公开的药物组合物以在受试者体内实现预期活性的描述。试剂盒可进一步包括基于确定受试者是否需要治疗来选择适合治疗的受试者的描述。在一些实施方案中，说明书可包括对患有或疑似患有心肌病的受试者施用本文公开的药物组合物的描述。

显而易见，本系统可用于靶向任何感兴趣的多核苷酸序列。本文的图和表中包括了可使用本系统进行全面治疗的病症或疾病的一些实施例，其中还提供了目前与这些病症相关的基因的实施例。然而，所举例的基因并未详尽。本公开的其他目的、优点和新颖特征将在本领域技术人员根据本公开回顾以下实施例时变得显而易见。以下实施例不具有限制性。

*******

在描述了几个实施例之后，本领域的技术人员会认识到，在不脱离本发明构思的精神的前提下，可以使用各种修改、替代结构和等效物。此外，为了避免不必要地掩盖本发明的构思，一些众所周知的工艺和要素也没有描述。因此，本说明书不应被视为对本发明构思范围的限制。

本领域的技术人员可以理解，目前公开的实施例只是举例说明，而不是限制。因此，本说明中包含的内容或附图中显示的内容应被解释为示例性的而非限制性的。以下权利要求旨在涵盖本文所描述的所有通用和特定特征，以及对方法和组件范围的所有陈述，作为语言问题，可以说介于两者之间。

实施例

以下实施例旨在展示本公开的优选实施例。本领域技术人员应该理解，以下实施例中公开的技术代表了发明人发现的在本公开的实践中能很好发挥作用的技术，因此可以认为构成了本公开实践的优选模式。然而，根据本公开内容，本领域技术人员应该理解，在不脱离本公开内容的精神和范围的情况下，可以对所公开的具体实施例进行许多更改，并仍然获得相同或类似的结果。

实施例1.

在示例性方法中，CRISPR-Cas9被用于纠正人细胞中的MYH7突变。简而言之，这些示例性研究中使用了含有MYH7 c.1208G>A(p.R403Q)突变(Mut)的患者来源的诱导多能干细胞(iPSC)。MYH7 p.R403Q突变占所有HCM引起的突变的三分之一，导致编码核苷酸1208从鸟嘌呤突变为腺嘌呤，导致最终蛋白质中的氨基酸403从精氨酸变为谷氨酰胺。图1A显示的是序列为5'-CCT CAG GTG AAA GTG GGC AA-3'(SEQ ID NO：1)的gRNA，其原间隔序列邻近基序(PAM)5'-TGAG-3'。在编码具有序列5'-CCT CAG GTG AAA GTG GGC AA-3'(SEQ ID NO:1)和原间隔序列邻近基序(PAM)5'-TGAG-3'的gRNA的质粒和编码ABEmax-SpCas9-NG的质粒进行核转染后(图1B)后，将突变的腺嘌呤核苷酸稳健地编辑回野生型鸟嘌呤核苷酸，而邻近的腺嘌呤核苷酸没有明显的旁观者编辑(图1C)。

接下来，将含有MYH7 c.1208G>A(p.R403Q)突变(Mut)的患者来源的诱导多能干细胞(iPSCs)或使用上述CRISPR-Cas9方法校正的iPSCs(Cor)分离出来并将其分化为心肌细胞(iPSC-CMs)(图2A，图6C)。对Mut iPSC-CMs和Cor iPSC-CMs的力生成(forcegeneration)的分析表明，在Cor株系中明显减少，这表明MYH7 p.R403Q突变的纠正减少了过强收缩表型(图2B)。这些数据表明，CRISPR-Cas9可用于改善患者的过强收缩表型。

实施例2.

在另一种示例性方法中，产生了转基因小鼠品系来模拟人MYH7p.R403Q突变(图3A)。具体来说，该小鼠品系在小鼠肌球蛋白重链6(Myh6)基因(小鼠中显性表达的肌球蛋白亚型)中含有与人相同的致病性突变(图3B)。对在一个等位基因(403/+)上携带错义突变的小鼠和在两个等位基因(403/403)上携带错义突变的小鼠相对于不含错义突变的小鼠(野生型，或"WT")以头对头的方式进行发育过程中的心脏表型监测。403/403小鼠在P8开始出现心脏增大(图4A-4C)。403/+小鼠在出生6个月后出现明显的心脏纤维化(图4D和4E)。

为了在人MYH7 p.R403Q突变小鼠模型中纠正Myh6.R403Q突变，设计了序列为5'-CCT CAG GTG AAG GTG GGG AA-3'(SEQ ID NO：2)的sgRNA，PAM为5'-CGAG-3'(SEQ ID NO：4)，用于基于腺相关病毒(AAV)的小鼠品系纠正(图5)。使用AAV递送和/或A碱基编辑器确定小鼠的在靶和脱靶编辑效率。通过AAV给人MYH7 p.R403Q突变小鼠模型施用sgRNA后，评估心脏功能，并与施用sgRNA前的心脏功能进行比较，以衡量小鼠的表型挽救情况。

实施例3确定用于纠正人iPSC中R403Q突变的ABE

碱基编辑器是Cas9切口酶或失活的Cas9与脱氨酶蛋白的融合蛋白，可在与单引导RNA(sgRNA)的原间隔序列邻近基序(PAM)位点相关的定义编辑窗口内进行碱基对编辑，而不会出现双链断裂。腺嘌呤碱基编辑器(ABE)使用脱氧腺苷脱氨酶，通过肌苷中间体将DNAA-T碱基对转换为G-C碱基对。为了筛选各种腺嘌呤碱基编辑器(ABE)的效率，使用基于CRISPR-Cas9的同源定向修复技术，将MYH7 c.1208G>A(p.R403Q)致病性错义突变插入到源自健康供体(HD^WT)的人诱导多能干细胞(iPSC)系中。分离出了反映患者中发现的杂合基因型的同基因杂合突变克隆(HD^403/+)，以及之前未在患者中描述过的同基因纯合突变克隆(HD^403/403)。测序结果证实，在生成这些克隆的过程中，高度同源的MYH6基因没有发生突变(图6A-6B)。

由于ABE在原间隔序列位点14-17位具有最佳活性窗口(将紧邻PAM序列5'的第一个核苷酸算作原间隔序列位点1)，选择了带有NGA PAM并且将MYH7 c.1208G>A突变置于原间隔序列位点16(h403_sgRNA)的sgRNA(图7A)。为了确定能够有效地将致病性核苷酸纠正回野生型核苷酸而不引入任何旁观者编辑的最佳ABE，对各种工程化的脱氨酶进行了测试，包括ABEmax(SEQ ID NO:7)，它是一种优化的窄窗口ABE7.10变体(SEQ ID NO:11)，或ABE8e(SEQ ID NO:9)，它是一种高处理性的宽窗口进化ABE7.10变体。每种脱氨酶变体的氨基酸和核酸序列见上表1和表2。每个工程化的脱氨酶变体都与工程化SpCas9变体融合，包括靶向NRN PAM的SpRY(SEQ ID NO:17)；靶向NGN PAM的SpG(SEQ ID NO:19)；靶向NG PAM的SpCas9-NG(SEQ ID NO:21)；或靶向NGAPAM的SpCas9-VRQR(SEQ ID NO:15)。每种SpCas9变体的氨基酸和核酸序列见上文表3和表4。然后通过瞬时转染h403_sgRNA，在我们的HD^403/ ⁴⁰³iPSC株系中筛选这些ABE的纠正效率(SEQ ID NO:1，图7B)。所有测试的ABEmax-SpCas9变体对致病性腺嘌呤的编辑效率相似，从ABEmax-SpRY的26±2.3％到ABEmax-VRQR的34±2.5％，对邻近腺嘌呤的旁观者编辑极少(三个旁观者的平均值为2.6±1.7％)。ABE8e-SpCas9变体的编辑效率更高，从ABE8e-SpRY(SEQ ID NO：57)的27±2.6％到ABE8e-SpG(SEQID NO：59)的37±1.5％，对邻近腺嘌呤的旁观者编辑略有增加(三个旁观者的平均值为4.0±2.0％)(图7C)。据预测，这些旁观者编辑会导致β-肌球蛋白重链中的K405E、K405R或K405G突变，具体取决于编辑的组合，虽然这些突变对β-肌球蛋白重链功能的影响尚未描述。在随后的实验中，使用了窗口更窄的ABEmax来减少潜在的旁观者编辑，并使用了对PAM要求更严格的SpCas9-VRQR变体来减少潜在的Cas依赖性的脱靶编辑。得到的融合蛋白(ABEmax-VRQR)的氨基酸序列为SEQ ID NO:45。在以下示例中使用的进一步包含核定位序列的同一融合蛋白的氨基酸序列为SEQ ID NO:46。这些实施例中所述的所有脱氨酶-切口酶蛋白的氨基酸序列和编码核酸见上表7和表8。

实施例4源自HCM患者的iPSC的纠正效率和脱靶DNA编辑分析

为了将ABEmax-VRQR和h403_sgRNA系统应用于疾病模型，从两名患有MYH7^403/+突变的HCM患者(HCM1^403/+和HCM2^403/+)获得了人诱导多能干细胞(iPSC)，通过质粒核转染ABEmax-VRQR-P2a-EGFP和h403_sgRNA(SEQ ID NO：1)对MYH7^403/+突变进行了纠正，并对GFP⁺细胞进行荧光激活细胞分选(图8A)。高通量测序(HTS)显示，尽管在靶编辑率为98-99％，但使用生物信息学工具CRISPOR确定的8个测试候选脱靶位点的全部58个腺嘌呤碱基上发生的脱靶DNA编辑极少或没有(0.12％或更少)(图8B、图9和下表16)。在β-肌球蛋白氨基酸505(K505)的三个旁观者腺嘌呤上观察到了低频率(0.03-0.48％)的旁观者编辑。为了进行后续表征，从源自HCM患者的iPSC(HCM1^WT和HCM2^WT)分离出不包含旁观者编辑或高度同源的MYH6基因编辑的纠正克隆系。这些结果表明，带有ABEmax-VRQR的h403_sgRNA可以高效、特异性地纠正靶标致病性错义突变，同时将旁观者编辑减少到最低程度，并且几乎没有DNA脱靶编辑。

表16

实施例5-经ABE纠正的源自患者iPSC的CM的功能分析

为了确定碱基编辑纠正在人心肌细胞(CM)中的功能性影响，使MYH7^403/+突变和MYH7^WT健康克隆株系的所有三个源自患者的株系(HD、HCM1、和HCM2)分化为CM，以研究基因编辑纠正对CM功能的影响(图8A)。

CM的标志性特征是产生收缩力。HCM会导致收缩力过强，从而增加收缩力的产生。为了研究基因编辑纠正是否能减少我们的源自HCM患者的株系中的过强收缩力生成，将iPSC-CM以单细胞的密度在柔软的聚二甲基硅氧烷表面上培养，记录CM收缩的高帧率视频，并计算收缩力峰值。与最初来自健康供体的HD^WT iPSC-CM相比，HD^403/+iPSC-CMs的收缩力峰值增加了1.7倍。另一方面，纠正后的HCM1^WT和HCM2^WT CM与同源的HCM1^403/+和HCM2^403/+相比，收缩力峰值分别下降至1/2和1/1.6(图8C)。

先前的研究表明，HCM突变会导致ATP消耗增加和细胞代谢改变，因此在基因编辑纠正后，通过代谢通量测定评估了细胞能量的变化。与HD^WT iPSC-CM相比，HD^403/+iPSC-CM的基础氧消耗率(OCR)增加了1.6倍；与HD^WT iPSC-CM相比，HD^403/+iPSC-CM的最大OCR增加了2.1倍。与同源的HCM1^403/+和HCM2^403/+CM相比，纠正后的HCM1^WT和HCM2^WT Cs的基础OCR分别降低至1/1.4和1/1.2，最大OCR分别降低至1/3.7和1/2.1(图8D)。这些数据表明，纠正人HCMCM的致病性突变足以减少过强收缩表型并恢复正常的细胞能量。

实施例6人源化HCM小鼠模型的开发

上述碱基编辑方法适用于HCM小鼠模型。β-肌球蛋白重链是成年人心脏中发现的主要肌球蛋白同种型，而高度同源的α-肌球蛋白重链是成年小鼠心脏中表达的主要肌球蛋白同种型，由Myh6基因编码。因此，之前描述的HCM小鼠模型将相应的人MYH7突变置于小鼠Myh6基因上，以说明这些表达差异。虽然在人MYH7和小鼠Myh6之间的R403附近的30个氨基酸100％相同，但编码该蛋白质区域的DNA序列却不相同(图10)。因此，针对人基因组开发的sgRNA和编辑策略可能无法直接应用于小鼠模型。

为了利用我们的人序列特异性碱基编辑策略进行临床前研究，我们生成了人源化小鼠模型，该模型在小鼠Myh6基因内包含MYH7 c.1208G>A(p.R403Q)人错义突变，该基因在突变的上下游至少具有22个核苷酸与人DNA序列相同，以便测试人基因组特异性CRISPR策略(图11A)。另一个Myh6等位基因包含未修饰的小鼠基因组序列。这种人源化小鼠模型(Myh6^h403/+)反映了之前描述的Myh6 p.R403Q小鼠模型的表型。最值得注意的是，纯合小鼠(Myh6^h403/h403)心房增大，间质广泛纤维化，并在出生后一周内死亡(图11B)。9个月大时，Myh6^h403/+小鼠已发展出心肌病，心室明显肥大、肌细胞混乱和纤维化(图11C)。

实施例7-对人HCM小鼠模型进行体内ABE治疗

ABEmax-VRQR和h403_sgRNA被封装在腺相关病毒(AAV)中。由于全长的碱基编辑器(约5.6kb)超过了单个AAV9的包装极限(约4.7kb)，因此碱基编辑器被分成了两个AAV9(SEQID NO：86和91)，并使用反式剪接内含肽在细胞中表达蛋白质时重组全长碱基编辑器。由于AAV9具有广泛的组织趋向性，因此使用了心肌肌钙蛋白T启动子来限制碱基编辑器表达为CM。在这个双AAV9系统中，每个AAV9还包含编码h403_sgRNA的表达盒的单拷贝(图12A)。两种载体及其组成成分见上表9和表10。

Myh6^h403/h403小鼠在出生后一周内就会死亡，通过尝试挽救这种小鼠，我们的双AAV9 ABE系统的效率得到了验证。值得注意的是，目前还没有人类患者具有纯合基因型的报道。给P0(出生后第0天)Myh6^h403/h403幼鼠胸腔内注射生理盐水、低剂量(4×10¹³vg/kg)或高剂量(1.5×10¹⁴vg/kg)的各AAV9(低剂量共计8×10¹³vg/kg，高剂量为3×10¹⁴vg/kg)，并监测其发育情况(图13A)。3×10¹⁴vg/kg高剂量是临床试验中的最高剂量。Myh6^h403/+和Myh6^WT小鼠在断奶后一直存活到成年。生理盐水注射小鼠的中位存活期为7.0天，而低剂量ABE处理小鼠的中位存活期延长至9.0天(延长1.3倍，经Mantel-Cox检验，P<0.05)。高剂量ABE处理的小鼠的中位存活期延长至15.0天(延长2.1倍，经Mantel-Cox检验，P<0.01)(图13B)。对高剂量小鼠心脏cDNA的Sanger测序表明，致病性突变核苷酸在转录水平上的纠正率为35％，这表明我们的双AAV9ABE系统能够在心脏中进行编辑(图13A-13D)。

由于MYH7 p.R403Q突变仅以杂合形式存在于人类患者中，因此我们利用AAV9 ABE系统来预防Myh6^h403/+小鼠HCM发病。Myh6^h403/+P0幼鼠胸腔内注射生理盐水或1×10¹⁴vg/kg的各AAV9(共2×10¹⁴vg/kg)，并给同窝Myh6^WT对照组幼鼠注射生理盐水(图12B)。在小鼠5周龄时，给它们喂食含0.1％环孢素A的周氏饲料，先前已有研究表明环孢素A会加速肌节突变的小鼠模型中HCM的发病。在小鼠8周、12周和16周龄时进行连续超声心动图检查，以监测疾病进展。与Myh6^WT对照组相比，Myh6^h403/+小鼠的HCM特征增加，包括舒张期左心室前壁厚度(LVAW；d)增加(1.07±0.0443mm，vs.0.883±0.0441mm，P＝0.017)和左心室后壁厚度(LVPW；d)增加(1.04±0.0809mm vs.0.867±0.0590mm，P＝0.128)。这些小鼠的左心室的舒张期内径(LVID；d)(2.34±0.142mm，vs.2.81±0.0540mm，P＝0.015)和收缩期内径(LVID；s)(0.940±0.0713mm vs.1.24±0.0520，P＝0.010)也有所减小，但射血分数(EF)和分数缩短(FS)略有增加。Myh6^h403/+小鼠心室壁厚度增加，同时心室直径减小，这与人类患者的临床进展一致。

相比之下，经ABE处理的Myh6^h403/+小鼠的超声心动图测量结果与Myh6^WT对照组小鼠相当，这表明致病性核苷酸的基因纠正足以预防HCM的发生(图12C-12H，表1，图15A)。组织学分析还显示，与Myh6^WT对照组小鼠相比，Myh6^h403/+小鼠的心壁厚度增加，心室直径减小，而ABE处理的Myh6^h403/+小鼠的心脏尺寸与Myh6WT对照组小鼠相似(图12I-12K)。当归一化至胫骨长度时，按心脏重量计算，Myh6^h403/+小鼠的心脏比Myh6^WT对照小鼠大1.3倍，而ABE处理的Myh6^h403/+小鼠的心脏重量与Myh6^WT小鼠相比没有显著差异(图12L)。作为纤维化的衡量标准，与Myh6^WT对照组小鼠相比，Myh6^h403/+小鼠心脏的胶原面积增加了3.0倍，而ABE处理的Myh6^h403/+小鼠与Myh6^WT小鼠相比，胶原面积没有显著差异(图12M)。这些数据表明，双AAV9ABE处理足以防止HCM介导的心脏病理重构的发生。

实施例8经ABE处理的小鼠的基因组和转录组分析

为了确定碱基编辑后基因组和转录组的变化，从生理盐水处理的Myh6^WT对照小鼠、生理盐水处理的Myh6^h403/+小鼠和ABE处理的Myh6^h403/+小鼠中分离出CM核(图14A)。首先评估了双AAV9 ABE处理后的在靶编辑效率。在ABE处理的Myh6^h403/+小鼠中，靶标致病性腺嘌呤的DNA编辑效率为32.3±2.87％，与Myh6^h403/+小鼠相比，突变转录本减少了33.1±9.08％(图14B-C)，这与其他使用碱基编辑或基于RNAi的突变转录本敲除的体内研究相当。此外，在ABE处理的Myh6^h403/+小鼠中没有检测到旁观者编辑(图14D)。然后使用全转录组RNA测序(RNA-seq)评估潜在的脱靶RNA编辑，因为ABEmax含有脱氨酶活性。RNA-seq分析显示，与生理盐水处理的小鼠相比，ABE处理的小鼠转录组中A到I编辑的平均频率没有显著变化(图14E)。这一发现表明，用我们的双AAV9 ABE系统进行体内处理不会使RNA脱氨增加到高于内源性细胞脱氨酶活性的背景水平。

通过RNA-seq评估了经ABE处理的Myh6^h403/+小鼠的全转录组变化。在Myh6^WT小鼠和Myh6^h403/+小鼠之间确定了257个差异调控基因。热图显示，ABE处理的Myh6^h403/+小鼠的转录组图谱，与Myh6^WT小鼠而非Myh6^h403/+小鼠更相似(图14F，图15B-15D)。Myh6^h403/+小鼠和Myh6^WT小鼠之间差异调控基因的基因本体分析表明细胞间信号传导和血管生成失调，而Myh6^h403/+小鼠和ABE处理的Myh6^h403/+小鼠之间细胞间信号传导失调(下表17)。此外，与Myh6^WT小鼠相比，Myh6^h403/+小鼠中原型肥大标记物Nppa的表达高2.8倍，而ABE处理的Myh6^h403/+小鼠中Nppa的表达与Myh^WT小鼠无显著差异(图14G)。总之，这些数据表明，双AAV9ABE系统能有效纠正基因组DNA中的致病性突变核苷酸，并防止转录组失调。

表17

实施例9-材料与方法

研究设计与批准本研究的目的是确定致病性HCM引起的突变的碱基编辑纠正是否能防止人CM和人源化小鼠模型出现HCM病理特征。在人CM中，通过对源自HCM患者的iPSC进行碱基编辑纠正，并测量CM特征功能的变化来实现这一目的。在人源化小鼠模型中，使用双AAV9系统将碱基编辑成分输送到CM，并测量心脏功能、尺寸和转录组学的变化。附图说明中报告了所有实验的重复次数、重复类型和使用的统计检验。体外CM实验的数据收集自三次独立的分化，没有排除异常值或其他数据点。在体内实验中，雄性小鼠根据基因型被处理。超声心动图测量以盲法进行。体重下降超过平均值2个标准差的小鼠将被排除在外。终点以超声心动图测量结果的变化为指导。本说明书中描述的动物工作已获得批准，并在UT西南大学动物护理和使用委员会的监督下进行。

质粒和载体构建pSpCas9(BB)-2A-GFP(PX458)质粒由张锋赠送(Addgene质粒#48138)，并用作克隆下列碱基编辑器和SpCas9切口酶的主要支架：ABE8e，由David Liu惠赠(Addgene质粒#138489)；VRQR-ABEmax，由David Liu惠赠(Addgene质粒#119811)；NG-ABEmax，由David Liu惠赠(Addgene质粒#124163)；pCMV-T7-SpG-HF1-P2A-EGFP(RTW5000)，由Benjamin Kleinstiver惠赠(Addgene质粒#139996)；pCMV-T7-SpRY-HF1-P2A-EGFP(RTW5008)，由Benjamin Kleinstiver惠赠(Addgene质粒#139997)。N端ABE和C端ABE构建物改编自Cbh_v5AAV-ABEN端(Addgene质粒#137177)和Cbh_v5 AAV-ABEC端(Addgene质粒#137178)，并由Twist Bioscience合成。使用PrimeStar GXL聚合酶(Takara)对所选质粒进行PCR扩增，并使用NEBuilder HiFi DNAAssembly(NEB)将其克隆到限制性酶消化的目的载体中。

源自患者的iPSCs和同源突变株的生成使用仙台病毒将两名MYH7c.1208G>A(p.R403Q)突变患者的外周血单核细胞(PBMC)重编程为iPSC(HCM1和HCM1)。HCM1株系来源于一名56岁女性，她有广泛的HCM家族史，非阻塞性HCM伴有左心室射血分数降低和最大摄氧量低(VO₂max)的病史。因完全性心脏传导阻滞而安装了双心室起搏器。HCM2株系来自一名32岁的男性，他有HCM病史、植入式心律转复除颤器，并有较强的HCM家族史。他的左心房扩张，但最大VO₂、代谢当量(MET)有所改善，心肺运动测试也未显示心房颤动的证据。在UT西南威尔斯顿肌编辑核心(UT Southwestern Wellstone Myoediting Core)使用仙台病毒(CytoTune 2.0Sendai Reprogramming Kit，ThermoFisher Scientific)将健康男性捐献者(HD)的PBMC重编程为iPSC。为了通过同源定向修复产生含有MYH7 c.1208GG>A(p.R403Q)突变的同基因iPSC，使用P3 Primary Cell 4D-Nucleofector X Kit(Lonza)，和编码突变的单链寡核苷酸(ssODN)模板(Integrated DNATechnologies,IDT)的PX458质粒对HD iPSC进行核转染，PX458载体编码SpCas9-P2a-EGFP和靶向MYH7的sgRNA。为了对源自HCM1和HCM2患者的株系进行碱基编辑纠正，用编码ABEmax-VRQR-P2a-EGFP和h403_sgRNA的质粒对iPSC进行核转染。48小时后，通过荧光激活细胞分选收集GFP+iPSC，进行克隆扩增，并通过Sanger测序进行基因分型(所用引物见表18)。

iPSC的维持和分化iPSC的培养和分化按照之前的描述进行(F.Chemello,A.C.Chai,H.Li,C.Rodriguez-Caycedo,E.Sanchez-Ortiz,A.Atmanli,A.A.Mireault,N.Liu,R.Bassel-Duby,E.N.Olson,Precise correction of Duchenne musculardystrophy exon deletion mutations by base and prime editing(碱基和引物编辑精确纠正Duchenne型肌营养不良外显子缺失突变).Sci Adv(科学进展)7,(2021))。简而言之，iPSC在涂有Matrigel(康宁)的组织培养聚苯乙烯板上培养，并在mTeSR1培养基(STEMCELL)中保持，在70-80％融合度时使用Versene进行传代。用CHIR99021(Selleckchem)在添加抗坏血酸(50μg/mL)和不含胰岛素的B27(RPMI/B27-)的RPMI中处理iPSC 24小时(从第0天(d0)到第1天(d1))，使其在70-80％融合度时分化为CM。在d1，用RPMI/B27-更换培养基。在d3，用添加了WNT-C59(Selleckchem)的RPMI/B27-处理细胞。在d5，用RPMI/B27-更换介质。从d7开始，iPSC-CM在添加抗坏血酸(50μg/mL)和B27(RPMI/B27)的RPMI中保持，每3-4天更换一次培养基。从d7开始对CM进行为期6天的代谢选择，在不含葡萄糖的RPMI中培养细胞，并补充5mM DL-乳酸钠和CDM3补充剂(500μg/mL源自Oryza sativa(稻米)的重组人白蛋白，A0237，Sigma-Aldrich；和213μg/mL L-抗坏血酸2-磷酸，Sigma-Aldrich)。为诱导其成熟，iPSC-CM被保存在RPMI中，不添加补充有B27、50μmol棕榈酸、100μmol油酸、10mmol半乳糖和1mmol谷氨酰胺(Sigma-Aldrich)的葡萄糖。所有CM功能研究均在d40-50时进行。

质粒转染和编辑效率分析转染前24小时，将iPSC接种到48孔板上。在约20％融合度时，用0.5μg编码碱基编辑器的质粒和h403_sgRNA瞬时转染细胞，每孔使用1μLLipofectamine Stem转染试剂(Thermo Fisher)。转染后48小时，用直接PCR裂解试剂(细胞)(Viagen)裂解细胞。使用PrimeStar GXL聚合酶(Takara)对靶标位点进行PCR扩增，并在Sanger测序前使用ExoSap-IT Express(ThermoFisher)进行PCR清理。色谱图使用EditR进行分析，以确定碱基编辑效率。

iPSC-CM的收缩力分析iPSC-CM以单细胞密度在柔性聚二甲基硅氧烷(PDMS)527基质(杨氏模量＝5kPa)上培养，该基质是根据先前制定的方案制备的(A.Atmanli,A.C.Chai,M.Cui,Z.Wang,T.Nishiyama,R.Bassel-Duby,E.N.Olson,Cardiac MyoeditingAttenuates Cardiac Abnormalities in Human and Mouse Models of DuchenneMuscular Dystrophy(心肌编辑减轻Duchenne肌营养不良人类和小鼠模型中的心脏异常)Circ Res(循环研究)129,602-616(2021))。在共振扫描模式下，使用尼康A1R+共焦系统在37℃下以每秒59帧的速度采集了iPSC-CM收缩的记录。iPSC-CM产生的收缩力采用先前建立的方法进行量化。简而言之，使用Fiji分析记录，测量收缩过程中的最大和最小细胞长度以及细胞宽度。之前发表的定制Matlab代码用于计算收缩力峰值(J.D.Kijlstra、D.Hu、N.Mittal、E.Kausel、P.van der Meer、A.Garakani、I.J.Domian，Integrated Analysis ofContractile Kinetics,Force Generation,and Electrical Activity in Single HumanStem Cell-Derived Cardiomyocytes(单个人干细胞来源的心肌细胞收缩动力学、力产生和电活动的综合分析)，Stem Cell Reports(干细胞报告)5，1226-1238(2015))。

iPSC-CM细胞外通量分析iPSC-CM以每孔40,000个细胞的数量在涂有Matrigel的Seahorse XFe96 V3 PS细胞培养微孔板(安捷伦)中培养。细胞培养一周后，用预热的检测培养基(不含丙酮酸盐的DMEM(Sigma D5030)(补充有2mM L-谷氨酰胺、1mM丙酮酸钠和10mM葡萄糖，pH7.4)洗涤细胞三次，然后在37℃的无CO₂培养箱中培养60分钟。在SeahorseXFe96仪器中测量耗氧率(OCR)，使用测量2分钟，等待10秒，混合3分钟的连续循环。线粒体应激测试是通过在指定时间间隔注射寡霉素(最终浓度为2μM)、CCCP(最终浓度为1μM)和抗霉素A(最终浓度为1μM)来进行的。使用WAVE软件(安捷伦)分析数据。

免疫荧光染色将iPSC-CM细胞在玻璃表面培养，用4％多聚甲醛固定10分钟，然后用5％山羊血清/0.1％吐温-20(Sigma-Aldrich)封闭1小时。一抗和二抗在封闭缓冲液中稀释后分别加入细胞中2小时和1小时。细胞核用DAPI复染。所用抗体包括肌结α-辅肌动蛋白(克隆EA-53，A7811，Sigma-Aldrich，1:600稀释)和山羊抗小鼠IgG1 Alexa 488(A21121，Thermo-Fisher，1:600稀释)。

脱靶分析利用CRISPOR确定了候选脱靶位点，并根据切割频率测定(CFD)评分最高的8个位点，成功获得PCR产物。使用DNeasy血液和组织试剂盒(Qiagen)从编码ABEmax-VRQR-P2a-EGFP和h403_sgRNA的质粒核转染的HCM1、HCM2和HD细胞系中分离基因组DNA，并对GFP+细胞分选。使用PrimeStar GXL聚合酶(Takara)对靶标位点进行PCR扩增，并在第二轮PCR中添加Illumina流式细胞结合序列和条形码。PCR产物用AMPure XP Beads(BeckmanCoulter)纯化，在2200TapeStation系统(Agilent)上分析其完整性，并用QuBit dsDNA高灵敏度测定法(Invitrogen)进行定量，然后汇集并加载到Illumina MiSeq上。在解复用之后，用CRISPResso2分析所得读数的编辑频率(K.Clement、H.Rees、M.C.Canver、J.M.Gehrke、R.Farouni、J.Y.Hsu、M.A.Cole、D.R.Liu、J.K.Joung、D.E.Bauer、L.Pinello，CRISPResso2provides accurate and rapid genome editing sequence analysis(CRISPResso2提供准确快速的基因组编辑序列分析)。Nat Biotechnol(自然-生物技术)37,224-226(2019).

腺相关病毒的生成重组AAV9(rAAV9)病毒在密歇根大学载体核心(University ofMichigan Vector Core)使用通过碘克沙醇梯度的超速离心法制成。使用Amicon Ultra离心过滤单元(Millipore)用PBS冲洗rAAV9 3次，然后重悬于PBS+0.001％ Pluronic F68中。通过qPCR评估滴度。rAAV9以25μL等分样品的形式保存在-80℃下。

小鼠小鼠饲养在光暗周期为12小时：12小时的隔离设施中，并维持标准饲料(2916Teklad Global)。根据修改后的方案(H.Miura,R.M.Quadros,C.B.Gurumurthy,M.Ohtsuka,Easi-CRISPR for creating knock-in and conditional knockout mousemodels using long ssDNA donors(Easi-CRISPR用于使用长ssDNA供体创建敲除和条件性敲除小鼠模型).Nat Protoc(自然-实验手册)13,195-215(2018))，通过向受精卵显微注射Cas9 mRNA(50ng/μL)(TriLink Biotechnologies)、sgRNA(20ng/μL)(IDT)和ssODN供体模板(15ng/μL)(IDT)引入人源化Myh6^h403/+突变。基因分型使用定制的TaqMan SNP基因分型测定(ThermoFisher)进行。为了加速HCM的发病，小鼠接受了含有1克/千克的环孢素A(AlfaAesar)和0.2克/千克的蓝色食品染料的定制饲料(2916Teklad Global base)。对于注射，小鼠在P0时进行基因分型，然后使用31G胰岛素注射器通过剑突下的膈肌进入下纵隔，单次注射40μL的AAV9或生理盐水，避开心脏和肺部。

经胸超声心动图使用VisualSonics Vevo2100成像系统，通过二维经胸超声心动图评估清醒小鼠的心脏功能。M型描记图用于测量舒张期LV前壁厚度(LVAW；d)、舒张期LV后壁厚度(LVPW；d)、舒张末期LV内径(LVIDd)和收缩末期LV内径(LVIDs)。FS根据以下公式计算：FS(％)＝[(LVIDd-LVIDs)/LVIDd]×100。EF根据以下公式计算：EF(％)＝[(LVEDV-LVESV)/LVEDV]×100。所有测量均由一名经验丰富、对研究不知情的操作员进行。

组织学解剖小鼠心脏，将其浸没在含心脏停搏液0.2M KCl的PBS中5分钟，然后在PBS中的4％多聚甲醛中固定过夜，接着在70％乙醇中脱水并进行石蜡包埋。按500μm的间隔切取横向切片并装入载玻片，然后进行H&E染色或Masson三色染色。用BZ-X一体显微镜(Keyence)以10倍或40倍放大倍数拍摄图像。

CM核的分离每个核样本都要分离心室组织。CM核的分离方法如先前所描述(M.Cui,E.N.Olson,Protocol for Single-Nucleus Transcriptomics of Diploid andTetraploid Cardiomyocytes in Murine Hearts(小鼠心脏二倍体和四倍体心肌细胞的单核转录组学方案)STAR Protoc 1,100049(2020)。分离出的细胞核可立即用于下游处理，或保存在-80℃的Nuclei PURE存储缓冲液(Sigma Aldrich)中。对于RNA-seq和qPCR，使用RNeasy Micro Kit(Qiagen)从细胞核中分离RNA。DNA测序时，用直接PCR裂解试剂(细胞)(Viagen)裂解细胞核。

RNA-seq文库制备、测序和分析。使用含有Illumina测序适配体的SMARTerStranded Total RNA-Seq Kit v2-Pico Input Mammalian kit(Takara)生成RNA-seq文库。文库在2200TapeStation系统(安捷伦)上进行可视化，并通过QuBit dsDNA高灵敏度检测(Invitrogen)进行定量，然后汇集并加载到Illumina NextSeq 500上。使用FastQC工具(0.11.8版)对RNA-seq数据进行质量控制，以确定需要修整的低质量读数或适配体部分。使用Trimmomatic(0.39版)对读数进行修整，并使用RSeQC(4.0.0版)确定链度(strandness)，然后使用HiSAT2(2.1.0版)以默认设置和-rna-strandness R将读数与mm10参考基因组进行比对。使用featureCount(1.6.2版本)对比对读数进行计数。差异基因表达分析使用R软件包DESeq(1.38.0版)进行。样本组间比较中，将倍数变化大于2且p值小于0.01的基因指定为DEG。为了计算全转录组测序分析中腺苷酸序列中A到I编辑的平均百分比，我们采用了先前的一种策略(L.W.Koblan、M.R.Erdos、C.Wilson、W.A.Cabral、J.M.Levy、Z.M.Xiong、U.L.Tavarez,L.M.Davison,Y.G.Gete,X.Mao,G.A.Newby,S.P.Doherty,N.Narisu,Q.Sheng,C.Krilow,C.Y.Lin,L.B.Gordon,K.Cao,F.S.Collins,J.D.Brown,D.R.Liu,Invivo base editing rescues Hutchinson-Gilford progeria syndrome in mice(体内碱基编辑可拯救小鼠哈钦森-吉尔福德早衰综合征).Nature(自然)589,608-614(2021)。简而言之，REDItools2用于量化每个样本中编辑的百分比。除腺嘌呤外的核苷酸被剔除，剩余的腺嘌呤如果读数覆盖率低于10或读数质量得分低于25，也会被过滤掉，以避免因采样率低或测序质量低而造成的错误。然后，我们计算每个样本中A到I转换的数量，再除以过滤后数据集中腺苷酸的总数，得出转录组中A到I编辑的百分比。

实时定量PCR分析。使用Applied Biosystems TaqMan Fast Advanced MasterMix(Applied Biosystems)组装定量聚合酶链式反应(qPCR)。使用Applied BiosystemsQuantStudio 5Real-Time PCR系统(Applied Biosystems)进行分析。表达值相对于18SmRNA归一化，以倍数变化表示。

统计数据。如所示出的，所有数据均以平均值±s.e.m.或平均值±s.d.表示。如图所示，两组间的比较采用非配对双尾学生t检验。Kaplan-Meier分析和Log-rank(Mantel-Cox)检验用于评估不同基因型之间的存活率差异。数据分析使用统计软件(GraphPadPrism Software)进行。P值小于0.05被认为具有统计学意义。

以下的表18中提供了上述方法中使用的寡聚物/引物和其他核酸。

表18-寡聚物总结

/>

Claims

1.一种gRNA，其包含与SEQ ID NO:1或2的DNA核苷酸序列相对应的间隔序列。

2.根据权利要求1的所述gRNA，其中所述gRNA包含与SEQ ID NO:5或6具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的间隔序列。

3.根据权利要求1或2所述的gRNA，其中gRNA包含包括SEQ ID NO:5或6的间隔序列或由SEQ ID NO:5或6组成的间隔序列。

4.一种融合蛋白，其包含与Cas9切口酶或失活的Cas9核酸内切酶共价连接的脱氨酶。

5.根据权利要求4所述的融合蛋白，其中所述脱氨酶选自ABEmax、ABE8e、ABE7.10及其任意功能变体。

6.根据权利要求5所述的融合蛋白，其中，所述脱氨酶包含与SEQ ID NO：7、9和11中的任意一个具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％序列同源性的氨基酸序列。

7.根据权利要求6所述的融合蛋白，其中所述脱氨酶包含包括SEQ ID NO:7、9和11的氨基酸序列。

8.根据权利要求7所述的融合蛋白，其中所述脱氨酶包含包括SEQ ID NO:7的氨基酸序列。

9.根据权利要求4至8中任一项所述的融合蛋白，其中，Cas9切口酶或失活的Cas9核酸内切酶选自SPRY、SpG、SpCas9-NG、SpCas9-VRQR或其变体。

10.根据权利要求9所述的融合蛋白，其中，所述Cas9切口酶或失活的Cas9核酸内切酶包含与SEQ ID NO:15、17、19和21中的任意一个具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％序列同源性的氨基酸序列。

11.根据权利要求10所述的融合蛋白，其中，所述Cas9切口酶或失活的Cas9核酸内切酶包含包括SEQ ID NO:15、17、19和21中的任意一个的氨基酸序列。

12.根据权利要求11所述的融合蛋白，其中所述Cas9切口酶或失活的Cas9核酸内切酶包含包括SEQ ID NO:15的氨基酸序列。

13.根据权利要求4至12中任一项所述的融合蛋白，其中所述脱氨酶通过肽连接子与Cas9切口酶或失活的Cas9核酸内切酶共价连接。

14.根据权利要求13所述的融合蛋白，其中肽连接子包含包括SEQ ID NO:27的氨基酸序列。

15.根据权利要求4至14中任一项所述的融合蛋白，其中所述脱氨酶和/或Cas9切口酶或失活的Cas9核酸内切酶进一步包含核定位信号(NLS)肽。

16.根据权利要求15所述的融合蛋白，其中所述核定位信号(NLS)肽选自SEQ ID NO:31-42中的任意一个。

17.根据权利要求14.2所述的融合蛋白，其中核定位信号(NLS)肽包含SEQ ID NO:31或SEQ ID NO:32。

18.根据权利要求4至18中任一项所述的融合蛋白，其中融合蛋白包含与SEQ ID NO:45-60中任意一个具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％序列同源性的氨基酸序列。

19.根据权利要求18所述的融合蛋白，其中氨基酸序列包含SEQ ID NO:45至60中的任意一个或由SEQ ID NO:45至60中的任意一个组成。

20.根据权利要求19所述的融合蛋白，其中氨基酸序列包含SEQ ID NO:45或46，或由SEQ ID NO:45或46组成。

21.一种分离的核酸，其编码权利要求1至3中任一项所述的gRNA。

22.一种分离的核酸，其编码权利要求4至20中任一项所述的融合蛋白或其片段。

23.一种病毒载体，其包含权利要求21所述的核酸和/或权利要求22所述的核酸。

24.一种根据权利要求23的病毒载体对,其包括：

(a)第一病毒载体，包含编码权利要求4至20中任一项所述的融合蛋白第一片段的核酸；以及

(b)第二病毒载体，编码所述融合蛋白的第二片段，其中所述融合蛋白的第一片段和第二片段可以进行蛋白反式剪接以形成所述融合蛋白。

25.根据权利要求24所述的病毒载体对，其中所述第一病毒载体和/或第二病毒载体进一步包括编码权利要求1至3中任一项所述的gRNA的核酸。

26.一种药物组合物，其包括权利要求21或22所述的核酸、权利要求23所述的病毒载体和/或权利要求24或25所述的病毒载体对，以及药学上可接受的载体、稀释剂和/或赋形剂。

27.根据权利要求26所述的药物组合物，还包括脂质体。

28.一种纠正细胞中MYH7基因突变的方法，所述方法包括向细胞递送：Cas9切口酶或失活的Cas9核酸内切酶、脱氨酶和靶向选自SEQ ID NO.1或2中任意一个的DNA核苷酸序列的gRNA，或编码Cas9切口酶或失活的Cas9核酸内切酶、脱氨酶和/或gRNA的一种或多种核酸，以影响MYH7基因内或其附近的一个或多个单链断裂(SSB)，导致MYH7基因内或其附近的至少一个核苷酸的一个或多个突变，从而纠正MYH7基因的突变。

29.根据权利要求28所述的方法，包括向细胞递送根据权利要求21和/或权利要求22所述的核酸。

30.根据权利要求28所述的方法，包括向细胞递送根据权利要求23所述的一种或多种病毒载体。

31.根据权利要求28所述的方法，包括向细胞递送根据权利要求24和/或25所述的病毒载体对。

32.一种在有需要的受试者中治疗由MYH7基因突变引起的心肌病的方法，所述方法包括向表达MYH7基因的受试者中的至少一个细胞递送：RNA引导的切口酶、脱氨酶和靶向选自SEQ ID NO:1或2的DNA核苷酸序列的gRNA，或一种或多种编码RNA引导的切口酶、脱氨酶和/或gRNA的核酸，以影响MYH7基因内或其附近的一个或多个单链断裂(SSB)，导致MYH7基因内或其附近的至少一个核苷酸的一个或多个突变，从而纠正受试者至少一个细胞中MYH7基因的突变。

33.根据权利要求32所述的方法，所述方法包括向受试者施用权利要求26或27所述的药物组合物。

34.根据权利要求32或33所述的方法，其中MYH7基因突变包含一个或多个单核苷酸多态性，从而导致突变的MYH7基因编码的蛋白产物中的单个氨基酸置换。

35.根据权利要求34所述的方法，其中所述蛋白产物是肌球蛋白或肽，所述单个氨基酸置换包含根据SEQ ID NO:96的R403Q。

36.一种基因编辑小鼠，其包含人核酸，所述人核酸包含插入内源小鼠Myh6基因内以形成人源化突变Myh6等位基因的MYH7c.1208G>A(p.R403Q)人源错义突变。

37.根据权利要求36所述的基因编辑小鼠，其中所述人核酸进一步包含与所述错义突变相邻且在所述错义突变上游的第一多核苷酸，以及与错义突变相邻且在所述错义突变下游的第二多核苷酸。

38.根据权利要求37所述的基因编辑小鼠，其中所述第一多核苷酸包含约30至75个核苷酸、约35至约70个核苷酸、约40至约65个核苷酸或约45至约60个核苷酸。

39.根据权利要求38所述的基因编辑小鼠，其中所述第一多核苷酸包含55个核苷酸或由55个核苷酸组成。

40.根据权利要求36至39中任一项所述的基因编辑小鼠，其中所述第二多核苷酸包含约10至30个核苷酸、约15至25个核苷酸或约20至25个核苷酸。

41.根据权利要求36至40中任一项所述的基因编辑小鼠，其中所述第二多核苷酸包含21个核苷酸或由21个核苷酸组成。

42.根据权利要求36至41中任一项所述的基因编辑小鼠，其中所述人核酸包含SEQ IDNO:97的核苷酸序列。

43.根据权利要求36至42中任一项所述的基因编辑小鼠，其中所述小鼠的至少一个细胞表达相对于包含SEQ ID NO:94的野生型肌球蛋白的包含R404Q置换的突变肌球蛋白。

44.根据权利要求36至43中任一项所述的基因编辑小鼠，其中所述小鼠还包含野生型Myh6等位基因，并且所述小鼠是人源化突变Myh6等位基因的杂合子。