CN117940566A

CN117940566A - 用于治疗血红蛋白病的系统和方法

Info

Publication number: CN117940566A
Application number: CN202280058557.3A
Authority: CN
Inventors: K·常
Original assignee: Editas Medicine Inc
Current assignee: Editas Medicine Inc
Priority date: 2021-08-02
Filing date: 2022-08-02
Publication date: 2024-04-26

Abstract

提供了基因组编辑系统、向导RNA和CRISPR介导的方法，用于改变细胞中的HBG1和HBG2基因座的部分并且增加胎儿血红蛋白的表达。

Description

用于治疗血红蛋白病的系统和方法

优先权要求

本申请要求于2021年8月2日提交的美国临时申请第63/228,509号以及于2021年11月12日提交的美国临时申请第63/278,899号的权益，这两个美国临时申请通过引用整体并入本文。

序列表

本申请含有以ASCII格式经由EFS-Web递交的序列表并且所述序列表据此通过引用整体并入。创建于2021年11月12日的所述ASCII副本命名为SequenceListing.txt，并且大小为699KB。

技术领域

本公开涉及用于改变靶核酸序列或调节靶核酸序列的表达的基因组编辑系统和方法，以及其与编码血红蛋白亚基的基因的改变和/或血红蛋白病的治疗相关的应用。

背景技术

血红蛋白(Hb)将红血球或红细胞(RBC)中的氧气从肺部携带到组织。在产前发育期间直至出生后不久，血红蛋白以胎儿血红蛋白(HbF)，一种由两条alpha(α)-珠蛋白链和两条gamma(γ)-珠蛋白链组成的四聚体蛋白，的形式存在。HbF大部分被成人血红蛋白(HbA)，一种四聚体蛋白，替代，其中HbF的γ-珠蛋白链通过称为珠蛋白转换的过程被beta(β)-珠蛋白链替代。成人平均产生的HbF占总血红蛋白的不到1％(Thein 2009)。α-血红蛋白基因位于16号染色体上，而β-血红蛋白基因(HBB)、A gamma(Aγ)-珠蛋白链(HBG1，也称为γ珠蛋白A)和G gamma(Gγ)-珠蛋白链(HBG2，也称为γ珠蛋白G)位于珠蛋白基因簇内的11号染色体上(也称为珠蛋白基因座)。

HBB突变可能导致血红蛋白病症(即，血红蛋白病)，所述血红蛋白病症包含镰状细胞病(SCD)和β-地中海贫血(β-Thal)。美国大约有93,000人被诊断患有血红蛋白病。全球每年有300,000名儿童出生时患有血红蛋白病(Angastiniotis 1998)。由于这些病状与HBB突变相关，因此它们的症状通常直到珠蛋白从HbF转换为HbA后才会显现。

SCD是美国最常见的遗传性血液疾病，影响大约80,000人(Brousseau 2010)。SCD在非洲血统的人中最为常见，SCD的患病率为500中1个。在非洲，SCD患病率为1500万(Aliyu2008)。SCD在印度、沙特阿拉伯和地中海血统的人中也更常见。在西班牙裔美国人中，镰状细胞病的患病率为1,000中1个(Lewis 2014)。

SCD是由HBB基因中的单个纯合突变引起的，c.17A>T(HbS突变)。镰状突变是HBB上的点突变(GAG>GTG)，引起外显子1中氨基酸位置6处的谷氨酸被缬氨酸取代。β-血红蛋白链的位置6处的缬氨酸是疏水性的，并且当它不与氧结合时，会使β-珠蛋白构象发生变化。这种构象的变化使HbS蛋白在缺氧的情况下聚合，导致RBC变形(即，镰状化)。SCD以常染色体隐性方式遗传，使得只有具有两个HbS等位基因的患者才会患有所述疾病。杂合子受试者具有镰状细胞特征，并且如果所述受试者严重脱水或缺氧，可能会出现贫血和/或痛苦危象。

镰状RBC会引起多种症状，包含贫血、镰状细胞危象、血管闭塞性危象、再生障碍性危象和急性胸部综合征。镰状RBC的弹性低于野生型RBC的弹性，因此不能轻易穿过毛细血管床并引起闭塞和缺血(即，血管闭塞)。当镰状细胞阻碍器官毛细血管床的血流，导致疼痛、缺血和坏死时，就会发生血管闭塞性危象。这些发作通常持续5-7天。脾脏在清除功能失调的RBC方面发挥着作用，因此通常在儿童早期会肿大，并且经常发生血管闭塞性危象。到儿童末期，SCD患者的脾脏常常梗塞，这导致自体脾切除术。溶血是SCD的一个持续特征，并且会导致贫血。镰状细胞在循环中存活10-20天，而健康RBC存活90-120天。SCD受试者根据需要进行输血以维持足够的血红蛋白水平。频繁输血使受试者有感染HIV、乙型肝炎和丙型肝炎的风险。受试者还可能患有急性胸部危象以及四肢、终末器官和中枢神经系统的梗死。

SCD受试者的预期寿命会缩短。通过对危象和贫血进行仔细的终身管理，SCD患者的预后正在稳步改善。截至2001年，镰状细胞病受试者的平均预期寿命为55-59岁。目前SCD的治疗涉及危象期间的水合作用和疼痛管理，以及根据需要输血以纠正贫血。

地中海贫血(例如β-Thal、δ-Thal和β/δ-Thal)会导致慢性贫血。据估计，β-Thal影响全世界100,000个人中的大约1个。β-Thal在某些群体中的患病率较高，包含欧洲血统的群体，其中其患病率为10,000中大约1个。重型β-Thal，所述疾病的更严重形式，除非用终身输血和螯合疗法治疗，否则会危及生命。在美国，大约有3,000名重型β-Thal受试者。β-Thal中间体不需要输血，但可能导致生长延迟和显著的全身异常，并且通常需要终生螯合疗法。尽管HbA构成成人RBC中的大部分血红蛋白，但大约3％的成人血红蛋白以HbA2，一种HbA变体，的形式存在，其中两条γ-珠蛋白链被两条delta(Δ)-珠蛋白链替代。δ-Thal与导致HBD表达缺失的Δ血红蛋白基因(HBD)突变相关。HBD突变的共同遗传可以通过将HbA2水平降低到正常范围来掩盖β-Thal(即，β/δ-Thal)的诊断(Bouva 2006)。β/δ-Thal通常是由两个等位基因中的HBB和HBD序列缺失引起的。在纯合子(δo/δoβo/βo)患者中，HBG被表达，导致仅产生HbF。

与SCD一样，β-Thal是由HBB基因突变引起的。导致β-Thal的最常见HBB突变为：c.-136C>G、c.92+1G>A、c.92+6T>C、c.93-21G>A、c.118C>T、c.316-106C>G、c.25_26delAA、c.27_28insG、c.92+5G>C、c.118C>T、c.135delC、c.315+1G>A、c.-78A>G、c.52A>T、c.59A>G、c.92+5G>C、c.124_127delTTCT、c.316-197C>T、c.-78A>G、c.52A>T、c.124_127delTTCT、c.316-197C>T、c.-138C>T、c.-79A>G、c.92+5G>C、c.75T>A、c.316-2A>G和c.316-2A>C。这些和其它与β-Thal相关的突变会导致β-珠蛋白链突变或不存在，从而导致正常Hbα-血红蛋白与β-血红蛋白的比率被破坏。过量的α-珠蛋白链沉淀在骨髓中的红系前体中。

在重型β-Thal中，HBB的两个等位基因都含有导致β-珠蛋白完全不存在(表示为β⁰/β⁰)的无义、移码或剪接突变。重型β-Thal引起β-珠蛋白链严重减少，导致RBC中α-珠蛋白链显著沉淀和更严重的贫血。

β-Thal中间体是由HBB的5'或3'非翻译区突变、HBB启动子区域或多腺苷酸化信号突变或HBB基因内剪接突变产生的。患者基因型表示为βo/β+或β+/β+。βo表示β-珠蛋白链的表达不存在；β+表示功能失调但存在的β-珠蛋白链。表型表达因患者而异。由于产生了一些β-珠蛋白，β-Thal中间体引起红系前体中α-珠蛋白链的沉淀较少，并且贫血比重型β-Thal更轻。然而，继发于慢性贫血的红系谱系扩张具有更显著的后果。

重型β-Thal受试者的年龄在6个月至2岁之间，并且患有生长迟缓、发烧、肝脾肿大和腹泻。充分的治疗包含定期输血。重型β-Thal的疗法还包含脾切除术和用羟基脲治疗。如果患者定期输血，则他们将正常发育直到第二个十年之初为止。那时，所述患者需要螯合疗法(除了持续输血之外)以预防铁过载并发症。铁过载可能表现为生长延迟或性成熟延迟。在成年期，螯合疗法不充分可能导致心肌病、心律失常、肝纤维化和/或肝硬化、糖尿病、甲状腺和甲状旁腺异常、血栓形成和骨质疏松症。频繁输血还会使受试者面临感染HIV、乙型肝炎和丙型肝炎的风险。

β-Thal中间体受试者的年龄通常在2-6岁之间。他们通常不需要输血。然而，由于红系谱系慢性肥大以代偿慢性贫血，发生骨异常。受试者可能因骨质疏松症而发生长骨骨折。髓外红血球生成是常见的，并且会导致脾脏、肝脏和淋巴结肿大。所述髓外红血球生成还可能导致脊髓压迫和神经系统问题。受试者还患有下肢溃疡并且血栓事件的风险增加，包含中风、肺栓塞和深静脉血栓形成。β-Thal中间体的治疗包含脾切除术、补充叶酸、羟基脲疗法以及髓外肿块的放射疗法。螯合疗法用于出现铁过载的受试者。

β-Thal患者的预期寿命通常会缩短。未接受输血疗法的重型β-Thal受试者通常会在二十岁或三十岁时死亡。接受定期输血和充分螯合疗法的重型β-Thal受试者可以活到五十岁甚至更久。继发于铁中毒的心力衰竭是重型β-Thal受试者因铁中毒而死亡的主要原因。

目前正在开发针对SCD和β-Thal的多种新的治疗。目前正在临床试验中研究通过基因疗法递送抗镰状化HBB基因。然而，这种方法的长期功效和安全性未知。来自HLA匹配的同种异体干细胞供体的造血干细胞(HSC)移植已被证明会治愈SCD和β-Thal，但此程序涉及风险，包含与为受试者移植做准备所必需的消融疗法相关的风险，增加了危及生命的机会性感染的风险以及移植后移植物抗宿主病的风险。另外，匹配的同种异体供体通常无法鉴定。因此，需要管理这些和其它血红蛋白病的改进方法。

发明内容

在某些方面，提供了一种减轻有需要的受试者的β-地中海贫血(β-Thal)的一种或多种症状的方法。在某些实施例中，所述方法包括a)从所述受试者中分离出CD34+或造血干细胞群体；b)通过将RNP复合物递送到分离的细胞群体来离体修饰所述分离的细胞群体，从而改变所述群体中的一个或多个分离的细胞中的HBG基因的启动子，所述RNP复合物包括：Cpf1和gRNA，所述gRNA包括：5'端和3'端、在所述5'端处的RNA和DNA延伸部、在所述5'和/或3'端处的修饰，例如硫代磷酸酯键和/或2'-O-甲基修饰，以及靶向结构域，所述靶向结构域与所述HBG基因的所述启动子中的靶位点互补；以及c)向所述受试者施用经修饰的分离的细胞群体，从而减轻所述受试者的β-Thal的一种或多种症状。在某些实施例中，修饰可以是在3'端处、在5'端处或在3'和5'端处的2'-O-甲基修饰(例如，2'-O-甲基腺苷)。在某些实施例中，修饰可以是硫代磷酸酯键，随后是在3'端处的2'-O-甲基腺苷。在某些实施例中，DNA延伸部包括选自由SEQ ID NO:1235-1250组成的组的序列。在某些实施例中，靶向结构域可以包括表7、8、11或12中所示的序列或由所述序列组成。在某些实施例中，所述靶位点包括位于Chr 11(NC_000011.10)5,249,904–5,249,927(表6，区域6)；Chr 11(NC_000011.10)5,254,879–5,254,909(表6，区域16)；或其组合之间的核苷酸。在某些实施例中，所述Cpf1包括一种或多种选自由以下组成的组的修饰：野生型Cpf1氨基酸序列中的一种或多种突变、野生型Cpf1核酸序列中的一种或多种突变、一种或多种核定位信号(NLS)、一种或多种纯化标签和其组合。在某些实施例中，Cpf1包括选自由SEQ ID NO:1000、1001、1008-1018、1032、1035-39、1094-1097和1107-09组成的组的序列或由所述序列组成。在某些实施例中，所述Cpf1包括选自由SEQ ID NO:1019-1021和1110-17组成的组的序列或由所述序列组成。在某些实施例中，使用电穿孔将所述RNP复合物递送到所述细胞。

在某些方面，提供了一种诱导来自β-地中海贫血(β-Thal)受试者的CD34+或造血干细胞群体中的血红蛋白(Hb)表达的方法。在某些实施例中，所述方法包括将包括向导RNA(gRNA)和Cpf1的RNP复合物递送到来自β-Thal受试者的未修饰的CD34+或造血干细胞群体，以产生包括indel的经修饰的CD34+或造血干细胞群体，所述gRNA包括gRNA靶向结构域，其中每个经修饰的CD34+或造血干细胞包括HBG基因启动子中的indel，并且其中所述经修饰的CD34+或造血干细胞群体包括比所述未修饰的CD34+或造血干细胞群体更高的Hb水平。在某些实施例中，所述gRNA包括DNA延伸部，所述DNA延伸部包括选自由SEQ ID NO:1235-1250组成的组的序列。在某些实施例中，gRNA靶向结构域可以包括表7、8、11或12中所示的序列或由所述序列组成。在某些实施例中，所述gRNA包括靶向结构域，所述靶向结构域与HBG基因的所述启动子中的靶位点互补，其中所述靶位点包括位于Chr 11(NC_000011.10)5,249,904–5,249,927(表6，区域6)；Chr 11(NC_000011.10)5,254,879–5,254,909(表6，区域16)；或其组合之间的核苷酸。在某些实施例中，所述RNP复合物包括Cpf1，所述Cpf1包括一种或多种选自由以下组成的组的修饰：野生型Cpf1氨基酸序列中的一种或多种突变、野生型Cpf1核酸序列中的一种或多种突变、一种或多种核定位信号(NLS)、一种或多种纯化标签和其组合。在某些实施例中，Cpf1包括选自由SEQ ID NO:1000、1001、1008-1018、1032、1035-39、1094-1097和1107-09组成的组的序列或由所述序列组成。在某些实施例中，所述Cpf1包括选自由SEQ ID NO:1019-1021和1110-17组成的组的序列或由所述序列组成。在某些实施例中，使用电穿孔将所述RNP复合物递送到所述细胞。

本文提供了基因组编辑系统、核糖核蛋白(RNP)复合物、向导RNA、包含经修饰的Cpf1蛋白(Cpf1变体)的Cpf1蛋白以及用于改变一个或多个γ-珠蛋白基因(例如HBG1、HBG2或HBG1和HBG2)的启动子区域并增加胎儿血红蛋白(HbF)的表达的CRISPR介导的方法。在某些实施例中，RNP复合物可以包含与野生型Cpf1或经修饰的Cpf1 RNA向导的核酸酶(经修饰的Cpf1蛋白)复合的向导RNA(gRNA)。

在某些实施例中，gRNA可以包括表7、8、11或12中所示的序列。在某些实施例中，RNP复合物可以包括表10中所示的RNP复合物。例如，RNP复合物可以包含包括SEQ ID NO:1051中所示的序列的gRNA和由SEQ ID NO:1097中所示的序列编码的经修饰的Cpf1蛋白(RNP32，表10)。

在某些实施例中，经修饰的Cpf1蛋白可以含有一种或多种修饰。在某些实施例中，所述一种或多种修饰可以包含但不限于野生型Cpf1氨基酸序列中的一种或多种突变、野生型Cpf1核酸序列中的一种或多种突变、一种或多种核定位信号(NLS)、一种或多种纯化标签(例如His标签)或其组合。在某些实施例中，经修饰的Cpf1可以由SEQ ID NO:1000、1001、1008-1018、1032、1035-39、1094-1097、1107-09(Cpf1多肽序列)或SEQ ID NO:1019-1021、1110-17(Cpf1多核苷酸序列)中所示的序列编码。

在某些实施例中，包括经修饰的Cpf1蛋白的RNP复合物可以增加靶核酸的编辑。在某些实施例中，包括经修饰的Cpf1蛋白的RNP复合物可以增加编辑，从而引起生产性indel增加。在各个实施例中，靶核酸编辑的增加可以通过本领域技术人员已知的任何手段来评估，如但不限于靶核酸的PCR扩增和随后的测序分析(例如，桑格测序(Sangersequencing)、下一代测序)。

在某些实施例中，gRNA可以包括一种或多种修饰，所述一种或多种修饰包含硫代磷酸酯键修饰、二硫代磷酸酯(PS2)键修饰、2'-O-甲基修饰、一个或多个或一段脱氧核糖核酸(DNA)碱基(本文也称为“DNA延伸部”)、一个或多个或一段核糖核酸(RNA)碱基(本文也称为“RNA延伸部”)或其组合。在某些实施例中，DNA延伸部可以包括表13中所示的序列。例如，在某些实施例中，DNA延伸部可以包括SEQ ID NO:1235-1250中所示的序列。在某些实施例中，RNA延伸部可以包括表13中所示的序列。例如，在某些实施例中，RNA延伸部可以包括SEQID NO:1231-1234、1251-1253中所示的序列。在某些实施例中，包括经修饰的gRNA的RNP复合物可以增加靶核酸的编辑。在某些实施例中，包括经修饰的gRNA的RNP复合物可以增加编辑，从而引起生产性indel增加。

在一个方面，本公开涉及一种RNP复合物，其包括来自普雷沃氏菌属(Prevotella)和弗朗西斯氏菌属(Franciscella)1的CRISPR(Cpf1)RNA向导的核酸酶或其变体以及gRNA，其中所述gRNA能够与细胞中HBG基因的启动子中的靶位点结合。在某些实施例中，gRNA可以是经修饰的或未修饰的。在某些实施例中，gRNA可以包括一种或多种修饰，所述一种或多种修饰包含硫代磷酸酯键修饰、二硫代磷酸酯(PS2)键修饰、2'-O-甲基修饰、DNA延伸部、RNA延伸部或其组合。在某些实施例中，DNA延伸部可以包括表13中所示的序列。在某些实施例中，RNA延伸部可以包括表13中所示的序列。在某些实施例中，gRNA可以包括表7、8、11或12中所示的序列。在某些实施例中，RNP复合物可以包括表10中所示的RNP复合物。例如，RNP复合物可以包含包括SEQ ID NO:1051中所示的序列的gRNA和由SEQ ID NO:1097中所示的序列编码的Cpf1变体蛋白(RNP32，表10)。在某些实施例中，Cpf1变体蛋白可以含有一种或多种修饰。在某些实施例中，所述一种或多种修饰可以包含但不限于野生型Cpf1氨基酸序列中的一种或多种突变、野生型Cpf1核酸序列中的一种或多种突变、一种或多种核定位信号(NLS)、一种或多种纯化标签(例如His标签)或其组合。在某些实施例中，Cpf1变体蛋白可以由SEQ ID NO:1000、1001、1008-1018、1032、1035-39、1094-1097、1107-09(Cpf1多肽序列)或SEQ ID NO:1019-1021、1110-17(Cpf1多核苷酸序列)中所示的序列编码。

在一个方面，本公开涉及一种改变细胞中的HBG基因的启动子的方法，所述方法包括使所述细胞与本文所公开的RNP复合物接触。在某些实施例中，改变可以包括表6中所示的一个或多个区域内的indel。在某些实施例中，改变可以包括HBG基因的启动子的CCAAT盒靶区域内的indel。例如，在某些实施例中，改变可以包括Chr 11(NC_000011.10):5,249,955–5,249,987(表6，区域6)、Chr 11(NC_000011.10):5,254,879–5,254,909(表6，区域16)或其组合内的indel。在某些实施例中，RNP复合物可以包括gRNA和Cpf1蛋白。在某些实施例中，gRNA可以包括表8中所示的RNA靶向结构域。在某些实施例中，gRNA靶向结构域可以包括选自由SEQ ID NO:1002、1254、1258、1260、1262和1264组成的组的序列。在某些实施例中，gRNA可以包括表8中所示的gRNA序列。在某些实施例中，gRNA可以包括选自由SEQ ID NO:1022、1023、1041-1105组成的组的序列。在某些实施例中，gRNA可以被配置成在Chr11:5249973、Chr11:5249977(HBG1)；Chr11:5250042、Chr11:5250046(HBG1)；Chr11:5250055、Chr11:5250059(HBG1)；Chr11:5250179、Chr11:5250183(HBG1)；Chr11:5254897、Chr11:5254901(HBG2)；Chr11:5254897、Chr11:5254901(HBG2)；Chr11:5254966、5254970(HBG2)；Chr11:5254979、5254983(HBG2)(表6、表7)处提供编辑事件。

在一个方面，本公开涉及一种分离的细胞，其包括通过将RNP复合物递送到细胞而产生的HBG基因启动子的改变。在某些实施例中，RNP复合物可以包括gRNA和Cpf1蛋白。在某些实施例中，gRNA可以是经修饰的或未修饰的。在某些实施例中，gRNA可以包括一种或多种修饰，所述一种或多种修饰包含硫代磷酸酯键修饰、二硫代磷酸酯(PS2)键修饰、2'-O-甲基修饰、DNA延伸部、RNA延伸部或其组合。在某些实施例中，DNA延伸部可以包括表13中所示的序列。在某些实施例中，RNA延伸部可以包括表13中所示的序列。在某些实施例中，gRNA可以包括表7、8、11或12中所示的序列。在某些实施例中，RNP复合物可以包括表10中所示的RNP复合物。例如，RNP复合物可以包含包括SEQ ID NO:1051中所示的序列的gRNA和由SEQ IDNO:1097中所示的序列编码的Cpf1变体蛋白(RNP32，表10)。在某些实施例中，Cpf1变体蛋白可以含有一种或多种修饰。在某些实施例中，所述一种或多种修饰可以包含但不限于野生型Cpf1氨基酸序列中的一种或多种突变、野生型Cpf1核酸序列中的一种或多种突变、一种或多种核定位信号(NLS)、一种或多种纯化标签(例如His标签)或其组合。在某些实施例中，Cpf1变体蛋白可以由SEQ ID NO:1000、1001、1008-1018、1032、1035-39、1094-1097、1107-09(Cpf1多肽序列)或SEQ ID NO:1019-1021、1110-17(Cpf1多核苷酸序列)中所示的序列编码。

在一个方面，本公开涉及一种通过使用包括gRNA和Cpf1 RNA向导的核酸酶或其变体的RNP复合物进行基因组编辑来增加人细胞中胎儿血红蛋白(HbF)水平的离体方法，以影响HBG基因启动子的改变，从而增加HbF的表达。在某些实施例中，gRNA可以是经修饰的或未修饰的。在某些实施例中，gRNA可以包括一种或多种修饰，所述一种或多种修饰包含硫代磷酸酯键修饰、二硫代磷酸酯(PS2)键修饰、2'-O-甲基修饰、DNA延伸部、RNA延伸部或其组合。在某些实施例中，DNA延伸部可以包括表13中所示的序列。在某些实施例中，RNA延伸部可以包括表13中所示的序列。在某些实施例中，gRNA可以包括表7、8、11或12中所示的序列。在某些实施例中，RNP复合物可以包括表10中所示的RNP复合物。例如，RNP复合物可以包含包括SEQ ID NO:1051中所示的序列的gRNA和由SEQ ID NO:1097中所示的序列编码的Cpf1变体蛋白(RNP32，表10)。在某些实施例中，Cpf1变体蛋白可以含有一种或多种修饰。在某些实施例中，所述一种或多种修饰可以包含但不限于野生型Cpf1氨基酸序列中的一种或多种突变、野生型Cpf1核酸序列中的一种或多种突变、一种或多种核定位信号(NLS)、一种或多种纯化标签(例如His标签)或其组合。在某些实施例中，Cpf1变体蛋白可以由SEQ ID NO:1000、1001、1008-1018、1032、1035-39、1094-1097、1107-09(Cpf1多肽序列)或SEQ ID NO:1019-1021、1110-17(Cpf1多核苷酸序列)中所示的序列编码。

在一个方面，本公开涉及一种CD34+或造血干细胞群体，其中所述群体中的一个或多个细胞包括HBG基因启动子的改变，所述改变是通过将包括gRNA和Cpf1 RNA向导的核酸酶或其变体的RNP复合物递送到CD34+或造血干细胞群体而产生的。在某些实施例中，gRNA可以是经修饰的或未修饰的。在某些实施例中，gRNA可以包括一种或多种修饰，所述一种或多种修饰包含硫代磷酸酯键修饰、二硫代磷酸酯(PS2)键修饰、2'-O-甲基修饰、DNA延伸部、RNA延伸部或其组合。在某些实施例中，DNA延伸部可以包括表13中所示的序列。在某些实施例中，RNA延伸部可以包括表13中所示的序列。在某些实施例中，gRNA可以包括表7、8、11或12中所示的序列。在某些实施例中，RNP复合物可以包括表10中所示的RNP复合物。例如，RNP复合物可以包含包括SEQ ID NO:1051中所示的序列的gRNA和由SEQ ID NO:1097中所示的序列编码的Cpf1变体蛋白(RNP32，表10)。在某些实施例中，Cpf1变体蛋白可以含有一种或多种修饰。在某些实施例中，所述一种或多种修饰可以包含但不限于野生型Cpf1氨基酸序列中的一种或多种突变、野生型Cpf1核酸序列中的一种或多种突变、一种或多种核定位信号(NLS)、一种或多种纯化标签(例如His标签)或其组合。在某些实施例中，Cpf1变体蛋白可以由SEQ ID NO:1000、1001、1008-1018、1032、1035-39、1094-1097、1107-09(Cpf1多肽序列)或SEQ ID NO:1019-1021、1110-17(Cpf1多核苷酸序列)中所示的序列编码。

在一个方面，本公开涉及一种减轻有需要的受试者的β地中海贫血的一种或多种症状的方法，所述方法包括：a)从所述受试者中分离出CD34+或造血干细胞群体；b)通过将包括gRNA和Cpf1 RNA向导的核酸酶或其变体的RNP复合物递送到分离的细胞群体来离体修饰所述分离的细胞群体，从而影响所述群体中的一个或多个分离的细胞中的HBG基因的启动子的改变；以及c)向所述受试者施用经修饰的细胞群体，从而减轻所述受试者的β地中海贫血的一种或多种症状。在某些实施例中，所述方法可以进一步包括在施用后例如至少[1、2、3、4、5、6、7、8、12、16或20]周或至少[1、2、3、4、5或6]个月或至少[1、2、3、4或5]年，检测受试者的施用的经修饰的细胞的子代/子细胞，例如以BM移植的CD34+造血干细胞或源自所述细胞的血细胞(例如，骨髓祖细胞或分化的骨髓细胞(例如，红血球、肥大细胞、成肌细胞)；或淋巴祖细胞或分化的淋巴细胞(例如，T淋巴细胞或B淋巴细胞或NK细胞)的形式。在某些实施例中，所述方法可以引起所有造血细胞谱系的重建，例如没有任何分化偏向，例如没有红系谱系分化偏向。在某些实施例中，所述方法可以包括施用多个经编辑的细胞，并且所述方法可以引起[至少5、10、15、20、25、…100]多个不同的HSC克隆在BM中的长期植入[例如施用后至少[1、2、3、4、5、6、7、8、12、16或20]周或至少[1、2、3、4、5或6]个月或至少[1、2、3、4或5]年]。在某些实施例中，所述方法可以进一步包括在施用后至少[1、2、3、4、5、6、7、8、12、16或20]周或至少[1、2、3、4、5或6]个月或至少[1、2、3、4或5]年，检测受试者的总血红蛋白表达水平。在某些实施例中，与健康受试者相比，所述方法可以引起[至少50％、至少60％...至少99％]的总血红蛋白的长期表达[例如施用后至少[1、2、3、4、5、6、7、8、12、16或20]周或至少[1、2、3、4、5或6]个月或至少[1、2、3、4或5]年](例如，作为总Hb(例如，HbA和HbF(如果有的话)组合))。在某些实施例中，改变可以包括HBG基因的启动子的CCAAT盒靶区域内的indel。在某些实施例中，可以使用电穿孔递送所述RNP复合物。在某些实施例中，细胞群体中至少约5％、至少约10％、至少约20％、至少约30％、至少约40％、至少约50％、至少约60％、至少约70％、至少约80％或至少约90％的细胞包括生产性indel。

在一个方面，本公开涉及一种减轻有需要的受试者的β-地中海贫血(β-Thal)的一种或多种症状的方法，所述方法包含：a)从所述受试者中分离出CD34+或造血干细胞群体；b)通过将RNP复合物递送到分离的细胞群体来离体修饰所述分离的细胞群体，从而改变所述群体中的一个或多个分离的细胞中的HBG基因的启动子，所述RNP复合物包括：Cpf1和gRNA，所述gRNA包括：5'端和3'端、在所述5'端处的DNA延伸部、在所述3'端处的2'-O-甲基-3'-硫代磷酸酯修饰，以及靶向结构域，所述靶向结构域与HBG基因的所述启动子中的靶位点互补；以及c)向所述受试者施用经修饰的分离的细胞群体，从而减轻所述受试者的β-Thal的一种或多种症状。在某些实施例中，DNA延伸部可以包含选自由SEQ ID NO:1235-1250组成的组的序列。在某些实施例中，靶向结构域可以包含选自由表7、8、11和12中所示的组成的组的序列。在某些实施例中，所述靶位点可以包含位于Chr 11(NC_000011.10)5,249,904–5,249,927(表6，区域6)；Chr 11(NC_000011.10)5,254,879–5,254,909(表6，区域16)；或其组合之间的核苷酸。在某些实施例中，所述Cpf1可以包含一种或多种选自由以下组成的组的修饰：野生型Cpf1氨基酸序列中的一种或多种突变、野生型Cpf1核酸序列中的一种或多种突变、一种或多种核定位信号(NLS)、一种或多种纯化标签和其组合。在某些实施例中，Cpf1可以是Cpf1变体并且可以包括选自由SEQ ID NO:1000、1001、1008-1018、1032、1035-39、1094-1097和1107-09组成的组的序列或由所述序列组成。在某些实施例中，Cpf1可以是Cpf1变体并且可以包括选自由SEQ ID NO:1019-1021和1110-17组成的组的序列或由所述序列组成。在某些实施例中，可以使用电穿孔将所述RNP复合物递送到所述细胞。

在一个方面，本公开涉及一种诱导来自β-地中海贫血(β-Thal)受试者的第一经修饰的细胞群体中的血红蛋白(Hb)表达的方法，所述第一经修饰的细胞群体包括多个经修饰的CD34+或造血干细胞，所述方法包含将包含第一向导RNA(gRNA)和Cpf1的第一RNP复合物递送到来自β-Thal受试者的第一未修饰的细胞群体以产生indel，所述第一未修饰的细胞群体包括多个未修饰的CD34+或造血干细胞，第一gRNA包含第一gRNA靶向结构域，其中每个经修饰的CD34+或造血干细胞包括HBG基因启动子中的indel，并且其中第一经修饰的细胞群体包括比第一未修饰的细胞群体更高的Hb水平。在某些实施例中，第一gRNA可以包含DNA延伸部，所述DNA延伸部包括选自由SEQ ID NO:1235-1250组成的组的序列。在某些实施例中，第一gRNA靶向结构域可以包含选自由表7、8、11和12中所示的组成的组的序列。在某些实施例中，第一gRNA可以包含靶向结构域，所述靶向结构域与HBG基因的所述启动子中的靶位点互补，其中所述靶位点包括位于Chr 11(NC_000011.10)5,249,904–5,249,927(表6，区域6)；Chr 11(NC_000011.10)5,254,879–5,254,909(表6，区域16)；或其组合之间的核苷酸。在某些实施例中，第一RNP复合物可以包含Cpf1变体，所述Cpf1变体包括一种或多种选自由以下组成的组的修饰：野生型Cpf1氨基酸序列中的一种或多种突变、野生型Cpf1核酸序列中的一种或多种突变、一种或多种核定位信号(NLS)、一种或多种纯化标签和其组合。在某些实施例中，Cpf1变体可以包括选自由SEQ ID NO:1000、1001、1008-1018、1032、1035-39、1094-1097和1107-09组成的组的序列或由所述序列组成。在某些实施例中，Cpf1变体可以包括选自由SEQ ID NO:1019-1021和1110-17组成的组的序列或由所述序列组成。在某些实施例中，可以使用电穿孔将所述第一RNP复合物递送到所述细胞。

在某些实施例中，经修饰的CD34+或造血干细胞可以是由经修饰的CD34+或造血干细胞分化而来的成红细胞。在某些实施例中，未修饰的CD34+或造血干细胞可以是由未修饰的CD34+或造血干细胞分化而来的成红细胞。在某些实施例中，成红细胞可以包括选自活细胞、有核细胞、使用抗人CD235a抗体通过荧光激活细胞分选(FACS)发出荧光的细胞或其组合中的一种或多种。

在某些实施例中，相对于由未修饰的CD34+或造血干细胞分化而来的成红细胞，10％、15％、20％、25％、30％、35％、40％、45％或50％或更多的由经修饰的CD34+或造血干细胞分化而来的成红细胞可以是晚期成红细胞。在某些实施例中，晚期成红细胞可以包括包含低或阴性CD71表达的细胞。

在某些实施例中，相对于由未修饰的CD34+或造血干细胞分化而来的成红细胞，10％、15％、20％、25％、30％、35％、40％、45％或50％或更多的由经修饰的CD34+或造血干细胞分化而来的成红细胞可以是去核的红系细胞。在某些实施例中，去核的红系细胞可以是不含细胞核的红系细胞。在某些实施例中，去核的红系细胞可以包含当使用试剂(例如，NucRed试剂)检测细胞核时不发出荧光(染色)的红系细胞。

在某些实施例中，相对于由经修饰的CD34+或造血干细胞分化而来的成红细胞，5％、10％、15％、20％、25％、30％、35％、40％、45％或50％或更多的由未修饰的CD34+或造血干细胞分化而来的成红细胞可以是非活成红细胞。在某些实施例中，非活成红细胞包括用4',6-二脒基-2-苯基吲哚(DAPI)发出荧光(染色)的细胞。

在某些实施例中，相对于由未修饰的CD34+或造血干细胞分化而来的成红细胞，由经修饰的CD34+或造血干细胞分化而来的成红细胞可能具有高5％、10％、15％、20％、25％、30％、35％、40％、45％或50％的总血红蛋白含量。在某些实施例中，可以使用反相超高效液相色谱法(RP-UPLC)测量总血红蛋白含量。

在一个方面，本公开涉及一种gRNA，其包括5'端和3'端，并且包括在所述5'端处的DNA延伸部和在所述3'端处的2'-O-甲基-3'-硫代磷酸酯修饰，其中gRNA包含能够与靶位点杂交的RNA区段和能够与Cpf1 RNA向导的核酸酶缔和的RNA区段。在某些实施例中，DNA延伸部可以包括SEQ ID NO:1235-1250中所示的序列。在某些实施例中，gRNA可以是经修饰的或未修饰的。在某些实施例中，gRNA可以包括一种或多种修饰，所述一种或多种修饰包含硫代磷酸酯键修饰、二硫代磷酸酯(PS2)键修饰、2'-O-甲基修饰、DNA延伸部、RNA延伸部或其组合。在某些实施例中，DNA延伸部可以包括表13中所示的序列。在某些实施例中，RNA延伸部可以包括表13中所示的序列。在某些实施例中，gRNA可以包括表7、8、11或12中所示的序列。

在一个方面，本公开涉及一种RNP复合物，其包括如本文所公开的Cpf1 RNA向导的核酸酶和如本文所公开的gRNA。

本文还提供了基因组编辑系统、向导RNA以及用于改变一个或多个γ-珠蛋白基因(例如HBG1、HBG2或HBG1和HBG2)并增加胎儿血红蛋白(HbF)的表达的CRISPR介导的方法。在某些实施例中，包括表7、8、11或12中所示的序列的一个或多个gRNA可以用于在HBG基因的启动子区域中引入改变。在某些实施例中，基因组编辑系统、向导RNA和CRISPR介导的方法可能会改变作为HBG1、HBG2或HBG1和HBG2基因的转录位点5'的13核苷酸(nt)靶区域(“13nt靶区域”)。在某些实施例中，基因组编辑系统、向导RNA和CRISPR介导的方法可能会改变作为HBG1、HBG2或HBG1和HBG2基因的转录位点5'的CCAAT盒靶区域(“CCAAT盒靶区域”)。在某些实施例中，CCAAT盒靶区域可以是远端CCAAT盒处或附近的区域，并且包含远端CCAAT盒的核苷酸以及远端CCAAT盒上游(5')的25个核苷酸和下游(3')的25个核苷酸(即，HBG1/2c.-86至-140)。在某些实施例中，CCAAT盒靶区域可以是远端CCAAT盒处或附近的区域，并且包含远端CCAAT盒的核苷酸以及远端CCAAT盒上游(5')的5个核苷酸和下游(3')的5个核苷酸(即，HBG1/2c.-106至-120。在某些实施例中，CCAAT盒靶区域可以包括如本文所公开的18nt靶区域、13nt靶区域、11nt靶区域、4nt靶区域、1nt靶区域、-117G>A靶区域或其组合。在某些实施例中，改变可以是HBG1、HBG2或HBG1和HBG2基因或其组合的18nt缺失、13nt缺失、11nt缺失、4nt缺失、1nt缺失、c.-117处从G到A的取代。在某些实施例中，改变可以是非天然存在的改变或天然存在的改变。

在某些实施例中，基因组编辑系统、向导RNA以及用于改变一个或多个γ-珠蛋白基因(例如HBG1、HBG2或HBG1和HBG2)的CRISPR介导的方法可以包含RNA向导的核酸酶。在某些实施例中，RNA向导的核酸酶可以是如本文所公开的Cpf1或经修饰的Cpf1。

在一方面，本公开涉及组合物，所述组合物包含：通过上文所公开的方法产生的多个细胞，其中至少20％、30％、40％、50％、60％、70％、80％或90％的细胞包含人HBG1或HBG2基因的13nt靶区域的序列的改变；或通过上文所公开的方法产生的多个细胞，其中至少20％、30％、40％、50％、60％、70％、80％或90％的细胞包含人HBG1或HBG2基因的13nt靶区域的序列的改变。在某些实施例中，所述多个细胞的至少一部分可以在红系谱系内。在某些实施例中，所述多个细胞的特征在于相对于未修饰的多个细胞胎儿血红蛋白表达水平增加。在某些实施例中，胎儿血红蛋白水平可以增加至少20％、30％、40％、50％、60％、70％、80％或90％。在某些实施例中，组合物可以进一步包含药学上可接受的载剂。

本文的本公开还涉及改变细胞的方法，所述方法包含使细胞与本文所公开的基因组编辑系统中的任何基因组编辑系统接触。在某些实施例中，接触细胞的步骤可以包括使细胞与包括第一和第二核糖核蛋白复合物的溶液接触。在某些实施例中，使细胞与溶液接触的步骤进一步包括电穿孔细胞，从而将第一和第二核糖核蛋白复合物引入细胞中。

包含上文所描述的所有特征中的任何特征的基因组编辑系统或方法可以包含包括人HBG1、HBG2基因或其组合的靶核酸。在某些实施例中，靶区域可以是人HBG1、HBG2基因或其组合的CCAAT盒靶区域。在某些实施例中，第一靶向结构域序列可以与人HBG1、HBG2基因或其组合的CCAAT盒靶区域的一侧上的第一序列互补，其中第一序列任选地与人HBG1、HBG2基因或其组合的CCAAT盒靶区域重叠。在某些实施例中，第二靶向结构域序列可以与人HBG1、HBG2基因或其组合的CCAAT盒靶区域的一侧上的第二序列互补，其中第二序列任选地与人HBG1、HBG2基因或其组合的CCAAT盒靶区域重叠。

在某些实施例中，细胞可以包含通过本文所公开的用于改变细胞的方法中的任何方法产生的HBG基因座的至少一个经修饰的等位基因，其中HBG基因座的经修饰的等位基因包括人HBG1基因、HBG2基因或其组合的改变。

在某些实施例中，分离的细胞群体可以由本文所公开的用于改变细胞的方法中的任何方法进行修饰，其中细胞群体可以包含可能与未由所述方法修饰的相同细胞类型的分离的细胞群体或其后代不同的indel分布。

在某些实施例中，多个细胞可以通过本文所公开的用于改变细胞的方法中的任何方法产生，其中至少20％、30％、40％、50％、60％、70％、80％或90％的细胞可以包含人HBG1基因、HBG2基因或其组合的CCAAT盒靶区域中的序列的改变。

在某些实施例中，本文所公开的细胞可以用于药物。在某些实施例中，细胞可以用于治疗β-血红蛋白病。在某些实施例中，β-血红蛋白病可以选自由镰状细胞病和β-地中海贫血组成的组。在某些实施例中，β-地中海贫血可以是输血依赖性β地中海贫血(TDT)。

在一方面，本公开涉及组合物，所述组合物包含：通过上文所公开的方法产生的多个细胞，其中至少20％、30％、40％、50％、60％、70％、80％或90％的细胞包含人HBG1或HBG2基因的CCAAT盒靶区域的序列的改变；或通过上文所公开的方法产生的多个细胞，其中至少20％、30％、40％、50％、60％、70％、80％或90％的细胞包含人HBG1或HBG2的CCAAT盒靶区域的序列的改变。在某些实施例中，所述多个细胞的至少一部分可以在红系谱系内。在某些实施例中，所述多个细胞的特征在于相对于未修饰的多个细胞胎儿血红蛋白表达水平增加。在某些实施例中，胎儿血红蛋白水平可以增加至少20％、30％、40％、50％、60％、70％、80％或90％。在某些实施例中，组合物可以进一步包含药学上可接受的载剂。

在一个方面，本公开涉及由上文所描述的基因组编辑系统修饰的细胞群体，其中相对于未由基因组编辑系统修饰的细胞群体，所述细胞群体包括更高百分比的生产性indel。本公开还涉及由基因组编辑系统修饰的细胞群体，其中相对于未由基因组编辑系统修饰的细胞群体，更高百分比的细胞群体能够分化成表达HbF的红系谱系的细胞群体。在某些实施例中，更高百分比可以高至少约15％、至少约20％、至少约25％、至少约30％或至少约40％。在某些实施例中，细胞可以是造血干细胞。在某些实施例中，细胞能够分化成成红细胞、红血球、或红血球或成红细胞的前体。在某些实施例中，indel可以是由微同源性介导的端连接(MMEJ)修复之外的修复机制产生的。

本公开还涉及本文所公开的细胞中的任何细胞在制造用于治疗受试者的β-血红蛋白病的药物中的用途。

在一个方面，本公开涉及一种治疗有需要的受试者的β-血红蛋白病的方法，所述方法包括向所述受试者施用本文所公开的细胞。在某些实施例中，一种治疗有需要的受试者的β-血红蛋白病的方法可以包含向所述受试者施用经修饰的造血细胞群体，其中已根据本文所公开的改变细胞的方法改变了一个或多个细胞。在某些实施例中，所述方法可以进一步包括在施用后例如至少[1、2、3、4、5、6、7、8、12、16或20]周或至少[1、2、3、4、5或6]个月或至少[1、2、3、4或5]年，检测受试者的施用的经修饰的细胞的子代/子细胞，例如以BM移植的CD34+造血干细胞或源自所述细胞的血细胞(例如，骨髓祖细胞或分化的骨髓细胞(例如，红血球、肥大细胞、成肌细胞)；或淋巴祖细胞或分化的淋巴细胞(例如，T淋巴细胞或B淋巴细胞或NK细胞)的形式。在某些实施例中，所述方法可以引起所有造血细胞谱系的重建，例如没有任何分化偏向，例如没有红系谱系分化偏向。在某些实施例中，所述方法可以包括施用多个经编辑的细胞，并且所述方法可以引起[至少5、10、15、20、25、…100]多个不同的HSC克隆在BM中的长期植入[例如施用后至少[1、2、3、4、5、6、7、8、12、16或20]周或至少[1、2、3、4、5或6]个月或至少[1、2、3、4或5]年]。在某些实施例中，所述方法可以进一步包括在施用后至少[1、2、3、4、5、6、7、8、12、16或20]周或至少[1、2、3、4、5或6]个月或至少[1、2、3、4或5]年，检测受试者的总血红蛋白表达水平。在某些实施例中，与健康受试者相比，所述方法可以引起[至少50％、至少60％...至少99％]的总血红蛋白的长期表达[例如施用后至少[1、2、3、4、5、6、7、8、12、16或20]周或至少[1、2、3、4、5或6]个月或至少[1、2、3、4或5]年(例如，作为总Hb(例如，HbA和HbF(如果有的话)组合))。在某些实施例中，改变可以包括HBG基因的启动子的CCAAT盒靶区域内的indel。

在一个方面，本公开涉及一种改变细胞的方法，所述方法包括使细胞与基因组编辑系统接触。在某些实施例中，使细胞与基因组编辑系统接触的步骤可以包括使细胞与包括第一和第二核糖核蛋白复合物的溶液接触。在某些实施例中，使细胞与溶液接触的步骤可以进一步包括电穿孔细胞，从而将第一和第二核糖核蛋白复合物引入细胞中。在某些实施例中，改变细胞的方法可以进一步包括使细胞与基因组编辑系统接触，其中使细胞与基因组编辑系统接触的步骤可以包括使细胞与包括第一、第二、第三和任选地第四核糖核蛋白复合物的溶液接触。在某些实施例中，使细胞与溶液接触的步骤可以进一步包括电穿孔细胞，从而将第一、第二、第三和任选地第四核糖核蛋白复合物引入细胞中。在某些实施例中，细胞能够分化成成红细胞、红血球、或红血球或成红细胞的前体。在某些实施例中，所述细胞可以是CD34⁺细胞。

在一方面，本公开涉及一种组合物，其可以包括通过本文所公开的改变细胞的方法产生的多个细胞，其中至少20％、30％、40％、50％、60％、70％、80％或90％的细胞可以包括人HBG1基因、HBG2基因或其组合的CCAAT盒靶区域的序列的改变。在某些实施例中，所述多个细胞的至少一部分可以在红系谱系内。在某些实施例中，所述多个细胞的特征在于相对于未修饰的多个细胞胎儿血红蛋白表达水平增加。在某些实施例中，胎儿血红蛋白水平可以增加至少20％、30％、40％、50％、60％、70％、80％或90％。在某些实施例中，组合物可以进一步包括药学上可接受的载剂。

在一个方面，本公开涉及一种细胞，其包括通过本文所公开的改变细胞的方法产生的合成基因型，其中所述细胞可以包括人HBG1基因、HBG2基因或其组合的18nt缺失、11nt缺失、4nt缺失、1nt缺失、13nt缺失、-117处从G到A的取代。

在一个方面，本公开涉及一种细胞，其包括通过本文所公开的改变细胞的方法产生的HBG基因座的至少一个等位基因，其中所述细胞可以编码人HBG1基因、HBG2基因或其组合的18nt缺失、11nt缺失、4nt缺失、1nt缺失、13nt缺失、-117处从G到A的取代。

在一方面，本公开涉及一种组合物，其包括通过本文所公开的改变细胞的方法产生的细胞群体，其中所述细胞包括相对于未修饰的细胞群体，人HBG1基因、HBG2基因或其组合的CCAAT盒靶区域的序列的更高频率的改变。在某些实施例中，更高频率是至少约10％、20％、30％、40％、50％、60％、70％、80％或90％高。在某些实施例中，细胞群体的至少一部分在红系谱系内。

此列表旨在是示例性和说明性的，而不是全面性和限制性的。另外的方面和实施例可以在本公开的其余部分和权利要求中所示或显而易见。

附图说明

附图旨在提供本公开的某些方面和实施例的说明性和示意性的而非全面的实例。附图不旨在限制或约束任何特定理论或模型，并且不一定按比例绘制。在不限制前述的情况下，核酸和多肽可以被描述为线性序列，或者示意性的二维或三维结构；这些描述旨在是说明性的，而不是限制或约束关于其结构的任何特定模型或理论。

图1以示意图形式描绘了人11号染色体上β-珠蛋白基因簇背景下的HBG1和HBG2基因。图1.β-珠蛋白基因簇中的每个基因由近端启动子进行转录调节。尽管不希望受到任何特定理论的束缚，通常认为A_γ和/或G_γ表达是通过近端启动子与远端强红系特异性增强子(基因座控制区(LCR))之间的接合而激活的。LCR的长程反式激活被认为是通过染色质构型/确认的改变介导的。LCR通过4个红系特异性DNA酶I超敏感位点(HS1-4)和2个远端增强子元件(5'HS和3'HS1)标记。β样基因珠蛋白基因表达以发育阶段特异性方式调节，并且珠蛋白基因表达的变化与造血主要位点的变化相一致。

图2A-2B描绘了HBG1和HBG2基因、编码序列(CDS)以及HBG1和HBG2近端启动子中和其上游的小缺失和点突变，所述小缺失和点突变已在患者中鉴定出并且与胎儿血红蛋白(HbF)升高相关。在一些遗传性持续性胎儿血红蛋白症(HPFH)的患者中已缺失的近端启动子内的核心元件(CAAT盒，13nt序列)。还鉴定了每个基因座的‘靶序列’区域，所述区域已筛选出gRNA结合靶位点。

图3A示出了在用RNP32电穿孔(“经处理的”)后第1至3天，来自三名TDT(“B-thal”)供体和三名正常健康供体(“HD”)的CD34+细胞中的indel的百分比。“模拟”表示没有用RNP电穿孔的细胞(未经编辑的细胞)。Indel＝插入和/或缺失。图3B示出了在用RNP32电穿孔后第1至3天，来自一名TDT(“经处理的”)供体的CD34+细胞中的indel的百分比。“模拟”表示没有用RNP电穿孔的细胞(未经编辑的细胞)。Indel＝插入和/或缺失。图3C示出了在电穿孔后第1至3天，来自三名TDT供体的CD34+细胞中的活细胞的百分比。“经处理的”(虚线)表示用RNP32电穿孔的细胞。“模拟”(实线)表示没有用RNP电穿孔的细胞(未经编辑的细胞)。

图4A示出了在红系培养物中第18天，来自三名TDT供体的CD235a⁺细胞的百分比。“RNP32”表示由来自TDT供体的RNP32编辑的CD34+细胞分化而来的成红细胞。“模拟”表示由来自没有用RNP电穿孔的细胞(未经编辑的细胞)分化而来的成红细胞。N＝3个独立供体，具有一式三份培养物。*p<0.05。图4B示出了在红系培养物中第7、11、14和18天，来自供体2的CD235a⁺细胞的百分比。“RNP32”(虚线)表示由来自TDT供体的RNP32编辑的CD34+细胞分化而来的成红细胞。“模拟”(实线)表示由来自没有用RNP电穿孔的细胞(未经编辑的细胞)分化而来的成红细胞。N＝3个独立供体，具有一式三份培养物。图4C示出了达到晚期成红细胞阶段的成红细胞的百分比。“RNP32”表示由来自TDT供体的RNP32编辑的CD34+细胞分化而来的成红细胞。“模拟”表示由来自没有用RNP电穿孔的细胞(未经编辑的细胞)分化而来的成红细胞。N＝3个独立供体，具有一式三份培养物。*p<0.05；**p<0.01；***p<0.001；****p<0.0001。图4D示出了经历终末成熟和去核的红系细胞的百分比。“RNP32”表示由来自TDT供体的RNP32编辑的CD34+细胞分化而来的成红细胞。“模拟”表示由来自没有用RNP电穿孔的细胞(未经编辑的细胞)分化而来的成红细胞。N＝3个独立供体，具有一式三份培养物。*p<0.05；**p<0.01；***p<0.001；****p<0.0001。图4E示出了成红细胞的细胞死亡频率(即，非活成红细胞的百分比)。“RNP32”表示由来自TDT供体的RNP32编辑的CD34+细胞分化而来的成红细胞。“模拟”表示由来自没有用RNP电穿孔的细胞(未经编辑的细胞)分化而来的成红细胞。N＝3个独立供体，具有一式三份培养物。*p<0.05；**p<0.01；***p<0.001；****p<0.0001。图4F示出了在达到晚期成红细胞阶段的红系培养物中第7、11、14和18天，来自供体2的成红细胞的百分比。虚线表示由来自TDT供体2的RNP32编辑的CD34+细胞分化而来的成红细胞。实线表示由来自没有用RNP电穿孔的细胞(未经编辑的细胞)分化而来的成红细胞。N＝1个独立供体，具有一式三份培养物。*p<0.05；**p<0.01；***p<0.001；****p<0.0001。图4G示出了在经历终末成熟和去核的红系培养物中第7、11、14和18天，来自供体2的红系细胞的百分比。虚线表示由来自TDT供体2的RNP32编辑的CD34+细胞分化而来的成红细胞。实线表示由来自没有用RNP电穿孔的细胞(未经编辑的细胞)分化而来的成红细胞。N＝1个独立供体，具有一式三份培养物。*p<0.05；**p<0.01；***p<0.001；****p<0.0001。图4H示出了在红系培养物中第7、11、14和18天，来自供体2的成红细胞(即，非活成红细胞的百分比)的细胞死亡频率。虚线表示由来自TDT供体2的RNP32编辑的CD34+细胞分化而来的成红细胞。实线表示由来自没有用RNP电穿孔的细胞(未经编辑的细胞)分化而来的成红细胞。N＝1个独立供体，具有一式三份培养物。*p<0.05；**p<0.01；***p<0.001；****p<0.0001。

图5A示出了由来自三名TDT供体(“供体1”、“供体2”、“供体3”)的RNP32编辑和未编辑的CD34+细胞分化而来的成红细胞的HBG/GAPDH mRNA含量。对于每个供体，由RNP32编辑的CD34+细胞分化而来的成红细胞的数据示出在右侧，并且对于每个供体，由没有用RNP电穿孔的细胞(未编辑的细胞)分化而来的成红细胞的数据示出在左侧。N＝3个独立供体，具有三个技术重复培养物。*p<0.05；**p<0.01；***p<0.001。GAPDH：甘油醛-3-磷酸脱氢酶；HBG：γ-珠蛋白。图5B示出了由来自三名TDT供体(“供体1”、“供体2”、“供体3”)的RNP32编辑和未编辑的CD34+细胞分化而来的成红细胞的γ-珠蛋白含量(每个细胞皮克(pg))。对于每个供体，由RNP32编辑的CD34+细胞分化而来的成红细胞的数据示出在右侧，并且对于每个供体，由没有用RNP电穿孔的细胞(未编辑的细胞)分化而来的成红细胞的数据示出在左侧。N＝3个独立供体，具有六个技术重复培养物。*p<0.05；**p<0.01；***p<0.001。图5C示出了由来自三名TDT供体(“供体1”、“供体2”、“供体3”)的RNP32编辑和未编辑的CD34+细胞分化而来的成红细胞的总珠蛋白/GAPDH mRNA含量。对于每个供体，由RNP32编辑的CD34+细胞分化而来的成红细胞的数据示出在右侧，并且对于每个供体，由没有用RNP电穿孔的细胞(未编辑的细胞)分化而来的成红细胞的数据示出在左侧。N＝3个独立供体，具有三个技术重复培养物。*p<0.05；**p<0.01；***p<0.001。图5D示出了由来自三名TDT供体(“供体1”、“供体2”、“供体3”)的RNP32编辑和未编辑的CD34+细胞分化而来的成红细胞的总血红蛋白蛋白质含量。对于每个供体，由RNP32编辑的CD34+细胞分化而来的成红细胞的数据示出在右侧，并且对于每个供体，由没有用RNP电穿孔的细胞(未编辑的细胞)分化而来的成红细胞的数据示出在左侧。N＝3个独立供体，具有六个技术重复培养物。*p<0.05；**p<0.01；***p<0.001。图5E示出了由来自三名TDT供体(“Thal供体1”、“Thal供体2”、“Thal供体3”)的RNP32编辑和未编辑的CD34+细胞分化而来的成红细胞的总血红蛋白蛋白质含量。“RNP32”表示由来自TDT供体的RNP32编辑的CD34+细胞分化而来的成红细胞。“模拟”表示由来自没有用RNP电穿孔的细胞(未经编辑的细胞)分化而来的成红细胞。使用反相超高效液相色谱法(RP-UPLC)测量评估总血红蛋白产量。

图6描绘了表9中所示的Cpf1蛋白变体的序列。核定位序列示出为粗体字母，六组氨酸序列示出为带下划线的字母。NLS序列的身份和N末端/C末端定位的另外排列(例如，将两个或更多个nNLS序列、或nNLS和sNLS序列(或其它NLS序列)的组合附加到N末端/C末端定位中的任一者)以及具有和不具有纯化序列(例如，六组氨酸序列)的序列都在本文公开的主题的范围内。

具体实施方式

定义和缩写词

除非另有说明，否则以下术语中的每个术语在此部分中具有与其相关联的含义。

不定冠词“一个/种(a/an)”是指相关名词中的至少一个，并且可与术语“至少一个/种”和“一个或多个/一种或多种”互换使用。例如，“一个模块”意指至少一个模块或者一个或多个模块。

连接词“或”和“和/或”可互换使用作为非排他析取。

“结构域”用于描述蛋白质或核酸的片段。除非另有说明，否则结构域不需要具有任何特定的功能特性。

“生产性indel”是指引起HbF表达的indel(缺失和/或插入)。在某些实施例中，生产性indel可能诱导HbF表达。在某些实施例中，生产性indel可能引起HbF表达水平升高。

“indel”是核酸序列中的插入和/或缺失。indel可以是DNA双链断裂修复的产物，如由本公开的基因组编辑系统形成的双链断裂。当通过“易错”修复通路如下文所描述的NHEJ通路修复断裂时，最常形成indel。

“基因转换”是指通过并入内源性同源序列(例如基因阵列内的同源序列)来改变DNA序列。“基因校正”是指通过并入外源性同源序列如外源性单链或双链供体模板DNA来改变DNA序列。基因转换和基因校正是通过HDR通路(如下文所描述的HDR通路)修复DNA双链断裂的产物。

Indel、基因转换、基因校正和其它基因组编辑结果通常通过测序进行评估(最常见的是通过“下一代”或“边合成边测序”方法，但仍可能使用桑格测序)，并且通过所有测序读段中所关注位点处的数值变化(例如±1、±2或更多碱基)的相对频率来定量。用于测序的DNA样品可以通过本领域已知的多种方法制备，并且可以涉及通过聚合酶链式反应(PCR)扩增所关注的位点、捕获由双链断裂产生的DNA端，如Tsai 2016中所描述的GUIDEseq过程(通过引用并入本文)或通过本领域众所周知的其它方式。基因组编辑结果还可以通过原位杂交方法如由基因组视觉公司(Genomic Vision)(法国巴涅(Bagneux,France))商业化的FiberComb^TM系统以及通过本领域已知的任何其它合适的方法来评估。

“Alt-HDR”、“替代同源定向修复”或“替代HDR”可互换使用以指使用同源核酸(例如，内源性同源序列，例如姐妹染色单体，或外源性核酸，例如模板核酸)修复DNA损伤的过程。Alt-HDR与典型HDR的不同之处在于，所述过程利用与典型HDR不同的通路，并且可以被典型HDR介体RAD51和BRCA2抑制。Alt-HDR还通过涉及单链或带切口的同源核酸模板来区分，而典型HDR通常涉及双链同源模板。

“典型HDR”、“典型同源定向修复”或“cHDR”是指使用同源核酸(例如，内源性同源序列，例如姐妹染色单体，或外源性核酸，例如模板核酸)修复DNA损伤的过程。典型HDR通常在双链断裂处存在显著切除，形成DNA的至少一个单链部分时起作用。在正常细胞中，cHDR通常涉及一系列步骤，如断裂的识别、断裂的稳定、切除、单链DNA的稳定、DNA交叉中间体的形成、交叉中间体的解析和连接。所述过程需要RAD51和BRCA2，并且同源核酸通常是双链的。

除非另有说明，否则如本文所使用的术语“HDR”涵盖典型HDR和alt-HDR两者。

“非同源端连接”或“NHEJ”是指连接介导的修复和/或非模板介导的修复，包含典型NHEJ(cNHEJ)和替代NHEJ(altNHEJ)，其进而包含微同源性介导的端连接(MMEJ)，单链退火(SSA)和合成依赖性微同源性介导的端连接(SD-MMEJ)。

当用于指分子(例如核酸或蛋白质)的修饰使用时，“替代”或“被替代”不需要过程限制，而仅表明存在替代实体。

“受试者”是指人、小鼠或非人灵长类动物。人受试者可以是任何年龄的(例如，婴儿、儿童、年轻人或成人)，并且可能患有疾病，或者可能需要改变基因。

“治疗(treat、treating和treatment)”意指治疗受试者(例如，人受试者)的疾病，包含抑制疾病，即，阻止或预防其发展或进展；缓解疾病，即，使疾病状态消退；缓解疾病的一种或多种症状；以及治愈疾病中的一种或多种。

“预防(prevent、preventing和prevention)”是指预防受试者的疾病，包含(a)避免或排除疾病；(b)影响疾病的易感性；或(c)预防或延迟疾病的至少一种症状的发作。

“试剂盒”是指两个或更多个组件的任何集合，所述组件一起构成可用于特定目的的功能单元。通过说明(而非限制)的方式，根据本公开的一种试剂盒可以包含与RNA向导的核酸酶复合或能够与RNA向导的核酸酶复合的向导RNA，并且伴随有(例如，悬浮于或可悬浮于其中)药学上可接受的载剂。在某些实施例中，所述试剂盒可能包含增强元件。所述试剂盒可以用于将复合物引入例如细胞或受试者中，以在此类细胞或受试者中引起期望的基因组改变。试剂盒的组件可以包装在一起，或者其可以单独包装。根据本公开的试剂盒还任选地包含使用说明(DFU)，所述DFU描述了例如根据本公开的方法的试剂盒的用途。DFU可以与试剂盒物理包装在一起，或者其可以通过例如电子方式提供给试剂盒的用户。

术语“多核苷酸”、“核苷酸序列”、“核酸”、“核酸分子”、“核酸序列”和“寡核苷酸”是指DNA和RNA中的一系列核苷酸碱基(也称为“核苷酸”)，并且意指两个或更多个核苷酸的任何链。多核苷酸、核苷酸序列、核酸等可以是单链或双链的嵌合混合物或其衍生物或修饰形式。它们可以在碱基部分、糖部分或磷酸酯主链处进行修饰，例如，以提高分子的稳定性、其杂交参数等。核苷酸序列通常携带遗传信息，包含但不限于细胞机器用来制造蛋白质和酶的信息。这些术语包含双链或单链基因组DNA、RNA、任何合成的和基因操作的多核苷酸，以及有义和反义多核苷酸。这些术语还包含含有经修饰的碱基的核酸。

本文所呈现的核苷酸序列中使用常规的IUPAC表示法，如下表1所示(还参见Cornish-Bowden A,《核酸研究(Nucleic Acids Res.)》1985年5月10日；13(9):3021-30，所述文献通过引用并入本文)。然而，应当注意，在序列可以由DNA或RNA编码的情况下，例如在gRNA靶向结构域中，“T”表示“胸腺嘧啶或尿嘧啶”。

表1：IUPAC核酸表示法

术语“蛋白质”、“肽”和“多肽”可互换使用以指通过肽键连接在一起的连续氨基酸链。所述术语包含单个蛋白质、缔和在一起的蛋白质组或复合物以及此类蛋白质的片段或部分、变体、衍生物和类似物。本文使用常规表示法呈现肽序列，从左侧的氨基或N末端开始，并且继续到右侧的羧基或C末端。可以使用标准的一字母或三字母缩写。

表示法“CCAAT盒靶区域”等是指作为HBG1和/或HBG2基因的转录起始位点(TSS)的5'的序列。CCAAT盒是α样和β样珠蛋白基因的启动子区域内高度保守的基序。CCAAT盒内或附近的区域在珠蛋白基因调节中发挥重要作用。例如，γ-珠蛋白远端CCAAT盒与遗传性持续性胎儿血红蛋白症相关。据报告，许多转录因子与γ-珠蛋白启动子的复制CCAAT盒区域结合，例如NF-Y、COUP-TFII(NF-E3)、CDP、GATA1/NF-E1和DRED(Martyn 2017)。虽然不希望受到理论的束缚，但据信转录激活因子NF-Y的结合位点与γ-珠蛋白启动子处的转录抑制因子重叠。存在于远端γ-珠蛋白启动子区域(例如CCAAT盒内或附近)的HPFH突变可能会改变这些因子的竞争性结合，从而引起γ-珠蛋白表达增加和HbF水平升高。本文所提供的HBG1和HBG2基因组位置基于NCBI参考序列NC_000011，“智人染色体11，GRCh38.p12初级组装”(NC_000011.10版本)。HBG1和HBG2的远端CCAAT盒定位于HBG1和HBG2 c.-111至-115(基因组位置分别为Hg38 Chr11:5,249,968至Chr11:5,249,972以及Hg38 Chr11:5,254,892至Chr11:5,254,896)。HBG1 c.-111至-115区域例示于位置2823-2827处的SEQ ID NO:902(HBG1)中，并且HBG2 c.-111至-115区域例示于位置2747-2751处的SEQ ID NO:903(HBG2)中。在某些实施例中，“CCAAT盒靶区域”表示远端CCAAT盒处或附近的区域，并且包含远端CCAAT盒的核苷酸以及远端CCAAT盒上游(5')的25个核苷酸和下游(3')的25个核苷酸(即，HBG1/2c.-86至-140)(基因组位置分别为Hg38Chr11:5249943至Hg38 Chr11:5249997以及Hg38 Chr11:5254867至Hg38Chr11:5254921)。HBG1 c.-86至-140区域例示于位置2798-2852处的SEQ ID NO:902(HBG1)中，并且HBG2 c.-86至-140区域例示于位置2723-2776处的SEQ ID NO:903(HBG2)中。在其它实施例中，“CCAAT盒靶区域”表示远端CCAAT盒处或附近的区域，并且包含远端CCAAT盒的核苷酸以及远端CCAAT盒上游(5')的5个核苷酸和下游(3')的5个核苷酸(即，HBG1/2c.-106至-120(基因组位置分别为Hg38 Chr11:5249963至Hg38Chr11:5249977(HGB1)以及Hg38 Chr11:5254887至Hg38 Chr11:5254901))。HBG1 c.-106至-120区域例示于位置2818-2832处的SEQ ID NO:902(HBG1)中，并且HBG2 c.-106至-120区域例示于位置2742-2756处的SEQ ID NO:903(HBG2)中。术语“CCAAT盒靶位点改变”等是指CCAAT盒靶区域的一个或多个核苷酸的改变(例如，缺失、插入、突变)。示例性CCAAT盒靶区域改变的实例包含但不限于1nt缺失、4nt缺失、11nt缺失、13nt缺失和18nt缺失以及-117G>A改变。如本文所使用的，术语“CCAAT盒”和“CAAT盒”可互换使用。

表示法“c.-114至-102区域”、“c.-102至-114区域”、“-102:-114”、“13nt靶区域”等分别是指作为基因组位置Hg38 Chr11:5,249,959至Hg38 Chr11:5,249,971以及Hg38Chr11:5,254,883至Hg38 Chr11:5,254,895处的HBG1和/或HBG2基因的转录起始位点(TSS)的5'的序列。HBG1 c.-102至-114区域例示于位置2824-2836处的SEQ ID NO:902(HBG1)中，并且HBG2 c.-102至-114区域例示于位置2748-2760处的SEQ ID NO:903(HBG2)中。术语“13nt缺失”等是指13nt靶区域的缺失。

表示法“c.-121至-104区域”、“c.-104至-121区域”、“-104:-121”、“18nt靶区域”等分别是指作为基因组位置Hg38 Chr11:5,249,961至Hg38 Chr11:5,249,978以及Hg38Chr11:5,254,885至Hg38 Chr11:5,254,902处的HBG1和/或HBG2基因的转录起始位点(TSS)的5'的序列。HBG1 c.-104至-121区域例示于位置2817-2834处的SEQ ID NO:902(HBG1)中，并且HBG2 c.-104至-121区域例示于位置2741-2758处的SEQ ID NO:903(HBG2)中。术语“18nt缺失”等是指18nt靶区域的缺失。

表示法“c.-105至-115区域”、“c.-115至-105区域”、“-105:-115”、“11nt靶区域”等分别是指作为基因组位置Hg38 Chr11:5,249,962至Hg38 Chr11:5,249,972以及Hg38Chr11:5,254,886至Hg38 Chr11:5,254,896处的HBG1和/或HBG2基因的转录起始位点(TSS)的5'的序列。HBG1 c.-105至-115区域例示于位置2823-2833处的SEQ ID NO:902(HBG1)中，并且HBG2 c.-105至-115区域例示于位置2747-2757处的SEQ ID NO:903(HBG2)中。术语“11nt缺失”等是指11nt靶区域的缺失。

表示法“c.-115至-112区域”、“c.-112至-115区域”、“-112:-115”、“4nt靶区域”等分别是指作为基因组位置Hg38 Chr11:5,249,969至Hg38 Chr11:5,249,972以及Hg38Chr11:5,254,893至Hg38 Chr11:5,254,896处的HBG1和/或HBG2基因的转录起始位点(TSS)的5'的序列。HBG1 c.-112至-115区域例示于位置2823-2826处的SEQ ID NO:902中，并且HBG2 c.-112至-115区域例示于位置2747-2750处的SEQ ID NO:903(HBG2)中。术语“4nt缺失”等是指4nt靶区域的缺失。

表示法“c.-116区域”、“HBG-116”、“1nt靶区域”等分别是指作为基因组位置Hg38Chr11:5,249,973以及Hg38 Chr11:5,254,897处的HBG1和/或HBG2基因的转录起始位点(TSS)的5'的序列。HBG1 c.-116区域例示于位置2822处的SEQ ID NO:902中，并且HBG2c.-116区域例示于位置2746处的SEQ ID NO:903(HBG2)中。术语“1nt缺失”等是指1nt靶区域的缺失。

表示法“c.-117G>A区域”、“HBG-117G>A”、“-117G>A靶区域”等分别是指作为基因组位置Hg38 Chr11:5,249,974至Hg38 Chr11:5,249,974以及Hg38 Chr11:5,254,898至Hg38 Chr11:5,254,898处的HBG1和/或HBG2基因的转录起始位点(TSS)的5'的序列。HBG1c.-117区域通过位置2821处的SEQ ID NO:902中从鸟嘌呤(G)到腺嘌呤(A)的取代来例示，并且HBG2 c.-117G>A区域通过位置2745处的SEQ ID NO:903(HBG2)中从G到A的取代来例示。术语“-117G>A改变”等是指在-117G>A靶区域处从G到A的取代。

术语“近端HBG1/2启动子靶序列”表示近端HBG1/2启动子序列的50、100、200、300、400或500bp内的区域，包含13nt靶区域。根据本公开的基因组编辑系统的改变促进(例如，引起、促进或倾向于增加其可能性)红系后代中HbF产生的上调。

在本文提供范围的情况下，包含端点。此外，应当理解，除非从本领域的普通技术人员的上下文和/或理解中另外指示或以其它方式显而易见，否则表达为范围的值可以假定在本发明的不同实施例中到范围下限的单位的十分之一的任何特定值，除非上下文另外明确指出。还应理解，除非从本领域的普通技术人员的上下文和/或理解中另外指示或以其它方式显而易见，否则表达为范围的值可以假定给定范围内的任何子范围，其中子范围的端点表达为与范围下限的单位的十分之一相同的准确度。

概述

本公开的各个实施例通常涉及基因组编辑系统，所述基因组编辑系统被配置成将改变(例如，缺失或插入、或其它突变)引入染色体DNA中，其增强分别编码血红蛋白的Aγ和Gγ亚基的HBG1和/或HBG2基因的转录。在某些实施例中，使用本文所提供的方法增加一种或多种γ-珠蛋白基因(例如，HBG1、HBG2)的表达引起相对于HbA优先形成HbF和/或HbF水平占总血红蛋白的百分比增加。在某些实施例中，本公开总体上涉及包括与Cpf1分子复合的gRNA的RNP复合物的用途。在某些实施例中，gRNA可以是未修饰的或经修饰的，Cpf1分子可以是野生型Cpf1蛋白或经修饰的Cpf1蛋白。在某些实施例中，gRNA可以包括表12、13、16或17中所示的序列。在某些实施例中，经修饰的Cpf1可以由SEQ ID NO:1000、1001、1008-1018、1032、1035-39、1094-1097、1107-09(Cpf1多肽序列)或SEQ ID NO:1019-1021、1110-17(Cpf1多核苷酸序列)中所示的序列编码。在某些实施例中，RNP复合物可以包括表10中所示的RNP复合物。例如，RNP复合物可以包含包括SEQ ID NO:1051中所示的序列的gRNA和由SEQ ID NO:1097中所示的序列编码的经修饰的Cpf1蛋白(RNP32，表10)。

先前已表明，患有病状遗传性持续性胎儿血红蛋白症(HPFH)的患者的γ-珠蛋白调节元件中含有突变，导致胎儿γ-珠蛋白在整个生命过程中表达，而不是在出生时受到抑制(Martyn 2017)。这会导致胎儿血红蛋白(HbF)表达升高。HPFH突变可以是缺失型或非缺失型(例如，点突变)。HPFH受试者表现出HbF的终生表达，即，所述受试者不经历或仅经历部分珠蛋白转换，没有贫血症状。

HbF表达可以通过γ-珠蛋白调节元件中的点突变来诱导，所述调节元件与天然存在的HPFH变体相关，包含例如HBG1 c.-114C>T；c.-117G>A；c.-158C>T；c.-167C>T；c.-170G>A；c.-175T>G；c.-175T>C；c.-195C>G；c.-196C>T；c.-197C>T；c.-198T>C；c.-201C>T；c.-202C>T；c.-211C>T、c.-251T>C；或c.-499T>A；或HBG2 c.-109G>T；c.-110A>C；c.-114C>A；c.-114C>T；c.-114C>G；c.-157C>T；c.-158C>T；c.-167C>T；c.-167C>A；c.-175T>C；c.-197C>T；c.-200+C；c.-202C>G；c.-211C>T；c.-228T>C；c.-255C>G；c.-309A>G；c.-369C>G；或c.-567T>G。

HBG1和/或HBG2基因(即，HBG1/2c.-111至-115)启动子内发现的远端CCAAT盒基序处自然发生的突变也被表明会导致持续的γ-珠蛋白表达和HPFH病状。据认为，CCAAT盒的改变(突变或缺失)可能会破坏一种或多种转录抑制因子的结合，从而导致γ-珠蛋白基因持续表达和HbF表达升高(Martyn 2017)。例如，天然存在的13碱基对c.-114至-102(“13nt缺失”)已被表明与HbF水平升高相关(Martyn 2017)。远端CCAAT盒可能与在成年期表达并抑制HBG的负调节转录因子的CCAAT盒内和周围的结合基序重叠(Martyn 2017)。

本文所公开的基因编辑策略是通过破坏远端CCAAT盒中和/或远端CCAAT盒周围的一个或多个核苷酸来增加HbF表达。在某些实施例中，“CCAAT盒靶区域”可以是远端CCAAT盒处或附近的区域，并且包含远端CCAAT盒的核苷酸以及远端CCAAT盒上游(5')的25个核苷酸和下游(3')的25个核苷酸(即，HBG1/2c.-86至-140)。在其它实施例中，“CCAAT盒靶区域”可以是远端CCAAT盒处或附近的区域，并且包含远端CCAAT盒的核苷酸以及远端CCAAT盒上游(5')的5个核苷酸和下游(3')的5个核苷酸(即，HBG1/2c.-106至-120。

本文公开了CCAAT盒靶区域的独特的、非天然存在的改变，其诱导HBG表达，包含但不限于HBG del c.-104至-121(“18nt缺失”)、HBG del c.-105至-115(“11nt缺失”)、HBGdel c.-112至-115(“4nt缺失”)和HBG del c.-116(“1nt缺失”)。在某些实施例中，本文所公开的基因组编辑系统可以用于将改变引入HBG1和/或HBG2的CCAAT盒靶区域中。在某些实施例中，基因组编辑系统可以包含RNA向导的核酸酶，所述RNA向导的核酸酶包含Cas9、经修饰的Cas 9、Cpf1或经修饰的Cpf1。在某些实施例中，基因组编辑系统可以包含包括gRNA和Cpf1分子的RNP。在某些实施例中，gRNA可以是未修饰的或经修饰的，Cpf1分子可以是野生型Cpf1蛋白或经修饰的Cpf1蛋白或其组合。在某些实施例中，gRNA可以包括表7、8、11或12中所示的序列。在某些实施例中，经修饰的Cpf1可以由SEQ ID NO:1000、1001、1008-1018、1032、1035-39、1094-1097、1107-09(Cpf1多肽序列)或SEQ ID NO:1019-1021、1110-17(Cpf1多核苷酸序列)中所示的序列编码。在某些实施例中，RNP复合物可以包括表10中所示的RNP复合物。例如，RNP复合物可以包含包括SEQ ID NO:1051中所示的序列的gRNA和由SEQID NO:1097中所示的序列编码的经修饰的Cpf1蛋白(RNP32，表10)。

本公开的基因组编辑系统可以包含RNA向导的核酸酶如Cpf1和具有与靶区域中或附近的序列互补的靶向结构域的一种或多种gRNA，以及任选地以下中的一种或多种：编码靶区域中或附近的特定突变(如缺失或插入)的DNA供体模板和/或增强产生此类突变的效率的药剂，包含但不限于随机寡核苷酸、参与DNA修复或DNA损伤应答的基因产物的小分子激动剂或拮抗剂、或肽药剂。

在本公开的实施例中可以采用多种方法将突变引入CCAAT盒靶区域、13nt靶区域和/或近端HBG1/2启动子靶序列。在一种方法中，在CCAAT盒靶区域、13nt靶区域和/或近端HBG1/2启动子靶序列内进行单个改变，如双链断裂，并且以破坏所述区域功能的方式进行修复，例如通过形成indel或通过并入编码所述区域的缺失的供体模板序列。在第二种方法中，在所述区域的任一侧进行两个或更多个改变，导致插入序列的缺失，包含CCAAT盒靶区域和/或13nt靶区域。

通过基因疗法和/或基因组编辑来治疗血红蛋白病是复杂的，因为受所述疾病表型影响的细胞(红血球或RBC)已被去核，并且不含有编码上文所描述的示例性基因组编辑方法中靶向的异常血红蛋白(Hb)亚基或Aγ或Gγ亚基的遗传物质。在本公开的某些实施例中，通过改变能够分化为红细胞或以其它方式产生红血球的细胞来解决此并发症。根据本公开的各个实施例改变的红系谱系内的细胞包含但不限于造血干细胞和祖细胞(HSC)、成红细胞(包含嗜碱性、多染性和/或正染性成红细胞)、原成红细胞、多染性红血球或网织红细胞、胚胎干(ES)细胞和/或诱导多能干(iPSC)细胞。这些细胞可以在原位(例如在受试者的组织内)或离体改变。用于原位和离体改变细胞的基因组编辑系统的实施方案在下文的标题“基因组编辑系统的实施方案：递送、制剂和施用途径”下描述。

在某些实施例中，导致Aγ和/或Gγ表达诱导的改变通过使用基因组编辑系统获得，所述基因组编辑系统包括RNA向导的核酸酶和至少一种gRNA，所述至少一种gRNA具有与HBG1和/或HBG2的CCAAT盒靶区域内或邻近其(例如，CCAAT盒靶区域的10、20、30、40或50、100、200、300、400或500个碱基内)的序列互补的靶向结构域。如下文更详细讨论的，RNA向导的核酸酶和gRNA形成复合物，所述复合物能够与CCAAT盒靶区域或邻近其的区域缔合并改变CCAAT盒靶区域或邻近其的区域。用于本文所公开的实施例中的针对HBG1和/或HBG2的CCAAT盒靶区域或邻近其的合适的gRNA和gRNA靶向结构域的实例包含本文所示的实例。

在某些实施例中，导致Aγ和/或Gγ表达诱导的改变通过使用基因组编辑系统获得，所述基因组编辑系统包括RNA向导的核酸酶和至少一种gRNA，所述至少一种gRNA具有与HBG1和/或HBG2的13nt靶区域内或邻近其(例如，13nt靶区域的10、20、30、40或50、100、200、300、400或500个碱基内)的序列互补的靶向结构域。如下文更详细讨论的，RNA向导的核酸酶和gRNA形成复合物，所述复合物能够与13nt靶区域或邻近其的区域缔合并改变13nt靶区域或邻近其的区域。用于本文所公开的实施例中的针对HBG1和/或HBG2的13nt靶区域或邻近其的合适的gRNA和gRNA靶向结构域的实例包含本文所示的实例。

基因组编辑系统可以以多种方式实施，如下文详细讨论的。例如，本公开的基因组编辑系统可以被实施为核糖核蛋白复合物或其中使用多个gRNA的多个复合物。可以使用本领域已知的方法，包含电穿孔，将此核糖核蛋白复合物引入靶细胞中，如2016年11月17日公开的Jennifer Gori(“Gori”)的共同转让的国际专利公开第WO 2016/182959号中所描述的，所述专利通过引用整体并入本文。

通过本领域已知的方法，包含但不限于电穿孔(例如使用瑞士巴塞尔龙沙公司(Lonza,Basel,Switzerland)商业化的Nucleofection^TM技术或例如马里兰州盖瑟斯堡马克赛特公司(Maxcyte Inc.Gaithersburg,Maryland)的商业化的类似技术)和脂转染(例如使用马萨诸塞州沃尔瑟姆的赛默飞世尔科技公司(Thermo Fisher Scientific,WalthamMassachusetts)商业化的Lipofectamine^TM试剂)，将这些组合物内的核糖核蛋白复合物引入靶细胞中。可替代地或另外地，在引入编码RNA向导的核酸酶和/或gRNA的核酸后，核糖核蛋白复合物在靶细胞本身内形成。这些和其它递送方式在下文和Gori中进行了概括性地描述。

根据本公开已经离体改变的细胞可以在其递送到受试者之前进行操作(例如扩增、传代、冷冻、分化、去分化、用转基因转导等)。细胞以不同的方式被递送到获得它们的受试者(在“自体”移植中)，或递送到在免疫学上不同于细胞供体的受体(在“同种异体”移植中)。

在一些情况下，自体移植包含以下步骤：从受试者获得多个细胞，所述细胞在外周血中循环或在骨髓或其它组织(例如脾、皮肤等)内；以及操作这些细胞以富集红系谱系中的细胞(例如，通过诱导生成iPSC、纯化表达某些细胞表面标志物如CD34、CD90、CD49f和/或不表达非红系谱系特有的表面标志物如CD10、CD14、CD38等的细胞)。任选地或另外地，在用靶向CCAAT盒靶区域、13nt靶区域和/或近端HBG1/2启动子靶序列的基因组编辑系统进行转导之前，将细胞扩增、用转基因转导、暴露于细胞因子或其它肽或小分子药剂和/或冷冻/解冻。基因组编辑系统可以以任何合适的形式实施或递送到细胞，包含作为核糖核蛋白复合物、作为分离的蛋白质和核酸组分、和/或作为编码基因组编辑系统的组分的核酸。

在某些实施例中，已使用本文所公开的基因组编辑方法编辑的CD34+造血干细胞和祖细胞(HSPC)可以用于治疗有需要的受试者的血红蛋白病。在某些实施例中，血红蛋白病可以是严重镰状细胞病(SCD)或地中海贫血，如β-地中海贫血、δ-地中海贫血或β/δ-地中海贫血。在某些实施例中，用于治疗血红蛋白病的示例性方案可以包含从有需要的受试者采集CD34+HSPC，使用本文所公开的基因组编辑方法对自体CD34+HSPC进行离体编辑，随后将经编辑的自体CD34+HSPC重新输注到受试者中。在某些实施例中，用经编辑的自体CD34+HSPC治疗可能会引起HbF诱导增加。

在某些实施例中，在采集CD34+HSPC之前，如果适用，受试者可以停止用羟基脲治疗，并且接受输血以维持足够的血红蛋白(Hb)水平。在某些实施例中，可以向受试者静脉内施用普乐沙福(plerixafor)(例如，0.24mg/kg)以将CD34+HSPC从骨髓动员到外周血中。在某些实施例中，受试者可以经历一个或多个白细胞去除术周期(例如，周期之间大约一个月，其中一个周期定义为连续天数进行的两次普乐沙福动员的白细胞去除术收集)。在某些实施例中，对受试者进行的白细胞去除术周期数可以是达到将一定剂量的经编辑的自体CD34+HSPC(例如，≥2x10⁶个细胞/kg、≥3x10⁶个细胞/kg、≥4x10⁶个细胞/kg、≥5x10⁶个细胞/kg、2x10⁶个细胞/kg至3x10⁶个细胞/kg、3x10⁶个细胞/kg至4x10⁶个细胞/kg、4x10⁶个细胞/kg至5x10⁶个细胞/kg)与一定剂量的与用于备份存储的未编辑的自体CD34+HSPC/kg(例如，≥1.5x10⁶个细胞/kg)一起重新输注回到受试者体内所需的数量。在某些实施例中，可以使用本文所讨论的基因组编辑方法中的任何基因组编辑方法来编辑从受试者采集的CD34+HSPC。在某些实施例中，本文所公开的gRNA中的任何一种或多种gRNA和RNA向导的核酸酶中的一种或多种RNA向导的核酸酶可以用于基因组编辑方法中。

在某些实施例中，治疗可以包含自体干细胞移植。在某些实施例中，受试者可以经历清髓性调理以及白消安调理(例如，基于首剂药代动力学分析调整剂量，其中测试剂量为1mg/kg)。在某些实施例中，调理可能会连续四天发生。在某些实施例中，经过三天的白消安清洗期后，经编辑的自体CD34+HSPC(例如，≥2x10⁶个细胞/kg、≥3x10⁶个细胞/kg、≥4x10⁶个细胞/kg、≥5x10⁶个细胞/kg、2x10⁶个细胞/kg至3x10⁶个细胞/kg、3x10⁶个细胞/kg至4x10⁶个细胞/kg、4x10⁶个细胞/kg至5x10⁶个细胞/kg)可以重新输注到受试者体内(例如，重新输注到外周血中)。在某些实施例中，可以为特定受试者制造和冷冻保存经编辑的自体CD34+HSPC。在某些实施例中，在连续清髓性调理方案和输注经编辑的自体CD34+细胞后，受试者可以获得中性粒细胞移植。中性粒细胞移植可以定义为ANC≥0.5x10⁹/L的连续三次测量。

无论如何实施，基因组编辑系统可以包含或可以与一种或多种在编辑期间和编辑之后改善细胞活力的因子共同递送，包含但不限于芳基烃受体拮抗剂，如StemRegenin-1(SR1)、UM171、LGC0006、α-萘黄酮和CH-223191，和/或先天免疫应答拮抗剂，如环孢菌素A、地塞米松、白藜芦醇、MyD88抑制肽、靶向Myd88的RNAi剂、B18R重组蛋白、糖皮质激素、OxPAPC、TLR拮抗剂、雷帕霉素、BX795和RLRshRNA。在编辑期间和之后改善细胞活力的这些和其它因子在Gori中第36页至第61页标题“I.干细胞的优化”下进行了描述，所述文献通过引用并入本文。

在递送基因组编辑系统之后，任选地对细胞进行操作，例如以富集HSC和/或红系谱系中的细胞和/或经编辑的细胞、扩增它们、冷冻/解冻或以其它方式准备细胞以返回受试者。然后将经编辑的细胞返回受试者，例如通过静脉内递送或递送的方式返回到循环系统中或返回到如骨髓等实体组织中。

在功能上，使用本公开的组合物、方法和基因组编辑系统改变CCAAT盒靶区域、13nt靶区域和/或近端HBG1/2启动子靶序列引起血红蛋白表达细胞中Aγ和/或Gγ亚基(可互换地称为HbF表达)的显著诱导，例如相对于未修饰的对照，诱导至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％或更大的Aγ和/或Gγ亚基表达。这种蛋白质表达的诱导通常是所处理的多个细胞中的一些或全部中CCAAT盒靶区域、13nt靶区域和/或近端HBG1/2启动子靶序列(例如以多个细胞内包括indel突变的总基因组的百分比来表达)改变的结果，例如至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％的多个细胞包括至少一个等位基因，所述至少一个等位基因包括序列改变，所述序列改变包含但不限于CCAAT盒靶区域、13nt靶区域和/或近端HBG1/2启动子靶序列中或附近的indel、插入或缺失。

由本公开的基因组编辑系统和方法引起或促进的改变的功能效果可以以许多合适的方式评估。例如，改变对胎儿血红蛋白表达的影响可以以蛋白质或mRNA水平评估。HBG1和HBG2 mRNA的表达可以通过数字液滴PCR(ddPCR)进行评估，所述ddPCR是对从经处理或未处理的样品中采集的mRNA进行逆转录而获得的cDNA样品进行的。HBG1、HBG2、HBB和/或HBA的引物可以单独使用或使用本领域已知的方法复用。例如，样品的ddPCR分析可以使用伯乐公司(Bio Rad)(加利福尼亚州赫拉克勒斯(Hercules,CA))商业化的QX200^TMddPCR系统和伯乐公司公布的相关方案进行。胎儿血红蛋白可以通过高压液相色谱法(HPLC)，例如根据Chang 2017的第143-44页上讨论的方法(通过引用并入本文)或快速蛋白质液相色谱法(FPLC)，使用离子交换和/或反相柱解析HbF、HbB和HbA和/或Aγ和Gγ珠蛋白链来进行评估，如本领域已知的。

本文所描述的实施例可以用于所有种类的脊椎动物，包含但不限于灵长类动物、小鼠、大鼠、兔、猪、狗和猫。

本概述集中于少量示例性实施例，所述实施例说明了基因组编辑系统和CRISPR介导的改变细胞的方法的原理。然而，为了清楚起见，本公开涵盖上文未明确阐述但对于本领域技术人员来说将是显而易见的修改和变化。考虑到这一点，以下公开旨在更一般地说明基因组编辑系统的操作原理。以下内容不应被理解为限制性的，而是对基因组编辑系统和利用这些系统的CRISPR介导的方法的某些原理的说明，其与本公开相结合，将告知本领域技术人员关于其范围内的另外的实施方案和修改。

基因组编辑系统

术语“基因组编辑系统”是指具有RNA向导的DNA编辑活性的任何系统。本公开的基因组编辑系统包含至少两个改编自天然存在的CRISPR系统的组分：向导RNA(gRNA)和RNA向导的核酸酶。这两种组分形成复合物，所述复合物能够与特定的核酸序列缔和并且编辑所述核酸序列中或周围的DNA，例如通过产生一个或多个单链断裂(SSB或切口)、双链断裂(DSB)和/或点突变。

基因组编辑系统可以以多种方式实施(例如施用或递送到细胞或受试者)，并且不同的实施方案可能适合不同的应用。例如，在某些实施例中，基因组编辑系统被实施为蛋白质/RNA复合物(核糖核蛋白或RNP)，其可以包含在药物组合物中，所述药物组合物任选地包含药学上可接受的载剂和/或包封剂，如但不限于脂质或聚合物微粒或纳米颗粒、胶束或脂质体。在某些实施例中，基因组编辑系统被实施为编码上文所描述的RNA向导的核酸酶和向导RNA组分的一种或多种核酸(任选地具有一种或多种另外组分)；在某些实施例中，基因组编辑系统被实施为包括此类核酸的一种或多种载体，例如病毒载体，如腺相关病毒(参见下文标题“基因组编辑系统的实施方案：递送、制剂和施用途径”下的部分)；并且在某些实施例中，基因组编辑系统被实施为任何前述的组合。根据本文所示的原理操作的另外或修改的实施方案对于本领域技术人员来说将是显而易见的并且在本公开的范围内。示例性RNP在表10中所示。参见国际公开第WO 2021/119040号(参见例如表15)。

应当注意，本公开的基因组编辑系统可以靶向单个特定核苷酸序列，或者可以通过使用两个或更多个向导RNA靶向—并且能够并行编辑—两个或更多个特定核苷酸序列。多个gRNA的使用在本公开全文中被称为“复用”，并且可以用于靶向多个不相关的所关注靶序列，或者在单个靶结构域内形成多个SSB或DSB，并且在一些情况下，产生此类靶结构域内的特定编辑。例如通过引用并入本文的Maeder等人的国际专利公开第WO 2015/138510号(“Maeder”)描述了一种基因组编辑系统，用于纠正人CEP290基因中的点突变(C.2991+1655A至G)，所述点突变引起产生隐秘剪接位点，这进而降低或消除所述基因的功能。Maeder的基因组编辑系统利用靶向点突变任一侧(即，侧接)上的序列的两个向导RNA，并且形成侧接突变的DSB。这进而促进了插入序列(包含突变)的缺失，从而消除了隐秘剪接位点并恢复了正常的基因功能。

作为另一实例，通过引用并入本文的Cotta-Ramusino等人的WO 2016/073990(“Cotta-Ramusino”)描述了一种基因组编辑系统，所述基因组编辑系统利用两个gRNA与Cas9切口酶(一种产生单链切口的Cas9，如化脓性链球菌(S.pyogenes)D10A)组合，即，被称为“双切口酶系统”的排列。Cotta-Ramusino的双切口酶系统被配置成在所关注序列的偏移一个或多个核苷酸的相对链上产生两个切口，所述切口组合产生具有突出端(在Cotta-Ramusino的情况下为5'，但3'突出端也是可能的)的双链断裂。在某些情况下，突出端进而可以促进同源定向修复事件。并且作为另一实例，Palestrant等人的WO 2015/070083(通过引用并入本文)描述了靶向编码Cas9的核苷酸序列的gRNA(称为“控制RNA”)，其可以包含在包括一种或多种另外的gRNA的基因组编辑系统中，以允许Cas9的瞬时表达，所述Cas9可以以其它方式组成性地表达，例如在一些病毒转导的细胞中。这些复用应用旨在是示例性的，而不是限制性的，并且本领域技术人员将理解，复用的其它应用通常与本文所描述的基因组编辑系统兼容。

如本文所公开的，在某些实施例中，基因组编辑系统可以包括多个gRNA，其可以用于将突变引入HBG1和/或HBG2的13nt靶区域中。在某些实施例中，本文所公开的基因组编辑系统可以包括用于将突变引入HBG1和/或HBG2的13nt靶区域中的多个gRNA。

在一些情况下，基因组编辑系统可以形成通过如NHEJ或HDR等细胞DNA双链断裂机制进行修复的双链断裂。这些机制在整个文献中都有描述(参见例如Davis和Maizels 2014(描述了Alt-HDR)；Frit 2014(描述了Alt-NHEJ)；Iyama和Wilson 2013(总体描述了典型HDR和NHEJ通路))。

在基因组编辑系统通过形成DSB进行操作的情况下，此类系统任选地包含促使或促进双链断裂修复的特定模式或特定修复结果的一种或多种组分。例如，Cotta-Ramusino还描述了基因组编辑系统，其中添加了单链寡核苷酸“供体模板”；供体模板被并入到被基因组编辑系统切割的细胞DNA的靶区域中，并且可能导致靶序列发生变化。

在某些实施例中，基因组编辑系统修改靶序列，或修改靶序列内或附近基因的表达，而不会引起单链或双链断裂。例如，基因组编辑系统可以包含与作用于DNA的功能结构域融合的RNA向导的核酸酶，从而修改靶序列或其表达。作为一个实例，RNA向导的核酸酶可以连接到(例如融合到)胞苷脱氨酶功能结构域，并且可以通过产生靶向的C至A取代来进行操作。示例性核酸酶/脱氨酶融合体描述于Komor 2016，其通过引用并入本文。可替代地，基因组编辑系统可以利用切割失活(即，“死”)核酸酶，如死Cas9(dCas9)，并且可以通过在细胞DNA的一个或多个靶区域上形成稳定的复合物来进行操作，从而干扰涉及靶区域的功能，包含但不限于mRNA转录、染色质重塑等。在某些实施例中，基因组编辑系统可以包含RNA向导的解旋酶，所述RNA向导的解旋酶在靶序列内或近端解开DNA，而不会引起单链或双链断裂。例如，基因组编辑系统可以包含RNA向导的解旋酶，所述RNA向导的解旋酶被配置成在靶序列内或附近缔和以解开DNA并诱导对靶序列的可及性。在某些实施例中，RNA向导的解旋酶可以与死向导RNA复合，所述死向导RNA被配置成缺乏切割活性，从而允许DNA解开而不引起DNA断裂。

向导RNA(gRNA)分子

术语“向导RNA”和“gRNA”是指促进RNA向导的核酸酶(如Cpf1分子)与靶序列(如细胞中的基因组或附加型序列)特异性缔和(或“靶向”)的任何核酸。gRNA可以是单分子的(包括单个RNA分子，并且可替代地称为嵌合体)，或模块化的(包括多于一个并且通常是两个单独的RNA分子，如crRNA和tracrRNA，它们通常通过例如双工彼此缔和)。gRNA和其组分部分在整个文献中都有描述(参见例如通过引用并入的Briner 2014；Cotta-Ramusino)。可以根据本文实施例使用的模块化和单分子gRNA的实例包含但不限于SEQ ID NO:29-31和38-51中所示的序列。可以根据本文实施例使用的gRNA近端和尾部结构域的实例包含但不限于SEQ ID NO:32-37中所示的序列。

在细菌和古细菌中，II型CRISPR系统通常包括RNA向导的核酸酶蛋白(如Cas9)、包含与外来序列互补的5'区域的CRISPR RNA(crRNA)以及包含与crRNA的3'区域互补并形成双链体的5'区域的反式激活crRNA(tracrRNA)。虽然不旨在受任何操作理论的束缚，但据认为，这种双链体会促进—Cas9/gRNA复合物的形成，—并且是其活性所必需的。当II型CRISPR系统适用于基因编辑时，发现在一个非限制性实例中，通过桥接crRNA(在其3'端处)和tracrRNA(在其5'端处)的互补区域的四核苷酸(例如GAAA)“四环”或“接头”序列，crRNA和tracrRNA可以连接成单个单分子或嵌合向导RNA。(Mali 2013；Jiang 2013；Jinek 2012；所有均通过引用并入本文)。

向导RNA，无论是单分子的或模块化的，都包含“靶向结构域”，所述靶向结构域与如需要编辑的细胞基因组中的DNA序列等靶序列内的靶结构域完全或部分互补。靶向结构域在文献中以各种名称提及，包含但不限于“向导序列”(Hsu 2013，通过引用并入本文)、“互补区域”(Cotta-Ramusino)、“间隔子”(Briner 2014)并且通常称为“crRNA”(Jiang)。无论给出的名称如何，靶向结构域的长度通常为10-30个核苷酸，并且在某些实施例中，长度为16-24个核苷酸(例如，长度为16、17、18、19、20、21、22、23或24个核苷酸)，并且在Cas9gRNA的情况下位于5'末端处或其附近，并且在Cpf1 gRNA的情况下位于3'末端处或其附近。

除了靶向结构域之外，gRNA通常(但不一定，如下文所讨论)包含多个可能影响gRNA/Cas9复合物的形成或活性的结构域。例如，如上所述，由gRNA的第一和第二互补结构域形成的双链结构(也称为重复:抗重复双链体)与Cas9的识别(REC)叶相互作用，并且可以介导Cas9/gRNA复合物的形成(Nishimasu 2014；Nishimasu 2015；两者均通过引用并入本文)。应当注意，第一和/或第二互补结构域可以含有一个或多个poly-A区(poly-A tract)，其可以被RNA聚合酶识别为终止信号。因此，任选地修饰第一和第二互补结构域的序列以消除这些区，并且促进gRNA的完整体外转录，例如通过使用如Briner 2014中描述的A-G交换或A-U交换。对第一和第二互补结构域的这些和其它类似的修饰在本公开的范围内。

除了第一和第二互补结构域外，Cas9 gRNA通常还包含两个或更多个另外的双链区域，所述双链区域在体内参与核酸酶活性，但不一定在体外。(Nishimasu 2015)。第二互补结构域的3'部分附近的第一茎环被不同地称为“近端结构域”(Cotta-Ramusino)、“茎环1”(Nishimasu 2014和2015)和“连接点”(Briner 2014)。一个或多个另外的茎环结构通常存在于gRNA的3'端附近，其中数量因物种而异：化脓性链球菌gRNA通常包含两个3'茎环(总共有四个茎环结构，包含重复序列:抗重复双链体)，而金黄色葡萄球菌(S.aureus)和其它物种只有一个(总共三个茎环结构)。Briner 2014提供了按物种组织的保守茎环结构(以及更一般的gRNA结构)的描述。

虽然前述描述集中于与Cas9一起使用的gRNA，但应当理解，存在其它RNA向导的核酸酶，其利用的gRNA在某些方面与目前所描述的gRNA不同。例如，Cpf1(“来自普雷沃氏菌属和弗朗西斯氏菌属1的CRISPR”)是最近发现的一种不需要tracrRNA即可发挥作用的RNA向导的核酸酶。(Zetsche 2015，通过引用并入本文)。用于Cpf1基因组编辑系统的gRNA通常包含靶向结构域和互补结构域(可替代地称为“手柄”)。还应当注意，在与Cpf1一起使用的gRNA中，靶向结构域通常存在于3'端处或附近，而不是如上文所描述的与Cas9 gRNA连接的5'端(手柄位于Cpf1 gRNA的5'端或附近)。Cpf1 gRNA的示例性靶向结构域在表7、8、11或12中所示。参见国际公开第WO 2021/119040号(参见例如表12、13、16、17)。表7中提供了靶向HBG启动子的若干个结构域(表6)的gRNA序列。参见国际公开第WO 2021/119040号(参见例如表11和12)。

然而，本领域的技术人员将理解尽管来自不同原核物种的gRNA之间或Cpf1与Cas9gRNA之间可能存在结构差异，但gRNA的操作原理通常是一致的。由于这种操作的一致性，gRNA可以从广义上通过其靶向结构域序列来定义，并且技术人员将理解给定的靶向结构域序列可以并入包含单分子或嵌合gRNA的任何合适的gRNA，或包含一种或多种化学修饰和/或连续修饰(取代、另外的核苷酸、截短等)的gRNA。因此，为了简练本公开中的表述，gRNA可以仅以其靶向结构域序列方面来描述。

更一般地，技术人员将理解本公开的一些方面涉及可以使用多种RNA向导的核酸酶实施的系统、方法和组合物。出于此原因，除非另有说明，否则术语gRNA应理解为涵盖可以与任何RNA向导的核酸酶一起使用的任何合适的gRNA，而不仅仅是与特定物种的Cas9或Cpf1相容的那些gRNA。举例来说，在某些实施例中，术语gRNA可以包含与2类CRISPR系统(如II型或V型或CRISPR系统)中出现的任何RNA向导的核酸酶或由其衍生或改编的RNA向导的核酸酶一起使用的gRNA。

gRNA设计

先前已经描述了靶序列的选择和验证以及脱靶分析的方法(参见例如Mali 2013；Hsu 2013；Fu 2014；Heigwer 2014；Bae 2014；Xiao 2014)。这些参考文献中的每个参考文献均通过引用并入本文。作为非限制性实例，gRNA设计可能涉及使用软件工具来优化与用户靶序列相对应的潜在靶序列的选择，例如以最小化整个基因组的总脱靶活性。虽然脱靶活性不限于切割，但可以例如使用实验得出的加权方案来预测每个脱靶序列处的切割效率。Maeder和Cotta-Ramusino详细描述了这些和其它向导选择方法。

设计用于靶向破坏CCAAT盒靶区域的gRNA的靶向结构域序列包含但不限于SEQ IDNO:1002。在某些实施例中，包括SEQ ID NO:1002中所示的序列的gRNA可以与Cpf1蛋白或经修饰的Cpf1蛋白复合以在CCAAT盒靶区域处产生改变。在某些实施例中，包括表7、8、11和12中所示的Cpf1 gRNA中的任何Cpf1 gRNA的gRNA可以与Cpf1蛋白或经修饰的Cpf1蛋白复合，形成RNP(“gRNA-Cpf1-RNP”)以在CCAAT盒靶区域处产生改变。在某些实施例中，经修饰的Cpf1蛋白可以是His-AsCpf1-nNLS(SEQ ID NO:1000)或His-AsCpf1-sNLS-sNLS(SEQ IDNO:1001)。在某些实施例中，gRNA-Cpf1-RNP的Cpf1分子可以由SEQ ID NO:1000、1001、1008-1018、1032、1035-39(Cpf1多肽序列)或SEQ ID NO:1019-1021(Cpf1多核苷酸序列)中所示的序列编码。

gRNA修饰

gRNA的活性、稳定性或其它特征可以通过并入某些修饰来改变。作为一个实例，瞬时表达或递送的核酸可能容易被例如细胞核酸酶降解。因此，本文所描述的gRNA可以含有一种或多种经修饰的核苷或核苷酸，所述核苷或核苷酸向核酸酶引入稳定性。虽然不希望受到理论的束缚，但还据信本文所描述的某些经修饰的gRNA在引入细胞中时可以表现出降低的先天免疫应答。本领域技术人员将意识到在细胞例如哺乳动物细胞中常见的响应于外源性核酸，特别是病毒或细菌来源的核酸的某些细胞应答。可以包含诱导细胞因子表达和释放以及细胞死亡的此类应答可以通过本文提出的修饰来减少或完全消除。

本节中讨论的某些示例性修饰可以包含在gRNA序列内的任何位置处，包含但不限于在5'端处或附近(例如，5'端的1-10、1-5或1-2个核苷酸内)和/或在3'端处或附近(例如，3'端的1-10、1-5或1-2个核苷酸内)。在一些情况下，修饰定位于功能基序内，如Cas9 gRNA的重复-抗重复双链体、Cas9或Cpf1 gRNA的茎环结构和/或gRNA的靶向结构域。

作为一个实例，gRNA的5'端可以包含真核mRNA帽结构或帽类似物(例如G(5')ppp(5')G帽类似物、m7G(5')ppp(5')G帽类似物或3'-O-Me-m7G(5')ppp(5')G抗反向帽类似物(ARCA))，如下文所示出的：

帽或帽类似物可以包含在gRNA的化学合成或体外转录期间。

类似地，gRNA的5'端可能缺少5'三磷酸基团。例如，体外转录的gRNA可以经过磷酸酶处理(例如，使用小牛肠碱性磷酸酶)以去除5'三磷酸基团。

另一种常见的修饰涉及在gRNA的3'端处添加多个(例如1-10、10-20或25-200)称为polyA区的腺嘌呤(A)残基。可以在化学合成期间使用聚腺苷聚合酶(例如，大肠杆菌Poly(A)聚合酶)进行体外转录后，或在体内通过聚腺苷酸化序列将polyA区添加到gRNA中，如Maeder中所描述的。

应当注意，本文所描述的修饰可以以任何合适的方式组合，例如无论是从DNA载体体内转录的gRNA或体外转录的gRNA，都可以包含5'帽结构或帽类似物和3'polyA区中的任一者或两者。

向导RNA可以在3'末端U核糖处进行修饰。例如，U核糖的两个末端羟基可以被氧化为醛基，并且伴随核糖环的打开以得到经修饰的核苷，如下文所示出的：

其中“U”可以是未修饰的或经修饰的尿苷。

3'末端U核糖可以用2'3'环状磷酸酯进行修饰，如下文所示出的：

其中“U”可以是未修饰的或经修饰的尿苷。

向导RNA可以含有3'核苷酸的化学修饰，其可以被稳定以抵抗降解，例如通过并入一个或多个本文所描述的经修饰的核苷酸。在某些实施例中，尿苷可以用经修饰的尿苷替代，例如5-(2-氨基)丙基尿苷和5-溴尿苷，或者用本文所描述的任何修饰的尿苷替代；腺苷和鸟苷可以被经修饰的腺苷和鸟苷替代，例如在8-位置处的修饰，例如8-溴鸟苷，或者被本文所描述的任何经修饰的腺苷或鸟苷替代。

在某些实施例中，可以将经糖修饰的核糖核苷酸并入gRNA中，例如其中2'OH-基团被选自以下的基团替代：H、-OR、-R(其中R可以是例如烷基、环烷基、芳基、芳烷基、杂芳基或糖)、卤基、-SH、-SR(其中R可以是例如烷基、环烷基、芳基、芳烷基、杂芳基或糖)、氨基(其中氨基可以是例如NH₂；烷基氨基、二烷基氨基、杂环基、芳基氨基、二芳基氨基、杂芳基氨基、二杂芳基氨基或氨基酸)；或者氰基(-CN)。在某些实施例中，磷酸酯主链可以如本文所描述进行修饰，例如用硫代磷酸酯(PhTx)基团进行修饰。在某些实施例中，gRNA的一个或多个核苷酸可以各自独立地是经修饰的或未修饰的核苷酸，包含但不限于经2'-糖修饰的，如2'-O-甲基、2'-O-甲氧基乙基或经2'-氟修饰的，包含例如2'-F或2'-O-甲基、腺苷(A)、2'-F或2'-O-甲基、胞苷(C)、2'-F或2'-O-甲基、尿苷(U)、2'-F或2'-O-甲基、胸苷(T)、2'-F或2'-O-甲基、鸟苷(G)、2'-O-甲氧基乙基-5-甲基尿苷(Teo)、2'-O-甲氧基乙基腺苷(Aeo)、2'-O-甲氧基乙基-5-甲基胞苷(m5Ceo)和其任何组合。

向导RNA还可以包含“锁定”核酸(LNA)，其中2'OH基团可以例如通过C1-6亚烷基或C1-6亚杂烷基桥连接到相同核糖的4'碳。任何合适的部分可以用于提供此类桥，包含但不限于亚甲基、亚丙基、醚或氨基桥；邻氨基(其中氨基可以是例如NH₂；烷基氨基、二烷基氨基、杂环基、芳基氨基、二芳基氨基、杂芳基氨基或二杂芳基氨基、乙二胺或多氨基)以及氨基烷氧基或O(CH₂)_n-氨基(其中氨基可以是例如NH₂；烷基氨基、二烷基氨基、杂环基、芳基氨基、二芳基氨基、杂芳基氨基或二杂芳基氨基、乙二胺或多氨基)。

在某些实施例中，gRNA可以包含多环的经修饰的核苷酸(例如，三环；和“解锁”形式，如二醇核酸(GNA)(例如，R-GNA或S-GNA，其中核糖被附接到磷酸二酯键的二醇单元替代)或苏糖核酸(TNA，其中核糖被α-L-苏呋喃糖基-(3'→2')替代)。

通常，gRNA包含糖基核糖，其是具有氧的5元环。示例性经修饰的gRNA可以包含但不限于核糖中的氧的替代(例如，用硫(S)、硒(Se)或亚烷基，例如亚甲基或亚乙基替代)；添加双键(例如，用环戊烯基或环己烯基替代核糖)；核糖的环收缩(例如，形成环丁烷或氧杂环丁烷的4元环)；核糖的扩环(例如，形成具有另外的碳或杂原子的6元或7元环，如例如，脱水己醇、利他醇、甘露醇、环己基、环己烯基和也具有氨基磷酸酯主链的吗啉代)。尽管大多数糖类似物改变位于2'位置，但其它位点也可以进行修饰，包含4'位置。在某些实施例中，gRNA包括4'-S、4'-Se或4'-C-氨甲基-2'-O-Me修饰。

在某些实施例中，脱氮核苷酸，例如7-脱氮-腺苷，可以并入到gRNA中。在某些实施例中，O-和N-烷基化核苷酸，例如N6-甲基腺苷，可以并入到gRNA中。在某些实施例中，gRNA中的核苷酸中的一个或多个或全部是脱氧核苷酸。

在某些实施例中，如本文所使用的gRNA可以是经修饰的或未经修饰的gRNA。在某些实施例中，gRNA可以包含一种或多种修饰。在某些实施例中，所述一种或多种修饰可以包含硫代磷酸酯键修饰、二硫代磷酸酯(PS2)键修饰、2'-O-甲基修饰或其组合。在某些实施例中，所述一种或多种修饰可以在gRNA的5'端处、在gRNA的3'端处或其组合。

在某些实施例中，gRNA修饰可以包括一种或多种二硫代磷酸酯(PS2)键修饰。

在一些实施例中，如本文所使用的gRNA包含一个或多个或一段脱氧核糖核酸(DNA)碱基，本文也称为“DNA延伸部”。在一些实施例中，如本文所使用的gRNA包含在gRNA的5'端处、gRNA的3'端处或其组合的DNA延伸部。在某些实施例中，DNA延伸部的长度可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个DNA碱基。例如，在某些实施例中，DNA延伸部的长度可以是1、2、3、4、5、10、15、20或25个DNA碱基。在某些实施例中，DNA延伸部可以包含一个或多个选自腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)或胸腺嘧啶(T)的DNA碱基。在某些实施例中，DNA延伸部包含相同的DNA碱基。例如，DNA延伸部可以包含一段腺嘌呤(A)碱基。在某些实施例中，DNA延伸部可以包含一段胸腺嘧啶(T)碱基。在某些实施例中，DNA延伸部包含不同DNA碱基的组合。在某些实施例中，DNA延伸部可以包括表13中所示的序列。例如，DNA延伸部可以包括SEQ ID NO:1235-1250中所示的序列。在某些实施例中，如本文所使用的gRNA包含DNA延伸部以及一种或多种硫代磷酸酯键修饰、一种或多种二硫代磷酸酯(PS2)键修饰、一种或多种2'-O-甲基修饰或其组合。在某些实施例中，所述一种或多种修饰可以在gRNA的5'端处、在gRNA的3'端处或其组合。在某些实施例中，包含DNA延伸部的gRNA可以包括表13中所示的包含DNA延伸部的序列。在特定实施例中，包含DNA延伸部的gRNA可以包括SEQ ID NO:1051中所示的序列。在某些实施例中，包含DNA延伸部的gRNA可以包括选自由以下组成的组的序列：SEQ ID NO:1046-1060、1067、1068、1074、1075、1078、1081-1084、1086-1087、1089-1090、1092-1093、1098-1102和1106。不希望受到理论约束，经考虑本文可以使用任何DNA延伸部，只要它不与gRNA靶向的靶核酸杂交，并且相对于不包含此类DNA延伸部的gRNA，它还表现出靶核酸位点处编辑的增加。示例性DNA和RNA延伸部在表13中所示。参见国际公开第WO 2021/119040号(参见例如表18)。

在一些实施例中，如本文所使用的gRNA包含一个或多个或一段核糖核酸(RNA)碱基，本文也称为“RNA延伸部”。在一些实施例中，如本文所使用的gRNA包含在gRNA的5'端处、gRNA的3'端处或其组合的RNA延伸部。在某些实施例中，RNA延伸部的长度可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个RNA碱基。例如，在某些实施例中，RNA延伸部的长度可以是1、2、3、4、5、10、15、20或25个RNA碱基。在某些实施例中，RNA延伸部可以包含一个或多个选自腺嘌呤(rA)、鸟嘌呤(rG)、胞嘧啶(rC)或尿嘧啶(rU)的RNA碱基，其中“r”表示RNA、2'-羟基。在某些实施例中，RNA延伸部包含相同的RNA碱基。例如，RNA延伸部可以包含一段腺嘌呤(rA)碱基。在某些实施例中，RNA延伸部包含不同RNA碱基的组合。在某些实施例中，RNA延伸部可以包括表13中所示的序列。例如，RNA延伸部可以包括1231-1234、1251-1253中所示的序列。在某些实施例中，如本文所使用的gRNA包含RNA延伸部以及一种或多种硫代磷酸酯键修饰、一种或多种二硫代磷酸酯(PS2)键修饰、一种或多种2'-O-甲基修饰或其组合。在某些实施例中，所述一种或多种修饰可以在gRNA的5'端处、在gRNA的3'端处或其组合。在某些实施例中，包含RNA延伸部的gRNA可以包括表13中所示的包含RNA延伸部的序列。在gRNA的5'端处包含RNA延伸部的gRNA可以包括选自由SEQID NO:1042-1045、1103-1105组成的组的序列。在gRNA的3'端处包含RNA延伸部的gRNA可以包括选自由SEQ ID NO:1070-1075、1079、1081、1098-1100组成的组的序列。

经考虑本文所使用的gRNA还可以包含RNA延伸部和DNA延伸部。在某些实施例中，RNA延伸部和DNA延伸部两者都可以在gRNA的5'端处、gRNA的3'端处或其组合。在某些实施例中，RNA延伸部在gRNA的5'端处，并且DNA延伸部在gRNA的3'端处。在某些实施例中，RNA延伸部在gRNA的3'端处，并且DNA延伸部在gRNA的5'端处。

在一些实施例中，在3'端处包含硫代磷酸酯修饰以及在5'端处包含DNA延伸部的gRNA与RNA向导的核酸酶例如Cpf1复合，以形成RNP，其然后用于在HBG基因座处离体(即，在此类细胞来源的受试者体外)编辑造血干细胞(HSC)或CD34+细胞。

如本文所使用的gRNA的实例包括SEQ ID NO:1051中所示的序列。

RNA向导的核酸酶

根据本公开的RNA向导的核酸酶包含但不限于天然存在的2类CRISPR核酸酶，如Cpf1和Cas9，以及由此衍生或获得的其它核酸酶。还表明，某些RNA向导的核酸酶，如Cas9也具有使其能够解开核酸的解旋酶活性。在某些实施例中，根据本公开的RNA向导的解旋酶可以是本文和上文题为“RNA向导的核酸酶”的部分中描述的任何RNA核酸酶。在某些实施例中，RNA向导的核酸酶未被配置成将外源反式作用因子募集到靶区域。在某些实施例中，RNA向导的解旋酶可以是被配置成缺乏核酸酶活性的RNA向导的核酸酶。例如，在某些实施例中，RNA向导的解旋酶可以是缺乏核酸酶活性但仍保留其解旋酶活性的催化失活的RNA向导的核酸酶。在某些实施例中，RNA向导的核酸酶可以被突变以消除其核酸酶活性(例如，死亡的Cas9)，从而产生不能切割核酸但仍能解开DNA的催化失活的RNA向导的核酸酶。在某些实施例中，RNA向导的解旋酶可以与如本文所描述的任何死亡向导RNA复合。例如，催化活性的RNA向导的解旋酶(例如，Cas9或Cpf1)可以与死亡的向导RNA形成RNP复合物，从而产生催化活性的死亡RNP(dRNP)。在某些实施例中，催化失活的RNA向导的解旋酶(例如，死亡的Cas9)和死亡的向导RNA可以形成dRNP。这些dRNP虽然不能提供切割事件，但仍保留其对解开核酸很重要的解旋酶活性。

在功能术语中，RNA向导的核酸酶被定义为进行以下的那些核酸酶：(a)与gRNA相互作用(例如，与其复合)；和(b)与gRNA一起，与DNA的靶区域缔合并任选地切割或修饰所述靶区域，所述靶区域包含(i)与gRNA的靶向结构域互补的序列，以及任选地(ii)被称为“原间隔子相邻基序”或“PAM”的另外的序列，其在下文中更详细地描述。如以下实例将说明，RNA向导的核酸酶可以通过其PAM特异性和切割活性来广义地定义，即使在共享相同PAM特异性或切割活性的单独RNA向导的核酸酶之间可能存在差异。技术人员将理解，本公开的一些方面涉及可以使用具有一定PAM特异性和/或切割活性的任何合适的RNA向导的核酸酶来实施的系统、方法和组合物。因此，除非另有说明，否则术语RNA向导的核酸酶应被理解为通用术语，并且不限于RNA向导的核酸酶的任何特定类型(例如，Cas9与Cpf1)、物种(例如，化脓性链球菌与金黄色葡萄球菌)或变体(例如，全长与截短或分裂；天然存在的PAM特异性与工程化PAM特异性等)。例如，在某些实施例中，RNA向导的核酸酶可以是Cas-Φ(Pausch2020)。

各种RNA向导的核酸酶可能需要PAM与原间隔子之间的不同序列关系。通常，Cas9识别原间隔子3'的PAM序列。另一方面，Cpf1通常识别原间隔子5'的PAM序列。

除了识别PAM和原间隔子的特定序列取向之外，RNA向导的核酸酶还可以识别特定的PAM序列。例如，金黄色葡萄球菌Cas9识别NNGRRT或NNGRRV的PAM序列，其中N残基紧接由gRNA靶向结构域识别的区域的3'。化脓性链球菌Cas9识别NGG PAM序列。并且新凶手弗朗西斯菌(F.novicida)Cpf1识别TTN PAM序列。PAM序列已被鉴定用于各种RNA向导的核酸酶，并且Shmakov 2015描述了用于鉴定新型PAM序列的策略。还应注意的是，工程化RNA向导的核酸酶的PAM特异性可以不同于参考分子(例如，在工程化RNA向导的核酸酶的情况下，参考分子可以是衍生RNA向导的核酸酶的天然存在的变体，或者与工程化RNA向导的核酸酶具有最大氨基酸序列同源性的天然存在的变体)的PAM特异性。可以根据本文实施例使用的PAM的实例包含但不限于SEQ ID NO:199-205中所示的序列。

除了PAM特异性之外，RNA向导的核酸酶可以通过其DNA切割活性来表征：天然存在的RNA向导的核酸酶通常在靶核酸中形成DSB，但已经产生了仅产生SSB的工程化变体(已在上文和Ran和Hsu 2013中讨论，通过引用并入本文)，或者根本不切割。

Cas9

已经确定了化脓性链球菌Cas9的晶体结构(Jinek 2014)，以及与单分子向导RNA和靶DNA复合的金黄色葡萄球菌Cas9的晶体结构(Nishimasu 2014；Anders 2014；和Nishimasu 2015)。

天然存在的Cas9蛋白包括两个叶：识别(REC)叶和核酸酶(NUC)叶；其中的每一者包括特定的结构域和/或功能结构域。REC叶包括富含精氨酸的桥螺旋(BH)结构域和至少一个REC结构域(例如，REC1结构域和任选地REC2结构域)。REC叶与其它已知蛋白质不共享结构相似性，这表明其是一个独特的功能结构域。虽然不希望受到任何理论的束缚，但突变分析表明BH结构域和REC结构域具有特定的功能作用：BH结构域似乎在gRNA:DNA识别中发挥作用，而REC结构域被认为与gRNA的重复:抗重复双链体相互作用，并介导Cas9/gRNA复合物的形成。

NUC叶包括RuvC结构域、HNH结构域和PAM相互作用(PI)结构域。RuvC结构域与逆转录病毒整合酶超家族成员共享结构相似性，并切割靶核酸的非互补(即底部)链。其可以由两个或更多个分裂的RuvC基序形成(如化脓性链球菌和金黄色葡萄球菌中的RuvCI、RuvCII和RuvCIII)。同时，HNH结构域在结构上与HNN核酸内切酶基序类似，并切割靶核酸的互补(即顶部)链。顾名思义，PI结构域有助于PAM特异性。可以根据本文实施例使用的编码Cas9RuvC样结构域和Cas9 HNH样结构域的多肽序列的实例在SEQ ID NO:15-23、52-123(RuvC样结构域)和SEQ ID NO:24-28、124-198(HNH样结构域)中示出。

虽然Cas9的某些功能与上文所示的特定结构域连接(但不一定完全由其决定)，但这些和其它功能可以由其它Cas9结构域或任一叶上的多个结构域介导或影响。例如，在化脓性链球菌Cas9中，如Nishimasu 2014所描述，gRNA的重复:抗重复双链体落入REC叶与NUC叶之间的凹槽中，并且双链体中的核苷酸与BH、PI和REC结构域中的氨基酸相互作用。第一茎环结构中的一些核苷酸也与多个结构域(PI、BH和REC1)中的氨基酸相互作用，第二和第三茎环(RuvC和PI结构域)中的一些核苷酸也是如此。可以根据本文实施例使用的编码Cas9分子的多肽序列的实例在SEQ ID NO:1-2、4-6、12和14中示出。

Cpf1

与crRNA和包含TTTN-PAM序列的双链(ds)DNA靶标复合的氨基酸球菌Cpf1的晶体结构已由Yamano 2016解决(通过引用并入本文)。Cpf1和Cas12a是同义词，并且在本文中可以互换使用。与Cas9一样，Cpf1具有两个叶：REC(识别)叶，以及NUC(核酸酶)叶。REC叶包含REC1和REC2结构域，其与任何已知的蛋白质结构都缺乏相似性。同时，NUC叶包含三个RuvC结构域(RuvC-I、RuvC-II和RuvC-III)和一个BH结构域。然而，与Cas9相反，Cpf1 REC叶缺乏HNH结构域，并包含其它与已知蛋白质结构缺乏相似性的结构域：一个结构上独特的PI结构域、三个楔形(WED)结构域(WED-I、WED-II和WED-III)和一个核酸酶(Nuc)结构域。

虽然Cas9和Cpf1在结构和功能上共享相似性，但应该意识到某些Cpf1活性是由与任何Cas9结构域不类似的结构域介导的。例如，靶DNA互补链的切割似乎是由Nuc结构域介导的，所述Nuc结构域在顺序和空间上与Cas9的HNH结构域不同。另外，Cpf1 gRNA的非靶向部分(柄部)采用了假结结构，而不是由Cas9 gRNA中的重复:抗重复双链体形成的茎环结构。

在某些实施例中，Cpf1蛋白可以是经修饰的Cpf1蛋白。在某些实施例中，经修饰的Cpf1蛋白可以包含括一个或多个修饰。在某些实施例中，修饰可以是但不限于Cpf1核苷酸序列或Cpf1氨基酸序列中的一个或多个突变，一个或多个另外序列，如His标签或核定位信号(NLS)，或其组合。在某些实施例中，经修饰的Cpf1在本文中也可以称为Cpf1变体。

在某些实施例中，Cpf1蛋白可以衍生自选自由以下组成的组的Cpf1蛋白：氨基酸球菌菌株BV3L6 Cpf1蛋白(AsCpf1)、毛螺菌科细菌(Lachnospiraceae bacterium)ND2006Cpf1蛋白质(LbCpf1)和毛螺菌科细菌MA2020(Lb2Cpf1)。在某些实施例中，Cpf1蛋白可以包括选自由以下组成的组的序列：SEQ ID NO:1016-1018，其分别具有SEQ ID NO:1019-1021的密码子优化核酸序列。

在某些实施例中，经修饰的Cpf1蛋白可以包括核定位信号(NLS)。例如，但不限于，可用于本文所公开的方法和组合物的NLS序列将包括能够促进蛋白质输入到细胞核中的氨基酸序列。结合本文所公开的方法和组合物有用的NLS序列是本领域已知的。这种NLS序列的实例包含具有氨基酸序列KRPAATKKAGQAKKKK(SEQ ID NO:1006)的核质蛋白NLS和具有氨基酸序列PKKKRKV(SEQ ID NO:1007)的猿猴病毒40“SV40”NLS。

在某些实施例中，经修饰的Cpf1蛋白的NLS序列定位于Cpf1蛋白序列的C端或其附近。例如，但不限于此，经修饰的Cpf1蛋白可以选自以下：His-AsCpf1-nNLS(SEQ ID NO:1000)；His-AsCpf1-sNLS(SEQ ID NO:1008)和His-AsCpf1-sNLS-sNLS(SEQ ID NO:1001)，其中“His”是指六组氨酸纯化序列，“AsCpf1”是指氨基酸球菌Cpf1蛋白序列，“nNLS”是指核质蛋白NLS，并且“sNLS”指SV40 NLS。NLS序列的身份和C末端定位的另外排列((例如，附加两个或更多个nNLS序列、或nNLS和sNLS序列(或其它NLS序列)的组合)以及具有和不具有纯化序列(例如，六组氨酸序列)的序列都在本文公开的主题的范围内。

在某些实施例中，经修饰的Cpf1蛋白的NLS序列可以定位于Cpf1蛋白序列的N端或其附近。例如，但不限于此，经修饰的Cpf1蛋白可以选自以下：His-sNLS-AsCpf1(SEQ IDNO:1009)、His-sNLS-sNLS-AsCpf1(SEQ ID NO:1010)和sNLS-sNLS-AsCpf1(SEQ ID NO:1011)。NLS序列的身份和N末端定位的另外排列(例如，附加两个或更多个nNLS序列、或nNLS和sNLS序列(或其它NLS序列)的组合)以及具有和不具有纯化序列(例如，六组氨酸序列)的序列都在本文公开的主题的范围内。

在某些实施例中，经修饰的Cpf1蛋白可以包括定位于Cpf1蛋白序列的N端和C端处或其附近的NLS序列。例如，但不限于此，经修饰的Cpf1蛋白可以选自以下：His-sNLS-AsCpf1-sNLS(SEQ ID NO:1012)和His-sNLS-sNLS-AsCpf1-sNLS-sNLS(SEQ ID NO:1013)。NLS序列的身份和N末端/C末端定位的另外排列(例如，将两个或更多个nNLS序列、或nNLS和sNLS序列(或其它NLS序列)的组合附加到N末端/C末端定位中的任一者)以及具有和不具有纯化序列(例如，六组氨酸序列)的序列都在本文公开的主题的范围内。

在某些实施例中，经修饰的Cpf1蛋白可以包括Cpf1蛋白序列的一个或多个半胱氨酸残基处的改变(例如，缺失或取代)。例如，但不限于，经修饰的Cpf1蛋白可以包括选自由以下组成的组的定位处的改变：C65、C205、C334、C379、C608、C674、C1025以及C1248。在某些实施例中，经修饰的Cpf1蛋白可以包括取代丝氨酸或丙氨酸的一个或多个半胱氨酸残基。在某些实施例中，经修饰的Cpf1蛋白可以包括选自由以下组成的组的定位处的改变：C65S、C205S、C334S、C379S、C608S、C674S、C1025S以及C1248S。在某些实施例中，经修饰的Cpf1蛋白可以包括选自由以下组成的组的定位处的改变：C65A、C205A、C334A、C379A、C608A、C674A、C1025A以及C1248A。在某些实施例中，经修饰的Cpf1蛋白可以包括定位C334和C674或C334、C379和C674处的改变。在某些实施例中，经修饰的Cpf1蛋白可以包括以下突变：C334S和C674S、或C334S、C379S和C674S。在某些实施例中，经修饰的Cpf1蛋白可以包括以下突变：C334A和C674A、或C334A、C379A和C674A。在某些实施例中，经修饰的Cpf1蛋白可以包括一个或多个半胱氨酸残基改变以及一个或多个NLS序列的引入两者，例如His-AsCpf1-nNLS Cys-缺失(SEQ ID NO:1014)或His-AsCpf1-nNLS Cys-低(SEQ ID NO:1015)。在各个实施例中，在一个或多个半胱氨酸残基中包括缺失或取代的Cpf1蛋白表现出减少的聚集。

在某些实施例中，本领域已知的其它经修饰的Cpf1蛋白可以与本文所描述的方法和系统一起使用。例如，在某些实施例中，经修饰的Cpf1可以是含有突变S542R/K548V/N552R(“Cpf1 RVR”)的Cpf1。Cpf1 RVR已被证明能用TATV PAM切割靶位点。在某些实施例中，经修饰的Cpf1可以是含有突变S542R/K607R(“Cpf1 RR”)的Cpf1。Cpf1 RR已被证明能用TYCV/CCCC PAM切割靶位点。

在一些实施例中，本文所使用的Cpf1变体，其中所述Cpf1变体包括AsCpf1(氨基酸球菌BV3L6)的选自由以下组成的组的一个或多个残基或AsCpf1直系同源物、同源物或变体的对应定位处的突变：11、12、13、14、15、16、17、34、36、39、40、43、46、47、50、54、57、58、111、126、127、128、129、130、131、132、133、134、135、136、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、532、533、534、535、536、537、538、539、540、541、542、543、544、545、546、547、548、549、550、551、552、553、554、555、556、565、566、567、568、569、570、571、572、573、574、575、592、593、594、595、596、597、598、599、600、601、602、603、604、605、606、607、608、609、610、611、612、613、614、615、616、617、618、619、620、626、627、628、629、630、631、632、633、634、635、636、637、638、642、643、644、645、646、647、648、649、651、652、653、654、655、656、676、679、680、682、683、684、685、686、687、688、689、690、691、692、693、707、711、714、715、716、717、718、719、720、721、722、739、765、768、769、773、777、778、779、780、781、782、783、784、785、786、870、871、872、873、874、875、876、877、878、879、880、881、882、883、884或1048。

在某些实施例中，如本文所使用的Cpf1变体可以包含Zhang等人的国际公开第WO2017/184768A1号(“768公开”)中描述的任何Cpf1蛋白，所述文献通过引用并入本文。

在某些实施例中，本文所使用的经修饰的Cpf1蛋白(也称为Cpf1变体)可以由SEQID NO:1000、1001、1008-1018、1032、1035-39、1094-1097、1107-09(Cpf1多肽序列)或SEQID NO:1019-1021、1110-17(Cpf1多核苷酸序列)中所示的序列中的任一个序列编码。表9示出了示例性Cpf1变体氨基酸和核苷酸序列。参见国际公开第WO 2021/119040号(参见例如表14)。这些序列在图6中示出，其详细说明了六组氨酸序列(带下划线的字母)和NLS序列(粗体字母)的定位。NLS序列的身份和N末端/C末端定位的另外排列(例如，将两个或更多个nNLS序列、或nNLS和sNLS序列(或其它NLS序列)的组合附加到N末端/C末端定位中的任一者)以及具有和不具有纯化序列(例如，六组氨酸序列)的序列都在本文公开的主题的范围内。

在某些实施例中，本文所公开的Cpf1蛋白或经修饰的Cpf1蛋白中的任一种可以与一个或多个gRNA复合，所述gRNA包括SEQ ID NO 1002和/或1004中所示的靶向结构域，以改变CCAAT盒靶区域。在某些实施例中，本文所公开的Cpf1蛋白或经修饰的Cpf1蛋白中的任一种可以与一个或多个gRNA复合，所述gRNA包括表7、8、11或12中所示的序列。在某些实施例中，经修饰的Cpf1蛋白可以是His-AsCpf1-nNLS(SEQ ID NO:1000)或His-AsCpf1-sNLS-sNLS(SEQ ID NO:1001)。在某些实施例中，本文所使用的经修饰的Cpf1蛋白可以由SEQ IDNO:1000、1001、1008-1018、1032、1035-39、1094-1097、1107-09(Cpf1多肽序列)或SEQ IDNO:1019-1021、1110-17(Cpf1多核苷酸序列)中所示的序列中的任一个序列编码。在某些实施例中，经修饰的Cpf1蛋白可以包括SEQ ID NO:1097中所示的序列。

在某些实施例中，经修饰的Cpf1蛋白可以包含Kleinstiver 2019中描述的Cpf1变体。例如，但不限于，在某些实施例中，经修饰的Cpf1蛋白可以是enAsCas12a，如Kleinstiver2019中所描述。在某些实施例中，经修饰的Cpf1蛋白可以用TTTV PAM切割靶位点。在某些实施例中，经修饰的Cpf1蛋白可以用NWYN PAM切割靶位点。

RNA向导的核酸酶的修饰

上述RNA向导的核酸酶具有可用于多种应用的活性和特性，但本领域技术人员将理解，在某些情况下，RNA向导的核酸酶也可以被修饰，以改变切割活性、PAM特异性或其它结构或功能特征。

首先转向改变切割活性的修饰，上文已经描述了降低或消除NUC叶内结构域活性的突变。可能在RuvC结构域、Cas9-HNH结构域或Cpf1 Nuc结构域中产生的示例性突变已经在Ran和Hsu 2013和Yamano 2016以及Cotta-Ramusino中描述了。通常，降低或消除两个核酸酶结构域之一的活性的突变会导致RNA向导的核酸酶具有切口酶活性，但应注意的是，切口酶活性的类型因失活的结构域而异。作为一个实例，Cas9的RuvC结构域的失活将产生切割互补链或顶部链的切口酶，如下文所示(其中C表示切割位点)。

另一方面，Cas9 HNH结构域的失活产生切割底部链或非互补链的切口酶。

针对化脓性链球菌(Kleinstover 2015a)和金黄色葡萄球菌(Kleinstiver2015b)两者，Kleinstiver等人已经描述了PAM特异性相对于天然存在的Cas9参考分子的修饰。Kleinstover等人还描述了提高Cas9的靶向保真度的修饰(Kleinstover 2016)。Kleinstover等人还描述了Cpf1的修饰，其提供了增加的活性和改善的靶向范围(Kleinstover 2019)。这些参考文献中的每个参考文献均通过引用并入本文。

如Zetsche 2015和Fine 2015(两者均通过引用并入本文)所描述，RNA向导的核酸酶已被拆分成两个或更多个部分。

在某些实施例中，RNA向导的核酸酶可以是大小优化的或截短的，例如通过一个或多个减少核酸酶大小的缺失同时仍然保留gRNA缔合、靶标和PAM识别以及切割活性。在某些实施例中，RNA向导的核酸酶任选地通过接头与另一多肽、核苷酸或其它结构共价或非共价结合。示例性结合的核酸酶和接头由Guilinger 2014描述，其出于所有目的通过引用并入本文。

RNA向导的核酸酶还任选地包含标签，如但不限于核定位信号，以促进RNA向导的核酸酶蛋白移动到细胞核中。在某些实施例中，RNA向导的核酸酶可以并入C末端和/或N末端核定位信号。核定位序列在本领域中是已知的，并且在Maeder和其它地方进行了描述。

上述修饰列表本质上是示例性的，并且鉴于本公开内容，技术人员将理解，在某些应用中，其它修饰可以是可能的或期望的。因此，为了简洁起见，本公开的示例性系统、方法和组合物是参考特定的RNA向导的核酸酶来提出的，但应当理解，所使用的RNA向导的核酸酶可以以不改变其操作原理的方式进行修饰。此类修饰在本公开的范围内。

编码RNA向导的核酸酶的核酸

本文提供了编码RNA向导的核酸酶，例如Cas9、Cpf1或其功能片段的核酸。先前已经描述了编码RNA向导的核酸酶的示例性核酸(参见例如Cong 2013；Wang 2013；Mali2013；Jinek 2012)。

在一些情况下，编码RNA向导的核酸酶的核酸可以是合成核酸序列。例如，可以对合成核酸分子进行化学修饰。在某些实施例中，编码RNA向导的核酸酶的mRNA将具有以下特性中的一者或多者(例如，全部)：其可以被封端；是聚腺苷酸化的；并被5-甲基胞苷和/或假尿苷取代。

合成核酸序列也可以是密码子优化的，例如，至少一个非常见密码子或不太常见的密码子已被常见密码子替代。例如，合成核酸可以指导经优化的信使mRNA的合成，例如，被优化以在例如本文所描述的哺乳动物表达系统中表达。密码子优化的Cas9编码序列的实例在Cotta-Ramusino中提出。

另外或可替代地，编码RNA向导的核酸酶的核酸可以包括核定位序列(NLS)。核定位序列是本领域已知的。

候选分子的功能分析

候选RNA向导的核酸酶、gRNA和其复合物可以通过本领域已知的标准方法进行评估。参见例如Cotta-Ramusino。RNP复合物的稳定性可以通过差示扫描荧光测定法来评估，如下文所描述。

差示扫描荧光测定法(DSF)

包括gRNA和RNA向导的核酸酶的核糖核蛋白(RNP)复合物的热稳定性可以通过DSF测量。DSF技术测量蛋白质的热稳定性，在有利的条件下，如添加结合RNA分子，例如gRNA，热稳定性可以增加。

DSF测定可以根据任何合适的方案进行，并且可以在任何合适的设置中采用，包含但不限于(a)测试不同的条件(例如，gRNA的不同化学计量比：RNA向导的核酸酶蛋白、不同的缓冲溶液等)，以鉴定RNP形成的最佳条件；和(b)测试RNA向导的核酸酶和/或gRNA的修饰(例如，化学修饰、序列改变等)，以鉴定那些改善RNP形成或稳定性的修饰。DSF测定的一个读数是RNP复合物的熔融温度的变换；相对高的变换表明RNP复合物相对于以较低变换为特征的参考RNP复合物更稳定(并且因此可能具有更大的活性或更有利的形成动力学、降解动力学或另一功能特性)。当DSF测定用作筛选工具时，可以指定阈值熔融温度变换，使得输出是具有等于或高于阈值的熔融温度变换的一个或多个RNP。例如，阈值可以是5-10℃(例如，5°、6°、7°、8°、9°、10°)或更高，并且输出可以是以大于或等于阈值的熔融温度变换为特征的一个或多个RNP。

DSF测定条件的两个非限制性实例如下所示：

为了确定形成RNP复合物的最佳溶液，将于水+10x SYPRO (生命技术公司(Life Technologies)，目录号S-6650)中的固定浓度(例如，2μM)的Cas9分配到384孔板中。然后添加在具有不同pH和盐的溶液中稀释的等摩尔量的gRNA。在室温下温育10'并短暂离心以去除任何气泡之后，使用Bio-Rad CFX384^TM实时系统C1000Touch^TM热循环仪与Bio-Rad CFX Manager软件从20℃到90℃运行梯度，其中温度每10秒升高1℃。

第二种测定由以下组成：将不同浓度的gRNA与固定浓度(例如，2μM)的Cas9在上述测定1的最佳缓冲液中混合，并在384孔板中温育(例如，在室温下温育10')。添加等体积的最佳缓冲液+10x SYPRO (生命技术公司，目录号S-6650)，并用B粘合剂(MSB-1001)密封板。在短暂离心以去除任何气泡后，使用Bio-Rad CFX384^TM实时系统C1000 Touch^TM热循环仪与Bio-Rad CFX Manager软件从20℃到90℃运行梯度，其中温度每10秒升高1℃。

基因组编辑策略

在本公开的各个实施例中，上述基因组编辑系统用于在细胞内或从细胞获得的DNA的靶向区域中产生编辑(即，改变所述靶向区域)。本文描述了产生特定编辑的各种策略，并且这些策略通常根据期望的修复结果、单独编辑(例如，SSB或DSB)的数量和定位以及这种编辑的靶位点来描述。

涉及SSB或DSB的形成的基因组编辑策略以包含以下的修复结果为特征：(a)靶向区域的全部或部分的缺失；(b)插入到靶向区域的全部或部分中或替换所述靶向区域的全部或部分；或(c)靶向区域的全部或部分的中断。这种分组并不旨在限制或约束任何特定的理论或模型，并且仅仅是为了陈述的经济性而提供。技术人员将了解，所列出的结果并非相互排斥，并且一些修复可能导致其它结果。除非另有说明，否则不应将特定编辑策略或方法的描述理解为需要特定的修复结果。

靶向区域的替代通常涉及用同源序列替代靶向区域内的全部或部分现有序列，例如通过基因校正或基因转换，这两种修复结果由HDR通路介导。HDR是通过使用供体模板来促进的，所述供体模板可以是单链或双链的，如下文更详细地描述的。单链或双链模板可以是外源性的，在这种情况下，其将促进基因校正，或者其可以是内源性的(例如，细胞基因组内的同源序列)，以促进基因转换。外源模板可以具有不对称的突出端(即，模板的与DSB位点互补的部分可以在3'或5'方向上偏移，而不是在供体模板内居中)，例如，如Richardson2016(通过引用并入本文)所描述的。在模板是单链的实例中，所述模板可以对应于靶向区域的互补(顶部)或非互补(底部)链。

如Ran和Hsu 2013和Cotta-Ramusino中所描述，在一些情况下，通过在靶向区域中或周围形成一个或多个切口来促进基因转化和基因校正。在一些情况下，使用双切口酶策略来形成两个偏移SSB，所述两个偏移SSB进而形成具有突出端(例如，5'突出端)的单个DSB。

靶向序列的全部或部分的中断和/或缺失可以通过各种修复结果来实现。作为一个实例，可以通过同时产生侧接靶向区域的两个或更多个DSB，然后所述靶向区域在修复DSB时被切除来使序列缺失，如Maeder中针对LCA10突变所描述的。作为另一实例，序列可以通过缺失而中断，所述缺失是通过形成具有单链突出端的双链断裂，随后在修复之前对突出端进行核酸外切处理而产生的。

靶序列中断的一个特定子集是由靶序列内的indel的形成介导的，其中修复结果通常由NHEJ通路(包含Alt-NHEJ)介导。由于NHEJ与indel突变相关，因此被称为“易出错”修复通路。然而，在一些情况下，DSB由NHEJ修复，而不会改变其周围的序列(所谓的“完美”或“无瘢痕”修复)；这通常需要DSB的两端被完全连接。与此同时，Indel被认为是由游离DNA端在其连接之前的酶促处理产生的，所述酶促处理向任一或两个游离端的任一或两条链中添加核苷酸和/或从其中去除核苷酸。

由于游离DSB端的酶促处理在本质上可能是随机的，indel突变往往是可变的，沿着分布发生，并且可能受到多种因素的影响，包含特定的靶位点、所使用的细胞类型、所使用的基因组编辑策略等。即使如此，可以作出关于indel形成的有限概括：通过修复单个DSB形成的缺失在1-50bp的范围内最常见，但可以达到大于100-200bp。通过修复单个DSB形成的插入往往较短，并且通常包含紧密包围断裂位点的序列的短重复。然而，有可能获得大的插入，并且在这些情况下，插入的序列经常被追踪到基因组的其它区域或存在于细胞中的质粒DNA。

例如，当不需要产生特定的最终序列和/或可以容忍移码突变时，Indel突变以及被配置成产生Indel的基因组编辑系统对于中断靶序列是有用的。其也可以在特定序列是优选的设置中有用，只要期望的某些序列倾向于由给定位点处的SSB或DSB的修复优先产生。Indel突变也是用于评估或筛选特定基因组编辑系统和其组分的活性的有用工具。在这些和其它设置中，indel可以以以下为特征：(a)其在与基因组编辑系统接触的细胞的基因组中的相对和绝对频率，以及(b)相对于未编辑序列的数值差异的分布，例如，±1、±2、±3等。作为一个实例，在线索发现设置中，可以在受控条件下基于indel读数筛选多个gRNA以鉴定那些最高效地驱动靶位点处的切割的gRNA。可以选择以阈值频率或高于阈值频率产生indel的指南，或产生特定indel分布的指南进行另外的研究和开发。Indel频率和分布也可以用作用于评估不同基因组编辑系统实施方案或调配物和递送方法的读数，例如通过保持gRNA恒定和改变某些其它反应条件或递送方法。

多重策略

根据本公开的基因组编辑系统也可以用于多重基因编辑，以在同一基因座或不同基因座中产生两个或更多个DSB。本文所公开的RNA向导的核酸酶和gRNA中的任一种都可以在用于多重基因编辑的基因组编辑系统中使用。例如，Cotta-Ramusino中描述了涉及多个DSB或SSB的形成的编辑策略。在某些实施例中，多个gRNA和RNA向导的核酸酶可以用于基因组编辑系统，以将改变(例如，缺失、插入)引入到HBG1和/或HBG2的CCAAT盒靶区域。在某些实施例中，RNA向导的核酸酶可以是Cpf1或经修饰的Cpf1。

供体模板设计

供体模板设计在文献，例如Cotta-Ramusino中有详细描述。DNA低聚物供体模板(寡脱氧核苷酸或ODN)可以是单链(ssODN)或双链(dsODN)的，可以用于促进基于HDR的DSB修复或提高总体编辑率，并且特别用于将改变引入到靶DNA序列中，将新序列插入到靶序列中或完全替代靶序列。

无论是单链还是双链，供体模板通常包含与待切割的靶序列内或附近(例如，侧接或邻接靶序列)的DNA区域同源的区域。这些同源区域在此处被称为“同源臂”，并且如下文示意性地展示：

[5'同源臂]-[替代序列]-[3'同源臂]。

同源臂可以具有任何合适的长度(如果仅使用一个同源臂，则包含0个核苷酸)，并且3'和5'同源臂的长度可以相同，或者长度可以不同。适当的同源臂长度的选择可能受到多种因素的影响，如期望避免与某些序列，如Alu重复序列或其它非常常见的元件的同源性或微同源性。例如，可以缩短5'同源臂以避免序列重复元件。在其它实施例中，可以缩短3'同源臂以避免序列重复元件。在一些实施例中，可以缩短5'和3'同源臂以避免包含某些序列重复元件。另外，一些同源臂设计可以提高编辑效率或增加期望的修复结果的频率。例如，Richardson 2016(通过引用并入本文)发现单链供体模板的3'和5'同源臂的相对不对称性影响修复率和/或结果。

供体模板中的替代序列已在其它地方，包含在Cotta-Ramusino中进行了描述。替代序列可以是任何合适的长度(包含零个核苷酸，其中期望的修复结果是缺失)，并且相对于期望编辑的细胞内天然存在的序列，通常包含一个、两个、三个或更多个序列修饰。一种常见序列修饰涉及天然存在的序列的改变，以修复与期望治疗的疾病或病状有关的突变。另一种常见序列修饰涉及一个或多个序列的改变，所述一个或多个序列与用于产生SSB或DSB的RNA向导的核酸酶的PAM序列或gRNA的靶向结构域互补，或者随后与其互补，以减少或消除在将替代序列并入到靶位点中之后对靶位点的重复切割。

在使用线性ssODN的情况下，其可以被配置成(i)退火到靶核酸的带切口的链，(ii)退火到靶核酸的完整链，(iii)退火到靶核酸的正链，和/或(iv)退火到靶核酸的负链。ssODN可以具有任何合适的长度，例如约、至少或不超过80-200个核苷酸(例如，80、90、100、110、120、130、140、150、160、170、180、190或200个核苷酸)。

应注意，模板核酸也可以是核酸载体，如病毒基因组或环状双链DNA，例如质粒。包括供体模板的核酸载体可以包含其它编码或非编码元件。例如，模板核酸可以作为包含某些基因组主链元件(例如，在AAV基因组的情况下，反向末端重复序列)的病毒基因组的一部分(例如，在AAV或慢病毒基因组中)递送，并且任选地包含编码gRNA和/或RNA向导的核酸酶的另外的序列。在某些实施例中，供体模板可以与邻近或侧接有由一个或多个gRNA识别的靶位点，以促进在供体模板的一端或两端上形成游离DSB，所述供体模板可以使用相同的gRNA参与细胞DNA中形成的对应的SSB或DSB的修复。适于用作供体模板的示例性核酸载体描述于Cotta-Ramusino中，其通过引用并入本文。

无论使用何种形式，都可以设计模板核酸以避免不期望的序列。在某些实施例中，可以缩短一个或两个同源臂以避免与某些序列重复元件，例如Alu重复序列、LINE元件等重叠。

在某些实施例中，沉默的非致病性SNPs可以包含在ssODN供体模板中，以允许鉴定基因编辑事件。

本文所使用的供体模板或模板核酸是指可以与RNA核酸酶分子和一个或多个gRNA分子结合使用以改变(例如，缺失、破坏或修饰)靶DNA序列的核酸序列。在某些实施例中，模板核酸导致HBG1和/或HBG2的CCAAT盒靶区域处的改变(例如，缺失)。在某些实施例中，改变是非天然存在的改变。

在某些实施例中，ssODN包括选自由SEQ ID NO:974-995、1040组成的组的一个或多个序列、基本上由其组成或由其组成。参见国际公开第WO 2021/119040号(参见例如实例2、9、10、11、12)。

在某些实施例中，5'同源臂包括5'硫代磷酸(PhTx)修饰。在某些实施例中，3'同源臂包括3'PhTx修饰。在某些实施例中，模板核酸包括5'和3'PhTx修饰。

靶细胞

根据本公开的基因组编辑系统可以用于操纵或改变细胞，例如以编辑或改变靶核酸。在各个实施例中，操纵可以在体内或离体发生。

根据本公开的实施例，可以操纵或改变多种细胞类型，并且在一些情况下，如体内应用，例如通过将根据本公开内容的基因组编辑系统递送到多种细胞类型来改变或操纵多种细胞类型。然而，在其它情况下，可能期望将操纵或改变限制于一种或多种特定细胞类型。例如，在一些情况下，可能期望编辑具有有限分化潜力的细胞或终末分化的细胞，如在Maeder的情况下的感光细胞，其中基因型的修饰预期会导致细胞表型的变化。然而，在其它情况下，可能期望编辑较少分化的多能(multipotent或pluripotent)干细胞或祖细胞。以举例的方式，细胞可以是胚胎干细胞、诱导性多能干细胞(iPSC)、造血干细胞/祖细胞(HSPC)、或分化为与给定应用或适应症相关的细胞类型的其它干细胞或祖细胞类型。

按照推论，根据被靶向的细胞类型和/或期望的编辑结果，被改变或操纵的细胞是不同的分裂细胞或非分裂细胞。

当细胞离体被操纵或改变时，可以立即使用细胞(例如，施用于受试者)，或者可以维持或储存细胞以供以后使用。本领域技术人员将理解，可以使用本领域已知的任何合适的方法将细胞维持在培养物中或储存(例如，冷冻在液氮中)。

基因组编辑系统的实施方案：递送、调配和施用途径

如上文所讨论的，本公开的基因组编辑系统可以以任何合适的方式实施，这意味着此类系统的组分，包含但不限于RNA向导的核酸酶、gRNA和任选的供体模板核酸可以以任何适当的形式或形式的组合递送、调配或施用，这导致基因组编辑系统的转导、表达或引入和/或在细胞、组织或受试者中引起期望的修复结果。表2和3示出了基因组编辑系统实施方案的几个非限制性实例。然而，本领域技术人员将理解，这些列表不是全面的，并且其它实施方案是可能的。具体地，参考表2，所述表列出了包括单个gRNA和任选的供体模板的基因组编辑系统的几个示例性实施方案。然而，根据本公开的基因组编辑系统可以并入多个gRNA、多个RNA向导的核酸酶和其它组分，如蛋白质，并且基于表中所展示的原理，各个实施方案对本领域技术人员来说是显而易见的。在表中，[N/A]指示基因组编辑系统不包含所指示的组分。

表2

表3总结了如本文所描述的基因组编辑系统的组分的各种递送方法。同样，列表旨在是示例性而非限制性的。

表3

基于核酸的基因组编辑系统的递送

编码根据本公开的基因组编辑系统的各个元件的核酸可以通过本领域已知的方法或如本文所描述的施用于受试者或递送到细胞中。例如，编码RNA向导的核酸酶和/或gRNA的DNA，以及供体模板核酸可以通过例如载体(例如，病毒或非病毒载体)、基于非载体的方法(例如，使用裸DNA或DNA复合物)或其组合递送。

编码基因组编辑系统或其组分的核酸可以作为裸DNA或RNA直接递送到细胞，例如通过转染或电穿孔，或可以与促进靶细胞(例如，红血球、HSC)摄取的分子(例如，N-乙酰基半乳糖胺)缀合。还可以使用核酸载体，如表3中总结的载体。

核酸载体可以包括编码基因组编辑系统组分，如RNA向导的核酸酶、gRNA和/或供体模板的一个或多个序列。载体还可以包括编码信号肽的序列(例如，用于核定位、核仁定位或线粒体定位)，所述序列与编码蛋白质的序列相关(例如，插入到其中或与其融合)。作为一个实例，核酸载体可以包含包括一个或多个核定位序列(例如，来自SV40的核定位序列)的Cas9编码序列。

核酸载体还可以包含任何合适数量的调控/控制元件，例如启动子、增强子、内含子、聚腺苷酸化信号、Kozak共有序列或内部核糖体进入位点(IRES)。这些元件在本领域中是众所周知的，并且在Cotta-Ramusino中进行了描述。

根据本公开的核酸载体包含重组病毒载体。表3中示出了示例性病毒载体，并且Cotta-Ramusino中描述了另外合适的病毒载体和其用途和产生。也可以使用本领域已知的其它病毒载体。另外，病毒颗粒可以用于递送核酸和/或肽形式的基因组编辑系统组分。例如，“空”病毒颗粒可以被组装成含有任何合适的货物。病毒载体和病毒颗粒也可以被工程化以并入靶向配体来改变靶组织特异性。

除了病毒载体之外，非病毒载体可以用于递送编码根据本公开的基因组编辑系统的核酸。非病毒核酸载体的一个重要类别是纳米颗粒，其可以是有机的或无机的。纳米颗粒在本领域中是众所周知的，并且在Cotta-Ramusino中进行了总结。任何合适的纳米颗粒设计都可以用于递送基因组编辑系统组分或编码此类组分的核酸。例如，有机(例如，脂质和/或聚合物)纳米颗粒可以适合用作本公开的某些实施例中的递送媒剂。用于纳米颗粒调配物和/或基因转移的示例性脂质示出于表4中，并且表5列出了用于基因转移和/或纳米颗粒调配物的示例性聚合物。

表4：用于基因转移的脂质

表5：用于基因转移的聚合物

非病毒载体任选地包含靶向修饰以改善摄取和/或选择性靶向某些细胞类型。这些靶向修饰可以包含例如细胞特异性抗原、单克隆抗体、单链抗体、适体、聚合物、糖(例如，N-乙酰基半乳糖胺(GalNAc))和细胞穿透肽。此类载体还任选地使用促融合和内体不稳定的肽/聚合物，经历酸触发的构象变化(例如，加速货物的内体逃逸)，和/或并入刺激可切割的聚合物，例如，以在细胞区室中释放。例如，可以使用在还原性细胞环境中切割的基于二硫化物的阳离子聚合物。

在某些实施例中，递送除基因组编辑系统的组分外的一个或多个核酸分子(例如，DNA分子)，例如本文所描述的RNA向导的核酸酶组分和/或gRNA组分。在某些实施例中，核酸分子与基因组编辑系统的组分中的一个或多个组分同时递送。在某些实施例中，核酸分子在递送基因组编辑系统的组分中的一个或多个组分之前或之后(例如，少于约30分钟、1小时、2小时、3小时、6小时、9小时、12小时、1天、2天、3天、1周、2周或4周)递送。在某些实施例中，核酸分子通过与递送基因组编辑系统的组分中的一个或多个组分，例如，RNA向导的核酸酶组分和/或gRNA组分不同的方式递送。核酸分子可以通过本文所描述的递送方法中的任一种递送。例如，核酸分子可以通过病毒载体，例如整合缺陷慢病毒递送，并且RNA向导的核酸酶分子组分和/或gRNA组分可以通过电穿孔递送，例如，使得由核酸(例如，DNA)引起的毒性可以降低。在某些实施例中，核酸分子编码治疗性蛋白质，例如本文所描述的蛋白质。在某些实施例中，核酸分子编码RNA分子，例如本文所描述的RNA分子。

RNP和/或RNA编码基因组编辑系统组分的递送

RNP(gRNA和RNA向导的核酸酶的复合物)和/或编码RNA向导的核酸酶和/或gRNA的RNA可以通过现有技术已知的方法递送到细胞中或施用于受试者，其中一些方法在Cotta-Ramusino中描述。在体外，编码RNA向导的核酸酶和/或编码gRNA的RNA可以例如通过显微注射、电穿孔、瞬时细胞压缩或挤压来递送(参见例如Lee 2012)。脂质介导的转染、肽介导的递送、GalNAc介导或其它缀合物介导的递送以及其组合也可以用于体外和体内递送。可以使用保护性、交互式、非冷凝(PINC)系统进行递送。

通过电穿孔的体外递送包括将细胞与编码RNA向导的核酸酶和/或gRNA的RNA在具有或没有供体模板核酸分子的情况下在筒、室或比色皿中混合，并施加一个或多个限定持续时间和振幅的电脉冲。用于电穿孔的系统和方案是本领域已知的，并且任何合适的电穿孔工具和/或方案都可以结合本公开的各个实施例使用。

施用途径

基因组编辑系统，或使用此类系统改变或操纵的细胞，可以通过任何合适的模式或途径，无论是局部还是全身，施用于受试者。全身施用模式包含口服和肠胃外途径。以举例的方式，肠胃外途径包含静脉内、骨髓内、动脉内、肌肉内、皮内、皮下、鼻内和腹膜内途径。全身施用的组分可以被修饰或调配成靶向例如HSC、造血干细胞/祖细胞或红系祖细胞或前体细胞。

以举例的方式，局部施用模式包含骨髓内注射到小梁骨中或股动脉内注射到骨髓空间中，以及输注到门静脉中。在某些实施例中，与全身施用(例如，静脉内施用)相比，当局部施用时(例如，直接施用到骨髓中)，显著较少量的组分(与全身方法相比)可以发挥作用。局部施用模式可以降低或消除当全身施用治疗有效量的组分时可能发生的潜在毒性副作用的发生率。

施用可以以周期性推注(例如，静脉内)或从内部储器或外部储器(例如，从静脉内袋或植入式泵)连续输注的形式提供。组分可以局部施用，例如通过从缓释药物递送装置连续释放。

另外，组分可以被调配成允许在延长的时间段内释放。释放系统可以包含可生物降解材料的基质或通过扩散释放并入的组分的材料。所述组分可以均匀地或不均匀地分布在释放系统内。各种释放系统可能是有用的，然而，适当系统的选择将取决于特定应用所需的释放速率。不可降解和可降解释放系统两者都可以使用。合适的释放系统包含聚合物和聚合物基质、非聚合物基质、或无机和有机赋形剂和稀释剂，如但不限于碳酸钙和糖(例如，海藻糖)。释放系统可以是天然的或合成的。然而，合成释放系统是优选的，因为其通常更可靠、更可再现并且产生更明确的释放特性。可以选择释放系统材料，使得具有不同分子量的组分通过材料的扩散或降解而释放。

代表性合成可生物降解聚合物包含例如：聚酰胺，如聚(氨基酸)和聚(肽)；聚酯，如聚(乳酸)、聚(乙醇酸)、聚(乳酸-共-乙醇酸)和聚(己内酯)；聚(酸酐)；聚原酸酯；聚碳酸酯；以及其化学衍生物(化学基团的取代、添加，例如，烷基、亚烷基、羟基化、氧化和本领域技术人员常规进行的其它修饰)、共聚物以及其混合物。代表性合成不可降解的聚合物包含例如：聚醚，例如聚(环氧乙烷)、聚(乙二醇)和聚(四亚甲基氧化物)；乙烯基聚合物-聚丙烯酸酯和聚甲基丙烯酸酯，如甲基、乙基、其它烷基、甲基丙烯酸羟乙酯、丙烯酸和甲基丙烯酸以及其它聚合物，如聚(乙烯醇)、聚(乙烯基吡咯烷酮)和聚(乙酸乙烯酯)；聚(氨基甲酸酯)；纤维素以及其衍生物，如烷基、羟烷基、醚、酯、硝化纤维素和各种纤维素乙酸酯；聚硅氧烷；以及其任何化学衍生物(化学基团的取代、添加，例如烷基、亚烷基、羟基化、氧化和本领域技术人员常规进行的其它修饰)、共聚物以及其混合物。

也可以使用聚(丙交酯-共-乙交酯)微球。通常，微球由乳酸和乙醇酸的聚合物构成，其结构形成中空球体。球体的直径可以是大约15-30微米，并且可以装载本文所描述的组分。在一些实施例中，基因组编辑系统、系统组分和/或核酸编码系统组分用嵌段共聚物，如泊洛沙姆(poloxamer)或泊洛沙明(poloxamine)递送。

组分的多模式或差异递送

鉴于本公开内容，本领域技术人员将理解，本文所公开的基因组编辑系统的不同组分可以一起或单独递送，并且同时或非同时递送。基因组编辑系统组分的单独和/或异步递送对于提供对基因组编辑系统的功能的时间或空间控制以及限制由其活性引起的某些影响可能是特别期望的。

如本文所使用的不同或差异模式是指赋予受试者组分分子不同药效学或药代动力学特性的递送模式，例如RNA向导的核酸酶分子、gRNA、模板核酸或有效载荷。例如，递送模式可以导致不同的组织分布、不同的半衰期或不同的时间分布，例如在选定的区室、组织或器官中。

一些递送模式，例如，通过持续存在于细胞中或细胞子代中的核酸载体递送，例如通过自主复制或插入到细胞核酸中，使得组分更持久表达和存在。实例包含病毒递送，例如AAV或慢病毒递送。

以举例的方式，基因组编辑系统的组分，例如RNA向导的核酸酶和gRNA可以通过不同的方式递送，所述方式在所递送的组分在身体，或在特定的区室、组织或器官中的所得半衰期或持久性方面不同。在某些实施例中，gRNA可以通过此类模式递送。RNA向导的核酸酶分子组分可以通过导致在身体或特定隔室、组织或器官的较少持久性或较少暴露的模式递送。

更通常地，在某些实施例中，第一递送模式用于递送第一组分，并且第二递送模式用于递送第二组分。第一递送模式赋予第一药效学或药代动力学特性。第一药效学特性可以是例如组分或编码所述组分的核酸在身体、区室、组织或器官中的分布、持久性或暴露。第二递送模式赋予第二药效学或药代动力学特性。第二药效学特性可以是例如组分或编码所述组分的核酸在身体、区室、组织或器官中的分布、持久性或暴露。

在某些实施例中，第一药效学或药代动力学特性，例如分布、持久性或暴露比第二药效学或药代动力学特性更受限制。

在某些实施例中，第一递送模式被选择成优化，例如最小化药效学或药代动力学特性，例如分布、持久性或暴露。

在某些实施例中，第二递送模式被选择成优化，例如最大化药效学或药代动力学特性，例如分布、持久性或暴露。

在某些实施例中，第一递送模式包括使用相对持久的元件，例如核酸，例如质粒或病毒载体，例如AAV或慢病毒。由于此类载体是相对持久的，从其转录的产物将是相对持久的。

在某些实施例中，第二递送模式包括相对瞬时元件，例如RNA或蛋白质。

在某些实施例中，第一组分包括gRNA，并且递送模式是相对持久的，例如，gRNA是从质粒或病毒载体，例如AAV或慢病毒转录的。这些基因的转录几乎没有生理后果，因为所述基因不编码蛋白质产物，并且gRNA不能单独发挥作用。第二组分，即RNA向导的核酸酶分子以瞬时方式递送，例如作为mRNA或蛋白质递送，从而确保完整的RNA向导的核酸酶分子/gRNA复合物仅在短时间内存在并具有活性。

此外，组分可以以不同的分子形式或用不同的递送载体递送，所述递送载体相互补充以增强安全性和组织特异性。

使用不同的递送模式可以提高性能、安全性和/或功效，例如，可以降低最终脱靶修饰的可能性。通过不太持久的模式递送免疫原性组分，例如Cas9分子可以降低免疫原性，因为来自细菌衍生的Cas酶的肽通过MHC分子显示在细胞的表面上。两部分递送系统可以减轻这些缺点。

可以使用不同的递送模式将组分递送到不同但重叠的靶区域。在靶区域的重叠之外，活性复合物的形成被最小化。因此，在某些实施例中，第一组分，例如gRNA通过第一递送模式递送，所述第一递送模式导致第一空间分布，例如组织分布。第二组分，例如RNA向导的核酸酶分子通过第二递送模式递送，所述第二递送模式导致第二空间分布，例如组织分布。在某些实施例中，第一模式包括选自以下的第一元件：脂质体、纳米颗粒(例如，聚合物纳米颗粒)和核酸(例如，病毒载体)。第二模式包括选自组中的第二元件。在某些实施例中，第一递送模式包括第一靶向元件，例如细胞特异性受体或抗体，并且第二递送模式不包含所述元件。在某些实施例中，第二递送模式包括第二靶向元件，例如第二细胞特异性受体或第二抗体。

当RNA向导的核酸酶分子在病毒递送载体、脂质体或聚合物纳米颗粒中递送时，当可能期望仅靶向单个组织时，存在递送到多个组织的潜力和在多个组织中的治疗活性。两部分的递送系统可以解决这一挑战并增强组织特异性。如果gRNA和RNA向导的核酸酶分子被包装在具有不同但重叠的组织向性的单独的递送媒剂中，则仅在两种载体靶向的组织中形成完全功能的复合物。

实例

下文的非限制性实例进一步展示了上述原理和实施例：

实例1：用于治疗β-血红蛋白病的核糖核蛋白的用途

本文描述了一种β地中海贫血的自体细胞疗法，所述自体细胞疗法包括向患有β地中海贫血的受试者施用基因修饰的CD34+细胞以促进γ珠蛋白表达。在某些实施例中，β地中海贫血可以是输血依赖性β地中海贫血(TDT)。β地中海贫血是世界上最常见的隐性血液病症之一，迄今已发现超过200个突变。这些突变减少或完全消除了β珠蛋白的表达。在β珠蛋白与α珠蛋白配对以形成成人血红蛋白(HbA，α2β2)时，β珠蛋白减少或缺失会产生过量的α珠蛋白链，这形成毒性聚集体。这些聚集体会导致红系前体的成熟阻滞和过早死亡，以及红细胞(RBC)的溶血，从而导致不同程度的贫血。患有最严重形式的β地中海贫血，即主要β地中海贫血的患者依赖于输血，即需要终生输血RBC，同时承担铁螯合疗法的负担。

本文所描述的自体细胞疗法是一种用于通过直接靶向编码胎儿γ珠蛋白链的HBG1和HBG2基因的启动子以促进胎儿血红蛋白的表达来治疗β地中海贫血的治疗性方法。γ珠蛋白通过与过量的α珠蛋白链配对形成胎儿血红蛋白(HbF，α2γ2)来降低β地中海贫血患者的α到β珠蛋白链失衡。γ珠蛋白诱导，以及由此产生的HbF诱导可以通过HBG1和HBG2启动子的远端CCAAT盒区域的Cpf1(Cas12a)核糖核蛋白(RNP)介导的编辑来实现，其中存在胎儿血红蛋白(HFPH)突变的天然存在的遗传持久性。

RNP32(表10)，包括gRNA(包括SEQ ID NO:1051中所示的序列)和经修饰的Cpf1蛋白(包括SEQ ID NO:1097中所示的序列)，以高效和特异性编辑HBG1和HBG2启动子远端CCAAT盒。

为了测试RNP32是否可以是β地中海贫血(例如，TDT)的有效疗法，将来自患有TDT的个体的mPB CD34+细胞用靶向HBG1和HBG2启动子的RNP32进行电穿孔。使用从患有TDT的个体和正常供体获得的mPB CD34+细胞确定RNP32编辑此类细胞疗法的有效性，并进行比较。简而言之，在37℃、5％二氧化碳(CO₂)的加湿温育箱中，将来自正常或TDT供体的CD34+细胞在由X-Vivo 10组成，补充有1 X Glutamax、100ng/mL干细胞因子(SCF)、100ng/mL血小板生成素(TPO)和100ng/mL FMS样酪氨酸激酶3配体(Flt3L)的培养基中预刺激2天。在培养2天之后，将细胞收集并重悬于最大MaxCyte电穿孔缓冲液中。通过MaxCyte GT电穿孔装置将RNP32(6μM，以2gRNA/蛋白摩尔比)递送至CD34+细胞。每OC-100盒可以使用1x 10⁶至6.25x 10⁶个细胞以进行电穿孔。然后将预温热的完整培养基添加到细胞中，以使最终细胞密度为大约1x 10⁶个细胞/mL。然后将电穿孔细胞与未经处理的对照细胞(不经历电穿孔的细胞)一起放置于37℃、5％ CO₂的加湿温育箱中。在电穿孔后第1天、第2天和第3天，采集细胞的等分试样以用于另外的分析。粗基因组脱氧核糖核酸(gDNA)提取是通过在热循环器中使裂解物在以下条件下裂解进行的：在65℃下，持续15分钟，随后在95℃下，持续10分钟。然后，通过下一代测序使用以下引物对粗gDNA的indel进行了分析：正向＝CATGGCGTCTGGACTAGGAG(SEQ ID NO:1266)和反向＝AAACACATTTCACAATCCCTGAAC(SEQ IDNO:1267)。

如图3A所示，RNP32编辑来自患有TDT的个体的mPB CD34+细胞的效率与编辑来自正常供体的CD34+细胞的效率一样。来自TDT供体(图3A、3B)和正常供体(图3A)两者的细胞的indel百分比从电穿孔后第1天增加到电穿孔后第3天。此外，除了高效编辑(图3A)之外，RNP32编辑了来自患有TDT的个体的从电穿孔后第1天到电穿孔后第3天维持高存活率的mPBCD34+细胞(图3C)。

接下来，测试了来自三名患有TDT的个体(供体1-3)的RNP32编辑的β地中海贫血CD34+细胞的红系分化，以评估RNP编辑的红系细胞的成熟和健康，因为红系前体的成熟阻滞和过早死亡是TDT的标志。

简而言之，在用RNP32的电穿孔后第1天，将细胞在红系诱导培养基中培养以产生红系细胞。将CD34+细胞在步骤1的由补充有1X GlutaMAX(吉博科公司(Gibco))、100U/mL青霉素、100mg/mL链霉素、5％人AB+血浆、330μg/mL人全转铁蛋白、20mg/mL人胰岛素、2U/mL肝素、3U/mL重组人红细胞生成素(EPO)、100ng/ml SCF和5ng/mL白细胞介素(IL)-3的伊斯科氏改良杜布氏培养基(Iscove's modified Dulbecco'smedium，IMDM)组成的培养基中培养7天。在第7天，将细胞转移到步骤2培养基，所述培养基除了没有IL-3和培养4天之外，与步骤1培养基相同。接下来，在步骤3培养基中将细胞培养7天，所述培养基类似于步骤2培养基，但不添加SCF，并用5％敲除血清替代物(吉博科公司)替代5％人AB+血浆。在18天培养结束时，使用荧光激活细胞分选(FACS)确定红系成熟、去核和细胞死亡频率。

经编辑的β地中海贫血CD34+细胞的红系分化显示出红细胞成熟和健康的显著改善。第18天将红系细胞用针对CD71和CD235a的抗体染色，用染色含有细胞核的细胞的NucRed染色，并用染色死细胞的DAPI染色。将成红细胞分类为活的、有核的和CD235a高群体。将晚期成红细胞分类为具有低或阴性CD71表达的成红细胞。

用RNP32编辑的β地中海贫血CD34+供体细胞以与未编辑的对照细胞类似的速率成功地经历红系分化(图4A、4B)。与大约53％未编辑的成红细胞相比，大约70％经编辑的成红细胞达到晚期成红细胞阶段(图4C)。将去核红系细胞分类为活细胞和CD235a高群体内的NucRed阴性细胞。与大约28％未编辑的红系细胞相比，大约56％经编辑的红系细胞经历终末成熟并去核(图4D)。在有核和CD235a高群体内，将非活成红细胞分类为用DAPI染色呈阳性的细胞。在编辑之后，非活成红细胞从大约33％减少到大约22％(图4E)。图4F-4H示出了在红系培养第7天、第11天、第14天和第18天，来自一个供体的分别达到晚期成红细胞阶段的细胞百分比(经编辑和未编辑)、去核的红系细胞百分比和非活成红细胞百分比。

使用逆转录液滴数字聚合酶链式反应和反相超高效液相色谱法(RP-UPLC)，在从用RNP32编辑的β地中海贫血CD34+供体细胞分化的红系细胞或未编辑细胞中以mRNA和蛋白质水平两者评估了γ-珠蛋白和总珠蛋白产生的变化。针对标准曲线计算α、β和γ珠蛋白的曲线下总面积，以确定每个细胞的血红蛋白含量。结果表明，在mRNA和蛋白质水平下，与未编辑对照相比，改善的红血球生成伴随着γ-珠蛋白和总血红蛋白水平的显著增加(图5A-5E)。这些数据有力地支持使用RNP32编辑HBG1和HBG2启动子CCAAT盒可以逆转与β地中海贫血相关的红血球生成异常并增加血红蛋白产生。

总之，本文的数据支持在β-地中海贫血的自体细胞疗法中使用RNP32。从用RNP32编辑的β地中海贫血CD34+供体细胞分化的红系细胞显示出显著改善的红系成熟和减少的红系死亡，因此逆转与TDT突变相关的成熟阻滞。从用RNP32编辑的β地中海贫血CD34+供体细胞分化的红系细胞显著增加γ-珠蛋白产生和每个细胞的总血红蛋白含量。RNP32治疗可以有助于解决TDT的潜在疾病机制，并显示出改善红血球生成并增加其红系后代的血红蛋白含量。由于经编辑的mPB CD34+细胞保留了其移植的能力，并产生长期的稳健HbF诱导，这些数据支持RNP32可以用作患有TDT的个体的一次性有效自体细胞疗法，以逆转红血球生成异常并改善贫血。

实例2：使用经编辑的造血干细胞治疗β-血红蛋白病

本文所公开的方法和基因组编辑系统可以用于治疗有需要的患者的β-血红蛋白病，如镰状细胞病或β-地中海贫血。例如，可以在自体程序中对源自患者的细胞进行基因组编辑。离体校正患者细胞并将细胞重新引入到患者中可能增加HbF表达和β-血红蛋白病的治疗。

例如，可以使用技术人员熟知的技术从患有β-血红蛋白病的患者的骨髓中提取HSC。HSC可以使用本文所公开的用于基因组编辑的方法进行修饰。例如，包含靶向与RNA向导的核酸酶复合的HBG基因中的一个或多个区域的向导RNA(gRNA)的RNP可以用于编辑HSC。在某些实施例中，RNA向导的核酸酶可以是Cpf1蛋白。在某些实施例中，Cpf1蛋白可以是经修饰的Cpf1蛋白。在某些实施例中，经修饰的Cpf1蛋白可以由SEQ ID NO:1000、1001、1008-1018、1032、1035-39、1094-1097、1107-09(Cpf1多肽序列)或SEQ ID NO:1019-1021、1110-17(Cpf1多核苷酸序列)中所示的序列编码。例如，经修饰的Cpf1蛋白可以由SEQ ID NO:1097中所示的序列编码。在某些实施例中，gRNA可以是经修饰或未经修饰的gRNA。在某些实施例中，gRNA可以包括表7、8、11或12中所示的序列。例如，在某些实施例中，gRNA可以包括SEQ ID NO:1051中所示的序列。在某些实施例中，RNP复合物可以包括表10中所示的RNP复合物。例如，RNP复合物可以包含包括SEQ ID NO:1051中所示的序列的gRNA和由SEQ ID NO:1097中所示的序列编码的经修饰的Cpf1蛋白(RNP32，表10)。在某些实施例中，相对于未经修饰的HSC，经修饰的HSC在人HBG1基因、HBG2基因或两者中具有增加的频率或Indel水平。在某些实施例中，经修饰的HSC可以分化成表现出增加的HbF水平的红系细胞。可以选择经修饰的HSC群体以通过输血或其它技术人员已知的方法重新引入到患者中。用于重新引入的经修饰HSC的群体可以基于例如经修饰的HSC的红系后代的增加的HbF表达或经修饰的HSC的增加的Indel频率来选择。在一些实施例中，在重新引入细胞之前的任何形式的消融都可以用于增强经修饰的HSC的移植。在其它实施例中，可以使用技术人员熟知的技术(例如，单采血液成分术或白细胞去除术)从患有β-血红蛋白病的患者中提取外周血干细胞(PBSC)，并从PBSC中取出干细胞。可以对干细胞执行上述基因组编辑方法，并且经修饰的干细胞可以如上文所描述地重新引入到患者中。

表6：HBG基因组区域的亚结构域

表7：Cpf1向导RNA

表8：Cpf1向导RNA

表9：Cpf1蛋白变体

表10：RNP复合物

表11：Cpf1 HBG1靶向结构域和预期切割位点

表12：Cpf1 HBG2靶向结构域和预期切割位点

表13：gRNA 5'延伸

序列

根据本公开的基因组编辑系统组分(包含但不限于RNA向导的核酸酶、向导RNA、供体模板核酸、编码核酸酶或向导RNA的核酸，以及上述任一种的部分或片段)由序列表中所呈现的核苷酸和氨基酸序列例示。序列列表中所呈现的序列不旨在是限制性的，而是说明基因组编辑系统和其组分部分的某些原理，结合本公开，所述原理将告知本领域技术人员在本公开范围内的另外的实施方案和修改。

通过引用并入

本文所提及的所有公开、专利以及专利申请通过引用整体特此并入，如同每个单独的公开、专利或专利申请被专门地且单独地指示通过引用并入。在冲突的情况下，以本申请，包含本文中的任何定义为准。

等效物

仅使用常规实验，本领域的技术人员将认识到或者能够确定本文所描述的具体实施例的许多等效物。此类等效形式旨在被以下附权利要求书涵盖。

参考文献

Ahern等人,《英国血液学杂志(Br J Haematol)》25(4):437-444(1973)

Akinbami《血红蛋白(Hemoglobin)》40:64-65(2016)

Aliyu等人,《美国血液学杂志(Am J Hematol)》83:63-70(2008)

Anders等人,《自然(Nature)》513(7519):569-573(2014)

Angastiniotis和Modell《纽约科学院年报(Ann N Y Acad Sci)》850:251-269(1998)

Bae等人,《生物信息学(Bioinformatics)》30(10):1473-1475(2014)

Barbosa等人,《巴西医学与生物研究杂志(Braz J Med Bio Res)》43(8):705-711(2010)

Bauer等人,《自然医学(Nat.Med.)》25(5):776-783(2019)

Bothmer等人,《CRISPR杂志》3(3):177-187(2020)

Bouva《血液学(Hematologica)》91(1):129-132(2006)

Briner等人,《分子细胞(Mol Cell)》56(2):333-339(2014)

Brousseau《美国血液学杂志》85(1):77-78(2010)

Caldecott《自然评论遗传学(Nat Rev Genet)》9(8):619-631(2008)

Canvers等人,《自然》527(12):192-197(2015)

Chang等人,《分子治疗方法与临床发展(Mol Ther Methods Clin Dev)》4:137-148(2017)

Chassanidis《血液学年鉴(Ann Hematol)》88(6):549-555(2009)

Chylinski等人,《RNA生物学(RNA Biol)》10(5):726–737(2013)

Cong等人,《科学(Science)》399(6121):819-823(2013)

Costa等人,,《公共卫生杂志(Cad Saude Publica)》18(5):1469-1471(2002)

Davis和Maizels 2《美国国家科学院院刊(Proc Natl Acad Sci USA)》111(10):E924-932(2014)

Fine等人,《科学报告(Sci Rep.)》5:10777(2015)

Frit等人,《DNA修复(DNA Repair)》(Amst)17:81-97(2014)

Fu等人,《自然生物技术(Nat Biotechnol)》32:279-284(2014)

Gao等人,《自然生物技术》:35(8):789-792(2017)

Giarratana等人,《自然生物技术》23(1):69-74(2005)

Giarratana等人,《血液(Blood)》:118,5071-5079(2011)

Giannoukos等人,《BMC基因组学(BMC Genomics)》19(1):212(2018)

Guilinger等人,《自然生物技术》32:577-582(2014)

Heigwer等人,《自然方法(Nat Methods)》11(2):122-123(2014)

Hsu等人,《自然生物技术》31(9):827–832(2013)

Iyama和Wilson《DNA修复》(Amst)12(8):620-636(2013)

Jiang等人,《自然生物技术》31(3):233-239(2013)

Jinek等人,《科学》337(6096):816-821(2012)

Jinek等人,《科学》343(6176):1247997(2014)

Kleinstiver等人,《自然》523(7561):481-485(2015a)

Kleinstiver等人,《自然生物技术》33(12):1293–1298(2015b)

Kleinstiver等人,《自然》529(7587):490-495(2016)

Kleinstiver等人,《自然生物技术》37(3):276-282(2019)

Komor等人,《自然》533(7603):420-424(2016)

Kosicki等人,《自然生物技术》36(8):765-771(2018)

Lee等人,《纳米快报(Nano Lett)》12(12):6322-6327(2012)

Lewis“医疗外科护理：临床问题的评估和管理(Medical-Surgical Nursing:Assessment and Management of Clinical Problems)”(2014)

Li《细胞研究(Cell Res)》18(1):85-98(2008)

Makarova等人,《自然综述：微生物学(Nat Rev Microbiol)》9(6):467–477(2011)

Mali等人,《科学》339(6121):823-826(2013)

Mantovani等人,《核酸研究(Nucleic Acids Res)》16(16):7783-7797(1988)

Masala《酶学方法(Methods Enzymol)》231:21-44(1994)

Marteijn等人,《分子细胞生物学自然综述(Nat Rev Mol Cell Biol)》15(7):465-481(2014)

Martyn等人,《生物化学与生物物理学报(Biochim Biophys Acta)》1860(5):525-536(2017)

Métais等人,《血液进展(Blood Adv.)》3(21):3379-92(2019)

Nishimasu等人,《细胞(Cell)》156(5):935-949(2014)

Nishimasu等人,《细胞》162:1113-1126(2015)

Notta等人,《科学》333(6039):218-21(2011)

Pausch等人,《科学》369(6501):333-337(2020)

Ran和Hsu《细胞》154(6):1380-1389(2013)

Richardson等人,《自然生物技术》34:339-344(2016)

Swarts等人,5月22日:e1481.doi:10.1002/wrna.1481.电子版先于印刷版PMID:29790280(2018)

Shmakov等人,《分子细胞(Molecular Cell)》60(3):385–397(2015)

Sternberg等人,《自然》507(7490):62-67(2014)

Strohkendl等人,《分子细胞》71:816-824(2018)

Superti-Furga等人,《欧洲分子生物学组织杂志(EMBO J)》7(10):3099-3107(1988)

Thein《人类分子遗传学(Hum Mol Genet)》18(R2):R216-223(2009)

Thorpe等人,《英国血液学杂志》87(1):125-132(1994)

Tsai等人,《自然生物技术》34(5):483(2016)

Waber等人,《血液》67(2):551-554(1986)

Wang等人,《细胞(Cell)》153(4):910-918(2013)

Weber等人,《科学进展(Sci Adv.)》6(7):eaay9392(2020)

Wu等人,《自然医学(Nat.Med.)》25(5):776-83(2019)

Xiao等人,《生物信息学(Bioinformatics)》30(8):1180-1182(2014)

Xu等人,《基因与发育(Genes Dev)》24(8):783-798(2010)

Yamano等人,《细胞》165(4):949-962(2016)

Zetsche等人,《自然生物技术》33(2):139-42(2015)

Claims

1.一种减轻有需要的受试者的β-地中海贫血(β-Thal)的一种或多种症状的方法，所述方法包括：

a)从所述受试者中分离出CD34+或造血干细胞群体；

b)通过将RNP复合物递送到分离的细胞群体来离体修饰所述分离的细胞群体，从而改变所述群体中的一个或多个分离的细胞中的HBG基因的启动子，所述RNP复合物包括：

Cpf1和

gRNA，所述gRNA包括：

5'端和3'端、

在所述5'端处的RNA和DNA延伸部、

在所述5'或3'端处的修饰，例如硫代磷酸酯键和/或2'-O-甲基修饰，以及

靶向结构域，所述靶向结构域与所述HBG基因的所述启动子中的靶位点互补；以及

c)向所述受试者施用经修饰的分离的细胞群体，从而减轻所述受试者的β-Thal的一种或多种症状。

2.根据权利要求1所述的方法，其中所述DNA延伸部包括选自由SEQ ID NO:1235-1250组成的组的序列。

3.根据权利要求1或2所述的方法，其中所述靶向结构域包括表7、8、11和12中所示的序列或由所述序列组成。

4.根据权利要求1至3所述的方法，其中所述靶位点包括位于Chr 11(NC_000011.10)5,249,904–5,249,927(表6，区域6)；Chr 11(NC_000011.10)5,254,879–5,254,909(表6，区域16)；或其组合之间的核苷酸。

5.根据权利要求1至4所述的方法，其中所述Cpf1包括一种或多种选自由以下组成的组的修饰：野生型Cpf1氨基酸序列中的一种或多种突变、野生型Cpf1核酸序列中的一种或多种突变、一种或多种核定位信号(NLS)、一种或多种纯化标签和其组合。

6.根据权利要求1至5所述的方法，其中所述Cpf1包括选自由SEQ ID NO:1000、1001、1008-1018、1032、1035-39、1094-1097和1107-09组成的组的序列或由所述序列组成。

7.根据权利要求1至5所述的方法，其中所述Cpf1包括选自由SEQ ID NO:1019-1021和1110-17组成的组的序列或由所述序列组成。

8.根据权利要求1至7所述的方法，其中使用电穿孔将所述RNP复合物递送到所述细胞。

9.一种诱导来自β-地中海贫血(β-Thal)受试者的CD34+或造血干细胞群体中的血红蛋白(Hb)表达的方法，所述方法包括：

将包括向导RNA(gRNA)和Cpf1的RNP复合物递送到来自β-Thal受试者的未修饰的CD34+或造血干细胞群体，以产生包括indel的经修饰的CD34+或造血干细胞群体，所述gRNA包括gRNA靶向结构域，

其中每个经修饰的CD34+或造血干细胞包括HBG基因启动子中的indel，并且

其中所述经修饰的CD34+或造血干细胞群体包括比所述未修饰的CD34+或造血干细胞群体更高的Hb水平。

10.根据权利要求9所述的方法，其中所述gRNA包括DNA延伸部，所述DNA延伸部包括选自由SEQ ID NO:1235-1250组成的组的序列。

11.根据权利要求9或10所述的方法，其中所述gRNA靶向结构域包括表7、8、11和12中所示的序列或由所述序列组成。

12.根据权利要求9至11所述的方法，其中所述gRNA包括靶向结构域，所述靶向结构域与HBG基因的所述启动子中的靶位点互补，其中所述靶位点包括位于Chr 11(NC_000011.10)5,249,904–5,249,927(表6，区域6)；Chr 11(NC_000011.10)5,254,879–5,254,909(表6，区域16)；或其组合之间的核苷酸。

13.根据权利要求9至12所述的方法，其中所述RNP复合物包括Cpf1，所述Cpf1包括一种或多种选自由以下组成的组的修饰：野生型Cpf1氨基酸序列中的一种或多种突变、野生型Cpf1核酸序列中的一种或多种突变、一种或多种核定位信号(NLS)、一种或多种纯化标签和其组合。

14.根据权利要求9至13所述的方法，其中所述Cpf1包括选自由SEQ ID NO:1000、1001、1008-1018、1032、1035-39、1094-1097和1107-09组成的组的序列或由所述序列组成。

15.根据权利要求9至14所述的方法，其中所述Cpf1包括选自由SEQ ID NO:1019-1021和1110-17组成的组的序列或由所述序列组成。

16.根据权利要求9至15所述的方法，其中使用电穿孔将所述RNP复合物递送到所述细胞。