CN116334142A

CN116334142A - 用于改善移植的crispr/cas相关方法和组合物

Info

Publication number: CN116334142A
Application number: CN202310425192.XA
Authority: CN
Inventors: J·L·戈里; 王童瑶; H·嘉亚拉穆; P·奥唐纳尔
Original assignee: Editas Medicine Inc
Current assignee: Editas Medicine Inc
Priority date: 2015-06-09
Filing date: 2016-06-09
Publication date: 2023-06-27
Also published as: US11911415B2; WO2016201047A1; JP7396783B2; JP2021192607A; CN108026526B; EP3307887A1; WO2016201047A8; CA2986262A1; CN108026526A; JP2023123561A; AU2016276702B2; US20180296603A1; AU2016276702A1; AU2022259838A1; JP2018523977A; KR20180031671A; HK1255296A1

Abstract

本文披露了用于增加用于移植到受体受试者的供体细胞(例如，HSC或T细胞)的免疫相容性的组合物和方法，以及用于在所述方法中使用的数据库模式。本文所述的方法和组合物产生了细胞的一种或多种免疫原性基因(例如，HLA基因)的等位基因特异性修饰，从而产生了适于移植到受体受试者中的细胞。

Description

用于改善移植的CRISPR/CAS相关方法和组合物

本申请是申请日为2016年6月9日、申请号为201680046875.2、发明名称为“用于改善移植的CRISPR/CAS相关方法和组合物”的发明专利申请的分案申请。

相关申请

本申请要求于2015年6月9日提交的美国临时专利申请号62/173,321的优先权；以及于2016年2月12日提交的美国临时专利申请号62/294,493的优先权，其每一项全部内容明确地通过引用结合至本文。

序列表

本申请包含以ASCII格式电子提交的序列表，并且通过引用将其全部内容结合至本文。在2016年6月9日创建的所述ASCII副本被命名为2016-06-09_126454-01420_EM052PCT1_ST25.txt，并且大小为227KB。

背景技术

细胞治疗是给予患者活细胞或使患者的特定细胞群体成熟以治疗疾病。例如，异基因造血干细胞/祖细胞移植(allo-HSCT)和异基因脐血移植(allo-UCT)可有效治疗各种获得性、恶性、和遗传性血液疾病，如镰状细胞病(SCD)(Bacigalupo A等人Haematologica[血液病学]100(5):696-702(2015)；Kamani Nr等人Biol.Blood Marrow Transplant[血液和骨髓移植生物学]18(8):1265-72(2012))。

随着基因治疗的出现，使用遗传上改变的细胞的细胞治疗是非常有前景的，因为现在许多疾病潜在地可以通过移植经过遗传上改变的用于治疗特定疾病状态(例如血液病)的原因的细胞来治疗。例如，CRISPR/Cas9系统在哺乳动物细胞中的发现和应用导致靶基因的有效和精确编辑，例如通过非同源末端连接途径(NHEJ)、同源性定向修复(HDR)或其他DNA修复途径。共同递送Cas9分子和靶特异性指导RNA(gRNA)分子，任选地与供体DNA修复模板分子一起，促进基因组中靶序列(例如，疾病相关突变)的基因编辑。因此，使用CRISPR/Cas9系统修饰细胞(例如干细胞)中的基因是治疗多种遗传紊乱的有前景的策略。

为了实现不是从受体受试者(例如，造血干细胞(HSC或HSPC)和/或T细胞)衍生的细胞进行成功移植，必须识别供体以使供体细胞表现出在一个或多个免疫原性基因的遗传基因座处高和/或显著匹配度的等位基因。不幸的是，在一个或多个免疫原性基因座上具有匹配的等位基因的合适的供体细胞的有效性由于人类群体中的单倍型异质性而受到限制。因此，不能识别合适的供体细胞可能最终使患者无法接受必要的移植，或迫使执业医师不得不利用可能最终导致免疫排斥的错配的供体细胞。例如，人类白细胞抗原基因(HLA)是在早期骨髓造血干细胞/祖细胞移植(HSCT)临床治疗中首先识别的免疫原性基因。骨髓HSPC供体和受体受试者之间的HLA错配可引起免疫反应，其中从供体移植物产生的淋巴细胞产生针对宿主组织的免疫应答。引起这种医学症状或移植物抗宿主病(GVHD)的供体T细胞异基因反应性集中在皮肤、胃肠道(GI)和肝脏处。GVHD是与非复发相关的发病率和死亡率的主要原因，其影响约50％的异基因HSCT受试者(Bhatia S.Expert Rev Hematol.[血液学专家评述]2011；4(4):437-452；Garnett C等人，Ther Adv Hematol.[血液学治疗性进步]4(6):366-78(2013))。相反地，受体T细胞可以通过识别在异基因HSPC细胞表面表达或呈递的HLA蛋白或供体特异性抗原，将进入的供体异基因HSPC识别为外来的，最终导致移植排斥。

尽管在医学领域中抑制针对异基因移植的供体细胞的免疫应答取得了一些进展，仍然需要可以减少排斥和/或改善供体细胞的免疫相容性的其他方法和组合物，所述供体细胞包括已被遗传上改变以治疗特定疾病状态的原因(例如使用CRISPR/Cas9系统)的供体细胞。最值得注意的是，仍然存在改善合适的供体细胞的有效性的需要，其可以被成功移植到受体受试者中，而不论免疫原性基因单倍型差异。

概述

本文所述的方法和组合物增加了用于移植入受体受试者的供体细胞(例如，HSC和/或T细胞)的免疫相容性。本文所述的方法和组合物产生了细胞的一种或多种免疫原性基因(例如，HLA基因)的等位基因特异性修饰，从而产生了适于移植到受体受试者中的供体细胞。具体而言，通过使本文所述的细胞与靶向内源性免疫原性基因的Cas9分子和至少一个等位基因特异性gRNA分子(例如修饰的gRNA分子)接触，等位基因被改变以产生免疫相容性细胞(例如，免疫相容性血细胞)。使用本文所述的方法和组合物产生的细胞当移植到受体受试者中时不太可能诱导免疫应答，并且/或者不太可能被受体受试者的免疫系统排斥。无论供体的免疫原性基因单倍型如何，改善可被定制以移植到任何供体对象的供体细胞的免疫相容性的能力是特别有利的，因为其导致供体细胞池的显著增加，其可在细胞治疗领域中用于多种临床应用。

本文提供了生产免疫相容性血细胞的方法，其包括使血细胞与第一等位基因特异性修饰的gRNA分子和Cas9分子接触，其中第一等位基因特异性修饰的gRNA分子和Cas9分子与内源性免疫原性基因的第一等位基因缔合，从而修饰内源免疫原性基因的第一等位基因并产生免疫相容性血细胞。

本文还提供了修饰血细胞中的内源免疫原性基因的方法，其包括使用数据库模式选择第一等位基因特异性gRNA分子，并使血细胞与第一等位基因特异性gRNA分子和Cas9分子接触，其中所述等位基因特异性gRNA分子和所述Cas9分子与内源免疫原性基因的第一等位基因缔合，从而修饰所述内源免疫原性基因的第一等位基因。

还提供了降低血细胞中内源性免疫原性基因的第一等位基因的细胞表面表达的方法，其包括使血细胞与第一等位基因特异性gRNA分子和Cas9分子接触，其中等位基因特异性gRNA分子和Cas9分子与内源免疫原性基因的第一等位基因缔合，从而减少了内源免疫原性基因的第一等位基因的细胞表面表达。

还提供了将单倍型修饰的血细胞移植到受试者中的方法，其中所述方法包括从在内源免疫原性基因处具有第一单倍型的第一受试者中分离血细胞，使血细胞与第一等位基因特异性gRNA分子和Cas9分子接触，其中所述第一等位基因特异性gRNA分子与所述内源免疫原性基因的第一等位基因缔合，从而修饰所述内源免疫原性基因的第一等位基因，并将所述血细胞转移至在内源免疫原性基因处具有第二单倍型的第二受试者中。

基于供体和受体细胞之间增加的匹配和通过混合淋巴细胞或白细胞反应测定而确定的降低的免疫原性，单倍型修饰的血细胞受到第二受试者排斥的可能性可能降低。

单倍型修饰的血细胞可能不被第二受试者排斥。

还提供了制备包含具有等位基因特异性基因修饰的细胞群体的组合物的离体方法，其包括使细胞群体与等位基因特异性gRNA分子和Cas9分子接触，其中等位基因特异性gRNA分子和Cas9分子与编码可识别的基因产物的基因的单个等位基因缔合；并富集表达可识别的基因产物但不表达第一等位基因的细胞。

在本文所述的方法中富集表达基因但不表达第一等位基因的细胞的步骤可以包括使用流式细胞术对细胞进行分选。

富集表达基因但不表达第一等位基因的细胞的步骤可以包括使多个细胞中的每一个与特异性结合由基因的第一等位基因编码的可识别的基因产物的第一变体的第一抗体和结合可识别的基因产物的第二变体的第二抗体接触。

富集表达基因但不表达第一等位基因的细胞的步骤可以包括在多个细胞的每个细胞中检测与可识别的基因产物的功能变体缔合的物质或信号。

细胞群体可以是血细胞群体。血细胞可以是造血干细胞/祖细胞(HSC)。

细胞群体可以选自下组，该组由以下组成：循环血细胞群体、动员的血细胞(mobilized blood cell)群体、骨髓细胞群体、髓样祖细胞群体、淋巴样祖细胞群体、淋巴样细胞群体、多能祖细胞群体、谱系限制性祖细胞群体、内皮细胞群体、或间充质基质细胞群体、或其组合。

血细胞可以是干细胞。干细胞可以是造血干细胞/祖细胞(HSC)。细胞还可以选自下组，该组由以下组成：循环血细胞、动员的血细胞、骨髓细胞、髓样祖细胞、淋巴样祖细胞、淋巴样细胞、多能祖细胞、谱系限制性祖细胞、内皮细胞、T淋巴样细胞、或间充质基质细胞。

gRNA分子可以是修饰的gRNA分子。

gRNA分子可以包含与人类白细胞抗原(HLA)基因中的靶结构域(target domain)互补的靶向结构域(targeting domain)。HLA基因可以选自下组，该组由以下组成：HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、HLA-DQ和HLA-DP。

该方法可以进一步包括使细胞或细胞群体与第二gRNA分子接触，其中所述第二gRNA分子靶向表16中所述的基因。

第二gRNA分子可以是修饰的gRNA分子。

该方法可以进一步地包括使细胞与第二Cas9分子接触。

该Cas9分子可以是具有酶活性的Cas9(eaCas9)分子。该eaCas9分子可以在内源免疫原性基因中产生单链断裂。该eaCas9分子可以在内源免疫原性基因中产生双链断裂。

该Cas9分子可以选自下组，该组由以下组成：野生型Cas9、Cas9切口酶、失活Cas9(dCas9)、裂解Cas9和诱导型Cas9。

该Cas9分子可以包含N端RuvC样结构域切割活性，但不具有HNH样结构域切割活性。该Cas9分子可以在对应于酿脓链球菌(Streptococcus pyogenes)Cas9的氨基酸位置N863的氨基酸位置处包含氨基酸突变。

该Cas9分子可以包含HNH样结构域切割活性，但不具有N端RuvC样结构域切割活性。该Cas9分子可以在对应于酿脓链球菌Cas9的氨基酸位置D10的氨基酸位置处包含氨基酸突变。

该Cas9分子可以是Cas9多肽。该Cas9多肽可以是金黄色葡萄球菌Cas9多肽。该Cas9多肽可以是酿脓链球菌Cas9多肽。该gRNA分子和Cas9多肽可以在预先形成的核糖核苷酸复合物中缔合。

该Cas9分子可以是编码Cas9多肽的核酸。

该修饰的gRNA分子可以包含5'-端帽结构。该5'-端帽结构是3'-O-Me-m7G(5')ppp(5')G抗反向帽类似物(ARCA)。该修饰的gRNA分子可以包含3'端聚-A尾。

本文所述的方法可以进一步地包括使细胞或细胞群体与模板核酸接触。该模板核酸可以是单链寡脱氧核苷酸(ssODN)。该ssODN可以包含5'硫代磷酸酯修饰。该ssODN包含3'硫代磷酸酯修饰。该ssODN可以包含5'硫代磷酸酯修饰和3'硫代磷酸酯修饰。

可以使用腺相关病毒(AAV)或整合缺陷型慢病毒(ILDV)将模板核酸递送至细胞或细胞群体。

本文所述的方法可以进一步包括使细胞或细胞群体与转基因接触，其中所述接触在允许转基因整合到细胞基因组或细胞群体的细胞中的条件下发生。转基因可以整合到细胞的基因组中的安全的携带位点中。

转基因可以是编码免疫相同的人类白细胞抗原(HLA)、化疗选择标记、细胞表面抗原或自杀基因的基因。该转基因可以是HLA基因或其片段。HLA基因可以选自下组，该组由以下组成：HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、HLA-DQ和HLA-DP。

本文所述的方法可以进一步包括使细胞或细胞群体与eiCas9分子接触。eiCas9可以与转录阻遏物或转录激活物融合。

细胞可以包含细胞群体。

本文所述的方法可以进一步包括通过使用等位基因特异性抗体对细胞群体进行分选来选择表达基因的特定等位基因的细胞。细胞群体可以通过荧光激活细胞分选法(FACS)或免疫磁微珠介导的细胞分选法进行分选。

该基因可以是免疫原性基因。

本文所述的方法可以进一步包括从在内源免疫原性基因处具有第一单倍型的第一受试者分离血细胞。

本文所述的方法可以进一步包括在接触步骤之后将血细胞转移至在内源免疫原性基因处具有第二单倍型的第二受试者。

本文所述的方法可以进一步包括在接触步骤之后离体扩增细胞或细胞群体。

本文描述的方法可以进一步包括T细胞反向添加。

可识别的基因产物可以是细胞表面标记。可识别的基因产物可以是人类白细胞抗原(HLA)。可识别的基因产物可以是主要组织相容性抗原复合物蛋白或次要组织相容性抗原(MiHA)(例如趋化因子受体)。

该基因的第一等位基因可以编码可识别的基因产物的非功能性变体。

本文所述的方法可以进一步包括使用Cas9分子和gRNA分子改变(例如，通过敲低或敲除来使其失活)另外的基因座。另外的基因座可以是趋化因子受体的基因座，例如CCR1、CCR2、CCR4、CCR5、CCR6、CCR10、CXCR1、CXCR2、CXCR3、或CXCR6。

在一个实施例中，该方法进一步包括获取细胞的序列以确认修饰。

细胞或细胞群体可以是初生血细胞或初生血细胞群体。细胞或细胞群体可以是从诱导多能干(iPS)细胞、胚胎干(ES)细胞、内皮细胞、淋巴样祖细胞、髓样祖细胞、T淋巴样细胞或任何这些细胞的群产生的CD34⁺骨髓细胞、CD34⁺外周血细胞、或CD34⁺细胞。细胞群体可以是异质细胞群体或同质细胞群体。

本文所述的方法可用于使用一个或多个等位基因特异性gRNA分子和Cas9分子来改变第一、第二、第三、第四、第五、第六、第七、第八、第九、第十或更多等位基因。使用本文所述的方法改变的等位基因可以导致改变的等位基因的失活(例如，通过插入indel)。

还提供了由本文所述的任何方法制成的组合物。该组合物可以用作药剂。该组合物可以在移植中使用。

还提供了通过本文描述的方法改变的细胞或细胞群体。

还提供了包含本文所述的细胞或细胞群体的药物组合物。

该细胞可以包含选自表1的HLA-A等位基因、选自表2的HLA-B等位基因、选自表3的HLA-C等位基因、选自表4的HLA-DRB1等位基因、或选自表5的HLA-DQB1等位基因。

第二受试者可以包含选自表6-15的单倍型。第二受试者可以具有遗传性血液病症，例如贫血、免疫缺陷或血红蛋白病血质不调、酶储存缺陷或其他疾病(例如遗传性或获得性血液病)。第二受试者可能患有获得性病症或以有害细胞增殖为特征的病症。第二受试者可能患有白血病、淋巴瘤、骨髓瘤、骨髓增生异常综合征或骨髓组织增生性疾病。第二受试者可能感染艾滋病毒或患有获得性免疫缺陷综合症(艾滋病)。

第一和第二受试者可以是不同性别的，例如，第一受试者是男性并且第二受试者是女性，或第一受试者是女性并且第二受试者是男性。

第一受试者可能与第二受试者有不同的族裔背景或民族。第一受试者和第二受试者可能具有相同的族裔背景或民族。族裔背景或民族可以是亚洲人(例如亚裔美国人，例如亚裔太平洋岛民)、非洲人(例如非裔，例如非裔美国人)、高加索人(例如欧洲裔美国人)，西班牙裔(例如拉丁裔，例如西班牙裔美国人)、犹太人或印度次大陆(次大陆的)人。第一受试者可能与第二受试者有不同的族裔血统。第一受试者和第二受试者可能具有相同的族裔血统。

还提供了治疗或预防受试者的疾病的方法，其包括向受试者施用修饰的细胞或通过本文提供的任何方法改变的细胞。该疾病可能是表16中列出的疾病。

治疗或预防疾病的方法可包括将修饰的细胞或通过本文提供的任何方法改变的细胞第二次施用于受试者。修饰的细胞的第二次施用可以在初始施用的3、6、9、12、18或24个月内。

受试者可能具有与调理或免疫抑制相矛盾的状况。受试者可能有多种副发病变、严重的并存疾病、GVHD或移植排斥的高风险，或正在进行的慢性或急性感染。受试者可能超过50、55、60、65、70或75岁。受试者可能小于5、4、3、2或1岁。

所述方法可以进一步包括在施用修饰的细胞(例如修饰的HSPC、HPC、CB-HSPC、CD34⁺细胞、淋巴样祖细胞、髓样祖细胞或T淋巴样细胞)之前调理(例如，以消除内源HSPC或创造造血空间)该受试者。

该调理可能比在异基因细胞移植期间使用的调理方案的毒性更小，所述异基因细胞在修饰的细胞中已经被修饰的一个或多个等位基因上未匹配。

该方法可以包括对受试者施用免疫抑制治疗(例如，在施用修饰的细胞之前或之后)。免疫抑制剂的毒性可能低于用于异基因细胞移植的免疫抑制治疗，所述异基因细胞在修饰细胞中已被修饰的一个或多个基因座处未匹配。

受试者在治疗前可能已经怀孕。受试者在治疗之前可能已经输血。

修饰的细胞可以在待治疗的病症发作后施用。修饰的细胞可以在待治疗的病症发作之前施用。

还提供了包含内源免疫原性基因的第一等位基因中的修饰的血细胞，其中该血细胞已经与第一等位基因特异性修饰的gRNA分子和Cas9分子接触。可以使用一个或多个等位基因特异性gRNA分子和Cas9分子在第一、第二、第三、第四、第五、第六、第七、第八、第九、第十或更多等位基因处修饰血细胞。

还提供了包含内源免疫原性基因的第一等位基因中的修饰的血细胞群体，其中血细胞群体已经与第一等位基因特异性修饰的gRNA分子和Cas9分子接触。使用一个或多个等位基因特异性gRNA分子和Cas9分子，可以在第一、第二、第三、第四、第五、第六、第七、第八、第九、第十或更多等位基因处修饰血细胞群体。

免疫原性基因可以是人类白细胞抗原(HLA)基因。

本文描述的方法可以进一步包括使用数据库模式选择第一等位基因特异性gRNA分子。

使用数据库模式选择第一等位基因特异性gRNA分子的步骤可以包括经由计算系统的界面接收第一受试者的内源免疫原性基因的第一多个等位基因的列表；通过计算系统的界面接收第二受试者的内源免疫原性基因的第二多个等位基因的列表；处理第一和第二多个等位基因的列表以识别第一多个等位基因和第二多个等位基因之间的一个或多个错配的等位基因；查询数据库以确定一个或多个gRNA分子是否适合于编辑第二多个等位基因的一个或多个错配的等位基因；响应于确定来自所述数据库的一个或多个gRNA分子适合于编辑所述一个或多个错配的等位基因，产生识别被认定为合适的所述一个或多个gRNA分子的gRNA分子列表；对gRNA分子列表进行排序；并显示经排序的gRNA分子列表。

还提供了存储由用于实施数据库模式的处理设备执行的指令的非暂时性计算机可读存储介质，所述数据库模式包括：等位基因表，其存储与主要HLA等位基因有关的数据；gRNA表，其存储与gRNA有关的数据；等位基因-gRNA-关系表，其存储等位基因表的记录和gRNA表的记录之间的关系，等位基因表与等位基因-gRNA-关系表具有一对多关系，并且gRNA表与等位基因-gRNA-关系表具有一对多关系；单倍型表，其存储与单倍型相关的数据，所述等位基因表与所述单倍型表具有一对多关系；单倍型频率表，其存储与多种血统内发生的单倍型频率有关的数据，所述单倍型表与所述单倍型频率表具有一对一关系；血统表，其存储与血统有关的数据；血统-单倍型-关系表，其存储单倍型频率表的记录和血统表的记录之间的关系，所述单倍型-频率表与血统-单倍型-关系表具有一对多关系，所述血统表与血统-单倍型-关系表具有一对多关系；等位基因频率表，其存储与在多种血统内发生的等位基因的频率有关的数据，所述等位基因表与所述等位基因频率表具有一对一关系；以及等位基因-血统-关系表，其存储等位基因频率表的记录和血统表的记录之间的关系，所述等位基因频率表与等位基因-血统-关系表具有一对多关系，并且血统表与等位基因-血统-关系表具有一对多关系。

数据库模式可以进一步包括次要抗原表，其存储与次要组织相容性抗原有关的数据；以及主要次要限制表，其存储与对次要组织相容性抗原的HLA限制有关的数据，所述次要抗原表与所述主要次要限制表具有一对多关系，并且所述等位基因表与主要次要限制表具有一对多关系。

等位基因表可以包含等位基因id密钥、等位基因属性、基因名称属性和等位基因序列属性。

gRNA表可以包含gRNA id密钥、Cas变体属性、gRNA序列(具有PAM)属性、gRNA序列(无PAM)属性、链属性、正交性分数属性以及脱靶列表信息属性。

等位基因-指导-关系表可以包含关系id密钥、与等位基因表的等位基因id密钥对应的等位基因id属性、与gRNA表的gRNA id密钥对应的gRNA id属性。

单倍型表可以包含单倍型id密钥、HLA-A等位基因属性、HLA-B等位基因属性、HLA-C等位基因属性、HLA-DRB1基因座属性、HLA-DRB3/DRB4/DRB5基因座属性、HLA-DQB1等位基因基因座属性。

单倍型频率表可以包含单倍型频率id密钥、与单倍型表的单倍型id密钥对应的单倍型id属性、在欧洲人血统组中单倍型出现频率的属性、在欧洲人血统组中单倍型出现排序的属性、在非裔美国人血统组中单倍型出现频率的属性、在非裔美国人血统组中单倍型出现排序的属性、在亚洲人血统组中单倍型出现频率的属性、在亚洲人血统组中单倍型出现排序的属性、在西班牙裔血统组中单倍型出现频率的属性、在西班牙裔血统组中单倍型出现排序的属性、在犹太人血统组中单倍型出现频率的属性、以及在犹太人血统组中单倍型出现排序的属性。

等位基因频率表可以包含等位基因频率id密钥、对应于等位基因表的等位基因id密钥的等位基因id属性、在欧洲人血统组中等位基因出现频率的属性、在欧洲人血统组中等位基因出现排序的属性、在非裔美国人血统组中等位基因出现频率的属性、在非裔美国人血统组中等位基因出现排序的属性、在亚洲人血统组中等位基因出现频率的属性、在亚洲人血统组中等位基因出现排序的属性、在西班牙裔血统组中等位基因出现频率的属性、在西班牙裔血统组中等位基因出现排序的属性、在犹太人血统组中等位基因出现频率的属性、以及在犹太人血统组中等位基因出现排序的属性。

等位基因频率表可以与等位基因表具有标识关系，并且完全依赖于等位基因表。

单倍型频率表可以与单倍型表具有标识关系，并且完全依赖于单倍型表。

可以设计gRNA用于编辑免疫原性等位基因。可以设计gRNA用于编辑HLA等位基因。

单倍型可以是不同HLA基因的等位基因的组。

还提供了在用于识别用于编辑一个或多个等位基因的gRNA的计算系统中执行的方法，所述方法包括：经由计算系统的界面接收靶向移植受体的第一多个等位基因的列表；通过计算系统的界面接收靶向移植供体的第二多个等位基因的列表；处理第一和第二多个等位基因的列表以识别第一多个等位基因和第二多个等位基因之间的一个或多个错配的等位基因；查询数据库以确定一个或多个gRNA是否适合于编辑第二多个等位基因的一个或多个错配的等位基因；响应于确定来自所述数据库的一个或多个gRNA适合于编辑所述一个或多个错配的等位基因，产生识别被认定为合适的所述一个或多个gRNA的gRNA列表；对gRNA列表进行排序；并显示经排序的gRNA列表。

来自gRNA列表的gRNA可以能够编辑来自靶向移植供体的第二多个等位基因的错配等位基因，以增加第一多个等位基因和第二多个等位基因之间的匹配等位基因的数量。

来自gRNA列表的gRNA可以能够编辑一个或多个错配的等位基因，以降低在靶向移植受体中发生移植物抗宿主病(GVHD)的可能性。

本文描述的方法可以进一步包括显示第一多个等位基因中的每一个的DNA序列。

数据库可以存储指示种族群体中出现等位基因的可能性的数字。数据库可以存储表示等位基因在族裔群体中发生的可能性的数字。

本文描述的方法可以进一步包括显示在血统内的第一多个等位基因中的每一个的出现频率。

本文描述的方法可以进一步包括显示第一多个等位基因中的每一个与次要组织相容性抗原之间的限制性关系。

第一多个等位基因是靶向移植受体的母系遗传的主要HLA单倍型，并且第二多个等位基因是靶向移植供体的母系遗传的主要HLA单倍型。

第一多个等位基因的列表可包含一个等位基因、两个等位基因、三个等位基因、四个等位基因、五个等位基因、六个等位基因、七个等位基因、八个等位基因、九个等位基因或十个等位基因。可以使用一个或多个等位基因特异性gRNA分子和Cas9分子在第一、第二、第三、第四、第五、第六、第七、第八、第九、第十或更多个基因座处修饰血细胞。

第二多个等位基因的列表可以包含一个等位基因、两个等位基因、三个等位基因、四个等位基因、五个等位基因、六个等位基因、七个等位基因或八个等位基因。

gRNA列表可以识别一个用于编辑一个错配的等位基因的gRNA。gRNA列表可以识别多于一个用于编辑多于一个错配的等位基因的gRNA。

gRNA列表可以识别一个用于编辑多于一个错配的等位基因的gRNA。

数据库可以使用在本文描述的数据库模式来实现。

还提供了用于实施数据库模式的系统，该系统包括处理器；以及存储数据库模式的存储器，其中所述数据库模式包括等位基因表，其存储与HLA等位基因有关的数据；gRNA表，其存储与gRNA有关的数据；等位基因gRNA关系表，其存储等位基因表的记录和gRNA表的记录之间的关系，所述等位基因表与所述等位基因gRNA关系表具有一对多关系，并且所述gRNA表与所述等位基因gRNA关系表具有一对多关系；单倍型表，其存储与单倍型相关的数据，所述等位基因表与所述单倍型表具有一对多关系；血统表，其存储与血统信息有关的数据；血统单倍型关系表，其存储单倍型表的记录与血统表的记录之间的关系，单倍型表与血统单倍型关系表具有一对多关系，血统表与血统单倍型关系表具有一对多关系；等位基因频率表，其存储与在多种血统内等位基因出现频率有关的数据，所述等位基因表与所述等位基因频率表具有一对多关系；以及等位基因血统关系表，其存储等位基因频率表的记录与血统表的记录之间的关系，等位基因频率表与等位基因血统关系表具有一对多关系，并且血统表与等位基因血统关系表具有一对多关系。

还提供了用于识别用于编辑一个或多个等位基因的gRNA的系统，所述系统包括处理器；以及存储指令的存储器，所述指令在被执行时使所述处理器接收靶向移植受体的第一多个等位基因的列表；接收靶向移植供体的第二多个等位基因的列表；处理第一和第二多个等位基因的列表以识别第一多个等位基因和第二多个等位基因之间的一个或多个错配的等位基因；查询数据库以确定一个或多个gRNA是否适合于编辑第二多个等位基因的一个或多个错配的等位基因；响应于确定来自所述数据库的一个或多个gRNA适于编辑所述一个或多个错配的等位基因，生成识别被认定为合适的所述一个或多个gRNA的gRNA列表；对gRNA列表进行排序；并显示经排序的gRNA列表。

此外，提供了一种存储由处理设备执行的指令的非暂时性计算机可读介质，所述指令的执行使所述处理设备根据模式创建数据库，所述模式定义：等位基因表，其存储与HLA等位基因有关的数据；gRNA表，其存储与gRNA有关的数据；等位基因gRNA关系表，其存储等位基因表的记录和gRNA表的记录之间的关系，所述等位基因表与所述等位基因gRNA关系表具有一对多关系，并且所述gRNA表与所述等位基因gRNA关系表具有一对多关系；单倍型表，其存储与单倍型相关的数据，所述等位基因表与所述单倍型表具有一对多关系；血统表，其存储与血统信息有关的数据；血统单倍型关系表，其存储单倍型表的记录与血统表的记录之间的关系，单倍型表与血统单倍型关系表具有一对多关系，血统表与血统单倍型关系表具有一对多关系；等位基因频率表，其存储与在多种血统内等位基因出现频率有关的数据，所述等位基因表与所述等位基因频率表具有一对多关系；以及等位基因血统关系表，其存储等位基因频率表的记录与血统表的记录之间的关系，等位基因频率表与等位基因血统关系表具有一对多关系，并且血统表与等位基因血统关系表具有一对多关系。

附图说明

图1A-1I是若干示例性gRNA的表示。

图1A描绘了部分来源于(或部分地在序列上建模)酿脓链球菌呈双链体结构的模块化gRNA分子(按照出现次序分别是SEQ ID NO:39和40)；

图1B描绘了部分来源于酿脓链球菌呈双链体结构的单分子gRNA分子(SEQ ID NO:41)；

图1C描绘了部分来源于酿脓链球菌呈双链体结构的单分子gRNA分子(SEQ ID NO:42)；

图1D描绘了部分来源于酿脓链球菌呈双链体结构的单分子gRNA分子(SEQ ID NO:43)；

图1E描绘了部分来源于酿脓链球菌呈双链体结构的单分子gRNA分子(SEQ ID NO:44)；

图1F描绘了部分来源于嗜热链球菌呈双链体结构的模块化gRNA分子(按照出现次序分别是SEQ ID NO:45和46)；

图1G描绘了酿脓链球菌和嗜热链球菌的模块化gRNA分子(按照出现次序分别是SEQ ID NO:39、45、47和46)的比对。

图1H-1I描绘了单分子gRNA分子的另外示例性结构。

图1H示出了部分来源于酿脓链球菌呈双链体结构的单分子gRNA分子(SEQ ID NO:42)的示例性结构。

图1I示出了部分来源于金黄色葡萄球菌呈双链体结构的单分子gRNA分子(SEQ IDNO:38)的示例性结构。

图2A-2G描绘了Cas9序列的比对(Chylinski 2013)。N-末端RuvC样结构域加框并且以“Y”指示。其他两个RuvC样结构域加框并且以“B”指示。HNH样结构域加框并且以“G”指示。Sm：变异链球菌(SEQ ID NO:1)；Sp：酿脓链球菌(SEQ ID NO:2)；St：嗜热链球菌(SEQ IDNO:4)；和Li：无害利斯特菌(SEQ ID NO:5)。“基序”(SEQ ID NO:14)是基于四个序列的共有序列。所有四个序列中的保守残基由单字母氨基酸缩写表示；“*”指示在这四个序列的任一者的相应位置中发现的任何氨基酸；并且“-”指示不存在。

图3A-3B示出了来自披露于Chylinski 2013中的Cas9分子(SEQ ID NO:52-95、120-123)的N-末端RuvC样结构域的比对。图3B的最后一行识别了4个高度保守的残基。

图4A-4B示出了来自披露于Chylinski 2013中的除去序列异常值的Cas9分子(SEQID NO:52-123)的N-末端RuvC样结构域的比对。图4B的最后一行识别了3个高度保守的残基。

图5A-5C示出了来自披露于Chylinski 2013中的Cas9分子(SEQ ID NO:124-198)的HNH样结构域的比对。图5C的最后一行识别了保守残基。

图6A-6B示出了来自披露于Chylinski 2013中的除去序列异常值的Cas9分子(SEQID NO:124-141、148、149、151-153、162、163、166-174、177-187、194-198)的HNH样结构域的比对。图6B的最后一行识别了3个高度保守的残基。

图7示出了使用示例性gRNA序列(SEQ ID NO:42)的gRNA结构域命名法。

图8描绘了在递送金黄色葡萄球菌gRNA和金黄色葡萄球菌Cas9之后在CCR5基因座处检测到indel。

图9描绘了用指定的未被加帽/未加尾(untailed)的gRNA或具有成对Cas9 mRNA(酿脓链球菌(Sp)或金黄色葡萄球菌Sa Cas9)的加帽/加尾的gRNA进行电穿孔后CD34⁺细胞数量增加的动力学。

图10描绘了用指定的未加帽/未加尾的gRNA或具有成对的Cas9 mRNA(酿脓链球菌(Sp)或金黄色葡萄球菌Sa Cas9)的加帽/加尾的gRNA进行电穿孔72小时后总活CD34⁺细胞的倍数变化。

图11描绘了代表性流式细胞术数据，其显示用加帽和加尾的AAVS1gRNA和Cas9mRNA进行电穿孔后维持活的(碘化丙啶阴性)人CD34+细胞。

图12描绘了与未加帽的和未加尾的AAVS1 gRNA相比，在递送具有加帽和加尾的AAVS1 gRNA的Cas9 mRNA后，在靶向AAVS1基因座处的CD34⁺细胞及其造血集落形成细胞(CFC)子代中检测到的插入/缺失(indel)的百分比。

图13描绘了用加帽/加尾的AAVS1 gRNA进行编辑后在CD34+细胞中造血集落形成潜能(CFC)的维持。注意用未加帽/未加尾的AAVS1 gRNA进行电穿孔细胞的CFC潜能损失。

图14A描绘了在用酿脓链球菌Cas9 mRNA或核糖核蛋白(RNP)递送加帽和加尾的HBB gRNA之后，K562红白血病细胞系中的有效靶向基因座编辑(％indel)，人类红白血病细胞系具有与HSPC相似的特性。

图14B描绘了在人脐血CD34⁺细胞中在指定的靶遗传基因座(AAVS1、HBB、CXCR4)处的Cas9介导的/加帽的和加尾的gRNA介导的编辑(％indel)。右：用Cas9 mRNA和加帽的和加尾的HBB-8(SEQ ID NO:217)(未电穿孔的对照或用2μg或10μg HBB gRNA电穿孔的细胞)进行电穿孔后脐血CD34+细胞的CFC潜能。细胞用Cas9 mRNA和2μg或10μg gRNA电穿孔。

图14C描绘了用2μg或10μg加帽的/加尾的HBB gRNA电穿孔的细胞的CFC测定。CFC：集落形成细胞，GEMM：混合的造血集落粒细胞-红细胞-巨噬细胞-单核细胞，E：红细胞集落，GM：粒细胞-巨噬细胞集落，G：粒细胞集落。

图15A描绘了显示在递送加帽的和加尾的AAVS1、HBB或CXCR4gRNA和酿脓链球菌Cas9 mRNA之后72小时的脐血CD34⁺细胞中的指定基因座处的切割(T7E1分析)的代表性凝胶图像。示例凝胶对应于图14B中所示的汇总数据。

图15B描绘了通过与7-AAD和膜联蛋白V共染色和流式细胞术分析测定的，在递送Cas9 mRNA和指示的gRNA 48小时后，CB CD34⁺细胞中的细胞活力。

图16A-16B描绘了靶向Cas9和单个gRNA以破坏供体细胞中的单个HLA-A等位基因并用受体等位基因替换HLA-A等位基因。

图16A显示A、B和DRB1基因座处的供体和受体HLA等位基因。在这个实例中，需要进行造血干细胞移植的非裔美国人受体受试者没有完全匹配的供体。已经识别了一个欧裔美国人供体，其中6个等位基因中有5个是匹配的。将HLA-A等位基因A*02:01:01:01特异性的Cas9和gRNA递送给供体HSPC以消除错配的等位基因的表达。接下来，将受体HLA-A等位基因A*01:01:01:01的cDNA引入供体HSPC中以实现与受体的6个中的6个(完全匹配)。错配的等位基因用阴影框表示。靶向在供体通过Cas9/gRNA破坏的等位基因用黑色框表示，并且受体cDNA替换用灰色框中的等位基因表示。

图16B显示HLA-A*01:01:01的cDNA序列(SEQ ID NO:362)，其在转基因表达盒中编码并递送至HLA-A*02:01:01:01破坏的细胞以用相同的受体HLA-A等位基因取代错配的供体HLA-A等位基因。

图17A-17B描绘了靶向Cas9/gRNA用于供体细胞中HLA-A基因座的双等位基因破坏以及用受体等位基因替换HLA-A。

图17A显示A、B和DRB1基因座处的供体和受体HLA等位基因。在这个实例中，需要进行造血干细胞移植的西班牙裔受体受试者没有完全匹配的供体。已经识别了欧裔美国人HSPC供体，其中在潜在供体和受体之间匹配6个等位基因中的4个。将同时靶向A*02:01:01:01和A*29:02:01:01等位基因的Cas9和单个gRNA递送给供体HSPC以消除这些错配的HLA-A等位基因的二者的表达。接下来，将受体HLA-A等位基因A*01:01:01:01和A*23:01:01的cDNA递送至供体HSPC以实现供体与受体之间的6个中的6个(完全匹配)。错配的等位基因用阴影框表示。靶向在供体中被Cas9/gRNA破坏的等位基因用黑框表示，并且替换破坏的等位基因的受体cDNA用灰色框表示。

图17B显示了HLA-A*23:01:01:01的cDNA序列(SEQ ID NO:363)，其在转基因表达盒中编码并递送至HLA-A^-/-破坏的细胞以用相同的受体HLA-A等位基因取代错配的供体HLA-A等位基因。HLA-A*01:01:01序列(在前面的实例中显示，组B)也被递送至HLA-A^-/-供体细胞。

图18A-18B描绘了靶向Cas9/gRNA用于供体细胞中的单倍型(HLA-A、-B、-DRB1)的多重编辑和靶向破坏并用受体等位基因取代。

图18A显示A、B和DRB1基因座处的供体和受体HLA等位基因。在这个实例中，需要进行造血干细胞移植的西班牙裔受体受试者没有完全匹配的供体。已确定出一个单倍体相同的欧裔美国人HSPC供体。靶向在三个MHC基因座(A*02:01:01:01、B*08:01:01和DRB1*03:01:01:01 01)处等位基因的Cas9和三种gRNA被递送给供体HSPC以消除表达不匹配的单倍型。接下来，将受体单倍型A*03:01:01:01、B*07:02:01、DRB1*15:01:01:01的cDNA递送给供体HSPC，以实现供体和受体之间的6个中的6个(完全匹配)。错配的等位基因用阴影框表示。靶向在供体中被Cas9/gRNA破坏的等位基因用黑框表示，并且替换破坏的等位基因的受体cDNA用灰色框表示。

图18B显示了用相同的受体单倍型取代错配的供体单倍型的cDNA序列(A*03:01:01:01 1098bp(SEQ ID NO:364)；B*07:02:01 1089bp(SEQ ID NO:365)；DRB1*15:01:01:01801bp(SEQ ID NO:366))。

图19A显示了在与不同的HLA-A 26:01等位基因特异性修饰的gRNA分子(其包含5'-ARCA加帽和3'聚A[20A]尾)复合的酿脓链球菌Cas9蛋白质的电穿孔后，在来自已被HLA分型的人脐血HSC供体的原代CD4⁺T淋巴细胞中的总基因编辑频率(通过T7E1内切核酸酶分析检测)。HLA-A基因座的靶向等位基因在图表顶部用粗体表示。

图19B显示了在与不同的HLA-A 26:01等位基因特异性修饰的gRNA分子(其包含5'-ARCA加帽和3'聚A[20A]尾)复合的酿脓链球菌Cas9蛋白质的电穿孔后，来自已被HLA分型的人脐血HSC供体的原代CD8⁺T淋巴细胞中的总基因编辑频率(通过T7E1内切核酸酶分析检测)。

图20A显示了在与不同的HLA-B 07:02:01等位基因特异性修饰的gRNA分子(其包含5'-ARCA加帽和3'聚A[20A]尾)复合的酿脓链球菌Cas9蛋白质的电穿孔后，原代CD4⁺T淋巴细胞中的总基因编辑频率(通过T7E1内切核酸酶分析检测)。HLA-B基因座的靶向等位基因在图表顶部用粗体表示。

图20B显示了在与不同的HLA-B 07:02等位基因特异性修饰的gRNA分子(其包含5'-ARCA加帽和3'聚A[20A]尾)复合的酿脓链球菌Cas9蛋白质的电穿孔后，在通过流式细胞术分析测定的原代CD4⁺T淋巴细胞中HLA-B蛋白质表达的总敲低。HLA-B基因座的靶向等位基因在图表顶部用粗体表示。通过以下公式计算HLA-B表达的百分比敲低：(阴性对照中的％HLA-B⁺-实验样品中的％HLA-B)/阴性对照中的％HLA-B+。例如，对于HLA-B_5101：((98.9％ HLA-B⁺-32.8％ HLA-B⁺)/98.9％ HLA-B⁺)＝HLA-B的66.8％的敲低。

图20C显示了流式细胞术分析以检测在使用HLA-B 07:02等位基因-特异性抗体与不同的HLA-B 07:02等位基因特异性修饰的gRNA分子(其包含5'-ARCA加帽和3'聚A[20A]尾)复合的酿脓链球菌Cas9蛋白质的电穿孔后，原代CD4⁺T淋巴细胞中HLA-B的蛋白质表达。为了比较HLA-B的细胞表面表达，来自相同供体(阴性对照)的未处理对照(未编辑的)细胞(其接近100％的细胞预期表达HLA-B)和来自相同供体的细胞(未用荧光团缀合的HLA-B抗体染色)(因此将为0％ HLA-B⁺(无抗体))用于设定HLA-B+细胞的阈值(顶部两组)。在每个流式细胞术点图的顶部显示用具有指定的gRNA的Cas9 RNP处理的细胞。

图21显示了在与不同的HLA-DRB1 04:02等位基因特异性修饰的gRNA分子(其包含5'-ARCA加帽和3'聚A[20A]尾)复合的酿脓链球菌Cas9蛋白质的电穿孔后，原代CD4⁺T淋巴细胞中的总基因编辑频率(通过T7E1内切核酸酶分析检测)。HLA-A基因座的靶向等位基因在图表顶部用粗体表示。

图22A显示了在与不同的HLA-A 26:01等位基因特异性修饰的gRNA分子(其包含5'-ARCA加帽和3'聚A[20A]尾)复合的酿脓链球菌Cas9蛋白质的电穿孔后，原代CD4⁺T淋巴细胞中的总基因编辑频率(通过DNA测序分析检测)。HLA-A基因座的靶向等位基因(HLA-A2)在图表顶部用粗体表示。通过以下公式计算HLA-A2表达的百分比敲低：(阴性对照中的％HLA-A0201⁺-实验样品中的％HLA-A2)/阴性对照中的％HLA-A2⁺。例如，对于HLA-A201_1：((96.1％ HLA-A2⁺-6.85％ HLA-A2⁺)/96.1％ HLA-A2⁺)＝HLA-A2的92.9％的敲低。

图22B显示了在与不同的HLA-A2等位基因特异性修饰的gRNA分子(其包含5'-ARCA加帽和3'聚A[20A]尾)复合的酿脓链球菌Cas9蛋白质的电穿孔后，通过流式细胞术分析的原代CD4⁺T淋巴细胞中HLA-A2等位基因蛋白质表达。为了比较HLA-A0201的细胞表面表达，来自相同供体(阴性对照)的未处理对照(未编辑的)细胞(其接近100％的细胞预期表达HLA-A2)和来自相同供体的细胞(未用荧光团偶联的HLA-A2抗体染色)(并且因此将为0％HLA-A2⁺(无抗体))用于设定HLA-A2⁺细胞的阈值(顶部两组)。

图23显示了在与不同的HLA-A2等位基因特异性修饰的gRNA分子(其包含5'-ARCA加帽和3'聚A[20A]尾)复合的酿脓链球菌Cas9蛋白质的电穿孔后，原代CD4⁺T淋巴细胞中HLA-A2等位基因和总MHC类别I(非等位基因特异性，检测到HLA-A、-B、-C共同表位)蛋白表达的流式细胞术分析。对于MHC类别I和HLA-A2(其落入流式细胞术图的象限[Q]2或Q2(例如，用HLA-A_0201_1RNP处理的细胞的7.14％))是双重阳性的细胞维持了类别I和HLA-A2等位基因特异性基因表达。对于MHC类别I单阳性但HLA-A2阴性的细胞(其落入流式细胞术图的Q1(例如用HLA-A_0201_1RNP处理的细胞的91.4％)维持了MHC类别I抗原，除了HLA-A2等位基因以外(例如，在靶向该等位基因的基因编辑之后，失去了HLA-A2的蛋白质表达)。

图24是示出根据示例性实施例以模块实现的gRNA识别系统的框图。

图25是示出根据示例性实施例，用于识别用于编辑等位基因的gRNA的示例性方法的流程图。

图26是示出根据示例性实施例，用于排序gRNA的示例性方法的流程图。

图27A示出了根据示例性实施例，gRNA识别系统的高水平上的示例性数据库模式。

图27B示出了根据示例性实施例，gRNA识别系统的详细示例性数据库模式。

图27C示出了根据示例性实施例，gRNA识别系统的详细的示例性数据库模式。

图28A示出了根据示例性实施例，对gRNA识别系统的示例性等位基因输入。

图28B示出了根据示例性实施例，向gRNA识别系统的示例性等位基因输入。

图28C示出了根据示例性实施例，对gRNA识别系统的示例性等位基因输入。

图29示出了根据示例性实施例，示例性查询/输入和作为gRNA识别系统的输出的示例性gRNA列表。

图30示出了根据示例性实施例，作为gRNA识别系统的输出的示例性等位基因序列。

图31A示出了根据示例性实施例，作为gRNA识别系统的输出的美国人群中不同的血统群体的示例性单倍型和等位基因频率。

图31B示出了根据示例性实施例，作为gRNA识别系统的输出的美国人群中不同的血统群体的示例性单倍型和等位基因频率。

图32示出了鉴于主要组织相容性复合体(MHC)的示例性次要组织相容性抗原(miHAg)限制；

图33示出了根据示例性实施例，描绘用于实施gRNA识别系统的系统的网络图；并且

图34是可用于实施本文所述的gRNA识别系统的示例性实施例的示例性计算装置的框图。

具体实施方式

定义

如本文所使用的“靶敲除位置”是指基因或基因座(例如，本文所述的基因或基因座，例如人类白细胞抗原(HLA)基因或基因座)中的位置，其如果例如通过NHEJ介导的改变而发生改变，会导致基因或基因座失活(例如裂解)。

如本文所使用的“靶敲低位置”是指基因座(例如本文所述的基因或基因座，例如人类白细胞抗原(HLA)基因或基因座)中的位置，其如果靶向于例如eiCas9分子或本文所述的eiCas9融合会导致来自基因或基因座的功能性基因产物表达的减少或消除。

如本文所使用的“靶敲入位置”是指序列，其如果通过插入基因或基因座的序列(例如本文所述的基因或基因座，例如人类白细胞抗原(HLA)基因或基因座)来修饰会导致来自基因或基因座的功能性基因产物的表达。

如本文所使用的“靶位置”是指如本文所述的靶敲除位置、靶敲低位置、或靶敲入位置中的任一个。

如本文所用的“典型HDR”或典型同源定向修复是指使用同源核酸(例如，内源性同源序列(例如姐妹染色单体)或外源核酸(例如模板核酸))修复DNA损伤的过程。当在双链断裂处已有显著切除时，典型HDR通常起作用，形成DNA的至少一个单链部分。在正常细胞中，HDR通常涉及一系列步骤，诸如断裂的识别、断裂的稳定、切除、单链DNA的稳定、DNA交叉中间体的形成、交叉中间体的拆分以及连接。所述过程需要RAD51和BRCA2，并且同源核酸通常是双链的。

如本文所使用的“alt-HDR”或“替代性HDR”、或替代性同源定向修复是指使用同源核酸(例如，内源性同源序列(例如姐妹染色单体)或外源核酸(例如模板核酸))修复DNA损伤的过程。alt-HDR与典型HDR的不同之处在于，所述过程利用与典型HDR不同的途径，并且可以被典型HDR介体RAD51和BRCA2抑制。此外，alt-HDR使用单链或有切口的同源核酸来修复断裂。

除非另有说明，如本文所用的术语“HDR”涵盖典型HDR和alt-HDR。

如本文所用的“非同源末端连接”或“NHEJ”是指连接介导的修复和/或非模板介导的修复，包括典型NHEJ(cNHEJ)、替代性NHEJ(altNHEJ)、微同源性介导的末端连接(MMEJ)、单链退火(SSA)以及合成依赖性微同源性介导的末端连接(SD-MMEJ)。

如本文所使用的“等位基因”是指占据染色体上相同位置的基因或DNA的非编码区域的几种替代形式之一。

如本文所使用的，“等位基因特异性基因修饰”是指使用本文所述的核酸酶(例如，Cas9分子)编辑核酸的过程，其中特定的等位基因被靶向用于经由靶向特定等位基因(即，等位基因特异性的gRNA分子)的gRNA分子的修饰。在一些实施例中，gRNA分子优先靶向特定的等位基因。

如本文所使用的“等位基因特异性gRNA分子”是指优先将核酸酶(例如Cas9分子)靶向特定等位基因的gRNA分子。

如本文所使用的“细胞表面表达”是指多肽在细胞质膜中的可用性。在一些实施例中，细胞表面表达由基因表达调节。在一些实施例中，细胞表面表达由翻译后机制调节。

如本文所用的“结构域”是用于描述蛋白质或核酸的区段。除非另外指明，结构域不需要具有任何特定功能特性。

如本文所使用的，“供体细胞”是指施用于受试者的非自身细胞(例如，血细胞)。

如本文所使用的，“受体细胞”是指来自施用了供体细胞的受试者的细胞(例如，血细胞)。

如下进行两个序列之间的同源性或序列一致性(这些术语在本文可互换地使用)的计算。将这些序列进行比对用于最优比较的目的(例如，用于最优比对，可以在第一和第二氨基酸或核酸序列中的一个或两个中引入空位，并且出于比较的目的，可以不考虑非同源序列)。使用具有Blossum 62打分矩阵(其中空位罚分为12，空位延伸罚分为4，并且移码空位罚分为5)的GCG软件包中的GAP程序，将最优比对确定为最佳评分。然后比较相应的氨基酸位置或核苷酸位置处的氨基酸残基或核苷酸。当第一序列中的位置被与在第二序列中的相应位置相同的氨基酸残基或核苷酸占据时，则所述分子在那个位置是相同的。两个序列之间的百分比一致性是由所述序列共享的相同位置的数量的函数。

如在此所使用的，“统治型gRNA分子”是指包含与核酸上的靶结构域互补的靶向结构域的gRNA分子，所述核酸包含编码被引入细胞或受试者中的CRISPR/Cas系统的组分的序列。统治型gRNA不靶向内源细胞或受试者序列。在实施例中，统治型gRNA分子包含与以下项上的靶序列互补的靶向结构域：(a)编码Cas9分子的核酸；(b)编码包含靶向基因的靶向结构域(靶基因gRNA)的gRNA的核酸；或编码CRISPR/Cas组分的多于一种核酸，例如(a)和(b)两者。在实施例中，编码CRISPR/Cas组分(例如，编码Cas9分子或靶基因gRNA)的核酸分子包含多于一个与统治型gRNA靶向结构域互补的靶向结构域。据信，统治型gRNA分子与Cas9分子复合，并且例如通过切割或通过与所述核酸结合而导致Cas9介导的所靶向核酸失活，并且导致CRISPR/Cas系统组分的产生停止或减少。在一个实施例中，Cas9分子形成两种复合物：包含具有靶基因gRNA的Cas9分子的复合物，所述复合物将改变所述基因；以及包含具有统治型gRNA分子的Cas9分子的复合物，所述复合物将会起到阻止进一步产生CRISPR/Cas系统组分，例如Cas9分子或靶基因gRNA分子的作用。在实施例中，统治型gRNA分子/Cas9分子复合物与控制区序列(例如，启动子)结合或促进其切割，所述控制区序列可操作地连接至编码Cas9分子的序列，即编码所述Cas9分子的转录区、外显子、或内含子的序列。在实施例中，统治型gRNA分子/Cas9分子复合物与控制区序列(例如，启动子)结合或促进其切割，所述控制区序列可操作地连接至gRNA分子、或编码所述gRNA分子的序列。在实施例中，所述统治型gRNA(例如，靶向Cas9的统治型gRNA分子、或靶向靶基因gRNA的统治型gRNA分子)限制所述Cas9分子/靶基因gRNA分子复合物介导的基因靶向的作用。在实施例中，统治型gRNA对所述Cas9分子/靶基因gRNA分子复合物的活性施加时间限制、表达水平限制、或其他限制。在实施例中，统治型gRNA减少脱靶或其他不想要的活性。在实施例中，统治型gRNA分子抑制(例如，完全或基本上抑制)Cas9系统的组分的产生并且由此限制、或控制其活性。

如本文所使用的，“单倍型”是指在染色体上不同位置或基因座处发现的单倍体基因型、等位基因或DNA序列组或组合，其通常作为一个单位进行遗传并连接。单倍型可以提供个体独特的遗传模式。可以为一个基因座、几个基因座或整个染色体确定单倍型。

如本文所使用的，“单倍型修饰的血细胞”是指已经在一种或多种免疫原性基因处进行遗传修饰以改变细胞单倍型的血细胞。

如本文所使用的，术语“可识别的基因产物”是指可以使用本领域已知的方法(例如FACS，酶联免疫吸附测定(ELISA)等)检测的多肽或肽。在一些实施例中，多肽或肽包含一个或多个翻译后修饰。在一些实施例中，在完整细胞上或在完整细胞中(例如，在细胞表面上或在细胞内)检测可识别的基因产物。

如本文所使用的，“免疫原性”是指当引入受试者(例如，人类受试者)中时允许物质诱导可检测的免疫应答(体液或细胞)的特性。

如本文所使用的，术语“免疫原性基因”是指编码主要组织相容性抗原复合物蛋白或次要组织相容性抗原(MiHA)的基因。在一些实施例中，免疫原性基因是编码选自下组的蛋白质的基因，该组由以下组成：HLA-A、HLA-B、HLA-C、HLA-DR、HLA-DRB1、HLA-DP、和HLA-DQ。

如本文所使用的，术语“免疫相容性血细胞”是指共享编码主要组织相容性抗原复合蛋白和/或次要组织相容性抗原(MiHA)的基因的一个或多个等位基因的血细胞。在一些实施例中，免疫相容性血细胞与施用细胞的受体受试者共有四个或更多个HLA等位基因。在一些实施例中，向受体受试者施用免疫相容性血细胞不会在受体受试者中诱导免疫应答。

如本文所使用的，术语“混合淋巴细胞或白细胞反应测定”是指在两个异基因淋巴细胞群体之间发生的细胞免疫测定，或本领域普通技术人员通常已知的任何其他的类似测定。该测定包括从外周血、胸腺、淋巴结或脾中纯化细胞，并与刺激细胞增殖剂共培养。还含有T细胞的刺激细胞群体称为双向混合淋巴细胞反应。刺激细胞群体将在应答细胞的存在下复制。对于单向混合淋巴细胞反应，通过照射或用丝裂霉素C(一种防止细胞复制的DNA交联剂)处理来防止刺激细胞的复制。最大可测量的细胞增殖发生在五到七天左右。混合淋巴细胞或白细胞反应测定提供了T细胞功能的体外联系数。这样的测定是本领域普通技术人员所熟知的。例如，参见Lindemann,2014,Tissue Antigens[组织抗原]，84:439；Olerup和Zetterquist,1992,Tissue Antigens[组织抗原]，39:225。

如本文所使用的，“修饰的gRNA分子”或“修饰的gRNA”是指与引入细胞后的未修饰的gRNA分子相比在引入细胞后具有改善的半衰期的gRNA分子。在一个实施例中，当细胞暴露(例如电穿孔)至gRNA分子时，修饰的gRNA分子不激活细胞中的先天免疫应答。在一个实施例中，与细胞暴露于未修饰的gRNA分子时相同类型的细胞中的先天免疫应答相比，修饰的gRNA分子在细胞暴露于gRNA分子后激活了细胞中降低的先天免疫应答。在另一个实施例中，在细胞被暴露到gRNA分子后，修饰的gRNA分子在细胞中不激活程序性细胞死亡途径(例如凋亡细胞死亡途径、坏死细胞死亡途径(例如坏死性凋亡细胞死亡途径)、自噬细胞死亡途径、凋亡样坏死细胞死亡途径、铁死亡细胞死亡途径、红细胞衰亡细胞死亡途径、凋亡样坏死细胞死亡途径或失巢凋亡细胞死亡途径)。在一些实施例中，修饰的gRNA分子不激活半胱天冬酶依赖性细胞死亡途径。在另一个实施例中，修饰的gRNA分子不激活半胱天冬酶不依赖性细胞死亡途径。

在一个实施例中，修饰的gRNA分子包含5'-端修饰。在一个实施例中，5'-端修饰选自下组，该组由以下组成：G(5')ppp(5')G帽类似物、m7G(5')ppp(5')G帽类似物或3'-O-Me-m7G(5')ppp(5')G抗反向帽类似物(ARCA)。在一个实施例中，5'-端修饰是硫代磷酸酯修饰。在一个实施例中，所述gRNA分子包含3'-端修饰。在一个实施例中，3'-端修饰是聚腺嘌呤尾部。在一个实施例中，3'-端修饰是硫代磷酸酯修饰。

“模板核酸”，如该术语在此使用的，是指可以与Cas9分子和gRNA分子结合用于改变靶位置的结构的核酸序列。在实施例中，对靶核酸进行修饰以具有模板核酸的一些或全部序列，典型地在一个或多个切割位点处或附近。在实施例中，模板核酸是单链的。在一个替代实施例中，模板核酸是双链的。在实施例中，模板核酸是DNA(例如，双链DNA)。在替代实施例中，模板核酸是单链DNA。在一个实施例中，模板核酸是RNA，例如，双链RNA或单链RNA。在一个实施例中，模板核酸如Cas9和gRNA在相同的载体骨架例如AAV基因组，质粒DNA上编码。在一个实施例中，模板核酸在体内从载体骨架上切除，例如其侧翼为gRNA识别序列。在一个实施例中，模板DNA处于ILDV中。在一个实施例中，模板核酸是外源核酸序列。在另一个实施例中，模板核酸序列是内源核酸序列，例如内源同源区域。在一个实施例中，模板核酸是对应于核酸序列的正链的单链寡核苷酸。在另一个实施例中，模板核酸是对应于核酸序列负链的单链寡核苷酸。

如在此使用的，“调节剂”是指可改变受试分子或遗传序列的活性(例如，酶活性、转录活性、或翻译活性)、量、分布、或结构的实体(例如，药物)。在实施例中，调节包括切割，例如，共价或非共价键的断裂、或共价或非共价键的形成，例如，将部分附接至，受试分子。在实施例中，调节剂改变受试分子的三维、二级、三级、或四级结构。调节剂可以增加、降低、引发、或消除受试活性。

如在此所使用的，“大分子”是指具有分子量为至少2kDa、3kDa、5kDa、10kDa、20kDa、30kDa、40kDa、50kDa、60kDa、70kDa、80kDa、90kDa、或100kDa的分子。大分子包括蛋白质、多肽、核酸、生物制剂、和碳水化合物。

如本文所用的“多肽”是指具有少于100个氨基酸残基的氨基酸的聚合物。在实施例中，它具有少于50、20、或10个氨基酸残基。

如本文所使用的，“多态性”是指等位基因变体。多态性可以包括一个或多个单核苷酸多态性以及序列长度多态性。多态性可能是由于与另一个等位基因相比，在一个等位基因上的一个或多个核苷酸置换，或者可能是由于核酸中的插入或缺失、复制、倒位和其他改变。

如在此所使用的，“参比分子”(例如，参比Cas9分子或参比gRNA)是指与受试分子(例如，受试Cas9分子或受试gRNA分子(例如，修饰的或候选Cas9分子))进行比较的分子。例如，可以将Cas9分子表征为具有不多于参比Cas9分子的核酸酶活性的10％。参比Cas9分子的实例包括天然存在的未经修饰的Cas9分子(例如，天然存在的Cas9分子，如酿脓链球菌、金黄色葡萄球菌、或嗜热链球菌的Cas9分子)。在实施例中，参比Cas9分子是具有和与其进行比较的Cas9分子最接近序列一致性或同源性的天然存在的Cas9分子。在实施例中，参比Cas9分子是一种序列(例如，天然存在的或已知序列)，其是其上已经发生改变(例如，突变)的亲代类型。

如在此关于分子的修饰所使用的“替换”或“替换的”不需要方法限制，但仅表明替换实体是存在的。

如在此所使用的，“小分子”是指具有小于约2kD(例如，小于约2kD、小于约1.5kD、小于约1kD、或小于约0.75kD)的分子量的化合物。

如在此所使用的，“受试者”可以意指人或非人动物。所述术语包括但不限于，哺乳动物(例如，人类、其他灵长类动物、猪、啮齿动物(例如，小鼠和大鼠或仓鼠)、兔、豚鼠、奶牛、马、猫、狗、绵羊、以及山羊)。在实施例中，所述受试者是人。在另一实施例中，所述受试者是家禽。如本文所使用的，如果受试者自我识别(或识别一位祖先)为该民族，或者如果第三方付款人(例如，保险公司、政府机构或医疗保健提供者，例如主治医生或遗传咨询师)识别受试者(或其一位祖先)为所选择的民族，则受试者是所选择的民族。在一个实施例中，所述受试者具有混合血统，并且具有来自第一民族的单倍型和来自第二民族的单倍型。

如在此所使用的，“治疗(treat、treating和treatment)”意指治疗哺乳动物中(例如，在人类中)的疾病，包括(a)抑制所述疾病，即抑制或防止其发展；(b)缓解所述疾病，即，导致疾病状态的消退；以及(c)治愈所述疾病。

如本文所用的，“基因转换”是指通过使用内源核酸(例如姊妹染色单体或质粒)作为模板核酸的同源定向重组(HDR)来修复DNA损伤的过程。据信，BRCA1、BRCA2和/或RAD51参与基因转换。在一些实施例中，内源核酸是与邻近DNA损伤或突变位点的DNA片段具有同源性，例如显著地同源性的核酸序列。在一些实施例中，模板不是外源核酸。

如本文所使用的，“基因校正”是指通过使用外源核酸(例如供体模板核酸)的同源定向重组来修复DNA损伤的过程。在一些实施例中，外源核酸是单链的。在一些实施例中，外源核酸是双链的。

如本文所使用的，“基因修饰”是指使用本文所述的CRISPR/Cas9系统编辑核酸的过程。在某些实施例中，基因修饰包括基因校正。在某些实施例中，基因修饰包括基因转换。

如本文所使用的“预防”(Prevent、preventing和prevention)是指预防哺乳动物(例如人)的疾病，包括(a)避免或排除疾病；(2)影响对疾病的诱因，例如预防疾病的至少一种症状或延迟疾病的至少一种症状的发作。

如本文所用的在氨基酸序列的语境下的“X”是指任何氨基酸(例如，二十种天然氨基酸中的任何一种)，除非另外说明。

操纵细胞来改变HLA表达谱

与移植物抗宿主病(GVHD)有关的风险和潜在的危及生命的并发症限制了移植(例如allo-HSCT)用于治疗获得性、恶性和遗传性血液疾病的效用。非裔血统的人在骨髓和脐血HSPC供体注册中都代表性不足，并且在MHC基因座上具有独特的单倍型和差别的杂合性，这可能限制其获得生命治疗的allo-HSCT以治疗以较高地频率在他们的族裔群体(例如，SCD)中发生的疾病。如本文所使用的，CRISPR/Cas9相关方法和组合物的使用允许改变供体细胞(例如HSPC)中的一个或多个免疫原性基因座(例如HLA基因座)以增加免疫原性基因匹配(例如HLA匹配)，使得供体细胞与受试者(受体)HLA基因座适当地或完全匹配，由此产生合适的移植供体(例如allo-HSCT)以治疗否则将不具有HLA配对供体的受试者的疾病。

异基因T细胞激活是通过呈递宿主和供体抗原呈递细胞(APC)上呈递的受体抗原而诱导的。作为外来抗原呈递给T细胞的错配HLA蛋白激活了这种异基因免疫应答。HLA被编码为位于人类第6号染色体上的主要组织相容性复合体(MHC)的一部分。MHC匹配是决定GVHD发生、强度和严重程度的重要因素。人类HLA可以细分为主要组织相容性复合体(MHC)抗原和次要组织相容性抗原(MiHA)。例如在MHC HLA-A、HLA-B、HLA-C、和HLA-DRB1基因座上的错配等位基因的程度与GVHD的发生和严重程度直接相关。其他因素，例如供体和受体之间的性别差异、输血史(例如，通过反复暴露于不匹配的HLA而产生异基因抗体)和MiHA错配也可能有助于GVHD发病机理。

MHC基因可以进一步细分为类别I和类别II。包括HLA-A、HLA-B和HLA-C的MHC类别I在所有体细胞的表面上表达。MHC类别I受体由与可变α链配对的恒定β链(β₂m，其在染色体11上编码)组成。类别I抗原将细胞内肽(在非移植条件下为病毒蛋白质，但是在allo-HSCT的情况下，它们呈递被识别为外源的宿主细胞蛋白质)呈递给CD8 T细胞以诱导细胞毒性淋巴细胞激活和杀死宿主细胞(引起急性GVHD)。相反，类别II抗原(例如HLA-DR、HLA-DQ、HLA-DP)将细胞外衍生的抗原呈递给CD4 T细胞，并且通常在专职抗原呈递细胞(APC，例如树突细胞、巨噬细胞)上表达，激活CD4 T细胞有助于驱动对宿主抗原的B细胞介导的抗体应答。其他类别II供体和受体HLA之间的错配(DQ、DP)可能在GVHD中起作用，但与类别I HLA-A、HLA-B、HLA-C和类别II HLA-DRB1相比，程度较低。

MHC基因座的等位基因多样性允许呈递各种各样的抗原，从而提供针对广谱潜在病原体的全面免疫力。MHC基因以孟德尔方式作为单倍型遗传，并且每个基因的两个等位基因以共显性方式表达。每个孩子有25％的机会从父母身上继承相同的HLA单倍型。为了保护allo-HSCT受试者免于获得GVHD，移植中心要求匹配类别I(HLA-A、HLA-B、HLA-C)和类别IIHLA-DRB1基因座。如果包含HLA-DQB1，则成人骨髓是细胞来源的allo-HSCT的匹配标准是7/8或9/10(Dehn J等人Biol.Blood Marrow Transplant[血液和骨髓移植生物学].2015；21(1):137-141)。脐血HSCT要求在供体和受体之间较小程度的匹配，在4/6基因座(HLA-A、HLA-B、HLA-DRB1)上具有最小匹配要求。

错配对临床结果的影响

由于供体与受体次要组织相容性抗原(MiHA)之间的反应性，来自匹配的不相关供体(MUD)的移植(例如HSCT)仍可能导致GVHD。如果供体和受体在六个HLA抗原中的一个(由HLA-A、HLA-B、HLA-DR基因座的两个等位基因编码)中有一个不匹配，那么急性GVHD的发生率是65％，并且那些受试者的死亡率是50％。此外，MHC基因座的单个错配显著地增加了GVHD的风险。在白血病受试者中allo-HSCT的研究中，用单抗原错配的相关供体细胞(MMRD)移植后的allo-HSCT(无病存活期和总存活期)后的临床结果被认为等同于匹配的无关供体(MUD)allo-HSCT的结果(Valcárcel D等人Biol.Blood Marrow Transplant[血液和骨髓移植生物学].2011；17(5):640-648)。移植MUD HSPC的受试者具有较高的慢性(c)GVHD发病率，这对整体生活质量具有负面影响。在另一项研究中，错配无关供体HSPC(类别I等位基因处的错配)的受体具有较高的GVHD发病率和移植相关死亡率(Hauzenberger D等人TissueAntigens[组织抗原].2008；72(6):549-558)。

除了较高表达的MHC基因座(HEL)之外，包括HLA-DRB3/4/5、DQ(例如DQB1)、和DP的较低表达的基因座(LEL)的错配还可能对GVHD的发病率和严重程度有影响。对于在HEL处匹配的受试者，LEL错配不会导致不良后果(Fernandez-

MA等人Blood[血液]2013；121(22):4603-4610)。然而，对于具有7/8HEL的受试者，HLA-DRB1的错配与LEL的多个错配相关。对于移植有在7/8HEL中匹配的供体HSPC但也检测到3个或更多LEL的受试者，那些受试者的LEL错配，与移植7/8HEL匹配的供体HSPC并且在其中检测到1个LEL错配的受试者相比，在那些受试者中，GVHD与更高程度的死亡率相关。总之，这些发现表明在HEL和LEL中完全匹配的相关供体可以降低移植(例如allo-HSCT)相关GVHD的风险和严重程度。

找到一个匹配的供体的统计

具有匹配的同胞供体的受试者的概率为约3％，并且具有匹配的非同胞匹配的家族成员的受试者的概率接近10％(Ottinger H等人，Bone Marrow Transplant[骨髓移植]1994；14增刊4:S34-38)。骨髓和脐血注册中MUD的识别接近70％，但使用MUD时发生GVHD的风险为80％，其中接近50％发展为III-IV级GVHD的那些受试者可以是致命的。对于非高加索人受试者，与欧裔美国(例如高加索人)血统的人相比，找到7/8至8/8匹配的供体的概率较低。美国国家骨髓捐赠计划(The National Marrow Donor Program)估计，对于90％的高加索人，可以识别出MUD，而对于亚洲人或非裔血统，发现7/8至8/8MUD的概率分别降至70％和60％(Pidala J等人，Blood[血液]2013；122(22):3651-3658)。对于非裔血统的受试者(例如非裔美国人)，血液健康、疾病和未满足的医疗需求部分是由于识别骨髓或脐血注册中匹配的供体的概率降低，并且在这一人群中镰状细胞病(SCD)相对较高的发病率也进一步让这一情形恶化。SCD在每500或总数为1000名非裔美国新生儿中会出现一例，并且这种疾病影响了10万美国人(www.cdc.gov)。在中非和西非，SCD的发病率更高。例如在尼日利亚，每年有四万五千到九万名新生儿患有SCD(www.SickleCellDisease.org)。SCD可以用来自镰状突变缺失的匹配供体(相关或不相关)的骨髓HSCT或UCT来治愈。因此，威胁生命的血红蛋白病相对高的发病率和识别将被用于治疗这种和其他基于血液的疾病的合适的供体细胞(例如HSPC)的挑战的组合强调了非洲血统受试者的未满足的医疗需求(Dew A等人，Biol.Blood Marrow Transplant[血液和骨髓移植生物学]2008；14(8):938-941)。

在欧洲裔美国人和非裔美国人之间的MHC等位基因差异

鉴于MHC基因是作为单倍型遗传的并且在MHC基因座处的高度多态性，在不同血统的人之间常见的单倍型也可能不同。据美国国家骨髓捐赠计划(NMDP)登记处的注册供体(Dehn J等人Biol.Blood Marrow Transplant[血液和骨髓移植生物学]2015；21(1):137-141)，历史上，欧洲裔美国人具有8/8匹配的最高比例的移植，而非裔美国人具有最低比例。在NMDP注册的800万人中，只有7％的人有非洲血统。此外，具有混合的遗传背景的人更难以匹配。例如，混血血统的受试者可以携带非洲裔美国人常见的父本单倍型和欧洲裔美国人常见的母本单倍型。寻找具有两种血统相关单倍型的相匹配的不相关供体更具挑战性。根据NMDP，还需要加强教育来向社区宣传捐赠过程，以鼓励来自更多不同背景的潜在供体登记。迄今为止，大多数关于HLA多态性的研究集中在遗传混合有限的群体中。然而，由于来自其他大陆的不断迁移，北美的HLA多样性更为明显。一项研究试图表征与居住在美国(包括高加索人(例如欧洲裔美国人)、亚洲人、印第安人、非洲裔美国人和拉美裔(例如西班牙裔))的不同远交群体相关的主要单倍型(Cao K等人Hum.Immunol.[人类免疫学]2001；62(9):1009-1030)。在所研究的群体中，与其他群体研究相比，非裔美国人在所有I类基因座上显示最大的杂合性，并且在HLA-A和HLA-B等位基因之间显示较弱或不存在的关联。此外，与非洲血统相关的最常见的单倍型与最常见的与高加索人血统相关的单倍型不同。这些发现表明，不同民族之间的HLA匹配对于在受试者是非高加索人的情况下识别合适的匹配或单倍体相同的供体是一个挑战。更近地，NMDP提供了在美国不同血统组中检测到的最常见的等位基因和单倍型的更新记录(bioinformatics.bethematchclinical.org)，这是Maiers等人，Hum.Immunol.[人类免疫学]2007；68(9):779-788的工作的延伸。这些组包括：欧洲裔美国人、非裔美国人、亚裔太平洋岛民和西班牙裔。犹太人血统的人的另外的常见的等位基因和单倍型和来自以前的出版物的更新(Klitz等人，2001,Tissue Antigens[组织抗原]，76(6):442-58)也是可用的(bioinformatics.bethematchclinical.org)。

表1描述了在美国人群体和犹太人群体中检测到的最常见的高分辨率HLA-A等位基因。对于表中所示的每一种血统(例如，欧洲裔美国人、非裔美国人、亚洲人[其包括太平洋岛民]、西班牙裔[拉丁裔]和犹太人血统)，最常见的等位基因基于其在每栏中指示的血统组出现频率排序(改编自美国国家骨髓捐赠计划网站(美国)：bioinformatics.bethematchclinical.org，其代表了早期出版物中高分辨率频率的更新(Maiers等人，2007,HumanImmunology[人类免疫学]，68:779-788))。犹太人高分辨率HLA-A频率来自以下美国国家骨髓捐赠计划网站(美国)URL：https://bioinformatics.bethematchclinical.org。请注意，来自犹太人群体的HLA-A数据来自以色列耶路撒冷哈达萨(Hadassah)登记处(Klitz等人，201,Tissue Antigens[组织抗原]，76(6):442-58)的供体样本。注意，所使用的注释(基于2010年世界卫生组织关于HLA系统因素命名委员会的新命名法，例如，对于HLA-A，0201g指示与指示(HLA前缀)-基因^*等位基因组/家族：特异性HLA蛋白的HLA-A*02:01相同)。例如，A*0201g变为A*02:01。下表显示了名称，用于显示编码区同义DNA取代的字段、非编码区的差异以及用于表示表达变化的后缀未显示(请参阅以下网站以获取更多信息：hla.alleles.org)。在本表中具有“g”后缀的等位基因名称是指在出版物“Maiers,M.,Gragert,L.,Klitz,W.High resolution HLA alleles and haplotypes in the USpopulation[美国人群中的高分辨率HLA等位基因和单倍型].2007”中的表1中定义的等位基因组。

表1

/>

/>

表2描述了在美国人群体和犹太人群体中检测到的最常见的高分辨率HLA-B等位基因。对于表中所示的每一种血统(例如，欧洲裔美国人、非裔美国人、亚洲人[其包括太平洋岛民]、西班牙裔[拉丁裔]和犹太人血统)，最常见的等位基因基于其在每栏中指示的血统组出现频率指示并排序(改编自美国国家骨髓捐赠计划网站(美国)：https://bioinformatics.bethematchclinical.org，其代表了早期出版物中高分辨率频率的更新(Maiers等人，2007,Human Immunology[人类免疫学]，68:779-788))。犹太人高分辨率HLA-A频率来自以下美国国家骨髓捐赠计划网站(美国)URL：bioinformatics.bethematchclinical.org。请注意，来自犹太人群体的HLA-B数据来自以色列耶路撒冷哈达萨(Hadassah)登记处(Klitz等人，201,Tissue Antigens[组织抗原]，76(6):442-58)的供体样本。注意，所使用的注释(基于2010年世界卫生组织关于HLA系统因素命名委员会的新命名法，例如，对于HLA-B，0702g指示与指示(HLA前缀)-基因^*等位基因组/家族：特异性HLA蛋白的HLA-B*07:02相同)。例如，B*0702g变为B*07:02。下表显示了名称，用于显示编码区同义DNA取代的字段、非编码区的差异以及用于表示表达变化的后缀未显示(请参阅以下网站以获取更多信息：hla.alleles.org)。在本表中具有“g”后缀的等位基因名称是指在出版物“Maiers,M.,Gragert,L.,Klitz,W.High resolution HLA alleles and haplotypes in the USpopulation[美国人群中的高分辨率HLA等位基因和单倍型].2007”中的表1中定义的等位基因组。

表2

/>

/>

表3描述了美国人群中最常见的高分辨率HLA-C等位基因。对于表中所示的每一种血统(例如，欧洲裔美国人、非裔美国人、亚洲人[其包括太平洋岛民]、和西班牙裔[拉丁裔])，最常见的等位基因基于其在每栏中指示的血统组出现频率指示并排序(改编自美国国家骨髓捐赠计划网站(美国)：bioinformatics.bethematchclinical.org，其代表了早期出版物中高分辨率频率的更新(Maiers等人，2007,Human Immunology[人类免疫学]，68:779-788))。注意，所使用的注释(基于2010年世界卫生组织关于HLA系统因素命名委员会的新命名法，例如，对于HLA-C，0701g指示与指示(HLA前缀)-基因^*等位基因组/家族：特异性HLA蛋白的HLA-C*07:01相同)。例如，C*0701g变为C*07:01。下表显示了名称，用于显示编码区同义DNA取代的字段、非编码区的差异以及用于表示表达变化的后缀未显示(请参阅以下网站以获取更多信息：hla.alleles.org)。在本表中具有“g”后缀的等位基因名称是指在出版物“Maiers,M.,Gragert,L.,Klitz,W.High resolution HLA alleles and haplotypesin the US population[美国人群中的高分辨率HLA等位基因和单倍型].2007”中的表1中定义的等位基因组。后缀“N”用于表示表达的变化(参考上面的命名法链接)。

表3

/>

表4描述了在美国人群体和犹太人群体中最常见的高分辨率HLA-DRB1等位基因。对于表中所示的每一种血统(例如，欧洲裔美国人、非裔美国人、亚洲人[其包括太平洋岛民]、西班牙裔[拉丁裔]和犹太人血统)，最常见的等位基因基于其在每栏中指示的血统组出现频率指示并排序(改编自美国国家骨髓捐赠计划网站(美国)：bioinformatics.bethematchclinical.org，其代表了早期出版物中高分辨率频率的更新(Maiers等人，2007,Human Immunology[人类免疫学]，68:779-788))。犹太人高分辨率HLA-DRB1频率来自以下美国国家骨髓捐赠计划网站(美国)URL：bioinformatics.bethematchclinical.org。请注意，来自犹太人群体的HLA-DRB1数据来自以色列耶路撒冷哈达萨(Hadassah)登记处(Klitz等人，201,Tissue Antigens[组织抗原]，76(6):442-58)的供体样本。注意，所使用的注释(基于2010年世界卫生组织关于HLA系统因素命名委员会的新命名法，例如，对于HLA-DRB1，1501指示与指示(HLA前缀)-基因^*等位基因组/家族：特异性HLA蛋白的HLA-DRB1*15:01相同)。例如，DRB1*1501变为DRB1*15:01。下表显示了名称，用于显示编码区同义DNA取代的字段、非编码区的差异以及用于表示表达变化的后缀未显示(请参阅以下网站以获取更多信息：hla.alleles.org)。在本表中具有“g”后缀的等位基因名称是指在出版物“Maiers,M.,Gragert,L.,Klitz,W.High resolution HLA alleles and haplotypes in the USpopulation[美国人群中的高分辨率HLA等位基因和单倍型].2007”中的表1中定义的等位基因组。

表4

/>

/>

表5描述了在美国人群中检测到的最常见的高分辨率HLA-DQB1等位基因。对于表中所示的每一种血统(例如，欧洲裔美国人、非裔美国人、亚洲人[其包括太平洋岛民]、和西班牙裔[拉丁裔])，最常见的等位基因基于其在每栏中指示的血统组出现频率指示并排序(改编自美国国家骨髓捐赠计划网站(美国)：bioinformatics.bethematchclinical.org，其代表了早期出版物中高分辨率频率的更新(Maiers等人，2007,Human Immunology[人类免疫学]，68:779-788))。注意，所使用的注释(基于2010年世界卫生组织关于HLA系统因素命名委员会的新命名法，例如，对于HLA-DQB1，0201g指示与指示(HLA前缀)-基因^*等位基因组/家族：特异性HLA蛋白的HLA-DQB1*02:01相同)。例如，DQB1*0201g变为DQB1*02:01。下表显示了名称，用于显示编码区同义DNA取代的字段、非编码区的差异以及用于表示表达变化的后缀未显示(请参阅以下网站以获取更多信息：hla.alleles.org)。在本表中具有“g”后缀的等位基因名称是指在出版物“Maiers,M.,Gragert,L.,Klitz,W.High resolution HLAalleles and haplotypes in the US population[美国人群中的高分辨率HLA等位基因和单倍型].2007”中的表1中定义的等位基因组。

表5

/>

表6描述了在美国人群体和犹太人群体中检测到的最常见的高分辨率HLA-A-B单倍型。对于表中所示的每一种血统(例如，欧洲裔美国人、非裔美国人、亚洲人[其包括太平洋岛民]、西班牙裔[拉丁裔]和犹太人血统)，最常见的前五十个HLA-A-B单倍型基于其在每栏中指示的血统组出现频率指示并排序(改编自美国国家骨髓捐赠计划网站(美国)：bioinformatics.bethematchclinical.org，其代表了早期出版物中高分辨率频率的更新(Maiers等人，2007,Human Immunology[人类免疫学]，68:779-788))。犹太人高分辨率HLA-A-B单倍型频率来自以下美国国家骨髓捐赠计划网站(美国)URL：bioinformatics.bethematchclinical.org。请注意，来自犹太人群体的HLA-A-B单倍型频率数据来自以色列耶路撒冷哈达萨(Hadassah)登记处(Klitz等人，201,Tissue Antigens[组织抗原]，76(6):442-58)的供体样本。注意，所使用的注释(基于2010年世界卫生组织关于HLA系统因素命名委员会的新命名法，例如，对于HLA-A，0201g指示与指示(HLA前缀)-基因^*等位基因组/家族：特异性HLA蛋白的HLA-A*02:01相同)。例如，A*0201g变为A*02:01。下表显示了名称，用于显示编码区同义DNA取代的字段、非编码区的差异以及用于表示表达变化的后缀未显示(请参阅以下网站以获取更多信息：hla.alleles.org)。在本表中具有“g”后缀的等位基因名称是指在出版物“Maiers,M.,Gragert,L.,Klitz,W.High resolution HLA alleles andhaplotypes in the US population[美国人群中的高分辨率HLA等位基因和单倍型].2007”中的表1中定义的等位基因组。

表6

/>

/>

表7描述了在美国人群体和犹太人群体中检测到的最常见的高分辨率HLA-A-B-DRB1单倍型。对于表中所示的每一种血统(例如，欧洲裔美国人、非裔美国人、亚洲人[其包括太平洋岛民]、西班牙裔[拉丁裔]和犹太人血统)，最常见的前五十个HLA-A-B-DRB1单倍型基于其在每栏中指示的血统组出现频率指示并排序(改编自美国国家骨髓捐赠计划网站(美国)：bioinformatics.bethematchclinical.org，其代表了早期出版物中高分辨率频率的更新(Maiers等人，2007,Human Immunology[人类免疫学]，68:779-788))。犹太人高分辨率HLA-A-B-DRB1单倍型频率来自以下美国国家骨髓捐赠计划网站(美国)URL：bioinformatics.bethematchclinical.org。请注意，来自犹太人群体的HLA-A-B-DRB1单倍型频率数据来自以色列耶路撒冷哈达萨(Hadassah)登记处(Klitz等人，201,Tissue Antigens[组织抗原]，76(6):442-58)的供体样本。注意，所使用的注释(基于2010年世界卫生组织关于HLA系统因素命名委员会的新命名法，例如，对于HLA-DRB1，1501指示与指示(HLA前缀)-基因^*等位基因组/家族：特异性HLA蛋白的HLA-DRB1*15:01相同)。例如，DRB1*1501变为DRB1*15:01。下表显示了名称，用于显示编码区同义DNA取代的字段、非编码区的差异以及用于表示表达变化的后缀未显示(请参阅以下网站以获取更多信息：hla.alleles.org)。在本表中具有“g”后缀的等位基因名称是指在出版物“Maiers,M.,Gragert,L.,Klitz,W.Highresolution HLA alleles and haplotypes in the US population[美国人群中的高分辨率HLA等位基因和单倍型].2007”中的表1中定义的等位基因组。

表7

/>

/>

/>

表8描述了在美国人群体中检测到的最常见的高分辨率HLA-A-C-B单倍型。对于表中所示的每一种血统(例如，欧洲裔美国人、非裔美国人、亚洲人[其包括太平洋岛民]、和西班牙裔[拉丁裔])，最常见的前五十个HLA-A-C-B单倍型基于其在每栏中指示的血统组出现频率指示并排序(改编自美国国家骨髓捐赠计划网站(美国)：bioinformatics.bethematchclinical.org，其代表了早期出版物中高分辨率频率的更新(Maiers等人，2007,HumanImmunology[人类免疫学]，68:779-788))。注意，所使用的注释(基于2010年世界卫生组织关于HLA系统因素命名委员会的新命名法，例如，对于HLA-A，0201g指示与指示(HLA前缀)-基因^*等位基因组/家族：特异性HLA蛋白的HLA-A*02：01相同)。例如，A*0201g变为A*02:01。下表显示了名称，用于显示编码区同义DNA取代的字段、非编码区的差异以及用于表示表达变化的后缀未显示(请参阅以下网站以获取更多信息：hla.alleles.org)。在本表中具有“g”后缀的等位基因名称是指在出版物“Maiers,M.,Gragert,L.,Klitz,W.Highresolution HLA alleles and haplotypes in the US population[美国人群中的高分辨率HLA等位基因和单倍型].2007”中的表1中定义的等位基因组。

表8

/>

/>

表9描述了美国人群中检测到的最常见的高分辨率HLA-A-B-DRB1-DQB1单倍型。对于表中所示的每一种血统(例如，欧洲裔美国人、非裔美国人、亚洲人[其包括太平洋岛民]、和西班牙裔[拉丁裔])，最常见的前五十个HLA-A-B-DRB1-DQB1单倍型基于其在每栏中指示的血统组出现频率指示并排序(改编自美国国家骨髓捐赠计划网站(美国)：bioinformatics.bethematchclinical.org，其代表了早期出版物中高分辨率频率的更新(Maiers等人，2007,Human Immunology[人类免疫学]，68:779-788))。注意，所使用的注释(基于2010年世界卫生组织关于HLA系统因素命名委员会的新命名法，例如，对于HLA-A，0201g指示与指示(HLA前缀)-基因^*等位基因组/家族：特异性HLA蛋白的HLA-A*02：01相同)。例如，A*0201g变为A*02:01。下表显示了名称，用于显示编码区同义DNA取代的字段、非编码区的差异以及用于表示表达变化的后缀未显示(请参阅以下网站以获取更多信息：hla.alleles.org)。在本表中具有“g”后缀的等位基因名称是指在出版物“Maiers,M.,Gragert,L.,Klitz,W.Highresolution HLA alleles and haplotypes in the US population[美国人群中的高分辨率HLA等位基因和单倍型].2007”中的表1中定义的等位基因组。

表9

/>

/>

/>

/>

表10描述了美国人群中最常见的高分辨率HLA-A-C-B-DRB1单倍型。对于表中所示的每一种血统(例如，欧洲裔美国人、非裔美国人、亚洲人[其包括太平洋岛民]、和西班牙裔[拉丁裔])，最常见的前五十个HLA-A-C-B-DRB1单倍型基于其在每栏中指示的血统组出现频率排序(改编自美国国家骨髓捐赠计划网站(美国)：bioinformatics.bethematchclinical.org，其代表了早期出版物中高分辨率频率的更新(Maiers等人，2007,HumanImmunology[人类免疫学]，68:779-788))。注意，所使用的注释(基于2010年世界卫生组织关于HLA系统因素命名委员会的新命名法，例如，对于HLA-A，0201g指示与指示(HLA前缀)-基因^*等位基因组/家族：特异性HLA蛋白的HLA-A*02：01相同)。例如，A*0201g变为A*02:01。下表显示了名称，用于显示编码区同义DNA取代的字段、非编码区的差异以及用于表示表达变化的后缀未显示(请参阅以下网站以获取更多信息：hla.alleles.org)。在本表中具有“g”后缀的等位基因名称是指在出版物“Maiers,M.,Gragert,L.,Klitz,W.Highresolution HLA alleles and haplotypes in the US population[美国人群中的高分辨率HLA等位基因和单倍型].2007”中的表1中定义的等位基因组。

表10

/>

/>

/>

/>

表11描述了在美国人群中最常见的高分辨率HLA-A-C-B-DRB1-DQB1单倍型。对于表中所示的每一种血统(例如，欧洲裔美国人、非裔美国人、亚洲人[其包括太平洋岛民]、和西班牙裔[拉丁裔])，最常见的前五十个HLA-A-C-B-DRB1-DQB1单倍型基于其在每栏中指示的血统组出现频率指示并排序(改编自美国国家骨髓捐赠计划网站(美国)：bioinformatics.bethematchclinical.org，其代表了早期出版物中高分辨率频率的更新(Maiers等人，2007,Human Immunology[人类免疫学]，68:779-788))。注意，所使用的注释(基于2010年世界卫生组织关于HLA系统因素命名委员会的新命名法，例如，对于HLA-A，0201g指示与指示(HLA前缀)-基因^*等位基因组/家族：特异性HLA蛋白的HLA-A*02:01相同)。例如，A*0201g变为A*02:01。下表显示了名称，用于显示编码区同义DNA取代的字段、非编码区的差异以及用于表示表达变化的后缀未显示(请参阅以下网站以获取更多信息：hla.alleles.org)。在本表中具有“g”后缀的等位基因名称是指在出版物“Maiers,M.,Gragert,L.,Klitz,W.Highresolution HLA alleles and haplotypes in the US population[美国人群中的高分辨率HLA等位基因和单倍型].2007”中的表1中定义的等位基因组。

表11

/>

/>

/>

/>

/>

表12描述了在美国人群体和犹太人群体中最常见的高分辨率HLA-B-DRB1单倍型。对于表中所示的每一种血统(例如，欧洲裔美国人、非裔美国人、亚洲人[其包括太平洋岛民]、西班牙裔[拉丁裔]和犹太人血统)，最常见的前五十个HLA-B-DRB1单倍型基于其在每栏中指示的血统组出现频率指示，排序(改编自美国国家骨髓捐赠计划网站(美国)：bioinformatics.bethematchclinical.org，其代表了早期出版物中高分辨率频率的更新(Maiers等人，2007,Human Immunology[人类免疫学]，68:779-788))。犹太人高分辨率HLA-B-DRB1单倍型频率来自以下美国国家骨髓捐赠计划网站(美国)URL：bioinformatics.bethematchclinical.org。请注意，来自犹太人群体的HLA-A-B-DRB1单倍型频率数据来自以色列耶路撒冷哈达萨(Hadassah)登记处(Klitz等人，201,Tissue Antigens[组织抗原]，76(6):442-58)的供体样本。注意，所使用的注释(基于2010年世界卫生组织关于HLA系统因素命名委员会的新命名法，例如，对于HLA-DRB1，1501指示与指示(HLA前缀)-基因^*等位基因组/家族：特异性HLA蛋白的HLA-DRB1*15:01相同)。例如，DRB1*1501变为DRB1*15:01。下表显示了名称，用于显示编码区同义DNA取代的字段、非编码区的差异以及用于表示表达变化的后缀未显示(请参阅以下网站以获取更多信息：hla.alleles.org)。在本表中具有“g”后缀的等位基因名称是指在出版物“Maiers,M.,Gragert,L.,Klitz,W.High resolution HLAalleles and haplotypes in the US population[美国人群中的高分辨率HLA等位基因和单倍型].2007”中的表1中定义的等位基因组。

表12

/>

/>

/>

表13描述了在美国人群体中最常见的高分辨率HLA-C-B单倍型。对于表中所示的每一种血统(例如，欧洲裔美国人、非裔美国人、亚洲人[其包括太平洋岛民]、和西班牙裔[拉丁裔])，最常见的前五十个HLA-C-B单倍型基于其在每栏中指示的血统组出现频率指示并排序(改编自美国国家骨髓捐赠计划网站(美国)：bioinformatics.bethematchclinical.org，其代表了早期出版物中高分辨率频率的更新(Maiers等人，2007,HumanImmunology[人类免疫学]，68:779-788))。注意，所使用的注释(基于2010年世界卫生组织关于HLA系统因素命名委员会的新命名法，例如，对于HLA-C，0701g指示与指示(HLA前缀)-基因^*等位基因组/家族：特异性HLA蛋白的HLA-C*07:01相同)。例如，C*0701g变为C*07:01。下表显示了名称，用于显示编码区同义DNA取代的字段、非编码区的差异以及用于表示表达变化的后缀未显示(请参阅以下网站以获取更多信息：hla.alleles.org)。在本表中具有“g”后缀的等位基因名称是指在出版物“Maiers,M.,Gragert,L.,Klitz,W.Highresolution HLA alleles and haplotypes in the US population[美国人群中的高分辨率HLA等位基因和单倍型].2007”中的表1中定义的等位基因组。后缀“N”用于表示表达的变化(参考上面的命名法链接)。

表13

/>

/>

表14描述了美国人群中最常见的高分辨率HLA-C-B-DRB1-DQB1单倍型。对于表中所示的每一种血统(例如，欧洲裔美国人、非裔美国人、亚洲人[其包括太平洋岛民]、和西班牙裔[拉丁裔])，最常见的前五十个HLA-C-B-DRB1-DQB1单倍型基于其在每栏中指示的血统组出现频率指示并排序(改编自美国国家骨髓捐赠计划网站(美国)：bioinformatics.bethematchclinical.org，其代表了早期出版物中高分辨率频率的更新(Maiers等人，2007,Human Immunology[人类免疫学]，68:779-788))。注意，所使用的注释(基于2010年世界卫生组织关于HLA系统因素命名委员会的新命名法，例如，对于HLA-DRB1，1501指示与指示(HLA前缀)-基因^*等位基因组/家族：特异性HLA蛋白的HLA-DRB1*15:01相同)。例如，DRB1*1501变为DRB1*15:01。下表显示了名称，用于显示编码区同义DNA取代的字段、非编码区的差异以及用于表示表达变化的后缀未显示(请参阅以下网站以获取更多信息：hla.alleles.org)。在本表中具有“g”后缀的等位基因名称是指在出版物“Maiers,M.,Gragert,L.,Klitz,W.High resolution HLA alleles and haplotypes in the USpopulation[美国人群中的高分辨率HLA等位基因和单倍型].2007”中的表1中定义的等位基因组。

表14

/>

/>

/>

/>

表15描述了美国人群中最常见的高分辨率HLA-DRB1-DQB1单倍型。对于表中所示的每一种血统(例如，欧洲裔美国人、非裔美国人、亚洲人[其包括太平洋岛民]、和西班牙裔[拉丁裔])，最常见的前五十个HLA-C-B-DRB1-DQB1单倍型基于其在每栏中指示的血统组出现频率指示并排序(改编自美国国家骨髓捐赠计划网站(美国)：bioinformatics.bethematchclinical.org，其代表了早期出版物中高分辨率频率的更新(Maiers等人，2007,HumanImmunology[人类免疫学]，68:779-788))。注意，所使用的注释(基于2010年世界卫生组织关于HLA系统因素命名委员会的新命名法，例如，对于HLA-DRB1，1501指示与指示(HLA前缀)-基因^*等位基因组/家族：特异性HLA蛋白的HLA-DRB1*15:01相同)。例如，DRB1*1501变为DRB1*15:01。下表显示了名称，用于显示编码区同义DNA取代的字段、非编码区的差异以及用于表示表达变化的后缀未显示(请参阅以下网站以获取更多信息：hla.alleles.org)。在本表中具有“g”后缀的等位基因名称是指在出版物“Maiers,M.,Gragert,L.,Klitz,W.High resolution HLA alleles and haplotypes in the US population[美国人群中的高分辨率HLA等位基因和单倍型].2007”中的表1中定义的等位基因组。

表15

/>

改善供体细胞移植的方法

本文所述的方法、组合物和细胞可用于例如通过增加植入、预防GVHD和移植排斥、降低对调理和免疫抑制的需求或其任何组合来改善移植的结果(例如造血干细胞移植)。例如，本文所述的方法、组合物和细胞可以提供预防或治疗GVHD和/或移植排斥的疗法，例如一次性疗法或多剂量疗法。

在一个实施例中，所述疗法预防、抑制或减少受试者，例如匹配的或不匹配的移植(例如，allo-HSCT)后的受体的GVHD和/或移植排斥的发生。在另一个实施例中，所述疗法预防、抑制或减少受试者，例如匹配的或不匹配的移植(例如，allo-HSCT)后的受体的GVHD和/或移植排斥的严重性。据信，在供体细胞(例如本文描述的细胞，例如HSPC)中灭活一个或多个供体HLA等位基因，例如通过敲除或敲低一个或多个HLA基因或基因座，以及例如通过敲入来提供一个或多个受体匹配的HLA等位基因可以预防、抑制或减少受试者(例如匹配的、部分匹配的、单倍体相同的或错配的移植后(例如allo-HSCT)的受体)的GVHD和/或移植排斥的发生或严重性。

在一个实施例中，所述疗法预防、降低或消除受试者(例如匹配的或错配的移植受体(例如allo-HSCT))中的清髓性调理的需要或降低其强度。

在一个实施例中，所述疗法预防、抑制或减少受试者，例如匹配的或不匹配的allo-UCT后的受体的GVHD和/或移植排斥的发生。在另一个实施例中，所述疗法预防、抑制或减少受试者，例如匹配的或不匹配的allo-UCT后的受体的GVHD和/或移植排斥的严重性。在一个实施例中，据信，在供体细胞(例如本文描述的细胞，例如HSPC)中灭活一个或多个供体HLA等位基因，例如通过敲除或敲低一个或多个HLA基因或基因座，以及例如通过敲入来提供一个或多个受体匹配的HLA等位基因可以预防、抑制或减少受试者(例如匹配的、部分匹配的、单倍体相同的或错配的allo-UCT后的受体)的GVHD和/或移植排斥的发生或严重性。

在一个实施例中，受试者(例如，匹配的或错配的移植受体(例如allo-HSCT))正在治疗或已经治疗了疾病，例如将受益于移植的疾病，例如，造血干细胞移植(HSCT)。示例性的疾病包括但不限于恶性疾病、血红蛋白病、血质不调、免疫缺陷、溶酶体贮积失调或遗传性或获得性血液病。在一个实施例中，受试者正在接受或已接受抗癌疗法，例如化疗或放射疗法。

在一个实施例中，所述疗法降低了GVHD的可能性。在一个实施例中，受试者接受移植前(例如HSCT)受体受试者接受的减少剂量的移植前(例如，前HSCT)调理方案。在一个实施例中，根据本文所述方法修饰的移植(例如HSCT)治疗降低移植后免疫抑制的要求和/或强度(例如他克莫司、泼尼松龙、泼尼松和/或其他类固醇、ATG、CTLA4-Ig、MMF、雷帕霉素)。在一个实施例中，用根据本文所述方法修饰的移植(例如HSCT)的治疗允许在移植之前消除或部分减少受体受试者的调理。

在一个实施例中，受试者患有可以用移植(例如HSCT)治疗的疾病，并且预期供体细胞相对于受体具有存活优势。在一个实施例中，受试者患有血红蛋白病、免疫缺陷病、遗传或获得性血液病或恶性疾病。在一个实施例中，受试者正在接受或已接受抗癌疗法，例如化疗或放射疗法。在预期供体细胞(例如HSPC)相对于受体细胞具有存活优势且该疾病不是恶性(例如，IL2RG-SCID、IL7R-SCID、JAK3-SCID或范科尼贫血)的任何疾病中，用本文所述的方法治疗将允许在移植前在受体中使用较低剂量调理或不进行调理。在一个实施例中，受试者否则不会有资格进行移植，例如由于存在以下任何病症：多种副发病变、严重的并存疾病、GVHD或移植排斥的高风险、年老、或发展的感染的存在。

在一个实施例中，受试者需要移植(例如HSCT)来治疗血液系统恶性肿瘤。在一个实施例中，所述受试者患有急性髓细胞性白血病、急性淋巴细胞白血、非何杰金氏淋巴瘤、何杰金氏淋巴瘤、慢性髓系白血病、慢性淋巴细胞白血病、慢性粒单核细胞白血病或多发性骨髓瘤。

在一个实施例中，受试者需要移植，例如HSCT，用于治疗骨髓增生异常综合症或骨髓组织增殖性赘生物。

在一个实施例中，受试者需要移植例如HSCT来治疗实体瘤。在一个实施例中，所述受试者患有尤文氏肉瘤、神经母细胞瘤和神经胶质瘤、或促结缔组织增生性小圆细胞肿瘤。

在一个实施例中，受试者需要移植，例如HSCT，用于治疗非恶性病症。在一个实施例中，受试者患有血红蛋白病、血质不调、地中海贫血(例如β-地中海贫血或α-地中海贫血)、镰状细胞病(SCD)、范科尼贫血、再生障碍性贫血或先天性生血性卟啉症。

在一个实施例中，受试者需要移植(例如HSCT)来治疗免疫缺陷。在一个实施例中，所述受试者患有重症联合免疫缺陷(SCID)(例如欧门氏症候群(Omenn’s syndrome)、RAG-1SCID、IL2-RG SCID、CD3-SCID、ADA-SCID或JAK3-SCID)、无丙种球蛋白血症、威斯科特-奥尔德里奇综合征、油超免疫球蛋白M的X连锁免疫缺陷、X连锁布鲁顿无丙种球蛋白血症(X-linked Bruton agammaglobulinemia)、裸淋巴细胞综合征、软骨毛发发育不全、白细胞异常色素减退综合征、慢性肉芽肿病、Kostman氏综合征或白细胞粘着缺乏症(leukocyteadhesion deficiency)。

在一个实施例中，受试者需要移植(例如HSCT)来治疗溶酶体贮存病。在一个实施例中，所述受试者患有α-甘露糖苷贮积症、肾上腺脑白质营养不良、戈谢病、球形细胞脑白质营养不良、异染性脑白质病变、黏多糖沉积症(所有类型)、尼曼-皮克病或沃曼病(Wolmans disease)。

在一个实施例中，受试者需要移植，例如HSCT，用于治疗选自先天性角化不良、家族性噬血细胞性淋巴组织细胞增多症、血友病A、婴儿骨硬化症、成骨不全或舒-戴二氏综合征的疾病。

在一个实施例中，受试者患有阻止预先调理的发展的感染或并存疾病。在一个实施例中，受试者年龄大于50岁，并且在移植之前不能耐受调理。

在一个实施例中，受试者已经获得了血液学免疫缺陷型HIV/AIDS。在一个实施例中，供体细胞具有例如通过Cas9分子/gRNA分子介导的失活(例如敲除或敲低)而失活的一种或多种HIV辅助受体(例如CCR5或CXCR4)。灭活在HLA修饰的供体细胞中的一种或多种HIV共受体可以防止造血重建后的细胞子代的HIV感染。

本文所述的方法和组合物集中于供体细胞(例如HSPC)的修饰以使不相容的HLA失活，并提供受体匹配的HLA以保持免疫系统在用供体细胞(例如，allo-HSPC)移植之后对潜在病原体的识别和防御方面的多样性和复杂性。本文所述的方法和组合物还可以包括对供体细胞(例如allo-HSPC)的另外的非HLA遗传修饰，以进一步预防GVHD(例如敲除或抑制allo-HSPC中的趋化因子受体以防止异基因反应性T细胞迁移到GVHD倾向组织中)，增强植入，和/或纠正疾病(血液学和非血液学性质的疾病)(例如引入编码用于蛋白质代替治疗的分泌性蛋白的基因，引入编码化疗抗性基因的基因以改善移植和/或支持更高剂量的化疗(如果恶性复发在未来发生的话))。本文所述的方法和组合物利用生物信息学系统来识别和评分迄今为止检测和报道的HLA等位基因的靶特异性gRNA，使得受试者特异性HLA修饰可以是等位基因特异性的(例如，在6号染色体的一个HLA基因座上的一个拷贝上的单等位基因破坏)。

改变基因或基因座的方法

一种或多种免疫原性基因或基因座，例如HLA基因或基因座，例如HLA等位基因、单倍型或基因座可以通过本文所述的方法来改变。

CRISPR/Cas9相关的方法来生成HLA匹配的细胞用于移植

可以通过多步骤(例如，两步法)过程，从不匹配的、部分匹配的或单倍型相同的供体细胞(例如，HPSC)中产生HLA匹配的细胞(例如，如本文所述的细胞，例如CD34⁺HSPC)用于移植入人类受试者中。

在一个步骤中，例如在部分匹配的供体细胞中的一个或多个错配的HLA等位基因的表达被失活。例如，失活步骤可以包括以下步骤中的一个或多个：1)例如在供体和受体细胞中，在MHC基因座例如HLA-A、HLA-B、HLA-C和HLA-DRB1基因座处进行高分辨率HLA分型，2)生物信息学设计，分层和筛选特异于存在于供体但不存在于受体受试者的一个或多个靶基因座(例如HLA-A)上的错配的一个或多个等位基因(例如HLA-A*0101)的gRNA，3)递送Cas9和靶特异性的一个或多个gRNA以破坏(例如，敲除或敲低)个体错配的HLA等位基因(例如，HLA-A*0101)的表达，4)验证靶向基因座处的基因破坏，并且5)通过流式细胞术和通过NK细胞溶解测定(NK细胞识别细胞下调HLA类别I抗原并诱导裂解)验证细胞表面HLA表达的损失。

在另一个步骤中，将编码一个或多个匹配的受体受试者HLA等位基因的一个或多个DNA序列引入供体细胞中。例如，引入匹配的受体HLA等位基因的步骤可以包括以下步骤中的一个或多个：1)从受体受试者中产生编码靶向基因座的受体受试者特异性等位基因(例如，对于HLA-A基因座，为等位基因变体HLA-A*301)的cDNA，2)装配受体内源性启动子(例如HLA-A启动子)位于编码受体受试者特异性HLA等位基因(例如HLA-A*301)的DNA序列上游的转基因表达盒用于表达的转录调控，3)使用病毒载体(例如慢病毒载体)或非病毒递送系统将转基因表达盒(例如启动子和HLA等位基因DNA)递送至供体细胞。可替代地，在一个实施例中，可使用CRISPR-Cas9系统将受体HLA受体受试者等位基因特异性转基因表达盒递送至供体细胞以靶向整合至“安全港”基因座(例如，AAVS1、CCR5)或整合至原始基因座(例如HLA-A)。

灭活一个或多个错配的供体HLA等位基因的步骤和引入一个或多个匹配的受体HLA等位基因的步骤可以以任何顺序进行。在一个实施例中，灭活一个或多个错配的供体HLA等位基因的步骤在引入一个或多个匹配的受体HLA等位基因的步骤之前进行。在另一个实施例中，灭活一个或多个错配的供体HLA等位基因的步骤在引入一个或多个匹配的受体HLA等位基因的步骤之后进行。在仍然另一个实施例中，灭活一个或多个错配的供体HLA等位基因的步骤与引入一个或多个匹配的受体HLA等位基因的步骤同时进行。

在基因编辑之前和之后，可以在优化的细胞培养条件下，在培养基(例如HSPC支持性培养基)中培养细胞以促进细胞存活和保存细胞(例如HSPC)表型和功能性并防止暴露于Cas9和gRNA成分(见实例)下的细胞免疫反应。可以在优化的条件下扩增或培养细胞(例如HSPC)以促进细胞(例如HSPC)维持并防止分化。本文描述了优化的细胞培养条件。在一个实施例中，在一种或多种错配的供体HLA等位基因失活之前，在优化条件下扩增或培养细胞(例如HSPC)。在一个实施例中，在一种或多种错配的供体HLA等位基因失活之后，在优化条件下扩增或培养细胞(例如HSPC)。在一个实施例中，在引入一个或多个匹配的受体HLA等位基因之前，在优化的条件下扩增或培养细胞(例如HSPC)。在一个实施例中，在引入一个或多个匹配的受体HLA等位基因之后，在优化的条件下扩增或培养细胞(例如HSPC)。在一个实施例中，在一个或多个错配的供体HLA等位基因失活之后并且在引入一个或多个匹配的受体HLA等位基因之前，在优化的条件下扩增或培养细胞(HSPC)。在一个实施例中，在引入一个或多个匹配的受体HLA等位基因之后并且在一个或多个错配的受体HLA等位基因失活之前，在优化的条件下扩增或培养细胞(HSPC)。

不匹配的基因失活和匹配的基因置换过程可以阻止NK介导的缺乏特异性HLA的细胞裂解，通过保持HLA等位基因表达的多样性、和通过增加供体和受体受试者细胞之间的HLA匹配水平来降低GvHD的严重性和/出现来维持移植(如allo-HSCT)后的体内免疫功能。

gRNA的设计和筛选

使用包括迄今为止记录(hla.alleles.org)的HLA等位基因变体的公开可用的数据集，建立了一个数据库并确立使其包含gRNA序列，所述gRNA序列对已针对HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、和HLA-DQB1基因座报道的单个等位基因高度特异性并将每个等位基因交叉参考至这些单个等位基因所代表的人类受试者的血统、民族或族裔背景(Marsh,S.G.E.(2015),Nomenclature for factors of the HLA system[HLA系统因素的命名]，2015年3月更新.Tissue Antigens[组织抗原].doi:10.1111/tan.12581；Maiers M等人Hum.Immunol.[人类免疫学]2007；68(9):779-788)(对于等位基因特异性gRNA实例和详细的数据库设计，参见“gRNA”和“实例”部分)。数据库中包括以下数量的等位基因变体：HLA-A(3094个等位基因)、HLA-B(3865个等位基因)、HLA-C(2618)、HLA-DRB1(1719)、HLA-DRB3/4/5(95)、HLA-DQB1(777个等位基因)。使用该数据库，可以选择对在数据库中代表的成千上万个等位基因变体中的一个特异性的gRNA。另外，本文所述的数据库可以识别和分级靶向单个HLA基因座的gRNA，该单个HLA基因组没有允许用一种或多种gRNA进行双等位基因破坏的等位基因特异性。可以将等位基因变体、gRNA和血统与当前的脐血和骨髓供体注册联系起来，以便交叉参考和识别部分匹配的供体，这些供体以后可以为在受体受试者中匹配的allo-HSCT进行修饰。

单等位基因和双等位基因HLA靶向

当在一个基因座处的一个等位基因(母本或父本的)在供体细胞和受体受试者之间不匹配的时候，在CRISPR-Cas9系统中可以使用等位基因特异性的gRNA分子敲除或敲低等位基因特异性基因产物的表达。此外，在细胞供体和受体受试者不匹配或是单倍体相同的情况下，在单个染色体上的多个HLA基因座(例如，HLA-A、HLA-B、HLA-C和HLA-DRB1)多重敲除或敲低单个等位基因可通过共同递送靶向供体细胞中的错配(不匹配)单倍型的等位基因特异性gRNA分子，然后提供受体匹配的单倍型来应用。这种多重基因组编辑的实例将分别从3/6或4/8增加供体与受体之间的匹配至6/6或8/8，从而将单倍体相同的匹配的供体(例如在6号染色体的一个拷贝和6号染色体上匹配的第二拷贝上错配的HLA-A、HLA-B、HLA-C、HLA-DRB1)转变为完全匹配的供体。然而，在一个基因座处的两个等位基因(母本和父本)在供体和受体之间不匹配的情况下(例如HLA-A的两个等位基因)，基因特异性但非等位基因特异性的gRNA可以与CRISPSR-Cas9一起使用，用于该基因座的双等位基因破坏。在这两种情况下，被敲除或敲低的基因可被受体特异性等位基因置换，以增加供体和受体之间的HLA匹配以保存受试者中的HLA多样性。

例如，在供体细胞中HLA-A的双等位基因破坏之后，可以使用常规的非病毒或病毒递送方法将两个受体特异性HLA-A等位基因递送至转基因表达盒中的异基因供体细胞。一旦通过测序、修饰的供体细胞和受体细胞的比较分型以及表达和功能测定验证了HLA置换，可以将HLA编辑的供体细胞移植到受体中进行造血重建，并且根据目前对移植受试者关怀标准，给予该受试者治疗。可替代地，在一个实施例中，与靶向供体细胞(例如HSPC)中错配的HLA等位基因的KRAB和DNMT融合的eiCas9可用于永久抑制错配的HLA等位基因的表达。

接下来，可以对其中一个或多个错配的供体HLA等位基因已经失活的供体细胞进行分选，以获得缺乏错配的HLA等位基因的细胞(例如HSPC)的富集的、分离的或纯化的群体。

在靶向HLA基因座处验证等位基因的失活

为了验证一个或多个靶向的HLA等位基因已经被CRISPR/Cas9活性灭活，可以使用常规方法(例如，等位基因特异性PCR、qRT-PCR或流式细胞术中的一种或多种)来测定靶向之前和之后的供体细胞的一个或多个等位基因序列的改变或一个或多个等位基因的表达。在一个实施例中，可以将具有或不具有基因组编辑的供体细胞与NK细胞共培养，并定量针对供体细胞的溶细胞活性以确定HLA表达的下调。在验证之后，可通过常规分选方法从未修饰的细胞中富集、分离或纯化具有失活的一个或多个错配的供体HLA等位基因的细胞和/或具有引入的一个或多个匹配的受体HLA等位基因的细胞。引入匹配的受体HLA等位基因

编码匹配的受体HLA等位基因的核酸可通过常规病毒或非病毒递送方法引入供体细胞。在一个实施例中，该核酸是cDNA，例如从受体mRNA反转录的cDNA。在另一个实施例中，核酸是基因组DNA序列。在一个实施例中，引入编码多个匹配的受体HLA等位基因的核酸。在一个实施例中，引入各自编码一个或多个匹配的受体HLA等位基因的多个核酸。

在一个实施例中，将核酸插入病毒载体(例如慢病毒载体)或非病毒递送系统(例如转座子)中。在一个实施例中，核酸或载体包含HLA基因的特异性内源启动子(例如从受体遗传基因座克隆的)以转录调节引入的HLA等位基因。

在一个实施例中，将编码受体匹配的HLA等位基因的核酸序列在慢病毒载体中递送，例如与置于转基因表达盒中的HLA等位基因序列的近侧的受体内源HLA启动子一起。

在一个实施例中，将核酸插入SIN慢病毒表达盒并包装在慢病毒载体颗粒中。供体细胞可以用含有受体HLA转基因的慢病毒载体转导。转导的细胞可以基于受体HLA等位基因相对于未接触受体HLA等位基因特异性慢病毒载体的供体细胞的增加的表达进行分选。可替代地，在一个实施例中，受体HLA等位基因供体模板可通过替代性方法(例如电穿孔或脂质转染)与Cas9和gRNA分子共同递送至供体细胞中，用于Cas9介导的靶向整合至安全港基因座(例如，AAVS1或CCR5)或Cas9介导的基因置换至原始基因座(例如HLA-A)中。

可替代地，可将递送CRISPR-Cas9组分和靶特异性gRNA分子的AAV(例如AAV6或AAVDJ)或非病毒载体和编码受体转基因表达盒的IDLV递送至供体细胞(例如HSPC)中。

在适当的情况下，可以通过基因座特异性PCR、DNA测序或qPCR(例如以确定每基因组当量的原病毒拷贝数)以及通过测定增加的HLA表达(例如，基于用于检测mRNA和蛋白质水平的常规方法)来验证受体匹配的HLA等位基因向供体细胞的引入。HLA的表达还可以在不同时间点上(例如，在一个或多个错配的供体HLA等位基因失活之前或之后，以及在引入一个或多个匹配的受体HLA等位基因之前或之后)通过NK细胞溶解测定来确定。如果供体细胞具有失活的一个或多个错配的供体HLA等位基因和引入的一个或多个匹配的受体HLA等位基因，那么对于细胞的无NK介导的裂解将是最小的。可以通过常规方法(例如遗传基因座的PCR扩增和DNA测序)确认HLA基因编辑之前和之后供体细胞的HLA分型。也可以通过qRT-PCR分析HLA修饰的供体细胞用于基因表达分析。

HLA匹配的、基因编辑的供体细胞然后可以使用常规临床方法和方案移植到受体受试者中。例如，可以针对在国家骨髓和脐血干细胞注册中代表性不足的受试者群体(否则，对于他们，不能识别出合适的供体)产生合适的供体。

改变HLA基因或基因座的方法

本文披露了用于改变基因或基因座(例如HLA基因或基因座)中的靶位置(例如靶敲除位置、靶敲低位置或靶敲入位置)的方法。可以通过例如改变基因中的一个或多个基因座或等位基因变体来实现改变靶位置。在这种方法中，错配的一个或多个等位基因被修饰，使得它们匹配一个或多个特定的等位基因变体。例如，可以修饰供体细胞(例如HSPC)以匹配与受体受试者相关的一个或多个HLA等位基因。本文所述基因的等位基因变体的改变增加了供体和受体受试者细胞之间HLA匹配的程度。本文描述的方法可以在所有细胞类型中进行，例如，在如此处描述的细胞类型中。

例如，改变靶位置可以通过如下方式来实现：

(1)敲除基因：

(a)基因中一个或多个核苷酸的插入或缺失(例如，NHEJ介导的插入或缺失)，或者

(b)包含基因的至少一部分的基因组序列的缺失(例如，NHEJ介导的缺失)，或

(2)通过靶向基因的启动子区，敲除由无酶活性的Cas9(eiCas9)分子或eiCas9-融合蛋白(例如与转录阻遏物融合)介导的基因，

(3)敲入基因(例如通过HDR)。

所有的方法都会引起基因的改变。

通过在HLA基因座中引入indel或缺失来敲除HLA等位基因

在一个实施例中，所述方法包括在基因座，例如HLA基因座，例如HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP))的编码区中引入一个或多个核苷酸的插入或缺失。如本文所述，在一个实施例中，所述方法包括在HLA基因座，例如HLA基因座的编码区(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如，DQB1或HLA-DP)内引入一个或多个断裂(例如单链断裂或双链断裂)。NHEJ介导的一个或多个断裂的修复允许在HLA基因座，例如HLA基因座的编码区(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如，DQB1或HLA-DP)内NHEJ介导的引入indel。

在一个实施例中，所述方法包括引入基因组序列的缺失，所述基因组序列包含HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)的至少一部分(例如编码区内的部分，例如早期编码区或非编码区内的部分，例如HLA基因座的非编码序列(例如启动子、增强子、内含子、3'UTR、和/或多聚腺苷酸化信号)。如本文所述，在一个实施例中，所述方法包括向HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)的位置(例如，在编码区内，例如在早期编码区内，或在非编码区内，例如HLA基因座的非编码序列，例如启动子、增强子、内含子、3'UTR、和/或多聚腺苷酸化信号)上引入两个双链断裂——一个5'和另一个3'(即位于侧翼)。在一个实施例中，两个gRNA例如单分子(或嵌合)或模块化gRNA分子被配置为将两个双链断裂定位在HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)的位置(例如，在编码区内，例如早期编码区，或在非编码区内，例如，HLA基因座的非编码序列，例如，启动子、增强子、内含子、3'UTR、和/或多聚腺苷酸化信号)的相对侧上。

在一个实施例中，在HLA基因座，例如HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)的编码区内引入单链断裂(例如，通过一个gRNA分子定位)。在一个实施例中，使用单个gRNA分子(例如，用Cas9切口酶)在HLA基因座，例如HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP或HLA基因座(例如，HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)的编码区内的位置的下游)的编码区产生单链断裂。在实施例中，所述断裂被定位成避免不想要的靶染色体元件(如重复元件，例如Alu重复)。

在一个实施例中，在HLA基因座，例如HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)的编码区内引入双链断裂(例如，通过一个gRNA分子定位)。在一个实施例中，使用单个gRNA分子(例如，使用不同于Cas9切口酶的Cas9核酸酶)在HLA基因座，例如HLA基因座的编码区(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)产生双链断裂，例如gRNA分子被配置为使得双链断裂位于HLA基因座内(例如，HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)的编码区的)位置的上游或下游。在实施例中，所述断裂被定位成避免不想要的靶染色体元件(如重复元件，例如Alu重复)。

在一个实施例中，在HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)内引入两个单链断裂(例如，通过两个gRNA分子定位)。在一个实施例中，使用两个gRNA分子(例如，用一个或两个Cas9切口酶)在HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如，DQB1或HLA-DP)内产生两个单链断裂，例如gRNA分子被配置为使得两个单链断裂位于例如HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如，DQB1或HLA-DP)的位置(例如，在编码区内，例如早期编码区，或在非编码区内，例如HLA基因座的非编码序列，例如启动子、增强子、内含子、3’UTR、和/或多聚腺苷酸化信号)的上游或下游。在另一个实施例中，使用两个gRNA分子(例如，用两个Cas9切口酶)在HLA基因座，例如HLA基因座的编码区(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如，DQB1或HLA-DP)内产生两个单链断裂，例如，gRNA分子被配置为使得一个单链断裂位于HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)的位置(例如，在编码区内，例如早期编码区，或在非编码区内，例如HLA基因座的非编码序列，例如，启动子、增强子、内含子、3’UTR、和/或多聚腺苷酸化信号)的上游并且第二个单链断裂位于其下游。在实施例中，所述断裂被定位成避免不想要的靶染色体元件(如重复元件，例如Alu重复)。

在一个实施例中，在HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)内引入两个双链断裂(例如，通过两个gRNA分子定位)。在一个实施例中，使用两个gRNA分子(例如，用不是Cas9切口酶的一个或两个Cas9核酸酶)来产生两个双链断裂以侧翼于HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如，DQB1或HLA-DP)的位置(例如，在编码区内，例如早期编码区，或在非编码区内，例如HLA基因座的非编码区，例如，启动子、增强子、内含子、3’UTR、和/或多聚腺苷酸化信号)，例如gRNA分子被配置为使得一个双链断裂位于HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)的位置(例如，在编码区内，例如早期编码区，或在非编码区内，例如HLA基因座的非编码区，例如，启动子、增强子、内含子、3’UTR、和/或多聚腺苷酸化信号)的上游并且第二个双链断裂位于其下游。在实施例中，所述断裂被定位成避免不想要的靶染色体元件(如重复元件，例如Alu重复)。

在一个实施例中，在HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)内引入一个双链断裂和两个单链断裂(例如，通过三个gRNA分子定位)。在一个实施例中，使用三个gRNA分子(例如，用除Cas9切口酶以外的Cas9核酸酶和一个或两个Cas9切口酶)产生侧翼于HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)的位置(例如，在编码区内，例如早期编码区，或在非编码区内，例如HLA基因座的非编码序列，例如启动子、增强子、内含子、3’UTR、和/或多聚腺苷酸化信号)的一个双链断裂和两个单链断裂，例如该gRNA分子被配置使得双链断裂位于HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)的位置(例如，在编码区内，例如早期编码区，或在非编码区内，例如HLA基因座的非编码序列，例如启动子、增强子、内含子、3’UTR、和/或多聚腺苷酸化信号)的上游或下游，并且所述两个单链断裂位于相反的位置，即，HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)的编码区内的位置的下游或上游。在实施例中，所述断裂被定位成避免不想要的靶染色体元件(如重复元件，例如Alu重复)。

在一个实施例中，在HLA基因座(例如HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)的编码区内引入四个单链断裂(例如，由四个gRNA分子定位)。在一个实施例中，使用四个gRNA分子(例如，使用一个或多个Cas9切口酶)产生侧翼于HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如，DQB1或HLA-DP)的位置(例如，在编码区内，例如在早期编码区内，或在非编码区内，例如HLA基因座的非编码序列，例如，启动子、增强子、内含子、3’UTR、和/或多聚腺苷酸化信号)的四个单链断裂，例如该gRNA分子被配置为使得第一个和第二个单链断裂被定位在HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP)的编码区内的位置的上游，并且第三个和第四个单链断裂被定位在HLA基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如，DQB1或HLA-DP)的编码区的位置的下游。在实施例中，所述断裂被定位成避免不想要的靶染色体元件(如重复元件，例如Alu重复)。

在实施例中，两种或更多种(例如，三种或四种)gRNA分子与一种Cas9分子一起使用。在另一个实施例中，当两种或更多种(例如，三种或四种)gRNA与两种或更多种Cas9分子一起使用时，至少一种Cas9分子来自与其他一种或多种Cas9分子不同的物种。例如，当两个gRNA分子与两个Cas9分子一起使用时，一个Cas9分子可以来自一种物种并且另一个Cas9分子可以来自不同的物种。根据需要，两种Cas9种类均用于产生单链或双链断裂。敲低由无酶促活性的Cas9(eiCas9)分子介导的HLA等位基因

有靶向的敲低方法减少或消除功能性基因产物(例如，功能性HLA基因产物(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如DQB1或HLA-DP))的表达。如在此所描述的，在一个实施例中，靶向敲低是通过靶向无酶促活性Cas9(eiCas9)分子或与转录阻遏物结构域或染色质修饰蛋白融合的eiCas9来介导的，以改变HLA基因的转录，例如阻断、减少或降低HLA基因的转录。

本文讨论的方法和组合物可用于改变HLA基因(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DR3/4/5、HLA-DQ，例如，DQB1或HLA-DP)的表达。在一个实施例中，启动子区域被靶向敲低HLA基因的表达。靶向的敲低方法减少或消除功能性HLA基因产物的表达。如在此所描述的，在一个实施例中，靶向敲低是通过靶向无酶促活性Cas9(eiCas9)或与转录阻遏物结构域或染色质修饰蛋白融合的eiCas9来介导的，以改变HLA基因的转录，例如阻断、减少或降低HLA基因的转录。

在实施例中，一种或多种eiCas9可以用于阻断一种或多种内源转录因子的结合。在另一个实施例中，eiCas9可以与染色质修饰蛋白融合。改变染色质状态可以导致靶基因的表达降低。与一种或多种染色质修饰蛋白融合的一种或多种eiCas9可以用于改变染色质状态。

敲入基因序列的方法

本文披露了用于改变基因或基因座(例如本文所述的基因或基因座)中的靶位置(例如靶敲入位置)的方法。在一个实施例中，该方法包括靶向整合。在一个实施例中，该方法包括将一个或多个匹配的受体HLA等位基因递送到一个或多个错配的供体HLA等位基因所处的一个或多个原始位置。在一个实施例中，所述方法包括将一个或多个匹配的受体HLA等位基因插入“安全港”基因座中。在一个实施例中，所述方法还包括在基因中引入用于体内选择的化疗抗性基因。改变靶位置可以例如通过敲入基因序列，例如本文所述的基因序列(例如编码本文所述的基因的至少一部分的cDNA)，例如，通过HDR来实现。本文所述的基因序列的敲入导致受体匹配的HLA等位基因的表达。

HLA基因或基因座的复合改变

在相同的一个或多个细胞中的两个或更多个基因或基因座的改变在本文中被称为“复合”。复合构成了在相同一个细胞或多个细胞中的至少两个基因或基因座(例如HLA基因或基因座)的修饰。当两个或更多个基因或基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRBI、HLA-DRB3/4/5、HLA-DQB1、HLA-DP、MiHAs、和任何其他的MHC类别I或类别II基因或基因座)靶向改变时，两个或更多个基因或基因座可以相继或同时改变。在一个实施例中，HLA基因或基因座的改变在另一个HLA基因或基因座改变之前或之后。在一个实施例中，HLA基因或基因座的改变与另一个HLA基因或基因座的改变同时发生。在一个实施例中，依次改变两个或更多个HLA等位基因或基因(例如HLA-A和HLA-DRB1)，以降低引入涉及两个靶位置的基因组重排(例如易位)的概率。在一个实施例中，改变是单等位基因的。在另一个实施例中，改变是双等位基因的。在一个实施例中，改变的效果是协同的。HLA基因或基因座的复合改变可以更大概率地提供给需要移植(例如HSCT)的受试者合适的供体，同时降低GVHD的严重性和发生率。

靶细胞的优化

本文描述的细胞(例如靶细胞)可以被优化或操控，例如离体或体内。靶细胞的优化或操控允许细胞的维持、扩增、持续或调节，用于CRISPR/Cas介导的基因编辑或调节。例如，靶细胞(例如造血干细胞/祖细胞(HSPC))的优化或操控可保持细胞的健康、功能性、自我更新、或增殖潜力，或通过自噬、细胞凋亡、坏死或细胞衰老防止细胞死亡。

靶细胞可以在与CRISPR/Cas组分，例如Cas9分子、gRNA分子或两者以及任选的，供体模板核酸接触之前，期间或之后被优化或操控。在一个实施例中，靶细胞在与CRISPR/Cas组分接触之前和期间被优化或操控。在一个实施例中，靶细胞在与CRISPR/Cas组分接触期间和之后被优化或操控。在一个实施例中，靶细胞在与CRISPR/Cas组分接触之前和之后被优化或操控。在一个实施例中，靶细胞在与CRISPR/Cas组分接触之前，在期间和之后被优化或操控。

可以依次应用几个不同的优化或操控步骤，例如，以相对于与CRISPR/Cas组分(例如Cas9分子、gRNA分子或两者)和任选的供体模板核酸接触的特定时间间隔。还可以同时应用几个不同的优化或操控步骤，例如，以相对于与CRISPR/Cas组分(例如Cas9分子、gRNA分子或两者)以及任选的供体模板核酸接触的特定时间间隔。

例如，靶细胞可以被优化或操控以含有一个或多个转基因。可以将转基因整合到靶细胞基因组的特定基因座中，例如通过CRIPSR/Cas相关机制。转基因可以提供安全开关，其允许在扩增和移植之前调节修饰细胞的富集和/或纯化。还据信，在一个实施例中，如果移植的细胞没有被很好地检测到，转基因将允许体内的修饰的细胞扩增，或者，在修饰的细胞功能失调或经历白血病转化的情况下，允许体内去除修饰的细胞。作为又一个实例，靶细胞可以通过与一种或多种eiCas9分子(例如与转录阻遏物或活化剂融合)接触来优化或操控。

截短的细胞表面抗原的引入

表达细胞表面抗原或选择性标记的修饰的靶细胞的纯化将提供确保CRISPR/Cas组分，例如Cas9分子、gRNA分子或两者以及任选的供体模板核酸被递送至细胞(例如离体递送)的方法。靶细胞的细胞表面抗原表达还将允许跟踪体内修饰的靶细胞。

在一个实施例中，靶细胞包含编码细胞表面抗原或选择标记的基因或与其接触。在一个实施例中，细胞表面抗原或选择标记是截短的CD19(tCD19)。在另一个实施例中，细胞表面抗原或选择标记是截短的CD20(tCD20)。全长细胞表面受体CD19和CD20在B淋巴细胞上自然表达。截短CD19或CD20阻止了细胞内信号通过受体，因为胞质域被除去(Tey等人，2007,Biol Blood Marrow Transplant[血液和骨髓移植生物学]，13(8):913-24)。CD19或CD20的细胞外结构域的表达将允许在细胞上进行分选和在体内追踪细胞(例如通过抽血和用抗人CD19或抗人CD20抗体染色细胞以监测基因编辑的细胞的植入)。在一个实施例中，tCD19或tCD20转基因作为供体模板核酸递送。在一个实施例中，使靶细胞与一个或多个包含靶向结构域的gRNA分子接触，所述靶向结构域与来自转基因整合到的区域的靶向结构域互补。在一个实施例中，将tCD19或tCD20转基因整合到基因组中，例如在安全港基因座上，例如AAVS1安全港基因座。可以使用截短的CD19或CD20细胞表面抗原的引入或共同引入(复合基因组编辑)来离体纯化基因组编辑的细胞或在体内监测基因组编辑的细胞。

化疗抗性转基因或自杀基因的引入

本文描述的方法允许体内或离体调节靶细胞，使得可以选择或扩增具有所希望的性质的修饰的靶细胞，或者可以消除具有不希望的性质(例如白血病转化)的修饰的靶细胞。

在一个实施例中，靶细胞包含安全开关或与安全开关接触，所述安全开关允许例如离体或体内选择所希望的靶细胞或例如离体或体内消除不期望的靶细胞。在一个实施例中，安全开关含有自杀基因和/或编码化疗选择标记的基因。例如，靶细胞可以包含安全开关，其包含两个组件：1)截短的细胞表面抗原(tCD20)和诱导型自杀基因，其可用于离体分选经基因组编辑的细胞，可用于在体内追踪细胞，并且也可用于通过给患者施用利妥昔单抗(抗CD20单克隆抗体疗法)在体内白血病转化的情况下消除细胞；和2)药物诱导的化疗抗性基因(例如甲基鸟嘌呤甲基转移酶[P140K MGMT]的P140K变体)，其在用烷化化学治疗(O6-苄基鸟嘌呤[O6BG]和BCNU)治疗患者时，将在体内通过除去未编辑的细胞选择基因组编辑细胞，由此增加用基因组编辑的细胞进行的骨髓体内再增殖。

在一个实施例中，靶细胞包含自杀基因或与自杀基因接触。在一个实施例中，自杀基因编码诱导型半胱天冬酶-9(iCasp9)。在一个实施例中，靶细胞进一步与二聚化学诱导剂例如AP1903或AP2018接触。半胱天冬酶-9在用二聚化学诱导剂处理时诱导细胞凋亡(DiStasi等人，2011,New Eng Journal Med[新英格兰医学期刊]，365:1673-1683)。在另一个实施例中，自杀基因编码截短的CD20(tCD20)。在一个实施例中，靶细胞进一步与抗CD20抗体例如利妥昔单抗接触。抗CD20抗体可诱导免疫应答并导致表达CD20的细胞死亡(Redman等人，2015,Mol Immunol[分子免疫学]，S0161-5890(15):00361-2)。

在一个实施例中，靶细胞包含编码化疗选择标记的基因，靶细胞与编码化疗选择标记的基因接触。在一个实施例中，化疗选择标记是甲基鸟嘌呤甲基转移酶的变体(例如，甲基鸟嘌呤甲基转移酶的P140K变体)。在一个实施例中，靶细胞进一步与化学治疗剂例如O6BG/BCNU接触。甲基鸟嘌呤甲基转移酶P140K变体与O6BG/BCNU化疗的使用在通过慢病毒转导递送后增加骨髓中基因修饰的造血干细胞/祖细胞的水平方面是有效的(Gori等人，2012,Cancer Gene Therapy[肿瘤基因治疗]，19(8):1523-9；Beard等人，2010.J ClinInvest[临床研究杂志]，120(7):2345-54)。

在一个实施例中，转基因在供体模板核酸上提供或作为其被递送。在一个实施例中，使靶细胞与一个或多个包含靶向结构域的gRNA分子接触，所述靶向结构域与来自转基因整合到的区域的靶向结构域互补。在一个实施例中，将转基因整合到基因组中，例如在安全港基因座，例如AAVS1安全港基因座中。在一个实施例中，转基因包含tCD20-2A-P140K双顺反子转基因盒。

gRNA分子的修饰

在病毒-宿主共同进化期间，模拟mRNA加帽的病毒RNA加帽进化为允许病毒RNA逃脱细胞先天免疫系统的检测(Delcroy等人，2012,Nature Reviews Microbiology[自然综述微生物学]，10:51-65)。靶细胞(例如HSPC)中的Toll样受体意识到外源单链和双链RNA的存在，其可导致先天免疫应答、细胞衰老和程序性细胞死亡(Kajaste-Rudnitski和Naldini,2015,Human Gene Therapy[人类基因治疗]，26:201-209)。最初实验的结果显示，与单独用GFP mRNA电穿孔的细胞相比较，用未修饰的(例如，不含5'帽或3'聚A尾部合成的gRNA)gRNA分子和Cas9 mRNA电穿孔的人HSPC导致减小的细胞存活率、增殖潜力或多潜能性(例如红细胞分化潜力损失和倾斜的骨髓分化潜力)。为了解决这个问题，假设细胞衰老和细胞凋亡是由于靶细胞感应外源核酸和诱导先天性免疫应答以及随后诱导程序性细胞死亡和增殖和分化潜力的损失。为了避免细胞对外源核酸的先天性免疫反应，修饰gRNA分子以类似于mRNA(例如，添加5'帽和3'聚A尾部)可以防止由于感应外源核酸而引起的细胞中的先天性免疫应答、细胞中的干扰素应答、细胞衰老、或程序性细胞死亡。

在一个实施例中，使靶细胞与加帽和加尾的gRNA分子接触。在一个实施例中，使靶细胞与含有加帽和加尾的gRNA分子的Cas9分子/gRNA分子复合物接触。将靶细胞与加帽和加尾的gRNA分子接触可以增加修饰的靶细胞的存活率，保持靶细胞多潜能性、增殖潜力或活力，或者防止细胞衰老和程序性细胞死亡。

治疗或预防疾病的方法

本文所述的方法和组合物提供了一种疗法，例如治疗或预防疾病(例如本文所述的疾病)的一次性疗法或多剂量疗法。在一个实施例中，用于治疗或预防疾病的方法改变细胞，例如本文所述的细胞，例如离体或体内。与疾病相关的任何类型的细胞可以通过本文所述的方法改变。例如，细胞是循环血细胞、动员的血细胞、骨髓细胞、髓样祖细胞、淋巴样祖细胞、造血干细胞/祖细胞(HSPC)、多能祖细胞、谱系限制性祖细胞、内皮细胞或间充质基质细胞。在另一个实施例中，治疗或预防疾病的方法例如通过CRISPR/Cas介导的基因编辑改变基因，例如本文所述的基因。可以在疾病发作之前或疾病发作之后进行细胞或基因的改变(例如校正、敲除、敲入、敲低或活化)。可以通过本文描述的方法治疗或预防的示例性疾病包括但不限于表16中列出的疾病。可以通过本文所述的方法改变的示例性基因包括但不限于表16中列出的基因。

在一个实施例中，使用CRISPR/Cas介导的方法或任何其他的敲入或基因递送方法(包括“睡美人”转座子、慢病毒载体或腺相关病毒载体)，将基因敲入靶细胞(例如HSPC)中的安全港基因座(例如AAVS1安全港基因座)中。

在一个实施例中，该基因编码分泌的可溶性蛋白质。编码分泌的可溶性血蛋白的基因的敲入可以用于治疗或治愈疾病，包括表16中列出的疾病，例如，溶酶体贮存病、糖原贮积病、黏多糖沉积症或任何其中蛋白质的分泌将改善疾病的疾病。

在一个实施例中，疾病与循环血液蛋白质的缺乏有关。示例性的疾病包括但不限于血友病(例如血友病A或血友病B)、A1AT缺陷或溶酶体酸脂酶缺乏。引入编码与缺陷相关的分泌的可溶性血蛋白的基因可以增加蛋白质的血液循环水平，并且因此改善或治愈疾病。在一个实施例中，疾病是血友病，例如血友病A或血友病B。在一个实施例中，该基因是编码凝血因子VIII的F8基因。在一个实施例中，该方法包括敲入F8基因，由此治疗或预防血友病A。在另一个实施例中，该基因是编码凝血因子IX的F9基因。在一个实施例中，所述方法包括敲入F9基因，从而治疗或预防血友病B。在一个实施例中，所述疾病是A1AT缺陷。在一个实施例中，所述基因是编码α-1抗胰蛋白酶的特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体的序列。在一个实施例中，所述方法包括敲入特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体的序列，从而治疗或预防A1AT缺陷。在一个实施例中，该疾病是溶酶体酸脂酶缺乏。在一个实施例中，所述基因是编码溶酶体酸脂肪酶，从而治疗或预防溶酶体酸脂酶缺乏的LAL基因。

在一个实施例中，所述疾病是糖尿病。在一个实施例中，该基因编码分泌的可溶性血蛋白。编码分泌的可溶性血蛋白(例如在可药化的、可诱导的或可选择的启动子的控制下)的基因的敲入可以增加该蛋白的循环血液水平，并且因此改善或治愈疾病。在一个实施例中，该基因是编码蛋白质胰岛素的INS基因。在一个实施例中，该基因是编码蛋白质胰高血糖素的GCG基因。在一个实施例中，所述方法包括敲入INS基因或GCG基因，例如在可药化的、可诱导的或可选择的启动子的控制下，由此治疗或预防糖尿病。

在一个实施例中，疾病是生长激素缺乏症。在一个实施例中，该基因是编码生长激素的GH基因。GH基因的敲除，例如在可药化的、可诱导的或可选择的启动子的控制下，可以增加循环生长激素水平，并且因此改善或治愈疾病。在一个实施例中，所述方法包括敲入GH基因，例如在可药化的、可诱导的或可选择的启动子的控制下，由此治疗或预防生长激素缺乏症。

在一个实施例中，所述疾病是癌症，例如血液性癌。在一个实施例中，该基因是在癌症中过表达的基因。敲除基因，例如通过与转录阻遏物融合的eiCas9分子，可以改善或治愈疾病。在一个实施例中，该基因是EGFR基因。在一个实施例中，该方法包括激活EGFR基因，从而治疗或预防癌症进展和转移。

在一个实施例中，该疾病是遗传性血管性水肿。在一个实施例中，该基因是在遗传性血管性水肿中低表达的基因。例如通过与转录激活物融合的eiCas9分子的基因上调或活化改善或治愈了疾病。在一个实施例中，该基因是C1INH基因。在一个实施例中，该方法包括活化C1INH基因，由此治疗或预防遗传性血管性水肿。

在一个实施例中，该疾病是血管性血友病(Von Willebrand disease)。在一个实施例中，所述基因在血管性血友病中低表达。例如通过与转录激活物融合的eiCas9分子的基因上调或活化改善或治愈了疾病。在一个实施例中，该基因是VWF基因。在一个实施例中，该方法包括激活VWF基因，从而治疗或预防血管性血友病。

在一个实施例中，所述疾病是遗传性或获得性贫血。在一个实施例中，该基因是遗传性或获得性贫血中低表达的基因。例如通过与转录激活物融合的eiCas9分子的基因的瞬时上调或活化改善了或治愈了疾病。在一个实施例中，该基因是EPO基因。在一个实施例中，该方法包括瞬时活化EPO基因，由此治疗或预防遗传性或获得性贫血。

在一个实施例中，该疾病是中性粒细胞减少。在一个实施例中，该基因是在中性粒细胞减少中低表达的基因。例如通过与转录激活物融合的eiCas9分子的基因的上调或活化可改善或治愈疾病。在一个实施例中，该基因是CSF2基因。在一个实施例中，所述方法包括瞬时活化CSF2基因，从而治疗或预防中性粒细胞减少。

在一个实施例中，该疾病是生长障碍。在一个实施例中，该基因是在生长障碍中低表达的基因。例如通过融合至转录激活物的eiCas9分子的基因的瞬时上调或活化可以改善或治愈疾病。在一个实施例中，该基因是GH1。在一个实施例中，所述方法包括瞬时激活GH1基因，从而治疗或预防生长障碍。

在一个实施例中，所述疾病是传染病、自身免疫病、炎性疾病、风湿性疾病或肿瘤学疾病。在一个实施例中，所述基因编码细胞因子、趋化因子、白细胞介素或炎性蛋白。例如，通过与转录阻遏物融合的eiCas9分子(例如，诱导型eiCas9分子)对编码细胞因子、趋化因子、白细胞介素或炎性蛋白的基因的瞬时或永久性下调或抑制可改善或治愈疾病。在一个实施例中，所述疾病是血液性癌。在一个实施例中，该基因是EPOR基因。在一个实施例中，该方法包括敲低EPOR基因，从而治疗或预防血液性癌。在一个实施例中，所述疾病是类风湿性关节炎。在一个实施例中，该基因是TNF基因。在一个实施例中，所述方法包括敲低TNF基因，由此治疗或预防类风湿性关节炎。在一个实施例中，该疾病是炎性疾病。在一个实施例中，该基因是C5基因。在一个实施例中，该方法包括敲低C5基因，由此治疗或预防炎性疾病。

在一个实施例中，所述疾病是传染病、自身免疫病、炎性疾病、风湿性疾病或肿瘤学疾病。在一个实施例中，所述基因编码细胞因子、趋化因子、白细胞介素或炎性蛋白。例如，通过与转录激活物融合的eiCas9分子(例如，诱导型eiCas9分子)对编码细胞因子、趋化因子、白细胞介素或炎性蛋白的基因的瞬时或永久性上调或活化可改善或治愈疾病。在一个实施例中，所述疾病是多发性硬化症。在一个实施例中，该基因是IFNB1基因。在一个实施例中，该方法包括活化IFNB1基因，从而治疗或预防多发性硬化症。

在一个实施例中，疾病是传染病、自身免疫性疾病、炎性疾病、风湿性疾病或肿瘤学疾病。在一个实施例中，所述基因编码细胞因子、趋化因子、白细胞介素或炎性蛋白受体。例如通过eaCas9分子对编码细胞因子、趋化因子、白细胞介素或炎性蛋白的基因的敲除将改善或治愈疾病。在一个实施例中，所述疾病是HIV或AIDS。在一个实施例中，该基因是CCR5。在另一个实施例中，该基因是CXCR4基因。在一个实施例中，所述方法包括敲除CCR5基因、CXCR4基因或两者，由此治疗或预防HIV或AIDS。

在一个实施例中，所述疾病是中风或心肌梗塞。在一个实施例中，所述基因编码可溶性血液蛋白，例如组织纤溶酶原激活物或泌尿纤溶酶原激活物。例如通过与转录激活物融合的eiCas9分子的例如瞬时基因上调或活化可以改善或预防疾病，例如预防局部缺血或溶解血块。在一个实施例中，该基因是PLAT基因。在一个实施例中，该方法包括活化PLAT基因，由此治疗或预防中风或心肌梗塞。

在一个实施例中，该疾病是血红蛋白病。在一个实施例中，该基因含有引起血红蛋白病的突变。在一个实施例中，该基因不含引起血红蛋白病的突变。敲除或校正基因可以改善或治愈疾病。在一个实施例中，含有突变的基因是HBB、HBA1或HBA2。在一个实施例中，所述方法包括校正突变的HBB、HBA1和HBA2基因，由此治疗或预防镰状细胞病、α地中海贫血或β地中海贫血。在一个实施例中，该基因是BCL11A。在一个实施例中，所述方法包括敲除BCL11A基因，由此治疗或预防镰状细胞病或β地中海贫血。

在一个实施例中，疾病是贫血。在一个实施例中，该基因含有引起贫血的突变，例如溶血性贫血，例如，由于红细胞丙酮酸激酶缺乏症。敲除或校正基因可以改善或治愈贫血。在一个实施例中，该基因是PKLR。在一个实施例中，所述方法包括校正敲入野生型PKLR基因或校正突变的PKLR基因，由此治疗或预防贫血，例如溶血性贫血。

在一个实施例中，所述疾病是凝血因子病，例如血友病A。在一个实施例中，该基因含有导致凝血因子疾病的突变。基因校正可以改善或治愈凝血因子疾病。在一个实施例中，该基因是F8。在一个实施例中，该方法包括校正突变的F8基因，由此治疗或预防血友病A。

在一个实施例中，所述疾病是代谢性疾病，例如黏多糖沉积症I型。在一个实施例中，该基因含有导致代谢疾病的突变。敲除或校正基因可以改善或治愈代谢性疾病。在一个实施例中，该基因是IDUA基因。在一个实施例中，所述方法包括敲入野生型IDUA基因或校正突变的IDUA基因，由此治疗或预防黏多糖沉积症I型。

在一个实施例中，所述疾病是免疫缺陷，例如X连锁重症联合免疫缺陷。在一个实施例中，该基因含有导致免疫缺陷的突变。敲入或校正基因可以改善或治愈疾病。在一个实施例中，该基因是IL2RG基因。在一个实施例中，该方法包括敲除野生型IL2RG基因或校正突变的IL2RG基因，由此治疗或预防X连锁的重症联合免疫缺陷。

在一个实施例中，所述疾病是骨髓性免疫缺陷，例如慢性肉芽肿病。在一个实施例中，该基因含有导致骨髓免疫缺陷的突变。敲入或校正基因可以改善或治愈疾病。在一个实施例中，该基因是NCF1基因。在一个实施例中，所述方法包括敲入野生型NCF1基因或校正突变的NCF1基因，由此治疗或预防慢性肉芽肿病。

在一个实施例中，所述疾病是β-淋巴或免疫球蛋白缺陷，例如X连锁无丙种球蛋白血症。在一个实施例中，该基因含有与β-淋巴或免疫球蛋白缺陷相关的突变。敲入或校正基因可以改善或治愈疾病。在一个实施例中，该基因是BTK基因。在一个实施例中，所述方法包括敲入野生型BTK基因或校正突变的BTK基因，由此治疗或预防X连锁无丙种球蛋白血症。

在一个实施例中，所述疾病是血细胞减少症，例如先天性巨核细胞血小板减少症I型。在一个实施例中，该基因含有与血细胞减少症相关的突变。敲入或校正基因可以改善或治愈疾病。在一个实施例中，该基因是MPL基因。在一个实施例中，所述方法包括敲入野生型MPL基因或校正突变的MPL基因，由此治疗或预防先天性巨核细胞血小板减少症I型。

在一个实施例中，所述疾病是代谢性疾病、酶缺乏症、运输障碍或积贮病，例如IIIA型黏多糖沉积症。在一个实施例中，该基因含有与代谢疾病、酶缺乏症、运输障碍或积贮病有关的突变。敲入或校正基因可以改善或治愈疾病。在一个实施例中，该基因是SGSH基因。在一个实施例中，所述方法包括敲入野生型SGSH基因或校正突变的SGSH基因，由此治疗或预防IIIA型黏多糖沉积症。

在一个实施例中，所述疾病是红细胞病，例如原发性家族性和先天性红细胞增多症。在一个实施例中，该基因含有与红细胞病有关的突变。敲入或校正基因可以改善或治愈疾病。在一个实施例中，该基因是EPOR基因。在一个实施例中，所述方法包括瞬时或永久性敲低EPOR基因，由此治疗或预防原发性家族性和先天性红细胞增多症。

在一个实施例中，所述疾病是红细胞病，例如原发性家族性和先天性红细胞增多症。在一个实施例中，该基因含有与红细胞病有关的突变。敲入或校正基因可以改善或治愈疾病。在一个实施例中，该基因是EPOR基因。在一个实施例中，所述方法包括敲除或敲低EPOR基因，由此治疗或预防原发性家族性和先天性红细胞增多症。

表16描述了可以通过本文描述的方法治疗或预防的示例性疾病以及可以通过本文描述的方法改变的实例性基因。

表16

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

在一个实施例中，在疾病发作后在受试者中开始治疗。在一个实施例中，在疾病发作后，但在疾病进展过程的早期(例如在某些症状发展之前)，例如为了阻止疾病的进展，在受试者中开始治疗。在一个实施例中，所述方法包括在疾病的晚期阶段开始治疗受试者，例如以减缓疾病的进展。

在一个实施例中，本文所述的方法用于治疗患有本文所述疾病的受试者。在一个实施例中，本文所述的方法用于预防或延缓本文所述疾病的发作或进展。

在一个实施例中，本文所述的方法导致一种或多种修饰细胞的存活的选择性优势。在一个实施例中，靶细胞被修饰并具有基因敲除、敲入、敲低或校正。没有被修饰的患病细胞可能会发生细胞凋亡。因此，在一个实施例中，在本文所述的治疗之后，修饰的细胞存活，而未修饰的细胞死亡。这种选择性的优势可以驱动具有至少50％，例如至少60％、70％、80％、90％、95％、99％或100％修饰细胞的细胞最终定殖。

在一个实施例中，所述方法包括在经历基因测试的受试者中开始治疗，所述基因测试在基因中发现突变，例如在本文所述的基因中。

在一个实施例中，所述方法包括在测试为本文所述疾病的阳性的受试者中开始治疗。

在一个实施例中，所述方法包括在具有疾病家族史的受试者中开始治疗，所述受试者表现出所述疾病的任何症状或体征和/或已经被发现在与所述疾病相关的基因中具有突变。

在一个实施例中，该方法包括在出现与疾病一致或相关的症状时治疗受试者。

在一个实施例中，该方法包括从受试者分离细胞。在一个实施例中，细胞被体外改变并返回(例如移植)至受试者中。在一个实施例中，受试者是与所述细胞从其分离的受试者相同的受试者。在另一个实施例中，受试者不同于细胞从其分离的受试者。在一个实施例中，自体干细胞/祖细胞被离体改变并返回至受试者中。在另一个实施例中，异源干细胞/祖细胞被体外改变并返回到受试者中。

在一个实施例中，治疗包括将gRNA分子、Cas9分子和任选的供体模板核酸递送至本文所述的细胞中。在一个实施例中，通过病毒载体(例如AAV载体或慢病毒载体，例如整合缺陷型慢病毒(IDLV))递送gRNA分子、Cas9分子或两者以及任选的模板核酸。在另一个实施例中，gRNA分子和Cas9分子作为gRNA分子/Cas9分子核糖核蛋白复合体递送。在另一个实施例中，gRNA分子和Cas9分子作为RNA递送。在一个实施例中，模板核酸包含靶基因的至少一个外显子。在一个实施例中，模板核酸不包含与疾病相关的突变。在一个实施例中，模板核酸包含启动子序列。在另一实施例中，模板核酸不包含启动子序列。在一个实施例中，模板核酸包含剪接供体或受体。在另一个实施例中，模板核酸包含多聚腺苷酸化信号。

用于移植的修饰的异基因供体HSC

将供体异基因HSC移植到患有遗传性血液遗传疾病(例如镰状细胞病)或恶性疾病(例如白血病)的患者中将为受体患者提供替代性功能性造血系统。如果供体细胞被遗传修饰以增加部分匹配的潜在供体和需要移植的受体患者之间的HLA匹配。在这种情况下，基于不理想的HLA匹配(例如，潜在的供体和受体患者在6个基因座中的3个之间匹配)，通常将被排除作为合适供体的潜在供体将在一个或更多个HLA基因座(例如，将匹配从3/6增加至4/6、5/6、或6/6)的基因编辑之后有资格作为供体。然而，在一个或多个HLA基因座处对一个或多个HLA等位基因进行基因编辑可以减少错配，从而产生合适水平的HLA匹配以有资格作为需要HSC移植(例如，在HLA基因座处的4/6、5/6、或6/6匹配)的患者的HSC供体。如果没有供体HSC的基因编辑以增加匹配，那么受体将不具有合适的供体(例如，在HLA基因座上的3/6匹配)。对于治疗，为受体识别了部分匹配的供体(例如3/6)，其将被输入数据库，然后输出可用于靶向一个或多个错配的HLA等位基因的gRNA。用于基因编辑的最好的策略(具有最低脱靶谱、最高中靶谱，并且如果复用，有利于在相反染色体上的靶向等位基因编辑的gRNA)和最合适的潜在供体(例如HLA匹配等位基因上的纯合子，在miHA上的匹配的最大程度，更相似的血统背景)将被选中。基因编辑的效率将在供体T细胞中进行测试(在修饰供体HSC之前，与外周围血液T细胞相比，供体HSC的供应更为有限)。将供体HSC进行基因编辑以增加匹配，并且然后将修饰的HSC移植到受体患者体内。简而言之，从供体收集HSC，进行离体基因组编辑以删除或破坏错配的HLA，用免疫磁珠方法(例如CliniMAC或Prodigy)分选以富集HLA等位基因阴性部分(例如用与用于阴性选择的磁珠偶联的HLA等位基因特异性抗体)。然后，将与受体错配减少的HSC注入患者体内。然而，如果需要编辑一个基因座上的两个不同的等位基因，那么另一个方法是通过HDR方法替换等位基因。HSC移植后，HSC可以重建血液谱系，使得HSC子代(例如，血液谱系，例如，髓样细胞、淋巴样细胞、小胶质细胞)具有降低的GVHD风险。

在HSC移植过程中HLA修饰T细胞反向添加作为淋巴桥用于免疫重建

正在进行异基因HSC移植的受试者在移植后的时间段里面临着机会性感染的风险。受试者接受清髓性调理方案，以为HSC移植做准备，其进一步消耗有助于预防感染的T细胞。在受试者中的免疫重建可能需要几个月的时间。在此期间，来自供体的HSC分化成T细胞，前往胸腺并暴露于抗原并开始重建适应性免疫。

在进行异基因HSC移植的受试者中，在移植后立即使用修饰的T细胞反向添加可以提供适应性免疫淋巴桥。在非恶性疾病背景下，供体的T细胞和HSC根据所述方法进行修饰，例如，经历CRISPR/Cas9介导的修饰以增加供体和受体之间错配的HLA基因座的匹配。修饰(例如在HLA基因座处的CRISPR/Cas9介导的修饰)使供体T细胞和HSC对供体自体免疫系统的潜在排斥耐受。HLA基因编辑的T细胞在清髓性调理之后和在异基因HSC移植之前立即给予受试者，或者与HSC移植物共注入，或者在HSC移植之后给药。当HLA修饰的HSC移植正在移植时，这些HLA基因编辑T细胞提供针对机会性感染的短期免疫。用于淋巴或T细胞反向添加的修饰的T细胞可具有有限的寿命(约2周至60天至1年)(Westera等人，Blood[血液]2013；122(13):2205-2212)。在移植后的时间段里，这些细胞可以提供对受试者的保护性免疫。在需要移植的患者患有血癌(例如白血病、淋巴瘤)和移植物抗宿主病(GVHD的较高风险与更高的T细胞剂量相关)的情况下，可以修饰特定的HLA编辑事件和反向添加的T细胞的细胞剂量以平衡免疫保护和移植物抗白血病效应(GVL)(Montero等人，Biol Blood MarrowTransplant[血液和骨髓移植生物学].2006年12月；12(12):1318-25)。本文所述的方法可以被给药一次、两次、三次或多次，以维持适应性免疫并防止机会性感染，直到HLA编辑的供体HSC细胞在体内重建了淋巴细胞生成。

在进行异基因HSC移植的受试者中，在移植后的时间段立即使用HLA修饰的红细胞和T细胞反向添加可以提供红髓样(erythromyeloid)和适应性免疫淋巴桥。供体HSC根据本文所述的方法进行修饰，并离体分化成红髓样和淋巴样祖细胞。分化的HLA编辑的红髓样和淋巴样细胞在清髓性调理后和异基因HSC移植之前立即给予受试者，或者与HSC移植物共注入，或者在HSC移植之后给药。将分化的HLA修饰的骨髓和淋巴样细胞一起给药，或分开给药，例如修饰的、HLA修饰的红髓样祖细胞以一种给药方案给药并且修饰的、HLA修饰的淋巴样祖细胞以替代性的给药方案给药。在经历HSC移植的受试者中施用HLA修饰的、分化的骨髓和淋巴样细胞提供了HLA匹配的先天性和适应性免疫细胞的短期的红髓和淋巴桥。这些细胞提供针对贫血症的短期保护并且针对机会性感染提供短期免疫。这些细胞能具有有限的寿命。在移植后的时间段里，这些细胞可以改善贫血并提供对受试者的保护性免疫。可以修改这些细胞的剂量以平衡免疫保护和移植物抗宿主疾病(GVHD的较高风险与更高的T细胞剂量相关)(Montero等人，Biol Blood Marrow Transplant[血液和骨髓移植生物学].2006年十二月；12(12):1318-25)。本文所述的方法可以一次、两次、三次或多次给药以维持红髓样和淋巴样细胞计数，并且直到供体HSC细胞已经重建出髓样和淋巴谱系。

富含具有等位基因特异性遗传修饰的细胞的治疗性组合物

供体角膜中的1、2或3个HLA-A、HLA-B和/或HLA-DRB1等位基因的离体破坏(例如敲除)以降低角膜移植排斥反应的比率

角膜移植是美国和全球常见的手术。美国每年有超过4万名患者接受角膜移植。(美国眼库协会2014年眼库统计报告(Eye Bank Association of America 2014EyeBanking Statistical Report)，可查阅http://www.restoresight.org/wp-content/uploads/2015/03/2014_Statistical_Report-FINAL.pdf.，获得于：2015年6月16日)。角膜移植可能适用于角膜营养不良、感染和创伤，其导致角膜混浊和视力损失。

在美国约有20％的角膜移植患者排斥他们的角膜，约6000至8000名患者每年经受着角膜移植排斥(Dunn等人，Cornea[角膜]33(10):1003-9(2014))。经历排斥事件的患者最常发生移植失败，这会需要再次的角膜移植。

目前正在研究许多方法来预防角膜移植排斥反应，包括眼内免疫抑制。然而，角膜移植排斥率仍然很高，并且这常常意味着移植失败。

本披露旨在降低不匹配的MHC类别I和类别II基因(例如HLA-A、HLA-B和HLA-DRB1)的表达，以降低角膜移植排斥并最终降低角膜移植失败率。在角膜移植排斥的小鼠模型中，减少MHC类别I抗原的表达已经被证明降低了移植排斥的比率(Kamiya等人，Exp Eye Res.[实验眼科研究]70(6):737-43(2000))。目前的方法破坏(例如，敲除)不匹配的MHC类别I基因，其减少了不匹配的MHC类别I抗原的表达。因此，该方法应该降低了移植排斥反应的发生率。

该方法在供体角膜中敲除1、2或3个HLA-A、HLA-B或HLA-DRB1等位基因，如下。该方法与用于靶向HSC中的一个或多个HLA-A、HLA-B或HLA-DRB1等位基因的破坏(例如敲除)的方法相同，除了该方法用于靶向角膜细胞，包括角膜上皮细胞和角膜基质细胞，例如角膜细胞。

单个HLA等位基因(例如单个HLA-A、HLA-B或HLA-DRB1的KO)的破坏(例如敲除)将以3/6HLA等位基因将供体与受体匹配，由1/6供体等位基因没有被表达，实现有关外来抗原识别的有效的4/6匹配。单个等位基因的KO会降低错配的HLA抗原的表达并降低角膜移植排斥的风险。

两个HLA等位基因的破坏(例如，敲出)(例如，HLA-A等位基因和HLA-B等位基因、HLA-A等位基因和HLA-DRB1等位基因、或HLA-B等位基因和HLA-DRB1等位基因的KO)将会在3/6HLA等位基因处将供体与受体匹配，有2/6供体等位基因没有被表达，实现有关外来抗原识别的有效的5/6匹配。两个等位基因的KO会降低错配的HLA抗原的表达并降低角膜移植排斥的风险。

三个HLA等位基因的破坏(例如，敲出)(例如，HLA-A等位基因、HLA-B等位基因、和HLA-DRB1等位基因的KO)将会在3/6HLA等位基因处将供体与受体匹配，由3/6的供体等位基因没有被表达，实现有关外来抗原识别的有效的6/6匹配。三个等位基因的KO会降低错配的HLA抗原的表达并降低角膜移植排斥的风险。

如果特定的HLA等位基因与角膜移植中更高的排斥率相关联，则该HLA等位基因将靶向破坏(例如敲除)。

靶向敲除的HLA等位基因与实例12：“敲除HLA等位基因以促进HLA基因型的匹配”中发现的那些相同。例如，具有HLA-基因型的供体角膜：

在欧洲人群中具有最常见的HLA单倍型。敲除三个HLA等位基因，例如HLA-A*0301g、HLA-B*0702g、HLA-DRB1*1501将产生欧洲后裔个体中表达最常见的HLA单倍型的角膜组织。这个组织将最有可能匹配最大比例的欧洲人群。如实例12中所解释的，相同的破坏方法，例如敲除具有特定群体的最常见单倍型的供体角膜组织中的HLA等位基因，可以应用于非裔美国人、西班牙裔和亚洲人角膜组织的最常见HLA单倍型中。

该方法可以离体应用于供体角膜。角膜细胞可以离体进行修饰以用于HLA破坏(例如敲除)并在供体中修饰后移植。靶向角膜修饰的细胞类型包括：角膜上皮细胞，例如底层细胞、翼细胞、表面细胞、角膜基质细胞，例如角膜细胞、成纤维细胞、肌成纤维细胞。

更一般地，本文所述的系统和方法可用于生产富含(例如纯化的组合物的)具有等位基因特异性遗传修饰的细胞的治疗性组合物。产生富集的具有等位基因特异性基因修饰的细胞群体的示例性方法具有两个一般步骤：首先，基因编辑步骤，其中使细胞群体暴露于或接触能够结合并任选切割或突变编码可识别的基因产物(即可直接或间接检测的基因产物)的基因的单个等位基因的CRISPR/Cas9系统。第二步是识别、收集和/或分离(即“富集”)表达基因产物但不表达由靶向等位基因编码的基因产物的变体的细胞。下面将更全面地解释这两个步骤。

首先转到基因编辑步骤，可以通过在gRNA分子的靶向结构域中掺入与对等位基因(所希望的编辑所在的位置)特异的靶序列互补的序列来将CRISPR/Cas9系统配置为与基因的单个等位基因缔合。靶向等位基因的靶序列可以按减少或防止gRNA分子与非靶向等位基因结合的任何合适方式(例如通过碱基对差异、插入、缺失、倒位、复制等)与非靶向等位基因的那些有所区别。细胞群体优选但不一定必须暴露于体外的CRISPR/Cas9系统，以促进富集步骤的离体表现，并且可以是治疗有用的任何细胞类型或群体，例如来自诸如血液或骨髓之类的组织的未被操控的或最低限度被操控的细胞级分、诸如HSC之类的细胞的纯化级分、或已经在体外纯化、处理和/或扩增的群体。这些细胞可以从受试者中获取，稍后可以再次引入其中，或者这些细胞可以从供体中获取。在下文的“靶细胞”部分中更一般性地描述了合适的细胞和细胞群体，并且将CRISPR/Cas9系统施用于这些细胞或群体的方法在下文的“递送、配制品和施用途径”中做出了一般性解释。

至于编辑细胞的富集，通过检测可识别的基因产物，在大多数(尽管不是全部)情况下是容易实现的。在下面列出的示例性实施例中，可识别的基因产物是细胞表面标记或形成细胞表面蛋白复合物的一部分，并且可以通过抗体检测在活细胞中识别，例如使用荧光团偶联的抗体和荧光激活细胞分选(FACS)。这些和其他工具在本领域中是已知的，并且可以由包括BD Biosciences[BD生物科学公司](加拿大圣何塞)、Abcam[艾博抗公司](英国剑桥)等在内的多种来源商购获得。

在HLA等位基因和编码抗体可用或可开发的细胞表面蛋白的其他基因产物的情况下，示例性的基于FACS的富集过程将通常涉及使先前经受等位基因特异性编辑过程的细胞群体与两种荧光抗体接触：第一种荧光抗体，其特异性靶向基因编辑步骤中靶向的基因的等位基因所编码的可识别的基因产物的第一种变体；以及第二荧光抗体，其与由第一步中未靶向的基因的等位基因编码的可识别的基因产物的第二变体结合。第二抗体可以对第二变体是特异性的，或者其可以对包括第二变体和任选的第一变体的多个变体具有广泛的特异性。在FACS分选期间，设置不表达由第一抗体的低荧光信号或无荧光信号识别的第一变体的细胞和表达通过来自第二抗体的高信号识别的第二变体的细胞为阈值，并且落入这些阈值内的细胞被收集以形成具有等位基因特异性遗传修饰的富集的细胞群体。

应该注意的是，除了FACS和其他流式细胞术检测方法，只要该方法允许检测由靶向和非靶向等位基因编码的基因产物，则可以使用任何其他合适的检测方法来富集编辑的细胞。作为非限制性实例，偶联的磁珠和直接显微镜微操作均可用于富集具有等位基因特异性遗传修饰的细胞。非靶向等位基因的检测可以用对第二个非靶向等位基因编码的变体特异的试剂进行，或者用更一般性地检测基因产物的多个或全部变体的试剂进行。可用于检测这些基因产物的试剂可以包括标记或标志的抗体、配体、激动剂、拮抗剂、适体、多核苷酸、多肽等，其可以在群体内的细胞上或细胞内以足够的分辨率检测，以识别和收集表达由非靶向等位基因编码的基因产物的个体细胞。作为直接检测基因产物的替代性方法，检测被基因的靶向和非靶向等位基因促进或抑制的物质或细胞状态可能是有用的。

另外，尽管上面的实例和整个本披露集中在缺失或敲除靶向等位基因，但是它们容易地改变为其他编辑方法，包括将靶向等位基因改变为第二等位基因的那些，其条件是第二等位基因编码基因产物的变体，其未被第一检测抗体或试剂(即对未修饰的靶向等位基因特异性的抗体或试剂)检测到，但被结合该基因成功地编辑的等位基因编码的第二变体的第二抗体或试剂检测到。

I.指导RNA(gRNA)分子

如该术语在本文使用的，gRNA分子是指促进gRNA分子/Cas9分子复合物向靶核酸特异性靶向或归巢的核酸。gRNA分子可以是单分子的(具有单RNA分子)(在本文有时称为“嵌合”gRNA)、或模块化的(包含多于一种并且典型地两种分开的RNA分子)。本文提供的gRNA分子包含靶向结构域，其包含、或由基本上由与特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列中或附近的靶核酸序列完全或部分互补的核酸序列组成。在某些实施例中，所述gRNA分子进一步包含一个或多个另外的结构域，包括例如第一互补结构域、连接结构域、第二互补结构域、近端结构域、尾部结构域和5'延伸结构域。下面详细讨论了这些结构域中的每一者。在某些实施例中，gRNA分子中的一个或多个结构域包含与例如来自酿脓链球菌、金黄色葡萄球菌或嗜热链球菌的天然存在的序列相同或与其共享序列同源性的氨基酸序列。

图1A-1I中提供了若干示例性gRNA结构。关于gRNA的三维形式、或活化形式的链内或链间相互作用，高度互补的区域在图1A-1I和本文提供的其他描绘中有时显示为双链体。图7说明了使用SEQ ID NO:42的gRNA序列的gRNA结构域命名法，所述gRNA序列在tracrRNA衍生区域中含有一个发夹环。在某些实施例中，gRNA可以在该区域中含有多于一个(例如，两个、三个或更多个)发夹环(参见例如，图1H-1I)。

在某些实施例中，单分子的或嵌合的gRNA包含，优选地从5'到3'：与特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体的序列中的靶结构域互补的靶向结构域；第一互补结构域；连接结构域；第二互补结构域(其与第一互补结构域互补)；近端结构域；和任选的，尾部结构域。

在某些实施例中，模块化gRNA包含：第一链，其包含，优选从5'至3'：与特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列的靶结构域互补的靶向结构域；和第一互补结构域；和第二链，其包含，优选从5'至3'：任选地，5'延伸结构域；第二互补结构域；近端结构域；和任选地，尾部结构域。

靶向结构域

靶向结构域(有时候也可替代性地称为指导序列或互补性区域)包含核酸序列，由核酸序列组成，或主要由核酸序列组成，该核酸序列与特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列内或附近的核酸序列互补或部分互补。与全部或部分靶向结构域互补的特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列内或附近的核酸序列在本文中被称为靶向结构域。在某些实施例中，靶结构域包含靶位置。在其他实施例中，靶位置位于靶结构域的外部(即上游或下游)。

用于选择靶向结构域的方法本领域是已知的(参见例如，Fu 2014；Sternberg2014)。用于本文所述的方法、组合物和试剂盒中的合适的靶向结构域的实例包括SEQ IDNo:219-361中示出的那些。

包含靶结构域的靶核酸的链在本文中称为互补链，因为其与靶向结构域序列互补。由于靶向结构域是gRNA分子的一部分，因此它包含碱基尿嘧啶(U)而不是胸腺嘧啶(T)；相反地，编码gRNA分子的任何DNA分子将包含胸腺嘧啶而不是尿嘧啶。在靶向结构域/靶结构域对中，靶向结构域中的尿嘧啶碱基将与靶结构域中的腺嘌呤碱基配对。在某些实施例中，靶向结构域与靶结构域之间的互补程度足以允许Cas9分子靶向靶核酸。

在某些实施例中，靶向结构域包括核心结构域和任选的第二结构域。在这些实施例的某些中，核心结构域位于第二结构域的3'处，并且在这些实施例的某些中，核心结构域位于靶向结构域的3'端或其附近。在这些实施例的某些中，核心结构域由靶向结构域的3'端处的约8至约13个核苷酸组成或基本上由其组成。在某些实施例中，只有核心结构域与靶结构域的相应部分互补或部分互补，并且在这些实施例的某些中，核心结构域与靶结构域的相应部分完全互补。在其他实施例中，第二结构域也与靶结构域的一部分互补或部分互补。在某些实施例中，核心结构域与靶结构域中的核心结构域靶互补或部分互补，而第二结构域与靶结构域中的第二结构域靶互补或部分互补。在某些实施例中，核心结构域和第二结构域与靶结构的它们各自对应的部分域具有相同的互补程度。在其他实施例中，核心结构域与其靶之间的互补程度和第二结构域与其靶之间的互补程度可以不同。在这些实施例的某些中，核心结构域可以对其靶具有比第二结构域更高的互补程度，而在其他实施例中，第二结构域可以具有比核心结构域更高的互补程度。

在某些实施例中，靶向结构域和/或靶向结构域内的核心结构域的长度为3至100、5至100、10至100或20至100个核苷酸，并且在这些实施例的某些中，靶向结构域或核心结构域的长度为3至15、3至20、5至20、10至20、15至20、5至50、10至50或20至50个核苷酸。在某些实施例中，靶向结构域和/或靶向结构域内的核心结构域的长度为6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25或26个核苷酸。在某些实施例中，靶向结构域和/或靶向结构域内的核心结构域的长度为6+/-2、7+/-2、8+/-2、9+/-2、10+/-2、10+/-4、10+/-5、11+/-2、12+/-2、13+/-2、14+/-2、15+/-2、或16+-2、20+/-5、30+/-5、40+/-5、50+/-5、60+/-5、70+/-5、80+/-5、90+/-5、或100+/-5个核苷酸。

在靶向结构域包括核心结构域的某些实施例中，核心结构域的长度为3至20个核苷酸，并且在这些实施例的某些中，核心结构域的长度为5至15或8至13个核苷酸。在靶向结构域包括第二结构域的某些实施例中，第二结构域的长度为0、1、2、3、4、5、6、7、8、9、10、11、12、13、14或15个核苷酸。在靶向结构域包含长度为8至13个核苷酸的核心结构域的某些实施例中，各自地，靶向结构域的长度为26、25、24、23、22、21、20、19、18、17、或16个核苷酸，并且第二结构域的长度为13至18、12至17、11至16、10至15、9至14、8至13、7至12、6至11、5至10、4至9、或3至8个核苷酸。

在某些实施例中，靶向结构域与靶结构域完全互补。同样地，在靶向结构域包含核心结构域和/或第二结构域的情况下，在某些实施例中，核心结构域和第二结构域中的一个或两个与靶结构域的相应部分完全互补。在其他实施例中，靶向结构域与靶结构域部分互补，并且在靶向结构域包含核心结构域和/或第二结构域的这些实施例的某些中，核心结构域和第二结构域中的一个或两个与靶结构域的相应部分部分互补。在这些实施例的某些中，靶向结构域或靶向结构域内的核心结构域或第二结构域的核酸序列与靶结构域或靶结构域的相应部分至少80％、85％、90％或95％互补。在某些实施例中，靶向结构域和/或靶向结构域内的核心或第二结构域包括与靶结构域或其部分不互补的一个或多个核苷酸，并且在这些实施例的某些中，靶向结构域和/或靶向结构域内的核心或第二结构域包括与靶结构域不互补的1、2、3、4、5、6、7或8个核苷酸。在某些实施例中，核心结构域包括与靶结构域的相应部分不互补的1、2、3、4或5个核苷酸。在靶向结构域包括与靶结构域不互补的一个或多个核苷酸的某些实施例中，所述非互补核苷酸中的一个或多个位于靶向结构域的5'或3'端的五个核苷酸内。在这些实施例的某些中，靶向结构域包括在其5'端、3'端或其5'和3'端的五个核苷酸内的与靶结构域不互补的1、2、3、4或5个核苷酸。在靶向结构域包括与靶结构域不互补的两个或更多个核苷酸的某些实施例中，所述非互补核苷酸中的两个或更多个彼此相邻，并且在这些实施例的某些中，所述两个或更多个连续的非互补核苷酸位于靶向结构域的5'或3'端的五个核苷酸内。在其他实施例中，所述两个或更多个连续的非互补核苷酸都位于离靶向结构域的5'和3'端超过五个核苷酸处。

在某些实施例中，靶向结构域、核心结构域和/或第二结构域不包含任何修饰。在其他实施例中，靶向结构域、核心结构域和/或第二结构域或其中的一个或多个核苷酸具有修饰，包括但不限于以下阐述的修饰。在某些实施例中，靶向结构域、核心结构域和/或第二结构域的一个或多个核苷酸可以包含2'修饰(例如，在核糖上2'位置处的修饰)，例如2-乙酰化，例如2'甲基化。在某些实施例中，可以用硫代磷酸酯修饰靶向结构域的骨架。在某些实施例中，对靶向结构域、核心结构域和/或第二结构域的一个或多个核苷酸的修饰使得靶向结构域和/或包含靶向结构域的gRNA不易降解或更生物相容，例如更低的免疫原性。在某些实施例中，靶向结构域和/或核心或第二结构域包括1、2、3、4、5、6、7或8个或更多个修饰，并且在这些实施例的某些中，靶向结构域和/或核心或第二结构域包括它们各自5'端的五个核苷酸内的1、2、3或4个修饰，和/或它们各自3'端的五个核苷酸内的1、2、3或4个修饰。在某些实施例中，靶向结构域和/或核心或第二结构域包括在两个或更多个连续核苷酸处的修饰。

在靶向结构域包括核心和第二结构域的某些实施例中，核心和第二结构域含有相同数量的修饰。在这些实施例的某些中，这两个结构域都不含修饰。在其他实施例中，核心结构域包括比第二结构域更多的修饰，或反之亦然。

在某些实施例中，选择对靶向结构域(包括核心或第二结构域)中的一个或多个核苷酸的修饰以不干扰靶向功效，这可以通过使用如下阐述的系统测试候选修饰来评价。具有候选靶向结构域的gRNA可以使用如下阐述的系统进行评价，所述候选靶向结构域具有选定的长度、序列、互补程度、或修饰程度。所述候选靶向结构域可以被单独地或与一种或多种其他候选变化放置在已知与选定的靶具有功能性的gRNA分子/Cas9分子系统中并且进行评价。

在某些实施例中，全部的修饰核苷酸互补于并且能够杂交到靶结构域中存在的相应核苷酸上。在另一个实施例中，1、2、3、4、5、6、7或8个或更多个修饰核苷酸不互补于或不能够杂交到靶结构域中存在的相应核苷酸上。

第一和第二互补结构域

第一和第二互补(有时可替代地分别称为crRNA衍生的发夹序列和tracrRNA衍生的发夹序列)结构域互相完全或部分互补。在某些实施例中，互补程度足以使所述两个结构域在至少一些生理条件下形成双链体区域。在某些实施例中，第一与第二互补结构域之间的互补程度与gRNA的其他特性一起足以允许Cas9分子靶向靶核酸。第一和第二互补结构域的实例在图1A-1G中进行了阐述。

在某些实施例中(参见例如，图1A-1B)，第一和/或第二互补结构域包括与相应互补结构域缺乏互补性的一个或多个核苷酸。在某些实施例中，第一和/或第二互补结构域包括不与相应互补结构域互补的1、2、3、4、5或6个核苷酸。例如，第二互补结构域可以含有与第一互补结构域中的相应核苷酸不配对的1、2、3、4、5或6个核苷酸。在某些实施例中，第一或第二互补结构域上不与相应互补结构域互补的核苷酸从在第一与第二互补结构域之间形成的双链体环出。在这些实施例的某些中，未配对环出位于第二互补结构域上，并且在这些实施例的某些中，未配对区域从离第二互补结构域的5'端1、2、3、4、5或6个核苷酸处开始。

在某些实施例中，第一互补结构域的长度为5至30、5至25、7至25、5至24、5至23、7至22、5至22、5至21、5至20、7至18、7至15、9至16、或10至14个核苷酸，并且在这些实施例的某些中，第一互补结构域的长度为5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、或25个核苷酸。在某些实施例中，第二互补结构域的长度为5至27、7至27、7至25、5至24、5至23、5至22、5至21、7至20、5至20、7至18、7至17、9至16、或10至14个核苷酸，并且在这些实施例的某些中，第二互补结构域的长度为5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25或26个核苷酸。在某些实施例中，第一和第二互补结构域的长度各自独立地为6+/-2、7+/-2、8+/-2、9+/-2、10+/-2、11+/-2、12+/-2、13+/-2、14+/-2、15+/-2、16+/-2、17+/-2、18+/-2、19+/-2、或20+/-2、21+/-2、22+/-2、23+/-2、或24+/-2个核苷酸。在某些实施例中，第二互补结构域长于第一互补结构域(例如，长出2、3、4、5、或6个核苷酸)。

在某些实施例中，第一和/或第二互补结构域各自独立地包含三个亚结构域，其按5’到3’方向是：5’亚结构域、中央亚结构域、和3’亚结构域。在某些实施例中，第一互补结构域的5’亚结构域和3’亚结构域分别与第二互补结构域的3’亚结构域和5’亚结构域完全或部分互补。

在某些实施例中，第一互补结构域的5'亚结构域的长度为4至9个核苷酸，并且在这些实施例的某些中，5'结构域的长度为4、5、6、7、8或9个核苷酸。在某些实施例中，第二互补结构域的5'亚结构域的长度为3至25、4至22、4至18、或4至10个核苷酸，并且在这些实施例的某些中，5'结构域的长度为3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、或25个核苷酸。在某些实施例中，第一互补结构域的中央亚结构域的长度为1、2或3个核苷酸。在某些实施例中，第二互补结构域的中央亚结构域的长度为1、2、3、4或5个核苷酸。在某些实施例中，第一互补结构域的3'亚结构域的长度为3至25、4至22、4至18、或4至10个核苷酸，并且在这些实施例的某些中，3'亚结构域的长度为3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸。在某些实施例中，第二互补结构域的3'亚结构域的长度为4至9个(例如4、5、6、7、8或9个)核苷酸。

第一和/或第二互补结构域可以与天然存在的或参考的第一和/或第二互补结构域共享同源性，或者从其衍生。在这些实施例的某些中，第一和/或第二互补结构域与天然存在的或参考的第一和/或第二互补结构域具有至少50％、60％、70％、80％、85％、90％或95％的同源性或与其相差不多于1、2、3、4、5或6个核苷酸。在这些实施例的某些中，第一和/或第二互补结构域可以与来自酿脓链球菌或金黄色葡萄球菌的第一和/或第二互补结构域具有至少50％、60％、70％、80％、85％、90％或95％的同源性。

在某些实施例中，第一和/或第二互补结构域不包含任何修饰。在其他实施例中，第一和/或第二互补结构域或其中的一个或多个核苷酸具有修饰，包括但不限于以下阐述的修饰。在某些实施例中，第一和/或第二互补结构域的一个或多个核苷酸可以包含2'修饰(例如在核糖上的2'位置处的修饰)，例如2-乙酰化，例如2'甲基化。在某些实施例中，可以用硫代磷酸酯修饰靶向结构域的骨架。在某些实施例中，对第一和/或第二互补结构域的一个或多个核苷酸的修饰使得第一和/或第二互补结构域和/或包含第一和/或第二互补结构域的gRNA不易降解或更生物相容，例如更低的免疫原性。在某些实施例中，第一和/或第二互补结构域各自独立地包括1、2、3、4、5、6、7或8个或更多个修饰，并且在这些实施例的某些中，第一和/或第二互补结构域各自独立地包括它们各自的5'端、3'端或它们的5'和3'端的五个核苷酸内的1、2、3或4个修饰。在其他实施例中，第一和/或第二互补结构域各自独立地在它们各自的5'端、3'端或它们的5'和3'端的五个核苷酸内不含修饰。在某些实施例中，第一和第二互补结构域中的一个或两个包含在两个或更多个连续核苷酸处的修饰。

在某些实施例中，选择对第一和/或第二互补结构域中的一个或多个核苷酸的修饰以不干扰靶向功效，这可以通过在下面阐述的系统中测试候选修饰来评价。具有候选第一或第二互补结构域的gRNA可以使用如下阐述的系统进行评价，所述第一或第二互补结构域具有选定的长度、序列、互补程度、或修饰程度。所述候选互补结构域可以被单独地或与一种或多种其他候选变化放置在已知与选定的靶具有功能性的gRNA分子/Cas9分子系统中并且进行评价。

在某些实施例中，由第一和第二互补结构域形成的双链体区域的长度为例如6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21或22bp，排除任何环出的或未配对的核苷酸。

在某些实施例中，当成双链体时，第一和第二互补结构域包含11个配对的核苷酸(参见例如，SEQ ID NO:48的gRNA)。在某些实施例中，当成双链体时，第一和第二互补结构域包含15个配对的核苷酸(参见例如，SEQ ID NO:50的gRNA)。在某些实施例中，当成双链体时，第一和第二互补结构域包含16个配对的核苷酸(参见例如，SEQ ID NO:51的gRNA)。在某些实施例中，当成双链体时，第一和第二互补结构域包含21个配对的核苷酸(参见例如，SEQID NO:29的gRNA)。

在某些实施例中，在第一与第二互补结构域之间交换一个或多个核苷酸以去除聚-U束。例如，可以交换SEQ ID NO:48的gRNA的核苷酸23和48或核苷酸26和45，以分别产生SEQ ID NO:49或31的gRNA。类似地，SEQ ID NO:29的gRNA的核苷酸23和39可以与核苷酸50和68交换以产生SEQ ID NO:30的gRNA。

连接结构域

连接结构域被布置在单分子gRNA或嵌合gRNA中的第一和第二互补结构域之间并用于连接第一和第二互补结构域。图1B-1E提供了连接结构域的实例。在某些实施例中，连接结构域的一部分来自crRNA衍生区域，并且另一部分来自tracrRNA衍生区域。

在某些实施例中，连接结构域共价连接第一和第二互补结构域。在这些实施例的某些中，连接结构域由共价键组成或包含共价键。在其他实施例中，连接结构域非共价连接第一和第二互补结构域。在某些实施例中，连接结构域的长度为十个或更少的核苷酸，例如1、2、3、4、5、6、7、8、9或10个核苷酸。在其他实施例中，连接结构域的长度为大于10个核苷酸，例如11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个或更多个核苷酸。在某些实施例中，连接结构域的长度为2至50、2至40、2至30、2至20、2至10、2至5、10至100、10至90、10至80、10至70、10至60、10至50、10至40、10至30、10至20、10至15、20至100、20至90、20至80、20至70、20至60、20至50、20至40、20至30或20至25个核苷酸。在某些实施例中，连接结构域的长度为10+/-5、20+/-5、20+/-10、30+/-5、30+/-10、40+/-5、40+/-10、50+/-5、50+/-10、60+/-5、60+/-10、70+/-5、70+/-10、80+/-5、80+/-10、90+/-5、90+/-10、100+/-5或100+/-10个核苷酸。

在某些实施例中，连接结构域与天然存在的序列(例如，对所述第二互补结构域是5’的tracrRNA的序列)共享同源性，或从其衍生。在某些实施例中，连接结构域与本文所披露的连接结构域(例如，图1B-1E的连接结构域)具有至少50％、60％、70％、80％、90％或95％的同源性或与其相差不多于1、2、3、4、5或6个核苷酸。

在某些实施例中，连接结构域不包含任何修饰。在其他实施例中，连接结构域或其中的一个或多个核苷酸具有修饰，包括但不限于以下阐述的修饰。在某些实施例中，连接结构域的一个或多个核苷酸可以包含2'修饰(例如在核糖上的2'位置处的修饰)，例如2-乙酰化，例如2'甲基化。在某些实施例中，可以用硫代磷酸酯修饰连接结构域的骨架。在某些实施例中，对连接结构域的一个或多个核苷酸的修饰使得连接结构域和/或包含连接结构域的gRNA不易降解或更生物相容，例如更低的免疫原性。在某些实施例中，连接结构域包括1、2、3、4、5、6、7或8个或更多个修饰，并且在这些实施例的某些中，连接结构域包括其5'和/或3'端的五个核苷酸内的1、2、3或4个修饰。在某些实施例中，连接结构域包含在两个或更多个连续核苷酸处的修饰。

在某些实施例中，选择对连接结构域中的一个或多个核苷酸的修饰以不干扰靶向功效，这可以通过使用如下阐述的系统测试候选修饰来评价。具有候选连接结构域的gRNA可以在如下阐述的系统中进行评价，所述候选连接结构域具有选定的长度、序列、互补程度、或修饰程度。所述候选连接结构域可以被单独地或与一种或多种其他候选变化放置在已知与选定的靶具有功能性的gRNA分子/Cas9分子系统中并且进行评价。

在某些实施例中，连接结构域包含典型地邻近于第一互补结构域的3’端和/或第二互补结构域的5’端或在其1、2或3个核苷酸内的双链体区域。在这些实施例的某些中，连接区域的双链体区域的长度为10+/-5、15+/-5、20+/-5、20+/-10或30+/-5bp。在某些实施例中，连接结构域的双链体区域的长度为1、2、3、4、5、6、7、8、9、10、11、12、13、14或15bp。在某些实施例中，形成连接结构域的双链体区域的序列是完全互补的。在其他实施例中，形成双链体区域的一个或两个序列含有与其他双链体序列不互补的一个或多个核苷酸(例如，1、2、3、4、5、6、7或8个核苷酸)。

5'延伸结构域

在某些实施例中，如本文所披露的模块化gRNA包含5'延伸结构域，即第二互补结构域的5'的一个或多个另外的核苷酸(参见例如，图1A)。在某些实施例中，5'延伸结构域的长度为2至10或更多、2至9、2至8、2至7、2至6、2至5或2至4个核苷酸，并且在这些实施例的某些中，5'延伸结构域的长度为2、3、4、5、6、7、8、9或10个或更多个核苷酸。

在某些实施例中，5’延伸结构域核苷酸不包含修饰，例如以下提供的类型的修饰。然而，在某些实施例中，5’延伸结构域包含一个或多个修饰，例如，使其较不易降解或更生物相容(例如，更低的免疫原性)的修饰。作为举例，5’延伸结构域的骨架可以用硫代磷酸酯、或如下阐述的其他一个或多个修饰来修饰。在某些实施例中，5’延伸结构域的核苷酸可以包含2’修饰(例如，在核糖上的2’位置处的修饰)，例如2-乙酰化，例如2’甲基化，或如下阐述的其他一个或多个修饰。

在某些实施例中，5’延伸结构域可以包含多达1、2、3、4、5、6、7或8个修饰。在某些实施例中，5’延伸结构域包含其5’端的5个核苷酸内的多达1、2、3或4个修饰，例如在模块化gRNA分子中。在某些实施例中，5’延伸结构域包含其3’端的5个核苷酸内的多达1、2、3或4个修饰，例如在模块化gRNA分子中。

在某些实施例中，5’延伸结构域包含在两个连续核苷酸处的修饰，例如5’延伸结构域的5’端的5个核苷酸内、5’延伸结构域的3’端的5个核苷酸内、或远离5’延伸结构域的一端或两端超过5个核苷酸的两个连续核苷酸。在某些实施例中，在5’延伸结构域的5’端的5个核苷酸内、5’延伸结构域的3’端的5个核苷酸内、或在远离5’延伸结构域的一端或两端超过5个核苷酸的区域内没有两个连续核苷酸被修饰。在某些实施例中，在5’延伸结构域的5’端的5个核苷酸内、5’延伸结构域的3’端的5个核苷酸内、或在远离5’延伸结构域的一端或两端超过5个核苷酸的区域内没有核苷酸被修饰。

可以选择5’延伸结构域中的修饰以便不干扰gRNA分子功效，这可以通过在如下阐述的系统中测试候选修饰来评价。具有候选5’延伸结构域的gRNA可以在如下阐述的系统中进行评价，所述候选5’延伸结构域具有选定的长度、序列、互补程度、或修饰程度。候选5’延伸结构域可以被单独地或与一种或多种其他候选变化放置在已知与选定的靶具有功能性的gRNA分子/Cas9分子系统中并且进行评价。

在某些实施例中，5’延伸结构域与参考5’延伸结构域(例如天然存在的(例如，酿脓链球菌、金黄色葡萄球菌或嗜热链球菌)5’延伸结构域)、或本文所述的5’延伸结构域(例如，来自图1A-1G))具有至少60％、70％、80％、85％、90％或95％的同源性，或与其相差不多于1、2、3、4、5、或6个核苷酸。

近端结构域

图1A-1G提供了近端结构域的实例。

在某些实施例中，近端结构域的长度为5至20个或更多个核苷酸，例如长度为5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25或26个核苷酸。在这些实施例的某些中，近端结构域的长度为6+/-2、7+/-2、8+/-2、9+/-2、10+/-2、11+/-2、12+/-2、13+/-2、14+/-2、14+/-2、16+/-2、17+/-2、18+/-2、19+/-2、或20+/-2个核苷酸。在某些实施例中，近端结构域的长度为5至20、7至18、9至16、或10至14个核苷酸。

在某些实施例中，近端结构域可以与天然存在的近端结构域共享同源性，或从其衍生。在这些实施例的某些中，近端结构域与本文所披露的近端结构域(例如酿脓链球菌、金黄色葡萄球菌或嗜热链球菌近端结构域，包括图1A-1G所阐述的那些)具有至少50％、60％、70％、80％、85％、90％或95％的同源性，或与其相差不多于1、2、3、4、5或6个核苷酸。

在某些实施例中，近端结构域不包含任何修饰。在其他实施例中，近端结构域或其中的一个或多个核苷酸具有修饰，包括但不限于本文所阐述的修饰。在某些实施例中，近端结构域的一个或多个核苷酸可以包含2'修饰(例如在核糖上的2'位置处的修饰)，例如2-乙酰化，例如2'甲基化。在某些实施例中，可以用硫代磷酸酯修饰近端结构域的骨架。在某些实施例中，对近端结构域的一个或多个核苷酸的修饰使得近端结构域和/或包含近端结构域的gRNA不易降解或更生物相容，例如更低的免疫原性。在某些实施例中，近端结构域包括1、2、3、4、5、6、7或8个或更多个修饰，并且在这些实施例的某些中，近端结构域包括其5'和/或3'端的五个核苷酸内的1、2、3或4个修饰。在某些实施例中，近端结构域包含在两个或更多个连续核苷酸处的修饰。

在某些实施例中，选择对近端结构域中的一个或多个核苷酸的修饰以不干扰靶向功效，这可以通过在如下阐述的系统中测试候选修饰来评价。具有候选近端结构域的gRNA可以在如下阐述的系统中进行评价，所述候选近端结构域具有选定的长度、序列、互补程度、或修饰程度。所述候选近端结构域可以被单独地或与一种或多种其他候选变化放置在已知与选定的靶具有功能性的gRNA分子/Cas9分子系统中并且进行评价。

尾部结构域

____广谱的尾部结构域适于在本文所披露的gRNA分子中使用。图1A和1C-1G提供了这种尾部结构域的实例。

在某些实施例中，不存在尾部结构域。在其他实施例中，尾部结构域的长度为1至100个或更多个核苷酸，例如长度为1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90或100个核苷酸。在某些实施例中，尾部结构域的长度为1至5、1至10、1至15、1至20、1至50、10至100、20至100、10至90、20至90、10至80、20至80、10至70、20至70、10至60、20至60、10至50、20至50、10至40、20至40、10至30、20至30、20至25、10至20或10至15个核苷酸。在某些实施例中，尾部结构域的长度为5+/-5、10+/-5、20+/-10、20+/-5、25+/-10、30+/-10、30+/-5、40+/-10、40+/-5、50+/-10、50+/-5、60+/-10、60+/-5、70+/-10、70+/-5、80+/-10、80+/-5、90+/-10、90+/-5、100+/-10或100+/-5个核苷酸。

在某些实施例中，尾部结构域可以与天然存在的尾部结构域或天然存在的尾部结构域的5'端共享同源性，或从其衍生。在这些实施例的某些中，尾部结构域与本文所披露的天然存在的尾部结构域(例如酿脓链球菌、金黄色葡萄球菌或嗜热链球菌尾部结构域，包括图1A和1C-1G所阐述的那些)具有至少50％、60％、70％、80％、85％、90％或95％的同源性，或与其相差不多于1、2、3、4、5或6个核苷酸。

在某些实施例中，尾部结构域包括彼此互补，并且在至少一些生理条件下形成双链体区域的序列。在这些实施例的某些中，尾部结构域包含尾部双链体结构域，其可以形成尾部双链体区域。在某些实施例中，尾部双链体区域的长度为3、4、5、6、7、8、9、10、11或12bp。在某些实施例中，尾部结构域包含不形成双链体的尾部双链体结构域的3'的单链结构域。在这些实施例的某些中，单链结构域的长度为3至10个核苷酸(例如3、4、5、6、7、8、9、10个)或长度为4至6个核苷酸。

在某些实施例中，尾部结构域不包含任何修饰。在其他实施例中，尾部结构域或其中的一个或多个核苷酸具有修饰，包括但不限于本文所阐述的修饰。在某些实施例中，尾部结构域的一个或多个核苷酸可以包含2'修饰(例如在核糖上的2'位置处的修饰)，例如2-乙酰化，例如2'甲基化。在某些实施例中，可以用硫代磷酸酯修饰尾部结构域的骨架。在某些实施例中，对尾部结构域的一个或多个核苷酸的修饰使得尾部结构域和/或包含尾部结构域的gRNA不易降解或更生物相容，例如更低的免疫原性。在某些实施例中，尾部结构域包括1、2、3、4、5、6、7或8个或更多个修饰，并且在这些实施例的某些中，尾部结构域包括其5'和/或3'端的五个核苷酸内的1、2、3或4个修饰。在某些实施例中，尾部结构域包含在两个或更多个连续核苷酸处的修饰。

在某些实施例中，选择对尾部结构域中的一个或多个核苷酸的修饰以不干扰靶向功效，这可以通过测试如下阐述的候选修饰来评价。具有候选尾部结构域的gRNA可以使用如下阐述的系统进行评价，所述候选尾部结构域具有选定的长度、序列、互补程度、或修饰程度。所述候选尾部结构域可以被单独地或与一种或多种其他候选变化放置在已知与选定的靶具有功能性的gRNA分子/Cas9分子系统中并且进行评价。

在某些实施例中，尾部结构域包括在3’端与体外或体内转录方法相关的核苷酸。当将T7启动子用于gRNA的体外转录时，这些核苷酸可以是DNA模板的3’端前存在的任何核苷酸。当将U6启动子用于体内转录时，这些核苷酸可以是序列UUUUUU。当将H1启动子用于转录时，这些核苷酸可以是序列UUUU。当使用替代的pol-III启动子时，这些核苷酸可以是各种数量的尿嘧啶碱基，这取决于例如pol-III启动子的终止信号，或者它们可以包括替代碱基。

在某些实施例中，所述近端结构域和尾部结构域一起包含SEQ ID NO:32、33、34、35、36或37所示的序列，由其组成或基本上由其组成。

体内和体外gRNA转录

鉴于T7 RNA聚合酶需要G启动转录，T7启动子通常在其3'端具有两个G(例如，TAATACGACTCACTATAGG，3'端两个G加了下划线(SEQ ID NO:209))以确保启动子下游的整个gRNA序列的转录。然而，其后果是所产生的转录物可能含有至少一个(如果不是，则是两个)来自启动子序列的G，这可能改变gRNA特异性或gRNA与Cas9蛋白之间的相互作用。在gRNA靶序列以G开始的情况(例如，使用T7启动子通过体内转录制备的gRNA分子的靶向结构域包含如下的靶向结构域序列：GTAACGGCAGACTTCTCCTC(SEQ ID NO:206))下为解决这一问题，在gRNA PCR模板中编码的T7启动子序列可以被修饰，使得在T7启动子的3’端的仅仅一个G被除去：(修饰的T7启动子序列：TAATACGACTCACTATA(SEQ ID NO:211))。因此，可以将gRNAPCR模板的5'正义引物设计为：CACCGCTAGCTAATACGACTCACTATAGTAACGGCAGACTTCTCCTCGTTTTAGAGCTAGAAATA(SEQ ID No:207)，其中修饰的T7启动子序列加了下划线。对于不以G开始的gRNA靶序列(例如，使用T7启动子通过体内转录制备的gRNA分子的靶向结构域包含如下的靶向结构域序列：AAGGTGAACGTGGATGAAGT(SEQ ID NO:208))，在gRNA PCR模板中编码的T7启动子序列可以被修饰，使得在T7启动子的3’端的仅仅一个G被除去：(修饰的T7启动子序列：TAATACGACTCACTATAG(SEQ ID NO:210))。

T7启动子序列和修饰的T7启动子序列不限于本文所述的序列。例如，T7启动子序列(及其修饰)可以是标准生物组件登记册(位于以下：http://address:parts.igem.org/Promoters/Catalog/T7)中的“Promoters/Catalog/T7[启动子/目录/T7]”中提到的至少任何一个序列。应当理解的是，本披露包括这样的方法，其中本文披露的gRNA是通过从包含如本文所述的修饰的T7启动子的DNA模板体外转录而制备的，其中一个或多个3'末端G已被除去(例如，其中序列TAATACGACTCACTATAG(SEQ ID NO:210)紧邻位于在其5'端缺少G的靶向结构域的上游，或者序列TAATACGACTCACTATA(SEQ ID NO:211)紧邻位于在5’端具有G的靶向结构域的上游)。基于其他的T7启动子序列，包括在标准生物组件登记册(位于以下：http://address:parts.igem.org/Promoters/Catalog/T7并且其全部内容通过引用结合在此)中的“Promoters/Catalog/T7[启动子/目录/T7]”中提到的至少任何一个序列，本领域技术人员将会认识到这些修饰的T7启动子上的其他变异。

示例性单分子/嵌合gRNA

在某些实施例中，如本文所披露的单分子或嵌合gRNA具有以下结构：5'[靶向结构域]-[第一互补结构域]-[连接结构域]-[第二互补结构域]-[近端结构域]-[尾部结构域]-3'，其中：

靶向结构域包含核心结构域和任选地第二结构域，并且长度为10至50个核苷酸；

第一互补结构域的长度为5至25个核苷酸，并且在某些实施例中，与本文所披露的参考第一互补结构域具有至少50％、60％、70％、80％、85％、90％或95％的同源性；

连接结构域的长度为1至5个核苷酸；

第二互补结构域的长度为5至27个核苷酸，并且在某些实施例中，与本文所披露的参考第二互补结构域具有至少50％、60％、70％、80％、85％、90％或95％的同源性；

近端结构域的长度为5至20个核苷酸，并且在某些实施例中，与本文所披露的参考近端结构域具有至少50％、60％、70％、80％、85％、90％或95％的同源性；并且

尾部结构域是不存在的或是长度为1至50个核苷酸的核苷酸序列，并且在某些实施例中，与本文所披露的参考尾部结构域具有至少50％、60％、70％、80％、85％、90％或95％的同源性。

在某些实施例中，如本文所披露的单分子gRNA包含，优选地从5’到3’：靶向结构域，其例如包含10至50个核苷酸；第一互补结构域，其例如包含15、16、17、18、19、20、21、22、23、24、25、或26个核苷酸；连接结构域；第二互补结构域；近端结构域；以及尾部结构域，其中，

(a)当一起考虑时，近端结构域和尾部结构域包含至少15、18、20、25、30、31、35、40、45、49、50、或53个核苷酸；

(b)第二互补结构域的最后一个核苷酸的3’存在至少15、18、20、25、30、31、35、40、45、49、50、或53个核苷酸；或

(c)第二互补结构域的最后一个核苷酸的3’存在至少16、19、21、26、31、32、36、41、46、50、51、或54个核苷酸，所述核苷酸与第一互补结构域的相应核苷酸互补。

在某些实施例中，来自(a)、(b)、和/或(c)的序列与天然存在的gRNA的相应序列或与本文所述的gRNA具有至少50％、60％、70％、75％、80％、85％、90％、95％或99％的同源性。

在某些实施例中，当一起考虑时，近端结构域和尾部结构域包含至少15、18、20、25、30、31、35、40、45、49、50、或53个核苷酸。

在某些实施例中，第二互补结构域的最后一个核苷酸的3’存在至少15、18、20、25、30、31、35、40、45、49、50或53个核苷酸。

在某些实施例中，第二互补结构域的最后一个核苷酸的3’存在至少16、19、21、26、31、32、36、41、46、50、51或54个核苷酸，所述核苷酸与第一互补结构域的相应核苷酸互补。

在某些实施例中，靶向结构域由16、17、18、19、20、21、22、23、24、25或26个与靶结构域或其部分互补或部分互补的核苷酸(例如，16、17、18、19、20、21、22、23、24、25或26个连续核苷酸)组成，基本上由其组成或包含其，例如，靶向结构域的长度为16、17、18、19、20、21、22、23、24、25或26个核苷酸。在这些实施例的某些中，靶向结构域在靶向结构域的整个长度、靶结构域的整个长度或两者上与靶结构域互补。

在某些实施例中，本文所披露的单分子的或嵌合的gRNA分子(包含靶向结构域、第一互补结构域、连接结构域、第二互补结构域、近端结构域以及任选地尾部结构域)包含SEQID NO:42所示的氨基酸序列，其中靶向结构域被列为20个N(残基1-20)但长度范围可以从16至26个核苷酸，并且其中最后的六个残基(残基97-102)表示U6启动子的终止信号，但可以不存在或数目更少。在某些实施例中，所述单分子的或嵌合的gRNA分子是酿脓链球菌gRNA分子。

在某些实施例中，本文所披露的单分子的或嵌合的gRNA分子(包含靶向结构域、第一互补结构域、连接结构域、第二互补结构域、近端结构域以及任选地尾部结构域)包含SEQID NO:38所示的氨基酸序列，其中靶向结构域被列为20个N(残基1-20)但长度范围可以从16至26个核苷酸，并且其中最后的六个残基(残基97-102)表示U6启动子的终止信号，但可以不存在或数目更少。在某些实施例中，所述单分子的或嵌合的gRNA分子是金黄色葡萄球菌gRNA分子。

示例性嵌合gRNA的序列和结构也示于图1H-1I中。

示例性模块化gRNA

在某些实施例中，本文所披露的模块化gRNA包含：第一链，其包含，优选地从5’到3’：靶向结构域，其例如包含15、16、17、18、19、20、21、22、23、24、25、或26个核苷酸；第一互补结构域；和第二链，其包含，优选地从5’到3’：任选地，5’延伸结构域；第二互补结构域；近端结构域；以及尾部结构域，其中：

在某些实施例中，来自(a)、(b)、或(c)的序列与天然存在的gRNA的相应序列或与本文所述的gRNA具有至少60％、75％、80％、85％、90％、95％或99％的同源性。

在某些实施例中，靶向结构域包含、具有、或由16、17、18、19、20、21、22、23、24、25或26个与靶结构域具有互补性的核苷酸(例如，16、17、18、19、20、21、22、23、24、25或26个连续核苷酸)组成，例如，靶向结构域的长度为16、17、18、19、20、21、22、23、24、25或26个核苷酸。

在某些实施例中，靶向结构域由16、17、18、19、20、21、22、23、24、25或26个与靶结构域或其部分互补的核苷酸(例如，16、17、18、19、20、21、22、23、24、25或26个连续核苷酸)组成，基本上由其组成或包含其。在这些实施例的某些中，靶向结构域在靶向结构域的整个长度、靶结构域的整个长度或两者上与靶结构域互补。

在某些实施例中，靶向结构域包含16个与靶结构域具有互补性的核苷酸(例如，16个连续核苷酸)，由其组成或基本上由其组成，例如，靶向结构域的长度为16个核苷酸。在这些实施例的某些实施例中，(a)当一起考虑时，近端结构域和尾部结构域包含至少15、18、20、25、30、31、35、40、45、49、50或53个核苷酸；(b)第二互补结构域的最后一个核苷酸的3’存在至少15、18、20、25、30、31、35、40、45、49、50、或53个核苷酸；并且/或(c)第二互补结构域的最后一个核苷酸的3’存在至少16、19、21、26、31、32、36、41、46、50、51、或54个核苷酸，所述核苷酸与第一互补结构域的相应核苷酸互补。

在某些实施例中，靶向结构域包含17个与靶结构域具有互补性的核苷酸(例如，17个连续核苷酸)，由其组成或基本上由其组成，例如，靶向结构域的长度为17个核苷酸。在这些实施例的某些中，(a)当一起考虑时，近端结构域和尾部结构域包含至少15、18、20、25、30、31、35、40、45、49、50或53个核苷酸；(b)第二互补结构域的最后一个核苷酸的3’存在至少15、18、20、25、30、31、35、40、45、49、50、或53个核苷酸；并且/或(c)第二互补结构域的最后一个核苷酸的3’存在至少16、19、21、26、31、32、36、41、46、50、51、或54个核苷酸，所述核苷酸与第一互补结构域的相应核苷酸互补。

在某些实施例中，靶向结构域包含18个与靶结构域具有互补性的核苷酸(例如，18个连续核苷酸)，由其组成或基本上由其组成，例如，靶向结构域的长度为18个核苷酸。在这些实施例的某些中，(a)当一起考虑时，近端结构域和尾部结构域包含至少15、18、20、25、30、31、35、40、45、49、50或53个核苷酸；(b)第二互补结构域的最后一个核苷酸的3’存在至少15、18、20、25、30、31、35、40、45、49、50、或53个核苷酸；并且/或(c)第二互补结构域的最后一个核苷酸的3’存在至少16、19、21、26、31、32、36、41、46、50、51、或54个核苷酸，所述核苷酸与第一互补结构域的相应核苷酸互补。

在某些实施例中，靶向结构域包含19个与靶结构域具有互补性的核苷酸(例如，19个连续核苷酸)，由其组成或基本上由其组成，例如，靶向结构域的长度为19个核苷酸。在这些实施例的某些中，(a)当一起考虑时，近端结构域和尾部结构域包含至少15、18、20、25、30、31、35、40、45、49、50或53个核苷酸；(b)第二互补结构域的最后一个核苷酸的3’存在至少15、18、20、25、30、31、35、40、45、49、50、或53个核苷酸；并且/或(c)第二互补结构域的最后一个核苷酸的3’存在至少16、19、21、26、31、32、36、41、46、50、51、或54个核苷酸，所述核苷酸与第一互补结构域的相应核苷酸互补。

在某些实施例中，靶向结构域包含20个与靶结构域具有互补性的核苷酸(例如，20个连续核苷酸)，由其组成或基本上由其组成，例如，靶向结构域的长度为20个核苷酸。在这些实施例的某些中，(a)当一起考虑时，近端结构域和尾部结构域包含至少15、18、20、25、30、31、35、40、45、49、50或53个核苷酸；(b)第二互补结构域的最后一个核苷酸的3’存在至少15、18、20、25、30、31、35、40、45、49、50、或53个核苷酸；并且/或(c)第二互补结构域的最后一个核苷酸的3’存在至少16、19、21、26、31、32、36、41、46、50、51、或54个核苷酸，所述核苷酸与第一互补结构域的相应核苷酸互补。

在某些实施例中，靶向结构域包含21个与靶结构域具有互补性的核苷酸(例如，21个连续核苷酸)，由其组成或基本上由其组成，例如，靶向结构域的长度为21个核苷酸。在这些实施例的某些中，(a)当一起考虑时，近端结构域和尾部结构域包含至少15、18、20、25、30、31、35、40、45、49、50或53个核苷酸；(b)第二互补结构域的最后一个核苷酸的3’存在至少15、18、20、25、30、31、35、40、45、49、50、或53个核苷酸；并且/或(c)第二互补结构域的最后一个核苷酸的3’存在至少16、19、21、26、31、32、36、41、46、50、51、或54个核苷酸，所述核苷酸与第一互补结构域的相应核苷酸互补。

在某些实施例中，靶向结构域包含22个与靶结构域具有互补性的核苷酸(例如，22个连续核苷酸)，由其组成或基本上由其组成，例如，靶向结构域的长度为22个核苷酸。在这些实施例的某些中，(a)当一起考虑时，近端结构域和尾部结构域包含至少15、18、20、25、30、31、35、40、45、49、50或53个核苷酸；(b)第二互补结构域的最后一个核苷酸的3’存在至少15、18、20、25、30、31、35、40、45、49、50、或53个核苷酸；并且/或(c)第二互补结构域的最后一个核苷酸的3’存在至少16、19、21、26、31、32、36、41、46、50、51、或54个核苷酸，所述核苷酸与第一互补结构域的相应核苷酸互补。

在某些实施例中，靶向结构域包含23个与靶结构域具有互补性的核苷酸(例如，23个连续核苷酸)，由其组成或基本上由其组成，例如，靶向结构域的长度为23个核苷酸。在这些实施例的某些中，(a)当一起考虑时，近端结构域和尾部结构域包含至少15、18、20、25、30、31、35、40、45、49、50或53个核苷酸；(b)第二互补结构域的最后一个核苷酸的3’存在至少15、18、20、25、30、31、35、40、45、49、50、或53个核苷酸；并且/或(c)第二互补结构域的最后一个核苷酸的3’存在至少16、19、21、26、31、32、36、41、46、50、51、或54个核苷酸，所述核苷酸与第一互补结构域的相应核苷酸互补。

在某些实施例中，靶向结构域包含24个与靶结构域具有互补性的核苷酸(例如，24个连续核苷酸)，由其组成或基本上由其组成，例如，靶向结构域的长度为24个核苷酸。在这些实施例的某些中，(a)当一起考虑时，近端结构域和尾部结构域包含至少15、18、20、25、30、31、35、40、45、49、50或53个核苷酸；(b)第二互补结构域的最后一个核苷酸的3’存在至少15、18、20、25、30、31、35、40、45、49、50、或53个核苷酸；并且/或(c)第二互补结构域的最后一个核苷酸的3’存在至少16、19、21、26、31、32、36、41、46、50、51、或54个核苷酸，所述核苷酸与第一互补结构域的相应核苷酸互补。

在某些实施例中，靶向结构域包含25个与靶结构域具有互补性的核苷酸(例如，25个连续核苷酸)，由其组成或基本上由其组成，例如，靶向结构域的长度为25个核苷酸。在这些实施例的某些中，(a)当一起考虑时，近端结构域和尾部结构域包含至少15、18、20、25、30、31、35、40、45、49、50或53个核苷酸；(b)第二互补结构域的最后一个核苷酸的3’存在至少15、18、20、25、30、31、35、40、45、49、50、或53个核苷酸；并且/或(c)第二互补结构域的最后一个核苷酸的3’存在至少16、19、21、26、31、32、36、41、46、50、51、或54个核苷酸，所述核苷酸与第一互补结构域的相应核苷酸互补。

在某些实施例中，靶向结构域包含26个与靶结构域具有互补性的核苷酸(例如，26个连续核苷酸)，由其组成或基本上由其组成，例如，靶向结构域的长度为26个核苷酸。在这些实施例的某些中，(a)当一起考虑时，近端结构域和尾部结构域包含至少15、18、20、25、30、31、35、40、45、49、50或53个核苷酸；(b)第二互补结构域的最后一个核苷酸的3’存在至少15、18、20、25、30、31、35、40、45、49、50、或53个核苷酸；并且/或(c)第二互补结构域的最后一个核苷酸的3’存在至少16、19、21、26、31、32、36、41、46、50、51或54个核苷酸，所述核苷酸与该第一互补结构域的相应核苷酸互补。

gRNA递送

在本文提供的方法的某些实施例中，所述方法包括递送如本文所述的一种或多种(例如，两种、三种或四种)gRNA分子。在这些实施例的某些中，通过肝内注射、实质内注射入肝脏、实质内注射到肺中、静脉内递送到门静脉、静脉内注射、肌内注射、皮下注射或吸入递送所述gRNA分子。II.用于设计gRNA的方法

在此描述了用于设计gRNA的方法，包括用于选择、设计和验证靶结构域的方法。还在此提供了示例性靶向结构域。可以将在此所论述的靶向结构域掺入在此描述的gRNA中。

用于选择和验证靶序列连同脱靶分析的方法描述于例如Mali等人，2013Science[科学]339(6121):823-826；Hsu等人，Nat Biotechnol[自然生物技术]，31(9):827-32；Fu等人，2014Nat Biotechnol[自然生物技术]，doi:10.1038/nbt.2808.PubMed PMID:24463574；Heigwer等人，2014Nat Methods[自然方法]11(2):122-3.doi:10.1038/nmeth.2812.PubMed PMID:24481216；Bae等人，2014Bioinformatics[生物信息学]PubMedPMID:24463181；Xiao A等人，2014Bioinformatics[生物信息学]PubMed PMID:24389662中。

例如，一种软件工具可以用来优化在用户的靶序列之内的gRNA的选择，例如，以跨基因组最小化总脱靶活性。脱靶活性可以不同于切割。对于使用酿脓链球菌Cas9的每个可能的gRNA选择，所述工具可以识别跨基因组所有脱靶序列(以上的NAG或NGG PAM)，所述脱靶序列含有高达一定数量(例如，1、2、3、4、5、6、7、8、9或10)的错配碱基对。在每个脱靶序列处的切割效率是可以预测的，例如，使用实验衍生的加权方案。进而根据每个可能的gRNA的总的预测的脱靶切割进行排序；最高排名的gRNA表示可能具有最大中靶和最少脱靶切割的那些。其他功能(例如，用于CRISPR构建的自动化试剂设计、用于中靶Surveyor测定的引物设计、和用于高通量检测以及经由下一代测序对脱靶切割进行定量的引物设计)也可以被包括在所述工具中。候选gRNA分子可以通过本领域已知的方法或如在此第IV部分中所描述的进行评估。使用DNA序列检索算法识别用于与酿脓链球菌、金黄色葡萄球菌和脑膜炎奈瑟氏菌Cas9一起使用的指导RNA(gRNA)。使用基于公共工具cas-offinder的定制指导RNA设计软件来进行指导RNA设计(参考文献：Cas-OFFinder:a fast and versatile algorithmthat searches for potential off-target sites of Cas9 RNA-guidedendonucleases.[Cas-OFFinder：一种针对Cas9 RNA-指导的内切核酸酶的潜在脱靶位点进行检索的快速且通用的算法]，Bioinformatics.[生物信息学]2014年2月17日.Bae S、ParkJ、Kim JS.PMID:24463181)。所述定制指导RNA设计软件在计算指导物的全基因组脱靶倾向之后为指导物打分。典型地，针对长度范围从17至24的指导物考虑范围从完美匹配至7个错配的匹配。一旦经计算确定了脱靶位点，便计算每种指导物的总分并且使用web界面以表格输出总结。除识别与PAM序列邻近的潜在gRNA位点之外，所述软件还识别与所选gRNA位点相差1、2、3个或更多个核苷酸的所有PAM邻近序列。从UCSC基因组浏览器获得每个基因的基因组DNA序列，并且使用可公开获得的RepeatMasker程序针对重复元件对序列进行筛选。RepeatMasker针对重复元件和具有低复杂性的区域对输入DNA序列进行检索。输出是存在于给定查询序列中的重复的详细注释。

识别之后，基于gRNA靶向特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体的序列的频率对gRNA进行分组。“频率”是指针对特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)，gRNA靶向的等位基因变体的数量比等位基因变体的总数量，例如本文所述的数据库中披露的等位基因变体的总数量。例如，如果gRNA靶向基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)中的全部等位基因变体，则gRNA以100％的频率靶向特定基因座的等位基因变体。

之后，根据它们到靶位点的距离、它们的正交性或5'G的存在(基于对含有相关PAM的人基因组中的靠近匹配的识别，例如在酿脓链球菌的情况下是NGG PAM，在金黄色葡萄球菌的情况下是NNGRRN(SEQ ID NO:203)(例如，NNGRRT(SEQ ID NO:204)或NNGRRV(SEQ IDNO:205))PAM，和在脑膜炎奈瑟氏菌(N.meningitidis)的情况下是NNNNGATT(SEQ ID NO:212)或NNNNGCTT(SEQ ID NO:213)PAM)，将RNA排成等级。正交性是指在人类基因组中含有与靶序列最小数量的错配的序列的数量。“高水平的正交性”或“良好的正交性”可以例如是指20-mer gRNA，其除预期靶标之外在人类基因组中既没有一致序列，又没有包含靶序列中的一个或两个错配的任何序列。具有良好正交性的靶向结构域被选择用于最小化脱靶DNA切割。

作为实例，针对酿脓链球菌和脑膜炎奈瑟氏菌靶，设计了17-mer、或20-mer gRNA。作为另一个实例，针对金黄色葡萄球菌靶，设计了18-mer、19-mer、20-mer、21-mer、22-mer、23-mer以及24-mer gRNA。本文披露的靶向结构域可以包含17-mer。18个或更多个核苷酸的靶向结构域可以包含17-mer。本文披露的靶向结构域可以包含18-mer。19个或更多个核苷酸的靶向结构域可以包含18-mer。本文披露的靶向结构域可以包含19-mer。20个或更多个核苷酸的靶向结构域可以包含19-mer。本文披露的靶向结构域可以包含20-mer。21个或更多个核苷酸的靶向结构域可以包含20-mer。本文披露的靶向结构域可以包含21-mer。22个或更多个核苷酸的靶向结构域可以包含21-mer gRNA。本文披露的靶向结构域可以包含所描述的22-mer。23个或更多个核苷酸的靶向结构域可以包含22-mer。本文披露的靶向结构域可以包含23-mer。24个或更多个核苷酸的靶向结构域可以包含23-mer。本文披露的靶向结构域可以包含24-mer。25个或更多个核苷酸的靶向结构域可以包含24-mer gRNA。

作为一个实例，设计gRNA和酿脓链球菌、金黄色葡萄球菌和脑膜炎奈瑟氏菌Cas9酶一起使用。识别了gRNA并将其针对酿脓链球菌排序成4个等级。基于(1)到靶位点的距离(例如，靶向特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列的编码序列，(2)高水平的正交性，和(3)5’G的存在，选择了将与酿脓链球菌Cas9酶一起用于等级1的gRNA分子的靶向结构域。基于(1)到靶位点的距离(例如，靶向特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列的编码序列，和(2)高水平的正交性，选择了将与酿脓链球菌Cas9酶一起用于等级2的gRNA分子的靶向结构域。基于(1)到靶位点的距离(例如，靶向特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列的编码序列，和(2)5’G的存在，选择了将与酿脓链球菌Cas9酶一起用于等级3的gRNA分子的靶向结构域。基于到靶位点的距离(例如，靶向特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列的编码序列，选择了将与酿脓链球菌Cas9酶一起用于等级4的gRNA分子的靶向结构域。

当相关的PAM是NNGRRT或NNGRRV时，识别gRNA并针对金黄色葡萄球菌将其排成5个等级。基于(1)到靶位点的距离(例如，靶向特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列的编码序列，(2)高水平的正交性，(3)5’G的存在，和(4)PAM是NNGRRT，选择了将与金黄色葡萄球菌Cas9酶一起用于等级1的gRNA分子的靶向结构域。基于(1)到靶位点的距离(例如，靶向特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列的编码序列，(2)高水平的正交性，和(3)PAM是NNGRRT，选择了将与金黄色葡萄球菌Cas9酶一起用于等级2的gRNA分子的靶向结构域。基于(1)到靶位点的距离(例如，靶向特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列的编码序列，(2)5’G的存在、和(3)PAM是NNGRRT，选择了将与金黄色葡萄球菌Cas9酶一起用于等级3的gRNA分子的靶向结构域。基于(1)到靶位点的距离(例如，靶向特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列的编码序列，和(2)PAM是NNGRRT，选择了将与金黄色葡萄球菌Cas9酶一起用于等级4的gRNA分子的靶向结构域。基于(1)到靶位点的距离(例如，靶向特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列的编码序列，和(2)PAM是NNGRRV，选择了将与金黄色葡萄球菌Cas9酶一起用于等级4的gRNA分子的靶向结构域。

识别了gRNA并将其针对脑膜炎奈瑟氏菌排序成4个等级。识别了gRNA并将其针对脑膜炎奈瑟氏菌排序成4个等级。基于(1)到靶位点的距离(例如，靶向特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列的编码序列，(2)高水平的正交性，和(3)5’G的存在，选择了将与脑膜炎奈瑟氏菌Cas9酶一起用于等级1的gRNA分子的靶向结构域。基于(1)到靶位点的距离(例如，靶向特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列的编码序列，和(2)高水平的正交性，选择了将与脑膜炎奈瑟氏菌Cas9酶一起用于等级2的gRNA分子的靶向结构域。基于(1)到靶位点的距离(例如，靶向特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列的编码序列，和(2)5’G的存在，选择了将与脑膜炎奈瑟氏菌Cas9酶一起用于等级3的gRNA分子的靶向结构域。基于到靶位点的距离(例如，靶向特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体序列的编码序列，选择了将与脑膜炎奈瑟氏菌Cas9酶一起用于等级4的gRNA分子的靶向结构域。

在一个实施例中，当使用单个gRNA分子靶向Cas9切口酶以在等位基因变体序列(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的编码序列产生一个单链断裂时。

在一个实施例中，当使用单个gRNA分子靶向Cas9核酸酶以在等位基因变体序列(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的编码序列产生一个双链断裂时。

在一个实施例中，双重靶向用于在等位基因变体序列(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的编码序列中产生两个双链断裂。在一个实施例中，使用两种gRNA来靶向等位基因变体序列(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的编码序列的位置的上游或下游。在一个实施例中，第一个和第二个gRNA被用于靶向两个Cas9核酸酶以侧翼，例如，第一个gRNA被用于靶向等位基因变体序列(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的编码序列内的位置的上游并且第二个gRNA被用于靶向其下游。

在一个实施例中，双重靶向用于产生双链断裂和一对单链断裂以缺失等位基因变体序列(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的基因组序列。在一个实施例中，使用第一、第二和第三gRNA靶向一个Cas9核酸酶和两个Cas9切口酶以侧翼，例如将与Cas9核酸酶一起使用的第一个gRNA被用于靶向等位基因变体序列(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的编码序列内的位置的上游或下游，并且将与Cas9切口酶对一起使用的第二和第三个gRNA被用于靶向等位基因变体序列(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的编码序列的位置的相对侧。

在一个实施例中，当使用四种gRNA(例如两对)来靶向四种Cas9切口酶以产生四条单链断裂以缺失包括突变的基因组序列时，使用第一对和第二对gRNA靶向四个Cas9切口酶以侧翼，例如，第一对gRNA用于靶向等位基因变体序列(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的编码序列的位置的上游，并且第二对gRNA用于靶向等位基因变体序列(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的编码序列的下游。

针对单-gRNA核酸酶切割并且针对双-gRNA配对“切口酶”策略两者对gRNA进行识别。用于选择gRNA并且确定哪些gRNA可以用于哪种策略的标准是基于若干考虑：

gRNA对应该在DNA上定向成使得PAM朝外并且用D10A Cas9切口酶切割将产生5’突出端。

假设用双切口酶对切割将以合理频率导致整个插入序列的缺失。然而，它还会经常仅在所述gRNA之一的位点处导致indel突变。可以针对它们如何有效地去除整个序列对恰好引起一种gRNA的位点处的indel突变对候选对成员进行测试。

可以将在此所论述的靶向结构域掺入在此所描述的gRNA中。

III.Cas9分子

多个物种的Cas9分子可以用于本文所述的方法和组合物中。尽管酿脓链球菌和金黄色葡萄球菌Cas9分子是本披露的大部分的主题，也可以使用在此列出的其他物种的Cas9蛋白质的、从中衍生的、或基于其的Cas9分子。这些包括例如来自以下项的Cas9分子：燕麦食酸菌(Acidovorax avenae)、胸膜肺炎放线杆菌(Actinobacillus pleuropneumoniae)、琥珀酸放线杆菌(Actinobacillus succinogenes)、猪放线杆菌(Actinobacillus suis)、放线菌属物种(Actinomyces sp.)、cycliphilus denitrificans、Aminomonaspaucivorans、蜡样芽孢杆菌(Bacillus cereus)、史氏芽孢杆菌(Bacillus smithii)、苏云金芽孢杆菌(Bacillus thuringiensis)、拟杆菌属物种(Bacteroides sp.)、Blastopirellula marina、慢生根瘤菌属物种(Bradyrhizobium sp.)、侧孢短芽孢杆菌(Brevibacillus laterosporus)、结肠弯曲菌(Campylobacter coli)、空肠弯曲菌(Campylobacter jejuni)、红嘴鸥弯曲杆菌(Campylobacter lari)、Candidatuspuniceispirillum、解纤维梭菌(Clostridium cellulolyticum)、产气荚膜梭菌(Clostridium perfringens)、拥挤棒杆菌(Corynebacterium accolens)、白喉棒状杆菌(Corynebacterium diphtheria)、Corynebacterium matruchotii、恒雄芝氏沟鞭藻玫瑰杆菌(Dinoroseobacter shibae)、细长真杆菌(Eubacterium dolichum)、γ-变形菌纲(gammaproteobacterium)、重氮营养葡糖酸醋杆菌(Gluconacetobacter diazotrophicus)、副流感嗜血杆菌(Haemophilus parainfluenzae)、嗜血弯曲杆菌(Haemophilus sputorum)、Helicobacter canadensis、同性恋螺杆菌(Helicobacter cinaedi)、鼬鼠螺杆菌(Helicobacter mustelae)、Ilyobacter polytropus、金氏金氏菌(Kingella kingae)、卷曲乳酸杆菌(Lactobacillus crispatus)、伊氏李斯特菌(Listeria ivanovii)、单核细胞增生李斯特菌(Listeria monocytogenes)、李斯特氏菌科菌(Listeriaceae bacterium)、甲基孢囊菌属物种(Methylocystis sp.)、甲烷氧化菌(Methylosinus trichosporium)、羞怯动弯杆菌(Mobiluncus mulieris)、奈瑟氏杆菌(Neisseria bacilliformis)、灰色奈瑟球菌(Neisseria cinerea)、浅黄色奈瑟氏菌(Neisseria flavescens)、乳糖奈瑟氏菌(Neisseria lactamica)、奈瑟氏菌属物种(Neisseria sp.)、瓦茨瓦尔西奈瑟氏菌(Neisseria wadsworthii)、亚硝化单胞菌属物种(Nitrosomonas sp.)、食清洁剂细小棒菌(Parvibaculum lavamentivorans)、出血败血性巴士杆菌(Pasteurella multocida)、Phascolarctobacterium succinatutens、Ralstonia syzygii、沼泽红假单胞菌(Rhodopseudomonas palustris)、小红卵菌属物种(Rhodovulum sp.)、米氏西蒙斯氏菌(Simonsiella muelleri)、鞘氨醇单胞菌属物种(Sphingomonassp.)、Sporolactobacillusvineae、路邓葡萄球菌(Staphylococcus lugdunensis)、链球菌属物种(Streptococcussp.)、Subdoligranulum sp.、运动替斯崔纳菌(Tistrella mobilis)、密螺旋体属物种(Treponema sp.)或Verminephrobacter eiseniae。

Cas9结构域

已经确定了两种不同的天然存在的细菌Cas9分子的晶体结构。在Jinek等人；Science[科学].2014年3月14日；343(6176):1247997中已经描述了酿脓链球菌Cas9的未结合状态的晶体结构。在Jiang等人；Science[科学].2015年6月26日；348(6242):1477-81中已经披露了与单一的gRNA复合的酿脓链球菌Cas9的晶体结构。已经在Nishimasu等人，Cell[细胞].2014年2月27日；156(5):935-49；Anders等人，Nature[自然].2014年9月25日；513(7519):569-73中描述了与单一gRNA(例如，crRNA和tracrRNA的合成融合)及其靶DNA复合的酿脓链球菌Cas9的晶体结构。已经在Nishimasu等人，Cell[细胞].2015年8月27日；162(5):1113-26中披露了金黄色葡萄球菌Cas9与单个指导RNA(sgRNA)及其双链DNA靶复合的晶体结构。

天然存在的Cas9分子包含两个叶片：识别(REC)叶片和核酸酶(NUC)叶片，其中每一个还包含本文所述的结构域。在Jinek等人；Science[科学].2014年3月14日；343(6176):1247997；Jiang等人；Science[科学].2015年6月26日；348(6242):1477-81；Nishimasu等人，Cell[细胞].2014年2月27日；156(5):935-49；Anders等人，Nature[自然].2014年9月25日；513(7519):569-73；Nishimasu等人，Cell[细胞].2015年8月27日；162(5):1113-26中描述了Cas9结构域。贯穿本披露使用的由每个结构域所涵盖的结构域命名和氨基酸残基编号是如先前(Nishimasu等人，Cell[细胞].2014年2月27日；156(5):935-49)所描述的。氨基酸残基的编号是参照来自酿脓链球菌的Cas9。

REC叶片包含富精氨酸的桥螺旋(BH)、REC1结构域、和REC2结构域。REC叶片与其他已知蛋白不享有结构相似性，指示它是Cas9特异性功能结构域。BH结构域是长的α螺旋且富精氨酸的区域并且包含酿脓链球菌Cas9的序列的氨基酸60-93。REC1结构域对于例如gRNA或tracrRNA的重复:抗重复双链体的识别而言是重要的，并且因此对于识别靶序列的Cas9活性而言是关键的。REC1结构域在酿脓链球菌Cas9的序列的氨基酸94至179和308至717处包含两个REC1基序。尽管在线性一级结构中被REC2结构域分开，这两个REC1结构域在三级结构中组装以形成REC1结构域。REC2结构域、或其部分在重复:抗重复双链体的识别中也可以发挥作用。REC2结构域包含酿脓链球菌Cas9的序列的氨基酸180-307。

NUC叶片包含RuvC结构域、HNH结构域和PAM相互作用(PI)结构域。RuvC结构域与逆转录病毒整合酶超家族成员享有结构相似性，并且切割靶核酸分子的单链(例如，非互补链)。RuvC结构域由酿脓链球菌Cas9的序列的分别在氨基酸1-59、718-769、和909-1098处的三个分割RuvC基序(RuvC I、RuvCII、和RuvCIII，在本领域其通常称为RuvCI结构域或N-末端RuvC结构域、RuvCII结构域、和RuvCIII结构域)组装而来。类似于REC1结构域，三个RuvC基序在一级结构中被其他结构域线性地分开，然而在三级结构中，三个RuvC基序组成并形成RuvC结构域。HNH结构域与HNH内切核酸酶享有结构相似性，并且切割靶核酸分子的单链(例如，非互补链)。HNH结构域位于RuvC II-III基序之间并且包含酿脓链球菌Cas9的序列的氨基酸775-908。PI结构域与靶核酸分子的PAM相互作用，并且包含酿脓链球菌Cas9的序列的氨基酸1099-1368。

RuvC样结构域和HNH样结构域

在某些实施例中，Cas9分子或Cas9多肽包含HNH样结构域和RuvC样结构域，并且在这些实施例的某些中，切割活性取决于RuvC样结构域和HNH样结构域。Cas9分子或Cas9多肽可以包含RuvC样结构域和HNH样结构域中的一者或多者。在某些实施例中，Cas9分子或Cas9多肽包含RuvC样结构域(例如，如下所述的RuvC样结构域)和/或HNH样结构域(例如，如下所述的HNH样结构域)。

RuvC样结构域

在某些实施例中，RuvC样结构域切割靶核酸分子的单链(例如，非互补链)。Cas9分子或Cas9多肽可以包括多于一个RuvC样结构域(例如，一个、两个、三个或更多个RuvC样结构域)。在某些实施例中，RuvC样结构域的长度为至少5、6、7、8个氨基酸但长度不多于20、19、18、17、16或15个氨基酸。在某些实施例中，Cas9分子或Cas9多肽包含长度为约10至20个氨基酸(例如，约15个氨基酸)的N-末端RuvC样结构域。

N-末端RuvC样结构域

一些天然存在的Cas9分子包含多于一个RuvC样结构域，其中切割取决于N-末端RuvC样结构域。因此，Cas9分子或Cas9多肽可以包含N-末端RuvC样结构域。示例性N-末端RuvC样结构域如下所述。

在某些实施例中，Cas9分子或Cas9多肽包含N-末端RuvC样结构域，所述N-末端RuvC样结构域包含具有化学式I的氨基酸序列：

D-X₁-G-X₂-X₃-X₄-X₅-G-X₆-X₇-X₈-X₉(SEQ ID NO:20)，

其中，

X₁选自I、V、M、L和T(例如，选自I、V和L)；

X₂选自T、I、V、S、N、Y、E和L(例如，选自T、V和I)；

X₃选自N、S、G、A、D、T、R、M和F(例如，A或N)；

X₄选自S、Y、N和F(例如，S)；

X₅选自V、I、L、C、T和F(例如，选自V、I和L)；

X₆选自W、F、V、Y、S和L(例如，W)；

X₇选自A、S、C、V和G(例如，选自A和S)；

X₈选自V、I、L、A、M和H(例如，选自V、I、M和L)；并且

X₉选自任何氨基酸或是不存在的(例如，选自T、V、I、L、Δ、F、S、A、Y、M和R，或例如，选自T、V、I、L和Δ)。

在某些实施例中，N-末端RuvC样结构域与SEQ ID NO:20的序列相差多达1个但不多于2、3、4或5个残基。

在某些实施例中，N-末端RuvC样结构域是有切割能力的。在其他实施例中，N-末端RuvC样结构域是无切割能力的。

在某些实施例中，Cas9分子或Cas9多肽包含N-末端RuvC样结构域，所述N-末端RuvC样结构域包含具有化学式II的氨基酸序列：

D-X₁-G-X₂-X₃-S-X₅-G-X₆-X₇-X₈-X₉(SEQ ID NO:21)，

其中

X₁选自I、V、M、L和T(例如，选自I、V和L)；

X₂选自T、I、V、S、N、Y、E和L(例如，选自T、V和I)；

X₃选自N、S、G、A、D、T、R、M和F(例如，A或N)；

X₅选自V、I、L、C、T和F(例如，选自V、I和L)；

X₆选自W、F、V、Y、S和L(例如，W)；

X₇选自A、S、C、V和G(例如，选自A和S)；

X₈选自V、I、L、A、M和H(例如，选自V、I、M和L)；并且

X₉选自任何氨基酸或是不存在的(例如，选自T、V、I、L、Δ、F、S、A、Y、M和R，或选自例如，T、V、I、L和Δ)。

在某些实施例中，N-末端RuvC样结构域与SEQ ID NO:21的序列相差多达1个但不多于2、3、4或5个残基。

在某些实施例中，N-末端RuvC样结构域包含具有化学式III的氨基酸序列：

D-I-G-X₂-X₃-S-V-G-W-A-X₈-X₉(SEQ ID NO:22)，

其中

X₂选自T、I、V、S、N、Y、E和L(例如，选自T、V和I)；

X₃选自N、S、G、A、D、T、R、M和F(例如，A或N)；

X₈选自V、I、L、A、M和H(例如，选自V、I、M和L)；并且

在某些实施例中，N-末端RuvC样结构域与SEQ ID NO:22的序列相差多达1个但不多于2、3、4或5个残基。

在某些实施例中，N-末端RuvC样结构域包含具有化学式IV的氨基酸序列：

D-I-G-T-N-S-V-G-W-A-V-X(SEQ ID NO:23)，

其中

X是非极性烷基氨基酸或羟基氨基酸，例如，X选自V、I、L和T(例如，Cas9分子可以包含示于图2A-2G中的N-末端RuvC样结构域(描绘为Y))。

在某些实施例中，N-末端RuvC样结构域与SEQ ID NO:23的序列相差多达1个但不多于2、3、4或5个残基。

在某些实施例中，N-末端RuvC样结构域与本文(例如，在图3A-3B中)所披露的N-末端RuvC样结构域的序列相差多达1个但不多于2、3、4或5个残基。在一个实施例中，在图3A-3B中识别出的高度保守残基中的1个、2个、3个或全部是存在的。

在某些实施例中，N-末端RuvC样结构域与本文(例如，在图4A-4B中)所披露的N-末端RuvC样结构域的序列相差多达1个但不多于2、3、4或5个残基。在一个实施例中，在图4A-4B中识别出的高度保守残基中的1个、2个或全部是存在的。

另外的RuvC样结构域

除了N-末端RuvC样结构域之外，Cas9分子或Cas9多肽可以包含一个或多个另外的RuvC样结构域。在某些实施例中，Cas9分子或Cas9多肽可以包含两个另外的RuvC样结构域。优选地，另外的RuvC样结构域的长度为至少5个氨基酸，并且例如长度为小于15个氨基酸，例如长度为5至10个氨基酸，例如长度为8个氨基酸。

另外的RuvC样结构域可以包含具有化学式V的氨基酸序列：

I-X₁-X₂-E-X₃-A-R-E(SEQ ID NO:15)，

其中，

X₁是V或H；

X₂是I、L或V(例如，I或V)；并且

X₃是M或T。

在某些实施例中，另外的RuvC样结构域包含具有化学式VI的氨基酸序列：

I-V-X₂-E-M-A-R-E(SEQ ID NO:16)，

其中

X₂是I、L或V(例如，I或V)(例如，Cas9分子或Cas9多肽可以包含示于图2A-2G中的另外的RuvC样结构域(描绘为B))。

另外的RuvC样结构域可以包含具有化学式VII的氨基酸序列：

H-H-A-X₁-D-A-X₂-X₃(SEQ ID NO:17)，

其中

X₁是H或L；

X₂是R或V；并且

X₃是E或V。

在某些实施例中，另外的RuvC样结构域包含如下氨基酸序列：H-H-A-H-D-A-Y-L(SEQ ID NO:18)。

在某些实施例中，另外的RuvC样结构域与SEQ ID NO:15-18的序列相差多达1个但不多于2、3、4或5个残基。

在某些实施例中，N-末端RuvC样结构域侧翼的序列具有化学式VIII的氨基酸序列：

K-X₁’-Y-X₂’-X₃’-X₄’-Z-T-D-X₉’-Y(SEQ ID NO:19)，

其中

X₁’选自K和P；

X₂’选自V、L、I和F(例如，V、I和L)；

X₃’选自G、A和S(例如，G)；

X₄’选自L、I、V和F(例如，L)；

X₉’选自D、E、N和Q；并且

Z是N末端RuvC样结构域，例如如上所述，例如具有5至20个氨基酸。

HNH样结构域

在实施例中，HNH样结构域切割单链互补结构域(例如，双链核酸分子的互补链)。在某些实施例中，HNH样结构域的长度为至少15、20或25个氨基酸但长度为不多于40、35或30个氨基酸，例如长度为20至35个氨基酸，例如长度为25至30个氨基酸。示例性的HNH样结构域如下所述。

在一个实施例中，Cas9分子或Cas9多肽包含HNH样结构域，所述HNH样结构域具有化学式IX的氨基酸序列：

X₁-X₂-X₃-H-X₄-X₅-P-X₆-X₇-X₈-X⁹-X¹⁰-X¹¹-X¹²-X¹³-X¹⁴-X¹⁵-N-X¹⁶-X¹⁷-X¹⁸-X¹⁹-X₂₀-X₂₁-X₂₂-X₂₃-N(SEQ ID NO:25)，其中

X₁选自D、E、Q和N(例如，D和E)；

X²选自L、I、R、Q、V、M和K；

X₃选自D和E；

X₄选自I、V、T、A和L(例如，A、I和V)；

X₅选自V、Y、I、L、F和W(例如，V、I和L)；

X₆选自Q、H、R、K、Y、I、L、F和W；

X₇选自S、A、D、T和K(例如，S和A)；

X₈选自F、L、V、K、Y、M、I、R、A、E、D和Q(例如，F)；

X₉选自L、R、T、I、V、S、C、Y、K、F和G；

X₁₀选自K、Q、Y、T、F、L、W、M、A、E、G和S；

X₁₁选自D、S、N、R、L和T(例如，D)；

X₁₂选自D、N和S；

X₁₃选自S、A、T、G和R(例如，S)；

X₁₄选自I、L、F、S、R、Y、Q、W、D，K和H(例如，I、L和F)；

X₁₅选自D、S、I、N、E、A、H、F、L、Q、M、G、Y和V；

X₁₆选自K、L、R、M、T和F(例如，L、R和K)；

X₁₇选自V、L、I、A和T；

X₁₈选自L、I、V和A(例如，L和I)；

X₁₉选自T、V、C、E、S和A(例如，T和V)；

X₂₀选自R、F、T、W、E、L、N、C、K、V、S、Q、I、Y、H和A；

X₂₁选自S、P、R、K、N、A、H、Q、G和L；

X₂₂选自D、G、T、N、S、K、A、I、E、L、Q、R和Y；并且

X₂₃选自K、V、A、E、Y、I、C、L、S、T、G、K、M、D和F。

在某些实施例中，HNH样结构域与SEQ ID NO:25的序列相差至少一个但不多于2、3、4、或5个残基。

在某些实施例中，HNH样结构域是有切割能力的。在某些实施例中，HNH样结构域是无切割能力的。

在某些实施例中，Cas9分子或Cas9多肽包含HNH样结构域，所述HNH样结构域包括具有化学式X的氨基酸序列：

X₁-X₂-X₃-H-X₄-X₅-P-X₆-S-X₈-X₉-X₁₀-D-D-S-X₁₄-X₁₅-N-K-V-L-X₁₉-X₂₀-X₂₁-X₂₂-X₂₃-N(SEQ ID NO:26)，

其中

X₁选自D和E；

X₂选自L、I、R、Q、V、M和K；

X₃选自D和E；

X₄选自I、V、T、A和L(例如，A、I和V)；

X₅选自V、Y、I、L、F和W(例如，V、I和L)；

X₆选自Q、H、R、K、Y、I、L、F和W；

X₈选自F、L、V、K、Y、M、I、R、A、E、D和Q(例如，F)；

X₉选自L、R、T、I、V、S、C、Y、K、F和G；

X₁₀选自K、Q、Y、T、F、L、W、M、A、E、G和S；

X₁₄选自I、L、F、S、R、Y、Q、W、D，K和H(例如，I、L和F)；

X₁₅选自D、S、I、N、E、A、H、F、L、Q、M、G、Y和V；

X₁₉选自T、V、C、E、S和A(例如，T和V)；

X₂₀选自R、F、T、W、E、L、N、C、K、V、S、Q、I、Y、H和A；

X₂₁选自S、P、R、K、N、A、H、Q、G和L；

X₂₂选自D、G、T、N、S、K、A、I、E、L、Q、R和Y；并且

X₂₃选自K、V、A、E、Y、I、C、L、S、T、G、K、M、D和F。

在某些实施例中，HNH样结构域与SEQ ID NO:26的序列相差1、2、3、4或5个残基。

在某些实施例中，Cas9分子或Cas9多肽包含HNH样结构域，所述HNH样结构域包括具有化学式XI的氨基酸序列：

X₁-V-X₃-H-I-V-P-X₆-S-X₈-X₉-X₁₀-D-D-S-X₁₄-X₁₅-N-K-V-L-T-X₂₀-X₂₁-X₂₂-X₂₃-N(SEQ ID NO:27)，

其中

X₁选自D和E；

X₃选自D和E；

X₆选自Q、H、R、K、Y、I、L和W；

X₈选自F、L、V、K、Y、M、I、R、A、E、D和Q(例如，F)；

X₉选自L、R、T、I、V、S、C、Y、K、F和G；

X₁₀选自K、Q、Y、T、F、L、W、M、A、E、G和S；

X₁₄选自I、L、F、S、R、Y、Q、W、D，K和H(例如，I、L和F)；

X₁₅选自D、S、I、N、E、A、H、F、L、Q、M、G、Y和V；

X₂₀选自R、F、T、W、E、L、N、C、K、V、S、Q、I、Y、H和A；

X₂₁选自S、P、R、K、N、A、H、Q、G和L；

X₂₂选自D、G、T、N、S、K、A、I、E、L、Q、R和Y；并且

X₂₃选自K、V、A、E、Y、I、C、L、S、T、G、K、M、D和F。

在某些实施例中，HNH样结构域与SEQ ID NO:27的序列相差1、2、3、4或5个残基。

在某些实施例中，Cas9分子或Cas9多肽包含HNH样结构域，所述HNH样结构域具有化学式XII的氨基酸序列：

D-X₂-D-H-I-X₅-P-Q-X₇-F-X₉-X₁₀-D-X₁₂-S-I-D-N-X₁₆-V-L-X₁₉-X₂₀-S-X₂₂-X₂₃-N(SEQID NO:28)，

其中

X₂选自I和V；

X₅选自I和V；

X₇选自A和S；

X₉选自I和L；

X₁₀选自K和T；

X₁₂选自D和N；

X₁₆选自R、K和L；

X₁₉选自T和V；

X₂₀选自S和R；

X₂₂选自K、D和A；并且

X₂₃选自E、K、G和N(例如，Cas9分子或Cas9多肽可以包含如本文所描述的HNH样结构域)。

在一个实施例中，HNH样结构域与SEQ ID NO:28的序列相差多达1个但不多于2、3、4或5个残基。

在某些实施例中，Cas9分子或Cas9多肽包含具有化学式XIII的氨基酸序列：

L-Y-Y-L-Q-N-G-X₁’-D-M-Y-X₂’-X₃’-X₄’-X₅’-L-D-I-X₆’-X₇’-L-S-X₈’-Y-Z-N-R-X₉’-K-X₁₀’-D-X₁₁’-V-P(SEQ ID NO:24)，

其中

X₁’选自K和R；

X₂’选自V和T；

X₃’选自G和D；

X₄’选自E、Q和D；

X₅’选自E和D；

X₆’选自D、N和H；

X₇’选自Y、R和N；

X₈’选自Q、D和N；

X₉’选自G和E；

X₁₀’选自S和G；

X₁₁’选自D和N；并且

Z是HNH样结构域，例如，如以上所描述的。

在某些实施例中，Cas9分子或Cas9多肽包含与SEQ ID NO:24的序列相差多达1个但不多于2、3、4或5个残基的氨基酸序列。

在某些实施例中，HNH样结构域与本文(例如，在图5A-5C中)所披露的HNH样结构域的序列相差多达1个但不多于2、3、4或5个残基。在某些实施例中，在图5A-5C中识别出的高度保守残基中的1个或2个是存在的。

在某些实施例中，HNH样结构域与本文(例如，在图6A-6B中)所披露的HNH样结构域的序列相差多达1个但不多于2、3、4或5个残基。在一个实施例中，在图6A-6B中识别出的高度保守残基中的1个、2个或所有3个是存在的。

分裂Cas9分子和基因编辑系统

在一些实施例中，Cas9融合分子包含分裂Cas9分子，如在WO 15/089427和WO 14/018423中所更详细地描述的，其各自的全部内容通过引用明确地结合至本文中。以下简要地概述了分裂Cas9分子。

在一个方面，本文披露的是非天然存在的或工程改造的诱导型CRISPR酶，例如Cas9酶，其包含：连接于诱导型二聚体的第一半部分的第一CRISPR酶融合构建体和连接至诱导型二聚体的第二个半部分的第二CRISPR酶融合构建体，其中第一个CRISPR酶融合构建体可操作地连接至一个或多个核定位信号，其中第二CRISPR酶融合构建体可操作地连接至一个或多个核输出信号，其中与诱导剂能量源的接触将可诱导二聚体的第一半部分和第二半部分合在一起，其中将可诱导二聚体的第一半部分和第二半部分合在一起允许第一和第二CRISPR酶融合构建体构成了功能性基因编辑系统。

在另一方面，在诱导型基因编辑系统中，诱导型二聚体是或包含诱导型异二聚体或基本由其组成或由其组成。在一个方面，在诱导型基因编辑系统中，诱导型异二聚体的前半部分或第一部分或第一片段是FKBP，任选地FKBP 12，或包含其或由其组成或基本上由其组成。在一个方面，在诱导型基因编辑系统中，诱导型异二聚体的第二个半部分或第二部分或第二片段是FRB，或包含其或由其组成或基本上由其组成。在一个方面，在诱导型基因编辑系统中，第一种CRISPR酶融合构建体的排列是N'末端Cas9部分FRB-NES，或者包含其或由其组成或基本上由其组成。在另一个方面，在诱导型基因编辑系统中，第一种CRISPR酶融合构建体的排列是NES-N'末端Cas9部分FRB-NES，或者包含其或由其组成或基本上由其组成。在一方面，在诱导型基因编辑系统中，第二CRISPR酶融合构建体的排列是C末端Cas9部分-FKBP-NLS，或者包含其或基本上由其组成或由其组成。在另一方面，在诱导型基因编辑系统中，第二CRISPR酶融合构建体的排列是NLS-C末端Cas9部分-FKBP-NLS，或包含其或由其组成或基本上由其组成。在一个方面，在诱导型基因编辑系统中，可以存在将Cas9部分从诱导型二聚体的一半或部分或片段中分离的连接子。在一个方面，在诱导型基因编辑系统中，诱导剂能量源是拉珀霉素或包含其或基本上由其组成或由其组成。在一方面，在诱导型基因编辑系统中，诱导型二聚体是诱导型同型二聚体。在一方面，在诱导型基因编辑系统中，CRISPR酶是Cas9，例如SpCas9或SaCas9。在一方面，在基因编辑系统中，根据或参考SpCas9，Cas9在以下分裂点中的任何一处被分成两部分：在202A/203S间的分裂位置；在255F/256D间的分裂位置；在310E/311I间的分裂位置；在534R/535间的分裂位置；在572E/573C间的分裂位置；在713S/714G间的分裂位置；在1003L/104E间的分裂位置；在1G54G/1Q55E间的分裂位置；在11 14N/1115S间的分裂位置；在1152K/1153S间的分裂位置；在1245K/1246G间的分裂位置；或在1098和1099间的分裂位置。在一个方面，在诱导型基因编辑系统中，一个或多个功能结构域与Cas9酶的一个或两个部分缔合，例如功能结构域任选地包括转录激活物、转录或核酸酶，例如f'ok I核酸酶。在一个方面，在诱导型基因编辑系统中，功能性基因编辑系统与靶序列结合，并且该酶是死亡的Cas9，其与不具有该至少一个突变的CRISPR酶相比，任选地具有降低了至少97％或100％的核酸酶活性(或不超过3％，并且有利地是0％的核酸酶活性)。在一方面，在诱导型基因编辑系统中，死亡的Cas9(CRISPR酶)包含两个或更多个突变，其中根据SpCas9蛋白或任何相应的直向同源物，DIG、E762、H840、N854、N863、或D986中的两个或多个被突变，或者根据SaCas9蛋白，N580被突变，或者CRISPR酶包含至少一个突变，例如，其中至少H840被突变。本披露进一步提供了编码如本文讨论的可诱导基因编辑系统的多核苷酸。

本文还披露了用于递送第一CRISPR酶融合构建体的载体，其连接至可诱导二聚体的第一半或部分或片段并且与本文讨论的一个或多个核定位信号可操作地连接。在一个方面，本文披露的是用于递送第二CRISPR酶融合构建体的载体，其连接至可诱导二聚体的第二半或部分或片段并且可操作地连接至一个或多个核输出信号。

Cas9活性

在某些实施例中，Cas9分子或Cas9多肽能够切割靶核酸分子。典型地，野生型Cas9分子切割靶核酸分子的两条链。Cas9分子和Cas9多肽可以被工程化以改变核酸酶切割(或其他特性)，例如以提供作为切口酶、或缺乏切割靶核酸能力的Cas9分子或Cas9多肽。能够切割靶核酸分子的Cas9分子或Cas9多肽在本文中称为eaCas9(酶促活性Cas9)分子或eaCas9多肽。

在某些实施例中，eaCas9分子或eaCas9多肽包括以下酶活性中的一种或多种：

切口酶活性，即切割核酸分子的单链(例如，非互补链或互补链)的能力；

双链核酸酶活性，即切割双链核酸的两条链并且产生双链断裂的能力，其在一个实施例中是在两种切口酶活性的存在下；内切核酸酶活性；外切核酸酶活性；和解旋酶活性，即解旋双链核酸的螺旋结构的能力。

在某些实施例中，酶促活性或eaCas9分子或eaCas9多肽切割两条DNA链，并且产生双链断裂。在某些实施例中，eaCas9分子或eaCas9多肽仅切割一条链，例如，gRNA杂交到的链、或互补于与gRNA杂交的链的链。在一个实施例中，eaCas9分子或eaCas9多肽包含与HNH结构域相关的切割活性。在一个实施例中，eaCas9分子或eaCas9多肽包含与RuvC结构域相关的切割活性。在一个实施例中，eaCas9分子或eaCas9多肽包含与HNH结构域相关的切割活性以及与RuvC结构域相关的切割活性。在一个实施例中，eaCas9分子或eaCas9多肽包含有活性、或有切割能力的HNH结构域以及无活性、或无切割能力的RuvC结构域。在一个实施例中，eaCas9分子或eaCas9多肽包含无活性、或无切割能力的HNH结构域和有活性、或有切割能力的RuvC结构域。

靶向和PAM

Cas9分子或Cas9多肽可以与gRNA分子相互作用并且与所述gRNA分子一起定位至包含靶结构域(并且在某些实施例中，是PAM序列)的位点。

在某些实施例中，eaCas9分子或eaCas9多肽与靶核酸相互作用并且切割靶核酸的能力是PAM序列依赖性的。PAM序列是在靶核酸中的序列。在一个实施例中，靶核酸的切割发生在PAM序列的上游。来自不同细菌物种的eaCas9分子可以识别不同序列基序(例如，PAM序列)。在一个实施例中，酿脓链球菌的eaCas9分子识别序列基序NGG并且指导切割靶核酸序列的在该序列的上游的1至10(例如，3至5)bp(参见例如，Mali 2013)。在一个实施例中，嗜热链球菌的eaCas9分子识别序列基序NGGNG(SEQ ID NO:199)和/或NNAGAAW(W＝A或T)(SEQID NO:200)并且指导切割靶核酸序列的在这些序列上游的1至10(例如，3至5)bp(参见例如，Horvath 2010；Deveau 2008)。在一个实施例中，变形链球菌的eaCas9分子识别序列基序NGG和/或NAAR(R＝A或G)(SEQ ID NO:201)并且指导切割靶核酸序列的在该序列上游的1至10(例如，3至5)bp(参见例如，Deveau 2008)。在一个实施例中，金黄色葡萄球菌的eaCas9分子识别序列基序NNGRR(R＝A或G)(SEQ ID NO:202)并且指导切割靶核酸序列的在该序列的上游的1至10(例如，3至5)bp。在一个实施例中，金黄色葡萄球菌的eaCas9分子识别序列基序NNGRRN(R＝A或G)(SEQ ID NO:203)并且指导切割靶核酸序列的在该序列的上游的1至10(例如，3至5)bp。在一个实施例中，金黄色葡萄球菌的eaCas9分子识别序列基序NNGRRT(R＝A或G)(SEQ ID NO:204)并且指导切割靶核酸序列的在该序列的上游的1至10(例如，3至5)bp。在一个实施例中，金黄色葡萄球菌的eaCas9分子识别序列基序NNGRRV(R＝A或G)(SEQID NO:205)并且指导切割靶核酸序列的在该序列的上游的1至10(例如，3至5)bp。Cas9分子识别PAM序列的能力可以例如使用如先前所述的转化测定(Jinek 2012)来确定。在上述实施例中，N可以是任何核苷酸残基，例如A、G、C或T中的任一项。

如在此所讨论的，Cas9分子可以被工程化以改变Cas9分子的PAM特异性。

先前已经描述了示例性的天然存在的Cas9分子(参见例如，Chylinski2013)。此类Cas9分子包括以下项的Cas9分子：簇1细菌家族、簇2细菌家族、簇3细菌家族、簇4细菌家族、簇5细菌家族、簇6细菌家族、簇7细菌家族、簇8细菌家族、簇9细菌家族、簇10细菌家族、簇11细菌家族、簇12细菌家族、簇13细菌家族、簇14细菌家族、簇15细菌家族、簇16细菌家族、簇17细菌家族、簇18细菌家族、簇19细菌家族、簇20细菌家族、簇21细菌家族、簇22细菌家族、簇23细菌家族、簇24细菌家族、簇25细菌家族、簇26细菌家族、簇27细菌家族、簇28细菌家族、簇29细菌家族、簇30细菌家族、簇31细菌家族、簇32细菌家族、簇33细菌家族、簇34细菌家族、簇35细菌家族、簇36细菌家族、簇37细菌家族、簇38细菌家族、簇39细菌家族、簇40细菌家族、簇41细菌家族、簇42细菌家族、簇43细菌家族、簇44细菌家族、簇45细菌家族、簇46细菌家族、簇47细菌家族、簇48细菌家族、簇49细菌家族、簇50细菌家族、簇51细菌家族、簇52细菌家族、簇53细菌家族、簇54细菌家族、簇55细菌家族、簇56细菌家族、簇57细菌家族、簇58细菌家族、簇59细菌家族、簇60细菌家族、簇61细菌家族、簇62细菌家族、簇63细菌家族、簇64细菌家族、簇65细菌家族、簇66细菌家族、簇67细菌家族、簇68细菌家族、簇69细菌家族、簇70细菌家族、簇71细菌家族、簇72细菌家族、簇73细菌家族、簇74细菌家族、簇75细菌家族、簇76细菌家族、簇77细菌家族、或簇78细菌家族。

示例性的天然存在的Cas9分子包括簇1细菌家族的Cas9分子。实例包括以下各项的Cas9分子：金黄色葡萄球菌、酿脓链球菌(例如，菌株SF370、MGAS10270、MGAS10750、MGAS2096、MGAS315、MGAS5005、MGAS6180、MGAS9429、NZ131以及SSI-1)、嗜热链球菌(例如，菌株LMD-9)、假豕链球菌(S.pseudoporcinus)(例如，菌株SPIN 20026)、变异链球菌(例如，菌株UA159、NN2025)、猕猴链环菌(S.macacae)(例如，菌株NCTC11558)、解没食子酸链球菌(S.gallolyticus)(例如，菌株UCN34、ATCC BAA-2069)、马链球菌(S.equinus)(例如，菌株ATCC9812、MGCS 124)、停乳链球菌(S.dysdalactiae)(例如，菌株GGS 124)、牛链球菌(S.bovis)(例如，菌株ATCC 700338)、咽峡炎链球菌(S.anginosus)(例如，菌株F0211)、无乳链球菌(S.agalactiae)(例如，菌株NEM316、A909)、单核细胞增生李斯特菌(Listeriamonocytogenes)(例如，菌株F6854)、无害利斯特菌(Listeria innocua)(无害利斯特菌(L.innocua)(例如，菌株Clip11262))、意大利肠道球菌(Enterococcus italicus)(例如，菌株DSM 15952)、或屎肠球菌(Enterococcus faecium)(例如，菌株1,231,408)。

在某些实施例中，Cas9分子或Cas9多肽包含以下氨基酸序列：与本文所述的任何Cas9分子序列或天然存在的Cas9分子序列(例如，来自本文列出的(例如，SEQ ID NO:1、2、4-6或12)或描述于Chylinski 2013中的物种的Cas9分子)具有60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、或99％的同源性；当与其相比时，与其相差不多于2％、5％、10％、15％、20％、30％或40％的氨基酸残基；与其相差至少1、2、5、10或20个氨基酸但相差不多于100、80、70、60、50、40或30个氨基酸；或与其相同。在一个实施例中，Cas9分子或Cas9多肽包含以下一种或多种活性：切口酶活性；双链切割活性(例如，内切核酸酶和/或外切核酸酶活性)；解旋酶活性；或连同gRNA分子定位至靶核酸的能力。

在某些实施例中，Cas9分子或Cas9多肽包含图2A-2G的共有序列的任何氨基酸序列，其中“*”指示在酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9分子的氨基酸序列中的对应位置中发现的任何氨基酸，并且“-”指示不存在。在一个实施例中，Cas9分子或Cas9多肽与披露于图2A-2G中的共有序列的序列相差至少1个但不多于2、3、4、5、6、7、8、9或10个氨基酸残基。在某些实施例中，Cas9分子或Cas9多肽包含SEQ ID NO:2的氨基酸序列。在其他实施例中，Cas9分子或Cas9多肽与SEQ ID NO:2的序列相差至少1个但不多于2、3、4、5、6、7、8、9或10个氨基酸残基。

多个Cas9分子的序列的比较表明某些区域是保守的。将这些进行识别如下：

区域1(残基1至180，或在区域1’的情况下，残基120至180)；

区域2(残基360至480)；

区域3(残基660至720)；

区域4(残基817至900)；和

区域5(残基900至960)。

在实施例中，Cas9分子或Cas9多肽包含区域1-5，连同足够的另外的Cas9分子序列以提供生物活性分子(例如，具有至少一种在此所描述的活性的Cas9分子)。在一个实施例中，区域1-5中的每一个，独立地，与在此描述(例如来自图2A-2G的序列)的Cas9分子或Cas9多肽的相应残基具有50％、60％、70％、80％、85％、90％、95％、96％、97％、98％或99％的同源性。

在一个实施例中，Cas9分子或Cas9多肽包含以下称为区域1的氨基酸序列：

与酿脓链球菌的Cas9的氨基酸序列的氨基酸1-180具有50％、60％、70％、80％、85％、90％、95％、96％、97％、98％或99％同源性(编号是根据图2中的基序序列；图2A-2G中的四个Cas9序列中的52％的残基是保守的)；

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸1-180相差至少1、2、5、10或20个氨基酸但相差不多于90、80、70、60、50、40或30个氨基酸；或

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸1-180相同。

在实施例中，Cas9分子或Cas9多肽包含以下称为区域1’的氨基酸序列：

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸120-180具有55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同源性(图2中的四个Cas9序列中的55％的残基是保守的)；

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸120-180相差至少1、2或5个氨基酸但相差不多于35、30、25、20或10个氨基酸；或

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸120-180相同。

在实施例中，Cas9分子或Cas9多肽包含以下称为区域2的氨基酸序列：

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸360-480具有50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同源性(图2中的四个Cas9序列中的52％的残基是保守的)；

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸360-480相差至少1、2或5个氨基酸但相差不多于35、30、25、20或10个氨基酸；或

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸360-480相同。

在某些实施例中，Cas9分子或Cas9多肽包含以下称为区域3的氨基酸序列：

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸660-720具有55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同源性(图2中的四个Cas9序列中的56％的残基是保守的)；

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸660-720相差至少1、2或5个氨基酸但相差不多于35、30、25、20或10个氨基酸；或

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸660-720相同。

在实施例中，Cas9分子或Cas9多肽包含以下称为区域4的氨基酸序列：

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸817-900具有50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、或99％同源性(图2A-2G中的四个Cas9序列中的55％的残基是保守的)；

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸817-900相差至少1、2或5个氨基酸但相差不多于35、30、25、20或10个氨基酸；或

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸817-900相同。

在实施例中，Cas9分子或Cas9多肽包含以下称为区域5的氨基酸序列：

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸900-960具有50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、或99％同源性(图2A-2G中的四个Cas9序列中的60％的残基是保守的)；

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸900-960相差至少1、2或5个氨基酸但相差不多于35、30、25、20或10个氨基酸；或

与酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌的Cas9的氨基酸序列的氨基酸900-960相同。

工程化的或改变的Cas9

本文所述的Cas9分子和Cas9多肽(可以具有多种特性中的任一种，包括：核酸酶活性(例如，内切核酸酶和/或外切核酸酶活性)；解旋酶活性；在功能上与gRNA分子相关联的能力；以及靶向(或定位至)核酸上的位点的能力(例如，PAM识别和特异性)。在某些实施例中，Cas9分子或Cas9多肽可以包括这些特性的全部或子集。在一个典型的实施例中，Cas9分子或Cas9多肽具有与gRNA分子相互作用，并且与所述gRNA分子一起定位至核酸中的位点的能力。其他活性(例如，PAM特异性、切割活性、或解旋酶活性)在Cas9分子和Cas9多肽中可以更广泛地变化。

Cas9分子包括工程化的Cas9分子和工程化的Cas9多肽(如在此背景下使用的，工程化的仅仅意指所述Cas9分子或Cas9多肽不同于参考序列，并且没有暗示过程或来源限制)。工程化的Cas9分子或Cas9多肽可以包括改变的酶特性，例如改变的核酸酶活性(与天然存在的或其他参比Cas9分子相比)或改变的解旋酶活性。如在此所讨论的，工程化的Cas9分子或Cas9多肽可以具有切口酶活性(与双链核酸酶活性相反)。在实施例中，工程化的Cas9分子或Cas9多肽可以具有改变其尺寸的改变，例如减小其尺寸的氨基酸序列缺失，例如对一种或多种、或任何Cas9活性没有显著影响。在实施例中，工程化的Cas9分子或Cas9多肽可以包含影响PAM识别的改变。例如，工程化的Cas9分子可以被改变成识别不同于由内源野生型PI结构域所识别的PAM序列。在实施例中，Cas9分子或Cas9多肽在序列上可以不同于天然存在的Cas9分子，但是在一种或多种Cas9活性上没有显著改变。

具有所希望特性的Cas9分子或Cas9多肽可以通过多种方式制成，例如，通过改变亲本，例如天然存在的Cas9分子或Cas9多肽，以提供具有所希望特性的改变的Cas9分子或Cas9多肽。例如，可以相对于亲本Cas9分子(例如，天然存在的或工程化的Cas9分子)引入一个或多个突变或差异。此类突变和差异包括：取代(例如，保守取代或非必需氨基酸的取代)；插入；或缺失。在实施例中，Cas9分子或Cas9多肽相对于参比(例如，亲本)Cas9分子可以包括一个或多个突变或差异，例如，至少1、2、3、4、5、10、15、20、30、40或50个突变但少于200、100、或80个突变。

在某些实施例中，一个突变或多个突变对Cas9活性(例如，本文所述的Cas9活性)不具有实质影响。在其他实施例中，一个突变或多个突变对Cas9活性(例如，本文所述的Cas9活性)具有实质影响。

非切割和经修饰的切割Cas9

在一个实施例中，Cas9分子或Cas9多肽包含不同于天然存在的Cas9分子(例如，不同于具有最接近同源性的天然存在的Cas9分子)的切割特性。例如，Cas9分子或Cas9多肽可以与天然存在的Cas9分子(例如，酿脓链球菌的Cas9分子)有如下区别：例如，相比于天然存在的Cas9分子(例如，酿脓链球菌的Cas9分子)，它调节(例如，降低或增加)对双链核酸切割的能力(内切核酸酶和/或外切核酸酶活性)；例如，相比于天然存在的Cas9分子(例如，酿脓链球菌的Cas9分子)，它调节(例如，降低或增加)对核酸的单链(例如，核酸分子的非互补链或核酸分子的互补链)切割的能力(切口酶活性)；或切割核酸分子(例如，双链或单链核酸分子)的能力可以被消除。

在某些实施例中，eaCas9分子或eaCas9多肽包含以下一种或多种活性：与N-末端RuvC样结构域相关的切割活性；与HNH样结构域相关的切割活性；与HNH样结构域相关的切割活性和与N-末端RuvC样结构域相关的切割活性。

在某些实施例中，eaCas9分子或eaCas9多肽包含有活性、或有切割能力的HNH样结构域(例如，本文所述的HNH样结构域，例如，SEQ ID NO:24-28)和无活性、或无切割能力的N-末端RuvC样结构域。示例性的无活性、或无切割能力的N-末端RuvC样结构域可以在N-末端RuvC样结构域中具有天冬氨酸的突变(例如，披露于图2A-2G中的共有序列的位置9处的天冬氨酸或SEQ ID NO:2的位置10处的天冬氨酸例如可以被丙氨酸取代)。在一个实施例中，eaCas9分子或eaCas9多肽与野生型的区别在于N-末端RuvC样结构域并且不切割靶核酸、或以显著低于参考Cas9分子的切割活性(例如，低于20％、10％、5％、1％或0.1％)的效率进行切割，如通过本文所述的测定所测量的。参比Cas9分子可以是天然存在的未经修饰的Cas9分子，例如天然存在的Cas9分子，如酿脓链球菌、金黄色葡萄球菌或嗜热链球菌的Cas9分子。在一个实施例中，参考Cas9分子是具有最接近序列一致性或同源性的天然存在的Cas9分子。

在一个实施例中，eaCas9分子或eaCas9多肽包含无活性、或无切割能力的HNH结构域和有活性、或有切割能力的N-末端RuvC样结构域(例如，本文所述的N-末端RuvC样结构域，例如SEQ ID NO:15-23)。示例性的无活性、或无切割能力的HNH样结构域可以具有在以下一处或多处的突变：HNH样结构域中的组氨酸(例如，在披露于图2A-2G中的共有序列的位置856处所示的组氨酸例如可以被丙氨酸取代)；以及HNH样结构域中的一个或多个天冬酰胺(例如，在披露于图2A-2G中的共有序列的位置870处和/或披露于图2A-2G中的共有序列的位置879处所示的天冬酰胺例如可以被丙氨酸取代)。在一个实施例中，eaCas9与野生型的区别在于HNH样结构域并且不切割靶核酸、或以显著低于参考Cas9分子的切割活性(例如，低于20％、10％、5％、1％或0.1％)的效率进行切割，如通过本文所述的测定所测量的。参比Cas9分子可以是天然存在的未经修饰的Cas9分子，例如天然存在的Cas9分子，如酿脓链球菌、金黄色葡萄球菌或嗜热链球菌的Cas9分子。在一个实施例中，参考Cas9分子是具有最接近序列一致性或同源性的天然存在的Cas9分子。

在某些实施例中，示例性Cas9活性包括PAM特异性、切割活性、和解旋酶活性中的一项或多项。一个或多个突变可以存在于，例如：一个或多个RuvC样结构域(例如，N-末端RuvC样结构域)；HNH结构域；RuvC结构域和HNH结构域之外的区域中。在一个实施例中，一个或多个突变存在于RuvC结构域中。在一个实施例中，一个或多个突变存在于HNH结构域中。在一个实施例中，突变存在于RuvC结构域和HNH结构域二者中。

可以参照酿脓链球菌Cas9序列在RuvC结构域或HNH结构域中进行的示例性突变包括：D10A、E762A、H840A、N854A、N863A和/或D986A。可参考金黄色葡萄球菌Cas9序列在RuvC结构域中进行的示例性突变包括N580A(参见例如SEQ ID NO:11)。

无论具体序列(例如，取代)是否可以影响一种或多种活性(如靶向活性、切割活性等)，例如可以通过评价所述突变是否是保守的来评价或预测。在一个实施例中，“非必需”氨基酸残基，如在Cas9分子的背景下所使用的，是可以改变自Cas9分子的野生型序列(例如，天然存在的Cas9分子(例如，eaCas9分子))的残基，不会消除或更优选地不会实质上改变Cas9活性(例如，裂解活性)，而改变“必需”氨基酸残基导致活性(例如，裂解活性)的实质性损失。

在一个实施例中，Cas9分子包含不同于天然存在的Cas9分子(例如，不同于具有最接近同源性的天然存在的Cas9分子)的切割特性。例如，Cas9分子可以与天然存在的Cas9分子(例如，金黄色葡萄球菌或酿脓链球菌的Cas9分子)有如下区别：例如，相比于天然存在的Cas9分子(例如，金黄色葡萄球菌或酿脓链球菌的Cas9分子)，它调节(例如，降低或增加)对双链断裂切割的能力(内切核酸酶和/或外切核酸酶活性)；例如，相比于天然存在的Cas9分子(例如，金黄色葡萄球菌或酿脓链球菌的Cas9分子)，它调节(例如，降低或增加)对核酸的单链(例如，核酸分子的非互补链或核酸分子的互补链)切割的能力(切口酶活性)；或切割核酸分子(例如，双链或单链核酸分子)的能力可以被消除。在某些实施例中，切口酶是包含SEQ ID NO:10(D10A)或SEQ ID NO:11(N580A)(Friedland 2015)的序列的金黄色葡萄球菌Cas9衍生的切口酶。

在一个实施例中，改变的Cas9分子是包含以下一种或多种活性的eaCas9分子：与RuvC结构域相关的切割活性；与HNH结构域相关的切割活性；与HNH结构域相关的切割活性和与RuvC结构域相关的切割活性。

在某些实施例中，改变的Cas9分子或Cas9多肽包含如下序列，其中：

对应于披露于图2A-2G中的共有序列的固定序列的序列与披露于图2A-2G中的共有序列中的固定残基的不多于1％、2％、3％、4％、5％、10％、15％或20％有区别；并且

对应于披露于图2A-2G中的共有序列中由“*”识别的残基的序列与来自天然存在的Cas9分子(例如，酿脓链球菌、嗜热链球菌、变形链球菌或无害利斯特菌Cas9分子)的对应序列的“*”残基的不多于1％、2％、3％、4％、5％、10％、15％、20％、25％、30％、35％或40％有区别。

在一个实施例中，改变的Cas9分子或Cas9多肽是包含披露于图2A-2G中的酿脓链球菌Cas9的氨基酸序列的eaCas9分子或eaCas9多肽，其中在由披露于图2A-2G中的共有序列中的“*”表示的一个或多个残基(例如，2、3、5、10、15、20、30、50、70、80、90、100、200个氨基酸残基)处具有不同于酿脓链球菌的序列的一个或多个氨基酸(例如，取代)。

在一个实施例中，改变的Cas9分子或Cas9多肽是包含披露于图2A-2G中的嗜热链球菌Cas9的氨基酸序列的eaCas9分子或eaCas9多肽，其中在由披露于图2A-2G中的共有序列中的“*”表示的一个或多个残基(例如，2、3、5、10、15、20、30、50、70、80、90、100、200个氨基酸残基)处具有不同于嗜热链球菌的序列的一个或多个氨基酸(例如，取代)。

在一个实施例中，改变的Cas9分子或Cas9多肽是包含披露于图2A-2G中的变形链球菌Cas9的氨基酸序列的eaCas9分子或eaCas9多肽，其中在由披露于图2A-2G中的共有序列中的“*”表示的一个或多个残基(例如，2、3、5、10、15、20、30、50、70、80、90、100、200个氨基酸残基)处具有不同于变形链球菌的序列的一个或多个氨基酸(例如，取代)。

在一个实施例中，改变的Cas9分子或Cas9多肽是包含披露于图2A-2G中的无害利斯特菌Cas9的氨基酸序列的eaCas9分子或eaCas9多肽，其中在由披露于图2A-2G中的共有序列中的“*”表示的一个或多个残基(例如，2、3、5、10、15、20、30、50、70、80、90、100、200个氨基酸残基)处具有不同于无害利斯特菌的序列的一个或多个氨基酸(例如，取代)。

在某些实施例中，改变的Cas9分子或Cas9多肽(例如，eaCas9分子或eaCas9多肽)可以是例如多种不同Cas9分子(例如，不同物种的两种或更多种天然存在的Cas9分子)中的两种的融合体。例如，可以将一个物种的天然存在的Cas9分子的片段融合到第二物种的Cas9分子的片段上。作为实例，可以将包含N-末端RuvC样结构域的酿脓链球菌的Cas9分子的片段融合到包含HNH样结构域的不同于酿脓链球菌的物种(例如，嗜热链球菌)的Cas9分子的片段上。

具有改变的PAM识别或无PAM识别的Cas9

天然存在的Cas9分子可以识别特异性PAM序列，例如如上针对例如酿脓链球菌、嗜热链球菌、变形链球菌和金黄色葡萄球菌描述的PAM识别序列。

在某些实施例中，Cas9分子或Cas9多肽具有与天然存在的Cas9分子相同的PAM特异性。在其他实施例中，Cas9分子或Cas9多肽具有与天然存在的Cas9分子不相关的PAM特异性、或与它与之具有最接近序列同源性的天然存在的Cas9分子不相关的PAM特异性。例如，可以改变天然存在的Cas9分子，例如以改变PAM识别，例如以改变Cas9分子或Cas9多肽识别的PAM序列以减少脱靶位点和/或改进特异性；或消除PAM识别需要。在某些实施例中，可以改变Cas9分子或Cas9多肽，例如以增加PAM识别序列的长度和/或提高Cas9对高水平一致性(例如，gRNA与PAM序列之间的98％、99％或100％匹配)的特异性，例如以减少脱靶位点和/或增加特异性。在某些实施例中，PAM识别序列的长度在长度上是至少4、5、6、7、8、9、10或15个氨基酸。在一个实施例中，Cas9特异性需要gRNA与PAM序列之间的至少90％、95％、96％、97％、98％、99％或更多的同源性。可以使用定向进化产生识别不同PAM序列和/或具有降低的脱靶活性的Cas9分子或Cas9多肽。描述了可以用于Cas9分子定向进化的示例性方法和系统(参见例如，Esvelt 2011)。可以例如通过下文所述的方法对候选Cas9分子进行评价。

尺寸优化的Cas9

本文所描述的工程化的Cas9分子和工程化的Cas9多肽包括包含减小分子的尺寸但仍保留所希望Cas9特性(例如，基本上天然的构象、Cas9核酸酶活性、和/或靶核酸分子识别)的缺失的Cas9分子或Cas9多肽。本文提供了包含一个或多个缺失和任选地一个或多个接头的Cas9分子或Cas9多肽，其中接头被布置于在所述缺失的侧翼的氨基酸残基之间。用于识别参考Cas9分子中的适合缺失的方法、用于产生具有缺失和接头的Cas9分子的方法、以及使用此类Cas9分子的方法在审查本文献后对于本领域的普通技术人员应是清楚的。

具有缺失的Cas9分子(例如，金黄色葡萄球菌或酿脓链球菌Cas9分子)比对应的天然存在的Cas9分子小，例如具有减少数量的氨基酸。Cas9分子的较小尺寸允许提高递送方法的灵活性，并且由此增加基因组编辑的实用性。Cas9分子可以包含一个或多个不会实质上影响或降低本文所描述的所得Cas9分子的活性的缺失。包含如本文所描述的缺失的Cas9分子中所保留的活性包括以下项中的一种或多种：

切口酶活性，即切割核酸分子的单链(例如，非互补链或互补链)的能力；双链核酸酶活性，即切割双链核酸的两条链并且产生双链断裂的能力，其在一个实施例中是在两种切口酶活性的存在下；内切核酸酶活性；外切核酸酶活性；解旋酶活性，即解旋双链核酸的螺旋结构的能力；以及核酸分子(例如，靶核酸或gRNA)的识别活性。

可以使用本文所述的或本领域的活性测定来评估本文所述的Cas9分子的活性。

识别适于缺失的区域

可以通过多种方法识别Cas9分子的适于缺失的区域。可以在酿脓链球菌Cas9的晶体结构上建模来自不同细菌物种的天然存在的直向同源Cas9分子(Nishimasu 2014)，以便相对于所述蛋白的三维构象跨所选的Cas9直向同源物检查保守水平。在空间定位上远离在Cas9活性中所涉及的区域(例如，与靶核酸分子和/或gRNA相互作用)的较不保守的或不保守的区域代表作为用于缺失而不实质上影响或降低Cas9活性的候选物的区域或结构域。

编码Cas9分子的核酸

本文提供了编码Cas9分子或Cas9多肽(例如，eaCas9分子或eaCas9多肽)的核酸。先前已经描述了编码Cas9分子或Cas9多肽的示例性核酸(参见例如，Cong 2013；Wang2013；Mali 2013；Jinek 2012)。

在一个实施例中，编码Cas9分子或Cas9多肽的核酸可以是合成核酸序列。例如，合成核酸分子可以进行化学修饰，例如如本文所述。在一个实施例中，Cas9 mRNA具有以下一种或多种(例如，所有)特性：它被5-甲基胞苷和/或假尿苷加帽、多聚腺苷酸化、取代。

另外或可替代地，可以对合成核酸序列进行密码子优化，例如至少一个非常见密码子或低不常见密码子已经被常见密码子取代。例如，合成的核酸可以指导优化的信使mRNA的合成(例如，针对在哺乳动物表达系统(例如，本文描述的)中的表达进行优化)。

另外或可替代地，编码Cas9分子或Cas9多肽的核酸可以包含核定位序列(NLS)。核定位序列在本领域是已知的。

编码酿脓链球菌的Cas9分子的示例性密码子优化的核酸序列示于SEQ ID NO:3中。酿脓链球菌Cas9分子的相应氨基酸序列示于SEQ ID NO:2中。

编码金黄色葡萄球菌的Cas9分子的示例性密码子优化的核酸序列示于SEQ IDNO:7-9中。金黄色葡萄球菌Cas9分子的氨基酸序列示于SEQ ID NO:6中。

编码脑膜炎奈瑟氏菌的Cas9分子的示例性密码子优化的核酸序列示于SEQ IDNO:13中。脑膜炎奈瑟氏菌Cas9分子的相应氨基酸序列示于SEQ ID NO:12中。

如果任何上述Cas9序列与肽或多肽在C-末端处融合，则应理解的是终止密码子将被去除。

其他Cas分子和Cas多肽

不同类型的Cas分子或Cas多肽可以用来实践本文所披露的方法。在一些实施例中，使用II型Cas系统的Cas分子。在其他实施例中，使用其他Cas系统的Cas分子。例如，可以使用I型或III型Cas分子。先前已经描述了示例性Cas分子(和Cas系统)(参见例如，Haft2005和Makarova 2011)。示例性Cas分子(和Cas系统)也示于表17中。

/>

/>

/>

/>

/>

其他核酸酶

本文所述的用于选择和设计gRNA分子的方法和数据库模式还可以用于其他的系统，如Cpf1系统、转录激活物样效应物核酸酶(TALEN)系统和锌指核酸酶(ZFN)系统，正如本领域普通技术人员使用本文披露的教导会理解的。例如，Cpf1是2类CRISPR-Cas系统的单个RNA指导的内切核酸酶(参见Zetsche等人，2015,Cell[细胞]163,1-13)。转录激活物样效应物核酸酶(TALEN)系统是来源于黄单胞菌物种的TALE与限制性内切酶FokI的融合。通过修饰TALE中的氨基酸重复，本领域普通技术人员可以定制TALEN系统以特异性结合靶DNA并在TAL结合位点之间引入切割。类似地，锌指核酸酶系统利用FokI核酸酶作为DNA切割结构域，并且特定的锌指识别不同的核苷酸三联体并使FolkI核酸酶二聚化，导致在两个不同的锌指结合位点之间引入双链断裂。

IV.候选分子的功能分析

可以通过本领域已知或如在此描述的方法来评价候选Cas9分子、候选gRNA分子，候选Cas9分子/gRNA分子复合物。例如，用于评价Cas9分子的内切核酸酶活性的示例性方法描述于例如Jinek等人，Science[科学]2012,337(6096):816-821中。

结合和切割测定：测试Cas9分子的核酸内切酶活性

可以在质粒切割测定中对Cas9分子/gRNA分子复合物结合至并且切割靶核酸的能力进行评价。在这个测定中，在反应之前通过加热至95℃并且缓慢冷却至室温，将合成或体外转录的gRNA分子预退火。在37℃下，将天然或限制酶切消化-线性化的质粒DNA(300ng(约8nM))用纯化的Cas9蛋白分子(50-500nM)和gRNA(50-500nM，1:1)在具有或不具有10mMMgCl₂的Cas9质粒切割缓冲液(20mM HEPES pH 7.5，150mM KCl，0.5mM DTT，0.1mM EDTA)中孵育60min。用5X DNA加样缓冲液(30％甘油、1.2％ SDS、250mM EDTA)终止反应，通过0.8％或1％琼脂糖凝胶电泳进行解析并且通过溴化乙锭染色进行可视化。所得切割产物指示Cas9分子是否切割两条DNA链、或仅切割两条链中的一条。例如，线状DNA产物指示切割了两条DNA链。带切口的开环产物指示仅切割了两条链中的一条。

可替代地，可以在寡核苷酸DNA切割测定中对Cas9分子/gRNA分子复合物结合至并且切割靶核酸的能力进行评价。在这个测定中，在37℃下，在50μL反应中，通过用在1X T4多核苷酸激酶反应缓冲液中的5单位T4多核苷酸激酶以及约3-6pmol(约20-40mCi)[γ-32P]-ATP孵育30min，对DNA寡核苷酸(10pmol)进行放射性标记。在热灭活后(65℃持续20min)，通过柱对反应进行纯化以去除未结合的标签。通过在95℃下用等摩尔量的未标记的互补寡核苷酸退火标记的寡核苷酸持续3min，随后缓慢冷却至室温而生成双链体底物(100nM)。对于切割测定，通过加热至95℃持续30s，随后缓慢冷却至室温对gRNA分子进行退火。在9μl的总体积中，将Cas9(500nM终浓度)与退火的gRNA分子(500nM)在切割测定缓冲液(20mM HEPESpH 7.5，100mM KCl，5mM MgCl2，1mM DTT，5％甘油)中进行预孵育。通过添加1μl靶DNA(10nM)开始反应并在37℃下孵育1h。将反应通过添加20μl的加样染料(5mM EDTA，0.025％SDS，5％甘油，在甲酰胺中)淬灭并加热至95℃持续5min。将切割产物在含有7M尿素的12％变性聚丙烯酰胺凝胶上进行分辨，并且通过磷成像进行可视化。所得切割产物指示互补链、非互补链、或两者是否被切割。

这些测定中的一个或两个可以用于评价候选gRNA分子或候选Cas9分子的适合性。

结合测定：测试Cas9分子与靶DNA的结合

用于评价Cas9分子与靶DNA的结合的示例性方法描述于例如Jinek等人，Science[科学]2012；337(6096):816-821中。

例如，在电泳迁移率变动分析中，通过在去离子水中混合每条链(10nmol)、加热至95℃持续3min并且缓慢冷却至室温而形成靶DNA双链体。将所有DNA在含有1X TBE的8％非变性凝胶上进行纯化。将DNA条带通过UV遮蔽进行可视化，切除，并且通过将凝胶片浸泡在DEPC处理的H₂O中进行洗脱。将洗脱的DNA进行乙醇沉淀并且溶解在DEPC处理的H₂O中。在37℃下，使用T4多核苷酸激酶将DNA样品用[γ-32P]-ATP进行5’端标记持续30min。将多核苷酸激酶在65℃下热变性持续20min，并且使用柱去除未结合的放射性标记。在10μl的总体积中，在含有20mM HEPES pH7.5、100mM KCl、5mM MgCl₂、1mM DTT以及10％甘油的缓冲剂中进行结合测定。用等摩尔量的预退火的gRNA分子对Cas9蛋白分子进行程序化，并且从100pM滴定至1μM。将放射性标记的DNA添加至20pM的终浓度。将样品在37℃下孵育1h并且在4℃下在含有1X TBE和5mM MgCl₂的8％天然聚丙烯酰胺凝胶上进行解析。将凝胶干燥并且通过感光成像进行DNA可视化。

用于测量Cas9/gRNA复合物的热稳定性的技术

可以通过差示扫描荧光测定法(DSF)和其他技术来检测Cas9-gRNA核糖核蛋白(RNP)复合物的热稳定性。蛋白质的热稳定性可以在有利条件下增加，例如添加结合型RNA分子，例如gRNA。因此，关于Cas9/gRNA复合物的热稳定性的信息对于确定所述复合物是否稳定是有用的。

差示扫描荧光测定法(DSF)

DSF是一种可以用于测量蛋白质的热稳定性的技术。所述测定可以按多种方式应用。示例性方案包括但不限于，确定RNP形成的所希望的溶液条件的方案(测定1，见下文)，测试gRNA:Cas9蛋白的所希望的化学计量比的方案(测定2，见下文)，筛选针对Cas9分子(例如野生型或突变型Cas9分子)的有效gRNA分子的方案(测定3，见下文)以及在靶DNA存在下检查RNP形成的方案(测定4)。

测定1

为了确定形成RNP复合物的所希望的溶液，将Cas9的2μM溶液置于水与10x SYPRO

(生命技术公司(Life Techonologies)目录#S-6650)中并分配到384孔板中。然后添加稀释于溶液中的具有不同pH和盐的等摩尔量的gRNA。在室温下孵育10分钟并在2000rpm下离心以去除任何气泡之后，使用带有Bio-Rad CFX Manager软件的Bio-RadCFX384^TM Real-Time System C1000 Touch^TM热循环仪运行从20℃至90℃的梯度，其中温度每10秒增加1℃。

测定2

第二个测定包括在来自上述测定1的缓冲液中混合不同浓度的gRNA分子与2μMCas9并在384孔板中于RT下孵育10分钟。添加等体积的最适缓冲液与10x SYPRO

(生命技术公司目录#S-6650)并且将板用/>

B粘合剂(MSB-1001)密封。在2000rpm下离心以去除任何气泡后，使用带有Bio-Rad CFX Manager软件的Bio-Rad CFX384^TM Real-Time System C1000 Touch^TM热循环仪运行从20℃至90℃的梯度，其中温度每10秒增加1℃。

测定3

在第三个测定中，纯化感兴趣的Cas9分子(例如Cas9蛋白，例如Cas9变体蛋白)。合成变体gRNA分子的文库并重悬浮至20μM的浓度。在5xSYPRO

(生命技术公司目录#S-6650)的存在下，将Cas9分子与gRNA分子以各自1μM的终浓度一起在预定缓冲液中进行孵育。在室温下孵育10分钟并在2000rpm下离心2分钟以去除任何气泡之后，使用带有Bio-RadCFX Manager软件的Bio-Rad CFX384^TM Real-Time System C1000 Touch^TM热循环仪运行从20℃至90℃的梯度，其中温度每10秒增加1℃。

测定4

在第四个测定中，使用以下样品进行DSF实验：单独的Cas9蛋白，Cas9蛋白与gRNA，Cas9蛋白与gRNA和靶DNA，以及Cas9蛋白与靶DNA。混合组分的顺序为：反应溶液、Cas9蛋白、gRNA、DNA和SYPRO Orange。在不存在或存在MgCl₂的情况下，反应溶液含有10mM HEPES pH7.5、100mM NaCl。在2000rpm下离心2分钟以去除任何气泡后，使用带有Bio-Rad CFXManager软件的Bio-Rad CFX384^TM Real-Time System C1000 Touch^TM热循环仪运行从20℃至90℃的梯度，其中温度每10秒增加1℃。

V.基因组编辑途径

可以使用本文讨论的方法之一来校正基因(例如，本文所述的基因)中的突变。在一个实施例中，使用外源提供的模板核酸(参见下文)通过同源性定向修复(HDR)校正基因中的突变。在另一个实施例中，不使用外源提供的模板核酸(参见下文)通过同源性定向修复校正基因中的突变。

本文还描述了使用NHEJ(参见下文)靶向破坏(例如敲除)基因的一个或两个等位基因的方法。在另一个实施例中，提供了靶向敲除该基因的方法(参见下文)。

HDR修复、HDR介导的敲入和模板核酸

如在此描述的，核酸酶诱导的同源定向修复(HDR)可以用于改变靶序列和校正(例如，修复或编辑)基因组中的突变。靶序列的改变通过用外源提供的供体模板或模板核酸进行同源性定向修复(HDR)发生。例如，供体模板或模板核酸提供了靶序列的改变。在此考虑了可以将质粒供体用作用于同源重组的模版。在此进一步考虑了可以将单链供体模板用作通过在靶序列和供体模板之间同源定向修复(例如，单链退火)的替代方法用于改变靶序列的模板。通过供体模板实现的靶序列改变取决于Cas9分子的切割。经由Cas9切割可以包括双链断裂或2个单链断裂。如本文所述，可使用核酸酶诱导的同源性定向修复(HDR)来改变靶序列并在不使用外源提供的供体模板或模板核酸的情况下校正(例如修复或编辑)基因组中的突变。靶序列的改变通过具有内源性基因组供体序列的同源性定向修复(HDR)发生。例如，内源性基因组供体序列提供了靶序列的改变。考虑了在一个实施例中，内源基因组供体序列位于与靶序列相同的染色体上。进一步考虑了，在其他的实施例中，内源基因组供体序列位于与靶序列不同的染色体上。通过内源基因组供体序列改变靶序列取决于Cas9分子的切割。经由Cas9切割可以包括双链断裂或2个单链断裂。

可以使用模板核酸或使用内源基因组供体序列通过HDR校正的突变包括点突变。在实施例中，点突变可以通过单个双链断裂或两个单链断裂进行校正。在一个实施例中，点突变可以通过以下方式进行校正：(1)单个双链断裂、(2)两个单链断裂、(3)两个双链断裂，其中靶位置的每一侧上各发生一个断裂、(4)一个双链断裂和两个单链断裂，其中靶位置的每一侧上各发生该双链断裂和两个单链断裂、(5)四个单链断裂，其中靶位置的每一侧上各发生一对单链断裂、或(6)一个单链断裂。

在使用单链模板核酸的一个实施例中，靶位置可以通过替代的HDR来改变。

通过供体模板实现的靶位置改变取决于Cas9分子的切割。经由Cas9切割可以包括切口、双链断裂或两个单链断裂(例如靶核酸的每条链上的一个断裂)。在靶核酸上引入断裂之后，在断裂端发生切除，产生单链的突出DNA区域。

在典型HDR中，引入包含与靶核酸同源的序列的双链供体模板，其将会直接掺入靶核酸中或用作模板以校正靶核酸序列。在断裂处切除后，修复可以通过不同的途径进行，例如通过双霍利迪连接模型(或双链断裂修复(DSBR)途径)或合成依赖性链退火(SDSA)途径。在双霍利迪连接模型中，发生由靶核酸的两个单链突出端进行链入侵到供体模板中的同源序列，导致形成具有两个霍利迪连结的中间体。当从入侵链的末端合成新的DNA以填充由切除产生的空位时，结点迁移。将新合成的DNA的末端连接到切除的末端，并且结点被分解，导致靶核酸的校正，例如将供体模板的正确序列掺入相应的靶位置。与供体模板的交叉可能会在结点分解时发生。在SDSA途径中，只有一个单链突出端侵入供体模板，并从入侵链的末端合成新的DNA以填补由切除产生的空位。然后新合成的DNA与剩余的单链突出端退火，合成新的DNA以填补空位，并将链连接以产生校正的DNA双链体。

在可替代的HDR中，引入单链供体模板，例如模板核酸。用于改变所希望的靶位置的靶核酸处的切口、单链断裂或双链断裂由例如本文所述的Cas9分子介导，并且在断裂处发生切除以显示单链突出端。掺入模板核酸序列以校正或改变靶核酸的靶位置通常通过如上所述的SDSA途径而发生。

本文在第VI节中描述了促进HDR途径的方法，例如，典型HDR或alt-HDR。

在国际申请PCT/US 2014/057905中的标题为“模板核酸”的第IV节中提供了关于模板核酸的另外的细节。

可通过用模板核酸或内源性基因组供体序列的HDR校正(例如改变)的特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体的序列中的突变包括。还可以通过用模板核酸，例如本文所述的模板核酸的HDR，将A1AT序列插入到特定基因座(例如，HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、或HLA-DQB1)的等位基因变体的序列中。

双链断裂介导的校正或敲入

在实施例中，双链切割是由具有与HNH样结构域相关的切割活性以及与RuvC样结构域(例如，N端RuvC样结构域)相关的切割活性的Cas9分子(例如，野生型Cas9)实现的。这样的实施例仅需要单一的gRNA。

单链断裂介导的校正或敲入

在一些实施例中，一个单链断裂或切口由具有切口酶活性的Cas9分子例如本文所述的Cas9切口酶实现。带切口的靶核酸可以是alt-HDR的底物。

在其他实施例中，两个单链断裂或切口是由具有切口酶活性(例如，与HNH样结构域相关的切割活性或与N端RuvC样结构域相关的切割活性)的Cas9分子实现的。这样的实施例通常需要两个gRNA，各用于布置每个单链断裂。在实施例中，具有切口酶活性的Cas9分子切割gRNA所杂交的链，但不是互补于与gRNA杂交的链的链。在实施例中，具有切口酶活性的Cas9分子不切割gRNA所杂交的链，而是切割互补于与gRNA杂交的链的链。

在一个实施例中，该切口酶具有HNH活性，例如，具有RuvC活性失活的Cas9分子(例如，在D10处具有突变(例如，D10A突变)的Cas9分子)。D10A使RuvC失活；因此，Cas9切口酶(仅)具有HNH活性并且将切割gRNA所杂交的链(例如，互补链，其上并不具有NGG PAM)。在其他的实施例中，具有H840(例如，H840A)突变的Cas9分子可以用作切口酶。H840A使HNH失活；因此，Cas9切口酶(仅)具有RuvC活性并且切割非互补链(例如，具有NGG PAM并且其序列与gRNA相同的链)。在其他的实施例中，具有N863(例如，N863A)突变的Cas9分子可以用作切口酶。N863A灭活HNH，因此Cas9切口酶(仅)具有RuvC活性并且切割非互补链(具有NGG PAM并且其序列与gRNA相同的链)。在其他的实施例中，具有N580(例如，N580A)突变的Cas9分子可以用作切口酶。N580A灭活HNH，因此Cas9切口酶(仅)具有RuvC活性并且切割非互补链(具有NGG PAM并且其序列与gRNA相同的链)。在实施例中，其中将一种切口酶和两种gRNA用于定位两个单链切口，一个切口在靶核酸的+链上而一个切口在-链上。PAM可以面向外部。可以选择gRNA，这样使得通过从约0-50、0-100、或0-200个核苷酸中分离gRNA。在实施例中，互补于两个gRNA的靶向结构域的靶序列之间没有重叠。在实施例中，这些gRNA不重叠并且是通过多至50、100、或200个核苷酸分离的。在实施例中，使用两个gRNA可以增加特异性，例如，通过降低脱靶结合(Ran等人，Cell[细胞]2013；154(6):1380-1389)。

在实施例中，单一切口可以用于诱导HDR，例如alt-HDR。在此考虑了可以将单一切口用于增加HR与NHEJ在给定切割位点的比率。在实施例中，单链断裂形成于所述靶核酸的与所述gRNA的靶向结构域互补的链中。在另一个实施例中，单链断裂形成于所述靶核酸的不同于与所述gRNA的靶向结构域互补的链的链中。

双链或单链断裂相对于靶位置的布置

其中一条链中的双链断裂或单链断裂应该足够接近靶位置，使得在所希望的区域中产生改变，例如发生突变的校正。在实施例中，距离不多于50、100、200、300、350或400个核苷酸。据信，断裂应当足够接近于靶位置，以使得靶位置在末端切除过程中在经受外切核酸酶介导的去除的区域内。如果靶位置与断裂之间的距离太大，则所希望被改变的突变或其他序列可能不包括在末端切除中，并且因此可能不会被校正为供体序列，外源提供的供体序列或内源基因组供体序列，在一些实施例中，仅用于在末端切除区域内校正序列。

在一个实施例中，靶向结构域被配置为使得切割事件(例如双链或单链断裂)位于所希望被改变(例如，突变)的区域的1、2、3、4、5、10、15、20、25、30、35、40、45、50、60、70、80、90、100、150或200个核苷酸中。断裂，例如双链或单链断裂可以位于所希望被改变(例如突变)的区域的上游或下游。在一些实施例中，断裂位于所希望被改变的区域内，例如位于由至少两个突变核苷酸限定的区域内。在一些实施例中，断裂被定位在紧邻所希望被改变的区域，例如直接位于突变的上游或下游。

在实施例中，单链断裂伴随有由第二gRNA分子定位的另外的单链断裂，如下文所讨论的。例如，靶向结构域被配置成，使得切割事件(例如两条单链断裂)位于靶位置的1、2、3、4、5、10、15、20、25、30、35、40、45、50、60、70、80、90、100、150或200个核苷酸中。在一个实施例中，所述第一和第二gRNA分子被配置成使得在指导Cas9切口酶时，单链断裂将伴随有由第二gRNA定位的彼此足够接近的另外的单链断裂，以引起所希望的区域的改变。在一个实施例中，所述第一和第二gRNA分子被配置成使得例如当Cas9是切口酶时，由所述第二gRNA定位的单链断裂在由所述第一gRNA分子定位的断裂的10、20、30、40、或50个核苷酸内。在实施例中，所述两个gRNA分子被配置成将切口定位在相同位置、或彼此相距在几个核苷酸之内、在不同链上，例如基本上模拟了双链断裂。

在实施例中，为了诱导HDR介导的校正的目的，其中gRNA(单分子(或嵌合)或模块化gRNA)和Cas9核酸酶诱导双链断裂，切割位点在远离靶位置0-200bp(例如，0-175、0至150、0至125、0至100、0至75、0至50、0至25、25至200、25至175、25至150、25至125、25至100、25至75、25至50、50至200、50至175、50至150、50至125、50至100、50至75、75至200、75至175、75至150、75至125、75至100bp)之间处。在实施例中，切割位点在远离靶位置0-100bp(例如，0至75、0至50、0至25、25至100、25至75、25至50、50至100、50至75或75至100bp)之间处。

在实施例中，可以通过使用切口酶来产生与突出端的断裂来促进HDR。突出端的单链本质可以通过HDR增强细胞修复破坏的可能性，与例如，NHEJ相反。具体而言，在一些实施例中，通过选择将第一切口酶靶向第一靶序列的第一gRNA和将第二切口酶靶向第二靶序列的第二gRNA来促进HDR，所述第二靶序列位于与第一靶序列相对的DNA链上并且从第一个切口处偏移。

在实施例中，gRNA分子的靶向结构域被配置成将切割事件定位为离预选择的核苷酸(例如，编码区的核苷酸)足够远，这样使得所述核苷酸不被改变。在实施例中，gRNA分子的靶向结构域被配置成将内含子切割事件定位为离内含子/外显子边界、或天然存在的剪接信号足够远，以避免所述外显子序列的改变或不想要的剪接事件。所述gRNA分子可以是如在此所描述的第一、第二、第三和/或第四gRNA分子。

第一断裂和第二断裂的彼此相对布置

在实施例中，双链断裂可以伴随有由第二gRNA分子定位的另外的双链断裂，如下文所讨论的。

在实施例中，双链断裂可以伴随有由第二gRNA分子和第三gRNA分子定位的两个另外的单链断裂。

在实施例中，第一和第二单链断裂可以伴随有由第三gRNA分子和第四gRNA分子定位的两个另外的单链断裂。

当两种或更多种gRNA用于在靶核酸中定位两个或更多个切割事件(例如，双链或单链断裂)时，考虑了所述两个或更多个切割事件可以由相同或不同Cas9蛋白产生。例如，当两个gRNA用于定位两个双链断裂时，单Cas9核酸酶可以用于产生两个双链断裂。当两种或更多种gRNA用于定位两个或更多个单链断裂(切口)时，单Cas9切口酶可以用于产生所述两个或更多个切口。当两种或更多种gRNA用于定位至少一个双链断裂和至少一个单链断裂时，可以使用两种Cas9蛋白，例如一种Cas9核酸酶和一种Cas9切口酶。考虑了当使用两种或更多种Cas9蛋白时，可以顺序地递送所述两种或更多种Cas9蛋白，以控制靶核酸中的希望位置处的双链断裂对比单链断裂的特异性。

在一些实施例中，所述第一gRNA分子的靶向结构域和所述第二gRNA分子的靶向结构域与靶核酸分子的相对链互补。在一些实施例中，所述gRNA分子和所述第二gRNA分子被配置成使得PAM朝外定向。

在某些实施例中，选择两个gRNA以指导在距离彼此预选距离的两个位置处的Cas9介导的切割。在实施例中，两个切割点位于靶核酸的相反链上。在一些实施例中，两个切割点形成平端的断裂，并且在其他实施例中，它们被偏移以使得DNA末端包含一个或两个突出端(例如一个或多个5'突出端和/或一个或多个3'突出端)。在一些实施例中，每个断裂事件是一个切口。在实施例中，切口足够接近以致它们形成由双链断裂机器识别的断裂(而不是被例如SSBr机器识别)。在实施例中，切口足够分开，使得它们产生作为HDR底物的突出端，即断裂的布置模仿经历了一些切除的DNA底物。例如，在一些实施例中，切口被间隔开以产生作为用于进行性切除的底物的突出端。在一些实施例中，两个断裂彼此间隔着25-65个核苷酸。两个断裂可以是例如，彼此的约25、30、35、40、45、50、55、60或65个核苷酸。两个断裂可以是例如，彼此的至少约25、30、35、40、45、50、55、60或65个核苷酸。两个断裂可以是例如，彼此的最多约30、35、40、45、50、55、60或65个核苷酸。在实施例中，两个断裂是彼此的约25-30、30-35、35-40、40-45、45-50、50-55、55-60、或60-65个核苷酸。

在一些实施例中，模拟切除的断裂的断裂包括3'突出端(例如，由DSB和切口产生，其中切口留下了3'突出端)、5'突出端(例如，由DSB和缺口产生，其中切口留下了5'突出端)、3'和5'突出端(例如，由三个切割产生)、两个3'突出端(例如，由彼此偏移的两个切口产生)或两个5'突出端(例如，由彼此偏移的两个切口产生)。

在一个实施例中，为了诱导HDR介导的校正的目的，其中与Cas9切口酶复合的两个gRNA(独立地为单分子(或嵌合)或模块化gRNA)诱导两个单链断裂，较近的切口在远离靶位置0-200bp(例如，0-175、0至150、0至125、0至100、0至75、0至50、0至25、25至200、25至175、25至150、25至125、25至100、25至75、25至50、50至200、50至175、50至150、50至125、50至100、50至75、75至200、75至175、75至150、75至125、75至100bp)之间处，并且理想地这两个切口彼此将在25-65bp之内(例如，25至50、25至45、25至40、25至35、25至30、30至55、30至50、30至45、30至40、30至35、35至55、35至50、35至45、35至40、40至55、40至50、40至45bp、45至50bp、50至55bp、55至60bp、60至65bp)并且彼此远离不超过100bp(例如，彼此远离不超过90、80、70、60、50、40、30、20、10或5bp)。在实施例中，切割位点在远离靶位置0-100bp(例如，0至75、0至50、0至25、25至100、25至75、25至50、50至100、50至75或75至100bp)之间处。

在一个实施例中，两个gRNA(例如，独立地为单分子(或嵌合)或模块化gRNA)被配置成将双链断裂定位在靶位置的两侧。在替代性实施例中，三个gRNA(例如，独立地为单分子的(或嵌合的)或模块化的gRNA)被配置成将双链断裂(即，一个gRNA与cas9核酸酶复合)和两个单链断裂或成对单链断裂(即，两个gRNA与Cas9切口酶复合)定位在靶位置的任一侧。在另一个实施例中，四个gRNA(例如，独立地为单分子的(或嵌合的)或模块化的gRNA)被配置成在靶位置的任一侧产生两对单链断裂(即，两对的两个gRNA与Cas9切口酶复合物)。理想地，一个或多个双链断裂或成对的两个单链切口中更近者将在靶位置的0-500bp之内(例如，离靶位置不超过450、400、350、300、250、200、150、100、50或25bp)。当使用切口酶时，成对的两个切口在实施例中彼此在25-65bp(例如，在25-55、25至50、25至45、25至40、25至35、25至30、50至55、45至55、40至55、35至55、30至55、30至50、35至50、40至50、45至50、35至45、40至45bp、45至50bp、50至55bp、55至60bp、或60至65bp之间)之内并且彼此远离不超过100bp(例如、不超过90、80、70、60、50、40、30、20或10bp)。

当使用两个gRNA靶向Cas9分子至断裂时，可以设想Cas9分子的不同组合。在一些实施例中，使用第一gRNA将第一Cas9分子靶向第一靶位置，并且使用第二gRNA将第二Cas9分子靶向第二靶位置。在一些实施例中，第一Cas9分子在靶核酸的第一链上产生切口，并且第二Cas9分子在相对链上产生切口，导致双链断裂(例如平端的切割或突出端的切割)。

可以选择切口酶的不同组合来将一条单链断裂靶向一条链，并且将第二条单链断裂靶向相反链。当选择组合时，可以考虑到具有一个活性RuvC样结构域的切口酶和具有一个活性HNH结构域的切口酶。在一个实施例中，RuvC样结构域切割靶核酸分子的非互补链。在实施例中，HNH样结构域切割单链互补结构域(例如，双链核酸分子的互补链)。一般而言，如果两个Cas9分子具有相同的活性结构域(例如，两者均具有活性RuvC结构域或两者都具有活性HNH结构域)，则将选择两个与靶的相反链结合的gRNA。更详细地，在一些实施例中，第一gRNA与靶核酸的第一链互补并结合具有活性RuvC样结构域的切口酶，并引起该切口酶切割与该第一gRNA不互补的链，即靶核酸的第二链；并且第二gRNA与靶核酸的第二链互补并且结合具有活性RuvC样结构域的切口酶并且引起该切口酶切割与该第二gRNA不互补的链，即靶核酸的第一链。相反地，在一些实施例中，第一gRNA与靶核酸的第一链互补，并结合具有活性HNH结构域的切口酶并引起该切口酶切割与该第一gRNA互补的链，即靶核酸的第一链；并且第二gRNA与靶核酸的第二链互补并且结合具有活性HNH结构域的切口酶并引起切口酶切割与第二gRNA互补的链，即靶核酸的第二链。在另一种排列中，如果一个Cas9分子具有活性RuvC样结构域并且另一个Cas9分子具有活性HNH结构域，则两个Cas9分子的gRNA可以与靶核酸的相同链互补，使得具有活性的RuvC样结构域的Cas9分子将切割非互补链并且具有HNH结构域的Cas9分子将切割互补链，导致双链断裂。

供体模板的同源臂的长度

同源臂应该至少延伸远至可发生末端切除的区域，例如，以便允许所切除的单链突出端在供体模板内找到互补区域。总长度可由如质粒大小或病毒包装限制之类的参数进行限制。在实施例中，同源臂不延伸到重复元件(例如，Alu重复或LINE重复)中。

示例性同源臂长度包括至少50、100、250、500、750、1000、2000、3000、4000、或5000个核苷酸。在一些实施例中，同源臂长度是50-100、100-250、250-500、500-750、750-1000、1000-2000、2000-3000、3000-4000、或4000-5000个核苷酸。

如在此使用的，靶位置是指由Cas9分子依赖性方法修饰的靶核酸(例如，染色体)上的位点。例如，靶位置可以是修饰的Cas9分子切割靶位置的靶核酸和模板核酸定向修饰(例如，校正)。在实施例中，靶位置可以是在其中添加进一个或多个核苷酸的靶核酸上两个核苷酸(例如，相邻的核苷酸)之间的位点。靶位置可以包括一个或多个通过模板核酸改变的(例如，校正的)核苷酸。在实施例中，靶位置在靶序列(例如，gRNA结合至的序列)之内。在实施例中，靶位置是靶序列(例如，gRNA结合至的序列)的上游或下游。

模板核酸，如该术语在此使用的，是指可以与Cas9分子和gRNA分子结合用于改变靶位置的结构的核酸序列。在实施例中，对靶核酸进行修饰以具有模板核酸的一些或全部序列，典型地在一个或多个切割位点处或附近。在实施例中，模板核酸是单链的。在一个替代实施例中，模板核酸是双链的。在实施例中，模板核酸是DNA(例如，双链DNA)。在替代实施例中，模板核酸是单链DNA。在一个实施例中，模板核酸如Cas9和gRNA在相同的载体骨架例如AAV基因组，质粒DNA上编码。在一个实施例中，模板核酸在体内从载体骨架上切除，例如其侧翼为gRNA识别序列。在一个实施例中，模板核酸包含内源基因组序列。

在一个实施例中，模板核酸通过参与同源定向修复事件来改变靶位置的结构。在一个实施例中，模板核酸改变靶位置的序列。在实施例中，模板核酸导致修饰的或非天然发生的碱基掺入靶核酸中。

典型地，模板序列经历断裂介导或催化的与靶序列的重组。在实施例中，模板核酸包括与通过eaCas9介导的切割事件切割的靶序列上的位点相对应的序列。在实施例中，模板核酸包括与在第一Cas9介导的事件中被切割的靶序列上的第一位点、以及在第二Cas9介导的事件中被切割的靶序列上的第二位点二者相对应的序列。

在实施例中，模板核酸可以包括导致所翻译序列的编码序列改变的序列(例如，导致蛋白产物中一种氨基酸取代另一种的序列(例如，将突变体等位基因转化成野生型等位基因、将野生型等位基因转化成突变体等位基因、和/或引入终止密码子、氨基酸残基的插入、氨基酸残基的缺失、或无意义突变))。

在其他实施例中，模板核酸可以包括导致非编码序列改变的序列(例如，外显子或5’或3’非翻译区或非转录区中的改变)。此类改变包括控制元件(例如，启动子、增强子)中的改变、以及顺式作用或反式作用控制元件中的改变。

与基因(例如本文所述的基因)中的靶位置具有同源性的模板核酸可用于改变靶序列的结构。可以将模板序列用于改变不想要的结构(例如，不想要的或突变型核苷酸)。

模板核酸典型地包括以下组分：

[5’同源臂]-[替换序列]-[3’同源臂]。

同源臂提供用于重组到染色体中，因此用替换序列替换了不希望的元件(例如，突变或标签)。在实施例中，同源臂侧翼于最远端切割位点。

在实施例中，5’同源臂的3’端是紧邻替换序列的5’端的位置。在一个实施例中，5’同源臂可以从替换序列的5’端延伸至少10、20、30、40、50、100、200、300、400、500、600、700、800、900、1000、1500、2000、3000、4000或5000个核苷酸5’。

在实施例中，3’同源臂的5’端是紧邻替换序列的3’端的位置。在实施例中，3’同源臂可以从替换序列的3’端延伸至少10、20、30、40、50、100、200、300、400、500、600、700、800、900、1000、1500、2000、3000、4000、或5000个核苷酸3’。

在一个实施例中，为了校正突变，同源臂(例如5'和3'同源臂)各自可以包含侧接最远端gRNA的序列的约1000个碱基对(bp)(例如，在突变的每侧1000bp的序列)。

在此考虑了可以将一个或两个同源臂缩短以避免包括某些序列重复元件(例如，Alu重复或LINE元件)。例如，可以将5’同源臂缩短以避免序列重复元件。在其他的实施例中，可以将3’同源臂缩短以避免序列重复元件。在一些实施例中，可以将5’和3’同源臂均缩短以避免包括某些序列重复元件。

本文中考虑了可以将用于校正突变的模板核酸设计成用作单链寡核苷酸，例如单链寡脱氧核苷酸(ssODN)。当使用ssODN时，5’和3’同源臂在长度上范围可以高达约200个碱基对(bp)(例如，在长度上至少25、50、75、100、125、150、175、或200bp)。针对ssODN还考虑了更长的同源臂作为继续有待完成的寡核苷酸合成中的改进。在一些实施例中，通过化学合成以外的方法制备较长的同源臂，例如通过变性长双链核酸并纯化一条链，例如通过对锚定于固体底物的链特异性序列的亲和力。

在一些实施例中，当模板核酸与切口具有延伸的同源性5'(即带切口的链的5'方向)时，alt-HDR更有效地进行。相应地，在一些实施例中，模板核酸具有较长的同源臂和较短的同源臂，其中较长的同源臂可以使切口的5'退火。在一些实施例中，可以与切口5'退火的臂是距离切口或替换序列的5'或3'端至少25、50、75、100、125、150、175、或200、300、400、500、600、700、800、900、1000、1500、2000、3000、4000、或5000个核苷酸。在一些实施例中，可以与切口5'退火的臂比可以使切口3'退火的臂长至少10％、20％、30％、40％、或50％。在一些实施例中，可以与切口5'退火的臂比可以使切口3'退火的臂长至少2倍、3倍、4倍或5倍。取决于ssDNA模板是否可以与完整链或带切口的链退火，与缺口5'退火的同源臂可以分别位于ssDNA模板的5'端或ssDNA模板的3'端。

类似地，在一些实施例中，模板核酸具有5'同源臂、替换序列和3'同源臂，使得模板核酸与切口的5'具有延伸的同源性。例如，5'同源臂和3'同源臂可以具有基本上相同的长度，但是替换序列比切口的3'可以更远地延伸切口的5'。在一些实施例中，替换序列比切口的3'端至少10％、20％、30％、40％、50％、2倍、3倍、4倍、或5倍更远地延伸至切口的5'端。

在一些实施例中，当模板核酸以切口为中心时，alt-HDR更有效地进行。因此，在一些实施例中，模板核酸具有两个基本上相同大小的同源臂。例如，模板核酸的第一同源臂可以具有在模板核酸的第二同源臂的10％、9％、8％、7％、6％、5％、4％、3％、2％、或1％之内的长度。

类似地，在一些实施例中，模板核酸具有5'同源臂、替换序列和3'同源臂，使得模板核酸在缺口的任一侧上延伸基本上相同的距离。例如，同源臂可以具有不同的长度，但是可以选择替换序列以补偿这一点。例如，替换序列比切口的3'可以从切口的5'延伸更远，但是切口的同源臂5'比切口的同源臂3'更短，以补偿。相反的也是可能的，例如，替换序列比切口的5'可以从切口的3'延伸更远，但是切口的同源臂3'比切口的同源臂5'更短，以补偿。

线性核酸模板系统的示例性排列

在一个实施例中，核酸模板系统是双链的。在一个实施例中，核酸模板系统是单链的。在一个实施例中，核酸模板系统包含单链部分和双链部分。在一个实施例中，模板核酸包含在切口和/或替换序列的任一侧上的约50至100个，例如55至95、60至90、65至85、或70至80个碱基对的同源性。在一个实施例中，模板核酸包含切口或替换序列5’、切口或替换序列的3’、或缺口或替换序列的5’和3’的约50、55、60、65、70、75、80、85、90、95、或100个碱基对同源性。

在一个实施例中，模板核酸包含在切口和/或替换序列3’的约150至200个，例如155至195、160至190、165至185、或170至180个碱基对的同源性。在一个实施例中，模板核酸包含切口或替换序列3’的约150、155、160、165、170、175、180、185、190、195、或200个碱基对同源性。在一个实施例中，模板核酸包含切口或替换序列5’的小于约100、90、80、70、60、50、40、30、20、15、或10个碱基对同源性。

在一个实施例中，模板核酸包含在切口和/或替换序列5’的约150至200个，例如155至195、160至190、165至185、或170至180个碱基对的同源性。在一个实施例中，模板核酸包含切口或替换序列5’的约150、155、160、165、170、175、180、185、190、195、或200个碱基对同源性。在一个实施例中，模板核酸包含切口或替换序列3’的小于约100、90、80、70、60、50、40、30、20、15、或10个碱基对同源性。

示例性模板核酸

在一个实施例中，模板核酸是单链核酸。在另一个实施例中，模板核酸是双链核酸。在一些实施例中，模板核酸包含例如一个或多个核苷酸的核苷酸序列，其将被添加到或将模拟靶核酸中的变化。在其他实施例中，模板核酸包含可用于修饰靶位置的核苷酸序列。在其他实施例中，模板核酸包含例如一个或多个核苷酸的核苷酸序列，其对应于例如靶位置的靶核酸的野生型序列。

该模板核酸可以包含替代序列。在一些实施例中，模板核酸包含5'同源臂。在其他的实施例中，该模板核酸包含3'同源臂。

在实施例中，模板核酸是线性双链DNA。长度可以是例如约150-200个碱基对，例如约150、160、170、180、190、或200个碱基对。长度可以是例如至少150、160、170、180、190或200个碱基对。在一些实施例中，长度不大于150、160、170、180、190或200个碱基对。在一些实施例中，双链模板核酸具有约160个碱基对的长度，例如约155-165、150-170、140-180、130-190、120-200、110-210、100-220、90-230或80-240个碱基对的长度。

该模板核酸可以是线性单链DNA。在实施例中，模板核酸是(i)可退火至靶核酸的带切口的链的线性单链DNA，(ii)可退火至靶核酸的完整链的线性单链DNA，(iii)可退火至靶核酸的转录链的线性单链DNA，(iv)可退火至靶核酸的非转录链的线性单链DNA，或多于一种前述的线性单链DNA。长度可以是例如约150-200个核苷酸，例如约150、160、170、180、190或200个核苷酸。长度可以是例如至少150、160、170、180、190或200个核苷酸。在一些实施例中，长度不大于150、160、170、180、190或200个核苷酸。在一些实施例中，单链模板核酸具有约160个核苷酸的长度，例如约155-165、150-170、140-180、130-190、120-200、110-210、100-220、90-230或80-240个核苷酸。

在一些实施例中，模板核酸是环状双链DNA，例如质粒。在一些实施例中，模板核酸在替换序列和/或切口的任一侧上包含约500至1000个碱基对的同源性。在一些实施例中，模板核酸包含切口或替换序列5’、切口或替换序列的3’、或缺口或替换序列的5’和3’的约300、400、500、600、700、800、900、1000、1500、或2000个碱基对同源性。在一些实施例中，模板核酸包含切口或替换序列5’、切口或替换序列的3’、或缺口或替换序列的5’和3’的至少300、400、500、600、700、800、900、1000、1500、或2000个碱基对同源性。在一些实施例中，模板核酸包含切口或替换序列5’、切口或替换序列的3’、或缺口或替换序列的5’和3’的不超过300、400、500、600、700、800、900、1000、1500、或2000个碱基对同源性。

在一些实施例中，模板核酸是腺病毒载体，例如AAV载体，例如长度和序列允许其包装在AAV衣壳中的ssDNA分子。载体可以是例如小于5kb，并且可以含有促进包装到衣壳中的ITR序列。载体可能是整合缺陷的。在一些实施例中，模板核酸在替换序列和/或切口的任一侧上包含约150至1000个核苷酸的同源性。在一些实施例中，模板核酸包含切口或替换序列的5'、切口或替换序列的3’、或切口或替换序列的5’和3’的约100、150、200、300、400、500、600、700、800、900、1000、1500、或2000个核苷酸。在一些实施例中，模板核酸包含切口或替换序列的5'、切口或替换序列的3’、或切口或替换序列的5’和3’的至少100、150、200、300、400、500、600、700、800、900、1000、1500、或2000个核苷酸。在一些实施例中，模板核酸包含切口或替换序列的5'、切口或替换序列的3’、或切口或替换序列的5’和3’的最多100、150、200、300、400、500、600、700、800、900、1000、1500、或2000个核苷酸。

在一些实施例中，模板核酸是慢病毒载体，例如IDLV(整合缺陷型慢病毒)。在一些实施例中，模板核酸在替换序列和/或切口的任一侧上包含约500至1000个碱基对的同源性。在一些实施例中，模板核酸包含切口或替换序列5’、切口或替换序列的3’、或缺口或替换序列的5’和3’的约300、400、500、600、700、800、900、1000、1500、或2000个碱基对同源性。在一些实施例中，模板核酸包含切口或替换序列5’、切口或替换序列的3’、或缺口或替换序列的5’和3’的至少300、400、500、600、700、800、900、1000、1500、或2000个碱基对同源性。在一些实施例中，模板核酸包含切口或替换序列5’、切口或替换序列的3’、或缺口或替换序列的5’和3’的不超过300、400、500、600、700、800、900、1000、1500、或2000个碱基对同源性。

在一个实施例中，模板核酸包含阻止Cas9识别和切割模板核酸的一个或多个突变，例如沉默突变。相对于待改变的细胞基因组中的相应序列，模板核酸可包含例如至少1、2、3、4、5、10、20或30个沉默突变。在实施例中，模板核酸相对于要改变的细胞的基因组中的相应序列包含至多2、3、4、5、10、20、30或50个沉默突变。在一个实施例中，cDNA包含阻止Cas9识别和切割模板核酸的一个或多个突变，例如沉默突变。相对于待改变的细胞基因组中的相应序列，模板核酸可包含例如至少1、2、3、4、5、10、20或30个沉默突变。在实施例中，模板核酸相对于要改变的细胞的基因组中的相应序列包含至多2、3、4、5、10、20、30或50个沉默突变。

在一个实施例中，模板核酸通过参与同源定向修复事件来改变靶位置的结构。在一个实施例中，模板核酸改变靶位置的序列。在一个实施例中，模板核酸导致修饰的或非天然发生的碱基掺入靶核酸中。

可以使用与靶位置具有同源性的模板核酸来改变靶序列的结构。可以将模板序列用于改变不想要的结构(例如，不想要的或突变型核苷酸)。

下表18提供了示例性的模板核酸。在一个实施例中，模板核酸包括来自表18的一行的5'同源臂和3'同源臂。在另一个实施例中，来自第一列的5'同源臂可以与来自表18的3'同源臂组合。在每个实施例中，5'和3'同源臂的组合包括替换序列。

表18

/>

/>

用于基因靶向的NHEJ方法

如在本文中所述的，核酸酶诱导的非同源末端连接(NHEJ)可以用于靶向基因特异性破坏(例如，敲出)。核酸酶诱导的NHEJ还可以用于去除(例如，缺失)感兴趣的基因中的序列。

在一个实施例中，与本文所述方法相关的基因组改变依赖于核酸酶诱导的NHEJ和NHEJ修复途径的易错性质。NHEJ通过将两端连接在一起修复DNA中的双链断裂；然而，通常，只有两个相容末端(完全如它们通过双链断裂所形成的)是完全连接的，原始序列才被恢复。在末端重新连接之前，双链断裂的DNA末端常常是酶加工的受试者，在一条或两条链处产生核苷酸的添加或去除。这使得NHEJ修复位点处的DNA序列中存在插入和/或缺失(indel)突变。典型地，这些突变中的三分之二改变阅读框并且因此产生非功能蛋白。另外，维持阅读框但插入或缺失大量的序列的突变可以破坏蛋白质的功能性。这是基因座依赖性的，因为关键功能结构域中的突变可能比蛋白质的非关键区中的突变耐受性低。

由NHEJ产生的indel突变在性质上是不可预测的；然而，在给定的断裂位点处，某些indel序列是有利的并且在群体中过度表达，这可能归因于微同源性的小区域。缺失的长度可以广泛变化；最常见地在1-50bp范围内，但是它们可以达到大于100-200bp。插入往往是较短的并且常常包括紧密围绕断裂位点的序列的短的重复。然而，有可能获得大插入，并且在这些情况中，插入序列通常已经被追溯至基因组的其他区域或至存在于细胞中的质粒DNA。

因为NHEJ是诱变的过程，所以它还可以用于缺失小序列基序(例如，长度上小于或等于50个核苷酸的基序)，只要不需要产生特异性最终序列。如果双链断裂被靶向靶序列附近，则由NHEJ修复导致的缺失突变常常跨越并且因此去除不想要的核苷酸。对于较大的DNA区段的缺失，引入两个双链断裂(序列的每侧上一个双链断裂)可以在末端之间产生NHEJ，其中去除了整个间插序列。以这种方式，可以缺失大至几百千碱基的DNA区段。这两种方法都可以用于缺失特异性DNA序列；然而，NHEJ的易出错性质仍可能在修复位点产生indel突变。

双链切割性eaCas9分子和单链、或切口酶，eaCas9分子均可以用于本文所描述的方法和组合物以产生NHEJ介导的indel。靶向基因的NHEJ介导的indel(例如编码区，例如感兴趣基因的早期编码区)可以用于敲除感兴趣的基因(即，消除其表达)。例如，感兴趣基因的早期编码区包括紧跟着起始密码子、在编码序列的第一外显子之内、或在起始密码子的500bp之内(例如，小于500、450、400、350、300、250、200、150、100或50bp)的序列。

双链或单链断裂相对于靶位置的布置

在实施例中，为了诱导NHEJ介导的indel的目的，其中gRNA和Cas9核酸酶生成双链断裂，gRNA(例如，单分子(或嵌合)或模块化gRNA分子)被配置成将一个双链断裂定位在极接近于靶位置的核苷酸之处。在实施例中，切割位点在远离靶位置0-30bp之间处(例如，离靶位置小于30、25、20、15、10、9、8、7、6、5、4、3、2或1bp)。

在实施例中，为了诱导NHEJ介导的indel的目的，其中与Cas9切口酶复合的两个gRNA诱导两个单链断裂，两个gRNA(例如，独立地为单分子(或嵌合)或模块化gRNA)被配置成将两个单链断裂定位以提供NHEJ修复靶位置的核苷酸。在实施例中，所述gRNA被配置成将切口定位在相同位置、或彼此相距在几个核苷酸之内、在不同链上，实质上模拟了双链断裂。在实施例中，较近的切口在远离靶位置0-30bp(例如，离靶位置小于30、25、20、15、10、9、8、7、6、5、4、3、2或1bp)之间处，并且这两个切口彼此在25-55bp之内(例如，在25至50、25至45、25至40、25至35、25至30、50至55、45至55、40至55、35至55、30至55、30至50、35至50、40至50、45至50、35至45、或40至45bp之间)并且彼此远离不超过100bp(例如，不超过90、80、70、60、50、40、30、20、或10bp)。在实施例中，所述gRNA被配置成将单链断裂布置在靶位置的核苷酸的任一侧上。

双链切割性eaCas9分子和单链、或切口酶，eaCas9分子均可以用于在此所描述的方法和组合物中以在靶位置的两侧均产生断裂。可以在靶位置的两侧产生双链的或成对的单链断裂，以去除两个切口之间的核酸序列(例如，两个断裂之间的区域被缺失)。在一个实施例中，两个gRNA(例如，独立地为单分子(或嵌合)或模块化gRNA)被配置成将双链断裂定位在靶位置的两侧。在替代性实施例中，三个gRNA(例如，独立地为单分子的(或嵌合的)或模块化的gRNA)被配置成将双链断裂(即，一个gRNA与cas9核酸酶复合)和两个单链断裂或成对单链断裂(即，两个gRNA与Cas9切口酶复合)定位在靶位置的任一侧。在另一个实施例中，四个gRNA(例如，独立地为单分子的(或嵌合的)或模块化的gRNA)被配置成在靶位置的任一侧产生两对单链断裂(即，两对的两个gRNA与Cas9切口酶复合物)。理想地，一个或多个双链断裂或成对的两个单链切口中更近者将在靶位置的0-500bp之内(例如，离靶位置不超过450、400、350、300、250、200、150、100、50或25bp)。当使用切口酶时，成对的两个切口彼此在25-55bp(例如，在25至50、25至45、25至40、25至35、25至30、50至55、45至55、40至55、35至55、30至55、30至50、35至50、40至50、45至50、35至45、或40至45bp之间)之内并且彼此远离不超过100bp(例如、不超过90、80、70、60、50、40、30、20或10bp)。

靶向敲低

与CRISPR/Cas介导的基因敲除不同(其通过在DNA水平使基因突变而永久消除表达)，CRISPR/Cas敲低通过使用人工转录因子允许基因表达暂时减少。使Cas9蛋白的两个DNA切割结构域中的关键残基突变(例如，D10A以及H840A突变)导致生成无催化活性Cas9(eiCas9其又称为失活的Cas9或dCas9)分子。无催化活性Cas9与gRNA复合并且定位至由gRNA的靶向结构域指定的DNA序列，然而，它不切割靶DNA。将dCas9融合至效应子结构域(例如，转录抑制结构域)能够将效应子募集至任何由gRNA指定的DNA位点。虽然当被募集到编码序列的早期区域时，无酶促活性的(eiCas9)Cas9分子本身可以阻断转录，但通过将转录抑制结构域(例如KRAB、SID或ERD)与Cas9融合并将其募集至靶敲低位置可以获得更稳健的抑制，例如，在起始密码子的3'序列的1000bp内或在基因起始密码子的5'启动子区域的500bp内。很可能靶向启动子的DNA酶I超敏位点(DHS)可产生更有效的基因阻遏或激活，因为这些区域更有可能接触到Cas9蛋白并且也更有可能为内源转录因子携带位点。尤其针对基因阻遏，本文考虑了阻断内源转录因子的结合位点将有助于下调基因表达。在实施例中，一种或多种eiCas9分子可以用于阻断一种或多种内源转录因子的结合。在另一个实施例中，eiCas9分子可以与染色质修饰蛋白融合。改变染色质状态可以导致靶基因的表达降低。与一种或多种染色质修饰蛋白融合的一种或多种eiCas9分子可以用于改变染色质状态。

在实施例中，可以将gRNA分子靶向已知的转录应答元件(例如，启动子、增强子等)、已知的上游激活序列(UAS)、和/或具有怀疑能够控制靶DNA表达的未知或已知功能的序列。

CRISPR/Cas介导的基因敲低可以用于减少不想要的等位基因或转录物的表达。在此考虑的是其中永久破坏基因是不理想的情形。在这些情形中，位点特异性阻遏可以用于暂时降低或消除表达。本文还考虑了Cas阻遏物的脱靶效应可能比Cas核酸酶的脱靶效应更不严重，因为核酸酶可以切割任何DNA序列并且造成突变，而Cas阻遏物仅在其靶向转录活跃基因的启动区时才可具有效应。然而，尽管核酸酶介导的敲除是永久的，只有Cas阻遏物存在于细胞中，阻遏才可以持续。一旦阻遏物不再存在，很可能内源转录因子和基因调节元件将使表达恢复至它的天然状态。

单链退火

单链退火(SSA)是另一种修复存在于靶核酸中的两个重复序列之间的双链断裂的DNA修复过程。由SSA途径所利用的重复序列的长度通常大于30个核苷酸。在断裂端处发生切除，以显示靶核酸的两条链上的重复序列。切除之后，将含有重复序列的单链突出端用RPA蛋白涂覆，以防止重复序列不适当地退火，例如退火至自身。RAD52结合至突出端上的重复序列中的每者上并且将所述序列对齐以使得互补的重复序列能够退火。退火之后，切割突出端的单链翼。新的DNA合成填充任何空位，并且连接恢复DNA双链体。作为所述处理的结果，两个重复之间的DNA序列被缺失。缺失的长度可以取决于很多因素，包括所利用的两个重复的位置、以及切除的途径或持续进行能力。

与HDR途径相反，SSA不需要模板核酸来改变或校正靶核酸序列。而是利用互补的重复序列。

其他DNA修复途径

SSBR(单链断裂修复)

基因组中的单链断裂(SSB)由SSBR途径来修复，所述SSBR途径是不同于上文讨论的DSB修复机制的机制。SSBR途径具有四个主要阶段：SSB检测、DNA末端处理、DNA空位填充、以及DNA连接。更详细的解释给出于Caldecott，Nature Reviews Genetics[自然综述遗传学]9,619-631(2008年8月)中，并且这里给出概述。

在第一阶段中，当形成SSB时，PARP1和/或PARP2识别断裂并募集修复机器。DNA断裂处的PARP1结合和活性是瞬时的，并且它似乎通过促进损伤处的SSBr蛋白复合物的病灶积累或稳定性而加速SSBr。可论证地，这些SSBr蛋白中最重要的是XRCC1，它作为分子支架起作用，所述分子支架与SSBr过程的多种酶组分(包括负责清除DNA 3’和5’端的蛋白质)相互作用，使所述酶组分稳定化，并且刺激所述酶组分。例如，XRCC1与促进末端处理的若干蛋白质(DNA聚合酶β、PNK、和三种核酸酶APE1、APTX和APLF)相互作用。APE1具有内切核酸酶活性。APLF展示出内切核酸酶和3’到5’外切核酸酶活性。APTX具有内切核酸酶和3’到5’外切核酸酶活性。

这种末端处理是SSBR的重要阶段，因为大部分(若非全部)SSB的3’-和/或5’-末端是‘被损伤的’。末端处理通常涉及将被损伤的3’-端恢复到羟基化状态和/或将被损伤的5’端恢复成磷酸酯部分，这样使得所述末端变得有连接能力。可以处理被损伤的3’末端的酶包括PNKP、APE1、和TDP1。可以处理被损伤的5’末端的酶包括PNKP、DNA聚合酶β、和APTX。LIG3(DNA连接酶III)也可以参与末端处理。一旦将末端清除，便发生空位填充。

在DNA空位填充阶段，典型存在的蛋白质是PARP1、DNA聚合酶β、XRCC1、FEN1(翼内切核酸酶1)、DNA聚合酶δ/ε、PCNA、以及LIG1。存在两种空位填充方式，短补丁修复(shortpatch repair)和长补丁修复(long patch repair)。短补丁修复涉及插入丢失的单核苷酸。在一些SSB处，“空位填充”可能继续取代两个或更多个核苷酸(已经报道了多达12个碱基的取代)。FEN1是去除被取代的5’-残基的内切核酸酶。多种DNA聚合酶(包括Polβ)涉及在SSB的修复中，其中DNA聚合酶的选择受SSB的来源和类型的影响。

在第四阶段中，DNA连接酶如LIG1(连接酶I)或LIG3(连接酶III)催化末端连接。短补丁修复使用连接酶III，并且长补丁修复使用连接酶I。

有时，SSBR是与复制偶联的。这条途径可以涉及CtIP、MRN、ERCC1、和FEN1中的一者或多者。可以促进SSBR的另外的因子包括：aPARP、PARP1、PARP2、PARG、XRCC1、DNA聚合酶b、DNA聚合酶d、DNA聚合酶e、PCNA、LIG1、PNK、PNKP、APE1、APTX、APLF、TDP1、LIG3、FEN1、CtIP、MRN、以及ERCC1。

MMR(错配修复)

细胞含有三条切除修复途径：MMR、BER、和NER。所述切除修复通路具有的共同特点在于它们典型地识别DNA一条链上的损伤，然后外切/内切核酸酶去除所述损伤并且留下随后被DNA聚合酶填充的1-30个核苷酸的空位并且最终用连接酶密封。更完整的图片给出于Li，Cell Research[细胞研究](2008)18:85-98中，并且这里提供了概述。

错配修复(MMR)在错配的DNA碱基上运行。

MSH2/6或MSH2/3两种复合物都具有在错配识别和修复启动中发挥重要作用的ATP酶活性。MSH2/6优先识别碱基-碱基错配并且识别1或2个核苷酸的错配，而MSH2/3优先识别较大的ID错配。

hMLH1与hPMS2杂二聚化，以形成hMutLα，其具有ATP酶活性并且对于MMR的多个步骤而言是重要的。它具有PCNA/复制因子C(RFC)依赖性内切核酸酶活性，所述活性在涉及EXO1的3'切口指导的MMR中发挥重要作用。(EXO1是HR和MMR两者的参与者。)它调节错配引起的切除的终止。连接酶I是这条途径的相关连接酶。可以促进MMR的另外的因子包括：EXO1、MSH2、MSH3、MSH6、MLH1、PMS2、MLH3、DNA Pol d、RPA、HMGB1、RFC、以及DNA连接酶I。

碱基切除修复(BER)

碱基切除修复(BER)途径贯穿细胞周期是激活的；它主要负责从基因组中去除小的、非螺旋扭曲碱基损伤。相比之下，相关的核苷酸切除修复途径(在下一部分中讨论)修复庞大的螺旋扭曲损伤。更详细的解释给出于Caldecott，Nature Reviews Genetics[自然综述遗传学]9,619-631(2008年8月)中，并且这里给出概述。

DNA碱基损伤后，碱基切除修复(BER)启动并且所述过程可以被简化为五个主要步骤：(a)去除被损伤的DNA碱基；(b)切开后续碱基位点；(c)清理DNA末端；(d)将正确核苷酸插入修复空位中；以及(e)连接DNA骨架中的剩余切口。这些最后的步骤类似于SSBR。

在第一步中，损伤特异性DNA糖基化酶通过切割将碱基连接至糖磷酸骨架上的N-糖苷键而切除被损伤的碱基。然后具有相关裂解酶活性的AP内切核酸酶-1(APE1)或双功能DNA糖基化酶切开磷酸二酯骨架以产生DNA单链断裂(SSB)。BER的第三步涉及清理DNA末端。BER中的第四步由Polβ进行，它将新的互补核苷酸添加到修复空位中，并且在最终步骤中，XRCC1/连接酶III密封DNA骨架中的剩余切口。这完成了短补丁BER通路，其中大多数(约80％)的被损伤的DNA碱基得到修复。然而，如果在步骤3中在通过Polβ插入一个核苷酸后5′-端对末端处理活性有抗性，则将聚合酶换为复制型DNA聚合酶Polδ/ε，所述复制型DNA聚合酶然后再将约2-8个核苷酸添加到DNA修复空位中。这产生了5′-翼结构，其被与持续合成能力因子增殖细胞核抗原(PCNA)相关的翼内切核酸酶-1(FEN-1)识别并切除。DNA连接酶I然后密封DNA骨架中的剩余切口并完成长补丁BER。可以促进BER途径的另外的因子包括：DNA糖基化酶、APE1、Polb、Pold、Pole、XRCC1、连接酶III、FEN-1、PCNA、RECQL4、WRN、MYH、PNKP、以及APTX。

核苷酸切除修复(NER)

核苷酸切除修复(NER)是从DNA中去除庞大的螺旋扭曲损伤的重要切除机制。关于NER的另外的细节给出于Marteijn等人，Nature Reviews Molecular Cell Biology[自然综述分子细胞生物学]15,465-481(2014)中，并且这里给出了概述。NER是涵盖两条更小通路的宽通路：全基因组NER(GG-NER)和转录偶联修复NER(TC-NER)。GG-NER和TC-NER使用不同的因子来识别DNA损伤。然而，它们利用相同的机器进行损伤切开、修复、和连接。

一旦识别出损伤，细胞去除含有所述损伤的短的单链DNA区段。内切核酸酶XPF/ERCC1和XPG(由ERCC5编码)通过切割损伤任一侧上的被损伤的链而去除损伤，产生22-30个核苷酸的单链空位。接着，细胞进行DNA空位填充合成和连接。在这个过程中涉及的是：PCNA、RFC、DNA Polδ、DNA Polε或DNA Polκ、以及DNA连接酶I或XRCC1/连接酶III。复制型细胞倾向于使用DNA polε和DNA连接酶I进行连接步骤，而非复制型细胞倾向于使用DNA Polδ、DNA Polκ、和XRCC1/连接酶III复合物进行连接步骤。

NER可以涉及以下因子：XPA-G、POLH、XPF、ERCC1、XPA-G、以及LIG1。转录偶联NER(TC-NER)可以涉及以下因子：CSA、CSB、XPB、XPD、XPG、ERCC1、以及TTDA。可以促进NER修复途径的另外的因子包括XPA-G、POLH、XPF、ERCC1、XPA-G、LIG1、CSA、CSB、XPA、XPB、XPC、XPD、XPF、XPG、TTDA、UVSSA、USP7、CETN2、RAD23B、UV-DDB、CAK子复合物、RPA、以及PCNA。

链间交联(ICL)

称为ICL修复途径的专用途径修复链间交联。可以在复制或转录期间在不同DNA链中的碱基之间发生链间交联、或共价交联。ICL修复涉及多个修复过程的协作，具体地溶核活性、跨损伤合成(TLS)、和HDR。核酸酶被募集以切除被交联的碱基的任一侧上的ICL，同时TLS和HDR协作以修复被切割的链。ICL修复可以涉及以下因子：内切核酸酶(例如，XPF和RAD51C)、内切核酸酶(如RAD51)、跨损伤聚合酶(例如，DNA聚合酶ζ和Rev1)、以及范科尼贫血(FA)蛋白(例如，FancJ)。

其他途径

在哺乳动物体内存在若干其他DNA修复途径。

跨损伤合成(TLS)是用于修复有缺陷复制事件之后留下的单链断裂的通路，并且涉及跨损伤聚合酶(例如，DNA pol□和Rev1)。

无误复制后修复(PRR)是另一条用于修复有缺陷复制事件之后留下的单链断裂的通路。

VI.靶细胞

可以使用Cas9分子、gRNA分子(例如，Cas9分子/gRNA分子复合物)和任选的供体模板核酸在多种细胞中修饰细胞，例如改变靶核酸。

在一个实施例中，通过编辑靶基因(例如通过敲除靶基因)来操控细胞。在另一个实施例中，通过编辑靶基因来操控细胞，例如通过校正靶基因中的突变来操控细胞。在又一个实施例中，通过调节靶基因的表达来操控细胞，例如通过靶基因的敲低或活化来操控细胞。在又一个实施例中，通过引入基因(例如通过敲入基因，例如在靶向基因座中)来操控细胞。在一个实施例中，细胞被离体操控。在另一个实施例中，细胞在体内被操控。

本文所述的Cas9、gRNA和任选的供体模板核酸分子可被递送至靶细胞中。在一个实施例中，靶细胞是循环血细胞，例如网织红细胞、髓样祖细胞、淋巴样祖细胞、造血干细胞/祖细胞或内皮细胞。在一个实施例中，靶细胞是骨髓细胞(例如，髓样祖细胞，例如淋巴样祖细胞，例如红系祖细胞，例如造血干细胞/祖细胞，例如内皮细胞，例如，间充质干细胞)。在一个实施例中，靶细胞是髓样祖细胞(例如普通髓样祖细胞(CMP)或粒细胞巨噬细胞集落刺激因子祖(GMP)细胞)。在一个实施例中，靶细胞是淋巴样祖细胞，例如淋巴共同祖细胞(CLP)。在一个实施例中，靶细胞是红系祖细胞(例如巨核细胞红系祖细胞(MEP))。在一个实施例中，靶细胞是造血干细胞/祖细胞(例如长期造血干细胞/祖细胞(LT-HSPC)、短期造血干细胞/祖细胞(ST-HSPC)、多能祖细胞(MPP)、谱系限制性祖细胞(LRP))。在一个实施例中，靶细胞是CD34⁺细胞、CD34⁺CD90⁺细胞、CD34⁺CD38^-细胞、CD34⁺CD90⁺CD49f⁺CD38^-CD45RA^-细胞、CD105⁺细胞、CD31⁺、或CD133⁺细胞。在一个实施例中，靶细胞是脐血CD34⁺HSPC、脐带静脉内皮细胞、脐带动脉内皮细胞、羊水CD34⁺细胞、羊水内皮细胞、胎盘内皮细胞或胎盘造血CD34⁺细胞。在一个实施例中，靶细胞是动员的外周血造血CD34⁺细胞(在患者用动员剂例如G-CSF或普乐沙福(Plerixafor)治疗之后)。在一个实施例中，靶细胞是外周血内皮细胞。

在一个实施例中，靶细胞被离体操控并施用于受试者。用于离体操控的靶细胞的来源可以包括例如受试者的血液、脐血或受试者的骨髓。用于离体操纵的靶细胞的来源还可以包括例如异源供体血液、脐血、或骨髓。

在一个实施例中，从受试者中除去髓样祖细胞，将其如上所述离体操控，并将髓样祖细胞返回至受试者中。在一个实施例中，从受试者中除去红系祖细胞，将其如上所述离体操控，并将红系祖细胞返回至受试者中。在一个实施例中，从受试者中除去淋巴样祖细胞，将其如上所述离体操控，并将淋巴样祖细胞返回至受试者中。在一个实施例中，从受试者中除去多能祖细胞，将其如上所述离体操控，并将多能祖细胞返回至受试者中。在一个实施例中，从受试者中除去造血干细胞/祖细胞，将其如上所述离体操控，并将造血干细胞/祖细胞返回至受试者中。在一个实施例中，从受试者中除去CD34⁺造血干细胞，将其如上所述离体操控，并将CD34⁺造血干细胞/祖细胞返回至受试者中。

合适的细胞还可以包括干细胞，例如胚胎干细胞、诱导性多能干细胞、造血干细胞、内皮细胞、造血内皮细胞和间充质干细胞。在一个实施例中，细胞是诱导的多能干(iPS)细胞或源自iPS细胞的细胞，例如从受试者产生的iPS细胞，其被修饰以诱导突变并分化成临床相关细胞如髓样祖细胞、淋巴样祖细胞、红系祖细胞、多能祖细胞或造血干细胞/祖细胞。合适的细胞还可以包括分化成造血干细胞的内皮细胞或羊膜细胞。

在一个实施例中，使用病毒载体来转导靶细胞。在一个实施例中，使用AAV(例如AAV6和AAVDJ)来转导靶细胞。在一个实施例中，使用慢病毒载体或整合缺陷型慢病毒载体来转导靶细胞。在一个实施例中，使用核糖核酸(例如，gRNA分子和编码Cas9分子的mRNA)来转染靶细胞。在一个实施例中，蛋白质(例如Cas9分子)和核糖核酸(例如gRNA分子)用于转染靶细胞。在一个实施例中，使用核糖核蛋白复合物(例如，Cas9分子/gRNA分子复合物)来转染靶细胞。在一个实施例中，使用脱氧核糖核酸(例如，编码gRNA分子、Cas9分子或两者的DNA)转染靶细胞。

可以即刻使用由本文所述方法产生的细胞。可替代地，细胞可以被冷冻(例如在液氮中)并储存以备后用。通常细胞将被冷冻在10％二甲基亚砜(DMSO)、50％血清、40％缓冲介质或本领域常用的一些其他此类溶液中，以在这样的冷冻温度下保存细胞，并以本领域通常已知用于解冻冷冻的培养细胞的方式解冻。

VII.递送、配制品和施用途径

组分，例如Cas9分子、gRNA分子(例如，Cas9分子/gRNA分子复合物)、和供体模板核酸或全部三种，能以各种形式被递送、配制或施用，参见例如表19和表20。在一个实施例中，例如通过AAV载体递送一种Cas9分子和两种或更多种(例如2、3、4种或更多种)不同的gRNA分子。在一个实施例中，编码Cas9分子的序列和编码两种或更多种(例如2、3、4种或更多种)不同的gRNA分子的一个或多个序列存在于相同的核酸分子上，例如AAV载体。当递送一种Cas9或gRNA组分被编码在DNA中时，该DNA将典型地包括控制区(例如，包括启动子)以实现表达。对于Cas9分子序列有用的启动子包括例如CMV、SFFV、EFS、EF-1a、PGK、CAG和CBH启动子。在实施例中，启动子是组成型启动子。在另一个实施例中，启动子是组织特异性启动子。对于gRNA有用的启动子包括H1、EF-1a、U6和tRNA启动子。可以选择具有类似或不同强度的启动子来调谐组分的表达。编码Cas9分子的序列可以包括核定位信号(NLS)，例如，SV40NLS。在一个实施例中，编码Cas9分子的序列包含至少两个核定位信号。在实施例中，用于Cas9分子或gRNA分子的启动子可以独立地是诱导型、组织特异性、或细胞特异性的。

表19提供了可以如何配制、递送、或施用所述组分的实例。

表19

/>

/>

表20概括了Cas系统的组分(例如，如本文所述的Cas9分子组分和gRNA分子组分)的各种递送方法。

表20

/>

基于DNA的Cas9分子和/或一个或多个gRNA分子的递送

编码Cas9分子(例如eaCas9分子)、gRNA分子的核酸、供体模板核酸或其任何组合(例如两种或全部)可以通过本领域已知的方法或如在本文中所述施用于受试者或递送至细胞中。例如，编码Cas9和/或编码gRNA的DNA、以及供体模板核酸可以通过，例如，载体(例如，病毒或非病毒载体)、非基于载体的方法(例如，使用裸DNA或DNA复合物)、或其组合进行递送。

编码Cas9分子(例如eaCas9分子)和/或gRNA分子的核酸可以与促进靶细胞(例如，肝细胞)的摄取的分子(例如N-乙酰半乳糖胺)进行缀合。供体模板分子可以与促进靶细胞(例如肝细胞)摄取的分子(例如N-乙酰半乳糖胺)偶联。

在一些实施例中，编码Cas9和/或gRNA的DNA是通过载体(例如，病毒载体/病毒或质粒)进行递送的。

载体可以包括编码Cas9分子和/或gRNA分子的序列。

载体还可以包括编码融合到例如Cas9分子序列上的信号肽(例如，用于核定位、核仁定位、线粒体定位)的序列。例如，载体可以包括融合到编码Cas9分子的序列上的核定位序列(例如，来自SV40)。

可以在载体中包括一个或多个调控/控制元件，例如启动子、增强子、内含子、多聚腺苷酸化信号、Kozak共有序列和内部核糖体进入位点(IRES)。在一些实施例中，启动子由RNA聚合酶II识别(例如，CMV启动子)。在其他实施例中，启动子被RNA聚合酶III识别(例如，U6启动子)。在一些实施例中，启动子是受调节的启动子(例如，诱导型启动子)。在其他的实施例中，启动子是组成型启动子。在一些实施例中，启动子是组织特异性启动子。在一些实施例中，启动子是病毒启动子。在其他的实施例中，启动子是非病毒启动子。

在一些实施例中，载体是病毒载体(例如，用于产生重组病毒)。在一些实施例中，病毒是DNA病毒(例如，dsDNA或ssDNA病毒)。在其他实施例中，所述病毒是RNA病毒(例如，ssRNA病毒)。在一些实施例中，病毒感染分裂细胞。在其他的实施例中，病毒感染非分裂细胞。示例性病毒载体/病毒包括，例如，逆转录病毒、慢病毒、腺病毒、腺相关病毒(AAV)、痘苗病毒、痘病毒、以及单纯疱疹病毒。

在一些实施例中，病毒感染分裂和非分裂细胞两者。在一些实施例中，病毒可以整合到宿主基因组中。在一些实施例中，病毒被工程化以具有降低的免疫性(例如，在人类中)。在一些实施例中，病毒是有复制能力的。在其他的实施例中，病毒是复制缺陷型的(例如，另外多轮的病毒粒子复制和/或包装所需的基因的一个或多个编码区被其他基因替换或缺失)。在一些实施例中，病毒引起Cas9分子和/或gRNA分子的瞬时表达。在其他的实施例中，病毒引起Cas9分子和/或gRNA分子的持久(例如，至少1周、2周、1个月、2个月、3个月、6个月、9个月、1年、2年、或永久)表达。病毒的包装能力可以在，例如，至少约4kb到至少约30kb(例如，至少约5kb、10kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、或50kb)之间变化。

在一个实施例中，病毒载体识别特定的细胞类型或组织。例如，病毒载体可以用不同/替代的病毒包膜糖蛋白进行假型包装；用细胞类型特异性受体进行工程化(例如，对一种或多种病毒包膜糖蛋白进行一个或多个遗传修饰以结合靶向配体(如肽配体、单链抗体或生长因子))；和/或进行工程化以具有双重特异性的分子桥，其中一端识别病毒糖蛋白而另一端识别靶细胞表面的部分(例如，配体-受体、单克隆抗体、亲和素-生物素和化学缀合)。

示例性病毒载体/病毒包括，例如，逆转录病毒、慢病毒、腺病毒、腺相关病毒(AAV)、痘苗病毒、痘病毒、以及单纯疱疹病毒。

在一些实施例中，通过重组逆转录病毒递送编码Cas9和/或gRNA的核酸序列。在一些实施例中，逆转录病毒(例如，莫洛尼鼠白血病病毒)包括(例如，允许整合进宿主基因组中的)逆转录酶。在一些实施例中，逆转录病毒是有复制能力的。在其他的实施例中，逆转录病毒是复制缺陷型的(例如，另外多轮的病毒粒子复制和包装所需的基因的一个或多个编码区被其他基因替换或缺失)。

在一些实施例中，编码Cas9和/或gRNA的核酸序列是通过重组慢病毒进行递送的。在一个实施例中，供体模板核酸通过重组逆转录病毒递送。例如，慢病毒是复制缺陷型的(例如，不包含一种或多种病毒复制所需的基因)。

在一个实施例中，通过重组慢病毒递送编码Cas9和/或gRNA的核酸序列。在一个实施例中，供体模板核酸通过重组慢病毒递送。例如，慢病毒是复制缺陷型的(例如，不包含一种或多种病毒复制所需的基因)。

在一些实施例中，编码Cas9和/或gRNA的核酸序列是通过重组腺病毒进行递送的。在一个实施例中，供体模板核酸通过重组腺病毒递送。在一些实施例中，腺病毒被工程化以在人类中具有减少的免疫性。

在一些实施例中，编码Cas9和/或gRNA的核酸序列是通过重组AAV进行递送的。在一个实施例中，供体模板核酸通过重组AAV递送。在一些实施例中，AAV不将其基因组整合到宿主细胞例如本文所述的靶细胞的基因组中。在一些实施例中，AAV可以将其基因组结合到宿主细胞的基因组中。在一些实施例中，AAV是自我互补腺相关病毒(scAAV)(例如，对一起退火以形成双链DNA的两条链进行包装的scAAV)。

在一个实施例中，可用于本文所述方法的AAV衣壳是来自血清型AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV.rh8、AAV.rh10、AAV.rh32/33、AAV.rh43、AAV.rh64R1、或AAV7m8的衣壳序列。

在一个实施例中，编码Cas9和/或gRNA的DNA以再工程化的AAV衣壳递送，其例如，与来自血清型AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV.rh8、AAV.rh10、AAV.rh32/33、AAV.rh43、或AAV.rh64R1的衣壳序列具有50％或更大，例如60％或更大、70％或更大、80％或更大、90％或更大、或95％或更大的序列同源性。

在一个实施例中，编码Cas9和/或gRNA的DNA通过嵌合AAV衣壳递送。在一个实施例中，供体模板核酸通过嵌合AAV衣壳递送。示例性的嵌合AAV衣壳包括但不限于AAV9i1、AAV2i8、AAV-DJ、AAV2G9、AAV2i8G9、或AAV8G9。

在实施例中，AAV是自我互补腺相关病毒(scAAV)(例如，对一起退火以形成双链DNA的两条链进行包装的scAAV)。

在实施例中，编码Cas9和/或gRNA的DNA是通过混合病毒(例如，在此描述的一种或多种病毒的混合物)进行递送的。在一个实施例中，杂合病毒是AAV(例如，任何AAV血清型)与人博卡病毒、B19病毒、猪AAV、鹅AAV、猫AAV、犬AAV或MVM的杂合体。

使用包装细胞形成能够感染靶细胞的病毒粒子。这样的细胞包括可以包装腺病毒的293细胞和可以包装逆转录病毒的ψ2细胞或PA317细胞。在基因治疗中使用的病毒载体通常由将核酸载体包装进病毒粒子的生产者细胞系产生。载体典型地含有包装以及随后整合进宿主或靶细胞(如果适用的话)所需的最低量病毒序列，而其他病毒序列由编码有待表达的蛋白质(例如Cas9)的表达盒替换。例如，在基因治疗中使用的AAV载体典型地仅具有来自AAV基因组的反向末端重复(ITR)序列，所述序列为包装并在宿主或靶细胞中基因表达所需。如在“三重转染方案”中所述，缺失的病毒功能可以通过包装细胞系和/或含有来自腺病毒的E2A、E4和VA基因的质粒以及编码来自AAV的Rep和Cap基因的质粒来反式地提供。此后，将病毒DNA包装进以下细胞系中，所述细胞系包含编码辅助性质粒的其他AAV基因，即rep和cap，但缺少ITR序列。在实施例中，将病毒DNA包装在含有来自腺病毒的E1A和/或E1B基因的生产者细胞系中。所述细胞系还被作为辅助者的腺病毒感染。辅助性病毒(例如腺病毒或HSV)或辅助性质粒促进AAV载体的复制和从有ITR的辅助质粒表达AAV基因。由于缺少ITR序列，未以显著的量包装所述辅助性质粒。可以通过例如与AAV相比腺病毒更加敏感的热处理减少腺病毒的污染。

在一个实施例中，病毒载体是慢病毒载体。在一个实施例中，病毒载体是整合酶缺陷型SIN慢病毒载体。在一个实施例中，LV或IDLV用VSV-G包膜假型包装。例如，在Segal等人，J Biol Chem.[生物化学杂志]2004；279(15):14509-14519中描述了使用自我失活型(SIN)慢病毒载体(LV)有效转导用于基因治疗的分裂和非分裂细胞。基于HIV-1的慢病毒载体是复制缺陷型包膜逆转录病毒，其含有约10kb单链正义RNA基因组的两个拷贝。在不同质粒中编码结构蛋白和酶蛋白的病毒基因的分离和从RNA基因组中消除某些辅助基因使得慢病毒载体不能在转导的细胞中复制(Naldini等人，Curr.Opin.Biotechnol.[生物技术当前述评]1998；9(5):457-463)。在一个实施例中，包装信号限于编码转基因表达盒的转移载体(例如受体内源性HLA启动子调节的受体HLA等位基因)，由此阻止LV结构和酶编码基因的包装。为了产生病毒，含有转基因的转移载体可以用编码包装转基因表达盒和包膜蛋白所需的病毒蛋白的分离的质粒共转染。在一个实施例中，水泡性口炎病毒糖蛋白-G[VSV-G]用于扩增病毒的向性。

在一个实施例中，SIN慢病毒载体用于将转基因(例如匹配的HLA等位基因)转移到供体HSPC中。例如，在Cartier等人；Science[科学].2009年11月6日；326(5954):818-23；Biffi等人，Science[科学].2013；341(6148):1233158-1233158；Aiuti等人，Science[科学].2013；341(6148):1233151-1233151中描述了使用整合型重组慢病毒来离体遗传修饰造血干细胞/祖细胞(HSPC)，以治疗X-连锁的肾上腺脑白质营养不良、异染性脑白质营养不良和威斯科特-奥尔德里奇综合征。在例如，Maude等人，出版地点不详,N Engl J Med.[新英格兰医学期刊]2014；371(16):1507-1517；和Johnson等人，Science TranslationalMedicine[科学转化医学].2015；7(275):275ra22-275ra22中描述了在临床中使用慢病毒载体用于产生表达肿瘤特异性嵌合抗原受体(CAR)的T淋巴细胞以治疗白血病和成胶质细胞瘤。

在一个实施例中，整合酶缺陷型慢病毒载体(IDLV)用于递送用以递送转基因(例如受体相同的HLA等位基因)的供体Cas9、gRNA和/或供体修复模板DNA以用于受体匹配的HLA转基因的靶向整合和/或敲入，例如，进原始HLA基因座或进安全港基因座。IDLV能够转导原代人类细胞，但不能将遗传物质整合到宿主细胞基因组中。考虑到慢病毒载体(约10kb)的包装能力，IDLVs是用于基于同源性定向修复(HDR)的基因组编辑策略的递送Cas9、gRNA和供体修复模板的有用工具(Kumar等人，Human Gene Therapy[人类基因治疗].2001；12(15):1893-1905)。已经使用IDLV来递送锌指核酸酶(ZFN)、TAL效应物核酸酶(TALEN)、大范围核酸酶和供体修复模板，用于离体和体内对原代靶细胞进行位点特异性修饰(Lombardo等人，A,Nature Biotechnology[自然生物技术].2007；25(11):1298-1306；Joglekar等人，Mol Ther.[分子治疗]2013；21(9):1705-1717；Holkers等人，NucleicAcids Res.[核酸研究]2013；41(5):e63；Rivière等人，Gene Ther.[基因治疗]2014；21(5):529-532)。在一个实施例中，细胞是分裂细胞或快速分裂细胞。在另一个实施例中，细胞是休眠细胞或缓慢分裂细胞(例如，长期HSPC、神经元或肝细胞)。

在实施例中，病毒载体具有识别细胞类型和/或组织类型的能力。例如，病毒载体可以用不同/替代的病毒包膜糖蛋白进行假型包装；用细胞类型特异性受体进行工程化(例如，对病毒包膜糖蛋白进行遗传修饰以结合靶向配体(如肽配体、单链抗体、生长因子))；和/或进行工程化以具有双重特异性的分子桥，其中一端识别病毒糖蛋白而另一端识别靶细胞表面的部分(例如，配体-受体、单克隆抗体、亲和素-生物素和化学缀合)。

在实施例中，病毒载体实现细胞类型特异性表达。例如，可以构建组织特异性启动子以仅在靶细胞中限制转基因(Cas9和gRNA)的表达。载体的特异性也可以由转基因表达的微小RNA依赖性控制所介导。在实施例中，病毒载体具有增加的病毒载体和靶细胞膜的融合效率。例如，可以结合融合蛋白(例如，融合感受态血球凝集素(HA))以增加病毒摄取进入细胞中。在实施例中，病毒载体具有核定位的能力。例如，可以将需要分解核膜(在细胞分裂期间)并且因此将不感染非分裂细胞的病毒改变成结合病毒的基质蛋白中的核定位肽，由此能够实现非增殖细胞的转导。

在一些实施例中，编码Cas9和/或gRNA的DNA是通过非基于载体的方法(例如，使用裸DNA或DNA复合物)进行递送的。例如，DNA可以例如通过有机改性的二氧化硅或硅酸盐(Ormosil)、电穿孔、瞬时细胞压缩或挤压(例如，如在Lee等人，Nano Lett[纳米快报]12:6322-27中所描述的)、基因枪、声致穿孔、磁转染、脂质介导的转染、树枝状聚合物、无机纳米粒子、磷酸钙、或其组合进行递送。

在实施例中，经由电穿孔递送包括将细胞与编码Cas9和/或gRNA的DNA在盒、室或比色皿中混合并且施加一个或多个限定持续时间和幅度的电脉冲。在实施例中，使用如下系统进行经由电穿孔的递送，在所述系统中将细胞与编码Cas9和/或gRNA的DNA在连接至装置(例如，泵)的容器中混合，所述装置向盒、室或比色皿中给料混合物，在所述盒、室或比色皿中施加一个或多个限定持续时间和幅度的电脉冲，之后将细胞递送至第二容器。

在一些实施例中，编码Cas9和/或gRNA的DNA是通过载体和非基于载体的方法的组合进行递送的。在一个实施例中，供体模板核酸通过基于载体和非载体的方法的组合来递送。例如，病毒体将脂质体与灭活的病毒(例如HIV或流感病毒)结合，其可导致比单独的病毒或脂质体方法更有效的基因转移，例如在呼吸道上皮细胞中。

在实施例中，递送运载体是非病毒载体。在实施例中，非病毒载体是无机纳米粒子。示例性无机纳米颗粒包括，例如，磁性纳米颗粒(例如，Fe₃MnO₂)或二氧化硅。可以将纳米颗粒的外表面与带正电荷的聚合物(例如，聚乙烯亚胺、聚赖氨酸、聚丝氨酸)缀合，这允许有效载荷的附接(例如，缀合或截留)。在实施例中，非病毒载体是有机纳米颗粒(例如，截留纳米颗粒内的有效载荷)。示例性有机纳米颗粒包括，例如，包含阳离子脂质连同中性辅助性脂质的SNALP脂质体，其涂覆有聚乙二醇(PEG)和鱼精蛋白以及涂覆有脂质包衣的核酸复合物。

用于基因转移的示例性脂质示于下表21中。

表21：用于基因转移的脂质

/>

用于基因转移的示例性聚合物示于下表22中。

表22：用于基因转移的聚合物

/>

在一个实施例中，载体具有靶向修饰以增加靶细胞摄入纳米粒子和脂质体(例如，细胞特异性抗原、单克隆抗体、单链抗体、适配体、聚合物、糖(例如，N-乙酰半乳糖胺(GalNAc))和细胞穿透肽)。在实施例中，载体使用融合肽和内体去稳定肽/聚合物。在实施例中，载体经历酸触发的构象变化(例如，以加速负荷物的内体逃逸)。在实施例中，使用刺激可切割的聚合物，例如，用于在细胞区室中释放。例如，可以使用在还原性细胞环境中被切割的基于二硫化物的阳离子型聚合物。

在实施例中，递送运载体是生物非病毒递送运载体。在实施例中，运载体是减毒细菌(例如，天然或人工工程化成待侵入性的，但减毒以防止发病原和表达转基因(例如，单核细胞增生李斯特菌、某些沙门氏菌菌株、长双歧杆菌、和修饰的大肠杆菌)、具有营养和组织特异性向性以靶向特定组织的细菌、具有修饰的表面蛋白以改变靶组织特异性的细菌)。在实施例中，运载体是转基因噬菌体(例如，具有大包装能力、较少免疫原性、含有哺乳动物质粒维持序列并且具有结合的靶向配体的工程化噬菌体)。在实施例中，运载体是哺乳动物病毒样颗粒。例如，可以产生修饰的病毒颗粒(例如，通过纯化“空心”颗粒，随后用希望的负荷物离体组装病毒)。运载体也可以被工程化以结合靶向配体从而改变靶组织特异性。在实施例中，运载体是生物脂质体。例如，生物脂质体是衍生自人类细胞的基于磷脂的颗粒(例如，红细胞血影，其是该红血细胞分解成衍生自受试者的球状结构(例如，可以通过附接不同组织或细胞特异性配体来实现组织靶向)、或分泌外泌体-受试者(即，患者)衍生的内吞起源的膜结合纳米运载体(30nm-100nm)(例如，可以产生自不同细胞类型并且因此可以被细胞吸收，而不需要靶向配体)。

在实施例中，递送除了Cas系统的所述组分(例如，Cas9分子组分和/或在此描述的gRNA分子组分)外的一种或多种核酸分子(例如，DNA分子)。在实施例中，该核酸分子是在递送Cas系统一个或多个组分的同时进行递送的。在实施例中，该核酸分子是在递送Cas系统一个或多个组分之前或之后(例如，小于约30分钟、1小时、2小时、3小时、6小时、9小时、12小时、1天、2天、3天、1周、2周、或4周)进行递送的。在实施例中，该核酸分子是通过不同于递送Cas系统的一个或多个组分(例如，Cas9分子组分和/或gRNA分子组分)的方式进行递送的。该核酸分子可以通过任何在此描述的递送方法进行递送。例如，该核酸分子可以通过病毒载体(例如，整合缺陷型慢病毒)进行递送，并且Cas9分子组分和/或gRNA分子组分可以通过电穿孔(例如，这样可以降低由核酸(例如，DNA)引起的毒性)进行递送。在实施例中，该核酸分子编码治疗性蛋白质(例如，在此描述的蛋白质)。在实施例中，该核酸分子编码RNA分子(例如，在此描述的RNA分子)。

编码Cas9分子的RNA的递送

可以通过本领域已知或如在此描述的方法将编码Cas9分子(例如，eaCas9分子或eiCas9分子)的RNA和/或gRNA分子递送到细胞(例如，在此描述的靶细胞)中。例如，编码Cas9的和/或编码gRNA的RNA可以例如通过显微注射、电穿孔、瞬时细胞压缩或挤压(例如，如在Lee等人，2012Nano Lett[纳米快报]12:6322-27中所描述的)、脂质介导的转染、肽介导的递送、或其组合进行递送。编码Cas9的和/或编码gRNA的RNA可以与分子偶联，从而促进靶细胞(例如本文所述的靶细胞)的摄取。

在一个实施例中，经由电穿孔递送包括将细胞与编码Cas9分子(例如，eaCas9分子、eiCas9分子或eiCas9融合蛋白)的RNA和/或gRNA分子(具有或不具有供体模板核酸分子)在盒、室或比色皿中混合并且施加一个或多个限定持续时间和幅度的电脉冲。在一个实施例中，使用如下系统进行经由电穿孔的递送，在所述系统中将细胞与编码Cas9分子(例如，eaCas9分子、eiCas9分子或eiCas9融合蛋白)的RNA和/或gRNA分子(具有或不具有供体模板核酸分子)在连接至装置(例如，泵)的容器中混合，所述装置向盒、室或比色皿中给料混合物，在所述盒、室或比色皿中施加一个或多个限定持续时间和幅度的电脉冲，之后将细胞递送至第二容器。编码Cas9和/或编码gRNA的RNA可以与分子偶联以促进靶细胞(例如本文所述的靶细胞)的摄取。

递送Cas9分子蛋白

可以通过本领域已知的方法或如本文所述将Cas9分子(例如，eaCas9分子或eiCas9分子)递送到细胞中。例如，Cas9蛋白分子可以例如通过显微注射、电穿孔、瞬时细胞压缩或挤压(例如，如在Lee等人，2012；Nano Lett[纳米快报]12:6322-27中所描述的)、脂质介导的转染、肽介导的递送、或其组合进行递送。递送可以与编码gRNA的DNA或与gRNA相伴。Cas9蛋白可以与促进靶细胞(例如本文所述的靶细胞)摄取的分子进行缀合。

在一个实施例中，经由电穿孔递送包括将细胞与Cas9分子(例如，eaCas9分子、eiCas9分子或eiCas9融合蛋白)和/或gRNA分子(具有或不具有供体核酸)在盒、室或比色皿中混合并且施加一个或多个限定持续时间和幅度的电脉冲。在一个实施例中，使用如下系统进行经由电穿孔的递送，在所述系统中将细胞与Cas9分子(例如，eaCas9分子、eiCas9分子或eiCas9融合蛋白)和/或gRNA分子(具有或不具有供体核酸)在连接至装置(例如，泵)的容器中混合，所述装置向盒、室或比色皿中给料混合物，在所述盒、室或比色皿中施加一个或多个限定持续时间和幅度的电脉冲，之后将细胞递送至第二容器。编码Cas9和/或编码gRNA的RNA可以与分子偶联以促进靶细胞(例如本文所述的靶细胞)的摄取。

可以将Cas9蛋白与gRNA分子组合以形成待施用于受试者或者通过领域已知的方法或如本文所述的递送至细胞的核糖核蛋白(RNP)复合物。将Cas9/gRNA RNP复合物直接递送到细胞消除了对从核酸表达(例如编码Cas9和gRNA的质粒的转染)的需求。它还消除了来源于核酸递送(例如，编码Cas9和gRNA的质粒的转染)的DNA区段的不希望的整合。因此，它是一种替代递送方法，其提供迅速作用、快速周转、中靶修饰的高速率、减少的脱靶效应以及对细胞的较小毒性。它也可用于递送Cas9/gRNA复合物以难以转染细胞(例如难以转染原代和多能干细胞)。通常在施用之前形成Cas9/gRNA核糖核蛋白(RNP)复合物(即，预形成的)。当涉及多个(例如多于一个)Cas9/gRNA核糖核蛋白(RNP)复合物时，它们可以同时或依次递送(例如，施用)。在一个实施例中，可以通过电穿孔将Cas9/gRNA核糖核蛋白(RNP)复合物递送至细胞中。

施用途径

全身施用模式包括口服和肠胃外途径。肠胃外途径包括，举例来说，静脉内、动脉内、肌内、皮内、皮下、鼻内以及腹膜内途径。全身施用的组分可以被修饰或配制以靶向肝细胞、肝卵圆细胞、巨噬细胞或单核细胞。

局部给药方式包括，例如，实质内注射入肝脏、肝内动脉输注和经门静脉输注。在一个实施例中，与当全身施用(例如静脉内)相比时，显著较少量的组分(与全身途径相比)可以在局部施用(例如直接进入肝实质)时发挥作用。局部施用模式可以降低或消除潜在毒副作用的发生率，当全身性施用治疗有效量的组分时可能发生毒副作用。

可以以周期性推注(例如静脉内)的形式，或者从内部储库或外部储库(例如从静脉注射袋或可植入泵)持续输注提供施用。组分可以局部施用，例如通过从植入肝脏中的持续释放药物递送装置中持续释放。

此外，可以将组分配制成允许在延长时段内释放。释放系统可以包括生物降解材料或通过扩散释放所结合的组分的材料的基质。组分可以在释放系统中均匀或者非均匀分配。多种释放系统可以是有用的，然而，选择适当的系统将取决于具体应用所需要的释放速率。不可降解和可降解的释放系统均可以被使用。适合的释放系统包括聚合物和聚合物基质、非聚合物基质、或无机和有机赋形剂和稀释剂(如，但不局限于，碳酸钙和糖(例如，海藻糖))。释放系统可以是天然的或合成的。然而，合成的释放系统是优选的，因为它们通常更可靠、更具可重现性并且产生更多定义的释放曲线。可以选择释放系统材料以使得具有不同分子量的组分是通过扩散或通过材料的降解而释放的。

代表性合成的、可生物降解的聚合物包括，例如：聚酰胺(例如，聚(氨基酸)和聚(肽))；聚酯(如聚(乳酸)、聚(乙醇酸)、聚(乳酸-共-乙醇酸)、以及聚(己内酯))；聚酸酐；聚原酸酯；聚碳酸酯；及其化学衍生物(化学基团的取代、添加，例如，烷基、亚烷基、羟化、氧化、以及其他由本领域的技术人员常规做出的修饰)、共聚物及其混合物。代表性合成的，不可降解聚合物包括，例如：聚醚(例如，聚(氧化乙烯)、聚(乙二醇)、以及聚(四氢呋喃))；乙烯基聚合物-聚丙烯酸酯和聚甲基丙烯酸酯(如甲基、乙基、其他烷基、甲基丙烯酸羟基乙酯、丙烯酸和甲基丙烯酸、以及其他例如聚(乙烯醇)、聚(乙烯基吡咯烷酮)、以及聚(乙酸乙烯酯)；聚(氨酯)；纤维素及其衍生物(如烷基、羟烷基、醚、酯、硝化纤维素、以及不同的醋酸纤维素)；聚硅氧烷；及其任何化学衍生物(化学基团的取代、添加，例如，烷基、亚烷基、羟化、氧化、以及其他由本领域的技术人员常规做出的修饰)、共聚物及其混合物。

也可使用聚丙交酯乙交酯共聚物微球。典型地，微球是由乳酸和乙醇酸的聚合物构成的，其被结构化形成空心球体。球体的直径可以是大约15-30微米并且可以加载在此描述的组分。

组分的双模或差别递送

Cas系统的组分(例如，Cas9分子组分和gRNA分子组分)的分别递送，并且更具体地，通过不同模式递送这些组分，可以通过例如改善组织特异性和安全性来增强性能。

在实施例中，Cas9分子和gRNA分子是通过不同模式(或有时在此称为差别模式)进行递送的。如在此使用的，不同或差别模式是指递送的模式，该递送模式赋予受试组分分子(例如，Cas9分子、gRNA分子、模板核酸或有效负载)不同的药效动力学或药物代谢动力学特性。例如，递送的模式可以导致不同的组织分布，不同的半衰期、或不同的时间分布(例如，在选定的区室、组织、或器官中)。

一些递送的模式(例如，通过例如通过自主复制或插入进细胞核酸中而持续存在于细胞、或细胞子代中的核酸载体的递送)导致组分更为持续的表达和存在。实例包括病毒(例如，腺相关病毒或慢病毒)递送。

通过举例，这些组分(例如，Cas9分子和gRNA分子)可以在所递送组分在体内、或在特定区室、组织、或器官中的所得半衰期或持续性方面不同的模式进行递送。在实施例中，gRNA分子可以通过此类模式进行递送。Cas9分子组分可以通过这样一种模式进行递送，该模式导致更少持久性或更少暴露于身体或特定区室或组织或器官。

更一般地说，在实施例中，第一递送模式被用于递送第一组分并且第二递送模式被用于递送第二组分。第一递送模式赋予第一药效动力学或药物代谢动力学特性。第一药效动力学特性可以是，例如，组分或编码该组分的核酸在体内、区室、组织、或器官中的分布、持久性、或暴露。第二递送模式赋予第二药效动力学或药物代谢动力学特性。第二药效动力学特性可以是，例如，组分或编码该组分的核酸在体内、区室、组织、或器官中的分布、持久性、或暴露。

在实施例中，第一药效动力学或药物代谢动力学特性(例如，分布、持久性或暴露)比第二药效动力学或药物代谢动力学特性更为有限。

在实施例中，选择第一递送模式以优化(例如，最小化)药效动力学或药物代谢动力学特性(例如，分布、持久性或暴露)。

在实施例中，选择第二递送模式以优化(例如，最大化)药效动力学或药物代谢动力学特性(例如，分布、持久性或暴露)。

在实施例中，第一递送模式包括使用较为持久的元件(例如，核酸(例如，质粒或病毒载体(例如，AAV或慢病毒)))。由于此类载体是较为持久的，从它们中转录的产物将是较为持久的。

在实施例中，第二递送模式包括较为短暂的元件(例如，RNA或蛋白)。

在实施例中，第一组分包含gRNA，并且该递送模式是较为持久的(例如，gRNA转录自质粒或病毒载体(例如，AAV或慢病毒))。这些基因的转录将具有很小的生理学意义，因为基因并不编码蛋白产物，并且这些gRNA不能够单独起作用。第二组分(Cas9分子)是以瞬时方式进行递送的(例如，作为mRNA或作为蛋白)，从而确保完全Cas9分子/gRNA分子复合物仅在短时段内存在和有活性。

此外，这些组分可以不同的分子形式或用不同的互为补充以增强安全性和组织特异性的递送载体进行递送。

使用差别递送模式可以增强性能、安全性和功效。例如，可以降低最终脱靶修饰的可能性。通过较不持久的模式递送免疫原性组分(例如，Cas9分子)可以降低免疫原性，因为来自细菌衍生的Cas酶的肽通过MHC分子被展示在细胞表面上。两部分式递送系统可以改善这些缺点。

差别递送模式可以用于将组分递送至不同，但是重叠的靶区域。在靶区域的重叠之外形成活性复合物被最小化。因此，在实施例中，第一组分(例如，gRNA分子)通过第一递送模式进行递送，其导致第一空间(例如，组织)分布。第二组分(例如，Cas9分子)通过第二递送模式进行递送，其导致第二空间(例如，组织)分布。在实施例中，第一模式包括选自脂质体、纳米颗粒(例如，聚合物纳米颗粒)、以及核酸(例如，病毒载体)的第一元件。第二模式包括选自下组的第二元件。在实施例中，第一递送模式包括第一靶向元件(例如，细胞特异性受体或抗体)，并且第二递送模式不包括该元件。在实施例中，第二递送模式包括第二靶向元件(例如，第二细胞特异性受体或第二抗体)。

当Cas9分子在病毒递送载体、脂质体、或聚合物纳米颗粒中进行递送时，存在递送至多个组织并且在多个组织具有治疗活性的可能性，这是当可能希望仅靶向单个组织时。两部分式递送系统可以解决这一挑战并且增强组织特异性。如果gRNA分子和Cas9分子被包装在具有不同但重叠的组织嗜性的分离的递送运载体中，完全功能性复合物仅在被两种载体靶向的组织中形成。

离体递送

在一些实施例中，将表19中描述的组分引入细胞中，然后将其引入受试者中。引入组分的方法可以包括例如表20中所述的任何递送方法。

VIII.修饰的核苷、核苷酸和核酸

修饰的核苷和修饰的核苷酸可以存在于核酸中，例如特别是gRNA，但是还有其他形式的RNA，例如mRNA、RNAi或siRNA。如本文所描述的，“核苷”被定义为包含五碳糖分子(戊糖或核糖)或其衍生物以及有机碱(嘌呤或嘧啶)或其衍生物的化合物。如本文所描述的，“核苷酸”被定义为进一步包含磷酸基团的核苷。

修饰的核苷和核苷酸可以包括以下项中的一项或多项：

(i)磷酸二酯骨架键联中的一个或两个非连接磷酸氧和/或一个或多个连接磷酸氧的改变，例如置换；

(ii)核糖的组分(例如，核糖上的2’羟基)的改变，例如置换；

(iii)“脱磷酸”接头对磷酸部分的完全置换；

(iv)天然存在的核碱基的修饰或置换；

(v)核糖-磷酸骨架的置换或修饰；

(Vi)寡核苷酸的3’端或5’端的修饰，例如，末端磷酸基团的去除、修饰或置换或部分的结合；和

(vii)糖的修饰。

以上列出的修饰可以组合，以提供可以具有两个、三个、四个或更多个修饰的修饰的核苷和核苷酸。例如，修饰的核苷或核苷酸可以具有修饰的糖和修饰的核碱基。在一个实施例中，修饰gRNA的每个碱基，例如所有碱基都具有修饰的磷酸酯基团，例如所有修饰的磷酸酯基团都是硫代磷酸酯基团。在一个实施例中，单分子的或模块化的gRNA分子的所有或基本上所有磷酸酯基团被硫代磷酸酯基团替换。

在一个实施例中，可以将修饰的核苷酸(例如，具有如本文描述的修饰的核苷酸)掺入核酸中，例如“修饰的核酸”。在一个实施例中，修饰的核酸包含一个、两个、三个或更多个修饰的核苷酸。在一个实施例中，修饰的核酸中的至少5％(例如，至少约5％、至少约10％、至少约15％、至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约95％或约100％)的位置是修饰的核苷酸。

未修饰的核酸可以易于被例如细胞核酸酶降解。例如，核酸酶可以水解核酸磷酸二酯键。因此，在一个方面中，本文描述的修饰的核酸可以含有一个或多个修饰的核苷或核苷酸，例如，以引入对核酸酶的稳定性。

在一个实施例中，本文描述的修饰的核苷、修饰的核苷酸和修饰的核酸当被在体内和离体地引入细胞群体中时都可以展现出减少的先天性免疫应答。术语“先天性免疫应答”包括对外源核酸的细胞应答，外源核酸包括通常是病毒或细菌来源的单链核酸，所述细胞应答涉及细胞因子(特别是干扰素)表达与释放以及细胞死亡的诱导。在一个实施例中，本文描述的修饰的核苷、修饰的核苷酸和修饰的核酸可以破坏大沟相互作用配偶体与核酸的结合。在一个实施例中，本文描述的修饰的核苷、修饰的核苷酸和修饰的核酸当被在体内和离体地引入细胞群体中时都可以展现出减少的先天性免疫应答，并且还破坏大沟相互作用配偶体与核酸的结合。

化学基团的定义

如本文所用的，“烷基”意在指直链的或支链的饱和烃基。示例性烷基基团包括甲基(Me)、乙基(Et)、丙基(例如，正丙基和异丙基)、丁基(例如，正丁基、异丁基、叔丁基)、戊基(例如，正戊基、异戊基、新戊基)等。烷基基团可以包含从1至约20、从2至约20、从1至约12、从1至约8、从1至约6、从1至约4或从1至约3个碳原子。

如在此所使用的，“芳基”是指单环或多环(例如，具有2、3或4个稠环)的芳香烃，例如像苯基、萘基、蒽基、菲基、茚满基、茚基等。在一个实施例中，芳基基团具有从6至约20个碳原子。

如本文所用的，“烯基”是指包含至少一个双键的脂肪族基团。

如在此所使用的，“炔基”是指含有2-12个碳原子并且特征在于具有一个或多个三键的直链的或支链的烃链。炔基基团的实例包括但不限于乙炔基、炔丙基和3-己炔基。

如在此所使用的，“芳基烷基”或“芳烷基”是指烷基氢原子被芳基基团置换的烷基部分。芳烷基包括一个以上氢原子已经被芳基基团置换的基团。“芳基烷基”或“芳烷基”的实例包括苄基、2-苯基乙基、3-苯基丙基、9-芴基、二苯甲基以及三苯甲基基团。

如本文所用的，“环烷基”是指具有3至12个碳的环状的、二环的、三环的或多环的非芳香烃基团。环烷基部分的实例包括但不限于环丙基、环戊基和环己基。

如本文所用的，“杂环基”是指杂环系统的单价基。代表性杂环基包括但不限于四氢呋喃基、四氢噻吩基、吡咯烷基、吡咯烷酮基、哌啶基、吡咯啉基、哌嗪基、二噁烷基、二氧戊环基、二氮杂卓基、氧氮杂卓基、硫氮杂卓基以及吗啉基。

如本文所用的，“杂芳基”是指杂芳香环系统的单价基。杂芳基部分的实例包括但不限于咪唑基、噁唑基、噻唑基、三唑基、吡咯基、呋喃基、吲哚基、苯硫基、吡唑基、吡啶基、吡嗪基、哒嗪基、嘧啶基、吲嗪基、嘌呤基、萘啶基、喹啉基以及蝶啶基。

磷酸骨架修饰

磷酸酯基团

在一个实施例中，可以通过用不同取代基置换一个或多个氧来修饰经修饰的核苷酸的磷酸酯基团。此外，修饰的核苷酸(例如，存在于修饰的核酸中的修饰的核苷酸)可以包括如本文描述的修饰的磷酸酯对未修饰的磷酸酯部分的完全置换。在一个实施例中，磷酸骨架的修饰可以包括产生不带电接头或具有不对称电荷分布的带电接头的改变。

修饰的磷酸酯基团的实例包括硫代磷酸酯、硒代磷酸酯(phosphoroselenate)、硼磷酸酯(borano phosphate)、硼磷酸酯(borano phosphate ester)、氢膦酸酯、磷酰胺酯(phosphoroamidate)、烷基或芳基膦酸酯和磷酸三酯。在一个实施例中，磷酸骨架部分中的非桥连磷酸氧原子之一可以被以下基团中的任一项置换：硫(S)、硒(Se)、BR₃(其中R可以是例如氢、烷基或芳基)、C(例如，烷基基团、芳基基团等)、H、NR₂(其中R可以是例如氢、烷基或芳基)或OR(其中R可以是例如烷基或芳基)。未修饰的磷酸酯基团中的磷原子是非手性的。然而，以上原子或原子的基团之一对非桥连磷酸氧之一的置换可以使得磷原子是手性的；也就是说以这种方式修饰的磷酸酯基团中的磷原子是立构中心。立构磷原子可以具有“R”构型(本文是Rp)或“S”构型(本文是Sp)。

二硫代磷酸酯具有两个被硫置换的非桥连氧。二硫代磷酸酯中的磷中心是非手性的，这阻止寡核糖核苷酸非对映异构体的形成。在一个实施例中，对一个或两个非桥连氧的修饰还可以包括用以下基团置换非桥连氧，所述基团独立地选自S、Se、B、C、H、N以及OR(R可以是例如烷基或芳基)。

还可以通过用氮(桥连的磷酰胺酯)、硫(桥连的硫代磷酸酯)和碳(桥连的亚甲基膦酸酯)置换桥连氧(即，将磷酸连接至核苷的氧)来修饰磷酸酯接头。置换可以发生在连接氧或发生在两个连接氧处。

磷酸酯基团的置换

磷酸酯基团可以被不含磷连接物置换。在一个实施例中，带电磷酸酯基团可以被中性部分置换。

可以置换磷酸酯基团的部分的实例可以包括但不限于例如甲基膦酸酯、羟氨基、硅氧烷、碳酸酯、羧甲基、氨基甲酸酯、酰胺、硫醚、环氧乙烷接头、磺酸酯、磺酰胺、硫代甲缩醛(thioformacetal)、甲缩醛(formacetal)、肟、亚甲亚氨基、亚甲甲基亚氨基、亚甲肼基、亚甲二甲基肼基以及亚甲氧基甲基亚氨基。

核糖磷酸骨架的置换

还可以构建可以模拟核酸的支架，其中磷酸酯接头和核糖被核酸酶抗性核苷或核苷酸替代物置换。在一个实施例中，可以通过替代骨架拴住核碱基。实例可以包括但不限于吗啉代、环丁基、吡咯烷和肽核酸(PNA)核苷替代物。

糖修饰

修饰的核苷和修饰的核苷酸可以包括对糖基的一种或多种修饰。例如，2’羟基基团(OH)可以被多种不同的“氧基”或“脱氧”取代基修饰或替换。在一个实施例中，对2’羟基基团的修饰可以增强核酸的稳定性，因为羟基不再可以被去质子化以形成2’-醇盐离子。2’-醇盐可以通过接头磷原子上的分子内亲核攻击而催化降解。

“氧基”-2’羟基基团修饰的实例可以包括烷氧基或芳氧基(OR，其中“R”可以是例如烷基、环烷基、芳基、芳烷基、杂芳基或糖)；聚乙二醇(PEG)，O(CH₂CH₂O)_nCH₂CH₂OR，其中R可以是例如H或任选取代的烷基，并且n可以是从0至20的整数(例如，从0至4、从0至8、从0至10、从0至16、从1至4、从1至8、从1至10、从1至16、从1至20、从2至4、从2至8、从2至10、从2至16、从2至20、从4至8、从4至10、从4至16以及从4至20)。在一个实施例中，“氧基”-2’羟基基团修饰可以包括“锁”核酸(LNA)，其中2’羟基可以例如通过C_1-6亚烷基或C_1-6杂亚烷基桥连接至同一核糖的4’碳，其中示例性桥可以包括亚甲基、亚丙基、醚或氨基桥；O-氨基(其中氨基可以是例如NH₂；烷氨基、二烷氨基、杂环基、芳氨基、二芳氨基、杂芳氨基或二杂芳氨基、乙二胺或聚氨基)和氨基烷氧基O(CH₂)_n-氨基(其中氨基可以是例如NH₂；烷氨基、二烷氨基、杂环基、芳氨基、二芳氨基、杂芳氨基或二杂芳氨基、乙二胺或聚氨基)。在一个实施例中，“氧基”-2’羟基基团修饰可以包括甲氧基乙基基团(MOE)(OCH₂CH₂OCH₃，例如PEG衍生物)。

“脱氧”修饰可以包括氢(即脱氧核糖，例如在部分ds RNA的突出端部分)；卤素(例如，溴、氯、氟或碘)；氨基(其中氨基可以是例如NH₂；烷氨基、二烷氨基、杂环基、芳氨基、二芳氨基、杂芳氨基、二杂芳氨基或氨基酸)；NH(CH₂CH₂NH)_nCH₂CH₂-氨基(其中氨基可以是例如如本文描述的)，-NHC(O)R(其中R可以是例如烷基、环烷基、芳基、芳烷基、杂芳基或糖)，氰基；巯基；烷基-硫代-烷基；硫代烷氧基；以及烷基、环烷基、芳基、烯基和炔基，其可以任选地被例如如本文描述的氨基取代。

糖基还可以包含一个或多个具有与核糖中的对应碳相反的立体化学构型的碳。因此，修饰的核酸可以包括含有例如阿拉伯糖作为糖的核苷酸。核苷酸“单体”可以在糖的1’位置处具有α键联，例如α-核苷。修饰的核酸还可以包括“无碱基”糖，其在C-1’处缺乏核碱基。这些无碱基糖还可以在一个或多个构成性糖原子处被进一步修饰。修饰的核酸还可以包括一种或多种处于L型的糖，例如L-核苷。

通常，RNA包括糖基核糖，它是具有氧的5元环。示例性修饰的核苷和修饰的核苷酸可以包括但不限于核糖中氧的置换(例如，用硫(S)、硒(Se)或亚烷基，例如像亚甲基或亚乙基)；双键的添加(例如，以用环戊烯基或环己烯基置换核糖)；核糖的缩环(例如，以形成环丁烷或氧杂环丁烷的4元环)；核糖的扩环(例如，以形成具有另外的碳或杂原子的6元或7元环，例如像脱水己糖醇、阿卓糖醇、甘露醇、环己烷基、环己烯基以及吗啉代，其也具有氨基磷酸酯骨架)。在一个实施例中，修饰的核苷酸可以包括多环形式(例如，三环；和“解锁”形式，如二醇核酸(GNA)(例如，R-GNA或S-GNA，其中核糖被附接至磷酸二酯键的二醇单元置换)，苏糖核酸(TNA，其中核糖被α-L-苏呋喃糖基(threofuranosyl)-(3’→2’)置换)。

核碱基上的修饰

能够被掺入修饰的核酸中的本文描述的修饰的核苷和修饰的核苷酸可以包括修饰的核碱基。核碱基的实例包括但不限于腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)以及尿嘧啶(U)。这些核碱基可以被修饰或全部替换，以提供可以被掺入修饰的核酸中的修饰的核苷和修饰的核苷酸。核苷酸的核碱基可以独立地选自嘌呤、嘧啶、嘌呤或嘧啶类似物。在一个实施例中，核碱基可以包括例如天然存在的碱基及其合成的衍生物。

尿嘧啶

在一个实施例中，修饰的核碱基是修饰的尿嘧啶。具有修饰的尿嘧啶的示例性核碱基和核苷包括但不限于假尿苷(ψ)、吡啶-4-酮核糖核苷、5-氮杂-尿苷、6-氮杂-尿苷、2-硫代-5-氮杂-尿苷、2-硫代-尿苷(s2U)、4-硫代-尿苷(s4U)、4-硫代-假尿苷、2-硫代-假尿苷、5-羟基-尿苷(ho⁵U)、5-氨基烯丙基-尿苷、5-卤代-尿苷(例如，5-碘代-尿苷或5-溴代-尿苷)、3-甲基-尿苷(m³U)、5-甲氧基-尿苷(mo⁵U)、尿苷5-氧基乙酸(cmo⁵U)、尿苷5-氧基乙酸甲酯(mcmo⁵U)、5-羧甲基-尿苷(cm⁵U)、1-羧甲基-假尿苷、5-羧基羟甲基-尿苷(chm⁵U)、5-羧基羟甲基-尿苷甲酯(mchm⁵U)、5-甲氧羰基甲基-尿苷(mcm⁵U)、5-甲氧羰基甲基-2-硫代-尿苷(mcm⁵s2U)、5-氨甲基-2-硫代-尿苷(nm⁵s2U)、5-甲基氨甲基-尿苷(mnm⁵U)、5-甲基氨甲基-2-硫代-尿苷(mnm⁵s2U)、5-甲基氨甲基-2-硒代-尿苷(mnm⁵se²U)、5-氨甲酰基甲基-尿苷(ncm⁵U)、5-羧甲基氨基甲基-尿苷(cmnm⁵U)、5-羧甲基氨基甲基-2-硫代-尿苷(cmnm ⁵s2U)、5-丙炔基-尿苷、1-丙炔基-假尿苷、5-牛磺酸甲基-尿苷(τcm⁵U)、1-牛磺酸甲基-假尿苷、5-牛磺酸甲基-2-硫代-尿苷(τm⁵s2U)、1-牛磺酸甲基-4-硫代-假尿苷、5-甲基-尿苷(m⁵U，即具有核碱基脱氧胸腺嘧啶)、1-甲基-假尿苷(m¹ψ)、5-甲基-2-硫代-尿苷(m⁵s2U)、1-甲基-4-硫代-假尿苷(m¹s⁴ψ)、4-硫代-1-甲基-假尿苷、3-甲基-假尿苷(m³ψ)、2-硫代-1-甲基-假尿苷、1-甲基-1-去氮杂-假尿苷、2-硫代-1-甲基-1-去氮杂-假尿苷、二氢尿苷(D)、二氢假尿苷、5,6-二氢尿苷、5-甲基-二氢尿苷(m⁵D)、2-硫代-二氢尿苷、2-硫代-二氢假尿苷、2-甲氧基-尿苷、2-甲氧基-4-硫代-尿苷、4-甲氧基-假尿苷、4-甲氧基-2-硫代-假尿苷、N1-甲基-假尿苷、3-(3-氨基-3-羧丙基)尿苷(acp³U)、1-甲基-3-(3-氨基-3-羧丙基)假尿苷(acp³ψ)、5-(异戊烯基氨甲基)尿苷(inm⁵U)、5-(异戊烯基氨甲基)-2-硫代-尿苷(inm⁵s2U)、α-硫代-尿苷、2'-O-甲基-尿苷(Um)、5,2'-O-二甲基-尿苷(m⁵Um)、2'-O-甲基-假尿苷(ψm)、2-硫代-2'-O-甲基-尿苷(s2Um)、5-甲氧基羰甲基-2'-O-甲基-尿苷(mcm⁵Um)、5-氨甲酰基甲基-2'-O-甲基-尿苷(ncm⁵Um)、5-羧甲基氨甲基-2'-O-甲基-尿苷(cmnm ⁵Um)、3,2'-O-二甲基-尿苷(m³Um)、5-(异戊烯基氨甲基)-2'-O-甲基-尿苷(inm ⁵Um)、1-硫代-尿苷、脱氧胸苷、2'-F-阿糖(ara)-尿苷、2'-F-尿苷、2'-OH-阿糖-尿苷、5-(2-甲氧甲酰基乙烯基)尿苷、5-[3-(1-E-丙烯基氨基)尿苷、吡唑并[3,4-d]嘧啶、黄嘌呤以及次黄嘌呤。

胞嘧啶

在一个实施例中，修饰的核碱基是修饰的胞嘧啶。具有修饰的胞嘧啶的示例性核碱基和核苷包括但不限于5-氮杂-胞苷、6-氮杂-胞苷、假异胞苷、3-甲基-胞苷(m³C)、N4-乙酰基-胞苷(act)、5-甲酰基-胞苷(f⁵C)、N4-甲基-胞苷(m⁴C)、5-甲基-胞苷(m⁵C)、5-卤代-胞苷(例如，5-碘代-胞苷)、5-羟甲基-胞苷(hm⁵C)、1-甲基-假异胞苷、吡咯并-胞苷、吡咯并-假异胞苷、2-硫代-胞苷(s2C)、2-硫代-5-甲基-胞苷、4-硫代-假异胞苷、4-硫代-1-甲基-假异胞苷、4-硫代-1-甲基-1-去氮杂-假异胞苷、1-甲基-1-去氮杂-假异胞苷、泽布拉林(zebularine)、5-氮杂-泽布拉林、5-甲基-泽布拉林、5-氮杂-2-硫代-泽布拉林、2-硫代-泽布拉林、2-甲氧基-胞苷、2-甲氧基-5-甲基-胞苷、4-甲氧基-假异胞苷、4-甲氧基-1-甲基-假异胞苷、赖西丁(k²C)、α-硫代-胞苷、2'-O-甲基-胞苷(Cm)、5,2'-O-二甲基-胞苷(m⁵Cm)、N4-乙酰基-2'-O-甲基-胞苷(ac⁴Cm)、N4,2'-O-二甲基-胞苷(m⁴Cm)、5-甲酰基-2'-O-甲基-胞苷(f ⁵Cm)、N4,N4,2'-O-三甲基-胞苷(m⁴ ₂Cm)、1-硫代-胞苷、2'-F-阿糖-胞苷、2'-F-胞苷以及2'-OH-阿糖-胞苷。

腺嘌呤

在一个实施例中，修饰的核碱基是修饰的腺嘌呤。具有修饰的腺嘌呤的示例性核碱基和核苷包括但不限于2-氨基-嘌呤、2,6-二氨基嘌呤、2-氨基-6-卤代-嘌呤(例如，2-氨基-6-氯代-嘌呤)、6-卤代-嘌呤(例如，6-氯代-嘌呤)、2-氨基-6-甲基-嘌呤、8-叠氮基-腺苷、7-去氮杂-腺苷、7-去氮杂-8-氮杂-腺苷、7-去氮杂-2-氨基-嘌呤、7-去氮杂-8-氮杂-2-氨基-嘌呤、7-去氮杂-2,6-二氨基嘌呤、7-去氮杂-8-氮杂-2,6-二氨基嘌呤、1-甲基-腺苷(m¹A)、2-甲基-腺苷(m²A)、N6-甲基-腺苷(m⁶A)、2-甲硫基-N6-甲基-腺苷(ms2m⁶A)、N6-异戊烯基-腺苷(i⁶A)、2-甲硫基-N6-异戊烯基-腺苷(ms²i⁶A)、N6-(顺羟基异戊烯基)腺苷(io⁶A)、2-甲硫基-N6-(顺羟基异戊烯基)腺苷(ms2io⁶A)、N6-缩水甘油基氨甲酰基-腺苷(g⁶A)、N6-苏氨酰基氨甲酰基-腺苷(t⁶A)、N6-甲基-N6-苏氨酰基氨甲酰基-腺苷(m⁶t⁶A)、2-甲硫基-N6-苏氨酰基氨甲酰基-腺苷(ms²g⁶A)、N6,N6-二甲基-腺苷(m⁶ ₂A)、N6-羟基正缬氨酰基氨甲酰基-腺苷(hn⁶A)、2-甲硫基-N6-羟基正缬氨酰基氨甲酰基-腺苷(ms2hn⁶A)、N6-乙酰基-腺苷(ac⁶A)、7-甲基-腺苷、2-甲硫基-腺苷、2-甲氧基-腺苷、α-硫代-腺苷、2'-O-甲基-腺苷(Am)、N⁶,2'-O-二甲基-腺苷(m⁶Am)、N⁶-甲基-2'-脱氧腺苷、N6,N6,2'-O-三甲基-腺苷(m⁶ ₂Am)、1,2'-O-二甲基-腺苷(m¹Am)、2'-O-核糖基腺苷(磷酸盐)(Ar(p))、2-氨基-N6-甲基-嘌呤、1-硫代-腺苷、8-叠氮基-腺苷、2'-F-阿糖-腺苷、2'-F-腺苷、2'-OH-阿糖-腺苷以及N6-(19-氨基-五氧杂十九烷基)-腺苷。

鸟嘌呤

在一个实施例中，修饰的核碱基是修饰的鸟嘌呤。具有修饰的鸟嘌呤的示例性核碱基和核苷包括但不限于肌苷(I)、1-甲基-肌苷(m¹I)、怀俄苷(imG)、甲基怀俄苷(mimG)、4-去甲基-怀俄苷(imG-14)、异怀俄苷(imG2)、怀丁苷(yW)、过氧怀丁苷(o₂yW)、羟基怀丁苷(OHyW)、修饰不足的羟基怀丁苷(OHyW*)、7-去氮杂-鸟苷、辫苷(Q)、环氧辫苷(oQ)、半乳糖基-辫苷(galQ)、甘露糖基-辫苷(manQ)、7-氰基-7-去氮杂-鸟苷(preQ₀)、7-氨基甲基-7-去氮杂-鸟苷(preQ₁)、古嘌苷(G⁺)、7-去氮杂-8-氮杂-鸟苷、6-硫代-鸟苷、6-硫代-7-去氮杂-鸟苷、6-硫代-7-去氮杂-8-氮杂-鸟苷、7-甲基-鸟苷(m⁷G)、6-硫代-7-甲基-鸟苷、7-甲基-肌苷、6-甲氧基-鸟苷、1-甲基-鸟苷(m'G)、N2-甲基-鸟苷(m²G)、N2,N2-二甲基-鸟苷(m² ₂G)、N2,7-二甲基-鸟苷(m²,7G)、N2,N2,7-二甲基-鸟苷(m²,2,7G)、8-氧代-鸟苷、7-甲基-8-氧代-鸟苷、1-甲基-6-硫代-鸟苷、N2-甲基-6-硫代-鸟苷、N2,N2-二甲基-6-硫代-鸟苷、α-硫代-鸟苷、2'-O-甲基-鸟苷(Gm)、N2-甲基-2'-O-甲基-鸟苷(m²Gm)、N2,N2-二甲基-2'-O-甲基-鸟苷(m² ₂Gm)、1-甲基-2'-O-甲基-鸟苷(m'Gm)、N2,7-二甲基-2'-O-甲基-鸟苷(m²,7Gm)、2'-O-甲基-肌苷(Im)、1,2'-O-二甲基-肌苷(m'Im)、O⁶-苯基-2’-脱氧肌苷、2'-O-核糖基鸟苷(磷酸盐)(Gr(p))、1-硫代-鸟苷、O⁶-甲基-鸟苷、O⁶-甲基-2’-脱氧鸟苷、2'-F-阿糖-鸟苷以及2'-F-鸟苷。

示例性修饰的gRNA

在一些实施例中，修饰的核酸可以是修饰的gRNA。应当理解，本文所述的任何gRNA可以根据本部分进行修饰。如在此所讨论的，瞬时表达的或递送的核酸可以易于被例如细胞核酸酶降解。因此，在一个方面中，在此所描述的修饰的gRNA可以含有一个或多个修饰的核苷或核苷酸，其引入对核酸酶的稳定性。据信，本文所述的这些和其他修饰的gRNA对于某些细胞类型(例如循环细胞如T细胞)表现出增强的稳定性，并且这可能是所观察到的改善的原因。

例如，如在此所讨论的，当gRNA的5’端通过包含真核mRNA帽结构或帽类似物进行修饰时，我们已经在某些细胞类型(例如，T细胞)中的基因离体编辑方面看到改进。本披露涵盖这样的认识，即通过5’加帽的gRNA观察到的改进可以扩展到已经以其他方式(例如，通过包含修饰的核苷或核苷酸、或当修饰体外转录的gRNA时通过用磷酸酶如牛小肠碱性磷酸酶处理以去除5’三磷酸酯基团)修饰以实现相同类型的结构或功能结果的gRNA上。本文所述的修饰的gRNA可以包含一种或多种对核酸酶引入稳定性的修饰(例如，修饰的核苷或核苷酸)(例如，通过包含修饰的核苷或核苷酸和/或3'聚A尾部)。

因此，在一个方面，本文讨论的方法和组合物提供了通过使用在其5’端或附近(例如，在其5’端的1-10、1-5、或1-2个核苷酸之内)被修饰的gRNA基因编辑某些细胞(例如，离体基因编辑)的方法和组合物。

在一些实施例中，gRNA分子的5'端缺少5'三磷酸基团。在一些实施例中，靶向结构域的5'端缺少5'三磷酸基团。在一些实施例中，gRNA分子的5'端包含5'帽。在一些实施例中，靶向结构域的5'端包含5'帽。在一些实施例中，gRNA分子缺少5'三磷酸基团。在一些实施例中，所述gRNA分子包含靶向结构域，并且靶向结构域的5'端缺少5'三磷酸基团。在一些实施例中，gRNA分子包含5'帽。在一些实施例中，所述gRNA分子包含靶向结构域，并且靶向结构域的5'端包含5'帽。

在一个实施例中，gRNA的5’端通过包含真核mRNA帽结构或帽类似物(例如，不限于G(5’)ppp(5’)G帽类似物、m7G(5’)ppp(5’)G帽类似物、或3’-O-Me-m7G(5’)ppp(5’)G抗反向帽类似物(ARCA))进行修饰。在某些实施例中，5'帽包含修饰的鸟嘌呤核苷酸，其经由5'-5'三磷酸键与gRNA分子的其余部分连接。在一些实施例中，5'帽包含通过5'-5'三磷酸键连接的两个任选修饰的鸟嘌呤核苷酸。在某些实施例中，gRNA分子的5’端具有化学式：

/>

其中：

每个B1和B1’独立地是

每个R1独立地是C1-4烷基，任选被苯基或6-元杂芳基取代；

每个R2、R2’和R3’独立地是H、F、OH、或O-C1-4烷基；

每个X、Y、和Z独立地是O或S；并且

每个X’和Y’独立地是O或CH2。

在一个实施例中，每个R1独立地是-CH3、-CH2CH3或-CH2C6H5。在一个实施例中，R1是-CH3。

在一个实施例中，B1’是

在一个实施例中，每个R2、R2’、和R3’独立地是H、OH或O-CH3。在一个实施例中，每个X、Y和Z是O。

在一个实施例中，X’和Y’是O。

在一个实施例中，gRNA分子的5’端具有化学式：

在一个实施例中，gRNA分子的5’端具有化学式：

在一个实施例中，gRNA分子的5’端具有化学式：

在一个实施例中，gRNA分子的5’端具有化学式：

在一个实施例中，X是S，并且Y和Z是O。

在一个实施例中，Y是S，并且X和Z是O。

在一个实施例中，Z是S，并且X和Y是O。

在一个实施例中，硫代磷酸酯是Sp非对映异构体。

在一个实施例中，X’是CH2，并且Y’是O。

在一个实施例中，X’是O，并且Y’是CH2。

在一个实施例中，5'帽包含两个通过任选修饰的5'-5'四磷酸键连接的任选修饰的鸟嘌呤核苷酸。

在一个实施例中，gRNA分子的5’端具有化学式：

其中：

每个B1和B1’独立地是

每个R1独立地是C1-4烷基，任选被苯基或6-元杂芳基取代；

每个R2、R2’和R3’独立地是H、F、OH或O-C1-4烷基；

每个W、X、Y和Z独立地是O或S；并且

每个X’、Y’和Z’独立地是O或CH2。

在一个实施例中，B1’是

在一个实施例中，每个R2、R2’和R3’独立地是H、OH或O-CH3。在一个实施例中，每个W、X、Y和Z是O。

在一个实施例中，每个X’、Y’和Z’是O。

在一个实施例中，X’是CH2，并且Y’和Z’是O。

在一个实施例中，Y’是CH2，并且X’和Z’是O。

在一个实施例中，Z’是CH2，并且X’和Y’是O。

在一个实施例中，5'帽包含两个通过任选修饰的5'-5'五磷酸键连接的任选修饰的鸟嘌呤核苷酸。

在一个实施例中，gRNA分子的5’端具有化学式：

其中：

每个B1和B1’独立地是

每个R1独立地是C1-4烷基，任选被苯基或6-元杂芳基取代；

每个R2、R2’和R3’独立地是H、F、OH或O-C1-4烷基；

每个V、W、X、Y和Z独立地是O或S；并且

每个W’、X’、Y’和Z’独立地是O或CH2。

在一个实施例中，每个R1独立地是-CH3、-CH2CH3或-CH2C6H5。

在一个实施例中，R1是-CH3。

在一个实施例中，B1’是

在一个实施例中，每个R2、R2’和R3’独立地是H、OH或O-CH3。

在一个实施例中，每个V、W、X、Y和Z是O。

在一个实施例中，每个W’、X’、Y’和Z’是O。

应该理解的是，如本文所用，术语“5'帽”涵盖传统的mRNA 5'帽结构，但也包括这些的类似物。例如，除了以上所示的化学结构所涵盖的5'帽结构之外，还可以使用例如具有亚甲基-双(磷酸酯)部分的四磷酸类似物(例如，参见Rydzik,A M等人，(2009)Org BiomolChem[有机和生物分子化学]7(22):4763-76)，具有非桥连氧的硫取代的类似物(例如，参见Grudzien-Nogalska,E.等人，(2007)RNA 13(10):1745-1755)，N7-苄化二核苷四磷酸类似物(例如，参见Grudzien,E.等人，(2004)RNA 10(9):1479-1487)，或抗反向帽类似物(例如，参见美国专利号7,074,596和Jemielity,J.等人，(2003)RNA 9(9):1 108-1 122和Stepinski,J.等人，(2001)RNA 7(10):1486-1495)。本申请还包括使用具有卤素基团的帽类似物代替OH或OMe(例如参见美国专利号8,304,529)；具有至少一个硫代磷酸酯(PS)键的帽类似物(例如参见美国专利号8,153,773和Kowalska,J.等人，(2008)RNA 14(6):1 1 19-1131)；和具有至少一个硼烷磷酸酯或磷酸硒酯键的帽类似物(例如参见美国专利号8,519,110)；和炔基衍生的5'帽类似物(例如参见美国专利号8,969,545)。

通常，在化学合成或gRNA的体外转录过程中可以包括5'帽。在一个实施例中，不使用5'帽，并且而是通过用磷酸酶(例如，小牛肠碱性磷酸酶)处理来除去5'三磷酸基团来修饰gRNA(例如体外转录的gRNA)。

本文讨论的方法和组合物还通过使用包含3’聚A尾部的gRNA提供用于基因编辑的方法和组合物。这样的gRNA例如可以通过在gRNA分子前体的体外转录之后使用多聚腺苷酸化聚合酶将聚A尾部添加至gRNA分子前体来制备。例如，在一个实施例中，可以使用聚合酶例如大肠杆菌聚A聚合酶(E-PAP)酶促地添加聚A尾部。包括聚A尾部的gRNA也可以通过从DNA模板体外转录来制备。在一个实施例中，将限定长度的聚A尾部编码在DNA模板上，并通过RNA聚合酶(如T7RNA聚合酶)与gRNA一起转录。具有聚A尾部的gRNA也可以通过使用RNA连接酶或DNA连接酶在具有或不具有与gRNA分子前体互补的夹板式连接的DNA寡核苷酸和聚A寡核苷酸的体外转录后将聚A寡核苷酸连接到gRNA分子前体来制备。例如，在一个实施例中，将限定长度的聚A尾部合成为合成的寡核苷酸，并用RNA连接酶或DNA连接酶(在具有或不具有与指导RNA互补的夹板式连接的DNA寡核苷酸和聚A寡核苷酸的情况下)连接到gRNA的3'端。包括聚A尾部的gRNA也可以在通过RNA连接酶或DNA连接酶(在具有或不具有一个或多个夹板式连接的分裂DNA寡核苷酸的情况下)连接在一起的一个或多个片段中合成制备。

在一些实施例中，聚A尾部包含少于50个腺嘌呤核苷酸，例如少于45个腺嘌呤核苷酸、少于40个腺嘌呤核苷酸、少于35的腺嘌呤核苷酸、少于30个的腺嘌呤核苷酸、少于25个的腺嘌呤核苷酸或少于20个腺嘌呤核苷酸。在一些实施例中，聚A尾部包含5至50个腺嘌呤核苷酸，例如5至40个腺嘌呤核苷酸、5至30个腺嘌呤核苷酸、10至50个腺嘌呤核苷酸、或15至25个腺嘌呤核苷酸。在一些实施例中，聚A尾部包含约20个腺嘌呤核苷酸。

本文讨论的方法和组合物还通过使用包含本文所述的一种或多种修饰的核苷或核苷酸的gRNA提供用于基因编辑(例如，离体基因编辑)的方法和组合物。

虽然本部分中讨论的一些示例性修饰可以包括在gRNA序列内的任何位置，但是在一些实施例中，gRNA在其5'端或其附近包含修饰(例如，在其5'端的1-10、1-5或1-2个核苷酸内)。在一些实施例中，gRNA在其3’端处或附近(例如，在其3’端的1-10、1-5或1-2个核苷酸内)包含修饰。在一些实施例中，gRNA既在其5’端处或附近包含修饰又在其3’端处或附近包含修饰。例如，在一些实施例中，gRNA分子(例如体外转录的gRNA)包含与来自真核细胞中表达的基因的靶向结构域互补的靶结构域，其中所述gRNA分子在其5'端被修饰并包含3'聚A尾部。gRNA分子可以例如缺少5'三磷酸基团(例如，靶向结构域的5'端缺少5'三磷酸基团)。在一个实施例中，gRNA(例如，体外转录的gRNA)通过用磷酸酶(例如，牛小肠碱性磷酸酶)处理进行修饰以去除5’三磷酸酯基团，并且包含本文所述的3’聚A尾部。gRNA分子可以替代性地包含5'帽(例如，靶向结构域的5'末端包含5'帽)。在一个实施例中，gRNA(例如，体外转录的gRNA)含有本文所述的5'帽结构或帽类似物和3’聚A尾部。在一些实施例中，5'帽包含修饰的鸟嘌呤核苷酸，其经由5'-5'三磷酸键与gRNA分子的其余部分连接。在一些实施例中，5'帽包含通过任选修饰的5'-5'三磷酸键(例如，如上所述)连接的两个任选修饰的鸟嘌呤核苷酸。在一些实施例中，聚A尾部包含5至50个腺嘌呤核苷酸，例如5至40个腺嘌呤核苷酸、5至30个腺嘌呤核苷酸、10至50个腺嘌呤核苷酸、15至25个腺嘌呤核苷酸、少于30个腺嘌呤核苷酸、少于25个腺嘌呤核苷酸或约20个腺嘌呤核苷酸。

在仍然其他的实施例中，本披露提供了包含靶向结构域的gRNA分子，所述靶向结构域与来自真核细胞中表达的基因的靶结构域互补，其中所述gRNA分子包含3'聚A尾部，其包含少于30个腺嘌呤核苷酸(例如，少于25个腺嘌呤核苷酸、15个至25个腺嘌呤核苷酸或约20个腺嘌呤核苷酸)。在一些实施例中，这些gRNA分子在其5'端被进一步修饰(例如，所述gRNA分子通过用磷酸酶处理以除去5’三磷酸基团来修饰或被修饰以包含本文所述的5’帽)。

在一些实施例中，gRNA可以在3’末端U核糖处被修饰。例如，U核糖的两个末端羟基基团可以被氧化为醛基基团和核糖环的伴随开口，以提供如下所示的修饰的核苷：

其中“U”可以是未修饰的或修饰的尿苷。

在另一个实施例中，可以用如下所示的2’3’环状磷酸酯修饰3’末端U：

其中“U”可以是未修饰的或修饰的尿苷。

在一些实施例中，gRNA分子可以含有3’核苷酸，其可以例如通过掺入本文描述的一个或多个修饰的核苷酸而相对于降解进行稳定化。在该实施例中，例如，可以用修饰的尿苷,例如，5-(2-氨基)丙基尿苷和5-溴尿苷或用本文所述的任何修饰的尿苷替代尿苷；腺苷、胞苷和鸟苷可以用修饰的腺苷、胞苷和鸟苷，例如在8位上修饰，例如8-溴鸟苷或用本文所述的任何修饰的腺苷、胞苷或鸟苷来替换。

在一些实施例中，可以向gRNA中掺入糖-修饰的核糖核苷酸，例如其中2’OH-基团被选自以下项的基团置换：H、-OR、-R(其中R可以是例如烷基、环烷基、芳基、芳烷基、杂芳基或糖)、卤素、-SH、-SR(其中R可以是例如烷基、环烷基、芳基、芳烷基、杂芳基或糖)、氨基(其中氨基可以是例如NH₂；烷氨基、二烷氨基、杂环基氨基、芳氨基、二芳氨基、杂芳氨基、二杂芳氨基或氨基酸)；或氰基(-CN)。在一些实施例中，可以例如用硫代磷酸酯基团如本文描述的修饰磷酸骨架。在一些实施例中，gRNA的一个或多个核苷酸可以各自独立地是修饰的或未修饰的核苷酸，包括但不限于2’-糖修饰的如2’-O-甲基、2’-O-甲氧基乙基，或2’-氟修饰的，包括例如，2’-F或2’-O-甲基腺苷(A)、2’-F或2’-O-甲基胞苷(C)、2’-F或2’-O-甲基尿苷(U)、2’-F或2’-O-甲基胸苷(T)、2’-F或2’-O-甲基鸟苷(G)、2’-O-甲氧基乙基-5-甲基尿苷(Teo)、2’-O-甲氧基乙基腺苷(Aeo)、2’-O-甲氧基乙基-5-甲基胞苷(m5Ceo)、及其任何组合。

在一些实施例中，gRNA可以包括“锁”核酸(LNA)，其中2’OH-基团可以例如通过C1-6亚烷基或C1-6杂亚烷基桥连接至同一核糖的4’碳，其中示例性桥可以包括亚甲基、亚丙基、醚或氨基桥；O-氨基(其中氨基可以是例如NH₂；烷氨基、二烷氨基、杂环基氨基、芳氨基、二芳氨基、杂芳氨基或二杂芳氨基、乙二胺或聚氨基)和氨基烷氧基或O(CH₂)_n-氨基(其中氨基可以是例如NH₂；烷氨基、二烷氨基、杂环基氨基、芳氨基、二芳氨基、杂芳氨基或二杂芳氨基、乙二胺或聚氨基)。

在一些实施例中，gRNA可以包括修饰的核苷酸，其是多环的(例如，三环；和“解锁”形式，如二醇核酸(GNA)(例如，R-GNA或S-GNA，其中核糖被附接至磷酸二酯键的二醇单元置换)，或苏糖核酸(TNA，其中核糖被α-L-苏呋喃糖基(threofuranosyl)-(3’→2’)置换)。

通常，gRNA分子包括糖基核糖，它是具有氧的5元环。示例性修饰的gRNA可以包括但不限于核糖中氧的置换(例如，用硫(S)、硒(Se)或亚烷基，例如像亚甲基或亚乙基)；双键的添加(例如，以用环戊烯基或环己烯基置换核糖)；核糖的缩环(例如，以形成环丁烷或氧杂环丁烷的4元环)；核糖的扩环(例如，以形成具有另外的碳或杂原子的6元或7元环，例如像脱水己糖醇、阿卓糖醇、甘露醇、环己烷基、环己烯基以及吗啉代，其也具有氨基磷酸酯骨架)。尽管大多数的糖类似物改变被定位至2’位，其他位点也适于修饰，包括4’位。在一个实施例中，gRNA包含4’-S、4’-Se或4’-C-氨基甲基-2’-O-Me修饰。

在一些实施例中，可以将去氮杂核苷酸(例如，7-去氮杂-腺苷)掺入gRNA中。在一些实施例中，可以将O-和N-烷基化的核苷酸(例如，N6-甲基腺苷)掺入gRNA中。在一些实施例中，gRNA分子中的一个或多个或所有核苷酸是脱氧核苷酸。

miRNA结合位点

微小RNA(或miRNA)是天然存在的19-25个核苷酸长的细胞非编码RNA。它们结合至例如在mRNA的3’UTR中具有适当miRNA结合位点的核酸分子，并且下调基因表达。下调通过降低核酸分子稳定性或通过抑制翻译来实现。本文所披露的RNA种类(例如，编码Cas9的mRNA)可以例如在其3’UTR中包含miRNA结合位点。miRNA结合位点可以被选择为促进所选细胞类型中的表达下调。通过举例，掺入miR-122(一种在肝脏中丰富的微小RNA)的结合位点可以抑制感兴趣基因在肝脏中的表达。

IX.gRNA识别系统和数据库

本文描述了用于使用CRISPR/Cas9系统识别用于编辑等位基因的gRNA的系统、方法和计算机可读介质。本文进一步描述了用于实施或创建用于使用CRISPR/Cas9系统识别用于编辑等位基因的gRNA的数据库模式的系统、方法和计算机可读介质。gRNA识别系统允许用户(例如，执业医师或专业人员、临床协调员、医师或等位基因测序实验室技术人员)识别适于编辑特定等位基因的gRNA。如本文所述，用户可能想要编辑等位基因以增加靶向移植受体和靶向移植供体之间的等位基因匹配的数量。gRNA识别系统接收与来自受体的等位基因和来自潜在供体的等位基因有关的数据，并且从输入中识别不匹配的等位基因。然后，gRNA识别系统查询数据库以生成适合于编辑来自潜在供体的等位基因的gRNA列表。基于一个或多个标准对gRNA列表进行排序。gRNA识别系统还包括实施数据库模式，该数据库模式包括存储与例如等位基因、gRNA、单倍型和血统信息有关的数据的各种表。

构建数据库以存储迄今记录的每个HLA等位基因变体。这些HLA等位基因变体的记录可公开获得，例如参见：(http://hla.alleles.org/alleles/index.html,Robinson J,Halliwell JA,Hayhurst JH,Flicek P,Parham P,Marsh SGE,The IPD and IMGT/HLAdatabase:allele variant databases[IPD和IMGT/HLA数据库：等位基因变体数据库]，Nucleic Acids Research[核酸研究](2015)43:D423-431)。随着HLA等位基因变体的记录被更新，数据库可以被更新。使用该数据集，设计靶向可能存在于MHC基因座(HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5和HLA-DQB1)之一的特定单一等位基因的gRNA序列。使用公开可用的数据库(美国国家骨髓捐赠计划：https://bioinformatics.bethematchclinical.org/HLA-Resources/Haplotype-Frequencies/High-Resolution-HLA-Alleles-and-Haplotypes-in-the-US-Population/；https://bioinformatics.bethematchclinical.org/HLA-Resources/Haplotype-Frequencies/Jewish-High-Resolution-Haplotype-Frequencies/)，数据库还将单个等位基因和单倍型与通常存在且对识别这些单独的等位基因的人类受试者中的具有不同血统背景(即血统、种族、族裔背景)的人特异性的等位基因和单倍型交叉引用。在一个示例性实施例中，数据库可以包括以下数量的等位基因变体或更多(随着新患者识别的变体的数量随时间增加；列出每个基因座的当前数量的等位基因变体以提供在MHC基因座处的高度的多态性的实例)：HLA-A(3094个等位基因)、HLA-B(3865个等位基因)、HLA-C(2618个等位基因)、HLA-DRB1(1719个等位基因)、HLA-DRB3/4/5(95个等位基因)、HLA-DQB1(777个等位基因)。对于这些等位基因(并且随着数量增加，可能更多)，这个数据库中至少可以包括106234个gRNA。在一个示例性实施例中，与酿脓链球菌Cas9一起使用的gRNA的靶向结构域的长度是17或20个核苷酸。在一个示例性实施例中，与金黄色葡萄球菌Cas9一起使用的gRNA的靶向结构域的长度是20或24个核苷酸。在另一个实施例中，待使用的gRNA的靶向结构域的长度是15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。在数据库中，还可以包括在欧洲裔美国人(例如高加索人)、非裔美国人、亚洲人(包括太平洋岛民)、西班牙裔(如拉丁裔)人群和犹太裔血统人群中检测到的等位基因频率和常见单倍型。

使用该数据库，可以选择对数千个等位基因变体(如果有的话)中的单个等位基因高度特异性的gRNA，并且可以识别脱靶效应(等位基因特异性gRNA是否可能在人类染色体序列内的其他基因组基因座的其他等位基因上靶向失误)可被识别。此外，数据库可以识别靶向单个HLA基因座(例如，HLA-A)的gRNA，该单个HLA基因座不具有等位基因特异性，将支持用相同gRNA进行双等位基因破坏。在一个示例性实施例中，来自数据库的等位基因变体、gRNA和血统数据可以与公众可获得的国内和国际脐血和骨髓供体造血干细胞/祖细胞注册相关联，以便交叉参考和识别错配的、部分匹配或单倍体相同的HSPC供体。可以用CRISPR/Cas9技术编辑错配的、部分匹配的或单倍体相同的HSPC供体细胞以改变HLA基因型，使得供体细胞随后匹配需要异基因HSPC移植用于疾病治疗的受体受试者，但是对于这些受体受试者，不编辑错配的或部分匹配的供体细胞，没有匹配的供体可以被识别。

用户(例如，执业医师或专业人员、临床协调员、医生或等位基因测序实验室技术人员)提供HLA定型，例如，靶向移植受体MHC基因座的两个HLA单倍型的DNA测序以识别与受体全部单倍型缔合的特异性等位基因变体。可以将完整的HLA单倍型信息录入脐血和骨髓干细胞注册，以搜索来自公共或私人干细胞供体数据库的具有最高HLA匹配度(在两个染色体拷贝上匹配的等位基因的最大数量)的潜在供体。基于与从公共/私人数据库查找的移植受体匹配程度最高的可用供体，用户或系统可以确定需要编辑的等位基因以提高HLA匹配水平。一旦编辑，供体细胞有可能符合同异基因HSCT的标准，并且具有降低的GVHD发生的可能性和/或严重性。本文所述的gRNA识别系统允许用户找到可编辑特定等位基因的gRNA，而不靶向存在于供体基因组DNA中的其他等位基因。gRNA识别系统生成可用于编辑等位基因的gRNA列表。用户可以使用列表中的一个或多个gRNA来破坏或敲除不匹配的等位基因，并且然后用供体细胞中的受体特异性等位基因敲入或替换不匹配的等位基因。

如果两个潜在的供体具有相似水平的MHC匹配(例如，4/6)，并且可以选择任一个来校正错配的MHC等位基因以改善供体与受体之间的匹配(例如，达到5/6匹配)，则用户可以交叉参考MHC限制的血统数据库中最常见的次要组织相容性抗原(miHAg)。MiHAg在本领域是众所周知的。参见例如Spierings等人，PLOS Genetics[公共科学图书馆遗传学]，3(6):1108-1119,2007；Spierings,Tissue Antigens[组织抗原]，84:347-360,2014；和Spierings等人，Biol.Blood Marrow Transplant[血液和骨髓移植生物学]，19:1244-1253,2013。用户可以使用血统数据库将潜在的“校正的”MHC单倍型与限制于潜在的“校正的”MHC抗原的miHAg交叉参考(例如，可以由出现在供体细胞中的“校正”的MHC受体限制的供体miHAg，由此导致宿主抗移植排斥)。由于这些miHAg在血统组中差异化存在，因此将两个潜在的供体与血统组中的miHAg交叉参考允许用户选择更好的MHC等位基因来纠正和选择更合适的供体。在这个实例中，当用户面对选择两个等位基因之一进行校正的选项时，用户可以使用gRNA识别系统中的血统数据库中的信息，基于1)在移植受体的血统组中发现的更常见的MHC基因座，和2)在供体/受体错配的MHC间MHC限制的miHAg，做出选择哪个供体用于MHC校正的合理的决定。这与供体和受体之间在miHAg上的基因差异也影响异基因HSCT的结果有关。已经显示预测的次要组织相容性抗原错配的程度与不太有利的临床结果相关，尤其是在非消融性alloHSCT的情况下(Larsen等人，Biol Blood Marrow Transplant[血液和骨髓移植生物学](2010),16(10:1370-81))。因此，将供体MHC单倍型与血统数据库进行交叉参考，该数据库指示限制于特定血统组中常见的miHAg的MHC单倍型可以进一步改善allo-HSCT的结果。

使用包括迄今为止记录(hla.alleles.org)的HLA等位基因变体的公开可用的数据集，建立了一个数据库并确立使其包含gRNA序列，所述gRNA序列对已针对HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5和HLA-DQB1基因座报道的单个等位基因设计并将每个等位基因交叉参考至这些单个等位基因所代表的人类受试者的血统(Marsh,S.G.E.(2015),Nomenclature for factors of the HLA system[HLA系统因素的命名]，2015年3月更新.Tissue Antigens[组织抗原].doi:10.1111/tan.12581；Maiers M等人，Hum.Immunol.[人类免疫学]2007；68(9):779-788)(对于等位基因特异性gRNA实例和详细的数据库设计，参见“gRNA”和“实例”部分)。以下数量的等位基因变体(例如迄今为止发现的等位基因总数。当识别了新的变体时，可以添加额外的等位基因)被包括在了该数据库中：HLA-A(3094个等位基因)、HLA-B(3865个等位基因)、HLA-C(2618个等位基因)、HLA-DRB1(1719个等位基因)、HLA-DRB3/4/5(95个等位基因)、HLA-DQB1(777个等位基因)。使用该数据库，可以选择对千分之一的在数据库中出现的等位基因变体特异性的gRNA(如果有的话)。另外，本文所述的数据库可以识别和分级靶向单个HLA基因座的gRNA，该单个HLA基因组没有允许用一种或多种gRNA进行双等位基因破坏的等位基因特异性。等位基因变体、gRNA和血统可以与当前的脐血和骨髓供体注册相关联，用于交叉参考并识别可以随后用CRISPR-Cas9修饰的部分匹配的供体，以便产生更完全匹配的供体用于受体受试者的allo-HSCT。

使用DNA序列检索算法可以识别用于与酿脓链球菌、金黄色葡萄球菌和脑膜炎奈瑟氏菌Cas9分子一起使用的指导RNA(gRNA)。使用基于公共工具cas-offinder(Bae等人(2014)Bioinformatics[生物信息学]30(10):1473-5)的定制指导RNA设计软件设计。该定制gRNA设计软件在计算gRNA的全基因组脱靶倾向之后为指导物打分。典型地，针对长度范围从17至24的指导物考虑范围从完美匹配至7个错配的匹配。一旦经计算确定了脱靶位点，便计算每种指导物的总分并且使用web界面以表格输出总结。除了识别与PAM序列相邻的潜在gRNA位点之外，软件还通过每个MHC基因座的全部基因组序列识别所有PAM相邻序列，其与选定的gRNA位点相差1、2、3或更多个核苷酸。从UCSC基因组浏览器获得每个基因的基因组DNA序列，并且使用可公开获得的RepeatMasker程序针对重复元件对序列进行筛选。RepeatMasker针对重复元件和具有低复杂性的区域对输入DNA序列进行检索。输出是存在于给定查询序列中的重复的详细注释。

在识别了靶向用于基因编辑的感兴趣的MHC等位基因的gRNA之后，基于以下标准进一步对gRNA分级：1)到靶位点的距离，2)5'G的存在，和3)基于正交性分数，或识别在含有相关PAM的人类基因组中的近似匹配(例如，在酿脓链球菌的情况下，是NGG PAM；在金黄色葡萄球菌的情况下，是NNGRRT或NNGRRV PAM；并且在脑膜炎奈瑟氏菌的情况下，是NNNNGATT或NNNNGCTT PAM)。正交性是指在人类基因组中含有与靶序列最小数量的错配的序列的数量。“高水平的正交性”或“良好的正交性”可以例如是指20-mer gRNA，其除预期靶标之外在人类基因组中既没有一致序列，又没有包含靶序列中的一个或两个错配的任何序列。具有良好正交性的靶向结构域被选择用于最小化脱靶DNA切割。

相应地，本文描述的gRNA识别系统的示例性实施例允许用户搜索靶向单个等位基因的、不会靶向其他等位基因的gRNA，例如在六个HLA基因座处。通过将查询输入改变为特定的等位基因标识，gRNA识别系统也可用于查询特定的等位基因。示例性实施例提供了用于识别用于编辑等位基因的gRNA的系统和方法。示例性实施例还提供了用于实施gRNA识别系统的数据库模式的非暂时性计算机可读介质和系统。

非暂时性计算机可读存储介质存储由处理设备执行的用于实施下面描述的数据库模式的指令。用于实施数据库模式的系统包括处理器和存储下面描述的数据库模式的存储器。非临时性计算机可读介质存储由处理设备执行的指令，其中指令的执行使得处理设备根据下面描述的数据库模式来创建数据库。

数据库模式包括存储与主要HLA等位基因有关的数据的等位基因表和存储与gRNA有关的数据的gRNA表。数据库模式还包括等位基因-gRNA-关系表，其存储等位基因表的记录与gRNA表的记录之间的关系，其中等位基因表与等位基因-gRNA-关系表具有一对多关系，并且gRNA表与等位基因-gRNA-关系表具有一对多关系。数据库模式还包括存储与单倍型相关的数据的单倍型表，其中等位基因表与单倍型表具有一对多关系。数据库模式还包括单倍型-频率表，其存储与在多种血统内发生的单倍型频率有关的数据，其中单倍型表与单倍型-频率表具有一对一关系。存储与血统有关的数据的血统表也包含在数据库模式中。

数据库模式还包括存储单倍型-频率表的记录与血统表的记录之间的关系的血统-单倍型-关系表，其中单倍型-频率表与血统-单倍型-关系表具有一对多关系并且血统表与血统-单倍型-关系表具有一对多关系。数据库模式还包括等位基因频率表，该等位基因频率表存储与在多种血统中发生的等位基因的频率有关的数据，其中等位基因表与等位基因频率表具有一对一关系。数据库模式还包括等位基因-血统-关系表，其存储等位基因频率表的记录与血统表的记录之间的关系，其中等位基因频率表与等位基因-血统-关系表具有一对多关系并且血统表与等位基因-血统-关系表具有一对多关系。

数据库还可以包括存储与次要组织相容性抗原有关的数据的次要-抗原表和主要-次要-限制表，该表存储与对次要组织相容性抗原的HLA限制相关的数据。次要抗原表与主要-次要-限制表具有一对多关系，并且等位基因表与主要-次要-限制表具有一对多关系。

等位基因表包含等位基因id密钥、等位基因属性、基因名称属性和等位基因序列属性。gRNA表包含gRNA id密钥、Cas变体属性、gRNA序列(具有PAM)属性、gRNA序列(无PAM)属性、链属性、正交性分数属性以及脱靶列表信息属性。等位基因-指导-关系表包含关系id密钥、与等位基因表的等位基因id密钥对应的等位基因id属性、和与gRNA表的gRNA id密钥对应的gRNA id属性。单倍型表包含单倍型id密钥、HLA-A等位基因属性、HLA-B等位基因属性、HLA-C等位基因属性、HLA-DRB1基因座属性、HLA-DRB3/DRB4/DRB5基因座属性、和HLA-DQB1等位基因基因座属性。

单倍型频率表包含单倍型频率id密钥、与单倍型表的单倍型id密钥对应的单倍型id属性、在欧洲人血统组中单倍型出现频率的属性、在欧洲人血统组中单倍型出现排序的属性、在非裔美国人血统组中单倍型出现频率的属性、在非裔美国人血统组中单倍型出现排序的属性、在亚洲人血统组中单倍型出现频率的属性、在亚洲人血统组中单倍型出现排序的属性、在西班牙裔血统组中单倍型出现频率的属性、在西班牙裔血统组中单倍型出现排序的属性、在犹太人血统组中单倍型出现频率的属性、以及在犹太人血统组中单倍型出现排序的属性。

等位基因频率表包含等位基因频率id密钥、对应于等位基因表的等位基因id密钥的等位基因id属性、在欧洲人血统组中等位基因出现频率的属性、在欧洲人血统组中等位基因出现排序的属性、在非裔美国人血统组中等位基因出现频率的属性、在非裔美国人血统组中等位基因出现排序的属性、在亚洲人血统组中等位基因出现频率的属性、在亚洲人血统组中等位基因出现排序的属性、在西班牙裔血统组中等位基因出现频率的属性、在西班牙裔血统组中等位基因出现排序的属性、在犹太人血统组中等位基因出现频率的属性、以及在犹太人血统组中等位基因出现排序的属性。

等位基因频率表与等位基因表具有标识关系，并且完全依赖于等位基因表。单倍型频率表与单倍型表具有标识关系，并且完全依赖于单倍型表。

用于识别用于编辑一个或多个等位基因的gRNA的系统包括处理器和存储指令的存储器，所述指令在被执行时使得处理器实施下面描述的方法。该方法还可以在用于识别用于编辑一个或多个等位基因的gRNA的计算系统中执行。

该方法包括经由计算系统的界面接收靶向移植受体的第一多个等位基因的列表，并且经由计算系统的界面接收靶向移植供体的第二多个等位基因的列表。该方法通过处理第一和第二多个等位基因的列表以识别第一多个等位基因和第二多个等位基因之间的一个或多个错配等位基因，并且查询数据库以确定一个或多个gRNA是否适合于编辑第二多个等位基因的一个或多个错配等位基因来继续。响应于确定来自所述数据库的一个或多个gRNA适合于编辑所述一个或多个错配的等位基因，产生识别被认定为合适的所述一个或多个gRNA的gRNA列表。对gRNA列表进行排序并进行显示。

该方法还可以包括显示第一多个等位基因的每个的DNA序列。数据库存储指示种族群体中出现等位基因的可能性的数字。该方法还可以包括显示在血统内的第一多个等位基因中的每一个的出现频率。该方法可以进一步包括显示第一多个等位基因中的每一个与次要组织相容性抗原之间的限制性关系。第一多个等位基因可以是靶向移植受体的母系遗传的主要HLA单倍型，并且第二多个等位基因可以是靶向移植供体的母系遗传的主要HLA单倍型。第一多个等位基因的列表包含一个等位基因、两个等位基因、三个等位基因、四个等位基因、五个等位基因、六个等位基因、七个等位基因或八个等位基因。第二多个等位基因的列表包含一个等位基因、两个等位基因、三个等位基因、四个等位基因、五个等位基因、六个等位基因、七个等位基因或八个等位基因。

gRNA列表识别一个用于编辑一个错配的等位基因的gRNA。gRNA列表可以识别多于一个用于编辑多于一个错配的等位基因的gRNA。gRNA列表可以识别一个用于编辑多于一个错配的等位基因的gRNA。

来自gRNA列表的gRNA能够编辑来自靶向移植供体的第二多个等位基因的错配等位基因以增加第一多个等位基因和第二多个等位基因之间的匹配等位基因的数量。来自gRNA列表的gRNA能够编辑一个或多个错配的等位基因以降低在靶向移植受体中发生移植物抗宿主病(GVHD)的可能性。

图24是示出根据示例性实施例以模块实现的gRNA识别系统2400的框图。这些模块可以在图33中所示的设备1010中实现。这些模块包括输入模块2410、查询模块2420、排序模块2430和数据库管理模块2440。这些模块可以包括被配置为由包括在设备1010中的一个或多个处理器执行的各种电路、电路系统以及一个或多个软件组件、程序、应用程序或其他单元的编码基数或指令。在其他实施例中，模块2410、2420、2430、2440中的一个或多个可被包括在服务器1020中，而模块2410、2420、2430、2440中的其他模块被提供在设备1010中或作为数据库管理系统1040的一部分。尽管在图24中，模块2410、2420、2430和2440被示出为不同的模块，应该理解的是，模块2410、2420、2430和2440可以被实现为比所示的更少或更多的模块。应该理解的是，模块2410、2420、2430和2440中的任一个可以与包括在系统3300(图33)中的一个或多个组件(例如设备3310、服务器3320、数据库管理系统3340或一个或多个数据库3350)通信。

输入模块2410可以被配置为管理和分析从与设备(例如设备3310)相关联的界面接收到的输入。该输入可以包括靶向移植受体的第一组等位基因的列表和靶向移植供体的第二组等位基因的列表。输入还可以包括与靶向移植受体和/或靶向移植供体的单倍型有关的信息、靶向移植受体和/或靶向移植供体的血统信息。输入模块2410还可以被配置成识别靶向移植受体的等位基因与靶向移植供体的等位基因之间的一个或多个错配等位基因。

查询模块2420可以被配置为分析输入和错配的等位基因，并且查询数据库以确定数据库中的一个或多个gRNA是否适合于编辑错配的等位基因。查询模块2420还可以被配置为从数据库生成适合于编辑所识别的一个或多个错配等位基因的gRNA列表。

排序模块2430可以被配置为分析gRNA列表并且基于各种标准对列表排序。例如，可以基于它们各自对非靶向等位基因的脱靶效应对gRNA列表中的单个gRNA进行排序。数据库管理模块2440可以被配置为访问和管理存储与等位基因、单倍型、gRNA、血统和其他信息有关的信息的数据库。

图25是示出根据示例性实施例用于识别用于编辑等位基因的gRNA的示例性方法2500的流程图。方法2500可以使用图24所示的gRNA识别系统2400中的模块来执行。示例性方法2500在步骤2502处以输入模块2410接收靶向移植受体的第一组等位基因的列表开始。在一个示例性实施例中，第一组等位基因可以是靶向移植受体的母本遗传的主要HLA单倍型或靶向移植受体的父本遗传的主要HLA单倍型。如本文所使用的，单倍型是指不同HLA基因的一组等位基因。

在步骤2504，输入模块2410接收靶向移植供体的第二组等位基因的列表。在一个示例性实施例中，第二组等位基因可以是将靶向潜在HSC供体的基因编辑的母系遗传的主要HLA单倍型(例如，在一条染色体上包含HLA-A/-B/-DRB1的MHC基因座的组)或父本遗传的主要HLA单倍型(例如，在另一条染色体上包含HLA-A/-B/-DRB1的MHC基因座的组)。作为移植受体的输入而接收到的信息的类型决定了作为移植供体的输入所接收的信息的类型，反之亦然。

在一些实施例中，输入模块2410可以接收与移植受体和供体的血统信息、移植受体和供体的性别和年龄信息有关的输入。

示例性方法2500进行到步骤2506，其中输入模块2410处理所接收的输入以识别第一组等位基因和第二组等位基因之间的一个或多个错配的等位基因。可以基于来自第一组等位基因和第二组等位基因的每个等位基因的比较来识别错配的等位基因。如本文所使用的，错配的等位基因是指来自移植供体的等位基因，其不同于移植受体的相应等位基因。在一些实施例中，可能有一个错配的等位基因。在其他的实施例中，可能由多个错配的等位基因。输入模块2410可以存储所识别的不匹配的等位基因的记录以供进一步处理。

在步骤2508中，查询模块2420查询数据库以确定来自数据库的gRNA是否适合编辑移植供体的一个或多个错配的等位基因。在一个示例性实施例中，数据库可以根据关于在下面描述的图27A、27B和27C描述的数据库模式2700和2700’来实现。数据库可以存储与等位基因和gRNA有关的信息。如上所述，gRNA识别系统有助于识别适合于编辑移植供体的一个或多个等位基因的gRNA，使得供体等位基因可以与移植受体的等位基因相匹配。在步骤2510中，查询模块2420确定gRNA是否适合于编辑移植供体的一个或多个错配的等位基因。如果gRNA合适，则在步骤2512将其添加到合适的gRNA的生成列表中。如果数据库中存在更多的gRNA(步骤2514)，则重复该过程并相对于数据库中的每个gRNA查询数据库，以确定gRNA是否适合编辑移植供体的一个或多个等位基因，使得供体等位基因可以匹配移植受体的等位基因。将所识别的任何合适的gRNA添加到生成的列表中。在一些实施例中，多种gRNA可用于编辑错配的供体等位基因。在其他的实施例中，可能有一个或没有gRNA可用于编辑错配的供体等位基因。在示例性实施例中，如果存在多于一个错配的等位基因，则查询模块2420首先识别可以编辑所有错配的等位基因的gRNA。然后，查询模块2420识别可以编辑至少一个错配的等位基因的gRNA。以这种方式，当一个gRNA可以用于编辑所有错配的等位基因，而不需要多个gRNA来编辑所有的错配等位基因时，gRNA识别系统2400可以向用户提供高效的gRNA选择。当所有合适的gRNA已被添加到生成的列表中时，排序模块2430基于在步骤2516中的某些标准对gRNA列表进行排序。例如，可以基于它们在非靶向等位基因上的脱靶效应或其缺乏对gRNA进行排序。排序过程在下面关于图26的部分中进一步做了描述。

在步骤2518中，经由显示设备(例如，在关于图33时描述的可视显示设备3418)将合适的gRNA的排序列表显示给用户。在一个示例性实施例中，也显示了每个受体的等位基因的DNA序列。在另一示例性实施例中，显示了血统内的每个受体的等位基因(第一组等位基因)的出现频率。在另一个示例性实施例中，显示了由受体的MHC和供体的MHC限制的miHAg。

在非限制性实例中，受体(第一组等位基因)与供体(第二组等位基因)之间可能存在一个(单个或单一)错配的等位基因。在这种情况下，gRNA识别系统可以识别一个gRNA来编辑一个错配的等位基因。在另一个非限制性实例中，受体(第一组等位基因)与供体(第二组等位基因)之间可能存在多于一个错配的等位基因。在这种情况下，gRNA识别系统可以识别多个gRNA以编辑多个错配的等位基因。在这个实例中，错配的等位基因可以是连续的或不连续的。在另一个非限制性实例中，受体(第一组等位基因)与供体(第二组等位基因)之间可能存在多于一个错配的等位基因。在这种情况下，gRNA识别系统可以识别一个(单个或单一)gRNA以编辑多个错配的等位基因。在这个实例中，错配的等位基因可以是连续的或不连续的。

图26是示出根据示例性实施例用于排序gRNA的示例性方法2600的流程图。方法2600在步骤2602中以gRNA识别系统2400开始，该gRNA识别系统2400已经识别了适于编辑错配等位基因的潜在的gRNA(如关于图25所描述的)。在步骤2604中，基于来自数据库的每个潜在gRNA的错配、插入/缺失(indel)、染色质状态等，排序模块2430检索了先前确定的脱靶评分。在步骤2606中，排序模块2430基于检索到的脱靶评分例如错配、插入/缺失(indel)、染色质信息等对gRNA进行排序。在步骤2608中，经由显示设备(例如，在关于图34时描述的可视显示设备3418)将gRNA的排序列表显示给用户。

在示例性实施例中，基于存储在数据库中的每个gRNA的错配、插入/缺失(indel)、染色质信息等，排序模块2430确定了脱靶评分。这个分数与gRNA相关并被存储，因此可以在排序过程中被检索。基于与存储在数据库中的gRNA相关的脱靶评分或其他因素，排序模块2430对gRNA列表进行排序。在一些实施例中，通过将gRNA序列与人类基因组比对，并确定人类基因组与gRNA序列之间的错配来产生脱靶评分。

例如，gRNA识别系统可以用来优化在用户的靶序列之内的gRNA的选择，以跨基因组最小化总脱靶活性。在一个示例性实施例中，除了错配的数量之外，用于确定脱靶评分的算法允许由Cas9识别的原型间隔子邻近基序(PAM)序列的变化。例如，当确定潜在的脱靶位点时，Cas9的PAM识别的简并性可以被考虑在内。在酿脓链球菌Cas9的情况下，示例性算法首先编辑由对应于感兴趣的sgRNA序列和5'-NRG-3'PAM序列的20-bp序列组成的全部23-bpDNA序列。该示例性算法然后将所有编辑的序列与查询序列进行比较，并计算20-bp sgRNA序列中错配碱基的数量。参见Bae S.,Park J.和Kim J.-S.Cas-OFFinder:A fast andversatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases[Cas-OFFinder：一种快速而多功能的算法，其可以搜索Cas9 RNA指导的内切核酸酶的潜在脱靶位点].Bioinformatics[生物信息学]30,1473-1475(2014)。

在另一个实施例中，可以通过考虑人类基因组的染色质状态来确定脱靶评分。参见http://cheetah.bioch.virginia.edu/AdliLab/CROP-IT/about.html。

在又一个实施例中，可以对序列进行可能的CRISPR指导(例如，20个核苷酸，后面是PAM序列：NGG)的扫描，并在整个选择的基因组中扫描可能的脱靶匹配。例如，可以通过考虑错配总数、错配绝对位置(以适应接近PAM位点的错配的相对较高的干扰)以及错配之间的平均成对距离(以解释紧密相邻的错配在破坏指导-DNA相互作用中的空间影响)来计算脱靶分数。参见http://crispr.mit.edu/about。

在另一个示例性实施例中，用于确定脱靶分数的进程通过使用Bowtie 2(约翰斯·霍普金斯大学提供的现行的基因组索引项目)测试特异性以将识别的gRNA序列映射到生物染色体DNA的剩余部分。如果gRNA可以被映射到另一个序列，那么它有一个脱靶。在示例性实施例中，脱靶分数计算还可以考虑在序列的5'端的前6个碱基中的脱靶中允许的错配的数量。在又一个示例性实施例中，脱靶分数计算还可以考虑到靶序列的容许编辑距离(即，脱靶中允许的不匹配和indel的数量)。参见http://www.e-crisp.org/E-CRISP/aboutpage.html。

用户可以利用本文所述的gRNA识别系统来评估需要造血干细胞移植的期望的受体患者的部分HLA匹配供体。用户可以使用可用的骨髓和脐血数据库来识别潜在的部分匹配的供体或筛选与移植受体生物学相关的个体。用户可以从多个具有与MHC基因座高数量等位基因匹配的潜在供体中选择一个供体。优选相似族裔血统/祖先的供体，因为不同族裔血统/祖先的人有不同频率的受MHC限制的miHAg。如果在同一血统中存在多个潜在的供体，则用户可以使用本文所述的gRNA识别系统来查找MHC的频率，并且供体miHAg将被测序以选择具有最相似的miHAg概况的供体(例如，10个miHAg基因组)。如果供体有被“校正的”MHC(根据受体的MHC)限制的miHAg，则不能选择该供体。

图27A示出了根据示例性实施例，gRNA识别系统的示例性数据库模式2700。示例性数据库模式2700包括等位基因表2705、gRNA表2710、等位基因-gRNA-关系表2715、单倍型表2720、单倍型-频率表2725、血统表2730、血统-单倍型关系表2735、等位基因-频率表2740和等位基因-血统-关系表2745。在一些实施例中，示例性数据库模式2700还包括次要抗原表2750和主要次要限制表2755。即使示例性数据库模式2700被示出为包括图27A中的11个表，应该理解的是，数据库模式2700可以包括更少或更多数量的表。

图27B和27C示出了根据示例性实施例的详细的用于gRNA识别系统的示例性数据库模式2700'。示例性数据库模式2700'使用MySQL来说明。数据库模式中的每个表都包含一个密钥和一个或多个属性。示例性数据库模式2700'包括等位基因表2705、gRNA表2710、等位基因-gRNA-关系表2715、单倍型表2720、单倍型-频率表2725、血统表2730、血统-单倍型-关系表2735、等位基因-频率表2740和等位基因-血统-关系表2745。在一些实施例中，示例性数据库模式2700还包括次要抗原表2750和主要次要限制表2755。即使示例性数据库模式2700被示出为包括图27B和27C中的11个表，应该理解的是，数据库模式2700可以包括更少或更多数量的表。

在一个示例性实施例中，gRNA(指导)表包含gRNA ID、没有原型间隔子邻近基序(PAM)的gRNA靶序列、有PAM的gRNA靶序列、Cas变体类型(一些gRNA对酿脓链球菌或金黄色葡萄球菌有特异性并且包含对这些Cas9变体特异性的靶向结构域长度)、基因组DNA链，靶向gRNA对其定向并与其结合(例如，+或-链)、正交性分数(人类基因组的脱靶命中分数的加权总和)、和脱靶计数(gRNA靶向或命中不被识别为具有不同数量的错配或indel的靶向基因座的其他基因组基因座的次数)。一个示例性等位基因表包含以下类别和相关数据：等位基因ID、等位基因标识符(HLA命名)、基因(基因座)名称和等位基因序列。一个等位基因频率表的实例包含在NBMP数据库中注释的欧洲裔美国人(高加索人)、非裔美国人、亚洲人、西班牙裔和犹太人群的频率记录ID、等位基因标识符、频率和等级(美国国家骨髓捐赠计划：https://bioinformatics.bethematchclinical.org/HLA-Resources/Haplotype-Frequencies/High-Resolution-HLA-Alleles-and-Haplotypes-in-the-US-Population/；https://bioinformatics.bethematchclinical.org/HLA-Resources/Haplotype-Frequencies/Jewish-High-Resolution-Haplotype-Frequencies/)。

等位基因表2705存储与主要HLA等位基因有关的数据。在一个示例性实施例中，使用来自公众可获得的HLA等位基因数据库(发现于：http://hla.alleles.org/alleles/text_index.htm)的数据填充等位基因表2705。在一些实施例中，等位基因表2705存储与HLA等位基因变体序列相关的数据。等位基因表2705包含等位基因id密钥、等位基因属性、基因名称属性和等位基因序列属性。

gRNA表2710存储与gRNA有关的数据。在一些实施例中，如上所述设计gRNA以编辑等位基因。在一个实施例中，gRNA表2710包括gRNA id密钥、gRNA类型属性、具有原型间隔子邻近基序(PAM)属性的gRNA序列、gRNA序列(无PAM)属性、链属性、正交性分数属性和脱靶列表信息属性。

等位基因-gRNA-关系表2715存储等位基因表2705的记录与gRNA表2710的记录之间的关系。在示例性数据库模式2700中，等位基因表2705与等位基因-gRNA-关系表2715具有一对多关系。gRNA表2710与等位基因-gRNA-关系表2715具有一对多关系。在一个实施例中，等位基因-指导-关系表包含关系id密钥、与等位基因表的等位基因id密钥对应的等位基因id属性、与gRNA表的gRNA id密钥对应的gRNA id属性。

单倍型表2720存储与单倍型有关的数据。单倍型是从单个亲本一起遗传的一组基因或等位基因。等位基因表2705与单倍型表具有一对多关系。单倍型表2720包含单倍型id密钥、HLA-A等位基因属性、HLA-B等位基因属性、HLA-C等位基因属性、HLA-DRB1基因座属性、HLA-DRB3/DRB4/DRB5基因座属性、HLA-DQB1等位基因基因座属性。

单倍型-频率表2725存储与血统内发生的单倍型的频率有关的数据。单倍型表2720与单倍型-频率表2725具有一对一关系。在一个实施例中，单倍型-频率表2725包括单倍型频率id密钥、与单倍型表2720的单倍型id密钥相对应的单倍型id属性、欧洲血统组中单倍型出现频率的属性以及欧洲血统组中单倍型发生等级的属性。单倍型-频率表2725还可以包括：在非裔美国人血统组中单倍型出现频率的属性、在非裔美国人血统组中单倍型出现排序的属性、在亚洲人血统组中单倍型出现频率的属性、在亚洲人血统组中单倍型出现排序的属性、在西班牙裔血统组中单倍型出现频率的属性、在西班牙裔血统组中单倍型出现排序的属性、在犹太人血统组中单倍型出现频率的属性、以及在犹太人血统组中单倍型出现排序的属性。单倍型频率表2725与单倍型表2720具有标识关系，并且完全依赖于单倍型表2720。

血统表2730存储与多个族裔血统或祖先有关的数据。在示例性实施例中，血统表2730存储与欧洲血统组、非裔美国人血统组、亚洲血统组、西班牙裔血统组和犹太血统组有关的数据。血统起源表2730可以包含血统id密钥和血统名称属性。

血统-单倍型-关系表2735存储单倍型-频率表2725的记录与血统表2730的记录之间的关系。单倍型-频率表2725与血统-单倍型-关系表2735具有一对多关系。血统表2730与血统-单倍型-关系表2735具有一对多关系。在一个实施例中，血统-单倍型-关系表2735包括id密钥、与血统表2730的血统id密钥对应的血统id属性、以及与单倍型-频率表2725的单倍型id密钥对应的单倍型id属性。

等位基因-频率表2740存储与血统内发生的等位基因频率有关的数据。等位基因表2705与等位基因频率表具有一对一关系。在一个实施例中，等位基因频率表2740包含等位基因频率id密钥、对应于等位基因表的等位基因ID的等位基因属性、在欧洲人血统组中等位基因出现频率的属性、在欧洲人血统组中等位基因出现排序的属性、在非裔美国人血统组中等位基因出现频率的属性、在非裔美国人血统组中等位基因出现排序的属性、在亚洲人血统组中等位基因出现频率的属性、在亚洲人血统组中等位基因出现排序的属性、在西班牙裔血统组中等位基因出现频率的属性、在西班牙裔血统组中等位基因出现排序的属性、在犹太人血统组中等位基因出现频率的属性、以及在犹太人血统组中等位基因出现排序的属性。等位基因频率表2740与等位基因表2705具有标识关系，并且完全依赖于等位基因表2705。

等位基因-血统-关系表2745存储等位基因频率表2740的记录与血统表2730的记录之间的关系。等位基因-频率表2740与等位基因-血统-关系表2745具有一对多关系。血统表2730与等位基因-血统-关系表2745具有一对多关系。在一个实施例中，等位基因-血统-关系表2745包括等位基因-血统id密钥、与等位基因-频率表2740的等位基因id密钥对应的等位基因id属性、以及与血统表2730的血统id密钥对应的血统id属性。

次要抗原表2750存储与次要组织相容性抗原(miHAg)有关的数据。在一个实施例中，次要抗原表2750包括miHAg id密钥、miHAg名称属性、miHAg基因属性、染色体属性、免疫原性等位基因属性、非免疫原性等位基因属性和免疫原性表型属性。

主要次要限制表2755存储关于对miHAg的HLA限制的数据。次要抗原表2750与主要次要限制表2755具有一对多关系。等位基因表2705与主要次要限制表2755具有一对多关系。在一个实施例中，主要-次要-限制表2755包括主要-次要id密钥，与等位基因表2705的等位基因id密钥对应的主要id属性、以及对应于次要-抗原表2750的miHAg id密钥的次要id属性。

尽管表2705、2710、2715、2720、2725、2730、2735、2740、2745、2750和2755中的每一个被描述为具有特定的密钥和特定属性，但是应当理解的是，每个表可以被配置为具有不同的密钥或不同数量的密钥，和/或不同的属性或不同数量的属性。

表1-12示出了可以存储在结合图27A、27B、27C所描述的数据库模式2700或2700'的一个或多个表中的示例性数据，例如单倍型表2720和/或单倍型频率表2725。

图28A示出了根据示例性实施例的对gRNA识别系统的示例性等位基因输入。第一组等位基因，即靶向移植受体的等位基因可以是等位基因2802。第二组等位基因，即靶向移植供体的等位基因可以是等位基因2804。从图28A中可以看出，存在等位基因2802和等位基因2804之间的错配，其由方框2805示出。如所示，供体等位基因A*02:01:01:01与受体等位基因A*01:01:01:01不匹配。gRNA识别系统可用于识别可编辑该错配的供体等位基因以使其与受体等位基因匹配的gRNA。这个示例性输入/情景可以被称为“敲除单个等位基因”。如上所述，gRNA识别系统可以识别用于敲除单个等位基因的gRNA。

图28B示出了根据示例性实施例的对gRNA识别系统的示例性等位基因输入。在这个实例中，第一组等位基因，即受体的等位基因，可以是等位基因2812。第二组等位基因，即靶向移植供体的等位基因可以是等位基因2814。从图28B中可以看出，存在等位基因2802和等位基因2804之间的多个错配，其由框2815、2817和2819示出。如所示，供体等位基因A*02:01:01:01-B*08:01:01-DRB1*03:01不匹配受体等位基因A*03:01:01:01-B*07:02:01-DRB1*15:01:01:01。gRNA识别系统可用于识别可编辑这些错配的供体等位基因以使其与受体等位基因匹配的gRNA。这个示例输入/情景可以被称为“敲除多个等位基因”。如上所述，gRNA识别系统可识别用于敲除多个等位基因的单个gRNA或多个gRNA。

图28C示出了根据示例性实施例的对gRNA识别系统的示例性等位基因输入。在这个实例中，第一组等位基因，即受体的等位基因，可以是等位基因2822。第二组等位基因，即靶向移植供体的等位基因可以是等位基因2824。从图28C中可以看出，存在等位基因2802和等位基因2804之间的多个错配，其由框2825和2827示出。如所示，供体等位基因A*02:01:01:01和A*29:02:01:01不匹配受体等位基因A*01:01:01:01和A*23:01:01。gRNA识别系统可用于识别可编辑这些错配的供体等位基因以使其与受体等位基因匹配的gRNA。这个示例输入/情景可以被称为“双等位基因破坏”。如上所述，可以使用gRNA识别系统来识别用于双等位基因破坏的单个gRNA或多个gRNA。

以这种方式，gRNA识别系统能够接受具有单一错配等位基因(图28A)、多个连续错配等位基因(图28B)或多个非连续错配等位基因(图28C)的供体等位基因和受体等位基因。

图29示出了根据示例性实施例，用于gRNA识别系统的示例性查询或输入2900以及作为gRNA识别系统的输出的示例性gRNA列表2950。如上所述，用户可以输入或录入查询，其包括供体的一组等位基因和受体/患者的一组等位基因。如上所述，gRNA识别系统输出适合编辑供体等位基因的一个或多个错配等位基因的gRNA列表。如图29中所示，用户录入查询2900，并且gRNA识别系统生成gRNA列表2950作为输出。基于查询，gRNA识别系统靶向错配的等位基因，并在确定用于基因编辑的合适的gRNA时排除匹配的等位基因。在这个实例中，gRNA识别系统靶向A*02:01:01:01和A*29:02:01:01，因为它们是供体与患者之间的错配等位基因，而且等位基因B*08:01:01、DRB1*03:01:01:01、B*44:03:01和DRB1*07:01:01:01被排除，因为它们在供体和患者等位基因之间匹配。如图29所示，针对每个gRNA显示了脱靶分数(2910)，并且基于脱靶分数对列表进行了排序。gRNA序列(2905)也被显示。另外，将与每种gRNA一起使用的Cas9分子的类型显示为“类型”(2915)。“sa”是指来自金黄色葡萄球菌的Cas9分子，“spy”是指来自酿脓链球菌的Cas9分子。列出的每个gRNA所结合的链也显示为-链或+链(2920)。

如上所述，除了适合于编辑错配等位基因的gRNA列表之外，gRNA识别系统还可以提供其他的输出。图30示出了根据示例性实施例，示出作为gRNA识别系统的输出的等位基因序列的示例性表3000。等位基因序列可以是受体或供体或两者的一个或多个等位基因。

图31A图示了根据示例性实施例，示出作为gRNA识别系统的输出的单倍型频率的示例性表3100。基于血统显示单倍型的出现频率。图31B图示了根据示例性实施例，示出作为gRNA识别系统的输出的等位基因频率的示例性表3150。基于血统显示等位基因的出现频率。图32图示了示例性表3200，其显示了主要组织相容性复合体(MHC)作为gRNA识别系统的输出的次要组织相容性抗原(miHAg)限制。

在数据库和gRNA识别系统的示例性使用中，用户可以录入一个供体的有限的HLA基因型信息的查询。例如，有限的HLA基因型信息可以包括等位基因组和特定HLA蛋白质的信息。在另一个实例中，有限的HLA基因型信息可以包括关于等位基因组、特定HLA蛋白质和编码区内的同义DNA取代的信息。在有限的HLA基因型信息中，用户可能不包括在非编码区域中显示出差异的信息。

如果在查询中向数据库提供这种有限的HLA基因型信息，那么gRNA识别系统可以提供靶向等位基因的所有亚型的序列作为搜索结果用于进一步的研究，如比对。在另一个实例中，gRNA识别系统可以提供靶向等位基因的亚型的数量或百分比作为搜索结果，所述靶向等位基因具有对特定指导的靶向或脱靶位点，这可以指示该gRNA可编辑供体的未知靶HLA亚型的可能性。在又一个实例中，gRNA识别系统可以提供排除的等位基因的亚型的数量或百分比作为搜索结果，所述排除的等位基因具有对特定的gRNA的靶向或脱靶位点，其可以指示在供体中未知排除的HLA亚型中这种gRNA可能具有脱靶效应的可能性。

图33示出了根据示例性实施例的描绘用于实施gRNA识别系统3300的系统的网络图。系统3300可以包括网络3305、设备3310、服务器3320、数据库管理系统3340和一个或多个数据库3350。组件3310、3320、3340和3350中的每一个都与网络3305通信。

在示例性实施例中，网络3305的一个或多个部分可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线广域网(WWAN)、城域网(MAN)、互联网的一部分、公用交换电话网(PSTN)的一部分、蜂窝电话网络、无线网络、WiFi网络、WiMax网络、任何其他类型的网络，或者两个或更多个这样的网络的组合。

设备3310可以包括但不限于工作站、计算机、通用计算机、互联网设备、手持设备、无线设备、便携式设备、可穿戴计算机、蜂窝或移动电话、便携式数字助理(PDA)、智能手机、平板电脑、超极本、上网本、笔记本电脑、台式机、多处理器系统、基于微处理器的或可编程消费电子产品、小型计算机等。设备3310可以包括关于图34中所示的计算设备3400所描述的一个或多个组件。

设备3310可以通过有线或无线连接连接到网络3305。设备3310可以包括一个或多个应用程序或软件系统，例如但不限于此处描述的网页浏览器应用程序、数据库管理系统和gRNA识别系统。

在示例性实施例中，设备3310可以执行本文所描述的所有功能。在其他实施例中，gRNA识别系统可以被包括在设备3310上，并且服务器3320执行本文描述的功能。在又一个实施例中，设备3310可以执行一些功能，并且服务器3320执行本文描述的其他功能。

服务器3320、数据库管理系统3340和一个或多个数据库3350中的每一个经由有线连接连接到网络3305。可替代地，服务器3320、数据库管理系统3340和一个或多个数据库3350中的一个或多个可以经由无线连接连接到网络3305。服务器3320包括被配置为经由网络3305与设备3310、数据库管理系统3340和一个或多个数据库3350进行通信的一个或多个计算机或处理器。服务器3320托管由设备3310访问的一个或多个应用程序或网站和/或有助于访问一个或多个数据库3350的内容。数据库管理系统3340包括被配置为便于访问一个或多个数据库3350的内容的一个或多个计算机或处理器。一个或多个数据库3350包括用于存储由设备3310或服务器3320使用的数据和/或指令(或代码)的一个或多个存储设备。一个或多个数据库3350还可以存储根据关于图27A、27B和27C描述的数据库模式2700和2700’的数据。数据库管理系统3340、一个或多个数据库3350、和/或服务器3320可以位于彼此的或者来自设备3310的一个或多个地理上分布的位置处。可替代地，一个或多个数据库3350可以被包括在服务器3320内。

图34是可用于实施本文所述的gRNA识别系统2400的示例性实施例的示例性计算装置3400的框图。计算设备3400包括用于存储用于实施示例性实施例的一个或多个计算机可执行指令或软件的一个或多个非暂时性计算机可读介质。非暂时性计算机可读介质可以包括但不限于一种或多种类型的硬件存储器、非暂时性有形介质(例如，一个或多个磁存储盘、一个或多个光盘、一个或多个闪存盘)等。例如，计算设备3400中包括的存储器3406可以存储用于实施gRNA识别系统2400的示例性实施例的计算机可读和计算机可执行指令或软件。计算设备3400还包括可配置和/或可编程处理器3402和相关核3404，并且任选地包括一个或多个另外的可配置和/或可编程处理器3402'和相关核3404'(例如，在具有多个处理器/核的计算机系统的情况)，用于执行存储在存储器3406中的计算机可读和计算机可执行指令或软件以及用于控制系统硬件的其他程序。处理器3402和处理器3402'可以各自是单核处理器或多核(3404和3404')处理器。

可以在计算设备3400中采用虚拟化，使得可以动态地共享计算设备中的基础设施和资源。可以提供虚拟机3414来处理在多个处理器上运行的进程，使得该进程看起来似乎只使用一个计算资源而不是多个计算资源。多个虚拟机也可以与一个处理器一起使用。

存储器3406可以包括计算机系统存储器或随机存取存储器，诸如DRAM、SRAM、EDORAM等。存储器3406也可以包括其他类型的存储器，或其组合。

用户可以通过可以显示根据示例性实施例可以提供的一个或多个图形用户界面3422的可视显示设备3418(诸如计算机监视器)与计算设备3400交互。计算设备3400可以包括用于接收来自用户的输入的其他I/O设备，例如键盘或任何合适的多点触摸界面3408、指示设备3410(例如鼠标)、麦克风3428和/或图像捕捉设备3432(例如，相机或扫描仪)。多点触摸界面3408(例如，键盘、键板、扫描仪、触摸屏等)和指示设备3410(例如，鼠标、铁笔等)可以被耦合到视觉显示设备3418上。计算设备3400可以包括其他合适的常规I/O外围设备。

计算设备3400还可以包括一个或多个存储设备3424，例如，硬盘驱动器、CD-ROM、或其他的计算机可读介质，用于存储实现本文所述的gRNA识别系统2400的示例性实施例的数据和计算机可读指令和/或软件。示例性存储设备3424还可以存储用于存储实现示例性实施例所需的任何合适信息的一个或多个数据库。例如，示例性存储设备3424可以存储用于存储诸如等位基因序列、gRNA序列、单倍型、血统信息、miHAg信息、MHC信息脱靶分数和/或任何其他信息的信息的一个或多个数据库3426，这些信息将要在系统2400和数据库模式2700、2700’中使用。可以在任何合适的时间手动或自动更新数据库以添加、删除和/或更新数据库中的一个或多个项目。

计算设备3400可以包括网络界面3412，该网络界面3412被配置为通过一个或多个网络设备3420与一个或多个网络(例如局域网(LAN)、广域网(WAN)或互联网)通过各种连接(包括但不限于标准电话线、LAN或WAN链路(例如，802.11、T1、T3、56kb、X.25)、宽带连接(例如ISDN、帧中继、ATM)、无线连接、控制器区域网络(CAN)或上述任何或全部的一些组合)连接。在示例性实施例中，计算设备3400可以包括一个或多个天线3430以促进计算设备3400与网络之间的无线通信(例如，通过网络界面)。网络界面3412可以包括内置网络适配器、网络界面卡、PCMCIA网卡、卡总线网络适配器、无线网络适配器、USB网络适配器、调制解调器或适于将计算设备3400连接到任何类型的网络的任何其他的设备，该网络能够进行通信并执行本文所述的操作。此外，计算设备3400可以是任何计算机系统，诸如工作站、台式计算机、服务器、笔记本电脑、手持式计算机、平板电脑(例如iPad^TM平板电脑)、移动计算或通信设备(例如，iPhone^TM通信设备)、销售点终端机、内部企业设备或者其他形式的计算或电信设备，其能够通信并且具有足够的处理器能力和存储容量来执行本文所述的操作。

计算设备3400可以运行任何操作系统3416，诸如

操作系统的任何版本、Unix和Linux操作系统的不同版本、用于麦金塔(Macintosh)计算机的任何版本的/>

任何嵌入式操作系统、任何实时操作系统、任何开源操作系统、任何专有操作系统或能够在计算设备上运行并执行本文所述的操作的任何其他操作系统。在示例性实施例中，操作系统3416可以以本机模式或仿真模式运行。在示例性实施例中，操作系统3416可以在一个或多个云计算机实例上运行。

给出了以下描述以使本领域技术人员能够创建和使用计算机系统配置和相关方法以及制造物品来识别等位基因的gRNA。尽管为了识别与CRISPR/Cas9分子一起使用的gRNA，举例说明了本文所述的数据库模式，但是对于本领域技术人员显而易见的是，可以使用本文描述的数据库模式和gRNA识别方法来识别和选择可与其他核酸酶(如TALEN、Cpf1和锌指核酸酶)一起使用的序列。示例性实施例的各种修改对于本领域技术人员而言将是显而易见的，并且在不脱离本发明的精神和范围的情况下，本文所定义的一般原理可以应用于其他实施例和应用中。而且，在下面的描述中，出于解释的目的阐述了许多细节。然而，任一本领域的普通技术人员将认识到，可以在不使用这些具体细节的情况下实践本发明。在其他的情况下，以框图形式示出了公知的结构和进程，以便避免使不必要的细节模糊本发明的描述。因此，本披露不旨在限于所示出的实施例，而是应被赋予与本文披露的原理和特征一致的最宽的范围。

在描述示例性实施例时，为了清楚起见而使用了特定的术语。出于描述的目的，每个特定术语旨在至少包括以类似方式操作以实现相似目的的所有技术和功能等效物。另外，在特定示例性实施例包括多个系统元件、设备组件或方法步骤的一些情况下，可以用单个元件、组件或步骤来替换这些元件、组件或步骤。同样地，单个元件、组件或步骤可以被替换为用于相同目的的多个元件、组件或步骤。此外，虽然示例性实施例已经参照其特定实施例进行示出和描述，但是本领域普通技术人员将理解，在不脱离本发明的范围的情况下，可以在形式和细节上进行各种替换和更改。此外，其他实施例、功能和优点也在本发明的范围内。

本文提供了示例性流程图用于说明性目的，并且是方法的非限制性实例。本领域普通技术人员将认识到，示例性方法可以包括比示例性流程图中示出的步骤更多或更少的步骤，并且示例性流程图中的步骤可以按与图示的流程图中示出的顺序不同的顺序来执行。

实例

以下实例仅仅是说明性的，并不旨在以任何方式限制本发明的范围或内容。

实例1：gRNA的克隆和初始筛选

可以如在这个实例中所描述的评价候选gRNA的适合性。尽管针对嵌合gRNA进行了描述，所述途径也可以用于评价模块化gRNA。

将gRNA克隆进载体中

针对每种gRNA，设计并获得一对重叠寡核苷酸。使寡核苷酸退火并将其连接进含有上游U6启动子和长嵌合gRNA的剩余序列的经消化的载体骨架中。对质粒进行序列验证并制备以产生足够量的转染品质DNA。替代启动子可以用于驱动体内转录(例如，H1启动子)或用于体外转录(例如，T7启动子)。

将gRNA克隆进线性dsDNA分子中(STITCHR)

针对每种gRNA，设计并获得单个寡核苷酸。将U6启动子和gRNA支架(例如除靶向结构域包括一切，例如包括衍生自crRNA和tracrRNA的序列，例如包括第一互补结构域；连接结构域；第二互补结构域；近端结构域；和尾部结构域)分开地PCR扩增并纯化为dsDNA分子。在PCR反应中使用gRNA特异性寡核苷酸，以便将通过寡核苷酸中指定的靶向结构域连接的U6和gRNA支架缝在一起。将所得dsDNA分子(STITCHR产物)纯化用于转染。替代启动子可以用于驱动体内转录(例如，H1启动子)或用于体外转录(例如，T7启动子)。任何gRNA支架都可以用于创造与来自任何细菌物种的Cas9相容的gRNA。

初始gRNA筛选

将待测试的每种gRNA连同表达Cas9的质粒和少量的表达GFP的质粒转染进人类细胞中。在预实验中，这些细胞可以是永生人类细胞系，如293T、K562或U2OS。可替代地，可以使用原代人类细胞。在这种情况下，细胞可以与最终治疗细胞靶标(例如，红系细胞)有关。使用类似于潜在治疗靶细胞群的原代细胞可以提供关于在内源染色质和基因表达的背景下的基因靶向率的重要信息。

可以使用脂质转染(如Lipofectamine或Fugene)或通过电穿孔(如LonzaNucleofection^TM)进行转染。转染后，可以通过荧光显微法或通过流式细胞术确定GFP表达，以确认一致且高水平的转染。这些预转染可以包括不同的gRNA和不同的靶向途径(17-mer、20-mer、核酸酶、双切口酶等)，以确定哪些gRNA/gRNA组合给出最大活性。

可以通过T7E1类型测定或通过测序测量在靶基因座处的NHEJ诱导的indel形成来评估用每种gRNA进行切割的效率。可替代地，也可以使用其他错配敏感酶，如CelI/Surveyor核酸酶。

对于T7E1测定，PCR扩增子是大约500-700bp，其中预期切割位点不对称地置于扩增子中。对PCR产物进行扩增、纯化和尺寸验证后，通过加热至95℃并且然后缓慢冷却使DNA变性并重新杂交。然后用识别并切割非完全匹配DNA的T7内切核酸酶I(或其他错配敏感酶)消化杂交的PCR产物。如果indel存在于原始模板DNA中，当使扩增子变性并重退火时，这导致具有不同indel的DNA链杂交并且因此产生不完全匹配的双链DNA。可以通过凝胶电泳或通过毛细管电泳使消化产物可视化。被切割DNA的分数(切割产物的密度除以切割和未切割的密度)可以用于使用以下等式估计百分比NHEJ：％NHEJ＝(1-(1-切割的分数)^1/2)。T7E1测定对低至约2％-5％的NHEJ是敏感的。

代替或除T7E1测定之外，可以使用测序。对于Sanger测序，将经纯化的PCR扩增子克隆进质粒骨架中，转化，小量制备并用单个引物测序。Sanger测序可以用于在通过T7E1确定NHEJ率之后确定indel的确切性质。

也可以使用下一代测序技术进行测序。当使用下一代测序时，扩增子可以是300-500bp，其中预期切割位点不对称地放置。PCR后，可以将下一代测序衔接子和条形码(例如Illumina多元衔接子和索引)添加到扩增子的末端，例如用于在高通量测序(例如在Illumina MiSeq上)中使用。这种方法允许检测非常低的NHEJ率。

实例2：通过NHEJ评估基因靶向

可以选择在初始测试中诱导最大水平的NHEJ的gRNA用于基因靶向效率的进一步评价。在这种情况下，细胞来源于疾病受试者，并且因此具有相关突变。

转染后(通常是转染后2-3天)，可以从大量的转染细胞中分离基因组DNA，并且PCR可以用于扩增靶区域。PCR后，可以通过测序确定用于产生所希望突变(敲除靶基因或去除靶序列基序)的基因靶向效率。对于Sanger测序，PCR扩增子可以是500-700bp长。对于下一代测序，PCR扩增子可以是300-500bp长。如果目的是敲除基因功能，则测序可以用于评估多少百分比的等位基因已经经历导致将预期破坏基因功能的移码或大的缺失或插入的NHEJ诱导的indel。如果目的是去除特定序列基序，则测序可以用于评估多少百分比的等位基因已经经历跨越这个序列的NHEJ诱导的缺失。

实例3：通过HDR评估基因靶向

转染后(通常是转染后2-3天)，可以从大量的转染细胞中分离基因组DNA，并且PCR可以用于扩增靶区域。PCR后，可以通过几种方法测定基因靶向效率。

基因靶向频率的测定涉及测量如下等位基因的百分比，所述等位基因已经用外源提供的供体模板或内源基因组供体序列进行同源定向修复(HDR)并且因此已经掺入所希望的校正。如果所需的HDR事件创建或破坏限制酶位点，则基因靶向的频率可以通过RFLP测定来确定。如果没有创建或破坏限制性位点，则可以使用测序来确定基因靶向频率。如果使用RFLP测定，仍可使用测序来验证所需的HDR事件，并确保不存在其他突变。如果使用外源提供的供体模板，则将至少一个引物置于同源臂中包含的区域之外的内源基因序列中，这阻止了仍然存在于细胞中的供体模板的扩增。因此，供体模板中存在的同源臂的长度可以影响PCR扩增子的长度。PCR扩增子可以跨越整个供体区域(两个引物都置于同源臂外)，或者它们可以仅跨越供体区域的一部分以及供体DNA和内源DNA之间的单个结点(一个内部引物和一个外部引物)。如果扩增子跨越不到整个供体区域，则应使用两个不同的PCR来扩增和测序5'和3’连接。

如果PCR扩增子较短(小于600bp)，则使用下一代测序是可能的。PCR后，可以将下一代测序衔接子和条形码(例如Illumina多元衔接子和索引)添加到扩增子的末端，例如用于在高通量测序(例如在Illumina MiSeq上)中使用。这种方法允许检测非常低的基因靶向率。

如果PCR扩增子对于下一代测序来说太长，则可以进行Sanger测序。对于Sanger测序，经纯化的PCR扩增子将被克隆到质粒骨架中(例如，使用LifeTech Zero

克隆试剂盒克隆的TOPO)，转化，小量制备并测序。

可以使用上述相同或类似的测定来测量如下等位基因的百分比，所述等位基因已经用内源基因组供体序列进行HDR并且因此已经掺入所希望的校正。

实施例4：测试靶向CCR5基因座的金黄色葡萄球菌Cas9 gRNA

经遗传修饰以防止野生型CCR5基因产物表达的自体CD34⁺造血干细胞/祖细胞(HSPC)的移植防止通常易受HIV感染的HIV病毒HSPC子代的进入(例如巨噬细胞和CD4T-淋巴细胞)。临床上，移植在CCR5趋化因子受体的编码序列中含有遗传突变的HSPC已显示可长期控制HIV感染(Hütter等人，New England Journal Of Medicine[新英格兰医学期刊]，2009；360(7):692-698)。利用CRISPR/Cas9平台的基因组编辑精确地改变了内源基因靶标，例如通过在靶向切割位点产生可以导致在编辑的基因座处抑制基因表达的indel。在该实例中，基于第II部分(用于设计gRNA的方法)中所述的标准选择了11个金黄色葡萄球菌Cas9gRNA，进行基因组编辑(表23)。

用编码金黄色葡萄球菌Cas9的质粒DNA和编码不同金黄色葡萄球菌gRNA的寡核苷酸转染人293FT细胞(Life Technologies[生命技术公司])(Lipofectamine^TM，按照制造商的说明)，所述金黄色葡萄球菌gRNA在靶细胞中从U6启动子转录。基因组DNA在相对于转染的48小时和72小时的时间点分离，在gDNA上进行CCR5基因座PCR，并且通过T7E1内切核酸酶测定分析indel。显示的数值是2个技术重复的平均值+/-s.d.(图8)。为了检测CCR5基因座上的indel，对从转染的基因组DNA样品扩增的CCR5基因座特异性PCR产物进行T7E1测定，并且然后计算在CCR5基因座处检测到的indel的百分比。在接触金黄色葡萄球菌CCR5 gRNA和金黄色葡萄球菌Cas9质粒DNA的细胞中检测到高达40％的indel。

表23.金黄色葡萄球菌Cas9 gRNA靶序列

实例5：通过添加5'帽和3'聚A尾部来修饰gRNA增加了在靶遗传基因座上的基因组编辑并提高了CD34⁺细胞活力和存活率

在病毒-宿主共同进化期间，模拟mRNA加帽的病毒RNA加帽进化为允许病毒RNA逃脱细胞先天免疫系统的检测(Delcroy等人，2012,Nature Reviews Microbiology[自然综述微生物学]，10:51-65)。造血干细胞/祖细胞中的Toll样受体意识到外源单链和双链RNA的存在，其可导致先天免疫应答、细胞衰老和程序性细胞死亡(Kajaste-Rudnitski和Naldini,2015,Human Gene Therapy[人类基因治疗]，26:201-209)。最初实验的结果显示，与单独用GFP mRNA电穿孔的细胞相比较，用未经修饰的靶特异性gRNA和Cas9 mRNA电穿孔的人造血干细胞/祖细胞导致减小的细胞存活率、增殖潜力、多潜能性(例如红细胞分化潜力损失和倾斜的骨髓分化潜力)。为了解决这个问题，假设细胞衰老和细胞凋亡是由于靶细胞感应外源核酸和诱导先天性免疫应答以及随后诱导程序性细胞死亡和增殖和分化潜力的损失。

为了优化造血/干祖细胞中的基因组编辑并且为了测试这个假设，来自动员的外周血和骨髓的人类CD34⁺细胞用酿脓链球菌Cas9 mRNA电穿孔(使用Maxcyte设备)，所述酿脓链球菌Cas9 mRNA与HBB(HBB-8gRNA；SEQ ID NO:217)或AAVS1(gRNA AAVS1-1；SEQ IDNO:218)靶向的gRNA共同递送，该gRNA在体外在添加或不添加5’帽和3’聚-A尾部的情况下转录。

如图9-11所示，加帽和加尾的gRNA的电穿孔提高了人类CD34⁺细胞的存活率和活力。CD34+细胞用所示的未加帽/未加尾gRNA或带有成对Cas9mRNA(酿脓链球菌(Sp)或金黄色葡萄球菌(Sa)Cas9)的加帽/加尾的gRNA进行电穿孔。对照样品包括：单独用GFP mRNA电穿孔的细胞，或者不用电穿孔但在指定的时间范围内培养的细胞。

与用在体外转录以具有5’帽和3’聚A尾部的相同的gRNA序列电穿孔的细胞相比，用与单个未加帽和未加尾HBB或AAVS1 gRNA配对的Cas9电穿孔的人类CD34⁺细胞在培养中经过3天后展示出了降低的增殖潜力(图9)。通过比较总的活CD34⁺细胞在递送三天后的数量的增加倍数所测定，用Cas9 mRNA递送的其他的加帽的和加尾的gRNA(靶向至HBB(HBB-8gRNA；SEQ ID NO:217)、AAVS1(AAVS1-1 gRNA；SEQ ID NO:218)、CXCR4(CXCR4-231 gRNA；SEQ ID NO:214)和CCR5(CCR5-U43 gRNA；SEQ ID NO:216)基因组)没有消极地影响HSPC的活力、增殖或多潜能性。重要的是，接触加帽和加尾的gRNA和Cas9 mRNA的CD34⁺细胞的增殖潜力与接触GFP mRNA的细胞或未处理的细胞相比没有差异。在接触Cas9 mRNA和gRNA后72小时，细胞生命力的分析(通过与膜联蛋白V抗体进行7-氨基放线菌素D或碘化丙啶的共染色，然后进行流式细胞术分析)表明，接触加帽和加尾的gRNA的细胞在培养中扩增并保持活力，而接触未加帽和加尾的gRNA的HSPC表现出活细胞数量的减少(图10)。接触加帽和加尾的gRNA的活细胞(碘化丙啶阴性)也维持了CD34细胞表面标记的表达(图11)。

如图12、13、14A-14C、15A和15B所示，电穿孔Cas9 mRNA和加帽和加尾的gRNA支持在人CD34⁺细胞及其子代中的有效编辑。

除了改善的存活率之外，接触加帽和加尾的AAVS1特异性gRNA的靶细胞与接触Cas9 mRNA和未加帽/未加尾的gRNA(图12)的细胞相比，也显示出较高百分比的中靶基因组编辑(％indel)。此外，与接触具有未加帽/未加尾的gRNA的Cas9 mRNA的CD34⁺细胞的子代相比，在与具有加帽/加尾的gRNA的Cas9 mRNA接触的CD34⁺细胞的子代中检测到了更高水平的靶向编辑(图12，CFC)。如在集落形成细胞(CFC)测定中所测定的，未加帽/未加尾的gRNA的递送还降低了CD34⁺细胞的离体造血潜能。与未加帽和未加尾的gRNA和Cas9 mRNA接触的细胞表现出总集落形成潜力(例如效能)的丧失和集落亚型多样性的降低(例如红细胞和祖细胞潜能的损失以及在子代中向骨髓巨噬细胞表型的倾斜)(图13)。相比之下，接触加帽和加尾的gRNA的细胞相对于从CD34⁺细胞分化的集落总数和相对于集落多样性(检测了混合造血集落[GEMM]和红细胞集落[E])都维持CFC潜能。

接下来，将加帽和加尾的HBB特异性gRNA与Cas9 mRNA共转运或与Cas9核糖核蛋白(RNP)复合，并且然后电穿孔到K562细胞中，K562细胞是一种红白血病细胞系，其已显示出会模拟HSPC的某些特征。通过HBB基因座PCR产物的T7E1测定分析(图14A)确定，加帽和加尾的gRNA与Cas9 mRNA或RNP的共同递送导致在HBB基因座处高水平的基因组编辑。接下来，将3种不同的加帽和加尾的gRNA(靶向HBB、AAVS1和CXCR4基因座)与酿脓链球菌Cas9 mRNA共同递送到从脐血(CB)中分离的CD34⁺细胞中。在这里，通过对基因座PCR产物的T7E1测定分析，将不同量的gRNA(2μg或10μg的gRNA加上10μg的酿脓链球菌Cas9 mRNA)电穿孔到细胞中，并在靶向基因座处评估基因组编辑的百分比。相比之下，在来自CB CD34⁺细胞的基因组DNA中的HBB基因座处没有检测到切割，所述CB CD34⁺细胞用未加帽和未加尾的HBB gRNA和Cas9 mRNA电穿孔。结果表明，用Cas9 mRNA电穿孔的CB CD34⁺细胞和加帽和加尾的gRNA保持了增殖潜力和集落形成潜力。在靶向基因座处检测到5％到20％的indel，并且与Cas9mRNA共递送的加帽和加尾的gRNA的量不影响靶向编辑的百分比(图14B)。在T7E1测定后进行的指定基因座特异性PCR产物的代表性凝胶图显示了，在递送加帽和加尾的基因座特异性gRNA(AAVS1、HBB和CXCR4 gRNA)，通过电穿孔(Maxcyte设备)共递送化脓链球菌Cas9mRNA 72小时后，在CB CD34⁺细胞的靶向基因座处的切割(图15A)。重要的是，与未接触Cas9mRNA或gRNA的细胞(即未经处理的对照)相比，用与酿脓链球菌Cas9 mRNA共递送的加帽的和加尾的AAVS1特异性gRNA、HBB特异性gRNA或CXCR4特异性gRNA电穿孔的细胞的活力没有差异。通过流式细胞术分析(流式细胞术图的左下象限，图15B)测定的7-AAD和膜联蛋白V的阴性染色指示了活细胞。如CFC测定所确定的，用与酿脓链球菌Cas9 mRNA共递送的加帽的和加尾的AAVS1特异性gRNA、HBB特异性gRNA或CXCR4特异性gRNA电穿孔的CB CD34⁺细胞维持了离体的造血集落形成潜力。在图14C中显示了CFC测定中接触HBB特异性gRNA和Cas9的细胞的表征的离体造血潜能。

实例6：靶向Cas9/gRNA以破坏供体细胞中的单个HLA-A等位基因和用受体等位基因置换HLA-A等位基因

在这个实例中，非裔美国人受体受试者需要HSCT。受体的HLA分型通过常规方法(例如DNA测序)进行，并且然后与骨髓和脐血供体注册中可用的供体基因型进行比较。国家骨髓项目注册、国家脐血项目注册或其他干细胞或脐血注册中不能识别完全匹配的供体。然而，已经识别了部分匹配的脐血欧洲裔美国人(高加索人)供体，其中遗传基因座的6个等位基因中的5个需要脐血(CB)匹配以满足allo-UCT(例如，HLA-A、HLA-B、HLA-DRB1)(图16A-16B)的要求。为了增加潜在的供体和受体之间的匹配水平，将Cas9和对A*02:01:01:01等位基因特异性的一个或多个gRNA递送给供体脐血HSPC或靶向破坏该特定等位基因(单等位基因编辑)。从针对待破坏的特定HLA-A等位基因产生的最高级gRNA中选择一种或多种潜在修饰的(例如，加帽/加尾的)gRNA(表24)。在用Cas9/gRNA破坏等位基因后，T7E1测定和DNA测序分析验证了等位基因的破坏。通过分选纯化HLA-A^lo,例如HLA-A^+/-例如HLA-A*02:01:01:01阴性细胞(例如其中HLA-A*02:01:01:01单等位基因破坏成功的细胞)。产生错配的受体HLA-A等位基因(例如，A*01:01:01:01)DNA序列(例如，cDNA，图17A-17B)，并将其克隆到慢病毒载体中。在受体细胞中调节该等位基因的内源启动子序列被测序，并且被克隆到A*01:01:01:01cDNA序列上游的慢病毒载体中。然后将该HLA-A转基因表达盒(例如调节匹配的HLA等位基因的HLA启动子)包装入慢病毒载体颗粒中。将分选的供体HLA-A^lo例如HLA-A^+/-，例如，HLA-A*02:01:01:01阴性细胞与慢病毒载体颗粒接触，用于A*01:01:01:01转基因表达盒的基因转移至细胞。然后基于细胞表面HLA-A表达的增加(与未转导的HLA-A^lo细胞相比)，分选转导的细胞。在HLA-A单等位基因置换后，HLA修饰的脐血供体HSPC与受体受试者匹配6个HLA基因座中的6个。根据常规的脐血移植临床方案，将匹配的供体脐血HSPC移植到受体受试者中。

表24.用于Cas9靶向破坏单个HLA-A等位基因A*02:01:01:01(在单个遗传基因座上的单等位基因破坏)的指导RNA。

/>

缩写：sa：金黄色葡萄球菌gRNA，spy：酿脓链球菌gRNA。

实例7：将Cas9/gRNA靶向供体细胞中HLA-A基因的双等位基因破坏以及用受体受试者相同的HLA-A等位基因置换两个供体错配的HLA-A等位基因

在这个实例中，西班牙裔(拉丁裔)受体受试者需要HSCT。受体的HLA分型通过常规方法(例如DNA测序)进行，并且然后与骨髓和脐血供体注册中可用的供体基因型进行比较。国家骨髓项目注册、国家脐血项目注册或其他干细胞或脐血注册中不能识别完全匹配的供体。然而，已经识别了部分匹配的脐血欧洲裔美国人(高加索人)供体，其中在脐血(CB)匹配中遗传基因座的6个等位基因中的4个需要满足allo-UCT的要求(即，HLA-A、HLA-B、HLA-DRB1)(图18A-18B)。为了增加潜在的供体和受体之间的匹配水平，将Cas9和靶向HLA-A基因座的一个或多个gRNA(例如，靶向供体细胞中的两个HLA-A等位基因的共同序列)递送给供体脐血供体HSPC，用于靶向破坏基因(双等位基因编辑)。从在所述基因座处被破坏的HLA-A等位基因产生的最高级gRNA中选择一种或多种gRNA(潜在修饰的gRNA，例如加帽/加尾)(表25)。用Cas9/gRNA双等位基因破坏基因座后，T7E1测定和DNA测序分析验证了等位基因的破坏。通过分选纯化HLA-A^-/-，例如，HLA-A*02:01:01:01和A*29:02:01:01阴性细胞(例如，其中双等位基因破坏成功的细胞)。产生最初不存在于供体细胞(例如，A*01:01:01:01和A*23:01:01)中的受体受试者相同的HLA-A等位基因的DNA序列(例如，cDNA)，并将其克隆到慢病毒载体中。调节受体受试者细胞中这些等位基因的内源启动子序列被测序，并且被克隆到一个慢病毒载体或A*01:01:01:01和A*23:01:01cDNA序列上游的多个载体中，每个启动子调节等位基因，其对应于受试者细胞中的启动子/等位基因组合。将HLA-A转基因表达盒包装入慢病毒载体颗粒中。分选的供体HLA-A^-/-细胞，例如HLA-A*02:01:01:01和A*29:02:01:01阴性细胞(例如，双等位基因破坏成功的细胞)用慢病毒载体颗粒接触，用于将A*01:01:01:01和A*23:01:01转基因表达盒基因转移到受体细胞中。然后基于细胞表面HLA-A表达的增加(与未转导的HLA-A^-/-细胞相比)，分选转导的细胞。HLA-A双等位基因置换后，HLA修饰的脐血供体HSPC与受体受试者匹配6个HLA基因座中的6个。根据常规的脐血移植临床方案，将匹配的供体脐血HSPC移植到受体受试者中。

表25.在HLA-A位点处Cas9靶向双等位基因破坏的gRNA用于破坏等位基因A*02:01:01:01和A*29:02:01。

/>

缩写：sa：金黄色葡萄球菌gRNA，spy：酿脓链球菌gRNA。

实例8：通过破坏错配的HLA单倍型和基因置换HLA-A、HLA-B和HLA-DRB1各自的一个拷贝来靶向Cas9和gRNA用于复合基因组编辑

在这个实例中，西班牙裔(拉丁裔)受体受试者需要HSCT。受体的HLA分型通过常规方法(例如DNA测序)进行，并且然后与骨髓和脐血供体注册中可用的供体基因型进行比较。国家骨髓项目注册、国家脐血项目注册或其他干细胞或脐血注册中不能识别完全匹配的供体。然而，已经识别了单倍体相同的脐血欧洲裔美国人(高加索人)供体，其中在脐血(CB)匹配中遗传基因座(例如，单倍型相同的)的6个等位基因中的3个需要满足allo-UCT的要求(即，HLA-A、HLA-B、HLA-DRB1)(图18A-18B)。为了增加潜在的供体和受体受试者之间的匹配水平，将靶向供体HSPC(例如，A*02:01:01:01、B*08:01:01和DRB1*03:01:01)中不匹配的单倍型中的等位基因的Cas9和多个gRNA(例如，潜在修饰的gRNA，例如，加帽/加尾的gRNA)递送至供体脐血HSPC以用于多个遗传基因座上的靶向的单等位基因破坏(例如，复合基因编辑，例如HLA-A、HLA-B、HLA-DRB1)。从HLA-A、HLA-B和HLA-DRB1供体特异性等位基因(与受体不匹配)产生的最高级的gRNA中选择一种或多种潜在修饰的gRNA(例如，加帽/加尾的gRNA)以在那些特定的遗传基因座上被破坏(表26)。在用Cas9/gRNA靶向单等位基因破坏遗传基因座后，T7E1测定和DNA测序分析验证等位基因的破坏。通过分选纯化HLA-A^+/-，例如，HLA-A*02:01:01:01阴性；HLA-B^+/-，例如，B*08:01:01阴性；和HLA-DRB1^+/-，例如，DRB1*03:01:01:01阴性细胞(例如，在三个基因座处单等位基因破坏成功的细胞)。对最初不存在于单倍体相同的供体细胞(例如，A*03:01:01:01B*07:02:01、DRB1*15:01:01:01)中的错配的受体受试者HLA-A等位基因进行测序，并且然后将DNA序列(例如，cDNA)克隆入慢病毒载体或其内源启动子上游的载体，这也通过对接近受体受试者细胞中那些等位基因的DNA进行测序来确定。将HLA-A、HLA-B-和HLA-DRB1转基因表达盒包装入慢病毒载体颗粒中。分选的供体HLA-A^+/-、HLA-B^+/-、HLA-DRB1^+/-细胞(例如，其中HLA-A、HLA-B、HLA-DRB1的复合单等位基因破坏是成功的细胞)与慢病毒载体颗粒接触用于将HLA-A、HLA-B和HLA-DRB1转基因表达盒基因转移到受体细胞中。然后基于细胞表面上HLA-A、HLA-B和HLA-DRB1表达的增加(与未转导的HLA-A^+/-、HLA-B^+/-、HLA-DRB1^+/-细胞相比)，对转导的细胞进行分选。在HLA-A、HLA-B和HLA-DRB1基因置换后，HLA修饰的脐血供体HSPC与受体受试者匹配6个HLA基因座中的6个。根据常规的脐血移植临床方案，将匹配的供体脐血HSPC移植到受体受试者中。

表26.针对Cas9靶向的单倍型破坏的gRNA在(a)HLA-A、(b)HLA-B和(c)HLA-DRB1遗传基因座上用于破坏等位基因A*02:01:01:01、B*08:01:01和DRB1*03:01:01:01。

/>

/>

/>

/>

在下面的实例9-11中，来自几个供体的人脐血单核细胞(MNC)是通过扩增基因组DNA，然后进行基于DNA序列的分型和/或用序列特异性引物/探针进行HLA分型的(KashiClinical Laboratories[喀什临床实验室]，俄勒冈州，波特兰)。来自三个HSC供体的原代人类细胞、脐血MSC是如上所述进行HLA分型的，并且针对HLA-A、HLA-B和HLA-DRB1等位基因产生了4位分型报告(表27)。基于最高等位基因匹配数量，将样品配对为部分匹配的供体和受体。对于每个推定的供体和受体对，错配的等位基因被识别出来，使得编辑这些基因座将减少潜在的供体和受体之间的等位基因错配的数量。该数据库用于搜索适当的gRNA用于以等位基因特异性方式编辑靶向基因座。用于HLA分型的8位中的4位(4个字段中的2个)可以是所指示的等位基因的任何亚型(例如，HLA-A 02:01可以是HLA-A 02:01:01:01)。针对靶向等位基因的所有亚型，在数据库中搜索了与中靶位点相匹配的gRNA。该搜索被定制为使得识别的gRNA不会靶向供体细胞中其他HLA等位基因的任何亚型(例如，HLA-B、HLA-DRB1)。该数据库还提供了针对每个识别的gRNA的中靶特异性的靶向等位基因的亚型的计数/百分比。在这个过程中，如果用户同时针对多个等位基因，数据库将首先搜索在所有靶向基因座上具有中靶位点的gRNA，并避免在其他等位基因中具有中靶的gRNA。在获得识别合适的gRNA之后，数据库还提供了用作参考的所有供体等位基因的亚型的序列。针对这些供体等位基因亚型序列搜索前一步骤中识别的gRNA的中靶位点/脱靶位点。gRNA选择的最后一步包括基于来自第一步的数据(靶向等位基因亚型的较高计数/百分比、排除的等位基因中的较低的脱靶计数/百分比、在整个基因组中的较低的脱靶效应，等)的gRNA选择。

表27.四种干细胞供体的HLA分型结果用于评估假定的供体和受体对用于基因编辑以改善HSC移植的匹配。

实例9：通过破坏原代人类T淋巴细胞中错配的HLA-A等位基因(HLA-A26:01)而靶向用于基因组编辑的Cas9和gRNA

为了提高在6个等位基因上具有不合适水平的HLA匹配的潜在供体和受体之间的匹配水平(3个基因座，3/6错配的HLA等位基因)，靶向等位基因特异性的基因编辑使用Cas9和使用本文所述的数据库特异性识别的gRNA进行。结果，通过基因破坏(表28)，使来自错配供体(表27，患者1)的细胞之间的HLA匹配水平合适(通过减少HLA错配至2/6错配的HLA等位基因)以转移至潜在受体患者(表27，患者2)。

表28.在基因编辑策略1之前和之后来自潜在异基因供体和受体对的原代人类HSC的HLA基因型以增加患者1供体HSC基因型与患者2受体基因型的匹配。

在6个类型的HLA等位基因(HLA-A、HLA-B和HLA-DRB1；表28)中，患者1(供体)与患者2(受体)错配了3个。靶向破坏HLA-A 26:01将减少潜在供体(患者1)和受体(患者2)之间的HLA错配。因此，从数据库中识别并选择了gRNA，该数据库对于等位基因HLA-A 26:01具有预测的高中靶特异性，并结合了对供体中存在的其他HLA等位基因的预测的低脱靶特异性(表29)。gRNA从PCR模板体外转录并被工程化以具有5'和3'端修饰(例如修饰如5'ARCA帽和3’聚A[20A]尾部)，其在用与修饰的gRNA(RNP)复合的Cas9蛋白处理之后，这在以前显示为改善T淋巴细胞和HSC的活力，同时在这些类型的原代血细胞中维持高度的基因编辑。

为了评估供体细胞中的等位基因特异性基因编辑，从脐血(CB)单元中分离原代T淋巴细胞(CD4⁺和CD8⁺T细胞)，并且在这些细胞中筛选表29中列出的gRNA。简而言之，将经修饰的HLA-A 26:01等位基因特异性gRNA与酿脓链球菌Cas9蛋白质预复合以产生电穿孔到供体T淋巴细胞(Amaxa核转染仪)中的RNP。在RNP递送后3-4天从细胞中分离基因组DNA，并从提取的gDNA中PCR扩增HLA-A基因座。使用T7E1内切核酸酶测定分析评估基因编辑以识别用于A*26:01(图19A-19B)的等位基因特异性编辑的最有效的gRNA。在来自患者1的原代人类造血细胞中，与测试的其他gRNA相比，HLA-A 26:01_2gRNA具有最高水平的中靶活性。总之，本实例显示了原代人类血细胞中HLA基因的等位基因靶向基因破坏。

表29.靶向HLA-A 26:01的酿脓链球菌gRNA

实例10：通过破坏原代人类T淋巴细胞中的错配HLA-B等位基因(HLA-B51:01)和HLA-DRB1(04:02)来靶向Cas9和gRNA用于复合基因组编辑

为了提高在6个等位基因上具有不合适水平的HLA匹配的潜在供体和受体之间的匹配水平(3个基因座，4/6错配的HLA等位基因)，复合基因破坏错配的等位基因HLA-B 51:01和HLA-DRB1 04:02(表30)使用Cas9和使用本文所述的数据库特异性识别的gRNA进行。结果，使来自错配供体(表30，患者3)的细胞之间的HLA匹配水平合适(减少HLA错配至2/6错配的HLA等位基因)以转移至潜在受体患者(表30，患者2)。

表30.来自潜在的异基因供体和受体对的原代人类HSC的复合HLA(MHC类别I和类别II)基因编辑以增加供体HSC(患者3)与受体(患者2)的匹配。

在6个类型的HLA等位基因(HLA-A、HLA-B和HLA-DRB1；表30)中，患者3(供体)与患者2(受体)错配了3个。靶向破坏HLA-B 51:01和HLA-DRB1 04:02将减少潜在供体(患者3)和受体(患者2)之间的HLA错配。因此，从数据库中识别并选择了gRNA，该数据库对于等位基因HLA-B51:01和HLA-DRB1 04:02(表31和32)具有预测的高中靶特异性，并结合了对供体中存在的其他HLA等位基因的预测的低脱靶特异性(表30)。gRNA从PCR模板体外转录并被工程化以具有5'和3'端修饰(例如，5'ARCA帽和3’聚A[20A]尾部)，其在用与修饰的gRNA(RNP)复合的Cas9蛋白处理之后，以前显示改善HSC的活力，同时维持高度的基因编辑。

表31：靶向HLA-B 51:01的酿脓链球菌gRNA

表32：靶向HLA-DRB1 04:02的酿脓链球菌gRNA

为了评估供体细胞中的等位基因特异性基因编辑，从CB单元中分离原代T淋巴细胞(CD4⁺T细胞)，并且在这些细胞中筛选表31和32列出的gRNA。简而言之，将经修饰的HLA-B51:01和HLA-DRB1 04:02等位基因特异性gRNA(表31和32)与酿脓链球菌Cas9蛋白质预复合以产生电穿孔到供体T淋巴细胞(Amaxa核转染仪)中的RNP。在RNP递送后3-4天从细胞中分离基因组DNA，并从提取的gDNA中PCR扩增HLA-A基因座。使用T7E1内切核酸酶测定分析评估基因编辑以识别在B*51:01(图20A)的等位基因特异性编辑上最有效的gRNA。用Cas9 RNP电穿孔的T细胞在编辑后表现出高活力(>80％)，并在培养中扩增。还通过流式细胞术分析来评估编辑的细胞，以便定量由于基因破坏导致细胞表面的HLA-B蛋白表达(抗人HLA-B-FITC)的降低(图20B和20C)。如使用T7E1核酸内切酶测定所确定的支持高水平基因破坏的gRNA也表现出HLA-B细胞表面表达的高百分比损失或降低。例如，HLA-B 5101_1gRNA支持43％的基因破坏和67％的HLA-B表达敲低。用HLA-B等位基因特异性抗体和MHC类别I(AlexaFluor647偶联的抗人HLA-A、HLA-B、HLA-C，Biolegend[Biolegend公司]目录#311416)共染色的细胞可以细分为2个级分：是HLA-B^低/-和MHC类别I⁺的细胞和是HLA-B⁺/MHC类别I⁺的细胞。这两个群体在MHC类别I细胞表面抗原的相对表达中的这种区别将支持通过FACS或免疫磁性分选进行分离，以获得缺乏一种HLA基因的等位基因特异性表达但维持所有其他I类细胞表面抗原的纯化的细胞群体。在相同的细胞中，修饰的(加帽和加尾的)靶向gRNA的HLA-DRB1 04:02与酿脓链球菌Cas9蛋白(RNP)复合并电穿孔入细胞以评估MHC类别II的基因的等位基因特异性基因破坏。从这些细胞中提取的gDNA的T7E1分析揭示了原代人类T淋巴细胞中DRB1 04:02的大量等位基因特异性破坏(图21)。总之，这个实例显示了原代人类血细胞中多个HLA基因的等位基因特异性敲低。

实例11：通过破坏原代人类T淋巴细胞和HSC中的错配HLA-A等位基因(HLA-A 02:01)和HLA-DRB1(04:02)来靶向Cas9和gRNA用于复合基因组编辑

为了提高在6个等位基因上具有不合适水平的HLA匹配的潜在供体和受体之间的匹配水平(3个基因座，4/6错配的HLA等位基因)，复合基因破坏错配的等位基因HLA-A 02:01和HLA-DRB1 04:02(表33)使用Cas9和使用本文所述的数据库特异性识别的gRNA进行。结果，使来自错配供体(表33，患者3)的细胞之间的HLA匹配水平合适(通过减少HLA错配至2/6错配的HLA等位基因)以转移至潜在受体患者(表33，患者1)。

表33.来自潜在异基因供体和受体对的原代人类HSC的HLA分型以增加供体HSC与受体的匹配

在6个类型的HLA等位基因(HLA-A、HLA-B和HLA-DRB1)中，患者3(供体)与患者1(受体)错配了4个。靶向破坏HLA-A 02:01和HLA-DRB1 04:02将减少HSC供体(患者3)和受体(患者1)之间的HLA错配。因此，从数据库中识别并选择了gRNA，该数据库对于等位基因HLA-A02:01和HLA-DRB1 04:02具有预测的高中靶特异性，并结合了对供体中存在的其他HLA等位基因的预测的低脱靶特异性(表34和32)。gRNA从PCR模板体外转录并被工程化以具有5'和3'端修饰(例如，5'ARCA帽和3’聚A[20A]尾部)，其在用与修饰的gRNA(RNP)复合的Cas9蛋白处理之后，以前显示改善HSC的活力，同时维持高度的基因编辑。

表34：靶向HLA-A 02:01的酿脓链球菌gRNA

为了评估供体细胞中的等位基因特异性基因编辑，从CB单元中分离原代T淋巴细胞(CD4⁺T细胞)，并且在这些细胞中筛选表34中列出的gRNA。简而言之，将经修饰的HLA-A02:01和HLA-DRB1 04:02等位基因特异性gRNA与酿脓链球菌Cas9蛋白质预复合以产生电穿孔到供体T淋巴细胞(Amaxa核转染仪)中的RNP。在RNP递送后3-4天从细胞中分离基因组DNA，并从gDNA中PCR扩增HLA-A基因座。基因编辑通过T7E1内切核酸酶测定分析(图22A)和通过用HLA-A2等位基因特异性抗体(FITC偶联的抗人HLA-A2，Biolegend[Biolegend公司]目录#343303)(图22B)的流式细胞术分析进行评估，以在A*02:0的等位基因特异性编辑中识别最有效的gRNA。流式细胞术分析显示在存活的人类T细胞表面上的HLA-A2蛋白质表达减少了高达92％(图22B)。这表明靶向HLA-A基因座的A*02:01等位基因靶向的gRNA对HLA-A2等位基因是特异性的。用HLA-A2等位基因特异性抗体和MHC类别I(AlexaFluor 647偶联的抗人HLA-A、HLA-B、HLA-C，Biolegend[Biolegend公司]目录#311416)共染色的细胞可以细分为2个级分：是HLA-A2^-(等位基因特异性基因表达的敲除)和MHC类别I⁺的细胞和是HLA-A2⁺MHC类别I⁺的细胞。这两个群体在MHC类别I细胞表面抗原的相对表达中的这种区别将支持通过FACS或免疫磁性分选进行分离，以获得缺乏一种HLA基因的等位基因特异性表达但维持所有其他MHC类别I细胞表面抗原的纯化的细胞群体(图23)。在靶向DRB1*04:02等位基因的T淋巴细胞中也进行了中靶等位基因特异性编辑，其相同结果如图21所示。用HLA-A2等位基因特异性抗体和MHC类别I(HLA-A、HLA-B、HLA-C)共染色的细胞可以细分为2个级分：是HLA-A2^-和MHC类别I⁺的细胞和是HLA-A2⁺/MHC类别I⁺的细胞。这两个群体在MHC类别I细胞表面抗原的相对表达中的这种区别将支持通过FACS或免疫磁性分选进行分离，以获得缺乏一种HLA基因的等位基因特异性表达但维持所有其他I类细胞表面抗原的纯化的细胞群体。总之，这个实例显示了原代人类血细胞中多个HLA基因的等位基因特异性敲低。

实例12：敲除HLA等位基因以促进HLA基因型的匹配

为了降低移植的HLA-错配的异基因细胞(例如HSC)排斥的可能性，需要移植的受体受试者在6个HLA等位基因(在HLA-A、HLA-B和HLA-DRB1上2个等位基因)上是HLA分型的(例如，确定了HLA-A、HLA-B和HLA-DRB1多态性)。在理想情况下，受体基因型与具有相同的6/6个HLA等位基因的供体匹配，因为6/6个HLA等位基因匹配与移植后发生GVHD的风险降低相关。如果不存在具有6/6个等位基因匹配的供体(例如来自骨髓或脐血HSC供体注册，或相关的家庭成员)，但具有5/6、4/6、3/6或2/6个HLA等位基因匹配的部分匹配的供体是可用的，本文描述的方法可以用于减少部分匹配的供体和受体之间的错配。如有必要，使用本文所述的基因编辑方法可以破坏单个等位基因或多个等位基因(2、3、4、5或6个等位基因)以降低移植受体中发生GVHD和/或疾病加重的风险。在以下实例中描述供体和受体之间的HLA等位基因匹配的所有情况下，分子表示匹配的等位基因的数量，而分母表示所表达的等位基因的数量。

本文所述的方法可用于修饰供体血细胞(例如HSC和T细胞)以产生免疫相容性血细胞。例如，所述方法可以用于破坏(例如敲除)供体HSC中的1、2或3个HLA等位基因，以产生匹配最频繁存在于特定群体中的HLA基因型的细胞。例如，北美四个族裔群体的最常见的10个单倍型列于表35-38中(参见例如，美国国家骨髓捐赠计划HLA单倍型频率数据，可获得于：https://bioinformatics.bethematchclinical.org/hla-resources/haplotype-frequencies/；Burdett等人，Hum.Immunol.[人类免疫学]64(10增刊):S6(2003))。

表35.在美国，有欧洲血统的个体中最常见的10种HLA-A、HLA-B和HLA-DRB1单倍型。

表36：在美国，有非裔美国人血统的个体中最常见的10种HLA-A、HLA-B和HLA-DRB1单倍型。

表37.在美国，有亚洲血统的个体中最常见的10种HLA-A、HLA-B和HLA-DRB1单倍型。

表38.在美国，有西班牙裔/拉丁裔血统的个体中最常见的10种HLA-A、HLA-B和HLA-DRB1单倍型。

对于具有与受体的3/6个HLA等位基因匹配的供体，可以破坏单个HLA等位基因、2个HLA等位基因或3个HLA等位基因以增加HLA匹配程度，例如分别增加HLA匹配至4/6、5/6或6/6个等位基因匹配。

如下所示，本文所述的方法可以应用于在3/6个HLA等位基因处与受体匹配的任何供体细胞。例如，当供体和受体具有以下列出的HLA基因型(表39)，其中供体HLA基因型包括两个最常见的欧洲裔美洲人单倍型，并且受体在等位基因1处具有单倍型匹配，并且在等位基因2处具有任何不匹配的单倍型，可以使用本文中描述的方法来通过以下步骤增加HLA匹配的程度：

(a)破坏(例如，敲除)单个等位基因(例如，HLA-A*0301g、HLA-B*0702、HLA-DRB1*1501)以产生4/6匹配。

(b)复合破坏(例如，敲除)2个等位基因(例如，HLA-A*0301g和HLA-B*0702g、HLA-A*0301g和HLA-DRB1*1501、HLA-B*0702g和HLA-DRB1*1501)以产生5/6个HLA匹配。

(c)复合破坏(例如，敲除)3个等位基因(例如，HLA-A*0301g、HLA-B*0702g、和HLA-DRB1*1501)以产生6/6个HLA匹配。

表39.

例如，当供体和受体具有以下列出的HLA基因型(表40)，其中供体HLA基因型包括两个最常见的非裔美洲人单倍型，并且受体在等位基因1处具有单倍型匹配，并且在等位基因2处具有任何不匹配的单倍型，可以使用本文中描述的方法来通过以下步骤增加HLA匹配的程度：

(a)破坏(例如，敲除)单个等位基因(例如，HLA-A*0101g、HLA-B*0801g或HLA-DRB1*0301)以产生4/6HLA匹配。

(b)复合破坏(例如，敲除)2个等位基因(例如，HLA-A*0101g和HLA-B*0801g、HLA-A*0101g和HLA-DRB1*0301、HLA-B*0801g和HLA-DRB1*0301)以产生5/6个HLA匹配。

(c)复合破坏(例如，敲除)3个等位基因(例如，HLA-A*0101g、HLA-B*0801g、和HLA-DRB1*0301)以产生6/6个HLA匹配。

表40.

例如，当供体和受体具有以下列出的HLA基因型(表41)，其中供体HLA基因型包括两个最常见的亚洲人单倍型，并且受体在等位基因1处具有单倍型匹配，并且在等位基因2处具有任何不匹配的单倍型，可以使用本文中描述的方法来通过以下步骤增加HLA匹配的程度：

(a)破坏(例如，敲除)单个等位基因(例如，HLA-A*0207g、HLA-B*4601或HLA-DRB1*0901)以产生4/6HLA匹配。

(b)复合破坏(例如，敲除)2个等位基因(例如，HLA-A*0207g和HLA-B*4601、HLA-A*0207g和HLA-DRB1*0901、HLA-B*4601和HLA-DRB1*0901)以产生5/6个HLA匹配。

(c)复合破坏(例如，敲除)3个等位基因(例如，HLA-A*0207g、HLA-B*4601和HLA-DRB1*0901)以产生6/6个HLA匹配。

表41.

例如，当供体和受体具有以下列出的HLA基因型(表42)，其中供体HLA基因型包括两个最常见的西班牙裔/拉丁裔单倍型，并且受体在等位基因1处具有单倍型匹配，并且在等位基因2处具有任何不匹配的单倍型，可以使用本文中描述的方法来通过以下步骤增加HLA匹配的程度：

(c)复合破坏(例如，敲除)3个等位基因(例如，HLA-A*0207g、HLA-B*4601和HLA-DRB1*0301)以产生6/6个HLA匹配。

表42.

如下所示，本文所述的方法可以应用于在4/6个HLA等位基因处与受体匹配的任何供体细胞。例如，当供体和受体具有以下列出的HLA基因型(表43)，其中供体HLA基因型包括两个最常见的西班牙裔/拉丁裔单倍型，并且受体在等位基因1处具有单倍型匹配，并且在等位基因2处(例如，在HLA-A处)具有任何不匹配的单倍型，可以使用本文中描述的方法来通过以下步骤增加HLA匹配的程度：

(a)破坏(例如，敲除)单个等位基因(例如，HLA-B*0801g或HLA-DRB1*0301)以产生5/6个HLA匹配。

(b)复合破坏(例如，敲除)2个等位基因(例如，HLA-B*0801g和HLA-DRB1*0301)以产生6/6个HLA匹配。

表43.

如下所示，本文所述的方法可以应用于在5/6个HLA等位基因处与受体匹配的任何供体细胞。例如，当供体和受体具有以下列出的HLA基因型(表44)，其中供体HLA基因型包括两个最常见的西班牙裔/拉丁裔单倍型，并且受体在等位基因1处具有单倍型匹配，并且在等位基因2处具有匹配3个HLA基因座中的2个的任何单倍型，可以使用本文中描述的方法来通过以下步骤增加HLA匹配的程度：

(a)破坏(例如敲除)单个等位基因(例如HLA-DRB1*0301)以产生6/6个HLA匹配。

表44.

实例16：HLA等位基因的基因破坏(例如敲除)以促进最有可能在少数民族或代表性不足群体中不匹配的HLA基因型的匹配

以下文字和表格描述了供体细胞中1、2或3个HLA等位基因的敲除，其在需要供体组织或HSCT的受体中最常见的不匹配HLA单倍型中产生改善的HLA匹配。

例如，在美国国家骨髓捐赠计划(NMDP)(表45)中，以下HLA单倍型在亚裔个体中是常见的，而在任何其他受试者中是不常见的。因此，亚洲人血统的受体和/或任何以下单倍型在NMDP内可能找不到6/6个HLA匹配。

表45.在亚洲人后裔个体中常见的并且在NMDP的一般供体库中不常见的HLA单倍型

例如，在美国国家骨髓捐赠计划(NMDP)(表46)中，以下HLA单倍型在非裔美国人后裔个体中是常见的，而在任何其他受试者中是不常见的。因此，非裔美国人血统的受体和/或任何以下单倍型在NMDP内可能找不到6/6个匹配。

表46：在非裔美国人后裔个体中常见的并且在NMDP的一般供体库中不常见的HLA单倍型

例如，在美国国家骨髓捐赠计划(NMDP)(表47)中，以下HLA单倍型在西班牙裔/拉丁裔个体中是常见的，而在任何其他受试者中是不常见的。因此，具有西班牙裔/拉丁裔血统的受体和/或任何以下单倍型在NMDP内可能找不到6/6个匹配。

表47.在西班牙裔后裔个体中常见的并且在NMDP的一般供体库中不常见的HLA单倍型

表45、46和47中列出的HLA单倍型在特定人群中是常见的，但在供体库中是不常见的，特别是在构成美国国家骨髓捐赠计划(NMDP)的大部分的高加索个体供体库中。具有列于表56、57或58中的单倍型的受体不太可能在NMDP中找到6/6个匹配。本文所述的方法可用于破坏(例如敲除)供体细胞中的一个、两个或三个HLA等位基因以改善受体的HLA匹配，包括和尤其是具有表45、46和47中列出的HLA单倍型的那些。

表48-50描述了可应用于最常见的不匹配的少数单倍型(例如，表45、46和47中列出的单倍型)的供体细胞的合适的HLA-基因破坏(例如敲除)策略的实例。在表48-50中，对于少数民族群体中最常见的每个单倍型(供体库中代表性不足，并且因此有找不到理想的6/6个HLA匹配的风险)，建议最常见的单倍型匹配，其中供体细胞中单个HLA基因座的基因破坏(例如，敲除)将改善HLA匹配。

/>

/>

况下，具有基因型HLA-A68、HLA-B53、HLA-DRB1*1302、HLA-A0101g、HLA-B0801g、HLA-DRB1-0301的高加索人供体可能是可用的，因为这些单倍型分别是高加索人供体库中第185和第1个最常见的单倍型。使用本文所述方法，对供体细胞中的错配的HLA-DRB1*1302等位基因的基因破坏(例如，敲除)将产生有效的6/6个HLA匹配。可替代地，如果在HLA-B基因座处的基因破坏是更需要的(例如，由于存活率增加或GVHD发生率较低)，则可以选择不同的供体。可以使用具有基因型HLA-A68、HLA-B7、HLA-DQ-1503、HLA-0101g、HLA-0801g、HLA-DQ-0301的供体HSC中的离体HLA-B7基因破坏(例如，敲除)，因为这些单倍型分别是非裔美国人供体库中第24和第2个最常见的单倍型。

NMDP数据库或任何器官供体数据库可针对常见的HLA单倍型储备数据，如果在一个或多个HLA基因座(例如，HLA-A、HLA-B或HLA-DRB1)上被破坏(例如敲除)，则将为最大的群体提供匹配的供体细胞。可替代地，NMDP数据库或任何器官供体数据库可针对常见的HLA单倍型储备数据，如果在单个HLA基因座(例如，HLA-A、HLA-B或HLA-DRB1)上被破坏(例如，被敲除)，将为最不可能找到匹配供体组织或HSC的受体提供匹配的供体细胞。

例如，在发现其具有3/6个HLA等位基因匹配的受体中，可以使用在此描述的方法来：

(a)破坏(例如，敲除)供体细胞的单个HLA等位基因(例如HLA-A、HLA-B或HLA-DRB1)以产生供体与受体的3/6HLA等位基因的HLA匹配(有1/6供体等位基因不表达)，实现有关外来抗原识别的有效的4/6个匹配)。破坏单个HLA供体等位基因将有效地产生4/6匹配，这可能降低受体中获得GVHD和/或其GVHD加重的风险。

(b)破坏(例如，敲除)供体细胞的两个HLA等位基因(例如，HLA-A等位基因和HLA-B等位基因、HLA-A等位基因和HLA-DRB1等位基因、或HLA-B等位基因和HLA-DRB1等位基因)以产生供体与受体在3/6个HLA等位基因上的HLA匹配(有2/6个供体等位基因不表达)，以实现关于外来抗原识别的有效的5/6个匹配。破坏两个HLA供体等位基因将有效地产生5/6匹配，这可能降低受体中获得GVHD和/或其GVHD加重的风险。

(c)破坏(例如，敲除)供体细胞的三个HLA等位基因(例如HLA-A等位基因、HLA-B等位基因和HLA-DRB1等位基因)以产生供体与受体的3/6个HLA等位基因的HLA匹配(有3/6供体等位基因不表达)，以实现有关外来抗原识别的有效的6/6匹配。破坏三个HLA供体等位基因将有效地产生6/6匹配，这可能降低受体中获得GVHD和/或其GVHD加重的风险。

例如，在发现其具有4/6个HLA等位基因匹配的受体中，可以使用在此描述的方法来：

(a)破坏(例如，敲除)供体细胞的单个HLA等位基因(例如HLA-A、HLA-B或HLA-DRB1)以产生供体与受体的4/6HLA等位基因的HLA匹配(有1/6供体等位基因不表达)，实现有关外来抗原识别的有效的5/6匹配)。破坏单个HLA供体等位基因将有效地产生5/6匹配，这可能降低受体中获得GVHD和/或其GVHD加重的风险。

(b)破坏(例如，敲除)供体细胞的两个HLA等位基因(例如，HLA-A等位基因和HLA-B等位基因、HLA-A等位基因和HLA-DRB1等位基因、或HLA-B等位基因和HLA-DRB1等位基因)以产生供体与受体在4/6个HLA等位基因上的HLA匹配(有2/6个供体等位基因不表达)，以实现关于外来抗原识别的有效的6/6个匹配。破坏两个HLA供体等位基因将有效地产生6/6匹配，这可能降低受体中获得GVHD和/或其GVHD加重的风险。

例如，如果受体具有基因型HLA-A2 HLA-B46 HLA-DRB1 0901:HLA-A33 HLA-B44HLA-DRB1*1302并且发现了具有基因型HLA-A2 HLA-B62HLA-DRB1 0901:HLA-A33 HLA-B58HLA-DRB1*1302的供体，那么4/6个HLA等位基因在供体和受体之间匹配。供体细胞中HLA-B62的破坏(例如敲除)产生4/6个匹配的等位基因、一个非表达(无效)等位基因和1个错配等位基因。在这种情况下，与4/6个HLA匹配相比，有效的HLA匹配是5/6，其可以降低受体中GVHD的发展风险和/或严重性。

例如，在发现其具有5/6个HLA等位基因匹配的受体中，可以使用在此描述的方法来：

(c)破坏(例如，敲除)供体细胞的单个HLA等位基因(例如HLA-A、HLA-B或HLA-DRB1)以产生供体与受体的5/6HLA等位基因的HLA匹配(有1/6供体等位基因不表达)，实现有关外来抗原识别的有效的6/6个匹配)。破坏单个HLA供体等位基因将有效地产生6/6匹配，这可能降低受体中获得GVHD和/或其GVHD加重的风险。

例如，如果受体具有单倍型HLA-A2 HLA-B46 HLA-DR0901:HLA-A33HLA-B44 HLA-DR1302，并且发现了具有单倍型HLA-A2 HLA-B62 HLA-DR0901:HLA-A33 HLA-B44 HLA-DR1302的供体，那么5/6个HLA等位基因在供体和受体之间匹配。供体细胞中HLA-B62的破坏(例如敲除)产生5/6个匹配的等位基因、和一个非表达(无效)等位基因。在这种情况下，与5/6个HLA匹配相比，有效的HLA匹配是6/6，其可以降低受体中GVHD的发展风险和/或严重性。

例如，具有基因型HLA-A*3001 2、HLA-B*1302 46、HLA-DRB1*7010901的亚洲人受体可以接受，在供体细胞中体外破坏(例如敲除)HLA-B62后，来自具有以下基因型的供体的供体HSC移植：HLA-A*3001 2、HLA-B*1302 62、HLA-DRB1*701 0901。供体细胞将具有基因型HLA-A*3001 2、HLA-B*1302/-、HLA-DRB1*701 0901，以与受体基因型HLA-A*3001 2、HLA-B*1302 46、HLA-DRB1*701 0901有有效的6/6匹配。具有单倍型HLA-A*3001、HLA-B*1302、HLA-DRB1*701的供体HSC是在NMDP中可获得的高加索人后裔的那些中第十个最常见的HLA单倍型。具有单倍型HLA-A2、HLA-B62和HLA-DRB1-0901的供体HSC是在NMDP中可获得的高加索人后裔中第62个最常见的HLA单倍型。因此，HLA-A*3001 2、HLA-B*130262、HLA-DRB1*7010901的供体基因型可能可用于捐献给受体。

例如，具有基因型HLA-A*3001、HLA-B*1302、HLA-DRB1*701、HLA-A2、HLA-B46、HLA-DRB1-0901的亚洲人受体可以从具有以下基因型的供体接受供体HSC移植：HLA-A*3001、HLA-B*1302、HLA-DRB1*701、HLA-A2、HLA-B60、HLA-DRB1-0901，随后离体破坏(例如，敲除)供体细胞中的HLA-B。供体细胞将具有基因型HLA-A*3001、HLA-B*1302、HLA-DRB1*701、HLA-A2、HLA-B-、HLA-DRB1-0901，以与受体基因型HLA-A*3001、HLA-B*1302、HLA-DRB1*701、HLA-A2、HLA-B46、HLA-DRB1-0901有有效的6/6匹配。具有单倍型HLA-A*3001、HLA-B*1302、HLA-DRB1*701的供体HSC是在NMDP中可获得的高加索人后裔的那些中第十个最常见的HLA单倍型。具有单倍型HLA-A2、HLA-B60和HLA-DRB1-0901的供体HSC是NMDP中亚洲后裔的那些中第19个最常见的HLA单倍型。因此，HLA-A*3001、HLA-B*1302、HLA-DRB1*701、HLA-A2、HLA-B60、HLA-DRB1-0901的供体基因型有可能用于捐赠给受体。

例如，具有以下基因型的非裔美国人受体：

/>

可以从具有以下基因型的供体接受供体HSC移植：

随后离体破坏(例如，敲除)供体细胞中的HLA-DRB1*0804。供体细胞将具有基因型：

以与受体基因型有有效的6/6匹配。

例如，具有以下基因型的非裔美国人受体：

可以从具有以下基因型的供体接受供体HSC移植：

随后离体破坏(例如，敲除)供体细胞中的HLA-DRB1*1503。供体细胞将具有基因型：

以与受体基因型有有效的6/6匹配。

例如，具有以下基因型的西班牙裔/拉丁裔受体：

/>

可以从具有以下基因型的供体接受供体HSC移植：

随后离体破坏(例如，敲除)供体细胞中的HLA-B*62。供体细胞将具有基因型：

以与受体基因型有有效的6/6匹配。

例如，具有以下基因型的西班牙裔/拉丁裔受体：

可以从具有以下基因型的供体接受供体HSC移植：

随后离体破坏(例如，敲除)供体细胞中的HLA-B*35。供体细胞将具有基因型：

以与受体基因型有有效的6/6匹配。

例如，具有基因型的西班牙裔受体：

可以从具有以下基因型的供体接受供体HSC移植：

随后离体破坏(例如，敲除)供体细胞中的HLA-A*2。供体细胞将具有基因型：

以与受体基因型有有效的6/6匹配。

例如，具有基因型的西班牙裔受体：

可以从具有以下基因型的供体接受供体HSC移植：

随后离体破坏(例如，敲除)供体细胞中的HLA-A*24。供体细胞将具有基因型：

以与受体基因型有有效的6/6匹配。

例如，具有基因型的西班牙裔受体：

可以从具有以下基因型的供体接受供体HSC移植：

以与受体基因型有有效的6/6匹配。

本文所述的方法还可以用于离体破坏(例如，敲除)来自许多不同供体的细胞(例如，HSC)中至少一种(例如，一种、两种、三种、四种、五种或六种)HLA等位基因(例如HLA-A、HLA-B和HLA-DRB1等位基因)并汇集供体细胞(在基因破坏之前或之后)，以产生与特定的受体具有一个或多个匹配的HLA等位基因的供体细胞(例如，HLA-A^{-/常见等位基因}、HLA-B^{-/常见等位基因}、HLA-DR^{-/常见等位基因}基因型)。可以开发这些细胞用于最常见的HLA(例如，HLA-A、HLA-B、HLA-DR)基因型，并维持用于一个或多个受体。

普通技术人员很容易确定这些方法也可以用于破坏(例如敲除)其他HLA-基因座(例如HLA-C和HLA-DQ)。例如，在具有与供体有8/10个HLA匹配的特定HLA单倍型的受体中，可以敲除相关的不匹配供体等位基因以有效地使供体-受体匹配9/10。例如：可以进行在HLA-A、HLA-B、HLA-C和HLA-DR单倍型匹配的但是在单个HLA-DQ等位基因中不匹配的供体组织中的单个HLA-DQ等位基因的破坏(例如敲除)，以产生有效的9/10个单倍型匹配，其由于不匹配的HLA-DQ等位基因不会被表达，将有效地提供10/10个供体-受体HLA匹配。

通过引用结合

本文提及的所有出版物、专利和专利申请都通过引用以其全文而特此结合，如同每一单独的出版物、专利或专利申请具体且单独地指明通过引用而结合一样。在有冲突的情况下，以本申请(包括本文的任何定义)为准。

等效物

本领域的普通技术人员仅使用常规实验就应认识到或能够确定本文描述的本发明的具体实施例的许多等效物。此类等效物旨在由以下权利要求书涵盖。

优选实施方式：

1.一种产生免疫相容性血细胞的方法，所述方法包括：

使血细胞与第一等位基因特异性修饰的gRNA分子和Cas9分子接触，其中所述第一等位基因特异性修饰的gRNA分子和所述Cas9分子与内源免疫原性基因的第一等位基因缔合，

由此修饰所述内源免疫原性基因的第一等位基因并且产生免疫相容性血细胞。

2.一种修饰血细胞中内源免疫原性基因的方法，所述方法包括：

使用数据库模式来选择第一等位基因特异性gRNA分子，以及

使所述血细胞与所述第一等位基因特异性gRNA分子和Cas9分子接触，其中所述等位基因特异性gRNA分子和所述Cas9分子与内源免疫原性基因的第一等位基因缔合，由此修饰所述内源免疫原性基因的第一等位基因。

3.一种降低血细胞中内源免疫原性基因的第一等位基因的细胞表面表达的方法，所述方法包括：

使所述血细胞与第一等位基因特异性gRNA分子和Cas9分子接触，其中所述等位基因特异性gRNA分子和所述Cas9分子与所述内源免疫原性基因的第一等位基因缔合，

由此降低所述内源免疫原性基因的第一等位基因的细胞表面表达。

4.一种将单倍型修饰的血细胞移植到受试者中的方法，所述方法包括：

从在内源免疫原性基因处具有第一单倍型的第一受试者分离血细胞，

使所述血细胞与第一等位基因特异性gRNA分子和Cas9分子接触，其中所述第一等位基因特异性gRNA分子与所述内源免疫原性基因的第一等位基因缔合，由此修饰所述内源免疫原性基因的第一等位基因，以及

将所述血细胞转移到在内源免疫原性基因处具有第二单倍型的第二受试者。

5.一种制备包含具有等位基因特异性基因修饰的细胞群体的组合物的离体方法，所述方法包括：

使细胞群体与等位基因特异性gRNA分子和Cas9分子接触，其中所述等位基因特异性gRNA分子和所述Cas9分子与编码可识别的基因产物的基因的单个等位基因缔合；以及

富集表达所述可识别的基因产物但不表达所述第一等位基因的细胞。

6.如项目5所述的方法，其中所述细胞群体是血细胞群体。

7.如项目6所述的方法，其中所述血细胞是造血干细胞/祖细胞(HSC)。

8.如项目5-7中任一项所述的方法，其中所述细胞群体选自下组，该组由以下组成：循环血细胞群体、动员的血细胞群体、骨髓细胞群体、髓样祖细胞群体、淋巴样祖细胞群体、淋巴样细胞群体、多能祖细胞群体、谱系限制性祖细胞群体、内皮细胞群体、或间充质基质细胞群体、或其组合。

9.如项目1-4中任一项所述的方法，其中所述血细胞是干细胞。

10.如项目4所述的方法，其中所述干细胞是造血干细胞/祖细胞(HSC)。

11.如项目1-4、9和10中任一项所述的方法，其中所述细胞选自下组，该组由以下组成：循环血细胞、动员的血细胞、骨髓细胞、髓样祖细胞、淋巴样祖细胞、淋巴样细胞、多能祖细胞、谱系限制性祖细胞、内皮细胞或间充质基质细胞。

12.如项目2-11中任一项所述的方法，其中所述gRNA分子是修饰的gRNA分子。

13.如项目1-12中任一项所述的方法，其中所述gRNA分子包含与人类白细胞抗原(HLA)基因中的靶结构域互补的靶向结构域。

14.如项目13所述的方法，其中所述HLA基因选自下组，该组由以下组成：HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、HLA-DQ和HLA-DP。

15.如项目1-14中任一项所述的方法，所述方法还包括使所述细胞或细胞群体与第二gRNA分子接触，其中所述第二gRNA分子靶向表16中所述的基因。

16.如项目15所述的方法，其中所述第二gRNA分子是修饰的gRNA分子。

17.如项目1-16中任一项所述的方法，所述方法还包括使所述细胞与第二Cas9分子接触。

18.如项目1-17中任一项所述的方法，其中所述Cas9分子是具有酶活性的Cas9(eaCas9)分子。

19.如项目18所述的方法，其中所述eaCas9分子在所述内源免疫原性基因中产生单链断裂。

20.如项目15所述的方法，其中所述eaCas9分子在所述内源免疫原性基因中产生双链断裂。

21.如项目1-20中任一项所述的方法，其中所述Cas9分子选自下组，该组由以下组成：野生型Cas9、Cas9切口酶、失活Cas9(dCas9)、裂解Cas9和诱导型Cas9。

22.如项目1-18中任一项所述的方法，其中所述Cas9分子包含N-末端RuvC-样结构域切割活性，但不具有HNH-样结构域切割活性。

23.如项目22所述的方法，其中所述Cas9分子在对应于酿脓链球菌Cas9的氨基酸位置N863的氨基酸位置处包含氨基酸突变。

24.如项目1-18中任一项所述的方法，其中所述Cas9分子包含HNH样结构域切割活性，但不具有N末端RuvC样结构域切割活性。

25.如项目24所述的方法，其中所述Cas9分子在对应于酿脓链球菌Cas9的氨基酸位置D10的氨基酸位置处包含氨基酸突变。

26.如项目1-25中任一项所述的方法，其中所述Cas9分子是Cas9多肽。

27.如项目26所述的方法，其中所述Cas9多肽是金黄色葡萄球菌Cas9多肽。

28.如项目26所述的方法，其中所述Cas9多肽是酿脓链球菌Cas9多肽。

29.如项目26-28中任一项所述的方法，其中所述gRNA分子和所述Cas9多肽在预先形成的核糖核苷酸复合物中缔合。

30.如项目1-25中任一项所述的方法，其中所述Cas9分子是编码Cas9多肽的核酸。

31.如项目1或12-30中任一项所述的方法，其中所述修饰的gRNA分子包含5'-端帽结构。

32.如项目31所述的方法，其中所述5'-端帽结构是3'-O-Me-m7G(5')ppp(5')G抗反向帽类似物(ARCA)。

33.如项目1或12-32中任一项所述的方法，其中所述修饰的gRNA分子包含3'-端聚-A尾部。

34.如项目1-33中任一项所述的方法，所述方法还包括使所述细胞或所述细胞群体与模板核酸接触。

35.如项目34所述的方法，其中所述模板核酸是单链寡脱氧核苷酸(ssODN)。

36.如项目35所述的方法，其中使用腺相关病毒(AAV)或整合缺陷型慢病毒(ILDV)将所述模板核酸递送至所述细胞或细胞群体。

37.如项目35所述的方法，其中所述ssODN包含5'硫代磷酸酯修饰。

38.如项目35所述的方法，其中所述ssODN包含3'硫代磷酸酯修饰。

39.如项目35所述的方法，其中所述ssODN包含5'硫代磷酸酯修饰和3'硫代磷酸酯修饰。

40.如项目1-39中任一项所述的方法，所述方法还包括使所述细胞或所述细胞群体与转基因接触，其中所述接触在允许所述转基因整合到所述细胞的基因组中或整合到所述细胞群体的细胞中的条件下发生。

41.如项目40所述的方法，其中所述转基因是编码免疫相同的人类白细胞抗原(HLA)、化疗选择标记、细胞表面抗原或自杀基因的基因。

42.如项目41所述的方法，其中所述转基因是HLA基因或其片段。

43.如项目39所述的方法，其中所述HLA基因选自下组，该组由以下组成：HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DRB3/4/5、HLA-DQ和HLA-DP。

44.如项目1-43中任一项所述的方法，所述方法还包括使所述细胞或所述细胞群体与eiCas9分子接触。

45.如项目44所述的方法，其中所述eiCas9与转录阻遏物或转录激活物融合。

46.如项目1-4和5-8中任一项所述的方法，其中所述细胞包含细胞群体。

47.如项目46所述的方法，所述方法还包括通过使用等位基因特异性抗体对所述细胞群体进行分选来选择表达基因的特定等位基因的细胞。

48.如项目47所述的方法，其中所述基因是免疫原性基因。

49.如项目47或项目48所述的方法，其中所述细胞群体通过荧光激活细胞分选法(FACS)或免疫磁微珠介导的细胞分选法进行分选。

50.如项目1-4中任一项所述的方法，所述方法还包括从在所述内源免疫原性基因处具有第一单倍型的第一受试者分离血细胞。

51.如项目1-4或50中任一项所述的方法，所述方法还包括在所述接触步骤之后将所述血细胞转移至在所述内源免疫原性基因处具有第二单倍型的第二受试者。

52.如项目1-51中任一项所述的方法，所述方法还包括在所述接触步骤之后离体扩增所述细胞或细胞群体。

53.如项目1-52中任一项所述的方法，所述方法还包括T细胞反向添加。

54.如项目4所述的方法，其中基于供体和受体细胞之间增加的匹配和通过混合淋巴细胞或白细胞反应测定而确定的降低的免疫原性，所述单倍型修饰的血细胞受到所述第二受试者排斥的可能性降低。

55.如项目4所述的方法，其中所述单倍型修饰的血细胞不被所述第二受试者排斥。

56.根据项目5所述的方法，其中所述富集表达所述基因但不表达所述第一等位基因的细胞的步骤包括使用流式细胞术对所述细胞进行分选。

57.根据项目56所述的方法，其中所述富集表达所述基因但不表达所述第一等位基因的细胞的步骤包括使多个细胞中的每一个与第一抗体和第二抗体接触，所述第一抗体特异性结合由所述基因的第一等位基因编码的可识别的基因产物的第一变体，并且所述第二抗体结合所述可识别的基因产物的第二变体。

58.根据项目5、56或57中任一项所述的方法，其中所述可识别的基因产物是细胞表面标记。

59.根据项目58所述的方法，其中所述可识别的基因产物是人类白细胞抗原(HLA)。

60.根据项目59所述的方法，其中所述基因的第一等位基因编码所述可识别的基因产物的非功能性变体。

61.根据项目56所述的方法，其中所述富集表达所述基因但不表达所述第一等位基因的细胞的步骤包括在多个细胞的每个细胞中检测与所述可识别的基因产物的功能变体缔合的物质或信号。

62.如项目1-61中任一项所述的方法，其中所述细胞或细胞群体是原代血细胞或原代血细胞群体。

63.一种由如项目1-62中任一项所述的方法制备的组合物。

64.根据项目63所述的组合物，所述组合物用作药剂。

65.根据项目63所述的组合物，所述组合物用于移植中。

66.一种通过如项目1-62中任一项所述的方法改变的细胞或细胞群体。

67.一种药物组合物，所述药物组合物包含如项目66所述的细胞或细胞群体。

68.一种治疗或预防受试者的疾病的方法，所述方法包括向所述受试者施用修饰的细胞或通过如项目1-62中任一项所述的方法改变的细胞。

69.一种血细胞，所述血细胞包含在内源免疫原性基因的第一等位基因中的修饰，其中所述血细胞已经与第一等位基因特异性修饰的gRNA分子和Cas9分子接触。

70.一种血细胞群体，所述血细胞群体包含在内源免疫原性基因的第一等位基因中的修饰，其中所述血细胞群体已经与第一等位基因特异性修饰的gRNA分子和Cas9分子接触。

71.如项目69所述的血细胞或如项目70所述的血细胞群体，其中所述免疫原性基因是人类白细胞抗原(HLA)基因。

72.如项目1或3-5中任一项所述的方法，所述方法还包括使用数据库模式来选择所述第一等位基因特异性gRNA分子。

73.如项目2或项目71所述的方法，其中所述使用数据库模式来选择所述第一等位基因特异性gRNA分子的步骤包括：

通过计算系统的界面接收第一受试者的内源免疫原性基因的第一多个等位基因的列表；

通过计算系统的界面接收第二受试者的内源免疫原性基因的第二多个等位基因的列表；

处理所述第一和第二多个等位基因的列表以识别所述第一多个等位基因和所述第二多个等位基因之间的一个或多个错配的等位基因；

查询数据库以确定一个或多个gRNA分子是否适合于编辑所述第二多个等位基因的一个或多个错配的等位基因；

响应于确定来自所述数据库的一个或多个gRNA分子适合于编辑所述一个或多个错配的等位基因，产生识别被认定为合适的所述一个或多个gRNA分子的gRNA分子列表；

对gRNA分子列表进行排序；以及

显示经排序的gRNA分子列表。

74.一种存储由用于实施数据库模式的处理设备执行的指令的非暂时性计算机可读存储介质，所述数据库模式包括：

等位基因表，其存储与主要HLA等位基因有关的数据；

gRNA表，其存储与gRNA有关的数据；

等位基因-gRNA-关系表，其存储所述等位基因表的记录和所述gRNA表的记录之间的关系，所述等位基因表与所述等位基因-gRNA-关系表具有一对多关系，并且所述gRNA表与所述等位基因-gRNA-关系表具有一对多关系；

单倍型表，其存储与单倍型相关的数据，所述等位基因表与所述单倍型表具有一对多关系；

单倍型频率表，其存储与多种血统内发生的单倍型频率有关的数据，所述单倍型表与所述单倍型频率表具有一对一关系；

血统表，其存储与血统有关的数据；

血统-单倍型-关系表，其存储所述单倍型频率表的记录和所述血统表的记录之间的关系，所述单倍型-频率表与所述血统-单倍型-关系表具有一对多关系，所述血统表与所述血统-单倍型-关系表具有一对多关系；

等位基因频率表，其存储与在多种血统内发生的等位基因频率有关的数据，所述等位基因表与所述等位基因频率表具有一对一关系；和

等位基因-血统-关系表，其存储所述等位基因频率表的记录和所述血统表的记录之间的关系，所述等位基因频率表与所述等位基因-血统-关系表具有一对多关系，并且所述血统表与所述等位基因-血统-关系表具有一对多关系。75.如项目74所述的非暂时性计算机可读存储介质，其中所述数据库模式还包括：

次要抗原表，其存储与次要组织相容性抗原有关的数据；和

主要-次要-限制表，其存储与对次要组织相容性抗原的HLA限制有关的数据，所述次要-抗原表与所述主要-次要-限制表具有一对多关系，并且所述等位基因表与所述主要-次要-限制表具有一对多关系。

76.如项目74所述的非暂时性计算机可读存储介质，其中所述等位基因表包含等位基因id密钥、等位基因属性、基因名称属性和等位基因序列属性。

77.如项目74所述的非暂时性计算机可读存储介质，其中所述gRNA表包含gRNA id密钥、Cas变体属性、gRNA序列(具有PAM)属性、gRNA序列(无PAM)属性、链属性、正交性分数属性以及脱靶列表信息属性。

78.如项目74所述的非暂时性计算机可读存储介质，其中所述等位基因-指导-关系表包含关系id密钥、与所述等位基因表的等位基因id密钥对应的等位基因id属性、与所述gRNA表的gRNA id密钥对应的gRNA id属性。

79.如项目74所述的非暂时性计算机可读存储介质，其中所述单倍型表包含单倍型id密钥、HLA-A等位基因属性、HLA-B等位基因属性、HLA-C等位基因属性、HLA-DRB1基因座属性、HLA-DRB3/DRB4/DRB5基因座属性、HLA-DQB1等位基因基因座属性。

80.如项目74所述的非暂时性计算机可读存储介质，其中所述单倍型频率表包含单倍型频率id密钥、与所述单倍型表的单倍型id密钥对应的单倍型id属性、在欧洲人血统组中单倍型出现频率的属性、在欧洲人血统组中单倍型出现排序的属性、在非裔美国人血统组中单倍型出现频率的属性、在非裔美国人血统组中单倍型出现排序的属性、在亚洲人血统组中单倍型出现频率的属性、在亚洲人血统组中单倍型出现排序的属性、在西班牙裔血统组中单倍型出现频率的属性、在西班牙裔血统组中单倍型出现排序的属性、在犹太人血统组中单倍型出现频率的属性、以及在犹太人血统组中单倍型出现排序的属性。

81.如项目74所述的非暂时性计算机可读存储介质，其中所述等位基因频率表包含等位基因频率id密钥、对应于所述等位基因表的等位基因id密钥的等位基因id属性、在欧洲人血统组中等位基因出现频率的属性、在欧洲人血统组中等位基因出现排序的属性、在非裔美国人血统组中等位基因出现频率的属性、在非裔美国人血统组中等位基因出现排序的属性、在亚洲人血统组中等位基因出现频率的属性、在亚洲人血统组中等位基因出现排序的属性、在西班牙裔血统组中等位基因出现频率的属性、在西班牙裔血统组中等位基因出现排序的属性、在犹太人血统组中等位基因出现频率的属性、以及在犹太人血统组中等位基因出现排序的属性。

82.如项目74所述的非暂时性计算机可读存储介质，其中所述等位基因频率表与所述等位基因表具有标识关系，并且完全依赖于所述等位基因表。

83.如项目74所述的非暂时性计算机可读存储介质，其中所述单倍型频率表与所述单倍型表具有标识关系，并且完全依赖于所述单倍型表。

84.如项目74所述的非暂时性计算机可读存储介质，其中所述gRNA被设计用于编辑HLA等位基因。

85.如项目74所述的非暂时性计算机可读存储介质，其中所述单倍型是不同HLA基因的等位基因组。

86.一种在用于识别用于编辑一个或多个等位基因的gRNA的计算系统中执行的方法，所述方法包括：

通过计算系统的界面接收靶向移植受体的第一多个等位基因的列表；

通过计算系统的界面接收靶向移植供体的第二多个等位基因的列表；

查询数据库以确定一个或多个gRNA是否适合于编辑所述第二多个等位基因的一个或多个错配的等位基因；

响应于确定来自所述数据库的一个或多个gRNA适合于编辑所述一个或多个错配的等位基因，产生识别被认定为合适的所述一个或多个gRNA的gRNA列表；

对所述gRNA列表进行排序；以及

显示经排序的gRNA列表。

87.如项目86所述的方法，其中来自所述gRNA列表的gRNA能够编辑来自所述靶向移植供体的第二多个等位基因的错配等位基因，以增加所述第一多个等位基因和所述第二多个等位基因之间匹配等位基因的数量。

88.如项目86所述的方法，其中来自所述gRNA列表的gRNA能够编辑所述一个或多个错配的等位基因，以降低在所述靶向移植受体中发生移植物抗宿主病(GVHD)的可能性。

89.如项目86所述的方法，所述方法还包括显示所述第一多个等位基因中的每一个的DNA序列。

90.如项目86所述的方法，其中所述数据库存储指示种族群体中出现等位基因的可能性的数字。

91.如项目86所述的方法，所述方法还包括：

显示血统内所述第一多个等位基因中的每一个的出现频率。

92.如项目86所述的方法，所述方法还包括：

显示所述第一多个等位基因中的每一个与次要组织相容性抗原之间的限制性关系。

93.如项目86所述的方法，其中所述第一多个等位基因是所述靶向移植受体的母系遗传的主要HLA单倍型，并且所述第二多个等位基因是所述靶向移植供体的母系遗传的主要HLA单倍型。

94.如项目86所述的方法，其中所述第一多个等位基因的列表包含一个等位基因、两个等位基因、三个等位基因、四个等位基因、五个等位基因、六个等位基因、七个等位基因或八个等位基因。

95.如项目86所述的方法，其中所述第二多个等位基因的列表包含一个等位基因、两个等位基因、三个等位基因、四个等位基因、五个等位基因、六个等位基因、七个等位基因或八个等位基因。

96.如项目86所述的方法，其中所述gRNA列表识别一个用于编辑一个错配的等位基因的gRNA。

97.如项目86所述的方法，其中所述gRNA列表识别多于一个用于编辑多于一个错配的等位基因的gRNA。

98.如项目86所述的方法，其中所述gRNA列表识别一个用于编辑多于一个错配的等位基因的gRNA。

99.如项目86所述的方法，其中所述数据库使用如项目74所述的数据库模式来实施。

100.一种用于实施数据库模式的系统，所述系统包含：

处理器；和

存储数据库模式的存储器，其包括：

等位基因表，其存储与HLA等位基因有关的数据；

gRNA表，其存储与gRNA有关的数据；

血统表，其存储与血统信息有关的数据；

血统单倍型关系表，其存储所述单倍型表的记录和所述血统表的记录之间关系，所述单倍型表与所述血统单倍型关系表具有一对多关系，所述血统表与所述血统单倍型关系表具有一对多关系；

等位基因频率表，其存储与在多种血统内发生的等位基因频率有关的数据，所述等位基因表与所述等位基因频率表具有一对多关系；和

等位基因-血统-关系表，其存储所述等位基因频率表的记录和所述血统表的记录之间的关系，所述等位基因频率表与所述等位基因-血统-关系表具有一对多关系，并且所述血统表与所述等位基因-血统-关系表具有一对多关系。

101.一种用于识别用于编辑一个或多个等位基因的gRNA的系统，所述系统包括：

处理器；和

存储指令的存储器，所述指令在被执行时使得所述处理器：

接收靶向移植受体的第一多个等位基因的列表；

接收靶向移植供体的第二多个等位基因的列表；

对所述gRNA列表进行排序；以及

显示经排序的gRNA列表。

102.一种存储由处理设备执行的指令的非暂时性计算机可读介质，所述指令的执行使得所述处理设备：

根据模式创建数据库，所述模式定义：

等位基因表，其存储与HLA等位基因有关的数据；

gRNA表，其存储与gRNA有关的数据；

血统表，其存储与血统信息有关的数据；

Claims

1.一种产生免疫相容性血细胞的方法，所述方法包括：

使用数据库模式来选择第一等位基因特异性gRNA分子，以及

6.如权利要求5所述的方法，其中所述细胞群体是血细胞群体。

7.如权利要求6所述的方法，其中所述血细胞是造血干细胞/祖细胞(HSC)。

8.如权利要求5-7中任一项所述的方法，其中所述细胞群体选自下组，该组由以下组成：循环血细胞群体、动员的血细胞群体、骨髓细胞群体、髓样祖细胞群体、淋巴样祖细胞群体、淋巴样细胞群体、多能祖细胞群体、谱系限制性祖细胞群体、内皮细胞群体、或间充质基质细胞群体、或其组合。

9.如权利要求1-4中任一项所述的方法，其中所述血细胞是干细胞。

10.如权利要求4所述的方法，其中所述干细胞是造血干细胞/祖细胞(HSC)。