CN110418841A

CN110418841A - 工程化的靶特异性核酸酶

Info

Publication number: CN110418841A
Application number: CN201780051010.XA
Authority: CN
Inventors: J·C·米勒; E·J·瑞巴
Original assignee: Sangmore Biotherapy Ltd By Share Ltd
Current assignee: Sangmore Biotherapy Ltd By Share Ltd; Sangamo Therapeutics Inc
Priority date: 2016-08-24
Filing date: 2017-08-24
Publication date: 2019-11-05
Also published as: BR112019003327A2; KR20240144493A; WO2018039448A9; JP2019528073A; AU2017315414A1; RU2019108242A3; SG10202007392SA; KR20220145913A; SG10201913948PA; US20210024958A1; AU2017315414B2; US11827900B2; EP3504327B1; IL264792B1; US20240132917A1; US20240229079A9; AU2017315414A9; AU2024203182A1; ES2901989T3; EP3504327A4

Abstract

本文描述了工程化的核酸酶，所述工程化的核酸酶包含裂解结构域(例如，FokI或其同源物)和/或DNA结合结构域(锌指蛋白、TALE、单指导RNA)中的突变，以使得中靶特异性提高。

Description

工程化的靶特异性核酸酶

相关申请的交叉引用

本申请要求2016年8月24日提交的美国临时申请No.62/378,978和2017年1月9日提交的美国临时申请No.62/443,981的权益，所述临时申请的公开内容特此以引用的方式整体并入。

发明权利声明

在联邦资助的研究下进行

不适用。

技术领域

本公开涉及多肽和基因组工程化以及同源重组的领域。

背景技术

诸如工程化锌指核酸酶(ZFN)、转录活化因子样效应物核酸酶(TALEN)、具有工程化crRNA/tracr RNA(‘单指导RNA’)的CRISPR/Cas系统(也称为RNA指导的核酸酶)和/或基于Argonaute系统的核酸酶(例如，来自嗜热栖热菌(T.thermophilus)，被称为‘TtAgo’(Swarts等人(2014)Nature 507(7491)：258-261)的人工核酸酶包含与裂解结构域缔合或可操作连接的DNA结合结构域(核苷酸或多肽)并且已用于基因组序列的靶向改变。例如，核酸酶已用于插入外源序列，使一种或多种内源基因失活，产生基因表达模式改变的生物体(例如作物)和细胞系等等。参见例如，美国专利No.9,255,250；9,200,266；9,045,763；9,005,973；8,956,828；8,945,868；8,703,489；8,586,526；6,534,261；6,599,692；6,503,717；6,689,558；7,067,317；7,262,054；7,888,121；7,972,854；7,914,796；7,951,925；8,110,379；8,409,861；美国专利公布20030232410；20050208489；20050026157；20050064474；20060063231；20080159996；201000218264；20120017290；20110265198；20130137104；20130122591；20130177983和20130177960以及20150056705。例如，核酸酶对(例如，锌指核酸酶，TALEN，dCas-Fok融合体)可用于裂解基因组序列。所述对中的每个成员通常包括连接至核酸酶的一个或多个裂解结构域(或半结构域)的工程化(非天然存在的)DNA结合蛋白。当DNA结合蛋白结合至其靶位点时，连接至那些DNA结合蛋白的裂解结构域被定位成使得基因组的二聚化和随后裂解可发生。

通常，分子间离子对(盐桥)对于许多DNA-蛋白质相互作用是必需的。通常，带电荷的氨基酸侧链(即-NH3+、＝NH2+)与DNA主链的带负电荷的磷酸根基团相互作用以形成盐桥。这些离子对可以是非常动态的，并且可在两种离子之间插入溶剂(例如水分子)时在两种离子的直接配对与为‘溶剂分离的离子对’的配对之间交替(Chen等人(2015)J PhysChem Lett 6：2733-2737)。

关于锌指蛋白，ZFP对靶DNA序列的特异性取决于锌指结构域与特定DNA碱基之间的序列特异性接触。此外，锌指结构域还包含参与同DNA主链的磷酸根的非特异性离子对相互作用的氨基酸残基。Elrod-Erickson等人((1996)Structure 4：1171)通过锌指蛋白及其同源DNA靶标的共结晶证明，存在能够通过形成氢键与DNA主链上的磷酸根相互作用的特定氨基酸。采用众所周知的Zif268主链的锌指蛋白通常具有精氨酸作为其第二β-折叠链的氨基末端残基，其也是第二不变半胱氨酸的羧基末端的第二位置(参见图5A)。该位置在每个锌指结构域内可称为(-5)，因为它是α-螺旋起始前的第5个残基(图5A)。该位置处的精氨酸可经由与其侧链胍基团形成带电荷的氢键而与DNA主链上的磷酸根相互作用。Zif268主链中的锌指蛋白通常在为第一不变半胱氨酸的氨基末端的4个残基的位置处具有赖氨酸。该位置在每个指内可称为(-14)，因为它是锌指的α-螺旋起始前的第14个残基，在锌配位半胱氨酸残基之间具有两个残基(图5A)。赖氨酸可经由与其侧链氨基基团形成水介导的带电荷的氢键而与DNA主链上的磷酸根相互作用。由于沿DNA主链都发现了磷酸根基团，因此锌指与DNA分子之间的这种类型的相互作用通常被认为是非序列特异性的(J.Miller，Massachusetts Institute of Technology Ph.D.Thesis，2002)。

最近的研究假设，一些核酸酶中的非特异性磷酸根接触侧链也可产生那些核酸酶的一定量的非特异性裂解活性(Kleinstiver等人，(2016)Nature 529(7587)：490-5；Guilinger等人(2014)Nat Meth：429-435)。研究人员已经提出这些核酸酶可具有‘过量DNA结合能’，这意味着所述核酸酶对其DNA靶标的亲和力可能大于基本上结合和裂解靶位点所需的亲和力。因此，尝试降低TALE DNA结合结构域(Guilinger，同上)或Cas9DNA结合结构域(Kleinstiver，同上)中的阳离子电荷，以降低这些核酸酶的DNA结合能，从而产生增加的体外裂解特异性。然而，另外的研究(Sternberg等人(2015)Nature 527(7576)：110-113)也表明一些阳离子氨基酸在Cas9核酸酶结构域的正确折叠和活化中的作用，所述阳离子氨基酸在Cas9DNA结合结构域的Kleinstiver研究中突变。因此，这些氨基酸在Cas9活性中的确切作用尚不清楚。

对于通过序列选择性(人工)核酸酶的最佳裂解特异性，期望安排条件以使得中靶结合和活性不饱和。在饱和条件下-根据定义-使用过量的核酸酶而不是实现完全中靶活性所必需的。这种过量不提供中靶益处，但仍可导致脱靶位点处的裂解增加。对于单体核酸酶，可容易地通过进行简单的剂量响应研究以鉴别和避免滴定曲线上的饱和稳定阶段来避免饱和条件。然而，对于二聚体核酸酶如ZFN、TALEN或dCas-Fok，如果单独单体的结合亲和力不同，则鉴别和避免饱和条件可能更复杂。在此类情况下，使用简单的1∶1核酸酶比例的剂量响应研究将仅揭示较弱结合单体的饱和点。在这种情况下，如果，例如，单体亲和力相差10倍，则在1∶1滴定研究中鉴别的饱和点处，更高的亲和力单体将以比其所需的浓度高10倍的浓度存在。所得的过量更高亲和力单体可进而导致脱靶活性增加，而不在预期靶标处提供任何有益的裂解增加，这潜在导致对任何给定核酸酶对的总体特异性降低。

为了减少脱靶裂解事件，已经开发了工程化的专性异二聚体裂解半结构域。参见例如，美国专利No.7,914,796；8,034,598；8,961,281和8,623,618；美国专利公布No.20080131962和20120040398。仅在不同工程化的裂解结构域通过ZFP定位在适当的靶位点时，这些专性异二聚体才二聚化并裂解它们的靶标，从而减少和/或消除单体脱靶裂解。

然而，仍然需要针对工程化的核酸酶裂解系统的另外方法和组合物以降低脱靶裂解活性。

发明内容

本公开提供了相对于其他非预期的裂解位点(也称为脱靶位点)提高核酸酶(例如，核酸酶对)对其预期靶标的特异性的方法和组合物。因此，本文描述了人工核酸酶(例如，锌指核酸酶(ZFN)、TALEN、CRISPR/Cas核酸酶)，其包含一个或多个DNA结合结构域区域(例如，锌指蛋白或TALE的主链)中的突变和/或FokI核酸酶裂解结构域或裂解半结构域中的一种或多种突变。此外，本文描述了通过使用这些新颖的核酸酶(例如，ZFN、TALEN等)和/或通过独立滴定核酸酶复合物的工程化裂解半结构域配偶体来提高裂解活性的特异性的方法。当单独或组合使用时，本发明的方法和组合物通过脱靶裂解活性的降低提供靶向特异性的令人惊讶且出人意料的增加。本公开还提供了使用这些组合物用于靶向裂解目标区域中的细胞染色质和/或经由在细胞中的预定目标区域处靶向整合而整合转基因的方法。

因此，在一方面，本文描述了一种工程化的核酸酶裂解半结构域，其与这些突变体所来源于的亲本(例如，野生型)裂解结构域相比包含一种或多种突变。在某些实施方案中，所述一种或多种突变是附表和附图中任一者中所示的突变中的一种或多种，包括这些突变体与彼此以及与其他突变体(如二聚化和/或催化结构域突变体以及切口酶突变)的任何组合。如本文所述的突变包括但不限于改变裂解结构域的电荷的突变，例如带正电荷的残基突变为非带正电荷的残基(例如，K和R残基的突变(例如，突变为S)；N残基的突变(例如，突变为D)和Q残基的突变(例如，突变为E)；基于分子建模预测为接近DNA主链并且显示FokI同源物的变异的残基的突变(图1和17)；和/或其他残基处的突变(例如，美国专利No.8,623,618和Guo等人，(2010)J.Mol.Biol.400(1)：96-107)。

使用第二标准发现最有前景的突变。当FokI与DNA结合时，最初有前景的突变是预测为接近DNA主链的带正电荷的残基。本文所述的裂解结构域可包括本文所述的一种、两种、三种、四种、五种或更多种突变，并且还可包括另外的已知突变。因此，当单独使用时，本发明的突变不包括美国专利No.8,623,618中公开的特定突变(例如，N527D、S418P、K448M、Q531R等)；然而，在此提供了可与美国专利No.8,623,618的突变体组合使用的新颖突变体。其中二聚体对中的催化核酸酶结构域之一包含一种或多种使其催化失活的突变的切口酶突变体(参见美国专利No.8,703,4899,200,266；和9,631,186)也可与本文所述的任何突变体组合使用。切口酶可以是ZFN切口酶、TALEN切口酶和CRISPR/dCas系统。

在某些实施方案中，工程化的裂解半结构域源自FokI或FokI同源物，并且包含相对于如SEQ ID NO：1中所示的野生型全长FokI编号的氨基酸残基416、422、447、448和/或525中的一个或多个或FokI同源物中的相应残基中的突变(参见图17)。在其他实施方案中，源自FokI的裂解半结构域包含氨基酸残基414-426、443-450、467-488、501-502和/或521-531中的一个或多个，包括387、393、394、398、400、416、418、422、427、434、439、441、442、444、446、448、472、473、476、478、479、480、481、487、495、497、506、516、523、525、527、529、534、559、569、570和/或571中的一个或多个中的突变。所述突变可包括在相应位置处与FokI同源的天然限制酶中发现的残基的突变(图17)。在某些实施方案中，所述突变是取代，例如用任何不同的氨基酸，例如丙氨酸(A)、半胱氨酸(C)、天冬氨酸(D)、谷氨酸(E)、组氨酸(H)、苯丙氨酸(F)、甘氨酸(G)、天冬酰胺(N)、丝氨酸(S)或苏氨酸(T)取代野生型残基。考虑突变体的任何组合，包括但不限于附表和附图中所示的那些。在某些实施方案中，所述FokI核酸酶结构域包含416、422、447、479和/或525(相对于野生型，SEQ ID NO：1编号)中的一个或多个处的突变。所述核酸酶结构域还可包含位置418、432、441、448、476、481、483、486、487、490、496、499、523、527、537、538和559处的一种或多种突变，包括但不限于ELD、KKR、ELE、KKS。参见例如，美国专利No.8,623,618。在其他实施方案中，所述裂解结构域包含表15中所示的残基中的一个或多个(例如，419、420、425、446、447、470、471、472、475、478、480、492、500、502、521、523、526、530、536、540、545、573和/或574)处的突变。在某些实施方案中，本文所述的变体裂解结构域包含参与核酸酶二聚化的残基的突变(二聚化结构域突变)，和一种或多种另外的突变；例如磷酸根接触残基的突变：例如二聚化突变体(如ELD、KKR、ELE、KKS等)与二聚化结构域外的氨基酸位置处(例如可参与磷酸根接触的氨基酸残基中)的一种、两种、三种、四种、五种、六种或更多种突变的组合。在一个优选的实施方案中，位置416、422、447、448和/或525处的突变包括用不带电荷或带负电荷的氨基酸置换带正电荷的氨基酸。在其他实施方案中，进行位置446、472和/或478(以及例如二聚化或催化结构域中任选的另外残基)处的突变。

在其他实施方案中，除了本文描述的突变之外，所述工程化的裂解半结构域还包含二聚化结构域中，例如氨基酸残基490、537、538、499、496和486中的突变。在一个优选的实施方案中，本发明提供了融合蛋白，其中所述工程化的裂解半结构域包含多肽，其中除了本文所述的一种或多种突变外，位置486处的野生型Gln(Q)残基被Glu(E)残基置换，位置499处的野生型Ile(I)残基被Leu(L)残基置换，并且位置496处的野生型Asn(N)残基被Asp(D)或Glu(E)残基置换(“ELD”或“ELE”)。在另一个实施方案中，所述工程化的裂解半结构域源自野生型FokI或FokI同源裂解半结构域，并且除了氨基酸残基416、422、447、448或525处的一种或多种突变外还包含相对于野生型FokI(SEQ ID NO：1)编号的氨基酸残基490、538和537中的突变。在一个优选的实施方案中，本发明提供了一种融合蛋白，其中所述工程化的裂解半结构域包含多肽，其中除了本文所述的一种或多种突变外，位置490处的野生型Glu(E)残基被Lys(K)残基置换，位置538处的野生型Ile(I)残基被Lys(K)残基置换，并且位置537处的野生型His(H)残基被Lys(K)残基或Arg(R)残基置换(“KKK”或“KKR”)(参见美国专利8,962,281，其以引用的方式并入本文)。

在另一个实施方案中，所述工程化的裂解半结构域源自野生型FokI裂解半结构域或其同源物，并且除了氨基酸残基416、422、447、448或525处的一种或多种突变外还包含相对于野生型FokI编号的氨基酸残基490和538中的突变。在一个优选的实施方案中，本发明提供了一种融合蛋白，其中所述工程化的裂解半结构域包含多肽，其中除了位置416、422、447、448或525处的一种或多种突变外，位置490处的野生型Glu(E)残基被Lys(K)残基置换，并且位置538处的野生型Ile(I)残基被Lys(K)残基置换(“KK”)。在一个优选的实施方案中，本发明提供了一种融合蛋白，其中所述工程化的裂解半结构域包含多肽，其中除了位置416、422、447、448或525处的一种或多种突变外，位置486处的野生型Gln(Q)残基被Glu(E)残基置换，并且位置499处的野生型Ile(I)残基被Leu(L)残基置换(“EL”)(参见美国专利8,034,598，其以引用的方式并入本文)。

在一方面，本发明提供了融合分子，其中所述工程化的裂解半结构域包含多肽，其中所述FokI催化结构域中位置387、393、394、398、400、402、416、422、427、434、439、441、446、447、448、469、472、478、487、495、497、506、516、525、529、534、559、569、570、571中的一个或多个处的野生型氨基酸残基被突变。在一些实施方案中，所述一种或多种突变将野生型氨基酸从带正电荷的残基改变为中性残基或带负电荷的残基。在任何这些实施方案中，所描述的突变体也可在包含一种或多种另外突变的FokI结构域中制备。在优选的实施方案中，这些另外的突变位于二聚化结构域中，例如，位置499、496、486、490、538和537处。突变包括一个或多个氨基酸残基的取代、插入和/或缺失。

在另一方面，上述工程化的裂解半结构域中的任一者可例如通过将它们与DNA结合结构域缔合而掺入人工核酸酶中，包括但不限于锌指核酸酶、TALEN、CRISPR/Cas核酸酶等。锌指核酸酶的锌指蛋白可包含非规范锌配位残基(例如CCHC而不是规范C2H2构型，参见美国专利9,234,187)。

在另一方面，提供了产生人工核酸酶的融合分子，所述融合分子包含如本文所述的DNA结合结构域和工程化的FokI或其同源物裂解半结构域。在某些实施方案中，所述融合分子的DNA结合结构域是锌指结合结构域(例如，工程化的锌指结合结构域)。在其他实施方案中，所述DNA结合结构域是TALE DNA结合结构域。在其他实施方案中，所述DNA结合结构域包含DNA结合分子(例如指导RNA)和催化失活的Cas9或Cfp1蛋白(dCas9或dCfp1)。在一些实施方案中，所述工程化的融合分子与催化失活的工程化的裂解半结构域形成核酸酶复合物，以使得二聚体核酸酶仅能够裂解双链DNA分子的仅一条链，从而形成切口酶(参见美国专利9,200,266)。

本发明的方法和组合物还包括识别靶序列的核苷酸的残基外的DNA结合结构域内的一个或多个氨基酸的突变(例如，‘ZFP主链’(在DNA识别螺旋区外)或‘TALE主链’(在RVD外)的一种或多种突变)，所述残基可与DNA主链上的磷酸根非特异性相互作用。因此，在某些实施方案中，本发明包括ZFP主链中阳离子氨基酸残基的突变，所述阳离子氨基酸残基不是核苷酸靶特异性所必需的。在一些实施方案中，ZFP主链中的这些突变包括将阳离子氨基酸残基突变为中性或阴离子氨基酸残基。在一些实施方案中，ZFP主链中的这些突变包括将极性氨基酸残基突变为中性或非极性氨基酸残基。在优选的实施方案中，相对于DNA结合螺旋在位置(-5)、(-9)和/或位置(-14)处进行突变。在一些实施方案中，锌指可包含在(-5)、(-9)和/或(-14)处的一种或多种突变。在其他实施方案中，多指锌指蛋白中的一个或多个锌指可包含(-5)、(-9)和/或(-14)中的突变。在一些实施方案中，(-5)、(-9)和/或(-14)处的氨基酸(例如精氨酸(R)或赖氨酸(K))被突变为丙氨酸(A)、亮氨酸(L)、Ser(S)、Asp(N)、Glu(E)、Tyr(Y)和/或谷氨酰胺(Q)。

在另一方面，提供了多核苷酸，所述多核苷酸编码如本文所述的任何工程化的裂解半结构域或融合蛋白。

在又一方面，还提供了细胞，所述细胞包含如本文所述的任何核酸酶、多肽(例如，融合分子或融合多肽)和/或多核苷酸。在一个实施方案中，所述细胞包含一对融合多肽，一种融合多肽除氨基酸残基393、394、398、416、421、422、442、444、447、448、473、480、530和/或525中的一种或多种突变外还包含ELD或ELE裂解半结构域，并且一种融合多肽除残基393、394、398、416、421、422、442、444、446、447、448、472、473、478、480、530和/或525处的一种或多种突变外还包含KKK或KKR裂解半结构域(参见美国专利8,962,281)。

在本文所述的任何这些融合多肽中，ZFP配偶体还可包含锌指DNA结合结构域中在(-5)、(-9)和/或(-14)位置中的突变。在一些实施方案中，位置-5处的Arg(R)被改变为Tyr(Y)、Asp(N)、Glu(E)、Leu(L)、Gln(Q)或Ala(A)。在其他实施方案中，位置(-9)处的Arg(R)被Ser(S)、Asp(N)或Glu(E)置换。在其他实施方案中，位置(-14)处的Arg(R)被Ser(S)或Gln(Q)置换。在其他实施方案中，所述融合多肽可包含锌指DNA结合结构域中的突变，其中(-5)、(-9)和/或(-14)位置处的氨基酸被改变为处于任何组合的以上列出的氨基酸中的任一者。

本文还提供了已被本发明的多肽和/或多核苷酸修饰的细胞。在一些实施方案中，所述细胞包含核酸酶介导的转基因的插入，或核酸酶介导的基因的敲除。所述修饰的细胞和源自所述修饰的细胞的任何细胞不一定不仅仅瞬时包含本发明的核酸酶，但是由此类核酸酶介导的基因组修饰仍然存在。

在又一方面，提供了用于靶向裂解目标区域中的细胞染色质的方法；引起在细胞中发生同源重组的方法；治疗感染的方法；和/或治疗疾病的方法。这些方法可在体外、离体或体内或其组合中实施。所述方法包括通过表达如本文所述的一对融合多肽(即，一对融合多肽，其中一种或两种融合多肽包含如本文所述的工程化的裂解半结构域)而在细胞中的预定目标区域裂解细胞染色质。在某些实施方案中，与没有如本文所述的突变的裂解结构域相比，中靶位点的靶向裂解增加至少50％至200％(或其间的任何值)或更多，包括50％-60％(或其间的任何值)、60％-70％(或其间的任何值、70％-80％(或其间的任何值)、80％-90％(或其间的任何值，90％至200％(或其间的任何值)。类似地，使用如本文所述的方法和组合物，脱靶位点裂解减少1-100倍或更多倍，包括但不限于1-50倍(或其间的任何值)。

本文所述的工程化的裂解半结构域可用于靶向裂解目标区域中的细胞染色质和/或在细胞中的预定目标区域进行同源重组的方法中。细胞包括培养的细胞、细胞系、生物体中的细胞、已从生物体中移除以在细胞和/或其子代将返回至处理后的生物体的情况下进行处理的细胞，以及从生物体中移除、使用本发明的融合分子进行修饰且然后在治疗方法(细胞疗法)中返回至生物体的细胞。细胞染色质中的目标区域可以是例如基因组序列或其部分。组合物包含融合分子或编码融合分子的多核苷酸，所述融合分子包含DNA结合分子(例如，工程化的锌指或TALE结合结构域或工程化的CRISPR指导RNA)和如所述的裂解半结构域。

融合分子可在细胞中表达，例如，通过将融合分子作为多肽递送至细胞，或通过将编码融合分子的多核苷酸递送至细胞，其中所述多核苷酸(如果为DNA)被转录并被翻译产生所述融合分子。此外，如果多核苷酸是编码融合分子的mRNA，则在将mRNA递送至细胞后，mRNA被翻译，从而产生所述融合分子。

在本发明的其他方面，提供了用于提高工程化的核酸酶特异性的方法和组合物。在一方面，提供了通过降低脱靶裂解活性来提高总体中靶裂解特异性的方法。在一些实施方案中，工程化的核酸酶复合物的工程化的裂解半结构域配偶体用于接触细胞，其中所述复合物的每个配偶体与另一配偶体以除一比一以外的比例给出。在一些实施方案中，两个配偶体(半裂解域)的比例以1∶2、1∶3、1∶4、1∶5、1∶6、1∶8、1∶9、1∶10或1∶20比例或其间的任何值给出。在其他实施方案中，两个配偶体的比例大于1∶30。在其他实施方案中，两个配偶体以被选择为不同于1∶1的比例部署。在一些方面，每个配偶体作为mRNA递送至细胞或在病毒或非病毒载体中递送，其中递送不同量的编码每个配偶体的mRNA或载体。在其他实施方案中，核酸酶复合物的每个配偶体可包含在单个病毒或非病毒载体上，但是有意地表达以使得一个配偶体以高于或低于另一配偶体的值表达，从而最终向细胞递送除一比一以外的比例的裂解半结构域。在一些实施方案中，使用具有不同表达效率的不同启动子表达每个裂解半结构域。在其他实施方案中，使用病毒或非病毒载体将两个裂解结构域递送至细胞，其中两者均由同一开放阅读框表达，但编码两个配偶体的基因通过序列(例如自裂解2A序列或IRES)分开，其产生以较低的速率表达的3’配偶体，以使得两个配偶体的比例为1∶2、1∶3、1∶4、1∶5、1∶6、1∶8、1∶9、1∶10或1∶20比例，或其间的任何值。在其他实施方案中，两个配偶体以被选择为不同于1∶1的比例部署。

还提供了在使用两种或更多种核酸酶复合物时降低脱靶核酸酶活性的方法。例如，本发明提供用于在使用两种或更多种核酸酶复合物时改变DNA结合分子比例的方法。在一些实施方案中，所述DNA结合分子是多肽DNA结合结构域(例如，ZFN、TALEN、dCas-Fok、megaTAL、大范围核酸酶)，而在其他实施方案中，所述DNA结合分子是与RNA指导的核酸酶一起使用的指导RNA。在优选的实施方案中，两种或更多种DNA结合分子的比例是1∶2、1∶3、1∶4、1∶5、1∶6、1∶8、1∶9、1∶10或1∶20比例，或其间的任何值。在其他实施方案中，两种DNA结合分子以被选择为不同于1∶1的比例部署。在一些方面，通过改变用于转染细胞的指导RNA的比例来实现非1∶1比例。在其他方面，通过改变用于处理目标细胞的每种Cas9蛋白质-指导RNA复合物的比例来改变所述比例。在另一方面，通过使用不同比例的编码指导RNA的DNA(病毒或非病毒)来处理细胞，或通过使用具有不同表达强度的启动子以差异地表达细胞内部的DNA结合分子来实现改变的比例。脱靶事件可减少2至1000倍(或其间的任何量)或更多，包括但不限于减少至少10、50、60、70、80、100、150、200、250、300、350、400、450、500、600、700、800、900、1000倍(或其间的任何值)或更多。

因此，在另一方面，用于裂解目标区域中的细胞染色质的方法可包括(a)选择目标区域中的第一序列；(b)将第一DNA结合分子工程化以特异性地结合至所述第一序列；(c)在细胞中表达第一融合分子，所述第一融合分子包含所述第一DNA结合结构域(例如，锌指、TALE、sgRNA)和裂解结构域(或半结构域)；以及(d)在所述细胞中表达第二融合蛋白，所述第二融合分子包含第二DNA结合结构域和第二裂解结构域(或半结构域)，其中所述融合分子中的至少一种包含如本文所述的接头，并且进一步地其中所述第一融合分子结合至所述第一序列，并且所述第二融合分子结合至位于自所述第一序列2与50个核苷酸之间的第二序列，以使得可形成活性核酸酶复合物并在所述目标区域中裂解细胞染色质。在某些实施方案中，两种融合分子在DNA结合结构域与催化核酸酶结构域之间包含如本文所述的接头。

还提供了改变细胞染色质区域，例如以引入靶向突变的方法。在某些实施方案中，改变细胞染色质的方法包括向所述细胞中引入一种或多种靶向核酸酶，以在预定位点处的细胞染色质中产生双链断裂；以及供体多核苷酸，所述供体多核苷酸与断裂区域中的细胞染色质的核苷酸序列具有同源性。细胞DNA修复过程通过双链断裂的存在来活化，并且供体多核苷酸用作用于断裂修复的模板，从而使得将供体的全部或部分核苷酸序列引入至细胞染色质中。因此，细胞染色质中的序列可改变，并且在某些实施方案中，可转化成存在于供体多核苷酸中的序列。

靶向改变包括但不限于点突变(即，将单个碱基对转化为不同的碱基对)、取代(即，将多个碱基对转化为相同长度的不同序列)、一个或多个碱基对的插入、一个或多个碱基对的缺失以及前述序列改变的任何组合。改变还可以括为编码序列的一部分的碱基对的转化，以使得编码的氨基酸被改变。

供体多核苷酸可以是DNA或RNA，可以是线型或环状的，并且可以是单链或双链的。其可作为裸核酸递、作为与一种或多种递送剂(例如，脂质体、纳米颗粒、泊洛沙姆)的复合物或包含在病毒递送媒介物(例如像腺病毒、慢病毒或腺相关病毒(AAV))中来递送至细胞。供体序列的长度可在10至1,000个核苷酸(或其间任何整数值的核苷酸)或更长的范围内。在一些实施方案中，供体包含由具有靶向裂解位点的同源区域侧接的全长基因。在一些实施方案中，供体缺少同源区域并且通过与同源性无关的机制(即NHEJ)来整合至靶基因座中。在其他实施方案中，供体包含由用于细胞(即，用于基因校正)的同源区域侧接的核酸的较小片段。在一些实施方案中，供体包含编码功能或结构组分如shRNA、RNAi、miRNA等的基因。在其他实施方案中，供体包含编码调控元件的序列，所述调控元件结合至目标基因和/或调节目标基因的表达。在其他实施方案中，供体是结合至目标基因和/或调节目标基因的表达的目标调控蛋白(例如，ZFP TF、TALE TF或CRISPR/Cas TF)。

对于任何上述方法，细胞染色质可处于染色体、游离基因或细胞器基因组中。细胞染色质可存在于任何类型的细胞中，所述细胞包括但不限于原核和真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、灵长类动物细胞和人细胞。

在又一方面，还提供了包含如本文所述的任何多肽(例如，融合分子)和/或多核苷酸的细胞。在一个实施方案中，所述细胞包含融合分子对，每种融合分子包含如本文所公开的裂解结构域。细胞包括培养的细胞、生物体中的细胞以及已从生物体中移除以在细胞和/或其子代将返回处理后的生物体的情况下进行处理的细胞。细胞染色质中的目标区域可为例如基因组序列或其部分。

在另一方面，本文描述了一种试剂盒，其包括如本文所述的融合蛋白或编码如本文所述的一种或多种锌指蛋白、裂解结构域和/或融合蛋白的多核苷酸；辅助试剂；以及任选的说明书和合适的容器。所述试剂盒还可包含一种或多种核酸酶或编码此类核酸酶的多核苷酸。

鉴于总体公开内容，这些和其他方面将对本领域技术人员显而易见。

附图说明

图1描绘野生型FokI核酸酶的一部分的氨基酸序列(SEQ ID NO：1)和核苷酸序列(SEQ ID NO：2)。所述序列示出FokI催化核酸酶结构域，并且编号是相对于用于产生晶体结构1FOK.pdb和2FOK.pdb(Wah同上)的野生型FokI蛋白(核酸酶结构域的氨基酸Q开始于384)。加框位置表示可能的突变位点。

图2A至2C是示出与DNA分子相互作用的FokI结构域的模型的示意图。图2A指示氨基酸R422、R416和K525的位置。图2B指示氨基酸R447、K448和R422的位置。图2C是示出可制备的不同类型的ZFN的子集的图示，所述ZFN在锌指主链中掺入1、2或3(分别为1x、2x或3x)种突变(R->Q或R->L)。黑色箭头指示突变的位置。

图3A和3B示出携带本文所述的新颖FokI突变的BCL11A特异性ZFN的活性。图3A示出针对BCL11A同源靶标(用独特的‘牌照’标识符PRJIYLFN，SEQ ID NO：13表示)和也通过其“牌照”标识符NIFMAEVG(SEQ ID NO：14)和PEVYOHIU(SEQ ID NO：20)鉴别的两个脱靶位点的BCL11A特异性ZFNSBS#51857-ELD/SBS#51949-KKR在CD34+细胞中的靶向修饰。ZFP描述于PCT/US2016/032049中。所有实验均用2μg的每种ZFN mRNA进行用于核酸酶递送，并且值表示与核酸酶活性一致的含有插入和缺失(插入缺失％)的序列读段的百分比。图3A示出当丝氨酸残基被取代到一种或两种ZFN中的FokI结构域的位置416、422、447、448和525中时的结果。图3B示出类似的数据集，除了异二聚体二聚化结构域FokI主链已被转换，即图3A示出使用SBS#51857-ELD/SBS#51949-KKR对中的突变的结果，而图3B示出使用SBS#51857-KKR/SBS#51949-ELD对中的突变的结果。

图4是描绘许多TCRA(所靶向的恒定区，也称为TRAC)的特异性ZFN FokI变体(PCT公布WO2017106528)的中靶和脱靶活性的图。除了亲本ZFN对的两个重复外，两种ZFN之一中的FokI结构域在带正电荷的残基处携带突变。计算ZFN-DNA分子模型的FokI中突变的残基的α碳与DNA主链中最接近的磷酸根氧之间的距离(Miller等人(2007)NatBiotech 25(7)：778-785)，并且数据点基于这种计算的距离进行颜色编码(＜10埃：灰色；＞10埃：黑色)。每个数据点表示在所述对中的ZFN之一上携带FokI突变的不同ZFN对的中靶活性和组合的脱靶活性。指示了表示亲本对的数据点。

图5A和5B是描绘锌指的主链区域的示意图。图5A(SEQ ID NO：3)示出Zif268蛋白的第二指中的氨基酸，其中指示β折叠和α螺旋结构。还示出参与特定DNA碱基识别的氨基酸的位置(-1至6)。具有与DNA上的磷酸根主链相互作用的潜力的带正电荷的残基通过正方形表示。参与锌配位的不变半胱氨酸残基加下划线。图5B是处于其三维状态的单个指的特写图(实心球表示配位的锌离子)，并且指示每个锌指的不同区域如何倾向于与DNA相互作用。DNA由图表示，其中磷酸根通过字母P指示，并且DNA碱基用具有圆角的框表示。灰色箭头指示框中所指示的残基位置的近似位置，并且黑色箭头指示锌指蛋白与DNA之间的相互作用。

图6(SEQ ID NO：4-6)描绘锌指内的每个位置处的氨基酸的保守性。前几行示出来自Zif268和Sp1的众所周知的锌指(来自Zif268的指2(SEQ ID NO：4)、来自Zif268的指3(SEQ ID NO：5)和Sp1的指2(SEQ ID NO：6))中的氨基酸序列的比对。锌配位半胱氨酸和组氨酸残基加框，识别螺旋也加框。与DNA骨主链磷酸根接触的精氨酸(R)和赖氨酸(K)带正电荷的残基也在框中指示。前三行下的数字是每个位置处的每个氨基酸的频率，其中分析了4867种不同的天然存在的锌指。图左侧的字母是对应于频率在表中给出的氨基酸残基的单字母代码。鉴别了三种不带电荷的氨基酸，丙氨酸、亮氨酸和谷氨酰胺(以椭圆形指示)在磷酸根接触位置以低但非零的频率出现。

图7A和7B(SEQ ID NO：7和8)描绘ZFP主链的图，所述ZFP主链包括六指锌指蛋白(图7A，SEQ ID NO：7)或五指锌指蛋白(图7B，SEQ ID NO：8)的模块。一些加框位置上方的字母指示在指定位置处测试的突变。每个指的身份由标签F1至F6给出。这些蛋白质各自由指示为“模块A”、“模块B”和“模块C”的三个不同的“模块组装”。可通过改变组装过程期间使用的PCR引物的序列来进行对每个模块中N-末端指的位置-14、-9和-5的突变。

图8A至8C是描绘包含本文发明的新颖锌指主链突变的TCRA(TRAC)特异性ZFN(PCT公布WO2017106528)的中靶和脱靶裂解活性的图。TCRA(TRAC)特异性ZFN均含有6个锌指重复序列，并且为了实验容易性，位置-5处的突变仅被引入每个模块的N-末端指(例如全长ZFN中的F1、F3或F5)。因此，每种单独的ZFN可具有0、1、2或3种突变，并且整个ZFN对可总计具有多达6种突变(例如，0、1、2、3、4、5或6种突变)。绘制的值指示在位置-5具有指定数量和类型的突变的所有测试的ZFN对的平均值。误差棒表示平均值的标准误差。对于每个ZFN对，测量了表3中所指示的三个脱靶；求平均值以产生绘制值的脱靶值包括每种构建体的这三个脱靶中的每一个的亲本TCRA(TRAC)ZFN的活性分数。图8A示出亲本TCRA(TRAC)ZFN的活性分数，其中数据集示出来自所述对中的两种ZFN中仅一者的一个或多个锌指重复序列中的位置-5处所指示氨基酸取代的中靶(黑色条)或脱靶(灰色条)活性的变化。图8B示出来自同时在一个或两个ZFN配偶体中进行所指示的精氨酸-丙氨酸取代的活性分数。图8B的左半部分表示ZFN对，其中所指示数量的突变仅出现在所述对中的仅一种ZFN中(并且对应于图8A的左侧三分之一)，而图8B的右半部分表示ZFN对，其中对所述对中的两种ZFN进行了相同数量的突变(例如，2表示所述对中每种ZFN中一个突变，4表示所述对中每种ZFN中两个突变，并且6表示所述对中每种ZFN中三个突变)。图8A和8B中进行的实验是在每个实验6μg剂量下用CD34+细胞进行。图8C示出图8A的右侧三分之二的类似数据，其中RNA的剂量是每个实验2μg。

图9是描绘包含本发明的新颖锌指主链突变的BCL1lA特异性ZFN在脱靶位点NIFMAEVG处的中靶(黑色条)和脱靶(灰色条)裂解活性的图(在这种情况下，使用了三字母缩写并且表示位置-5处突变为指定残基的精氨酸残基的数目；例如“6Gln”指示6个精氨酸(每种ZFN 3个)被突变为ZFN对中的6个谷氨酰胺)。误差棒表示标准误差。以每个实验每种ZFN 2μg mRNA的剂量在CD34+细胞中进行实验。

图10描绘在用通过2A序列(51857-2a-51949)连接的单个多核苷酸上编码两个ZFN配偶体的任一mRNA转染后，用于检测CD34+细胞中的BCL11A特异性ZFN表达的蛋白质印迹，与单独编码ZFN的mRNA；或者指定剂量的编码每个配偶体的两种mRNA的混合物一起给药。通过抗Flag抗体检测蛋白质，并且证明在mRNA转染后表达的蛋白质的量与所使用的mRNA的量一致。如所预期，与3’ZFN，SBS#51949相比，2a构建体产生更大量的5’ZFN SBS#51857。

图11描绘针对中靶位置(BCL11A，左图)或针对脱靶位置NIFMAEVG(右图)的两个BCl11A特异性ZFN配偶体51949和51857的给药的滴定。结果表明，改变ZFN配偶体的比例可保持中靶活性，同时降低脱靶活性(比较60μg每种mRNA下的BCL11A靶标(中靶活性为85.92％插入缺失，或60μg 51949、6.6μg 51857中靶活性为86.42％)与降低的脱靶(与当60μg 51949与6.6μg 51857一起使用时的4.21％插入缺失相比，使用了60μg的每种mRNA情况下的27.34％脱靶活性))。

图12是列出当用如上所述的编码两个ZFN配偶体的单一mRNA(51857/51949 2a)处理或用滴定剂量的ZFN配偶体(其中一个配偶体(51949)包含在位置416处的FokI R->S突变)处理CD34+细胞时BCL11A特异性ZFN的中靶和脱靶裂解活性的表。‘牌照’标识符在实施例2的表1中示出(SEQ ID NO：13-53)。对应于PRJIYLFN的数据表示与ZFN活性一致的在BCL11A中的预期靶标处含有插入缺失的序列读段的分数。对应于最左列中列出的所有其他‘牌照’标识符的数据对应于51857/51949 ZFN对的确认或怀疑的脱靶基因座。右列中所示的比例表示用51857/51949 2a处理的样品中的活性除以在指定基因座处用滴定的51857/51949 R416S处理的样品中的活性。

图13示出比较两个ZFN对的无偏捕获测定的结果。左图(“亲本ZFN对”)示出使用SBS51857和SBS51949对的结果，并且右图(“变体ZFN对”)示出使用SBS63014和SBS65721的结果，所述对包含亲本对以及另外的如本文所述的ZFP主链突变以及SBS65721构建体上的FokI R416S突变。特别地，在变体对中，所述对中的每种ZFN在指中包含三个R->Q突变，并且SBS65721构建体还包含FokI R416S突变。数据表明突变将独特捕获事件的数量从亲本对的21个位置减少至变体中的4个。此外，当ZFN对中的配偶体以非等量给出时，捕获事件也减少。对于亲本对，捕获事件从21(相等给药)下降至13(不等给药)个位置(分别28％至3.4％总体(aggregate)脱靶)，并且对于变体对，捕获事件从4下降至2(分别0.26％至0.08％总体脱靶裂解)。对于从亲本对的总体28％脱靶事件减少至变体的总体0.08％脱靶事件，这两种方法的组合引起亲本中21个位置总体减少至不等配偶体浓度给药的变体中2个。

图14示出使用在大规模制造条件下产生的如本文所述的ZFN展示减少的脱靶裂解事件的结果。所使用的ZFN对包含SBS63014和SBS65722。

图15A至15D示出使用如本文所述的ZFN突变体(靶向AAVS1)展示减少的脱靶裂解事件的结果。图15A描绘来自亲本ZFN30035/30054的活性结果。图15B描绘三组FokI突变体的中靶以及中靶/脱靶裂解活性的比例：包含另外的单一突变的ELD FokI突变体(最左侧数据集)包含另外的单一突变的KKR FokI突变体(中间数据集)；以及包含相同的另外单一突变的ELD和KKR FokI突变体(最右侧数据集)。图15C示出中靶活性的网格，其中ELD或KKRFokI结构域包含两个突变，并且图15D示出图15C中所示数据的中靶/脱靶比例。

图16A和16B示出使用如本文所述的示例性AAVS1靶向ZFN突变体展示减少的脱靶裂解事件的结果。图16A示出ELD和KKR背景中的突变体，并且图16B示出ELD-KKR背景中的突变体。

图17示出FokI和FokI同源物(SEQ ID NO：54至64)的比对。阴影表示保守程度。编号是根据野生型FokI结构域(SEQ ID NO：1)。

图18示出示例性突变，其中位置对应于图17中所示的FokI或FokI同源物。

具体实施方式

本文公开了经由差异地减少脱靶裂解来提高中靶工程化核酸酶裂解的特异性的方法和组合物。所述方法涉及减少FokI裂解结构域与DNA之间的非特异性相互作用、减少锌指主链与DNA之间的非特异性相互作用以及改变每个半裂解结构域配偶体的相对比例远离默认比例1∶1。

总则

除非另外指示，否则所述方法的实施以及本文公开的组合物的制备和用途采用分子生物学、生物化学、染色质结构和分析、计算化学、细胞培养、重组DNA以及本领域技术内的相关领域中的常规技术。这些技术在文献中得以充分说明。参见例如，Sambrook等人MOLECULAR CLONING：A LABORATORY MANUAL，第二版，Cold Spring Harbor LaboratoryPress，1989和第三版，2001；Ausubel等人，CURRENT PROTOCOLS IN MOLECULAR BIOLOGY，John Wiley&Sons，New York，1987和定期更新；丛书METHODS IN ENZYMOLOGY，AcademicPress，San Diego；Wolffe，CHROMATIN STRUCTURE AND FUNCTION，第三版，AcademicPress，San Diego，1998；METHODS IN ENZYMOLOGY，第304卷，“Chromatin”(P.M.Wassarman和A.P.Wolffe，编辑)，Academic Press，San Diego，1999；以及METHODS IN MOLECULARBIOLOGY，第119卷，“Chromatin Protocols”(P.B.Becker，编辑)Humana Press，Totowa，1999。

定义

术语“核酸”、“多核苷酸”以及“寡核苷酸”可交换使用，并且指的是呈直链或环状构象，以及呈单链或双链形式的脱氧核糖核苷酸或核糖核苷酸聚合物。为了本公开的目的，这些术语不应被解释为相对于聚合物的长度为限制性的。所述术语可涵盖天然核苷酸的已知类似物，以及在碱基、糖和/或磷酸根部分(例如，硫代磷酸根主链)中被修饰的核苷酸。通常，具体核苷酸的类似物具有相同的碱基成对特异性；即A的类似物将会与T碱基成对。

术语“多肽”、“肽”以及“蛋白质”可互换使用来指氨基酸残基的聚合物。所述术语也适用于其中一种或多种氨基酸是对应的自然出现氨基酸的化学类似物或修饰衍生物的氨基酸聚合物。

“结合”是指大分子之间(例如，蛋白质与核酸之间)的序列特异、非共价相互作用。不是所有的结合相互作用组分都需要序列特异(例如，与DNA主链中的磷酸根残基接触)，只要相互作用总体上是序列特异即可。此类相互作用的特征通常在于10^-6M^-1或更低的解离常数(K_d)。“亲和力”是指结合的强度：增加的结合亲和力与较低的K_d相关。“非特异性结合”是指在任何目标分子(例如工程化的核酸酶)与不依赖于中靶序列的大分子(例如DNA)之间发生的非共价相互作用。

“结合蛋白”是能够非共价结合另一分子的蛋白质。结合蛋白可结合至例如DNA分子(DNA结合蛋白)、RNA分子(RNA结合蛋白)和/或蛋白质分子(蛋白质结合蛋白)。在蛋白质结合蛋白的情况下，它可结合至其自身(以形成同源二聚体、同源三聚体等)，并且/或者它可结合至一种或多种不同蛋白质的一种或多种分子。结合蛋白可具有多于一种类型的结合活性。例如，锌指蛋白具有DNA结合、RNA结合以及蛋白质结合活性。在RNA指导的核酸酶系统的情况下，RNA指导对核酸酶组分(Cas9或Cfp1)是异源的，并且两者均可进行工程化。

“DNA结合分子”是可结合至DNA的分子。此类DNA结合分子可以是多肽、蛋白质的结构域、较大蛋白质内的结构域或多核苷酸。在一些实施方案中，多核苷酸是DNA，而在其他实施方案中，多核苷酸是RNA。在一些实施方案中，DNA结合分子是核酸酶的蛋白质结构域(例如，FokI结构域)，而在其他实施方案中，DNA结合分子是RNA指导的核酸酶(例如，Cas9或Cfp1)的指导RNA组分。

“DNA结合蛋白”(或结合结构域)是例如分别通过一种或多种锌指或通过与锌指蛋白或TALE中的一个或多个RVD的相互作用以序列特异性方式结合DNA的蛋白质或较大蛋白质内的结构域。术语锌指DNA结合蛋白常缩写为锌指蛋白或ZFP。

“锌指DNA结合蛋白”(或结合结构域)是通过一种或多种锌指以序列特异的方式结合DNA的蛋白质或较大蛋白质内的结构域，所述一种或多种锌指是结构通过锌离子配位稳定的结合结构域内的氨基酸序列区。术语锌指DNA结合蛋白常缩写为锌指蛋白或ZFP。

“TALE DNA结合结构域”或“TALE”是包含一个或多个TALE重复结构域/单元的多肽。重复结构域参与TALE与其同源靶DNA序列的结合。单一“重复单元”(也称为“重复序列”)通常为33-35个氨基酸长度，并且表现出至少一些与天然存在TALE蛋白质内的其他TALE重复序列的序列同源性。参见例如，美国专利No.8,586,526，其以引用的方式整体并入本文。

锌指和TALE DNA结合结构域可经“工程化”以结合至预定核苷酸序列，例如经由天然存在的锌指蛋白的识别螺旋区的工程化(改变一个或多个氨基酸)或通过参与DNA结合的氨基酸(“重复可变双残基”或RCD区)的工程化。因此，工程化的锌指蛋白或TALE蛋白是非天然存在的蛋白质。用于将锌指蛋白和TALE工程化的方法的非限制性实例是设计和选择。设计的蛋白质是自然界中不存在的蛋白质，所述蛋白质的设计/组成主要是合理标准的结果。用于设计的合理标准包括取代规则以及用于处理数据库信息的计算机算法的应用，所述数据库存储了现有ZFP和/或TALE设计和结合数据的信息。参见例如，美国专利No.8,586,526；6,140,081；6,453,242；以及6,534,261；还参见WO 98/53058；WO 98/53059；WO 98/53060；WO 02/016536和WO 03/016496。

“所选择的”锌指蛋白、TALE蛋白或CRISPR/Cas系统是未在自然界中发现的蛋白质，并且所述蛋白质的产生主要是经验过程诸如噬菌体展示、相互作用陷阱、合理设计或杂种选择的结果。参见例如，US 5,789,538；US 5,925,523；US 6,007,988；US 6,013,453；US6,200,759；WO 95/19431；WO 96/06166；WO 98/53057；WO 98/54311；WO 00/27878；WO 01/60970；WO 01/88197和WO 02/099084。

“TtAgo”是被认为参与基因沉默的原核Argonaute蛋白质。TtAgo来源于细菌嗜热栖热菌。参见例如Swarts等人，同上；G.Sheng等人，(2013)Proc.Natl.Acad.Sci.U.S.A.111，652)。“TtAgo系统”是所需要的所有组分，包括例如用于由TtAgo酶裂解的指导DNA。

“重组”是指两个多核苷酸之间交换遗传信息的过程，包括但不限于通过非同源末端连接(NHEJ)和同源重组的捕获。出于本公开的目的，“同源重组(HR)”是指这种交换的特定形式，所述交换发生在例如经由同源导向修复机制所进行的细胞中双链断裂修复期间。这个过程需要核苷酸序列同源性，使用“供体”分子以成为“靶”分子(即，经历双链断裂的那个分子)的修复模板，并且这个过程分别被称为“无交叉基因转换”或“短序列基因转换(short tract gene conversion)”，因为其导致基因信息从供体转移至所述靶。不希望被任何具体理论束缚，这种传递可涉及在断裂的靶标与供体之间形成的异源双链体DNA的不匹配校正，和/或“依赖于合成的链退火”，其中供体用来重新合成将成为靶标的一部分的遗传信息，和/或相关的过程。这种特定的HR经常导致靶分子序列的变化，这样使得供体多核苷酸的部分或所有序列掺入靶多核苷酸中。

在本公开的某些方法中，如本文所述的一种或多种靶向核酸酶在预定位点(例如，目标基因或基因座)处的靶序列(例如，细胞染色质)中产生双链断裂(DSB)。DSB介导如本文所述的构建体(例如供体)的整合。任选地，所述构建体与断裂区域中的核苷酸序列具有同源性。表达构建体可物理整合或，可替代地，表达盒被用作用于经由同源重组来修复断裂的模板，从而导致将表达盒中的全部或部分核酸序列引入至细胞染色质中。因此，可改变细胞染色质中的第一序列，并且在某些实施方案中，可转换成存在于表达盒中的序列。因此，使用术语“置换(replace)”或“置换(replacement)”可理解为表示用另一核苷酸序列置换一个核苷酸序列，(即，在信息意义上置换序列)，并且不一定需要用另一多核苷酸来物理或化学地置换一个多核苷酸。

在本文描述的任何方法中，额外的工程化的核酸酶可用于细胞内的额外靶位点的额外双链裂解。

在用于靶向重组和/或置换和/或改变细胞染色质中目标区域中的序列的方法的实施方案中，染色体序列通过用外源“供体”核苷酸序列同源重组来改变。如果存在与断裂区同源的序列，那么可通过细胞染色质中双链断裂的存在来刺激这种同源重组。

在本文所述的任何方法中，第一核苷酸序列(“供体序列”)可含有与目标区域中的基因组序列同源但不同的序列，从而刺激同源重组以在所述目标区域中插入不相同序列。因此，在某些实施方案中，与目标区域中的序列同源的供体序列地部分表现出与所置换的基因组序列约80％至99％之间(或其间的任何整数)的序列同一性。在其它实施方案中，供体和基因组序列之间的同源性高于99％，例如如果具有超过100个邻接碱基对的供体与基因组序列之间只有1个核苷酸不同。在某些情况下，供体序列的非同源部分可以包含不存在于感兴趣区域中的序列，这样使得新的序列引入感兴趣区域中。在这些情况下，非同源序列的侧面一般具有50至1,000个碱基对(或在其间的任何整数值)或任何大于1,000个碱基对数目的序列，这些序列与感兴趣区域中的序列同源或相同。在其它实施方案中，供体序列与第一序列是非同源的，并且供体序列通过非同源重组机理插入基因组中。

本文所述的任何方法可通过靶向整合中断一种或多种目标基因的表达的供体序列或经由裂解中断一种或多种目标基因的表达的一种或多种靶序列、随后易错NHEJ介导的修复来用于细胞中一种或多种靶序列的部分或完全失活。也提供了具有部分或完全失活基因的细胞系。

此外，如本文所述的靶向整合方法也可用来整合一种或多种外源序列。外源核酸序列可包括，例如一种或多种基因或cDNA分子，或任何类型的编码或非编码序列，以及一种或多种控制元件(例如，启动子)。另外，外源核酸序列可产生一种或多种RNA分子(例如，小发夹RNA(shRNA)、抑制性RNA(RNAi)、微小RNA(miRNA)等)。

“裂解”是指DNA分子的共价主链的断裂。可通过各种各样的方法来起始裂解，所述方法包括但不限于磷酸二酯键的酶水解或化学水解。单链裂解和双链裂解均是可能的，并且双链裂解可由于两个相异单链裂解事件而发生。DNA裂解可导致平末端或交错末端的产生。在某些实施方案中，融合多肽用于靶向双链DNA裂解。

“裂解半结构域”是与第二多肽(相同的或不同的)连接形成具有裂解活性(优选地双链裂解活性)的复合物的多肽序列。术语“第一和第二裂解半结构域”；“+和-裂解半结构域”以及“右和左裂解半结构域”可交换使用来指二聚化的裂解半结构域对。术语“裂解结构域”可与术语“裂解半结构域”互换使用。术语“FokI裂解结构域”包括如SEQ ID NO：1中所示的FokI序列以及任何FokI同源物，包括但不限于图17中所示的序列。

“工程化的裂解半结构域”是已经修饰以便与另一裂解半结构域(例如，另一工程化的裂解半结构域)形成专性异二聚体的裂解半结构域。

术语“序列”是指任何长度的核苷酸序列，所述核苷酸序列可以是DNA或RNA；可以是直链的、环状的或支链的，并且可以是单链或双链的。术语“转基因”是指插入基因组中的核苷酸序列。转基因可具有任何长度，例如2与100,000,000个核苷酸之间的长度(或其间或其上的任何整数值)，优选地约100与100,000个核苷酸之间的长度(或其间的任何整数)更优选地约2000与20,000个核苷酸之间的长度(或其间的任何值)且甚至更优选地约5与15kb之间(或其间的任何值)。

“染色体”是包含细胞的基因组的全部或一部分的染色质复合物。细胞基因组的特征通常在于其核型，所述核型是包含细胞基因组的所有染色体的集合。细胞的基因组可包含一种或多种染色体。

“游离基因”是包含并非细胞染色体核型的一部分的核酸的复制型核酸、核蛋白复合物或其他结构。游离基因的实例包括质粒、小环和某些病毒基因组。本文所述的肝特异性构建体可以是游离维持的，或者可稳定地整合到细胞中。

“外源”分子是通常不存在于细胞中，但可通过一种或多种基因的、生物化学的或其他方法来引入细胞中的分子。“通常存在于细胞中”是相对于细胞的具体发育阶段和环境条件而确定的。因此，例如，仅在胚胎肌肉发育期间存在的分子相对于成人肌肉细胞是外源分子。类似地，通过热激诱导的分子相对于非热激的细胞是外源分子。外源分子可包括，例如不正常运行的内源分子的运行型式或正常运行的内源分子的不正常运行型式。

在其他情况中，外源分子可为诸如通过组合化学过程产生的小分子，或大分子诸如蛋白质、核酸、碳水化合物、脂质、糖蛋白、脂蛋白、多糖、上述分子的任何修饰的衍生物或包含一种或多种上述分子的任何复合物。核酸包括DNA和RNA，可以是单链或双链的；可以是直链、支链或环状的；并且可具有任何长度。核酸包括能够形成双链体以及三联体的那些核酸。参见例如美国专利No.5,176,996和5,422,251。蛋白质包括但不限于DNA结合蛋白、转录因子、染色质重塑因子、甲基化的DNA结合蛋白、聚合酶、甲基化酶、脱甲基酶、乙酰基转移酶、脱乙酰酶、激酶、磷酸酶、连接酶、去泛素化酶、整合酶、重组酶、连接酶、拓扑异构酶、促旋酶和解旋酶。

外源分子可以是与内源分子相同类型的分子，例如外源蛋白质或核酸。例如，外源核酸可包括感染性病毒基因组、引入细胞中的质粒或游离基因或通常不存在于细胞中的染色体。用于将外源分子引入细胞的方法是本领域技术人员已知的，并且包括但不限于脂质介导的转移(即，脂质体，包括中性和阳离子脂质)、电穿孔、直接注入、细胞融合、粒子轰击、磷酸钙共沉淀、DEAE-葡聚糖介导的转移以及病毒载体介导的转移。外源性分子也可为与内源性分子相同类型的分子，但是来源于与产生细胞的物种不同的物种。举例来说，人核酸序列可引入最初来源于小鼠或仓鼠的细胞系。用于将外源分子引入植物细胞中的方法是本领域技术人员已知的，并且包括但不限于原生质体转化、碳化硅(例如，WHISKERS^TM)、农杆菌介导的转化、脂质介导的传递(即，脂质体，包括中性和阳离子脂质)、电穿孔、直接注入、细胞融合、粒子轰击(例如，使用“基因枪”)、磷酸钙共沉淀、DEAE-葡聚糖介导的转移以及病毒载体介导的转移。

相比之下，“内源性”分子是在特定环境条件下在特定发育阶段通常存在于特定细胞中的分子。举例来说，内源性核酸可包括染色体，线粒体、叶绿体或其他细胞器的基因组，或自然出现的游离核酸。另外的内源性分子可包括蛋白质，例如转录因子和酶。

如本文所用，术语“外源核酸的产物”包括多核苷酸和多肽产物，例如转录产物(多核苷酸，如RNA)和翻译产物(多肽)。

“融合”分子是两个或更多个亚基分子优选共价地连接的分子。亚基分子可以是相同化学类型的分子，或者可以是不同化学类型的分子。融合分子的实例包括但不限于融合蛋白(例如，蛋白质DNA结合结构域与裂解结构域之间的融合)、与裂解结构域可操作地缔合的多核苷酸DNA结合结构域(例如，sgRNA)之间的融合，以及融合核酸(例如，编码融合蛋白的核酸)。

细胞中融合蛋白的表达可由融合蛋白向细胞递送或通过编码融合蛋白的多核苷酸向细胞递送而引起，其中转录多核苷酸，并且翻译转录物以产生融合蛋白。反式剪接、多肽裂解以及多肽连接也可参与细胞中的蛋白质表达。本公开在别处提出了用于向细胞递送多核苷酸和多肽的方法。

出于本公开的目的，“基因”包括编码基因产物(参见下文)的DNA区，以及调控基因产物产生的所有DNA区，无论所述调控序列是否相邻于编码和/或转录序列。因此，基因包括，但不一定限于启动子序列、终止子、翻译调控序列如核糖体结合位点和内部核糖体进入位点、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点以及基因座控制区。

“基因表达”是指将包含在基因中的信息转变成基因产物。基因产物可以是基因的直接转录产物(例如，mRNA、tRNA、rRNA、反义RNA、核酶、结构RNA或任何其他类型的RNA)或通过mRNA的翻译产生的蛋白质。基因产物也包括通过诸如加帽、聚腺苷酸化、甲基化以及编辑的方法进行修饰的RNA，以及通过例如甲基化、乙酰化、磷酸化、泛素化、ADP-核糖基化、肉豆蔻基化以及糖基化进行修饰的蛋白质。

基因表达“调节”是指基因活性的变化。表达调节可包括但不限于基因活化和基因阻遏。基因编辑(例如，裂解、改变、失活、随机突变)可用来调节表达。基因失活是指与不包括如本文所述的ZFP、TALE或CRISPR/Cas系统的细胞相比，基因表达的任何减少。因此，基因失活可以是部分的或完全的。

“目标区”是任何细胞染色质区，例如像基因或基因内部或基因附近的非编码序列，其中结合外源分子是合乎需要的。结合可以是出于靶向DNA裂解和/或靶向重组的目的。目标区域可存在于例如染色体、游离基因、细胞器基因组(例如，线粒体、叶绿体)或感染病毒基因组中。目标区域可以在基因编码区内，在转录的非编码区内，如例如前导序列、尾随序列或内含子，或在编码区上游或下游内的非转录区内。目标区域的长度可小至单个核苷酸对，或高达2,000个核苷酸对，或任何整数值的核苷酸对。

“安全港”基因座是基因组内的基因座，其中基因可插入而对于宿主细胞没有任何有害效应。最有利的是所插入基因序列的表达不受来自相邻基因的任何通读表达干扰的安全港基因座。由一种或多种核酸酶靶向的安全港基因座的非限制实例包括CCR5、HPRT、AAVS1、Rosa和白蛋白。参见例如，美国专利No.7,951,925；8,771,985；8,110,379；7,951,925；美国公布No.20100218264；20110265198；20130137104；20130122591；20130177983；20130177960；20150056705以及20150159172。

“报告基因”或“报告序列”是指产生优选但不一定在常规测定中易于测量的蛋白质产物的任何序列。合适的报告基因包括但不限于编码介导抗生素抗性(例如，氨苄青霉素抗性、新霉素抗性、G418抗性、嘌呤霉素抗性)的蛋白质的序列、编码彩色或荧光或发光蛋白(例如，绿色荧光蛋白、增强型绿色荧光蛋白、红色荧光蛋白、荧光素酶)和介导增强的细胞生长和/或基因扩增的蛋白质(例如，二氢叶酸还原酶)的序列。表位标签包括例如FLAG、His、myc、Tap、HA或任何可检测的氨基酸序列中的一种或多种拷贝。“表达标签”包括编码报告基因的序列，所述报道基因可与所需基因序列可操作地连接，以便监测目标基因的表达。

“真核”细胞包括但不限于真菌细胞(诸如酵母)、植物细胞、动物细胞、哺乳动物细胞和人细胞(例如，T细胞)，包括干细胞(多能和多潜能细胞)。

术语“可操作的连接(operative linkage)”和“可操作地连接(operativelylinked)”(或“可操作地连接”(operably linked))关于并列的两种或更多种组分(诸如序列元件)可互换使用，其中组分被布置以便组分正常发挥作用并且允许以下可能性：至少一种组分可介导施加在至少一种其他组分上的功能。作为说明，如果响应于一种或多种转录调控因子存在或不存在，转录调控序列控制编码序列转录水平，则转录调控序列(诸如启动子)可操作地连接至编码序列。转录调控序列一般以顺式与编码序列可操作地连接，但无需直接邻近编码序列。例如，增强子是可操作地连接至编码序列的转录调控序列，虽然它们不是邻接的。

蛋白质、多肽或核酸的“功能片段”是序列不同于全长蛋白质、多肽或核酸，但仍保留与全长蛋白质、多肽或核酸相同功能的蛋白质、多肽或核酸。功能片段与对应天然分子相比可具有更多、更少或相同数目的残基，并且/或者可包含一个或多个氨基酸或核酸取代。用于测定核酸功能(例如，编码功能，可杂交另一核酸的能力)的方法是本领域中熟知的。

多核苷酸“载体”或“构建体”能够将基因序列转移至靶细胞。通常，“载体构建体”、“表达载体”、“表达构建体”、“表达盒”和“基因转移载体”是指能够引导目标基因的表达并且可将基因序列转移至靶细胞的任何核酸构建体。因此，所述术语包括克隆，和表达媒介物，以及整合载体。

术语“受试者”和“患者”可互换使用，并且是指哺乳动物诸如人患者和非人灵长类动物以及实验动物，诸如兔、狗、猫、大鼠、小鼠，以及其他动物。因此，如本文所用的术语“受试者”或“患者”意指本发明的表达盒可施用至的任何哺乳动物患者或受试者。本发明的受试者包括患有病症的受试者。

如本文所用的术语“治疗(treating)”和“治疗(treatment)”是指降低症状严重性和/或频率、消除症状和/或潜在原因、预防症状和/或其潜在原因的发生，以及改善或修复损坏。癌症、单基因病和移植物抗宿主病是可使用本文所述的组合物和方法治疗的病状的非限制性实例。

“染色质”是包含细胞基因组的核蛋白结构。细胞染色质包括核酸(主要为DNA)以及蛋白质，所述蛋白质包括组蛋白和非组蛋白的染色体蛋白。大多数真核细胞染色质以核小体的形式存在，其中核小体核心包括近似150个与八聚物相关的DNA碱基对，所述八聚物包括组蛋白H2A、H2B、H3以及H4的每两个；并且接头DNA(取决于生物体具有可变长度)在核小体核心之间伸展。组蛋白H1分子一般与接头DNA缔合。出于本公开的目的，术语“染色质”意在涵盖所有类型的原核和真核的细胞核蛋白。细胞染色质包括染色体染色质和游离基因染色质。

“可接近区”是细胞染色质中的位点，在所述位点中存在于核酸中的靶位点可被识别靶位点的外源分子结合。不希望受任何具体理论束缚，据信可接近区是未被包装成核小体结构的区。可接近区的独特结构经常可通过其对化学和酶探针(例如核酸酶)的敏感性来检测。

“靶位点”或“靶序列”是定义结合分子将结合(条件是存在用于结合的充足条件)的核酸部分的核酸序列。举例来说，序列5’-GAATTC-3’是对于Eco RI限制性核酸内切酶的靶位点。“预期的”或“中靶”序列是结合分子所意图结合的序列，并且“非预期的”或“脱靶”序列包括由不是预期靶标的结合分子结合的任何序列。

DNA结合分子/结构域

本文描述了包含DNA结合分子/结构域的组合物，所述DNA结合分子/结构域特异性地结合至任何目标基因或基因座中的靶位点。任何DNA-结合分子/结构域可用于本文公开的组合物和方法中，包括但不限于锌指DNA-结合结构域、TALE DNA结合结构域、CRISPR/Cas核酸酶的DNA-结合部分(指导或sgRNA)，或来自大范围核酸酶的DNA-结合结构域。

在某些实施方案中，所述DNA结合结构域包含锌指蛋白。优选地，所述锌指蛋白是非天然存在的，因为其经工程化以结合至所选靶位点。参见例如，Beerli等人(2002)NatureBiotechnol.20：135-141；Pabo等人(2001)Ann.Rev.Biochem.70：313-340；Isalan等人(2001)Nature Biotechnol.19：656-660；Segal等人(2001)Curr.Opin.Biotechnol.12：632-637；Choo等人(2000)Curr.Opin.Struct.Biol.10：411-416；美国专利No.6,453,242；6,534,261；6,599,692；6,503,717；6,689,558；7,030,215；6,794,136；7,067,317；7,262,054；7,070,934；7,361,635；7,253,273；以及美国专利公布No.2005/0064474；2007/0218528；2005/0267061，所述专利全部以引用的方式整体并入本文。在某些实施方案中，所述DNA结合结构域包含美国专利公布No.2012/0060230(例如，表1)中公开的锌指蛋白，所述专利以引用的方式整体并入本文。

与天然存在的锌指蛋白相比，工程化的锌指结合结构域可具有新颖的结合特异性。工程化方法包括但不限于合理的设计和各种类型的选择。合理的设计包括例如使用包含三联体(或四联体)核苷酸序列和单独锌指氨基酸序列的数据库，其中每个三联体或四联体核苷酸序列与结合特定三联体或四联体序列的锌指的一个或多个氨基酸序列缔合。参见例如，美国专利6,453,242和6,534,261，所述专利以引用的方式整体并入本文。

包括噬菌体展示和双杂交系统的示例性选择方法公开于美国专利5,789,538；5,925,523；6,007,988；6,013,453；6,410,248；6,140,466；6,200,759；和6,242,568；以及WO98/37186；WO 98/53057；WO 00/27878；WO 01/88197和GB 2,338,237中。此外，用于锌指结合结构域的结合特异性的增强已经在例如美国专利No.6,794,136中进行了描述。

另外，如这些和其他参考文献中所公开，锌指结构域和/或多指锌指蛋白可使用任何合适接头序列(包括例如5个或更多个氨基酸长度的接头)来连接在一起。关于6个或更多个氨基酸长度的示例性接头序列，还参见美国专利No.6,479,626；6,903,185；和7,153,949。本文所述的蛋白质可包括单独蛋白质锌指之间的合适接头的任何组合。此外，用于锌指结合结构域的结合特异性的增强已经在例如美国专利No.6,794,136中进行了描述。

靶位点的选择；用于设计和构建融合蛋白(和编码所述融合蛋白的多核苷酸)的ZFP和方法为本领域技术人员所已知并且详细描述于美国专利No.6,140,081；5,789,538；6,453,242；6,534,261；5,925,523；6,007,988；6,013,453；6,200,759；WO 95/19431；WO96/06166；WO 98/53057；WO 98/54311；WO 00/27878；WO 01/60970WO 01/88197；WO 02/099084；WO 98/53058；WO 98/53059；WO 98/53060；WO 02/016536以及WO 03/016496中。

另外，如这些和其他参考文献中所公开，锌指结构域和/或多指锌指蛋白可使用任何合适接头序列(包括例如5个或更多个氨基酸长度的接头)来连接在一起。关于6个或更多个氨基酸长度的示例性接头序列，还参见美国专利No.6,479,626；6,903,185；和7,153,949。本文所述的蛋白质可包括单独蛋白质锌指之间的合适接头的任何组合。

通常，所述ZFP包含至少三个指。某些ZFP包含四个、五个或六个指。包含三个指的ZFP通常识别包含9或10个核苷酸的靶位点；包含四个指的ZFP通常识别包含12至14个核苷酸的靶位点；而具有六个指的ZFP可识别包含18至21个核苷酸的靶位点。所述ZFP还可以是包含一个或多个调节结构域的融合蛋白，所述结构域可以是转录活化或阻遏结构域。

在一些实施方案中，所述DNA结合结构域可来源于核酸酶。例如，归巢核酸内切酶和大范围核酸酶的识别序列如I-SceI、I-CeuI、PI-PspI、PI-Sce、I-SceIV、I-CsmI、I-PanI、I-SceII、I-PpoI、I-SceIII、I-CreI、I-TevI、I-TevII以及I-TevlII是已知的。还参见美国专利No.5,420,032；美国专利No.6,833,252；Belfort等人(1997)Nucleic Acids Res.25：3379-3388；Dujon等人(1989)Gene 82：115-118；Perler等人(1994)Nucleic AcidsRes.22，1125-1127；Jasin(1996)Trends Genet.12：224-228；Gimble等人(1996)J.Mol.Biol.263：163-180；Argast等人(1998)J.Mol.Biol.280：345-353和the NewEngland Biolabs目录。另外，归巢核酸内切酶和大范围核酸酶的DNA结合特异性可经工程化以结合非天然靶位点。参见例如，Chevalier等人(2002)Molec.Cell 10：895-905；Epinat等人(2003)Nucleic Acids Res.31：2952-2962；Ashworth等人(2006)Nature 441：656-659；Paques等人(2007)Current Gene Therapy 7：49-66；美国专利公布No.20070117128。

在某些实施方案中，与本文所述的突变体裂解结构域一起使用的锌指蛋白包含对主链区(取代、缺失和/或插入)(例如，编号-1至6的7-氨基酸识别螺旋区外的区域)，例如在位置-14、-9和/或-5中的一个或多个处的一种或多种突变(参见例如图5A)。这些位置中的一个或多个处的野生型残基可缺失，用任何氨基酸残基置换和/或包含一个或多个另外的残基。在一些实施方案中，位置-5处的Arg(R)被改变为Tyr(Y)、Asp(N)、Glu(E)、Leu(L)、Gln(Q)或Ala(A)。在其他实施方案中，位置(-9)处的Arg(R)被Ser(S)、Asp(N)或Glu(E)置换。在其他实施方案中，位置(-14)处的Arg(R)被Ser(S)或Gln(Q)置换。在其他实施方案中，所述融合多肽可包含锌指DNA结合结构域中的突变，其中(-5)、(-9)和/或(-14)位置处的氨基酸被改变为处于任何组合的以上列出的氨基酸中的任一者。

在其他实施方案中，所述DNA结合结构域包含来自转录活化因子样(TAL)效应物(TALE)的工程化结构域，所述结构域类似于源自植物病原体黄单胞菌(参见Boch等人，(2009)Science 326：1509-1512以及Moscou和Bogdanove，(2009)Science 326：1501)和罗尔斯通菌属(参见Heuer等人(2007)Applied and Environmental Microbiology 73(13)：4379-4384)；美国专利公布No.20110301073和20110145940的那些。黄单孢菌属的植物病原菌已知在重要农作物中导致许多疾病。黄单孢菌属的病原性取决于保守的III型分泌(T3S)系统，其将多于25种不同效应蛋白质注入到植物细胞中。在这些注入蛋白质之中的是转录活化因子样效应物(TALE)，其模拟植物转录活化因子并且操纵植物转录组(参见Kay等人(2007)Science318：648-651)。这些蛋白质含有DNA结合结构域和转录活化结构域。最良好表征的TALE效应物之一是来自野油菜黄单胞菌疱病致病变种(Xanthomonas campestgrispv.Vesicatoria)的AvrBs3(参见Bonas等人(1989)Mol Gen Genet 218：127-136和WO2010079430)。TALE含有串联重复序列的集中结构域，每个重复序列含有大约34个氨基酸，所述重复序列对于这些蛋白质的DNA结合特异性是关键性的。另外，其含有核定位序列和酸性转录活化结构域(关于综述，参见Schomack S，等人(2006)J Plant Physiol 163(3)：256-272)。另外，在植物病原细菌青枯菌中，已经发现称做brg11和hpx17的两种基因，所述基因与青枯菌生物变型1菌株GMI1000和生物变型4菌株RS1000中的黄单孢菌的AvrBs3家族同源(参见Heuer等人(2007)Appl and Envir Micro 73(13)：4379-4384)。这些基因在核苷酸序列上彼此98.9％相同但是不同之处在于在hpx17的重复结构域中缺失1,575个碱基对。然而，两种基因产物与黄单孢菌属的AvrBs3家族蛋白质具有小于40％序列同一性。

这些TAL效应物的特异性取决于串联重复序列中发现的序列。重复序列包含大约102个碱基对并且重复序列通常彼此91-100％同源(Bonas等人，同上)。重复序列的多态性通常位于位置12和13并且在位置12和13处的高变双残基(重复可变双残基或RVD区域)的同一性与TAL-效应物的靶序列中的邻接核苷酸的同一性之间似乎存在一一对应的关系(参见Moscou和Bogdanove，(2009)Science 326：1501以及Boch等人(2009)Science 326：1509-1512)。实验上，已经确定这些TAL-效应物的DNA识别的天然代码以使得位置12和13处的HD序列(重复可变双残基或RVD)导致结合至胞嘧啶(C)，NG结合至T，NI结合至A、C、G或T，NN结合至A或G，并且ING结合至T。这些DNA结合重复序列已经以新的组合和多个重复序列来组装成蛋白质，制得人工转录因子，所述因子能够与新的序列相互作用并且活化植物细胞中的非内源性报告基因的表达(Boch等人，同上)。工程化TAL蛋白质已经连接至FokI裂解半结构域以产生TAL效应结构域核酸酶融合体(TALEN)，包括具有非典型RVD的TALEN。参见例如，美国专利No.8,586,526。

在一些实施方案中，TALEN包含核酸内切酶(例如，FokI)裂解结构域或裂解半结构域。在其他实施方案中，TALE-核酸酶是mega TAL。这些mega TAL核酸酶是包含TALE DNA结合结构域和大范围核酸酶裂解结构域的融合蛋白。大范围核酸酶裂解结构域作为单体来起作用并且不需要二聚化以获得活性。(参见Boissel等人，(2013)Nucl Acid Res：1-13，doi：10.1093/nar/gkt1224)。

在更进一步实施方案中，核酸酶包括紧凑TALEN。这些核酸酶是将TALE DNA结合结构域连接到TevI核酸酶结构域的单链融合蛋白。融合蛋白可充当由TALE区定位的切口酶，或可产生双链断裂，取决于TALE DNA结合结构域相对于TevI核酸酶结构域位于的位置(参见Beurdeley等人(2013)Nat Comm：1-8DOI：10.1038/ncomms2782)。另外，核酸酶结构域还可表现出DNA-结合功能。任何TALEN均可与具有一个或多个mega-TALE的另外TALEN(例如，一种或多种TALEN(cTALEN或FoM-TALEN)组合使用。

另外，如这些和其他参考文献中所公开，锌指结构域和/或多指锌指蛋白或TALE可使用任何合适接头序列(包括例如5个或更多个氨基酸长度的接头)来连接在一起。关于6个或更多个氨基酸长度的示例性接头序列，还参见美国专利No.6,479,626；6,903,185；和7,153,949。本文所述的蛋白质可包括单独蛋白质锌指之间的合适接头的任何组合。此外，用于锌指结合结构域的结合特异性的增强已经在例如美国专利No.6,794,136中进行了描述。在某些实施方案中，所述DNA结合结构域是CRISPR/Cas核酸酶系统的一部分，包括结合至DNA的单指导RNA(sgRNA)DNA结合分子。参见例如，美国专利No.8,697,359和美国专利公布No.20150056705和20150159172。编码所述系统的RNA组分的CRISPR(成簇规律间隔的短回文重复序列)基因座和编码蛋白质的cas(CRISPR相关)基因座(Jansen等人，2002.Mol.Microbiol.43：1565-1575；Makarova等人，2002.Nucleic Acids Res.30：482-496；Makarova等人，2006.Biol.Direct 1：7；Haft等人，2005.PLoS Comput.Biol.1：e60)组成CRISPR/Cas核酸酶系统的基因序列。微生物宿主中的CRISPR基因座含有CRISPR相关(Cas)基因以及能够编程CRISPR介导核酸裂解的特异性的非编码RNA元件的组合。

在一些实施方案中，所述DNA结合结构域是TtAgo系统的一部分(参见Swarts等人，同上；Sheng等人，同上)。在真核生物中，基因沉默是由Argonaute(Ago)蛋白质家族介导的。在这一范例中，Ago结合致小(19-31nt)RNA。这种蛋白质-RNA沉默复合物经由小RNA与靶标之间的沃森-克里克碱基配对来识别靶RNA，并且以核酸内切方式裂解靶RNA(Vogel(2014)Science 344：972-973)。相比之下，原核Ago蛋白结合至小的单链DNA片段，并且可能用于检测和除去外来的(经常为病毒性)DNA(Yuan等人，(2005)Mol.Cell 19，405；Olovnikov，等人(2013)Mol.Cell 51，594；Swarts等人，同上)。示例性原核Ago蛋白包括来自风产液菌(Aquifex aeolicus)、类球红细菌(Rhodobacter sphaeroides)和嗜热栖热菌的那些蛋白质。

最良好表征的原核Ago蛋白之一是来自嗜热栖热菌的蛋白质(TtAgo；Swarts等人，同上)。TtAgo与具有5′磷酸根基团的15nt或13-25nt单链DNA片段缔合。TtAgo所结合的这种“指导DNA”用于引导蛋白质-DNA复合物结合至第三方DNA分子中的沃森-克里克互补DNA序列。一旦这些指导DNA中的序列信息允许识别靶DNA，则TtAgo-指导DNA复合物裂解靶DNA。这种机制还由TtAgo-指导DNA复合物在结合其靶DNA时的结构支持(G.Sheng等人，同上)。来自类球红细菌的Ago(RsAgo)具有类似的特性(Olivnikov等人，同上)。

可将具有任意DNA序列的外源指导DNA负载到TtAgo蛋白上(Swarts等人，同上)。由于TtAgo裂解的特异性由指导DNA引导，与外源、研究者指定的指导DNA形成的TtAgo-DNA复合物将因此将TtAgo靶DNA裂解引导至互补性、研究者指定的靶DNA。以此方式，可在DNA中产生靶向双链断裂。TtAgo指导DNA系统(或来自其他生物体的直系同源Ago-指导DNA系统)的使用允许细胞内基因组DNA的靶向裂解。此类裂解可为单链的或双链的。为了裂解哺乳动物基因组DNA，将优选使用经密码子优化以哺乳动物细胞中表达的TtAgo形式。此外，可优选用体外形成的TtAgo-DNA复合物处理细胞在所述TtAgo-DNA复合物中TtAgo蛋白融合至细胞穿透肽。此外，可优选使用已通过诱变改变以在下具有改善的活性的TtAgo蛋白形式。Ago-RNA介导的DNA裂解可用于使用用于开发DNA断裂的本领域技术标准来影响包括以下的一系列结果：基因敲除、靶向基因添加、基因校正、靶向基因缺失。

因此，可使用任何DNA结合分子/结构域。

融合分子

还提供了融合分子，所述融合分子包含如本文所述的DNA结合结构域(例如，ZFP或TALE，CRISPR/Cas组分，如单指导RNA)和异源调控(功能)结构域(或其功能片段)。常见结构域包括例如转录因子结构域(活化因子、阻遏因子、共活化因子、共阻遏因子)、沉默子、癌基因(例如，myc、jun、fos、myb、max、mad、rel、ets、bcl、myb、mos家族成员等)；DNA修复酶及其相关因子和修饰因子；DNA重排酶及其相关因子和修饰因子；染色质相关蛋白及其修饰因子(例如激酶、乙酰基转移酶和脱乙酰酶)；以及DNA修饰酶(例如，甲基转移酶、拓扑异构酶、解旋酶、连接酶、激酶、磷酸酶、聚合酶、核酸内切酶)及其相关因子和修饰因子。关于DNA结合结构域和核酸酶裂解结构域的融合体的细节，参见美国专利公布No.20050064474；20060188987和2007/0218528，所述专利以引用的方式整体并入本文。

用于实现活化的合适结构域包括HSV VP16活化结构域(参见例如，Hagmann等人，J.Virol.71，5952-5962(1997))、核激素受体(参见例如，Torchia等人，Curr.Opin.Cell.Biol.10：373-383(1998))；核因子κB的p65亚基(Bitko&Barik，J.Virol.72：5610-5618(1998)和Doyle&Hunt，Neuroreport 8：2937-2942(1997))；Liu等人，Cancer Gene Ther.5：3-28(1998))或人工嵌合功能结构域如VP64(Beerli等人，(1998)Proc.Natl.Acad Sci.USA 95：14623-33)以及降解决定子(Molinari等人，(1999)EMBOJ.18，6439-6447)。另外的示例性活化结构域包括Oct1、Oct-2A、Sp1、AP-2和CTF1(Seipel等人，EMBOJ.11，4961-4968(1992)以及p300、CBP、PCAF、SRC1 PvALF、AtHD2A和ERF-2。参见例如，Robyr等人(2000)Mol.Endocrinol.14：329-347；Collingwood等人(1999)J.Mol.Endocrinol.23：255-275；Leo等人(2000)Gene 245：1-11；Manteuffel-Cymborowska(1999)Acta Biochim.Pol.46：77-89；McKenna等人(1999)J.SteroidBiochem.Mol.Biol.69：3-12；Malik等人(2000)Trends Biochem.Sci.25：277-283；以及Lemon等人(1999)Curr.Opin.Genet.Dev.9：499-504。另外的示例性活化结构域包括但不限于OsGAI、HALF-1、C1、AP1、ARF-5、-6、-7和-8、CPRF1、CPRF4、MYC-RP/GP以及TRAB1。参见例如，Ogawa等人(2000)Gene 245：21-29；Okanami等人(1996)Genes Cells 1：87-99；Goff等人(1991)Genes Dev.5：298-309；Cho等人(1999)Plant Mol.Biol.40：419-429；Ulmason等人(1999)Proc.Natl.Acad.Sci.USA 96：5844-5849；Sprenger-Haussels等人(2000)PlantJ.22：1-8；Gong等人(1999)Plant Mol.Biol.41：33-44；以及Hobo等人(1999)Proc.Natl.Acad.Sci.USA 96：15,348-15,353。

本领域技术人员将清楚的是，在DNA结合结构域与功能结构域之间形成融合蛋白(或编码所述融合蛋白的核酸)中，活化结构域或与活化结构域相互作用的分子适合作为功能结构域域。基本上任何能够将活化复合物和/或活化活性(例如像组蛋白乙酰化)募集至靶基因的分子都可用作融合蛋白的活化结构域。绝缘子结构域、定位结构域和染色质重塑蛋白质，如适合用作融合分子中的功能结构域的含ISWI的结构域和/或甲基结合结构域蛋白质描述于例如美国专利公布2002/0115215和2003/0082552以及WO 02/44376中。

示例性阻遏结构域包括但不限于KRAB A/B、KOX、TGF-β诱导型早期基因(TIEG)、v-erbA、SID、MBD2、MBD3、DNMT家族的成员(例如，DNMT1、DNMT3A、DNMT3B、Rb和MeCP2。参见例如，Bird等人(1999)Cell 99：451-454；Tyler等人(1999)Cell 99：443-446；Knoepfler等人(1999)Cell 99：447-450；以及Robertson等人(2000)Nature Genet.25：338-342。另外的示例性阻遏结构域包括但不限于ROM2和AtHD2A。参见例如，Chem等人(1996)Plant Cell 8：305-321；以及Wu等人(2000)PlantJ.22：19-27。

融合分子通过本领域技术人员熟知的克隆和生物化学缀合方法来构建。融合分子包含DNA结合结构域和功能结构域(例如，转录活化或阻遏结构域)。融合分子还任选地包含核定位信号(例如像，来自SV40培养基T抗原的信号)和表位标签(例如像，FLAG和血凝素)。设计融合蛋白(和编码所述融合蛋白的核酸)以使得翻译阅读框保留在融合的组分之中。

一方面，功能结构域的多肽组分(或其功能片段)与另一方面，非蛋白质DNA结合结构域(例如，抗生素、嵌入剂、小沟结合物、核酸)之间的融合体通过本领域技术人员已知的生物化学缀合方法来构建。参见例如，皮尔斯化学公司(Pierce Chemical Company(Rockford，IL)目录。已经描述了用于制备小沟结合物与多肽之间的融合体的方法和组合物。 Mapp等人(2000)Proc.Natl.Acad.Sci.USA 97：3930-3935。此外，CRISPR/Cas系统的单指导RNA与功能结构域缔合以形成活性转录调控因子和核酸酶。

在某些实施方案中，靶位点存在于细胞染色质的可接近区域中。可接近区域可如例如美国专利No.7,217,509和7,923,542中所描述来确定。如果靶位点不存在于细胞染色质的可接近区域中，则可如美国专利No.7,785,792和8,071,370中所描述产生一个或多个可接近区域。在另外的实施方案中，融合分子的DNA结合结构域能够结合至细胞染色质，不管其靶位点是否在可接近区域中。例如，此类DNA结合结构域能够结合至接头DNA和/或核小体DNA。这种类型的“先驱”DNA结合结构域的实例存在于某些类固醇受体和肝细胞核因子3(HNF3)中(Cordingley等人(1987)Cell 48：261-270；Pina等人(1990)Cell 60：719-731；以及Cirillo等人(1998)EMBOJ.17：244-254)。

如本领域技术人员已知的，融合分子可与药学上可接受的载体一起配制。参见例如，Remington′s Pharmaceutical Sciences，第17版，1985；以及美国专利No.6,453,242和6,534,261。

融合分子的功能组分/结构域可选自能够一旦融合分子经由其DNA结合结构域结合至靶序列就能够影响基因的转录的多种不同组分中的任一种。因此，功能组分可包括但不限于各种转录因子结构域，如活化因子、阻遏因子、共活化因子、共阻遏因子以及沉默子。

另外的示例性功能结构域公开于例如美国专利No.6,534,261和6,933,113中。

还可选择受外源小分子或配体调控的功能结构域。例如，可使用技术，其中功能结构域仅在外部RheoChem^TM配体存在下呈现其活性构象(参见例如US20090136465)。因此，ZFP可与可调控的功能结构域可操作地连接，其中ZFP-TF的所得活性通过外部配体控制。

核酸酶

在某些实施方案中，所述融合蛋白包含DNA结合结合结构域和裂解(核酸酶)结构域。因此，可使用核酸酶(例如工程化的核酸酶)来实现基因修饰。工程化的核酸酶技术是基于天然存在的DNA结合蛋白的工程化。例如，已经描述了具有定制的DNA结合特异性的归巢核酸内切酶的工程化。Chames等人(2005)Nucleic Acids Res 33(20)：e178；Amould等人(2006)J.Mol.Biol.355：443-458。此外，还已经描述了ZFP的工程化。参见例如，美国专利No.6,534,261；6,607,882；6,824,978；6,979,539；6,933,113；7,163,824；以及7,013,219。

此外，ZFP和/或TALE已与核酸酶结构域融合以产生ZFN和TALEN-一种能够通过其工程化的(ZFP或TALE)DNA结合结构域识别其预期的核酸靶标并引起DNA经由核酸酶活性在DNA结合位点附近切割功能性实体。参见例如，Kim等人(1996)Proc Nat′l Acad Sci USA93(3)：1156-1160。最近，此类核酸酶已用于多种生物体中的基因组修饰。参见例如，美国专利公布20030232410；20050208489；20050026157；20050064474；20060188987；20060063231；以及国际公布WO 07/014275。

因此，本文描述的方法和组合物可广泛应用，并且可涉及任何目标核酸酶。核酸酶的非限制性实例包括大范围核酸酶、TALEN和锌指核酸酶。核酸酶可包含异源DNA结合结构域和裂解结构域(例如，锌指核酸酶；具有异源裂解结构域的大范围核酸酶DNA结合结构域)，或者可替代地，可改变天然存在的核酸酶的DNA结合结构域以结合至选定靶位点(例如，已被工程化以结合至不同于同源结合位点的位点的大范围核酸酶)。

在本文所述的任何核酸酶中，所述核酸酶可包含工程化的TALE DNA结合结构域和核酸酶结构域(例如，核酸内切酶和/或大范围核酸酶结构域)，也称为TALEN。已经公开了用于工程化这些TALEN蛋白以与用户选择的靶序列进行稳健的位点特异性相互作用的方法和组合物(参见美国专利No.8,586,526)。在一些实施方案中，TALEN包含核酸内切酶(例如，FokI)裂解结构域或裂解半结构域。在其他实施方案中，TALE-核酸酶是mega TAL。这些megaTAL核酸酶是包含TALE DNA结合结构域和大范围核酸酶裂解结构域的融合蛋白。大范围核酸酶裂解结构域作为单体来起作用并且不需要二聚化以获得活性。(参见Boissel等人，(2013)Nucl Acid Res：1-13，doi：10.1093/nar/gkt1224)。另外，核酸酶结构域还可表现出DNA-结合功能。

在其他实施方案中，核酸酶包含致密TALEN(cTALEN)。这些核酸酶是将TALE DNA结合结构域连接到TevI核酸酶结构域的单链融合蛋白。融合蛋白可充当由TALE区定位的切口酶，或可产生双链断裂，取决于TALE DNA结合结构域相对于TevI核酸酶结构域位于的位置(参见Beurdeley等人(2013)Nat Comm：1-8DOI：10.1038/ncomms2782)。任何TALEN均可与另外的TALEN(例如，具有一个或多个mega-TAL的一种或多种TALEN(cTALEN或FokI-TALEN))或其他DNA裂解酶组合使用。

在某些实施方案中，所述核酸酶包含表现出裂解活性的大范围核酸酶(归巢核酸内切酶)或其部分。天然存在的大范围核酸酶识别15-40个碱基对裂解位点，并且通常分为四个家族：LAGLIDADG家族、GIY-YIG家族、His-Cyst盒家族和HNH家族。示例性的归巢核酸内切酶包括I-SceI、I-CeuI、PI-PspI、PI-Sce、I-SceIV、I-CsmI、I-PanI、I-SceII、I-PpoI、I-SceIII、I-CreI、I-TevI、I-TevII以及I-TevIII。它们的识别序列是已知的。还参见美国专利No.5,420,032；美国专利No.6,833,252；Belfort等人(1997)Nucleic Acids Res.25：3379-3388；Dujon等人(1989)Gene 82：115-118；Perler等人(1994)Nucleic AcidsRes.22，1125-1127；Jasin(1996)Trends Genet.12：224-228；Gimble等人(1996)J.Mol.Biol.263：163-180；Argast等人(1998)J.Mol.Biol.280：345-353和New EnglandBiolabs目录。

来自天然存在的大范围核酸酶(主要来自LAGLIDADG家族)的DNA结合结构域已被用于促进植物、酵母、果蝇、哺乳动物细胞和小鼠中的位点特异性基因组修饰，但这种方法一直限于保存大范围核酸酶识别序列的同源基因(Monet等人(1999)，Biochem.Biophysics.Res.Common.255：88-93)或者已经引入了识别序列预工程化的基因组(Route等人(1994)，Mol.Cell.Biol.14：8096-106；Chilton等人(2003)，Plant Physiology.133：956-65；Puchta等人(1996)，Proc.Natl.Acad.Sci.USA 93：5055-60；Rong等人(2002)，GenesDev.16：1568-81；Gouble等人(2006)，J.Gene Med.8(5)：616-622)的修饰。因此，已经尝试工程化大范围核酸酶以在医学或生物技术相关位点表现出新颖的结合特异性(Porteus等人(2005)，Nat.Biotechnol.23：967-73；Sussman等人(2004)，J.Mol.Biol.342：31-41；Epinat等人(2003)，Nucleic Acids Res.31：2952-62；Chevalier等人(2002)Molec.Cell10：895-905；Epinat等人(2003)Nucleic Acids Res.31：2952-2962；Ashworth等人(2006)Nature 441：656-659；Paques等人(2007)Current Gene Therapy 7：49-66；美国专利公布No.20070117128；2006020694920060153826；20060078552；以及20040002092)。此外，来自大范围核酸酶的天然存在的或工程化的DNA结合结构域可与来自异源核酸酶(例如，FokI)的裂解结构域可操作地连接，和/或来自大范围核酸酶的裂解结构域可与异源DNA结合结构域可操作地连接(例如，ZFP或TALE)。

在其他实施方案中，所述核酸酶是锌指核酸酶(ZFN)或TALE DNA结合结构域-核酸酶融合体(TALEN)。ZFN和TALEN包含DNA结合结构域(锌指蛋白或TALE DNA结合结构域)，所述DNA结合结构域已被工程化以结合至所选基因和裂解结构域或裂解半结构域(例如，来自限制和/或如本文所述的大范围核酸酶)中的靶位点。

如上文详细描述的，锌指结合结构域和TALE DNA结合结构域可被工程化以结合至所选序列。参见例如，Beerli等人(2002)Nature Biotechnol.20：135-141；Pabo等人(2001)Ann.Rev.Biochem.70：313-340；Isalan等人(2001)Nature Biotechnol.19：656-660；Segal等人(2001)Curr.Opin.Biotechnol.12：632-637；Choo等人(2000)Curr.Opin.Struct.Biol.10：411-416。与天然存在的蛋白质相比，工程化的锌指结合结构域或TALE蛋白可具有新颖的结合特异性。工程化方法包括但不限于合理的设计和各种类型的选择。合理的设计包括例如使用包含三联体(或四联体)核苷酸序列和单独锌指或TALE氨基酸序列的数据库，其中每个三联体或四联体核苷酸序列与结合特定三联体或四联体序列的锌指或TALE重复单元的一个或多个氨基酸序列缔合。参见例如，美国专利6,453,242和6,534,261，所述专利以引用的方式整体并入本文。

靶位点的选择；用于设计和构建融合蛋白(和编码所述融合蛋白的多核苷酸)的方法为本领域技术人员已知并且详细描述于美国专利No.7,888,121和8,409,861中，所述专利以引用的方式整体并入本文。

另外，如这些和其他参考文献中所公开，锌指结构域、TALE和/或多指锌指蛋白可使用任何合适接头序列(包括例如5个或更多个氨基酸长度的接头)来连接在一起。(例如，TGEKP(SEQ ID NO：9)、TGGQRP(SEQ ID NO：10)、TGQKP(SEQ ID NO：11)和/或TGSQKP(SEQ IDNO：12)。关于6个或更多个氨基酸长度的示例性接头序列，参见例如美国专利No.6,479,626；6,903,185；和7,153,949。本文所述的蛋白质可包括单独蛋白质锌指之间的合适接头的任何组合。还参见美国专利No.8,772,453。

因此，核酸酶如ZFN、TALEN和/或大范围核酸酶可包含任何DNA结合结构域和任何核酸酶(裂解)结构域(裂解结构域、裂解半结构域)。如以上提及，裂解结构域可与DNA-结合结构域异源，例如来自核酸酶的锌指或TAL效应物DNA-结合结构域和裂解结构域或来自不同核酸酶的大范围核酸酶DNA-结合结构域和裂解结构域。异源裂解结构域可从任何核酸内切酶或核酸外切酶获得。裂解结构域可来源于的示例性核酸内切酶包括但不限于限制性核酸内切酶和归巢核酸内切酶。参见例如，2002-2003Catalogue，New England Biolabs，Beverly，MA；以及Belfort等人(1997)Nucleic Acids Res.25：3379-3388。裂解DNA的另外酶是己知的(例如，S1核酸酶；绿豆核酸酶；胰腺DNA酶I；微球菌核酸酶；酵母HO核酸内切酶；还参见Linn等人(编辑)Nucleases，Cold Spring Harbor Laboratory Press，1993)。这些酶(或其功能片段)的一种或多种可用作裂解结构域和裂解半结构域的来源。

类似地，裂解半结构域可来源于需要二聚化来获得裂解活性的任何核酸酶或其部分，如上所阐述。一般来说，如果融合蛋白包含裂解半结构域，则裂解需要两种融合蛋白。或者，可使用包含两个裂解半结构域的单一蛋白质。两个裂解半结构域可来源于相同核酸内切酶(或其功能片段)，或者每个裂解半结构域可来源于不同核酸内切酶(或其功能片段)。另外，两种融合蛋白的靶位点优选地相对于彼此布置，以使得两种融合蛋白与它们各自的靶位点的结合将裂解半结构域置于允许裂解半结构域例如通过二聚化来形成功能裂解结构域的彼此空间定位中。因此，在某些实施方案中，靶位点的近边缘通过5-10个核苷酸或通过15-18个核苷酸来分开。然而，任何整数的核苷酸或核苷酸对可介于两个靶位点之间(例如，2至50个核苷酸对或更多)。一般而言，裂解的位点位于靶位点之间。

限制核酸内切酶(限制酶)存在于许多物种中，并且能够以序列特异性的方式结合至DNA(在识别位点处)，并且在结合位点处或附近裂解DNA。某些限制酶(例如，IIS型)在远离识别位点的位点处裂解DNA且具有可分开的结合结构域和裂解结构域。例如，IIS型酶FokI在距其于一条链上的识别位点9个核苷酸处，并且在距其于另一条链上的识别位点13个核苷酸处催化DNA的双链裂解。参见例如，美国专利5,356,802；5,436,150和5,487,994；以及Li等人(1992)Proc.Natl.Acad.Sci.USA 89：4275-4279；Li等人(1993)Proc.Natl.Acad.Sci.USA 90：2764-2768；Kim等人(1994a)Proc.Natl.Acad.Sci.USA 91：883-887；Kim等人(1994b)J.Biol.Chem.269：31,978-31,982。因此，在一个实施方案中，融合蛋白包含来自至少一种IIS型限制性酶的裂解结构域(或裂解半结构域)以及一个或多个锌指结合结构域，所述锌指结合结构域可以或可以不工程化。

裂解结构域与结合结构域分离的示例性IIS型限制酶为Fok I。这种特定酶作为二聚体是有活性的。Bitinaite等人(1998)Proc.Natl.Acad.Sci.USA 95：10,570-10,575。因此，出于本公开的目的，用于所公开的融合蛋白中的Fok I酶的部分被认为是裂解半结构域。因此，为了使用锌指-Fok I融合体进行细胞序列的靶向双链裂解和/或靶向置换，各自包含FokI裂解半结构域的两种融合蛋白可用来重建催化活性的裂解结构域。或者，也可使含有锌指结合结构域和两个Fok I裂解半结构域的单个多肽分子。本公开在别处提供了使用锌指-Fok I融合体进行的靶向裂解和靶向序列改变的参数。

裂解结构域或裂解半结构域可以是保留裂解活性或保留多聚化(例如，二聚化)以形成功能裂解结构域的能力的蛋白质的任何部分。

示例性IIS型限制酶描述于国际公布WO 07/014275中，所述公布以引用的方式整体并入本文。另外的限制酶也含有可分开的结合结构域和裂解结构域，并且这些酶为本公开所涵盖。参见例如，Roberts等人(2003)Nucleic Acids Res.31：418-420。

在某些实施方案中，裂解结构域包含用于产生晶体结构1FOK.pdb和2FOK.pdb的FokI裂解结构域(参见Wah等人(1997)Nature 388：97-100)，其具有以下所示的序列：

野生型FokI裂解半结构域(SEQ ID NO：1)

源自FokI的裂解半结构域可包含如SEQ ID NO：1中所示的一个或多个氨基酸残基中的突变。突变包括(不同残基的野生型氨基酸残基)的取代、(一个或多个氨基酸残基的)插入)和/或(一个或多个氨基酸残基的)缺失。在某些实施方案中，残基414-426、443-450、467-488、501-502和/或521-531中的一个或多个(相对于SEQ ID NO：1和图17中所示的序列编号)被突变，因为这些残基在Miller等人((2007)Nat Biotechnol 25：778-784)中描述的与其靶位点结合的ZFN的分子模型中位于DNA主链附近。在某些实施方案中，位置416、422、447、448和/或525处的一个或多个残基被突变。在某些实施方案中，所述突变包含用任何不同的残基，例如丙氨酸(A)残基、半胱氨酸(C)残基、天冬氨酸(D)残基、谷氨酸(E)残基、组氨酸(H)残基、苯丙氨酸(F)残基、甘氨酸(G)残基、天冬酰胺(N)残基、丝氨酸(S)残基或苏氨酸(T)残基取代野生型残基。在其他实施方案中，位置416、418、422、446、448、476、479、480、481和/或525中的一个或多个处的野生型残基被任何其他残基置换，包括但不限于，R416D、R416E、S418E、S418D、R422H、S446D、K448A、N476D，I479Q、I479T，G480D、Q481A、Q481E、K525S、K525A、N527D、R416E+R422H、R416D+R422H、R416E+K448A、R416D+R422H、K448A+I479Q、K448A+Q481A、K448A+K525A。

在某些实施方案中，裂解结构域包含最消化或防止同源二聚化的一个或多个工程化裂解半结构域(也称为二聚化结构域突变体)，如例如美国专利No.7,914,796；8,034,598和8,623,618；以及美国专利公布No.20110201055中所描述，所述专利全部的公开内容以引用的方式全部并入本文。在Fok I的位置446、447、479、483、484、486、487、490、491、496、498、499、500、531、534、537以及538处(相对于SEQ ID NO：1和图17中所示的序列编号)的氨基酸残基全部是用于影响Fok I裂解半结构域的二聚的靶标。所述突变可包括与FokI同源的天然限制酶中发现的残基的突变。在一个优选的实施方案中，位置416、422、447、448和/或525处(相对于SEQ ID NO：1和图17中所示的序列编号)的突变包含用不带电荷或带负电荷的氨基酸置换带正电荷的氨基酸。在另一个实施方案中，除了一个或多个氨基酸残基416、422、447、448或525中的突变外，工程化的裂解半结构域还包含氨基酸残基499、496和486中的突变，全部相对于SEQ ID NO：1或图17中所示的序列编号。

在某些实施方案中，本文所述的组合物包含Fok I的工程化的裂解半结构域，所述裂解半结构域形成专性异二聚体，如例如美国专利No.7,914,796；8,034,598；8,961,281和8,623,618；美国专利公布No.20080131962和20120040398中所描述。因此，在一个优选的实施方案中，本发明提供了融合蛋白，其中所述工程化的裂解半结构域包含多肽，其中除了位置416、422、447、448或525处(相对于SEQ ID NO：1和图17中所示的序列编号)的一种或多种突变外，位置486处的野生型Gln(Q)残基被Glu(E)残基置换，位置499处的野生型Ile(I)残基被Leu(L)残基置换，并且位置496处的野生型Asn(N)残基被Asp(D)或Glu(E)残基置换(“ELD”或“ELE”)。在另一个实施方案中，所述工程化的裂解半结构域源自野生型FokI裂解半结构域，并且除了氨基酸残基416、422、447、448或525处的一种或多种突变外还包含相对于野生型FokI(SEQ ID NO：1和图17中所示的序列)编号的氨基酸残基490、538和537中的突变。在一个优选的实施方案中，本发明提供了一种融合蛋白，其中所述工程化的裂解半结构域包含多肽，其中除了位置416、422、447、448或525处的一种或多种突变外，位置490处的野生型Glu(E)残基被Lys(K)残基置换，位置538处的野生型Ile(I)残基被Lys(K)残基置换，并且位置537处的野生型His(H)残基被Lys(K)残基或Arg(R)残基置换(“KKK”或“KKR”)(参见U.S.8,962,281，其以引用的方式并入本文)。参见例如，美国专利No.7,914,796；8,034,598和8,623,618，其公开内容出于所有目的以引用的方式整体并入。在其他实施方案中，工程化的裂解半结构域包含“Sharkey”和/或“Sharkey”突变(参见Guo等人，(2010)J.Mol.Biol.400(1)：96-107)。

在另一个实施方案中，所述工程化的裂解半结构域源自野生型FokI裂解半结构域，并且除了氨基酸残基416、422、447、448或525处的一种或多种突变外还包含相对于野生型FokI或FokI同源物编号的氨基酸残基490和538中的突变。在一个优选的实施方案中，本发明提供了一种融合蛋白，其中所述工程化的裂解半结构域包含多肽，其中除了位置416、422、447、448或525处的一种或多种突变外，位置490处的野生型Glu(E)残基被Lys(K)残基置换，并且位置538处的野生型Ile(I)残基被Lys(K)残基置换(“KK”)。在一个优选的实施方案中，本发明提供了一种融合蛋白，其中所述工程化的裂解半结构域包含多肽，其中除了位置416、422、447、448或525处的一种或多种突变外，位置486处的野生型Gln(Q)残基被Glu(E)残基置换，并且位置499处的野生型Ile(I)残基被Leu(L)残基置换(“EL”)(参见U.S.8,034,598，其以引用的方式并入本文)。

在一方面，本发明提供了一种融合蛋白，其中所述工程化的裂解半结构域包含多肽，其中所述FokI催化结构域中位置387、393、394、398、400、402、416、422、427、434、439、441、447、448、469、487、495、497、506、516、525、529、534、559、569、570、571中的一个或多个处的野生型氨基酸残基被突变。提供了包含如附表和附图中任一个中所示的一种或多种突变的核酸酶结构域。在一些实施方案中，所述一种或多种突变将野生型氨基酸从带正电荷的残基改变为中性残基或带负电荷的残基。在任何这些实施方案中，所描述的突变体也可在包含一种或多种另外突变的FokI结构域中制备。在优选的实施方案中，这些另外的突变位于二聚化结构域中，例如，在位置418、432、441、481、483、486、487、490、496、499、523、527、537、538和/或559处。突变的非限制性实例包括用任何氨基酸残基进行位置393、394、398、416、421、422、442、444、472、473、478、480，、525或530处的任何裂解结构域(例如，FokI或FokI的同源物)的野生型残基的突变(例如，取代)(例如，K393X、K394X、R398X、R416S、D421X、R422X、K444X、S472X、G473X、S472、P478X、G480X、K525X和A530X，其中第一残基描绘野生型，并且X是指取代野生型残基的氨基酸)。在一些实施方案中，X是E、D、H、A、K、S、T、D或N。其他示例性突变包括S418E、S418D、S446D、K448A、I479Q、I479T、Q481A、Q481N、Q481E、A530E和/或A530K，其中氨基酸残基相对于全长FokI野生型裂解结构域及其同源物编号(图17)。在某些实施方案中，组合可包括416和422，位置416和K448A、K448A和I479Q、K448A和Q481A和/或K448A处的突变以及位置525处的突变。在一个实施方案中，位置416处的野生型残基可被Glu(E)残基置换(R416E)，位置422处的野生型残基被His(H)残基置换(R422H)，并且位置525处的野生型残基被Ala(A)残基置换。如本文所述的裂解结构域还可包含另外的突变，包括但不限于位置432、441、483、486、487、490、496、499、527、537、538和/或559处，例如二聚化结构域突变体(例如，ELD、KKR)和或切口酶突变体(对催化结构域的突变)。具有本文所述的突变的裂解半结构域形成如本领域中已知的异二聚体。

或者，可在体内在核酸靶位点处使用所谓的“分裂酶”技术来组装核酸酶(参见例如，美国专利公布No.20090068164)。此类分裂酶的组分可在分开的表达构建体上表达，或者可在单独组分例如由自裂解2A肽或IRES序列分开的一个开放阅读框中连接。组分可以是单独锌指结合结构域或具有大范围核酸酶核酸结合结构域的结构域。

可在使用之前，例如在如美国专利No.8,563,314中所描述的基于酵母的染色体系统中筛选核酸酶(例如，ZFN和/或TALEN)的活性。

在某些实施方案中，核酸酶包含CRISPR/Cas系统。编码所述系统的RNA组分的CRISPR(成簇规律间隔的短回文重复序列)基因座和编码蛋白质的Cas(CRISPR相关)基因座(Jansen等人，2002.Mol.Microbiol.43：1565-1575；Makarova等人，2002.NucleicAcidsRes.30：482-496；Makarova等人，2006.Biol.Direct 1：7；Haft等人，2005.PLoSComput.Biol.1：e60)组成CRISPR/Cas核酸酶系统的基因序列。微生物宿主中的CRISPR基因座含有CRISPR相关(Cas)基因以及能够编程CRISPR介导核酸裂解的特异性的非编码RNA元件的组合。

II型CRISPR是最良好表征的系统之一，并且在四个相继步骤中进行靶向DNA双链断裂。首先，两个非编码RNA(前crRNA阵列和tracrRNA)从CRISPR基因座转录。其次，tracrRNA杂交至前crRNA的重复序列区，并且介导将前crRNA加工成含有单独间隔区序列的成熟crRNA。第三，经由crRNA上的间隔区与靶DNA上的原型间隔区相邻基序(PAM)附近的原型间隔区之间的Watson-Crick碱基配对，成熟crRNA：tracrRNA复合物将Cas9引导至靶DNA，这是靶识别的附加要求。最后，Cas9介导靶DNA的裂解以在原型间隔区内产生双链断裂。CRISPR/Cas系统的活动包括三个步骤：(i)在称为‘适应’的过程中将外来DNA序列插入CRISPR阵列以阻止将来攻击，(ii)表达相关蛋白质，以及表达并加工阵列，随后(iii)RNA介导的干扰外来核酸。因此，在细菌细胞中，若干所谓的‘Cas’蛋白涉及CRISPR/Cas系统的天然功能并且在诸如插入外来DNA等的功能中发挥作用。

在一些实施方案中，使用CRISPR-Cpf1系统。在Francisella spp中鉴别的CRISPR-Cpf1系统是2类CRISPR-Cas系统，其介导人细胞中的稳健DNA干扰。尽管功能上是保守的，但Cpf1和Cas9在许多方面不同，包括在它们的指导RNA和底物特异性方面(参见Fagerlund等人，(2015)Genom Bio 16：251)。Cas9与Cpf1蛋白之间的主要差异在于Cpf1不利用tracrRNA，并且因此仅需要crRNA。FnCpfl crRNA是42-44个核苷酸长(19个核苷酸的重复序列和23-25个核苷酸的间隔区)并且含有单个茎环，其耐受保留二级结构的序列变化。此外，Cpf1 crRNA显著短于由Cas9所需的约100-个核苷酸的工程化的sgRNA，并且FnCpfl的PAM要求是置换链上的5′-TTN-3′和5′-CTA-3′。尽管Cas9和Cpf1两者均在靶DNA中产生双链断裂，但Cas9使用其RuvC-和HNH-样结构域来在指导RNA的种子序列内产生平末端切口，而Cpf1使用RuvC样结构域来在种子外产生交错的切口。由于Cpf1产生远离关键种子区的交错切割，因此NHEJ将不会破坏靶位点，因此确保Cpf1可继续切割同一位点，直到发生所需的HDR重组事件。因此，在本文所述的方法和组合物中，应理解术语“Cas”包括Cas9蛋白和Cfp1蛋白两者。因此，如本文所用，“CRISPR/Cas系统”是指CRISPR/Cas和/或CRISPR/Cfp1系统两者，包括核酸酶和/或转录因子系统两者。

在某些实施方案中，Cas蛋白可以是天然存在的Cas蛋白的“功能衍生物”。天然序列多肽的“功能衍生物”是具有与天然序列多肽相同的定性生物性质的化合物。“功能衍生物”包括但不限于天然序列的片段和天然序列多肽及其片段的衍生物，只要它们具有与相应天然序列多肽相同的生物活性。在本文中涵盖的生物活性是功能衍生物将DNA底物水解成片段的能力。术语“衍生物”涵盖多肽的氨基酸序列变体、其共价修饰和融合体，如衍生物Cas蛋白。Cas多肽或其片段的合适衍生物包括但不限于Cas蛋白或其片段的突变体、融合体、共价修饰。Cas蛋白(其包括Cas蛋白或其片段以及Cas蛋白或其片段的衍生物)可从细胞获得或化学合成或通过这两种程序的组合获得。细胞可以是天然产生Cas蛋白的细胞，或天然产生Cas蛋白并且遗传工程化以在较高表达水平下产生内源性Cas蛋白或从外源引入的核酸产生Cas蛋白的细胞，体述核酸编码与内源性Cas相同或不同的Cas。在一些情况下，细胞不天然产生Cas蛋白并且遗传工程化以产生Cas蛋白质。在一些实施方案中，Cas蛋白是用于经由AAV载体递送的小Cas9直向同源物(Ran等人(2015)Nature 510，第186页)。

一种或多种核酸酶可在靶位点中产生一个或多个双链和/或单链切口。在某些实施方案中，所述核酸酶包含催化失活的裂解结构域(例如，FokI和/或Cas蛋白)。参见例如，美国专利No.9,200,266；8,703,489和Guillinger等人(2014)Nature Biotech.32(6)：577-582。催化失活的裂解结构域可与催化活性结构域组合来充当切口酶以产生单链切口。因此，可组合使用两种切口酶以在特定区域中产生双链切口。另外的切口酶也是本领域中已知的，例如McCaffery等人(2016)Nucleic Acids Res.44(2)：e11.doi：10.1093/nar/gkv878.Epub 2015年10月19日。

递送

可通过任何合适的方式(包括例如通过注入蛋白质和/或mRNA组分)将包含本文所述的蛋白质和/或多核苷酸的蛋白质(例如核酸酶)、多核苷酸和/或组合物递送至靶细胞。

合适的细胞包括但不限于真核细胞和原核细胞和/或细胞系。从此类细胞产生的此类细胞或细胞系的非限制性实例包括T细胞、COS、CHO(例如，CHO-S、CHO-K1、CHO-DG44、CHO-DUXB11、CHO-DUKX、CHOK1SV)、VERO、MDCK、WI38、V79、B14AF28-G3、BHK、HaK、NS0、SP2/0-Ag14、HeLa、HEK293(例如，HEK293-F、HEK293-H、HEK293-T)和perC6细胞以及昆虫细胞如草地贪夜蛾(Spodoptera fugiperda)(Sf)，或真菌细胞如酵母属、毕赤酵母属和裂殖酵母属。在某些实施方案中，所述细胞系是CHO-K1、MDCK或HEK293细胞系。合适的细胞还包括干细胞，诸如作为举例，胚胎干细胞、诱导的多能干细胞(iPS细胞)、造血干细胞、神经元干细胞和间充质干细胞。

递送如本文所述的包含DNA结合结构域的方法例如描述于美国专利No.6,453,242；6,503,717；6,534,261；6,599,692；6,607,882；6,689,558；6,824,978；6,933,113；6,979,539；7,013,219；以及7,163,824中，所述专利全部的公开内容以引用的方式整体并入本文。

还可使用含有编码一种或多种DNA结合蛋白的序列的载体递送包含如本文所述的这些DNA结合结构域的DNA结合结构域和融合蛋白。另外，还可经由这些载体递送另外的核酸(例如，供体)。可使用任何载体系统，包括但不限于质粒载体、逆转录病毒载体、慢病毒载体、腺病毒载体、痘病毒载体；疱疹病毒载体以及腺相关病毒载体等。还参见美国专利No.6,534,261；6,607,882；6,824,978；6,933,113；6,979,539；7,013,219；以及7,163,824，所述专利以引用的方式整体并入本文。此外，将显而易见的是，这些载体中的任一种可适当地包含一种或多种DNA结合蛋白编码序列和/或另外的核酸。因此，在将如本文所述的一种或多种DNA结合蛋白引入细胞中时，以及适当时另外的DNA，所述DNA结合蛋白可携带在相同载体或不同载体上。当使用多个载体时，每个载体可根据需要包含编码一种或多种DNA结合蛋白和另外的核酸的序列。

常规的基于病毒和非病毒的基因转移方法可用于将编码工程化的DNA结合蛋白的核酸引入细胞(例如，哺乳动物细胞)和靶组织中并且用于根据需要共引入另外的核苷酸序列。此类方法可用来将核酸(例如，编码DNA结合蛋白和/或供体)体外施用至细胞。在某些实施方案中，施用供体内或离体基因疗法使用的核酸。非病毒载体递送系统包括DNA质粒、裸核酸和与如脂质体或泊洛沙姆的递送媒介物复合的核酸。病毒载体递送系统包括DNA和RNA病毒，所述DNA和RNA病毒在递送至细胞后具有游离基因或整合的基因组。有关基因疗法程序的综述，参见Anderson，Science 256：808-813(1992)；Nabel&Felgner，TIBTECH 11：211-217(1993)；Mitani&Caskey，TIBTECH 11：162-166(1993)；Dillon，TIBTECH 11：167-175(1993)；Miller，Nature 357：455-460(1992)；Van Brunt，Biotechnology 6(10)：1149-1154(1988)；Vigne，Restorative Neurology and Neuroscience 8：35-36(1995)；Kremer&Perricaudet，British Medical Bulletin 51(1)：31-44(1995)；Haddada等人，于CurrentTopics in Microbiology and Immunology Doerfler and (编辑)(1995)中；以及Yu等人，Gene Therapy 1：13-26(1994)。

核酸的非病毒递送方法包括电穿孔、脂质转染、显微注射、基因枪、病毒体、脂质体、免疫脂质体、聚阳离子或脂质：核酸缀合物、裸DNA、mRNA、人工病毒粒子以及DNA的试剂增强吸收。使用例如Sonitron 2000系统(Rich-Mar)的声致穿孔也可用于核酸的递送。在一个优选的实施方案中，一种或多种核酸作为mRNA递送。还优选使用加帽的mRNA来增加翻译效率和/或mRNA稳定性。特别优选的是ARCA(抗反向帽类似物)帽或其变体。参见美国专利No.7,074,596和8,153,773，其以引用的方式整体并入本文。

额外的示例性核酸递送系统包括由Amaxa Biosystems(Cologne，Germany)，Maxcyte，Inc.(Rockville，Maryland)、BTX Molecular Delivery Systems(Holliston，MA)以及Copernicus Therapeutics Inc，(参见US6008336实施例)提供的那些。脂质转染描述于例如US 5,049,386、US 4,946,787以及US 4,897,355)中，并且脂质转染试剂是商业上销售的(例如，Transfectam^TM、Lipofectin^TM和Lipofectamine^TM RNAiMAX)。适用于多核苷酸的有效受体识别脂质转染的阳离子和中性脂质包括Felgner、WO 91/17424、WO 91/16024的那些。递送可以是向细胞(离体施用)或靶组织(体内施用)。

脂质：核酸复合物(包括靶向的脂质体，如免疫脂质复合物)的制备是本领域的技术人员熟知的(参见例如，Crystal，Science 270：404-410(1995)；Blaese等人，CancerGene Ther.2：291-297(1995)；Behr等人，Bioconjugate Chem.5：382-389(1994)；Remy等人，Bioconjugate Chem.5：647-654(1994)；Gao等人，Gene Therapy 2：710-722(1995)；Ahmad等人，Cancer Res.52：4817-4820(1992)；美国专利No.4,186,183、4,217,344、4,235,871、4,261,975、4,485,054、4,501,728、4,774,085、4,837,028和4,946,787)。

另外的递送方法包括使用将待递送的核酸封装至EnGeneIC递送媒介物(EDV)中。使用双特异性抗体将这些EDV特异性地递送至靶组织，其中所述抗体的一个臂具有对于靶组织的特异性，并且另一个臂具有对于EDV的特异性。所述抗体将EDV带至靶细胞表面且然后通过胞吞作用将EDV带入细胞中。一旦在细胞中，就释放内含物(参见MacDiarmid等人(2009)Nature Biotechnology 27(7)第643页)。

根据需要使用基于RNA或DNA病毒的系统来递送编码工程化的DNA结合蛋白和/或供体(例如CAR或ACTR)的核酸利用用于使病毒靶向体内的特定细胞以及使病毒有效载荷迁移至核中的高度进展的方法。病毒载体可直接向患者施用(体内)或它们可用于体外处理细胞，且接着向患者施用修饰的细胞(离体)。用于递送核酸的常规基于病毒的系统包括但不限于用于基因转移的逆转录病毒、慢病毒、腺病毒、腺相关、牛痘和单纯性疱疹病毒载体。用逆转录病毒、慢病毒和腺相关病毒基因转移方法有可能达成整合在宿主基因组中，从而常产生插入的转基因的长期表达。另外，已经在许多不同细胞类型和靶组织中观察到高转导效率。

可通过掺入外来包膜蛋白、扩增靶细胞的潜在靶群替而改变逆转录病毒的向性。慢病毒载体是能够转导或感染非分裂细胞并且通常产生高病毒效价的逆转录病毒载体。逆转录病毒基因转移系统的选择取决于靶组织。逆转录病毒载体由顺式作用长末端重复序列组成，所述长末端重复序列具有包装多达6-10kb的外来序列的能力。最小顺式作用LTR足以用于载体的复制和封装，其然后用于将治疗基因整合至靶细胞中以提供持久的转基因表达。广泛使用的逆转录病毒载体包括基于鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猿猴免疫缺陷病毒(SIV)、人免疫缺陷病毒(HIV)及其组合的那些逆转录病毒载体(参见例如，Buchscher等人，J.Virol.66：2731-2739(1992)；Johann等人，J.Virol.66：1635-1640(1992)；Sommerfelt等人，Virol.176：58-59(1990)；Wilson等人，J.Virol.63：2374-2378(1989)；Miller等人，J.Virol.65：2220-2224(1991)；PCT/US94/05700)。

在优选瞬时表达的应用中，可使用基于腺病毒的系统。基于腺病毒的载体能够在许多细胞类型中具有极高转导效率且不需要细胞分裂。在此类载体的情况下，已获得高效价和高水平的表达。这种载体可在相对简单的系统中大量产生。腺相关病毒(“AAV”)载体也用于用靶核酸转导细胞，例如，在体外产生核酸和肽，以及用于体内和离体基因疗法程序(参见例如，West等人，Virology 160：38-47(1987)；美国专利No.4,797,368；WO 93/24641；Kotin，Human Gene Therapy 5：793-801(1994)；Muzyczka，J.Clin.Invest.94：1351(1994)。构建重组AAV载体描述于许多公布中，包括美国专利No.5,173,414；Tratschin等人，Mol.Cell.Biol.5：3251-3260(1985)；Tratschin，等人，Mol.Cell.Biol.4：2072-2081(1984)；Hermonat&Muzyczka，PNAS USA 81：6466-6470(1984)；以及Samulski等人，J.Virol.63：03822-3828(1989)。

至少六种病毒载体方法当前可用于临床试验中的基因转移，其利用涉及通过插入辅助细胞系的基因来补充缺陷性载体以产生转导剂的方法。

pLASN和MFG-S是已被用于临床试验中的逆转录病毒载体的实例(Dunbar等人，Blood 85：3048-305(1995)；Kohn等人，Nat.Med.1：1017-102(1995)；Malech等人，PNAS USA94：2212133-12138(1997))。PA317/pLASN是用于基因疗法试验中的第一治疗性载体。(Blaese等人，Science 270：475-480(1995))。已经观察到MFG-S包装载体的50％或更大的转导效率。(Ellem等人，Immunol Immunother.44(1)：10-20(1997)；Dranoff等人，Hum.GeneTher.1：111-2(1997)。

重组腺相关病毒载体(rAAV)是基于缺陷性和非病原性细小病毒腺相关2型病毒的有前途的替代性基因递送系统。所有载体都源于仅保留侧接转基因表达盒的AAV 145bp倒置末端重复序列的质粒。由于整合到转导的细胞的基因组中所引起的有效基因转移和稳定的转基因递送是这种载体系统的关键特征。(Wagner等人，Lancet 351：91171702-3(1998)，Kearns等人，Gene Ther.9：748-55(1996))。其他AAV血清型，包括AAV1、AAV3、AAV4、AAV5、AAV6、AAV8、AAV8.2、AAV9和AAVrh10和假型AAV诸如AAV2/8、AAV2/5和AAV2/6也可根据本发明来使用。

复制缺陷型重组腺病毒载体(Ad)可以高效价产生并且容易感染许多不同细胞类型。大多数腺病毒载体被工程化以使得转基因置换Ad E1a、E1b和/或E3基因；随后使复制缺陷型载体在反式提供缺失的基因功能的人293细胞中增殖。Ad载体可在体内转导多种类型的组织，包括非分裂性分化细胞，如见于肝、肾和肌肉组织中的细胞。常规Ad载体具有大的携带能力。在临床试验中使用Ad载体的实例涉及通过肌肉内注射来抗肿瘤免疫接种的多核苷酸疗法(Sterman等人，Hum.Gene Ther.7：1083-9(1998))。在临床试验中使用腺病毒载体来转移基因的另外实例包括Rosenecker等人，Infection 24：15-10(1996)；Sterman等人，Hum.Gene Ther.9：71083-1089(1998)；Welsh等人，Hum.Gene Ther.2：205-18(1995)；Alvarez等人，Hum.Gene Ther.5：597-613(1997)；Topf等人，Gene Ther.5：507-513(1998)；Sterman等人，Hum.Gene Ther.7：1083-1089(1998)。

封装细胞用于形成能够感染宿主细胞的病毒粒子。此类细胞包括293细胞，其封装腺病毒，和ψ2细胞或PA317细胞，其封装逆转录病毒。用于基因疗法的病毒载体通常由生产细胞系产生，所述细胞系将核酸载体封装至病毒粒子中。载体通常含有封装并随后整合至宿主中所需要的减少病毒序列(如果可适用)，其他病毒序列由编码待表达的蛋白质的表达盒替换。缺失的病毒功能由封装细胞系以反式提供。例如，用于基因疗法的AAV载体通常只具有来自AAV基因组的反向末端重复(ITR)序列，所述序列为封装并整合至宿主基因组中所需要。病毒DNA封装于细胞系中，其含有编码其他AAV基因，即rep和cap的辅助质粒，但是缺少ITR序列。还用作为辅助病毒的腺病毒来感染细胞系。辅助病毒促进复制AAV载体和从辅助质粒表达AAV基因。由于缺乏ITR序列，辅助质粒未大量地包装。可通过例如腺病毒比AAV更敏感的热处理来减少受腺病毒的污染。

在许多基因疗法应用中，需要基因疗法载体以针对具体组织类型的高度特异性来递送。因此，病毒载体通常被修饰来通过在病毒外表面上以与病毒外壳蛋白的融合蛋白形式表达配体来对给定细胞类型具有特异性。选择具有对已知存在于目标细胞类型上的受体的亲和性的配体。例如，Han等人，(Proc.Natl.Acad.Sci.USA 92：9747-9751(1995))报道Moloney鼠白血病病毒可修饰以表达融合至gp70的人调蛋白，并且重组病毒感染表达人表皮生长因子受体的某些人乳腺癌细胞。这种原理可扩展至其他病毒-靶细胞对，其中靶细胞表达受体并且病毒表达包含细胞表面受体的配体的融合蛋白。例如，丝状噬菌体可经工程化以展示具有实际上任何选定细胞受体的特异性结合亲和力的抗体片段(例如，FAB或Fv)。虽然以上描述主要适用于病毒载体，但是相同原理可应用于非病毒载体。此类载体可经工程化以含有利于被特定靶细胞摄取的特定摄取序列。

用于CRISPR/Cas系统的递送方法可包括上述那些方法。例如，在动物模型中，编码mRNA的体外转录的Cas或重组Cas蛋白可使用玻璃针直接注射到单细胞阶段胚胎中，以用于对动物进行基因组编辑。为了在体外表达细胞中的Cas和指导RNA，通常经由脂质转染或电穿孔将编码它们的质粒转染到细胞中。此外，重组Cas蛋白可与体外转录的指导RNA复合，其中Cas-指导RNA核糖核蛋白被模板细胞摄取(Kim等人(2014)Genome Res 24(6)：1012)。出于治疗性目的，Cas和指导RNA可通过病毒和非病毒技术的组合来递送。例如，编码Cas的mRNA可经由纳米颗粒递送来进行递送，而指导RNA和任何所需的转基因或修复模板经由AAV递送(Yin等人(2016)Nat Biotechnol 34(3)第328页)。

可通过向个体患者施用，通常通过如下所述的全身性施用(例如，静脉内、腹膜内、肌肉内、皮下或颅内输注)或局部施用来在体内递送基因疗法载体。或者，载体可递送至离体细胞，诸如从个体患者中移植的细胞(例如，淋巴细胞、骨髓穿刺液、组织活检)或万能供血者造血干细胞，随后通常在选择已掺入载体的细胞后将细胞再植入患者中。

用于诊断、研究、移植或用于基因疗法的离体细胞转染(例如，经由将转染的细胞重新输注到宿主生物体中)是本领域技术人员熟知的。在一个优选的实施方案中，从受试生物体中分离细胞，用DNA结合蛋白核酸(基因或cDNA)转染，并重新输注到受试生物体(例如，患者)中。适用于离体转染的各种细胞类型是本领域技术人员熟知的(关于如何从患者中分离和培养细胞的论述，参见例如，Freshney等人，Culture of Animal Cells，A Manual of Basic Technique(第3版1994))及其中引用的参考文献)。

在一个实施方案中，干细胞用于细胞转染和基因疗法的离体程序中。使用干细胞的优势是它们可在体外分化成其他细胞类型，或可引入哺乳动物(如细胞的供体)中，在所述哺乳动物中，它们将移入骨髓中。使用诸如GM-CSF、IFN-γ和TNF-α的细胞因子在体外使CD34+细胞分化成临床上重要的免疫细胞类型的方法是已知的(参见Inaba等人，J.Exp.Med.176：1693-1702(1992))。

使用已知方法分离干细胞以用于转导和分化。例如，可通过用结合不想要的细胞的抗体，如CD4+和CD8+(T细胞)、CD45+(panB细胞)、GR-1(粒细胞)和Iad(分化的抗原呈递细胞)淘选骨髓细胞来自骨髓细胞分离干细胞(参见Inaba等人，J.Exp.Med.176：1693-1702(1992))。

在一些实施方案中也可使用已经修饰的干细胞。例如，已使得对细胞凋亡产生抗性的神经元干细胞可用作治疗性组合物，其中所述干细胞还含有本发明的ZFP TF。例如，对细胞凋亡的抗性可例如通过在干细胞中使用BAX-或BAK-特异性ZFN(参见美国专利No.8,597,912)或例如再次使用半胱天冬酶-6特异性ZFN在半胱天冬酶中被破坏的那些敲除BAX和/或BAK而产生。

含有治疗性DNA结合蛋白(或编码这些蛋白的核酸)的载体(例如，逆转录病毒、腺病毒、脂质体等)也可直接施用至生物体以便在体内转导细胞。或者，可施用裸DNA。施用是通过通常用于将分子引入成与血液或组织细胞的最终接触的任何途径，包括但不限于注射、输注、局部施用和电穿孔。施用此类核酸的合适方法是可用的且为本领域技术人员所熟知，并且虽然一种以上途径可用于施用特定组合物，但是特定途径常常可提供比另一途径更直接且更有效的反应。

将DNA引入造血干细胞的方法公开于例如美国专利No.5,928,638中。可用于将转基因引入造血干细胞(例如CD34+细胞)中的载体包括35型腺病毒。

适于将转基因引入免疫细胞(例如T细胞)中的载体包括非整合型慢病毒载体。参见例如，Ory等人(1996)Proc.Natl.Acad.Sci.USA 93：11382-11388；Dull等人(1998)J.Virol.72：8463-8471；Zuffery等人(1998)J.Virol.72：9873-9880；Follenzi等人(2000)Nature Genetics 25：217-222。

药学上可接受的载体部分地通过所施用的具体组合物以及通过用来施用组合物的具体方法来确定。因此，如下所述，存在可用的药物组合物的广泛多种的合适制剂(参见例如，Remington’sPharmaceutical Sciences，第17版，1989)。

如上所述，所公开的方法和组合物可用于任何类型的细胞，包括但不限于原核细胞、真菌细胞、古细菌细胞、植物细胞、昆虫细胞、动物细胞、脊椎动物细胞、哺乳动物细胞和人细胞，包括任何类型的T细胞和干细胞。用于蛋白质表达的合适细胞系是本领域技术人员已知的，并且包括但不限于COS、CHO(例如，CHO-S、CHO-K1、CHO-DG44、CHO-DUXB11)、VERO、MDCK、WI38、V79、B14AF28-G3、BHK、HaK、NS0、SP2/0-Ag14、HeLa、HEK293(例如，HEK293-F、HEK293-H、HEK293-T)、perC6、昆虫细胞如草地贪夜蛾(Sf)，和真菌细胞如酵母属、毕赤酵母属和裂殖酵母属。也可使用这些细胞系的子代、变体以及衍生物。

应用

使用工程化的核酸酶治疗和预防疾病预期成为未来几年医学中最重要的发展之一。本文所述的方法和组合物用于增加这些新颖工具的特异性，以确保所需的靶位点将是裂解的主要位置。对于所有体外、体内和离体应用，将需要最小化或消除脱靶裂解以实现这种技术的全部潜力。

示例性遗传疾病包括但不限于：软骨发育不全、全色盲、酸性麦芽糖酶缺乏症、腺苷脱氨酶缺乏症(OMIM No.102700)、肾上腺脑白质营养不良、艾卡尔迪综合征(aicardisyndrome)、α-1抗胰蛋白酶缺乏症、α地中海贫血、雄激素不敏感综合征、阿佩尔综合征(apert syndrome)、致心律失常性右心室发育不良、共济失调毛细血管扩张(ataxiatelangictasia)、巴斯综合征(barth syndrome)、β-地中海贫血、蓝橡皮疱痣综合征、卡纳万病(canavan disease)、慢性肉芽肿病(CGD)、猫叫综合症、囊性纤维化、德尔肯氏病(dercum′s disease)、外胚层发育不良、范科尼贫血(fanconi anemia)、进行性骨化性纤维发育不良症(fibrodysplasia ossificans progressive)、脆性X综合征、半乳糖血症(galactosemis)、戈谢氏病(Gaucher’s disease)、全身性神经节苷脂贮积症(例如，GM1)、血色素沉着症、β-珠蛋白第6位密码子血红蛋白C突变(hemoglobin C mutation in the6^thcodon of beta-globin，HbC)、血友病、亨廷顿氏病(Huntington’s disease)、贺勒综合征(Hurler Syndrome)、低磷酸酯酶症、克氏综合征(Klinefleter syndrome)、克拉伯病(Krabbes Disease)、兰格-吉戴恩综合征(Langer-Giedion Syndrome)、白细胞黏附缺乏症(LAD，OMIM No.116920)、脑白质营养不良、长QT综合征、马方综合征(Marfan syndrome)、莫比乌斯综合征(Moebius syndrome)、粘多糖贮积症(MPS)、指甲髌骨综合征、肾源性尿崩症、神经纤维瘤、尼曼-匹克病(Neimann-Pick disease)、成骨不全症(osteogenesisimperfecta)、苯丙酮酸尿症(PKU)、紫质症、普拉德-威利综合征(Prader-Willisyndrome)、早衰症、普罗特斯综合征(Proteus syndrome)、成视网膜细胞瘤、雷特综合征(Rett syndrome)、鲁宾斯坦-泰必综合征(Rubinstein-Taybi syndrome)、沙费利波综合征(Sanfilippo syndrome)、严重联合免疫缺陷(SCID)、舒瓦克曼综合征(Shwachmansyndrome)、镰状细胞病(镰状细胞贫血)、史密斯-马吉利综合征(Smith-Magenissyndrome)、史蒂克勒综合征(Stickler syndrome)、泰-萨二氏病(Tay-Sachs disease)、血小板减少伴桡骨缺失(TAR)综合征(Thrombocytopenia Absent Radius(TAR)syndrome)、特雷彻柯林斯综合征(Treacher Collins syndrome)、三体性、结节性硬化症、特纳氏综合征(Turner′s syndrome)、尿素循环障碍、冯希普尔-林道综合征(von Hippel-Landaudisease)、瓦登伯格综合征(Waardenburg syndrome)、威廉姆斯综合征(Williamssyndrome)、威尔逊氏病(Wilson′s disease)、维斯科特-奥尔德里奇综合征(Wiskott-Aldrich syndrome)、X连锁淋巴组织增生综合征(XLP，OMIM编号308240)。

可通过靶向DNA裂解和/或同源重组治疗的另外示例性疾病包括获得性免疫缺陷、溶酶体贮积症(例如，戈谢氏病、GM1、法布里病和泰-萨二氏病)、粘多糖病(例如，亨特氏病、贺勒氏病)、血红蛋白病(例如，镰状细胞疾病、HbC、α-地中海贫血、β-地中海贫血)和血友病。

此类方法还允许治疗宿主中的感染(病毒或细菌)(例如，通过阻断病毒或细菌受体的表达，从而防止宿主生物体中的感染和/或传播)来治疗遗传疾病。

感染或整合的病毒基因组的靶向裂解可用于治疗宿主中的病毒感染。另外，编码病毒受体的基因的靶向裂解可用于阻断此类受体的表达，从而防止宿主生物体中的病毒感染和/或病毒传播。编码病毒受体(例如，HIV的CCR5和CXCR4受体)的基因的靶向诱变可用于使受体不能结合病毒，从而防止新的感染并阻断现有感染的传播。参见美国专利公布No.2008/015996。可靶向的病毒或病毒受体的非限制性实例包括单纯疱疹病毒(HSV)，诸如HSV-1和HSV-2、水痘带状疱疹病毒(VZV)、埃-巴二氏(EBV)和巨细胞病毒(CMV)、HHV6以及HHV7。肝炎病毒家族包括甲型肝炎病毒(HAV)、乙型肝炎病毒(HBV)、丙型肝炎病毒(HCV)、δ肝炎病毒(HDV)、戊型肝炎病毒(HEV)和庚型肝炎病毒(HGV)。可靶向其他病毒或其受体，包括但不限于小核糖核酸病毒科(例如，脊髓灰质炎病毒等)；杯状病毒科；披膜病毒科(例如，风疹病毒、登革热病毒等)；黄病毒科；冠状病毒科；呼肠孤病毒科；双核糖核酸病毒科；弹状病毒科(例如，狂犬病病毒等)；丝状病毒科；副粘病毒科(例如，腮腺炎病毒、麻疹病毒、呼吸道合胞病毒等)；正粘病毒科(例如，甲型、乙型和丙型流感病毒等)；本扬病毒科；沙粒病毒科；逆转录病毒科(Retroviradae)；慢病毒属(例如，HTLV-I；HTLV-II；HIV-1(也称为HTLV-III、LAV、ARV、hTLR等)HIV-II)；猿猴免疫缺陷病毒(SIV)、人乳头瘤病毒(HPV)、流感病毒以及蜱传脑炎病毒。对于这些和其他病毒的描述，参见，例如Virology，第3版(W.K.Joklik编1988)；Fundamental Virology，第2版(B.N.Fields和D.M.Knipe编1991)。HIV的受体例如包括CCR-5和CXCR-4。

因此，如本文所述的异二聚体裂解结构域变体提供用于提高基因修饰应用中的ZFN特异性的广泛效用。这些变体裂解结构域可通过定点诱变或亚克隆容易地掺入任何现有的ZFN中，以提高任何ZFN二聚体的体内特异性。

如上所述，本文所述的组合物和方法可用于基因修饰、基因校正和基因破坏。基因修饰的非限制性实例包括基于同源定向修复(HDR)的靶向整合；基于HDR的基因校正；基于HDR的基因修饰；基于HDR的基因破坏；基于NHEJ的基因破坏和/或HDR、NHEJ和/或单链退火(SSA)的组合。单链退火(SSA)是指通过5′-3′核酸外切酶切除DSB以暴露2个互补区域来修复在相同取向上发生的两个重复序列之间的双链断裂。编码2个直接重复序列的单链然后彼此退火，并且可加工退火的中间体，以使得单链尾部(未与任何序列退火的单链DNA的部分)被消化掉，通过DNA聚合酶填充空位，并且DNA末端重新连接。这产生位于直接重复序列之间的序列的缺失。

包含裂解结构域(例如，ZFN、TALEN、CRISPR/Cas系统)的组合物和本文所述的方法也可用于治疗各种遗传疾病和/或感染性疾病。

所述组合物和方法也可应用于基于干细胞的疗法，包括但不限于：通过短片段(patch)基因转换校正体细胞突变或用于单基因基因疗法的靶向整合；破坏显性阴性等位基因；破坏病原体进入或生产性感染细胞所需的基因；增强组织工程化，例如，通过修饰基因活性以促进功能组织的分化或形成；和/或破坏基因活性以促进功能组织的分化或形成；阻断或诱导分化，例如，通过破坏阻断分化的基因以促进干细胞沿特定的谱系途径分化，靶向插入可刺激干细胞分化的基因或siRNA表达盒，靶向插入可阻断干细胞分化并允许更好地扩增和维持多能性的基因或siRNA表达，和/或靶向插入与内源基因同框的报告基因，所述内源基因是多能性或分化状态的标志物，其将允许容易标志物来对干细胞的分化状态和培养基、细胞因子、生长条件、基因的表达、siRNA、shRNA或miRNA分子的表达、抗体对细胞表面标志物的暴露或药物中的变化如何改变这种状态进行评分；体细胞核转移，例如，可分离患者自身的体细胞，以适当的方式修饰预期靶基因，产生细胞克隆(并控制质量以确保基因组安全性)，并将来自这些细胞的细胞核分离并转移到未受精卵中以产生患者特异性hES细胞，所述细胞可直接注射或在植入患者之前分化，从而减少或消除组织排斥；通过敲除MHC受体(例如，以产生具有减少或完全消除的免疫身份的细胞)获得的通用干细胞。用于这种程序的细胞类型包括但不限于T细胞、B细胞、造血干细胞和胚胎干细胞。另外，可使用诱导型多能干细胞(iPSC)，所述细胞也可从患者自身的体细胞产生。因此，这些干细胞或其衍生物(分化的细胞类型或组织)可潜在地植入任何人，无论其来源或组织相容性如何。

所述组合物和方法也可用于体细胞疗法，从而允许产生已经修饰以增强其生物学性质的细胞的原种。此类细胞可输注到各种患者体内，不依赖于细胞的供体来源和它们与受体的组织相容性。

除治疗应用外，当在工程化的核酸酶中使用时，由本文所述的变体提供的增加的特异性可用于作物工程化、细胞系工程化和疾病模型的构建。专性异二聚体裂解半结构域提供了用于改进核酸酶性质的直接手段。

所描述的工程化的裂解半结构域也可用于基因修饰方案，从而需要在多个靶标处同时裂解以缺失中间区域或立即改变两个特定基因座。在两个靶标处的裂解将需要四种ZFN或TALEN的细胞表达，这可产生十种不同的活性ZFN或TALEN组合。对于此类应用，用这些新颖变体取代野生型核酸酶结构域将消除不期望的组合的活性并降低脱靶裂解的机会。如果在特定所需DNA靶标处的裂解需要核酸酶对A+B的活性，并且在第二所需DNA靶标出的同时裂解需要核酸酶对X+Y的活性，则使用本文所述的突变可防止A与A、A与X、A与Y等的配对。因此，这些FokI突变由于“非法”对形成而降低非特异性裂解活性，并允许产生更有效的正交核酸酶突变体对(参见共同拥有的美国专利公布No.20080131962和20090305346)。

实施例

实施例1：ZFN的制备

设计了靶向BCL11A和TCRA(靶向恒定区，也称为TRAC)基因中的位点的ZFN，并将其掺入质粒载体中基本上如Umov等人(2005)Nature 435(7042)：646-651、Perez等人(2008)Nature Biotechnology 26(7)：808-816和PCT专利公布No.WO 2016183298和PCT公布No.WO2017106528中所描述。还使用了如美国公布No.20150110762中所述的靶向AAVS1的ZFN。

实施例2：靶向与磷酸根的相互作用的FokI残基中的突变体

使用FokI裂解结构域的模型(Miller等人(2007)Nat Biotech 25(7)：778-85)，鉴别了潜在与DNA主链上的磷酸根相互作用的带正电荷的精氨酸或赖氨酸氨基酸残基(图1)。

然后将FokI结构域中鉴别的位置(氨基酸416、422、447、448和525)特异性地改变(突变)为丝氨酸残基，以消除DNA上原始阳性氨基酸与带负电荷的磷酸根之间的相互作用(参见图2A和2B)。当两个ZFN配偶体包含这些突变时，可产生许多不同的组合(参见图2C中的图示)。这些新的FokI突变体在ELD/KKR异二聚体的‘KKR’FokI配偶体中制备(参见美国专利No.8,962,281)，且然后与对BCL11A增强子区域具有特异性的ZFN对(SBS#51857 ELD/SBS#51949KKR或SBS#51857_KKR/SBS#51949_ELD，图3中以灰色突出显示的‘亲本’蛋白质)连接。在每个配偶体中进行突变，且然后以如图3中所示的各种组合测试在CD34+T细胞中针对原始BCL11A靶标的裂解活性。先前已通过无偏捕获分析(PCT专利公布No.WO 2016/183298)鉴别了脱靶位点。脱靶位点在下面的表1中列出，其中每个位点用独特且随机生成的‘牌照’字母标识符标识，其中牌照PRJIYLFN指示预期的靶BCL11A序列。在下表中，还指示了每个位点的基因座(坐标与加州大学圣克鲁兹分校人类基因组浏览器序列数据库(U.C.Santa Cruz Human Genome Browser sequence database)的hg38组件(Kent等人(2002)，Genome Res.12(6)：996-1006)一致地列出。

表1：SBS#51857/SBS#51949鉴别的裂解位点

图3中呈现的数据表明，某些突变降低蛋白质针对同源BCL11A靶位点的活性，脱靶裂解活性相应下降(例如参见51857-ELD/51949-KKR_R447S：与亲本80.59％相比，中靶活性降低至11.60％插入缺失；与亲本的9.04％的值相比，NIFMAEVG脱靶处的活性也下降至0.05％，并且PEVYOHIU脱靶处的活性从亲本的0.65％的值下降至0.03％(图3A))。然而，对于其他突变，中靶裂解活性保持稳健，而两个测量的脱靶位点处的活性显著降低。例如，对51857-ELD/51949-KKR_R416S具有与亲本蛋白非常相似的针对BCL11A的中靶活性(在2μg剂量(20μg/mL)下对于突变对为80.63％插入缺失对比对于亲本为80.59％，同时两个脱靶处的活性显著降低(在脱靶位点NIFMAEVG处，对于突变对为0.75％对比对于亲本为9.04％，并且在脱靶位点PEVYOHIU处，对于突变对为0.08％对比对于亲本为0.65％)(图3A)。

还使用异二聚体FokI结构域以相反取向组装了突变体蛋白，即，图3A示出使用51857-ELD/51949-KKR的结果，而图3B描绘使用51857-KKR/51949-ELD的结果。再次，存在一些保持稳健中靶活性的与亲本对相似(分别为83.02％对比88.28％)的对(例如51857-KKR/51949-ELD_K448S)，但在脱靶位置上显示降低的活性(对于NIFMAEVG，1.00％对比9.26％；对于PEVYOHIU，0.33％对比0.87％(图3B)。

还使用一对TCRA(TRAC)特异性ZFN进行了实验：SBS#52742_ELD/SBS#52774_KKR(美国专利公布No.US-2017-0211075-A1)。这些实验在K562细胞中进行，其中用100或400ng的编码每种ZFN的mRNA处理细胞。ZFN对由如以下表2中公开的一个突变的配偶体和一个非突变的配偶体组成。在这些实验中，图1中鉴别的所有带正电荷的氨基酸被突变为丝氨酸(S)。简言之，每次转染使用2x10e5个细胞，其中经由使用Amaxa 96孔穿梭系统将mRNA递送至细胞。在转染后第3天收获转染的细胞，并按标准方法处理以用于MiSeq(Illumina)分析。数据在以下表2中示出，并且证明一些突变保持稳健中靶活性，而其他突变(例如52742ELD_K469S，在图1中鉴别为活性位点残基)敲除了裂解活性。

表2：具有FokI突变的TCRA(TRAC)ZFN的中靶结果

还进行了脱靶分析以确定如通过无偏捕获分析(PCT专利公布No.WO 2016/183298)测定的排名居前的脱靶裂解位点。通过无偏捕获测定法针对这种ZFN对鉴别的四个基因组基因座(TCRA(TRAC)中的预期靶标和三个脱靶)呈现于以下表3中。

表3：TCRA(TRAC)特异性ZFN的裂解位点

分析了在每种ZFN的400ng mRNA剂量下两个脱靶位点(称为OT11或XVFENVRX和OT16或XSKWTVWD，在以上表3中示出)处的核酸酶活性，其中ZFN对中的一个配偶体具有指定突变，并且另一个配偶体保留未修饰的ELD或KKR FokI结构域。所示的数据(表4)表明使用400ng的每个ZFN配偶体观察到的插入缺失(活性)百分比。这些数据还表明，一些突变维持几乎相等的中靶活性，但表明脱靶活性降低。例如，对于SBS#52774_KKR_K387S，在400ng下显示89.06％插入缺失的中靶活性(与52774_KKR亲本的89.08相比)以及6.39％插入缺失的OT11和OT16处的组合脱靶活性(与52774_KKR亲本的15.07％相比)。结果包括在BCL11A特异性ZFN中测试的FokI突变，其中位置416、422、447、448和525处的正电荷的改变降低脱靶活性。

表4：TRAC ZFN FokI突变体的脱靶裂解

然后将数据与突变的氨基酸残基与DNA分子之间的估计距离进行比较，以检查对中靶和脱靶裂解的影响(图4)。每个ZFN对的活性被示出为单个点，并且证明具有最合乎需要的特性(高中靶活性和低脱靶活性)的蛋白质是突变在距离DNA分子10埃以内的那些蛋白质(图4)。指示了对应于ZFN对的数据点，其中一种ZFN在位置416、422、447、448或525处携带FokI突变。

这些结果证明，残基416、422、447、448或525中的一个或多个的突变可增加中靶活性，同时降低脱靶活性。

实施例3：新颖的工程化的锌指主链突变的设计

先前研究表明锌指的‘主链’中的带正电荷的氨基酸残基(不参与DNA核苷酸位点特异性识别的结构的区域)与DNA分子上的磷酸根之间可能存在一些相互作用(Elrod-Erickson等人，同上)，参见图5A。位置-14、-9和-5处的氨基酸(均相对于α螺旋区的常规编号)通常带正电荷并且可与DNA主链中带负电荷的磷酸根相互作用(参见图5B)。因此，针对指序列中每个位置处的氨基酸残基的存在对4867条锌指序列进行了分析(参见图6)。在位置-5，在低但非零的频率下观察到中性氨基酸丙氨酸、亮氨酸和谷氨酰胺，并且因此这些氨基酸用于指主链的修饰。还鉴别了6和5种指ZFP中的位置以及潜在的取代(图7A和7B)。

突变在TCRA(TRAC)特异性ZFN对SBS#52774/SBS#52742中进行(参见PCT公布WO2017106528)。对于这些蛋白质，每个配偶体产生了总计21种变体((F1、F3、F5、F1+F3、F1+F5、F3+F5、F1+F3+F5)x(R->A、R->Q、R->L))。代表性的数据选择(表5)证明，许多对显示出针对所分析的三个脱靶的脱靶活性降低。在该表中，将52774 ZFN与52742 ZFN的变体组合，所述变体在位置-5指1(F1)、指3(F3)和指5(F5)处具有指示的突变。还指示了所进行的突变类型，其中该数据集中的所有突变体是精氨酸(R)至谷氨酰胺(Q)突变体。例如，标记为52742-F1RQ的蛋白质指示突变体，其中指1中位置-5处的精氨酸已被改变为谷氨酰胺。所述表的前部展示作为插入缺失％的活性，并且所述表的后半部分示出作为亲本ZFN对52774/52742的两个重复的活性的平均值的分数的活性。这些实验证明这些突变可能对脱靶裂解具有影响。例如，对于52742-F1RQ；F3RQ；F5RQ突变体，虽然中靶裂解维持在稳健水平(在6μg剂量下与亲本蛋白的62.59％活性相比，69.96％中靶活性)，但脱靶裂解下降(OT16显示亲本蛋白的19.16％裂解活性以及三重突变体中的1.43％活性)。

表5：锌指主链突变的示例性数据

以TCRA(TRAC)特异性亲本ZFN 52742和52774开始，每个模块的第一个指中的精氨酸(R)被丙氨酸(A)、谷氨酰胺(Q)或亮氨酸(L)置换。在CD34+细胞中对构建体进行测试，其中用6μg编码每个ZFN配偶体的mRNA处理细胞(参见图8A)。对于这些数据集，所示的每个数据条都是每种类型的所有突变的数据的平均值，并且误差棒表示标准误差。例如，在图8A中，对于指示中靶活性的最左侧黑条，这一值是ZFN对中可能具有单一突变的所有6个突变体的中靶的平均值。参考图7中的图解，这些因此包括在52742的模块A的N-末端指(全长蛋白中的F1)中的单一突变、在52742的模块B的N-末端指(全长蛋白质中的F3)中的单一突变、52742的模块C的N-末端指(全长蛋白质中的F5)中的单一突变和配偶体52774蛋白中的类似突变集。对于第二个黑条(指示中靶活性)，中靶库是所有2种突变蛋白的平均值(一组6种可能性，其中突变在单个配偶体ZFN中进行)，并且对于第三个黑条，中靶库是2种可能性的平均值，其中左或右ZFN中的所有三个模块都突变。对于由灰色条示出的脱靶数据，除了将来自三个脱靶位点的数据组合之外，制备了类似的库，以使得脱靶数据集中的单一突变或双重突变的库各自包括18个数据点并且三种突变的库包括6个数据点。突变导致脱靶活性降低达4.8倍。

还进行了实验，其中ZFN对的两个配偶体以相似的方式突变(图8B的右半部分)。例如，如果模块A中的N-末端指被改变为丙氨酸(52742-F1RA)，则配偶体蛋白也将在模块A(52774-F1RA)中的N-末端指处突变，以在ZFN二聚体中获得总计2个突变。仅在二聚体中的两种ZFN中同时测试了丙氨酸取代，并且该数据在图8B的右半部分上示出(用2、4或6表示)。出于比较目的，在图8B的左半部分中再次示出来自图8A的左侧三分之一的二聚体中对仅一种ZFN进行的R->A突变(由1、2或3表示)。图8C类似于图8A的右侧部分，除了仅使用2μg(20μg/mL)的RNA。这些实验证明，当二聚体中的两种ZFN中发生总计六个突变时，这些突变可产生脱靶活性的27倍降低。

还用上述BCL11A特异性ZFN对51857-ELD/51949-KKR进行了这些实验。实验设计类似于针对TCRA(TRAC)特异性ZFN对所描述的，并且结果显示在图9A中。所呈现的数据示出以2μg(20μg/mL)给药的包含R->Q(Gln)或R->L(Leu)突变的对的结果，其中所描绘的脱靶结果是针对仅一个脱靶位点(NIFMAEVG，见表1)。

通过用E、N、Y、A或L置换R来制备-5位置处的额外氨基酸变体。除了改变-5位置处的氨基酸外，在BCL11A特异性ZFN对51857/51949的指1中的位置-9和-14中进行一系列突变。将这些单独和与指2-6中的-5改变组合如上所述针对中靶活性和脱靶活性进行测试。数据在以下表6中示出。每种蛋白质具有与针对上述亲本蛋白质所描述相同的DNA特异性螺旋区域，但是给出了新的SBS标识号以反映ZFP主链突变。简言之，蛋白质的全名反映指中列出的变体。因此，全名的“cR”部分是指在双指模块的C-末端指中进行的变化(参考图7)，并且“nR”是指在双指模块的N-末端指中进行的变化。描述“rQa”意指在A模块中的-5位置中进行的改变，并且其在其中进行的指由cR或nR定义。因此，SBS#65461(全名51857-NELD-cR-5Qa)是SBS#51857衍生物，其中在C-末端指中在-5位置处进行改变，其中Q置换模块A中的R。这也可在表中看出，其中存在于F2，-5列中指示的Q。当对-14位置进行变化时，如对于SBS#65459(全名51857-NELD-nR-14Q-5Qabc)，它指示。因此，SBS#65459是SBS#51857衍生物，其中对模块中的N-末端指进行变化，其中指1的-14已经从R改变为Q，并且模块A、B和C的N-末端指中的-5位置已经从R改变为Q。在SBS#65460的情况下，指1的-14已经从R改变为S。再次，这也可从表中确定。名称“NELD”和“CKKR”指示FokI核酸酶结构域的类型(“ELD”或“KKR”FokI结构域变体)和载体的其他方面(参见PCT公布No.WO 2017/136049)。表6A示出在SBS#51857衍生物配偶体与所述SBS#51949配偶体或包含在模块A、B和C中的位置-5处的N-末端指中插入Q的改变的SBS#51949配偶体中进行的突变的配对，其中这种配偶体还包含FokI结构域中的R416S突变，其中使用2μg的编码每种ZFN的mRNA进行实验。还使用SBS#51949蛋白中的突变进行了这些实验(参见表6B)，其中还与主链突变组合测试了FokI结构域的磷酸根相互作用氨基酸中的突变。这些数据表明，额外的改变能够影响ZFN对的特异性。

表6A：ZFN SBS#51857的主链位置中的改变

表6B：ZFN SBS#51949的其他主链位置和FokI中的改变

*63022-R416S也称为SBS#65721。

**63022-K525S也称为SBS#65722。

使用CD34+细胞重复实验，其中使用BTX转染系统使用根据制造商的说明书优化的条件将RNA递送至细胞。使用了三种浓度的RNA：60、20和5μg/mL最终浓度。数据在以下表6C中示出，并且证明即使在非常低水平的ZFN mRNA下也能够检测到稳健的中靶裂解，以使得脱靶裂解显著降低(＞100x)。突变以图2C中所示的命名法指示。仅使用来自以下表6C的亲本和3x(R->Q)/3x(R->Q)对重复实验以确定结果的稳健性。如表6D中所示，结果是高度可重复的。

表6C：中靶和脱靶效应的滴定：

括号中的数字表示未发现核酸酶裂解的证据的值。*表示右ZFN还包含FokI核酸酶结构域中的额外R416S突变。

表6D：中靶活性的重复测量

*表示右ZFN还包含FokI核酸酶结构域中的额外R416S突变。

实施例4：滴定ZFN配偶体以获得最佳中靶活性

单独地滴定ZFN对的每个配偶体可允许确定每个ZFN配偶体的最佳浓度，并且因此具有通过所述对进行的最大中靶修饰，同时使脱靶修饰最小化。每个单独的ZFN半结构域可具有其自身的与其同源DNA靶标结合的动力学，因此通过各自的单独滴定，可实现最佳活性。因此，使用作为mRNA引入的ZFN，将BCL11A特异性对SBS#51949/SBS#51857用于CD34+细胞中的滴定研究，其中使用高浓度的ZFN以允许检测脱靶裂解。实验(以下表7)发现，滴定SBS#51857配偶体使得脱靶裂解减少(大约8倍)，同时保持稳健的中靶裂解。例如，当60μg/mL的51949 mRNA与6.6μg/mL的51857 mRNA组合使用时，中靶修饰与使用60μg/mL的每种ZFN时保持大致相同(当使用60μg/mL的每种时76.1％插入缺失，当60μg/mL的51949与6.6μg/mL的51857组合使用时78.3％插入缺失)，而总体脱靶从32.4％插入缺失降至4.0％。注意，减少两种ZFN的mRNA输入同样导致中靶修饰的逐渐下降，而当中靶修饰降低时，脱靶修饰仅显著降低。

表7：单一ZFN滴定

还进行蛋白质印迹分析以证明每个ZFN配偶体的表达与递送的编码ZFN的mRNA的量相关(图10)。在该实验中，用指定的ZFN转染CD34+细胞，并且在24小时后，使用抗Flag抗体检测ZFN蛋白的表达(表达构建体包含编码的Flag标签)。还分析了当所述ZFN作为通过2a自裂解肽序列分开的单一RNA共同引入时两种蛋白质的表达(参见图10中的泳道2)。

重复滴定，从而独立地改变两种ZFN以观察是否对中靶或脱靶裂解活性存在任何影响。结果(图11)证明，两个配偶体的向下滴定降低脱靶裂解，但所述影响对于SBS#51857最强。图11中BCL11A中靶图表中的框表示使用60μg的SBS#51949 mRNA与6.6或60μg的SBS#51857 mRNA针对预期BCL11A靶标的裂解活性的维持，而位点NIFMAEVG处的脱靶活性随着SBS#51857的剂量减少而从27％降至4％插入缺失。

实施例5：将ZFN配偶体滴定和FokI-磷酸根接触突变组合

接下来，进行分析以测量与示例性FokI突变组合的ZFN配偶体滴定的活性。包含Fok突变的BCL11A特异性ZFN以上文所示的比例使用以保持中靶活性，同时减少脱靶切割。实验在CD34+细胞中进行，其中用编码ZFN的mRNA转染细胞。数据呈现于以下表8中。“中靶/脱靶比例”表示对于所示样品组合的中靶与所有脱靶活性的比例。6.6μg/mL的SBS#51857与60μg/mL SBS#51949-R416S FokI突变体的组合产生相似水平的中靶活性(对于60μg的两种亲本ZFN，84.85％对比78.17％)，同时显著降低所有五个监测的脱靶位点处的活性，并且产生中靶/脱靶比例的32倍提高(对于60μg/mL的每种亲本ZFN，89.52对比2.76)。

表8：将FokI突变体与ZFN配偶体的减少的滴定组合：

NHEJ活性％

通过将滴定与FokI突变体方法组合来检查表1中先前列出的所有脱靶位点对脱靶活性的影响(参见图12)。

数据表明脱靶活性的大约30倍的总体降低。

还根据在裂解后通过上述无偏捕获测定检测的捕获事件的数量对数据进行了分析。使用表6D中的上述BCL11A特异性对，亲本对(SBS51857/SBS51949)和变体对(SBS63014/SBS65721)两者，并且测定脱靶捕获事件的数量。在该实验中，所述ZFN对于亲本对以相等量(60μg/mL最终浓度)或以6.6μg和60μg最终浓度并且对于变体以20μg和60μg最终浓度给与至CD34+细胞。

结果在图13中示出，并且证明虽然亲本和变体在两种浓度条件下均显示出稳健的裂解活性(＞80％插入缺失)，但是脱靶捕获事件大大减少，特别是对于当以不等剂量递送时的变体对来说。ZFN FokI突变与不等浓度的ZFN配偶体的组合产生裂解特异性的350倍增加。

实施例6：将ZFP主链突变与FokI磷酸根接触突变组合

还产生了包含实施例3中描述的锌指主链突变与实施例2中描述的FokI磷酸根接触突变的ZFN。在CD34+细胞中用BCL11A特异性ZFN以两种剂量对这种组合进行了测试：6μg或2μg。结果在以下表9中示出，并且证明将这两种方法组合可显著影响脱靶活性的量。在该表中，主链突变示出为每个模块(A、B和/或C，参见图7)的突变类型。例如，在标记为51949LeuABC R416S的样品中，蛋白质包含指1(模块A)、3(模块B)和5(模块C)中的R->L主链取代，并且进一步携带R416S FokI突变。在若干实例中，存在ZFN对，其没有可检测的脱靶活性，同时保留完全中靶活性。这些实施例在表9中加框。

表9：包含ZFN主链和FokI磷酸根接触突变的ZFN的活性(％NHEJ).

ND：未检测到活性

实施例7：将配偶体滴定、ZFP主链和FokI磷酸根接触突变组合

还进行了活性测量，其中将最佳配偶体滴定与包含ZFP主链突变和ZFN FokI突变的ZFN组合。如上所述在CD34+细胞中对所述ZFN进行了测试，并且通过降低的脱靶活性水平证明ZFN对的特异性增加。

实施例8：在临床规模下ZFN在CD34+细胞中的特异性

还在大规模程序中测试了BCL11A变体对SBS63014/SBS65722的特异性，所述程序适于产生用于临床试验的细胞材料。简言之，根据制造商的说明书，使用Maxcyte设备转导每批大约9500万-1.3亿个CD34+细胞。使用80μg/mL的SBS63014 mRNA和20μg/mL的SBS#65722 mRNA，并且使用无偏捕获测定在两天后测定细胞的脱靶裂解。

结果表明，当通过PCR分析47个不同的潜在捕获基因座时(参见图14)，除了在靶位置处外，未检测到显著修饰，其中发现了79.54％插入缺失。这一数据表明，即使在大规模制造程序中使用时，如本文所述的这些核酸酶也是高度特异性的。

实施例9：进一步特异性研究

还使用具有如上所述的各种突变的AAVS1-靶向的ZFN进行了特异性研究。特别地，如美国公布No.20150110762中所述的ZFN SBS#30035和SBS#30054用于研究各种突变体，包括二聚化突变体(例如，ELD、KKR和另外突变体)、其他突变(例如，Sharkey)以及如上所述的活性测定中的磷酸根接触突变体。

对于下表中的结果，将所指示的一种或多种FokI突变体引入SBS 30035的ELDFokI结构域(标记为ELD_X，其中X是FokI突变)、SBS 30054的KKR FokI结构域(标记为KKR_X，其中X是FokI突变)，或引入两种构建体的FokI结构域中(标记为ELD_KKR_X，其中X是引入ELD和KKR FokI结构域两者中的相同FokI突变)。未修饰的“亲本构建体”30035和30054的组合的结果标记为“亲本(parental)”、“亲本(parentals)”、“亲本ZFN”等。较低剂量的每种亲本构建体通常标记为“半剂量(halfdose)”。无核酸酶的阴性对照通常标记为“GFP”。在给定实验中预期基因座(通常标记为“AAVS1”)处的插入缺失％除以所测量的所有脱靶处的插入缺失％的总和的比例通常标记为“比例”、“中靶/脱靶比例(on/off ratio)”等。

AAVS1靶标和脱靶的位置在以下示出，其中‘hg38’表示根据UCSC基因组浏览器数据库的组装的基因组数据，构建hg38：

表10A-10C示出来自2个不同实验中靶(AAVS1)和三个脱靶(OT1、OT2、OT3)的裂解结果以及在R416或K525处具有额外的取代突变(野生型的每个氨基酸)的二聚化突变体ELD、KKR和ELD-KKR的中靶与脱靶的比例。还示出了使用ELD_S418D、ELD_N476D、ELD_I479T、ELD_Q481E、ELD_N527D和ELD_Q531R突变体的结果。

表10A

表10B

表10C

表11A-11C示出来自2个不同实验中靶(AAVS1)和三个脱靶(OT1、OT2、OT3)的裂解结果以及所指示突变体(包括在418、422和525处的取代突变体与二聚化突变体ELD和/或KKR的组合)的中靶与脱靶的比例。

表11A

表11B

表11C

表12A-12C示出来自2个不同实验中靶(AAVS1)和三个脱靶(OT1、OT2、OT3)的裂解结果以及所指示突变体的中靶与脱靶的比例。

表12A

表12B

表12C

表13A至13C使用具有所指示的突变(ELD、KKR、ELD/KKR和所指示的其他突变)的靶向AAVS1的ZFN的中靶和脱靶裂解事件。

表13A

表13B

表13C

表14A-14C示出使用所指示的突变体的结果。

表14A

表14B

表14C

表15A至15C示出使用所指示的突变体的重复实验的结果。

表15A

表15B

表15C

表16B

表17A至17C示出使用所指示的示例性突变体(包括示例性双突变体)的结果。

表17A

表17B

表17C

表18A至18C示出使用所指示的裂解结构域突变体的结果。

表18A

表18B

表18C

图15和16还示出使用所指示的突变体的选定结果的总结。

所述结果证明了使用本文所述的突变体的高度特异性裂解。

本文提到的所有专利、专利申请和公布特此以引用的方式整体并入。

虽然出于清楚理解的目的，已通过说明和实施例详细地提供了公开内容，但是将为本领域技术人员所显而易见的是，可在不背离本公开的精神或范围的情况下实施各种变化和修改。因此，前述描述和实施例不应被理解为具有限制性。

Claims

1.一种工程化的FokI裂解半结构域，其中所述工程化的裂解半结构域包含残基393、394、398、416、421、422、442、444、472、473、478、480、525或530中的一种或多种突变，或者其中位置418处的野生型残基被Glu(E)或Asp(D)残基置换，位置446处的野生型残基被Asp(D)残基置换，位置448处的野生型残基被Ala(A)残基置换(K448A)，位置479处的野生型残基被Gln(Q)或Thr(T)残基置换(I479Q或I479T)，位置481处的野生型残基被Ala(A)、Asn(N)或Glu(E)残基置换(Q481A、Q481N、Q481E)，或者位置523处的野生型残基被Phe(F)残基置换，其中所述氨基酸残基相对于如SEQ ID NO：1中所示的全长FokI野生型裂解结构域编号。

2.如权利要求1所述的工程化的裂解半结构域，其包含残基416和422处的突变、位置416处的突变和K448A、K448A和I479Q、K448A和Q481A和/或K448A、以及位置525处的突变。

3.如权利要求2所述的工程化的裂解半结构域，其中位置416处的野生型残基被Glu(E)残基置换(R416E)，位置422处的野生型残基被His(H)残基置换(R422H)，并且位置525处的野生型残基被Ala(A)残基置换。

4.如权利要求1至3中任一项所述的工程化的裂解半结构域，其还包含位置432、441、483、486、487、490、496、499、527、537、538和559中的一个或多个处的额外氨基酸突变。

5.一种异二聚体，其包含如权利要求1至4中任一项所述的第一工程化的裂解半结构域和第二裂解半结构域。

6.一种人工核酸酶，其包含如权利要求1至4中任一项所述的工程化的裂解半结构域和DNA结合结构域。

7.如权利要求6所述的人工核酸酶，其中所述DNA结合结构域包含锌指蛋白、TALE效应物结构域或单指导RNA(sgRNA)。

8.如权利要求7所述的人工核酸酶，其中所述锌指蛋白包含在位置-14、-9和-5处的一种或多种突变。

9.一种多核苷酸，其编码如权利要求1至4中任一项所述的工程化的裂解半结构域、如权利要求5所述的第一工程化的裂解结构域和第二工程化的裂解结构域或如权利要求6至8中任一项所述的人工核酸酶。

10.一种分离的细胞，其包含如权利要求9所述的多核苷酸。

11.一种用于裂解目标区域中的基因组细胞染色质的方法，所述方法包括：

在细胞中表达包含根据权利要求6至8中任一项所述的工程化的裂解结构域的人工核酸酶，

其中所述核酸酶位点特异性地裂解所述基因组细胞染色质的目标区域中的核苷酸序列。

12.如权利要求11所述的方法，其还包括使所述细胞与供体多核苷酸接触；其中所述细胞染色质的裂解促进所述供体多肽与所述细胞染色质之间的同源重组。

13.一种裂解基因组细胞染色质中的至少两个靶位点的方法，所述方法包括：

裂解基因组细胞染色质中的至少第一靶位点和第二靶位点，其中使用包含根据权利要求6至8中任一项所述的人工核酸酶的组合物裂解每个靶位点。

14.一种分离的细胞或细胞系，其包含通过根据权利要求6至8中任一项所述的人工核酸酶产生的至少一种位点特异性基因组修饰。