CN102762726A

CN102762726A - 嵌合内切核酸酶及其用途

Info

Publication number: CN102762726A
Application number: CN2010800624433A
Authority: CN
Inventors: A·赫鲁贝克; C·比斯根; H·W·霍夫肯
Original assignee: BASF Plant Science Co GmbH
Current assignee: BASF Plant Science Co GmbH
Priority date: 2009-11-27
Filing date: 2010-11-26
Publication date: 2012-10-31
Also published as: JP2013511979A; CA2781835A1; EP2504430A1; BR112012012444A2; ZA201204697B; US20120324603A1; AU2010325564A1; WO2011064751A1; DE112010004584T5; EP2504430A4

Abstract

本发明涉及包含内切核酸酶和异源DNA结合结构域的嵌合内切核酸酶，以及使用嵌合内切核酸酶对多核苷酸进行靶向整合、靶向缺失或靶向突变的方法。

Description

嵌合内切核酸酶及其用途

发明领域

发明背景

基因组工程化(genome engineering)是概括用于在基因组内插入、缺失、取代或操纵特定遗传序列的不同技术的通用术语，其具有大量的治疗应用和生物技术应用。所有基因组工程化技术或多或少都使用重组酶、整合酶或内切核酸酶，用于在预定位点制造DNA双链断裂，以促进同源重组。

尽管已利用了大量的方法来制造DNA双链断裂，开发在基因组中于高度特异性位点制造DNA双链断裂的有效方法仍是基因疗法、农业技术和合成生物学中的主要目标。

实现该目标的一种手段是使用对下述序列具有特异性的核酸酶，所述序列足够大到仅存在于基因组内的单个位点。识别此类大约15至30个核苷酸的大DNA序列的核酸酶因此被称为“大范围核酸酶”或“归巢(homing)内切核酸酶”，并常与寄生性(parasitic)DNA元件或自在DNA元件相关联，所述元件例如常发现于植物和真菌基因组中的组1自剪接内含子和内含肽。大范围核酸酶通常被分组为四个家族：LAGLIDADG家族、GIY-YIG家族、His-Cys盒家族和HNH家族。这些家族的特征在于影响催化活性和它们的DNA识别序列的序列的结构基序。

来自LAGLIDADG家族的天然大范围核酸酶已被用于在昆虫和哺乳动物细胞培养物以及很多生物(例如植物、酵母或小鼠)中有效促进位点特异性基因组修饰，但是该手段已局限于对DNA识别序列保守的同源基因的修饰或已向其中引入了识别序列的预工程化(preengineered)基因组的修饰。为避免此类局限以及为促进DNA双链断裂激发的基因修饰的系统性(systematic)执行，已经制造了新的核酸酶类型。

一种新核酸酶类型由人工组合的非特异性核酸酶和高度特异性DNA结合结构域构成。已使用FokI限制性酶的非特异性核酸酶结构域和经工程化的锌指DNA结合结构域之间的嵌合融合体，在多种生物中展现了该策略的有效性(例如WO03/089452)。该手段的一种变化是使用作为DNA结合结构域的大范围核酸酶的失活变体与非特异性核酸酶(例如FokI)融合的，例如Lippow等人，“Creation of a type IISrestriction endonuclease with a long recognition sequence”，Nucleic AcidResearch(2009)，Vol.37，No.9，3061至3073页所公开的。

一种备选手段是对天然大范围核酸酶进行遗传工程化，以定制其与基因组中存在的位点结合的DNA结合区域，由此制造具有新特异性的经工程化的大范围核酸酶(例如WO07093918、WO2008/093249、WO09114321)。但是，已针对DNA切割特异性工程化过的很多大范围核酸酶相对于其所来源的天然存在的大范围核酸酶而言具有减少的切割活性(US2010/0071083)。大多数的大范围核酸酶还作用于与其最优结合位点相似的序列上，这可能导致非意图性的或者甚至有害的脱靶作用。已采取了若干手段，以增强大范围核酸酶诱导的同源重组的效率，例如通过将核酸酶与大鼠糖皮质激素受体的配体结合结构域融合，以通过添加地塞米松或相似化合物促进或者甚至诱导该经修饰的核酸酶运送至细胞核以及由此运送至其靶向位点(WO2007/135022)。但本领域仍需要开发具有对同源重组有高诱导效率和/或针对其结合位点有高特异性的大范围核酸酶，由此限制脱靶作用的风险。

发明简述

本发明提供了嵌合内切核酸酶，其包含至少一个具有DNA双链断裂诱导活性的内切核酸酶和至少一个异源DNA结合结构域。优选地，嵌合内切核酸酶的至少一个内切核酸酶为LAGLIDADG内切核酸酶。在一个实施方案中，至少一个LAGLIDADG内切核酸酶是I-SceI、I-CreI、I-CeuI、I-ChuI、I-DmoI、PI-SceI、I-MsoI或I-AniI或者与这些LAGLIDADG内切核酸酶的任意之一具有至少45％氨基酸序列同一性的LAGLIDADG内切核酸酶。在本发明的另一实施方案中，至少一个LAGLIDADG内切核酸酶与SEQ ID NO：1、2、3或159所述的多肽具有至少80％的氨基酸序列同一性。LAGLIDADG内切核酸酶可以是野生型的、经工程化的、经优化的或者经优化的工程化LAGLIDADG内切核酸酶。

异源DNA结合结构域优选地是转录因子或失活的核酸酶或者包含转录因子或核酸酶的DNA结合结构域的片段。

在一个实施方案中，至少一个异源DNA结合结构域是失活的I-SceI、I-CreI、I-CeuI、I-ChuI、I-DmoI、PI-SceI、I-MsoI或I-AniI或者那些具有至少45％氨基酸序列同一性的失活同源物。在一个实施方案中，异源DNA结合结构域是LAGLIDADG内切核酸酶的失活版本，所述LAGLIDADG内切核酸酶的失活版本具有SEQ ID NO：1、2、3、5、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、142或159的至少之一所述的氨基酸序列，优选地具有SEQ ID NO：1、2、3、5或159的任意之一所述的氨基酸序列。

在本发明的另一实施方案中，异源DNA结合结构域是转录因子或者转录因子的DNA结合结构域。优选地转录因子或者转录因子的DNA结合结构域包含HTH结构域。甚至更优选地，转录因子或者转录因子的DNA结合结构域包含这样的HTH结构域，其包含与SEQ ID NO：91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118或119所述的，优选地91、92、93、94、95、112、113、114、115、116、117、118或119所述的至少一种氨基酸序列至少80％序列同一性的氨基酸序列。在本发明的一个实施方案中，异源DNA结合结构域包含与SEQID NO：6、7或8所述的多肽具有至少80％氨基酸序列同一性的多肽。优选地，嵌合内切核酸酶包含接头(或者同义的接头多肽)，以将至少一种内切核酸酶与至少一种异源DNA结合结构域连接。嵌合内切核酸酶可以包含一个或多个NLS序列或者一个或多个SecIII或SecIV分泌信号或者一个或多个NLS序列与一个或者多个SecIII或SecIV分泌信号的组合或者一个或多个SecIII和SecIV分泌信号与一个或多个NLS序列的组合。在本发明的一个实施方案中，异源DNA结合结构域的DNA结合活性是可诱导的。在本发明的另一实施方案中，通过同型二聚体或异型二聚体内切核酸酶，优选同型二聚体或异型二聚体LAGLIDADG内切核酸酶的第二单体的表达，内切核酸酶的DNA双链断裂诱导活性是可诱导的。嵌合内切核酸酶可以包含至少一个NLS序列或至少一个SecIII或至少一个SecIV分泌信号或者一个或多个NLS序列、一个或多个SecIII分泌信号或一个或多个SecIV分泌信号的组合。

本发明还提供了编码嵌合内切核酸酶的经分离的多核苷酸。优选地，编码嵌合内切核酸酶的经分离的多核苷酸是经密码子优化的，或具有低含量的RNA不稳定性基序，或具有低含量的隐蔽剪接位点，或具有低含量的备选起始密码子，具有低含量的限制性位点，或具有低含量的RNA二级结构，或具有这些特征的组合。本发明的另一实施方案是表达盒，所述表达盒包含与启动子和终止子序列功能性组合的编码嵌合内切核酸酶的经分离的多核苷酸。由本发明提供的经分离的多核苷酸的其他组是经分离的多核苷酸，其包含长度为大约15至大约300个核苷酸的嵌合识别序列，所述嵌合识别序列包含内切核酸酶的识别序列和异源DNA结合结构域的识别序列。优选地，嵌合识别序列包含LAGLIDADG内切核酸酶的DNA识别序列，甚至更优选地具有如由SEQ ID NOs：1、2、3、5、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、142或159的至少之一所述的氨基酸序列，优选地具有由SEQ ID NO：1、2、3、5或159所述的氨基酸序列的LAGLIDADG内切核酸酶的DNA识别序列。在本发明的另一些实施方案中，嵌合识别位点包含I-SceI、I-CreI、I-DmoI、I-MsoI、I-CeuI、I-ChuI、Pi-SceI或I-Anil的DNA识别序列，以及与scTet、scArc、LacR、MerR或MarA或者与scTet、scArc、LacR、MerR或MarA的DNA结合结构域片段具有至少50％的序列氨基酸序列同一性的异源DNA结合结构域的识别序列。由本发明提供的优选多核苷酸包含嵌合识别序列，其包含I-SceI的DNA识别序列和scTet或scArc的识别序列，其中I-SceI的DNA识别序列和scTet或scArc的识别序列是直接连接的或者通过1至10个核苷酸的接头序列连接。在优选的实施方案中，经分离的多核苷酸包含嵌合识别序列，所述嵌合识别序列包含SEQ ID NOs：14、15、16、17、18、19或20中任一所述的多核苷酸序列。

本发明还提供了载体、宿主细胞或非人生物，它们包含编码嵌合内切核酸酶的分离的多核苷酸，或如上所述的经分离的多核苷酸，或表达盒，或包含嵌合识别序列或嵌合内切核酸酶的分离的多核苷酸或者包含这些的一个或者多个的组合。

本发明提供了使用本文所述的嵌合内切核酸酶和嵌合识别序列诱导或协助同源重组或末端联接事件的方法。优选用于靶向整合或序列切除的方法。优选地，被切除的序列是标记基因。

本发明的一个实施方案是提供嵌合内切核酸酶的方法，所述方法包括下述步骤：a)提供至少一个内切核酸酶编码区域，b)提供至少一个异源DNA结合结构域编码区域，c)提供具有步骤a)的一个或多个内切核酸酶的一个或多个可能的DNA识别序列并且具有步骤b)的一个或多个异源DNA结合结构域的一个或多个可能的识别序列的多核苷酸，d)制造步骤b)的所有内切核酸酶的编码区域和步骤c)的所有异源DNA结合结构域的翻译融合体，e)从来自步骤d)制造的翻译融合体表达嵌合内切核酸酶，f)针对对步骤c)的多核苷酸的切割，测试步骤e)中表达的嵌合内切核酸酶。

本发明还提供了用于多核苷酸同源重组的方法，所述方法包括下述步骤：a)提供同源重组的感受态细胞，b)提供包含侧翼有序列A和序列B的嵌合识别位点的多核苷酸，c)提供包含序列A’和B’的多核苷酸，序列A’和B’足够长并且与序列A和序列B足够同源，从而允许在所述细胞中同源重组，以及d)提供如本文所述的嵌合内切核酸酶或如本文所述的表达盒，e)在所述细胞中组合b)、c)和d)，以及f)检测b)和c)的重组多核苷酸，或选择出包含b)和c)的重组多核苷酸的细胞或使包含b)和c)的重组多核苷酸的细胞生长。优选地，用于多核苷酸同源重组的方法导致同源重组，其中，步骤a)的感受态细胞中包含的多核苷酸序列从步骤f)的生长细胞的基因组中缺失。本发明的另一方法是用于靶向突变的方法，所述方法包括下述步骤：a)提供包含下述多核苷酸的细胞，所述多核苷酸包含嵌合内切核酸酶的嵌合识别位点，b)提供能切割步骤a)的嵌合识别位点的嵌合内切核酸酶，c)在所述细胞中组合a)和b)，以及d)检测经突变的多核苷酸，或针对包含经突变的多核苷酸的生长细胞加以选择。在本发明的另一优选的实施方案中，上文所述的方法包括下述步骤，其中嵌合内切核酸酶和嵌合识别位点组合于至少一种细胞中，这通过生物的杂交、通过转化或通过经由融合至经优化内切核酸酶的SecIII或SecIV肽介导的运送来实现。

附图简述

图1描述了不同的I-SceI同系物的序列比对，其中1是SEQ ID NO：1、2是SEQ ID NO：56，3是SEQ ID NO：57，4是SEQ ID NO：58，5是SEQ ID NO：59。

图2描述了不同的I-CreI同系物的序列比对，其中1是SEQ ID NO：60，2是SEQ ID NO：61，3是SEQ ID NO：62，4是SEQ ID NO：63，5是SEQ ID NO：64。

图3a至3c描述了不同的PI-SceI同系物的序列比对，其中1是SEQID NO：79，2是SEQ ID NO：80，3是SEQ ID NO：81，4是SEQ ID NO：82，5是SEQ ID NO：83。

图4描述了不同的I-CeuI同系物的序列比对，其中1是SEQ ID NO：65，2是SEQ ID NO：66，3是SEQ ID NO：67，4是SEQ ID NO：68，5是SEQ ID NO：69。

图5描述了不同的I-ChuI同系物的序列比对，其中1是SEQ ID NO：70，2是SEQ ID NO：71，3是SEQ ID NO：72，4是SEQ ID NO：73，5是SEQ ID NO：74。

图6描述了不同的I-DmoI同系物的序列比对，其中1是SEQ ID NO：75，2是SEQ ID NO：76，3是SEQ ID NO：77，4是SEQ ID NO：78。

图7描述了不同的I-MsoI同系物的序列比对，其中1是SEQ ID NO：84，2是SEQ ID NO：85。

图8描述了不同的TetR同系物的序列比对，其中1是SEQ ID NO：86，2是SEQ ID NO：87，3是SEQ ID NO：88，4是SEQ ID NO：89，5是SEQ ID NO：90。

图9a描述了不同的TetR同系物的HTH结构域的序列比对，其中1是SEQ ID NO：91，2是SEQ ID NO：92，3是SEQ ID NO：93，4是SEQ ID NO：94，5是SEQ ID NO：95。

图9b描述了不同的ArcR同系物的HTH结构域的序列比对，其中1是SEQ ID NO：96，2是SEQ ID NO：97，3是SEQ ID NO：98，4是SEQ ID NO：99，5是SEQ ID NO：100。

图10a描述了不同的LacR同系物的HTH结构域的序列比对，其中1是SEQ ID NO：101，2是SEQ ID NO：102，3是SEQ ID NO：103，4是SEQ ID NO：104，5是SEQ ID NO：105。

图10b描述了不同的MerR同系物的HTH结构域的序列比对，其中1是SEQ ID NO：106，2是SEQ ID NO：107，3是SEQ ID NO：108，4是SEQ ID NO：109，5是SEQ ID NO：110，6是SEQ ID NO：111。

图11描述了不同的MarA同系物的HTH结构域的序列比对，其中1是SEQ ID NO：112，2是SEQ ID NO：113，3是SEQ ID NO：114，4是SEQ ID NO：115，5是SEQ ID NO：116，6是SEQ ID NO：117，7是SEQ ID NO：118，8是SEQ ID NO：119。

图12描述了不同的MarA同系物的序列比对，其中1是SEQ ID NO：120，2是SEQ ID NO：121，3是SEQ ID NO：122，4是SEQ ID NO：123，5是SEQ ID NO：124，6是SEQ ID NO：125，7是SEQ ID NO：126，8是SEQ ID NO：127。

发明详述

本发明提供了嵌合内切核酸酶，其可以用作为备选的DNA双链断裂诱导酶。本发明还包括使用这些嵌合内切核酸酶的方法。

本发明的嵌合内切核酸酶

本发明的嵌合内切核酸酶包含至少一个具有DNA双链断裂诱导活性的内切核酸酶和至少一个异源DNA结合结构域。

内切核酸酶

适合于本发明的内切核酸酶诱导至少4个、至少6个、至少8个、至少10个、至少14个、至少16个、至少18个或至少20个碱基对的DNA识别序列中的DNA双链断裂。

优选地内切核酸酶诱导至少14个碱基对，更优选地至少16个碱基对，甚至更优选地至少18个碱基对的DNA识别序列中的双链断裂。

术语“DNA识别序列”一般指这样的序列，其在细胞中(例如在植物细胞中)的条件下能被内切核酸酶识别并切割。DNA识别序列以及切割这些DNA识别序列的内切核酸酶的实例可以见于下文的表8中。

许多不同的内切核酸酶是本领域技术人员已知的。实例为归巢内切核酸酶，例如F-SceI，F-SceII，F-SuvI，F-TevII，I-AmaI，I-AniI，I-CeuI，I-CeuAIIP，I-ChuI，I-CmoeI，I-CpaI，I-CpaII，I-CreI，I-CrepsbIP，I-CrepsbIIP，I-CrepsbIIIP，I-CrepsbIVP，I-CsmI，I-CvuI，I-CvuAIP，I-DdiI，I-DdiII，I-Dirl，I-DmoI，I-HmuI，I-HspNIP，I-LlaI，I-MsoI，I-NaaI，I-NanI，I-NcIIP，I-NgrIP，I-NitI，I-NjaI，I-Nsp236IP，I-PakI，I-PboIP，I-PcuIP，I-PcuAI，I-PcuVI，I-PgrIP，I-PobIP，I-PorI，I-PorIIP，I-PpbIP，I-PpoI，I-SPBetaIP，I-ScaI，I-SceI，I-SceII，I-SceIII，I-SceIV，I-SceV，I-SceVI，I-SceVII，I-SexIP，I-SneIP，I-SpomCP，I-SpomIP，I-SpomIIP，I-SquIP，I-Ssp6803I，I-SthPhiJP，I-SthPhiST3P，I-SthPhiS3bP，I-TdeIP，I-TevI，I-TevII，I-TevIII，I-UarAP，I-UarHGPA1P，I-UarHGPA13P，I-VinIP，I-ZbiIP，PI-MtuI，PI-MtuHIP，PI-MtuHIIP，PI-PfuI，PI-PfuII，PI-PkoI，PI-PkoII，PI-PspI，PI-Rma43812IP，PI-SPBetaIP，PI-SceI，PI-TfuI，PI-TfuII，PI-ThyI，PI-TliI，PI-TliII，H-DreI，I-BasI，I-BmoI，I-PogI，I-TwoI，PI-MgaI，PI-PabI，PI-PabII。

优选的归巢内切核酸酶为GIY-YIG-、His-Cys框-、HNH-或LAGLIDADG内切核酸酶。GIY-YIG内切核酸酶具有70-100个氨基酸长度的GIY-YIG组件，其包括具有4个不变残基的4个或5个保守序列基序(Van Roey等人(2002)，Nature Struct.Biol.9：806-811)。His-Cys框内切核酸酶包含在几百个氨基酸残基的区域上的组氨酸和半胱氨酸的高保守序列。HNH内切核酸酶由含两对保守的组氨酸的序列基序定义，所述两对保守的组氨酸被天冬酰胺残基包围。其他有关His-Cys框和HNH内切核酸酶的信息由Chevalier等人(2001)，Nucleic Acids Res.29(18)：3757至3774提供。

优选地，在嵌合内切核酸酶中使用的归巢内切核酸酶属于LAGLIDADG内切核酸酶的组。

LAGLIDADG内切核酸酶可在藻类、真菌、酵母、原生动物、叶绿体、线粒体、细菌和古细菌的基因组中发现。LAGLIDADG内切核酸酶包含至少一个保守的LAGLIDADG基序。LAGLIDADG基序的名称基于出现于所有LAGLIDADG内切核酸酶中的特征性氨基酸序列。术语LAGLIDADG是该氨基酸序列根据STANDARD ST.25(即，PCIPI执行协调委员会(PCIPI Executive Coordination Committee)针对专利申请中呈现的核苷酸和氨基酸序列表所采用的标准)中所述的单字母密码子的首字母缩写。

但是，LAGLIDADG基序并非在所有LAGLIDADG内切核酸酶中完全保守(见例如Chevalier等人(2001)，Nucleic Acids Res.29(18)：3757至3774，或Dalgaard等人(1997)，Nucleic Acids Res.25(22)：4626至4638)，从而一些LAGLIDADG内切核酸酶在它们的LAGLIDADG基序中包含一些氨基酸改变。包含仅一个LAGLIDADG基序的LAGLIDADG内切核酸酶通常作为同源或异源二聚体发挥作用。包含两个LAGLIDADG基序的LAGLIDADG内切核酸酶作为单体发挥作用，并且通常包含伪二聚体结构。

LAGLIDADG内切核酸酶可分离自表1、2、3、4、5和6中以示例性目的提到的生物的多核苷酸，或通过本领域已知的技术从头合成，例如使用本领域技术人员已知的公众数据库中可获得的序列信息来进行，所述数据库例如Genbank Benson(2010)，Nucleic Acids Res 38：D46-51或Swissprot Boeckmann(2003)，Nucleic Acids Res 31：365-70。

可在针对蛋白质家族的PFAM-数据库中发现LAGLIDADG内切核酸酶的集合。PFAM-数据库检录号PF00961描述了LAGLIDADG 1蛋白质家族，其包含约800条蛋白序列。PFAM-数据库检录号PF03161描述了LAGLIDADG 2蛋白质家族的成员，其包含约150条蛋白序列。可在InterPro数据库中找到LAGLIDADG内切核酸酶的一个备选集合，例如，InterPro检录号IPR004860。

术语LAGLIDADG内切核酸酶还将包括人工同型二聚和异型二聚LAGLIDADG内切核酸酶，其可通过修饰单体的蛋白质-蛋白质相互作用区域以促进同型或异型二聚体形成来制造。包含LAGLIDADG内切蛋白酶I-Dmo I作为一个结构域的人工异型二聚LAGLIDADG内切核酸酶的例子可被发现于例如WO2009/074842和WO2009/074873中。

除此之外，术语LAGLIDADG内切核酸酶还将包括人工单链内切核酸酶，其可通过产生同型二聚或异型二聚LAGLIDADG内切核酸酶的单体的翻译融合体来制造。

因此，在本发明的一个实施方案中，本发明的嵌合内切核酸酶包含至少一个LAGLIDADG内切核酸酶。

在另一些实施方案中，嵌合内切核酸酶中包含的LAGLIDADG内切核酸酶可以是单体、同型二聚、人工同型二聚或异型二聚或人工单链LAGLIDADG内切核酸酶。

在一个实施方案中，LAGLIDADG内切核酸酶是单体、同型二聚、异型二聚或人工单链LAGLIDADG内切核酸酶。优选地，内切核酸酶是单体或人工单链LAGLIDADG内切核酸酶。

优选的LAGLIDADG内切核酸酶是：I-Ani I，I-Sce I，I-Chu I，I-Dmo I，I-Cre I，I-Csm I，PI-Sce I，PI-TIi I，PI-Mtu I，I-Geu I，I-Sce II，I-Sce III，HO，PI-Giv I，PI Ctr I，PI-Aae I，PI-Bsu I，PI-Dha I，PI-Dra I，PI-Mav I，PI-Mch I，PI-Mfu I，PI-MfI I，PI-Mga I，PI-Mgo I，PI-Min I，PI-Mka I，PI-MIe I，PI-Mma I，PI-Msh I，PI-Msm I，I-Mso I，PI-Mth I，PI-Mtu I，PI-Mxe I，PI-Npu I，PI-Pfu I，PI-Rma I，PI-Spb I，PI-Ssp I，PI-Fac I，PI-Mja I，PI-Pho I，PI-Tag I，PI-Thy I，PI-Tko I，和PI-Tsp I及它们中任一的在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物；更优选的是：I-Sce I、I-Chu I、I-Dmo I、l-CreI、I-Csm I、PI-Pfu I、PI-Sce I、PI-Tli I、I-Mso I、PI-Mtu I、I-Ceu I、I-Sce II、I-Sce III和HO及它们中任一的在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物；甚至更优选的是，I-SceI、I-Chu I、I-Dmo I、I-Cre I、I-Csm I、PI-Sce I、PI-Pfu I、PI-Tli I、I-Mso I、PI-Mtu I和I-Ceu I及它们中任一的在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物；

还更优选的是I-Dmo I、I-Cre I、I-Sce I、I-Mso I和I-Chu I及它们中任一的在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物；最优选的是I-Sce I及I-Sce I的在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物。

优选的单体LAGLIDADG内切核酸酶是：I-Ani I，I-Sce I，I-Chu I，I-Dmo I，I-Csm I，PI-Sce I，PI-Tli I，PI-Mtu I，I-Sce II，I-Sce III，HO，PI-Civ I，PI Ctr I，PI-Aae I，PI-Bsu I，PI-Dha I，PI-Dra I，PI-Mav I，PI-Mch I，PI-Mfu I，PI-Mfl I，PI-Mga I，PI-Mgo I，PI-Min I，PI-Mka I，PI-Mle I，PI-Mma I，PI-Msh I，PI-Msm I，PI-Mth I，PI-Mtu I，PI-Mxe I，PI-Npu I，PI-Pfu I，PI-Rma I，PI-Spb I，PI-Ssp I，PI-Fac I，PI-Mja I，PI-Pho I，PI-Tag I，PI-Thy I，PI-Tko I，和PI-Tsp I；和在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的上述中任一的同系物。

更优选的单体LAGLIDADG内切核酸酶是：I-Sce I，I-Chu I，I-Dmo I，I-Csm I，PI-Pfu I，PI-Sce I，PI-Tli I，PI-Mtu I，I-Sce II，I-Sce III和HO；及它们中任一的在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物。

甚至更优选的单体LAGLIDADG内切核酸酶是：I-Sce I、I-Chu I、I-Dmo I、I-Csm I、PI-Sce I、PI-TliI和PI-Mtu I；及它们中任一的在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物。

还更优选的单体LAGLIDADG内切核酸酶是：I-Dmo I、I-Sce I和I-Chu I；及它们中任一的在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物。

一种类型的LAGLIDADG内切核酸酶同系物是人工单链LAGLIDADG内切核酸酶，其可包含相同LAGLIDADG内切核酸酶的两个亚单位，例如，WO03078619中公开的单链I-Cre、单链I-Ceu I或单链I-Ceu II，或其可包含不同LAGLIDADG内切核酸酶的两个亚单位。包含不同LAGLIDADG内切核酸酶的两个亚单位的人工单链LAGLIDADG内切核酸酶被称为杂交体大范围核酸酶。

优选的人工单链LAGLIDADG内切核酸酶是单链I-CreI、单链I-CeuI或单链I-CeuII和杂交体大范围核酸酶，例如：WO03078619、WO09/074842、WO2009/059195和WO09/074873中公开的I-Sce/I-Chu I，I-Sce/PI-Pfu I，I-Chu/I-Sce I，I-Chu/PI-Pfu I，I-Sce/I-Dmo I，I Dmo I/I-See I，I-Dmo I/PI-Pfu I，I-Dmo I/I-Cre I，I-CreI/I-Dmo I，I-Cre I/PI-Pfu I，I-Sce I/I-Csm I，I-Sce I/I-Cre I，I-Sce I/PI-Sce I，I-Sce I/PI-Tli I，I-SceI/PI-Mtu I，I-Sce I/I-Ceu I，I-Cre I/I-Ceu I，I-Chu I/I-Cre I，I-Chu I/I-Dmo I，I-Chu I/I-Csm I，I-ChuI/PI-Sce I，I-Chu I/PI-Tli I，I-Chu I/PI-Mtu I，I-Cre I/I-Chu I，I-Cre I/I-Csm I，I-Cre I/PI-Sce I，I CreI/PI-Tli I，I-Cre I/PI-Mtu I，I-Cre I/I-Sce I，I-Dmo I/I-Chu I，I-Dmo I/I-Csm I，I Dmo I/PI-Sce I，I-Dmo I/PI-Tli I，I-Dmo I/PI-Mtu I，I-Csm I/I-Chu I，I-Csm I/PI-Pfu I，I-Csm I/I-Cre I，I-Csm I/I-Dmo I，I-Csm I/PI-Sce I，I-Csm I/PI-Tli I，I-Csm I/PI-Mtu I，I-Csm I/I-Sce I，PI-Sce I/I-Chu I，PI-Sce I/I-PfuI，PI-Sce I/I-Cre I，PI-Sce I/I Dmo I，PI-Sce I/I-Csm I，PI-Sce I/PI-Tli I，PI-Sce I/PI-Mtu I，PI-Sce I/I-Sce I，PI-Tli I/I Chu I，PI-Tli I/PI-Pfu I，PI-Tli I/I-Cre I，PI-Tli I/I-Dmo I，PI-Tli I/I-Csm I，PI-Tli I/PISce I，PI-Tli I/PI-Mtu I，PI-Tli 1/I-Sce I，PI-Mtu I/I-Chu I，PI-Mtu I/PI-Pfu I，PI-Mtu I/I-Cre I，PI-MtuI/I-Dmo I，PI-Mtu I/I-Csm I，PI-Mtu I/I-Sce I，PI-Mtu I/PI-Tli I，和PI-Mtu I/I-Sce I，以及WO09/006297中公开的LlG3-4SC，或Sylvestre Grizot等人“Efficienttargeting of a SCID gene by an engineered single-chain homingendonuclease”，Nucleic Acids Research，2009，Vol.37，No.16，5405-5419页中公开的单链I-Cre I V2 V3。

一种特别优选的单链LAGLIDADG内切核酸酶是单链I-CreI。

优选的二聚LAGLIDADG内切核酸酶是：I-Cre I、I-Ceu I、I-Sce II、I-Mso I和I-Csm I及它们中任一的在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物。

优选的异型二聚LAGLIDADG内切核酸酶被公开于WO07/034262、WO07/047859和WO08093249中。

LAGLIDADG内切核酸酶的同系物可克隆自其它生物，或可通过对LAGLIDADG内切核酸酶加以突变来制造，例如通过替代、添加或缺失给定的LAGLIDADG内切核酸酶的氨基酸序列中的氨基酸来进行，这优选对其DNA结合亲和性、其二聚体形成亲和性没有影响，或者这将改变其DNA识别序列。

在本文中使用时，术语“DNA结合亲和性”表示大范围核酸酶或LAGLIDADG内切核酸酶与参照DNA分子(例如DNA识别序列或任意序列)非共价联结的趋势。结合亲和性是通过解离常数K_D(例如，I-CreI针对WT DNA识别序列的K_D为大约0.1nM)测量的。在本文中使用时，如果相对于参照大范围核酸酶或LAGLIDADG内切核酸酶而言，重组大范围核酸酶针对参照DNA识别序列的K_D增加或减少统计上显著(p＜0.05)的量，那么大范围核酸酶则具有“变动的”结合亲和性。

如本文中所用，关于大范围核酸酶单体或LAGLIDADG内切核酸酶单体，术语“针对二聚体形成的亲和性”表示单体与参照大范围核酸酶单体或LAGLIDADG内切核酸酶单体非共价联结的趋势。针对二聚体形成的亲和性可使用相同单体(即，同型二聚体形成)或使用不同单体(即，异型二聚体形成)例如参照野生型大范围核酸酶或参照LAGLIDADG内切核酸酶来测量。结合亲和性通过解离常数K_D来测量。在本文中使用时，如果相对于参照大范围核酸酶单体或参照LAGLIDADG内切核酸酶单体而言，重组大范围核酸酶单体或重组LAGLIDADG内切核酸酶单体针对参照大范围核酸酶单体或针对参照LAGLIDADG内切核酸酶的K_D增加或减少统计上显著(p＜0.05)的量，那么大范围核酸酶则具有“变动的”针对二聚体形成的亲和性。

如本文中所用，术语“酶活性”指大范围核酸酶(例如LAGLIDADG内切核酸酶)切割特定DNA识别序列的速率。此类活性是可测量的酶促反应，所述反应涉及对双链DNA的磷酸二酯键的水解。作用于特定DNA底物上的大范围磷酸酶的活性受大范围核酸酶对该特定DNA底物的亲和性(affinity)或亲合力(avidity)的影响，这又进而受与DNA的序列特异性相互作用和非序列特异性相互作用的影响。

例如，可向LAGLIDADG内切核酸酶的氨基酸序列添加核定位信号和/或改变其序列的一个或多个氨基酸和/或缺失其序列的部分，例如，其C-末端的部分或N-末端的部分。

例如，可制造I-SceI的同系物LAGLIDADG内切核酸酶，这通过突变其氨基酸序列的氨基酸来实现。对I-SceI的DNA结合亲和性影响极少，或将改变其DNA识别序列的突变是：A36G、L40M、L40V、I41S、I41N、L43A、H91A和I123L。

在本发明的一个实施方案中，LAGLIDADG内切核酸酶的同系物选自人工单链LAGLIDADG内切核酸酶(包括或不包括杂交体大范围核酸酶)、可克隆自其它生物的同系物、经工程化的内切核酸酶或经优化的核酸酶的组。

在一个实施方案中，LAGLIDADG内切核酸酶选自下组，所述组包含：I-Sce I、I-Cre I、I-Mso I、I-Ceu I、I-Dmo I、I-Ani I、PI-Sce I、I-Pfu I或它们中任一的在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物。

在另一实施方案中，LAGLIDADG内切核酸酶选自下组，所述组包含：I-Sce I、I-Chu I、I-Cre I、I-Dmo I、I-Csm I、PI-Sce I、PI-Pfu I、PI-Tli I、PI-Mtu I和I-Ceu I及它们中任一的在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物。

表1：I-SceI的示例性同系物，它们可克隆自其它生物。

表2：I-CreI的示例性同系物，它们可克隆自其它生物。

表3：PI-SceI的示例性同系物，它们可克隆自其它生物。

表4：I-CeuI的示例性同系物，它们可克隆自其它生物。

表5：I-ChuI的示例性同系物，它们可克隆自其它生物。

表6：I-DmoI的示例性同系物，它们可克隆自其它生物。

较之参照内切核酸酶，例如，较之I-SceI(针对表1所述的同系物)，I-CreI(针对表2所述的同系物)，PI-SceI(针对表3所述的同系物)，I-CeuI(针对表4所述的同系物)，I-ChuI(针对表5所述的同系物)，或I-DmoI(针对表6所述的同系物)，克隆自其它生物的内切核酸酶同系物可具有不同的酶活性、DNA结合亲和性、二聚体形成亲和性或在其DNA识别序列中的改变。

优选的是已针对所述LAGLIDADG内切核酸酶测定了确切的蛋白晶体结构的LAGLIDADG内切核酸酶，例如，I-Dmo I、H-Dre I、I-SceI、I-Cre I及它们中任一的在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物，并且其可容易地基于I-Dmo I、H-Dre I、I-Sce I、I-Cre I的晶体结构而建模。可基于I-Cre I的晶体结构建模的内切核酸酶的一个例子是I-Mso I(SEQ ID NO：84)(Chevalier等人，Flexible DNA Target Site Recognition by Divergent HomingEndonuclease Isoschizomers I-CreI and I-MsoI，J.Mol.Biol.(2003)329，253-269页)。

制造LAGLIDADG内切核酸酶同系物的另一方法是突变LAGLIDADG内切核酸酶的氨基酸序列，以修饰其DNA结合亲和性、其二聚体形成亲和性或以改变其DNA识别序列。对蛋白质结构的测定以及对LAGLIDADG内切核酸酶同系物的序列比对，允许就可被改变以影响其酶活性、其DNA结合亲和性、其二聚体结合亲和性或以改变其DNA识别序列的氨基酸做出理论选择。

已经过突变以修饰其DNA结合亲和性、其二聚体形成亲和性或以改变其DNA识别位点的LAGLIDADG内切核酸酶的同系物被称为经工程化的内切核酸酶。

用于制造经工程化的内切核酸酶的一种手段是利用分子进化。可例如采用DNA改组方案来调节编码候选内切核酸酶的多核苷酸。DNA改组是递归性重组和突变的方法，其通过对相关基因的库进行随机片段化、接着通过聚合酶链式反应样的方法重新组装片段来进行。见例如，Stemmer(1994)Proc Natl Acad Sci USA 91：10747-10751；Stemmer(1994)Nature 370：389-391和US5,605,793、US5,837,458、US5,830,721和US5,811,238。还可基于对给定内切核酸酶晶体结构的进一步了解，使用理论设计，来制造经工程化的内切核酸酶，见例如，Fajardo-Sanchez等人，“Computer design of obligate heterodimermeganucleases allows efficient cutting of custom DNA sequences”，Nucleic Acids Research，2008，Vol.36，No.72163-2173。

经工程化的内切核酸酶以及它们各自的DNA识别位点的大量例子是本领域已知的，并被公开于例如WO2005/105989、WO2007/034262、WO2007/047859、WO2007/093918、WO2008/093249、WO2008/102198、WO2008/152524、WO2009/001159、WO2009/059195、WO2009/076292、WO2009/114321或WO2009/134714、WO10/001189中，上述文献均通过引用并入本文。

具有增加的或减少的DNA结合亲和性的I-SceI、I-CreI、I-MsoI和I-CeuI的经工程化的版本例如被公开于WO07/047859和WO09/076292中。

如果没有另外的明确指明，所有突变体都将按照各内切核酸酶的野生型氨基酸序列的氨基酸编号来命名，例如，I-SceI的突变体L19将在如SEQ ID NO：1所示的野生型I-SceI氨基酸序列第19位处具有对亮氨酸的氨基酸替换。I-SceI的L19H突变体将以组氨酸替代野生型I-SceI氨基酸序列第19位的氨基酸亮氨酸。

例如，I-SceI的DNA结合亲和性可通过对应于选自下组的取代的至少一种修饰而增加，所述组由

(a)用H、N、Q、S、T、K或R对D201、L19、L80、L92、Y151、Y188、I191、Y199或Y222的取代；或

(b)用K或R对N15、N17、S81、H84、N94、N120、T156、N157、S159、N163、Q165、S166、N194或S202的取代

构成。

I-SceI的DNA结合亲和性可通过对应于选自下组的取代的至少一种突变而减少，所述组由

(a)用H、N、Q、S、T、D或E对K20、K23、K63、K122、K148、K153、K190、K193、K195或K223的取代；或

(b)用D或E对L19、L80、L92、Y151、Y188、I191、Y199、Y222、N15、N17、S81、H84、N94、N120、T156、N157、S159、N163、Q165、S166、N194或S202的取代

构成。

具有改变的DNA识别序列的I-SceI、I-CreI、I-MsoI和I-CeuI的经工程化版本被公开于例如WO07/047859和WO09/076292中。

例如，I-SceI的一个重要DNA识别位点具有下述序列：

正义：5’-T T A C C C T G T T A T C C C T A G-3’

碱基位置：1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

反义：3′-A A T G G G A C A A T A G G G A T C-5′

I-SceI的下述突变将使第4位对C的优先性改变至A：K50。

I-SceI的下述突变将保持第4位对C的优先性：K50、CE57。

I-SceI的下述突变将使第4位对C的优先性改变至G：E50、R57、K57。

I-SceI的下述突变将使第4位对C的优先性改变至T：K57、M57、Q50。

I-SceI的下述突变将使第5位对C的优先性改变至A：K48、Q102。

I-SceI的下述突变将保持第5位对C的优先性：R48、K48、E102、E59。

I-SceI的下述突变将使第5位对C的优先性改变至G：E48、K102、R102。

I-SceI的下述突变将使第5位对C的优先性改变至T：Q48、C102、L102、V102。

I-SceI的下述突变将使第6位对C的优先性改变至A：K59。

I-SceI的下述突变将保持第6位对C的优先性：R59、K59。

I-SceI的下述突变将使第6位对C的优先性改变至G：K84、E59。

I-SceI的下述突变将使第6位对C的优先性改变至T：Q59、Y46。

I-SceI的下述突变将使第7位对T的优先性改变至A：C46、L46、V46。

I-SceI的下述突变将使第7位对T的优先性改变至C：R46、K46、E86。

I-SceI的下述突变将使第7位对T的优先性改变至G：K86、R86、E46。

I-SceI的下述突变将保持第7位对T的优先性：K68、C86、L86、Q46＊。

I-SceI的下述突变将使第8位对G的优先性改变至A：K61、S61、V61、A61、L61。

I-SceI的下述突变将改变第8位对G的优先性：E88、R61、H61。

I-SceI的下述突变将保持第8位对G的优先性：E61、R88、K88。

I-SceI的下述突变将使第8位对G的优先性改变至T：K88、Q61、H61。

I-SceI的下述突变将使第9位对T的优先性改变至A：T98、C98、V98、L9B。

I-SceI的下述突变将使第9位对T的优先性改变至C：R98、K98。

I-SceI的下述突变将使第9位对T的优先性改变至G：E98、D98。

I-SceI的下述突变将保持第9位对T的优先性：Q98。

I-SceI的下述突变将使第10位对T的优先性改变至A：V96、C96、A96。

I-SceI的下述突变将使第10位对T的优先性改变至C：K96、R96。

I-SceI的下述突变将使第10位对T的优先性改变至G：D96、E96。

I-SceI的下述突变将保持第10位对T的优先性：Q96。

I-SceI的下述突变将保持第11位对A的优先性：C90、L90。

I-SceI的下述突变将使第11位对A的优先性改变至C：K90、R90。

I-SceI的下述突变将使第11位对A的优先性改变至G：E90。

I-SceI的下述突变将使第11位对A的优先性改变至T：Q90。

I-SceI的下述突变将使第12位对T的优先性改变至A：Q193。

I-SceI的下述突变将使第12位对T的优先性改变至C：E165、E193、D193。

I-SceI的下述突变将使第12位对T的优先性改变至G：K165、R165。

I-SceI的下述突变将保持第12位对T的优先性：C165、L165、C193、V193、A193、T193、S193。

I-SceI的下述突变将使第13位对C的优先性改变至A：C193、L193。

I-SceI的下述突变将保持第13位对C的优先性：K193、R193、D192。

I-SceI的下述突变将使第13位对C的优先性改变至G：E193、D193、K163、R192。

I-SceI的下述突变将使第13位对C的优先性改变至T：Q193、C163、L163。

I-SceI的下述突变将使第14位对C的优先性改变至A：L192、C192。

I-SceI的下述突变将保持第14位对C的优先性：E161、R192、K192。

I-SceI的下述突变将使第14位对C的优先性改变至G：K147、K161、R161、R197、D192、E192。

I-SceI的下述突变将使第14位对C的优先性改变至T：K161、Q192。

I-SceI的下述突变将使第15位对C的优先性改变至A：未鉴定。

I-SceI的下述突变将保持第15位对C的优先性：E151。

I-SceI的下述突变将使第15位对C的优先性改变至G：K151。

I-SceI的下述突变将使第15位对C的优先性改变至T：C151、L151、K151。

I-SceI的下述突变将保持第17位对A的优先性：N152、S152、C150、L150、V150、T150。

I-SceI的下述突变将使第17位对A的优先性改变至C：K152、K150。

I-SceI的下述突变将使第17位对A的优先性改变至G：N152、S152、D152、D150、E150。

I-SceI的下述突变将使第17位对A的优先性改变至T：Q152、Q150。

I-SceI的下述突变将使第18位对G的优先性改变至A：K155、C155。

I-SceI的下述突变将使第18位对G的优先性改变：R155、K155。

I-SceI的下述突变将保持第18位对G的优先性：E155。

I-SceI的下述突变将使第18位对G的优先性改变至T：H155、Y155。

若干突变的组合可增强效果。一个例子是三重突变体W149G、D150C和N152K，其将使I-SceI在第17位对A的优先性改变至G。

为保持LAGLIDADG内切核酸酶的酶活性，应当避免下述突变：

对I-Sce I而言：

I38S，I38N，G39D，G39R，L40Q，L42R，D44E，D44G，D44H，D44S，A45E，A45D，Y46D，I47R，I47N，D144E，D145E，D145N和G146E。

对I-CreI而言：Q47E

对I-CeuI而言：E66Q

对I-MsoI而言：D22N

对PI-SceI而言：D218、D229、D326或T341中的突变。

具有高酶活性的I-AniI的经工程化的内切核酸酶变体可被发现于Takeuchi等人，Nucleic Acid Res.(2009)，73(3)：877至890中。如SEQ IDNO：142所述的I-Ani I的优选的经工程化的内切核酸酶变体包含下述突变：F13Y和S111Y，或F13Y、S111Y和K222R，或F13Y、I55V、F91I、S92T和S111Y。

使得给定内切核酸酶(例如LAGLIDADG内切核酸酶)的DNA结合亲和性、二聚体形成亲和性有所变动或者改变了给定内切核酸酶(例如LAGLIDADG内切核酸酶)的DNA识别序列的突变可被组合，以制造经工程化的内切核酸酶，例如基于I-SceI的经工程化的内切核酸酶、并且较之SEQ ID NO：1所描述的I-SceI具有变动的DNA结合亲和性和/或改变的DNA识别序列。

经优化的核酸酶：

核酸酶可经过优化，例如通过下述方法进行：通过插入突变以改变它们的DNA结合特异性，例如使得它们的DNA识别位点更为特异或者较不特异，或者通过改造编码核酸酶的多核苷酸序列以适应意图在其中表达内切核酸酶的生物的密码子使用，或者通过缺失备选的起始密码子，或者通过从编码内切核酸酶的多核苷酸序列缺失隐蔽的聚腺苷酸化信号。

用于制造经优化的核酸酶的突变和改变可与用于制造经工程化的内切核酸酶的突变组合起来，例如，I-SceI的同系物可以是本文所述的经优化的核酸酶，但其还可包含用于变动其DNA结合亲和性和/或改变其DNA识别序列的突变。

此外，对核酸酶的优化可增强蛋白质的稳定性。因此，较之未经优化的核酸酶的氨基酸序列而言，经优化的核酸酶不包含下述，或具有降低的数量的下述：

a)PEST-序列

b)KEN-盒

c)A-盒，

d)D-盒，或

e)根据N-末端规则包含用于稳定性的经优化的N-端末端，

f)包含甘氨酸(glycin)作为N-端第二个氨基酸，或

g)a)、b)、c)、d)、e)和f)的任何组合。

PEST序列需要含有至少一个脯氨酸(P)、一个天冬氨酸(D)或谷氨酸(E)以及至少一个丝氨酸(S)或苏氨酸(T)。带负电荷的氨基酸在这些基序内聚簇，而带正电荷的氨基酸，精氨酸(R)、组氨酸(H)和赖氨酸(K)则通常被禁止。PEST序列例如被描述于RechsteinerM，Rogers SW.“PEST sequences and regulation by proteolysis.”TrendsBiochem.Sci.1996；21(7)，267至271页中。

KEN-盒的氨基酸共有序列是：KENXXX(N/D)。

A-盒的氨基酸共有序列是：AQRXLXXSXXXQRVL。

D-盒的氨基酸共有序列是：RXXL。

对核酸酶进行稳定以对抗降解的另一途径是根据N-末端规则优化各内切核酸酶的N-端的氨基酸序列。针对在真核生物中的表达优化过的核酸酶在其氨基酸序列的起始甲硫氨酸之后包含甲硫氨酸、缬氨酸、甘氨酸、苏氨酸、丝氨酸、丙氨酸或半胱氨酸。针对在原核生物中的表达优化过的核酸酶在其氨基酸序列的起始甲硫氨酸之后包含甲硫氨酸、缬氨酸、甘氨酸、苏氨酸、丝氨酸、丙氨酸、半胱氨酸、谷氨酸、谷氨酰胺、天冬氨酸、天冬酰胺、异亮氨酸或组氨酸。

可通过缺失核酸酶氨基酸序列中的50、40、30、20、10、9、8、7、6、5、4、3、2或1个氨基酸对核酸酶进行优化，而不破坏其内切核酸酶活性。例如，当LAGLIDADG内切核酸酶的氨基酸序列中的部分被缺失的情况下，保留上文所述的LAGLIDADG内切核酸酶基序则是重要的。

优选地，缺失PEST序列或其它失稳(destabilizing)基序，例如KEN-盒、D-盒和A-盒。还可通过引入单个氨基酸替换，例如向PEST序列中引入带正电荷的氨基酸(精氨酸、组氨酸和赖氨酸)，来破坏这些基序。

用于优化核酸酶的另一途径是向核酸酶的氨基酸序列添加核定位信号。例如，SEQ ID NO：4所描述的核定位信号。

经优化的核酸酶可包含上文所述的方法和特征的组合，例如，它们可包含核定位信号，包含甘氨酸作为第二个N-端氨基酸，或者包含C-端的缺失，或这些特征的组合。具有上文所述的方法和特征的组合的经优化的核酸酶的例子是例如SEQ ID NOs：2、3和5所描述的。

在一个实施方案中，经优化的核酸酶是经优化的I-Sce-I，其不包含下述序列所示的氨基酸序列：HVCLLYDQWVLSPPH，LAYWFMDDGGK，KTIPNNLVENYLTPMSLAYWFMDDGGK，KPIIYIDSMSYLIFYNLIK，KLPNTISSETFLK或TIS-SETFLK，

或者其不包含下述序列所示的氨基酸序列：

HVCLLYDQVVVLSPPH，LAYWFMDDGGK，KPIIYIDSMSYLIFYNLIK，KLPNTISSETFLK或TIS-SETFLK，

或者其不包含下述序列所示的氨基酸序列：

HVCLLYDQWVLSPPH，LAYWFMDDGGK，KLPNTISSETFLK或TISSETFLK，

或者其不包含下述序列所示的氨基酸序列：

LAYWFMDDGGK，KLPNTISSETFLK或TISSETFLK，

或者其不包含下述序列所示的氨基酸序列：

KLPNTIS-SETFLK或TISSETFLK。

在一个实施方案中，经优化的核酸酶是I-SceI或其在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物，其中，位于野生型I-SceI或其下述同系物的C-端的氨基酸序列TISSETFLK被缺失或突变，所述同系物在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性且在C-端具有氨基酸序列TISSETFLK。

可通过缺失或突变野生型I-SceI或下述其同系物的C-端的至少1、2、3、4、5、6、7、8或9个氨基酸，来缺失或突变氨基酸序列TISSETFLK，所述其同系物在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性且在C-端具有氨基酸序列TISSETFLK。

表7：针对野生型I-SceI中TISSETFLK氨基酸序列的缺失的不同例子

备选地，氨基酸序列TISSETFLK可被突变，例如，突变为氨基酸序列：TIKSETFLK(SEQ ID NO：149或AIANQAFLK(SEQ ID NO：150)。

同等优选的是将SEQ ID No.1中公开的野生型I-SceI的氨基酸序列第229位的丝氨酸(如果参照SEQ ID No.2的话是第230位氨基酸)突变为Lys、Ala、Pro、Gly、Glu、GIn、Asp、Asn、Cys、Tyr或Thr。由此制造I-SceI突变体S229K、S229A、S229P、S229G、S229E、S229Q、S229D、S229N、S229C、S229Y或S229T(氨基酸根据SEQ ID No.1被编号)。

在本发明的另一实施方案中，SEQ ID No.1中公开的野生型I-SceI的氨基酸序列第203位的氨基酸甲硫氨酸(如果参照SEQ ID No.2的话是第204位氨基酸)被突变为Lys、His或Arg。由此制造I-SceI突变体M203K、M203H和M203R。

I-SceI的优选经优化版本是缺失I-SceI-1，I-SceI-2，I-SceI-3，I-SceI-4，I-SceI-5，I-SceI-6，I-SceI-7，I-SceI-8，I-SceI-9和突变体S229K和S229H、S229R，进一步更优选的是缺失I-SceI-1，I-SceI-2，I-SceI-3，I-SceI-4，I-SceI-5，I-SceI-6和突变体S229K。

还可组合上述缺失和突变，例如通过将缺失I-SceI-1与突变体S229K组合，由此制造C-端的氨基酸序列TIKSETFL。

还可组合上述缺失和突变，例如通过将缺失I-SceI-1与突变体S229A组合，由此制造C-端的氨基酸序列TIASETFL。

另一些优选的I-SceI的经优化版本是与突变M203K、M203H、M203R组合的缺失I-SceI-1，I-SceI-2，I-SceI-3，I-SceI-4，I-SceI-5，I-SceI-6，I-SceI-7，I-SceI-8，I-SceI-9或突变体S229K和S229H、S229R。

进一步更优选的是与突变M203K组合的缺失I-SceI-1，I-SceI-2，I-SceI-3，I-SceI-4，I-SceI-5，I-SceI-6或突变体S229K。

在本发明的另一实施方案中，SEQ ID No.1中公开的野生型I-SceI的氨基酸序列第75位的氨基酸谷氨酰胺、第130位的谷氨酸或第199位的酪氨酸(如果参照SEQ ID No.2的话是第76、131和120位氨基酸)被突变为Lys、His或Arg。由此制造I-SceI突变体Q75K、Q75H、Q75R、E130K、E130H、E130R、Y199K、Y199H和Y199R。

上文所述的缺失和突变还将可应用于I-SceI的在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性且在C-端具有氨基酸序列TISSETFLK的同系物。

因此，在本发明的一种实施方案中，经优化的内切核酸酶是I-SceI或下述其同系物之一的经优化版本，所述其同系物在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性，并且具有选自I-SceI-1、I-SceI-2、I-SceI-3，I-SceI-4，I-SceI-5，I-SceI-6，I-SceI-7，I-SceI-8，I-SceI-9，S229K，S229A，S229P，S229G，S229E，S229Q，S229D，S229N，S229C，S229Y，S229T，M203K，M203H，M203R，Q77K，Q77H，Q77R，E130K，E130H，E130R，Y199K，Y199H和Y199R的组的一种或多种突变或缺失，其中氨基酸编号参照SEQ ID NO：1所描述的氨基酸序列。

在本发明的另一实施方案中，经优化的内切核酸酶是I-SceI或下述其同系物之一的经优化版本，所述其同系物在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性，并且具有选自I-SceI-1、I-SceI-2、I-SceI-3，I-SceI-4，I-SceI-5，I-SceI-6，S229K和M203K的组的一种或多种突变或缺失，其中氨基酸编号参照SEQ ID NO：1所描述的氨基酸序列。

一种特别优选的经优化的内切核酸酶是I-SceI的野生型或经工程化版本，如SEQ ID NO：1或下述其同系物之一所述，所述其同系物在氨基酸水平上具有至少49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性，并且具有选自下述组的一种或多种突变：

a)I-SceI-1，I-SceI-2，I-SceI-3，I-SceI-4，I-SceI-5，I-SceI-6，I-SceI-7，I-SceI-8and I-SceI-9；

b)S229K，S229A，S229P，S229G，S229E，S229Q，S229D，S229N，S229C，S229Y，S229T，M203K，M203H，M203R，Q77K，Q77H，Q77R，E130K，E130H，E130R，Y199K，Y199H和IY199R；

c)它们的氨基酸序列的起始甲硫氨酸之后，甲硫氨酸、缬氨酸、甘氨酸、苏氨酸、丝氨酸、丙氨酸、半胱氨酸、谷氨酸、谷氨酰胺、天冬氨酸、天冬酰胺、异亮氨酸或组氨酸；或

d)选自上述a)和b)、a)和c)、b)和c)或a)、b)和c)的一种或多种突变的组合。

异源DNA结合结构域

本发明的嵌合内切核酸酶包含至少一个异源DNA结合结构域。

异源DNA结合结构域是与具有特定多核苷酸序列(识别序列或操纵基因序列)的多核苷酸结合的多肽。异源DNA结合结构域的实例是真核转录因子、原核转录因子或病毒转录因子。在本发明的一个实施方案中，仅将真核转录因子、原核转录因子或病毒转录因子的DNA结合结构域用作为异源DNA结合结构域。

优选的异源DNA结合结构域选自真核转录因子、原核转录因子或病毒转录因子或者它们各自的DNA结合结构域，其作为单体或单链变体结合DNA，所述单体或单链变体以高亲和力和特异性结合其DNA识别序列，并在蛋白质的表面具有N-端或C-端。

特别优选的真核转录因子、原核转录因子或病毒转录因子或者它们各自的DNA结合结构域是已经测定了各个真核转录因子、原核转录因子或病毒转录因子或者它们各自的DNA结合结构域的至少一个同系物的三维结构的真核转录因子、原核转录因子或病毒转录因子或者它们各自的DNA结合结构域。

术语异源DNA结合结构域不应包含两个以上重复的模块C2H2锌指结构域，如例如在WO07/014275、WO08/076290、WO08/076290或WO03/062455中公开。C₂H₂锌指结构域具有保守的半胱氨酸和组氨酸残基，其在每一锌指结构域中四面配位(tetrahedycally-coordinate)单个锌原子，并且其特征在于具有一般序列：-Cys-(X)_2-4-Cys-(X)₁₂-His-(X)_3-5-His-的指成分，其中X表示任一氨基酸。(C₂H₂ZFP)。

本领域已经描述了大量的真核转录因子、原核转录因子或病毒转录因子，以及它们各自的识别序列或操纵基因序列。有关真核转录因子、原核转录因子或病毒转录因子，以及它们各自的识别序列以及大量的三位结构的信息可见于公共可得到的数据库和生物信息学分析工具，例如：JASPAR 2010(Partales-Casamar等人(2009)，Nucl.Acids Res.，1-6)，UniPROBE(Newburger，D.E.和Bulyk，M.L.(2008)，Nucl.Acids Res.，37，Database issue，D77-D82)，

PLACE(Higo等人(1999)，Nucl.Acids Res.，27(1)，297-300)。

RegTransBase(Kazakov，A.E.，等人(2007)Nucleic acids research35，D407-412)

RegulonDB(Gama-Castro，S.，等人(2008)Nucleic acids research36，D120-124)

DP Interact(Robison，K.，等人(1998)J Mol Biol 284，241-254)FlyReg(Bergman，C.M.，等人(2005)Bioinformatics 21，1747-1749)

Zhu，C.，等人(2009)，Genome Res 19，556-566

Harbison，C.T.，等人(2004)，Nature 431，99-104

MacIsaac，K.D.，等人(2006)BMC bioinformatics 7，113

DNA结合结构域数据库(DBD)(http://transcriptionfactor.org)包含超过700个物种的预测的序列特异性的转录因子(Teichmann(2007)Nucleic Acids Research 36：D88-D92)。

优选的异源DNA结合结构域是具有已知结合特性和识别序列的蛋白质；更优选的蛋白质已经与其特定的DNA靶共结晶(co-cristalized)。

已经将真核、原核和病毒转录因子分类成具有各个PF-数字作为标识符号的几种蛋白质家族。

异源DNA结合结构域可以例如见于以下蛋白质家族中：

PF00126 细菌调节螺旋-转角-螺旋蛋白质，lysR家族

PF00486 转录调节蛋白质，C端

PF04383 KilA-N结构域

PF01381 螺旋-转角-螺旋

PF02954 细菌调节蛋白质，Fis家族

PF00313 冷休克DNA结合结构域

PF00325 细菌调节蛋白质，crp家族

PF01047 MarR家族

PF04299 假定的FMN结合结构域

PF00392 细菌调节蛋白质，gntR家族

PF00165 细菌调节螺旋-转角-螺旋蛋白质，AraC家族

PF05225 螺旋-转角-螺旋，Psq结构域

PF00847 AP2结构域

PF04967 HTH DNA结合结构域

PF08279 HTH结构域

PF01022 细菌调节蛋白质，arsR家族

PF00196 细菌调节蛋白质，luxR家族

PF00010 螺旋-转角-螺旋DNA结合结构域

PF00356 细菌调节蛋白质，laeI家族

PF02082 转录调节子

PF00292 配对框结构域

PF04397 LytTr DNA结合结构域

PF03749 糖发酵刺激蛋白质

PF04353 RNA聚合酶σ70亚基的调节子，Rsd/AlgQ

优选的异源DNA结合结构域选自以下蛋白质家族的成员：

PF00126 细菌调节螺旋-转角-螺旋蛋白质，lysR家族

PF00165 细菌调节螺旋-转角-螺旋蛋白质，AraC家族

PF01022 细菌调节蛋白质，arsR家族

PF00196 细菌调节蛋白质，luxR家族

PF00010 螺旋-转角-螺旋DNA结合结构域

PF00356 细菌调节蛋白质，lacI家族

甚至更优选的是以下蛋白质家族的成员：

PF00126 细菌调节螺旋-转角-螺旋蛋白质，lysR家族

PF00165 细菌调节螺旋-转角-螺旋蛋白质，AraC家族

PF00196 细菌调节蛋白质，luxR家族

PF00356 细菌调节蛋白质，lacI家族

异源DNA结合结构域的特别优选组是包含螺旋-转角-螺旋DNA结合结构域(HTH结构域)的蛋白质。此类蛋白质例如是scTetR、ArcR和LacI、AraC和MerR蛋白质家族的蛋白质。

有关TetR(scTetR)蛋白质家族的信息可以见于：Ramos J.L.等人“The RetR Family of Transcriptional Repressors”，Microbiology andMolecular Biology Reviews(2005)，第326-356页和Ralph Bertram等人，“The application of Tet repressor in prokaryotic gene regulation andexpression。”，(2008)Microbial Biotechnology，1(1)，第2-16页和Marcus Krueger等人，“Engineered Tet repressors with recognitionspecificity for the tetO-4C5G operator variant”，(2007)，Gene，404，第93-100页和Xue Zhou等人，“Improved single-chain transactivators ofthe Tet-On gene expression system”，(2007)，BMC Biotechnology，7：6。

属于TeR蛋白质家族的蛋白质的实例和常见特征通过SEQ ID NO：86、87、88、89和90给出，并且比对显示于图8中，各个HTH结构域的实例和常见特征通过SEQ ID NO：91、92、93、94和95给出，并且比对显示于图：9a中。

有关LacI(Lac阻抑物或Lac抑制物)蛋白质家族的信息可以见于：Weickert J.M.和Adhya S.，“A Family of Bacterial RegulatorsHomologous to Gal and Lac Repressors”，The Journal ov BiologicalChemistry，第267卷，第15869-15874页和Liskin Swint-Kruse等人，“Allostery in the LacI/GalR family：variations on a theme”，(2009)，Current Opinion in Microbiology，12：129-137和Catherine M.Falco等人，“Operator DNA Sequence Variation Enhances High AffinityBinding by Hinge Helix Mutants of Lactose Repressor Protein”，(2000)，Biochemistry，39，11074-11083和Christof Francke等人，“A genericapproach to identify Transcription Factor-specific operator motifs；Inferences for LacI-family mediated regulation in Lactobacillusplantarum WCFS1”，(2008)，BMC Genomics，9：145。

属于Lac阻抑物蛋白质家族的蛋白质的HTH结构域的实例和常见特征通过SEQ ID NO：101、102、103、104和105给出，并且比对显示于图：10a中。

AraC蛋白质家族的成员和有关这些蛋白质的常见特征的信息例如描述于：Martin，R.Rosner，“The AraC transcriptional activators”，Current Opinion in Microbiology(2001)，第4卷，第132-137页。具有两个HTH结构域的AraC蛋白质家族的成员例如是MarA蛋白质的同系物。有关MarA和相关蛋白质的信息可以见于：Sangkee Rhee等人，“Anovel DNA-binding motiv in MarA：The first structure fo an AraCfamily transcriptional activator”，PNAS(1998)，第95卷，第10413-10418页和Gillette W.K.等人，“Probing the Escherichia coli TranscriptionalActivator MarA using Alanine-scanning Mutagenesis：ResiduesImportant for DNA Binding and Activation”，JMB(2000)，第299卷，第1245-1255页。

属于AraC蛋白质家族的蛋白质，特别地MarA的同系物的实例和常见特征通过SEQ ID NO：120、121、122、123、124、125、126和127给出，并且比对显示于图：12中。属于AraC蛋白质蛋白质家族的蛋白质，特别地MarA的同系物的HTH结构域的实例和常见特征通过EQ ID NO：112、113、114、115、116、117、118和119给出，并且比对显示于图：11中。

有关MerR蛋白质家族的信息及其HTH结构域的常见特征可以见于：Brown N.L.等人“The MerR family of transcriptional regulators”FEMS Microbiology Reviews(2003)，第27卷，第145-163页中。属于MerR蛋白质蛋白质家族的蛋白质的HTH结构域的实例和常见特征通过SEQ ID NO：106、107、108、109、110和111给出，并且比对显示于图：10b中。

与SEQ ID NO：7所述的scArcR蛋白质类似的蛋白质包含用于DNA结合的HTH结构域，这些HTH结构域的不同实例和常见特征通过SEQID NO：96、97、98、99和100给出，并且比对显示于图：9b中。

WRKY蛋白质家族的成员和有关这些蛋白质的常见特征的信息例如描述于：Eulgem，T.等人“The WRKY superfamily of planttranscription factors。”(2000)Trends Plant Sci.，5，第199-206页和Ming-Rui Duan等人“DNA binding mechanism revealed by highresolution crystal structure of Arabidopsis thaliana WRKY1 protein”(2007)，Nucleic Acids Research，第35卷，第4期1145-1154，所述参考文献在此处以其整体引用作为参考。

其他合适的异源DNA结合结构域是失活的内切核酸酶。此类内切核酸酶可以在靶生物中是失活的，因为其仅在某些通常更极端的条件(例如，高温)下发挥作用。备选地，可以使用突变的内切核酸酶，由此所述突变致使内切核酸酶失活。失活的内切核酸酶例如但不排除其他：I-DmoI或其他在40℃以下，更优选地30℃以下，甚至更优选地25℃以下的温度使用的termophylic内切核酸酶，以及在其活性中心具有氨基酸取代的内切核酸酶，例如具有Q47至E的突变的I-CreI、具有D44或D145至N的突变的I-Sce I、具有E66至Q的突变的I-CeuI或者具有D22至N的突变的I-MsoI。优选的失活内切核酸酶是具有D44至S的突变的I-Sce I(I-SceID44S)。例如PI-SceI的以下氨基酸残基：D218、D229、D326和T341Pingoud(2000)Biochemistry 39：15895-15900。

在一个实施方案中，至少一个异源DNA结合结构域是失活的I-SceI、I-CreI、I-CeuI、I-ChuI、I-DmoI、Pi-SceI、I-MsoI或I-AniI或者那些具有至少45％、56％、57％、58％、59％、60％、61％、62％、63％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的氨基酸序列同一性的失活的同系物。在一个实施方案中，异源DNA结合结构域是LAGLIDADG内切核酸酶的失活版本，其具有SEQID NO：1、2、3、5、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、142或159的至少之一所述的氨基酸序列，优选地具有SEQ IDNO：1、2、3、5或159的任一所述的氨基酸序列。

在一个优选的实施方案中，嵌合内切核酸酶包含I-SceI或I-SceI的经优化版本和异源DNA结合结构域，包含失活的I-SceI或者I-SceI的经优化版本的失活版本。

在本发明的一个实施方案中，术语异源DNA结合结构域并不包含失活的内切核酸酶。

异源DNA结合结构域可以包含给定转录因子的全蛋白质或者其大片段，或者可以仅包含差不多限制于转录因子的DNA结合结构域的片段。

合适的转录因子的实例例如但不排除其他：scTet，scArcR，LacR，TraR，Gal，LambaR，LuxR，WRKY，以及任一那些在氨基酸水平上具有至少50％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物。

在优选的实施方案中，异源DNA结合结构域的DNA结合活性可通过诱导物与DNA结合结构域的至少之一结合诱导或者抑制。诱导物可以是多肽或者小的有机物质。

可诱导的或可抑制的或者可诱导的和可抑制的异源DNA结合结构域及其诱导物或抑制物的实例是：

scTet 四环素和无水四环素及其他衍生物

LacR，乳糖和IPTG

TraR， 3OC8HL(N-(3-氧代)-辛酰基-L-高丝氨酸内酯)

LuxR家族，乙酰化高丝氨酸内酯(AHL)

LuxR 3OC6HL(N-(3-氧代)-己-L-高丝氨酸内酯)

LasR 3OC12HL(N-(3-氧代)-duodeca-L-高丝氨酸内酯)

AraC 阿拉伯糖

RhaR 鼠李糖

MerR 汞离子

优选地，异源DNA结合结构域具有至少4个、至少6个、至少8个、至少10个或至少12个碱基对的识别序列。

异源DNA结合结构域的识别序列的实例是：

scTet

5’-YTATCATTGATAG-3’(SEQ ID NO：130)

TetR(仅一个单体)

5’-YTATC-3’

scArcR(二聚体或单链变体)

5’-AATGATAGAAGCACTCTACTAT-3’(SEQ ID NO：7)

TraR(二聚体或单链变体)

5’-ATGTGCAGATCTGCACAT-3’(SEQ ID NO：131)

WRKY(二聚体或单链变体)

5’-YTGACY-3’

LacR(二聚体或单链变体)

5’-TTGTGAGC-3’

MarA(单体)

5’-AYNGCACNNWNNRYYAAAYN-3’(SEQ ID NO：137)

MerR(单体)

5’-TTKACY-3’，

MerR(二聚体或单链变体)

5’-TTKACYNNNNNNNNNNNNNNNNNNNTAAGGT-3’(SEQ ID NO：138)

其中A表示腺嘌呤，G表示鸟嘌呤，C表示胞嘧啶，T表示胸腺嘧啶，R表示鸟嘌呤或腺嘌呤，Y表示胸腺嘧啶或胞嘧啶，K表示鸟嘌呤或胸腺嘧啶，W表示腺嘌呤或胸腺嘧啶和n表示腺嘌呤或鸟嘌呤或胞嘧啶或胸腺嘧啶。

本领域技术人员知道，大多数DNA结合结构域并不限于仅结合精确的识别序列，例如还结合类似的识别序列。

LacR二聚体的备选识别序列的实例是

TGTTTGATATCATATAAACA-3’ (SEQ ID NO：132)和

5’-GAATTGTGAGCGGATAACAATTT-3’ (SEQ ID NO：133)和

5’-GAATGTGAGCGAGTAACAACCG-3’ (SEQ ID NO：134)和

5’-CGGCAGTGAGCGCAACGCAATT-3’ (SEQ ID NO：135)和

5’-GAATTGTAAGCGCTTACAATT-3’ (SEQ ID NO：136)

优选的异源DNA结合结构域是单体DNA结合结构域，例如转录因子或单体转录因子的HTH结构域。

类似优选的是对于一个或一小群识别序列具有高特异性的DNA结合结构域。

同样优选的是对一个或一小群识别序列具有高亲和力的DNA结合结构域。

在一个实施方案中，异源DNA结合结构域包含scTet、scArcR、TraR、LacR、LuxR、MarA或MerR，以及这些在氨基酸水平上具有至少50％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的任一同系物的至少一个HTH结构域。

在本发明的其他实施方案中，转录因子或转录因子的DNA结合结构域包含HTH结构域，所述HTH结构域包含与SEQ ID NO：91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118或119所述的至少一种氨基酸序列，优选地与91、92、93、94、95、112、113、114、115、116、117、118或119所述的至少一种氨基酸序列具有至少80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％序列同一性的氨基酸序列。

在本发明的另一实施方案中，异源DNA结合结构域包含HTH结构域，所述HTH结构域与SEQ ID NO：91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118或119的任意之一在氨基酸水平上具有至少50％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性。

在一个实施方案中，异源DNA结合结构域选自：scTet、scArcR、TraR、LacR、LuxR、MarA或MerR，以及任一这些在氨基酸水平上具有至少50％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物或者scTet、scArcR、TraR、LacR、LuxR、Gal4和任一这些在氨基酸水平上具有至少50％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物的DNA结合结构域片段。

在一个实施方案中，异源DNA结合结构域选自：scTet、scArcR、TraR、LacR、LuxR，以及任一这些在氨基酸水平上具有至少50％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物或者scTet、scArcR、TraR、LacR、LuxR、Gal4和任一这些在氨基酸水平上具有至少50％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物的DNA结合结构域片段。

在另一实施方案中，异源DNA结合结构域是scTet或scArcR，以及任一这些在氨基酸水平上具有至少50％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物，或者scTet或scArcR和任一这些在氨基酸水平上具有至少50％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物的DNA结合结构域片段。

在另一实施方案中，异源DNA结合结构域是scTet，以及在氨基酸水平上具有至少50％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的scTet的同系物，或者scTet和在氨基酸水平上具有至少50％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的scTet的同系物的HTH结构域。

在另一实施方案中，异源DNA结合结构域是MarA，以及在氨基酸水平上具有至少50％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的MarA的同系物，或者MarA和在氨基酸水平上具有至少50％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的MarA的同系物的HTH结构域。

在另一优选的实施方案中，异源DNA结合结构域是TAL效应子蛋白质或TAL效应子的DNA结合蛋白质。可以使用天然的TAL效应子。备选地，可以设计TAL效应子，以与某些识别序列结合(Moscou &Bogdanove，2009，Science DOI：10.1126/science.1178817；Boch等人2009，Science DOI：10.1126/science.1178811)和WO2010/079430和EP2206723。

WO2010/079430和EP2206723通过引用并入本文。

TAL效应子蛋白质的实例是AvBs3(SEQ ID NO：160)、Hax2(SEQID NO：161)、Hax3(SEQ ID NO：162)和Hax4(SEQ ID NO：163)。

各个DNA结合位点或识别序列描述如下：

AvBs3的DNA结合位点或识别序列描述于：

5’-TCTNTAAACCTNNCCCTCT-3’SEQ ID NO：164)，

Hax2的DNA结合位点或识别序列描述于：

5’-TGTTATTCTCACACTCTCCTTAT-3’(SEQ ID NO：165)，

Hax3的DNA结合位点或识别序列描述于：

5’-TACACCCN N NCAT-3’(SEQ ID NO：166)和

Hax4的DNA结合位点或识别序列描述于：

5’-TACCTNNACTANATAT-3’(SEQ ID NO：167)。

因此，在另一实施方案中，嵌合内切核酸酶的至少一个异源DNA结合结构域是与SEQ ID NO：160、161、162或164所述的氨基酸序列具有至少80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的氨基酸序列同一性的TAL效应子蛋白质，或者与SEQ ID NO：160、161、162或164所述的氨基酸序列具有至少80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的氨基酸序列同一性的TAL效应子蛋白质的DNA结合结构域的片段，其包含来源于转录激活样(TAL)效应子的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个重复单元，或者转录激活样(TAL)效应子。

在另一实施方案中，嵌合内切核酸酶的至少一个异源DNA结合结构域是来源于转录激活样(TAL)效应子的至少一个重复单元或者转录激活样(TAL)效应子。

术语“重复单元”用于描述来自TAL效应子的重复结构域的模块部分或者其人工版本，其含有重复单元的氨基酸序列的位置12和13中的一个或两个氨基酸，所述重复单元决定在靶DNA序列中碱基对的识别，该靶DNA序列被此类氨基酸所识别，如下：

HD用于识别C/G；NN用于识别A/T；NG用于识别T/A；NS用于识别C/G或A/T或T/A或G/C；NN用于识别G/C或A/T；IG用于识别T/A；N用于识别C/G；HG用于识别C/G或T/A；H用于识别T/A；和NK用于识别G/C。

(氨基酸H、D、I、G、S、K以单字母密码子描述，而A、T、C、G指被氨基酸识别的DNA碱基对)

在重复结构域中使用的重复单元的数目可以通过常规实验由本领域技术人员确定。通常，尽管一般使用至少约8个重复单元，但认为最少应使用至少1.5个重复单元。重复单元并不需要是完全重复的单元，因为可以使用重复单元大小的一半。本发明的异源DNA结合结构域可以包含例如，1.5，2，2.5，3，3.5，4，4.5，5，5.5，6，6.5，7，7.5，8，8.5，9，9.5，10，10.5，11，11.5，12，12.5，13，13.5，14，14.5，15，15.5，16，16.5，17，17.5，18，18.5，19，19.5，20，20.5，21，21.5，22，22.5，23，23.5，24，24.5，25，25.5，26，26.5，27，27.5，28，28.5，29，29.5，30，30.5，31，31.5，32，32.5，33，33.5，34，34.5，35，35.5，36，36.5，37，37.5，38，38.5，39，39.5，40，40.5，41，41.5，42，42.5，43，43.5，44，44.5，46，46.5，47，47.5，48，48.5，49，49.5，50，或更多的重复单元。

具有34个氨基酸(以单字母密码子表示)的重复的一般共有序列显示如下：

LTPEQWAIASNGGGKQALETVQRLLPVLCQAHG (SEQ ID NO：128)

具有35个氨基酸(以单字母密码子表示)的重复单元的其他共有序列显示如下：

LTPEQWAIASNGGGKQALETVQRLLPVLCQAPHD (SEQ ID NO：129)

可以在本发明的一个实施方案中使用的重复单元与上述共有序列具有至少35％、40％、50％、60％、70％、75％、80％、85％、90％或95％的同一性。

在本发明的一个实施方案中，异源DNA结合结构域是AvrBs3、AvrBs3～repI6、AvrBs3～repl09、AvrHahl、AvrXa27、PthXo1、PthXo6、PthXo7或Hax的亚家族的成员Hax2、Hax3、Hax4和Brgll或这些在氨基酸水平上具有至少50％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物所述的转录激活样(TAL)效应子组群中的转录激活样(TAL)效应子。

在本发明的一个实施方案中，异源DNA结合结构域并不是TAL效应子蛋白质或TAL效应子重复单元。

嵌合内切核酸酶的制备

内切核酸酶和异源DNA结合结构域可用很多种备选途径来组合。

例如，可将超过一个内切核酸酶和一个或多个异源DNA结合结构域组合起来，或将超过一个异源DNA结合结构域与一个内切核酸酶组合起来。还可将超过一个内切核酸酶与超过一个异源DNA结合结构域组合起来。

异源DNA结合结构域可融合于内切核酸酶的N-端末端或C-端末端。还可将一个或多个异源DNA结合结构域融合于内切核酸酶的N-端末端并将一个或多个异源DNA结合结构域融合于内切核酸酶的C-端末端。还可制造内切核酸酶和异源DNA结合结构域的交替组合。

嵌合内切核酸酶包含超过一个内切核酸酶或超过一个异源DNA结合结构域或者超过一个内切核酸酶和超过一个异源DNA结合结构域的情况下，可使用相同异源DNA结合结构域或内切核酸酶的若干个拷贝，或可使用不同的异源DNA结合结构域或内切核酸酶。

还可将针对上述经优化的核酸酶描述的方法和特征应用到嵌合内切核酸酶的全长序列上，例如，通过向嵌合内切核酸酶添加核定位信号来实现，或通过降低嵌合内切核酸酶的整条氨基酸序列中下述的数量(number)来实现：

a)PEST-序列

b)KEN-盒

c)A-盒，

d)D-盒，或

e)根据N-末端规则包含经优化的N-端末端用于稳定性，

f)包含甘氨酸作为第二个N-端氨基酸，或

g)a)、b)、c)、d)、e)和f)的任何组合。

例如通过SEQ ID NO：11所述的氨基酸序列描述了具有核定位信号的嵌合内切核酸酶，或者通过SEQ ID NO：24、25或26描述了多核苷酸序列。

在一个实施方案中，嵌合内切核酸酶是下述组合：

I-SceI和scTet，或I-SceI和scArc，或I-CreI和scTet，或I-CreI和scArcR或I-MsoI和scTet，或I-MsoI和scArcR，其中scTet或scArcR融合至I-SceI、I-CreI或I-MsoI的N-端或C-端，并且其中I-SceI、I-CreI、I-MsoI、scTet、scArcR包括它们的在氨基酸水平具有至少50％、49％、51％、58％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同系物。

在另一实施方案中，嵌合内切核酸酶具有下述结构：

N-端-I-SceI-scTet-C-端，或

N-端-I-SceI-scArcR-C-端，或

N-端-I-CreI-scTet-C-端，或

N-端-I-CreI-scArcR-C-端，或

N-端-I-MsoI-scTet-C-端，或

N-端-I-MsoI-scArcR-C-端，

N-端-scTet-I-SceI-C-端，或

N-端-scArcR-I-SceI-C-端，或

N-端-scTet-I-CreI-C-端，或

N-端-scArcR-I-CreI-C-端，或

N-端-scTet-I-MsoI-C-端，或

N-端-scArcR-I-MsoI-C-端，

嵌合内切核酸酶优选作为与核定位序列(NLS)的融合蛋白表达。该NLS序列能实现进入核中的协助运送并且增加重组系统的效力。本领域技术人员已知有多种NLS序列，它们被Jicks GR和Raikhel NV(1995)Annu.Rev.Cell Biol.11：155-188等等所描述。对于植物生物来说优选的是，例如，SV40大抗原的NLS序列。例子提供于通过引用并入本文的WO03/060133中。NLS可以是对内切核酸酶和/或DNA结合结构域来说异源的，或者可以是天然包含在内切核酸酶和/或DNA结合结构域内的。

在优选的实施方案中，通过插入内含子序列，修饰编码嵌合内切核酸酶的序列。这防止了功能性酶在原核宿主生物中的表达，并且由此协助了克隆和转化程序(例如基于大肠杆菌或农杆菌)。在真核生物中，例如在植物生物中，功能性酶的表达得以实现，因为植物能识别和“剪接”出内含子。优选地，内含子被插入进前文作为优选提到的归巢内切核酸酶(例如插入进I-SceI或I-CreI)。

在另一优选的实施方案中，可通过向内切核酸酶或嵌合内切核酸酶的N-端或C-端添加Sec IV分泌信号，来修饰内切核酸酶或嵌合内切核酸酶的氨基酸序列。

在优选的实施方案中，SecIV分泌信号是农杆菌Vir蛋白中包含的SecIV分泌信号。此类SecIV分泌信号的实例以及如何应用它们的方法被公开于WO01/89283、Vergunst等人，Positive charge is an importantfeature of the C-terminal transport signal of the VirB/D4-translocatedproteins of Agrobacterium，PNAS 2005，102，03，832至837页中，上述文献通过引用并入本文。

还可通过以与WO01/38504(通过引用并入本文，其描述了RecA/VirE2融合蛋白)说明书所述相似的方式将Vir蛋白的片段或者甚至完全的Vir蛋白(例如完全的VirE2蛋白)添加至内切核酸酶或嵌合内切核酸酶，来添加Sec IV分泌信号。

在另一优选的实施方案中，可通过向内切核酸酶或嵌合内切核酸酶的N-端或C-端添加Sec III分泌信号，来修饰内切核酸酶或嵌合内切核酸酶的氨基酸序列。合适的SecIII分泌信号例如公开于WO00/02996中，该文献通过引用并入本文。

添加SecIII分泌信号的情况下，将该内切核酸酶或嵌合内切核酸酶表达于下述细胞中可以是有利的，所述细胞还包含编码完全的功能性III型分泌系统或其部分的重组构建体，以在此类细胞中过表达或补足完全的功能性III型分泌系统或其部分。

编码完全的功能性III型分泌系统或其部分的重组构建体例如公开于WO00/02996和WO05/085417(通过引用并入本文)中。

如果将SecIV分泌信号添加至嵌合内切核酸酶并且意图将嵌合内切核酸酶表达于例如发根土壤杆菌(Agrobacterium rhizogenes)或根癌农杆菌(Agrobacterium tumefaciens)中，那么改造编码嵌合内切核酸酶的DNA序列以适应表达生物的密码子使用是有利的。优选地，内切核酸酶或嵌合内切核酸酶不具有或者仅具有很少的表达生物基因组中的DNA识别序列。如果所选择的嵌合内切核酸酶不具有农杆菌基因组中的DNA识别序列或较不优选的DNA识别序列，则是进一步更有利的。当意图将核酸酶或嵌合内切核酸酶表达于原核生物中时，核酸酶或嵌合核酸酶的编码序列应当没有内含子。

在一个实施方案中，内切核酸酶和异源DNA结合结构域经由接头多肽相连。

优选地，接头多肽由1至30个氨基酸构成，更优选地，由1至20个氨基酸构成，进一步更优选地，由1至10个氨基酸构成。

例如，接头多肽可由选自甘氨酸、丝氨酸、苏氨酸、半胱氨酸、天冬酰胺、谷氨酰胺和脯氨酸的多个残基组成。

优选地，接头多肽被设计为在生理条件下缺乏二级结构，并且优选是亲水性的。可包括带电荷的或非极性的残基，但是它们可能发生相互作用，形成二级结构，或者可以降低溶解性，并且因此是较不优选的。

在一些实施方案中，接头多肽基本上由选自甘氨酸和丝氨酸的多个残基构成。此类接头的实例具有下述氨基酸序列(以单字母密码子表示)：GS，或GGS，或GSGS，或GSGSGS，或GGSGG，或GGSGGSGG，或GSGSGGSG。

接头由至少3个氨基酸构成的情况下，优选地，接头多肽的氨基酸序列包含至少三分之一的甘氨酸或丙氨酸或甘氨酸和丙氨酸。

在一个优选的实施方案中，接头序列具有氨基酸序列GSGS或GSGSGS。

优选地，多肽接头是使用生物信息学工具理论设计的，所述工具对DNA结合位点和各个内切核酸酶二者，以及识别位点和异源DNA结合结构域均能建模。合适的生物信息学工具例如被描述于Desjarlais &Berg，(1994)，PNAS，90，2256至2260和Desjarlais & Berg(1994)，PNAS，91，11099至11103中。

嵌合内切核酸酶的DNA识别序列(嵌合识别序列)：

嵌合内切核酸酶与下述DNA序列结合，所述DNA序列是内切核酸酶的DNA识别序列和异源DNA结合结构域的识别序列的组合。当嵌合内切核酸酶包含超过一个内切核酸酶或超过一个异源DNA结合结构域时，嵌合内切核酸酶将与下述DNA序列结合，所述DNA序列是所使用的内切核酸酶的DNA识别序列和所使用的异源DNA结合结构域的操纵基因序列的组合。明显地，被嵌合内切核酸酶结合的DNA序列将反映内切核酸酶和异源DNA结合结构域组合的顺序。

本领域已知的内切核酸酶能切割大量不同的多核苷酸序列。

术语DNA识别序列和DNA识别位点是同义性使用的，它们指可被给定的内切核酸酶结合和切割的特定序列的多核苷酸。给定序列的多核苷酸因此可以是针对一种内切核酸酶的DNA识别序列或DNA识别位点，但其也可以是或可以不是针对另外的内切核酸酶的DNA识别序列或DNA识别位点。

可被内切核酸酶结合和切割的多核苷酸序列(即，代表该内切核酸酶的DNA识别序列或DNA识别位点)的实例被描述于表8中：字母N代表任何核苷酸并且可被A、T、G或C替代。

表8

内切核酸酶不具有严格定义的DNA识别序列，从而单个碱基改变不会使得切割消失，但可降低其效率至可变的程度。本文中针对给定内切核酸酶列出的DNA识别序列仅代表已知能被识别和切割的一个位点。

DNA识别位点的偏差的实例例如被公开于Chevelier等人(2003)，J.Mol.Biol.329，253至269，Marcaida等人(2008)，PNAS，105(44)，16888至16893和Marcaida等人的支持信息(the SupportingInformation)10.1073/pnas.0804795105，Doyon等人(2006)，J.AM.CHEM.SOC.128，2477至2484，Argast等人(1998)，J.Mol.Biol.280，345至353，Spiegel等人(2006)，Structure，14，869至880，Posey等人(2004)，Nucl.Acids Res.32(13)，3947至3956，或Chen等人(2009)，ProteinEngineering，Design & Selection，22(4)，249至256中。

因此可鉴定出具有预定的多核苷酸序列作为DNA识别序列的天然存在的内切核酸酶。

用于鉴定天然存在的内切核酸酶、它们的基因和它们的DNA识别序列的方法例如公开于WO2009/101625中。

可通过测试其在不同底物上的活性，来测试其DNA识别序列的切割特异性或其各自的简并性(degeneration)。合适的体内方法例如公开于WO09074873中。

备选地，可使用体外测试，例如通过利用点样于阵列上的经标记的多核苷酸来进行，其中不同的点样基本上仅包含特定序列的多核苷酸，所述多核苷酸不同于不同的点的多核苷酸，并且其可以是或可以不是待测试其活性的内切核酸酶的DNA识别序列。相似方法例如公开于US2009/0197775中。

然而，可突变给定的内切核酸酶，优选地LAGLIDADG内切核酸酶的氨基酸序列，以结合和切割新的多核苷酸，即，制造具有改变的DNA识别位点的经工程化内切核酸酶。

经工程化内切核酸酶的DNA识别位点的大量实例是本领域已知的，它们被公开于例如WO2005/105989，WO2007/034262，WO2007/047859，WO2007/093918，WO2008/093249，WO2008/102198，WO2008/152524，WO2009/001159，WO2009/059195，WO2009/076292，WO2009/114321，or WO2009/134714 WO10/001189和WO10/009147中。

因此，还可制造下述经工程化的内切核酸酶，其将具有与特定的预定多核苷酸序列相同的DNA识别序列。

优选地，内切核酸酶的DNA识别序列和操纵基因序列被1、2、3、4、5、6、7、8、9、10或更多个碱基对分隔开。优选地，它们被1至10、1至8、1至6、1至4、1至3或2个碱基对分隔开。

用于分隔开核酸酶的DNA识别序列和异源DNA识别结构域的识别序列的碱基对的数量取决于嵌合内切核酸酶中核酸酶的DNA结合区域和异源DNA结合结构域的DNA结合区域的距离。核酸酶的DNA结合区域和异源DNA结合结构域的DNA结合区域之间的较大距离将反映为分隔开核酸酶的DNA识别序列和异源DNA结合结构域的识别序列的较高数量的碱基对。分隔用的碱基对的最优数量可使用计算机模型来测定，或可通过测试给定的嵌合内切核酸酶在若干多核苷酸上的结合和切割效率来测定，所述若干多核苷酸包含变动数量的核酸酶的DNA识别序列和异源DNA结合结构域的识别序列之间的碱基对。

因此，在本发明的一个实施方案中，嵌合识别位点包含LAGLIDADG内切核酸酶的DNA识别序列，甚至更优选地具有SEQ IDNOs：1、2、3、5、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、142或159的至少一个所述的氨基酸序列，优选地具有SEQ ID NO：1、2、3、5或159所述的氨基酸序列的LAGLIDADG内切核酸酶的DNA识别序列。

在本发明的其他实施方案中，嵌合识别位点包含I-SceI、I-CreI、I-DmoI、I-MsoI、I-CeuI、I-ChuI、Pi-SceI或I-Anil或者那些与I-SceI、I-CreI、I-DmoI、I-MsoI、I-CeuI、I-ChuI、Pi-SceI或I-Anil具有至少56％、57％、58％、59％、60％、61％、62％、63％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性的同系物的DNA识别序列，以及与scTet、scArc、LacR、MerR或MarA或者与scTet、scArc、LacR、MerR或MarA的DNA结合结构域片段具有至少50％序列氨基酸序列同一性的异源DNA结合结构域的识别序列。

在本发明的其他实施方案中，嵌合识别位点包含I-SceI、I-CreI、I-DmoI、I-MsoI、I-CeuI、I-ChuI、Pi-SceI或I-Anil或者那些与I-SceI、I-CreI、I-DmoI、I-MsoI、I-CeuI、I-ChuI、Pi-SceI或I-Anil具有至少56％、57％、58％、59％、60％、61％、62％、63％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性的同系物的两个DNA识别序列。

此类嵌合识别位点可以与嵌合内切核酸酶一起使用，所述嵌合内切核酸酶包含活性的内切核酸酶和作为异源DNA结合结构域的失活的内切核酸酶。

该类型的组合的一个实例是包含I-SceI的两个DNA识别序列的嵌合识别位点，其可以与包含I-SceI的活性版本和作为异源DNA结合结构域的I-SceI的失活版本的嵌合内切核酸酶组合使用。

在本发明的其他实施方案中，嵌合识别位点包含I-SceI、I-CreI、I-DmoI、I-MsoI、I-CeuI、I-ChuI、Pi-SceI或I-Anil或者那些具有I-SceI、I-CreI、I-DmoI、I-MsoI、I-CeuI、I-ChuI、Pi-SceI或I-Anil的至少56％、57％、58％、59％、60％、61％、62％、63％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的同系物的两个DNA识别序列，以及TAL效应子蛋白质的DNA结合位点。优选地包含SEQ ID NO：164、165、166或167所述的多核苷酸序列。

在本发明的另一实施方案中，嵌合识别位点包含I-SceI的两个DNA识别序列，优选地由SEQ ID NO：13所述的，以及TAL效应子蛋白质的DNA结合位点，优选地包含SEQ ID NO：164、165、166或167所述的多核苷酸序列。

嵌合内切核酸酶的DNA识别序列(各嵌合内切核酸酶的嵌合识别位点或靶位点)的实例是：

具有结构：I-SceI-scTet的嵌合内切核酸酶，优选地，具有SEQ IDNO：8或9所述的氨基酸序列。

I-SceI scTet靶位点1 ctatcaatgatagcgctagggataacagggtaat (SEQ ID NO：14)

I-SceI scTet靶位点2 ctatcaatgatagacgctagggataacagggtaat (SEQ ID NO：15)

I-SceI scTet靶位点3 ctatcaatgatagtacgctagggataacagggtaat (SEQ ID NO：16)

具有结构：I-SceI-scArcR的嵌合内切核酸酶，优选地，具有SEQ ID NO：10或11所述的氨基酸序列

I-SceI scArc靶位点1 tagggataacagggtaatactagtagagtgc (SEQ ID NO：17)

I-SceI scArc靶位点2 tagggataacagggtaatacttagtagagtgc (SEQ ID NO：18)

I-SceI scArc靶位点3 tagggataacagggtaatactatagtagagtgc (SEQ ID NO：19)

I-SceI scArc靶位点4 tagggataacagggtaatactagtagtagagtgc (SEQ ID NO：20)

多核苷酸：

本发明还包含编码上文所述的嵌合内切核酸酶的经分离的多核苷酸。

此类经分离的多核苷酸的实例是下述经分离的多核苷酸，其编码SEQ ID NO：23、24、25和26所述的氨基酸序列，或与SEQ ID NO：23、24、25和26所述的任一氨基酸序列具有至少70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的氨基酸序列相似性(优选地，具有至少70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的氨基酸序列同一性)的氨基酸序列。

优选地，经分离的多核苷酸具有针对特定宿主生物中的表达经优化的密码子使用，或具有低含量的RNA不稳定性基序，或具有低含量的密码子重复，或具有低含量的隐蔽剪接位点，或具有低含量的备选起始密码子，或具有低含量的限制性位点，或具有低含量的RNA二级结构，或具有上述特征的任何组合。

经分离的多肽的密码子使用可被优化，例如，针对在植物(优选地，选自稻、玉米、小麦、油菜、甘蔗、向日葵、甜菜、烟草的植物)中的表达来进行。

优选地，经分离的多核苷酸与适于形成下述功能性表达盒的启动子序列和终止子序列组合，所述功能性表达盒用于嵌合内切核酸酶在特定宿主生物中的表达。

合适的启动子例如是组成型启动子、热或病原体诱导型启动子或种子、花粉、花或果特异性启动子。

本领域技术人员知道大量具有这些特征的启动子。

例如，植物中组成型启动子有若干是已知的。它们大多来源于病毒或细菌来源，例如胭脂氨酸合酶(nos)启动子(Shaw等人(1984)NucleicAcids Res.12(20)：7831-7846)、甘露碱合酶(mas)启动子(Co-mai等人(1990)Plant Mol Biol 15(3)：373-381)或章鱼碱合酶(ocs)启动子(Leisner和Gelvin(1988)Proc Natl Acad Sci USA 85(5)：2553-2557)(来自根癌农杆菌)或来自烟草花叶病毒的CaMV35S启动子(US5,352,605)。后者最经常用于转基因在植物中的组成型表达(Odell等人(1985)Nature 313：810-812；Battraw和Hall(1990)Plant Mol Biol 15：527-538；Benfey等人(1990)EMBO J 9(69)：1677-1684；US5,612,472)。但是，CaMV 35S启动子不仅在不同的植物物种中展示出可变性，其还在不同的植物组织中展示出可变性(Atanassova等人(1998)Plant Mol Biol37：275-85；Battraw和Hall(1990)Plant Mol Biol 15：527-538；Holtorf等人(1995)Plant Mol Biol 29：637-646；Jefferson等人(1987)EMBO J6：3901-3907)。另外的缺点是野生型CaMV病毒对35S启动子的转录调控活性的干扰(A1-Kaff等人(2000)Nature Biotechnology18：995-99)。用于组成型表达的另一病毒启动子是甘蔗杆状病毒(ScBV)启动子(Schenk等人(1999)Plant Mol Biol 39(6)：1221-1230)。

若干植物组成型启动子被描述过，例如，来自拟南芥的泛素启动子(Callis等人(1990)J Biol Chem 265：12486-12493；Holtorf S等人(1995)Plant Mol Biol 29：637-747)，但其被报道为不能调控选择标记的表达(WO03102198)，或两种玉米泛素启动子(Ubi-1和Ubi-2；US5,510,474；US6,020，190；US6,054574)，其除了组成型表达情况之外还展示出热激诱导(Christensen等人(1992)Plant.Mol.Biol.18(4)：675-689)。基于经稳定转化的拟南芥属植物，对CaMV35S、大麦硫堇启动子和拟南芥属泛素启动子的特异性和表达水平的比较展示出CaMV 35S启动子的高表达速率，而硫堇启动子在大多数株系中无活性，并且来自拟南芥属的ubi1启动子仅导致中等表达活性(Holtorf等人(1995)Plant Mol Biol 29(4)：637-6469)。

嵌合识别序列：

本发明还包含含有下述嵌合识别序列的经分离的多核苷酸，所述嵌合识别序列具有大约15至大约300个核苷酸的长度，或大约20至大约200个核苷酸的长度，或大约25至大约100个核苷酸的长度，其包含内切核酸酶的DNA识别序列和异源DNA结合结构域(也称为结合位点或者操纵基因)的识别序列。

优选地，经分离的多核苷酸包含归巢内切核酸酶，优选地LAGLIDADG内切核酸酶的DNA识别序列。

在一个实施方案中，经分离的多核苷酸包含I-SceI的DNA识别序列。

优选地，经分离的多核苷酸中包含的异源DNA结合结构域的识别序列是转录因子的识别序列。

更优选地，识别序列是转录因子scTet或scArc的识别序列。

在一个实施方案中，经分离的多核苷酸包含I-SceI的DNA识别序列和0至10个多核苷酸的接头序列和scTet或scArc的识别序列。

优选的嵌合识别序列包含与scTet、TetR、scArcR、TraR、WRKY、LacR、MarA或MerR的识别位点结合的I-SceI、I-CreI、I-DmoI、或I-Ceu、I-MsoI、Pi-SceI或I-AniI的DNA识别序列的组合，其中可以将I-SceI、I-CreI、I-DmoI、I-MsoI或I-Ceu的DNA识别序列融合在scTet、TetR、scArcR、TraR、WRKY、LacR、MarA或MerR的识别位点的上游或下游1、2、3、4、5、6、7、8、9、10、11或12个核苷酸的距离中。

优选的嵌合识别序列包含与scTet、TetR、scArcR、TraR、MarA或MerR的识别位点结合的I-SceI、I-CreI、I-DmoI或I-MsoI的DNA识别序列的组合，其中可以将I-SceI、I-CreI、I-DmoI或I-Ceu的DNA识别序列融合在scTet、TetR、scArcR、TraR、MarA或MerR的识别位点的上游或下游的1、2、3、4、5、6、7、8、9、10、11或12个核苷酸的距离中。

优选的嵌合识别序列包含与scTet、TetR、scArcR、TraR、MarA或MerR的识别位点结合的I-SceI、I-CreI、I-DmoI或I-MsoI的DNA识别位点的组合，其中可以将I-SceI、I-CreI、I-DmoI或I-Ceu的DNA识别序列融合在scTet、TetR、scArcR、TraR、MarA或MerR的识别位点的上游或下游的1、2、3、4、5、6、7、8、9、10、11或12个核苷酸的距离中。

在一个实施方案中，嵌合识别序列包含与scTet、TetR、scArcR、TraR、MarA或MerR的识别位点结合的I-SceI的DNA识别序列的组合，其中可以将I-SceI的DNA识别序列融合在scTet、TetR、scArcR、TraR、MarA或MerR的识别位点的上游或下游的1、2、3、4、5、6、7、8、9、10、11或12个核苷酸的距离中。

在一个实施方案中，嵌合识别序列包含与MarA的识别位点结合的I-SceI的DNA识别序列的组合，其中可以将I-SceI的DNA识别序列融合在MarA的识别位点的上游或下游的1、2、3、4、5、6、7、8、9、10、11或12个核苷酸的距离中。优选地，将I-SceI的DNA识别序列融合在MarA的识别位点的上游。

在一个实施方案中，经分离的多核苷酸包含选自下组的嵌合识别位点的序列，所述组包含SEQ ID NO：30、31、32、34、35、36或37。

经分离的多核苷酸可包含嵌合识别位点和编码嵌合核酸酶的多核苷酸序列的组合。

在本发明的优选实施方案中，将具有SEQ ID NO：8或9所述的氨基酸序列的嵌合内切核酸酶与具有选自SEQ ID NO：14、15或16所述的序列的多核苷酸序列的嵌合识别序列组合使用。

在本发明的优选实施方案中，将具有SEQ ID NO：10或11所述的氨基酸序列的嵌合内切核酸酶与具有选自SEQ ID NO：17、18、19或20所述的序列的多核苷酸序列的嵌合识别序列组合使用。

载体：

上文所述的多核苷酸可被包含进适于转化、转染、克隆或过表达的DNA载体。

在一个实例中，上文所述的多核苷酸包含于用于转化非人生物或细胞的载体中，优选地，非人生物是植物或植物细胞。

本发明的载体通常包含另外的功能元件，这可包括但不限于：

i)复制起点，其确保根据本发明的表达盒或载体在例如大肠杆菌中的复制。可被提到的实例是ORI(DNA复制起点)、pBR322 ori或P15Aori(Sam-brook等人：Molecular Cloning.A Laboratory Manual，第2版，Cold Spring Harbor Laboratory Press，Cold Spring Harbor，NY，1989)。

ii)多克隆位点(MCS)，用于实现和协助一条或多条核酸序列的插入。

iii)使得能同源重组或插入进宿主生物基因组中的序列。

iv)元件，例如边界序列，其使得能在植物细胞中进行农杆菌介导的转移，用于转移和整合进植物基因组，例如，T-DNA的右边界或左边界或vir区域。

标记序列

术语“标记序列”应当以广义被理解为包括能协助缺失、鉴定或选择经转化的细胞、组织或生物(例如植物)的所有核苷酸序列(和/或由其翻译的多肽序列)。术语“允许对经转化的植物材料加以选择的序列”、“选择标记”或“选择标记基因”或“选择标记蛋白”或“标记”具有基本上相同的含义。

标记可包括(但不限于)可选择标记和可筛选标记。可选择标记向细胞或生物赋予导致生长或存活差异的表型。可选择标记可与选择试剂(例如除草剂或抗生素或前药)相互作用，以带来该表型。可筛选标记向细胞或生物赋予易于检测到的表型，优选地，视觉可检测的表型，例如颜色或染色。可筛选标记可与筛选试剂(例如染料)相互作用以带来该表型。

可选择标记(或可选择标记序列)包括但不限于：

a)阴性选择标记，其赋予针对一种或多种毒性(植物的情况下，植物毒性)试剂(例如抗生素、除草剂或其它生物杀灭剂)的抗性，

b)反向选择标记，其赋予针对某些化学化合物(例如，通过将非毒性化合物转化成毒性化合物)的敏感性，以及

c)阳性选择标记，其赋予生长优势(例如通过表达细胞分裂素或激素生物合成的关键元素，导致植物激素(例如生长素、赤霉素、细胞分裂素、脱落酸和乙烯)的产生来实现；Ebi-numa H等人(2000)Proc NatlAcad Sci USA 94：2117-2121)。

当使用阴性选择标记时，仅包含所述阴性选择标记的细胞或植物被选择。当使用反向选择标记时，仅缺乏所述反向选择标记的细胞或植物被选择。反向选择标记可用于验证序列(包含所述反向选择标记)从基因组的成功切除。可筛选标记包括但不限于报道基因(例如，荧光素酶、葡糖醛酸糖苷酶、氯霉素乙酰转移酶(CAT等等)。优选地标记序列包括但不限于：

i)阴性选择标记

一般来说，阴性选择标记可用于选择成功经历了转化的细胞。已引入本发明的DNA构建体的阴性选择标记可向成功经历转化的细胞赋予对下述物质的抗性：生物杀灭剂或植物毒性试剂(例如，除草剂，例如膦丝菌素、草甘膦或溴苯腈)，代谢抑制剂(例如2-脱氧葡糖-6-磷酸)(WO98/45456)或抗生素(例如，四环素、氨苄青霉素、卡那霉素、G418、新霉素、博来霉素或潮霉素)。阴性选择标记允许选出经转化的细胞，将其与未经转化的细胞分开(McCormick等人(1986)Plant CellReports 5：81-84)。本发明载体中的阴性选择标记可用于在超过一种生物中赋予抗性。例如，本发明的载体可包含用于在细菌(例如大肠杆菌或农杆菌)和植物中扩增的选择标记。用于大肠杆菌的可选择标记的例子包括：指定对抗生素(即氨苄青霉素、四环素、卡那霉素、红霉素)的抗性的基因，或赋予其它类型的可选择酶活性(例如半乳糖苷酶)的基因，或乳糖操纵子。用于哺乳动物细胞中的合适的可选择标记包括，例如，二氢叶酸还原酶基因(DHFR)、胸苷激酶基因(TK)，或赋予药物抗性的原核基因，gpt(黄嘌呤-鸟嘌呤磷酸核糖转移酶基因，其可用霉酚酸来选择)；neo(新霉素磷酸转移酶)，其可用G418、潮霉素或嘌呤霉素来选择；和DHFR(二氢叶酸还原酶)，其可用甲氨蝶呤来选择(Mulligan & Berg(1981)Proc Natl Acad Sci USA 78：2072；Southern&Berg(1982)J Mol Appl Genet 1：327)。用于植物细胞的选择标记通常赋予对生物杀灭剂或抗生素(例如卡那霉素、G418、博来霉素、潮霉素或氯霉素)的抗性，或除草剂抗性，例如对氯磺隆(chlorsulfuron)或Basta的抗性。

尤其优选的阴性选择标记是赋予对除草剂抗性的那些。阴性选择标记的实例是：

-编码膦丝菌素乙酰转移酶(PAT)的DNA序列，其将谷氨酰胺合酶抑制剂膦丝菌素(PPT)的游离氨基基团乙酰化，并由此导致PPT去毒(de Block等人(1987)EMBO J 6：2513-2518)(也被称为双丙氨磷抗性基因bar；EP242236)，

-5-烯醇丙酮莽草酸-3-磷酸合酶基因(EPSP合酶基因)，其赋予对草甘膦(N-(膦酰甲基)甘氨酸)的抗性，

-gox基因，其编码降解草甘膦的酶，草甘膦氧化还原酶(Glyphosateoxidoreductase)，

-deh基因(编码使得茅草枯失活的脱卤素酶)，

-乙酰乳酸合酶，其赋予对磺脲和咪唑啉酮的抗性，

-bxn基因，其编码降解溴苯腈的腈水解酶，

-卡那霉素或G418抗性基因(NPTII)。NPTII基因编码新霉素磷酸转移酶，其因为磷酸化反应而降低卡那霉素、新霉素、G418和巴龙霉素的抑制作用(Beck等人(1982)Gene 19：327)，

-DOGR1基因。DOGR1基因已从酿酒酵母中分离(EP0807836)。其编码2-脱氧葡糖-6-磷酸磷酸酶，这赋予对2-DOG的抗性(Randez-Gil等人(1995)Yeast 11：1233-1240)。

-hyg基因，其编码潮霉素磷酸转移酶，并且赋予对抗生素潮霉素的抗性(Gritz和Davies(1983)Gene 25：179)；

-尤其优选的是赋予针对D-氨基酸(例如D-丙氨酸和D-丝氨酸)施加的毒性作用的抗性的阴性选择标记(WO03/060133；Erikson 2004)。本发明范畴内作为阴性选择标记尤其优选的是来自瘦弱红酵母(Rhodotorula gracilis)(圆红冬孢酵母菌(Rhodosporidium toruloides))的daol基因(EC：1.4.3.3：GenBank Acc.-No.：U60066)和大肠杆菌基因dsdA(D-丝氨酸脱水酶(D-丝氨酸脱氨酶))(EC：4.3.1.18；GenBankAcc.-No.：J01603)。

ii)阳性选择标记

阳性选择标记包含但不限于生长刺激性选择标记基因，例如来自根癌农杆菌的异戊烯基转移酶(菌株：PO22：Genbank Acc.-No.：AB025109)可——作为细胞分裂素生物合成的关键酶——协助经转化植物的再生(例如通过在不含细胞分裂素的培养基上的选择)。相应的选择方法描述在Ebinuma H等人(2000)Proc Natl Acad Sci USA94：2117-2121；Ebinuma H等人(2000)Selection of Marker-freetransgenic plants using the oncogenes(ipt，rol A，B，C)of Agrobacteriumas selectable markers，In Molecular Biology of Woody Plants.KluwerAcademic Publishers。向经转化的植物赋予较之未经转化的植物而言的生长优势的另外的阳性选择标记被描述于例如EP-A 0601092中。生长刺激选择标记可包括(但不限于)β-葡糖醛酸糖苷酶(与例如细胞分裂素葡糖醛酸苷组合)、甘露糖-6-磷酸异构酶(与甘露糖组合)、UDP-半乳糖-4-差向异构酶(与例如半乳糖组合)，其中与甘露糖组合的甘露糖-6-磷酸异构酶是尤其优选的。

iii)反向选择标记

反向选择标记使得能选择具有成功缺失了序列的生物(Koprek T等人(1999)Plant J 19(6)：719-726)。TK胸苷激酶(TK)和白喉毒素A片段(DT-A)，编码胞嘧啶脱氨酶的codA基因(Gleve AP等人(1999)Plant Mol Biol 40(2)：223-35；Pereat RI等人(1993)Plant Mol Biol23(4)：793-799；Stougaard J(1993)Plant J 3：755-761)，细胞色素P450基因(Koprek等人(1999)Plant J 16：719-726)，编码卤代烷脱卤素酶的基因(Naested H(1999)Plant J 18：571-576)，iaaH基因(SundaresanV等人(1995)Genes & Development 9：1797-1810)，tms2基因(FedoroffNV & Smith DL(1993)Plant J 3：273-289)和通过转化D-氨基酸导致毒性作用的D-氨基酸氧化酶(WO03/060133)。

在优选的实施方案中，切除盒包括至少一个所述反向选择标记，以将已成功切除了序列的植物细胞或植物与仍含有所述序列的植物区分开。在更优选的实施方案中，本发明的切除盒包含双功能标记，即，可用作为阴性选择标记和反向选择标记二者的标记，这取决于选择流程中所使用的底物。双功能标记的一个例子是来自瘦弱红酵母的daol基因(EC：1.4.3.3：GenBank Acc.-No.：U60066)，采用如D-丙氨酸和D-丝氨酸等D-氨基酸时，其可用作为阴性选择标记，采用D-异亮氨酸和D-缬氨酸等D-氨基酸是，其可用作为反向选择标记(见欧洲专利申请No.：04006358.8)。

iv)可筛选标记(报道基因)

可筛选标记(例如报道基因)编码可易于定量或检测的蛋白，并且其通过内在颜色或酶活性确保对转化效力或表达的位置或时机的评估。尤其优选的是编码报道蛋白的基因(还见Schenborn E，Groskreutz D.(1999)Mol Biotechnol 13(1)：29-44)，例如

-“绿色荧光蛋白”(GFP)(Chui WL等人(1996)Curr Biol6：325-330；Lef-fel SM等人(1997)Biotechniques 23(5)：912-8；Sheen等人(1995)Plant J 8(5)：777-784；Haseloff等人(1997)Proc Natl Acad SciUSA 94(6)：2122-2127；Reichel等人(1996)Proc Natl Acad Sci USA93(12)：5888-5893；Tian等人(1997)Plant Cell Rep 16：267-271；WO97/41228)。

-氯霉素转移酶，

-荧光素酶(Millar等人(1992)Plant Mol Biol Rep 10：324-414；Ow等人(1986)Science 234：856-859)允许通过对生物发光的检测进行选择，

-β-半乳糖苷酶，编码可获得多种生色底物的酶，

-β-葡糖醛酸糖苷酶(GUS)(Jefferson等人(1987)EMBO J6：3901-3907)或uidA基因，其编码针对多种生色底物的酶，

-R基因座基因产物：调控花青素色素(红色)在植物组织中的产生的蛋白质，其由此使得能在不添加额外的佐剂或生色底物的情况下对启动子活性进行直接分析(Dellaporta等人(1988)In：ChromosomeStructure and Function：Impact of New Concepts，18th Stadler GeneticsSymposium，11：263-282)，

-β-内酰胺酶(Sutcliffe(1978)Proc Natl Acad Sci USA75：3737-3741)，针对多种生色底物的酶(例如，PADAC，生色的头孢菌素)，

-xylE基因产物(Zukowsky等人(1983)Proc Natl Acad Sci USA80：1101-1105)，能转化生色儿茶酚的儿茶酚双加氧酶，

-α-淀粉酶(Ikuta等人(1990)Bio/technol.8：241-242)，

-酪氨酸酶(Katz等人(1983)J Gene Microbiol 129：2703-2714)，氧化酪氨酸产生DOPA和多巴醌的酶，多巴醌随后形成易于被检测的黑素，

-水母发光蛋白(Prasher等人(1985)Biochem Biophys ResCommun 126(3)：1259-1268)，可用于钙敏感性的生物发光检测。

靶生物

适于转化或递送嵌合内切核酸酶的任何生物可用作为靶生物。这包括原核生物、真核生物和古细菌，特别是非人生物、植物、真菌或酵母，以及入或动物细胞。

在一个实施方案中，靶生物是植物。

术语“植物”包括整株植物，苗营养器官/结构(例如叶、茎和块茎)、根、花和花器官/结构(例如苞叶、萼片、花瓣、雄蕊、心皮、花药和胚珠)，种子(包括胚、胚乳和种皮)和果实(成熟的子房)，植物组织(例如维管组织，基本组织等等)和细胞(例如保卫细胞、卵细胞、毛状体等等)及它们的后代。可用于本发明的植物的纲通常广至可接受转化技术的高等植物和低等植物的纲，包括被子植物(单子叶植物和双子叶植物)、裸子植物、蕨类植物和多细胞藻类。其包括多种倍体水平的植物，包括非整倍体、多倍体、二倍体、单倍体和半合子的植物。

本发明的范围内包括植物界高等植物和低等植物的所有属和种。还包括成熟的植物、种子、苗和幼苗，以及源于其的部分、繁殖材料(例如种子和果实)和培养物，例如细胞培养物。

优选的是下述植物科的植物和植物材料：苋科、十字花科、石竹科、藜科、菊科、葫芦科、唇形科、豆科、蝶形花亚科、百合科、亚麻科、锦葵科、蔷薇科、虎耳草科、玄参科、茄科、番杏科(Tetragoniaceae)。

一年生、多年生、单子叶植物和双子叶植物是用于产生转基因植物的优选宿主生物。此外，根据本发明的重组系统的用途或方法在所有观赏植物，有价值或观赏树、花、切花、灌木或草皮中是有利的。所述植物可包括但不限于：苔藓类(bryophytes)，例如苔纲(Hepaticae)(地钱属(hepatica))和藓纲(Musci)(苔藓(mosse))；蕨类植物(pteridophyte)，例如羊齿类(fern)、马尾(horsetail)和石松(club-mosses)；裸子植物，例如松柏科植物(conifer)、苏铁科植物(cycad)、银杏(ginkgo)和买麻藤科(Gnetaeae)；藻类，例如绿藻纲(Chlorophyceae)、褐藻纲(Phaeophpyceae)、红藻纲(Rhodophyceae)、Myxophyceae、黄藻纲(Xanthophyceae)、硅藻纲(Bacillariophyceae)(硅藻(diatoms))和裸藻纲(Euglenophyceae)。

用于本发明目的的植物可包含：蔷薇科，例如玫瑰，杜鹃花科，例如杜鹃花属植物(rhododendrons)和杜鹃(azaleas)，大戟科，例如一品红(poinsettias)和巴豆(croton)，石竹科，例如香石竹(pinks)，茄科，例如碧冬茄属(petunias)，苦苣苔科，例如非洲紫罗兰(Africanviolet)，凤仙花科，例如凤仙花(touchmenot)，兰科，例如兰花(orchid)，鸢尾科，例如唐菖蒲(gladioli)、鸢尾(iris)、小苍兰(freesia)和番红花属植物(crocus)，菊科，例如金盏花(marigold)，牻牛儿苗科，例如老鹳草属植物(geraniums)，百合科，例如龙血树属植物(drachaena)，桑科，例如榕属植物(ficus)，天南星科，例如蔓绿绒(philodendron)等等。

根据本发明的转基因植物还特别选自双子叶作物植物，例如，来自下述科的植物：豆科，例如豌豆、苜蓿和大豆；茄科，例如烟草等等；伞形科，特别是胡萝卜属(非常特别是胡萝卜种(胡萝卜))和芹属(非常特别是旱芹种(graveolens dulce)(芹菜))等等；茄科，特别是番茄属，非常特别是普通栽培种番茄种(esculentum)(西红柿)，和茄属，非常特别是马铃薯种(tuberosum)(马铃薯)和茄子种(melongena)(茄子(au-bergine))等等；和辣椒属，非常特别是甜椒种(annum)(胡椒(pepper))等等；豆科，特别是大豆属，非常特别是大豆种(大豆)等等；和十字花科，特别是芸苔属，非常特别是欧洲油菜种(napus)(油菜)、芸苔油菜种(campestris)(甜菜)、oleracea cv Tastie种(卷心菜)、球叶甘蓝种(oleracea cv Snowball Y)(花椰菜)和oleracea cvEmperor种(西兰花(broccoli))；和拟南芥属，非常特别是拟南芥种等等；菊科，特别是莴苣属，非常特别是sativa(莴苣(lettuce))等等。

根据本发明的转基因植物特别选自单子叶作物植物，例如，谷物，例如小麦、大麦、高粱和黍、黑麦、黑小麦、玉米、稻或燕麦以及甘蔗。

尤其优选的是拟南芥(Arabidopsis thaliana)、烟草(Nicotianatabacum)、油菜、大豆、玉米(苞谷)、小麦、亚麻籽、马铃薯和万寿菊。

用于本发明目的的植物生物还可以是能光合作用的其它生物，例如，藻类或蓝细菌，以及还有苔藓。优选的藻类是绿藻，例如，红球藻属(Haematococcus)的藻类、三角褐指藻(Phaedactylum tricornatum)、团藻属(Volvox)或杜氏藻属(Dunaliella)。

可被人或动物消耗的根据本发明的经遗传修饰的植物还可用作为植物或饲料，例如直接使用或在本领域已知的加工之后使用。

多核苷酸构建体的构建

一般地，使用转基因表达技术来制备将被引入非人生物或细胞(例如植物或植物细胞)的多核苷酸构建体(例如，用于表达盒)。重组表达技术涉及重组核酸的构建和基因在经转染细胞中的表达。实现这些目标的分子克隆技术是本领域中已知的。适于构建重组核酸的多种克隆和体外扩增方法是本领域技术人员公知的。这些技术和足以指导本领域技术人员通过很多克隆练习的说明的实例见于Berger和Kimmel，Guideto Molecular Cloning Techniques，Methods in Enzymology，Vol.152，Academic Press，hic.，San Diego，CA(Berger)；Current Protocols inMolecular Biology，F.M.Ausubel等人编著，Current Protocols，a jointventure between Greene Publish-ing Associates，Inc.和John Wiley &Sons，Inc.，(1998Supplement)，T.Maniatis，E.F.Fritsch和J.Sambrook，Molecular Cloning：A Laboratory Manual，Cold Spring HarborLaboratory，Cold Spring Harbor，NY(1989)，T.J.Silhavy，M.L.Berman和L.W.Enquist，Experiments with Gene Fusions，Cold Spring HarborLaboratory，Cold Spring Harbor，NY(1984)。优选地，用于本发明的DNA构建体是通过使用技术人员熟悉的重组和克隆技术将DNA构建体的上述必要组件与上述序列连到一起来产生的。

构建多核苷酸构建体通常需要使用能在细菌中复制的载体。可商业获得大量的试剂盒用于从细菌纯化质粒。经分离和纯化的质粒然后被进一步操作，以产生其它质粒，用于转染细胞或整合入根癌农杆菌或发根土壤杆菌中以感染和转化植物。农杆菌是转化手段的情况下，构建穿梭质粒。

将构建体引入靶细胞的方法

可将用于本发明的DNA构建体有利地引入细胞，这使用向其中插入了所述DNA构建体的载体而进行。载体的实例可以是质粒、粘粒、噬菌体、病毒、逆转录病毒或农杆菌。在有利的实施方案中，表达盒是通过质粒载体引入的。优选地载体是能将表达盒稳定整合进宿主基因组的那些。

可通过本领域技术人员已知的若干手段中的任何被称为“转化”的程序，来将DNA构建体引入靶植物细胞和/或生物(还见Keown等人(1990)Meth Enzymol 185：527-537)。例如，可通过多种常规技术，将DNA构建体引入或者在培养物中的细胞，或者在植物器官中的细胞。例如，可使用弹击(ballistic)方法，例如DNA颗粒轰击，将DNA构建体直接引入植物细胞，或者可使用诸如对细胞的显微注射和电穿孔等技术来引入DNA构建体。颗粒介导的转化技术(也被称为“生物弹”)被描述于例如Klein等人(1987)Nature 327：70-73；Vasil V等人(1993)BiolTechnol 11：1553-1558；和Becker D等人(1994)Plant J 5：299-307中。这些方法涉及用小颗粒穿透细胞，所述颗粒具有位于小珠粒或颗粒基质内或位于表面上的核酸。生物弹PDS-1000基因枪(Biorad，Hercules，加利福尼亚州)使用氦气压来加速包覆有DNA的金或钨微载体冲向靶细胞。该过程可应用于广范围的来自生物(包括植物)的组织和细胞。本领域技术人员还已知其它转化方法。

显微注射技术是本领域已知的，其已被描述于科学和专利文献中。此外，可用化学方式来透过细胞，例如使用聚乙二醇，使得DNA可通过扩散进入细胞。还可使用其它含有DNA的单元，例如，微细胞(minicells)、细胞、溶酶体或脂质体，通过原生质体融合来引入DNA。使用聚乙二醇(PEG)沉淀来引入DNA构建体描述于Paszkowski等人(1984)EMBO J 3：2717中。基于脂质体的基因递送例如描述于WO93/24640；Mannino和Gould-Fogerite(1988)BioTechniques6(7)：682-691；US5,279,833；WO9I/06309和Felgner等人(1987)ProcNatl Acad Sci USA 84：7413-7414)中。

引入DNA的另一合适方法是电穿孔，其中通过电脉冲使得细胞可逆性透过。电穿孔技术描述于Fromm等人(1985)Proc Natl Acad SciUSA 82：5824中。PEG介导的转化和对植物原生质体电穿孔也被讨论于Lazzeri P (1995)Methods Mol Biol 49：95-106中。可被提到的优选一般方法是磷酸钙介导的转染、DEZE-葡聚糖介导的转染、阳离子脂质介导的转染、电穿孔、转导和感染。此类方法是技术人员已知的，并描述于例如Davis等人，Basic Methods In Molecular Biology(1986)中。关于对植物和细胞培养物的基因转移方法的综述，见Fisk等人(1993)ScientiaHorticulturae 55：5-36和Potrykus(1990)CIBA Found Symp 154：198。

用于在单子叶植物和双子叶植物中引入和表达异源基因的方法是已知的。见例如US5,633,446，US5,317,096，US5,689,052，US5,159,135和US5,679,558；Weising等人(1988)Ann.Rev.Genet.22：421-477。特别地，对单子叶植物的转化可使用多种技术，包括电穿孔(例如Shimamoto等人(1992)Nature 338：274-276)；生物弹(例如EP-A1270，356)和农杆菌(例如Bytebier等人(1987)Proc Natl Acad Sci USA84：5345-5349)。

在植物中，技术人员熟悉的用于从植物组织或植物细胞转化和再生植物的方法被用于瞬时或稳定转化。合适的方法尤其是通过聚乙二醇诱导的DNA摄入进行的原生质体转化、生物弹方法如基因枪(“颗粒轰击”方法)、电穿孔、在含DNA的溶液中孵育干胚胎、超声波处理和显微注射、以及通过显微注射或宏观注射进组织或胚胎来转化完整细胞或组织、组织电穿孔、或对种子的真空渗入。在将DNA注射或电穿孔进植物细胞的情况下，使用的质粒不需要满足任何特别需求。可以使用简单的质粒，例如pUC系列的那些。如果要从经转化的细胞再生完整的植物，质粒上存在额外的可选择标记基因是有用的。

除了这些“直接”转化技术之外，还可通过经由根癌农杆菌或发根土壤杆菌进行细菌感染来进行转化。这些菌株含有质粒(Ti或Ri质粒)。该质粒被称为T-DNA(转移的DNA)的部分在农杆菌感染之后被转移至植物，并整合进植物细胞的基因组。

为对植物进行农杆菌介导的转化，可将本发明的DNA构建体与合适的T-DNA侧翼区域组合，并将其引入常规的根癌农杆菌宿主载体。当细胞被细菌感染时，根癌农杆菌宿主的毒力功能将引导转基因和邻近的标记基因(如果有的话)插入进植物细胞DNA中。根癌农杆菌介导的转化技术被充分地描述于科学文献中。见例如，Horsch等人(1984)Science 233：496-498，Fraley等人(1983)Proc Natl Acad Sci USA80：4803-4807，Hooykaas(1989)Plant Mol Biol 13：327-336，Horsch RB(1986)Proc Natl Acad Sci USA 83(8)：2571-2575)，Bevans等人(1983)Nature 304：184-187，Bechtold等人(1993)Comptes Rendus DeL’Academie Des Sciences Serie III-Sciences De La Vie-Life Sciences316：1194-1199，Valvekens等人(1988)Proc Natl Acad Sci USA85：5536-5540。

本发明的DNA构建体优选整合进特定质粒载体，或者整合进穿梭载体或者中间载体，或整合进二元载体。如果例如将用Ti或Ri质粒进行转化的话，将Ti或Ri质粒T-DNA的至少右边界(但在大多数情况下是右边界和左边界)作为侧翼区域与待引入表达盒相连。二元载体是优选使用的。二元载体在大肠杆菌和农杆菌二者中均能复制。一般来说，它们含有选择标记基因和接头或多聚接头(侧翼有右或左T-DNA侧翼序列)。它们可直接转化进农杆菌(Holsters等人(1978)Mol Gen Genet163：181-187)。选择标记基因允许选择经转化的农杆菌，其例如是赋予卡那霉素抗性的nptII基因。在该情况下作为宿主生物发挥作用的农杆菌应当已经含有具有vir区域的质粒。后者是将T-DNA转移进植物细胞所需要的。由此转化的农杆菌可用于转化植物细胞。

很多根癌农杆菌菌株能转移遗传材料(例如根据本发明的DNA构建体)，例如，菌株HA101(pEHA101)(Hood EE等人(1996)J Bacteriol168(3)：1291-1301)、EHA105(pEHA105)(Hood等人1993，TransgenicResearch 2，208-218)、LBA4404(pAL4404)(Hoekema等人(1983)Nature 303：179-181)、C58C1(pMP90)(Koncz和Schell(1986)Mol GenGenet 204，383-396)和C58C1(pGV2260)(De-blaere等人(1985)NuclAcids Res.13，4777-4788)。

除了包含其卸甲Ti质粒之外，用于转化的农杆菌菌株还包含具有待转移的T-DNA的二元质粒，其原则上包含用于选择经转化的细胞的基因和待被转移的基因。两个基因都必须装备有转录和翻译起始及终止信号。二元质粒可转移进农杆菌菌株，例如通过电穿孔或其它转化方法来进行(Mozo & Hooykaas(1991)Plant Mol Biol 16：917-918)。对植物外植体与农杆菌菌株的共培养通常进行两至三天。

可使用多种载体。原则上，人们对这些载体进行辨别，哪些能用于农杆菌介导的转化或农杆菌感染，即，哪些在T-DNA内包含本发明的DNA构建体，哪些确实允许T-DNA稳定整合进植物基因组。此外，不含边界序列的载体也可使用，可例如通过颗粒轰击将其转化进植物细胞，在所述植物细胞中它们可产生瞬时表达和稳定表达二者。

T-DNA用于转化植物细胞的用途已被广泛研究和描述过(EP-A1120516；Hoekema，In：The Binary Plant Vector System，Offset-drukkerij Kanters B.V.，Alblasserdam，Chapter V；Fraley等人(1985)Crit Rev Plant Sci 4：1-45和An等人(1985)EMBO J 4：277-287)。多种二元载体是已知的，它们中一些可商业获得，例如pBIN19(ClontechLaboratories，Inc.美国)。

为将DNA转移至植物细胞，将植物外植体与根癌农杆菌或发根土壤杆菌共培养。可使用合适的培养基(其可含有例如用于选择经转化细胞的抗生素或生物杀灭剂)，从被感染的植物材料(例如叶、根或茎的切片，也包括原生质体或植物细胞的悬浮液)开始，再生完整的植物。然后可针对引入的DNA(该情况下，是根据本发明的DNA构建体)的存在，对获得的植物加以筛选。一旦DNA已被整合进宿主基因组，目的基因型一般来说就是稳定的，目的插入物也被发现于随后的世代中。一般来说，整合的表达盒含有选择标记，其向经转化的植物赋予对生物杀灭剂(例如除草剂)或抗生素(例如卡那霉素、G418、博来霉素、潮霉素或膦丝菌素等等)的抗性。选择标记允许选择经转化的细胞(McCormick等人，Plant Cell Reports 5(1986)，81-84)。获得的植物可以以惯常方式被培养和杂交。为确保基因组整合稳定且可传承，应当生长两个或多个世代。

上述方法被描述于例如B.Jenes等人，Techniques for GeneTransfer，于：Transgenic Plants，Vol.1，Engineering and Utilization，由SD Kung和R Wu编辑，Academic Press(1993)，128-143，以及于Potrykus(1991)Annu Rev Plant Physiol Plant Molec Biol 42：205-225中。待表达的构建体优选被克隆进适于对根癌农杆菌进行转化的载体，例如pBin19(Bevan等人(1984)Nucl Acids Res 12：8711)。

本发明的DNA构建体可被用于向基本上任何植物赋予想要的性状。技术人员将认知到，DNA构建体稳定整合入转基因植物并且被确认是可操纵的之后，就可通过有性杂交被引入其它植物。可使用大量标准育种技术中的任何技术，这取决于待被杂交的物种。

备选地，核酸酶和嵌合内切核酸酶可瞬时表达。嵌合内切核酸酶可作为递送进靶细胞的DNA或RNA瞬时表达，和/或可作为蛋白质被递送。作为蛋白质递送可在细胞穿透肽的帮助下实现，或者可通过与融合至核酸酶或嵌合内切核酸酶的SEciV信号肽的融合来实现，所述信号肽介导了从递送生物至靶生物细胞的分泌，例如，从发根土壤杆菌或根癌农杆菌分泌进植物细胞。

转基因植物的再生

如果可选择标记是引入的DNA的一部分的话，可将经转化的细胞(即，包含整合进宿主细胞的DNA的DNA的那些)与未经转化的细胞选择分开。标记可以是例如能赋予对抗生素或除草剂的抗性的任何基因(例如见上文所述)。表达此类标记基因的经转化细胞能在存在浓度将杀死未经转化的野生型的合适抗生素或除草剂的情况下存活。一旦经转化的植物细胞产生后，即可使用技术人员已知的方法来获得完整的植物。例如，愈伤组织被用作为起始材料。可以以已知的方式，在此尚未经分化的细胞生物量中诱导苗和根的形成。获得的苗可被种植和培养。

通过上述任何转化技术获得的经转化的植物细胞可被培养，以再生具有经转化的基因型以及由此具有想要的表型的整株植物。此类再生技术依赖于对组织培养物生长培养基中某些植物激素的操纵，一般地，依赖于已与想要的核苷酸序列一起被引入的生物杀灭剂和/或除草剂标记。来自培养的原生质体的植物再生描述于Evans等人，ProtoplastsIsolation and Culture，Handbook of Plant Cell Culture，pp.124176，Macmillian Publishing Company，New York(1983)以及Binding，Regeneration of Plants，Plant Protoplasts，pp.21-73，CRC Press，BocaRaton，(1985)中。还可从植物愈伤组织、外植体、体细胞胚(Dandekar等人(1989)J Tissue Cult Meth 12：145；McGranahan等人(1990)PlantCell Rep 8：512)、器官或其部分获得再生。此类再生技术被一般性地描述于Klee等人(1987)Ann Rev Plant Physiol 38：467-486中。

与其它重组增强技术的组合

在另一优选的实施方案中，通过与促进同源重组的系统组合来增加重组系统的效力。此类系统被描述过，它们包括，例如，诸如RecA等的蛋白的表达，或用PARP抑制剂进行处理。已经展示，可使用PARP抑制剂增加烟草植物中的染色体内同源重组(Puchta H等人(1995)Plant J.7：203-210)。使用这些抑制剂，诱导序列特异性DNA双链断裂之后重组盒中的同源重组速率以及由此对转基因序列加以缺失的效力，可被进一步增加。若干种PARP抑制剂可用于该目的。优选包括抑制剂例如，3-氨基苯甲酰胺、8-羟基-2-甲基喹唑啉(methylquinazolin)-4-酮(NU1025)、1，11b-二氢-(2H)苯并吡喃(4，3，2-de)异喹啉-3-酮(GPI6150)、5-氨基异喹啉酮、3，4--二氢-5-(4-(1-哌啶基)丁氧基)-1(2H)-异喹啉酮或WO00/26192、WO00/29384、WO00/32579、WO00/64878、WO00/68206、WO00/67734、WO01/23386和WO01/23390中描述的化合物。

此外，可通过表达大肠杆菌RecA基因增加植物中多种同源重组反应的频率(Reiss B等人(1996)Proc Natl Acad Sci USA93(7)：3094-3098)。此外，蛋白质的存在使得同源和异常DSB修复之间的比例倾向于同源修复(Reiss B等人(2000)Proc Natl Acad Sci USA97(7)：3358-3363)。还可参照WO 97/08331中描述的方法，用于增加植物中的同源重组。也可通过RecA基因或增加同源重组效力的其它基因的同时表达，实现重组系统效力的进一步增加(Shalev G等人(1999)ProcNatl Acad Sci USA 96(13)：7398-402)。上述用于促进同源重组的系统还可有利地用于重组构建体将被以定点方式通过同源重组引入真核生物基因组的情况下。

提供嵌合内切核酸酶的方法：

本发明提供了提供上文所述的嵌合内切核酸酶的方法。

所述方法包括下述步骤：

a.提供至少一个内切核酸酶编码区域，

b.提供至少一个异源DNA结合结构域编码区域，

c.提供具有步骤a)的一个或多个内切核酸酶的一个或多个可能的DNA识别序列并且具有步骤b)的一个或多个异源DNA结合结构域的一个或多个可能的识别序列的多核苷酸，

d.制造步骤b)的所有内切核酸酶的编码区域和步骤c)的所有异源DNA结合结构域的翻译融合体，

e.从来自步骤d)制造的翻译融合体表达嵌合内切核酸酶，

f.针对对步骤c)的多核苷酸的切割，测试步骤e)中表达的嵌合内切核酸酶。

取决于想要的目的，方法步骤a)、b)、c)和d)可以以变动的顺序来使用。例如，所述方法可用于提供至少一个内切核酸酶和至少一个异源DNA结合结构域的特定组合，以及之后提供下述多核苷酸，所述多核苷酸包含反映出至少一个核酸酶和至少一个异源DNA结合位点在翻译融合体中排列的顺序的可能的DNA识别位点和可能的识别位点，并且针对在下述多核苷酸上的切割活性对嵌合内切核苷酸加以测试，所述多核苷酸具有针对嵌合内切核酸酶包含的核酸酶和异源DNA结合结构域的可能的DNA识别位点和可能的识别位点，以及选择被嵌合内切核酸酶切割的至少一个多核苷酸。

所述方法还可用于针对在预先选择的多核苷酸上的切割活性来设计嵌合内切核酸酶，这通过下述方式进行，首先提供具有特定序列的多核苷酸，之后选择至少一个内切核酸酶和至少一个异源DNA结合结构域，它们具有在所述多核苷酸的核苷酸序列中不重叠的可能的DNA识别位点和可能的识别位点，制造所述至少一个内切核酸酶和所述至少一个异源DNA结合结构域的翻译融合体，表达所述翻译融合体编码的嵌合内切核酸酶，以及测试嵌合内切核酸酶在预先选择的多核苷酸序列上的切割活性，以及选择具有此类切割活性的嵌合内切核酸酶。

该方法可用于设计具有增强的在特定多核苷酸上的切割活性的嵌合内切核酸酶，例如，如果多核苷酸包含核酸酶的DNA识别位点，将可能鉴定出异源DNA结合结构域的可能的识别位点，其可用于制造包含所述核酸酶和所述异源DNA结合结构域的嵌合内切核酸酶。

备选地，该方法还可用于制造下述嵌合内切核酸酶，所述嵌合内切核酸酶对包含异源DNA结合结构域的识别位点的特定多核苷酸具有切割活性。例如，当已知所述特定多核苷酸能被异源DNA结合结构域(例如特定转录因子或具有特定DNA结合活性的病原体的毒力因子，如Tal型效应子蛋白质或其重复单元，特别是黄单胞菌属(Xanthomonas)物种的Tal-III型效应子蛋白质)结合时，鉴定出下述内切核酸酶是可能的，所述内切核酸酶具有与鉴定的异源DNA结合结构域的识别位点接近但不重叠的可能的DNA识别位点。通过制造翻译融合体和表达包含鉴定的内切核酸酶和异源DNA结合结构域的嵌合内切核酸酶，将能就针对所述预先选择的多核苷酸的切割活性而对嵌合内切核酸酶加以测试。

可通过搜索包含内切核酸酶的DNA识别位点和DNA结合蛋白(例如转录因子或毒力因子)的识别位点的数据库，来鉴定合适的内切核酸酶和异源DNA结合结构域。

此外，可突变内切核酸酶(例如I-SceI、I-CreI、I-DmoI或I-MsoI)的氨基酸序列，以制造新的结合活性和DNA切割活性。类似的技术是可得到的，以制造包含锌指的蛋白质或黄单胞菌属物种的Tal-III型效应子蛋白质的毒力因子的新结合活性，其可以被用作为异源DNA结合结构域。通过制造包含内切核酸酶(例如I-SceI、I-CreI、I-DmoI或I-MsoI)和异源DNA结合结构域的嵌合内切核酸酶，所述异源DNA结合结构域来源于或包含锌指蛋白质或黄单胞菌属物种的Tal-III型效应子蛋白质，结合使其DNA结合活性适合预选择的多肽的序列的突变技术，可制造将结合和切割此类预先选择的多肽的嵌合内切核酸酶。

因此，本发明的一个实施方案包含嵌合内切核酸酶，所述嵌合内切核酸酶包含

a)选自I-SceI，I-CreI，I-DmoI或I-MsoI或者具有至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性的I-SceI，I-CreI，I-DmoI或I-MsoI的同系物的至少一种内切核酸酶，和

b)异源DNA结合结构域，其包含至少一个锌指蛋白质或包含黄单胞菌属物种的至少一个Tal-III型效应子蛋白质或者包含至少一个锌指蛋白质和包含黄单胞菌属物种的至少一个Tal-III型效应子蛋白质或者包含具有至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性的锌指蛋白质或黄单胞菌属物种的Tal-III型效应子蛋白质的至少一个同系物。

可以通过本领域已知的体外和体内技术，测试内切核酸酶和嵌合内切核酸酶的切割活性，以及内切核酸酶、异源DNA结合结构域和嵌合内切核酸酶的DNA结合活性。

使用嵌合内切核酸酶进行同源重组和靶向突变的方法

本发明提供了用于多核苷酸的同源重组的方法，所述方法包含：

a.提供同源重组的感受态细胞，

b.提供包含侧翼有序列A和序列B的重组多核苷酸的多核苷酸，

c.提供包含序列A’和B’的多核苷酸，序列A’和B’足够长并且与序列A和序列B足够同源，从而允许在所述细胞中同源重组，以及

d.提供嵌合内切核酸酶或编码嵌合内切核酸酶的表达盒，

e.在所述细胞中组合b)、c)和d)，以及

f.检测b)和c)的重组多核苷酸，或选择出包含b)和c)的重组多核苷酸的细胞或使包含b)和c)的重组多核苷酸的细胞生长。

在本发明的一个实施方案中，步骤b)中提供的多核苷酸包含至少一个嵌合识别位点，优选地，选自SEQ ID NO：14、15、16、17、18、19或20所述的序列的嵌合识别位点。

在本发明的一个实施方案中，步骤c)中提供的多核苷酸包含至少一个嵌合识别位点，优选地，所述嵌合识别位点选自SEQ ID NO：14、15、16、17、18、19或20所述的序列。

在本发明的一个实施方案中，步骤b)中提供的多核苷酸和步骤c)中提供的多核苷酸包含至少一个嵌合识别位点，优选地，所述嵌合识别位点选自SEQ ID NO：14、15、16、17、18、19或20所述的序列。

在本发明的一个实施方案中，步骤e)导致步骤c)中提供的多核苷酸中包含的多核苷酸的缺失。

在本发明的一个实施方案中，步骤c)中提供的多核苷酸中包含的缺失的多核苷酸编码标记基因或标记基因的部分。

在本发明的一个实施方案中，步骤b)中提供的多核苷酸包含至少一个表达盒。

在本发明的一个实施方案中，步骤b)中提供的多核苷酸包含至少一个表达盒。导致选择标记基因或报道基因的表达。

在本发明的一个实施方案中，步骤b)中提供的多核苷酸包含至少一个表达盒。导致选择标记基因或报道基因的表达，并且包含至少一个DNA识别位点或至少一个嵌合识别位点。

本发明的其他实施方法提供了对多核苷酸进行靶向突变的方法，所述方法包括：

a.提供包含含有嵌合识别位点的多核苷酸的细胞，

b.提供嵌合内切核酸酶，例如包含下述内切核酸酶并能切割步骤a)的嵌合识别位点的嵌合内切核酸酶，所述内切核酸酶具有选自SEQ IDNO：2、3或5所述的序列的序列，

c.在所述细胞中组合a)和b)，以及

d.检测经突变的多核苷酸，或针对包含经突变的多核苷酸的生长细胞加以选择。

本发明在另一实施方案中提供了用于如上文所述的同源重组的方法或用于如上文所述的靶向突变多核苷酸的方法，所述方法包括：

通过生物的杂交、通过对细胞的转化或通过与嵌合内切核酸酶融合的SecIV肽，组合嵌合内切核酸酶和嵌合识别位点，以及将包含所述嵌合识别位点的细胞与下述生物接触，所述生物表达所述嵌合内切核酸酶并表达能识别与所述嵌合内切核酸酶融合的SecIV肽的SecIV运送复合体。

实施例

一般方法：

寡核苷酸的化学合成可例如以已知方式使用亚磷酰胺方法(Voet，Voet，第2版，Wiley Press New York，pages 896-897)实现。为本发明目的而进行的克隆步骤，例如，限制性切割、琼脂糖凝胶电泳、DNA片段纯化、将核酸转移至硝酸纤维素和尼龙膜、DNA片段连接、转化大肠杆菌细胞、细菌培养、噬菌体增殖和对重组DNA的序列分析，按照Sambrook等人(1989)Cold Spring Harbor Laboratory Press；ISBN0-87969-309-6所述来进行。使用ALF表达激光荧光DNA测序仪(ALFExpress laser fluorescence DNA sequencer)(Pharmacia，Upsala[sic]，瑞典)，按照Sanger的方法(Sanger等人，Proc.Natl.Acad.Sci.USA 74(1977)，5463-5467)对重组DNA分子加以测序。

实施例1：用于在大肠杆菌中表达的具有序列特异性DNA内切核酸酶表达盒的构建体

实施例1a：基础构建体

在本实施例中，我们展示了被命名为“构建体I”的载体的大致概况(general outline)，其适用于大肠杆菌中的转化。该载体的这种大致概况包含用于选择的氨苄青霉素抗性基因、用于大肠杆菌的复制起点和基因araC(其编码阿拉伯糖可诱导的转录调控因子)。可从阿拉伯糖可诱导的pBAD启动子表达编码序列特异性DNA内切核酸酶的不同版本的不同基因(Guzman等人，J Bacteriol 177：4121-4130(1995))。编码不同核酸酶版本的基因序列于下述实施例中给出。

其中编码I-SceI的序列(SEQ ID NO：22)的对照构建体称为VC-SAH40-4。

实施例1b：scTet-I-SceI融合构建体

在JOURNAL OF BACTERIOLOGY 150(2)，633-642(1982)中，Beck等人描述了TetR蛋白质。TetR以二聚体发挥作用，而单链变体(scTetR)由Krueger等人详述于NUCLEIC ACIDS RESEARCH 31(12)，3050-3056(2003)中。scTetR编码序列与I-SceI序列融合，其中以单个赖氨酸作为短接头。以使得得到的融合蛋白识别相关(cognate)结合位点(代表I-SceI和TetR的结合位点的组合)的方式来设计接头。TetR是转录阻抑物，其在不存在诱导物的情况下与DNA结合。在存在四环素的情况下，其从识别序列中被取代出来。这提供了以相同的方式调节融合蛋白的活性或DNA结合亲和力的可能。得到的质粒被称为VC-SAH54-4。构建体的序列与构建体I的序列相同，而编码核酸酶的基因被SEQ ID NO：23所述的序列替代。

产生相似的构建体，除后者之外，其含有NLS序列。得到的质粒被称为VC-SAH53-10。构建体的序列与构建体I的序列相同，而编码核酸酶的基因被SEQ ID NO：24所述的序列替代。

实施例1c：scArc-I-SceI融合构建体

在J Mol Biol 185(2)，445-6(1985)中，Jordan等人描述了沙门氏菌属噬菌体P22Arc的Arc阻抑物的结晶(cristallization)。其以二聚体发挥作用，但在Biochemistry 35(1)，109-16(1996)中由Robinsons等人描述了单链变体(scArc)。使用包含NLS的接头将该单链变体的编码序列与I-SceI融合。以使得得到的融合蛋白识别相关结合位点(代表I-SceI和Arc的结合位点的组合)的方式来设计具有氨基酸序列：RSGGGSGGGTGGGSGGGAPKKKRKVLE(SEQ ID NO：151)的接头。得到的质粒被称为VC-SAH28-5。构建体的序列与构建体I的序列相同，而编码基因由SEQ ID NO：25描述。还产生了具有较短接头的融合体，所述接头在scArc和I-Scel之间并具有氨基酸序列：RSAPKKKRKVLE(SEQ ID NO：152)，其仍包含NLS。得到的质粒被称为VC-SAH46-4。构建体的序列与构建体I的序列相同，而编码基因由SEQ ID NO：26描述。

实施例2：具有用于监测大肠杆菌中的I-SceI活性的核酸酶识别序列/靶位点的构建体

实施例2a：基础构建体

在本实施例中，我们展示了被命名为“构建体II”的载体的大致概况，其适用于大肠杆菌中的转化。该载体的这种大致概况包含用于选择的卡那霉素抗性基因、用于大肠杆菌的复制起点(其与构建体I的ori相容)。SEQ ID NO：27显示了序列片段“NNNNNNNNNN”。这表示针对序列特异性DNA内切核酸酶的不同版本和蛋白融合体的不同识别/靶位点的占位符。其中占位符被包含I-SceI的天然靶序列(SEQ ID NO：28)的序列片段所替代的对照构建体被称为VC-SAH6-1。没有靶位点的对照质粒被称为VC-SAH7-1(SEQ ID NO 29)。

下述实施例中给出了不同的组合靶位点。

实施例2b：I-SceI识别序列和scTet结合序列的组合靶位点

产生了由核酸酶I-SceI和TetR的靶位点构成的组合靶位点。产生了不同的组合靶位点，它们具有变动的单个位点间距离。目标是鉴定出被相关I-SceI融合蛋白最佳识别的一个。得到的质粒被称为VC-SAH60-5、VC-SAH61-1、VC-SAH62-1。构建体的序列与构建体II的序列相同，序列“NNNNNNNNNN”分别被SEQ ID NO：30、NO：31、NO：32所述的序列替代。

实施例2c：I-SceI识别序列和scArc结合序列的组合靶位点

在PNAS 96，811-817(1999)中，Schildbach等人描述了与其相关识别序列接触的Arc蛋白质。产生了由核酸酶I-SceI和Arc的靶位点构成的组合靶位点，它们具有变动的距离。目标是鉴定出被相关I-SceI融合蛋白最佳识别的一个。得到的质粒被称为VC-SAH132-1、VC-SAH133-8、VC-SAH134-1和VC-SAH135-1。这些质粒的序列与构建体III(SEQ ID NO：33)的序列相同，序列“NNNNNNNNNN”分别被由SEQ ID NO：34、NO：35、NO：36、NO：37所述的不同版本的组合靶位点组成的序列替代。

实施例3：编码DNA内切核酸酶的构建体和具有核酸酶识别序列的构建体的共转化

按照制造商描述，在化学感受态大肠杆菌Topl0细胞中转化具有不同选择标记和相同浓度的两种质粒。将细胞涂布于具有用于选择的各抗生素的LB上，并使其于37℃生长过夜。

采用这种方法，具有序列特异性DNA内切核酸酶表达盒的构建体和具有核酸酶识别序列/靶位点的相关构建体被组合于相同转化子中，这允许对核酸酶活性加以监测。

实施例4：在大肠杆菌中证实内切核酸酶活性

使携带有两种质粒的组合的共转化子在具有氨苄青霉素和卡那霉素的LB中生长过夜，两种质粒之一编码核酸酶或核酸酶融合体(构建体I)，另一种具有相容的靶位点(构建体II)。将培养物以1∶100稀释，并使其生长至其达到OD₆₀₀＝0.5。通过添加阿拉伯糖，处理3-4小时，诱导从构建体I表达融合蛋白。pBAD启动子被描述为是剂量依赖型的(Guzman 1995)，因此，将培养物分为不同的小分试样，用浓度在0.2％至0.0002％之间变动的阿拉伯糖来诱导蛋白质表达。将5μl的每种小分试样涂布于补充有氨苄青霉素和卡那霉素的LB固体培养基上。将平板孵育于37℃过夜，以半定量方式分析细胞生长。活性核酸酶融合体确实切割了具有靶位点的构建体。这导致赋予卡那霉素抗性的构建体II或构建体III的丢失。因此，由于共转化体失去在含卡那霉素培养基上生长的能力，观察到融合蛋白的活性。

结果：

结果被简化并概括于表9中。++和+代表非常强的生长和强的生长，这指示表达的核酸酶对各靶位点没有活性或活性极低。-和--代表降低的生长或没有生长，其指示核酸酶对各靶位点的高活性或非常高的活性。

表9：I-SceI-scTet融合体：大肠杆菌生长检验指示了针对各靶位点的内切核酸酶活性(酶活性)。

实施例5：对拟南芥的转化

将拟南芥植物种植于土壤中直至其开花。使经目的构建体转化的根癌农杆菌(菌株C58C1[pMP90])生长于500mL液体YEB培养基(5g/L牛肉提取物、1g/L酵母提取物(Duehefa)、5g/L蛋白胨(Duchefa)、5g/L蔗糖(Duchefa)、0，49g/L MgSO₄(Merck))中，直至培养物达到OD₆₀₀ 0.8-1.0。通过离心(15分钟，5,000rpm)收获细菌细胞，将其重悬于500mL渗透溶液(5％蔗糖、0.05％SILWET L-77[由Lehleseeds，Cat.No.VIS-02]发给)中。将正开花的植物浸入农杆菌溶液中10-20秒。之后，将植物保持在黑暗中一天，然后保持于温室中直到可收获种子。通过将经表面灭菌的种子种植于分别补充有50mg/L卡那霉素(针对携带有nptII抗性标记基因的植物)和10mg/L膦丝菌素(Phosphinotricin)(针对携带有pat基因的植物)的生长培养基A(4.4g/LMS盐[Sigma-Aldrich]，0.5g/L MES[Duchefa]；8g/L植物琼脂[Duchefa])上来选择转基因种子。存活的植物被转移至土壤，并令其生长于温室中。

实施例6：具有针对拟南芥的序列特异性DNA内切核酸酶表达盒的构建体

实施例6a：基础构建体

在本实施例中，我们展示了被命名为“构建体IV”的二元载体的大致概况，其适用于植物转化。该二元载体的这种大致概况包含具有p-Mas1del100::cBAR::t-Ocs1盒的T-DNA，当整合进植物基因组中时，其使得能够在膦丝菌素上进行选择。SEQ ID NO：38显示了序列片段“NNNNNNNNNN”。这表示针对编码不同版本的序列特异性DNA内切核酸酶的占位符。下述实施例中给出了后者的序列。

实施例6b：scTet-I-SceI融合构建体

构建体IV的“NNNNNNNNNN”序列片段被编码不同版本的I-SceI-scTet融合体的基因分别替代。如实施例1c)中所述，将编码scTetR的序列用短接头融合于I-SceI。得到的质粒被称为VC-SAH140。构建体的序列与构建体IV的序列相同，而序列“NNNNNNNNNN”被实施例1中所述的序列替代。

产生了类似的构建体，除后者外，其还含有NLS序列。得到的质粒被称为VC-SAH139-20。构建体的序列与构建体I的序列相同，而序列“NNNNNNNNNN”被实施例1中所述的序列替代。

实施例6c：scArc-I-SceI融合构建体

构建体IV的“NNNNNNNNNN”序列片段被编码不同版本的I-SceI-scArc融合体的基因分别替代。如实施例1d)中所述，将编码scArc的序列与I-SceI融合。得到的质粒被称为VC-SAH89-10。构建体的序列与构建体IV的序列相同，而序列“NNNNNNNNNN”被实施例1d)中所述的序列替代。产生了在scArc和I-SceI之间具有短接头的另一融合体，其还包含NLS。得到的质粒被称为VC-SAH90。构建体的序列与构建体IV的序列相同，而序列“NNNNNNNNNN”被SEQ ID NO：26所述的序列替代。

实施例7：具有用于监测在拟南芥中核酸酶活性的核酸酶识别序列/靶位点的构建体

实施例7a：基础构建体

在本实施例中，我们展示了被命名为“构建体V”的二元载体的大致概况，其适用于在拟南芥中的转化。该二元载体的这种大致概况包含具有nos-启动子::nptII::nos-终止子(nos-promoter::nptII::nos-terminator)盒的T-DNA，当整合进植物基因组中时，其赋予卡那霉素抗性。

T-DNA还包含部分uidA(GUS)基因(称为“GU”)和另外的部分uidA基因(称为“US”)。SEQ ID NO：39显示了在GU和US之间的序列片段“NNNNNNNNNN”。这表示针对序列特异性DNA内切核酸酶的不同版本和蛋白融合体的不同识别/靶位点的占位符。下述实施例中给出了不同靶位点的序列。

如果识别序列被各核酸酶切割，则作为染色体内同源重组(ICHR)的结果，部分重叠且无功能的GUS基因的半边们(GU和US)将被恢复。这可通过组织化学GUS染色来监测(Jefferson 1985)。

实施例7b：核酸酶识别序列和scTet结合序列的组合靶位点

产生了由核酸酶I-SceI和TetR的靶位点组成的组合靶位点。产生了不同的组合靶位点，它们具有变动的单位点间距离。目标是鉴定出被相关I-SceI融合蛋白最佳识别的一个。得到的质粒被称为VC-SAH113、VC-SAH114、VC-SAH115。构建体的序列与构建体II的序列相同，而序列“NNNNNNNNNN”分别被SEQ ID NO：40、NO：41、NO：42所述的序列替代。

实施例7c：核酸酶识别序列和scArc结合序列的组合靶位点

产生了由核酸酶I-SceI和Arc的靶位点组成的组合靶位点。产生了不同的组合靶位点，它们具有变动的单位点间距离。目标是鉴定出被相关I-SceI融合蛋白最佳识别的一个。得到的质粒被称为VC-SAH16-4、VC-SAH17-8、VC-SAH18-7、VC-SAH19-15。构建体的序列与构建体V的序列相同，而序列“NNNNNNNNNN”分别被SEQ ID NO：43、NO：44、NO：45、NO：46所述的序列替代。

实施例8：将序列特异性DNA内切核酸酶编码构建体转化进拟南芥

按照实施例5中描述的方法，将质粒VC-SAH87-4、VC-SAH140、VC-SAH139-20、VC-SAH89-10、VC-SAH90转化进拟南芥。在温室中令选出的转基因株系(T1代)生长，用一些花进行杂交(见下文)。

实施例9：将具有用于监测重组的组合靶位点的构建体转化进拟南芥

按照实施例5中描述的方法，将质粒VC-SAH111、VC-SAH112、VC-SAH113、VC-SAH114、VC-SAH115、VC-SAH16-4、VC-SAH17-8、VC-SAH18-7和VC-SAH19-15转化进拟南芥。在温室中令选出的转基因株系(T1代)生长，用一些花进行杂交(见实施例10)。

实施例10：监测核酸酶融合体在拟南芥中的活性

将具有编码序列特异性DNA内切核酸酶的T-DNA的拟南芥转基因株系与具有携带GU-US报道构建体(具有相应的组合靶位点)的T-DNA的拟南芥株系杂交。作为靶位点上的I-SceI活性的结果，功能性GUS基因将通过同源染色体内重组(ICHR)得以恢复。这可通过组织化学GUS染色来监测(Jefferson等人(1987)EMBO J 6：3901-3907)。

为视觉观察scTet融合体的I-SceI活性，将具有核酸酶编码构建体VC-SAH139-20和VC-SAH140的T-DNA的拟南芥转基因株系与具有含靶位点的构建体VC-SAH113、VC-SAH114、VC-SAH115的T-DNA的拟南芥株系杂交。

为视觉观察scArc融合体的I-SceI活性，将具有核酸酶编码构建体VC-SAH89-10、VC-SAH90的T-DNA的拟南芥转基因株系与具有含靶位点的构建体VC-SAH16-4、VC-SAH17-8、VC-SAH18-7、VC-SAH19-15的T-DNA的拟南芥株系杂交。

收获杂交的F1种子。对种子进行表面灭菌，并令其生长于补充有各抗生素和/或除草剂的培养基A上。收获叶，用其进行组织化学GUS染色。显示出蓝色染色的植物的百分比是ICHR频率的指标，并且由此是I-SceI活性的指标。

通过比较这些杂交的ICHR事件数，来测定不同融合蛋白的活性。I-SceI融合体针对天然核酸酶的特异性的增加可通过将这些结果与对照杂交比较来观察到。就此，将具有编码不同I-SceI融合体的构建体的T-DNA的所有拟南芥转基因株系与具有携带天然I-SceI靶位点的构建体(VC-SAH743-4)的T-DNA的拟南芥株系杂交。

针对完全蓝色的幼苗，分析这些植物的下一世代。

Claims

1.嵌合内切核酸酶，其包含至少一个具有DNA双链断裂诱导活性的内切核酸酶和至少一个异源DNA结合结构域。

2.权利要求1所述的嵌合内切核酸酶，其中至少I-SceI、I-CreI、I-CeuI、I-ChuI、I-DmoI、PI-SceI、I-MsoI或I-AniI或者与这些的任意之一具有至少45%氨基酸序列同一性的LAGLIDADG内切核酸酶。

3.权利要求1或2所述的嵌合内切核酸酶，其中LAGLIDADG内切核酸酶与SEQ ID NO:1、2、3或159所述的多肽具有至少80%的氨基酸序列同一性。

4.权利要求1至3中任意一项所述的嵌合内切核酸酶，其包含来源于转录因子或失活的核酸酶或包含转录因子或核酸酶的DNA结合结构域的片段的异源DNA结合结构域。

5.权利要求1至4中任意一项所述的嵌合内切核酸酶，其中至少一个异源DNA结合结构域是失活的I-SceI、I-CreI、I-CeuI、I-ChuI、I-DmoI、PI-SceI、I-MsoI或I-AniI或者那些与I-SceI、I-CreI、I-CeuI、I-ChuI、I-DmoI、PI-SceI、I-MsoI或I-AniI具有至少45%氨基酸序列同一性的失活同系物。

6.权利要求1至5中任意一项所述的嵌合内切核酸酶，其中所述嵌合内切核酸酶包含经工程化的内切核酸酶或经优化的内切核酸酶或经工程化的优化的内切核酸酶。

7.权利要求1至6中任意一项所述的嵌合内切核酸酶，其中至少一个异源DNA结合结构域是转录因子或包含HTH结构域的转录因子的DNA结合结构域。

8.权利要求1至6中任意一项所述的嵌合内切核酸酶，其中至少一个转录因子或转录因子的DNA结合结构域包含HTH结构域，所述HTH结构域包含与SEQ ID NO:91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118或119所述的，优选地91、92、93、94、95、112、113、114、115、116、117、118或119所述的至少一种氨基酸序列至少80%序列同一性的氨基酸序列。

9.权利要求1至7中任意一项所述的嵌合内切核酸酶，其中所述异源DNA结合结构域包含与SEQ ID NO:6或7所述的多肽具有至少80%氨基酸序列同一性的多肽。

10.权利要求1至8中任意一项所述的嵌合内切核酸酶，其中所述具有DNA双链断裂诱导活性的内切核酸酶与所述异源DNA结合结构域是通过接头肽连接的。

11.权利要求1至9中任意一项所述的嵌合内切核酸酶，其中所述异源DNA结合结构域的DNA结合活性是可诱导的。

12.权利要求1至9中任意一项所述的嵌合内切核酸酶，其中所述异源DNA结合结构域的DNA结合活性是通过选自下述的至少一种机制诱导，

a.诱导物分子的结合，

b.DNA结合结构域的第二单体的结合

c.磷酸化或去磷酸化，

d.升高温度或降低温度。

13.权利要求1至11中任意一项所述的嵌合内切核酸酶，其中所述内切核酸酶的DNA双链断裂诱导活性是通过同型或异型二聚内切核酸酶的第二单体的表达来诱导。

14.权利要求1至12中任意一项所述的嵌合内切核酸酶，其包含至少一个NLS序列或者一个或多个SecIII或SecIV分泌信号或者一个或多个NLS序列和一个或多个SecIII或SecIV分泌信号的组合或者一个或多个SecIII和SecIV分泌信号与一个或多个NLS序列的组合。

15.包含核苷酸序列的经分离的多核苷酸，所述核苷酸序列编码权利要求1至13中任意一项所述的嵌合内切核酸酶。

16.权利要求14所述的包含核苷酸序列的经分离的多核苷酸，其中所述经分离的多核苷酸序列

a.是经密码子优化的，

b.具有低含量的RNA不稳定性动机，

c.具有低含量的密码子重复，

d.具有低含量的隐蔽剪接位点，

e.具有低含量的备选起始密码子，

f.具有低含量的限制性位点，

g.具有低含量的RNA二级结构，

h.具有a）、b）、c）、d）、e）、f）或g）的任何组合。

17.表达盒，所述表达盒包含与启动子和终止子序列功能性组合的、权利要求14或15所述的经分离的多核苷酸。

18.包含嵌合识别序列的经分离的多核苷酸，所述嵌合识别序列长度为大约15至大约300个核苷酸，并且包含：

a.内切核酸酶的识别序列，以及

b.异源DNA结合结构域的识别序列。

19.权利要求17所述的包含嵌合识别序列的经分离的多核苷酸，其中所述内切核酸酶的识别序列是LAGLIDADG内切核酸酶的识别序列。

20.权利要求18或19中任意一项所述的包含嵌合识别序列的经分离的多核苷酸，包含

a.I-SceI的DNA识别序列，

b.scTet或scArc的识别序列和

c.连接I-SceI的DNA识别序列和scTet或scArc的识别序列的0至10个核苷酸的接头序列。

21.权利要求18至20中任意一项所述的包含嵌合识别序列的经分离的多核苷酸，包含SEQ ID NO:14、15、16、17、18、19或20中任一所述的多核苷酸序列。

22.载体、宿主细胞或非人生物，它们包含：

a.编码权利要求1至14中任一所述的嵌合内切核酸酶的多核苷酸，或

b.权利要求16所述的表达盒，或

c.权利要求17所述的表达盒，或

d.权利要求18至21中任意一项所述的包含嵌合识别序列的经分离的多核苷酸，或

e.a）、b）、c）和d）的任何组合。

23.权利要求21所述的非人生物，其中所述非人生物是植物。

24.提供嵌合内切核酸酶的方法，所述方法包括下述步骤：

a.提供至少一个内切核酸酶编码区域，

b.提供至少一个异源DNA结合结构域编码区域，

c.提供具有步骤a）的一个或多个内切核酸酶的一个或多个可能的DNA识别序列并且具有步骤b）的一个或多个异源DNA结合结构域的一个或多个可能的识别序列的多核苷酸，

d.制造步骤b）的所有内切核酸酶的编码区域和步骤c）的所有异源DNA结合结构域的翻译融合体，

e.从来自步骤d）制造的翻译融合体表达嵌合内切核酸酶，

f.针对对步骤c）的多核苷酸的切割，测试步骤e）中表达的嵌合内切核酸酶。

25.用于多核苷酸同源重组的方法，所述方法包括下述步骤：

a.提供同源重组的感受态细胞，

b.提供下述多核苷酸，所述多核苷酸包含侧翼有序列A和序列B的、如权利要求18至21中任意一项所述的经分离的多核苷酸，

c.提供包含序列A’和B’的多核苷酸，所述序列A’和B’足够长并且与序列A和序列B足够同源，从而允许在所述细胞中同源重组，以及

d.提供如权利要求1至14中任意一项所述的嵌合内切核酸酶或如权利要求17所述的表达盒，

e.在所述细胞中组合b）、c）的多核苷酸和d）的嵌合内切核酸酶，以及

f.检测b）和c）的重组多核苷酸，或选择出包含b）和c）的重组多核苷酸的细胞，和/或使包含b）和c）的重组多核苷酸的细胞生长。

26.如权利要求25所述的用于多核苷酸同源重组的方法，其中，同源重组之后，步骤a）的所述感受态细胞中包含的多核苷酸序列从步骤f）的生长细胞的基因组中缺失。

27.用于靶向突变多核苷酸的方法，所述方法包括：

a.提供包含含有嵌合识别位点或DNA识别位点的多核苷酸的细胞，

b.提供能切割步骤a）的所述嵌合识别位点或DNA识别位点的、如权利要求1至14中任意一项所述的嵌合内切核酸酶或权利要求17中所述的表达盒，

c.在所述细胞中组合a）的所述多核苷酸和b）的所述嵌合内切核酸酶，以及

d.检测经突变的多核苷酸，或针对包含经突变的多核苷酸的细胞加以选择或使包含经突变的多核苷酸的细胞生长。

28.如权利要求25至27中任意一项所述的用于同源重组或靶向突变的方法，其中所述嵌合内切核酸酶和所述嵌合识别位点通过生物的杂交、通过转化或通过经由融合至嵌合内切核酸酶的SecIII或SecIV肽介导的运送，组合于至少一个细胞中。