CN102686726B

CN102686726B - 嵌合内切核酸酶及其用途

Info

Publication number: CN102686726B
Application number: CN201080053667.8A
Authority: CN
Inventors: A·赫鲁贝克; C·比斯根; H·W·霍夫肯
Original assignee: BASF Plant Science Co GmbH
Current assignee: BASF Plant Science Co GmbH
Priority date: 2009-11-27
Filing date: 2010-11-26
Publication date: 2015-12-16
Anticipated expiration: 2030-11-26
Also published as: WO2011064750A1; CN105384827A; US20120284877A1; AU2010325563B2; CN102686726A; CA2781693A1; AU2010325563A1; CA2781693C; JP5922029B2; EP2504429A4; ZA201204698B; EP2504429B1; BR112012012747A2; US10316304B2; DE112010004583T5; JP2013511978A; EP2504429A1

Abstract

本发明涉及包含内切核酸酶和异源DNA结合结构域的嵌合内切核酸酶，所述异源DNA结合结构域包含一个或多个Zn₂C₆锌指，本发明还涉及使用此类嵌合内切核酸酶对多核苷酸进行靶向整合、靶向缺失或靶向突变的方法。

Description

嵌合内切核酸酶及其用途

发明领域

发明背景

基因组工程化（genomeengineering）是概括用于在基因组内插入、缺失、取代或操纵特定遗传序列的不同技术的通用术语，其具有大量的治疗应用和生物技术应用。所有基因组工程化技术或多或少都使用重组酶、整合酶或内切核酸酶，用于在预定位点制造DNA双链断裂，以促进同源重组。

尽管已利用了大量的方法来制造DNA双链断裂，开发在基因组中于高度特异性位点制造DNA双链断裂的有效方法仍是基因疗法、农业技术和合成生物学中的主要目标。

实现该目标的一种手段是使用对下述序列具有特异性的核酸酶，所述序列足够大到仅存在于基因组内的单个位点。识别此类大约15至30个核苷酸的大DNA序列的核酸酶因此被称为“大范围核酸酶”或“归巢（homing）内切核酸酶”，并常与寄生性（parasitic）DNA元件相关联，所述元件例如常发现于植物和真菌基因组中的组1自剪接内含子和内含肽。大范围核酸酶通常被分组为四个家族：LAGLIDADG家族、GIY-YIG家族、His-Cys盒家族和HNH家族。这些家族的特征在于影响催化活性和它们的DNA识别序列的序列的结构基序。

来自LAGLIDADG家族的天然大范围核酸酶已被用于在昆虫和哺乳动物细胞培养物以及很多生物（例如植物、酵母或小鼠）中有效促进位点特异性基因组修饰，但是该手段已局限于对DNA识别序列保守的同源基因的修饰或已向其中引入了识别序列的预工程化（preengineered）基因组的修饰。为避免此类局限以及为促进DNA双链断裂激发的基因修饰的系统性（systematic）执行，已经制造了新的核酸酶类型。

一种新核酸酶类型由人工组合的非特异性核酸酶和高度特异性DNA结合结构域构成。已使用FokI限制性酶的非特异性核酸酶结构域和经工程化的锌指DNA结合结构域之间的嵌合融合体，在多种生物中展现了该策略的有效性（例如WO03/089452）。该手段的一种变化是使用作为DNA结合结构域的大范围核酸酶的失活变体与非特异性核酸酶（例如FokI）融合的，例如Lippow等人，“CreationofatypeIISrestrictionendonucleasewithalongrecognitionsequence”,NucleicAcidResearch(2009),Vol.37,No.9,3061至3073页所公开的。

一种备选手段是对天然大范围核酸酶进行遗传工程化，以定制其与基因组中存在的位点结合的DNA结合区域，由此制造具有新特异性的经工程化的大范围核酸酶（例如WO07093918、WO2008/093249、WO09114321）。但是，已针对DNA切割特异性工程化过的很多大范围核酸酶相对于其所来源的天然存在的大范围核酸酶而言具有减少的切割活性（US2010/0071083）。大多数的大范围核酸酶还作用于与其最优结合位点相似的序列上，这可能导致非意图性的或者甚至有害的脱靶作用。尽管已采取了若干手段，以避免增强大范围核酸酶诱导的同源重组的效率，例如通过将核酸酶与大鼠糖皮质激素受体的配体结合结构域融合，以通过添加地塞米松或相似化合物促进或者甚至诱导该经修饰的核酸酶运送至细胞核以及由此运送至其靶向位点（WO2007/135022），但本领域仍需要开发具有对同源重组有高诱导效率和/或针对其结合位点有高特异性的大范围核酸酶，由此限制脱靶作用的风险。

发明简述

本发明提供了嵌合内切核酸酶，其包含至少一个LAGLIDADG内切核酸酶和至少一个包含一个或多个Zn₂C₆锌指的异源DNA结合结构域。优选地，嵌合内切核酸酶包含至少一个包含下述氨基酸序列的LAGLIDADG内切核酸酶，所述氨基酸序列与SEQIDNO:1、2、3、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、161或165中任一所描述的多肽具有至少80%的氨基酸序列同一性。优选地，与SEQIDNO:1、2或3所描述的多肽具有至少80%的氨基酸序列同一性。在一种优选的实施方式中，嵌合内切核酸酶包含至少一个下述LAGLIDADG内切核酸酶，其是经工程化的或经优化的内切核酸酶，或是经工程化的内切核酸酶的经优化版本，优选地，经优化的内切核酸酶或经工程化的内切核酸酶的经优化版本。在另一实施方式中，嵌合内切核酸酶包含下述异源DNA结合结构域，所述结构域包含源于转录因子的一个或多个Zn₂C₆锌指。在一种优选的实施方式中，嵌合内切核酸酶包含下述异源DNA结合结构域，所述结构域包含至少一个与SEQIDNOs:57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120或121中任一所描述的多肽具有至少80%氨基酸序列同一性的多肽。本文所述的嵌合内切核酸酶可包含或可不包含将至少一个内切核酸酶与至少一个异源DNA结合结构域相连的接头。优选地，所述接头（同义词“接头多肽”）由至少3个氨基酸构成，并且其中，该接头多肽的氨基酸序列中至少三分之一的氨基酸是甘氨酸或丝氨酸或丙氨酸或甘氨酸、丝氨酸和丙氨酸的组合。优选地，嵌合内切核酸酶包含至少一个NLS-序列和或SecIII或SecIV分泌信号。本发明的一种实施方式提供了嵌合内切核酸酶，其中异源DNA结合结构域的DNA结合活性是可诱导的，优选地是可通过二聚LAGLIDADG内切核酸酶或异源二聚LAGLIDADG内切核酸酶的第二单体的表达来诱导的。本发明还提供了经分离的多核苷酸，其包含编码本发明的嵌合内切核酸酶的核苷酸序列。优选地，经分离的多核苷酸是经密码子优化的，或具有低含量的DNA不稳定性动机（motives），或具有低含量的密码子重复，或具有低含量的隐蔽剪接位点，或具有低含量的备选起始密码子，具有低含量的限制性位点，或具有低含量的RNA二级结构，或具有这些特征的任何组合。本发明的另一实施方式是表达盒，所述表达盒包含与启动子和终止子序列功能性组合的、如上文所述的经分离的多核苷酸。

本发明的另一实施方式是经分离的多核苷酸，其包含长度为大约15至大约300个核苷酸的嵌合识别序列，并包含LAGLIDADG内切核酸酶的识别序列以及下述异源DNA结合结构域的识别序列，所述结构域包含一个或多个Zn₂C₆锌指。优选地，异源DNA结合结构域的识别序列可被包含SEQIDNOs:57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121中任一所描述的氨基酸序列的至少一种DNA结合结构域结合。

本发明还提供了包含嵌合识别序列的经分离的多核苷酸，优选地，所述嵌合识别序列包含在表达盒中，或者接近5’或3’末端，或者接近两个末端，其中，所述表达盒包含启动子、终止子和能被所述启动子表达的序列。优选地，能被表达的序列编码标记基因。

本发明还提供了下述嵌合识别序列，其包含直接相连或通过1至10个核苷酸的序列相连的，I-SceI的DNA识别序列和可被包含SEQIDNO:57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121中任一所描述的氨基酸序列的至少一个DNA结合结构域结合的识别序列。在一种实施方式中，嵌合识别序列包含直接相连或通过1至10个核苷酸的序列相连的，I-SceI的DNA识别序列和AlcR的识别序列、或AlcR(1-60)的识别序列。在本发明的一个实施方式中，经分离的多核苷酸包含嵌合识别序列，所述识别序列包含SEQIDNO:13、14、15、16、43、44、45或46中任一所描述的多核苷酸序列。

本发明的其它一些实施方式是下述载体、宿主细胞或非人生物，它们包含编码嵌合内切核酸酶的多核苷酸，或编码嵌合内切核酸酶的经分离的多核苷酸，或含有嵌合识别序列的经分离的多核苷酸，或含有编码嵌合内切核酸酶或嵌合识别序列的多核苷酸的表达盒，所述实施方式还是包含上述嵌合内切核酸酶、经分离的多核苷酸和表达盒的组合的载体、宿主细胞或非人生物。优选地，非人生物是植物。

本发明提供了使用本文所述的嵌合内切核酸酶和嵌合识别序列诱导或协助同源重组或末端联接事件的方法。优选地，在用于靶向整合或序列切除的方法中。优选地，被切除的序列是标记基因。

本发明的一种实施方式中提供嵌合内切核酸酶的方法，所述方法包括下述步骤：a）提供至少一个内切核酸酶编码区域，b）提供至少一个异源DNA结合结构域编码区域，c）提供具有步骤a）的一个或多个内切核酸酶的一个或多个可能的DNA识别序列并且具有步骤b）的一个或多个异源DNA结合结构域的一个或多个可能的识别序列的多核苷酸，d）制造步骤b）的所有内切核酸酶的编码区域和步骤c）的所有异源DNA结合结构域的翻译融合体，e）从来自步骤d）制造的翻译融合体表达嵌合内切核酸酶，f）针对对步骤c）的多核苷酸的切割，测试步骤e）中表达的嵌合内切核酸酶。

本发明还提供了用于多核苷酸同源重组的方法，所述方法包括下述步骤：a）提供同源重组的感受态细胞，b）提供包含侧翼有序列A和序列B的嵌合识别位点的多核苷酸，c）提供包含序列A’和B’的多核苷酸，序列A’和B’足够长并且与序列A和序列B足够同源，从而允许在所述细胞中同源重组，以及d）提供如本文所述的嵌合内切核酸酶或如本文所述的表达盒，e）在所述细胞中组合b）、c）和d），以及f）检测b）和c）的重组多核苷酸，或选择出包含b）和c）的重组多核苷酸的细胞或使包含b）和c）的重组多核苷酸的细胞生长。优选地，用于多核苷酸同源重组的方法导致同源重组，其中，步骤a）的感受态细胞中包含的多核苷酸序列从步骤f）的生长细胞的基因组中缺失。本发明的另一方法是用于靶向突变的方法，所述方法包括下述步骤：a）提供包含下述多核苷酸的细胞，所述多核苷酸包含嵌合内切核酸酶的嵌合识别位点，b）提供能切割步骤a）的嵌合识别位点的嵌合内切核酸酶，c）在所述细胞中组合a）和b），以及d）检测经突变的多核苷酸，或针对包含经突变的多核苷酸的生长细胞加以选择。在本发明的另一优选的实施方式中，上文所述的方法包括下述步骤，其中嵌合内切核酸酶和嵌合识别位点组合于至少一种细胞中，这通过生物的杂交、通过转化或通过经由融合至经优化内切核酸酶的SecIII或SecIV肽介导的运送来实现。

附图简述

图1描述了包含I-SceI作为N-端和AlcR的氨基酸1至60作为C-端结构域的嵌合核酸酶的模型。

图2是对本文所述的实施例10和20d的实验结果的图示。由此提供了对野生型I-SceI和三种不同的嵌合内切核酸酶变体用于在植物中诱导同源重组的能力的比较。诱导的同源重组的频率通过同源重组后显示出GUS活性的植物的百分比（%蓝色植物）表示。图2还包含了野生型I-SceI的DNA识别序列（被称为wt靶点）的多核苷酸序列以及嵌合内切核酸酶（I-SceI-AlcR(1-60)、I-SceI#2-AlcR(1-60)和I-SceI#1-AlcR(1-60)）的嵌合识别位点的多核苷酸序列。图2还提供了显示SceI的C-末端的氨基酸序列，其包含不同的突变，赖氨酸（L）被用作为接头，并且AlcR(1-60)原N-末端的前六个氨基酸被用于制造嵌合内切核酸酶。WtI-SceI原C-末端的不同突变将野生型氨基酸序列“TISSETFLK”改变为“TIKSEETFLK”（嵌合内切核酸酶I-SceI#1-AlcR(1-60)中）和“AIANQAFLK”（嵌合内切核酸酶I-SceI#2-AlcR(1-60)中）。

图3描述了对不同I-SceI同源物的序列比对，其中1是SEQIDNO:1，2是SEQIDNO:122，3是SEQIDNO:123，4是SEQIDNO:124，5是SEQIDNO:125。

图4描述了对不同I-CreI同源物的序列比对，其中1是SEQIDNO:126，2是SEQIDNO:127，3是SEQIDNO:128，4是SEQIDNO:129，5是SEQIDNO:130。

图5a至5c描述了对不同PI-SceI同源物的序列比对，其中1是SEQIDNO:145，2是SEQIDNO:146，3是SEQIDNO:147，4是SEQIDNO:148，5是SEQIDNO:149。

图6描述了对不同I-CeuI同源物的序列比对，其中1是SEQIDNO:131，2是SEQIDNO:132，3是SEQIDNO:133，4是SEQIDNO:134，5是SEQIDNO:135。

图7描述了对不同I-ChuI同源物的序列比对，其中1是SEQIDNO:136，2是SEQIDNO:137，3是SEQIDNO:138，4是SEQIDNO:139，5是SEQIDNO:140。

图8描述了对不同I-DmoI同源物的序列比对，其中1是SEQIDNO:141，2是SEQIDNO:142，3是SEQIDNO:143，4是SEQIDNO:144。

图9描述了对不同I-MsoI同源物的序列比对，其中1是SEQIDNO:150，并且2是SEQIDNO:151。

图10显示了对与AlcR的DNA结合结构域（AlcR1至60）同源的不同Zn₂C₆结构域的序列比对。共有序列显示了这些同源物中保守的氨基酸（AlcR1至60共有序列）。序列No.1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24和25分别指SEQIDNO:70、71、7274、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93和94。

图11显示了对与AflR的DNA结合结构域同源的不同Zn₂C₆结构域的序列比对。共有序列显示了这些同源物中保守的氨基酸（AflR共有序列）。序列No.1、2、3、4、5、6、7、8、9、10、11和12分别指SEQIDNO:57、58、59、60、61、62、63、64、65、66、67、68和69。

图12显示了对与Hap1的DNA结合结构域同源的不同Zn₂C₆结构域的序列比对。共有序列显示了这些同源物中保守的氨基酸（Hap1共有序列）。序列No.1、2、3、4、5、6、7、8、9、10、11、12和13分别指SEQIDNO:95、96、97、98、99、100、101、102、103、104、105、106和107。

图13显示了对与Leu3的DNA结合结构域同源的不同Zn₂C₆结构域的序列比对。共有序列显示了这些同源物中保守的氨基酸（Leu3共有序列）。序列No.1、2、3、4、5、6、7、8、9、10、11、12、13和14分别指SEQIDNO:108、109、110、111、112、113、114、115、116、117、118、119、120和121。

发明详述

本发明提供了嵌合LAGLIDADG内切核酸酶，其包含至少一个LAGLIDADG内切核酸酶和至少一个包含一个或多个Zn₂C₆锌指的异源DNA结合结构域。

LAGLIDADG内切核酸酶

可用于本发明的LAGLIDADG内切核酸酶可在藻类、真菌、酵母、原生动物、叶绿体、线粒体、细菌和古细菌的基因组中发现。LAGLIDADG内切核酸酶包含至少一个保守的LAGLIDADG基序。LAGLIDADG基序的名称基于出现于所有LAGLIDADG内切核酸酶中的特征性氨基酸序列。术语LAGLIDADG是该氨基酸序列根据STANDARDST.25（即，PCIPI执行协调委员会（PCIPIExecutiveCoordinationCommittee）针对专利申请中呈现的核苷酸和氨基酸序列表所采用的标准）中所述的单字母编码的首字母缩写。

但是，LAGLIDADG基序并非在所有LAGLIDADG内切核酸酶中完全保守（见例如Chevalier等人(2001),NucleicAcidsRes.29(18):3757至3774，或Dalgaard等人(1997),NucleicAcidsRes.25(22):4626至4638），从而一些LAGLIDADG内切核酸酶在它们的LAGLIDADG基序中包含一个或数个氨基酸改变。包含仅一个LAGLIDADG基序的LAGLIDADG内切核酸酶通常作为同源或异源二聚体发挥作用。包含两个LAGLIDADG基序的LAGLIDADG内切核酸酶作为单体发挥作用，并且通常包含伪二聚体结构。

LAGLIDADG内切核酸酶可分离自表1至6中以示例性目的提到的生物的多核苷酸，或通过本领域已知的技术从头合成，例如使用本领域技术人员已知的公众数据库中可获得的序列信息来进行，所述数据库例如Genbank(Benson(2010)),NucleicAcidsRes38:D46-51或Swissprot(Boeckmann(2003),NucleicAcidsRes31:365-70)。

可在针对蛋白质家族的PFAM-数据库中发现LAGLIDADG内切核酸酶的集合。PFAM-数据库检录号PF00961描述了LAGLIDADG1蛋白质家族，其包含约800条蛋白序列。PFAM-数据库检录号PF03161描述了LAGLIDADG2蛋白质家族的成员，其包含约150条蛋白序列。可在InterPro数据库中找到LAGLIDADG内切核酸酶的一个备选集合，例如，InterPro检录号IPR004860。

术语LAGLIDADG内切核酸酶还将包括人工同源二聚和异源二聚LAGLIDADG内切核酸酶，其可通过修饰单体的蛋白质-蛋白质相互作用区域以促进同源或异源二聚体形成来制造。包含LAGLIDADG内切蛋白酶I-DmoI作为一个结构域的人工异源二聚LAGLIDADG内切核酸酶的例子可被发现于例如WO2009/074842和WO2009/074873中。

除此之外，术语LAGLIDADG内切核酸酶还将包括人工单链内切核酸酶，其可通过产生同源二聚或异源二聚LAGLIDADG内切核酸酶的单体的翻译融合体来制造。

在另一些实施方式中，嵌合内切核酸酶中包含的LAGLIDADG内切核酸酶可以是单体、同源二聚、人工同源二聚或异源二聚或人工单链LAGLIDADG内切核酸酶。

在一种实施方式中，LAGLIDADG内切核酸酶是单体、同源二聚、异源二聚或人工单链LAGLIDADG内切核酸酶。优选地，内切核酸酶是单体或人工单链LAGLIDADG内切核酸酶。

优选的LAGLIDADG内切核酸酶是:I-Anil，I-SceI，I-ChuI，I-DmoI，I-CreI，I-CsmI，PI-SceI，PI-TliI，PI-MtuI，I-CeuI，I-SceII，I-SceIII，HO，PI-CivI，PICtrI，PI-AaeI，PI-BsuI，PI-DhaI，PI-DraI，PI-MavI，PI-MchI，PI-MfuI，PI-MflI，PI-MgaI，PI-MgoI，PI-MinI，PI-MkaI，PI-MleI，PI-MmaI，PI-MshI，PI-MsmI，I-MsoI，PI-MthI，PI-MtuI，PI-MxeI，PI-NpuI，PI-PfuI，PI-RmaI，PI-SpbI，PI-SspI，PI-FacI，PI-MjaI，PI-PhoI，PI-TagI，PI-ThyI，PI-TkoI，和PI-TspI及它们中任一的在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物；更优选的是：I-SceI、I-ChuI、I-DmoI、l-CreI、I-CsmI、PI-PfuI、PI-SceI、PI-TliI、I-MsoI、PI-MtuI、I-CeuI、I-SceII、I-SceIII和HO及它们中任一的在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物；进一步更优选的是，I-SceI、I-ChuI、I-DmoI、I-CreI、I-CsmI、PI-SceI、PI-PfuI、PI-TliI、I-MsoI、PI-MtuI和I-CeuI及它们中任一的在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物；

还更优选的是I-DmoI、I-CreI、I-SceI、I-MsoI和I-ChuI及它们中任一的在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物；最优选的是I-SceI及I-SceI的在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物。

优选的单体LAGLIDADG内切核酸酶是：I-Anil，I-SceI，I-ChuI，I-DmoI，I-CsmI，PI-SceI，PI-TliI，PI-MtuI，I-SceII，I-SceIII，HO，PI-CivI，PICtrI，PI-AaeI，PI-BsuI，PI-DhaI，PI-DraI，PI-MavI，PI-MchI，PI-MfuI，PI-MflI，PI-MgaI，PI-MgoI，PI-MinI，PI-MkaI，PI-MleI，PI-MmaI，PI-MshI，PI-MsmI，PI-MthI，PI-MtuI，PI-MxeI，PI-NpuI，PI-PfuI，PI-RmaI，PI-SpbI，PI-SspI，PI-FacI，PI-MjaI，PI-PhoI，PI-TagI，PI-ThyI，PI-TkoI，和PI-TspI；及它们中任一的在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物。

优选I-SceI，I-ChuI，I-DmoI，I-CsmI，PI-PfuI，PI-SceI，PI-TliI，PI-MtuI，I-SceII，I-SceIII和HO；及它们中任一的在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物。

更优选的单体LAGLIDADG内切核酸酶是：I-SceI、I-ChuI、I-DmoI、I-CsmI、PI-SceI、PI-TliI和PI-MtuI；及它们中任一的在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物。

进一步更优选的单体LAGLIDADG内切核酸酶是：I-DmoI、I-SceI和I-ChuI；及它们中任一的在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物。

优选的LAGLIDADG内切核酸酶是表1至6中提到的LAGLIDADG内切核酸酶及其在氨基酸水平上具有至少80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物。

一种类型的LAGLIDADG内切核酸酶同源物是人工单链LAGLIDADG内切核酸酶，其可包含相同LAGLIDADG内切核酸酶的两个亚单位，例如，WO03078619中公开的单链I-Cre、单链I-CeuI或单链I-CeuII，或其可包含不同LAGLIDADG内切核酸酶的两个亚单位。包含不同LAGLIDADG内切核酸酶的两个亚单位的人工单链LAGLIDADG内切核酸酶被称为杂交体大范围核酸酶。

优选的人工单链LAGLIDADG内切核酸酶是单链I-CreI、单链I-CeuI或单链I-CeuII和杂交体大范围核酸酶，例如：WO03078619、WO09/074842、WO2009/059195和WO09/074873中公开的I-Sce/I-ChuI，I-Sce/PI-PfuI，I-的Chu/I-SceI，I-Chu/PI-PfuI，I-Sce/I-DmoI，IDmoI/I-SeeI，I-DmoI/PI-PfuI，I-DmoI/I-CreI，I-CreI/I-DmoI，I-CreI/PI-PfuI，I-SceI/I-CsmI，I-SceI/I-CreI，I-SceI/PI-SceI，I-SceI/PI-TliI，I-SceI/PI-MtuI，I-SceI/I-CeuI，I-CreI/I-CeuI，I-ChuI/I-CreI，I-ChuI/I-DmoI，I-ChuI/I-CsmI，I-ChuI/PI-SceI，I-ChuI/PI-TliI，I-ChuI/PI-MtuI，I-CreI/I-ChuI，I-CreI/I-CsmI，I-CreI/PI-SceI，ICreI/PI-TliI，I-CreI/PI-MtuI，I-CreI/I-SceI，I-DmoI/I-ChuI，I-DmoI/I-CsmI，IDmoI/PI-SceI，I-DmoI/PI-TliI，I-DmoI/PI-MtuI，I-CsmI/I-ChuI，I-CsmI/PI-PfuI，I-CsmI/I-CreI，I-CsmI/I-DmoI，I-CsmI/PI-SceI，I-CsmI/PI-TliI，I-CsmI/PI-MtuI，I-CsmI/I-SceI，PI-SceI/I-ChuI，PI-SceI/I-PfuI，PI-SceI/I-CreI，PI-SceI/IDmoI，PI-SceI/I-CsmI，PI-SceI/PI-TliI，PI-SceI/PI-MtuI，PI-SceI/I-SceI，PI-TliI/IChuI，PI-TliI/PI-PfuI，PI-TliI/I-CreI，PI-TliI/I-DmoI，PI-TliI/I-CsmI，PI-TliI/PISceI，PI-TliI/PI-MtuI，PI-Tli1/I-SceI，PI-MtuI/I-ChuI，PI-MtuI/PI-PfuI，PI-MtuI/I-CreI，PI-MtuI/I-DmoI、PI-MtuI/I-CsmI、PI-MtuI/I-SceI、PI-MtuI/PI-TliI和PI-MtuI/I-SceI，以及WO09/006297中公开的LlG3-4SC，或SylvestreGrizot等人“EfficienttargetingofaSCIDgenebyanengineeredsingle-chainhomingendonuclease”,NucleicAcidsResearch,2009,Vol.37,No.16,5405–5419页中公开的单链I-CreIV2V3。

一种特别优选的单链LAGLIDADG内切核酸酶单链I-CreI。

优选的二聚LAGLIDADG内切核酸酶是：I-CreI、I-CeuI、I-SceII、I-MsoI和I-CsmI及它们中任一的在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物。

优选的异源二聚LAGLIDADG内切核酸酶被公开于WO07/034262、WO07/047859和WO08093249中。

LAGLIDADG内切核酸酶的同源物可克隆自其它生物，或可通过对LAGLIDADG内切核酸酶加以突变来制造，例如通过替代、添加或缺失给定的LAGLIDADG内切核酸酶的氨基酸序列中的氨基酸来进行，这优选对其DNA结合亲和性、其二聚体形成亲和性没有影响，或者这将改变其DNA识别序列。

在本文中使用时，术语“DNA结合亲和性”表示大范围核酸酶或LAGLIDADG内切核酸酶与参照DNA分子（例如DNA识别序列或任意序列）非共价联结的趋势。结合亲和性是通过解离常数K_D（例如，I-CreI针对WTDNA识别序列的K_D为大约0.1nM）测量的。在本文中使用时，如果相对于参照大范围核酸酶或LAGLIDADG内切核酸酶而言，重组大范围核酸酶针对参照DNA识别序列的K_D增加或减少统计上显著（p<0.05）的量，那么大范围核酸酶则具有“变动的”结合亲和性。

关于大范围核酸酶单体或LAGLIDADG内切核酸酶单体，在本文中使用的术语“针对二聚体形成的亲和性”表示单体与参照大范围核酸酶单体或LAGLIDADG内切核酸酶单体非共价联结的趋势。针对二聚体形成的亲和性可使用相同单体（即，同源二聚体形成）或使用不同单体（即，异源二聚体形成）例如参照野生型大范围核酸酶或参照LAGLIDADG内切核酸酶来测量。结合亲和性通过解离常数K_D来测量。在本文中使用时，如果相对于参照大范围核酸酶单体或LAGLIDADG内切核酸酶单体而言，重组大范围核酸酶单体或重组LAGLIDADG内切核酸酶单体针对参照大范围核酸酶单体或针对参照LAGLIDADG内切核酸酶的K_D增加或减少统计上显著（p<0.05）的量，那么大范围核酸酶则具有“变动的”针对二聚体形成的亲和性。

在本文中使用时，术语“酶活性”指大范围核酸酶（例如LAGLIDADG内切核酸酶）切割特定DNA识别序列的速率。此类活性是可测量的酶促反应，所述反应涉及对双链DNA的磷酸二酯键的水解。作用于特定DNA底物上的大范围磷酸酶的活性受大范围核酸酶对该特定DNA底物的亲和性（affinity）或亲合力（avidity）的影响，这又进而受与DNA的序列特异性相互作用和非序列特异性相互作用的影响。

例如，可向LAGLIDADG内切核酸酶的氨基酸序列添加核定位信号和/或改变其序列的一个或多个氨基酸和/或缺失其序列的部分，例如，其C-末端的部分或N-末端的部分。

例如，可制造I-SceI的同源物LAGLIDADG内切核酸酶，这通过突变其氨基酸序列的氨基酸来实现。

对I-SceI的DNA结合亲和性影响极少，或将改变其DNA识别序列的突变，例如但不限于：A36G、L40M、L40V、I41S、I41N、L43A、H91A和I123L。

在本发明的一种实施方式中，LAGLIDADG内切核酸酶的同源物选自人工单链LAGLIDADG内切核酸酶（包括或不包括杂交体大范围核酸酶）、可克隆自其它生物的同源物、经工程化的内切核酸酶或经优化的核酸酶的组。

在一种实施方式中，LAGLIDADG内切核酸酶选自下组，所述组包含：I-SceI、I-CreI、I-MsoI、I-CeuI、I-DmoI、I-Anil、PI-SceI、I-PfuI或它们中任一的在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物。

在另一实施方式中，LAGLIDADG内切核酸酶选自下组，所述组包含：I-SceI、I-ChuI、I-CreI、I-DmoI、I-CsmI、PI-SceI、PI-PfuI、PI-TliI、PI-MtuI和I-CeuI及它们中任一的在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物。

表1：I-SceI的示例性同源物，它们可克隆自其它生物。

表2：I-CreI的示例性同源物，它们可克隆自其它生物。

表3：PI-SceI的示例性同源物，它们可克隆自其它生物。

表4：I-CeuI的示例性同源物，它们可克隆自其它生物。

表5：可克隆自其它生物的I-ChuI的示例性同源物被描述于表1中；

表6：I-DmoI的示例性同源物，它们可克隆自其它生物。

较之参照内切核酸酶，例如，较之I-SceI（SEQIDNO:1）（针对表1所述的同源物），I-CreI（SEQIDNO:126）（针对表2所述的同源物），PI-SceI（SEQIDNO:145）（针对表3所述的同源物），I-CeuI（SEQIDNO:131）（针对表4所述的同源物），I-ChuI（SEQIDNO:136）（针对表5所述的同源物），或I-DmoI（SEQIDNO:141）（针对表6所述的同源物），克隆自其它生物的内切核酸酶同源物可具有不同的酶活性、DNA结合亲和性、二聚体形成亲和性或在其DNA识别序列中的改变。较之SEQIDNO:150所描述的I-MsoI的参照内切核酸酶，SEQIDNO:151所描述的I-MsoI同源物可具有不同的酶活性、DNA结合亲和性、二聚体形成亲和性或在其DNA识别序列中的改变。另一优选的内切核酸酶是I-AniI（SEQIDNO:161），优选地，其包含下述活性增强突变：F13Y和S111Y，或F13Y、S111Y和K222R，或F13Y、I55V、F91I、S92T和S111Y。

因此，在本发明的一种实施方式中，嵌合内切核酸酶包含至少一个包含下述氨基酸序列的LAGLIDADG内切核酸酶，所述氨基酸序列与SEQIDNOs:1、2、3、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、161或165中任一所描述的多肽具有至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的氨基酸序列同一性。

在本发明的另一实施方式中，嵌合内切核酸酶包含至少一个包含下述氨基酸序列的LAGLIDADG内切核酸酶，所述氨基酸序列与SEQIDNOs:126、127、128、129或130中任一所描述的多肽具有至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的氨基酸序列同一性。

在本发明的另一实施方式中，嵌合内切核酸酶包含至少一个包含下述氨基酸序列的LAGLIDADG内切核酸酶，所述氨基酸序列与SEQIDNOs:131、132、133、134或135中任一所描述的多肽具有至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的氨基酸序列同一性。

在本发明的另一实施方式中，嵌合内切核酸酶包含至少一个包含下述氨基酸序列的LAGLIDADG内切核酸酶，所述氨基酸序列与SEQIDNOs:136、137、138、139或140中任一所描述的多肽具有至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的氨基酸序列同一性。

在本发明的另一实施方式中，嵌合内切核酸酶包含至少一个包含下述氨基酸序列的LAGLIDADG内切核酸酶，所述氨基酸序列与SEQIDNOs:141、142、143或144中任一所描述的多肽具有至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的氨基酸序列同一性。

在本发明的另一实施方式中，嵌合内切核酸酶包含至少一个包含下述氨基酸序列的LAGLIDADG内切核酸酶，所述氨基酸序列与SEQIDNOs:145、146、147、148或149中任一所描述的多肽具有至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的氨基酸序列同一性。

在本发明的另一实施方式中，嵌合内切核酸酶包含至少一个包含下述氨基酸序列的LAGLIDADG内切核酸酶，所述氨基酸序列与SEQIDNOs:150或151中任一所描述的多肽具有至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的氨基酸序列同一性。

在本发明的另一实施方式中，嵌合内切核酸酶包含至少一个包含下述氨基酸序列的LAGLIDADG内切核酸酶，所述氨基酸序列与SEQIDNO:161的任一所描述的多肽具有至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的氨基酸序列同一性，优选地，所述LAGLIDADG内切核酸酶包含下述活性增强突变：F13Y和S111Y，或F13Y、S111Y和K222R，或F13Y、I55V、F91I、S92T和S111Y。

在本发明的另一实施方式中，嵌合内切核酸酶包含至少一个包含下述氨基酸序列的LAGLIDADG内切核酸酶，所述氨基酸序列与SEQIDNO:1、2、3或165所描述的多肽具有至少80%的氨基酸序列同一性。

优选的是已针对所述LAGLIDADG内切核酸酶测定了确切的蛋白晶体结构的LAGLIDADG内切核酸酶，例如，I-DmoI、H-DreI、I-SceI、I-CreI及它们中任一的在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物，并且其可容易地基于I-DmoI、H-DreI、I-SceI、I-CreI的晶体结构而建模。可基于I-CreI的晶体结构建模的内切核酸酶的一个例子是I-MsoI（Chevalier等人,FlexibleDNATargetSiteRecognitionbyDivergentHomingEndonucleaseIsoschizomersI-CreIandI-MsoI,J.Mol.Biol.(2003)329,253–269页）。

制造LAGLIDADG内切核酸酶同源物的另一方法是突变LAGLIDADG内切核酸酶的氨基酸序列，以修饰其DNA结合亲和性、其二聚体形成亲和性或以改变其DNA识别序列。

已经过突变以修饰其DNA结合亲和性、其二聚体形成亲和性或以改变其DNA识别位点的LAGLIDADG内切核酸酶的同源物被称为经工程化的内切核酸酶。

用于制造经工程化的内切核酸酶的一种手段是利用分子进化。可例如采用DNA改组方案来调节编码候选内切核酸酶的多核苷酸。DNA改组是递归性重组和突变的方法，其通过对相关基因的库进行随机片段化、接着通过聚合酶链式反应样的方法重新组装片段来进行。见例如，Stemmer(1994)ProcNatlAcadSciUSA91:10747-10751；Stemmer(1994)Nature370:389-391和US5,605,793、US5,837,458、US5,830,721和US5,811,238。还可基于对给定内切核酸酶晶体结构的进一步了解，使用理论设计，来制造经工程化的内切核酸酶，见例如，Fajardo-Sanchez等人,“ComputerdesignofobligateheterodimermeganucleasesallowsefficientcuttingofcustomDNAsequences”,NucleicAcidsResearch,2008,Vol.36,No.72163–2173。对蛋白质结构的测定以及对LAGLIDADG内切核酸酶同源物的序列比对，允许就可被改变以影响其酶活性、其DNA结合亲和性、其二聚体结合亲和性或以改变其DNA识别序列的氨基酸做出理论选择。

经工程化的内切核酸酶以及它们各自的DNA识别位点的大量例子是本领域已知的，并被公开于例如WO2005/105989、WO2007/034262、WO2007/047859、WO2007/093918、WO2008/093249、WO2008/102198、WO2008/152524、WO2009/001159、WO2009/059195、WO2009/076292、WO2009/114321或WO2009/134714、WO10/001189中，上述文献均通过引用并入本文。

具有增加的或减少的DNA结合亲和性的I-SceI、I-CreI、I-MsoI和I-CeuI的经工程化的版本例如被公开于WO07/047859和WO09/076292中。

如果没有另外的明确指明，所有突变体都将按照各内切核酸酶的野生型氨基酸序列的氨基酸编号来命名，例如，I-SceI的突变体L19将在如SEQIDNO:1所示的野生型I-SceI氨基酸序列第19位处具有对亮氨酸的氨基酸替换。I-SceI的L19H突变体将以组氨酸替代野生型I-SceI氨基酸序列第19位的氨基酸亮氨酸。

例如，I-SceI的DNA结合亲和性可通过对应于选自下组的取代的至少一种修饰而增加，所述组由

（a）用H、N、Q、S、T、K或R对D201、L19、L80、L92、Y151、Y188、I191、Y199或Y222的取代；或

（b）用K或R对N15、N17、S81、H84、N94、N120、T156、N157、S159、N163、Q165、S166、N194或S202的取代

构成。

I-SceI的DNA结合亲和性可通过对应于选自下组的取代的至少一种突变而减少，所述组由

（a）用H、N、Q、S、T、D或E对K20、K23、K63、K122、K148、K153、K190、K193、K195或K223的取代；或

（b）用D或E对L19、L80、L92、Y151、Y188、I191、Y199、Y222、N15、N17、S81、H84、N94、N120、T156、N157、S159、N163、Q165、S166、N194或S202的取代

构成。

具有改变的DNA识别序列的I-SceI、I-CreI、I-MsoI和I-CeuI的经工程化版本被公开于例如WO07/047859和WO09/076292中。

例如，I-SceI的一个重要DNA识别位点具有下述序列（由SEQIDNO:12所描述）：

正义:5’-TTACCCTGTTATCCCTAG-3’

碱基位置:123456789101112131415161718

反义3′-AATGGGACAATAGGGATC-5′

I-SceI的下述突变将使第4位对C的优先性改变至A：K50。

I-SceI的下述突变将保持第4位对C的优先性：K50、CE57。

I-SceI的下述突变将使第4位对C的优先性改变至G：E50、R57、K57。

I-SceI的下述突变将使第4位对C的优先性改变至T：K57、M57、Q50。

I-SceI的下述突变将使第5位对C的优先性改变至A：K48、Q102。

I-SceI的下述突变将保持第5位对C的优先性：R48、K48、E102、E59。

I-SceI的下述突变将使第5位对C的优先性改变至G：E48、K102、R102。

I-SceI的下述突变将使第5位对C的优先性改变至T：Q48、C102、L102、V102。

I-SceI的下述突变将使第6位对C的优先性改变至A：K59。

I-SceI的下述突变将保持第6位对C的优先性：R59、K59。

I-SceI的下述突变将使第6位对C的优先性改变至G：K84、E59。

I-SceI的下述突变将使第6位对C的优先性改变至T：Q59、Y46。

I-SceI的下述突变将使第7位对T的优先性改变至A：C46、L46、V46。

I-SceI的下述突变将使第7位对T的优先性改变至C：R46、K46、E86。

I-SceI的下述突变将使第7位对T的优先性改变至G：K86、R86、E46。

I-SceI的下述突变将保持第7位对T的优先性：K68、C86、L86、Q46^*。

I-SceI的下述突变将使第8位对G的优先性改变至A：K61、S61、V61、A61、L61。

I-SceI的下述突变将使第8位对G的优先性改变至C：E88、R61、H61。

I-SceI的下述突变将保持第8位对G的优先性：E61、R88、K88。

I-SceI的下述突变将使第8位对G的优先性改变至T：K88、Q61、H61。

I-SceI的下述突变将使第9位对T的优先性改变至A：T98、C98、V98、L9B。

I-SceI的下述突变将使第9位对T的优先性改变至C：R98、K98。

I-SceI的下述突变将使第9位对T的优先性改变至G：E98、D98。

I-SceI的下述突变将保持第9位对T的优先性：Q98。

I-SceI的下述突变将使第10位对T的优先性改变至A：V96、C96、A96。

I-SceI的下述突变将使第10位对T的优先性改变至C：K96、R96。

I-SceI的下述突变将使第10位对T的优先性改变至G：D96、E96。

I-SceI的下述突变将保持第10位对T的优先性：Q96。

I-SceI的下述突变将保持第11位对A的优先性：C90、L90。

I-SceI的下述突变将使第11位对A的优先性改变至C：K90、R90。

I-SceI的下述突变将使第11位对A的优先性改变至G：E90。

I-SceI的下述突变将使第11位对A的优先性改变至T：Q90。

I-SceI的下述突变将使第12位对T的优先性改变至A：Q193。

I-SceI的下述突变将使第12位对T的优先性改变至C：E165、E193、D193。

I-SceI的下述突变将使第12位对T的优先性改变至G：K165、R165。

I-SceI的下述突变将保持第12位对T的优先性：C165、L165、C193、V193、A193、T193、S193。

I-SceI的下述突变将使第13位对C的优先性改变至A：C193、L193。

I-SceI的下述突变将保持第13位对C的优先性：K193、R193、D192。

I-SceI的下述突变将使第13位对C的优先性改变至G：E193、D193、K163、R192。

I-SceI的下述突变将使第13位对C的优先性改变至T：Q193、C163、L163。

I-SceI的下述突变将使第14位对C的优先性改变至A：L192、C192。

I-SceI的下述突变将保持第14位对C的优先性：E161、R192、K192。

I-SceI的下述突变将使第14位对C的优先性改变至G：K147、K161、R161、R197、D192、E192。

I-SceI的下述突变将使第14位对C的优先性改变至T：K161、Q192。

I-SceI的下述突变将保持第15位对C的优先性：E151。

I-SceI的下述突变将使第15位对C的优先性改变至G：K151。

I-SceI的下述突变将使第15位对C的优先性改变至T：C151、L151、K151。

I-SceI的下述突变将保持第17位对A的优先性：N152、S152、C150、L150、V150、T150。

I-SceI的下述突变将使第17位对A的优先性改变至C：K152、K150。

I-SceI的下述突变将使第17位对A的优先性改变至G：N152、S152、D152、D150、E150。

I-SceI的下述突变将使第17位对A的优先性改变至T：Q152、Q150。

I-SceI的下述突变将使第18位对G的优先性改变至A：K155、C155。

I-SceI的下述突变将使第18位对G的优先性改变：R155、K155。

I-SceI的下述突变将保持第18位对G的优先性：E155。

I-SceI的下述突变将使第18位对G的优先性改变至T：H155、Y155。

若干突变的组合可增强效果。一个例子是三重突变体W149G、D150C和N152K，其将使I-SceI在第17位对A的优先性改变至G。

为保持LAGLIDADG内切核酸酶的酶活性，应当避免下述突变：

对I-SceI而言：I38S，I38N，G39D，G39R，L40Q，L42R，D44E，D44G，D44H，D44S，A45E，A45D，Y46D，I47R，I47N，D144E，D145E，D145N和G146E。

对I-CreI而言：Q47E

对I-CeuI而言：E66Q

对I-MsoI而言：D22N

对PI-SceI而言：D218、D229、D326或T341中的突变。

具有高酶活性的I-AniI的经工程化的内切核酸酶变体（SEQIDNO:161）可被发现于Takeuchi等人,NucleicAcidRes.(2009),73(3):877至890中。I-AniI的优选的经工程化的内切核酸酶变体包含下述突变：F13Y和S111Y，或F13Y、S111Y和K222R，或F13Y、I55V、F91I、S92T和S111Y。

使得给定内切核酸酶的DNA结合亲和性、二聚体形成亲和性有所变动或者改变了给定内切核酸酶（例如LAGLIDADG内切核酸酶）的DNA识别序列的突变可被组合，以制造经工程化的内切核酸酶，例如基于I-SceI的经工程化的内切核酸酶、并且较之SEQIDNO:1所描述的I-SceI具有变动的DNA结合亲和性和/或改变的DNA识别序列。

经优化的核酸酶：

核酸酶可经过优化，例如通过下述方法进行：通过插入突变以改变它们的DNA结合特异性，例如使得它们的DNA识别位点更为特异或者较不特异，或者通过改造编码核酸酶的多核苷酸序列以适应意图在其中表达内切核酸酶的生物的密码子使用，或者通过缺失备选的起始密码子，或者通过从编码内切核酸酶的多核苷酸序列缺失隐蔽的聚腺苷酸化信号或隐蔽的剪接位点或隐蔽的miRNA靶。

用于制造经优化的核酸酶的突变和改变可与用于制造经工程化的内切核酸酶的突变组合起来，例如，I-SceI的同源物可以是本文所述的经优化的核酸酶，但其还可包含用于变动其DNA结合亲和性和/或改变其DNA识别序列的突变。

此外，对核酸酶的优化可增强蛋白稳定性。因此，较之未经优化的核酸酶的氨基酸序列而言，经优化的核酸酶不包含下述，或具有降低的数量的下述：

a）PEST-序列

b）KEN-盒

c）A-盒，

d）D-盒，或

e）根据N-末端规则包含用于稳定性的经优化的N-端末端，

f）包含甘氨酸（glycin）作为N-端第二个氨基酸，或

g）a）、b）、c）、d）、e）和f）的任何组合。

PEST序列被定义为长至少12个氨基酸的亲水性片段，其需要含有至少一个脯氨酸（P）、一个天冬氨酸（D）或谷氨酸（E）以及至少一个丝氨酸（S）或苏氨酸（T）。带负电荷的氨基酸在这些基序内聚簇，而带正电荷的氨基酸，精氨酸（R）、组氨酸（H）和赖氨酸（K）则通常被禁止。PEST序列例如被描述于RechsteinerM,RogersSW.“PESTsequencesandregulationbyproteolysis.”TrendsBiochem.Sci.1996;21(7),267至271页中。

KEN-盒的氨基酸共有序列是：KENXXX(N/D)。

A-盒的氨基酸共有序列是：AQRXLXXSXXXQRVL。

D-盒的氨基酸共有序列是：RXXL。

对核酸酶进行稳定以对抗降解的另一途径是根据N-末端规则优化各内切核酸酶的N-端的氨基酸序列。针对在真核生物中的表达优化过的核酸酶在其氨基酸序列的起始甲硫氨酸之后包含甲硫氨酸、缬氨酸、甘氨酸、苏氨酸、丝氨酸、丙氨酸或半胱氨酸。针对在原核生物中的表达优化过的核酸酶在其氨基酸序列的起始甲硫氨酸之后包含甲硫氨酸、缬氨酸、甘氨酸、苏氨酸、丝氨酸、丙氨酸、半胱氨酸、谷氨酸、谷氨酰胺、天冬氨酸、天冬酰胺、异亮氨酸或组氨酸。

可通过缺失核酸酶氨基酸序列中的50、40、30、20、10、9、8、7、6、5、4、3、2或1个氨基酸对核酸酶进行优化，而不破坏其内切核酸酶活性。例如，当LAGLIDADG内切核酸酶的氨基酸序列中的部分被缺失的情况下，保留上文所述的LAGLIDADG内切核酸酶基序则是重要的。

优选地，缺失PEST序列或其它失稳（destabilizing）基序，例如KEN-盒、D-盒和A-盒。还可通过引入单个氨基酸替换，例如向PEST序列中引入带正电荷的氨基酸（精氨酸、组氨酸和赖氨酸），来破坏这些基序。

用于优化核酸酶的另一途径是向核酸酶的氨基酸序列添加核定位信号。例如，SEQIDNO:4所描述的核定位信号。

经优化的核酸酶可包含上文所述的方法和特征的组合，例如，它们可包含核定位信号，包含甘氨酸作为第二个N-端氨基酸，或者包含C-端的缺失，或这些特征的组合。具有上文所述的方法和特征的组合的经优化的核酸酶的例子是例如SEQIDNOs:2、3和5所描述的。

在一种实施方式中，经优化的核酸酶是经优化的I-Sce-I，其不包含下述序列所示的氨基酸序列：HVCLLYDQWVLSPPH，LAYWFMDDGGK，KTIPNNLVENYLTPMSLAYWFMDDGGK，KPIIYIDSMSYLIFYNLIK，KLPNTISSETFLK或TISSETFLK，或者其不包含下述序列所示的氨基酸序列：HVCLLYDQWVLSPPH，LAYWFMDDGGK，KPIIYIDSMSYLIFYNLIK，KLPNTISSETFLK或TISSETFLK，或者其不包含下述序列所示的氨基酸序列：HVCLLYDQWVLSPPH，LAYWFMDDGGK，KLPNTISSETFLK或TISSETFLK，或者其不包含下述序列所示的氨基酸序列：LAYWFMDDGGKKLPNTISSETFLK或TISSETFLK，或者其不包含下述序列所示的氨基酸序列：KLPNTISSETFLK或TISSETFLK，

在一种实施方式中，经优化的核酸酶是I-SceI或其在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物，其中，位于野生型I-SceI或其下述同源物的C-端的氨基酸序列TISSETFLK被缺失或突变，所述同源物在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性且在C-端具有氨基酸序列TISSETFLK。

可通过缺失或突变野生型I-SceI或下述其同源物的C-端的至少1、2、3、4、5、6、7、8或9个氨基酸，来缺失或突变氨基酸序列TISSETFLK，所述其同源物在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性且在C-端具有氨基酸序列TISSETFLK。

表7：针对野生型I-SceI中TISSETFLK氨基酸序列的缺失的不同例子

备选地，氨基酸序列TISSETFLK可被突变，例如，突变为氨基酸序列：TIKSETFLK(SEQIDNO：37或AIANQAFLK(SEQIDNO：38)。

同等优选的是将SEQIDNo.1中公开的野生型I-SceI的氨基酸序列第229位的丝氨酸（如果参照SEQIDNo.2的话是第230位氨基酸）突变为Lys、Ala、Pro、Gly、Glu、GIn、Asp、Asn、Cys、Tyr或Thr。由此制造I-SceI突变体S229K、S229A、S229P、S229G、S229E、S229Q、S229D、S229N、S229C、S229Y或S229T（氨基酸根据SEQIDNo.1被编号）。

在本发明的另一实施方式中，SEQIDNo.1中公开的野生型I-SceI的氨基酸序列第203位的氨基酸甲硫氨酸（如果参照SEQIDNo.2的话是第204位氨基酸）被突变为Lys、His或Arg。由此制造I-SceI突变体M202K、M202H和M202R。

I-SceI的优选经优化版本是缺失I-Scel-1，I-Scel-2，I-Scel-3，I-Scel-4，I-Scel-5，I-Scel-6，I-Scel-7，I-Scel-8，I-Scel-9和突变体S229K和S229H、S229R，进一步更优选的是缺失I-Scel-1，I-Scel-2，I-Scel-3，I-Scel-4，I-Scel-5，I-Scel-6和突变体S229K。

还可组合上述缺失和突变，例如通过将缺失I-SceI-1与突变体S229K组合，由此制造C-端的氨基酸序列TIKSETFL。

还可组合上述缺失和突变，例如通过将缺失I-SceI-1与突变体S229A组合，由此制造C-端的氨基酸序列TIASETFL。

另一些优选的I-SceI的经优化版本是与突变M203K、M203H、M203R组合的缺失I-Scel-1，I-Scel-2，I-Scel-3，I-Scel-4，I-Scel-5，I-Scel-6，I-Scel-7，I-Scel-8，I-Scel-9或突变体S229K和S229H、S229R。

进一步更优选的是与突变M203K组合的缺失I-Scel-1，I-Scel-2，I-Scel-3，I-Scel-4，I-Scel-5，I-Scel-6或突变体S229K。

在本发明的另一实施方式中，SEQIDNo.1中公开的野生型I-SceI的氨基酸序列第75位的氨基酸谷氨酰胺、第130位的谷氨酸或第199位的酪氨酸（如果参照SEQIDNo.2的话是第76、131和120位氨基酸）被突变为Lys、His或Arg。由此制造I-SceI突变体Q75K、Q75H、Q75R、E130K、E130H、E130R、Y199K、Y199H和Y199R。

上文所述的缺失和突变还将可应用于I-SceI的在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性且在C-端具有氨基酸序列TISSETFLK的同源物。

因此，在本发明的一种实施方式中，经优化的内切核酸酶是I-SceI或下述其同源物之一的经优化版本，所述其同源物在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性，并且具有选自I-SceI-1、I-SceI-2、I-Scel-3，I-Scel-4，I-Scel-5，I-Scel-6，I-Scel-7，I-Scel-8，I-Scel-9，S229K，S229A，S229P，S229G，S229E，S229Q，S229D，S229N，S229C，S229Y，S229T，M203K，M203H，M203R，Q77K，Q77H，Q77R，E130K，E130H，E130R，Y199K，Y199H和Y199R的组的一种或多种突变或缺失，其中氨基酸编号参照SEQIDNO:1所描述的氨基酸序列。

在本发明的另一实施方式中，经优化的内切核酸酶是I-SceI或下述其同源物之一的经优化版本，所述其同源物在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性，并且具有选自I-SceI-1、I-SceI-2、I-Scel-3，I-Scel-4，I-Scel-5，I-Scel-6，S229K和M203K的组的一种或多种突变或缺失，其中氨基酸编号参照SEQIDNO:1所描述的氨基酸序列。

一种特别优选的经优化的内切核酸酶是I-SceI的野生型或经工程化版本，如SEQIDNO:1或下述其同源物之一所述，所述其同源物在氨基酸水平上具有至少49%、51%、58%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性，并且具有选自下述组的一种或多种突变：

a)I-Scel-1，I-Scel-2，I-Scel-3，I-Scel-4，I-Scel-5，I-Scel-6，I-Scel-7，I-Scel-8和I-Scel-9；

b)S229K，S229A，S229P，S229G，S229E，S229Q，S229D，S229N，S229C，S229Y，S229T，M203K，M203H，M203R，Q77K，Q77H，Q77R，E130K，E130H，E130R，Y199K，Y199H和Y199R；

c）它们的氨基酸序列的起始甲硫氨酸之后，甲硫氨酸、缬氨酸、甘氨酸、苏氨酸、丝氨酸、丙氨酸、半胱氨酸、谷氨酸、谷氨酰胺、天冬氨酸、天冬酰胺、异亮氨酸或组氨酸；或

d）选自上述a）和b）、a）和c）、b）和c）或a）、b）和c）的一种或多种突变的组合。

异源DNA结合结构域

本发明的嵌合内切核酸酶包含至少一个异源DNA结合结构域，所述结构域包含一个或多个Zn₂C₆锌指。

Zn₂C₆锌指形成DNA结合结构域的独特基团，其或多或少排他性地见于酵母和真菌的转录因子中。它们由下述共享结构所表征，所述结构中，两个锌离子被下述通式所描述的氨基酸基元复合：

-Cys-(X)₂-Cys-(X)₆-Cys-(X)_5-41-Cys-(X)₂-Cys-(X)_6-8-Cys-，

其中，Cys代表半胱氨酸，X代表任何氨基酸。

对被2个、6个、5至41个、2个和6至8个其它氨基酸间隔开的6个半胱氨酸的突变分析已显示，它们全部都是两个锌离子的复合所必要的，这进而协助了四叶型结构的正确折叠。碱性残基通常在第二个和第三个半胱氨酸之间的第一个、第三个、第四个和第六个残基上占据主导。在这些残基中的第三个或第四个进行非保守突变经常使得该DNA结合结构域的DNA结合能力消失。在第二个和第三个半胱氨酸之间的氨基酸残基通常是碱性的，特别是在第一个、第三个、第四个和第六个位置。结构学研究已显示，这些碱性残基经常形成与DNA的接触。在第三个和第四个半胱氨酸之间的环区域显示出长度和序列的可变性，其已知为可变亚区域（见图3至6）。在可变亚区域中的突变通常仅显示极少的影响，但一些突变会降低功能。

在该可变亚区域中，在很多情况下，在第四个半胱氨酸N端一或两个残基处发现脯氨酸残基。该脯氨酸被认为用于支持正确折叠所必需的氨基酸链转角，但是保守的脯氨酸并非绝对必需，在很多情况下其可被例如亮氨酸、谷氨酰胺或精氨酸替代，特别是如果在可变亚区域还存在其它脯氨酸的话。

因其结构，Zn₂C₆锌指可容易地与包含锌的其它DNA结合结构域（例如C₂H₂-型的或CCHC-型的）区分开，所述其它DNA结合结构域例如被公开于WO07/014275、WO08/076290、WO08/076290或WO03/062455中。

大多数情况下，Zn₂C₆锌指与在其核心区域具有鸟嘌呤和胞嘧啶的三核苷酸（例如，CGG或CGA）的DNA结合位点结合，但是在一些结合位点也发现了其它末端三核苷酸，例如GGG或GGA，或者甚至TCC、TCG、GCC或GCA。

在其DNA结合结构域中包含Zn₂C₆锌指或包含Zn₂C₆锌指作为其DNA结合结构域的很多转录因子已被描述于本领域中，例如WO02/24865中。包含Zn₂C₆锌指的转录因子的非限制性例子是SEQIDNO:166、167、168、169、170、171、172、173、174、175、176、177、177、178、179、180、181、182、183、184和185所描述的蛋白。

优选的异源DNA结合结构域包含含有Zn₂C₆锌指结构域的转录因子或其DNA结合结构域，其经由N-端或C-端的碱性氨基酸（如精氨酸或赖氨酸（单字母编码中为R或K））重复形成额外接触和/或具有作为单体与DNA结合的能力。这些类型的Zn₂C₆锌指转录因子的例子是AflR、ArgR、Hap1或Leu3。

在一种优选的实施方式中，嵌合LAGLIDADG内切核酸酶的异源DNA结合结构域包含SEQIDNO:6所描述的AlcR和AlcR的在氨基酸水平上具有至少50%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%序列同一性的同源物。

在本发明的一些实施方式中，使用包含一个或多个Zn₂C₆锌指的转录因子的全长序列或其大片段将是有利的，例如，当转录因子或其片段的DNA结合活性是可诱导的情况下。例如，AlcR的DNA结合活性可被乙醇、乙醛、苏氨酸、乙胺、丙-1-醇和丁-2-醇诱导。

因此，在本发明的一种实施方式中，嵌合LAGLIDADG内切核酸酶的至少一个异源DNA结合结构域包含Zn₂C₆锌指转录因子或其大片段。

Zn₂C₆锌指转录因子的大片段表示野生型Zn₂C₆锌指转录因子氨基酸序列的至少30%、40%、50%、60%、70%、80%、90%、95%、97%或98%的片段。

在本发明的一种实施方式中，嵌合LAGLIDADG内切核酸酶的至少一个异源DNA结合结构域包含具有可诱导的DNA结合活性的Zn₂C₆锌指转录因子。

在本发明的一种实施方式中，嵌合LAGLIDADG内切核酸酶的至少一个异源DNA结合结构域包含AlcR、AflR、Hap1、Leu3或它们中任一的在氨基酸水平上具有至少50%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物。

在本发明的一种实施方式中，嵌合LAGLIDADG内切核酸酶的至少一个异源DNA结合结构域包含AlcR、AflR、Hap1、Leu3或它们中任一的同源物的大片段，所述同源物在氨基酸水平上具有至少50%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性。

但是，在其它一些情况下，使用一个或数个小异源DNA结合结构域将是优选的。因此，在本发明的一种实施方式中，异源DNA结合结构域或多或少仅包含含有Zn₂C₆锌指的转录因子的DNA结合结构域，即，DNA结合结构域片段。

因此，在一种同等优选的实施方式中，嵌合LAGLIDADG内切核酸酶的异源DNA结合结构域包含SEQIDNO:70所描述的AlcR的DNA结合结构域片段(AlcR1至60)及AlcR(1-60)的在氨基酸水平上具有至少50％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同源物。

AlcR的DNA结合结构域片段属于一组同源物，其可被图10所示的共有序列所描述。该组示例性成员包含SEQIDNOs:71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93和94中任一所描述的氨基酸序列。

包含Zn₂C₆锌指的转录因子的其它DNA结合结构域片段以及它们的共有序列由图11、12和13所描述。

因此，在本发明的另一实施方式中，嵌合LAGLIDADG内切核酸酶的异源DNA结合结构域包含选自SEQIDNO:57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120和121所描述的序列的组的氨基酸序列或它们中任一的在氨基酸水平上具有至少50％、60％、70％、80％、85％、90％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的同源物。

在一种优选的实施方式中，嵌合内切核酸酶包含含有至少一种下述多肽的异源DNA结合结构域，所述多肽与SEQIDNOs:57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120或121中任一所描述的多肽具有至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%的氨基酸序列同一性。

在另一优选的实施方式中，嵌合内切核酸酶包含含有至少一种下述多肽的异源DNA结合结构域，所述多肽与SEQIDNOs:57、58、59、60、61、62、63、64、65、66、67、68或69中任一所描述的多肽具有至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%的氨基酸序列同一性。

在另一优选的实施方式中，嵌合内切核酸酶包含含有至少一种下述多肽的异源DNA结合结构域，所述多肽与SEQIDNOs:70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93或94中任一所描述的多肽具有至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%的氨基酸序列同一性。

在另一优选的实施方式中，嵌合内切核酸酶包含含有至少一种下述多肽的异源DNA结合结构域，所述多肽与SEQIDNOs:95、96、97、98、99、100、101、102、103、104、105、106或107中任一所描述的多肽具有至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%的氨基酸序列同一性。

在另一优选的实施方式中，嵌合内切核酸酶包含含有至少一种下述多肽的异源DNA结合结构域，所述多肽与SEQIDNOs:108、109、110、111、112、113、114、115、116、117、118、119、120或121中任一所描述的多肽具有至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%的氨基酸序列同一性。

在另一优选的实施方式中，嵌合内切核酸酶包含含有至少一种下述多肽的异源DNA结合结构域，所述多肽与SEQIDNOs:57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74或75中任一所描述的多肽具有至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%的氨基酸序列同一性。

在本发明的另一实施方式中，异源DNA结合结构域选自由AlcR，及其在氨基酸水平上具有至少50%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物，或AlcR的DNA结合结构域片段和它们中任一的在氨基酸水平上具有至少50%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物构成的组。

一种优选的DNA结合结构域片段是AlcR的氨基酸1至60或其在氨基酸水平上具有至少50%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物。

嵌合LAGLIDADG内切核酸酶的制备

LAGLIDADG内切核酸酶和异源DNA结合结构域可用很多种备选途径来组合。

例如，可将超过一个LAGLIDADG内切核酸酶和一个或多个异源DNA结合结构域组合起来，或将超过一个异源DNA结合结构域与一个LAGLIDADG内切核酸酶组合起来。还可将超过一个LAGLIDADG内切核酸酶与超过一个异源DNA结合结构域组合起来。

一个或多个异源DNA结合结构域可融合于LAGLIDADG内切核酸酶的N-端末端或C-端末端。还可将一个或多个异源DNA结合结构域融合于LAGLIDADG内切核酸酶的N-端末端并将一个或多个异源DNA结合结构域融合于LAGLIDADG内切核酸酶的C-端末端。还可制造LAGLIDADG内切核酸酶和异源DNA结合结构域的交替组合。

嵌合内切核酸酶包含超过一个LAGLIDADG内切核酸酶或超过一个异源DNA结合结构域的情况下，可使用相同异源DNA结合结构域或LAGLIDADG内切核酸酶的若干个拷贝，或可使用不同的异源DNA结合结构域或LAGLIDADG内切核酸酶。

还可将针对上述经优化的核酸酶描述的方法和特征应用到嵌合内切核酸酶的全长序列上，例如，通过向嵌合LAGLIDADG内切核酸酶添加核定位信号来实现，或通过降低嵌合内切核酸酶的整条氨基酸序列中下述的数量（number）来实现：

a）PEST-序列

b）KEN-盒

c）A-盒，

d）D-盒，或

e）根据N-末端规则包含经优化的N-端末端用于稳定性，

f）包含甘氨酸作为第二个N-端氨基酸，或

g）a）、b）、c）、d）、e）和f）的任何组合。

在一种实施方式中，嵌合LAGLIDADG内切核酸酶是下述组合：

I-SceI和AlcR，或I-SceI和AlcR（1至60），或I-CreI和AlcR，或I-CreI或AlcR（1至60），或I-MsoI和AlcR，或I-MsoI和AlcR（1至60），其中AlcR或AlcR（1至60）融合至I-SceI、I-CreI或I-MsoI的N-端或C-端，并且其中，I-SceI、I-CreI、I-MsoI、AlcR、AlcR（1至60）包括它们的在氨基酸水平具有至少50%、60%、70%、80%、85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性的同源物。

一种优选的实施方式是AlcR或AlcR的氨基酸1至60（AlcR1至60）与I-SceI的N-端融合或C-端融合。

进一步更优选的是AlcR或AlcR的氨基酸1至60与I-SceI的C-端融合。

优选的例子是AlcR或AlcR的氨基酸1至60与I-SceI的C-端融合，其仅包含一个赖氨酸作为接头序列，例如VC-SAH48、49、50和51所描述的，它们具有SEQIDNo:7、8、8和10所描述的氨基酸序列。

嵌合内切核酸酶可以以很多途径及组合来构建。例子由下述结构给出。N-端-LAGLIDADG内切核酸酶-Zn₂C₆锌指-C-端，

N-端-Zn₂C₆锌指–LAGLIDADG内切核酸酶-C-端

N-端-Zn₂C₆锌指–LAGLIDADG内切核酸酶-Zn₂C₆锌指-C-端，

其它组合也将是可能的，其中一个嵌合内切核酸酶可包含位于N端或C端的一个或多个Zn₂C₆锌指。

在本发明的另一实施方式中，嵌合LAGLIDADG内切核酸酶具有下述结构：

N-端-I-SceI-AlcR-C-端，或

N-端-I-SceI-AlcR(1至60)-C-端，或

N-端-I-CreI-AlcR-C-端，或

N-端-I-CreI-AlcR(1至60)-C-端，或

N-端-IMsoI-AlcR-C-端，或

N-端-I-MsoI-AlcR(1至60)-C-端，或

N-端-AlcR-I-SceI-C-端，或

N-端-AlcR(1至60)-I-SceI-C-端，或

N-端-AlcR-I-CreI-C-端，或

N-端-AlcR(1至60)-I-CreI-C-端，或

N-端-AlcR-I-MsoI-C-端，或

N-端-AlcR(1至60)-I-MsoI-C-端，或

嵌合LAGLIDADG内切核酸酶优选作为与核定位序列（NLS）的融合蛋白表达。该NLS序列能实现进入核中的协助运送并且增加重组系统的效力。本领域技术人员已知有多种NLS序列，它们被JicksGR和RaikhelNV(1995)Annu.Rev.CellBiol.11:155-188等等所描述。对于植物生物来说优选的是，例如，SV40大抗原的NLS序列。例子提供于通过引用并入本文的WO03/060133中。NLS可以是对内切核酸酶和/或DNA结合结构域来说异源的，或者可以是天然包含在内切核酸酶和/或DNA结合结构域内的。

具有核定位信号的嵌合LAGLIDADG内切核酸酶例如SEQIDNOs:8、10、50、51、52、53所描述的。

在一种优选的实施方式中，通过插入内含子序列，修饰编码嵌合LAGLIDADG内切核酸酶的序列。这防止了功能性酶在原核宿主生物中的表达，并且由此协助了克隆和转化程序（例如基于大肠杆菌或农杆菌）。在真核生物中，例如在植物生物中，功能性酶的表达得以实现，因为植物能识别和“剪接”出内含子。优选地，内含子被插入进前文作为优选提到的归巢内切核酸酶（例如插入进I-SceI或I-CreI）。

在另一优选的实施方式中，可通过向嵌合LAGLIDADG内切核酸酶的N-端或C-端添加SecIV分泌信号，来修饰嵌合LAGLIDADG内切核酸酶的氨基酸序列。

在一种优选的实施方式中，SecIV分泌信号是农杆菌Vir蛋白中包含的SecIV分泌信号。此类SecIV分泌信号的例子以及如何应用它们的方法被公开于WO01/89283、Vergunst等人,PositivechargeisanimportantfeatureoftheC-terminaltransportsignaloftheVirB/D4-translocatedproteinsofAgrobacterium,PNAS2005,102,03,832至837页中，上述文献通过引用并入本文。

还可通过以与WO01/38504（通过引用并入本文，其描述了RecA/VirE2融合蛋白）说明书所述相似的方式将Vir蛋白的片段或者甚至完全的Vir蛋白（例如完全的VirE2蛋白）添加至内切核酸酶或嵌合内切核酸酶，来添加SecIV分泌信号。

在另一优选的实施方式中，可通过向嵌合LAGLIDADG内切核酸酶的N-端或C-端添加SecIII分泌信号，来修饰嵌合LAGLIDADG内切核酸酶的氨基酸序列。合适的SecIII分泌信号例如公开于WO00/02996中，该文献通过引用并入本文。

添加SecIII分泌信号的情况下，将该嵌合LAGLIDADG内切核酸酶表达于下述细胞中可以是有利的，所述细胞还包含编码完全的功能性III型分泌系统或其部分的重组构建体，以在此类细胞中过表达或补足完全的功能性III型分泌系统或其部分。编码完全的功能性III型分泌系统或其部分的重组构建体例如公开于WO00/02996和WO05/085417（通过引用并入本文）中。

如果将SecIV分泌信号添加至嵌合LAGLIDADG内切核酸酶并且意图将嵌合LAGLIDADG内切核酸酶表达于例如发根土壤杆菌（Agrobacteriumrhizogenes）或根癌农杆菌（Agrobacteriumtumefaciens）中，那么改造编码嵌合LAGLIDADG内切核酸酶的DNA序列以适应表达生物的密码子使用是有利的。优选地，嵌合LAGLIDADG内切核酸酶不具有或者仅具有很少的表达生物基因组中的DNA识别序列。如果所选择的嵌合LAGLIDADG内切核酸酶不具有农杆菌基因组中的DNA识别序列或较不优选的DNA识别序列，则是进一步更有利的。当意图将嵌合LAGLIDADG内切核酸酶表达于原核生物中时，核酸酶或嵌合核酸酶的编码序列应当没有内含子。

在一种实施方式中，LAGLIDADG内切核酸酶和异源DNA结合结构域经由接头多肽（接头）相连。

优选地，接头多肽由1至30个氨基酸构成，更优选地，由1至20个氨基酸构成，进一步更优选地，由1至10个氨基酸构成。

例如，接头多肽可由选自甘氨酸、丝氨酸、苏氨酸、半胱氨酸、天冬酰胺、谷氨酰胺和脯氨酸构成的组的多个残基组成。

优选地，接头多肽被设计为在生理条件下缺乏二级结构，并且优选是亲水性的。可包括带电荷的或非极性的残基，但是它们可能发生相互作用，形成二级结构，或者可以降低溶解性，并且因此是较不优选的。

在一些实施方式中，接头多肽基本上由选自甘氨酸和丝氨酸的多个残基构成。此类接头的例子具有下述氨基酸序列（以单字母编码表示）：GS，或GGS，或GSGS，或GSGSGS，或GGSGG，或GGSGGSGG，或GSGSGGSG。

接头由至少3个氨基酸构成的情况下，优选地，接头多肽的氨基酸序列包含至少三分之一的甘氨酸或丙氨酸或甘氨酸和丙氨酸。

在一种优选的实施方式中，接头序列具有氨基酸序列GSGS或GSGSGS。

优选地，多肽接头是使用生物信息学工具理论设计的，所述工具对LAGLIDADG内切核酸酶和各DNA识别位点以及异源DNA结合结构域和各DNA结合位点均能建模。合适的生物信息学工具例如被描述于Desjarlais&Berg,(1994),PNAS,90,2256至2260和Desjarlais&Berg(1994),PNAS,91,11099至11103中。

嵌合内切核酸酶的DNA识别序列（嵌合识别序列）：

嵌合内切核酸酶与下述DNA序列结合，所述DNA序列是内切核酸酶的DNA识别序列和异源DNA结合结构域的识别序列的组合。当嵌合内切核酸酶包含超过一个内切核酸酶或超过一个异源DNA结合结构域时，嵌合内切核酸酶将与下述DNA序列结合，所述DNA序列是所使用的内切核酸酶的DNA识别序列和所使用的异源DNA结合结构域的DNA结合序列的组合。明显地，被嵌合内切核酸酶结合的DNA序列将反映内切核酸酶和异源DNA结合结构域组合的顺序。

本领域已知的内切核酸酶能切割大量不同的多核苷酸序列。

术语DNA识别序列和DNA识别位点是同义性使用的，它们表示可被给定的内切核酸酶结合和切割的特定序列的多核苷酸。给定序列的多核苷酸因此可以是针对一种内切核酸酶的DNA识别序列或DNA识别位点，但其也可以是或可以不是针对另外的内切核酸酶的DNA识别序列或DNA识别位点。

可被内切核酸酶结合和切割的多核苷酸序列（即，代表该内切核酸酶的DNA识别序列或DNA识别位点）的例子被描述于表8中：“^”指示DNA识别序列内的序列特异性DNA内切核酸酶切割位点，字母N代表任何核苷酸并且可被A、T、G或C替代。

表8

内切核酸酶不具有严格定义的DNA识别序列，从而单个碱基改变不会使得切割消失，但可降低其效率至可变的程度。本文中针对给定内切核酸酶列出的DNA识别序列仅代表已知能被识别和切割的一个位点。

DNA识别位点的偏差的例子例如被公开于Chevelier等人(2003),J.Mol.Biol.329,253至269，Marcaida等人(2008),PNAS,105(44),16888至16893和Marcaida等人的支持信息（theSupportingInformation）10.1073/pnas.0804795105，Doyon等人(2006),J.AM.CHEM.SOC.128,2477至2484，Argast等人(1998),J.Mol.Biol.280,345至353，Spiegel等人(2006),Structure,14,869至880，Posey等人(2004),Nucl.AcidsRes.32(13),3947至3956，或Chen等人(2009),ProteinEngineering,Design&Selection,22(4),249至256中。

因此可鉴定出具有预定的多核苷酸序列作为DNA识别序列的天然存在的内切核酸酶。

用于鉴定天然存在的内切核酸酶、它们的基因和它们的DNA识别序列的方法例如公开于WO2009/101625中。

可通过测试其在不同底物上的活性，来测试其DNA识别序列的切割特异性或其各自的简并性（degeneration）。合适的体内方法例如公开于WO09074873中。

或者，可使用体外测试，例如通过利用点样于阵列上的经标记的多核苷酸来进行，其中不同的点样基本上仅包含特定序列的多核苷酸，所述多核苷酸不同于不同的点的多核苷酸，并且其可以是或可以不是待测试其活性的内切核酸酶的DNA识别序列。相似方法例如公开于US2009/0197775中。

然而，可突变给定的LAGLIDADG内切核酸酶的氨基酸序列，以结合和切割新的多核苷酸，即，制造具有改变的DNA识别位点的经工程化内切核酸酶。

经工程化内切核酸酶的DNA识别位点的大量例子是本领域已知的，它们被公开于例如WO2005/105989，WO2007/034262，WO2007/047859，WO2007/093918，WO2008/093249，WO2008/102198，WO2008/152524，WO2009/001159，WO2009/059195，WO2009/076292，WO2009/114321，orWO2009/134714WO10/001189和WO10/009147中。

因此，还可制造下述经工程化的内切核酸酶，其将具有与特定的预定多核苷酸序列相同的DNA识别序列。

优选地，内切核酸酶的DNA识别序列和操纵基因（operator）序列被1、2、3、4、5、6、7、8、9、10或更多个碱基对分隔开。优选地，它们被1至10、1至8、1至6、1至4、1至3或2个碱基对分隔开。

用于分隔开核酸酶的DNA识别序列和异源DNA识别结构域的识别序列的碱基对的数量取决于嵌合内切核酸酶中核酸酶的DNA结合区域和异源DNA结合结构域的DNA结合区域的距离。核酸酶的DNA结合区域和异源DNA结合结构域的DNA结合区域之间的较大距离将反映为分隔开核酸酶的DNA识别序列和异源DNA结合结构域的识别序列的较高数量的碱基对。分隔用的碱基对的最优数量可使用计算机模型来测定，或可通过测试给定的嵌合内切核酸酶在若干多核苷酸上的结合和切割效率来测定，所述若干多核苷酸包含变动数量的核酸酶的DNA识别序列和异源DNA结合结构域的识别序列之间的碱基对。

嵌合内切核酸酶的DNA识别序列（各嵌合内切核酸酶的嵌合识别位点或靶位点）的例子是：

具有结构I-SceI-AlcR或I-SceIAlcR(1至60)的嵌合内切核酸酶，优选地，具有SEQIDNO:7、8、9、10、50、51、52和53所描述的氨基酸序列。

I-SceIAlcR或

I-ScelAlcR(1to60)靶位点1cgtgcggatctagggataacagggtaat(SEQIDNO：13)

I-ScelAlcR或

I-ScelAlcR(1to60)靶位点2cgtgcggatcctagggataacagggtaat(SEQIDNO：14)

I-ScelAlcR或

I-ScelAlcR(1to60)靶位点3cgtgcggatcgctagggataacagggtaat(SEQIDNO：15)

I-ScelAlcR或

I-ScelAlcR(1to60)靶位点4cgtgcggatccgctagggataacagggtaat(SEQIDNO：16)

具有结构AlcR(1至60)-I-SceI的嵌合内切核酸酶，优选地，具有SEQIDNO:54、55和56所描述的氨基酸序列

AlcR(1-60)I-Scel或

AlcR-I-Scel靶位点1cgtgcggatcattaccctgttatcccta(SEQIDNO：43)

AlcR(1-60)I-Scel或

AlcR-I-Scel靶位点2cgtgcggatcnattaccctgttatcccta(SEQIDNO：44)

AlcR(1-60)I-Scel或

AlcR-I-Scel靶位点3cgtgcggatcnnattaccctgttatcccta(SEQIDNO：45)

AlcR(1-60)I-Scel或

AlcR-I-Scel靶位点4cgtgcggatcnnnattaccctgttatcccta(SEQIDNO：46)

异源DNA结合结构域的识别序列的例子是：

AlcR和AlcR(1-60)5′-WGCGG-3′

AflR5′-TCGNNNNNCGA-3′(SEQIDNO：164)

Hap15′-CGGNNNTA-3′

Leu35′-RGCCG-3′

其中，A代表腺嘌呤，G代表鸟嘌呤，C代表胞嘧啶，T代表胸腺嘧啶，W代表腺嘌呤或胸腺嘧啶，R代表鸟嘌呤或腺嘌呤，N代表腺嘌呤或鸟嘌呤或胞嘧啶或胸腺嘧啶。

与包含AlcR、AflR、Hap1、Leu3的转录因子及其包含Zn₂C₆锌指的片段的Zn₂C₆锌指结构域同源的Zn₂C₆锌指结构域将与相同或非常相似的结合位点结合，例如AlcR(1-60)将与和AlcR相同或相似的识别序列结合。

多核苷酸：

本发明还包含编码上文所述的嵌合内切核酸酶的经分离的多核苷酸。

此类经分离的多核苷酸的例子是下述经分离的多核苷酸，其编码SEQIDNO:2、3、5、7、8、9、10、50、51、52、53、54、55和56所描述的氨基酸序列，或与SEQIDNO:2、3、5、7、8、9、10、50、51、52、53、54、55和56所描述的任一氨基酸序列具有至少70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的氨基酸序列相似性（优选地，具有至少70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的氨基酸序列同一性）的氨基酸序列。

优选地，经分离的多核苷酸具有针对特定宿主生物中的表达经优化的密码子使用，或具有低含量的RNA不稳定性基序，或具有低含量的密码子重复，或具有低含量的隐蔽剪接位点，或具有低含量的隐蔽多聚A位点，或具有低含量的隐蔽miRNA靶，或具有低含量的备选起始密码子，或具有低含量的限制性位点，或具有低含量的RNA二级结构，或具有上述特征的任何组合。

经分离的多肽的密码子使用可被优化，例如，针对在植物（优选地，选自包含稻、玉米、小麦、油菜、甘蔗、向日葵、甜菜、烟草的组的植物）中的表达来进行。

优选地，经分离的多核苷酸与适于形成下述功能性表达盒的启动子序列和终止子序列组合，所述功能性表达盒用于嵌合内切核酸酶在特定宿主生物中的表达。

合适的启动子例如是组成型启动子、热或病原体诱导型启动子或种子、花粉、花或果特异性启动子。

本领域技术人员知道大量具有这些特征的启动子。

例如，植物中组成型启动子有若干是已知的。它们大多来源于病毒或细菌来源，例如胭脂氨酸合酶（nos）启动子（Shaw等人(1984)NucleicAcidsRes.12(20):7831-7846）、甘露碱合酶（mas）启动子（Co-mai等人(1990)PlantMolBiol15(3):373-381）或章鱼碱合酶（ocs）启动子（Leisner和Gelvin(1988)ProcNatlAcadSciUSA85(5):2553-2557）（来自根癌农杆菌）或来自烟草花叶病毒的CaMV35S启动子（US5,352,605）。后者最经常用于转基因在植物中的组成型表达（Odell等人(1985)Nature313:810-812;Battraw和Hall(1990)PlantMolBiol15:527-538;Benfey等人(1990)EMBOJ9(69):1677-1684;US5,612,472）。但是，CaMV35S启动子不仅在不同的植物物种中展示出可变性，其还在不同的植物组织中展示出可变性（Atanassova等人(1998)PlantMolBiol37:275-85;Battraw和Hall(1990)PlantMolBiol15:527-538;Holtorf等人(1995)PlantMolBiol29:637-646;Jefferson等人(1987)EMBOJ6:3901-3907）。另外的缺点是野生型CaMV病毒对35S启动子的转录调控活性的干扰（Al-Kaff等人(2000)NatureBiotechnology18:995-99）。用于组成型表达的另一病毒启动子是甘蔗杆状病毒（ScBV）启动子（Schenk等人(1999)PlantMolBiol39(6):1221-1230）。

若干植物组成型启动子被描述过，例如，来自拟南芥的泛素启动子（Callis等人(1990)JBiolChem265:12486-12493;HoltorfS等人(1995)PlantMolBiol29:637-747），但其被报道为不能调控选择标记的表达（WO03102198），或两种玉米泛素启动子（Ubi-1和Ubi-2；US5,510,474;US6,020,190;US6,054574），其除了组成型表达情况之外还展示出热激诱导（Christensen等人(1992)Plant.Mol.Biol.18(4):675-689）。基于经稳定转化的拟南芥属植物，对CaMV35S、大麦硫堇启动子和拟南芥属泛素启动子的特异性和表达水平的比较展示出CaMV35S启动子的高表达速率，而硫堇启动子在大多数株系中无活性，并且来自拟南芥属的ubi1启动子仅导致中等表达活性（Holtorf等人(1995)PlantMolBiol29(4):637-6469）。

嵌合识别序列：

本发明还包含含有下述嵌合识别序列的经分离的多核苷酸，所述嵌合识别序列具有大约15至大约300个核苷酸的长度，或大约20至大约200个核苷酸的长度，或大约25至大约100个核苷酸的长度，其包含内切核酸酶的识别序列和异源DNA结合结构域的识别序列。

优选地，经分离的多核苷酸包含归巢内切核酸酶（优选地，LAGLIDADG内切核酸酶）的DNA识别序列。

在一种实施方式中，经分离的多核苷酸包含I-SceI的DNA识别序列。

优选地，经分离的多核苷酸中包含的异源DNA识别结构域的识别序列是转录因子的识别序列。

更优选地，识别序列是转录因子scTet、scArc或AlcR的识别序列。

在一种实施方式中，经分离的多核苷酸包含I-SceI的DNA识别序列和0至10个多核苷酸的接头序列和scTet、scArc或AlcR的识别序列。

在一种实施方式中，经分离的多核苷酸包含选自下组的DNA识别位点或嵌合识别位点的序列，所述组包含SEQIDNO:13、14、15、16、26、27、28、29、33、34、35、36、43、44、45和46。

经分离的多核苷酸可包含嵌合识别位点和编码嵌合核酸酶的多核苷酸序列的组合。

载体：

上文所述的多核苷酸可被包含进适于转化、转染、克隆或过表达的DNA载体。

在一个实例中，上文所述的多核苷酸包含于用于转化非人生物或细胞的载体中，优选地，非人生物是植物或植物细胞。

本发明的载体通常包含另外的功能元件，这可包括但不限于：

i）复制起点，其确保根据本发明的表达盒或载体在例如大肠杆菌中的复制。可被提到的例子是ORI（DNA复制起点）、pBR322ori或P15Aori（Sam-brook等人:MolecularCloning.ALaboratoryManual,第2版，ColdSpringHarborLaboratoryPress,ColdSpringHarbor,NY,1989）。

ii）多克隆位点（MCS），用于实现和协助一条或多条核酸序列的插入。

iii）使得能同源重组或插入进宿主生物基因组中的序列。

iv）元件，例如边界序列，其使得能在植物细胞中进行农杆菌介导的转移，用于转移和整合进植物基因组，例如，T-DNA的右边界或左边界或vir区域。

标记序列

术语“标记序列”应当以广义被理解为包括能协助缺失、鉴定或选择经转化的细胞、组织或生物（例如植物）的所有核苷酸序列（和/或由其翻译的多肽序列）。术语“允许对经转化的植物材料加以选择的序列”、“选择标记”或“选择标记基因”或“选择标记蛋白”或“标记”具有基本上相同的含义。

标记可包括（但不限于）可选择标记和可筛选标记。可选择标记向细胞或生物赋予导致生长或存活差异的表型。可选择标记可与选择试剂（例如除草剂或抗生素或前药）相互作用，以带来该表型。可筛选标记向细胞或生物赋予易于检测到的表型，优选地，视觉可检测的表型，例如颜色或染色。可筛选标记可与筛选试剂（例如染料）相互作用以带来该表型。

可选择标记（或可选择标记序列）包括但不限于：

a）阴性选择标记，其赋予针对一种或多种毒性（植物的情况下，植物毒性）试剂（例如抗生素、除草剂或其它生物杀灭剂）的抗性，

b）反向选择标记，其赋予针对某些化学化合物（例如，通过将非毒性化合物转化成毒性化合物）的敏感性，以及

c）阳性选择标记，其赋予生长优势（例如通过表达细胞分裂素或激素生物合成的关键元素，导致植物激素（例如生长素、赤霉素、细胞分裂素、脱落酸和乙烯）的产生来实现；Ebi-numaH等人(2000)ProcNatlAcadSciUSA94:2117-2121）。

当使用阴性选择标记时，仅包含所述阴性选择标记的细胞或植物被选择。当使用反向选择标记时，仅缺乏所述反向选择标记的细胞或植物被选择。反向选择标记可用于验证序列（包含所述反向选择标记）从基因组的成功切除。可筛选标记包括但不限于报道基因（例如，荧光素酶、葡糖醛酸糖苷酶、氯霉素乙酰转移酶（CAT等等）。优选地标记序列包括但不限于：

i）阴性选择标记

一般来说，阴性选择标记可用于选择成功经历了转化的细胞。已引入本发明的DNA构建体的阴性选择标记可向成功经历转化的细胞赋予对下述物质的抗性：生物杀灭剂或植物毒性试剂（例如，除草剂，例如膦丝菌素、草甘膦或溴苯腈），代谢抑制剂（例如2-脱氧葡糖-6-磷酸）（WO98/45456）或抗生素（例如，四环素、氨苄青霉素、卡那霉素、G418、新霉素、博来霉素或潮霉素）。阴性选择标记允许选出经转化的细胞，将其与未经转化的细胞分开（McCormick等人(1986)PlantCellReports5:81-84）。本发明载体中的阴性选择标记可用于在超过一种生物中赋予抗性。例如，本发明的载体可包含用于在细菌（例如大肠杆菌或农杆菌）和植物中扩增的选择标记。用于大肠杆菌的可选择标记的例子包括：指定对抗生素（即氨苄青霉素、四环素、卡那霉素、红霉素）的抗性的基因，或赋予其它类型的可选择酶活性（例如半乳糖苷酶）的基因，或乳糖操纵子。用于哺乳动物细胞中的合适的可选择标记包括，例如，二氢叶酸还原酶基因（DHFR）、胸苷激酶基因（TK），或赋予药物抗性的原核基因，gpt（黄嘌呤-鸟嘌呤磷酸核糖转移酶基因，其可用霉酚酸来选择）；neo（新霉素磷酸转移酶），其可用G418、潮霉素或嘌呤霉素来选择；和DHFR（二氢叶酸还原酶），其可用甲氨蝶呤来选择（Mulligan&Berg(1981)ProcNatlAcadSciUSA78:2072;Southern&Berg(1982)JMolApplGenet1:327）。用于植物细胞的选择标记通常赋予对生物杀灭剂或抗生素（例如卡那霉素、G418、博来霉素、潮霉素或氯霉素）的抗性，或除草剂抗性，例如对氯磺隆（chlorsulfuron）或Basta的抗性。

尤其优选的阴性选择标记是赋予对除草剂抗性的那些。阴性选择标记的例子是：

-编码膦丝菌素乙酰转移酶（PAT）的DNA序列，其将谷氨酰胺合酶抑制剂膦丝菌素（PPT）的游离氨基基团乙酰化，并由此导致PPT去毒（deBlock等人(1987)EMBOJ6:2513-2518）（也被称为双丙氨磷抗性基因bar；EP242236），

-5-烯醇丙酮莽草酸-3-磷酸合酶基因（EPSP合酶基因），其赋予对草甘膦（N-(膦酰甲基)甘氨酸）的抗性，

-gox基因，其编码降解草甘膦的酶，草甘膦氧化还原酶（Glyphosateoxidoreductase），

-deh基因（编码使得茅草枯失活的脱卤素酶），

-乙酰乳酸合酶，其赋予对磺脲和咪唑啉酮的抗性，

-bxn基因，其编码降解溴苯腈的腈水解酶，

-卡那霉素或G418抗性基因（NPTII）。NPTII基因编码新霉素磷酸转移酶，其因为磷酸化反应而降低卡那霉素、新霉素、G418和巴龙霉素的抑制作用（Beck等人(1982)Gene19:327），

-DOGR1基因。DOGR1基因已从酿酒酵母中分离（EP0807836）。其编码2-脱氧葡糖-6-磷酸磷酸酶，这赋予对2-DOG的抗性（Randez-Gil等人(1995)Yeast11:1233-1240）。

-hyg基因，其编码潮霉素磷酸转移酶，并且赋予对抗生素潮霉素的抗性（Gritz和Davies(1983)Gene25:179）；

-尤其优选的是赋予针对D-氨基酸（例如D-丙氨酸和D-丝氨酸）施加的毒性作用的抗性的阴性选择标记（WO03/060133;Erikson2004）。本发明范畴内作为阴性选择标记尤其优选的是来自瘦弱红酵母（Rhodotorulagracilis）（圆红冬孢酵母菌(Rhodosporidiumtoruloides)）的daol基因（EC:1.4.3.3:GenBankAcc.-No.:U60066）和大肠杆菌基因dsdA（D-丝氨酸脱水酶（D-丝氨酸脱氨酶））（EC:4.3.1.18;GenBankAcc.-No.:J01603）。

ii）阳性选择标记

阳性选择标记包含但不限于生长刺激性选择标记基因，例如来自根癌农杆菌的异戊烯基转移酶（菌株：PO22：GenbankAcc.-No.:AB025109）可——作为细胞分裂素生物合成的关键酶——协助经转化植物的再生（例如通过在不含细胞分裂素的培养基上的选择）。相应的选择方法描述在EbinumaH等人(2000)ProcNatlAcadSciUSA94:2117-2121;EbinumaH等人(2000)SelectionofMarker-freetransgenicplantsusingtheoncogenes(ipt,rolA,B,C)ofAgrobacteriumasselectablemarkers,InMolecularBiologyofWoodyPlants.KluwerAcademicPublishers。向经转化的植物赋予较之未经转化的植物而言的生长优势的另外的阳性选择标记被描述于例如EP-A0601092中。生长刺激选择标记可包括（但不限于）β-葡糖醛酸糖苷酶（与例如细胞分裂素葡糖醛酸苷组合）、甘露糖-6-磷酸异构酶（与甘露糖组合）、UDP-半乳糖-4-差向异构酶（与例如半乳糖组合），其中与甘露糖组合的甘露糖-6-磷酸异构酶是尤其优选的。

iii）反向选择标记

反向选择标记使得能选择具有成功缺失了序列的生物（KoprekT等人(1999)PlantJ19(6):719-726）。TK胸苷激酶（TK）和白喉毒素A片段（DT-A），编码胞嘧啶脱氨酶的codA基因（GleveAP等人(1999)PlantMolBiol40(2):223-35;PereatRI等人(1993)PlantMolBiol23(4):793-799;StougaardJ(1993)PlantJ3:755-761），细胞色素P450基因（Koprek等人(1999)PlantJ16:719-726），编码卤代烷脱卤素酶的基因（NaestedH(1999)PlantJ18:571-576），iaaH基因（SundaresanV等人(1995)Genes&Development9:1797-1810），tms2基因（FedoroffNV&SmithDL(1993)PlantJ3:273-289）和通过转化D-氨基酸导致毒性作用的D-氨基酸氧化酶（WO03/060133）。

在一种优选的实施方式中，切除盒包括至少一个所述反向选择标记，以将已成功切除了序列的植物细胞或植物与仍含有所述序列的植物区分开。在一种更优选的实施方式中，本发明的切除盒包含双功能标记，即，可用作为阴性选择标记和反向选择标记二者的标记，这取决于选择流程中所使用的底物。双功能标记的一个例子是来自瘦弱红酵母的daol基因（EC:1.4.3.3:GenBankAcc.-No.:U60066），采用如D-丙氨酸和D-丝氨酸等D-氨基酸时，其可用作为阴性选择标记，采用D-异亮氨酸和D-缬氨酸等D-氨基酸是，其可用作为反向选择标记（见欧洲专利申请No.:04006358.8）。

iv）可筛选标记（报道基因）

可筛选标记（例如报道基因）编码可易于定量或检测的蛋白，并且其通过内在颜色或酶活性确保对转化效力或表达的位置或时机的评估。尤其优选的是编码报道蛋白的基因（还见SchenbornE,GroskreutzD.(1999)MolBiotechnol13(1):29-44），例如

-“绿色荧光蛋白”（GFP）（ChuiWL等人(1996)CurrBiol6:325-330;Lef-felSM等人(1997)Biotechniques23(5):912-8;Sheen等人(1995)PlantJ8(5):777-784;Haseloff等人(1997)ProcNatlAcadSciUSA94(6):2122-2127;Reichel等人(1996)ProcNatlAcadSciUSA93(12):5888-5893;Tian等人(1997)PlantCellRep16:267-271;WO97/41228）。

-氯霉素转移酶，

-荧光素酶（Millar等人(1992)PlantMolBiolRep10:324-414;Ow等人(1986)Science234:856-859）允许通过对生物发光的检测进行选择，

-β-半乳糖苷酶，编码可获得多种生色底物的酶，

-β-葡糖醛酸糖苷酶（GUS）（Jefferson等人(1987)EMBOJ6:3901-3907）或uidA基因，其编码针对多种生色底物的酶，

-R基因座基因产物：调控花青素色素（红色）在植物组织中的产生的蛋白质，其由此使得能在不添加额外的佐剂或生色底物的情况下对启动子活性进行直接分析（Dellaporta等人(1988)In:ChromosomeStructureandFunction:ImpactofNewConcepts,18thStadlerGeneticsSymposium,11:263-282），

-β-内酰胺酶（Sutcliffe(1978)ProcNatlAcadSciUSA75:3737-3741），针对多种生色底物的酶（例如，PADAC，生色的头孢菌素），

-xylE基因产物（Zukowsky等人(1983)ProcNatlAcadSciUSA80:1101-1105），能转化生色儿茶酚的儿茶酚双加氧酶，

-α-淀粉酶（Ikuta等人(1990)Bio/technol.8:241-242），

-酪氨酸酶（Katz等人(1983)JGeneMicrobiol129:2703-2714），氧化酪氨酸产生DOPA和多巴醌的酶，多巴醌随后形成易于被检测的黑素，

-水母发光蛋白（Prasher等人(1985)BiochemBiophysResCommun126(3):1259-1268），可用于钙敏感性的生物发光检测。

靶生物

适于转化或递送嵌合内切核酸酶的任何生物可用作为靶生物。这包括原核生物、真核生物和古细菌，特别是非人生物、植物、真菌或酵母，以及人或动物细胞。

在一种实施方式中，靶生物是植物。

术语“植物”包括整株植物，苗营养器官/结构（例如叶、茎和块茎）、根、花和花器官/结构（例如苞叶、萼片、花瓣、雄蕊、心皮、花药和胚珠），种子（包括胚、胚乳和种皮）和果实（成熟的子房），植物组织（例如维管组织，基本组织等等）和细胞（例如保卫细胞、卵细胞、毛状体等等）及它们的后代。可用于本发明的植物的纲通常广至可接受转化技术的高等植物和低等植物的纲，包括被子植物（单子叶植物和双子叶植物）、裸子植物、蕨类植物和多细胞藻类。其包括多种倍体水平的植物，包括非整倍体、多倍体、二倍体、单倍体和半合子的植物。

本发明的范围内包括植物界高等植物和低等植物的所有属和种。还包括成熟的植物、种子、苗和幼苗，以及源于其的部分、繁殖材料（例如种子和果实）和培养物，例如细胞培养物。

优选的是下述植物科的植物和植物材料：苋科、十字花科、石竹科、藜科、菊科、葫芦科、唇形科、豆科、蝶形花亚科、百合科、亚麻科、锦葵科、蔷薇科、虎耳草科、玄参科、茄科、番杏科（Tetragoniaceae）。

一年生、多年生、单子叶植物和双子叶植物是用于产生转基因植物的优选宿主生物。此外，根据本发明的重组系统的用途或方法在所有观赏植物，有价值或观赏树、花、切花、灌木或草皮中是有利的。所述植物可包括但不限于：苔藓类（bryophytes），例如苔纲（Hepaticae）（地钱属（hepatica））和藓纲（Musci）（苔藓（mosse））；蕨类植物（pteridophyte），例如羊齿类（fern）、马尾（horsetail）和石松（club-mosses）；裸子植物，例如松柏科植物（conifer）、苏铁科植物（cycad）、银杏（ginkgo）和买麻藤科（Gnetaeae）；藻类，例如绿藻纲（Chlorophyceae）、褐藻纲（Phaeophpyceae）、红藻纲（Rhodophyceae）、Myxophyceae、黄藻纲（Xanthophyceae）、硅藻纲（Bacillariophyceae）（硅藻（diatoms））和裸藻纲（Euglenophyceae）。

用于本发明目的的植物可包含：蔷薇科，例如玫瑰，杜鹃花科，例如杜鹃花属植物（rhododendrons）和杜鹃（azaleas），大戟科，例如一品红（poinsettias）和巴豆（croton），石竹科，例如香石竹（pinks），茄科，例如碧冬茄属（petunias），苦苣苔科，例如非洲紫罗兰（Africanviolet），凤仙花科，例如凤仙花（touchmenot）,兰科，例如兰花（orchid），鸢尾科，例如唐菖蒲（gladioli）、鸢尾（iris）、小苍兰（freesia）和番红花属植物（crocus），菊科，例如金盏花（marigold），牻牛儿苗科，例如老鹳草属植物（geraniums），百合科，例如龙血树属植物（drachaena），桑科，例如榕属植物（ficus），天南星科，例如蔓绿绒（philodendron）等等。

根据本发明的转基因植物还特别选自双子叶作物植物，例如，来自下述科的植物：豆科，例如豌豆、苜蓿和大豆；茄科，例如烟草等等；伞形科，特别是胡萝卜属（非常特别是胡萝卜种（胡萝卜））和芹属（非常特别是旱芹种（graveolensdulce）（芹菜））等等；茄科，特别是番茄属，非常特别是普通栽培种番茄种（esculentum）（西红柿），和茄属，非常特别是马铃薯种（tuberosum）（马铃薯）和茄子种（melongena）（茄子（au-bergine））等等；和辣椒属，非常特别是甜椒种（annum）（胡椒（pepper））等等；豆科，特别是大豆属，非常特别是大豆种（大豆）等等；和十字花科，特别是芸苔属，非常特别是欧洲油菜种（napus）（油菜）、芸苔油菜种（campestris）（甜菜）、oleraceacvTastie种（卷心菜）、球叶甘蓝种（oleraceacvSnowballY）（花椰菜）和oleraceacvEmperor种（西兰花(broccoli)）；和拟南芥属，非常特别是拟南芥种等等；菊科，特别是莴苣属，非常特别是sativa（莴苣(lettuce)）等等。

根据本发明的转基因植物特别选自单子叶作物植物，例如，谷物，例如小麦、大麦、高粱和黍、黑麦、黑小麦、玉米、稻或燕麦以及甘蔗。

尤其优选的是拟南芥（Arabidopsisthaliana）、烟草（Nicotianatabacum）、油菜、大豆、玉米（苞谷）、小麦、亚麻籽、马铃薯和万寿菊。

用于本发明目的的植物生物还可以是能光合作用的其它生物，例如，藻类或蓝细菌，以及还有苔藓。优选的藻类是绿藻，例如，红球藻属（Haematococcus）的藻类、三角褐指藻(Phaedactylumtricornatum)、团藻属（Volvox）或杜氏藻属（Dunaliella）。

可被人或动物消耗的根据本发明的经遗传修饰的植物还可用作为植物或饲料，例如直接使用或在本领域已知的加工之后使用。

多核苷酸构建体的构建

典型地，使用转基因表达技术来制备将被引入非人生物或细胞（例如植物或植物细胞）的多核苷酸构建体（例如，用于表达盒）。重组表达技术涉及重组核酸的构建和基因在经转染细胞中的表达。实现这些目标的分子克隆技术是本领域中已知的。适于构建重组核酸的多种克隆和体外扩增方法是本领域技术人员公知的。这些技术和足以指导本领域技术人员通过很多克隆练习的说明的例子见于Berger和Kimmel,GuidetoMolecularCloningTechniques,MethodsinEnzymology,Vol.152,AcademicPress,hic.,SanDiego,CA(Berger);CurrentProtocolsinMolecularBiology,F.M.Ausubel等人编著,CurrentProtocols,ajointventurebetweenGreenePublish-ingAssociates,Inc.和JohnWiley&Sons,Inc.,(1998Supplement),T.Maniatis,E.F.Fritsch和J.Sambrook,MolecularCloning:ALaboratoryManual,ColdSpringHarborLaboratory,ColdSpringHarbor,NY(1989),T.J.Silhavy,M.L.Berman和L.W.Enquist,ExperimentswithGeneFusions,ColdSpringHarborLaboratory,ColdSpringHarbor,NY(1984)。优选地，用于本发明的DNA构建体是通过使用技术人员熟悉的重组和克隆技术将DNA构建体的上述必要组件与上述序列连到一起来产生的。

构建多核苷酸构建体通常需要使用能在细菌中复制的载体。可商业获得大量的试剂盒用于从细菌纯化质粒。经分离和纯化的质粒然后被进一步操作，以产生其它质粒，用于转染细胞或整合入根癌农杆菌或发根土壤杆菌中以感染和转化植物。农杆菌是转化手段的情况下，构建穿梭质粒。

将构建体引入靶细胞的方法

可将用于本发明的DNA构建体有利地引入细胞，这使用向其中插入了所述DNA构建体的载体而进行。载体的例子可以是质粒、粘粒、噬菌体、病毒、逆转录病毒或农杆菌。在一种有利的实施方式中，表达盒是通过质粒载体引入的。优选地载体是能将表达盒稳定整合进宿主基因组的那些。

可通过本领域技术人员已知的若干手段中的任何被称为“转化”的程序，来将DNA构建体引入靶植物细胞和/或生物（还见Keown等人(1990)MethEnzymol185:527-537）。例如，可通过多种常规技术，将DNA构建体引入或者在培养物中的细胞，或者在植物器官中的细胞。例如，可使用弹击（ballistic）方法，例如DNA颗粒轰击，将DNA构建体直接引入植物细胞，或者可使用诸如对细胞的显微注射和电穿孔等技术来引入DNA构建体。颗粒介导的转化技术（也被称为“生物弹”）被描述于例如Klein等人(1987)Nature327:70-73;VasilV等人(1993)BiolTechnol11:1553-1558；和BeckerD等人(1994)PlantJ5:299-307中。这些方法涉及用小颗粒穿透细胞，所述颗粒具有位于小珠粒或颗粒基质内或位于表面上的核酸。生物弹PDS-1000基因枪（Biorad,Hercules，加利福尼亚州）使用氦气压来加速包覆有DNA的金或钨微载体冲向靶细胞。该过程可应用于广范围的来自生物（包括植物）的组织和细胞。本领域技术人员还已知其它转化方法。

显微注射技术是本领域已知的，其已被描述于科学和专利文献中。此外，可用化学方式来透过细胞，例如使用聚乙二醇，使得DNA可通过扩散进入细胞。还可使用其它含有DNA的单元，例如，微细胞（minicells）、细胞、溶酶体或脂质体，通过原生质体融合来引入DNA。使用聚乙二醇（PEG）沉淀来引入DNA构建体描述于Paszkowski等人(1984)EMBOJ3:2717中。基于脂质体的基因递送例如描述于WO93/24640;Mannino和Gould-Fogerite(1988)BioTechniques6(7):682-691;US5,279,833;WO91/06309和Felgner等人(1987)ProcNatlAcadSciUSA84:7413-7414)中。

引入DNA的另一合适方法是电穿孔，其中通过电脉冲使得细胞可逆性透过。电穿孔技术描述于Fromm等人(1985)ProcNatlAcadSciUSA82:5824中。PEG介导的转化和对植物原生质体电穿孔也被讨论于LazzeriP(1995)MethodsMolBiol49:95-106中。可被提到的优选一般方法是磷酸钙介导的转染、DEZE-葡聚糖介导的转染、阳离子脂质介导的转染、电穿孔、转导和感染。此类方法是技术人员已知的，并描述于例如Davis等人,BasicMethodsInMolecularBiology(1986)中。关于对植物和细胞培养物的基因转移方法的综述，见Fisk等人(1993)ScientiaHorticulturae55:5-36和Potrykus(1990)CIBAFoundSymp154:198。

用于在单子叶植物和双子叶植物中引入和表达异源基因的方法是已知的。见例如US5,633,446,US5,317,096,US5,689,052,US5,159,135和US5,679,558;Weising等人(1988)Ann.Rev.Genet.22:421-477。特别地，对单子叶植物的转化可使用多种技术，包括电穿孔（例如Shimamoto等人(1992)Nature338:274-276）；生物弹（例如EP-A1270,356）和农杆菌（例如Bytebier等人(1987)ProcNatlAcadSciUSA84:5345-5349）。

在植物中，技术人员熟悉的用于从植物组织或植物细胞转化和再生植物的方法被用于瞬时或稳定转化。合适的方法尤其是通过聚乙二醇诱导的DNA摄入进行的原生质体转化、生物弹方法如基因枪（“颗粒轰击”方法）、电穿孔、在含DNA的溶液中孵育干胚胎、超声波处理和显微注射、以及通过显微注射或宏观注射进组织或胚胎来转化完整细胞或组织、组织电穿孔、或对种子的真空渗入。在将DNA注射或电穿孔进植物细胞的情况下，使用的质粒不需要满足任何特别需求。可以使用简单的质粒，例如pUC系列的那些。如果要从经转化的细胞再生完整的植物，质粒上存在额外的可选择标记基因是有用的。

除了这些“直接”转化技术之外，还可通过经由根癌农杆菌或发根土壤杆菌进行细菌感染来进行转化。这些菌株含有质粒（Ti或Ri质粒）。该质粒被称为T-DNA（转移的DNA）的部分在农杆菌感染之后被转移至植物，并整合进植物细胞的基因组。

为对植物进行农杆菌介导的转化，可将本发明的DNA构建体与合适的T-DNA侧翼区域组合，并将其引入常规的根癌农杆菌宿主载体。当细胞被细菌感染时，根癌农杆菌宿主的毒力功能将引导转基因和邻近的标记基因（如果有的话）插入进植物细胞DNA中。根癌农杆菌介导的转化技术被充分地描述于科学文献中。见例如，Horsch等人(1984)Science233:496-498,Fraley等人(1983)ProcNatlAcadSciUSA80:4803-4807,Hooykaas(1989)PlantMolBiol13:327-336,HorschRB(1986)ProcNatlAcadSciUSA83(8):2571-2575),Bevans等人(1983)Nature304:184-187,Bechtold等人(1993)ComptesRendusDeL’AcademieDesSciencesSerieIII-SciencesDeLaVie-LifeSciences316:1194-1199,Valvekens等人(1988)ProcNatlAcadSciUSA85:5536-5540。

本发明的DNA构建体优选整合进特定质粒载体，或者整合进穿梭载体或者中间载体，或整合进二元载体。如果例如将用Ti或Ri质粒进行转化的话，将Ti或Ri质粒T-DNA的至少右边界（但在大多数情况下是右边界和左边界）作为侧翼区域与待引入表达盒相连。二元载体是优选使用的。二元载体在大肠杆菌和农杆菌二者中均能复制。一般来说，它们含有选择标记基因和接头或多聚接头（侧翼有右或左T-DNA侧翼序列）。它们可直接转化进农杆菌（Holsters等人(1978)MolGenGenet163:181-187）。选择标记基因允许选择经转化的农杆菌，其例如是赋予卡那霉素抗性的nptII基因。在该情况下作为宿主生物发挥作用的农杆菌应当已经含有具有vir区域的质粒。后者是将T-DNA转移进植物细胞所需要的。由此转化的农杆菌可用于转化植物细胞。

很多根癌农杆菌菌株能转移遗传材料（例如根据本发明的DNA构建体），例如，菌株HA101(pEHA101)(HoodEE等人(1996)JBacteriol168(3):1291-1301)、EHA105(pEHA105)(Hood等人1993,TransgenicResearch2,208-218)、LBA4404(pAL4404)(Hoekema等人(1983)Nature303:179-181)、C58C1(pMP90)(Koncz和Schell(1986)MolGenGenet204,383-396)和C58C1(pGV2260)(De-blaere等人(1985)NuclAcidsRes.13,4777-4788)。

除了包含其卸甲Ti质粒之外，用于转化的农杆菌菌株还包含具有待转移的T-DNA的二元质粒，其原则上包含用于选择经转化的细胞的基因和待被转移的基因。两个基因都必须装备有转录和翻译起始及终止信号。二元质粒可转移进农杆菌菌株，例如通过电穿孔或其它转化方法来进行（Mozo&Hooykaas(1991)PlantMolBiol16:917-918）。对植物外植体与农杆菌菌株的共培养通常进行两至三天。

可使用多种载体。原则上，人们对这些载体进行辨别，哪些能用于农杆菌介导的转化或农杆菌感染，即，哪些在T-DNA内包含本发明的DNA构建体，哪些确实允许T-DNA稳定整合进植物基因组。此外，不含边界序列的载体也可使用，可例如通过颗粒轰击将其转化进植物细胞，在所述植物细胞中它们可产生瞬时表达和稳定表达二者。

T-DNA用于转化植物细胞的用途已被广泛研究和描述过（EP-A1120516;Hoekema,In:TheBinaryPlantVectorSystem,Offset-drukkerijKantersB.V.,Alblasserdam,ChapterV;Fraley等人(1985)CritRevPlantSci4:1-45和An等人(1985)EMBOJ4:277-287）。多种二元载体是已知的，它们中一些可商业获得，例如pBIN19（ClontechLaboratories,Inc.美国）。

为将DNA转移至植物细胞，将植物外植体与根癌农杆菌或发根土壤杆菌共培养。可使用合适的培养基（其可含有例如用于选择经转化细胞的抗生素或生物杀灭剂），从被感染的植物材料（例如叶、根或茎的切片，也包括原生质体或植物细胞的悬浮液）开始，再生完整的植物。然后可针对引入的DNA（该情况下，是根据本发明的DNA构建体）的存在，对获得的植物加以筛选。一旦DNA已被整合进宿主基因组，目的基因型一般来说就是稳定的，目的插入物也被发现于随后的世代中。一般来说，整合的表达盒含有选择标记，其向经转化的植物赋予对生物杀灭剂（例如除草剂）或抗生素（例如卡那霉素、G418、博来霉素、潮霉素或膦丝菌素等等）的抗性。选择标记允许选择经转化的细胞（McCormick等人,PlantCellReports5(1986),81-84）。获得的植物可以以惯常方式被培养和杂交。为确保基因组整合稳定且可传承，应当生长两个或多个世代。

上述方法被描述于例如B.Jenes等人,TechniquesforGeneTransfer,于:TransgenicPlants,Vol.1,EngineeringandUtilization,由SDKung和RWu编辑,AcademicPress(1993),128-143，以及于Potrykus(1991)AnnuRevPlantPhysiolPlantMolecBiol42:205-225中。待表达的构建体优选被克隆进适于对根癌农杆菌进行转化的载体，例如pBin19（Bevan等人(1984)NuclAcidsRes12:8711）。

本发明的DNA构建体可被用于向基本上任何植物赋予想要的性状。技术人员将认知到，DNA构建体稳定整合入转基因植物并且被确认是可操纵的之后，就可通过有性杂交被引入其它植物。可使用大量标准育种技术中的任何技术，这取决于待被杂交的物种。

或者，核酸酶和嵌合内切核酸酶可瞬时表达。嵌合内切核酸酶可作为递送进靶细胞的DNA或RNA瞬时表达，和/或可作为蛋白质被递送。作为蛋白质递送可在细胞穿透肽的帮助下实现，或者可通过与融合至核酸酶或嵌合内切核酸酶的SEciV信号肽的融合来实现，所述信号肽介导了从递送生物至靶生物细胞的分泌，例如，从发根土壤杆菌或根癌农杆菌分泌进植物细胞。

转基因植物的再生

如果可选择标记是引入的DNA的一部分的话，可将经转化的细胞（即，包含整合进宿主细胞的DNA的DNA的那些）与未经转化的细胞选择分开。标记可以是例如能赋予对抗生素或除草剂的抗性的任何基因（例如见上文所述）。表达此类标记基因的经转化细胞能在存在浓度将杀死未经转化的野生型的合适抗生素或除草剂的情况下存活。一旦经转化的植物细胞产生后，即可使用技术人员已知的方法来获得完整的植物。例如，愈伤组织被用作为起始材料。可以以已知的方式，在此尚未经分化的细胞生物量中诱导苗和根的形成。获得的苗可被种植和培养。

通过上述任何转化技术获得的经转化的植物细胞可被培养，以再生具有经转化的基因型以及由此具有想要的表型的整株植物。此类再生技术依赖于对组织培养物生长培养基中某些植物激素的操纵，典型地，依赖于已与想要的核苷酸序列一起被引入的生物杀灭剂和/或除草剂标记。来自培养的原生质体的植物再生描述于Evans等人,ProtoplastsIsolationandCulture,HandbookofPlantCellCulture,pp.124176,MacmillianPublishingCompany,NewYork(1983)以及Binding,RegenerationofPlants,PlantProtoplasts,pp.21-73,CRCPress,BocaRaton,(1985)中。还可从植物愈伤组织、外植体、体细胞胚（Dandekar等人(1989)JTissueCultMeth12:145;McGranahan等人(1990)PlantCellRep8:512）、器官或其部分获得再生。此类再生技术被一般性地描述于Klee等人(1987)AnnRevPlantPhysiol38:467-486中。

与其它重组增强技术的组合

在另一优选的实施方式中，通过与促进同源重组的系统组合来增加重组系统的效力。此类系统被描述过，它们包括，例如，诸如RecA等的蛋白的表达，或用PARP抑制剂进行处理。已经展示，可使用PARP抑制剂增加烟草植物中的染色体内同源重组（PuchtaH等人(1995)PlantJ.7:203-210）。使用这些抑制剂，诱导序列特异性DNA双链断裂之后重组盒中的同源重组速率以及由此对转基因序列加以缺失的效力，可被进一步增加。若干种PARP抑制剂可用于该目的。优选包括抑制剂例如，3-氨基苯甲酰胺、8-羟基-2-甲基喹唑啉（methylquinazolin）-4-酮（NU1025）、1,11b-二氢-(2H)苯并吡喃(4,3,2-de)异喹啉-3-酮（GPI6150）、5-氨基异喹啉酮、3,4-二氢-5-(4-(1-哌啶基)丁氧基)-1(2H)-异喹啉酮或WO00/26192、WO00/29384、WO00/32579、WO00/64878、WO00/68206、WO00/67734、WO01/23386和WO01/23390中描述的化合物。

此外，可通过表达大肠杆菌RecA基因增加植物中多种同源重组反应的频率（ReissB等人(1996)ProcNatlAcadSciUSA93(7):3094-3098）。此外，蛋白质的存在使得同源和异常DSB修复之间的比例倾向于同源修复（ReissB等人(2000)ProcNatlAcadSciUSA97(7):3358-3363）。还可参照WO97/08331中描述的方法，用于增加植物中的同源重组。也可通过RecA基因或增加同源重组效力的其它基因的同时表达，实现重组系统效力的进一步增加（ShalevG等人(1999)ProcNatlAcadSciUSA96(13):7398-402）。上述用于促进同源重组的系统还可有利地用于重组构建体将被以定点方式通过同源重组引入真核生物基因组的情况下。

提供嵌合LAGLIDADG内切核酸酶的方法：

本发明提供了提供上文所述的嵌合LAGLIDADG内切核酸酶的方法。

所述方法包括下述步骤：

a.提供至少一个LAGLIDADG内切核酸酶编码区域，

b.提供至少一个异源DNA结合结构域编码区域，

c.提供具有步骤a）的一个或多个LAGLIDADG内切核酸酶的一个或多个可能的DNA识别序列并且具有步骤b）的一个或多个异源DNA结合结构域的一个或多个可能的识别序列的多核苷酸，

d.制造步骤b）的所有LAGLIDADG内切核酸酶的编码区域和步骤c）的所有异源DNA结合结构域的翻译融合体，

e.从来自步骤d）制造的翻译融合体表达嵌合LAGLIDADG内切核酸酶，

f.针对对步骤c）的多核苷酸的切割，测试步骤e）中表达的嵌合LAGLIDADG内切核酸酶。

取决于想要的目的，方法步骤a）、b）、c）和d）可以以变动的顺序来使用。例如，所述方法可用于提供至少一个LAGLIDADG内切核酸酶和至少一个异源DNA结合结构域的特定组合，以及之后提供下述多核苷酸，所述多核苷酸包含反映出至少一个LAGLIDADG核酸酶和至少一个异源DNA结合位点在翻译融合体中排列的顺序的可能的DNA识别位点和可能的识别位点，并且针对在下述多核苷酸上的切割活性对嵌合LAGLIDADG内切核苷酸加以测试，所述多核苷酸具有针对LAGLIDADG核酸酶和嵌合LAGLIDADG内切核酸酶包含的异源DNA结合结构域的可能的DNA识别位点和可能的识别位点，以及选择被嵌合LAGLIDADG内切核酸酶切割的至少一个多核苷酸。

所述方法还可用于针对在预先选择的多核苷酸上的切割活性来设计嵌合LAGLIDADG内切核酸酶，这通过下述方式进行，首先提供具有特定序列的多核苷酸，之后选择至少一个LAGLIDADG内切核酸酶和至少一个异源DNA结合结构域，它们具有在所述多核苷酸的核苷酸序列中不重叠的可能的DNA识别位点和可能的识别位点，制造所述至少一个LAGLIDADG内切核酸酶和所述至少一个异源DNA结合结构域的翻译融合体，表达所述翻译融合体编码的嵌合LAGLIDADG内切核酸酶，以及测试嵌合LAGLIDADG内切核酸酶在预先选择的多核苷酸序列上的切割活性，以及选择具有此类切割活性的嵌合LAGLIDADG内切核酸酶。

该方法可用于设计具有增强的在特定多核苷酸上的切割活性的嵌合LAGLIDADG内切核酸酶，例如，如果多核苷酸包含核酸酶的DNA识别位点，将可能鉴定出异源DNA结合结构域的可能的识别位点，其可用于制造包含所述核酸酶和所述异源DNA结合结构域的嵌合LAGLIDADG内切核酸酶。

或者，该方法还可用于制造下述嵌合LAGLIDADG内切核酸酶，所述嵌合LAGLIDADG内切核酸酶对包含异源DNA结合结构域的识别位点的特定多核苷酸具有切割活性。例如，当已知所述特定多核苷酸能被异源DNA结合结构域结合时，即可鉴定出下述LAGLIDADG内切核酸酶，所述LAGLIDADG内切核酸酶具有与鉴定的异源DNA结合结构域的识别位点接近但不重叠的可能的DNA识别位点。通过制造翻译融合体和表达包含鉴定的LAGLIDADG内切核酸酶和异源DNA结合结构域的嵌合LAGLIDADG内切核酸酶，将能就针对所述预先选择的多核苷酸的切割活性而对嵌合LAGLIDADG内切核酸酶加以测试。

可通过搜索包含LAGLIDADG内切核酸酶的DNA识别位点和DNA结合蛋白（例如Zn₂C₆转录因子）的识别位点的数据库，来鉴定合适的内切核酸酶和异源DNA结合结构域。

此外，可突变LAGLIDADG内切核酸酶（例如I-SceI、I-CreI、I-DmoI或I-MsoI）的氨基酸序列，以制造新的结合活性和DNA切割活性。通过制造包含内切核酸酶（例如I-SceI、I-CreI、I-DmoI或I-MsoI）和异源DNA结合结构域的嵌合LAGLIDADG内切核酸酶，可制造将结合和切割此类预先选择的多肽的嵌合LAGLIDADG内切核酸酶。

使用嵌合LAGLIDADG内切核酸酶进行同源重组和靶向突变的方法

本发明提供了用于多核苷酸的同源重组的方法，所述方法包含：

a.提供同源重组的感受态细胞，

b.提供包含侧翼有序列A和序列B的重组多核苷酸的多核苷酸，

c.提供包含序列A’和B’的多核苷酸，序列A’和B’足够长并且与序列A和序列B足够同源，从而允许在所述细胞中同源重组，以及

d.提供嵌合LAGLIDADG内切核酸酶或编码嵌合LAGLIDADG内切核酸酶的表达盒，

e.在所述细胞中组合b）、c）和d），以及

f.检测b）和c）的重组多核苷酸，或选择出包含b）和c）的重组多核苷酸的细胞或使包含b）和c）的重组多核苷酸的细胞生长。

在本发明的一种实施方式中，步骤b）中提供的多核苷酸包含至少一个嵌合识别位点，优选地，选自SEQIDNO:13、14、15、16、26、27、28、29、43、44、45或46所描述的序列的组的嵌合识别位点。

在本发明的一种实施方式中，步骤c）中提供的多核苷酸包含至少一个嵌合识别位点，优选地，所述嵌合识别位点选自SEQIDNO:13、14、15、16、26、27、28、29、43、44、45或46所描述的序列的组。

在本发明的一种实施方式中，步骤b）中提供的多核苷酸和步骤c）中提供的多核苷酸包含至少一个嵌合识别位点，优选地，所述嵌合识别位点选自SEQIDNO:13、14、15、16、26、27、28、29、43、44、45或46所描述的序列的组。

在本发明的一种实施方式中，步骤e）导致步骤c）中提供的多核苷酸中包含的多核苷酸的缺失。

在本发明的一种实施方式中，步骤c）中提供的多核苷酸中包含的缺失的多核苷酸编码标记基因或标记基因的部分。

在本发明的一种实施方式中，步骤b）中提供的多核苷酸包含至少一个表达盒。

在本发明的一种实施方式中，步骤b）中提供的多核苷酸包含至少一个表达盒。导致选择标记基因或报道基因的表达。

在本发明的一种实施方式中，步骤b）中提供的多核苷酸包含至少一个表达盒。导致选择标记基因或报道基因的表达，并且包含至少一个DNA识别位点或至少一个嵌合识别位点。

本发明的另一实施方式提供了对多核苷酸进行靶向突变的方法，所述方法包括：

a.提供包含含有嵌合识别位点的多核苷酸的细胞，所述嵌合识别位点优选选自13、14、15、16、26、27、28、29、43、44、45或46所描述的序列的组，

b.提供能切割步骤a）的嵌合识别位点的嵌合内切核酸酶，例如包含下述内切核酸酶的嵌合内切核酸酶，所述内切核酸酶具有选自SEQIDNO:2、3、5、7、8、9、10、50、51、52、53、54、55和56所描述的序列的组的序列，

c.在所述细胞中组合a）和b），以及

d.检测经突变的多核苷酸，或针对包含经突变的多核苷酸的生长细胞加以选择。

本发明在另一实施方式中提供了用于如上文所述的同源重组的方法或用于如上文所述的靶向突变多核苷酸的方法，所述方法包括：

通过生物的杂交、通过对细胞的转化或通过与嵌合内切核酸酶融合的SecIV肽，组合嵌合内切核酸酶和嵌合识别位点，以及将包含所述嵌合识别位点的细胞与下述生物接触，所述生物表达所述嵌合内切核酸酶并表达能识别与所述嵌合内切核酸酶融合的SecIV肽的SecIV运送复合体。

实施例

一般方法：

寡核苷酸的化学合成可例如以已知方式使用亚磷酰胺方法（Voet,Voet,第2版,WileyPressNewYork,pages896-897）实现。为本发明目的而进行的克隆步骤，例如，限制性切割、琼脂糖凝胶电泳、DNA片段纯化、将核酸转移至硝酸纤维素和尼龙膜、DNA片段连接、转化大肠杆菌细胞、细菌培养、噬菌体增殖和对重组DNA的序列分析，按照Sambrook等人(1989)ColdSpringHarborLaboratoryPress;ISBN0-87969-309-6所述来进行。使用ALF表达激光荧光DNA测序仪（ALFExpresslaserfluorescenceDNAsequencer）（Pharmacia,Upsala[sic]，瑞典），按照Sanger的方法（Sanger等人,Proc.Natl.Acad.Sci.USA74(1977),5463-5467）对重组DNA分子加以测序。

实施例1：用于在大肠杆菌中表达的具有序列特异性DNA内切核酸酶表达盒的构建体

实施例1a：基础构建体

在本实施例中，我们展示了被命名为“构建体”的载体的大致概况（generaloutline），其适用于大肠杆菌中的转化。该载体的这种大致概况包含用于选择的氨苄青霉素抗性基因、用于大肠杆菌的复制起点和基因araC（其编码阿拉伯糖可诱导的转录调控因子）。序列protocoll的序列中的序列片段“NNNNNNNNNN”表示用于编码序列特异性DNA内切核酸酶的不同版本的基因的占位符。可从阿拉伯糖可诱导的pBAD启动子表达不同的基因（Guzman等人,JBacteriol177:4121–4130(1995)），编码不同核酸酶版本的基因序列于下述实施例中给出。

其中占位符被I-SceI的序列（SEQIDNO:18）替代的对照构建体称为VC-SAH40-4。

实施例1b：I-SceI-AlcR融合构建体

在Gene73(2),385-396(1988)中，Felenbok等人描述了作为构巢曲霉中转录活化因子的AlcR蛋白。AlcR编码序列与I-SceI序列的C端融合，其中以单个赖氨酸作为接头。以使得得到的融合蛋白识别相关（cognate）结合位点（代表I-SceI和AlcR的结合位点的组合）的方式来设计接头。可通过添加乙醇来调控AlcR功能。这能提供以相同方式调控融合蛋白的活性或DNA结合亲和性的潜能。得到的质粒被称为VC-SAH51-40。构建体的序列与构建体I的序列相同，除了序列“NNNNNNNNNN”被SEQIDNO:19所描述的序列替代。

产生相似的构建体，除后者之外，其含有NLS序列。得到的质粒被称为VC-SAH50-37。构建体的序列与构建体I的序列相同，除了序列“NNNNNNNNNN”被SEQIDNO:20所描述的序列替代。

AlcR的前60个氨基酸代表蛋白质的DNA结合结构域，因此产生另外的构建体，其中仅这些前60个氨基酸与I-SceI的C端融合，制造I-SceI-AlcR(1-60)融合体。得到的质粒被称为VC-SAH49-1。构建体的序列与构建体I的序列相同，除了序列“NNNNNNNNNN”被SEQIDNO:21所描述的序列替代。

产生相似的构建体，除后者之外，其含有NLS序列。得到的质粒被称为VC-SAH48-8。构建体的序列与构建体I的序列相同，除了序列“NNNNNNNNNN”被SEQIDNO:22所描述的序列替代。

实施例2：具有用于监测大肠杆菌中的I-SceI活性的核酸酶识别序列/靶位点的构建体

实施例2a：基础构建体

在本实施例中，我们展示了被命名为“构建体II”的载体的大致概况，其适用于大肠杆菌中的转化。该载体的这种大致概况包含用于选择的卡那霉素抗性基因、用于大肠杆菌的复制起点（其与构建体I的ori相容）。SEQIDNO:23显示了序列片段“NNNNNNNNNN”。这表示针对序列特异性DNA内切核酸酶的不同版本和蛋白融合体的不同识别/靶位点的占位符。其中占位符被包含I-SceI的天然靶序列（SEQIDNO:24）的序列片段所替代的对照构建体被称为VC-SAH6-1。没有靶位点的对照构建体被称为VC-SAH7-1（SEQIDNO25）。

下述实施例中给出了不同的组合靶位点。

实施例2b：I-SceI识别序列和AlcR结合序列的组合靶位点

在Structure9,827-36(2001)中，Cahuzac等人描述了与其相关识别序列复合的AlcR的DNA结合结构域。基于该信息，产生了由核酸酶I-SceI和AlcR的靶位点构成的组合靶位点。产生了不同的组合靶位点，它们具有变动的单个位点间距离。目标是鉴定出被相关I-SceI融合蛋白最佳识别的一个。得到的质粒被称为VC-SAH56-1、VC-SAH57-2、VC-SAH58-2、VC-SAH59-1。构建体的序列与构建体II的序列相同，序列“NNNNNNNNNN”分别被SEQIDNO:26、NO:27、NO:28、NO:29所描述的序列替代。

实施例3：编码DNA内切核酸酶的构建体和具有核酸酶识别序列的构建体的共转化

按照制造商描述，在化学感受态大肠杆菌Top10细胞中转化具有不同选择标记和相同浓度的两种质粒。将细胞涂布于具有用于选择的各抗生素的LB上，并使其于37°C生长过夜。

采用这种方法，具有序列特异性DNA内切核酸酶表达盒的构建体和具有核酸酶识别序列/靶位点的相关构建体被组合于相同转化子中，这允许对核酸酶活性加以监测。

实施例4：在大肠杆菌中证实内切核酸酶活性

使携带有两种质粒的组合的共转化子在具有氨苄青霉素和卡那霉素的LB中生长过夜，两种质粒之一编码核酸酶或核酸酶融合体（构建体I），另一种具有相容的靶位点（构建体II）。将培养物以1∶100稀释，并使其生长至其达到OD₆₀₀=0.5。通过添加阿拉伯糖，处理3-4小时，诱导从构建体I表达融合蛋白。pBAD启动子被描述为是剂量依赖型的（Guzman1995），因此，将培养物分为不同的小分试样，用浓度在0.2%至0.0002%之间变动的阿拉伯糖来诱导蛋白质表达。将5μl的每种小分试样涂布于补充有氨苄青霉素和卡那霉素的LB固体培养基上。将平板孵育于37°C过夜，以半定量方式分析细胞生长。活性核酸酶融合体确实切割了具有靶位点的构建体。这导致赋予卡那霉素抗性的构建体II或构建体III的丢失。因此，由于共转化体失去在含卡那霉素培养基上生长的能力，观察到融合蛋白的活性。

结果：

结果被简化并概括于表9中。++和+代表非常强的生长和强的生长，这指示表达的核酸酶对各靶位点没有活性或活性极低。-和--代表降低的生长或没有生长，其指示核酸酶对各靶位点的高活性或非常高的活性。

表9：I-SceI-AlcR融合体：大肠杆菌生长检验指示了针对各靶位点的内切核酸酶活性（酶活性）。

实施例5：对拟南芥的转化

将拟南芥植物种植于土壤中直至其开花。使经目的构建体转化的根癌农杆菌（菌株C58C1[pMP90]）生长于500mL液体YEB培养基（5g/L牛肉提取物、1g/L酵母提取物（Duchefa）、5g/L蛋白胨（Duchefa）、5g/L蔗糖（Duchefa）、0,49g/LMgSO₄（Merck））中，直至培养物达到OD₆₀₀0.8-1.0。通过离心（15分钟，5,000rpm）收获细菌细胞，将其重悬于500mL渗透溶液(5%蔗糖、0.05%SILWETL-77[由Lehleseeds,Cat.No.VIS-02]发给）中。将正开花的植物浸入农杆菌溶液中10-20秒。之后，将植物保持在黑暗中一天，然后保持于温室中直到可收获种子。通过将经表面灭菌的种子种植于分别补充有50mg/L卡那霉素（针对携带有nptII抗性标记基因的植物）和10mg/L膦丝菌素（Phosphinotricin）（针对携带有pat基因的植物）的生长培养基A(4.4g/LMS盐[Sigma-Aldrich],0.5g/LMES[Duchefa];8g/L植物琼脂[Duchefa]）上来选择转基因种子。存活的植物被转移至土壤，并令其生长于温室中。

实施例6：具有针对拟南芥的序列特异性DNA内切核酸酶表达盒的构建体

实施例6a：基础构建体

在本实施例中，我们展示了被命名为“构建体IV”的二元载体的大致概况，其适用于植物转化。该二元载体的这种大致概况包含具有p-Mas1del100::cBAR::t-Ocs1盒的T-DNA，当整合进植物基因组中时，其使得能够在膦丝菌素上进行选择。SEQIDNO:31显示了序列片段“NNNNNNNNNN”。这表示针对编码不同版本的序列特异性DNA内切核酸酶的占位符。下述实施例中给出了后者的序列。

实施例6b：I-SceI-AlcR融合构建体

“构建体IV”的“NNNNNNNNNN”序列片段被编码三个不同版本的I-SceI-AlcR融合体的基因（如实施例1b所述的）分别替代。得到的质粒被称为VC-SAH91-1(NLS-I-Scel-AlcR(1-60))，VC-SAH92-1(I-Scel-AlcR(1-60))，VC-SAH103-3(NLS-I-Scel-AlcR)和VC-SAH104-22(I-Scel-AlcR)。

实施例7：具有用于监测在拟南芥中核酸酶活性的核酸酶识别序列/靶位点的构建体

实施例7a：基础构建体

在本实施例中，我们展示了被命名为“构建体V”的二元载体的大致概况，其适用于在拟南芥中的转化。该二元载体的这种大致概况包含具有nos-启动子::nptII::nos-终止子（nos-promoter::nptII::nos-terminator）盒的T-DNA，当整合进植物基因组中时，其赋予卡那霉素抗性。

T-DNA还包含部分uidA（GUS）基因（称为“GU”）和另外的部分uidA基因（称为“US”）。SEQIDNO:32显示了在GU和US之间的序列片段“NNNNNNNNNN”。这表示针对序列特异性DNA内切核酸酶的不同版本和蛋白融合体的不同识别/靶位点的占位符。下述实施例中给出了不同靶位点的序列。

如果识别序列被各核酸酶切割，则作为染色体内同源重组（ICHR）的结果，部分重叠且无功能的GUS基因的半边们（GU和US）将被恢复。这可通过组织化学GUS染色来监测（Jefferson等人(1987)EMBOJ6:3901-3907）。

实施例7b：核酸酶识别序列和AlcR结合序列的组合靶位点

产生了由核酸酶I-SceI和AlcR的靶位点构成的组合靶位点。产生了不同的组合靶位点，它们具有变动的单位点间距离。目标是鉴定出被相关I-SceI融合蛋白最佳识别的一个。得到的质粒被称为VC-SAH52-21、VC-SAH111、VC-SAH112、VC-SAH55-22。构建体的序列与构建体V的序列相同，序列“NNNNNNNNNN”分别被SEQIDNO:33、NO:34、NO:35、NO:36所描述的序列替代。

实施例8：将序列特异性DNA内切核酸酶编码构建体转化进拟南芥

按照实施例5中描述的方法，将质粒VC-SAH87-4、VC-SAH91-1、VC-SAH92-1、VC-SAH103-3、VC-SAH105、VC-SAH140、VC-SAH139-20、VC-SAH89-10、VC-SAH90转化进拟南芥。在温室中令选出的转基因株系（T1代）生长，用一些花进行杂交（见下文）。

实施例9：将具有用于监测重组的组合靶位点的构建体转化进拟南芥

按照实施例5中描述的方法，将质粒VC-SAH52-21、VC-SAH111、VC-SAH112、VC-SAH55-22、VC-SAH113、VC-SAH114、VC-SAH115、VC-SAH16-4、VC-SAH17-8、VC-SAH18-7和VC-SAH19-15转化进拟南芥。在温室中令选出的转基因株系（T1代）生长，用一些花进行杂交（见实施例10）。

实施例10：监测核酸酶融合体在拟南芥中的活性

将具有编码序列特异性DNA内切核酸酶的T-DNA的拟南芥转基因株系与具有携带GU-US报道构建体（具有相应的组合靶位点）的T-DNA的拟南芥株系杂交。作为靶位点上的I-SceI活性的结果，功能性GUS基因将通过同源染色体内重组（ICHR）得以恢复。这可通过组织化学GUS染色来监测（Jefferson等人(1987)EMBOJ6:3901-3907）。

为视觉观察AlcR融合体的I-SceI活性，将具有核酸酶编码构建体VC-SAH91-1和VC-SAH87-4的T-DNA的拟南芥转基因株系与具有含靶位点的构建体VC-SAH52-21、VC-SAH55-22和VC-SCB734-4的T-DNA的拟南芥株系杂交。为视觉观察额外的AlcR融合体的活性，将具有核酸酶编码构建体VC-SAH91-1、VC-SAH92-1和VC-SAH103-3的T-DNA的拟南芥转基因株系与具有含靶位点的构建体VC-SCB743-4、VC-SAH52-21和VC-SAH55-22的T-DNA的拟南芥株系杂交。

收获杂交的F1种子。对种子进行表面灭菌，并令其生长于补充有各抗生素和/或除草剂的培养基A上。收获叶，用其进行组织化学GUS染色。显示出蓝色染色的植物的百分比是ICHR频率的指标，并且由此是I-SceI活性的指标。

通过比较这些杂交的ICHR事件数，来测定不同融合蛋白的活性。I-SceI融合体针对天然核酸酶的特异性的增加可通过将这些结果与对照杂交比较来观察到。就此，将具有编码不同I-SceI融合体的构建体的T-DNA的所有拟南芥转基因株系与具有携带天然I-SceI靶位点的构建体（VC-SAH743-4）的T-DNA的拟南芥株系杂交。

针对完全蓝色的幼苗，分析这些植物的下一世代。

结果：

具有核酸酶编码构建体VC-SAH91-1(NLS-I-SceI-AlcR(1-60))的T-DNA的三种独立株系与具有核酸酶编码构建体VC-SAH743-4（天然I-SceI位点）的T-DNA的三种独立株系杂交，以及与具有核酸酶编码构建体VC-SAH55-22（靶位点I-SceI-AlcR）的T-DNA的三种独立株系杂交。

收获叶，用其进行组织化学GUS染色。NLS-I-SceI-AlcR(1-60)（或被称为I-SceI-AlcR(1-60)）与组合靶位点（SAH55-22，也称为#55）的组合导致产生49%蓝的植物，而与天然I-SceI位点的杂交仅产生3%蓝的植物。

相反，核酸酶I-SceI的天然版本（或称为wtI-SceI）显示出极少的重组活性（对于天然（wt）靶位点来说是0%，对于组合靶位点SAH55-22中包含的天然靶位点来说是8%）。

见图：2

实施例20：与AlcR融合的I-SceI的稳定化版本

实施例20a）：具有序列特异性DNA内切核酸酶表达盒的构建体，所述表达盒编码与AlcR融合的I-SceI的C端缩短版本（用于在大肠杆菌中表达）。

为产生具有增加的特异性和稳定性的I-SceI变体，在AlcR和I-SceI版本之间产生融合蛋白，其中提出的C-端PEST序列（氨基酸228-236）被改变。选择C端的两种不同改变，第一种（Ctermmod#1）中C端被SEQIDNO:37替代，第二种（Ctermmod#2）中C端被SEQIDNO:38替代。

得到的质粒基于实施例1a）中描述的构建体，其中占位符被编码不同I-SceI融合体的基因替代。在被命名为VC-SAH128-3的质粒中，NNNNNN被NLS-I-SceICtermmod#1AlcR(1-60)（SEQIDNO:39）替代。在被命名为VC-SAH129-1的质粒中，NNNNNN被NLS-I-SceICtermmod#2AlcR(1-60)（SEQIDNO:40）替代。

此外产生了具有AlcR的全长版本的质粒。它们被命名为VC-SAH130-30（其中，NNNNNN被NLS-I-SceICtermmod#1AlcR（SEQIDNO:41）替代）和VC-SAH131-6（其中，NNNNNN被NLS-I-SceICtermmod#2AlcR（SEQIDNO:42）替代）。

产生了相似的构建体，其编码AlcR(1-60)与I-SceI的N端的融合（具有C端PEST序列缺失（氨基酸228-236））。

产生了三种变体：VC-SAH186-5直接融合体，VC-SAH185-1与一个氨基酸的接头的版本，以及VC-SAH187-10与三个氨基酸的接头的版本（SEQIDNO:47、48和49）。

为测试AlcR与I-SceI的这些N端融合，必须制造额外的靶位点。得到的靶序列是下述这些：

VC-SAH181-1(CGTGCGGATCATTACCCTGTTATCCCTA)(SEQIDNO：43)

VC-SAH182-2(CGTGCGGATCNATTACCCTGTTATCCCTA)(SEQIDNO：44)

VC-SAH183-3(CGTGCGGATCNNATTACCCTGTTATCCCTA)(SEQIDNO：45)

VC-SAH184-2(CGTGCGGATCNNNATTACCCTGTTATCCCTA)(SEQIDNO：46)

实施例20b）：在大肠杆菌中证实内切核酸酶活性

将实施例20a中描述的质粒编码的具有AlcRC端融合体的核酸酶版本与编码组合靶位点的载体VC-SAH56-1、VC-SAH57-2、VC-SAH58-2、VC-SAH59-1共转化进大肠杆菌中。按照实施例3和4所述来分析这些I-SceI版本的活性和特异性。

结果：

在大肠杆菌中，实施例20a）中描述的C端I-SceI-AlcR融合体与实施例4表1中所示的VC-SAH48至VC-SAH51表现相当。

VC-SAH128-3，VC-SAH129-1，VC-SAH130-30，SAH131-6确实以最高效率全部切割了VC-SAH59-1编码的组合靶位点。然而在天然I-SceI靶位点上的活性要比天然核酸酶低得多。

实施例20c）：具有序列特异性DNA内切核酸酶表达盒的构建体，所述表达盒编码与AlcR融合的I-SceI的C端缩短版本（用于在拟南芥中表达）。

将实施例20a中描述的I-SceI-AlcR融合体的版本克隆进构建体IV。在被命名为VC-SAH126-1的质粒中，占位符被NLS-I-SceICtermmod#1AlcR(1-60)（SEQIDNO:39）替代。在被命名为VC-SAH127-1的质粒中，NNNNNN被NLS-I-SceICtermmod#2AlcR(1-60)（SEQIDNO:40）替代。

还产生了具有AlcR的全长版本的质粒。它们被命名为VC-SAH137-1（其中NNNNNN被NLS-I-SceICtermmod#1AlcR（SEQIDNO:41）替代）和VC-SAH138-2（其中NNNNNN被NLS-I-SceICtermmod#2AlcR（SEQIDNO:42）替代）。

实施例20d）：在拟南芥中证实内切核酸酶活性

按照实施例5所述，将质粒SAH126-1和VC-SAH127-1转化进拟南芥中。将植物与携带具有报道构建体（包括相关靶位点，如实施例7b所述）的T-DNA的株系杂交。相似地，将VC-SAH137-1和VC-SAH138-2转化进拟南芥中。将植物与携带具有报道构建体（包括相关靶位点，如实施例7b所述）的T-DNA的株系杂交。按照实施例10所述来分析这些核酸酶版本的活性和特性。

为视觉观察AlcR融合体的I-SceI活性，将具有核酸酶编码构建体SAH126-1和VC-SAH127-1的T-DNA的拟南芥转基因株系与具有构建体VC-SAH55-22和VC-SCB734-4（具有靶位点）的T-DNA的拟南芥株系杂交。

通过比较这些杂交的ICHR事件数，来测定不同融合蛋白的活性。I-SceI融合体针对天然核酸酶的特异性的增加可通过将这些结果与对照杂交比较来观察到。将具有编码不同I-SceI融合体的构建体的T-DNA的所有拟南芥转基因株系与具有携带天然I-SceI靶位点的构建体（VC-SAH743-4）的T-DNA的拟南芥株系杂交。

针对完全蓝色的幼苗，分析这些植物的下一世代。

结果：

具有核酸酶编码构建体SAH126-1（NLS-I-SceICtermmod#1AlcR(1-60)）的T-DNA的三种独立株系以及有核酸酶编码构建体SAH127-1（NLS-I-SceICtermmod#2AlcR(1-60)）的T-DNA的三种独立株系与具有核酸酶编码构建体VC-SAH743-4（天然I-SceI位点）的T-DNA的三种独立株系杂交，和与具有核酸酶编码构建体VC-SAH55-22（靶位点I-SceI-AlcR）的T-DNA的三种独立株系杂交。

收获叶，用其进行组织化学GUS染色。NLS-I-SceICtermmod#1-AlcR(1-60)（或被称为I-SceI#1–AlcR(1-60)）与组合靶位点（SAH55-22，也称为#55）的组合导致产生100%蓝的植物，而与天然I-SceI的杂交产生0%蓝的植物。

NLS-I-SceICtermmod#2-AlcR(1-60)（或被称为I-SceI#2–AlcR(1-60)）与组合靶位点（SAH55-22）的组合导致产生76%蓝的植物，而与天然I-SceI的杂交产生0%蓝的植物。

见图2

Claims

1.由LAGLIDADG内切核酸酶和异源DNA结合结构域组成的嵌合内切核酸酶，其中所述LAGLIDADG内切核酸酶由与SEQIDNO:1、2或3所描述的多肽具有至少95％的氨基酸序列同一性的氨基酸序列组成并具有I-SceI酶活性，并且所述异源DNA结合结构域由Zn₂C₆锌指组成，所述Zn₂C₆锌指与SEQIDNO:70所描述的多肽具有至少95％氨基酸序列同一性，其中所述LAGLIDADG内切核酸酶不具有如下突变：I38S、I38N、G39D、G39R、L40Q、L42R、D44E、D44G、D44H、D44S、A45E、A45D、Y46D、I47R、I47N、D144E、D145E、D145N和G146E，并且其中所述异源DNA结合结构域具有图10所示的共有序列。

2.权利要求1所述的嵌合内切核酸酶，其中具有DNA双链断裂诱导活性的所述内切核酸酶和所述异源DNA结合结构域通过接头多肽连接。

3.权利要求1或2所述的嵌合内切核酸酶，其中所述接头多肽由至少3个氨基酸构成，并且其中，该接头多肽的氨基酸序列中至少三分之一的氨基酸是甘氨酸或丝氨酸或丙氨酸或甘氨酸、丝氨酸和丙氨酸的组合。

4.权利要求1或2所述的嵌合内切核酸酶，包含NLS序列。

5.权利要求1或2所述的嵌合内切核酸酶，还包含SecIII或SecIV分泌信号。

6.编码权利要求1或2所述的嵌合内切核酸酶的经分离的多核苷酸。

7.权利要求6所述的经分离的多核苷酸，其中所述经分离的多核苷酸序列

a.是经密码子优化的，

b.具有低含量的RNA不稳定性动机，

c.具有低含量的密码子重复，

d.具有低含量的隐蔽剪接位点，

e.具有低含量的备选起始密码子，

f.具有低含量的限制性位点，

g.具有低含量的RNA二级结构，或

h.具有a)、b)、c)、d)、e)、f)或g)的任何组合。

8.表达盒，所述表达盒包含与启动子和终止子序列功能性组合的权利要求6所述的经分离的多核苷酸。

9.由嵌合识别序列组成的经分离的多核苷酸，其中所述多核苷酸序列是SEQIDNO:13、14、15、16、43、44、45或46中任一所描述的多核苷酸序列。

10.原核生物，其包含：

a.编码权利要求1或2所述的嵌合内切核酸酶的多核苷酸，或

b.权利要求6或7所述的经分离的多核苷酸，或

c.权利要求8所述的表达盒，或

d.权利要求9所述的由嵌合识别序列组成的经分离的多核苷酸，或

e.a)、b)、c)和d)的任何组合。

11.权利要求10所述的原核生物，其中所述原核生物是大肠杆菌或农杆菌。

12.载体，其包含：

a.编码权利要求1或2所述的嵌合内切核酸酶的多核苷酸，或

b.权利要求6或7所述的经分离的多核苷酸，或

c.权利要求8所述的表达盒，或

e.a)、b)、c)和d)的任何组合。

13.真菌细胞，其包含：

a.编码权利要求1或2所述的嵌合内切核酸酶的多核苷酸，或

b.权利要求6或7所述的经分离的多核苷酸，或

c.权利要求8所述的表达盒，或

e.a)、b)、c)和d)的任何组合。

14.酵母细胞，其包含：

a.编码权利要求1或2所述的嵌合内切核酸酶的多核苷酸，或

b.权利要求6或7所述的经分离的多核苷酸，或

c.权利要求8所述的表达盒，或

d.权利要求9所述的嵌合识别序列组成的经分离的多核苷酸，或

e.a)、b)、c)和d)的任何组合。

15.提供嵌合内切核酸酶的方法，所述方法包括下述步骤：

a.提供至少一个内切核酸酶编码区域，其由与SEQIDNO:1,2或3所示的多肽具有至少95％氨基酸序列同一性的氨基酸序列组成并具有I-SceI酶活性，其中所述内切核酸酶不具有如下突变：I38S、I38N、G39D、G39R、L40Q、L42R、D44E、D44G、D44H、D44S、A45E、A45D、Y46D、I47R、I47N、D144E、D145E、D145N和G146E，b.提供至少一个异源DNA结合结构域，所述结构域由Zn₂C₆锌指组成，所述锌指与SEQIDNO:70所示的多肽具有至少95％氨基酸序列同一性，并且具有图10所示的共有序列，

c.提供具有如权利要求9所述的DNA识别序列的多核苷酸，

d.制造步骤b)的至少一个内切核酸酶的编码区域和步骤c)的至少一个异源DNA结合结构域的翻译融合体，

e.从来自步骤d)制造的翻译融合体表达所述嵌合内切核酸酶，

f.针对对步骤c)的多核苷酸的切割，测试步骤e)中表达的嵌合内切核酸酶。

16.用于多核苷酸同源重组的方法，所述方法包括下述步骤：

a.提供同源重组的感受态细胞，

b.提供侧翼有序列A和序列B的、如权利要求9所述的经分离的多核苷酸，

c.提供包含序列A’和B’的多核苷酸，所述序列A’和B’足够长并且与序列A和序列B足够同源，从而允许在所述细胞中同源重组，以及

d.提供如权利要求1至5中任意一项所述的嵌合内切核酸酶或如权利要求8所述的表达盒，

e.在所述细胞中组合b)、c)的多核苷酸和d)的嵌合内切核酸酶或表达盒，以及

f.检测b)和c)的重组多核苷酸，或选择出包含b)和c)的重组多核苷酸的细胞，和/或使包含b)和c)的重组多核苷酸的细胞生长。

17.如权利要求16所述的用于多核苷酸同源重组的方法，其中，同源重组之后，步骤a)的所述感受态细胞中包含的多核苷酸序列从步骤f)的生长细胞的基因组中缺失。

18.用于靶向突变多核苷酸的方法，所述方法包括：

a.提供包含由如权利要求9所述的嵌合识别位点组成的多核苷酸的细胞，

b.提供能切割步骤a)的所述嵌合识别位点的、如权利要求1至5中任意一项所述的嵌合内切核酸酶，

c.在所述细胞中组合a)的所述多核苷酸和b)的所述嵌合内切核酸酶，以及

19.如权利要求16至18中任意一项所述的用于同源重组或靶向突变的方法，其中所述嵌合内切核酸酶和所述嵌合识别位点通过生物的杂交、通过转化或通过经由融合至嵌合内切核酸酶的SecIII或SecIV肽介导的运送，组合于至少一个细胞中。