CN103228789B

CN103228789B - 用于切除靶核酸的核酸、组合物和方法

Info

Publication number: CN103228789B
Application number: CN201180051803.4A
Authority: CN
Inventors: 柯尔斯顿·R·本杰明
Original assignee: Amyris Inc
Current assignee: Amyris Inc
Priority date: 2010-08-30
Filing date: 2011-08-29
Publication date: 2015-11-25
Anticipated expiration: 2031-08-29
Also published as: EP2611923A1; KR20130100127A; AU2011296245B2; MX2013002249A; CN103228789A; SG188251A1; JP2013537799A; DK2611923T3; US20120052582A1; CA2809645A1; EP2611923B1; AU2011296245A1; US9018364B2; WO2012030747A1; EP2765199A1; US7919605B1; HK1181070A1; ZA201301177B; JP5883449B2

Abstract

本申请提供了一种核酸、组合物和方法，用于切除宿主细胞基因组的一个或多个基因座。特别地，本申请提供了一种可切除的核酸构建体，从5’至3’方向包括：第一串联重复核酸、第一归巢核酸内切酶识别位点、靶核酸、第二归巢核酸内切酶识别位点、和第二串联重复核酸。在某些实施方式中，可切除的核酸构建体整合至宿主基因组中，通过将归巢核酸内切酶识别位点与一种或多种适宜的归巢核酸内切酶接触，可以将靶核酸从宿主细胞基因组中切除。

Description

用于切除靶核酸的核酸、组合物和方法

本申请要求申请日为2010年8月30日的美国临时申请号61/378,350的优先权，其全部内容通过引用并入本申请。

1.技术领域

本申请提供的核酸、组合物、和方法通常涉及分子生物学和基因工程领域。

2.背景技术

在很多领域，包括代谢工程、工业微生物学、合成生物学、和基础分子遗传学研究中，都需要利用基因工程技术从宿主细胞基因组或游离基因中切除靶核酸。然而，此前用于除去靶核酸的方法在应用方面受到了约束和限制。例如，利用位点特异性重组酶方法除去会遗留有害的特异性重组酶结合位点，这些位点会在宿主细胞中产生潜在的基因组不稳定性。其他方法产生切除事件的频率较低，因而，有必要找到一些方法，通过生长选择经历切除事件的稀有宿主细胞。需要提供一种核酸、组合物、和方法，用于从宿主细胞基因组或游离基因中高频率和高精确度地切除靶核酸，而不会产生潜在的基因组不稳定性。

3.发明概述

本申请提供了一种核酸、组合物、和方法，用于切除宿主细胞基因组的一个或多个基因座。第一方面，本申请提供了一种可切除的核酸构建体，从5’至3’方向包括：a）第一串联重复核酸，b）第一归巢核酸内切酶识别位点，c）靶核酸，d）第二归巢核酸内切酶识别位点以及e）第二串联重复核酸。在某些实施方式中，可切除的核酸构建体整合至宿主细胞基因组中。在某些实施方式中，第二归巢核酸内切酶识别位点是可选的。

第一和第二归巢核酸内切酶识别位点用于归巢核酸内切酶剪切可切除的核酸构建体。归巢核酸内切酶与归巢核酸内切酶识别位点结合能够剪切位于或邻近归巢核酸内切酶识别位点的可切除的核酸构建体。在某些实施方式中，每个第一和第二归巢核酸内切酶识别位点独立地包含14-40个核苷酸碱基对。在某些实施方式中，每个第一和第二归巢核酸内切酶识别位点独立地由14-40个核苷酸碱基对组成。在某些实施方式中，每个归巢核酸内切酶识别位点独立地由20-40个核苷酸碱基对组成。在某些实施方式中，每个归巢核酸内切酶识别位点独立地由25-40个核苷酸碱基对组成。在某些实施方式中，每个归巢核酸内切酶识别位点独立地由30-40个核苷酸碱基对组成。在某些实施方式中，每个归巢核酸内切酶识别位点独立地由35-40个核苷酸碱基对组成。在某些实施方式中，每个归巢核酸内切酶识别位点独立地由24个核苷酸碱基对组成。

在某些实施方式中，第一或第二归巢核酸内切酶识别位点中的至少一个是选自下组的归巢核酸内切酶的识别位点：LAGLIDADG（SEQIDNO:1）归巢核酸内切酶、HNH归巢核酸内切酶、His-Cys盒归巢核酸内切酶、GIY-YIG（SEQIDNO:2）归巢核酸内切酶、和蓝藻归巢核酸内切酶。在某些实施方式中，每个第一和第二归巢核酸内切酶识别位点独立地选自下组的归巢核酸内切酶的识别位点：LAGLIDADG（SEQIDNO:1）归巢核酸内切酶、HNH归巢核酸内切酶、His-Cys盒归巢核酸内切酶、GIY-YIG（SEQIDNO:2）归巢核酸内切酶、和蓝藻归巢核酸内切酶。

在某些实施方式中，第一或第二归巢核酸内切酶识别位点中的至少一个是选自下组的归巢核酸内切酶的识别位点：I-CreI、I-MsoI、I-SceI、I-SceIV、H-DreI、I-HmuI、I-PpoI、I-DirI、I-NjaI、I-NanI、I-NitI、I-TevI、I-TevII、I-TevIII、F-TevI、F-TevII、F-CphI、PI-MgaI、I-CsmI、I-CeuI、和PI-SceI。

在一些实施方式中，每个第一和第二归巢核酸内切酶识别位点独立地选自下组的归巢核酸内切酶的识别位点：I-CreI、I-MsoI、I-SceI、I-SceIV、H-DreI、I-HmuI、I-PpoI、I-DirI、I-NjaI、I-NanI、I-NitI、I-TevI、I-TevII、I-TevIII、F-TevI、F-TevII、F-CphI、PI-MgaI、I-CsmI、I-CeuI、和PI-SceI。在特定实施方式中，第一或第二归巢核酸内切酶识别位点中的至少一个是I-SceI识别位点。在特定实施方式中，第一或第二归巢核酸内切酶识别位点中的至少一个是F-CphI识别位点。

靶核酸裂解后，可以通过第一和第二串联重复促进染色体内重组来修复宿主细胞的基因组。在某些实施方式中，每个第一和第二串联重复核酸独立地包含至少18个核苷酸碱基对。在某些实施方式中，每个第一和第二串联重复核酸独立地由18至500个核苷酸碱基对组成。在某些实施方式中，每个第一和第二串联重复核酸独立地由18至200个核苷酸碱基对组成。在某些实施方式中，宿主细胞是酵母细胞，并且每个第一和第二串联重复核酸独立地由18至200个核苷酸碱基对组成。

在某些实施方式中，靶核酸编码选择性标记。在某些实施方式中，选择性标记选自下组：URA3、潮霉素B磷酸转移酶、氨基糖苷磷酸转移酶、博来霉素抗性基因和草胺膦N-乙酰转移酶。

在某些实施方式中，上文所述的可切除的核酸构建体进一步包括连接至所述第一串联重复5'端的第一基因组整合位点，以及连接至所述第二串联重复3'端的第二基因组整合位点。有利地，第一和第二基因组整合位点可以促进可切除的核酸构建体整合至宿主细胞基因组。

在另一个方面，本申请提供了一种宿主细胞，其包括上文所述的可切除的核酸构建体。在某些实施方式中，可切除的核酸构建体进一步包括连接至所述第一串联重复5'端的第一整合位点，以及连接至所述第二串联重复3'端的第二整合位点。

在某些实施方式中，宿主细胞是原核细胞。在某些实施方式中，宿主细胞是真核细胞。在某些实施方式中，宿主细胞是单细胞真核生物体。在某些实施方式中，宿主细胞是酵母细胞。在某些实施方式中，宿主细胞是单倍体酵母细胞。在其他实施方式中，宿主细胞是二倍体酵母细胞。在某些实施方式中，宿主细胞是酿酒酵母菌株的酵母细胞。

在某些实施方式中，宿主细胞进一步包括载体，其包含编码归巢核酸内切酶的归巢核酸内切酶核酸，其中所述归巢核酸内切酶能够在第一和第二归巢核酸内切酶识别位点中的至少一个位点处或其附近结合及剪切。在一些实施方式中，载体包含编码归巢核酸内切酶的归巢核酸内切酶核酸，所述归巢核酸内切酶能够在每个第一和第二归巢核酸内切酶识别位点的位点处或其附近结合及剪切。

在某些实施方式中，载体包含启动子元件，其控制编码归巢核酸内切酶的归巢核酸内切酶核酸的表达。某些实施方式中，启动子元件是诱导型启动子。在某些实施方式中，启动子元件是组成型启动子。

在另一个方面，本申请提供了一种宿主细胞，其包含上文所述的整合至宿主细胞基因组的可切除的核酸构建体。在一些实施方式中，可切除的核酸构建体从5’至3’方向包括：a）第一串联重复核酸，b）第一归巢核酸内切酶识别位点，c）靶核酸，d）第二归巢核酸内切酶识别位点以及e）第二串联重复核酸。在某些实施方式中，宿主细胞进一步包括载体，其包含编码归巢核酸内切酶的归巢核酸内切酶核酸，所述归巢核酸内切酶能够在第一或第二归巢核酸内切酶识别位点中的至少一个位点处或其附近结合及剪切。在某些实施方式中，归巢核酸内切酶核酸编码归巢核酸内切酶，所述归巢核酸内切酶能够在每个第一和第二归巢核酸内切酶识别位点处或其附近结合及剪切。在某些实施方式中，归巢核酸内切酶是I-SceI。在某些实施方式中，归巢核酸内切酶是F-CphI。

在另一个方面，本申请提供了一种试剂盒，其包含上文所述的可切除的核酸构建体；和载体，其包含编码归巢核酸内切酶的归巢核酸内切酶核酸，所述归巢核酸内切酶能够在所述第一或第二归巢核酸内切酶识别位点中的至少一个位点处或其附近结合及剪切。在某些实施方式中，归巢核酸内切酶是I-SceI。在某些实施方式中，归巢核酸内切酶是F-CphI。

在另一个方面，本申请提供了一种从宿主细胞的基因组中切除至少一个靶核酸的方法。在某些实施方式中，宿主细胞从5’至3’方向包括以下核酸：a）第一串联重复核酸，b）第一归巢核酸内切酶识别位点，c）靶核酸，d）第二归巢核酸内切酶识别位点以及e）第二串联重复核酸。在某些实施方式中，该方法包括在宿主细胞中表达归巢核酸内切酶，使得归巢核酸内切酶在第一或第二归巢核酸内切酶识别位点中的至少一个位点处或其附近结合及剪切。在该方法的某些实施方式中，归巢核酸内切酶在每个第一和第二归巢核酸内切酶识别位点处或其附近结合及剪切。某些实施方式中，第一和第二归巢核酸内切酶识别位点中的至少一个是I-SceI识别位点。在某些实施方式中，第一和第二归巢核酸内切酶识别位点中的至少一个是F-CphI识别位点。

在另一个方面，本申请提供了一种从宿主细胞基因组中同时切除至少两个靶核酸的方法，所述宿主细胞包含至少两个可切除的核酸构建体，其中每个可切除的核酸构建体独立地从5’至3’方向包括：a）第一串联重复核酸；b）第一归巢核酸内切酶识别位点；c）靶核酸；d）第二归巢核酸内切酶识别位点；以及e）第二串联重复核酸。在某些实施方式中，该方法包括在所述宿主细胞中将所述至少两个可切除的核酸构建体与归巢核酸内切酶接触，使得归巢核酸内切酶在每个可切除的核酸构建体中的第一或第二归巢核酸内切酶识别位点中的至少一个位点处或其附近剪切。在某些实施方式中，该方法包括在宿主细胞中将所述至少两个可切除的核酸构建体与一个或多个归巢核酸内切酶接触，使得一个或多个归巢核酸内切酶在每个可切除的核酸构建体中的第一或第二归巢核酸内切酶识别位点中的至少一个位点处或其附近剪切。

优选地，通过由第一和第二串联重复介导的重组形成带有靶核酸切除的基因组核酸。在某些实施方式中，新形成的基因组核酸包含第三串联重复，其为第一和第二串联重复重组的产物。在优选的实施方式中，在宿主细胞中仅存的可切除的核酸内切酶构建体部分为第三串联重复，其长度可以是低至18个核苷酸碱基对。

本申请提供的组合物和方法有利于从宿主细胞基因组或游离基因中精确和有效地切除一个或多个靶核酸，同时不会产生潜在的基因组不稳定性。在基因工程中存在很多例子，需要在选定的基因组或游离基因的基因座除去靶核酸。例如，上文所述的组合物和方法能够有利地用于除去选择性标记物，以使其能够在同一宿主细胞或其后代中重复使用。“标记物再利用”可以用于在使用有限的选择性标记物组的宿主生物体内需要进行多个基因工程事件的情况。本申请提供的组合物和方法还可以用于在将宿主细胞释放至生产或天然环境之前，从宿主细胞内除去不需要的核酸（例如，抗生素抗性标记物）。

进一步地，所述的组合物和方法可以用于宿主细胞及其后代中特定基因表达的启动或关闭。为了关闭基因，所述的组合物和方法可以用于，例如，切除核酸，所述核酸表示一个或多个基因的顺式作用调控元件、某些或全部的其编码序列、或一个或多个其转录激活因子。为了启动基因的表达，可以将核酸的干扰性伸展切除，以便在特定基因表达所需的元件之间形成所需的邻近相互作用。

4.附图简述

图1。可切除的核酸构建体的实施方式。图1A：可切除的核酸构建体，从5’至3’方向包括：第一串联重复核酸（“DR1”）；第一归巢核酸内切酶识别位点（“ES1”）；靶核酸（“靶核酸”）；第二归巢核酸内切酶识别位点（“ES2”）；以及第二串联重复核酸（“DR2”）。图1B：图1A中描述的可切除的核酸构建体，进一步包括连接至第一归巢核酸内切酶识别位点5’端的第一整合位点（IS1）和连接至第二串联重复核酸3’端的第二整合位点（IS2）。

图2。可切除的核酸构建体通过整合位点介导的同源性重组将靶核酸敲除和/或敲入至宿主细胞基因组的特定基因座。靶核酸的两侧为两个拷贝的归巢核酸内切酶限制性位点（分别为ES1和ES2），其两侧为剪切后直接修复的两个串联重复（分别为DR1和DR2）。

图3。靶核酸的切除。在某些实施方式中，通过一个或多个相应归巢核酸内切酶（HE）对每个第一和第二归巢核酸内切酶（图3A）识别位点（分别为ES1和ES2）的剪切形成了三个核酸片段：（1）基因组或游离基因核酸的左臂（2）包含靶核酸的核酸片段以及（3）基因组或游离基因核酸的右臂（图3B）。剪切后，宿主细胞内的内源性5’至3’核酸外切酶迅速降解每个核酸片段的一条链，破坏包含靶核酸的核酸片段，并留下基因组或游离基因核酸的左臂（4）和右臂（5）的3’尾（图3C）。

图4。靶核酸的切除（续上）。左臂和右臂的单链降解使各臂暴露出其串联重复，串联重复相互互补（图4A）。串联重复的互补区形成异源双链（图4B，6），并且通过宿主细胞蛋白促进其重组。右臂（7）和左臂（8）的单链3’端最末端之间不是互补的，因此其不是第一和第二串联重复的互补区形成的异源双链的一部分。这些最末端不互补的3’末端能够被瓣状核酸酶剪切。最后，通过修复DNA合成和DNA连接酶对异源双链进行填充并将缺口封闭，以形成靶核酸精确切除的完整的基因组或游离基因核酸（图4C）。

5.具体实施方式的详述

5.1定义

如本申请所使用的，术语“归巢核酸内切酶”指若干核酸内切酶中的任意一种，所述核酸内切酶的天然的生物学功能为催化基因转化事件，以便将特定基因的编码核酸内切酶的等位基因扩展到该基因的无核酸内切酶的等位基因中。参见，例如Chevalier,NucleicAcidsRes1(29):3757-74(2001);Jacquier,Cell41:383-94(1985)。已知至少有五个不同的归巢核酸内切酶家族，包括：1）LAGLIDADG（SEQIDNO:1）归巢核酸内切酶，2）HNH归巢核酸内切酶，3）His-Cys盒归巢核酸内切酶，4）GIY-YIG（SEQIDNO:2）归巢核酸内切酶和5）蓝藻归巢核酸内切酶。参见，例如Stoddard,QuarterlyReviewofBiophysics38(1):49-95(2006)。这些家族的特定归巢核酸内切酶的例子包括但不限于：I-CreI、I-MsoI、I-SceI、I-SceIV、H-DreI、I-HmuI、I-PpoI、I-DirI、I-NjaI、I-NanI、I-NitI、I-TevI、I-TevII、I-TevIII、F-TevI、F-TevII、F-CphI、PI-MgaI、I-CsmI、I-CeuI、和PI-SceI。本领域技术人员公知此类核酸内切酶的天然或人工变体包含在本定义的范围内，所述变体可以识别和剪切处于或在其附近的相同或相似的归巢核酸内切酶限制性位点。

如本申请所使用的，术语“归巢核酸内切酶识别位点”指特定归巢核酸内切酶识别的核酸。归巢核酸内切酶与归巢核酸内切酶识别位点结合之后，能够在归巢核酸内切酶识别位点处或其附近形成双链断裂。

如本申请所使用的，术语“附近”指与特定核酸的距离为约1至约100个、1至约75个、1至约50个、1至约25个、1至约20个、1至约15个、1至约10个、或者1至约5个核苷酸。

如本申请所使用的，关于归巢核酸内切酶的术语“剪切”指在特定的核酸中形成双链断裂的作用。根据本领域技术人员的理解，双链断裂可以留下平末端或粘性末端（即，5'或3'突出）。

如本申请所使用的，术语“串联重复”指一组两个或多个核酸的部分核酸，其中各成员与其他成员之间具有充分的核苷酸同源性以介导其彼此之间的重组。串联重复与串联的其他成员之间排布在相同方向（“正向串联重复”）或相反方向（“反向串联重复”）。

如本申请所使用的，术语“靶DNA片段”指使用本申请所述的组合物和方法从宿主细胞基因组中切除的任意靶DNA片段。有用的例子包括但不限于：蛋白编码序列、选择性标记、报告基因、荧光标记物编码序列、启动子、增强子、终止子、转录激活因子、转录抑制因子、转录激活因子结合位点、转录抑制因子结合位点、内含子、外显子、poly-A尾、多克隆位点、核定位信号、mRNA稳定信号、整合基因座、表位标签编码序列、降解信号、或任何其他的天然产生的或合成的DNA分子。在某些实施方式中，靶DNA片段可以是天然来源的。或者，靶DNA片段可以完全是体外产生的合成来源的。而且，靶DNA可以包含分离的天然来源的DNA分子的任意组合，或者分离的天然来源的DNA分子与合成的DNA分子的任意组合。例如，靶DNA片段可以包含可操作地连接至蛋白编码序列的异源性启动子、连接至poly-A尾的蛋白编码序列、在框架内与表位标签编码序列连接的蛋白编码序列等等。

如本申请所使用的，术语“载体”指能够在细胞中复制的染色体外的核酸分子，并且插入序列可以与其可操作地连接，以使得插入序列复制。有用的例子包括但不限于环状DNA分子如质粒构建体、噬菌体构建体、粘粒载体等，以及线性核酸构建体（例如，λ噬菌体构建体、细菌人工染色体（BAC）、酵母人工染色体（YAC）等）。载体可以包括表达信号，如启动子和/或终止子、选择性标记物如赋予抗生素抗性的基因、以及可以使插入序列克隆的一个或多个限制性位点。载体可以具有其他的独特性质（如其能够调节插入DNA的尺寸）。

如本申请所使用的，术语“基因组”指宿主细胞中含有的染色体和游离基因DNA。

5.2可切除的核酸构建体

在一个方面，本申请提供了一种可切除的核酸构建体，从5’至3’方向包括：a）第一串联重复（DR1）、b）靶DNA片段（D），和c）第二串联重复（DR2），和分别定位于DR1和D之间或者D和DR2之间的第一归巢核酸内切酶识别位点（ES1），以及任选地分别定位于D和DR2之间或者DR1和D之间的第二归巢核酸内切酶识别位点（ES2）（图1A）。因此，在某些实施方式中，可切除的核酸构建体从5’至3’方向包括：a）第一串联重复（DR1）、b）第一归巢核酸内切酶识别位点（ES1）、c）靶DNA片段（D）、以及d）第二串联重复（DR2）。在某些实施方式中，可切除的核酸构建体从5’至3’方向包括：a）第一串联重复（DR1）、b）靶DNA片段（D）、c）第一归巢核酸内切酶识别位点（ES1）、以及d）第二串联重复（DR2）。在某些实施方式中，可切除的核酸构建体从5’至3’方向包括：a）第一串联重复（DR1）、b）第一归巢核酸内切酶识别位点（ES1）、c）靶DNA片段（D）、d）第二归巢核酸内切酶识别位点（ES2）、以及e）第二串联重复（DR2）。

在某些实施方式中，上文所述的可切除的核酸构建体进一步包括连接至第一串联重复5’端的第一基因组整合序列（IS1）和连接至第二串联重复3’端的第二基因组整合序列（IS2）。因此，在某些实施方式中，可切除的核酸构建体从5’至3’方向包括：a）第一整合序列（IS1）、b）第一串联重复（DR1）、c）第一归巢核酸内切酶识别位点（ES1）、d）靶DNA片段（D）、e）第二串联重复（DR2）、以及f）第二整合序列（IS2）。在某些实施方式中，可切除的核酸构建体从5’至3’方向包括：a）第一整合序列（IS1）、b）第一串联重复（DR1）、c）靶DNA片段（D）、d）第一归巢核酸内切酶识别位点（ES1）、e）第二串联重复（DR2）、以及f）第二整合序列（IS2）。在某些实施方式中，可切除的核酸构建体从5’至3’方向包括：a）第一整合序列（IS1）、b）第一串联重复（DR1）、c）第一归巢核酸内切酶识别位点（ES1）、d）靶DNA片段（D）、e）第二归巢核酸内切酶识别位点（ES2）、f）第二串联重复（DR2）、以及g）第二整合序列（IS2）。

优选地，第一和第二整合序列能够促进可切除的核酸构建体整合至宿主细胞基因组。可切除的核酸构建体，当整合至宿主细胞基因组时，能够高频率和高精确度地从宿主细胞基因组中切除靶DNA片段（D）。在某些实施方式中，可切除的核酸构建体是线性DNA分子。

可切除的核酸构建体可以用于促进在基因工程应用中切除选择性标记物，或在将生物体释放至生产环境或自然环境之前时除去抗生素抗性标记物。还可以将其用于在宿主细胞及其后代中持续性地启动或关闭基因的表达。为了阻止基因的表达，可以将其顺式作用调控序列、其编码序列、或编码转录激活因子的基因切除。为了触发基因的表达，可以将转录抑制因子的基因或DNA结合位点切除，以使得其调控基因表达，或将DNA的干扰性链切除，以便在特定基因表达所需的元件之间产生所需的邻近相互作用。

可以通过本领域技术人员公知的任何技术制备可切除的核酸构建体。在一些实施方式中，使用聚合酶链式反应（PCR）和本领域公知的分子克隆技术制备可切除的核酸构建体。参见，例如PCRTechnology:PrinciplesandApplicationsforDNAAmplification,ed.HAErlich,StocktonPress,NewYork,N.Y.(1989)；Sambrooketal.,2001,MolecularCloning–ALaboratoryManual,3rdedition,ColdSpringHarborLaboratory,ColdSpringHarbor,NY；PCRTechnology:PrinciplesandApplicationsforDNAAmplification,ed.HAErlich,StocktonPress,NewYork,N.Y.(1989)。

将在下文中对可切除的核酸构建体的各个元件进行详细讨论。

5.2.1.归巢核酸内切酶识别位点

可切除的核酸构建体包括至少一个归巢核酸内切酶识别位点（ES1），和任选地第二归巢核酸内切酶识别位点（ES2）。在某些实施方式中，可切除的核酸构建体仅包括第一归巢核酸内切酶识别位点，ES1可以位于第一串联重复（DR1）的3’端和靶DNA片段（D）的5’端，或者靶DNA片段（D）的3’端和第二串联重复（DR2）的5’端。在某些实施方式中，可切除的核酸构建体包括第一和第二归巢核酸内切酶识别位点，ES1位于第一串联重复（DR1）的3’端和靶DNA片段（D）的5’端，并且ES2位于靶DNA片段（D）的3’端和第二串联重复（DR2）的5’端。在一些实施方式中，ES1位于D内。

归巢核酸内切酶识别位点使得相应的归巢核酸内切酶能够在归巢核酸内切酶识别位点处或其附近剪切可切除的核酸构建体。

归巢核酸内切酶识别位点的长度范围为14-40个核苷酸碱基对。在某些实施方式中，每个归巢核酸内切酶识别位点由14-40个核苷酸组成。在某些实施方式中，每个归巢核酸内切酶识别位点由18-40个核苷酸组成。在某些实施方式中，每个归巢核酸内切酶识别位点由20-40个核苷酸组成。在某些实施方式中，每个归巢核酸内切酶识别位点由25-40个核苷酸组成。在某些实施方式中，每个归巢核酸内切酶识别位点由30-40个核苷酸组成。在某些实施方式中，每个归巢核酸内切酶识别位点由35-40个核苷酸组成。在某些实施方式中，每个归巢核酸内切酶识别位点由14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个核苷酸组成。在某些实施方式中，每个归巢核酸内切酶识别位点由24个核苷酸组成。

在某些实施方式中，ES1位于DR1的3’端和D的5’端。在某些实施方式中，ES1位于DR1的3’端。在某些实施方式中，ES1紧邻DR1的3’端。在某些实施方式中，ES1位于DR1的3’端的下游。在某些实施方式中，ES1位于D的5’端。在某些实施方式中，ES1紧邻D的5’端。在某些实施方式中，ES1位于D的5’端的上游。

在某些实施方式中，ES1位于D的3’端和DR2的5’端。在某些实施方式中，ES1位于D的3’端。在某些实施方式中，ES1紧邻D的3’端。在某些实施方式中，ES1位于D的3’端的下游。在某些实施方式中，ES1位于DR2的5’端。在某些实施方式中，ES1紧邻DR2的5’端。在某些实施方式中，ES2位于DR2的5’端的上游。

在某些实施方式中，ES2，当与ES1组合时，其位于D的3’端和DR2的5’端。在某些实施方式中，ES2位于D的3’端。在某些实施方式中，ES2紧邻D的3’端。在某些实施方式中，ES2位于D的3’端的下游。在某些实施方式中，ES2位于DR2的5’端。在某些实施方式中，ES2紧邻DR2的5’端。在某些实施方式中，ES2位于DR2的5’端的上游。

在某些实施方式中，当ES1和ES2均存在时，ES1和ES2彼此之间以相反方向排布。在某些实施方式中，当ES1和ES2均存在时，ES1和ES2彼此之间以相同方向排布。

在某些实施方式中，ES1和ES2是本领域公知的任意归巢核酸内切酶的识别位点。多种类型的归巢核酸内切酶（但不是那些来自第II组内含子的归巢核酸内切酶）催化带有4bp的3’单链突出端的交错的双链断裂（DSB）。在某些实施方式中，ES1和ES2中的至少一个是选自下组的归巢核酸内切酶识别位点：LAGLIDADG（SEQIDNO:1）归巢核酸内切酶、HNH归巢核酸内切酶、His-Cys盒归巢核酸内切酶、GIY-YIG（SEQIDNO:2）归巢核酸内切酶、和蓝藻归巢核酸内切酶。在一些实施方式中，每个ES1和ES2为选自下组的归巢核酸内切酶识别位点：LAGLIDADG（SEQIDNO:1）归巢核酸内切酶、HNH归巢核酸内切酶、His-Cys盒归巢核酸内切酶、GIY-YIG（SEQIDNO:2）归巢核酸内切酶、和蓝藻归巢核酸内切酶。参见，例如Stoddard,QuarterlyReviewofBiophysics38(1):49-95(2006)。这些家族在其保守的核酸酶活性位点核心基序和催化机制、生物学和基因组分布、以及与非归巢核酸酶系统广泛的相互关系方面存在较大差异。来自这些家族的有用的特异性归巢核酸内切酶的例子包括，但不限于：I-CreI（参见，Rochaixetal.,NucleicAcidsRes.13:975-984(1985)）、I-MsoI（参见，Lucasetal.,NucleicAcidsRes.29:960-969(2001)）、I-SceI（参见，Fouryetal.,FEBSLett.440:325-331(1998)）、I-SceIV（参见，Moranetal.,NucleicAcidsRes.20:4069-4076(1992)）、H-DreI（参见，Chevalieretal.,Mol.Cell10:895-905(2002)）、I-HmuI（参见，Goodrich-Blairetal.,Cell63:417-424(1990)；Goodrich-Blairetal.,Cell84:211-221(1996)）、I-PpoI（参见，Muscarellaetal.,Mol.Cell.Biol.10:3386-3396(1990)）、I-DirI（参见，Johansenetal.,Cell76:725-734(1994)；Johansen,NucleicAcidsRes.21:4405(1993)）、I-NjaI（参见，Eldeetal.,Eur.J.Biochem.259:281-288(1999)；DeJonckheereetal.,J.Eukaryot.Microbiol.41:457-463(1994)）、I-NanI（参见，Eldeetal.,S.Eur.J.Biochem.259:281-288(1999)；DeJonckheereetal.,J.Eukaryot.Microbiol.41:457-463(1994)）、I-NitI（参见，DeJonckheereetal.,J.Eukaryot.Microbiol.41:457-463(1994)；Eldeetal.,Eur.J.Biochem.259:281-288(1999)）、I-TevI（参见，Chuetal.,Cell45:157-166(1986)）、I-TevII（参见，Tomaschewskietal.,NucleicAcidsRes.15:3632-3633(1987)）、I-TevIII（参见，Eddyetal.,GenesDev.5:1032-1041(1991)）、F-TevI（参见，Fujisawaetal.,NucleicAcidsRes.13:7473-7481(1985)）、F-TevII（参见，Kadyrovetal.,Dokl.Biochem.339:145-147(1994)；Kaliman,NucleicAcidsRes.18:4277(1990)）、F-CphI（参见，Zengetal.,Curr.Biol.19:218-222(2009)）、PI-MgaI（参见，Savesetal.,NucleicAcidsRes.29:4310-4318(2001)）、I-CsmI（参见，Colleauxetal.,Mol.Gen.Genet.223:288-296(1990)）、I-CeuI（参见，Turmeletal.,J.Mol.Biol.218:293-311(1991)）和PI-SceI（参见，Hirataetal.,J.Biol.Chem.265:6726-6733(1990)）。

在某些实施方式中，ES1或ES2中的至少一个是选自下组的归巢核酸内切酶识别位点：I-CreI、I-MsoI、I-SceI、I-SceIV、H-DreI、I-HmuI、I-PpoI、I-DirI、I-NjaI、I-NanI、I-NitI、I-TevI、I-TevII、I-TevIII、F-TevI、F-TevII、F-CphI、PI-MgaI、I-CsmI、I-CeuI、和PI-SceI。在一些实施方式中，每个ES1和ES2为选自下组的归巢核酸内切酶识别位点：I-CreI、I-MsoI、I-SceI、I-SceIV、H-DreI、I-HmuI、I-PpoI、I-DirI、I-NjaI、I-NanI、I-NitI、I-TevI、I-TevII、I-TevIII、F-TevI、F-TevII、F-CphI、PI-MgaI、I-CsmI、I-CeuI、和PI-SceI。

在本申请提供的组合物和方法的特定实施方式中，选择ES1和ES2的依据为宿主细胞的野生型（非工程化的）核DNA中没有归巢核酸内切酶识别位点。例如，在野生型（非工程化的）酿酒酵母的核DNA中不含I-SceI、PI-MtuII（pps1）、PI-MgaI（pps1）、和F-CphI识别位点（参见，例如CurrBiol2009;19:218-22;ProcNatlAcadSciUSA1988;85:6022-6;JBiolChem2002;277:16257-64;JBiolChem2002;277:40352-61;和NucleicAcidsRes2001;29:4310-8），而VDEakaPI-SceI位点在某些菌株中存在，但在其他菌株中不存在（参见，例如NucleicAcidsRes2001;29:4215-23）。这样，在本申请提供的组合物和方法的某些实施方式中，ES1和ES2为I-SceI识别位点，宿主细胞为酿酒酵母细胞。在某些实施方式中，ES1和ES2为PI-MtuII（pps1）识别位点，宿主细胞为酿酒酵母细胞。在某些实施方式中，ES1和ES2为PI-MgaI（pps1）识别位点，宿主细胞为酿酒酵母细胞。在某些实施方式中，ES1和ES2为F-CphI识别位点，宿主细胞为酿酒酵母细胞。

在某些实施方式中，ES1和ES2的选择依据为满足下述标准中的一项或多项：（1）在宿主细胞的整个野生型（非工程化的）基因组（即，包括线粒体DNA）中不含归巢核酸内切酶识别位点；（2）不表达相应的归巢核酸内切酶，归巢核酸内切酶的识别位点不会被剪切；以及（3）相应归巢核酸内切酶的核表达，例如为诱导剪切基因上整合的靶核酸，对宿主细胞是无害的。在某些实施方式中，除了在宿主细胞的野生型（非工程化的）核DNA中不存在以外，ES1和ES2还满足上文所列标准中的一项、两项、或者全部三项。

5.2.2.串联重复

可切除的核酸构建体包括第一和第二串联重复。第一串联重复（DR1）位于靶DNA片段（D）的5’端，并且第二串联重复（DR2）位于靶DNA片段（D）的3’端。

第一和第二串联重复能够介导可切除的核酸构建体经归巢核酸内切酶剪切后的剩余部分重组。串联重复彼此之间位于相同方向（正向串联重复）能够有利于通过单链退火途径介导宿主细胞内的染色体内重组。参见，例如Ivanovetal.,Genetics142:693-704(1996)。

DR1和DR2可以是能够介导可切除的核酸构建体经归巢核酸内切酶剪切后的剩余部分重组的任意串联重复。可能影响此类重组的串联重复性质包括但不限于：长度、GC含量、与宿主细胞基因组的天然序列的同源性、以及串联重复之间的序列同一性程度。可以采用任意计算机程序以及相关参数确定序列同一性的程度，包括本申请中描述的那些，如BLAST2.2.2或FASTA3.0t78版，使用默认参数设置。

在某些实施方式中，DR1位于ES1的5’端。在某些实施方式中，DR1紧邻ES1的5’端。在某些实施方式中，DR1位于ES1的5’端的上游。

在某些实施方式中，DR2位于ES1的3’端，或当ES1和ES2均存在时，位于ES2的3’端。在某些实施方式中，DR2紧邻ES1的3’端，或当ES1和ES2均存在时，紧邻ES2的3’端。在某些实施方式中，DR2位于ES1的3’端的下游，或当ES1和ES2均存在时，位于ES2的3’端的下游。

在某些实施方式中，每个DR1和DR2独立地包含至少18个核苷酸碱基对。在某些实施方式中，每个DR1和DR2独立地包含18至500个核苷酸碱基对。在某些实施方式中，每个第一和第二串联重复核酸独立地由18至500、18至495、18至490、18至485、18至480、18至475、18至470、18至465、18至460、18至455、18至450、18至445、18至440、18至435、18至430、18至425、18至420、18至415、18至410、18至405、18至400、18至395、18至390、18至385、18至380、18至375、18至370、18至365、18至360、18至355、18至350、18至345、18至340、18至335、18至330、18至325、18至320、18至315、18至310、18至305、18至300、18至295、18至290、18至285、18至280、18至275、18至270、18至265、18至260、18至255、18至250、18至245、18至240、18至235、18至230、18至225、18至220、18至215、18至210、18至205、18至200、18至195、18至190、18至185、18至180、18至175、18至170、18至165、18至160、18至155、18至150、18至145、18至140、18至135、18至130、18至125、18至120、18至115、18至110、18至105、18至100、18至95、18至90、18至85、18至80、18至75、18至70、18至65、18至60、18至55、18至50、18至45、18至40、18至35、18至30、18至25、或18至20个核苷酸碱基对组成。在某些实施方式中，每个DR1和DR2独立地由18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199或200个核苷酸碱基对组成。

在某些实施方式中，每个DR1和DR2独立地由18至200个核苷酸碱基对组成。在某些实施方式中，每个DR1和DR2独立地由18至150个核苷酸碱基对组成。在某些实施方式中，每个DR1和DR2独立地由18至100个核苷酸碱基对组成。在某些实施方式中，每个DR1和DR2独立地由18至80个核苷酸碱基对组成。

在某些实施方式中，DR1和DR2具有至少25%的核苷酸序列同一性。在某些实施方式中，DR1和DR2具有至少30%的核苷酸序列同一性。在某些实施方式中，DR1和DR2具有至少35%的核苷酸序列同一性。在某些实施方式中，DR1和DR2具有至少40%的核苷酸序列同一性。在某些实施方式中，DR1和DR2具有至少45%的核苷酸序列同一性。在某些实施方式中，DR1和DR2具有至少50%的核苷酸序列同一性。在某些实施方式中，DR1和DR2具有至少60%的核苷酸序列同一性。在某些实施方式中，DR1和DR2具有至少65%的核苷酸序列同一性。在某些实施方式中，DR1和DR2具有至少70%的核苷酸序列同一性。在某些实施方式中，DR1和DR2具有至少75%的核苷酸序列同一性。在某些实施方式中，DR1和DR2具有至少80%的核苷酸序列同一性。在某些实施方式中，DR1和DR2具有至少85%的核苷酸序列同一性。在某些实施方式中，DR1和DR2具有至少90%的核苷酸序列同一性。在某些实施方式中，DR1和DR2具有至少95%的核苷酸序列同一性。在某些实施方式中，DR1和DR2具有至少99%的核苷酸序列同一性。在某些实施方式中，DR1和DR2具有100%的核苷酸序列同一性。

在优选的实施方式中，DR1和DR2彼此之间位于相同方向（即，它们是正向串联重复）。

5.2.3.靶DNA片段

可切除的核酸构建体包含靶DNA片段（D）。在某些实施方式中，靶DNA片段（D）位于第一归巢核酸内切酶识别位点（ES1）的3’端。在某些实施方式中，存在第二归巢核酸内切酶识别位点（ES2），靶DNA片段（D）位于ES2的5’端。在某些实施方式中，靶DNA片段（D）位于第一归巢核酸内切酶识别位点（ES1）的3’端和第二串联重复（DR2）的5’端。在某些实施方式中，靶DNA片段（D）位于第一串联重复（DR1）的3’端和第一归巢核酸内切酶识别位点（ES1）的5’端。

在某些实施方式中，D的5’端位于ES1的3’端。在某些实施方式中，D的5’端紧邻ES1的3’端。在某些实施方式中，D的5’端位于ES1的3’端的下游。

在某些实施方式中，D的5’端位于DR1的3’端。在某些实施方式中，D的5’端紧邻DR1的3’端。在某些实施方式中，D的5’端位于DR1的3’端的下游。

在某些实施方式中，当ES1与ES2组合存在时，D的3’端位于ES2的5’端。在某些实施方式中，当ES1与ES2组合存在时，D的3’端紧邻ES2的5’端。在某些实施方式中，当ES1与ES2组合存在时，D的3’端位于ES2的5’端的上游。

在某些实施方式中，D的3’端位于DR2的5’端。在某些实施方式中，D的3’端紧邻DR2的5’端。在某些实施方式中，D的3’端位于DR2的5’端的上游。

靶DNA片段可以是被本领域技术人员视为有用的任意靶DNA片段。例如，靶DNA片段可以包含能够被“敲入”宿主基因组并且随后通过剪切被“敲除”的感兴趣的基因。在某些实施方式中，靶核酸可以包含选择性标记，其可以用于选择可切除核酸构建体与宿主基因组的整合，并且随后通过剪切将其从宿主基因组中除去。

靶DNA片段的有用的例子包括但不限于：蛋白编码序列、选择性标记、报告基因、荧光标记物编码序列、启动子、增强子、终止子、转录激活因子、转录抑制因子、转录激活因子结合位点、转录抑制因子结合位点、内含子、外显子、poly-A尾、多克隆位点、核定位信号、mRNA稳定信号、整合基因座、表位标签编码序列、降解信号、或任何其他的天然产生的或合成的DNA分子。在某些实施方式中，DNA片段可以是天然来源的。或者，靶DNA片段可以完全是体外产生的合成来源的。而且，靶DNA可以包含分离的天然来源的DNA分子的任意组合，或者分离的天然来源的DNA分子与合成的DNA分子的任意组合。例如，靶DNA片段可以包含可操作地连接至蛋白编码序列的异源性启动子、连接至poly-A尾的蛋白编码序列、在框架内与表位标签编码序列连接的蛋白编码序列等等。靶DNA片段可以通过本领域公知的标准方法从克隆的DNA（例如，DNA“文库”）中获得，可以通过化学合成、通过cDNA克隆、或通过对基因组DNA或其片段的克隆、从所需的细胞中纯化、或通过PCR扩增和克隆等方法获得。参见，例如，Sambrooketal.,MolecularCloning,ALaboratoryManual,3d.ed.,ColdSpringHarborLaboratoryPress,ColdSpringHarbor,NewYork(2001)；Glover,D.M.(ed.),DNACloning:APracticalApproach,2d.ed.,MRLPress,Ltd.,Oxford,U.K.(1995)。

在某些实施方式中，D包含可操作地连接至编码归巢核酸内切酶的核酸的启动子元件。例如，可切除的核酸构建体包含第一和第二识别位点，例如对于归巢核酸内切酶F-CphI而言，靶DNA片段可以包括编码F-CphI的核酸序列，该核酸序列可操作地连接至启动子元件。在具体实施方式中，控制编码归巢核酸内切酶的核酸表达的启动子元件是诱导型启动子，例如酿酒酵母的半乳糖诱导型启动子（例如，GAL1、GAL7、和GAL10基因的启动子），这样靶DNA片段的切除，包括编码归巢核酸内切酶的序列，可以被选择性切除，例如在可切除的核酸构建体整合至宿主细胞基因组以后切除。在某些实施方式中，归巢核酸内切酶选自下组：LAGLIDADG（SEQIDNO:1）归巢核酸内切酶、HNH归巢核酸内切酶、His-Cys盒归巢核酸内切酶、GIY-YIG（SEQIDNO:2）归巢核酸内切酶、和蓝藻归巢核酸内切酶。在一些实施方式中，归巢核酸内切酶选自下组：I-CreI、I-MsoI、I-SceI、I-SceIV、H-DreI、I-HmuI、I-PpoI、I-DirI、I-NjaI、I-NanI、I-NitI、I-NgrI、I-TevI、I-TevII、I-TevIII、F-TevI、F-TevII、F-CphI、PI-MgaI、PI-MtuII、I-CsmI、I-PanI、I-CeuI、和PI-SceI。在具体实施方式中，归巢核酸内切酶是I-SceI。在某些实施方式中，归巢核酸内切酶是F-CphI。

在某些实施方式中，D编码一个或多个选择性标记。在某些实施方式中，选择性标记是抗生素抗性标记。抗生素抗性标记是用于构建重组核酸序列的质粒载体中通常具有的。例如，pBR和pUC-衍生质粒中含有细菌抗药性标记AMP^r或BLA基因作为选择性标记（参见，Sutcliffe,J.G.,etal.,Proc.Natl.Acad.Sci.U.S.A.75:3737(1978)）。BLA基因编码酶Tem-1，其功能为β-内酰胺酶，并负责细菌对β-内酰胺抗生素的抗性，如窄谱头孢菌素、头霉素、和碳烯青霉素（厄他培南）、头孢孟多、和头孢哌酮，以及除替莫西林以外的所有抗革兰氏阴性细菌青霉素。

其他有用的选择性标记包括但不限于：NAT1、PAT、AUR1-C、PDR4、SMR1、CAT、小鼠dhfr、HPH、DSDA、KAN^R、和SHBLE基因。诺尔斯链霉菌的NAT1基因编码诺尔斯菌素N-乙酰基转移酶，并具有诺尔斯菌素抗性。来自于S.viridochromogenesTu94的PAT基因编码草胺膦N-乙酰基转移酶，并具有双丙氨磷抗性。来自酿酒酵母的AUR1-C基因具有金担子素A（AbA）抗性，金担子素A是由出芽金担子菌产生的对出芽酵母酿酒酵母具有毒性的抗真菌抗生素。PDR4基因对浅蓝菌素具有抗性。SMR1基因对甲嘧磺隆具有抗性。来自Tn9转座子的CAT编码序列对氯霉素具有抗性。小鼠dhfr基因对甲氨蝶呤具有抗性。肺炎克雷伯菌的HPH基因编码潮霉素B磷酸转移酶，并对潮霉素B具有抗性。大肠杆菌的DSDA基因编码D-丝氨酸脱氨酶，并用于酵母在以D-丝氨酸作为唯一氮源的平板上生长。Tn903转座子的KAN^R基因编码氨基糖苷类磷酸转移酶，并对G418具有抗性。来自印度斯坦链异壁菌的SHBLE基因编码Zeocin结合蛋白，并对Zeocin（博来霉素）具有抗性。

在其他实施方式中，选择性标记包含可用于选择酵母宿主菌株的转化细胞的酵母基因。在某些实施方式中，选择性标记挽救宿主菌株中的缺陷体，例如营养缺陷体。在此类实施方式中，宿主菌株包含导致宿主营养缺陷型表型的氨基酸生物合成途径中的一个或多个基因的功能破坏，例如HIS3、LEU2、LYS1、MET15、和TRP1，或者导致宿主营养缺陷型表型的核苷酸生物合成途径中的一个或多个基因的功能破坏，例如ADE2和URA3。在具体实施方式中，基因修饰的酵母宿主菌株包含URA3基因的功能破坏。在宿主酵母中导致营养缺陷型表型的功能破坏可以是点突变、部分或全部基因删除、或者核苷酸的插入或取代。氨基酸或核苷酸生物合成途径中的功能突变导致宿主菌株成为营养缺陷型突变体，其与原养型野生型菌株不同，在未添加一种或多种营养物的培养基中不能最适生长。然后，可以将宿主菌株中的功能破坏生物合成基因作为营养缺陷型基因标记，随后可以将其挽救，例如引入一个或多个质粒，其包含被破坏的生物合成基因的功能性拷贝。

利用URA3、TRP1、和LYS2酵母基因作为选择性标记具有显著优势，因为使同时进行阳性和阴性选择成为可能。阳性选择通过URA3、TRP1、和LYS2突变的营养缺陷型补偿进行，而阴性选择分别利用特异性抑制剂5-氟-乳清酸（FOA）、5-氟邻氨基苯甲酸、和a-氨基己二酸（aAA）进行，这些抑制剂阻止原养型菌株生长，但是可以分别用于URA3、TRP1、和LYS2突变体生长。URA3基因编码乳清苷-5’磷酸脱羧酶，该酶是尿嘧啶生物合成所需的。可以在含有FOA的培养基中对ura3-（或ura5-）细胞进行选择，FOA杀死全部URA3+细胞，而非ura3-细胞，因为FOA在脱羧酶的作用下似乎转化成毒性化合物5-氟尿嘧啶。在FOA培养基上的阴性选择具有较高的分辨能力，通常低于10^-2的FOA-抗性菌落即为Ura+。FOA选择方法可以用于在单倍体菌株中通过突变产生ura3标记，并且更重要的是，用于选择那些不具有含URA3质粒的细胞。TRP1基因编码磷酸核糖邻氨基苯甲酸异构酶，该酶催化色氨酸生物合成的第三步。使用5-氟邻氨基苯甲酸进行的反选择包括利用菌株进行代谢拮抗作用，所述菌株缺乏将邻氨基苯甲酸转化为色氨酸所需的酶，因此这些菌株对5-氟邻氨基苯甲酸具有抗性。LYS2基因编码氨基乙二酸还原酶，该酶是赖氨酸生物合成所需的。Lys2-和lys5-突变体可以在缺乏正常氮源但含有赖氨酸和aAA的培养基中生长，但是Lys2-和lys5-正常菌株不行。显然，lys2和lys5突变导致赖氨酸生物合成中的毒性中间体蓄积，该中间体由高水平的aAA形成，但是这些突变体仍能够使用aAA作为氮源。与FOA选择方法类似，含有LYS2的质粒可以方便地从lys2宿主中清除。

在其他实施方式中，选择性标记是不同于挽救营养缺陷型突变标记的标记。例如，酵母宿主细胞菌株可以包含不同于营养缺陷型突变的突变，例如不会导致宿主死亡并且也不会对菌株的预期用途（例如工业发酵）造成不良效应的突变，只要能够通过已知的选择方法鉴定这些突变即可。

5.2.4.基因组整合序列

在某些实施方式中，可切除的核酸构建体包括第一和第二基因组整合序列。基因组整合序列用于将本申请所述的可切除的核酸构建体整合至宿主细胞的基因组，例如通过宿主细胞介导的同源重组。为了通过同源重组将可切除的核酸构建体整合至基因组，可切除的核酸构建体优选地包括在一个末端包含上游基因组整合序列（IS1）的核酸序列，并且在另一个末端包含下游基因组整合序列（IS2）的核酸序列，其中各基因组整合序列的长度和序列同一性足以启动宿主细胞与其染色体的同源重组。在某些实施方式中，第一基因组整合序列（IS1）位于第一串联重复（DR1）的5’端，并且第二基因组整合序列（IS2）位于第二串联重复（DR2）的3’端。

在一些实施方式中，IS1位于DR1的5’端。在某些实施方式中，IS1紧邻DR1的5’端。在某些实施方式中，IS1位于DR1的5’端的上游。

在一些实施方式中，IS2位于DR2的3’端。在某些实施方式中，IS2紧邻DR2的3’端。在某些实施方式中，IS2位于DR2的3’端的下游。

第一和第二基因组整合序列使得可切除的核酸构建体通过同源重组整合至宿主细胞基因组例如酵母基因组的特定基因座。将可切除的核酸构建体靶向整合至宿主细胞基因组可以提供有用的益处。例如，可以将可切除的核酸构建体整合至宿主细胞基因组中的感兴趣的基因，从而“敲除”感兴趣的基因，并使其表现为非功能性（图2）。或者，可切除的核酸构建体的靶向整合可以用于将感兴趣的基因“敲入”特定基因座或“敲入”感兴趣的基因附近的调控元件，例如以活化或上调感兴趣的基因的表达。

可能影响可切除的核酸构建体在特定基因座整合的性质包括但不限于：基因组整合序列的长度、可切除的核酸构建体的全长、以及基因组整合基因座的核苷酸序列或位置。例如，在基因组整合序列的一条链与宿主细胞基因组中特定基因座的一条链之间形成有效的异源双链体可能依赖于基因组整合序列的长度。基因组整合序列长度的有效范围为50至5,000个核苷酸。关于基因组整合序列与基因座之间同源性有效长度的讨论，参见Hastyetal.,MolCellBiol11:5586-91(1991)。

IS1和IS2可以包含具有足够长度、并且与宿主细胞基因座具有足够的序列同一性的任意核苷酸序列，用于可切除核酸构建体的基因组整合。在某些实施方式中，“足够的序列同一性”指在长度为至少20个碱基对、至少50个碱基对、至少100个碱基对、至少250个碱基对、至少500个碱基对、或500个以上碱基对的范围内，序列与宿主细胞的基因座具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、或100%同一性。在一些实施方式中，宿主细胞基因座的长度为100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3100、3200、3300、3400、3500、3600、3700、3800、3900、4000、4100、4200、4300、4400、4500、4600、4700、4800、4900或5,000个核苷酸。可以采用任意计算机程序以及相关参数确定序列同一性的程度，包括本申请中描述的那些，如BLAST2.2.2或FASTA3.0t78版，使用默认参数设置。

在一些实施方式中，每个IS1和IS2包含具有足够的长度、并且与原核细胞基因座具有足够的序列同一性的核苷酸序列，以使得可切除的核酸构建体整合至原核细胞的基因座。在一些实施方式中，每个IS1和IS2包含具有足够的长度、并且与真核细胞基因座具有足够的序列同一性的核苷酸序列，以使得可切除的核酸构建体整合至真核细胞的基因座。在一些实施方式中，每个IS1和IS2包含具有足够的长度、并且与酵母基因座具有足够的序列同一性的核苷酸序列，以使得可切除的核酸构建体整合至酵母的基因座。在一些实施方式中，每个IS1和IS2包含具有足够的长度、并且与酿酒酵母基因座具有足够的序列同一性的核苷酸序列，以使得可切除的核酸构建体整合至酿酒酵母的基因座。用于整合可切除的核酸构建体的适宜的酿酒酵母的基因座包括但不限于NDT80、HO、GAL80、HTX3、GAL2和GAL1-GAL10-GAL7基因座。

在一些实施方式中，每个IS1和IS2独立地由约50至5,000个核苷酸组成。在一些实施方式中，每个IS1和IS2独立地包含约50至5,000个核苷酸。在一些实施方式中，每个IS1和IS2独立地由约100至2,500个核苷酸组成。在一些实施方式中，每个IS1和IS2独立地由约100至1,000个核苷酸组成。在某些实施方式中，每个IS1和IS2独立地由约250至750个核苷酸组成。在某些实施方式中，每个IS1和IS2独立地由约100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3100、3200、3300、3400、3500、3600、3700、3800、3900、4000、4100、4200、4300、4400、4500、4600、4700、4800、4900或5,000个核苷酸组成。在某些实施方式中，每个IS1和IS2独立地由约500个核苷酸组成。

可以采用本领域技术人员公知的任意技术制备包含第一和第二基因组整合序列的可切除的核酸构建体。在一些实施方式中，使用重叠延伸PCR和本领域公知的分子克隆技术制备包含第一和第二整合序列的可切除的核酸构建体。参见，例如U.S.专利申请公开号2010/0136633，U.S.专利号5,023,171（通过过度延伸PCR剪接）；Sambrooketal.,2001,MolecularCloning–ALaboratoryManual,3^rdedition,ColdSpringHarborLaboratory,ColdSpringHarbor,NY。

5.3宿主细胞

在另一方面，本申请提供了一种宿主细胞，其包括上文所述的可切除的核酸构建体。在一些实施方式中，宿主细胞包括整合至宿主细胞基因组的可切除的核酸构建体。

适宜的宿主细胞包括需要从染色体或游离基因的基因座中切除靶DNA片段的任何细胞。在某些实施方式中，宿主细胞是原核细胞。在某些实施方式中，宿主细胞是细菌细胞。在某些实施方式中，宿主细胞是大肠杆菌细胞。在某些实施方式中，宿主细胞是真核细胞。在某些实施方式中，宿主细胞是哺乳动物细胞。在某些实施方式中，宿主细胞是中国仓鼠卵巢（CHO）细胞、COS-7细胞、小鼠成纤维细胞、小鼠胚胎性癌细胞、或小鼠胚胎干细胞。在某些实施方式中，宿主细胞是昆虫细胞。在某些实施方式中，宿主细胞是S2细胞、施耐德细胞、S12细胞、5B1-4细胞、Tn5细胞、或Sf9细胞。在某些实施方式中，宿主细胞是单细胞真核生物体细胞。

在某些实施方式中，宿主细胞是酵母细胞。在某些实施方式中，宿主细胞是二倍体酵母细胞。在某些实施方式中，宿主细胞是单倍体酵母细胞。有用的酵母宿主细胞包括存放在微生物保藏所（例如IFO、ATCC等）的酵母细胞并且属于以下属芽孢酵母属（Aciculoconidium）、神食酵母属（Ambrosiozyma）、节束酵母属（Arthroascus）、阿斯霉属（Arxiozyma），阿叔囊霉属（Ashbya）、Babjevia属、本森顿酵母属（Bensingtonia）、Botryoascus属、Botryozyma属、酒香酵母属（Brettanomyces）、孢酵母（Bullera）、布勒担孢酵母属（Bulleromyces）、假丝酵母属（Candida）、固囊酵母属（Citeromyces）、棒孢酵母属（Clavispora）、球酵母属（Cryptococcus）、Cystofilobasidium属、德巴利氏酵母属（Debaryomyces）、德克酵母属（Dekkara）、拟双足囊菌属（Dipodascopsis）、双足囊菌属（Dipodascus）、Eeniella属、Endomycopsella属、Eremascus属、假囊酵母属（Eremothecium）、担孢酵母属（Erythrobasidium）、Fellomyces属、Filobasidium属、Galactomyces属、地丝菌属（Geotrichum）、四季酵母属（Guilliermondella）、汉森氏酵母属（Hanseniaspora）、汉逊酵母属（Hansenula）、Hasegawaea属、胶珊瑚属（Holtermannia）、Hormoascus属、生丝毕赤酵母属（Hyphopichia）、伊萨酵母属（Issatchenkia）、克勒克酵母属（Kloeckera）、克孢酵母（Kloeckeraspora）、克鲁维酵母属（Kluyveromyces）、孔多阿酵母属（Kondoa）、Kuraishia属、克氏担孢酵母属（Kurtzmanomyces）、白冬孢酵母属（Leucosporidium）、油脂酵母属（Lipomyces）、娄德酵母属（Lodderomyces）、马拉色菌属（Malassezia）、梅氏酵母属（Metschnikowia）、木拉克酵母属（Mrakia）、Myxozyma属、拿逊酵母属（Nadsonia）、Nakazawaea属、针孢酵母属（Nematospora）、Ogataea属、卵孢酵母属（Oosporidium）、管囊酵母属（Pachysolen）、Phachytichospora属、法夫酵母属（Phaffia）、毕赤酵母属（Pichia）、红冬孢酵母属（Rhodosporidium）、红酵母属（Rhodotorula）、酵母菌属（Saccharomyces）、类酵母属（Saccharomycodes）、覆膜孢酵母属（Saccharomycopsis）、齐藤酵母属（Saitoella）、Sakaguchia属、Saturnospora属、裂芽酵母属（Schizoblastosporion）、裂殖酵母属（Schizosaccharomyces）、许旺酵母属（Schwanniomyces）、锁掷酵母属（Sporidiobolus）、掷孢酵母属（Sporobolomyces）、原孢酵母属（Sporopachydermia）、冠孢酵母属（Stephanoascus）、梗孢酵母属（Sterigmatomyces）、Sterigmatosporidium属、Symbiotaphrina属、合轴酵母属（Sympodiomyces）、Sympodiomycopsis属、有孢圆酵母属（Torulaspora）、丝孢酵母属（Trichosporiella）、毛孢子菌属（Trichosporon）、三角酵母属（Trigonopsis）、Tsuchiyaea属、Udeniomyces属、Waltomyces属、威克酵母属（Wickerhamia）、拟威克酵母属（Wickerhamiella）、拟威尔酵母属（Williopsis）、粉状毕赤氏酵母属（Yamadazyma）、亚罗酵母属（Yarrowia）、接合囊酵母属（Zygoascus）、接合酵母属（Zygosaccharomyces）、Zygowilliopsis属、和配合酵母属（Zygozyma）。

在某些实施方式中，酵母宿主细胞是酿酒酵母细胞、毕赤酵母细胞、粟酒裂殖酵母细胞、克鲁维酵母细胞、Arxulaadeninivorans细胞、或多形汉逊酵母（现称为安格斯毕赤酵母）细胞。在特定实施方式中，酵母宿主细胞是啤酒酵母细胞。在某些实施方式中，酵母宿主细胞是脆壁酵母细胞或克鲁维酵母（此前称为乳酸酵母）细胞。在某些实施方式中，酵母宿主细胞为属于假丝酵母属的细胞，如解脂假丝酵母、高里假丝酵母、克鲁斯假丝酵母、热带假丝酵母、或产朊假丝酵母。在另一个特定实施方式中，酵母宿主细胞是马克斯克鲁维酵母细胞。

在特定实施方式中，酵母宿主细胞是选自下组的酿酒酵母细胞：贝克酵母细胞、CBS7959细胞、CBS7960细胞、CBS7961细胞、CBS7962细胞、CBS7963细胞、CBS7964细胞、IZ-1904细胞、TA细胞、BG-1细胞、CR-1细胞、SA-1细胞、M-26细胞、Y-904细胞、PE-2细胞、PE-5细胞、VR-1细胞、BR-1细胞、BR-2细胞、ME-2细胞、VR-2细胞、MA-3细胞、MA-4细胞、CAT-1细胞、CB-1细胞、NR-1细胞、BT-1细胞、和AL-1细胞。在某些实施方式中，宿主细胞是选自下组的酿酒酵母细胞：PE-2细胞、CAT-1细胞、VR-1细胞、BG-1细胞、CR-1细胞、和SA-1细胞。在特定实施方式中，酿酒酵母宿主细胞是PE-2细胞。在另一个特定实施方式中，酿酒酵母宿主细胞是CAT-1细胞。在另一个特定实施方式中，酿酒酵母宿主细胞是BG-1细胞。

在一些实施方式中，可以采用本领域公知的将外源性核酸引入细胞的任意常规技术将上文所述的可切除的核酸构建体引入宿主细胞。此类方法包括，但不限于，溶液中的细胞直接摄取分子，或者使用脂质转染法例如脂质体或免疫脂质体促进摄取；粒子介导的转染等。参见，例如U.S.专利号5,272,065；Goeddeletal.,eds,1990,MethodsinEnzymology,vol.185,AcademicPress,Inc.,CA;Krieger,1990,GeneTransferandExpression--ALaboratoryManual,StocktonPress,NY；Sambrooketal.,1989,MolecularCloning--ALaboratoryManual,ColdSpringHarborLaboratory,NY；和Ausubeletal.,eds.,CurrentEdition,CurrentProtocolsinMolecularBiology,GreenePublishingAssociatesandWileyInterscience,NY。用于转染酵母细胞的特定方法是本领域所公知的。参见Hinnenetal.,Proc.Natl.Acad.Sci.USA75:1292-3(1978)；Creggetal.,Mol.Cell.Biol.5:3376-3385(1985)。示例性的技术包括但不限于，原生质球法、电穿孔法、PEG1000介导的转化法、以及醋酸锂或氯化锂介导的转化法。

5.4归巢核酸内切酶表达载体

在另一方面，本申请提供了一种编码归巢核酸内切酶的表达载体，用于从包含可切除的核酸构建体的宿主细胞的基因组中切除靶DNA片段。

在一些实施方式中，表达载体编码选自下组的归巢核酸内切酶：LAGLIDADG（SEQIDNO:1）归巢核酸内切酶、HNH归巢核酸内切酶、His-Cys盒归巢核酸内切酶、GIY-YIG（SEQIDNO:2）归巢核酸内切酶、和蓝藻归巢核酸内切酶。在一些实施方式中，表达载体编码选自下组的归巢核酸内切酶：I-CreI、I-MsoI、I-SceI、I-SceIV、H-DreI、I-HmuI、I-PpoI、I-DirI、I-NjaI、I-NanI、I-NitI、I-NgrI、I-TevI、I-TevII、I-TevIII、F-TevI、F-TevII、F-CphI、PI-MgaI、PI-MtuII、I-CsmI、I-PanI、I-CeuI、和PI-SceI。在特定实施方式中，表达载体编码I-SceI。在一些实施方式中，表达载体编码F-CphI。

归巢核酸内切酶表达载体是使得归巢核酸内切酶在宿主细胞中表达的任意表达载体。适宜的表达载体包括但不限于已知用于在大肠杆菌、酵母、或哺乳动物细胞中表达基因的那些表达载体。大肠杆菌表达载体的例子包括但不限于pSCM525、pDIC73、pSCM351、和pSCM353。酵母表达载体的例子包括但不限于pPEX7和pPEX408。适宜的表达载体的其他例子包括酵母-大肠杆菌pRS串联穿梭质粒，其包含CEN.ARS序列和酵母选择性标记；以及2μ质粒。

在一些实施方式中，归巢核酸内切酶表达载体进一步包含选择性标记，其可以选择包含表达载体的宿主细胞。在一些实施方式中，选择性标记选自下组：URA3、潮霉素B磷酸转移酶、氨基糖苷磷酸转移酶、博来霉素抗性和草胺膦N-乙酰转移酶。

在一些实施方式中，表达载体进一步包含转录终止序列和启动子，所述启动子可操作地连接至编码归巢核酸内切酶的核苷酸序列。在某些实施方式中，启动子是组成型启动子。在某些实施方式中，启动子是诱导型启动子。

适用于酵母细胞的启动子的说明性例子包括，但不限于克鲁氏乳酸酵母的TEF1基因启动子、酿酒酵母的PGK1基因启动子、酿酒酵母的TDH3基因启动子、阻遏启动子例如酿酒酵母的CTR3基因启动子、以及诱导型启动子例如酿酒酵母的半乳糖诱导型启动子（例如，GAL1、GAL7、和GAL10基因启动子）。

在某些实施方式中，一条包含核定位序列（NLS）的附加核苷酸序列连接至编码归巢核酸内切酶的核苷酸序列的5’端。NLS能够促进较大的归巢核酸内切酶（>25kD）进行核定位。在某些实施方式中，核定位序列是SV40核定位序列。在某些实施方式中，核定为序列是酵母核定位序列。

可以采用本领域技术人员公知的任意技术制备归巢核酸内切酶表达载体。在一些实施方式中，可以使用聚合酶链式反应（PCR）和本领域公知的分子克隆技术制备载体。参见，例如PCRTechnology:PrinciplesandApplicationsforDNAAmplification,ed.HAErlich,StocktonPress,NewYork,N.Y.(1989)；Sambrooketal.,2001,MolecularCloning–ALaboratoryManual,3^rdedition,ColdSpringHarborLaboratory,ColdSpringHarbor,NY。

5.5切除靶DNA片段的方法

在另一个方面，本申请提供了从包含一个或多个上文所述可切除的核酸构建体的宿主细胞基因组中切除一个或多个靶DNA片段的方法。在一些实施方式中，所述方法包括在酵母细胞中将可切除的核酸构建体，例如染色体整合的核酸构建体，与归巢核酸内切酶接触，使得归巢核酸内切酶在至少一个归巢核酸内切酶识别位点处或其附近剪切。在某些实施方式中，归巢核酸内切酶在每个归巢核酸内切酶识别位点处或其附近剪切。

可以通过本领域技术人员认为适宜的任意技术将可切除的核酸构建体与归巢核酸内切酶接触。在一些实施方式中，使用归巢核酸内切酶表达载体在宿主细胞内表达归巢核酸内切酶。可以使用任意的归巢核酸内切酶表达载体，包括上文所述的表达载体。归巢核酸内切酶表达载体可以包含选择性标记，例如反-选择性标记，其可用于选择宿主细胞，这些宿主细胞在靶DNA片段切除之后不含有表达载体。还可以使用不含选择性标记或其不被选择的瞬时载体。在特定实施方式中，包含瞬时载体的宿主细胞的子代经时丢失载体。在其他实施方式中，将可切除的核酸构建体与纯化形式的归巢核酸内切酶接触。

在某些实施方式中，每个ES1和ES2的剪切优选地形成三个核酸片段（图3A和3B）：（1）基因组核酸的左臂；（2）包含靶DNA片段的核酸片段；以及（3）基因组核酸的右臂。剪切后，宿主细胞内的内源性5’至3’核酸外切酶迅速使每个核酸片段的一条链降解，破坏包含靶核酸的核酸片段，并留下基因组核酸的左臂（4）和右臂（5）长3’尾（图3C），其包含DR1和DR2作为互补区（图4A）。在宿主细胞蛋白的作用下，互补区形成异源双链（图4B，6）并进行重组。在某些实施方式中，互补区优选地通过单链退火途径重组。右臂（7）和左臂（8）尾部的3’末端不具有互补性，因此其从互补部分形成的异源双链中伸出。这些最末端不互补的3’末端优选地被瓣状核酸酶剪切。最后，通过修复DNA合成和DNA连接酶对异源双链进行填充并将缺口封闭，以形成靶核酸精确切除的完整的基因组核酸（图4C）。在DR1和DR2彼此之间具有100%核苷酸序列同一性的实施方式中，DR1和DR2能够有利地重组以形成包含第三串联重复的基因组核酸，所述第三串联重复与DR1和DR2具有100%核苷酸序列同一性。

在另一个方面，本申请提供了一种从宿主细胞的基因组中同时切除至少两个靶核酸的方法，其中至少两个可切除的核酸构建体已被整合至基因组。在某些实施方式中，该方法包括将至少两个可切除的核酸构建体与在宿主细胞内的一个或多个归巢核酸内切酶接触，使得一个或多个归巢核酸内切酶在各可切除的核酸构建体的第一或第二归巢核酸内切酶识别位点中的至少一个位点处或其附近剪切。

在某些实施方式中，宿主细胞包含两个或多个可切除的核酸构建体，其中各可切除的核酸构建体包含独特的ES位点，即在宿主细胞内不与其他可切除的核酸构建体共享的ES位点。在这些实施方式中，在宿主细胞中提供了一个或多个归巢核酸内切酶，以便同时切除一个以上靶DNA片段。在某些实施方式中，在宿主细胞中提供了一个以上归巢核酸内切酶，以便同时切除一个以上靶DNA片段。

在其他实施方式中，每个整合至基因组的可切除的核酸构建体共享至少一个同一的ES区，使得每个可切除的核酸构建体中的各ES区域与能够剪切ES的单个归巢核酸内切酶接触，从而同时切除每个可切除的核酸构建体的靶DNA片段。在某些实施方式中，本申请提供的方法可以从宿主细胞的基因组中同时切除至少2、3、4、5、6、7、8、9、10或10个以上靶核酸。在某些实施方式中，使用单个归巢核酸内切酶实现同时多重切除，所述单个归巢核酸内切酶对每个整合的可切除的核酸构建体内共享的ES位点具有特异性。在其他实施方式中，使用多个归巢核酸内切酶实现同时多重切除，每个归巢核酸内切酶均对整合的可切除的核酸构建体内的至少一个ES位点具有特异性。

本方法的优点为，特定可切除的核酸构建体的DR1和DR2可以包含任何能够介导剪切后可切除的核酸构建体重组的串联重复。因此，在同一细胞内可以使用多个可切除的核酸构建体，每个都具有独特的串联重复，这样无须担心在不同的可切除的核酸构建体之间由于串联重复的重组而导致的基因组不稳定。此外，可以将该方法优选地用于除去选择性标记，以使其在同一宿主细胞或其子代中重复使用。

在其他实施方式中，可以将切除事件用于启动、抑制、或改变宿主细胞中感兴趣的内源性基因的表达。例如，在某些实施方式中，第一基因组整合序列包含与位于感兴趣的内源性基因的编码序列5'端的核苷酸序列具有同源性的核苷酸序列，第二基因组整合序列包含与位于感兴趣的内源性基因编码序列内的核苷酸序列具有同源性的核苷酸序列，靶DNA片段包含编码启动子的核苷酸序列，所述启动子能够通过，例如在培养宿主细胞的培养基中分别加入诱导剂或抑制剂而被诱导或抑制。当整合序列在靶基因座整合时，靶基因的天然启动子被来自靶DNA片段的可诱导或可抑制启动子所取代，从而使得感兴趣的基因的基因产物的产生依赖于培养基中存在的诱导剂或抑制剂。类似地，可切除的核酸构建体的靶DNA片段可以包含编码抑制因子的核苷酸序列，其能够通过分别加入诱导剂或抑制剂被诱导或抑制。可以通过诱导本申请所述的切除事件除去对感兴趣的基因表达的此类外源性调控，使得可调控的启动子或抑制因子从宿主细胞基因组中切除。

在其他实施方式中，可以将可切除的核酸构建体整合至宿主细胞基因组用于破坏感兴趣的内源性基因的表达，例如通过阻断感兴趣的内源性基因的编码序列与其天然启动子元件之间的操作性连接。当需要恢复内源性基因表达时，依据本申请所述方法的切除事件可以诱导天然启动子元件与感兴趣的内源性基因的编码序列之间的操作性再连接，使得天然启动子元件与感兴趣的内源性基因的编码序列重新操作性地接近。

5.6试剂盒

在另一个方面，本申请提供了一种用于从宿主细胞基因组中切除靶DNA片段的试剂盒。在某些实施方式中，试剂盒包括：（a）可切除的核酸构建体，从5’至3’方向包括：（i）第一串联重复（DR1），（ii）第一归巢核酸内切酶识别位点（ES1），（iii）靶DNA片段（D），和（iv）第二串联重复（DR2）；以及（b）载体，其包含编码归巢核酸内切酶的归巢核酸内切酶核酸，所述归巢核酸内切酶核酸能够在第一或第二归巢核酸内切酶识别位点中的至少一个位点处或其附近结合及剪切。在某些实施方式中，试剂盒包括：（a）可切除的核酸构建体，从5’至3’方向包括：（i）第一串联重复（DR1），（ii）靶DNA片段（D），（iii）第一归巢核酸内切酶识别位点（ES1），和（iv）第二串联重复（DR2）；以及（b）载体，其包含编码归巢核酸内切酶的归巢核酸内切酶核酸，所述归巢核酸内切酶核酸能够在第一或第二归巢核酸内切酶识别位点中的至少一个位点处或其附近结合及剪切。在某些实施方式中，试剂盒包括：（a）可切除的核酸构建体，从5’至3’方向包括：（i）第一串联重复（DR1），（ii）第一归巢核酸内切酶识别位点（ES1），（iii）靶核酸，（iv）第二归巢核酸内切酶识别位点（ES2），和（v）第二串联重复核酸（DR2）；以及（b）载体，其包含编码归巢核酸内切酶的归巢核酸内切酶核酸，所述归巢核酸内切酶核酸能够在第一或第二归巢核酸内切酶识别位点中的至少一个位点处或其附近结合及剪切。

在某些实施方式中，每个第一和第二串联重复核酸独立地包含至少18个核苷酸碱基对。在某些实施方式中，每个DR1和DR2独立地由18至500个核苷酸碱基对组成。在某些实施方式中，每个第一和第二串联重复核酸独立地由18至500、18至495、18至490、18至485、18至480、18至475、18至470、18至465、18至460、18至455、18至450、18至445、18至440、18至435、18至430、18至425、18至420、18至415、18至410、18至405、18至400、18至395、18至390、18至385、18至380、18至375、18至370、18至365、18至360、18至355、18至350、18至345、18至340、18至335、18至330、18至325、18至320、18至315、18至310、18至305、18至300、18至295、18至290、18至285、18至280、18至275、18至270、18至265、18至260、18至255、18至250、18至245、18至240、18至235、18至230、18至225、18至220、18至215、18至210、18至205、18至200、18至195、18至190、18至185、18至180、18至175、18至170、18至165、18至160、18至155、18至150、18至145、18至140、18至135、18至130、18至125、18至120、18至115、18至110、18至105、18至100、18至95、18至90、18至85、18至80、18至75、18至70、18至65、18至60、18至55、18至50、18至45、18至40、18至35、18至30、18至25、或18至20个核苷酸碱基对组成。在某些实施方式中，每个DR1和DR2独立地由18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199或200个核苷酸碱基对组成。

在某些实施方式中，可切除的核酸构建体进一步包含连接至第一串联重复核酸5’端的第一基因组整合序列和连接至第二串联重复核酸3’端的第二基因组整合序列。在某些实施方式中，试剂盒提供了对宿主细胞具有特异性的第一和第二基因组整合序列，期望在该宿主细胞中整合入可切除的核酸构建体，并在随后切除靶核酸。例如，在酵母中使用时，在某些实施方式中，该试剂盒提供了包含第一和第二酵母特异性基因组整合序列的核酸构建体，其长度和同源性足以与选定的酵母基因组的基因组启动同源重组。在某些实施方式中，该试剂盒提供了多个核酸构建体，其均包含靶向至特定酵母基因组基因座的独特的一对第一和第二基因组整合序列。

在特定实施方式中，本申请中提供的试剂盒包括：（a）可切除的核酸构建体，从5’至3’方向包括：（i）至少为18个核苷酸碱基对的第一串联重复核酸，（ii）第一I-SceI位点，（iii）靶核酸，（iv）第二I-SceI位点，和（v）至少为18个核苷酸碱基对的第二串联重复核酸；以及（b）载体，其包含编码I-SceI的核酸。在某些实施方式中，可切除的核酸构建体进一步包含连接至第一归巢核酸内切酶识别位点5’端的第一整合位点和连接至第二串联重复核酸3’端的第二整合位点。

在另一个特定实施方式中，本申请中提供的试剂盒包括：（a）可切除的核酸构建体，从5’至3’方向包括：（i）第一串联重复核酸，（ii）第一F-CphI位点，（iii）靶核酸，（iv）第二F-CphI位点，和（v）第二串联重复核酸；以及（b）载体，其包含编码F-CphI的核酸。在某些实施方式中，可切除的核酸构建体进一步包含连接至第一归巢核酸内切酶识别位点5’端的第一整合位点和连接至第二串联重复核酸3’端的第二整合位点。

在某些实施方式中，本申请中提供的试剂盒进一步包含一种或多种适于与上文所述的可切除的核酸构建体和/或载体转化的宿主细胞。

在某些实施方式中，试剂盒进一步包括说明书，其用于描述从本申请所公开的宿主细胞基因组中切除靶DNA片段的方法。在某些实施方式中，试剂盒包括包含靶DNA片段的可切除的核酸构建体，其中靶DNA片段选自，例如蛋白编码序列、报告基因、荧光标记物编码序列、启动子、增强子、终止子、内含子、外显子、poly-A尾、多克隆位点、核定位信号、mRNA稳定信号、选择性标记、整合基因座、表位标签编码序列、或降解信号。

6.实施例

6.1实施例1：x标记构建体的构建

本申请所述的组合物和方法用于制备和鉴定用于酿酒酵母的一系列可切除的选择性标记，本申请中将其称为“x标记”。第一代标记使用I-SceI核酸内切酶，检测的DNA构建体的参数见图1，参数包括：（1）核酸内切酶位点正向重复侧翼的不同长度和（2）对一个和两个核酸内切酶位点进行比较。第二代标记应用了第一代检测的结果，其拓宽了I-SceI核酸内切酶的应用。已证明第三代x标记是有效的，并且可以扩展至下表1所列的其他核酸内切酶。

表1：核酸内切酶的识别和剪切位点。

实验中使用的试剂如下文所述，限制性酶来自NewEnglandBiolabsandFermentas。Phusion高保真热稳定聚合酶来自Finnzymes，其用于供染色体整合的质粒克隆或酵母转化中使用的DNA的构建。低保真热稳定聚合酶试剂盒，其用于酵母菌落基因组DNA的PCR（QiagenTaqPCRkit）。寡核苷酸来自IntegratedDNATechnologies(IDT)。其他化学试剂来自Sigma、Fisher、和ZymoResearch（例如，标准分子生物学缓冲液组分，如Tris和EDTA以及标准酵母试剂，如醋酸锂和酵母氮源）。用于DNA克隆的有活性的大肠杆菌细胞购自Invitrogen。使用来自Qiagen的小量制备试剂盒小量制备DNA。分子生物学、酵母分子遗传学、和酵母细胞培养技术均根据标准方案进行。

6.1.1.第一代x标记的构建

最初的一系列x标记使用URA3作为选择性标记，该系列中各成员的I-SceI剪切位点数（1或2个）和正向重复长度（20、40、60、或80bp）均不同。URA3是一种反选择标记，它的存在可以通过在缺乏尿嘧啶的培养基中生长而选择，它的缺乏可以通过在含有5-氟乳清酸的培养基中生长而选择。正向重复序列设计为由112bp的DNA链组成，其中每个20bp片段的GC含量为～50%，并且在30°C以上时，20、40、60、和80bp的DNA链几乎不具有预计的二级结构。I-SceI剪切位点均为相同的18bp序列：5’-TAGGGATAACAGGGTAAT-3’（SEQIDNO:3）。表2列出了所有检测的第一代x标记的剪切位点数及其彼此之间的方向、正向重复（DR）的长度和序列、以及I-SceI剪切位点的序列。对于具有两个I-SceI位点的x标记而言，元件的序列为DR→/I-SceI位点→/URA3/I-SceI位点→/DR→。对于具有一个I-SceI位点的x标记而言，元件的序列为DR→/I-SceI位点→/URA3/DR→。

表2：第一代I-SceIx标记各元件的性质列表，元件的顺序和方向如图1所示。

在x标记中由于位点重复，因而构建需要先将左半部分和右半部分分别构建，再将这两半连接起来。第一代x标记的制备分三步。

第一步，通过磷酸化寡核苷酸的退火分别构建选择性标记左侧（5’）和右侧（3’）的侧翼序列。将通过退火形成的左侧和右侧双链侧翼序列设计为具有互补的、非-回文的、3’端单链悬突的五个碱基（上游为TAGAC和下游为GTCTA）。表3中列出了各x标记使用的寡核苷酸。对于各退火反应而言，将寡核苷酸在DNA连接酶缓冲液中的等摩尔混合物加热至95°C，热封闭5分钟，然后关闭热阻断并使其在1-2小时内缓慢冷却至室温。

表3：用于退火以制备第一代I-SceIx标记中标记左侧片段和右侧片段翼侧的混合的寡核苷酸列表。

第二步，将来自退火混合物的相应左侧和右侧的侧翼DNA与RYSE12进入载体混合以供3-向连接。将左侧重复序列的右侧末端与右侧重复序列的左侧末端通过粘末端连接，将相反末端的左侧和右侧重复序列通过平末端与质粒连接。I-SceI剪切位点之间的间隔区中含有被XbaI位点分隔的分散的SchI限制性位点。将这些质粒称为x标记进入载体，因为它们还没有标记，仅具有引导剪切和修复的侧翼序列。

第三步，将URA3选择性标记连接至x标记进入载体。利用PCR从质粒（RaBit12-0-M-555）中扩增URA3标记，以获得平末端标记。对于正向重复双I-SceI位点x标记物而言，URA3PCR使用寡核苷酸KB439和KB440；对于单一I-SceI位点x标记而言，寡核苷酸为KB439和KB441。使用SchI消化x标记进入载体以获得平末端线性质粒。然后使用连接酶标准条件将两个片段连接。产生的x标记结构如图1所示。恢复连接质粒的各分离物，通过对质粒中插入片段DNA的测序鉴定所需质粒。

6.1.2.第二代x标记的构建

第二代x标记均使用60bp正向重复通过辅助DNA修复形成，其在正向重复中具有两个I-SceI剪切位点。每个x标记均具有独特的60bp序列，将其选择为半随机序列，如下表4所示。

表4：第二代I-SceIx标记及其60bp重复序列列表。

选择满足两条标准的60bp序列：（1）第一、第二、和第三20bp的序列窗具有60°±2°C的解链温度以及（2）在60bp序列中无13bp或更长的序列窗与酵母基因组的任意天然序列具有同一性。该集合包括四种不同的选择性标记：潮霉素B磷酸转移酶或hph；诺尔丝菌素乙酰基转移酶或nat；以及氨基糖苷磷酸转移酶或kan。这三种来自细菌的药物抗性基因均由与乳酸克鲁维酵母TEF1基因的启动子和终止子对应的邻近序列所控制，加上后缀“A”以表示其为来自TEF1的调控序列；然后将该表达盒称为hphA、natA、和kanA。

在x标记中由于位点重复，因而构建需要先将左半部分和右半部分分别构建，再将这两半连接起来。第二代x标记的制备分二步进行，其采用的策略与第一代不同。通过使用下表5中列出的长尾寡核苷酸启动标记的PCR扩增将60bp和20bpI-SceI剪切位点引入标记的左侧和右侧部分。

表5：第二代I-SceIx标记左侧和右侧部分PCR扩增使用的引物列表。

寡核苷酸在3’端含有20-22bp的引物区以及含有独特60bp序列和I-SceI位点的80bp的5’端尾。在标记的左侧和右侧部分使用了两个略有不同的I-SceI位点：在左侧，第1版（v1）为5’-GCTAGGGATAACAGGGTAAT-3’（SEQIDNO:21）以及在右侧，第2版（v2）为5’-ACTAGGGATAACAGGTTTAT-3’（SEQIDNO:22）。第二代x标记均具有的元件结构可以概括为DR（60bp）→/I-SceI位点（v1）→/标记物/I-SceI位点（v2）→/DR（60bp）→。

将x标记的构建概述如下。第一步，利用PCR分别扩增标记的左侧部分和标记的右侧部分。设计引物使得将标记的中间片段包括在左侧和右侧PCR产物中，这样该重叠片段在左侧单链互补性悬突上包括独特的限制性位点。第二步，使用选定的限制性酶将两个PCR产物分别消化、凝胶纯化、并与线性化的RYSE12进入载体一并加入三件式连接混合物。与第一代的连接类似，使用粘性末端将左侧和右侧部分退火和连接，而标记构建体的最末端与受体质粒平头连接。与第一代方法不同的是，连接后，产物已经含有标记基因并构建完成。恢复连接质粒的各分离物，通过对质粒中插入片段DNA的测序鉴定所需质粒。这些质粒为新型x标记12RaBits，正如12RaBits此前的用途，可以将其用于基于RYSE的化合物DNA构建体的结合。

x标记的详细情况如下文所述。最初各标记使用的标记内的独特限制性位点如下：hphA、NdeI（RsrII或BanI）；kanA、PvuI（NciI或BstXI）；natA、StyI；和URA3、NcoI（BsiHKAI或AlwNI）。如果初始的酶没有产生阳性克隆，则使用随后选择的酶；其益处是单链悬突不是回文结构，这样就不大可能得到带有两个左侧或两个右侧部分的连接质粒。标记左侧部分的扩增使用～20bp的反向引物，其使得所示限制性位点右侧的上游链退火，以及标记左侧边缘的引物，其包括5’尾，这样5’寡核苷酸具有如下结构：60bp序列→/I-SceI位点（v1）→/～20bp正向引物。标记右侧部分的扩增使用～20bp的正向引物，其使得所示限制性位点左侧的下游链退火，以及标记右侧边缘的引物，其包括5’尾，这样3’寡核苷酸具有如下结构：60bp序列（反向互补）→/I-SceI位点（v2，反向互补）→/～20bp反向引物。表4中包含了各x标记左侧和右侧部分扩增使用的引物列表。标记PCR扩增使用的模板为RaBit质粒：hphA为12-0-M-21、kanA为12-0-M-261、natA为12-0-M-262、和URA3为12-0-M-555。正如12RaBits此前的用途，最终得到的x标记第二代质粒中12RaBits本身可以用于基于RYSE的化合物DNA构建体的结合。

6.1.3.I-SceI表达质粒的构建

将I-SceI基因置于酿酒酵母GAL1启动子的控制之下，并克隆至带有不同标记的一系列CEN.ARS质粒中。此前已对带有CEN.ARS序列和LEU2（pRS415akapAM63）和URA3（pRS416akapAM63）标记物的酵母-大肠杆菌穿梭载体进行了描述（参见，例如Gene1992;110:119-22；和Genetics1989;122:19-27）。通过使用抗药性标记kanA（pAM1110）、natA（pAM1111）、和hphA（pAM1112）置换营养缺陷型标记来制备pRS416的衍生物。在聚合接头/多克隆位点EcoRV（抗药性标记）或SmaI（URA3和LEU2）内的独特平末端限制性位点对各载体进行消化，然后使用磷酸酶对其进行处理。将线性化的载体连接至已由聚核苷酸激酶（PNK）处理为5’末端磷酸化的三部分结合PCR产物。通过使用寡核苷酸引物RYSE4和RYSE11将具有悬突末端的三部分DNA连接在一起制备PCR产物：（1）带有RYSE连接子2和3的来自酿酒酵母GAL1的启动子，由来自RaBit23-0-P-39的释放Sap1的插入片段提供，（2）带有RYSE连接子3和4的I-SceI编码序列，由来自使用模板和引物00177-JD-75AN和00177-JD-75AO的定制合成基因的PCR产物提供，以及（3）带有RYSE连接子4和5的来自酿酒酵母TDH的终止子，其由来自RaBit45-0-T-64的释放Sap1的插入片段提供。恢复连接质粒的各分离物，通过对质粒中P_GAL1-I-SceI-T_TDH3插入片段DNA的测序鉴定所需质粒。表达质粒称为pAM1592（URA3）、pAM1593（kanA）、pAM1594（natA）、和pAM1595（hphA）。当细胞在半乳糖中生长时，P_GAL1启动子高表达，当野生型细胞（GAL80+GAL4）在葡萄糖中生长时其不表达。然而，在缺乏GAL80抑制因子的突变体中（gal80Δ），即使在缺乏半乳糖时，P_GAL1仍能表达；通过加入启动子突变的GAL4突变体使P_GAL1的葡萄糖抑制进一步降低，将这种突变体称为GAL4_OC（组成型操纵子）。

如上文所述，将核酸内切酶的表达置于强启动子的控制下，该强启动子在某些宿主菌株遗传背景下（GAL80+）为诱导型表达，在其他菌株遗传背景下（gal80Δ+/-GAL4_OC）为组成型表达。预计多种其他的诱导型启动子或组成型启动子也有效。即使启动子是组成型的，由于质粒的损失，在期望的一段时间后核酸内切酶的表达也能够被容易地消除；在非选择性培养基中，10代后约有半数细胞丢失这些质粒（参见，例如Gene1992;110:119-22；和Genetics1989;122:19-27）。

6.1.4.第三代x标记的构建：添加核酸内切酶

最初一系列针对其他核酸内切酶（I-SceI以外）的x标记使用URA3作为选择性标记。一系列x标记中的每个成员均含有针对不同核酸内切酶的识别/剪切位点[VDE、F-CphI、PI-MgaI（pps1）、PI-MtuII（pps1）]。对剪切位点的描述见上表1。所有xURA3标记在剪切位点正向重复方向的侧翼均含有50bp序列的两个相同拷贝；该独特的50bp序列是切除后的瘢痕，称为xM0。下表6中提供了对瘢痕序列的描述。

表6：带有I-SceI以外的核酸内切酶的第三代x标记中使用的50bp瘢痕序列

选择满足下列标准的瘢痕序列：（1）GC含量为～50%，（2）20bp的第一和第二序列（总量在50bp以内）具有60°±2°C的解链温度，（3）当温度在30°C以上时具有最低的预计二级结构，以及（4）在50bp序列中无13bp或更长的序列窗与酵母基因组的任意天然序列具有同一性。X标记中的一般序列和元件的方向见图1：DR（50bp）→，剪切位点→，URA3，剪切位点→，DR（50bp）→。

在x标记中由于位点重复，因而DNA分子的构建需要先将左半部分和右半部分分别构建，再将这两半连接起来。此处描述的标记构建使用了上文第6.2节中描述的“第二代”的策略。

第一步，利用PCR分别扩增标记的左侧部分和标记的右侧部分。设计四个寡核苷酸用于各x标记的PCR扩增：两个“外部”寡核苷酸用于标记末端的PCR退火，两个“内部”寡核苷酸用于内部标记基因的退火。外部寡核苷酸在3’端含有20-22bp的序列，其与模板具有互补性，以及在5’端74-90bp的序列，其并非针对模板退火而是用于引入剪切和瘢痕序列。在进行PCR反应前，使用PNK对外部寡核苷酸进行磷酸化，以利于后续步骤的连接。设计内部寡核苷酸使得在左侧和右侧PCR产物中均包括标记的中间片段，这样该重叠片段包括独特的限制性位点，其能够用于产生单链、互补性的悬突。当可能时，最好选择不产生回文结构的悬突的限制性酶，以降低两个左侧部分（或两个右侧部分）连接的可能性。

第二步，选择限制性酶分别对两个PCR产物进行消化，并进行凝胶纯化。第三步，将分别具有粘性末端和平末端的左侧和右侧片段加入线性化的RYSE12进入载体质粒中用于三部分连接。使用粘性末端对左侧和右侧部分进行退火和连接，而标记构建体的最末段与受体质粒平头连接。恢复连接质粒的各个克隆，通过对DNA的测序鉴定所需质粒。这些质粒为新型x标记12RaBits，正如12RaBits此前的用途，可以将其用于基于RYSE的化合物DNA构建体的结合。

对第一组xURA3标记进行检测后，选择F-CphI核酸内切酶进行进一步研究。制备带有不同选择性标记的附加x标记供与F-CphI一起使用。该组包括六个不同的选择性标记：URA3；潮霉素B磷酸转移酶或hph；诺尔丝菌素乙酰基转移酶或nat；氨基糖苷磷酸转移酶或kan；博来霉素抗性基因或ble；以及草胺膦N-乙酰基转移酶或pat。这些来自细菌的抗药性基因均由与乳酸克鲁维酵母TEF1基因的启动子和终止子对应的邻近序列所控制，加上后缀“A”以表示其为来自TEF1的调控序列；然后将该表达盒称为hphA、natA、kanA、zeoA、和patA。表7列出了各标记的限制性位点和内部寡核苷酸；以及表8列出了各标记的外部寡核苷酸。

表7：用于第三代x标记构建的模板、限制性位点、和“内部”寡核苷酸

表8：用于第三代x标记构建的“外部”寡核苷酸

6.1.5.核酸内切酶表达质粒的构建

下表9中描述了含有核酸内切酶基因I-SceI、F-CphI、PI-MtuII（pps1）、PI-MgaI（pps1）和VDE的质粒。核酸内切酶基因可以是化学合成的（I-SceI、F-CphI、PI-MtuII（pps1）、或PI-MgaI（pps1））或者通过PCR由酿酒酵母基因组DNA扩增的（VDE）。

表9：含有核酸内切酶基因的质粒

由于三个核酸内切酶（除F-CphI和I-SceI之外）太大（>25kD；353-456个氨基酸），以至于无法自由穿过核孔从细胞内合成位点（细胞质）到达作用位点（细胞核），因而在编码序列的5’端引入一条DNA序列，以便在蛋白的氨基末端添加SV40核定位序列（NLS）。已报道该NLS是酿酒酵母在有丝分裂（正常增殖）生长中VDE活性所必需的，因为该天然的酵母酶仅在减数分裂中自然地进入细胞核。参见，例如MolCellBiol2003;23:1726-36。使用带有含SV40NLS编码序列尾的寡核苷酸将NLS加入VDE；将NLS加入PI-MtuII和PI-MgaI，作为整个基因化学合成的一部分。使用基于PCR的“整合”或“重叠延伸”，融合核酸内切酶的编码序列，其含有或不含NLS，具有启动子和终止子。第一组构建体使用酿酒酵母来自ACS2的启动子和来自ADE6的终止子制备，没有使用RYSE连接子。对于该第一组而言，使用SacI和XhoI消化启动子-基因-终止子PCR整合产物，通过用于引发各片段PCR反应的寡核苷酸尾引入独特限制性位点；然后将构建体与已经过SacI和XhoI消化并经过磷酸酶处理的受体质粒连接。第二组使用酿酒酵母来自GAL1的启动子和来自TDH3的终止子；该组使用了RYSE连接子以及用于启动子（23-0-P-39）和终止子（45-0-T-64）的RYSERaBits。对于该第二组质粒而言，使用RYSE引物RYSE4和RYSE11将启动子-基因-终止子构建体整合，此前已使用多核苷酸激酶（PNK）对其磷酸化，这样平末端整合产物能够有效与带有酵母标记的CEN.ARS质粒连接，其已被限制性酶线性化能够形成平末端双链断裂。最后，恢复连接质粒的各分离物，通过对质粒中“启动子-基因-终止子”插入物的DNA测序鉴定所需质粒。质粒构建的详细情况如下文所述。

受体质粒均基于“pRS”一系列带有CEN.ARS序列和酵母选择性标记的酵母-大肠杆菌穿梭载体，例如此前已经描述过的URA3标记版（pRS416akapAM64）（参见，例如Gene1992;110:119-22；和Genetics1989;122:19-27）。通过使用抗药性标记kanA（pAM1110）、natA（pAM1111）、和hphA（pAM1112）置换营养缺陷型标记来制备pRS416的衍生物。对于第二组质粒而言，在聚合接头/多克隆位点内的独特平末端限制性位点（EcoRV）对pAM1112进行消化，然后使用磷酸酶处理。将线性化的载体连接至已由聚核苷酸激酶（PNK）处理的三部分结合PCR产物，以将其5’末端磷酸化。对于第一组质粒而言，使用XhoI和SacI对三部分结合PCR产物和pAM1112受体质粒进行消化，然后再混合连接。

通过将具有重叠末端的三部分DNA片段整合在一起来制备供核酸内切酶基因表达的“启动子-基因-终止子”PCR产物。用于形成三部分片段的寡核苷酸和模板，以及用于将三部分片段整合在一起的寡核苷酸见表10。

表10：用于启动子-核酸内切酶-终止子PCR整合的片段

6.1.6.I-SceI表达质粒的构建

I-SceI基因被置于在酿酒酵母GAL1启动子的控制之下，并克隆至带有不同标记的一系列CEN.ARS质粒中。此前已对带有CEN.ARS序列和LEU2（pRS415akapAM63）和URA3（pRS416akapAM63）标记的酵母-大肠杆菌穿梭载体进行了描述（参见，例如Gene1992;110:119-22；和Genetics1989;122:19-27）。通过使用抗药性标记kanA（pAM1110）、natA（pAM1111）、和hphA（pAM1112）置换营养缺陷型标记来制备pRS416的衍生物。在聚合接头/多克隆位点EcoRV（抗药性标记）或SmaI（URA3和LEU2）内的独特平末端限制性位点对各载体进行消化，然后使用磷酸酶对其进行处理。将线性化的载体连接至已由聚核苷酸激酶（PNK）处理的三部分结合PCR产物，以将其5’末端磷酸化。通过使用寡核苷酸引物RYSE4和RYSE11将具有悬突末端的三部分DNA连接在一起制备PCR产物：（1）带有RYSE连接子2和3的来自酿酒酵母GAL1的启动子，由来自RaBit23-0-P-39的释放Sap1的插入片段提供，（2）带有RYSE连接子3和4的I-SceI编码序列，由来自用作模板和引物00177-JD-75AN和00177-JD-75AO的定制合成基因的PCR产物提供，以及（3）带有RYSE连接子4和5的来自酿酒酵母TDH的终止子，其由来自RaBit45-0-T-64的释放Sap1的插入片段提供。恢复连接质粒的各分离物，通过对质粒中P_GAL1-I-SceI-T_TDH3插入片段DNA的测序鉴定所需质粒。表达质粒称为pAM1592（URA3）、pAM1593（kanA）、pAM1594（natA）、和pAM1595（hphA）。当细胞在半乳糖中生长时，P_GAL1启动子高表达，当野生型细胞（GAL80+GAL4）在葡萄糖中生长时其不表达。然而，在缺乏GAL80抑制因子的突变体（gal80Δ）中，即使在缺乏半乳糖时，P_GAL1仍能表达；通过加入启动子突变的GAL4突变体使P_GAL1的葡萄糖抑制进一步降低，将该GAL4突变体称为GAL4_OC（组成型操纵子）。

将核酸内切酶的表达置于强启动子的控制下，该强启动子在某些宿主菌株遗传背景下（GAL80+）为诱导型表达，在其他菌株遗传背景下（gal80Δ+/-GAL4_OC）为组成型表达。预计多种其他的诱导型启动子或组成型启动子也有效。即使启动子是组成型的，由于质粒的损失，在期望的一段时间后核酸内切酶的表达也能够被容易地消除；在非选择性培养基中，10代后约有半数细胞丢失这些质粒（参见，例如Gene1992;110:119-22；和Genetics1989;122:19-27）。

6.1.7.F-CphI表达质粒的构建

在制备和检测带有hphA标记（pAM1799）的F-CphI表达质粒之后，使用限制性酶XhoI和XbaI将P_GAL1-F-CphI-T_TDH3表达盒亚克隆至带有不同标记（pAM1110、pAM1111、pAM64）的其他CEN.ARS质粒，限制性酶XhoI和XbaI均在受体质粒和pAM1799中剪切独特位点。使用XhoI和XbaI剪切质粒，使用磷酸酶处理质粒载体，并将P_GAL1-F-CphI-T_TDH3表达盒与其他骨架连接。连接后，通过限制性消化鉴定正确的质粒分离体。

通过不同于其他的方法制备博来霉素-抗性质粒（pAM1800）。该构建方法并不是将P_GAL1-F-CphI-T_TDH3的“启动子-基因-终止子”PCR产物整合在一起，然后再与带有博来霉素抗性标记的受体质粒连接，该构建以带有hphA标记的F-CphI表达质粒（pAM1799）构建起始，并通过在体内进行酵母同源重组交换标记，以使用博来霉素抗性基因代替潮霉素B抗性基因。第一步，使用NdeI将pAM1799线性化，NdeI是在潮霉素B抗性编码序列中切除独特位点的限制性酶。第二步，使用带有长尾的寡核苷酸（JU183和JU184）从pAM1500（或任意Topo质粒）中PCR扩增博来霉素抗性基因，以引入P_TEF启动子和T_TEF终止子序列，其与控制hph标记表达的pAM1799的序列具有同源性。第三步，对两个DNA片段进行凝胶纯化并转化至酵母中进行“缺口修复”重组，其使用博来霉素抗性基因精确地取代潮霉素B抗性基因。通过DNA测序对正确的质粒进行验证。

当细胞在半乳糖中生长时，P_GAL1启动子高表达，当野生型细胞（基因型为GAL80GAL4）在葡萄糖中生长时，P_GAL1启动子不表达。然而，在缺乏GAL80抑制因子的突变体（gal80Δ）中，即使在缺乏半乳糖时，P_GAL1仍能表达；通过加入启动子突变的GAL4突变体使P_GAL1的葡萄糖抑制进一步降低，将其称为GAL4_OC（组成型操纵子）。P_ACS2启动子在所有碳源中均能适度表达。

6.2实施例2：染色体DNA选择性标记的切除

该实施例证明了实施例1中所述的x标记构建体能够介导从宿主细胞的染色体DNA中切除选择性标记。如下文所述，将构建体转入细胞，将细胞接种至对x标记具有选择性的培养基中，并通过集落PCR确证正确整合；对此类菌株的处理方式与使用标准标记制备的任意其他菌株相同，x标记能够稳定存在。第三，当需要切除x标记时，使用含有其自身标记和归巢核酸内切酶基因表达构建体的单拷贝（CEN.ARS）质粒转化该菌株，如下述章节所述。在对存在的质粒进行若干代选择和诱导归巢核酸内切酶基因表达的条件下生长后，对菌株中x标记的丢失情况进行检测。最后，在允许归巢核酸内切酶表达质粒丢失的条件下使菌株生长，并对分离物中质粒的丢失情况进行检测。该过程结束后，准备菌株对x标记进行再利用。

对于该策略而言，其益处为x标记能够稳定存在足够长的一段时间，以供选择并验证细胞已正确整合至所需DNA的构建体中。为确保高稳定性，使用缺乏核酸内切酶基因的细胞，直至通过第二次转化再将其引入。但是，还有一种替代方法，其使用的宿主菌株带有稳定整合在诱导型启动子的控制下的核酸内切酶基因的。在该替代方案中，在将该菌株在诱导核酸内切酶在启动子的调控下表达的条件下培养之前，x标记都是稳定的。如果可以获得带有所需性质的启动子，则该方法将节省时间并满足核酸内切酶质粒转化的需要。

6.2.1.使用I-SceI对x标记的初始检测：

为检测该方法对靶DNA精确切除的能力，在酿酒酵母中检测了从染色体DNA中切除选择性标记的有效性和保真度。第一步，将x标记置于两段>500bp的序列之间以产生敲除的构建体，这两段序列对应于选定基因（通常地，GOI=感兴趣的基因）区域的上游和下游。第二步，使用该DNA构建体转化酵母细胞以删除感兴趣的基因，并通过涉及双交叉事件的同源重组使用x标记置换其编码序列。第三步，使用I-SceI表达质粒转化突变体；允许携带质粒的分离体生长一段时间以表达核酸内切酶，并剪切和修复DNA。第四步，对在标记选择条件下无法生长的菌落进行鉴定和计数。第五步，对已删除的感兴趣基因（goiΔ）基因座的染色体DNA序列进行检测，以评估是否标记以预期方式被干净地切除和修复。将在下文中用第一代标记对该组步骤进行详述。

第一步，使用带有三种元件的重叠延伸PCR将具有结构GOIUS/x标记/GOIDS（GOI=感兴趣的基因、US=上游、DS=下游）的敲除构建体整合在一起。在ndt80Δ构建体中对I-SceIx标记进行初始检测；NDT80是一种减数分裂特异性基因，选择它的原因是它在有丝分裂生长的细胞中被删除后不具有可辨的表型。各PCR反应使用来自其质粒骨架通过SapI消化释放的三个RaBits作为模板：（1）NDT80上游（01-0-U-30）、（2）x标记RaBit、和（3）NDT80DS（29-0-D-23）。PCR的引物为RYSE0和RYSE19。PCR结束后，将反应混合物在琼脂糖凝胶中上样，并且从凝胶中纯化所需的全长产物。

第二步，使用凝胶纯化的PCR产物转化酵母细胞，并将其接种于选择性平板上。用于第一代x标记的选择性平板为CSM-Uracil；用于抗药性标记的选择性平板为YPD+药物（潮霉素B、诺尔丝菌素、或G418）。全部的x标记检测均在衍生自CEN.PK2或S288c菌株背景的菌株中进行。第一代x标记的初始检测涉及将PCR产物转化至菌株（Y1625），其相关基因型为GAL80⁺GAL4gal1Δ；该基因型赋予野生型对P_GAL1的可诱导性表达，但其不能摄入半乳糖，所以该糖是“安慰诱导物”。所需的转化体具有突变基因型ndt80Δ::xURA3，其带有如表2所列的若干版本的xURA3标记。对CSM-U平板上出现的菌落中存在的所需染色体基因座进行检测，采用通过煮沸（“菌落PCR”）剪切细胞得到的基因组DNA进行PCR扩增，其使用对通过重组形成的新型DNA结点进行扩增得到的引物对。使用引物RYSE3和AET0065-186-63-F-pNDT80对新的5’结点进行扩增，得到1024bp的产物；使用引物RYSE4和AET0072-186-63-R-tNDT80对新的3’结点进行扩增，得到1024bp的产物。各x标记变体均选择两个分离体进行进一步的分析。

第三步，将具有基因型ndt80Δ::x标记的分离物与I-SceI表达质粒进行转化。对于第一代ndt80Δ::xURA3菌株而言，使用标准转化条件对natA-标记的质粒（pAM1594）进行转化，将细胞在液体YPD中生长3-6小时，以便允许细胞表达新的标记基因，然后将其接种于YPD+诺尔丝菌素平板。将各转化中的一半接种于常规YPD（2%右旋糖），将另一半接种于YPDG（1%右旋糖+1%半乳糖）。由于宿主菌株的基因型为GAL80⁺GAL4gal1Δ，因而I-SceI基因的GAL1启动子在右旋糖中不被诱导；在混合的右旋糖和半乳糖中，当右旋糖浓度较高时预计GAL1启动子仍关闭，但是随后又启动，因为右旋糖被消耗，半乳糖在平板中发挥作用。

第四步，对已切除标记的分离物进行鉴定。xURA3标记在5-FOA平板上具有反选择优势，其仅允许缺乏URA3的细胞生长。而相反地，已切除其他x标记的分离物必须通过筛选鉴定，例如从所有分离物均生长的非选择性平板至所需分离物不生长的选择性平板的复制平板培养法。第一代x标记使用URA3进行反选择。与预期结果一致，当上文所述的携带质粒的转化体从YPD平板转移至5-FOA后，菌落均不再生长，因为I-SceI在YPD上不表达。当携带质粒的转化体从YPDG平板转移至5-FOA后，多数菌落生长。YPDG平板包括半乳糖，其诱导I-SceI的表达。5-FOA平板选择携带完整URA3的细胞。根据I-SceI转化体相对于对照ura3Δ菌株生长的5-FOA菌落数，估计≥30%的细胞已在双I-SceI位点之间丢失了URA3；带有单一I-SceI位点的xURA3的该频率降低。该结果提示URA3x标记不表达I-SceI时很少被切除（<10^-6的细胞），在I-SceI被诱导表达后，URA3通常被切除。随后采用更为直接的方法对切除频率进行检测。

第五步，对整合了x标记的染色体基因座进行测序以评估I-SceI剪切和随后DNA双链断裂修复后仍存在的瘢痕。将已证明具有丢失标记功能的菌落用于菌落PCR，使用x标记与GOI靶序列之间结点退火的上游和下游作为引物对，然后对PCR产物进行测序。在ndt80Δ::x标记物中，引物在x标记与NDT80序列之间结点的上游退火208bp（JU-197-168-125-NDT80US-F），下游退火234bp（JU-198-168-125-NDT80DS-R）。如果URA3完全被切除，PCR产物的预计尺寸为462-522bp，如果URA3完全完整，PCR产物的预计尺寸为2072bp。用于菌落PCR的全部27个5-FOA抗性菌落均得到了预计切除的～500bp产物。对这27个PCR产物进行测序的结果显示，在所有情况下均产生了如图1所示的预计完美的瘢痕（见表11）。如表11所示，全部27个已检测的菌落在I-SceI表达和x标记切除后均显示出了x标记的整合。

表11：在标记切除后通过对第一代I-SceIx标记瘢痕进行测序得到的切除保真度结果

还在不同酿酒酵母菌株中对第一和第二代x标记进行了检测（表2和4），其中，GAL1启动子是组成型的（gal80ΔGAL4_OC）。如上文所述，将ndt80Δ::x标记构建体整合在一起并转化至酵母中。将带有xURA3的转化混合物直接接种至CSM-U平板上；在接种至YPD+药物平板之前，先将这些具有抗药性的标记置于摇床上在液体YPD中生长3-6小时。如上文所述，将各x标记变体已经过菌落PCR验证具有ndt80Δ::x标记物整合的两个转化体独立地与I-SceI表达质粒中的一个转化，并接种于上文所述的选择性平板上。

由于P_GAL1-I-SceI的表达是组成型的，因而预计在质粒转化选择性平板上的菌落中含有保持或切除x标记的混合细胞群。将各平板的若干菌落转移至非选择性YPD平板上，其允许丢失质粒或标记或上述二者的细胞生长。将这些经转移的菌落补丁在YPD平板上生长过夜，然后复制平板至YPD+药物、CSM-尿嘧啶、和5-FOA平板。很多补丁在5-FOA和CSM-尿嘧啶中生长，在补丁中显示出了混合的细胞群，并提示在需要对菌落进行分离以获得用于分析的同源群之前，在非选择性条件下其进一步生长。尽管由于存在混合补丁，在该实验中一般会低估标记的切除频率，但是一般至少18%，更加常见为35-50%的补丁具有至少某些已切除标记的细胞（表12）。大部分补丁（53-88%）在复制平板前已完全丢失了I-SceI表达质粒。与补丁和复制平板平行的，通过菌落PCR对来自两个独立地ndt80Δ::s1x-hphA菌落在YPD转移平板上的90个菌落的标记物切除情况进行了检测；48%（43/90）的菌落产生了hphA标记精确切除时预计尺寸的条带。

表12：第二代I-SecIx标记切除频率和核酸内切酶表达质粒丢失频率的结果

使用与上文所述的那些类似的实验对其他x标记的构建进行了研究。此外，已成功对在同一菌株不同基因座中整合的多个x标记物的同步切除进行了检测，其未显示出基因组不稳定性（例如，染色体转位）的迹象（参见下文中的实施例6.2.4）。

6.2.2.使用其他核酸内切酶对x标记的检测：

使用表6所示的一组xURA3标记对四种其他的核酸内切酶进行了检测。含有URA3选择性标记基因的每个x标记的侧翼为两个限制性核酸内切酶剪切位点，依次地其侧翼为50个碱基对的正向重复序列。每个，使用带有三种元件的重叠延伸PCR将具有结构GOIUS/x标记/GOIDS（GOI=感兴趣的基因、US=上游、DS=下游）的敲除构建体组装在一起。最初以HXT3作为感兴趣的基因（GOI）对新的核酸内切酶URA3x标记进行检测。各PCR反应使用来自其质粒骨架通过SapI消化释放的三个RaBits作为模板：（1）HXT3上游（01-0-U-407）、（2）x标记RaBit（x0.URA.VDE、x0.URA.F-CphI、12-0-x0.URA.PI-MtuII、12-0-x0.URA.PI-MgaI）、和（3）HXT3DS（29-0-D-408）。PCR整合的引物为RYSE0和RYSE19。PCR结束后，将反应混合物在琼脂糖凝胶中上样，并且从凝胶中纯化所需的全长产物。使用凝胶纯化的PCR产物转化酵母细胞并将其接种于针对URA3（CSM-尿嘧啶）的选择性平板上。所需的转化体具有突变基因型hxt3Δ::xURA3，其带有如表6所列的若干版本的xURA3标记。对CSM-尿嘧啶平板上出现的菌落中存在的所需染色体基因座进行检测，采用通过煮沸（“菌落PCR”）剪切细胞得到的基因组DNA进行PCR扩增，其使用对通过重组形成的新型DNA结点进行扩增得到的引物对。引物为KB502、KB503、和CPK904；后两者针对hxt3Δ::xURA3产生738bp的片段，前两者针对完整的HXT3产生538bp的片段。各x标记变体均选择两个分离体进行进一步的分析。

xURA3标记物在5-FOA平板上具有反选择优势，其仅允许缺乏URA3的细胞生长。而相反地，已切除其他x标记的分离物必须通过筛选鉴定，例如从所有分离物均生长的非选择性平板至所需分离物不生长的选择性平板的复制平板培养法。第一代x标记物使用URA3进行反选择，其能够对罕见的切除事件进行定量。与预期结果一致，当含有xURA3标记且缺乏核酸内切酶表达质粒的菌株接种或转移至5-FOA后，菌落均不再生长。该结果表明在缺乏核酸内切酶催化剪切时，x标记的自发性剪切非常罕见。该结果提示URA3x标记不表达核酸内切酶时很少被切除（<10^-6的细胞）。

将已确证基因型hxt3Δ::xURA3的分离物与使用标记基因hphA标记的核酸内切酶同源表达质粒（pAM1799、pAM1865、pAM1866）进行转化。将细胞在液体YPD中生长3-6小时，以便允许来自转化混合物的细胞表达新的标记基因（hphA），然后将其接种于YPD+潮霉素B平板。由于宿主菌株基因型为gal80ΔGAL4oc，因而驱动核酸内切酶基因表达的GAL1启动子为组成型表达，其不需要诱导剂。生长三天后，将转化体菌落转移至YPD+潮霉素B平板，再生长三天。将转移得到的菌落（每个核酸内切酶四个菌落）重悬于3mlYPD中，在非选择性条件下生长过夜，以允许质粒丢失。测定细胞密度，对培养物进行稀释，将细胞以每板150、15,000、或150,000个细胞的预计密度接种于三种不同的固体培养基中：YPD、YPD+潮霉素B、和5-FOA。预计所有细胞均在YPD上形成菌落，预计仅有维持核酸内切酶表达质粒的细胞在潮霉素B上形成菌落，以及预计仅有xURA3标记切除的细胞在5-FOA上形成菌落。

表13中的结果表明F-CphI介导了高效的x标记切除、PI-MtuII介导了低效的x标记切除、以及PI-MgaI介导的x标记物切除的水平检测不到。CEN.ARS核酸内切酶表达质粒的丢失是高频事件，提示在使用新的x标记进行另一轮转化前，很容易分离丢失核酸内切酶的细胞。

表13：不同核酸内切酶对x标记的切除效率以及非选择性生长若干代后表达质粒的丢失频率比较

为了确定是否F-CphI介导的标记切除留下了“完美的”瘢痕，使用翼侧为xURA3标记整合位点的寡核苷酸引物（寡核苷酸KB503和KB604）对5-FOA抗性（功能性的ura3^-）菌落进行菌落PCR；对使用寡核苷酸引物KB503的533bpPCR产物进行DNA测序。在已检测的16个菌落中，全部具有“完美的”瘢痕，其中仅存的来自x标记的DNA序列为单拷贝的50bp序列。

6.2.3.对F-Cphx标记物切除的频率和保真度的进一步检测

制备并检测了对具有F-CphI剪切位点和不同选择性标记的其他x标记（natA、kanA、hphA、zeoA）。在单倍体和二倍体酿酒酵母菌株中，单独的和组合的，对这些标记切除的切除频率和保真度进行了检测。已检测菌落的切除频率通常为100%，并且总是>80%。切除的保真度接近100%。在很多独立培养物中几乎所有的切除事件均给出完美的疤痕；切除仅留下一个拷贝的50bp独特序列，将其引入作为x标记的正向重复，并且标记本身不存在（表14）。

在NDT80基因座（删除NDT80基因）具有x标记的菌株的制备方法如下。通过使用寡核苷酸RYSE0和RYSE19将x标记（作为12RaBit）与01-0-U-97和29-0-U-23RaBits连接制备用于转化细胞的整合的PCR产物。转化后，使用一对寡核苷酸引物对通过菌落PCR对正确分离物的同一性进行验证，所述引物对中的一个引物在转化DNA外部（CPK650），另一个在标记物内部（例如，针对URA3为KB561和KB562；针对natA、kanA、和hygA为KB563和KB564），产生的PCR产物为～1.1kb。通过使用寡核苷酸AET83和AET84的菌落PCR中不存在PCR产物对天然NDT80序列的除去情况进行验证，其给出了带有完整NDT80基因座的母体菌株442bp的PCR产物。经F-CphI表达质粒（pAM1800）转化后，通过使用JU197和JU198的菌落PCR对各菌落的预期切除情况进行检测，其给出了一个492bp的条带，对应于仅剩下一个拷贝50bp瘢痕序列的完美切除；在凝胶中将该条带展开以进行目测检查，并将其与任意其他的DNA分离，然后将其从凝胶中提取并使用相同的寡核苷酸引发PCR反应进行DNA测序。

在GAL80基因座（删除GAL80基因）具有x标记的菌株的制备方法如下。通过使用寡核苷酸RYSE0和RYSE19将x标记（作为12RaBit）与01-0-U-270和29-0-U-95RaBits连接制备用于转化细胞的整合的PCR产物。转化后，通过菌落PCR对正确分离的同一性进行验证。将寡核苷酸JU436和RYSE3在5’端结点附近扩增，在此处转化的DNA整合至GAL80的上游序列，以获得572bp的PCR产物（或者，使用JU210和RYSE3得到182bp的PCR产物）；JU221和RYSE4在带有GAL80下游序列的标记3’端结点处扩增得到386bp的产物（或者，使用JU439和RYSE4得到531bp的PCR产物）；阴性对照为使用引物JU212和JU210的菌落PCR，其给出针对完整GAL80基因座的290bp产物，且无所需的基因座产物。经F-CphI表达质粒（pAM1800或pAM1799）转化后，通过使用JU210和JU211的菌落PCR对各菌落的预期切除情况进行检测，其给出了一个277bp的条带，对应于仅剩下一个拷贝50bp瘢痕序列的完美切除；在凝胶中将该条带展开以进行目测检查，并将其与任意其他的DNA分离，然后将其从凝胶中提取并使用相同的寡核苷酸引发PCR反应进行DNA测序。

经F-CphI表达质粒转化后，在选择性平板上随机选择八个菌落进行菌落PCR来判断切除。对于下述x标记而言，全部八个菌落均给出了完美的PCR产物，并且DNA测序验证了完美瘢痕：x0URA3、x1nat、x3kan、x4nat、和x6zeo。x2hph标记的结果异常；对瘢痕进行测序以及对x标记（12RaBit）进行重新测序的结果显示，正向重复并不是预期的，取而代之的是具有不规则邻近序列的标记的翼侧仅有19bp的正向重复。尽管供双链断裂修复的区域较小，但是切除的频率和保真度均较好；在第一次试验中，八个菌落中的六个完全切除了标记并留下可变长度的瘢痕；在第二次试验中，全部八个菌落切除了标记并留下19bp的瘢痕。该结果提示，正向重复的长度在17-18bp就足够了，50bp用于指导F-CphI剪切后染色体的修复绰绰有余。

在若干情况下，均观察到了x标记切除的较高的频率和精密度。最简单的情况为在各菌株中的单一x标记。更为复杂的情况为在杂合的二倍体菌株中切除x标记物，其具有一个完整的GAL80等位基因和一个已被x标记切除的等位基因；在这种情况下，在断裂的等位基因处切除x标记后完整的GAL80基因座仍保持完整。这很重要，因为在F-CphI作用后可能使剪切的染色体末端在x标记附近，其能够使用染色体完整的第二个拷贝作为修复模板，进而导致基因转化事件，其将在染色体中恢复被删除的完整的GAL80基因座。尚未观察到该基因事件，而是细胞明显地优选通过染色体内单链退火机制修复断裂的染色体。

6.2.4.同时进行的多个x标记切除

本实施例证明了x标记构建体在介导从宿主细胞的染色体DNA中同时切除多个选择性标记物的有效性，其中各x标记用于标记独特基因座中的整合。

在GAL80和GAL4基因座具有x标记的菌株的制备方法如下。使用x标记靶向构建体GAL80-US_xM4.Hph.FCphI_GAL80-DS转化潮霉素敏感性细胞。转化3mL液体YPD培养基中生长5小时，再接种至YPD加潮霉素平板上。通过菌落PCR对转化体进行验证。将寡核苷酸HJ53和HJ848在5’端结点附近扩增，在此处转化的DNA整合至GAL80的上游序列，以获得761bp的PCR产物（或者，使用HJ53和HJ253得到1kb的PCR产物）；H727和HJ258在带有GAL80下游序列的标记物3’端结点处扩增得到1033bp的产物（或者，使用HJ727和HJ54得到627bp的PCR产物）。然后将选定的分离物与x标记靶构建体GAL4-US_xM0.Kan.FCphI_GAL4-DS进行转化。转化在3mL液体YPD培养基中生长5小时，再接种至YPD加G418平板上。通过菌落PCR对转化体进行验证。将寡核苷酸HJ270和HJ253在5’端结点附近扩增，在此处转化的DNA整合至GAL4的上游序列，以获得1.1kb的PCR产物（或者，使用HJ270和HJ54得到774bp的PCR产物）；H239和HJ706在带有GAL4下游序列的标记3’端结点处扩增得到793bp的产物（或者，使用HJ239和HJ241得到1038bp的PCR产物）。

将基因型gal80Δ::xHphgal4Δ::xKan的分离体与natA-标记的F-CphI表达质粒（pAM1864）进行转染。转化3mL液体YPD培养基中生长5小时，再接种至YPD加诺尔丝菌素平板上。在30°C下孵育3天后，将4个转化体转移至新鲜YPD中，以使pAM1864丢失。为检测x标记的切除和pAM1864的丢失情况，在YPD平板上放置50个菌落（每个转移约12-13个菌落）补丁，然后24小时后在YPD、YPD加潮霉素、G418、或诺尔丝菌素平板上进行复制平板培养。复制平板培养48小时后检查平板。

同时多重整合的频率为100%，即50/50个菌落在潮霉素和G418中失去抗性，表明所有检测的菌落均丢失了全部两个x标记。约20%（10/50）的菌落也失去了诺尔丝菌素抗性，表明20%的菌落丢失了F-CphI质粒。在两个附加菌株中也观察到了类似的频率，在这两个附加菌株中两个x标记构建体被整合至基因组。在第二个表达F-CphI的gal80Δ::xHphgal4Δ::xKan菌株中，50/50的菌落失去了潮霉素和G418抗性，以及10/50的菌落也失去了诺尔丝菌素抗性。在第三个表达F-CphI的gal80Δ::xHphgal4Δ::xKan菌株中，48/48的菌落失去了潮霉素和G418抗性，以及5/50的菌落也失去了诺尔丝菌素抗性。还通过菌落PCR对失去了全部三个药物抗性的菌落进行了验证。与预期结果一致，它们均有两个x标记被F-CphI切除。

本实施例证明了来自单一单倍体菌株的两个标记均能够被高频率的完美切除。而且，本实施例证明了不存在染色体转位或基因组不稳定性的证据。这些结果表明，x标记构建体促进了宿主细胞基因组中靶DNA的高效同时多重切除。

6.2.5.包含不同长度DR的x标记构建体的基因组稳定性

本实施例证明了在不存在核酸内切酶表达时，包括不同长度正向重复（DR）的x标记构建体在整合至酵母基因组中时的稳定性。

对条件基因删除系统进行严格控制是有益的，这样在诱导之前和非诱导条件下不会产生显著的切除。在基因工程中，高速率的自发同源重组事件可能导致基因组的不稳定性、并非所需的选择性标记丢失、以及因此丧失选择所需基因型的能力。

天然的、内源性的、自发的同源重组事件能够催化使插入DNA删除的正向重复序列（一般，>300bp）之间罕见的重组交叉。已发表的报告显示，可以通过DR侧翼序列之间的自发重组交叉将序列从酵母宿主细胞基因组中切除（“环出”）。已报道在300bp至1.1kb长度DR之间发生的此类环出速率为1/1,000个细胞（1x10^-3）至1/10,000个细胞（1x10^-4）（Alanietal.(1987)Genetics116(4):541-5（正向重复长度1100bp时为10^- ⁴）；Wachetal.(1994)Yeast10(13):1793-808（正向重复长度430bp时为10^-3至10^-4）；Erdenizetal.(1997)GenomeRes7(12):1174-83（正向重复长度为～300至3000bp时为10^-3至10^-4））。为确定具有可变长度正向重复的整合x标记构建体的基因组稳定性，在不存在核酸内切酶表达时，对不同长度DR之间的自发重组交叉速率进行了评估。

在NDT80基因座（NDT80基因删除）整合了x标记、并且具有长度为50、60、80和198bp的正向重复的菌株制备方法如下。使用RYSE0和RYSE19寡核苷酸作为引物，通过将下述带有01-0-U-30和29-0-D-23RaBits的URA3x标记变体连接制备整合载体：

表15：用于评估串联重复长度对基因组稳定性影响的x标记中各元件的特性列表

在转化至ura3-菌株后，将细胞接种于ura3-平板上，并通过菌落PCR对菌落的正确整合进行验证。将寡核苷酸AET0065-186-63-F-pNDT80和RYSE3在5’端结点附近扩增，在此处转化的DNA整合至NDT80的上游序列，以获得1024bp的PCR产物；AET0072-186-63-R-tNDT80和RYSE4在带有NDT80下游序列的标记物3’端结点处扩增得到1024bp的产物。这些结果表明了x标记的整合和NDT80的断裂。各x标记变体均选择两个已确证的分离物进行进一步的分析。

将菌落重新转移至缺乏尿嘧啶的CSM上，然后允许DR之间的URA3标记自发切除，使细胞在液体YPD中生长2天，每12-24小时稀释一次（结果约倍增25次）。由于在该培养基中URA3+和ura3-菌落均生长良好，因而没有对切除基因的选择。此外，将包含天然URA3的细胞，即在URA3的翼侧无任何正向重复，作为用于评估自发突变速率的对照，其能够导致使URA3活性降低或失活的点突变（使宿主细胞在5-FOA中存活），而无需URA3编码序列的环出。

将培养物最终接种于含5-FOA的固体培养基上，在对菌落计数前再培养2.5天。每个基因型取16个单独的ura3-（5-FOA抗性）菌落，通过菌落PCR确证URA3基因自发的环出情况，或者完整URA3基因的存在情况。使用的引物为x标记与NDT80序列结点上游退火208bp（JU-197-168-125-NDT80US-F）和下游退火234bp（JU-198-168-125-NDT80DS-R）。如果URA3完全切除，则PCR产物的预计尺寸为462-522bp，如果URA3是完整的，则PCR产物的预计尺寸为2072bp。

如表16所示，在包含URA3而侧翼无正向重复的细胞中，5-FOA抗性的平均频率为约1.7x10^-6个细胞，其表明了导致URA3失活的自发突变的固有速率。在包含URA3且其侧翼具有50-80bp长度正向重复的细胞中，5-FOA抗性的平均频率为约4.5x10^-6至1.14x10^-5个细胞，以及在包含URA3且其侧翼具有198nbp长度正向重复的细胞中，5-FOA抗性的平均频率为约4.7x10^-5个细胞。

菌落PCR?（cPCR）的结果确证了一定量5-FOA抗性x标记菌落引发的自发突变导致了URA3灭活，这与URA3标记的环出不同。特别地，在包含具有50bp和80bpDR长度的整合x标记菌落中，4/12个5-FOA抗性菌落cPCR筛选的结果为具有完整的URA3基因，表明在这些菌落中5-FOA抗性是由URA3中失活的自发突变引起的，而非URA3环出。这样，预计在x标记菌株中DR介导的自发环出的频率甚至比所观察到的5-FOA抗性的频率更低。即使带着对该局限性的理解，使用5-FOA抗性作为代用品，这些结果表明与DR长度约50至200bp相关的自发环出的频率比报告的DR300bp至1.1kb的自发环出速率低1至3个数量级（如上文所讨论的，10^-6至10^-5对10^-4至10^-3）。

这些结果证明了与DR长度至少为300bp相比，DR长度约200bp在自发环出事件数量上提供了1-2log的降低。特别地，与无正向重复时的频率约4.7x10^-5个细胞相比，DR长度为198时自发环出事件的频率为1.7x10^-6个细胞。

缩短DR长度的结果甚至更好。如上文所述，结果表明与DR长度至少300bp相比，DR长度在50至80bp范围内时自发环出事件的数量降低2-3log（10^-6至10^-5对10^-4至10^-3）。

而且，这些结果表明，当DR的长度降至200以下时，自发URA3环出的速率与URA3自发突变的速率接近。与自发的失活突变相比，DR长度为50、60和80时因环出导致的URA3丢失仅大致增加2.7至7倍。

这些结果提示，与DR的长度为300bp或更长相比，DR长度约200bp或更短在基因组的稳定性方面提供了实质性的益处。靶DNA的切除被严格控制，在使用归巢核酸内切酶诱导前不会产生显著的切除。因此，本申请所述的关于x标记的方法和组合物对在非诱导条件下靶DNA例如选择性标记物的保留进行了改进，结果其在菌株工程中能够增加基因组的稳定性，并且对所需基因型进行更有效的选择。

表16：不同长度的正向重复（DR）介导的自发重组事件

这些结果证明了本申请所述的用于形成和切除特异性选择性标记变体的组合物和方法能够高频、有效、高保真和稳定的工作。I-SceI和F-CphI核酸内切酶在此方法中非常有效，F-CphI在酿酒酵母细胞中显示出出乎意料的异常优越的切除频率和保真度。即使在二倍体细胞和含有一个以上x标记的细胞中，切除事件本身也不会导致基因组的不稳定性。该方法的主要益处包括能够一次同时切除多个x标记，并能够选择大量不同的独特瘢痕序列，这样甚至可以设计在同一菌株中重复使用和循环利用x标记，其中各瘢痕是独特的。这是其相对于Flp/FRT或Cre/lox系统的优势，后者必然会留下位点特异性重组酶结合和剪切位点的多个拷贝，其遍布于整个基因组中，等待再次引入重组酶进行剪切，其可能会导致转位和染色体片段的切除。另一个优势为其切除频率通常高于50%，这样该方法能够用于切除任何所需的靶DNA，即使尚无选择方法仅允许成功切除的产物分离物生长时，仍可以使用该筛选方法鉴定所需的产物菌株。

在本说明书中引用的所有出版物、专利申请、和专利，都以参考的形式并入本申请，相当于每篇出版物或专利申请都特别地和单独地被指出以参考的形式并入。尽管出于便于清楚地理解的目的以解释和实施例的方式对前述发明的细节进行了描述，本领域普通技术人员将易于理解，在本发明的教导下，在不脱离所附权利要求的主旨或范围的前提下，可以对其进行某些改变或修订。

Claims

1.一种可切除的核酸构建体，从5’至3’方向包括：

(a)第一串联重复核酸；

(b)第一F-CphI核酸内切酶识别位点；

(c)靶核酸；

(d)第二F-CphI核酸内切酶识别位点；以及

(e)第二串联重复核酸。

2.根据权利要求1所述的可切除的核酸构建体，其中每个所述第一和第二串联重复核酸独立地由18至200个核苷酸碱基对组成。

3.根据权利要求1所述的可切除的核酸构建体，其中每个所述第一和第二串联重复核酸独立地由18至150个核苷酸碱基对组成。

4.根据权利要求1所述的可切除的核酸构建体，其中每个所述第一和第二串联重复核酸独立地由18至100个核苷酸碱基对组成。

5.根据权利要求1所述的可切除的核酸构建体，其中每个所述第一和第二串联重复核酸独立地由18-80个核苷酸碱基对组成。

6.根据权利要求1至5任意一项所述的可切除的核酸构建体，其中所述靶核酸编码选择性标记。

7.根据权利要求6所述的可切除的核酸构建体，其中所述选择性标记选自下组：

URA3、潮霉素B磷酸转移酶、氨基糖苷磷酸转移酶、博来霉素抗性基因和草胺膦N-乙酰转移酶。

8.根据权利要求1至5任意一项所述的可切除的核酸构建体，其进一步包括连接至所述第一串联重复核酸5'端的第一基因组整合位点，以及连接至所述第二串联重复核酸3'端的第二整合位点。

9.根据权利要求1至5任意一项所述的可切除的核酸构建体，其中所述靶核酸包含与编码F-CphI核酸内切酶的核酸可操作地连接的启动子元件。

10.一种酵母细胞，其包含权利要求1至7任意一项所述的可切除的核酸构建体和包括编码F-CphI核酸内切酶的核酸的载体。

11.根据权利要求10所述的酵母细胞，其中所述载体包含控制编码F-CphI核酸内切酶的核酸表达的启动子元件。

12.根据权利要求11所述的酵母细胞，其中所述启动子元件是诱导型启动子。

13.根据权利要求10所述的酵母细胞，其为单倍体酵母细胞。

14.根据权利要求10所述的酵母细胞，其为二倍体酵母细胞。

15.根据权利要求10所述的酵母细胞，其为酿酒酵母细胞。

16.根据权利要求10至15任意一项所述的酵母细胞，其中所述可切除的核酸构建体整合至所述宿主细胞的基因组。

17.一种从宿主细胞的基因组中切除至少一个靶核酸的方法，所述宿主细胞包括权利要求1所述的可切除的核酸构建体，其中该方法包括：在所述宿主细胞中将所述可切除的核酸构建体与F-CphI接触。

18.根据权利要求17所述的方法，其中所述切除将启动子元件可操作地连接至感兴趣的基因。

19.根据权利要求17所述的方法，其中所述靶核酸编码选择性标记。

20.根据权利要求19所述的方法，其中所述选择性标记选自下组：URA3、潮霉素B磷酸转移酶、氨基糖苷磷酸转移酶、博来霉素抗性基因和草胺膦N-乙酰转移酶。

21.根据权利要求17至20任意一项所述的方法，其中所述宿主细胞是酵母细胞。

22.根据权利要求21所述的方法，其中所述酵母细胞是单倍体酵母细胞。

23.根据权利要求21所述的方法，其中所述酵母细胞是二倍体酵母细胞。

24.根据权利要求21所述的方法，其中所述酵母细胞是酿酒酵母细胞。