CN103492578B

CN103492578B - 用于基因组修饰的方法

Info

Publication number: CN103492578B
Application number: CN201280020323.6A
Authority: CN
Inventors: Z·赛培尔; A·霍维茨
Original assignee: Amyris Inc
Current assignee: Amyris Inc
Priority date: 2011-04-27
Filing date: 2012-04-27
Publication date: 2016-10-19
Anticipated expiration: 2032-04-27
Also published as: CN103492578A; AU2012249390A1; BR112013025567B1; US20120277120A1; AU2017204456A1; US8685737B2; CA2834375C; AU2017204456B2; MX2013012479A; US9701971B2; PT2702160T; JP2017042173A; EP2702160B1; MX351043B; JP2014513535A; JP6158170B2; US20140186942A1; US20170240923A1; JP6527126B2; SG194089A1

Abstract

本文中提供将一种或多种外源核酸整合入宿主细胞基因组的一个或多个选定靶位点的方法。在某些实施方案中，所述方法包括使宿主细胞基因组与一种或多种包含要整合入基因组靶位点的外源核酸的整合多核苷酸和能够在基因组靶位点附近或内部引起双链断裂的核酸酶接触。

Description

用于基因组修饰的方法

对相关申请的交叉引用

本申请要求2011年4月27日提交的美国临时申请No.61/479,821；2011年6月24日提交的美国临时申请No.61/500,741；及2011年9月26日提交的美国临时申请No.61/539,389的优先权，据此通过述及完整收录其内容。

技术领域

本文中提供的方法和组合物一般涉及分子生物学和遗传工程领域。

背景技术

众多领域需要将外源核酸引入和整合入宿主细胞基因组的遗传工程技术。例如，在合成生物学领域，遗传修饰株的构建要求将定制DNA序列插入宿主细胞的染色体，而且工业规模生产通常要求将数十种基因引入宿主生物体。凭经验达到了工业株的优化设计，这要求单独地和/或与其它生物合成途径成分组合地构建和体内测试多种DNA装配物。

遗传工程高度依赖于基因打靶，这利用供体模板DNA的染色体外片段且调用细胞的同源重组（HR）机制来用外源供体序列交换染色体序列。参见例如Capecchi,Science244:1288-1292(1989)。基因打靶的效率有限；在植物和哺乳动物细胞中，提供过量模板序列下10⁶个细胞中只有约1个经历期望的基因修饰。酵母展现升高的同源重组能力。然而，外源DNA成功并入酵母基因组仍然是比较罕见的事件（10⁵中约1)，而且要求利用选择标志来筛选通常只包含一处基因组修饰的重组细胞。另外，由于可用于酵母的选择标志的储备有限，所以必须自重组株消除选择标志以容许利用该标志进行别的基因组修饰，而且在一些情况中，在制造或天然环境中释放宿主细胞之前也必须这样做。如此，不依赖于整合在任何一个基因座处能实现的效率，基因组工程一次一个的连续性质提出如下要求，即在多个基因座处进行改变要求的工程改造周期数目与要修饰的基因座数目一样多。

基因打靶的效率在与在预定整合位点附近引入靶向基因组双链断裂（DSB）组合时能得到改进。参见例如Jasin,M.,Trends Genet12(6):224-228(1996)；及Urnov et al.,Nature435(7042):646-651(2005)。所谓的“设计者核酸酶”指能适应体内结合DNA的特定“靶”序列并对其引入双链断裂的酶。此类靶向双链断裂可以例如通过用包含编码设计者核酸酶的基因的质粒转化宿主细胞来实现。宿主细胞通过同源性指导的DNA修复或非同源末端连接来修复这些双链断裂。在修复过程中，可利用两种机制任一在靶位点处并入外源供体DNA。如果在引入供体DNA的同时将核酸酶引入细胞，那么细胞能在靶基因座处整合供体DNA。

设计者核酸酶的出现使得能够将转基因引入农作物中的特定靶基因座（Wrightet al.,Plant J44:693-705(2005)），以改进表达治疗性抗体的哺乳动物细胞培养系（Malphettes et al.,Biotechnol Bioeng106(5):774-783(2010)），及甚至编辑人基因组以引发针对HIV的抵抗力（Urnov et al.,Nat Rev Genet11(9):636-646(2010)）。虽然有效，但是由DSB介导的HR仍有待开发以减少整合多个DNA装配物（例如朝着在工业微生物中构建功能性代谢途径）需要多轮工程化改造。

如此，存在对容许多数外源核酸同时整合入宿主细胞基因组的特定区域的方法和组合物的需要。

发明内容

本文中提供用于将一种或多种外源核酸整合入宿主细胞的规定基因组基因座的方法和组合物。在一些实施方案中，以一个转化反应同时整合多数外源核酸。在一些实施方案中，所述方法包括将一种或多种核酸酶及一种或多种供体DNA装配物引入细胞以便于在基因组的规定位置处整合供体DNA。所述方法和组合物利用宿主细胞的天然同源重组机制，通过在宿主细胞的基因组中在预定整合位点处诱导靶向双链断裂进一步增强该重组。

如此，在一个方面，本文中提供一种用于将多数外源核酸整合入宿主细胞基因组的方法，该方法包括：

(a)使宿主细胞与下述各项接触：

(i)多数外源核酸，其中每种外源核酸(ES)_x包含第一同源区(HR1)_x和第二同源区(HR2)_x，其中(HR1)_x和(HR2)_x能够启动(ES)_x在所述宿主细胞基因组的靶位点(TS)_x处由宿主细胞介导的同源重组；和

(ii)对于每种所述靶位点(TS)_x，能够在(TS)_x处切割的核酸酶(N)_x，于是所述切割导致(ES)_x在(TS)_x处的同源重组；

并

(b)回收宿主细胞，其中每种选定外源核酸(ES)_x已经在每个选定靶序列(TS)_x处整合，

其中x为1至n的任何整数，其中n为至少2。

在一些实施方案中，(HR1)_x与(TS)_x的5’区同源，且(HR2)_x与(TS)_x的3’区同源。

在一些实施方案中，(N)_x能够在位于所述(TS)_x的5’和3’区之间的区域处切割。

在一些实施方案中，每个(TS)_x能够被一种核酸酶切割。

在一些实施方案中，n=3、4、5、6、7、8、9或10。在一些实施方案中，n>10。

在一些实施方案中，所述回收不要求选择标志的整合。在一些实施方案中，所述回收以与不使宿主细胞与能够在所述靶位点处切割的核酸酶接触相比更高的频率发生。在一些实施方案中，所述回收以每10、9、8、7、6、5、4、3、或2个筛选的发生接触的宿主细胞或其克隆群中约一个的频率发生。在一些实施方案中，所述回收包括通过至少一种选自下组的方法鉴定所述整合：PCR，Southern印迹，限制性作图，和DNA测序。

在一些实施方案中，(N)_x能够切割内源宿主基因组序列，例如(TS)_x内的天然基因座。在一些实施方案中，(N)_x能够切割外源序列，例如(TS)_x内引入的基因座。

在一些实施方案中，(ES)_x进一步包含位于(HR1)_x的3’且(HR2)_x的5’的感兴趣核酸(D)_x。在一些实施方案中，(D)_x选自下组：启动子，编码表位标签的核酸序列，感兴趣基因，报告基因，和编码终止密码子的核酸序列。

在一些实施方案中，(ES)_x是线性的。在一些实施方案中，(N)_x作为包含编码(N)_x的核酸序列的表达载体提供。在一些实施方案中，将(N)_x作为纯化的蛋白质转化入宿主细胞。在一些实施方案中，将(N)_x作为纯化的RNA转化入宿主细胞。

在一些实施方案中，宿主细胞包含编码生物合成途径的一种或多种酶的一种或多种异源核苷酸序列。在一些实施方案中，编码生物合成途径的一种或多种酶的一种或多种异源核苷酸序列是基因组整合的。在一些实施方案中，每种外源核酸(ES)_x包含位于(HR1)_x的3’且(HR2)_x的5’、编码生物合成途径的酶的感兴趣核酸(D)_x。在一些实施方案中，(D)_x是包含多数核酸分子的文库(L)_x的成员，该多数核酸分子编码生物合成途径的酶的变体。

在一些实施方案中，宿主细胞包含编码生成异戊烯基焦磷酸的甲羟戊酸（MEV）途径的一种或多种酶的一种或多种异源核苷酸序列。在一些实施方案中，甲羟戊酸途径的一种或多种酶选自乙酰基-CoA硫解酶、HMG-CoA合酶、HMG-CoA还原酶、甲羟戊酸激酶、磷酸甲羟戊酸激酶和甲羟戊酸焦磷酸脱羧酶。在一些实施方案中，宿主细胞包含编码MEV途径的所有酶的多数异源核酸。换言之，该多数异源核酸一起编码上文所列MEV途径每类酶的至少一种酶。在一些实施方案中，每种外源核酸(ES)_x包含位于(HR1)_x的3’且(HR2)_x的5’、编码萜合酶的感兴趣核酸(D)_x。在一些实施方案中，萜合酶选自下组：单萜合酶，二萜合酶，倍半萜合酶，二倍半萜合酶，三萜合酶，四萜合酶，和多萜合酶。

在一些实施方案中，(N)_x选自下组：内切核酸酶（例如大范围核酸酶），锌指核酸酶，TAL效应器DNA结合域-核酸酶融合蛋白（TALEN），转座酶，和位点特异性重组酶，其中x为1或1至n的任何整数。在一些实施方案中，锌指核酸酶为融合蛋白，其包含与工程化锌指结合域融合的IIS型限制性内切核酸酶切割域。在一些实施方案中，IIS型限制性内切核酸酶选自下组：HO内切核酸酶和Fok I内切核酸酶。在一些实施方案中，锌指结合域包含3、5或6个锌指。在一些实施方案中，内切核酸酶为选自下组的归巢内切核酸酶：LAGLIDADG归巢内切核酸酶，HNH归巢内切核酸酶，His-Cys框归巢内切核酸酶，GIY-YIG归巢内切核酸酶，和蓝细菌归巢内切核酸酶。在一些实施方案中，内切核酸酶选自下组：H-DreI，I-SceI，I-SceII，I-SceIII，I-SceIV，I-SceV，I-SceVI，I-SceVII，I-CeuI，I-CeuAIIP，I-CreI，I-CrepsbIP，I-CrepsbIIP，I-CrepsbIIIP，I-CrepsbIVP，I-TliI，I-PpoI，Pi-PspI，F-SceI，F-SceII，F-SuvI，F-CphI，F-TevI，F-TevII，I-AmaI，I-AniI，I-ChuI，I-CmoeI，I-CpaI，I-CpaII，I-CsmI，I-CvuI，I-CvuAIP，I-DdiI，I-DdiII，I-DirI，I-DmoI，I-HmuI，I-HmuII，I-HsNIP，I-LlaI，I-MsoI，I-NaaI，I-NanI，I-NclIP，I-NgrIP，I-NitI，I-NjaI，I-Nsp236IP，I-PakI，I-PboIP，I-PcuIP，I-PcuAI，I-PcuVI，I-PgrIP，I-PobIP，I-PorI，I-PorIIP，I-PbpIP，I-SpBetaIP，I-ScaI，I-SexIP，I-SneIP，I-SpomI，I-SpomCP，I-SpomIP，I-SpomIIP，I-SquIP，I-Ssp68031，I-SthPhiJP，I-SthPhiST3P，I-SthPhiSTe3bP，I-TdeIP，I-TevI，I-TevII，I-TevIII，i-UarAP，i-UarHGPAIP，I-UarHGPA13P，I-VinIP，I-ZbiIP，PI-MgaI，PI-MtuI，PI-MtuHIP，PI-MtuHIIP，PI-PfuI，PI-PfuII，PI-PkoI，PI-PkoII，PI-Rma43812IP，PI-SpBetaIP，PI-SceI，PI-TfuI，PI-TfuII，PI-ThyI，PI-TliI，或PI-TliII。在具体实施方案中，内切核酸酶为Fcph-I。

在一些实施方案中，内切核酸酶经过修饰而特异性结合内源宿主细胞基因组序列，其中该经过修饰的内切核酸酶不再结合其野生型内切核酸酶识别序列。在一些实施方案中，经过修饰的内切核酸酶衍生自选自下组的归巢内切核酸酶：LAGLIDADG归巢内切核酸酶，HNH归巢内切核酸酶，His-Cys框归巢内切核酸酶，GIY-YIG归巢内切核酸酶，和蓝细菌归巢内切核酸酶。在一些实施方案中，经过修饰的内切核酸酶衍生自选自下组的内切核酸酶：H-DreI，I-SceI，I-SceII，I-SceIII，I-SceIV，I-SceV，I-SceVI，I-SceVII，I-CeuI，I-CeuAIIP，I-CreI，I-CrepsbIP，I-CrepsbIIP，I-CrepsbIIIP，I-CrepsbIVP，I-TliI，I-PpoI，Pi-PspI，F-SceI，F-SceII，F-SuvI，F-CphI，F-TevI，F-TevII，I-AmaI，I-AniI，I-ChuI，I-CmoeI，I-CpaI，I-CpaII，I-CsmI，I-CvuI，I-CvuAIP，I-DdiI，I-DdiII，I-DirI，I-DmoI，I-HmuI，I-HmuII，I-HsNIP，I-LlaI，I-MsoI，I-NaaI，I-NanI，I-NclIP，I-NgrIP，I-NitI，I-NjaI，I-Nsp236IP，I-PakI，I-PboIP，I-PcuIP，I-PcuAI，I-PcuVI，I-PgrIP，I-PobIP，I-PorI，I-PorIIP，I-PbpIP，I-SpBetaIP，I-ScaI，I-SexIP，I-SneIP，I-SpomI，I-SpomCP，I-SpomIP，I-SpomIIP，I-SquIP，I-Ssp68031，I-SthPhiJP，I-SthPhiST3P，I-SthPhiSTe3bP，I-TdeIP，I-TevI，I-TevII，I-TevIII，i-UarAP，i-UarHGPAIP，I-UarHGPA13P，I-VinIP，I-ZbiIP，PI-MgaI，PI-MtuI，PI-MtuHIP，PI-MtuHIIP，PI-PfuI，PI-PfuII，PI-PkoI，PI-PkoII，PI-Rma43812IP，PI-SpBetaIP，PI-SceI，PI-TfuI，PI-TfuII，PI-ThyI，PI-TliI，或PI-TliII。

在一些实施方案中，宿主细胞为真菌细胞、细菌细胞、植物细胞、动物细胞、或人细胞。在具体实施方案中，宿主细胞为酵母细胞。在一些实施方案中，酵母细胞为单倍体酵母细胞。在一些实施方案中，酵母细胞为酿酒酵母（Saccharomyces cerevisiae，S.cerevisiae）细胞。在一些实施方案中，酿酒酵母细胞为面包酵母、Mauri、Santa Fe、IZ-1904、TA、BG-1、CR-1、SA-1、M-26、Y-904、PE-2、PE-5、VR-1、BR-1、BR-2、ME-2、VR-2、MA-3、MA-4、CAT-1、CB-1、NR-1、BT-1或AL-1株。

在另一个方面，本文中提供一种用于将外源核酸以无标志方式整合入酵母细胞基因组的靶位点的方法，该方法包括：

(a)使宿主酵母细胞与下述各项接触：

(i)包含第一同源区(HR1)和第二同源区(HR2)的外源核酸(ES)，其中(HR1)和(HR2)能够启动在所述靶位点(TS)处由宿主细胞介导的同源重组；和

(ii)能够在(TS)处切割的核酸酶(N)，于是所述切割导致(ES)在(TS)处的同源重组；

并

(b)回收在(TS)处整合有(ES)的宿主细胞，其中所述回收不要求选择标志的整合。

在另一个方面，本文中提供通过本文所述在基因组中整合一种或多种外源核酸的任何方法生成的经过修饰的宿主细胞。在一些实施方案中，经过修饰的宿主细胞包含：

(a)多数外源核酸，其中每种外源核酸(ES)_x包含第一同源区(HR1)_x和第二同源区(HR2)_x，其中(HR1)_x和(HR2)_x能够启动(ES)_x在所述宿主细胞基因组的靶位点(TS)_x处由宿主细胞介导的同源重组；和

(b)对于每个所述靶位点(TS)_x，能够在(TS)_x处切割的核酸酶(N)_x，于是所述切割导致(ES)_x在(TS)_x处的同源重组；

其中x为1至n的任何整数，其中n为至少2。

在一些实施方案中，经过修饰的宿主细胞为酵母细胞且包含：

(a)包含第一同源区(HR1)和第二同源区(HR2)的外源核酸(ES)，其中(HR1)和(HR2)能够启动在宿主细胞基因组的靶位点(TS)处由宿主细胞介导的同源重组；和

(b)能够在(TS)处切割的核酸酶(N)，于是所述切割导致(ES)在(TS)处的同源重组；

其中(ES)不包含选择标志。

在另一个方面，本文中提供一种组合物，其包含：

(a)酵母细胞；

(b)多数外源核酸，其中每种外源核酸(ES)_x包含：

(i)第一同源区(HR1)_x和第二同源区(HR2)_x，其中(HR1)_x和(HR2)_x能够启动(ES)_x在酵母细胞基因组的选定靶位点(TS)_x处由宿主细胞介导的同源重组；和

(ii)位于(HR1)_x的3’且(HR2)_x的5’的感兴趣核酸(D)_x；

(c)多数核酸酶，其中每种核酸酶(N)_x能够在(TS)_x处切割，于是所述切割导致(ES)_x在(TS)_x处的同源重组；

其中x为1至n的任何整数，其中n为至少2。

在另一个方面，本文中提供一种可用于实施本文所述在基因组中整合一种或多种外源核酸的方法的试剂盒。在一些实施方案中，试剂盒包含：

(a)多数外源核酸，其中每种外源核酸(ES)_x包含：

(ii)位于(HR1)_x的3’且(HR2)_x的5’的感兴趣核酸(D)_x；

(b)多数核酸酶，其中每种核酸酶(N)_x能够在(TS)_x处切割，于是所述切割导致(ES)_x在(TS)_x处的同源重组；

其中x为1至n的任何整数，其中n为至少2。

在一些实施方案中，(D)_x选自下组：选择标志，启动子，编码表位标签的核酸序列，感兴趣基因，报告基因，和编码终止密码子的核酸序列。在一些实施方案中，试剂盒进一步包含多数引物对(P)_x，其中每种引物对能够通过PCR鉴定(ES)_x在(TS)_x处的整合。在一些实施方案中，(ES)_x是线性的。在一些实施方案中，(ES)_x是环状的。

在一个具体实施方案中，试剂盒使得能够在酵母基因组的大约6000个遗传基因座任一内的独特靶位点处位点特异性整合外源核酸。在这些实施方案中，n≥6000，其中每个(TS)_x对于酵母细胞基因组的特定基因座是独特的。

附图说明

图1提供使用一种位点特异性核酸酶进行一种外源核酸的无标志基因组整合的一个例示性实施方案。

图2提供使用多数位点特异性核酸酶同时基因组整合多数外源核酸的一个例示性实施方案。HR1–上游同源区；HR2–下游同源区；TS–靶位点；N–位点特异性核酸酶；D–感兴趣核酸。

图3提供生成类异戊二烯的MEV途径的示意图。

图4提供本文中提供的生成组合整合文库的方法的一个例示性实施方案。阴影线标记代表每个文库(L)_x的各个外源核酸成员。

图5提供用空载体DNA和编码功能性EmGFP的线性“供体”DNA转化的酵母细胞的96个菌落的菌落PCR结果。酵母细胞包含在HO，YGR250c，和NDT80基因座中每个处基因组整合的编码截短型非功能性EmGFP的“靶”核酸的拷贝。用对编码功能性EmGFP的核酸特异性的引物实施分开的PCR反应来探查HO、YGR250c、和NDT80基因座。没有观察到PCR产物，指示没有发生编码功能性EmGFP的供体核酸对编码非功能性EmGFP的靶核酸的替换

图6提供用pZFN.gfp DNA和编码功能性EmGFP的线性“供体”DNA转化的酵母细胞的96个菌落的菌落PCR结果。酵母细胞包含在HO、YGR250c、和NDT80基因座中每个处基因组组合的编码截短型非功能性EmGFP的“靶”核酸的拷贝。pZFN.gfp编码识别并切割对非功能性EmGFP编码序列特异性的核酸序列的锌指核酸酶。用对编码功能性EmGFP的核酸特异性的引物实施分开的PCR反应以探查HO、YGR250c、和NDT80基因座。观察到众多PCR产物，指示表达功能性EmGFP的DNA对非功能性EmGFP整合的常规替换。23个菌落替换了所有3个基因座。

图7提供株B（即包含甲羟戊酸途径的酶和编码法呢烯合酶（FS）的质粒的亲本法呢烯生成性酵母株）、株D（即株B中基因组整合紫穗槐双烯(amorphadiene)合酶(ADS)的4个拷贝的衍生株）、和株E（即株D中丢失编码FS的质粒的衍生株）的倍半萜滴度。只是添加ADS的多个拷贝，株D和E中就维持亲本株B的几乎100%倍半萜能力。

图8提供用SFC1（GFP供体DNA）和YJR030c（ADE2供体DNA）基因座的线性供体DNA、YJR030c内切核酸酶质粒（pCUT006）和SFC1内切核酸酶质粒（pCUT058）共转化的细胞的结果。在URA遗漏+Kan琼脂板上选择的菌落80%呈GFP阳性。在这些菌落中，91%对ADE2整合呈阳性。总计，72.8%的菌落在两个基因座处都成功整合了无标志供体DNA。

具体实施方式

6.1定义

如本文中使用的，术语“切割”就核酸酶（例如归巢内切核酸酶、锌指核酸酶或TAL效应器核酸酶）而言指在特定核酸中产生双链断裂（DSB）的动作。DSB可留下平端或粘端（即5'或3'悬垂），正如本领域技术人员理解的。

如本文中使用的，术语“工程化宿主细胞”指通过使用遗传工程技术（即重组技术）遗传修饰亲本细胞而生成的宿主细胞。工程化宿主细胞可包含对亲本细胞的基因组添加、删除、和/或修饰核苷酸序列。

如本文中使用的，术语“异源”指在自然界中在正常情况下找不到的。术语“异源核苷酸序列”指在自然界中在给定细胞中在正常情况下找不到的核苷酸序列。因此，异源核苷酸序列可以是：(a)对其宿主细胞而言外来的（即对细胞而言“外源”的）；(b)在宿主细胞中天然找到的（即“内源”）但在细胞中以非天然数量存在的（即多于或少于在宿主细胞中天然找到的数量）；或(c)在宿主细胞中天然找到的但位于其天然基因座以外的。

如本文中使用的，术语“同源性”指两种或更多种核酸序列，或者两种或更多种氨基酸序列之间的同一性。序列同一性可以在百分比同一性（或相似性或同源性）方面测量；百分比越高，序列彼此约接近相同。在使用标准方法比对时，核酸或氨基酸序列的同源物或直系同源物拥有相对较高程度的序列同一性。用于进行比较的序列比对方法是本领域公知的。多种程序和比对算法记载于：Smith&Waterman,Adv.Appl.Math.2:482,1981；Needleman&Wunsch,J.Mol.Biol.48:443,1970；Pearson&Lipman,Proc.Natl.Acad.Sci.USA85:2444,1988；Higgins&Sharp,Gene,73:237-44,1988；Higgins&Sharp,CABIOS5:151-3,1989；Corpet et al.,Nuc.Acids Res.16:10881-90,1988；Huanget al.Computer Appls.Biosc.8,155-65,1992；及Pearson et al.,Meth.Mol.Bio.24:307-31,1994。Altschul et al.,J.Mol.Biol.215:403-10,1990呈现了序列比对方法和同源性计算的详细考虑。NCBI基础局部比对搜索工具（Basic Local Alignment SearchTool，BLAST）（Altschul et al.,J.Mol.Biol.215:403-10,1990）可以自数个来源（包括美国国家生物信息中心（NCBI，National Library of Medicine，Building38A，Room8N805，Bethesda，Md.20894））及在因特网上获得，连同序列分析程序blastp、blastn、blastx、tblastn和tblastx一起使用。在NCBI网站能找到别的信息。

如本文中使用的，术语“无标志”指在没有伴随选择标志整合的情况下供体DNA整合入宿主细胞基因组内的靶位点。在一些实施方案中，该术语还指在不利用依赖选择标志整合入宿主细胞基因组的选择方案的情况下回收此类宿主细胞。例如，在某些实施方案中，可以利用附加体或染色体外选择标志来选择包含编码能够切割基因组靶位点的核酸酶的质粒的细胞。只要选择标志不整合入宿主细胞基因组，此类使用就会认为是“无标志”的。

如本文中使用的，术语“多核苷酸”指由核苷酸单元构成的聚合物，正如本领域技术人员会理解的。优选的核苷酸单元包括但不限于那些包含腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、胸腺嘧啶(T)、和尿嘧啶(U)的。有用的经修饰核苷酸单元包括但不限于那些包含4-乙酰基胞苷、5-(羧基羟基甲基)尿苷、2-O-甲基胞苷、5-羧基甲基氨基甲基-2-硫尿苷、5-羧基甲基氨基-甲基尿苷、二氢尿苷、2-O-甲基假尿苷、2-O-甲基鸟苷、肌苷、N6-异戊基腺苷、1-甲基腺苷、1-甲基假尿苷、1-甲基鸟苷、1-甲基肌苷、2,2-二甲基鸟苷、2-甲基腺苷、2-甲基鸟苷、3-甲基胞苷、5-甲基胞苷、N6-甲基腺苷、7-甲基鸟苷、5-甲基氨基甲基尿苷、5-甲氧基氨基甲基-2-硫尿苷、5-甲氧基尿苷、5-甲氧基羰基甲基-2-硫尿苷、5-甲氧基羰基甲基尿苷、2-甲基硫-N6-异戊基腺苷、尿苷-5-氧乙酸-甲基酯、尿苷-5-氧乙酸、wybutoxosine、怀丁苷(wybutosine)、假尿苷、辫苷(queuosine)、2-硫胞苷、5-甲基-2-硫尿苷、2-硫尿苷、4-硫尿苷、5-甲基尿苷、2-O-甲基-5-甲基尿苷、2-O-甲基尿苷、等等的。多核苷酸包括天然存在核酸，诸如脱氧核糖核酸（“DNA”）和核糖核酸（“RNA”），以及核酸类似物。核酸类似物包括那些包括非天然存在碱基，参与除天然存在磷酸二酯键以外与其它核苷酸的连接的或包括经由除磷酸二酯键以外的连接附着的碱基的核苷酸的。如此，核苷酸类似物包括例如且不限于硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基磷酸酯、硼烷磷酸酯(boranophosphate)、甲基膦酸酯、手性-甲基膦酸酯、2-O-甲基核糖核苷酸、肽-核酸（PNA）、等等。

本文中使用常规注解来描述多核苷酸序列：单链多核苷酸序列的左手端为5'端；双链多核苷酸序列的左手方向称作5'方向。

如本文中使用的，术语“同时”在多重整合方面使用时涵盖在用核酸酶（例如编码核酸酶的质粒）和超过一种要整合入宿主细胞基因组的供体DNA共转化宿主细胞的点开始且在对经过转化的宿主细胞或其克隆群筛选供体DNA在其相应靶基因座处的成功整合的点结束的时间段。在一些实施方案中，“同时”涵盖的时间段至少为核酸酶结合并切割其在宿主细胞的染色体内的靶序列需要的时间量。在一些实施方案中，“同时”涵盖的时间段为至少6、12、24、36、48、60、72、96或超过96个小时，在用核酸酶（例如编码核酸酶的质粒）和超过一种供体DNA共转化宿主细胞的点开始。

6.2整合外源核酸的方法

本文中提供将一种或多种外源核酸整合入宿主细胞基因组的一个或多个选定靶位点的方法。在某些实施方案中，该方法包括使宿主细胞与一种或多种包含要整合入基因组靶位点的外源核酸的整合多核苷酸（即供体DNA）和一种或多种能够在基因组靶位点附近或内部引起双链断裂的核酸酶接触。在基因组靶位点附近或内部的切割大大提高在切割位点处或附近的同源重组的频率。

在一个具体的方面，本文中提供将外源核酸无标志整合入宿主细胞基因组的靶位点的方法，该方法包括：

(a)使宿主细胞与下述各项接触：

并

图1提供使用位点特异性核酸酶进行外源核酸无标志基因组整合的一个例示性实施方案。将供体多核苷酸引入宿主细胞，其中该多核苷酸包含侧翼为第一同源区(HR1)和第二同源区(HR2)的感兴趣核酸(D)。HR1和HR2分别与基因组靶位点(TS)的5’和3’区分享同源性。也将位点特异性核酸酶(N)引入宿主细胞，其中该核酸酶能够识别并切割靶位点内的独特序列。在由位点特异性核酸酶在靶位点内诱导双链断裂时，内源同源重组机制以与不包含双链断裂的靶位点相比更高的频率在经过切割的靶位点处整合感兴趣核酸。这种升高的整合频率消除为了选择经历了重组事件的转化子而共整合选择标志的需要。通过消除对选择标志的需要（例如在工程化微生物的构建期间），构建包含完整且功能性生物合成途径的株需要的时间大大缩短。另外，工程化改造策略不再受到给定宿主生物体的可用标志的有限储备所致需要再循环选择标志的限制。

在一些实施方案中，在每1000、900、800、700、600、500、400、300、200或100个筛选的发生接触的宿主细胞或其克隆群中约一个的频率内发生包含成功整合的外源核酸的转化细胞的无标志回收。在具体实施方案中，在每90、80、70、60、50、40、30、20、或10个筛选的发生接触的宿主细胞或其克隆群中约一个的频率内发生包含成功整合的外源核酸的转化细胞的无标志回收。在更具体的实施方案中，在每9、8、7、6、5、4、3、或2个筛选的发生接触的宿主细胞或其克隆群中约一个的频率内发生包含成功整合的外源核酸的转化细胞的无标志回收。在更具体的实施方案中，该宿主细胞为酵母细胞，而且升高的整合频率来自酵母相对于其它宿主细胞类型升高的同源重组能力。

多种方法可用于在不使用选择标志的情况下鉴定那些在靶位点处或附近具有改变的基因组的细胞。在一些实施方案中，此类方法试图检测靶位点中的任何变化，而且包括但不限于PCR方法、测序方法、核酸酶消化（例如限制性作图）、Southern印迹、及其任何组合。

在另一个方面，本文中提供将多数外源核酸整合入宿主细胞基因组的方法，该方法包括：

(a)使宿主细胞与下述各项接触：

(ii)对于每个所述靶位点(TS)_x，能够在(TS)_x处切割的核酸酶(N)_x，于是所述切割导致(ES)_x在(TS)_x处的同源重组；

并

其中x为1至n的任何整数，其中n为至少2。

图2提供使用多数位点特异性核酸酶同时基因组整合多数外源核酸的一个例示性实施方案。在这个例子中，将三种多核苷酸引入宿主细胞，其中每种多核苷酸包含包含感兴趣核酸(D)_x的外源核酸(ES)_x，其中x=1、2或3。每种(D)_x侧翼为第一同源区(HR1)_x和第二同源区(HR2)_x。(HR1)_x和(HR2)_x分别与基因组中的总共三个独特靶位点的选定靶位点(TS)_x的5’和3’区分享同源性。还将多数位点特异性核酸酶(N)_x引入宿主细胞，其中每种(N)_x能够识别并切割其对应靶位点(TS)_x内的独特序列。在靶位点(TS)_x遭到其对应位点特异性核酸酶(N)_x切割后，内源同源重组机制推动对应感兴趣核酸(D)_x在(TS)_x处的整合。

在具体实施方案中，同时将每种外源核酸(ES)_x（任选包含感兴趣核酸(D)_x）整合入其对应基因组靶位点(TS)_x，即用多数整合多核苷酸和多数核酸酶一次转化宿主细胞。在一些实施方案中，该方法可用于同时整合任何多数外源核酸(ES)_x，就是说，其中x为1至n的任何整数，其中n为至少2，依照关于上文所述方法描述的变量。在一些实施方案中，本文中提供的同时整合方法可用于将多至10种外源核酸(ES)_x同时整合入10个选定靶位点(TS)_x，就是说，其中x为1至n的任何整数，其中n=2、3、4、5、6、7、8、9、或10。在一些实施方案中，本文中提供的同时整合方法可用于将多至20种外源核酸(ES)_x同时整合入20个选定靶位点(TS)_x，就是说，其中x为1至n的任何整数，其中n=2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20。在一些实施方案中，n=2。在一些实施方案中，n=3。在一些实施方案中，n=4。在一些实施方案中，n=5。在一些实施方案中，n=6。在一些实施方案中，n=7。在一些实施方案中，n=8。在一些实施方案中，n=9。在一些实施方案中，n=10。在一些实施方案中，n=11。在一些实施方案中，n=12。在一些实施方案中，n=13。在一些实施方案中，n=14。在一些实施方案中，n=15。在一些实施方案中，n=16。在一些实施方案中，n=17。在一些实施方案中，n=18。在一些实施方案中，n=19。在一些实施方案中，n=20。在一些实施方案中，本文中提供的同时整合方法可用于同时整合超过20种外源核酸。

如同在一个靶位点处整合一种外源核酸一样，以与没有将靶位点与能够诱导双链断裂的核酸酶接触相比实质性更高的频率发生多数外源核酸的同时多重整合。在一些实施方案中，在多数外源核酸在多个基因座处同时整合期间（即在多种核酸酶存在下），任何一个基因座处的整合频率与在一个整合事件期间（即在一种核酸酶存在下）相同基因组处的整合频率相比实质性更高。下文实施例6（7.5.2节）中证明了此类优点。不受理论限制，认为在多数靶位点处创建双链断裂（DSB）的多种核酸酶的存在和活性富集通过在切割位点处整合供体DNA来成功修复DSB的转化子，和/或针对不能修复DSB的转化子进行选择。由于DSB对细胞有毒，因此认为升高的核酸酶数目导致更多DSB，而且相应地富集能够经由HR介导的供体DNA整合来修复DSB的细胞。

在一些实施方案中，这种升高的整合频率消除为了鉴定多数重组事件共整合一种或多种选择标志的要求。在一些实施方案中，在每1000、900、800、700、600、500、400、300、200或100个筛选的发生接触的宿主细胞或其克隆群中约一个的频率内发生包含多数成功整合的外源核酸的转化细胞的无标志回收。在具体实施方案中，在每90、80、70、60、50、40、30、20、或10个筛选的发生接触的宿主细胞或其克隆群中约一个的频率内发生无标志回收。在更具体的实施方案中，在每9、8、7、6、5、4、3、或2个筛选的发生接触的宿主细胞或其克隆群中约一个的频率内发生无标志回收。在更具体的实施方案中，该宿主细胞为酵母细胞，而且升高的整合频率来自酵母相对于其它宿主细胞类型升高的同源重组能力。

6.2.1.用于代谢途径工程的方法

本文所述方法和组合物为构建包含经过优化的生物合成途径（例如朝向将生物质转化成生物燃料、药物或生物材料）的重组生物体提供特殊优点。已经在微生物宿主中成功构建了功能性非天然生物学途径来生产抗疟疾药物青蒿素(artemisinin)的前体（参见例如Martin et al.,Nat Biotechnol21:796-802(2003)）；脂肪酸衍生的燃料和化学品（例如脂肪酯、脂肪醇和蜡（参见例如Steen et al.,Nature463:559-562(2010)）；甲基卤化物衍生的燃料和化学品（参见例如Bayer et al.,J Am Chem Soc131:6508-6515(2009)）；生成降胆固醇药物的聚酮化合物合酶（参见例如Ma et al.,Science326:589-592(2009)）；和聚酮化合物（参见例如Kodumal,Proc Natl Acad Sci USA101:15573-15578(2004)）。

传统上，以一次一个的连续方式进行代谢工程（特别是构建生物合成途径），由此一次在一个基因座处将途径成分引入（即整合入）宿主细胞基因组。本文中提供的整合方法可用于缩短工程化改造宿主细胞（例如微生物细胞）以包含编码新代谢途径（即该代谢途径生成宿主细胞内源不生成的代谢物）的酶的一种或多种异源核苷酸序列通常需要的时间。在其它具体实施方案中，本文中提供的整合方法可用于有效工程化改造宿主细胞以包含编码宿主细胞内源代谢途径（即该代谢途径生成宿主细胞内源生成的代谢物）的酶的一种或多种异源核苷酸序列。在一个例子中，设计策略可试图用互补外源途径替换宿主细胞的三种天然基因。利用现有技术修饰这三个内源基因座要求三次分开的转化。相反，本文中提供的同时多重整合方法使得能够在一次转化中实施所有三处整合，如此将所需工程化改造轮数减少三倍。此外，该方法使得能够将在一种宿主细胞底盘中包含在多个位点处整合的经过优化的途径成分的DNA装配物移植至第二种宿主细胞底盘中的类似位点。通过减少工程化改造期望基因型所需轮数，构建代谢途径的步伐得到实质性加大。

6.2.1.1类异戊二烯途径工程

在一些实施方案中，本文中提供的方法可用于同时引入或替换生物合成途径的一种或多种成分来改变工程化宿主细胞的产物谱。在一些实施方案中，该生物合成途径为类异戊二烯途径。

萜是在许多生物体中生成的一大类碳水化合物。在化学修饰萜时（例如经由碳骨架的氧化或重排），所得化合物一般称作类萜，也称作类异戊二烯。与各种单萜、倍半萜、和二萜一起，类异戊二烯发挥许多重要生物学作用，例如作为电子传递链中的醌、作为膜的成分、在亚细胞打靶和经由蛋白质异戊二烯基化(prenylation)的调节中、作为光合色素（包括类胡萝卜素，叶绿素）、作为激素和辅因子、及作为植物防御化合物。它们在工业上可用作抗生素、激素、抗癌药、杀虫剂、和化学品。

萜通过连接异戊二烯(isoprene)(C₅H₈)单元来衍生，而且通过存在的异戊二烯单元数目来分类。半萜由一个异戊二烯单元组成。认为异戊二烯本身只是半萜。单萜由两个异戊二烯单元生成，而且具有分子式C₁₀H₁₆。单萜的例子是牦牛儿醇、柠檬烯(limonene)、和萜品醇。倍半萜由三个异戊二烯单元构成，而且具有分子式C₁₅H₂₄。倍半萜的例子是法呢烯和法呢醇。二萜由四个异戊二烯单元生成，而且具有分子式C₂₀H₃₂。二萜的例子是咖啡醇、咖啡豆醇、西柏烯(cembrene)、和紫杉二烯(taxadiene)。二倍半萜由五个异戊二烯单元生成，而且具有分子式C₂₅H₄₀。二倍半萜的一个例子是牦牛儿基法呢醇。三萜由六个异戊二烯单元组成，而且具有分子式C₃₀H₄₈。四萜由八个异戊二烯单元组成，而且具有分子式C₄₀H₆₄。生物学重要的四萜包括无环番茄红素、单环γ-胡萝卜素、和双环α-和β-胡萝卜素。多萜由许多异戊二烯单元的长链组成。天然橡胶由其中的双键为顺式的聚异戊二烯组成。

萜经由异戊烯基焦磷酸（异戊烯基二磷酸或IPP）和它的异构体二甲基烯丙基焦磷酸（二甲基烯丙基二磷酸或DMAPP）的缩合而生物合成。已知两种途径生成IPP和DMAPP，即真核生物的甲羟戊酸依赖性（MEV）途径（图3）和原核生物的甲羟戊酸不依赖性或脱氧木酮糖-5-磷酸（DXP）途径。植物使用MEV途径和DXP途径二者。IPP和DMAPP继而经由异戊二烯基(prenyl)二磷酸合酶（例如分别为GPP合酶、FPP合酶、和GGPP合酶）的作用缩合成聚异戊二烯基二磷酸（例如牦牛儿基二磷酸或GPP、法呢基二磷酸或FPP、和牦牛儿基牦牛儿基二磷酸或GGPP）。由萜合酶将聚异戊二烯基二磷酸中间体转变成更加复杂的类异戊二烯结构。

萜合酶组织成形成多种产物的大型基因家族。萜合酶的例子包括将GPP转变成单萜的单萜合酶；将GGPP转变成二萜的二萜合酶；和将FPP转变成倍半萜的倍半萜合酶。倍半萜合酶的一个例子是将FPP转变成法呢烯的法呢烯合酶。萜合酶在调节通向类异戊二烯的途径流量中是重要的，因为它们在代谢分支点处运转且规定由细胞生成的类异戊二烯的类型。此外，萜合酶掌握着此类萜高产量生成的钥匙。因此，改进为异源类异戊二烯生成进行工程化改造的宿主中的途径流量的一种策略是引入编码萜合酶的核酸的多个拷贝。例如，在期望生成倍半萜（诸如法呢烯）的情况下工程化改造包含MEV途径的微生物时，利用倍半萜合酶（例如法呢烯合酶）作为途径的终结酶，而且可以将法呢烯合酶基因的多个拷贝引入宿主细胞，朝向生成为法呢烯生成经过优化的株。

因为任何类异戊二烯的生物合成依赖于异戊二烯基二磷酸合酶和萜合酶上游的相同途径成分，所以一旦工程化改造入宿主“平台”株，就能朝向生成任何倍半萜利用这些途径成分，而且能由引入宿主细胞的具体倍半萜合酶规定倍半萜的身份。此外，在期望生成具有不同异戊二烯单元的萜的情况中，例如单萜代替倍半萜，可以替换异戊二烯基二磷酸合酶和萜合酶二者以生成不同萜，同时仍利用途径的上游成分。

因而，本文中提供的方法和组合物可用于有效修饰包含类异戊二烯生成途径（例如MEV途径）的宿主细胞以生成期望的类异戊二烯。在一些实施方案中，宿主细胞包含MEV途径，而且本文中提供的同时多重整合方法可用于同时引入异戊二烯基二磷酸合酶和/或萜合酶的多个拷贝以限定宿主细胞的萜产物谱。在一些实施方案中，异戊二烯基二磷酸合酶是GPP合酶且萜合酶是单萜合酶。在一些实施方案中，异戊二烯基二磷酸合酶是FPP合酶且萜合酶是倍半萜合酶。在一些实施方案中，异戊二烯基二磷酸合酶是GGPP合酶且萜合酶是二萜合酶。在其它实施方案中，宿主细胞包含MEV途径和用于生成第一种类型的萜（例如法呢烯）的异戊二烯基二磷酸合酶和/或萜合酶，而且本文中提供的同时多重整合方法可用于同时替换异戊二烯基二磷酸合酶和/或萜合酶的一个或多个拷贝，以生成第二种类型的萜（例如紫穗槐双烯）。这些实施方案在下文实施例3和4中例示。可以朝向构建和/或修饰利用途径成分的多个拷贝的任何生物合成途径类似地利用本文中提供的方法，特别是可用于工程化改造能凭借添加或交换一种途径成分的多个拷贝而容易修饰产物谱的宿主细胞。

6.2.1.2生成组合整合文库的方法

一旦构建了生物合成途径，需要协调所有成分的表达水平以优化代谢流量和实现高产物滴度。优化流量的常用办法包括改变途径成分基因的身份、基因的密码子优化、使用溶解标签、使用截短或已知突变、及基因的表达背景（即启动子和终止子选择）。抽验使用传统方法构建株的过程中的这种可变性要求生成并存档数目多得无法实施的株。例如，如果株工程师计划在三个基因座处整合构建物，而且对每个基因座设计10种变体，那么会需要生成1,000种株以完全抽验组合多样性。由于各途径基因协调起作用，而且并非能容易地筛选所有代谢物中间体，因此常常不可能在每个整合周期后评估途径基因的个体贡献。如此，株工程师常规做出的选择严重限制了他们在构建新代谢途径时抽验的设计空间。

为了更好地鉴定最佳途径设计，本文中提供的基因组修饰方法可用于生成包含理性设计的整合构建物的组合文库的株。该方法依赖于将一种或多种核酸酶和一种或多种供体DNA装配物引入细胞以推动供体DNA在基因组中规定位置处的多重同时整合。然而，为了生成工程株的多样性，该方法包括对每个靶定基因座共转化供体DNA的文库（即整合构建物的混合物），使得能生成宿主株的组合整合文库（图4）。实现的多重整合的高频率意味着能在没有广泛基因组质量控制的情况下直接对所得株合理筛选产物，及能在筛选后确定头等株的身份（例如通过测序）。这种方法消除了个别株生成、质量控制和归档的负担，而且容许工程师在一个管中生成多样整合组合，并通过筛选分选出性能最好的株（例如对于途径的终产物）。

如此，在一些实施方案中，本文中提供的用于将多数外源核酸整合入宿主细胞基因组的方法包括：

(a)使宿主细胞与下述各项接触：

(i)多数文库，其中每个文库(L)_x包含多数外源核酸，其中选定外源核酸以5’至3’取向包含第一同源区(HR1)_x、选自组(D)_x的任何感兴趣核酸、和第二同源区(HR2)_x，其中(HR1)_x和(HR2)_x能够启动所述选定外源核酸在所述宿主细胞基因组的靶位点(TS)_x处由宿主细胞介导的同源重组；和

(ii)对于每个所述靶位点(TS)_x，能够在(TS)_x处切割的核酸酶(N)_x，于是所述切割导致所述选定外源核酸在(TS)_x处的同源重组；

并

(b)回收宿主细胞，其中来自每个文库(L)_x的外源核酸已经在每个选定靶序列(TS)_x处整合，

其中x为1至n的任何整数其中n为至少2。

图4中提供这种方法的示意图。

本文中还提供宿主细胞，其包含：

(a)多数文库，其中每个文库(L)_x包含多数外源核酸，其中选定外源核酸以5’至3’取向包含第一同源区(HR1)_x、选自组(D)_x的任何感兴趣核酸、和第二同源区(HR2)_x，其中(HR1)_x和(HR2)_x能够启动所述选定外源核酸在所述宿主细胞基因组的靶位点(TS)_x处由宿主细胞介导的同源重组；和

(b)对于每个所述靶位点(TS)_x，能够在(TS)_x处切割的核酸酶(N)_x，于是所述切割导致所述选定外源核酸在(TS)_x处的同源重组，

其中x为1至n的任何整数，其中n为至少2。

在一些实施方案中，每个文库(L)_x包含编码共同生物合成途径的酶的外源核酸。在一些实施方案中，组(D)_x包含至少10¹、10²、10³、10⁴、10⁵、10⁶、或超过10⁶种独特感兴趣核酸。在一些实施方案中，每个文库(L)_x包含编码生物合成途径的酶的变体的多数外源核酸。如本文中使用的，术语“变体”指生物合成途径中与选定酶相比具有不同核苷酸或氨基酸序列的酶。例如，在一些实施方案中，文库(L)_x包含倍半萜合酶变体，而且与选定倍半萜合酶的野生型型式相比，该倍半萜合酶变体可包含可导致或不导致相应氨基酸序列改变的核苷酸添加、删除、和/或替代。在其它实施方案中，该酶变体相对于参照酶（例如野生型型式）包含氨基酸添加、删除和/或替代。

在一些实施方案中，在所述接触之前，该宿主细胞包含编码生物合成途径的一种或多种酶的一种或多种异源核苷酸序列。在一些实施方案中，该编码生物合成途径的一种或多种酶的一种或多种异源核苷酸序列是基因组整合的。

6.3整合多核苷酸

有利的是，整合多核苷酸（即供体DNA）推动一种或多种外源核酸构建物整合入宿主细胞基因组的选定靶位点。在优选实施方案中，整合多核苷酸包含外源核酸(ES)_x，该外源核酸(ES)_x包含第一同源区(HR1)_x和第二同源区(HR2)_x，和任选的位于(HR1)_x和(HR2)_x之间的感兴趣核酸。在一些实施方案中，整合多核苷酸是线性DNA分子。在其它实施方案中，整合多核苷酸是环状DNA分子。

可以通过对于本领域技术人员显而易见的任何技术来生成整合多核苷酸。在某些实施方案中，使用本领域公知的聚合酶链式反应（PCR）和分子克隆技术来生成整合多核苷酸。参见例如PCR Technology:Principles and Applications for DNA Amplification,ed.HA Erlich,Stockton Press,New York,N.Y.(1989)；Sambrook et al.,2001,Molecular Cloning–A Laboratory Manual,3^rd edition,Cold Spring HarborLaboratory,Cold Spring Harbor,NY；PCR Technology:Principles and Applicationsfor DNA Amplification,ed.HA Erlich,Stockton Press,New York,N.Y.(1989)；美国专利No.8,110,360。

6.3.1.基因组整合序列

在优选实施方案中，整合多核苷酸包含外源核酸(ES)_x，该外源核酸(ES)_x包含第一同源区(HR1)_x和第二同源区(HR2)_x，其中(HR1)_x和(HR2)_x能够启动宿主细胞基因组内的选定靶位点(TS)_x处由宿主细胞介导的同源重组。为了通过同源重组将外源核酸整合入基因组，整合多核苷酸优选在一端包含(HR1)_x且在另一端包含(HR2)_x。在一些实施方案中，(HR1)_x与选定基因组靶位点(TS)_x的5’区同源，且(HR2)_x与选定靶位点(TS)_x的3’区同源。在一些实施方案中，(HR1)_x与选定基因组靶位点(TS)_x的5’区约70%、75%、80%、85%、90%、95%或100%同源。在一些实施方案中，(HR2)_x与选定靶位点(TS)_x的3’区约70%、75%、80%、85%、90%、95%或100%同源。

在某些实施方案中，(HR1)_x位于感兴趣核酸(D)_x的5’。在一些实施方案中，(HR1)_x紧挨着位于(D)_x的5’端。在一些实施方案中，(HR1)_x位于(D)_x5’的上游。在某些实施方案中，(HR2)_x位于感兴趣核酸(D)_x的3’。在一些实施方案中，(HR2)_x紧挨着位于(D)_x的3’端。在一些实施方案中，(HR2)_x位于(D)_x3’的下游。

可能影响整合多核苷酸在特定基因组基因座处整合的特性包括但不限于：基因组整合序列的长度，可切除核酸构建物的整体长度，和基因组整合基因座的核苷酸序列或位置。例如，宿主细胞基因组中特定基因座的一条链和基因组整合序列的一条链之间的有效异源双联体形成可能依赖于基因组整合序列的程度。基因组整合序列的长度的有效范围为50至5,000个核苷酸。关于基因组整合序列和基因组基因座之间同源性的有效长度的讨论参见Hasty et al.,Mol Cell Biol11:5586-91(1991)。

在一些实施方案中，(HR1)_x和(HR2)_x可包含长度和序列同一性足以容许外源核酸(ES)_x在任何酵母基因组基因座处基因组整合的任何核苷酸序列。在某些实施方案中，(HR1)_x和(HR2)_x中每种独立地由约50至5,000个核苷酸组成。在某些实施方案中，(HR1)_x和(HR2)_x中每种独立地由约100至2,500个核苷酸组成。在某些实施方案中，(HR1)_x和(HR2)_x中每种独立地由约100至1,000个核苷酸组成。在某些实施方案中，(HR1)_x和(HR2)_x中每种独立地由约250至750个核苷酸组成。在某些实施方案中，(HR1)_x和(HR2)_x中每种独立地由约100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3100、3200、3300、3400、3500、3600、3700、3800、3900、4000、4100、4200、4300、4400、4500、4600、4700、4800、4900或5,000个核苷酸组成。在一些实施方案中，(HR1)_x和(HR2)_x中每种独立地由约500个核苷酸组成。

6.3.2.感兴趣核酸

在一些实施方案中，整合多核苷酸进一步包含感兴趣核酸(D)_x。感兴趣核酸可以是本领域技术人员认为有用的任何DNA区段。例如，DNA区段可包含可“敲入”宿主基因组的感兴趣基因。在其它实施方案中，DNA区段发挥“敲除”构建物的功能，即在构建物整合入宿主细胞基因组的靶位点后能够特异性破坏靶基因，由此使得遭到破坏的基因无功能。感兴趣核酸(D)_x的有用例子包括但不限于：蛋白质编码序列，报告基因，荧光标志编码序列，启动子，增强子，终止子，转录激活物，转录阻抑物，转录激活物结合位点，转录阻抑物结合位点，内含子，外显子，poly-A尾，多克隆位点，核定位信号，mRNA稳定化信号，整合基因座，表位标签编码序列，降解信号，或任何其它天然存在或合成DNA分子。在一些实施方案中，(D)_x可以是天然起源的。或者，(D)_x可以完全是合成起源的，体外生成的。而且，(D)_x可包含分离的天然存在DNA分子的任何组合，或分离的天然存在DNA分子和合成DNA分子的任何组合。例如，(D)_x可包含可操作连接蛋白质编码序列的异源启动子、连接至poly-A尾的蛋白质编码序列、以符合读码框的方式连接表位标签编码序列的蛋白质编码序列、等等。可通过本领域已知的标准规程自克隆的DNA（例如DNA“文库”），通过化学合成、通过cDNA克隆、或通过克隆基因组DNA或其片段、自期望的细胞纯化、或通过PCR扩增和克隆来获得感兴趣核酸(D)_x。参见例如Sambrook et al.,Molecular Cloning,A Laboratory Manual,3d.ed.,ColdSpring Harbor Laboratory Press,Cold Spring Harbor,New York(2001)；Glover,D.M.(ed.),DNA Cloning:A Practical Approach,2d.ed.,MRL Press,Ltd.,Oxford,U.K.(1995)。

在具体实施方案中，感兴趣核酸(D)_x不包含编码选择标志的核酸。在这些实施方案中，由本文所述方法提供的高效率的整合容许在不要求转化细胞在选择培养基上生长的情况下筛选和鉴定整合事件。然而，在仍然期望在选择性培养基上生长的其它实施方案中，感兴趣核酸(D)_x可包含可用于选择外源核酸进入宿主基因组的整合的选择标志。

本领域知道极其多种选择标志（参见例如Kaufinan,Meth.Enzymol.,185:487(1990)；Kaufman,Meth.Enzymol.,185:537(1990)；Srivastava and Schlessinger,Gene,103:53(1991)；Romanos et al.,in DNA Cloning2:Expression Systems,2nd Edition,pages123-167(IRL Press1995)；Markie,Methods Mol.Biol.,54:359(1996)；Pfeifer etal.,Gene,188:183(1997)；Tucker and Burke,Gene,199:25(1997)；Hashida-Okado etal.,FEBS Letters,425:117(1998)）。在一些实施方案中，选择标志是药物抗性标志。药物抗性标志使得细胞能够解毒原本会杀死细胞的外源药物。药物抗性标志的例示性例子包括但不限于那些赋予针对抗生素（诸如氨苄青霉素、四环素、卡那霉素、博来霉素、链霉素、潮霉素、新霉素、Zeocin^TM、等等）的抗性的。在其它实施方案中，选择标志是营养缺陷标志。营养缺陷标志容许细胞在缺少某种必需成分的培养基上生长时合成该必需成分（通常是氨基酸）。可选择营养缺陷基因序列包括例如hisD，其容许在组氨醇存在下在不含组氨酸的培养基中生长。其它选择标志包括博来霉素抗性基因、金属硫蛋白基因、潮霉素B磷酸转移酶基因、AURI基因、腺苷脱氨酶基因、氨基糖苷磷酸转移酶基因、二氢叶酸还原酶基因、胸苷激酶基因、黄嘌呤-鸟嘌呤磷酸核糖转移酶基因、等等。在其它实施方案中，选择标志是除挽救营养缺陷突变的标志以外的标志。例如，宿主细胞株可包含除营养缺陷突变以外的突变，例如对宿主不致死且对株的预定用途（例如工业发酵）也不引起不利影响的突变，只要该突变可通过已知选择方法来鉴定。

也可以通过选择展现由个别DNA区段或由DNA区段组合编码的其它性状（例如发射光的肽的表达）的宿主细胞转化子或通过个别宿主细胞集落的分子分析（例如通过限制酶作图、PCR扩增、或分离的装配多核苷酸或染色体整合位点的序列分析）来鉴定包含染色体整合的多核苷酸的宿主细胞转化子。

6.4核酸酶

在本文所述方法的一些实施方案中，使宿主细胞基因组与一种或多种能够在选定靶位点内的指定区域处切割（即引起双链断裂）的核酸酶接触。在一些实施方案中，双链断裂诱导剂是任何识别和/或结合特定多核苷酸识别序列以在识别序列处或附近生成断裂的药剂。双链断裂诱导剂的例子包括但不限于内切核酸酶、位点特异性重组酶、转座酶、拓扑异构酶、和锌指核酸酶，而且包括其经修饰衍生物、变体、和片段。

在一些实施方案中，一种或多种核酸酶中每种均能够在选定靶位点(TS)_x内的指定区域处引起双链断裂。在一些实施方案中，核酸酶能够在位于分别与(HR1)_x和(HR2)_x分享同源性的(TS)_x5’和3’区之间的区域处引起双链断裂。在其它实施方案中，核酸酶能够在位于(TS)_x5’和3’区的上游或下游的区域处引起双链断裂。

识别序列指双链断裂诱导剂特异性识别和/或结合的任何多核苷酸序列。识别位点序列的长度可以变化，而且包括例如长度为至少10、12、14、16、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70或更多个核苷酸的序列。

在一些实施方案中，识别序列是回文的，就是说，一条链上的序列与互补链上的相反方向读起来相同。在一些实施方案中，缺刻/切割位点在识别序列内部。在其它实施方案中，缺刻/切割位点在识别序列以外。在一些实施方案中，切割产生平末端。在其它实施方案中，切割生成单链悬垂，即“粘端”，它可以是5'悬垂或者是3'悬垂。

在一些实施方案中，选定靶位点内的识别序列对于宿主细胞基因组可以是内源或外源的。当识别位点是内源序列时，它可以是受到天然存在或天然双链断裂诱导剂识别的识别序列。或者，内源识别位点可以受到设计或选择成特异性识别内源识别序列以生成双链断裂的经过修饰或工程化改造的双链断裂诱导剂识别和/或结合。在一些实施方案中，经过修饰的双链断裂诱导剂衍生自天然、天然存在双链断裂诱导剂。在其它实施方案中，经过修饰的双链断裂诱导剂是人工创建或合成的。用于选择此类经过修饰或工程化改造的双链断裂诱导剂的方法是本领域已知的。例如，可以通过DNA中的突变来制备蛋白质的氨基酸序列变体。用于诱变和核苷酸序列改变的方法包括例如Kunkel,(1985)Proc Natl Acad SciUSA82:488-92；Kunkel,et al.,(1987)Meth Enzymol154:367-82；美国专利No.4,873,192；Walker and Gaastra,eds.(1983)Techniques in Molecular Biology(MacMillanPublishing Company,New York)及其中引用的参考文献。关于不大可能影响蛋白质的生物学活性的氨基酸替代的指导可参见例如Dayhoff,et al.,(1978)Atlas of ProteinSequence and Structure(Natl Biomed Res Found,Washington,D.C.)中的模型。保守替代（诸如将一种氨基酸用另一种具有相似特性的氨基酸交换）可能是优选的。预期保守删除、插入、和氨基酸替代不产生蛋白质的特征的根本变化，而且可以通过常规筛选测定法来评估任何替代、删除、插入、或其组合的影响。针对双链断裂诱导活性的测定法是已知的，而且一般测量药剂对包含识别位点的DNA底物的总体活性和特异性。

在本文中提供的方法的一些实施方案中，一种或多种核酸酶是内切核酸酶。内切核酸酶指切割多核苷酸链内的磷酸二酯键的酶，而且包括在不损害碱基的情况下在特定位点处切割DNA的限制性内切核酸酶。限制性内切核酸酶包括I型、II型、III型、和IV型内切核酸酶，它们进一步包括亚型。限制性内切核酸酶的进一步描述和分类见例如REBASE数据库（rebase.neb.com处的网页；Roberts,et al.,(2003)Nucleic Acids Res31:418-20；Roberts,et al.,(2003)Nucleic Acids Res31:1805-12；及Belfort,et al.,(2002)inMobile DNA II,pp.761-783,Eds.Craigie,et al.,ASM Press,Washington,D.C.）。

如本文中使用的，内切核酸酶还包括归巢内切核酸酶，它们像限制性内切核酸酶一样在特定识别序列处结合并切割。然而，归巢内切核酸酶的识别位点通常更长，例如约18bp或更多。归巢内切核酸酶（也称作大范围核酸酶）已经基于保守序列基序分类成下述家族：LAGLIDADG（SEQ ID NO:50）归巢内切核酸酶，HNH归巢内切核酸酶，His-Cys框归巢内切核酸酶，GIY-YIG（SEQ ID NO:51）归巢内切核酸酶，和蓝细菌归巢内切核酸酶。参见例如Stoddard,Quarterly Review of Biophysics38(1):49-95(2006)。这些家族在它们的保守核酸酶活性位点核心基序和催化机制、生物学和基因组分布、及与非归巢核酸酶系统的更宽相关性方面差异巨大。参见例如Guhan and Muniyappa(2003)Crit Rev Biochem MolBiol38:199-248；Lucas,et al.,(2001)Nucleic Acids Res29:960-9；Jurica andStoddard,(1999)Cell Mol Life Sci55:1304-26；Stoddard,(2006)Q Rev Biophys38:49-95；及Moure,et al.,(2002)Nat Struct Biol9:764。来自这些家族的有用的具体归巢内切核酸酶的例子包括但不限于：I-CreI（参见Rochaix et al.,Nucleic Acids Res.13:975-984(1985)），I-MsoI（参见Lucas et al.,Nucleic Acids Res.29:960-969(2001)），I-SceI（参见Foury et al.,FEBS Lett.440:325-331(1998)），I-SceIV（参见Moran et al.,Nucleic Acids Res.20:4069-4076(1992)），H-DreI（参见Chevalier et al.,Mol.Cell10:895-905(2002)），I-HmuI（参见Goodrich-Blair et al.,Cell63:417-424(1990)；Goodrich-Blair et al.,Cell84:211-221(1996)），I-PpoI（参见Muscarella et al.,Mol.Cell.Biol.10:3386-3396(1990)），I-DirI（参见Johansen et al.,Cell76:725-734(1994)；Johansen,Nucleic Acids Res.21:4405(1993)），I-NjaI（参见Elde et al.,Eur.J.Biochem.259:281-288(1999)；De Jonckheere et al.,J.Eukaryot.Microbiol.41:457-463(1994)），I-NanI（参见Elde et al.,S.Eur.J.Biochem.259:281-288(1999)；DeJonckheere et al.,J.Eukaryot.Microbiol.41:457-463(1994)），I-NitI（参见DeJonckheere et al.,J.Eukaryot.Microbiol.41:457-463(1994)；Elde et al.,Eur.J.Biochem.259:281-288(1999)），I-TevI（参见Chu et al.,Cell45:157-166(1986)），I-TevII（参见Tomaschewski et al.,Nucleic Acids Res.15:3632-3633(1987)），I-TevIII（参见Eddy et al.,Genes Dev.5:1032-1041(1991)），F-TevI（参见Fujisawa etal.,Nucleic Acids Res.13:7473-7481(1985)），F-TevII（参见Kadyrov et al.,Dokl.Biochem.339:145-147(1994)；Kaliman,Nucleic Acids Res.18:4277(1990)），F-CphI（参见Zeng et al.,Curr.Biol.19:218-222(2009)），PI-MgaI（参见Saves et al.,Nucleic Acids Res.29:4310-4318(2001)），I-CsmI（参见Colleaux et al.,Mol.Gen.Genet.223:288-296(1990)），I-CeuI（参见Turmel et al.,J.Mol.Biol.218:293-311(1991)）和PI-SceI（参见Hirata et al.,J.Biol.Chem.265:6726-6733(1990)）。

在本文所述方法的一些实施方案中，使用归巢内切核酸酶的天然存在变体，和/或工程化改造衍生物。用于改变动力学、辅因子相互作用、表达、最佳条件、和/或识别位点特异性，及筛选活性的方法是已知的。参见例如Epinat,et al.,(2003)Nucleic AcidsRes31:2952-62；Chevalier,et al.,(2002)Mol Cell10:895-905；Gimble,et al.,(2003)Mol Biol334:993-1008；Seligman,et al.,(2002)Nucleic Acids Res30:3870-9；Sussman,et al.,(2004)J Mol Biol342:31-41；Rosen,et al.,(2006)Nucleic AcidsRes34:4791-800；Chames,et al.,(2005)Nucleic Acids Res33:e178；Smith,et al.,(2006)Nucleic Acids Res34:e149；Gruen,et al.,(2002)Nucleic Acids Res30:e29；Chen and Zhao,(2005)Nucleic Acids Res33:e154；WO2005105989；WO2003078619；WO2006097854；WO2006097853；WO2006097784；及WO2004031346。有用的归巢内切核酸酶还包括那些记载于WO04/067736；WO04/067753；WO06/097784；WO06/097853；WO06/097854；WO07/034262；WO07/049095；WO07/049156；WO07/057781；WO07/060495；WO08/152524；WO09/001159；WO09/095742；WO09/095793；WO10/001189；WO10/015899；及WO10/046786的。

任何归巢内切核酸酶可用作双链断裂诱导剂，包括但不限于：H-DreI，I-SceI，I-SceII，I-SceIII，I-SceIV，I-SceV，I-SceVI，I-SceVII，I-CeuI，I-CeuAIIP，I-CreI，I-CrepsbIP，I-CrepsbIIP，I-CrepsbIIIP，I-CrepsbIVP，I-TliI，I-PpoI，Pi-PspI，F-SceI，F-SceII，F-SuvI，F-CphI，F-TevI，F-TevII，I-AmaI，I-AniI，I-ChuI，I-CmoeI，I-CpaI，I-CpaII，I-CsmI，I-CvuI，I-CvuAIP，I-DdiI，I-DdiII，I-DirI，I-DmoI，I-HmuI，I-HmuII，I-HsNIP，I-LlaI，I-MsoI，I-NaaI，I-NanI，I-NclIP，I-NgrIP，I-NitI，I-NjaI，I-Nsp236IP，I-PakI，I-PboIP，I-PcuIP，I-PcuAI，I-PcuVI，I-PgrIP，I-PobIP，I-PorI，I-PorIIP，I-PbpIP，I-SpBetaIP，I-ScaI，I-SexIP，I-SneIP，I-SpomI，I-SpomCP，I-SpomIP，I-SpomIIP，I-SquIP，I-Ssp68031，I-SthPhiJP，I-SthPhiST3P，I-SthPhiSTe3bP，I-TdeIP，I-TevI，I-TevII，I-TevIII，I-UarAP，I-UarHGPAIP，I-UarHGPA13P，I-VinIP，I-ZbiIP，PI-MgaI，PI-MtuI，PI-MtuHIP，PI-MtuHIIP，PI-PfuI，PI-PfuII，PI-PkoI，PI-PkoII，PI-Rma43812IP，PI-SpBetaIP，PI-SceI，PI-TfuI，PI-TfuII，PI-ThyI，PI-TliI，或PI-TliII，或其任何变体或衍生物。

在一些实施方案中，内切核酸酶结合天然或内源识别序列。在其它实施方案中，内切核酸酶是结合非天然或外源识别序列且不结合天然或内源识别序列的经修饰内切核酸酶。

在本文中提供的方法的一些实施方案中，一种或多种核酸酶是TAL效应器DNA结合域-核酸酶融合蛋白（TALEN）。通过结合宿主DNA并激活效应器特异性宿主基因，黄单胞菌(Xanthomonas)属的植物致病性细菌的TAL效应器在疾病中发挥重要作用，或触发防御。参见例如Gu et al.(2005)Nature435:1122-5；Yang et al.,(2006)Proc.Natl.Acad.Sci.USA103:10503-8；Kay et al.,(2007)Science318:648-51；Sugio etal.,(2007)Proc.Natl.Acad.Sci.USA104:10720-5；Romer et al.,(2007)Science318:645-8；Boch et al.,(2009)Science326(5959):1509-12；及Moscou and Bogdanove,(2009)326(5959):1501。TAL效应器包含经由一个或多个串联重复域以序列特异性方式与DNA相互作用的DNA结合域。重复序列通常包含34个氨基酸，而且重复通常彼此91-100%同源。重复的多态性通常位于第12和13位，而且第12和13位处的重复可变二残基的身份与TAL效应器的靶序列中的连续核苷酸的身份之间似乎有一一对应性。

可以工程化改造TAL效应器DNA结合域以结合期望靶序列，并融合至核酸酶域，例如来自II型限制性内切核酸酶的，通常是来自II型限制性内切核酸酶（诸如FokI）的非特异性切割域（参见例如Kim et al.(1996)Proc.Natl.Acad.Sci.USA93:1156-1160）。其它有用的内切核酸酶可包括例如HhaI、HindIII、Nod、BbvCI、EcoRI、BglI、和AlwI。如此，在优选实施方案中，TALEN包含TAL效应器域，其包含多数TAL效应器重复序列，它们在组合时结合靶DNA序列中的特定核苷酸序列，使得TALEN切割特定核苷酸序列内或附近的靶DNA。可用于本文中提供的方法的TALEN包括那些记载于WO10/079430和美国专利申请公开No.2011/0145940的。

在一些实施方案中，结合靶DNA内的特定核苷酸序列的TAL效应器域可包含10或更多个DNA结合重复，优选15或更多个DNA结合重复。在一些实施方案中，每个DNA结合重复包含重复可变二残基（RVD），其决定对靶DNA序列中一个碱基对的识别，其中每个DNA结合重复负责识别靶DNA序列中的一个碱基对，且其中RVD包含下述一种或多种：识别C的HD；识别T的NG；识别A的NI；识别G或A的NN；识别A或C或G或T的NS；识别C或T的N*，其中*代表RVD第二位中的缺口；识别T的HG；识别T的H*，其中*代表RVD第二位中的缺口；识别T的IG；识别G的NK；识别C的HA；识别C的ND；识别C的HI；识别G的HN；识别G的NA；识别G或A的SN；和识别T的YG。

在本文中提供的方法的一些实施方案中，一种或多种核酸酶是位点特异性重组酶。位点特异性重组酶（也称作重组酶）指催化它的相容重组位点之间的保守位点特异性重组的多肽，而且包括天然多肽以及衍生物、变体和/或片段（保留活性的），及天然多核苷酸、衍生物、变体、和/或片段（编码保留活性的重组酶的）。关于位点特异性重组酶及它们的识别位点的综述参见Sauer(1994)Curr Op Biotechnol5:521-7；及Sadowski,(1993)FASEB7:760-7。在一些实施方案中，重组酶是丝氨酸重组酶或酪氨酸重组酶。在一些实施方案中，重组酶来自整合酶或解离酶家族。在一些实施方案中，重组酶是选自下组的整合酶：FLP，Cre，λ整合酶，和R。对于整合酶家族的其它成员，参见例如Esposito,et al.,(1997)NucleicAcids Res25:3605-14及Abremski,et al.,(1992)Protein Eng5:87-91。用于改变动力学、辅因子相互作用和要求、表达、最佳条件、和/或识别位点特异性，及筛选重组酶和变体的活性的方法是已知的，参见例如Miller,et al.,(1980)Cell20:721-9；Lange-Gustafson andNash,(1984)J Biol Chem259:12724-32；Christ,et al.,(1998)J Mol Biol288:825-36；Lorbach,et al.,(2000)J Mol Biol296:1175-81；Vergunst,et al.,(2000)Science290:979-82；Dorgai,et al.,(1995)J Mol Biol252:178-88；Dorgai,et al.,(1998)J MolBiol277:1059-70；Yagu,et al.,(1995)J Mol Biol252:163-7；Sclimente,et al.,(2001)Nucleic Acids Res29:5044-51；Santoro and Schultze,(2002)Proc Natl Acad SciUSA99:4185-90；Buchholz and Stewart,(2001)Nat Biotechnol19:1047-52；Voziyanov,et al.,(2002)Nucleic Acids Res30:1656-63；Voziyanov,et al.,(2003)J MolBiol326:65-76；Klippel,et al.,(1988)EMBO J7:3983-9；Arnold,et al.,(1999)EMBOJ18:1407-14；WO03/08045；WO99/25840；及WO99/25841。识别位点的范围从约30个核苷酸最小位点到几百个核苷酸。可以使用重组酶的任何识别位点，包括天然存在位点，和变体。变体识别位点是已知的，参见例如Hoess,et al.,(1986)Nucleic Acids Res14:2287-300；Albert,et al.,(1995)Plant J7:649-59；Thomson,et al.,(2003)Genesis36:162-7；Huang,et al.,(1991)Nucleic Acids Res19:443-8；Siebler and Bode,(1997)Biochemistry36:1740-7；Schlake and Bode,(1994)Biochemistry33:12746-51；Thygarajan,et al.,(2001)Mol Cell Biol21:3926-34；Umlauf and Cox,(1988)EMBO J7:1845-52；Lee and Saito,(1998)Gene216:55-65；WO01/23545；WO99/25821；WO99/25851；WO01/11058；WO01/07572；及美国专利No.5,888,732。

在本文中提供的方法的一些实施方案中，一种或多种核酸酶是转座酶。转座酶指介导转座子从基因组中的一个位置转座至另一个位置的多肽。转座酶通常诱导双链断裂以切除转座子，识别接近末端的重复，及聚集切除的转座子的末端，在一些系统中转座期间聚集末端还要求其它蛋白质。转座子和转座酶的例子包括但不限于来自玉米的Ac/Ds、Dt/rdt、Mu-M1/Mn、和Spm(En)/dSpm元件，来自金鱼草的Tam元件，来自噬菌体的Mu转座子，细菌转座子（Tn）和插入序列（IS），酵母的Ty元件（反转录转座子），来自拟南芥的Ta1元件（反转录转座子），来自果蝇的P元件转座子（Gloor,et al.,(1991)Science253:1110-1117），来自果蝇的Copia、Mariner和Minos元件，来自家蝇的Hermes元件，来自粉纹夜蛾(Trichplusiani)的PiggyBack元件，来自秀丽线虫的Tc1元件，和来自小鼠的IAP元件（反转录转座子）。

在本文中提供的方法的一些实施方案中，一种或多种核酸酶是锌指核酸酶（ZFN）。ZFN指由锌指DNA结合域和双链断裂诱导剂域构成的工程化双链断裂诱导剂。工程化ZFN由两个锌指阵列（ZFA）组成，其中每个融合至非特异性内切核酸酶的一个亚基，诸如在二聚化后变成有活性的FokI酶的核酸酶域。通常，一个ZFA由3或4个锌指域组成，其中每个设计成识别一种特定核苷酸三联体（GGC、GAT、等）。如此，由两个“3指”ZFA构成的ZFN能够识别18个碱基对的靶位点；18个碱基对的识别序列一般是独特的，甚至在大型基因组内，诸如人和植物的基因组。通过引导两个FokI核酸酶单体的共定位和二聚化，ZFN生成在靶定基因座处的DNA中创建双链断裂（DSB）的功能性位点特异性内切核酸酶。

有用的锌指核酸酶包括那些已知的和那些工程化改造成对一个或多个本文所述靶位点(TS)具有特异性的。锌指域适应设计特异性结合选定多核苷酸识别序列（例如在宿主细胞基因组的靶位点内的）的多肽。ZFN由连接至非特异性内切核酸酶域（例如来自IIs型内切核酸酶诸如HO或FokI的核酸酶域）的工程化DNA结合锌指域组成。或者，可以将工程化锌指DNA结合域融合至其它双链断裂诱导剂或其保留DNA刻痕/切割活性的衍生物。例如，可以使用这种类型的融合将双链断裂诱导剂引导至不同靶位点，用以改变缺刻或切割位点的定位、将诱导剂引导至更短的靶位点、或将诱导剂引导至更长的靶位点。在一些例子中，将锌指DNA结合域融合至位点特异性重组酶、转座酶、或其保留DNA刻痕和/或切割活性的衍生物。可以将别的功能性融合至锌指结合域，包括转录激活物域、转录阻抑物域、和甲基化酶。在一些实施方案中，切割活性要求核酸酶域的二聚化。

每个锌指识别靶DNA中的三个连续碱基对。例如，3指域识别9个连续核苷酸的序列，凭借核酸酶的二聚化要求，使用两套锌指三联体来结合18个核苷酸的识别序列。有用的设计者锌指模块包括那些识别各种GNN和ANN三联体的（Dreier,et al.,(2001)J BiolChem276:29466-78；Dreier,et al.,(2000)J Mol Biol303:489-502；Liu,et al.,(2002)JBiol Chem277:3850-6），以及那些识别各种CNN或TNN三联体的（Dreier,et al.,(2005)JBiol Chem280:35588-97；Jamieson,et al.,(2003)Nature Rev Drug Discov2:361-8）。还可参见Durai,et al.,(2005)Nucleic Acids Res33:5978-90；Segal,(2002)Methods26:76-83；Porteus and Carroll,(2005)Nat Biotechnol23:967-73；Pabo,et al.,(2001)AnnRev Biochem70:313-40；Wolfe,et al.,(2000)Ann Rev Biophys Biomol Struct29:183-212；Segal and Barbas,(2001)Curr Opin Biotechnol12:632-7；Segal,et al.,(2003)Biochemistry42:2137-48；Beerli and Barbas,(2002)Nat Biotechnol20:135-41；Carroll,et al.,(2006)Nature Protocols1:1329；Ordiz,et al.,(2002)Proc Natl AcadSci USA99:13290-5；Guan,et al.,(2002)Proc Natl Acad Sci USA99:13296-301；WO2002099084；WO00/42219；WO02/42459；WO2003062455；US20030059767；美国专利申请公开No.2003/0108880；美国专利No.6,140,466、No.6,511,808和No.6,453,242。有用的锌指核酸酶还包括那些记载于WO03/080809；WO05/014791；WO05/084190；WO08/021207；WO09/042186；WO09/054985；及WO10/065123的。

6.5基因组靶位点

在本文中提供的方法中，将能够在基因组靶位点附近或内部引起双链断裂的核酸酶引入宿主细胞，这大大提高切割位点处或附近同源重组的频率。在优选实施方案中，宿主细胞基因组中只在靶位点处存在核酸酶的识别序列，由此使核酸酶的任何脱靶基因组结合和切割最小化。

在一些实施方案中，基因组靶位点对于宿主细胞是内源的，诸如天然基因座。在一些实施方案中，依照本文中提供的整合方法中要利用的核酸酶类型来选择天然基因组靶位点。如果要利用的核酸酶是锌指核酸酶，那么可以使用多种公众可得在线资源来选择最佳靶位点。参见例如Reyon et al.,BMC Genomics12:83(2011)，据此通过述及将其完整收录。例如，寡聚化集合工程（OPEN）是一种高度有力且公众可得的用于工程化改造具有高度特异性和体内功能性的锌指阵列的方案，而且已经成功用于生成在植物、斑马鱼、和人体细胞和多能干细胞中有效发挥功能的ZFN。OPEN是一种基于选择的方法，其中筛选候选ZFA的预先构建随机化集合以鉴定那些对期望靶序列具有高亲和力和特异性的。ZFNGenome是用于鉴定和显现OPEN生成的ZFN的潜在靶位点的一种基于GBrowse的工具。ZFNGenome提供经过测序且附有注解的模式生物体基因组中潜在ZFN靶位点的概要。ZFNGenome当前包括在七种模式生物体完整测序的基因组内作图的总共超过1160万潜在ZFN靶位点；酿酒酵母，莱茵衣藻（C.reinhardtii），拟南芥（A.thaliana），黑腹果蝇（D.melanogaster），斑马鱼（D.rerio），秀丽线虫（C.elegans），和人（H.sapiens）。不远的将来会添加别的模式生物体，包括三种植物物种（Glycine max（大豆）、Oryza sativa（稻）、Zea mays（玉米））和三种动物物种（Tribolium castaneum（红色面象虫）、Mus musculus（小鼠）、Rattus norvegicus（褐色大鼠））。ZFNGenome提供关于每个潜在ZFN靶位点的信息，包括它的染色体定位和相对于转录启动位点的位置。使用者可使用数种不同标准（例如基因ID、转录物ID、靶位点序列）查询ZFNGenome。

如果要利用的核酸酶是TAL效应器核酸酶，那么在一些实施方案中，可以依照Sanjana et al.,Nature Protocols,7:171-192(2012)记载的方法来选择最佳靶位点，据此通过述及将其完整收录。简言之，TALEN作为二聚体发挥功能，而且称作左和右TALEN的一对TALEN靶向DNA相反链上的序列。将TALEN工程化改造为TALE DNA结合域和单体FokI催化域的融合物。为了推动FokI二聚化，选择相距大约14-20个碱基的左和右TALEN靶位点。因此，对于每种靶向20-bp序列的一对TALEN，最佳靶位点应当具有形式5′-TN¹⁹N^14-20N¹⁹A-3′，其中左TALEN靶向5′-TN¹⁹-3′且右TALEN靶向5′-N¹⁹A-3′的反义链（N=A、G、T或C）。

在本文中提供的方法的其它实施方案中，基因组靶位点对于宿主细胞是外源的。例如，可以在实施本文所述整合方法之前使用传统方法（例如基因打靶）将一个或多个基因组靶位点工程化改造入宿主细胞基因组。在一些实施方案中，在不同基因座处将相同靶序列的多个拷贝工程化改造入宿主细胞基因组，由此在只使用一种特异性识别靶序列的核酸酶的情况下推动同时多重整合事件。在其它实施方案中，在不同基因座处将多数不同靶序列工程化改造入宿主细胞基因组。在一些实施方案中，工程化改造的靶位点包含在其它情况中在宿主细胞的天然基因组中不呈现的靶序列。例如，归巢内切核酸酶靶向通常埋置在内含子或内含肽中的较大识别位点（12-40bp），因此，它们的识别位点是极其罕见的，哺乳动物大小的基因组中不存在或只存在少数这些位点。如此，在一些实施方案中，外源基因组靶位点是归巢内切核酸酶的识别序列。在一些实施方案中，归巢核酸酶选自下组：H-DreI，I-SceI，I-SceII，I-SceIII，I-SceIV，I-SceV，I-SceVI，I-SceVII，I-CeuI，I-CeuAIIP，I-CreI，I-CrepsbIP，I-CrepsbIIP，I-CrepsbIIIP，I-CrepsbIVP，I-TliI，I-PpoI，Pi-PspI，F-SceI，F-SceII，F-SuvI，F-CphI，F-TevI，F-TevII，I-AmaI，I-AniI，I-ChuI，I-CmoeI，I-CpaI，I-CpaII，I-CsmI，I-CvuI，I-CvuAIP，I-DdiI，I-DdiII，I-DirI，I-DmoI，I-HmuI，I-HmuII，I-HsNIP，I-LlaI，I-MsoI，I-NaaI，I-NanI，I-NclIP，I-NgrIP，I-NitI，I-NjaI，I-Nsp236IP，I-PakI，I-PboIP，I-PcuIP，I-PcuAI，I-PcuVI，I-PgrIP，I-PobIP，I-PorI，I-PorIIP，I-PbpIP，I-SpBetaIP，I-ScaI，I-SexIP，I-SneIP，I-SpomI，I-SpomCP，I-SpomIP，I-SpomIIP，I-SquIP，I-Ssp68031，I-SthPhiJP，I-SthPhiST3P，I-SthPhiSTe3bP，I-TdeIP，I-TevI，I-TevII，I-TevIII，I-UarAP，I-UarHGPAIP，I-UarHGPA13P，I-VinIP，I-ZbiIP，PI-MgaI，PI-MtuI，PI-MtuHIP，PI-MtuHIIP，PI-PfuI，PI-PfuII，PI-PkoI，PI-PkoII，PI-Rma43812IP，PI-SpBetaIP，PI-SceI，PI-TfuI，PI-TfuII，PI-ThyI，PI-TliI，或PI-TliII，或其任何变体或衍生物。在具体实施方案中，外源基因组靶位点是I-SceI、VDE(PI-SceI)、F-CphI、PI-MgaI或PI-MtuII的识别序列，下文提供了它们中的每种。

表1：用于选择归巢内切核酸酶的识别和切割位点

6.6投递

在一些实施方案中，提供可用于本文所述方法的一种或多种核酸酶，例如作为纯化的蛋白质投递入宿主细胞。在其它实施方案中，经由包含编码核酸酶的核酸的多核苷酸提供一种或多种核酸酶。在其它实施方案中，将一种或多种核酸酶作为能在宿主细胞核中直接翻译的纯化的RNA引入宿主细胞。

在某些实施方案中，可以使用本领域已知的用于将外源蛋白质和/或核酸导入细胞的任何常规技术将如上所述整合多核苷酸、编码核酸酶的多核苷酸、或纯化的核酸酶蛋白质、或其任何组合导入宿主细胞。此类方法包括但不限于细胞自溶液直接摄取分子，或使用例如脂质体或免疫脂质体经由脂转染的易化摄取；由颗粒介导的转染；等。参见例如美国专利No.5,272,065；Goeddel et al.,eds,1990,Methods in Enzymology,vol.185,Academic Press,Inc.,CA；Krieger,1990,Gene Transfer and Expression--ALaboratory Manual,Stockton Press,NY；Sambrook et al.,1989,Molecular Cloning--ALaboratory Manual,Cold Spring Harbor Laboratory,NY；及Ausubel et al.,eds.,Current Edition,Current Protocols in Molecular Biology,Greene PublishingAssociates and Wiley Interscience,NY。用于转化细胞的具体方法是本领域公知的。参见Hinnen et al.,Proc.Natl.Acad.Sci.USA75:1292-3(1978)；Cregg et al.,Mol.Cell.Biol.5:3376-3385(1985)。例示性技术包括但不限于原生质球(spheroplasting)、电穿孔、由PEG1000介导的转化、和由乙酸锂或氯化锂介导的转化。

在一些实施方案中，利用生物射弹将整合多核苷酸、编码核酸酶的多核苷酸、纯化的核酸酶蛋白质、或其任何组合导入宿主细胞，特别是原本使用常规技术难以转化/转染的宿主细胞，诸如植物。生物射弹通过将转化反应结合至微细金颗粒，然后使用压缩气体在靶细胞处推进颗粒来运作。

在一些实施方案中，包含编码核酸酶的核酸的多核苷酸是容许在宿主细胞内表达核酸酶的表达载体。合适的表达载体包括但不限于那些已知用于在大肠杆菌、酵母、或哺乳动物细胞中表达基因的。大肠杆菌表达载体的例子包括但不限于pSCM525、pDIC73、pSCM351、和pSCM353。酵母表达载体的例子包括但不限于pPEX7和pPEX408。合适的表达载体的其它例子包括包含CEN.ARS序列和酵母选择标志的酵母-大肠杆菌pRS系列穿梭载体；和2μ质粒。在一些实施方案中，可以修饰编码核酸酶的多核苷酸，用在宿主细胞中具有与天然存在多核苷酸序列相比更高使用频率的密码子进行替代。例如，可以修饰编码核酸酶的多核苷酸，用在酿酒酵母中具有与天然存在多核苷酸序列相比更高使用频率的密码子进行替代。

在核酸酶作为异二聚体发挥功能的一些实施方案中（要求分开表达每种单体），正如锌指核酸酶和TAL效应器核酸酶的情况，可以自相同表达质粒或自不同质粒表达异二聚体的每种单体。在将多种核酸酶引入细胞以在不同靶位点处实现双链断裂的实施方案中，可以在单一的质粒上或在分开的质粒上编码核酸酶。

在某些实施方案中，核酸酶表达载体进一步包含选择标志，其容许选择包含表达载体的宿主细胞。此类选择会助于将载体在宿主细胞中保留实现足够量核酸酶表达必需的时间段，例如12、24、36、48、60、72、84、96、或超过96个小时的时段，之后可以在不再保留表达载体的条件下培养宿主细胞。在某些实施方案中，选择标志选自下组：URA3，潮霉素B磷酸转移酶，氨基糖苷磷酸转移酶，Zeocin（博来霉素）抗性，和膦丝菌素N-乙酰基转移酶。在一些实施方案中，核酸酶表达载体可包含反选择标志，其容许在整合一种或多种供体核酸分子之后选择不包含表达载体的宿主细胞。使用的核酸酶表达载体也可以是没有选择标志的瞬时载体，或者是不选择的载体。在具体实施方案中，包含瞬时核酸酶表达载体的宿主细胞的后代随时间丢失载体。

在某些实施方案中，表达载体进一步包含可操作连接至编码核酸酶的核苷酸序列的转录终止序列和启动子。在一些实施方案中，启动子是组成性启动子。在一些实施方案中，启动子是诱导型启动子。适合在酵母细胞中使用的启动子的例示性例子包括但不限于乳克鲁维酵母(Kluyveromyces lactis，K.lactis)TEF1基因启动子、酿酒酵母PGK1基因启动子、酿酒酵母TDH3基因启动子、可阻抑启动子（例如酿酒酵母CTR3基因启动子）、和诱导型启动子（例如酿酒酵母半乳糖诱导型启动子（例如GAL1、GAL7、和GAL10基因启动子））。

在一些实施方案中，将包含核定位序列（NLS）的额外核苷酸序列连接至编码核酸酶的核苷酸序列的5’。NLS能推动较大核酸酶（>25kD）的核定位。在一些实施方案中，核定位序列是SV40核定位序列。在一些实施方案中，核定位序列是酵母核定位序列。

可以通过对于本领域技术人员显而易见的任何技术来生成核酸酶表达载体。在某些实施方案中，使用本领域公知的聚合酶链式反应（PCR）和分子克隆技术来生成载体。参见例如PCR Technology:Principles and Applications for DNA Amplification,ed.HAErlich,Stockton Press,New York,N.Y.(1989)；Sambrook et al.,2001,MolecularCloning–A Laboratory Manual,3^rd edition,Cold Spring Harbor Laboratory,ColdSpring Harbor,NY。

6.7宿主细胞

在另一个方面，本文中提供通过本文所述基因组整合一种或多种外源核酸的方法任一生成的经过修饰的宿主细胞。合适的宿主细胞包括任何其中期望感兴趣核酸或“供体DNA”整合入染色体或附加体基因座的细胞。在一些实施方案中，该细胞为具有实施同源重组的能力的生物体的细胞。虽然在酵母（酿酒酵母）中演示了数个例示性实施方案，但是认为可以对所有具有功能性重组系统的生物学生物体实施本文中提供的基因组修饰方法，甚至在重组系统不像酵母那样精通的情况中。具有功能性同源重组系统的其它细胞或细胞类型包括细菌诸如枯草芽孢杆菌(Bacillus subtilis)和大肠杆菌（它精通RecE RecT重组；Muyrers et al.,EMBO rep.1:239-243,2000）；原生动物（例如疟原虫(Plasmodium)、弓形虫(Toxoplasma)）；其它酵母（例如粟酒裂殖酵母(Schizosaccharomyces pombe)）；丝状真菌（例如棉桃阿舒氏囊霉菌(Ashbya gossypii)）；植物，例如苔藓小立碗藓(Physcomitrella patens)（Schaefer and Zryd,Plant J.11:1195-1206,1997）；和动物细胞，诸如哺乳动物细胞和鸡DT40细胞（Dieken et al.,Nat.Genet.12:174-182,1996）。

在一些实施方案中，该宿主细胞为原核细胞。在一些实施方案中，该宿主细胞为真核细胞。在一些实施方案中，该细胞为真菌细胞（例如酵母细胞）、细菌细胞、植物细胞、或动物细胞（例如鸡细胞）。在一些实施方案中，该宿主细胞为哺乳动物细胞。在一些实施方案中，该宿主细胞为中国仓鼠卵巢（CHO）细胞、COS-7细胞、小鼠成纤维细胞、小鼠胚胎癌瘤细胞、或小鼠胚胎干细胞。在一些实施方案中，该宿主细胞为昆虫细胞。在一些实施方案中，该宿主细胞为S2细胞、Schneider细胞、S12细胞、5B1-4细胞、Tn5细胞、或Sf9细胞。在一些实施方案中，该宿主细胞为单细胞真核生物体细胞。

在具体实施方案中，该宿主细胞为酵母细胞。有用的酵母宿主细胞包括已经保藏于微生物保藏机构（例如IFO、ATCC、等）且属于下述属的酵母细胞：Aciculoconidium，Ambrosiozyma，Arthroascus，Arxiozyma，阿舒氏囊霉菌（Ashbya），Babjevia，Bensingtonia，Botryoascus，Botryozyma，酒香酵母（Brettanomyces），布氏弹孢酵母（Bullera），Bulleromyces，假丝酵母（Candida），固囊酵母（Citeromyces），Clavispora，隐球酵母（Cryptococcus），Cystofilobasidium，德巴利酵母（Debaryomyces），德克酵母（Dekkara），Dipodascopsis，双足囊菌（Dipodascus），Eeniella，Endomycopsella，丝囊霉（Eremascus），假囊酵母（Eremothecium），Erythrobasidium，Fellomyces，Filobasidium，Galactomyces，地霉（Geotrichum），Guilliermondella，有孢汉逊酵母（Hanseniaspora），汉逊酵母（Hansenula），Hasegawaea，Holtermannia，Hormoascus，Hyphopichia，伊氏酵母（Issatchenkia），克勒克酵母（Kloeckera），克勒克氏孢（Kloeckeraspora），克鲁维酵母（Kluyveromyces），Kondoa，Kuraishia，Kurtzmanomyces，Leucosporidium，油脂酵母（Lipomyces），Lodderomyces，鳞斑霉（Malassezia），梅奇酵母（Metschnikowia），Mrakia，Myxozyma，拿逊酵母（Nadsonia），Nakazawaea，针孢酵母（Nematospora），Ogataea，卵孢酵母（Oosporidium），Pachysolen，Phachytichospora，Phaffia，毕赤酵母（Pichia），红东孢（Rhodosporidium），红酵母（Rhodotorula），糖酵母（Saccharomyces），类糖酵母（Saccharomycodes），复膜孢糖酵母（Saccharomycopsis），Saitoella，Sakaguchia，Saturnospora，裂芽酵母（Schizoblastosporion），裂殖糖酵母（Schizosaccharomyces），许旺酵母（Schwanniomyces），锁掷酵母（Sporidiobolus），掷孢酵母（Sporobolomyces），Sporopachydermia，Stephanoascus，梗孢酵母（Sterigmatomyces），Sterigmatosporidium，Symbiotaphrina，Sympodiomyces，Sympodiomycopsis，有孢圆酵母（Torulaspora），Trichosporiella，丝孢酵母（Trichosporon），三角酵母（Trigonopsis），Tsuchiyaea，Udeniomyces，Waltomyces，威克酵母（Wickerhamia），拟威克酵母（Wickerhamiella），拟威尔酵母（Williopsis），Yamadazyma，Yarrowia，Zygoascus，接合糖酵母（Zygosaccharomyces），拟接合魏立酵母（Zygowilliopsis），和Zygozyma，等等。

在一些实施方案中，该酵母宿主细胞为酿酒酵母细胞、巴斯德毕赤酵母(Pichiapastoris)细胞、粟酒裂殖酵母细胞、布鲁塞尔德克酵母(Dekkera bruxellensis)细胞、乳克鲁维酵母细胞、Arxula adeninivorans细胞、或多形汉逊酵母(Hansenula polymorpha)（现在称作安格斯毕赤酵母(Pichia angusta)）细胞。在一个具体实施方案中，该酵母宿主细胞为酿酒酵母细胞。在一些实施方案中，该酵母宿主细胞为脆壁酵母(Saccharomycesfragilis)细胞或乳克鲁维酵母（以前称作乳糖酵母(Saccharomyces lactis)）细胞。在一些实施方案中，该酵母宿主细胞为属于假丝酵母属（Candida）的细胞，诸如解脂假丝酵母(Candida lipolytica)、季也蒙氏假丝酵母(Candida guilliermondii)、克鲁斯氏假丝酵母(Candida krusei)、假热带假丝酵母(Candida pseudotropicalis)、或产朊假丝酵母(Candida utilis)。在另一个具体实施方案中，该酵母宿主细胞为马克斯克鲁维酵母(Kluveromyces marxianus)细胞。

在具体实施方案中，该酵母宿主细胞为选自下组的酿酒酵母细胞：面包酵母细胞，CBS7959细胞，CBS7960细胞，CBS7961细胞，CBS7962细胞，CBS7963细胞，CBS7964细胞，IZ-1904细胞，TA细胞，BG-1细胞，CR-1细胞，SA-1细胞，M-26细胞，Y-904细胞，PE-2细胞，PE-5细胞，VR-1细胞，BR-1细胞，BR-2细胞，ME-2细胞，VR-2细胞，MA-3细胞，MA-4细胞，CAT-1细胞，CB-1细胞，NR-1细胞，BT-1细胞，和AL-1细胞。在一些实施方案中，该宿主细胞为选自下组的酿酒酵母细胞：PE-2细胞，CAT-1细胞，VR-1细胞，BG-1细胞，CR-1细胞，和SA-1细胞。在一个具体实施方案中，该酿酒酵母宿主细胞为PE-2细胞。在另一个具体实施方案中，该酿酒酵母宿主细胞为CAT-1细胞。在另一个具体实施方案中，该酿酒酵母宿主细胞为BG-1细胞。

在一些实施方案中，该酵母宿主细胞为适合于工业发酵（例如生物乙醇发酵）的细胞。在具体实施方案中，使细胞条件化为在高溶剂浓度、高温、扩大的底物利用、营养限制、应有渗透压（osmotic stress due）、酸度、亚硫酸盐和细菌污染、或其组合（它们是工业发酵环境公认的应激条件）下生存。

6.8试剂盒

在另一个方面，本文中提供可用于实施本文所述基因组整合一种或多种外源核酸的方法的试剂盒。在一些实施方案中，该试剂盒包含：

(a)多数外源核酸，其中每种外源核酸(ES)_x包含：

(i)第一同源区(HR1)_x和第二同源区(HR2)_x，其中(HR1)_x和(HR2)_x能够启动(ES)_x在宿主细胞基因组的选定靶位点(TS)_x处由宿主细胞介导的同源重组；和

(ii)位于(HR1)_x的3’且(HR2)_x的5’的感兴趣核酸(D)_x；

其中x为1至n的任何整数，其中n为至少2。

在一些实施方案中，(D)_x选自下组：选择标志，启动子，编码表位标签的核酸序列，感兴趣基因，报告基因，和编码终止密码子的核酸序列。在一些实施方案中，该试剂盒进一步包含多数引物对(P)_x，其中每种引物对能够通过PCR鉴定(ES)_x在(TS)_x处的整合。在一些实施方案中，(ES)_x是线性的。在一些实施方案中，(ES)_x是环状的。

在一个具体实施方案中，该试剂盒使得能够在酵母基因组的大约6000个遗传基因座任一内的独特靶位点处位点特异性整合外源核酸。在这些实施方案中，n=≥6000，其中每个(TS)_x对于酵母细胞基因组的一个基因座是独特的。

在一些实施方案中，该试剂盒进一步包含描述将一种或多种外源核酸整合入宿主酵母细胞的任何遗传基因座的方法的用法说明书。

实施例

7.1实施例1：多数外源核酸的同时多重整合

执行本文所述方法和组合物以创建经过修饰的酵母细胞，其包含在一个转化步骤中在酵母细胞基因组的两个基因座处整合的两种外源核酸，其中该经过修饰的酵母细胞的回收不要求使用选择标志。

提供包含下述各项的宿主株：(a)先前引入的位于NDT80基因座内的F-CphI内切核酸酶识别位点；和(b)先前引入的位于HO基因座内的I-SceI内切核酸酶识别位点。用下述各项同时转化宿主细胞：(1)编码F-CphI的表达质粒；(2)编码I-SceI的表达质粒；(3)包含侧翼为与NDT80基因座的5’和3’区对应的两段>500bp序列、编码绿色荧光蛋白（GFP）的表达盒的线性DNA；和(4)包含侧翼为与HO基因座的5’和3’区对应的两段>500bp序列、编码lacZ的表达盒的线性DNA。作为包括分别编码F-CphI和I-SceI的表达质粒的备选，在转化反应中包括纯化的F-CphI和I-SceI蛋白质。通过在F-CphI和I-SceI表达质粒或纯化的蛋白质缺失下只用线性整合构建物(3)和(4)转化宿主细胞，实施非双链断裂对照。

将实验和对照转化子在无选择培养基上涂板，并对来自每块板的菌落分别显现GFP和lacZ的表达。用与整合的整合构建物(3)或(4)与它们的相应靶序列之间的接点上游和下游退火的引物对独立实施菌落PCR以确认整合的保真度和频率。

7.2实施例2：多数外源核酸的同时多重整合

此实施例提供的结果证明在宿主细胞基因组中引入靶向双链断裂后三种外源核酸在酿酒酵母宿主的三个不同基因座处的同时整合。简言之，将编码Emerald绿色荧光蛋白的截短型非功能性拷贝（emgfpΔ）的外源“靶”核酸序列分别整合入宿主酵母细胞的HO，YGR250c和NDT80基因座。用编码Emerald绿色荧光蛋白的完整功能性拷贝（EmGFP）的线性“供体”DNA及下述任一转化重组细胞：(1)空载体；或(2)编码特异性识别并切割emgfpΔ编码序列内的序列的锌指核酸酶（ZFN.gfp）的表达载体pZFN.gfp。通过菌落PCR（cPCR）对转化菌落筛选供体EmGFP编码序列对靶emgfpΔ编码序列的一个、两个或三个基因组整合拷贝的替换。

7.2.1.靶DNA的构建和整合

为了生成用于由核酸酶介导的双链断裂的外源基因组靶位点，利用由RYSE介导的装配构建了编码emgfpΔ的靶DNA，如美国专利No.8,110,360中记载的，据此通过述及完整收录其内容。用序列5’-CGTCTAAATCATG-3’（SEQ ID NO:2）替换了野生型EmGFP编码序列（SEQ ID NO:1）的核苷酸450至462，导致引入：(1)EmGFP第152位处的早熟终止密码子（emgfpΔ）；和(2)ZFN.gfp的识别/切割序列。

为了将emgfpΔ编码序列靶向整合入HO、YGR250c和NDT80基因座中每个，在emgfpΔ编码序列的侧翼添加每个基因座的～200-500bp上游和下游同源序列（SEQ ID NO:3-8）。还将独特选择标志掺入每种构建物，位于emgfpΔ编码序列的5’，用于选择具有成功整合事件的菌落。HO整合构建物包括KanR，YGR250c整合构建物包括URA3，而NDT80整合构建物包括NatR。将每种整合构建物序贯转化入原样CEN.PK2单倍体酵母株（株A），并确认了该株具有emgfpΔ编码序列的三个整合拷贝。

7.2.2.ZFN酵母表达质粒的构建

锌指核酸酶由两个功能性结构域组成：DNA结合域（由锌指蛋白的一条链构成）和DNA切割域（由FokI的核酸酶域构成）。FokI的内切核酸酶域作为专性异二聚体发挥切割DNA的功能，如此，要求一对ZFN来结合并切割它的靶序列。ZFN.gfp（锌指核酸酶，Sigma-Aldrich，St.Louis，MO）的靶序列是：5’ACAACTACAACAGCCACAACgtctatATCATGGCCGACAAGCA-3’（SEQ ID NO:9），其中识别序列以大写字母表示而切割序列以小写字母表示。

如下构建了高拷贝ZFN.gfp酵母表达质粒pZFN.gfp。自一种哺乳动物表达质粒PCR扩增基因ZFN.gfp.1和ZFN.gfp.2（每种编码ZFN.gfp专性异二聚体的一个成员）并分别与不同P_GAL1,10启动子和ADH1和CYC1终止子融合。将P_GAL10>ZFN.gfp.1-T_ADH1和P_GAL1>ZFN.gfp.2-T_CYC1的各PCR产物连同包含LEU2选择标志的线性化载体主链共转化入原本酵母株，用于经由交叠末端同源重组的体内装配。PCR产物经由由末端引物添加的同源序列在pGAL1,10启动子序列处重组并装配入载体主链。在缺少亮氨酸的极限培养基上选择转化子，分离，并在液体培养基中培养。使用Zymoprep酵母质粒迷你制备I试剂盒（Zymo Research）自酵母提取来自多个克隆的质粒。然后将来自提取方案的洗脱液转化入大肠杆菌XL-1blue化学感受态细胞。将质粒在大肠杆菌中扩增过夜并微量制备（Qiagen，Valencia，CA）。通过限制性作图鉴定了正确的克隆。

7.2.3.用供体DNA的转化和对双链断裂的诱导

使用标准乙酸锂/SSDNA/PEG方案（Gietz and Woods,Methods Enzymol.350:87-96(2002)）用编码EmGFP的线性“供体”DNA及下述任一共转化株A：(1)空载体；或(2)pZFN.gfp表达载体。EmGFP编码序列与emgfpΔ编码序列在ZFN.gfp识别/切割位点内的多个位置处不同，即第450位（C→G）、第456位（A→T）、第461位（T→C）和第462位（G→C）。如此，预期ZFN.gfp在emgfpΔ序列内识别并切割，但在EmGFP序列内不然。

与70ul线性EmGFP DNA（～300ng/ul）一起共转化1微克适宜质粒DNA。在YP+2%半乳糖中（用于诱导ZFN表达）回收所有转化过夜。将各种稀释液在缺乏亮氨酸的极限培养基琼脂板上涂板以选择经质粒DNA转化的菌落。将板于30℃温育3天。

7.2.4.多重同时整合的确认

实施了菌落PCR来测定每个靶基因座处EmGFP编码序列替换emgfpΔ编码序列的频率。自来自每次转化的96个菌落制备DNA，并用分别对EmGFP和HO、EmGFP和NDT80、及EmGFP和YGR250c特异性的引物对探查，使得预期每个基因座处EmGFP编码序列的成功整合生成预测大小的扩增子，而预期不整合不生成扩增子。

表2：用于EmGFP编码序列的多重整合的cPCR验证的引物序列

如图5中所示，在用线性EmGFP供体DNA（SEQ ID NO:1）和空载体对照转化的96个菌落中，PCR期间没有生成扩增子，指示在双链断裂缺失下没有成功的整合事件，即对三个包含靶emgfpΔ编码序列的基因座任一处的替换。相反，在用线性EmGFP DNA和pZFN.gfp转化的96个菌落中，EmGFP编码序列替换了2个菌落中的一个基因座、4个菌落中的两个基因座、和23个菌落中的所有三个基因座（图6）。菌落PCR结果通过显现板上转化菌落的荧光（数据未显示）得到了确证。用EmGFP DNA和空载体转化的菌落无一表现为绿色，指示靶emgfpΔ编码序列无一被功能性EmGFP编码序列替换。相反，用EmGFP DNA和pZFN.gfp转化的菌落～20%表现为绿色，大致与通过cPCR观察到的整合事件频率相关。

这些结果证明在宿主细胞的基因组中诱导多重靶向双链断裂能推动外源供体核酸的同时多重靶向整合。

7.3实施例3：萜合酶基因的同时多重整合以推动法呢烯生成株转变成紫穗槐双烯生成株

此实施例提供的结果证明三种倍半萜合酶基因在为高甲羟戊酸途径流量而工程化改造的酿酒酵母宿主的三个不同工程化改造基因座处的同时整合。结果是，生成法呢烯且包含法呢烯合酶基因基于质粒的拷贝的亲本株转变成包含紫穗槐双烯合酶的多重基因组整合拷贝的紫穗槐双烯生成株。简言之，侧翼为F-CphI位点的URA3、NatR和KanR标志盒分别在宿主株的Gal80、HXT3和Matα基因座处整合。然后用编码F-CphI内切核酸酶的质粒以及三种包含每种侧翼为它们相应靶基因座的同源区、自Gal1启动子表达且由CYC1终止子终止的紫穗槐双烯合酶（ADS）基因的不同密码子优化（ADS盒）的线性“供体”DNA构建物共转化宿主。通过菌落PCR（cPCR）对转化菌落筛选ADS盒对一个、两个或三个基因组整合靶标志基因座的替换。鉴定出一个三重整合株并进一步通过整合第四个ADS盒来工程化改造，而且在容许编码法呢烯合酶的质粒丢失的条件下培养所得株，使得它的产物谱自法呢烯完全转变成紫穗槐双烯。

7.3.1.亲本法呢烯生成株的构建

如下制备了可用于多重同时整合编码紫穗槐双烯合酶的外源供体DNA的法呢烯生成酵母株，Y3639。

通过用酿酒酵母MET3基因启动子分别替换酵母株Y002和Y003（分别为CEN.PK2背景MAT A或MATα;ura3-52;trp1-289;leu2-3,112;his3Δ1;MAL2-8C;SUC2；van Dijken etal.(2000)Enzyme Microb.Technol.26:706-714）的ERG9基因启动子，生成了株Y93（MAT A）和Y94（MATα）。为此目的，用整合构建物i8（SEQ ID NO:14）（其包含侧翼为乳克鲁维酵母Tef1基因启动子和终止子的卡那霉素抗性标志（KanMX）、ERG9编码序列、ERG9启动子的截短区段（trunc.PERG9）、和MET3启动子（PMET3），侧翼为ERG9上游和下游序列）转化指数式生长的Y002和Y003细胞。在包含0.5μg/mL遗传霉素（Invitrogen Corp.，Carlsbad，CA）的培养基上选择宿主细胞转化子，并通过诊断性PCR确认了选定克隆，产生株Y93和Y94。

通过用光滑假丝酵母(Candida glabrata)LEU2基因编码序列（CgLEU2）分别替换株Y93和Y94中的ADE1基因编码序列，生成了株Y176（MAT A）和Y177（MATα）。为此目的，使用引物61-67-CPK066-G（SEQ ID NO:15）和61-67-CPK067-G（SEQ ID NO:16）自光滑假丝酵母基因组DNA（ATCC，Manassas，VA）PCR扩增3.5kb CgLEU2基因组基因座，并将PCR产物转化入指数式生长的Y93和Y94细胞。在CSM-L上选择宿主细胞转化子，并通过诊断性PCR确认了选定克隆，产生株Y176和Y177。

通过将酿酒酵母ERG13、ERG10、和ERG12基因编码序列的一个额外拷贝和酿酒酵母HMG1基因截短型编码序列（每种在酿酒酵母GAL1或GAL10基因半乳糖诱导型启动子的调节控制下）引入株Y176，生成了株Y188。为此目的，用2μg经PmeI限制性内切核酸酶（NewEngland Biolabs，Beverly，MA）消化的表达质粒pAM491和pAM495转化指数式生长的Y176细胞。在缺少尿嘧啶和组氨酸的CSM（CSM-U-H）上选择宿主细胞转化子，并通过诊断性PCR确认了选定克隆，产生株Y188。

通过将酿酒酵母ERG20、ERG8、和ERG19基因编码序列的一个额外拷贝和酿酒酵母HMG1基因截短型编码序列（每种在酿酒酵母GAL1或GAL10基因半乳糖诱导型启动子的调节控制下）引入株Y177，生成了株Y189。为此目的，用2μg经PmeI限制性内切核酸酶消化的表达质粒pAM489和pAM497转化指数式生长的Y188细胞。在缺少色氨酸和组氨酸的CSM（CSM-T-H）上选择宿主细胞转化子，并通过诊断性PCR确认了选定克隆，产生株Y189。

通过使株Y188和Y189交配，及通过引入酿酒酵母IDI1基因编码序列的一个额外拷贝和酿酒酵母HMG1基因截短型编码序列（每种在酿酒酵母GAL1或GAL10基因半乳糖诱导型启动子的调节控制下），生成了株Y238。为此目的，将株Y188和Y189的大约1x10⁷个细胞在YPD培养基板上于室温混合6小时，在CSM-H-U-T上选择二倍体细胞，并用2μg经PmeI限制性内切核酸酶消化的表达质粒pAM493转化指数式生长的二倍体。在缺少腺嘌呤的CSM（CSM-A）上选择宿主细胞转化子，并通过诊断性PCR确认了选定克隆，产生株Y238。

通过使株Y238形成孢子，生成了株Y210（MAT A）和Y211（MATα）。使二倍体细胞在2%乙酸钾和0.02%棉籽糖液体培养基中形成孢子，并使用Singer Instruments MSM300系列显微操作器（Singer Instrument Co，LTD.Somerset，UK）分离大约200个遗传四分体。在CSM-A-H-U-T上选择孢子，并通过诊断性PCR确认了选定克隆，产生株Y210（MAT A）和Y211（MATα）。

通过用载体pAM178转化指数式生长的Y211细胞，生成了株Y221。在CSM-L上选择宿主细胞转化子。

通过删除株Y221的GAL80基因编码序列，生成了株Y290。为此目的，用整合构建物i32（SEQ ID NO:17）（其包含侧翼为乳克鲁维酵母Tef1基因启动子和终止子的潮霉素B抗性标志（hph），侧翼为GAL80上游和下游序列）转化指数式生长的Y221细胞。在包含潮霉素B的培养基上选择宿主细胞转化子，并通过诊断性PCR确认了选定克隆，产生株Y290。

通过自株Y290消除pAM178载体，生成了株Y318，即通过在富含亮氨酸的培养基上连续扩增，并对个别菌落测试它们在CSM-L上生长的无能，产生株Y318。

通过将编码β-法呢烯合酶的异源核苷酸序列引入株Y318，生成了株Y409。为此目的，用表达质粒pAM404转化指数式生长的Y318细胞。在CSM-L上选择宿主细胞转化子，产生株Y409。

通过使得株Y409的GAL启动子组成性有活性，生成了株Y419。为此目的，用整合构建物i33（SEQ ID NO:18）（其包含侧翼为乳克鲁维酵母Tef1基因启动子和终止子的诺尔斯链霉菌(Streptomyces noursei)诺尔丝菌素抗性标志（NatR）、和在其天然启动子的“可操作组成性”型式（PGAL4oc；Griggs&Johnston(1991)PNAS88(19):8597-8601）和GAL4终止子（TGAL4）调节控制下的酿酒酵母GAL4基因编码序列，侧翼为经过修饰的ERG9启动子和编码序列的上游和下游序列）转化指数式生长的Y409细胞。在包含诺尔丝菌素的培养基上选择宿主细胞转化子，并通过诊断性PCR确认了选定克隆，产生株Y419。

通过在株Y419经过修饰的GAL80基因座处引入在酿酒酵母GAL1基因启动子调节控制下的酿酒酵母ERG12基因编码区的一个额外拷贝，生成了株Y677。为此目的，用整合构建物i37（SEQ ID NO:19）（其包含侧翼为乳克鲁维酵母Tef1基因启动子和终止子的诺尔斯链霉菌卡那霉素抗性标志（KanR）、和酿酒酵母ERG12基因编码和终止子序列，侧翼为GAL1启动子（PGAL1）和ERG12终止子（TERG12））转化指数式生长的Y677细胞。在包含卡那霉素的培养基上选择宿主细胞转化子，并通过诊断性PCR确认了选定克隆，产生株Y677。

株Y1551是通过化学诱变自株Y677生成的。对突变株筛选升高的β-法呢烯产量，产生株Y1551。

株Y1778是通过化学诱变自株Y1551生成的。对突变株筛选升高的β-法呢烯产量，产生株Y1778。

通过用乙酰乙酰基-CoA硫解酶编码序列的两个拷贝（一个衍生自酿酒酵母而另一个衍生自丁酸梭菌(C.butylicum)）和芥菜型油菜(B.juncea)HMGS基因编码序列的一个拷贝替换株Y1778的HXT3编码序列，生成了株Y1816。为此目的，用整合构建物i301（SEQ IDNO:20）（其包含侧翼为乳克鲁维酵母Tef1基因启动子和终止子的潮霉素B抗性标志（hyg）、侧翼为截短型TDH3启动子（tPTDH3）和AHP1终止子（TAHP1）的酿酒酵母ERG10基因编码序列、侧翼为YPD1启动子（PYPD1）和CCW12终止子（TCCW12）的丁酸梭菌乙酰乙酰基-CoA硫解酶基因编码序列（硫解酶）、和前面有TUB2启动子（PTUB2）的芥菜型油菜HMGS基因编码序列（HMGS），侧翼为酿酒酵母HXT3基因上游和下游序列）转化指数式生长的Y1778细胞。在含有潮霉素B的培养基上选择宿主细胞转化子，并通过诊断性PCR确认了选定克隆，产生株Y1816。

株Y2055是通过化学诱变自株Y1778生成的。对突变株筛选升高的β-法呢烯产量，产生株Y2055。

株Y2295是通过化学诱变自株Y2055生成的。对突变株筛选升高的β-法呢烯产量，产生株Y2295。

通过将株Y2295的交配型自MAT A转变成MATα，生成了株Y3111。为此目的，用整合构建物i476（SEQ ID NO:21）（其包含MATα交配基因座和潮霉素B抗性标志（hygA））转化指数式生长的Y2295细胞。在包含潮霉素B的培养基上选择宿主细胞转化子，并通过诊断性PCR确认了选定克隆，产生株Y3111。

株Y2168是通过化学诱变自株Y1816生成的。对突变株筛选升高的β-法呢烯产量，产生株Y2168。

株Y2446是通过化学诱变自株Y2168生成的。对突变株筛选升高的β-法呢烯产量，产生株Y2446。

通过将酿酒酵母GAL80基因编码序列、启动子、和终止子插入株Y2446的天然URA3基因座，生成了株Y3118。为此目的，用整合构建物i477（SEQ ID NO:22）（其包含酿酒酵母GAL80基因启动子、终止子、和编码序列（GAL80），侧翼为交叠URA3序列（其使得能够通过同源重组来成环切除GAL80基因并恢复初始URA3序列））转化指数式生长的Y2446细胞。在包含5-FOA的培养基上选择宿主细胞转化子，产生株Y3118。

通过交配株Y3111和Y3118，生成了株Y3215。将株Y3111和Y3118的大约1x10⁷个细胞在YPD培养基板上于室温混合6小时以容许交配，接着在YPD琼脂板上涂板以分离单菌落。通过菌落PCR筛选对二倍体鉴定带hphA标志的MATα基因座和野生型MAT A基因座二者的存在。

通过使株Y3215形成孢子并使GAL80编码序列成环出来，生成了株Y3000。使二倍体细胞在2%乙酸钾和0.02%棉籽糖液体培养基中形成孢子。分离随机孢子，在YPD琼脂上涂板，培养3天，然后将板复制至CSM-U以允许只有缺失GAL80（即具有功能性URA3基因）的细胞生长。然后对孢子测试β-法呢烯生成，鉴定出最佳生产者，并通过诊断性PCR确认了整合构建物i301的存在，产生株Y3000。

通过自株Y3000消除URA3标志，生成了株Y3284。为此目的，用整合构建物i94（SEQID NO:23）（其包含沙门氏菌属(Salmonella)hisG编码序列、和在酿酒酵母GAL1或GAL10基因半乳糖诱导型启动子控制下的酿酒酵母ERG13基因编码序列和HMG1基因截短型编码序列，侧翼为酿酒酵母URA3基因上游和下游序列）转化指数式生长的Y3000细胞。在包含5-FOA的培养基上选择宿主细胞转化子，并通过诊断性PCR确认了选定克隆，产生株Y3284。

通过用酿酒酵母乙酰基-CoA合成酶基因编码序列的一个额外拷贝和运动发酵单胞菌(Z.mobilis)PDC基因编码序列替换株Y3284的NDT80编码序列，生成了株Y3385。为此目的，用整合构建物i467（SEQ ID NO:24）（其包含URA3标志、侧翼为HXT3启动子（PHXT3）和PGK1终止子（TPGK1）的酿酒酵母ACS2基因编码序列（ACS2）、和侧翼为GAL7启动子（PGAL7）和TDH3终止子（TTDH3）的运动发酵单胞菌PDC基因编码序列（zmPDC），侧翼为上游和下游NDT80序列）转化指数式生长的Y3385细胞。在CSM-U上选择宿主细胞转化子，并通过诊断性PCR确认了选定克隆，产生株Y3385。

株Y3547是通过化学诱变自株Y3385生成的。对突变株筛选升高的β-法呢烯产量，产生株Y3547。

株Y3639是通过化学诱变自株Y3547生成的。对突变株筛选升高的β-法呢烯产量，产生株Y3639。

7.3.2.靶DNA的构建和整合

将由FcphI内切核酸酶介导的双链断裂的外源基因组靶位点整合入株Y3639的三个不同基因座。利用交叠片段的PCR装配构建三个靶位点盒，每种包含FcphI内切核酸酶的识别序列和分别为下述各项的编码序列：(1)URA3（侧翼为经过修饰的Gal80基因座的同源区）（SEQ ID NO:25）；(2)NatR（侧翼为经过修饰的HXT3基因座的同源区）（SEQ ID NO:26）；和(3)KanR（侧翼为经过修饰的Matα基因座的同源区）（SEQ ID NO:27）。将每种靶位点盒连续转化入Y3639，并通过菌落PCR来确认株在正确基因座处具有三个F-CphI侧翼标志盒的整合拷贝（“株B”）。

7.3.3.F-CphI酵母表达质粒的构建

包含HygR选择标志的F-CphI酵母表达质粒pAM1799先前记载于美国专利No.7,919,605，据此通过述及将其完整收录。

7.3.4.用供体DNA的转化和对双链断裂的诱导

修改标准乙酸锂/SSDNA/PEG方案（Gietz and Woods,Methods Enzymol.2002;350:87-96），包括在42度热休克之前将细胞于30度温育30分钟。这种方法用于用编码FcphI内切核酸酶的pAM1799和三种线性“供体”DNA（每种包含黄花蒿(Artemisia annua)紫穗槐双烯合酶（ADS）经过密码子优化的编码序列，侧翼分别为株B的经过修饰的Gal80（SEQ IDNO:28）、HXT3（SEQ ID NO:29）和Matα基因座（SEQ ID NO:30）的同源区）共转化株B。

与～100ng每种ADS供体DNA一起共转化1微克pAM1799。在YP+2%半乳糖中（用于诱导F-CphI表达）回收所有转化过夜。将各种稀释液在含有潮霉素的YPD琼脂板上涂板以选择用质粒DNA转化的菌落。将板于30℃温育3天。

7.3.5.多重同时整合的确认

实施了菌落PCR（cPCR）来测定ADS盒编码序列替换F-CphI侧翼标志盒编码序列的频率。自20个菌落制备了DNA并用分别对ADS和Gal80基因座、ADS和HXT3基因座、及ADS和Matα基因座特异性的引物对探查，使得预期ADS盒编码序列在每个基因座处的成功整合生成预测大小的扩增子，而预期不整合不生成扩增子。多路尝试了自每个基因座的5’和3’端生成扩增子的PCR反应。在一些情况中，只成功检测到5’或3’扩增子，但是通过对更长PCR片段测序确认了ADS盒在这些基因座处的正确整合。

表3：用于ADS盒编码序列的多重整合的cPCR确认的引物序列

在通过cPCR筛选的20个菌落中，14个具有在Gal80基因座处整合的ADS，17个具有在HXT3基因座处整合的ADS，而4个具有在Matα基因座处整合的ADS。Matα基因座处的低整合率可以通过这个基因座处由F-CphI位点侧翼的直接重复序列介导的自我闭合来解释。总之，6个克隆具有在一个位点处整合的ADS，10个克隆具有在两个位点处整合的ADS，而3个克隆具有在所有三个基因座处整合的ADS（“株C”）。通过对涵盖两个侧翼的更长PCR产物测序进一步确认了三重整合株。

1.1.5整合ADS株的完成和倍半萜测定法

通过使用标准方案在His3基因座处整合带URA盒标志的ADS的最后一个拷贝（SEQID NO:40），进一步工程化改造三重整合ADS株，而且对所得株确认了这第四个拷贝（“株D”）。最后，在非选择性培养基中传代株D细胞以丢失带Leu+标志的高拷贝法呢烯合酶质粒（pAM404）（“株E”）。

与株D和初始亲本株B一起对株E的数个隔离群测定倍半萜生成。简言之，在每孔装有360μL含2%蔗糖的Bird种子培养基（BSM）的96孔板的分开的孔中温育株B、D和E的隔离群（预培养）。在999rpm摇动下于33.5℃温育3天后，将每个孔的14.4μL接种入装有360μL含4%蔗糖的新鲜BSM的新96孔板的孔（生产培养）。在999rpm摇动下于33.5℃再温育2天后，采集样品并通过气相层析（GC）分析来分析倍半萜生成。用甲醇-庚烷（1:1v/v）萃取样品，并将混合物离心以除去细胞材料。在庚烷中稀释甲醇-庚烷萃取液的等分试样，然后使用脉冲式分拆注射，注射到甲基硅酮静止相上。使用带火焰电离检测（FID）的GC通过沸点将法呢烯和紫穗槐双烯分开。使用反式-β-石竹烯作为保留时间标志来监测成功注射和规定GC炉概况期间的洗脱。

如图7中所示，所有株的总倍半萜产量仍然几乎相同（3-3.5g/L），但是产物谱自法呢烯（株B）成功转变至混合产物（株D）至紫穗槐双烯（株E）。

这些结果证明宿主细胞基因组中多重靶向双链断裂的诱导能推动功能性基因盒的同时多重整合，在这种情况中推动法呢烯生成株在一次转化中转变成紫穗槐双烯生成株。

7.4实施例4：紫穗槐双烯合酶对法呢烯合酶的多重整合拷贝的同时替换

此实施例提供的结果证明合酶编码区内由设计者核酸酶诱导的双链断裂推动对四个基因组整合的萜合酶基因的同时替换。简言之，用编码设计者TAL效应器核酸酶（TALEN）的质粒和四种编码新萜合酶基因的线性供体DNA共转化一种现有的法呢烯生产株，其衍生自株Y3639（实施例3中描述的）但包含法呢烯合酶（FS）基因的四个整合拷贝而非染色体外拷贝。设计者TALEN能够结合并切割对于整合的法呢烯合酶基因独特的序列。通过菌落PCR（cPCR）筛选转化菌落并鉴定出具有一个、两个或三个或四个基因组整合的靶标志基因座的株。

7.4.1.靶DNA的构建和整合

通过交叠PCR装配了四种供体盒，每种包含一种萜合酶编码序列，侧翼为它的相应靶基因座的同源区（～500bp）。供体DNA中的三种包含ADS编码序列且不包含选择标志（SEQID NO:41-43），而最后一种供体DNA为包含与URA3标志盒融合的法呢烯合酶（FS）的一种新密码子优化的盒（SEQ ID NO:44）。供体DNA无一包含受到FS特异性TALEN识别的靶位点（5’-TAGTGGAGGAATTAAAAGAGGAAGTTAAGAAGGAATTGATAACTATCAA-3’（SEQ ID NO:45））。

为了替换株（株F）中的四个整合FS盒，使用实施例3中描述的方案将带hyg+标志的TALEN质粒连同～500ng每种线性供体DNA一起共转化入宿主株。将各种稀释液在CSM-URA+Hyg板上涂板并于30度温育3天。

7.4.2.多重同时整合的确认

在CSM-URA+Hyg板上选择TALEN质粒和带URA3标志的密码子-FS盒的整合之后，实施了菌落PCR来测定三个基因座处不带标记的ADS盒替换整合的FS盒的频率。自20个菌落制备DNA并用对NDT80、DIT1和ERG10基因座处ADS盒的整合特异性的引物对探查，使得预期每个基因座处ADS盒编码序列的成功整合生成预测大小的扩增子，而预期不整合不生成扩增子。

表4：用于紫穗槐双烯合酶盒对多重法呢烯合酶盒的替换的cPCR验证的引物序列

检查的48个克隆中三个在带URA3标志的FS之外还整合了一个ADS盒，一个克隆整合了两个ADS盒，而一个克隆整合了所有三个ADS盒。通过对涵盖两个侧翼的更长PCR产物测序进一步确认了多重整合结果。

这些结果证明包含生物合成途径的宿主细胞中位点特异性设计者核酸酶的表达能推动一个转化步骤中新途径基因对途径基因的多重整合拷贝的同时替换。

7.5实施例5：无标志DNA构建物进入用独特设计者核酸酶切割的两个基因座的同时多重整合

此实施例提供的结果证明两种无标志DNA构建物在两个天然靶位点处的同时整合，其中每个位点受到独特设计者核酸酶的切割。简言之，用下述各项共转化ADE-宿主株：(1)包含侧翼为与SFC1基因座同源的上游和下游区的GFP盒的线性DNA片段；(2)包含侧翼为与YJR030c基因座同源的上游和下游区的ADE2盒的线性DNA片段；和(3)编码分别靶向天然SFC1和YJR030c可读框中的序列的设计者核酸酶的质粒。选择质粒后，对转化菌落目测筛选GFP荧光和白色，指示ADE-表型的补足。还实施了菌落PCR（cPCR）来确认对两个基因座的替换。有趣的是，与只使用一种设计者核酸酶时的整合率相比，组合使用设计者内切核酸酶时观察到两个靶基因座处整合率的显著改进。

7.5.1.供体DNA盒的构建

利用交叠片段的PCR装配生成了两种供体DNA：(1)包含侧翼为与SFC1基因座同源的～500bp上游和下游区的GFP盒的线性DNA片段（SEQ ID NO:58）；和(2)包含侧翼为与YJR030c基因座同源的～500bp上游和下游区的ADE2盒的线性DNA片段（SEQ ID NO:59）。

7.5.2.异二聚体ZFN表达质粒的构建

以两种方式构建了编码YJR030c特异性锌指核酸酶（ZFN）的质粒。在第一种型式中，通过酵母中的三部分缺口修复将异二聚体ZFN的两个ORF（在不同Gal1-10启动子表达下且以Adh1和CYC1终止子终止）克隆入带Kan标志的CEN-ARS载体（pCUT006）。还构建了第二种型式，其中作为单一ORF自Gal10启动子表达异二聚体ZFN的两个ORF，单体由编码可切割肽接头的DNA序列隔开。这第二种质粒是利用由PCR片段的IIS型限制酶消化物生成的接头通过三部分连接入带Kan标志的CEN-ARS载体主链而构建的（pCUT016）。还利用相同的接头策略、标志和主链作为单一ORF构建了编码SFC1特异性ZFN的质粒（pCUT015）。然后依靠酵母中的缺口修复反应将标志换成URA（pCUT058）。为了构建用于表达YJR030c和SFC1特异性核酸酶二者的单一质粒，将来自pCUT16和pCUT15的单一ORF亚克隆入新的CEN-ARS Kan+载体主链，并自Gal1-10不同启动子及用Cyc1和Adh1终止子表达（pCUT032）。

7.5.1.用供体DNA的转化和对双链断裂的诱导

与约1微克每种供体DNA一起共转化1微克每种设计者核酸酶质粒DNA，或在一种质粒上包含两种设计者内切核酸酶的质粒。在YP+2%半乳糖中（用于诱导核酸酶表达）回收所有转化过夜。将各种稀释液在URA遗漏+Kan琼脂板（用于双重质粒）或YPD+Kan上涂板以选择用质粒DNA转化的菌落。将板于30℃温育3-4天。

7.5.2.多重同时整合的确认

通过使用适宜滤光器在UV光下观察GFP荧光来对SFC1基因座处的无标志整合打分。通过观察白色菌落颜色（指示宿主株中ADE2删除表型（粉色菌落）的补足）来对ADE2的无标志整合打分。在一项典型实验中，测定了50-150个菌落。使用整合构建物5’引物和内部反向引物通过菌落PCR在一个菌落子集中确认了目测打分策略。预期每个基因座处的整合生成预测大小的扩增子，而预期不整合不生成扩增子。cPCR结果确认了目测打分方法的准确性。

表4：用于ADS盒编码序列的多重整合的成功_cPCR验证的引物序列

如图8中所示，在用SFC1和YJR030c基因座的线性供体DNA及YJR030c内切核酸酶质粒（pCUT006）和SFC1内切核酸酶质粒（pCUT058）共转化的细胞中，在URA遗漏+Kan琼脂板上选择的菌落80%呈GFP阳性。在这些菌落中，91%对ADE2整合呈阳性。总计，72.8%的菌落在两个基因座处都整合了供体DNA。

在用SFC1基因座的线性供体DNA及靶向SFC1的设计者核酸酶质粒（pCUT015）共转化的细胞中，50%的细胞呈GFP阳性。用YJR030c基因座的线性供体DNA及靶向YJR030c基因座的设计者核酸酶质粒（pCUT016）共转化细胞时，只有5%的细胞对ADE2整合呈阳性。用SFC1和YJR030c基因座的线性DNA及SFC1/YJR030c设计者核酸酶质粒（pCUT032）共转化宿主细胞时，76%的细胞呈GFP阳性，而且63%呈ADE2阳性。这个结果是值得注意的，在于它证明设计者内切核酸酶靶向多个位点时整合效率出乎意料的显著改进。

这些结果证明宿主细胞基因组中天然基因座处多重靶向双链断裂的诱导能推动功能性基因盒的同时、多重、无标志整合。

通过述及将本说明书中引用的所有出版物、专利和专利申请收入本文，就像通过述及明确且个别地指出收录每篇个别的出版物或专利申请一样。虽然为了清楚理解的目的已经经由举例说明较为详细地描述了前述发明，根据本发明的教导会对本领域普通技术人员显而易见的是，可以在不背离所附权利要求的精神或范围的情况下对其进行某些改变和变更。

Claims

1.一种用于将多数(n)外源核酸同时整合入宿主细胞基因组的多数(n)靶位点的方法，其中n为至少2，该方法包括：

(a)使宿主细胞与下述各项同时接触：

(i)所述要整合入宿主细胞基因组的多数外源供体核酸，其中x为自1至n变化的整数，且对于每个整数x，每种外源供体核酸(ES)_x包含第一同源区(HR1)_x和第二同源区(HR2)_x，其中(HR1)_x和(HR2)_x能够启动(ES)_x在所述宿主细胞基因组的选自所述多数(n)靶位点的靶位点(TS)_x处由宿主细胞介导的同源重组；和

并

(b)回收宿主细胞，其中每种外源核酸(ES)_x已经在其选定靶位点(TS)_x处整合，

其中所述回收以每1000、900、800、700、600、500、400、300、200、100、90、80、70、60、50、40、30、20、10、9、8、7、6、5、4、3、或2个筛选的发生接触的宿主细胞或其克隆群中回收一个的频率发生。

2.权利要求1的方法，其中(HR1)_x与(TS)_x的5’区同源，且(HR2)_x与(TS)_x的3’区同源。

3.权利要求1的方法，其中(N)_x能够在位于所述(TS)_x的5’和3’区之间的区域处切割。

4.权利要求1的方法，其中每个(TS)_x能够被一种核酸酶切割。

5.权利要求1-4任一项的方法，其中n＝3、4、5、6、7、8、9或10。

6.权利要求1-5任一项的方法，其中所述回收不要求选择标志的整合。

7.权利要求1-5任一项的方法，其中所述回收以与不使宿主细胞与能够在所述靶位点处切割的核酸酶接触相比更高的频率发生。

8.权利要求1-5任一项的方法，其中所述回收以每10、9、8、7、6、5、4、3或2个筛选的发生接触的宿主细胞或其克隆群中一个的频率发生。

9.权利要求1-8任一项的方法，其中(N)_x能够切割(TS)_x内的内源基因组序列。

10.权利要求1-8任一项的方法，其中(N)_x能够切割(TS)_x内的外源序列。

11.权利要求10的方法，其中该外源序列为归巢内切核酸酶的识别序列。

12.权利要求11的方法，其中该归巢内切核酸酶为F-cphI。

13.权利要求1-12任一项的方法，其中(ES)_x进一步包含位于(HR1)_x的3’端和(HR2)_x的5’端的感兴趣核酸(D)_x。

14.权利要求13的方法，其中(D)_x选自下组：选择标志，启动子，编码表位标签的核酸序列，感兴趣基因，报告基因和编码终止密码子的核酸序列。

15.权利要求1-14任一项的方法，其中(ES)_x是线性的。

16.权利要求1-15任一项的方法，其中(N)_x是由表达载体中包含的核酸序列编码的。

17.权利要求1-16任一项的方法，其中(N)_x选自下组：内切核酸酶，锌指核酸酶，TAL效应器DNA结合域-核酸酶融合蛋白(TALEN)，转座酶和位点特异性重组酶。

18.权利要求17的方法，其中该内切核酸酶经过修饰而特异性结合与其野生型内切核酸酶识别序列不同的内源基因组序列，其中该经过修饰的内切核酸酶不再结合其野生型内切核酸酶识别序列。

19.权利要求17或18的方法，其中该内切核酸酶为选自下组的归巢内切核酸酶：LAGLIDADG归巢内切核酸酶，HNH归巢内切核酸酶，His-Cys框归巢内切核酸酶，GIY-YIG归巢内切核酸酶和蓝细菌归巢内切核酸酶。

20.权利要求17或18的方法，其中该内切核酸酶衍生自选自下组的内切核酸酶：H-DreI，I-SceI，I-SceII，I-SceIII，I-SceIV，I-SceV，I-SceVI，I-SceVII，I-CeuI，I-CeuAIIP，I-CreI，I-CrepsbIP，I-CrepsbIIP，I-CrepsbIIIP，I-CrepsbIVP，I-TliI，I-PpoI，Pi-PspI，F-SceI，F-SceII，F-SuvI，F-CphI，F-TevI，F-TevII，I-AmaI，I-AniI，I-ChuI，I-CmoeI，I-CpaI，I-CpaII，I-CsmI，I-CvuI，I-CvuAIP，I-DdiI，I-DdiII，I-DirI，I-DmoI，I-HmuI，I-HmuII，I-HsNIP，I-LlaI，I-MsoI，I-NaaI，I-NanI，I-NclIP，I-NgrIP，I-NitI，I-NjaI，I-Nsp236IP，I-PakI，I-PboIP，I-PcuIP，I-PcuAI，I-PcuVI，I-PgrIP，I-PobIP，I-PorI，I-PorIIP，I-PbpIP，I-SpBetaIP，I-ScaI，I-SexIP，I-SneIP，I-SpomI，I-SpomCP，I-SpomIP，I-SpomIIP，I-SquIP，I-Ssp68031，I-SthPhiJP，I-SthPhiST3P，I-SthPhiSTe3bP，I-TdeIP，I-TevI，I-TevII，I-TevIII，i-UarAP，i-UarHGPAIP，I-UarHGPA13P，I-VinIP，I-ZbiIP，PI-MgaI，PI-MtuI，PI-MtuHIP PI-MtuHIIP，PI-PfuI，PI-PfuII，PI-PkoI，PI-PkoII，PI-Rma43812IP，PI-SpBetaIP，PI-SceI，PI-TfuI，PI-TfuII，PI-ThyI，PI-TliI或PI-TliII。

21.权利要求1-20任一项的方法，其中该宿主细胞选自下组：真菌细胞，细菌细胞，植物细胞和动物细胞。

22.权利要求1-21任一项的方法，其中该宿主细胞为酵母细胞。

23.权利要求22的方法，其中该酵母细胞为酿酒酵母(Saccharomyces cerevisiae，S.cerevisiae)细胞。

24.一种宿主细胞，其包含：

(a)多数(n)基因组靶位点，其中n为至少2；

(b)要整合入宿主细胞基因组的多数(n)外源供体核酸，其中x为自1至n变化的整数，且对于每个整数x，每种外源供体核酸(ES)_x包含第一同源区(HR1)_x和第二同源区(HR2)_x，其中(HR1)_x和(HR2)_x能够启动(ES)_x在选自所述多数(n)基因组靶位点的靶位点(TS)_x处由宿主细胞介导的同源重组；和

(c)对于每个所述靶位点(TS)_x，能够在(TS)_x处切割的核酸酶(N)_x，于是所述切割导致(ES)_x在(TS)_x处的同源重组。

25.一种宿主细胞，其包含：

(a)多数(n)基因组靶位点，其中n为至少2；和

(b)要整合入宿主细胞基因组的多数(n)外源供体核酸，其中x为自1至n变化的整数，且对于每个整数x，每种外源供体核酸(ES)_x包含第一同源区(HR1)_x和第二同源区(HR2)_x，其中(HR1)_x和(HR2)_x能够启动(ES)_x在选自所述多数(n)基因组靶位点的靶位点(TS)_x处由宿主细胞介导的同源重组；

其中每个所述基因组靶位点(TS)_x包含受核酸酶(N)_x切割的双链断裂。

26.权利要求24或25的宿主细胞，其中(HR1)_x与(TS)_x的5’区同源，且(HR2)_x与(TS)_x的3’区同源。

27.权利要求24或25的宿主细胞，其中(N)_x能够在位于所述(TS)_x的5’和3’区之间的区域处切割。

28.权利要求24或25的宿主细胞，其中每个(TS)_x能够被一种核酸酶切割。

29.权利要求24-28任一项的宿主细胞，其中n＝3、4、5、6、7、8、9或10。

30.权利要求24-29任一项的宿主细胞，其中(N)_x能够切割(TS)_x内的内源基因组序列。

31.权利要求24-29任一项的宿主细胞，其中(N)_x能够切割(TS)_x内的外源序列。

32.权利要求31的宿主细胞，其中该外源序列为归巢内切核酸酶的识别序列。

33.权利要求32的宿主细胞，其中该归巢内切核酸酶为F-cphI。

34.权利要求24-33任一项的宿主细胞，其中(ES)_x进一步包含位于(HR1)_x的3’端和(HR2)_x的5’端的感兴趣核酸(D)_x。

35.权利要求34的宿主细胞，其中(D)_x选自下组：选择标志，启动子，编码表位标签的核酸序列，感兴趣基因，报告基因和编码终止密码子的核酸序列。

36.权利要求24-35任一项的宿主细胞，其中(ES)_x是线性的。

37.权利要求24-36任一项的宿主细胞，其中(N)_x是由表达载体中包含的核酸序列编码的。

38.权利要求24-37任一项的宿主细胞，其中(N)_x选自下组：内切核酸酶，锌指核酸酶，TAL效应器DNA结合域-核酸酶融合蛋白(TALEN)，转座酶和位点特异性重组酶。

39.权利要求38的宿主细胞，其中该内切核酸酶经过修饰而特异性结合与其野生型内切核酸酶识别序列不同的内源基因组序列，其中该经过修饰的内切核酸酶不再结合其野生型内切核酸酶识别序列。

40.权利要求38或39的宿主细胞，其中该内切核酸酶为选自下组的归巢内切核酸酶：LAGLIDADG归巢内切核酸酶，HNH归巢内切核酸酶，His-Cys框归巢内切核酸酶，GIY-YIG归巢内切核酸酶和蓝细菌归巢内切核酸酶。

41.权利要求38或39的宿主细胞，其中该内切核酸酶衍生自选自下组的内切核酸酶：H-DreI，I-SceI，I-SceII，I-SceIII，I-SceIV，I-SceV，I-SceVI，I-SceVII，I-CeuI，I-CeuAIIP，I-CreI，I-CrepsbIP，I-CrepsbIIP，I-CrepsbIIIP，I-CrepsbIVP，I-TliI，I-PpoI，Pi-PspI，F-SceI，F-SceII，F-SuvI，F-CphI，F-TevI，F-TevII，I-AmaI，I-AniI，I-ChuI，I-CmoeI，I-CpaI，I-CpaII，I-CsmI，I-CvuI，I-CvuAIP，I-DdiI，I-DdiII，I-DirI，I-DmoI，I-HmuI，I-HmuII，I-HsNIP，I-LlaI，I-MsoI，I-NaaI，I-NanI，I-NclIP，I-NgrIP，I-NitI，I-NjaI，I-Nsp236IP，I-PakI，I-PboIP，I-PcuIP，I-PcuAI，I-PcuVI，I-PgrIP，I-PobIP，I-PorI，I-PorIIP，I-PbpIP，I-SpBetaIP，I-ScaI，I-SexIP，I-SneIP，I-SpomI，I-SpomCP，I-SpomIP，I-SpomIIP，I-SquIP，I-Ssp68031，I-SthPhiJP，I-SthPhiST3P，I-SthPhiSTe3bP，I-TdeIP，I-TevI，I-TevII，I-TevIII，i-UarAP，i-UarHGPAIP，I-UarHGPA13P，I-VinIP，I-ZbiIP，PI-MgaI，PI-MtuI，PI-MtuHIP PI-MtuHIIP，PI-PfuI，PI-PfuII，PI-PkoI，PI-PkoII，PI-Rma43812IP，PI-SpBetaIP，PI-SceI，PI-TfuI，PI-TfuII，PI-ThyI，PI-TliI或PI-TliII。

42.权利要求24-41任一项的宿主细胞，其中该宿主细胞选自下组：真菌细胞，细菌细胞，植物细胞和动物细胞。

43.权利要求24-42任一项的宿主细胞，其中该宿主细胞为酵母细胞。

44.权利要求43的宿主细胞，其中该酵母细胞为酿酒酵母(Saccharomycescerevisiae，S.cerevisiae)细胞。

45.一种用于将多数(n)外源核酸同时整合入宿主细胞基因组的多数(n)靶位点的方法，其中n为至少2，该方法包括：

(a)使宿主细胞与下述各项同时接触：

(i)多数文库，其中x为自1至n变化的整数，且对于每个整数x，每个文库(L)_x包含多数外源核酸，其中每种外源核酸以5’至3’取向包含第一同源区(HR1)_x、选自组(D)_x的任何感兴趣核酸和第二同源区(HR2)_x，其中(HR1)_x和(HR2)_x能够启动所述选定外源核酸在所述宿主细胞基因组的靶位点(TS)_x处由宿主细胞介导的同源重组；和

(ii)对于每个所述靶位点(TS)_x，能够在(TS)_x处切割的核酸酶(N)_x，于是所述切割导致来自(L)_x的外源核酸在(TS)_x处的同源重组；

并

(b)回收宿主细胞，其中来自每个文库(L)_x的外源核酸已经在每个选定靶序列(TS)_x处整合。

46.一种宿主细胞，其包含：

(a)多数(n)基因组靶位点，其中n为至少2；

(b)多数文库，其中x为自1至n变化的整数，且对于每个整数x，每个文库(L)_x包含要整合入宿主细胞基因组的多数外源供体核酸，其中每种外源供体核酸以5’至3’取向包含第一同源区(HR1)_x、选自组(D)_x的任何感兴趣核酸和第二同源区(HR2)_x，其中(HR1)_x和(HR2)_x能够启动所述选定外源核酸在所述宿主细胞基因组的靶位点(TS)_x处由宿主细胞介导的同源重组；和

(c)对于每个所述靶位点(TS)_x，能够在(TS)_x处切割的核酸酶(N)_x，于是所述切割导致来自(L)_x的外源核酸在(TS)_x处的同源重组。