CN1251135A

CN1251135A - 采用经修饰的tn5转座酶的体外转座系统

Info

Publication number: CN1251135A
Application number: CN97197751A
Authority: CN
Inventors: W·S·列兹尼科夫; I·Y·戈雷申; 周红
Original assignee: Wisconsin Alumni Research Foundation
Current assignee: Wisconsin Alumni Research Foundation
Priority date: 1996-09-09
Filing date: 1997-09-09
Publication date: 2000-04-19
Anticipated expiration: 2017-09-09
Also published as: RU2218406C2; EP0927258B1; CA2265477C; PL193220B1; DE69721282T2; WO1998010077A1; DE69721282D1; AU4262097A; US5925545A; ES2195171T3; CN1163605C; PL332145A1; US5948622A; AU732130B2; JP4361971B2; ATE238422T1; EP0927258A1; JP2001507565A; US6437109B1; CA2265477A1

Abstract

一种体外转座系统,该系统包含包括侧接一对细菌转座子Tn5外末端重复序列的可转座元件的DNA供体分子、可转座元件能够转座到其中的DNA靶分子以及一种经修饰的Tn5转座酶,该转座酶与外末端重复序列结合的亲合力高于野生型Tn5转座酶,呈失活多聚体形式的可能性低于野生型Tn5转座酶。

Description

采用经修饰的TN5转座酶的体外转座系统

相关申请的交叉文献

本专利申请是题为“体外转座系统”的专利申请的部分续展申请，该申请于1997年3月11日提交，至今还未给予专利号。申请人已经请求1996年9月9日为本专利申请的提交日。

关于联邦政府赞助的研究或开发的声明

不适用。

发明背景

本发明总的涉及可转座核酸领域，更具体地涉及经修饰转座酶的生产及其在将遗传变化引入核酸的系统中的应用。

可转座的遗传元件是发现在各种原核和真核生物中的、能够从基因组中的一个位置移动或变换到另一位置的DNA序列。在体内，染色体间的转座以及染色体和非染色体的遗传物质间的转座是已知的。在一些系统中，已经知道转座是受转座酶控制的，该酶通常由可转座的元件编码。各种可转座元件的遗传结构和转座机制例如归纳在《分子生物学大百科全书》(The Encyclopedia of MolecularBiology，Kendrew和Lawrence，Eds.，Blackwell Science，Ltd.，Oxford(1994))的“可转座遗传元件”部分中(该部分内容纳入本文作参考)。

Kiyoshi Mizuuchi和Nancy Kleckner的研究组分别已经描述了采用噬菌体Mu的特定的可转座元件以及细菌转座子Tn10的体外转座系统。

噬菌体Mu系统首先描述在Mizuuchi，K.，＂In Vitro Transposition of BacteriaPhage Mu：A Biochemical Approach to a Novel Replication Reaction，＂Cell：785-794(1983)和Craigie，R.等，＂A Defined System for the DNA Strand-Transfer Reactionat the Initiation of Bacteriophage Mu Transposition：Protein and DNA SubstrateRequiremetns，＂P.N.A.S.U.S.A.，82：7570-7574(1985)中。Mu体外反应的DNA供体底物(mini-Mu)通常需要6个Mu转座酶结合位点(其中三个的每个末端约为30bp)和位于距左端约1kb的增强子序列。供体质粒必须是超螺旋的。需要的蛋白质是Mu编码的蛋白A和蛋白B以及宿主编码的蛋白HU和蛋白IHF。Lavoie，B.D.和G.Chaconas，＂Transposition of phage Mu DNA，＂Curr.Topics Microbiol.Immunol.204：83-99(1995)。以Mu为基的系统不利于体外转座系统的应用，因为Mu末端极其复杂，还因为转座除转座酶外还需要上述的附加蛋白。

Tn10在Morisato，D.和N.Kleckner，＂Tn10 Transposition and Circle Formationin vitro，＂Cell 51：101-111(1987)以及Benjamin，H.W.和N.Kleckner，＂Excision ofTn10 from the Donor Site During Transposition Occurs by Flush Double-StrandCleavages at the Transposon Termini，＂P.N.A.S.U.S.A.89：4648-4652(1992)中已有描述。Tn10系统涉及携带可转座元件的超螺旋环状DNA分子(或线型DNA分子加上大肠杆菌IHF蛋白)。可转座元件由复合的(complex)42bp末端序列确定，毗邻反向重复序列处有IHF结合位点。实际上，在报道的实验中采用更长(81bp)的Tn10末端。Sakai，J.等，＂Identification and Characterization of Pre-Cleavage synapticComplex that is an Early Intermediate in Tn10 transposition，＂E.M.B.O.J.14：4374-4383(1995)。在Tn10系统中，必须对转座酶蛋白进行化学处理以支持活跃的转座。另外，Tn10元件的末端限制了它只能用于一般性的体外转座系统。

以Mu和Tn10为基的体外转座系统的局限性还在于它们只在共价闭合环状超螺旋DNA靶上才有活性。需要的是一种适用范围更广，采用更短更明确的末端且在任何结构的DNA靶(线型、松弛环状和超螺旋环状DNA)上有活性的体外转座系统。

发明概述

本发明概述了一种体外转座系统，该系统包含细菌转座子Tn5的经适当修饰的转座酶制备物、包括可转座元件的DNA供体分子、可转座元件能够转座到其中的DNA靶分子，所有这些均提供在合适的反应缓冲液中。

DNA供体分子的可转座元件的特征是作为感兴趣的可转座的DNA序列，此感兴趣的DNA序列的5′-和3′-末端侧接了受Tn5转座酶反式(in trans)作用的短重复的短序列。

本发明还概述了经适当修饰的转座酶，该酶与野生型Tn5转座酶有两类不同，每一类不同对该酶的转座总活性均有分别而可测定的作用，而当两类修饰(不同)均存在时发现有更大的作用。经适当修饰的酶(1)与DNA供体的重复序列结合的亲合力高于野生型Tn5转座酶((1)类突变)，而且(2)呈失活的多聚体形式的可能性低于野生型酶蛋白((2)类突变)。当本发明中含有(1)类和(2)类变化的经适当修饰的Tn5转座酶在体内偶联试验中进行组合测定(如Weinreich，M.D.，＂Evidence thatthe cis Preference of the Tn5 Transposase is Caused by NonproductiveMultimerization＂，Genes and Development 8：2363-2374(1994)中所述的，这些内容纳入本文作参考)时，其诱导的转座比野生型酶至少高大约100倍(±10％)。在最优条件下，采用经修饰的转座酶的转座可能会更高。只含(1)类突变的经修饰的转座酶以比野生型Tn5转座酶高得多的亲合力结合到重复序列上，当进行体内测定时，这种Tn5转座酶诱导出的转座比野生型酶高5-50倍。只含(2)类突变的经修饰的转座酶呈多聚体形式的可能性比野生型Tn5转座酶低得多，当进行体内测定时，这种Tn5转座酶也诱导出比野生型酶高大约5-50倍的转座。

另一方面，本发明概述了一种将可转座元件从DNA供体体外转座到DNA靶上的方法，方法包括下列步骤：将经适当修饰的Tn5转座酶蛋白、DNA供体、和DNA靶混合在合适的反应缓冲液中，使酶在高于0℃、但低于约28℃的温度下与DNA供体的侧接重复序列结合，然后升温至能够发生断裂和链转移的生理温度(约37℃)。

本发明的一个目的是提供一种有用的体外转座系统，该系统对结构的要求很低，而效率很高。

本发明另一个目的是提供可以各种方式广泛应用的方法，例如用来产生绝对缺陷的突变体，提供DNA靶的选择性标记物，为DNA靶提供可移动的同源区，利于将特定DNA序列插入DNA靶中，提供用于DNA测序的引物结合位点或标记，产生基因融合以便基因表达研究和蛋白质结构域图谱，以及将其它所需的DNA序列的组合结合在一起(重组遗传学)。

本发明的特征是经修饰的转座酶能比野生型Tn5转座酶更牢固地结合到DNA上。

本发明的一个优点是经修饰的转座酶能实现比用野生型转座酶高至少约100倍的转座反应比率(经体内测定测得)。值得注意的是，野生型Tn5转座酶在本发明的系统中没有表现出可测见的体外活性。因此，尽管很难计算活性增加的上限值，但是很明显，当体外转座产物在体内进行测定时，可以观察到成百个(如果不是成千个的话)的菌落。

本发明的另一个优点是采用该系统的体外转座可采用环状或线型的DNA供体和DNA靶。

本发明还有一个优点是采用该系统的体外转座不需要外部高能源，也不需要除经修饰转座酶外的其它蛋白。

本发明的其它目的、特征和优点可在考虑了下列详细描述后将会更加清楚。

附图简述

图1示出了测试质粒pRZTL1，其在这里用来表示位于一对Tn5外末端(outside end termini)间的可转座元件的体外转座。质粒pRZTL1也显示和描述在SEQ ID NO：3中。

图2示出了质粒pRZTL1在体外转座前后的电泳分析结果。图中示出了用环状和线型质粒底物获得的数据。

图3示出了质粒pRZTL1在体外转座后的电泳分析结果，包括对用环状和线型质粒底物获得的分子种类的进一步分析结果。

图4示出了质粒pRZ1496、pRZ5451和pRZTL1，它们在说明书中有详细的描述。

图5示出了各种突变型外端(OE)序列在对EK54/MA56转座酶的体内测试中乳头突起(papillae)数/菌落随时间变化的曲线。

图6示出了不同突变型外端序列的突起数/菌落随时间变化的曲线，其Y轴数值低于图5所示的对EK54/MA56转座酶进行测试的Y轴数值。

图7示出了不同突变型外端序列对MA56 Tn5转座酶测试时突起数/菌落随时间变化的曲线。

图8示出了采用两个较佳突变体对MA56和EK54/MA56转座酶测试时的体内转座情况。

发明详述

应当理解，本技术提供了用来将任何可转座元件从DNA供体引入DNA靶中的简单的体外系统。通常为人们接受和知道的是，Tn5转座只需要位于可转座元件任一侧的一对OE末端。这些OE末端通常被认为是18或19个碱基长度，并且是相互反向重复的序列。Johnson，R.C.和W.S.Reznikoff，Nature304：280(1983)，这些内容纳入本文作参考。这些称为“末端(termini)”(即使它们不必在供体分子DNA的末端)的Tn5反向重复序列是众所周知的。

除了所需可转座元件需要侧接标准的Tn5外(＂OE＂)末端外，预计DNA供体或DNA靶上几乎没有其它需求。认为Tn5对插入位点没有偏好(如果有的话)，因此可用本系统将所需序列随机地引入DNA靶中。因此，相信采用本文所述的经修饰转座酶与简单的DNA供体的这种方法可广泛地适于将变化引入任何DNA靶中(不论其核苷酸序列如何)。因此，本方法可用于解决分子生物学领域技术人员许多感兴趣的问题。

在该方法中，经修饰的转座酶蛋白与DNA供体、DNA靶混合在合适的反应缓冲液中。合适的反应缓冲液使转座反应得以发生。较佳的、但不必优化的的缓冲液含有用来凝聚DNA的亚精胺、谷氨酸和镁以及去污剂，去污剂优选3-[(3-胆酰胺丙基)二乙铵]-1-丙磺酸(“CHAPS”)。混合物可以在高于0℃且高达约28℃的温度下培育，以使酶与OE末端结合。在发明者在实施例中采用的缓冲液条件下，30℃的预处理温度是不够的。较佳的温度范围是16-28℃。最佳的预处理温度约为20℃。然而，在不同的缓冲液条件下，结合步骤可以采用其它低于生理温度的温度。在预处理较短的时间(未对时间进行优化，但是其可以短达30秒或长达2小时，通常为1小时)后，用2倍体积的合适的反应缓冲液稀释反应混合物，使其在生理条件下放置数小时(即2-3小时)，以使断裂和链转移发生。37℃或大约37℃的温度就足够了。在约3小时，转座速率显著降低。反应可用苯酚-氯仿萃取来终止，然后可通过乙醇沉淀来脱盐。

当DNA已用常规的纯化手段进行纯化后，体外转座方法中就可以采用更简单的反应条件。纯度足够高的DNA可通过使DNA制备物通过分子生物实验室现在常用类型的树脂(如Qiagen质粒纯化试剂盒(Catalog No.12162)的Qiagen树脂)来制得。在采用这种高质量的DNA时，反应缓冲液中的CHAPS可以省去。当反应缓冲液中省去CHAPS时，反应物不需要象上述方式那样进行稀释。上述的低温培育步骤可以省去，以便在生理条件下进行断裂和链转移的一步培育。37℃下培育3小时就足够了。

在反应及随后的萃取步骤后，转座可这样来进行测定：将核酸反应产物引入合适的细菌宿主细胞(如大肠杆菌K-12 DH5α细胞(recA^-)；购自Life Technologies(Gibco-BRL))，引入最好是采用如Dower等在Nuc.Acids.Res.16：6127(1988)中所述的电穿孔方法，然后如本文其它处所述的那样监测转座的存在。

本领域技术人员应当理解，除了本文所述的变化外，转座反应还可在许多类似于体内反应中发现的条件下进行。但是，本文描述的经修饰的转座酶提高了转座活性水平，使得现在能在体外进行该反应，而这在以前是不可能的。当经修饰的转座酶与本文所述的优化的缓冲液及温度条件结合时，反应速率会更高。

另一方面，本发明是经修饰Tn5转座酶的制品，这种酶与野生型Tn5转座酶的不同在于：(1)它与DNA供体的重复序列结合的亲合力高于野生型Tn5转座酶；(2)它呈失活的多聚体形式的可能性低于野生型蛋白。有这些要求的酶可从含有修饰酶可表达基因的细菌宿主细胞获得，该基因在宿主细胞中活性启动子的控制下。编码经修饰的Tn5转座酶的遗传物质可以引入(例如通过电穿孔)支持基因物质表达的合适的细菌宿主细胞中。超量产生和制备其它Tn5转座酶突变体的已知方法也是适用的。例如，Weinreich，M.D.等(同上)描述了一种超量生产Tn5转座酶的合适方法。纯化Tn5转座酶的另一种方法在de la Cruz，N.B.，等，＂Characterization of the Tn5 Transposase and Inhibitor Proteins：A Model for theInhibition ofTransposition，＂J.Bact.，175：6932-6938(1993)中有所描述，这些内容也纳入本文作参考。应当注意的是，诱导可以在低于37℃的温度(de la Cruz等采用的温度)下进行。至少在33-37℃范围内的温度是合适的。发明者已经确定，制备本发明的经修饰的转座酶的方法并不是该方法成功的关键，因为采用不同的制备方案同样会成功。

或者，以所附SEQ ID NO：2的氨基酸序列作为指导，该蛋白可以用本领域已知的方式化学合成。也可用分子生物学家熟知的标准重组DNA方法来制备编码经修饰酶蛋白的基因构建物(以及相关的转录和翻译信号)。用于制备这种构建物的遗传物质可以从已有的Tn5构建物获得，或可用将突变引入遗传物质的已知方法(如随机诱变PCR或定点诱变)或这两种方法的某种组合来制得。编码SEQ IDNO：2所示蛋白的基因序列显示在SEQ ID NO：1中。

野生型Tn5转座酶的核酸和氨基酸序列是已知的，公开的。N.C.B.I.登录号U00004 L19385，纳入本文作参考。

在一个较佳的实例中，经修饰的转座酶对OE末端重复序列的亲合力的提高((1)类突变)可通过在氨基酸54处提供赖氨酸残基(而野生型Tn5转座酶中为谷氨酸)来实现。突变大大地改变了转座酶对OE末端的偏爱性，这与内端(insideend)(“IE”)末端相反。该突变(称为EK54)与OE末端更强的结合导致了转座比率比野生型转座酶高大约10倍。位置54处为缬氨酸的类似的变化(突变株EV54)也导致了对OE末端的结合/转座有一定程度的提高，47位的苏氨酸变为脯氨酸也一样(突变株TP47；约高10倍)。相信也能获得可提高对OE末端的结合亲合力的其它类似的转座酶突变(在一个或多个氨基酸上的突变)，它们也能在本文所述的体外试验中起很好或更好的作用。

本领域普通技术人员也应理解，改变DNA供体中短重复序列的核苷酸序列可以协同转座酶结合区域中或附近的其它突变，以获得提高结合的同样效果，使转座比率提高5-50倍。因此，当本申请人已列举了一种提高典型转座酶结合的突变时，应理解在该转座酶中、或在重复短序列中或这两者中的其它突变也会产生在本发明范围和思路内的转座酶。测定对Tn5 OE末端的相对亲合力的合适方法已经公开在Jilk，R.A.等，＂The Organization of the Outside end of Transposon Tn5，＂J.Bact.，178：1671-79(1996)中。

本发明的转座酶呈失活的多聚体形式的可能性也低于野生型蛋白。在较佳的实例中，通过将野生型Tn5转座酶氨基酸372(亮氨酸)修饰成脯氨酸(同样还可通过将相应的DNA修饰成编码脯氨酸的DNA)，可以从野生型获得(2)类突变。该突变(称为LP372)以前就已被认为是转座酶二聚化区域中的突变。Weinreich等，同上。Weinreich等指出，这种372位突变经测定对应于一区域，在以前就已证明该区域对与Tn5转座抑制剂相互作用是关键的。该抑制剂是由编码转座酶的相同基因编码的一种蛋白，只是该蛋白的N-末端相对于转座酶是截短的。Weinreich等的测定多聚物形成程度的方法适于用来确定突变是否在该元件范围内。

认为当野生型Tn5转座酶多聚化时，其反式活性降低。二聚化区域中的突变大概降低或阻止了多聚化作用，从而降低了抑制活性，使得转座水平比野生型转座酶所见水平高5-50倍。LP372突变可以使转座水平比野生型高大约10倍。同样，降低转座酶多聚化能力的其它突变(包括一个或多个氨基酸处的突变)也以类似于372位单个突变的方式起作用，并且也适用于本发明的转座酶。另外还可能在不改变所谓二聚化区域中的野生型序列的情况下降低Tn5转座酶多聚化的能力，例如通过在系统中加入封闭二聚化位点的其它蛋白或非蛋白试剂。或者，可以将二聚化区域从转座酶蛋白中完全除去。

如上所述，编码上与转座酶序列有部分重叠的抑制剂蛋白能干扰转座酶活性。因此，希望抑制剂蛋白的量少于野生型在体内观察到的量。对于本试验，可以采用纯化形式的转座酶，还可以在使用前将抑制剂从转座酶中分离出来(例如根据分子大小差异)。然而，也可通过从编码转座酶的基因中除去抑制剂蛋白的起始密码子来从遗传上消除存在任何抑制剂蛋白污染的可能性。

在野生型Tn5转座酶基因中，编码转座酶氨基酸56位的甲硫氨酸的AUG是抑制剂蛋白的第一个密码子。然而，已经表明，替换56位甲硫氨酸对转座酶活性没有明显的影响，却同时阻止了抑制剂蛋白的翻译，从而使转座比率有一定的提高。Weigand，T.W.和W.S.Reznikoff，＂Characterization of TwoHypertransposing Tn5 Mutants，＂J.Bact.174：1229-1239(1992)，这些内容纳入本文作参考。特别是，本发明者在较佳实例中已经用丙氨酸代替了甲硫氨酸(并已用编码丙氨酸的GCC密码子代替了编码甲硫氨酸的AUG密码子)。因此，本发明中较佳的转座酶在氨基酸56位包括有非甲硫氨酸的氨基酸，但是这种改变可以认为只是在技术上是有利的(因为它保证了体外系统中没有抑制剂的存在)，但不是本发明必须的(因为可用其它方式来从体外系统中除去抑制剂蛋白)。

发明者所知的最佳转座酶的氨基酸序列在氨基酸54、56和372位与野生型不同。54位和372位的突变分别使体内转座反应比率提高大约10倍。当用标准的重组技术将突变组合入单个分子使其含有两类突变时，在体内测试体外系统的产物时，发现反应比率比用野生型转座酶所获得的比率至少高大约100倍。56位的突变对转座酶活性没有直接影响。

考虑到对转座酶的体外高活性可能有贡献的野生型酶的其它突变包括(但不局限于)：110位的谷氨酸变成赖氨酸以及345位的谷氨酸变成赖氨酸。

当然，应当理解，经修饰的转座酶(或编码经修饰转座酶的构建物)在除所述位置外可作其它变化而不会对转座酶活性产生不利影响。例如，应能理解，编码这种转座酶的构建物可以在密码子的第三个位置上进行变化，而编码的氨基酸与本文所述的氨基酸却没有差别。另外，某些密码子的改变对编码蛋白的转座活性没有功能上的影响或影响很小。最后，还可引入其它改变，以使编码蛋白的转座活性更高。特别还能预计到，可以将突变组合起来，以编码转座活性比本文所列举的转座活性还要高的经修饰转座酶。所有这些变化均在本发明范围内。然而，应当注意的是，含有EK110和EK345突变(均由Weigand和Reznikoff(同上)所述)的经修饰的转座酶的转座活性却低于含有这两个突变任一的转座酶。

在如上所述制得酶并纯化后，此酶可用于上述的体外转座反应，以将任何所需的可转座元件从DNA供体引入DNA靶中。DNA供体可以是环状或线型的。如果DNA供体是线型的，则侧接可转座元件的重复序列最好不是在线型片段的末端，而是重复序列侧接的区域应有一些上游和下游DNA。

如上所述，Tn5转座需要一对18或19碱基长的末端。野生型Tn5外端(OE)序列(5′-CTGAC TCTTA TACAC AAGT-3′)(SEQ ID NO：7)已有描述。已经发现，如果构建物中的末端在10、11和12位分别为碱基A、T和A，而且还有野生型OE和IE之间共有的一些核苷酸(如位置1-3、5-9、13、14、16及任选地19位)，则转座酶催化的体外转座频率至少与野生型OE获得的一样高。4、15、17和18位的核苷酸对应于在野生型OE或野生型IE中的那些位置发现的核苷酸。注意到，当4位核苷酸是T时，转座频率将高于野生型OE。这些特定碱基对转座频率的重要性在以前还未得到确定。

应注意，这些变化并非意味着包括对OE的每个所需修饰。如本文其它部分所描述的，这些可接受的末端变化的特征可通过筛选与IE和OE末端之间有随机化差别的突变体来确定。尽管本文表明某些核苷酸存在于末端中是有利的，但其它所需的末端序列可通过筛选更大量的简并突变体(包括除本文测试的那些位置以外的变化)以及含有未在所述筛选中进行测试的核苷酸的突变体来获得。另外，本领域技术人员很清楚，如果采用不同的转座酶，还能选择与该特定转座酶更相容的其它变体末端。

在本发明范围内且是所需的突变体中有两个经体内鉴定的超活性(hyperactive)突变型OE序列。尽管它们在这里表示成单链序列，但实际上野生型和突变型OE序列包括互补的第二链。第一个超活性突变体5′-CTGTC TCTTATACAC ATCT-′3(SEQ ID NO：8)在4、17和18位(从5′端起计)与野生型OE序列不同，但是保留了10-12位的ATA。第二个突变体5′-CTGTC TCTTAT ACAGATCT-3′(SEQ ID NO：9)与在4、15、17和18位与野生型OE序列不同，但保留了10-12位的ATA。这两种超活性突变型OE序列彼此只是在15位不同(分别是G或C)。当突变序列在10、11和12位含有ATA时，在突变型序列中可观察到类似于OE的活性(或更高的活性)。将OE序列的长度从19个减少成18个核苷酸对也许是可能的，这样做没有影响或影响很小。

当一种确定的超活性突变型OE序列侧接DNA底物时，EK54/MA56转座酶的体内转座频率比野生型OE末端侧接可转座DNA时观察到的频率高大约40-60倍。已经知道，采用野生型OE末端，EK54/MA56转座酶的体内转座频率比野生型转座酶高大约8-10倍。有EK54/MA56突变的Tn5转座酶与OE结合的亲合力高于野生型转座酶，与Tn5内端(IE)的亲合力低于野生型转座酶。

用于本发明试验的构建物中合适的突变型末端其生物学上的特征是，在相当的时间(如68小时)内，每个菌落产生的突起数多于类似质粒中携带有野生型OE的菌落的观察结果。在采用EK54/MA56转座酶的突起(papillation)测定中，接种后68小时进行测定(如本文其它处所述的)时，野生型OE每个菌落可产生约100个突起。当在相同实验和时间量级下测定时，较佳的突变体每个菌落会产生大约200-300个突起，更佳的突变体会产生大约1000-3000个突起/菌落。当在相同的条件下进行测定时，最佳的突变体会产生大约2000-3000个突起/菌落。突起的水平甚至可以大于3000个/菌落，但是在这样的水平下很难进行定量。

当DNA底物侧接了较佳的突变型OE序列且采用最佳的突变型转座酶(包含EK54/MA56/LP372突变)时，本发明的体外转座试验中转座频率也会大大提高。在那些条件下，基本上所有的DNA底物都被转变成转座产物。

采用超活性末端时观察到的体外转座比率是足够高的，以发明者的经验来看，对转座活动无需作选择。在转化后随机选择菌落作进一步研究，结果表明所有菌落均表现出有转座证据。

这一进展表现为大大节省了时间和实验室劳力。例如，通过改变DNA而不改变转座酶来提高体外转座频率是特别有利的，因为随着转座酶活性在宿主细胞内的提高，含有转座酶的细胞在生长过程中被杀死(由于迷乱性(aberrant)DNA转座的缘故)的可能性会增高。相反，含有经修饰的OE末端的感兴趣的DNA能在完全脱离转座酶的原料中生长，因此对宿主细胞没有危险。

在不打算限制本发明这方面范围的情况下，很明显，测试的超活性末端与转座酶结合的亲合力并不高于野生型OE末端。因此，超活性末端产生更高的转座频率并不是由于和转座酶的结合增强的缘故。

末端间的可转座元件可以包括任何所需的核苷酸序列。末端间的可转座元件的长度应至少为50碱基对，但是更小的插入物也是有效的。已经知道，插入物的大小没有上限。然而，已知长度约为300个核苷酸的DNA供体部分功效良好。参照非限制性实施例，可转座元件可以包括编码可检测或可选择蛋白的编码区，有或没有相关的调控元件如启动子、终止子等。

如果元件包括这样的可检测或可选择的编码区而没有启动子时，可以确定DNA靶中的启动子(该启动子未因编码区转座入其下游位置而被覆盖)，然后分析转座位点上游的核酸序列。

同样，元件可以包括能转座入DNA靶中的引物结合位点，以利于依靠用分布在整个靶基因材料中的引物进行测序的方法或其它方法得以实施。类似地，该方法可用来在靶中引入所需的限制性酶位点或多接头、或适于另一类重组的位点(如cre-lox)。

在考虑了下列实施例后就能更好地了解本发明，这些实施例只是示范性的，并不限制本发明。

实施例

为了获得在54位经修饰的转座酶，根据已知的方法对编码Tn5转座酶(而不是抑制剂蛋白MA56)的已有DNA克隆编码区的头三个进行诱变，对含有诱变部分的DNA片段进行克隆，以产生含有全长转座酶基因的质粒克隆文库。将组成文库的克隆转化入大肠杆菌K-12株MDW320细菌中，接种细菌进行平板培养，长成菌落。细菌中分离的质粒上提供的可转座元件含有lacZ缺陷型基因。分离的质粒pOXgen386在Weinreich，M.等“A functional analysis of the Tn5 Transposase：Indentification of Domains Required for DNA Binding and Dimerization，”J.Mol.Biol.241：166-177(1993)中有所描述，该文内容纳入本文作参考。通过筛选在X-gal存在下生长的白色菌落中的蓝点(LacZ)，选择转座酶活性提高的菌落。这种突起测定在Weinreich等，(1993)同上中有所描述。对这些菌落Tn5转座酶基因5′端的头三个进行测序，以确定突变是否提高了转座酶的活性。经测定，54位突变成赖氨酸(K)与转座酶活性的提高密切相关。质粒pRZ5412-EK54在54位含有赖氨酸，在56位含有所述的丙氨酸。

用限制性酶NheI和BglII从pRZ4870(Weinreich等(1994))中分离出含有LP372突变的片段，将片段连接入用NheI-BglII切割的pRZ5412-EK54中，形成54、56和372位有突变的重组基因(如本文所述及SEQ ID NO：1所示)。对基因进行测试，其表现出活性比野生型Tn5转座酶至少高大约100倍。54位和372位的突变单独可使转座酶活性提高大约10倍。

通过将BspHI/SalI片段插入pET-21D载体(购自Novagen，Madison，WI)的NhoI/XhoI片段中，将三突变重组体基因编码的经修饰的转座酶蛋白转移入商用T7表达载体pET-21D中。这种克隆方法使修饰的转座酶基因处于T7启动子的控制下，而不是在转座酶基因的天然启动子控制下。通过细胞生长后发酵过程中特别诱导的完成，使不含酶结合位点的基因产物在BL21(DE3)pLysS细菌宿主细胞中过量生产。(参见Studier，F.W.等，＂Use of T7 RNA Polymerase to DirectExpression of Cloned Genes，＂Methods Enzymol.185：60-89(1990))。用de la Cruz的方法部分纯化转座酶，通过在33℃或37℃下诱导过量生产来修饰。在纯化后，将酶制品保藏在-70℃的保藏缓冲液(10％甘油、0.7M NaCl、20mM Tris-HCl、pH7.5、0.1％Triton-X100和10mM CHAPS)中直至使用。该保藏缓冲液被认为是列举性的，没有进行优化。

在本实施例中，构建一个质粒(pRZTL1，图1)作为DNA供体和DNA靶。pRZTL1质粒DNA的全部序列显示在SEQ ID NO：3中。质粒pRZTL1含有两个相互反向的Tn519碱基对OE末端。紧靠一个OE序列的是编码四环素抗性的基因，但是缺少上游启动子。然而，如果四环素抗性基因放在转录区的下游(例如，在启动也存在于pRZTL1中的氯霉素抗性基因转录的启动子控制下)，基因被表达。因此，测试质粒pRZTL1可在体外反应后进行体内测定以确认转座的发生。质粒pRZT1在可转座元件中还包括复制起点，它保证了所有转座产物都是在引入宿主细胞后能进行复制的质粒。

在典型的20μl体外转座反应物中采用了下列组分：

经修饰的转座酶：2μl(大约0.1μg酶/μl)，在保藏缓冲液(10％甘油、0.7MNaCl、20mM Tris-HCl、pH7.5、0.1％Triton-X100和10mM CHAPS)中

DNA供体/靶：18μl(约1-2μg)，在反应缓冲液(反应物最终浓度为0.1M谷氨酸钾、25mM Tris乙酸盐、pH7.5、10mM乙酸镁、50μg/ml BSA、0.5mM β-巯基乙醇、2mM亚精胺、100μg/ml tRNA)中。

使转座酶与pRZTL1 DNA在20℃下结合约60分钟。然后加入两倍体积的反应缓冲液来增大反应物体积，升温至37℃保温2-3小时，在该温度下发生断裂和链转移。

体内和体外方法显示，已经发生了有效的体外转座。在体内，在将反应的核酸产物转移入DH5α细菌细胞中后，发现许多四环素抗性菌落。如上所述，如果可转座元件转座到质粒上某处活性启动子的下游时，该系统中才会产生四环素抗性。经对氯霉素抗性菌落计数测得，通常的转座频率是接受质粒DNA的细胞的0.1％。然而，这一数目还是低估了总的转座频率，因为检测系统将靶局限在总数的1/16内。

而且，从纯化的菌落中分离出来的DNA的体外电泳(1％琼脂糖)和DNA测序分析揭示了真实转座活动(包括分子内和分子间的活动)的产物。采用环状质粒pRZTL1底物的典型反应结果显示在泳道4和5中。图2中的泳道6显示了用线型质粒pRZTL1底物获得的结果。

通过用SYBR绿(FMC BioProducts)染色使条带显示在1％琼脂糖凝胶上，并使条带在Fluorimager SI(Molecular Dynamics)上扫描。在图2中，泳道1显示了松弛环状、线型和闭合环状的pRZTL1。泳道2和3分别显示了在pRZTL1体外转座后的分子内和分子间转座产物。将产物从电穿孔的DH5α细胞中纯化出来，并通过大小和序列分析证实是真实的转座产物。泳道4和5表示采用闭合的和松弛环状测试质粒底物的两个独立的体外反应产物。在泳道6中，线型pRZTL1(XhoI切割)是反应底物。泳道7包括λDNA的BstEII消化物作为分子量标准。

图3再现了图2的泳道4、5和6，并且根据次级限制性消化实验和再次电穿孔与DNA测序，显示了对各种产物的分析结果。释放的DNA供体对应于在两个OE序列间含有卡那霉素抗性基因的pRZTL1片段；或在线型底物情况下，对应于OE-XhoI片段。分子间转座产物只见于松弛环状DNA。分子内转座产物呈梯状，它是由于底物最初超螺旋转变成DNA结而产生的。此反应的有效性足以实现分子间和分子内转座组合的双转座活动。

对参与转座反应的末端的性质进行了初步研究。比较野生型Tn5 OE和IE序列，并试图使7个不同位置处的核苷酸随机化。产生在每个不同位置简并的寡核苷酸群体。这样，群体的各个寡核苷酸随机地包括了野生型OE或野生型IE序列。在这一方案中，用常规手段合成2⁷(128)个不同的寡核苷酸。这些有OE和IE序列特征的寡核苷酸在本文中被称为OE/IE样序列。为了避免由于寡核苷酸是OE和IE野生型序列之间的中间型而引起的命名问题，申请人在本文中指出，所选的寡核苷酸序列是与野生型OE(而不是野生型IE)进行比较，除非另有特指。本领域技术人员应理解，如果选择IE作为参照点，则差别位置是相同的，但是用不同方法确定的。

下面示出了本突变体生产方案中变化的位置(x表示)。野生型OE还显示在SEQ ID NO：7中，野生型IE显示在SEQ ID NO：10中。

5′-CTGACTCTTATACACAAGT-3′(野生型OE)

X XXX X XX (差异位置)

5′-CTGTCTCTTGATCAGATCT-3′(野生型IE)

除了简并的OE/IE样序列外，37个碱基长的合成的寡核苷酸还包括末端SphI和KphI限制性酶识别位点和断裂位点以便将简并的寡核苷酸方便地克隆入质粒载体中。这样，从2⁷(128)类简并寡核苷酸群体中产生了随机化末端文库。

图4表示pRZ1496，其完整序列用SEQ ID NO：11表示。注意序列中下列特征：

特征位置

野生型OE 94-112

LacZ编码区 135-3137

LacY编码区 3199-4486

LacA编码区 4553-6295

tetr编码 6669-9442

转座酶编码区 10683-12111(组成链)

IE盒(cassette) 12184-12225

colE1序列 127732-19182

用SphI和KpnI将图4所示的IE盒切下，并通过标准的断裂和连接方法用含有OE/IE样部分的合成的末端盒替换。质粒pRZ1496在固定的野生型OE序列和克隆的OE/IE样序列之间包含可检测到活性的基因(即LacZYA)以及可选择标记基因tet^r。LacZ基因缺失，因为它缺少合适的转录和翻译起始信号。LacZ基因只有在其被转座入这些信号下游位置时才会被转录和翻译。

用电穿孔将所得克隆转化入dam^-，LacZ^-细菌细胞中，在本例中是在LB培养基中标准条件下、37℃生长的JCM101/pOXgen细胞。dam^-株是较佳的，因为dam甲基化能抑制IE的使用，而野生型IE序列包括两个dam甲基化位点。出于评估转座活性的考虑，dam^-株消除了dam甲基化。选择的Tet^r细胞是LacZ^-；在阴性背景下很容易检测到转座激活的Lac表达。pOXgen是非必需的F因子衍生物，宿主细胞中可以不提供。

在一些实验中，EK54/MA56转座酶由转化的pRZ1496质粒直接编码。在其它实验中，对pRZ1496质粒作修饰，从质粒中删去独特的HindIII/EagI片段(核苷酸9112-12083)(如图4所示)以防转座酶产生。在后一实验中，使宿主细胞与HindIII/EagI失的质粒(称为pRZ5451)(图4)、编码EK54/MA56转座酶的氯霉素抗性质粒共转化。在一些实验中，用编码野生型Tn5转座酶的类似质粒进行比较。

通过突起试验来评估转座频率，该试验是测定白色菌落中的蓝点数目(产生Lac的细胞或“突起”)。使转化细胞在葡萄糖-极限-Miller培养基(Miller，J.，Experiments in Molecular Genetics，Cold Spring Harbor Laboratory，Cold SpringHarbor，NY(1972))中平板培养(每个平板大约50个菌落)，培养基含有0.3％酪蛋白氨基酸、5-溴-4-氯-3-吲哚-β-D-半乳糖苷(40μg/ml)和苯基-β-D-半乳糖苷(0.05％)。培养基还有四环素(15μg/ml)，需要的话还含有氯霉素(20μg/ml)。评价筛选后存活的菌落的体内转座频率。尽管显出很多突起的菌落很容易用肉眼看到，但还是在几天(接种约90小时)后测定每个菌落蓝点的数目。

为了表明高突起的表型是质粒中末端突变所赋予的，如果菌落表现出的突起水平高于质粒上包括野生型IE时观见的水平，则对菌落重新划线培养。对从划线培养平板中挑取的菌落进行挑取和培养。用标准方法从培育的细胞中获得DNA，纯化并再次转化入“干净的”JCM101/pOXgen细胞中。在上述试验中再次与含有野生型IE的质粒的突起水平进行比较，观察到的结果一致。

为了获得DNA以对插入的寡核苷酸进行测序，在117个高突起(hyperpapillating)菌落的白色部分中生长培育物中，用标准的DNA微量制备方法从每一菌落中制得DNA。测定117个克隆的OE/IE样部分的DNA序列(42个来自用pRZ1496作为克隆载体的转化；75个来自用pRZ5451作为克隆载体的转化)。观察到只有29个独特的突变体。对许多突变体进行多次分离。突起频率最高的所有突变体在10、11和12位都含有OE衍生碱基。当这些位置保留了OE样碱基时，就不可能测定其它变化对转座的影响，因为突起水平已经非常高了。

如上所述对1575个菌落进行筛选。对所有128个可能的突变型序列进行筛选的可能性大于95％。因此，用测试的转座酶来获得对更高的转化频率有贡献的其它末端是不可能的。

表I

杂交末端序列与EK54Tnp的反式突起水平突变体位置 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 突起水平^a 分离次数^b

IE c t g T c t c t t G A T c a G a T C t VL 0

OE A A T A C A G M 6

1 A T A H 2

2 A T A C H 3

3 A T A A H 5

4 A T A C A H 4

5 A T A C G H 6

6 A T A A G H 6

7 A T A C A G H 4

8 A T A G M 7

9 A A T A M 3

10 A A T A C M 2

11 A A T A A M 1

12 A A T A G 0

13 A A T A C A 0

14 A A T A C G M 4

15 A A T A A G M 4

16 A T C A L 2

17 A T A G L 1

18 A T C A G L 2

19 A C A G L 1

20 T C A G L 1

21 C A G L 1列出了在pRZ5451上分离到的所有杂交末端序列，当EK54 Tnp从pFMA187中表达出时，其突起频率高于野生型IE。^a野生型IE、野生型OE和杂交末端序列的反式突起水平分成下列几种：VL-非常低；L-低；M-中等；H-高。^b尽管本实验中没有发现突变体12和13，但是它们在顺式突起筛选中被发现(表II)。

表II 杂交末端序列与EK54Tnp的顺式突起水平突变体位置 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 突起水平^a 分离次数^b

IE c t g T c t c t t G A T c a G a T C t L 0

OE A A T A C A G H 2

1 A T A H 2

2 A T A C 0

3 A T A A H 1

4 A T A C A H 1

5 A T A C G H 1

6 A T A A G H 2

7 A T A C A G H 3

8 A T A G H 1

9 A A T A H 110 A A T A C 011 A A T A A H 212 A A T A G MH 313 A A T A C A MH 114 A A T A C G 015 A A T A A G H 216 A T C M 117 A T A G M 118 A A T C M 219 A A T C A M 220 A A T C A G M 121 A A A M 422 A A G M 123 A A C A G M 124 A C A M 125 A C A G M 126 T C A G M 127 C A G M 2列出了在pRZ1496上分离到的所有杂交末端序列，当EK54 Tnp从同一质粒中表达出时，其突起频率高于野生型IE。^a野生型IE、野生型OE和杂交末端序列的顺式突起水平分成下列几种：L-低；M-中等；MH-中高等；H-高。^b尽管本实验中没有发现突变体2、10和14，但是它们在反式突起筛选中被发现(表I)。

表I和II报道了携带所示杂交末端序列、野生型OE或IE末端序列的突变体构建物的定性的突起水平。在该表中，末端每个位置的序列对应于野生型IE，除非另有所指。申请人意图是，尽管序列以简化记号表示，本领域技术人员很容易确定所示每个突变体的全部19个碱基对的序列，因此本说明书应看成包括所有这些全部的序列。表I包括以反式提供的EK54转座酶的实验数据；表II包括以顺式提供的EK54转座酶的那些实验数据。尽管以顺式提供的转座酶在绝对上比以反式提供的转座酶更具活性，但是顺式或反式来源的转座酶不会改变测试末端相对的体内转座频率。

表I和II表明，在10、11和12位分别保留了A、T和A的每个突变体有类似于或高于野生型OE的活性，无论野生型OE的活性是中等(表I，反式)还是较高的(表II，顺式)。而且，当突变体中的三个碱基序列不是ATA时，突变体均表现为突起活性低于野生型OE。也注意到，突起(水平)至少与野生型OE相当并且当4位是T时可能要显著地高于野生型OE。

在所示比较水平(非常低、低、中等、中高、和高)外进行突起水平定量分析很困难。然而，本领域技术人员很容易注意到OE的突起水平，并且能识别有相当或更高水平的那些菌落。这有助于通过放大观察突起。

观察到的突起数随时间而增高，如图5-7所示，图中粗略地定量测定了用含有不同的合成末端盒或野生型OE或IE末端的9个克隆分别转化的细胞中的突起数。在这3张图中，通过与野生型IE序列的差别确定每种突变体。注意到在测试的突变体中，只有10A/11T/12A突变体的转座突起水平高于野生型OE。那种称为突变体4/15/17/18(以OE作为参考序列)是图5-7中示出的唯一的在10、11和12位保留核苷酸ATA的突变体。图5(y轴：0-1500个突起)和6(y轴：0-250个突起)显示出用不同突变体以及IE和OE对照和EK54/MA56酶时的突起情况。图7(y轴：0-250个突起)显示了当相同突变型序列对野生型转座酶(更合适地是MA56)进行测试时的突起情况。10A/11T/12A突变体(SEQ ID NO：9)用ED54/MA56转座酶在更短的时间(68小时)内产生的突起(大约3000)明显高于野生型OE甚至在90小时后所见的突起(大约1500)。在IE样背景上15位的单个OE样核苷酸也提高了突起频率。

另外还在四环素抗性试验中用有高水平高突起的两个序列来定量测定体内转座频率。这两个序列是：5′-CTGTCTCTTATACACATCT-3′(SEQ ID NO：8)，其在4、17和18位(从5′端计)与野生型OE序列不同；5′-CTGTCTCTTATACAGATCT-3′(SEQ ID NO：9)，其在4、15、17和18位与野生型OE不同。这两个序列被认为是在采用含有EK54/MA56或MA56转座酶的试验中较佳的突变型末端。将每个序列分别工程改造到pRZTL1中以代替质粒的两个野生型OE序列。含有侧接卡那霉素抗性基因的所需末端的PCR扩增片段很容易被克隆到pRZTL1的HindIII大片段中。所得质粒除所示末端外与pZRTL1相同。为了比较，还测试了含有两个野生型IE序列的pRZTL1与pRZTL1衍生物。在测定中，使JCM101/pOXgen细胞与测试质粒(pRZT1或衍生物)以及编码EK54/MA56转座酶或野生型(MA56)转座酶的高拷贝数amp^r质粒共转化。宿主细胞只有在转座活动将Tet^r基因带入邻近质粒或染色体上某处合适的转录启动子的下游时才会有四环素抗性。通过计数有氯霉素抗性、氨苄青霉素抗性的菌落来测定接受测试质粒的细胞总数。取tet^r/cam^ramp^r菌落的比值计算转座频率。当用任一种突变型末端和EK54/MA56转座酶时，观察到体内转座比野生型OE约提高40-60倍。在两种较佳的突变型末端中，含有相对于野生型OE序列有三处突变的那一种突变型末端产生的转座有更大的增加。

如图8(该图绘出了测试质粒对于转座频率(×10^-8)的关系)所示，当测试质粒包括两个IE末端时集合未见转座。当测试质粒包括两个OE末端，尤其当采用EK54/MA56转座酶时，观察到转座水平稍高一些。显著的对比是，EK54/MA56转座酶与任一较佳的所选末端(只在10、11和12位、或是10，11、12和15位含有OE样碱基)的组合产生了大大高于野生型OE末端的体内转座。

提供具有最佳的合成末端序列5′-CTGTCTCTTATACACATCT-3′(SEQ IDNO：8)的较佳的超活性突变型末端，来代替pRZTL1(图4)中的两个野生型OE末端，并用本文所述的三突变转座酶在本发明体外转座试验中进行测试。选择这种突变型末端以进行进一步的体外分析，因为其转座频率高于第二种较佳的合成末端，且其没有dam甲基化位点，因此dam甲基化不再影响转座频率。相反，4/15/17/18突变确实有dam甲基化位点。

在初步的实验中，从反应物中取消CHAPS，但是采用了预培育步骤。使反应物20℃预培育1小时，然后稀释两倍，然后37℃培育3小时。采用约0.5μg DNA和0.4μg转座酶。在凝胶上观察转座产物。对于突变型末端，发现有非常少的最初DNA。发现有表示初级和次级转座反应产物的多条带。将反应混合物转化入DH5α细胞中，接种在含有氯霉素、四环素或卡那霉素的平板上培养。

发现有640个具有氯霉素抗性的菌落。尽管这些菌落可能表示未反应的质粒，但是所有这些测试的菌落(n＝12)均对卡那霉素敏感，这表明DNA供体骨架丢失。所有12个菌落也包括了不同大小的质粒；12个中有9个的特征是缺失-插入物，其余3个是简单的缺失。发现79个具有四环素抗性的菌落，这表明转座激活了tet^r基因。

发现有11个具有卡那霉素抗性的菌落。这表明携带DNA供体骨架的剩余质粒的百分数很低。

在第二个类似的实验中，采用约1μg质粒DNA和0.2μg转座酶。在这个实验中，使反应物在37℃、没有CHAPS下培育3小时，不用预培育或稀释。反应3小时后，在凝胶上发现一些最初的DNA。在培育过夜后，发现只有转座产物。

如上所述将反应3小时的产物转化入DH5α细胞中并接种平板培养。约50％的具有氯霉素抗性的菌落对卡那霉素敏感，估计它们是转座产物。

本发明并非局限于前述的实施例，而是包括了在所附权利要求范围内的所有这样的改动和变化。可以预计，除了本文具体指出的以外，其它应用对分子生物学家来说也是明显的。特别是，将所需突变引入原核或真核DNA中的方法是非常称心的。例如，目前通过与质粒上存在的灭活基因同源重组来敲除功能性真核基因是很困难的。困难在于需要用伸长的上游和下游序列来将基因侧接到质粒上。然而，通过采用本系统，含有可选择标记基因(如neo)的灭活性可转座元件能在体外引入含有需要灭活基因的质粒中。在转座后，可将产物引入合适的宿主细胞中。采用标准的选择方法，就能只回收含具有可转座元件的质粒的细胞菌落。这些质粒(例如)可通过限制性分析来进行筛选，以回收含有破坏的基因的菌落。然后可将这样的克隆直接引入真核细胞中进行同源重组，并用相同的标记物基因来筛选。

同样，也可用系统将PCR扩增的DNA片段方便地插入载体中，从而完全避免了常规的克隆步骤。这可通过下列步骤来实现：(1)提供一对合适的PCR引物，引物的序列特异性部分邻近含有OE末端，(2)对所需核酸片段进行标准的PCR扩增，(3)以PCR扩增的双链产物作为DNA供体，进行本发明的体外转座反应。

序列表(1)一般信息：

(i)申请人：Reznikoff，william S

Gorysin，Igor Y

Zhou.Hong(ii)发明名称：体外转座系统(iii)序列数目：11(iv)通信地址：

(A)收件人：Quarles & Brady

(B)街道：I South Pinckney Street

(C)城市：Madison

(D)州：WI

(E)国家：USA

(F)邮编：53703(v)计算机可读形式：

(A)记录介质类型：软盘

(B)计算机：IBM PC兼容型

(C)操作系统：PC-DOS/MS-DOS

(D)软件：PatentIn Release #1.0，Version # 1.30(vi)本申请资料：

(A)申请号：

(B)申请日：

(C)分类：(viii)律师/代理人信息：

(A)姓名：Berson，Bennett J

(B)登记号：37094

(C)参考/案卷号：960296.94142(ix)通讯信息：

(A)电话：608/251-5000

(B)电传：608-251-9166(2)SEQ ID NO：1的信息：(i)序列特征：

(A)长度：1534碱基对

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(ii)分子类型：其它核酸

(A)描述：/描述＝＂编码修饰的Tn5转座酶的基因＂(ix)特征：

(A)名称/关键：CDS

(B)位置：93..1523

(xi)序列描述：SEQ ID NO：1：CTGACTCTTA TACACAAGTA GCGTCCTGAA CGGAACCTTT CCCGTTTTCC AGGATCTGAT 60CTTCCATGTG ACCTCCTAAC ATGGTAACGT TC ATG ATA ACT TCT GCT CTT CAT 113

Met Ile Thr Ser Ala Leu His

1 5CGT GCG GCC GAC TGG GCT AAA TCT GTG TTC TCT TCG GCG GCG CTG GGT 161Arg Ala Ala Asp Trp Ala Lys Ser Val Phe Ser Ser Ala Ala Leu Gly

10 15 20GAT CCT CGC CGT ACT GCC CGC TTG GTT AAC GTC GCC GCC CAA TTG GCA 209Asp Pro Arg Arg Thr Ala Arg Leu Val Asn Val Ala Ala Gln Leu Ala

25 30 35AAA TAT TCT GGT AAA TCA ATA ACC ATC TCA TCA GAG GGT AGT AAA GCC 257Lys Tyr Ser Gly Lys Ser Ile Thr Ile Ser Ser Glu Gly Ser Lys Ala40 45 50 55GCC CAG GAA GGC GCT TAC CGA TTT ATC CGC AAT CCC AAC GTT TCT GCC 305Ala Gln Glu Gly Ala Tyr Arg Phe Ile Arg Asn Pro Asn Val Ser Ala

60 65 70GAG GCG ATC AGA AAG GCT GGC GCC ATG CAA ACA GTC AAG TTG GCT CAG 353Glu Ala Ile Arg Lys Ala Gly Ala Met Gln Thr Val Lys Leu Ala Gln

75 80 85GAG TTT CCC GAA CTG CTG GCC ATT GAG GAC ACC ACC TCT TTG AGT TAT 401Glu Phe Pro Glu Leu Leu Ala Ile Glu Asp Thr Thr Ser Leu Ser Tyr

90 95 100CGC CAC CAG GTC GCC GAA GAG CTT GGC AAG CTG GGC TCT ATT CAG GAT 449Arg His Gln Val Ala Glu Glu Leu Gly Lys Leu Gly Ser Ile Gln Asp

105 110 115AAA TCC CGC GGA TGG TGG GTT CAC TCC GTT CTC TTG CTC GAG GCC ACC 497Lys Ser Arg Gly Trp Trp Val His Ser Val Leu Leu Leu Glu Ala Thr120 125 130 135ACA TTC CGC ACC GTA GGA TTA CTG CAT CAG GAG TGG TGG ATG CGC CCG 545Thr Phe Arg Thr Val Gly Leu Leu His Gln Glu Trp Trp Met Arg Pro

140 145 150GAT GAC CCT GCC GAT GCG GAT GAA AAG GAG AGT GGC AAA TGG CTG GCA 593Asp Asp Pro Ala Asp Ala Asp Glu Lys Glu Ser Gly Lys Trp Leu Ala

155 160 165GCG GCC GCA ACT AGC CGG TTA CGC ATG GGC AGC ATG ATG AGC AAC GTG 641Ala Ala Ala Thr Ser Arg Leu Arg Met Gly Ser Met Met Ser Asn Val

170 175 180ATT GCG GTC TGT GAC CGC GAA GCC GAT ATT CAT GCT TAT CTG CAG GAC 689Ile Ala Val Cys Asp Arg Glu Ala Asp Ile His Ala Tyr Leu Gln Asp

185 190 195AGG CTG GCG CAT AAC GAG CGC TTC GTG GTG CGC TCC AAG CAC CCA CGC 737Arg Leu Ala His Asn Glu Arg Phe Val Val Arg Ser Lys His Pro Arg200 205 210 215AAG GAC GTA GAG TCT GGG TTG TAT CTG ATC GAC CAT CTG AAG AAC CAA 785Lys Asp Val Glu Ser Gly Leu Tyr Leu Ile Asp His Leu Lys Asn Gln

220 225 230CCG GAG TTG GGT GGC TAT CAG ATC AGC ATT CCG CAA AAG GGC GTG GTG 833Pro Glu Leu Gly Gly Tyr Gln Ile Ser Ile Pro Gln Lys Gly Val Val

235 240 245GAT AAA CGC GGT AAA CGT AAA AAT CGA CCA GCC CGC AAG GCG AGC TTG 881Asp Lys Arg Gly Lys Arg Lys Asn Arg Pro Ala Arg Lys Ala Ser Leu

250 255 260AGC CTG CGC AGT GGG CGC ATC ACG CTA AAA CAG GGG AAT ATC ACG CTC 929Ser Leu Arg Ser Gly Arg Ile Thr Leu Lys Gln Gly Asn Ile Thr Leu

265 270 275AAC GCG GTG CTG GCC GAG GAG ATT AAC CCG CCC AAG GGT GAG ACC CCG 977Asn Ala Val Leu Ala Glu Glu Ile Asn Pro Pro Lys Gly Glu Thr Pro280 285 290 295TTG AAA TGG TTG TTG CTG ACC GGC GAA CCG GTC GAG TCG CTA GCC CAA 1025Leu Lys Trp Leu Leu Leu Thr Gly Glu Pro Val Glu Ser Leu Ala Gln

300 305 310GCC TTG CGC GTC ATC GAC ATT TAT ACC CAT CGC TGG CGG ATC GAG GAG 1073Ala Leu Arg Val Ile Asp Ile Tyr Thr His Arg Trp Arg Ile Glu Glu

315 320 325TTC CAT AAG GCA TGG AAA ACC GGA GCA GGA GCC GAG AGG CAA CGC ATG 1121Phe His Lys Ala Trp Lys Thr Gly Ala Gly Ala Glu Arg Gln Arg Met

330 335 340GAG GAG CCG GAT AAT CTG GAG CGG ATG GTC TCG ATC CTC TCG TTT GTT 1169Glu Glu Pro Asp Asn Leu Glu Arg Met Val Ser Ile Leu Ser Phe Val

345 350 355GCG GTC AGG CTG TTA CAG CTC AGA GAA AGC TTC ACG CCG CCG CAA GCA 1217Ala Val Arg Leu Leu Gln Leu Arg Glu Ser Phe Thr Pro Pro Gln Ala360 365 370 375CTC AGG GCG CAA GGG CTG CTA AAG GAA GCG GAA CAC GTA GAA AGC CAG 1265Leu Arg Ala Gln Gly Leu Leu Lys Glu Ala Glu His Val Glu Ser Gln

380 385 390TCC GCA GAA ACG GTG CTG ACC CCG GAT GAA TGT CAG CTA CTG GGC TAT 1313Ser Ala Glu Thr Val Leu Thr Pro Asp Glu Cys Gln Leu Leu Gly Tyr

395 400 405CTG GAC AAG GGA AAA CGC AAG CGC AAA GAG AAA GCA GGT AGC TTG CAG 1361Leu Asp Lys Gly Lys Arg Lys Arg Lys Glu Lys Ala Gly Ser Leu Gln

410 415 420TGG GCT TAC ATG GCG ATA GCT AGA CTG GGC GGT TTT ATG GAC AGC AAG 1409Trp Ala Tyr Met Ala Ile Ala Arg Leu Gly Gly Phe Met Asp Ser Lys

425 430 435CGA ACC GGA ATT GCC AGC TGG GGC GCC CTC TGG GAA GGT TGG GAA GCC 1457Arg Thr Gly Ile Ala Ser Trp Gly Ala Leu Trp Glu Gly Trp Glu Ala440 445 450 455CTG CAA AGT AAA CTG GAT GGC TTT CTT GCC GCC AAG GAT CTG ATG GCG 1505Leu Gln Ser Lys Leu Asp Gly Phe Leu Ala Ala Lys Asp Leu Met Ala

460 465 470CAG GGG ATC AAG ATC TGA TCAAGAGACA G 1534Gln Gly Ile Lys Ile *

475(2)SEQ ID NO：2的信息：

(i)序列特征：

(A)长度：477氨基酸

(B)类型：氨基酸

(D)拓扑结构：线性

(ii)分子类型：蛋白质

(xi)序列描述：SEQ ID NO：2：Met Ile Thr Ser Ala Leu His Arg Ala Ala Asp Trp Ala Lys Ser Val1 5 10 15Phe Ser Ser Ala Ala Leu Gly Asp Pro Arg Arg Thr Ala Arg Leu Val

20 25 30Asn Val Ala Ala Gln Leu Ala Lys Tyr Ser Gly Lys Ser Ile Thr Ile

35 40 45Ser Ser Glu Gly Ser Lys Ala Ala Gln Glu Gly Ala Tyr Arg Phe Ile

50 55 60Arg Asn Pro Asn Val Ser Ala Glu Ala Ile Arg Lys Ala Gly Ala Met65 70 75 80Gln Thr Val Lys Leu Ala Gln Glu Phe Pro Glu Leu Leu Ala Ile Glu

85 90 95Asp Thr Thr Ser Leu Ser Tyr Arg His Gln Val Ala Glu Glu Leu Gly

100 105 110Lys Leu Gly Ser Ile Gln Asp Lys Ser Arg Gly Trp Trp Val His Ser

115 120 125Val Leu Leu Leu Glu Ala Thr Thr Phe Arg Thr Val Gly Leu Leu His

130 135 140Gln Glu Trp Trp Met Arg Pro Asp Asp Pro Ala Asp Ala Asp Glu Lys145 150 155 160Glu Ser Gly Lys Trp Leu Ala Ala Ala Ala Thr Ser Arg Leu Arg Met

165 170 175Gly Ser Met Met Ser Asn Val Ile Ala Val Cys Asp Arg Glu Ala Asp

180 185 190Ile His Ala Tyr Leu Gln Asp Arg Leu Ala His Asn Glu Arg Phe Val

195 200 205Val Arg Ser Lys His Pro Arg Lys Asp Val Glu Ser Gly Leu Tyr Leu

23

210 215 220Ile Asp His Leu Lys Asn Gln Pro Glu Leu Gly Gly Tyr Gln Ile Ser225 230 235 240Ile Pro Gln Lys Gly Val Val Asp Lys Arg Gly Lys Arg Lys Asn Arg

245 250 255Pro Ala Arg Lys Ala Ser Leu Ser Leu Arg Ser Gly Arg Ile Thr Leu

260 265 270Lys Gln Gly Asn Ile Thr Leu Asn Ala Val Leu Ala Glu Glu Ile Asn

275 280 285Pro Pro Lys Gly Glu Thr Pro Leu Lys Trp Leu Leu Leu Thr Gly Glu

290 295 300Pro Val Glu Ser Leu Ala Gln Ala Leu Arg Val Ile Asp Ile Tyr Thr305 310 315 320His Arg Trp Arg Ile Glu Glu Phe His Lys Ala Trp Lys Thr Gly Ala

325 330 335Gly Ala Glu Arg Gln Arg Met Glu Glu Pro Asp Asn Leu Glu Arg Met

340 345 350Val Ser Ile Leu Ser Phe Val Ala Val Arg Leu Leu Gln Leu Arg Glu

355 360 365Ser Phe Thr Pro Pro Gln Ala Leu Arg Ala Gln Gly Leu Leu Lys Glu

370 375 380Ala Glu His Val Glu Ser Gln Ser Ala Glu Thr Val Leu Thr Pro Asp385 390 395 400Glu Cys Gln Leu Leu Gly Tyr Leu Asp Lys Gly Lys Arg Lys Arg Lys

405 410 415Glu Lys Ala Gly Ser Leu Gln Trp Ala Tyr Met Ala Ile Ala Arg Leu

420 425 430Gly Gly Phe Met Asp Ser Lys Arg Thr Gly Ile Ala Ser Trp Gly Ala

435 440 445Leu Trp Glu Gly Trp Glu Ala Leu Gln Ser Lys Leu Asp Gly Phe Leu

450 455 460Ala Ala Lys Asp Leu Met Ala Gln Gly Ile Lys Ile *465 470 475(2)SEQ ID NO：3的信息：

(i)序列特征：

(A)长度：5838碱基对

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：环状(ii)分子类型：其它核酸

(A)描述：/描述＝＂质粒DNA＂ (vii)来源：

(B)克隆：pRZTLl(ix)特征：

(A)名称/关键：插入序列

(B)位置：1..19(ix)特征：

(A)名称/关键：CDS

(B)位置：77..1267

(D)其它信息：/功能＝＂四环素抗性＂(ix)特征：

(A)名称/关键：CDS

(B)位置：互补(2301..2960)

(D)其它信息：/功能＝＂氯霉素抗性＂(ix)特征：

(A)名称/关键：插入序列

(B)位置：4564..4582(ix)特征：

(A)名称/关键：CDS

(B)位置：4715..5530

(D)其它信息：/功能＝＂卡那霉素抗性＂(xi)序列描述：SEQ ID NO：3：CTGACTCTTA TACACAAGTA AGCTTTAATG CGGTAGTTTA TCACAGTTAA ATTGCTAACG 60CAGTCAGGCA CCGTGT ATG AAA TCT AAC AAT GCG CTC ATC GTC ATC CTC 109

Met Lys Ser Asn Asn Ala Leu Ile Val Ile Leu

480 485GGC ACC GTC ACC CTG GAT GCT GTA GGC ATA GGC TTG GTT ATG CCG GTA 157Gly Thr Val Thr Leu Asp Ala Val Gly Ile Gly Leu Val Met Pro Val

490 495 500CTG CCG GGC CTC TTG CGG GAT ATC GTC CAT TCC GAC AGC ATC GCC AGT 205Leu Pro Gly Leu Leu Arg Asp Ile Val His Ser Asp Ser Ile Ala Ser505 510 515 520CAC TAT GGC GTG CTG CTA GCG CTA TAT GCG TTG ATG CAA TTT CTA TGC 253His Tyr Gly Val Leu Leu Ala Leu Tyr Ala Leu Met Gln Phe Leu Cys

525 530 535GCA CCC GTT CTC GGA GCA CTG TCC GAC CGC TTT GGC CGC CGC CCA GTC 301Ala Pro Val Leu Gly Ala Leu Ser Asp Arg Phe Gly Arg Arg Pro Val

540 545 550CTG CTC GCT TCG CTA CTT GGA GCC ACT ATC GAC TAC GCG ATC ATG GCG 349Leu Leu Ala Ser Leu Leu Gly Ala Thr Ile Asp Tyr Ala Ile Met Ala

555 560 565ACC ACA CCC GTC CTG TGG ATC CTC TAC GCC GGA CGC ATC GTG GCC GGC 397Thr Thr Pro Val Leu Trp Ile Leu Tyr Ala Gly Arg Ile Val Ala Gly

570 575 580ATC ACC GGC GCC ACA GGT GCG GTT GCT GGC GCC TAT ATC GCC GAC ATC 445Ile Thr Gly Ala Thr Gly Ala Val Ala Gly Ala Tyr Ile Ala Asp Ile585 590 595 600ACC GAT GGG GAA GAT CGG GCT CGC CAC TTC GGG CTC ATG AGC GCT TGT 493Thr Asp Gly Glu Asp Arg Ala Arg His Phe Gly Leu Met Ser Ala Cys

605 610 615TTC GGC GTG GGT ATG GTG GCA GGC CCC GTG GCC GGG GGA CTG TTG GGC 541Phe Gly Val Gly Met Val Ala Gly Pro Val Ala Gly Gly Leu Leu Gly

620 625 630GCC ATC TCC TTG CAT GCA CCA TTC CTT GCG GCG GCG GTG CTC AAC GGC 589Ala Ile Ser Leu His Ala Pro Phe Leu Ala Ala Ala Val Leu Asn Gly

635 640 645CTC AAC CTA CTA CTG GGC TGC TTC CTA ATG CAG GAG TCG CAT AAG GGA 637Leu Asn Leu Leu Leu Gly Cys Phe Leu Met Gln Glu Ser His Lys Gly

650 655 660GAG CGT CGA CCG ATG CCC TTG AGA GCC TTC AAC CCA GTC AGC TCC TTC 685Glu Arg Arg Pro Met Pro Leu Arg Ala Phe Asn Pro Val Ser Ser Phe665 670 675 680CGG TGG GCG CGG GGC ATG ACT ATC GTC GCC GCA CTT ATG ACT GTC TTC 733Arg Trp Ala Arg Gly Met Thr Ile Val Ala Ala Leu Met Thr Val Phe

685 690 695TTT ATC ATG CAA CTC GTA GGA CAG GTG CCG GCA GCG CTC TGG GTC ATT 781Phe Ile Met Gln Leu Val Gly Gln Val Pro Ala Ala Leu Trp Val Ile

700 705 710TTC GGC GAG GAC CGC TTT CGC TGG AGC GCG ACG ATG ATC GGC CTG TCG 829Phe Gly Glu Asp Arg Phe Arg Trp Ser Ala Thr Met Ile Gly Leu Ser

715 720 725CTT GCG GTA TTC GGA ATC TTG CAC GCC CTC GCT CAA GCC TTC GTC ACT 877Leu Ala Val Phe Gly Ile Leu His Ala Leu Ala Gln Ala Phe Val Thr

730 735 740GGT CCC GCC ACC AAA CGT TTC GGC GAG AAG CAG GCC ATT ATC GCC GGC 925Gly Pro Ala Thr Lys Arg Phe Gly Glu Lys Gln Ala Ile Ile Ala Gly745 750 755 760ATG GCG GCC GAC GCG CTG GGC TAC GTC TTG CTG GCG TTC GCG ACG CGA 973Met Ala Ala Asp Ala Leu Gly Tyr Val Leu Leu Ala Phe Ala Thr Arg

765 770 775GGC TGG ATG GCC TTC CCC ATT ATG ATT CTT CTC GCT TCC GGC GGC ATC 1021Gly Trp Met Ala Phe Pro Ile Met Ile Leu Leu Ala Ser Gly Gly Ile

780 785 790GGG ATG CCC GCG TTG CAG GCC ATG CTG TCC AGG CAG GTA GAT GAC GAC 1069Gly Met Pro Ala Leu Gln Ala Met Leu Ser Arg Gln Val Asp Asp Asp

795 800 805CAT CAG GGA CAG CTT CAA GGA TCG CTC GCG GCT CTT ACC AGC CTA ACT 1117His Gln Gly Gln Leu Gln Gly Ser Leu Ala Ala Leu Thr Ser Leu Thr

810 815 820TCG ATC ACT GGA CCG CTG ATC GTC ACG GCG ATT TAT GCC GCC TCG GCG 1165Ser Ile Thr Gly Pro Leu Ile Val Thr Ala Ile Tyr Ala Ala Ser Ala825 830 835 840AGC ACA TGG AAC GGG TTG GCA TGG ATT GTA GGC GCC GCC CTA TAC CTT 1213Ser Thr Trp Asn Gly Leu Ala Trp Ile Val Gly Ala Ala Leu Tyr Leu

845 850 855GTC TGC CTC CCC GCG TTG CGT CGC GGT GCA TGG AGC CGG GCC ACC TCG 1261Val Cys Leu Pro Ala Leu Arg Arg Gly Ala Trp Ser Arg Ala Thr Ser

860 865 870ACC TGA ATGGAAGCCG GCGGCACCTC GCTAACGGAT TCACCACTCC AAGAATTGGA 1317Thr *GCCAATCAAT TCTTGCGGAG AACTGTGAAT GCGCAAACCA ACCCTTGGCA GAACATATCC 1377ATCGCGTCCG CCATCTCCAG CAGCCGCACG CGGCGCATCT CGGGCAGCGT TGGGTCCTGG 1437CCACGGGTGC GCATGATCGT GCTCCTGTCG TTGAGGACCC GGCTAGGCTG GCGGGGTTGC 1497CTTACTGGTT AGCAGAATGA ATCACCGATA CGCGAGCGAA CGTGAAGCGA CTGCTGCTGC 1557AAAACGTCTG CGACCTGAGC AACAACATGA ATGGTCTTCG GTTTCCGTGT TTCGTAAAGT 1617CTGGAAACGC GGAAGTCCCC TACGTGCTGC TGAAGTTGCC CGCAACAGAG AGTGGAACCA 1677ACCGGTGATA CCACGATACT ATGACTGAGA GTCAACGCCA TGAGCGGCCT CATTTCTTAT 1737TCTGAGTTAC AACAGTCCGC ACCGCTGTCC GGTAGCTCCT TCCGGTGGGC GCGGGGCATG 1797ACTATCGTCG CCGCACTTAT GACTGTCTTC TTTATCATGC AACTCGTAGG ACAGGTGCCG 1857GCAGCGCCCA ACAGTCCCCC GGCCACGGGG CCTGCCACCA TACCCACGCC GAAACAAGCG 1917CCCTGCACCA TTATGTTCCG GATCTGCATC GCAGGATGCT GCTGGCTACC CTGTGGAACA 1977CCTACATCTG TATTAACGAA GCGCTAACCG TTTTTATCAG GCTCTGGGAG GCAGAATAAA 2037TGATCATATC GTCAATTATT ACCTCCACGG GGAGAGCCTG AGCAAACTGG CCTCAGGCAT 2097TTGAGAAGCA CACGGTCACA CTGCTTCCGG TAGTCAATAA ACCGGTAAAC CAGCAATAGA 2157CATAAGCGGC TATTTAACGA CCCTGCCCTG AACCGACGAC CGGGTCGAAT TTGCTTTCGA 2217ATTTCTGCCA TTCATCCGCT TATTATCAAT TATTCAGGCG TAGCACCAGG CGTTTAAGGG 2277CACCAATAAC TGCCTTAAAA AAATTACGCC CCGCCCTGCC ACTCATCGCA GTACTGTTGT 2337AATTCATTAA GCATTCTGCC GACATGGAAG CCATCACAGA CGGCATGATG AACCTGAATC 2397GCCAGCGGCA TCAGCACCTT GTCGCCTTGC GTATAATATT TGCCCATGGT GAAAACGGGG 2457GCGAAGAAGT TGTCCATATT GGCCACGTTT AAATCAAAAC TGGTGAAACT CACCCAGGGA 2517TTGGCTGAGA CGAAAAACAT ATTCTCAATA AACCCTTTAG GGAAATAGGC CAGGTTTTCA 2577CCGTAACACG CCACATCTTG CGAATATATG TGTAGAAACT GCCGGAAATC GTCGTGGTAT 2637TCACTCCAGA GCGATGAAAA CGTTTCAGTT TGCTCATGGA AAACGGTGTA ACAAGGGTGA 2697ACACTATCCC ATATCACCAG CTCACCGTCT TTCATTGCCA TACGGAATTC CGGATGAGCA 2757TTCATCAGGC GGGCAAGAAT GTGAATAAAG GCCGGATAAA ACTTGTGCTT ATTTTTCTTT 2817ACGGTCTTTA AAAAGGCCGT AATATCCAGC TGAACGGTCT GGTTATAGGT ACATTGAGCA 2877ACTGACTGAA ATGCCTCAAA ATGTTCTTTA CGATGCCATT GGGATATATC AACGGTGGTA 2937TATCCAGTGA TTTTTTTCTC CATTTTAGCT TCCTTAGCTC CTGAAAATCT CGATAACTCA 2997AAAAATACGC CCGGTAGTGA TCTTATTTCA TTATGGTGAA AGTTGGAACC TCTTACGTGC 3057CGATCAACGT CTCATTTTCG CCAAAAGTTG GCCCAGGGCT TCCCGGTATC AACAGGGACA 3117CCAGGATTTA TTTATTCTGC GAAGTGATCT TCCGTCACAG GTATTTATTC GGCGCAAAGT 3177GCGTCGGGTG ATGCTGCCAA CTTACTGATT TAGTGTATGA TGGTGTTTTT GAGGTGCTCC 3237AGTGGCTTCT GTTTCTATCA GCTGTCCCTC CTGTTCAGCT ACTGACGGGG TGGTGCGTAA 3297CGGCAAAAGC ACCGCCGGAC ATCAGCGCTA GCGGAGTGTA TACTGGCTTA CTATGTTGGC 3357ACTGATGAGG GTGTCAGTGA AGTGCTTCAT GTGGCAGGAG AAAAAAGGCT GCACCGGTGC 3417GTCAGCAGAA TATGTGATAC AGGATATATT CCGCTTCCTC GCTCACTGAC TCGCTACGCT 3477CGGTCGTTCG ACTGCGGCGA GCGGAAATGG CTTACGAACG GGGCGGAGAT TTCCTGGAAG 3537ATGCCAGGAA GATACTTAAC AGGGAAGTGA GAGGGCCGCG GCAAAGCCGT TTTTCCATAG 3597GCTCCGCCCC CCTGACAAGC ATCACGAAAT CTGACGCTCA AATCAGTGGT GGCGAAACCC 3657GACAGGACTA TAAAGATACC AGGCGTTTCC CCTGGCGGCT CCCTCGTGCG CTCTCCTGTT 3717CCTGCCTTTC GGTTTACCGG TGTCATTCCG CTGTTATGGC CGCGTTTGTC TCATTCCACG 3777CCTGACACTC AGTTCCGGGT AGGCAGTTCG CTCCAAGCTG GACTGTATGC ACGAACCCCC 3837CGTTCAGTCC GACCGCTGCG CCTTATCCGG TAACTATCGT CTTGAGTCCA ACCCGGAAAG 3897ACATGCAAAA GCACCACTGG CAGCAGCCAC TGGTAATTGA TTTAGAGGAG TTAGTCTTGA 3957AGTCATGCGC CGGTTAAGGC TAAACTGAAA GGACAAGTTT TGGTGACTGC GCTCCTCCAA 4017GCCAGTTACC TCGGTTCAAA GAGTTGGTAG CTCAGAGAAC CTTCGAAAAA CCGCCCTGCA 4077AGGCGGTTTT TTCGTTTTCA GAGCAAGAGA TTACGCGCAG ACCAAAACGA TCTCAAGAAG 4137ATCATCTTAT TAATCAGATA AAATATTTCT AGAGGTGAAC CATCACCCTA ATCAAGTTTT 4197TTGGGGTCGA GGTGCCGTAA AGCACTAAAT CGGAACCCTA AAGGGATGCC CCGATTTAGA 4257GCTTGACGGG GAAAGCCGGC GAACGTGGCG AGAAAGGAAG GGAAGAAAGC GAAAGGAGCG 4317GGCGCTAGGG CGCTGGCAAG TGTAGCGGTC ACGCTGCGCG TAACCACCAC ACCCGCCGCG 4377CTTAATGCGC CGCTACAGCG CCATTCGCCA TTCAGGCTGC GCAACTGTTG GGAAGGGCGA 4437TCGGTGCGGG CCTCTTCGCT ATTACGCCAG CTGGCGAAAG GGGGATGTGC TGCAAGGCGA 4497TTAAGTTGGG TAACGCCAGG GTTTTCCCAG TCACGACGTT GTAAAACGAC GGCCAGTGCC 4557AAGCTTACTT GTGTATAAGA GTCAGTCGAC CTGCAGGGGG GGGGGGGAAA GCCACGTTGT 4617GTCTCAAAAT CTCTGATGTT ACATTGCACA AGATAAAAAT ATATCATCAT GAACAATAAA 4677ACTGTCTGCT TACATAAACA GTAATACAAG GGGTGTT ATG AGC CAT ATT CAA CGG 4732

Met Ser His Ile Gln Arg

1 5GAA ACG TCT TGC TCG AGG CCG CGA TTA AAT TCC AAC ATG GAT GCT GAT 4780Glu Thr Ser Cys Ser Arg Pro Arg Leu Asn Ser Asn Met Asp Ala Asp

10 15 20TTA TAT GGG TAT AAA TGG GCT CGC GAT AAT GTC GGG CAA TCA GGT GCG 4828Leu Tyr Gly Tyr Lys Trp Ala Arg Asp Asn Val Gly Gln Ser Gly Ala

25 30 35ACA ATC TAT CGA TTG TAT GGG AAG CCC GAT GCG CCA GAG TTG TTT CTG 4876Thr Ile Tyr Arg Leu Tyr Gly Lys Pro Asp Ala Pro Glu Leu Phe Leu

40 45 50AAA CAT GGC AAA GGT AGC GTT GCC AAT GAT GTT ACA GAT GAG ATG GTC 4924Lys His Gly Lys Gly Ser Val Ala Asn Asp Val Thr Asp Glu Met Val55 60 65 70AGA CTA AAC TGG CTG ACG GAA TTT ATG CCT CTT CCG ACC ATC AAG CAT 4972Arg Leu Ash Trp Leu Thr Glu Phe Met Pro Leu Pro Thr Ile Lys His

75 80 85TTT ATC CGT ACT CCT GAT GAT GCA TGG TTA CTC ACC ACT GCG ATC CCC 5020Phe Ile Arg Thr Pro Asp Asp Ala Trp Leu Leu Thr Thr Ala Ile Pro

90 95 100GGG AAA ACA GCA TTC CAG GTA TTA GAA GAA TAT CCT GAT TCA GGT GAA 5068Gly Lys Thr Ala Phe Gln Val Leu Glu Glu Tyr Pro Asp Ser Gly Glu

105 110 115AAT ATT GTT GAT GCG CTG GCA GTG TTC CTG CGC CGG TTG CAT TCG ATT 5115Asn Ile Val Asp Ala Leu Ala Val Phe Leu Arg Arg Leu His Ser Ile

120 125 130CCT GTT TGT AAT TGT CCT TTT AAC AGC GAT CGC GTA TTT CGT CTC GCT 5164Pro Val Cys Asn Cys Pro Phe Asn Ser Asp Arg Val Phe Arg Leu Ala135 140 145 150CAG GCG CAA TCA CGA ATG AAT AAC GGT TTG GTT GAT GCG AGT GAT TTT 5212Gln Ala Gln Ser Arg Met Asn Asn Gly Leu Val Asp Ala Ser Asp Phe

155 160 165GAT GAC GAG CGT AAT GGC TGG CCT GTT GAA CAA GTC TGG AAA GAA ATG 5260Asp Asp Glu Arg Asn Gly Trp Pro Val Glu Gln Val Trp Lys Glu Met

170 175 180CAT AAG CTT TTG CCA TTC TCA CCG GAT TCA GTC GTC ACT CAT GGT GAT 5308His Lys Leu Leu Pro Phe Ser Pro Asp Ser Val Val Thr His Gly Asp

185 190 195TTC TCA CTT GAT AAC CTT ATT TTT GAC GAG GGG AAA TTA ATA GGT TGT 5356Phe Ser Leu Asp Asn Leu Ile Phe Asp Glu Gly Lys Leu Ile Gly Cys

200 205 210ATT GAT GTT GGA CGA GTC GGA ATC GCA GAC CGA TAC CAG GAT CTT GCC 5404Ile Asp Val Gly Arg Val Gly Ile Ala Asp Arg Tyr Gln Asp Leu Ala215 220 225 230ATC CTA TGG AAC TGC CTC GGT GAG TTT TCT CCT TCA TTA CAG AAA CGG 5452Ile Leu Trp Asn Cys Leu Gly Glu Phe Ser Pro Ser Leu Gln Lys Arg

235 240 245CTT TTT CAA AAA TAT GGT ATT GAT AAT CCT GAT ATG AAT AAA TTG CAG 5500Leu Phe Gln Lys Tyr Gly Ile Asp Asn Pro Asp Met Asn Lys Leu Gln

250 255 260TTT CAT TTG ATG CTC GAT GAG TTT TTC TAA TCAGAATTGG TTAATTGGTT 5550Phe His Leu Met Leu Asp Glu Phe Phe *

265 270GTAACACTGG CAGAGCATTA CGCTGACTTG ACGGGACGGC GGCTTTGTTG AATAAATCGA 5610ACTTTTGCTG AGTTGAAGGA TCAGATCACG CATCTTCCCG ACAACGCAGA CCGTTCCGTG 5670GCAAAGCAAA AGTTCAAAAT CACCAACTGG TCCACCTACA ACAAAGCTCT CATCAACCGT 5730GGCTCCCTCA CTTTCTGGCT GGATGATGGG GCGATTCAGG CCTGGTATGA GTCAGCAACA 5790CCTTCTTCAC GAGGCAGACC TCAGCGCCCC CCCCCCCCTG CAGGTCGA 5838(2)SEQ ID NO：4的信息：(i)序列特征：

(A)长度：397氨基酸

(B)类型：氨基酸

(D)拓扑结构：线性(ii)分子类型：蛋白质(xi)序列描述：SEQ ID N0：4：Met Lys Ser Asn Asn Ala Leu Ile Val Ile Leu Gly Thr Val Thr Leu1 5 10 15Asp Ala Val Gly Ile Gly Leu Val Met Pro Val Leu Pro Gly Leu Leu

20 25 30Arg Asp Ile Val His Ser Asp Ser Ile Ala Ser His Tyr Gly Val Leu

35 40 45Leu Ala Leu Tyr Ala Leu Met Gln Phe Leu Cys Ala Pro Val Leu Gly

50 55 60Ala Leu Ser Asp Arg Phe Gly Arg Arg Pro Val Leu Leu Ala Ser Leu65 70 75 80Leu Gly Ala Thr Ile Asp Tyr Ala Ile Met Ala Thr Thr Pro Val Leu

85 90 95Trp Ile Leu Tyr Ala Gly Arg Ile Val Ala Gly Ile Thr Gly Ala Thr

100 105 110Gly Ala Val Ala Gly Ala Tyr Ile Ala Asp Ile Thr Asp Gly Glu Asp

115 120 125Arg Ala Arg His Phe Gly Leu Met Ser Ala Cys Phe Gly Val Gly Met

130 135 140Val Ala Gly Pro Val Ala Gly Gly Leu Leu Gly Ala Ile Ser Leu His145 150 155 160Ala Pro Phe Leu Ala Ala Ala Val Leu Asn Gly Leu Asn Leu Leu Leu

165 170 175Gly Cys Phe Leu Met Gln Glu Ser His Lys Gly Glu Arg Arg Pro Met

180 185 190Pro Leu Arg Ala Phe Asn Pro Val Ser Ser Phe Arg Trp Ala Arg Gly

195 200 205Met Thr Ile Val Ala Ala Leu Met Thr Val Phe Phe Ile Met Gln Leu

210 215 220Val Gly Gln Val Pro Ala Ala Leu Trp Val Ile Phe Gly Glu Asp Arg225 230 235 240Phe Arg Trp Ser Ala Thr Met Ile Gly Leu Ser Leu Ala Val Phe Gly

245 250 255Ile Leu His Ala Leu Ala Gln Ala Phe Val Thr Gly Pro Ala Thr Lys

260 265 270Arg Phe Gly Glu Lys Gln Ala Ile Ile Ala Gly Met Ala Ala Asp Ala

275 280 285Leu Gly Tyr Val Leu Leu Ala Phe Ala Thr Arg Gly Trp Met Ala Phe

290 295 300Pro Ile Met Ile Leu Leu Ala Ser Gly Gly Ile Gly Met Pro Ala Leu305 310 315 320Gln Ala Met Leu Ser Arg Gln Val Asp Asp Asp His Gln Gly Gln Leu

325 330 335Gln Gly Ser Leu Ala Ala Leu Thr Ser Leu Thr Ser Ile Thr Gly Pro

340 345 350Leu Ile Val Thr Ala Ile Tyr Ala Ala Ser Ala Ser Thr Trp Asn Gly

355 360 365Leu Ala Trp Ile Val Gly Ala Ala Leu Tyr Leu Val Cys Leu Pro Ala

370 375 380Leu Arg Arg Gly Ala Trp Ser Arg Ala Thr Ser Thr *385 390 395(2)SEQ ID NO：5的信息 (i)序列特征：

(A)长度：220氨基酸

(B)类型：氨基酸

(D)拓扑结构：线性(ii)分子类型：蛋白质(xi)序列描述：SEQ ID NO：5：Met Glu Lys Lys Ile Thr Gly Tyr Thr Thr Val Asp Ile Ser Gln Trp1 5 10 15His Arg Lys Glu His Phe Glu Ala Phe Gln Ser Val Ala Gln Cys Thr

20 25 30Tyr Asn Gln Thr Val Gln Leu Asp Ile Thr Ala Phe Leu Lys Thr Val

35 40 45Lys Lys Asn Lys His Lys Phe Tyr Pro Ala Phe Ile His Ile Leu Ala

50 55 60Arg Leu Met Asn Ala His Pro Glu Phe Arg Met Ala Met Lys Asp Gly65 70 75 80Glu Leu Val Ile Trp Asp Ser Val His Pro Cys Tyr Thr Val Phe His

85 90 95Glu Gln Thr Glu Thr Phe Ser Ser Leu Trp Ser Glu Tyr His Asp Asp

100 105 110Phe Arg Gln Phe Leu His Ile Tyr Ser Gln Asp Val Ala Cys Tyr Gly

115 120 125Glu Asn Leu Ala Tyr Phe Pro Lys Gly Phe Ile Glu Asn Met Phe Phe

130 135 140Val Ser Ala Asn Pro Trp Val Ser Phe Thr Ser Phe Asp Leu Asn Val145 150 155 160Ala Asn Met Asp Asn Phe Phe Ala Pro Val Phe Thr Met Gly Lys Tyr

165 170 175Tyr Thr Gln Gly Asp Lys Val Leu Met Pro Leu Ala Ile Gln Val His

180 185 190His Ala Val Cys Asp Gly Phe His Val Gly Arg Met Leu Asn Glu Leu

195 200 205Gln Gln Tyr Cys Asp Glu Trp Gln Gly Gly Ala *

210 215 220(2)SEQ ID NO：6的信息：(i)序列特征：

(A)长度：272氨基酸

(B)类型：氨基酸

(D)拓扑结构：线性 (ii)分子类型：蛋白质(xi)序列描述：SEQ ID NO：6：Met Ser His Ile Gln Arg Glu Thr Ser Cys Ser Arg Pro Arg Leu Asn1 5 10 15Ser Asn Met Asp Ala Asp Leu Tyr Gly Tyr Lys Trp Ala Arg Asp Asn

20 25 30Val Gly Gln Ser Gly Ala Thr Ile Tyr Arg Leu Tyr Gly Lys Pro Asp

35 40 45Ala Pro Glu Leu Phe Leu Lys His Gly Lys Gly Ser Val Ala Asn Asp

50 55 60Val Thr Asp Glu Met Val Arg Leu Asn Trp Leu Thr Glu Phe Met Pro65 70 75 80Leu Pro Thr Ile Lys His Phe Ile Arg Thr Pro Asp Asp Ala Trp Leu

85 90 95Leu Thr Thr Ala Ile Pro Gly Lys Thr Ala Phe Gln Val Leu Glu Glu

100 105 110Tyr Pro Asp Ser Gly Glu Asn Ile Val Asp Ala Leu Ala Val Phe Leu

115 120 125Arg Arg Leu His Ser Ile Pro Val Cys Asn Cys Pro Phe Asn Ser Asp

130 135 140Arg Val Phe Arg Leu Ala Gln Ala Gln Ser Arg Met Asn Asn Gly Leu145 150 155 160Val Asp Ala Ser Asp Phe Asp Asp Glu Arg Asn Gly Trp Pro Val Glu

165 170 175Gln Val Trp Lys Glu Met His Lys Leu Leu Pro Phe Ser Pro Asp Ser

180 185 190Val Val Thr His Gly Asp Phe Ser Leu Asp Asn Leu Ile Phe Asp Glu

195 200 205Gly Lys Leu Ile Gly Cys Ile Asp Val Gly Arg Val Gly Ile Ala Asp

210 215 220Arg Tyr Gln Asp Leu Ala Ile Leu Trp Asn Cys Leu Gly Glu Phe Ser225 230 235 240Pro Ser Leu Gln Lys Arg Leu Phe Gln Lys Tyr Gly Ile Asp Asn Pro

245 250 255Asp Met Asn Lys Leu Gln Phe His Leu Met Leu Asp Glu Phe Phe *

260 265 270(2)SEQ ID NO：7的信息：(i)序列特征：

(A)长度：19碱基对

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(ii)分子类型：其它核酸

(A)描述：/描述＝＂Tn5野生型外末端＂(xi)序列描述：SEQ ID NO：7：CTGACTCTTA TACACAAGT 19(2)SEQ ID NO：8的信息：

(i)序列特征：

(A)长度：19碱基对

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性

(ii)分子类型：其它核酸

(A)描述：/描述＝＂Tn5突变型外末端＂

(xi)序列描述：SEQ ID NO：8：CTGTCTCTTA TACACATCT 19(2)SEQ ID NO：9的信息：

(i)序列特征：

(A)长度：19碱基对

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(ii)分子类型：其它核酸

(A)描述：/描述＝＂Tn5突变型外末端＂(xi)序列描述：SEQ ID NO：9：CTGTCTCTTA TACAGATCT 19(2)SEQ ID NO：10的信息：(i)序列特征：

(A)长度：19碱基对

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(ii)分子类型：其它核酸

(A)描述：/描述＝＂Tn5野生型内末端＂ (xi)序列描述：SEQ ID NO：10：CTGTCTCTTG ATCAGATCT 19(2)SEQ ID NO：11的信息：(i)序列特征：

(A)长度：19182碱基对

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：环状(ii)分子类型：其它核酸

(A)描述：/描述＝＂质粒pRZ4196＂(ix)特征：

(A)名称/关键：重复单元

(B)位置：94..112

(D)其它信息：/注意＝＂野生型OE序列＂(ix)特征：

(A)名称/关键：重复单元

(B)位置：12184..12225

(D)其它信息：/注意＝＂IE盒＂(xi)序列描述：SEQ ID NO：11：TTCCTGTAAC AATAGCAATA CCCCAAATAC CTAATGTAGT TCCAGCAAGC AAGCTAAAAA 60GTAAAGCAAC AACATAACTC ACCCCTGCAT CTGCTGACTC TTATACACAA GTAGCGTCCC 120GGGATCGGGA TCCCGTCGTT TTACAACGTC GTGACTGGGA AAACCCTGGC GTTACCCAAC 180TTAATCGCCT TGCAGCACAT CCCCCTTTCG CCAGCTGGCG TAATAGCGAA GAGGCCCGCA 240CCGATCGCCC TTCCCAACAG TTGCGCAGCC TGAATGGCGA ATGGCGCTTT GCCTGGTTTC 300CGGCACCAGA AGCGGTGCCG GAAAGCTGGC TGGAGTGCGA TCTTCCTGAG GCCGATACTG 360TCGTCGTCCC CTCAAACTGG CAGATGCACG GTTACGATGC GCCCATCTAC ACCAACGTAA 420CCTATCCCAT TACGGTCAAT CCGCCGTTTG TTCCCACGGA GAATCCGACG GGTTGTTACT 480CGCTCACATT TAATGTTGAT GAAAGCTGGC TACAGGAAGG CCAGACGCGA ATTATTTTTG 540ATGGCGTTAA CTCGGCGTTT CATCTGTGGT GCAACGGGCG CTGGGTCGGT TACGGCCAGG 600ACAGTCGTTT GCCGTCTGAA TTTGACCTGA GCGCATTTTT ACGCGCCGGA GAAAACCGCC 660TCGCGGTGAT GGTGCTGCGT TGGAGTGACG GCAGTTATCT GGAAGATCAG GATATGTGGC 720GGATGAGCGG CATTTTCCGT GACGTCTCGT TGCTGCATAA ACCGACTACA CAAATCAGCG 780ATTTCCATGT TGCCACTCGC TTTAATGATG ATTTCAGCCG CGCTGTACTG GAGGCTGAAG 840TTCAGATGTG CGGCGAGTTG CGTGACTACC TACGGGTAAC AGTTTCTTTA TGGCAGGGTG 900AAACGCAGGT CGCCAGCGGC ACCGCGCCTT TCGGCGGTGA AATTATCGAT GAGCGTGGTG 960GTTATGCCGA TCGCGTCACA CTACGTCTGA ACGTCGAAAA CCCGAAACTG TGGAGCGCCG 1020AAATCCCGAA TCTCTATCGT GCGGTGGTTG AACTGCACAC CGCCGACGGC ACGCTGATTG 1080AAGCAGAAGC CTGCGATGTC GGTTTCCGCG AGGTGCGGAT TGAAAATGGT CTGCTGCTGC 1140TGAACGGCAA GCCGTTGCTG ATTCGAGGCG TTAACCGTCA CGAGCATCAT CCTCTGCATG 1200GTCAGGTCAT GGATGAGCAG ACGATGGTGC AGGATATCCT GCTGATGAAG CAGAACAACT 1260TTAACGCCGT GCGCTGTTCG CATTATCCGA ACCATCCGCT GTGGTACACG CTGTGCGACC 1320GCTACGGCCT GTATGTGGTG GATGAAGCCA ATATTGAAAC CCACGGCATG GTGCCAATGA 1380ATCGTCTGAC CGATGATCCG CGCTGGCTAC CGGCGATGAG CGAACGCGTA ACGCGAATGG 1440TGCAGCGCGA TCGTAATCAC CCGAGTGTGA TCATCTGGTC GCTGGGGAAT GAATCAGGCC 1500ACGGCGCTAA TCACGACGCG CTGTATCGCT GGATCAAATC TGTCGATCCT TCCCGCCCGG 1560TGCAGTATGA AGGCGGCGGA GCCGACACCA CGGCCACCGA TATTATTTGC CCGATGTACG 1620CGCGCGTGGA TGAAGACCAG CCCTTCCCGG CTGTGCCGAA ATGGTCCATC AAAAAATGGC 1680TTTCGCTACC TGGAGAGACG CGCCCGCTGA TCCTTTGCGA ATACGCCCAC GCGATGGGTA 1740ACAGTCTTGG CGGTTTCGCT AAATACTGGC AGGCGTTTCG TCAGTATCCC CGTTTACAGG 1800GCGGCTTCGT CTGGGACTGG GTGGATCAGT CGCTGATTAA ATATGATGAA AACGGCAACC 1860CGTGGTCGGC TTACGGCGGT GATTTTGGCG ATACGCCGAA CGATCGCCAG TTCTGTATGA 1920ACGGTCTGGT CTTTGCCGAC CGCACGCCGC ATCCAGCGCT GACGGAAGCA AAACACCAGC 1980AGCAGTTTTT CCAGTTCCGT TTATCCGGGC AAACCATCGA AGTGACCAGC GAATACCTGT 2040TCCGTCATAG CGATAACGAG CTCCTGCACT GGATGGTGGC GCTGGATGGT AAGCCGCTGG 2100CAAGCGGTGA AGTGCCTCTG GATGTCGCTC CACAAGGTAA ACAGTTGATT GAACTGCCTG 2160AACTACCGCA GCCGGAGAGC GCCGGGCAAC TCTGGCTCAC AGTACGCGTA GTGCAACCGA 2220ACGCGACCGC ATGGTCAGAA GCCGGGCACA TCAGCGCCTG GCAGCAGTGG CGTCTGGCGG 2280AAAACCTCAG TGTGACGCTC CCCGCCGCGT CCCACGCCAT CCCGCATCTG ACCACCAGCG 2340AAATGGATTT TTGCATCGAG CTGGGTAATA AGCGTTGGCA ATTTAACCGC CAGTCAGGCT 2400TTCTTTCACA GATGTGGATT GGCGATAAAA AACAACTGCT GACGCCGCTG CGCGATCAGT 2460TCACCCGTGC ACCGCTGGAT AACGACATTG GCGTAAGTGA AGCGACCCGC ATTGACCCTA 2520ACGCCTGGGT CGAACGCTGG AAGGCGGCGG GCCATTACCA GGCCGAAGCA GCGTTGTTGC 2580AGTGCACGGC AGATACACTT GCTGATGCGG TGCTGATTAC GACCGCTCAC GCGTGGCAGC 2640ATCAGGGGAA AACCTTATTT ATCAGCCGGA AAACCTACCG GATTGATGGT AGTGGTCAAA 2700TGGCGATTAC CGTTGATGTT GAAGTGGCGA GCGATACACC GCATCCGGCG CGGATTGGCC 2760TGAACTGCCA GCTGGCGCAG GTAGCAGAGC GGGTAAACTG GCTCGGATTA GGGCCGCAAG 2820AAAACTATCC CGACCGCCTT ACTGCCGCCT GTTTTGACCG CTGGGATCTG CCATTGTCAG 2880ACATGTATAC CCCGTACGTC TTCCCGAGCG AAAACGGTCT GCGCTGCGGG ACGCGCGAAT 2940TGAATTATGG CCCACACCAG TGGCGCGGCG ACTTCCAGTT CAACATCAGC CGCTACAGTC 3000AACAGCAACT GATGGAAACC AGCCATCGCC ATCTGCTGCA CGCGGAAGAA GGCACATGGC 3060TGAATATCGA CGGTTTCCAT ATGGGGATTG GTGGCGACGA CTCCTGGAGC CCGTCAGTAT 3120CGGCGGATTC CAGCTGAGCG CCGGTCGCTA CCATTACCAG TTGGTCTGGT GTCAAAAATA 3180ATAATAACCG GGCAGGCCAT GTCTGCCCGT ATTTCGCGTA AGGAAATCCA TTATGTACTA 3240TTTAAAAAAC ACAAACTTTT GGATGTTCGG TTTATTCTTT TTCTTTTACT TTTTTATCAT 3300GGGAGCCTAC TTCCCGTTTT TCCCGATTTG GCTACATGAC ATCAACCATA TCAGCAAAAG 3360TGATACGGGT ATTATTTTTG CCGCTATTTC TCTGTTCTCG CTATTATTCC AACCGCTGTT 3420TGGTCTGCTT TCTGACAAAC TCGGGCTGCG CAAATACCTG CTGTGGATTA TTACCGGCAT 3480GTTAGTGATG TTTGCGCCGT TCTTTATTTT TATCTTCGGG CCACTGTTAC AATACAACAT 3540TTTAGTAGGA TCGATTGTTG GTGGTATTTA TCTAGGCTTT TGTTTTAACG CCGGTGCGCC 3600AGCAGTAGAG GCATTTATTG AGAAAGTCAG CCGTCGCAGT AATTTCGAAT TTGGTCGCGC 3660GCGGATGTTT GGCTGTGTTG GCTGGGCGCT GTGTGCCTCG ATTGTCGGCA TCATGTTCAC 3720CATCAATAAT CAGTTTGTTT TCTGGCTGGG CTCTGGCTGT GCACTCATCC TCGCCGTTTT 3780ACTCTTTTTC GCCAAAACGG ATGCGCCCTC TTCTGCCACG GTTGCCAATG CGGTAGGTGC 3840CAACCATTCG GCATTTAGCC TTAAGCTGGC ACTGGAACTG TTCAGACAGC CAAAACTGTG 3900GTTTTTGTCA CTGTATGTTA TTGGCGTTTC CTGCACCTAC GATGTTTTTG ACCAACAGTT 3960TGCTAATTTC TTTACTTCGT TCTTTGCTAC CGGTGAACAG GGTACGCGGG TATTTGGCTA 4020CGTAACGACA ATGGGCGAAT TACTTAACGC CTCGATTATG TTCTTTGCGC CACTGATCAT 4080TAATCGCATC GGTGGGAAAA ACGCCCTGCT GCTGGCTGGC ACTATTATGT CTGTACGTAT 4140TATTGGCTCA TCGTTCGCCA CCTCAGCGCT GGAAGTGGTT ATTCTGAAAA CGCTGCATAT 4200GTTTGAAGTA CCGTTCCTGC TGGTGGGCTG CTTTAAATAT ATTACCAGCC AGTTTGAAGT 4260GCGTTTTTCA GCGACGATTT ATCTGGTCTG TTTCTGCTTC TTTAAGCAAC TGGCGATGAT 4320TTTTATGTCT GTACTGGCGG GCAATATGTA TGAAAGCATC GGTTTCCAGG GCGCTTATCT 4380GGTGCTGGGT CTGGTGGCGC TGGGCTTCAC CTTAATTTCC GTGTTCACGC TTAGCGGCCC 4440CGGCCCGCTT TCCCTGCTGC GTCGTCAGGT GAATGAAGTC GCTTAAGCAA TCAATGTCGG 4500ATGCGGCGCG ACGCTTATCC GACCAACATA TCATAACGGA GTGATCGCAT TGAACATGCC 4560AATGACCGAA AGAATAAGAG CAGGCAAGCT ATTTACCGAT ATGTGCGAAG GCTTACCGGA 4620AAAAAGACTT CGTGGGAAAA CGTTAATGTA TGAGTTTAAT CACTCGCATC CATCAGAAGT 4680TGAAAAAAGA GAAAGCCTGA TTAAAGAAAT GTTTGCCACG GTAGGGGAAA ACGCCTGGGT 4740AGAACCGCCT GTCTATTTCT CTTACGGTTC CAACATCCAT ATAGGCCGCA ATTTTTATGC 4800AAATTTCAAT TTAACCATTG TCGATGACTA CACGGTAACA ATCGGTGATA ACGTACTGAT 4860TGCACCCAAC GTTACTCTTT CCGTTACGGG ACACCCTGTA CACCATGAAT TGAGAAAAAA 4920CGGCGAGATG TACTCTTTTC CGATAACGAT TGGCAATAAC GTCTGGATCG GAAGTCATGT 4980GGTTATTAAT CCAGGCGTCA CCATCGGGGA TAATTCTGTT ATTGGCGCGG GTAGTATCGT 5040CACAAAAGAC ATTCCACCAA ACGTCGTGGC GGCTGGCGTT CCTTGTCGGG TTATTCGCGA 5100AATAAACGAC CGGGATAAGC ACTATTATTT CAAAGATTAT AAAGTTGAAT CGTCAGTTTA 5160AATTATAAAA ATTGCCTGAT ACGCTGCGCT TATCAGGCCT ACAAGTTCAG CGATCTACAT 5220TAGCCGCATC CGGCATGAAC AAAGCGCAGG AACAAGCGTC GCATCATGCC TCTTTGACCC 5280ACAGCTGCGG AAAACGTACT GGTGCAAAAC GCAGGGTTAT GATCATCAGC CCAACGACGC 5340ACAGCGCATG AAATGCCCAG TCCATCAGGT AATTGCCGCT GATACTACGC AGCACGCCAG 5400AAAACCACGG GGCAAGCCCG GCGATGATAA AACCGATTCC CTGCATAAAC GCCACCAGCT 5460TGCCAGCAAT AGCCGGTTGC ACAGAGTGAT CGAGCGCCAG CAGCAAACAG AGCGGAAACG 5520CGCCGCCCAG ACCTAACCCA CACACCATCG CCCACAATAC CGGCAATTGC ATCGGCAGCC 5580AGATAAAGCC GCAGAACCCC ACCAGTTGTA ACACCAGCGC CAGCATTAAC AGTTTGCGCC 5640GATCCTGATG GCGAGCCATA GCAGGCATCA GCAAAGCTCC TGCGGCTTGC CCAAGCGTCA 5700TCAATGCCAG TAAGGAACCG CTGTACTGCG CGCTGGCACC AATCTCAATA TAGAAAGCGG 5760GTAACCAGGC AATCAGGCTG GCGTAACCGC CGTTAATCAG ACCGAAGTAA ACACCCAGCG 5820TCCACGCGCG GGGAGTGAAT ACCACGCGAA CCGGAGTGGT TGTTGTCTTG TGGGAAGAGG 5880CGACCTCGCG GGCGCTTTGC CACCACCAGG CAAAGAGCGC AACAACGGCA GGCAGCGCCA 5940CCAGGCGAGT GTTTGATACC AGGTTTCGCT ATGTTGAACT AACCAGGGCG TTATGGCGGC 6000ACCAAGCCCA CCGCCGCCCA TCAGAGCCGC GGACCACAGC CCCATCACCA GTGGCGTGCG 6060CTGCTGAAAC CGCCGTTTAA TCACCGAAGC ATCACCGCCT GAATGATGCC GATCCCCACC 6120CCACCAAGCA GTGCGCTGCT AAGCAGCAGC GCACTTTGCG GGTAAAGCTC ACGCATCAAT 6180GCACCGACGG CAATCAGCAA CAGACTGATG GCGACACTGC GACGTTCGCT GACATGCTGA 6240TGAAGCCAGC TTCCGGCCAG CGCCAGCCCG CCCATGGTAA CCACCGGCAG AGCGGTCGAC 6300CCGGACGGGA CGCTCCTGCG CCTGATACAG AACGAATTGC TTGCAGGCAT CTCATGAGTG 6360TGTCTTCCCG TTTTCCGCCT GAGGTCACTG CGTGGATGGA GCGCTGGCGC CTGCTGCGCG 6420ACGGCGAGCT GCTCACCACC CACTCGAGCT GGATACTTCC CGTCCGCCAG GGGGACATGC 6480CGGCGATGCT GAAGGTCGCG CGCATTCCCG ATGAAGAGGC CGGTTACCGC CTGTTGACCT 6540GGTGGGACGG GCAGGGCGCC GCCCGAGTCT TCGCCTCGGC GGCGGGCGCT CTGCTCATGG 6600AGCGCGCGTC CGGGGCCGGG GACCTTGCAC AGATAGCGTG GTCCGGCCAG GACGACGAGG 6660CTTGCAGGAT CTATGATTCC CTTTGTCAAC AGGAATGGAT CACTGAAAAT GGTTCAATGA 6720TCACATTAAG TGGTATTCAA TATTTTCATG AAATGGGAAT TGACGTTCCT TCCAAACATT 6780CACGTAAAAT CTGTTGTGCG TGTTTAGATT GGAGTGAACG CCGTTTCCAT TTAGGTGGGT 6840ACGTTGGAGC CGCATTATTT TCGCTTTATG AATCTAAAGG GTGGTTAACT CGACATCTTG 6900GTTACCGTGA AGTTACCATC ACGGAAAAAG GTTATGCTGC TTTTAAGACC CACTTTCACA 6960TTTAAGTTGT TTTTCTAATC CGCATATGAT CAATTCAAGG CCGAATAAGA AGGCTGGCTC 7020TGCACCTTGG TGATCAAATA ATTCGATAGC TTGTCGTAAT AATGGCGGCA TACTATCAGT 7080AGTAGGTGTT TCCCTTTCTT CTTTAGCGAC TTGATGCTCT TGATCTTCCA ATACGCAACC 7140TAAAGTAAAA TGCCCCACAG CGCTGAGTGC ATATAATGCA TTCTCTAGTG AAAAACCTTG 7200TTGGCATAAA AAGGCTAATT GATTTTCGAG AGTTTCATAC TGTTTTTCTG TAGGCCGTGT 7260ACCTAAATGT ACTTTTGCTC CATCGCGATG ACTTAGTAAA GCACATCTAA AACTTTTAGC 7320GTTATTACGT AAAAAATCTT GCCAGCTTTC CCCTTCTAAA GGGCAAAAGT GAGTATGGTG 7380CCTATCTAAC ATCTCAATGG CTAAGGCGTC GAGCAAAGCC CGCTTATTTT TTACATGCCA 7440ATACAATGTA GGCTGCTCTA CACCTAGCTT CTGGGCGAGT TTACGGGTTG TTAAACCTTC 7500GATTCCGACC TCATTAAGCA GCTCTAATGC GCTGTTAATC ACTTTACTTT TATCTAATCT 7560AGACATCATT AATTCCTAAT TTTTGTTGAC ACTCTATCAT TGATAGAGTT ATTTTACCAC 7620TCCCTATCAG TGATAGAGAA AAGTGAAATG AATAGTTCGA CAAAGATCGC ATTGGTAATT 7680ACGTTACTCG ATGCCATGGG GATTGGCCTT ATCATGCCAG TCTTGCCAAC GTTATTACGT 7740GAATTTATTG CTTCGGAAGA TATCGCTAAC CACTTTGGCG TATTGCTTGC ACTTTATGCG 7800TTAATGCAGG TTATCTTTGC TCCTTGGCTT GGAAAAATGT CTGACCGATT TGGTCGGCGC 7860CCAGTGCTGT TGTTGTCATT AATAGGCGCA TCGCTGGATT ACTTATTGCT GGCTTTTTCA 7920AGTGCGCTTT GGATGCTGTA TTTAGGCCGT TTGCTTTCAG GGATCACAGG AGCTACTGGG 7980GCTGTCGCGG CATCGGTCAT TGCCGATACC ACCTCAGCTT CTCAACGCGT GAAGTGGTTC 8040GGTTGGTTAG GGGCAAGTTT TGGGCTTGGT TTAATAGCGG GGCCTATTAT TGGTGGTTTT 8100GCAGGAGAGA TTTCACCGCA TAGTCCCTTT TTTATCGCTG CGTTGCTAAA TATTGTCACT 8160TTCCTTGTGG TTATGTTTTG GTTCCGTGAA ACCAAAAATA CACGTGATAA TACAGATACC 8220GAAGTAGGGG TTGAGACGCA ATCGAATTCG GTATACATCA CTTTATTTAA AACGATGCCC 8280ATTTTGTTGA TTATTTATTT TTCAGCGCAA TTGATAGGCC AAATTCCCGC AACGGTGTGG 8340GTGCTATTTA CCGAAAATCG TTTTGGATGG AATAGCATGA TGGTTGGCTT TTCATTAGCG 8400GGTCTTGGTC TTTTACACTC AGTATTCCAA GCCTTTGTGG CAGGAAGAAT AGCCACTAAA 8460TGGGGCGAAA AAACGGCAGT ACTGCTCGAA TTTATTGCAG ATAGTAGTGC ATTTGCCTTT 8520TTAGCGTTTA TATCTGAAGG TTGGTTAGAT TTCCCTGTTT TAATTTTATT GGCTGGTGGT 8580GGGATCGCTT TACCTGCATT ACAGGGAGTG ATGTCTATCC AAACAAAGAG TCATGAGCAA 8640GGTGCTTTAC AGGGATTATT GGTGAGCCTT ACCAATGCAA CCGGTGTTAT TGGCCCATTA 8700CTGTTTACTG TTATTTATAA TCATTCACTA CCAATTTGGG ATGGCTGGAT TTGGATTATT 8760GGTTTAGCGT TTTACTGTAT TATTATCCTG CTATCGATGA CCTTCATGTT AACCCCTCAA 8820GCTCAGGGGA GTAAACAGGA GACAAGTGCT TAGTTATTTC GTCACCAAAT GATGTTATTC 8880CGCGAAATAT AATGACCCTC TTGATAACCC AAGAGGGCAT TTTTTACGAT AAAGAAGATT 8940TAGCTTCAAA TAAAACCTAT CTATTTTATT TATCTTTCAA GCTCAATAAA AAGCCGCGGT 9000AAATAGCAAT AAATTGGCCT TTTTTATCGG CAAGCTCTTT TAGGTTTTTC GCATGTATTG 9060CGATATGCAT AAACCAGCCA TTGAGTAAGT TTTTAAGCAC ATCACTATCA TAAGCTTTAA 9120GTTGGTTCTC TTGGATCAAT TTGCTGACAA TGGCGTTTAC CTTACCAGTA ATGTATTCAA 9180GGCTAATTTT TTCAAGTTCA TTCCAACCAA TGATAGGCAT CACTTCTTGG ATAGGGATAA 9240GGTTTTTATT ATTATCAATA ATATAATCAA GATAATGTTC AAATATACTT TCTAAGGCAG 9300ACCAACCATT TGTTAAATCA GTTTTTGTTG TGATGTAGGC ATCAATCATA ATTAATTGCT 9360GCTTATAACA GGCACTGAGT AATTGTTTTT TATTTTTAAA GTGATGATAA AAGGCACCTT 9420TGGTCACCAA CGCTTTTCCC GAGATCCTCT GCGACACCGC CGCTCGTCTG CACGCGCCGC 9480GGTCCGGACC GCCGCCCGAT CTCCATCCGC TACAGGAATG GTTCCAGCCG CTTTTCCGGT 9540TGGCCGCTGA GCACGCGGCA CTTGCGCCCG CCGCCAGCGT AGCGCGCCAA CTTCTGGCGG 9600CGCCGCGCGA GGTGTGCCCG CTCCACGGCG ACCTGCACCA CGAGAACGTG CTCGACTTCG 9660GCGACCGCGG CTGGCTGGCC ATCGACCCGC ACGGACTGCT CGGCGAGCGC ACCTTCGACT 9720ATGCCAACAT CTTCACGAAT CCCGATCTCA GCGACCCCGG TCGCCCGCTT GCGATCCTGC 9780CGGGCAGGCT GGAGGCTCGA CTCAGCATTG TGGTCGCGAC GACCGGGTTT GAGCCCGAAC 9840GGCTTCTTCG CTGGATCATT GCATGGACGG GCTTGTCGGC AGCCTGGTTC ATCGGCGACG 9900GCGACGGCGA GGGCGAGGGC GCTGCGATTG ATCTGGCCGT AAACGCCATG GCACGCCGGT 9960TGCTTGACTA GCGCGGTCAC CGATCTCACC TGGTCGTCGA GCTAGGTCAG GCCGTGTCGG 10020GCGTGATCCG CTGGAAGTCG TTGCGGGCCA CACCCGCCGC CTCGAAGCCC TGCACCAGGC 10080CGGCATCGTG GTGTGCGTGG CCGAGGGACT ATGGAAGGTG CCGGACGATC TGCCCGAGCA 10140GGGCCGCCGC TATGACGCCC AGCGTCTTGG TGGCGTGACG GTGGAGCTGA AATCGCACCT 10200GCCCATCGAG CGGCAGGCCC GCGTGATCGG TGCCACCTGG CTTGACCAGC AGTTGATCGA 10260CGGTGGCTCG GGCTTGGGCG ACCTGGGCTT TAGCAGTGAG GCCAAGTAGG CGATACAGCA 10320GCGCGCGGAC TTCCTGGCCG AACAGGGACT GGCCGAGCGG CGCGGGCAGC GCGTGATCCT 10380CACCGGAATC TGCTGGGCAG CAGCGGGCTC GGGAACTGGC GCAGGCCGCG AAGGACATTG 10440CCGCCGATAC CGGCCTGGAG CATCGCCCCG TGGCCGACGG CCAGCGCGTT GCCGGCGTCT 10500ACCGGCGCCC CGTCATGCTC GCCAGCGGGC GAAATGGGAT GCTTGATGAC GCCAAGGGGT 10560CCAGCCTCGT GCGGTGGAAG CCCATCGAAC AGCGGCTTGG GGAGCAGCTC GCCGCGACGG 10620TGCGCGGTGG CGGCGTGTCT TGGGAGATTG GACGACAGCG TGGGCCGGCC CCTGTCTCTT 10680GATCAGATCT TGATCCCCTG CGCCATCAGA TCCTTGGCGG CAAGAAAGCC ATCCAGTTTA 10740CTTTGCAGGG CTTCCCAACC TTCCCAGAGG GCGCCCCAGC TGGCAATTCC GGTTCGCTTG 10800CTGTCCATAA AACCGCCCAG TCTAGCTATC GCCATGTAAG CCCACTGCAA GCTACCTGCT 10860TTCTCTTTGC GCTTGCGTTT TCCCTTGTCC AGATAGCCCA GTAGCTGACA TTCATCCGGG 10920GTCAGCACCG TTTCTGCGGA CTGGCTTTCT ACGTGTTCCG CTTCCTTTAG CAGCCCTTGC 10980GCCCTGAGTG CTTGCGGCAG CGTGAAGCTT TCTCTGAGCT GTAACAGCCT GACCGCAACA 11040AACGAGAGGA TCGAGACCAT CCGCTCCAGA TTATCCGGCT CCTCCATGCG TTGCCTCTCG 11100GCTCCTGCTC CGGTTTTCCA TGCCTTATGG AACTCCTCGA TCCGCCAGCG ATGGGTATAA 11160ATGTCGATGA CGCGCAAGGC TTGGGCTAGC GACTCGACCG GTTCGCCGGT CAGCAACAAC 11220CATTTCAACG GGGTCTCACC CTTGGGCGGG TTAATCTCCT CGGCCAGCAC CGCGTTGAGC 11280GTGATATTCC CCTGTTTTAG CGTGATGCGC CCACTGCGCA GGCTCAAGCT CGCCTTGCGG 11340GCTGGTCGAT TTTTACGTTT ACCGCGTTTA TCCACCACGC CCTTTTGCGG AATGCTGATC 11400TGATAGCCAC CCAACTCCGG TTGGTTCTTC AGATGGTCGA TCAGATACAA CCCAGACTCT 11460ACGTCCTTGC GTGGGTGCTT GGAGCGCACC ACGAAGCGCT CGTTATGCGC CAGCCTGTCC 11520TGCAGATAAG CATGAATATC GGCTTCGCGG TCACAGACCG CAATCACGTT GCTCATCATG 11580CTGCCCATGC GTAACCGGCT AGTTGCGGCC GCTGCCAGCC ATTTGCCACT CTCCTTTTCA 11640TCCGCATCGG CAGGGTCATC CGGGCGCATC CACCACTCCT GATGCAGTAA TCCTACGGTG 11700CGGAATGTGG TGGCCTCGAG CAAGAGAACG GAGTGAACCC ACCATCCGCG GGATTTATCC 11760TGAATAGAGC CCAGCTTGCC AAGCTCTTCG GCGACCTGGT GGCGATAACT CAAAGAGGTG 11820GTGTCCTCAA TGGCCAGCAG TTCGGGAAAC TCCTGAGCCA ACTTGACTGT TTGCATGGCG 11880CCAGCCTTTC TGATCGCCTC GGCAGAAACG TTGGGATTGC GGATAAATCG GTAAGCGCCT 11940TCCTGCATGG CTTCACTACC CTCTGATGAG ATGGTTATTG ATTTACCAGA ATATTTTGCC 12000AATTGGGCGG CGACGTTAAC CAAGCGGGCA GTACGGCGAG GATCACCCAG CGCCGCCGAA 12060GAGAACACAG ATTTAGCCCA GTCGGCCGCA CGATGAAGAG CAGAAGTTAT CATGAACGTT 12120ACCATGTTAG GAGGTCACAT GGAAGATCAG ATCCTGGAAA ACGGGAAAGG TTCCGTTCGA 12180ATTGCATGCG GATCCGGGAT CAAGATCTGA TCAAGAGACA GGTACCAATT GTTGAAGACG 12240AAAGGGCCTC GTGATACGCC TATTTTTATA GGTTAATGTC ATGATAATAA TGGTTTCTTA 12300GACGTCAGGT GGCACTTTTC GGGGAAATGT GCGCGGAACC CCTATTTGTT TATTTTTCTA 12360AATACATTCA AATATGTATC CGCTCATGAG ACAATAACCC TGATAAATGC TTCAATAATA 12420TTGAAAAAGG AAGAGTATGA GTATTCAACA TTTCCGTGTC GCCCTTATTC CCTTTTTTGC 12480GGCATTTTGC CTTCCTGTTT TTGCTCACCC AGAAACGCTG GTGAAAGTAA AAGATGCTGA 12540AGATCAGTTG GGTGCACGAG TGGGTTACAT CGAACTGGAT CTCAACAGCG GTAAGATCCT 12600TGAGAGTTTT CGCCCCGAAG AACGTTTTCC AATGATGAGC ACTTTTAAAG TTCTGCTATG 12660TGGCGCGGTA TTATCCCGTG TTGACGCCGG GCAAGAGCAA CTCGGTCGCC GCATACACTA 12720TTCTCAGAAT GACTTGGTTG AGTACTTGGC AAACTGATCT AAATGTTTAG CCCAGTCATC 12780ATACTTCACC GATGCCAACG CATTAAAAAT AGCATCACGA TCGGCTTTGC TGAATTTCTT 12840ATTTAAAACA TCCTTGTATT TTTCAAAAGC AGCGAGAGCT TCATTCACAT TGCCGATTTT 12900CTTACCTTTA GACTTATCAG CAAGTTCCTG TGCCATTTTC GAATATTTTT CACCATATTT 12960TTCAGTCAGC GTTTGATAAA AGCTAACTGT TGCATCAACA GCATCCTTAA TCTGTGAATT 13020AAGGAGATTA TTCTGTGCTT TTTTCAAATT TTCTTCAGCT TCATGAACAC GAGCGATACC 13080GGCATTACGA TTATTACTGA CCTGAGAAAT AGCCTTCTGG ATCTGAGTTA TATCAGCATT 13140TATCCGGTTA ATACGTGTTT CTGATGCTGT TACCTGTTTT TGTTTTTCTT CTCTAATCTT 13200ACCGGCCCCA ACCCGTCGTC TGGTTGCTTC AAAAAAAGGA CGGTTCTGAA GCGGATCATT 13260GGCTCTTGGT GATAGTTTTT TGACCAGCTC ATCCAGTTCT TTATATTTAG CGGATGCCTG 13320AGCCAGTTCA TTTCGTTTTC CAGCGAGCGT TTTCATTTCT GCATCACGGG CATGGATACT 13380GGAGCTTAAA CGAGAATTGA GAGTCTTAAT CTCTCCATCC ATTTTCACCA CTTCAGATTG 13440TGCAGCAGAA AGTTTTTTTT GGGCGATCTC AACAGCTTTA GCTTCTTCAC TCAATGCAGC 13500CAGTCGTTTC TCTTCAGCTT CAGCCAGTTT CAACTGGCGT TCTGTTTCAG CCTTCTCCCG 13560TTCAATCTCT TTACGTCGTT GTTCTGCTTC CTGAAAAGCC TTTTCTGCTG CTTCCGCTTC 13620TTTACGGGCT TTTTCTTCTG CTTTCGCAAG GCGCAAACGC TCTGCTTCCG CCTGCATAGC 13680TGCATTATTA GCATGAGCAA GCTCTGTTGC TGAAGGCGTA CGTGAGGCAT TGTGACGAAG 13740AGCCTCATTC ACGATATCCT TCAGGCGCTG AGTCAGCGCA TCCCTGTTTG CCTTTGCTTT 13800CGCCTGTGCT TCCGCTGCAG CTTTTGCCCG GGCAGCCTGC TCTGCCTGTG TTTTCTTTAA 13860TTGAGCAGTA GACCATTTAG CAGTTGCATG AATAGCTGCA GAACTTTCAC TTTTACTGCC 13920TCCTTTTCCA CCTCCGCCGC CAGAGCCACT CCCGTCAGGA GTACCATTCA AAAGAGTAAT 13980AATTACCTGT CCCTTATCAT CATAAGGAAC ACCATCTTTA TAGTACGCTA CCGCGGTTTC 14040CATTATAAAA TCCTCTTTGA CTTTTAAAAC AATAAGTTAA AAATAAATAC TGTACATATA 14100ACCACTGGTT TTATATACAG CATAAAAGCT ACGCCGCTGC ATTTTCCCTG TCAAGACTGT 14160GGACTTCCAT TTTTGTGAAA ACGATCAAAA AAACAGTCTT TCACACCACG CGCTATTCTC 14220GCCCGATGCC ACAAAAACCA GCACAAACAT TACCGTTCTC AGACCTCATT ATGTTTTACT 14280GAAACTATGA GATGAGACAT CTATGGGACA CTGTCACTTT ATGGCATGGC ACACACTCCG 14340GGACGCACTA AAAATGACAG GCAGATCGCG TTCACAGTTT TACCGTGATA TGCGCGGAGG 14400CCTTGTCAGT TACCGTACCG GCAGGGACGG ACGACGGGAG TTTGAAACCA GTGAACTGAT 14460CCGGGCATAC GGCGAATTAA AGCAGAATGA GACACCAGAA AGGCACAGTG AGGGACATGC 14520AGAAAATCCA CATGATCAGC AGACAGAACG CATTCTCCGG GAACTGAATG AGCTGAAACA 14580ATGCCTGACG CTGATGCTTG AGGATAAACA GGCACAGGAT ATGGATCGCA GACGCCAGGA 14640AGCAGAACGG GAACAGCTAC AAAATGAGAT AGCCCAGCTC AGGCAGGCAC TGGAACTGGA 14700AAAGAAACGG GGATTCTGGT CCAGGTTGTT CGGTCGCTGA ACGCTGTCAG AGACTGATGA 14760TAAAATAGTC TTCGGATAAT AACTCACCGA GAATAAATAC TTTAAGGTAG GGAGACACTC 14820ATGAGACGTA CCGGAAACAA ACTTTGTCTT ATCGCCATGA TAACAGCAAC AGTAGCTCTC 14880ACAGCCTGTA CCCCAAAGGG CAGCGTGGAA CAACATACCC GGCATTACGT ATATGCTTCT 14940GATGACGGTT TTGATCCCAA CTTTTCCACC CAAAAAGCCG ACACAACACG AATGATGGTG 15000CCTTTTTTTC GGCAGTTCTG GGATATGGGA GCTAAAGACA AAGCGACAGG AAAATCACGG 15060AGTGATGTGC AACAACGCAT TCAGCAGTTT CACAGCCAAG AATTTTTAAA CTCACTCCGG 15120GGCACAACTC AATTTGCGGG TACTGATTAC CGCAGCAAAG ACCTTACCCC GAAAAAATCC 15180AGGCTGCTGG CTGACACGAT TTCTGCGGTT TATCTCGATG GCTACGAGGG CAGACAGTAA 15240GTGGATTTAC CATAATCCCT TAATTGTACG CACCGCTAAA ACGCGTTCAG CGCGATCACG 15300GCAGCAGACA GGTAAAAATG GCAACAAACC ACCCTAAAAA CTGCGCGATC GCGCCTGATA 15360AATTTTAACC GTATGAATAC CTATGCAACC AGAGGGTACA GGCCACATTA CCCCCACTTA 15420ATCCACTGAA GCTGCCATTT TTCATGGTTT CACCATCCCA GCGAAGGGCC ATCCAGCGTG 15480CGTTCCTGTA TTTCCGGCTG ACGCTCCCGT TCTAGGGATA ACACATGTTC GCGCTCCTGT 15540ATCAGCCGTT CCTCTCTTAT CTCCAGTTCT CGCTGTATAA CTGGCTCAAG CGTTCTGTCT 15600GCTCGCTCAA GTGTTGCACC TGCTGACTCA ACTGCATGAC CCGCTCGTTC AGCATCGCGT 15660TGTCCCGTTG CGTAAGCGAA AACATCTTCT GCAATTCCAC GAAGGCGCTC TCCCATTCGC 15720TCAGCCGCTG CATATAGTCC TGTTGCAGCT GCTCTAAGGC GTTCAGCAAA TGTGTTTCCA 15780GCTCTGTCAC TCTGTGTCAC TCCTTCAGAT GTACCCACTC TTTCCCCTGA AAGGGAATCA 15840CCTCCGCTGA TTTCCCGTAC GGAAGGACAA GGAATTTCCT GTTCCCGTCC TGCACAAACT 15900CCACGCCCCA TGTCTTCGCG TTCAGTTTCT GCAATGTCTC TTCCTGCTTC CTGATTTCTT 15960CCAGGTTCGC CTGTATCCTC CCTCCAAGAT ACCAGAGCGT CCCGCCACTC GCGGTAAACA 16020GGAGAAAGAC TATCCCCAGT AACATCATGC CCGTATTCCC TGCCAGCTTT AACACGTCCC 16080TCCTGTGCTG CATCATCGCC TCTTTCACCC CTTCCCGGTG TTTTTCCAGC GATTCCTCTG 16140TCGAGGCTGT GAACAGGGCT ATAGCGTCTC TGATTTTCGT CTCGTTTGAT GTCACAGCCT 16200CGCTTACAGA TTCGCCGAGC CTCCTGAACT CGTTGTTCAG CATTTTCTCT GTAGATTCGG 16260CTCTCTCTTT CAGCTTTTTC TCGAACTCCG CGCCCGTCTG CAAAAGATTG CTCATAAAAT 16320GCTCCTTTCA GCCTGATATT CTTCCCGCCG TTCGGATCTG CAATGCTGAT ACTGCTTCGC 16380GTCACCCTGA CCACTTCCAG CCCCGCCTCA GTGAGCGCCT GAATCACATC CTGACGGCCT 16440TTTATCTCTC CGGCATGGTA AAGTGCATCT ATACCTCGCG TGACGCCCTC AGCAAGCGCC 16500TGTTTCGTTT CAGGCAGGTT ATCAGGGAGT GTCAGCGTCC TGCGGTTCTC CGGGGCGTTC 16560GGGTCATGCA GCCCGTAATG GTGATTTAAC AGCGTCTGCC AAGCATCAAT TCTAGGCCTG 16620TCTGCGCGGT CGTAGTACGG CTGGAGGCGT TTTCCGGTCT GTAGCTCCAT GTTCGGAATG 16680ACAAAATTCA GCTCAAGCCG TCCCTTGTCC TGGTGCTCCA CCCACAGGAT GCTGTACTGA 16740TTTTTTTCGA GACCGGGCAT CAGTACACGC TCAAAGCTCG CCATCACTTT TTCACGTCCT 16800CCCGGCGGCA GCTCCTTCTC CGCGAACGAC AGAACACCGG ACGTGTATTT CTTCGCAAAT 16860GGCGTGGCAT CGATGAGTTC CCGGACTTCT TCCGGTATAC CCTGAAGCAC CGTTGCGCCT 16920TCGCGGTTAC GCTCCCTCCC CAGCAGGTAA TCAACCGGAC CACTGCCACC ACCTTTTCCC 16980CTGGCATGAA ATTTAACTAT CATCCCGCGC CCCCTGTTCC CTGACAGCCA GACGCAGCCG 17040GCGCAGCTCA TCCCCGATGG CCATCAGTGC GGCCACCACC TGAACCCGGT CACCGGAAGA 17100CCACTGCCCG CTGTTCACCT TACGGGCTGT CTGATTCAGG TTATTTCCGA TGGCGGCCAG 17160CTGACGCAGT AACGGCGGTG CCAGTGTCGG CAGTTTTCCG GAACGGGCAA CCGGCTCCCC 17220CAGGCAGACC CGCCGCATCC ATACCGCCAG TTGTTTACCC TCACAGCGTT CAAGTAACCG 17280GGCATGTTCA TCATCAGTAA CCCGTATTGT GAGCATCCTC TCGCGTTTCA TCGGTATCAT 17340TACCCCATGA ACAGAAATCC CCCTTACACG GAGGCATCAG TGACTAAACA GGAAAAAACC 17400GCCCTTAACA TGGCCCGCTT TATCAGAAGC CAGACATTAA CGCTGCTGGA GAAGCTCAAC 17460GAACTGGACG CAGATGAACA GGCCGATATT TGTGAATCGC TTCACGACCA CGCCGATGAG 17520CTTTACCGCA GCTGCCTCGC ACGTTTCGGG GATGACGGTG AAAACCTCTG ACACATGCAG 17580CTCCCGGAGA CGGTCACAGC TTGTCTGTGA GCGGATGCCG GGAGCTGACA AGCCCGTCAG 17640GGCGCGTCAG CAGGTTTTAG CGGGTGTCGG GGCGCAGCCC TGACCCAGTC ACGTAGCGAT 17700AGCGGAGTGT ATACTGGCTT AACCATGCGG CATCAGTGCG GATTGTATGA AAAGTACGCC 17760ATGCCGGGTG TGAAATGCCG CACAGATGCG TAAGGAGAAA ATGCACGTCC AGGCGCTTTT 17820CCGCTTCCTC GCTCACTGAC TCGCTACGCT CGGTCGTTCG ACTGCGGCGA GCGGTACTGA 17880CTCACACAAA AACGGTAACA CAGTTATCCA CAGAATCAGG GGATAAGGCC GGAAAGAACA 17940TGTGAGCAAA AGACCAGGAA CAGGAAGAAG GCCACGTAGC AGGCGTTTTT CCATAGGCTC 18000CGCCCCCCTG ACGAGCATCA CAAAAATAGA CGCTCAAGTC AGAGGTGGCG AAACCCGACA 18060GGACTATAAA GCTACCAGGC GTTTCCCCCT GGAAGCTCCC TCGTGCGCTC TCCTGTTCCG 18120ACCCTGCCGC TTACCGGATA CCTGTCCGCC TTTCTCCCTT CGGGAAGCGT GGCGCTTTCT 18180CATAGCTCAC GCTGTTGGTA TCTCAGTTCG GTGTAGGTCG TTCGCTCCAA GCTGGGCTGT 18240GTGCACGAAC CCCCCGTTCA GCCCGACCGC TGCGCCTTAT CCGGTAACTA TCGTCTTGAG 18300TCCAACCCGG TAAGGCACGC CTTAACGCCA CTGGCAGCAG CCACTGGTAA CCGGATTAGC 18360AGAGCGATGA TGGCACAAAC GGTGCTACAG AGTTCTTGAA GTAGTGGCCC GACTACGGCT 18420ACACTAGAAG GACAGTATTT GGTATCTGCG CTCTGCTGAA GCCAGTTACC TTCGGAAAAA 18480GAGTTGGTAG CTCTTGATCC GGCAAACAAA CCACCGTTGG TAGCGGTGGT TTTTTTGTTT 18540GCAAGCAGCA GATTACGCGC AGAAAAAAAG GATCTCAAGA AGATCCTTTA ATCTTTTCTA 18600CTGAACCGCG ATCCCCGTCA GTTTAGAAGA GGAGGATGGT GCGATGGTCC CTCCCTGAAC 18660ATCAGGTATA TAGTTAGCCT GACATCCAAC AAGGAGGTTT ATCGCGAATA TTCCCACAAA 18720AAATCTTTTC CTCATAACTC GATCCTTATA AAATGAAAAG AATATATGGC GAGGTTTAAT 18780TTATGAGCTT AAGATACTAC ATAAAAAATA TTTTATTTGG CCTGTACTGC ACACTTATAT 18840ATATATACCT TATAACAAAA AACAGCGAAG GGTATTATTT CCTTGTGTCA GATAAGATGC 18900TATATGCAAT AGTGATAAGC ACTATTCTAT GTCCATATTC AAAATATGCT ATTGAATACA 18960TAGCTTTTAA CTTCATAAAG AAAGATTTTT TCGAAAGAAG AAAAAACCTA AATAACGCCC 19020CCGTAGCAAA ATTAAACCTA TTTATGCTAT ATAATCTACT TTGTTTGGTC CTAGCAATCC 19080CATTTGGATT GCTAGGACTT TTTATATCAA TAAAGAATAA TTAAATCCCT AACACCTCAT 19140TTATAGTATT AAGTTTATTC TTATCAATAT AGGAGCATAG AA 19182

Claims

1.一种对可转座DNA序列进行体外转座的系统，该系统包含：

相对于野生型Tn5转座酶进行过修饰的Tn5转座酶，该经修饰的转座酶包含：一个相对于野生型Tn5转座酶的变化，该变化使经修饰的转座酶与Tn5外末端重复序列结合的亲合力高于野生型Tn5转座酶；另一个相对于野生型Tn5转座酶的变化是，该变化使经修饰的转座酶呈失活多聚体形式的可能性低于野生型转座酶；

DNA供体分子，该分子包含可转座的DNA序列，DNA序列的5′和3′端侧接了Tn5外末端重复序列；和

可转座元件能转座到其中的DNA靶分子。

2.根据权利要求1所述的系统，其中使经修饰的转座酶以更高亲合力结合的变化的特征在于对野生型转座酶54位作了取代突变。

3.根据权利要求2所述的系统，其中54位是赖氨酸。

4.根据权利要求1所述的系统，其中使经修饰的转座酶呈失活多聚体形式的可能性更低的变化的特征在于对野生型转座酶372位作了取代突变。

5.根据权利要求4所述的系统，其中372位是脯氨酸。

6.根据权利要求1所述的系统，其中经修饰的转座酶还包括在野生型转座酶56位作了取代突变。

7.根据权利要求6所述的系统，其中56位是丙氨酸。

8.根据权利要求1所述的系统，其中DNA供体分子的5′和3′端侧接了18或19个碱基对的侧接DNA序列，该侧接DNA序列的10位为核苷酸A，11位为核苷酸T，12位为核苷酸A。

9.根据权利要求8所述的系统，其中侧接序列的4位还包含选自A或T的核苷酸。

10.根据权利要求8所述的系统，其中侧接序列的15位还包含选自G或C的核苷酸。

11.根据权利要求8所述的系统，其中侧接序列的17位还包含选自A或T核苷酸。

12.根据权利要求8所述的系统，其中侧接序列的18位还包含选自G或C核苷酸。

13.根据权利要求8所述的系统，其中侧接序列是5′-CTGTCTCTTATACACATCT-3′。

14.根据权利要求8所述的系统，其中侧接序列是5′-CTGTCTCTTATACAGATCT-3′。

15.一种相对于野生型Tn5转座酶进行过修饰的Tn5转座酶，该经修饰的转座酶包含：

一个相对于野生型Tn5转座酶的变化，该变化使经修饰的转座酶与DNA供体的Tn5外末端重复序列结合的亲合力高于野生型Tn5转座酶；和

另一个相对于野生型Tn5转座酶的变化是，该变化使经修饰的转座酶呈失活多聚体形式的可能性低于野生型转座酶。

16.根据权利要求15所述的经修饰的Tn5转座酶，其中使经修饰的转座酶以更高亲合力结合的变化的特征在于对野生型转座酶54位作了取代突变。

17.根据权利要求16所述的经修饰的Tn5转座酶，其中54位是赖氨酸。

18.根据权利要求15所述的经修饰的Tn5转座酶，其中使经修饰的转座酶呈失活多聚体形式的可能性更低的变化的特征在于对野生型转座酶372位作了取代突变。

19.根据权利要求18所述的经修饰的Tn5转座酶，其中372位是脯氨酸。

20.根据权利要求15所述的经修饰的Tn5转座酶，其中还包括在野生型转座酶56位上作了取代突变。

21.根据权利要求20所述的经修饰的Tn5转座酶，其中56位是丙氨酸。

22.一种基因构建物，它包含能编码Tn5转座酶的核苷酸序列，该转座酶对Tn5外末端重复序列的亲合力高于野生型Tn5转座酶，呈失活多聚体形式的可能性低于野生型Tn5转座酶。

23.根据权利要求22所述的基因构建物，它包含编码转座酶氨基酸54位为赖氨酸残基的核苷酸序列。

24.根据权利要求22所述的基因构建物，它包含编码转座酶氨基酸372位为脯氨酸残基的核苷酸序列。

25.根据权利要求22所述的基因构建物，它包含编码转座酶氨基酸54位为赖氨酸残基以及转座酶氨基酸372位为脯氨酸残基的核苷酸序列。

26.根据权利要求22所述的基因构建物，它包含SEQ ID NO：1的核苷酸序列。

27.一种基因构建物，它包含：

可转座的DNA序列，该序列的5′和3′端侧接了18或19个碱基对侧接DNA序列，该侧接DNA序列在10位是核苷酸A，在11位是核苷酸T，在12位是核苷酸A。

28.根据权利要求27所述的构建物，还包含在侧接序列的4位为选自T或A的核苷酸。

29.根据权利要求27所述的构建物，还包含在侧接序列的15位为选自G或C的核苷酸。

30.根据权利要求27所述的构建物，还包含在侧接序列的17位为选自T或A的核苷酸。

31.根据权利要求27所述的构建物，还包含在侧接序列的18位为选自G或C的核苷酸。

32.根据权利要求27所述的构建物，其中侧接序列是5′-CTGTCTCTTATACACATCT-3′。

33.根据权利要求27所述的构建物，其中侧接序列是5′-CTGTCTCTTATACAGATCT-3′。

34.一种体外转座的方法，该方法包括下列步骤：

在低于生理温度的温度下、在合适的反应缓冲液中，将DNA供体分子与DNA靶分子和相对于野生型Tn5转座酶进行过修饰的Tn5转座酶混合，直至经修饰的转座酶与所述外末端重复序列结合，其中DNA供体分子包含感兴趣的可转座DNA序列，该感兴趣的DNA序列的5′和3′端侧接了Tn5外末端重复序列；和

升温至生理温度并保温足够长的时间使酶催化体外转座，

其中经修饰的转座酶包含：一个相对于野生型Tn5转座酶的变化，该变化使经修饰的转座酶与Tn5外末端重复序列结合的亲合力高于野生型Tn5转座酶；以及另一个相对于野生型Tn5转座酶的变化是，该变化使经修饰的转座酶呈失活多聚体形式的可能性低于野生型转座酶。

35.根据权利要求34所述的方法，其中使经修饰的转座酶以更高亲合力结合的变化的特征在于对野生型转座酶54位作了取代突变。

36.根据权利要求35所述的方法，其中54位是赖氨酸。

37.根据权利要求34所述的方法，其中使经修饰的转座酶呈失活多聚体形式的可能性更低的变化的特征在于对野生型转座酶372位作了取代突变。

38.根据权利要求38所述的方法，其中372位是脯氨酸。

39.根据权利要求34所述的方法，其中经修饰的转座酶还包括在野生型转座酶56位上作了取代突变。

40.根据权利要求39所述的方法，其中56位是丙氨酸。

41.根据权利要求34所述的方法，其中感兴趣的DNA序列的5′和3′端侧接了18或19个碱基对的侧接DNA序列，该侧接DNA序列的10位为核苷酸A，11位为核苷酸T，12位为核苷酸A。

42.根据权利要求41所述的方法，其中侧接序列的4位还包含选自A或T的核苷酸。

43.根据权利要求41所述的方法，其中侧接序列的15位还包含选自G或C的核苷酸。

44.根据权利要求41所述的方法，其中侧接序列的17位还包含选自A或T核苷酸。

45.根据权利要求41所述的方法，其中侧接序列的18位还包含选自G或C核苷酸。

46.根据权利要求41所述的方法，其中侧接序列是5′-CTGTCTCTTATACACATCT-3′。

47.根据权利要求41所述的方法，其中侧接序列是5′-CTGTCTCTTATACAGATCT-3′。