CN1231583C

CN1231583C - 产生能够表达活性蛋白产物的断裂、不可传递的基因的方法

Info

Publication number: CN1231583C
Application number: CNB008075425A
Authority: CN
Inventors: 徐明群; T·C·埃文斯; S·普拉丹; D·G·科姆; H·保卢斯; L·孙; 陈立新; I·高希
Original assignee: Boston Biomedical Research Institute Inc; New England Biolabs Inc
Current assignee: Boston Biomedical Research Institute Inc; New England Biolabs Inc
Priority date: 1999-05-24
Filing date: 2000-05-23
Publication date: 2005-12-14
Anticipated expiration: 2020-05-23
Also published as: JP2003505012A; CA2374497A1; AU5039500A; EP1183346A1; DE60036942D1; WO2000071701A1; CN1676606A; EP1183346A4; CN1350582A; AU780002B2; DE60036942T2; EP1183346B1

Abstract

本发明披露一种能够在靶宿主，如一种植物内高效表达蛋白质的新型转基因系统，又能避免经花粉将这种转基因带入相关的宿主系统和/或环境。该方法同样适用于真核细胞生物(酵母、昆虫、哺乳动物细胞等)和原核生物(如大肠杆菌等)内任何目的蛋白(如一种毒性蛋白)的表达。

Description

产生能够表达活性蛋白产物的断裂、不可传递的基因的方法

发明背景

过去的几年中，由于转基因农作物的出现使美国的农业发生了一场革命，这些转基因作物能抵抗特定的疾病、昆虫及除草剂，或者其营养价值得到改善。与此同时，人们又更多地担心这些基因修饰的农产品对其消费者产生损害，并且这些转基因可能被转移到相关的植物品系中，甚至形成对昆虫或除草剂抵抗的“超级种子”(Ferber，D.科学Science286：1662(1999))或被其他微生物消耗后造成损害(Losey等，自然Nature399：214(1999))。但是目前几乎没有对担心“转基因”食物有害的科学依据，转基因被转移到其它植物并且对生态产生负面效应的可能性并非完全没有根据(Bergelson等，自然Nature395：25(1998))。这种转移可通过密切相关的种属传粉，或者通过病毒或质粒载体将基因片段转入不相关的植物，这些病毒或质粒载体的转移可通过植物相关真菌、细菌或昆虫介导。

已经讨论过预防转基因传播的几种技术，然而这些方法要么象一连串构建物一样，被设计成对新的杂交植物有负面影响(Gressel，TrendsBiotechnol.，17：361-366(1999))，要么不能排除通过水平基因转移进行传播的可能性(Bertolla和Simonet，Res.Microbiol.，150：375-384(1999))。

在本发明中，我们介绍一种新型的转基因方法，能够高效表达蛋白质而不需要基因复制过程并且极少有机会通过水平基因转移进行传播。

发明概要

本发明公开了一种能够在靶宿主，如一种植物，内高效表达蛋白质的新型转基因系统，同时又能避免通过花粉将这种转基因带入相关的宿主系统和/或环境。这里描述的方法同样适用于真核细胞生物(酵母、昆虫、哺乳动物细胞等)和原核微生物(如大肠杆菌等)内任何目的蛋白(如一种毒性蛋白)的表达。

在每一种情况下，目标基因至少被分裂成两个片段，每一片段都能与intein编码序列的一部分融合。每一融合基因以无活性蛋白形式表达，并且这些独立表达的融合蛋白被重新拼装成一个活性形式。这些基因片段的区室化使得目标蛋白在所希望的部位重新组合，能防止将功能基因转移至其他微生物。

需要指出的是，尽管本发明主要针对农业和植物生物技术的实施例，但该方法应用范围十分广阔，可用于任何微生物中任何基因表达，防止基因意外地转移到其它微生物中去。

附图详细说明

图1A-蛋白剪接机理。蛋白剪接是翻译后过程，该过程涉及从具有侧向N末端和C末端区域(exteins)连接的蛋白前体切割内部蛋白片段，即intein。序列排列显示在两个剪接结合点处存在高度保守的残基：intein N末端有一个半胱氨酸或丝氨酸残基，intein的C末端有His-Asn，extein的C末端处有Cys，Ser或Thr作为第一残基。这些保守的剪接连接残基直接参与催化肽键断裂和蛋白剪接反应的连接作用。N末端有半胱氨酸残基和与之C末端相连的intein剪接的化学机理如图1所示：步骤1-在intein的N末端对cysl的N-S acyl重排，形成一个线性硫酯中间产物；步骤2-在步骤1形成的硫酯上intein C末端形成后，迅速用Cys攻击进行酯化，形成分支状的中间产物；步骤3-在intein C末端Asn残基上通过肽键断裂同时伴有琥珀酰亚胺的形成来切除intein；步骤4-短暂形成的连接物自动进行s-N Acyl重排，从硫酯变成稳定的氨基键。其他intein的剪接过程除图1所示的Cys残基可能被Ser或Thr替代外，都类似于上述4个化学步骤。因此，步骤1到4分别为N-O和O-N酰基的转换。

图1B-蛋白剪接的卡通画

图2-反式剪接。

图2A-intein片段的N末端和C末端与两个为融合N-extein和C-extein序列的剪接结合的相互关系。推测这种剪接反应是通过如以前介绍的同样的顺式剪接通路来完成的。

图2B-可选择的是，在无剪接时，intein能通过随后酶活性的产生而促进两个extein序列的连接。这被称之谓intein介导的互补作用。

图3-Ssp DnaE intein基因在集胞藻属PCC6803中的排列。蓝-绿海藻集胞藻属PCC6803基因组包含断裂的dnaE基因，该基因在745kb位点有多个片段存在。天然的反式剪接的intein与两个基因产物片段融合形成一个活性聚合酶。

图4A-断裂靶基因。用融合在C末端和N末端区域的部分intein基因能将靶基因分裂成两个片段。这些断裂基因可被置入植物染色体内以便下述表达重新进行。

图4B-转基因的内容。将目的基因，此处是指一种除草剂抗性基因，分裂成两个片段(靶N和靶C)，并将一种intein(INn和INc)融合到每个片段基因内。两个融合基因单独放置在基因组的远端位置上。一个基因可能在叶绿体内，而另一个基因可能在核基因组内。叶绿体内的转基因在叶绿体内发生转录和翻译，而核内的转基因在细胞核内转录，在细胞浆内翻译。核基因翻译完毕后在叶绿体转运肽的协助下被转运进入叶绿体，在叶绿体内它可利用intein作为连接或剪接成分与其他基因片段相互联系。

图5-大肠杆菌菌株ER2744内乙酰乳酸合酶(ALS)的反式剪接。靶基因被intein片段(INn和INc)分裂，表达成两种无活性的蛋白质。在宿主细胞内蛋白的反式剪接能产生一种活性靶蛋白。

图6-乙酰乳酸合酶(ALS)基因的排序(SEQ ID NO：42，SEQ ID NO：43，SEQ IDNO：44，SEQ ID NO：45，SEQ ID NO：46)。大肠杆菌乙酰乳酸合酶II(ALSII)的空白区域用下划线表示。箭头表示大肠杆菌乙酰乳酸合酶的断裂位点。星状标志代表玉米ALS的断裂位点。

图7-平皿实验显示ALS m-14使大肠杆菌ER2744对缬氨酸和除草剂产生抵抗，SM.大肠杆菌ER2744细胞用表达ALSII蛋白(1)、ALSIIm(2)、ALSIIm-14(3)的质粒DNA进行转化，并置于在含0.3mMIPTG，100ug/ml缬氨酸(a)，或100ug/ml缬氨酸和50ug/ml SM(b)M9培养基的平皿中。平皿实验在30℃条件下进行50小时。

图8-通过SSp DnaE intein介导的反式剪接产生重组ALSIIm-14。用表达质粒转化而来的细胞作为对照(泳道1)，ALSII(泳道2)，ALSIIm(N)-IN_n(泳道3)，ALSIIm(C)-IN_c(泳道4)，ALSIIm(N)-IN_n和ALSIIm(C)-IN_c(泳道5)，2ul细胞提取物在12％的SDS-聚丙烯酰胺凝胶上电泳，然后转移到一张S&S硝基纤维素膜上，用抗ALSIIN末端(图8A)或ALSIIC末端(图8B)抗体探查。(图8C)反式剪接的效率是温度敏感性的，用抗ALSIIm N末端抗血清进行Western杂交。从表达质粒转化的细胞中制造蛋白提取物，成为含有与以下抗血清反应的非特异蛋白的大肠杆菌提取物：对照(泳道1)，ALSII(泳道2)，ALSIIm(N)-IN_n和ALSIIm(C)-IN_c(泳道3-6)，这些。细胞培养温度为：泳道1至泳道3为37℃，泳道4为30℃，泳道5为25℃，泳道6为15℃。

图9-乙酰乳酸合酶(ALSII)活性的测定

图9A-ALSIIm(N)-IN_n和ALSIIm(C)-IN_c共同表达能保证细胞在加有缬氨酸和除草剂的培养基中生长。通过ALSII(1)，ALSII(2)，ALSIIm(N)-IN_n和ALSIIm(C)-IN_c(3)，ALSIIm(N)-IN_n(4)，ALSIIm(C)-IN_c(5)，ALSIIm(N)和ALSIIm(C)(6)的表达质粒转化的大肠杆菌ER2744在37℃条件下(a)，37℃条件下添加100ug/ml缬氨酸(b)，30℃条件下100ug/ml的缬氨酸(C)，和37℃条件下添加100ug/ml的缬氨酸和50ug/ml的甲基sulfometuron(SM)(d)置于M9培养基中。培养基内含有0.3mM IPTG。

图9B-ALSIIm(N)-IN_n和ALSIIm(C)-IN_c共同表达能保证细胞在加有缬氨酸和除草剂的培养基中生长。为融合蛋白(图下所示)用表达质粒转化的大肠杆菌ER2744在含有0.3mM IPTG的M9培养基中培养，如指示培养基内可有或无100ug/ml的缬氨酸和50ug/ml的甲基sulfometuron(SM)。细胞在30℃条件下培养40小时后以OD₆₀₀确定细胞生长率。

图9C-表达ALSIIm(N)-IN_n和ALSIIm(C)-IN_c细胞生长率的时间过程研究。用指定蛋白表达质粒转化的大肠杆菌ER2744，在30℃，含有0.3mM IPTG和100ug/ml缬氨酸的M9培养基中培养。细胞密度用OD₆₀₀在指定的几个时间点上测量确定。

图10-Western斑点杂交检测反式剪接产物，玉米ALS-14。2ul表达质粒转化的大肠杆菌ER2744细胞的碎解物，作为对照(泳道1)(请注意抗体与大肠杆菌内非特异性蛋白的反应)，cALS(泳道2)，cALS(N)-IN_n(泳道3)，cALS(C)IN_c(泳道4)，cALS(N)-IN_n和cALS(C)-IN_c(泳道5)，在12％SDS聚丙烯酰胺凝胶上电泳，然后转移到一张S&S硝基纤维素膜上，用抗cALS N末端(A)或cALS C末端(B)的抗血清进行探测，cALS代表玉米ALS蛋白。

图11-平皿实验测定Ssp DnaE intein顺式剪接的构建物。编码5’-enolpyruvyl-3-phosphoshikimate合酶(EPSPS)蛋白并有完整长度的Ssp DnaEintein的质粒pCE182DnaE，pCE215DnaE，pCE235DnaE DnaE，pCE267DnaE分别在氨基酸位点182，215，235和267处插入。并将它们转化到ER2799大肠杆菌细胞内(为在限制性M9培养基中生存，需要EPSPS蛋白)，接种于M9限制性平皿中。37℃孵育过夜后，将每一平皿中的单个克隆挑出并将其种植在一个单独的限制性M9培养基中。然后主要培养平皿在37℃孵育过夜或RT 2-3天。pCYB3质粒作为对照，因为它不携带EPSPS基因，在选择的平皿中不能生长。PC+E2是一个含有全长野生型EPSPS(具有一个Pro101Ser突变)，在M9选择性平皿中生长并传递鎮草宁抗性的质粒。

图12-平皿实验测定在215和235位点的Ssp DnaE intein反式剪接构建物。

每一5’-enolpyruvyl-3-phosphoshikimate合成酶(EPSPS)反式剪接构建物的活性通过将匹配的构建物共同转化到大肠杆菌ER2799细胞中并将其接种于在一个选择性M9培养平皿的方法进行测定。pCYB3或pKYB1(New England Biolabs，Inc.，Beverly，MA)都无EPSPS基因，可用于测定EPSPS基因每一半活性时提供氨苄青霉素或卡那霉素抗性。

所用质粒分别为：pC+E2，含有完整长度的EPSPS突变基因；p215EN2，含有与Ssp DnaE intein N末端剪接区域融合的EPSPS基因第一个215氨基酸；p235EN2，含有与Ssp DnaE intein N末端剪接区域融合的EPSPS第一个235氨基酸：pEPS#28，含有与Ssp DnaE intein C末端剪接区域融合的EPSPS基因的216-427氨基酸；pEPS#29，含有与Ssp DnaE intein C末端剪接区域融合的EPSPS基因的236-427氨基酸；pEPS#33，含有与Ssp DnaE intein N末端剪接缺陷区域融合的EPSPS基因第一个235氨基酸；pEPS#37，含有与Ssp DnaE intein C末端剪接缺陷区域融合的EPSPS基因的236-427氨基酸；pEPS#34，具有EPSPS的第一个235氨基酸，但无intein片段；pEPS#36，具有EPSPS的236-427氨基酸，但无intein片段。这些质粒以不同的组合方式共同转化到大肠杆菌ER2799细胞中，并接种在LB平皿和M9平皿中，每一平皿中都补充100ug/ml的氨苄青霉素和50ug/ml的卡那霉素以及0.3mM IPTG。37℃孵育过夜或RT 2-3天后，将每一LB平皿中的单个克隆挑出并将其接种在M9选择培养平皿中。M9限制性培养基选择平皿含有100ug/ml的氨苄青霉素和50ug/ml的卡那霉素以及0.3mM IPTG。使用的质粒组合有：WT，pC+E2和pKYB；215NC，p215EN2和pEPS#28；215C，pEPS#28和pCYB3；235NC-Dead，pEPS#33和pEPS#37；235NC，p235EN2和pEPS#29，235N，p235EN2和pKYB1，235C，pEPS#29和pCYB3；235N-215C，p235EN2和pEPS#28和235互补体，pEPS#34和pEPS#36。

图13-235反式剪接构建物的草甘膦抗性液相实验。质粒构建物如图12所述。组合方式为：WT pC+E2和pKYB，235NC-Dead，pEPS#33和pEPS#37，235NC，p235EN2和pEPS#29，215N，p235EN2和pKYB1；235C，pEPS#29和pCYB3；235互补体，pEPS#34和pEPS#36。这些质粒被共同转化到大肠杆菌ER2799细胞中并接种于LB平皿中，加入100ug/ml的氨苄青霉素和50ug/ml的卡那霉素；pCYB3/pKYB共同转化到大肠杆菌ER2744中并接种于LB平皿中，添加物如前所述。每次转化前将新鲜的集落接种于含100ug/ml的氨苄青霉素和50ug/ml的卡那霉素的LB培养基中，30℃过夜制备预培养物。等量的预培养物(根据细胞密度一般为10-11ul)接种于新鲜制备的含有100ug/ml的氨苄青霉素和50ug/ml的卡那霉素以及0.3mMIPTG，含有或无草甘膦的M9限制性培养基中。在OD值600nm时测定每一构建物的生长。图13A，在37℃条件下生长。图13B，在30℃条件下生长。

图14-顺式剪接235构建物在M9液体限制性培养基的生长。完整长度SspDnaE intein插入5’-enolpyruvyl-3-phosphoshikimate合酶(EPSPS)的235位点后构建一个质粒。构建两个质粒载体(pCE235DnaE和pEPS#31)，一个质粒载体带有一个剪接的感受态Ssp DnaE intein(235cis)，而另一个具有剪接的非感受态intein(235dead)。这些质粒与pKEB12一起被共同转化到大肠杆菌ER2799细胞中并接种于LB平皿中，加入100ug/ml的氨苄青霉素和50ug/ml的卡那霉素。每次转化前将新鲜的集落置于LB培养基中在30℃过夜。等量的预培养物(根据细胞密度一般为10-11ul)接种在新鲜制备的含有100ug/ml氨苄青霉素和50ug/ml的卡那霉素以及0.3mM IPTG的M9限制性培养基中。细胞密度在不同时间点在OD值600nm测定。

图15是一个显示5-烯醇丙酮基-3-磷酸莽草酸合酶(5-enolpyruvyl-3-phosphoshikimate(EPSPS))蛋白中能够插入一个5氨基酸而仍能保证蛋白活性的位点的图。

图16是一个显示5-enolpyruvyl-3-phosphoshikimate合酶(EPSPS)蛋白中能够插入一个5氨基酸而使蛋白活性消失的位点的图。

图17是一个pIH976的基因图谱。环状双链DNA具有一个多克隆位点。标明了限制酶位点。带有括号的限制位点不是唯一的。Ptac代表tac启动子。复制的起点是ori。这个质粒具有四环素药物抗性标志物(Tetr)。

图18是一个pAGR3的基因图谱。环状双链DNA(SEQ ID NO：76)具有一个多克隆位点。下面显示限制酶位点。Ptac代表tac启动子。复制的起点是ori。这个质粒具有氨苄青霉素药物抗性标志(ampr)。标明了Lac操纵子和核糖体的结合位点。质粒pAGR3是一个带有下述几种元件的表达载体；(1)一个合成tac启动子连接一个对称的合成Lac操纵子序列；(2)一个Lac核糖体结合位点：(3)一个在NcoI位点内部带有ATG的克隆聚合连接子，NcoI位点在核糖体结合点下游大约7个核苷酸处；(4)LacI^q基因的一个拷贝，对tac启动子起抑制作用；(5)自pBR322起源的复制；(6)氨苄青霉素抗性基因；和(7)tac启动子核糖体转录终止子上游的四倍拷贝。转录终止子通过降低上游启动子的阅读-通过转录过程来减少转录的基础水平。

图19用Ssp DnaE intein作为剪接元件，在大肠杆菌内将两个不相关的基因产物进行反式剪接。

图19A，质粒pIHaadE-N代表aadA基因(黑体处)融合到Ssp DnaE intein(INn呈灰色)N末端剪接区域。质粒pAGRE-CsmGFP代表Ssp DnaE intein的C末端剪接区域(INc呈灰色)和smGFP(呈黑色)。每一参与者的计算分子量在下方用kDa表示。箭头表示反式剪接事件产生一个aadA-smGFP(57kDa)融合蛋白。

图19B，在大肠杆菌细胞内用氨苄青霉素和硫酸壮观霉素选择pIHaadE-N和AGRE-CsmGFP质粒。大肠杆菌被用右边所示的质粒转化，集落数在上方显示。

图19C，通过反式剪接表达和检测aadA-smGFP杂合体蛋白。用单克隆smGFP特异性抗体通过western斑点分析表达构建物的大肠杆菌细胞提取物(在图上标明)。生物素化的MW标志物(76，57，46，37，28和20)的相对位置以kDa表示。与aadA-smGFP杂合体和INc-smGFP相对应的蛋白带也被标明。

图20，是一个pNCT114/224的基因图谱。具有一个多克隆位点的环状双链DNA能够定位基因，预先确定部位。指出了限制酶位点。PpsbA和TpsbA分别代表光合成多肽D1基因启动子和终止子。复制的起点是ori。这个质粒具有氨苄青霉素药物抗性标志(ampr)。同源重组序列如左边所示(pNCT114与orf228，pNCT224与16SrDNA-tmaV)和右边所示(pNCT114与orf1244，pNCT224与rps7/12)。CS代表克隆位点。

图21植物启动子PpsbA在大肠杆菌内活性和aadA及smGFP的反式剪接。

图21A质粒p115ag/p225ag代表aadA基因(黑体表示)融合到Ssp DanE inteinN末端区域(IN_n灰色表示)和Ssp DanE intein C末端区域(IN_n灰色表示)融合到smGFP(用黑色表示)。两个杂合基因在相反的方向转录。两者的计算分子量在下面用KDa表示。箭头表示反式剪接发生后形成一个融合aadA-smGFP(57Kda)蛋白。

图21B在大肠杆菌细胞内用氨苄青霉素和硫酸壮观霉素选择p115ag和p225ag质粒。大肠杆菌被右边所示的质粒转化，集落数在上方显示。质粒后的阿拉伯数字是独立的数字，加号(+)表示质粒在指定抗生素中的生长。

图21C通过反式剪接表达和检测杂交aadA-smGFP蛋白。用单克隆抗smGFP特异性抗体通过Western斑点分析表达上图所示构建物的大肠杆菌细胞提取物。生物素化MW标志物的相关位置在左边用Kda表示。与aad-smGFP杂合体和Inc-smGFP相关的蛋白带也被标明。

图22植物细胞浆内顺式剪接。5-enolpyruvyl-3-phosphoshikimate合酶(EPSPS)和乙酰乳酸合成酶(ALS)基因被插入到双重载体pBI121中。EPSPS或ALS的氨基和羧基末端片段用黑体表示。Ssp DnaE intein基因用EPSPS/ALS片段在两边相连接。Agrobacterium的右边和左边表示为LB和RB。CaMV35S启动子、NOS启动子(pNOS)和NOS终止子(TNOS)被标明。

图23核转移载体pBITPEC或pBITPECsmGFP。这种双重载体具有驱动核酮糖二磷酸羟化酶3A转运肽(TP)的CaMV35S启动子，该启动子被融合到Ssp DnaEintein C末端剪接区域(INc)。在INc之后标明为细胞器转运而被克隆的基因。在pBITPECsmGFP存在时将smGFP基因克隆到多克隆位点。

图24为PsbA启动子(PpsbA)序列(SEQ ID NO：59)。

图25为PsbA终止子(TpsbA)(SEQ ID NO：60)。

图26为核酮糖二磷酸羟化酶3转运肽(SEQ ID NO：61)。下方的核苷代表密码子优化后的单位。

图27叶绿体基因目标载体(pNCT114)(SEQ ID NO：62).pNCT114的特征包括：(1)载体主要部分：pLITMUS28；(2)在BssHII到BsiWI左侧边界插入叶绿体基因组目标片段(orf228-ssb，1210bp)；(3)在AvrH到KpnI右边界插入叶绿体基因组目标片段(orf1244，1550bp)；和(4)在BsiWI和pstI之间加入PpsbA和TpsbA，而其他配对是在AvrII和NcoI位点。

图28叶绿体基因目标载体(pNCT224)(SEQ ID NO：63)。pNCT114的特征包括：((1)载体主要部分：pLITMUS28；(2)在BssHH到BsiWI左边界插入叶绿体基因组目标片段(165SrDNA-tmaV，1680bp)；(3)在AvrII到KpnI右边界插入叶绿体基因组目标片段(rps7/12，1310bp)；和(4)在BsiWI和pstI之间加入PpsbA和TpsbA，而其他配对是在AvrII和NcoI位点。

发明的详述

蛋白的剪接是将插入序列从多肽上切割下来，并同时连接侧向序列形成一种新的多肽的过程(Chong等，生物化学杂志J Biol Chem.，271：22159-22168(1996))，如图1A和1B所示。阐明蛋白剪接的机制可产生数种以intein为基础的应用(Comb等，美国专利第5,496,714；Comb等，美国专利第5,834,247；Camarero和muir，J.Amer.Chem.Soc.，121：5597-5598(1999)；Chong等，Gene，192：271-281(1997)，Chong等，核酸研究Nucleic Acids Res.，26：5109-5115(1998)；Chong等，生物化学杂志J.Biol.Chem.，273：10567-10577(1998)；Cotton等，美国化学学会杂志J.Am.Chem.Soc.，121：1100-1101(1999)；Evans等，生物化学杂志J.Biol.Chem.，274：18359-18363(1999)；Evans等，生物化学杂志J.Biol.Chem.，274：3923-3926(1999)；Evans等，蛋白质科学Protein Sci.，7：2256-2264(1998)；Evans等，生物化学杂志J.Biol.Chem.，275：9091-9094(2000)；Iwai和Pluckthun，FEBS Lett.459：166-172(1999)；Mathys等，基因Gene，231：1-13(1999)；Mills等，Proc.Natl.Acad.Sci.USA 95：3543-3548(1998)；Muir等，Proc.Natl.Acad.Sci.USA 95：6705-6710(1998)；Otomo等，生物化学Biochemistry38：16040-16044(1999)；Otomo等，J.Biolmo.NMR 14：105-114(1999)；Scott等，Proc.Natl.Acad.Sci USA 96：13638-13643(1999)；Severinov和Muir，生物化学杂志J.Biol.Chem.，273：16205-16209(1998)；Shingledecker等，基因Gene，207：187-195(1998)；Southworth等，EMBO J.17：918-926(1998)；Southworth等，生物技术Biotechnique，27：110-120(1999)；Wood等，国家生物技术Natl.Biotechnol.，17：889-892(1999)；Wu等，Proc.Natl.Acad.Sci.USA 95：9226-9231(1998a)；Wu等，Biochim Biophys Acta 1387：422-432(1998b)；Xu等，Proc..Natl.Acad.Sci USA96：388-393(1999)；Yamazaki等，美国化学协会杂志J.Am.Chem.Soc.，120：5591-5592(1998))。

最近体内和体外都有对蛋白反式剪接的描述(Shingledecker等，基因Gene207：187(1998)，Southworth等，EMBO J.17：918(1998)；Mills等，Proc.Natl.Acad.Sci.USA，95：3543-3548(1998)；Lew等，生物化学杂志J.Biol.Chem.，273：15887-15890(1998)；Wu等，Biochim.Biophys.Acta 1387：422-432(1998b)，Yamazaki等，美国化学协会杂志J.Am.Chem.Soc.120：5591(1998)，Evans等，生物化学杂志J.Biol.Chem.275：9091(2000)；Otomo等，生物化学Biochemistry38：16040-16044(1999)；Otomo等，J.Biomol.NMR 14：105-114(1999)；Scott等，Proc.Natl.Acad.Sci.USA 96：13638-13643(1999))，提供了将一种蛋白表达成两个无活性片段，之后这两个片段连接形成一个功能产物的机会(图2)。

反式蛋白剪接在集胞藻属PCC6803中也能自然发生(Wu，H.等，Proc.Natl.Acad.Sci.95：9226(1998))，它是将DnaE蛋白的两个片段连接形成具有功能的DNA多聚酶III所必须的，而DnaE蛋白是由被750Kb染色体DNA分割的两个基因所编码(图3)

这些发现使本项目的发明者进一步探索是否能通过将感兴趣基因分裂为两个片段并且将intein片段融合到每个目标基因片段中来形成一个功能基因产物。通过反式剪接后表达的两个蛋白片段、intein介导的互补作用或蛋白互补作用能够产生一种活性形式的靶蛋白(图4)。在此处靶基因片段可位于宿主基因组的任何位置，包括广泛分布在细胞核内、叶绿体内、线粒体内、质粒内、细菌人工染色体内、酵母人工染色体内或上述任何部位的组合。此外，将基因片段安放在不同的细胞器官或质粒内，如一半在细胞核内而另一半在植物的叶绿体或线粒体内，重构具有完整活性的目标蛋白需要两个部分基因的传递，例如，通过受粉向远属转运或通过细菌、真菌或病毒载体进行水平基因转移的现象都将被从根本上消除。这样将极大的减少和有可能消除转基因向其相关的环境外传播的危险。

分裂靶基因并用一个蛋白剪接元件重建活性的两个实施例描述如下。被研究的两个基因分别是来自大肠杆菌的乙酰乳酸合成酶(ALS)基因的突变体和来自鼠伤寒沙门氏菌的5-enolpyruvyl-3-phosphoshikimate合酶(EPSPS)基因，它们分别传递磺脲和草甘膦除草剂抗性。两种酶都参与蛋白构件的生物合成过程。ALS是支链氨基酸生物合成时的第一个普通酶(LaRossa和Schloss，生物化学杂志J.Biol.Chem.，259：8753-8757(1984)；Chaleff和Ray，科学Science，223：1148-1151(1984)；Falco和Dumas，遗传学Genetics，109：21-35(1985))，而EPSPS是合成芳香族氨基酸所必需的(Stalker等，生物化学杂志J.Biol.Chem.260：4724-4728(1985))。用化合物抑制这两种酶可导致微生物的死亡。

常用的磺脲除草剂(SU)，如甲基sulfometuron(SM)(Short和Colbum，Toxicol Ind.Health，15：240-275(1999))通过抑制乙酰乳酸合成酶(ALS)(EC 4.1.3.18)阻止细菌、酵母和高等植物的生长。为了制造除草剂抗性的植物，需努力分辨ALS基因突变体，这种基因能使植物在存在SM时也能生长。首先报道的是能够使细菌、酵母对SM发生抵抗的突变基因(Hill等，生物化学杂志Biochem.J.，335：653-661(1998))。随后，在工自然产生的抗性作物、玉米、牛旁和烟草中(Lee等，EMBO J.7：1241-1248(1988)；Bernasconi等，生物化学杂志J..Biol.Chem.，270：17381-17385(1995))分离的ALS基因中都证实了类似的点突变。某些对SU耐受的作物如ICI8532IT和先锋3180IR都已经商品化。

在下面的实施例1中，除草剂抗性基因被分裂并且将一个intein片段在结构上融合到每一部分基因中。断裂的基因被证实在大肠杆菌中具有对除草剂SM的抗性。大肠杆菌被当作模型系统，因为它含有活性的ALSI和乙酰乳酸合成酶III(ALSIII)酶，而不是活性的ALSII酶。ALSI和ALSIII是大肠杆菌内ALS基因的两个同型异构体，它们在合成缬氨酸，异亮氨酸，亮氨酸中起关键性作用(DeFelice等，微生物学年报Ann.Microbiol.(Paris)133A：251-256(1982))。其活性对缬氨酸的反馈抑制敏感。因此，只要用缬氨酸饱和培养基，ALSI和ALSIII将被抑制，细胞就会停止生长。由于ALSII对缬氨酸的抑制作用具有抵抗性，将重组的ALSII导入大肠杆菌细胞内，这些细胞将恢复生长。由于这种特性使得大肠杆菌ER2744菌株成为研究(通过插入连接物或intein的反式剪接元件)基因修饰后的大肠杆菌ALSII基因活性的良好体内模型系统。

第二个检测的除草剂抗性基因来自鼠伤寒沙门氏菌aroA基因，它有一个C301到T的突变(Stalker等，生物化学杂志J.Biol.Chem.260：4724(1985))。该基因编码5-enolpyruvyl-3-phosphoshikimate合酶(EPSPS)(EC2.5.1.19)蛋白，具有一个Pro101到Ser的改变，已知具有除草剂草甘膦的抗性(市售商品名为Round-Up)。在这个实施方案中，EPSPS基因的一个N末端片段与Ssp DnaE intein的N末端剪接区相融合，而EPSPS基因的一个C末端片段与Ssp DnaE intein的C末端剪接区相融合。为确定EPSPS蛋白中能插入一个intein的位点，进行连接子扫描实验(Biery等，核酸Nucleic Acids Res.，28：1067-1077(2000))(GPS-LS，New England Biolabs，Inc.，Beverly，MA)，该实验在整个蛋白序列中随机插入5个氨基酸。将intein插入能耐受氨基酸插入的位点。将编码EPSPS的N末端片段的基因与一条质粒上Ssp DnaEintein的N末端区域相融合，将EPSPS的C末端部分与在另一质粒上的Ssp DnaEintein的C末端剪接区相融合，建立了反式剪接构建物。比如，EPSPS蛋白能够在Gly235对应的位点被断裂。有人发现，两种质粒共同转化进缺乏功能性EPSPS蛋白的大肠杆菌细胞内，细胞在存在或不存在除草剂草甘膦的M9限制性培养基中生长的现象。

观察断裂ALS和EPSPS除草剂抵抗基因的活性，是否intein未修饰或催化的残基发生改变，并因此消除了反式剪接活性。这说明尽管剪接能产生一种共价结合的蛋白质产物，但并不是在所有情况下都需要进行剪接。此时intein作为主要的亲和区能将两个蛋白片段按正确的方向组合在一起。在这些实验中断裂蛋白的活性绝对需要intein的存在。因为有实验观察到当没有intein融合时，断裂的ALS和EPSPS基因都无法使大肠杆菌在适当的除草剂上生长。

在该发明的一个实施方案中，融合在intein剪接区的两个基因片段用选择性的标志物(如对抗生素抵抗或其他生长抑制剂来证实基因转移)分别引入核染色体内。两种融合基因的分别转移能确保被转移的基因位于植物基因组的不同位置，可能是在不同的染色体上，由此排除了一种病毒或质粒载体在向其他微生物传递时同时获得两种基因的可能性。如此，利用已知的DNA序列，用同源重组的方法靶向特定的部位就能够保证两个基因相距很远。

在该发明的另一个实施方案中，两个融合蛋白中的一个被转化到细胞核内，另一个被转化到叶绿体体内，这样就可以根本杜绝基因通过任何可能的机制(包括相关种属的交叉传粉，)传递到相关植物中的可能性，因为只有基因的非活性片段存在在花粉中。位于叶绿体内的基因片段是通过母系传播，而不能通过花粉进行传播，这同样也适合于线粒体内表达的基因片段。

该技术也可应用于非植物系统。例如，一个被封闭的转基因可以被分裂并且将intein融合到基因片段中。在细菌中，断裂基因优选采用标准的染色体转化技术放置在与细菌染色体相距很远的部位。将基因片段反方向排列可作为进一步的控制措施。该方法的另一描述是将一个目标转基因分裂成两部分，并且在将断裂基因插入真核细胞前与适当的intein区域结合，主要目的是阻止转基因的活性向环境或临近的细胞传递。断裂基因也可以被安放在原核细胞染色体上相距很远的部位或单独的染色体上。此外，这些基因片段也可位于不同的细胞器内如细胞核和线粒体内。位于线粒体内的基因片段是通过母系传递的。

本发明的用途之一是阻止完整转基因由转基因植物向环境中传播。它能通过将转基因融合分裂成两个或更多的片段并且进一步与intein片段融合来完成。部分转基因融合体分别位于单独的小室中，例如一部分位于细胞核DNA内而第二部分则位于叶绿体DNA内。随着部分基因的表达，蛋白片段向活性部位移动并且在此处重构靶蛋白活性。只有在细胞核内的转基因片段是通过花粉传播的，因为叶绿体DNA只通过母系传播方式向下一代传播。这就明显减少了完整的转基因向周围环境的传播。

本发明的另一优势是仅仅表达非活性融合蛋白种属的宿主细胞处理起来非常安全，因而减少了靶蛋白与人和环境接触的风险，这些靶蛋白可能是一个毒素。此外，将靶基因分裂成两个独立部分后也显著降低了通过DNA载体(质粒、病毒，粘粒等)或其它方式(如细胞融合等)将整个蛋白编码序列转移到其他微生物中去的机率。一个设想的例子是表达一个毒性基因如白喉毒素。白喉毒素蛋白是一种对入和动物细胞具有很强毒性的蛋白质，在处理时应十分小心。这种蛋白质已经作为杀灭肿瘤细胞的药物进行过临床前和I期临床研究(Kelley，Proc.Natl.Acad.Sci USA 85(11)：3980-3984(1988)；Alexander，神经元Neuron3(1)：133-139(1989)；Maxwell等，癌症研究Cancer Res.51(16)：4299-4304(1991)；Madshus，生物化学杂志J.Biol.Chem.，269(26)：17723-17729(1994)；Murphy和vanderSpeck，Semin Cancer Biol.6(5)：259-267(1995)；Rozemuller和Rombouts，白血病Leukemia，12(5)：710-717(1998)；Veggeberg，Mol.Med.Today 4(3)：93(1988)；Kreitman，Current Opin.Immunol.，11(5)：570-578(1999)；Vallera等，蛋白质工程Protein Eng.12(9)：779-785(1999))。因此，将白喉毒素基因分裂成两个intein融合DNA片段并且在两个不同的细菌或酵母菌株中表达是有益处的。这两种融合蛋白在需要时可以被混合起来组合成毒素。

第三，至少将靶基因的一个片段限制在一个经母系遗传的细胞器内(如叶绿体或线粒体)，就可避免相关微生物的功能基因通过交叉受粉进行基因转移。

本发明也可用于转基因动物中表达任何目的基因的手段。转基因动物模型被广泛作为科研工具进行生物医学研究或制造需要的蛋白质。为研究和商业目的(如生产疫苗或治疗药物或作为人类疾病模型)(Alexander，神经元Neuron3(1)：133-139(1989)；Groner等，生理学杂志J.Physiol.84(1)：53-77(1990)；Patil等，神经元Neuron 4(3)：437-447(1990)；Aloe等，生长因子Growth Factors9(2)：149-155(1993)；Aguzzi等，大脑病理学Brain Pathol.4(1)3-20(1994)；Groner等，Biomed.Pharmacother.48(5-6)：231-240(1994)；Schorderet，Experientia51(2)：99-105(1995))，转基因小鼠和其他转基因动物如转基因鱼、青蛙、大鼠、牛、猪等已经显示可以表达人类基因(或一种外源基因)。担心的问题之一是转基因动物可能获得一种意外的外源基因并将其传递到下一代和继续往下传递。这将导致基因改变的动物株，由此可产生无法预计的社会和伦理后果。根据本发明，这种转基因能够被分裂成两个无活性的融合DNA片段。其中的一个片段整合到动物的基因组内，而另一个片段可能由DNA载体(如病毒等)提供，该载体无法融合到基因组内。因此，当一个来源于动物和另一个来源于DNA载体的融合蛋白共同表达时，融合蛋白将重新组装，进行反式剪接并形成一个活性蛋白。这种基因排列能阻止动物获得一个完整的外源性基因，因而避免了基因污染的发生。

两个基因片段的小室限制是对反式剪接的扩展。有问题的蛋白被分裂成片段并将适当的断裂基因分别放置在同一个或不同的DNA分子上。例如，集胞藻属PCC6803(含有Ssp DnsE或Ssp DnaE intein剪接区域)中DnaE蛋白的两部分基因融合到合适的片段后就被分开(Wu等，Proc.Natl.Acad.Sci USA，95：9226-9231(1998a)；Wu等，Biochim biophysActa 1387：422-432(1998b))，其中一部分位于细胞核内，而第二部分位于某一特定微生物的线粒体内。

在执行本发明时，必须遵照下列一种或多种方法：

(1)在目标转基因上确定合适的分裂位点；

(2)断裂基因为两个或更多片段并且将每一片段与一个断裂intein融合的方法学；

(3)成功将断裂基因产物转变为一个功能性酶或蛋白质的方法学；

(4)筛选宿主细胞内活性基因产物或微生物的方法学；

(5)确定在相关的细胞器内断裂基因序列的位置；

(6)将靶基因分裂成两个以上片段的方法；

(7)采用蛋白互补作用来代表转基因传播；并且

(8)引入转基因。

(1)任何转基因上寻找合适断裂位点的方法

在转基因上寻找断裂位点一个优选的方法是根据对目标蛋白或其类似物及同源序列的结构分析来进行。该过程包括研究已知的生物化学和X线、NMR或有关的结构信息，进一步确定优选的intein插入位点和或将蛋白分裂成片段的位点。特别是应确定哪一个是持久的活性氨基酸残基以及它们空间结构和在蛋白质内的空间排列。如果可能，最好将靶基因分裂以便催化性氨基酸被分配安装到每一个片段。这样每一片段不具有活性的可能性将增加。蛋白分裂片段可以在蛋白的任何位置上，但最初检测的位点应在位于二级结构之间的畔部或连接部如β-片层和α-折叠。第一个选择的畔部不应是催化部位的部分，尽管最终的分裂位点可能位于此处。作为第一步，优选的分裂部位应是蛋白质内两个折叠区域之间的畔部或连接处。这将使当蛋白片段分别表达时正确折叠的可能性增加。

如果没有目标蛋白的生物化学或结构资料，那么来自不同微生物或来自同一微生物的相似蛋白序列的排列方式可能提供一些信息。蛋白的排列可通过传统的序列比较方法或应用任意一种计算机程序如GCG(Genetics Computer Group，Madison，WI.)进行。所有可能代表重要区域的相似蛋白的高度保守区和在高度保守区内分裂蛋白可在以后进行测试。我们不应去确定低度保守区域，位于高度保守区之间的优选区域内氨基酸的数目也不相同。低度保守提示出现催化残基的可能性降低，氨基酸残基长度的变化提示保守区域之间的确切空间并不由氨基酸的这种延伸所指示。这些特性将有利于在某一位点插入intein并将靶蛋白分裂。

此外，在目的蛋白质中选择位点插入intein时，应当检测具有适合被测intein发挥剪接活性的氨基酸残基位点。在研究中在目标蛋白中优选与自然生成的intein的extein残基相似或相同的位点。此外，已知能够促进高效剪接的残基可与intein一起插入。此时，随着剪接反应的继续，这些残基将在剪接产物序列中出现并且能改变靶蛋白的活性。靶蛋白上这些外部残基的作用通过将外部氨基酸插入靶蛋白进行测定并检测所需的特性或活性。

另一种优选的方法是通过随机连接子的插入对目标蛋白进行系统扫描来进行。连接子扫描能通过多种方法进行(Gustin等，分子生物学方法MethodsMol.Biol.130：85-90(2000)；Hobson等，分子生物学方法Methtds Mol.Biol.57：279-285(1996)；Biery，核酸研究Nucleic Acids Res.28：1067-1077(2000))。这种方法可生成带有侧枝的随机全程插入DNA基因文库。当翻译这些文库后能产生不同位置插入的带有额外氨基酸残基的一系列蛋白质。然后在文库中筛选靶蛋白的所需特性。例如，如果靶蛋白具有除草剂抗性，则筛选文库确定那一个带有额外氨基酸残基的蛋白质能够在除草剂存在时允许目标微生物的生长。建立蛋白质中能容纳额外氨基酸的多个位点目录。如果有结构或生物化学资料，将该目录与已知的资料相比较。理想的情况是选择一个能够容纳额外氨基酸插入并且位于连接子或畔部区域的分裂位点，进而催化位于不同片段的残基。如果没有结构资料，优选从位于靠近目标蛋白中段的插入部位基因开始断裂基因，并从此开始继续向外检测断裂位点直至重构所需的活性。在两种方法中，优选的插入位点也应具有所用intein的天然intein序列，尽管不需如此。在剪接连接处，融合蛋白可以优化氨基酸残基使得功能产物得以评价。

(2)一种裂解基因并将每个基因片断在结构上融合进一个断裂的编码intein的序列中的方法

一旦一个要断裂目的基因的位点被确定(见上)，靶基因就采用普通的基因技术(Sambrook等，分子克隆：实验室手册，第二版，Cold Spring Harbor Laboratory，NY：Cold Spring Harbor Laboratory Press(1989))断裂成两个或更多的片断。例如，可以设计具有合适限制性位点的PCR引物，使之一个对应于靶基因的起点，另一个对应于断裂位点的序列。可以设计另一类PCR引物使之对应于断裂位点和靶基因的另一端。两个靶基因片断然后通过PCR进行扩增(Sambrook等，见上)，并克隆进一个具有与PCR引物相同的单一克隆位点的质粒载体中。一旦克隆进独立的载体中，intein片断将与靶基因融合。在一种方法中，编码靶蛋白N-端部分的DNA的C-末端将与编码intein N-端部分的DNA的N-末端融合，在另一个融合中，编码靶蛋白C-端部分的DNA的N-末端将与编码intein C-端部分的DNA的C-末端融合。

然后，这些基因片断的融合物转移到相同或不同的表达载体中，并转化进入以单或多细胞生物体存在的细菌或真核细胞中，以便筛选所期望的靶蛋白活性。应该注意的是所述的基因片断将可用限制位点被克隆，该位点在天然的或通过突变添加的intein基因内部或外部。而且，为了通过重组转移基因，可用重组位点替代限制性酶切位点。然后基因或基因片断将转移和/或从质粒载体、病毒基因组、或细菌、真核细胞或原始生物体(archeal organism)基因组中表达。一个优选的方法是应用天然存在的反式剪接intein，例如来自集胞藻菌属PCC6803(Wu等，Proc.Natl.Acad.Sci.USA 95：9226-9231(1998))dnaE基因的intein。但是，任何已知的intein都可以使用(见 http：//www.neb.com/neb/frame tech.html上的InBase；Perler等，核酸研究Nucleic Acid Res.，28：344-345(2000))。这将涉及断裂全长intein以产生所期望的亲和性或反式剪接的区域。一种方法是在蛋白剪接区的B和F单元之间的连接区断裂全长intein(Petrokovshi，蛋白质科学Protein Sci.7：64-71(1998)；Perler等，核酸研究Nucleic Acid Res.25：1087-1093(1997)；Perler等，核酸研究Nucleic AcidRes.，28：344-345(2000))。

(3)从表达的断裂片断中产生一个功能蛋白

下一步是采用intein作为一个亲和区加速蛋白N-和C-末端部分的互补和重建成为一个功能性的酶。蛋白断裂位点的确定可如上面(1)中所述，靶基因片断的克隆和intein区的添加可如(2)中所述。如此，intein片断不需要导致两个蛋白片断的剪接以重建酶活性。在一个优选的实施方案中，intein区将被变化以消除剪接活性的可能性，并将仅作为蛋白互补的加速器。Intein的剪接活性可通过改变涉及剪接反应的氨基酸残基来消除(Xu等，EMBO J.15：5146-5153(1996)；Chong等，生物化学杂志J.Biol.Chem.271：22159-22168(1996)；Chong等，Biochem.BiophysRes.Commun.，259：136-140(1999)；Chong等，基因Gene，192：271-281(1997)；Chong等，核酸研究Nucleic Acids Res.，26：5109-5115(1998)；Chong等，生物化学杂志J.Biol.Chem.，273：10567-10577(1998)；Chong和Xu，生物化学杂志J.Biol.Chem.，272：15587-15590(1997)；Evans等，J.Biol.Chem.，274：18359-18363(1999)；Evans等，生物化学杂志J.Biol.Chem.，274：3923-3926(1999)；Evans等，蛋白质科学Protein Sci.，7：2256-2264(1998)；Evans等，生物化学杂志J.Biol.Chem.，275：9091-9094(2000)；Mathys等，基因Gene，231：1-13(1999)；Paulus，化学协会杂志Chem.Soc.Rev.，27：375-386(1998)；Perler等，核酸研究Nucleic Acids Res.，25：1087-1093(1997)；Pietrokovski等，蛋白质科学Protein Sci.，3：2340-2350(1994)；Pietrokovski等，蛋白质科学Protein Sci.，7：64-71(1998)，Scott，Proc.Natl.Acad.Sci.USA，96：13638-13648(1999)，Shingledecker等，Arch Biochem.Biophys.375：138-144(2000)；Southworth等，生物技术Biotechniques 27：110-120(1999)；Telenti等，细菌学杂志J.Bacteriol.，179：6378-6382(1997)；Wood等，国家生物技术Nat.Biotechnol.，17：889-892(1999)；Wu等，Biochim Biophys Acta 1387：422-432(1998b)；Wu等，Proc.Natl.Acad.Sci.USA 95：9226-9231(1998a))。

在另一个实施方案中，intein亲和区可以保留其正常的催化残基。此外，intein可以包括一个缺失或变化的形式，与其原始基本序列相比，明显更小或更大或含有非天然的氨基酸残基。Intein的缺失形式可通过按顺序地在基因水平或蛋白水解减少intein的大小，然后检测亲和活性来建立。亲和活性可如下检测，采用断裂的除草剂抗性基因，将新的缺失变异体与合适的除草剂抗性基因片断融合，观察在所述除草剂上的生长。Intein片断的突变体可通过倾向差错PCR、连接子扫描、位点直接诱变、或致突变化合物来形成，intein片断的活性用上述方法测定。注意除草剂抗性基因可用药物抗性基因、绿荧光蛋白或其他选择性标记来代替。Intein片断的亲和性检测也可通过在一个固体支持物上固定一个片断，检测第二个片断与第一个片断的结合。

(4)一种在合适的宿主细胞或生物体中筛选产生目的活性蛋白的构件的方法

靶基因活性的筛选依靶基因的不同而异，但可在表达和纯化后或在粗的细胞溶解产物中通过体外实验来进行，或在体内通过细胞表现型来确定蛋白活性，如存活能力、形态学、对一种药物或一种化合物敏感或不敏感、外观，或与一种特异的分子或化合物结合或不结合的能力。一个优选的方法是采用大肠杆菌作为宿主细胞进行检测，例如一个断裂基因的重组产物的耐除草剂活性。大肠杆菌必须对所述的除草剂敏感。与intein融合的靶基因片断存在于一个或几个质粒中，并用标准的方法转入大肠杆菌细胞中。

基因融合体结构性表达或通过一个可诱导的启动子表达。然后在选择的条件下检测大肠杆菌的生长情况，即在除草剂存在的情况下，存在或缺乏合适的基因片断。在基因片断存在时生长表明靶蛋白活性的重建。大肠杆菌细胞可采用本领域熟知的技术被任何细菌、原始或真核细胞(单或多细胞)以及病毒替代。

此外，两个靶基因片断都可存在于生物体基因组中，或一个片断位于基因组中，另一个在质粒或某个其他载体中。靶蛋白片断可在一个生物体中一起或分别表达，并加入到另一个细胞类型中以供检测。融合可在植物细胞或其他多细胞生物体中直接检测，将转基因片断置入宿主生物体核、叶绿体或线粒体基因组中，并测定是否存在所需要的活性。靶基因或蛋白片断可通过细菌、真菌、病毒、微胶粒、机械的(biolistic)或相似的载体传递到被检测的细胞或生物体中。

(5)断裂基因的定位

本发明也包括在不同的细胞小室中断裂靶基因序列的定位，在染色体或不同载体上的不同定位。一个优选的方法是将两个断裂的基因序列置于核、叶绿体、线粒体、细菌人工染色体、酵母人工染色体、质粒内，优选地，两个不共同存在于上述任一载体中。片段的定位可按标准的分子生物学技术来完成。为了从其片段重构基因产物，必须将合适的基因片段与靶/定位的序列融合，使得其蛋白产物被转运进细胞小室中(如叶绿体)，在此可发生功能重建。

(6)将靶基因断裂成两个或更多片段的方法

本发明也表达了将靶基因分裂成两个或更多片段，以及通过反式剪接、所有必需片段的intein介导的互补或蛋白互补重建所需活性的方法。例如，不同活性的inteins可被附着于靶蛋白片段，以前述的方式(Otomo等，生物化学Biochemistry，38：16040-16044(1999)；Otomo等，分子生物学杂志J.Biomol.NMR，14：105-114(1999))使其重新装配活性蛋白。这样，除位置的数目与蛋白分裂的片段数目相当外，每个片段可位于染色体上的远隔部位，在单独的染色体上或在上述的多个位置上。

(7)在防止转基因传播中采用蛋白互补作用

本方案采用两个蛋白片段的天然互补活性来重建所需的蛋白特性。编码蛋白两部分的两个基因可能定位在核、叶绿体、线粒体、细菌人工染色体、酵母人工染色体、质粒或那些细胞器或载体的任何组合。在表达后，两个蛋白片段都可靶向到蛋白作用的部位，通过蛋白片段的互补作用产生所需的蛋白特性。蛋白的互补作用以前曾被报道过(Rossi等，Trends Cell Biol.10：119-122(2000))，因此使应用intein作为互补区成为可行的选择。进行这个实验的必须步骤与已经讨论的步骤相似，除了没有采用intein融合体以外。亮氨酸拉链或c-Jun/c-Fos可以用作融合蛋白代替intein。断裂靶基因的位点的确定如(1)中所述。转基因片段的克隆如(2)所述，除了不用intein作为融合参与者以外。断裂蛋白活性的筛选如(4)所述进行。

(8)通过病毒感染将一个转基因导入生物体中

在另一个实施方案中，两个转基因片段，是或不是intein融合体，可能分别包装在病毒颗粒中。这些病毒共同感染一个生物体，两个转基因都表达。所需的蛋白特性在蛋白剪接、intein介导的互补作用、或蛋白互补作用后产生。一个优选的方法包括选择断裂位点，克隆片段，并检查转移的活性，如(1)，(2)和(4)中所述。合适的断裂转基因或转基因intein融合体被包装进腺病毒中。含有合适转基因的腺病毒可被导入目标生物体中，经过转染过程引导两个基因片段使靶蛋白活性得以表达。

实施例的简单描述

在实施例I中，我们说明了通过intein断裂一个除草剂抗性基因的方法。显示了如何根据序列同源分析和目的蛋白或其类似物的晶体结构，在编码乙酰乳酸合酶(ALS)的大肠杆菌除草剂抗性基因中选择潜在的断裂位点。编码ALS蛋白N-端327个氨基酸残基的DNA片段在结构上与Ssp DnaE intein N-端的123个氨基酸融合，同时，编码C-端221个氨基酸残基的DNA片段在结构上与Ssp DnaE intein C-端的36个氨基酸融合。带有融合基因之一的质粒载体表达为一个无活性的ALS蛋白片段。当两个融合基因载体被导入同一个宿主细胞并共表达时，两个无活性的融合蛋白在体内进行反式剪接产生一个功能性的酶，使大肠杆菌宿主细胞具有除草剂抗性。这种方法可用于在任何基因内选择合适的位点，以与intein序列融合。

在实施例II中，我们说明了如何根据玉米ALS基因和其大肠杆菌对应体——ALSII基因的序列同源性，在玉米ALS基因中选择断裂位点。编码玉米ALS基因N-端397个氨基酸残基的DNA在结构上与编码Ssp DnaE intein N-端123个氨基酸残基的DNA序列融合，同时，编码C-端241个氨基酸残基的DNA片段在结构上与编码Ssp DnaE intein C-端36个氨基酸的DNA融合。我们显示，当两个融合基因共表达时，两个融合蛋白进行反式剪接，产生一个成熟蛋白的期望大小的蛋白产物。

在实施例III中，我们说明了一个在转座子随机连接子插入的基础上，在编码5-enolpyruvyl-3-phosphoshikimate合成酶(EPSPS)的突变体S.typhimurium aroA基因中识别潜在的断裂位点的方法。在所有42个潜在位点中，位于EPSPS 215和235氨基酸位的两个位点被选来断裂EPSPS基因。编码EPSPS蛋白N-端215或235个氨基酸残基的DNA片段在结构上与Ssp DnaE intein N-端的123个氨基酸融合，同时，编码EPSPS C-端212或192个氨基酸残基的DNA片段在结构上与编码SspDnaE intein C-端36个氨基酸的DNA融合。当在ER2799中仅导入与intein融合或不融合的半个EPSPS基因，以及没有intein的互补的两半时，EPSPS表达为一个无功能的蛋白。但当与活性或无活性intein融合的两半个EPSPS都引入ER2799时，EPSPS表达为一个功能性蛋白并赋予宿主对除草剂草甘磷的抗性，表明SspDnaE intein的N-和C-端部分通过将EPSPS两部分靠近而加速EPSPS蛋白N-和C-端部分的互补和重组。

在实施例IV中，我们描述了一种方法，其中两个不相关的基因产物如氨基糖苷-3-乙酰基转移酶(该酶负责药物壮观霉素或链霉素的代谢)和AequoreaVictoria可溶性修饰的绿色荧光蛋白，可在大肠杆菌细胞中被反式剪接成一个杂交蛋白。两个基因位于两个不同的质粒中，各自从Ssp DnaE intein具有反式剪接元件。质粒有两个独立的表达系统。杂交蛋白赋予宿主对硫酸壮观霉素的抗性。

在实施例V中，我们描述了一种方法，其中两个不相关基因，如aadA(编码氨基糖苷-3-乙酰基转移酶)和smGFP(可溶性修饰的绿色荧光蛋白)，可在叶绿体启动子(PpsbA)控制的转录和翻译水平下位于一个单一大肠杆菌-植物双重载体上。两个基因当表达时，能够产生一个杂交的氨基糖苷-3-乙酰基转移酶-可溶性修饰的绿色荧光蛋白。因此这种方法可在采用能被大肠杆菌和植物细胞结构共同识别的启动子导入植物细胞之前，进行蛋白/蛋白片片段的快速反式剪接筛选。

在实施例VI中，我们描述了一种方法，其中含有5-enolpyruvyl-3-phosphoshikimate合成酶(EPSPS)或乙酰乳酸合酶(ALS)两个片段及Ssp DnaE intein的顺式剪接结构能在植物细胞浆中剪接成一个成熟蛋白。这个实验将加强在细胞浆中顺/反式剪接的观点。这项技术对于需要在细胞浆环境中进行活性/折叠特异修饰的蛋白质是有用的。一部分具有必须的转运信号和剪接元件的靶蛋白基因将以前体多肽的形式置于一个细胞器内以进行细胞浆转运。

在实施例VII第一部份中，我们描述了一种方法，其中两个不相关基因，如aadA(编码氨基糖苷-3-乙酰基转移酶)和smGFP(可溶性修饰绿色荧光蛋白)，可位于叶绿体基因组上，并通过蛋白反式剪接产生一个杂交蛋白。此方法的成功将导致蛋白/蛋白片段的区域化和功能性蛋白的反式剪接。而且，在一个载体中转化几个不同的基因以形成多功能蛋白，简化了新特性的设计。

在实施例VII第二部分中，我们描述了一种方法，其中两个不相关的基因/基因片段可位于植物细胞的两个不同小室中，如叶绿体和核，并表达各自的蛋白/多肽。由核编码的成分具有三部分，含有一个叶绿体转运肽，该肽将帮助蛋白片段在细胞浆中被合成，并游走到叶绿体中以便进行反式剪接。叶绿体部分将在细胞器的循环基因组中成为一个完整的部分。得到的植物将不能将新导入的转基因的新特性传递给任何紧密相关的种属。

本发明通过下面的实施例进一步进行描述。这些实施例为了帮助理解本发明，并不能视为其限制条件。

上下引用的文献在此一并作为参考。

实施例I

通过蛋白反式剪接在大肠杆菌中产生功能性的除草剂抗性乙酰乳酸合酶

在此实施例中，我们说明了一种断裂基因的方法，该基因编码大肠杆菌乙酰乳酸合酶II(ALSII；EC 4.1.3.18；乙酰醇酸合酶)，通过与编码Ssp DnaE intein序列的融合(Evans等，生物化学杂志J.Biol.Chem.275：9091-9094(2000)；Scott等，pro.Natl.Acad.Sci.USA，96：13638-13643(1999))具有了除草剂抗性变异性(Yadav等，Proc.Natl.Acad.Sci.USA，83：4418-4422(1986)；Hill等，生物化学杂志J.Bio chem，335：653-661(1998))。我们能够经过在细菌大肠杆菌ER2744(fhuA2 glnV44e14-rfbD1？relA1？endA1 spoT1？thi-1Δ(mcrC-mrr)114∷IS10 lacZ∷T7genel)(图5)中的蛋白反式剪接重建功能活性的ALSII酶。首先，我们显示如何根据序列和结构同源性的分析，在乙酰乳酸合酶II基因中选择潜在的断裂位点。然后我们显示了如何设计和进行试验以分析断裂的ALS蛋白的蛋白反式剪接活性，和如何分析重组ALS的酶活性。我们说明了从两个独立质粒载体产生的ALS融合蛋白的两个部分，经过反式剪接以产生一个成熟蛋白的期望大小的蛋白产物。此外，断裂ALS基因片段的共表达使大肠杆菌ER2744具有了对除草剂的抗性。这种方法可以应用于使用反式剪接inteins的任何目的蛋白的生产。

1.野生型大肠杆菌ALSII克隆及其除草剂抗性突变体

第一步是克隆野生型ALSII，产生一个除草剂抗性的ALSII突变体，其携带丙胺酸26至缬氨酸的替代(Yadav等，Proc.Natl.Acad.Sci.USA，83：4418-4422(1986)；Hill等，生物化学杂志Biochem.J.，335：653-661(1998))。含有一个酶活性拷贝ALSII的大肠杆菌株MI162是从CGSC，E.coli Genetic Stock Center(耶鲁大学，New Haven，CT)获得的。基因组DNA采用QLAamp组织试剂盒(Qiagen，Inc.，Studio City，CA)从大肠杆菌株MI162中提取。采用引物5’-GGACGGGGAACTAACTATG-3’(SEQ IDNO：1)，和5’-CCACGATGACGCACCACGCG-3’(SEQ ID NO：2)和Vent^_uDNA聚合酶(New England Biolabs，Beverly，MA)对大肠杆菌DNA样品进行DNA聚合酶链式反应(PCR)，以克隆全长ALSII。编码ALSII的序列进一步采用引物5’-GGAGGGGGCATATGAATGGCGCACAGTGGG-3’(SEQ ID NO：3)，和5’-GGGGGGTCATGATAATTTCTCCAAC-3’(SEQ ID NO：4)扩增，并克隆进pTYB1质粒(New England Biolabs，Beverly，MA)的NdeI和PstI位点中，建立一个载体，pALSII。通过从pALSII中去掉一个3kb的非必需序列得到一个更短的结构，pTYBT-ALSII，即用PmeI和BstZ172限制性消化，然后自身连接。除草剂抗性变异性，丙胺酸26至缬氨酸，通过采用Quickchange Site-Directed Mutagenesis试剂盒(Stratagene，La Jolla，CA)的位点定向诱变引入pTYBT-ALSII中。诱变的引物是5’-CCGGGTGGCGTAATTATGCCGGTTTACG-3’(SEQ ID NO：5)和5’-CGTAAACCGGCATAATTACGCCACCCGG-3’(SEQ ID NO：6)。通过部分NdeI和PstI消化pTYBT-ALSIIm产生的编码突变ALSII(ALSIIm)的序列与pTYB1连接产生一个ALSIIm表达载体，pALSIIm。

2.断裂位点的选择

在任何基因内识别一个合适断裂位点的一个优选方法是，分析一个蛋白家族的序列同源性并检查其蛋白结构或其同源物的结构(Ibdah等，Biochemistry，35：16282-16291(1996))。序列排列和结构比较发现细菌、酵母和更高等植物的ALS基因具有高度保守的区域(图6，这里仅显示部分序列排列)。而且，在蛋白中存在高度可变区，如在大肠杆菌乙酰乳酸合酶的异构体II中(图6)中，氨基酸残基Q327和C328周围的区域。与其他同源物相比，大肠杆菌ALSII在此区具有一个10个氨基酸的缺口，来自不同种属的ALS基因间在侧向序列上有较少的同源性(图6)。而且，同源物，丙酮酸氧化酶的晶体结构分析提示，Q327和C328似乎定位于两个分子内区的连接子结构中，远离催化核心(Ibdah等，生物化学Biochemistry，35：16282-16291(1996))。因此我们推测，ALSII在此区通过一个intein的断裂可能保留必要的弹性，允许进行有效的蛋白反式剪接。另外，一个外源蛋白序列插入至此位点对ALSII的催化区结构及其酶活性影响较小或没有影响。因此氨基酸残基Q327和C328被选作大肠杆菌ALSII的断裂位点之一(图6，由箭头指示)。

3.大肠杆菌检测系统

大肠杆菌乙酰乳酸合酶的异构体II具有Ala26Val突变，称为ALSIIm，使大肠杆菌株ER2744具有对磺酰脲类除草剂(SU)，如甲基sulfometuron(SM)的抗性。大肠杆菌ER2744株被用作检测除草剂抗性大肠杆菌ALSII基因活性的体内模型系统，通过在Q327和C328间的连接子插入进行基因修饰。大肠杆菌ER2744来源于野生型大肠杆菌K12，后者含有活性ALSI和ALSIII酶，但没有活性ALSII。ALSI和ALSIII是大肠杆菌中ALS基因的两个异构体，对缬氨酸、异亮氨酸和亮氨酸的合成很重要(LaRossa和Schloss，生物化学杂志J.Biol.Chem.259：8753-8757(1984))。它们的活性对缬氨酸反馈抑制敏感。因此，用100μg/ml缬氨酸(Sigma，St.Louis，MO)饱和生长培养基，ALSI和III将被抑制，细胞将停止生长。通过在大肠杆菌细胞中导入一个重组除草剂抗性ALSII(ALSIIm)，因为ALSII对缬氨酸的抑制有抵抗力，可以挽救它们的生长。

4.产生一个修饰的除草剂抗性ALS基因

Inteins经常需要某些氨基酸残基排在其N-和C-端侧面以达到最佳的剪接或反式剪接活性。例如，当5个天然残基存在于其N-和C-端时，来自集胞藻属PCC6803的dnaE基因的intein有效地剪接，而去除这些残基则不同程度的抑制剪接活性(Evans等，生物化学杂志J.Biol.Chem.275：9091-9094(2000))。在剪接结合点处包含这些最佳的氨基酸残基可能是精细的剪接活性所需要的。因而得到的产物可在两个蛋白序列的连接结合点处含有这些残基。因此，对于每个intein插入点，必须评价是否这些额外的氨基酸残基将对产物的活性具有负面作用。

ALSIIm-14通过在Q327和C328A之间将一个合成的DNA连接子(NewEngland Biolabs，Beverly，MA)插入编码ALSIIm的序列中而构建，该连接子编码下面14个氨基酸残基(NH2-LEKFAEYCFNKSTG-COOH(SEQ ID NO：7))。ALSIIm-14的除草剂抗性用表达ALSIIm-14蛋白的质粒转化的大肠杆菌ER2744宿主细胞进行检测。用表达野生型ALSII和除草剂抗性ALSII(ALSIIm)的质粒转化的大肠杆菌ER2744细胞被用作对照。

平板检测被用来检查ALSIIm-14从缬氨酸(100μg/ml)或缬氨酸加除草剂SM(50μg/ml，Supelco Park，Bellefonte，PA)饱和的M9限制性培养平板(Sambrook等，(1989))中挽救大肠杆菌ER2744的能力。M9培养基含有2μg/ml硫胺素、2mMMgSO₄、0.1mM CaCl₂、0.2％葡萄糖、50μg/ml卡那霉素、100μg/ml氨苄青霉素和0.3mM IPTG。为了进行平板实验，100μl 25mg/ml的缬氨酸加或不加50μl25μg/ml的甲基Sulfometuron(SM)分散于M9选择平板上。为了检测细菌的生长，过夜培养物在有或没有缬氨酸和/或SM的M9平板上划痕。平板在各种温度下孵育(如图7指示)48到72小时，然后照相。在添加缬氨酸的平板上，表达ALSII，ALSIIm或ALSIIm-14的细胞能够生长(图7-a)。但是，当缬氨酸和SM都应用时，只有表达除草剂抗性ALSIIm或ALSIIm-14的菌株可以生长(图7-b)。这些体内结果表明，在建议的断裂位点插入了14个氨基酸残基的ALSIIm，可以使大肠杆菌ER2744在缬氨酸和SM的存在下生长。因此，ALSIIm-14是有功能活性的，插入14个氨基酸不影响其酶活性。

5.ALSII-Intein融合基因的构建

下一步，大肠杆菌ALSIIm基因被分割，并在结构上融合到Ssp DnaE intein编码区的N-和C-末端部分。融合基因采用两个相容的大肠杆菌表达载体——pMEB10和pKEB1来产生，两者能够在同一个大肠杆菌宿主细胞内共表达两种intein融合基因，如以前Evans等所描述的(生物化学杂志J.Biol.Chem.275：9091-9094(2000))。编码除草剂抗性ALSII(ALSIIM)基因N-末端片段327个氨基酸的DNA序列在结构上与Ssp DnaE intein N-末端侧面7个氨基酸残基的编码区融合，后接intein N-末端的123个氨基酸残基(INn)(图5)。编码ALSIIm C-末端221个氨基酸残基的DNA序列在结构上与编码Ssp DnaE intein C-末端36个氨基酸残基(INc)和intein C-末端侧面7个氨基酸残基的DNA序列融合(图5)。ALSII N-末端片段用引物5’-GGGGGTCATGAATGGCGCACAGTGGG-3’(SEQ ID NO：10)和5’-GCGCGCTCGAGTTGATTTAACGGCTG CTGTAATG-3’(SEQ ID NO：11)从pALSIIm中扩增。扩增片段被消化并克隆进pMEB16的NcoI和XhoI位点中，pMEB16含有编码Ssp DnaE intein N-末端123个氨基酸残基的序列。得到的载体pEA(N)表达一个由ALSIIm N-末端片段和DnaE N-末端片段(ALSIIm(N)-INn)组成的融合蛋白。ALSII C-末端片段用引物5’-GCGCGACCGGTTGTGACTGGCAGCAACACTGC-3’(SEQ ID NO：12)和5’-GGGGGGCTGCAGTCATGATAATTTCTCCAAC-3’(SEQ ID NO：13)扩增。片段用AgeI和PstI消化然后克隆进pMEB9的AgeI和PstI位点。得到的质粒pEA(C)表达一个由Ssp DnaE intein C-末端片段和ALSII C-末端片段(ALSIIm(C)-INc)组成的融合蛋白。一个含ALSIIm(C)-Inc融合基因的1kb XbaI-PstI片段从pEA(C)中亚克隆进pKEB1质粒的XbaI和PstI位点中，以形成一个卡那霉素抗性的表达载体pKEC3。

当pEA(N)和pKEC3在大肠杆菌ER2744中共表达时，预测两种融合蛋白的反式剪接将导致大肠杆菌ALSIIm两个断裂部分的连接，在连接结合处有14个氨基酸。

6.蛋白反式剪接活性的评定

为确定ALSII-DnaE intein融合蛋白是否能够在大肠杆菌细胞中反式剪接以产生ALSIIm-14，用ALSII N-或C-末端片段特异性兔抗血清进行Western斑点杂交。

收集两种分别对抗来源于ALSII N-末端区和C-末端区肽的兔抗血清(COVANCE)。这两种肽是1)来自ALSII N-末端序列(氨基酸残基Ala4至Tyr23)的NH₂-CAQWVVHALRAQGVNTVFGYG-COOH(SEQ ID NO：8)和2)来自ALSH C-末端序列(氨基酸残基Val 530V 至Ser548)的NH₂-CVWPLVPGASNSEMLEKLS-COOH(SEQ ID NO：9)。一个单独的细菌菌落接种于加有100μg/ml氨苄青霉素的LB培养基中37℃孵育4小时。然后加入IPTG至终浓度0.3mM进行诱导。细胞在15℃继续培养2-16小时。移出20μl细胞培养物，与3×SDS负载缓冲液(New England Biolabs，Beverly，MA)混合，煮沸5分钟，取2μl加于12％ Tris-甘氨酸凝胶(Novex，San Diego，CA)上。随后蛋白转移至一个硝酸纤维素膜上，并用5％奶粉室温封闭1小时(Sambrook，等，分子克隆，(1989))。采用抗血清(1∶20000稀释)在1％奶粉存在下4℃过夜进行免疫斑点杂交。斑点然后清洗3次，每次15分钟，并与1∶10000稀释的辣根过氧化物酶交联的抗兔二抗室温孵育1小时。用化学发光Western检测试剂盒(New England Biolabs，Beverly，MA)进行显色。

在15℃培养的对照细胞中，ALSII的表达(图8A，8B&8C，2泳道)被所有的抗体特异地别。在载有一个单一ALSII-intein融合载体和另一个赋予氨苄青霉素和卡那霉素抗性的对照载体的细胞中，仅有ALS(N)-INn或ALS(C)-INc蛋白被抗-ALS(N)或抗-ALS(C)血清检测到(图8A，3泳道，图8B，4泳道)。当ALS(N)-INn和ALS(C)-INc共同表达时，如同所期望的剪接产物ALSIIm-14，一个60kD条带与对抗ALSII N-末端和C-末端的抗体发生反应(图8A&8B，5泳道)。如所预测的，ALSIIm-14的这个条带比天然ALSII具有稍高的分子量。数据表明在两个ALSII-intein融合蛋白间发生了反式剪接。观察到一个与抗-ALS(N)反应的非特异蛋白(图8A和图8C，1泳道至5泳道)。

Ssp DnaE intein的反式剪接活性以前显示是温度敏感的(Evans等，J.Biol.Chem.275：9091-9094(2000))。ALSII-Ssp DnaE intein蛋白的反式剪接温度敏感性通过采用对抗ALSII N-末端片段的抗血清进行western斑点杂交分析来确定(图8C)。细胞被表达ALSII或ALSIIm(N)-INn和ALSIIm(C)-INc的质粒转化。ALSII蛋白的表达在37℃诱导3小时。ALSIIm(N)-INn和ALSIIm(C)-INc共同表达的诱导条件为37℃3小时，30℃3小时，25℃6小时或15℃16小时。细胞提取物用SDS样品缓冲液处理，在95℃到100℃变性5分钟，然后在12％SDS-PAGE上进行凝胶电泳。用对抗ALSII N-末端片段的抗血清作为探针进行western斑点杂交。图8C包括下列样品：无ALSII的细胞(1泳道，对照)，ALSII(2泳道)，ALSIIm(N)-INn和ALSIIm(C)-INc(3泳道至6泳道)。细胞培养的温度为1泳道至3泳道37℃，4泳道30℃，5泳道25℃，6泳道15℃。

在37℃生长的细胞中，ALSIIm-14没有检测到(图8C，3泳道)。但在30℃培养的细胞中，观察到剪接产物带有大量N-末端融合蛋白聚集(图8C，4泳道)。在25℃和15℃培养的细胞中(图8C，5泳道和6泳道)，仅检测到剪接产物，表明N-末端融合蛋白完全转变成剪接产物。在所有表达条件下ALSIIm(C)-INc蛋白均过量产生。数据显示Ssp DnaE intein能够介导N-和C-末端ALSIIm蛋白片段的反式剪接以形成ALSIIm-14。当实验在37℃进行时，剪接反应被抑制。当细胞在15-25℃而不是30℃培养时，剪接似乎更为有效。

7.含有断裂ALS基因的细胞中的除草剂抗性

下一步是确定剪接产物作为ALSIIm(ALSIIm(N)-INn和ALSIIm(C)-INc)融合蛋白反式剪接的结果，是否使大肠杆菌ER2744对缬氨酸和SM具有抗性。第一个实验是检测ALSIIm(N)-INn和ALSIIm(C)-INc融合蛋白的共同表达对缬氨酸饱和的M9限制培养基中细胞生长的影响。在一个平板实验中(见第四节)，所有转化细胞在无缬氨酸的M9培养基中均生长良好(图9A-a)。但在缬氨酸存在的条件下，仅有ALSII及其除草剂抗性突变体ALSIIm可以使细胞在30℃和37℃下生长(图9A-b，9A-c)。很明显，ALSIIm(N)-INn和ALSIIm(C)-INc的共同表达在30℃(图9A-c)或更低的温度(数据未显示)下，从缬氨酸平板中挽救了细胞的生长。此外，ALSIIm或ALSIIm(N)-INn和ALSIIm(C)-INc的表达从另外的除草剂抑制中挽救了细胞的生长(图9A-d)。而且，野生型ALSII的转化不能从除草剂抑制中使细胞恢复生长(图9A-d)。单独表达ALSIIm(N)-INn或ALSIIm(C)-INc的对照细胞在缬氨酸平板中不生长(图9A-b，9A-c)；没有与intein融合的天然ALSII N-和C-末端片段的共同表达也不能使细胞生长(图9A-b，9A-c)。数据表明ALSIIm(N)-INn和ALSIIm(C)-INc片段的共同表达对于反式剪接和产生功能性的ALSII是需要的，ALSII可以使细胞在缬氨酸和除草剂抑制下生长。

进行定量液体培养实验以证明平板实验获得的结果。液体实验按如下进行。将一个单菌落接种于添加了卡那霉素和氨苄青霉素的LB培养基中，37℃4小时。用0.3M的IPTG诱导表达，细胞培养物转换到30℃继续培养2小时。然后，200μl相当于OD₆₀₀ 8.0的培养物被离心下来，用M9培养基清洗1次，并在200μl M9培养基中重悬。40μl培养物等分入2ml合适的培养基中，在测定OD₆₀₀前生长24-72小时。缬氨酸的浓度为100μg/ml，SM的浓度为50μg/ml。在30℃时，所有转化细胞在M9限制培养基中均同样生长良好(图9B)。在缬氨酸饱和的M9培养基中，野生型ALS使细胞生长，但当加入SM时，则观察不到生长。但是，表达ALSIIm或ALSIIm(N)-INn和ALSIIm(C)-INc共同表达使细胞在缬氨酸M9培养基以及含有SM的培养基中生长。在对照实验中，ALSIIm(N)-INn或ALSIIm(C)-Inc单独表达，或ALSIIm N-和ALSIIm C-末端共同表达但不与intein融合，均不能使细胞在含有缬氨酸的培养基中生长。这个数据与平板实验的结果是一致的。为了进一步比较反式剪接介导的细胞生长与野生型ALSII介导的细胞生长的生长动力学，进行了一个时程研究(图9C)。数据显示表达ALSII的细胞具有最快的生长率，其次是表达ALSIIm的细胞。与ALSII野生型表达细胞相比，转化ALS(N)-INn和ALS(C)-INc的细胞生长速率较慢，但不显著慢于ALSIIm表达细胞的生长速率。表达断裂ALSII并不与intein融合的细胞，生长非常缓慢。因此，我们从平板和液体实验证明Ssp DnaE可以介导ALSII反式剪接，引起体内功能性抗除草剂的ALSIIm-14的产生。

总之，数据表明从两个不同位置产生的两种ALS-intein融合蛋白，以温度依赖的方式进行反式剪接，形成全长的功能性的ALSIIm蛋白。具有两种ALSIIm融合基因片段的大肠杆菌宿主细胞显示为抗除草剂表现型。

实施例II

大肠杆菌中一个玉米乙酰乳酸合成酶的反式剪接

在这个实施例中，我们说明一个在大肠杆菌中通过蛋白反式剪接产生全长玉米乙酰乳酸合成酶的方法。我们说明如何根据玉米ALS基因及其大肠杆菌对应体ALSII基因的序列同源性，在玉米ALS基因中选择断裂位点。我们显示，当断裂的玉米ALS-intein融合基因共同表达时，两种融合蛋白经过反式剪接产生成熟玉米ALS蛋白的期望大小的蛋白产物。

1.断裂位点的选择

说明其他除草剂抗性基因，如玉米乙酰乳酸合成酶(cALS)基因的反式剪接是重要的，该基因的除草剂抗性突变形式已被用于对植物进行遗传修饰(Bernasconi等，J.Biol.Chem.270：17381-17385(1995))。在任何基因内鉴定合适的断裂位点的一个优选方法是分析来自不同生物体的同源基因的反式剪接活性。我们在实施例I中已经描述，大肠杆菌ALSII基因，在Q327和C328之间被断裂后能够通过体内Ssp DnaEintein的反式剪接活性进行重组。进行了大肠杆菌ALSII和玉米ALS之间的序列排列，以寻找玉米ALS基因中与大肠杆菌ALSII基因断裂位点相应的区域。结果提示丝氨酸397和苏氨酸398与大肠杆菌ALSII的断裂位点(谷氨酸327和半胱氨酸328)相匹配。将玉米ALS在丝氨酸397和苏氨酸398之间断裂，如星号所示(图6)，可以产生两个玉米ALS-intein融合蛋白，将能精于剪接。

2.玉米ALS基因的克隆

进行逆转录酶聚合酶链式反应(RT-PCR)以克隆玉米ALS cDNA。

用RNAqueous试剂盒(Ambion，Inc.，Texas)从玉米叶中分离总RNA。然后采用反向引物3-3(5’-AT CAGTACACAGTCCTGCCATC-3’(SEQ ID NO：14))和Superscript逆转录酶(LTI-GIBCOBRL，Rockville，MD)将RNA用来合成第一股cDNA。然后，在被用作PCR反应的模板之前，用RNaseH(LTI-GIBCO BRL，Rockville，MD)处理第一股cDNAs。采用Expand Long Template PCR系统(宝灵曼(Boehringer Mannheim)，德国)进行PCR反应。在此反应中使用的引物是反向引物3-3和cALS 5-4引物(5’GAGACAGCCGCCGCAACCAT-3’(SEQ ID NO：15))。

一份PCR产物在琼脂糖凝胶上进行电泳，观察到大约2kb的条带。这个片段被克隆至TOPO 2.1载体(Invitrogen，San Diego，CA，厂商规程)中制成pCALS1。pCALS1的序列采用M13正向和反向引物证实。

3.玉米ALS-intein融合体的构建

编码玉米ALS基因N-末端397个氨基酸残基的DNA通过PCR进行扩增，采用正向引物5’-GGGCCCATATGGCCACCGCCGCCGCCGCG-3’(SEQ ID NO：16)，反向引物5’-GGGCCCTCGAGGCTTCCTTCAAGAAGAGC-3’；(SEQ ID NO：17)，和模板pCALS1(Sambrook等，分子克隆，(1989))。1.2kb的PCR产物被克隆进TOPO-钝性载体(Invitrogen，San Diego，CA厂商规程)中，产生TOPO-cALS(N)。然后TOPO-cALS(N)用NdeI和XhoI被消化。1.2kb消化的DNA片段从低熔点琼脂糖凝胶中回收，并在结构上与编码Ssp DnaE intein N-末端123个氨基酸的DNA序列融合，产生表达cALS-intein融合蛋白N-末端，cALS(N)-IN-n，的载体(MEB10-cALS(N))。编码玉米ALS基因C-末端241个氨基酸残基的DNA片段被用正向引物5’-GGGCCACCGGTACATCAAAGAAGAGCTTG-3’(SEQ ID NO：18)，反向引物5’-GGG GCTGCATTCAGTACACAGTCCTGCCATC-3’(SEQ ID NO：19)，和模板pCALS4进行PCR扩增。0.8kb的PCR产物克隆进TOPO-钝性载体(见上述操作)中，形成TOPO-cALS(N)。然后将TOPO-cALS(N)用AgeI和PstI消化。700bp的DNA片段从低熔点琼脂糖凝胶中回收，并在结构上融合到编码Ssp DnaE inteinC-末端36个氨基酸的DNA上，形成载体MEB9-cALS(C)。MEB9-cALS(C)进一步被XbaI和PstI切割，释放一个1kb的片断。这个1kb片段克隆进pKEB1载体中，形成一个cALS-intein C-末端融合蛋白，cALS(C)-INc，的卡那霉素抗性表达载体。同样的额外7个氨基酸，NH₂-LEKFAEY-COOH(SEQ ID NO：20)和NH₂-CFNKSTG-COOH(SEQ ID NO：21)，也分别存在于cALS-intein融合蛋白的N-和C-末端连接处。

4.玉米ALS-intein融合蛋白的反式剪接

两个在第三节描述的ALS-intein融合蛋白片断，cALS(N)-INn和cALS(C)-INc，在实施例1第6节所描述的相同条件下，都在大肠杆菌ER2744中共同表达。进行Western斑点杂交以检测反式剪接产物(方法见实施例1第6节)。在斑点上，对应于野生型cALS大小的69kD片段(图10A，和图10B，2泳道)在两种融合蛋白表达的细胞中均可检测到，并且被特异性对抗来源于玉米ALS N-和C-末端序列两种肽的兔抗血清所识别(图10A和图10B，5泳道)。也观察到与玉米ALS N-末端抗血清反应的非特异蛋白(图10A，1泳道至5泳道)。用来生产抗体的肽是1)对应于从赖氨酸66至丙氨酸85序列，NH₂-CKGADILVESLERCGVRDVFA-COOH(SEQ IDNO：22)，的ALS-N肽，和2)对应于从异亮氨酸619至酪氨酸638的序列，NH₂-CIPSGGAFKDMILDGDGRTVY-COOH(SEQ ID NO：23)，的ALS-C肽。全长cALS在表达N-或C-末端融合蛋白的细胞中均未检测到(图10A和图10B，3泳道和4泳道)。这说明同大肠杆菌ALSII一样，断裂的玉米ALS当与Ssp DnaE intein融合时，也能够进行反式剪接以产生全长ALS。

总之，玉米ALS基因被Ssp DnaE intein断裂，并克隆进两个单独的质粒载体中。当两个融合基因载体被导入同一个宿主细胞并共同表达时，两个融合蛋白经过反式剪接产生一个全长cALS。尽管还需要功能测试来确定植物中断裂的玉米ALS蛋白的活性，但却提高了将一个植物除草剂抗性或抗病基因成功分裂成两个无活性基因片段的可能性。这两个基因片段可以被限制在两个单独的细胞小区中，如叶绿体和核，或染色体上两个不同的位置，或两个不同的DNA载体。这种基因表达的新模式可极大地减少一个完整的活性转基因传播至其他种属的可能性。

实施例III

本实施例详细描述了应用intein断裂aroA基因并重建所需蛋白活性的可行性。实验包括在不同位点断开编码突变体aroA基因的基因，并将编码Ssp DnaE intein(INn)N-末端剪接区的基因融合到编码EPSPS蛋白N-末端片段的基因上。同时，编码Ssp DnaE intein(INc)C-末端剪接区的基因融合到编码EPSPS蛋白C-末端片段的基因上。当融合基因被置于两个不同的质粒中，并在同一个细菌细胞中共同转化和共同表达时，显示那些细菌细胞对除草剂草甘磷具有抗性。

可获得草甘磷抗性的鼠伤寒沙门氏菌aroA基因的克隆

1.质粒pEPS#1的建立

具有从C301至T变异的鼠伤寒沙门氏菌aroA基因，以猪霍乱沙门菌亚型choleraesuis细菌(ATCC No.39256)中的装配型质粒的形式，从American TypeCulture Center获得。来自装配型质粒的被修饰的aroA基因采用引物EPSP#1(5’-GGATCCTAAGAAGGAGATATACCCATGGAATCCCTGACGTTACA-3’(SEQ ID NO：24))，和EPSP#2(5’-GTCGACGCTCTCCTGCAGTTAGGCAGGCGTACTCATTC-3’(SEQ ID NO：25))通过聚合酶链式反应扩增。PCR产物被插入质粒LITMUS 28(New England Biolabs，Inc.，Beverly，MA)的StuI位点中。在转化和质粒制备后，测序发现了一个意料之外的突变(C103至G)，采用Stratagene’s(La.Jolla，CA)快速位点定向诱变试剂盒(Quick Change Site DirectedMutagenesis Kit)和引物EPSP#10(5’-GCTTTGCTCCTGGCGGCTTTACCTTGTGGTAAAACCGC-3’(SEQ ID NO：26)EPSP#11(5’-GCGGTTTTACCACAAGGTAAAGCCGCCAGGAGCAAAGC-3’(SEQID NO：27))使之复原。对所得集落的DNA进行测序发现意料外的突变已经恢复为所期望的C。这个质粒被命名为pEPS#8，并用作随后的转位连接子扫描反应中的受体质粒。

2.一个用于检测aroA基因构建物的大肠杆菌株，ER2799的描述

一个大肠杆菌株从耶鲁大肠杆菌储存中心获得(大肠杆菌株AB2829，CGSC#2829，ID#8215)，该菌株的aroA基因从其染色体上被去除。此菌株被制成hsdR-，并命名为ER2799。由于ER2799缺失合成芳香族氨基酸所必需的aroA基因，因此它不能在M9限制培养基上生长。这个菌株用于检测各种aroA基因构建物，以观察新的aroA基因是否能够挽救细菌并使之在存在或不存在草甘磷的情况下，在限制性培养基上生长。

3.通过转座子为基础的连接子扫描发现断开aroA靶基因的位点

进行这个实验的第一步是确定在5-烯醇丙酮酸基-3-phosphoshikimate合成酶(EPSPS)蛋白中的位点，使得intein可以整体插入。整体是指完整的intein插入到完整的EPSPS蛋白中。但是，不知道EPSPS蛋白本身的哪一部分可接受额外的氨基酸残基。因此，为了确定EPSPS蛋白何处能够接受氨基酸插入，一项新的技术，GPS^_-LS试剂盒(可从New England Biolabs，Inc.，Beverly，MA购得)被用来在整个EPSPS蛋自序列中随机地插入5个氨基酸残基。用随机插入了5个氨基酸的EPSPS基因构建一个表达质粒文库。该文库转化进大肠杆菌株ER2799中，并应用于含有M9限制培养基的平板中。ER2799缺乏aroA基因，将不能在M9限制培养基上生长，除非通过质粒转化提供了一个活性的EPSPS基因。在用文库转化后生长的ER2799大肠杆菌应该含有一个EPSPS蛋白，后者在插入5个氨基酸的情况下保持活性。经过测序以确定5个氨基酸的插入部位，在EPSPS蛋白中发现了42个使ER2799在M9限制培养平板上生长的独特位点(图15)。此外，发现另外19个独特位点不能接受5个氨基酸的插入(图16)。

4.转位反应

加入6μl 20ng/μl的pEPS#8(靶DNA)，1.5μl 20ng/μl的PmeI供体DNA，3μl蒸馏水，3μl10×GPS^_u-LS缓冲液和1.5μl Tn*ABC，在37℃混合15分钟进行反应。加入1μl起始溶液，反应在37℃孵育1小时20分钟。通过在75℃热灭活15分钟终止反应。在反应混合物冷却至室温并水透析2小时后，反应混合物通过电穿孔转化进新鲜制备的ER2685(fhuA2 glnV44 el4-rfbD1？relA1？endA1 spoT1？thi-1Δ(mcrC-mrr)114∷IS10Δ(lacI-lacA)200F’proA+B+lacIq D1(lacZ)M15zzf：Tn10(TetR))细胞中。细胞在37℃孵育1小时，然后接种在含有氨苄青霉素和卡那霉素的LB平板上。细胞继续在37℃过夜生长。发现在转化后10μl反应混合物获得超过10,000个菌落(足以包括所有可能的转座子插入位点，在pEPS#8中有2840个位点，3.3倍)。

5.分离含有EPSPS基因加转座子的DNA片段(3.0kb)

用LB培养基回收从转位反应中得到的所有转化体，66％的细胞加入20％甘油保存在-70℃。其余细胞在500ml含有100μg/ml氨苄青霉素和50μg/ml卡那霉素的LB液体培养基中，37℃过夜生长。通过离心收获细胞，用Qiagen Midi试剂盒(Qiagen，Studio City，CA)纯化质粒DNA(共508μg)。通过用PstI、NcoI和AhdI消化DNA(58μg)释放出3.0kb的aroA基因-转座子DNA片段，并在乙醇沉淀后用琼脂糖通过凝胶纯化进行分离(回收4μg DNA)。

6.将aroA基因-转座子3.0kb片段克隆进pCYB3载体

凝胶纯化的3.0kb aroA基因-转座子DNA片段连接进pCYB3(5.2kb)的NcoI至PstI位点中，在微量透析2小时后通过电穿孔转化进ER2685。电穿孔的细胞在LB培养基中孵育1小时。250μl上述细胞悬液接种于含有100μg/ml氨苄青霉素和50μg/ml卡那霉素的LB平板上，另外5.5ml则接种于1升含有100μg/ml氨苄青霉素和50μg/ml卡那霉素的LB液体培养基中，37℃过夜生长。在aroA基因内含有转座子的质粒DNA文库用Qiagen(Studio City，CA)Midi试剂盒(750μg)分离。

7.筛选具有5个氨基酸连接子的活性文库EPSPS蛋白

105μg的文库DNA用PmeI消化以从aroA基因中去除转座子。这样在转座子差入位点处遗留了15个碱基(或5个氨基酸残基)。回收一个7kb片段(在400μl EB的终容积中)，自身连接(在100μl rxn中从400μl 7kb片段中得到86μl)，转化(100μlrxn中的30μl)进大肠杆菌株ER2799，并接种于LB及M9限制培养平板上，两个平板中均含有100μg/ml氨苄青霉素和0.3mM IPTG。在37℃孵育过夜后，与LB平板相比，在M9限制平板上大约20％的初始细胞存活。在M9限制培养平板上生长的独立菌落通过DraI消化和DNA测序进行分析，以确定连接子在aroA基因中插入位点的位置。

在72个有活性的独立集落中识别了42个不同的插入位点，它们可以接受5个氨基酸残基插入aroA基因中，不能在M9限制培养基选择平板上生长的39个无活性集落中识别出19个不同的插入位点(见图15和图16)。质粒pCE-5-22、pCE-5-21、pCE-5-35和pCE-5-23是有活性的集落，它们分别在182、215、235和267位置处有5个氨基酸残基掺入进EPSPS蛋白(aroA基因产物)中。这4个位点被选作进一步研究。

Ssp DnaE顺式和反式剪接载体的构建

1.用于顺式剪接的载体pCE182DnaE、pCE215DnaE、pCE235DnaE和pCE267DnaE的建立

这涉及将intein插入靶蛋白内的位点，后者被发现能够接受5个氨基酸的插入。

4个位点被选择用于进一步研究(位点182、215、235和267)。全长Ssp DnaEintein被插进这些位点，EPSPS-intein的融合以其能够使ER2799细胞在M9限制平板上生长而被检测。所有4个位点被发现在M9平板上生长，表明EPSPS蛋白能够接受intein插入这些位点(见图11和图14)。

CE182或CE215，除在182或215位点被去除了5个氨基酸连接子以外，是pCE-5-22或pCE-5-21的线性DNA，通过聚合酶链式反应从模板pCE-5-22或pCE-5-21产生，采用的引物：CE182为5’-GCCCCTAAAGACACAATTATTCGCG-3’(SEQ ID NO：28)和5’-CAGCGGCGCCGTCATCAGCAGAGCG-3’(SEQ ID NO：29)，或CE215为5’-GCGAACCACCACTACCAACAATTTG-3’(SEQ ID NO：30)和5’-TATCTCCACGCCAAAGGTTTTCATT-3’(SEQ ID NO：31)。含有两个天然N-extein残基和三个天然C-extein残基的Ssp DnaE intein基因通过PCR采用引物5’-GAATATTGCCTGTCTTTTGGT-3’(SEQ ID NO：32)和5’-GTTAAAGCAGTTAGCAGCGAT-3’(SEQ ID NO：33)从pMEB8(Evans等，J.Biol.Chem.，275：9091(2000))扩增。得到的PCR片段用T4多聚核苷激酶磷酸化，通过QIAquick柱(Qiagen，Inc.，Studio City，CA)纯化，并分别连接进CE182或CE215中以产生pCE182DnaE或pCE215DnaE。

含有4个天然N-extein残基和三个天然C-extein残基的Ssp DnaE intein基因通过PCR采用引物5’-TGCTGAATATTGCCTGTCTTTTGG-3’(SEQ ID NO：34)和5’-CCGTTAAAGCAG TTAGCAGCGATAGC-3’(SEQ ID NO：35)从pMEB8扩增。得到的PCR片段通过QIAquick柱(Qiagen，Inc.，Studio City，CA)纯化，并分别连接进凝胶纯化的、PmeI切割的pCE-5-35或pCE-5-23载体DNA中以产生pCE235DnaE或pCE267DnaE。

2.用于反式剪接的载体p215EN2/pEPS#28和p235EN2/pEPS#29的建立：

用相容的复制来源构建了两个质粒。合适EPSPS蛋白的N-末端与N-末端SspDnaE剪接区(INn)的N-末端融合，并插入一个质粒中。剩余的合适EPSPS蛋白C-末端部分与Ssp DnaE intein C-末端剪接区(INc)的C-末端融合，并插入第二个质粒中。质粒通过电穿孔共同转染进ER2799内。在IPTG诱导性pTac启动子的控制下表达融合蛋白。转化的细胞在M9限制性平板、液体M9限制性培养基或添加了草甘磷的液体M9限制性培养基中生长(图11、12、13和14)。这表明当在同一个细胞中共同表达时，蛋白的两半可以产生一个活性的EPSPS蛋白。

PMEB4的0.6kb XhoI至PstI片段被采用QIAquick提取试剂盒凝胶纯化，并连接进pCYB3(New England Biolabs，Inc.，Beverly，MA)载体的XhoI至PstI位点内以产生pCEN1。在Ssp DnaE intein和壳多糖结合区(CBD)之间的NcoI位点，经过pCEN2的PacI和SapI消化而被去除，随后经过T4DNA聚合酶处理和自身连接，产生质粒pCEN2。在pTac启动子的控制下，这个载体含有Ssp DnaE intein(INn)N-末端的123个氨基酸残基，并具有氨苄青霉素抗性。

通过将pCE215DnaE或pCE235DnaE的NcoI至KpnI片段连接进pCEN2的相同位点构建p215EN2或p235EN2。P215EN2或p235EN2具有与INn融合的EPSPS的N-末端(p215EN2为1-215残基，p235为1-235残基)。

PCYB3的NcoI至FspI片段被连接进pKEB1的NcoI至DraI位点以产生pKEB12(NEB#1282)。在大肠杆菌株ER2566中转化的质粒pKEB12样品在2000年5月23日根据布达佩斯条约的条款和条件，在美国典型培养物保藏中心保藏，并收到ATCC保藏号PTA-1898。这个载体含有与CBD融合的Ssp DnaE intein(INn)C-末端的36个氨基酸残基，并具有卡那霉素抗性。

通过将pCE215DnaE和pCE235DnaE的Bg/II至PstI片段连接进pKEB12的相同位点构建pEPS#28或pEPS#29。pEPS#28或pEPS#29具有EPSPS的C-末端(pEPS#28为216-427残基，pEPS#29为236-427残基)，取代了pKEB12中的CBD并附着于INc的C-末端。

3.EPSPS互补构建物pEPS#34和pEPS#36的建立

当缺乏intein区的EPSPS蛋白片段在ER2799细胞中共表达时，细胞不能在M9限制平板、液体M9限制培养基、或添加了草甘磷的液体M9限制性培养基中生长(图12和图13)。这表明EPSPS的活性绝对依赖于intein两部分的存在。

编码EPSPS蛋白N-末端1-235残基(EPS235N)的DNA采用引物5’-GGATCCTAAGAAGGAGATATACCCATGGAATCCCTGACGTTACA-3’(SEQID NO：36)和5’-GATATCCTGCAGTTAACCTGGAGAGTGATACTGTTGACC-3’(SEQ ID NO：37)从pCE235DnaE通过PCR扩增。得到的PCR产物采用QIAquickPCR试剂盒纯化，用NcoI和PstI消化，采用QIAquick提取试剂盒从琼脂糖凝胶中纯化，并连接进质粒pCYB3的NcoI至PstI位点中，以产生pEPS#34。质粒pEPS#36是采用引物5’-GATATCCCATGGGACGCTATCTGGTCGAGGGCGATG-3’(SEQ ID NO：38)和5’-GTCGACGCTCTCCTGCAGTTAGGCAGGCGTACTCATTC-3’(SEQ ID NO：39)，通过PCR从pC+E2扩增编码EPSPS C-末端236-427个残基(EPS235C)的DNA建立的。得到的PCR产物采用QIAquick PCR试剂盒纯化，用NcoI和PstI消化，从琼脂糖凝胶中纯化，并连接进质粒pKEB12的NcoI至PstI位点中。为了克隆的NcoI位点，两个额外的残基Met-Gly也在EPS235C的N-末端掺入。

4.在位点235处含有顺式或反式“无活性”Ssp DnaE intein的载体(pEPS#31，peps#33，peps#37)的建立

有趣地是，反式剪接并不是活性所必须的，因为如果Ssp DnaE intein最高度保守的催化残基中的三个改变为丙氨酸，共转化的ER2799细胞仍然生长。这个事实表明intein可以作为亲和区将两个EPSPS intein片段带到一起(图12和图13)。

含有4个天然N-extein残基和3个天然C-extein残基的Ssp DnaE intein基因采用引物5’-TGCTGAATATGCGCTGTCTTTTGGTACCGAA-3’(SEQ ID NO：40)和5’-CCGTTAAACGCCGCAGCAGCGATAGCGCC-3’(SEQ ID NO：41)通过PCR从pMEB8扩增。得到的PCR产物被QIAquick柱(Qiagen Inc.，Studio City，CA)纯化，并连接进质粒pCE-5-35的PmeI位点中，以产生pEPS#31。这个Ssp DnaE intein在催化残基内含有3个突变，Cysl Ala/Cys+1 Ala/Asn159 Ala，消除了其剪接活性。

5.检测EPSPS活性的方法

EPSPS活性的平板检测法。功能性EPSPS蛋白的存在可以用大肠杆菌株ER2799在体内确定，该菌株缺乏内源性活性EPSPS(见上)。ER2799细胞本身不能在M9限制性平板(添加了0.3mM的IPTG)上生长。在后面的描述中，当提及M9限制性平板时，它们也含有0.3mM IPTG。质粒pC+E2，含具有C301至T突变的全长野生型EPSPS基因，当通过转化导入时，能够使ER2799在M9限制性平板上生长。

检测Ssp DnaE顺式剪接构建物。质粒pCE182DnaE、pCE215DnaE、pCE235DnaE、pCE267DnaE(每个0.05μg)通过电穿孔转化进大肠杆菌ER2799细胞中(Sambrook等，分子克隆：实验室手册，第二版，Cold Spring Harbor Laboratory，NY：Cold Spring Harbor Laboratory Press(1989))，见图11。0.8ml LB培养基加至转化的细胞中，并在37℃振荡孵育1小时。200μl此溶液接种在添加了0.1mg/ml氨苄青霉素的LB或M9限制平板上(Sambrook等，分子克隆：实验室手册，第二版，Cold Spring Harbor Laboratory，NY：Cold Spring Harbor Laboratory Press(1989))。平板在不同的时间长度和不同的温度下孵育。最常用的是在37℃过夜。

检测Ssp DnaE反式剪接构建物。每个EPSPS反式构建物活性的检测，是通过共转化待测的构建物进入ER2799，并接种于含有0.3mM IPTG的M9限制平板或LB平板，两者均添加了0.1mg/ml的氨苄青霉素和0.05mg/ml的卡那霉素。在只有一个质粒含有EPSPS基因或一部分EPSPS基因的情况下，补充的抗生素抗性是通过用不含EPSPS基因的pCYB3或pKYB1(新英格兰生物实验室New EnglandBiolabs，Beverly，MA)共同转化大肠杆菌提供的。

采用的质粒是：pC+E2、p215EN2、p235EN2、pEPS#28、pEPS#29、pEPS#33、pEPS#37、pEPS#34和pEPS#36。这些质粒采用0.1μg合适的质粒、以各种联合方式被共转化进ER2799大肠杆菌细胞中(Sambrook等，分子克隆：实验室手册，第二版，Cold Spring Harbor Laboratory，NY：Cold Spring Harbor LaboratoryPress(1989))，并接种于LB平板及M9限制培养基平板上，两者均含有100μg/ml氨苄青霉素和50μg/ml卡那霉素。M9限制平板还含有0.3mM IPTG。在37℃孵育过夜或室温下2-3天后，从每个LB平板中挑出单一集落，并在M9限制培养选择平板上划痕。所采用的联合是：WT，pC+E2和pKYB1(新英格兰生物实验室NewEngland Biolabs，Beverly，MA)；215NC，p215EN2和pEPS#28；215C，pEPS#28和pCYB3；235NC-死的，pEPS#33和pEPS#37；235NC，p235EN2和pEPS#29；235N，p235EN2和pKYB1；235C，pEPS#29和pCYB3；235N-215C，p235EN2和pEPS#28；和235互补物，pEPS#34和pEPS#36(见图12)。

在存在和缺乏草甘磷的条件下，在液体培养中测定ER2799的生长。235反式构建物草甘磷抗性的检测采用下列质粒组合进行：WT，pC+E2和pKYB1；215NC-死的，pEPS#33和pEPS#37；235NC，p235EN2和pEPS#29；235N，p235EN2和pKYB1；235C，pEPS#29和pCYB3；和235互补物，pEPS#34和pEPS#36。这些质粒如上所述共转化进ER2799大肠杆菌细胞中，并接种在含100μg/ml氨苄青霉素和50μg/ml卡那霉素的LB平板上。作为对照，pCYB3/pKYB被共转化进大肠杆菌株ER2744中，并接种在含100μg/ml氨苄青霉素和50μg/ml卡那霉素的LB平板上。每次转化均进行预培养，将新鲜菌落接种于添加100μg/ml氨苄青霉素和50μg/ml卡那霉素的LB培养基中，30℃过夜。在缺乏或存在不同量草甘磷的条件下，等量的预培养物(10-11μl，根据细胞密度)被接种进新鲜制备的含有100μg/ml氨苄青霉素、50μg/ml卡那霉素和0.3mM IPTG的M9限制培养基中。每个构建物的生长用600nm处的OD值测定，见图13。

顺式235构建物在M9液体限制培养基中的生长。两个质粒载体，一个具有能剪接的Ssp DnaE intein(235顺式)，另一个具有不能剪接的intein(235无活性)，分别为pCE235DnaE和pEPS#31，被转化进不同的ER2799大肠杆菌细胞中，并接种在添加100μg/ml氨苄青霉素和50μg/ml卡那霉素的LB平板上。每次转化均进行预培养，将新鲜菌落接种于添加100μg/ml氨苄青霉素和50μg/ml卡那霉素的LB培养基中，30℃过夜。等量的预培养物(10-11μl，根据细胞密度)被接种进新鲜制备的含有100μg/ml氨苄青霉素、50μg/ml卡那霉素和0.3mM IPTG的M9限制培养基中。在不同时间用600nm处的OD值确定细胞的密度(见图14)。

pEPS#31的NcoI至KpnI片段被连接进质粒pCEN2的相同位点，以产生pEPS#33。质粒pEPS#37通过将pEPS#31的Bg/II至PstI片段克隆进质粒pKEB12中的相同位点而建立。

实施例IV

两种不相关基因产物氨基糖苷-3-乙酰基转移酶(aadA)和可溶性修饰的绿色荧光蛋白(smGFP)的反式剪接，以在大肠杆菌内产生一个功能性杂交蛋白

氨基糖苷-3-乙酰基转移酶基因与Ssp DnaE intein N-片断(INn)融合。Ssp DnaEintein的C-末端(INc)与smGFP基因融合。融合蛋白可以从各自的构建物中翻译成为独立的多肽。这些融合蛋白的编码DNA序列被克隆进pIH976(图17)或pAGR3(图18)质粒中。两种质粒(pIHaadE-N(pIH976含有aadA和INc末端)和pAGRE-CsmGFP(pAGR3含有INc和smGFP))被共转化进大肠杆菌(图19A)。转化的大肠杆菌具有壮观霉素/硫酸链霉素抗性(图19B)。细胞提取物在生长16小时后制备。提取物中的蛋白在SDS tris甘氨酸凝胶上分离，并点样于PVDF膜上。此膜用抗GFP单克隆抗体探测。反式剪接在两种质粒都被导入的大肠杆菌提取物中观察到。作为反式剪接的结果，融合产物具有与计算的两种蛋白的累计质量相同的分子量(图19C)。

下面的方案描述了基因盒的产生，pIHaadE-N(与编码INn的DNA融合的氨基糖苷-3-乙酰基转移酶基因)，pAGRE-CsmGFP(编码INc的DNA与smGFP基因融合)，Western斑点杂交和检测。

聚合酶链式反应被用来将开放的阅读结构(ORFs)克隆成所期望的质粒。反应在有2单位Vent^_DNA聚合酶的50μl总体积中含有添加了2mM硫酸镁的Vent^_DNA聚合酶缓冲液、200μM dNTPs、每个引物各1μM和100ng质粒DNA。采用Perkin-Elmer gene amp PCR 2400系统(Emeryville，CA)进行10到20个周期的扩增。下面的引物用于aadA基因的扩增(aadA正向引物：GCCTTAATTAACCATGAGGGAAGCGGTGATCGCCG(SEQ ID NO：47)，aadA反向引物：TGCGGTCGACTTTGCCGACTACCTTGGTGATCTC(SEQ ID NO：48)。PCR产物用Qiagen(Valencia，CA)的PCR纯化试剂盒(QIAquick PCR pruification)纯化。纯化的PCR产物用PacI和SalI限制性酶消化，并克隆进pNEB193(New EnglandBiolabs，Inc.，Beverly，MA)质粒中。含有aadA基因的克隆被命名为pNEBaad3。相似的步骤，采用特异引物(smGFP正向引物：CCCAAGCTTGGCGCCATGAGTAAAGGAGAAGAACTTTTCAC(SEQ ID NO：49)和smGFP反向引物：

GCGACCGGTTTATTTGTATAGTTCATCCATGCCATG(SEQ ID NO：50)用于smGFP基因的扩增，并克隆进pLITMUS28(New England Biolabs，Inc.，Beverly，MA)。含有smGFP基因的克隆被命名为psmGFP7。aadA和smGFP基因的序列都通过DNA测序证实。

来自集胞藻属PCC6803dnaE基因的intein被PCR扩增。Intein的氨基末端部分(氨基酸1-123)被称为INn，羧基末端被称为INc(氨基酸124-159)。INn和INc片段被分别克隆进pLITMUS28和pNEB193中。扩增INn和INc的引物对如下(INn正向引物：AGGGAATTCGTCGACAAATTTGCTGA ATATTGCCTGTCT(SEQ IDNO：51)，INn反向引物：

GGCCTCGAGTTATTTAATTGTCCCAGCGTCAAGTAATG(SEQ ID NO：52)，INc正向引物：

AGCTTTGTTTAAACCATGGTTAAAGTTATCGGTCGTAGATC(SEQ ID NO：53)，INc反向引物：

CAGCGTCGACGGCGCCGTGGGATTTGTTAAAGCAGTTAGCAGC(SEQ IDNO：54)。含有INn和INc片段的质粒分别是pLitDnaE-N1和pNEBDnaE-C2。

Intein片段和aadA或smGFP基因产物的融合构建物以下述方法制备：来自pNEBaad3的BamHI和SalI片段(800bp)被连接进BamHI-SalI消化的pLitDnaE-N1，以产生pAEN1。以相似的方式，150bp的插入物(用PstI和KasI消化的pNEBIN-c)被连接进PstI和KasI消化的pLitSmGFP5，以产生pGFPEC。质粒pAEN含有在结构上有INn的aadA基因，pGFPEC含有在结构上有INc的smGFP基因。

融合基因被PCR扩增，并克隆进大肠杆菌表达载体中。pAEN和pGFPEC的插入物被克隆进pIH976(NcoI和SacI位点)和pAGR3(EcoRI和SacII位点)载体中。引物如下(aadA-INn的正向引物：

CATGCCATGGGGGAAGCGGTGATCGCCGAAG(SEQ ID NO：55)，aadA-INn的反向引物：ACGCGAGCTCTTATTTAATTGTCCCAGCGTCAAGTAATG(SEQ IDNO：56)，INc-smGFP的正向引物：

CGAATTCTATGGTTAAAGTTATCGGTCGTAGATC(SEQ ID NO：57)，INc-smGFP的反向引物：

AGCCCGCGGTTATTTGTATAGTTCATCCATGCCATG(SEQ ID NO：58))。在宿主Ptac启动子的控制下，大肠杆菌表达质粒是pIH976-aadE-N和pAGR-Nc-smGFP。两种质粒各自或一起被转化进大肠杆菌ER1992(New England Biolabs，Inc.，Beverly，MA)中，并接种于LB琼脂-氨苄青霉素平板以及LB琼脂氨苄青霉素和壮观霉素平板上。

为了进行western斑点杂交，大肠杆菌细胞提取物与含1mM DTT的SDS上样染料混合，在95℃煮沸5分钟，并装载在10％-20％的Tris-甘氨酸-SDS梯度凝胶上。蛋白在Immobilin-P膜上形成斑点，并用抗GFP单克隆抗体(Roche MolecularBiochemicals，Indianapolis，IN)探测，然后进行GFP和aadA-GFP融合蛋白的化学发光检测。

实施例V

为反式剪接两种不相关的基因产物，氨基糖苷-3-乙酰基转移酶(aadA)和可溶性修饰的绿色荧光蛋白(smGFP)，了在大肠杆菌中应用植物启动子以产生一个功能性杂交蛋白

上述DNA片段在叶绿体特异启动子PpsbA(SEQ ID NO：59)的下游被克隆。相同基因的终止序列(TpsbA(SEQ ID NO：60)置于被克隆基因的下游。两个基因以相反的方向表达以避免读穿。植物启动子在转化进大肠杆菌时是有功能性的，反式剪接的产物(aadA-smGFP融合蛋白，57kDa)采用抗GFP抗体在Western斑点实验中被观察到。因此叶绿体特异启动子在大肠杆菌中是功能性的，能够用作基因表达研究。

下面的方案描述了一个大肠杆菌/植物穿梭载体(pNCT114/pNCT224)的产生，它能够在体内进行相似的转基因再结合。

一个穿梭载体包括可使其在大肠杆菌和植物细胞中都具有功能的元件。质粒pLITMUS28(New England Biolabs，Inc.，Beverly，MA)是pNCT114和pNCT224基因靶向载体的主链。载体DNA至少包括(1)两个与质体基因组同源的DNA序列(也指靶序列/片段)，(2)一个或多个启动子元件，(3)转录终止元件，和(4)一个或多个选择性/药物抗性(非致命性的)的标记基因。

启动子元件(PpsbA)DNA序列用PCR从基因组DNA中扩增，该基因组是按Murray和Thompson(核酸研究Nucleic Acids Res.，8：4321-4325(1980))所述，采用CTAB方法从7天的老烟苗中提取的。扩增使用的引物如下(PpsbA正向引物：AACTGCAGGAATAGATCTACATAC ACCTTGG(SEQ ID NO：64)，PpsbA反向引物：CCGCTCGAGCTTAATTAAGGTAAAATCTT GGTTTATTTAATC(SEQ ID NO：65))。同样，终止子序列(TpsbA)通过PCR扩增并克隆。用于扩增的引物如下(TpsbA正向引物：GCGACCGGTGATCCTGGCCTAGTCTATAGGAGG(SEQ ID NO：66)，TpsbA反向引物：

AGGCCTAGGAGAATACTCAATCATGAATAAATGC(SEQ ID NO：67)。具有psbA启动子和终止子DNA序列的载体使基因可以被克隆进这些引物之间以表达蛋白。靶向DNA序列被扩增并以侧向的方式插入启动子和终止子外(图20)，因而在预先确定的位置促使转基因的同源性再结合。pNCT114含有16SrDNA-trnaV和rps7/12靶向序列(SEQ ID NO：61)，而pNCT224则含有orf228-ssb作为左侧边界，orfl244作为右侧边界(SEQ ID NO：62)。下列引物用于靶向序列的PCR扩增。

pNCT114的引物

左边界正向引物：

TTGGCGCGCTTGACGATATAGCAATTTTGCTTGG(SEQ ID NO：68)

左边界反向引物：

TTGCGTACGATTTATCTCAGATTAGATGGTCTAG(SEQ ID NO：69)

右边界正向引物：

TTGCCTAGGCGTATTGATAATGCCGTCTTAACCAG(SEQ ID NO：70)

右边界反向引物：

AGGGGTACCGAATTCAAGATTCTAGAGTCTAGAG(SEQ ID NO：71)

pNCT224的引物

左边界正向引物：

TTGGCGCGCAATTCACCGCCGTATGGCTGACCGG(SEQ ID NO：72)

左边界反向引物：

TTGCGTACGCCTTTGACTTAGGATTAGTCAGTTC(SEQ ID NO：73)

右边界正向引物：

TTGCCTAGGGTCGAGAAACTCAACGCCACTATTC(SEQ ID NO：74)

右边界反向引物：

AGGGGTACCATCACGATCTTATATATAAGAAGAAC(SEQ ID NO：75)

pNCT114/224的详细图式见图20A。两个质粒都含有两个启动子和两个终止子DNA片段。为了定向克隆，掺入了独特的限制性酶切位点。质粒pNCT114和pNCT224具有独特的限制性酶切位点(PmeI-AgeI和PacI-XhoI位点)。来自pAEN质粒(aadA基因在结构上具有INn)的插入物通过用PacI-XhoI消化获得，通过用PmeI-AgeI消化获得pGFPEC(smGFP在结构上具有INc)的插入物，随后连接进pNCT114或pNCT224。质粒被命名为p115ag和p225ag(图21A)。质粒被转化进大肠杆菌并用氨苄青霉素和壮观霉素筛选(图21B)。从过夜的培养物中制备细胞提取物，在10-20％Tris-甘氨酸-SDS梯度凝胶中分离。蛋白点样在Immobilin-P膜上，并用抗GFP单克隆抗体(Roche Molecular Biochemicals，Indianapolis，IN)探测，然后进行GFP和aadA-GFP融合蛋白的化学发光检测。

实施例VI

从整合进分子DNA的DNA盒中表达的EPSPS和ALS基因产物在植物细胞浆中的顺式剪接

将DNA导入植物细胞核可用多种不同的方法实现，如，电穿孔、聚乙二醇介导、土壤杆菌介导、微注射和biolistic转化。依照本发明，应该确定是否植物细胞浆将以顺式或反式介导蛋白质的剪接。这在植物中对于进一步的反式剪接技术是必备条件。如果靶蛋白为获得活性需要特异的细胞浆修饰，这种技术就有用处了。上述每一项技术都可用于将EPSPS和/或ALS基因盒导入烟草或其他合适的植物组织或细胞中。一般的基因盒包括：(1)药物选择/退化标记基因，如卡那霉素或其他任何合适的选择标记物；(2)一个强启动子元件如35sCMV(花椰菜花叶病毒)；和(3)土壤杆菌的右和左边界T DNA重复区。这样的基因盒可通过biolistic过程或土壤杆菌介导的基因转移导入植物中(Horsch等，Science 227：1229-1231(1985))。该基因盒以pBI121基因转移载体(Jefferson等，EMBO J.，6：3901-3907(1987))为基础。最终基因盒的设计图示于图22中。

在biolistic过程中，待转化的DNA被包被在精细金微粒的表面，通过一个粒子加速枪(PDS 1000/He gun，Biorad，Richmond，CA)导入植物细胞内。对于土壤杆菌介导的基因转移，待转化的DNA盒被导入细菌中。载有基因盒的土壤杆菌与一个圆盘或来自烟草或其他合适植物叶子的组织切片接触。这加速了DNA基因盒向植物细胞核的转移。在上述的任何方法中，DNA最终整合进植物细胞核中。假设的转化细胞被用作标记基因(药物)选择。在选择药物存在的情况下再生的植物是强有力的转基因侯选物。在植物成熟后，制备细胞提取物，与含1mM DTT的SDS上样染料混合，在95℃煮沸5分钟，并装载于10-20％的Tris-甘氨酸-SDS梯度凝胶上。分离的蛋白点样在Immobilin-P膜上，并用抗ALS或抗EPSPS抗体探测。然后可进行PCR以确定基因是否以预期的方式被整合而没有发生重排。

这种技术对于需要在细胞浆环境中进行特异修饰以获得活性/重叠的蛋白是有用的。一部分具有必要的转运信号和剪接元件的靶蛋白基因将被置于一个细胞器中，以便以前体多肽的方式进行细胞浆转运。

使这些植物在温室中生长至其成熟，并收集种子。然后将收集的种子发芽，F1代植物检测除草剂抗性。可进行一个小规模的试验看是否导入的转基因的分离模式遵循孟德尔的遗传模式。整合进核DNA将产生孟德尔遗传，而整合进叶绿体DNA将产生非孟德尔母系遗传。

实施例VII

断裂基因，如EPSPS/ALS或两种不相关的基因产物，如氨基糖苷-3-乙酰基转移酶(aadA)和可溶性修饰的绿色荧光蛋白(smGFP)，的反式剪接，以在植物叶绿体中产生一个功能性杂交蛋白

这些实验的目的是调查是否反式剪接在植物叶绿体中是可行的。就转录和翻译的机制来说，植物叶绿体与细菌是相似的。在实施例IV-VI中，我们使用了从集胞藻属PCC6803的dnaE基因中获得的天然intein，集胞藻属PCC6803是一种藻青菌。藻青菌是光合细菌，与植物的叶绿体相似。因此intein应该有可能在植物叶绿体中剪接或反式剪接。这些计划的实验分为两个部分：第一部分，证明两个不相关基因产物aadA和smGFP在植物叶绿体中的反式剪接，该两种基因均被整合进叶绿体基因组中；和第二部分，在叶绿体中的反式剪接，其中smGFP基因盒被整合进核基因组中，含有转运肽(核酮糖-1，5-二磷酸羟化酶3A-INc-smGFP)的翻译蛋白被运输进叶绿体中，以使反应进行。叶绿体将含有与INn片段融合的aadA基因。详细步骤在下面叙述。

证明叶绿体中经过转录和翻译，两种不相关基因产物，氨基糖苷-3-乙酰基转移酶(aadA)和可溶性修饰的绿色荧光蛋白(smGFP)，的反式剪接

如实施例V，质粒被命名为p115ag和p225ag。这些质粒将采用biolistic装置输送到植物细胞器中。烟草或其他任何合适的植物组织将以无菌的方式从温室生长的植物或组织培养的植物细胞中获得。植物组织将在植物生长培养基和山梨醇或其他任何合适的渗压剂中平衡过夜。植物细胞将用上述包被在金微粒上的质粒轰击。经过合适的恢复时间后，细胞将被置于含植物生长素和500μg/ml硫酸壮观霉素的植物生长培养基中。壮观霉素抗性的胼胝组织将被获取，并置于新芽分化培养基中。当新芽大约2厘米长时，将被切下并置入根茎培养基。转基因植物或植物的一部分将通过手持紫外线灯(正常(非转基因)植物将在紫外线下发出红色荧光，而转基因植物呈现绿色荧光)进行鉴别。转基因整合和拷贝的数目将通过Southern斑点杂交分析和PCR证实。转基因部分将采用抗GFP抗体检测aadA和smGFP的反式剪接。这些部分可进一步用来产生纯的反式-plastomic系。F1代植物将检测壮观霉素抗性。

叶绿体中的反式剪接。SmGFP基因盒整合进核基因组，含有核酮糖-1，5-二磷酸羟化酶3A-INc-smGFP转运肽的翻译蛋白，被输入至叶绿体中以使反应继续进行。

这种方法将使任何断裂蛋白(如EPSPS或ALS)，以与INn或INc融合蛋白的方式，在叶绿体或核中表达。核编码的成分将与一个叶绿体转运肽融合，以加速其翻译后在细胞浆中移行进入叶绿体。aadA和GFP的详细方法见下。可以对任何其他的蛋白/断裂基因采用类似的方法。

这种方法将需要一个载有一个药物选择标记和目的靶基因的核转化载体，如pBI121。我们实验的基因将是一个具有三部分的融合蛋白，含有核酮糖-1，5-二磷酸羟化酶和后接的INc及smGFP(其他蛋白/肽，如EPSPS或ALS的一半可以代替smGFP)。转运肽是为烟草优化的密码子(图26)。这个融合基因将在一个强力的植物启动子，35SCMV的控制下。这个基因盒的图示见图23。这个DNA将导入植物的核中。将选择稳定的转基因系和对F1后代检测转基因整合。

上述转基因植物的叶部分将用作叶绿体DNA转化。叶绿体基因靶向载体是以含有壮观霉素抗性基因和驱动转基因的PpsbA启动子的p114和p224为基础的。转基因可以是蛋白的其他一半(以前被导入核基因组)以及必须的剪接元件。作为一个模型系统，我们将采用aadA-INn融合基因进行叶绿体转化。Transplastomic系将采用两种药物(例如，叶绿体特异的药物壮观霉素和核特异的药物卡那霉素)进行选择。PCR和Western斑点杂交分析将进一步建立纯的植物系。

对于转基因植物，F1代将检测：(1)转基因/片段的盂德尔遗传模式；(2)转基因的稳定性；和(3)可能的通过花粉的转基因脱落。

ALS/EPSPS转基因植物将被检测对磺脲和Roundup^_的抗性。

应当理解，在此描述的实施例和实施方案仅作为说明的目的，因而对于本领域的技术人员来说，各种修饰或变化很明显地可以进行，并包含在本申请的精神和范围以及附加权利要求的范围内。

序列表

<110>徐明群

T·C·埃文斯

S·普拉丹

D·G·科姆

H·保卢斯

L·孙

陈立新

I·高希

新英格兰生物实验室公司

波士顿生物医学研究所

<120>产生能够表达活性蛋白产物的断裂、不可传递的基因的方法

<130>NEB-163-PCT

<140>

<141>

<150>60/135,677

<151>1999-05-24

<160>134

<170>PatentIn Ver.2.0

<210>1

<211>19

<212>DNA

<213>大肠杆菌(Escherichia coli)

<400>1

ggacggggaa ctaactatg 19

<210>2

<211>20

<212>DNA

<213>大肠杆菌

<400>2

ccacgatgac gcaccacgcg 20

<210>3

<211>30

<212>DNA

<213>大肠杆菌

<400>3

ggagggggca tatgaatggc gcacagtggg 30

<210>4

<211>25

<212>DNA

<213>大肠杆菌

<400>4

ggggggtcat gataatttct ccaac 25

<210>5

<211>28

<212>DNA

<213>大肠杆菌

<400>5

ccgggtggcg taattatgcc ggtttacg 28

<210>6

<211>28

<212>DNA

<213>大肠杆菌

<400>6

cgtaaaccgg cataattacg ccacccgg 28

<2t0>7

<211>14

<212>PRT

<213>集胞藻属PCC6803(Synechocystis PCC6803)

<400>7

Leu Glu Lys Phe Ala Glu Tyr Cys Phe Asn Lys Ser Thr Gly

1 5 10

<210>8

<211>21

<212>PRT

<213>大肠杆菌

<400>8

Cys Ala Gln Trp Val Val His Ala Leu Arg Ala Gln Gly Val Asn Thr

1 5 10 15

Val Phe Gly Tyr Gly

20

<210>9

<211>20

<212>PRT

<213>大肠杆菌

<400>9

Cys Val Trp Pro Leu Val Pro Pro Gly Ala Ser Asn Ser Glu Met Leu

1 5 10 15

Glu Lys Leu Ser

20

<210>10

<211>26

<212>DNA

<213>大肠杆菌

<400>10

gggggtcatg aatggcgcac agtggg 26

<210>11

<211>34

<212>DNA

<213>大肠杆菌

<400>11

gcgcgctcga gttgatttaa cggctgctgt aatg 34

<210>12

<211>32

<212>DNA

<213>大肠杆菌

<400>12

gcgcgaccgg ttgtgactgg cagcaacact gc 32

<210>13

<211>31

<212>DNA

<213>大肠杆菌

<400>13

ggggggctgc agtcatgata atttctccaa c 31

<210>14

<211>22

<212>DNA

<213>玉米(MAIZE)

<400>14

atcagtacac agtcctgcca tc 22

<210>15

<211>20

<212>DNA

<213>玉米

<400>15

gagacagccg ccgcaaccat 20

<210>16

<211>29

<212>DNA

<213>玉米

<400>16

gggcccatat ggccaccgcc gccgccgcg 29

<210>17

<211>29

<212>DNA

<213>玉米

<400>17

gggccctcga ggcttccttc aagaagagc 29

<210>18

<211>29

<212>DNA

<213>玉米

<400>18

gggccaccgg tacatcaaag aagagcttg 29

<210>19

<211>31

<212>DNA

<213>玉米

<400>19

ggggctgcat tcagtacaca gtcctgccat c 31

<210>20

<211>7

<212>PRT

<213>集胞藻属PCC6803

<400>20

Leu Glu Lys Phe Ala Glu Tyr

1 5

<210>21

<211>7

<212>PRT

<213>集胞藻属PCC6803

<400>21

Cys Phe Asn Lys Ser Thr Gly

1 5

<210>22

<211>21

<212>PRT

<213>玉米

<400>22

Cys Lys Gly Ala Asp Ile Leu Val Glu Ser Leu Glu Arg Cys Gly Val

1 5 10 15

Arg Asp Val Phe Ala

20

<210>23

<211>21

<212>PRT

<213>玉米

<400>23

Cys Ile Pro Ser Gly Gly Ala Phe Lys Asp Met Ile Leu Asp Gly Asp

1 5 10 15

Gly Arg Thr Val Tyr

20

<210>24

<211>44

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：合成的基于鼠伤寒沙门氏菌

<400>24

ggatcctaag aaggagatat acccatggaa tccctgacgt taca 44

<210>25

<211>38

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：合成的基于鼠伤寒沙门氏菌

<400>25

gtcgacgctc tcctgcagtt aggcaggcgt actcattc 38

<210>26

<211>38

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：合成的基于鼠伤寒沙门氏菌

<400>26

gctttgctcc tggcggcttt accttgtggt aaaaccgc 38

<210>27

<211>38

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：合成的基于鼠伤寒沙门氏菌

<400>27

gcggttttac cacaaggtaa agccgccagg agcaaagc 38

<210>28

<211>25

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：合成的基于鼠伤寒沙门氏菌

<400>28

gcccctaaag acacaattat tcgcg 25

<210>29

<211>25

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：合成的基于鼠伤寒沙门氏菌

<400>29

cagcggcgcc gtcatcagca gagcg 25

<210>30

<211>25

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：合成的基于鼠伤寒沙门氏菌

<400>30

gcgaaccacc actaccaaca atttg 25

<210>31

<211>25

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：合成的基于鼠伤寒沙门氏菌

<400>31

tatctccacg ccaaaggttt tcatt 25

<210>32

<211>21

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：合成的基于鼠伤寒沙门氏菌

<400>32

gaatattgcc tgtcttttgg t 21

<210>33

<211>21

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：合成的基于鼠伤寒沙门氏菌

<400>33

gttaaagcag ttagcagcga t 21

<210>34

<211>24

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：合成的基于鼠伤寒沙门氏菌

<400>34

tgctgaatat tgcctgtctt ttgg 24

<210>35

<211>26

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：合成的基于鼠伤寒沙门氏菌

<400>35

ccgttaaagc agttagcagc gatagc 26

<210>36

<211>44

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：合成的基于鼠伤寒沙门氏菌

<400>36

ggatcctaag aaggagatat acccatggaa tccctgacgt taca 44

<210>37

<211>39

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：合成的基于鼠伤寒沙门氏菌

<400>37

gatatcctgc agttaacctg gagagtgata ctgttgacc 39

<210>38

<211>36

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：合成的基于鼠伤寒沙门氏菌

<400>38

gatatcccat gggacgctat ctggtcgagg gcgatg 36

<210>39

<211>38

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：合成的基于鼠伤寒沙门氏菌

<400>39

gtcgacgctc tcctgcagtt aggcaggcgt actcattc 38

<210>40

<211>31

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：从集胞藻属PCC6803株合成的

<400>40

tgctgaatat gcgctgtctt ttggtaccga a 31

<210>41

<211>29

<212>DNA

<213>人工序列

<220>

<223>人工序列的描述：从集胞藻属PCC6803株合成的

<400>41

ccgttaaacg ccgcagcagc gatagcgcc 29

<210>42

<211>178

<212>PRT

<213>大肠杆菌

<400>42

Tyr Ala Val Asp Lys Ala Asp Leu Leu Leu Ala Leu Gly Val Arg Phe

1 5 10 15

Asp Asp Arg Val Thr Lys Ile Glu Ala Phe Ala Ser Arg Ala Lys Ile

20 25 30

Val His Val Asp Ile Asp Pro Ala Glu Ile Gly Lys Asn Lys Gln Pro

35 40 45

His Val Ser Ile Cys Ala Asp Val Lys Leu Ala Leu Gln Gly Met Asn

50 55 60

Ala Leu Leu Glu Gly Ser Thr Ser Lys Lys Ser Phe Asp Phe Gly Ser

65 70 75 80

Trp Asn Asp Glu Leu Asp Gln Gln Lys Arg Glu Phe Pro Leu Gly Tyr

85 90 95

Lys Thr Ser Asn Glu Glu Ile Gln Pro Gln Tyr Ala Ile Gln Val Leu

100 105 110

Asp Glu Leu Thr Lys Gly Glu Ala Ile Ile Gly Thr Gly Val Gly Gln

115 120 125

His Gln Met Trp Ala Ala Gln Tyr Tyr Thr Tyr Lys Arg Pro Arg Gln

130 135 140

Trp Leu Ser Ser Ala Gly Leu Gly Ala Met Gly Phe Gly Leu Pro Ala

145 150 155 160

Ala Ala Gly Ala Ser Val Ala Asn Pro Gly Val Thr Val Val Asp Ile

165 170 175

Asp Gly

<210>43

<211>179

<212>PRT

<213>大肠杆菌

<400>43

Tyr Ala Val Asp Ser Ser Asp Leu Leu Leu Ala Phe Gly Val Arg Phe

1 5 10 15

Asp Asp Arg Val Thr Gly Lys Leu Glu Ala Phe Ala Ser Arg Ala Lys

20 25 30

Ile Val His Ile Asp Ile Asp Ser Ala Glu Ile Gly Lys Asn Lys Gln

35 40 45

Pro His Val Ser Ile Cys Ala Asp Ile Lys Leu Ala Leu Gln Gly Leu

50 55 60

Asn Ser Ile Leu Glu Ser Lys Glu Gly Lys Leu Lys Leu Asp Phe Ser

65 70 75 80

Ala Trp Arg Gln Glu Leu Thr Glu Gln Lys Val Lys His Pro Leu Asn

85 90 95

Phe Lys Thr Phe Gly Asp Ala Ile Pro Pro Gln Tyr Ala Ile Gln Val

100 105 110

Leu Asp Glu Leu Thr Asn Gly Asn Ala Ile Ile Ser Thr Gly Val Gly

115 120 125

Gln His Gln Met Trp Ala Ala Gln Tyr Tyr Lys Tyr Arg Lys Pro Arg

130 135 140

Gln Trp Leu Thr Ser Gly Gly Leu Gly Ala Met Gly Phe Gly Leu Pro

145 150 155 160

Ala Ala Ile Gly Ala Ala Val Gly Arg Pro Asp Glu Val Val Val Asp

165 170 175

Ile Asp Gly

<210>44

<211>179

<212>PRT

<213>大肠杆菌

<400>44

Tyr Ala Val Asp Ser Ser Asp Leu Leu Leu Ala Phe Gly Val Arg Phe

1 5 10 15

Asp Asp Arg Val Thr Gly Lys Leu Glu Ala Phe Ala Ser Arg Ala Lys

20 25 30

Ile Val His Ile Asp Ile Asp Ser Ala Glu Ile Gly Lys Asn Lys Gln

35 40 45

Pro His Val Ser Ile Cys Ala Asp Ile Lys Leu Ala Leu Gln Gly Leu

50 55 60

Asn Ser Ile Leu Glu Ser Lys Glu Gly Lys Leu Lys Leu Asp Phe Ser

65 70 75 80

Ala Trp Arg Gln Glu Leu Thr Val Gln Lys Val Lys Tyr Pro Leu Asn

85 90 95

Phe Lys Thr Phe Gly Asp Ala Ile Pro Pro Gln Tyr Ala Ile Gln Val

100 105 110

Leu Asp Glu Leu Thr Asn Gly Ser Ala Ile Ile Ser Thr Gly Val Gly

115 120 125

Gln His Gln Met Trp Ala Ala Gln Tyr Tyr Lys Tyr Arg Lys Pro Arg

130 135 140

Gln Trp Leu Thr Ser Gly Gly Leu Gly Ala Met Gly Phe Gly Leu Pro

145 150 155 160

Ala Ala Ile Gly Ala Ala Val Gly Arg Pro Asp Glu Val Val Val Asp

165 170 175

Ile Asp Gly

<210>45

<211>180

<212>PRT

<213>大肠杆菌

<400>45

Met Thr Met His Asn Ala Asp Val Ile Phe Ala Val Gly Val Arg Phe

1 5 10 15

Asp Asp Arg Thr Thr Asn Asn Leu Ala Lys Tyr Cys Pro Asn Ala Thr

20 25 30

Val Leu His Ile Asp Ile Asp Pro Thr Ser Ile Ser Lys Thr Val Thr

35 40 45

Ala Asp Ile Pro Ile Val Gly Asp Ala Arg Gln Val Leu Glu Gln Met

50 55 60

Leu Glu Leu Leu Ser Gln Glu Ser Ala His Gln Pro Leu Asp Glu Ile

65 70 75 80

Arg Asp Trp Trp Gln Gln Ile Glu Gln Trp Arg Ala Arg Gln Cys Leu

85 90 95

Lys Tyr Asp Thr His Ser Glu Lys Ile Lys Pro Gln Ala Val Ile Glu

100 105 110

Thr Leu Trp Arg Leu Thr Lys Gly Asp Ala Tyr Val Thr Ser Asp Val

115 120 125

Gly Gln His Gln Met Phe Ala Ala Leu Tyr Tyr Pro Phe Asp Lys Pro

130 135 140

Arg Arg Trp Ile Asn Ser Gly Gly Leu Gly Thr Met Gly Phe Gly Leu

145 150 155 160

Pro Ala Ala Leu Gly Val Lys Met Ala Leu Pro Glu Glu Thr Val Val

165 170 175

Cys Val Thr Gly

180

<210>46

<211>170

<212>PRT

<212>大肠杆菌

<400>46

Phe Ala Val Gln Glu Cys Asp Leu Leu Ile Ala Val Gly Ala Arg Phe

1 5 10 15

Asp Asp Arg Val Thr Gly Lys Leu Asn Thr Ser Ala Pro His Ala Ser

20 25 30

Val Ile His Met Asp Ile Asp Pro Ala Glu Met Asn Lys Leu Arg Gln

35 40 45

Ala His Val Ala Leu Gln Gly Asp Leu Asn Ala Leu Leu Pro Ala Leu

50 55 60

Gln Gln Pro Leu Asn Gln Cys Asp Trp Gln Gln His Cys Ala Gln Leu

65 70 75 80

Arg Asp Glu His Ser Trp Arg Tyr Asp His Pro Gly Asp Ala Ile Tyr

85 90 95

Ala Pro Leu Leu Leu Lys Gln Leu Ser Asp Arg Lys Pro Ala Asp Cys

100 105 110

Val Val Thr Thr Asp Val Gly Gln His Gln Met Trp Ala Ala Gln His

l15 120 125

Ile Ala His Thr Arg Pro Glu Asn Phe Ile Thr Ser Ser Gly Leu Gly

130 135 140

Thr Met Gly Phe Gly Leu Pro Ala Ala Val Gly Ala Gln Val Ala Arg

145 150 155 160

Pro Asn Asp Thr Val Val Cys Ile Ser Gly

165 170

<210>47

<211>35

<212>DNA

<213>大肠杆菌

<400>47

gccttaatta accatgaggg aagcggtgat cgccg 35

<210>48

<211>34

<212>DNA

<213>大肠杆菌

<400>48

tgcggtcgac tttgccgact accttggtga tctc 34

<210>49

<211>41

<212>DNA

<213>大肠杆菌

<400>49

cccaagcttg gcgccatgag taaaggagaa gaacttttca c 41

<210>50

<211>36

<212>DNA

<213>大肠杆菌

<400>50

gcgaccggtt tatttgtata gttcatccat gccatg 36

<210>51

<211>39

<212>DNA

<213>大肠杆菌

<400>51

agggaattcg tcgacaaatt tgctgaatat tgcctgtct 39

<210>52

<211>38

<212>DNA

<213>大肠杆菌

<400>52

ggcctcgagt tatttaattg tcccagcgtc aagtaatg 38

<210>53

<211>41

<212>DNA

<213>大肠杆菌

<400>53

agctttgttt aaaccatggt taaagttatc ggtcgtagat c 41

<210>54

<211>43

<212>DNA

<213>大肠杆菌

<400>54

cagcgtcgac ggcgccgtgg gatttgttaa agcagttagc agc 43

<210>55

<211>31

<212>DNA

<213>大肠杆菌

<400>55

catgccatgg gggaagcggt gatcgccgaa g 31

<210>56

<211>39

<212>DNA

<213>大肠杆菌

<400>56

acgcgagctc ttatttaatt gtcccagcgt caagtaatg 39

<210>57

<211>34

<212>DNA

<213>大肠杆菌

<400>57

cgaattctat ggttaaagtt atcggtcgta gatc 34

<210>58

<211>36

<212>DNA

<213>大肠杆菌

<400>58

agcccgcggt tatttgtata gttcatccat gccatg 36

<210>59

<211>154

<212>DNA

<213>烟草(Nicotiana tabacum)

<400>59

gaatagatct acatacacct tggttgacac gagtatataa gtcatgttat actgttgaat 60

aacaagcctt ccattttcta ttttgatttg tagaaaacta gtgtgcttgg gagtccctga 120

tgattaaata aaccaagatt ttaccttaat taag 154

<210>60

<211>151

<212>DNA

<213>烟草

<400>60

gatcctggcc tagtctatag gaggttttga aaagaaagga gcaataatca ttttcttgtt 60

ctatcaagag ggtgctattg ctcctttctt tttttctttt tatttattta ctagtatttt 120

acttacatag acttttttgt ttacgtattc t 151

<210>61

<211>185

<212>DNA

<213>烟草

<400>61

catatggcgt ccatgatctc ctcgtccgcg gtgaccacgg tcagccgcgc gtccacggtg 60

cagtcggccg cggtggcccc gttcggcggc ctcaagtcca tgaccggctt cccggtcaag 120

aaggtcaaca cggacatcac gtccatcacg agcaacggcg gcagggtgaa gtgcatgcga 180

agagc 185

<210>62

<211>6232

<212>DNA

<213>未知

<220>

<223>核苷酸1-2492：大肠杆菌载体pLITMUS28(New England Biolabs，Inc.)

<220>

<223>核苷酸2493-5993：烟草(Nicotiana tabaceum)

<220>

<223>核苷酸5993-6232：大肠杆菌载体pLITMUS28

(New England Biolabs，Inc.)

<400>62

gttaactacg tcaggtggca cttttcgggg aaatgtgcgc ggaaccccta tttgtttatt 60

tttctaaata cattcaaata tgtatccgct catgagacaa taaccctgat aaatgcttca 120

ataatattga aaaaggaaga gtatgagtat tcaacatttc cgtgtcgccc ttattccctt 180

ttttgcggca ttttgccttc ctgtttttgc tcacccagaa acgctggtga aagtaaaaga 240

tgctgaagat cagttgggtg cacgagtggg ttacatcgaa ctggatctca acagcggtaa 300

gatccttgag agttttcgcc ccgaagaacg ttctccaatg atgagcactt ttaaagttct 360

gctatgtggc gcggtattat cccgtgttga cgccgggcaa gagcaactcg gtcgccgcat 420

acactattct cagaatgact tggttgagta ctcaccagtc acagaaaagc atcttacgga 480

tggcatgaca gtaagagaat tatgcagtgc tgccataacc atgagtgata acactgcggc 540

caacttactt ctgacaacga tcggaggacc gaaggagcta accgcttttt tgcacaacat 600

gggggatcat gtaactcgcc ttgatcgttg ggaaccggag ctgaatgaag ccataccaaa 660

cgacgagcgt gacaccacga tgcctgtagc aatggcaaca acgttgcgca aactattaac 720

tggcgaacta cttactctag cttcccggca acaattaata gactggatgg aggcggataa 780

agttgcagga ccacttctgc gctcggccct tccggctggc tggtttattg ctgataaatc 840

tggagccggt gagcgtgggt ctcgcggtat cattgcagca ctggggccag atggtaagcc 900

ctcccgtatc gtagttatct acacgacggg gagtcaggca actatggatg aacgaaatag 960

acagatcgct gagataggtg cctcactgat taagcattgg taactgtcag accaagttta 1020

ctcatatata ctttagattg atttaccccg gttgataatc agaaaagccc caaaaacagg 1080

aagattgtat aagcaaatat ttaaattgta aacgttaata ttttgttaaa attcgcgtta 1140

aatttttgtt aaatcagctc attttttaac caataggccg aaatcggcaa aatcccttat 1200

aaatcaaaag aatagcccga gatagggttg agtgttgttc cagtttggaa caagagtcca 1260

ctattaaaga acgtggactc caacgtcaaa gggcgaaaaa ccgtctatca gggcgatggc 1320

ccactacgtg aaccatcacc caaatcaagt tttttggggt cgaggtgccg taaagcacta 1380

aatcggaacc ctaaagggag cccccgattt agagcttgac ggggaaagcg aacgtggcga 1440

gaaaggaagg gaagaaagcg aaaggagcgg gcgctagggc gctggcaagt gtagcggtca 1500

cgctgcgcgt aaccaccaca cccgccgcgc ttaatgcgcc gctacagggc gcgtaaaagg 1560

atctaggtga agatcctttt tgataatctc atgaccaaaa tcccttaacg tgagttttcg 1620

ttccactgag cgtcagaccc cgtagaaaag atcaaaggat cttcttgaga tccttttttt 1680

ctgcgcgtaa tctgctgctt gcaaacaaaa aaaccaccgc taccagcggt ggtttgtttg 1740

ccggatcaag agctaccaac tctttttccg aaggtaactg gcttcagcag agcgcagata 1800

ccaaatactg ttcttctagt gtagccgtag ttaggccacc acttcaagaa ctctgtagca 1860

ccgcctacat acctcgctct gctaatcctg ttaccagtgg ctgctgccag tggcgataag 1920

tcgtgtctta ccgggttgga ctcaagacga tagttaccgg ataaggcgca gcggtcgggc 1980

tgaacggggg gttcgtgcac acagcccagc ttggagcgaa cgacctacac cgaactgaga 2040

tacctacagc gtgagctatg agaaagcgcc acgcttcccg aagggagaaa ggcggacagg 2100

tatccggtaa gcggcagggt cggaacagga gagcgcacga gggagcttcc agggggaaac 2160

gcctggtatc tttatagtcc tgtcgggttt cgccacctct gacttgagcg tcgatttttg 2220

tgatgctcgt caggggggcg gagcctatgg aaaaacgcca gcaacgcggc ctttttacgg 2280

ttcctggcct tttgctggcc ttttgctcac atgtaatgtg agttagctca ctcattaggc 2340

accccaggct ttacacttta tgcttccggc tcgtatgttg tgtggaattg tgagcggata 2400

acaatttcac acaggaaaca gctatgacca tgattacgcc aagctacgta atacgactca 2460

ctagtgggca gatcttcgaa tgcatcgcgc gcttgacgat atagcaattt tgcttggatt 2520

tatcagtcga agcaggagac aatatacctt gatattctcg atcattcttt gattcaaagc 2580

atcgttccat ctcaattgaa aaagcaaata acgtttcaag aacaaatcta gttctgcttc 2640

cgtgttgctt ttgtattgtt ttttcttttt acccttcttt gtgtctgatt ccgcgtaatc 2700

ttttttaaga gcgttttgat gttttgagag aacagggccc agatttcctt tgttttctat 2760

atctgatcca cgctcttttt ctccttgact tgcgggttct tttgcttctt gaattcgatt 2820

ctttattttt ttatttgatc gtagaaaaaa gttttgtttt tggtttttat tgatgttttt 2880

attttgacta acattttcat ttgtattcaa atttaaaaga agtaatttgc ttggtataat 2940

ccacggtttt attttatata cattataaag tggtacaaat tctgggaaga accaaaattc 3000

cagattcaat atgggacgat ttaatatttt ttcattcatt cccatccaat caaaaaaggc 3060

ttttttcgaa tttttttgat tgttttctgg attttgatga atcgtaagat aaaaaaagcc 3120

ttttttatca attttatcaa ttatttgata attattaata ccaattttag tatttggatt 3180

actgttggta tcgatcttaa cccaggcctc aatatcttct ttttgtctaa gagaaaaatg 3240

gataattttc caatcaaaat attttctatc gagatttctt tctatatata gaatattgcc 3300

ttttcttaga taattattga tatgaagatt gccgagcata tcaaaaaggt tgtgtttgga 3360

cgtgttggaa ttagaagaaa tttcgaggtt cttatttact tgaaagggta atctagaaat 3420

aaaagagtca tttttttttt cataattaat cgatttatat gctaaaagat catatctata 3480

acatttttga aaattatctt tttggtttgc taatgaatag agctcagaat cattttcttt 3540

tttgtaatga attaattggt ctttttcata tgaattccat ttgtttaaat ttcgattttg 3600

agccatacaa ccttgattaa ccctatttcg ccatttttgt ggcattaatc tagaccatct 3660

aatctgagat aaatcgtacg agaatactca atcatgaata aatgcaagaa aataacctct 3720

ccttcttttt ctataatgta aacaaaaaag tctatgtaag taaaatacta gtaaataaat 3780

aaaaagaaaa aaagaaagga gcaatagcac cctcttgata gaacaagaaa atgattattg 3840

ctcctttctt ttcaaaacct cctatagact aggccaggat cctcgagctt aattaaggta 3900

aaatcttggt ttatttaatc atcagggact cccaagcaca ctagttttct acaaatcaaa 3960

atagaaaata gaaaatggaa ggctttttat tcaacagtat aacatgactt atatactcgt 4020

gtcaaccaag gtgtatgtag atctattcct gcaggatatc tggatccacg aagcttccca 4080

tgggaataga tctacataca ccttggttga cacgagtata taagtcatgt tatactgttg 4140

aataaaaagc cttccatttt ctattttgat ttgtagaaaa ctagtgtgct tgggagtccc 4200

tgatgattaa ataaaccaag attttaccgt ttaaacaccg gtgatcctgg cctagtctat 4250

aggaggtttt gaaaagaaag gagcaataat cattttcttg ttctatcaag agggtgctat 4320

tgctcctttc tttttttctt tttatttatt tactagtatt ttacttacat agactttttt 4380

gtttacatta tagaaaaaga aggagaggtt attttcttgc atttattcat gattgagtat 4440

tctcctaggc gtattgataa tgccgtctta accagttttt ccattgattg attctataac 4500

tctgaagttt cttatgtttt aattcagaat gaaatattcc tagtgttcga aaatagtcct 4560

ttattttagt cttaaggaaa aaagacgttc tgttatattg aagaacagat cttaatttag 4620

acaaattaat aacttggggt tgtgataatt tgtaaaatac atatgcttgt gataagtagg 4680

ataaatcaaa aaaaatatgt gaatttttct tactaatatt ataaagtgac ttttttatag 4740

tcgaaataaa gtgaattttt ttttgattat taattttttc ttgatttatt tcattattgg 4800

aaatgtattt atcaatcaat ttgtttgttg attcaagaaa gagttgtgta ttaattctgg 4860

gaatattaat gatagataaa aatagatcga tgtataatct ttgaatgaat aattttagaa 4920

aataatggaa tttccatatt aatcgagtat ttcttctttt taatatttgg aaaatctttt 4980

ttggcgattc gaatttttta atattatttg ttttattagg actaatgtct atttctggag 5040

ttactttctt tttctctttt gtaattcttt ctatttgatt tttgattgta cttgttctat 5100

cagtcaaatc cttcattttg ctttctatca gtgaagaatt tggccaattt ccagattcaa 5160

tttgactaaa tgattcgtta attatctgat tactcattag agaatctttt tcttttttcg 5220

tttcattcga ttcatctatt tctttgagtc taaataatac aattggattt acttttgaaa 5280

gttctttttt catttttttt ataaatagac tacttttgat aagccatttt ttggtttctt 5340

ttgaaattct tcgaaataat tttatttttc ctttgaaaac ttttagagtt ataaaatatt 5400

tctttttgaa ttttccaatt tttttttcga gttccttaaa aatgggctca aaaaaagaag 5460

ggcgttttcg gggagaacca aagggaagtt cagcttccat tccccaaact gttaaaaaac 5520

aaaaatcatc tttttgtttt ttctttttca ttagctctcc acgggaggag tacagtttag 5580

atatatgcca aggtttcaga caaaaaggaa ataatatttt gatctgaatg ccatctttca 5640

accaattttt tggaaattct gtttctgata attgaacacc attataagta catttaatat 5700

gcatttctct attccattcc tgcaaatctt cagaccattc aggaagttgc aagactaaca 5760

tacgcccgag atttttggct attatcaatg aaggtaatac aatatatttt cgaagaattg 5820

attgagttat taacatgtaa cctcttatta tttgcgcaaa aggaatggta tcccaggctt 5880

ctgctatctc tatccgtgct ttttcctttc ttttgttctc cccttttttg tccttttcct 5940

ttttctcttc tctttttgtt tgttcttctc tagactctag aatcttgaat tcggtaccct 6000

ctagtcaagg ccttaagtga gtcgtattac ggactggccg tcgttttaca acgtcgtgac 6060

tgggaaaacc ctggcgttac ccaacttaat cgccttgcag cacatccccc tttcgccagc 6120

tggcgtaata gcgaagaggc ccgcaccgat cgcccttccc aacagttgcg cagcctgaat 6180

ggcgaatggc gcttcgcttg gtaataaagc ccgcttcggc gggctttttt tt 6232

<210>63

<211>6477

<212>DNA

<213>未知

<220>

<223>核苷酸1-2482：大肠杆菌载体pLITMUS28(New

England Biolabs，Inc.)

<220>

<223>核苷酸2493-6242：核苷酸

<220>

<223>核苷酸6243-6477：大肠杆菌载体pLITMUS28

(New England Biolabs，Inc.)

<400>63

gttaactacg tcaggtggca cttttcgggg aaatgtgcgc ggaaccccta tttgtttatt 60

tttctaaata cattcaaata tgtatccgct catgagacaa taaccctgat aaatgcttca 120

ataatattga aaaaggaaga gtatgagtat tcaacatttc cgtgtcgccc ttattccctt 180

ttttgcggca ttttgccttc ctgtttttgc tcacccagaa acgctggtga aagtaaaaga 240

tgctgaagat cagttgggtg cacgagtggg ttacatcgaa ctggatctca acagcggtaa 300

gatccttgag agttttcgcc ccgaagaacg ttctccaatg atgagcactt ttaaagttct 360

gctatgtggc gcggtattat cccgtgttga cgccgggcaa gagcaactcg gtcgccgcat 420

acactattct cagaatgact tggttgagta ctcaccagtc acagaaaagc atcttacgga 480

tggcatgaca gtaagagaat tatgcagtgc tgccataacc atgagtgata acactgcggc 540

caacttactt ctgacaacga tcggaggacc gaaggagcta accgcttttt tgcacaacat 600

gggggatcat gtaactcgcc ttgatcgttg ggaaccggag ctgaatgaag ccataccaaa 660

cgacgagcgt gacaccacga tgcctgtagc aatggcaaca acgttgcgca aactattaac 720

tggcgaacta cttactctag cttcccggca acaattaata gactggatgg aggcggataa 780

agttgcagga ccacttctgc gctcggccct tccggctggc tggtttattg ctgataaatc 840

tggagccggt gagcgtgggt ctcgcggtat cattgcagca ctggggccag atggtaagcc 900

ctcccgtatc gtagttatct acacgacggg gagtcaggca actatggatg aacgaaatag 960

acagatcgct gagataggtg cctcactgat taagcattgg taactgtcag accaagttta 1020

ctcatatata ctttagattg atttaccccg gttgataatc agaaaagccc caaaaacagg 1080

aagattgtat aagcaaatat ttaaattgta aacgttaata ttttgttaaa attcgcgtta 1140

aatttttgtt aaatcagctc attttttaac caataggccg aaatcggcaa aatcccttat 1200

aaatcaaaag aatagcccga gatagggttg agtgttgttc cagtttggaa caagagtcca 1260

ctattaaaga acgtggactc caacgtcaaa gggcgaaaaa ccgtctatca gggcgatggc 1320

ccactacgtg aaccatcacc caaatcaagt tttttggggt cgaggtgccg taaagcacta 1380

aatcggaacc ctaaagggag cccccgattt agagcttgac ggggaaagcg aacgtggcga 1440

gaaaggaagg gaagaaagcg aaaggagcgg gcgctagggc gctggcaagt gtagcggtca 1500

cgctgcgcgt aaccaccaca cccgccgcgc ttaatgcgcc gctacagggc gcgtaaaagg 1560

atctaggtga agatcctttt tgataatctc atgaccaaaa tcccttaacg tgagttttcg 1620

ttccactgag cgtcagaccc cgtagaaaag atcaaaggat cttcttgaga tccttttttt 1680

ctgcgcgtaa tctgctgctt gcaaacaaaa aaaccaccgc taccagcggt ggtttgtttg 1740

ccggatcaag agctaccaac tctttttccg aaggtaactg gcttcagcag agcgcagata 1800

ccaaatactg ttcttctagt gtagccgtag ttaggccacc acttcaagaa ctctgtagca 1860

ccgcctacat acctcgctct gctaatcctg ttaccagtgg ctgctgccag tggcgataag 1920

tcgtgtctta ccgggttgga ctcaagacga tagttaccgg ataaggcgca gcggtcgggc 1980

tgaacggggg gttcgtgcac acagcccagc ttggagcgaa cgacctacac cgaactgaga 2040

tacctacagc gtgagctatg agaaagcgcc acgcttcccg aagggagaaa ggcggacagg 2100

tatccggtaa gcggcagggt cggaacagga gagcgcacga gggagcttcc agggggaaac 2160

gcctggtatc tttatagtcc tgtcgggttt cgccacctct gacttgagcg tcgatttttg 2220

tgatgctcgt caggggggcg gagcctatgg aaaaacgcca gcaacgcggc ctttttacgg 2280

ttcctggcct tttgctggcc ttttgctcac atgtaatgtg agttagctca ctcattaggc 2340

accccaggct ttacacttta tgcttccggc tcgtatgttg tgtggaattg tgagcggata 2400

acaatttcac acaggaaaca gctatgacca tgattacgcc aagctacgta atacgactca 2460

ctagtgggca gatcttcgaa tgcatcgcgc gcaattcacc gccgtatggc tgaccggcga 2520

ttactagcga ttccggcttc atgcaggcga gttgcagcct gcaatccgaa ctgaggacgg 2580

gtttttgggg ttagctcacc ctcgcgggat cgcgaccctt tgtcccggcc attgtagcac 2640

gtgtgtcgcc cagggcataa ggggcatgat gacttgacgt catcctcacc ttcctccggc 2700

ttatcaccgg cagtctgttc agggttccaa actcaacgat ggcaactaaa cacgagggtt 2760

gcgctcgttg cgggacttaa cccaacacct tacggcacga gctgacgaca gccatgcacc 2820

acctgtgtcc gcgttcccga aggcacccct ctctttcaag aggattcgcg gcatgtcaag 2880

ccctggtaag gttcttcgct ttgcatcgaa ttaaaccaca tgctccaccg cttgtgcggg 2940

cccccgtcaa ttcctttgag tttcattctt gcgaacgtac tccccaggcg ggatacttaa 3000

cgcgttagct acagcactgc acgggtcgat acgcacagcg cctagtatcc atcgtttacg 3060

gctaggacta ctggggtatc taatcccatt cgctccccta gctttcgtct ctcagtgtca 3120

gtgtcggccc agcagagtgc tttcgccgtt ggtgttcttt ccgatctcta cgcatttcac 3180

cgctccaccg gaaattccct ctgcccctac cgtactccag cttggtagtt tccaccgcct 3240

gtccagggtt gagccctggg atttgacggc ggacttaaaa agccacctac agacgcttta 3300

cgcccaatca ttccggataa cgcttgcatc ctctgtatta ccgcggctgc tggcacagag 3360

ttagccgatg cttattcccc agataccgtc attgcttctt ctccgggaaa agaagttcac 3420

gacccgtggg ccttctacct ccacgcggca ttgctccgtc agctttcgcc cattgcggaa 3480

aattccccac tgctgcctcc cgtaggagtc tgggccgtgt ctcagtccca gtgtggctga 3540

tcatcctctc ggaccagcta ctgatcatcg ccttggtaag ctattgcctc accaactagc 3600

taatcagacg cgagcccctc ctcgggcgga ttcctccttt tgctcctcag cctacggggt 3660

attagcagcc gtttccagct gttgttcccc tcccaagggc aggttcttac gcgttactca 3720

cccgtccgcc actggaaaca ccacttcccg tccgacttgc atgtgttaag catgccgcca 3780

gcgttcatcc tgagccagga tcgaactctc catgagattc atagttgcat tacttatagc 3840

ttccttgttc gtagacaaag cggattcgga attgtctttc attccaaggc ataacttgta 3900

tccatgcgct tcatattcgc ccggagttcg ctcccagaaa tatagccatc cctgccccct 3960

cacgtcaatc ccacgagcct cttatccatt ctcattgaac gacggcgggg gagcaaatcc 4020

aactagaaaa actcacattg ggcttaggga taatcaggct cgaactgatg acttccacca 4080

cgtcaaggtg acactctacc gctgagttat atcccttccc cgccccatcg agaaatagaa 4140

ctgactaatc ctaagtcaaa ggcgtacgag aatactcaat catgaataaa tgcaagaaaa 4200

taacctctcc ttctttttct ataatgtaaa caaaaaagtc tatgtaagta aaatactagt 4260

aaataaataa aaagaaaaaa agaaaggagc aatagcaccc tcttgataga acaagaaaat 4320

gattattgct cctttctttt caaaacctcc tatagactag gccaggatcc tcgagcttaa 4380

ttaaggtaaa atcttggttt atttaatcat cagggactcc caagcacact agttttctac 4440

aaatcaaaat agaaaataga aaatggaagg ctttttattc aacagtataa catgacttat 4500

atactcgtgt caaccaaggt gtatgtagat ctattcctgc aggatatctg gatccacgaa 4560

gcttcccatg ggaatagatc tacatacacc ttggttgaca cgagtatata agtcatgtta 4620

tactgttgaa taaaaagcct tccattttct attttgattt gtagaaaact agtgtgcttg 4680

ggagtccctg atgattaaat aaaccaagat tttaccgttt aaacaccggt gatcctggcc 4740

tagtctatag gaggttttga aaagaaagga gcaataatca ttttcttgtt ctatcaagag 4800

ggtgctattg ctcctttctt tttttctttt tatttattta ctagtatttt acttacatag 4860

acttttttgt ttacattata gaaaaagaag gagaggttat tttcttgcat ttattcatga 4920

ttgagtattc tcctagggtc gagaaactca acgccactat tcttgaacaa cttggagccg 4980

ggccttcttt tcgcactatt acggatatga aaataatggt caaaatcgga ttcaattgtc 5040

aactgcccct atcggaaata ggattgacta ccgattccga aggaactgga gttacatctc 5100

ttttccattc aagagttctt atgcgtttcc acgccccttt gagaccccga aaaatggaca 5160

aattcctttt cttaggaaca catacaagat tcgtcactac aaaaaggata atggtaaccc 5220

taccattaac tacttcattt atgaatttca tagtaataga aatacatgtc ctaccgagac 5280

agaatttgga acttgctatc ctcttgccta gcaggcaaag atttacctcc gtggaaagga 5340

tgattcattc ggatcgacat gagagtccaa ctacattgcc agaatccatg ttgtatattt 5400

gaaagaggtt gacctccttg cttctctcat ggtacactcc tcttcccgcc gagccccttt 5460

tctcctcggt ccacagagac aaaatgtagg actggtgcca acaattcatc agactcacta 5520

agtcgggatc actaactaat actaatctaa tataatagtc taatatatct aatataatag 5580

aaaatactaa tataatagaa aagaactgtc ttttctgtat actttccccg gttccgttgc 5640

taccgcgggc tttacgcaat cgatcggatt agatagatat cccttcaaca taggtcatcg 5700

aaaggatctc ggagacccac caaagtacga aagccaggat ctttcagaaa acggattcct 5760

attcaaagag tgcataaccg catggataag ctcacactaa cccgtcaatt tgggatccaa 5820

attcgagatt ttccttggga ggtatcggga aggatttgga atggaataat atcgattcat 5880

acagaagaaa aggttctcta ttgattcaaa cactgtacct aacctatggg atagggatcg 5940

aggaagggga aaaaccgaag atttcacatg gtacttttat caatctgatt tatttcgtac 6000

ctttcgttca atgagaaaat gggtcaaatt ctacaggatc aaacctatgg gacttaagga 6060

atgatataaa aaaaagagag ggaaaatatt catattaaat aaatatgaag tagaagaacc 6120

cagattccaa atgaacaaat tcaaacttga aaaggatctt ccttattctt gaagaatgag 6180

gggcaaaggg attgatcaag aaagatcttt tgttcttctt atatataaga tcgtgatggt 6240

accctctagt caaggcctta agtgagtcgt attacggact ggccgtcgtt ttacaacgtc 6300

gtgactggga aaaccctggc gttacccaac ttaatcgcct tgcagcacat ccccctttcg 6360

ccagctggcg taatagcgaa gaggcccgca ccgatcgccc ttcccaacag ttgcgcagcc 6420

tgaatggcga atggcgcttc gcttggtaat aaagcccgct tcggcgggct ttttttt 6477

<211>64

<211>31

<212>DNA

<213>烟草

<400>64

aactgcagga atagatctac atacaccttg g 31

<210>65

<211>42

<212>DNA

<213>烟草

<400>65

ccgctcgagc ttaattaagg taaaatcttg gtttatttaa tc 42

<210>66

<211>33

<212>DNA

<213>烟草

<400>66

gcgaccggtg atcctggcct agtctatagg agg 33

<210>67

<211>34

<212>DNA

<213>烟草

<400>67

aggcctagga gaatactcaa tcatgaataa atgc 34

<210>68

<211>34

<212>DNA

<213>烟草

<400>68

ttggcgcgct tgacgatata gcaattttgc ttgg 34

<210>69

<211>34

<212>DNA

<213>烟草

<400>69

ttgcgtacga tttatctcag attagatggt ctag 34

<210>70

<211>35

<212>DNA

<213>烟草

<400>70

ttgcctaggc gtattgataa tgccgtctta accag 35

<210>71

<211>34

<212>DNA

<213>烟草

<400>71

aggggtaccg aattcaagat tctagagtct agag 34

<210>72

<211>34

<212>DNA

<213>烟草

<400>72

ttggcgcgca attcaccgcc gtatggctga ccgg 34

<210>73

<211>34

<212>DNA

<213>烟草

<400>73

ttgcgtacgc ctttgactta ggattagtca gttc 34

<210>74

<211>34

<212>DNA

<213>烟草

<400>74

ttgcctaggg tcgagaaact caacgccact attc 34

<210>75

<211>35

<212>DNA

<213>烟草

<400>75

aggggtacca tcacgatctt atatataaga agaac 35

<210>76

<211>250

<212>DNA

<213>烟草

<400>76

gaattgtgag cgctcacaat tctaggatgt taattgcgcc gacatcataa cggttctggc 60

aaatattctg aaatgagctg ttgacaatta atcatcggct cgtataatgt gtggaattgt 120

gagcggataa caatttcaca caggaaacag accatggtga attctagagc tcgaggatcc 180

gcggtacccg ggcatgcatt cgaagcttcc ttaagcggcc gtcgaccgat gcccttgaga 240

gccttcaacc 250

<210>77

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>77

Cys Leu Asn Ile Gln

1 5

<210>78

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>78

Val Phe Lys His Ala

1 5

<210>79

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>79

Leu Phe Lys Gln Pro

1 5

<210>80

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>80

Cys Leu Asn Ser Asp

1 5

<210>81

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>81

Cys Leu Asn Ile Ser

1 5

<210>82

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>82

Cys Leu Asn Thr Asp

1 5

<210>83

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>83

Cys Leu Asn Asn Arg

1 5

<210>84

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>84

Cys Leu Asn Ser Cys

1 5

<210>85

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>85

Cys Leu Asn Ser Asp

1 5

<210>86

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>86

Cys Leu Asn Thr Leu

1 5

<210>87

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>87

Val Phe Lys Gln Pro

1 5

<210>88

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>88

Cys Leu Asn Ser Met

1 5

<210>89

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>89

Cys Leu Asn Asn Tyr

1 5

<210>90

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>90

Cys Leu Asn Met Ala

1 5

<210>91

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>91

Val Phe Lys His Lys

1 5

<210>92

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>92

Cys Leu Asn Thr Lys

1 5

<210>93

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>93

Cys Leu Asn Lys Asp

1 5

<210>94

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>94

Met Phe Lys Gln Ile

1 5

<210>95

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>95

Cys Leu Asn Ile Ile

1 5

<210>96

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>96

Leu Phe Lys His Glu

1 5

<210>97

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>97

Val Phe Lys His Phe

1 5

<210>98

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>98

Cys Leu Asn Ser Val

1 5

<210>99

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>99

Val Phe Lys Gln Ile

1 5

<210>100

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>100

Met Phe Lys Gln Ala

1 5

<210>101

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>101

Leu Phe Lys His His

1 5

<210>102

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>102

Leu Phe Lys His Gln

1 5

<210>103

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>103

Met Phe Lys His Val

1 5

<210>104

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>104

Val Phe Lys Gln Lys

1 5

<210>105

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>105

Leu Phe Lys Gln Gln

1 5

<210>106

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>106

Leu Phe Lys His Ser

1 5

<210>107

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>107

Cys Leu Asn Thr Gly

1 5

<210>108

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>108

Cys Leu Asn Ser Arg

1 5

<210>109

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>109

Val Phe Lys His Leu

1 5

<210>110

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>110

Cys Leu Asn Asn Ile

1 5

<210>111

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>111

Leu Phe Lys His Gln

1 5

<210>112

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>112

Cys Leu Asn Lys His

1 5

<210>113

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>113

Met Phe Lys Gln Tyr

1 5

<210>114

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>114

Cys Leu Asn Lys Gln

1 5

<210>115

<211>5

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>115

Cys Leu Asn Met Ser

1 5

<210>116

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>116

Leu Cys Leu Asn Ile Leu Ala

1 5

<210>117

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>117

Asn Cys Leu Asn Ile Asn Ala

1 5

<210>118

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>118

Leu Met Phe Lys His Leu Ser

1 5

<210>119

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>119

Thr Leu Phe Lys His Thr Arg

1 5

<210>120

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>120

Lys Val Phe Lys Gln Lys Glu

1 5

<210>121

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>121

His Leu Val Phe Lys His Leu

1 5

<210>122

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>122

Leu Cys Leu Asn Thr Leu Leu

1 5

<210>123

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>123

Leu Cys Leu Asn Asn Leu Val

1 5

<210>124

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>124

Glu Val Phe Lys His Glu Gly

1 5

<210>125

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>125

Lys Val Phe Lys Gln Lys Gly

1 5

<210>126

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>126

Thr Cys Leu Asn Thr Thr Ile

1 5

<210>127

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>127

Met Cys Leu Asn Asn Met Asn

1 5

<210>128

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>128

Leu Leu Phe Lys Gln Leu Arg

1 5

<210>129

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>129

Arg Cys Leu Asn Asn Arg Leu

1 5

<210>130

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>130

Met Val Phe Lys Gln Met Ala

1 5

<210>131

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>131

Ala Met Phe Lys Gln Ala Thr

1 5

<210>132

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>132

Leu Val Phe Lys His Leu Asp

1 5

<210>133

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>133

Lys Met Phe Lys Gln Lys Thr

1 5

<210>134

<211>7

<212>PRT

<213>人工序列

<220>

<223>人工序列的描述：基于Tn7转座子的末端

<400>134

Tyr Cys Leu Asn Asn Tyr Phe

5

Claims

1.在植物中从蛋白片段重构靶蛋白的方法，包括：

a)将编码该靶蛋白的基因断裂成至少两个DNA片断；

b)通过将步骤a)中的DNA片断区室化进入该植物细胞中的不同的膜限定细胞器分离该DNA片段，其中至少一种DNA片段被区室化进入细胞核中；

c)在植物中表达步骤b)中的DNA片断，以产生相应的靶蛋白片断；

d)在植物中从蛋白片断重构靶蛋白。

2.根据权利要求1所述的方法，其中在步骤(b)中并不区室化进入核中的另一DNA片段被区室化进入细胞的叶绿体中。

3.一种防止编码靶蛋白的转基因在相关宿主系统之间迁移的方法，所述的相关宿主系统具有以细胞区室化为特征的细胞，包括：

a)通过在一个或一个以上预定的剪切位点剪切编码靶蛋白的转基因获得至少第一和第二DNA片断，使得至少第一和第二DNA片断编码功能性失活蛋白片断；

b)将第一DNA片断引入宿主系统的核中，第二DNA片断引入宿主系统的叶绿体中，以便在其中表达；

c)防止编码靶蛋白的转基因在相关宿主系统之间迁移。

4.如权利要求3所述的方法，其中所述的宿主系统是植物。

5.如权利要求1或3所述的方法，其中编码靶蛋白的DNA被编码一个或多个intein的DNA断裂。

6.如权利要求5所述的方法，其中编码靶蛋白的DNA通过形成至少两个DNA片断而被断裂，其中所述的DNA片断包括编码靶蛋白的DNA的一部分和编码intein的DNA的一部分。

7.如权利要求6所述的方法，其中DNA片断之一是通过连接编码靶蛋白的N-端部分DNA的5‘-末端与编码inteinN-端部分DNA的3’-端形成的，另一个所述DNA片断是通过连接编码靶蛋白C-端部分DNA的3‘-末端与编码intein C-端部分DNA的5’-端形成的。

8.如权利要求1或3所述的方法，其中编码靶蛋白的DNA被编码一个或多个亲和区的DNA裂解形成两个或更多的DNA片断，其中所述的亲和区包括inteins或intein片断、亮氨酸拉链和c-Jun/c-Fos。

9.如权利要求1-4和6-7任一项所述的方法，其中至少一个编码靶蛋白的DNA片断与编码转运肽的DNA序列融合，从而使DNA片断的蛋白产物被转运至单独的区室，在该区室中进行功能性重构。

10.如权利要求9所述的方法，其中编码靶蛋白一部分、并被区室化进入核中的DNA片断另外与编码转运肽的DNA序列融合以便转运进叶绿体。

11.如权利要求1或3所述的方法，其中靶蛋白片断的重构包括intein介导的剪接。

12.如权利要求1或3所述的方法，其中靶蛋白片断的重构包括intein介导的蛋白互补。

13.如权利要求1或3所述的方法，其中靶蛋白片断的重构包括蛋白质互补。

14.如权利要求1或3所述的方法，其中编码靶蛋白的DNA的断裂包括：确定靶蛋白的一个或多个潜在断裂位点区。

15.如权利要求14所述的方法，其中通过分析靶蛋白非保守区的一级氨基酸序列确定所述的靶蛋白的潜在断裂位点区。

16.如权利要求15所述的方法，其中通过在靶蛋白内连接子插入的连接子耐受性确定所述的潜在的断裂位点区。

17.如权利要求16所述的方法，其中潜在的断裂位点区位于靶蛋白折叠区之间的氨基酸序列内。

18.如权利要求17所述的方法，其中的氨基酸序列是弹性环。