CN1157549A

CN1157549A - 植物抗病毒基因和方法

Info

Publication number: CN1157549A
Application number: CN95194556A
Authority: CN
Inventors: B·J·贝克; S·A·惠瑟姆
Original assignee: US Government; University of California Berkeley
Current assignee: US Government; University of California Berkeley
Priority date: 1994-06-17
Filing date: 1995-06-16
Publication date: 1997-08-20
Also published as: HUT76529A; AU2904595A; CZ369296A3; BR9508047A; EP0767605A4; JPH10501972A; RU2140985C1; NZ289259A; MX9606535A; SK161796A3; HU9603482D0; PL317898A1; AU688924B2; KR970703695A; WO1995035024A1; CA2193123A1; US5571706A; EP0767605A1

Abstract

本发明提供编码植物抗病毒蛋白的基因组和cDNA序列。特别举例说明来自抗烟草花叶病毒的粘毛烟草的编码N蛋白的序列。对TMV敏感型烟草植株进行遗传学改造，以使其包含并表达来自TMV抗性品系的N蛋白编码序列，从而获得TMV抗性表型。

Description

植物抗病毒基因和方法

发明背景发明领域

本发明涉及增强对植物病原体控制的方法和材料。更具体地说，本发明涉及编码N基因蛋白的核酸序列，含有该序列的重组多核苷酸分子及其应用，特别是应用于转化茄科(Solanaceae)植物，使其能抵抗烟草花叶病毒。发明背景

庄稼减产和品质降低主要是由于感染了植物疾病的病原体，包括病毒、细菌和真菌。烟草花叶病毒(TMV)感染重要的经济作物，包括烟草和相关植物如番茄和胡椒。TMV虽然不致死，但会影响这些植物的生长和产量。病毒病原体在植物中的传播分为两步。首先，在寄主植物细胞中病毒传入部位发生病毒感染。然后，病毒在植物细胞内复制扩增。

植物具有多种抵抗植物病原体入侵的天然抗性机制。它们包括结构上的和化学的屏障，以及有效的抗性机制。植物对大量病原体的抗性是由植物和病原体中的一对互补基因控制的。植物中的该基因叫抗病基因，病原体中的该基因叫无毒基因。带有抗病基因的植物在带有相应无毒基因的病原体入侵时，能有效地保护自身不染病。

烟草的显性N座位赋予烟草对TMV的抗性，并介导病毒感染部位的局部过敏反应(HR)，和诱导感染部位附近细胞及整个植株的整株获得抗性(SAR)反应。N座位杂合和纯合的烟草对TMV都有抗性。HR是植物在原有的抗性机制失败后，对病原体入侵所作出的反应，是一种复杂而有效的抗性反应(Keen等，植物疾病控制中的生物技术，Wiley-Liss公司，65-88页(1993))。HR的特点是病原体入侵部位的细胞死亡(坏死)。尽管坏死可能并不引起对入侵病原体的抗性，但人们认为在阻止病原体扩散中，抗菌化合物的伴随合成、作为SAR反应特征的发病相关蛋白的伴随合成，以及结构屏障的建立起着中心作用。导致抗性的植物-病原体相互作用被称作不相容，导致感病的植物-病原体相互作用被称作相容。

对于带有抗病基因的植物辨别入侵病原体的存在并引发HR和SAR的机制，人们已进行了研究。在许多情况下，HR是由不相容的植物与病原体间的基因与基因的相互作用决定的。Flor(农业研究杂志74：241-262(1947))提出的基因模型预言，抗病性和病原体无毒性(诱导因子的产生)是显性性状。因此，只有当植物具有特定的抗病基因(R基因)，并且病原体具有相应的无毒基因(Avr基因)时，才会产生抗病性。已经从细菌、真菌和病毒中克隆了几个Avr基因[参见Gabriel和Rolfe，植物病理学年鉴28：365-391(1990)和Keen，基因研究年鉴24：447-463(1990)]，其中一些已经确定了诱导因子的分子本质(参见Keen，植物分子生物学19：109-122(1992))。已报导了玉米抗真菌基因HM1(Johal和Briggs，科学258：985-987(1992))和番茄抗细菌基因Pto(G.Martin等，科学262：1432-1436(1993))。至今仍未分离或纯化出天然的植物抗病毒基因。

R基因与其相应的Avr基因间简单的遗传学关系促使人们去推测R基因产物的作用方式。一种模型预言，R基因存在于信号通路中，能够识别病原体并起始随后的信号转导级联反应，最终引起抗病性(Lamb，细胞76：419-422(1994))。第二种模型预言，R基因产物是跨膜离子通道，它不依赖于细胞中其它事件而介导细胞死亡。最近从番茄中克隆了Pto基因，它能赋予番茄对细菌病原体丁香假单胞菌(Pseudomonassyringae)的抗性(Martin等，科学262：1432-1436(1993))，表明在植物细胞中至少第一种模型在起作用。Pto的序列分析指出，它编码一种丝氨酸/苏氨酸激酶。根据理论，这种丝氨酸/苏氨酸激酶与诱导因子分子直接或间接相互作用，使抗性反应的相应调控代谢物磷酸化，从而产生信号转导级联反应。

植物的过敏反应与动物的“先天”免疫反应之间存在着相似性。相同之处在于快速产生活性氧(ROS)，即氧爆发。ROS的实例有超氧阴离子(O₂)和过氧化氢(H₂O₂)。这些分子可能有直接抗菌作用和其他保护作用，如植物细胞壁上结构蛋白质的交联。重要的是，ROS能激活动植物防御相关基因的表达(Schreck和Bauerle，细胞生物学动态1：39-42(1991)，Chen等，科学262：1883-1886(1993))。在哺乳动物中，ROS极可能是细胞分裂的第二信使，例如肿瘤坏死因子(TNF)和白细胞介素1(Il-1)、TNF和Il-1存在于信号通路中，在该通路中转录因子NF-KB调节免疫球蛋白、白细胞介素和其他蛋白的表达。一种与NF-KB同源的果蝇属(Drasophia)转录因子(Dif)也激活抗菌蛋白的转录，这些抗菌蛋白包括天蚕抗菌肽，附着素，防御素和溶菌酶(Levine和Hultmark，遗传学动态9：178-183(1993))。在植物中相同的是发病相关蛋白的诱导和抗菌化合物如植物抗菌素的合成，植物抗菌素能被过量应用的H₂O₂所诱导。

抗性基因N引起的抗性反应是研究植物抗性反应的一种重要的模型系统。N座位由一个显性基因组成，该基因介导TMV感染时坏死反应的诱导和SAR(Holmes，植物病理学28：553-561(1938))。它最先是在粘毛烟草中被鉴定，并已渗入到栽培烟草(N.tabacum)中。N基因介导过敏反应，其特征是产生局部病灶，烟草花叶病毒被局限在病灶中，见图1A。不含N基因的烟草栽培品种允许烟草花叶病毒整株地扩散并形成“花叶”症状，其特征是间歇的深浅不一的绿色叶组织(图1B)。

重组DNA技术使人们可以用抗病基因转化法使植物获得抗性。由于没有克隆化的天然植物抗病基因和缺乏抗病机制的资料，该方法一直受阻。尽管由于缺乏在植物中分离某些不了解其性质或其产物性质的基因的技术，克隆化的抗病基因一直不能获得，但最近已经可以获得了。新近发明了两种用于植物的技术，它不依赖于基因的资料或蛋白质的生化资料，从而可以分离基因。这些技术是定位克隆和转座子示踪(Baker，Schell，Fedoroff，国家科学院院刊，USA 83：4844-4848(1986))。

发明概述

本发明包括分离和纯化形式的DNA序列，该序列编码N基因蛋白，在合成N基因蛋白的植物中该蛋白能介导对TMV的抗性。这里特别举例说明的是编码特定N基因蛋白的基因组和cDNA序列。本发明的范围包括编码具有例示的氨基酸序列的N基因蛋白的DNA序列。本发明也包括这样的DNA序列，它在标准条件下与N基因编码序列或其互补序列特异性地杂交，并且编码能介导TMV抗性的N基因蛋白。

本发明另一方面提供重组核酸分子，该分子含有编码N基因蛋白的序列。这些分子包括，举例来说，重组载体如克隆、表达或转化载体，这些载体含有编码N基因蛋白的DNA序列。

本发明另一方面提供用上述载体或DNA序列转化了的细胞。

本发明的一种具体应用是提供用N基因编码序列转化了的植物或植物细胞，使植物具有对TMV的抗性。

本发明另一方面提供寡核苷酸探针，该探针能在茄科植物中检测N基因或其功能等价物，并提供应用该探针分离编码N基因或其功能等价物的DNA序列的方法。本发明包括一段DNA序列，该序列与探针特异性地杂交并编码功能性N基因蛋白。

利用N基因序列简化了从相关和无关宿主中分离同源基因以获得一种基因的方法，该基因能保护宿主植物免受相关病毒病原体和无关病原体的侵染。

与该发现一致的是，本发明的目的是提供含有某种DNA序列的基因构建体，该DNA序列编码N基因蛋白，在合成N基因蛋白的植物中该蛋白能介导对TMV的抗性。

本发明的目的还有提供含有N基因构建体的转化载体。该载体能有效地将N基因构建体稳定地导入植物中。

本发明的另一目的是提供具有TMV抗性的转基因植物，其中的抗性是表达N基因构建体的结果。

本发明的其他目的和优点将在随后描述。

附图简述

图1表示烟草叶在接种TMV后的表型。图1A是含有功能性N基因的植物的叶。图1B是TMV敏感植物的叶。图1C是具有TMV敏感背景又出现坏死区的植物的叶(嵌合表型)。图1D是TMV敏感的SR1烟草的叶，该烟草已用pTG 38 T-DNA构建体转化。

图2A-2C表示用探针Nt-1 RFLP标记物和Ac对Dlll种群进行的Southern杂交分析。图2A是Nt-1探针与基因组DNA杂交的结果，该基因组DNA是从烟草属的粘毛烟草、茸毛烟草和野烟草，以及烟草栽培品种Samsun NN和SR1中分离的。图2B是Nt-1与基因组DNA回交子代杂交的结果，Nt-1(G)N-连锁的RFLP标记与后者分离。图2C表示5′Ac探针与图2B中的DNA杂交。

图3A是部分野生型N基因和Ac插入突变的N基因的限制性酶切图谱。图3B-3C是DNA的Southern杂交分析，该DNA是从烟草父代、Ac突变植株、嵌合植株、野生型(WT)N基因中有Ac插入的突变体，以及能育的回复突变体中分离的。图3B是用N基因探针N-5筛选植物DNA的杂交结果。图3C是筛选植物DNA的Ac杂交。

图4A和图4B简示N基因的组成。图4A显示N基因的内含子和外显子的相互位置，图4B是三个含有全长N基因的基因组克隆的限制性酶切图谱。这些图谱是从cDNA克隆C7、C16、C18和基因组克隆G38，以及对三个基因组克隆的限制性酶消化分析中得到的。cDNA C7没有显示，它与C18相同，区别仅在于C7含有内含子II，而且被认为只有部分携带信息。C18的5′端缺失了753bp。合在一起，C7和C18可以组成一个3432bp的开放阅读框架，编码1144个氨基酸的多肽。C16编码一个652个氨基酸的蛋白，由于其内含一个70bp交替外显子而改变了阅读框架。三个cDNA克隆的3′端都相同，但只有C7和C16的5′端相同。图4B：用Eco RI(E)、Bam HI(B)和Xho I(X)消化的基因组克隆。X表明XhoI位点来自λGemII克隆载体的多连接位点。

图5是TMV感染后N蛋白介导信号通路的模型。

发明详述

人们认为植物的显性抗病基因编码一些蛋白，这些蛋白能识别特定的病原体或病原体小种(races)，并起始信号转导级联，导致抗病性的表达。TMV通过植物组织的机械损伤进入细胞。在进入细胞过程中，它的分布和在细胞内的定位尚不可知。在含有N的烟草植株中，N蛋白被认为与TMV的某些成分直接或间接相互作用。TMV的这些成分目前尚不十分清楚，但人们相信其中包括复制酶(Padgett和Beachy，植物细胞5：577-586(1993))。根据对TMV的认识，N起始抗病反应，导致局部病灶的形成并诱导远端的系统获得抗性。

本发明被认为是第一个关于烟草N基因的克隆、测序和介导转基因烟草花叶病毒抗性的报道。

这里的“N基因蛋白”指在合成N基因蛋白的植物中具有介导TMV抗性功能的蛋白。N基因包括编码N基因蛋白的基因组序列，以及指导和调节N编码序列转录和翻译表达的基因组序列。N基因产物的一个实例的预测分子量约131KDa，其预测的氨基酸序列见SEQ ID NO：4和表7A。含有N基因产物编码序列的基因组DNA序列的一个实例见SEQ IDNO：1。全长cDNA序列(来自克隆C18)和截断的cDNA序列(来自C16克隆)见SEQ ID NO：3和SEQ ID NO：5。

遗传密码的简并性在本领域内是众所周知的，因此，运用本领域内的常规技术就可以很容易地确定具有一个或多个密码子替换的同义编码序列。与例子中编码序列不同的同义编码序列所编码的蛋白质的氨基酸序列与这里具体提供的相同。

SEQ ID NO：1，3和5是编码N基因蛋白的详细核苷酸序列，该N基因蛋白具有介导TMV抗性的功能。

含有全长N基因的cDNA序列见SEQ ID NO：3，该cDNA序列长3760bp。所得到的开放阅读框架(编码部分)从第60号碱基开始，终止于3494号碱基，编码一个1144个氨基酸的蛋白。被编码的蛋白将在表7A和实施例5中描述。

SEQ D NO：5是编码与表7A中截断的N基因蛋白所对应的蛋白的cDNA序列。该cDNA长3830bp，编码一个652个氨基酸的蛋白(见SEQ ID NO：6)。

含有全长N基因的基因组DNA序列见SEQ ID NO：1。该基因组DNA长7400bp，核苷酸序列分析发现有5个外显子组合成SEQ ID NO：3中的编码序列。被编码的N蛋白的序列见SEQ ID NO：2和SEQ ID NO：4。

对N蛋白的序列分析及其与其他蛋白序列的比较发现，它和某些与信号转导有关的蛋白有很高的序列相似性(亦见表7A和例5)。N基因蛋白包含3个功能性结构域：一个信号结构域，一个ATP/GTP结合位点(P-环)，和一个富含亮氨酸区域，这些结构域存在于与信号转导有关的蛋白质中。

N蛋白的富含亮氨酸区域(LRR)由13个重复区组成，大多数重复区都含有序列LXXLXXLXL(或一个相似序列)。除亮氨酸残基外，脯氨酸的存在是LRR的显著特征。我们所确定的LRR平均长度为约25个氨基酸。脯氨酸曾被任意地认为是每一个重复区的第一个氨基酸。表7表示N基因富含亮氨酸重复区(氨基酸(aa)590-928)的一级结构，以及其共同序列与LRR共同序列的比较，这些LRR来自酵母腺苷酸环化酶、果蝇属(Drosophila)Toll蛋白、人血小板膜糖蛋白Iba链、Htrk、果蝇chaoptin，拟南芥属(Arabidopsis)的类受体跨膜激酶(TMK1)和TMKL1。

LRR被认为介导许多蛋白的蛋白-蛋白相互作用。已用突变法或凭借突变表型的突变分离法确定了某些蛋白中LRR的重要性。在酵母腺苷酸环化酶中，突变如26个LRR中的一个缺失2个氨基酸，会导致丧失被Ras激活的能力(Suzuki等，(1990)美国国家科学院院刊87：8711-8715)。氨基酸替换如人血小板糖蛋白1b的α亚基6个LRR中的一个的A156→V；将导致出血紊乱(Ware等，(1993)临床研究杂志92：1213-1220)。

LRR被认为在控制特异性的蛋白-蛋白相互作用中非常重要。不受任何特定理论限制，N的LRR可与TMV的某一成分相互作用。既然LRR结构上的微小变化会导致蛋白功能上的剧烈变化，LRR可能介导TMV和N蛋白间的一种特异性相互作用。此外，氨基酸序列上的微小变化也能导致新的特异性，从进化角度看，这种新特异性将大大有利于植物对不断变化的病原体种群产生新的抗性。LRR的另一个可能作用是在识别TMV过程中与某一特定的影响因子如激酶或磷酸酶相互作用。

预测的氨基酸序列含有一个P-环特征序列(表7A)。序列GMGGVGKT(SEQ ID NO：4中的aa 216至223)符合在各种ATP或GTP结合蛋白中发现的P-环共同序列(A/G)XXXXGK(S/T)(表7A)。含有P-环的蛋白质家族包括腺苷酸激酶、蛋白质ras家族、延伸因子、ATP合成酶的b亚基、胸苷激酶和磷酸甘油激酶(Saraste，(1990)生物化学动态15：430-434)。看来N的P-环与结合GTP无关，因为没有结合GTP所需的共同序列DXXG和NXXD(Dever等，(1987)美国国家科学院院刊84：1814-1818)。

在腺苷激酶和F1-ATP酶中，除P-环外，另外两个“片段”看起来与结合ATP有关(Fry等，(1986)美国国家科学院院刊83：907-911)。考察N序列发现，其中存在这些片段且位于特定位置(表7A中下面划线的氨基酸)。片段2含有二肽(I，A，L，V)(V，I)，而N在228和229位上有序列AI。在P-环的第80-100号氨基酸中，片段3是一个甘氨酸(G)，后面连着5个疏水氨基酸和一个天冬氨酸(D)。N在296-302号氨基酸上有序列VLIVLDD，从氨基酸序列上不能推测出在什么条件下ATP被结合或水解。

N蛋白的氨基末端(8～150)与果蝇Toll蛋白和人白介素1受体(IL-1R)的胞质(信号)结构域相似。排列见表7B。框内的氨基酸表示该区的序列相同或保守替换。N序列中包含一些保守氨基酸，在Toll和IL1-R调节通路中这些氨基酸是信号从胞质传递到核内所必需的。(Schneider等，(1991)基因和发育5：797-807，Heguy等，(1992)生物化学杂志267：2605-2609)。

N蛋白氨基末端和果蝇Toll及人IL-1R的胞质结构域在序列上的相似性导致人们推测，在TMV感染过程中，N可能启动相似类型的胞间信号转导级联(图5)。各种试剂如病毒、细胞分裂素(IL-1，TNF)和促细胞分裂剂(佛波醇12-肉豆蔻酸13-乙酸酯，PMA)、外源凝集素和钙离子载体，它们与白介素1受体(IL-1R)的相互作用或Toll胞外结构域对未知信号的感知，将导致Rel相关转录因子NFKB和相关背蛋白的激活，并从胞质转移到核内。在哺乳动物的免疫、炎症和急性反应中，活性转录因子复合物NF-KB在结合到叫做KB结合位元的+体序列位元上后，诱导或抑制许多防御或信号蛋白的合成(综述见Baeuerle，(1991)生物化学与生物物理学报1072：63-80)。这些被诱导的蛋白通过将病原体存在的信号传给其他细胞而起始普遍的细胞防御机制(Baeuerle和Baltimore，(1988)科学242：540-546和Baeuerle，(1991)同上)。然而，在果蝇胚胎中，核内较高的浓度的背蛋白调节合子基因的转录，后者与决定胚胎的背腹极性有关(综述见Johnston和Nusslein-Volhard，细胞68：201-219(1992))。Toll天然隐性等位基因的信号(胞质)结构域的定点突变(Schneider等(1991)同上)和IL1-R的信号结构域的位点指导性定点突定(Heguy(1992)同上)导致不能将背蛋白或Nf-KB转移到核内。

近来报道了另一个含rel基因，叫做Dif(背蛋白相关的免疫)，它与果蝇免疫反应有关(Ip等，细胞75：753-763(1993))。与NFKB和背蛋白相同，Dif蛋白通常存在于幼虫脂肪体的胞质中；在受伤或感染时，它转移到核内并特异性地结合到各种抗微生物基因的启动子区的KB类位元上(Sun等，欧洲生物化学杂志，196：247-254(1991)；Engstrom等，分子生物学杂志232：327-333(1993)和Kappler等，EMBO J12：1561-1568(1993))。类似于上述免疫和发育反应，不受任何特定理论限制，TMV的产物(诱导因子)与胞质中N蛋白(受体)的LRR或其他区域结合，或通过其他未知蛋白，最终激活rel/KB类转录因子复合体，这是病原体相关(PR)基因的诱导所需要的。

本发明主要优点之一是能提供一种诱导烟草和相关植物如番茄和胡椒产生TMV抗性的方法。这成为优点是因为N介导的TMV抗性是高效的，而且尚未被普通TMV菌株所克服。

已克隆的天然抗病基因N优于目前已有的保护植物抗TMV的技术。从TMV包被蛋白(CP)或聚合酶基因中得到两个基因，这两个基因被广泛用于获得TMV抗性。目前的保护植物抗TMV的技术的缺点是，CP介导的抗性在一段时间后或接种病毒的水平较高时会失效，而聚合酶介导的抗性对聚合酶所来自的病毒菌株是非常特异的。获得性抗病毒基因所要考虑的另一个主要方面是，病毒超菌株有通过天然菌株和转基因株之间的重组的危险和可能。用转化法将克隆的植物抗病毒基因导入商品化的栽培品种中可避免上述缺点。除一种菌株外，烟草N基因能抗TMV所有已知的菌株。

已克隆的天然植物抗病毒基因也能用于基础研究，研究抗病基因-病原体识别机制和诱导防御反应信号的传导，以确定该基因中关键的功能结构域，并促进具有广谱抗性的抗病基因的设计。这是关于植物抗病基因的首次描述，该基因编码的蛋白的序列据测含有一个公认的ATP/GTP结合位点位元(P-环)，以及一个富含亮氨酸区和信号结构域。

N基因的克隆是用转座子示踪技术，在烟草中利用玉米Ac转座子完成的。用正选择法分离Ac诱导的突变体，该突变体不能对TMV产生HR(HR-突变体)。36个含有Ac的HR-突变体中的一个具有不稳定突变，该突变与一个单独的叫做Ac10的Ac转座子的存在相关。Ac10两侧的基因组DNA序列被用于在cDNA和基因组DNA文库中筛选含有全长N基因的cDNA和基因组DNA的克隆。从粘毛烟草基因组文库中分离到一个含有N基因的基因组克隆，用于转化植物使之获得TMV抗性。N基因被克隆到一个载体上，并用于TMV敏感型植物。被转化的植物表现出对TMV的抗性。

这里的核酸分子可以是DNA分子、RNA分子或DNA-RNA杂合分子，非天然存在的核酸分子是指自然界中不存在的核酸分子。非天然存在的核酸分子包括，例如分离纯化形式的DNA序列；具有异源区域的重组核酸分子，即DNA的一个可鉴别的片段，它不是自然界中共价连接到N基因编码序列上的；或者该非天然存在分子可能由化学合成的部分构建而成；其编码序列在自然界中不存在的一种构建体，例如cDNA，其基因组编码序列含有内含子；或含有不同于天然基因的密码子的合成序列。异源部分可用本领域的任何方法连接，例如体外连接法。或者，异源部分可用体内方法连接，如重组法，但由人手控制，其结果由人鉴定。

典型的DNA分子是粘毛烟草N基因cDNA，其核苷酸序列见SEQ IDNO：3和SEQ ID NO：5。含有全长粘毛烟草N基因的基因组核苷酸序列见SEQ ID NO：1。

本发明还包括含有N基因的核酸分子，该N基因与SEQ ID NO：1中1-7400号核苷酸至少有70％核苷酸同源性，其编码N基因蛋白的分子具有在合成N基因蛋白的植物中介导TMV抗性的功能。本发明还包括含有N基因编码序列的核酸分子，该编码序列与SEQ ID NO：3中60～3494号核苷酸至少有70％核苷酸序列同源性，其中被编码的N蛋白能在表达该蛋白的植物中介导TMV抗性。本发明中的同源序列可以用Southern杂交实验鉴定，在所用的条件下，与非特异性结合相反，杂交至少能得到约70％的同源性(对严格和非严格条件的讨论见实施例2)。同源性被定义为核苷酸能与所选区域中确定的长度配对。对杂交条件的描述参见Sambrook等，《分子克隆实验指南》，冷泉港实验室(1989)和Ausukel等，当代分子生物学实验方案，Lurrent Protocols(1989)，在此引入作为参考。

为了从其他茄科植物中鉴定N基因，如前所述从茄科植物中分离出了基因组DNA。分离到的DNA用一种或多种限制性酶切，克隆到λ或其他合适的载体上，电泳，然后印到尼龙膜例如Nytran上。该印迹所用的探针在本文中描述。在从这些DNA所得到的基因组文库中用上述探针筛选鉴定N基因。该基因活性的估价和确定，是在茄科植物中表达该基因，并估价转化后的植物对TMV的抗性，这将在下面详述。

从N基因序列得到的多核苷酸也能作为聚合酶链反应(PCR)的引物。烟草含有一个编码N蛋白的基因组区。N基因中的保守区对设计引物有用，以介导茄科植物中功能性N同源基因的恢复。此外，抗N蛋白结构域的抗体能用于筛选其他茄科植物的表达文库。

N基因蛋白的DNA编码序列也能从简并多核苷酸合成得到，该多核苷酸的序列中含有编码N基因蛋白氨基酸序列的密码子。这些多核苷酸可用标准方法制备、组装并用于分离需要的N基因。

烟草编码N基因蛋白的核酸分子是可以得到的，因此也可能从其他茄科植物中得到编码N基因蛋白的N基因序列或者功能性同源物。烟草基因组或cDNA序列或其部分作为多核苷酸探针被用于与附加的基因组或cDNA序列在标准条件下杂交。本发明包括如上所述的与N基因编码序列或其互补体特异性杂交的序列，以及编码N功能性同源基因蛋白的序列，该蛋白在茄科植物中介导TMV抗性。这些探针包括含有完整N基因的序列和含有一个多个以下结构的序列：5′和3′非翻译区；信号结构域(aa8～150)；富含亮氨酸重复区(aa591～929)。这些多核苷酸用标准方法制备并用本领域所熟知的程序组装。所用探针的长度必须足够与DNA的同源区杂交，该杂交与非特异性结合相反，至少能得到约70％同源性。能用作多核苷酸探针的DNA序列的实例见下面的实施例5。

特别举例说明的粘毛烟草N基因蛋白的特征在于SEQ ID NO：4中它的氨基酸序列，其相应的特别举例说明的编码序列见SEQ ID NO：3中的60～3494号核苷酸。

在生物学领域内，众所周知，可以在蛋白质序列中进行某些氨基酸替换而不影响该蛋白的功能。一般地，保守氨基酸替换或相似氨基酸替换不会影响蛋白质的功能。相似氨基酸可以是大小和/或电荷性质相似的氨基酸，例如天冬氨酸和谷氨酸、异亮氨酸和缬氨酸都是相似氨基酸对。氨基酸对间的相似性可用本领域内的许多方法来估价。例如，Dayhoff等(1978)蛋白质序列和结构图集，第5卷，增补本3，第22章，345～352页，在此引入作为参考，提供了氨基酸替换频率表，可作为衡量氨基酸相似性的尺度。Dayhoff的频率表基于对来自各种不同进化来源的具有相同功能的蛋白质的氨基酸序列的比较。

该蛋白的氨基酸序列可能与茄科植物中天然存在的氨基酸序列相同或不同。N基因蛋白的同一性可以用它在合成N基因蛋白的植物或植物细胞中介导TMV抗性的能力来确定。这种分析将在下面的实施例1中描述。简而言之，编码N基因蛋白的序列被转化到能从所述序列合成N基因蛋白的植物或植物细胞中，例如茄科植物。用TMV感染转化了的植物或植物细胞。观察植物过敏反应的存在。如果观察到抗性，则该蛋白能介导TMV抗性。此外，人工诱导的突变只要不破坏活性就能被诱导。“突变的N蛋白”指具有该活性的蛋白，但它是从编码N蛋白的DNA的突变得到的。“从突变中得到”既指用例如位点特异性突变法，从编码起始材料的N基因蛋白的DNA直接衍生，也指用合成DNA的方法间接衍生，该DNA有一个与N基因序列相关但有细微差别的序列。由于已有了构建所需长度的多核苷酸的方法，这些DNA可以完全或部分由组成它们的单核苷酸构建。

如上所讨论的，烟草编码N基因蛋白的序列是可以得到的，因此也可能从其他茄科植物中得到N基因的功能性同源物，即，具有编码“类N”蛋白部分的基因被解释为能介导对植物病毒性病原体如TMV的抗性的多肽。这些类N基因的鉴定和分离，可以利用它们的DNA序列与本文所提供的烟草N编码序列的相似性(同源性)。用杂交法可在cDNA和/或基因组文库中筛选高度同源的序列。然后对这些序列测序以确认存在完整的开放阅读形式，并克隆到植物载体中使其在植物中表达，并使植物组织可以被转化。转基因植物能用本领域所熟知的技术制备，这些转基因植物能被检测，以确认由于导入了类N蛋白编码序列而获得了对病原体的抗性。类N基因包括胡椒的L基因，番茄的Tm2和Tm2a基因，以及野生烟草(N.sylvestris)的N′基因。

本发明的另一方面是用遗传工程法生产的重组核酸分子，即非天然存在的核酸分子，优选的DNA含有一个编码N基因蛋白部分或功能性N基因同源物，该同源物能在合成N基因或其功能性类似物的植物中介导TMV抗性。重组DNA分子指含有至少两个DNA序列的杂合DNA序列，天然状态下第一个序列不能与第二个序列正常地组合在一起。这种分子可以利用遗传物质，用限制性酶、连接酶和类似的重组技术来获得，对这些技术的描述参见例如Sambrook等，同上，Ausubel等，同上，和《DNA克隆：实验方法》，第I、II卷(D.N.Glover编)IRL出版社，牛津，1985。实例包括重组载体，例如含有编码N基因蛋白的DNA序列的克隆或表达载体，该序列取向为5′至3′(有义)或3′至5′(反义)。下面的实施例7描述了N基因重组的DNA分子的制备。本申请中的“重组的”不是天然存在的遗传重组。

遗传工程法生产指其结果由人工控制。用遗传工程法生产的含有某特定DNA分子的植物，是指用任何本领域所熟知的方法导入了该DNA的植物，这些方法包括但不限于土壤杆菌介导的转化、电融合、颗粒轰击等。用遗传工程法生产的核酸分子，例如遗传学法生产的DNA分子，是指分子生物学方法的产物，包括但不限于DNA连接、体外突变等。

本发明的该DNA序列可用于制备重组DNA表达分子，通过将该序列克隆到任何合适的表达载体上，该载体能将外源基因导入到异源宿主如细菌、酵母、病毒或其宿主生物或植物中去。构建重组载体，使载体中编码序列与合适的调控序列共存并可操纵地结合，即N基因编码序列和调控序列的定位和取向是这样的：让编码区在调控序列的控制下转录(即用在调控序列中附属于该DNA分子的RNA聚合酶)。调控序列可以在插入到载体之前被连接到编码序列上。另一方面，编码序列可被直接克隆到表达载体中，该载体已含有调控序列，且其下游有一个合适的限制性酶切位点。应选择含有一个启动子的载体，该启动子能在该载体所插入的宿主细胞中操作(即该启动子应能被宿主细胞的RNA聚合酶识别)。此外，载体应含有编码核糖体结合部位的区域，该区位于启动子和DNA序列插入位点之间，以便一插入就与N基因编码序列可操纵地结合。应选择能提供编码核糖体结合部位的区域的载体，该部位能被该载体所插入的宿主细胞中的核糖体所识别。

重组DNA表达分子被插入到宿主细胞中以表达N基因蛋白，该分子含有以5′至3′方向编码N基因蛋白的序列。本领域内有许多可生产蛋白的表达系统和宿主。典型的原核宿主是大肠杆菌(Escherichia coli)。已建立了大量在真核宿主中表达的重组系统，真核宿主包括酵母、昆虫细胞、哺乳动物细胞和植物细胞。这些系统具有优良特性，并需要连接编码序列，使其处于合适的转录起始系统(启动子)(如需要还有终止序列和增强子)调控之下。为了生产N基因蛋白，让重组DNA表达分子转化了的宿主细胞生长，并从宿主细胞中分离出该蛋白。合适的生长条件和恢复方法的选择是本领域已知的技术。

下面举例说明N基因蛋白在大肠杆菌中的表达。N基因DNA编码序列被插入到表达载体例如pRSET(Invitrogen公司，CA)或pET(Novagen，WI)上。N基因蛋白编码序列就会在T7噬菌体强转录和翻译信号的调控下表达。

与本发明中的N基因相联系的特别有用的是能在植物中操作的表达系统。适合植物的表达系统能包含N基因蛋白的编码序列和具有mRNA反转录本的DNA，该mRNA将被翻译成N基因蛋白。为了在植物中表达，重组表达盒(cassette)除N基因编码序列外，还将含有一个植物启动子区(如果缺少该序列)、一个转录起始位点(如果缺少被转录的编码序列)，和一个转录终止序列。该终止区可以从与启动子序列相同的基因中获得，或者从不同基因中获得。为了方便地插入到原先已有的载体中，该盒的5′和3′端常含有单限制性酶切位点。植物表达系统可以是在组织特异性启动子控制之下的系统，就象那些含有能在所有组织中的操作的启动子的系统一样。

转录起始区，举例来说，包括各种碱类起始区，例如章鱼碱、甘露糖碱、诺卜碱等等。也可用植物病毒启动子，例如花椰菜花叶病毒(CaMV)35S启动子。此外，也可用植物启动子如1，3-二磷酸核酮糖羧化酶、果实特异性启动子、热休克启动子、种子特异性启动子等。应特别选择能引起足量表达的启动子，以生产有效数量的N基因蛋白，使植物细胞及其再生植物能抵抗TMV感染。CaMV 35S启动子整合到转基因植物的基因组中后，能在许多植物器官中、在发育的不同时期表现出高活性。组织特异性启动子也是人们熟知的。

在指导N基因TMV抗性的表达的分子中，转录终止信号被优选地可操纵地连到N基因蛋白编码区的下游。终止信号可以是正常存在于N基因中的，或者一个或多个异源转录终止信号被连在N编码区的下游。本领域内有许多众所周知的转录终止信号，例如根癌土壤杆菌(Agrobacterium tumefaciens)T-DNA基因，包括但不限于nos。

所得到的表达系统或盒被连接到重组载体上，或被构建到重组载体中，该载体是适合植物转化的。典型的载体含有一个选择标记基因，以此在培养中鉴别转化了的植物细胞。通常，标记基因编码抗生素抗性。这些标记包括G418、潮霉素、卡那霉素和庆大霉素抗性。转化植物细胞后，含有载体的细胞将因为它们能在含有特定抗生素的培养基上生长而被鉴别出来。通常也包含细菌或病毒原点的复制序列，以使载体能在细菌或噬菌体宿主中克隆，优选地包含宿主范围广的原核生物原点的复制。还应包括细菌的选择标记，以便选择含有所需的构建的细菌细胞。合适的原核选择标记还包括抗生素抗性如抗卡那霉素或四环素。

N蛋白介导的TMV抗性已在转基因植物中得到验证，该植物中已导入了一个基因组N克隆，而该植物在遗传修饰之前是TMV敏感型的。编码N蛋白的cDNA克隆也能应用于赋予敏感型茄科植物以TMV抗性。该cDNA被克隆到植物细胞功能性启动子的下游且与之可操纵地连锁，并导入植物组织，然后用载体和本领域已有的技术再生转基因植物。病毒抗性的确定是通过接种病毒，如TMV来测验。使用cDNA能有效地将全长的(SEQ ID NO：3)和截断的(SEQ ID NO：5)cDNA在其每个序列与植物细胞功能性转录调控序列可操纵地连接后，导入植物细胞中。同样，TMV抗性通过TMV接种测验来确定。

正如本领域所知的，载体中也能含有编码附加功能的其它DNA序列。例如，在土壤杆菌转化的情况下，T-DNA序列也将被转移到植物染色体上。

获得合适的载体后，可制备含有所需的表达系统的转基因植物。N基因蛋白编码序列被插入到植物转化载体上，该载体应适合转化所需的植物特别是茄科植物，以赋予该植物TMV抗性。茄科除了烟草(烟草属，例如栽培烟草和粘毛烟草)，还有重要的粮食作物，包括番茄(Lycopersicon，例如L.Lycopersicum和L.esculentum)；胡椒(辣椒属，Capsicum)；马钤薯(Solanum tuberosum)；茄子(Solamummelongena)。

本领域内有多种技术可转化植物或植物细胞。在细菌感染介导的转化中，用根癌土壤杆菌或发根病土壤杆菌感染植物细胞，这些土壤杆菌事先被转化了所要导入的DNA。土壤杆菌是革兰氏阴性根瘤菌中的一个代表属。用根癌土壤杆菌的Ti质粒或发根病土壤杆菌的Ri质粒，可将异源遗传序列导入合适的植物细胞中。Ti或Ri质粒通过土壤杆菌转移到植物感染细胞中，并稳定地整合到植物基因组中(J.Schell，科学237：1176-1183(1987))。Ti和Ri质粒含有两个产生转化细胞所必需的区域。

一般来说，构建重组Ti和Ri质粒，典型的是利用更普通的细菌载体，如pUC19。目前使用的是两类重组Ti和Ri质粒载体。在一类名叫“共整合”的载体中，含有目的基因的穿梭载体通过遗传重组被插入到非致癌Ti质粒中，Ti质粒含有植物转化所需的顺式和反式作用元件，例如DeBlick等，EMBO J3：1681-1689(1984)所描述的穿梭载体PMLJ1 和Zambryski等，EMBO J2：2143-2150(1983)所描述的非致癌Ti质粒pGV3850。在第二类或“双体”系统中，目的基因被插入到一个含有植物转化所需的顺式作用元件的穿梭载体中。其他必需的功能由非致癌Ti质粒的反式作用元件提供，例见Bevan，核酸研究12：8711-8721(1984)中描述的穿梭载体pBIN19和Hoekema等，自然303：179-180(1983)中描述的非致癌Ti质粒pAL4404。这些载体中的一部分已能买到。

用土壤杆菌转化植物细胞有两种普通方法：将土壤杆菌与分离培养的原生质体共培养，和用土壤杆菌转化完整的细胞或组织。前者需要建立一个培养系统，该系统能培养原生质体和从培养的原生质再生植物。后者需要(a)完整的植物组织如子叶能被土壤杆菌转化和(b)被转化的细胞或组织能被诱导再生出整株植物。就象所有双子叶植物都是土壤杆菌的天然宿主植物一样，大多数双子叶植物在体外能被土壤杆菌转化。

克隆和转化的另一种方法包括将N基因编码序列克隆到T-DNA载体pMD1的CaMV35S启动子和NOS终止区之间。含有胚的Ac切除作用的植物的转化可按Horsch等，科学227：1229-1231(1985)的与经修改(Hehl，普通分子遗传学217：53-59(1989)后的方法。该方法的详细描述见下面的实施例1。

根癌土壤杆菌介导的转化因其对茄科植物高效而闻名，且特别有用。

也可用其它转化方法，如电融合、显微注射或颗粒枪(particle gun)技术、脂质体和能提高游离DNA吸收的化学制剂。鉴定转化了的细胞或植物通常用在转化载体中包含一个选择标记的方法，或用得到细菌感染成功的证据的方法。被转化的植物细胞也能用已知的技术再生。

对茄科植物再生的详细描述见Horsch等，1985，同上。从培养的原生质体再生植物的描述见Evans等，《植物细胞培养手册》卷1：(麦克米伦出版公司，纽约，1993)；和Vasil I.R.(编)《植物细胞培养和体细胞遗传学》，学术出版社，Orlando，卷I，1984，和卷II，1986。正如人们所知，实际上所有植物都能从培养的细胞或组织再生。

再生的方法因植物种类的不同而不同，但一般首先要得到转化了的原生质体的悬浊液或含有转化了的外植体的培养皿。形成愈伤组织后，从愈伤组织诱导出芽，然后是根。另外，愈伤组织能诱导形成胚体。这些胚体象天然胚一样繁殖形成植株。培养基一般含有各种氨基酸和植物激素，如植物生长素和细胞分裂素。有效的再生依赖于培养基、基因型和培养的历史。如果这三个变化的因素得到控制，那么再生通常是能繁殖和重复的。再生植株被转移到标准的土壤条件并按常规方式栽培。

表达盒被稳定地整合到再生的转基因植物中后，它能通过有性杂交被转移到其他植物中去。可使用多种标准的培养技术中的任何技术，这依赖于杂交植物的种类。然后植物长成并用常规方法收获。

实施例

以下各实施例仅仅为了进一步举例说明本发明，而非限制其范围。这些实施例使用了许多众所周知的技术，对那些在分子生物学领域中具备了熟练实验技能的人以及对那些掌握了植物组织DNA重组技术和转基因植物的培养和再生操作技术的人都可应运自如。所需的酶可从市场购买到并且应当按照销售商的建议或本领域所知的其它变化加以使用。所需试剂，缓冲剂及培养条件也是本领域所知的。下面所列参考文献可以提供标准的分子生物学实验方法，它们包括：Sambrook等(1989)的《分子克隆》第二版，冷泉港实验室，Plainview，NY；R.Wu(1993)的《酶学方法》，第218页；Wu等的《酶学方法》，第100，101页；Glover(1985)的《DNA克隆》，第I、II卷IRL出版，Oxford，UK；Hames和Higgins等(1985)的《(核酸杂交》IRL出版，Oxford，UK；有关植物组织转化和操纵方面的参考文献包括。Kung和Arntzen编(1989)的《植物生物技术》Butterworths，Stoneham；MA；R.A.Dixon编(1985)的《植物细胞培养：实践方法》(Plant Cell Culture：A PracticalApproach)，IRL，Oxford，UK；Schuler和Zielinski(1989)的《植物分子生物学方法》学术出版社，San Diego，CA；Weissbach和Weissbach编(1988)；学术出版社，San Diego，CA；I.Potrykus(1991)植物生理学和植物分子生物学年鉴42：205；Weising等(1988)遗传学年鉴22：421；Van Wordragen等(1992)植物分子生物学公报19：12；Davey等(1989)植物分子生物学13：273；Walden和Schell(1990)欧洲生物化学杂志192：563；Joersbo和Brunstedt(1991)植物生理学81：256，在这些参考资料后所附的参考文献也应包括在内。实施例中所用的缩写和命名系统是本领域中的标准用法并且常见于上述专业杂志中。本申请所引用的所有参考文献在此引入作为参考。

实施例1

本实施例描述了对一个不稳定HR-突变体的分离。简而言之，即用玉米Ac转座子通过示踪技术分离出基因座N的突变体。然后，对不能产生TMV依赖性的HR突变体，应用正筛选的方法将其分离出来，这种方法是将携带N基因的经TMV感染过植株挑选出来，这类植株已失去了产生TMV依赖性的HR的能力。这样就确定出那些已发生了HR-突变的纯合植株以及具有不稳定HR-突变的品系。

将TMV的U1型菌株(M.Zaitlin赠)置于TMV敏感性(nn)烟草栽培品种(CV.)Petite Havana SR1(又叫SR1烟草)中进行繁殖。TMV的接种除为了突变体筛选之外，其它均可如下法进行：接种物的制备是将浸软的经TMV感染过的SR1烟草叶的汁液用无菌水稀释～10倍。然后，以海绵吸取此液擦洗正处于六叶生长期的上述烟草植株的叶片上表面。48小时后记录植株局部侵蚀斑，随后每隔一周记录整株感染(即花叶病)和/或坏死区的迹象。

为了分离携带活跃的Ac转座子的转基因烟草，在Horseh等人(科学227：1229-1231(1985)的方法基础之上采用了一种改进的方法(Hehl和Baker，普通分子遗传学217：55-59(1989))，即借助pGV3850 HPT：：pKU3(Baker等，The EMBO Journal 6：1547-1554(1987)载体，对抗TMV烟草品种Samsun NN进行转化。pGV3850HPT：：pKU3转化载体携带了已插入Ac转座子的新霉素磷酸转移酶II(NPTII)。将pGV3850HPT：：pKU3转入烟草后，Ac转座子从缺陷性NPTII基因处切入，引起NPTII的表达以及转化体在含卡那霉素培养基上的生长。

简而言之，用MS培养基中无菌生长了6-8周的抗TMV烟草品种Samsun NN的胚芽制备叶片。然后，将此叶片孵育2～4天，条件是需含pGV3850HPT：：pKU3载体或控制Ti质粒的根癌土壤杆菌的存在。接着，以含3％蔗糖和500mg/l头孢噻肟(Calbiochem；La Jolla，CA)的MS培养基清洗叶片，之后将叶片置于含3％蔗糖，0.5mg/l BAP(6-苄基氨基嘌呤)，0.1mg/l NAA(萘乙酸)，500mg/l头孢噻肟和200mg/l卡那霉素或20mg/l潮霉素的MS培养基。2～3周后，长出的芽被移入相似的培养基只是将其中的BAP改为2mg/l。1～2周后，再次将芽移入不含生根激素的相同培养基中。10～15天之后，将植株移入土壤中栽培。为了挑选出含Ac转座子成份的转基因组织，将转基因愈伤组织移入100mg/l的卡那霉素中进行再生(Baker等1987，同上)，基因组DNA从KnR初级转基因中的分离称为T0代。

就对100mg/l卡那霉素的抗性及Southern杂交确定的Ac拷贝数的增加这两方面而言，Ac转座子在TO-3品系的植株中表现得异常活跃。将TO-3与Samsun NN杂交，产生了三种T1子代，T1-9，10，13，并确定其含转座子Ac，将它们与TMV敏感性(nn)烟草品种PetiteHavana SR1(SR1)杂交产生三种F1 Nn：：Ac种群，可用于筛选依赖TMV的敏感性反应的丢失。为了确定N的内源性不稳定性，仍将SamsunNN与SR1杂交，产生不含Ac转座子的Nn种群。在所有杂交中，SR1均作为花粉供体。

为了分离HR-突变体，以～2000粒种子/平皿的比率撒播约64000粒Nn：：Ac的种子和29000粒Nn的种子，密度为～3棵幼苗/cm2。之后，将八周龄的幼苗置于TMV和Celite硅藻土(Fisher，Pittsburgh，PA)的悬浮液中；30℃下，用画家的气刷(Paasche VL)进行孵育(R.W.Fulton，烟草：实验应用方法，P79-80(1979))。TMV的浓度应满足：在培植密度为～3/cm2，温度恒为24℃时，Samsun NN幼苗上出现明显的局部侵蚀斑，密度为1.0/cm²。根据Lane的方法(酶学方法118：687-691(1986))，TMV可从受其感染过的SR1叶片中分离出来。接种后(dpi)三天将幼苗从30℃条件下移入21℃的条件下培育。记录幼苗的存活率。然后，开始进行第二轮TMV接种及温度替换的三个循环，以保证100％接种率。

表1 HR-突变体的分离

交叉筛选的植株 HR-突变体频率^aSamsun NN×nn 29000 11 3.8×10^-4T1-9^b、10^b、13^b×nn 64000 36 5.6×10^-4总计 93000 47 5.0×10^-4

a.表中频率由HR-突变体一栏中的数值除以F1代筛选的植株总数得到。

b.携带活跃的Ac转座子的Samsun NN植株

将两种植物致病菌，丁香假单胞菌番茄致病株(P.S.t.)的菌株DC3000和丁香假单胞菌菜豆致病株(P.S.P.)的菌株NP 53121以及非致病菌P.S.t.的菌株DC3000 hrps：：Tn5(B.Staskawicz赠)以双蒸水制成浓度为每毫升1×10⁸个细胞的悬浮液。然后，用一支10ml注射器和20号针头(Z.klement，植物细菌学方法(ED.klement等编)AkdemiaeKiaclo，布达佩斯，匈牙利，101-102(1990))。将每种菌液或水对照注入单个叶片的背面的四位点之一。所用三种植株来自以下三个基因型：9HR-突变体的Nt-1G/g自交后代，两种TMV敏感性的品种(SR1和Xanthi)以及两种TMV抗性(Samsun NN和Xanthinc)烟草栽培品种。接种后48小时，记录叶片对四种不同处理的反应情况。

正筛选方案可从大量Nn幼苗种群中筛选出那些不产生TMV依赖性的HR的突变体。筛选方案的实施利用了被感染过TMV的在温度保持28℃条件下的N基因携带植株的HR的表达的抑制。当温度达到28℃以上时，携带功能性N基因的植株不会形成局部侵蚀斑；TMV会在整个植株中扩散。HR表达的抑制性是可逆的，当温度低于所允许的24℃时，经TMV感染的N基因携带植株就会发生致死性整株坏死(整株性HR)，这就是正突变体筛选，因为只有那些失去了产生TMV依赖性HR的能力的植株(即HR-突变体)才有希望存活下来。

有47株HR-突变体是以此法从杂合的(Nn)F1幼苗中分离出来的。这些幼苗都是Samsun NN或3个NN：Ac母体与SR1烟草之间进行了四种自由组合杂交生成的。经TMV感染的HR-植株来自总共93,000棵F1的幼苗。47株突变体中有11株是从Samsun NN对照杂交产生的29,000株幼苗中分离得到的，另外36株则由3种NN：：Ac与nn杂交生成(见表1)的64,000幼苗中分离得到。TMV抗性的缺失频率在Samsun NN和NN：：Ac的子代Nn中都是较接近的，分别为3.8×10^-4和5.6×10^-4。携带Ac和不带Ac这两种Nn种群获得HR突变体的能力相近，这表明N基因的内源性突变率是很高的。

为了确定HR-突变体在产生HR的普遍能力方面是否有缺陷，将两种已知可引起烟草产生HR的细菌病原体接种到9株突变体的子代中，其中包括C2-2。丁香假单胞菌番茄致病株(P.S.t.)的菌株DC3000和丁香假单胞菌菜豆致病株(P.S.p.)的菌株NP 53121在9株突变体中均引起HR，而非致病菌P.S.t.的菌株DC 3000hrps：：Tn5以及水对照组则未发生HR。这些结果表明HR-突变体并不缺乏对细菌病原体产生HR的能力，也表明HR表型对TMV的抗性反应有可能是特异性的。

为了确定HR-突变体的纯合植株，从分子水平检测15株突变体的自杂交子代。将DNA从每株突变体的自交子代27-64中分离出来，以EcoRI进行水解，并与N-连锁的Nt-1RFLP探针进行杂交(Hehl和Baker，植物细胞27：709-721(1990))。Nt-1可鉴别出RFLP，Nt-1G，其内含于TMV抗性的烟草品种Samsun NN(来自粘毛烟草)中，Nt-1G代替了其在Samsun NN中的同系物Nt-1T，并且与N座位的图距为≤0.25cM。可以认为表2中所示的突变体系对HR-突变是纯合的，因为它对紧密连锁的Nt-1G标记或对Nt-1G的缺失是纯合的。

Ac诱导的突变的特点常是不稳定的。HR-表型的稳定性在15株纯合突变体系的自交子代中进行了检测。对每种突变系的150株子代的95株进行TMV接种并记录其表型，其中突变体系D11-1的子代表现出HR-表型的高不稳定性。所记录的145株D11-1植株中，有20株是TMV抗性(TMV^R)，有68株是TMV敏感性(TMV^S)。有趣的是，另外57株则表现为在TMV敏感性背景(TMV^R/S表型(见表2))中呈现坏死区。类侵蚀斑突变体也会出现坏死区。类侵蚀斑突变体的菌斑通常是在诱发坏死反应的非生物或生物因素作用下自发表达出来的。(V.Walbot等，植物的基因工程P431-442(1983))。在D11-1以及本研究中用到的其它种群的子代中观察到的坏死区与类侵蚀斑表型有明显差异；因为前者依赖于TMV感染的。在这一种群中对TMV^R和TMV^R/S各体的鉴定表明HR-突变是不稳定的，在其余14个突变体系(表2)的子代中没有观察到TMV^R和TMV^R/S表型。

表2 不稳定HR-突变体品系的鉴别

突变体表型^c

品系母本 TMV^R TMV^R/S TMV^S Total^d

D2-2 C3-2 0 0 144 144

D6-2 C3-6 0 0 126 126

D9-2 C1-1 0 0 125 125

D11-1 C2-2 20 57 68 145

D12-6 C2-3 0 0 134 134

D13-3 C2-5 0 0 149 149

D15-3 C2-7 0 0 133 133

D16-3 C2-9 0 0 134 134

D17-2 C2-10 0 0 143 143

D21-1 C2-16 0 0 95 95

D23-5 C2-19 0 0 148 148

D24-2 C2-20 0 0 111 111

D26-2 C2-21 0 0 144 144

D27-2 C2-22 0 0 150 150

D28-2 C2-23 0 0 150 150

Samsun NN na 150 0 0 150

SR1 na 0 0 150 150

na＝不适用

a.这些实验中所检测的品系是F1，N1和突变体的自交子代。这些植株对N-连锁的-Nt-1G RFLP是纯合的。

b.F1突变体的母本。C1-X来自T1-9×SR1，C3-X来自T1-10×SR1，C2-X来自T1-13×SR1

c.每种纯合突变品系的自交子代分别在50株幼苗的平板中生长。在大约6周龄时，用TMV的U1菌株对幼苗接种，48小时后记录表型，然后再每隔一周记录一次。Samsun NN和SR1分别用作TMV^R和TMV^S表型的对照。各表型按如下标记：TMV^R(TMV抗性)，TMV^S(TMV敏感性)和TMV^R/S(TMV依赖性的在TMV敏感性背景下的坏死区)。

d.每种品系中接过种的以及有表型记录的幼苗总数。

图1所示为接种TMV后的不稳定突变品系(D11-1子代)中观察到的三种不同表型。图1A所示叶片来自TMV抗性植株且表现出抗TMV(HR+)的野生型或回复型植株所持有的侵蚀菌斑。图1B所示叶片来自TMV敏感性植株并表现为浅绿和深绿色区域(即花叶病)。图1C所示叶片呈现TMV^R/S表型，其由坏死区域及花叶区域共同确定的。与TMV^R叶片不同之处在于TMV^R/S叶片的坏死区并不只局限于保守的侵蚀斑内。虽然此处所示TMV^R/S叶片呈现出的只是小范围坏死区但曾观察到有些植株中其坏死区已侵蚀半个叶片或整叶甚至扩散到茎部。对D11-1子代中TMV^R和TMV^R/S表型的观察表明在此类突变体系中发生的HR-突变是不稳定的。

实施例2

本例描述如何确定TMV^R/S表型是否是由两个Ac转座子引起的，这两个转座子是与N-连锁的RFLP标记Nt-1G共分离出的。

除非加以注解，对于DNA-DNA杂交，目标DNA都是用一种或更多种限制性核酸内切酶进行纯化及消化的。之后，将被消化的DNA通过琼脂糖凝胶电泳按分子量大小进行分离并印到Nytran膜上(Schleicher和Schuell，Keene，NH)。杂交探针的制备则用随机六基引物并以[32P]-deTP和Klenow聚合酶标记。严格杂交的标准条件是42℃，用50％甲酰胺，5×SSC，5×Denhardt溶液杂交，在65℃下用0.1×SSC，1％(w/v)十二烷磺酸钠(SDS)清洗。

非严格杂交的条件是35℃，用50％甲酰胺，5×SSC，5×Denhardt溶液杂交，在50℃下用0.1×SSC，1％SDS清洗。

为了分离N-连锁的Nt-1G RFLP，从SR1中含Ac转座子插入位点的DNA片段分离出来用作RFLP分析(Hehl和Baker，普通分子遗体学217：53-59(1989)，Hehl和Baker，植物细胞2：709-721(1990))。有一个DNA片段命名为Nt-1，用它检测TMV^S烟草品系SR1和TMV^R烟草品系Samsun NN之间的一个RFLP。图2A所示为一个1.2kb的Bg/II/Hind III的Nt-1片段与经EcoRI消化过的基因组DNA之间的杂化结果，其中基因组DNA来源于三个二倍体烟草品种：粘毛烟草(N基因的来源)，野烟草和茸毛烟草(图2A中带1，4和5)以及两个栽培烟草品系Samsun NN和SR1)图2A中带2和3)。Nt-1可检测出对每种二倍体烟草品种均有特异性的RFLP、13.1kb的DNA片段出现于Samsun NN；SR1和野烟草(图2A中带2，3和4)。15.5kb的DNA片段出现于茸毛烟草和SR1)图2A中带5和3)；14.3kb的DNA片段出现于粘毛烟草和Samsun NN中(图2A带1和2)。Samsun NN缺乏15.5kb的茸毛烟草RFLP(Nt-1T)但却携有一个与粘毛烟草中的14.3kb RFLP(Nt-1G)大小相同的RFLP。

Samsun NN和SR1烟草品种进行杂交得到的420株TMV^S F2子代中检测到3Nt-1G和N的连锁，杂交子代中具有TMV抗性和敏感性的植株的数量比为3∶1，对于Nt-1G和Nt-1T RFLP，比为1∶2∶1。将TMV敏感性F2子代植株的DNA以EcoRI消化并与Nt-1杂交。产生的TMV^S植株携有一个Nt-1G RFLP，表明Nt-1G是与N紧密连锁的，≤0.25cM。

两个Ac转座子与N连锁的RFLP，Nt-1G进行共分离，如果TMV^R/S表型依赖于N的可突变等位基因，则它就可能与连接N座位的分子标记进行共分离。在不稳定HR-突变体，C2-2SR1烟草的测试杂交子代中检测到了TMV^R/S表型是与N-连锁Nt-1G标记共分离的。对测试杂交子代(称作D111种群)进行TMV接种并记录其表型。所记录的264株D111植株中，有164株是TMV敏感性的(TMV^S)，另80株表现为TMV敏感性背景中的坏死。没有观察到野生型的抗TMV植株。对80株D111的DNA进行EcoRI消化并与Nt-1杂交。确定出植株的Nt-1基因型，其中39株是属于Nt-1G/T而另41株是Nt-1T/T(见表3)。具有TMV^R/S表型的26株植株带有Nt-1G标记，而Nt-1T/T植株则属于TMV^S型(见表3)。这些结果表明若按形成坏死区的能力下定义，则不稳定HR-突变体是与Nt-1G连锁的。

因为不稳定HR-突变体连锁于Nt-1G，所以对Ac转座子是能与D111种群中的Nt-1G RFLP标记共分离进行研究。往EcoRI消化的D111的DNA与来自Ac5′末端的探针杂交，发现两个Ac杂交带Ac8(8.0kbEcoRI Ac带)和Ac10(10.2kb EcoRI Ac带)是和Nt-1G共分离的，30株Nt-1G/T植株均同时带有Ac8和Ac10，5株有Ac^*，3株带有Ac10，1株不带任何成分(见表4)。Ac8和Ac10并未在41株Nt-1T/T植株中出现，表明这两个Ac转座子连锁于Nt-1G。

表3和表4中总结的Southern杂交数据对应的实例示于图2B和2C。图2B所示是Nt-1和经EcoRI消化的14株D111植株的DNA之间的杂交。此处所示的十株具有在14.3kb的Nt-1G RFLP和15.5kb的Nt-1T RFLP存在的条件下所显示的杂合的，Nn，Nt-1G/T基因型(泳道2，4-11和14)。这些植株中有6株为TMV^R/S表型；相应于泳道2，4，7，9，11和14，另4株则具有在15.5kb的Nt-1T RFLP存在而14.3kbNt-1G RFLP缺失的条件下所显示的纯合子，nn；Nt-1T/T基因型。(泳道1，3，12和13)。具有Nt-1T/T基因型的4株不具TMV^R/S表现型。因此这些DNA是与图2C所示的5′Ac探针杂交的。具有Nt-1G/T基因型的所有10株都携有8.0kb的Ac带(称Ac8)；其中7株(泳道2，4，7，8，9，11和14)携有10.2kb的Ac(称Ac10)。有Nt-1T/T基因型的植株则不含有8.0kb和10.2kb的Ac RFLPs，但它们确实携有其它Ac转座子。

表3 不稳定HR-表型与N-连锁RFLP

Nt-1G其分离

Nt-1 TMV表型^a

基因型^b TMV^R TMV^R/S TMV^S Total

Nt-1G/T 0 26 13 39

Nt-1T/T 0 0 41 41

a.不稳定HR-突变体，C2-2和SR1烟草(D111种群)杂交的80株以TMV接种并记录表2所述的表型，

b.从D111分离出DNA以EcoRI消化用作Nt-1的Southern分析，

表4 两个Ac转座子与Nt-1G共分离

Nt-1 共分离Ac带^a，b

基因型 Ac10/8 Ac10 Ac8 - Total

Nt-1G/T 30 3 5 1 39

Nt-1T/T 0 0 0 41 41

a.Nt-1杂交后，剥离含经EcoRI消化的D111的DNA的Southern吸收带，并与5′Ac探针杂交。

b.鉴别出与Nt-1G共分离的两条Ac带，但多数植株具有3～8个附加的Ac拷贝。

实施例3

本例描述的实验是为确定Ac8或Ac10是否为引起不稳定HR-突变的原因。

为了确定Ac8或Ac10是否能引起不稳定HR-突变，从HR-突变体C2-2的自交子代中鉴别出了一种胚芽回复体(D112-15)，D112-15是Nt-1G纯合的，并同时携有Ac8和Ac10。因为Ac8和Ac10同时存在，可认为属于N等位基因的那个转座子已在胚芽期回复为野生型，而另一个因仍含Ac转座子而有回复的潜能。为了检测Ac8或Ac10的切除是否可能与HR-突变的抗性和不稳定性有关，将D112-15与SR1杂交，得到的子代(E 501种群)有可能产生的性状分离是：TMV^R和TMV^S+TMV^R/S比为：～1∶1，且其携有Nt-1G/T基因型。Ac作为N的不稳定突变的原因有可能会在这一杂交的所有抗性后代中都不会出现，将95株E501以TMV接种并记录其表型。其中54株是TMV^R，另21株中观察到坏死区，还有20株是TMV^S(表2)。以EcoRI对这些植株中的DNA进行消化并用带5′Ac探针的Nt-1探测。结果发现所有95株都是Nt-1G/T基因型。更有意义的是，在54株具TMV抗性的个体植株中没有一株含10.2kb的EcoRI Ac带。但在其中的52株中有8kb带。具TMV抗性的E 501子代中Ac8的存在以及Ac10的缺失表明Ac10是引起不稳定HR-突变的原因而系附于N。

表5 Ac10与HR突变相关

TMV表型^a，b

N-连锁Ac TMV^R TMV^R/S TMV^S

Ac10 0 1 1

Ac10/Ac8 0 18 1

Ac8 52 1 18

- 2 1 0

a.将95株由TMV^R胚芽回复体；D112-15和SR1烟草(E 501种群)杂交得到的植株用TMV接种并观察其如表2所述的表现型。

b.用EcoRI是由E 501分离的DNA，用于Southern分析并与5′Ac探针杂交。

由于D111和E 501种群的Ac拷贝数较高，可能会遮蔽与Nt-1G共分离的其它Ac组分。现已分离出了一种只带有Ac10的TMV^S植株E501-70。为了确证仅是由Ac10引起不稳定的HR-突变，将这种植株的自交子代(F 501种群)用TMV感染后检查其表现型并分析Ac10和它们的Nt-1基因型的存在情况：在所有500株中发现7株是TMV^R。从分子水平分析表明，其中3株是Nt-1G杂合的，并且无Ac10杂交，而另4株则为Nt-1G/G且有Ac10带。对于D112-15植株，可以认为Nt-1G纯合子中Ac的杂交不仅由于回复体的存在而且由于这些植株中存在N的突变等位基因。

在E 501和F 501种群中，Ac10的存在和TMV^R/S表型是相关的具有TMV^R/S表型的21株E 501中有19株是Ac10杂交的，经分子水平上分析的12株F 501 TMV^R/S全部都有10.2kb带。这些结果表明，Ac10的存在对于植株形成坏死区以及保持从体细胞水平回复抗性的潜能都是必要的。

在D111和E501种群中，2.3kb EcoRI带与3′Ac探针杂交其行为与10.2kb 5′Ac带相同。假定Ac是4.6bp的，则可预测出现一种EcoRI野生型植株或7.9kb的切割片段。这一片段有可能是贮存在TMV^R回复体中。为了检测基因组的插入和切割片段是否存在，采用IPCR法从仅含有Ac8和Ac10(图2C带9)的D111-95植株中分离出了位于Ac10两侧的基因组序列(见下面实施例4)。

采用反向聚合酶链反应(IPCR)将Ac10两侧的基因组序列分离了出来。将仅含Ac8和Ac10的D111-95的模板DNA用HpaII消化。连接并用ClaI线性化。在热循环仪Pdrkin Elmer Thermocycle(Emeryville)(A)用Taq聚合酶进行PCR反应，体积为50ml。参数如下：94℃-1分钟，55℃-1分钟，72℃-2分钟，进行35个循环。用Ac的特异性引物CC28(5′-CACGGATCCATACGATAACGGTCGGTACGGGA-3′)和CC32(5′-CACGAATTCGGAAACGGAAACGGTAGAGC-3′)将一个含419个bp的产物(Ac10-1)，5′端到Ac10进行扩增。为了获得Ac10 3′的旁侧序列(Ac10-2)，将D111-95的DNA用EcoRI消化后与AccI连接和线性化。采用引物CC21(5′-CACCTGCAGAGATCTTTACCGACCGTTACCGACCG)和CC30(CACCTGCAGAGATCTGCAGGCTTATAATATAAGGC-3′)将一个含122个bp的产物进行扩增。然后将IPCR的各产物克隆到TA克隆载体(Invitrogen，San Diego，CA)。

从Ac的5′末端分离出了一个含400个bp的IPCR产物(Ac10-1)，将其克隆到TA克隆载体中并测序。为了生成不带Ac序列的Ac10-1探针以减少假Ac杂交的可能性，合成了一些PCR引物，用此Ac10-1探针探测烟草基因组DNA，发现了重复性序列。虽然在D11-1的DNA中观察到了与10.2kb Ac插入带的杂交，但由于探针的重复性，并未发现预期的7.9kb EcoRI切割带。从Ac10的3′末端获得的IPCR克隆的长度是118个bp，但作为探针似乎是不可靠的。

从cDNA的克隆C7的3′末端(从碱基5020到5370)获得了一个可靠的低拷贝数探针N-5。其与SEQ ID NO：1的碱基6587-6600，6934-6948和6977-7270相对应。采用限制性内切酶EcoRI；继续对E501和F501进行分子水平上的分析。用EcoRI对E501和F501种群的DNA进行消化并与Ac和N-5探针杂交。将Ac探针与相应于E501和F501种群的Ac10的10.2kb EorRI带进行杂交。Ac与从不稳定HR-突变品系每一世代中挑选出的个体植株的杂交示于图3C。在SR1，粘毛烟草或Samsun NN的对照DNA中并未观察到有Ac杂交。除至少有另两个Ac转座子外，原始HR-突变体C2-2还含有一条10.2kb带。胚芽回复体D112-15不仅含至少10个其它转座子，还含有一条10.2kb的Ac带。D112-15的TMV^S后代中仅含有一条10.2kb的Ac10带。E501-70，F501-65和F501-66的两个胚芽回复体的TMV^R子代不含10.2kb带。F501-65有一条新的Ac插入片段而F501-66则不再含Ac杂交。含坏死区的植株F501-2，3和4都含Ac10插入片段。F501-48和F501-64也是不再含Ac杂交的TMV^S植株的两个实例。虽然F501-48不再含Ac杂交但F501-64都含有一条新的插入片段。

假如Ac是4.6kb的，那么当N-5作为探针(见图3A)时，就可预测会出现一个7.9kb的野生型植株或切割片段。图3B所示为N-5探针的杂交实例。将N-5与粘毛烟草和Samsun NN中的一条7.9kb带杂交，HR-突变体可呈现与10.2kb Ac10插入带的杂交以及与7.9kb带的弱杂交。D112-15含有10.2kb带和7.9kb带。E501-70则含有10.2kb插入带与某种与7.9kb带的杂交。两个胚芽回复体F501-65和F501-66仅含7.9kb带。这些植株都属于Nt-1G/T所以它们只携有已回复的N的一个等位基因。其它回复体，例如D112-15，属于Nt-1G/G，既有插入片段也有切割片段。F501-2，3和4同时含有10.2kb和7.9kb的RFLPs。F501-48和F501-64则只含7.9kb的切割片段。

更有意义的是，D112-15中的54株TMV^R E501的子代也含7.9kbEcoRI切割带；正如7株TMV^R501一样。这些结果表明，抗性的回复需要基因组序列对野生型的恢复。同时也表明D112-15中N的一个突变体等位基因已在胚芽期得以回复，而且Ac10的切割正是使N基因功能得以恢复的原因。这些结果在对只携有Ac10的E01-70的子代分析中也得到了确证，其中所有7株TMV^R都含7.9kb切割带。属于Nt-1G/T型的植株不显示Ac10杂交，并携有7.9kb野生型大小的基因组片段。

TMV^R/S型植株中，除两株来自E501子代的，其它植株都同时含有10.2kb和7.9kb带。这些带在同一组织中同时存在表明含Ac10带和Ac10切割的细胞是存在的。每条带表明某一组织是TMV^S型或有回复的可能性。这将可以解释在这些研究中观察到的TMV^R/S表现型。

实施例4

本实施例描述基因组的插入片段和切割位点的序列分析。

含Ac切割位点的PCR产物已被直接测序。所有植株如表6所示。切割位点NG1-5(从碱基4477到4496，5′-GCCCTCGAGAAATCAAGAAAACAGAGGTC-3′)和N7-52(从碱基4838到4856 5′-GCACTCGAGCTTCAAGATTACTACATTG-3′)两侧的引物用于扩增一个含～319个bp的产物。PCR反应的进行与IPCR相似，只是参数不同：94℃-1分钟，55℃-2分钟，72℃-3分钟，进行25个循环。用含苯酚提取物的低熔点琼脂糖电泳的方法纯化PCR产物，用引物N7-52，采用fmol DNA测序系统(Promega，Madison，WI)；取每种产物大约500 fmol进行测序。

在21株TMVS的E501中有19株以及属于Nt-1G/T基因型的4株TMV^S F501都含切割带并且缺失Ac10(Ac10-1)。如果在烟草中保留了一个Ac成份，那么一旦有插入，就会在此Ac组分两侧出现8个碱基对的直接复制。这在Ac10-1和Ac10-2序列中都得到了证实。Ac-10的旁侧是一个含8个bp的重复序列5′-ATTGCCG-3′。通常，Ac切割是不精确的，会留有一个“足迹”。足迹能引起移码突变和/或氨基酸的插入或缺失，结果将抑制功能基因产物的生成。

表6野生型表现型

-CAT TTG CCG TCT- TMV^RAc插入

-CAT TTG CCG//Ac//AT TTG CCG TCT- TMV^SAc切割N^*足迹

F501-48 -CAT TTG CCC TTT GCC GTC -9 aa-^* TMV^S

F501-64 -CAT TTG CCT GCC GTC -9 aa-^* TMV^S

F501-2 -CAT TTG CTT TGC CGT -4 aa-^* TMV^S

F501-3 -CAT TTG CCA TTT TGC CGT -4 aa-^* TMV^S

F501-9 -CAT TTG CCC CGT -4 aa-^* TMV^S

F501-16 -CAT TTG CCC TTT GCC GTC -9 aa-^* TMV^S

F501-28 -CAT TTG CCC TTT GCC GTC -9 aa-^* TMV^SN回复体

D112-15 -CAT TTG CCG TCT- TMV^R

F501-34 -CAT TTG CCG TCT- TMV^R

F501-45 -CAT TTG CCG TCT- TMV^R

F501-65 -CAT TTG CCG TCT- TMV^R

F501-66 -CAT TTG CCG TCT- TMV^R

F501-67 -CAT TTG CCG TCT- TMV^R

F501-68 -CAT TTG CCG TCT- TMV^R

F501-69 -CAT TTG CCG TCT- TMV^R

表6所示是Ac10目标位点的序列分析。这一位点存在于N基因中和与某一特定基因型相关的抗性或敏感性(对TMV易感)的表型中。一旦插入Ac10，野生型N序列(来自核苷5034到5241，ATTTGCCG)的一个含8个bp的序列即被复制。表6中碱基三联体表示cDNA序列中的密码子，加下划线的序列表示其存留于Ac切割后的敏感性植株中。星号表示早熟终止密码子的发生，这一密码子出现于9或4个氨基酸下游。E501是胚芽回复体植株D112-15的回交子代，F501是植株E501-70的自交子代。表6中对TMV敏感和具有抗性的表现型分别以TMV^S和TMV^R表示。

Ac10为N基因作了标记。对7株Ac10(-)的TMV^S型的切割位点进行测序，与野生型切割位点(表6)比较，发现每个均有核苷酸的变化。这些核苷酸变化表明Ac10的不完善切割会产生诱发移码突变的足迹。预期的多肽是以足迹的9或4个氨基酸下游作为末端(表6)。

另外，对D112-15和来自F501这代的6株TMV^R的切割位点进行测序，发现有野生型序列(表6)。发现无碱基变化的回复体植株的能力表明这一区域对蛋白质的功能是非常重要的，并且不允许有氨基酸的替代、增加和缺失。但目前仍能鉴别出带有足迹的TMV^S型植株，这一足迹将允许合成一全长的但非功能性的蛋白质。上述结果表明Ac10是属于基因N的，同时表明对来自N基因的Ac10的精确切割是恢复HR+表型所必需的。

实施例5

从粘毛烟草cDNA库中分离N cDNA的步骤如下：32℃，以TMV感染8～12周龄的植株，接种后24小时将温度变为24℃，接种后48小时收集叶片进行多聚腺苷化(Poly(A)⁺)RNA分离。用λ-Zap cDNA合成试剂盒从5μg的(Poly(A)⁺)RNA中制备cDNA。(Stratagene，La.Jolla，CA)。然后，用Stratagene的Gigapack II Gold包装提取物包装好cDNA，并植入宿主菌株大肠杆菌XL-Blue mrf中。

用Ac10-1从经TMV感染过的粘毛烟草RNA构建的cDNA库中筛选1.0×10⁶个克隆。虽然已鉴别出有15个克隆与Ac10-1同源，但只有一个(C7)与Ac10-1有100％的序列同一性。C7在烟草中是单拷贝的，且与7.9kb EcoRI片段杂交，探针(N-5)就来自C73′末端的碱基5020到5370。然后，将1×10⁶个噬菌斑与N-5探针杂交。第二次筛选时，分离出了三个克隆(C16，C17和C18)，且它们都与Ac10-1有100％的序列同一性，并且确定了cDNA C7，C16和C18插入子的全长序列(见下)。

使用序列酶2.0版系统(美国生物化学公司，Cleveland，OH)通过双去氧链终止法对双链质粒DNA进行测序(Sanger等，美国国家科学院院刊74：5463-5467(1977))。同时为了对C7 cDNA进行测序，采用核酸外切酶III法制备了嵌套缺失(Henikoff，酶学方法155：156-165(1987))。用来自C7序列的引物对cDNA C16和C18进行测序。

采用GCG序列分析程序(Madison，Wisconsin)进行序列分析，从对C7，C16和C18 cDNA克隆的序列分析和G38λ克隆的部分测序(图4B)，获得了基因组N基因(见SEQ ID NO：1)编码的基因外显子图与内含子图。将C7和C18合并到一起可预测：五个基因外显子连接形成一个有3432碱基对的开放阅读框架，这3432个碱基对可编码一个含1144个氨基酸(N)的多肽。C18 cDNA序列存在于SEQ ID NO：3中，C16编码一个含652个氨基酸的多肽(Ntr)，因为有一段含70个碱基对的基因外显子被另外连接形成了一个含5956个bp的截断开放阅读框架(见图4A和SEQ ID NO：5)。这个外部基因外显子(EE)可能是以与纤维连接素EDA的基因外显子的相似的连接方式被连接的(M.Caputi，核酸研究22：1018-1022(1994))。70bp基因外显子的特征序列与EDA基因外显子中的序列有95％相似性，这个EDA的基因外显子可确定一个二分增强子，此增强子可调节这个81bp基因外显子的连接。

cDNA的3′末端长度不尽相同，这表明采用的是不同的多聚腺苷信号。这些cDNA克隆的3′非翻译区中发现有多种潜在的多聚腺苷信号，这可说明不同的处理结果。C7有最长的3′末端，并且包含了被截断的C16和C18的3′末端的序列。C7和C16在5′末端是相同的，同时发现C18序列完全包含于C16和C7中，因此其不是一个全长cDNA且有最短的3′末端。C7包含基因内含子2，并有可能是来自一个没有被全部连接的mRNA.C16和C18缺乏基因内含子2，在C18上附加一段C16或C17序列中的5′750bp可形成一个预期的含3432个bp的开放阅读框架，这3432个bp可编码一个含1144个氨基酸的多肽(见表7A)。G38λ克隆的部分测序表明产生三种分离的cDNA所必需的所有序列都是存在于基因组序列中的。因而这些cDNA是由一个单基因编码的。

所期望的蛋白质N和Ntr的预计分子量分别为131.4kd和75.3kd。表7A所示是推断的N基因产物的氨基酸序列(也见SEQ ID NO：4)。潜在信号(胞质)域加下划线表示。保留于ATP/GTP-结合位点特征序列(P-loop)中的氨基酸加下划线表示，富含亮氨酸的重复序列(LRR1到LRR13)的斜体字母表示。8个潜在的N-连锁糖基化位点出现于N的氨基酸序列中。这些位点在表7A中以黑体字母表示且有共有的氨基酸序列NX(S/T)。表7A-C中使用的缩写代表用一个字母表示的氨基酸代码：A，Ala；C，Cys；D，Asp；E，Glu：F，Phe；G，Gly；H，His；I，Ile；K，lys；L，Leu；M，Met；N，Asn；P，Pro；Q，Gln；R，Arg；S，Set；T，Thr；V，Val；W，Trp；和Y，Tyr。

采用ualom程序对蛋白质序列进行分析，表明在N中没有跨膜区的存在。进一步采用“信号酶”程序对蛋白质N进行序列分析，发现不存在信号序列。可见，根据序列分析，N是位于胞质中的。

采用BLAST程序(Altschul等，分子生物学杂志215：403-410(1990))对推断出的多肽的氨基酸序列与Genbank(release 82.0)进行比较。发现所期望的氨基酸序列与已知的参与信号转导的蛋白质的相比，有一定但是明显的相似性。

所期望的蛋白质N的氨基酸序列包含一个P-loop特征序列(见表7A)。序列GMGGVGKT(从aa 216到223)与在各种ATP或GTP-结合蛋白质(见表7A)中发现的P-loop共有序列(A/G)XXXXGK(S/T)相符合。含有P-loop的蛋白质家族包括腺苷激酶、蛋白质ras家族、延伸因子、ATP合成酶b-亚基、胸腺嘧啶激酶和磷酸甘油酸激酶(M.Saraste等，生物化学动态15：430-434(1990))。这一特定的P-loop非常有可能参与ATP的结合。除P-loop外，与GTP结合的共有序列DXXG和NXKD也不存在于aa序列中(Dever等，美国国家科学院院刊84：1814-1818(1987))。

除了P-loop外，Fry等(美国国家科学院院刊83：907-911(1986)还定义另两个“片段”它们似乎也参与了ATP在腺苷激酶和F1-ATP酶中的结合。对N序列的检测表明这些片段是存在的，并且处于适当的空间位置。片段2包含有二肽(I，A，L，V)(V，I)并且N分别在位置228和229含有序列AI(见表7A)。片段3位于P-loop中的80-100个氨基酸处，被定义为一个后面带了5个疏水氨基酸和一个天冬氨酸片段的甘氨酸(见表7A)。N在氨基酸296-302处含有一段序列VLIVLDD。仅从氨基酸序列，不可能预测出在什么条件下ATP可以被结合以及一旦结合，ATP的水解是否能自发进行或还需其它什么因素。

表7B所示的排列是有关氨基末端氨基酸(潜在信号域)(SEQ IDN0：4的8到150)与果蝇Toll蛋白质的胞质(信号)域(aa 804-9996，Yamagata等，基因139：223-228(1994))以及人体的介素1-受体蛋白质(H ILl-R，aa 317-524；Sims等，美国国家科学院院刊86：8946-8950(1989)之间的方框表示相似性区域。此处所用的保守替代为疏水氨基酸＝L/I/V/M/A/F；离子氨基酸＝K/R/D/E/Q/N/H；芳香氨基酸＝F/Y。

N序列包含了一些保守氨基酸，这些保守氨基酸是Toll信号从胞质到核的传递过程所必需的，同时也是IL1-R调节通路所必需的(Schneider等，基因和发育5：797-807(1991)；Heguy等，生物化学杂志，267：2605-2609(1992))。

由SEQ ID NO：4的590位到928位氨基酸推断出了一个富含亮氨酸区域的氨基酸序列，此亮氨酸富含区包含了长度大约为25个氨基酸的13个重复子。表7C所示为N基因亮氨酸富含区的重复子(LRR)(aa590-928)的一级结构以及它与以下几种物质的共有序列作出的比较，这些物质是：酵母腺苷酸环化酶的LRR共有序列AdCy，Katacka等，细胞43：493-505(1985))，果蝇Toll(Hashimoto等，细胞52：269-279(1988))，人体血小板膜的糖蛋白Iba链(H.Gplba，Titani等，美国国家科学院院刊84：5610-5614(1987))，果蝇Chaoptin(Reinke等，细胞52：291-301(1988))和类拟南芥受体跨膜激酶(TMK1，Chang等，植物细胞4：1263-1271(1992))，(TMKL1，Valon等，植物分子生物学23：415-421(1993))和RLK5(Walker，植物学杂志3：451-456(1993))。

在参与信号转导，细胞粘连和各种其它功能的多种蛋白质中发现它们都有富含亮氨酸的重复子(LRR)，并且认为它们介导了蛋白质与蛋白质的相互作用。来自结合LRR的共有序列与以下物质的共有序列有相似性，这些物质是酵母腺苷环化酶(Katacka(1985)同上，果蝇Toll(Hashimoto等(1988)同上)；人体血小板膜的糖蛋白Iba链(Titani等(1987)同上)，果蝇Chaoptin(Reinke等(1988)同上)和类Arabidopsis受体跨膜激酶(Chang等，(1992)同上，Valon等；(1993)同上和J.Walker，(1993)同上)(见表7C)。除酵母腺苷环化酶外，LRR域被认为是这些蛋白质中的胞外基质。

表A1 MASSSSSSRW SYDVFLSFRG EDTRKTFTSH LYEVLNDKGI KTFQDDKRLE YGATIPGELC61 KAIEESQFAI VVFSENYATS RWCLHELVKI MECKTRFKQT VIPIFYDVDP SHVRNQKESF121 AKAFEEHETK YKDDVEGIQR WRIALNEAAN LKGSCDNRDK TDADCIRQIV DQISSKLCKI181 SLSYLQNIVG IDTHLEKIES LLEIGIHGVR IMGIWGMGGV GKTTIARAIF DTLLGRMDSS241 YQFDGACFLK DIKENKRGMH SLQNALLSEL LREKANYNNE EDGKHQMASR LRSKKVLIVL301 DDIDNKDHYL EYLAGDLDWF GNGSRIIITT RDKHLIEGND IIYEVTALPD HESIQLFKQH361 AFGKEVPNEH FEKLSLEVVH YAKGLPLALK VWGSLLHHLR LTEWKSAIEH MKNISYSGII421 DKLKISYDGL EPKQQEMFLD IACFLRGEEK DYILQILESC HIGAEYGLRI LIDKSLVFIS481 EYNQVQMHDL IQDMGKYIVN FQKDPGERSR LWLAKEVEEV MSNNTGTMAM EAIWVSSYSS541 TLRFSNQAVK NMKRLRVFNM GRSSTHYAID YLPNHLRCV CTNYPWESFP STFELKMLVH601 LQLRHNSLRH LWTETKHLPS LRRIDLSWSK RLTRTPDFTG MPNLEYVNLY QCSNLEEVHH661 SLGCCSKVIG LYLNDCKSLK RFPCVNVESL EYLGLRSCDS LEKLPEIYGR MKPEIQIHMQ721 GSGIRELPSS IFQYKTHVTK LLLWNMKNLV ALPSSICRLK SLVSLSVSGC SKLESLPEEI781 GDLDNLRVED ASDTLILRPP SSIIRLNKLI ILMFRGFKDG VHFEFPPVAE GLHSLEYLNL841 SYCNLIDGGL PEEIGSLSSL KKLDLSRNNF EHLPSSIAQL GALQSLDLAD CQRLTQLPEL901 PPELNELHVD CHMALKFIHY LVTKRKKLHR VKLDDAHHDT MYNLFAYTMF QNISSMRHDI961 SASDSLSLTV FTGQPYPEKI PSWFHHQGWD SSVSVHLPEN WYIPDKFLGF AVCYSRSLID1021 TTAHLIPVCD DKMSRMTQKL ALSECDTESS NYSEWDIHFF FVPFAGLWDT SKANGKTPND1081 YGIIRLSFSG EEKMYGLRLL YKEGPEVNAL LQMRENSNEP TEHSTGIRRT QYNNRTSFYE1141 LING

表B

表C

590

P S T F E L K M L V H L Q L R H N S L R H L W T E T K H L

P S L R R I D L S W SKRLT R T P D F T G M

P H L E Y V N L Y Q CSNLE E V HHSLG C C S K V I G L Y L N D C K S L K R F

P C V N V E S L E Y L G L R S C D S L E K L

P E I Y G R M K P EIQIH M Q G S G I R E L

P S S I F Q Y K T H VTKLL L W N M K N L V A L

P S S I C R L K S L V S L S V S G C S K L E S L

P E E I G D L D N L R V F D A S D T L I L R P

P S S I I R L N K L I I L M F R G F K D G V H F E F P

P V A E G L H S L E Y L N L S Y C N L I D G G L

P E E I G S L S S L K K L D L S R N N F E H L

P S S I A Q L G A L Q S L D L K D C Q R L T Q L P E L

P P E L N E L H V D C H M A L K F I H Y L V T K R K K L

928N Gene P--α--L--L--L-L-----L--LAdCY P--α--L--L--L-L--N-L--LToll P--LF-H--NL--L-L--N-L--LH Gplba P-GLL--LP-LS-L-LS-N-LTTLH trk L--L-α--N-L--αchaoptin P---F--L--L--LDLS-N-L--IRLK5 P--L--L--L--L-L--N-LSG-ITMK1 L--L--L--L-L--N-α-G-αPTMKL1 --I-----L-SL-L--N-LSG-LP

实施例6

本实施例描述基因组N基因的序列的分离。

为了建立基因组文库，从粘毛烟草中制备的DNA被MboI部分消化后用凝胶电泳法将其按分子量大小进行分离。将大于12kb的DNA片段与经BamHI消化过的并去磷酸化的细菌噬菌体λGem-11(Promega)的臂相连接。再将连接物用Gigapack II Gold包装提取物(Stratagene，La.Jolla，CA)进行包装，并将1×10⁶个噬菌斑形成单元植入SURE大肠杆菌宿主菌株(购自GIBCO，BRL.，Gaithersburg，MD)中。

为了分离基因组N的基因序列，用探针N-5和N-9(C7的第695到1090位核苷酸)对经MboI部分消化的粘毛烟草DNA的细菌λ噬菌体的文库进行筛选。与N-5和N-9杂交的三个克隆得到了纯化。这些克隆(G25，G34和G38)通过EcoRI，BamHI和Xhol进行基因定位并以Southern分析(见图4B)进行特征化处理，结果是限制性的。同时确定了这三个克隆是重迭的且包含了整个基因组N的基因。G34比N基因的DNA上游多出1.4个kb，而G38则比基因在3′端长出5.4个kb。G25克隆序列被包含在G38克隆中。

实施例7

本实施例描述的是以基因组N基因克隆转化敏感性或突变体植株，这些植株对TMV具有抗性。

对SR1烟草品种和带有胚芽期Ac切割的TMV敏感性植株F501-48和F501-64用pTG34和pTG38进行转化，pTG34和pTG38的构建如下：将DNA克隆G34或G38重迭到与SalI线性化且经小牛肠碱性磷酸酶处理过的T-DNA载体，pOCA28(Olscewski等，核酸研究16：10765-10781(1988))中，从中分别亚克隆出一个12.0kb或10.6kb的Xhol片段。转化的完成与在pGV3850 HPT：：pKU3构建中所述相同(见实施例1)。

将G34和G38克隆选择出来用于基因组互补以便确定这个基因是否足以将TMV抗性传递到TMV敏感性烟草中。由于具有更多的伸展性5′末端，所以与G25相比，这两种克隆更有可能包含适宜的转基因表达所必需的顺式(cis)序列。1O.6kb的G38和12.0kb的G34 XhoI片段被亚克隆到T-DNA载体pOCA28中并通过土壤杆菌介导的转化被转入烟草中。

克隆pTG34和pTG38都将TMV抗性传递到了对TMV敏感的SR1烟草和突变体F501-48和F501-64中。图1D所示表明，用已被克隆化的粘毛烟草N基因DNA(pTG-38克隆)转化的TMV敏感性SR1植株对TMV有抗性。

序列表(1)一般资料：

(i)申请人：Baker，Barbara J

Whitham，Steven A

(ii)发明名称：植物抗性基因和方法

(iii)序列数：6

(iv)相关地址：

(A)地址：Stephan A.Pendorf，Dominik&Stein

(B)街道：3030 N.Rocky Point Dr.，W.，Suite 400

(C)城市：Tampa

(D)州：FL

(E)国家：USA

(F)邮编：33607-5904

(v)计算机可读形式：

(A)介质类型：软盘

(B)计算机：IBM PC兼容型

(C)操作系统：PC-DOS/MS-DOS

(D)软件：PatentIn Release#1.0，Version#1.25

(xi)当前申请数据：

(A)申请号：

(B)提交日期：1995年6月15日(国际)

(C)分类：

(viii)律师/代理人资料

(A)姓名：Stephan A.Pendorf

(B)注册号：32665

(C)参考/登记号：A700/80

(ix)通讯资料：

(A)电话：(813)289-2966

(B)电传：(813)289-2967(2)SEQ ID NO：1资料：(i)序列特征

(A)长度：7400个碱基对

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(ii)分子类型：DNA(基因组)(vi)来源：

(A)有机体：粘毛烟草

(F)组织类型：叶(ix)特征：

(A)名称/关键词：外显子

(B)定位：join(294..772，1003..2098，2941..3213，5032..6600，

6934..6951)(ix)特征：

(A)名称/关键词：内含子

(B)定位：773..1102(ix)特征：

(A)名称/关键词：内含子

(B)定位：2099..2940(iix)特征：

(A)名称/关键词：内含子

(B)定位：3214..5031(iix)特征：

(A)名称/关键词：内含子

(B)定位：6601..6933(iix)特征：

(A)名称/关键词：CDS

(B)定位：join(294..772，1003..2098，2941..3213，5032..6600，

6934..6951)(xi)序列描述：SEQ ID NO：1：TCAATCAATG GAAGGAATTC CTACTCCCTT CTATTAAAGT CAAAGAAAAC CCAATAATTC 60CTTTTATTGC ATTAAGAAGA ATTTTCCTAC TAGTGTATAT CAGTTGACTA GGACACCAAT 120AATTCTATGG AGTAGAGCCC ATCTCACACA AACTTTTTCC AATAGCAATA TAACTCTTAT 180CTCTTCTAAT ATATATAAAA ATTTGTTGAA AATACATCTA TTATTCTCTT ACCACAATCA 240CAATTTTTTC ACATACAGTT TCTTACTCTT TTCAGAGAAT TAACGTTGAG TCC.ATG 296

Met

1GCA TCT TCT TCT TCT TCT TCT AGA TGG AGC TAT GAT GTT TTC TTA AGT 344Ala Ser Ser Ser Ser Ser Ser Arg Trp Ser Tyr Asp Val Phe Leu Ser

5 10 15TTT AGA GGC GAA GAT ACT CGA AAA ACG TTT ACA AGT CAC TTA TAC GAA 392Phe Arg Gly Glu Asp Thr Arg Lys Thr Phe Thr Ser His Leu Tyr Glu

20 25 30GTC TTG AAT GAT AAG GGA ATA AAA ACC TTT CAA GAT GAT AAA AGG CTA 440Val Leu Asn Asp Lys Gly Ile Lys Thr Phe Gln Asp Asp Lys Arg Leu

35 40 45GAG TAC GGC GCA ACC ATC CCA GGT GAA CTC TGT AAA GCT ATA GAA GAG 488Glu Tyr Gly Ala Thr Ile Pro Gly Glu Leu Cys Lys Ala Ile Glu Glu50 55 60 65TCT CAA TTT GCC ATT GTT GTT TTC TCA GAG AAT TAT GCA ACA TCA AGG 536Ser Gln Phe Ala Ile Val Val Phe Ser Glu Asn Tyr Ala Thr Ser Arg

70 75 80TGG TGT TTG AAT GAA CTA GTG AAG ATC ATG GAA TGC AAA ACT CGA TTT 584Trp Cys Leu Asn Glu Leu Val Lys Ile Met Glu Cys Lys Thr Arg Phe

85 90 95AAG CAA ACT GTT ATA CCG ATA TTC TAT GAT GTG GAT CCA TCA CAT GTT 632Lys Gln Thr Val Ile Pro Ile Phe Tyr Asp Val Asp Pro Ser His Val

100 105 110CGG AAC CAA AAG GAG AGC TTT GCA AAA GCC TTT GAA GAA CAT GAA ACA 680Arg Asn Gln Lys Glu Ser Phe Ala Lys Ala Phe Glu Glu His Glu Thr

115 120 125AAG TAT AAG GAT GAT GTT GAG GGA ATA CAA AGA TGG AGG ATT GCT TTA 728Lys Tyr Lys Asp Asp Val Glu Gly Ile Gln Arg Trp Arg Ile Ala Leu130 135 140 145AAT GAA GCG GCC AAT CTC AAA GGC TCA TGT GAT AAT CGT GAC AA 772Asn Glu Ala Ala Asn Leu Lys Gly Ser Cys Asp Asn Arg Asp Lys

150 155 160GTGAGTTAAA AACATATAAG CTGAATACTT TGCATTCAAA TGAGTTAAAC ATAATCTTAA 832ATAAATTTTT CAATTTTTTG GAATAAATTG ATAGTTGATT ATATATGTTT CTATCAGTTA 892ATTACAAACT CAATAACATT ATTACGTAGA TAAAATTTTT ATTAGTTCTT CAAAGAGTTT 952GATTTATGTG CACACTCTTT GTATATATCA CAATCTTTTT ACTlTTGTAG G ACT GAT 1009

Thr AspGCA GAC TGT ATT CGA CAG ATT GTT GAC CAA ATC TCA TCC AAA TTA TGC 1057Ala Asp Cys Ile Arg Gln Ile Val Asp Gln Ile Ser Ser Lys Leu Cys

165 170 175AAG ATT TCT TTA TCT TAT TTG CAA AAC ATT GTT GGA ATA GAT ACT CAT 1105Lys Ile Ser Leu Ser Tyr Leu Gln Asn Ile Val Gly Ile Asp Thr His

180 185 190TTA GAG AAA ATA GAA TCC TTA CTA GAG ATA GGA ATC AAT GGT GTT CGG 1153Leu Glu Lys Ile Glu Ser Leu Leu Glu Ile Gly Ile Asn Gly Val Arg195 200 205 210ATT ATG GGG ATC TGG GGA ATG GGG GGA GTC GGT AAA ACA ACA ATA GCA 1201Ile Met Gly Ile Trp Gly Met Gly Gly Val Gly Lys Thr Thr Ile Ala

215 220 225AGA GCT ATA TTT GAT ACT CTT TTA GGA AGA ATG GAT AGT TCC TAT CAA 1249Arg Ala Ile Phe Asp Thr Leu Leu Gly Arg Met Asp Ser Ser Tyr Gln

230 235 240TTT GAT GGT GCT TGT TTC CTT AAG GAT ATT AAA GAA AAC AAA CGT GGA 1297Phe Asp Gly Ala Cys Phe Leu Lys Asp Ile Lys Glu Asn Lys Arg Gly

245 250 255ATG CAT TCT TTG CAA AAT GCC CTT CTC TCT GAA CTT TTA AGG GAA AAA 1345Met His Ser Leu Gln Asn Ala Leu Leu Ser Glu Leu Leu Arg Glu Lys

260 265 270GCT AAT TAC AAT AAT GAG GAG GAT GGA AAG CAC CAA ATG GCT AGT AGA 1393Ala Asn Tyr Asn Asn Glu Glu Asp Gly Lys His Gln Met Ala Ser Arg275 280 285 290CTT CGT TCG AAG AAG GTC CTA ATT GTG CTT GAT GAT ATA GAT AAT AAA 1441Leu Arg Ser Lys Lys Val Leu Ile Val Leu Asp Asp Ile Asp Asn Lys

295 300 305GAT CAT TAT TTG GAG TAT TTA GCA GGT GAT CTT GAT TGG TTT GGT AAT 1489Asp His Tyr Leu Glu Tyr Leu Ala Gly Asp Leu Asp Trp Phe Gly Asn

310 315 320GGT AGT AGA ATT ATT ATA ACA ACT AGA GAC AAG CAT TTG ATA GAG AAG 1537Gly Ser Arg Ile Ile Ile Thr Thr Arg Asp Lys His Leu Ile Glu Lys

325 330 335AAT GAT ATA ATA TAT GAG GTG ACT GCA CTA CCC GAT CAT GAA TCC ATT 1585Asn Asp Ile Ile Tyr Glu Val Thr Ala Leu Pro Asp His Glu Ser Ile

340 345 350CAA TTG TTC AAA CAA CAT GCT TTC GGA AAA GAA GTT CCA AAT GAG AAT 1633Gln Leu Phe Lys Gln His Ala Phe Gly Lys Glu Val Pro Asn Glu Asn355 360 365 370TTT GAG AAG CTT TCA TTA GAG GTA GTA AAT TAT GCT AAA GGC CTT CCT 1681Phe Glu Lys Leu Ser Leu Glu Val Val Asn Tyr Ala Lys Gly Leu Pro

375 380 385TTA GCC CTC AAA GTG TGG GGT TCT TTG CTG CAT AAC CTA CGA TTA ACT 1729Leu Ala Leu Lys Val Trp Gly Ser Leu Leu His Asn Leu Arg Leu Thr

390 395 400GAA TGG AAA AGT GCT ATA GAG CAC ATG AAA AAT AAC TCT TAT TCT GGA 1777Glu Trp Lys Ser Ala Ile Glu His Met Lys Asn Asn Ser Tyr Ser Gly

405 410 415ATT ATT GAT AAG CTC AAA ATA AGT TAT GAT GGA TTA GAG CCC AAA CAA 1825Ile Ile Asp Lys Leu Lys Ile Ser Tyr Asp Gly Leu Glu Pro Lys Gln

420 425 430CAA GAG ATG TTT TTA GAT ATA GCA TGC TTC TTG CGA GGG GAA GAA AAA 1873Gln Glu Met Phe Leu Asp Ile Ala Cys Phe Leu Arg Gly Glu Glu Lys435 440 445 450GAT TAC ATC CTA CAA ATC CTT GAG AGT TGT CAT ATT GGA GCT GAA TAC 1921Asp Tyr Ile Leu Gln Ile Leu Glu Ser Cys His Ile Gly Ala Glu Tyr

455 460 465GGG TTA CGT ATT TTA ATT GAC AAA TCT CTT GTG TTC ATC TCT GAA TAT 1969Gly Leu Arg Ile Leu Ile Asp Lys Ser Leu Val Phe Ile Ser Glu Tyr

470 475 480AAT CAG GTT CAA ATG CAT GAC TTA ATA CAG GAT ATG GGT AAA TAT ATA 2017Asn Gln Val Gln Met His Asp Leu Ile Gln Asp Met Gly Lys Tyr Ile

485 490 495GTG AAT TTT CAA AAA GAT CCC GGA GAA CGT AGC AGA TTA TGG CTC GCC 2065Val Asn Phe Gln Lys Asp Pro Gly Glu Arg Ser Arg Leu Trp Leu Ala

500 505 510AAG GAA GTC GAA GAA GTG ATG AGC AAC AAC ACA GTAAGTAAGC TAAATAATGC 2118Lys Glu Val Glu Glu Val Met Ser Asn Asn Thr515 520 525AATAATATTT AATTTCTAAT TTTATATTCT AAAGACACAT AGGGCAGTCA ATTCCAGTTA 2178TTTGTTCCTC TTGCTTCATA GTCTTGACGG TACATCATTT TAGTTGTTTA CTTTAGTTAG 2238TAGGAGATAT AAAAGTAATA TTAATTACCT CATTAGTAAA AAAAAACATT AATTGCCTAA 2298TTTGTTTAGT AGCCGCTTTA ATTTACGTTC CCTAATTCGT TTTTTCTTAT ATTTTTTAGG 2358GATGGATTAG TCTAGTAGCC ACTTAATCTG TTTGATCCAA TGTCTTTCTT TGGATTAACT 2418TGAAAATTTT ATGACATTAT ATATAATAAC TCAATCATTC ATTCACTTTA CCATTATTAT 2478TTTTTATATA AAGTTACAAT TTATTGGTAC TGTTTCAGTT ACAATTACTT TCCAACATGG 2538AAAACTTATA AACTGGACTC CAATAAACTT ATAAGAAAAA TGTAATAATA GAAAATAAAA 2598TTATATAATT AATTACAAAA AAGTATTTTT CTGAAGTAAC ATCAGTATTT CTTAAAAAGA 2658ATCCAATTAA CATTGTATCT TAAACTTTGG TATTGTAAGG CGTGAGAAAG TAGTGGCCTT 2718ATTTCAATTT GACGTGAAGA ATAGAATGCC TTTTAACGAC ATAAGGGAAG GGGGCAAGAA 2778TAAGTTTCTA TTCAGCCGGG CTCGAAGCAG AAGGTAGAAC GTAATATCTT TTGTTGGTTC 2838AGCTCATCAA GCTATTACAA AAGAGTCCGC TCATATTAAC AAACGGAGTT TATACGACAT 2898TTGAAATTAT ACTTTGTAGA CTAATGATCT TCTTGTTACC AG GGG ACC ATG GCA 2952

Gly Thr Met AlaATG GAA GCA ATT TGG GTT TCT TCT TAT TCT AGT ACT CTA CGC TTT AGC 3000Met Glu Ala Ile Trp Val Ser Ser Tyr Ser Ser Thr Leu Arg Phe Ser530 535 540 545AAT CAG GCC GTG AAA AAT ATG AAA AGG CTT AGG GTA TTT AAC ATG GGG 3048Asn Gln Ala Val Lys Asn Met Lys Arg Leu Arg Val Phe Asn Met Gly

550 555 560AGG TCG TCG ACA CAT TAT GCC ATC GAT TAT CTG CCC AAC AAC TTG CGT 3096Arg Ser Ser Thr His Tyr Ala Ile Asp Tyr Leu Pro Asn Asn Leu Arg

565 570 575TGT TTT GTT TGC ACT AAC TAT CCT TGG GAG TCA TTT CCA TCT ACA TTT 3144Cys Phe Val Cys Thr Asn Tyr Pro Trp Glu Ser Phe Pro Ser Thr Phe

580 585 590GAA CTC AAA ATG CTT GTT CAC CTC CAA CTC CGA CAC AAT TCT CTG CGT 3192Glu Leu Lys Met Leu Val His Leu Gln Leu Arg His Asn Ser Leu Arg

595 600 605CAT TTA TGG ACA GAA ACA AAG GTACAATAGC TTGAATTCTA TTTTGTTGTC 3243His Leu Trp Thr Glu Thr Lys610 615ATTTATTTTT CTCTCTAACT ATCTTTGTCC TTTAATTTGG TGATAATGAA CAAATATTAT 3303TGTTTTTTGT TATGAAACAA TAAAAGAAGA AGAACAATAT TGCAGAGAAA GAGGGAGATG 3363GAATTCTTAT TGAATTTTGG GGCGATTTAC AATGGGGTAA GACCCCTCTA TTTACAGGGG 3423AAAAATAACT TAGCCTCAAA ATAAAGCTCT TTAAAAGATA GACATTCACT CTAAATAGAA 3483TTCTATTATA ACACTTTTGG CGTACTTCCT TTTTTGGCTA GAATTATGAT ACATGTCTTT 3543AAATGAACAG AAGTTGCTTT TGTAATTTAT CAGGACTTAT GTTGAAACTT ATGAAAATTG 3603TTATTGTTTA TGTTGTCTAA TACTAAATAT AAAATACAAT AATATTTTAT CGTAATTTTT 3663TAAAAATTTG TCAAATAATG CAAATGAAAA ATTAAATTTT TTGGTCCTTT AAAAATTTGA 3723GAATGAAAAA GTACGAGTTA TACTTCCTAA AAGTTTGATA GTGAATAATA TGTAAAATTT 3783AAAGAATGAC TAATATTGGA CTAATACTTT AAAACAAATA ACTTAATATA CAAATTATAG 3843CGAGACATTT TCATTCGTTG TACTGAATGC AAGAAAGAAA GGAAAAAAAA ACTCATTTAT 3903AATATAGTTT GTCTTCTACT ATTTTACCTT ATTGCTTCAA ATTTGTATTT TATCGATTTT 3963GCTATATCTT ATGATTTTTT TCACGGTCAA TATTCTTCTT ACAAGAATAA ATTTTATATA 4023CCTCAAGTGT TTTGTCAATT TGATAAATAA TTTTTCTTAT ATGATGAACT TGTAAAATAA 4083TAGAATTGGA TTCTTTTGCT AATTAGTTAA TTCAACGACT TAATTATTTA TTCTCAACAT 4143TAAAGGAAAT AATTTAGTTT TTATTAATTC AAACTCTTAG TATTTGCTCA TTCTAATTTT 4203CAGTCCAATA AGAATTCAAT TTTCAAATAG TAAGAAAAGT CATATATTTT GAATTTTATG 4263TTTTCCGAAG CATTGTTTGT TTGTTTAACT CTACGGGAGT TTTCTAACTC ACATTTTGTA 4323TAATAAAATT TTTTGAGTAG TAGTTCAGTA CAACTCTAAT ATTAATGGGC TTTAAATAAG 4383GAAATATATA TTACGTAAAA ATTTAAATCA TTTTAAAGTT CTTTCCTACC AAGTAAATAA 4443GGGAAAATTT AATAACAAAA ATTTAGTTGA TTTTAAAATC CTAAATATTA GAAAATTAAC 4503TTAAAATATA ATTTCGTCTA GTGTAAAATT TATTTTTAAA GGGTAAAAAA GACGAACGAC 4563ATTAAGAGCC TTTGTAATTT TAATATAGTA TAAATATAAA TAATTTACCT TTATTCAGTT 4623TCTTAACAAG TAATTTTCCA TATATAAAAA ATAAATTTCT ATATTCACAC AAAAATAATG 4683TGTTGGCCCT CGTAATTCAA ATACTATCAT TCATTTCTTG TCGAGGGAGT AGTAAATACT 4743TTTAGGAAAG TTAGCAATAA GTAATCAAGA AATCAAGAAA ACAGAGGTCA TTTGATGCCC 4803ACAAATACAA ATGAAAAAAC AAAACAAATG TTACGAAACA ATAAAAGAAC AAGAATAGCC 4863TCAAAGTAAA ACTCTCTGAT AGACATTTAC TCTAAATAGA ATTCTATTTA TAACAATCAA 4923AAAGTTTCTA CATTTATAGA TAGCTCCACT AGCCAAATAT TTTATTATTG GAATCAGCAA 4983AATAGGTTGT TTCTTTTTTT ATTCTCATTC TGTCTGTGTT CTAAACAG CAT TTG CCG 5040

His Leu ProTCT CTA CGG AGG ATA GAT CTC AGC TGG TCT AAA AGA TTG ACG CGA ACA 5088Ser Leu Arg Arg Ile Asp Leu Ser Trp Ser Lys Arg Leu Thr Arg Thr620 625 630 635CCA GAT TTC ACG GGG ATG CCA AAT TTG GAG TAT GTG AAT TTG TAT CAA 5136Pro Asp Phe Thr Gly Met Pro Asn Leu Glu Tyr Val Asn Leu Tyr Gln

640 645 650TGT AGT AAT CTT GAA GAA GTT CAC CAT TCC CTG GGA TGT TGC AGC AAA 5184Cys Ser Asn Leu Glu Glu Val His His Ser Leu Gly Cys Cys Ser Lys

655 660 665GTC ATT GGT TTA TAT TTG AAT GAT TGT AAA AGC CTT AAG AGG TTT CCA 5232Val Ile Gly Leu Tyr Leu Asn Asp Cys Lys Ser Leu Lys Arg Phe Pro

670 675 680TGT GTT AAC GTG GAA TCT CTT GAA TAT CTG GGT CTA AGA AGT TGC GAT 5280Cys Val Asn Val Glu Ser Leu Glu Tyr Leu Gly Leu Arg Ser Cys Asp

685 690 695AGT TTA GAG AAA TTG CCA GAA ATC TAC GGG AGA ATG AAG CCG GAG ATA 5328Ser Leu Glu Lys Leu Pro Glu Ile Tyr Gly Arg Met Lys Pro Glu Ile700 705 710 715CAG ATT CAC ATG CAA GGC TCT GGG ATA AGG GAA CTA CCA TCA TCT ATT 5376Gln Ile His Met Gln Gly Ser Gly Ile Arg Glu Leu Pro Ser Ser Ile

720 725 730TTT CAG TAC AAA ACT CAT GTT ACC AAG CTA TTG TTG TGG AAT ATG AAA 5424Phe Gln Tyr Lys Thr His Val Thr Lys Leu Leu Leu Trp Asn Met Lys

735 740 745AAC CTT GTA GCT CTT CCA AGC AGC ATA TGT AGG TTG AAA AGT TTG GTT 5472Asn Leu Val Ala Leu Pro Ser Ser Ile Cys Arg Leu Lys Ser Leu Val

750 755 760AGT CTG AGT GTG TCG GGT TGC TCA AAA CTT GAA AGC TTG CCA GAA GAG 5520Ser Leu Ser Val Ser Gly Cys Ser Lys Leu Glu Ser Leu Pro Glu Glu

765 770 775ATA GGG GAT TTA GAC AAC TTA CGG GTG TTT GAT GCC AGT GAT ACT CTA 5568Ile Gly Asp Leu Asp Asn Leu Arg Val Phe Asp Ala Ser Asp Thr Leu780 785 790 795ATT TTA CGA CCT CCG TCT TCC ATC ATA CGC TTG AAC AAA CTT ATA ATC 5616Ile Leu Arg Pro Pro Ser Ser Ile Ile Arg Leu Asn Lys Leu Ile Ile

800 805 810TTG ATG TTT CGA GGC TTC AAA GAT GGA GTG CAC TTT GAG TTC CCT CCT 5664Leu Met Phe Arg Gly Phe Lys Asp Gly Val His Phe Glu Phe Pro Pro

815 820 825GTG GCT GAA GGA TTA CAC TCA TTG GAA TAT CTG AAT CTC AGT TAC TGC 5712Val Ala Glu Gly Leu His Ser Leu Glu Tyr Leu Asn Leu Ser Tyr Cys

830 835 840AAT CTA ATA GAT GGA GGA CTT CCG GAA GAG ATT GGA TCC TTA TCC TCT 5760Asn Leu Ile Asp Gly Gly Leu Pro Glu Glu Ile Gly Ser Leu Ser Ser

845 850 855TTG AAA AAG TTG GAT CTC AGT AGA AAT AAT TTT GAG CAT TTG CCT TCA 5808Leu Lys Lys Leu Asp Leu Ser Arg Asn Asn Phe Glu His Leu Pro Ser860 865 870 875AGT ATA GCC CAA CTT GGT GCT CTT CAA TCC TTA GAC TTA AAA GAT TGC 5856Ser Ile Ala Gln Leu Gly Ala Leu Gln Ser Leu Asp Leu Lys Asp Cys

880 885 890CAG AGG CTT ACA CAG CTA CCA GAA CTT CCC CCA GAA TTA AAT GAA TTG 5904Gln Arg Leu Thr Gln Leu Pro Glu Leu Pro Pro Glu Leu Asn Glu Leu

895 900 905CAT GTA GAT TGT CAT ATG GCT CTG AAA TTT ATC CAT TAT TTA GTA ACA 5952His Val Asp Cys His Met Ala Leu Lys Phe Ile His Tyr Leu Val Thr

910 915 920AAG AGA AAG AAA CTA CAT AGA GTG AAA CTT GAT GAT GCA CAC AAT GAT 6000Lys Arg Lys Lys Leu His Arg Val Lys Leu Asp Asp Ala His Asn Asp

925 930 935ACT ATG TAC AAT TTG TTT GCA TAT ACC ATG TTT CAG AAT ATC TCT TCC 6048Thr Met Tyr Asn Leu Phe Ala Tyr Thr Met Phe Gln Asn Ile Ser Ser940 945 950 955ATG AGG CAT GAC ATC TCT GCT TCA GAT TCC TTG TCA CTA ACA GTA TTT 6096Met Arg His Asp Ile Ser Ala Ser Asp Ser Leu Ser Leu Thr Val Phe

960 965 970ACC GGT CAA CCG TAT CCT GAA AAG ATC CCG AGT TGG TTC CAC CAT CAG 6144Thr Gly Gln Pro Tyr Pro Glu Lys Ile Pro Ser Trp Phe His His Gln

975 980 985GGT TGG GAT AGT AGT GTA TCA GTC AAT TTG CCT GAA AAT TGG TAT ATA 6192Gly Trp Asp Ser Ser Val Ser Val Asn Leu Pro Glu Asn Trp Tyr Ile

990 995 1000CCT GAT AAA TTC TTG GGA TTT GCT GTA TGT TAC TCT CGT AGC TTA ATT 6240Pro Asp Lys Phe Leu Gly Phe Ala Val Cys Tyr Ser Arg Ser Leu Ile

1005 1010 1015GAC ACA ACA GCT CAC TTG ATT CCC GTA TGT GAT GAC AAG ATG TCG CGC 6288Asp Thr Thr Ala His Leu Ile Pro Val Cys Asp Asp Lys Met Ser Arg1020 1025 1030 1035ATG ACC CAG AAA CTT GCC TTA TCA GAA TGT GAT ACA GAA TCA TCC AAC 6336Met Thr Gln Lys Leu Ala Leu Ser Glu Cys Asp Thr Glu Ser Ser Asn

1040 1045 1050TAT TCA GAA TGG GAT ATA CAT TTT TTC TTT GTA CCT TTT GCT GGC TTA 6384Tyr Ser Glu Trp Asp Ile His Phe Phe Phe Val Pro Phe Ala Gly Leu

1055 1060 1065TGG GAT ACA TCT AAG GCA AAT GGA AAA ACA CCA AAT GAT TAT GGG ATT 6432Trp Asp Thr Ser Lys Ala Asn Gly Lys Thr Pro Asn Asp Tyr Gly Ile

1070 1075 1080ATT AGG CTA TCT TTT TCT GGA GAA GAG AAG ATG TAT GGA CTT CGT TTG 6480Ile Arg Leu Ser Phe Ser Gly Glu Glu Lys Met Tyr Gly Leu Arg Leu

1085 1090 1095TTG TAT AAA GAA GGA CCA GAG GTT AAT GCC TTG TTA CAA ATG AGG GAA 6528Leu Tyr Lys Glu Gly Pro Glu Val Asn Ala Leu Leu Gln Met Arg Glu1100 1105 1110 1115AAT AGC AAT GAA CCA ACA GAA CAT TCC ACT GGG ATA AGG AGG ACT CAA 6576Asn Ser Asn Glu Pro Thr Glu His Ser Thr Gly Ile Arg Arg Thr Gln

1120 1125 1130TAT AAC AAC AGA ACT TCC TTT TAT GTAAGTCTCT ACTTCTATTA GCTACAAAGT 6630Tyr Asn Asn Arg Thr Ser Phe Tyr

1135CTTCTTCCAA AATCAATACT CCATCCGTTC CAGTTTATGT GAACCTATTT TTTGTTCGTC 6690CATTCTAAAA AGAATGACCC CTTTCTAAAT TTGGAAATAA TTTTGGTTAA ACTTATAATT 6750CTACCATTAA CGAGAAGCTT TTATAACCAC ACAAATATTC TGGGGCCCTT TTTGAATTGT 6810TTAGGACCAT AAATTCCAAA AGTCCTCATT TTTTCTTAAA CTCCGTGCCC AATCAAACAA 6870GTTCACGTAA ATTGGAACGG AGGGAATATA TTTTTTCTTC TCATTCTTTT CCCCTATTTA 6930CAG GAG CTC ATC AAT GGG TGATGTACAT ATCAACAACG AGTTTTAAAG 6978

Glu Leu Ile Asn Gly

1140 114GATTCCAACA AGTATAACTT TTTATGCTCA AATCAGCTCC TTGTATTGTG GAGAAAGCTG 7038AGTACGAGAT GAAGTTGACG TCCGTTATCC TTTATGATCT CTCTGTTCTT TGTGTTAACT 7098TGCCTACTTC ATCAGATGAA TAACAGAAGC CCGTTCCTCT CATTCTCAAC ACTGTTTGCA 7158CGTCTGTTGT TACTTGTTAA AATGGATCTT GATAAAGTAA TAACATCTCT ATATTACTTA 7218TAAGTGGTTT TAACAAGTTC ACTCTTTTGC TTTTGCAGTT CAAATGGGAA CACAATGTAT 7278ATTGAGAACT AGAACAATGA CACTGCATAT ATATATATAT ATGTATGTAT GTAATTCTCG 7338TCTTTTGGAC TAGAATACCT TGTTTCATTA TGAAATGAAT TAACATCTTC GCCTTTGCTG 7398AC 7400(2)SEQ ID NO：2的资料：

(i)序列特征

(A)长度：1144个氨基酸

(B)类型：氨基酸

(D)拓扑结构：线性

(ii)分子类型：蛋白

(xi)序列描述：SEQ ID NO：2：Met Ala Ser Ser Ser Ser Ser Ser Arg Trp Ser Tyr Asp Val Phe Leu1 5 10 15Ser Phe Arg Gly Glu Asp Thr Arg Lys Thr Phe Thr Ser His Leu Tyr

20 25 30Glu Val Leu Asn Asp Lys Gly Ile Lys Thr Phe Gln Asp Asp Lys Arg

35 40 45Leu Glu Tyr Gly Ala Thr Ile Pro Gly Glu Leu Cys Lys Ala Ile Glu

50 55 60Glu Ser Gln Phe Ala Ile Val Val Phe Ser Glu Asn Tyr Ala Thr Ser65 70 75 80Arg Trp Cys Leu Asn Glu Leu Val Lys Ile Met Glu Cys Lys Thr Arg

85 90 95Phe Lys Gln Thr Val Ile Pro Ile Phe Tyr Asp Val Asp Pro Ser His

100 105 110Val Arg Asn Gln Lys Glu Ser Phe Ala Lys Ala Phe Glu Glu His Glu

115 120 125Thr Lys Tyr Lys Asp Asp Val Glu Gly Ile Gln Arg Trp Arg Ile Ala

130 135 140Leu Asn Glu Ala Ala Asn Leu Lys Gly Ser Cys Asp Asn Arg Asp Lys145 150 155 160Thr Asp Ala Asp Cys Ile Arg Gln Ile Val Asp Gln Ile Ser Ser Lys

165 170 175Leu Cys Lys Ile Ser Leu Ser Tyr Leu Gln Asn Ile Val Gly Ile Asp

180 185 190Thr His Leu Glu Lys Ile Glu Ser Leu Leu Glu Ile Gly Ile Asn Gly

195 200 205Val Arg Ile Met Gly Ile Trp Gly Met Gly Gly Val Gly Lys Thr Thr

210 215 220Ile Ala Arg Ala Ile Phe Asp Thr Leu Leu Gly Arg Met Asp Ser Ser225 230 235 240Tyr Gln Phe Asp Gly Ala Cys Phe Leu Lys Asp Ile Lys Glu Asn Lys

245 250 255Arg Gly Met His Ser Leu Gln Asn Ala Leu Leu Ser Glu Leu Leu Arg

260 265 270Glu Lys Ala Asn Tyr Asn Asn Glu Glu Asp Gly Lys His Gln Met Ala

275 280 285Ser Arg Leu Arg Ser Lys Lys Val Leu Ile Val Leu Asp Asp Ile Asp

290 295 300Asn Lys Asp His Tyr Leu Glu Tyr Leu Ala Gly Asp Leu Asp Trp Phe305 310 315 320Gly Asn Gly Ser Arg Ile Ile Ile Thr Thr Arg Asp Lys His Leu Ile

325 330 335Glu Lys Asn Asp Ile Ile Tyr Glu Val Thr Ala Leu Pro Asp His Glu

340 345 350Ser Ile Gln Leu Phe Lys Gln His Ala Phe Gly Lys Glu Val Pro Asn

355 360 365Glu Asn Phe Glu Lys Leu Ser Leu Glu Val Val Asn Tyr Ala Lys Gly

370 375 380Leu Pro Leu Ala Leu Lys Val Trp Gly Ser Leu Leu His Asn Leu Arg385 390 395 400Leu Thr Glu Trp Lys Ser Ala Ile Glu His Met Lys Asn Asn Ser Tyr

405 410 415Ser Gly Ile Ile Asp Lys Leu Lys Ile Ser Tyr Asp Gly Leu Glu Pro

420 425 430Lys Gln Gln Glu Met Phe Leu Asp Ile Ala Cys Phe Leu Arg Gly Glu

435 440 445Glu Lys Asp Tyr Ile Leu Gln Ile Leu Glu Ser Cys His Ile Gly Ala

450 455 460Glu Tyr Gly Leu Arg Ile Leu Ile Asp Lys Ser Leu Val Phe Ile Ser465 470 475 480Glu Tyr Asn Gln Val Gln Met His Asp Leu Ile Gln Asp Met Gly Lys

485 490 495Tyr Ile Val Asn Phe Gln Lys Asp Pro Gly Glu Arg Ser Arg Leu Trp

500 505 510Leu Ala Lys Glu Val Glu Glu Val Met Ser Asn Asn Thr Gly Thr Met

515 520 525Ala Met Glu Ala Ile Trp Val Ser Ser Tyr Ser Ser Thr Leu Arg Phe

530 535 540Ser Asn Gln Ala Val Lys Asn Met Lys Arg Leu Arg Val Phe Asn Met545 550 555 560Gly Arg Ser Ser Thr His Tyr Ala Ile Asp Tyr Leu Pro Asn Asn Leu

565 570 575Arg Cys Phe Val Cys Thr Asn Tyr Pro Trp Glu Ser Phe Pro Ser Thr

580 585 590Phe Glu Leu Lys Met Leu Val His Leu Gln Leu Arg His Asn Ser Leu

595 600 605Arg His Leu Trp Thr Glu Thr Lys His Leu Pro Ser Leu Arg Arg Ile

610 615 620Asp Leu Ser Trp Ser Lys Arg Leu Thr Arg Thr Pro Asp Phe Thr Gly625 630 635 640Met Pro Asn Leu Glu Tyr Val Asn Leu Tyr Gln Cys Ser Asn Leu Glu

645 650 655Glu Val His His Ser Leu Gly Cys Cys Ser Lys Val Ile Gly Leu Tyr

660 665 670Leu Asn Asp Cys Lys Ser Leu Lys Arg Phe Pro Cys Val Asn Val Glu

675 680 685Ser Leu Glu Tyr Leu Gly Leu Arg Ser Cys Asp Ser Leu Glu Lys Leu

690 695 700Pro Glu Ile Tyr Gly Arg Met Lys Pro Glu Ile Gln Ile His Met Gln705 710 715 720Gly Ser Gly Ile Arg Glu Leu Pro Ser Ser Ile Phe Gln Tyr Lys Thr

725 730 735His Val Thr Lys Leu Leu Leu Trp Asn Met Lys Asn Leu Val Ala Leu

740 745 750Pro Ser Ser Ile Cys Arg Leu Lys Ser Leu Val Ser Leu Ser Val Ser

755 760 765Gly Cys Ser Lys Leu Glu Ser Leu Pro Glu Glu Ile Gly Asp Leu Asp

770 775 780Asn Leu Arg Val Phe Asp Ala Ser Asp Thr Leu Ile Leu Arg Pro Pro785 790 795 800Ser Ser Ile Ile Arg Leu Asn Lys Leu Ile Ile Leu Met Phe Arg Gly

805 810 815Phe Lys Asp Gly Val His Phe Glu Phe Pro Pro Val Ala Glu Gly Leu

820 825 830His Ser Leu Glu Tyr Leu Asn Leu Ser Tyr Cys Asn Leu Ile Asp Gly

835 840 845Gly Leu Pro Glu Glu Ile Gly Ser Leu Ser Ser Leu Lys Lys Leu Asp

850 855 860Leu Ser Arg Asn Asn Phe Glu His Leu Pro Ser Ser Ile Ala Gln Leu865 870 875 880Gly Ala Leu Gln Ser Leu Asp Leu Lys Asp Cys Gln Arg Leu Thr Gln

885 890 895Leu Pro Glu Leu Pro Pro Glu Leu Asn Glu Leu His Val Asp Cys His

900 905 910Met Ala Leu Lys Phe Ile His Tyr Leu Val Thr Lys Arg Lys Lys Leu

915 920 925His Arg Val Lys Leu Asp Asp Ala His Asn Asp Thr Met Tyr Asn Leu

930 935 940Phe Ala Tyr Thr Met Phe Gln Asn Ile Ser Ser Met Arg His Asp Ile945 950 955 960Ser Ala Ser Asp Ser Leu Ser Leu Thr Val Phe Thr Gly Gln Pro Tyr

965 970 975Pro Glu Lys Ile Pro Ser Trp Phe His His Gln Gly Trp Asp Ser Ser

980 985 990Val Ser Val Asn Leu Pro Glu Asn Trp Tyr Ile Pro Asp Lys Phe Leu

995 1000 1005Gly Phe Ala Val Cys Tyr Ser Arg Ser Leu Ile Asp Thr Thr Ala His

1010 1015 1020Leu Ile Pro Val Cys Asp Asp Lys Met Ser Arg Met Thr Gln Lys Leu1025 1030 1035 1040Ala Leu Ser Glu Cys Asp Thr Glu Ser Ser Asn Tyr Ser Glu Trp Asp

1045 1050 1055Ile His Phe Phe Phe Val Pro Phe Ala Gly Leu Trp Asp Thr Ser Lys

1060 1065 1070Ala Asn Gly Lys Thr Pro Asn Asp Tyr Gly Ile Ile Arg Leu Ser Phe

1075 1080 1085Ser Gly Glu Glu Lys Met Tyr Gly Leu Arg Leu Leu Tyr Lys Glu Gly

1090 1095 1100Pro Glu Val Asn Ala Leu Leu Gln Met Arg Glu Asn Ser Asn Glu Pro1105 1110 1115 1120Thr Glu His Ser Thr Gly Ile Arg Arg Thr Gln Tyr Asn Asn Arg Thr

1125 1130 1135Ser Phe Tyr Glu Leu Ile Asn Gly

1140(2)SEQ ID NO：3的资料：

(i)序列特征

(A)长度：3760个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性

(ii)分子类型：cDNA to mRNA

(vi)来源：

(A)有机体：粘毛烟草

(F)组织类型：叶

(ix)特征：

(A)名称/关键：CDS

(B)定位：60..3494

(xi)序列描述：SEQ ID NO：3：GGCACGAGAT TTTTTCACAT ACAGTTTCTT ACTCTTTTCA GAGAATTAAC GTTGAGTCC 59ATG GCA TCT TCT TCT TCT TCT TCT AGA TGG AGC TAT GAT GTT TTC TTA 107Met Ala Ser Ser Ser Ser Ser Ser Arg Trp Ser Tyr Asp Val Phe Leu1 5 10 15AGT TTT AGA GGC GAA GAT ACT CGA AAA ACG TTT ACA AGT CAC TTA TAC 155Ser Phe Arg Gly Glu Asp Thr Arg Lys Thr Phe Thr Ser His Leu Tyr

20 25 30GAA GTC TTG AAT GAT AAG GGA ATA AAA ACC TTT CAA GAT GAT AAA AGG 203Glu Val Leu Asn Asp Lys Gly Ile Lys Thr Phe Gln Asp Asp Lys Arg

35 40 45CTA GAG TAC GGC GCA ACC ATC CCA GGT GAA CTC TGT AAA GCT ATA GAA 251Leu Glu Tyr Gly Ala Thr Ile Pro Gly Glu Leu Cys Lys Ala Ile Glu

50 55 60GAG TCT CAA TTT GCC ATT GTT GTT TTC TCA GAG AAT TAT GCA ACA TCA 299Glu Ser Gln Phe Ala Ile Val Val Phe Ser Glu Asn Tyr Ala Thr Ser65 70 75 80AGG TGG TGT TTG AAT GAA CTA GTG AAG ATC ATG GAA TGC AAA ACT CGA 347Arg Trp Cys Leu Asn Glu Leu Val Lys Ile Met Glu Cys Lys Thr Arg

85 90 95TTT AAG CAA ACT GTT ATA CCG ATA TTC TAT GAT GTG GAT CCA TCA CAT 395Phe Lys Gln Thr Val Ile Pro Ile Phe Tyr Asp Val Asp Pro Ser His

100 105 110GTT CGG AAC CAA AAG GAG AGC TTT GCA AAA GCC TTT GAA GAA CAT GAA 443Val Arg Asn Gln Lys Glu Ser Phe Ala Lys Ala Phe Glu Glu His Glu

115 120 125ACA AAG TAT AAG GAT GAT GlT GAG GGA ATA CAA AGA TGG AGG ATT GCT 491Thr Lys Tyr Lys Asp Asp Val Glu Gly Ile Gln Arg Trp Arg Ile Ala

130 135 140TTA AAT GAA GCG GCC AAT CTC AAA GGC TCC TGT GAT AAT CGT GAC AAG 539Leu Asn Glu Ala Ala Asn Leu Lys Gly Ser Cys Asp Asn Arg Asp Lys145 150 155 160ACT GAT GCA GAC TGT ATT CGA CAG ATT GTT GAC CAA ATC TCA TCC AAA 587Thr Asp Ala Asp Cys Ile Arg Gln Ile Val Asp Gln Ile Ser Ser Lys

165 170 175TTA TGC AAG ATT TCT TTA TCT TAT TTG CAA AAC ATT GTT GGA ATA GAT 635Leu Cys Lys Ile Ser Leu Ser Tyr Leu Gln Asn Ile Val Gly Ile Asp

180 185 190ACT CAT TTA GAG AAA ATA GAA TCC TTA CTA GAG ATA GGA ATC AAT GGT 683Thr His Leu Glu Lys Ile Glu Ser Leu Leu Glu Ile Gly Ile Asn Gly

195 200 205GTT CGG ATT ATG GGG ATC TGG GGA ATG GGG GGA GTC GGT AAA ACA ACA 731Val Arg Ile Met Gly Ile Trp Gly Met Gly Gly Val Gly Lys Thr Thr

210 215 220ATA GCA AGA GCT ATA TTT GAT ACT CTT TTA GGA AGA ATG GAT AGT TCC 779Ile Ala Arg Ala Ile Phe Asp Thr Leu Leu Gly Arg Met Asp Ser Ser225 230 235 240TAT CAA TTT GAT GGT GCT TGT TTC CTT AAG GAT ATT AAA GAA AAC AAA 827Tyr Gln Phe Asp Gly Ala Cys Phe Leu Lys Asp Ile Lys Glu Asn Lys

245 250 255CGT GGA ATG CAT TCT TTG CAA AAT GCC CTT CTC TCT GAA CTT TTA AGG 875Arg Gly Met His Ser Leu Gln Asn Ala Leu Leu Ser Glu Leu Leu Arg

260 265 270GAA AAA GCT AAT TAC AAT AAT GAG GAG GAT GGA AAG CAC CAA ATG GCT 923Glu Lys Ala Asn Tyr Asn Asn Glu Glu Asp Gly Lys His Gln Met Ala

275 280 285AGT AGA CTT CGT TCG AAG AAG GTC CTA ATT GTG CTT GAT GAT ATA GAT 971Ser Arg Leu Arg Ser Lys Lys Val Leu Ile Val Leu Asp Asp Ile Asp

290 295 300AAT AAA GAT CAT TAT TTG GAG TAT TTA GCA GGT GAT CTT GAT TGG TTT 1019Asn Lys Asp His Tyr Leu Glu Tyr Leu Ala Gly Asp Leu Asp Trp Phe305 310 315 320GGT AAT GGT AGT AGA ATT ATT ATA ACA ACT AGA GAC AAG CAT TTG ATA 1067Gly Asn Gly Ser Arg Ile Ile Ile Thr Thr Arg Asp Lys His Leu Ile

325 330 335GAG AAG AAT GAT ATA ATA TAT GAG GTG ACT GCA CTA CCC GAT CAT GAA 1115Glu Lys Asn Asp Ile Ile Tyr Glu Val Thr Ala Leu Pro Asp His Glu

340 345 350TCC ATT CAA TTG TTC AAA CAA CAT GCT TTC GGA AAA GAA GTT CCA AAT 1163Ser Ile Gln Leu Phe Lys Gln His Ala Phe Gly Lys Glu Val Pro Asn

355 360 365GAG AAT TTT GAG AAG CTT TCA TTA GAG GTA GTA AAT TAT GCT AAA GGC 1211Glu Asn Phe Glu Lys Leu Ser Leu Glu Val Val Asn Tyr Ala Lys Gly

370 375 380CTT CCT TTA GCC CTC AAA GTG TGG GGT TCT TTG CTG CAT AAC CTA CGA 1259Leu Pro Leu Ala Leu Lys Val Trp Gly Ser Leu Leu His Asn Leu Arg385 390 395 400TTA ACT GAA TGG AAA AGT GCT ATA GAG CAC ATG AAA AAT AAC TCT TAT 1307Leu Thr Glu Trp Lys Ser Ala Ile Glu His Met Lys Asn Asn Ser Tyr

405 410 415TCT GGA ATT ATT GAT AAG CTC AAA ATA AGT TAT GAT GGA TTA GAG CCC 1355Ser Gly Ile Ile Asp Lys Leu Lys Ile Ser Tyr Asp Gly Leu Glu Pro

420 425 430AAA CAA CAA GAG ATG TTT TTA GAT ATA GCA TGC TTC TTG CGA GGG GAA 1403Lys Gln Gln Glu Met Phe Leu Asp Ile Ala Cys Phe Leu Arg Gly Glu

435 440 445GAA AAA GAT TAC ATC CTA CAA ATC CTT GAG AGT TGT CAT ATT GGA GCT 1451Glu Lys Asp Tyr Ile Leu Gln Ile Leu Glu Ser Cys His Ile Gly Ala

450 455 460GAA TAC GGG TTA CGT ATT TTA ATT GAC AAA TCT CTT GTG TTC ATC TCT 1499Glu Tyr Gly Leu Arg Ile Leu Ile Asp Lys Ser Leu Val Phe Ile Ser465 470 475 480GAA TAT AAT CAG GTT CAA ATG CAT GAC TTA ATA CAG GAT ATG GGT AAA 1547Glu Tyr Asn Gln Val Gln Met His Asp Leu Ile Gln Asp Met Gly Lys

485 490 495TAT ATA GTG AAT TTT CAA AAA GAT CCC GGA GAA CGT AGC AGA TTA TGG 1595Tyr Ile Val Asn Phe Gln Lys Asp Pro Gly Glu Arg Ser Arg Leu Trp

500 505 510CTC GCC AAG GAA GTC GAA GAA GTG ATG AGC AAC AAC ACA GGG ACC ATG 1643Leu Ala Lys Glu Val Glu Glu Val Met Ser Asn Asn Thr Gly Thr Met

515 520 525GCA ATG GAA GCA ATT TGG GTT TCT TCT TAT TCT AGT ACT CTA CGC TTT 1691Ala Met Glu Ala Ile Trp Val Ser Ser Tyr Ser Ser Thr Leu Arg Phe

530 535 540AGC AAT CAG GCC GTG AAA AAT ATG AAA AGG CTT AGG GTA TTT AAC ATG 1739Ser Asn Gln Ala Val Lys Asn Met Lys Arg Leu Arg Val Phe Asn Met545 550 555 560GGG AGG TCG TCG ACA CAT TAT GCC ATC GAT TAT CTG CCC AAC AAC TTG 1787Gly Arg Ser Ser Thr His Tyr Ala Ile Asp Tyr Leu Pro Asn Asn Leu

565 570 575CGT TGT TTT GTT TGC ACT AAC TAT CCT TGG GAG TCA TTT CCA TCT ACA 1835Arg Cys Phe Val Cys Thr Asn Tyr Pro Trp Glu Ser Phe Pro Ser Thr

580 585 590TTT GAA CTC AAA ATG CTT GTT CAC CTC CAA CTC CGA CAC AAT TCT CTG 1883Phe Glu Leu Lys Met Leu Val His Leu Gln Leu Arg His Asn Ser Leu

595 600 605CGT CAT TTA TGG ACA GAA ACA AAG CAT TTG CCG TCT CTA CGG AGG ATA 1931Arg His Leu Trp Thr Glu Thr Lys His Leu Pro Ser Leu Arg Arg Ile

610 615 620GAT CTC AGC TGG TCT AAA AGA TTG ACG CGA ACA CCA GAT TTC ACG GGG 1979Asp Leu Ser Trp Ser Lys Arg Leu Thr Arg Thr Pro Asp Phe Thr Gly625 630 635 640ATG CCA AAT TTG GAG TAT GTG AAT TTG TAT CAA TGT AGT AAT CTT GAA 2027Met Pro Asn Leu Glu Tyr Val Asn Leu Tyr Gln Cys Ser Asn Leu Glu

645 650 655GAA GTT CAC CAT TCC CTG GGA TGT TGC AGC AAA GTC ATT GGT TTA TAT 2075Glu Val His His Ser Leu Gly Cys Cys Ser Lys Val Ile Gly Leu Tyr

660 665 670TTG AAT GAT TGT AAA AGC CTT AAG AGG TTT CCA TGT GTT AAC GTG GAA 2123Leu Asn Asp Cys Lys Ser Leu Lys Arg Phe Pro Cys Val Asn Val Glu

675 680 685TCT CTT GAA TAT CTG GGT CTA AGA AGT TGC GAT AGT TTA GAG AAA TTG 2171Ser Leu Glu Tyr Leu Gly Leu Arg Ser Cys Asp Ser Leu Glu Lys Leu

690 695 700CCA GAA ATC TAC GGG AGA ATG AAG CCG GAG ATA CAG ATT CAC ATG CAA 2219Pro Glu Ile Tyr Gly Arg Met Lys Pro Glu Ile Gln Ile His Met Gln705 710 715 720GGC TCT GGG ATA AGG GAA CTA CCA TCA TCT ATT TTT CAG TAC AAA ACT 2267Gly Ser Gly Ile Arg Glu Leu Pro Ser Ser Ile Phe Gln Tyr Lys Thr

725 730 735CAT GTT ACC AAG CTA TTG TTG TGG AAT ATG AAA AAC CTT GTA GCT CTT 2315His Val Thr Lys Leu Leu Leu Trp Asn Met Lys Asn Leu Val Ala Leu

740 745 750CCA AGC AGC ATA TGT AGG TTG AAA AGT TTG GTT AGT CTG AGT GTG TCG 2363Pro Ser Ser Ile Cys Arg Leu Lys Ser Leu Val Ser Leu Ser Val Ser

755 760 765GGT TGC TCA AAA CTT GAA AGC TTG CCA GAA GAG ATA GGG GAT TTA GAC 2411Gly Cys Ser Lys Leu Glu Ser Leu Pro Glu Glu Ile Gly Asp Leu Asp

770 775 780AAC TTA CGG GTG TTT GAT GCC AGT GAT ACT CTA ATT TTA CGA CCT CCG 2459Asn Leu Arg Val Phe Asp Ala Ser Asp Thr Leu Ile Leu Arg Pro Pro785 790 795 800TCT TCC ATC ATA CGC TTG AAC AAA CTT ATA ATC TTG ATG TTT CGA GGC 2507Ser Ser Ile Ile Arg Leu Asn Lys Leu Ile Ile Leu Met Phe Arg Gly

805 810 815TTC AAA GAT GGA GTG CAC TTT GAG TTC CCT CCT GTG GCT GAA GGA TTA 2555Phe Lys Asp Gly Val His Phe Glu Phe Pro Pro Val Ala Glu Gly Leu

820 825 830CAC TCA TTG GAA TAT CTG AAT CTC AGT TAC TGC AAT CTA ATA GAT GGA 2603His Ser Leu Glu Tyr Leu Asn Leu Ser Tyr Cys Asn Leu Ile Asp Gly

835 840 845GGA CTT CCG GAA GAG ATT GGA TCC TTA TCC TCT TTG AAA AAG TTG GAT 2651Gly Leu Pro Glu Glu Ile Gly Ser Leu Ser Ser Leu Lys Lys Leu Asp

850 855 860CTC AGT AGA AAT AAT TTT GAG CAT TTG CCT TCA AGT ATA GCC CAA CTT 2699Leu Ser Arg Asn Asn Phe Glu His Leu Pro Ser Ser Ile Ala Gln Leu865 870 875 880GGT GCT CTT CAA TCC TTA GAC TTA AAA GAT TGC CAG AGG CTT ACA CAG 2747Gly Ala Leu Gln Ser Leu Asp Leu Lys Asp Cys Gln Arg Leu Thr Gln

885 890 895CTA CCA GAA CTT CCC CCA GAA TTA AAT GAA TTG CAT GTA GAT TGT CAT 2795Leu Pro Glu Leu Pro Pro Glu Leu Asn Glu Leu His Val Asp Cys His

900 905 910ATG GCT CTG AAA TTT ATC CAT TAT TTA GTA ACA AAG AGA AAG AAA CTA 2843Met Ala Leu Lys Phe Ile His Tyr Leu Val Thr Lys Arg Lys Lys Leu

915 920 925CAT AGA GTG AAA CTT GAT GAT GCA CAC AAT GAT ACT ATG TAC AAT TTG 2891His Arg Val Lys Leu Asp Asp Ala His Asn Asp Thr Met Tyr Asn Leu

930 935 940TTT GCA TAT ACC ATG TTT CAG AAT ATC TCT TCC ATG AGG CAT GAC ATC 2939Phe Ala Tyr Thr Met Phe Gln Asn Ile Ser Ser Met Arg His Asp Ile945 950 955 960TCT GCT TCA GAT TCC TTG TCA CTA ACA GTA TTT ACC GGT CAA CCG TAT 2987Ser Ala Ser Asp Ser Leu Ser Leu Thr Val Phe Thr Gly Gln Pro Tyr

965 970 975CCT GAA AAG ATC CCG AGT TGG TTC CAC CAT CAG GGT TGG GAT AGT AGT 3035Pro Glu Lys Ile Pro Ser Trp Phe His His Gln Gly Trp Asp Ser Ser

980 985 990GTA TCA GTC AAT TTG CCT GAA AAT TGG TAT ATA CCT GAT AAA TTC TTG 3083Val Ser Val Asn Leu Pro Glu Asn Trp Tyr Ile Pro Asp Lys Phe Leu

995 1000 1005GGA TTT GCT GTA TGT TAC TCT CGT AGC TTA ATT GAC ACA ACA GCT CAC 3131Gly Phe Ala Val Cys Tyr Ser Arg Ser Leu Ile Asp Thr Thr Ala His

1010 1015 1020TTG ATT CCC GTA TGT GAT GAC AAG ATG TCG CGC ATG ACC CAG AAA CTT 3179Leu Ile Pro Val Cys Asp Asp Lys Met Ser Arg Met Thr Gln Lys Leu1025 1030 1035 1040GCC TTA TCA GAA TGT GAT ACA GAA TCA TCC AAC TAT TCA GAA TGG GAT 3227Ala Leu Ser Glu Cys Asp Thr Glu Ser Ser Asn Tyr Ser Glu Trp Asp

1045 1050 1055ATA CAT TTT TTC TTT GTA CCT TTT GCT GGC TTA TGG GAT ACA TCT AAG 3275Ile His Phe Phe Phe Val Pro Phe Ala Gly Leu Trp Asp Thr Ser Lys

1060 1065 1070GCA AAT GGA AAA ACA CCA AAT GAT TAT GGG ATC ATT AGG CTA TCT TTT 3323Ala Asn Gly Lys Thr Pro Asn Asp Tyr Gly Ile Ile Arg Leu Ser Phe

1075 1080 1085TCT GGA GAA GAG AAG ATG TAT GGA CTT CGT TTG TTG TAT AAA GAA GGA 3371Ser Gly Glu Glu Lys Met Tyr Gly Leu Arg Leu Leu Tyr Lys Glu Gly

1090 1095 1100CCA GAG GTT AAT GCC TTG TTA CAA ATG AGG GAA AAT AGC AAT GAA CCA 3419Pro Glu Val Asn Ala Leu Leu Gln Met Arg Glu Asn Ser Asn Glu Pro1105 1110 1115 1120ACA GAA CAT TCC ACT GGG ATA AGG AGG ACT CAA TAT AAC AAC AGA ACT 3467Thr Glu His Ser Thr Gly Ile Arg Arg Thr Gln Tyr Asn Asn Arg Thr

1125 1130 1135TCC TTT TAT GAG CTC ATC AAT GGG TGATGTACAT ATCAACAACG AGTTTTAAAG 3521Ser Phe Tyr Glu Leu Ile Asn Gly

1140GATTCCAACA AGTATAACTT TTTATGCTCA AATCAGCTCC TTGTATTGTG GAGAAAGCTG 3581AGTACGAGAT GAAGTTGACG TCCGTTATCC TTTATGATCT CTCTGTTCTT TGTGTTAACT 3641TGCCTACTTC ATCAGATGAA TAACAGAAGC CCGTTCCTCT CATTCTCAAC ACTGTTTGCA 3701CGTCTGTTGT TACTTGTTAA AATGGATCTT GATAAAGTAA TAACATCTCT ATATTACTT 3760(2)SEQ ID NO：4资料：

(i)序列特征

(A)长度：1144个氨基酸

(B)类型：氨基酸

(D)拓扑结构：线性

(ii)分子类型：蛋白

(xi)序列描述：SEQ ID NO：4：Met Ala Ser Ser Ser Ser Ser Ser Arg Trp Ser Tyr Asp Val Phe Leu1 5 10 15Ser Phe Arg Gly Glu Asp Thr Arg Lys Thr Phe Thr Ser His Leu Tyr

20 25 30Glu Val Leu Asn Asp Lys Gly Ile Lys Thr Phe Gln Asp Asp Lys Arg

35 40 45Leu Glu Tyr Gly Ala Thr Ile Pro Gly Glu Leu Cys Lys Ala Ile Glu

85 90 95Phe Lys Gln Thr Val Ile Pro Ile Phe Tyr Asp Val Asp Pro Ser His

100 105 110Val Arg Asn Gln Lys Glu Ser Phe Ala Lys Ala Phe Glu Glu His Glu

115 120 125Thr Lys Tyr Lys Asp Asp Val Glu Gly Ile Gln Arg Trp Arg Ile Ala

165 170 175Leu Cys Lys Ile Ser Leu Ser Tyr Leu Gln Asn Ile Val Gly Ile Asp

180 185 190Thr His Leu Glu Lys Ile Glu Ser Leu Leu Glu Ile Gly Ile Asn Gly

195 200 205Val Arg Ile Met Gly Ile Trp Gly Met Gly Gly Val Gly Lys Thr Thr

245 250 255Arg Gly Met His Ser Leu Gln Asn Ala Leu Leu Ser Glu Leu Leu Arg

260 265 270Glu Lys Ala Asn Tyr Asn Asn Glu Glu Asp Gly Lys His Gln Met Ala

275 280 285Ser Arg Leu Arg Ser Lys Lys Val Leu Ile Val Leu Asp Asp Ile Asp

325 330 335Glu Lys Asn Asp Ile Ile Tyr Glu Val Thr Ala Leu Pro Asp His Glu

340 345 350Ser Ile Gln Leu Phe Lys Gln His Ala Phe Gly Lys Glu Val Pro Asn

355 360 365Glu Asn Phe Glu Lys Leu Ser Leu Glu Val Val Asn Tyr Ala Lys Gly

405 410 415Ser Gly Ile Ile Asp Lys Leu Lys Ile Ser Tyr Asp Gly Leu Glu Pro

420 425 430Lys Gln Gln Glu Met Phe Leu Asp Ile Ala Cys Phe Leu Arg Gly Glu

435 440 445Glu Lys Asp Tyr Ile Leu Gln Ile Leu Glu Ser Cys His Ile Gly Ala

485 490 495Tyr Ile Val Asn Phe Gln Lys Asp Pro Gly Glu Arg Ser Arg Leu Trp

500 505 510Leu Ala Lys Glu Val Glu Glu Val Met Ser Asn Asn Thr Gly Thr Met

515 520 525Ala Met Glu Ala Ile Trp Val Ser Ser Tyr Ser Ser Thr Leu Arg Phe

565 570 575Arg Cys Phe Val Cys Thr Asn Tyr Pro Trp Glu Ser Phe Pro Ser Thr

580 585 590Phe Glu Leu Lys Met Leu Val His Leu Gln Leu Arg His Asn Ser Leu

595 600 605Arg His Leu Trp Thr Glu Thr Lys His Leu Pro Ser Leu Arg Arg Ile

645 650 655Glu Val His His Ser Leu Gly Cys Cys Ser Lys Val Ile Gly Leu Tyr

660 665 670Leu Asn Asp Cys Lys Ser Leu Lys Arg Phe Pro Cys Val Asn Val Glu

675 680 685Ser Leu Glu Tyr Leu Gly Leu Arg Ser Cys Asp Ser Leu Glu Lys Leu

725 730 735His Val Thr Lys Leu Leu Leu Trp Asn Met Lys Asn Leu Val Ala Leu

740 745 750Pro Ser Ser Ile Cys Arg Leu Lys Ser Leu Val Ser Leu Ser Val Ser

755 760 765Gly Cys Ser Lys Leu Glu Ser Leu Pro Glu Glu Ile Gly Asp Leu Asp

770 775 780Asn Leu Arg Val Phe Asp Ala 5er Asp Thr Leu Ile Leu Arg Pro Pro785 790 795 800Ser Ser Ile Ile Arg Leu Asn Lys Leu Ile Ile Leu Met Phe Arg Gly

805 810 815Phe Lys Asp Gly Val His Phe Glu Phe Pro Pro Val Ala Glu Gly Leu

820 825 830His Ser Leu Glu Tyr Leu Asn Leu Ser Tyr Cys Asn Leu Ile Asp Gly

835 840 845Gly Leu Pro Glu Glu Ile Gly Ser Leu Ser Ser Leu Lys Lys Leu Asp

885 890 895Leu Pro Glu Leu Pro Pro Glu Leu Asn Glu Leu His Val Asp Cys His

900 905 910Met Ala Leu Lys Phe Ile His Tyr Leu Val Thr Lys Arg Lys Lys Leu

915 920 925His Arg Val Lys Leu Asp Asp Ala His Asn Asp Thr Met Tyr Asn Leu

965 970 975Pro Glu Lys Ile Pro Ser Trp Phe His His Gln Gly Trp Asp Ser Ser

980 985 990Val Ser Val Asn Leu Pro Glu Asn Trp Tyr Ile Pro Asp Lys Phe Leu

995 1000 1005Gly Phe Ala Val Cys Tyr Ser Arg Ser Leu Ile Asp Thr Thr Ala His

1045 1050 1055Ile His Phe Phe Phe Val Pro Phe Ala Gly Leu Trp Asp Thr Ser Lys

1060 1065 1070Ala Asn Gly Lys Thr Pro Asn Asp Tyr Gly Ile Ile Arg Leu Ser Phe

1075 1080 1085Ser Gly Glu Glu Lys Met Tyr Gly Leu Arg Leu Leu Tyr Lys Glu Gly

1125 1130 1135Ser Phe Tyr Glu Leu Ile Asn Gly

1140(2)SEQ ID NO：5资料：(i)序列特征

(A)长度：3830个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA to mRNA(vi)来源：

(A)有机体：粘毛烟草

(F)组织类型：叶(ix)特征：

(A)名称/关键：CDS

(B)定位：60..2018(xi)序列描述：SEQID NO：5：GGCACGAGAT TTTTTCACAT ACAGTTTCTT ACTCTTTTCA GAGAATTAAC GTTGAGTCC 59ATG GCA TCT TCT TCT TCT TCT TCT AGA TGG AGC TAT GAT GTT TTC TTA 107Met Ala Ser Ser Ser Ser Ser Ser Arg Trp Ser Tyr Asp Val Phe Leu1 5 10 15AGT TTT AGA GGC GAA GAT ACT CGA AAA ACG TTT ACA AGT CAC TTA TAC 155Ser Phe Arg Gly Glu Asp Thr Arg Lys Thr Phe Thr Ser His Leu Tyr

115 120 125ACA AAG TAT AAG GAT GAT GTT GAG GGA ATA CAA AGA TGG AGG ATT GCT 491Thr Lys Tyr Lys Asp Asp Val Glu Gly Ile Gln Arg Trp Arg Ile Ala

130 135 140TTA AAT GAA GCG GCC AAT CTC AAA GGC TCA TGT GAT AAT CGT GAC AAG 539Leu Asn Glu Ala Ala Asn Leu Lys Gly Ser Cys Asp Asn Arg Asp Lys145 150 155 160ACT GAT GCA GAC TGT ATT CGA CAG ATT GTT GAC CAA ATC TCA TCC AAA 587Thr Asp Ala Asp Cys Ile Arg Gln Ile Val Asp Gln Ile Ser Ser Lys

245 250 255CGT GGA ATG CAT TCT TTG CAA AAT GCC CTT CTC TCT GAA CTT TTA AGG 875Arg Gly Mst His Ser Leu Gln Asn Ala Leu Leu Ser Glu Leu Leu Arg

595 600 605CGT CAT TTA TGG ACA GAA ACA AAG AAG AAG AAC AAT ATT GCA GAG AAA 1931Arg His Leu Trp Thr Glu Thr Lys Lys Lys Asn Asn Tle Ala Glu Lys

610 615 620GAG GGA GAT GGA ATT CTT ATT GAA TTT TGG GGC GAT TTA CAA TGG GCA 1979Glu Gly Asp Gly Ile Leu Ile Glu Phe Trp Gly Asp Leu Gln Trp Ala625 630 635 640TTT GCC GTC TCT ACG GAG GAT AGA TCT CAG CTG GTC TAAAAGATTG 2025Phe Ala Val Ser Thr Glu Asp Arg Ser Gln Leu Val

645 650ACGCGAACAC CAGATTTCAC GGGGATGCCA AATTTGGAGT ATGTGAATTT GTATCAATGT 2085AGTAATCTTG AAGAAGTTCA CCATTCCCTG GGATGTTGCA GCAAAGTCAT TGGTTTATAT 2145TTGAATGATT GTAAAAGCCT TAAGAGGTTT CCATGTGTTA ACGTGGAATC TCTTGAATAT 2205CTGGGTCTAA GAAGTTGCGA TAGTTTAGAG AAATTGCCAG AAATCTACGG GAGAATGAAG 2265CCGGAGATAC AGATTCACAT GCAAGGCTCT GGGATAAGGG AACTACCATC ATCTATTTTT 2325CAGTACAAAA CTCATGTTAC CAAGCTATTG TTGTGGAATA TGAAAAACCT TGTAGCTCTT 2385CCAAGCAGCA TATGTAGGTT GAAAAGTTTG GTTAGTCTGA GTGTGTCGGG TTGCTCAAAA 2445CTTGAAAGCT TGCCAGAAGA GATAGGGGAT TTAGACAACT TACGGGTGTT TGATGCCAGT 2505GATACTCTAA TTTTACGACC TCCGTCTTCC ATCATACGCT TGAACAAACT TATAATCTTG 2565ATGTTTCGAG GCTTCAAAGA TGGAGTGCAC TTTGAGTTCC CTCCTGTGGC TGAAGGATTA 2625CACTCATTGG AATATCTGAA TCTCAGTTAC TGCAATCTAA TAGATGGAGG ACTTCCGGAA 2685GAGATTGGAT CCTTATCCTC TTTGAAAAAG TTGGATCTCA GTAGAAATAA TTTTGAGCAT 2745TTGCCTTCAA GTATAGCCCA ACTTGGTGCT CTTCAATCCT TAGACTTAAA AGATTGCCAG 2805AGGCTTACAC AGCTACCAGA ACTTCCCCCA GAATTAAATG AATTGCATGT AGATTGTCAT 2865ATGGCTCTGA AATTTATCCA TTATTTAGTA ACAAAGAGAA AGAAACTACA TAGAGTGAAA 2925CTTGATGATG CACACAATGA TACTATGTAC AATTTGTTTG CATATACCAT GTTTCAGAAT 2985ATCTCTTCCA TGAGGCATGA CATCTCTGCT TCAGATTCCT TGTCACTAAC AGTATTTACC 3045GGTCAACCGT ATCCTGAAAA GATCCCGAGT TGGTTCCACC ATCAGGGTTG GGATAGTAGT 3105GTATCAGTCA ATTTGCCTGA AAATTGGTAT ATACCTGATA AATTCTTGGG ATTTGCTGTA 3165TGTTACTCTC GTAGCTTAAT TGACACAACA GCTCACTTGA TTCCCGTATG TGATGACAAG 3225ATGTCGCGCA TGACCCAGAA ACTTGCCTTA TCAGAATGTG ATACAGAATC ATCCAACTAT 3285TCAGAATGGG ATATACATTT TTTCTTTGTA CCTTTTGCTG GCTTATGGGA TACATCTAAG 3345GCAAATGGAA AAACACCAAA TGATTATGGG ATTATTAGGC TATCTTTTTC TGGAGAAGAG 3405AAGATGTATG GACTTCGTTT GTTGTATAAA GAAGGACCAG AGGTTAATGC CTTGTTACAA 3465ATGAGGGAAA ATAGCAATGA ACCAACAGAA CATTCCACTG GGATAAGGAG GACTCAATAT 3525AACAACAGAA CTTCCTTTTA TGAGCTCATC AATGGGTGAT GTACATATCA ACAACGAGTT 3585TTAAAGGATT CCAACAAGTA TAACTTTTTA TGCTCAAATC AGCTCCTTGT ATTGTGGAGA 3645AAGCTGAGTA CGAGATGAAG TTGACGTCCG TTATCCTTTA TGATCTCTCT GTTCTTTGTG 3705TTAACTTGCC TACTTCATCA GATGAATAAC AGAAGCCCGT TCCTCTCATT CTCAACACTG 3765TTTGCACGTC TGTTGTTACT TGTTAAAATG GATCTTGATA AAGTAATAAC ATCTCTATAT 3825TACTT 3830(2)SEQ ID NO：6资料：

(i)序列特征

(A)长度：652个氨基酸

(B)类型：氨基酸

(D)拓扑结构：线性

(ii)分子类型：蛋白质

(xi)序列描述：SEQ ID NO：6：Met Ala Ser Ser Ser Ser Ser Ser Arg Trp Ser Tyr Asp Val Phe Leu1 5 10 15Ser Phe Arg Gly Glu Asp Thr Arg Lys Thr Phe Thr Ser His Leu Tyr

20 25 30Glu Val Leu Asn Asp Lys Gly Ile Lys Thr Phe Gln Asp Asp Lys Arg

35 40 45Leu Glu Tyr Gly Ala Thr Ile Pro Gly Glu Leu Cys Lys Ala Ile Glu

85 90 95Phe Lys Gln Thr Val Ile Pro Ile Phe Tyr Asp Val Asp Pro Ser His

100 105 110Val Arg Asn Gln Lys Glu Ser Phe Ala Lys Ala Phe Glu Glu His Glu

115 120 125Thr Lys Tyr Lys Asp Asp Val Glu Gly Ile Gln Arg Trp Arg Ile Ala

165 170 175Leu Cys Lys Ile Ser Leu Ser Tyr Leu Gln Asn Ile Val Gly Ile Asp

180 185 190Thr His Leu Glu Lys Ile Glu Ser Leu Leu Glu Ile Gly Ile Asn Gly

195 200 205Val Arg Ile Met Gly Ile Trp Gly Met Gly Gly Val Gly Lys Thr Thr

245 250 255Arg Gly Met His Ser Leu Gln Asn Ala Leu Leu Ser Glu Leu Leu Arg

260 265 270Glu Lys Ala Asn Tyr Asn Asn Glu Glu Asp Gly Lys His Gln Met Ala

275 280 285Ser Arg Leu Arg Ser Lys Lys Val Leu Ile Val Leu Asp Asp Ile Asp

325 330 335Glu Lys Asn Asp Ile Ile Tyr Glu Val Thr Ala Leu Pro Asp His Glu

340 345 350Ser Ile Gln Leu Phe Lys Gln His Ala Phe Gly Lys Glu Val Pro Asn

355 360 365Glu Asn Phe Glu Lys Leu Ser Leu Glu Val Val Asn Tyr Ala Lys Gly

405 410 415Ser Gly Ile Ile Asp Lys Leu Lys Ile Ser Tyr Asp Gly Leu Glu Pro

420 425 430Lys Gln Gln Glu Met Phe Leu Asp Ile Ala Cys Phe Leu Arg Gly Glu

435 440 445Glu Lys Asp Tyr Ile Leu Gln Ile Leu Glu Ser Cys His Ile Gly Ala

485 490 495Tyr Ile Val Asn Phe Gln Lys Asp Pro Gly Glu Arg Ser Arg Leu Trp

500 505 510Leu Ala Lys Glu Val Glu Glu Val Met Ser Asn Asn Thr Gly Thr Met

515 520 525Ala Met Glu Ala Ile Trp Val Ser Ser Tyr Ser Ser Thr Leu Arg Phe

565 570 575Arg Cys Phe Val Cys Thr Asn Tyr Pro Trp Glu Ser Phe Pro Ser Thr

580 585 590Phe Glu Leu Lys Met Leu Val His Leu Gln Leu Arg His Asn Ser Leu

595 600 605Arg His Leu Trp Thr Glu Thr Lys Lys Lys Asn Asn Ile Ala Glu Lys

610 615 620Glu Gly Asp Gly Ile Leu Ile Glu Phe Trp Gly Asp Leu Gln Trp Ala625 630 635 640Phe Ala Val Ser Thr Glu Asp Arg Ser Gln Leu Val

645 650

Claims

1.分离和纯化的含有编码N基因蛋白的核苷酸序列的核酸分子，所述核苷酸序列选自：

(a)SEQ ID NO：3中第60至3494号核苷酸的编码N基因蛋白的核苷酸序列；

(b)编码具有SEQ ID NO：4中氨基酸序列的N基因蛋白的核苷酸序列；

(c)与SEQ ID NO：3中约第60至3494号核苷酸有70％核苷酸序列同源性的DNA序列，其中所述被编码的N基因蛋白具有在合成该N基因蛋白的植物中介导烟草花叶病毒抗性的功能；

(d)SEQ ID NO：1中第1至7400号核苷酸的编码N基因蛋白的核苷酸序列；和

(e)与SEQ ID NO：1中约第1至7400号核苷酸有70％核苷酸序列同源性的DNA序列，其中所述被编码的N基因蛋白具有在合成该N基因蛋白的植物中介导烟草花叶病毒抗性的功能。

2.权利要求1中的核酸分子，其中所述核苷酸序列编码具有SEQID NO：4所示氨基酸序列的N基因蛋白。

3.权利要求2中的核酸分子，其中所述编码N基因蛋白的核苷酸序列如SEQ ID NO：3中第60～3494号核苷酸所示。

4.含有编码N基因蛋白的核酸部分的非天然存在的核酸分子，所述N基因是从茄科植物中得到的，所述部分编码N基因蛋白，所述部分与SEQ ID NO：3中约第60至3494号核苷酸有至少约70％核苷酸序列同源性，并且其中所述N基因蛋白具有在合成所述N基因蛋白的植物中介导烟草花叶病毒抗性的功能。

5.权利要求4中的非天然存在的核酸分子，其中所述N基因编码部分是从烟草属植物中得到的。

6.权利要求5中的非天然存在的核酸分子，其中所述N基因编码部分是从粘毛烟草中得到的。

7.权利要求6中的非天然存在的核酸分子，其中所述部分编码具有SEQ ID NO：4所示氨基酸序列的N基因蛋白。

8.权利要求4中的非天然存在的核酸分子，其中所述编码N基因蛋白的部分具有SEQ ID NO：3中第60至3494号核苷酸序列，其中所述N基因蛋白具有在合成所述N基因蛋白的植物中介导烟草花叶病毒抗性的功能。

9.含有编码N基因蛋白的核酸部分的非天然存在的核酸分子，所述N基因是从茄科植物中得到的，所述部分编码N基因蛋白，所述部分与SEQ ID NO：1中约第1至7400号核苷酸有至少约70％核苷酸序列同源性，并且其中所述N基因蛋白具有在合成所述N基因蛋白的植物中介导烟草花叶病毒抗性的功能。

10.茄科的转基因植物，该植物已被遗传工程化，以含有并表达一个核酸构建体，该构建体含有编码N基因蛋白的核苷酸序列，所述编码N基因蛋白的核苷酸序列来自茄科植物，所述编码N基因的核苷酸序列与SEQ ID NO：3中约第60至3494号核苷酸有至少70％核苷酸序列同源性，由此，所述植物通过表达编码所述N基因蛋白的核苷酸序列而被赋予烟草花叶病毒抗性。

11.权利要求10中的转基因植物，其中所述N基因编码部分来自烟草属植物。

12.权利要求11中的转基因植物，其中所述N基因编码部分来自粘毛烟草。

13.权利要求10中的转基因植物，其中所述部分编码具有SEQ IDNO：4所示氨基酸序列的N基因蛋白。

14.权利要求10中的转基因植物，其中所述编码N基因蛋白的部分具有SEQ ID NO：3中第60至3494号核苷酸的核苷酸序列。

15.权利要求10中的转基因植物，其中所述植物是辣椒属中的一种。

16.权利要求10中的转基因植物，其中所述植物是番茄属植物。

17.权利要求16中的转基因植物，其中所述植物是番茄。

18.权利要求10中的转基因植物，其中所述植物是烟草属植物。

19.权利要求10中的转基因植物，其中所述植物是栽培烟草。

20.权利要求10中的转基因植物，其中所述植物是粘毛烟草。

21.一种茄科转基因植物，该植物已被遗传工程化，以含有并表达N基因，所述N基因具有SEQ ID NO：1所示核苷酸序列。

22.一种茄科转基因植物，该植物已被遗传工程化，以含有并表达SEQ ID NO：3所示的N蛋白编码序列，其中所述转基因植物已被进一步遗传工程化，以含有并表达SEQ ID NO：5所示的N衍生序列。

23.应用含有编码N基因蛋白的核酸部分的核酸分子的方法，所述编码N基因蛋白的部分来自茄科植物，所述编码N基因蛋白的部分与SEQ ID NO：3中约第60至3494号核苷酸有至少约70％核苷酸序列同源性，其中所述N基因蛋白具有在合成所述N基因蛋白的植物中介导烟草花叶病毒抗性的功能，以赋予含有并表达所述N基因蛋白的转基因植物以烟草花叶病毒抗性，所述方法包括以下步骤：

(a)用遗传工程技术处理植物组织使之含有并表达所述N基因蛋白编码序列；

(b)步骤(a)中的经遗传工程化的植物组织再生形成植株，

通过所述方法，含有并表达所述序列的植物即被赋予烟草花叶病毒抗性。

24.权利要求23中的方法，其中所述N基因编码部分来自烟草属植物。

25.权利要求24中的方法，其中所述N基因编码部分来自粘毛烟草。

26.权利要求25中的方法，其中所述部分编码具有SEQ ID NO：4所示氨基酸序列的N基因蛋白。

27.权利要求26中的方法，其中所述编码N基因蛋白的部分具有SEQ ID NO：3中第60至3494号核苷酸的核苷酸序列。

28.权利要求25中的方法，其中所述部分编码具有SEQ ID NO：6所示氨基酸序列的N基因蛋白。

29.权利要求28中的方法，其中所述编码N基因蛋白的部分具有SEQ ID NO：5中第60至2018号核苷酸的核苷酸序列。

30.应用含有编码N基因蛋白的核酸部分的核酸分子的方法，其中所述部分如SEQ ID NO：1所示，且具有在合成所述N基因蛋白的植物中介导烟草花叶病毒抗性的功能，以赋予含有并表达所述N基因蛋白的转基因植物以烟草花叶病毒抗性，所述方法包括以下步骤：

(b)步骤(a)中的经遗传工程化的植物组织再生形成植株，通过所述方法，含有并表达所述序列的植物即被赋予烟草花叶病毒抗性。

31.应用含有第一和第二核酸部分的核酸分子的方法，其中第一核酸部分编码N基因蛋白，所述编码N基因蛋白的部分具有SEQ ID NO：3中第60至3494号核苷酸的核苷酸序列，第二核酸部分具有SEQ ID NO：5所示的核苷酸序列，所述第一和第二核酸部分是在植物组织中表达的，所述方法包括以下步骤：

(a)用遗传工程技术处理植物组织使之含有并表达所述第一和第二核酸部分；

(b)所述植物组织再生形成植株，通过所述方法，含有并表达所述第一和第二核酸部分的植物即被赋予烟草花叶病毒抗性。