CN101189340A

CN101189340A - 杀虫活性蛋白质和编码所述蛋白质的多核苷酸的新的来源和类型

Info

Publication number: CN101189340A
Application number: CNA2006800138373A
Authority: CN
Inventors: I·M·拉里努亚; D·J·默洛; A·T·乌斯雷; T·D·海伊; T·米德; S·L·博顿
Original assignee: Dow AgroSciences LLC
Current assignee: Corteva Agriscience LLC
Priority date: 2005-03-02
Filing date: 2006-03-02
Publication date: 2008-05-28

Abstract

本发明提供了令人惊奇的新类型的毒素复合体(“TC”)蛋白质的新来源。本发明包括这些新类别和类型的TC蛋白质。本发明还包括编码主题蛋白质的多核苷酸。本发明还提供了包含这些多核苷酸的载体和细胞。本发明还提供了控制昆虫的新方法。本发明部分涉及令人惊奇的新发现，即可以从多种种系发生范围的生物，包括最值得注意和令人惊奇地，从真核真菌得到新类型的TC蛋白质。

Description

杀虫活性蛋白质和编码所述蛋白质的多核苷酸的新的来源和类型

相关申请的交互参考

本申请要求2005年3月2日提交的美国临时专利申请序列号60/657,965和2005年8月2日提交的美国临时专利申请序列号60/704,533的优先权。

背景

每年花费数十亿美元用于控制昆虫，并且因为昆虫施加的作物损害损失额外的数十亿美元。合成的有机化学杀虫剂是用于控制昆虫的主要工具，但是生物杀虫剂在一些领域具有重要的作用。用杀虫蛋白质基因如来自苏云金芽孢杆菌(Bacillus thuringiensis)(B.t.)的杀虫蛋白质的基因转化的昆虫抗性植物已经彻底改变了现代农业并且提高了杀虫蛋白质和它们的基因的重要性和价值。

主要在Photorhabdus和致病杆菌属(以及在其他细菌属如沙雷氏菌属、假单胞菌属(Pseudomonas)和类芽孢杆菌属)的细菌中发现的毒素复合体(TC)蛋白质和基因是杀虫蛋白质和基因的重要的、相对新的来源。至少有三种不同类别的TC蛋白质。天然的A类TC蛋白质大小约为280kDa并且具有杀虫活性。B类TC蛋白质(约170kDa)和C类TC蛋白质(约107kDa)组合增强A类TC蛋白质的杀虫功效，但是在A类TC蛋白质不存在时具有很小的到无杀虫活性。即，B类和C类TC蛋白质组合加强A类TC蛋白质的杀虫活性。关于技术的详细综述见例如，US-2004-0208907和WO 2004/067727。A类TC蛋白质具有杀虫活性，但是该活性相对较低。当A类TC蛋白质与B类和C类TC蛋白质组合时，它们形成复合体，该复合体比仅仅C类TC蛋白质有效得多。

不像苏云金芽孢杆菌、致病杆菌属和Photorhabdus(它们是已知杀虫的和具有杀虫蛋白质的生物)，不知道生物如禾本科镰孢(Fusariumgraminaerum)(现在称作玉蜀黍赤霉(Gibberella zeae))和甲烷八叠球菌(Methanosarcina)是杀虫的并且不知道其产生杀虫活性蛋白质。

概述

本发明提供了毒素复合体(“TC”)蛋白质的新的类别和类型，和TC蛋白质的令人兴奋的新的来源。本发明还包括编码主题蛋白质的多核苷酸。本发明还提供了包含这些多核苷酸的载体和细胞。本发明还提供了控制昆虫的新方法。

本发明部分涉及令人惊奇的发现，即可以从多种不同的种系发生范围的生物，包括最值得注意的真核真菌得到新类型的TC蛋白质。

附图简述

图1给出了搜索的图形输出，该搜索在NCBI非冗余蛋白质数据库的标准蛋白质-蛋白质BLAST搜索中使用SEQ ID NO：6的人工融和蛋白质序列，使用下面的默认值：滤器设置成低复杂性；期望值10；字长3；矩阵BLOSUM62；缺口代价：存在11，延伸1。

图2显示了Tannerella中天然BC融合中的氨基酸序列，其中加下划线的氨基酸显示了使用spvB-ls.hmm模型的spvB结构域；具有双下划线的氨基酸显示了使用BModel7.hmm模型的FG-GAP结构域；粗体氨基酸显示了使用Pfam rhs_ls.hmm模型的RHS结构域；斜体氨基酸显示了由于缺少与其他蛋白质的同源性作图的HVR。

图3显示了假定的蛋白质FG10566.1融合的BC毒素蛋白质[玉蜀黍赤霉PH-1]的氨基酸序列，其中加下划线的氨基酸指出使用标准spvB-ls.hmm模型得到的spvB结构域；加双下划线的氨基酸指出用BModels3.hmm模型发现的三个FG-GAP结构域；粗体氨基酸显示了使用Pfam rhs_ls.hmm模型的RHS结构域；斜体氨基酸显示了通过缺少与其他蛋白质的同源性作图的HVR。

图4A-D显示了来自Tannerella和赤霉属(Gibberella)的两种BC融合的毒素蛋白质的总体比对。

序列简述

SEQ ID NO：1是天然基因组DNA序列tcp1_Gz，其编码SEQ ID NO：2的蛋白质。

SEQ ID NO：2显示了Tcp1_Gz蛋白质(包括推定的内含子的连读)的天然氨基酸序列。

SEQ ID NO：3显示了除去推定的内含子的天然的、假定的cDNA序列。该序列编码SEQ ID NO：4的蛋白质。

SEQ ID NO：4是除去内含子编码的序列的Tcp1_Gz蛋白质的天然氨基酸序列。

SEQ ID NO：5是大肠杆菌(E.coli)优化的多核苷酸序列，其编码SEQID NO：2的Tcp1_Gz蛋白质。

SEQ ID NO：6是从TcaC(GenBank检索号AAC38625.1)和TccC1(GenBank检索号AAL18473.1)(都来自发光光杆状菌(Photorhabdusluminescens)菌株W-14)的氨基酸序列产生的融合蛋白的实例。

SEQ ID NO：7是从噬乙酸甲烷八叠球菌(Methanosarcina acetivorans)菌株C2A得到的基因组序列，其编码两个结构域毒素复合体蛋白。

SEQ ID NO：8是SEQ ID NO：7编码的氨基酸序列。

SEQ ID NO：9是编码A类TC蛋白质的基因组序列(来自玉蜀黍赤霉PH-1菌株PH-1；NRRL 31084染色体1)。

SEQ ID NO：10是SEQ ID NO：9编码的氨基酸序列。

SEQ ID NO：11是Tannerella forsythensis(ATCC 43037)中B/C类融合基因的全长序列。

SEQ ID NO：12是SEQ ID NO：11编码的蛋白质。

SEQ ID NO：13是用于根据本发明的PCR的引物P1。

SEQ ID NO：14是用于根据本发明的PCR的引物P2。

SEQ ID NO：15是用于根据本发明的PCR的引物P3。

SEQ ID NO：16是用于根据本发明的PCR的引物P4。

SEQ ID NO：17是用于根据本发明的PCR的引物P5。

SEQ ID NO：18是用于根据本发明的PCR的引物P6。

SEQ ID NO：19是融合8884(TcdB2/Tcp1_GzC)的核苷酸序列。核苷酸1-4422编码TcdB2；核苷酸4423-4464编码TcdB2/Tcp1_GzC接头肽；核苷酸4465-7539编码Tcp1_GzC。

SEQ ID NO：20是SEQ ID NO：19编码的8884TcdB2/Tcp1_GzC融合肽的氨基酸序列。氨基酸1-1474：TcdB2；氨基酸1475-1488：TcdB2/Tcp1_GzC接头肽；氨基酸1489-2513：Tcp1_GzC。

SEQ ID NO：21是融合8883(tcp1_GzB/tccC3)的核苷酸序列。核苷酸1-4536编码Tcp1_GzB；核苷酸编码Tcp1_GzB/TccC3接头肽；核苷酸4576-7455编码TccC3。

SEQ ID NO：22是SEQ ID NO：21编码的8883融合蛋白Tcp1_GzB/TccC3的氨基酸序列。氨基酸1-1512：Tcp1_GzB；氨基酸1513-1525：接头；氨基酸1526-2485：TccC3。

SEQ ID NO：23是植物优化的核苷酸序列，其编码玉蜀黍赤霉融合的B类/C类Tcp1_Gz蛋白质的变体。

SEQ ID NO：24是SEQ ID NO：23编码的玉蜀黍赤霉融合的B类/C类Tcp1_Gz蛋白质的变体。

SEQ ID NO：25是从轮枝样镰刀菌(Fusarium verticillioides)的AContig12提取的核苷酸序列。作为推定的TC A类蛋白质的第一区段的编码区的可读框开始的苏氨酸密码子(ACG)在核苷酸21-23表示为misc_feature。作为推定的TC A类蛋白质的第二部分的可读框开始的AAA赖氨酸密码子在核苷酸3022-3024表示为misc_feature。

SEQ ID NO：26是推导的SEQ ID NO：25编码的推定的A类蛋白质的第一区段。

SEQ ID NO：27是推导的SEQ ID NO：25编码的推定的A类蛋白质的第二区段。

SEQ ID NO：28是从轮枝样镰刀菌的Acontig34提取的核苷酸序列。对应于SEQ ID NO：29中推定的TC A类编码的蛋白质的第一个天冬酰胺的编码区开始在核苷酸20-22表示为misc_feature。可读框的第二部分在TGA终止密码子的下游4个碱基开始，包含690个碱基，并且编码SEQ ID NO：30中显示的230个氨基酸。可读框的第三个部分在TAA终止密码子下游11个碱基开始，包含1122个碱基，并且编码SEQ ID NO：31中显示的374个氨基酸。该DNA序列中的大缺口表示为2098个n的字符串，在核苷酸3299-5396处以misc_feature表示。Ns后的DNA序列的部分包含推导的推定A类蛋白质可读框的第四部分，并且编码SEQ ID NO：32中显示的1273个氨基酸。推导的推定TC A类蛋白质的该部分的第一个甘氨酸的GGA密码子在核苷酸5451-5453处表示为misc_feature。

SEQ ID NO：29是SEQ ID NO：28编码的推定的TC A类蛋白质的第一部分。

SEQ ID NO：30是SEQ ID NO：28编码的推定的TC A类蛋白质的第二部分。

SEQ ID NO：31是SEQ ID NO：28编码的推定的TC A类蛋白质的第三部分。

SEQ ID NO：32是SEQ ID NO：28编码的推定的TC A类蛋白质的第四部分。

SEQ ID NO：33是从轮枝样镰刀菌的BCContig12提取的核苷酸序列。对应于SEQ ID NO：34中推定的TC融合的B类/C类蛋白质编码的第一个丙氨酸的编码区的开始从核苷酸22-24表示为misc_feature。该DNA序列中的一个大缺口表示为659个n的字符串，从核苷酸5483-6141表示为misc_feature。开始推定的TC融合的B类/C类蛋白质的第二部分的框内组氨酸密码子(CAT)从核苷酸6203-6205表示为misc_feature。

SEQ ID NO：34是SEQ ID NO：33编码的推定的融合的TC B类/C类蛋白质的第一部分。

SEQ ID NO：35是SEQ ID NO：33编码的推定的融合的TC B类/C类蛋白质的第二部分。

SEQ ID NO：36是从轮枝样镰刀菌的BCContig6提取的核苷酸序列。对应于推定的TC融合的B类/C类蛋白的第一个谷氨酰胺(CAG)的编码区的开始从核苷酸20-22表示为misc_feature。开始推定的TC融合的B类/C类蛋白的第二部分的天冬氨酸密码子(GAT)在核苷酸619-621指出为misc_feature。

SEQ ID NO：37是SEQ ID NO：36编码的推定的融合TC B类/C类蛋白质的第一个部分。

SEQ ID NO：38是SEQ ID NO：36编码的推定的融合的TC B类/C类蛋白质的第二个部分。

SEQ ID NO：39是从轮枝样镰刀菌的BCContig46提取的核苷酸序列。对应于推定的TC融合的B类/C类蛋白的第一部分的第一个谷氨酸的编码区的开始(GAG)在核苷酸21-23表示为misc_feature。DNA序列中的大缺口表示为1009n’s，从核苷酸3424-4432指出为misc_feature。指定该n后推定的TC融合的B类/C类蛋白的第二部分的第一个亮氨酸的TTG密码子在核苷酸4435-4437表示为misc_feature。

SEQ ID NO：40是SEQ ID NO：39编码的推定的融合的TC B类/C类蛋白的第一部分。

SEQ ID NO：41是SEQ ID NO：39编码的推定的融合的TC B类/C类蛋白的第二部分。

详细描述

本发明部分涉及令人惊奇的发现，即可以从多种种系发生的生物得到新类型的TC蛋白质，所述生物包括，最值得注意地，真核真菌。这是首次公开在例如玉蜀黍赤霉(以前称作禾本科镰孢)和甲烷八叠球菌属中的抗昆虫毒素。这些生物迄今还未知是杀昆虫的并且没有怀疑具有编码昆虫活性蛋白质的基因组区段。

该发现扩宽了发现TC样基因的生物的范围。从而，本发明一般涉及从此类物种可以得到的TC样蛋白质，涉及对这些物种筛选此类蛋白质的方法，等等。

考虑一些来源生物在自然界中的“角色”也可以导致发现额外的TC蛋白质和基因的新方法。例如，玉蜀黍赤霉(以前称作禾本科镰孢)是已知的植物病原体。本发明具有该益处，一种理论是使用农作物，如玉米作为食物来源的微生物进化了抗昆虫毒素，其帮助它们胜过也以所述作物为食的昆虫。从而，本发明可以包括筛选植物-病原性微生物的抗昆虫蛋白质等等的方法。

这也是首次已知的发现天然存在的功能活性的两个结构域的毒素复合体(“TC”)蛋白质，其中一个结构域是有功能的和与“B类”TC蛋白质的一定水平的序列相关性(如下文更详细讨论的)，另一个结构域是有功能的和与“C类”TC蛋白质的一定水平的序列相关性(如下文更详细讨论的)。如本文使用的，“B结构域”、“B区段”、“C结构域”和“C区段”指与如在US-2004-0208907和WO 2004/067727中详细讨论的“B类”和“C类”TC蛋白质具有结构和功能相似性的多肽结构域或者区段。同样，本发明的“A类”蛋白质一般在例如US-2004-0208907和WO 2004/067727中讨论。

尽管玉蜀黍赤霉基因组(例如)的序列在GENBANK中公开，但是迄今还没有现有技术提示或者预期主题蛋白质将具有像已知的TC蛋白质的活性。例如，当前鉴定的结构域具有非常低程度的序列相关性和独特构象。这对于本文公开的细菌序列也是这样的。甚至没有动机去检验这些基因组序列对于假定编码的蛋白质的任何活性，因为考虑到例如低程度的序列相关性、蛋白质的特异构象，和具有这些基因组序列的生物。没有理由期望这些来源中的TC，更不用说有活性的、天然“融合的”蛋白质像Tcp1_Gz。当然没有动机将这些基因克隆到例如植物细胞中。也没有动机筛选这些物种分离菌的培养物集合以确定主题基因是否更广泛地存在于这些生物的多种菌株中。

一种示例的抗昆虫蛋白质(A类毒素的增强剂)在本文中称作Tcp1_Gz。为了容易引用，本发明的这两种结构域蛋白质有时在本文中称作“天然融合”和Tcp1_Gz一样蛋白质。本发明从而包括这些新类别和类型的TC蛋白质。本发明还包括编码主题蛋白质的多核苷酸。本发明还提供了包含这些多核苷酸的载体和细胞。在一些优选实施方案中，本发明还提供了使用本发明的新的毒素蛋白质控制昆虫和其他类似害虫的新方法。

已经发现和证明本发明的天然存在的(但是迄今不是“分离的”)的两个TC结构域是有活性的，现在将有动机测试和使用其他天然存在的两个结构域TC蛋白质。此类实施方案优选甲烷八叠球菌属。除了甲烷八叠球菌属和赤霉属，根据本发明使用的新的来源生物包括密螺旋体属(Treponema)、钩端螺旋体属(Leptospira)、Microbulbifer、伯克霍尔德氏菌属(Burkholderia)和Nitrosospora属的物种。

本发明还涉及筛选新的来源生物的新的A类型蛋白质和基因的，如本文公开。真核生物、真菌、赤霉属、镰孢属(Fusarium)和曲霉属(Aspergillus)是一些优选的来源，如伯克霍尔德氏菌属细菌。

本发明的Tcp1_Gz-样(天然融合)蛋白质通常是约220kDa到约295kDa范围的分子量，尽管这仅仅是大概的大小范围。优选的重量为例如280-285kDa的大概范围。天然存在的两结构域/BC型毒素复合体蛋白质的另一个实例可从噬乙酸甲烷八叠球菌(Methanosarcina acetivorans)菌株C2A得到。天然基因和蛋白质的序列在SEQ ID NOs：7-8中给出。

示例的Tcp1_Gz蛋白质的另一令人惊奇的特征是它具有明显的内含子。从而，本发明包括分离的包含内含子序列的TC蛋白质。本发明还包括搜索、鉴定和/或筛选含有内含子样序列的TC蛋白质。

本发明还提供了令人惊奇的新类型的毒素复合体(“TC”)蛋白质的令人惊奇的新来源。从而，本发明一般涉及例如具有活性TC蛋白质的赤霉属、镰孢霉属和甲烷八叠球菌属物种。本发明还包括筛选这些新的和其他物种(它们的一些在本文中鉴定)的这些新类别的TC基因和蛋白质(以及已知的A类、B类和C类型TC蛋白质)的方法。本发明还包括从这些物种分离和/或纯化TC蛋白质并测试它们的如本文公开的毒素活性的方法。本发明还包括从这些生物制备和筛选所克隆的基因(或者其他方法产生的)文库。在一些优选实施方案中，所述生物是真核的。真核生物来源的主题蛋白质和基因对于在植物中高水平表达尤其有希望。

这是首次已知报导任一类型的这些具有功能活性TC样蛋白质的生物。该发现因为本发明蛋白质的独特的两个结构域的构象而甚至更令人惊奇。从而，本发明涉及筛选这些物种的TC样基因和蛋白质的方法。这些开拓性观察具有宽的暗示并且使得本领域技术人员能够对合适物种的细菌和真菌筛选本发明的独特的操纵子。

本发明的Tcp1_Gz-样蛋白质在本文中显示为可用于增强或加强例如“独立的”致病杆菌属(Xenorhabdus)和/或Photorhabdus“A类”毒素蛋白质的活性。本发明的一种或多种TC蛋白质可以用作与本领域已知的技术组合的新的成分。见例如，US-2004-0208907和WO 2004/067727。

本发明还提供了新的“A类”型TC蛋白质，其作为一个类别具有“独立的”毒素活性。更详细的解释见例如，US-2004-0208907和WO2004/067727。该类型的一个示例的A类基因和蛋白质可以来自本文公开的赤霉属生物。见SEQ ID NOs：9-10。

尽管主题TC样蛋白质具有与例如致病杆菌属和Photorhabdus的TC蛋白质的一定的序列相关性和特征，但是主题TC样蛋白质的序列与以前已知的TC蛋白质不同。从而，本申请提供了新类别的TC样蛋白质和编码这些蛋白质的基因，其从本文鉴定和提示的细菌和真菌属得到。

利用本公开的优点，本发明的其他目的、优点和特征将是本领域技术人员显而易见的。

施用主题蛋白质、和其功能、活性和用途。如本文使用的术语各A类、B类和C类TC蛋白质是本领域中已知的。此类蛋白质包括独立的毒素(A类TC蛋白质)和增强剂(B和C类TC蛋白质)。已知产生TC蛋白质的细菌包括下面属的那些细菌：Photorhabdus、致病杆菌属、类芽孢杆菌属(Paenibacillus)、沙雷氏菌属(Serratia)和假单胞菌属(Pseudomonas)。见例如，丁香假单胞菌(Pseudomonas syringae)pv.Syringae B728a(GenBank检索号gi：23470933和gi：23472543)。

如上面背景部分中提到的，尽管“毒素A”蛋白质单独具有一定的杀昆虫活性，但是“A+B+C”复合体的高杀虫功效对于TC蛋白质的商业应用更优选。然而，TC蛋白质的确切作用机理仍然不清楚。同样，还不确切的知道A、B和C组分的每种怎样(和是否)相互作用。从而，没有先验的方法来预测本发明的蛋白质是否将允许在昆虫内脏中正确发挥功能。

令人惊奇的是发现主题蛋白质对于控制昆虫是高度有效的。没有预测被靶昆虫摄入后本天然的融合蛋白质将是有活性的(即，与A类TC蛋白质组合有毒性)。在本文中显示主题蛋白质令人惊奇地在昆虫内脏中相当好地发挥功能。

可以以许多不同的方法进行本发明。例如，可以工程化植物以产生一种或多种类型的A类TC蛋白质以及本发明的Tcp1_Gz-型蛋白质，后一蛋白质加强A类TC蛋白质的活性。植物的每个细胞或者给定类型组织(如根或叶)中的每个细胞可以设计成具有编码A蛋白质和Tcp1_Gz-型蛋白质的基因。备选地，植物的不同细胞可以仅产生这些蛋白质每一种的一种(或多种)。在该情况下，当昆虫叮咬和食用植物的组织时，它可以吃产生第一种A类TC蛋白质的细胞、产生第二种A类TC蛋白质的另一种细胞，和产生Tcp1_Gz-型蛋白质的另一种细胞。从而，植物(不一定是每种植物细胞)可以产生本发明的一种或多种类型的A类TC蛋白质和Tcp1_Gz-型蛋白质，从而当害虫吃植物的组织时，它们吃所有这些类型的蛋白质。

除了转基因植物外，在本发明的组合中还有多种对靶标害虫施用所述蛋白质的其他方法。喷射应用是本领域中已知的。一些或者所有A类和Tcp1_Gz-类蛋白质可以喷雾(该植物可以产生可以喷雾的一种或多种蛋白质和其他蛋白质)。用于例如土壤应用的多种类型的诱饵粒剂也是本领域中已知的并且可以根据本发明使用。

本发明提供了容易施用的功能蛋白质。本发明还提供了递送杀虫蛋白质的方法，所述蛋白质是功能活性的并且有效抵抗许多目的昆虫，优选鳞翅目和/或鞘翅目昆虫。“功能活性”(或者“对...的活性”)在本文中指蛋白质作为口服活性昆虫控制剂(单独或者与其他蛋白质组合)起作用，该蛋白质具有毒性作用(单独或者与其他蛋白质组合)，或者能够破坏或者阻止昆虫生长和/或进食，其可以引起或不引起昆虫死亡。当昆虫接触通过转基因植物表达、配制的蛋白质组合物、可喷雾的蛋白质组合物、诱饵基质或者其他递送系统递送的“有效量”的本发明的“杀虫蛋白质”时，结果通常是昆虫死亡、昆虫生长和/或繁殖的抑制、和/或防止昆虫进食使得昆虫可获得所述蛋白质的来源(优选转基因植物)。

从而，例如，摄入有效量的A类TC蛋白质和Tcp1_Gz-型蛋白质的昆虫可以例如被阻止进食，生长障碍和/或被杀死。本发明的Tcp1_Gz-型蛋白质如果当与A类TC蛋白质组合使用时增强A类TC蛋白质的功能活性，那么具有“功能性”或者毒素活性。

对进食昆虫的完全致死率是优选的，但是不是实现功能活性所需的。如果昆虫避免该蛋白质或者停止进食，该避免将可用于一些应用中，即使效果是亚致死的或者致死率延迟或者是间接的。例如，如果希望昆虫抗性转基因植物，那么昆虫不愿以植物为食与对昆虫的致死毒性是一样有用的，因为最终的目的是避免昆虫诱导的植物伤害。

功能活性向植物、细菌或者其他系统的转移通常需要编码毒素的氨基酸序列的核酸序列整合到适于宿主的蛋白质表达载体中，该载体将存在于该宿主中。得到编码具有功能活性的蛋白质的核酸序列的一种方法是从使用如本文公开的从毒素的氨基酸序列推导的信息，从产生所述毒素的天然来源物种分离天然遗传物质。可以优化天然序列以在植物中表达，如下面更详细讨论。还可以基于蛋白质序列设计优化的多核苷酸。

有许多其他方法可以将TC蛋白质整合到昆虫的食物中。例如，可能通过用蛋白质溶液喷雾食物，将毒素蛋白质掺入幼虫食物来源，如本文公开。备选地，纯化的蛋白质可以遗传工程化到其他方面有害的细菌中，其然后培养生长，并应用到食物来源或者允许存在于希望消灭昆虫的地区的土壤中。而且，用于产生该蛋白质的DNA可以直接遗传工程化到昆虫食物来源。例如，许多昆虫幼虫的主要食物来源是植物材料。因此，可以将编码毒素的基因转移到植物材料中，从而所述植物材料产生目的毒素。

当说本发明的Tcp1_Gz-型蛋白质具有两个结构域时，将注意到这不排除例如在两个主要结构域的每个结构域中存在多种亚结构域、区域和蛋白质基序。此外，由于两个主要结构域与B类和C类TC蛋白质分别具有同源性，并且考虑到本发明的Tcp1_Gz-型蛋白质在本文中显示作用类似于并且可以像B和C类TC蛋白质一样使用，本发明包括使用Tcp1_Gz-型蛋白质的任一个或者两个结构域。即，Tcp1_Gz-型蛋白质的像C类的结构域可以例如与致病杆菌属或Photorhabdus B类蛋白质一起使用。对于Tcp1_Gz-型蛋白质的像B类的结构域也是这样。在例如下面标题为“基因和蛋白质的修饰”章节中描述了用于切割蛋白质和对应的DNA以分离和再连接目的片段的多种方法。(此类DNA和蛋白质片段例如在本发明的范围内)。可以设想许多可能的组合和应用。例如，在一些实施方案中，Tcp1_Gz-型蛋白质的片段(优选B结构域片段或者C结构域片段)可以(与剩余的片段)分离、交换(融合或非融合)和根据US-2004-0208907和WO 2004/067727的教导“混合和匹配”。(如本文公开的B类和C类序列的任一种也可以用于限定本发明的实施方案。例如，在本文示例的全长序列中，通过与US-2004-0208907和WO 2004/067727中的序列比较鉴定B类和C类结构域，并因此单独使用)。如下文讨论的，本发明的C类结构域可以通过合成连接到B类TC蛋白质。同样，B类结构域可以通过合成连接到C类TC蛋白质。

连接和其他术语和定义。本发明的Tcp1_Gz-型蛋白质可以连接到A类TC蛋白质。见例如2004年3月2日提交的美国序列号60/549,516。如上面提到的，其他可能性是本发明的B类和/或C类结构域(对应于本发明的两个结构域蛋白质的片段)可以通过合成连接到另一TC蛋白质。见例如，2004年3月2日提交的美国序列号60/549,502。如本文使用的，可以理解由于含有编码通常分开的蛋白质或者蛋白质结构域的氨基酸序列的编码序列的多核苷酸的翻译，可以引起通常分离的蛋白质或蛋白质结构域的连接。

如本文使用的，术语“接头”和“接头序列”指用于将第一个蛋白质编码区连接到随后紧随的蛋白质编码区的核苷酸，使得第一个和第二个(和/或随后的)蛋白质编码区在如第一个蛋白质编码区的可读框所定义的+1读框内形成一个更长的蛋白质编码区。此类接头或接头序列因此不能包括+1读框中的翻译终止密码子。由于接头或接头序列的翻译，第一个蛋白质编码区编码的蛋白质通过一个或多个氨基酸连接到第二个蛋白质编码区编码的蛋白质。接头是任选的，因为多肽组分可以不用接头序列而直接连接。

如本文使用的，对“分离的”多核苷酸和/或蛋白质和“纯化的”蛋白质的引用指这样的分子，它们不与它们将在自然中发现结合的其他分子结合。从而，对“分离的”和/或“纯化的”引用表明如本文描述的“人手”的参与。例如，置于植物中的本发明的细菌或真菌多核苷酸(或者“基因”)是“分离的多核苷酸”。同样地，本发明的蛋白质当通过植物产生时是“分离的蛋白质”。术语“连接的”还可以用于表示“人手”的参与。即，一个多核苷酸组分(如Tcp1_Gz-型蛋白质)可以通过合成结合或“连接”到另一多肽组分(如A类蛋白质)以形成本发明的融合蛋白。

“重组的”分子指已经重组的分子。当涉及核酸分子时，该术语指包含通过分子生物学技术连接在一起的核酸序列的分子。术语“重组的”当涉及蛋白质或者多肽时指使用一种或多种重组核酸分子产生的蛋白质分子。

术语“同源的”当涉及核酸序列时指核苷酸序列，其连接到或者经操作而变得连接到它在自然中不连接的核酸序列，或者连接到它在自然中连接在不同位置的核酸序列。术语“同源的”因此指出已经使用遗传工程，即通过人的干预操作了核酸分子。从而，本发明的基因可以有效连接到异源启动子(或者“转录调节区”，其指当转录调节区有效连接到目的序列时，能够介导或者调节目的核苷酸序列的转录的核苷酸序列)。优选的异源启动子可以是植物启动子。当序列功能连接以便允许目的序列的转录受到转录调节区的介导或调节时，启动子和/或转录调节区和目的序列是“有效连接的”。在一些实施方案中，为了有效连接，转录调节区可以位于与目的序列相同的链上。在一些实施方案中，转录调节区可以位于目的序列的5’。在此类实施方案中，转录调节区可以直接在目的序列的5’或者在这些区域之间可以存在间插序列。转录调节区和目的序列的有效连接可以需要合适的分子(如转基因激活蛋白)结合到转录调节区，本发明因此包括这样的实施方案，其中在体外或者体内提供此类分子。

有多种方法可得到根据本发明使用的蛋白质。例如，针对本文公开的蛋白质的抗体可以用于从混合物鉴定和分离其他蛋白质。特别地，可以针对最恒定并且与其他蛋白质最不同的蛋白质部分产生抗体。然后这些抗体可以用于通过免疫沉淀、酶联免疫吸附测定(ELISA)、或者免疫印迹特别鉴定具有特征性活性的等同蛋白质。针对本文公开的蛋白质、或者针对等同蛋白质或者这些蛋白质的片段的抗体可以使用标准方法容易地制备。此类抗体是本发明的方面。可以从多种来源/来源微生物得到本发明的蛋白质。

本领域技术人员将容易认识到可以从多种来源得到本发明的蛋白质(和基因)。“来自”或“得自”本文涉及的或者提到的任一种主题分离菌的蛋白质指蛋白质(或者相似的蛋白质)可以从示例的分离菌或者一些其他来源，如另一种真菌或者细菌菌株或者植物(例如，工程化以产生所述蛋白质的植物)得到。“来自”也具有该含义，并且包括可以从给定类型的真菌或者细菌得到的多核苷酸(和蛋白质)，其中修饰该多核苷酸以在例如植物中表达。本领域技术人员将容易认识到，考虑到微生物基因和蛋白质的公开，可以工程化植物以产生蛋白质。使用本文公开的多核苷酸和/或氨基酸序列可以制备抗体制剂、核酸探针(DNA和RNA)，并用于从其他(天然)来源筛选和发现其他蛋白质基因。

鉴定本发明的蛋白质和基因。根据本发明使用的蛋白质和基因可以通过使用例如寡核苷酸探针鉴定和得到。这些探针是可以检测到的核苷酸序列，其可以通过合适的标记检测到或者可以如国际申请号WO 93/16094中描述的使得内在地发荧光。探针(和本发明的多核苷酸)可以是DNA、RNA、或者PNA。除了腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U；用于RNA分子)、合成探针(和多核苷酸)还可以具有次黄苷(能够与四种碱基配对的中性碱基；有时用于代替合成探针中的所有四种碱基的混合物)。从而，当在本文中提及合成的简并寡核苷酸，并且“N”或“n”一般性使用时，“N”或“n”可以是G、A、T、C或者次黄苷。本文使用的不明确代码在提交本申请时是根据标准IUPAC命名惯例(例如，R指A或者G，Y指C或者T，等等)。

如本领域公知的，如果探针分子与核酸样品杂交，那么可以有理由假定该探针和样品具有实质的同源性/相似性/同一性。优选地，通过本领域中公知的技术首先进行多核苷酸的杂交，然后在低、中或者高严格条件下洗涤，如Keller，G.H.，M.M.Manak(1987)DNA Probes，Stockton Press，NewYork，NY，pp.169-170中所述。例如，如本文陈述，通过在室温下首先用2x SSC(标准柠檬酸盐盐水)/0.1％SDS(十二烷基硫酸钠)洗涤15分钟实现低严格条件。通常进行两次洗涤。通过降低盐浓度和/或通过升高温度可以实现更高的严格性。例如，上述洗涤后可以接着进行用0.1x SSC/0.1％SDS进行两次洗涤，每次在室温下进行15分钟，接着用0.1x SSC/0.1％SDS在55℃洗涤，每次30分钟。这些温度可以用于本文给出的其他杂交和洗涤方案并且是本领域技术人员已知的(例如SSPE可以用作盐代替SSC)。通过向445ml水加入50ml 20x SSC和5ml 10％SDS，可以制备2x SSC/0.1％SDS。通过组合NaCl(175.3g/0.150M)，柠檬酸钠(88.2g/0.015M)，和水，用10N NaOH调节pH到7.0，然后调节体积到1升，可以制备20x SSC。通过将10g SDS溶解在50ml高压灭菌水中，然后稀释到100ml，可以制备10％SDS。

探针的检测提供了以已知方式确定是否保持杂交的手段。这种探针分析提供了快速鉴定本发明的毒素编码基因的方法。用作根据本发明的探针的核苷酸区段可以用DNA合成仪和标准方法合成。这些核苷酸序列还可以用作PCR引物扩增本发明的基因。

与给定多核苷酸的杂交是可以用于鉴定、发现、和/或定义本发明的蛋白质和基因的技术。如本文使用的，杂交的“严格”条件指实现与本申请人使用的条件相同的或者基本相同程度的杂交特异性的条件。特别地，通过标准方法在DNA印迹上进行用³²P-标记基因特异探针与固定化DNA的杂交(见例如，Maniatis，T.，E.F.Fritsch，J.Sambrook[1982]MolecularCloning：A Laboratory Manual，Cold Spring Harbor Laboratory，ColdSpring Harbor，NY)。通常，在允许检测靶序列的条件下进行杂交和随后的洗涤。对于双链DNA基因探针，在DNA杂交分子的解链温度(Tm)下20-25℃在6x SSPE，5x Denhardt溶液，0.1％SDS，0.1mg/ml变性DNA中过夜进行杂交。解链温度如下面的公式描述(Beltz，G.A.，K.A.Jacobs，T.H.Eickbush，P.T.Cherbas，和F.C.Kafatos[1983]Methods ofEnzymology，R.Wu，L.Grossman and K.Moldave[eds.]Academic Press，New York 100：266-285)：

1)Tm＝81.5℃+16.6Log[Na+]+0.41(％G+C)-0.61(％甲酰胺)-600/双链体的长度(碱基对)。

2)通常如下进行洗涤：

3)在1x SSPE，0.1％SDS中室温下两次(低严格洗涤)。

4)在Tm-20℃下0.2x SSPE，0.1％SDS中洗涤一次(中等严格洗涤)。

对于寡核苷酸探针，在低于杂种分子的解链温度(Tm)10-20℃下在6xSSPE，5x Denhardt溶液，0.1％SDS，0.1mg/ml变性DNA中进行过夜杂交。通过下面的公式确定寡核苷酸探针的Tm：Tm(℃)＝2(T/A碱基对数目)+4(G/C碱基对数目)(Suggs，S.V.，T.Miyake，E.H.Kawashime，M.J.Johnson，K.Itakura，and R.B.Wallace[1981]ICN-UCLA Symp.Dev.Biol.Using Purified Genes，D.D.Brown[ed.]，Academic Press，New York，23：683-693)。

通常如下进行洗涤：

1)室温下1x SSPE，0.1％SDS中15分钟两次(低严格洗涤)。

2)在1x SSPE，0.1％SDS中杂交温度下洗涤一次15分钟(中等严格条件)。

通常，可以改变盐和/或温度以改变严格性。对于长度＞大约70碱基的标记的DNA片段，可以使用下面的条件：

低：1或2x SSPE，室温

低：1或2x SSPE，42℃

中等：0.2x或1x SSPE，65℃

高：0.1x SSPE，65℃。

双链体形成和稳定性取决于杂交分子双链之间的实质互补性，并且如上面提到，可以忍受一定程度的错配。因此，本发明的探针序列包括所述序列的突变(或者单个或多个)、缺失、插入，和其组合，其中所述突变、插入和缺失允许与目的靶标多核苷酸的稳定杂交分子的形成。可以以多种方法在给定的多核苷酸序列中产生突变、插入和缺失，并且这些方法是普通技术人员已知的。其他方法可以在将来变得已知。

PCR技术。聚合酶链式反应(PCR)是核酸序列的重复的、酶促引发的合成。该方法是本领域技术人员公知和常用的(见Mullis，美国专利号4,683,195，4,683,202,和4,800,159；Saiki，Randall K.，Stephen Scharf，FredFaloona，Kary B.Mullis，Glenn T.Horn，Henry A.Erlich，NormanArnheim[1985]“Enzymatic Amplification of β-Globin Genomic Sequencesand Restriction Site Analysis for Diagnosis of Sickle Cell Anemia，”Science230：1350-1354)。PCR是基于目的DNA片段的酶促扩增，所述片段的侧翼是与靶序列的相反链杂交的两种寡核苷酸引物。引物的3’末端相互相对。模板的热变性、引物与它们的互补序列的退火和退火的引物用DNA聚合酶延伸的重复循环导致PCR引物的5’末端定义的区段的扩增。每种引物的延伸产物可以用作其他引物的模板，从而每轮基本上倍增前一轮中产生的DNA片段的量。这导致特定靶片段的指数积累，在几小时内高达几百万倍。通过使用热稳定的DNA聚合酶如从嗜热细菌水栖嗜热菌(Thermusaquaticus)分离的Taq聚合酶，可以完全自动化扩增方法。可以使用的其他酶是本领域技术人员已知的。

本发明的DNA序列可以用作PCR扩增的引物。在进行PCR扩增中，在引物和模板之间可以耐受一定程度的错配。因此，示例引物的突变、缺失和插入(特别向5’末端加入核苷酸)落入本发明的范围内。可以通过普通技术人员已知的方法在给定引物中产生突变、缺失和插入。

基因和蛋白质的修饰。根据本发明使用的基因和蛋白质不仅包括特别示例的全长序列，而且包括这些序列的部分、区段和/或片段(包括与全长分子相比的内部和/或末端缺失)、其变体、突变体、嵌合体和融合。用于本发明的蛋白质可以具有替代的氨基酸，只要它们保留本文示例的蛋白质的特征性杀虫/功能活性。“变体”基因具有核苷酸序列，其编码相同蛋白质或具有与示例的蛋白质功能等同的等同蛋白质。术语“变体蛋白质”和“等同蛋白质”指具有与示例的蛋白质相同或者基本上相同的生物学/功能活性的蛋白质。如本文使用的，对“等同”序列的引用指具有提高或者不会不利地影响功能性的氨基酸替代、缺失、加入或者插入的序列。保留功能性的片段也包括在该定义中。保留与示例的蛋白质的对应片段相同或相似功能的片段和其他等同物也在本发明的范围内。为了多种目的，如增加(或降低)蛋白质的蛋白酶稳定性(不实质的/大量降低蛋白质的功能性)，可以做出改变，如氨基酸替代或加入。

使用如进行点突变的标准技术，可以容易地构建基因的变异。此外，如美国专利号5,605,793描述了通过在随机片段化后使用DNA重新组装产生额外的分子多样性的方法。变体基因可以用于产生变体蛋白质；重组宿主可以用于产生变体蛋白质。使用这些“基因改组”技术，可以构建等同的基因和蛋白质，其包含本文示例的任一序列的5、10、或者20个连续残基(氨基酸或核苷酸)。

使用可通过商业途径获得的外切核酸酶或者内切核酸酶，根据标准方法可以制备全长基因的片段。例如，可以用酶如Bal31或者位点定向诱变从这些基因的末端系统地切除核苷酸。而且，可以使用多种限制酶得到编码活性片段的基因。蛋白酶可以用于直接得到这些蛋白质的活性片段。

在如本文公开的本发明的范围内，TC蛋白质可以截短并且仍然保持功能活性。“截短的蛋白质”是指蛋白质的一部分可以切割并且在切割后仍然显示出活性。通过在昆虫内脏内或外的蛋白酶可以实现切割。此外，使用分子生物学技术可以产生有效切割的蛋白质，其中编码所述蛋白质的DNA碱基通过限制性内切核酸酶消化或者技术人员可以得到的其他技术除去。截短后，所述蛋白质可以在异源系统如大肠杆菌、杆状病毒、基于植物的病毒系统、酵母等等中表达，然后置于如本文公开的昆虫测定法中以确定活性。本领域公知，可以成功地产生截短的蛋白质，从而它们保留功能活性，而具有小于完整的全长序列。本领域中公知B.t.毒素可以以截短的(核心毒素)形式使用。见例如，Adang et al.，Gene 36：289-300(1985)，“Characterized full-length and truncated plasmid clones of the crystalprotein of Bacillus thuringiensis subsp kurstaki HD-73 and their toxicity toManduca sexta.”。有其他截短的蛋白质的实例，其保留杀虫活性，包括昆虫保幼激素酯酶(Regents of the University of California的美国专利号5,674,485)。如本文使用的，术语“毒素”还包括功能活性截短。

因为遗传密码的简并性/冗余性，多种不同的DNA序列可以编码本文公开的氨基酸序列。产生编码相同或基本上相同毒素的备选DNA序列在本领域技术人员的能力范围之内。这些变体DNA序列在本发明的范围内。

本发明包括例如：

1)从野生型生物得到的蛋白质；

2)突变产生的变体；

3)通过产生保守氨基酸替代设计的变体；和

4)通过编码主题TC蛋白质的多种不同序列的随机片段化和重新组装产生的变体(DNA改组)。见例如美国专利号5,605,793。

编码主题蛋白质的DNA序列可以是野生型序列、突变序列或者设计用于表达预定蛋白质的合成序列。尤其有用的是例如通过避免多聚腺苷酸化信号和使用植物优选的密码子设计成在植物中高水平表达的DNA序列。

在本文中已经特别示例了某些蛋白质和基因。由于这些蛋白质和基因仅仅是示例性的，所以将容易明白的是本发明包括使用具有与示例的蛋白质相同或相似功能性的变异或者等同蛋白质(和编码其等同物的核苷酸序列)。等同蛋白质将与示例的TC蛋白质具有氨基酸相似性(和/或同源性)。本发明的优选多核苷酸和蛋白质可以按照较窄的同一性和/或相似性范围限定。例如，A、B和/或C类TC蛋白质与本文示例或提到的序列相比的同一性和/或相似性可以为40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99％，并且C类TC蛋白质与本文示例或提到的序列相比的同一性和/或相似性可以为35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99％。上面列出的任一数字可以用于限定上限和下限。例如，可以将本发明的蛋白质定义为例如与示例的蛋白质具有50-90％同一性。

如本文使用的，除非另外指出，使用Karlin和Altschul(1990)，Proc.Natl.Acad.Sci. USA 87：2264-2268，在Karlin和Altschul(1993)，Proc.Natl.Acad.Sci.USA 90：5873-5877中改进的算法确定两个核酸的百分比序列同一性和/或相似性。这种算法整合到Altschul et al.(1990)，J.Mol. Biol.215：402-410的NBLAST和XBLAST程序中。用NBLAST程序，得分＝100，字长＝12进行BLAST核苷酸搜索。可以用如Altschul et al.(1997)，Nucl.Acids Res.25：3389-3402中描述的缺口BLAST(Gapped BLAST)。当利用BLAST和缺口BLAST程序时，使用各自程序(NBLAST和XBLAST)的默认参数。见NCBI/NIH网站。使用如上面的背景部分中描述的Crickmore等人的方法和算法，也可以计算得分。

为了得到用于比较目的的缺口比对，使用Vector NTI Suite 8(InforMax，Inc.，North Bethesda，MD，U.S.A.)的AlignX函数，使用默认参数。这些为：缺口打开罚分15，缺口延伸罚分6.66，缺口分开罚分范围8。以这种方式或者使用本领域中公知的其他技术比对和比较两个或多个序列。通过分析此类比对，可以鉴定主题多肽的相对保守和非保守的区域。这可以例如用于评估通过修饰或者替代一个或多个氨基酸残基改变多肽序列是否可以预期被耐受。

氨基酸同源性/相似性/同一性将在蛋白质的负责其活性或者参与决定最终负责其活性的三维构型的区域中通常(但不一定是必须的)是最高的。在该方面，某些氨基酸替代是可以接受的并且可以预期被耐受。例如，这些替代可以在对于活性不关键的蛋白质区域内。分析蛋白质的晶体结构和基于软件的蛋白质结构建模，可以用于鉴定可以修饰(使用位点定向诱变、改组等等)以实际上改变蛋白质的性质和/或增加功能性的蛋白质区域。

还可以改变蛋白质的多种性质和三维特征而不会不利地影响蛋白质的毒素活性/功能性。可以预期保守氨基酸替代将被耐受/不会不利地影响分子的三维构型。可以将氨基酸放入下面的类别：非极性的、不带电的极性的、碱性的和酸性的。借以将一个类别的氨基酸用相同类型的另一氨基酸替代的保守替代落入本发明的范围内，只要该替代对于化合物的生物活性不是不利的。表1提供了属于每个类别的氨基酸的实例。

在一些情况中，还可以进行非保守替代。关键因素是这些替代不显著减小该蛋白质的功能性/生物学/毒素活性。

使用本文提供的教导，从野生型或重组细菌和/或从其他野生型或重组生物可以得到等同的TC蛋白质和/或编码这些等同蛋白质的基因。多种物种的真菌和细菌现在可以用作如本文公开的来源分离菌。

用于在异源生物中表达的序列的优化。为了得到异源基因在植物中的高表达，例如，可以优选再次工程化所述基因，从而它们在植物细胞中更有效表达。玉米是一种此类植物，其中可优选在转化前重新设计异源基因以增加其在所述植物中的表达水平。因此，在编码细菌或真菌毒素的基因的设计中的额外步骤例如是再次工程化异源基因以在不同类型的生物中最佳表达。关于产生经优化用于植物表达的合成基因的教导可以见例如美国专利号5,380,831。也示例了经优化用于在大肠杆菌中表达的序列，如下面实施例中讨论。

转基因宿主。可以将编码本发明的毒素复合体蛋白质的基因导入多种微生物或植物宿主中。在优选实施方案中，使用转基因植物细胞和植物。优选的植物(和植物细胞)是玉米、棉花、油菜、向日葵和大豆。

在优选实施方案中，所述基因的表达直接或间接导致蛋白质的细胞内产生(和保持)。可以以这种方式使得植物是昆虫抗性的。当转基因/重组/转化/转染的宿主细胞(或者其内含物)被害虫摄入时，害虫将摄入该毒素。这是优选的方式，以这种方式导致害虫接触该毒素。结果是害虫的控制(杀死或者使得生病)。以相似的方式也可以控制吸吮害虫。备选地，在存在目标害虫的地方可以应用合适的微生物宿主，如假单胞菌，如荧光假单胞菌(P.fluorescen)；微生物可以在那里增殖，并且被目标害虫摄食。可以在延长毒素的活性和稳定细胞的条件下处理含有毒素基因的微生物。所处理的细胞保留毒性活性，然后可以应用于目标害虫的环境。本发明还包括施用细胞的组合，一些细胞表达一种或多种类型的蛋白质，其他细胞表达其他类型的蛋白质(如一些细胞产生A类毒素蛋白质，其他细胞产生本发明的“加强性”Tcp1_Gz-型蛋白质)。

当通过合适的载体将毒素基因导入微生物宿主，并且将所述宿主以活的状态应用于环境时，将使用某些宿主微生物。选择已知占据一种或多种目的作物的“植物圈”(叶面、叶圈、根际和/或根面)的微生物宿主。选择这些微生物以便能够在特定环境(作物和其他昆虫栖息地)与野生型微生物成功地竞争，提供表达多肽杀虫剂的基因的稳定保持和表达，和如希望，提高保护杀虫剂免于环境降解和失活。

已知多种微生物栖息在多种重要的作物的叶面(植物叶子的表面)和/或根际(植物根周围的土壤)。这些微生物包括细菌、藻类和真菌。尤其重要的是微生物，如细菌，如假单胞菌属(Pseudomonas)、欧文氏菌属(Erwinia)、沙雷氏菌属、克雷伯氏菌属(Klebsiella)、黄单胞菌属(Xanthomonas)、链霉菌属(Streptomyces)、根瘤菌属(Rhizobium)、红假单胞菌属(Rhodopseudomonas)、嗜甲基菌属(Methylophilus)、土壤杆菌属(Agrobacterium)、醋杆菌(Acetobacter)、乳杆菌(Lactobacillus)、节杆菌属(Arthrobacter)、固氮菌属(Azotobacter)、明串珠菌属(Leuconostoc)、和产碱菌属(Alcaligenes)；真菌，尤其酵母，例如酵母属(Saccharomyces)、隐球酵母属(Cryptococcus)、克鲁维酵母属(Kluyveromyces)、掷孢酵母属(Sporobolomyces)、红酵母属(Rhodotorula)、和短梗霉属(Aureobasidium)。尤其重要的是这样的植物圈细菌种，如丁香假单胞菌(Pseudomonassyringae)、荧光假单胞菌(Pseudomonas fluorescens)、粘质沙雷氏菌(Serratiamarcescens)、木醋杆菌(Acetobacter xylinum)、根瘤土壤杆菌(Agrobacteriumtumefaciens)、球形红假单胞菌(Rhodopseudomonas spheroides)、野油菜黄单胞菌(Xanthomonas campestris)、苜蓿根瘤菌(Rhizobium meliloti)、真养产碱菌(Alcaligenes entrophus)、和棕色固氮菌(Azotobacter vinelandli)；和植物圈酵母种，如深红酵母(Rhodotorula rubra)、红酵母(R.glutinis)、海滨红酵母(R.marina)、橙黄红酵母(R.aurantiaca)、浅白隐球酵母(Cryptococcusalbidus)、流散隐球酵母(C.diffluens)、变黄罗伦隐球酵母(C.laurentii)、罗斯酵母(Saccharomyces rosei)、普地酵母(S.pretoriensis)、酿酒酵母(S.cerevisiae)、掷孢酵母(Sporobolomyces roseus)、香气掷孢酵母(S.odorus)、佛地克鲁维酵母(Kluyveromyces veronae)、和出芽短梗霉(Aureobasidiumpollulans)。还重要的是着色的微生物。

插入基因以形成转基因宿主。本发明的一方面是用表达本发明的蛋白质的本发明的多核苷酸转化/转染植物、植物细胞和其他宿主细胞。可以使得以这种方式转化的植物抗目标害虫的攻击。

多种方法可以用于在允许基因的稳定维持和表达的条件下向目标宿主种导入编码蛋白质的基因。这些方法是本领域技术人员公知的并且描述于例如美国专利号5,135,867。

例如，包含大肠杆菌中复制系统和允许选择转化的细胞的多种克隆载体可以用于制备以将外源基因插入到高等植物中。载体包括例如，pBR322、pUC系列、M13mp系列、pACYC184等等。因此，可以将编码毒素的序列插入到载体中合适的限制性位点上。所得的质粒用于转化到大肠杆菌中。在合适的营养培养基中培养大肠杆菌细胞，然后收获并裂解。回收质粒。通常如分析方法进行序列分析、限制性分析、电泳，和其他生物化学-分子生物学方法。每次操作后，可以切割使用的DNA序列并连接到下一个DNA序列。可以在相同或者其他质粒中克隆每种质粒序列。取决于将目的基因插入植物的方法，其他DNA序列可以是必要的。如果，例如，用Ti或者Ri质粒转化植物细胞，那么Ti或者Ri质粒T-DNA的至少右边界，但是通常右边界和左边界必须连接作为待插入基因的侧翼区。T-DNA用于转化植物细胞的用途已经深入研究并且在EP 120 516；Hoekema(1985)在：The Binary Plant Vector System，Offset-durkkerij Kanters B.V.，Alblasserdam，Chapter 5；Fraley et al.，Crit.Rev.Plant Scl. 4：1-46；和Anet al.(1985)EMBO J.4：277-287中描述。

多种技术可以用于将DNA插入植物宿主细胞。那些技术包括用T-DNA转化(使用根癌土壤杆菌(Agrobacterium tumefaciens)或者发根土壤杆菌(Agrobacterium rhizogenes))作为转化剂)、融合、注射、生物射弹(微粒轰击)，或者电穿孔以及其他可能的方法。如果用土壤杆菌转化，那么将插入的DNA必须被克隆到特定的质粒，即，插入到中间载体中或者双元载体中。由于与T-DNA中序列同源的序列，中间载体可以通过同源重组整合到Ti或者Ri质粒中。Ti或者Ri质粒还包含转移T-DNA必要的vir区。中间载体不能在土壤杆菌中自身复制。可以通过辅助质粒(接合)将中间载体转移到根癌土壤杆菌中。双元载体可以在大肠杆菌和土壤杆菌中自身复制。它们包含选择标记基因和接头或多接头，其周围是右和左T-DNA边界区。可以将它们直接转化到土壤杆菌中(Holsters et al.[1978]Mol.Gen.Genet.163：181-187)。用作宿主细胞的土壤杆菌将包含携带vir区的质粒。vir区是将T-DNA转移到植物细胞中必要的。可以含有额外的T-DNA。这样转化的细菌用于转化植物细胞。植物外植体可以有利地与根癌土壤杆菌或发根土壤杆菌培养以将DNA转移到植物细胞中。然后在可以含有用于选择的抗生素或杀生物素的合适的培养基中，从转染的植物材料(例如，叶片、茎、根的段，以及原生质体或者悬浮培养的细胞)再生完整植物。然后可以对这样得到的植物测试所插入的DNA的存在。对于注射和电穿孔，对质粒没有特别要求。可能使用普通的质粒，如pUC衍生质粒。

以常规方式在植物内生长转化的细胞。它们可以形成胚细胞并将转化的性状传递到子代植物中。此类植物可以以正常方式生长并与具有相同的转化遗传因子或者其他遗传因子的植物杂交。得到的杂种个体具有对应的表型性质。

在本发明的一些优选的实施方案中，从插入到植物基因组的转录单位表达编码毒素的基因。优选地，所述转录单位是重组载体，其能够稳定整合到植物基因组中并且能够选择表达编码所述蛋白质的mRNA的转化的植物品系。

一旦插入的DNA已经整合到基因组，它在那里就相对稳定(并且不再次出来)。它通常含有选择标记，其赋予转化的植物细胞对杀生物剂或抗生素的抗性，如对卡那霉素、G418、博来霉素、潮霉素或者氯霉素的抗性。各使用的标记将因此允许选择转化的细胞而不是不含有插入的DNA的细胞。优选通过组成型或诱导型启动子在植物细胞中表达目的基因。一旦表达，将mRNA翻译成蛋白质，从而将目的氨基酸掺入蛋白质中。编码植物细胞中表达的毒素的基因可以处于组成型启动子、组织特异的启动子或者诱导型启动子的控制下。

存在一些技术可用于将外源重组质粒导入植物细胞，和用于得到稳定保持和表达所导入基因的植物。此类技术包括将包被在微粒上的遗传物质直接导入细胞中(Cornell的美国专利号4,945,050和DowElanco，现在Dow AgroSciences，LLC的5,141,131)。此外，可以使用土壤杆菌技术转化植物，见University of Toledo的美国专利号5,177,010，Texas A&M的5,104,310；欧洲专利申请0131624B1；Schilperoot的欧洲专利申请120516，159418B1和176,112；Max Planck的欧洲专利申请116718，290799，320500；Japan Tobacco的欧洲专利申请604662和627752，和美国专利号5,591,616；Ciba Geigy，现在Novartis的欧洲专利申请0267159和0292435，和美国专利号5,231,019；Calgene的美国专利号5,463,174和4,762,785；Agracetus的美国专利号5,004,863和5,159,135。其他转化技术包括颈须技术。见Zeneca的美国专利号5,302,523和5,464,765。电穿孔技术已经用于转化植物。见Boyce Thompson Institute的WO 87/06614；Dekalb的美国专利号5,472,869和5,384,253；和Plant Genetic Systems的WO 92/09696和WO 93/21335。此外，还可以使用病毒载体产生转基因植物，该植物产生目的蛋白质。例如，可以用属于Mycogen Plant Science和Ciba-Giegy，现在Novartis的美国专利号5,569,597，以及Biosource的美国专利号5,589,367和5,316,931中描述的方法，用病毒载体转化单子叶植物。

如以前提到的，DNA构建体导入植物宿主的方式对于本发明不是关键的。可以使用提供有效转化的任何方法。例如，用于植物细胞转化的多种方法在本文中描述并且包括使用Ti或者Ri质粒等等进行土壤杆菌介导的转化。在许多情况下，将希望有用于转化的构建体，其在一边或两边边界上是T-DNA边界，更具体地右边界。当构建体使用根癌土壤杆菌或者发根土壤杆菌作为转化方式时这尤其有用，尽管T-DNA边界可以发现用于其他转化方式。当土壤杆菌用于植物细胞转化时，可以使用载体，其可以导入宿主中用于与宿主中存在的T-DNA或Ti或Ri质粒同源重组。载体的导入可以通过电穿孔、三亲本交配和本领域技术人员已知的用于转化革兰氏阴性细菌的其他技术进行。载体转化到土壤杆菌宿主的方式对于本发明不是关键的。含有用于重组的T-DNA的Ti或Ri质粒可以能够或不能引起菌瘿形成，并且对于所述发明不是关键的，只要在所述宿主中存在vir基因。

在将土壤杆菌用于转化的一些情况中，将T-DNA边界内的表达构建体插入到广谱载体如pRK2或者其衍生物中，如Ditta et al.，(PNAS USA(1980)77：7347-7351和EPO 0 120 515中描述，将其引入本文作为参考。表达载体和T-DNA中将包括如本文描述的一种或多种标记，其允许选择所转化的土壤杆菌和转化的植物细胞。使用的具体标记对于本发明不是关键的，优选的标记取决于使用的宿主和构建。

为了使用土壤杆菌转化植物细胞，可以将外植体合并并与转化的土壤杆菌培育足够的时间以允许其转化。转化后，通过用合适的抗生素选择杀死土壤杆菌并将植物细胞与合适的选择培养基培养。一旦形成愈伤组织，根据植物组织培养和植物再生领域中公知的方法，使用合适的植物激素刺激枝条形成。然而，愈伤组织中间阶段不总是必须的。枝条形成后，可以将植物细胞转移到刺激根形成的培养基，从而完成植物再生。然后可以培养植物到结实并将所述种子用于建立将来的世代。不管转化技术，优选将编码毒素的基因掺入适于在植物细胞中表达所述基因的基因转移载体，这可如下实现：在载体中包括植物启动子调节元件，以及3’非翻译的转录终止区，如Nos等等。

除了用于转化植物的多种技术，与外源基因接触的组织的类型也可以改变。此类组织将包括但是将不限于胚发生组织、I、II和III型愈伤组织、下胚轴、分生组织、根组织、用于在韧皮部表达的组织，等等。在脱分化期间可以使用本文描述的合适的技术转化几乎所有植物组织。

如上面提到的，如果希望，可以使用多种选择标记。对特定标记的选择由技术人员决定，但是可以使用任一种下面的选择标记以及本文中没有列出的可以作为选择标记的任一种其他基因。此类选择标记包括但不限于转座子Tn5的氨基糖苷磷酸转移酶基因(Aph II)，其编码对抗生素卡那霉素、新霉素和G418的抗性，以及编码对草甘膦、潮霉素、氨甲蝶呤、膦丝菌素(bialaphos)、咪唑啉酮、磺脲类和噻唑并嘧啶除草剂如氯磺隆(chlorsulfuron)、溴草腈、茅草枯等等的抗性或者耐受性的那些基因。

除了选择标记外，可以希望使用报道基因。在一些情况中，可以使用报道基因与或不与选择标记。报道基因是通常不存在于受体生物或组织并且通常编码导致某些表型改变或者酶促性质的蛋白质的基因。此类基因的实例在K.Wising et al.Ann.Rev.Genetics，22，421(1988)中提供。优选的报道基因包括大肠杆菌的uidA基因座的β-葡糖醛酸糖苷酶(GUS)、来自大肠杆菌Tn9的氯霉素乙酰转移酶基因、来自生物发光的水母(Aequoreavictoria)的绿色荧光蛋白，和来自萤火虫(Photinus pyrali)的萤光素酶基因。将所述基因导入受体细胞后，可以在合适的时间进行检测报道基因表达的测定。一种优选的此类测定必需使用如Jefferson et al.，(1987 Biochem.Soc.Trans.15，17-19)所述的编码大肠杆菌的uidA基因座的β-葡糖醛酸糖苷酶(GUS)的基因来鉴定转化的细胞。

除了植物启动子调节元件外，来自多种来源的启动子调节元件可以在植物细胞中有效使用以表达外源基因。例如，可以使用细菌来源的启动子调节元件，如章鱼碱合酶启动子、胭脂氨酸合酶启动子、甘露碱合酶启动子；病毒来源的启动子，如花椰菜花叶病毒启动子(35S和19S)、35T(其是再次工程化的35S启动子，见美国专利号6,166,302，特别是实施例7E)，等等。植物启动子调节元件包括但不限于核酮糖-1，6-二磷酸(RUBP)羧化酶小亚基(ssu)、β-conglycinin启动子、β-菜豆蛋白启动子、ADH启动子、热休克启动子，和组织特异性启动子。可以存在其他元件，如基质附着区、支架附着区、内含子、增强子、多腺苷酸化序列等等，并且从而可以提高转录效率或者DNA整合。此类元件可以是或不是DNA功能必需的，尽管它们可以通过影响转录、mRNA稳定性等等提供DNA的更好的表达或者功能。如需要可以在DNA中包括此类元件以得到植物中转化的DNA的最优性能。典型的元件包括但不限于Adh内含子1、Adh内含子6、苜蓿花叶病毒外壳蛋白前导序列、玉米条纹病毒外壳蛋白前导序列，以及技术人员可以得到的其他元件。还可以使用组成型启动子调节元件，从而指导在所有细胞类型中和在所有时间连续的基因表达(例如，肌动蛋白、泛蛋白、CaMV 35S等等)。组织特异性启动子调节元件负责在特定细胞或者组织类型，如叶子或种子中的基因表达(如玉米醇溶蛋白、油质蛋白、油菜籽蛋白、ACP、球蛋白等等)并且也可以使用这些元件。

植物调节元件还可以在植物发育的某个阶段是有活性的以及在植物组织和器官中是有活性的。此类元件的实例包括但不限于花粉特异的、胚特异的、玉米穗丝特异的、棉花纤维特异的、根特异的、种子胚乳特异的启动子调节元件等等。在一些情况下，可以希望使用诱导型启动子调节元件，其负责基因响应特定信号的表达，所述信号为诸如：物理刺激(热休克基因)、光(RUBP羧化酶)、激素(Em)、代谢物、化学品，和胁迫。可以使用在植物中有功能的其他希望的转录和翻译元件。许多植物特异的基因转移载体是本领域中已知的。

可以用标准的分子生物学技术对本文描述的基因(和毒素)克隆和测序。额外的信息可以见Sambrook，J.，Fritsch，E.F.，和Maniatis，T.(1989)，Molecular Cloning，A Laboratory Manual，Cold Spring Harbor Press，将其引入本文作为参考。

抗性控制。随着转基因植物中对杀虫蛋白质的商业使用的增加，一种考虑是抗性控制。即，有许多公司在它们的产品中使用苏云金芽孢杆菌毒素，并且担心昆虫产生对苏云金芽孢杆菌毒素的抗性。昆虫抗性控制的一种策略将是组合致病杆菌属、Photorhabdus、赤霉等等产生的TC杀虫蛋白质与毒素如苏云金芽孢杆菌结晶毒素、来自芽孢杆菌菌株的可溶性杀虫蛋白质(见例如WO 98/18932和WO 99/57282)或者其他昆虫毒素。该组合可以配制用于喷雾应用或者可以是分子组合。可以用产生两种或多种不同的昆虫毒素的基因转化植物(见例如，Gould，38 Bioscience 26-33(1988)和美国专利号5,500,365；同样地，欧洲专利申请0 400 246 A1和美国专利5,866,784；5,908,970；和6,172,281也描述了用两种苏云金芽孢杆菌结晶毒素转化植物)。另一种产生含有一种以上的昆虫抗性基因的转基因植物的方法将是首先产生两种植物，每一种植物含有一种昆虫抗性基因。然后可以使用传统植物育种技术将这些植物杂交以产生含有一种以上的昆虫抗性基因的植物。从而将显而易见的是，本文使用的短语“包含一种多核苷酸”除非植物相反，指包含至少一种多核苷酸(和可能地更多种多核苷酸，它们是连续或不连续的)。

制剂和其他递送系统。含有本发明的细胞和/或蛋白质的配制的诱饵粒剂(包括包含本文描述的基因的重组微生物)可以应用于土壤。还可以将配制的产品作为种子涂布或者根处理或者总的植物处理在作物周期的以后的阶段应用。细胞的植物和土壤处理可以通过与多种惰性材料如无机矿物质(层状硅酸盐、碳酸盐、硫酸盐、磷酸盐等等)或者植物材料(如粉状玉米芯、谷壳、核糖壳等等)混合作为可湿性粉剂、粒剂或者粉剂使用。制剂可以包括散布黏着佐剂、稳定剂、其他杀虫添加剂或者表面活性剂。液体制剂可以是基于水的或者非水的并且用作泡沫剂、凝胶剂、混悬剂、可乳化的浓缩物，等等。成分可以包括流变剂、表面活性剂、乳化剂、分散剂或者聚合物。

如本领域技术人员将理解的，杀虫剂浓度将取决于具体制剂的性质，尤其它是浓缩物还是直接使用而有很大变化。杀虫剂将以按重量计至少1％存在并且可以为按重量计100％。干燥制剂将具有按重量计约1-95％的杀虫剂，而液体制剂将通常具有按重量计约1-60％的处于液相的所述固体。制剂将通常具有约10²到约10⁴个细胞/mg。这些制剂将每公顷施用约50mg(液态或干燥的)到1kg或以上。

可以将制剂通过喷雾、撒粉、喷洒等等应用于害虫的环境，如土壤和叶子。

另一种递送方案是将毒素的遗传物质掺入到杆状病毒载体。杆状病毒感染特定昆虫宿主，包括希望用所述毒素靶定的那些宿主。可以将含有毒素的表达构建体的感染性杆状病毒引入昆虫出没的区域，从而使受感染的昆虫中毒。

已知昆虫病毒或者杆状病毒感染并不利地影响某些昆虫。病毒对昆虫的效果是缓慢的，并且病毒不立即中止昆虫的进食。从而，不认为病毒是最佳的害虫控制剂。然而，将毒素基因组合到杆状病毒载体可以提供传递毒素的有效途径。此外，因为不同的杆状病毒对不同的昆虫是特异的，所以可能使用特定毒素选择性靶定特定损害性虫害。毒素基因的尤其有用的载体是核型多角体病毒。使用该病毒转移载体已经被描述并且现在是用于向昆虫中转移外来基因所选的载体。可以以可经口传递的形式构建病毒-毒素基因重组体。杆状病毒通常通过中肠肠粘膜感染受害昆虫。插入强病毒外壳蛋白启动子后的毒素基因将被表达并且将快速杀死受感染的昆虫。

除了本发明的蛋白质毒素的昆虫病毒或杆状病毒或者转基因植物递送系统外，还可以使用苏云金芽孢杆菌包裹技术包裹蛋白质，所述技术为诸如但不限于美国专利号4,695,455；4,695,462；4,861,595，将它们都引入本文作为参考。本发明蛋白质毒素的另一种递送系统是将蛋白质配制到诱饵基质中，其然后可以在地上和地下昆虫诱饵站中使用。此类技术的实例包括但不限于PCT专利申请WO 93/23998，将其引入本文作为参考。

还可以用基于植物RNA病毒的系统产生抗昆虫毒素蛋白质。这样，可以将编码毒素的基因插入到合适的植物病毒的外壳启动子区中，该病毒将感染目的宿主植物。然后毒素可以表达，提供对植物免于昆虫损害的保护。基于植物RNA病毒的系统在Mycogen Plant Sciences，Inc.的美国专利号5,500,360和Biosource Genetics Corp的美国专利号5,316,931和5,589,367中描述。

除了产生转化的植物外，还有其他递送系统，其中可以希望工程化编码毒素的基因。例如，通过将作为食物来源的昆虫的分子引诱物与毒素融合在一起，可以构建蛋白质毒素。在实验室中纯化后，这种具有“内建”诱饵的毒性剂可以包装在标准昆虫捕获室内。

突变体。通过本领域中公知的方法可以制备细菌和真菌分离菌(和其他生物)的突变体。例如，通过分离菌的甲基磺酸乙酯(EMS)诱变可以得到突变体。使用紫外线和亚硝基胍通过本领域中公知的步骤可以产生突变体。

多种特定实施方案的实例。(如该说明书中使用的，术语“一个“指至少一个，除非特别指出相反)。本发明可以包括但不限于包含B结构域和C结构域的分离的真核生物蛋白质，其中所述蛋白质加强A类毒素复合体蛋白质的杀虫活性，其中所述B结构域包含spvB亚结构域，接着是至少一个FG-GAP亚结构域，并且所述C结构域包含至少一个RHS亚结构域，接着是高变区。(将指出这些亚结构域在本文中有时称作“结构域”。将理解此类“结构域”是本发明的融合蛋白的亚部分，该融合蛋白具有两个主要结构域-B和C结构域，每个主要结构域具有它们自身的结构域)。在一些实施方案中，所述蛋白质可以还包含跨膜结构域(或者亚结构域)。在一些实施方案中，所述蛋白质是真菌蛋白质，包括赤霉(Gibberella)蛋白质。一些优选的蛋白质具有约200-300kDa的分子量。在一些其他实施方案中，所述蛋白质具有如上述的结构域但是是原核或太古代(不是真核的)生物的，可以从选自甲烷八叠球菌属、密螺旋体属、钩端螺旋体属、Tannerella和Microbulbifer属的天然存在的生物得到。在本文中还描述了新的细菌来源(与致病杆菌属，Photorhabdus等不同)。天然存在的氨基酸序列的变异(如保守替代)也是可能的。

本发明包括编码这些蛋白质的任一种的分离的多核苷酸。一些优选的多核苷酸具有经优化以在植物中表达的密码子组成。本发明包括包含这些多核苷酸任一种的转基因细胞。在一些优选实施方案中，转基因细胞还包含编码A类毒素的核酸分子。

本发明还包括对多核苷酸序列筛选编码上述(和/或提到的)蛋白质的多核苷酸，其中所述方法包括提供参考序列，将所述参考序列与序列数据库使用算法进行比较，对所述数据库中的序列分配得分，选择最小值，鉴定所述数据库中的具有高于所述最小值的所述得分的所述多核苷酸，产生所述多核苷酸编码的蛋白质，并测定所述蛋白质加强A类毒素复合体蛋白质活性的能力。

还包括对天然存在的真核细胞的培养物筛选选自A类毒素复合体蛋白质和上述BC融合蛋白的蛋白质的方法。选自甲烷八叠球菌属、密螺旋体属、钩端螺旋体属、Tannerella、和Microbulbifer的属的天然存在的生物可以替代此类筛选方法中的真核生物。

本发明还包括从天然存在的生物鉴定上述BC融合蛋白的方法，其中所述方法包括分析序列的上文讨论的和本文别处讨论的亚结构域序列。

本发明还包括对多种天然存在的(微生物)分离菌筛选约220kDa到约295kDa蛋白质的方法，所述蛋白质加强A类毒素复合体毒素蛋白的抗昆虫毒素活性，其中所述方法包括从所述分离菌得到蛋白质并筛选所述蛋白质的所述加强活性，所述蛋白质包含B结构域和C结构域，其中所述B结构域和所述C结构域包含上文和本文别处讨论的亚结构域。所述微生物可以是真菌。所述微生物也可以选自赤霉属、甲烷八叠球菌属、密螺旋体属、钩端螺旋体属、Tannerella、和Microbulbifer。

本发明还包括对多种赤霉属分离菌筛选一种基因的方法，所述基因编码约220kDa到约295kDa蛋白质，所述蛋白质加强A类毒素复合体毒素蛋白的抗昆虫毒素活性，其中所述方法包括从所述分离菌得到核酸分子并将所述核酸分子与和所述基因杂交的多核苷酸接触。从所述培养物得到DNA的步骤可以包括从所述DNA产生克隆文库并测定至少一个所述克隆中所述基因的存在。测定所述克隆中所述多核苷酸存在的步骤可以包括测定所述克隆的鳞翅目毒素活性，从而指出所述多核苷酸的存在。测定所述DNA的步骤可以包括用设计成指出所述基因存在的至少一种引物进行聚合酶链式反应。测定所述DNA的步骤可以包括将核酸探针与所述DNA杂交，其中将所述探针设计成指出所述基因的存在。该方法还可以包括测定所述蛋白质，包括(例如)将所述蛋白质的抗体与蛋白质样品免疫反应，其中将所述抗体设计成指出所述蛋白质的存在。

本发明还提供了控制昆虫或者类似害虫的方法，其中所述方法包括将所述昆虫与上述BC融合蛋白和A类毒素复合体毒素蛋白质接触的步骤。还包括加强A类毒素复合体毒素蛋白质的毒素活性的的方法，其中所述方法包括为昆虫提供上述BC融合蛋白供摄入。来自这些新颖融合蛋白的新的B和/或C结构域也可以单独使用(不是融合的形式)。

本发明还包括合成的BC融合蛋白，其包含从上述新来源(天然存在的)生物可以得到(或衍生)的B或C结构域，其中所述B结构域或者所述C结构域融合到异源C结构域或者B结构域。多种组合是可能的。此类合成的融合物还可以融合到A类毒素复合体毒素蛋白质。

在一些其他实施方案中，本发明包括产生转基因细胞的方法，其中所述方法包括向所述细胞中插入多核苷酸，其中所述多核苷酸编码约220kDa到约295kDa赤霉(或者其他主题生物)蛋白质，其中所述蛋白质加强A类毒素复合体毒素蛋白质的抗昆虫毒素活性。本发明还包括转基因细胞，其包含来自赤霉(或者其他主题生物)分离菌的培养物的异源多核苷酸，其中所述多核苷酸编码约220kDa到约295kDa蛋白质，其中所述蛋白质加强A类毒素复合体毒素蛋白质的抗昆虫毒素活性。本发明包括对多种赤霉分离菌筛选加强A类毒素复合体毒素蛋白质的抗昆虫毒素活性的约220kDa到约295kDa蛋白质的方法，其中所述方法包括从所述分离菌得到所述蛋白质并筛选所述蛋白质的所述加强活性。本发明还包括对多种赤霉分离菌筛选编码加强A类毒素复合体毒素蛋白质的抗昆虫毒素活性的约220kDa到约295kDa蛋白质的基因的方法，其中所述方法包括从所述分离菌得到核酸分子并将所述核酸分子与和所述基因杂交的多核苷酸接触。

其他生物、蛋白质和基因可以在上述方法和实施方案中替代。例如，根据上述方法可以鉴定和使用甲烷八叠球菌属抗昆虫蛋白质和基因。同样，可以根据上述方法鉴定或使用来自赤霉的A类TC蛋白质和基因。使用主题方法鉴定的新的菌株也在本发明的范围内。

多种方法可以用于进行上面的方法。例如，在进行一些上述方法中可以构建克隆文库。这些方法的一些可以包括用设计成指出目的基因存在的至少一种引物进行聚合酶链式反应的步骤。上面的方法可以包括将核酸探针与目的DNA杂交的步骤，其中将所述探针设计成指出所述基因的存在。将抗体与所述蛋白质免疫反应可以测定所述蛋白质，其中将所述抗体设计成指出所述蛋白质的存在。

本发明还包括分离的蛋白质，其加强A类毒素复合体毒素的抗昆虫毒素活性，其中编码所述蛋白质的多核苷酸序列在严格条件下与选自SEQ IDNOs：1、3、5、7、9和11的序列的互补序列杂交。在一些优选实施方案中，该蛋白质包含选自SEQ ID NO：2、SEQ ID NO：4、SEQ ID NO：6、SEQ IDNO：8、SEQ ID NO：10和SEQ ID NO：12的氨基酸序列。编码这些蛋白质任一种的分离的多核苷酸也在本发明的范围内，包含所述多核苷酸的转基因细胞(如微生物的和植物细胞)也在本发明范围内。本发明还包括控制虫害的方法，其中所述方法包括将所述害虫与本发明的蛋白质接触的步骤。

再次，其他生物、蛋白质和基因可以在上述方法和实施方案中替代。这包括例如，甲烷八叠球菌属抗昆虫蛋白质和基因，和来自赤霉属的A类TC蛋白质和基因。

本文提到和引用的所有专利、专利申请、临时申请和出版物都完整引入本文，直到它们与本说明书的明确教导不一致的程度。

下面是阐明实施本发明的步骤的实施例。不应将这些实施例理解为限定。除非另外指出，所有百分数都是按重量计，并且所有溶剂混合物比例都是按体积计。

实施例1

在玉米赤霉(GIBBERELLA ZEAE)中发现B类和C类基因同源物通过玉蜀黍赤霉基因组的tblastn分析，发现了编码与发光光杆状菌毒素复合体TcaC(B类)和TccC1(C类)蛋白质(GenBank搜索号分别为AAC38625.1和AAL18473.1)相似的假定蛋白质的DNA序列。使用NCBI(National Center for Biotechnology Information)基因组BLAST算法在万维网网站(ncbi.nlm.nih.gov/sutils/genom_table.cgi)，使用下面的默认值进行分析：

期望10；

滤器默认值。

使用tblastn在GenBank搜索号AACM01000442内发现了每种蛋白质的一个命中。这些命中都映射成单个假定的蛋白质，其注释如下：

CDS；join(52114..56781，56863..59514)；

locus_tag＝″FG10566.1″；

codon_start＝1；

product＝″hypothetical protein″；

protein_id＝″EAA68452.1″；

db_xref＝″GI：42545609″。

使用DNA Translator(一种程序，允许用户选择蛋白质编码区的开始和停止参数)翻译了AACM01000442的DNA序列。所得预测的翻译产物用于使用blastp搜索非冗余的局部蛋白质数据库。用GenBank中注解的所有蛋白质在AACM01000442序列内进行相似的blastp分析。在两种情况下，鉴定了一种多肽(EAA68452.1)，其与TcaC和TccC1Photorhabdus毒素复合体蛋白质具有显著同源性。

用程序″Blast 2 sequences″进行EAA68452.1蛋白质和TcaC和TccC1蛋白质之间关系的进一步分析，该程序含有blastp比较算法[TatianaA.Tatusova，Thomas L. Madden(1999)，″Blast 2 sequences-a new toolfor comparing protein and nucleotide sequences″，FEMS Microbiol Lett.174：247-250]。使用下面列出的默认搜索/比较参数：

矩阵Blosum62；

打开缺口11；

延伸缺口1；

缺口x dropoff 50；

期望值10；

字长3；

滤器关。

下面给出了TcaC蛋白质的“Blast 2 sequences”比较结果：

长度＝2439

得分＝318比特(814)；

期望＝9e-85；

同一性＝333/1291(25％)；

正的＝527/1291(40％)，

缺口＝187/1291(14％)

在该搜索中鉴定的蛋白质-蛋白质比对的分析揭示TcaC和玉蜀黍赤霉EAA68452.1假定蛋白质之间同源性区域包含EAA68452.1的氨基酸72-1266。

TccC1蛋白质的“Blast 2 sequences”比较结果在下面给出：

长度＝2439；

得分＝192比特(489)；

期望＝3e-47；

同一性＝198/723(27％)；

正的＝317/723(43％)；

缺口＝89/723(12％)

该搜索中鉴定的蛋白质-蛋白质比对的分析揭示TccC1和玉蜀黍赤霉EAA68452.1假定蛋白质之间的同源性区域包含EAA68452.1的氨基酸1557-2239。从而，显然，玉蜀黍赤霉EAA68452.1假定蛋白质包含两个连续的结构域，第一个与B类TcaC蛋白质具有一定的同源性，第二个结构域与C类TccC1蛋白质具有一定的同源性。

GenBank搜索号AACM01000442是通过玉蜀黍赤霉菌株PH1(NRRL 31084)1号染色体的完整基因组鸟枪法测序得到的95095个碱基的线性DNA序列，并且保藏日期为2004年2月13日。应注意上面的CDS注释提示在基因组序列内存在内含子(间插)序列，包含碱基56782到56862。尽管注释为内含子序列，但是应该指出包含推定的内含子的所有碱基都在相对于该内含子前的外显子1的+1读框内(即，搜索号AACM01000442的碱基52114到56781)。因此，未中断的可读框从搜索号AACM01000442的碱基52114延伸到碱基59514。通过DNA Translator程序提供并且用于上面的搜索和比较中的预测的翻译产物大于在AACM01000442内注解的产物，因为没有除去推定的框内内含子。

在SEQ ID NO：1中显示了玉蜀黍赤霉DNA的序列，其编码与毒素复合体增效蛋白具有同源性的推定的蛋白质，以翻译的内含子结束。该序列在本文中也称作tcp1_Gz(玉蜀黍赤霉的毒素复合体增效剂1)。SEQ ID NO：1的翻译在SEQ ID NO：2中显示，并且称作Tcp1_Gz。tcp1_Gz的没有内含子的DNA序列在SEQ ID NO：3中显示。SEQ ID NO：3的翻译在SEQ ID NO：4中显示。根据本发明的一些实施方案，Tcp1_Gz蛋白质可以加强TC A类蛋白质TcdA和XptA2对它们各自的靶标昆虫的活性。该观察是令人惊奇的并且是以前未预料到的，因为Tcp1_Gz蛋白质具有真核生物来源，并且TcdA和XptA2蛋白质来自细菌来源。

实施例2

设计和合成用于在细菌中表达的Tcp1_Gz-编码基因

该实施例教导新的DNA序列的设计，该序列编码SEQ ID NO：2的Tcp1_Gz蛋白质，但是经优化用于在大肠杆菌细胞中表达。表2的D和H栏给出了每种氨基酸的同义密码子的分布(以该氨基酸的所有密码子用法％表示)，如在大肠杆菌的II类基因的编码区中发现。[II类基因是在大肠杆菌细胞的指数生长期期间高度表达的那些基因，如在Henaut，A.andDanchin，A.(1996)Escherichia coli and Salmonella typhimurium cellularand molecular biology，vol.2，pp.2047-2066中报导[Neidhardt，F.，CurtissIII，R.，Ingraham，J.，Lin，E.，Low，B.，Magasanik，B.，Reznikoff，W.，Riley，M.，Schaechter，M. and Umbarger，H.(eds.).American Society forMicrobiology，Washington，DC]。显然，一些氨基酸的一些同义密码子在那些高度表达的基因中仅仅很少存在(例如，亮氨酸密码子CTA和精氨酸密码子CGG)。在产生接近高度表达的大肠杆菌基因的密码子分布的编码蛋白质的DNA序列的设计方法中，不包括相对于该氨基酸的其他同义密码子不经常使用的密码子(通过表2的C和G栏中的NA指出)。通常，如果一种密码子在II类基因中以约18％或更少的次数编码相关的氨基酸，那么认为该密码子很少使用。

为了平衡氨基酸的剩余密码子选择的分布，使用下式计算每种密码子的加权平均代表：

C1的加权％＝1/(％C1+％C2+％C3+等等)×％C1×100

其中C1是所讨论的密码子，C2、C3等等代表剩余的同义密码子，相关密码子的％值从表2的D和H栏得到(忽略粗体的稀有密码子值)。每个密码子的加权％值在表2的C和G栏中给出。

使用从表2的C和G栏构造的密码子偏倚表，通过SEQ ID NO：2的蛋白质序列的反向翻译启动大肠杆菌优化的DNA序列的设计。然后通过补偿密码子改变(而保留总体加权平均表示)修饰最初的序列，以除去或者增加限制酶识别位点，除去高度稳定的链内二级结构，和可能对工程化的基因的克隆操作或者表达有害的其他序列。将在编码区内避免的此类有害序列的一个实例是16S核糖体RNA结合序列(“SD序列”)，如AGGAGG，其可以编码例如两个连续的精氨酸氨基酸，但是也可以作为基因内(因此不希望的)翻译起始信号。

编码SEQ ID NO：2的蛋白质的大肠杆菌偏倚的DNA序列作为SEQ IDNO：5的碱基23-7420给出。为了方便克隆和确保有效的翻译起始，将5’末端XbaI限制酶识别序列(TCTAGA)和SD序列(AAGAAGGAG)置于ATG翻译起始密码子的上游(SEQ ID NO：5的碱基1-22)。还为了方便克隆，和确保正确的翻译终止，在编码区的3’末端包括编码两个TAA翻译终止密码子和XhoI限制酶识别位点(CTCGAG)的碱基(SEQ ID NO：5的碱基7421-7440)。由供应商(Entelechon GmbH，Regensburg，Germany)进行包含SEQ ID NO：5的DNA片段的合成。

当前注意到如在GenBank搜索号AACM01000442中注解的，在SEQID NO：1中公开的玉蜀黍赤霉基因组DNA序列tcp1_Gz包含推定的内含子序列(SEQ ID NO：1的碱基4669-4749)。SEQ ID NO：1的可读框的分析揭示所述包含推定的内含子的碱基保持由碱基1-3处的ATG起始密码子启动的+1可读框。换句话说，SEQ ID NO：1包含7398个碱基的单个可读框，其编码2466个氨基酸的理论蛋白质。从而，如果来自SEQ ID NO：1的DNA的初级转录物不被剪接(即，内含子序列不从mRNA切割)，那么翻译将产生在SEQ ID NO：2中公开的Tcp1_Gz蛋白质。另一方面，如果初级转录物被剪接(即内含子序列被除去)，那么mRNA将具有对应于SEQ ID NO：3的序列，并且翻译将产生公开为SEQ ID NO：4的2439个氨基酸的蛋白质。

为了该实施例的目的，设计并合成编码来自SEQ ID NO：1的整个7398碱基可读框的理论上的蛋白质的大肠杆菌偏倚的DNA序列。所编码的2466个氨基酸的蛋白质的序列与SEQ ID NO：2(Tcp1_Gz，)相同，从而包括在基因组序列中鉴定的推定的内含子编码的氨基酸。如在其他实施例中看到的，来自真核生物的该蛋白质具有令人惊奇的加强细菌来源的A类TC蛋白质的昆虫毒性的活性。

实施例3

编码Tcp1_Gz的合成的细菌DNA的工程化

通过将编码蛋白质Tcp1_Gz的合成的细菌偏倚的DNA(SEQ ID NO：5)插入到两种不同的大肠杆菌表达载体中将其工程化以辅助优化表达条件。第一种载体是载体pBT(美国申请序号：10/754,115，2003年1月7日提交)，其使用标准的大肠杆菌启动子。将基于pBT的质粒称作pDAB8828。第二种是pET表达载体(Novagen，Madison WI)，其利用噬菌粒T7启动子。将基于pET的表达质粒称作pDAB8829。使用标准分子生物学技术构建这些表达质粒的每一种。以这样的方式进行工程化以保持合适的细菌转录和翻译信号。质粒pDAB8828和pDAB8829都编码蛋白质Tcp1_Gz，然而在启动子、选择标记和载体骨架的其他特征中不同。

实施例4

pDAB8828的表达条件和裂解物制备

使用标准方法将表达质粒pBT(2003年1月7日提交的美国临时申请号10/754,115中描述的空载体对照)和pDAB8828转化到大肠杆菌表达菌株BL21(Novagen，Madison，WI)中。用置于含有50μg/mL抗生素和75μMIPTG(异丙基-α-D-硫代吡喃半乳糖苷)的250mL LB培养基中的10-200个新鲜转化的菌落启动表达培养物。培养物在180-200rpm(转/分钟)28℃下生长48小时，通过4℃下以5,000xg离心20分钟收集细胞。将细胞沉淀悬浮在4-4.5mL Butterfield’s磷酸盐溶液(Hardy Diagnostics，Santa Maria，CA；0.3mM磷酸钾pH 7.2)中，转移到带有1mL 0.1mm直径玻璃珠(Biospec，Bartlesville，OK，目录号1107901)的50mL聚丙烯螺旋盖离心管中，然后在冰上冷却。使用2mm探头用Branson Sonifier 250(Danbury CT)以～30的输出用两次45秒的爆发通过超声处理裂解细胞，在爆发之间完全冷却。将裂解物转移到2mL Eppendorf管中并在16,000xg下离心10分钟。收集上清液并测量蛋白质浓度。将Bio-Rad Protein Dye Assay Reagent用H₂O以1∶5稀释并将1mL中加入10μL 1∶10稀释度的每种样品和浓度为5、10、15、20和25μg/mL的牛血清白蛋白。在SpectraMax Plus分光光度计(Sunnyvale，CA)中595nm波长下读出样品的光密度。新鲜测定裂解物。

实施例5

pDAB8829的表达条件和裂解物制备

使用标准方法将表达质粒pET(空载体对照)、pDAB8920和pDAB8829转移到大肠杆菌T7表达菌株BL21(DE3)STAR(Invitrogen，Carlsbad，CA)中。质粒pDAB8920用作阳性加强对照。它含有融合的增效剂基因，其由通过14个氨基酸接头融合的发光光杆状菌基因tcdB2和tccC3组成。质粒pDAB8920是单独申请的主题(2004年3月2日提交的美国序号60/549,516)。用置于含有50μg/mL抗生素和75μM IPTG(异丙基-α-D-硫代吡喃半乳糖苷)的10-200个新鲜转化的菌落起始表达培养物。如上面实施例4中描述的生长、裂解培养物和进行其他处理。

实施例6

pDAB8828和pDAB8829裂解物的生物测定条件

在特别设计用于昆虫生物测定的128孔托盘(C-D International，Pitman，NJ)中用新生幼虫以人工饮食进行昆虫生物测定。测定的物种是南部玉米根虫(Diabrotica undecimpunctata howardi(Barber))，和玉米穗夜蛾(Helicoverpa zea(Boddie))。

在受控的环境条件(28℃，～40％相对湿度，16h:8h[光:暗])下温育生物测定5天，此时记录处理中昆虫的总数、死亡昆虫数目和存活昆虫的重量。

如下测定仅粗裂解物或者与加入的毒素复合体A类蛋白质TcdA或XptA2_xwi的生物学活性。对生物测定托盘的8孔中人工饮食的表面应用对照培养物或者那些表达增效剂蛋白质的培养物的粗的大肠杆菌裂解物(40μL)(3-21mg/mL)。每孔中处理的饮食的平均表面积为～1.5cm²。加入TcdA或XptA2_xwi蛋白质作为从异源表达各蛋白质的细菌培养物高度纯化的级分。用该饮食得到的XptA2_xwi和TcdA的终浓度分别为250ng/cm²和50ng/cm²。在这些剂量下，这些蛋白质对受试昆虫幼虫的生长基本上没有显著影响。

实施例7

pDAB8828裂解物的生物测定结果

表3显示了与对照细胞裂解物相比，经程序化以从质粒pDAB8828表达Tcp1_Gz蛋白质的细胞的裂解物的生物测定结果。数据的检查表明TcdA(鳞翅目活性的)和XptA2_xwi(鳞翅目活性的)当与仅载体对照裂解物混合时具有可忽略的影响。应注意到调节加入裂解物的TcdA和XptA2_xwi的量以突出增效剂编码基因的加强作用。来自含有pDAB8828的细胞的裂解物没有杀死昆虫。然而，当与TcdA或XptA2_xwi蛋白质混合时，注意到显著的生长抑制，具有预期的活性谱。通过SDS-PAGE对多种裂解物的分析表明在pDAB8828样品中存在～280kDa的带，但是在对照样品中不存在该带。带的迁移与Tcp1_Gz的理论大小(即277.7kDa)一致。这些结果表明质粒pDAB8828产生蛋白质Tcp1_Gz并且该蛋白质显示出加强A类蛋白质TcdA和XptA2对它们的目标昆虫的活性的令人惊奇的功能。

实施例8

生物测定结果pDAB8829裂解物

表4显示了与对照细胞裂解物相比，经程序化以从质粒pDAB8829表达Tcp1_Gz蛋白质的细胞的裂解物和经程序化以表达融合的增效剂8920的细胞裂解物的生物测定结果。数据的检查显示当与仅载体对照裂解物混合时，TcdA(鞘翅目毒素)和XptA2_xwi(鳞翅目毒素)具有可忽略的影响。应该注意到调节加入裂解物的TcdA和XptA2_xwi的量以突出TcdB2和TccC3编码基因的增效作用。仅来自含有pDAB8920的细胞的裂解物不杀死昆虫。然而，当与TcdA或XptA2_xwi混合时，注意到显著的昆虫抑制，其具有预期的抑制范围。令人惊奇地，经程序化以产生Tcp1_Gz蛋白质的细胞的裂解物显示出与8920增效剂相似的活性谱。通过SDS-PAGE对多种裂解物的分析显示与载体裂解物相比在pDAB8829样品中存在～280kDa。带的迁移与Tcp1_Gz的预期的分子量一致。这些结果表明质粒pDAB8829产生蛋白质Tcp1_Gz并且该蛋白质加强昆虫活性A类TcdA和XptA2蛋白质的活性。

实施例9

鉴定其他天然存在的融合的B类/C类蛋白质

该实施例提供了方法的进一步阐明，该方法可以用于从蛋白质数据库搜索与B类和C类TC蛋白质具有同源性的候选蛋白质。首先使用DNA/蛋白质分析程序[Vector NTI(Informax，Inc.)]构建人工产生的融合蛋白质序列。本领域技术人员将认识到可以备选使用一些其他DNA/蛋白质分析程序。从TcaC(GenBank检索号AAC38625.1)和TccC1(GenBank检索号AAL18473.1)(都来自发光光杆状菌菌株W-14)的氨基酸序列产生的此类融合蛋白的实例公开在SEQ ID NO：6中。该人工融合蛋白序列用于NCBI非冗余蛋白质数据库的标准蛋白质-蛋白质BLAST搜索，使用下面所列的默认值：

过滤器设置成低复杂度；

期望10；

字长3；

矩阵BLOSUM62

缺口代价：存在11，延伸1

图1给出了这种搜索的图示输出。[计算机搜索的实际输出在计算机监视器上以彩色给出；可以理解打印的图与计算机监视器输出不完全相同。这并不限制本文给出的解释]。在图形顶部具有不同阴影段的条形用来代表比对得分(Alignment Scores)，该比对得分从查询序列与搜索中鉴定的序列的不同量的氨基酸序列同源性计算得到。所示的值为：＜40，40-50，50-80，80-200-和＞＝200。比对得分条形下的下一个水平线代表2858个氨基酸的人工融合查询序列的氨基酸序列，以500个氨基酸分区。用作查询序列的该人工融合蛋白由从残基1到1485的TcaC氨基酸和从1486到2858的TccC1氨基酸组成。图1的数据部分中水平线代表各蛋白质，其通过BLAST算法鉴定为具有与查询序列相关的氨基酸序列(在搜索的参数内)。为了清楚和容易引用，已经对某些界标线添加了数字；此类数字不是最初输出的部分。图1的检查揭示有64条线，它们代表鉴定为与查询序列具有显著同源性区域的蛋白质序列。注意到一些水平线不代表单个蛋白质。例如，线1的较大的左手部分被输出鉴定为“gi|3265037|gb|AAC38625.1|杀虫毒素复合体蛋白TcaC[发光光杆状菌]”(即，查询序列的部分)，而线1的右手较小部分被鉴定为“＞gi|53693249|ref|ZP_00127870.2|COG3209：Rhs家族蛋白质[Pseudomonas syringae pv.syringae B728a]。”线1中该线的左手和右手部分之间的缺口指出属于单独编码的蛋白质的两个同源性区域。

然而，在一些实例中，同源性线代表一种蛋白质。例如，线53具有通过斜杠连接的左手和右手同源性区。BLAST输出将该蛋白质鉴定为本发明的主题：″＞gi|42545609|gb|EAA68452.1|推定的蛋白质FG10566.1[玉蜀黍赤霉PH-1]”。与查询序列具有同源性区域的其他单一蛋白质在表5中鉴定。尽管通过它们与B类和C类蛋白质的同源性发现，但是可以理解推定的蛋白质的生物功能/活性还没有被证实。然而，考虑到本公开(但不是它之前)，现在有动机评估这些蛋白质的功能性以评估它们加强A类毒素复合体蛋白质活性的能力。

实施例10

从TANNERELLA FORSYTHENSIS克隆编码毒素复合体增效剂的

B/C类融合蛋白的基因

Pfam模型分析和可公共得到的DNA和蛋白质序列数据库(NCBI和TIGR Microbial)的扫描鉴定了Tannerella forsythensis基因组中编码候选融合的B/C类毒素复合体(TC)增效剂蛋白质的基因和另外四种潜在的C类TC基因。(也称作福赛斯拟杆菌(Bacteroides forsythus)。到申请日时，未知该基因组可以从Entrez得到，并且在TIGR Microbial数据库中，它被列为未完成的，没有完成的目标数据)。这些C类TC基因位于编码融合的B/C类TC蛋白质的基因下游。克隆了编码融合的B/C类TC蛋白质的推定基因。

Tannerella forsythensis(ATCC 43037)的基因组DNA从美国典型培养物保藏中心(ATCC，Manassas，VA)购买。基于公共数据库中的序列设计用于扩增融合的B/C TC基因的多个区域和其侧翼序列的引物。在最初PCR反应中，使用引物P1和P2(表6)用PfuTurbo热启动DNA聚合酶(Stratagene，La Jolla，CA)得到了4541bp的产物，其对应于从B/C类融合基因上游431bp到推定的起始密码子(ATG)下游4110bp的区域。将该PCR产物插入到pCRII Blunt TOPO载体(Invitrogen，Carlsbad，CA)中并测定插入DNA的DNA序列。测序结果显示PCR片段和公共数据库中融合的B/C类基因的对应区域之间的同源性仅为97.1％。这暗示公共数据库中序列所基于的细菌菌株可能与我们从ATCC得到的菌株(即，菌株43037)不同。进行了多次尝试以基于公开数据库中的序列扩增融合的B/C类基因的3’末端。设计备选引物用于扩增DNA片段，其在经证实的序列区域的3’末端开始并且延伸到B/C类融合基因下游的多个区域(基于公布的序列)。使用引物P3和P4(表6)用Takara EX Taq^TM DNA聚合酶(Fisher Scientific，Pittsburg，PA)得到了约6.5kb PCR片段。将该DNA片段克隆到pCR2.1-TOPO载体(Invitrogen，Carlsbad，CA)中并部分测序。对该PCR产物的两端测序的结果显示，尽管正向引物(P3)与B/C类融合基因中的预期位置退火，但是反向引物(P4)已经附着到B/C类融合基因下游第四个C类TC相关基因的5’末端。此外，PCR产物的大小(～6.5kb)小于从公布的基因组序列预测的大小(11201bp)，其指出在该区域中存在DNA序列的缺失或重排。以6.5kb PCR产物代表的B/C类融合基因的3’末端的完整序列通过从证实区域的5’末端逐步行走一直到达第一个框内终止密码子得到。Tannerella forsythensis(ATCC 43037)中B/C类融合基因的全长序列在SEQ ID NO：11中公开。

平行地，通过用AfeI、BsaB I和Stu I限制酶消化T.forsythensis(ATCC43037)的基因组DNA并使用BD GenomeWalker^TM Universal Kit (BDBiosciences，San Jose，CA)构建三个GenomeWalking“文库”。使用引物P5(表6)和AP1(随试剂盒提供)进行第一轮PCR。使用一对嵌套引物P6(表6)和AP2(试剂盒提供)进行第二轮PCR。在两轮PCR反应中使用Takara LATaq^TM DNA聚合酶。从BsaB I和Stu I消化产生的文库得到特异扩增。将这些PCR产物克隆到pCR2.1TOPO载体中并测序。测序结果与SEQ IDNO：11的对应的区域匹配，只是存在在PCR过程中可能引入的一些单核苷酸突变。这些结果证实SEQ ID NO：11中公开的序列是Tannerellaforsythensis(ATCC 43037)中B/C类融合基因的实际序列，具有非常小的差异。

为了进一步证实该结果，使用用Hind III和BsaB I消化的T.forsythensis基因组DNA在单独的反应中进行DNA印迹分析。用1030bpDNA片段探测印迹，该片段代表B/C类融合基因中B类TC相关蛋白质的编码区的部分。通过使用引物P2/P2从T.forsythensis(ATCC 43037)PCR扩增基因组DNA得到该探针。来自DNA印迹分析的结果揭示该探针与T.forsythensis(ATCC 43037)基因组DNA的Hind III和BsaB I片段杂交，与从SEQ ID NO：11预测的那些具有相同的大小[2792bp为Hind III消化所得，3598为BsaB I所得]。

注意到以SEQ ID NO：11公开的T.forsythensis(ATCC 43037)B/C类融合基因的DNA序列从扩增自基因组DNA的PCR产物得到。本领域公知此类PCR扩增可以引入少数碱基掺入错误。从而，可能在T.forsythensis(ATCC43037)基因组中存在的该基因的实际序列与SEQ ID NO：11中公开的稍有不同。考虑到从多个PCR产物确定SEQ ID NO：11中公开的序列，有理由期望B/C类融合基因的基因组拷贝将与SEQ ID NO：11具有至少99％同一性。SEQ ID NO：11与公共数据库中B/C类融合基因的对应序列的比较揭示在5’末端包含约5.2kb的区域中两个序列共有97％同源性，所述区域对应于与B类TC蛋白质相关的氨基酸序列的整个编码区加上C类TC蛋白质的核心区。在5.2kb区域下游，有约460bp序列，其与B/C类融合基因下游的第三个C类TC相关基因的高变区具有高度同源性，然后在3’末端具有额外的～420bp，其同时显示出比公布的Tannerella forsythensis(ATCC 43037)部分基因组序列数据库的任何其他部分相对更低的同源性(小于60％)。这表明编码从Tannerella forsythensis(ATCC 43037)的基因组DNA克隆的融合的B/C类TC蛋白质的推定基因的序列(SEQ ID NO：11)与公共数据库中的不同。

表6.用于PCR的引物

引物ID	序列	SEQ IDNO：
引物ID	序列	SEQ IDNO：	P1	AGGATCGTACGATGGAACAAGAGG	13
P2	CGACTGTGATGCGTAACGAACAGA	14	P1	AGGATCGTACGATGGAACAAGAGG	13
P2	CGACTGTGATGCGTAACGAACAGA	14	P3	GTCCGACGGTCTGTATATGCTTAG	15
P4	CCGAAGAAATCAATGCCTGCCGAT	16	P3	GTCCGACGGTCTGTATATGCTTAG	15
P4	CCGAAGAAATCAATGCCTGCCGAT	16	P5	TAATGTCCCCGACGGTAAATGGCTTGAA	17
P6	GCGTCTGTTCGTTACGCATCACAGTCG	18	P5	TAATGTCCCCGACGGTAAATGGCTTGAA	17

实施例11

鉴定其他多结构域TC蛋白质

鉴于该天然融合的“BC”毒素复合体蛋白质的活性的公开，本领域技术人员现在有动机发现其他此类融合蛋白，预期它们可以加强A类毒素复合体毒素蛋白质的杀虫活性。本领域公知蛋白质数据库的标准BLAST搜索可以用于鉴定通过氨基酸序列同源性与相互相关的蛋白质。该实施例教导可以怎样分析蛋白质序列数据库和提取具有特定结构域结构的那些蛋白质序列，所述结构预测它们的功能为B类或C类毒素复合体(TC)增效剂。B类和C类TC基因家族编码相对较大并且具有不同的蛋白质结构域结构的蛋白质。这两个因素可以联合使用以从大的蛋白质数据库提取各自B类和C类TC蛋白质的序列。类似地，当B和C类TC蛋白质融合到单个多肽时，它们的大的尺寸和蛋白质结构域的不同的组合可以用于设置特定搜索来从蛋白质数据库提取相关结构和功能的序列。这因为本公开而是可能的。

用Pfam搜索算法(E.L.L.Sonnhammer，S.R.Eddy，和R.Durbin)，在Pfam网站(http://pfam.wustl.edu/)，“镜像”站点(例如http://www.sanger.ac.uk/Software/Pfam/)，或本地安装数据库常规地进行蛋白质结构域搜索。尽管这些Pfam模型非常有帮助，但是它们可以错失现有的结构域，特别如果这些结构域与该模型存在合理的分歧。因此，为了增加结构域检测的灵敏性，希望建立对研究的基因家族特异的蛋白质结构域模型。这可以用与用于产生Pfam家族相同组的分析工具(即，HMMER；R.Durbin，S.R.Eddy，A.Krogh，和G.Mitchison)进行并且将通常允许鉴定更一般的模型错失的蛋白质结构域。

工作流在概念上是简单的。首先，对蛋白质数据库进行搜索以提取数据库序列的子集。其次，使用HMMER对产生的HMM模型测试该子集。对该模型产生的并且具有合适的显著性水平的命中将包括可以为实验表征选择的蛋白质集合，或者可以作为更小的数据库的蛋白质集合，将其对第二个HMM模型筛选。如果需要，可以重复该筛选直到得到所希望水平的分辨率。

下面的实施例示例该方法对于四个不同集合的TC蛋白质家族的效用：来自真核和原核太古代来源的单一B类TC蛋白质、单一C类TC蛋白质，和融合的B/C类TC蛋白质。

B类TC蛋白质。迄今发现的所有B类TC基因都来自原核生物；因此，最初的研究集合局限于原核生物蛋白质序列。使用搜索术语：“1400：1600[SLEN]AND Prokaryota”在http://www.ncbi.nlm.nih.gov/进行蛋白质搜索。这些术语将搜索局限于长度为1400到1600个氨基酸并且具有原核生物来源的那些蛋白质。鉴定了总共3522个蛋白质序列并且作为可搜索的数据库下载。应该指出，尽管这些限制在本上下文中有用，但是序列的间隔长度和搜索的领域可以修饰以满足将检查的个体蛋白质集合的参数。

迄今检查的所有已知的B类TC蛋白质都含有两个不同集合的结构域。(本文使用的结构域术语来自Pfam站点并且通过该站点的名称可以搜索结构域)。在氨基末端是高度保守的spvB结构域。该结构域如此保守以至于没有必要构建更特异的HMM结构域模型，并且直接从Pfam网站下载一般模型(spvB_ls.hmm)。也见M.L.Lesnick，N.E.Reiner，J.Fierer，和D.G.Guiney，Mol. Microbiol. March 2001，39(6)：1464-70。

spvB结构域后是多个FG-GAP结构域。见例如，T.A.Spring，“Foldingof the N-terminal，ligand-binding region of integrin alpha-subunits into abeta-propeller domain，”Proc.Natl.Acad.Sci.U.S.A.1997，94：65-72。当使用默认的Pfam收集阈值时，一般的Pfam模型利用的FG-GAP结构域模型在单个蛋白质内错失了许多结构域，并且在一些蛋白质内错失了所有结构域(例如，GenBank检索号66047263、28871479和48730377，其通过我们的模型鉴定，见下文)。如果使用更松弛的截断值，[E-值＝1.0]，那么发现更多结构域，包括在上面蛋白质的那些结构域，但是不能发现一些结构域。因此，必须产生定制的FG-GAP HMM模型。

产生蛋白质家族的HMM模型通常需要三步。首先，选择结构域的一个集合作为“种子”，使用ClustalX产生多序列比对。其次，将该多序列比对用作hmmbuild的输出，hmmbuild是产生HMM模型的程序。最后，用hmmcalibrate校正特定模型的统计学(hmmcalibrate、hmmbuild和hmmsearch是HMMER包的组件)。用于产生HMM模型的种子结构域集合是该模型成功的关键成分。它必须足够分散以便捕获相关结构域的所有多样性。然而，种子集合不能含有所有已知的结构域成员，因为测试该模型的预测能力需要它能够鉴定含有该种子集合中不包括的成员的结构域。

使用GenBank检索号16416891(来自发光光杆状菌的TcaC)的BLink来源获得作为FG-GAP结构域来源的B类TC蛋白质集合。该提取产生15种相关的非冗余的原核生物蛋白质，其具有高于2000的得分。[通过任何给定蛋白质的BLink可得到的相关蛋白质数目可以随着时间改变，因为GenBank可以是动态列表]。提取的蛋白质的GenBank检索号为16416891、37524951、16416930、37524959、27479675、51597844、22124105、45443595、50956508、14041732、32699986、10956817、66047263、28871479、和48730377。

使用一般的Pfam模型，补充来自GenBank检索号16416891(即TcaC)的已知的FG-GAP结构域，通过提取上面蛋白质中发现的FG-GAP结构域产生中间HMM模型。通过从两个蛋白质序列提取结构域得到最终模型中使用的结构域，所述蛋白质序列具有含有6个FG-GAP结构域的最佳和最差的得分(分别为GenBank检索号16416891和66047263)。[注意到6代表多数含有FG-GAP的蛋白质中FG-GAP结构域的规范数。]并不令人惊奇的是，GenBank检索号16416891是最佳的命中，因为它是该模型自身的部分。下面显示了这两种蛋白质中6个FG_GAP结构域的ClustaⅨ多序列比对。这些比对可以用于hmmbuild产生用于该实施例中的FG-GAP HMM模型。

得到的FG_GAP结构域的CLUSTALX(1.83)多序列比对。gi |16416891|Domain_4 DARKLVAFSDMLGSGQQHLVEIKAN-RVTCWP-NLGHGRFGQP-gi |66047263|Domain_4 -STELVAFSDLLGTGQQHLIRIRHN-EIRVWP-NLGRGRFGKG-gi |16416891|Domain_3 --HPSIQFADLTGAGLSDLVLIGPK-SVRLYA-NQR-NGWRKGEgi |66047263|Domain_3 --HPQGQMADLVGDGLSDLALIGPR-SVRLYA-NRRADGFAAA-gi |16416891|Domain_6 -NTCQLQVADIQGLGIASLILTVPHIAPHHWRCDLSLTKPW---gi |66047263|Domain_6 -RFCQFSAVDLLGLGFSSLVLTVPHMAPRHWSLYYAADRTG---gi |16416891|Domain_2 --QDNASLMDINGDGQLDWVVTASG-IRGYHS-QQPDGKWTH--gi |66047263|Domain_2 -APVRQTLTDLTGDGRLDWVVAQPG-MAGFFT-LNPDRSWSK-gi |16416891|Domain_5 -NPERLFLADIDGSGTTDLIYAQSG-SLLIYL-NQSGNQFDAP-gi |66047263|Domain_5 -DSSRVRLADLDGSGASDVLYLQAD-GFQVFM-NQGGNGLAAA-gi |16416891|Domain_1 --QQRYQLVDLRGEGLPGMLYQDRG--AWWYK-APQRQEDGDS-gi |66047263|Domain_1 --GQQYQLVDLYGDGLPGILYRDDK--AWLYR-EPIRDTAGTA-

该多序列比对用于hmmbuild和hmmcalibrate以产生BM0dels3.hmm。然后将BModels3.hmm模型对上面的15种蛋白质样品集合测试并且能够鉴定所有预期的FG_GAP结构域。相反地，当对20种随机选择的蛋白质测试BModels3.hmm模型时，没有发现FG_GAP结构域。然后将BModels3.hmm模型用hmmsearch对含有1400到1600个氨基酸的所有原核生物蛋白质的3522个成员的数据库测试，产生下面的结果。

hmmsearch-用profiel HMM搜索序列数据库

HMMER 2.3.1(2003年6月)

根据GNU General Public License(GPL)自由传播

------------------------------------

HMM文件：FinalTest/BModels3.hmm

[BDomainsModel3Sequences]

序列数据库：FinalTest/Prokaryotic1400-1600.fasta

每序列得分截断：[无]

每结构域得分截断：[无]

每序列Eval截断：＜＝10

每结构域Eval截断：[无]

-------------------------------

Query HMM：BDomainsModel3Sequences

Accession：[无]

描述：[无]

[HMM已经校正；E-值为经验估计]

完整序列得分(得分包括所有结构域)：

注意到在gi|48730377|和gi|39576632|之间有非常清楚的E值中断(为了清楚加双下划线)。提取了具有gi|48730377|(7.5e-39)的E值以下E值的蛋白质。然后使用spvB_ls.hmm模型和hmmsearch搜索该数据集。结果在下面给出：

hmmsearch-用profiel HMM搜索序列数据库

HMMER 2.3.1(2003年6月)

根据GNU General Public License(GPL)自由传播

------------------------------------

HMM文件：FinalTest/spvB_Is.hmm[SpvB]

序列数据库：FinalTest/ProBBModel3Hits.fasta

每序列得分截断：[无]

每结构域得分截断：[无]

每序列Eval截断：＜＝10

每结构域Eval截断：[无]

----------------------------------

Query HMM：SpvB

Accession：PF03534.3

描述：沙门氏菌毒性质粒65kDa B蛋白

[HMM已经校准；E-值为经验估计]

完整序列的得分(得分包括所有结构域)：

将上面的集合去重复以除去重复，留下已知为B类TC蛋白质(如以前通过标准的BLAST搜索鉴定)的一组蛋白质。[重复为两类重复-相同基因的重复条目，和来自相同生物的密切相关菌株的相同蛋白质。]去重复的列表在下面给出：

从而，该实例阐明了令人惊奇的结果，与用于通过总体氨基酸序列同源性鉴定相关蛋白质的标准BLAST搜索相比，通过使用蛋白质结构域搜索策略的组合，可能额外鉴定相关的蛋白质。这些蛋白质结构域策略可以从相对较少的蛋白质实例获得，所述蛋白质含有通过标准结构域搜索算法不能揭示的结构域。对于该实例，无论首先还是其次进行spvB_ls.hmm搜索，搜索最终结果不是重要的。

C类TC蛋白质。C类TC蛋白质在GenBank中注解为RHS结构域超家族成员，其特征是含有RHS结构域的多个拷贝。[注释：本文使用的结构域术语来自Pfam网站并且通过该网站的名称可以搜索结构域。]也见C.W.Hill，C.H.Sandt，and D.A.Vlazny，“Rhs elements of Escherichia coli：afamily of genetic composites each encoding a large mosaic protein，”Mol.Microbiol. June 1994，12(6)：865-71；A.D.Minet，B.P.Rubin，R.P.Tucker，S.Baumgartner，和R.Chiquet-Ehrismann，“Teneurin-1，a vertebratehomologue of the Drosophila pair-rule gene ten-m，is a neuronal proteinwith a novel type of heparin-binding domain，”J.Cell Sci. 1999，112：2019-2032。迄今发现的所有C类TC基因都来自原核生物；因此，最初的研究集合局限于原核生物蛋白质序列。使用搜索术语：“800：1100[SLEN]AND Prokaryota”在http://www.ncbi.nlm.nih.gov/进行蛋白质搜索。这些术语将搜索局限于长度为800到1100个氨基酸并且具有原核生物来源的那些蛋白质。鉴定了总共54323个蛋白质序列并且作为可搜索的数据库下载。应该指出，尽管这些限制在本上下文中有用，但是序列的间隔长度和搜索的领域可以修饰以满足将检查的个体蛋白质集合的参数。

对GenBank检索号27479677(来自发光光杆状菌(Photorhabdusluminescens)的TccC3)使用BLink来源获得用作RHS结构域来源的一组C类TC蛋白质。该提取产生了38种相关的非冗余的原核生物蛋白质，其得分高于800。[任何给定蛋白质的通过BLink可获得的相关蛋白质的数目可以随时间改变，因为GenBank可以是动态列表。]所提取的蛋白质的GenBank检索号为：27479677、27479683、27479669、37524966、37528020、37528005、16416915、27479639、37524950、37528309、42742522、32699988、10956818、51596618、51596557、45441893、45441958、14041731、45443601、51597848、25511229、45443600、50956512、28871477、28871480、66044304、66043853、66047265、66045648、66047259、66047264、66047260、28868442、48730374、48730375、48730376、48732572和48732573。

使用如上述的一般Pfam RHS模型，通过在上面的蛋白质中提取RHS结构域，产生了中间HMM模型。将结构域列表分成两部分，一部分将用作种子集合，一部分将用于测试模型。下面显示了种子集合的RHS结构域的ClustalX多序列比对。这些比对可以用于hmmbuild以产生用于该实例的RHS HMM模型。

CLUSTALX(1.83)多序列比对

gi |27479639|RHS_domain_1 -----------------ADATGALLTQT----DAKGNI-----------

gi |37524966|RHS_domain_1 -----------------FDATGALLTQT----DAKSNI-----------

gi |45441893|RHS_domain_1 -----------------ADATGAVLTTT----DAKGNL-----------

gi |51596557|RHS_domain_1 -----------------ADATGAVLTTT----DAKGNL-----------

gi |48730374|RHS_domain_2 -----------------YSPLGAVLTQT----DAGGHQ-----------

gi |48730376|RHS_domain_2 -----------------FSAVGALLQTT----DAGGHL-----------

gi |28871477|RHS_domain_2 -----------------FNAQGEDLAQT----DANGNV-----------

gi |66047265|RHS_domain_1 -----------------FNALGDALAQT----DAMGNT-----------

gi |28871480|RHS_domain_1 -----------------FNAQGEVLKQT----DASGNS-----------

gi |28868442|RHS_domain_2 -----------------YTVAGLLKSSRL---QMNGQAE----------

gi |45443601|RHS_domain_2 -----------------YNRAGQLIGSWL---TIKNSAE----------

gi |66044304|RHS_domain_2 -----------------YDAQQRVVSET----AGNGVI-----------

gi |66045648|RHS_domain_3 -----------------YDAQGHVTSET----AGNGVM-----------

gi |66047260|RHS_domain_3 -----------------YDAFNQVEQET----AGNGVV-----------

gi |66043853|RHS_domain_2 -----------------YDAHGRIESQT----AGNGVI-----------

gi |66045648|RHS_domain_1 -----------------YDAQLRPVAII-----ENGRCV----------

gi |66047260|RHS_domain_1 -----------------YDAQLRPLAIN-----ESGRMT----------

gi |66047259|RHS_domain_1 -----------------YDSSLRPVSVT-----EQGLVV----------

gi |66047264|RHS_domain_1 -----------------YDLHLRPTRII-----EQNRCA----------

gi |27479639|RHS_domain_3 -----------------WTPRGELKQVN----NGPGN------------

gi |27479683|RHS_domain_4 -----------------WTPRGELKQAN----NSAGN------------

gi |27479669|RHS_domain_2 -----------------WNTRGELKQVTPVSRESAS--D----------

gi |27479677|RHS_domain_4 -----------------WNTRGELQQVTLVKRDKGANDD----------

gi |45441893|RHS_domain_4 -----------------WTARNELLKVTPVVRDGSTD-D----------

gi |28871480|RHS_domain_3 -----------------WDARNQLQHITTVQREDGSNDD----------

gi |66047265|RHS_domain_4 -----------------WDVRNQLQHITTVQREDGSSDD----------

gi |28868442|RHS_domain_4 FDASGNLLALQAGQHLSWDRRNQLQHVRPVIRENGMDDS----------

gi |66043853|RHS_domain_4 -----------------WDSGNRLIKVDAVTRSEQPEDG----------

gi |27479683|RHS_domain_2 -----------------YSAAGQ-----KLREEHGNGIV----------

gi |51597848|ref|RHS_domain_3 -----------------YSAAGQ-----KLREESGNGVI----------

gi |27479677|RHS_domain_2 -----------------YEPETQRLIGIKTRRPSDTKVL----------

gi |37524950|RHS_domain_2 ------YDSL-------YQLISATGREMANIGQQNNQLP-SPALPS-NN

gi |66047264|RHS_domain_3 ------YDTL------YQLIEASGREVRNGASHGPALPGLQSLPTIDPC

gi |48730374|RHS_domain_4 ------YDTL-------YRLISATGYSDAPPSDR-LGLP----QSTNPD

gi |28871477|RHS_domain_4 ------YDAAGNLLQMRHEGAHNFTRNMHVDPDSNRSLP-------DND

gi |66047259|RHS_domain_3 ------YDAAGNLLQMRHEGAHNFTRNMHVDPDSNRSLP-------DDE

gi |45443600|ref|NP_995139.1| -----------------YDPVGNILAIHN--DAEATRFYR---------

gi |51597848|RHS_domain_1 -----------------YNAFGQLIASR----DPRLEVDN---------

gi |27479639|RHS_domain_1 ------QRLAYDVA---GQLKGCWLTLKGQA-----

gi |37524966|RHS_domain_1 ------QRLAYNVA---GQLKGSWLTLKNQSEQV--

gi |45441893|RHS_domain_1 ------QRMAYDVA---GLLSGSW-TLKDGTE----

gi |51596557|RHS_domain_1 ------QRMAYDVA---GLLSGSWLTLKDGTE----

gi |48730374|RHS_domain_2 ------QQSTYDVA---GQLNRVQLQINGQT-----

gi |48730376|RHS_domain_2 ------QQSTYDIA---GQLVQVQLQLDGQA-----

gi |28871477|RHS_domain_2 ------QRFSHGVA---GQLHAVELTLANTAQRQT-

gi |66047265|RHS_domain_1 ------QAFGMTVA---GQLKAAGLT----------

gi |28871480|RHS_domain_1 ------QLSTHNLA---GQLHSTDL----------

gi |28868442|RHS_domain_2 ------QVLVSAIQY-DAQERVVSETAGNGVM----

gi |45443601|RHS_domain_2 ------QVILRSLTY-SAAGQKLREESGNG------

gi |66044304|RHS_domain_2 ------STALYATE--DGRLLALSARRADGLM----

gi |66045648|RHS_domain_3 ------TKALHDAA--NGRLIELKGTRADGQL----

gi |66047260|RHS_domain_3 ------SRYVYDLQ--DGRLIELSALSADGSV----

gi |66043853|RHS_domain_2 ------SCASFDLA--DGRMSELITYRP-GVK----

gi |66045648|RHS_domain_1 ------ERRQYGGAD-TQGHNQCNQCIRHDDPAGSR

gi |66047260|RHS_domain_1 ------ERFTYGGPA-TAERNQCNQLIRHDDTAGSR

gi |66047259|RHS_domain_1 ------ERLAYGGAD-AAEHNQCNQLIRHDDTAGSR

gi |66047264|RHS_domain_1 ------ERFTYGQAG-AAAHNQCNQLVRHDDTAGSR

gi |27479639|RHS_domain_3 ------EWYRYDSN---GMRQLKVSEQPTQ------

gi |27479683|RHS_domain_4 ------EWYRYDSN---GIRQLKVNEQQTQ------

gi |27479669|RHS_domain_2 -----REWYRYGND---GMRRLKVSEQQ--------

gi |27479677|RHS_domain_4 -----REWYRYSGD---GRRMLKINEQQASNNAQT-

gi |45441893|RHS_domain_4 -----SESYRYDAA---SQRILKVSRQKTNT-----

gi |28871480|RHS_domain_3 -----E-RYVYDGQ---GQRCRLISTAQASGRT---

gi |66047265|RHS_domain_4 -----E-RYVYDGQ---GQRCRKISTAQASGRM---

gi |28868442|RHS_domain_4 -----E-RYSYDAS---GQRLRKVRTTQAKT-----

gi |66043853|RHS_domain_4 -----E-HYAYDAS---GQRLR--KTAKA-------

gi |27479683|RHS_domain_2 --TEY--SYEPETQ---RLIGITTRRPSDAK-----

gi |51597848|ref|RHS_domain_3 --TEY--RYEPQTQ---RLIGIKTTRP--AK-----

gi |27479677|RHS_domain_2 --QDL--RYEYDPV---GNV-ISIRNDAEAT-----

gi |37524950|RHS_domain_2 TYTNYTRRYSYDHS---GNL-TQIRHSSSAT-----

gi |66047264|RHS_domain_3 QVSNYTQSYSYDAA---GNL-LQMRHEGA-------

gi |48730374|RHS_domain_4 DRRNYVEHYDYDHG---DNL-VKTIHVRDGTS----

gi |28871477|RHS_domain_4 RYVDF--ATSFDAN---GNL-LQLVRGQT-------

gi |66047259|RHS_domain_3 GEVDF--ATSFDAN---GNL-LQLVRGQT-------

gi |45443600|ref|NP_995139.1| -----NQKIVPETTYRYDALYQLIEATGREADT---

gi |51597848|RHS_domain_1 ------FRYQYSLS---GVPLRTDSVDSGSTL----

该多序列比对用hmmbuild和hmmcalibrate产生CModel1.hmm。然后将CModel1.hmm模型对上面的38种蛋白质样品集合测试并且能够鉴定所有预期的RHS结构域。相反地，当对20种随机选择的蛋白质测试CModel1.hmm模型时，没有发现RHS结构域。用hmmsearch对含有所有800到1000个氨基酸的原核蛋白质的54323个成员的数据库测试CModel1.hmm模型，得到下面的结果。

hmmsearch-用profile HMM搜索序列数据库

HMMER 2.3.1(2003年6月)

根据GNU General Public License(GPL)自由传播

------------------------------------

HMM文件：FinalTest/CModel1.hmm

[CDomainsUniqueCreate2]

序列数据库：FinalTest/Prokaryotic800-1100.fasta

每序列得分截断：[无]

每结构域得分截断：[无]

每序列Eval截断：＜＝10

每结构域Eval截断：[无]

--------------------------------

Query HMM：CDomainsUniqueCreate2

Accession：[无]

描述：[无]

[HMM已经校准；E-值是经验估计]

完整序列得分(得分包括所有结构域)：

尽管该列表中的多数命中是C类TC蛋白质，但是与上述B类TC蛋白质相比，没有明确的E值来定义C类TC蛋白质和所有其他打分的蛋白质之间的边界。然而，好于e-10的大多数命中是C类TC蛋白质，并且低于该标记没有已知的C类TC蛋白质。实际上，前80个命中(直到gi|32699988|)都是C类TC蛋白质，并且得分好于e-10的至少75％[88/116]的蛋白质是已知的C类TC蛋白质或者注解为这样的。38种所选的C类TC蛋白质没有一种具有低于1.8e-11的得分。因此，如该HMM模型中代表的搜索标准的完善表明它是搜索数据库中C类TC蛋白质的有效工具。在54323种蛋白质中鉴定约88个命中代表搜索效率和严格性增加600倍以上。存在一定的不确定性，因为该模型中打分但是不注解为C类TC蛋白质的一些蛋白质可能实际上是C类TC蛋白质。

CModel1.hmm不能产生允许在800-1100个氨基酸大小类别中C类TC蛋白质和所有其他蛋白质之间的完全分开可能是由于C类TC蛋白质家族是RHS蛋白质的更大的超家族的成员这一事实。尽管该超家族的多数其他成员大于C类TC蛋白质，但是在大小中可以存在足够的重叠以阻止完全区分。如将在下面看到的，结合使用RHS模型与其他结构域模型是区分融合的B/C类TC蛋白质与蛋白质数据库中其他条目的有效方法。

原核生物和太古代融合的B/C类TC蛋白质。对应于融合的B/C类毒素复合体蛋白质的蛋白质在所有三界中发现并且都具有一般的结构域形式：spvB结构域，接着是多个FG-GAP结构域，接着是多个RHS结构域。然而，在这些结构域(或亚结构域)的结构中的一些差异不允许HMM模型的简单集合覆盖所有三种情况，因此对它们单独分析。

与单个B类TC蛋白质(见上文)相比，来自原核生物的融合的B/C类TC蛋白质的spvB结构域不是高度保守的，因此Pfam spvB模型对于模型产生不是合适的。尽管在原核和古细菌融合的B/C类TC蛋白质中代表三个结构域类别，但是当前表明对它们中的两类使用HMM模型足够从数据集选择融合的B/C TC蛋白质。

使用搜索术语“1700：2800[SLEN]AND Prokaryota”在网站ncbi.nlm.nih.gov进行蛋白质搜索。这些术语将搜索局限于长度为1700到2800个氨基酸并且具有原核生物和古细菌来源的那些蛋白质。[一个内在的GenBank特征是局限于原核生物界的搜索将也提取古细菌基因]。鉴定了共3303个蛋白质序列并下载为可搜索的数据库。应该注意到，尽管这些限制在当前背景中是有用的，但是序列的间隔长度和搜索的界可以修改以满足将检查的个体蛋白质集合的参数。

对于从原核生物界和古细菌发现融合B/C类TC蛋白质中FG-GAP结构域，证明Pfam FG-GAP模型和非融合的(单一)B类TC蛋白质HMM模型(上文)都不令人满意。因此通过采用Pfam发现的FG-GAP结构域并设置截断得分为1，从GenBank检索号48862345和1347570产生了令人满意的新模型。下面显示了FG-GAP结构域的ClustalX多序列比对。这些比对可以与hmmbuild一起使用以产生用于这些实例中的FG-GAP HMM模型(BModel7.hmm)。

来自GenBank检索号13475700的融合的B/C类TC蛋白质的结构域1明显更长并且将其修剪以改进该模型。然后将BModel.hmm模型用hmmsearch对含有长为1700到2800个氨基酸的所有原核(和古细菌)蛋白质的3303个成员数据库测试，得到下面的结果。[最初的输出列表被截短以除去多种具有非常高得分的蛋白质]。

hmmsearch-用profile HMM搜索序列数据库

HMMER 2.3.1(2003年6月)

根据GNU General Public License(GPL)自由传播

------------------------------------

HMM文件：FinalTest/BModel7.hmm

[BDomainsModel7Sequences]

序列数据库：FinalTest/Prokaryotic1700-2800.fasta

每序列得分截断：[无]

每结构域得分截断：[无]

每序列Eval截断：＜＝10

每结构域Eval截断：[无]

--------------------------------

Query HMM：BDomainsModel7Sequences

Accession：[无]

描述：[无]

[HMM已经校准；E-值是经验估计]

完整序列得分(得分包括所有结构域)：

注意到gi|19914667|的E-值为1.7e-5(为了清楚加双下划线)，是具有6个FG-GAP结构域的最后进入蛋白。具有该得分或更高得分的蛋白质从GenBank提取出来并用于产生用于下一轮分析的可搜索的数据集。用一般RHS Pfam模型rhs_ls.hmm代替产生新的对融合的B/C蛋白质特异的RHSHMM模型。搜索的结果如下：

hmmsearch-用profile HMM搜索序列数据库

HMMER 2.3.1(2003年6月)

根据GNU General Public License(GPL)自由传播

------------------------------------

HMM文件：FinalTest/rhs_ls.hmm[RHS_repeat]

序列数据库：FinalTest/ProLargeModel7Hits.fasta

每序列得分截断：[无]

每结构域得分截断：[无]

每序列Eval截断：＜＝10

每结构域Eval截断：[无]

------------------------------

Query HMM：RHS_repeat

Accession：PF05593.3

描述：RHS Repeat

[HMM已经校准；E-值是经验估计]

完整序列得分(得分包括所有结构域)：

注意到在gi|48862345|(E-值～e-15)和gi|48833214|(E-值0.41)之间存在E值的非常清楚的中断(为了清楚加双下划线)。下面是蛋白质的去重复的列表：

完整序列得分(得分包括所有结构域)：

从而，该实例表明在除了长度外不存在其他氨基酸序列信息的情况下，大数据集内融合的B/C类TC蛋白质序列可以从它们共有的蛋白质结构域结构鉴定。

真核生物融合的B/C类TC蛋白质。以与原核生物/古细菌模型稍微不同的方式开发了用于鉴定对应于融合的B/C类TC蛋白质的真核生物蛋白质的模型。来自玉蜀黍赤霉的唯一已知的实例具有spvB结构域(很少在真核生物蛋白质中发现)，其密切拟合Pfam模型。玉蜀黍赤霉融合的B/C类TC蛋白质还具有FG-GAP结构域，其可以使用上面为了非融合的B类TC蛋白质开发的FG-GAP BModels3.hmm模型发现。当一起使用时，这两种模型足够强大以从数据库选择玉蜀黍赤霉蛋白质，因此没有开发RHS HMM模型。本领域技术人员将认识到使用这些教导可以容易地开发这种RHS模型。例如，如果将搜索所有GenBank蛋白质而不是下面测试的子集，那么可以使用这种额外的RHS模型。

使用搜索术语“1700：2800[SLEN]AND Eukaryota”在http://www.ncbi.nlm.nih.gov/进行了蛋白质搜索。这些术语将搜索限制于长度为1700到2800个氨基酸并且具有真核生物来源的那些蛋白质。鉴定了共19550个蛋白质序列并且作为可搜索的数据库下载。应该指出，尽管这些限制可用于本上下文，但是可以改变序列的间隔长度和搜索的界以满足将检查的各蛋白质集合的参数。

首先对FG-GAP模型测试数据集。认为该模型是使用的两种模型中分辨力较低的一种，因为已知存在含有FG-GAP结构域的真核生物蛋白质。然而，如下面显示的，搜索集合的19550种蛋白质的仅仅一个成员具有显著命中。[GenBank检索号gi|46138103|和gi|42545609|是双重入口]。该结果表明FG-GAP模型对于1700到2800序列长度范围内的已知蛋白质具有明显的分辨力。

hmmsearch-用profile HMM搜索序列数据库

HMMER 2.3.1(2003年6月)

根据GNU General Public License(GPL)自由传播

-----------------------------------

HMM文件：FinalTest/BModels3.hmm

[BDomainsModel3Sequences]

序列数据库：

FinalTest/EukaryoticGenBank1700-2800.fasta

每序列得分截断：[无]

每结构域得分截断：[无]

每序列Eval截断：＜＝10

每结构域Eval截断：[无]

---------------------------------

Query HMM：BDomainsModel3Sequences

Accession：[无]

描述：[无]

[HMM已经校准；E-值是经验估计]

完整序列得分(得分包括所有结构域)：

我们用spvB_ls.hmm模型测试该蛋白质以表明该模型可以发现合适的蛋白质。结果在下面显示：

hmmsearch-用profile HMM搜索序列数据库

HMMER 2.3.1(2003年6月)

根据GNU General Public License(GPL)自由传播

------------------------------------

HMM文件：FinalTest/spvB_ls.hmm[SpvB]

序列数据库：FinalTest/EukBCModel3Hits.fasta

每个-序列得分截断值：[无]

每个-结构域得分截断值：[无]

每个-序列Eval截断值：＜＝10

每个-结构域Eval截断值：[无]

--------------------------------

查询HMM：SpvB

获得：PF03534.3

描述：沙门氏菌毒性质粒65kDa B蛋白质

[HMM已经校准；E-值是经验估计]

完整序列得分(得分包括所有结构域)：

因为迄今已经发现了真核B/C类TC融合蛋白的仅仅一个实例，所以不可能提供该搜索策略的严格检验。然而，很清楚两模型搜索策略将可以用于区分在序列长度范围内具有FG-GAP结构域但是不是融合的B/C类TC蛋白质的蛋白质。此外，必要时，本文提供的模型可以用于从更宽的序列范围提取B/C类TC融合蛋白质。如使用前面的阐明，使用模型的顺序不改变最终的结果。还重要的是注意到如果必须得到进一步的区分，还可以向上面的搜索中加入RHS模型。

上面的实施例教导(1)序列长度过滤和(2)结构域搜索的组合提供了从蛋白质序列数据库提取B类、C类和融合的B/C类TC蛋白质的有用的方法。结构域来自spvB、FG-GAP和RHS结构域家族，使用一般的Pfam HMM模型或者对特定蛋白质类别剪裁的具体的HMM结构域模型。这些实例中使用的序列长度间隔被选择以包括这些蛋白质的已知范围，并且表明这些蛋白质不仅可以与所有其他蛋白质分离，而且可以与这些蛋白质家族的其他成员分离。因为相同的HMM模型用于原核B类TC蛋白质和真核融合的BC类TC蛋白质，所以如果对搜索最初没有设置序列长度或者界限制，那么将一起提取两个结果集合。任选地，可以容易地开发RHS模型以区分这些蛋白质集合。如果此类区分是不希望的或者不必要的，那么可以将整个GenBank蛋白质数据集作为输入。然而，考虑到GenBank数据库的巨大和不断增长的大小，这将使得搜索显著更慢。

关于进一步的教导，见E.L.L.Sonnhammer，S.R.Eddy，和R.Durbin.Proteins 28：405-420，1997(描述了多序列比对和HMM的Pfam数据库，和它在大规模基因组分析中的用途)，和Richard Durbin，Sean Eddy，AndersKrogh，和Graeme Mitchison(Cambridge University Press，1998)，Biological Sequence Analysis：Probabilistic Models of Proteins and NucleicAcids。

实施例12

spvB、FG-GAP、RHS和HVR亚结构域在TANNERELLA和赤霉属的

BC融合蛋白质中的定位

图2和3阐明了上面的亚结构域分别在Tannerella和赤霉属的BC融合蛋白的B和C结构域中的位置。对于Tannerella(见图2)，图解了spvB结构域(标准spvB-ls.hmm模型)，从残基51-374(图2的以及SEQ ID NO：12的)加下划线。FG-GAP结构域(使用BModel7.hmm模型；在该分子中有六个)用双下划线指出并且发生在残基392-421、453-486、502-531、552-581、604-625和650-681。前面的特征在B结构域中可以观察到。过渡到C结构域后，8个RHS结构域(使用Pfam rhs_ls.hmm模型)可以在C结构域中在残基1048-1085、1168-1201、1207-1243、1248-1285、1290-1326、1331-1369、1447-1482和1620-1652处确定。这些在图2中以粗体指出。在“C类”TC蛋白质中共同的高变区(HVR)也在该分子的C末端(残基1733-2027)鉴定。这在图2中以斜体指出。

类似地，在关于赤霉属的图3(和SEQ ID NO：4)中，在残基51-374可观察到B结构域中的spvB亚结构域(以图3中的下划线显示)。据此确定三个FG-GAP结构域/亚结构域在残基570-609、630-669和685-700处发生。这些在图3中以双下划线指出。(SEQ ID NO：2的内含子：残基1557-1583在图3中未显示)。两个RHS结构域位于C结构域中残基1738-1774和1972-2002(在图3中以粗体显示)，在残基2154-2439(C末端区)处为HVR，其在图3中以斜体显示。

对于上面讨论的赤霉属模型，使用标准的pvB-ls.hmm模型确定spvB结构域。用BModels3.hmm模型发现三个FG-GAP结构域。由于当前已知仅仅一种真核生物蛋白质，所以难以测试最佳的模型。随着更多的真核生物融合的BC毒素蛋白质被发现，该模型将可能改进。用Pfam rhs_ls.hmm模型发现了RHS结构域。如使用FG-GAP结构域，发现了两个RHS结构域。随着更多的真核生物实例被发现，预期该模型将改进。在稍微不同的结构域搜索-NCBI的CD(保守结构域)搜索中-从氨基酸残基1493-2153的部分标记为RHSA [Marchler-Bauer A，Bryant SH(2004)，″CD-Search：proteindomain annotations on the fly.″，Nucleic Acids Res.32：W327-331.]如使用Tannerella模型，将HVR作图为缺少与其他蛋白质的同源性。然而，HVR在其他“C类”蛋白质中可被识别。由于如上述多种天然蛋白质长度的不同，不能为将来的蛋白质预测每个亚结构域的确切的残基位置。然而，本发明包括天然存在的蛋白质，其中Spv结构域位于该分子的前半部分，接着是至少一个F-Gap结构域，接着是蛋白质的后面三分之二中的至少一个RHS结构域，接着是蛋白质末端的高变区。一些软件程序还可以预测跨膜结构域。对于程序TMAP就是这样。从而，可能的是主题蛋白质还包含跨膜结构域。

实施例13

来自TANNERELLA和赤霉属的BC融合的毒素蛋白质的比对和进一步比较

用needle进行来自Tannerella和赤霉属的两种BC融合的毒素蛋白的全局比对，needle是一种EMBOSS程序(EMBOSS：The European MolecularBiology Open Software Suite(2000)，Rice，P.，Longden，I.，and Bleasby，A.，Trends in Genetics 16(6)：276-277)，使用Needleman-Wunsch算法(与GCG的GAP相同)。见图4。

使用的额外设置为：

Align_format：srspair；Report_file：outfile；Matrix：EBLOSUM62；Gap_penalty：10.0；Extend_penalty：0.5。

对于2894个氨基酸残基的长度，得到下面的得分：同一性：517/2894(17.9％)；相似性：796/2894(27.5％)；缺口：1322/2894(45.7％)；得分：441.0。

实施例14

构建编码8884融合蛋白(TcdB2/Tcp1_GzC)的基因

融合蛋白8884由与玉蜀黍赤霉Tcp1_Gz蛋白的部分融合的整个Photorhabdus TcdB2(一种B类蛋白质)组成。8884融合蛋白中存在的Tcp1_Gz蛋白质的区段在本文中称作Tcp1_GzC，以反映它与其他C类蛋白质的功能相似性。

为了构建8884融合蛋白的编码区，使用标准分子生物学技术修饰TcdB2编码区的3’末端。同样地，以多步方法修饰Tcp1_Gz的C样区域的编码区的5’末端，并将两个修饰的编码区与接头片段连接以产生单个可读框。编码8884基因融合的新的DNA在SEQ ID NO：19中公开并且编码多肽8884(在SEQ ID NO：20中给出)。8884融合蛋白编码区的核苷酸1-4422对应于发光光杆状菌菌株W-14 tcdB2基因(Genbank检索号AF346500.2)的相同数目的碱基并且编码整个TcdB2蛋白质。该序列接着是42个碱基的接头序列(编码14个氨基酸)，其接着是对应于编码Tcp1_Gz蛋白质的DNA序列的核苷酸4346-7423的经优化用于在大肠杆菌细胞中表达的DNA序列(SEQID NO：5)。将由TcdB2和Tcp1_GzC的编码区组成的融合基因(公开为SEQ IDNO：19)克隆到pET表达质粒载体(Novagen，Madison WI)中。以这样的方法进行构建使得保持合适的细菌转录和翻译信号。该质粒称作pDAB8884。SEQ ID NO：19中的表达盒长度为7542个核苷酸并且含有TcdB2的编码区(nts 1-4422)、TcdB2/Tcp1_GzC接头肽的编码区(nts 4423-4464)和Tcp1_GzC的编码区(nts 4465-7539)。SEQ ID NO：19中融合基因编码的多肽在SEQ IDNO：20中显示。预测该融合蛋白含有2,513个氨基酸，具有代表TcdB2(残基1-1474)，TcdB2/Tcp1_GzC接头肽(残基1475-1488)，和Tcp1_GzC(残基1489-2513)的区段。

实施例15

pDAB8884的表达条件和裂解物制备

A类TC蛋白质XptA2_Xwi以从异源表达该基因的萤光假单胞菌(Pseudomonasfluorescens)的培养物制备的纯化形式使用。使用标准方法将表达质粒pET280(空载体对照)、pDAB8920(编码TcdB2/TccC3融合蛋白)、pDAB8829(编码Tcp1_Gz蛋白)和pDAB8884转化到大肠杆菌T7表达菌株BL21(DE3)(Invitrogen，Carlsbad，CA)中。用10-200个新鲜转化的菌落在含有50μg/mL抗生素和75μM IPTG(异丙基-α-D-硫代吡喃半乳糖苷)的250mL LB中启动表达培养物。培养物在28℃下以180-200rpm(转/分钟)生长24小时。通过在500mL Nalgene瓶中以5，000xg在4℃离心20分钟收集细胞。将沉淀物悬浮在4-4.5mL Butterfield’s磷酸盐溶液(Hardy Diagnostics，Santa Maria，CA；0.3mM磷酸钾pH 7.2)中。将悬浮的细胞转移到具有1mL 0.1mm直径玻璃珠(Biospec，Bartlesville，OK，目录号1107901)的50mL聚丙烯螺旋帽离心管中。在冰上冷却细胞玻璃珠混合物，然后通过用2mm探头用Branson Sonifier 250(Danbury CT)以～30的输出，通过超声处理以两次45秒猝发裂解细胞，在猝发之间完全冷却。将裂解物转移到2mLEppendorf管中并以16,000xg离心5分钟。

实施例16

8884裂解物的生物测定条件

在特别设计用于昆虫生物测定的128孔托盘(C-D International，Pitman，NJ)中用新生玉米穗夜蛾幼虫以人工饮食进行昆虫生物测定。在受控的环境条件(28℃，～40％相对湿度，16h:8h[光:暗])下温育生物测定5天，此时记录处理中昆虫的总数、死亡昆虫数目和存活昆虫的重量。

如下测定仅粗裂解物或者与加入的XptA2_Xwi毒素蛋白质的生物学活性。对生物测定托盘的8孔中人工饮食的表面应用对照培养物或者那些表达毒素复合体蛋白质的培养物的粗的大肠杆菌裂解物(40μL)。每孔中处理的饮食的平均表面积为～1.5cm²。应用来自含有空的载体对照的细菌培养物的裂解物、或者产生8920TcdB2/TccC3融合蛋白、8829Tcp1_Gz蛋白和8884TcdB2/Tcp1_GzC融合蛋白的培养物的裂解物与和不与XptA2_Xwi。加入的XptA2_xwi蛋白质为从异源表达该蛋白质的细菌培养物高度纯化的制备物。此外，没有任何粗裂解物的纯化的XptA2_Xwi与作为对照的Butterfield’s磷酸盐溶液混合。饮食上XptA2_Xwi的终浓度为250ng/cm²。

实施例17

构建编码8883融合蛋白(Tcp1_GzB/TccC3)

的基因

融和蛋白8883由与整个Photorhabdus TccC3蛋白(C类蛋白质)融合的玉蜀黍赤霉Tcp1_Gz蛋白质的部分组成。8883融合蛋白中存在的Tcp1_Gz蛋白质的区段在本文中称作Tcp1_GzB，以反映它与其他B类蛋白质的功能相似性。

为了构建8883融合蛋白的编码区，使用标准分子生物学技术以多步方法修饰Tcp1_Gz B样区域的编码区的3’末端。同样地，以多步方法修饰TccC3编码区的5’末端，并将两个修饰的编码区与接头片段连接以产生单个可读框。编码8883基因融合的新的DNA在SEQ ID NO：21中公开并且编码多肽8883(在SEQ ID NO：22中给出)。对应于Tcp1_GzB蛋白的玉蜀黍赤霉蛋白Tcp1_Gz的部分由编码Tcp1_Gz蛋白的DNA序列的碱基23-4558编码，其经优化用于在大肠杆菌细胞中表达(在SEQ ID NO：5中公开)。该序列包含SEQ IDNO：21的碱基1-4536。这些碱基接着是39个碱基(编码13个氨基酸)的接头片段，然后是发光光杆状菌菌株W-14TccC3蛋白(C类蛋白质；Genbank检索号AF346500.2)的整个编码区。[在SEQ ID NO：21中，碱基号12(天然序列的T)改变成C以容纳ClaI限制酶识别位点。该沉默碱基改变不改变TccC3蛋白质的编码的氨基酸序列]。该新的融合基因称作8883(SEQ ID NO：21)并且编码多肽8883(SEQ ID NO：22)。

Tcp1_GzB和TccC3的编码区组成的融合基因工程化为pET表达质粒载体(Novagen，Madison WI)中的单个可读框。以这样的方式进行构建使得保持合适的细菌转录和翻译信号。将该质粒称作pDAB8883。融合的编码区盒的DNA序列在SEQ ID NO：21中显示。该盒长为7458个核苷酸并且含有Tcp1_GzB的编码区(nts 1-4536)、Tcp1_GzB/TccC3接头肽(nts 4537-4575)的编码区和TccC3的编码区(nts 4576-7455)。SEQ ID NO：21中融合基因编码的多肽在SEQ ID NO：22中显示。预测该融合蛋白含有2,485个氨基酸，具有代表Tcp1_GzB(残基1-1512)、Tcp1_GzB/TccC3接头肽(残基1513-1525)和TccC3(残基1526-2485)的区段。

如下面的实施例中阐明的，含有8883融合蛋白的裂解物表现出优良的功能活性。从而，本发明阐明了当与毒素复合体蛋白XptA2_Xwi组合使用时，真核基因产物Tcp1_GzB肽和原核基因产物TccC3之间融合的所保留的协同活性。

实施例18

pDAB8883的表达条件和裂解物制备

A类TC蛋白质XptA2_Xwi以从异源表达该基因的萤光假单胞菌的培养物制备的纯化形式利用。使用标准方法将表达质粒pET280(空载体对照)、pDAB8920(编码TcdB2/TccC3融合蛋白)，pDAB8829(编码Tcp1_Gz蛋白)和pDAB8883转化到大肠杆菌T7表达菌株BL21(DE3)(Invitrogen，Carlsbad，CA)中。用10-200个新鲜转化的菌落在含有50μg/mL抗生素和75μMIPTG(异丙基-α-D-硫代吡喃半乳糖苷)的250mL LB中启动表达培养。培养物在28℃下以180-200rpm(转/分钟)生长24小时。通过在500mL Nalgene瓶中以5,000xg在4℃离心20分钟收集细胞。将沉淀物悬浮在4-4.5mLButterfield’s磷酸盐溶液(Hardy Diagnostics，Santa Maria，CA；0.3mM磷酸钾pH 7.2)中。将悬浮的细胞转移到具有1mL 0.1mm直径玻璃珠(Biospec，Bartlesville，OK，目录号1107901)的50mL聚丙烯螺旋帽离心管中。在冰上冷却细胞玻璃珠混合物，然后通过用2mm探头用BransonSonifier 250(Danbury CT)以～30的输出，通过超声处理以两次45秒猝发裂解细胞，在猝发之间完全冷却。将裂解物转移到2mL Eppendorf管中并以16,000xg离心5分钟。

实施例19

8883裂解物的生物测定条件

在特别设计用于昆虫生物测定的128孔托盘(C-D International，Pitman，NJ)中用新生玉米穗夜蛾幼虫Helicoverpa zea(Boddie)以人工饮食进行昆虫生物测定。在受控的环境条件(28℃，～40％相对湿度，16h:8h[光:暗])下温育生物测定5天，此时记录处理中昆虫的总数、死亡昆虫数目和存活昆虫的重量。

如下测定仅粗裂解物或者与加入的XptA2_Xwi毒素蛋白质的生物学活性。对生物测定托盘的8孔中人工饮食的表面应用对照培养物或者那些表达毒素复合体蛋白质的培养物的粗品大肠杆菌裂解物(40μL)。每孔中处理的饮食的平均表面积为～1.5cm²。与和不与XptA2_Xwi一起，应用来自含有空的载体对照的细菌培养物的裂解物、或者产生8920TcdB2/TccC3融合蛋白、8829Tcp1_Gz蛋白和8883Tcp1_GzB/TccC3融合蛋白的培养物的裂解物。加入的XptA2_xwi蛋白质为从异源表达该蛋白质的细菌培养物高度纯化的制备物。此外，没有任何粗裂解物的纯化的XptA2_Xwi与作为对照的Butterfield’s磷酸盐溶液混合。饮食上XptA2_Xwi的终浓度为250ng/cm²。

实施例20

8883Tcp1_Gz B/TccC3融合裂解物的生物测定结果

表7显示了对照裂解物、经程序化以表达8920TcdB2/TccC3融合蛋白的细胞的裂解物、经程序化以表达8829Tcp1_Gz蛋白的细胞的裂解物和经程序化以表达8883Tcp1_Gz B/TccC3融合蛋白的细胞的裂解物的生物测定结果。所有裂解物为生物测定的加上和减去纯化的XptA2_Xwi。数据表明有和没有XptA2_xwi的对照裂解物对昆虫的影响很小。仅含有8920TcdB2/TccC3融合蛋白的裂解物不加入XptA2_Xwi时没有作用。然而，加入XptA2_Xwi后，8920裂解物是昆虫生长的有效抑制剂。仅含有8829Tcp1_Gz蛋白质的裂解物没有加入XptA2_Xwi时没有作用。然而，加入XptA2_Xwi时，8829裂解物是昆虫生长的有效抑制剂。经程序化以表达8883Tcp1_GzB/TccC3融合蛋白的裂解物没有加入XptA2_Xwi时没有作用。然而，加入XptA2_Xwi时，8883裂解物是昆虫生长的有效抑制剂。这些数据表明当Tcp1_GzB和TccC3肽融合在一起时，它们与XptA2_Xwi组合时保留协同作用。

实施例21

用于在植物中表达的编码Tcp1_Gz的植物优化基因的设计和合成

为了得到真菌基因在植物中更高的表达水平，可以优选重新工程化该基因的蛋白质编码序列使得它在植物细胞中更有效表达。该实施例教导编码SEQ ID NO：2的Tcp1_Gz蛋白质但是没有优化用于在植物细胞中表达的新的DNA序列的设计。

重新工程化编码真菌蛋白质的基因以在植物中表达的一个动机是由于异源基因的非最佳的G+C含量。例如，许多天然真菌基因的低的G+C含量(和因此倾向于高的A+T含量)导致产生模拟或者复制植物基因控制序列的序列，已知所述基因控制序列高度富含A+T。导入植物中基因的DNA内一些富含A+T序列(例如通常在基因启动子中发现的TATA盒区)的存在可以导致该基因的异常转录。另一方面，在转录的mRNA中其他调节序列(例如，多腺苷酸化信号序列(AAUAAA)，或者与参与前-mRNA剪接的小核RNA互补的序列)的存在可以导致RNA不稳定性。因此，在用于植物表达的编码真菌蛋白质的基因、更优选称作植物优化的基因的设计中的一个目标是产生具有与植物基因编码区的平均G+C含量接近的G+C含量的DNA序列。在编码真菌蛋白质的植物优化基因的设计中的另一目标是产生DNA序列，其中该序列修饰不阻碍翻译。

由于遗传密码的冗余性/简并性(即，一些氨基酸被一个以上的密码子指定)提供的灵活性，在不同的生物或者不同纲的生物中基因组的进化已经导致冗余密码子的差别用法。该“密码子偏倚”反映在蛋白质编码区的平均碱基组成中。例如，具有相对低G+C含量的生物利用在冗余密码子的第三位具有A或者T的密码子，而具有较高G+C含量的那些密码子利用在第三位具有G或者C的密码子。然而在mRNA内“次要”密码子的存在可以减小该mRNA的绝对翻译速率，特别当对应于该次要密码子的负荷tRNA的相对丰度很低时。该概念的延伸是通过个体次要密码子减小翻译速率将对于多个次要密码子至少是累加的。因此，具有次要密码子的高的相对含量的mRNA将具有对应的低翻译速率。该速率将通过随后低水平的编码蛋白质反映。

为了帮助工程化编码真菌蛋白质的基因以在植物中表达，可以确定植物基因的密码子偏倚。通过在植物基因的蛋白质编码区中发现的统计学密码子分布代表特定植物基因的密码子偏倚。在表8中，C、D、I和J列给出了如在玉米(Zea mays)和双子叶植物基因的编码区中发现的每种氨基酸的同义密码子的分布(以该氨基酸的所有密码子的用法％表示)。每种植物类型最优选的密码子以粗体指出，当存在多个选择时，可以鉴定优选密码子的第二种、第三种或第四种选择。显然，一些氨基酸的一些同义密码子在植物中仅很少发现，并且，玉米和双子叶植物的密码子选择不同(例如，丙氨酸密码子GCG在玉米基因中更频繁地发现，而精氨酸密码子AGA更通常地用于双子叶植物基因中)。设计编码真菌Tcp1_gz蛋白质的氨基酸序列的新的DNA序列以在玉米和双子叶植物中最佳表达。新的DNA序列与编码Tcp1_gz蛋白质的天然的真菌DNA序列的差别是植物(第一优选的、第二优选的、第三优选的或者第四优选的)密码子的替代以在蛋白质氨基酸序列内的每个位置指定合适的氨基酸。在产生接近玉米和双子叶植物基因的平均密码子分布的编码真菌蛋白质的DNA序列的设计过程中，不包括相对于任一类型植物中该氨基酸的其他同义密码子不频繁使用的任一密码子(通过表8的F和L列中的DNU表示)。通常，如果密码子在约10％或者更少的时间被代表编码任一植物类型的基因中相关氨基酸(通过表9的E和K列中的NA指出)，那么认为该密码子被很少使用。

为了平衡氨基酸的剩余密码子选择的分布，使用下式计算每个密码子的加权平均表示：

C1的加权％＝1/(％C1+％C2+％C3+etc.)×％C1×100

其中C1是所讨论的密码子并且C2、C3等代表表8的剩余同义密码子(相关密码子的平均％值来自E和K列)的玉米和双子叶植物的％值的平均值。每种密码子的加权％值在表8的F和L列中给出。

使用从表8的F和L列构造的平衡的玉米-双子叶植物密码子偏倚表，通过SEQ ID NO：2的蛋白质序列的反向翻译启动植物优化的DNA序列的设计。通过补偿密码子改变修饰初始序列(而保持总体加权的平均密码子代表)以除去或者加入限制酶识别位点，除去高度稳定的链内二级结构，和对植物中工程化基因的克隆操作或者表达有害的其他序列。

然后对新序列再次分析通过修饰已经产生的限制酶识别位点。通过用第一、第二、第三或者第四选择优选的密码子替换相关的密码子进一步修饰所鉴定的位点。序列中可以影响目的基因的转录或翻译的其他位点包括外显子：内含子接点(5’或者3’)、多聚A加入位点，或者RNA聚合酶终止信号。对经修饰的序列进一步分析和进一步修饰以降低TA或者CG双联体的频率，和增加TG或者CT双联体的频率。除了这些双联体外，具有大于约5个[G+C]或[A+T]的连续残基的序列块可以影响该序列的转录或者翻译。因此，通过将第一或第二选择等的密码子用其他优选选择的密码子替换也可以修饰这些序列块。在基因设计中不在实质的程度上包括很少使用的密码子，其仅在当必须容纳除了密码子组成本身(例如，加入或者缺失限制酶识别位点)外的不同设计标准时使用。

上述方法使得本领域技术人员可以设计经修饰的基因，其对于具体植物是外源的，从而在植物中最佳表达所述基因。该方法在美国专利号5,380,831和专利申请WO 97/13402中进一步描述。

从而，为了设计编码真菌蛋白质的植物优化的基因，设计DNA序列以编码所述蛋白质的氨基酸序列，该设计利用从密码子偏倚表建立的冗余遗传密码，所述密码子偏倚表从特定一种或多种植物的基因序列编辑。所得的DNA序列具有较高程度的密码子多样性、所希望的碱基组成，可以含有在策略上放置的限制酶识别位点，并且缺少可以干扰基因转录的序列，或者产物mRNA的翻译。从而，功能上等同于本发明的蛋白质/基因的合成基因可以用于转化宿主，包括植物。关于合成基因的产生的额外教导可以见例如美国专利号5,380,831。

一旦已经在纸上或者在计算机芯片上(in silico)设计了所述DNA序列，就可以在实验室合成实际的DNA分子以在序列上与所设计的序列精确对应。可以克隆和在其他方面精确操作此类合成的DNA分子，就好像它们来自天然的或者自然来源。

编码SEQ ID NO：2的Tcp1_gz融合蛋白的变体的植物优化的、密码子偏倚的DNA序列以SEQ ID NO：23的碱基3-7403给出(在本文中称作8842基因)。为了方便克隆和确保有效的翻译起始，将5’末端NcoI限制酶识别序列(CCTAGG)工程化以包括ATG翻译起始密码子(SEQ ID NO：23的碱基1-6)。该设计特征引入指定丙氨酸的GCT密码子作为所编码蛋白质的第二种氨基酸。从而，SEQ ID NO：23编码的蛋白质(如在SEQ ID NO：24中公开(在本文中称作8842蛋白质)通过在第二个残基加入丙氨酸而与SEQ ID NO：2的天然Tcp1_gz蛋白质不同。而且，为了确保正确的翻译终止和方便克隆，在编码区(SEQ ID NO：23的碱基7404-7432)的3’末端包括编码双链DNA的6个可读框的翻译终止密码子的碱基加上SacI限制酶识别位点(GAGCTC)。由供应商(PicoScript，Houston.TX USA)进行包含SEQ ID NO：10的DNA片段的合成。

将注意到如以Genbank检索号AACM01000442注解的在SEQ ID NO：1中公开的玉蜀黍赤霉基因组DNA序列tcp1_Gz包含推定的内含子序列(SEQID NO：1的碱基4669-4749)。编码Tcp1_gz融合蛋白的变体并且在SEQ IDNO：23中公开的植物优化的、密码子偏倚的DNA序列已经以这样的方式设计使得除去植物内含子剪接位点识别序列。从而，SEQ ID NO：23编码并且在SEQ ID NO：24中公开并且预期通过植物细胞产生的蛋白质包括推定的真菌内含子序列编码的氨基酸。

表8.706种玉米基因(C和I列)和154种双子叶植物基因(D和J列)的编码区中同义密码子表示。为植物优化的合成基因设计设置的平衡偏倚的密码子表示的值在F和L列中。

^＊Murray，E.E.，Lotzer，J.，& Eberle，M.(1989)Codon usage in plantgenes.Nucl. Acids Res.17：477-498.

^＊＊NA＝不适用

^＊＊＊DNU＝不使用

实施例22

构建含有表达8842蛋白质(变体Tcp1_Gz)的基因的第一个版本的双元植物表达载体

蛋白质8842由完整玉蜀黍赤霉Tcp1_Gz蛋白质(融合到C类蛋白质的B类蛋白质)的变体组成。如SEQ ID NO：23中公开的编码8842基因融合的DNA已经经优化用于在植物中表达。SEQ ID NO：23的核苷酸3-7403编码如SEQID NO：24中公开的完整Tcp1_Gz蛋白质变体。

通过标准分子生物学技术将8842基因在NcoI/SacI DNA片段上克隆到中间质粒。中间载体中的8842基因表达盒由如下组成(5’到3’方向)：木薯叶脉花叶病毒(CsVMV)启动子(基本上为Genbank检索号CVU58751的碱基7160到7678)、烟草(Nicotiana tabacum)渗透蛋白5’稳定序列(见美国专利申请公布US20050102713A1)、8842变体基因编码区、烟草渗透蛋白3’稳定序列(见美国专利申请公布US20050102713A1)，和来自根癌土壤杆菌(Agrobacterium tumefaciens)pTi-15955的ORF243’非翻译区(基本上为Genbank检索号ATACH5的碱基18621到19148的互补序列组成)。然后通过Gateway LR克隆酶(clonase)(Invitrogen，Carlsbad，CA)将8842基因植物表达盒移动到根癌土壤杆菌植物转化双元载体中，并将所得的质粒命名为pDAB8842。来自烟草的RB7基质附着区(MAR)(Hall，Gerald，Jr.；Allen，George C.；Loer，Deborah S.；Thompson，William F.；Spiker，Steven.Nuclear scaffolds and scaffold-attachment regions in higher plants.Proc.Natl.Acad.Sci.USA(1991)88：9320-9324.)直接位于pDAB8842中8842基因植物表达盒的前面。为了提供所转化细胞的植物中(in planta)选择，该双元载体在紧接8842基因植物表达盒后包括拟南芥(Arabidopsis thaliana)泛蛋白10启动子(Genbank检索号L05399)形式的选择标记基因、膦丝菌素乙酰基转移酶的编码区(PAT；Genbank检索号I43995)，和来自根癌土壤杆菌pTi-15955的ORF1的3’非翻译区(3′UTR)(基本上为Genbank检索号ATACH5的碱基2180到2887)。

双元质粒pDAB8842中元件和表达盒的最终顺序如下：pTi 15955T-DNA边界B、烟草RB7MAR、基因8842表达盒、PAT基因表达盒、pTi-15955T-DNA边界A的三个串联拷贝。以这样的方式进行构建以便保持合适的植物转录和翻译信号。对于植物转化，通过电穿孔向根癌土壤杆菌菌株LBA4404的细胞中导入pDAB8842质粒。

实施例23

构建含有表达8842蛋白质的基因的第二种形式(变体Tcp1_Gz)的双元植

物表达载体

通过标准分子生物学技术将SEQ ID NO：23的8842蛋白质编码区在NcoI/SacI DNA片段上克隆到中间质粒。中间载体中的8842基因表达盒由如下组成(5’到3’方向)：拟南芥肌动蛋白2启动子(Act2；Genbank检索号U41998)、8842变体基因编码区，和来自根癌土壤杆菌(Agrobacteriumtumefaciens)pTi-15955的ORF243’非翻译区(基本上为Genbank检索号ATACH5的碱基18621到19148的互补序列组成)。然后通过Gateway LR克隆酶(Invitrogen，Carlsbad，CA)将8842基因植物表达盒移动到根癌土壤杆菌植物转化双元载体中，并将所得的质粒命名为pDAB8844。在载体DAB8844中，所有元件和表达盒都以实施例22中关于质粒pDAB8842所述的相同顺序存在，只是pDAB8842中存在的CsVMV启动子控制下的8842基因表达盒被Act2启动子控制下的8842基因的该版本替代。为了植物转化，将pDAB8844质粒通过电穿孔导入根癌土壤杆菌菌株LBA4404的细胞中。

实施例24

棉花细胞的转化

将棉花品种Coker 310的种子用95％酒精表面消毒1分钟，用无菌蒸馏水冲洗，用50％商业漂白剂消毒20分钟，然后再次用无菌蒸馏水冲洗3次。经处理的种子在Magenta GA-7容器中G-培养基[Murashige和Skoog，1962(MS)基本盐与B5维生素(Gamborg et al.，1965)和3％蔗糖]上28℃下萌发，所述容器在40-60μE/m²的高光强度下保持，具有16小时光照和8小时黑暗的光周期。

从7-10天龄的幼苗分离子叶细裂片(～5mm²)到培养皿中的液体M培养基(基于MS的培养基，含有1-5μM 2，4-二氯苯氧基乙酸和1-5μM激动素)。对于每种构建体(即，pDAB8842和pDAB8844)，将200个切割的细裂片用重组根癌土壤杆菌菌株LBA4404悬浮液(约10⁶个细胞/mL)处理，然后转移到半固体M-培养基中并共培养2-3天(在该步骤和随后的步骤中，在28℃光照下进行培养)。共培养后，将细裂片转移到MG5培养基中，该培养基含有5mg/L草铵膦(以选择含有所转移基因的植物细胞)和500mg/L羧苄青霉素(以除去残留的根癌土壤杆菌细胞)。3周后，从子叶细裂片分离愈伤组织并转移到新鲜的MG5培养基中，然后在3周后再次转移到MG5培养基。再过3周后，将愈伤组织转移到如上含有草铵膦和羧苄青霉素的C-培养基(含有10-20μM萘乙酸和5-10μM激动素的基于MS的培养基)，并在3周后再次转移到新鲜的选择培养基。对于pDAB8842构建体，得到26个愈伤组织株系，对于pDAB8844构建体得到25个愈伤组织株系。

实施例25

棉花愈伤组织中变体Tcp1_Gz的表达

用构建体pDAB8842和pDAB8844转化后分离的愈伤植物组织(200mg)在-80℃冷冻。将冷冻的植物材料置于含有0.188英寸直径钨珠与450μL提取缓冲液[磷酸缓冲盐水，含有0.1％Triton X-100，10mM二硫苏糖醇和5μL/mL蛋白酶抑制剂混合液(Sigma Chemical Company，St.Louis，MO；目录号P9599)]的1.2mL聚丙烯管中并使用Kleco Pulverizer玻珠研磨机(Kleco，Visalia，CA)以最大速度匀浆4分钟。将所得匀浆物以4,000x g在4℃离心10分钟，并使用移液器除去上清液。通过Bradford的方法[Bradford，M.M.，(1976)Arapid and sensitive method for the quantitationof microgram quantities of protein utilizing the principle of protein-dyebinding.Anal.Biochem.：72：248-254.]测定上清液的蛋白质浓度。将提供2-5μg总蛋白质所需的上清液的体积以4∶1与4X Tris-HCl，SDS，2-巯基乙醇样品缓冲液(由0.125M Tris HCl，10％蔗糖，0.02％溴酚蓝，2.0％SDS，和5％2-巯基乙醇组成)混合。将溶液加热到90℃保持4分钟，装入4-20％Tris-甘氨酸聚丙烯酰胺凝胶(BioRad，Hercules，CA)的孔中，并使用Laemmli的方法[Laemmli，U.K：，(1970)Cleavage of structural proteins during theassembly of the head of bacteriophage T4.Nature：227：680-685.]通过应用100伏电压60分钟分离蛋白质。

通过免疫印迹分析[Towbin，H.，Staehelin，T.，and Gordon，J.，(1979)Electrophoretic transfer ofproteins from polyacrylamide gels to nitrocellulosesheets：procedure and some applications.Proc.Natl.Acad.Sci.USA76：4350-4354.]进行所表达的变体Tcp1_Gz蛋白质的表征。简言之，通过SDS-聚丙烯酰胺凝胶电泳分离的蛋白质样品(上文)通过100V电泳1小时转移到硝酸纤维素上，用1％脱脂乳封闭，并用从Tcp1_Gz蛋白质的不同序列制备的两种不同的一级单克隆抗体之一的1∶3,000稀释液检测。使用17氨基酸合成肽得到一种抗体(1184)，该肽含有对应于“B”蛋白质的区域中Tcp1_Gz的残基1184-1200的序列(如SEQ ID NO：2中公开的SKTASAAEELKEARKSF)。另一种抗体(1929)来自合成的22氨基酸肽，其含有位于对应于“C”蛋白质的蛋白质区域中的从残基1929-1950的序列(如SEQ ID NO：2中公开的YHYDEKSLLSDDPRVKSNRLSR)。将含有转移的蛋白质的硝酸纤维素膜与1184或者1929抗体在4℃过夜温育，并轻微摇动。充分洗涤硝酸纤维素膜后，使用抗小鼠ECL-缀合的二级抗体(BioRad)检测愈伤组织产生的与Tcp1_Gz有关的蛋白质，并使用ECL试剂(Amersham Biosciences，Arlington Heights，IL)根据供应商的使用说明显色。通过在凝胶的一个孔中包括SeeBlue^TM预染的蛋白质分子量标记(Invitrogen)检测蛋白质带的相对分子量。阴性对照由以与上述相同方式处理的非转化的愈伤组织的植物组织组成。阳性对照由从用大肠杆菌优化的tcp1_Gz基因(构建体pDAB8829)转化的大肠杆菌细胞提取物得到的可溶性蛋白质组成。

分析来自构建体pDAB8842的15个棉花愈伤组织和来自构建体pDAB8844的13个愈伤组织。将蛋白质提取物以一式两份染色并用抗体1184(B-区肽)和1929(C-区肽)分别检测。两种抗体都揭示了相似的但不相同的带型。完整的变体Tcp1_Gz蛋白质(2467个氨基酸；SEQ ID NO：24)的理论大小为约278kDa。在所有分析中，阳性对照样品显示出与抗体反应的蛋白质的成片条带，其刚好在250kDa分子量标准位置下开始，而从非转化的棉花愈伤组织提取的蛋白质的阴性对照样品没有观察到信号。在15个pDAB8842构建体样品(其中8842变体Tcp1_Gz表达由CsVMV启动子驱动)中，11个显示出阳性应答，刚好在250kDa下的表观分子量处显示出强烈的蛋白质带，和148kDa分子量标准之上的一般较低强度的第二种蛋白质带。从用pDAB8844构建体转化的棉花愈伤组织制备的样品(其中8842变体Tcp1_Gz表达由Act2启动子驱动)与pDAB8842构建体相比显示出明显更少的阳性应答(13个样品的仅两个显示出阳性应答)。

表达8842变体tcp1_Gz基因的棉花愈伤组织当用两种肽特异性抗体1184(B-区肽)和1929(C-区肽)检测时显示出不同的带型。抗体1184结合到具有大于148kDa但是小于250kDa的表观分子量的一种蛋白质种类。抗体1929结合到一种或两种蛋白质(取决于愈伤组织样品)，这两种蛋白质都具有大于148kDa但是小于250kDa的表观分子量。

从而，这些结果表明这些植物组织产生这样的蛋白质，这些蛋白质被针对变体Tcp1_Gz蛋白质的肽片段制备的抗体识别。考虑到该蛋白质的非常大的大小，和凝胶分析分辨率的技术限制，预期在对照样品和植物样品中观察到的高分子量、免疫反应带代表全长Tcp1_Gz蛋白质。

实施例26

轮枝样镰刀菌的毒素复合体A类和融合的B/C类基因

该实施例教导发现在轮枝样镰刀菌(有性型Gibberella moniliformis)的基因组中存在的新的A类基因和新的融合的B类/C类基因的方法。注意到将玉蜀黍赤霉的一个生命阶段(无性型)分类为禾谷镰刀菌(Fusariumgraminearum)。

真菌轮枝样镰刀菌基因组的DNA序列的测定在Broad Institute(Cambridge，MA)正在进行中并且公众从网站(broad.mit.edu/annotation/fgi/)可以获得部分基因组。玉蜀黍赤霉A类TC基因(SEQ ID NO：9)和玉蜀黍赤霉tcp1_Gz基因(SEQ ID NO：1)的DNA序列分别作为轮枝样镰刀菌基因组的部分序列的TBLASTN分析中的查询序列(TBLASTN ver.2.2.10；Oct.19，2004)。

这些分析揭示存在对应于A类TC基因的两种序列、对应于融合的B类/C类TC基因的两种序列，以及部分A类TC基因和部分B类TC基因。提取包括这些推定的TC基因并且在这些TC基因侧翼的重叠群序列并进一步分析。为了方便命名提取的重叠群序列：AContig12、AContig34、BCContig12、BCContig6和BCContig46。

在计算机芯片上翻译每个重叠群的序列以鉴定100个氨基酸或者更长的肽的编码区(终止子到终止子)，并且每种这样的推定蛋白质用作Genbank非冗余蛋白质数据库(National Center for BiotechnologyInformation；Database：db/nr.01；Posted date：Jan 18，20064：00PM；数据库中字母数：111，166，549；数据库中序列数目：325，447)的BLAST分析(BLASTP ver.2.2.3；Apr.24，2002)中的查询序列。

将对TC A类、B类或者C类基因具有显著BLAST得分的蛋白质反向作图到来源重叠群的编码DNA。从属于单个TC A类或者TC BC类基因的每个重叠群提取包含编码该蛋白质的区域加上任一边上的20bp的完整DNA序列。在一些情况下，必须颠倒和补足天然重叠群中存在的DNA碱基序列以便得到标准的5’到3’有义方向上的蛋白质编码区。

从AContig12提取的DNA序列以SEQ ID NO：25给出。该DNA序列编码两个重叠区段中推定的TC A类蛋白质，这两个区段的推导的序列在SEQ ID NOS：26和27中公开。作为推导的推定TC A类蛋白质的第一个区段的编码区的可读框开始的苏氨酸密码子(ACG)是SEQ ID NO：25中的残基21-23。在碱基3000周围存在可能的测序错误(在大规模基因组测序计划如本计划中并不罕见)，因为编码推定的TC A类蛋白质的前1002个氨基酸的可读框以TGA终止密码子结束。然而，作为推导的推定TC A类蛋白质的第二个部分的可读框开始的AAA赖氨酸密码子(SEQ ID NO：25中的残基3022-3024)在TGA密码子上游5个碱基处开始。通过连接包含1002个氨基酸(SEQ ID NO：26)和2057个氨基酸(SEQ ID NO：26)的两个编码的肽，并且通过与玉蜀黍赤霉基因组序列类比，可能SEQ ID NO：25是完整可读框的部分，所述完整可读框编码约3000个氨基酸的TC A类蛋白质。该推导的FV TC A类蛋白质与玉蜀黍赤霉TC A类蛋白质的高度相关性通过前1002个氨基酸的e-146的BLAST得分和第二个2057氨基酸的0.0的BLAST得分反映出来。

从Acontig34提取的DNA序列作为SEQ ID NO：28给出。该DNA编码第二个推定的TC A类蛋白质。编码推定的TC A类蛋白质的DNA序列包含3298个碱基的第一部分。该序列接着是DNA序列中的大缺口，其表示为2098N字符串。最后，TC编码序列包含额外的3773个碱基。在SEQID NO：28中编码区开始处的残基20-22(AAT)对应于SEQ ID NO：29中推定的TC A类编码的蛋白质序列的第一个天冬酰胺。在所述Ns之前的DNA序列的该第一个部分含有两个测序错误，其将推导的推定TC A类蛋白质可读框中断成3个部分。可读框的第一个部分包含1452个碱基并且编码484个氨基酸(SEQ ID NO：29)。可读框的该部分以TGA终止密码子结束。可读框的第二个部分在TGA终止密码子下游4个碱基处开始，包含690个碱基并编码230个氨基酸(SEQ ID NO：30)。可读框的该部分以TAA终止密码子结束。可读框的第三个部分在TAA终止密码子下游11个碱基处开始，包含1122个碱基，并且编码374个氨基酸(SEQ ID NO：31)。Ns后DNA序列的部分包含推导的推定TC A类蛋白质可读框的第四个部分，并且编码1233个氨基酸(SEQ ID NO：32)。推导的推定TC A类蛋白质的该部分的第一个甘氨酸的GGA密码子对应于SEQ ID NO：28的碱基对5453-5453。SEQ ID NO：28编码的总蛋白质从而长为至少2358个氨基酸。通过与玉蜀黍赤霉序列类比，SEQ ID NO：28可能是编码约3000个氨基酸的TC A类蛋白质的完整可读框的部分。该推导的FV TC A类蛋白质与玉蜀黍赤霉TC A类蛋白质的高度相关性通过前484个氨基酸的4e-43的BLAST得分、第二个230个氨基酸0.001的BLAST得分、接着374个氨基酸2e-14的BLAST得分和最后1233个氨基酸的0.0的BLAST得分反映出来。

从BCContig12提取的DNA序列作为SEQ ID NO：33给出。该DNA编码推定的融合的TC B类/C类蛋白质并且包含5482个碱基的第一部分。该序列接着是DNA序列中的大缺口，其表示为659个N的字符串。最后，BCContig 12序列包含额外的1563个碱基。在SEQ ID NO：33中编码序列开始处的碱基对22-24(GCC)对应于SEQ ID NO：33中编码的推定的TC融合的B类/C类蛋白质的第一个丙氨酸。编码的蛋白质的第一部分包含1820个氨基酸(SEQ ID NO：34)。刚好在N系列后存在可能的测序错误，因为在推定的融合的TC融合的B类/C类蛋白质的第二个部分开始的框内组氨酸密码子(CAT，SEQ ID NO：33的碱基6203-6205)之前为61个框外碱基。所编码的推定的TC融合的B类/C类蛋白质的第二个部分包含494个氨基酸(SEQ ID NO：35)。从而SEQ ID NO：33编码的总蛋白质长为至少2314个氨基酸。通过与玉蜀黍赤霉基因组序列类比，可能SEQ ID NO：33是编码约2400个氨基酸的TC融合的B类/C类蛋白质的完整可读框的部分。该推导的FV TC融合的B类/C类蛋白质与玉蜀黍赤霉TC融合的B类/C类蛋白质的高度相关性通过前1820个氨基酸的0.0的BLAST得分和最后494个氨基酸的5e-45的得分反映出来。

从BCContig6提取的DNA序列作为SEQ ID NO：36给出。该DNA编码推定的融合的TC B类/C类蛋白质的一部分并且包含962个碱基。在SEQID NO：36中编码区开始处的残基20-22(CAG)对应于推导的推定的TC融合的B类/C类蛋白质的第一个谷氨酰胺。推导的编码蛋白质的第一部分包含194个氨基酸(SEQ ID NO：37)。刚好在亮氨酸密码子(TTG)后存在可能的测序错误，因为终止密码子(TAG)终止该可读框。然而，发现在推定的TC融合的B类/C类蛋白质的第二部分开始的天冬氨酸密码子(GAT，SEQID NO：36的残基619-621)在TAG密码子后14个碱基。推定的TC融合的B类/C类蛋白质的第二部分包含107个氨基酸(SEQ ID NO：38)。从而，SEQID NO：36编码的蛋白质可能代表TC融合的B类/C类编码区的一部分。通过与玉蜀黍赤霉基因组序列类比，可能SEQ ID NO：36是编码约2400个氨基酸的TC融合的B类/C类蛋白质的完整可读框的部分。该推导的FVTC融合的B类/C类蛋白质与Photorhabdus TC C类蛋白质的高度相关性通过前194个氨基酸的1e-11的BLAST得分反映出来。剩余的107个氨基酸具有与玉蜀黍赤霉TC融合的B类/C类蛋白质1e-10的BLAST得分。

从BCContig46提取的DNA序列作为SEQ ID NO：39给出。该DNA编码推定的融合的TC B类/C类蛋白质。编码推定的融合的TC B类/C类蛋白质的DNA序列包含3423个碱基的第一部分。该序列接着是DNA序列中的大缺口，其表示为1009个N的字符串。最后，TC编码序列包含额外的3810个碱基。在SEQ ID NO：39中编码区开始的碱基21-23(GAG)对应于推导的推定TC融合B类/C类蛋白质的第一部分的第一个谷氨酸。推导的编码蛋白质的第一部分包含1134个氨基酸(SEQ ID NO：40)。推导的推定TC融合B类/C类蛋白质的第二部分包含1263个氨基酸(SEQ IDNO：41)。TTG密码子指定Ns后推导的TC融合的B类/C类蛋白质的第二个部分的第一个亮氨酸，对应于SEQ ID NO：39中残基4435-4437。从而，SEQ ID NO：39编码的蛋白质可能代表至少2309个氨基酸的TC融合的B类/C类蛋白质。通过与玉蜀黍赤霉基因组序列类比，可能SEQ ID NO：39是编码约2400个氨基酸的TC融合的B类/C类蛋白质的完整可读框的部分。该推导的FV TC融合的B类/C类蛋白质与玉蜀黍赤霉TC融合的B类/C类蛋白质的高度相关性通过前1134个氨基酸的e-168的BLAST得分和最后1263个氨基酸的e-122的BLAST得分反映出来。

实施例27

来自伯克霍尔德氏菌属和亚硝化螺菌(Nitrosospora)的额外的天然B/C融合

按照本文报导的发现，进行额外的BLAST搜索(类似于上面实施例中描述的搜索)。用玉蜀黍赤霉融合的B类/C类序列对Genbank非冗余核苷酸数据库的TBLASTN结果如下：

LOCUS CP000125.1 3181762bp DNA环状BCT 30-SEP-2005

DEFINITION类鼻疽伯克霍尔德氏菌(Burkholderia pseudomallei)1710b染色体II，完整序列.

BLAST得分：2e-92

LOCUS CP000103.1 3184243bp DNA环状BCT 15-NOV-2005

DEFINITION Nitrosospira multiformis ATCC 25196，完整基因组.

BLAST得分：4e-68

LOCUS CP000086.1 3809201bp DNA环状BCT 05-JAN-2006

DEFINITION Burkholderia thailandensis E264染色体I，完整序列.

BLAST得分：7e-47

LOCUS BX571965 4074542bp DNA环状BCT 17-APR-2005

DEFINITION 类鼻疽伯克霍尔德氏菌菌株K96243，染色体1，完整序列.

BLAST得分：1e-39

LOCUS CP000124.1 4126292bp DNA环状BCT 30-SEP-2005

DEFINITION 类鼻疽伯克霍尔德氏菌1710b染色体I，完整序列.

BLAST得分：3e-39

LOCUS CP000010.13510148bp DNA环状BCT 22-SEP-2004

DEFINITION鼻疽伯克霍尔德氏菌(Burkholderia mallei)ATCC23344染色体1，完整序列.

BLAST得分：3e-38

由于伯克霍尔德氏菌属和亚硝化螺菌是细菌属，所以这些结果与本文报导的其他结果一起进一步证实新的BC融合蛋白可以在其他天然存在的生物，尤其这些新的细菌来源中发现。

实施例28

来自伯克霍尔德氏菌属和曲霉属的额外的A类蛋白质

按照本文报导的发现，进行额外的BLAST搜索(类似于上面实施例中描述的搜索)。用玉蜀黍赤霉A类序列对Genbank非冗余核苷酸数据库的TBLASTN结果如下：

LOCUS AP007171 2505489bp DNA线性PLN 23-DEC-2005

DEFINITION米曲霉RIB40基因组DNA，SC011.

BLAST得分：8e-97

LOCUS CP000125.1 3181762bp DNA环状BCT 30-SEP-2005

DEFINITION类鼻疽伯克霍尔德氏菌1710b染色体II，complete序列.

BLAST得分：1e-63

LOCUS CP000010.1 3510148bp DNA环状BCT 22-SEP-2004

DEFINITION 鼻疽伯克霍尔德氏菌ATCC 23344染色体1，完整序列.

BLAST得分：3e-08

LOCUS BX571965.1 4074542bp DNA环状BCT 17-APR-2005

DEFINITION类鼻疽伯克霍尔德氏菌菌株K96243，染色体1，完整序列.

BLAST得分：3e-08

LOCUS CP000124.1 4126292bp DNA环状BCT 30-SEP-2005

DEFINITION 类鼻疽伯克霍尔德氏菌1710b染色体I，完整序列.

BLAST得分：3e-08

LOCUS CP000086.1 3809201bp DNA环状BCT 05-JAN-2006

DEFINITION Burkholderia thailandensis E264染色体I，完整序列.

BLAST得分：8e-08

由于伯克霍尔德氏菌属是细菌属，所以这些结果与本文报导的其他结果一起尤其值得注意，因为它们证实在新的细菌来源中可以发现本发明的新的融合BC融合蛋白。由于曲霉是(真核生物)真菌属，所以这些结果还尤其值得注意，因为它们证实可以在多种真核生物和真菌来源中发现A类蛋白质。

<110>美国陶氏益农公司

<120>杀虫活性蛋白质和编码所述蛋白质的多核苷酸的新的来源和类型

<130>DAS-125CXC1

<150>US 60/704,533

<151>2005-08-02

<150>US 60/657,695

<151>2005-03-02

<160>41

<170>PatentIn版本3.3

<210>1

<211>7401

<212>DNA

<213>人工序列

<220>

<223>编码玉蜀黍赤霉PH1NRRL 31084的融合的B/C类蛋白质的天然基因组DNA序列tcp1Gz

<400>1

atgtcaactc tttccagtcg tcctggagac cctcgcgccc tccactctgg acagaacaac 60

ggagcacccg aaaccctgac caactcaaaa agcaatgcca ctctatctgg aaaccgcacc 120

acggctccag cctcggcatc ttcatttgct ccacaagtcc gtacactggg tgaaggaatc 180

ccaggctttc gtacctcatt caacgtcgca ggtaaaggcg gcggagcgtt caggtccatc 240

agcgaggact tcgaagtgag ccctgccaat ggcaccatgt cacttgccat ccctgtgcgc 300

acgtcaccta cccgtggagg ctacggacca gatctgaagc tctcgtacga ctcgggttcg 360

ggaaatggac cgttcggatt tggctggagt atgtcaatgc cgtccattca tcgtaagaca 420

acacatgcta taccgcgata tgtggacgat gaggatgatt ttctcatgtc tggtggagac 480

atcattaaga ggttgaatag tgagggtata caagagacaa gaaatgaatc tggcatttgt 540

ggaaagtttc ttgttaccac atatcgtcca cgagtcgact ctgggaacat acgaatcgag 600

agatgggttc gcagagagga tctcgaagac gtgcactgga ggacaatctc gtccagcaac 660

gagactaaaa tctacggtga tagtgacagc agccgcatct ttgacgcttc tggcccatca 720

aagaggatct tctcttggct tttaagccga tcttatgatg catcaggcaa tgcaattgag 780

tatgtataca aagaagaaga ctcgttgggc atttctgatg ctactggagc catgcctgtg 840

tgggaaaaga atcgggaaca agacgcaaga taccgcgaga gatatatcaa acgagtcaag 900

tacggaaaca gaaagccaaa ccgtgatctt actacttggg aagtatcgga ttggcccgaa 960

gaatggatgt ttgaggtcgt ctttgactat ggagaacacg ataaaggcag tccaagcact 1020

gaagaatccc attcctggcc agttcgtcaa gatgtgtttt cacagagtcg ccctggattt 1080

gaaatccgta cctatcgtct ttgtcgccga gttctcatgt tccaccactt ccccgaacac 1140

acccaagagt cagagacttt cgtcttctcg acagatcttc agtacaacga gtctcgacaa 1200

aggactgttt tggccagctt ggtcgcaaca ggatactcgt cctacaaaga caacaatgat 1260

gggaaacaaa ggtacagatc agagtctctg ccgccatggt catttgagta cacaagttcc 1320

cccgaggcca gcgagattga actcatggag gcaaagactt ttaacctact cgaacttcct 1380

acatctgatg cacgagtttc agagtggctg gatctcgacg gcgatggtat gccagggctg 1440

ttgacaaggt ctgtagatgg cgccctctat tatcaacgca atcttgggtc aatttctggt 1500

gacgatgacc cacagttctg tggtccagtc cttctcgcac aacagcccag tatgactggc 1560

gggactttcc aagaccttga tcgaaatgga aacctcaact acgttctccg taacgagcat 1620

ggtcaccttg agggatacta tgaacgaggc aattctgata cctggaagaa ctacatcgaa 1680

tttccagaaa caagcaacgg ggatatatgg cagagcacta tcgacatcga cttgacgggc 1740

gacggtcatc ccgaccttat ctgtgcagca gatgattccc aagtcttgat ttggcagcag 1800

aacctcggaa agaaaggcct ctccagctat caacgtgtca tatgcggaca tgattgggag 1860

tcttgtccac gcttgatcaa aaaccaagat gtccagacct atgttggaga tatgactggt 1920

agcggcatgt cggacctagt tgagatctca gtatcgtcgg ttagatattg gccaaacctt 1980

ggctatggaa catttggtgc tgcagtagat atgggaaacc caccagcatt tgctgccaag 2040

gactactttg atcacagtcg agttagactc atggacaccg atggtagtgg cactatggat 2100

ctcctctacg ctctgccaac agggggcgca gctttgtact acaaccttgc tggcaattca 2160

tggagtaaca tggtattcct tccccatctc ccggctatta tcacgcctat gtcgatattt 2220

accttggatc taattggcaa gggggcggat tgtctttgtt gggcagatac ttcaactgat 2280

gggaacagga ttatgtacct cgacatcacg ggagaaacaa aaccgcatct gttgaagtct 2340

tacagcaatg gttggggtgc aacaacgtca gtggactacg ctccatcgac caagttcttc 2400

gcggaagata ccagaaatgg acacccgtgg tcaagcaaat tgccattccc agttcaatgt 2460

gtctcaaagg tccaagtcga ggatgccatc actgggaatc gacagtctac cgaatacatc 2520

taccacaacg gttgctacaa cccgaccgag aagcaatttt ctggctttga gatggtagaa 2580

cagtttcaga gcgaaagagt catcgttgga gaggatgaga catatgagcc tcctgttaca 2640

cacaccaagt cgtggttcaa cgttggtctg agccttgtag ttgatgagtc gcgctttttg 2700

accaagccag ccattctctc tagtctacag gattaccaca cggatcccgc ggagcttgtg 2760

aacgcactga aagggctcaa cgtgcgatcg gagatatata gtcaggatgg aagccccaag 2820

tctcacttgc cctacgttat caaggaggtg tcgtaccatg tcaagatctc gcaagcacga 2880

gacacaaaca agtattccgc agtccaggta ctcccgcgtg agacattctc gagagcgtac 2940

gagagggata tgagtgatcc acgtgtcaca cacgatatgg tgatcaagac caacgacttt 3000

ggagacgttg aggaaagcct gagtatcgtg tatcctcgtg ctgggaagac cacattcgaa 3060

gatgtgaaca agaatcaaaa ggctggaaac atgtcctaca cccagaattg gtatacaaag 3120

atggtgtcag aacctgaaca ggaacacttc cgcaagcctg cagcgtacag gcaacaggaa 3180

cacgagatac tcagctttcc attcaatggg accctcaagt tcgacgacgc tcttgcgttc 3240

aacttcaatg gattgcccac cacaaaatgc tcgaaaacat ggaaggctct acgcagcgag 3300

aacaaggcgt tttacaaaga ctctctcttg cagagaagac ttgacgaagg cgagctgcag 3360

acgttttcac tgcttgatca gacctatgcc ctggccttta caccagacat cctagccaaa 3420

gtcgaaatag gtttacggaa ttgcaatgtt cccggctcag tcgaagagct tttgaccaaa 3480

gggtcatacg tgaagctgaa agacagtgac ggttggtggg ctccatcgtc tcagtcattt 3540

ttctgttcat ccaagactgc atcggcagct gaagagctca aagaggcacg caaatccttc 3600

tacacccctt cgcgcttcgt cgacctgttt ggcaactcgt cacggcttaa catggataag 3660

gacttcctat tagccacaga agttgaggat gctataggaa ctgcgacctc gttcaaaaac 3720

agctacgagc acttgcagcc tgtggagatc atcgatgcca atagtaattc cgtacaagtc 3780

gtgctggatc cactgggcga gtcgatcgcg gttgcagctt cgacaagacg cgacggggtt 3840

atagaagaga tagacagcct ggagaatatg gtcttagatg ccagccctga agatgtagac 3900

gacattcttc gcgatcctac gggcgaggtc tcgactcgtc ttttgggtaa tgctgcaagc 3960

aggactatcc attaccgcga tagatatgcc caatggaagt ctcgtcagaa tgagacatca 4020

acatcagtcg atccggaacc agcattgtca cttgttctat cacgggacct ttcattcaag 4080

gagtccagta gtcctgagat tcgagtcatc gtttcgtaca tgaatggact tgggtcgcag 4140

taccaggagc agcacctgag tgacccaact acgttggaaa aacgatggtt ggtacctggc 4200

cttgccattc cagacactca aggccaagtt gtgtgcacat accaacctcg gtttgcaact 4260

ttagcagcgc caattccatc cagtttgatg aagactaacg ctgcattcac cttttacgat 4320

gcaatgggtc gcaatgttgc gtcccttgct gccgattgca cttggtcgaa aacagtgtat 4380

accccatgga cgacagttga acatggagca ggaagcatgg tacttcagtc caacgcacga 4440

gatgatcctg atgttggcca tttcttctcc cgaatcgcat cctcccgata ctctcaaagt 4500

tggtacgaca agcgcaagct tggaacagca caagagaagc gagctgcaga gaaatcagct 4560

gtatactccg atactccact tactactcat tcgggtagct gcggacttcc tgttagaact 4620

atccaacaag ccggtggcaa gacatacaca cggagctcca tgtatgatgt gagtggcaat 4680

aggattcgag atgtcgactc gtatgaacgg accgtagaaa agatgctata cgataaactt 4740

ggtcgacagc ttcagactac aggcatggac tgcggtgaat catggctgct gctagatgcc 4800

cagggagggg agattctgtc ctggaattgt cgtggatact ctttcatcac tcgttacgat 4860

cccctacgtc gggagactga gagattagtt gcgaaagccg cagagatgcc gaagctcatc 4920

tcacgaatca cgtacggaga gacctgtggc gatgccatca acctgaactt gaatggccaa 4980

gtatggaaag tggaagatca agctggtgtt catatcaata cccattacaa catccgcggc 5040

cactgtctag ggaaaacatt acagttcaca aaagagtata agcaactggt cgattggaaa 5100

cttgatcaga cgcttgaaac ggaagtctac ccgcatacat acttctatga taactatggt 5160

caagtgttac aggaagagga tgagcaggga aaccgcacaa gaagaaatta ttcacgacaa 5220

gggcatgtcg tttcggtcga tttcagttcc ataaagggtc gtgactggaa gtcatatctc 5280

tcaggggcaa ccttttcagc tgatgggctg cctataacta tcaagtatgg gaatggagtc 5340

gtttctgact ttttctacga tgacgagtcc agaaacctca tctcgcaaag aactacgcgc 5400

ccatgccggg gtagaagaga gttgcttcaa gacaggacac acgtttatga ctacgtaggg 5460

cgtcgaatat ttacctccga tggctcagaa caagtcaagt actttggtga aagtcgcgtc 5520

aagcccgagt gggactacac atacaatgcg accggtgccc tggtgattgc cacagggaga 5580

gctcaactct ctggaaagat tggaaatggc aaccagttga caccccacaa cgcaatgaac 5640

ggactgaacc catcgcgcgg tggtggcgat ggcaatttac tttaccaata tcgcgagaca 5700

tatgattatg atcgtgaggg caatatcttg atgatgaagc atgaggcgcc tgacatcaaa 5760

ggggttacaa gctggacgag aaactatcat tacgatgaga agagtttact aagcgacgat 5820

ccccgcgtta agagcaaccg tcttagtcgg acgtcaattg gagacacaaa cgagggcaag 5880

tacatgtatg aaggcagtgc cggtctctca ggctgcataa cgacgctacc gaaattctcc 5940

gagctcgatt ggaacatgaa caatatgctc tccttctcgt caacgcagta cgtcaacgct 6000

ggcactccag agagaacata ctatgtctac gaccacgcgg gcaaccgtgt gcgaaaggtg 6060

accgagactg cagccaaatc tggtgaggag cctcgtaaac aaagggatac attgtttttc 6120

ggtggagtcg aactgcaaac aaaaagcaac ggatcactct tatggaccac gcgtgtcaag 6180

ggtgatggta tcgtggctgt ggtggaggtc aatagaaatc aagagacacc gttggtgcga 6240

ttccaggcgg gacgcgacat ggagttcgac gaccaagcac agctcatctc atatgaagag 6300

tactcgccct tcggtgccgt ggtttacgcg gctatgtacg ggaatatcga agcgcctcgg 6360

gcatatcgtt tcgccaggta tgagcatgac agcgagacgg gcttgtacca ctgtggacag 6420

cgctactatt gcccatggct gggccgttgg acgtctccag atcctcttgg tgacgtagat 6480

gggccgaacc tttttgtata tgtgaataac gatcctgtaa actcgcacga tccttcggga 6540

acatctggca agaaaacgaa agagggcacc agagaaatgt acgcggcacc cgacgatcaa 6600

gggaagagac gtcttgtgga tgagaataag gcagtggccg accgcatagc gaagtatgag 6660

aggaaattac aacgacaaga acggaaacag caacgagcca tagctagaat gtctggcaca 6720

gatcccatcc taggttccag ggcacggtac gcggttggca tagccgcaat gggcaatgca 6780

ctgggccgca tttcaggaag tacagaactc catcatacct atccacaaga gtacagggag 6840

gagttttccg acatcgacat caatgttgac aggacttcgg tgtctatttc aaaggaggca 6900

cattatatct gcacttatgg cagcattctg gacaaccttg ttgccaccaa caaacgatgg 6960

aagagcgagt attttgatac accggacact ggttattatg agcagatgga gcaacacgag 7020

tggtatgacg atgaccctgg tatgcagtac gcgatacgtc tgcatttggc ctatgaggct 7080

cgcaccctaa acggtaaaat catggctgat tttggcataa accccaaagg cgaagatggg 7140

aggagtatgt ttgtgaatta cgatgccgtg acaaaaatga ggacggcagg gcaaaggagg 7200

ggcgtgcgga atgataattt gatacaccac gaaacatggc ctggtaggcc gtttaatact 7260

ggtaacagcg atacggacaa cgctggcgga cctgtgcatt tccaagtggc tgaggagcag 7320

tataatggcc ttgatgctga tgcgcaggcg aagtttgatg acttaaggaa ccagatggaa 7380

gctcttttgg ggaagagata g 7401

<210>2

<211>2466

<212>PRT

<213>人工序列

<220>

<223>玉蜀黍赤霉PH1 NRRL 31084的融合的B/C类蛋白质Tcp1Gz的天然氨基酸序列

<400>2

Met Ser Thr Leu Ser Ser Arg Pro Gly Asp Pro Arg Ala Leu His Ser

1 5 10 15

Gly Gln Asn Asn Gly Ala Pro Glu Thr Leu Thr Asn Ser Lys Ser Asn

20 25 30

Ala Thr Leu Ser Gly Asn Arg Thr Thr Ala Pro Ala Ser Ala Ser Ser

35 40 45

Phe Ala Pro Gln Val Arg Thr Leu Gly Glu Gly Ile Pro Gly Phe Arg

50 55 60

Thr Ser Phe Asn Val Ala Gly Lys Gly Gly Gly Ala Phe Arg Ser Ile

65 70 75 80

Ser Glu Asp Phe Glu Val Ser Pro Ala Asn Gly Thr Met Ser Leu Ala

85 90 95

Ile Pro Val Arg Thr Ser Pro Thr Arg Gly Gly Tyr Gly Pro Asp Leu

100 105 110

Lys Leu Ser Tyr Asp Ser Gly Ser Gly Asn Gly Pro Phe Gly Phe Gly

115 120 125

Trp Ser Met Ser Met Pro Ser Ile His Arg Lys Thr Thr Hi s Ala Ile

130 135 140

Pro Arg Tyr Val Asp Asp Glu Asp Asp Phe Leu Met Ser Gly Gly Asp

145 150 155 160

Ile Ile Lys Arg Leu Asn Ser Glu Gly Ile Gln Glu Thr Arg Asn Glu

165 170 175

Ser Gly Ile Cys Gly Lys Phe Leu Val Thr Thr Tyr Arg Pro Arg Val

180 185 190

Asp Ser Gly Asn Ile Arg Ile Glu Arg Trp Val Arg Arg Glu Asp Leu

195 200 205

Glu Asp Val His Trp Arg Thr Ile Ser Ser Ser Asn Glu Thr Lys Ile

210 215 220

Tyr Gly Asp Ser Asp Ser Ser Arg Ile Phe Asp Ala Ser Gly Pro Ser

225 230 235 240

Lys Arg Ile Phe Ser Trp Leu Leu Ser Arg Ser Tyr Asp Ala Ser Gly

245 250 255

Asn Ala Ile Glu Tyr Val Tyr Lys Glu Glu Asp Ser Leu Gly Ile Ser

260 265 270

Asp Ala Thr Gly Ala Met Pro Val Trp Glu Lys Asn Arg Glu Gln Asp

275 280 285

Ala Arg Tyr Arg Glu Arg Tyr Ile Lys Arg Val Lys Tyr Gly Asn Arg

290 295 300

Lys Pro Asn Arg Asp Leu Thr Thr Trp Glu Val Ser Asp Trp Pro Glu

305 310 315 320

Glu Trp Met Phe Glu Val Val Phe Asp Tyr Gly Glu His Asp Lys Gly

325 330 335

Ser Pro Ser Thr Glu Glu Ser His Ser Trp Pro Val Arg Gln Asp Val

340 345 350

Phe Ser Gln Ser Arg Pro Gly Phe Glu Ile Arg Thr Tyr Arg Leu Cys

355 360 365

Arg Arg Val Leu Met Phe His His Phe Pro Glu His Thr Gln Glu Ser

370 375 380

Glu Thr Phe Val Phe Ser Thr Asp Leu Gln Tyr Asn Glu Ser Arg Gln

385 390 395 400

Arg Thr Val Leu Ala Ser Leu Val Ala Thr Gly Tyr Ser Ser Tyr Lys

405 410 415

Asp Asn Asn Asp Gly Lys Gln Arg Tyr Arg Ser Glu Ser Leu Pro Pro

420 425 430

Trp Ser Phe Glu Tyr Thr Ser Ser Pro Glu Ala Ser Glu Ile Glu Leu

435 440 445

Met Glu Ala Lys Thr Phe Asn Leu Leu Glu Leu Pro Thr Ser Asp Ala

450 455 460

Arg Val Ser Glu Trp Leu Asp Leu Asp Gly Asp Gly Met Pro Gly Leu

465 470 475 480

Leu Thr Arg Ser Val Asp Gly Ala Leu Tyr Tyr Gln Arg Asn Leu Gly

485 490 495

Ser Ile Ser Gly Asp Asp Asp Pro Gln Phe Cys Gly Pro Val Leu Leu

500 505 510

Ala Gln Gln Pro Ser Met Thr Gly Gly Thr Phe Gln Asp Leu Asp Arg

515 520 525

Asn Gly Asn Leu Asn Tyr Val Leu Arg Asn Glu His Gly His Leu Glu

530 535 540

Gly Tyr Tyr Glu Arg Gly Asn Ser Asp Thr Trp Lys Asn Tyr Ile Glu

545 550 555 560

Phe Pro Glu Thr Ser Asn Gly Asp Ile Trp Gln Ser Thr Ile Asp Ile

565 570 575

Asp Leu Thr Gly Asp Gly His Pro Asp LeuIle Cys Ala Ala Asp Asp

580 585 590

Ser Gln Val Leu Ile Trp Gln Gln Asn Leu Gly Lys Lys Gly Leu Ser

595 600 605

Ser Tyr Gln Arg Val Ile Cys Gly His Asp Trp Glu Ser Cys Pro Arg

610 615 620

Leu Ile Lys Asn Gln Asp Val Gln Thr Tyr Val Gly Asp Met Thr Gly

625 630 635 640

Ser Gly Met Ser Asp Leu Val Glu Ile Ser Val Ser Ser Val Arg Tyr

645 650 655

Trp Pro Asn Leu Gly Tyr Gly Thr Phe Gly Ala Ala Val Asp Met Gly

660 665 670

Asn Pro Pro Ala Phe Ala Ala Lys Asp Tyr Phe Asp His Ser Arg Val

675 680 685

Arg Leu Met Asp Thr Asp Gly Ser Gly Thr Met Asp Leu Leu Tyr Ala

690 695 700

Leu Pro Thr Gly Gly Ala Ala Leu Tyr Tyr Asn Leu Ala Gly Asn Ser

705 710 715 720

Trp Ser Asn Met Val Phe Leu Pro His Leu Pro Ala Ile Ile Thr Pro

725 730 735

Met Ser Ile Phe Thr Leu Asp Leu Ile Gly Lys Gly Ala Asp Cys Leu

740 745 750

Cys Trp Ala Asp Thr Ser Thr Asp Gly Asn Arg Ile Met Tyr Leu Asp

755 760 765

Ile Thr Gly Glu Thr Lys Pro His Leu Leu Lys Ser Tyr Ser Asn Gly

770 775 780

Trp Gly Ala Thr Thr Ser Val Asp Tyr Ala Pro Ser Thr Lys Phe Phe

785 790 795 800

Ala Glu Asp Thr Arg Asn Gly His Pro Trp Ser Ser Lys Leu Pro Phe

805 810 815

Pro Val Gln Cys Val Ser Lys Val Gln Val Glu Asp Ala Ile Thr Gly

820 825 830

Asn Arg Gln Ser Thr Glu Tyr Ile Tyr His Asn Gly Cys Tyr Asn Pro

835 840 845

Thr Glu Lys Gln Phe Ser Gly Phe Glu Met Val Glu Gln Phe Gln Ser

850 855 860

Glu Arg Val Ile Val Gly Glu Asp Glu Thr Tyr Glu Pro Pro Val Thr

865 870 875 880

His Thr Lys Ser Trp Phe Asn Val Gly Leu Ser Leu Val Val Asp Glu

885 890 895

Ser Arg Phe Leu Thr Lys Pro Ala Ile Leu Ser Ser Leu Gln Asp Tyr

900 905 910

His Thr Asp Pro Ala Glu Leu Val Asn Ala Leu Lys Gly Leu Asn Val

915 920 925

Arg Ser Glu Ile Tyr Ser Gln Asp Gly Ser Pro Lys Ser Hi s Leu Pro

930 935 940

Tyr ValIle Lys Glu Val Ser Tyr His Val Lys Ile Ser Gln Ala Arg

945 950 955 960

Asp Thr Asn Lys Tyr Ser Ala Val Gln Val Leu Pro Arg Glu Thr Phe

965 970 975

Ser Arg Ala Tyr Glu Arg Asp Met Ser Asp Pro Arg Val Thr His Asp

980 985 990

Met Val Ile Lys Thr Asn Asp Phe Gly Asp Val Glu Glu Ser Leu Ser

995 1000 1005

Ile Val Tyr Pro Arg Ala Gly Lys Thr Thr Phe Glu Asp Val Asn

1010 1015 1020

Lys Asn Gln Lys Ala Gly Asn Met Ser Tyr Thr Gln Asn Trp Tyr

1025 1030 1035

Thr Lys Met Val Ser Glu Pro Glu Gln Glu His Phe Arg Lys Pro

1040 1045 1050

Ala Ala Tyr Arg Gln Gln Glu His Glu Ile Leu Ser Phe Pro Phe

1055 1060 1065

Asn Gly Thr Leu Lys Phe Asp Asp Ala Leu Ala Phe Asn Phe Asn

1070 1075 1080

Gly Leu Pro Thr Thr Lys Cys Ser Lys Thr Trp Lys Ala Leu Arg

1085 1090 1095

Ser Glu Asn Lys Ala Phe Tyr Lys Asp Ser Leu Leu Gln Arg Arg

1100 1105 1110

Leu Asp Glu Gly Glu Leu Gln Thr Phe Ser Leu Leu Asp Gln Thr

1115 1120 1125

Tyr Ala Leu Ala Phe Thr Pro Asp Ile Leu Ala Lys Val Glu Ile

1130 1135 1140

Gly Leu Arg Asn Cys Asn Val Pro Gly Ser Val Glu Glu Leu Leu

1145 1150 1155

Thr Lys Gly Ser Tyr Val Lys Leu Lys Asp Ser Asp Gly Trp Trp

1160 1165 1170

Ala Pro Ser Ser Gln Ser Phe Phe Cys Ser Ser Lys Thr Ala Ser

1175 1180 1185

Ala Ala Glu Glu Leu Lys Glu Ala Arg Lys Ser Phe Tyr Thr Pro

1190 1195 1200

Ser Arg Phe Val Asp Leu Phe Gly Asn Ser Ser Arg Leu Asn Met

1205 1210 1215

Asp Lys Asp Phe Leu Leu Ala Thr Glu Val Glu Asp Ala Ile Gly

1220 1225 1230

Thr Ala Thr Ser Phe Lys Asn Ser Tyr Glu His Leu Gln Pro Val

1235 1240 1245

Glu Ile Ile Asp Ala Asn Ser Asn Ser Val Gln Val Val Leu Asp

1250 1255 1260

Pro Leu Gly Glu Ser Ile Ala Val Ala Ala Ser Thr Arg Arg Asp

1265 1270 1275

Gly Val Ile Glu Glu Ile Asp Ser Leu Glu Asn Met Val Leu Asp

1280 1285 1290

Ala Ser Pro Glu Asp Val Asp Asp Ile Leu Arg Asp Pro Thr Gly

1295 1300 1305

Glu Val Ser Thr Arg Leu Leu Gly Asn Ala Ala Ser Arg Thr Ile

1310 1315 1320

His Tyr Arg Asp Arg Tyr Ala Gln Trp Lys Ser Arg Gln Asn Glu

1325 1330 1335

Thr Ser Thr Ser Val Asp Pro Glu Pro Ala Leu Ser Leu Val Leu

1340 1345 1350

Ser Arg Asp Leu Ser Phe Lys Glu Ser Ser Ser Pro Glu Ile Arg

1355 1360 1365

Val Ile Val Ser Tyr Met Asn Gly Leu Gly Ser Gln Tyr Gln Glu

1370 1375 1380

Gln His Leu Ser Asp Pro Thr Thr Leu Glu Lys Arg Trp Leu Val

1385 1390 1395

Pro Gly Leu Ala Ile Pro Asp Thr Gln Gly Gln Val Val Cys Thr

1400 1405 1410

Tyr Gln Pro Arg Phe Ala Thr Leu Ala Ala Pro Ile Pro Ser Ser

1415 1420 1425

Leu Met Lys Thr Asn Ala Ala Phe Thr Phe Tyr Asp Ala Met Gly

1430 1435 1440

Arg Asn Val Ala Ser Leu Ala Ala Asp Cys Thr Trp Ser Lys Thr

1445 1450 1455

Val Tyr Thr Pro Trp Thr Thr Val Glu His Gly Ala Gly Ser Met

1460 1465 1470

Val Leu Gln Ser Asn Ala Arg Asp Asp Pro Asp Val Gly His Phe

1475 1480 1485

Phe Ser Arg Ile Ala Ser Ser Arg Tyr Ser Gln Ser Trp Tyr Asp

1490 1495 1500

Lys Arg Lys Leu Gly Thr Ala Gln Glu Lys Arg Ala Ala Glu Lys

1505 1510 1515

Ser Ala Val Tyr Ser Asp Thr Pro Leu Thr Thr His Ser Gly Ser

1520 1525 1530

Cys Gly Leu Pro Val Arg Thr Ile Gln Gln Ala Gly Gly Lys Thr

1535 1540 1545

Tyr Thr Arg Ser Ser Met Tyr Asp Val Ser Gly Asn Arg Ile Arg

1550 1555 1560

Asp Val Asp Ser Tyr Glu Arg Thr Val Glu Lys Met Leu Tyr Asp

1565 1570 1575

Lys Leu Gly Arg Gln Leu Gln Thr Thr Gly Met Asp Cys Gly Glu

1580 1585 1590

Ser Trp Leu Leu Leu Asp Ala Gln Gly Gly Glu Ile Leu Ser Trp

1595 1600 1605

Asn Cys Arg Gly Tyr Ser Phe Ile Thr Arg Tyr Asp Pro Leu Arg

1610 1615 1620

Arg Glu Thr Glu Arg Leu Val Ala Lys Ala Ala Glu Met Pro Lys

1625 1630 1635

Leu Ile Ser Arg Ile Thr Tyr Gly Glu Thr Cys Gly Asp Ala Ile

1640 1645 1650

Asn Leu Asn Leu Asn Gly Gln Val Trp Lys Val Glu Asp Gln Ala

1655 1660 1665

Gly Val His Ile Asn Thr His Tyr Asn Ile Arg Gly His Cys Leu

1670 1675 1680

Gly Lys Thr Leu Gln Phe Thr Lys Glu Tyr Lys Gln Leu Val Asp

1685 1690 1695

Trp Lys Leu Asp Gln Thr Leu Glu Thr Glu Val Tyr Pro His Thr

1700 1705 1710

Tyr Phe Tyr Asp Asn Tyr Gly Gln Val Leu Gln Glu Glu Asp Glu

1715 1720 1725

Gln Gly Asn Arg Thr Arg Arg Asn Tyr Ser Arg Gln Gly His Val

1730 1735 1740

Val Ser Val Asp Phe Ser Ser Ile Lys Gly Arg Asp Trp Lys Ser

1745 1750 1755

Tyr Leu Ser Gly Ala Thr Phe Ser Ala Asp Gly Leu Pro Ile Thr

1760 1765 1770

Ile Lys Tyr Gly Asn Gly Val Val Ser Asp Phe Phe Tyr Asp Asp

1775 1780 1785

Glu Ser Arg Asn Leu Ile Ser Gln Arg Thr Thr Arg Pro Cys Arg

1790 1795 1800

Gly Arg Arg Glu Leu Leu Gln Asp Arg Thr His Val Tyr Asp Tyr

1805 1810 1815

Val Gly Arg Arg Ile Phe Thr Ser Asp Gly Ser Glu Gln Val Lys

1820 1825 1830

Tyr Phe Gly Glu Ser Arg Val Lys Pro Glu Trp Asp Tyr Thr Tyr

1835 1840 1845

Asn Ala Thr Gly Ala Leu Val Ile Ala Thr Gly Arg Ala Gln Leu

1850 1855 1860

Ser Gly Lys Ile Gly Asn Gly Asn Gln Leu Thr Pro His Asn Ala

1865 1870 1875

Met Asn Gly Leu Asn Pro Ser Arg Gly Gly Gly Asp Gly Asn Leu

1880 1885 1890

Leu Tyr Gln Tyr Arg Glu Thr Tyr Asp Tyr Asp Arg Glu Gly Asn

1895 1900 1905

Ile Leu Met Met Lys His Glu Ala Pro Asp Ile Lys Gly Val Thr

1910 1915 1920

Ser Trp Thr Arg Asn Tyr His Tyr Asp Glu Lys Ser Leu Leu Ser

1925 1930 1935

Asp Asp Pro Arg Val Lys Ser Asn Arg Leu Ser Arg Thr Ser Ile

1940 1945 1950

Gly Asp Thr Asn Glu Gly Lys Tyr Met Tyr Glu Gly Ser Ala Gly

1955 1960 1965

Leu Ser Gly Cys Ile Thr Thr Leu Pro Lys Phe Ser Glu Leu Asp

1970 1975 1980

Trp Asn Met Asn Asn Met Leu Ser Phe Ser Ser Thr Gln Tyr Val

1985 1990 1995

Asn Ala Gly Thr Pro Glu Arg Thr Tyr Tyr Val Tyr Asp His Ala

2000 2005 2010

Gly Asn Arg Val Arg Lys Val Thr Glu Thr Ala Ala Lys Ser Gly

2015 2020 2025

Glu Glu Pro Arg Lys Gln Arg Asp Thr Leu Phe Phe Gly Gly Val

2030 2035 2040

Glu Leu Gln Thr Lys Ser Asn Gly Ser Leu Leu Trp Thr Thr Arg

2045 2050 2055

Val Lys Gly Asp Gly Ile Val Ala Val Val Glu Val Asn Arg Asn

2060 2065 2070

Gln Glu Thr Pro Leu Val Arg Phe Gln Ala Gly Arg Asp Met Glu

2075 2080 2085

Phe Asp Asp Gln Ala Gln Leu Ile Ser Tyr Glu Glu Tyr Ser Pro

2090 2095 2100

Phe Gly Ala Val Val Tyr Ala Ala Met Tyr Gly Asn Ile Glu Ala

2105 2110 2115

Pro Arg Ala Tyr Arg Phe Ala Arg Tyr Glu His Asp Ser Glu Thr

2120 2125 2130

Gly Leu Tyr His Cys Gly Gln Arg Tyr Tyr Cys Pro Trp Leu Gly

2135 2140 2145

Arg Trp Thr Ser Pro Asp Pro Leu Gly Asp Val Asp Gly Pro Asn

2150 2155 2160

Leu Phe Val Tyr Val Asn Asn Asp Pro Val Asn Ser His Asp Pro

2165 2170 2175

Ser Gly Thr Ser Gly Lys Lys Thr Lys Glu Gly Thr Arg Glu Met

2180 2185 2190

Tyr Ala Ala Pro Asp Asp Gln Gly Lys Arg Arg Leu Val Asp Glu

2195 2200 2205

Asn Lys Ala Val Ala Asp Arg Ile Ala Lys Tyr Glu Arg Lys Leu

2210 2215 2220

Gln Arg Gln Glu Arg Lys Gln Gln Arg Ala Ile Ala Arg Met Ser

2225 2230 2235

Gly Thr Asp Pro Ile Leu Gly Ser Arg Ala Arg Tyr Ala Val Gly

2240 2245 2250

Ile Ala Ala Met Gly Asn Ala Leu Gly Arg Ile Ser Gly Ser Thr

2255 2260 2265

Glu Leu His His Thr Tyr Pro Gln Glu Tyr Arg Glu Glu Phe Ser

2270 2275 2280

Asp Ile Asp Ile Asn Val Asp Arg Thr Ser Val Ser Ile Ser Lys

2285 2290 2295

Glu Ala His Tyr Ile Cys Thr Tyr Gly Ser Ile Leu Asp Asn Leu

2300 2305 2310

Val Ala Thr Asn Lys Arg Trp Lys Ser Glu Tyr Phe Asp Thr Pro

2315 2320 2325

Asp Thr Gly Tyr Tyr Glu Gln Met Glu Gln His Glu Trp Tyr Asp

2330 2335 2340

Asp Asp Pro Gly Met Gln Tyr Ala Ile Arg Leu His Leu Ala Tyr

2345 2350 2355

Glu Ala Arg Thr Leu Asn Gly Lys Ile Met Ala Asp Phe Gly Ile

2360 2365 2370

Asn Pro Lys Gly Glu Asp Gly Arg Ser Met Phe Val Asn Tyr Asp

2375 2380 2385

Ala Val Thr Lys Met Arg Thr Ala Gly Gln Arg Arg Gly Val Arg

2390 2395 2400

Asn Asp Asn Leu Ile His His Glu Thr Trp Pro Gly Arg Pro Phe

2405 2410 2415

Asn Thr Gly Asn Ser Asp Thr Asp Asn Ala Gly Gly Pro Val His

2420 2425 2430

Phe Gln Val Ala Glu Glu Gln Tyr Asn Gly Leu Asp Ala Asp Ala

2435 2440 2445

Gln Ala Lys Phe Asp Asp Leu Arg Asn Gln Met Glu Ala Leu Leu

2450 2455 2460

Gly Lys Arg

2465

<210>3

<211>7320

<212>DNA

<213>人工序列

<220>

<223>编码玉蜀黍赤霉PH1NRRL 31084的融合的B/C类蛋白质的天然的推定的cDNA序列(除去推定的内含子)

<400>3

atgtcaactc tttccagtcg tcctggagac cctcgcgccc tccactctgg acagaacaac 60

ggagcacccg aaaccctgac caactcaaaa agcaatgcca ctctatctgg aaaccgcacc 120

acggctccag cctcggcatc ttcatttgct ccacaagtcc gtacactggg tgaaggaatc 180

ccaggctttc gtacctcatt caacgtcgca ggtaaaggcg gcggagcgtt caggtccatc 240

agcgaggact tcgaagtgag ccctgccaat ggcaccatgt cacttgccat ccctgtgcgc 300

acgtcaccta cccgtggagg ctacggacca gatctgaagc tctcgtacga ctcgggttcg 360

ggaaatggac cgttcggatt tggctggagt atgtcaatgc cgtccattca tcgtaagaca 420

acacatgcta taccgcgata tgtggacgat gaggatgatt ttctcatgtc tggtggagac 480

atcattaaga ggttgaatag tgagggtata caagagacaa gaaatgaatc tggcatttgt 540

ggaaagtttc ttgttaccac atatcgtcca cgagtcgact ctgggaacat acgaatcgag 600

agatgggttc gcagagagga tctcgaagac gtgcactgga ggacaatctc gtccagcaac 660

gagactaaaa tctacggtga tagtgacagc agccgcatct ttgacgcttc tggcccatca 720

aagaggatct tctcttggct tttaagccga tcttatgatg catcaggcaa tgcaattgag 780

tatgtataca aagaagaaga ctcgttgggc atttctgatg ctactggagc catgcctgtg 840

tgggaaaaga atcgggaaca agacgcaaga taccgcgaga gatatatcaa acgagtcaag 900

tacggaaaca gaaagccaaa ccgtgatctt actacttggg aagtatcgga ttggcccgaa 960

gaatggatgt ttgaggtcgt ctttgactat ggagaacacg ataaaggcag tccaagcact 1020

gaagaatccc attcctggcc agttcgtcaa gatgtgtttt cacagagtcg ccctggattt 1080

gaaatccgta cctatcgtct ttgtcgccga gttctcatgt tccaccactt ccccgaacac 1140

acccaagagt cagagacttt cgtcttctcg acagatcttc agtacaacga gtctcgacaa 1200

aggactgttt tggccagctt ggtcgcaaca ggatactcgt cctacaaaga caacaatgat 1260

gggaaacaaa ggtacagatc agagtctctg ccgccatggt catttgagta cacaagttcc 1320

cccgaggcca gcgagattga actcatggag gcaaagactt ttaacctact cgaacttcct 1380

acatctgatg cacgagtttc agagtggctg gatctcgacg gcgatggtat gccagggctg 1440

ttgacaaggt ctgtagatgg cgccctctat tatcaacgca atcttgggtc aatttctggt 1500

gacgatgacc cacagttctg tggtccagtc cttctcgcac aacagcccag tatgactggc 1560

gggactttcc aagaccttga tcgaaatgga aacctcaact acgttctccg taacgagcat 1620

ggtcaccttg agggatacta tgaacgaggc aattctgata cctggaagaa ctacatcgaa 1680

tttccagaaa caagcaacgg ggatatatgg cagagcacta tcgacatcga cttgacgggc 1740

gacggtcatc ccgaccttat ctgtgcagca gatgattccc aagtcttgat ttggcagcag 1800

aacctcggaa agaaaggcct ctccagctat caacgtgtca tatgcggaca tgattgggag 1860

tcttgtccac gcttgatcaa aaaccaagat gtccagacct atgttggaga tatgactggt 1920

agcggcatgt cggacctagt tgagatctca gtatcgtcgg ttagatattg gccaaacctt 1980

ggctatggaa catttggtgc tgcagtagat atgggaaacc caccagcatt tgctgccaag 2040

gactactttg atcacagtcg agttagactc atggacaccg atggtagtgg cactatggat 2100

ctcctctacg ctctgccaac agggggcgca gctttgtact acaaccttgc tggcaattca 2160

tggagtaaca tggtattcct tccccatctc ccggctatta tcacgcctat gtcgatattt 2220

accttggatc taattggcaa gggggcggat tgtctttgtt gggcagatac ttcaactgat 2280

gggaacagga ttatgtacct cgacatcacg ggagaaacaa aaccgcatct gttgaagtct 2340

tacagcaatg gttggggtgc aacaacgtca gtggactacg ctccatcgac caagttcttc 2400

gcggaagata ccagaaatgg acacccgtgg tcaagcaaat tgccattccc agttcaatgt 2460

gtctcaaagg tccaagtcga ggatgccatc actgggaatc gacagtctac cgaatacatc 2520

taccacaacg gttgctacaa cccgaccgag aagcaatttt ctggctttga gatggtagaa 2580

cagtttcaga gcgaaagagt catcgttgga gaggatgaga catatgagcc tcctgttaca 2640

cacaccaagt cgtggttcaa cgttggtctg agccttgtag ttgatgagtc gcgctttttg 2700

accaagccag ccattctctc tagtctacag gattaccaca cggatcccgc ggagcttgtg 2760

aacgcactga aagggctcaa cgtgcgatcg gagatatata gtcaggatgg aagccccaag 2820

tctcacttgc cctacgttat caaggaggtg tcgtaccatg tcaagatctc gcaagcacga 2880

gacacaaaca agtattccgc agtccaggta ctcccgcgtg agacattctc gagagcgtac 2940

gagagggata tgagtgatcc acgtgtcaca cacgatatgg tgatcaagac caacgacttt 3000

ggagacgttg aggaaagcct gagtatcgtg tatcctcgtg ctgggaagac cacattcgaa 3060

gatgtgaaca agaatcaaaa ggctggaaac atgtcctaca cccagaattg gtatacaaag 3120

atggtgtcag aacctgaaca ggaacacttc cgcaagcctg cagcgtacag gcaacaggaa 3180

cacgagatac tcagctttcc attcaatggg accctcaagt tcgacgacgc tcttgcgttc 3240

aacttcaatg gattgcccac cacaaaatgc tcgaaaacat ggaaggctct acgcagcgag 3300

aacaaggcgt tttacaaaga ctctctcttg cagagaagac ttgacgaagg cgagctgcag 3360

acgttttcac tgcttgatca gacctatgcc ctggccttta caccagacat cctagccaaa 3420

gtcgaaatag gtttacggaa ttgcaatgtt cccggctcag tcgaagagct tttgaccaaa 3480

gggtcatacg tgaagctgaa agacagtgac ggttggtggg ctccatcgtc tcagtcattt 3540

ttctgttcat ccaagactgc atcggcagct gaagagctca aagaggcacg caaatccttc 3600

tacacccctt cgcgcttcgt cgacctgttt ggcaactcgt cacggcttaa catggataag 3660

gacttcctat tagccacaga agttgaggat gctataggaa ctgcgacctc gttcaaaaac 3720

agctacgagc acttgcagcc tgtggagatc atcgatgcca atagtaattc cgtacaagtc 3780

gtgctggatc cactgggcga gtcgatcgcg gttgcagctt cgacaagacg cgacggggtt 3840

atagaagaga tagacagcct ggagaatatg gtcttagatg ccagccctga agatgtagac 3900

gacattcttc gcgatcctac gggcgaggtc tcgactcgtc ttttgggtaa tgctgcaagc 3960

aggactatcc attaccgcga tagatatgcc caatggaagt ctcgtcagaa tgagacatca 4020

acatcagtcg atccggaacc agcattgtca cttgttctat cacgggacct ttcattcaag 4080

gagtccagta gtcctgagat tcgagtcatc gtttcgtaca tgaatggact tgggtcgcag 4140

taccaggagc agcacctgag tgacccaact acgttggaaa aacgatggtt ggtacctggc 4200

cttgccattc cagacactca aggccaagtt gtgtgcacat accaacctcg gtttgcaact 4260

ttagcagcgc caattccatc cagtttgatg aagactaacg ctgcattcac cttttacgat 4320

gcaatgggtc gcaatgttgc gtcccttgct gccgattgca cttggtcgaa aacagtgtat 4380

accccatgga cgacagttga acatggagca ggaagcatgg tacttcagtc caacgcacga 4440

gatgatcctg atgttggcca tttcttctcc cgaatcgcat cctcccgata ctctcaaagt 4500

tggtacgaca agcgcaagct tggaacagca caagagaagc gagctgcaga gaaatcagct 4560

gtatactccg atactccact tactactcat tcgggtagct gcggacttcc tgttagaact 4620

atccaacaag ccggtggcaa gacatacaca cggagctcca tgtatgatct tcagactaca 4680

ggcatggact gcggtgaatc atggctgctg ctagatgccc agggagggga gattctgtcc 4740

tggaattgtc gtggatactc tttcatcact cgttacgatc ccctacgtcg ggagactgag 4800

agattagttg cgaaagccgc agagatgccg aagctcatct cacgaatcac gtacggagag 4860

acctgtggcg atgccatcaa cctgaacttg aatggccaag tatggaaagt ggaagatcaa 4920

gctggtgttc atatcaatac ccattacaac atccgcggcc actgtctagg gaaaacatta 4980

cagttcacaa aagagtataa gcaactggtc gattggaaac ttgatcagac gcttgaaacg 5040

gaagtctacc cgcatacata cttctatgat aactatggtc aagtgttaca ggaagaggat 5100

gagcagggaa accgcacaag aagaaattat tcacgacaag ggcatgtcgt ttcggtcgat 5160

ttcagttcca taaagggtcg tgactggaag tcatatctct caggggcaac cttttcagct 5220

gatgggctgc ctataactat caagtatggg aatggagtcg tttctgactt tttctacgat 5280

gacgagtcca gaaacctcat ctcgcaaaga actacgcgcc catgccgggg tagaagagag 5340

ttgcttcaag acaggacaca cgtttatgac tacgtagggc gtcgaatatt tacctccgat 5400

ggctcagaac aagtcaagta ctttggtgaa agtcgcgtca agcccgagtg ggactacaca 5460

tacaatgcga ccggtgccct ggtgattgcc acagggagag ctcaactctc tggaaagatt 5520

ggaaatggca accagttgac accccacaac gcaatgaacg gactgaaccc atcgcgcggt 5580

ggtggcgatg gcaatttact ttaccaatat cgcgagacat atgattatga tcgtgagggc 5640

aatatcttga tgatgaagca tgaggcgcct gacatcaaag gggttacaag ctggacgaga 5700

aactatcatt acgatgagaa gagtttacta agcgacgatc cccgcgttaa gagcaaccgt 5760

cttagtcgga cgtcaattgg agacacaaac gagggcaagt acatgtatga aggcagtgcc 5820

ggtctctcag gctgcataac gacgctaccg aaattctccg agctcgattg gaacatgaac 5880

aatatgctct ccttctcgtc aacgcagtac gtcaacgctg gcactccaga gagaacatac 5940

tatgtctacg accacgcggg caaccgtgtg cgaaaggtga ccgagactgc agccaaatct 6000

ggtgaggagc ctcgtaaaca aagggataca ttgtttttcg gtggagtcga actgcaaaca 6060

aaaagcaacg gatcactctt atggaccacg cgtgtcaagg gtgatggtat cgtggctgtg 6120

gtggaggtca atagaaatca agagacaccg ttggtgcgat tccaggcggg acgcgacatg 6180

gagttcgacg accaagcaca gctcatctca tatgaagagt actcgccctt cggtgccgtg 6240

gtttacgcgg ctatgtacgg gaatatcgaa gcgcctcggg catatcgttt cgccaggtat 6300

gagcatgaca gcgagacggg cttgtaccac tgtggacagc gctactattg cccatggctg 6360

ggccgttgga cgtctccaga tcctcttggt gacgtagatg ggccgaacct ttttgtatat 6420

gtgaataacg atcctgtaaa ctcgcacgat ccttcgggaa catctggcaa gaaaacgaaa 6480

gagggcacca gagaaatgta cgcggcaccc gacgatcaag ggaagagacg tcttgtggat 6540

gagaataagg cagtggccga ccgcatagcg aagtatgaga ggaaattaca acgacaagaa 6600

cggaaacagc aacgagccat agctagaatg tctggcacag atcccatcct aggttccagg 6660

gcacggtacg cggttggcat agccgcaatg ggcaatgcac tgggccgcat ttcaggaagt 6720

acagaactcc atcataccta tccacaagag tacagggagg agttttccga catcgacatc 6780

aatgttgaca ggacttcggt gtctatttca aaggaggcac attatatctg cacttatggc 6840

agcattctgg acaaccttgt tgccaccaac aaacgatgga agagcgagta ttttgataca 6900

ccggacactg gttattatga gcagatggag caacacgagt ggtatgacga tgaccctggt 6960

atgcagtacg cgatacgtct gcatttggcc tatgaggctc gcaccctaaa cggtaaaatc 7020

atggctgatt ttggcataaa ccccaaaggc gaagatggga ggagtatgtt tgtgaattac 7080

gatgccgtga caaaaatgag gacggcaggg caaaggaggg gcgtgcggaa tgataatttg 7140

atacaccacg aaacatggcc tggtaggccg tttaatactg gtaacagcga tacggacaac 7200

gctggcggac ctgtgcattt ccaagtggct gaggagcagt ataatggcct tgatgctgat 7260

gcgcaggcga agtttgatga cttaaggaac cagatggaag ctcttttggg gaagagatag 7320

<210>4

<211>2439

<212>PRT

<213>人工序列

<220>

<223>玉蜀黍赤霉PH1 NRRL 31084的融合的B/C类蛋白质的天然氨基酸序列SEQ ID NO：3编码的2439个氨基酸

<400>4

Met Ser Thr Leu Ser Ser Arg Pro Gly Asp Pro Arg Ala Leu His Ser

1 5 10 15

Gly Gln Asn Asn Gly Ala Pro Glu Thr Leu Thr Asn Ser Lys Ser Asn

20 25 30

Ala Thr Leu Ser Gly Asn Arg Thr Thr Ala Pro Ala Ser Ala Ser Ser

35 40 45

Phe Ala Pro Gln Val Arg Thr Leu Gly Glu Gly Ile Pro Gly Phe Arg

50 55 60

Thr Ser Phe Asn Val Ala Gly Lys Gly Gly Gly Ala Phe Arg Ser Ile

65 70 75 80

Ser Glu Asp Phe Glu Val Ser Pro Ala Asn Gly Thr Met Ser Leu Ala

85 90 95

Ile Pro Val Arg Thr Ser Pro Thr Arg Gly Gly Tyr Gly Pro Asp Leu

100 105 110

Lys Leu Ser Tyr Asp Ser Gly Ser Gly Asn Gly Pro Phe Gly Phe Gly

115 120 125

Trp Ser Met Ser Met Pro Ser Ile His Arg Lys Thr Thr His Ala Ile

130 135 140

Pro Arg Tyr Val Asp Asp Glu Asp Asp Phe Leu Met Ser Gly Gly Asp

145 150 155 160

Ile Ile Lys Arg Leu Asn Ser Glu Gly Ile Gln Glu Thr Arg Asn Glu

165 170 175

Ser Gly Ile Cys Gly Lys Phe Leu Val Thr Thr Tyr Arg Pro Arg Val

180 185 190

Asp Ser Gly Asn Ile Arg Ile Glu Arg Trp Val Arg Arg Glu Asp Leu

195 200 205

Glu Asp Val His Trp Arg Thr Ile Ser Ser Ser Asn Glu Thr Lys Ile

210 215 220

Tyr Gly Asp Ser Asp Ser Ser Arg Ile Phe Asp Ala Ser Gly Pro Ser

225 230 235 240

Lys Arg Ile Phe Ser Trp Leu Leu Ser Arg Ser Tyr Asp Ala Ser Gly

245 250 255

Asn Ala Ile Glu Tyr Val Tyr Lys Glu Glu Asp Ser Leu Gly Ile Ser

260 265 270

Asp Ala Thr Gly Ala Met Pro Val Trp Glu Lys Asn Arg Glu Gln Asp

275 280 285

Ala Arg Tyr Arg Glu Arg Tyr Ile Lys Arg Val Lys Tyr Gly Asn Arg

290 295 300

Lys Pro Asn Arg Asp Leu Thr Thr Trp Glu Val Ser Asp Trp Pro Glu

305 310 315 320

Glu Trp Met Phe Glu Val Val Phe Asp Tyr Gly Glu His Asp Lys Gly

325 330 335

Ser Pro Ser Thr Glu Glu Ser His Ser Trp Pro Val Arg Gln Asp Val

340 345 350

Phe Ser Gln Ser Arg Pro Gly Phe Glu Ile Arg Thr Tyr Arg Leu Cys

355 360 365

Arg Arg Val Leu Met Phe His His Phe Pro Glu His Thr Gln Glu Ser

370 375 380

Glu Thr Phe Val Phe Ser Thr Asp Leu Gln Tyr Asn Glu Ser Arg Gln

385 390 395 400

Arg Thr Val Leu Ala Ser Leu Val Ala Thr Gly Tyr Ser Ser Tyr Lys

405 410 415

Asp Asn Asn Asp Gly Lys Gln Arg Tyr Arg Ser Glu Ser Leu Pro Pro

420 425 430

Trp Ser Phe Glu Tyr Thr Ser Ser Pro Glu Ala Ser Glu Ile Glu Leu

435 440 445

Met Glu Ala Lys Thr Phe Asn Leu Leu Glu Leu Pro Thr Ser Asp Ala

450 455 460

Arg Val Ser Glu Trp Leu Asp Leu Asp Gly Asp Gly Met Pro Gly Leu

465 470 475 480

Leu Thr Arg Ser Val Asp Gly Ala Leu Tyr Tyr Gln Arg Asn Leu Gly

485 490 495

Ser Ile Ser Gly Asp Asp Asp Pro Gln Phe Cys Gly Pro Val Leu Leu

500 505 510

Ala Gln Gln Pro Ser Met Thr Gly Gly Thr Phe Gln Asp Leu Asp Arg

515 520 525

Asn Gly Asn Leu Asn Tyr Val Leu Arg Asn Glu His Gly His Leu Glu

530 535 540

Gly Tyr Tyr Glu Arg Gly Asn Ser Asp Thr Trp Lys Asn Tyr Ile Glu

545 550 555 560

Phe Pro Glu Thr Ser Asn Gly Asp Ile Trp Gln Ser Thr Ile Asp Ile

565 570 575

Asp Leu Thr Gly Asp Gly His Pro Asp Leu Ile Cys Ala Ala Asp Asp

580 585 590

Ser Gln Val Leu Ile Trp Gln Gln Asn Leu Gly Lys Lys Gly Leu Ser

595 600 605

Ser Tyr Gln Arg Val Ile Cys Gly His Asp Trp Glu Ser Cys Pro Arg

610 615 620

Leu Ile Lys Asn Gln Asp Val Gln Thr Tyr Val Gly Asp Met Thr Gly

625 630 635 640

Ser Gly Met Ser Asp Leu Val GluIle Ser Val Ser Ser Val Arg Tyr

645 650 655

Trp Pro Asn Leu Gly Tyr Gly Thr Phe Gly Ala Ala Val Asp Met Gly

660 665 670

Asn Pro Pro Ala Phe Ala Ala Lys Asp Tyr Phe Asp His Ser Arg Val

675 680 685

Arg Leu Met Asp Thr Asp Gly Ser Gly Thr Met Asp Leu Leu Tyr Ala

690 695 700

Leu Pro Thr Gly Gly Ala Ala Leu Tyr Tyr Asn Leu Ala Gly Asn Ser

705 710 715 720

Trp Ser Asn Met Val Phe Leu Pro His Leu Pro Ala Ile Ile Thr Pro

725 730 735

Met Ser Ile Phe Thr Leu Asp Leu Ile Gly Lys Gly Ala Asp Cys Leu

740 745 750

Cys Trp Ala Asp Thr Ser Thr Asp Gly Asn Arg Ile Met Tyr Leu Asp

755 760 765

Ile Thr Gly Glu Thr Lys Pro His Leu Leu Lys Ser Tyr Ser Asn Gly

770 775 780

Trp Gly Ala Thr Thr Ser Val Asp Tyr Ala Pro Ser Thr Lys Phe Phe

785 790 795 800

Ala Glu Asp Thr Arg Asn Gly His Pro Trp Ser Ser Lys Leu Pro Phe

805 810 815

Pro Val Gln Cys Val Ser Lys Val Gln Val Glu Asp Ala Ile Thr Gly

820 825 830

Asn Arg Gln Ser Thr Glu Tyr Ile Tyr His Asn Gly Cys Tyr Asn Pro

835 840 845

Thr Glu Lys Gln Phe Ser Gly Phe Glu Met Val Glu Gln Phe Gln Ser

850 855 860

Glu Arg Val Ile Val Gly Glu Asp Glu Thr Tyr Glu Pro Pro Val Thr

865 870 875 880

His Thr Lys Ser Trp Phe Asn Val Gly Leu Ser Leu Val Val Asp Glu

885 890 895

Ser Arg Phe Leu Thr Lys Pro Ala Ile Leu Ser Ser Leu Gln Asp Tyr

900 905 910

His Thr Asp Pro Ala Glu Leu Val Asn Ala Leu Lys Gly Leu Asn Val

915 920 925

Arg Ser Glu Ile Tyr Ser Gln Asp Gly Ser Pro Lys Ser His Leu Pro

930 935 940

Tyr Val Ile Lys Glu Val Ser Tyr His Val Lys Ile Ser Gln Ala Arg

945 950 955 960

Asp Thr Asn Lys Tyr Ser Ala Val Gln Val Leu Pro Arg Glu Thr Phe

965 970 975

Ser Arg Ala Tyr Glu Arg Asp Met Ser Asp Pro Arg Val Thr His Asp

980 985 990

Met Val Ile Lys Thr Asn Asp Phe Gly Asp Val Glu Glu Ser Leu Ser

995 1000 1005

Ile Val Tyr Pro Arg Ala Gly Lys Thr Thr Phe Glu Asp Val Asn

1010 1015 1020

Lys Asn Gln Lys Ala Gly Asn Met Ser Tyr Thr Gln Asn Trp Tyr

1025 1030 1035

Thr Lys Met Val Ser Glu Pro Glu Gln Glu His Phe Arg Lys Pro

1040 1045 1050

Ala Ala Tyr Arg Gln Gln Glu His Glu Ile Leu Ser Phe Pro Phe

1055 1060 1065

Asn Gly Thr Leu Lys Phe Asp Asp Ala Leu Ala Phe Asn Phe Asn

1070 1075 1080

Gly Leu Pro Thr Thr Lys Cys Ser Lys Thr Trp Lys Ala Leu Arg

1085 1090 1095

Ser Glu Asn Lys Ala Phe Tyr Lys Asp Ser Leu Leu Gln Arg Arg

1100 1105 1110

Leu Asp Glu Gly Glu Leu Gln Thr Phe Ser Leu Leu Asp Gln Thr

1115 1120 1125

Tyr Ala Leu Ala Phe Thr Pro Asp Ile Leu Ala Lys Val Glu Ile

1130 1135 1140

Gly Leu Arg Asn Cys Asn Val Pro Gly Ser Val Glu Glu Leu Leu

1145 1150 1155

Thr Lys Gly Ser Tyr Val Lys Leu Lys Asp Ser Asp Gly Trp Trp

1160 1165 1170

Ala Pro Ser Ser Gln Ser Phe Phe Cys Ser Ser Lys Thr Ala Ser

1175 1180 1185

Ala Ala Glu Glu Leu Lys Glu Ala Arg Lys Ser Phe Tyr Thr Pro

1190 1195 1200

Ser Arg Phe Val Asp Leu Phe Gly Asn Ser Ser Arg Leu Asn Met

1205 1210 1215

Asp Lys Asp Phe Leu Leu Ala Thr Glu Val Glu Asp Ala Ile Gly

1220 1225 1230

Thr Ala Thr Ser Phe Lys Asn Ser Tyr Glu His Leu Gln Pro Val

1235 1240 1245

Glu Ile Ile Asp Ala Asn Ser Asn Ser Val Gln Val Val Leu Asp

1250 1255 1260

Pro Leu Gly Glu Ser Ile Ala Val Ala Ala Ser Thr Arg Arg Asp

1265 1270 1275

Gly Val Ile Glu Glu Ile Asp Ser Leu Glu Asn Met Val Leu Asp

1280 1285 1290

Ala Ser Pro Glu Asp Val Asp Asp Ile Leu Arg Asp Pro Thr Gly

1295 1300 1305

Glu Val Ser Thr Arg Leu Leu Gly Asn Ala Ala Ser Arg Thr Ile

1310 1315 1320

His Tyr Arg Asp Arg Tyr Ala Gln Trp Lys Ser Arg Gln Asn Glu

1325 1330 1335

Thr Ser Thr Ser Val Asp Pro Glu Pro Ala Leu Ser Leu Val Leu

1340 1345 1350

Ser Arg Asp Leu Ser Phe Lys Glu Ser Ser Ser Pro Glu Ile Arg

1355 1360 1365

Val Ile Val Ser Tyr Met Asn Gly Leu Gly Ser Gln Tyr Gln Glu

1370 1375 1380

Gln His Leu Ser Asp Pro Thr Thr Leu Glu Lys Arg Trp Leu Val

1385 1390 1395

Pro Gly Leu Ala Ile Pro Asp Thr Gln Gly Gln Val Val Cys Thr

1400 1405 1410

Tyr Gln Pro Arg Phe Ala Thr Leu Ala Ala Pro Ile Pro Ser Ser

1415 1420 1425

Leu Met Lys Thr Asn Ala Ala Phe Thr Phe Tyr Asp Ala Met Gly

1430 1435 1440

Arg Asn Val Ala Ser Leu Ala Ala Asp Cys Thr Trp Ser Lys Thr

1445 1450 1455

Val Tyr Thr Pro Trp Thr Thr Val Glu His Gly Ala Gly Ser Met

1460 1465 1470

Val Leu Gln Ser Asn Ala Arg Asp Asp Pro Asp Val Gly His Phe

1475 1480 1485

Phe Ser Arg Ile Ala Ser Ser Arg Tyr Ser Gln Ser Trp Tyr Asp

1490 1495 1500

Lys Arg Lys Leu Gly Thr Ala Gln Glu Lys Arg Ala Ala Glu Lys

1505 1510 1515

Ser Ala Val Tyr Ser Asp Thr Pro Leu Thr Thr His Ser Gly Ser

1520 1525 1530

Cys Gly Leu Pro Val Arg Thr Ile Gln Gln Ala Gly Gly Lys Thr

1535 1540 1545

Tyr Thr Arg Ser Ser Met Tyr Asp Leu Gln Thr Thr Gly Met Asp

1550 1555 1560

Cys Gly Glu Ser Trp Leu Leu Leu Asp Ala Gln Gly Gly Glu Ile

1565 1570 1575

Leu Ser Trp Asn Cys Arg Gly Tyr Ser Phe Ile Thr Arg Tyr Asp

1580 1585 1590

Pro Leu Arg Arg Glu Thr Glu Arg Leu Val Ala Lys Ala Ala Glu

1595 1600 1605

Met Pro Lys Leu Ile Ser Arg Ile Thr Tyr Gly Glu Thr Cys Gly

1610 1615 1620

Asp Ala Ile Asn Leu Asn Leu Asn Gly Gln Val Trp Lys Val Glu

1625 1630 1635

Asp Gln Ala Gly Val His Ile Asn Thr His Tyr Asn Ile Arg Gly

1640 1645 1650

His Cys Leu Gly Lys Thr Leu Gln Phe Thr Lys Glu Tyr Lys Gln

1655 1660 1665

Leu Val Asp Trp Lys Leu Asp Gln Thr Leu Glu Thr Glu Val Tyr

1670 1675 1680

Pro His Thr Tyr Phe Tyr Asp Asn Tyr Gly Gln Val Leu Gln Glu

1685 1690 1695

Glu Asp Glu Gln Gly Asn Arg Thr Arg Arg Asn Tyr Ser Arg Gln

1700 1705 1710

Gly His Val Val Ser Val Asp Phe Ser Ser Ile Lys Gly Arg Asp

1715 1720 1725

Trp Lys Ser Tyr Leu Ser Gly Ala Thr Phe Ser Ala Asp Gly Leu

1730 1735 1740

Pro Ile Thr Ile Lys Tyr Gly Asn Gly Val Val Ser Asp Phe Phe

1745 1750 1755

Tyr Asp Asp Glu Ser Arg Asn Leu Ile Ser Gln Arg Thr Thr Arg

1760 1765 1770

Pro Cys Arg Gly Arg Arg Glu Leu Leu Gln Asp Arg Thr His Val

1775 1780 1785

Tyr Asp Tyr Val Gly Arg Arg Ile Phe Thr Ser Asp Gly Ser Glu

1790 1795 1800

Gln Val Lys Tyr Phe Gly Glu Ser Arg Val Lys Pro Glu Trp Asp

1805 1810 1815

Tyr Thr Tyr Asn Ala Thr Gly Ala Leu Val Ile Ala Thr Gly Arg

1820 1825 1830

Ala Gln Leu Ser Gly Lys Ile Gly Asn Gly Asn Gln Leu Thr Pro

1835 1840 1845

His Asn Ala Met Asn Gly Leu Asn Pro Ser Arg Gly Gly Gly Asp

1850 1855 1860

Gly Asn Leu Leu Tyr Gln Tyr Arg Glu Thr Tyr Asp Tyr Asp Arg

1865 1870 1875

Glu Gly Asn Ile Leu Met Met Lys His Glu Ala Pro Asp Ile Lys

1880 1885 1890

Gly Val Thr Ser Trp Thr Arg Asn Tyr His Tyr Asp Glu Lys Ser

1895 1900 1905

Leu Leu Ser Asp Asp Pro Arg Val Lys Ser Asn Arg Leu Ser Arg

1910 1915 1920

Thr Ser Ile Gly Asp Thr Asn Glu Gly Lys Tyr Met Tyr Glu Gly

1925 1930 1935

Ser Ala Gly Leu Ser Gly Cys Ile Thr Thr Leu Pro Lys Phe Ser

1940 1945 1950

Glu Leu Asp Trp Asn Met Asn Asn Met Leu Ser Phe Ser Ser Thr

1955 1960 1965

Gln Tyr Val Asn Ala Gly Thr Pro Glu Arg Thr Tyr Tyr Val Tyr

1970 1975 1980

Asp His Ala Gly Asn Arg Val Arg Lys Val Thr Glu Thr Ala Ala

1985 1990 1995

Lys Ser Gly Glu Glu Pro Arg Lys Gln Arg Asp Thr Leu Phe Phe

2000 2005 2010

Gly Gly Val Glu Leu Gln Thr Lys Ser Asn Gly Ser Leu Leu Trp

2015 2020 2025

Thr Thr Arg Val Lys Gly Asp Gly Ile Val Ala Val Val Glu Val

2030 2035 2040

Asn Arg Asn Gln Glu Thr Pro Leu Val Arg Phe Gln Ala Gly Arg

2045 2050 2055

Asp Met Glu Phe Asp Asp Gln Ala Gln Leu Ile Ser Tyr Glu Glu

2060 2065 2070

Tyr Ser Pro Phe Gly Ala Val Val Tyr Ala Ala Met Tyr Gly Asn

2075 2080 2085

Ile Glu Ala Pro Arg Ala Tyr Arg Phe Ala Arg Tyr Glu His Asp

2090 2095 2100

Ser Glu Thr Gly Leu Tyr His Cys Gly Gln Arg Tyr Tyr Cys Pro

2105 2110 2115

Trp Leu Gly Arg Trp Thr Ser Pro Asp Pro Leu Gly Asp Val Asp

2120 2125 2130

Gly Pro Asn Leu Phe Val Tyr Val Asn Asn Asp Pro Val Asn Ser

2135 2140 2145

His Asp Pro Ser Gly Thr Ser Gly Lys Lys Thr Lys Glu Gly Thr

2150 2155 2160

Arg Glu Met Tyr Ala Ala Pro Asp Asp Gln Gly Lys Arg Arg Leu

2165 2170 2175

Val Asp Glu Asn Lys Ala Val Ala Asp Arg Ile Ala Lys Tyr Glu

2180 2185 2190

Arg Lys Leu Gln Arg Gln Glu Arg Lys Gln Gln Arg Ala Ile Ala

2195 2200 2205

Arg Met Ser Gly Thr Asp Pro Ile Leu Gly Ser Arg Ala Arg Tyr

2210 2215 2220

Ala Val Gly Ile Ala Ala Met Gly Asn Ala Leu Gly Arg Ile Ser

2225 2230 2235

Gly Ser Thr Glu Leu His His Thr Tyr Pro Gln Glu Tyr Arg Glu

2240 2245 2250

Glu Phe Ser Asp Ile Asp Ile Asn Val Asp Arg Thr Ser Val Ser

2255 2260 2265

Ile Ser Lys Glu Ala His Tyr Ile Cys Thr Tyr Gly Ser Ile Leu

2270 2275 2280

Asp Asn Leu Val Ala Thr Asn Lys Arg Trp Lys Ser Glu Tyr Phe

2285 2290 2295

Asp Thr Pro Asp Thr Gly Tyr Tyr Glu Gln Met Glu Gln His Glu

2300 2305 2310

Trp Tyr Asp Asp Asp Pro Gly Met Gln Tyr Ala Ile Arg Leu His

2315 2320 2325

Leu Ala Tyr Glu Ala Arg Thr Leu Asn Gly Lys Ile Met Ala Asp

2330 2335 2340

Phe Gly Ile Asn Pro Lys Gly Glu Asp Gly Arg Ser Met Phe Val

2345 2350 2355

Asn Tyr Asp Ala Val Thr Lys Met Arg Thr Ala Gly Gln Arg Arg

2360 2365 2370

Gly Val Arg Asn Asp Asn Leu Ile His His Glu Thr Trp Pro Gly

2375 2380 2385

Arg Pro Phe Asn Thr Gly Asn Ser Asp Thr Asp Asn Ala Gly Gly

2390 2395 2400

Pro Val His Phe Gln Val Ala Glu Glu Gln Tyr Asn Gly Leu Asp

2405 2410 2415

Ala Asp Ala Gln Ala Lys Phe Asp Asp Leu Arg Asn Gln Met Glu

2420 2425 2430

Ala Leu Leu Gly Lys Arg

2435

<210>5

<211>7440

<212>DNA

<213>人工序列

<220>

<223>编码玉蜀黍赤霉融合的B类/C类蛋白质的大肠杆菌偏倚的DNA序列

<400>5

tctagaaaga aggagatata ccatgtctac cctgtcctct cgcccgggcg acccgcgtgc 60

gctccattcc ggccagaata acggtgcgcc agaaactctg accaacagca aatctaacgc 120

gaccctgtct ggtaaccgta ccactgcgcc ggcatctgct agctccttcg caccgcaggt 180

tcgtaccctg ggtgaaggta tcccaggctt ccgtacttct ttcaacgtag ctggtaaagg 240

tggcggtgcg tttcgctcta tttctgaaga cttcgaagtt tccccggcta acggcactat 300

gtctctggcg atcccggtac gcaccagccc gacccgtggt ggctatggtc cggacctgaa 360

actgagctac gatagcggtt ctggtaacgg cccgttcggc tttggttggt ccatgtctat 420

gccgtctatc caccgtaaaa ccactcatgc tattccgcgt tacgttgatg acgaagacga 480

tttcctgatg tctggtggcg acattatcaa acgtctgaac tccgaaggta ttcaggaaac 540

ccgcaacgag agcggcatct gcggtaaatt cctggtaacc acttatcgcc cgcgtgttga 600

ctccggtaac atccgcatcg aacgctgggt acgtcgcgaa gatctggaag atgtgcattg 660

gcgtactatc agctcctcta acgaaactaa aatctacggc gactccgatt cttcccgcat 720

cttcgatgct tccggtccgt ctaaacgtat cttttcctgg ctgctcagcc gctcttacga 780

cgcatccggc aacgcgattg aatacgtgta taaagaggaa gactccctgg gcatcagcga 840

cgcaaccggc gcgatgccag tatgggaaaa gaaccgtgaa caggacgctc gctaccgcga 900

acgttacatc aagcgtgtaa aatatggcaa ccgcaaaccg aaccgtgatc tgactacctg 960

ggaggtgtct gactggccgg aagagtggat gttcgaagtg gtattcgatt acggcgaaca 1020

tgataaaggt tctccgtcca ctgaggaatc ccactcttgg ccggttcgtc aggacgtttt 1080

ctctcagtcc cgtccaggtt tcgaaatccg tacttaccgt ctgtgtcgtc gcgttctgat 1140

gttccaccat ttcccggaac acactcagga gagcgaaacc tttgttttct ctaccgacct 1200

gcaatataac gaaagccgcc agcgtaccgt tctggcaagc ctggtggcga ctggttattc 1260

tagctacaaa gataacaacg atggtaagca gcgttaccgc tctgaaagcc tgccaccgtg 1320

gtcttttgaa tatacctcta gcccggaagc atctgagatc gaactgatgg aagctaaaac 1380

cttcaacctg ctcgaactgc cgacctccga cgcacgtgtg tctgagtggc tggacctgga 1440

tggtgacggc atgccgggcc ttctgacccg ttctgtggat ggcgcactgt actatcagcg 1500

caacctgggt tctatctccg gtgacgatga cccgcagttc tgcggtccgg ttcttctggc 1560

tcagcaaccg tccatgaccg gcggtacttt ccaggatctg gatcgtaacg gcaacctgaa 1620

ctacgtgctg cgtaacgaac acggtcacct ggaaggttac tatgagcgtg gtaactctga 1680

cacctggaag aactatatcg aattcccgga aacctctaac ggtgatatct ggcagtctac 1740

tatcgatatt gacctgaccg gcgatggtca tccggacctg atctgcgcgg cagacgatag 1800

ccaggtgctg atttggcagc aaaacctggg taagaaaggc ctgtctagct accagcgtgt 1860

aatttgcggc catgattggg agtcctgccc acgcctgatc aagaaccagg acgttcagac 1920

ctacgttggc gacatgaccg gcagcggcat gtctgacctg gtagaaatca gcgtaagctc 1980

cgtgcgctat tggccgaacc tgggttacgg tactttcggc gcggcagtag acatgggtaa 2040

cccgccagct ttcgcagcga aagattactt cgaccacagc cgtgtgcgcc tgatggacac 2100

cgacggtagc ggcactatgg atctgctcta cgcactgccg accggcggtg cagctctgta 2160

ctataacctg gctggcaaca gctggtctaa catggtgttc ctgccacacc tgccggcgat 2220

tatcaccccg atgagcatct tcaccctgga cctgattggc aaaggtgctg attgcctgtg 2280

ttgggctgac acttccaccg atggtaaccg tatcatgtat ctggacatca ccggcgaaac 2340

caaaccgcac ttgctgaaat cttatagcaa cggctggggt gctactacct ctgtggatta 2400

cgcgccgtcc accaaattct ttgcagaaga tacccgtaac ggccacccgt ggtctagcaa 2460

actgccgttt ccggtgcagt gcgtatctaa agttcaggtg gaagacgcta tcaccggcaa 2520

ccgtcagagc accgaataca tctatcataa cggttgttac aacccgactg aaaagcagtt 2580

ctctggtttc gaaatggtgg aacagttcca gtccgagcgt gttatcgtag gcgaagatga 2640

aacctacgaa ccgccagtta cccacaccaa aagctggttc aacgttggtc tgagcctggt 2700

agtggacgaa agccgtttcc tgactaaacc ggcgatcctg tcctctctgc aagattacca 2760

cactgacccg gcggaactgg tgaacgcact gaaaggtctg aacgtgcgtt ccgaaattta 2820

ctctcaagat ggctccccga aatctcacct gccgtatgta atcaaggaag tttcttatca 2880

cgttaagatt tcccaggcgc gtgacaccaa caaatattcc gcagttcagg ttctgccacg 2940

tgaaactttt agccgtgcgt acgaacgtga catgtccgac ccgcgtgtga ctcacgatat 3000

ggttattaag accaacgact ttggtgacgt tgaagagtct ctgtctattg tatatccgcg 3060

tgcaggcaaa accactttcg aagatgttaa caagaaccag aaagcgggca acatgtccta 3120

cactcagaac tggtacacca aaatggtgag cgaaccggaa caggagcact ttcgcaaacc 3180

ggcagcgtat cgccaacagg aacacgagat cctgtccttt ccgttcaacg gcactctgaa 3240

gtttgatgac gcactggcgt ttaacttcaa cggtctgccg actaccaaat gttctaaaac 3300

ttggaaagct ctgcgcagcg aaaacaaggc gttctacaaa gatagccttc tgcaacgccg 3360

tctggatgaa ggtgagctgc aaaccttctc cctcctggac cagacttacg cactggcgtt 3420

taccccggac atcctggcta aagtggaaat tggcctgcgt aactgtaacg taccgggttc 3480

tgtggaggaa ctgttgacta aaggtagcta cgtaaagctg aaagacagcg acggctggtg 3540

ggcaccgtct tcccagtctt tcttttgtag ctctaagacc gctagcgcag ctgaggaact 3600

gaaagaagcg cgcaaatcct tttatacccc atcccgtttc gtggacctgt tcggcaactc 3660

cagccgcctg aacatggata aagactttct cctggctact gaagttgagg acgcaatcgg 3720

caccgcaacc tctttcaaaa actcctatga acacctgcaa ccagtggaga ttatcgacgc 3780

gaactctaac agcgttcagg tagttctgga cccactgggc gaatccattg cggtggcggc 3840

ttccactcgt cgcgacggtg ttatcgagga aattgactcc ctggaaaaca tggtgctgga 3900

tgcgtctccg gaagacgttg atgacatcct gcgtgatccg accggcgaag tgagcacccg 3960

ccttctgggt aacgcggctt ctcgtaccat tcattaccgt gatcgctacg ctcagtggaa 4020

gtctcgccag aacgaaacct ctaccagcgt tgatccggaa ccggctctgt ctctggttct 4080

gtcccgtgac ctgtccttca aggaatcctc tagcccggag atccgtgtta ttgtgagcta 4140

catgaacggc ctgggtagcc agtatcaaga gcagcatctg tccgatccga ccactctgga 4200

gaaacgttgg ctggttccgg gcctggcaat cccagataca cagggccagg tggtatgcac 4260

ctaccagccg cgtttcgcta ccctggctgc gccgattcca tcctctctga tgaaaactaa 4320

cgcggcattc accttctacg atgcgatggg ccgtaacgtg gcaagcttgg ctgcggattg 4380

tacctggtcc aaaaccgttt atactccgtg gaccactgtt gaacacggtg ctggtagcat 4440

ggttctgcaa tccaacgctc gtgatgaccc ggatgttggt cacttctttt cccgcatcgc 4500

gtcttcccgc tactcccaga gctggtacga taagcgtaaa ctgggtactg ctcaggaaaa 4560

acgcgcagct gagaaatccg cggtttattc cgatactccg ctgaccactc actccggttc 4620

ttgcggcctg ccggttcgca ccatccagca agcaggcggt aaaacctaca cccgcagctc 4680

tatgtatgat gtgtctggca accgtatccg cgacgttgac tcctacgaac gtaccgttga 4740

aaaaatgctg tacgacaaac tgggtcgtca gctgcagact accggtatgg attgtggcga 4800

atcctggctc ctgcttgacg cacagggtgg cgagatcctg agctggaact gtcgcggtta 4860

ctctttcatt actcgttacg acccgctgcg tcgcgaaacc gaacgcctgg ttgcgaaagc 4920

ggctgaaatg ccgaaactga tcagccgtat cacttacggc gaaacctgcg gtgacgcaat 4980

caacctgaac ctgaacggtc aggtatggaa agttgaggat caggcaggcg ttcacattaa 5040

cactcactat aacattcgtg gtcactgcct gggtaagacc ctgcaattca ccaaagaata 5100

taaacagctg gttgattgga aactggatca gaccctggaa actgaggttt atccgcatac 5160

ctatttctac gataactatg gccaggttct gcaagaggaa gacgaacagg gcaaccgtac 5220

ccgccgtaac tactcccgtc agggtcacgt ggtttctgta gacttctcta gcattaaagg 5280

ccgtgactgg aaatcttacc tgtctggtgc taccttctct gcggacggcc tgccgattac 5340

tatcaaatac ggcaacggtg tggtttccga ctttttctac gatgacgaaa gccgtaacct 5400

gattagccaa cgcaccactc gtccgtgccg tggtcgtcgc gaactgctcc aagatcgtac 5460

ccatgtttac gactatgttg gtcgtcgcat ttttacttcc gacggttccg aacaggtaaa 5520

atatttcggt gagagccgtg ttaagccgga atgggactac acttacaacg cgactggcgc 5580

actggtaatc gcaaccggcc gtgcgcagct gtctggcaaa atcggtaacg gcaaccagct 5640

gaccccgcat aacgctatga acggcctgaa cccgtctcgc ggtggcggtg acggtaactt 5700

gctgtatcag tatcgcgaaa cttacgacta cgatcgtgag ggtaacattc tgatgatgaa 5760

acacgaagcg ccggacatca aaggcgttac cagctggacc cgtaactacc actacgatga 5820

aaagagcctg ttatccgacg atccacgtgt gaaatccaac cgtctgtctc gcacctccat 5880

cggcgatacc aacgaaggca aatacatgta cgaaggctct gctggcctgt ccggttgcat 5940

caccactctg ccaaagttct ccgaactgga ttggaacatg aacaacatgc tgagcttttc 6000

ttccactcag tacgtaaacg cgggcacccc ggaacgtacc tactatgtgt acgaccacgc 6060

tggtaaccgc gttcgtaaag ttaccgagac tgcggctaaa tctggtgagg aaccgcgtaa 6120

acagcgtgat accctgttct ttggtggcgt ggaactgcaa accaaatcca acggctctct 6180

tctgtggact acccgtgtta aaggtgatgg tatcgtggct gtagttgaag tgaaccgtaa 6240

ccaggaaacc ccgctggtac gcttccaggc tggtcgtgac atggaatttg acgatcaggc 6300

gcagctgatc agctacgagg aatattctcc gttcggtgct gtggtttacg ctgcgatgta 6360

cggcaacatt gaggcaccac gcgcttaccg tttcgcacgt tacgaacacg attctgaaac 6420

cggcctgtat cactgtggcc agcgttatta ctgcccgtgg ctgggtcgtt ggacctcccc 6480

agatccgctg ggtgacgtgg atggtccaaa cctgttcgta tacgtgaaca acgatccagt 6540

taactcccac gacccgtctg gtacttccgg caagaaaacc aaggaaggta ctcgcgaaat 6600

gtacgcagcg ccagatgacc agggcaaacg ccgtctggtt gacgagaaca aagctgttgc 6660

tgatcgcatc gcaaagtacg aacgcaaact gcaacgtcag gaacgtaaac aacagcgtgc 6720

gatcgcgcgt atgagcggca ccgacccgat cctgggttct cgtgcacgtt atgcggtagg 6780

cattgcggct atgggcaacg cgctgggtcg tatctctggt tccaccgaac tgcatcacac 6840

ctacccgcag gaatatcgtg aagagttctc tgacatcgac attaacgttg accgtacctc 6900

tgtgagcatt tccaaagagg cgcactatat ctgcacttac ggtagcatcc tggacaacct 6960

ggtagcaacc aacaaacgct ggaaatctga atactttgac actccagaca ctggttatta 7020

cgaacagatg gagcagcatg agtggtacga cgatgaccca ggcatgcagt acgcgatccg 7080

tctgcacctg gcatacgaag cgcgtactct gaacggtaaa atcatggcgg atttcggcat 7140

caacccgaaa ggcgaagacg gtcgttccat gtttgttaac tatgatgcgg taaccaaaat 7200

gcgtaccgct ggtcagcgtc gcggcgtacg taacgacaac ctgatccatc acgaaacctg 7260

gccgggtcgt ccgtttaaca ccggcaacag cgataccgat aacgcgggtg gcccggttca 7320

cttccaggtt gcagaggaac agtacaacgg cctggatgct gacgcgcagg cgaaattcga 7380

tgacctgcgc aaccaaatgg aggcgctcct aggcaaacgc taataattaa tgctctcgag 7440

<210>6

<211>2528

<212>PRT

<213>人工序列

<220>

<223>从TcaC(GenBank检索号AAC38625.1)和TccC1(GenBank

检索号AAL18473.1)(都来自发光光杆状菌(Photorhabdus luminescens)菌株W-14)的氨基酸序列产生的融合蛋白的实例。

<400>6

Met Gln Asp Ser Pro Glu Val Ser Ile Thr Thr Leu Ser Leu Pro Lys

1 5 10 15

Gly Gly Gly Ala Ile Asn Gly Met Gly Glu Ala Leu Ash Ala Ala Gly

20 25 30

Pro Asp Gly Met Ala Ser Leu Ser Leu Pro Leu Pro Leu Ser Thr Gly

35 40 45

Arg Gly Thr Ala Pro Gly Leu Ser Leu Ile Tyr Ser Asn Ser Ala Gly

50 55 60

Asn Gly Pro Phe Gly Ile Gly Trp Gln Cys Gly Val Met Ser Ile Ser

65 70 75 80

Arg Arg Thr Gln His Gly Ile Pro Gln Tyr Gly Asn Asp Asp Thr Phe

85 90 95

Leu Ser Pro Gln Gly Glu Val Met Asn Ile Ala Leu Asn Asp Gln Gly

100 105 110

Gln Pro Asp Ile Arg Gln Asp Val Lys Thr Leu Gln Gly Val Thr Leu

115 120 125

Pro Ile Ser Tyr Thr Val Thr Arg Tyr Gln Ala Arg Gln Ile Leu Asp

130 135 140

Phe Ser Lys Ile Glu Tyr Trp Gln Pro Ala Ser Gly Gln Glu Gly Arg

145 150 155 160

Ala Phe Trp Leu Ile Ser Ser Pro Asp Gly Gln Leu His Ile Leu Gly

165 170 175

Lys Thr Ala Gln Ala Cys Leu Ala Asn Pro Gln Asn Asp Gln Gln Ile

180 185 190

Ala Gln Trp Leu Leu Glu Glu Thr Val Thr Pro Ala Gly Glu His Val

195 200 205

Ser Tyr Gln Tyr Arg Ala Glu Asp Glu Ala His Cys Asp Asp Asn Glu

210 215 220

Lys Thr Ala His Pro Asn Val Thr Ala Gln Arg Tyr Leu Val Gln Val

225 230 235 240

Asn Tyr Gly Asn Ile Lys Pro Gln Ala Ser Leu Phe Val Leu Asp Asn

245 250 255

Ala Pro Pro Ala Pro Glu Glu Trp Leu Phe His Leu Val Phe Asp His

260 265 270

Gly Glu Arg Asp Thr Ser Leu His Thr Val Pro Thr Trp Asp Ala Gly

275 280 285

Thr Ala Gln Trp Ser Val Arg Pro Asp Ile Phe Ser Arg Tyr Glu Tyr

290 295 300

Gly Phe Glu Val Arg Thr Arg Arg Leu Cys Gln Gln Val Leu Met Phe

305 310 315 320

His Arg Thr Ala Leu Met Ala Gly Glu Ala Ser Thr Asn Asp Ala Pro

325 330 335

Glu Leu Val Gly Arg Leu Ile Leu Glu Tyr Asp Lys Asn Ala Ser Val

340 345 350

Thr Thr Leu Ile Thr Ile Arg Gln Leu Ser His Glu Ser Asp Gly Ser

355 360 365

Pro Val Thr Gln Pro Pro Leu Glu Leu Ala Trp Gln Arg Phe Asp Leu

370 375 380

Glu Lys Met Pro Thr Trp Gln Arg Phe Asp Ala Leu Asp Asn Phe Asn

385 390 395 400

Ser Gln Gln Arg Tyr Gln Leu Val Asp Leu Arg Gly Glu Gly Leu Pro

405 410 415

Gly Met Leu Tyr Gln Asp Arg Gly Ala Trp Trp Tyr Lys Ala Pro Gln

420 425 430

Arg Gln Glu Asp Gly Asp Ser Asn Ala Val Thr Tyr Asp Lys Ile Ala

435 440 445

Pro Leu Pro Thr Leu Pro Asn Leu Gln Asp Asn Ala Ser Leu Met Asp

450 455 460

Ile Asn Gly Asp Gly Gln Leu Asp Trp Val Val Thr Ala Ser Gly Ile

465 470 475 480

Arg Gly Tyr His Ser Gln Gln Pro Asp Gly Lys Trp Thr His Phe Thr

485 490 495

Pro Ile Asn Ala Leu Pro Val Glu Tyr Phe His Pro Ser Ile Gln Phe

500 505 510

Ala Asp Leu Thr Gly Ala Gly Leu Ser Asp Leu Val Leu Ile Gly Pro

515 520 525

Lys Ser Val Arg Leu Tyr Ala Asn Gln Arg Asn Gly Trp Arg Lys Gly

530 535 540

Glu Asp Val Pro Gln Ser Thr Gly Ile Thr Leu Pro Val Thr Gly Thr

545 550 555 560

Asp Ala Arg Lys Leu Val Ala Phe Ser Asp Met Leu Gly Ser Gly Gln

565 570 575

Gln His Leu Val Glu Ile Lys Ala Asn Arg Val Thr Cys Trp Pro Asn

580 585 590

Leu Gly His Gly Arg Phe Gly Gln Pro Leu Thr Leu Ser Gly Phe Ser

595 600 605

Gln Pro Glu Asn Ser Phe Asn Pro Glu Arg Leu Phe Leu Ala Asp Ile

610 615 620

Asp Gly Ser Gly Thr Thr Asp Leu Ile Tyr Ala Gln Ser Gly Ser Leu

625 630 635 640

Leu Ile Tyr Leu Asn Gln Ser Gly Asn Gln Phe Asp Ala Pro Leu Thr

645 650 655

Leu Ala Leu Pro Glu Gly Val Gln Phe Asp Asn Thr Cys Gln Leu Gln

660 665 670

Val Ala Asp Ile Gln Gly Leu Gly Ile Ala Ser Leu Ile Leu Thr Val

675 680 685

Pro His Ile Ala Pro His His Trp Arg Cys Asp Leu Ser Leu Thr Lys

690 695 700

Pro Trp Leu Leu Asn Val Met Asn Asn Asn Arg Gly Ala His His Thr

705 710 715 720

Leu His Tyr Arg Ser Ser Ala Gln Phe Trp Leu Asp Glu Lys Leu Gln

725 730 735

Leu Thr Lys Ala Gly Lys Ser Pro Ala Cys Tyr Leu Pro Phe Pro Met

740 745 750

His Leu Leu Trp Tyr Thr Glu Ile Gln Asp Glu Ile Ser Gly Asn Arg

755 760 765

Leu Thr Ser Glu Val Asn Tyr Ser His Gly Val Trp Asp Gly Lys Glu

770 775 780

Arg Glu Phe Arg Gly Phe Gly Cys Ile Lys Gln Thr Asp Thr Thr Thr

785 790 795 800

Phe Ser His Gly Thr Ala Pro Glu Gln Ala Ala Pro Ser Leu Ser Ile

805 810 815

Ser Trp Phe Ala Thr Gly Met Asp Glu Val Asp Ser Gln Leu Ala Thr

820 825 830

Glu Tyr Trp Gln Ala Asp Thr Gln Ala Tyr Ser Gly Phe Glu Thr Arg

835 840 845

Tyr Thr Val Trp Asp His Thr Asn Gln Thr Asp Gln Ala Phe Thr Pro

850 855 860

Asn Glu Thr Gln Arg Asn Trp Leu Thr Arg Ala Leu Lys Gly Gln Leu

865 870 875 880

Leu Arg Thr Glu Leu Tyr Gly Leu Asp Gly Thr Asp Lys Gln Thr Val

885 890 895

Pro Tyr Thr Val Ser Glu Ser Arg Tyr Gln Val Arg Ser Ile Pro Val

900 905 910

Asn Lys Glu Thr Glu Leu Ser Ala Trp Val Thr Ala Ile Glu Asn Arg

915 920 925

Ser Tyr His Tyr Glu Arg Ile Ile Thr Asp Pro Gln Phe Ser Gln Ser

930 935 940

Ile Lys Leu Gln His Asp Ile Phe Gly Gln Ser Leu Gln Ser Val Asp

945 950 955 960

Ile Ala Trp Pro Arg Arg Glu Lys Pro Ala Val Asn Pro Tyr Pro Pro

965 970 975

Thr Leu Pro Glu Thr Leu Phe Asp Ser Ser Tyr Asp Asp Gln Gln Gln

980 985 990

Leu Leu Arg Leu Val Arg Gln Lys Asn Ser Trp His His Leu Thr Asp

995 1000 1005

Gly Glu Asn Trp Arg Leu Gly Leu Pro Asn Ala Gln Arg Arg Asp

1010 1015 1020

Val Tyr Thr Tyr Asp Arg Ser Lys Ile Pro Thr Glu Gly Ile Ser

1025 1030 1035

Leu Glu Ile Leu Leu Lys Asp Asp Gly Leu Leu Ala Asp Glu Lys

1040 1045 1050

Ala Ala Val Tyr Leu Gly Gln Gln Gln Thr Phe Tyr Thr Ala Gly

1055 1060 1065

Gln Ala Glu Val Thr Leu Glu Lys Pro Thr Leu Gln Ala Leu Val

1070 1075 1080

Ala Phe Gln Glu Thr Ala Met Met Asp Asp Thr Ser Leu Gln Ala

1085 1090 1095

Tyr Glu Gly Val Ile Glu Glu Gln Glu Leu Asn Thr Ala Leu Thr

1100 1105 1110

Gln Ala Gly Tyr Gln Gln Val Ala Arg Leu Phe Asn Thr Arg Ser

1115 1120 1125

Glu Ser Pro Val Trp Ala Ala Arg Gln Gly Tyr Thr Asp Tyr Gly

1130 1135 1140

Asp Ala Ala Gln Phe Trp Arg Pro Gln Ala Gln Arg Asn Ser Leu

1145 1150 1155

Leu Thr Gly Lys Thr Thr Leu Thr Trp Asp Thr His His Cys Val

1160 1165 1170

Ile Ile Gln Thr Gln Asp Ala Ala Gly Leu Thr Thr Gln Ala His

1175 1180 1185

Tyr Asp Tyr Arg Phe Leu Thr Pro Val Gln Leu Thr Asp Ile Asn

1190 1195 1200

Asp Asn Gln His Ile Val Thr Leu Asp Ala Leu Gly Arg Val Thr

1205 1210 1215

Thr Ser Arg Phe Trp Gly Thr Glu Ala Gly Gln Ala Ala Gly Tyr

1220 1225 1230

Ser Asn Gln Pro Phe Thr Pro Pro Asp Ser Val Asp Lys Ala Leu

1235 1240 1245

Ala Leu Thr Gly Ala Leu Pro Val Ala Gln Cys Leu Val Tyr Ala

1250 1255 1260

Val Asp Ser Trp Met Pro Ser Leu Ser Leu Ser Gln Leu Ser Gln

1265 1270 1275

Ser Gln Glu Glu Ala Glu Ala Leu Trp Ala Gln Leu Arg Ala Ala

1280 1285 1290

His Met Ile Thr Glu Asp Gly Lys Val Cys Ala Leu Ser Gly Lys

1295 1300 1305

Arg Gly Thr Ser His Gln Asn Leu Thr Ile Gln Leu Ile Ser Leu

1310 1315 1320

Leu Ala Ser Ile Pro Arg Leu Pro Pro His Val Leu Gly Ile Thr

1325 1330 1335

Thr Asp Arg Tyr Asp Ser Asp Pro Gln Gln Gln His Gln Gln Thr

1340 1345 1350

Val Ser Phe Ser Asp Gly Phe Gly Arg Leu Leu Gln Ser Ser Ala

1355 1360 1365

Arg His Glu Ser Gly Asp Ala Trp Gln Arg Lys Glu Asp Gly Gly

1370 1375 1380

Leu Val Val Asp Ala Asn Gly Val Leu Val Ser Ala Pro Thr Asp

1385 1390 1395

Thr Arg Trp Ala Val Ser Gly Arg Thr Glu Tyr Asp Asp Lys Gly

1400 1405 1410

Gln Pro Val Arg Thr Tyr Gln Pro Tyr Phe Leu Asn Asp Trp Arg

1415 1420 1425

Tyr Val Ser Asp Asp Ser Ala Arg Asp Asp Leu Phe Ala Asp Thr

1430 1435 1440

His Leu Tyr Asp Pro Leu Gly Arg Glu Tyr Lys Val Ile Thr Ala

1445 1450 1455

Lys Lys Tyr Leu Arg Glu Lys Leu Tyr Thr Pro Trp Phe Ile Val

1460 1465 1470

Ser Glu Asp Glu Asn Asp Thr Ala Ser Arg Thr Pro Met Ser Pro

1475 1480 1485

Ser Glu Thr Thr Leu Tyr Thr Gln Thr Pro Thr Val Ser Val Leu

1490 1495 1500

Asp Asn Arg Gly Leu Ser Ile Arg Asp Ile Gly Phe His Arg Ile

1505 1510 1515

Val Ile Gly Gly Asp Thr Asp Thr Arg Val Thr Arg His Gln Tyr

1520 1525 1530

Asp Ala Arg Gly His Leu Asn Tyr Ser Ile Asp Pro Arg Leu Tyr

1535 1540 1545

Asp Ala Lys Gln Ala Asp Asn Ser Val Lys Pro Asn Phe Val Trp

1550 1555 1560

Gln His Asp Leu Ala Gly His Ala Leu Arg Thr Glu Ser Val Asp

1565 1570 1575

Ala Gly Arg Thr Val Ala Leu Asn Asp Ile Glu Gly Arg Ser Val

1580 1585 1590

Met Thr Met Asn Ala Thr Gly Val Arg Gln Thr Arg Arg Tyr Glu

1595 1600 1605

Gly Asn Thr Leu Pro Gly Arg Leu Leu Ser Val Ser Glu Gln Val

1610 1615 1620

Phe Asn Gln Glu Ser Ala Lys Val Thr Glu Arg Phe Ile Trp Ala

1625 1630 1635

Gly Asn Thr Thr Ser Glu Lys Glu Tyr Asn Leu Ser Gly Leu Cys

1640 1645 1650

Ile Arg His Tyr Asp Thr Ala Gly Val Thr Arg Leu Met Ser Gln

1655 1660 1665

Ser Leu Ala Gly Ala Met Leu Ser Gln Ser His Gln Leu Leu Ala

1670 1675 1680

Glu Gly Gln Glu Ala Asn Trp Ser Gly Asp Asp Glu Thr Val Trp

1685 1690 1695

Gln Gly Met Leu Ala Ser Glu Val Tyr Thr Thr Gln Ser Thr Thr

1700 1705 1710

Asn Ala Ile Gly Ala Leu Leu Thr Gln Thr Asp Ala Lys Gly Asn

1715 1720 1725

Ile Gln Arg Leu Ala Tyr Asp Ile Ala Gly Gln Leu Lys Gly Ser

1730 1735 1740

Trp Leu Thr Val Lys Gly Gln Ser Glu Gln Val Ile Val Lys Ser

1745 1750 1755

Leu Ser Trp Ser Ala Ala Gly His Lys Leu Arg Glu Glu His Gly

1760 1765 1770

Asn Gly Val Val Thr Glu Tyr Ser Tyr Glu Pro Glu Thr Gln Arg

1775 1780 1785

Leu Ile Gly Ile Thr Thr Arg Arg Ala Glu Gly Ser Gln Ser Gly

1790 1795 1800

Ala Arg Val Leu Gln Asp Leu Arg Tyr Lys Tyr Asp Pro Val Gly

1805 1810 1815

Asn Val Ile Ser Ile His Asn Asp Ala Glu Ala Thr Arg Phe Trp

1820 1825 1830

Arg Asn Gln Lys Val Glu Pro Glu Asn Arg Tyr Val Tyr Asp Ser

1835 1840 1845

Leu Tyr Gln Leu Met Ser Ala Thr Gly Arg Glu Met Ala Asn Ile

1850 1855 1860

Gly Gln Gln Ser Asn Gln Leu Pro Ser Pro Val Ile Pro Val Pro

1865 1870 1875

Thr Asp Asp Ser Thr Tyr Thr Asn Tyr Leu Arg Thr Tyr Thr Tyr

1880 1885 1890

Asp Arg Gly Gly Asn Leu Val Gln Ile Arg His Ser Ser Pro Ala

1895 1900 1905

Thr Gln Asn Ser Tyr Thr Thr Asp Ile Thr Val Ser Ser Arg Ser

1910 1915 1920

Asn Arg Ala Val Leu Ser Thr Leu Thr Thr Asp Pro Thr Arg Val

1925 1930 1935

Asp Ala Leu Phe Asp Ser Gly Gly His Gln Lys Met Leu Ile Pro

1940 1945 1950

Gly Gln Asn Leu Asp Trp Asn Ile Arg Gly Glu Leu Gln Arg Val

1955 1960 1965

Thr Pro Val Ser Arg Glu Asn Ser Ser Asp Ser Glu Trp Tyr Arg

1970 1975 1980

Tyr Ser Ser Asp Gly Met Arg Leu Leu Lys Val Ser Glu Gln Gln

1985 1990 1995

Thr Gly Asn Ser Thr Gln Val Gln Arg Val Thr Tyr Leu Pro Gly

2000 2005 2010

Leu Glu Leu Arg Thr Thr Gly Val Ala Asp Lys Thr Thr Glu Asp

2015 2020 2025

Leu Gln Val Ile Thr Val Gly Glu Ala Gly Arg Ala Gln Val Arg

2030 2035 2040

Val Leu His Trp Glu Ser Gly Lys Pro Thr Asp Ile Asp Asn Asn

2045 2050 2055

Gln Val Arg Tyr Ser Tyr Asp Asn Leu Leu Gly Ser Ser Gln Leu

2060 2065 2070

Glu Leu Asp Ser Glu Gly Gln Ile Leu Ser Gln Glu Glu Tyr Tyr

2075 2080 2085

Pro Tyr Gly Gly Thr Ala Ile Trp Ala Ala Arg Asn Gln Thr Glu

2090 2095 2100

Ala Ser Tyr Lys Phe Ile Arg Tyr Ser Gly Lys Glu Arg Asp Ala

2105 2110 2115

Thr Gly Leu Tyr Tyr Tyr Gly Tyr Arg Tyr Tyr Gln Pro Trp Val

2120 2125 2130

Gly Arg Trp Leu Ser Ala Asp Pro Ala Gly Thr Val Asp Gly Leu

2135 2140 2145

Asn Leu Tyr Arg Met Val Arg Asn Asn Pro Ile Thr Leu Thr Asp

2150 2155 2160

His Asp Gly Leu Ala Pro Ser Pro Asn Arg Asn Arg Asn Thr Phe

2165 2170 2175

Trp Phe Ala Ser Phe Leu Phe Arg Lys Pro Asp Glu Gly Met Ser

2180 2185 2190

Ala Ser Met Arg Arg Gly Gln Lys Ile Gly Arg Ala Ile Ala Gly

2195 2200 2205

Gly Ile Ala Ile Gly Gly Leu Ala Ala Thr Ile Ala Ala Thr Ala

2210 2215 2220

Gly Ala Ala Ile Pro Val Ile Leu Gly Val Ala Ala Val Gly Ala

2225 2230 2235

Gly Ile Gly Ala Leu Met Gly Tyr Asn Val Gly Ser Leu Leu Glu

2240 2245 2250

Lys Gly Gly Ala Leu Leu Ala Arg Leu Val Gln Gly Lys Ser Thr

2255 2260 2265

Leu Val Gln Ser Ala Ala Gly Ala Ala Ala Gly Ala Ser Ser Ala

2270 2275 2280

Ala Ala Tyr Gly Ala Arg Ala Gln Gly Val Gly Val Ala Ser Ala

2285 2290 2295

Ala Gly Ala Val Thr Gly Ala Val Gly Ser Trp Ile Asn Asn Ala

2300 2305 2310

Asp Arg Gly Ile Gly Gly Ala Ile Gly Ala Gly Ser Ala Val Gly

2315 2320 2325

Thr Ile Asp Thr Met Leu Gly Thr Ala Ser Thr Leu Thr His Glu

2330 2335 2340

Val Gly Ala Ala Ala Gly Gly Ala Ala Gly Gly Met Ile Thr Gly

2345 2350 2355

Thr Gln Gly Ser Thr Arg Ala Gly Ile His Ala Gly Ile Gly Thr

2360 2365 2370

Tyr Tyr Gly Ser Trp Ile Gly Phe Gly Leu Asp Val Ala Ser Asn

2375 2380 2385

Pro Ala Gly His Leu Ala Asn Tyr Ala Val Gly Tyr Ala Ala Gly

2390 2395 2400

Leu Gly Ala Glu Met Ala Val Asn Arg Ile Met Gly Gly Gly Phe

2405 2410 2415

Leu Ser Arg Leu Leu Gly Arg Val Val Ser Pro Tyr Ala Ala Gly

2420 2425 2430

Leu Ala Arg Gln Leu Val His Phe Ser Val Ala Arg Pro Val Phe

2435 2440 2445

Glu Pro Ile Phe Ser Val Leu Gly Gly Leu Val Gly Gly Ile Gly

2450 2455 2460

Thr Gly Leu His Arg Val Met Gly Arg Glu Ser Trp Ile Ser Arg

2465 2470 2475

Ala Leu Ser Ala Ala Gly Ser Gly Ile Asp His Val Ala Gly Met

2480 2485 2490

Ile Gly Asn Gln Ile Arg Gly Arg Val Leu Thr Thr Thr Gly Ile

2495 2500 2505

Ala Asn Ala Ile Asp Tyr Gly Thr Ser Ala Val Gly Ala Ala Arg

2510 2515 2520

Arg Val Phe Ser Leu

2525

<210>7

<211>6654

<212>DNA

<213>噬乙酸甲烷八叠球菌(Methanosarcina acetivorans)

<400>7

atgtttttca tggtactaca ggttccgatc cataccagaa gactgctttc aatttttatg 60

attattgtat tgctcacacc gaatgtatat tgtcttgaaa acacagaggc aagccaggac 120

gtaaattccg agggttcaca agttgattcc gagtcatacg aggaaaataa taaaaacata 180

gtagaatctg aggaagaaac gagtgaaaca atttccgatc ttgatagtga aagtgtggac 240

gatgatacag aaactgtttc tgaagatact atgttaactg caactacagt ttccgaagat 300

gaggagcctt taagggatgc aaaagcgtat cttagtccta ccctggaaaa tgaaaacaat 360

tactttgaca caagcctgtt tacaggttct tttgtttatt cttatccgat tgaaacttta 420

aaaggaagaa ctggattaga gccggaggtt tctctaacct attccagtgc tacaggctca 480

aaaggaacat acggttcact ggggattggg tggtcattga atgagaactg cattatcagg 540

gataccagat atacccctga aaacacaaat gatgatagat ttattcttgt tttggacggc 600

tcaacatata aactcgtcta tgtggaaagt gacaactcat atcacaccga aactgaaagt 660

tttatgaaaa ttgaaaagag tgcaaccagt agcaattctt tcggggacta ctggaccctc 720

aacatgccgg acgggacaaa atatcgtttt ggttataata ttgattccga acaaagaaac 780

tccgttgaat caagaaatta tgtcagtaaa tggtggctcg atcttataga ggacgtcaat 840

ggcaacaaga ttaaatatac gtatcttgaa aatccggtaa gtggcgaggt cggaagcaca 900

tatcctgaca gcataaccta caacgacaat catgcagtta ttgattttga gttcacggaa 960

aaaccacgtg tattcactat ttatgaatat ggtaacaaaa ttatcgaaaa aaacttgatc 1020

tccagtatta ctgttcgtaa cgatgaaacc gttctctgga aatatgatct tgattatgaa 1080

acccaacagt taaaattaca tctgaaatcc attacaaaaa caggattaaa caatgaagag 1140

ttcccaccta ctgtttttga atatgactca ataaccgaag ggtggcagga aagtagttcc 1200

tggaccccac caacttccat gtcaggagac aagggaagaa gaattgcaga tgttaatggc 1260

gacggattag atgacatcct taaaggatat gtagatagtg acggggatgt ttattgctca 1320

acctggataa ataccggaga tgactgggaa ctgaacagtt cctggacaac accaacatat 1380

ttcaggcatt ataatcatga tgggggagct cgccttgcag atgtcaacgg ggacggatta 1440

gttgacatta tccagcacgg attttacatt tcctctgcct ggttgaatac cggtaccggt 1500

tgggaacaaa acaactcatg gatacctcca ctggattttg gctggtcaag tgattatggt 1560

gtaagagttt tagatgtcaa cggggacgga ttagttgaca taattaaggg ttacaaaaac 1620

gatcgtggaa ctatatacta tgatgcttat ctcaataccg gtgaaggctg gatacaggat 1680

aattcatgga acccgcctac ttacttctca tacgataata ttgatacagg cgtacgactc 1740

acggacctta acggagacga cctggtcgat atctttaaac tacgctcttc atggttaaac 1800

accggcagtg gatgggaaca ggataactcc tgggcgcccc caatatctct cgactcagat 1860

cagggtgtag tcttagtgga tgttaacgga gacggtttga ctgacattct taagagttat 1920

tataacgatg ccgggtacac ttacgatgcc tggataagca ctggcaatgg ctgggaaaac 1980

gataactcat ggaatccgcc aacgttgatc gcaagctacg gcaaagacca gggtgtacgg 2040

tttgctgatt tgaatggaga cggtttgaca gacattatca aagcaggcta tagcgattac 2100

tgtgcctgga caaacacgaa cactgagagt acagaaaatt acaaaactca gggcctgctc 2160

aaaaaaatac agcactcaac cggtggaagc acgaccataa aatatgaacc ttctacgctc 2220

ttcgataaca ccggggaaga cggcgtttcg gatttgacca tgagtatgtg ggtcacaagc 2280

agtgtgacag gagataatgg tattacaggc acgggaagcg tagtttcaac aacagattac 2340

acctataaaa acggaatgca gtacttcgac ccaccggaag aaatcgaatt cagaggattt 2400

ggtgaagtta ctgttgaaaa cgagtattcg atagtaaagc actttttcca ccaggacaac 2460

gtcctcaagg gcatcgaaca ccatactgaa gtctgggaca aaaacggaaa cctttacagt 2520

tcctcggaca cggaatatac tgctcaggaa atataccctg atgtcaacct gattttgctg 2580

gactcggagt ccaaaacaag gttcgacggg ctggtacaga acccgaccag ttcagccggc 2640

tggtcatatc tcaccgaata taacgaatat gacgattacg ggaacccgct ttccataaca 2700

gatcacggcg atgtgaacaa tgccggggat gaaaaatatt accattttgg atatgccaat 2760

gcagaaaatc cgtggatcct cggaaaaaaa acacatgaat gggtggaaga ctccgatcat 2820

gtaaagaaga gcgaatcatg gtactattat gacgaaacaa atgacaacag tgccattagc 2880

aaagggcagc tcactaaaac agtattatgg aacaatatgg gagataatcc caatgttctg 2940

tacgattacg ataactatgg aaatataatc cggattacaa atccggaagg ggcttcaaag 3000

aacataggat atgatgaaaa ccatttatac cccgtttaca tcgaaaacgc ctttggtcaa 3060

aaagagtgtt atgaattcaa cgaccttggc aggataacga aaataacaga cagtaacgac 3120

atttctatag cgtatatcta tgatgacctg cacagaataa caaaagtact gaaagtcaat 3180

gacacacttg attctccatc tattgagtat acgtactatc aggatggagt agcgcctgaa 3240

aaaattttaa ccacaacaaa agaatgtggt agtgaagaga acaattacgt cattaatggt 3300

tctgtattca gcaattataa acgtatcaca atttcaccat catcagacgg aaccctgact 3360

gattaccagg tgaagctgga tattaactat gaatcagaga tgcaatccga ttttgatgat 3420

cttcgttttg ttgatgaaaa tggcattcta cttccatatt ggatcgaaga aaaggttgat 3480

tccagttatg caaaagtctg ggtaaaggtt cctgtaatcg atggaattga tggtgctact 3540

atcaaaatgt attatgataa ctcatatgtt tcatcagcag agaatggcga tgatgttttt 3600

gaattctttg atgatttcga aagcggtgta atagacaatg ctaaatggaa tgaagttggc 3660

tcgccgacaa ttgttgatga caatggagac aaagtgctga aggtgacacc aagcaacgag 3720

gtaaatacat ttaataagtt ttccggtaca gagtacatcg ttggggggtt gatgaagttt 3780

tcatcattcg gcgactacgg accacgcatg acacttgatg tcagaaggca aaatgaccaa 3840

acgatacttg cgacatgtcg tatagaatcg tatgcggatg ggacaggagg aacaggcacg 3900

tcaatacgat attatccggg ttcaggaagt ttcattacag ttgcacaagc tcggccatcg 3960

tggtctaccg gagtatggaa tagattttca ttttcctcaa cgaatagtac acagaaacta 4020

acaattaacg gccttgtcat ttctggcaca tgtgaaaaca atctttcagg ttcgataaat 4080

atacatacct gggacagtgg caatgacatt agactttctt atttatatgt ccgtaaattc 4140

gcatcgtctg agcccactgt tgtgcttgaa gaaaaaaact atgtctctac tttcgactcc 4200

actgactcat acgacggctt cggtcaattg atccagaaaa agtatgaagg ggaaggcggc 4260

tggattatcc agaacaccgc atataacgaa ctgggccttg tagaaagygc cgaaatcccg 4320

cattattcgg accaaaccgg cttatccgta acctacgagt atgatgcagc cggacggcca 4380

acggttatca ccaatactga cagcactacc ctgacatacg attacaacct tgacgacacc 4440

acgattacca accagaacgg cgttgacaaa acactaacaa gtgatgtttt cggaaatatt 4500

gtcaaggtat atgagttcaa cgaaggcgaa acttacgtta catcctacag ttacgatgcc 4560

ctgaataatc tcatcgagat tacgccgggc ttcaatgacc ctcaggctcc gcccagtgtt 4620

tatttcacct acgattccct cggcaggaaa gtggcaatgg acgactctga catgggcagc 4680

tggacctatg aatacgacct gaacggaaac ctgataaacc agaccgattc acggggagtt 4740

tcgacaatcc tcagttatga tgacctggac agggttactg caatagatta ccctaacgat 4800

gaggacatca gtttcaccta cgaccttgaa tttaacggta cgctttcccg ggtaacaaaa 4860

ggacccgcat catcaagtta cgactacgac ctgcgctaca gggtagaaag cgaaacttta 4920

accattgacg gtacacccta caccacgtcc tacgattatg acagcatgga cagggtcacg 4980

ggaatcacct acccgaacgg cgaagccgtc agcctgacat acaatgcgca gacccttctt 5040

gaaagcgttg acggcgtgat tgacgacctt gactataacg caaggaacca gatcacaaga 5100

aaggaatatt ccaacggcgt aatcacaacc tacacctacg acagtcaaaa actgctgctg 5160

gacagaatct attccgcagg cctccaggac ctcaactacg atttcgataa cgtcggcaat 5220

gtcctcgaga tcgcggacaa cacccaaaat tccgtaaaaa cctacggata cgacgacctt 5280

gacaggctgg tcagcgcaga tatgtcggtc aacagcgtcc cgacctacca gagagatttc 5340

acctacgacc ggtatggcag tatcaggcag gtggataaca acggcgccac agtctcctct 5400

tacggatact ctgcgacccc gtcccacgca cctgttacct acaacggaaa caccctcgac 5460

tatgacgcaa acggaaacct tgtcgacgat gaggatttca tctacgtcta caacgatgcc 5520

aaccagttaa gtgaagtccg ttactctgcc aataattccc ttgtagaaaa gtactggtac 5580

gatgcaaacg gccagagaat caagaaacag aattccgatg gagaattcac ctattacatc 5640

aacaagttct acgaaatcga taacggcatc tctaccagct acttcttccg cgatgatgaa 5700

cgcgtagcca aagaaacatc cgaaagtatg gagtggtacc tctccgatca cataggcagc 5760

acttccctga tggttaacga gaatgggctt gaggtcgaac gcaccgattt cccatacgga 5820

caggttcggt caggcgggct ggagaaatac gggtttacag ggcaggaaaa tgatgccgat 5880

acagggctga tgtactacgg tgcgaggtat tactcgcctg agtacagggt tttcgttcag 5940

ccggatacaa tgcttcctga cccgtataat ccgcaggcgt tgaacaggta ttcttatgtg 6000

ctgaacaacc cggtgaagta tactgatccg agtgggcatg ttgtggacgt ccttgtggat 6060

ggcggatttc ttttgatgga tttagacgac atccgcaccg ggaatgctga taaatggaca 6120

tacatcggtc ttggtgttga ccttgtatgt gctttcgttc cgggtgtgac agggggaagg 6180

ctaggagttc aggctctgga ggaaacagtt actcatgcgg ataacgttga ggatttgttt 6240

aagctactgg ataaaacggt ggatgcagag aagaaagttg acgatgtgat agattctgga 6300

aaagttgcta aaaatagtaa ccaaatttac aacgttatca aaagagcgga cttgcctaat 6360

acaaaaatca caagttcgaa attacaacat gaatggaaac atgcaactga tttcggaata 6420

aaaggcaatt ggaataaagc taatggagat ctatatgaaa aagctattca gaatcatata 6480

aatactgcac ctgaagttta taaatcgact tatagacaaa atcaagatgt ttatgtttat 6540

ttgaataagg agacaggggt gggagtatac acagatcttt ctgggaatta tattggagct 6600

ggaaattcag tccggaacag attaagtatc atacaactaa tggacttaaa atag 6654

<210>8

<211>2217

<212>PRT

<213>噬乙酸甲烷八叠球菌

<400>8

Met Phe Phe Met Val Leu Gln Val Pro Ile His Thr Arg Arg Leu Leu

1 5 10 15

Ser Ile Phe Met Ile Ile Val Leu Leu Thr Pro Asn Val Tyr Cys Leu

20 25 30

Glu Asn Thr Glu Ala Ser Gln Asp Val Asn Ser Glu Gly Ser Gln Val

35 40 45

Asp Ser Glu Ser Tyr Glu Glu Asn Asn Lys Asn Ile Val Glu Ser Glu

50 55 60

Glu Glu Thr Ser Glu Thr Ile Ser Asp Leu Asp Ser Glu Ser Val Asp

65 70 75 80

Asp Asp Thr Glu Thr Val Ser Glu Asp Thr Met Leu Thr Ala Thr Thr

85 90 95

Val Ser Glu Asp Glu Glu Pro Leu Arg Asp Ala Lys Ala Tyr Leu Ser

100 105 110

Pro Thr Leu Glu Asn Glu Asn Asn Tyr Phe Asp Thr Ser Leu Phe Thr

115 120 125

Gly Ser Phe Val Tyr Ser Tyr Pro Ile Glu Thr Leu Lys Gly Arg Thr

130 135 140

Gly Leu Glu Pro Glu Val Ser Leu Thr Tyr Ser Ser Ala Thr Gly Ser

145 150 155 160

Lys Gly Thr Tyr Gly Ser Leu Gly Ile Gly Trp Ser Leu Asn Glu Asn

165 170 175

Cys Ile Ile Arg Asp Thr Arg Tyr Thr Pro Glu Asn Thr Asn Asp Asp

180 185 190

Arg Phe Ile Leu Val Leu Asp Gly Ser Thr Tyr Lys Leu Val Tyr Val

195 200 205

Glu Ser Asp Asn Ser Tyr His Thr Glu Thr Glu Ser Phe Met Lys Ile

210 215 220

Glu Lys Ser Ala Thr Ser Ser Asn Ser Phe Gly Asp Tyr Trp Thr Leu

225 230 235 240

Asn Met Pro Asp Gly Thr Lys Tyr Arg Phe Gly Tyr Asn Ile Asp Ser

245 250 255

Glu Gln Arg Asn Ser Val Glu Ser Arg Asn Tyr Val Ser Lys Trp Trp

260 265 270

Leu Asp Leu Ile Glu Asp Val Asn Gly Asn Lys Ile Lys Tyr Thr Tyr

275 280 285

Leu Glu Asn Pro Val Ser Gly Glu Val Gly Ser Thr Tyr Pro Asp Ser

290 295 300

Ile Thr Tyr Asn Asp Asn His Ala Val Ile Asp Phe Glu Phe Thr Glu

305 310 315 320

Lys Pro Arg Val Phe Thr Ile Tyr Glu Tyr Gly Asn Lys Ile Ile Glu

325 330 335

Lys Asn Leu Ile Ser Ser Ile Thr Val Arg Asn Asp Glu Thr Val Leu

340 345 350

Trp Lys Tyr Asp Leu Asp Tyr Glu Thr Gln Gln Leu Lys Leu Hi s Leu

355 360 365

Lys Ser Ile Thr Lys Thr Gly Leu Asn Asn Glu Glu Phe Pro Pro Thr

370 375 380

Val Phe Glu Tyr Asp Ser Ile Thr Glu Gly Trp Gln Glu Ser Ser Ser

385 390 395 400

Trp Thr Pro Pro Thr Ser Met Ser Gly Asp Lys Gly Arg Arg Ile Ala

405 410 415

Asp Val Asn Gly Asp Gly Leu Asp Asp Ile Leu Lys Gly Tyr Val Asp

420 425 430

Ser Asp Gly Asp Val Tyr Cys Ser Thr Trp Ile Asn Thr Gly Asp Asp

435 440 445

Trp Glu Leu Asn Ser Ser Trp Thr Thr Pro Thr Tyr Phe Arg His Tyr

450 455 460

Asn His Asp Gly Gly Ala Arg Leu Ala Asp Val Asn Gly Asp Gly Leu

465 470 475 480

Val Asp Ile Ile Gln His Gly Phe Tyr Ile Ser Ser Ala Trp Leu Asn

485 490 495

Thr Gly Thr Gly Trp Glu Gln Asn Asn Ser Trp Ile Pro Pro Leu Asp

500 505 510

Phe Gly Trp Ser Ser Asp Tyr Gly Val Arg Val Leu Asp Val Asn Gly

515 520 525

Asp Gly Leu Val Asp Ile Ile Lys Gly Tyr Lys Asn Asp Arg Gly Thr

530 535 540

Ile Tyr Tyr Asp Ala Tyr Leu Asn Thr Gly Glu Gly Trp Ile Gln Asp

545 550 555 560

Asn Ser Trp Asn Pro Pro Thr Tyr Phe Ser Tyr Asp Asn Ile Asp Thr

565 570 575

Gly Val Arg Leu Thr Asp Leu Asn Gly Asp Asp Leu Val Asp Ile Phe

580 585 590

Lys Leu Arg Ser Ser Trp Leu Asn Thr Gly Ser Gly Trp Glu Gln Asp

595 600 605

Asn Ser Trp Ala Pro Pro Ile Ser Leu Asp Ser Asp Gln Gly Val Val

610 615 620

Leu Val Asp Val Asn Gly Asp Gly Leu Thr Asp Ile Leu Lys Ser Tyr

625 630 635 640

Tyr Asn Asp Ala Gly Tyr Thr Tyr Asp Ala Trp Ile Ser Thr Gly Asn

645 650 655

Gly Trp Glu Asn Asp Asn Ser Trp Asn Pro Pro Thr Leu Ile Ala Ser

660 665 670

Tyr Gly Lys Asp Gln Gly Val Arg Phe Ala Asp Leu Asn Gly Asp Gly

675 680 685

Leu Thr Asp Ile Ile Lys Ala Gly Tyr Ser Asp Tyr Cys Ala Trp Thr

690 695 700

Asn Thr Asn Thr Glu Ser Thr Glu Asn Tyr Lys Thr Gln Gly Leu Leu

705 710 715 720

Lys Lys Ile Gln His Ser Thr Gly Gly Ser Thr Thr Ile Lys Tyr Glu

725 730 735

Pro Ser Thr Leu Phe Asp Asn Thr Gly Glu Asp Gly Val Ser Asp Leu

740 745 750

Thr Met Ser Met Trp Val Thr Ser Ser Val Thr Gly Asp Asn Gly Ile

755 760 765

Thr Gly Thr Gly Ser Val Val Ser Thr Thr Asp Tyr Thr Tyr Lys Asn

770 775 780

Gly Met Gln Tyr Phe Asp Pro Pro Glu Glu Ile Glu Phe Arg Gly Phe

785 790 795 800

Gly Glu Val Thr Val Glu Asn Glu Tyr Ser Ile Val Lys His Phe Phe

805 810 815

His Gln Asp Asn Val Leu Lys Gly Ile Glu His His Thr Glu Val Trp

820 825 830

Asp Lys Asn Gly Asn Leu Tyr Ser Ser Ser Asp Thr Glu Tyr Thr Ala

835 840 845

Gln Glu Ile Tyr Pro Asp Val Asn Leu Ile Leu Leu Asp Ser Glu Ser

850 855 860

Lys Thr Arg Phe Asp Gly Leu Val Gln Asn Pro Thr Ser Ser Ala Gly

865 870 875 880

Trp Ser Tyr Leu Thr Glu Tyr Asn Glu Tyr Asp Asp Tyr Gly Asn Pro

885 890 895

Leu Ser Ile Thr Asp His Gly Asp Val Asn Asn Ala Gly Asp Glu Lys

900 905 910

Tyr Tyr His Phe Gly Tyr Ala Asn Ala Glu Asn Pro Trp Ile Leu Gly

915 920 925

Lys Lys Thr His Glu Trp Val Glu Asp Ser Asp His Val Lys Lys Ser

930 935 940

Glu Ser Trp Tyr Tyr Tyr Asp Glu Thr Asn Asp Asn Ser Ala Ile Ser

945 950 955 960

Lys Gly Gln Leu Thr Lys Thr Val Leu Trp Asn Asn Met Gly Asp Asn

965 970 975

Pro Asn Val Leu Tyr Asp Tyr Asp Asn Tyr Gly Asn Ile Ile Arg Ile

980 985 990

Thr Asn Pro Glu Gly Ala Ser Lys Asn Ile Gly Tyr Asp Glu Asn His

995 1000 1005

Leu Tyr Pro Val Tyr Ile Glu Asn Ala Phe Gly Gln Lys Glu Cys

1010 1015 1020

Tyr Glu Phe Asn Asp Leu Gly Arg Ile Thr Lys Ile Thr Asp Ser

1025 1030 1035

Asn Asp Ile Ser Ile Ala Tyr Ile Tyr Asp Asp Leu Hi s Arg Ile

1040 1045 1050

Thr Lys Val Leu Lys Val Asn Asp Thr Leu Asp Ser Pro Ser Ile

1055 1060 1065

Glu Tyr Thr Tyr Tyr Gln Asp Gly Val Ala Pro Glu Lys Ile Leu

1070 1075 1080

Thr Thr Thr Lys Glu Cys Gly Ser Glu Glu Asn Asn Tyr Val Ile

1085 1090 1095

Asn Gly Ser Val Phe Ser Asn Tyr Lys Arg Ile Thr Ile Ser Pro

1100 1105 1110

Ser Ser Asp Gly Thr Leu Thr Asp Tyr Gln Val Lys Leu Asp Ile

1115 1120 1125

Asn Tyr Glu Ser Glu Met Gln Ser Asp Phe Asp Asp Leu Arg Phe

1130 1135 1140

Val Asp Glu Asn Gly Ile Leu Leu Pro Tyr Trp Ile Glu Glu Lys

1145 1150 1155

Val Asp Ser Ser Tyr Ala Lys Val Trp Val Lys Val Pro Val Ile

1160 1165 1170

Asp Gly Ile Asp Gly Ala Thr Ile Lys Met Tyr Tyr Asp Asn Ser

1175 1180 1185

Tyr Val Ser Ser Ala Glu Asn Gly Asp Asp Val Phe Glu Phe Phe

1190 1195 1200

Asp Asp Phe Glu Ser Gly Val Ile Asp Asn Ala Lys Trp Asn Glu

1205 1210 1215

Val Gly Ser Pro Thr Ile Val Asp Asp Asn Gly Asp Lys Val Leu

1220 1225 1230

Lys Val Thr Pro Ser Asn Glu Val Asn Thr Phe Asn Lys Phe Ser

1235 1240 1245

Gly Thr Glu Tyr Ile Val Gly Gly Leu Met Lys Phe Ser Ser Phe

1250 1255 1260

Gly Asp Tyr Gly Pro Arg Met Thr Leu Asp Val Arg Arg Gln Asn

1265 1270 1275

Asp Gln Thr Ile Leu Ala Thr Cys Arg Ile Glu Ser Tyr Ala Asp

1280 1285 1290

Gly Thr Gly Gly Thr Gly Thr Ser Ile Arg Tyr Tyr Pro Gly Ser

1295 1300 1305

Gly Ser Phe Ile Thr Val Ala Gln Ala Arg Pro Ser Trp Ser Thr

13l0 1315 1320

Gly Val Trp Asn Arg Phe Ser Phe Ser Ser Thr Asn Ser Thr Gln

1325 1330 1335

Lys Leu Thr Ile Asn Gly Leu Val Ile Ser Gly Thr Cys Glu Asn

1340 1345 1350

Asn Leu Ser Gly Ser Ile Asn Ile His Thr Trp Asp Ser Gly Asn

1355 1360 1365

Asp Ile Arg Leu Ser Tyr Leu Tyr Val Arg Lys Phe Ala Ser Ser

1370 1375 1380

Glu Pro Thr Val Val Leu Glu Glu Lys Asn Tyr Val Ser Thr Phe

1385 1390 1395

Asp Ser Thr Asp Ser Tyr Asp Gly Phe Gly Gln Leu Ile Gln Lys

1400 1405 1410

Lys Tyr Glu Gly Glu Gly Gly Trp Ile Ile Gln Asn Thr Ala Tyr

1415 1420 1425

Asn Glu Leu Gly Leu Val Glu Ser Ala Glu Ile Pro His Tyr Ser

1430 1435 1440

Asp Gln Thr Gly Leu Ser Val Thr Tyr Glu Tyr Asp Ala Ala Gly

1445 1450 1455

Arg Pro Thr Val Ile Thr Asn Thr Asp Ser Thr Thr Leu Thr Tyr

1460 1465 1470

Asp Tyr Asn Leu Asp Asp Thr Thr Ile Thr Asn Gln Asn Gly Val

1475 1480 1485

Asp Lys Thr Leu Thr Ser Asp Val Phe Gly Asn Ile Val Lys Val

1490 1495 1500

Tyr Glu Phe Asn Glu Gly Glu Thr Tyr Val Thr Ser Tyr Ser Tyr

1505 1510 1515

Asp Ala Leu Asn Asn Leu Ile Glu Ile Thr Pro Gly Phe Asn Asp

1520 1525 1530

Pro Gln Ala Pro Pro Ser Val Tyr Phe Thr Tyr Asp Ser Leu Gly

1535 1540 1545

Arg Lys Val Ala Met Asp Asp Ser Asp Met Gly Ser Trp Thr Tyr

1550 1555 1560

Glu Tyr Asp Leu Asn Gly Asn Leu Ile Asn Gln Thr Asp Ser Arg

1565 1570 1575

Gly Val Ser Thr Ile Leu Ser Tyr Asp Asp Leu Asp Arg Val Thr

1580 1585 1590

Ala Ile Asp Tyr Pro Asn Asp Glu Asp Ile Ser Phe Thr Tyr Asp

1595 1600 1605

Leu Glu Phe Asn Gly Thr Leu Ser Arg Val Thr Lys Gly Pro Ala

1610 1615 1620

Ser Ser Ser Tyr Asp Tyr Asp Leu Arg Tyr Arg Val Glu Ser Glu

1625 1630 1635

Thr Leu Thr Ile Asp Gly Thr Pro Tyr Thr Thr Ser Tyr Asp Tyr

1640 1645 1650

Asp Ser Met Asp Arg Val Thr Gly Ile Thr Tyr Pro Asn Gly Glu

1655 1660 1665

Ala Val Ser Leu Thr Tyr Asn Ala Gln Thr Leu Leu Glu Ser Val

1670 1675 1680

Asp Gly Val Ile Asp Asp Leu Asp Tyr Asn Ala Arg Asn Gln Ile

1685 1690 1695

Thr Arg Lys Glu Tyr Ser Asn Gly Val Ile Thr Thr Tyr Thr Tyr

1700 1705 1710

Asp Ser Gln Lys Leu Leu Leu Asp Arg Ile Tyr Ser Ala Gly Leu

1715 1720 1725

Gln Asp Leu Asn Tyr Asp Phe Asp Asn Val Gly Asn Val Leu Glu

1730 1735 1740

Ile Ala Asp Asn Thr Gln Asn Ser Val Lys Thr Tyr Gly Tyr Asp

1745 1750 1755

Asp Leu Asp Arg Leu Val Ser Ala Asp Met Ser Val Asn Ser Val

1760 1765 1770

Pro Thr Tyr Gln Arg Asp Phe Thr Tyr Asp Arg Tyr Gly Ser Ile

1775 1780 1785

Arg Gln Val Asp Asn Asn Gly Ala Thr Val Ser Ser Tyr Gly Tyr

1790 1795 1800

Ser Ala Thr Pro Ser His Ala Pro Val Thr Tyr Asn Gly Asn Thr

1805 1810 1815

Leu Asp Tyr Asp Ala Asn Gly Asn Leu Val Asp Asp Glu Asp Phe

1820 1825 1830

Ile Tyr Val Tyr Asn Asp Ala Asn Gln Leu Ser Glu Val Arg Tyr

1835 1840 1845

Ser Ala Asn Asn Ser Leu Val Glu Lys Tyr Trp Tyr Asp Ala Asn

1850 1855 1860

Gly Gln Arg Ile Lys Lys Gln Asn Ser Asp Gly Glu Phe Thr Tyr

1865 1870 1875

Tyr Ile Asn Lys Phe Tyr Glu Ile Asp Asn Gly Ile Ser Thr Ser

1880 1885 1890

Tyr Phe Phe Arg Asp Asp Glu Arg Val Ala Lys Glu Thr Ser Glu

1895 1900 1905

Ser Met Glu Trp Tyr Leu Ser Asp His Ile Gly Ser Thr Ser Leu

1910 1915 1920

Met Val Asn Glu Asn Gly Leu Glu Val Glu Arg Thr Asp Phe Pro

1925 1930 1935

Tyr Gly Gln Val Arg Ser Gly Gly Leu Glu Lys Tyr Gly Phe Thr

1940 1945 1950

Gly Gln Glu Asn Asp Ala Asp Thr Gly Leu Met Tyr Tyr Gly Ala

1955 1960 1965

Arg Tyr Tyr Ser Pro Glu Tyr Arg Val Phe Val Gln Pro Asp Thr

1970 1975 1980

Met Leu Pro Asp Pro Tyr Asn Pro Gln Ala Leu Asn Arg Tyr Ser

1985 1990 1995

Tyr Val Leu Asn Asn Pro Val Lys Tyr Thr Asp Pro Ser Gly His

2000 2005 2010

Val Val Asp Val Leu Val Asp Gly Gly Phe Leu Leu Met Asp Leu

2015 2020 2025

Asp Asp Ile Arg Thr Gly Asn Ala Asp Lys Trp Thr Tyr Ile Gly

2030 2035 2040

Leu Gly Val Asp Leu Val Cys Ala Phe Val Pro Gly Val Thr Gly

2045 2050 2055

Gly Arg Leu Gly Val Gln Ala Leu Glu Glu Thr Val Thr His Ala

2060 2065 2070

Asp Asn Val Glu Asp Leu Phe Lys Leu Leu Asp Lys Thr Val Asp

2075 2080 2085

Ala Glu Lys Lys Val Asp Asp Val Ile Asp Ser Gly Lys Val Ala

2090 2095 2100

Lys Asn Ser Asn Gln Ile Tyr Asn Val Ile Lys Arg Ala Asp Leu

2105 2110 2115

Pro Asn Thr Lys Ile Thr Ser Ser Lys Leu Gln His Glu Trp Lys

2120 2125 2130

His Ala Thr Asp Phe Gly Ile Lys Gly Asn Trp Asn Lys Ala Asn

2135 2140 2145

Gly Asp Leu Tyr Glu Lys Ala Ile Gln Asn His Ile Asn Thr Ala

2150 2155 2160

Pro Glu Val Tyr Lys Ser Thr Tyr Arg Gln Asn Gln Asp Val Tyr

2165 2170 2175

Val Tyr Leu Asn Lys Glu Thr Gly Val Gly Val Tyr Thr Asp Leu

2180 2185 2190

Ser Gly Asn Tyr Ile Gly Ala Gly Asn Ser Val Arg Asn Arg Leu

2195 2200 2205

Ser Ile Ile Gln Leu Met Asp Leu Lys

2210 2215

<210>9

<211>8961

<212>DNA

<213>玉蜀黍赤霉(Gibberella zeae)

<400>9

atggccaccg ttactgtaca agggcccttc ttcaaagatc tacccacgct atccgccaaa 60

atcaacagtt tactggcaga agacggaacc acacttgcag cagctattga cagcgcgttg 120

aagtctggtg gtctggattc tgttagtact cgccgtctgc ttttcttcca aggcctcact 180

gcagacaacc aactgcttct gtatttgaca acaaactacg gtaatgtgga gccttcactt 240

gctcggattg gtcttgaaaa ttacttcaat agctttgatg gtttcaacaa agatgtcgtg 300

aaggactttc ggtctcattt atgggagaaa gaacctttgg ccgttctcct tgcatctttg 360

cgccagacta agctattgac cactgtttgg attgaactga agcctcaaat cgataccgtc 420

ctccaactgt gcgtggataa agaactttcg ctgtcttcac ctgaagttca cacccgtgtg 480

aaagaattgg atgtcacaag accgaagaca gaggtaaaga aagacgtcaa ggggaaatcg 540

gtcgttgttc ctggcttgcg tgatgcaatt cttgctatac agcgccttca ctgtcttgtc 600

atcgatccga tgcatttgga agtgctactg agagaaggat ggcattccgc acatgatgtt 660

gccattctcc ctcgtggagt attcctttca gtcatcgaaa aagcagccaa aaaccaggat 720

cctatattca acatcgatga agaatctgca tcacgtatcc atgaccatgc cattaccatt 780

gactgccgga accaagaaac gtgggtcaag atacttgatg gtctcaaaag agactttacg 840

atcgttgtac cacagtctcg tcccgaggat gaagctgaga agaaacggaa gcaagaggag 900

attgagaaac aagcaagaaa agacggtgcc aacaaagacg ctcccagagt ggacgttctt 960

gcgcacaaaa actacaacat gtctaccatc tttgacctac agacttccag ctgcgaagag 1020

tgctgctcag ttacaggacc agccgcctac tttgttgacc tactcaattt tctcaaagcg 1080

agtccttgta ctggagctgg aagcaagttt tccactttgt tccaggcttt gatgcatcga 1140

cgtccagatt tgcaggactt ggaactatct tgtgcaaact ccaagaacat ggtgccctac 1200

atctccatcg tcaacgagac gctagagtct tttattgcat ctctcagcga acacgatgat 1260

gatgacaaat atgttgctac tgtcctggct gtcaatgaac aggaagcacc gggctcttat 1320

tcagggtcaa cacaggatac tcgattgaca gccgccaagt ctctcgacgg ggtcatgtcc 1380

cctttgaatg tgtttccaca caaccaaggt ctccagtcca tcaaaacata tcttcattcc 1440

ttcggaatca cggggataga agtcttgaaa acctttcgat ccgaggctag gctcttggaa 1500

gcggtgatag gagctttgcc cagtgacaaa ggcactcgtg caacacttct ctctgaagca 1560

ggtgttatct tggatcgtgc aactgttgct gcatcactga atctactacc gctagattta 1620

gcagccattg tgggagagaa gatttacacg ccacatgcaa tgaggagcat gatgggaatg 1680

cgacagaaac gaggaaagtc actcttgtcg gagctcgagg tcccaaaaac ttgccgtaac 1740

tggggctatt cgagtactag tgacatgatc gacacggatg agcgggcaaa gactggtctc 1800

tgcttcatca ggtctcagtt tatgccgcgt tcaggactgt cattcgaaga aatcctgcag 1860

cttctcaaga gcctttattt tggtggccgt cttgtcataa caaatgcaga caagacaaaa 1920

gcgtttactg gacagatttc cgagatgcgt ctacaggccc tcaatacggc ggctactgca 1980

cctaaagaga cggcagtcgg gcctttgact gatcaactct gtcacgagat tcaggccttt 2040

atcagactga agaatcgtct tggctggagt atcaaggagc ttgatggggc cttgtctgca 2100

atcttccaga gccaggttgc ttcaggcgtt atgcgcactc ctgatggtac ccgaggcatc 2160

tcttttgggg tgttgcaaga tctttccatg gcgaagagcc tcgctgaatc tgtgaatatg 2220

ccgatagacg ctatacttat tctctgggca ccgcttaaca cagaaagccc tctcttcagt 2280

cgtgtctttg gtggcccacg caatatgtct tcggataaca tcttcaccac gctcagcaac 2340

cgtgtgtcat taatcaagaa ccatcttcct gctgttatga ccgctctggg gcatagtcaa 2400

gatcaactga actgtctcat gcgagctgcc aatattgaca gcgcgaaaga caagctgacg 2460

atggacgtcc ttactaagtt gtatcgacac tcgactatga gccgaatact caaagccaca 2520

cctatggagt acttggaact tctctctctc cttcccgccg gacttgatgt actattagac 2580

ccgacaacga cgctgtcatt tgtcacgaaa tggcgtcagc ttgttgacag tcgctggtca 2640

ccacaagaga tcatcatggc aatacgtcca actcccgtaa ctagtatctc agacaactac 2700

accaatgtaa ctgatgctct cttcctatcg tcctctatta tcgacgaaat ggaagtaatg 2760

cggttactct ggcaagatcc tgtccgcgat atggttgtac ggcacgagga tatcgttcag 2820

atttgtggag agctctatga cgcgaccgca gctgcttcaa ttgtagagtt catcgaggga 2880

acccagtcaa ccgaagcaag aatccctttg tccaagcctc tcgccaccgc cctcatgacc 2940

atcaaagtat tgccatcaaa catgacgttg acagtcgagc ttgggtcgaa gacaaagccg 3000

ggtgtacttg ttctatccct cctgggcgtt ctctctggcg aaaaccgatt gatgatcgaa 3060

acgcttatca agaacaaaga cgccgggcta aaagcaccaa catccacact tggcacaggg 3120

cttcggaagg acctggatga gctatttgat gacttggatg tgcgctctag cggtgccagg 3180

aagacgttgg aagataggtt gctcaatact cttccagctg atcaacgtga agaacttggg 3240

ttaatgttcc agaatgatat tagagatgga accagcacga tgacactgga tgaagcattg 3300

attcaagctg agatggcagt caagaaacgc cggagtgctt tcatcttggc cgctctgcct 3360

gtattgcgcg cacaactggt agagagatca ttgattgggg caatcggcaa ggcagtccct 3420

ggccttgatc cgtcagtcct tgctatgctg ggaacacagg tttttaagca acatgacaag 3480

agtgcaacca aggttgtgga agatatttgc agtgattacg tgtctaacaa gggggcatcc 3540

gaagtctcta cggcgttctt ctgccctgca gcctcagata cttatcaatt tcatttcacg 3600

ccactgcaaa atgcggagca aaatggtcaa aacaactctt ctgtaccatt gttctcagtc 3660

aatggagtcg agatcccagt gctgaaggct ggcgatggaa acgggtggca gtcagttcca 3720

acactccttg cgactggcaa gccgtatctg ttgagttcat caacgagtct tggacatgct 3780

cagtggacga ccaaacaatc gactcagccc cagaaatttg tgaaatccac cttgatccct 3840

gctgatatca tcacatcggt ctccaacgag ctactaacag tcgttcactt tgcgcaactt 3900

atgaagaagc taaatctggg tcttgaagag ttcaagtatc tcagctctga ttccacctcc 3960

tctatgcaag tcgatctgaa caaactgacc attgatggtc tctgtcagct agagaagtat 4020

tgcacactca gagactcggt atctagtggt cccgactccc ttattggatt tttcgcctgg 4080

ttaggtagtg ggcaatacga tggaaagacg accttggcca cacgtctggc agccgccacc 4140

agatgggatc agcttcagtt gaatactact ctggagctca agtatcctgg tctgacggaa 4200

aaggacatca ttgacagatt tgcgtcctct cttgacgaac tctgctccct gggcgatgtc 4260

ataacgctat ctggccatct gggcggcgcc tcgggacgac gagcggccca gccgttgttg 4320

gttctgtaca aactcgctgt acctgcccct cccaccgaaa ccgactggga catggaaacg 4380

gcttcggcac ttgaactttg tctgggacct gaacaagctg cgcagtgcag atcagagtta 4440

cgcgagacgc aacggacagc atatgtgcaa tttctgctgc agcggaagta cttccaaaga 4500

ttgggcgtaa cagatgcgga cgggctgttt gcacatttca tgctagatgt ccagatggga 4560

gctcagctcg aaattacacg gatgaaggcg gccatctcga ctgtacagct gtttgtccag 4620

cgcgtgctgc ttggtttaga ggcaccaagt ggtgttctcg atgctcgtat cgacaaagac 4680

aagtgggcgt ggatgcagcg ccacaatatc tggcaggcaa caagaaaggc attcctctac 4740

ccagagaatt ggatagatcc aagcctacga gatgacaaga ctccattgtt tgaggcctat 4800

gagtcagcca tcatgtccaa ggacctaagc tgggattcgt tttctcagtc aatgaaggac 4860

tatgtacaat cacttctagg aattgctgat ctctcgattg aggcatacct acgggagcta 4920

cgacctgatg aggtcgaaat ttaccatttc tttggtagaa ctcgaagcgc gccttttgag 4980

ttttactatc gagcgatgca gattgtcaag tcgggatctg gcgaaggact tgtcttctgg 5040

tcaccctgga ccaaggtggg ggtagaagcc cctacatacg acacagattg gaatggcaag 5100

acacttgaca agggcggatg ctaccttgtt cctgttgttc gaaacaagcg tcttttcctg 5160

tacctgccac agctcatggc caagcccgtg gccccgacac ccaacatgac tatggaggat 5220

atggccaaga aagtccctgt cacaactggg gcatacacct gggaagtacg catgggatgg 5280

acagagtttg tagatggaca gtggacgcct aagcgggtgc tgcaaacacc tttggttgtc 5340

aactggattc ccccgactac agaaaagcct accgatatag agggcctacc ctctgtagac 5400

aagtttgtct ttagtgccga aacgactggg ccagatgtca aaatccaagt tgggtatcga 5460

ggaaccatag atgggatgct tcattatatt ggcaggtttg acgttatcga tgaacgtatc 5520

gagactatca aagttactag ccagaccgat aaactcggca aggcgctgga tacctccttt 5580

cacaagctca catgggaagc ggagccgaac atcaaggaga ccatgggaca ggctggagag 5640

ctcaaagagc ctgacagctc gttgtactcc atgctgacca aggccgagga gacaccgctc 5700

ttggcgatag gaaagcgtga ttataaacgt aacctgacat ggacactatc ctacgcggac 5760

aagaccaata ataccaacaa gacagcaggt ctcgtggtag atgagcgtcg agggggtgct 5820

gatggtacta ccttcttcat gtacccctat caaacgcctg aggataagaa gaagaagacg 5880

gtgccgcttg ctacaaacct catgtacgac caatccagag aggaaatcgt tgaacactct 5940

gctgcacgag aaatgatgga ggcggtctgt cagactgacg gtctgaacat gctttttgac 6000

acaatggata ccaacctcac caagaaccat gactacggta aagctgtggt ccggtccgac 6060

atgagcaact atcatgagct tacgacccca tacgccatct acaattggga gttgggtcta 6120

cacgctgtcc tcctagccat cgatcgcttc tacgccacgc agcagttcga gctcgcccta 6180

aaggccgcca ggctcatctt tgaccccacc accaacccgc cgaccggctg ctcggcggac 6240

gaggcggcgg cagcttgctg gaggttcagg ccgttccggg acctggccga acacaagatt 6300

ggtatggttg atgttttcaa gggctggccc tcagacggga acctcgagat cgcagtgtcg 6360

gagcgccgaa gtaatccttc cacggtacac tcgactgcac gcggacggcc ccaggcttac 6420

atgaagtggg ttatcatgaa gtacattgag atattgatct ctgctggtga cgagtacttc 6480

cgacagggaa gtatggagac gctgcctttg gcaattcatc actatgttga agcagctcac 6540

gtgcttggtc cagatccccc acgagtacca cagttggcca agtctgtggt caagacattc 6600

cgcgagatag gatcccccga gcacaaggtt gatctcgaac tcgcctttcc gttcctttgc 6660

gagattgaaa gacgtggtag taagagagca gacggtgata gtcgccgtag atcaccactg 6720

ctgtgcattc tcaccacgac ctacttcagc ctgccgccaa acccaaagta cgcgagcttg 6780

cgagtcctag ttcaggatag gctctacaag gctcggaaca atcttgacat caatggacgt 6840

cctatcgttt attccatgtc cgagcccttt attgatcctg gcgatgcgat gcgagcgttg 6900

gcacaaggtg gtgctggagc ggtcgggtca ctcatgaatg atagtgacag tccaatgccg 6960

taccaacgat tctccttcct catcagcaaa gctcttgaac tatgcaatga gctgaggagt 7020

atgggggagc aatttctttc cgtccgcgag agacatgatg cggagtcttt ggcacaattg 7080

aagaaccgcc aagattcaat gagacagaag atgatacttg aagtcagact gtcacagacg 7140

gaggagatcc tcaagaccat tgaatcactg caacagagtc gggcttctac tgtgtcacag 7200

ctggagtact atctccgcct caccggtgat tcactggatc ttattcccgg tgatgagaaa 7260

gatgagtggc aggacatccg gcaggacatc gcgactccaa tcagtgatga ccttcgaatg 7320

agcccttttg aaactatgga gcttgcttcc gcagctgtag cttccacgct gaatgttgca 7380

gcagctggta tggatacact agccggcttc ctaaaagctt ttccaaacgt gacgacaaat 7440

gctcagccca tgggctgtgg tgtcaccgtc aaggctgacg caagcaatgc ggctcaattg 7500

acgttgggtt tggcatcagc tacaaagaca tatgctctta tcgcttcaga agctggatca 7560

atgtcagcgc gaatcggagg tctgaccaag caattacaag agcgtcgtat gcaagctaat 7620

atcaggggac gcgagatcaa gaatcttgat aagcaaatcg agattcagcg taagaggcta 7680

gatatcaatg ccaaggagat cctcgctcag agaagtgagg ttgagtatgc caatgagacc 7740

gaggtttggt atcgcagcaa atacacaaac gccaaccttt actcatggct cgagggatca 7800

gtccgttcta tacattacga cctttatggc ctcgcatccg acatgtgccg tcgcgccgag 7860

agagcctttc gttttgagcg tggtcatcaa gcatctgccg catttcttcg ttctggcggc 7920

tactgggaca acagtcgaga cggtttgctc gcggctcagc aactagcctt ggacctgcga 7980

cgcatggagg cagcctatct tcacaaaccg ggtcatgact gggaattgtc caagaatatt 8040

tctctgcgca agactaaccc ccatgctctg ctcacgctac gagagaaagg tacgacaact 8100

ttcagcatcc cagaattgct gtttgatctg gattttcccg gacactacat gcgacgtctc 8160

aagtcagtgg cggtgacaat cccgtgcgtt atcggtcctt ataccactct agctgcgact 8220

ctgtcactca cgcgacacac ataccgtgta tctgcagctg cacaatctgg tgatgactat 8280

ctgctagcaa actcctcaga tggttcgttc agaaccgacc ccatccccat ctctgctgtc 8340

gccacatcgc atgccgtgca agatacaggc tcgttcgact ttggcttcaa ccagagcaac 8400

attgcgaata ccgactacgg tccgttcgag ggtgccggtg ccatcagcaa ctggaaactc 8460

gaactaccac caaagacaac tcagccattt gattactcga ccatttcaga cgtggtactt 8520

catatcaagt atacttctat cgacggtgga ccgatcctta agcgttccgc ctccgatgcg 8580

gtgaaaaagc agtgcgcgcg tacagatagt ctgggtgttc acgacggtct ctggggcttc 8640

gtcgaggtac gcaatgaggc aacgaaccaa tggttcaagt ttagttccac gctctcccaa 8700

acggctttgg ctcgcaccgc aacacttgac cttggcccag caatcacgtc acgattaccc 8760

ttttggacaa agaatcggga tgtcaagatc gaaactttga cccttgcaat tacaggtgct 8820

gatgctggct tggccaaaga tttgtcaata cctgcattgg gatcaagtga ttgggattgt 8880

acaaccttgg gagacatagc actgctaagt atagctggtt taggagatat agtatctttg 8940

aagcaagagg aaggtcgcta a 8961

<210>10

<211>2986

<212>PRT

<213>玉蜀黍赤霉

<400>10

Met Ala Thr Val Thr Val Gln Gly Pro Phe Phe Lys Asp Leu Pro Thr

1 5 10 15

Leu Ser Ala Lys Ile Asn Ser Leu Leu Ala Glu Asp Gly Thr Thr Leu

20 25 30

Ala Ala Ala Ile Asp Ser Ala Leu Lys Ser Gly Gly Leu Asp Ser Val

35 40 45

Ser Thr Arg Arg Leu Leu Phe Phe Gln Gly Leu Thr Ala Asp Asn Gln

50 55 60

Leu Leu Leu Tyr Leu Thr Thr Asn Tyr Gly Asn Val Glu Pro Ser Leu

65 70 75 80

Ala Arg Ile Gly Leu Glu Asn Tyr Phe Asn Ser Phe Asp Gly Phe Asn

85 90 95

Lys Asp Val Val Lys Asp Phe Arg Ser His Leu Trp Glu Lys Glu Pro

100 105 110

Leu Ala Val Leu Leu Ala Ser Leu Arg Gln Thr Lys Leu Leu Thr Thr

115 120 125

Val Trp Ile Glu Leu Lys Pro Gln Ile Asp Thr Val Leu Gln Leu Cys

130 135 140

Val Asp Lys Glu Leu Ser Leu Ser Ser Pro Glu Val His Thr Arg Val

145 150 155 160

Lys Glu Leu Asp Val Thr Arg Pro Lys Thr Glu Val Lys Lys Asp Val

165 170 175

Lys Gly Lys Ser Val Val Val Pro Gly Leu Arg Asp Ala Ile Leu Ala

180 185 190

Ile Gln Arg Leu His Cys Leu Val Ile Asp Pro Met His Leu Glu Val

195 200 205

Leu Leu Arg Glu Gly Trp His Ser Ala His Asp Val Ala Ile Leu Pro

210 215 220

Arg Gly Val Phe Leu Ser Val Ile Glu Lys Ala Ala Lys Asn Gln Asp

225 230 235 240

Pro Ile Phe Asn Ile Asp Glu Glu Ser Ala Ser Arg Ile His Asp His

245 250 255

Ala Ile Thr Ile Asp Cys Arg Asn Gln Glu Thr Trp Val Lys Ile Leu

260 265 270

Asp Gly Leu Lys Arg Asp Phe Thr Ile Val Val Pro Gln Ser Arg Pro

275 280 285

Glu Asp Glu Ala Glu Lys Lys Arg Lys Gln Glu Glu Ile Glu Lys Gln

290 295 300

Ala Arg Lys Asp Gly Ala Asn Lys Asp Ala Pro Arg Val Asp Val Leu

305 310 315 320

Ala His Lys Asn Tyr Asn Met Ser Thr Ile Phe Asp Leu Gln Thr Ser

325 330 335

Ser Cys Glu Glu Cys Cys Ser Val Thr Gly Pro Ala Ala Tyr Phe Val

340 345 350

Asp Leu Leu Asn Phe Leu Lys Ala Ser Pro Cys Thr Gly Ala Gly Ser

355 360 365

Lys Phe Ser Thr Leu Phe Gln Ala Leu Met His Arg Arg Pro Asp Leu

370 375 380

Gln Asp Leu Glu Leu Ser Cys Ala Asn Ser Lys Asn Met Val Pro Tyr

385 390 395 400

Ile Ser Ile Val Asn Glu Thr Leu Glu Ser Phe Ile Ala Ser Leu Ser

405 410 415

Glu His Asp Asp Asp Asp Lys Tyr Val Ala Thr Val Leu Ala Val Asn

420 425 430

Glu Gln Glu Ala Pro Gly Ser Tyr Ser Gly Ser Thr Gln Asp Thr Arg

435 440 445

Leu Thr Ala Ala Lys Ser Leu Asp Gly Val Met Ser Pro Leu Asn Val

450 455 460

Phe Pro His Asn Gln Gly Leu Gln Ser Ile Lys Thr Tyr Leu His Ser

465 470 475 480

Phe Gly Ile Thr Gly Ile Glu Val Leu Lys Thr Phe Arg Ser Glu Ala

485 490 495

Arg Leu Leu Glu Ala Val Ile Gly Ala Leu Pro Ser Asp Lys Gly Thr

500 505 510

Arg Ala Thr Leu Leu Ser Glu Ala Gly Val Ile Leu Asp Arg Ala Thr

515 520 525

Val Ala Ala Ser Leu Asn Leu Leu Pro Leu Asp Leu Ala Ala Ile Val

530 535 540

Gly Glu Lys Ile Tyr Thr Pro His Ala Met Arg Ser Met Met Gly Met

545 550 555 560

Arg Gln Lys Arg Gly Lys Ser Leu Leu Ser Glu Leu Glu Val Pro Lys

565 570 575

Thr Cys Arg Asn Trp Gly Tyr Ser Ser Thr Ser Asp Met Ile Asp Thr

580 585 590

Asp Glu Arg Ala Lys Thr Gly Leu Cys PheIle Arg Ser Gln Phe Met

595 600 605

Pro Arg Ser Gly Leu Ser Phe Glu Glu Ile Leu Gln Leu Leu Lys Ser

610 615 620

Leu Tyr Phe Gly Gly Arg Leu Val Ile Thr Asn Ala Asp Lys Thr Lys

625 630 635 640

Ala Phe Thr Gly Gln Ile Ser Glu Met Arg Leu Gln Ala Leu Asn Thr

645 650 655

Ala Ala Thr Ala Pro Lys Glu Thr Ala Val Gly Pro Leu Thr Asp Gln

660 665 670

Leu Cys His Glu Ile Gln Ala Phe Ile Arg Leu Lys Asn Arg Leu Gly

675 680 685

Trp Ser Ile Lys Glu Leu Asp Gly Ala Leu Ser Ala Ile Phe Gln Ser

690 695 700

Gln Val Ala Ser Gly Val Met Arg Thr Pro Asp Gly Thr Arg Gly Ile

705 710 715 720

Ser Phe Gly Val Leu Gln Asp Leu Ser Met Ala Lys Ser Leu Ala Glu

725 730 735

Ser Val Asn Met Pro Ile Asp Ala Ile Leu Ile Leu Trp Ala Pro Leu

740 745 750

Asn Thr Glu Ser Pro Leu Phe Ser Arg Val Phe Gly Gly Pro Arg Asn

755 760 765

Met Ser Ser Asp Asn Ile Phe Thr Thr Leu Ser Asn Arg Val Ser Leu

770 775 780

Ile Lys Asn His Leu Pro Ala Val Met Thr Ala Leu Gly His Ser Gln

785 790 795 800

Asp Gln Leu Asn Cys Leu Met Arg Ala Ala Asn Ile Asp Ser Ala Lys

805 810 815

Asp Lys Leu Thr Met Asp Val Leu Thr Lys Leu Tyr Arg His Ser Thr

820 825 830

Met Ser Arg Ile Leu Lys Ala Thr Pro Met Glu Tyr Leu Glu Leu Leu

835 840 845

Ser Leu Leu Pro Ala Gly Leu Asp Val Leu Leu Asp Pro Thr Thr Thr

850 855 860

Leu Ser Phe Val Thr Lys Trp Arg Gln Leu Val Asp Ser Arg Trp Ser

865 870 875 880

Pro Gln Glu Ile Ile Met Ala Ile Arg Pro Thr Pro Val Thr Ser Ile

885 890 895

Ser Asp Asn Tyr Thr Asn Val Thr Asp Ala Leu Phe Leu Ser Ser Ser

900 905 910

Ile Ile Asp Glu Met Glu Val Met Arg Leu Leu Trp Gln Asp Pro Val

915 920 925

Arg Asp Met Val Val Arg His Glu Asp Ile Val Gln Ile Cys Gly Glu

930 935 940

Leu Tyr Asp Ala Thr Ala Ala Ala Ser Ile Val Glu Phe Ile Glu Gly

945 950 955 960

Thr Gln Ser Thr Glu Ala Arg Ile Pro Leu Ser Lys Pro Leu Ala Thr

965 970 975

Ala Leu Met Thr Ile Lys Val Leu Pro Ser Asn Met Thr Leu Thr Val

980 985 990

Glu Leu Gly Ser Lys Thr Lys Pro Gly Val Leu Val Leu Ser Leu Leu

995 1000 1005

Gly Val Leu Ser Gly Glu Asn Arg Leu Met Ile Glu Thr Leu Ile

1010 1015 1020

Lys Asn Lys Asp Ala Gly Leu Lys Ala Pro Thr Ser Thr Leu Gly

1025 1030 1035

Thr Gly Leu Arg Lys Asp Leu Asp Glu Leu Phe Asp Asp Leu Asp

1040 1045 1050

Val Arg Ser Ser Gly Ala Arg Lys Thr Leu Glu Asp Arg Leu Leu

1055 1060 1065

Asn Thr Leu Pro Ala Asp Gln Arg Glu Glu Leu Gly Leu Met Phe

1070 1075 1080

Gln Asn Asp Ile Arg Asp Gly Thr Ser Thr Met Thr Leu Asp Glu

1085 1090 1095

Ala Leu Ile Gln Ala Glu Met Ala Val Lys Lys Arg Arg Ser Ala

1100 1105 1110

Phe Ile Leu Ala Ala Leu Pro Val Leu Arg Ala Gln Leu Val Glu

1115 1120 1125

Arg Ser Leu Ile Gly Ala Ile Gly Lys Ala Val Pro Gly Leu Asp

1130 1135 1140

Pro Ser Val Leu Ala Met Leu Gly Thr Gln Val Phe Lys Gln His

1145 1150 1155

Asp Lys Ser Ala Thr Lys Val Val Glu Asp Ile Cys Ser Asp Tyr

1160 1165 1170

Val Ser Asn Lys Gly Ala Ser Glu Val Ser Thr Ala Phe Phe Cys

1175 1180 1185

Pro Ala Ala Ser Asp Thr Tyr Gln Phe His Phe Thr Pro Leu Gln

1190 1195 1200

Asn Ala Glu Gln Asn Gly Gln Asn Asn Ser Ser Val Pro Leu Phe

1205 1210 1215

Ser Val Asn Gly Val Glu Ile Pro Val Leu Lys Ala Gly Asp Gly

1220 1225 1230

Asn Gly Trp Gln Ser Val Pro Thr Leu Leu Ala Thr Gly Lys Pro

1235 1240 1245

Tyr Leu Leu Ser Ser Ser Thr Ser Leu Gly His Ala Gln Trp Thr

1250 1255 1260

Thr Lys Gln Ser Thr Gln Pro Gln Lys Phe Val Lys Ser Thr Leu

1265 1270 1275

Ile Pro Ala Asp Ile Ile Thr Ser Val Ser Asn Glu Leu Leu Thr

1280 1285 1290

Val Val His Phe Ala Gln Leu Met Lys Lys Leu Asn Leu Gly Leu

1295 1300 1305

Glu Glu Phe Lys Tyr Leu Ser Ser Asp Ser Thr Ser Ser Met Gln

1310 1315 1320

Val Asp Leu Asn Lys Leu Thr Ile Asp Gly Leu Cys Gln Leu Glu

1325 1330 1335

Lys Tyr Cys Thr Leu Arg Asp Ser Val Ser Ser Gly Pro Asp Ser

1340 1345 1350

Leu Ile Gly Phe Phe Ala Trp Leu Gly Ser Gly Gln Tyr Asp Gly

1355 1360 1365

Lys Thr Thr Leu Ala Thr Arg Leu Ala Ala Ala Thr Arg Trp Asp

1370 1375 1380

Gln Leu Gln Leu Asn Thr Thr Leu Glu Leu Lys Tyr Pro Gly Leu

1385 1390 1395

Thr Glu Lys Asp Ile Ile Asp Arg Phe Ala Ser Ser Leu Asp Glu

1400 1405 1410

Leu Cys Ser Leu Gly Asp Val Ile Thr Leu Ser Gly His Leu Gly

1415 1420 1425

Gly Ala Ser Gly Arg Arg Ala Ala Gln Pro Leu Leu Val Leu Tyr

1430 1435 1440

Lys Leu Ala Val Pro Ala Pro Pro Thr Glu Thr Asp Trp Asp Met

1445 1450 1455

Glu Thr Ala Ser Ala Leu Glu Leu Cys Leu Gly Pro Glu Gln Ala

1460 1465 1470

Ala Gln Cys Arg Ser Glu Leu Arg Glu Thr Gln Arg Thr Ala Tyr

1475 1480 1485

Val Gln Phe Leu Leu Gln Arg Lys Tyr Phe Gln Arg Leu Gly Val

1490 1495 1500

Thr Asp Ala Asp Gly Leu Phe Ala His Phe Met Leu Asp Val Gln

1505 1510 1515

Met Gly Ala Gln Leu Glu Ile Thr Arg Met Lys Ala Ala Ile Ser

1520 1525 1530

Thr Val Gln Leu Phe Val Gln Arg Val Leu Leu Gly Leu Glu Ala

1535 1540 1545

Pro Ser Gly Val Leu Asp Ala Arg Ile Asp Lys Asp Lys Trp Ala

1550 1555 1560

Trp Met Gln Arg His Asn Ile Trp Gln Ala Thr Arg Lys Ala Phe

1565 1570 1575

Leu Tyr Pro Glu Asn Trp Ile Asp Pro Ser Leu Arg Asp Asp Lys

1580 1585 1590

Thr Pro Leu Phe Glu Ala Tyr Glu Ser Ala Ile Met Ser Lys Asp

1595 1600 1605

Leu Ser Trp Asp Ser Phe Ser Gln Ser Met Lys Asp Tyr Val Gln

1610 1615 1620

Ser Leu Leu Gly Ile Ala Asp Leu Ser Ile Glu Ala Tyr Leu Arg

1625 1630 1635

Glu Leu Arg Pro Asp Glu Val Glu Ile Tyr His Phe Phe Gly Arg

1640 1645 1650

Thr Arg Ser Ala Pro Phe Glu Phe Tyr Tyr Arg Ala Met Gln Ile

1655 1660 1665

Val Lys Ser Gly Ser Gly Glu Gly Leu Val Phe Trp Ser Pro Trp

1670 1675 1680

Thr Lys Val Gly Val Glu Ala Pro Thr Tyr Asp Thr Asp Trp Asn

1685 1690 1695

Gly Lys Thr Leu Asp Lys Gly Gly Cys Tyr Leu Val Pro Val Val

1700 1705 1710

Arg Asn Lys Arg Leu Phe Leu Tyr Leu Pro Gln Leu Met Ala Lys

1715 1720 1725

Pro Val Ala Pro Thr Pro Asn Met Thr Met Glu Asp Met Ala Lys

1730 1735 1740

Lys Val Pro Val Thr Thr Gly Ala Tyr Thr Trp Glu Val Arg Met

1745 1750 1755

Gly Trp Thr Glu Phe Val Asp Gly Gln Trp Thr Pro Lys Arg Val

1760 1765 1770

Leu Gln Thr Pro Leu Val Val Asn Trp Ile Pro Pro Thr Thr Glu

1775 1780 1785

Lys Pro Thr Asp Ile Glu Gly Leu Pro Ser Val Asp Lys Phe Val

1790 1795 1800

Phe Ser Ala Glu Thr Thr Gly Pro Asp Val Lys Ile Gln Val Gly

1805 1810 1815

Tyr Arg Gly Thr Ile Asp Gly Met Leu His Tyr Ile Gly Arg Phe

1820 1825 1830

Asp Val Ile Asp Glu Arg Ile Glu Thr Ile Lys Val Thr Ser Gln

1835 1840 1845

Thr Asp Lys Leu Gly Lys Ala Leu Asp Thr Ser Phe His Lys Leu

1850 1855 1860

Thr Trp Glu Ala Glu Pro Asn Ile Lys Glu Thr Met Gly Gln Ala

1865 1870 1875

Gly Glu Leu Lys Glu Pro Asp Ser Ser Leu Tyr Ser Met Leu Thr

1880 1885 1890

Lys Ala Glu Glu Thr Pro Leu Leu Ala Ile Gly Lys Arg Asp Tyr

1895 1900 1905

Lys Arg Asn Leu Thr Trp Thr Leu Ser Tyr Ala Asp Lys Thr Asn

1910 1915 1920

Asn Thr Asn Lys Thr Ala Gly Leu Val Val Asp Glu Arg Arg Gly

1925 1930 1935

Gly Ala Asp Gly Thr Thr Phe Phe Met Tyr Pro Tyr Gln Thr Pro

1940 1945 1950

Glu Asp Lys Lys Lys Lys Thr Val Pro Leu Ala Thr Asn Leu Met

1955 1960 1965

Tyr Asp Gln Ser Arg Glu Glu Ile Val Glu His Ser Ala Ala Arg

1970 1975 1980

Glu Met Met Glu Ala Val Cys Gln Thr Asp Gly Leu Asn Met Leu

1985 1990 1995

Phe Asp Thr Met Asp Thr Asn Leu Thr Lys Asn His Asp Tyr Gly

2000 2005 2010

Lys Ala Val Val Arg Ser Asp Met Ser Asn Tyr His Glu Leu Thr

2015 2020 2025

Thr Pro Tyr Ala Ile Tyr Asn Trp Glu Leu Gly Leu His Ala Val

2030 2035 2040

Leu Leu Ala Ile Asp Arg Phe Tyr Ala Thr Gln Gln Phe Glu Leu

2045 2050 2055

Ala Leu Lys Ala Ala Arg Leu Ile Phe Asp Pro Thr Thr Asn Pro

2060 2065 2070

Pro Thr Gly Cys Ser Ala Asp Glu Ala Ala Ala Ala Cys Trp Arg

2075 2080 2085

Phe Arg Pro Phe Arg Asp Leu Ala Glu His Lys Ile Gly Met Val

2090 2095 2100

Asp Val Phe Lys Gly Trp Pro Ser Asp Gly Asn Leu Glu Ile Ala

2105 2110 2115

Val Ser Glu Arg Arg Ser Asn Pro Ser Thr Val His Ser Thr Ala

2120 2125 2130

Arg Gly Arg Pro Gln Ala Tyr Met Lys Trp Val Ile Met Lys Tyr

2135 2140 2145

Ile Glu Ile Leu Ile Ser Ala Gly Asp Glu Tyr Phe Arg Gln Gly

2150 2155 2160

Ser Met Glu Thr Leu Pro Leu Ala Ile His His Tyr Val Glu Ala

2165 2170 2175

Ala His Val Leu Gly Pro Asp Pro Pro Arg Val Pro Gln Leu Ala

2180 2185 2190

Lys Ser Val Val Lys Thr Phe Arg Glu Ile Gly Ser Pro Glu His

2195 2200 2205

Lys Val Asp Leu Glu Leu Ala Phe Pro Phe Leu Cys Glu Ile Glu

2210 2215 2220

Arg Arg Gly Ser Lys Arg Ala Asp Gly Asp Ser Arg Arg Arg Ser

2225 2230 2235

Pro Leu Leu Cys Ile Leu Thr Thr Thr Tyr Phe Ser Leu Pro Pro

2240 2245 2250

Asn Pro Lys Tyr Ala Ser Leu Arg Val Leu Val Gln Asp Arg Leu

2255 2260 2265

Tyr Lys Ala Arg Asn Asn Leu Asp Ile Asn Gly Arg Pro Ile Val

2270 2275 2280

Tyr Ser Met Ser Glu Pro Phe Ile Asp Pro Gly Asp Ala Met Arg

2285 2290 2295

Ala Leu Ala Gln Gly Gly Ala Gly Ala Val Gly Ser Leu Met Asn

2300 2305 2310

Asp Ser Asp Ser Pro Met Pro Tyr Gln Arg Phe Ser Phe Leu Ile

2315 2320 2325

Ser Lys Ala Leu Glu Leu Cys Asn Glu Leu Arg Ser Met Gly Glu

2330 2335 2340

Gln Phe Leu Ser Val Arg Glu Arg His Asp Ala Glu Ser Leu Ala

2345 2350 2355

Gln Leu Lys Asn Arg Gln Asp Ser Met Arg Gln Lys Met Ile Leu

2360 2365 2370

Glu Val Arg Leu Ser Gln Thr Glu Glu Ile Leu Lys Thr Ile Glu

2375 2380 2385

Ser Leu Gln Gln Ser Arg Ala Ser Thr Val Ser Gln Leu Glu Tyr

2390 2395 2400

Tyr Leu Arg Leu Thr Gly Asp Ser Leu Asp Leu Ile Pro Gly Asp

2405 2410 2415

Glu Lys Asp Glu Trp Gln Asp Ile Arg Gln Asp Ile Ala Thr Pro

2420 2425 2430

Ile Ser Asp Asp Leu Arg Met Ser Pro Phe Glu Thr Met Glu Leu

2435 2440 2445

Ala Ser Ala Ala Val Ala Ser Thr Leu Asn Val Ala Ala Ala Gly

2450 2455 2460

Met Asp Thr Leu Ala Gly Phe Leu Lys Ala Phe Pro Asn Val Thr

2465 2470 2475

Thr Asn Ala Gln Pro Met Gly Cys Gly Val Thr Val Lys Ala Asp

2480 2485 2490

Ala Ser Asn Ala Ala Gln Leu Thr Leu Gly Leu Ala Ser Ala Thr

2495 2500 2505

Lys Thr Tyr Ala Leu Ile Ala Ser Glu Ala Gly Ser Met Ser Ala

2510 2515 2520

Arg Ile Gly Gly Leu Thr Lys Gln Leu Gln Glu Arg Arg Met Gln

2525 2530 2535

Ala Asn Ile Arg Gly Arg Glu Ile Lys Asn Leu Asp Lys Gln Ile

2540 2545 2550

Glu Ile Gln Arg Lys Arg Leu Asp Ile Asn Ala Lys Glu Ile Leu

2555 2560 2565

Ala Gln Arg Ser Glu Val Glu Tyr Ala Asn Glu Thr Glu Val Trp

2570 2575 2580

Tyr Arg Ser Lys Tyr Thr Asn Ala Asn Leu Tyr Ser Trp Leu Glu

2585 2590 2595

Gly Ser Val Arg Ser Ile His Tyr Asp Leu Tyr Gly Leu Ala Ser

2600 2605 2610

Asp Met Cys Arg Arg Ala Glu Arg Ala Phe Arg Phe Glu Arg Gly

2615 2620 2625

His Gln Ala Ser Ala Ala Phe Leu Arg Ser Gly Gly Tyr Trp Asp

2630 2635 2640

Asn Ser Arg Asp Gly Leu Leu Ala Ala Gln Gln Leu Ala Leu Asp

2645 2650 2655

Leu Arg Arg Met Glu Ala Ala Tyr Leu His Lys Pro Gly His Asp

2660 2665 2670

Trp Glu Leu Ser Lys Asn Ile Ser Leu Arg Lys Thr Asn Pro His

2675 2680 2685

Ala Leu Leu Thr Leu Arg Glu Lys Gly Thr Thr Thr Phe Ser Ile

2690 2695 2700

Pro Glu Leu Leu Phe Asp Leu Asp Phe Pro Gly His Tyr Met Arg

2705 2710 2715

Arg Leu Lys Ser Val Ala Val Thr Ile Pro Cys Val Ile Gly Pro

2720 2725 2730

Tyr Thr Thr Leu Ala Ala Thr Leu Ser Leu Thr Arg His Thr Tyr

2735 2740 2745

Arg Val Ser Ala Ala Ala Gln Ser Gly Asp Asp Tyr Leu Leu Ala

2750 2755 2760

Asn Ser Ser Asp Gly Ser Phe Arg Thr Asp Pro Ile Pro Ile Ser

2765 2770 2775

Ala Val Ala Thr Ser His Ala Val Gln Asp Thr Gly Ser Phe Asp

2780 2785 2790

Phe Gly Phe Asn Gln Ser Asn Ile Ala Asn Thr Asp Tyr Gly Pro

2795 2800 2805

Phe Glu Gly Ala Gly Ala Ile Ser Asn Trp Lys Leu Glu Leu Pro

2810 2815 2820

Pro Lys Thr Thr Gln Pro Phe Asp Tyr Ser Thr Ile Ser Asp Val

2825 2830 2835

Val Leu His Ile Lys Tyr Thr Ser Ile Asp Gly Gly Pro Ile Leu

2840 2845 2850

Lys Arg Ser Ala Ser Asp Ala Val Lys Lys Gln Cys Ala Arg Thr

2855 2860 2865

Asp Ser Leu Gly Val His Asp Gly Leu Trp Gly Phe Val Glu Val

2870 2875 2880

Arg Asn Glu Ala Thr Asn Gln Trp Phe Lys Phe Ser Ser Thr Leu

2885 2890 2895

Ser Gln Thr Ala Leu Ala Arg Thr Ala Thr Leu Asp Leu Gly Pro

2900 2905 2910

Ala Ile Thr Ser Arg Leu Pro Phe Trp Thr Lys Asn Arg Asp Val

2915 2920 2925

Lys Ile Glu Thr Leu Thr Leu Ala Ile Thr Gly Ala Asp Ala Gly

2930 2935 2940

Leu Ala Lys Asp Leu Ser Ile Pro Ala Leu Gly Ser Ser Asp Trp

2945 2950 2955

Asp Cys Thr Thr Leu Gly Asp Ile Ala Leu Leu Ser Ile Ala Gly

2960 2965 2970

Leu Gly Asp Ile Val Ser Leu Lys Gln Glu Glu Gly Arg

2975 2980 2985

<210>11

<211>6084

<212>DNA

<213>Tannerella forsythensis (ATCC 43037)

<400>11

atgagaataa taaatatatc catagagata atatgtacct gccttatcat tggagtgaca 60

ggctatgcac agaagacaaa tgtttatgcg gcagggaacg aggcttcttc ggacaattat 120

gatccatccg gatatcgtat atggggaaac tatcgcaatg agacaagtga tgccaatgag 180

ttagacgctc ggcaactacc ctccttctat tacaagatat taaaaaacag gttagaaaac 240

aactattcac cggaagagaa aagaaccttt gcacctgcac ccttgtcaag aggtatggct 300

gtcggttcaa cagccggtat ggctgaaatt actctcacgg gagccgctaa ttatagtgtt 360

ccgatcgaag ttccggaggg tattgccgga tttaagcctg aggtatccgt tcggtatagt 420

agtcaatcgg gggtcggttt attgggatac gggtggaatt tgtcggcatt ttccgtcata 480

tcacgcagtg gtaagacatt ctatcatgat gggatgtcaa aagctcctgc gttatcgtat 540

gaagataacg tgatgttgga cggacaaagg ctgatgttga tttccgggca gaatctgatg 600

aacggagcta aatacaggct ggaaaatgat ccgacgatag atattacgta taagatgatc 660

ggttcattcc agggatttac agtaagaagt aaggatggaa caataagaga attcggtgtt 720

acttcagatt caaacatcga aacttcggat ggtactgctt tgttttggct gttatctcga 780

gtgattgata aacaaggaaa tgtaatctct tatcaatatg aagaagtaat aaacaacgga 840

gagttttatc taaatcgtat agaatatgca tccggacgca gtattcggtt ttcatacgaa 900

acaagaaaag ataagcaaac aggatattat gcaggagcgg tattaaacag caacaaaatt 960

ctgaaaaata tatctaccta tatcggtcag atgcagttta agcaatatca gtttaattat 1020

aatacgtacg agaacggtct ttatacccag ctgacggaaa ttattgaaag cggacaaaat 1080

ggccagagat ataatccgac ccgcatatat tatggttatc cggatccata taaaaatgag 1140

gatattgtta ctttgtcgga acatcgaaaa ggaaataagc cgctgtttgc cgattttaac 1200

ggcgatggac gtatggattt tctgtcgtat ccggaagaat tatcggataa tccgaaagaa 1260

gatgtagcca ccttgttttt atcgcttcac ggacttggcg gaacgtattt tgccaagaaa 1320

tgtacgatcc cgatgcgtgc tttcggagaa tttcgatatt ttatgttggc agacgtgaac 1380

ggcgataaga agatggatgt cattcatgtt tccagagcgg ataatggaac ggaacgctat 1440

aactattatg tgtttgacgg agagaagctc gtgtatcaat ataagggttt taatacacat 1500

ggagacgaag catttgtcgg agattttgat ggggatggga ggcatgatat tttaattaaa 1560

aacaattcga aggtgtatga tggcgaagga cgtgagattg cctcgggagg cattaccgac 1620

tggggatcgg attatattaa gtattactat ccgaacagta gatatatatg tgatttgaat 1680

ggaaacggaa agtcggaatt attagtcatc gacaagcatg gagctaaagt ttatgagttg 1740

aatgaacggc agtttgtgga attgccggaa ttcaggacct ccctgataaa aaattactat 1800

ttcccttatt tcggcgactt taacggagat ggtaaaacgg atgtcttgat acagcgatgg 1860

caccagggag attatgacga tgtaagtatc cttttttcaa ccgggaaagg atatgtaaaa 1920

caggatgttt taaatgcgga tattcgggct aaagtatttg tggcagattt taacaaagat 1980

gggaaatcgg atatttttca tatggagatc gtaaataatg ctgtcagaat gaaggtgggg 2040

atttttcacg gaaatggctt tcataccact tatcactcat cgaatttacg acttgaagat 2100

gtctatttat catataataa tatcgaatat gataattatc tgtttcaagt agctgatttt 2160

gatggggatg gcagttcgga gttctgttgt gcccgtcata tgaatgctta cattatcagg 2220

tctttttccg atcctcagaa tctgcttgtg gaaacaatct cggatggatt aggtgcatat 2280

acttcatttc aatatgcccc gataacaagt aattccgttt gtaccgtcac gggaaataac 2340

gaagcttttc ccgtaaccga cagtcgattc cctctatatg tagtcagcaa tatcacacag 2400

agtacgggag ggtattccga aacgacaaga tatcgatata aagaccctcg tagccatatg 2460

cagggaaaag gatttctggg attcggcgaa gtggaatcga tagatgataa taaagaccga 2520

aaagtaatta ctacatacgg atacgagaag gattattttt atccttttat taaggaacag 2580

aagatcatga cacgttccgg gatgaaaatt tctacttcgg tgtatgaaaa ttcatatgtc 2640

tataatggtt ccaaacgagt tgtcccctat gtgcggaaaa gtacaaccac cgatcatctg 2700

acaggagtag tgaagactgc tgaatgcact caaatcgata catgggctaa cccgttaagc 2760

attgttacac gccatggaaa tgatgtgact gaaacggtca ccgcatctta tattaaccgt 2820

gaagcagaga acctgtggat aatcggtctg cctcaatctg tagaaaagag agtaaccaag 2880

ggaacgggaa catggataga caagcaggta tttacgtata atgccggata tttgccccag 2940

aaaatagtca attttacagg ggatgggaac aaacagacat cagaagatgt ttttgattat 3000

gacagatacg gaaatatgat tacgcattcg acacgtgcct atgcatcgcc tcatgtattg 3060

acaaccagga cggaatactc gtccgacggt ctgtatatgc ttagaaccat cgacccgttg 3120

tcgagagtca cgactcatac ctacaattcg tcggggcagc ttgcttcaac aaaagatttt 3180

ctgaatacta cgactgcgta tgaatatgat ggtatgggaa gattggtaaa aaccgtctat 3240

ccggatcaaa cccagtcgtc ggttgtttat tcatgggaaa atgctgttgt aaacagcgtg 3300

tatggcatga cggagacgct cacgggaaaa ccggaacgaa aaatatattt cgatgccttc 3360

ggaagaaaag taagagagtg catccggcaa acggatggac aagacgtatg tacggatacg 3420

aaatatgaca atgccggccg tgtctcccag gaatcattgc cttttaaagg aggtgccgct 3480

tcaaaatgga atacttatgg atacgacggc tacggccgac tttcccaaca gacccatgct 3540

tccggaaaaa cgacgactta tacgtatgcc ggaaacagta ttacggaaac aaaaaacggg 3600

atatctcata aaagtgtcta taatgcaatg ggtgaacagg tcagtgttac ggatcctgcc 3660

ggtaccatta cttatacgtt gcgtcccgat ggccagccgg taacgatcac agctccggga 3720

aatgttaaaa caaccttttc ttatgacgct tacgggcgac agacagccat acatgatccg 3780

agcgccggta atcgcacctt cgcttacgat gcttcaggca atcttcaacg cgaaacggat 3840

gccgacaatc gtgtcaagac gatgagttat gacgtatatg ggaggcttac gtcgaaggtg 3900

ttacccgagt ttactacttc gtatgcatat aacggctatg gacaactgac gacggagact 3960

tcaaacaacg gaatatcatc cgtatacgaa tatgacagtt acggaagatt ggccaaagag 4020

cgcaataatg tccccgacgg taaatggctt gaaaaaacat atacgtatgc cgcagggaat 4080

cttgcgtctg ttcgttacgc atcacagtcg ggggctatcg gtacggaagc atatacctac 4140

tcgcatggcc atatgaacgg tatccgctgg ggaagcagcc ctgtatggac actcaatgcg 4200

gaaaatccgt tcagccagcc tttgtcggtt acgacagggc cggtaacgcg tacttatacg 4260

tacgatgtct atgggattcc gacgggccgg accgctcaat cgacagccgg gggtacgttc 4320

ttgaattcca cctatggttt tgatgcggcg agggggaatc tgacttatcg gaaagataac 4380

cggaggaaca aacaggaaaa ctttacgtac gacaatctga atcgtctgaa aacgtatgga 4440

ggcatcgtta tggattatga cccgaaaggg aatattacga aaaaaggcga tgtgggtaca 4500

tttcattatc agacgccgta taagccgtac gccctctccg gtgcggatat aggcacaaat 4560

aaagtaatcc ctccgagaga gcagacgata agatatactt catttgatcg accgtccgtc 4620

attaccgaaa acggctacga agcctcgttt atatataatg cctcgggcga tcgccaaaag 4680

atgacggtaa agaaaggggg taaaccgttc tatacgcgtt actaccttgg cggccgttac 4740

gaaacggacg ttatggggaa ttctcaaaag caccggcttt atatcggtgg ggacgcttat 4800

acggctccgg ccgtgtatat gaatacggga aacggttggg cgctttatta tatctgtcgc 4860

gattatcttg gtaatatgac tcatcttgta gcgagcaacg gtacggttgt tcaggagctg 4920

agttatgatg cgtggggacg tttgcgtaat ccggagacgc atgccgtcta tcttcccgac 4980

aacgagacgg aattaatgct tggtcgcggt tatacgggtc atgaacatct ttcgatgttc 5040

gggttgatca atatgaacgc ccgtttatat gatcccgttc tcggccgctt tcttagtccc 5100

gacccatacg tgcagatgcc ggacttcacc caaagcttca accggtactc gtattgttta 5160

aacaatccgc tggtgtatgt ggatcaagat ggagaaatag cctggttcgt ccctgttatt 5220

gtgggggcag tgataggtgc ttatagtgga ggggttattg ctaacgaagg tcaatataac 5280

cctgtaaaat gggattacaa ctcaggtaaa acttggggct acatgcttgg tggtgctgtt 5340

gtaggcggta taagtggttc tctcggttgg gcagtctcaa tttcgggtat gccaatggca 5400

aacacagcgg gaataatatc tgcttcgttt gtaaattctg ttggcacgca tatttacaca 5460

ggagggcaaa caccagtttc aatgagttta ggtgttgcct cttatgattt tacgaatggt 5520

tcttttggtc atctcggcaa aaaaggcaac aagtggtatg aaaacttggg atatggatta 5580

ggggcaatgg cgaatttgag tgatatatta attggcttta aacctcaaaa agttgatttg 5640

gttactgaaa attcagatgc gataggtcat tctgctattg tcaaacacga tacaagaaca 5700

ggcatcaagg gcaaaacaga tataaatgga ttaatatcag tgggacctga tagagttagt 5760

caaccagatg gttcgtggca ctggatgaaa ggaactaata aatggtcaac ttattcagca 5820

aaagagaact caagatggat gcaatcactt gatgttaatt ataatacaat taatcgctat 5880

tctaattggc ttaacaaaat ggaaaatacg ggtaaacttg tgtatagttt agaactaagt 5940

agctgtgtga ctcacacgtc attagcactt aatgcgtcag gcgtttttaa tataggtata 6000

cacccgtatt tacttcatgc tcaaatgtat ttatggggta acggaattag accttggtct 6060

tttaatcatt tttttaatcg ttag 6084

<210>12

<211>2027

<212>PRT

<213>Tannerella forsythensis (ATCC 43037)

<400>12

Met Arg Ile Ile Asn Ile Ser Ile Glu Ile Ile Cys Thr Cys Leu Ile

1 5 10 15

Ile Gly Val Thr Gly Tyr Ala Gln Lys Thr Asn Val Tyr Ala Ala Gly

20 25 30

Asn Glu Ala Ser Ser Asp Asn Tyr Asp Pro Ser Gly Tyr Arg Ile Trp

35 40 45

Gly Asn Tyr Arg Asn Glu Thr Ser Asp Ala Asn Glu Leu Asp Ala Arg

50 55 60

Gln Leu Pro Ser Phe Tyr Tyr Lys Ile Leu Lys Asn Arg Leu Glu Asn

65 70 75 80

Asn Tyr Ser Pro Glu Glu Lys Arg Thr Phe Ala Pro Ala Pro Leu Ser

85 90 95

Arg Gly Met Ala Val Gly Ser Thr Ala Gly Met Ala Glu Ile Thr Leu

100 105 110

Thr Gly Ala Ala Asn Tyr Ser Val Pro Ile Glu Val Pro Glu Gly Ile

115 120 125

Ala Gly Phe Lys Pro Glu Val Ser Val Arg Tyr Ser Ser Gln Ser Gly

130 135 140

Val Gly Leu Leu Gly Tyr Gly Trp Asn Leu Ser Ala Phe Ser Val Ile

145 150 155 160

Ser Arg Ser Gly Lys Thr Phe Tyr His Asp Gly Met Ser Lys Ala Pro

165 170 175

Ala Leu Ser Tyr Glu Asp Asn Val Met Leu Asp Gly Gln Arg Leu Met

180 185 190

Leu Ile Ser Gly Gln Asn Leu Met Asn Gly Ala Lys Tyr Arg Leu Glu

195 200 205

Asn Asp Pro Thr Ile Asp Ile Thr Tyr Lys Met Ile Gly Ser Phe Gln

210 215 220

Gly Phe Thr Val Arg Ser Lys Asp Gly Thr Ile Arg Glu Phe Gly Val

225 230 235 240

Thr Ser Asp Ser Asn Ile Glu Thr Ser Asp Gly Thr Ala Leu Phe Trp

245 250 255

Leu Leu Ser Arg Val Ile Asp Lys Gln Gly Asn Val Ile Ser Tyr Gln

260 265 270

Tyr Glu Glu Val Ile Asn Asn Gly Glu Phe Tyr Leu Asn Arg Ile Glu

275 280 285

Tyr Ala Ser Gly Arg Ser Ile Arg Phe Ser Tyr Glu Thr Arg Lys Asp

290 295 300

Lys Gln Thr Gly Tyr Tyr Ala Gly Ala Val Leu Asn Ser Asn Lys Ile

305 310 315 320

Leu Lys Asn Ile Ser Thr Tyr Ile Gly Gln Met Gln Phe Lys Gln Tyr

325 330 335

Gln Phe Asn Tyr Asn Thr Tyr Glu Asn Gly Leu Tyr Thr Gln Leu Thr

340 345 350

Glu Ile Ile Glu Ser Gly Gln Asn Gly Gln Arg Tyr Asn Pro Thr Arg

355 360 365

Ile Tyr Tyr Gly Tyr Pro Asp Pro Tyr Lys Asn Glu Asp Ile Val Thr

370 375 380

Leu Ser Glu His Arg Lys Gly Asn Lys Pro Leu Phe Ala Asp Phe Asn

385 390 395 400

Gly Asp Gly Arg Met Asp Phe Leu Ser Tyr Pro Glu Glu Leu Ser Asp

405 410 415

Asn Pro Lys Glu Asp Val Ala Thr Leu Phe Leu Ser Leu His Gly Leu

420 425 430

Gly Gly Thr Tyr Phe Ala Lys Lys Cys Thr Ile Pro Met Arg Ala Phe

435 440 445

Gly Glu Phe Arg Tyr Phe Met Leu Ala Asp Val Asn Gly Asp Lys Lys

450 455 460

Met Asp Val Ile His Val Ser Arg Ala Asp Asn Gly Thr Glu Arg Tyr

465 470 475 480

Asn Tyr Tyr Val Phe Asp Gly Glu Lys Leu Val Tyr Gln Tyr Lys Gly

485 490 495

Phe Asn Thr His Gly Asp Glu Ala Phe Val Gly Asp Phe Asp Gly Asp

500 505 510

Gly Arg His Asp Ile Leu Ile Lys Asn Asn Ser Lys Val Tyr Asp Gly

515 520 525

Glu Gly Arg Glu Ile Ala Ser Gly Gly Ile Thr Asp Trp Gly Ser Asp

530 535 540

Tyr Ile Lys Tyr Tyr Tyr Pro Asn Ser Arg Tyr Ile Cys Asp Leu Asn

545 550 555 560

Gly Asn Gly Lys Ser Glu Leu Leu Val Ile Asp Lys His Gly Ala Lys

565 570 575

Val Tyr Glu Leu Asn Glu Arg Gln Phe Val Glu Leu Pro Glu Phe Arg

580 585 590

Thr Ser Leu Ile Lys Asn Tyr Tyr Phe Pro Tyr Phe Gly Asp Phe Asn

595 600 605

Gly Asp Gly Lys Thr Asp Val Leu Ile Gln Arg Trp His Gln Gly Asp

610 615 620

Tyr Asp Asp Val Ser Ile Leu Phe Ser Thr Gly Lys Gly Tyr Val Lys

625 630 635 640

Gln Asp Val Leu Asn Ala Asp Ile Arg Ala Lys Val Phe Val Ala Asp

645 650 655

Phe Asn Lys Asp Gly Lys Ser Asp Ile Phe His Met Glu Ile Val Asn

660 665 670

Asn Ala Val Arg Met Lys Val Gly Ile Phe His Gly Asn Gly Phe His

675 680 685

Thr Thr Tyr His Ser Ser Asn Leu Arg Leu Glu Asp Val Tyr Leu Ser

690 695 700

Tyr Asn Asn Ile Glu Tyr Asp Asn Tyr Leu Phe Gln Val Ala Asp Phe

705 710 715 720

Asp Gly Asp Gly Ser Ser Glu Phe Cys Cys Ala Arg His Met Asn Ala

725 730 735

Tyr Ile Ile Arg Ser Phe Ser Asp Pro Gln Asn Leu Leu Val Glu Thr

740 745 750

Ile Ser Asp Gly Leu Gly Ala Tyr Thr Ser Phe Gln Tyr Ala Pro Ile

755 760 765

Thr Ser Asn Ser Val Cys Thr Val Thr Gly Asn Asn Glu Ala Phe Pro

770 775 780

Val Thr Asp Ser Arg Phe Pro Leu Tyr Val Val Ser Asn Ile Thr Gln

785 790 795 800

Ser Thr Gly Gly Tyr Ser Glu Thr Thr Arg Tyr Arg Tyr Lys Asp Pro

805 810 815

Arg Ser His Met Gln Gly Lys Gly Phe Leu Gly Phe Gly Glu Val Glu

820 825 830

Ser Ile Asp Asp Asn Lys Asp Arg Lys Val Ile Thr Thr Tyr Gly Tyr

835 840 845

Glu Lys Asp Tyr Phe Tyr Pro Phe Ile Lys Glu Gln Lys Ile Met Thr

850 855 860

Arg Ser Gly Met Lys Ile Ser Thr Ser Val Tyr Glu Asn Ser Tyr Val

865 870 875 880

Tyr Asn Gly Ser Lys Arg Val Val Pro Tyr Val Arg Lys Ser Thr Thr

885 890 895

Thr Asp His Leu Thr Gly Val Val Lys Thr Ala Glu Cys Thr Gln Ile

900 905 910

Asp Thr Trp Ala Asn Pro Leu Ser Ile Val Thr Arg His Gly Asn Asp

915 920 925

Val Thr Glu Thr Val Thr Ala Ser Tyr Ile Asn Arg Glu Ala Glu Asn

930 935 940

Leu Trp Ile Ile Gly Leu Pro Gln Ser Val Glu Lys Arg Val Thr Lys

945 950 955 960

Gly Thr Gly Thr Trp Ile Asp Lys Gln Val Phe Thr Tyr Asn Ala Gly

965 970 975

Tyr Leu Pro Gln Lys Ile Val Asn Phe Thr Gly Asp Gly Asn Lys Gln

980 985 990

Thr Ser Glu Asp Val Phe Asp Tyr Asp Arg Tyr Gly Asn Met Ile Thr

995 1000 1005

His Ser Thr Arg Ala Tyr Ala Ser Pro His Val Leu Thr Thr Arg

1010 1015 1020

Thr Glu Tyr Ser Ser Asp Gly Leu Tyr Met Leu Arg Thr Ile Asp

1025 1030 1035

Pro Leu Ser Arg Val Thr Thr His Thr Tyr Asn Ser Ser Gly Gln

1040 1045 1050

Leu Ala Ser Thr Lys Asp Phe Leu Asn Thr Thr Thr Ala Tyr Glu

1055 1060 1065

Tyr Asp Gly Met Gly Arg Leu Val Lys Thr Val Tyr Pro Asp Gln

1070 1075 1080

Thr Gln Ser Ser Val Val Tyr Ser Trp Glu Asn Ala Val Val Asn

1085 1090 1095

Ser Val Tyr Gly Met Thr Glu Thr Leu Thr Gly Lys Pro Glu Arg

1100 1105 1110

Lys Ile Tyr Phe Asp Ala Phe Gly Arg Lys Val Arg Glu Cys Ile

1115 1120 1125

Arg Gln Thr Asp Gly Gln Asp Val Cys Thr Asp Thr Lys Tyr Asp

1130 1135 1140

Asn Ala Gly Arg Val Ser Gln Glu Ser Leu Pro Phe Lys Gly Gly

1145 1150 1155

Ala Ala Ser Lys Trp Asn Thr Tyr Gly Tyr Asp Gly Tyr Gly Arg

1160 1165 1170

Leu Ser Gln Gln Thr His Ala Ser Gly Lys Thr Thr Thr Tyr Thr

1175 1180 1185

Tyr Ala Gly Asn Ser Ile Thr Glu Thr Lys Asn Gly Ile Ser His

1190 1195 1200

Lys Ser Val Tyr Asn Ala Met Gly Glu Gln Val Ser Val Thr Asp

1205 1210 1215

Pro Ala Gly Thr Ile Thr Tyr Thr Leu Arg Pro Asp Gly Gln Pro

1220 1225 1230

Val Thr Ile Thr Ala Pro Gly Asn Val Lys Thr Thr Phe Ser Tyr

1235 1240 1245

Asp Ala Tyr Gly Arg Gln Thr Ala Ile His Asp Pro Ser Ala Gly

1250 1255 1260

Asn Arg Thr Phe Ala Tyr Asp Ala Ser Gly Asn Leu Gln Arg Glu

1265 1270 1275

Thr Asp Ala Asp Asn Arg Val Lys Thr Met Ser Tyr Asp Val Tyr

1280 1285 1290

Gly Arg Leu Thr Ser Lys Val Leu Pro Glu Phe Thr Thr Ser Tyr

1295 1300 1305

Ala Tyr Asn Gly Tyr Gly Gln Leu Thr Thr Glu Thr Ser Asn Asn

1310 1315 1320

Gly Ile Ser Ser Val Tyr Glu Tyr Asp Ser Tyr Gly Arg Leu Ala

1325 1330 1335

Lys Glu Arg Asn Asn Val Pro Asp Gly Lys Trp Leu Glu Lys Thr

1340 1345 1350

Tyr Thr Tyr Ala Ala Gly Asn Leu Ala Ser Val Arg Tyr Ala Ser

1355 1360 1365

Gln Ser Gly Ala Ile Gly Thr Glu Ala Tyr Thr Tyr Ser His Gly

1370 1375 1380

His Met Asn Gly Ile Arg Trp Gly Ser Ser Pro Val Trp Thr Leu

1385 1390 1395

Asn Ala Glu Asn Pro Phe Ser Gln Pro Leu Ser Val Thr Thr Gly

1400 1405 1410

Pro Val Thr Arg Thr Tyr Thr Tyr Asp Val Tyr Gly Ile Pro Thr

1415 1420 1425

Gly Arg Thr Ala Gln Ser Thr Ala Gly Gly Thr Phe Leu Asn Ser

1430 1435 1440

Thr Tyr Gly Phe Asp Ala Ala Arg Gly Asn Leu Thr Tyr Arg Lys

1445 1450 1455

Asp Asn Arg Arg Asn Lys Gln Glu Asn Phe Thr Tyr Asp Asn Leu

1460 1465 1470

Asn Arg Leu Lys Thr Tyr Gly Gly Ile Val Met Asp Tyr Asp Pro

1475 1480 1485

Lys Gly Asn Ile Thr Lys Lys Gly Asp Val Gly Thr Phe His Tyr

1490 1495 1500

Gln Thr Pro Tyr Lys Pro Tyr Ala Leu Ser Gly Ala Asp Ile Gly

1505 1510 1515

Thr Asn Lys Val Ile Pro Pro Arg Glu Gln Thr Ile Arg Tyr Thr

1520 1525 1530

Ser Phe Asp Arg Pro Ser Val Ile Thr Glu Asn Gly Tyr Glu Ala

1535 1540 1545

Ser Phe Ile Tyr Asn Ala Ser Gly Asp Arg Gln Lys Met Thr Val

1550 1555 1560

Lys Lys Gly Gly Lys Pro Phe Tyr Thr Arg Tyr Tyr Leu Gly Gly

1565 1570 1575

Arg Tyr Glu Thr Asp Val Met Gly Asn Ser Gln Lys His Arg Leu

1580 1585 1590

Tyr Ile Gly Gly Asp Ala Tyr Thr Ala Pro Ala Val Tyr Met Asn

1595 1600 1605

Thr Gly Asn Gly Trp Ala Leu Tyr Tyr Ile Cys Arg Asp Tyr Leu

1610 1615 1620

Gly Asn Met Thr His Leu Val Ala Ser Asn Gly Thr Val Val Gln

1625 1630 1635

Glu Leu Ser Tyr Asp Ala Trp Gly Arg Leu Arg Asn Pro Glu Thr

1640 1645 1650

His Ala Val Tyr Leu Pro Asp Asn Glu Thr Glu Leu Met Leu Gly

1655 1660 1665

Arg Gly Tyr Thr Gly His Glu His Leu Ser Met Phe Gly Leu Ile

1670 1675 1680

Asn Met Asn Ala Arg Leu Tyr Asp Pro Val Leu Gly Arg Phe Leu

1685 1690 1695

Ser Pro Asp Pro Tyr Val Gln Met Pro Asp Phe Thr Gln Ser Phe

1700 1705 1710

Asn Arg Tyr Ser Tyr Cys Leu Asn Asn Pro Leu Val Tyr Val Asp

1715 1720 1725

Gln Asp Gly Glu Ile Ala Trp Phe Val Pro Val Ile Val Gly Ala

1730 1735 1740

Val Ile Gly Ala Tyr Ser Gly Gly Val Ile Ala Asn Glu Gly Gln

1745 1750 1755

Tyr Asn Pro Val Lys Trp Asp Tyr Asn Ser Gly Lys Thr Trp Gly

1760 1765 1770

Tyr Met Leu Gly Gly Ala Val Val Gly Gly Ile Ser Gly Ser Leu

1775 1780 1785

Gly Trp Ala Val Ser Ile Ser Gly Met Pro Met Ala Asn Thr Ala

1790 1795 1800

Gly Ile Ile Ser Ala Ser Phe Val Asn Ser Val Gly Thr His Ile

1805 1810 1815

Tyr Thr Gly Gly Gln Thr Pro Val Ser Met Ser Leu Gly Val Ala

1820 1825 1830

Ser Tyr Asp Phe Thr Asn Gly Ser Phe Gly His Leu Gly Lys Lys

1835 1840 1845

Gly Asn Lys Trp Tyr Glu Asn Leu Gly Tyr Gly Leu Gly Ala Met

1850 1855 1860

Ala Asn Leu Ser Asp Ile Leu Ile Gly Phe Lys Pro Gln Lys Val

1865 1870 1875

Asp Leu Val Thr Glu Asn Ser Asp Ala Ile Gly His Ser Ala Ile

1880 1885 1890

Val Lys His Asp Thr Arg Thr Gly Ile Lys Gly Lys Thr Asp Ile

1895 1900 1905

Asn Gly Leu Ile Ser Val Gly Pro Asp Arg Val Ser Gln Pro Asp

19l0 1915 1920

Gly Ser Trp His Trp Met Lys G1y Thr Asn Lys Trp Ser Thr Tyr

1925 1930 1935

Ser Ala Lys Glu Asn Ser Arg Trp Met Gln Ser Leu Asp Val Asn

1940 1945 1950

Tyr Asn Thr Ile Asn Arg Tyr Ser Asn Trp Leu Asn Lys Met Glu

1955 1960 1965

Asn Thr Gly Lys Leu Val Tyr Ser Leu Glu Leu Ser Ser Cys Val

1970 1975 1980

Thr His Thr Ser Leu Ala Leu Asn Ala Ser Gly Val Phe Asn Ile

1985 1990 1995

Gly Ile His Pro Tyr Leu Leu His Ala Gln Met Tyr Leu Trp Gly

2000 2005 2010

Asn Gly Ile Arg Pro Trp Ser Phe Asn His Phe Phe Asn Arg

2015 2020 2025

<210>13

<211>24

<212>DNA

<213>人工序列

<220>

<223>引物P1

<400>13

aggatcgtac gatggaacaa gagg 24

<210>14

<211>24

<212>DNA

<213>人工序列

<220>

<223>引物P2

<400>14

cgactgtgat gcgtaacgaa caga 24

<210>15

<211>24

<212>DNA

<213>人工序列

<220>

<223>引物P3

<400>15

gtccgacggt ctgtatatgc ttag 24

<210>16

<211>24

<212>DNA

<213>人工序列

<220>

<223>引物P4

<400>16

ccgaagaaat caatgcctgc cgat 24

<210>17

<211>28

<212>DNA

<213>人工序列

<220>

<223>引物P5

<400>17

taatgtcccc gacggtaaat ggcttgaa 28

<210>18

<211>27

<212>DNA

<213>人工序列

<220>

<223>引物P6

<400>18

gcgtctgttc gttacgcatc acagtcg 27

<210>19

<211>7542

<212>DNA

<213>人工序列

<220>

<223>融合8884(TcdB2/Tcp1GzC)

<400>19

atgcaaaatt cacaagattt tagtattacg gaactgtcac tgcccaaagg ggggggcgct 60

atcacgggaa tgggtgaagc attaaccccc actggaccgg atggtatggc cgcgctatct 120

ctaccattgc ctatttctgc cgggcgcggt tatgctcccg cattcactct gaattacaac 180

agcggcgccg gtaacagtcc atttggtctg ggttgggatt gcaacgttat gactatccgc 240

cgccgcaccc attttggcgt cccccattat gacgaaaccg ataccttttt ggggccagaa 300

ggcgaagtgc tggtggtagc ggatcaacct cgcgacgaat ccacattaca gggtatcaat 360

ttaggcgcca cctttaccgt taccggctac cgttcccgtc tggaaagcca tttcagccga 420

ttggaatatt ggcaacccaa aacaacaggt aaaacagatt tttggttgat atatagccca 480

gatgggcagg tgcatctact gggtaaatca ccgcaagcgc ggatcagcaa cccatcccaa 540

acgacacaaa cagcacaatg gctgctggaa gcctctgtat catcacgtgg cgaacaaatt 600

tattatcaat atcgcgccga agatgacaca ggttgcgaag cagatgaaat tacgcaccat 660

ttacaggcta cagcgcaacg ttatttacac atcgtgtatt acggcaaccg tacagccagc 720

gaaacattac ccggtctgga tggcagcgcc ccatcacaag cagactggtt gttctatctg 780

gtatttgatt acggcgaacg cagtaacaac ctgaaaacgc caccagcatt ttcgactaca 840

ggtagctggc tttgccgtca ggaccgtttt tcccgttatg aatatggctt tgagattcgt 900

acccgccgct tatgccgtca ggtattgatg taccatcacc tgcaagcact ggatagtaag 960

ataacagaac acaacggacc aacgctggtt tcacgcctga tactcaatta cgacgaaagc 1020

gcgatagcca gcacgctagt attcgttcgc cgagtgggac acgagcaaga tggtaatgtc 1080

gtcaccctgc cgccattaga attggcatat caggattttt caccgcgaca tcacgctcac 1140

tggcaaccaa tggatgtact ggcaaacttc aatgccattc agcgctggca gctagtcgat 1200

ctaaaaggcg aaggattacc cggcctgtta tatcaggata aaggcgcttg gtggtaccgc 1260

tccgcacagc gtctgggcga aattggctca gatgccgtca cttgggaaaa gatgcaacct 1320

ttatcggtta ttccttcttt gcaaagtaat gcctcgttgg tggatatcaa tggagacggc 1380

caacttgact gggttatcac cggaccggga ttacggggat atcatagtca acgcccggat 1440

ggcagttgga cacgttttac cccactcaac gctctgccgg tggaatacac ccatccacgc 1500

gcgcaactcg cagatttaat gggagccggg ctatccgatt tggtgctgat cggccctaag 1560

agcgtgcgtt tatatgccaa tacccgcgac ggctttgcca aaggaaaaga tgtggtgcaa 1620

tccggtgata tcacactgcc ggtgccgggc gccgatccac gtaagttggt ggcgtttagt 1680

gatgtattgg gttcaggtca agcccatctg gttgaagtaa gcgcgactaa agtcacctgc 1740

tggcctaatc tggggcgcgg acgttttggt caacccatta ccttaccggg attcagccag 1800

ccagcaaccg agtttaaccc ggctcaagtt tatctggccg atctggatgg cagcggtcca 1860

acggatctga tttatgttca tacaaaccgt ctggatatct tcctgaacaa aagtggcaat 1920

ggctttgctg aaccagtgac attacgcttc ccggaaggtc tgcgttttga tcatacctgt 1980

cagttacaaa tggccgatgt acaaggatta ggcgtcgcca gcctgatact gagcgtgccg 2040

catatgtctc cccatcactg gcgctgcgat ctgaccaaca tgaagccgtg gttactcaat 2100

gaaatgaaca acaatatggg ggtccatcac accttgcgtt accgcagttc ctcccaattc 2160

tggctggatg aaaaagccgc ggcgctgact accggacaaa caccggtttg ctatctcccc 2220

ttcccgatcc acaccctatg gcaaacggaa acagaagatg aaatcagcgg caacaaatta 2280

gtcacaacac ttcgttatgc tcgtggcgca tgggacggac gcgagcggga atttcgcgga 2340

tttggttatg tagagcagac agacagccat caactggctc aaggcaacgc gccagaacgt 2400

acgccaccgg cgctgaccaa aaactggtat gccaccggac tgccggtgat agataacgca 2460

ttatcaaccg agtattggcg tgatgatcag gcttttgccg gtttctcacc gcgctttacg 2520

acttggcaag ataacaaaga tgtcccgtta acaccggaag atgataacag tcgttactgg 2580

ttcaaccgcg cgttgaaagg tcaactgcta cgtagtgaac tgtacggatt ggacgatagt 2640

acaaataaac acgttcccta tactgtcact gaatttcgtt cacaggtacg tcgattacag 2700

cataccgaca gccgataccc tgtactttgg tcatctgtag ttgaaagccg caactatcac 2760

tacgaacgta tcgccagcga cccgcaatgc agtcaaaata ttacgctatc cagtgatcga 2820

tttggtcagc cgctaaaaca gctttcggta cagtacccgc gccgccagca gccagcaatc 2880

aatctgtatc ctgatacatt gcctgataag ttgttagcca acagctatga tgaccaacaa 2940

cgccaattac ggctcaccta tcaacaatcc agttggcatc acctgaccaa caataccgtt 3000

cgagtattgg gattaccgga tagtacccgc agtgatatct ttacttatgg cgctgaaaat 3060

gtgcctgctg gtggtttaaa tctggaactt ctgagtgata aaaatagcct gatcgcggac 3120

gataaaccac gtgaatacct cggtcagcaa aaaaccgctt ataccgatgg acaaaataca 3180

acgccgttgc aaacaccaac acggcaagcc ctgattgcct ttaccgaaac aacggtattc 3240

aaccagtcca cattatcagc gtttaacgga agcatcccgt ccgataaatt atcaacgacg 3300

ctggagcaag ctggatatca gcaaacaaat tatctattcc ctcgcactgg agaagataaa 3360

gtttgggtag cccatcacgg ctataccgat tatggtacag cggcacagtt ctggcgcccg 3420

caaaaacaga gcaacaccca actcaccggt aaaatcaccc tcatctggga tgcaaactat 3480

tgcgttgtgg tacaaacccg ggatgctgct ggactgacaa cctcagccaa atatgactgg 3540

cgttttctga ccccggtgca actcaccgat atcaatgaca atcagcacct tatcacactg 3600

gatgcattgg gccgaccaat cacattgcgc ttttggggaa ctgaaaacgg caagatgaca 3660

ggttattcct caccggaaaa agcatcattt tctccaccat ccgatgttaa tgccgctatt 3720

gagttaaaaa aaccgctccc tgtagcacag tgtcaggtct acgcaccaga aagctggatg 3780

ccagtattaa gtcagaaaac cttcaatcga ctggcagaac aagattggca aaagttatat 3840

aacgcccgaa tcatcaccga agatggacgt atctgcacac tggcttatcg ccgctgggta 3900

caaagccaaa aggcaatccc tcaactcatt agcctgttaa acaacggacc ccgtttacct 3960

cctcacagcc tgacattgac gacggatcgt tatgatcacg atcctgagca acagatccgt 4020

caacaggtgg tattcagtga tggctttggc cgcttgctgc aagccgctgc ccgacatgag 4080

gcaggcatgg cccggcaacg caatgaagac ggctctttga ttataaatgt ccagcatact 4140

gagaaccgtt gggcagtgac tggacgaacg gaatatgaca ataaggggca accgatacgt 4200

acctatcagc cctatttcct caatgactgg cgatacgtca gcaatgatag tgcccggcag 4260

gaaaaagaag cttatgcaga tacccatgtc tatgatccca taggtcgaga aatcaaggtt 4320

atcaccgcaa aaggttggtt ccgtcgaacc ttgttcactc cctggtttac tgtcaatgaa 4380

gatgaaaatg acacagccgc tgaggtgaag aaggtaaaga tgccgggatc cgacaacaag 4440

ggtcagacta tccgcactag gcctatgggc cgtaacgtgg caagcttggc tgcggattgt 4500

acctggtcca aaaccgttta tactccgtgg accactgttg aacacggtgc tggtagcatg 4560

gttctgcaat ccaacgctcg tgatgacccg gatgttggtc acttcttttc ccgcatcgcg 4620

tcttcccgct actcccagag ctggtacgat aagcgtaaac tgggtactgc tcaggaaaaa 4680

cgcgcagctg agaaatccgc ggtttattcc gatactccgc tgaccactca ctccggttct 4740

tgcggcctgc cggttcgcac catccagcaa gcaggcggta aaacctacac ccgcagctct 4800

atgtatgatg tgtctggcaa ccgtatccgc gacgttgact cctacgaacg taccgttgaa 4860

aaaatgctgt acgacaaact gggtcgtcag ctgcagacta ccggtatgga ttgtggcgaa 4920

tcctggctcc tgcttgacgc acagggtggc gagatcctga gctggaactg tcgcggttac 4980

tctttcatta ctcgttacga cccgctgcgt cgcgaaaccg aacgcctggt tgcgaaagcg 5040

gctgaaatgc cgaaactgat cagccgtatc acttacggcg aaacctgcgg tgacgcaatc 5100

aacctgaacc tgaacggtca ggtatggaaa gttgaggatc aggcaggcgt tcacattaac 5160

actcactata acattcgtgg tcactgcctg ggtaagaccc tgcaattcac caaagaatat 5220

aaacagctgg ttgattggaa actggatcag accctggaaa ctgaggttta tccgcatacc 5280

tatttctacg ataactatgg ccaggttctg caagaggaag acgaacaggg caaccgtacc 5340

cgccgtaact actcccgtca gggtcacgtg gtttctgtag acttctctag cattaaaggc 5400

cgtgactgga aatcttacct gtctggtgct accttctctg cggacggcct gccgattact 5460

atcaaatacg gcaacggtgt ggtttccgac tttttctacg atgacgaaag ccgtaacctg 5520

attagccaac gcaccactcg tccgtgccgt ggtcgtcgcg aactgctcca agatcgtacc 5580

catgtttacg actatgttgg tcgtcgcatt tttacttccg acggttccga acaggtaaaa 5640

tatttcggtg agagccgtgt taagccggaa tgggactaca cttacaacgc gactggcgca 5700

ctggtaatcg caaccggccg tgcgcagctg tctggcaaaa tcggtaacgg caaccagctg 5760

accccgcata acgctatgaa cggcctgaac ccgtctcgcg gtggcggtga cggtaacttg 5820

ctgtatcagt atcgcgaaac ttacgactac gatcgtgagg gtaacattct gatgatgaaa 5880

cacgaagcgc cggacatcaa aggcgttacc agctggaccc gtaactacca ctacgatgaa 5940

aagagcctgt tatccgacga tccacgtgtg aaatccaacc gtctgtctcg cacctccatc 6000

ggcgatacca acgaaggcaa atacatgtac gaaggctctg ctggcctgtc cggttgcatc 6060

accactctgc caaagttctc cgaactggat tggaacatga acaacatgct gagcttttct 6120

tccactcagt acgtaaacgc gggcaccccg gaacgtacct actatgtgta cgaccacgct 6180

ggtaaccgcg ttcgtaaagt taccgagact gcggctaaat ctggtgagga accgcgtaaa 6240

cagcgtgata ccctgttctt tggtggcgtg gaactgcaaa ccaaatccaa cggctctctt 6300

ctgtggacta cccgtgttaa aggtgatggt atcgtggctg tagttgaagt gaaccgtaac 6360

caggaaaccc cgctggtacg cttccaggct ggtcgtgaca tggaatttga cgatcaggcg 6420

cagctgatca gctacgagga atattctccg ttcggtgctg tggtttacgc tgcgatgtac 6480

ggcaacattg aggcaccacg cgcttaccgt ttcgcacgtt acgaacacga ttctgaaacc 6540

ggcctgtatc actgtggcca gcgttattac tgcccgtggc tgggtcgttg gacctcccca 6600

gatccgctgg gtgacgtgga tggtccaaac ctgttcgtat acgtgaacaa cgatccagtt 6660

aactcccacg acccgtctgg tacttccggc aagaaaacca aggaaggtac tcgcgaaatg 6720

tacgcagcgc cagatgacca gggcaaacgc cgtctggttg acgagaacaa agctgttgct 6780

gatcgcatcg caaagtacga acgcaaactg caacgtcagg aacgtaaaca acagcgtgcg 6840

atcgcgcgta tgagcggcac cgacccgatc ctgggttctc gtgcacgtta tgcggtaggc 6900

attgcggcta tgggcaacgc gctgggtcgt atctctggtt ccaccgaact gcatcacacc 6960

tacccgcagg aatatcgtga agagttctct gacatcgaca ttaacgttga ccgtacctct 7020

gtgagcattt ccaaagaggc gcactatatc tgcacttacg gtagcatcct ggacaacctg 7080

gtagcaacca acaaacgctg gaaatctgaa tactttgaca ctccagacac tggttattac 7140

gaacagatgg agcagcatga gtggtacgac gatgacccag gcatgcagta cgcgatccgt 7200

ctgcacctgg catacgaagc gcgtactctg aacggtaaaa tcatggcgga tttcggcatc 7260

aacccgaaag gcgaagacgg tcgttccatg tttgttaact atgatgcggt aaccaaaatg 7320

cgtaccgctg gtcagcgtcg cggcgtacgt aacgacaacc tgatccatca cgaaacctgg 7380

ccgggtcgtc cgtttaacac cggcaacagc gataccgata acgcgggtgg cccggttcac 7440

ttccaggttg cagaggaaca gtacaacggc ctggatgctg acgcgcaggc gaaattcgat 7500

gacctgcgca accaaatgga ggcgctccta ggcaaacgct aa 7542

<210>20

<211>2513

<212>PRT

<213>人工序列

<220>

<223>8884 TcdB2/Tcp1GzC融合肽

<400>20

Met Gln Asn Ser Gln Asp Phe Ser Ile Thr Glu Leu Ser Leu Pro Lys

1 5 10 15

Gly Gly Gly Ala Ile Thr Gly Met Gly Glu Ala Leu Thr Pro Thr Gly

20 25 30

Pro Asp Gly Met Ala Ala Leu Ser Leu Pro Leu Pro Ile Ser Ala Gly

35 40 45

Arg Gly Tyr Ala Pro Ala Phe Thr Leu Asn Tyr Asn Ser Gly Ala Gly

50 55 60

Asn Ser Pro Phe Gly Leu Gly Trp Asp Cys Asn Val Met Thr Ile Arg

65 70 75 80

Arg Arg Thr His Phe Gly Val Pro His Tyr Asp Glu Thr Asp Thr Phe

85 90 95

Leu Gly Pro Glu Gly Glu Val Leu Val Val Ala Asp Gln Pro Arg Asp

100 105 110

Glu Ser Thr Leu Gln Gly Ile Asn Leu Gly Ala Thr Phe Thr Val Thr

115 120 125

Gly Tyr Arg Ser Arg Leu Glu Ser His Phe Ser Arg Leu Glu Tyr Trp

130 135 140

Gln Pro Lys Thr Thr Gly Lys Thr Asp Phe Trp Leu Ile Tyr Ser Pro

145 150 155 160

Asp Gly Gln Val His Leu Leu Gly Lys Ser Pro Gln Ala Arg Ile Ser

165 170 175

Asn Pro Ser Gln Thr Thr Gln Thr Ala Gln Trp Leu Leu Glu Ala Ser

180 185 190

Val Ser Ser Arg Gly Glu Gln Ile Tyr Tyr Gln Tyr Arg Ala Glu Asp

195 200 205

Asp Thr Gly Cys Glu Ala Asp Glu Ile Thr His His Leu Gln Ala Thr

210 215 220

Ala Gln Arg Tyr Leu His Ile Val Tyr Tyr Gly Asn Arg Thr Ala Ser

225 230 235 240

Glu Thr Leu Pro Gly Leu Asp Gly Ser Ala Pro Ser Gln Ala Asp Trp

245 250 255

Leu Phe Tyr Leu Val Phe Asp Tyr Gly Glu Arg Ser Asn Asn Leu Lys

260 265 270

Thr Pro Pro Ala Phe Ser Thr Thr Gly Ser Trp Leu Cys Arg Gln Asp

275 280 285

Arg Phe Ser Arg Tyr Glu Tyr Gly Phe Glu Ile Arg Thr Arg Arg Leu

290 295 300

Cys Arg Gln Val Leu Met Tyr His His Leu Gln Ala Leu Asp Ser Lys

305 310 315 320

Ile Thr Glu His Asn Gly Pro Thr Leu Val Ser Arg Leu Ile Leu Asn

325 330 335

Tyr Asp Glu Ser Ala Ile Ala Ser Thr Leu Val Phe Val Arg Arg Val

340 345 350

Gly His Glu Gln Asp Gly Asn Val Val Thr Leu Pro Pro Leu Glu Leu

355 360 365

Ala Tyr Gln Asp Phe Ser Pro Arg His His Ala His Trp Gln Pro Met

370 375 380

Asp Val Leu Ala Asn Phe Asn Ala Ile Gln Arg Trp Gln Leu Val Asp

385 390 395 400

Leu Lys Gly Glu Gly Leu Pro Gly Leu Leu Tyr Gln Asp Lys Gly Ala

405 410 415

Trp Trp Tyr Arg Ser Ala Gln Arg Leu Gly Glu Ile Gly Ser Asp Ala

420 425 430

Val Thr Trp Glu Lys Met Gln Pro Leu Ser Val Ile Pro Ser Leu Gln

435 440 445

Ser Asn Ala Ser Leu Val Asp Ile Asn Gly Asp Gly Gln Leu Asp Trp

450 455 460

Val Ile Thr Gly Pro Gly Leu Arg Gly Tyr His Ser Gln Arg Pro Asp

465 470 475 480

Gly Ser Trp Thr Arg Phe Thr Pro Leu Asn Ala Leu Pro Val Glu Tyr

485 490 495

Thr His Pro Arg Ala Gln Leu Ala Asp Leu Met Gly Ala Gly Leu Ser

500 505 510

Asp Leu Val Leu Ile Gly Pro Lys Ser Val Arg Leu Tyr Ala Asn Thr

515 520 525

Arg Asp Gly Phe Ala Lys Gly Lys Asp Val Val Gln Ser Gly Asp Ile

530 535 540

Thr Leu Pro Val Pro Gly Ala Asp Pro Arg Lys Leu Val Ala Phe Ser

545 550 555 560

Asp Val Leu Gly Ser Gly Gln Ala His Leu Val Glu Val Ser Ala Thr

565 570 575

Lys Val Thr Cys Trp Pro Asn Leu Gly Arg Gly Arg Phe Gly Gln Pro

580 585 590

Ile Thr Leu Pro Gly Phe Ser Gln Pro Ala Thr Glu Phe Asn Pro Ala

595 600 605

Gln Val Tyr Leu Ala Asp Leu Asp Gly Ser Gly Pro Thr Asp Leu Ile

610 615 620

Tyr Val His Thr Asn Arg Leu Asp Ile Phe Leu Asn Lys Ser Gly Asn

625 630 635 640

Gly Phe Ala Glu Pro Val Thr Leu Arg Phe Pro Glu Gly Leu Arg Phe

645 650 655

Asp His Thr Cys Gln Leu Gln Met Ala Asp Val Gln Gly Leu Gly Val

660 665 670

Ala Ser Leu Ile Leu Ser Val Pro His Met Ser Pro His His Trp Arg

675 680 685

Cys Asp Leu Thr Asn Met Lys Pro Trp Leu Leu Asn Glu Met Asn Asn

690 695 700

Asn Met Gly Val His His Thr Leu Arg Tyr Arg Ser Ser Ser Gln Phe

705 710 715 720

Trp Leu Asp Glu Lys Ala Ala Ala Leu Thr Thr Gly Gln Thr Pro Val

725 730 735

Cys Tyr Leu Pro Phe Pro Ile His Thr Leu Trp Gln Thr Glu Thr Glu

740 745 750

Asp Glu Ile Ser Gly Asn Lys Leu Val Thr Thr Leu Arg Tyr Ala Arg

755 760 765

Gly Ala Trp Asp Gly Arg Glu Arg Glu Phe Arg Gly Phe Gly Tyr Val

770 775 780

Glu Gln Thr Asp Ser His Gln Leu Ala Gln Gly Asn Ala Pro Glu Arg

785 790 795 800

Thr Pro Pro Ala Leu Thr Lys Asn Trp Tyr Ala Thr Gly Leu Pro Val

805 810 815

Ile Asp Asn Ala Leu Ser Thr Glu Tyr Trp Arg Asp Asp Gln Ala Phe

820 825 830

Ala Gly Phe Ser Pro Arg Phe Thr Thr Trp Gln Asp Asn Lys Asp Val

835 840 845

Pro Leu Thr Pro Glu Asp Asp Asn Ser Arg Tyr Trp Phe Asn Arg Ala

850 855 860

Leu Lys Gly Gln Leu Leu Arg Ser Glu Leu Tyr Gly Leu Asp Asp Ser

865 870 875 880

Thr Asn Lys His Val Pro Tyr Thr Val Thr Glu Phe Arg Ser Gln Val

885 890 895

Arg Arg Leu Gln His Thr Asp Ser Arg Tyr Pro Val Leu Trp Ser Ser

900 905 910

Val Val Glu Ser Arg Asn Tyr His Tyr Glu Arg Ile Ala Ser Asp Pro

915 920 925

Gln Cys Ser Gln Asn Ile Thr Leu Ser Ser Asp Arg Phe Gly Gln Pro

930 935 940

Leu Lys Gln Leu Ser Val Gln Tyr Pro Arg Arg Gln Gln Pro Ala Ile

945 950 955 960

Asn Leu Tyr Pro Asp Thr Leu Pro Asp Lys Leu Leu Ala Asn Ser Tyr

965 970 975

Asp Asp Gln Gln Arg Gln Leu Arg Leu Thr Tyr Gln Gln Ser Ser Trp

980 985 990

His His Leu Thr Asn Asn Thr Val Arg Val Leu Gly Leu Pro Asp Ser

995 1000 1005

Thr Arg Ser Asp Ile Phe Thr Tyr Gly Ala Glu Asn Val Pro Ala

10l0 1015 1020

Gly Gly Leu Asn Leu Glu Leu Leu Ser Asp Lys Asn Ser Leu Ile

1025 1030 1035

Ala Asp Asp Lys Pro Arg Glu Tyr Leu Gly Gln Gln Lys Thr Ala

1040 1045 1050

Tyr Thr Asp Gly Gln Asn Thr Thr Pro Leu Gln Thr Pro Thr Arg

1055 1060 1065

Gln Ala Leu Ile Ala Phe Thr Glu Thr Thr Val Phe Asn Gln Ser

1070 1075 1080

Thr Leu Ser Ala Phe Asn Gly Ser Ile Pro Ser Asp Lys Leu Ser

1085 1090 1095

Thr Thr Leu Glu Gln Ala Gly Tyr Gln Gln Thr Asn Tyr Leu Phe

1100 1105 1110

Pro Arg Thr Gly Glu Asp Lys Val Trp Val Ala His His Gly Tyr

1115 1120 1125

Thr Asp Tyr Gly Thr Ala Ala Gln Phe Trp Arg Pro Gln Lys Gln

1130 1135 1140

Ser Asn Thr Gln Leu Thr Gly Lys Ile Thr Leu Ile Trp Asp Ala

1145 1150 1155

Asn Tyr Cys Val Val Val Gln Thr Arg Asp Ala Ala Gly Leu Thr

1160 1165 1170

Thr Ser Ala Lys Tyr Asp Trp Arg Phe Leu Thr Pro Val Gln Leu

1175 1180 1185

Thr Asp Ile Asn Asp Asn Gln His Leu Ile Thr Leu Asp Ala Leu

1190 1195 1200

Gly Arg Pro Ile Thr Leu Arg Phe Trp Gly Thr Glu Asn Gly Lys

1205 1210 1215

Met Thr Gly Tyr Ser Ser Pro Glu Lys Ala Ser Phe Ser Pro Pro

1220 1225 1230

Ser Asp Val Asn Ala Ala Ile Glu Leu Lys Lys Pro Leu Pro Val

1235 1240 1245

Ala Gln Cys Gln Val Tyr Ala Pro Glu Ser Trp Met Pro Val Leu

1250 1255 1260

Ser Gln Lys Thr Phe Asn Arg Leu Ala Glu Gln Asp Trp Gln Lys

1265 1270 1275

Leu Tyr Asn Ala Arg Ile Ile Thr Glu Asp Gly Arg Ile Cys Thr

1280 1285 1290

Leu Ala Tyr Arg Arg Trp Val Gln Ser Gln Lys Ala Ile Pro Gln

1295 1300 1305

Leu Ile Ser Leu Leu Asn Asn Gly Pro Arg Leu Pro Pro His Ser

1310 1315 1320

Leu Thr Leu Thr Thr Asp Arg Tyr Asp His Asp Pro Glu Gln Gln

1325 1330 1335

Ile Arg Gln Gln Val Val Phe Ser Asp Gly Phe Gly Arg Leu Leu

1340 1345 1350

Gln Ala Ala Ala Arg His Glu Ala Gly Met Ala Arg Gln Arg Asn

1355 1360 1365

Glu Asp Gly Ser Leu Ile Ile Asn Val Gln His Thr Glu Asn Arg

1370 1375 1380

Trp Ala Val Thr Gly Arg Thr Glu Tyr Asp Asn Lys Gly Gln Pro

1385 1390 1395

Ile Arg Thr Tyr Gln Pro Tyr Phe Leu Asn Asp Trp Arg Tyr Val

1400 1405 1410

Ser Asn Asp Ser Ala Arg Gln Glu Lys Glu Ala Tyr Ala Asp Thr

1415 1420 1425

His Val Tyr Asp Pro Ile Gly Arg Glu Ile Lys Val Ile Thr Ala

1430 1435 1440

Lys Gly Trp Phe Arg Arg Thr Leu Phe Thr Pro Trp Phe Thr Val

1445 1450 1455

Asn Glu Asp Glu Asn Asp Thr Ala Ala Glu Val Lys Lys Val Lys

1460 1465 1470

Met Pro Gly Ser Asp Asn Lys Gly Gln Thr Ile Arg Thr Arg Pro

1475 1480 1485

Met Gly Arg Asn Val Ala Ser Leu Ala Ala Asp Cys Thr Trp Ser

1490 1495 1500

Lys Thr Val Tyr Thr Pro Trp Thr Thr Val Glu His Gly Ala Gly

1505 1510 1515

Ser Met Val Leu Gln Ser Asn Ala Arg Asp Asp Pro Asp Val Gly

1520 1525 1530

His Phe Phe Ser Arg Ile Ala Ser Ser Arg Tyr Ser Gln Ser Trp

1535 1540 1545

Tyr Asp Lys Arg Lys Leu Gly Thr Ala Gln Glu Lys Arg Ala Ala

1550 1555 1560

Glu Lys Ser Ala Val Tyr Ser Asp Thr Pro Leu Thr Thr His Ser

1565 1570 1575

Gly Ser Cys Gly Leu Pro Val Arg Thr Ile Gln Gln Ala Gly Gly

1580 1585 1590

Lys Thr Tyr Thr Arg Ser Ser Met Tyr Asp Val Ser Gly Asn Arg

1595 1600 1605

Ile Arg Asp Val Asp Ser Tyr Glu Arg Thr Val Glu Lys Met Leu

1610 1615 1620

Tyr Asp Lys Leu Gly Arg Gln Leu Gln Thr Thr Gly Met Asp Cys

1625 1630 1635

Gly Glu Ser Trp Leu Leu Leu Asp Ala Gln Gly Gly Glu Ile Leu

1640 1645 1650

Ser Trp Asn Cys Arg Gly Tyr Ser Phe Ile Thr Arg Tyr Asp Pro

1655 1660 1665

Leu Arg Arg Glu Thr Glu Arg Leu Val Ala Lys Ala Ala Glu Met

1670 1675 1680

Pro Lys Leu Ile Ser Arg Ile Thr Tyr Gly Glu Thr Cys Gly Asp

1685 1690 1695

Ala Ile Asn Leu Asn Leu Asn Gly Gln Val Trp Lys Val Glu Asp

1700 1705 1710

Gln Ala Gly Val His Ile Asn Thr His Tyr Asn Ile Arg Gly His

1715 1720 1725

Cys Leu Gly Lys Thr Leu Gln Phe Thr Lys Glu Tyr Lys Gln Leu

1730 1735 1740

Val Asp Trp Lys Leu Asp Gln Thr Leu Glu Thr Glu Val Tyr Pro

1745 1750 1755

His Thr Tyr Phe Tyr Asp Asn Tyr Gly Gln Val Leu Gln Glu Glu

1760 1765 1770

Asp Glu Gln Gly Asn Arg Thr Arg Arg Asn Tyr Ser Arg Gln Gly

1775 1780 1785

His Val Val Ser Val Asp Phe Ser Ser Ile Lys Gly Arg Asp Trp

1790 1795 1800

Lys Ser Tyr Leu Ser Gly Ala Thr Phe Ser Ala Asp Gly Leu Pro

1805 1810 1815

Ile Thr Ile Lys Tyr Gly Asn Gly Val Val Ser Asp Phe Phe Tyr

1820 1825 1830

Asp Asp Glu Ser Arg Asn Leu Ile Ser Gln Arg Thr Thr Arg Pro

1835 1840 1845

Cys Arg Gly Arg Arg Glu Leu Leu Gln Asp Arg Thr His Val Tyr

1850 1855 1860

Asp Tyr Val Gly Arg Arg Ile Phe Thr Ser Asp Gly Ser Glu Gln

1865 1870 1875

Val Lys Tyr Phe Gly Glu Ser Arg Val Lys Pro Glu Trp Asp Tyr

1880 1885 1890

Thr Tyr Asn Ala Thr Gly Ala Leu Val Ile Ala Thr Gly Arg Ala

1895 1900 1905

Gln Leu Ser Gly Lys Ile Gly Asn Gly Asn Gln Leu Thr Pro His

19l0 1915 1920

Asn Ala Met Asn Gly Leu Asn Pro Ser Arg Gly Gly Gly Asp Gly

1925 1930 1935

Asn Leu Leu Tyr Gln Tyr Arg Glu Thr Tyr Asp Tyr Asp Arg Glu

1940 1945 1950

Gly Asn Ile Leu Met Met Lys His Glu Ala Pro Asp Ile Lys Gly

1955 1960 1965

Val Thr Ser Trp Thr Arg Asn Tyr His Tyr Asp Glu Lys Ser Leu

1970 1975 1980

Leu Ser Asp Asp Pro Arg Val Lys Ser Asn Arg Leu Ser Arg Thr

1985 1990 1995

Ser Ile Gly Asp Thr Asn Glu Gly Lys Tyr Met Tyr Glu Gly Ser

2000 2005 2010

Ala Gly Leu Ser Gly Cys Ile Thr Thr Leu Pro Lys Phe Ser Glu

2015 2020 2025

Leu Asp Trp Asn Met Asn Asn Met Leu Ser Phe Ser Ser Thr Gln

2030 2035 2040

Tyr Val Asn Ala Gly Thr Pro Glu Arg Thr Tyr Tyr Val Tyr Asp

2045 2050 2055

His Ala Gly Asn Arg Val Arg Lys Val Thr Glu Thr Ala Ala Lys

2060 2065 2070

Ser Gly Glu Glu Pro Arg Lys Gln Arg Asp Thr Leu Phe Phe Gly

2075 2080 2085

Gly Val Glu Leu Gln Thr Lys Ser Asn Gly Ser Leu Leu Trp Thr

2090 2095 2100

Thr Arg Val Lys Gly Asp Gly Ile Val Ala Val Val Glu Val Asn

2105 2110 2115

Arg Asn Gln Glu Thr Pro Leu Val Arg Phe Gln Ala Gly Arg Asp

2120 2125 2130

Met Glu Phe Asp Asp Gln Ala Gln Leu Ile Ser Tyr Glu Glu Tyr

2135 2140 2145

Ser Pro Phe Gly Ala Val Val Tyr Ala Ala Met Tyr Gly Asn Ile

2150 2155 2160

Glu Ala Pro Arg Ala Tyr Arg Phe Ala Arg Tyr Glu His Asp Ser

2165 2170 2175

Glu Thr Gly Leu Tyr His Cys Gly Gln Arg Tyr Tyr Cys Pro Trp

2180 2185 2190

Leu Gly Arg Trp Thr Ser Pro Asp Pro Leu Gly Asp Val Asp Gly

2195 2200 2205

Pro Asn Leu Phe Val Tyr Val Asn Asn Asp Pro Val Asn Ser His

2210 2215 2220

Asp Pro Ser Gly Thr Ser Gly Lys Lys Thr Lys Glu Gly Thr Arg

2225 2230 2235

Glu Met Tyr Ala Ala Pro Asp Asp Gln Gly Lys Arg Arg Leu Val

2240 2245 2250

Asp Glu Asn Lys Ala Val Ala Asp Arg Ile Ala Lys Tyr Glu Arg

2255 2260 2265

Lys Leu Gln Arg Gln Glu Arg Lys Gln Gln Arg Ala Ile Ala Arg

2270 2275 2280

Met Ser Gly Thr Asp Pro Ile Leu Gly Ser Arg Ala Arg Tyr Ala

2285 2290 2295

Val Gly Ile Ala Ala Met Gly Asn Ala Leu Gly Arg Ile Ser Gly

2300 2305 2310

Ser Thr Glu Leu His His Thr Tyr Pro Gln Glu Tyr Arg Glu Glu

2315 2320 2325

Phe Ser Asp Ile Asp Ile Asn Val Asp Arg Thr Ser Val Ser Ile

2330 2335 2340

Ser Lys Glu Ala His Tyr Ile Cys Thr Tyr Gly Ser Ile Leu Asp

2345 2350 2355

Asn Leu Val Ala Thr Asn Lys Arg Trp Lys Ser Glu Tyr Phe Asp

2360 2365 2370

Thr Pro Asp Thr Gly Tyr Tyr Glu Gln Met Glu Gln His Glu Trp

2375 2380 2385

Tyr Asp Asp Asp Pro Gly Met Gln Tyr Ala Ile Arg Leu His Leu

2390 2395 2400

Ala Tyr Glu Ala Arg Thr Leu Asn Gly Lys Ile Met Ala Asp Phe

2405 2410 2415

Gly Ile Asn Pro Lys Gly Glu Asp Gly Arg Ser Met Phe Val Asn

2420 2425 2430

Tyr Asp Ala Val Thr Lys Met Arg Thr Ala Gly Gln Arg Arg Gly

2435 2440 2445

Val Arg Asn Asp Asn Leu Ile His His Glu Thr Trp Pro Gly Arg

2450 2455 2460

Pro Phe Asn Thr Gly Asn Ser Asp Thr Asp Asn Ala Gly Gly Pro

2465 2470 2475

Val His Phe Gln Val Ala Glu Glu Gln Tyr Asn Gly Leu Asp Ala

2480 2485 2490

Asp Ala Gln Ala Lys Phe Asp Asp Leu Arg Asn Gln Met Glu Ala

2495 2500 2505

Leu Leu Gly Lys Arg

2510

<210>21

<211>7458

<212>DNA

<213>人工序列

<220>

<223>融合8883(tcp1GzB/tccC3)

<400>21

atgtctaccc tgtcctctcg cccgggcgac ccgcgtgcgc tccattccgg ccagaataac 60

ggtgcgccag aaactctgac caacagcaaa tctaacgcga ccctgtctgg taaccgtacc 120

actgcgccgg catctgctag ctccttcgca ccgcaggttc gtaccctggg tgaaggtatc 180

ccaggcttcc gtacttcttt caacgtagct ggtaaaggtg gcggtgcgtt tcgctctatt 240

tctgaagact tcgaagtttc cccggctaac ggcactatgt ctctggcgat cccggtacgc 300

accagcccga cccgtggtgg ctatggtccg gacctgaaac tgagctacga tagcggttct 360

ggtaacggcc cgttcggctt tggttggtcc atgtctatgc cgtctatcca ccgtaaaacc 420

actcatgcta ttccgcgtta cgttgatgac gaagacgatt tcctgatgtc tggtggcgac 480

attatcaaac gtctgaactc cgaaggtatt caggaaaccc gcaacgagag cggcatctgc 540

ggtaaattcc tggtaaccac ttatcgcccg cgtgttgact ccggtaacat ccgcatcgaa 600

cgctgggtac gtcgcgaaga tctggaagat gtgcattggc gtactatcag ctcctctaac 660

gaaactaaaa tctacggcga ctccgattct tcccgcatct tcgatgcttc cggtccgtct 720

aaacgtatct tttcctggct gctcagccgc tcttacgacg catccggcaa cgcgattgaa 780

tacgtgtata aagaggaaga ctccctgggc atcagcgacg caaccggcgc gatgccagta 840

tgggaaaaga accgtgaaca ggacgctcgc taccgcgaac gttacatcaa gcgtgtaaaa 900

tatggcaacc gcaaaccgaa ccgtgatctg actacctggg aggtgtctga ctggccggaa 960

gagtggatgt tcgaagtggt attcgattac ggcgaacatg ataaaggttc tccgtccact 1020

gaggaatccc actcttggcc ggttcgtcag gacgttttct ctcagtcccg tccaggtttc 1080

gaaatccgta cttaccgtct gtgtcgtcgc gttctgatgt tccaccattt cccggaacac 1140

actcaggaga gcgaaacctt tgttttctct accgacctgc aatataacga aagccgccag 1200

cgtaccgttc tggcaagcct ggtggcgact ggttattcta gctacaaaga taacaacgat 1260

ggtaagcagc gttaccgctc tgaaagcctg ccaccgtggt cttttgaata tacctctagc 1320

ccggaagcat ctgagatcga actgatggaa gctaaaacct tcaacctgct cgaactgccg 1380

acctccgacg cacgtgtgtc tgagtggctg gacctggatg gtgacggcat gccgggcctt 1440

ctgacccgtt ctgtggatgg cgcactgtac tatcagcgca acctgggttc tatctccggt 1500

gacgatgacc cgcagttctg cggtccggtt cttctggctc agcaaccgtc catgaccggc 1560

ggtactttcc aggatctgga tcgtaacggc aacctgaact acgtgctgcg taacgaacac 1620

ggtcacctgg aaggttacta tgagcgtggt aactctgaca cctggaagaa ctatatcgaa 1680

ttcccggaaa cctctaacgg tgatatctgg cagtctacta tcgatattga cctgaccggc 1740

gatggtcatc cggacctgat ctgcgcggca gacgatagcc aggtgctgat ttggcagcaa 1800

aacctgggta agaaaggcct gtctagctac cagcgtgtaa tttgcggcca tgattgggag 1860

tcctgcccac gcctgatcaa gaaccaggac gttcagacct acgttggcga catgaccggc 1920

agcggcatgt ctgacctggt agaaatcagc gtaagctccg tgcgctattg gccgaacctg 1980

ggttacggta ctttcggcgc ggcagtagac atgggtaacc cgccagcttt cgcagcgaaa 2040

gattacttcg accacagccg tgtgcgcctg atggacaccg acggtagcgg cactatggat 2100

ctgctctacg cactgccgac cggcggtgca gctctgtact ataacctggc tggcaacagc 2160

tggtctaaca tggtgttcct gccacacctg ccggcgatta tcaccccgat gagcatcttc 2220

accctggacc tgattggcaa aggtgctgat tgcctgtgtt gggctgacac ttccaccgat 2280

ggtaaccgta tcatgtatct ggacatcacc ggcgaaacca aacegcactt gctgaaatct 2340

tatagcaacg gctggggtgc tactacctct gtggattacg cgccgtccac caaattcttt 2400

gcagaagata cccgtaacgg ccacccgtgg tctagcaaac tgccgtttcc ggtgcagtgc 2460

gtatctaaag ttcaggtgga agacgctatc accggcaacc gtcagagcac cgaatacatc 2520

tatcataacg gttgttacaa cccgactgaa aagcagttct ctggtttcga aatggtggaa 2580

cagttccagt ccgagcgtgt tatcgtaggc gaagatgaaa cctacgaacc gccagttacc 2640

cacaccaaaa gctggttcaa cgttggtctg agcctggtag tggacgaaag ccgtttcctg 2700

actaaaccgg cgatcctgtc ctctctgcaa gattaccaca ctgacccggc ggaactggtg 2760

aacgcactga aaggtctgaa cgtgcgttcc gaaatttact ctcaagatgg ctccccgaaa 2820

tctcacctgc cgtatgtaat caaggaagtt tcttatcacg ttaagatttc ccaggcgcgt 2880

gacaccaaca aatattccgc agttcaggtt ctgccacgtg aaacttttag ccgtgcgtac 2940

gaacgtgaca tgtccgaccc gcgtgtgact cacgatatgg ttattaagac caacgacttt 3000

ggtgacgttg aagagtctct gtctattgta tatccgcgtg caggcaaaac cactttcgaa 3060

gatgttaaca agaaccagaa agcgggcaac atgtcctaca ctcagaactg gtacaccaaa 3120

atggtgagcg aaccggaaca ggagcacttt cgcaaaccgg cagcgtatcg ccaacaggaa 3180

cacgagatcc tgtcctttcc gttcaacggc actctgaagt ttgatgacgc actggcgttt 3240

aacttcaacg gtctgccgac taccaaatgt tctaaaactt ggaaagctct gcgcagcgaa 3300

aacaaggcgt tctacaaaga tagccttctg caacgccgtc tggatgaagg tgagctgcaa 3360

accttctccc tcctggacca gacttacgca ctggcgttta ccccggacat cctggctaaa 3420

gtggaaattg gcctgcgtaa ctgtaacgta ccgggttctg tggaggaact gttgactaaa 3480

ggtagctacg taaagctgaa agacagcgac ggctggtggg caccgtcttc ccagtctttc 3540

ttttgtagct ctaagaccgc tagcgcagct gaggaactga aagaagcgcg caaatccttt 3600

tataccccat cccgtttcgt ggacctgttc ggcaactcca gccgcctgaa catggataaa 3660

gactttctcc tggctactga agttgaggac gcaatcggca ccgcaacctc tttcaaaaac 3720

tcctatgaac acctgcaacc agtggagatt atcgacgcga actctaacag cgttcaggta 3780

gttctggacc cactgggcga atccattgcg gtggcggctt ccactcgtcg cgacggtgtt 3840

atcgaggaaa ttgactccct ggaaaacatg gtgctggatg cgtctccgga agacgttgat 3900

gacatcctgc gtgatccgac cggcgaagtg agcacccgcc ttctgggtaa cgcggcttct 3960

cgtaccattc attaccgtga tcgctacgct cagtggaagt ctcgccagaa cgaaacctct 4020

accagcgttg atccggaacc ggctctgtct ctggttctgt cccgtgacct gtccttcaag 4080

gaatcctcta gcccggagat ccgtgttatt gtgagctaca tgaacggcct gggtagccag 4140

tatcaagagc agcatctgtc cgatccgacc actctggaga aacgttggct ggttccgggc 4200

ctggcaatcc cagatacaca gggccaggtg gtatgcacct accagccgcg tttcgctacc 4260

ctggctgcgc cgattccatc ctctctgatg aaaactaacg cggcattcac cttctacgat 4320

gcgatgggcc gtaacgtggc aagcttggct gcggattgta cctggtccaa aaccgtttat 4380

actccgtgga ccactgttga acacggtgct ggtagcatgg ttctgcaatc caacgctcgt 4440

gatgacccgg atgttggtca cttcttttcc cgcatcgcgt cttcccgcta ctcccagagc 4500

tggtacgata agcgtaaact gggtactgct caggaaggat ccgacaacaa gggtcagact 4560

atccgcacta ggcctatgaa aaacatcgat cccaaacttt atcaaaaaac ccctactgtc 4620

agcgtttacg ataaccgtgg tctgataatc cgtaacatcg attttcatcg tactaccgca 4680

aatggtgatc ccgatacccg tattacccgc catcaatacg atattcacgg acacctaaat 4740

caaagcatcg atccgcgcct atatgaagcc aagcaaacca acaatacgat caaacccaat 4800

tttctttggc agtatgattt gaccggtaat cccctatgta cagagagcat tgatgcaggt 4860

cgcactgtca ccttgaatga tattgaaggc cgtccgctac taacggtgac tgcaacaggg 4920

gttatacaaa ctcgacaata tgaaacttct tccctgcccg gtcgtctgtt atctgttgcc 4980

gaacaaacac ccgaggaaaa aacatcccgt atcaccgaac gcctgatttg ggctggcaat 5040

accgaagcag agaaagacca taaccttgcc ggccagtgcg tgcgtcacta tgacacggcg 5100

ggagttaccc ggttagagag tttatcactg accggtactg ttttatctca atccagccaa 5160

ctattgatcg acactcaaga ggcaaactgg acaggtgata acgaaaccgt ctggcaaaac 5220

atgctggctg atgacatcta cacaaccctg agcaccttcg atgccaccgg tgctttactg 5280

actcagaccg atgcgaaagg gaacattcag agactggctt atgatgtggc cgggcagcta 5340

aacgggagct ggctaacact caaaggccag acggaacaag tgattatcaa atccctgacc 5400

tactccgccg ccggacaaaa attacgtgag gaacacggca atgatgttat caccgaatac 5460

agttatgaac cggaaaccca acggctgatc ggtatcaaaa cccgccgtcc gtcagacact 5520

aaagtgctac aagacctgcg ctatgaatat gacccggtag gcaatgtcat cagcatccgt 5580

aatgacgcgg aagccacccg cttttggcac aatcagaaag tgatgccgga aaacacttat 5640

acctacgatt ccctgtatca gcttatcagc gccaccgggc gcgaaatggc gaatataggt 5700

caacaaagtc accaatttcc ctcacccgct ctaccttctg ataacaacac ctataccaac 5760

tatacccgta cttatactta tgaccgtggc ggcaatctga ccaaaatcca gcacagttca 5820

ccggcgacgc aaaacaacta caccaccaat atcacggttt caaatcgcag caaccgcgca 5880

gtactcagca cattgaccga agatccggcg caagtagatg ctttgtttga tgcaggcgga 5940

catcagaaca ccttgatatc aggacaaaac ctgaactgga atactcgtgg tgaactgcaa 6000

caagtaacac tggttaaacg ggacaagggc gccaatgatg atcgggaatg gtatcgttat 6060

agcggtgacg gaagaaggat gttaaaaatc aatgaacagc aggccagcaa caacgctcaa 6120

acacaacgtg tgacttattt gccgaactta gaacttcgtc taacacaaaa cagcacggcc 6180

acaaccgaag atttgcaagt tatcaccgta ggcgaagcgg gccgggcaca ggtacgagta 6240

ttacattggg agagcggtaa accggaagat atcgacaata atcagttgcg ttatagttac 6300

gataatctta tcggttccag tcaacttgaa ttagatagcg aaggacaaat tatcagtgaa 6360

gaagaatatt atccctatgg tggaacagca ttatgggccg ccaggaatca gacagaagcc 6420

agttataaaa ctatccgtta ttcaggcaaa gagcgggatg ccaccgggct atattactac 6480

ggctatcggt attaccaacc gtggatagga cggtggttaa gctccgatcc ggcaggaaca 6540

atcgatgggc tgaatttata tcggatggtg aggaataatc cagttaccct ccttgatcct 6600

gatggattaa tgccaacaat tgcagaacgc atagcagcac taaaaaaaaa taaagtaaca 6660

gactcagcgc cttcgccagc aaatgccaca aacgtagcga taaacatccg cccgcctgta 6720

gcaccaaaac ctagcttacc gaaagcatca acgagtagcc aaccaaccac acaccctatc 6780

ggagctgcaa acataaaacc aacgacgtct gggtcatcta ttgttgctcc attgagtcca 6840

gtaggaaata aatctacttc tgaaatctct ctgccagaaa gcgctcaaag cagttcttca 6900

agcactacct cgacaaatct acagaaaaaa tcatttactt tatatagagc agataacaga 6960

tcctttgaag aaatgcaaag taaattccct gaaggattta aagcctggac tcctctagac 7020

actaagatgg caaggcaatt tgctagtatc tttattggtc agaaagatac atctaattta 7080

cctaaagaaa cagtcaagaa cataagcaca tggggagcaa agccaaaact aaaagatctc 7140

tcaaattaca taaaatatac caaggacaaa tctacagtat gggtttctac tgcaattaat 7200

actgaagcag gtggacaaag ctcaggggct ccactccata aaattgatat ggatctctac 7260

gagtttgcca ttgatggaca aaaactaaat ccactaccgg agggtagaac taaaaacatg 7320

gtaccttccc ttttactcga caccccacaa atagagacat catccatcat tgcacttaat 7380

catggaccgg taaatgatgc agaaatttca tttctgacaa caattccgct taaaaatgta 7440

aaacctcata agagataa 7458

<210>22

<211>2485

<212>PRT

<213>人工序列

<220>

<223>8883融合蛋白Tcp1GzB/TccC3

<400>22

Met Ser Thr Leu Ser Ser Arg Pro Gly Asp Pro Arg Ala Leu His Ser

1 5 10 15

Gly Gln Asn Asn Gly Ala Pro Glu Thr Leu Thr Asn Ser Lys Ser Asn

20 25 30

Ala Thr Leu Ser Gly Asn Arg Thr Thr Ala Pro Ala Ser Ala Ser Ser

35 40 45

Phe Ala Pro Gln Val Arg Thr Leu Gly Glu Gly Ile Pro Gly Phe Arg

50 55 60

Thr Ser Phe Asn Val Ala Gly Lys Gly Gly Gly Ala Phe Arg Ser Ile

65 70 75 80

Ser Glu Asp Phe Glu Val Ser Pro Ala Asn Gly Thr Met Ser Leu Ala

85 90 95

Ile Pro Val Arg Thr Ser Pro Thr Arg Gly Gly Tyr Gly Pro Asp Leu

100 105 110

Lys Leu Ser Tyr Asp Ser Gly Ser Gly Asn Gly Pro Phe Gly Phe Gly

115 120 125

Trp Ser Met Ser Met Pro Ser Ile His Arg Lys Thr Thr His Ala Ile

130 135 140

Pro Arg Tyr Val Asp Asp Glu Asp Asp Phe Leu Met Ser Gly Gly Asp

145 150 155 160

Ile Ile Lys Arg Leu Asn Ser Glu Gly Ile Gln Glu Thr Arg Asn Glu

165 170 175

Ser Gly Ile Cys Gly Lys Phe Leu Val Thr Thr Tyr Arg Pro Arg Val

180 185 190

Asp Ser Gly Asn Ile Arg Ile Glu Arg Trp Val Arg Arg Glu Asp Leu

195 200 205

Glu Asp Val His Trp Arg Thr Ile Ser Ser Ser Asn Glu Thr Lys Ile

210 215 220

Tyr Gly Asp Ser Asp Ser Ser Arg Ile Phe Asp Ala Ser Gly Pro Ser

225 230 235 240

Lys Arg Ile Phe Ser Trp Leu Leu Ser Arg Ser Tyr Asp Ala Ser Gly

245 250 255

Asn Ala Ile Glu Tyr Val Tyr Lys Glu Glu Asp Ser Leu Gly Ile Ser

260 265 270

Asp Ala Thr Gly Ala Met Pro Val Trp Glu Lys Asn Arg Glu Gln Asp

275 280 285

Ala Arg Tyr Arg Glu Arg Tyr Ile Lys Arg Val Lys Tyr Gly Asn Arg

290 295 300

Lys Pro Asn Arg Asp Leu Thr Thr Trp Glu Val Ser Asp Trp Pro Glu

305 310 315 320

Glu Trp Met Phe Glu Val Val Phe Asp Tyr Gly Glu His Asp Lys Gly

325 330 335

Ser Pro Ser Thr Glu Glu Ser His Ser Trp Pro Val Arg Gln Asp Val

340 345 350

Phe Ser Gln Ser Arg Pro Gly Phe Glu Ile Arg Thr Tyr Arg Leu Cys

355 360 365

Arg Arg Val Leu Met Phe His His Phe Pro Glu His Thr Gln Glu Ser

370 375 380

Glu Thr Phe Val Phe Ser Thr Asp Leu Gln Tyr Asn Glu Ser Arg Gln

385 390 395 400

Arg Thr Val Leu Ala Ser Leu Val Ala Thr Gly Tyr Ser Ser Tyr Lys

405 410 415

Asp Asn Asn Asp Gly Lys Gln Arg Tyr Arg Ser Glu Ser Leu Pro Pro

420 425 430

Trp Ser Phe Glu Tyr Thr Ser Ser Pro Glu Ala Ser Glu Ile Glu Leu

435 440 445

Met Glu Ala Lys Thr Phe Asn Leu Leu Glu Leu Pro Thr Ser Asp Ala

450 455 460

Arg Val Ser Glu Trp Leu Asp Leu Asp Gly Asp Gly Met Pro Gly Leu

465 470 475 480

Leu Thr Arg Ser Val Asp Gly Ala Leu Tyr Tyr Gln Arg Asn Leu Gly

485 490 495

Ser Ile Ser Gly Asp Asp Asp Pro Gln Phe Cys Gly Pro Val Leu Leu

500 505 510

Ala Gln Gln Pro Ser Met Thr Gly Gly Thr Phe Gln Asp Leu Asp Arg

515 520 525

Asn Gly Asn Leu Asn Tyr Val Leu Arg Asn Glu His Gly His Leu Glu

530 535 540

Gly Tyr Tyr Glu Arg Gly Asn Ser Asp Thr Trp Lys Asn Tyr Ile Glu

545 550 555 560

Phe Pro Glu Thr Ser Asn Gly Asp Ile Trp Gln Ser Thr Ile Asp Ile

565 570 575

Asp Leu Thr Gly Asp Gly His Pro Asp Leu Ile Cys Ala Ala Asp Asp

580 585 590

Ser Gln Val Leu Ile Trp Gln Gln Asn Leu Gly Lys Lys Gly Leu Ser

595 600 605

Ser Tyr Gln Arg Val Ile Cys Gly His Asp Trp Glu Ser Cys Pro Arg

610 615 620

Leu Ile Lys Asn Gln Asp Val Gln Thr Tyr Val Gly Asp Met Thr Gly

625 630 635 640

Ser Gly Met Ser Asp Leu Val Glu Ile Ser Val Ser Ser Val Arg Tyr

645 650 655

Trp Pro Asn Leu Gly Tyr Gly Thr Phe Gly Ala Ala Val Asp Met Gly

660 665 670

Asn Pro Pro Ala Phe Ala Ala Lys Asp Tyr Phe Asp His Ser Arg Val

675 680 685

Arg Leu Met Asp Thr Asp Gly Ser Gly Thr Met Asp Leu Leu Tyr Ala

690 695 700

Leu Pro Thr Gly Gly Ala Ala Leu Tyr Tyr Asn Leu Ala Gly Asn Ser

705 710 715 720

Trp Ser Asn Met Val Phe Leu Pro His Leu Pro Ala Ile Ile Thr Pro

725 730 735

Met Ser Ile Phe Thr Leu Asp Leu Ile Gly Lys Gly Ala Asp Cys Leu

740 745 750

Cys Trp Ala Asp Thr Ser Thr Asp Gly Asn Arg Ile Met Tyr Leu Asp

755 760 765

Ile Thr Gly Glu Thr Lys Pro His Leu Leu Lys Ser Tyr Ser Asn Gly

770 775 780

Trp Gly Ala Thr Thr Ser Val Asp Tyr Ala Pro Ser Thr Lys Phe Phe

785 790 795 800

Ala Glu Asp Thr Arg Asn Gly His Pro Trp Ser Ser Lys Leu Pro Phe

805 810 815

Pro Val Gln Cys Val Ser Lys Val Gln Val Glu Asp Ala Ile Thr Gly

820 825 830

Asn Arg Gln Ser Thr Glu Tyr Ile Tyr His Asn Gly Cys Tyr Asn Pro

835 840 845

Thr Glu Lys Gln Phe Ser Gly Phe Glu Met Val Glu Gln Phe Gln Ser

850 855 860

Glu Arg Val Ile Val Gly Glu Asp Glu Thr Tyr Glu Pro Pro Val Thr

865 870 875 880

His Thr Lys Ser Trp Phe Asn Val Gly Leu Ser Leu Val Val Asp Glu

885 890 895

Ser Arg Phe Leu Thr Lys Pro Ala Ile Leu Ser Ser Leu Gln Asp Tyr

900 905 910

His Thr Asp Pro Ala Glu Leu Val Asn Ala Leu Lys Gly Leu Asn Val

915 920 925

Arg Ser Glu Ile Tyr Ser Gln Asp Gly Ser Pro Lys Ser His Leu Pro

930 935 940

Tyr Val Ile Lys Glu Val Ser Tyr His Val Lys Ile Ser Gln Ala Arg

945 950 955 960

Asp Thr Asn Lys Tyr Ser Ala Val Gln Val Leu Pro Arg Glu Thr Phe

965 970 975

Ser Arg Ala Tyr Glu Arg Asp Met Ser Asp Pro Arg Val Thr His Asp

980 985 990

Met Val Ile Lys Thr Asn Asp Phe Gly Asp Val Glu Glu Ser Leu Ser

995 1000 1005

Ile Val Tyr Pro Arg Ala Gly Lys Thr Thr Phe Glu Asp Val Asn

1010 1015 1020

Lys Asn Gln Lys Ala Gly Asn Met Ser Tyr Thr Gln Asn Trp Tyr

1025 1030 1035

Thr Lys Met Val Ser Glu Pro Glu Gln Glu His Phe Arg Lys Pro

1040 1045 1050

Ala Ala Tyr Arg Gln Gln Glu His Glu Ile Leu Ser Phe Pro Phe

1055 1060 1065

Asn Gly Thr Leu Lys Phe Asp Asp Ala Leu Ala Phe Asn Phe Asn

1070 1075 1080

Gly Leu Pro Thr Thr Lys Cys Ser Lys Thr Trp Lys Ala Leu Arg

1085 1090 1095

Ser Glu Asn Lys Ala Phe Tyr Lys Asp Ser Leu Leu Gln Arg Arg

1100 1105 1110

Leu Asp Glu Gly Glu Leu Gln Thr Phe Ser Leu Leu Asp Gln Thr

1115 1120 1125

Tyr Ala Leu Ala Phe Thr Pro Asp Ile Leu Ala Lys Val Glu Ile

1130 1135 1140

Gly Leu Arg Asn Cys Asn Val Pro Gly Ser Val Glu Glu Leu Leu

1145 1150 1155

Thr Lys Gly Ser Tyr Val Lys Leu Lys Asp Ser Asp Gly Trp Trp

1160 1165 1170

Ala Pro Ser Ser Gln Ser Phe Phe Cys Ser Ser Lys Thr Ala Ser

1175 1180 1185

Ala Ala Glu Glu Leu Lys Glu Ala Arg Lys Ser Phe Tyr Thr Pro

1190 1195 1200

Ser Arg Phe Val Asp Leu Phe Gly Asn Ser Ser Arg Leu Asn Met

1205 1210 1215

Asp Lys Asp Phe Leu Leu Ala Thr Glu Val Glu Asp Ala Ile Gly

1220 1225 1230

Thr Ala Thr Ser Phe Lys Asn Ser Tyr Glu His Leu Gln Pro Val

1235 1240 1245

Glu Ile Ile Asp Ala Asn Ser Asn Ser Val Gln Val Val Leu Asp

1250 1255 1260

Pro Leu Gly Glu Ser Ile Ala Val Ala Ala Ser Thr Arg Arg Asp

1265 1270 1275

Gly Val Ile Glu Glu Ile Asp Ser Leu Glu Asn Met Val Leu Asp

1280 1285 1290

Ala Ser Pro Glu Asp Val Asp Asp Ile Leu Arg Asp Pro Thr Gly

1295 1300 1305

Glu Val Ser Thr Arg Leu Leu Gly Asn Ala Ala Ser Arg Thr Ile

1310 1315 1320

His Tyr Arg Asp Arg Tyr Ala Gln Trp Lys Ser Arg Gln Asn Glu

1325 1330 1335

Thr Ser Thr Ser Val Asp Pro Glu Pro Ala Leu Ser Leu Val Leu

1340 1345 1350

Ser Arg Asp Leu Ser Phe Lys Glu Ser Ser Ser Pro Glu Ile Arg

1355 1360 1365

Val Ile Val Ser Tyr Met Asn Gly Leu Gly Ser Gln Tyr Gln Glu

1370 1375 1380

Gln His Leu Ser Asp Pro Thr Thr Leu Glu Lys Arg Trp Leu Val

1385 1390 1395

Pro Gly Leu Ala Ile Pro Asp Thr Gln Gly Gln Val Val Cys Thr

1400 1405 1410

Tyr Gln Pro Arg Phe Ala Thr Leu Ala Ala Pro Ile Pro Ser Ser

1415 1420 1425

Leu Met Lys Thr Asn Ala Ala Phe Thr Phe Tyr Asp Ala Met Gly

1430 1435 1440

Arg Asn Val Ala Ser Leu Ala Ala Asp Cys Thr Trp Ser Lys Thr

1445 1450 1455

Val Tyr Thr Pro Trp Thr Thr Val Glu His Gly Ala Gly Ser Met

1460 1465 1470

Val Leu Gln Ser Asn Ala Arg Asp Asp Pro Asp Val Gly His Phe

1475 1480 1485

Phe Ser Arg Ile Ala Ser Ser Arg Tyr Ser Gln Ser Trp Tyr Asp

1490 1495 1500

Lys Arg Lys Leu Gly Thr Ala Gln Glu Gly Ser Asp Asn Lys Gly

1505 1510 1515

Gln Thr Ile Arg Thr Arg Pro Met Lys Asn Ile Asp Pro Lys Leu

1520 1525 1530

Tyr Gln Lys Thr Pro Thr Val Ser Val Tyr Asp Asn Arg Gly Leu

1535 1540 1545

Ile Ile Arg Asn Ile Asp Phe His Arg Thr Thr Ala Asn Gly Asp

1550 1555 1560

Pro Asp Thr Arg Ile Thr Arg His Gln Tyr Asp Ile His Gly His

1565 1570 1575

Leu Asn Gln Ser Ile Asp Pro Arg Leu Tyr Glu Ala Lys Gln Thr

1580 1585 1590

Asn Asn Thr Ile Lys Pro Asn Phe Leu Trp Gln Tyr Asp Leu Thr

1595 1600 1605

Gly Asn Pro Leu Cys Thr Glu Ser Ile Asp Ala Gly Arg Thr Val

1610 1615 1620

Thr Leu Asn Asp Ile Glu Gly Arg Pro Leu Leu Thr Val Thr Ala

1625 1630 1635

Thr Gly Val Ile Gln Thr Arg Gln Tyr Glu Thr Ser Ser Leu Pro

1640 1645 1650

Gly Arg Leu Leu Ser Val Ala Glu Gln Thr Pro Glu Glu Lys Thr

1655 1660 1665

Ser Arg Ile Thr Glu Arg Leu Ile Trp Ala Gly Asn Thr Glu Ala

1670 1675 1680

Glu Lys Asp His Asn Leu Ala Gly Gln Cys Val Arg His Tyr Asp

1685 1690 1695

Thr Ala Gly Val Thr Arg Leu Glu Ser Leu Ser Leu Thr Gly Thr

1700 1705 1710

Val Leu Ser Gln Ser Ser Gln Leu Leu Ile Asp Thr Gln Glu Ala

1715 1720 1725

Asn Trp Thr Gly Asp Asn Glu Thr Val Trp Gln Asn Met Leu Ala

1730 1735 1740

Asp Asp Ile Tyr Thr Thr Leu Ser Thr Phe Asp Ala Thr Gly Ala

1745 1750 1755

Leu Leu Thr Gln Thr Asp Ala Lys Gly Asn Ile Gln Arg Leu Ala

1760 1765 1770

Tyr Asp Val Ala Gly Gln Leu Asn Gly Ser Trp Leu Thr Leu Lys

1775 1780 1785

Gly Gln Thr Glu Gln Val Ile Ile Lys Ser Leu Thr Tyr Ser Ala

1790 1795 1800

Ala Gly Gln Lys Leu Arg Glu Glu His Gly Asn Asp Val Ile Thr

1805 1810 1815

Glu Tyr Ser Tyr Glu Pro Glu Thr Gln Arg LeuIle Gly Ile Lys

1820 1825 1830

Thr Arg Arg Pro Ser Asp Thr Lys Val Leu Gln Asp Leu Arg Tyr

1835 1840 1845

Glu Tyr Asp Pro Val Gly Asn Val Ile SerIle Arg Asn Asp Ala

1850 1855 1860

Glu Ala Thr Arg Phe Trp His Asn Gln Lys Val Met Pro Glu Asn

1865 1870 1875

Thr Tyr Thr Tyr Asp Ser Leu Tyr Gln Leu Ile Ser Ala Thr Gly

1880 1885 1890

Arg Glu Met Ala Asn Ile Gly Gln Gln Ser His Gln Phe Pro Ser

1895 1900 1905

Pro Ala Leu Pro Ser Asp Asn Asn Thr Tyr Thr Asn Tyr Thr Arg

1910 1915 1920

Thr Tyr Thr Tyr Asp Arg Gly Gly Asn Leu Thr Lys Ile Gln His

1925 1930 1935

Ser Ser Pro Ala Thr Gln Asn Asn Tyr Thr Thr Asn Ile Thr Val

1940 1945 1950

Ser Asn Arg Ser Asn Arg Ala Val Leu Ser Thr Leu Thr Glu Asp

1955 1960 1965

Pro Ala Gln Val Asp Ala Leu Phe Asp Ala Gly Gly His Gln Asn

1970 1975 1980

Thr Leu Ile Ser Gly Gln Asn Leu Asn Trp Asn Thr Arg Gly Glu

1985 1990 1995

Leu Gln Gln Val Thr Leu Val Lys Arg Asp Lys Gly Ala Asn Asp

2000 2005 2010

Asp Arg Glu Trp Tyr Arg Tyr Ser Gly Asp Gly Arg Arg Met Leu

2015 2020 2025

Lys Ile Asn Glu Gln Gln Ala Ser Asn Asn Ala Gln Thr Gln Arg

2030 2035 2040

Val Thr Tyr Leu Pro Asn Leu Glu Leu Arg Leu Thr Gln Asn Ser

2045 2050 2055

Thr Ala Thr Thr Glu Asp Leu Gln Val Ile Thr Val Gly Glu Ala

2060 2065 2070

Gly Arg Ala Gln Val Arg Val Leu His Trp Glu Ser Gly Lys Pro

2075 2080 2085

Glu Asp Ile Asp Asn Asn Gln Leu Arg Tyr Ser Tyr Asp Asn Leu

2090 2095 2100

Ile Gly Ser Ser Gln Leu Glu Leu Asp Ser Glu Gly Gln Ile Ile

2105 2110 2115

Ser Glu Glu Glu Tyr Tyr Pro Tyr Gly Gly Thr Ala Leu Trp Ala

2120 2125 2130

Ala Arg Asn Gln Thr Glu Ala Ser Tyr Lys Thr I1e Arg Tyr Ser

2135 2140 2145

Gly Lys Glu Arg Asp Ala Thr Gly Leu Tyr Tyr Tyr Gly Tyr Arg

2150 2155 2160

Tyr Tyr Gln Pro Trp Ile Gly Arg Trp Leu Ser Ser Asp Pro Ala

2165 2170 2175

Gly Thr Ile Asp Gly Leu Asn Leu Tyr Arg Met Val Arg Asn Asn

2180 2185 2190

Pro Val Thr Leu Leu Asp Pro Asp Gly Leu Met Pro Thr Ile Ala

2195 2200 2205

Glu Arg Ile Ala Ala Leu Lys Lys Asn Lys Val Thr Asp Ser Ala

2210 2215 2220

Pro Ser Pro Ala Asn Ala Thr Asn Val Ala Ile Asn Ile Arg Pro

2225 2230 2235

Pro Val Ala Pro Lys Pro Ser Leu Pro Lys Ala Ser Thr Ser Ser

2240 2245 2250

Gln Pro Thr Thr His Pro Ile Gly Ala Ala Asn Ile Lys Pro Thr

2255 2260 2265

Thr Ser Gly Ser Ser Ile Val Ala Pro Leu Ser Pro Val Gly Asn

2270 2275 2280

Lys Ser Thr Ser Glu Ile Ser Leu Pro Glu Ser Ala Gln Ser Ser

2285 2290 2295

Ser Ser Ser Thr Thr Ser Thr Asn Leu Gln Lys Lys Ser Phe Thr

2300 2305 2310

Leu Tyr Arg Ala Asp Asn Arg Ser Phe Glu Glu Met Gln Ser Lys

2315 2320 2325

Phe Pro Glu Gly Phe Lys Ala Trp Thr Pro Leu Asp Thr Lys Met

2330 2335 2340

Ala Arg Gln Phe Ala Ser Ile Phe Ile Gly Gln Lys Asp Thr Ser

2345 2350 2355

Asn Leu Pro Lys Glu Thr Val Lys Asn Ile Ser Thr Trp Gly Ala

2360 2365 2370

Lys Pro Lys Leu Lys Asp Leu Ser Asn Tyr Ile Lys Tyr Thr Lys

2375 2380 2385

Asp Lys Ser Thr Val Trp Val Ser Thr Ala Ile Asn Thr Glu Ala

2390 2395 2400

Gly Gly Gln Ser Ser Gly Ala Pro Leu His Lys Ile Asp Met Asp

2405 2410 2415

Leu Tyr Glu Phe Ala Ile Asp Gly Gln Lys Leu Asn Pro Leu Pro

2420 2425 2430

Glu Gly Arg Thr Lys Asn Met Val Pro Ser Leu Leu Leu Asp Thr

2435 2440 2445

Pro Gln Ile Glu Thr Ser Ser Ile Ile Ala Leu Asn His Gly Pro

2450 2455 2460

Val Asn Asp Ala Glu Ile Ser Phe Leu Thr Thr Ile Pro Leu Lys

2465 2470 2475

Asn Val Lys Pro His Lys Arg

2480 2485

<210>23

<211>7432

<212>DNA

<213>人工序列

<220>

<223>植物优化的DNA序列，其编码玉蜀黍赤霉融合的B类/C类蛋白质Tcp1Gz的变体

<400>23

ccatggcttc aaccctctcc tctcgtcctg gtgacccaag ggcactccac tctggtcaga 60

acaatggtgc cccagagact ttgaccaact caaagtccaa tgcaaccctt tctggcaaca 120

gaacaactgc cccagcctct gcaagctcat ttgctcccca agtcagaaca ttgggtgaag 180

gcatccctgg gttccgcacc agcttcaatg ttgctggcaa aggtggaggt gctttccgca 240

gcatctctga ggactttgaa gtttccccag ccaatggcac catgagcttg gccatcccag 300

tgaggacctc tcccacccgt ggtggatatg gaccagacct caaactcagc tatgattctg 360

gctctggaaa tggccctttt ggctttggat ggagcatgtc catgcccagc atacacagaa 420

agacaactca tgccattccc agatatgttg acgatgagga tgacttcctc atgtctggtg 480

gagacattat caaaaggttg aactctgagg gtattcaaga gactcgcaat gagtctggaa 540

tctgtgggaa gttccttgtg acaacctaca gacctcgtgt ggactctggg aacattcgca 600

tagagcgctg ggtgagaagg gaggatcttg aagatgtcca ctggaggaca atcagctcat 660

ccaatgagac caaaatctat ggtgattctg attcctctcg catctttgac gcatctggtc 720

caagcaaacg catcttcagc tggctccttt caaggagcta tgacgcctct gggaatgcca 780

tagagtatgt ttacaaagag gaagatagcc tcgggatttc tgatgcaact ggagccatgc 840

cagtgtggga gaagaacaga gagcaagatg ctcgctaccg tgaacgttac atcaagaggg 900

tcaagtatgg aaaccgcaaa cccaaccgtg atctcaccac ttgggaggtc tcagattggc 960

ctgaagagtg gatgtttgag gtggtctttg actatggtga acatgacaag ggatcaccca 1020

gcacagaaga gagccactca tggcctgtga ggcaagatgt tttctcccag tcacgccctg 1080

ggtttgagat tcgcacttac cgcctttgcc gcagagtgtt gatgttccat cacttcccag 1140

agcacaccca agagtctgaa acttttgtct tttctactga ccttcagtac aatgagtccc 1200

gtcaaaggac tgtcttggct tcccttgtgg ccactggcta cagctcatac aaggacaaca 1260

atgatggcaa gcagagatac cgctctgaga gcctccctcc ctggtccttt gagtacacct 1320

ccagcccaga ggcatctgag attgaattga tggaagccaa gaccttcaac ttgcttgagc 1380

ttcccacctc tgatgcaagg gtctcagagt ggcttgactt ggatggtgat gggatgcctg 1440

gcttgctcac cagatcagtg gatggagccc tttactatca gaggaacctt ggctccatct 1500

ctggtgatga cgatccacag ttctgtggac cagtgctctt ggctcagcag ccctccatga 1560

ctggtgggac cttccaagac ttggaccgca atggcaacct caactatgtc ttgaggaacg 1620

aacatgggca tcttgaaggt tactatgaac gtggaaactc agacacatgg aagaactaca 1680

ttgagttccc tgagacctcc aatggtgaca tctggcagtc caccatagac attgacctca 1740

ctggtgatgg ccatcccgat ctcatttgtg ccgcagatga cagccaagtg ctcatctggc 1800

aacagaacct tgggaagaaa ggtctcagct cctaccagag ggtgatctgc ggacatgact 1860

gggaatcctg cccaaggctc atcaagaacc aggatgtgca gacctatgtg ggagacatga 1920

caggttctgg aatgtctgac cttgttgaaa tctctgtcag ctctgtgcgt tactggccca 1980

accttggtta tgggacattt ggtgcagctg ttgacatggg gaaccctcca gcttttgctg 2040

ccaaggacta ctttgatcac tcaagagtcc gcctcatgga cactgatggg tctggcacaa 2100

tggacttgct ctatgctctc cccactggtg gagctgccct ctactacaac ttggctggca 2160

acagctggtc caacatggtg ttcctcccac acttgcctgc catcatcaca ccaatgtcca 2220

tcttcacctt ggatctcatt gggaaaggag ctgactgcct ttgctgggca gacacctcaa 2280

cagatgggaa ccgcataatg tacctcgaca tcactggtga gaccaagcca catcttctca 2340

agtcctacag caatggctgg ggtgccacca catctgtgga ctatgcccct tccaccaaat 2400

tctttgctga agatacaagg aatggtcatc cctggtcctc aaaactccca ttccctgtgc 2460

agtgtgtgtc caaggtccaa gttgaggacg ccatcactgg caacagacag tccaccgagt 2520

acatctacca caatggctgc tacaacccca ctgaaaagca gttctctggc tttgaaatgg 2580

ttgagcagtt ccagtctgag agggtgattg tgggagaaga tgagacttac gagcctccag 2640

tcacacacac caaatcatgg ttcaatgttg gcctctcact tgtggttgat gagtccagat 2700

tcttgaccaa gccagccatc ttgtccagcc tccaagacta ccacactgac ccagctgagc 2760

ttgtcaatgc tctcaaagga ctcaacgtga ggtctgagat atactcccaa gatggcagcc 2820

ccaagagcca tctcccctat gtcatcaagg aggtctccta ccatgtcaag atttcccaag 2880

caagggacac aaacaaatac tccgctgttc aagttttgcc aagggagact ttctccagag 2940

cttacgaaag ggacatgtca gacccaaggg tgacccatga catggtgatc aagaccaatg 3000

actttgggga tgttgaagag agcctttcaa ttgtctaccc acgtgctggc aagactacct 3060

ttgaggatgt caacaagaac cagaaagctg ggaacatgtc atacacacag aactggtaca 3120

caaagatggt ctcagagcca gaacaagagc acttccgcaa accagcagcc tacagacagc 3180

aagagcatga gattctcagc ttccccttca atgggacctt gaagtttgat gacgcacttg 3240

ccttcaactt caatgggttg ccaacaacta aatgctccaa gacctggaag gccctcagat 3300

cagagaacaa ggccttctac aaggactccc ttctccagag aaggttggat gaaggtgagt 3360

tgcagacctt ctcactcttg gaccagactt atgcccttgc tttcacccct gacattcttg 3420

ccaaagttga gattggattg aggaactgca atgtgcctgg ctcagtggaa gagcttctca 3480

caaagggaag ctacgtcaag ctcaaggatt cagatggatg gtgggcacct tcctctcagt 3540

cattcttctg tagctccaag acagcatccg cagctgagga actcaaggag gcaaggaaga 3600

gcttctacac tccctcaagg tttgttgact tgtttggaaa cagctcacgt ctcaacatgg 3660

acaaggactt cctcttggcc actgaggtgg aagatgcaat aggcactgca acatcattca 3720

agaactccta tgaacacctt cagccagttg agatcattga tgccaacagc aacagcgttc 3780

aagttgtcct tgacccactt ggtgagagca ttgctgttgc tgcatccacc agacgtgatg 3840

gagtcataga agagattgat tcacttgaga acatggtgtt ggatgccagc ccagaagatg 3900

ttgatgacat cctcagagac cccactggag aggtctccac aaggcttttg ggcaatgctg 3960

catcccgcac aatccactac agagaccgct atgctcagtg gaaatcacgt cagaatgaga 4020

catccacctc tgtggaccca gagcctgctc tcagccttgt gttgtcacgt gacttgagct 4080

tcaaggaatc ctcatcccca gaaatccgcg tcattgtttc ctacatgaat ggccttgggt 4140

cacagtacca agaacagcac ctctcagatc caaccacatt ggaaaagcgt tggttggtgc 4200

ctggccttgc catcccagac actcaaggac aagttgtctg cacataccag cctaggtttg 4260

ccaccttggc tgcacccatt ccttccagct tgatgaaaac caatgctgcc ttcacattct 4320

atgatgcaat gggacgcaat gtggccagcc ttgcagctga ctgcacttgg agcaagacag 4380

tctacactcc ttggacaact gtcgagcatg gcgctggttc tatggttctt cagtccaatg 4440

caagggatga cccagatgtg ggacactttt tctctcgcat agcatcatca cgctactccc 4500

agtcctggta tgacaagcgc aagttgggca ctgctcaaga gaaaagagcc gcggagaagt 4560

ctgctgttta ctctgacacc cccttgacca ctcactctgg aagctgtggt ctccctgtca 4620

gaaccatcca gcaagctggt ggcaaaactt acaccagatc atccatgtat gatgtttctg 4680

gcaacagaat cagagatgtg gactcttacg aaaggactgt tgagaagatg ttgtatgaca 4740

agttgggaag gcaattgcag actaccggta tggattgtgg agagtcatgg ttgctcttgg 4800

atgcacaagg tggagagatc ctttcatgga attgcagagg ctacagcttc atcacacgct 4860

atgatcctct cagaagggag actgaaaggc tcgttgccaa ggcagctgaa atgccaaagt 4920

tgatttcaag gatcacctat ggggagactt gtggggatgc catcaacctc aacctcaatg 4980

gccaagtgtg gaaggttgag gatcaagctg gggtccacat caacacacat tacaacatcc 5040

gtggtcactg ccttggaaag acccttcagt tcaccaaaga gtacaagcag ttggtggatt 5100

ggaagttgga ccaaaccctt gagactgagg tttacccaca cacctacttc tacgacaact 5160

atggtcaagt tttgcaagaa gaggatgagc aaggcaacag aacccgtcgc aactacagca 5220

gacaaggaca cgtagtttct gtggatttct ccagcatcaa gggaagggac tggaaatcct 5280

acttgtctgg agccacattc tcagcagatg gtttgcccat caccatcaag tatggcaatg 5340

gtgtggtctc agactttttc tacgacgatg aatctaggaa cctcatttct cagagaacca 5400

caaggccttg cagaggtcgc agagaactcc ttcaagacag aacccatgtt tatgactacg 5460

ttggaaggcg catattcact tctgatggtt cagagcaagt caaatacttt ggagagagcc 5520

gtgtcaaacc tgaatgggat tacacataca acgccactgg tgctcttgtc attgccactg 5580

gtcgtgctca gctttctggc aagattggca atggcaacca gctcactcct cacaatgcca 5640

tgaatggtct caaccccagc agaggtggag gtgatggcaa ccttttgtac cagtacagag 5700

aaacttacga ttatgatcgt gagggcaaca tattgatgat gaagcacgaa gctcctgaca 5760

tcaaaggggt gacaagctgg acaaggaatt accactacga cgaaaagtcc cttctctcag 5820

atgaccctcg tgtgaaatcc aatcgtttga gcagaaccag cattggtgac accaatgagg 5880

ggaagtacat gtatgaaggt tcagctggac tttctggttg catcaccact cttccaaagt 5940

tctcagaact tgactggaac atgaacaaca tgctctcatt ctccagcact cagtatgtga 6000

atgctggcac tcccgaaaga acttactatg tctatgacca tgctggcaat cgtgtgagaa 6060

aggtgactga gactgctgcc aagtctgggg aggaaccaag gaaacagagg gacacacttt 6120

tctttggtgg agttgagctt cagaccaaat caaatggcag ccttctctgg acaactcgtg 6180

tcaaggggga tggaatagtg gctgtggttg aggtgaacag aaatcaagag acacccttgg 6240

ttcgcttcca agctggcaga gacatggagt ttgatgacca agcccagctc ataagctacg 6300

aggaatactc ccccttcgga gctgttgtgt acgctgccat gtatggcaac attgaggctc 6360

ccagagctta ccgttttgca cgttatgagc atgacagcga aactggcttg taccactgtg 6420

ggcagcgcta ctactgtcct tggcttggga ggtggacctc ccctgatcca cttggagatg 6480

ttgatgggcc aaacttgttt gtctatgtca acaatgatcc agtgaactca catgacccat 6540

ctggcacctc tggaaagaaa actaaggagg gcacccgtga gatgtatgca gcccctgatg 6600

accaagggaa gaggcgtctt gttgatgaga acaaagcagt tgctgatcgc attgccaagt 6660

atgagaggaa actccagcgc caagagagga aacagcaaag agccattgct cgcatgtctg 6720

gaacagatcc cattcttggc tctcgtgccc gttatgcagt tggaatagct gcaatgggaa 6780

atgcacttgg aagaatttct ggaagcacag aacttcatca cacctaccct caagagtacc 6840

gtgaagagtt ctctgacatt gacatcaatg ttgatcgcac atctgtcagc atttccaagg 6900

aagcccacta catctgcacc tatggctcaa tccttgacaa ccttgttgcc acaaacaaga 6960

ggtggaagtc agaatacttt gacaccccag acactggtta ctatgaacaa atggagcagc 7020

atgaatggta tgatgacgat cctggaatgc aatatgccat aaggctccac ttggcctatg 7080

aagcacgcac actcaatggc aaaatcatgg cagactttgg gattaaccca aagggagagg 7140

atggaaggtc aatgtttgtc aactatgatg cagtgacaaa gatgaggact gctggccaaa 7200

ggagaggtgt gaggaatgac aacctcatcc atcacgaaac ttggcctggg aggcctttca 7260

acactggcaa ctccgacact gacaatgctg gtggccctgt ccacttccaa gttgctgagg 7320

aacagtacaa tggccttgat gcagatgccc aagccaagtt tgatgacctt cgcaaccaga 7380

tggaagccct tttgggaaag agatgagtag ttagcttaat cacctagagc tc 7432

<210>24

<211>2467

<212>PRT

<213>人工序列

<220>

<223>SEQ ID NO：17编码的玉蜀黍赤霉融合的B类/C类Tcp1Gz蛋白质的变体

<400>24

Met Ala Ser Thr Leu Ser Ser Arg Pro Gly Asp Pro Arg Ala Leu His

1 5 10 15

Ser Gly Gln Asn Asn Gly Ala Pro Glu Thr Leu Thr Asn Ser Lys Ser

20 25 30

Asn Ala Thr Leu Ser Gly Asn Arg Thr Thr Ala Pro Ala Ser Ala Ser

35 40 45

Ser Phe Ala Pro Gln Val Arg Thr Leu Gly Glu Gly Ile Pro Gly Phe

50 55 60

Arg Thr Ser Phe Asn Val Ala Gly Lys Gly Gly Gly Ala Phe Arg Ser

65 70 75 80

Ile Ser Glu Asp Phe Glu Val Ser Pro Ala Asn Gly Thr Met Ser Leu

85 90 95

Ala Ile Pro Val Arg Thr Ser Pro Thr Arg Gly Gly Tyr Gly Pro Asp

100 105 110

Leu Lys Leu Ser Tyr Asp Ser Gly Ser Gly Asn Gly Pro Phe Gly Phe

115 120 125

Gly Trp Ser Met Ser Met Pro Ser Ile His Arg Lys Thr Thr His Ala

130 135 140

Ile Pro Arg Tyr Val Asp Asp Glu Asp Asp Phe Leu Met Ser Gly Gly

145 150 155 160

Asp Ile Ile Lys Arg Leu Asn Ser Glu Gly Ile Gln Glu Thr Arg Asn

165 170 175

Glu Ser Gly Ile Cys Gly Lys Phe Leu Val Thr Thr Tyr Arg Pro Arg

180 185 190

Val Asp Ser Gly Asn Ile Arg Ile Glu Arg Trp Val Arg Arg Glu Asp

195 200 205

Leu Glu Asp Val His Trp Arg Thr Ile Ser Ser Ser Asn Glu Thr Lys

210 215 220

Ile Tyr Gly Asp Ser Asp Ser Ser Arg Ile Phe Asp Ala Ser Gly Pro

225 230 235 240

Ser Lys Arg Ile Phe Ser Trp Leu Leu Ser Arg Ser Tyr Asp Ala Ser

245 250 255

Gly Asn Ala Ile Glu Tyr Val Tyr Lys Glu Glu Asp Ser Leu Gly Ile

260 265 270

Ser Asp Ala Thr Gly Ala Met Pro Val Trp Glu Lys Asn Arg Glu Gln

275 280 285

Asp Ala Arg Tyr Arg Glu Arg Tyr Ile Lys Arg Val Lys Tyr Gly Asn

290 295 300

Arg Lys Pro Asn Arg Asp Leu Thr Thr Trp Glu Val Ser Asp Trp Pro

305 310 315 320

Glu Glu Trp Met Phe Glu Val Val Phe Asp Tyr Gly Glu His Asp Lys

325 330 335

Gly Ser Pro Ser Thr Glu Glu Ser His Ser Trp Pro Val Arg Gln Asp

340 345 350

Val Phe Ser Gln Ser Arg Pro Gly Phe Glu Ile Arg Thr Tyr Arg Leu

355 360 365

Cys Arg Arg Val Leu Met Phe His His Phe Pro Glu His Thr Gln Glu

370 375 380

Ser Glu Thr Phe Val Phe Ser Thr Asp Leu Gln Tyr Asn Glu Ser Arg

385 390 395 400

Gln Arg Thr Val Leu Ala Ser Leu Val Ala Thr Gly Tyr Ser Ser Tyr

405 410 415

Lys Asp Asn Asn Asp Gly Lys Gln Arg Tyr Arg Ser Glu Ser Leu Pro

420 425 430

Pro Trp Ser Phe Glu Tyr Thr Ser Ser Pro Glu Ala Ser Glu Ile Glu

435 440 445

Leu Met Glu Ala Lys Thr Phe Asn Leu Leu Glu Leu Pro Thr Ser Asp

450 455 460

Ala Arg Val Ser Glu Trp Leu Asp Leu Asp Gly Asp Gly Met Pro Gly

465 470 475 480

Leu Leu Thr Arg Ser Val Asp Gly Ala Leu Tyr Tyr Gln Arg Asn Leu

485 490 495

Gly Ser Ile Ser Gly Asp Asp Asp Pro Gln Phe Cys Gly Pro Val Leu

500 505 510

Leu Ala Gln Gln Pro Ser Met Thr Gly Gly Thr Phe Gln Asp Leu Asp

515 520 525

Arg Asn Gly Asn Leu Asn Tyr Val Leu Arg Asn Glu His Gly His Leu

530 535 540

Glu Gly Tyr Tyr Glu Arg Gly Asn Ser Asp Thr Trp Lys Asn Tyr Ile

545 550 555 560

Glu Phe Pro Glu Thr Ser Asn Gly Asp Ile Trp Gln Ser Thr Ile Asp

565 570 575

Ile Asp Leu Thr Gly Asp Gly His Pro Asp Leu Ile Cys Ala Ala Asp

580 585 590

Asp Ser Gln Val Leu Ile Trp Gln Gln Asn Leu Gly Lys Lys Gly Leu

595 600 605

Ser Ser Tyr Gln Arg Val Ile Cys Gly His Asp Trp Glu Ser Cys Pro

610 615 620

Arg Leu Ile Lys Asn Gln Asp Val Gln Thr Tyr Val Gly Asp Met Thr

625 630 635 640

Gly Ser Gly Met Ser Asp Leu Val Glu Ile Ser Val Ser Ser Val Arg

645 650 655

Tyr Trp Pro Asn Leu Gly Tyr Gly Thr Phe Gly Ala Ala Val Asp Met

660 665 670

Gly Asn Pro Pro Ala Phe Ala Ala Lys Asp Tyr Phe Asp His Ser Arg

675 680 685

Val Arg Leu Met Asp Thr Asp Gly Ser Gly Thr Met Asp Leu Leu Tyr

690 695 700

Ala Leu Pro Thr Gly Gly Ala Ala Leu Tyr Tyr Asn Leu Ala Gly Asn

705 710 715 720

Ser Trp Ser Asn Met Val Phe Leu Pro His Leu Pro Ala Ile Ile Thr

725 730 735

Pro Met Ser Ile Phe Thr Leu Asp Leu Ile Gly Lys Gly Ala Asp Cys

740 745 750

Leu Cys Trp Ala Asp Thr Ser Thr Asp Gly Asn Arg Ile Met Tyr Leu

755 760 765

Asp Ile Thr Gly Glu Thr Lys Pro His Leu Leu Lys Ser Tyr Ser Asn

770 775 780

Gly Trp Gly Ala Thr Thr Ser Val Asp Tyr Ala Pro Ser Thr Lys Phe

785 790 795 800

Phe Ala Glu Asp Thr Arg Asn Gly His Pro Trp Ser Ser Lys Leu Pro

805 810 815

Phe Pro Val Gln Cys Val Ser Lys Val Gln Val Glu Asp Ala Ile Thr

820 825 830

Gly Asn Arg Gln Ser Thr Glu Tyr Ile Tyr His Asn Gly Cys Tyr Asn

835 840 845

Pro Thr Glu Lys Gln Phe Ser Gly Phe Glu Met Val Glu Gln Phe Gln

850 855 860

Ser Glu Arg Val Ile Val Gly Glu Asp Glu Thr Tyr Glu Pro Pro Val

865 870 875 880

Thr His Thr Lys Ser Trp Phe Asn Val Gly Leu Ser Leu Val Val Asp

885 890 895

Glu Ser Arg Phe Leu Thr Lys Pro Ala Ile Leu Ser Ser Leu Gln Asp

900 905 910

Tyr His Thr Asp Pro Ala Glu Leu Val Asn Ala Leu Lys Gly Leu Asn

915 920 925

Val Arg Ser Glu Ile Tyr Ser Gln Asp Gly Ser Pro Lys Ser His Leu

930 935 940

Pro Tyr Val Ile Lys Glu Val Ser Tyr His Val Lys Ile Ser Gln Ala

945 950 955 960

Arg Asp Thr Asn Lys Tyr Ser Ala Val Gln Val Leu Pro Arg Glu Thr

965 970 975

Phe Ser Arg Ala Tyr Glu Arg Asp Met Ser Asp Pro Arg Val Thr His

980 985 990

Asp Met Val Ile Lys Thr Asn Asp Phe Gly Asp Val Glu Glu Ser Leu

995 1000 1005

Ser Ile Val Tyr Pro Arg Ala Gly Lys Thr Thr Phe Glu Asp Val

1010 1015 1020

Asn Lys Asn Gln Lys Ala Gly Asn Met Ser Tyr Thr Gln Asn Trp

1025 1030 1035

Tyr Thr Lys Met Val Ser Glu Pro Glu Gln Glu His Phe Arg Lys

1040 1045 1050

Pro Ala Ala Tyr Arg Gln Gln Glu His Glu Ile Leu Ser Phe Pro

1055 1060 1065

Phe Asn Gly Thr Leu Lys Phe Asp Asp Ala Leu Ala Phe Asn Phe

1070 1075 1080

Asn Gly Leu Pro Thr Thr Lys Cys Ser Lys Thr Trp Lys Ala Leu

1085 1090 1095

Arg Ser Glu Asn Lys Ala Phe Tyr Lys Asp Ser Leu Leu Gln Arg

1100 1105 1110

Arg Leu Asp Glu Gly Glu Leu Gln Thr Phe Ser Leu Leu Asp Gln

1115 1120 1125

Thr Tyr Ala Leu Ala Phe Thr Pro Asp Ile Leu Ala Lys Val Glu

1130 1135 1140

Ile Gly Leu Arg Asn Cys Asn Val Pro Gly Ser Val Glu Glu Leu

1145 1150 1155

Leu Thr Lys Gly Ser Tyr Val Lys Leu Lys Asp Ser Asp Gly Trp

1160 1165 1170

Trp Ala Pro Ser Ser Gln Ser Phe Phe Cys Ser Ser Lys Thr Ala

1175 1180 1185

Ser Ala Ala Glu Glu Leu Lys Glu Ala Arg Lys Ser Phe Tyr Thr

1190 1195 1200

Pro Ser Arg Phe Val Asp Leu Phe Gly Asn Ser Ser Arg Leu Asn

1205 1210 1215

Met Asp Lys Asp Phe Leu Leu Ala Thr Glu Val Glu Asp Ala Ile

1220 1225 1230

Gly Thr Ala Thr Ser Phe Lys Asn Ser Tyr Glu His Leu Gln Pro

1235 1240 1245

Val Glu Ile Ile Asp Ala Asn Ser Asn Ser Val Gln Val Val Leu

1250 1255 1260

Asp Pro Leu Gly Glu Ser Ile Ala Val Ala Ala Ser Thr Arg Arg

1265 1270 1275

Asp Gly Val Ile Glu Glu Ile Asp Ser Leu Glu Asn Met Val Leu

1280 1285 1290

Asp Ala Ser Pro Glu Asp Val Asp Asp Ile Leu Arg Asp Pro Thr

1295 1300 1305

Gly Glu Val Ser Thr Arg Leu Leu Gly Asn Ala Ala Ser Arg Thr

1310 1315 1320

Ile His Tyr Arg Asp Arg Tyr Ala Gln Trp Lys Ser Arg Gln Asn

1325 1330 1335

Glu Thr Ser Thr Ser Val Asp Pro Glu Pro Ala Leu Ser Leu Val

1340 1345 1350

Leu Ser Arg Asp Leu Ser Phe Lys Glu Ser Ser Ser Pro Glu Ile

1355 1360 1365

Arg Val Ile Val Ser Tyr Met Asn Gly Leu Gly Ser Gln Tyr Gln

1370 1375 1380

Glu Gln His Leu Ser Asp Pro Thr Thr Leu Glu Lys Arg Trp Leu

1385 1390 1395

Val Pro Gly Leu Ala Ile Pro Asp Thr Gln Gly Gln Val Val Cys

1400 1405 1410

Thr Tyr Gln Pro Arg Phe Ala Thr Leu Ala Ala Pro Ile Pro Ser

1415 1420 1425

Ser Leu Met Lys Thr Asn Ala Ala Phe Thr Phe Tyr Asp Ala Met

1430 1435 1440

Gly Arg Asn Val Ala Ser Leu Ala Ala Asp Cys Thr Trp Ser Lys

1445 1450 1455

Thr Val Tyr Thr Pro Trp Thr Thr Val Glu His Gly Ala Gly Ser

1460 1465 1470

Met Val Leu Gln Ser Asn Ala Arg Asp Asp Pro Asp Val Gly His

1475 1480 1485

Phe Phe Ser Arg Ile Ala Ser Ser Arg Tyr Ser Gln Ser Trp Tyr

1490 1495 1500

Asp Lys Arg Lys Leu Gly Thr Ala Gln Glu Lys Arg Ala Ala Glu

1505 1510 1515

Lys Ser Ala Val Tyr Ser Asp Thr Pro Leu Thr Thr His Ser Gly

1520 1525 1530

Ser Cys Gly Leu Pro Val Arg Thr Ile Gln Gln Ala Gly Gly Lys

1535 1540 1545

Thr Tyr Thr Arg Ser Ser Met Tyr Asp Val Ser Gly Asn Arg Ile

1550 1555 1560

Arg Asp Val Asp Ser Tyr Glu Arg Thr Val Glu Lys Met Leu Tyr

1565 1570 1575

Asp Lys Leu Gly Arg Gln Leu Gln Thr Thr Gly Met Asp Cys Gly

1580 1585 1590

Glu Ser Trp Leu Leu Leu Asp Ala Gln Gly Gly Glu Ile Leu Ser

1595 1600 1605

Trp Asn Cys Arg Gly Tyr Ser Phe Ile Thr Arg Tyr Asp Pro Leu

1610 1615 1620

Arg Arg Glu Thr Glu Arg Leu Val Ala Lys Ala Ala Glu Met Pro

1625 1630 1635

Lys Leu Ile Ser Arg Ile Thr Tyr Gly Glu Thr Cys Gly Asp Ala

1640 1645 1650

Ile Asn Leu Asn Leu Asn Gly Gln Val Trp Lys Val Glu Asp Gln

1655 1660 1665

Ala Gly Val His Ile Asn Thr His Tyr Asn Ile Arg Gly His Cys

1670 1675 1680

Leu Gly Lys Thr Leu Gln Phe Thr Lys Glu Tyr Lys Gln Leu Val

1685 1690 1695

Asp Trp Lys Leu Asp Gln Thr Leu Glu Thr Glu Val Tyr Pro His

1700 1705 1710

Thr Tyr Phe Tyr Asp Asn Tyr Gly Gln Val Leu Gln Glu Glu Asp

1715 1720 1725

Glu Gln Gly Asn Arg Thr Arg Arg Asn Tyr Ser Arg Gln Gly His

1730 1735 1740

Val Val Ser Val Asp Phe Ser Ser Ile Lys Gly Arg Asp Trp Lys

1745 1750 1755

Ser Tyr Leu Ser Gly Ala Thr Phe Ser Ala Asp Gly Leu Pro Ile

1760 1765 1770

Thr Ile Lys Tyr Gly Asn Gly Val Val Ser Asp Phe Phe Tyr Asp

1775 1780 1785

Asp Glu Ser Arg Asn Leu Ile Ser Gln Arg Thr Thr Arg Pro Cys

1790 1795 1800

Arg Gly Arg Arg Glu Leu Leu Gln Asp Arg Thr His Val Tyr Asp

1805 1810 1815

Tyr Val Gly Arg Arg Ile Phe Thr Ser Asp Gly Ser Glu Gln Val

1820 1825 1830

Lys Tyr Phe Gly Glu Ser Arg Val Lys Pro Glu Trp Asp Tyr Thr

1835 1840 1845

Tyr Asn Ala Thr Gly Ala Leu Val Ile Ala Thr Gly Arg Ala Gln

1850 1855 1860

Leu Ser Gly Lys Ile Gly Asn Gly Asn Gln Leu Thr Pro His Asn

1865 1870 1875

Ala Met Asn Gly Leu Asn Pro Ser Arg Gly Gly Gly Asp Gly Asn

1880 1885 1890

Leu Leu Tyr Gln Tyr Arg Glu Thr Tyr Asp Tyr Asp Arg Glu Gly

1895 1900 1905

Asn Ile Leu Met Met Lys His Glu Ala Pro Asp Ile Lys Gly Val

1910 1915 1920

Thr Ser Trp Thr Arg Asn Tyr His Tyr Asp Glu Lys Ser Leu Leu

1925 1930 1935

Ser Asp Asp Pro Arg Val Lys Ser Asn Arg Leu Ser Arg Thr Ser

1940 1945 1950

Ile Gly Asp Thr Asn Glu Gly Lys Tyr Met Tyr Glu Gly Ser Ala

1955 1960 1965

Gly Leu Ser Gly Cys Ile Thr Thr Leu Pro Lys Phe Ser Glu Leu

1970 1975 1980

Asp Trp Asn Met Asn Asn Met Leu Ser Phe Ser Ser Thr Gln Tyr

1985 1990 1995

Val Asn Ala Gly Thr Pro Glu Arg Thr Tyr Tyr Val Tyr Asp His

2000 2005 2010

Ala Gly Asn Arg Val Arg Lys Val Thr Glu Thr Ala Ala Lys Ser

2015 2020 2025

Gly Glu Glu Pro Arg Lys Gln Arg Asp Thr Leu Phe Phe Gly Gly

2030 2035 2040

Val Glu Leu Gln Thr Lys Ser Asn Gly Ser Leu Leu Trp Thr Thr

2045 2050 2055

Arg Val Lys Gly Asp Gly Ile Val Ala Val Val Glu Val Asn Arg

2060 2065 2070

Asn Gln Glu Thr Pro Leu Val Arg Phe Gln Ala Gly Arg Asp Met

2075 2080 2085

Glu Phe Asp Asp Gln Ala Gln LeuIle Ser Tyr Glu Glu Tyr Ser

2090 2095 2100

Pro Phe Gly Ala Val Val Tyr Ala Ala Met Tyr Gly Asn Ile Glu

2105 2110 2115

Ala Pro Arg Ala Tyr Arg Phe Ala Arg Tyr Glu His Asp Ser Glu

2120 2125 2130

Thr Gly Leu Tyr His Cys Gly Gln Arg Tyr Tyr Cys Pro Trp Leu

2135 2140 2145

Gly Arg Trp Thr Ser Pro Asp Pro Leu Gly Asp Val Asp Gly Pro

2150 2155 2160

Asn Leu Phe Val Tyr Val Asn Asn Asp Pro Val Asn Ser His Asp

2165 2170 2175

Pro Ser Gly Thr Ser Gly Lys Lys Thr Lys Glu Gly Thr Arg Glu

2180 2185 2190

Met Tyr Ala Ala Pro Asp Asp Gln Gly Lys Arg Arg Leu Val Asp

2195 2200 2205

Glu Asn Lys Ala Val Ala Asp Arg Ile Ala Lys Tyr Glu Arg Lys

2210 2215 2220

Leu Gln Arg Gln Glu Arg Lys Gln Gln Arg Ala Ile Ala Arg Met

2225 2230 2235

Ser Gly Thr Asp Pro Ile Leu Gly Ser Arg Ala Arg Tyr Ala Val

2240 2245 2250

Gly Ile Ala Ala Met Gly Asn Ala Leu Gly Arg Ile Ser Gly Ser

2255 2260 2265

Thr Glu Leu His His Thr Tyr Pro Gln Glu Tyr Arg Glu Glu Phe

2270 2275 2280

Ser Asp Ile Asp Ile Asn Val Asp Arg Thr Ser Val Ser Ile Ser

2285 2290 2295

Lys Glu Ala His Tyr Ile Cys Thr Tyr Gly Ser Ile Leu Asp Asn

2300 2305 2310

Leu Val Ala Thr Asn Lys Arg Trp Lys Ser Glu Tyr Phe Asp Thr

2315 2320 2325

Pro Asp Thr Gly Tyr Tyr Glu Gln Met Glu Gln His Glu Trp Tyr

2330 2335 2340

Asp Asp Asp Pro Gly Met Gln Tyr Ala Ile Arg Leu His Leu Ala

2345 2350 2355

Tyr Glu Ala Arg Thr Leu Asn Gly Lys Ile Met Ala Asp Phe Gly

2360 2365 2370

Ile Asn Pro Lys Gly Glu Asp Gly Arg Ser Met Phe Val Asn Tyr

2375 2380 2385

Asp Ala Val Thr Lys Met Arg Thr Ala Gly Gln Arg Arg Gly Val

2390 2395 2400

Arg Asn Asp Asn Leu Ile His His Glu Thr Trp Pro Gly Arg Pro

2405 2410 2415

Phe Asn Thr Gly Asn Ser Asp Thr Asp Asn Ala Gly Gly Pro Val

2420 2425 2430

His Phe Gln Val Ala Glu Glu Gln Tyr Asn Gly Leu Asp Ala Asp

2435 2440 2445

Ala Gln Ala Lys Phe Asp Asp Leu Arg Asn Gln Met Glu Ala Leu

2450 2455 2460

Leu Gly Lys Arg

2465

<210>25

<211>9214

<212>DNA

<213>蛋白轮枝样镰刀菌(Fusarium verticillioides)

<220>

<221>misc_feature

<222>(21)..(23)

<223>作为推定的TC A类蛋白质的第一区段的编码区的可读框开始的苏氨酸密码子(ACG)

<220>

<221>misc_feature

<222>(3022)..(3024)

<223>作为推定的TC A类蛋白质的第二部分的可读框开始的AAA赖氨酸密码子

<400>25

tcgcgtctcg agcctcgtaa acgaacttgg aagagatttt gtgcagtgta tcactataca 60

atttcaccaa aacttccttt gccttcaatc agcaattgct cgctattgat tcagagcatt 120

cttttcacca actctattct atcaccatgg cgcaagtctc atctttggtt gctgccatgt 180

tccgtggaaa cgatgagcta gtgaccagag ttcaaactgc cattgagaca cgacatgatg 240

ttattgctgc cattgaagtc gttgttggtc agggaggttt aagcttagac aacatcaaat 300

cacttcaatg gatgcgggag atattccaag caacccaaga ggatgagaag cttgcctgtt 360

acctattaca gaacttccca ggcccgaata gcctcagcag ggttgcactc gagtactacc 420

gtaaagaaga cttgccctgc aacgacaaag aaaatgccgc gcgtctcaga tcgtatctga 480

tgcttaaaga accactggct gttctcctgg cttccgttag ggcgaaggat ttccagttta 540

aaccagaatt gaacagcact atcgagtttg cgttgaaatg ggctgttgag aacgacgtat 600

caatcacctc tgataggttt cgaaaacagg tcaactccaa aggcttcttc gactcaatca 660

aggacagccg gaaggtcgaa gtcgaagagg tcatcggcag aatcatgacg ctacagagat 720

tgcagtatct ggtcacagaa ccacagcata taaaacatct cctggacctc aaatttgaga 780

gtgcacagga tatcgcttct acaaacagaa aagagtttgt tcagagcatg aggaagcgtc 840

tgcaggagga gactgcactc aagatccacg accatgcggt tgtagttgct tgtcggagtc 900

aggaaacctg ggtgaatctg ctcaccatga ttaacgaaga cttcatgcca accagaaaag 960

cgatcgcaga tgttggggca gaagagatca gtcgaccatc ggtacccgac gaagatcctt 1020

ccacggcggt ccctgacgca agcactaaga aggacttcaa catgacaagt atctttgatc 1080

tacaagatac tccatgcgaa gagtgttgct ctgttgtcag cgcctcggca tattttgttg 1140

acctgctcaa gttcctagaa cacagccgct gctctacaac ggttaatgaa gccgacaatg 1200

tcctaaaagc attggctctt cgacgtccag atttgcaaaa actgcaactc tcgtgcgcga 1260

atagcaagaa aatggtgccc tatatcacaa tcgtcaatga gattatggct tcatacatcg 1320

caagtgaggg agggtccatc ggcgtcattg atgaacagga tacctcaaca tccgaagttc 1380

atgtcagtgc agaagaagat cttgtagcca ctgcatgcga gaacaaaatt gcggaagcta 1440

tgtttcctct gaaccgattc ccgtatagct tgggccaaga ctcggccaga gtctatcttt 1500

cttcgatggg tatcgagccg tcggacgtgc gtgaaaactt caagtcaact accttcatgc 1560

tgaaacagct tatgaacttc gttccaagtg actcaaagtc gaggaaagag ctggaaaggg 1620

aggcagaggc tgtatggcac cgattcgacg ttgccgagac cttgcatatg ctccctcgcg 1680

accttgctgc tatttctaaa gaaaccatct ttacagacac ctttttagat cttcttgtcg 1740

gcctgtaccc agaggagctg gttcaagaga caatgctgcg agataggtcg atccccatgg 1800

tcaacgaatg ctggggctat gaaactattg acaagatgct tgacacctcc gagcagaatc 1860

tggcaggact ttgtttcata cgagatcagc ttcttccacg ctcggggcta tcgcttgagg 1920

aacttctgga gctttcgaac accactttct ttggtagaag acttgtaatc gtcaacaacc 1980

gaggctcaaa ggtgttcgac gggcagctgt cggaaatgcg acttcgactg cttgacaaca 2040

ccgcgagtgc cagtgggagg gatgcttctg aagaacctcc cattggtaat ctgacacaag 2100

agatttgcca cgaacttcaa agctttattc gactcagaaa taagctagga tggaccattg 2160

cagagcttga cgtcgtcatt tcaaccatca ctcagaatca cattgccaac agtgctactg 2220

catcagttga aggattcaga ggtattacgt tagcagtcct tgaagatgtc gctcacatcg 2280

taaagttgag taaactgaca gaggcaccag tggtctctct tctcccaatt tgggctccaa 2340

tcagcactca tggcgataag tccttatata gaaaggcgtt ccttgaacca atgagctatc 2400

tgagtaatga tccagtcttc aggccggact cttacggcgg atatctgagg gataaaggcg 2460

ccattgaagt ttacatggca cctctcacaa tgactttgaa gacgacttcg gaggatctga 2520

agattctttt ggctgttgct gggttgagcc cttcgtcacc gctcaacttg gatacgctgt 2580

ccaagatgta tcgtcatgcg ctgatgtgtc gacttcttgg agtacgtcca agagactatg 2640

atatggttct ttcagtcttc ccagacagga acatcttcat cgatccaaag acaactctcg 2700

ggaatatttc actctggagg cagttgactg atagtggctg gtcaattagc gacatcatgc 2760

tgcttgttgg caagagcgaa agtaccaaca ttccattatc tgaccatgcc cttcagttta 2820

cgtcgtctat tatggagaag gtcaatgcca acagcagtgt ctgggagcct cgcatacaaa 2880

acaatacggt tatatcgcga gatgttatgg atctgtgcgg ccagatattc gacgctgcaa 2940

cttccaagag cctgacgcag atagttgaag gttcgtcatc gagaccacca tgtctacacc 3000

accgtgctaa cgagactcta aaaaggtgat ttcgttctca acaagagcat taacatggag 3060

tctctggagt cgctgccttc cttcaacggc cttccttcaa aattgactat cgacatcaac 3120

agaagaaaca aaaagaccca ggcagctgtt gtaaccctca cgggggtcat gacagaggaa 3180

gaaaaagaga agagtataag tcaggtcgaa gaatttccaa ccctggccga cgcgatcaat 3240

gaacttgaca agttgacaaa gattccttat aatgccttgc tatccagatt ctcgggtaca 3300

gacaccactg agaagcagga tgttatcgac ttgatatgct ctgacgtggc tttgacaacc 3360

acagatcttg gaggccaatc cgacgactcg ctctgtacca gctcggagga agactcgagc 3420

gaggaagagg atagtgatgc agaatcctgt gagtcagatg agagtctggt cgacgagtcc 3480

gaagctatgg aatcgcctga agttgagaga gaaaagactt tacgtactag gcgattggaa 3540

ttcgtcaagt tgatgttacc aatattgcga tcacagacct tggtcgacct cgcgaccagg 3600

agtattggtg agaagctgga aggtgttgaa cacactctta tccccatgct tctgaacaag 3660

gagatggcgt gggaaaacaa caagtcagct atcaatatcc tagacgagat tcggggttac 3720

tctgcagaga agcctgcaag gacgcaaggc tactttctac caacggccac aggagagtac 3780

acgttcactt tgcggtcatc acagcctcag gacataccgg atccatgtct tagcatcaat 3840

ggtgccaagg tcattatgaa aaaatccggc aaagagtggt attccgatcc catccttatg 3900

acaacagggc agacctactt gcttgtatcg tctgttcaac ccatgcatat tacatgggcc 3960

accaagcaga cggtgccagc aagcttcacc gatacaacgt tcattgtgga agacgatgtc 4020

cagaaggctg attcagtatt gaaagaggtt ggccgattgg cctcgttgtt ccgaaagctg 4080

gagctgagct tggaggaagt aaagtaccta accactccca acgggctgat gtccgttgat 4140

ttaaactccc tgagtatcag tgacattgcg aagctacaga gttatcgcca gctgagagac 4200

aatgttgcca aggataagga ctctttagtc acgttgtttt catggctgga aaaccctgac 4260

agttcttcaa cgttgacttc caaactcata gctgcgacaa catggcccga agcacagcta 4320

tcaaccttga tcaatgccaa atatgactat gatggggcga cgacagaaga tataatcagc 4380

tctgtatcca gtctcagtga cctcgtgtcc attcaaacta tcatggagat ctctggcaat 4440

ctgaagccca attcaagtca ggaaggcgag catccgatca ctaatctttt caaattcgcc 4500

gctcccacac ttcttagttc gtccaaggat ttggaggttg cgaacgagct gagactcatg 4560

ctaggtaaac gacaactcaa gacatgtacc tcacagctac aagagaccca gcggacagtt 4620

ttcatcgagt atttgctgca acagccatat atcaagaaag ccaagatctc ggacgcgggc 4680

ggcttgtttg atctgctgtt gattgacgtt cagatgggct cgcagtttga gatcacgcga 4740

atgaaacaag ccatctcgac cgttcagtta tacgtacaac ggtgtctcct cggcatggaa 4800

actgaagctg gtgtgcaacc aagcaacata gatcagacca agtgggcgtg gatgcataag 4860

cacaatactt ggacggctac acgcaaggca ttcctatacc cggagaattg gatcgatcca 4920

accttgcgtg acgataagac tgctttgttt cgtgactacg aaacaacgat catgcaaaag 4980

gacctcagct gggatacatt ctcacaagct atccggacgt acgtgaaggg tctgtcagag 5040

atcgctgatc tagacatcca agcatatcta cggcatcatc ccacggatgg cctcgagacg 5100

taccatttct ttggcaagac gcgcagcgca ccatatcgtt tctactaccg taacatgagg 5160

cttacacagc ccagtgacgt tgcgatatgg acaccgtgga ctttgatgga cattggatct 5220

gtgacgtacg aggcagattg ggatggctcg agtgtcacca atgccggggc ctacctgatt 5280

cccgttatgc gtggaaaccg tctcagcgtc tatgtcccag agataatggt caaaactact 5340

actcctgaga ccccagcggg gaaaacgacg accaccatga cgttttcaga ggccgcgggc 5400

gagtcattga acacgacaaa gtcgccgagt aactgggaga tacggatggc atggactgaa 5460

ctacttaacg gggaatggac acccaagcga gtttcgcaac cggtactgaa tgtgaagtgg 5520

gataatgatt tcaacaaaga aaagctgcct tacatttcac gcttcacctt ttgggccaat 5580

acgaccgaac cggttgggga aacagtcact attaatgtgg gatgctggag aaaggaaaag 5640

aaaaccgaga ccacggcaac aaaaaccgac gtagccaacc actcatttct tggatctttt 5700

cagataagtg atgaccgcgc atctgtgaaa gaaaatgaga aacagtccga gtccacggca 5760

aaaacccttg agacggtgtt tcacaagtat acatggaagc aagactggga aacgagaaag 5820

acgtttgacg acgaccaggt cgagactcct gaacaacaag ttgcttcgtt tgggggagac 5880

caggtatctt ctcccttgct agctgttcct gttccaacct cttccagaac gcttgtttgg 5940

accatgtcgt atgatggaaa cgacaagctc ggcaaggcta caggctacgt cgtggacgtg 6000

caagtatcgg caccagatgg caagacaacc ttcatgtatc caaagcttgc ctacgcaaaa 6060

agcaacaaag tcaatcttgc atcgtcgaat cttgttcgga attcgatgac tgaagttatt 6120

gagcattctt catcaccaag tttcatgcag gatatcacga agacagacag cctgatacca 6180

ctctttgaga cgatgaacac aatgaacgag agagagtacg gaaaggctgt cgttgaagca 6240

aatatgtctc agtaccacga acaggcaact tcatatgctc tctacaactg ggaacttggt 6300

gcgcattgta ttcttctcgc tatggacagg ttcttagcaa cgcagcaata cgacctcgct 6360

cttcgcgttg caaggtttgt attcgacccg acagtagatg tccaagggca aactcgaaag 6420

caagcaaaga cggcatgctg gaggttccgt ccattcagag atattgcagc tgatccgact 6480

gagaaccaag acaagttcac tggctggcta gacgaatcta ccctcgacgt ggcagtgaca 6540

gaaaggagac gaaacccttc caacacgcat gcaacagcgc gaacacgacc gcgagcatac 6600

atgaaatgga tcgtcatgaa gtacatcgaa atcctcatag ctgctggcga tgagtacttc 6660

cgccagggta gcattgaatc tctccctatg gcgatccagc ggtacatcga ggcagcgcat 6720

gtcctcggcc cggagccacc caagatgccc aagcttggta aaactgcagt caagacctat 6780

gacactctga acaagaatgg cagaatgaga gtcgatctcg agctcacgtt tccttttctc 6840

tgtgatgttg agagacgagg gacaaatgcc tcgggcgatg acgcgcagga cagatatggc 6900

gtcttaggaa tcttaacaac gacatacttt tgcctgccag caaatccgaa gtatcagaca 6960

atgcggtcat tagtcaacga ccggctctac aaggctagga acaacttgga tatcaatgga 7020

cgaccacttg tgtatgccat gaacgagcag agtattgacc caggacaaat aggccgggcc 7080

ttgcaaggtg gtggaggggg agtgacttct ctgttgaatc agattgatgg tcccatgcca 7140

aatcagcgat tccaatacct aatctccaaa gcactggaga tatgtacgag ccttcaaggc 7200

atgggagagc agttcttaca aatcaaggaa aagaaggact cggaagctct ccagatcctc 7260

aaagcgaagc aagacacggc tcgacagcgg ctttccataa gtctcaaacg cctgcagagg 7320

gaggagatcg aaaggaacat cgagctttta gaaatgaaca gatcttctgc cgcatctcaa 7380

ctgagctact accttcaact tatgggcgag ccattgaacc gcataccaag cgaaacggag 7440

aagtgggtgg acatcgagca tgcgatcgat gcaccgttca cggacgacct tcgtatgaat 7500

cgactggagc tccaggaaat gaagggaacg gatctggcca ataagctgaa catcgctgct 7560

tcatacatag acatctgggc gtttatgctc aaggctctac cccaggtgac gtcgaatgtt 7620

gagccaatgg gtgttggtgc gtcgctcaag atggatggct cgatcctgtc atcagctgtt 7680

caagcttcgg ccatgaccct caggacaggc tccatggcag ccagcatggt agcatccgat 7740

gcccaacgca caaatgcgct cacgaaacag ctacaagaga ggcgactcca agcaaacatg 7800

aagggccagg agattaagtc gcttgacaaa caagcagaga tccaaagaaa gcgattagag 7860

ctcaatgaga aggaaacatg catccagcaa gcagagattg acaatgcagt tgagatggag 7920

cagtggtatc agtccaagta cacaaacgag aagctctacg cttggatgga gaacacggtc 7980

cgtaatgtcc attacgatct gtatcagctc gcatcagacc ttgcacgtcg cgctcagaac 8040

tcgttccgct tcgagaaggg atcttcagtg cagggattct tgcgacctgg tggttattgg 8100

gatagcagtc atgatggtct cctcgcagcg cagcagctgc aagctgacct tcgacgcatg 8160

gaggccgcgt atctggagcg atcttcgtat gactatgaga tagtcaagaa tatctcactc 8220

aggcaactca aacctgaagc tctactgaat cttagagccg acggtactgc cacctttgac 8280

attcctgagg tgttgtatga ctttgacttc ccaggtcatt acatgcgtcg gatcaagtca 8340

gtctcattgt ctgttccgtg tgttgtcggt ccccatactg gtctgaatgc aacactgcgt 8400

cttcttcagc accgttaccg tgttagctct gtggcagcct caggagaaga ctacgctgaa 8460

gatgatatgg cctcgggaca tttccgcaca gacatcgtgc ctataacttc agttgccatc 8520

agctctggta tccaggactc tggtgtattc gagctcaact tcaaggacga ccgcttccag 8580

ccattcgaag gtgctggtgc aattggttca tggtcccttg agctccccac gattgtccgt 8640

tcttttgact actccactat ctcggacgtt attctgcatg ttcggtatac agcagtcgac 8700

ggagggcctt tgctccgcaa tgctgccaat caagctgtca agactttccg atctcgtgtt 8760

gaaggcttga gctcagaagg gcctggtctc ttcgccatgt ttgatctcaa aaacgacttt 8820

agtaacgcat ggtacgcgtt ccggtcaggc ctgttgggca aaactattgc cgagttggac 8880

ctatctggta tcaaagacag atttccatac tgggcgctag gaaaaaccat cattgttacc 8940

agtttaagtc ttgttgtttc tggcaaggtg aataagaaaa agctggacca gaaatcgttt 9000

tcgatcactg ctttggggac gggaaaaccg tgggattcag ttcctttggg aagtgcgacg 9060

atgctgacct tgtcaccatt gaacactgag ttaaaaaatt cgaaccttga gtggaaattg 9120

aaggtatcga atgaaggggg cgacttcacg gcgttggaga acgtggtagt tgtgttgcgg 9180

tatgccttag cttgagctca ctagcctgga gaaa 9214

<210>26

<211>1002

<212>PRT

<213>蛋白轮枝样镰刀菌

<400>26

Thr Asn Leu Glu Glu Ile Leu Cys Ser Val Ser Leu Tyr Asn Phe Thr

1 5 10 15

Lys Thr Ser Phe Ala Phe Asn Gln Gln Leu Leu Ala Ile Asp Ser Glu

20 25 30

His Ser Phe His Gln Leu Tyr Ser Ile Thr Met Ala Gln Val Ser Ser

35 40 45

Leu Val Ala Ala Met Phe Arg Gly Asn Asp Glu Leu Val Thr Arg Val

50 55 60

Gln Thr Ala Ile Glu Thr Arg His Asp Val Ile Ala Ala Ile Glu Val

65 70 75 80

Val Val Gly Gln Gly Gly Leu Ser Leu Asp Asn Ile Lys Ser Leu Gln

85 90 95

Trp Met Arg Glu Ile Phe Gln Ala Thr Gln Glu Asp Glu Lys Leu Ala

100 105 110

Cys Tyr Leu Leu Gln Asn Phe Pro Gly Pro Asn Ser Leu Ser Arg Val

115 120 125

Ala Leu Glu Tyr Tyr Arg Lys Glu Asp Leu Pro Cys Asn Asp Lys Glu

130 135 140

Asn Ala Ala Arg Leu Arg Ser Tyr Leu Met Leu Lys Glu Pro Leu Ala

145 150 155 160

Val Leu Leu Ala Ser Val Arg Ala Lys Asp Phe Gln Phe Lys Pro Glu

165 170 175

Leu Asn Ser Thr Ile Glu Phe Ala Leu Lys Trp Ala Val Glu Asn Asp

180 185 190

Val Ser Ile Thr Ser Asp Arg Phe Arg Lys Gln Val Asn Ser Lys Gly

195 200 205

Phe Phe Asp Ser Ile Lys Asp Ser Arg Lys Val Glu Val Glu Glu Val

210 215 220

Ile Gly Arg Ile Met Thr Leu Gln Arg Leu Gln Tyr Leu Val Thr Glu

225 230 235 240

Pro Gln His Ile Lys His Leu Leu Asp Leu Lys Phe Glu Ser Ala Gln

245 250 255

Asp Ile Ala Ser Thr Asn Arg Lys Glu Phe Val Gln Ser Met Arg Lys

260 265 270

Arg Leu Gln Glu Glu Thr Ala Leu Lys Ile His Asp His Ala Val Val

275 280 285

Val Ala Cys Arg Ser Gln Glu Thr Trp Val Asn Leu Leu Thr Met Ile

290 295 300

Asn Glu Asp Phe Met Pro Thr Arg Lys Ala Ile Ala Asp Val Gly Ala

305 310 315 320

Glu Glu Ile Ser Arg Pro Ser Val Pro Asp Glu Asp Pro Ser Thr Ala

325 330 335

Val Pro Asp Ala Ser Thr Lys Lys Asp Phe Asn Met Thr Ser Ile Phe

340 345 350

Asp Leu Gln Asp Thr Pro Cys Glu Glu Cys Cys Ser Val Val Ser Ala

355 360 365

Ser Ala Tyr Phe Val Asp Leu Leu Lys Phe Leu Glu His Ser Arg Cys

370 375 380

Ser Thr Thr Val Asn Glu Ala Asp Asn Val Leu Lys Ala Leu Ala Leu

385 390 395 400

Arg Arg Pro Asp Leu Gln Lys Leu Gln Leu Ser Cys Ala Asn Ser Lys

405 410 415

Lys Met Val Pro Tyr Ile Thr Ile Val Asn Glu Ile Met Ala Ser Tyr

420 425 430

Ile Ala Ser Glu Gly Gly Ser Ile Gly Val Ile Asp Glu Gln Asp Thr

435 440 445

Ser Thr Ser Glu Val His Val Ser Ala Glu Glu Asp Leu Val Ala Thr

450 455 460

Ala Cys Glu Asn Lys Ile Ala Glu Ala Met Phe Pro Leu Asn Arg Phe

465 470 475 480

Pro Tyr Ser Leu Gly Gln Asp Ser Ala Arg Val Tyr Leu Ser Ser Met

485 490 495

Gly Ile Glu Pro Ser Asp Val Arg Glu Asn Phe Lys Ser Thr Thr Phe

500 505 510

Met Leu Lys Gln Leu Met Asn Phe Val Pro Ser Asp Ser Lys Ser Arg

515 520 525

Lys Glu Leu Glu Arg Glu Ala Glu Ala Val Trp His Arg Phe Asp Val

530 535 540

Ala Glu Thr Leu His Met Leu Pro Arg Asp Leu Ala Ala Ile Ser Lys

545 550 555 560

Glu Thr Ile Phe Thr Asp Thr Phe Leu Asp Leu Leu Val Gly Leu Tyr

565 570 575

Pro Glu Glu Leu Val Gln Glu Thr Met Leu Arg Asp Arg Ser Ile Pro

580 585 590

Met Val Asn Glu Cys Trp Gly Tyr Glu Thr Ile Asp Lys Met Leu Asp

595 600 605

Thr Ser Glu Gln Asn Leu Ala Gly Leu Cys Phe Ile Arg Asp Gln Leu

610 615 620

Leu Pro Arg Ser Gly Leu Ser Leu Glu Glu Leu Leu Glu Leu Ser Asn

625 630 635 640

Thr Thr Phe Phe Gly Arg Arg Leu Val Ile Val Asn Asn Arg Gly Ser

645 650 655

Lys Val Phe Asp Gly Gln Leu Ser Glu Met Arg Leu Arg Leu Leu Asp

660 665 670

Asn Thr Ala Ser Ala Ser Gly Arg Asp Ala Ser Glu Glu Pro Pro Ile

675 680 685

Gly Asn Leu Thr Gln Glu Ile Cys His Glu Leu Gln Ser Phe Ile Arg

690 695 700

Leu Arg Asn Lys Leu Gly Trp Thr Ile Ala Glu Leu Asp Val Val Ile

705 710 715 720

Ser Thr Ile Thr Gln Asn His Ile Ala Asn Ser Ala Thr Ala Ser Val

725 730 735

Glu Gly Phe Arg Gly Ile Thr Leu Ala Val Leu Glu Asp Val Ala His

740 745 750

Ile Val Lys Leu Ser Lys Leu Thr Glu Ala Pro Val Val Ser Leu Leu

755 760 765

Pro Ile Trp Ala Pro Ile Ser Thr His Gly Asp Lys Ser Leu Tyr Arg

770 775 780

Lys Ala Phe Leu Glu Pro Met Ser Tyr Leu Ser Asn Asp Pro Val Phe

785 790 795 800

Arg Pro Asp Ser Tyr Gly Gly Tyr Leu Arg Asp Lys Gly Ala Ile Glu

805 810 815

Val Tyr Met Ala Pro Leu Thr Met Thr Leu Lys Thr Thr Ser Glu Asp

820 825 830

Leu Lys Ile Leu Leu Ala Val Ala Gly Leu Ser Pro Ser Ser Pro Leu

835 840 845

Asn Leu Asp Thr Leu Ser Lys Met Tyr Arg His Ala Leu Met Cys Arg

850 855 860

Leu Leu Gly Val Arg Pro Arg Asp Tyr Asp Met Val Leu Ser Val Phe

865 870 875 880

Pro Asp Arg Asn Ile Phe Ile Asp Pro Lys Thr Thr Leu Gly Asn Ile

885 890 895

Ser Leu Trp Arg Gln Leu Thr Asp Ser Gly Trp Ser Ile Ser Asp Ile

900 905 910

Met Leu Leu Val Gly Lys Ser Glu Ser Thr Asn Ile Pro Leu Ser Asp

915 920 925

His Ala Leu Gln Phe Thr Ser Ser Ile Met Glu Lys Val Asn Ala Asn

930 935 940

Ser Ser Val Trp Glu Pro Arg Ile Gln Ash Asn Thr Val Ile Ser Arg

945 950 955 960

Asp Val Met Asp Leu Cys Gly Gln Ile Phe Asp Ala Ala Thr Ser Lys

965 970 975

Ser Leu Thr Gln Ile Val Glu Gly Ser Ser Ser Arg Pro Pro Cys Leu

980 985 990

His His Arg Ala Asn Glu Thr Leu Lys Arg

995 1000

<210>27

<211>2057

<212>PRT

<213>蛋白轮枝样镰刀菌

<400>27

Lys Gly Asp Phe Val Leu Asn Lys Ser Ile Asn Met Glu Ser Leu Glu

1 5 10 15

Ser Leu Pro Ser Phe Asn Gly Leu Pro Ser Lys Leu Thr Ile Asp Ile

20 25 30

Asn Arg Arg Asn Lys Lys Thr Gln Ala Ala Val Val Thr Leu Thr Gly

35 40 45

Val Met Thr Glu Glu Glu Lys Glu Lys Ser Ile Ser Gln Val Glu Glu

50 55 60

Phe Pro Thr Leu Ala Asp Ala Ile Asn Glu Leu Asp Lys Leu Thr Lys

65 70 75 80

Ile Pro Tyr Asn Ala Leu Leu Ser Arg Phe Ser Gly Thr Asp Thr Thr

85 90 95

Glu Lys Gln Asp Val Ile Asp Leu Ile Cys Ser Asp Val Ala Leu Thr

100 105 110

Thr Thr Asp Leu Gly Gly Gln Ser Asp Asp Ser Leu Cys Thr Ser Ser

115 120 125

Glu Glu Asp Ser Ser Glu Glu Glu Asp Ser Asp Ala Glu Ser Cys Glu

130 135 140

Ser Asp Glu Ser Leu Val Asp Glu Ser Glu Ala Met Glu Ser Pro Glu

145 150 155 160

Val Glu Arg Glu Lys Thr Leu Arg Thr Arg Arg Leu Glu Phe Val Lys

165 170 175

Leu Met Leu Pro Ile Leu Arg Ser Gln Thr Leu Val Asp Leu Ala Thr

180 185 190

Arg Ser Ile Gly Glu Lys Leu Glu Gly Val Glu His Thr Leu Ile Pro

195 200 205

Met Leu Leu Asn Lys Glu Met Ala Trp Glu Asn Asn Lys Ser Ala Ile

210 215 220

Asn Ile Leu Asp Glu Ile Arg Gly Tyr Ser Ala Glu Lys Pro Ala Arg

225 230 235 240

Thr Gln Gly Tyr Phe Leu Pro Thr Ala Thr Gly Glu Tyr Thr Phe Thr

245 250 255

Leu Arg Ser Ser Gln Pro Gln Asp Ile Pro Asp Pro Cys Leu Ser Ile

260 265 270

Asn Gly Ala Lys Val Ile Met Lys Lys Ser Gly Lys Glu Trp Tyr Ser

275 280 285

Asp Pro Ile Leu Met Thr Thr Gly Gln Thr Tyr Leu Leu Val Ser Ser

290 295 300

Val Gln Pro Met His Ile Thr Trp Ala Thr Lys Gln Thr Val Pro Ala

305 310 315 320

Ser Phe Thr Asp Thr Thr Phe Ile Val Glu Asp Asp Val Gln Lys Ala

325 330 335

Asp Ser Val Leu Lys Glu Val Gly Arg Leu Ala Ser Leu Phe Arg Lys

340 345 350

Leu Glu Leu Ser Leu Glu Glu Val Lys Tyr Leu Thr Thr Pro Asn Gly

355 360 365

Leu Met Ser Val Asp Leu Asn Ser Leu Ser Ile Ser Asp Ile Ala Lys

370 375 380

Leu Gln Ser Tyr Arg Gln Leu Arg Asp Asn Val Ala Lys Asp Lys Asp

385 390 395 400

Ser Leu Val Thr Leu Phe Ser Trp Leu Glu Asn Pro Asp Ser Ser Ser

405 410 415

Thr Leu Thr Ser Lys Leu Ile Ala Ala Thr Thr Trp Pro Glu Ala Gln

420 425 430

Leu Ser Thr Leu Ile Asn Ala Lys Tyr Asp Tyr Asp Gly Ala Thr Thr

435 440 445

Glu Asp Ile Ile Ser Ser Val Ser Ser Leu Ser Asp Leu Val Ser Ile

450 455 460

Gln Thr Ile Met Glu Ile Ser Gly Asn Leu Lys Pro Asn Ser Ser Gln

465 470 475 480

Glu Gly Glu His Pro Ile Thr Asn Leu Phe Lys Phe Ala Ala Pro Thr

485 490 495

Leu Leu Ser Ser Ser Lys Asp Leu Glu Val Ala Asn Glu Leu Arg Leu

500 505 510

Met Leu Gly Lys Arg Gln Leu Lys Thr Cys Thr Ser Gln Leu Gln Glu

515 520 525

Thr Gln Arg Thr Val Phe Ile Glu Tyr Leu Leu Gln Gln Pro Tyr Ile

530 535 540

Lys Lys Ala Lys Ile Ser Asp Ala Gly Gly Leu Phe Asp Leu Leu Leu

545 550 555 560

Ile Asp Val Gln Met Gly Ser Gln Phe Glu Ile Thr Arg Met Lys Gln

565 570 575

Ala Ile Ser Thr Val Gln Leu Tyr Val Gln Arg Cys Leu Leu Gly Met

580 585 590

Glu Thr Glu Ala Gly Val Gln Pro Ser Asn Ile Asp Gln Thr Lys Trp

595 600 605

Ala Trp Met His Lys His Asn Thr Trp Thr Ala Thr Arg Lys Ala Phe

610 615 620

Leu Tyr Pro Glu Asn Trp Ile Asp Pro Thr Leu Arg Asp Asp Lys Thr

625 630 635 640

Ala Leu Phe Arg Asp Tyr Glu Thr Thr Ile Met Gln Lys Asp Leu Ser

645 650 655

Trp Asp Thr Phe Ser Gln Ala Ile Arg Thr Tyr Val Lys Gly Leu Ser

660 665 670

Glu Ile Ala Asp Leu Asp Ile Gln Ala Tyr Leu Arg His His Pro Thr

675 680 685

Asp Gly Leu Glu Thr Tyr His Phe Phe Gly Lys Thr Arg Ser Ala Pro

690 695 700

Tyr Arg Phe Tyr Tyr Arg Asn Met Arg Leu Thr Gln Pro Ser Asp Val

705 710 715 720

Ala Ile Trp Thr Pro Trp Thr Leu Met Asp Ile Gly Ser Val Thr Tyr

725 730 735

Glu Ala Asp Trp Asp Gly Ser Ser Val Thr Asn Ala Gly Ala Tyr Leu

740 745 750

Ile Pro Val Met Arg Gly Asn Arg Leu Ser Val Tyr Val Pro Glu Ile

755 760 765

Met Val Lys Thr Thr Thr Pro Glu Thr Pro Ala Gly Lys Thr Thr Thr

770 775 780

Thr Met Thr Phe Ser Glu Ala Ala Gly Glu Ser Leu Asn Thr Thr Lys

785 790 795 800

Ser Pro Ser Asn Trp Glu Ile Arg Met Ala Trp Thr Glu Leu Leu Asn

805 810 815

Gly Glu Trp Thr Pro Lys Arg Val Ser Gln Pro Val Leu Asn Val Lys

820 825 830

Trp Asp Asn Asp Phe Asn Lys Glu Lys Leu Pro Tyr Ile Ser Arg Phe

835 840 845

Thr Phe Trp Ala Asn Thr Thr Glu Pro Val Gly Glu Thr Val Thr Ile

850 855 860

Asn Val Gly Cys Trp Arg Lys Glu Lys Lys Thr Glu Thr Thr Ala Thr

865 870 875 880

Lys Thr Asp Val Ala Asn His Ser Phe Leu Gly Ser Phe Gln Ile Ser

885 890 895

Asp Asp Arg Ala Ser Val Lys Glu Asn Glu Lys Gln Ser Glu Ser Thr

900 905 910

Ala Lys Thr Leu Glu Thr Val Phe His Lys Tyr Thr Trp Lys Gln Asp

915 920 925

Trp Glu Thr Arg Lys Thr Phe Asp Asp Asp Gln Val Glu Thr Pro Glu

930 935 940

Gln Gln Val Ala Ser Phe Gly Gly Asp Gln Val Ser Ser Pro Leu Leu

945 950 955 960

Ala Val Pro Val Pro Thr Ser Ser Arg Thr Leu Val Trp Thr Met Ser

965 970 975

Tyr Asp Gly Asn Asp Lys Leu Gly Lys Ala Thr Gly Tyr Val Val Asp

980 985 990

Val Gln Val Ser Ala Pro Asp Gly Lys Thr Thr Phe Met Tyr Pro Lys

995 1000 1005

Leu Ala Tyr Ala Lys Ser Asn Lys Val Asn Leu Ala Ser Ser Asn

1010 1015 1020

Leu Val Arg Asn Ser Met Thr Glu Val Ile Glu His Ser Ser Ser

1025 1030 1035

Pro Ser Phe Met Gln Asp Ile Thr Lys Thr Asp Ser Leu Ile Pro

1040 1045 1050

Leu Phe Glu Thr Met Asn Thr Met Asn Glu Arg Glu Tyr Gly Lys

1055 1060 1065

Ala Val Val Glu Ala Asn Met Ser Gln Tyr His Glu Gln Ala Thr

1070 1075 1080

Ser Tyr Ala Leu Tyr Asn Trp Glu Leu Gly Ala His Cys Ile Leu

1085 1090 1095

Leu Ala Met Asp Arg Phe Leu Ala Thr Gln Gln Tyr Asp Leu Ala

1100 1105 1110

Leu Arg Val Ala Arg Phe Val Phe Asp Pro Thr Val Asp Val Gln

1115 1120 1125

Gly Gln Thr Arg Lys Gln Ala Lys Thr Ala Cys Trp Arg Phe Arg

1130 1135 1140

Pro Phe Arg Asp Ile Ala Ala Asp Pro Thr Glu Asn Gln Asp Lys

1145 1150 1155

Phe Thr Gly Trp Leu Asp Glu Ser Thr Leu Asp Val Ala Val Thr

1160 1165 1170

Glu Arg Arg Arg Asn Pro Ser Asn Thr His Ala Thr Ala Arg Thr

1175 1180 1185

Arg Pro Arg Ala Tyr Met Lys Trp Ile Val Met Lys Tyr Ile Glu

1190 1195 1200

Ile Leu Ile Ala Ala Gly Asp Glu Tyr Phe Arg Gln Gly Ser Ile

1205 1210 1215

Glu Ser Leu Pro Met Ala Ile Gln Arg Tyr Ile Glu Ala Ala His

1220 1225 1230

Val Leu Gly Pro Glu Pro Pro Lys Met Pro Lys Leu Gly Lys Thr

1235 1240 1245

Ala Val Lys Thr Tyr Asp Thr Leu Asn Lys Asn Gly Arg Met Arg

1250 1255 1260

Val Asp Leu Glu Leu Thr Phe Pro Phe Leu Cys Asp Val Glu Arg

1265 1270 1275

Arg Gly Thr Asn Ala Ser Gly Asp Asp Ala Gln Asp Arg Tyr Gly

1280 1285 1290

Val Leu Gly Ile Leu Thr Thr Thr Tyr Phe Cys Leu Pro Ala Asn

1295 1300 1305

Pro Lys Tyr Gln Thr Met Arg Ser Leu Val Asn Asp Arg Leu Tyr

1310 1315 1320

Lys Ala Arg Asn Asn Leu Asp Ile Asn Gly Arg Pro Leu Val Tyr

1325 1330 1335

Ala Met Asn Glu Gln Ser Ile Asp Pro Gly Gln Ile Gly Arg Ala

1340 1345 1350

Leu Gln Gly Gly Gly Gly Gly Val Thr Ser Leu Leu Asn Gln Ile

1355 1360 1365

Asp Gly Pro Met Pro Asn Gln Arg Phe Gln Tyr Leu Ile Ser Lys

1370 1375 1380

Ala Leu Glu Ile Cys Thr Ser Leu Gln Gly Met Gly Glu Gln Phe

1385 1390 1395

Leu Gln Ile Lys Glu Lys Lys Asp Ser Glu Ala Leu Gln Ile Leu

1400 1405 1410

Lys Ala Lys Gln Asp Thr Ala Arg Gln Arg Leu Ser Ile Ser Leu

1415 1420 1425

Lys Arg Leu Gln Arg Glu Glu Ile Glu Arg Asn Ile Glu Leu Leu

1430 1435 1440

Glu Met Asn Arg Ser Ser Ala Ala Ser Gln Leu Ser Tyr Tyr Leu

1445 1450 1455

Gln Leu Met Gly Glu Pro Leu Asn Arg Ile Pro Ser Glu Thr Glu

1460 1465 1470

Lys Trp Val Asp Ile Glu His Ala Ile Asp Ala Pro Phe Thr Asp

1475 1480 1485

Asp Leu Arg Met Asn Arg Leu Glu Leu Gln Glu Met Lys Gly Thr

1490 1495 1500

Asp Leu Ala Asn Lys Leu Asn Ile Ala Ala Ser Tyr Ile Asp Ile

1505 1510 1515

Trp Ala Phe Met Leu Lys Ala Leu Pro Gln Val Thr Ser Asn Val

1520 1525 1530

Glu Pro Met Gly Val Gly Ala Ser Leu Lys Met Asp Gly Ser Ile

1535 1540 1545

Leu Ser Ser Ala Val Gln Ala Ser Ala Met Thr Leu Arg Thr Gly

1550 1555 1560

Ser Met Ala Ala Ser Met Val Ala Ser Asp Ala Gln Arg Thr Asn

1565 1570 1575

Ala Leu Thr Lys Gln Leu Gln Glu Arg Arg Leu Gln Ala Asn Met

1580 1585 1590

Lys Gly Gln Glu Ile Lys Ser Leu Asp Lys Gln Ala Glu Ile Gln

1595 1600 1605

Arg Lys Arg Leu Glu Leu Asn Glu Lys Glu Thr Cys Ile Gln Gln

1610 1615 1620

Ala Glu Ile Asp Asn Ala Val Glu Met Glu Gln Trp Tyr Gln Ser

1625 1630 1635

Lys Tyr Thr Asn Glu Lys Leu Tyr Ala Trp Met Glu Asn Thr Val

1640 1645 1650

Arg Asn Val His Tyr Asp Leu Tyr Gln Leu Ala Ser Asp Leu Ala

1655 1660 1665

Arg Arg Ala Gln Asn Ser Phe Arg Phe Glu Lys Gly Ser Ser Val

1670 1675 1680

Gln Gly Phe Leu Arg Pro Gly Gly Tyr Trp Asp Ser Ser His Asp

1685 1690 1695

Gly Leu Leu Ala Ala Gln Gln Leu Gln Ala Asp Leu Arg Arg Met

1700 1705 1710

Glu Ala Ala Tyr Leu Glu Arg Ser Ser Tyr Asp Tyr Glu Ile Val

1715 1720 1725

Lys Asn Ile Ser Leu Arg Gln Leu Lys Pro Glu Ala Leu Leu Asn

1730 1735 1740

Leu Arg Ala Asp Gly Thr Ala Thr Phe Asp Ile Pro Glu Val Leu

1745 1750 1755

Tyr Asp Phe Asp Phe Pro Gly His Tyr Met Arg Arg Ile Lys Ser

1760 1765 1770

Val Ser Leu Ser Val Pro Cys Val Val Gly Pro His Thr Gly Leu

1775 1780 1785

Asn Ala Thr Leu Arg Leu Leu Gln His Arg Tyr Arg Val Ser Ser

1790 1795 1800

Val Ala Ala Ser Gly Glu Asp Tyr Ala Glu Asp Asp Met Ala Ser

1805 1810 1815

Gly His Phe Arg Thr Asp Ile Val Pro Ile Thr Ser Val Ala Ile

1820 1825 1830

Ser Ser Gly Ile Gln Asp Ser Gly Val Phe Glu Leu Asn Phe Lys

1835 1840 1845

Asp Asp Arg Phe Gln Pro Phe Glu Gly Ala Gly Ala Ile Gly Ser

1850 1855 1860

Trp Ser Leu Glu Leu Pro Thr Ile Val Arg Ser Phe Asp Tyr Ser

1865 1870 1875

Thr Ile Ser Asp Val Ile Leu His Val Arg Tyr Thr Ala Val Asp

1880 1885 1890

Gly Gly Pro Leu Leu Arg Asn Ala Ala Asn Gln Ala Val Lys Thr

1895 1900 1905

Phe Arg Ser Arg Val Glu Gly Leu Ser Ser Glu Gly Pro Gly Leu

1910 1915 1920

Phe Ala Met Phe Asp Leu Lys Asn Asp Phe Ser Asn Ala Trp Tyr

1925 1930 1935

Ala Phe Arg Ser Gly Leu Leu Gly Lys Thr Ile Ala Glu Leu Asp

1940 1945 1950

Leu Ser Gly Ile Lys Asp Arg Phe Pro Tyr Trp Ala Leu Gly Lys

1955 1960 1965

Thr Ile Ile Val Thr Ser Leu Ser Leu Val Val Ser Gly Lys Val

1970 1975 1980

Asn Lys Lys Lys Leu Asp Gln Lys Ser Phe Ser Ile Thr Ala Leu

1985 1990 1995

Gly Thr Gly Lys Pro Trp Asp Ser Val Pro Leu Gly Ser Ala Thr

2000 2005 2010

Met Leu Thr Leu Ser Pro Leu Asn Thr Glu Leu Lys Asn Ser Asn

2015 2020 2025

Leu Glu Trp Lys Leu Lys Val Ser Asn Glu Gly Gly Asp Phe Thr

2030 2035 2040

Ala Leu Glu Asn Val Val Val Val Leu Arg Tyr Ala Leu Ala

2045 2050 2055

<210>28

<211>9169

<212>DNA

<213>蛋白轮枝样镰刀菌

<220>

<221>misc_feature

<222>(20)..(22)

<223>对应于SEQ ID NO：29中推定的TC A类编码的蛋白质的第一个天冬酰胺的编码区的开始

<220>

<221>misc_feature

<222>(3299)..(5396)

<223>n＝a，g，c，或t(DNA序列中的大缺口，表示为2098 n的字符串)

<220>

<221>misc_feature

<222>(5451)..(5453)

<223>推导的推定TC A类蛋白质的该部分的第一个甘氨酸的GGA密码子

<400>28

aggcaagcat gtcttctaga atgcgtgtga cctttccggc gagagtaacc aggttgctat 60

gatcggcgcg gtcagcaagg actcgataaa acacgacttg gtattcccta agttgtttca 120

gtcaaagatg ataacagttc tgttgaagag gacagtacag atgatacagc tgcaataccg 180

agggccagaa gcctcggtcc aacgtcaccg tctcatggct cttagctcag cccccacaag 240

acaggtcgcg agctatacgg agatcattgg cgatattgtg atcggatctt gtgatgactg 300

taactcggtc accagtccag cggcatactt tgtcgacctc cttcgactgt tgaagaacac 360

tcctagtgat gctaaggcag gctcgcccag ccttctcgac aggattctcg tcaggcgccc 420

agatctgttg accttacagc tctcatatgt taacacaaac gtactgatcc cgtatattga 480

ccttgccaac gaagccatgg agtcattcat caagaatgtt gggactctcg ttccaccggc 540

tgccgtacca attcaagggt tcaacatgac ggatcaagat accagcgata tcagtctggc 600

tgagcccaag aacacggact acagtgtcta tcgtgatcaa atttccgccc agtatttccc 660

acttaccgta tttccttaca atcaggcact tgatttccaa cgccttttct tttccagtct 720

gaacacgtct ttttcagcgg tcattgactt atttggctcg gagtcacgtc ttcttcctca 780

agttggtagc aacatcgctc ctgatctggt caaactagcc aaggatgtag tagatgccgc 840

cagtgcagca gagtttcttg gtctctggcc tgcagactat gtagccatca ctggatcttc 900

tgtcttttca ttcgacttct tcaaggcggt ttacgatcag aatatacagc aggacgccta 960

caatcaaaag attggacgtc taggcactgg gcagtactgg ggctaccagg ctgctgatgg 1020

caagacagcc gagcaggtca tgttatctga agacaacgac cagggactgc cccttgtaaa 1080

ggcacaattg cttcgtcgta cagagctcac ctttgagcag ttgatagacc tcctcaaggc 1140

cagactgctc cagggccaac ttgtccttga gaacccggac aacacggcaa tcttttctgg 1200

aaagctggaa gagctcaggc tacgccatcc caccaaagag gtttctaacg cgccactgac 1260

ggagcgagac tgttggttat tgcagtctta catccgtctc tggcgtaaga cgggatggac 1320

tttgcaagac ctcgactgcg cggttgtctc gtttggtact ggcgacgcag ccagcggcct 1380

gaacatcact gcccagacca tcacttcaat ggcagctata cagcgcatct caaccctgac 1440

gggtcttgag atctatcaac taatgccttt ctgaggcatt attgatacta acggagacaa 1500

gtcactttat gcgaggctgt tcttgagagg caaggctggc cggaaggacc ctgttttcgg 1560

accagacgat caagggcgat accttcaggc tgatgcaagt ctccaagata acagagcgcc 1620

attactctca agactcggac tcacggaaga aagctttacg gccatcttag cagctgccaa 1680

gatcaccaat gacaaacttg atttggctaa tgtcaccact atttatcgga taactatttt 1740

ctgtcagata cttggggtaa gcccaatcta ctttcagtcg ttccaagcac tgctggactc 1800

cgatgaagct gcttttgttg ccccgcaggc tacactgaac attattaagc agtttcaaga 1860

gtgcgcagat gccggtctca gctcggagca gatgattttc ttcacaaacc acgacaaagt 1920

cttactctcg aagaacgtca actcgaggct ctcgattcag caaatcgcaa tagctgtatc 1980

agatatcatc aatagcctcc agagcagcta cgcggggccc ccgactatta acagcgacac 2040

aactacagct tctgcagccg atgtctccgc cgtttcaact aagatgtttg ctccggctac 2100

tgcgcagcaa gtgacggcgt ttcttcaaag tgagctccct acgcaagcaa cgagttgcta 2160

tcggtaacta acaatagtat ttagtgctcc ccggaacaga cctgacagat cagtcaaagg 2220

tgtacaataa tattctccgt ccattcttca gtgacacaca agcagcccac aaagtctttt 2280

ttgagcagcc agaaccaagc ggaacggagg aggagaaagc cattgccaaa gaaaataacc 2340

ttgattctcg acgcctgttt ttcttaaaag ctgttattaa accacttcaa gcccggattg 2400

ccagtgatac tgtcctgcag gtgctcactc ctctctacgt ggaatcagac cccactgttc 2460

ttggccacct actcgggacg gttgttggac aatctgaggg tgagcgacca gttgcgaaga 2520

tactaggtga tctcggggcc tctaatgagg cggcattaaa gaaaggctcg tcagatgtct 2580

tcttcatacc attgaatgta gacctatacc gcttcttctt tccggacaca agcttggaaa 2640

aggcccccac cgttactctg gatacgacag cccttgtgtt caacaaagac gtaggcgggt 2700

ggatttcgaa cgagatacgt ctatccaacg gacaagcgta taatttacgc cgctctaatg 2760

gtggattgac agagtgtttc tattctactc cgcgaaatcc tagacaatct tttccttcca 2820

acactctact tgcacacgat actatcaagt acgcccaaag ctccctgaaa ctgttgtcgc 2880

gagccgccgg tctgtgtacc agcttcaagt tgaatattga tgagctgcag ttcttccaga 2940

gtcaggagct aaacactgat cttgcaatcg acttggggaa cattgactgg aagactttgc 3000

agcttgtgca acggtacaga actctttcaa gaaggacaac agggactacg agccttctat 3060

ccttcctcaa atgggcctgt gtgtctcctc gggatggtac tctgatagca cagctcgtca 3120

ggctcacgaa tgtatcccaa acgcagatca aagattacac aactccaagg ttctcaagtc 3180

taactgagga tcagttggtt cagcgcttcc aagaaactgc ggagctcaga cacttacttg 3240

atagtgttgc cttcgtgcat cgcacaggtg tcccctggta tgacattcca actcttgtnn 3300

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3360

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3420

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3480

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3540

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3600

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3660

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3720

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3780

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3840

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3900

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3960

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4020

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4080

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4140

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4200

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4260

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4320

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4380

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4440

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4500

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4560

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4620

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4680

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4740

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4800

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4860

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4920

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4980

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 5040

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 5100

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 5160

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 5220

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 5280

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 5340

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnccgt 5400

atggaagatg ggacaccaaa gcaggtttct ccacaaaggc tactttctaa ggacatttag 5460

agggaggccc attgagtacg gatttcccca tgcagcatgc aagttctact gcgcctggta 5520

atgcatggaa tgaggcggta aaattacctg acgtctcatc gttcaagttc tggattcggt 5580

ctaggaaaag cgactcaatg ccccctgctt ctttggtcgc tccggctcct cccgcaccta 5640

gcaaggctcc agttcctagt acaagtattc tagtcatcga tgtggagcgt tgggttgatg 5700

caggcaaagg ccagaaccct cgatatgtca actatcctct aggacgtttc gagatgcgtg 5760

gctcgcaggt tatcctggtc aacctcggaa cagctgatgt ttcacctgac cccttcaaga 5820

agccctggcg atcaactatc cctaccaagt tcgctaaaat gtggtggcac atggagaagg 5880

acaaagaccc ggccgttccc ggtatagcta tcggcagagg cacgggcgcc gacaaggagc 5940

cgctgttggg tgttgttacg aagctcatgg ataatattcc caagaaggat gttcactgga 6000

cgctatcatt caacgattca caagccaaga atgccactgg ctttgttcag gacattgtta 6060

ccaccgaaag caccatctcc tacatcacct atccacccat cgcgtcttca tcaacctttg 6120

cgtccgatgt cttccagcac actttggaca gagacctagt ttcgatgtca actatgtaca 6180

atgggctcga tcaagtctac gcctttcttg gaagtgtacc accgaatgac acatatcttg 6240

cctttggaaa acgcaatggt cctgtccacg aactctcaac cccatatgcc ctttacaact 6300

gggaattggg cgcccattcc atcatgttgc tcatggaaag gctacaggtg acacagcagt 6360

atgatctcgc tctccaagta gcgcatttcg tttttgatcc aaccattgat ggcaccagtc 6420

tcacccgttg ttgggtcttc ccaccgttta aagagctggc ggctggtaag attgactccg 6480

tggaagacat tttgaagctt cttgagccat ctagtggttc agaggaggac atgaagacca 6540

gtattcttga gtggcgtaag aacccattca atgctcatgt cgtggcgcga gggagacctt 6600

tagcttacat gaggcgcatc atcatgaagt atgtggagat tcttatcgct agcggcgatg 6660

tctattttcg acagaatacc cttgagactt taccattggc tattcagcgt tacgttgaag 6720

catctcatgt cttcgggtca aagcctgtac gcgtgcctaa gctagctaag cctgtgtata 6780

aatcttatgc agatctcgac cgggacttta acgacttttc caacgctgcc ttcgacatgg 6840

aattggactt ccctttcttc agcgatcctg cctcacgtgg aggagtgcct ggggccagtg 6900

gcacttttgg cctaactggt attctgaaga ccacgtactt ctgtgtccct tctaatccga 6960

agcttgttgg acttcgggat cttatagacg accgtctttt caagattcgc aactgccagg 7020

atatatatgg tgtcgtccga agtttagctc tcttcgagcc accactagac cctgggatgc 7080

tcgtccgagc gactgccggt ggcgttgaca tttcccagct ggtgagcagt atagcaggcc 7140

ccatgccaaa ttatcgcttc cagtacttgc tccaaaaagc tcaggagatg tgtgcggagg 7200

tcaagtcgat gggtaccttg atgctgtcta tcaaggagag gaaggatgtg gaagcactcg 7260

caagtcttcg agcgcggcag gataaggtca ttcagaatct tatgattgag atgaaagaaa 7320

ctgccaagaa agaagctgaa tcgagtattg atgccctctt ggagacgcgc caggctcagg 7380

ttgcaagact ggagtactac cttgctctga cagggagtga tgacaagtct gcaccagatg 7440

agaaggagga ttgggaagac atcgcacagt caattgagaa gccgacaacc gatgatctac 7500

gtatgacgtc tcatgaaaag cttgagatgc aaaaggctga cgccgcctcg gatctaaatc 7560

aaaaggcgac tattctcgac attgcggcta gtatcatcaa gatcatacca gacatcaacg 7620

aggcagctga gcctcttgga gttggtgtat ctattgactc catcaccaaa aacatctgcg 7680

agtccatgat gatcaattcg aatgtcatgc gtgcccaggc tcaacacttt agtgatgaag 7740

gtgctcgcgc gtcgcggact ggcgggctca ttaaacagct ccaagagcgg cgcttgcaag 7800

ccaacatggc tggtcgtgac atcaaggaaa ctgacaagca aatcttgact gcgcgcatca 7860

gagtcgagat gtgcgagcgc aatattcaac tacagaagca acaggctgag tatgcacgcg 7920

acacagagga atggctgagg acgaagtaca gcagtgaaca gctctacgcc tggatggatg 7980

gtgtcgttcg gaatctgtac caccagacct atatgattgc cgatgatctg gcgcagaaag 8040

cccagaaggc gttccagttt gaaaagggtg atcaatttgt caacattatc agtccatgtt 8100

actgggatgc tggaagagat ggtttgttct ccggggaaaa cctctttttg tctctaaagc 8160

ggcttgaagg ggcatacatc gaacagcgca tgcacgactt tgaaatagtg aaaaacattt 8220

cgctacgtca ggttcggcct tgggctctga ttaacttacg tgaaactggc gcggcagagt 8280

ttgacttgcc agaggttctt ttcgactttg acttctccgg tcactattgt cgccgcatca 8340

agtccgtcgg aatgactatc ccatgtattg tgggacccta caccagcgtc aatgccacgc 8400

tgacactcct cgaataccaa tatcgcatca agtcagacgc caagggcgcc caagactatc 8460

cccaaaaagc gacagatgaa cggttccaaa ctgaccaggt gccgatccca tccattgccg 8520

ttagccacgg gcagcaggac agtggtgtct tgaatcttga cttcaaggac gagcgataca 8580

tgccctttga aggcgcggga gcagttagta gatggagact ggaacttcca actaccatca 8640

agcaattcga ctacaaccct attagtgaca ttgtcttgca catgaaatac acagctattc 8700

aaggctgtgc tgcctttcgc aaagctgcgg cagaatctgc ggctgctggc ctatcgctga 8760

atgaaggcat gtttgcagtg ttggatcttc ccaacgagtt tccttctgag tggcaccggc 8820

tagttatggc tgacaagacc caaccttcaa ctatgccgct tctatcttta caagatcgtc 8880

ttccattctt cacaaaaggc aagagtatca aggccggaag cgtgtctgtg catatcgagt 8940

cgtcgggtat caatctggaa gaagacatca ccttgactgc tgcgaatcgg ctgaacctca 9000

aggccggaac tggcattggg tccttccaag ttgctaccac atccacaaat atgagacaac 9060

ctgttaaaga ttggcgtctg accttgtcat caaaagctat gaatgcaagt atttctcgag 9120

ttttgatttt atataggtat tttttagtat aggccgtaat ccttttacc 9169

<210>29

<211>484

<212>PRT

<213>蛋白轮枝样镰刀菌

<400>29

Asn Ala Cys Asp Leu Ser Gly Glu Ser Asn Gln Val Ala Met Ile Gly

1 5 10 15

Ala Val Ser Lys Asp Ser Ile Lys His Asp Leu Val Phe Pro Lys Leu

20 25 30

Phe Gln Ser Lys Met Ile Thr Val Leu Leu Lys Arg Thr Val Gln Met

35 40 45

Ile Gln Leu Gln Tyr Arg Gly Pro Glu Ala Ser Val Gln Arg His Arg

50 55 60

Leu Met Ala Leu Ser Ser Ala Pro Thr Arg Gln Val Ala Ser Tyr Thr

65 70 75 80

Glu Ile Ile Gly Asp Ile Val Ile Gly Ser Cys Asp Asp Cys Asn Ser

85 90 95

Val Thr Ser Pro Ala Ala Tyr Phe Val Asp Leu Leu Arg Leu Leu Lys

100 105 110

Asn Thr Pro Ser Asp Ala Lys Ala Gly Ser Pro Ser Leu Leu Asp Arg

115 120 125

Ile Leu Val Arg Arg Pro Asp Leu Leu Thr Leu Gln Leu Ser Tyr Val

130 135 140

Asn Thr Asn Val Leu Ile Pro Tyr Ile Asp Leu Ala Asn Glu Ala Met

145 150 155 160

Glu Ser Phe Ile Lys Asn Val Gly Thr Leu Val Pro Pro Ala Ala Val

165 170 175

Pro Ile Gln Gly Phe Asn Met Thr Asp Gln Asp Thr Ser Asp Ile Ser

180 185 190

Leu Ala Glu Pro Lys Asn Thr Asp Tyr Ser Val Tyr Arg Asp Gln Ile

195 200 205

Ser Ala Gln Tyr Phe Pro Leu Thr Val Phe Pro Tyr Asn Gln Ala Leu

210 215 220

Asp Phe Gln Arg Leu Phe Phe Ser Ser Leu Asn Thr Ser Phe Ser Ala

225 230 235 240

Val Ile Asp Leu Phe Gly Ser Glu Ser Arg Leu Leu Pro Gln Val Gly

245 250 255

Ser Asn Ile Ala Pro Asp Leu Val Lys Leu Ala Lys Asp Val Val Asp

260 265 270

Ala Ala Ser Ala Ala Glu Phe Leu Gly Leu Trp Pro Ala Asp Tyr Val

275 280 285

Ala Ile Thr Gly Ser Ser Val Phe Ser Phe Asp Phe Phe Lys Ala Val

290 295 300

Tyr Asp Gln Asn Ile Gln Gln Asp Ala Tyr Asn Gln Lys Ile Gly Arg

305 310 315 320

Leu Gly Thr Gly Gln Tyr Trp Gly Tyr Gln Ala Ala Asp Gly Lys Thr

325 330 335

Ala Glu Gln Val Met Leu Ser Glu Asp Asn Asp Gln Gly Leu Pro Leu

340 345 350

Val Lys Ala Gln Leu Leu Arg Arg Thr Glu Leu Thr Phe Glu Gln Leu

355 360 365

Ile Asp Leu Leu Lys Ala Arg Leu Leu Gln Gly Gln Leu Val Leu Glu

370 375 380

Asn Pro Asp Asn Thr Ala Ile Phe Ser Gly Lys Leu Glu Glu Leu Arg

385 390 395 400

Leu Arg His Pro Thr Lys Glu Val Ser Asn Ala Pro Leu Thr Glu Arg

405 410 415

Asp Cys Trp Leu Leu Gln Ser Tyr Ile Arg Leu Trp Arg Lys Thr Gly

420 425 430

Trp Thr Leu Gln Asp Leu Asp Cys Ala Val Val Ser Phe Gly Thr Gly

435 440 445

Asp Ala Ala Ser Gly Leu Asn Ile Thr Ala Gln Thr Ile Thr Ser Met

450 455 460

Ala Ala Ile Gln Arg Ile Ser Thr Leu Thr Gly Leu Glu Ile Tyr Gln

465 470 475 480

Leu Met Pro Phe

<210>30

<211>230

<212>PRT

<213>蛋白轮枝样镰刀菌

<400>30

Gly Ile Ile Asp Thr Asn Gly Asp Lys Ser Leu Tyr Ala Arg Leu Phe

1 5 10 15

Leu Arg Gly Lys Ala Gly Arg Lys Asp Pro Val Phe Gly Pro Asp Asp

20 25 30

Gln Gly Arg Tyr Leu Gln Ala Asp Ala Ser Leu Gln Asp Asn Arg Ala

35 40 45

Pro Leu Leu Ser Arg Leu Gly Leu Thr Glu Glu Ser Phe Thr Ala Ile

50 55 60

Leu Ala Ala Ala Lys Ile Thr Asn Asp Lys Leu Asp Leu Ala Asn Val

65 70 75 80

Thr Thr Ile Tyr Arg Ile Thr Ile Phe Cys Gln Ile Leu Gly Val Ser

85 90 95

Pro Ile Tyr Phe Gln Ser Phe Gln Ala Leu Leu Asp Ser Asp Glu Ala

100 105 110

Ala Phe Val Ala Pro Gln Ala Thr Leu Asn Ile Ile Lys Gln Phe Gln

115 120 125

Glu Cys Ala Asp Ala Gly Leu Ser Ser Glu Gln Met Ile Phe Phe Thr

130 135 140

Asn His Asp Lys Val Leu Leu Ser Lys Asn Val Asn Ser Arg Leu Ser

145 150 155 160

Ile Gln Gln Ile Ala Ile Ala Val Ser Asp Ile Ile Asn Ser Leu Gln

165 170 175

Ser Ser Tyr Ala Gly Pro Pro Thr Ile Asn Ser Asp Thr Thr Thr Ala

180 185 190

Ser Ala Ala Asp Val Ser Ala Val Ser Thr Lys Met Phe Ala Pro Ala

195 200 205

Thr Ala Gln Gln Val Thr Ala Phe Leu Gln Ser Glu Leu Pro Thr Gln

210 215 220

Ala Thr Ser Cys Tyr Arg

225 230

<210>31

<211>374

<212>PRT

<213>蛋白轮枝样镰刀菌

<400>31

Tyr Leu Val Leu Pro Gly Thr Asp Leu Thr Asp Gln Ser Lys Val Tyr

1 5 10 15

Asn Asn Ile Leu Arg Pro Phe Phe Ser Asp Thr Gln Ala Ala His Lys

20 25 30

Val Phe Phe Glu Gln Pro Glu Pro Ser Gly Thr Glu Glu Glu Lys Ala

35 40 45

Ile Ala Lys Glu Asn Asn Leu Asp Ser Arg Arg Leu Phe Phe Leu Lys

50 55 60

Ala Val Ile Lys Pro Leu Gln Ala Arg Ile Ala Ser Asp Thr Val Leu

65 70 75 80

Gln Val Leu Thr Pro Leu Tyr Val Glu Ser Asp Pro Thr Val Leu Gly

85 90 95

His Leu Leu Gly Thr Val Val Gly Gln Ser Glu Gly Glu Arg Pro Val

100 105 110

Ala Lys Ile Leu Gly Asp Leu Gly Ala Ser Asn Glu Ala Ala Leu Lys

115 120 125

Lys Gly Ser Ser Asp Val Phe Phe Ile Pro Leu Asn Val Asp Leu Tyr

130 135 140

Arg Phe Phe Phe Pro Asp Thr Ser Leu Glu Lys Ala Pro Thr Val Thr

145 150 155 160

Leu Asp Thr Thr Ala Leu Val Phe Asn Lys Asp Val Gly Gly Trp Ile

165 170 175

Ser Asn Glu Ile Arg Leu Ser Asn Gly Gln Ala Tyr Asn Leu Arg Arg

180 185 190

Ser Asn Gly Gly Leu Thr Glu Cys Phe Tyr Ser Thr Pro Arg Asn Pro

195 200 205

Arg Gln Ser Phe Pro Ser Asn Thr Leu Leu Ala His Asp Thr Ile Lys

210 215 220

Tyr Ala Gln Ser Ser Leu Lys Leu Leu Ser Arg Ala Ala Gly Leu Cys

225 230 235 240

Thr Ser Phe Lys Leu Asn Ile Asp Glu Leu Gln Phe Phe Gln Ser Gln

245 250 255

Glu Leu Asn Thr Asp Leu Ala Ile Asp Leu Gly Asn Ile Asp Trp Lys

260 265 270

Thr Leu Gln Leu Val Gln Arg Tyr Arg Thr Leu Ser Arg Arg Thr Thr

275 280 285

Gly Thr Thr Ser Leu Leu Ser Phe Leu Lys Trp Ala Cys Val Ser Pro

290 295 300

Arg Asp Gly Thr Leu Ile Ala Gln Leu Val Arg Leu Thr Asn Val Ser

305 310 315 320

Gln Thr Gln Ile Lys Asp Tyr Thr Thr Pro Arg Phe Ser Ser Leu Thr

325 330 335

Glu Asp Gln Leu Val Gln Arg Phe Gln Glu Thr Ala Glu Leu Arg His

340 345 350

Leu Leu Asp Ser Val Ala Phe Val His Arg Thr Gly Val Pro Trp Tyr

355 360 365

Asp Ile Pro Thr Leu Val

370

<210>32

<211>1233

<212>PRT

<213>蛋白轮枝样镰刀菌

<400>32

Gly His Leu Glu Gly Gly Pro Leu Ser Thr Asp Phe Pro Met Gln His

1 5 10 15

Ala Ser Ser Thr Ala Pro Gly Asn Ala Trp Asn Glu Ala Val Lys Leu

20 25 30

Pro Asp Val Ser Ser Phe Lys Phe Trp Ile Arg Ser Arg Lys Ser Asp

35 40 45

Ser Met Pro Pro Ala Ser Leu Val Ala Pro Ala Pro Pro Ala Pro Ser

50 55 60

Lys Ala Pro Val Pro Ser Thr Ser Ile Leu Val Ile Asp Val Glu Arg

65 70 75 80

Trp Val Asp Ala Gly Lys Gly Gln Asn Pro Arg Tyr Val Asn Tyr Pro

85 90 95

Leu Gly Arg Phe Glu Met Arg Gly Ser Gln Val Ile Leu Val Asn Leu

100 105 110

Gly Thr Ala Asp Val Ser Pro Asp Pro Phe Lys Lys Pro Trp Arg Ser

115 120 125

Thr Ile Pro Thr Lys Phe Ala Lys Met Trp Trp His Met Glu Lys Asp

130 135 140

Lys Asp Pro Ala Val Pro Gly Ile Ala Ile Gly Arg Gly Thr Gly Ala

145 150 155 160

Asp Lys Glu Pro Leu Leu Gly Val Val Thr Lys Leu Met Asp Asn Ile

165 170 175

Pro Lys Lys Asp Val His Trp Thr Leu Ser Phe Asn Asp Ser Gln Ala

180 185 190

Lys Asn Ala Thr Gly Phe Val Gln Asp Ile Val Thr Thr Glu Ser Thr

195 200 205

Ile Ser Tyr Ile Thr Tyr Pro Pro Ile Ala Ser Ser Ser Thr Phe Ala

210 215 220

Ser Asp Val Phe Gln His Thr Leu Asp Arg Asp Leu Val Ser Met Ser

225 230 235 240

Thr Met Tyr Asn Gly Leu Asp Gln Val Tyr Ala Phe Leu Gly Ser Val

245 250 255

Pro Pro Asn Asp Thr Tyr Leu Ala Phe Gly Lys Arg Asn Gly Pro Val

260 265 270

His Glu Leu Ser Thr Pro Tyr Ala Leu Tyr Asn Trp Glu Leu Gly Ala

275 280 285

His Ser Ile Met Leu Leu Met Glu Arg Leu Gln Val Thr Gln Gln Tyr

290 295 300

Asp Leu Ala Leu Gln Val Ala His Phe Val Phe Asp Pro Thr Ile Asp

305 310 315 320

Gly Thr Ser Leu Thr Arg Cys Trp Val Phe Pro Pro Phe Lys Glu Leu

325 330 335

Ala Ala Gly Lys Ile Asp Ser Val Glu Asp Ile Leu Lys Leu Leu Glu

340 345 350

Pro Ser Ser Gly Ser Glu Glu Asp Met Lys Thr Ser Ile Leu Glu Trp

355 360 365

Arg Lys Asn Pro Phe Asn Ala His Val Val Ala Arg Gly Arg Pro Leu

370 375 380

Ala Tyr Met Arg Arg Ile Ile Met Lys Tyr Val Glu Ile Leu Ile Ala

385 390 395 400

Ser Gly Asp Val Tyr Phe Arg Gln Asn Thr Leu Glu Thr Leu Pro Leu

405 410 415

Ala Ile Gln Arg Tyr Val Glu Ala Ser His Val Phe Gly Ser Lys Pro

420 425 430

Val Arg Val Pro Lys Leu Ala Lys Pro Val Tyr Lys Ser Tyr Ala Asp

435 440 445

Leu Asp Arg Asp Phe Asn Asp Phe Ser Asn Ala Ala Phe Asp Met Glu

450 455 460

Leu Asp Phe Pro Phe Phe Ser Asp Pro Ala Ser Arg Gly Gly Val Pro

465 470 475 480

Gly Ala Ser Gly Thr Phe Gly Leu Thr Gly Ile Leu Lys Thr Thr Tyr

485 490 495

Phe Cys Val Pro Ser Asn Pro Lys Leu Val Gly Leu Arg Asp Leu Ile

500 505 510

Asp Asp Arg Leu Phe Lys Ile Arg Asn Cys Gln Asp Ile Tyr Gly Val

515 520 525

Val Arg Ser Leu Ala Leu Phe Glu Pro Pro Leu Asp Pro Gly Met Leu

530 535 540

Val Arg Ala Thr Ala Gly Gly Val Asp Ile Ser Gln Leu Val Ser Ser

545 550 555 560

Ile Ala Gly Pro Met Pro Asn Tyr Arg Phe Gln Tyr Leu Leu Gln Lys

565 570 575

Ala Gln Glu Met Cys Ala Glu Val Lys Ser Met Gly Thr Leu Met Leu

580 585 590

Ser Ile Lys Glu Arg Lys Asp Val Glu Ala Leu Ala Ser Leu Arg Ala

595 600 605

Arg Gln Asp Lys Val Ile Gln Asn Leu Met Ile Glu Met Lys Glu Thr

610 615 620

Ala Lys Lys Glu Ala Glu Ser Ser Ile Asp Ala Leu Leu Glu Thr Arg

625 630 635 640

Gln Ala Gln Val Ala Arg Leu Glu Tyr Tyr Leu Ala Leu Thr Gly Ser

645 650 655

Asp Asp Lys Ser Ala Pro Asp Glu Lys Glu Asp Trp Glu Asp Ile Ala

660 665 670

Gln Ser Ile Glu Lys Pro Thr Thr Asp Asp Leu Arg Met Thr Ser His

675 680 685

Glu Lys Leu Glu Met Gln Lys Ala Asp Ala Ala Ser Asp Leu Asn Gln

690 695 700

Lys Ala Thr Ile Leu Asp Ile Ala Ala Ser Ile Ile Lys Ile Ile Pro

705 710 715 720

Asp Ile Asn Glu Ala Ala Glu Pro Leu Gly Val Gly Val Ser Ile Asp

725 730 735

Ser Ile Thr Lys Asn Ile Cys Glu Ser Met Met Ile Asn Ser Asn Val

740 745 750

Met Arg Ala Gln Ala Gln His Phe Ser Asp Glu Gly Ala Arg Ala Ser

755 760 765

Arg Thr Gly Gly Leu Ile Lys Gln Leu Gln Glu Arg Arg Leu Gln Ala

770 775 780

Asn Met Ala Gly Arg Asp Ile Lys Glu Thr Asp Lys Gln Ile Leu Thr

785 790 795 800

Ala Arg Ile Arg Val Glu Met Cys Glu Arg Asn Ile Gln Leu Gln Lys

805 810 815

Gln Gln Ala Glu Tyr Ala Arg Asp Thr Glu Glu Trp Leu Arg Thr Lys

820 825 830

Tyr Ser Ser Glu Gln Leu Tyr Ala Trp Met Asp Gly Val Val Arg Asn

835 840 845

Leu Tyr His Gln Thr Tyr Met Ile Ala Asp Asp Leu Ala Gln Lys Ala

850 855 860

Gln Lys Ala Phe Gln Phe Glu Lys Gly Asp Gln Phe Val Asn Ile Ile

865 870 875 880

Ser Pro Cys Tyr Trp Asp Ala Gly Arg Asp Gly Leu Phe Ser Gly Glu

885 890 895

Asn Leu Phe Leu Ser Leu Lys Arg Leu Glu Gly Ala Tyr Ile Glu Gln

900 905 910

Arg Met His Asp Phe Glu Ile Val Lys Asn Ile Ser Leu Arg Gln Val

915 920 925

Arg Pro Trp Ala Leu Ile Asn Leu Arg Glu Thr Gly Ala Ala Glu Phe

930 935 940

Asp Leu Pro Glu Val Leu Phe Asp Phe Asp Phe Ser Gly His Tyr Cys

945 950 955 960

Arg Arg Ile Lys Ser Val Gly Met Thr Ile Pro Cys Ile Val Gly Pro

965 970 975

Tyr Thr Ser Val Asn Ala Thr Leu Thr Leu Leu Glu Tyr Gln Tyr Arg

980 985 990

Ile Lys Ser Asp Ala Lys Gly Ala Gln Asp Tyr Pro Gln Lys Ala Thr

995 1000 1005

Asp Glu Arg Phe Gln Thr Asp Gln Val Pro Ile Pro Ser Ile Ala

1010 1015 1020

Val Ser His Gly Gln Gln Asp Ser Gly Val Leu Asn Leu Asp Phe

1025 1030 1035

Lys Asp Glu Arg Tyr Met Pro Phe Glu Gly Ala Gly Ala Val Ser

1040 1045 1050

Arg Trp Arg Leu Glu Leu Pro Thr Thr Ile Lys Gln Phe Asp Tyr

1055 1060 1065

Asn Pro Ile Ser Asp Ile Val Leu His Met Lys Tyr Thr Ala Ile

1070 1075 1080

Gln Gly Cys Ala Ala Phe Arg Lys Ala Ala Ala Glu Ser Ala Ala

1085 1090 1095

Ala Gly Leu Ser Leu Asn Glu Gly Met Phe Ala Val Leu Asp Leu

1100 1105 1110

Pro Asn Glu Phe Pro Ser Glu Trp His Arg Leu Val Met Ala Asp

1115 1120 1125

Lys Thr Gln Pro Ser Thr Met Pro Leu Leu Ser Leu Gln Asp Arg

1130 1135 1140

Leu Pro Phe Phe Thr Lys Gly Lys Ser Ile Lys Ala Gly Ser Val

1145 1150 1155

Ser Val His Ile Glu Ser Ser Gly Ile Asn Leu Glu Glu Asp Ile

1160 1165 1170

Thr Leu Thr Ala Ala Asn Arg Leu Asn Leu Lys Ala Gly Thr Gly

1175 1180 1185

Ile Gly Ser Phe Gln Val Ala Thr Thr Ser Thr Asn Met Arg Gln

1190 1195 1200

Pro Val Lys Asp Trp Arg Leu Thr Leu Ser Ser Lys Ala Met Asn

1205 1210 1215

Ala Ser Ile Ser Arg Val Leu Ile Leu Tyr Arg Tyr Phe Leu Val

1220 1225 1230

<210>33

<211>7704

<212>DNA

<213>蛋白轮枝样镰刀菌

<220>

<221>misc_feature

<222>(22)..(24)

<223>对应于SEQ ID NO：34中推定的TC融合的B类/C类蛋白质编码的第一个丙氨酸的编

码区的开始(GCC)

<220>

<221>misc_feature

<222>(5483)..(6141)

<223>n＝a，g，c，或t(该DNA序列中的一个大缺口，表示为659个n的字符串)

<220>

<221>misc_feature

<222>(6203)..(6205)

<223>开始推定的TC融合的B类/C类蛋白质的第二部分的框内组氨酸密码子(CAT)

<400>33

gacagcaatt gcaggccttg agccatagtt atgtctggca agatgaatcg caaatccaga 60

taccatccga gtgatgctgt agcacctaat accggcagct ccacgaaaag tccgccctcg 120

cattcagcgt ccacaccggc aggcaaggcc tcgcaaggag gaggccaaca tgctgcacag 180

acaggacaga gacttccagc tgtcatctcg accccaactc tacaaaaggg catcgccgga 240

ggcagtcatc gaccaattga ccagaccttc aagatgaacc ccttgaacgg tacaatggct 300

ttggccttac caatcccagt aactgagggc cgtggcgggt ttggtccgaa gttggaactc 360

tcgtacaatt cgggctcggg aaatggttac ttcggacttg gctggcaact gaatttgagt 420

tccatcaccc gtatgacctc caagcgtact cccatgtacg atgagaccga cactttcttg 480

ctgagcggcg aggacgagtt ggtccgtatg ggtgaccctg aacgcattgg cgatgaattt 540

tcggttcagt cgtatcaacc tcgagtcatg ggagatgctc tgaagatcga acaatggagt 600

cgattgacag atccttccga tgtccactgg aggacgattt cgggctctaa tgtgacttgc 660

atttatggcc agtcgagcca aacgcgaacc tcctgcaagg atcagtctgg ccgcacctat 720

atcttctctt ggctactatg cagttcatac gatcccttcg ggaacttaat cacctatgaa 780

tacaaggatg agaacacgca gggttttgac accttgtcgc ctgaagcgcg attgcaggaa 840

cagaatcgag ccatggaaac agttggacgt gcaaagtact tgaaggcgat caagtacggc 900

aatgcacttc ctaatcgaga tattagtagt tggaagccac tcgaacatga cgggcaatac 960

cacttccaag tagttcttga ctacggagaa catgacatcg acaacccgga tgttcaggca 1020

gaatcaccct gggtggtcag acaagacaga ttctcaacag cggcagccgg ctttgaagta 1080

cgctggctac ggctgtgtcg ccgcattctc atgttccatt actttccgaa ggagctgtca 1140

gagaagcatt gtctcgtgcg ttctgtttcg atgcagtatc aagagtcatc cgtggcctct 1200

ttcttatctt cactaacaga acgggggcat tggttcaatc acgaaacgaa tgagatgcaa 1260

catcaagcgc taccgccata cactttccag tataacatgc cgatcgatgt gtccagcgcc 1320

aaagtcgagc acatgaatac cgataatctg ccgaatttac ccagcccagg tgggaatgag 1380

tggcaatggg tggatttgtt gggagaggga gcgcctgggc tacttgaaca acgtcccgac 1440

ggttcttgga acttccgtaa gaactacaat atcatagatg aatcatcagt tccgaagttc 1500

gattcatcta tgaccatacc tgcccgaccg aaccgaaacc tgggcaaatc ggcttacttt 1560

gaggacttga accaagatgg aaagctcgaa ctagtgtgtc tagacgacat aaacaggttg 1620

gaaggcttct accaccaata tgatgaggga tggattggtt acactacctt ctcgtcaact 1680

ccaaatcgag ataccaccgc agtcttcttc aagcagcttg atctcactgg aaatgggctt 1740

gcagatcttg tggcagttga tgccgtgaat agagagatta tgtggcaaga aaacttgggc 1800

gcagctggat ttgctccatt gagggaatgc gtcaacagta cgggtgttcc gcagctgatg 1860

tctgatgacc ctacggtaca ggtcactctt gctgatatga caggtgacgg tcggtcagat 1920

gtcgtacagg tctcttcagg ctatgtcaag tactggcaga atctatcata cggacaattc 1980

agtgacccgg tctgtatgta caatgcccca aagctggata gtgatatctc cattgccgaa 2040

agaatacgcc ttgttgatat caatggatcg ggtaccaacg atctgatcta catgcctgca 2100

ggtggtggtc tgcacgttta tttcaaccaa gcaggaaacg gctggagtga tccacagatt 2160

ctggagtcat tcccgtcggt tgaccagctg agtagcgtct ctacggtgga cctgtttggt 2220

aaagggacgg catgtttatg ttggagcggc aaggtacttg ggtcaaactc agcgcagact 2280

ctctactatg tcgaccttgc ccctggacca aagcccaact gcctagctac ataccaaaat 2340

gggaggggat cgcgagtaga agtctcgtat cggtcttcca actggtatta cctccaggat 2400

gagcgtgcag gagcaccatg ggctacaaaa atagggtttc ccgttcagtg tgtcagtcaa 2460

gtcaggttct tggacgatac aactggactt ttgaacacca agagtttcac ttatcatgat 2520

ggctactacg atgctcccga tagggagttt agaggctttg ggatggtcga acagcttgaa 2580

tcgactgttt tcaacgccga tacgtcatca gaataccgcc aaacagctac catcaccaaa 2640

acctggtttc atacaggggc aatgacacca actaagtgcc gtctagagcg agcaacctct 2700

ggagctcttt tcggttctta ctggtgcgta gagtcattca agctcgaaga tcggcgtgac 2760

tgctgccggg ccctcaaagg aatgcagctc cgagaagaaa ttattggcca cgttgggact 2820

gcacttacag aacatgccta tcaagtgaca gatactgctc accaagtggt ccagctctct 2880

cctaggaaag gcgtattgca gccaggcaca tatcgttgcg tgccacgcga aatactcaag 2940

actcacaatg atcggtcgcc ggaatcatta ccacgctaca gccacgaact catcctagag 3000

acgaacagat tcaatgatag actgaagtca atggaaattt tctatgggca ctcaggcgga 3060

gaggccctgg attctgtcca gaaggaaagt gtcctgacgt acatagagaa cgaatattgt 3120

ctgcctgtcc tcgacaagga caatgggatc ttcgtaaagc caatgccgtc agtcactcgc 3180

aaatatcgta ttgttggtct ggactggtca agcaataaca tacaatcggc ctttaccaag 3240

tttactagtg gcagtttcca ggtattgcgg agtattcccg aagtcccata cacagatcag 3300

attctacctc catgttcttc agaagcccga gtaaagatcg aagagagacg gacattatat 3360

cgcaaccagg acttctctca agtacagcca ttacctctgg ggcaatttca ggcttactcg 3420

gtgatccatg gtattcttga cctagctgga ggagacagat ggtttcaagc cctgctcaag 3480

gactatttac ctgataattc agacttggat agctttatga ctacatatgg gtatatcaaa 3540

acaacggagg aaaacggcac tactctttgg tggcgccttt cttcgcgtaa tctttttggt 3600

cctgacgcaa aaaatgaact cgccaaggcc agaaagtgct tttacacacc gacgatcacc 3660

caggatccct ttgacaaccg gagtacagtt cagatggatg actataacct actgccaagg 3720

ctttctactg atgcggttgg aaatgtcacc aatgtggata tggattacag atacatgtct 3780

ccatcgtgtg tcgttgatcc aaaccgcaat cgaaccacct atagctacga cctgttgggt 3840

agagtcgtgg caacagcccg atctgggaaa gagaaagaat cagttggtga caatctcaac 3900

acaacagtca agctaccctc acaagctgac aaggatgttt tctttgcatg tccgacgcaa 3960

gaggctgctt tcaagctttt aggtggtgcc actagttacc gcctgtacta cgatgctcaa 4020

gccaagcatc ccagagcgct tttggatacc agtcccactg cctttatcga catcagtcga 4080

acttcccacc atgcggatgg agccagtgct agtgatattt ccatatcgat cacttacctg 4140

gatggcaatc ttgctgagct gcaaacgatc agcttgactg gcacagtcga ggatggatat 4200

aagtggaaca ttggtgaatg gagtttacga aatagcagag gggacccggt tcgcacgttt 4260

cagccatgct ataccgattc gcatgggttc attcattctt ctgagagcca gtcgaaaatg 4320

accaccatga tctatgatcc cctgggcaga ctagtcggta cattctatcc tgaccacgca 4380

tactcgaaag tgagatatga gacttgggca actacaaact acgacagagg ggatacagtc 4440

ttgatggacc tcgccgagga caaagatctc agtatctata ccagcgttct cgcaaaggag 4500

aactatagtc ccagctggca cgctagcgcg tcgacccaag agctttcacg cagggctgta 4560

gcaaaggttt cggaggttta cagtgagaca cccgataaga cttatctgga tgcgcaagag 4620

cgtccaattc taagaatcag agattgcaaa acggccaaga taaagacgcg gagtagttac 4680

agtctagcag ggcatttggc ccaaacaaca gatggtagag gtcgtcttgc tgaaagcgta 4740

acctctgact tgctaggccg tgacatactc cgtcaaggta tggacactgg catggttttt 4800

accttccacg actgcatgga ccgcactgtg atactgatgg atggccgtaa ctggaggcaa 4860

cggtcggtat acgatgctgc aggtagaaag acccatctct ggctctggca acacggtgga 4920

accgaattct tggcagaatt aattcgctat ggagaggctg ttgaaaacgc tgaggctttg 4980

aacctacgtg gaaaggtatg tgagatccgg gatcaatcag gaatccagaa gaacaaagtc 5040

tttgacttca aaggaaactt tgtcgagtca actacccagt tcacgactga atacaaaggc 5100

tcgatcaact ggggagctga gagcaacccc aagctggacc ccgaggttta cacggttcga 5160

aaggcttatg atgccatgga cagagtggtc gagtcatatg acgtcgaagg tgcagtcaca 5220

aggcatagtt atggcatctc tggacagctc aatcgggttt catacaagag cagagggcag 5280

aaggagtatc cctggaaaga ttacatgagc gacatcaggt atgcggctga tggacaaccg 5340

gagcaaatcc tgtacggaaa cggtgtcttg gcgacctttc agtatgactt agcgaccaga 5400

ctcatgaatc gaaagagact catccgccag aatgacaaga gagtcatgga agacacacaa 5460

tattcacacg atgttatgca tcnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 5520

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 5580

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 5640

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 5700

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 5760

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 5820

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 5880

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 5940

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 6000

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 6060

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 6120

nnnnnnnnnn nnnnnnnnnn nccagttacc ggcatagtgc agatagcagg gaaggagtcc 6180

caggtaggat gatggttgat agcattgctc aaaggggaaa acgccaccca ggcccaaaag 6240

gtcaaatgtg ggtgcggagc tatggcgtat gaggaaaaga gtcgggtcaa ggaaggcgag 6300

tctgaaaata ggctcagcta cacttcaaag agtggtcaaa cagaaaaatg gacgtacggc 6360

gatgggagcc aacactggct ttgctggtag tgtcactgcc ggtggcggga tgcattccat 6420

gtactgggat cctttcaacc gtctcaagtc ttgctcaagg caagtcaaga agagtggtgt 6480

accagaaact acatggtatg tgtacaacag tgaaggaaag agggtacgga aaataacgga 6540

gcgatcatcg tccgggtcgg atgatccaag aatgctgaaa gaaacaacct tcttttccaa 6600

tttgcacata taccagtgca agactgggga cggatctggc cacagcaagg ataaacgcta 6660

ccatctgatc catagtgccg aacagaaact cgtggccatt gctgaagagg acaaggctgt 6720

gtcttcagag tcttcccctc tagtcagata tcacatgtcc gacaagctag agttagatca 6780

ttcggggctt gtcataactt acgaggagta ttcacccttt ggatcaagct ccttttctct 6840

tcgacgatcg gaacaagagg catcccgcaa gtacagattt gctggctacg agagagataa 6900

agagaccggg ctctactact gcaacgcgcg gtactatgct ccgtggcttg ggcgatggat 6960

gtcaccagac cctatcggaa ccaaggatgg gctaaacttg tactgctact gcggtaatga 7020

cccggtgaac tacattgatc ctaccggaac tacgggtctg ttcaaggcca tgcgaatagc 7080

agcagtgcca ctagccaagg ccgcgatgag aatgaacgaa atcacaaaat cgggtgcagt 7140

gtttgagccc taccagcgat cctggctctc ggagatttcc aagccgagtc gaggctgctc 7200

ggcggctttc ctggatgatg ccggattctt gactgagaat gaaaagttga ggaacctgca 7260

ggaatacaac gcgaagatgg aacagcaggt acaacgtccg ctgagtcata tgtctccgga 7320

actcatgaag gaaatgggaa cgtacgacat taagcagtac ctcactgaat ttgggaagga 7380

aggtctaatt cagggaggca aggagctggc cttatttggt gctgccgcga tcggcacccg 7440

gattccccta ctaagcatgt cctcgccttt aggatttgtg cccggtattg tttatggcgt 7500

tgcctgcgat acggtcatag atgctgtagc ggagaagatt cgtgagggaa tggcgggtcc 7560

aaatgagtac gcgcaggaag acgcacagag ccacgtagaa acgatgaaca agttacggca 7620

gggtccgcgg gaattcgcac agggcttagc gcaggattgg ttcatgggcc atttccagga 7680

taaatgagat catcatttgc tttc 7704

<210>34

<211>1820

<212>PRT

<213>蛋白轮枝样镰刀菌

<400>34

Ala Ile Val Met Ser Gly Lys Met Asn Arg Lys Ser Arg Tyr His Pro

1 5 10 15

Ser Asp Ala Val Ala Pro Asn Thr Gly Ser Ser Thr Lys Ser Pro Pro

20 25 30

Ser His Ser Ala Ser Thr Pro Ala Gly Lys Ala Ser Gln Gly Gly Gly

35 40 45

Gln His Ala Ala Gln Thr Gly Gln Arg Leu Pro Ala Val Ile Ser Thr

50 55 60

Pro Thr Leu Gln Lys Gly Ile Ala Gly Gly Ser His Arg Pro Ile Asp

65 70 75 80

Gln Thr Phe Lys Met Asn Pro Leu Asn Gly Thr Met Ala Leu Ala Leu

85 90 95

Pro Ile Pro Val Thr Glu Gly Arg Gly Gly Phe Gly Pro Lys Leu Glu

100 105 110

Leu Ser Tyr Asn Ser Gly Ser Gly Asn Gly Tyr Phe Gly Leu Gly Trp

115 120 125

Gln Leu Asn Leu Ser Ser Ile Thr Arg Met Thr Ser Lys Arg Thr Pro

130 135 140

Met Tyr Asp Glu Thr Asp Thr Phe Leu Leu Ser Gly Glu Asp Glu Leu

145 150 155 160

Val Arg Met Gly Asp Pro Glu Arg Ile Gly Asp Glu Phe Ser Val Gln

165 170 175

Ser Tyr Gln Pro Arg Val Met Gly Asp Ala Leu Lys Ile Glu Gln Trp

180 185 190

Ser Arg Leu Thr Asp Pro Ser Asp Val His Trp Arg Thr Ile Ser Gly

195 200 205

Ser Asn Val Thr Cys Ile Tyr Gly Gln Ser Ser Gln Thr Arg Thr Ser

210 215 220

Cys Lys Asp Gln Ser Gly Arg Thr Tyr Ile Phe Ser Trp Leu Leu Cys

225 230 235 240

Ser Ser Tyr Asp Pro Phe Gly Asn Leu Ile Thr Tyr Glu Tyr Lys Asp

245 250 255

Glu Asn Thr Gln Gly Phe Asp Thr Leu Ser Pro Glu Ala Arg Leu Gln

260 265 270

Glu Gln Asn Arg Ala Met Glu Thr Val Gly Arg Ala Lys Tyr Leu Lys

275 280 285

Ala Ile Lys Tyr Gly Asn Ala Leu Pro Asn Arg Asp Ile Ser Ser Trp

290 295 300

Lys Pro Leu Glu His Asp Gly Gln Tyr His Phe Gln Val Val Leu Asp

305 310 315 320

Tyr Gly Glu His Asp Ile Asp Asn Pro Asp Val Gln Ala Glu Ser Pro

325 330 335

Trp Val Val Arg Gln Asp Arg Phe Ser Thr Ala Ala Ala Gly Phe Glu

340 345 350

Val Arg Trp Leu Arg Leu Cys Arg Arg Ile Leu Met Phe His Tyr Phe

355 360 365

Pro Lys Glu Leu Ser Glu Lys His Cys Leu Val Arg Ser Val Ser Met

370 375 380

Gln Tyr Gln Glu Ser Ser Val Ala Ser Phe Leu Ser Ser Leu Thr Glu

385 390 395 400

Arg Gly His Trp Phe Asn His Glu Thr Asn Glu Met Gln His Gln Ala

405 410 415

Leu Pro Pro Tyr Thr Phe Gln Tyr Asn Met Pro Ile Asp Val Ser Ser

420 425 430

Ala Lys Val Glu His Met Asn Thr Asp Asn Leu Pro Asn Leu Pro Ser

435 440 445

Pro Gly Gly Asn Glu Trp Gln Trp Val Asp Leu Leu Gly Glu Gly Ala

450 455 460

Pro Gly Leu Leu Glu Gln Arg Pro Asp Gly Ser Trp Asn Phe Arg Lys

465 470 475 480

Asn Tyr Asn Ile Ile Asp Glu Ser Ser Val Pro Lys Phe Asp Ser Ser

485 490 495

Met Thr Ile Pro Ala Arg Pro Asn Arg Asn Leu Gly Lys Ser Ala Tyr

500 505 510

Phe Glu Asp Leu Asn Gln Asp Gly Lys Leu Glu Leu Val Cys Leu Asp

515 520 525

Asp Ile Asn Arg Leu Glu Gly Phe Tyr His Gln Tyr Asp Glu Gly Trp

530 535 540

Ile Gly Tyr Thr Thr Phe Ser Ser Thr Pro Asn Arg Asp Thr Thr Ala

545 550 555 560

Val Phe Phe Lys Gln Leu Asp Leu Thr Gly Asn Gly Leu Ala Asp Leu

565 570 575

Val Ala Val Asp Ala Val Asn Arg Glu Ile Met Trp Gln Glu Asn Leu

580 585 590

Gly Ala Ala Gly Phe Ala Pro Leu Arg Glu Cys Val Asn Ser Thr Gly

595 600 605

Val Pro Gln Leu Met Ser Asp Asp Pro Thr Val Gln Val Thr Leu Ala

610 615 620

Asp Met Thr Gly Asp Gly Arg Ser Asp Val Val Gln Val Ser Ser Gly

625 630 635 640

Tyr Val Lys Tyr Trp Gln Asn Leu Ser Tyr Gly Gln Phe Ser Asp Pro

645 650 655

Val Cys Met Tyr Asn Ala Pro Lys Leu Asp Ser Asp Ile Ser Ile Ala

660 665 670

Glu Arg Ile Arg Leu Val Asp Ile Asn Gly Ser Gly Thr Asn Asp Leu

675 680 685

Ile Tyr Met Pro Ala Gly Gly Gly Leu His Val Tyr Phe Asn Gln Ala

690 695 700

Gly Asn Gly Trp Ser Asp Pro Gln Ile Leu Glu Ser Phe Pro Ser Val

705 710 715 720

Asp Gln Leu Ser Ser Val Ser Thr Val Asp Leu Phe Gly Lys Gly Thr

725 730 735

Ala Cys Leu Cys Trp Ser Gly Lys Val Leu Gly Ser Asn Ser Ala Gln

740 745 750

Thr Leu Tyr Tyr Val Asp Leu Ala Pro Gly Pro Lys Pro Asn Cys Leu

755 760 765

Ala Thr Tyr Gln Asn Gly Arg Gly Ser Arg Val Glu Val Ser Tyr Arg

770 775 780

Ser Ser Asn Trp Tyr Tyr Leu Gln Asp Glu Arg Ala Gly Ala Pro Trp

785 790 795 800

Ala Thr Lys Ile Gly Phe Pro Val Gln Cys Val Ser Gln Val Arg Phe

805 810 815

Leu Asp Asp Thr Thr Gly Leu Leu Asn Thr Lys Ser Phe Thr Tyr His

820 825 830

Asp Gly Tyr Tyr Asp Ala Pro Asp Arg Glu Phe Arg Gly Phe Gly Met

835 840 845

Val Glu Gln Leu Glu Ser Thr Val Phe Asn Ala Asp Thr Ser Ser Glu

850 855 860

Tyr Arg Gln Thr Ala Thr Ile Thr Lys Thr Trp Phe His Thr Gly Ala

865 870 875 880

Met Thr Pro Thr Lys Cys Arg Leu Glu Arg Ala Thr Ser Gly Ala Leu

885 890 895

Phe Gly Ser Tyr Trp Cys Val Glu Ser Phe Lys Leu Glu Asp Arg Arg

900 905 910

Asp Cys Cys Arg Ala Leu Lys Gly Met Gln Leu Arg Glu Glu Ile Ile

915 920 925

Gly His Val Gly Thr Ala Leu Thr Glu His Ala Tyr Gln Val Thr Asp

930 935 940

Thr Ala His Gln Val Val Gln Leu Ser Pro Arg Lys Gly Val Leu Gln

945 950 955 960

Pro Gly Thr Tyr Arg Cys Val Pro Arg Glu Ile Leu Lys Thr His Asn

965 970 975

Asp Arg Ser Pro Glu Ser Leu Pro Arg Tyr Ser His Glu Leu Ile Leu

980 985 990

Glu Thr Asn Arg Phe Asn Asp Arg Leu Lys Ser Met Glu Ile Phe Tyr

995 1000 1005

Gly His Ser Gly Gly Glu Ala Leu Asp Ser Val Gln Lys Glu Ser

1010 1015 1020

Val Leu Thr Tyr Ile Glu Asn Glu Tyr Cys Leu Pro Val Leu Asp

1025 1030 1035

Lys Asp Asn Gly Ile Phe Val Lys Pro Met Pro Ser Val Thr Arg

1040 1045 1050

Lys Tyr Arg Ile Val Gly Leu Asp Trp Ser Ser Asn Asn Ile Gln

1055 1060 1065

Ser Ala Phe Thr Lys Phe Thr Ser Gly Ser Phe Gln Val Leu Arg

1070 1075 1080

Ser Ile Pro Glu Val Pro Tyr Thr Asp Gln Ile Leu Pro Pro Cys

1085 1090 1095

Ser Ser Glu Ala Arg Val Lys Ile Glu Glu Arg Arg Thr Leu Tyr

1100 1105 1110

Arg Asn Gln Asp Phe Ser Gln Val Gln Pro Leu Pro Leu Gly Gln

1115 1120 1125

Phe Gln Ala Tyr Ser Val Ile His Gly Ile Leu Asp Leu Ala Gly

1130 1135 1140

Gly Asp Arg Trp Phe Gln Ala Leu Leu Lys Asp Tyr Leu Pro Asp

1145 1150 1155

Asn Ser Asp Leu Asp Ser Phe Met Thr Thr Tyr Gly Tyr Ile Lys

1160 1165 1170

Thr Thr Glu Glu Asn Gly Thr Thr Leu Trp Trp Arg Leu Ser Ser

1175 1180 1185

Arg Asn Leu Phe Gly Pro Asp Ala Lys Asn Glu Leu Ala Lys Ala

1190 1195 1200

Arg Lys Cys Phe Tyr Thr Pro Thr Ile Thr Gln Asp Pro Phe Asp

1205 1210 1215

Asn Arg Ser Thr Val Gln Met Asp Asp Tyr Asn Leu Leu Pro Arg

1220 1225 1230

Leu Ser Thr Asp Ala Val Gly Asn Val Thr Asn Val Asp Met Asp

1235 1240 1245

Tyr Arg Tyr Met Ser Pro Ser Cys Val Val Asp Pro Asn Arg Asn

1250 1255 1260

Arg Thr Thr Tyr Ser Tyr Asp Leu Leu Gly Arg Val Val Ala Thr

1265 1270 1275

Ala Arg Ser Gly Lys Glu Lys Glu Ser Val Gly Asp Asn Leu Asn

1280 1285 1290

Thr Thr Val Lys Leu Pro Ser Gln Ala Asp Lys Asp Val Phe Phe

1295 1300 1305

Ala Cys Pro Thr Gln Glu Ala Ala Phe Lys Leu Leu Gly Gly Ala

1310 1315 1320

Thr Ser Tyr Arg Leu Tyr Tyr Asp Ala Gln Ala Lys His Pro Arg

1325 1330 1335

Ala Leu Leu Asp Thr Ser Pro Thr Ala Phe Ile Asp Ile Ser Arg

1340 1345 1350

Thr Ser His His Ala Asp Gly Ala Ser Ala Ser Asp Ile Ser Ile

1355 1360 1365

Ser Ile Thr Tyr Leu Asp Gly Asn Leu Ala Glu Leu Gln Thr Ile

1370 1375 1380

Ser Leu Thr Gly Thr Val Glu Asp Gly Tyr Lys Trp Asn Ile Gly

1385 1390 1395

Glu Trp Ser Leu Arg Asn Ser Arg Gly Asp Pro Val Arg Thr Phe

1400 1405 1410

Gln Pro Cys Tyr Thr Asp Ser His Gly Phe Ile His Ser Ser Glu

1415 1420 1425

Ser Gln Ser Lys Met Thr Thr Met Ile Tyr Asp Pro Leu Gly Arg

1430 1435 1440

Leu Val Gly Thr Phe Tyr Pro Asp His Ala Tyr Ser Lys Val Arg

1445 1450 1455

Tyr Glu Thr Trp Ala Thr Thr Asn Tyr Asp Arg Gly Asp Thr Val

1460 1465 1470

Leu Met Asp Leu Ala Glu Asp Lys Asp Leu Ser Ile Tyr Thr Ser

1475 1480 1485

Val Leu Ala Lys Glu Asn Tyr Ser Pro Ser Trp His Ala Ser Ala

1490 1495 1500

Ser Thr Gln Glu Leu Ser Arg Arg Ala Val Ala Lys Val Ser Glu

1505 1510 1515

Val Tyr Ser Glu Thr Pro Asp Lys Thr Tyr Leu Asp Ala Gln Glu

1520 1525 1530

Arg Pro Ile Leu Arg Ile Arg Asp Cys Lys Thr Ala Lys Ile Lys

1535 1540 1545

Thr Arg Ser Ser Tyr Ser Leu Ala Gly His Leu Ala Gln Thr Thr

1550 1555 1560

Asp Gly Arg Gly Arg Leu Ala Glu Ser Val Thr Ser Asp Leu Leu

1565 1570 1575

Gly Arg Asp Ile Leu Arg Gln Gly Met Asp Thr Gly Met Val Phe

1580 1585 1590

Thr Phe His Asp Cys Met Asp Arg Thr Val Ile Leu Met Asp Gly

1595 1600 1605

Arg Asn Trp Arg Gln Arg Ser Val Tyr Asp Ala Ala Gly Arg Lys

1610 1615 1620

Thr His Leu Trp Leu Trp Gln His Gly Gly Thr Glu Phe Leu Ala

1625 1630 1635

Glu Leu Ile Arg Tyr Gly Glu Ala Val Glu Asn Ala Glu Ala Leu

1640 1645 1650

Asn Leu Arg Gly Lys Val Cys Glu Ile Arg Asp Gln Ser Gly Ile

1655 1660 1665

Gln Lys Asn Lys Val Phe Asp Phe Lys Gly Asn Phe Val Glu Ser

1670 1675 1680

Thr Thr Gln Phe Thr Thr Glu Tyr Lys Gly Ser Ile Asn Trp Gly

1685 1690 1695

Ala Glu Ser Asn Pro Lys Leu Asp Pro Glu Val Tyr Thr Val Arg

1700 1705 1710

Lys Ala Tyr Asp Ala Met Asp Arg Val Val Glu Ser Tyr Asp Val

1715 1720 1725

Glu Gly Ala Val Thr Arg His Ser Tyr Gly Ile Ser Gly Gln Leu

1730 1735 1740

Asn Arg Val Ser Tyr Lys Ser Arg Gly Gln Lys Glu Tyr Pro Trp

1745 1750 1755

Lys Asp Tyr Met Ser Asp Ile Arg Tyr Ala Ala Asp Gly Gln Pro

1760 1765 1770

Glu Gln Ile Leu Tyr Gly Asn Gly Val Leu Ala Thr Phe Gln Tyr

1775 1780 1785

Asp Leu Ala Thr Arg Leu Met Asn Arg Lys Arg Leu Ile Arg Gln

1790 1795 1800

Asn Asp Lys Arg Val Met Glu Asp Thr Gln Tyr Ser His Asp Val

1805 1810 1815

Met His

1820

<210>35

<211>494

<212>PRT

<213>蛋白轮枝样镰刀菌

<400>35

His Cys Ser Lys Gly Lys Thr Pro Pro Arg Pro Lys Arg Ser Asn Val

1 5 10 15

Gly Ala Glu Leu Trp Arg Met Arg Lys Arg Val Gly Ser Arg Lys Ala

20 25 30

Ser Leu Lys Ile Gly Ser Ala Thr Leu Gln Arg Val Val Lys Gln Lys

35 40 45

Asn Gly Arg Thr Ala Met Gly Ala Asn Thr Gly Phe Ala Gly Ser Val

50 55 60

Thr Ala Gly Gly Gly Met His Ser Met Tyr Trp Asp Pro Phe Asn Arg

65 70 75 80

Leu Lys Ser Cys Ser Arg Gln Val Lys Lys Ser Gly Val Pro Glu Thr

85 90 95

Thr Trp Tyr Val Tyr Asn Ser Glu Gly Lys Arg Val Arg Lys Ile Thr

100 105 110

Glu Arg Ser Ser Ser Gly Ser Asp Asp Pro Arg Met Leu Lys Glu Thr

115 120 125

Thr Phe Phe Ser Asn Leu His Ile Tyr Gln Cys Lys Thr Gly Asp Gly

130 135 140

Ser Gly His Ser Lys Asp Lys Arg Tyr His Leu Ile His Ser Ala Glu

145 150 155 160

Gln Lys Leu Val Ala Ile Ala Glu Glu Asp Lys Ala Val Ser Ser Glu

165 170 175

Ser Ser Pro Leu Val Arg Tyr His Met Ser Asp Lys Leu Glu Leu Asp

180 185 190

His Ser Gly Leu Val Ile Thr Tyr Glu Glu Tyr Ser Pro Phe Gly Ser

195 200 205

Ser Ser Phe Ser Leu Arg Arg Ser Glu Gln Glu Ala Ser Arg Lys Tyr

210 215 220

Arg Phe Ala Gly Tyr Glu Arg Asp Lys Glu Thr Gly Leu Tyr Tyr Cys

225 230 235 240

Asn Ala Arg Tyr Tyr Ala Pro Trp Leu Gly Arg Trp Met Ser Pro Asp

245 250 255

Pro Ile Gly Thr Lys Asp Gly Leu Asn Leu Tyr Cys Tyr Cys Gly Asn

260 265 270

Asp Pro Val Asn Tyr Ile Asp Pro Thr Gly Thr Thr Gly Leu Phe Lys

275 280 285

Ala Met Arg Ile Ala Ala Val Pro Leu Ala Lys Ala Ala Met Arg Met

290 295 300

Asn Glu Ile Thr Lys Ser Gly Ala Val Phe Glu Pro Tyr Gln Arg Ser

305 310 315 320

Trp Leu Ser Glu Ile Ser Lys Pro Ser Arg Gly Cys Ser Ala Ala Phe

325 330 335

Leu Asp Asp Ala Gly Phe Leu Thr Glu Asn Glu Lys Leu Arg Asn Leu

340 345 350

Gln Glu Tyr Asn Ala Lys Met Glu Gln Gln Val Gln Arg Pro Leu Ser

355 360 365

His Met Ser Pro Glu Leu Met Lys Glu Met Gly Thr Tyr Asp Ile Lys

370 375 380

Gln Tyr Leu Thr Glu Phe Gly Lys Glu Gly Leu Ile Gln Gly Gly Lys

385 390 395 400

Glu Leu Ala Leu Phe Gly Ala Ala Ala Ile Gly Thr Arg Ile Pro Leu

405 410 415

Leu Ser Met Ser Ser Pro Leu Gly Phe Val Pro Gly Ile Val Tyr Gly

420 425 430

Val Ala Cys Asp Thr Val Ile Asp Ala Val Ala Glu Lys Ile Arg Glu

435 440 445

Gly Met Ala Gly Pro Asn Glu Tyr Ala Gln Glu Asp Ala Gln Ser His

450 455 460

Val Glu Thr Met Asn Lys Leu Arg Gln Gly Pro Arg Glu Phe Ala Gln

465 470 475 480

Gly Leu Ala Gln Asp Trp Phe Met Gly His Phe Gln Asp Lys

485 490

<210>36

<211>962

<212>DNA

<213>蛋白轮枝样镰刀菌

<220>

<221>misc_feature

<222>(20)..(22)

<223>对应于推定的TC融合的B类/C类蛋白的第一个谷氨酰胺的编码区的开始(CAG)

<220>

<221>misc_feature

<222>(619)..(621)

<223>开始推定的TC融合的B类/C类蛋白的第二部分的天冬氨酸密码子(GAT)

<400>36

atacgccaca gagtattagc agatgctgga ctggggagca gaggtataca caacagagac 60

attcttcaat gccctggggc agaatatccg tgttgttgcc ccgggaggtg actctctcaa 120

acgatccttt gatctcgctg ggcgattggc gaaggttgaa gcctacgcgt ctgtcagtag 180

tgttgttgcc acagcctcta tcgaccatgt cacatacgag cccgacgatc aagtgggctc 240

ggttctctac ggcaacggag cattggtcaa aaatacctat ggtatatctg atcacagact 300

actgaaaagt cgcaacacta gcactgagga gggtcgtgtg ctgcaggaca tctcatcctg 360

gtacgactgc atgggccgac tagttcgaag ggaagataag gcacaacaga ctctcttctt 420

tgacaattgt cgtatcagtc ttactgaaga ctttacctac gactctctcg gccagttggt 480

tgagtccggg ggttgtgagt tgacaaatct cctgacggtc ctgggagaac cagtccacca 540

gatcctcacc tacgtcgctc taccaatctt tcaggagacg ggaaacaaat ggcaccgttt 600

gtagagaggt atacctaaga tgtttgtgga aacatattga ggatggggca tggacttcag 660

tctgggagtg ggtggaccag aggatacaag tacgaagagc ctagccgcat tgatccaaat 720

gttcacaaca accgtctaag cagctccact gttggtaatt cgacgactca ctacggctac 780

aatggtattt caggaattgg tgggtgcatt gtgtccatgt ctggatactc agaccttcgc 840

tgggaccatc atgaccgtct ccgggcattt gccacgcaaa gggttacaga gggtgcaatg 900

gcagcaatgg cgttcagcat ctttgtatac ttgttttata tatagttctg tcacgattca 960

tt 962

<210>37

<211>194

<212>PRT

<213>蛋白轮枝样镰刀菌

<400>37

Gln Met Leu Asp Trp Gly Ala Glu Val Tyr Thr Thr Glu Thr Phe Phe

1 5 10 15

Asn Ala Leu Gly Gln Asn Ile Arg Val Val Ala Pro Gly Gly Asp Ser

20 25 30

Leu Lys Arg Ser Phe Asp Leu Ala Gly Arg Leu Ala Lys Val Glu Ala

35 40 45

Tyr Ala Ser Val Ser Ser Val Val Ala Thr Ala Ser Ile Asp His Val

50 55 60

Thr Tyr Glu Pro Asp Asp Gln Val Gly Ser Val Leu Tyr Gly Asn Gly

65 70 75 80

Ala Leu Val Lys Asn Thr Tyr Gly Ile Ser Asp His Arg Leu Leu Lys

85 90 95

Ser Arg Asn Thr Ser Thr Glu Glu Gly Arg Val Leu Gln Asp Ile Ser

100 105 110

Ser Trp Tyr Asp Cys Met Gly Arg Leu Val Arg Arg Glu Asp Lys Ala

115 120 125

Gln Gln Thr Leu Phe Phe Asp Asn Cys Arg Ile Ser Leu Thr Glu Asp

130 135 140

Phe Thr Tyr Asp Ser Leu Gly Gln Leu Val Glu Ser Gly Gly Cys Glu

145 150 155 160

Leu Thr Asn Leu Leu Thr Val Leu Gly Glu Pro Val His Gln Ile Leu

165 170 175

Thr Tyr Val Ala Leu Pro Ile Phe Gln Glu Thr Gly Asn Lys Trp His

180 185 190

Arg Leu

<210>38

<211>109

<212>PRT

<213>蛋白轮枝样镰刀菌

<220>

<221>misc_feature

<222>(1)..(2)

<223>Xaa可以是任一天然存在的氨基酸

<400>38

Xaa Xaa Asp Val Cys Gly Asn Ile Leu Arg Met Gly His Gly Leu Gln

1 5 10 15

Ser Gly Ser Gly Trp Thr Arg Gly Tyr Lys Tyr Glu Glu Pro Ser Arg

20 25 30

Ile Asp Pro Asn Val His Asn Asn Arg Leu Ser Ser Ser Thr Val Gly

35 40 45

Asn Ser Thr Thr His Tyr Gly Tyr Asn Gly Ile Ser Gly Ile Gly Gly

50 55 60

Cys Ile Val Ser Met Ser Gly Tyr Ser Asp Leu Arg Trp Asp His His

65 70 75 80

Asp Arg Leu Arg Ala Phe Ala Thr Gln Arg Val Thr Glu Gly Ala Met

85 90 95

Ala Ala Met Ala Phe Ser Ile Phe Val Tyr Leu Phe Tyr

100 105

<210>39

<211>8242

<212>DNA

<213>蛋白轮枝样镰刀菌

<220>

<221>misc_feature

<222>(21)..(23)

<223>对应于推定的TC融合的B类/C类蛋白的第一部分的第一个谷氨酸的编码区的开始

(GAG)

<220>

<221>misc_feature

<222>(3424)..(4432)

<223>n＝a，g，c，或t(DNA序列中的大缺口，表示为1009个n的字符串)

<220>

<221>misc_feature

<222>(4435)..(4437)

<223>指定推定的TC融合的B类/C类蛋白的第二部分的第一个亮氨酸的TTG密码子

<400>39

tatactccaa gacggactga gagattttta tttcatcatg ctctgtaggc cctttaccat 60

tttccatttt agtacagagt ccccagtcat ctgtcatgga tacaccgcaa gcagcaaaaa 120

cgcaaatacc gtcacgtgac cgaagtggtc ccaagattga gcatcgcgat gccgttggca 180

catcatcttc gtcccaacag gccgctagca aaggctcaac cgcagccaaa ggcacaggaa 240

gctcttcgtc cctctccatc ccagtgctcg actctgctgc ctttgcaact ggcaaaggcg 300

ggggagcatt acgatccatc gatagtaatt tttccgtaaa ccccaacacc ggcaccttgt 360

ccttcagcgt gcccttgcct gtgtcaaaat cacgtggtgg cttccagcca tcactttctc 420

tcgagtatga ttcaggccgt ggaaatggtg cctttggcat tggttggcga cttggcggta 480

tttcaagcat tgctcgcaag atgtctcgtc gtattccgac atatggtcaa gatgacgatg 540

gagaagacct ggacactttc acgctcactg gcgctgatga tttagtccct cttagcgacg 600

agactgtcga tggcttcgtc gtgaggcagt acgcaccccg tgtacgtggc gatacagaaa 660

tgcgtgttga gcgctggatg caaggcagcc atgttatctt ctggaggaca atttcgtctg 720

aaaatgtgac aaatatttat gggcgtgacg attcctctcg tgagatggag aatccacatc 780

gagtgtttgc atggttgctc tgtgaaagct atgatgcgta tggcaacgct atatctttca 840

catataagaa aggtgataat gaaggtatcg aagctttgcc tgcggacaga aaggcaactg 900

aaacgatgag agattctaaa gcactcacac gcgcgcgata tctcaagagc atccgatacg 960

gaaaccatac acccagtcga gatctcgaca gatggaagat tatccctgcc accgccaaca 1020

agacctatgg atggtgtttt agtattgtac tcgattacgg agaacatgac cttcagtgcc 1080

ctacaacgtt ggaatcttct cttccctggt ctgtccgaca ggatcctttc tcgacaggat 1140

cccgggggtt tgaggtacgc agcctccgtc tctgccggcg agttctcatg tttcatcatt 1200

tctctgagcc gggagaactc gggcgtgaag attatctggt cgcctcgatg gagattaatt 1260

atcaagaaag tcccgccggg tctgtcattg aacagatcac ctccaatggc catgtattcg 1320

acgcggctcg gggcgtgtat gccgcgcaga gcatggcgcc tctcaaacta cgctatagcg 1380

gcttgcctga cctcagaagt ttgccaatta ctaccgtctg cccgaccgca ttgcaaaatt 1440

tgcccatttc ccggcctgac gccgtcactc gctgggtaga cctggatggc gaaggctcac 1500

cgggcttgct tgtgcagcta gatggagcat ggtacttcca gcgcaatgaa agtcccttga 1560

tagcctgtag tgatgatgat agcagctcta tcactagttc tggggtggac acagaatcag 1620

acgctagcag catcagcgac tctgagtcgg ataagatgca ccttttaccc aaggacggct 1680

ttggtcctat ccatgaattg agagccattc cgggcctgaa agactttact cgcagcacct 1740

tcgaagatgt tgatggaaac ggacatcagg acgtggttgt tgtggatgaa caaggtcgcg 1800

catctgggtt ctacgagcga atagctagtg acgacggaga tgacggctgg actccattgc 1860

aattatttcc gcaagtcgtc aacatggacg ttcaaacagc cgaggcaaaa acccattcga 1920

tgagacttga tatgactggc aatggacgac cagacatact gctcgaggta gctggtggag 1980

gtagcggtct agcatggcat gaggcacttg gcaaaagagg catggatgct ctaagggaat 2040

gccagatagc caacgatgct ccatcaccca cagccccgcc actgaatctc acaggagatg 2100

atcgcacggc catttatcta gtggacatgt ctggcgacgg tcttcaggat atcgtgcgta 2160

tcaccaataa cctgataagt tattggccca atttgggata cggaagcttt ggccatgaaa 2220

tatctatgag actgccatgt cctataagcg aggatgacgc aagcttcaac gttctacgac 2280

tgcacctgct agacgtggat ggtagcggta ctacagatat catatacctt ccaccagaag 2340

gaggagccaa cgtctttttc aatcacagtg gcaatgcctt cagtgcgcca ttatctctac 2400

cccagttccc aagcatcagc cgactcacct cagtgtttgc cctggacttg ctgggaaaag 2460

gtaccagctg tctctgctgg gttggtccgc gggctggcag cggtactgat gaatttgtca 2520

tcaactacct cgaccttgca gctggaggga aaccccatct tctgtgccat ctcgacgatg 2580

gaaagggctc tgagacgcga attaattatc gtccatccac ggccttctac ctgagcgata 2640

aagccggagg ccagccctgg aaaacccgtc tgccgtttcc tgtacacgtt gtgcgcaagg 2700

cagtcagaca agaccatgtg tcacagacca agctgacaac aacctacgcc tatcgcgatg 2760

gcttttttga tccgcatgat agagagtttc gcggctttgg aacggtgcac atttgggagc 2820

aagagcaaat gcgactcgca ccatctgtgt catcctcgtc cacaacgtat aagctgcctg 2880

ttagacatat aaagacttgg ttccacacgg gtgctacaga gtcatcttgg ctcccaacag 2940

gtactttcga acctcatcgt atgcagactg ttttaccaga caacgctggc ccatctgctg 3000

ctgctcatgt aagacgggag gcattccgag ccctcaaggg attgcagatg cgttctgaag 3060

tgtatcagaa agggaggtcg agctccagta acacacctat ctcaatttca gagacggcat 3120

tcgacatcca gcttctccag atgcctgtcg acagtcatat gaatgaaagg gccaagttca 3180

agcacgaaaa acctgggatc tcccgcgtgc ttccgcgcga gcagctgatg gagatctgtg 3240

agcggcagaa aggagaaaat gctcgtttgc agcacgaaat gatacttgaa cgaaacgagt 3300

acggctctgt ccgacgaaag ctgaccgtgt cgtatggttg tacaccggga tctcaagtat 3360

cctttgcatc catagttgag gctttgaaga atgggaaaca ggatgcagcg tctgctctcg 3420

agannnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3480

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3540

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3600

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3660

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3720

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3780

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3840

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3900

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 3960

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4020

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4080

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4140

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4200

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4260

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4320

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4380

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nntcttgacc 4440

gaggctggtt tcgttcaact acccaaagac gatcgatggt ggaagccttc gagccgacag 4500

tctttttctg cgccctgcca tgctgctggc tccgagcttg tgagtgcccg caaaagtttc 4560

ttcacaccca ccatggaagc cgatgttttc cagaacacca ccagtgtgaa gatggacagc 4620

tacatgttgc tccccgaggt ctataccaac gctgcgggtc accagactaa agcagaaaat 4680

gactaccgca ccttaacagc ccgtgtcatg acggattgta acatgaatcg cactgcagct 4740

gaaggagatg cccttggtaa cacgcacgct gtatcacgca tgggcaaaga agaagagaaa 4800

ttgggcgatg accatgccgt ggagaaccta gtttcacaag ggctcataga cgacttcctc 4860

tttaatccgg ccgaggacaa ggcaattggt atgttgggtg gccgcgggtc tttgtcactg 4920

tactcgcatc gactcaatgg agacactcca ccttatcgga tcgatatcac tcgcgatact 4980

cacgcccatc cagatggaga cgatgaaagg cctttgaagc gcaacttccc agtcaaagta 5040

actttcttcg acccacaagg ccggacggtc caagagtcgc accttgcgtc atgggacaaa 5100

cagcgttggg acattactgg ctgtactgcg tttgatgcta agggccacgc gatacaaaca 5160

caccatgctt tcaccagctc gactccggcc tttgtgccag tttcaaagag aaacagccct 5220

gctacggtgc agtttgtaga tgctaccggt cgccaggttg ggcagctcga cccgggccat 5280

acatggagca aagtgcactt cacgccttgg gcacaatggg tgtttgacaa aggtgctact 5340

ttgggcattg aagatccagc ggaggacccg gatgttggag tctacatgtc tgcgcttgga 5400

agaggtgcat actccccttc atggcttgag atgcatcgaa gtgcaggtgg gattctacaa 5460

gctactggac agaaggccat ggacgcctac gccaatcatg cgatggtgct cctgtatgat 5520

ggtcgtggca atgggctgtc taagattcaa ggtgtgcgtc aagatagggc aacacaacca 5580

attgccgttc actatgaata tgacgctttg ggccatcttg cgcgtgaggt agatgctctt 5640

ggccgtacgg tgcagactac ccagtacaat cgccttggac aacaaatgat caagaagagc 5700

atggacaagt gcgaggagat atctctaagt gacattaatg gccaaccagt ctacctttgg 5760

gacctgggtc cgggctcacg acgtcgaatg gtctataaca atctgcgcca gcaaacagag 5820

acctgggttc gcgcgagctc acacgaacgc gaaattcttt ggactcgaac ggtgtataac 5880

agcaccaaca caagtgagtc caggtccatc aacatgctgg ggcaagtcat gaggatcgaa 5940

gaccaggccg gaacacgcaa gtttgacaag tatgacttca aaggcacagc cattgcggaa 6000

actcgggtgt tttctgagga atacaagact ggactagact ggtcggctgt ccctgttcca 6060

aagatgcaaa accacatgac ctaccactct agccttcgac tcgatgcagc cggcaggcca 6120

atcttcgaag aaaatgctca tggccgccaa acacgacggt gctacgatgt tcgcggtaat 6180

gtcgttcacc tgcaatctaa agcacatcag caagacagtt ggactgtaca tctccaagat 6240

tcaaccttca cctcagatct actacccgtg aatgtcactc gcggtaatgg caccaagacc 6300

cagcatgagt acgaccaata caccagactt ctaaccaaca gaagaaccag gcgctctgat 6360

agtagcctgg ttgaagacat tacccatata tacgactgca tgggccgcac ttcgcgaact 6420

ttggacgcag cacaagagac agtcttctac cgcaaccagc gaatagaacc tgttaacgag 6480

tactggtacg atttccatga tcgcctggtc aaggctacag gaagagagat ggtttcactg 6540

ggacagaaac agcaacaagg tccctttttc agacagcaca taaacggcga tgccaagcaa 6600

ttgacatgct atacggagac gtacagatac gatgacgccg gcaacatact cgagcaccgg 6660

cacgatatat cagatacgac catgccaaac tggactcgga ttcaccgata caatcaaacc 6720

agtcgtattg agcctgacaa gatgagcaat cgactgacat cggtgtcaat atctggcgta 6780

gaaagcaaac aatttgagta caatgccaat ggtgccacgg tatcactgcc agggttctcc 6840

tacgttggat gggaccctat ggattctctc cattgcgtat caactcagat tgtcaatcca 6900

ggagatgaaa cagcgattcc cgaaacaacg ttcttcgtct acgacaagga cggtacacgt 6960

gtcagaaaag tcacagaatc atcacgatca tgttgcaaga tgaaggagac attgtatctc 7020

ggccctgcag ctgaacactc cctgacctat tctggtgagg gcgtgactcc agactcggag 7080

gtgactacgt gccacctctt tcccgcgaca tcggaccctg gtaccaccgc ggtcgtaact 7140

atagagcact atgttaaagc agctaatcct aagctcggaa acaagactct acaacgctac 7200

aacctcagca acaatctcga agtggacgag gacggacaca ccatctccta tgaagagtat 7260

acgccgtttg ggactccaac atatgtaatc cgccagtctg gtattgacgc tcccagtgcg 7320

tttcgttttg ctgcataccg acgagatcga gagactggtg ggatgtacta ctgtaatgca 7380

agatattatg tgccgtggct cggtcgttgg atgtcgcccg atccactaga taccgttgat 7440

ggccctaacg tatacgcata ctgcggcaac aatcttgtca actgggcgga tccaaagggc 7500

acccttaagt ggaacatgca agatgtcaag aacgctattg tcccagctct caaatccgcc 7560

gcagttactg tccccagcgc tatagttagc ataggtacag cagcagtggc caacacgatc 7620

ctcacataca gggtcagttc aacccagtct gctctcacca atatggcatg gtcagctgca 7680

gcttacggct tgcaaaccgt cgctgcatct ttgccggtca tggtcaatgc cttcgcgggg 7740

tctgtgctgg cagagaggga taagcgagag gccgcaacca aggcagagat cattgataaa 7800

aagattaaat cactcgaaga taagaataaa acactcgaag agaagaacga atcactcgaa 7860

aaacagaata aagagttaaa agagcaggtt agatggctga aggagcacgg agaaaacctg 7920

gaaagggctg ttgtgtcact aagtgcggcg gtggggtttg tgctaccaga atttcaagac 7980

aagccatatc ccgaggacag tgaagaccaa cttcaagccg aattggagga ggaagataat 8040

ggcggatttg aggatgaaag cgatcttccg ggattattca taaatcaggt gatgagcgca 8100

cagaatcttg aagaagacaa cggagtgtct gaagtgagaa ggacaggagc agacgtaaac 8160

cagtcatctg ttgttaatcg gagggtcaac gcatctacaa atagagccat acacacagag 8220

ccttagattc aatcgaattg at 8242

<210>40

<211>1134

<212>PRT

<213>蛋白轮枝样镰刀菌

<400>40

Glu Ile Phe Ile Ser Ser Cys Ser Val Gly Pro Leu Pro Phe Ser Ile

1 5 10 15

Leu Val Gln Ser Pro Gln Ser Ser Val Met Asp Thr Pro Gln Ala Ala

20 25 30

Lys Thr Gln Ile Pro Ser Arg Asp Arg Ser Gly Pro Lys Ile Glu His

35 40 45

Arg Asp Ala Val Gly Thr Ser Ser Ser Ser Gln Gln Ala Ala Ser Lys

50 55 60

Gly Ser Thr Ala Ala Lys Gly Thr Gly Ser Ser Ser Ser Leu Ser Ile

65 70 75 80

Pro Val Leu Asp Ser Ala Ala Phe Ala Thr Gly Lys Gly Gly Gly Ala

85 90 95

Leu Arg Ser Ile Asp Ser Asn Phe Ser Val Asn Pro Asn Thr Gly Thr

100 105 110

Leu Ser Phe Ser Val Pro Leu Pro Val Ser Lys Ser Arg Gly Gly Phe

115 120 125

Gln Pro Ser Leu Ser Leu Glu Tyr Asp Ser Gly Arg Gly Asn Gly Ala

130 135 140

Phe Gly Ile Gly Trp Arg Leu Gly Gly Ile Ser Ser Ile Ala Arg Lys

145 150 155 160

Met Ser Arg Arg Ile Pro Thr Tyr Gly Gln Asp Asp Asp Gly Glu Asp

165 170 175

Leu Asp Thr Phe Thr Leu Thr Gly Ala Asp Asp Leu Val Pro Leu Ser

180 185 190

Asp Glu Thr Val Asp Gly Phe Val Val Arg Gln Tyr Ala Pro Arg Val

195 200 205

Arg Gly Asp Thr Glu Met Arg Val Glu Arg Trp Met Gln Gly Ser His

210 215 220

Val Ile Phe Trp Arg Thr Ile Ser Ser Glu Asn Val Thr Asn Ile Tyr

225 230 235 240

Gly Arg Asp Asp Ser Ser Arg Glu Met Glu Asn Pro His Arg Val Phe

245 250 255

Ala Trp Leu Leu Cys Glu Ser Tyr Asp Ala Tyr Gly Asn Ala Ile Ser

260 265 270

Phe Thr Tyr Lys Lys Gly Asp Asn Glu Gly Ile Glu Ala Leu Pro Ala

275 280 285

Asp Arg Lys Ala Thr Glu Thr Met Arg Asp Ser Lys Ala Leu Thr Arg

290 295 300

Ala Arg Tyr Leu Lys Ser Ile Arg Tyr Gly Asn His Thr Pro Ser Arg

305 310 315 320

Asp Leu Asp Arg Trp Lys Ile Ile Pro Ala Thr Ala Asn Lys Thr Tyr

325 330 335

Gly Trp Cys Phe Ser Ile Val Leu Asp Tyr Gly Glu His Asp Leu Gln

340 345 350

Cys Pro Thr Thr Leu Glu Ser Ser Leu Pro Trp Ser Val Arg Gln Asp

355 360 365

Pro Phe Ser Thr Gly Ser Arg Gly Phe Glu Val Arg Ser Leu Arg Leu

370 375 380

Cys Arg Arg Val Leu Met Phe His His Phe Ser Glu Pro Gly Glu Leu

385 390 395 400

Gly Arg Glu Asp Tyr Leu Val Ala Ser Met Glu Ile Asn Tyr Gln Glu

405 410 415

Ser Pro Ala Gly Ser Val Ile Glu Gln Ile Thr Ser Asn Gly His Val

420 425 430

Phe Asp Ala Ala Arg Gly Val Tyr Ala Ala Gln Ser Met Ala Pro Leu

435 440 445

Lys Leu Arg Tyr Ser Gly Leu Pro Asp Leu Arg Ser Leu Pro Ile Thr

450 455 460

Thr Val Cys Pro Thr Ala Leu Gln Asn Leu Pro Ile Ser Arg Pro Asp

465 470 475 480

Ala Val Thr Arg Trp Val Asp Leu Asp Gly Glu Gly Ser Pro Gly Leu

485 490 495

Leu Val Gln Leu Asp Gly Ala Trp Tyr Phe Gln Arg Asn Glu Ser Pro

500 505 510

Leu Ile Ala Cys Ser Asp Asp Asp Ser Ser Ser Ile Thr Ser Ser Gly

515 520 525

Val Asp Thr Glu Ser Asp Ala Ser SerIle Ser Asp Ser Glu Ser Asp

530 535 540

Lys Met His Leu Leu Pro Lys Asp Gly Phe Gly Pro Ile His Glu Leu

545 550 555 560

Arg Ala Ile Pro Gly Leu Lys Asp Phe Thr Arg Ser Thr Phe Glu Asp

565 570 575

Val Asp Gly Asn Gly His Gln Asp Val Val Val Val Asp Glu Gln Gly

580 585 590

Arg Ala Ser Gly Phe Tyr Glu ArgIle Ala Ser Asp Asp Gly Asp Asp

595 600 605

Gly Trp Thr Pro Leu Gln Leu Phe Pro Gln Val Val Asn Met Asp Val

610 615 620

Gln Thr Ala Glu Ala Lys Thr His Ser Met Arg Leu Asp Met Thr Gly

625 630 635 640

Asn Gly Arg Pro Asp Ile Leu Leu Glu Val Ala Gly Gly Gly Ser Gly

645 650 655

Leu Ala Trp His Glu Ala Leu Gly Lys Arg Gly Met Asp Ala Leu Arg

660 665 670

Glu Cys Gln Ile Ala Asn Asp Ala Pro Ser Pro Thr Ala Pro Pro Leu

675 680 685

Asn Leu Thr Gly Asp Asp Arg Thr Ala Ile Tyr Leu Val Asp Met Ser

690 695 700

Gly Asp Gly Leu Gln Asp Ile Val Arg Ile Thr Asn Asn Leu Ile Ser

705 710 715 720

Tyr Trp Pro Asn Leu Gly Tyr Gly Ser Phe Gly His Glu Ile Ser Met

725 730 735

Arg Leu Pro Cys Pro Ile Ser Glu Asp Asp Ala Ser Phe Asn Val Leu

740 745 750

Arg Leu His Leu Leu Asp Val Asp Gly Ser Gly Thr Thr Asp Ile Ile

755 760 765

Tyr Leu Pro Pro Glu Gly Gly Ala Asn Val Phe Phe Asn His Ser Gly

770 775 780

Asn Ala Phe Ser Ala Pro Leu Ser Leu Pro Gln Phe Pro Ser Ile Ser

785 790 795 800

Arg Leu Thr Ser Val Phe Ala Leu Asp Leu Leu Gly Lys Gly Thr Ser

805 810 815

Cys Leu Cys Trp Val Gly Pro Arg Ala Gly Ser Gly Thr Asp Glu Phe

820 825 830

Val Ile Asn Tyr Leu Asp Leu Ala Ala Gly Gly Lys Pro His Leu Leu

835 840 845

Cys His Leu Asp Asp Gly Lys Gly Ser Glu Thr Arg Ile Asn Tyr Arg

850 855 860

Pro Ser Thr Ala Phe Tyr Leu Ser Asp Lys Ala Gly Gly Gln Pro Trp

865 870 875 880

Lys Thr Arg Leu Pro Phe Pro Val His Val Val Arg Lys Ala Val Arg

885 890 895

Gln Asp His Val Ser Gln Thr Lys Leu Thr Thr Thr Tyr Ala Tyr Arg

900 905 910

Asp Gly Phe Phe Asp Pro His Asp Arg Glu Phe Arg Gly Phe Gly Thr

915 920 925

Val His Ile Trp Glu Gln Glu Gln Met Arg Leu Ala Pro Ser Val Ser

930 935 940

Ser Ser Ser Thr Thr Tyr Lys Leu Pro Val Arg His Ile Lys Thr Trp

945 950 955 960

Phe His Thr Gly Ala Thr Glu Ser Ser Trp Leu Pro Thr Gly Thr Phe

965 970 975

Glu Pro His Arg Met Gln Thr Val Leu Pro Asp Asn Ala Gly Pro Ser

980 985 990

Ala Ala Ala His Val Arg Arg Glu Ala Phe Arg Ala Leu Lys Gly Leu

995 1000 1005

Gln Met Arg Ser Glu Val Tyr Gln Lys Gly Arg Ser Ser Ser Ser

1010 1015 1020

Asn Thr Pro Ile Ser Ile Ser Glu Thr Ala Phe Asp Ile Gln Leu

1025 1030 1035

Leu Gln Met Pro Val Asp Ser His Met Asn Glu Arg Ala Lys Phe

1040 1045 1050

Lys His Glu Lys Pro Gly Ile Ser Arg Val Leu Pro Arg Glu Gln

1055 1060 1065

Leu Met Glu Ile Cys Glu Arg Gln Lys Gly Glu Asn Ala Arg Leu

1070 1075 1080

Gln His Glu Met Ile Leu Glu Arg Asn Glu Tyr Gly Ser Val Arg

1085 1090 1095

Arg Lys Leu Thr Val Ser Tyr Gly Cys Thr Pro Gly Ser Gln Val

1100 1105 1110

Ser Phe Ala Ser Ile Val Glu Ala Leu Lys Asn Gly Lys Gln Asp

1115 1120 1125

Ala Ala Ser Ala Leu Glu

1130

<210>41

<211>1267

<212>PRT

<213>蛋白轮枝样镰刀菌

<220>

<221>misc_feature

<222>(1)..(4)

<223>Xaa可以是任一天然存在的氨基酸

<400>41

Xaa Xaa Xaa Xaa Leu Thr Glu Ala Gly Phe Val Gln Leu Pro Lys Asp

1 5 10 15

Asp Arg Trp Trp Lys Pro Ser Ser Arg Gln Ser Phe Ser Ala Pro Cys

20 25 30

His Ala Ala Gly Ser Glu Leu Val Ser Ala Arg Lys Ser Phe Phe Thr

35 40 45

Pro Thr Met Glu Ala Asp Val Phe Gln Asn Thr Thr Ser Val Lys Met

50 55 60

Asp Ser Tyr Met Leu Leu Pro Glu Val Tyr Thr Asn Ala Ala Gly His

65 70 75 80

Gln Thr Lys Ala Glu Asn Asp Tyr Arg Thr Leu Thr Ala Arg Val Met

85 90 95

Thr Asp Cys Asn Met Asn Arg Thr Ala Ala Glu Gly Asp Ala Leu Gly

100 105 110

Asn Thr His Ala Val Ser Arg Met Gly Lys Glu Glu Glu Lys Leu Gly

115 120 125

Asp Asp His Ala Val Glu Asn Leu Val Ser Gln Gly Leu Ile Asp Asp

130 135 140

Phe Leu Phe Asn Pro Ala Glu Asp Lys Ala Ile Gly Met Leu Gly Gly

145 150 155 160

Arg Gly Ser Leu Ser Leu Tyr Ser His Arg Leu Asn Gly Asp Thr Pro

165 170 175

Pro Tyr Arg Ile Asp Ile Thr Arg Asp Thr His Ala His Pro Asp Gly

180 185 190

Asp Asp Glu Arg Pro Leu Lys Arg Asn Phe Pro Val Lys Val Thr Phe

195 200 205

Phe Asp Pro Gln Gly Arg Thr Val Gln Glu Ser His Leu Ala Ser Trp

210 215 220

Asp Lys Gln Arg Trp Asp Ile Thr Gly Cys Thr Ala Phe Asp Ala Lys

225 230 235 240

Gly His Ala Ile Gln Thr His His Ala Phe Thr Ser Ser Thr Pro Ala

245 250 255

Phe Val Pro Val Ser Lys Arg Asn Ser Pro Ala Thr Val Gln Phe Val

260 265 270

Asp Ala Thr Gly Arg Gln Val Gly Gln Leu Asp Pro Gly His Thr Trp

275 280 285

Ser Lys Val His Phe Thr Pro Trp Ala Gln Trp Val Phe Asp Lys Gly

290 295 300

Ala Thr Leu Gly Ile Glu Asp Pro Ala Glu Asp Pro Asp Val Gly Val

305 310 315 320

Tyr Met Ser Ala Leu Gly Arg Gly Ala Tyr Ser Pro Ser Trp Leu Glu

325 330 335

Met His Arg Ser Ala Gly Gly Ile Leu Gln Ala Thr Gly Gln Lys Ala

340 345 350

Met Asp Ala Tyr Ala Asn His Ala Met Val Leu Leu Tyr Asp Gly Arg

355 360 365

Gly Asn Gly Leu Ser Lys Ile Gln Gly Val Arg Gln Asp Arg Ala Thr

370 375 380

Gln Pro Ile Ala Val His Tyr Glu Tyr Asp Ala Leu Gly His Leu Ala

385 390 395 400

Arg Glu Val Asp Ala Leu Gly Arg Thr Val Gln Thr Thr Gln Tyr Asn

405 410 415

Arg Leu Gly Gln Gln Met Ile Lys Lys Ser Met Asp Lys Cys Glu Glu

420 425 430

Ile Ser Leu Ser Asp Ile Asn Gly Gln Pro Val Tyr Leu Trp Asp Leu

435 440 445

Gly Pro Gly Ser Arg Arg Arg Met Val Tyr Asn Asn Leu Arg Gln Gln

450 455 460

Thr Glu Thr Trp Val Arg Ala Ser Ser His Glu Arg Glu Ile Leu Trp

465 470 475 480

Thr Arg Thr Val Tyr Asn Ser Thr Asn Thr Ser Glu Ser Arg Ser Ile

485 490 495

Asn Met Leu Gly Gln Val Met Arg Ile Glu Asp Gln Ala Gly Thr Arg

500 505 510

Lys Phe Asp Lys Tyr Asp Phe Lys Gly Thr Ala Ile Ala Glu Thr Arg

515 520 525

Val Phe Ser Glu Glu Tyr Lys Thr Gly Leu Asp Trp Ser Ala Val Pro

530 535 540

Val Pro Lys Met Gln Asn His Met Thr Tyr His Ser Ser Leu Arg Leu

545 550 555 560

Asp Ala Ala Gly Arg Pro Ile Phe Glu Glu Asn Ala His Gly Arg Gln

565 570 575

Thr Arg Arg Cys Tyr Asp Val Arg Gly Asn Val Val His Leu Gln Ser

580 585 590

Lys Ala His Gln Gln Asp Ser Trp Thr Val His Leu Gln Asp Ser Thr

595 600 605

Phe Thr Ser Asp Leu Leu Pro Val Asn Val Thr Arg Gly Asn Gly Thr

610 615 620

Lys Thr Gln His Glu Tyr Asp Gln Tyr Thr Arg Leu Leu Thr Asn Arg

625 630 635 640

Arg Thr Arg Arg Ser Asp Ser Ser Leu Val Glu Asp Ile Thr His Ile

645 650 655

Tyr Asp Cys Met Gly Arg Thr Ser Arg Thr Leu Asp Ala Ala Gln Glu

660 665 670

Thr Val Phe Tyr Arg Asn Gln Arg Ile Glu Pro Val Asn Glu Tyr Trp

675 680 685

Tyr Asp Phe His Asp Arg Leu Val Lys Ala Thr Gly Arg Glu Met Val

690 695 700

Ser Leu Gly Gln Lys Gln Gln Gln Gly Pro Phe Phe Arg Gln His Ile

705 710 715 720

Asn Gly Asp Ala Lys Gln Leu Thr Cys Tyr Thr Glu Thr Tyr Arg Tyr

725 730 735

Asp Asp Ala Gly Asn Ile Leu Glu His Arg His Asp Ile Ser Asp Thr

740 745 750

Thr Met Pro Asn Trp Thr Arg Ile His Arg Tyr Asn Gln Thr Ser Arg

755 760 765

Ile Glu Pro Asp Lys Met Ser Asn Arg Leu Thr Ser Val Ser Ile Ser

770 775 780

Gly Val Glu Ser Lys Gln Phe Glu Tyr Asn Ala Asn Gly Ala Thr Val

785 790 795 800

Ser Leu Pro Gly Phe Ser Tyr Val Gly Trp Asp Pro Met Asp Ser Leu

805 810 815

His Cys Val Ser Thr Gln Ile Val Asn Pro Gly Asp Glu Thr Ala Ile

820 825 830

Pro Glu Thr Thr Phe Phe Val Tyr Asp Lys Asp Gly Thr Arg Val Arg

835 840 845

Lys Val Thr Glu Ser Ser Arg Ser Cys Cys Lys Met Lys Glu Thr Leu

850 855 860

Tyr Leu Gly Pro Ala Ala Glu His Ser Leu Thr Tyr Ser Gly Glu Gly

865 870 875 880

Val Thr Pro Asp Ser Glu Val Thr Thr Cys His Leu Phe Pro Ala Thr

885 890 895

Ser Asp Pro Gly Thr Thr Ala Val Val Thr Ile Glu His Tyr Val Lys

900 905 910

Ala Ala Asn Pro Lys Leu Gly Asn Lys Thr Leu Gln Arg Tyr Asn Leu

915 920 925

Ser Asn Asn Leu Glu Val Asp Glu Asp Gly His Thr Ile Ser Tyr Glu

930 935 940

Glu Tyr Thr Pro Phe Gly Thr Pro Thr Tyr Val Ile Arg Gln Ser Gly

945 950 955 960

Ile Asp Ala Pro Ser Ala Phe Arg Phe Ala Ala Tyr Arg Arg Asp Arg

965 970 975

Glu Thr Gly Gly Met Tyr Tyr Cys Asn Ala Arg Tyr Tyr Val Pro Trp

980 985 990

Leu Gly Arg Trp Met Ser Pro Asp Pro Leu Asp Thr Val Asp Gly Pro

995 1000 1005

Asn Val Tyr Ala Tyr Cys Gly Asn Asn Leu Val Asn Trp Ala Asp

1010 1015 1020

Pro Lys Gly Thr Leu Lys Trp Asn Met Gln Asp Val Lys Asn Ala

1025 1030 1035

Ile Val Pro Ala Leu Lys Ser Ala Ala Val Thr Val Pro Ser Ala

1040 1045 1050

Ile Val Ser Ile Gly Thr Ala Ala Val Ala Asn Thr Ile Leu Thr

1055 1060 1065

Tyr Arg Val Ser Ser Thr Gln Ser Ala Leu Thr Asn Met Ala Trp

1070 1075 1080

Ser Ala Ala Ala Tyr Gly Leu Gln Thr Val Ala Ala Ser Leu Pro

1085 1090 1095

Val Met Val Asn Ala Phe Ala Gly Ser Val Leu Ala Glu Arg Asp

1100 1105 1110

Lys Arg Glu Ala Ala Thr Lys Ala Glu Ile Ile Asp Lys Lys Ile

1115 1120 1125

Lys Ser Leu Glu Asp Lys Asn Lys Thr Leu Glu Glu Lys Asn Glu

1130 1135 1140

Ser Leu Glu Lys Gln Asn Lys Glu Leu Lys Glu Gln Val Arg Trp

1145 1150 1155

Leu Lys Glu His Gly Glu Asn Leu Glu Arg Ala Val Val Ser Leu

1160 1165 1170

Ser Ala Ala Val Gly Phe Val Leu Pro Glu Phe Gln Asp Lys Pro

1175 1180 1185

Tyr Pro Glu Asp Ser Glu Asp Gln Leu Gln Ala Glu Leu Glu Glu

1190 1195 1200

Glu Asp Asn Gly Gly Phe Glu Asp Glu Ser Asp Leu Pro Gly Leu

1205 1210 1215

Phe Ile Asn Gln Val Met Ser Ala Gln Asn Leu Glu Glu Asp Asn

1220 1225 1230

Gly Val Ser Glu Val Arg Arg Thr Gly Ala Asp Val Asn Gln Ser

1235 1240 1245

Ser Val Val Asn Arg Arg Val Asn Ala Ser Thr Asn Arg Ala Ile

1250 1255 1260

His Thr Glu Pro

1265

Claims

1.分离的天然存在的蛋白质，其加强A类毒素复合体毒素的杀虫活性，所述蛋白质以氨基到羧基的顺序包含B区段和C区段，其中所述B区段以氨基到羧基的顺序包含B类毒素复合体多肽特征性的spvB Pfam结构域，和B类毒素复合体多肽特征性的多个FG-GAP Pfam结构域，并且其中所述C结构域以氨基到羧基的顺序包含C类毒素复合体多肽特征性的多个RHS Pfam结构域，和C类毒素复合体多肽特征性的高变结构域。

2.权利要求1的蛋白质，其中所述蛋白质是真核生物蛋白质。

3.权利要求1的蛋白质，其中所述蛋白质是真菌蛋白质。

4.权利要求3的蛋白质，其中所述真菌蛋白质选自赤霉属蛋白质和镰孢霉属蛋白质。

5.权利要求1的蛋白质，其中所述蛋白质具有约200-300kDa的分子量。

6.权利要求1的蛋白质，其中所述蛋白质长约2000-2600个氨基酸。

7.权利要求1的蛋白质，其中所述B结构域长约1500个氨基酸。

8.权利要求1的蛋白质，其中所述C结构域长约1000个氨基酸。

9.权利要求1的蛋白质，其中所述蛋白质包含内含子样区域。

10.分离的蛋白质，其加强A类毒素复合体毒素的杀虫活性，所述蛋白质以氨基到羧基的顺序包含B区段和C区段，其中所述B区段以氨基到羧基的顺序包含B类毒素复合体多肽特征性的spvB Pfam结构域，和B类毒素复合体多肽特征性的多个FG-GAP Pfam结构域，并且其中所述C结构域以氨基到羧基的顺序包含C类毒素复合体多肽特征性的多个RHSPfam结构域，和C类毒素复合体多肽特征性的高变结构域，其中编码所述蛋白质的多核苷酸与选自由SEQ ID NO：1、SEQ ID NO：3、SEQ IDNO：5、SEQ ID NO：7、SEQ ID NO：11、编码SEQ ID NO：34的序列、编码SEQ ID NO：35的序列、编码SEQ ID NO：37的序列、编码SEQ ID NO：38的序列、编码SEQ ID NO：40的序列、和编码SEQ ID NO：41的序列组成的组的序列的完全互补序列在严格条件下杂交。

11.权利要求1的蛋白质，其中所述蛋白质包含选自SEQ ID NO：2、SEQ ID NO：4、SEQ ID NO：34、SEQ ID NO：35、SEQ ID NO：37、SEQ IDNO：38、SEQ ID NO：40和SEQ ID NO：41的氨基酸序列。

12.权利要求1的蛋白质，其中所述蛋白质是细菌蛋白质。

13.权利要求12的蛋白质，其中所述蛋白质可以从选自甲烷八叠球菌属、密螺旋体属、钩端螺旋体属、Microbulbifer、Tannerella、伯克霍尔德氏菌属和亚硝化螺菌属(Nitrosospora)的天然存在的细菌得到。

14.权利要求13的蛋白质，其中编码所述蛋白质的多核苷酸在严格条件下与选自SEQ ID NO：7和SEQ ID NO：11的序列的完全互补序列杂交。

15.权利要求13的蛋白质，其中所述蛋白质包含选自SEQ ID NO：8和SEQ ID NO：12的氨基酸序列。

16.分离的具有杀虫活性的真核生物A类毒素复合体毒素蛋白质，其中通过B类毒素复合体蛋白质和C类毒素复合体蛋白质加强所述活性。

17.权利要求16的蛋白质，其中所述蛋白质是真菌蛋白质。

18.权利要求17的蛋白质，其中所述真菌蛋白质选自赤霉属蛋白质、镰孢霉属蛋白质和曲霉属蛋白质。

19.权利要求16的蛋白质，其中编码所述蛋白质的多核苷酸与选自由SEQ ID NO：9、编码SEQ ID NO：26的序列、编码SEQ ID NO：27的序列、编码SEQ ID NO：29的序列、编码SEQ ID NO：30的序列、编码SEQ IDNO：31的序列、和编码SEQ ID NO：32的序列组成的组的序列的完全互补序列在严格条件下杂交。

20.权利要求16的蛋白质，其中所述蛋白质包含选自SEQ ID NO：10、SEQ ID NO：26、SEQ ID NO：27、SEQ ID NO：29、SEQ ID NO：30、SEQ IDNO：31和SEQ ID NO：32的氨基酸序列。

21.分离的蛋白质，其包含权利要求1的蛋白质的B区段。

22.分离的蛋白质，其包含权利要求1的蛋白质的C区段。

23.权利要求21的蛋白质，其中所述蛋白质包含SEQ ID NO：22。

24.权利要求22的蛋白质，其中所述蛋白质包含SEQ ID NO：20。

25.分离的具有杀虫活性的伯克霍尔德氏菌属A类毒素复合体毒素蛋白质，其中通过B类毒素复合体蛋白质和C类毒素复合体蛋白质加强所述活性。

26.分离的多核苷酸，其编码权利要求25的蛋白质。

27.分离的多核苷酸，其编码权利要求1的蛋白质。

28.权利要求27的多核苷酸，其具有经优化用于在植物中表达的密码子组成。

29.权利要求28的多核苷酸，其中所述多核苷酸包含SEQ ID NO：23。

30.权利要求27的多核苷酸，其中所述多核苷酸包含非异源内含子序列。

31.权利要求27的多核苷酸，其中所述多核苷酸经修饰以除去非异源内含子序列。

32.分离的多核苷酸，其编码权利要求16的蛋白质。

33.包含权利要求27的多核苷酸的转基因细胞。

34.权利要求33的转基因细胞，其还包含编码A类毒素的核酸分子。

35.权利要求33的细胞，其中所述细胞是植物细胞。

36.转基因细胞，其包含权利要求32的多核苷酸。

37.从多核苷酸序列筛选编码权利要求1的蛋白质的多核苷酸的方法，其中所述方法包括提供参考序列，使用算法比较所述参考序列与序列数据库，对所述数据库中的序列分配得分，选择最小值，鉴定所述数据库中具有高于所述最小值的所述得分的所述多核苷酸，产生所述多核苷酸编码的蛋白质，并测定所述蛋白质加强A类毒素复合体蛋白质的活性的能力。

38.控制昆虫的方法，其中所述方法包括将所述昆虫与权利要求1的蛋白质和A类毒素复合体蛋白质毒素接触的步骤。

39.加强A类毒素复合体蛋白质毒素的毒素活性的方法，其中所述方法包括提供权利要求1的蛋白质和A类毒素复合体蛋白质供昆虫摄入。

40.从天然存在的生物筛选权利要求1的蛋白质的方法。

41.从真核生物筛选权利要求16的蛋白质的方法。