CN1199321A

CN1199321A - 用于在植物中防治鳞翅目昆虫的、修饰的苏云金芽胞杆菌基因

Info

Publication number: CN1199321A
Application number: CN96197587A
Authority: CN
Inventors: D·J·梅洛; O·福尔茨
Original assignee: Dow AgroSciences LLC
Current assignee: Corteva Agriscience LLC
Priority date: 1995-10-13
Filing date: 1996-10-11
Publication date: 1998-11-18
Anticipated expiration: 2016-10-11
Also published as: CA2234656C; US6166302A; ES2330168T3; DE69638032D1; JP2000507808A; EP0861021B1; EP0861021A4; RU2224795C2; IL124020A; EP0861021A1; MX9802778A; AU708256B2; WO1997013402A1; BR9611000A; ATE443437T1; CN1176577C; CA2234656A1; AU7446796A; JP4030582B2

Abstract

本发明提供了为在植物(尤其是玉米)中表达而优化过的合成DNA序列,该序列编码对特定昆虫有毒的苏云金芽胞杆菌蛋白质。还提供了对任何合成的杀虫基因在玉米中进行工程化改造的方法。

Description

用于在植物中防治鳞翅目昆虫的、修饰的苏云金芽胞杆菌基因

本发明涉及设计、合成和在植物中表达编码对特定昆虫有毒的苏云金芽胞杆菌蛋白质的DNA序列。更具体地，本发明涉及一种对在植物中表达进行过优化的合成DNA序列，含有该合成DNA序列的、适合转化植物的载体，以及稳定地表达该合成DNA序列所编码的蛋白质的植物。

发明背景

一种广泛使用的微生物杀虫剂衍生自土壤微生物苏云金芽胞杆菌(Bacillusthuringiensis，Bt)。Bt是一种革兰氏阳性的、形成芽胞的细菌，其特征是有伴胞晶体蛋白包含体。这种常被称为“δ-内毒素”的晶体蛋白有两种形式：分子量(MW)约130千道尔顿(KD)的非毒性前毒素(protoxin)；和分子量约68KD的有毒形式。晶体蛋白包含体含有前毒素蛋白，该蛋白在多种昆虫幼虫的肠中被激活。在激活过程中，前毒素被切割，有毒部分就是氨基端的58-68KD多肽。晶体在体内通过增溶作用被激活并且在昆虫肠中的碱性条件和蛋白酶作用下转变成毒性形式。

由苏云金芽胞杆菌所产生的蛋白质的毒性，对特定的昆虫物种是高度特异性的，而且认为对高级脊椎动物是安全的。许多报道已表明，从许多Bt菌株分离出的胞内晶体蛋白，对鳞翅目昆虫幼虫或者鞘翅目幼虫具有极高水平的特异毒性，对于最敏感的昆虫其抑制50％幼虫生长所需的有效浓度在1ng/ml食物范围内(MacIntosh等人，J.Invert.Pathol.565(1990)258)。

Bt蛋白质基因的克隆、测序和在其他细菌宿主中进行表达已有描述(国际出版物No.WO 93/04587、欧洲专利申请No.89300388.9、欧洲专利申请No.90304996.3和美国专利No.5,286,485)。然而在植物中表达Bt的杀虫性蛋白基因是极其困难的，而且一般在转基因植物中仅获得低水平的蛋白质(Vaeck等人，《自然》，328(1987)33；Barton等人，《植物生理学》(Plant Physiol.)，85(1987)1103；和Fischoff等人，《生物技术》(Bio/Technology)，5(1987)807)。

天然Bt基因在转基因植物中表达较低的一种可能的解释是，在天然Bt蛋白基因中所用的密码子与典型的植物基因中使用的密码子有很大差别(欧洲专利申请No.89309069.6)。密码子使用会在翻译、转录或mRNA加工方面影响基因表达。

天然Bt基因在转基因植物中表达水平较低的另一种可能解释是，意外的转录加工位点会产生异常形式的mRNA(国际出版物No.WO 93/07278)。可能的加工位点包括：聚腺苷酸位点、内含子剪接位点、转录终止信号和转运信号。在编码区域意外地存在这些加工位点，会使基因在转基因宿主中的表达复杂化。

为了优化杀虫基因在植物中表达，已经尝试过改变天然Bt基因，以便尽可能地与待转化的宿主植物中天然包含的基因相近似。例如，美国专利No.5,380,831(Adang等人)描述了一种化学合成的基因，该基因编码的杀虫蛋白在功能上等同于天然的Bt杀虫蛋白，而且它被设计成在植物中以高于天然Bt蛋白的水平进行表达。合成的基因与天然的Bt杀虫蛋白基因至少有约85％同源，而且被设计成密码子使用的分布频率与高表达植物基因的差别不超过25％，较佳地不超过约10％。以宿主基因序列中的频率为基础，该合成基因的GC和TA双联体避免指数(avoidance indices)与宿主植物的差别不超过约10-15％，而且其GC含量约为45％。

国际出版物No.WO 93/07278描述了一种合成的Bt晶体蛋白基因，该基因中改变了密码子的使用情况以提高在玉米中的表达。合成基因与天然的Bt杀虫蛋白基因至少有约66％同源性，而且与纯粹的玉米优化基因有98％同源。该合成基因的GC含量约为50-64％，而且在序列3′端不含有脯氨酸。

发明概述

本发明涉及设计、合成和在细菌及植物细胞中表达植物优化的DNA序列，该序列编码对鳞翅目昆虫有毒的苏云金芽胞杆菌HD73蛋白。本发明还涉及设计合成基因的方法。植物优化的DNA序列包括可有效地编码约589-619个氨基酸的杀虫性植物蛋白(以下简称ICP)的密码子。编码ICP的核苷酸序列，与编码ICP的天然Bt核苷酸序列有约70-71％同源，而且与纯粹的玉米核苷酸序列有约63％同源。在植物优化的核苷酸序列中使用的密码子，与宿主植物中使用的密码子的偏差约为0.23-3.48，较佳地约为1.075。

本发明还涉及能够在植物细胞(如玉米)中表达的植物表达载体。该植物表达载体在序列5′至 3′方向上含有：可有效地在植物细胞中引发转录的启动子序列；对玉米特异的翻译增强子序列；第一个载体单一限制性酶切位点；编码典型地小于约620个氨基酸的蛋白质的编码序列，该蛋白质较佳地与Bt ICP的氨基端部分基本上同源；第二个载体单一限制性酶切位点；和聚腺苷酸化序列。

本发明的另一方面涉及转基因植物和转基因植物种子。该转基因植物和转基因植物种子在其基因组中含有可遗传的、此处所述的合成Bt基因。该Bt合成基因在植物细胞中或在由该转基因植物种子长出的植物中被表达，而且其表达数量足以控制鳞翅目昆虫。

本发明还涉及一种工程设计任何结构基因，从而使其在植物(尤其是玉米)中优化表达的方法。由于遗传密码子丰余性(即某些氨基酸可被一种以上密码子所确定)所提供的灵活性，本发明描述了一种修饰任何基因的遗传序列的方法，该方法使得形成的表达蛋白质没有被改变，但是密码子却被修饰过，以优化该蛋白质在特定的感兴趣植物中的表达。

在实施本发明方法时，确定植物的密码子偏性(bias)。密码子偏性是为了编码其蛋白质，该植物使用的统计学密码子分布。在确定了该偏性之后，确定在感兴趣基因(如天然苏云金芽胞杆菌)中密码子的百分比频率。感兴趣蛋白质的氨基酸被逆向地翻译，使得形成的核酸序列编码与天然基因相同的蛋白质，但是形成的核酸序列对应于所需植物中的第一优选密码子。分析新序列中是否有因修饰而产生限制性酶切位点。鉴别出的位点通过用第二或第三优选密码子加以替换而进一步修饰。在序列中会影响感兴趣基因转录或翻译的其他位点是，外显子：内含子5′或3′接头、聚腺苷酸添加信号、或RNA聚合酶终止信号。序列被进一步分析和修饰，以减少TA或GC双联体的频率。除了双联体之外，具有约4个以上相同残基的G或C序列模块可影响序列的转录。因此，通过用下一级优选密码子替换这些第一或第二优选的密码子，对这些模块进行修饰。上述方法能使本领域技术人员对特定植物的外源基因进行修饰，从而使该基因在植物中优化表达。

本发明的总体兴趣在于提供一种保护植物免受虫害的方法。更具体地，兴趣在于提供一种玉米优化型核苷酸序列，该序列编码Bt杀虫蛋白，其核苷酸序列示于SEQ ID NO：1。

本发明还提供了一种双重增强的35S或19S启动子，它可比35S或19S启动子更有效地表达外源蛋白(包括Bt晶体蛋白或Bt杀虫性晶体蛋白)，还提供了MSV前导序列，该前导序列可被进一步修饰以便与其他启动子一起使用。

在另一方面，本发明提供了一种可用于增强任何启动子表达的前导序列。

本发明的其他方面、优点、特征和特点，通过阅读下列描述和所附的权利要求会变得更清楚。

附图简述

图1显示了PCR合成策略。图1A是修饰的ICP基因的示意图，其中关键的限制性位点标在长条的上方，在下方的数字表示它们在基因中的位置。被分别合成的3个基因片段示于基因下方，掺入各片段末端的克隆位点示于各片段的末端。图1B表示了PCR合成ICP基因的5′端片段。在合成中使用的12种寡核苷酸用箭头表示。箭头方向对应于合成的新DNA链的极性(polarity)。基因片段的各寡核苷酸位置在括号中表示。底部的一套寡核苷酸中颠倒的核苷酸位置次序，表示它们与基因上方(编码)链互补的链的颠倒次序。

图2显示了通过变性PAGE纯化ICP寡核苷酸而得到的凝胶。ICP寡核苷酸Bt6至Bt10，通过在12％变性PAGE上电泳而分离，如实施例1所述。寡核苷酸种类示于每个泳道的上方，各核苷酸的大小示于泳道的下方。示踪染料二甲苯青(XC)和溴酚蓝(BPB)的迁移示于右侧。

图3的凝胶显示了在合成3个ICP基因片段中的进展。对于每个部分，PCR步骤1-6(5′和3′部分)或1-5(中心部分)的产物分别示于标有1-6或1-5的泳道。每个泳道含有5微升来自前PCR步骤的、凝胶纯化过的DNA。在凝胶外侧的未标记泳道含有100bp梯级DNA大小标准物(GIBCO/BRL)。

图4显示了ICP在大肠杆菌中表达的凝胶。在大肠杆菌中从细胞质表达载体上表达出的ICP，用SDS-PAGE和Western印迹法加以分析，如实施例4中所述。泳道1含有的大肠杆菌总细胞蛋白质数量相当于约50ng表达细胞质表达载体的大肠杆菌细胞蛋白质抽提物沉淀；泳道2含有约50ng细胞质表达载体抽提物沉淀；泳道3含有约10ng抽提物沉淀。阴性对照泳道4含有100ng表达pET-9d的大肠杆菌细胞的抽提物沉淀。泳道5、6和7分别含有20、50和100ng纯化的天然Bt ICP。

图5是说明Manduca sexta生物分析结果的示意图。如实施例6所述进行喂养试验，其中使用各500ng的大肠杆菌抽提蛋白质(pET-9d蛋白质)、含有ICP细胞质表达质粒胞质表达载体的细胞的抽提蛋白沉淀(CEV沉淀)、表达胞质表达载体的细胞(CEV细胞)和天然ICP(Bt蛋白)。在将新生幼虫置于这些食物后4天，对幼虫体重和死亡率进行评分。

图6是实施例7中进一步描述的质粒载体pDAB910的结构图。

图7是实施例7中进一步描述的质粒载体pDAB911的结构图。

图8是实施例7中进一步描述的质粒载体pDAB917的结构图。

图9的凝胶显示了ICP在转基因的MSD愈伤组织中的表达情况。在MSD愈伤组织中表达的ICP，用SDS-PAGE和Western印迹法加以分析，如实施例8中所述。泳道1-7含有玉米分离株的愈伤组织抽提物，这些分离株是用质粒pDAB911转化MSD 4号品系而获得的；泳道8含有未转化的MSD 4号品系的愈伤组织抽提物；泳道9和10分别含有10和1ng纯化的天然Bt ICP。

图10是实施例7中进一步描述的质粒载体pDAB303的结构图。

图11显示了在质粒pKA882、pDAB305、pDAB310、pDAB348和pDAB353中测试的启动子的图。更具体地，pKA882含有天然35S启动子，该启动子连接在CaMV核苷酸6605-7439(MCASTRAS)，后面为接头序列A(SEQ ID NO：3)。

XbaI BamHI BamHI SalI NcoI

GGGGAC TCTAGAGGATCCGGATCCGTGACCATGG其中在NcoI识别序列中的ATG(下划线标出的)是GUS翻译起始密码子。该启动子的转录物含有几乎全部上述的多接头序列，作为5′非翻译前导序列。

pDAB348含有增强型35S启动子和额外的3′序列，以及作为CaMV DNA核苷酸7093-7344的接头序列CATCGATG、CaMV DNA核苷酸7093-7439，后面为上述的接头序列A。

pDAB305含有增强型35S启动子和额外的3′序列，以及作为CaMV DNA核苷酸7093-7344的接头序列CATCGATG、CaMV DNA核苷酸7093-7439、接头序列GGGGACTCTAGAGGATCCAG(SEQ ID NO：4)、MSV的核苷酸167-186、MSV的核苷酸188-277、C残基、随后是玉米Adh1.S的核苷酸120-210、玉米Adh1.S的核苷酸555-672、接头序列GACGGATCTG(SEQ ID NO：5)、MSV的核苷酸278-317、和G残基(该G残基是NcoI识别序列CCATGG中最后一个碱基)。如上所述，GUS翻译起始密码子是NcoI位点的一部分。来自该启动子的转录物含有几乎整个MSV外被蛋白前导序列作为5′非翻译前导序列，在其中插入了缺失型玉米AdH1.S内含子1。

pDAB310含有增强型35S启动子和额外的3′序列，以及作为CaMV DNA核苷酸7093-7344的接头序列CATCGATG、CaMV的核苷酸7093-7439、接头序列GGGGACTCTAGAGGATCCAG(SEQ ID NO：6)、MSV的核苷酸167-186、MSV的核苷酸188-317和G残基(该G残基是NcoI识别序列CCATGG中最后一个碱基)。如上所述，GUS翻译起始密码子是NcoI位点的一部分。来自该启动子的转录物含有几乎整个MSV外被蛋白前导序列作为5′非翻译前导序列。

pDAB353含有增强型35S启动子和额外的3′序列，以及作为CaMV DNA核苷酸7093-7344的接头序列CATCGATG、CaMV DNA核苷酸7093-7439、接头序列GGGGACTCTAGAG(SEQ ID NO：7)、玉米Adh1.S的核苷酸120-210、玉米Adh1.S的核苷酸555-672、和序列CCGTCGACCATGG(SEQ ID NO：8)。如上所述，GUS翻译起始密码子是NcoI位点的一部分。来自该启动子的转录物含有几乎整个缺失型玉米AdH1.S内含子1作为5′非翻译前导序列。

发明详述

定义

提供下列定义是为了清楚地说明它们在说明书和权利要求书中的用意和范围。所有在此处提及的专利和出版物都引用作为参考。

晶体蛋白或杀虫性晶体蛋白(insecticidal crystal protein，ICP)或晶体毒素都指在Bt菌株中形成的伴胞晶体的主要蛋白组份。该蛋白质组份对不同种类的昆虫表现出有选择的毒性。从伴胞晶体中分离出的主要蛋白的分子大小会随衍生得到该蛋白的Bt菌株的不同而有所不同。已报道过分子量约为132、65和28千道尔顿的晶体蛋白。已表明，约132千道尔顿的蛋白质是前毒素。该前毒素可被切割，形成约65千道尔顿的氨基端的昆虫毒素。

“晶体蛋白基因”指编码杀虫性晶体蛋白的DNA序列，该蛋白可以是全长的前毒素或毒素形式，这取决于获得该基因的Bt菌株的具体情况。

如此处所用，术语“核苷酸”指DNA或RNA的单体，它由糖部分(戊糖)、磷酸和含氮杂环碱基构成。碱基通过糖苷碳(戊糖的1′碳)而连接于糖分子。碱基和糖的复合物被称为核苷；用碱基表征核苷酸。4种DNA碱基是腺嘌呤(“A”)、鸟嘌呤(“G”)、胞嘧啶(“C”)和胸腺嘧啶(“T”)。4种RNA碱基是A、G、C和尿嘧啶(“U”)。

“结构基因”是基因的一部分，它包括编码蛋白质、多肽或其一部分的DNA片段，并且排除了驱动转录起始的5′序列。结构基因可以是通常在细胞中发现的基因，或者是通常不在引入该基因的细胞中发现的基因(在这种情况下，它被称为异源基因)。异源基因可完全或部分地衍生自本领域中已知的任何来源，其中包括细菌基因组或附加体，真核的、核的或质粒的DNA，cDNA，病毒DNA或化学合成的DNA。结构基因可在编码区域或非翻译区域含有一个或多个修饰，这些修饰可影响表达产物的生物活性或化学结构、表达速度或表达控制的方式。这种修饰包括(但并不限于)；突变、插入、缺失和一个或多个核苷酸的替换。结构基因可以是不间断的编码序列，或者它含有一个或多个被合适剪接接头界定的内含子。结构基因可以是来自多个来源(天然存在或合成的、其中合成的指化学合成的DNA)的片段所形成的复合片段。结构基因还包括融合蛋白。

“可操作地连于”指一种并列关系(juxtaposition)，其中各片段的结构使其可发挥其通常的功能。因此，可操作地连于编码序列的控制序列，能够影响编码序列的表达。

“植物组织”包括分化的和未分化的植物组织，其中包括(但并不限于)：根、茎、叶、花粉、种子、肿瘤组织和各种形式的培养细胞如单细胞、原生质体、胚和愈伤组织。植物组织可以是植株(planta)或器官、组织或细胞培养物。

如本文所用，“植物细胞”包括植物中的植物细胞，以及培养物中的植物细胞和原生质体。

“同源性”指核苷酸或氨基酸序列的相同或接近相同。如本领域中所知，密码子的第三碱基或摆动碱基处可发生核苷酸错配，而不会在最终的多肽序列中造成氨基酸替换。此外，在基因序列的某些区域中可以容忍小的核苷酸修饰(如取代、插入或缺失)，只要这些修饰造成的氨基酸序列变化不会改变最终产物的功能。已表明，化学合成的全长或部分基因序列的拷贝，可以替换天然基因中相应部分而不会丧失基因功能。特定DNA序列的同源性可由本领域技术人员，用核酸交叉杂交测试法在严紧条件下加以确定，这些都是本领域中熟知的(如在Hames等人，《核酸杂交》(Nucleic Acid Hybridisation)，(1985)IRL Press，Oxford，UK中所述的那样)。同源性程度通常用被比较的序列之间相同性的百分比表示。

“优选(或优先)密码子”或“优选密码子使用频率”指具体宿主细胞在使用核苷酸密码子来指定给定氨基酸时表现出的优先性。为了确定特定密码子在基因中的使用频率，用基因中该密码子出现次数除以该基因中指定同一氨基酸的所有密码子的出现次数。宿主细胞表现出的优先密码子所有频率，可通过对该宿主细胞表达的大量基因中优先密码子使用频率加以平均而得出。

一个合成基因中优先密码子使用频率与宿主细胞所采用的使用频率之间的偏差可这样计算：先确定一个密码子的使用频率与宿主细胞使用频率的偏差百分比，然后得出所有密码子的平均偏差。如此处所定义，该计算包括唯一性密码子(即ATG和TGG)。广义而言，合成基因中密码子使用频率与宿主细胞的使用频率之间的整体平均偏差可用下式计算：

A = Σ_{n - 1}^{Z} \frac{\frac{| X_{n} - Y_{N} |}{X_{N}} \times 100}{Z}

其中X_n是密码子n在宿主细胞中的使用频率；Y_n是密码子n在合成基因中的使用频率；n是指定氨基酸的各密码子；密码子的总数为Z。

术语“纯粹植物优化的核苷酸序列”指对于这样的基因或DNA序列：对于特定多肽，它含有100％宿主植物优选的密码子序列。“纯粹玉米优化序列”是对特定多肽而言含有100％玉米优选密码子序列的基因或DNA序列。

如本文所用，“植物优化的核苷酸序列”指从纯粹植物优化序列的变异形式而产生的基因或DNA序列。如此处所述，变异形式包括：对纯粹植物优化的核苷酸序列进行改变以便对基因进行操作，如改变核苷酸以产生或消除限制性位点；以及进行改变以消除潜在的不利加工位点，如潜在的聚腺苷酸位点或内含子剪接识别位点。玉米优化的核苷酸序列指从纯粹玉米优化序列的变异形式而产生的基因或DNA序列。在本发明的一个方面，植物优化的核苷酸序列与编码ICP的天然Bt核苷酸序列有约70-71％同源性，而以第一选择密码子使用为基础有约63％同源性，并且对于纯粹玉米优化的核苷酸序列有约83％同源性。

“来自”指从(化学和/或生物)来源处取出、获得、得到、跟踪到、复制到或衍生得到。可通过对最初来源进行化学或生物操作(其中包括(但并不限于)取代、添加、插入、缺失、抽提、分离、突变和复制)而产生衍生物。

对于DNA序列而言，“化学合成的”指组份核苷酸是在体外拼装的。DNA的手工化学合成可用技术成熟的程序(Caruthers，《DNA和RNA测序方法》(Methodology of DNA和RNA Sequencing)，(1983)，Weissman编辑，PraegerPublishers，New York，第1章)实现；自动化学合成可用众多市售机器中任一种进行。

如本文所用，术语“设计成高表达”指设计基因的表达水平，其中产生的全长特定mRNA转录物数量足以用Northern印迹法定量，因此这表示所表达的特定mRNA水平为对应地大于或等于约0.001％poly(A)+mRNA。在本发明之前，天然Bt基因的转录水平低，其中产生的全长特定mRNA转录物数量不足以用Northern印迹技术加以估算。但是，在本发明中设计成高表达的、合成的、玉米优化的Bt ICP基因的转录增加了，从而积累了足够高水平的ICP可杀死进食的昆虫。

设计玉米优化的Bt ICP基因序列

此处所述的设计和合成策略，代表了设计和合成植物(尤其是玉米)优化的ICP基因的通用的优选方法。本领域的技术人员会认识到，不需过多的试验便可对该方案进行改动，从而设计和合成出在其他植物种中表达的ICP基因。

来自苏云金芽胞杆菌库氏亚种(Kurstaki)HD73的ICP基因DNA序列(如Adang等人，《基因》，36(1985)289中所述)，被用作设计玉米优化的Bt ICP基因的最初序列。形成的玉米优化的Bt ICP基因列于SEQ ID NO：1。优化的玉米特异性杀虫基因序列含有约63％第一选择密码子、约22-37％第二选择密码子和约15-0％第三和/或第四选择密码子，而且总百分比为100％。更佳地，优化的玉米特异性杀虫基因序列含有约63％第一选择密码子、约22-37％第二选择密码子和约15-0％第三选择密码子，而且总百分比为100％。最佳地，优化的玉米特异性杀虫基因序列含有约63％第一选择密码子、至少约22％第二选择密码子、约7.5％第三选择密码子和约7.5％第四选择密码子，而且总百分比为100％。

更具体地，苏云金芽胞杆菌Cry1A(c)被用作起始材料。对天然基因的碱基组成进行的分析揭示，与玉米基因有明显不同。例如天然ICP基因的鸟嘌呤+胞嘧啶(G+C)组成为37％，而玉米基因的G+C范围为45-75％(表1)。

表1.玉米基因中蛋白质编码区域的G+C含量汇总表

蛋白质类别^a	G+C％范围	G+C％平均值^b
蛋白质类别^a	G+C％范围	G+C％平均值^b	代谢酶(40)	44.4-75.3	59.0(8.0)
储藏蛋白			代谢酶(40)	44.4-75.3	59.0(8.0)
储藏蛋白			组I(23)	46.0-51.9	48.1(1.3)
组II(13)	60.4-74.3	67.5(3.2)	组I(23)	46.0-51.9	48.1(1.3)
组II(13)	60.4-74.3	67.5(3.2)	组I+II(36)	46.0-74.3	55.1(9.6)^c
结构蛋白(18)	48.6-70.5	63.6(6.7)	组I+II(36)	46.0-74.3	55.1(9.6)^c
结构蛋白(18)	48.6-70.5	63.6(6.7)	调控蛋白(5)	57.2-68.9	62.0(4.9)
未确定的蛋白质(9)	51.5-70.3	64.3-(7.2)	调控蛋白(5)	57.2-68.9	62.0(4.9)
未确定的蛋白质(9)	51.5-70.3	64.3-(7.2)	所有蛋白质(108)	44.4-75.3	60.8(5.2)

^a类别中基因数目在括号中给出

^b标准差在括号中给出

^c在总体平均值的计算中忽略合并组的平均值

对于表1中的数据，基因的编码区域是从GenBank(版本71)库目中获得的，碱基组成是用MacVector^TM程序(IBI，New Haven，CT)计算的。在计算中忽略掉内含子序列。组I和II储藏蛋白基因根据它们在碱基组成上的显著差异而区分开。

天然Bt ICP基因的非常低的G+C含量(结果导致高A+T含量)，导致产生出序列便模拟或模仿了植物基因控制序列(已知这些序列是非常富含A+T的)。在引入的基因DNA中存在的某些A+T-富含区域(如通常在基因启动子中发现的TATA盒)，会导致基因的异常转录。另一方面，位于转录出的mRNA中的其他调控序列(如聚腺苷酸化信号序列(AAUAAA)、或与核内小RNA(涉及前-mRNA的剪接)互补的序列)，会导致RNA不稳定。因此，在设计玉米优化的Bt ICP基因中一个目标是产生具有更高G+C含量的DNA序列，而且该含量宜与编码代谢酶的玉米基因中的含量相接近。在设计玉米优化的Bt ICP基因中另一目标是，产生不仅有更高G+C含量的DNA序列，而且通过修饰序列而产生序列变化，从而不影响翻译。

因为遗传密码丰余性而提供的灵活性(即某些氨基酸可以被一种以上的密码子所指定)，所以不同生物体或不同类别生物体的基因组的进化导致了在使用丰余密码子上存在差异。这种“密码子偏性”反映在蛋白质编码区域的平均碱基组成上。例如，具有较低G+C含量的生物体利用的密码子，在丰余密码子的第三位上有A或T；而那些具有较高G+C含量的生物体利用在第三位上有G或C的密码子。人们认为，在基因mRNA中存在“稀有”密码子会降低该mRNA的绝对翻译速度，尤其是对应于稀有密码子的有关tRNA的相对丰度较低时。其后果就是，由各稀有密码子导致的翻译速度的下降作用，对于多个稀有密码子而言至少是累加的。因此，具有较高含量的稀有密码子的mRNA，其翻译速度相应较低。这一速度可反映为其编码蛋白的低水平合成。

Bt ICP基因的密码子构成和玉米基因的密码子构成的比较(表2)揭示，在密码子偏性上有很大差异。

表2在26个玉米基因和苏云金芽胞杆菌Cry1A(c)蛋白编码基因之间密码子使用情况的比较^a

氨基酸	密码子^a	玉米^b％	Bt^b％	氨基酸	密码子^a	玉米^b％	Bt^b％
氨基酸	密码子^a	玉米^b％	Bt^b％	氨基酸	密码子^a	玉米^b％	Bt^b％	GlyGlyGlyGlyGluGluAspAsp	GGGGGAGGTGGCGAGGAAGATGAC	16132150 81192476	224028102179 7525	IleIleIleThrThrThrThrTrp	ATAATTATCACGACAACTACCTAG	8246826111647 100	24532322392217100

ValValValValAlaAlaAlaAlaArgArgArgArgArgArgSerSerSerSerSerSerLysLysAsnAsnMet

GTGGTAGTTGTCGCGGCAGCTGCCAGGAGACGGCGACGTCGCAGTAGCTCGTCATCTTCCAAGAAAAATAACATG

40617372413273626713311405281610142790101981 100

20403010232639121442114254277132018153268 7228100

末端末端末端CysCysTyrTyrLeuLeuLeuLeuLeuLeuPhePheGlnGlnHisHisProProProPro

TGATAGTAATGTTGCTATTACTTGTTACTGCTACTTCTCTTTTTCCAGCAACATCACCCGCCACCTCCC

2652222179148613331916282080 5941297127232030

010006238811994291816680201387 82182149264

^a玉米密码子的使用数据来自Murray等人(《核酸研究》(Nucl.Acids Res.)17(1989)477)。62个玉米基因的汇总资料(Wada等人，《核酸研究》(Nucl.AcidsRes.)18(1990)2367)揭示了相同的最常用的密码子，尽管在极端情况之间的差别下降了。

^b数字为各密码子在基因序列中出现频率，以对特定氨基酸的所有密码子出现总次数的百分比表示。带下划线的数字表示，各生物体或基因中的“优选”密码子。

没有例外情况，在芽胞杆菌基因中所有的丰余密码子都不是优选的玉米密码子。这种密码子偏性上的差异在仅有2个密码子供选择的情况下尤为明显(即Glu、Asp、Lys、Asn、Cys、Tyr、Phe、Gln和His)。

在设计玉米优化的Bt ICP基因时，ICP的氨基酸序列被反向翻译成DNA序列，其中采用对玉米基因DNA序列汇总的密码子偏性所建立的非丰余遗传密码子。形成的DNA序列(在密码子使用上完全一致)，被进一步地重复进行5次修饰以得到一DNA序列，该序列除了具有较高程度的密码子多样性(diversity)之外，还具有策略上设置的选择性酶识别位点、有利的碱基组成、并且没有可能会改变基因转录或产物mRNA翻译的序列。

Mze HD73#1 trnc：合成具有优选玉米密码子的ICP基因。作为创建新ICP基因序列的起点，先创建“玉米遗传密码”，其中给每个氨基酸指定一个根据表2中最常见玉米密码子而选出的唯一密码子(在“玉米％”一栏中数字带下划线的频率)。将天然Bt ICP的DNA序列翻译成相应的蛋白质序列，然后将氨基端的610个氨基酸(它们是最小的杀虫性ICP肽)，根据玉米遗传密码被反向翻译成新的DNA序列。该序列被称为Mze HD73#1 trnc，因此它含有全部“优选的”玉米密码子且其G+C含量为66％，该含量比“典型的”的玉米基因稍高(表1)。新DNA序列与天然芽胞杆菌的ICP DNA序列相比，有624个碱基改变了。

Mze HD73#2 trnc：消除酶识别位点。限制性酶BamHI、BglII、BclI和NcoI被常规地用于构建基因表达盒。因此，编码感兴趣蛋白质的DNA最好不含这些酶的识别位点。对Mze HD73#1 trnc DNA序列进行的分析揭示，有3个BclI识别位点、3个BglI位点、2个BglII位点、1个BamHI位点和1个NcoI位点。为了消除这些位点而改变DNA序列，使用的密码子必须不是“优选的”玉米密码子，而是第二选择或更低选择的密码子。例如，序列的核苷酸249被从G改成C，从而将亮氨酸密码子从CTG(最优选的玉米密码子，占次数的31％，表2)改变成CTC(第二种最常用的亮氨酸密码子，占次数的28％)。这一改变消除了BclI识别位点和重迭的PvuII位点。12个其他改变和它们的理由列于表3。

表3.Mze HD73#1 trnc→Mze HD73#2 trnc过程中的改变

位置	改变	理由
位置	改变	理由	249	G＞C	消除BclIh位点
295	C＞A	消除BglI位点	249	G＞C	消除BclIh位点
295	C＞A	消除BglI位点	297	C＞G	消除BglI位点
324	G＞A	消除BglII位点	297	C＞G	消除BglI位点
324	G＞A	消除BglII位点	592	C＞A	消除BglI位点
594	C＞G	消除BglI位点	592	C＞A	消除BglI位点
594	C＞G	消除BglI位点	801	C＞T	消除BglII位点
970	A＞T	消除BglI位点	801	C＞T	消除BglII位点
970	A＞T	消除BglI位点	971	G＞C	消除BglI位点
1020	C＞G	消除NcoI位点	971	G＞C	消除BglI位点
1020	C＞G	消除NcoI位点	1368	C＞T	消除BamHI位点
1461	G＞C	消除BclI位点	1368	C＞T	消除BamHI位点
1461	G＞C	消除BclI位点	1794	G＞C	消除BclI位点

形成的序列被命名为Mze HD73#2 trnc，它编码与Mze HD73#1 trnc相同的蛋白质。

对序列的分析揭示，没有BamHI、BglII、BclI、NcoI或其他几种常用酶的识别位点。分析还揭示Mze HD73#2 trnc的ICP编码链在框架1和3中含有完整的开放阅读框(ORF)。在框架1中的ORF对应于ICP的，并且证实了在对序列改变没有不利地产生终止密码子。框架3中的单一ORF从ICP起始密码子的G开始，它不中断地延伸到序列的末端。

Mze HD73#3 trnc：修饰酶识别位点以便于合成。目前的技术(结合使用自动DNA合成和酶法DNA合成)，对于能够在体外合理地合成的片段大小，有一个几百碱基对的上限。因此，有必要将ICP的1830bp的DNA序列分成几段，每个片段两侧为适当的限制性酶识别序列。这些位点的间隔应使相应的DNA片段的大小能够被轻易地在体外合成并操作。通过在Mze HD73#2 trnc的序列中形成6个碱基改变，而实现了位点的引入(总结在表4)

表4.Mze HD73#2 trnc→Mze HD73#3 trnc过程中的改变

位置	改变	理由
位置	改变	理由	645	G＞C	产生XhoI位点
841	C＞A	消除SstII位点	645	G＞C	产生XhoI位点
841	C＞A	消除SstII位点	843	C＞G	消除SstII位点
1221	G＞C	产生SalI位点	843	C＞G	消除SstII位点
1221	G＞C	产生SalI位点	531	C＞A	消除SstII位点
1533	C＞G	消除SstII位点	531	C＞A	消除SstII位点

产生这些改变以消除3个SstII位点中的两个(留下一个位置合适的、唯一的SstII位点)，以及产生间隔适当的新限制性酶识别位点。同样，这些改变并不改变所编码蛋白质的氨基酸序列，也不采用频率非常低的玉米密码子。用于确定这些新位点的位置策略是以密码子使用频率分析(表2)为基础的。选择优选的或经常使用的玉米密码子对，这样当并列时就产生了限制性位点。例如，配对密码子CTC(Leu)和GAG(Glu)形成了XhoI识别位点(CTCGAG)，而配对密码子GTC(Val)和GAC(Asp)形成了SalI位点(GTCGAC)。对ICP序列的分析鉴别出一个位于残基215/216处的Leu/Glu对，以及位于残基407/408的Val/Asp对。进行适当的残基替换，从而在这些位点产生识别序列(表4)。对该基因(Mze HD73#3 trnc)序列进行的分析揭示，其ORF与#2形式中相同。

用植物的外显子：内含子5′接头的共有序列[AG：GTAAGT]对Mze HD73#3 trnc序列进行检索，揭示出在629-632处有4/8匹配[GGTA]，在8个其他位置有3/8匹配[GGT]。在629位的(T)GGTA(C)不能在不改变所编码氨基酸的情况下加以改变，因为遗传密码利用了唯一的Trp密码子(TGG)，而且对于随后的Tyr的两个密码子都是以TA开头的[TAC和TAT]。然而，序列GGTA可能不足以成为剪接识别位点，因为共有序列的5′A残基是在植物和动物RNA的剪接识别位点中都是高度保守的，而且GGTA序列存在于大肠杆菌β-葡糖醛酸酶的编码区域(它在植物细胞中表达良好)以及存在于玉米的醇脱氢酶(Adh)1的外显子1中。此外，已发现GGTA是所有KpnI识别位点[GGTACC]的一部分，它们天然存在于某些植物基因中，因此可能它本身不是潜在的剪接供体位点。

然后检索Mze HD73#3 trnc DNA序列是否有与聚(A)添加位点信号共有序列AATAAA相同或相近的序列。在天然ICP基因序列中发现了完美的匹配情况，但是在Mze HD73#3 trnc中没有发现对该工程化序列的同源性，而且也没有发现对其更短形式[AATA]的同源性。

用模板CAN_AGTNNAA检索与RNA聚合酶II终止序列相近的序列，其中N为DNA中4种碱基的任何一种。用设定为7-9的N，在任何水平上都没有匹配情况。

据认为，在mRNA中形成链内自身互补结构(发夹)，会抑制核糖体在翻译过程中沿mRNA前进，而且发夹形成片段CTTCGG和同一链的互补片段CCGAAG是特别不利的。在Mze HD73#3 trnc中发现了两个完全的CTTCGG匹配(在201-206和1707-1712)。然而，没有对CCGAAG、CCGAA、CGAAG、或CGAA的匹配情况。因为发夹的重要性还不确定，所以没有用其他自身互补序列模块对ICP序列进行检查。Mze HD73#3 trnc+：消除TA或GC双联体

真核生物基因中核苷酸双联体TA和GC相对较少，而TG和CT较多。只有两种“优选”玉米密码子(表2)包含TA或CG双联体：TAC(Tyr)和CGC(Arg)。在合成序列中使用以上密码子必将产生我们试图避免的双联体。所以，必须在使用优选密码子的好处和产生过多的“禁止”双联体的害处之间进行权衡。如果是Tyr，代之以第二选择密码子并不能消除TA双联体，因为它仍然包含在密码子TAT中。但如果是Arg，第二选择密码子(AGG)在玉米中的使用频率仅略低于第一选择(26％对41％)，所以AGG可以完全替代CGC。其它包含TA或CG双联体的密码子(GAT(Val)；ATA(Ile)；TAG，TAA(终止)；TTA，CTA(Leu)；GCG(Ala)；CGG，CGA，CGT(Art)；ACG(Thr)和CCG(Pro))或者不能够用在编码区(例如终止密码子)，或者被发现在玉米中的出现频率过低以致于不适于包含在密码子偏性序列中，或者是具有可用同义密码子的密码子组中的一元(表2)。

除了出现在单独的密码子内之外，以C或T结尾的密码子与以G或A开头的密码子并列也可能形成CG和TA双联体。在只使用优选密码子的基因中，因为玉米优选密码子都不以T结尾，所以T/A并列一定是单一密码子内部的双联体造成的。通过在蛋白质序列中查找并列的C结尾玉米优选密码子代表的氨基酸与G开头玉米优选密码子代表的氨基酸，可以找到由氨基酸对形成的CG双联体。“C-结尾”的有Gly(GGC)、Asp(GAC)、Ala(GCC)、Arg(CGC)、Ser(AGC)、Asn(AAC)、Ile(ATC)、Thr(ACC)、Cys(TGC)、Tyr(TAC)、Phe(TTC)、His(CAC)和Pro(CCC)；“G-开头”的有Gly(GGC)、Glu(GAG)、Asp(GAC)、Val(GTG)和Ala(GCC)(表5)。

表5形成CG双联体的氨基酸并列

密码子以G开头的氨基酸
密码子以G开头的氨基酸						密码子以Ca结尾的氨基酸	甘氨酸(G)	谷氨酸(E)	天冬氨酸(D)	缬氨酸(V)	丙氨酸(A)
甘氨酸(G)GGC(50)＞GGT(21)	Gly/GlyG/G	Gly/GlyG/E	Gly/AspG/D	Gly/ValG/V	Gly/AlaG/A	密码子以Ca结尾的氨基酸	甘氨酸(G)	谷氨酸(E)	天冬氨酸(D)	缬氨酸(V)	丙氨酸(A)
甘氨酸(G)GGC(50)＞GGT(21)	Gly/GlyG/G	Gly/GlyG/E	Gly/AspG/D	Gly/ValG/V	Gly/AlaG/A	丙氨酸(A)GCC(36)＞GCT(27)	Ala/GlyA/G	Ala/GluA/E	Ala/AspA/D	Ala/ValA/V	Ala/AlaA/A
精氨酸(R)CGC(40)＞AGG(26)	Arg/GlyR/G	Arg/GluR/E	Arg/AspR/D	Arg/ValR/V	Arg/AlaR/A	丙氨酸(A)GCC(36)＞GCT(27)	Ala/GlyA/G	Ala/GluA/E	Ala/AspA/D	Ala/ValA/V	Ala/AlaA/A
精氨酸(R)CGC(40)＞AGG(26)	Arg/GlyR/G	Arg/GluR/E	Arg/AspR/D	Arg/ValR/V	Arg/AlaR/A	丝氨酸(S)AGC(28)＞TCG(16)AGC(28)＞TCT(14)	Ser/GlyS/G	Ser/GluS/E	Ser/AspS/D	Ser/ValS/V	Ser/AlaS/A
异亮氨酸(I)ATC(68)＞ATT(24)	Ile/GlyI/G	Ile/GluI/E	Ile/AspI/D	Ile/ValI/V	Ile/AIaI/A	丝氨酸(S)AGC(28)＞TCG(16)AGC(28)＞TCT(14)	Ser/GlyS/G	Ser/GluS/E	Ser/AspS/D	Ser/ValS/V	Ser/AlaS/A
异亮氨酸(I)ATC(68)＞ATT(24)	Ile/GlyI/G	Ile/GluI/E	Ile/AspI/D	Ile/ValI/V	Ile/AIaI/A	苏氨酸(T)ACC(47)＞ACG(26)	Thr/GlyT/G	Thr/GluT/E	Thr/AspT/D	Thr/ValT/V	Thr/AlaT/A
脯氨酸(P)CCC(30)＞CCG(27)	Pro/GlyP/G	Pro/GluP/E	Pro/AspP/D	Pro/ValP/V	Pro/AlaP/A	苏氨酸(T)ACC(47)＞ACG(26)	Thr/GlyT/G	Thr/GluT/E	Thr/AspT/D	Thr/ValT/V	Thr/AlaT/A

^a在氨基酸名称下面给出的是推荐的密码子取代以及这些密码子在玉米基因中出现的相对频率。

在确定了以上氨基酸双联体之后，就可以试着改变两密码子之一来尽可能减少CG双联体的出现而不过多地损伤密码子偏性。但是，由于优选密码子“G-开头”的替代密码子仍然都以G开头，所以在合适的替代密码子中，CG双联体中的G是不可改变的，因而只能改变配对中第一氨基酸的密码子。有时，(例如Asp：GAC(76)＞GAT(24)；Asn：AAC(81)＞AAT(19)；Cys：TGC(79)＞TGT(21)；Tyr：TAC(86)＞TAT(14)；Phe：TTC(80)＞TTT(20)；和His：CAC(71)＞CAT(29))，替代密码子在玉米基因中的频率大大低于优选密码子，以致于这种替代根本不在选择之列。所以，这种并列产生的双联体可以忽略。

所以，将Mze HD73#3 trnc蛋白质序列中128个双联体，其中包含上述形成CG的并列氨基酸，编辑成表(表6)。对其中74个氨基酸双联体的密码子序列进行了改变(表6中加下划线的位置编号)以消除CG碱基双联体。

表6 Mze HD73#3 trnc中产生CG双联体^a的氨基酸并列

位置	氨基酸	位置	氨基酸	位置	氨基酸
位置	氨基酸	位置	氨基酸	位置	氨基酸	8/9	ASN/GLU	206/207	TYR/ALA	438/439	SER/GLY
19/20	PRO/GLUE	207/208	ALANAL	444/445	SER/VAL	8/9	ASN/GLU	206/207	TYR/ALA	438/439	SER/GLY
19/20	PRO/GLUE	207/208	ALANAL	444/445	SER/VAL	25/26	GLY/GLY	213/214	THR/GLY	449/450	ARG/ALA
26/27	GLY/GLU	217/218	ARGNAL	459/460	SER/ALA	25/26	GLY/GLY	213/214	THR/GLY	449/450	ARG/ALA
26/27	GLY/GLU	217/218	ARGNAL	459/460	SER/ALA	29/30	ILE/GLU	221/222	PRo/ASP	460/461	ALA/GLU
31/32	THR/GLY	224/225	ARG/ASP	466/467	ILE/ALA	29/30	ILE/GLU	221/222	PRo/ASP	460/461	ALA/GLU
31/32	THR/GLY	224/225	ARG/ASP	466/467	ILE/ALA	36/37	ILE/ASP	234/235	ARG/GLU	468/469	SER/ASP
48/49	SER/GLU	239/240	THRNAL	475/476	PRO/ALA	36/37	ILE/ASP	234/235	ARG/GLU	468/469	SER/ASP
48/49	SER/GLU	239/240	THRNAL	475/476	PRO/ALA	50/51	PHE/VAL	243/244	ILENAL	476/477	ALA/VAL
52/53	PRO/GLY	250/251	TYR/ASP	484/485	ASN/GLY	50/51	PHE/VAL	243/244	ILENAL	476/477	ALA/VAL
52/53	PRO/GLY	250/251	TYR/ASP	484/485	ASN/GLY	53/54	GLY/ALA	259/260	THRNAL	486/487	SER/VAL
54/55	ALA/GLY	265/266	ARG/GLU	489/490	SER/GLY	53/54	GLY/ALA	259/260	THRNAL	486/487	SER/VAL
54/55	ALA/GLY	265/266	ARG/GLU	489/490	SER/GLY	56/57	PHE/VAL	271/272	PRONAL	491/492	PRO/GLY
68/69	PHE/GLY	276/277	PHE/ASP	494/495	THR/GLY	56/57	PHE/VAL	271/272	PRONAL	491/492	PRO/GLY
68/69	PHE/GLY	276/277	PHE/ASP	494/495	THR/GLY	74/75	ASP/ALA	277/278	ASP/GLY	495/496	GLY/GLY
80/81	ILE/GLU	281/282	ARG/GLY	496/497	GLY/ASP	74/75	ASP/ALA	277/278	ASP/GLY	495/496	GLY/GLY
80/81	ILE/GLU	281/282	ARG/GLY	496/497	GLY/ASP	88/89	ILE/GLU	283/284	SER/ALA	504/505	SER/GLY
91/92	PHE/ALA	287/288	ILE/GLU	511/512	ARG/GLY	88/89	ILE/GLU	283/284	SER/ALA	504/505	SER/GLY
91/92	PHE/ALA	287/288	ILE/GLU	511/512	ARG/GLY	110/111	TYR/ALA	307/308	THR/ASP	514/515	ILE/GLU
111/112	ALA/GLU	308/309	ASP/ALA	528/529	ARG/VAL	110/111	TYR/ALA	307/308	THR/ASP	514/515	ILE/GLU
111/112	ALA/GLU	308/309	ASP/ALA	528/529	ARG/VAL	115/116	ARG/GLU	311/312	ARG/GLY	530/531	ARG/VAL
119/120	ALA/ASP	317/318	SER/GLY	533/534	TYR/ALA	115/116	ARG/GLU	311/312	ARG/GLY	530/531	ARG/VAL
119/120	ALA/ASP	317/318	SER/GLY	533/534	TYR/ALA	124/125	PRO/ALA	325/326	PRONAL	535/536	SER/VAL
127/128	ARG/GLU	329/330	SER/GLY	542/543	ASN/VAL	124/125	PRO/ALA	325/326	PRONAL	535/536	SER/VAL
127/128	ARG/GLU	329/330	SER/GLY	542/543	ASN/VAL	135/136	ASN/ASP	331/332	PRO/GLU	554/555	THR/VAL
139/140	SER/ALA	338/339	TYR/GLY	556/557	PRO/ALA	135/136	ASN/ASP	331/332	PRO/GLU	554/555	THR/VAL
139/140	SER/ALA	338/339	TYR/GLY	556/557	PRO/ALA	143/144	THR/ALA	343/344	ASN/ALA	558/559	THR/ALA
148/149	PHE/ALA	344/345	ALA/ALA	569/569	SER/ASP	143/144	THR/ALA	343/344	ASN/ALA	558/559	THR/ALA
148/149	PHE/ALA	344/345	ALA/ALA	569/569	SER/ASP	149/150	ALA/VAL	350/351	ILENAL	570/571	PHE/GLY

位置	氨基酸	位置	氨基酸	位置	氨基酸
位置	氨基酸	位置	氨基酸	位置	氨基酸	159/160	SER/VAL	357/358	GLY/VAL	573/574	PHE/GLU
161/162	TYR/VAL	373/374	ILE/GLY	575/576	SER/ALA	159/160	SER/VAL	357/358	GLY/VAL	573/574	PHE/GLU
161/162	TYR/VAL	373/374	ILE/GLY	575/576	SER/ALA	164/165	ALA/ALA	381/382	SER/VAL	577/578	ASN/ALA
170/171	SER/VAL	384/385	ASP/GLY	586/587	ILE/VAL	164/165	ALA/ALA	381/382	SER/VAL	577/578	ASN/ALA
170/171	SER/VAL	384/385	ASP/GLY	586/587	ILE/VAL	173/174	ARG/ASP	386/387	THR/GLU	588/589	GLY/VAL
174/175	ASP/VAL	388/389	PHE/ALA	593/594	SER/GLY	173/174	ARG/ASP	386/387	THR/GLU	588/589	GLY/VAL
174/175	ASP/VAL	388/389	PHE/ALA	593/594	SER/GLY	176/177	SER/VAL	390/391	TYR/GLY	595/596	THR/ALA
178/179	PHE/GLY	398/399	SER/ALA	596/597	ALA/GLY	176/177	SER/VAL	390/391	TYR/GLY	595/596	THR/ALA
178/179	PHE/GLY	398/399	SER/ALA	596/597	ALA/GLY	184/185	PHE/ASP	399/400	ALA/VAL	597/598	GLY/VAL
185/186	ASP/ALA	404/405	SER/GLY	600/601	ILE/ASP	184/185	PHE/ASP	399/400	ALA/VAL	597/598	GLY/VAL
185/186	ASP/ALA	404/405	SER/GLY	600/601	ILE/ASP	186/187	ALA/ALA	406/407	THR/VAL	603/604	PHE/GLU
194/195	ASN/ASP	412/413	ASP/GLU	607/608	PRO/NAL	186/187	ALA/ALA	406/407	THR/VAL	603/604	PHE/GLU
194/195	ASN/ASP	412/413	ASP/GLU	607/608	PRO/NAL	200/201	ILE/GLY	419/420	ASN/VAL	609/610	THR/ALA
204/205	THR/ASP	432/433	HIS/GLY			200/201	ILE/GLY	419/420	ASN/VAL	609/610	THR/ALA

^a位置以粗体表示的碱基按后文表7进行改变。

选择哪个替代密码子来取代优选密码子主要取决于，替代密码子不能属于极其罕用的密码子。要考虑的因素之一是完全由优选玉米密码子构成的DNA序列可能遇到表达问题，因为对单独某一密码子的非天然依赖性可能减少该密码子的tRNA集合物或氨酰-tRNA的合成。一般认为适宜用第二(或第三)选择密码子在密码子组成中引入一定的多样性，只要这种选择被包含在玉米基因内对密码子的天然使用之中。就这方面而言，必须注意的是，任何生物基因内密码子的出现频率都必须相对于某氨基酸存在于全部遗传密码内的同义密码子的个数来评价。例如，玉米使用Phe密码子TTT的相对频率(20％)比之Pro密码子CCT的相同相对频率(20％)，清楚的表明其反选择量(密码子偏性)更大，因为只有2种Phe密码子，而有4种Pro密码子(表2)。所以，某替代密码子是否可以取代优选密码子并不是一个简单直接的选择。

选择合适的替代密码子以减少CG双联体还受到其它因素的影响。例如，当优选Arg密码子CGC(40％)出现在序列CGCG中时，代之以第二选择的Arg密码子AGG(26％)立刻消除了两个CG双联体。显然，这样的取代从减少CG双联体和产生密码子多样性两方面来说都是十分理想的。更微妙的是，用第二选择密码子ACG(26％)取代ACCG中的优选Thr密码子ACC(47％)，或用第三选择密码子TCG(16％)取代AGCG中的优选Ser密码子AGC(28％)不改变CG双联体的总数，但是形成了较好的密码子多样性。最后，用第四选择的密码子TCT(14％)取代AGCG中的优选Ser密码子AGC(28％)，消除了CG双联体，形成了密码子多样性，还增加了CT双联体的总数。

表7概括了为形成Mze HD73#4 trnc而对Mze HD73#3 trnc序列进行的以上及其它改变。

表7 Mze HD73#3 trnc→Mze HD73#4 trnc中的改变

位置	改变	根据^*	位置	改变	根据	位置	改变	根据^*
位置	改变	根据^*	位置	改变	根据	位置	改变	根据^*	75	C＞T	1	949	A＞T	3.9	1470	C＞T	3.4
78	C＞T	1	950	G＞C	3.9	1473	C＞A	1.34	75	C＞T	1	949	A＞T	3.9	1470	C＞T	3.4
78	C＞T	1	950	G＞C	3.9	1473	C＞A	1.34	156	C＞A	1	951	C＞T	1.9	1476	C＞T	34
159	C＞T	110	975	C＞A	1	1482	C＞G	3	156	C＞A	1	951	C＞T	1.9	1476	C＞T	34
159	C＞T	110	975	C＞A	1	1482	C＞G	3	162	C＞T	19	985	A＞T	3.9	1485	C＞T	1
183	G＞C	2	986	G＞C	3.9	1488	C＞T	1	162	C＞T	19	985	A＞T	3.9	1485	C＞T	1
183	G＞C	2	986	G＞C	3.9	1488	C＞T	1	264	C＞T	1	987	C＞T	1.9	1510	A＞T	39

位置	改变	根据^*	位置	改变	根据^*	位置	改变	根据^*
位置	改变	根据^*	位置	改变	根据^*	位置	改变	根据^*	333	C＞T	1.9	993	C＞A	T	1511	G＞C	3
343	C＞A	3	1032	C＞T	1.9	1512	C＞G	1	333	C＞T	1.9	993	C＞A	T	1511	G＞C	3
343	C＞A	3	1032	C＞T	1.9	1512	C＞G	1	345	C＞G	1	1050	C＞T	1	1515	C＞T	3.4
357	C＞T	1.9	1071	C＞T	1	1582	C＞A	1	345	C＞G	1	1050	C＞T	1	1515	C＞T	3.4
357	C＞T	1.9	1071	C＞T	1	1582	C＞A	1	372	C＞A	1	1119	C＞T	1	1583	C＞G	1
379	C＞A	1	1141	A＞T	3	1587	G＞C	3	372	C＞A	1	1119	C＞T	1	1583	C＞G	1
379	C＞A	1	1141	A＞T	3	1587	G＞C	3	381	C＞G	1	1142	G＞C	3	1588	C＞A	1
429	C＞G	3	1143	C＞G	1	1590	C＞G	1	381	C＞G	1	1142	G＞C	3	1588	C＞A	1
429	C＞G	3	1143	C＞G	1	1590	C＞G	1	447	C＞T	1.9	1152	C＞T	1	1593	G＞C	3
480	G＞C	3.9	1158	C＞T	1.9	1594	C＞A	1.3.4	447	C＞T	1.9	1152	C＞T	1	1593	G＞C	3
480	G＞C	3.9	1158	C＞T	1.9	1594	C＞A	1.3.4	492	C＞T	1.9	1167	C＞T	3.4.9	1596	C＞G	3.4
508	A＞T	3	1210	A＞T	3.9	1602	C＞T	3.4.9	492	C＞T	1.9	1167	C＞T	3.4.9	1596	C＞G	3.4
508	A＞T	3	1210	A＞T	3.9	1602	C＞T	3.4.9	509	G＞C	3	1211	G＞C	3.9	1603	A＞T	3.9
510	C＞G	1	1212	C＞T	1.9	1604	G＞C	3.9	509	G＞C	3	1211	G＞C	3.9	1603	A＞T	3.9
510	C＞G	1	1212	C＞T	1.9	1604	G＞C	3.9	517	C＞A	1	1215	C＞T	5	1605	C＞T	1.9
519	C＞G	1	1221	C＞G	6	1662	C＞G	1	517	C＞A	1	1215	C＞T	5	1605	C＞T	1.9
519	C＞G	1	1221	C＞G	6	1662	C＞G	1	555	C＞T	1	1312	A＞T	3	1668	C＞A	1
558	C＞T	1.9	1313	G＞C	3	1674	C＞G	1	555	C＞T	1	1312	A＞T	3	1668	C＞A	1
558	C＞T	1.9	1313	G＞C	3	1674	C＞G	1	600	C＞T	1	1314	C＞G	1	1699	A＞T	3
612	C＞G	3	1330	A＞T	3.4	1700	G＞C	3	600	C＞T	1	1314	C＞G	1	1699	A＞T	3
612	C＞G	3	1330	A＞T	3.4	1700	G＞C	3	639	C＞G	3	1331	G＞C	3.4	1702	A＞T	3.9
649	C＞A	1	1332	C＞T		1703	G＞C	3	639	C＞G	3	1331	G＞C	3.4	1702	A＞T	3.9
649	C＞A	1	1332	C＞T		1703	G＞C	3	651	C＞G	1	1345	C＞A	1	1704	C＞G	1
663	C＞A	1	1347	C＞G	1	1723	A＞T	3	651	C＞G	1	1345	C＞A	1	1704	C＞G	1
663	C＞A	1	1347	C＞G	1	1723	A＞T	3	670	C＞A	1	1353	C＞A	3.4	1724	G＞C	3
672	C＞G	1	1375	A＞T	3.9	1725	C＞G	1	670	C＞A	1	1353	C＞A	3.4	1724	G＞C	3
672	C＞G	1	1375	A＞T	3.9	1725	C＞G	1	700	C＞A	3	1376	G＞C	3.9	1764	C＞T	1
702	C＞G	1	1377	C＞T	1.9	1777	A＞T	3.9	700	C＞A	3	1376	G＞C	3.9	1764	C＞T	1
702	C＞G	1	1377	C＞T	1.9	1777	A＞T	3.9	717	C＞G	1	1380	C＞T	1.9	1778	G＞C	3.9
729	C＞T	1	1398	C＞T	1	1779	C＞T	1	717	C＞G	1	1380	C＞T	1.9	1778	G＞C	3.9
729	C＞T	1	1398	C＞T	1	1779	C＞T	1	777	C＞G	1	1402	A＞T	3.9	1785	C＞G	1
793	C＞A	1	1403	G＞C	3.9	1788	C＞T	1.9	777	C＞G	1	1402	A＞T	3.9	1785	C＞G	1
793	C＞A	1	1403	G＞C	3.9	1788	C＞T	1.9	795	C＞G	1	1404	C＞T	1.9	1791	C＞T	1
813	C＞A	1	1428	C＞T	1.9	1821	C＞A	1	795	C＞G	1	1404	C＞T	1.9	1791	C＞T	1
813	C＞A	1	1428	C＞T	1.9	1821	C＞A	1	847	A＞T	3	1456	A＞T	3	1827	C＞G	1
848	G＞C	3	1457	G＞C	3	1831-33	CCA	7	847	A＞T	3	1456	A＞T	3	1827	C＞G	1

位置	改变	根据^*	位置	改变	根据^*	位置	改变	根据^*
位置	改变	根据^*	位置	改变	根据^*	位置	改变	根据^*	849	C＞G	1	1458	C＞G	1	1834-36	CCA	7
852	C＞T	3.4.9	1465	A＞T	3	1837-39	TAG	8	849	C＞G	1	1458	C＞G	1	1834-36	CCA	7
852	C＞T	3.4.9	1465	A＞T	3	1837-39	TAG	8	861	C＞T	1	1466	G＞C	3
921	C＞G	1	1467	C＞G	1				861	C＞T	1	1466	G＞C	3
921	C＞G	1	1467	C＞G	1				927	C＞T	3.4.9

^*根据说明：1＝消除CG双联体；2＝形成SalI位点；3＝产生密码子多样性；4＝减低G+C含量；5＝形成KpnI位点；6＝消除SalI位点；7＝脯氨酸密码子；8＝终止密码子；9＝形成CT双联体；10＝形成NarI位点。

在序列的末尾加上二个脯氨酸密码子和一个终止密码子(TAG)(此时的氨基酸总数约为612)，由此产生Mze HD73#4 trnc+。末端存在脯氨酸残基被认为可减少羧基末端的蛋白酶解。对形成的序列进行扫描以确定限制性位点。通过改变碱基消除了第1219位的SalI位点，而在第181为形成了一个新的，消除了第158位的NarI位点，而在第1217位形成了一个新的KpnI。ORF检索显示在框架1内有ICP ORF，在框架2和3内各有一个小的ORF。现有基因内的长框架3ORF被第78位碱基处的终止子打断；在框架3内没有其它以ATG开头而且长于25个氨基酸的ORF。

Mze HD73#5 trnc+：GC含量减少而密码子多样性增加。

#4 trnc+与现有序列内碱基双联体频率的比较显示(表3)，碱基的改变趋向于减少CG碱基对，增加TG和CT碱基对。但是，与目标即玉米基因的55-60％相比，#4 trnc+内仍然具有较高的G+C含量(62％)。要减少该含量需要使用更多含有A和/或T的替代密码子。

表8概括了为形成Mze HD73#5 trnc+而对Mze HD73#4 trnc+序列进行的改变。

位置	改变	根据^*	位置	改变	根据^*	位置	改变	根据^*
位置	改变	根据^*	位置	改变	根据^*	位置	改变	根据^*	15	C＞A	1	660	C＞T	1	1149	G＞T	1
36	C＞T	1	667	A＞T	2	1177	A＞T	1.2	15	C＞A	1	660	C＞T	1	1149	G＞T	1
36	C＞T	1	667	A＞T	2	1177	A＞T	1.2	46	C＞T	1	668	G＞C	2	1178	G＞C	1.2
57	C＞T	1	684	C＞T	1	1179	C＞T	1.2	46	C＞T	1	668	G＞C	2	1178	G＞C	1.2
57	C＞T	1	684	C＞T	1	1179	C＞T	1.2	72	G＞T	1	693	G＞A	1	1186	C＞T	1
87	C＞T	1	723	G＞T	1	1191	C＞A	1	72	G＞T	1	693	G＞A	1	1186	C＞T	1
87	C＞T	1	723	G＞T	1	1191	C＞A	1	105	C＞A	1	735	C＞T	1	1197	C＞T	1
115	A＞T	1.2	744	C＞A	1	1228	C＞T	1	105	C＞A	1	735	C＞T	1	1197	C＞T	1
115	A＞T	1.2	744	C＞A	1	1228	C＞T	1	116	G＞C	1.2	754	A＞T	2	1242	C＞T	1
117	C＞T	1.2	755	G＞C	2	1245	C＞A	1	116	G＞C	1.2	754	A＞T	2	1242	C＞T	1
117	C＞T	1.2	755	G＞C	2	1245	C＞A	1	132	G＞A	1	759	C＞T	1	1263	C＞A	1
142	A＞T	1.2	768	C＞A	1	1266	C＞T	1	132	G＞A	1	759	C＞T	1	1263	C＞A	1
142	A＞T	1.2	768	C＞A	1	1266	C＞T	1	143	G＞C	1.2	781	A＞T	1.2	1272	G＞A	1
144	C＞T	1.2	782	G＞C	1.2	1279	A＞T	1.2	143	G＞C	1.2	781	A＞T	1.2	1272	G＞A	1
144	C＞T	1.2	782	G＞C	1.2	1279	A＞T	1.2	174	G＞T	1	783	C＞T	1.2	1280	G＞C	1.2
177	C＞T	1	792	C＞T	1	1281	C＞T	1.2	174	G＞T	1	783	C＞T	1.2	1280	G＞C	1.2
177	C＞T	1	792	C＞T	1	1281	C＞T	1.2	210	C＞A	1	816	G＞T	1	1288	C＞T	1
216	G＞A	1	817	C＞T	1	1299	G＞T	1	210	C＞A	1	816	G＞T	1	1288	C＞T	1
216	G＞A	1	817	C＞T	1	1299	G＞T	1	225	C＞T	1	831	C＞T	1	1300	A＞T	2
231	G＞T	1	835	A＞T	2	1301	G＞C	1	225	C＞T	1	831	C＞T	1	1300	A＞T	2
231	G＞T	1	835	A＞T	2	1301	G＞C	1	237	G＞A	1	836	G＞C	2	1311	C＞T	1
258	G＞A	1	849	G＞T	1	1341	C＞T	1	237	G＞A	1	836	G＞C	2	1311	C＞T	1
258	G＞A	1	849	G＞T	1	1341	C＞T	1	276	C＞T	1	855	G＞A	1	1360	A＞T	1
285	G＞A	1	873	C＞T	1	1361	G＞C	2	276	C＞T	1	855	G＞A	1	1360	A＞T	1
285	G＞A	1	873	C＞T	1	1361	G＞C	2	292	A＞T	2	877	A＞T	1.2	1374	C＞T	1
293	G＞C	2	878	G＞C	1.2	1416	C＞T	1	292	A＞T	2	877	A＞T	1.2	1374	C＞T	1
293	G＞C	2	878	G＞C	1.2	1416	C＞T	1	300	G＞T	1	879	C＞T	1.2	1419	G＞A	1
307	C＞T	1	882	C＞T	1	1425	C＞T	1	300	G＞T	1	879	C＞T	1.2	1419	G＞A	1
307	C＞T	1	882	C＞T	1	1425	C＞T	1	363	C＞A	1	897	C＞T	1	1431	G＞T	1
376	C＞T	1	900	G＞T	1	1446	G＞T	1	363	C＞A	1	897	C＞T	1	1431	G＞T	1
376	C＞T	1	900	G＞T	1	1446	G＞T	1	399	G＞A	1	912	C＞T	1	1494	G＞T	1
415	A＞T	1.2	960	G＞A	1	1501	C＞T	1	399	G＞A	1	912	C＞T	1	1494	G＞T	1
415	A＞T	1.2	960	G＞A	1	1501	C＞T	1	416	G＞C	1.2	969	C＞T	1	1536	C＞T	1

417	C＞T	1.2	978	G＞T	1	1551	C＞A	1
417	C＞T	1.2	978	G＞T	1	1551	C＞A	1	420	C＞T	1	981	C＞T	1	1563	C＞A	1
438	C＞T	1	1008	C＞T	1	1564	A＞T	2	420	C＞T	1	981	C＞T	1	1563	C＞A	1
438	C＞T	1	1008	C＞T	1	1564	A＞T	2	462	G＞A	1	1009	C＞T	1	1565	G＞C	2
468	C＞T	1	1017	C＞T	1	1614	C＞A	1	462	G＞A	1	1009	C＞T	1	1565	G＞C	2
468	C＞T	1	1017	C＞T	1	1614	C＞A	1	471	G＞T	1	1035	C＞T	1	1621	C＞T	1
489	G＞A	1	1038	C＞A	1	1645	A＞T	2	471	G＞T	1	1035	C＞T	1	1621	C＞T	1
489	G＞A	1	1038	C＞A	1	1645	A＞T	2	499	C＞T	1	1041	G＞A	1	1646	G＞C	2
510	G＞T	1	1056	C＞T	1	1686	G＞T	1	499	C＞T	1	1041	G＞A	1	1646	G＞C	2
510	G＞T	1	1056	C＞T	1	1686	G＞T	1	514	C＞T	1	1059	G＞A	1	1722	G＞A	1
526	A＞T	1.2	1068	G＞A	1	1734	C＞T	1	514	C＞T	1	1059	G＞A	1	1722	G＞A	1
526	A＞T	1.2	1068	G＞A	1	1734	C＞T	1	527	G＞C	1.2	1086	G＞T	1	1744	A＞T	1.2
528	C＞T	1.2	1087	A＞T	2	1745	G＞C	1.2	527	G＞C	1.2	1086	G＞T	1	1744	A＞T	1.2
528	C＞T	1.2	1087	A＞T	2	1745	G＞C	1.2	537	C＞T	1	1088	G＞C	2	1746	C＞T	1.2
540	G＞A	1	1096	C＞T	1	1749	G＞T	1	537	C＞T	1	1088	G＞C	2	1746	C＞T	1.2
540	G＞A	1	1096	C＞T	1	1749	G＞T	1	571	A＞T	1.2	1110	C＞A	1	1812	G＞A	1.3
572	G＞C	1.2	1135	G＞A	1	1830	C＞T	1	571	A＞T	1.2	1110	C＞A	1	1812	G＞A	1.3
572	G＞C	1.2	1135	G＞A	1	1830	C＞T	1	573	C＞T	1.2	1140	G＞T	1
621	C＞T	1	1143	G＞T					573	C＞T	1.2	1140	G＞T	1

^*根据说明：1＝减低G+C含量；2＝产生密码子多样性；3＝形成EcoRI位点。

如上表的根据说明所示，以上改变是为了在不过多损伤密码子偏性的同时减低G+C含量而增加密码子的多样性。在每一处可能的位置，通过增加T或A取代打断了G+C高含量序列块。此外，还在序列的近3′末端生成了一个单独的EcoRI位点，以便可能在以后进行的序列添加。表9列出了可减低GC含量的取代密码子选择。

表9用于减低G+C含量或增加CT或TG双联体的替代密码子

	取代密码子选择^a
	取代密码子选择^a				氨基酸	优选	第一替代	第二替代	第3替代
Ala	GCC(36)	GCT(27)	GCG(24)		氨基酸	优选	第一替代	第二替代	第3替代
Ala	GCC(36)	GCT(27)	GCG(24)		Arg	CGC(40)	AGG(26)	CGG(13)	CGT(11)
Asp	GAC(76)	GAT(24)			Arg	CGC(40)	AGG(26)	CGG(13)	CGT(11)
Asp	GAC(76)	GAT(24)			Gln	CAG(59)	CAA(41)
Glu	GAG(81)	GAA(19)			Gln	CAG(59)	CAA(41)
Glu	GAG(81)	GAA(19)			Gly	GGC(50)	GGT(21)	GGG(16)
Ile	ATC(68)	ATT(24)			Gly	GGC(50)	GGT(21)	GGG(16)
Ile	ATC(68)	ATT(24)			Leu	CTG(31)	CTC(28)	CTT(13)	TTG(13)
Pro	CCC(30)	CCG(27)	CCA(23)	CCT(20)	Leu	CTG(31)	CTC(28)	CTT(13)	TTG(13)
Pro	CCC(30)	CCG(27)	CCA(23)	CCT(20)	Ser	AGC(28)	TCC(27)	TCG(16)	TCT(14)
Thr	ACC(47)	ACG(26)	ACT(16)		Ser	AGC(28)	TCC(27)	TCG(16)	TCT(14)
Thr	ACC(47)	ACG(26)	ACT(16)		Val	GTG(40)	GTRC(37)	GTT(17)

^a括弧中的数字是在玉米基因内的使用频率(来自表2)。

按以下原理进行取代(表9)：

(i)虽然所有的Pro密码子都可以相互取代，但是CCT可形成一个CT双联体，并减低G+C含量。

(ii)两个Gln密码子在玉米基因中的出现频率大致相当，所以很容易相互取代。同样，Ser的密码子AGC和TCC也被认为可以相互取代。Val的密码子GTG和GTC、Leu的密码子CTG和CTC以及Ala的稀有密码子GCT和GCG也存在类似的频率相似性。

(iii)Leu和Ser的稀有密码子TTG和TCT可以用在C结尾的密码子之后，由此增加CT双联体。TTG还增加了TG双联体。

(iv)Arg的密码子AGG可以取代优选密码子CGC(参见前文的论述)。虽然AGG在玉米基因中的出现频率明显低于优选密码子，但比第三选择的密码子高2倍。

(v)如果可能，可以谨慎使用过去在玉米中被反选的稀有密码子，例如GAT(Asp)、GAA(Glu)、ATT(Ile)、ACT(Thr)和GTT(Val)。它们适宜被放置在形成CT或TG双联体的密码子之前或之后。由于它们是天然玉米基因的特征之一，所以在合成基因中不必完全避免它们的存在。

Mze HD73#6 trnc+。

为了形成最终的基因Mze HD73#6 trnc+，对Mze HD73#5trnc+的序列仅进行了很少的改变。(概括在表10中)

表10 Mze HD73#5 trnc+→Mze HD73#6 trnc+

位置	改变	原理
位置	改变	原理	1831-33	CCA→ACC	Pro→Thr
1834-36	CCA→CTG	Pro→Leu	1831-33	CCA→ACC	Pro→Thr
1834-36	CCA→CTG	Pro→Leu	1837-39	TAG→GAG	终止子→Glu
1840-42	GCT	Ala密码子	1837-39	TAG→GAG	终止子→Glu
1840-42	GCT	Ala密码子	1843-45	GAG	Glu密码子
1846-48	CCA	Pro密码子	1843-45	GAG	Glu密码子
1846-48	CCA	Pro密码子	1849-51	CCA	Pro密码子
1852-54	TAG	终止子	1849-51	CCA	Pro密码子

如表11所概括的，形成Mze HD73#5 trnc+和Mze HD73#6 trnc+的改变将CG双联体的数量减少了近50％，并且明显增加了TG和CT双联体。而且，56％的G+C含量恰好在玉米代谢基因的范围之内。

表11 ICP基因的碱基双联体数量和碱基组成比较

	截短的HD73基因
	截短的HD73基因							双联体	BT1830bp	Mze#11830bp	Mze#21830bp	Mze#31830bp	Mze#41836bp^a	Mze#51836bp^a	Mze#61851bp^a
TA	174	27	27	27	29^a	36^a	37^a	双联体	BT1830bp	Mze#11830bp	Mze#21830bp	Mze#31830bp	Mze#41836bp^a	Mze#51836bp^a	Mze#61851bp^a
TA	174	27	27	27	29^a	36^a	37^a	CG	46	171	170	168	102	90	90
TG	102	110	107	105	138	142	144	CG	46	171	170	168	102	90	90
TG	102	110	107	105	138	142	144	CT	86	98	98	98	129	165	167
％G+C	37	66	66	66	62	56	56	CT	86	98	98	98	129	165	167

^a忽略TAG终止子，不将其作为编码区的一部分。

对Perlak等(PNAS，88(1991)3324)此后在转基因植物中成功表达的DNA序列进行检测显示，该基因编码615个氨基酸的天然ICP(而不是MZE HD735 trnc+编码的610个)。所以，多出的5个氨基酸的密码子被加在第610个密码子和#4中添加的两个Pro密码子之间。所以，MZE HD736 trnc+编码615个氨基酸的天然ICP，以及两个羧基末端的脯氨酸残基(SEQ ID NO.1)

后文表12列出了天然芽胞杆菌属HD73基因、Mze HD73#1 trnc+基因和MzeHD73#6 trnc+基因的密码子使用方式。

表12 ICP基因密码子数量的比较

氨基酸	密码子^a	Bt	Mze#1	Mze#6	氨基酸	密码子^a	Bt	Mze#1	Mze#6
氨基酸	密码子^a	Bt	Mze#1	Mze#6	氨基酸	密码子^a	Bt	Mze#1	Mze#6	GlyGlyGlyGlyGluGluAspAspValValValValAlaAlaAlaAlaArgArgArgArgArgArgSerSerSerSerSerSerLysLysAsnAsn	GGG(16)GGA(13)GGT(21)GGC(50)GAG(81)GAA(19)GAT(24)GAC(76)GTG(40)GTA(6)GTT(17)GTC(37)GCG(24)GCA(13)GCT(27)GCC(36)AGG(26)AGA(7)CGG(13)CGA(3)CGT(11)CGC(40)AGT(5)AGC(28)TCG(16)TCA(10)TCT(14)TCC(27)AAG(90)AAA(10)AAT(19)AAC(81)	8191352252056181801111947231471213712117113414	0004527002542000000350000043061000020048	001827272322320460026101500042402360211120048	IleIleIleThrThrThrThrTrp终止终止终止CysCysTyrTyrLeuLeuLeuLeuLeuLeuPhePheGlnGlnHisHisProProProProMet	ATA(8)ATT(24)ATC(68)ACG(26)ACA(11)ACT(16)ACC(47)TGG(100)TGA(26)TAG(52)TAA(22)TGT(21)TGC(79)TAT(14)TAC(86)TTG(13)TTA(3)CTG(31)CTA(9)CTT(16)CTC(28)TTT(20)TTC(80)CAG(59)CAA(41)CAT(29)CAC(71)CCG(27)CCA(23)CCT(20)CCC(30)ATG(100)	18236512126100001123452228101306522726151028	0047000351000002027004800003627009000338	01334120420100100202713020014203681909026908

^a括弧内的数字表示表2所解释的密码子在玉米基因内的使用频率(％)

表13列出了对Mze HD73#6 trnc+的分析及其与双子叶植物和玉米基因的比较。

表13 MZE HD73#6 trnc+、双子叶植物和玉米之间密码子使用上的差异

氨基酸	密码子	密码子在Mze#6中的使用频率^a	密码子在双子叶植物中的使用频率^b	密码子使用与双子叶植物差异^c	密码子在玉米内的使用频率^b	密码子使用与玉米的差异^c
氨基酸	密码子	密码子在Mze#6中的使用频率^a	密码子在双子叶植物中的使用频率^b	密码子使用与双子叶植物差异^c	密码子在玉米内的使用频率^b	密码子使用与玉米的差异^c		(Y_n)	(X_n)	A	(X_n)	A
Gly	GGG	0	0.12	1.5625	0.16	1.5625		(Y_n)	(X_n)	A	(X_n)	A
Gly	GGG	0	0.12	1.5625	0.16	1.5625	GGA	0	0.38	1.5625	0.13	1.5625
	GGT	0.4	0.33	0.3314394	0.21	1.4136905	GGA	0	0.38	1.5625	0.13	1.5625
	GGT	0.4	0.33	0.3314394	0.21	1.4136905	GGC	0.6	0.16	4.296875	0.5	0.3125
Glu	GAG	0.93104	0.51	1.2899341	0.81	0.233477	GGC	0.6	0.16	4.296875	0.5	0.3125
Glu	GAG	0.93104	0.51	1.2899341	0.81	0.233477	GAA	0.06896	0.49	1.3425844	0.19	0.9953494
Asp	GAT	0.12	0.58	1.2392241	0.24	0.78125	GAA	0.06896	0.49	1.3425844	0.19	0.9953494
Asp	GAT	0.12	0.58	1.2392241	0.24	0.78125	GAC	0.88	0.42	1.7113095	0.76	0.2467105
Val	GTG	0.76191	0.29	2.5425903	0.4	1.4136905	GAC	0.88	0.42	1.7113095	0.76	0.2467105
Val	GTG	0.76191	0.29	2.5425903	0.4	1.4136905	GTA	0	0.12	1.5625	0.06	1.5625
	GTT	0.09524	0.39	1.1809371	0.17	0.6871499	GTA	0	0.12	1.5625	0.06	1.5625
	GTT	0.09524	0.39	1.1809371	0.17	0.6871499	GTC	0.14286	0.2	0.4464286	0.37	0.9592181
Ala	GCG	0	0.06	1.5625	0.24	1.5625	GTC	0.14286	0.2	0.4464286	0.37	0.9592181
Ala	GCG	0	0.06	1.5625	0.24	1.5625	GCA	0	0.25	1.5625	0.13	1.5625
	GCT	0.72222	0.42	1.1243386	0.27	2.6170267	GCA	0	0.25	1.5625	0.13	1.5625
	GCT	0.72222	0.42	1.1243386	0.27	2.6170267	GCC	0.27778	0.27	0.0450103	0.36	0.3568673
Arg	AGG	0.34884	0.25	0.6177326	0.26	0.5338775	GCC	0.27778	0.27	0.0450103	0.36	0.3568673
Arg	AGG	0.34884	0.25	0.6177326	0.26	0.5338775	AGA	0	0.3	1.5625	0.07	1.5625
	CGG	0	0.04	1.5625	0.13	1.5625	AGA	0	0.3	1.5625	0.07	1.5625
	CGG	0	0.04	1.5625	0.13	1.5625	CGA	0	0.08	1.5625	0.03	1.5625
	CGT	0.09302	0.21	0.8703627	0.11	0.2411469	CGA	0	0.08	1.5625	0.03	1.5625
	CGT	0.09302	0.21	0.8703627	0.11	0.2411469	CGC	0.55814	0.11	6.3656184	0.4	0.6177326
Ser	AGT	0	0.14	1.5625	0.05	1.5625	CGC	0.55814	0.11	6.3656184	0.4	0.6177326
Ser	AGT	0	0.14	1.5625	0.05	1.5625	AGC	0.37705	0.18	1.7104964	0.28	0.5415691
	TCG	0.09836	0.06	0.9989754	0.16	0.6019467	AGC	0.37705	0.18	1.7104964	0.28	0.5415691
	TCG	0.09836	0.06	0.9989754	0.16	0.6019467	TCA	0	0.19	1.5625	0.1	1.5625
	TCT	0.34426	0.25	0.5891393	0.14	2.2797131	TCA	0	0.19	1.5625	0.1	1.5625

	TCC	0.18033	0.18	0.0028461	0.27	0.5189359
	TCC	0.18033	0.18	0.0028461	0.27	0.5189359	Lys	AAG	1	0.61	0.9989754	0.9	0.1736111
	AAA	0	0.39	1.5625	0.1	1.5625	Lys	AAG	1	0.61	0.9989754	0.9	0.1736111
	AAA	0	0.39	1.5625	0.1	1.5625	Asn	AAT	0	0.45	1.5625	0.19	1.5625
	AAC	1	0.55	1.2784091	0.81	0.3665123	Asn	AAT	0	0.45	1.5625	0.19	1.5625
	AAC	1	0.55	1.2784091	0.81	0.3665123	Ile	ATA	0	0.18	1.5625	0.08	1.5625
	ATT	0.27659	0.45	0.6020981	0.24	0.2382535	Ile	ATA	0	0.18	1.5625	0.08	1.5625
	ATT	0.27659	0.45	0.6020981	0.24	0.2382535		ATC	0.72340	0.37	1.4924166	0.68	0.099734
Thr	ACG	0.33333	0.08	4.9479167	0.26	0.4407051		ATC	0.72340	0.37	1.4924166	0.68	0.099734
Thr	ACG	0.33333	0.08	4.9479167	0.26	0.4407051		ACA	0	0.27	1.5625	0.11	1.5625
	ACT	0.11111	0.35	1.0664683	0.16	0.4774306		ACA	0	0.27	1.5625	0.11	1.5625
	ACT	0.11111	0.35	1.0664683	0.16	0.4774306		ACC	0.55556	0.3	1.3310185	0.47	0.2844267
Trp	TAG	1	1	0	1	0		ACC	0.55556	0.3	1.3310185	0.47	0.2844267
Trp	TAG	1	1	0	1	0	End	TGA	0	0.33	1.5625	0.26	1.5625
	TAG	1	0.19	6.6611842	0.52	1.4423077	End	TGA	0	0.33	1.5625	0.26	1.5625
	TAG	1	0.19	6.6611842	0.52	1.4423077		TAA	0	0.48	1.5625	0.22	1.5625
Cys	TGT	0	0.44	1.5625	0.21	1.5625		TAA	0	0.48	1.5625	0.22	1.5625
Cys	TGT	0	0.44	1.5625	0.21	1.5625		TGC	1	0.56	1.2276786	0.79	0.4153481
Tyr	TAT	0	0.43	1.5625	0.14	1.5625		TGC	1	0.56	1.2276786	0.79	0.4153481
Tyr	TAT	0	0.43	1.5625	0.14	1.5625		TAC	1	0.57	1.1787281	0.86	0.2543605
Leu	TTG	0.26531	0.26	0.0318878	0.13	1.6262755		TAC	1	0.57	1.1787281	0.86	0.2543605
Leu	TTG	0.26531	0.26	0.0318878	0.13	1.6262755		TTA	0	0.1	1.5625	0.03	1.5625
	CTG	0.40816	0.09	5.5236678	0.31	0.4947745		TTA	0	0.1	1.5625	0.03	1.5625
	CTG	0.40816	0.09	5.5236678	0.31	0.4947745		CTA	0	0.08	1.5625	0.09	1.5625
	CTT	0.28571	0.28	0.0318878	0.16	1.2276786		CTA	0	0.08	1.5625	0.09	1.5625
	CTT	0.28571	0.28	0.0318878	0.16	1.2276786		CTC	0.04082	0.19	1.2268394	0.28	1.3347303
Phe	TTT	0	0.45	1.5625	0.2	1.5625		CTC	0.04082	0.19	1.2268394	0.28	1.3347303
Phe	TTT	0	0.45	1.5625	0.2	1.5625		TTC	1	0.55	1.2784091	0.8	0.390625
Gln	CAG	0.29630	0.41	0.433322	0.59	0.777817		TTC	1	0.55	1.2784091	0.8	0.390625
Gln	CAG	0.29630	0.41	0.433322	0.59	0.777817		CAA	0.70370	0.59	0.3011221	0.41	1.1192977
His	CAT	0	0.54	1.5625	0.29	1.5625		CAA	0.70370	0.59	0.3011221	0.41	1.1192977
His	CAT	0	0.54	1.5625	0.29	1.5625		CAC	1	0.46	1.8342391	0.71	0.6382042
Pro	CCG	0	0.09	1.5625	0.27	1.5625		CAC	1	0.46	1.8342391	0.71	0.6382042

CCA	0.74286	0.42	1.2011054	0.23	3.4840839
CCA	0.74286	0.42	1.2011054	0.23	3.4840839		CCT	0.25714	0.32	0.3069196	0.2	0.4464286
CCC	0	0.17	1.5625	0.3	1.5625		CCT	0.25714	0.32	0.3069196	0.2	0.4464286
CCC	0	0.17	1.5625	0.3	1.5625	Met	ATG	1	1	0	1	0
						Met	ATG	1	1	0	1	0
							Total			97.160136		68.584457

^a基于表12内MZE HD73#6 trnc+的密码子数量的计算。^b来自U.S.P.N.5,380,831(表1)的数字。^c基于定义部分的公式的计算。

与细菌序列相比，Mze HD73#6 trnc+在1845bp的ICP编码区内有538个碱基改变(538/1845×100＝29％差异性)，因增加两个Pro密码子而另外产生的6处改变，在1851bp内总共有544处差异。与Perlak等人公开的DNA序列(PNAS，88(1991)3324)比较显示，本发明玉米优化的Bt ICP基因在1845个碱基对中在422处有差异(23％差异性)，编码的蛋白质在第206、227、245、254、289和313氨基酸处有差异(615个氨基酸中改变了6个，其中不包括末端的脯氨酸)。

表14进一步说明了利用优选和非优选玉米密码子来生成一段植物优化的核苷酸序列，从而改变基因的方法。

表14在MZE HD73#6 trnc+中使用非优选玉米密码子

	PHE
	PHE						玉米(％)	TTC(76)	TTT(24)
MZE#6(36)	36	0					玉米(％)	TTC(76)	TTT(24)
MZE#6(36)	36	0						LEU
玉米(％)	CTG(28)	CTC(26)	CTT(16)	TTG(15)	CTA(10)	TTA(5)		LEU
玉米(％)	CTG(28)	CTC(26)	CTT(16)	TTG(15)	CTA(10)	TTA(5)	MZE#6(49)	20	2	14	13	0	0
	SER						MZE#6(49)	20	2	14	13	0	0
	SER						玉米(％)	AGC(26)	TCC(24)	TCG(16)	TCT(14)	TCA(13)	AGT(7)
MZE#6(61)	23	11	6	21	0	0	玉米(％)	AGC(26)	TCC(24)	TCG(16)	TCT(14)	TCA(13)	AGT(7)
MZE#6(61)	23	11	6	21	0	0		TYR
玉米(％)	TAC(80)	TAT(20)						TYR
玉米(％)	TAC(80)	TAT(20)					MZE#6(27)	27	0
	终止						MZE#6(27)	27	0

玉米(％)	TGA(46)	TAG(42)	TAA(12)
玉米(％)	TGA(46)	TAG(42)	TAA(12)				MZE#6(1)	0	1	0
	CYS						MZE#6(1)	0	1	0
	CYS						玉米(％)	TGC(75)	TGT(25)
MZE#6(2)	2	0					玉米(％)	TGC(75)	TGT(25)
MZE#6(2)	2	0						TRP
玉米(％)	TGG(100)							TRP
玉米(％)	TGG(100)						MZE#6(10)	10
	PRO						MZE#6(10)	10
	PRO						玉米(％)	CCG(29)	CCA(26)	CCC(25)	CCT(20)
MZE#6(35)	0	26	0	9			玉米(％)	CCG(29)	CCA(26)	CCC(25)	CCT(20)
MZE#6(35)	0	26	0	9				HIS
玉米(％)	CAC(65)	CAT(35)						HIS
玉米(％)	CAC(65)	CAT(35)					MZE#6(9)	9	0
	GLN						MZE#6(9)	9	0
	GLN						玉米(％)	CAG(56)	CAA(44)
MZE#6(27)	8	19					玉米(％)	CAG(56)	CAA(44)
MZE#6(27)	8	19						ARG
玉米(％)	CGC(34)	AGG(30)	CGG(14)	CGT(10)	AGA(8)	CGA(4)		ARG
玉米(％)	CGC(34)	AGG(30)	CGG(14)	CGT(10)	AGA(8)	CGA(4)	MZE#6(43)	24	15	0	4	0	0
	ILE						MZE#6(43)	24	15	0	4	0	0
	ILE						玉米(％)	ATC(60)	ATT(27)	ATA(13)
MZE#6(47)	34	13	0				玉米(％)	ATC(60)	ATT(27)	ATA(13)
MZE#6(47)	34	13	0					MET
玉米(％)	ATG(100)							MET
玉米(％)	ATG(100)						MZE#6(8)	8
	THR						MZE#6(8)	8
	THR						玉米(％)	ACC(45)	ACG(22)	ACT(18)	ACA(15)
MZE#6(36)	20	12	4	0			玉米(％)	ACC(45)	ACG(22)	ACT(18)	ACA(15)
MZE#6(36)	20	12	4	0				ASN
玉米(％)	AAC(79)	AAT(21)						ASN

MZE#6(48)	48	0
MZE#6(48)	48	0				LYS
玉米(％)	AAG(81)	AAA(19)				LYS
玉米(％)	AAG(81)	AAA(19)			MZE#6(2)	2	0
	VAL				MZE#6(2)	2	0
	VAL				玉米(％)	GTG(42)	GTC(33)	GTT(18)	GTA(7)
MZE#6(42)	32	6	4	0	玉米(％)	GTG(42)	GTC(33)	GTT(18)	GTA(7)
MZE#6(42)	32	6	4	0		ALA
玉米(％)	GCC(33)	GCG(26)	GCT(26)	GCA(15)		ALA
玉米(％)	GCC(33)	GCG(26)	GCT(26)	GCA(15)	MZE#6(36)	10	26	0	0
	ASP				MZE#6(36)	10	26	0	0
	ASP				玉米(％)	GAC(68)	GAT(32)
MZE#6(25)	22	3			玉米(％)	GAC(68)	GAT(32)
MZE#6(25)	22	3				GLU
玉米(％)	GAG(76)	GAA(24)				GLU
玉米(％)	GAG(76)	GAA(24)			MZE#6(29)	27	2
	GLY				MZE#6(29)	27	2
	GLY				玉米(％)	GGC(45)	GGG(21)	GGT(21)	GGA(13)
MZE#6(45)	27	0	18	0	玉米(％)	GGC(45)	GGG(21)	GGT(21)	GGA(13)

在MZE HD73#6 trnc+中，玉米密码子的优选性如下所述：

20个第一选择密码子中的19个在可能的618次中总共使用了389次，即63％次。

18个第二选择密码子中的13个在可能的618次中总共使用了136次，即22％次。

10个第三选择密码子中的5个在可能的618次中总共使用了46次，即7.5％次。

8个第四选择密码子中的6个在可能的618次中总共使用了47次，即7.5％次。

3个第五选择密码子均未使用。

3个第六选择密码子均未使用。

根据第一选玉米密码子的使用频率，MZE HD73#6 trnc+与纯粹的植物优化核苷酸序列具有63％同源性。玉米优化的Bt ICP基因的合成

根据Mullis的美国专利4,683,202和Mullis等的美国专利4,683,195所述，在一系列聚合酶链反应(PCR)中通过逐步添加重迭寡核苷酸合成了一段对应于MzeHD73#6 trnc+的核苷酸序列。该方法利用PCR扩增中间合成产物，然后扩增多处被修饰的大片段DNA，然后再克隆。每一循环扩增后，纯化中间产物，退火结合下一循环的重迭引物，然后扩增。由此可以合成完整的基因而不需要退火、连接、转化和选择中间反应产物以及其它方法所必须的步骤。

PCR扩增所用的Taq聚合酶不具有3’-5’外切酶活性，所以不能“校正”新生序列去除错误引入的核苷酸。在一定的条件下(退火温度55℃，脱氧核苷酸浓度200μM)，经计算，聚合酶引入错误核苷酸的频率为5×10^-6(Gelfland等人，PCR方法(PCR Protocols)，(1989)，Academic Press，Inc.，San Diego，CA)。一段序列中出错的机率随扩增循环数的增加而增加，所以大片段基因最好分成中等大小(500至700核苷酸)的几部分合成，然后通过PCR扩增来缝合，或通过常规的末端连接来结合。这样做还可以对不同的部分进行修饰或置换，而不影响整段基因序列。

本发明设计Bt ICP基因的内容之一是在序列中引入了几个单一的限制性酶识别位点以结合分别合成的各部分(SEQ ID NO.1)。此外，在SEQ ID NO.1所示序列的5’末端加两个C残基形成一个NcoI位点，并在基因的3’末端(编码区的下游)加上一个BamHI位点，从而使得完整的ICP基因能够插入某些载体的NcoI和BamHI位点(或其它与BamHI相容的位点)之间。1854核苷酸的ICP序列被分成大致相等的三段。每一段都被设计成在合成后两端各具有一个单一的限制性位点。这些位点被用于将各片段连接成编码617氨基酸的毗连序列。5’的那段被设计成两端具有单一的5’NcoI和3’XhoI位点，中段两端具有单一的5’XhoI和3’KpnI位点，3’的那段两端具有单一的5’KpnI和3’BamHI位点(参见图1A)。

本发明的另一方面内容为用12段重迭的61至68碱基长的寡核苷酸经6步PCR合成653碱基对(bp)的最靠5’的ICP基因片段。所有寡核苷酸都被设计成在下一步PCR中产生18至20碱基的重迭。如图1B所示，每一次按“由内向外”合成片段。合成的第1步始于寡核苷酸Bt1和Bt2的退火。退火形成的分子中只有上述两者的中部重迭部分是双链的。分子的其余部分通过利用Taq聚合酶经30轮扩增进行的延伸而成为双链。在第二步中，将该双链分子变性，然后与寡核苷酸Bt3和Bt4退火结合并再扩增。在第三步中，将该双链分子(对应于Bt3、Bt1、Bt2和Bt4的序列)变性，然后与寡核苷酸Bt5和Bt6退火结合并扩增。重复该过程，直至将序列延伸成对应于Bt基因5’段完整序列的一段653bp的双链分子(参见图1B)。同样，用10段重迭的75至83碱基长的寡核苷酸经5步PCR合成584碱基对(bp)的中间片段，用12段重迭的59至84碱基长的寡核苷酸经6步PCR合成657碱基对(bp)的最靠3’的ICP基因片段。合成之后，通过序列分析来证实克隆在pBlueScript载体(“pBS”，Stratagene，La Jolla，CA)中的各基因片段。视需要，利用PCR诱变法进行校正。在将各片段连接成完整基因前需对校正重新测序。

Bt ICP基因由总共34段长59至86核苷酸的寡核苷酸构建而成。表15列出了全部34段寡核苷酸的序列。

表15用于合成Bt ICP基因的寡核苷酸^a

名称(SEQ IDNO.)	片段	序列	位置	大小
名称(SEQ IDNO.)	片段	序列	位置	大小	Bt 1(9)	5’末端	CGA GCA GCT CAT CAA CCA ACG CAT TGA GGAGTT CGC TCG CAA CCA AGC CAT CTC CAG GCTTGA GGG CTT GAG CAA CCT GTA	240-330	81
Bt 2(10)	5’末端	CAA GGC TAG GTT GGT TAG GTC AGC CTC CCACTC CCT GAA GCT CTC AGC GTA GAT TTG GTACAG GTT GCT CAA GCC CTC	rc 301-378	78	Bt 1(9)	5’末端		240-330	81
Bt 2(10)	5’末端		rc 301-378	78	Bt 3(11)	5’末端	CTT CGG CCC AAG CCA ATG GGA CGC TTT CCTTGT GCA AAT CGA GCA GCT CAT CAA CCA ACGCAT TGA GG	201-268	68

Bt 4(12)	5’末端	GGC CGT GGT CAG AGC AGA GTT CAT GTC GATGAA TTG GAT GCG CAT CTC CTC CCT CAA GGCTAG GTT GGT TAG G	rc 360-432	73
Bt 4(12)	5’末端		rc 360-432	73	Bt 5(13)	5’末端	CTG AGT TCG TGC CAG GTG CTG GCT TCG TGCTTG GTC TAG TCG ACA TCA TCT GGG GCA TCTTCG GCC CAA GCC AAT GGG	143-220	78
Bt 6(14)	5’末端	TGC ACG TAG ACG CTC AGA AGA GGC ACT TAGTAG TTC TGC ACA GCG AAC AGA GGG ATG GCCGTG GTC AGA GCA GAG TTC A	rc 410-488	79	Bt 5(13)	5’末端		143-220	78
Bt 6(14)	5’末端		rc 410-488	79	Bt 7(15)	5’末端	ACA CCC CAA TCG ACA TCT CTC TGA GCC TGACCC AAT TCC TGC TGT CTG AGT TCG TGC CAGGTG CTG GC	98-165	71
Bt 8(16)	5’末端	CGA AGC CCC AGC GTT GAC CGA ACA CAG ACACGT CCC TCA ACA CAG ACA GGT GCA AGT TAGCAG CTT GCA CGT AGA CGC TCA GAA GAG	rc 467-553	86	Bt 7(15)	5’末端		98-165	71
Bt 8(16)	5’末端		rc 467-553	86	Bt 9(17)	5’末端	GAG GTG GAG GTG CTT GGT GGT CAG CGC ATTGAG ACC GGC TAC ACC CCA ATC GAC ATC TCTC	58-118	61
Bt 10(18)	5’末端	CAG CCT GGT CAG GTC GTT GTA GCG AGA GTTGAT GGT GGC AGC ATC GAA GCC CCA GCG TTGACC G	rc 534-597	64	Bt 9(17)	5’末端		58-118	61
Bt 10(18)	5’末端		rc 534-597	64	Bt 11(19)	5’末端	CCA TAG ACA ACC CAA ACA TCA ACG AGT GCATCC CTT ACA ACT GCT TGA GCA ACC CTG AGGTAG AGG TGC TTG GTG G	2-77	79
Bt 12(20)	5’末端	CCT CTC GAG GCC CGT GTT GTA CCA GCG CACAGC GTA GTC CGT GTA GTT GCC AAT CAG CCTGGT CAG GTC GTT GTA GCG	rc 574-651	78	Bt 11(19)	5’末端		2-77	79
Bt 12(20)	5’末端		rc 574-651	78	Bt 13(21)	中段	CGC TCT CCT CAC CTG ATG GAC ATT CTT AACAGC ATC ACT ATC TAC ACG GAC GCT CAC CGCGGC TAC TAC TAC TAG	874-948	75
Bt 14(22)	中段	GAA CTC TAG GCC AGA GAA ACC AAC TAG GGAAGC CAT GAT TTG GTG GCC AGA CCA GTA GTAGTA GCC GCG GTG AGC	rc 799-925	75	Bt 13(21)	中段		874-948	75
Bt 14(22)	中段		rc 799-925	75	Bt 15(23)	中段	TTG GAG AAC TTC GAT GGC TCC TTC AGG GGCTCT GCT CAA GGC ATT GAG CGC AGC ATT CGCTCT CCT CAC CTG ATG GAC	817-894	78
Bt 16(24)	中段	GTT GAG CCA CAA TGC GCT GTT GTG GAG CAGCGT TGC CCA TCG TAC CGT ACA AAG GGA AGGTGA ACT CTG GGC CAG AGA AAC C	rc 979-1060	82	Bt 15(23)	中段		817-894	78
Bt 16(24)	中段		rc 979-1060	82	Bt 17(25)	中段	CCC GTC GCT ACC CAA TCC GCA CGG TGT CTCAGC TGA CTA GGG AGA TTT ACA CCA ACC CAGTTT TAG AGA ACT TCG ATG GCT CC	755-837	83
Bt 18(26)	中段	GTT GAA TAG GCG GCG GTA CAA GGT GCT GGAAAG GGT GCG GTA CAC ACC TTG GCC CAG TTGAGC CAC AAT GCG CTG TTG	rc 1039-1116	78	Bt 17(25)	中段		755-837	83
Bt 18(26)	中段		rc 1039-1116	78	Bt 19(27)	中段	CCG CAG GGA GCT GAC CCT GAC GGT GCT TGACAT TGT GGC TCT GTT CCC AAA CTA CGA CTCCCG TCG CTA CCC AAT CCG C	696-774	79
Bt 20(28)	中段	AAG CGA ACT CAG TGC CAT CAA GCA CAG AAAGCT GTT GGT TGT TGA TGC CAA TGT TGA ATGGGC GGC GGT ACA AGG	rc 1094-1168	75	Bt 19(27)	中段		696-774	79
Bt 20(28)	中段		rc 1094-1168	75	Bt 21(29)	中段	GGC CTC GAG AGG GTG TAG GGT CCA GAC TCCAGG GAC TAG GTG CGT TAC AAC CAA TTC CGCAGG GAG CTG ACC CTG	640-714	75

Bt 22(30)	中段	GTC CAC GGT ACC AGA CTT GCG GTA CAC AGCGCT TAG CAA GTT GCT AGA GGT GCC GTA AGCGAA CTC AGT GCC ATC AAG	rc 1147-1224	78
Bt 22(30)	中段		rc 1147-1224	78	Bt 23(31)	3’末端	GTC ATC TCG GGT CCA GGT TTC ACG GGT GGTGAC CTT GTG CGC TTG AAC AGC TCG GGT AACAAC ATC CAG AAC AGG GGT TAC	1459-1539	81
Bt 24(32)	3’末端	ACC TGA CCC TGA CCC TGT AGC GGG TGC TAGTAG ATG GGA AGT GGA TTG GCA CCT CGA TGTAAC CCC TGT TCT GGA TGT T	rc 1519-1597	79	Bt 23(31)	3’末端		1459-1539	81
Bt 24(32)	3’末端		rc 1519-1597	79	Bt 25(33)	3’末端	GCC TCT GAC AGC ATC ACT CAA ATC CCT GCTGTT AAG GGC AAC TTC CTT TTC AAC GGC TCGGTC ATC TCG GGT CCA GGT TTC	1399-1470	72
Bt 26(34)	3’末端	GTT GCT GAA GAT GGA GCT GTT GCC CCA GTTCAC GTT CAA GTG GAT TAG GGT GGT CAC AGAAGC GTA CCT GAC CCT GAC CCT GTA	rc 1579-1659	81	Bt 25(33)	3’末端		1399-1470	72
Bt 26(34)	3’末端		rc 1579-1659	81	Bt 27(35)	3’末端	ATC AGG GCC CCA ATG TTC TCC TAG ATT CACCGT TCT GCT GAG TTC AAC AAC ATC ATT GCCTCT GAC AGC ATC ACT CAA	1342-1419	78
Bt 28(36)	3’末端	CGA AGT AGC CGA AGT CCG AGG ACT GCA GGTTGT CAA GGC TAG TAG CCG TAG CTG GCA CCGTGT TGC TGA AGA TAG AGC TGT T	rc 1639-1720	82	Bt 27(35)	3’末端		1342-1419	78
Bt 28(36)	3’末端		rc 1639-1720	82	Bt 29(37)	3’末端	CAC CGC TTG AGC CAC GTT TCC ATG TTC CGTTCG GGC TTC AGC AAC AGC TCT GTG AGC ATTATC AGG GCC CCA ATG TTC	1282-1359	78
Bt 30(38)	3’末端	GCG CAC ACC CAC GAT GTT GCC AAG AGA GCTGGT GAA AGC GTT GGC CGA TTC GAA GTA GCCGAA GTC CGA	rc 1702-1770	69	Bt 29(37)	3’末端		1282-1359	78
Bt 30(38)	3’末端		rc 1702-1770	69	Bt 31(39)	3’末端	CCA CAG AAC AAC AAC GTG CCA CCT CGC CAAGGC TTC TCT CAC CGC TTG AGC CAC GTT TCC	1243-1302	60
Bt 32(40)	3’末端	GGG ATG AAT TCG AAG CGG TCG ATG ATG ACACCA GCC GTG CCA GAG AAG TTG CGC ACA CCCACG ATG TTG CC	rc 1750-1820	71	Bt 31(39)	3’末端		1243-1302	60
Bt 32(40)	3’末端		rc 1750-1820	71	Bt 33(41)	3’末端	CGC AAG TCT GGT ACC GTG GAC AGC TTG GACGAG ATC CCT CCA CAG AAC AAC AAC GTG CCA	1204-1263	60
Bt 34(42)	3’末端	CTC TAG ATC CCT ATG GTG GCT CAG CCT CCAGGG TAG CCG TCA CTG GGA TGA ATT CGA AGCGGT C	rc 1801-1854	64	Bt 33(41)	3’末端		1204-1263	60

^a以上显示了每一段寡核苷酸的名称、基因片段序列、在完整ICP基因中的位置以及长度(以碱基为单位)。以rc标记的核苷酸位置表示该寡核苷酸序列对应于基因上端(编码)链的反义互补链。

在设计寡核苷酸时需符合以下条件：i)每一段寡核苷酸至少重迭18核苷酸；ii)每一段寡核苷酸最靠近3’的碱基为G或C；iii)选择最靠近5’末端的碱基使之邻近并位于序列中某个T残基的下游，以通过在互补链的3’末端添加非模板的A残基来避免麻烦(Clark等人，核酸研究(Nucl.Acid.Res.)，16(1988)9677)；iv)尽可能避免各寡核苷酸内的大量内部碱基配对；v)尽可能避免除第一步(寡核苷酸退火)之外各步骤中使用的寡核苷酸之间的碱基配对。

大肠杆菌(E.coli)中的基因表达

为了证明合成核苷酸序列编码具有正确的大小、抗原性和对鳞翅目昆虫毒性的功能性蛋白质，在开始植物转化实验之前先在大肠杆菌中对表达进行研究。为此，将编码ICP的玉米优化的DNA序列插入T7表达质粒，并制备富含ICP基因产物的大肠杆菌提取物。SDS-PAGE和免疫印迹分析证明，基因产物具有正确的大小，并能够与抗纯化苏云金芽胞杆菌δ内毒素的抗血清发生交叉反应(图4)。在M.sexta喂养实验中可证明蛋白质的生物作用(图5)。ICP基因在被转化的玉米愈伤细胞中可产生具有正确大小的抗原活性蛋白质进一步证明了工程化及合成法的成功(图6)。用H.virescens幼虫进行的喂养生物测定证明了工程化蛋白的杀虫活性。总之，以上数据证明，玉米优化的核苷酸序列可生成具有与从自然中分离的野生型ICP相同的某些生物特征的蛋白质(如抗原性、大小、生物活性)。

制备包含合成的玉米优化的Bt ICP基因的重组DNA载体

与天然Bt结构基因相比，编码Bt ICP的玉米优化的核苷酸序列在植物内的表达水平被提高。表达玉米优化的Bt ICP核苷酸序列需要用合适的载体转化植物细胞。将玉米优化的Bt ICP核苷酸序列与植物内功能性启动子组合成功能基因，其中结构基因与启动子区各自的位置以及取向令结构基因能够在启动子区被激活的细胞内得以表达。启动子区包括但不限于细菌和植物启动子区。在本发明的其它部分，启动子选自诱导型启动子、组成型启动子、时序或发育调节启动子、组织优先和组织特异性启动子。

本发明的一重要方面，载体包括一段MSV(玉米条斑病毒)前导序列，一个35S启动子和玉米的特异性增强子例如后文实施例中所述的Adh内含子1或Adh内含子6。

为了表达启动子区、结构基因组合体，携有该组合体的DNA片段被引入细胞。包含植物启动子区的组合体被引入植物细胞，继而将这些细胞引入植株或种子。包括细菌启动子区的组合体被引入细菌，例如Bt或大肠杆菌。根据本文的说明而无需过多的试验，本领域技术人员可以看出，有时，在除细菌之外的其它微生物中进行表达可能更好。

以下实施例将进一步说明可以组合玉米优化的Bt ICP基因的重组DNA载体。

用合成的ICP基因载体转化玉米，

并用双倍增强的启动子转化所有植株

携有位于启动子调控下的玉米优化的Bt ICP基因的重组DNA分子可以通过任何一种本领域技术人员已知的方法引入植物组织。用于特定植物种类或特定类型植物组织的技术以已知的成功技术为基础。由于开发出了新的将外源基因稳定地插入植物细胞以及操作该修饰细胞的方法，技术人员可以在已知方法中进行选择以得到所需的结果。

双倍增强启动子可以被用于在玉米以及双子叶或其它单子叶植物中表达外源基因。具体地说，双子叶植物包括但不限于大豆、豌豆、油菜、棉花、向日葵、西红柿、土豆、甜菜、苜蓿、丁香和花生。单子叶植物包括但不限于玉米、小麦、高粱、燕麦、黑麦、大麦、水稻、粟、甘蔗和牧草。

除了使用来自烟草花叶病毒的双倍增强的35S或19S启动子之外，还可以利用本发明所述的技术对其它启动子加以修饰。具体地说，可以用MSV前导序列adh1、adh6或其它内含子(SEQ ID NO.43、44、45、46和47)修饰的启动子包括但不限于章鱼碱合成酶启动子、胭脂氨酸合成酶启动子和甘露氨酸合成酶启动子。

植物启动子还可以按本文所述进一步加以修饰，它们包括但不限于核酮糖-1，6-二磷酸(RUBP)羧化酶小亚基(SSU)、β-伴大豆球蛋白启动子、云扁豆蛋白启动子、ADH启动子、肌动蛋白、遍在蛋白、玉米醇溶蛋白、油质蛋白、napin、ACP、热激启动子、以及组织特异性启动子或花粉特异性、胚芽特异性、穗丝特异性、棉纤维特异性、根特异性、种子胚乳特异性启动子等。

有多种技术将外源遗传物质引入植物细胞，以及获得稳定保持并表达引入的基因的植株。这类技术包括将涂在微粒上的遗传物质直接导入细胞(Cornell的美国专利4,945,050和DowElanco的5,141,131)。可以利用农杆菌技术来转化植物，参见Toledo大学的美国专利5,177,010,Texas A&M的5,104,310,Schilperoot的欧洲专利申请0131624B1、120516、159418B1和176,112，Schilperoot的美国专利5,149,645，5,469,976，5,464,763和4,940,838和4,693,976，MaxPlanck的欧洲专利申请116718，290799，320500，日本Tobacco的欧洲专利申请604662和627752，Ciba Geigy的欧洲专利申请0267159和0292435以及美国专利5,231,019，Calgene的美国专利5,463,174和4,762,785，Agracetus的美国专利5,004,863和5,159,135。其它转化技术包括whiskers技术，参见Zeneca的美国专利5,302,523和5,464,765。也将电穿孔技术用于转化植物，参见BoyceThompson Institute的WO87/06614，Dekalb的5,472,869和5,384,253，PGS的WO9209696和WO9321335。本文引用参考了全部以上转化专利和公开文献。除了各种转化植物的技术之外，还可以改变与外源基团接触的组织的类型。这类组织包括但不限于胚胎发育组织、I型和II型愈伤组织、下胚轴、分生组织等。几乎各种植物组织都能够在分化过程中利用本领域的已知技术进行转化。

另一个可变因素是选择一个选择性标记。技术人员个人对特定的标记具有偏向性，但是可以使用任何以下选择性标记以及任何本文未述及的、具有选择性标记功能的其它基因。这类选择性标记包括但不限于转座子Tn5的氨基糖苷磷酸转移酶基因(Aph II)，该基因编码对抗菌素卡那霉素、新霉素和G418的抗性，还有那些编码对草甘膦、潮霉素、氨甲喋呤、膦丝菌素(bar)、咪唑啉酮、磺酰脲和三唑嘧啶除草剂例如chlorosulfuron、溴苯腈、茅草枯等的抗性或耐受性的基因。

除了选择性标记之外，还可以考虑使用报道基因。有时，可以不使用选择性标记而只使用报道基因。报道基因是那些在受体生物或组织中通常不存在或不表达的基因。报道基因通常编码引起表型改变或具有酶特性的蛋白质。此处参考的K.Weising等在Ann.Rev.Genetics，22，421(1988)中例举了这类基因。较好的报道基因之一是葡糖醛酸酶(GUS)基因。

结构基因在被引入植物组织之后，就可以利用各种已知技术来测试其表达，可以根据转录生成的mRNA或合成的蛋白质来测定表达。植物组织的体外培养，以及在许多情况下再生成完整植株的技术是已知的(EP公开No.88810309.0)。将引入的表达复合物传递给具有商业用途的栽培品种的技术是本领域技术人员已知的。

获得了在植物表达启动子调控下表达基因的植物细胞后，就可以利用已知技术由这些细胞再生植物组织和完整植株。然后利用常规技术繁殖再生而成的植株，通过常规的植物繁殖技术可将引入的基因传递给其它植株和栽培品种。ICP基因在玉米细胞中的表达

在玉米转化系统中、在墨西哥黑甜玉米(BMS)原生质体中、以及稳定转化的玉米愈伤组织培养物中测试了玉米优化的Bt ICP基因的功能性，以上研究显示，工程化ICP基因在玉米中表达情况良好，ICP的累积水平足以在体外喂养试验中防止虫害。

利用美国专利5,141,131中所述的氦轰击转化技术将基因引入可再生玉米培养物中，产生了表达基因的可育植株。从转基因玉米植株的种子生长而成的植株在其后代中仍表达ICP基因。

下面的实验描述了实施本发明的方法，应当理解它们是用来描述而不限制本发明权利要求确定的范围。

实验

实验1：寡核苷酸的合成

寡核苷酸的合成在Applied Biosystems Inc.的380A型或390型DNA合成仪上进行，采用0.2μm柱和FOD亚磷酰胺和标准氰乙基技术；合成以三苯甲基关闭方式进行。在380A型合成仪上合成完毕后，将每个寡核苷酸从柱上切下并在50℃下脱保护1小时，并在50℃下蒸发干燥。重新将寡核苷酸悬浮在300μl TE缓冲液中(10mM Tris HCl pH8.0，1mM EDTA)并测定260nm下的吸光度来确定浓度。

寡核苷酸用在12％的变性聚丙烯酰胺凝胶电泳(PAGE)来纯化。300ml的PAGE凝胶储液通过将126g尿素溶解在30ml 10X的Tris硼酸EDTA缓冲液(TBE；1X TBE是0.9M Tris-硼酸，2mM EDTA)和90ml 40％的丙烯酰胺储液中，并用水将溶液体积调节至300ml。使凝胶溶液过滤通过0.2μm滤膜。用HoefferSturdier凝胶装置将40ml的PAGE储液倒成有5孔的凝胶。在倒入前先加入350ul10％的过硫酸铵和35ul TEMED引发聚合反应。

每段寡核苷酸如下制备：将300至500μg的寡核苷酸用TE缓冲液稀释至60ul，然后加入60ul甲酰胺凝胶加样缓冲液(10ml甲酰胺，10mg二甲苯靛FF(xylene cyanol FF)，10mg溴酚蓝，200ul 0.5M EDTA pH8.0)，样品煮沸5分钟然后在冰上冷却。样品用测序吸管吸头上样于凝胶。在300伏下1×TBE中进行电泳3小时。

在电泳后，将丙烯酰胺凝胶移入SaranWrap^TM中，置于白色背景下(如X射线增感屏)，并暴露在短波UV光下。在白色背景上，DNA条带以及二甲苯靛和溴酚蓝标记是可见的阴影。

将适当大小的DNA条带从凝胶上切下并通过扩散来洗脱DNA。每块凝胶用玻璃棒软化，并在1.5ml低聚物洗脱缓冲液(100mM Tris HCl pH8.0，500mMNaCl，5mM EDTA)中在37℃、转筒中恒定搅拌下培育16小时，聚丙烯酰胺浆过滤通过含有玻璃棉塞和0.2μm滤膜的3cc注射器。洗脱的寡核苷酸在室温下Centricon 10旋转柱(排去分子量为10000D)中以3000xg离心浓缩2小时，并用如上同一管中离心的2ml TE缓冲液洗涤。最终获得纯化的寡核苷酸体积为30至40ul。测定260nm下的吸光度来测得浓度。

图2显示了寡核苷酸Bt6-Bt10的寡核苷酸合成，凝胶纯化的例子。图2也显示了用380A合成仪的两个成功的合成物(Bt9和Bt10)和用390型合成仪的两个成功的合成物(Bt6和Bt7)。

实验2：PCR扩增

所有的PCR扩增在含有20mM Tris HCl pH8.3，1.5mM MgCl₂，25mMKCl，200μM的dATP，dGTP，dCTP及dTTP和5单位的Taq聚合酶(Perkin ElmerCetus)的100ul反应液中进行。模板和PCR引物浓度根据操作而不同。在第一步PCR步骤中，用每种均为0.5μM的第一套引物(见图1)通过扩增生成每个片段的模板，步骤如下：94℃下变性1分钟，55℃下退火2分钟，72℃下伸展3分钟，重复30个周期，再在72℃下伸展7分钟。将反应产物上样于5％非变性聚丙烯酰胺凝胶上并在1×TBE中40伏下走电泳2.5小时。用平行泳道上的BRL 123bp的梯形带作为大小标准。在电泳后使凝胶在含0.5μg/ml溴化乙锭的水中染色1小时。如寡核苷酸纯化一样(上述)，将有预期大小的片段从凝胶上切下并从凝胶块上纯化获得，只是在通过玻璃棉和0.2μm滤膜后，DNA用2.5体积的乙醇，20μg糖原和0.05体积的8M LiCl沉淀浓缩。将DNA重新悬浮在40ul TE缓冲液中。每个片段合成的第二步PCR步骤是在与第一步相同的反应混合物中进行，只是用步骤1中的5μl凝胶纯化产物作为模板而寡核苷酸浓度为0.2μM。整个PCR反应液在1％琼脂糖凝胶上走电泳，切下预期大小的条带，用GeneClean Kit(Bi0101)从凝胶块上纯化获得DNA，并洗脱至最终体积为50μl TE。所有的后续反应如步骤2中所述一样进行。

每一单独PCR步骤提供了大量的有预期大小的产物。而且，在许多情况下，为预期大小两倍的条带和其它较小的条带是可见的。所有的适当大小的DNA产物进行凝胶纯化，且凝胶上电泳，如图3所示。该图明显可证明在连续的PCR步骤中DNA序列逐步增加。每条泳道内二聚体大小的条带是由于电泳引起的假象，因为当重新在凝胶上电泳时，从单体大小的条带纯化获得的DNA也给出了这样二聚体大小的条带。每个基因片段的最终产物用识别每个片段末端的限制性位点(见图1A)的酶消化并连接到由该酶产生的pBS DNA切口上。将连接后的产物转化入感受态大肠杆菌DH5α细胞内，并鉴定含有合适片段的pBS质粒的分离物。测定这些质粒的ICP基因部分的DNA序列，发现有五个核苷酸与Mze HD73#6trnc+序列不同。这些变化是：1)5′片段的核苷酸639处的保守性碱基改变(G变为T)。(ATG起始密码子的A定为碱基#1)；2)中间片段的核苷酸1038处的保守性碱基改变(A变为G)；3)中间片段核苷酸657-658的两个核苷酸G缺失，从而造成编码多肽内的移码；4)中间片段核苷酸877处的碱基改变(T变为C)，从而使丝氨酸变为脯氨酸；和5)3′片段核苷酸1401处的一个C核苷酸缺失，也引起移码。后三个错误将导致广泛的移码和氨基酸改变，它们可通过PCR诱变来校正(见下面实验3所述)。在PCR校正后，对中间和3′片段消化并克隆入pBS中，对得到的质粒的插入片段进行测序以确认在校正过程中没有引起其它改变。除已存在的5′和中间片段的保守性碱基改变(没有校正)外，序列与设计的ICP(Mze HD73#6trnc+)的序列(SEQ.ID.NO.1)相同。

实验3：ICP基因片段的校正

所有的DNA操作和大肠杆菌转化用标准的步骤来进行(Sambrook等人，分子克隆实验手册(Molecular Cloning：A Laboratroy Manual)，(1989)第二版，ColdSpring Harbor Press，Cold Spring Harbor，NY；Ausubel等人，现代分子生物学操作(Current Protocols in Molecular Biology)，(1987)John Wiley和Sons，New York，NY)。在将三个ICP基因片段克隆入pBluescript后，用Sequenase Kit(USBiochemical，Cleveland，OH)及用以修饰过的ICP序列为基的测序引物或用上述的PCR合成引物来测序。

用PCR诱变来校正ICP基因片段中的错误。对于每个校正要建立两个PCR反应物。一个PCR反应物用5′末端寡核苷酸和校正错误寡核苷酸来扩增片段的5′半部分。另一个PCR反应物用互补的错误校正寡核苷酸和3′末端寡核苷酸来扩增片段的3′部分。凝胶纯化5′和3′校正的片段，并在第二步PCR反应中用5′末端和3′末端寡核苷酸作为引物扩增来连接在一起。错误校正中所用的寡核苷酸如上所述合成并凝胶纯化。PCR反应条件如上所述，只是退火在50℃下进行并采用了25个循环。用从Bi0101获得的GeneClean Kit凝胶纯化片段。

实验4：大肠杆菌表达

对于大肠杆菌表达，将ICP的1862碱基对NcoI BamHI DNA片段插入胞质表达载体pET-9d(Novagen，Madison，WI.)的NcoI和BamHI位点。1微克质粒转化入0.2ml大肠杆菌菌株BL21(从Novagen，Madison，WI.购得)的感受态细胞中，细胞置于含有25μg/ml卡那霉素(对质粒pET-9d)的LB平板中。在37℃下过夜培育后，将菌落从平板上刮下并重新悬浮在10ml含有适当抗生素和1mM异丙基-β-D-硫半乳糖苷(IPTG)的LB肉汤中。在37℃下充分振荡使细胞表达蛋白质3小时，然后在4℃、1000xg下离心10分钟收获。

对于pET-9d构建物的表达，如下制备可溶的凝聚蛋白质组分。将细胞沉淀冻融2次以使细胞裂解，将裂解物重新悬浮在1ml裂解缓冲液中(10mM Tris HClpH8.0，1mM EDTA，150mM NaCl，0.1％Triton X100，100g/ml DNasel，100μg/ml RNaseH，1mg/ml溶菌酶)并在37℃下培育至不再粘稠。4℃下离心10分钟，从凝聚的变性蛋白质中分离出可溶蛋白。将不溶的沉淀重新悬浮在约300μl上述裂解缓冲液中。组分的最终体积为0.5ml。

含有胞质表达载体的大肠杆菌细胞的抽提物沉淀组分中有大量分子量为69kD的蛋白质。这种蛋白质与抗血清(抗从苏云金芽胞杆菌Cry1A(c)培养物纯化得到的天然δ-内毒素而产生的)交叉反应；图4显示了典型的蛋白质凝胶免疫印迹结果。大肠杆菌(泳道1)和从含有胞质表达载体的细胞抽提物制得的沉淀组分(泳道2和3)含有交叉反应的蛋白质。而在相同量的从含有胞质表达载体的细胞制得的蛋白质抽提物沉淀(泳道4)中没有发现有交叉反应蛋白质。

大肠杆菌中产生的抗ICP交叉反应蛋白质的大小与由ICP基因序列指出的68kD非常接近。与修饰过的ICP基因产物(泳道5、6和7)相比，天然ICP较小(为66kD)。在苏云金芽胞杆菌中，毒素以130kD的前毒素产生。在被鳞翅目昆虫消化时，前毒素经蛋白水解断裂增溶并活化。该水解产生一种根据苏云金芽胞杆菌菌株为60-70kD的活性毒素。在所有的Cry1 ICP中，蛋白水解加工在前毒素中间发生，并从C端区域分离出毒素。加工也发生在N端28精氨酸和29异亮氨酸间，这可能是由于丝氨酸型蛋白酶引起的。对胰蛋白酶活化的前毒素Cry1A(b)和Cry1C的氨基末端蛋白质测序确定29处的异亮氨酸为N末端。(Hofte等人，Microbiological Rev.，53(1989)242)。由于Mze HD73#6 trnc+基因包括这个推定的丝氨酸蛋白酶位点，因此大肠杆菌抽提物中该位点被丝氨酸蛋白酶活性断裂可除去N末端28个氨基酸。结果产生比基因序列预期的基因产物小3kD的产物。有这样大小的蛋白质是不明显的条带(在约66kD处)(与天然ICP毒素共迁移)。抽提得到的蛋白质是不定量的，因为蛋白质本身是不溶的，且与细胞碎片凝聚。

实验5：大肠杆菌表达的蛋白质浓度

蛋白质浓度用BioRad蛋白质测定法测定。蛋白质在12.5％十二烷基硫酸钠聚丙烯酰胺凝胶(SDS-PAGE)上分析，凝胶根据生产商建议制备在Hoeffer MightySmall微胶装置或Daiichi微胶装置中。蛋白质染色如所述进行(Sambrook等人，分子克隆实验手册(Molecular Cloning：A Laboratroy Manual)，(1989)第二版，ColdSpring Harbor Press，Cold Spring Harbor，NY)，用ECL Western印迹和检测系统(Amersham，Arlington Heights，IL)和兔抗血清(抗苏云金芽胞杆菌HD73内毒素而产生的)通过蛋白质凝胶印迹分析(Western blotting)对ICP进行特异检测，用Hoeffer SemiDry印迹装置在0.5mA/cm²凝胶转移90分钟，将蛋白质从凝胶转移至Hybond-ECL硝基纤维素膜(Amersham)上。使膜在室温下封闭剂TBS-吐温-牛奶(TBTM：25mM Tris HCl pH7.4，136mM NaCl，2.7mM KCl，0.1％吐温20，5％脱脂干牛奶)中培育1小时。然后，膜与初级抗血清在封闭剂中以1∶500稀释比培育，然后在室温下用100ml TBS-吐温(没有牛奶)洗三次10分钟。使膜在含有次级抗血清(与辣根过氧化物酶共轭的山羊抗兔IgG，Bio-Rad实验室，Hercules，CA)的封闭剂中培育1小时，然后在室温下用100ml TBS-吐温洗三次10分钟。使过滤膜在10ml的试剂A+B(1∶1；ECL试剂盒)中培育1分钟，排出过量的液体，使膜在Hyperfilm-ECL胶片下暴露10秒至1分钟。ECL胶片用标准显影剂和定影剂来处理。ICP信号用620型可视光密度计(Bio-Rad)来扫描，其浓度通过用1-D分析软件(Bio-Rad)比较同一凝胶上的ICP标准品电泳扫描结果来测定。图4描述了ICP在大肠杆菌中的表达以及该表达物的浓度。

实验6：喂养测定

用实验4中在大肠杆菌中表达并抽提出的ICP在Manduca sexta(烟草天蛾科幼虫)中进行喂养测定。对幼虫以ICP或对照样品进行人工喂养。4天后，测定它们的体重和死亡率。

用大肠杆菌抽提物对M.sexta喂养的测定结果(图5)表明Mze HD73#6 trnc+编码的ICP对鳞翅目有毒性。大肠杆菌抽提物的沉淀组分和表达ICP的细胞均显著抑制生长并致死。然而，含ICP的大肠杆菌抽提物和细胞对Manduca幼虫的毒性比纯化的天然ICP要低。这可以解释为在大肠杆菌中产生的ICP是非常难溶的。因此由于凝聚，有效的ICP浓度可能比蛋白质浓度低得多。

实验7：植物表达质粒的构建

A.增强两倍的CaMV 35S启动子构建：

这部分描述了使植物启动子的表达增强子元件倍增的分子操作。这一倍增已被证明(Kay等人，Science 236(1987)1299)可使有标记基因的烟草植物的表达提高，而标记基因的表达就是由这一修饰过的启动子来控制的。[注意：在这部分讨论中所指的序列是从有花椰菜花叶病毒(CaMV)的Cabb S株获得的。它们可以MCASTRAS序列从Gen Bank获得，由Franck等人公开(Cell 21(1980)285)。所有的DNA序列是以常规的5′至 3′方向给出的。起始材料是如Odell等人所述的质粒pUC13/35s(-343)(Nature 313(1985)810)。该质粒包括从3′端的pUC13(Messing，Methods in Enzymology 101(1983)20)的SmaI位点开始，在与pUC13的lacZ基因非编码链相邻的链读取，即CaMV的核苷酸6495至6972，然后是接头序列CATCGATG(其编码ClaI识别位点)，然后是CaMV核苷酸7089至7443，再是接头序列CAAGCTTG，后一序列包括Hind III的识别位点，然后是剩余的pUC13质粒DNA。

1.pUC13/35s(-343)DNA用ClaI和NcoI消化，用琼脂糖凝胶电泳将3429个碱基对(bp)的大片段与66bp的小片段分离，然后用标准方法纯化。

2.pUC13/35s(-343)DNA用ClaI消化，粘性末端用T4 DNA聚合酶修平。将平头DNA与有序列CCCATGGG(包括NcoI识别位点)的合成的寡核苷酸接头连接。使连接反应转化入感受态大肠杆菌细胞中，并鉴定含有原先ClaI位点处有NcoI位点的质粒(名称为p00#1)的转化体。p00#1的DNA用NocI消化，并重新连接大片段的相容末端，使p00#1减少70bp，产生中间质粒p00#1 NcoΔ。

3.p00#1 NcoΔ用EcoRV消化，平头与有CATCGATG序列的ClaI接头连接。鉴定含有原先EcoRV位点处有新的ClaI位点的质粒的转化体，质粒命名为p00#1 NcoΔ RV＞Cla。

4.p00#1 NcoΔ RV＞Cla DNA用ClaI和NcoI消化，小片段(268bp)用琼脂糖凝胶纯化。该片段然后与步骤1制备的pUC13/35S(-343)的3429bp ClaI/NcoI片段连接，鉴定含有有ClaI/NcoI片段3429和268bp的质粒的转化体。该质粒命名为pUC13/35S En.

5.pUC13/35S En DNA用NcoI消化，用T4 DNA聚合酶将突出末端修平。处理后的DNA用SmaI酶切，并与有CAGATCTG序列的BglII接头连接。鉴别含有416bp SmaI/NcoI片段被至少两个拷贝的BglII接头替代的质粒的大肠杆菌转化体，并命名为p35S En²。[注意：这些BglII接头的随机化除BglII识别位点外，还将产生PstI识别位点CTGCAG]。

p35S En²的DNA结构如下：从与pUC13的lacZ基因的非编码链相邻的链上SmaI位点的第三个C残基后的核苷酸起始；接头序列CAGATCTGCAGATCTGCATGGGCGATG(SEQ.ID.NO.48)，其后是CaMV核苷酸7090至7344，其后是ClaI接头序列CATCGATG，其后是CaMV核苷酸7089至7443，然后是HindIII接头序列CAAGCTT，其后是剩余的pUC13序列。该结构的特征是在病毒基因组(核苷酸7090至7344)的EcoRV位点的上游区域的CaMV 35S启动子的增强子序列被倍增。该启动子构建物含有天然35S转录起始位点，其位于HindIII位点的第一个A残基的上游11个核苷酸处。

实验7B

用35S启动子和农杆菌NOS PolyA序列的质粒：第一个构建物的起始材料是质粒pBI221(从CLONTECH(Palo Alto，CA)购得)。该质粒含有CaMV 35S启动子稍稍修饰过的拷贝，如Bevan等人(1985)，Baulcombe等人(1986)，Jefferson等人(1986，1987)和Jefferson(1987)所述的。序列从pUC19(Yanisch-Perron等人，1985)的PstI位点的3′端开始，在与编码pUC19的lacZ基因的相同链上读取，序列包括接头核苷酸GTCCCC，其后是CaMV核苷酸6605至7439(如实验7A所述)，其后是接头序列GGGGACTCTAGA GGATCCCCGGGTGGTC AGTCCCTT(SEQ.ID.NO.49)，其中有下划线的碱基表示BamHI识别位点。这些碱基后是1809bp碱基，其含有可编码β-葡糖醛酸酶(GUS)蛋白质的大肠杆菌uidA基因的编码序列和55bp的从大肠杆菌基因组衍生的3′侧翼序列(jefferson，1986)，其后是SacI接头序列GAGCTC，其后是接头序列GAATTTCCCC(SEQ.ID.NO.50)。这些碱基后面是RNA转录终止/聚腺苷酸化信号序列(从根癌农杆菌胭脂碱合成酶(NOS)基因获得)，它包括与Depicker等人(1982)的核苷酸1298至1554相应的256bp Sau3AI片段，其后是两个C残基，Eco RI识别序列GAATTC以及剩余的pUC19。

1.pBI221 DNA用EooRI和BamHI消化，从琼脂糖凝胶上纯化获得3507bp的片段。pRAJ275(CLONTECH，Jefferson，1987)DNA用EcoRI和SalI消化，从琼脂糖凝胶纯化获得1862bp的片段。混合这两个片段，并加入互补的合成的有序列GATCCGATCCG(SEQ.ID.NO.51)和TCGACGGATCCG(SEQ.ID.NO.52)的寡核苷酸。[这些寡核苷酸有与BamHI和SalI产生的突出末端在退火时相容的突出的单链末端。]连接片段，并用限制性酶分析鉴别转化有合适DNA结构的质粒的大肠杆菌转化体。该质粒的DNA命名为pKA881，并用BalI和EcoRI消化，从琼脂糖凝胶上分离获得4148bp片段。同样对DNA pBI221进行消化，凝胶纯化获得1517bp的EcoRI/BalI片段并与上述pKA881片段连接，生成质粒pKA882。

2.pKA882 DNA用SacI消化，突出末端用T4 DNA聚合酶处理修平，片段与合成的有序列CGGATCCG的BamHI接头连接。鉴别转化有BamHI 3784和1885bp片段的质粒的大肠杆菌转化体，并命名为pKA882B。

3.pKA882B DNA用BamHI消化，连接片段混合物。鉴别转化有在用BamHI消化时产生单个3783bp片段的质粒的转化体，并命名为p35S/NOS。该质粒有pBI221的基本DNA结构，只是GUS基因的编码序列缺失。因此，CaMV核苷酸6605至7439后是接头序列GGGGAC TCTAGAGGATCCCGAATTTCCCC(SEQ.ID.NO.53)，其中单下划线的碱基表示XbaI位点，双下划线碱基表示BamHI位点。接头序列后是NOS聚腺苷酸序列和剩余的pBI221。

4.p35S/NOS DNA用EcoRV和PstI消化，纯化获得3037bp片段，并与用EcoRV和PstI消化p35S En² DNA获得的534bp片段连接。鉴别转化有可在EcoRI和PstI消化时产生3031bp和534bp片段的质粒的转化体，质粒命名为p35SEn²/NOS。该质粒含倍增的实验7A步骤5中的p35S En²所述的35S启动子增强子区，该启动子序列可通过包括单一的XbaI和BamHI位点的接头序列来从NOS聚腺苷酸序列中分离出来。

实验7C

合成的非翻译前导序列的构建

该实验描述用来构建DNA片段的分子操作，该片段包括玉米条斑病毒(MSV)基因组的主要右向转录物的5′非翻译前导部分序列。MSV基因组序列由Mullineaux等人(1984)，和Howell(1984)公开，转录物由Fenoll等人(1988)描述。整个序列含有154bp，通过合成的寡核苷酸组合模块以三步(A、B和C)构建成。

1.A模块：合成有 GATCCAGCTGAAGGCTCGACAAGGCAGATCCACGGAGGAGCTGATATTTGGTGGACA序列(SEQ.ID.NO.54)和AGCTTGTCCACCAAATATCAGCTCCTCCGTGGATCTGCCTTGTCCAGCCTTCAGCTG序列(SEQ.ID.NO.55)的互补性寡核苷酸并用标准步骤纯化。使这些核苷酸退火成双链结构而只留下4个碱基的单链突出末端(后称“粘性末端”)，其与在分子一端用BamHI(GATC)，在另一端用HindIII(AGCT)产生单链末端的分子相容。该退火的分子用BamHI和HindIII消化，并与质粒pBluescript SK(-)[后称pBSK；Stratagene Cloning Systems，La Jolla，CA]连接。这些寡核苷酸的序列是当与相应的BamHI和HindIII粘性末端连接时，序列的各自识别位点仍然保留。用限制酶分析鉴别转化有含有寡核苷酸序列的质粒的大肠杆菌转化体，质粒命名为pMSVA。

2.B模块：合成有AGCTGTGGATAGGAGCAACCCTATCCCTAATATACCAGCACCACCAAGTCAGGGCAAT CCCGGG序列(SEQ.ID.NO.56)和TCGA CCC GGGATTGCCCTGACTTGGTGGTGCTGGTATATTAGGGATAGGGTTGCTCCTATCCAC序列(SEQ.ID.NO.57)的互补寡核苷酸并用标准步骤纯化。下划线表示限制性酶SmaI和XmaI的识别位点。这些核苷酸退火形成双链结构，留下4碱基粘性末端与用HindIII在一端(AGCT)，SalI在另一端(TCGA)产生粘性末端的分子相容。这些寡核苷酸的序列是当与HindIII粘性末端连接时，识别HindIII的序列被破坏。

pMSVA的DNA用HindIII和SalI消化并与上述退火的寡核苷酸连接。用限制性酶谱鉴别转化有含有新的寡核苷酸的质粒的大肠杆菌转化体，并命名为pMSVAB。

3.C模块：合成有CCGGGCCATTTGTTCCAGGCACGGGATAAGCATTCAGCCATGGGATATCAAGCTTGGATCCC序列(SEQ.ID.NO.58)和TCGAG GGATCC AAGCTTGATATCCCATGGCTGAATGCTTATCCCGTGCCTGGAACAAATGGC序列(SEQ.ID.NO.59)的互补寡核苷酸并用标准步骤纯化。寡核苷酸内含有的碱基包括NcoI(CCATGG)、EcoRV(GATATC)、HindIII(AAGCTT)和BamHI(GGATCC)的识别位点(下划线)。将这些核苷酸退火成双链结构，留下4碱基的粘性末端与那些在分子一端用XmaI(CCGG)，另一端用XhoI(TCGA)产生的粘性末端的分子相容。将该退火分子与用XmaI和XhoI消化过的pMSVAB DNA连接。用限制性酶分析鉴定转化有含有寡核苷酸序列的质粒的转化体，并通过序列分析确定DNA结构。质粒命名为pMSV CPL；其含有先后次序为ABC的A、B和C模块。它总共含有MSV外壳蛋白(“CP”)基因的5′端非翻译前导序列(“L”)。这些与Mullineaux等人(1984)的MSV序列的167至186、和188至317的核苷酸对应，在BamHI接头序列GGATCCAG的5′端和接头序列GATATCAAGCTTGGATCCC(SEQ.ID.NO.60)的侧翼。[注意：对应于野生型MSV序列的187碱基的A残基在克隆时无意间缺失。]

4.BglII位点插入：pMSV CPL DNA在相对于MSV基因组序列的277碱基的SmaI位点处消化，使DNA与有序列CAGATCTG的BglII接头连接。鉴别转化有在原先SmaI位点有唯一BglII位点的质粒的大肠杆菌转化体，并通过DNA测序检验，质粒命名为pCPL-Bgl。

实验7D

缺失型玉米醇脱氢酶1(Adh1)内含子1的构建

起始材料是质粒pVW119，它从V.Walbot(Stanford University，Stanford，CA)获得。该质粒含有玉米Adh1.S基因，它包括核苷酸119至672(Dennis等人(1984)的计数)的内含子1，该质粒如Callis等人(1987)所描述的。在pVW119中，在Dennis等人(1984)的碱基672后的序列是GAC GGATCC，其中下划线表示BamHI识别位点。整个内含子1的序列和14个碱基的外显子1和9个碱基的外显子2可从该质粒的556bp片段中用BclI和BamHI消化来获得。

1.质粒pSG3525a(Pst)DNA用BarnHI和BclI消化，从琼脂糖凝胶上纯化获得3430bp的片段。[注意：质粒pSG3525a(Pst)的结构并不与这一系列构建的最终结果直接相关。它是用不相关的一系列步骤构建成，选择它是因为它含有BclI和BamHI的限制性识别位点，且没有HindIII和StuI位点。该领域技术人员将理解在这一步骤中可用其它质粒来代替而有相同的结果。]质粒pVW119的DNA用BamHI和BclI消化，并将凝胶纯化的546bp与3430bp片段连接。鉴别转化有在用BamHI和BclI消化时可产生3430和546bp片段的质粒的大肠杆菌转化体。该质粒命名为pSG AdhA1。

pSG AdhA1的DNA用HindIII(它将Dennis等人(1984)的序列的碱基209和210间酶切)和StuI(在碱基554和555间酶切)消化。用T4DNA聚合酶处理修平末端，然后连接。鉴别转化有缺少HindIII和StuI位点的质粒的大肠杆菌转化体，并通过测序来检验DNA结构。质粒命名为pSG AdhA1Δ。在该构建物中，内含子1中的344bp缺失。这些碱基的缺失并不影响这个内含子的剪接。在用BclI和BamHI消化后可在213bp的片段上获得功能性的内含子序列。

3.质粒pCPL-Bgl(实验7C步骤4)的DNA用BglII消化，将线性化DNA与213bp BclI/BamHI片段(含有来自pSG AdhA1Δ的Adh1.S缺失型内含子序列)连接。[注意：通过BglII、BclI和BamHI消化DNA产生的粘性末端是相容的，但BamHI或BclI粘性末端与BglII产生的粘性末端的连接产生了一种不被这三种酶裂解的序列。]用限制性酶位点图谱鉴别转化有质粒的大肠杆菌转化体，该质粒含有连接入BglII位点的内含子序列，其位置使得BglII/BclI接合处离MSVCPL前导序列的5′末端最近，而BglII/BamHI接合处离CPL3′末端最近。这种取向通过DNA测序来确定。质粒命名为pCPL A1I1Δ。MSV前导区/内含子序列可通过对该质粒用BamHI和NcoI消化纯化来获得373bp的片段。

实施例7E

根据增强的35S启动子、MSV CPL和Adh1缺失型内含子1来构建植物表达载体

1.质粒p35S En²/NOS的DNA用BamHI消化，将3562bp线性片段与从pMSVCPL DNA用BmHI消化制得的171bp片段连接。该片段含有实验7C所述的整个MSV CPL序列。用限制性酶位点图谱鉴别转化有含有这些序列(NcoI位点位于NOS Poly A序列附近)的质粒的大肠杆菌转化体。该质粒命名为p35S En²CPL/NOS。它含有直接与MSV前导序列相邻的增强型35S启动子，使得获得的转录物将MSV序列包括在5′非翻译部分中。

2.质粒pKA882(见实验7B步骤1)的DNA用HindIII和NcoI消化，将4778bp的大片段与来自p35S En² CPL/NOS的含有增强的35S启动子序列和MSV前导序列的802bp HindIII/NcoI片段连接。鉴别转化有在HindIII和NcoI消化后含有4778和802bp片段的质粒的大肠杆菌转化体，命名为pDAB310。在该质粒中，增强的35S启动子用于控制GUS基因的表达。转录物的5′非翻译前导部分含有MSV外壳蛋白基因的前导序列。

3.质粒pDAB310的DNA用NcoI和SacI消化。从琼脂糖凝胶纯化获得3717bp的大片段，并与有序列CGGTACCTCGAGTTAAC(SEQ.ID.NO.61)和CATGGTTAACTCGAGGTACCGAGCT(SEQ.ID.NO.62)的互补合成寡核苷酸连接。当这些寡核苷酸退火形成双链结构时，产生的分子有与用SacI在分子一端、用NcoI在分子的另一端留下的末端相容的粘性末端。除了还原这两个酶的识别位点序列外，还产生酶KpnI(GGTACC)，XhoI(CTCGAG)和HpaI(GTTAAC)的新的位点。鉴别转化有含有这些位点的质粒的大肠杆菌转化体，并通过测序来检验DNA结构。质粒命名为pDAB1148。

4.将质粒pDAB1148的DNA用BamHI和NcoI消化，从琼脂糖凝胶纯化获得3577bp的大片段，并与用BamHI和NcoI从pCPL A1I1Δ(实验7D步骤3)纯化获得的373bp片段连接。鉴别转化有含BamHI和NcoI的质粒的大肠杆菌转化体，质粒命名为pDAB303。该质粒有下列结构：从pUC19的PstI位点的最后G残基后的碱基(碱基435)开始，在与lacZ基因的编码链相邻的链上读取，接头序列ATCTGCATGGGTG(SEQ.ID.NO.63)、CaMV DNA的核苷酸7093至7344、接头序列CATCGATG、CaMV的核苷酸7093至7439、接头序列GGGGACTCTAGAGGATCCAG(SEQ.ID.NO.64)，MSV的核苷酸167至186、MSV的核苷酸188至277、C残基、其后是Adh1.S的核苷酸119至209、玉米Adh1.S的核苷酸555至672，接头序列GACGGATCTG、MSV的核苷酸278至317、含有HpaI、XhoI、KpnI和SacI的识别位点的多接头序列GTTAACTCGAGGTACCGAGCTCGAATTTCCCC(SEQ.ID.NO.65)、NOS的核苷酸1298至1554、一个G残基以及其后的剩余的pUC19序列(包括EcoRI位点)。值得注意的是MSV核苷酸317和多接头序列的接合处产生了NcoI识别位点。

5.质粒pDAB303的DNA用NcoI和SacI消化，将3939bp的片段与从同样方式消化的pKA882的DNA制得的含有GU编码区的1866bp片段连接。用限制性酶位点图谱鉴别合适的质粒，并命名为pDAB305。该质粒有pDAB303的增强启动子、MSV前导部分和Adh1内含子来控制GUS基因的表达。

6.质粒pKA882 DNA用XbaI和NcoI消化，将5687bp的片段与含有序列CTAGAGGATC(SEQ.ID.NO.66)和CATGGATCCT(SEQ.ID.NO.67)的退火后合成的寡核苷酸连接。这些寡核苷酸在退火形成双链结构时有与XbaI和NcoI相容的粘性末端。用限制性酶图谱鉴别缺失SalI位点的重组型质粒，通过DNA测序来检验，并命名为pDAB349。

7.质粒p35S En²/NOS的DNA用XbaI和EcoRI消化，大片段(3287bp)与来自相同方式消化的pDAB349的含有GUS编码区和NOS聚腺苷酸区连接。用限制性位点图谱鉴别有合适结构的质粒，并命名为pDAB313。

8.质粒pDAB313的DNA用XbaI和SacI消化，3558bp的大片段与从pKA882的DNA同样方式酶切制得的1889bp片段连接。用限制性位点图谱鉴别有合适结构的质粒，并命名为pDAB348。

9.pDAB348的DNA用BamHI消化，大片段(5437bp)与含有来自pSGAdhA1Δ(实验7D步骤2)的Adh1.S缺失型内含子1的213bp BclI/BamHI片段连接。用限制性位点图谱鉴别有合适结构的质粒，并命名为pDAB353。

实验7F

起始材料为质粒pIC35。该质粒含有来自pUC13 35S(-343)(见本实验的C部分)的845bp SmaI/HindIII片段，该片段连接入pIC19R(Marsh等人，Gene，32(1984)481)的NruI和HindIII位点，其取向使得仍保留HindIII识别位点。根癌农杆菌ORF25/26序列是质粒pIC1925。该质粒含有713bp HincII片段，片段包括根癌农杆菌pTi15955 T-DNA的核苷酸21728至22440(Barker等人，PlantMolec.Biol.2(1983)335)，连接入pIC19H的SmaI位点(Marsh等人，Gene，32(1984)481)，其取向使得pIC19H的BamHI与T-DNA片段的ORF 25末端相邻。

1.pIC19R35/A：质粒pIC35的DNA用BamHI消化，并与用BamHI和BglII消化pIC1925 DNA制得的738bp的片段连接。鉴别转化有其中BamHI位点在35S启动子片段和ORF25/26 Poly A片段间的质粒的大肠杆菌转化体。该质粒命名为pIC 19R35/A。(注意：BamHI和BglII产生的相容粘性末端的连接产生了不被其任一种酶识别的位点。

2.pIC35/A：pIC19R35/A的DNA用SmaI在其独特的位点处消化，DNA与有CAGATCTG序列的BglII接头连接。[注意：这些BglII接头的随机化(tandomization)除产生BglII识别位点外，还将产生PstI识别位点CTGCAG。]鉴别在原先SmaI位点处有至少两种接头(因此是新的BglII和PstI位点)的大肠杆菌转化体。该质粒命名为pIC35/A。

3.pIC 20RΔ：质粒pIC 20R的DNA(Marsh等人，Gene，32(1984)481)用NruI和SmaI消化，使大片段的平头相互连接。鉴别转化有缺少NruI、SmaI、HindIII、SphI、PstI、SalI、XbaI和BamHI位点的质粒大肠杆菌转化体。该质粒命名为pIC 20RΔ。

4.pSG Bgl 3525(Pst)：pIC 20RΔ的DNA用BglII消化，并与pIC35/A的1625bp BglII片段连接。鉴别转化有含35S启动子/ORF 25 Poly A序列的质粒的大肠杆菌转化体。限制性酶切位点图谱揭示这些序列的取向使得在ORF 25 Poly A序列的3′端有唯一的KpnI和XhoI位点。该质粒命名为pSG Bgl 3525(Pst)。

5.pSG 3525 a(Pst)：pSG Bgl 3525(Pst)的DNA用BglII在只使分子的两个BglII位点断裂的条件下消化。使4301bp线性片段与有序列GATCG TGATCAC(SEQ.ID.NO.68)的合成衔接头寡核苷酸连接，其中有下划线的碱基表示BclI识别序列。鉴别在35S启动子5′端原先BglII位点处有BclI位点的大肠杆菌转化体。该质粒命名为pSG 3525 a(Pst)。

6.pDAB 218：质粒pIJ4104(见实验8)的DNA用SmaI消化，从琼脂糖凝胶纯化获得569bp片段。质粒pSG 3525(Pst)的DNA(见上面)通过35S启动子和ORF25 Poly A序列间的唯一的HincII位点处的酶切消化来线性化，线性片段与569bpbar基因片段连接。用限制性酶切位点图谱鉴别转化有含bar基因(其取向使得BglII消化产生的片段为4118和764bp)的质粒的大肠杆菌转化体。该质粒命名为pDAB 218。

7.pDAB 219：质粒pDAB 218的DNA用BclI消化，线性的4882bp片段与从pKA882-2×Bg的DNA(见下面步骤10)制得的3133bp BglII片段连接。后一个片段含有GUS编码区，其在35S启动子的转录控制下，有NOs Poly A转录终止信号。鉴别含有GUS和PAT编码区的大肠杆菌转化体，限制性酶切识别位点图谱揭示两个编码区由同一DNA链编码。该质粒命名为pDAB 219。

8.用质粒pDAB 219的DNA作为聚合酶链反应(PCR，(Saiki等人，Science，239(1988)487))的模板，用合成的寡核苷酸：i)CTCGAGATCTAGATATCGATGAATTCCC(SEQ.ID.NO.69)和ii)TAT GGATCCTGTGATAACC G ACATATGCCCCGGTTTCGTTG(SEQ.ID.NO.70)作为引物。引物i)表示pDAB219的核苷酸419至446，其包括的碱基对应于XhoI(CTCGAG)、BglII(AGATCT)、XbaI(TCTAGA)、Eco RV(GATATC)、ClaI(ATCGAT)和EcoRI(GAATTC)的识别位点。引物ii)中单下划线的碱基表示BamHI的识别序列，双下划线的碱基表示pDAB 219的核苷酸1138至1159，其对应于OFR 25 Poly A片段的核苷酸21728至21749(见上文)。PCR扩增产生760bp的产物。

9.pKA882-Bg：pKA882的DNA用PstI消化，线性的片段与有CAGATCTGTGCA序列(SEQ.ID.NO.71)的合成衔接头连接(注意：在退火时该分子形成有与PstI产生的分子相容的粘性末端的双链分子。该分子与PstI消化的DNA的连接使得序列不能再被PstI断裂，并引入了新的BglII位点。)。鉴别转化有不被PstI断裂且有唯一的BglII位点的质粒的大肠杆菌转化体。该质粒命名为pKA882-Bg.

10.pKA882-2×Bg：pKA882-Bg的DNA用EcoRI消化，线性的片段与有序列AATTGAGATCTC(SEQ.ID.NO.72)的合成衔接头连接。该分子退火后与EcoRI消化的DNA连接，形成不能再被EcoRI断裂的序列并引入新的BglII位点。鉴别转化有不被EcoRI断裂并生产3027和2658bp的BglII片段的质粒的大肠杆菌转化体。该质粒命名为pKA882-2×Bg。

11.pDAB 305 Bg：质粒pDAB305用EcoRI完全消化，线性DNA与有序列AATTGAGATCTC(SEQ.ID.NO.73)的激酶化的自身互补的寡核苷酸衔接头连接。该衔接头与EcoRI产生的突出端的连接重新使质粒DNA环化，引入了新的BglII识别位点并破坏了原来的EcoRI识别位点。获得的质粒命名为pDAB 305Bg。

实验8：含有吸湿链霉菌(Streptomyces hygroscopicus)的bar基因的植物转化载体的构建

起始材料为质粒pIJ4104(White等人，Nucl.Acid Res.18(1990)1062)，它含有吸湿链霉菌的bar基因的编码区，是从M.J.Bibb(John Innes Institute，Norwich，英国)获得的。bar基因编码膦丝菌素乙酰转移酶(PAT)。

pDAB 219Δ：质粒pDAB 219的DNA用BglII消化，从琼脂糖凝胶上纯化获得7252bp的片段，并与实验7F步骤8用BglII和BamHI消化PCR产物产生的747bp片段连接。鉴别转化有在OFR 25 Poly A片段的3′端有唯一BglII位点的质粒的大肠杆菌转化体。用DNA测序法确证PAT编码区的3′端DNA结构。该质粒命名为pDAB 219Δ。

pDAB 219Δ的DNA序列如下：从pIC20R(Marsh等人，Gene，32(1984)481)的lacZ编码链的XbaI位点的最后一个A残基后的碱基开始，接头TCCTGATCTG TGCAGGTCCCC(SEQ.ID.NO.74)，其后是CaMV的核苷酸6605至7439，其后是接头序列GGGGA CTCTA GAGGA TCCGGATCCG TCGACC ATGGTC(SEQ.ID.NO.75)，其后是44bp的3′侧翼大肠杆菌基因组DNA的GUS编码区的剩余部分(Jefferson等人(Proc.Natl.Acad.Sci.，83(1986)8447)的核苷酸306至2152)。下划线的碱基表示GUS蛋白的起始两个氨基酸的密码子，其中第二个从原来的大肠杆菌uid A基因(Jefferson等人，(Proc.Natl.Acad.Sci.，83(1986)8447)的亮氨酸变为pRAJ275(Jefferson等人，Plant Molec.Biol，Report，5(1987)387)中的缬氨酸。这些碱基后是接头序列GGGGA ATTGGA GAGCTCGAAT TTCCCC(SEQ.ID.NO.76)，然后是NOs Poly A序列(DePicker等人，J.Molec.Appl.Genet.，1(1982)5561)的碱基1298至1554。接头序列GGGAATTGAGATCAGGATCTCGAGCTCGGG(SEQ.ID.NO.77)后是CaMV的碱基6495至6972，接头CATCGATG，CaMV的碱基7090至7443。这些碱基后是接头CAAGCTTGGCTGC AGGTC(SEQ.ID.NO.78)，然后是对应于pIJ4104(White等人，Nucl.Acids Res.18(1990)1062)的bar克隆的核苷酸20至579的碱基，接头CTGTGATAACC(SEQ.ID.NO.79)，ORF 25/26 Poly A核苷酸21728至22440(1)，接头GGGAA TTCAT CGATA TCT AG ATCTC GAGCT CGGGGTACCG AGCTC GAATTC(SEQ.ID.NO.80)和剩余的pIC20R。BglII识别位点(下划线)表示可引入其它基因的唯一位点。

为在转基因组织和植物内表达，可将Bt ICP基因亚克隆三种不同的载体。首先，为共转化携带有可选择和可筛选标记的质粒，将ICP基因克隆入质粒pDAB305Bg。ICP下游的BamHI位点通过插入BamHI/SstI衔接头来修饰成SstI位点。将携带有ICP基因的1854碱基对的NcoI-SstI片段插入，在高度倍增表达的35S启动子和胭脂氨酸合成酶(Nos)Poly A插入序列的控制下，获得质粒pDAB910(图6)。第二，为转化入MSD原生质体培养和卡那霉素选择，将增强的35S/Bt/Nos盒从pDAB910以3150碱基对的BglII片段亚克隆入pDAB199的唯一的BglII位点，其中pDAB199质粒的制备由Sukhapinda等人公开(Plant CellReports 13(1993)63)，玉米(Zea maysl)原生质体的转化和再生形成了质粒pDAB911(图7)。第三，将同一35SEn²/Bt/Nos盒亚克隆入pDAB 219Δ的唯一BglII位点，得到质粒pDAB 917(图8)，以通过轰击II型愈伤组织和Basta^TM选择来转化。

实验9：编码萤火虫萤光素酶的参考基因的构建

比较产生GUS蛋白的由不同启动子控制的基因与产生萤火虫萤光素酶的内部控制基因(DeWet等人，Molec.Cell Biol.7(1987)725)。含有萤光素酶(LUC)编码区的质粒(pT3/T7-1 LUC)从CLONTECH(Palo Alto，CA)购得，编码区用标准方法修饰其5′端和3′端。简而言之，翻译起始密码子(ATG)周围的序列修饰成包括NcoI位点(CCATGG)和位于第二位置的丙氨酸密码子(GCA)。在3′端的萤光素酶编码区终止密码子的下游42bp的SspI识别位点用T4 DNA聚合酶修平，并与编码BglII识别序列的合成寡核苷酸接头连接。该修饰使得在用NcoI和BglII消化后能分离完整的萤光素酶编码区1702bp片段。该片段用来代替质粒pDAB 305的GUS基因(见实验7E步骤5)，使得萤光素酶编码区可从增强的35S启动子表达，得到质粒pDeLux。原初转录物的5′非翻译前导部分包括修饰的MSV前导部分/Adh内含子序列。

实验10：细胞转化

用从非成熟玉米小孢子获得的细胞悬浮培养物作为起始植物材料。这些从小孢子(MSD)获得的培养物如Mitchell等人(J.Plant Physiol.，137(1991)530)所述进行维持。培养物是单倍体，一些细胞系可再生成单倍体植物。用8至20个月龄的细胞悬浮培养物来分离原生质体。调节原生质体密度至4×10⁶原生质体/毫升电穿孔溶液[20mg/l KH₂PO₄，115mg/L NaH₂PO₄，444mg/L CaCl₂，7.5g/L NaCl，36.4g/L甘露醇，pH7.2(Fromm等人，Nature，319(1986)791)]。原生质体悬浮物在42℃下热冲击5分钟，然后置于冰上。质粒pDAB 911单独或与pDAB 910一起与pDAB326用于原生质体转化实验。所用的是等摩尔的质粒DNA量(如64μg pDAB 911，31.6μg pDAB 910和46μg pDAB 326)。将含质粒DNA的20-40μl无菌的1.0mMTris，pH8.0，1.0mM EDTA置于含有电穿孔溶液的1ml聚苯乙烯电穿孔杯中，使得最终体积为0.5ml。在将0.5ml原生质体悬浮物移入杯中后立即从IBI GeneZapper装置中施加一个电脉冲(400μF，300v/cm)。立即将杯子在冰上放置10分钟。将250μl的原生质体悬浮液(ca.5×10⁵原生质体)分布在置于喂养细胞(300mgMSD细胞，第34系)上的滤膜(47mm尼龙，Micron Separations，Inc.)上，而喂养细胞分布在60×15mm聚苯乙烯培养皿中的M1固体培养基中。铺平板1周后，将滤膜移入含有100mg/L卡那霉素硫酸盐的选择培养基中。在含卡那霉素的培养基中放置4至6周后，发现并选择抗性愈伤组织分离物。从四个所述的质粒转化实验中总共选出400多个分离物。使这些愈伤组织分离物在同一培养基上生长直至积累了足够的组织以进行进一步分析。

为测定这些所选的分离物是否被转化并表达引入的标记基因，可用Jefferson所述的(Plant Molec.Biol.Rep.，5(1987)387)组织化学技术来测定β-葡糖醛酸酶(GUS)活性，用Reiss等人所述的(Geng，30(1984)211)的技术来测定新霉素磷酸转移酶(NPT II)活性。用上述的免疫印迹分析来测定选出的分离物中引入的ICP基因的表达。结果列在表16中。

表16.转化的MSD细胞中β-葡糖醛酸酶(GUS)、新霉素磷酸转移酶II(NPT II)和Bt杀虫晶体蛋白(ICP)基因表达的总结

实验	质粒	所选的分离物号	GUS⁺/测定数	NPTII⁺/测定数	ICP⁺/测定数
实验	质粒	所选的分离物号	GUS⁺/测定数	NPTII⁺/测定数	ICP⁺/测定数	1/28	pDAB911	27	0/23	10/17	2/12
3/3	pDAB911	117	5/117	13/21	0/20	1/28	pDAB911	27	0/23	10/17	2/12
3/3	pDAB911	117	5/117	13/21	0/20	3/6	pDAB911pDAB910+pDAB326	9598	0/9530/98	1/268/12	NA2/25
32/17	pDAB911	105	0/105	4/7	0/8	3/6	pDAB911pDAB910+pDAB326	9598	0/9530/98	1/268/12	NA2/25

总共有四个分离物发现有可检测的ICP水平。两个分离物转化有PDAB911，它们的ICP表达水平是总的可抽提蛋白质的约0.1％(图9)。另两个从pDAB910和pDAB 326共转化获得的分离物也表达出总共可抽提蛋白约0.1％的ICP(数据没有显示)。用来自一个分离物(用pDAB 911转化)的愈伤组织来进行烟芽夜蛾幼虫的3天喂养测定。结果(表17)表明愈伤组织产生足够量的ICP来杀死大多数幼虫，并严重抑制了存活者的生长。

表17.在烟芽夜蛾3天喂养生物测定中用ICP基因转化的MSD愈伤组织的杀虫活性。

实验	饮食方式	放入的幼虫数	死亡数	存活者的平均重量(mg)^b	杀死百分比：(％生长抑制百分比)
实验	饮食方式	放入的幼虫数	死亡数	存活者的平均重量(mg)^b	杀死百分比：(％生长抑制百分比)	1	MSD对照	19	0	5.0±0.55	0∶(0)
2	MSD(ICP)	20	12^a	0.26±0.08	70∶(95)	1	MSD对照	19	0	5.0±0.55	0∶(0)

^a3只幼虫没有测定，故没有计数。^b±1标准误差。

实验11：细胞转化：

A部分-成胚愈伤组织培养物的建立

成胚愈伤组织培养物从未成熟胚开始，其基因型特别适于体外操作培育。采用了有两种基因型的培养物：i)“Backcrossed B73”，它是从杂交B37×(B37×A188)近交获得的BC3，和ii)“High II”，它是通过从B37×A188杂交获得的两个S₃系杂交而成的杂种。当其处于合适的培养条件下时，这些基因型的未成熟胚均一致表现出高水平的可使植物再生的愈伤组织形成。

将两个S₃亲代的“High II”和B73的种子分别种入含有约4kg干土壤混合物#3(Conrad Fafard，Inc.，Springfield，MA)的罐中，使土壤湿润并调节pH至6.0。使植物在温室中维持16/8光周期。除大气日光外，还用高压钠灯和金属卤化物灯组合使用，使得罐上约2m处的最小光强度为约1500ft烛光。温室温度在白天维持在28℃上下3℃内，在夜间维持在22℃。对植物按需用含400mg/L 20-20-20肥料(W.R.Grace & Co.，Fogelsville，PA)再加上8mg/L螯合的铁(CIBA-GEIGY，Greensboro，NC)的溶液进行灌溉。

在种植后50-60天，花粉掉落并开始出现穗丝。在获得花粉前先将不育的穗茎干的外壳和穗丝切除来制备用于授粉的雌性植物。第二天在穗丝长成相同长度的厚“刷”后，将纸袋放在雄花穗上来收集花粉，并仔细地施加于穗丝上。“Backcrossed B73”的胚通过用从BC₂培养物(下述)再生的植物授粉在B73植物上来获得。“High II”胚从S₃细胞系杂交来获得。

当生长的胚达到约1.5-2.0mm(授粉后10-14天)的长度，将穗切下，将其浸在70％V/V乙醇内10分钟然后浸在20％v/v商用漂白剂(1％次氯酸钠)中30分钟来进行表面消毒。在用无菌的蒸馏水清洗后，无菌分离得到未成熟的胚，并放在“起始培养基”中，使胚轴与培养基接触(小盾片侧离开培养基)。“起始”培养基由下列组分组成：N6基础盐和维生素(Chu，Proc.Symp.Plant TissueCulture，(1978)，Peking Press，pp.43-56)、20g/L蔗糖、2.9g/L脯氨酸、100mg/L酪蛋白水解液、1mg/l 2，4-2氯-苯氧基乙酸(2，4-D)、10mg/L AgNO₃和2.5g/L脱乙酰吉兰糖胶(Kelco，Inc.，San Diego，CA)，并调节至pH5.8。

将未成熟的胚在暗处28℃下培育10-30天，在这期间表现出各种形态的愈伤组织从小盾片区域发育。在这期间成熟的愈伤组织分为三种不同的类型：i)软的颗粒状的透明的愈伤组织，而没有任何明显的形态组织(称为非成胚型)，ii)紧密的节状黄白愈伤组织，它由有不同盾片状和胚芽鞘状结构的体细胞胚(通常是融合的)组成(称为I型)和iii)软的愈伤组织，在胚柄状的结构上有许多球状和长形的体细胞胚(称为II型)。II型愈伤组织最适合于建立易成粉的成胚培养物。有时整个盾片发育成这类组织或有时只有少部分表现出这种形态。然后进行选择性亚培养，借此将有明显球状和长形的体细胞胚与一些外苞未分化的软的组织转移入新鲜“起始”培养基中。在“起始”培养基上培育2-3代后，将愈伤组织转移入“维持”培养基中。“维持”培养基与“起始”培养基不同，它含有690mg/L脯氨酸而不含有硝酸银。II型愈伤组织在8-16周的富集后，建立好的成胚培养物就可用于氦轰击。

B部分-用氦轰击进行的转化

氦轰击包括将用质粒DNA包覆的超细粒子加速至穿透速度。所用的装置在美国专利No.5,141,131中有所描述。简单地说，装置由高压氦源、DNA-包覆的金的悬浮态微颗粒的储槽和提供选择性连接氦源出口与金悬浮液的入口的多用途阀组成。金颗粒用含有可选择和可筛选标记基因的编码序列的质粒DNA(pDAB917)包覆。

可选择的标记基因是bar，它可编码膦丝菌素乙酰转移酶(PAT)并有抗除草剂Basta^TM的抗性。可筛选标记基因是uidA，它编码β-葡糖醛酸酶(GUS)，其活性可从组织化学上检测。两种基因均由花椰菜花叶病毒的35S组成型启动子来驱动。通过暴露在除草剂Basta^TM下和用组织化学测定法(使阳性组织变蓝色)检测β-葡糖醛酸酶活性来将很少的转化过的细胞从没有转化过的组织背景中选出。

在用于转化实验前先将质粒DNA吸附在金颗粒的表面。金颗粒是球形的，直径在约1.5-3.0微米(Aldrich Chemical Co.，Milwaukee，WI)。将74μl 2.5M氯化钙和30μl 0.1M亚精胺加入300μl DNA/金悬浮液(140μg pDAB 917，0.01M Tris缓冲液和1mM EDTA)来实现吸附。立即振荡DNA包覆的金颗粒，然后使其沉降到Eppendrof管的底部，完全去除得到的清液。然后将DNA包覆的金颗粒重新悬浮在1ml 100％乙醇中。然后将悬浮液稀释成15mg DNA/金每毫升乙醇以用于氦轰击实验。

在亚培养5-7天后，将约250mg成胚愈伤组织放在直接置于“维持”培养基表面上的薄环层上。在使用前通过将培养皿不加盖放在层流排气罩下几分钟来使组织稍稍干燥。在用于氦轰击时，愈伤组织用104微米不锈钢筛网覆盖。然后将DNA-包覆的金颗粒加速在愈伤组织上。每一愈伤组织样品轰击10-15次，每次轰击传递约1μl的DNA包覆的金悬浮液。

C部分-转基因组织的选择和植物再生

在轰击后，使愈伤组织在上述条件下培育1-2天。然后将每一组织样品分成约60等份(1-3mm直径)并转移入新鲜的含30mg/L Basta^TM的“维持”培养基中。每隔三周将愈伤组织不加选择地转移入(不根据组织形态)新鲜的含有Basta^TM的“维持”培养基中。在这种浓度的除草剂下，很少有生长。在8-16周后，从生长被抑制的组织背景中发育的部分是明显的。将这些组织与其它愈伤组织分离并单独维持在含有Basta^TM的“维持”培养基中，选择性的传代培养(只培养II类组织)，每代为10-14天。此时如下进行GUS表达的组织化学测定。

将所有抗Basta^TM的愈伤组织(无论是GUS阳性还是GUS阴性)选择性地传代培养在“诱导”培养基内，并在28℃下低光照下(125ft-烛光，由冷荧光灯提供)培育1周，然后在高光照(325ft-烛光，由冷荧光灯提供)下培育1周。“诱导”培养基由MS盐和维生素(Murashige等人，Physiol.Plant，15(1962)473-497)30g/L蔗糖、100mg/L肌醇、5mg/L苄基氨基嘌呤、0.025mg/L 2，4-D，2.5g/L脱乙酰吉兰糖胶组成并调节至pH5.7。在两周诱导期后，然后非选择性地将愈伤组织转移入“再生”培养基中并在28℃高光照下培育。

“再生”培养基由MS盐和维生素、30g/L蔗糖和2.5g/L脱乙酰吉兰糖胶组成并调节至pH5.7。每隔14-21天将愈伤组织传代培养入“再生”培养基中来选择分化有叶子和根部的组织。“诱导”和“再生”培养基均含有30mg/L Basta^TM。将小植株转移入含有约0.1kg干燥土壤混合物的10cm罐中，然后充分润湿并用清洁的塑料杯覆盖约4天。在3-5叶阶段，将植物移植入较大的罐中并如上所述生长至成熟。在从同一培养物再生的植物上进行自授粉或同胞授粉，或与从非转化种子获得的植物杂交以获得转基因后代。

实验12：田间试验

根据实验11所述的步骤和转基因后代，用常规培育技术制备四株转基因近交株。获得的近交株用于开发四种转基因杂交种。

将来自四株转基因杂交种每一株的种子用随机化完全模块设计(randomizedcomplete block design)种入一排土地中。位置包括印第安那、伊利诺伊斯、明尼苏达和衣阿华的科研站。用对照土地(没有转基因的对照杂交种)来测定由于天然(对照A)和人为(对照B)侵染的昆虫伤害数量。评价每一处的对第二代欧洲玉米螟(ECB，European Com Bore)的控制。只评价印第安那和伊利诺伊斯田地科研站的第一代ECB和玉米穗虫(corn earworm)。所有的昆虫来自同一来源。每次实验用幼虫侵染两次(相隔4-6天)。对于第一代ECB的研究，施用的40-80只幼虫处于中间型毛轮生长阶段，而第二代ECB研究中施用了相同数量的处于吐丝阶段的幼虫。在6周后将当有柄蒂和穗茎干(ear shoot)时将其劈开，测定植物的受伤害情况。记录每重复组中每10株植物的ECB幼虫数和虫通道数。对玉米穗虫的研究需要对每重复组中每10株植物进行人工侵染，每一穗上约为5-10只玉米穗虫的龄虫。约3周后，评价穗上存在的幼虫数。

收集第一代ECB研究的数据(表18)进行方差的组合分析。人工侵染对照为平均每个柄蒂有一个虫通道，侵染水平超过70％。转基因系表现出很少的无ECB通道(每个柄蒂≤0.06虫通道)，侵染水平低于7％。对照与转基因系在每个柄蒂的幼虫和虫通道以及侵染植物的百分比上表现出了显著的差别(p＜0.05)。单独的转基因杂交种对于控制第一代ECB间没有发现数值上的区别。

表18.第一代ECB数据

	柄蒂			穗
	柄蒂			穗		印第安那	幼虫数	虫通道数	侵染的柄蒂％	幼虫数	虫通道数
对照A	0.05	0.33	25.0	n/a	n/a	印第安那	幼虫数	虫通道数	侵染的柄蒂％	幼虫数	虫通道数
对照A	0.05	0.33	25.0	n/a	n/a	对照B	0.25	1.23	72.5	n/a	n/a
杂交种1	0.00	0.00	0.0	n/a	n/a	对照B	0.25	1.23	72.5	n/a	n/a
杂交种1	0.00	0.00	0.0	n/a	n/a	杂交种2	0.00	0.00	0.0	n/a	n/a
杂交种3	0.00	0.00	0.0	n/a	n/a	杂交种2	0.00	0.00	0.0	n/a	n/a
杂交种3	0.00	0.00	0.0	n/a	n/a	杂交种4	0.00	0.03	2.5	n/a	n/a
伊利诺伊斯						杂交种4	0.00	0.03	2.5	n/a	n/a
伊利诺伊斯						对照A	0.20	0.30	27.5	0.08	0.05
对照B	0.54	1.06	74.8	0.21	0.13	对照A	0.20	0.30	27.5	0.08	0.05
对照B	0.54	1.06	74.8	0.21	0.13	杂交种1	0.00	0.00	0.0	0.00	0.00
杂交种2	0.00	0.03	2.5	0.00	0.00	杂交种1	0.00	0.00	0.0	0.00	0.00
杂交种2	0.00	0.03	2.5	0.00	0.00	杂交种3	0.00	0.13	12.5	0.00	0.00
杂交种4	0.00	0.00	0.0	0.00	0.00	杂交种3	0.00	0.13	12.5	0.00	0.00
杂交种4	0.00	0.00	0.0	0.00	0.00	组合分析
对照A	0.13	0.31	26.3			组合分析
对照A	0.13	0.31	26.3			对照B	0.40	1.14	73.6
杂交种1	n/a	n/a	n/a			对照B	0.40	1.14	73.6
杂交种1	n/a	n/a	n/a			杂交种2	0.00	0.01	1.3
杂交种3	0.00	0.06	6.3			杂交种2	0.00	0.01	1.3
杂交种3	0.00	0.06	6.3			杂交种4	0.00	0.01	1.3

对于第二代ECB，人工侵染的对照中每个柄蒂平均有1至3个虫通道；侵染水平为72至100％(表19)。对转基因杂交种的伤害为0至少量(每个柄蒂≤0.25虫通道)，侵染水平为0至23％(表19)。对虫通道长度测定表明，在转基因系中发现的虫通道与对照中相比明显短的多(p＜0.5)(表19)。只对平均虫通道长度测定计算了平均值的平均误差和标准误差；其它数据分析是无效的，因为在许多转基因重复组中没有虫通道，因此没有数据。除了明尼苏达的研究外，这些数据表明转基因杂交种的平均虫通道长度是相同的，且比对照要短。与对照相比，转基因系受ECB的伤害明显小的多(p＜0.05)。通常，对照和转基因系间存在明显的区别(p＜0.05)。在单独的转基因杂交种及其对第二代ECB控制的水平间没有发现数值上有明显的区别。

表19.第二代ECB数据

	穗		柄蒂				平均虫通道长度^*
	穗		柄蒂				平均虫通道长度^*		印第安那	幼虫数	虫通道数	幼虫数	虫通道数	总虫通道长度	侵染的柄蒂％	平均值	平均标准误差
对照A	0.18	0.10	0.28	0.35	1.05	47.5	2.92	±0.61	印第安那	幼虫数	虫通道数	幼虫数	虫通道数	总虫通道长度	侵染的柄蒂％	平均值	平均标准误差
对照A	0.18	0.10	0.28	0.35	1.05	47.5	2.92	±0.61	对照B	0.71	0.77	1.24	1.59	3.78	94.8	2.38	±0.20
杂交种1	0.03	0.00	0.00	0.00	0.00	2.5	n/a	n/a	对照B	0.71	0.77	1.24	1.59	3.78	94.8	2.38	±0.20
杂交种1	0.03	0.00	0.00	0.00	0.00	2.5	n/a	n/a	杂交种2	0.00	0.00	0.00	0.00	0.00	0.0	n/a	n/a
杂交种3	0.00	0.00	0.03	0.03	0.03	2.5	1.00	n/a	杂交种2	0.00	0.00	0.00	0.00	0.00	0.0	n/a	n/a
杂交种3	0.00	0.00	0.03	0.03	0.03	2.5	1.00	n/a	杂交种4	0.00	0.00	0.00	0.00	0.00	0.0	n/a	n/a
伊利诺伊斯									杂交种4	0.00	0.00	0.00	0.00	0.00	0.0	n/a	n/a
伊利诺伊斯									对照A	0.45	0.60	1.60	1.83	9.21	85.0	5.85	±0.84
对照B	0.58	0.68	2.20	2.55	11.11	100.0	4.38	±0.39	对照A	0.45	0.60	1.60	1.83	9.21	85.0	5.85	±0.84
对照B	0.58	0.68	2.20	2.55	11.11	100.0	4.38	±0.39	杂交种1	0.03	0.03	0.00	0.05	0.13	5.0	2.50	n/a
杂交种2	0.00	0.00	0.00	0.08	0.19	5.0	2.53	±0.02	杂交种1	0.03	0.03	0.00	0.05	0.13	5.0	2.50	n/a
杂交种2	0.00	0.00	0.00	0.08	0.19	5.0	2.53	±0.02	杂交种3	0.00	0.00	0.00	0.13	0.32	10.0	2.52	±0.01
杂交种4	0.00	0.00	0.00	0.08	0.19	7.5	2.50	±0.00	杂交种3	0.00	0.00	0.00	0.13	0.32	10.0	2.52	±0.01
杂交种4	0.00	0.00	0.00	0.08	0.19	7.5	2.50	±0.00	衣阿华
对照A	0.13	0.23	0.68	1.80	3.35	82.5	2.06	±0.15	衣阿华
对照A	0.13	0.23	0.68	1.80	3.35	82.5	2.06	±0.15	对照B	0.15	0.25	0.73	1.90	4.85	95.0	2.37	±0.23
杂交种1	0.00	0.03	0.03	0.25	0.42	22.5	1.58	±0.35	对照B	0.15	0.25	0.73	1.90	4.85	95.0	2.37	±0.23

杂交种2	0.00	0.00	0.00	0.13	0.18	10.0	1.38	±0.43
杂交种2	0.00	0.00	0.00	0.13	0.18	10.0	1.38	±0.43	杂交种3	0.00	0.00	0.00	0.13	0.10	12.5	0.80	±0.12
杂交种4	0.00	0.00	0.00	0.13	0.10	12.5	0.80	±0.12	杂交种3	0.00	0.00	0.00	0.13	0.10	12.5	0.80	±0.12
杂交种4	0.00	0.00	0.00	0.13	0.10	12.5	0.80	±0.12	明尼苏达
对照A	0.00	0.05	0.40	0.68	1.79	47.5	2.63	±0.58	明尼苏达
对照A	0.00	0.05	0.40	0.68	1.79	47.5	2.63	±0.58	对照B	0.03	0.16	0.67	1.43	3.39	71.8	2.61	±0.38
杂交种1	0.00	0.00	0.03	0.03	0.08	2.5	3.00	n/a	对照B	0.03	0.16	0.67	1.43	3.39	71.8	2.61	±0.38
杂交种1	0.00	0.00	0.03	0.03	0.08	2.5	3.00	n/a	杂交种2	0.00	0.00	0.00	0.03	0.04	2.5	1.50	n/a
杂交种3	0.00	0.00	0.00	0.03	0.01	2.5	0.50	n/a	杂交种2	0.00	0.00	0.00	0.03	0.04	2.5	1.50	n/a
杂交种3	0.00	0.00	0.00	0.03	0.01	2.5	0.50	n/a	杂交种4	0.00	0.00	0.03	0.05	0.15	5.0	3.00	±1.00
组合分析									杂交种4	0.00	0.00	0.03	0.05	0.15	5.0	3.00	±1.00
组合分析									对照A	0.19	0.24	0.74	1.16	3.85	65.6
对照B	0.37	0.46	1.21	1.87	5.78	90.4			对照A	0.19	0.24	0.74	1.16	3.85	65.6
对照B	0.37	0.46	1.21	1.87	5.78	90.4			杂交种1	0.01	0.01	0.01	0.08	0.16	8.1
杂交种2	0.00	0.00	0.00	0.06	0.10	4.4			杂交种1	0.01	0.01	0.01	0.08	0.16	8.1
杂交种2	0.00	0.00	0.00	0.06	0.10	4.4			杂交种3	0.00	0.00	0.01	0.08	0.11	6.9
杂交种4	0.00	0.00	0.01	0.06	0.11	6.3			杂交种3	0.00	0.00	0.01	0.08	0.11	6.9

人工侵染的对照平均每个穗有一个穗虫幼虫，且侵染在40至90％之间。转基因杂交种与对照在每个穗的穗虫和侵染植物百分比上均有显著不同(p＜0.05)。尽管转基因杂交种间没有发现数值上有明显区别，但是杂交种#1表现出在两个地方均受穗虫的伤害(表20)。杂交种2、3和4表现出的受昆虫伤害很小。

表20.玉米穗虫数据

印第安那	幼虫数	受侵染％	ECB数	受侵染％
印第安那	幼虫数	受侵染％	ECB数	受侵染％	对照A	0.15	15.0	n/a	n/a
对照B	1.18	80.0	n/a	n/a	对照A	0.15	15.0	n/a	n/a
对照B	1.18	80.0	n/a	n/a	杂交种1	0.05	5.0	n/a	n/a
杂交种2	0.00	0.0	n/a	n/a	杂交种1	0.05	5.0	n/a	n/a
杂交种2	0.00	0.0	n/a	n/a	杂交种3	0.00	0.0	n/a	n/a
杂交种4	0.00	0.0	n/a	n/a	杂交种3	0.00	0.0	n/a	n/a

伊利诺伊斯
伊利诺伊斯					对照A	0.23	17.5	0.28	25.0
对照B	1.12	58.0	0.27	23.8	对照A	0.23	17.5	0.28	25.0
对照B	1.12	58.0	0.27	23.8	杂交种1	0.28	27.5	0.03	2.5
杂交种2	0.03	2.5	0.00	0.0	杂交种1	0.28	27.5	0.03	2.5
杂交种2	0.03	2.5	0.00	0.0	杂交种3	0.00	0.0	0.00	0.0
杂交种4	0.00	0.0	0.00	0.0	杂交种3	0.00	0.0	0.00	0.0
杂交种4	0.00	0.0	0.00	0.0	组合分析
对照A	0.19	16.3			组合分析
对照A	0.19	16.3			对照B	1.15	69.0
杂交种1	0.16	16.3			对照B	1.15	69.0
杂交种1	0.16	16.3			杂交种2	0.01	1.3
杂交种3	0.00	0.0			杂交种2	0.01	1.3
杂交种3	0.00	0.0			杂交种4	0.00	0.0

该领域技术人员在考虑前述本发明的详细描述时可在本发明实践上作许多改进和变化。因此这些改进和变化认为是包括在下列权利要求范围内的。

实验13：用电穿孔中的瞬间表达来测定相应的启动子强度

将墨西哥黑甜玉米(BMS)培养物(V.Walbot，Stanford University)以悬浮液形式维持在液体培养基(Fromm等人，PNAS USA 82(1985)351)中。通过将细胞悬浮在4倍体积的原生质体分离溶液中来从4天大的培养物中分离原生质体，溶液(Fromm等人，Enzymol.153(1987)351)含有0.5％纤维素酶OnozukaRS，0.5％半纤维素酶、0.02％果胶酶(Karlan Research Products，Santa Rosa，CA)，然后轻微振荡。在消化3.5小时后，离心(208xg，25℃，5分钟)收集细胞和原生质体，并重新轻微悬浮在原生质体分离液中洗两次。通过在玉米洗液(Maize WashSolution(Shanin，Theor.Appl.Genet.69(1985)235))上浮选来实现原生质体的纯化。原生质体在电穿孔溶液(Fromm等人，Enzymol.153(1987)351)中洗两次，最后密度为4×10⁶原生质体/ml。在电穿孔前，对原生质体在42℃下热冲击5分钟，然后置于冰上直至使用。等份的约2×10⁶原生质体在1ml体积中用合适的DNA混合物电穿孔。典型的DNA混合物含有(每1ml有2×10⁶原生质体)60μg测试的质粒DNA和4.5μg参考质粒DNA。电穿孔条件是：1500μF，每1cm间距间有200-400V，脉冲时间为25毫秒(Promega Model 240/250，Madison，WI)。在电穿孔后，将原生质体置于冰上10分钟，然后以2.5×10⁵原生质体/ml的密度置于含有原生质体生长培养基(Fromm等人，PNAS USA(1985)351)的塑料培养皿中(预先涂布有1.2％SeaPlaque琼脂糖薄层；FMS生物产品，Rockland，ME)。

用4-甲基-伞形基(umbelliferyl)-葡糖苷酸作为底物来荧光测定GUS活性的方法已基本由Jefferson(Plant Mole.Biol.Report 5(1987)387)描述，用萤光素作为底物测定萤光素酶活性的方法是根据DeWet等人(Molec.Cell.Biol.7(1987)725)、Ow等人(Science 234(1986)856)、Ow等人(PNAS USA 84(1987)4870)所述的方法。在一些情况下，GUS和LUC基因可用各自质粒共电穿孔，在其它情况下，它们可在单个质粒上引入。下面给出了启动子强度的对比研究结果。

表21

质粒	启动子	5′UTL	相对强度
质粒	启动子	5′UTL	相对强度	pKA882	35S	接头A	1
pDAB348	En35S	接头A	0.8	pKA882	35S	接头A	1
pDAB348	En35S	接头A	0.8	pDAB310	En35S	MSV CPL	0.1
pDAB353	En35S	Adh1.S内含子1Δ	5.8	pDAB310	En35S	MSV CPL	0.1
pDAB353	En35S	Adh1.S内含子1Δ	5.8	pDAB305	En35S	MSV CPL+Adh1.S内含子1Δ	42

UTL＝非翻译前导序列

这些数据证明在玉米原生质体中35S增强子元件倍增以及MSV外壳蛋白前导序列的翻译加强没有获得表达优越性。而当缺失型玉米Adh1.S内含子1位于5′非翻译前导区时时发现表达增强。然而，当将增强的35S启动子与含有缺失型玉米Adh1.S内含子1的MSV前导区连接后，发现GUS表达比天然的35S启动子提高约40倍。启动子/前导区组合的序列列在SEQ.ID.NO.43中。

实验：内含子6的克隆

本实施例描述了玉米Adh1.S基因的内含子6的克隆及其接合入合成的5′非翻译前导序列(来自玉米条斑病毒外壳蛋白基因(MSV/CPL，见上文))。

起始材料是从J.Bennetson(Purdue University)获得的质粒pB428。如果将玉米基因组DNA的11.5kbp的BamHI片段插入pBR322的BamHI的位点，则它是一个克隆，并含有Adh1.S基因(Dennis等人，Nucl.Acids Res.12(1984)3983)。将含有内含子6序列和部分侧翼外显子6和7的396bp片段从10ng的pB428模板DNA用100pmol的含有序列CGACC T GATCA CCCA GCAGA TTCGAAGAAGG(SEQ.ID.NO.81)的正向引物和序列TTCAGT GGATCC GAACTTCTTAGC TGAAA AATGGG(SEQ.ID.NO.82)的反向引物扩增。这些引物含有BclI(TGATCA，正向引物中的下划线部分)和BamHI(GGATCC，反向引物中的下划线部分)的识别序列。它们被设计来在Adh1.S序列(Dennis等人，Nucl.AcidsRes.12(1984)3983)的核苷酸2162前引入BcI位点，和在核苷酸2534后引入BamHI位点。得到的有预计大小的396bp的PCR片段含有Adh1.S外显子6的20个碱基，内含子6的所有碱基，外显子7的11个碱基，如SEQ.ID.NO.83所示。

反应物(最终体积为100μl)除模板和引物外还含有1×PCR反应缓冲液(如实验2所述)、最终浓度为0.2mM的dATP、dTTP、dGTP、dCTP、和5单位的Taq DNA聚合酶(Perkin Elmer/Cetus)。温度循环是：94℃(1分钟)；25个循环的94℃(1分钟)、55℃(30秒)、72℃(30秒)，然后在72℃下的延长期10分钟。用琼脂糖凝胶提取合适大小的片段，用限制性酶BclI和BamHI消化，并与BglII消化的pCPL-Bg的DNA(见上文)连接。鉴别有合适限制性酶图谱的质粒并命名为pCPL-Adh6。

pCPL-Adh6的结构如下(没有包括pBSK的载体序列，见实验7C步骤1)：包含BamHI识别位点的接头序列GGATCCAG、MSV的核苷酸167至186、MSV的核苷酸188至277、接头序列GATCA、玉米Adh1.S的核苷酸2162至2534、接头序列GGATCTG和包含NcoI识别序列的MSV的核苷酸278至317(SEQ.ID.NO.84)。与pCPL A1I1Δ相似(见实验7D步骤3)，MSV前导区/内含子序列可通过BamHI和NcoI消化并对541bp片段纯化来从该质粒获得。因此该片段的功能与实验7和13所述的质粒所用的含有Adh1.S内含子1片段的同类片段相同。

表22中显示了来自Bt的含有核苷酸SEQ.ID.NO.1和氨基酸SEQ.ID.NO.2的编码杀虫蛋白的核苷酸序列。

SEQ.ID.NO.1和2

Claims

1.一种可有效地编码杀虫性晶体蛋白(ICP)的、植物优化的核苷酸序列，其特征在于，该核苷酸序列含有：

有效地编码约589-619个氨基酸的杀虫性晶体蛋白的密码子，

植物优化的核苷酸序列与编码ICP的天然苏云金芽胞杆菌核苷酸序列有约71％同源，而且与玉米核苷酸序列有约63％同源，

而且在植物优化的核苷酸序列中使用的密码子，与宿主植物细胞中使用的密码子之间的偏差约为0.23-3.48。

2.如权利要求1所述的植物优化的核苷酸序列，其特征在于，在植物优化的核苷酸序列中使用的密码子，与宿主植物细胞中使用的密码子之间的偏差约为1.075。

3.如权利要求1所述的植物优化的核苷酸序列，其特征在于，该植物优化的核苷酸序列是SEQ ID NO：1。

4.一种合成的、能够在植物细胞中表达的基因构建物，其特征在于，它在序列5′至 3′方向上含有：

可有效地在植物细胞中引发转录的启动子序列；

翻译增强子序列；

编码约589-619个氨基酸的杀虫性晶本蛋白的植物优化的核苷酸序列，该植物优化的核苷酸序列与编码ICP的天然苏云金芽胞杆菌核苷酸序列有约71％同源，且与玉米核苷酸序列有约63％同源，而且在该植物优化的核苷酸序列中使用的密码子与宿主植物细胞中使用的密码子之间的偏差约为0.23-3.48；

聚腺苷酸化序列；

其中该启动序列、翻译增强子序列、植物优化的核苷酸序列和聚腺苷酸化序列是可操作地相连。

5.如权利要求4所述合成基因构建物，其特征在于，在植物优化的核苷酸序列中使用的密码子与宿主植物细胞中使用的密码子之间的偏差约为1.075。

6.如权利要求4所述合成基因构建物，其特征在于，启动子选自下组：诱导型启动子、组成型启动子、时序调控型启动子、发育调控型启动子、组织优选性启动子、和组织特异性启动子。

7.如权利要求4所述合成基因构建物，其特征在于，该启动子是CaMV 35S。

8.如权利要求4所述合成基因构建物，其特征在于，翻译增强子是玉米内含子。

9.如权利要求4所述合成基因构建物，其特征在于，合成基因构建物是SEQ IDNO：1。

10.如权利要求8所述合成基因构建物，其特征在于，玉米内含子是Adh1.S的内含子1或内含子6。

11.一种转基因玉米植物，其特征在于，其细胞被可有效地编码杀虫性晶体蛋白(ICP)的、植物优化的核苷酸序列所转化，其中该核苷酸序列含有有效地编码约589-619个氨基酸的杀虫性晶体蛋白的密码子，而且该植物优化的核苷酸序列与编码ICP的天然苏云金芽胞杆菌核苷酸序列有约71％同源，且与玉米核苷酸序列有约63％同源，而且在植物优化的核苷酸序列中使用的密码子与宿主植物细胞中使用的密码子之间的平均偏差约为0.23-3.48。

12.如权利要求11所述的植物优化的核苷酸序列，其特征在于，在植物优化的核苷酸序列中使用的密码子与宿主植物细胞中使用的密码子之间的平均偏差约为1.075。

13.如权利要求11所述的转基因玉米植物，其特征在于，该植物优化的核苷酸序列是SEQ ID NO：1。

14.一种植物种子，该种子在基因组中有可遗传的合成基因，其特征在于，该合成基因含有有效编码杀虫性晶体蛋白(ICP)的植物优化的核苷酸序列，该核苷酸序列含有有效地编码约589-619个氨基酸的杀虫性晶体蛋白的密码子，而且该植物优化的核苷酸序列与编码ICP的天然苏云金芽胞杆菌核苷酸序列有约71％同源，且与玉米核苷酸序列有约63％同源，而且在植物优化的核苷酸序列中使用的密码子与宿主植物细胞之间的平均偏差约为1.075。

15.如权利要求14所述的植物种子，其特征在于，该植物优化的核苷酸序列是SEQ ID NO：1。

16.一种对玉米特异性优化的杀虫性基因进行工程改造的方法，其特征在于，它包括步骤：

a)确定天然杀虫性蛋白的基因编码序列中核酸的百分比频率；

b)通过逆向翻译氨基酸编码序列而产生一DNA序列，其中形成的逆向翻译的基因编码序列含有与天然杀虫性蛋白相同的氨基酸，但是编码氨基酸的核酸被玉米的第一优选密码子序列所替换；

c)通过鉴别核酸并用玉米的第二或第三优选密码子加以替换而修饰步骤b)中产生的DNA序列，其中密码子被替换是消除一个或多个下列情况：酶限制性位点、外显子：内含子5′接头、聚腺苷酸添加信号、RNA聚合酶终止信号、或者TA或GC双联体；和

d)通过鉴别具有约4个以上相同残基的G或C序列模块，并用其他核苷酸替换G或C而修饰步骤c)中产生的DNA序列，从而使这些模块被不同的核苷酸序列中断，而该序列编码的蛋白质则没有改变。

17.如权利要求16所述的方法，其特征在于，天然杀虫性蛋白是从苏云金芽胞杆菌中产生的。

18.如权利要求17所述的方法，其特征在于，该蛋白质是从苏云金芽胞杆菌中产生的毒素，而且该毒素是HD73。

19.如权利要求18所述的方法，其特征在于，HD73是HD73 Cry1A(c)。

20.一种如SEQ ID NO：1所定义的ICP基因。

21.如权利要求20所述ICP基因，其特征在于，该ICP基因被插入载体pDAB917。

22.一种玉米特异性优化的杀虫性基因序列，其特征在于，该基因序列含有约63％第一选择密码子、约22-37％第二选择密码子和约15-0％第三和/或第四选择密码子，而且总百分比为100％。

23.如权利要求22所述的玉米特异性优化的杀虫性基因序列，其特征在于，该基因序列含有约63％第一选择密码子、约22-37％第二选择密码子和约15-0％第三选择密码子，而且总百分比为100％。

24.如权利要求22所述的玉米特异性优化的杀虫性基因序列，其特征在于，该基因序列含有约63％第一选择密码子、至少约22％第二选择密码子、约7.5％第三选择密码子和约7.5％第四选择密码子，而且总百分比为100％。

25.一种如权利要求4所述的合成基因构建物，其特征在于，启动子和翻译增强子序列如图10所示。

26.一种重组启动子，其特征在于，它包括SEQ ID NO：43。

27.一种重组启动子，其特征在于，它包括SEQ ID NO：46。

28.一种转基因植物，其特征在于，它含有SEQ ID NO：43所述的重组启动子、以及置于启动子3′端的植物可表达结构基因，从而使结构基因在启动子的控制下进行表达。

29.如权利要求28所述的转基因植物，其特征在于，该植物是单子叶植物。

30.如权利要求28所述的转基因植物，其特征在于，该植物是双子叶植物。

31.如权利要求29所述的转基因植物，其特征在于，该单子叶植物选自下组：玉米、小麦、高粱、燕麦、黑麦、大麦、小米、糖甘蔗、禾草和水稻。

32.如权利要求30所述的转基因植物，其特征在于，该双子叶植物选自下组：大豆、荚果、油菜籽、棉花、向日葵、番茄、土豆、甜菜、紫花苜蓿、丁香和花生。