CN111295093A

CN111295093A - 用于转基因表达的植物启动子

Info

Publication number: CN111295093A
Application number: CN201880070365.8A
Authority: CN
Inventors: L·西多连科; C·M·拉森; G·安东尼; S·史瑞德哈伦; H·J·布特勒; L·E·西姆森; S·H·迪恩; G·M·劳舍尔; K·G·里普; K·迈耶斯
Original assignee: Pioneer Hi Bred International Inc; Dow AgroSciences LLC
Current assignee: Pioneer Hi Bred International Inc; Corteva Agriscience LLC
Priority date: 2017-10-30
Filing date: 2018-10-29
Publication date: 2020-06-16
Anticipated expiration: 2038-10-29
Also published as: EP3703488A1; EP3703488A4; US11225670B2; US20200347395A1; WO2019089402A1; CA3079549A1; US12043840B2; US20220090111A1; CN111295093B; BR112020008180A2

Abstract

本公开涉及用于使用来自GmCAB2基因的启动子来促进植物或植物细胞中核苷酸序列转录的组合物和方法。一些实施例涉及在植物中起作用以促进可操作地连接的核苷酸序列的转录的来自GmCAB2基因的启动子或5'UTR。其他实施例涉及在植物中起作用以促进可操作地连接的核苷酸序列的转录的来自GmCAB2基因的3'UTR或终止子。

Description

用于转基因表达的植物启动子

通过引用并入

本申请要求美国临时专利申请序列号62/578,658(2017年10月30日提交)和美国临时专利申请序列号62/727,007(2018年9月21日提交)的权益，这两个申请都明确通过引用以其整体并入本文。

通过引用以其整体并入的是与此同时提交且如下标识的计算机可读核苷酸/氨基酸序列表：创建于2018年9月4日的名称为“79351[2]SEQ LISTING_ST25”的一个32.4KB的ASCII(文本)文件。

背景技术

许多植物物种能够被转基因转化以引入农学上希望的性状或特征。开发和/或修饰所得植物物种使其具有特定的希望的性状。通常，希望的性状包括例如改善营养价值品质、增加产量、赋予有害生物抗性或疾病抗性、增加干旱和胁迫耐受性、改善园艺品质(例如，色素沉着和生长)、赋予除草剂耐受性、使得能够由植物产生工业上有用的化合物和/或材料和/或使得能够产生药物。

通过植物转化技术产生包含堆叠在单个基因组基因座的多个转基因的转基因植物物种。植物转化技术导致将转基因引入植物细胞，回收在植物基因组中包含稳定地整合的转基因拷贝的可育转基因植物，并随后通过转录和翻译的转基因表达得到具有希望的性状和表型的转基因植物。然而，希望允许产生转基因植物物种以高表达多个工程化为性状堆叠的转基因的新颖基因调控元件。

同样，希望允许转基因在植物的特定组织或器官内表达的新颖基因调控元件。例如，植物对土壤传播的病原体感染的抵抗力的增加可以通过用病原体抗性基因转化植物基因组，从而使病原体抗性蛋白在植物根部内稳健表达来实现。可替代地，可能希望在处于特定生长或发育阶段(诸如像细胞分裂或伸长)的植物组织中表达转基因。此外，可能希望在植物的叶和茎组织中表达转基因以提供对除草剂的耐受性或对地面上昆虫和有害生物的抗性。

因此，需要能够驱动特定植物组织中希望水平的转基因表达的新基因调控元件。

发明内容

在本公开的实施例中，本公开涉及包含可操作地连接到以下的启动子的核酸载体：多接头序列；非GmCAB2异源编码序列；其中所述启动子包含与SEQ ID NO:2具有至少95％序列同一性的多核苷酸序列。在进一步的实施例中，所述启动子的长度为1,376bp。在其他实施例中，所述启动子由与SEQ ID NO:2具有至少95％序列同一性的多核苷酸序列组成。在另外的实施例中，所述启动子可操作地连接到异源编码序列。因此，所述异源编码序列编码选择性标记蛋白、杀昆虫抗性蛋白、除草剂耐受性蛋白、氮利用效率蛋白、水利用效率蛋白、小RNA分子、营养品质蛋白、或DNA结合蛋白。在其他实施例中，所述核酸载体包含终止子多核苷酸序列。在另外的实施例中，所述核酸载体包含3'非翻译多核苷酸序列。在另外的实施例中，所述核酸载体包含5'非翻译多核苷酸序列。在另外的实施例中，所述核酸载体包含内含子序列。在另外的实施例中，所述启动子具有组织偏好性表达。在进一步的实施例中，所述核酸载体包含与SEQ ID NO:2具有至少95％序列同一性的、可操作地连接到异源编码序列的多核苷酸序列。在进一步的实施例中，所述植物选自下组，该组由以下组成：玉蜀黍(Zea mays)、小麦、稻、高粱、燕麦、黑麦、香蕉、甘蔗、大豆(Glycine max)、棉花、拟南芥(Arabidopsis)、烟草、向日葵、和卡诺拉油菜。在又另一个实施例中，所述植物是大豆。在一些实施例中，将所述异源编码序列插入所述植物的基因组中。在其他实施例中，所述启动子包含与SEQ ID NO:2具有至少95％序列同一性的多核苷酸序列，并且所述启动子可操作地连接到异源编码序列。在另外的实施例中，所述转基因植物包含3'非翻译序列。在进一步的实施例中，所述异源编码序列具有组织偏好性表达。在另外的实施例中，所述转基因植物包含长度为1,376bp的所述启动子。

在本公开的实施例中，本公开涉及一种用于产生转基因植物细胞的方法，所述方法包括以下步骤：用基因表达盒转化植物细胞，所述基因表达盒包含可操作地连接到至少一个目的多核苷酸序列的GmCAB2启动子；分离包含所述基因表达盒的经转化的植物细胞；以及产生转基因植物细胞，所述转基因植物细胞包含所述可操作地连接到至少一个目的多核苷酸序列的GmCAB2启动子。在其他实施例中，用植物转化方法进行植物细胞的转化。在一些方面，该植物转化方法选自下组，该组由以下组成：农杆菌(Agrobacterium)介导的转化方法、基因枪转化方法、碳化硅转化方法、原生质体转化方法、和脂质体转化方法。在进一步的实施例中，所述目的多核苷酸序列是在植物细胞中表达。在其他实施例中，所述目的多核苷酸序列被稳定地整合到所述转基因植物细胞的基因组中。在进一步的实施例中，所述方法包括将所述转基因植物细胞再生为转基因植物；以及获得所述转基因植物，其中所述转基因植物包含基因表达盒，所述基因表达盒包含可操作地连接到至少一个目的多核苷酸序列的GmCAB2启动子。在其他实施例中，所述转基因植物细胞是单子叶转基因植物细胞或双子叶转基因植物细胞。双子叶转基因植物细胞的实例包括拟南芥植物细胞、烟草植物细胞、大豆植物细胞、卡诺拉油菜植物细胞、和棉花植物细胞。单子叶转基因植物细胞的实例包括玉蜀黍植物细胞、稻植物细胞、和小麦植物细胞。在一些实施例中，所述GmCAB2启动子包含SEQ ID NO:2的多核苷酸。在其他实施例中，所述GmCAB2启动子包含可操作地连接到SEQ IDNO:2的3'末端的目的第一多核苷酸序列。在另外的实施例中，所述方法包括将可操作地连接到GmCAB2启动子的目的多核苷酸序列引入所述植物细胞中。在进一步的实施例中，通过植物转化方法将可操作地连接到所述GmCAB2启动子的目的多核苷酸序列引入所述植物细胞中。植物转化方法的实例包括农杆菌介导的转化方法、基因枪转化方法、碳化硅转化方法、原生质体转化方法、和脂质体转化方法。在进一步的实施例中，所述目的多核苷酸序列在胚胎细胞组织中表达。在另外的实施例中，所述目的多核苷酸序列被稳定地整合到所述植物细胞的基因组中。在一些实施例中，所述转基因植物细胞是单子叶植物细胞或双子叶植物细胞。双子叶植物细胞的实例包括拟南芥植物细胞、烟草植物细胞、大豆植物细胞、卡诺拉油菜植物细胞、和棉花植物细胞。单子叶植物细胞的实例包括玉蜀黍植物细胞、稻植物细胞、和小麦植物细胞。

在本公开的实施例中，本公开涉及转基因植物细胞，其包含GmCAB2启动子。在其他实施例中，所述转基因植物细胞包含转基因事件。在进一步的实施例中，所述转基因事件包含农学性状。农学性状的实例可包括杀昆虫抗性性状、除草剂耐受性性状、氮利用效率性状、水利用效率性状、营养品质性状、DNA结合性状、选择性标记性状、小RNA性状、或其任何组合。在进一步的实施例中，所述农学性状包含除草剂耐受性状。在该实施例的一方面，所述除草剂耐受性状包含aad-1编码序列。在又另一个实施例中，所述转基因植物细胞产生商品产品。商品产品的实例包括蛋白质浓缩物、蛋白质分离物、谷物、粗粉、面粉、油、或纤维。在进一步的实施例中，所述转基因植物细胞选自由双子叶植物细胞或单子叶植物细胞组成的组。例如，所述双子叶植物细胞是大豆植物细胞。在另外的实施例中，所述GmCAB2启动子包含与SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29的多核苷酸具有至少95％序列同一性的多核苷酸。在其他实施例中，所述GmCAB2启动子的长度为1,376bp。在一些实施例中，所述GmCAB2启动子由SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29组成。在随后的实施例中，所述GmCAB2启动子包含可操作地连接到SEQ ID NO:2的3'末端的目的第一多核苷酸序列。在其他实施例中，所述农学性状在植物组织中表达。在进一步的实施例中，分离的多核苷酸包含与SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29的多核苷酸具有至少95％序列同一性的核酸序列。在另外的实施例中，所述分离的多核苷酸驱动组织偏好性表达。在其他实施例中，所述分离的多核苷酸包含在植物细胞内的表达活性。在一些实施例中，所述分离的多核苷酸包含编码多肽的可读框多核苷酸；以及终止序列。在随后的实施例中，SEQ ID NO:2的多核苷酸的长度为1,376bp。在随后的实施例中，SEQ ID NO:28的多核苷酸的长度为1,453bp。在随后的实施例中，SEQ ID NO:29的多核苷酸的长度为1,454bp。

在本公开的实施例中，本公开涉及基因表达盒，所述基因表达盒包含可操作地连接到异源编码序列的启动子，其中所述启动子包含与SEQ ID NO:2、SEQ ID NO:28或SEQ IDNO:29具有至少95％序列同一性的多核苷酸。在一些实施例中，所述多核苷酸与SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29具有至少95％序列同一性。在另外的实施例中，所述基因表达盒包含内含子。在进一步的实施例中，所述基因表达盒包含5'UTR。在随后的实施例中，所述启动子具有组织偏好性表达。在其他实施例中，所述启动子与编码多肽或小RNA基因的异源编码序列可操作地连接。编码的多肽或小RNA基因的实例包括赋予杀昆虫抗性、除草剂耐受性的异源编码序列、赋予氮利用效率的核酸、赋予水利用效率的核酸、赋予营养品质的核酸、编码DNA结合蛋白的核酸、和编码选择性标记的核酸。在另外的实施例中，所述基因表达盒包含3'非翻译区。例如，所述3'非翻译区与SEQ ID NO:4具有至少95％序列同一性。在另外的实施例中，所述基因表达盒包含5'非翻译区。例如，所述5'非翻译区与SEQ ID NO:3具有至少95％序列同一性。在另外的实施例中，所述基因表达盒包含终止子区。例如，所述终止子区与SEQ ID NO:5具有至少95％序列同一性。在其他实施例中，本公开涉及包含基因表达盒的重组载体，其中所述载体选自由质粒、粘粒、细菌人工染色体、病毒和噬菌体组成的组。在其他实施例中，本公开涉及包含基因表达盒的转基因细胞。在该实施例的一方面，所述转基因细胞是转基因植物细胞。在该实施例的其他方面，所述转基因植物包含转基因植物细胞。在进一步的方面，所述转基因植物是单子叶植物或双子叶植物。单子叶植物的实例包括玉米植物、稻植物和小麦植物。在所述实施例的进一步的方面，所述转基因植物产生包含所述基因表达盒的种子。在其他实施例中，所述启动子是组织偏好性启动子。在一些实施例中，所述组织偏好性启动子是组织偏好性启动子。

在本公开的实施例中，本公开涉及包含可操作地连接到以下的启动子的核酸载体：多接头序列；非GmCAB2异源编码序列；其中所述启动子包含与SEQ ID NO:28具有至少95％序列同一性的多核苷酸序列。在进一步的实施例中，所述启动子的长度为1,453bp。在其他实施例中，所述启动子由与SEQ ID NO:28具有至少95％序列同一性的多核苷酸序列组成。在另外的实施例中，所述启动子可操作地连接到异源编码序列。因此，所述异源编码序列编码选择性标记蛋白、杀昆虫抗性蛋白、除草剂耐受性蛋白、氮利用效率蛋白、水利用效率蛋白、小RNA分子、营养品质蛋白、或DNA结合蛋白。在其他实施例中，所述核酸载体包含终止子多核苷酸序列。在另外的实施例中，所述核酸载体包含3'非翻译多核苷酸序列。在另外的实施例中，所述核酸载体包含5'非翻译多核苷酸序列。在另外的实施例中，所述核酸载体包含内含子序列。在另外的实施例中，所述启动子具有组织偏好性表达。在进一步的实施例中，所述核酸载体包含与SEQ ID NO:28具有至少95％序列同一性的、可操作地连接到异源编码序列的多核苷酸序列。在进一步的实施例中，所述植物选自下组，该组由以下组成：玉蜀黍(Zea mays)、小麦、稻、高粱、燕麦、黑麦、香蕉、甘蔗、大豆(Glycine max)、棉花、拟南芥(Arabidopsis)、烟草、向日葵、和卡诺拉油菜。在又另一个实施例中，所述植物是大豆。在一些实施例中，将所述异源编码序列插入所述植物的基因组中。在其他实施例中，所述启动子包含与SEQ ID NO:28具有至少95％序列同一性的多核苷酸序列，并且所述启动子可操作地连接到异源编码序列。在另外的实施例中，所述转基因植物包含3'非翻译序列。在进一步的实施例中，所述异源编码序列具有组织偏好性表达。在另外的实施例中，所述转基因植物包含长度为1,453bp的所述启动子。

在本公开的实施例中，本公开涉及包含可操作地连接到以下的启动子的核酸载体：多接头序列；非GmCAB2异源编码序列；其中所述启动子包含与SEQ ID NO:29具有至少95％序列同一性的多核苷酸序列。在进一步的实施例中，所述启动子的长度为1,454bp。在其他实施例中，所述启动子由与SEQ ID NO:29具有至少95％序列同一性的多核苷酸序列组成。在另外的实施例中，所述启动子可操作地连接到异源编码序列。因此，所述异源编码序列编码选择性标记蛋白、杀昆虫抗性蛋白、除草剂耐受性蛋白、氮利用效率蛋白、水利用效率蛋白、小RNA分子、营养品质蛋白、或DNA结合蛋白。在其他实施例中，所述核酸载体包含终止子多核苷酸序列。在另外的实施例中，所述核酸载体包含3'非翻译多核苷酸序列。在另外的实施例中，所述核酸载体包含5'非翻译多核苷酸序列。在另外的实施例中，所述核酸载体包含内含子序列。在另外的实施例中，所述启动子具有组织偏好性表达。在进一步的实施例中，所述核酸载体包含与SEQ ID NO:29具有至少95％序列同一性的、可操作地连接到异源编码序列的多核苷酸序列。在进一步的实施例中，所述植物选自下组，该组由以下组成：玉蜀黍(Zea mays)、小麦、稻、高粱、燕麦、黑麦、香蕉、甘蔗、大豆(Glycine max)、棉花、拟南芥(Arabidopsis)、烟草、向日葵、和卡诺拉油菜。在又另一个实施例中，所述植物是大豆。在一些实施例中，将所述异源编码序列插入所述植物的基因组中。在其他实施例中，所述启动子包含与SEQ ID NO:29具有至少95％序列同一性的多核苷酸序列，并且所述启动子可操作地连接到异源编码序列。在另外的实施例中，所述转基因植物包含3'非翻译序列。在进一步的实施例中，所述异源编码序列具有组织偏好性表达。在另外的实施例中，所述转基因植物包含长度为1,454bp的所述启动子。

根据以下参考附图进行的几个实施例的详细描述，前述特征和其他特征将变得更加显而易见。

附图说明

图1.提供了线性合成DNA片段的图，所述线性合成DNA片段含有通过多克隆位点连接并且侧接Gateway aatL1和aatL2重组位点的GmCAB2启动子、5’UTR和终止子。

图2.提供了pDAB122135的质粒图谱的图。

图3A、图3B和图3C提供了使用来自可从英杰公司(Invitrogen Corporation)获得的Vector NTI Advance 11.0生物信息计算机程序的AlignX全局比对程序进行的SEQ IDNO:2、SEQ ID NO:28和SEQ ID NO:29的比对。SEQ ID NO:28和SEQ ID NO:29共享99.9％序列同一性。SEQ ID NO:2和SEQ ID NO:28共享94.5％序列同一性。SEQ ID NO:2和SEQ IDNO:29共享94.4％序列同一性。

具体实施方式

I.几个实施例的概述

转基因植物产品的开发变得越来越复杂。商业上可行的转基因植物现在需要将多个转基因堆叠到单个基因座中。用于基础研究或生物技术应用的植物启动子和3’UTR/终止子通常是单向的，仅指导已在其3’端(下游)(对于所述启动子)或在其5’端(上游)(对于所述3’UTR/终止子)融合的一个基因。因此，每个转基因/异源编码序列通常需要启动子和3’UTR/终止子才能表达，其中需要多个调控元件来表达一个基因堆叠件内的多个转基因。随着基因堆叠件中转基因数量的增加，通常使用相同的启动子和/或3’UTR/终止子来获得不同转基因的表达模式的最佳水平。获得最佳水平的转基因/异源编码序列表达对于产生单个多基因性状是必要的。不幸的是，已知由相同启动子和/或3’UTR/终止子驱动的多基因构建体会导致基因沉默，从而导致田野中的有效转基因产品较少。重复的启动子和/或3’UTR/终止子元件可能导致基于同源性的基因沉默。另外，转基因/异源编码序列内的重复序列可能导致基因座内基因同源重组，从而导致多核苷酸重排。转基因的沉默和重排将可能对产生以表达转基因的转基因植物的性能具有不希望的影响。此外，由于启动子重复而引起的过量的转录因子(TF)结合位点可引起内源性TF的耗尽，从而导致转录失活。考虑到需要将多个基因引入植物中以进行代谢工程和性状堆叠，需要多种启动子和/或3’UTR/终止子来开发驱动多个基因表达的转基因作物。

启动子和/或3’UTR/终止子鉴定中的一个特定问题是需要鉴定与其他植物组织中未表达的植物中特定细胞类型、发育阶段和/或功能有关的组织特异性/偏好性启动子。组织特异性(即组织偏好性)或器官特异性启动子驱动基因在某些组织中的表达，如在植物的籽粒(kernel)、根、叶或绒毡层中。可以从观察基因的表达来初步鉴定组织和发育阶段特异性启动子和/或3’UTR/终止子，所述基因在植物发育过程中的特定组织或特定时间段表达。这些组织特异性/偏好性启动子和/或3’UTR/终止子对于转基因植物工业中的某些应用是必需的，并且是理想的，因为它们允许异源基因在组织中和/或以发育阶段选择性方式特异性表达，表明所述异源基因在多种器官、组织和/或时间差异表达，但不在其他不希望的组织中表达。例如，植物对土壤传播的病原体感染的抵抗力的增加可以通过用病原体抗性基因转化植物基因组，从而使病原体抗性蛋白在植物根部内稳健表达来实现。可替代地，可能希望在处于特定生长或发育阶段(诸如像细胞分裂或伸长)的植物组织中表达转基因/异源编码序列。另一应用是希望使用组织特异性/偏好性启动子和/或3’UTR/终止子来限制转基因的表达，所述转基因编码特定组织类型(如发育中的薄壁组织细胞)中的农学性状。同样地，在鉴定启动子和/或3’UTR/终止子中的一个具体问题是如何鉴定启动子，以及如何将鉴定的启动子与细胞的发育特性联系起来以进行特异性/偏好性组织表达。

有关启动子鉴定的另一个问题是需要克隆所有相关的顺式作用和反式激活转录控制元件，使克隆的DNA片段以所需的特异性表达模式驱动转录。假定这样的控制元件位于翻译起始或起始位点的远侧，则选择包含启动子的多核苷酸的大小对于提供启动子多核苷酸序列的表达水平和表达模式是重要的。已知启动子长度包括功能信息，并且已经显示不同基因具有比基因组中其他基因的启动子更长或更短的启动子。阐明启动子的转录起始位点并预测启动子区域中的功能基因元件具有挑战性。进一步增加了挑战的是调控基序以及顺式和反式调控元件的复杂性、多样性和固有的简并性质(Blanchette,Mathieu等人“Genome-wide computational prediction of transcriptional regulatory modulesreveals new insights into human gene expression.[转录调控模块的全基因组计算预测揭示了对人类基因表达的新见解]”Genome research[基因组研究]16.5(2006):656-668)。顺式和反式调控元件位于启动子的远端，它们调控基因的空间和时间表达，使其仅在所需的位点和特定的时间出现(Porto,Milena Silva等人“Plant promoters:an approachof structure and function.[植物启动子：一种结构和功能的方法]”Molecularbiotechnology[分子生物技术]56.1(2014):38-49)。因此，鉴定启动子调控元件需要获得含有必需的顺式和反式调控元件的特定大小的合适序列，其将导致以希望的方式驱动可操作地连接的转基因/异源编码序列的表达。

提供了通过使用GmCAB2基因调控元件在植物中表达转基因来克服此类问题的方法和组合物。

II.术语和缩写

在整个申请中，使用了许多术语。为了提供对说明书和权利要求书的明确和一致的理解(包括在对此类术语给定的范围内)，提供了以下定义。

如本文所使用的，冠词“一种/一个(a/an)”和“所述(the)”包括复数个指示物，除非上下文中另外明确且不含糊地指明。

如本文所使用的，术语“分离的”意指已经从其自然环境中除去，或从首次形成该化合物时存在的其他化合物中除去。术语“分离的”涵盖从自然来源分离的材料以及通过在宿主细胞中重组表达制备后回收的材料(例如，核酸和蛋白质)、或化学合成的化合物，如核酸分子、蛋白质和肽。

如本文所使用的，术语“纯化的”涉及分子或化合物的分离，所述分子或化合物以基本上不含通常与在天然或自然环境中的分子或化合物相关的污染物，或者基本上在相对于化合物初次形成时存在的其他化合物的浓缩中富集的，并且意指由于与原始组合物中的其他组分分离而纯度提高了。如本文所使用的，术语“纯化的核酸”来描述已经与其他生物化合物分离的、分离产生的或纯化的核酸序列，所述其他生物化合物包括但不限于多肽、脂质和碳水化合物，同时影响组分中的化学或功能改变组分(例如，可以通过去除蛋白质污染物并断开将核酸与染色体中其余DNA连接的化学键，从染色体上纯化核酸)。

如本文所使用的，术语“合成的”是指通过化学合成作为体外过程产生的多核苷酸(即，DNA或RNA)分子。例如，可以在Eppendorf^TM管内的反应期间产生合成DNA，使得合成DNA由DNA或RNA的天然链酶促产生。可以利用其他实验室方法来合成多核苷酸序列。寡核苷酸可以在寡核苷酸合成仪上通过使用亚磷酰胺的固相合成化学合成。合成的寡核苷酸可以作为复合物彼此退火，从而产生“合成的”多核苷酸。化学合成多核苷酸的其他方法是本领域已知的，并且可以容易地实现以用于本公开。

如本文所使用的，术语“约”是指大于或小于所陈述的值或值的范围的百分之十，但并非旨在仅针对此更宽泛的定义来指定任何值或值的范围。术语“约”之后的每个值或值的范围也旨在涵盖所述绝对值或值的范围的实施例。

为了本公开的目的，“基因”包括编码基因产物的DNA区域(参见下文)，以及调控该基因产物的产生的所有DNA区域，无论此类调控序列是否与编码和/或转录序列相邻。因此，基因包括但不限于启动子序列、终止子、翻译调控序列(如核糖体结合位点和内部核糖体进入位点)、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点、内含子和基因座控制区。

如本文所使用的，术语“天然的”或“自然的”定义了天然存在的状况。“天然DNA序列”是自然界中存在的DNA序列，其是通过自然手段或传统育种技术产生的，但不是通过基因工程产生的(例如，使用分子生物学/转化技术)。

如本文所使用的，“转基因”被定义为编码基因产物的核酸序列，所述基因产物包括例如但不限于mRNA。在一个实施例中，所述转基因/异源编码序列是外源核酸，其中通过基因工程将转基因/异源编码序列引入宿主细胞(或其后代)，其中通常找不到转基因/异源编码序列。在一个实例中，转基因/异源编码序列编码工业上或药学上有用的化合物，或编码希望的农艺性状(例如，除草剂抗性基因)的基因。在又另一个实例中，转基因/异源编码序列是反义核酸序列，其中反义核酸序列的表达抑制靶核酸序列的表达。在一个实施例中，所述转基因/异源编码序列是内源核酸，其中希望的是内源核酸的另外的基因组拷贝，或相对于宿主生物体中靶核酸的序列处于反义方向的核酸。

如本文所使用的，术语“非GmCAB2转基因”或“非GmCAB2基因”是与在UniProt核苷酸数据库中作为UniProtKB-C6TD73_SOYBN提供的Glyma14g01130的GmCAB2基因编码序列具有小于80％序列同一性的任何转基因/异源编码序列。

如本文所使用的，“异源DNA编码序列”是指除自然编码GmCAB2基因的编码序列以外的任何编码序列，或表达的GmCAB2蛋白的任何同源物。在本发明的上下文中，术语“异源的”用于通常发现在自然界中没有紧密联系的核酸序列的任何组合。

如本文所定义的“基因产物”是由基因产生的任何产物。例如，基因产物可以是基因(例如，mRNA、tRNA、rRNA、反义RNA、干扰RNA、核糖酶、结构RNA或任何其他类型的RNA)或通过mRNA翻译产生的蛋白质的直接转录产物。基因产物还包括通过诸如加帽、聚腺苷酸化、甲基化和编辑等方法修饰的RNA，以及通过例如甲基化、乙酰化、磷酸化、泛素化、ADP-核糖基化、肉豆蔻化和糖基化修饰的蛋白质。基因表达会受到外部信号的影响，例如，细胞、组织或生物体暴露于增加或减少基因表达的药剂。基因的表达也可以在从DNA到RNA到蛋白质的途径中的任何地方受到调控。调控基因表达的方式是，例如，通过控制转录、翻译、RNA转运和加工、中间分子(如mRNA)的降解或特定蛋白质分子在制备后的激活、失活、区室化或降解，或其组合。可以通过本领域已知的任何方法在RNA水平或蛋白质水平测量基因表达，包括但不限于RNA印迹、RT-PCR、蛋白质印迹或体外、原位或体内蛋白活性测定。

如本文所使用的，术语“基因表达”涉及这样的过程，通过该过程，核酸转录单位(包括例如基因组DNA)的编码信息通常被转化为细胞的可操作的、不可操作的、或结构的部分，经常包括蛋白质的合成。基因表达会受到外部信号的影响；例如，细胞、组织或生物体暴露于增加或减少基因表达的药剂。基因的表达也可以在从DNA到RNA到蛋白质的途径中的任何地方受到调控。调控基因表达的方式是，例如，通过控制转录、翻译、RNA转运和加工、中间分子(如mRNA)的降解或特定蛋白质分子在制备后的激活、失活、区室化或降解，或其组合。可以通过本领域已知的任何方法在RNA水平或蛋白质水平测量基因表达，包括但不限于RNA印迹、RT-PCR、蛋白质印迹或体外、原位或体内蛋白活性测定。

如本文所使用的，“基于同源性的基因沉默”(HBGS)是通用术语，其包括转录基因沉默和转录后基因沉默。由于与启动子或转录序列相对应的双链RNA(dsRNA)的产生，转录抑制(转录基因沉默；TGS)或mRNA降解(转录后基因沉默；PTGS)可导致未连锁沉默基因座对靶基因座的沉默。每个方法中不同细胞组分的参与表明，dsRNA诱导的TGS和PTGS可能是由古老的共同机制的多样化导致的。但是，很难对TGS和PTGS进行严格比较，因为它通常依赖于不同沉默基因座的分析。在一些情况下，由于产生对应于不同靶基因的启动子和转录序列的dsRNA，单个转基因基因座可触发TGS和PTGS。Mourrain等人(2007)Planta[植物学]225:365-79。siRNA可能是在同源序列上触发TGS和PTGS的实际分子：所述siRNA在此模型中会通过将转基因序列的甲基化扩散到内源性启动子中引发顺式和反式同源序列的沉默和甲基化。

如本文所使用的，术语“核酸分子”(或“核酸”或“多核苷酸”)可以指核苷酸的聚合形式，其可以包括RNA、cDNA、基因组DNA和上述的合成形式和混合聚合物的有义链和反义链。核苷酸可以指核糖核苷酸、脱氧核糖核苷酸或任何一种核苷酸的修饰形式。如本文所使用的，“核酸分子”与“核酸”和“多核苷酸”同义。除非另有说明，否则核酸分子的长度通常至少为10个碱基。所述术语可以指长度不确定的RNA或DNA分子。所述术语包括DNA的单链和双链形式。核酸分子可以包括通过天然存在的和/或非天然存在的核苷酸键连接在一起的天然存在的核苷酸和修饰的核苷酸之一或二者。

如本领域技术人员将容易理解的，核酸分子可以被化学或生物化学修饰，或可以含有非天然或衍生的核苷酸碱基。此类修饰包括例如标记、甲基化、用类似物取代一个或多个天然存在的核苷酸、核苷酸间修饰(例如，不带电荷的键：例如，甲基的膦酸酯、磷酸三酯、氨基磷酸酯、氨基甲酸酯等；带电荷的键：例如，硫代磷酸酯、二硫代磷酸酯等；悬垂部分：例如，肽；嵌入剂：例如，吖啶、补骨脂素等；螯合剂；烷基化剂；和修饰的键：例如，α异头核酸等)。术语“核酸分子”还包括任何拓扑构象，包括单链、双链、部分双链体、三链体、发夹、环状和挂锁构型。

转录沿着DNA链以5'到3'的方式进行。这意味着RNA是通过在生长链的3'末端顺序添加核糖核苷酸-5'-三磷酸(必需消除焦磷酸盐)而制备的。在线性或环状核酸分子中，如果离散元件(例如特定的核苷酸序列)已结合或将在该元件的5'方向结合至另一个元件，则离散元件相对于那个元件可称为“上游”或“5'”。类似地，如果离散元件是或将要从另一个元件在3'方向上与相同的核酸结合，则离散元件相对于那个元件可以是“下游”或“3'”。

如本文所使用的，碱基“位置”是指给定碱基或核苷酸残基在指定核酸内的位置。可以通过与参考核酸比对(参见下文)来定义指定的核酸。

杂交涉及通过氢键结合两个多核苷酸链。寡核苷酸及其类似物通过互补碱基之间的氢键合杂交，包括沃森-克里克(Watson-Crick)、胡斯坦(Hoogsteen)或反向胡斯坦(Hoogsteen)氢键合。通常，核酸分子由含氮碱基组成，所述含氮碱基是嘧啶(胞嘧啶(C)、尿嘧啶(U)和胸腺嘧啶(T))或嘌呤(腺嘌呤(A)和鸟嘌呤(G))。这些含氮碱基在嘧啶和嘌呤之间形成氢键，并且嘧啶与嘌呤的键合称为“碱基配对”。更具体地说，A将氢键合至T或U，而G将键合至C。“互补的”是指发生在两个不同的核酸序列或同一核酸序列的两个不同的区域之间的碱基配对。

“特异性可杂交”和“特异性互补”是指示足够程度的互补性的术语，使得在寡核苷酸与DNA或RNA靶标之间发生稳定且特异性的结合。寡核苷酸不必与其靶序列100％互补即可特异性杂交。当寡核苷酸与靶DNA或RNA分子的结合干扰靶DNA或RNA的正常功能时，寡核苷酸可特异性杂交，并且具有足够程度的互补性以避免寡核苷酸与非靶序列在希望特异性结合的条件下(例如在体内测定或系统的情况中在生理条件下)的非特异性结合。这种结合称为特异性杂交。

导致特定严格程度的杂交条件将根据所选择的杂交方法的性质以及杂交核酸序列的组成和长度而变化。通常，杂交温度和杂交缓冲液的离子强度(尤其是Na+和/或Mg2+浓度)将有助于杂交的严格性，尽管洗涤时间也会影响严格性。关于得到特定严格性程度所需要的杂交条件的计算论述于Sambrook等人(编),Molecular Cloning:A LaboratoryManual[分子克隆，实验室手册],第2版,1-3卷,Cold Spring Harbor Press[冷泉港实验室出版社],冷泉港,纽约,1989,第9章和第11章。

如本文所使用的，“严格条件”涵盖仅在杂交分子与DNA靶之间的错配小于50％时才发生杂交的条件。“严格条件”包括进一步的严格的特定水平。因此，如本文所使用的，“中严格性”条件是指在所述条件下序列错配率超过50％的分子不会杂交；“高严格性”条件是指在所述条件下错配率超过20％的序列不会杂交；以及“非常高严格性”条件是指在所述条件下错配率超过10％的序列不会杂交。

在特定的实施例中，严格条件可以包括在65℃下杂交，然后在65℃下用0.1x SSC/0.1％SDS洗涤40分钟。

以下是代表性的非限制性的杂交条件：

非常高严格性：在65℃下，在5x SSC缓冲液中杂交16小时；在室温下，在2x SSC缓冲液中洗涤两次，每次15分钟；并且在65℃下，在0.5x SSC缓冲液中洗涤两次，每次20分钟。

高严格性：在65℃-70℃下，在5x-6x SSC缓冲液中杂交16-20小时；在室温下，在2x SSC缓冲液中洗涤两次，每次5-20分钟；并且在55℃-70℃下，在1x SSC缓冲液中洗涤两次，每次30分钟。

中严格性：在室温至55℃下，在6x SSC缓冲液中杂交16-20小时；在室温至55℃下，在2x-3x SSC缓冲液中洗涤至少两次，每次20-30分钟。

在特定的实施例中，特异性杂交的核酸分子可以在非常高严格性杂交条件下保持结合。在这些和进一步的实施例中，特异性杂交的核酸分子可以在高严格性杂交条件下保持结合。在这些和进一步的实施例中，特异性杂交的核酸分子可以在中严格性杂交条件下保持结合。

如本文所使用的，术语“寡核苷酸”是指短核酸聚合物。寡核苷酸可以通过切割更长的核酸片段或通过聚合单个核苷酸前体来形成。自动化合成仪允许合成长度长达数百个碱基对的寡核苷酸。因为寡核苷酸可以结合互补的核苷酸序列，所以它们可以用作检测DNA或RNA的探针。由DNA组成的寡核苷酸(寡脱氧核糖核苷酸)可用于PCR(扩增小DNA序列的技术)。在PCR中，寡核苷酸典型地称为“引物”，它允许DNA聚合酶延伸寡核苷酸并复制互补链。

术语“百分比序列同一性”或“百分比同一性”或“同一性”可互换使用，是指基于在两个或更多个氨基酸或核苷酸序列之间进行比较的序列中相应相同位置之间的相同匹配的序列比较。百分比同一性是指两个最佳比对的多核苷酸或肽序列在组分例如核苷酸或氨基酸的比对窗口中不变的程度。本领域已知的杂交实验和数学算法可用于确定百分比同一性。存在许多数学算法作为本领域已知的计算序列百分比同一性的序列比对计算机程序。这些程序可以分为全局序列比对程序或局部序列比对程序。

全局序列比对程序通过端对端比较比对以找到精确匹配，将精确匹配的数目除以较短序列的长度，然后乘以100，计算出两个序列的百分比同一性。基本上，当两个序列最佳比对(具有适当的核苷酸插入、缺失或缺口)时，参考(“查询”)多核苷酸分子的线性多核苷酸序列与测试(“受试者”)多核苷酸分子相比，相同核苷酸的百分比。

本地序列比对程序在计算上相似，但是仅比较序列的比对片段，而不是利用端到端分析。诸如BLAST的局部序列比对程序可用于比较两个序列的特定区域。两个序列的BLAST比较会产生E值或期望值，该值表示具有得分等于或优于原始比对得分(S)的不同比对的数量，预期偶然在数据库搜索中发生。E值越低，匹配越显著。因为数据库大小是E值计算中的一个元素，所以对于任何给定的查询/条目匹配，通过BLASTing针对公共数据库(如GENBANK)获得的E值通常随着时间的推移而增加。在设定多肽功能预测的置信度标准时，“高”BLAST匹配在本文中被认为具有对于最高BLAST命中而言的E值小于1E-30；中等的BLASTX E值为1E-30至1E-8；并且低的BLASTX E值大于1E-8。使用E值、百分比同一性、查询覆盖率和命中覆盖率的组合来确定本发明中的蛋白质功能分配。查询覆盖率是指查询序列以BLAST比对表示的百分比。命中覆盖率是指以BLAST比对方式表示的数据库条目的百分比。在本发明的一个实施例中，从蛋白同源物的功能推断查询多肽的功能，其中(1)hit[命中]_p<1e-30或％identity[同一性]>35％且query[查询]_coverage[覆盖率]>50％且hit[命中]_coverage[覆盖率]>50％，或(2)hit[命中]_p<1e-8且query[查询]_coverage[覆盖率]>70％且hit[命中]_coverage[覆盖率]>70％。在序列的BLAST分析过程中会产生以下缩写。

用于比较的序列的比对方法是本领域熟知的。描述了多种程序和比对算法。在一个实施例中，本公开涉及使用Vector NTI套件的AlignX比对程序(英杰公司(Invitrogen)，卡尔斯巴德，加利福尼亚州)计算两个多核苷酸或氨基酸序列之间的百分比同一性。AlignX比对程序是针对多核苷酸或蛋白质的全局序列比对程序。在一个实施例中，本公开涉及使用LASERGENE生物信息学计算套件的MegAlign程序计算两个多核苷酸或氨基酸序列之间的百分比同一性(MegAlign^TM

DNASTAR.麦迪逊,威斯康星州)。MegAlign程序是针对多核苷酸或蛋白质的全局序列比对程序。在一个实施例中，本公开涉及使用比对程序(包括但不限于ClustalW和ClustalV)的Clustal套件计算两个多核苷酸或氨基酸序列之间的百分比同一性(Higgins和Sharp(1988)Gene.[基因]12月15日；73(1):237-44；Higgins和Sharp(1989)CABIOS[计算机在生物科学中的应用]5:151-3；Higgins等人(1992)Comput.Appl.Biosci.[计算机应用生物科学]8:189-91)。在一个实施例中，本公开涉及使用比对程序(包括但不限于BLASTP、BLASTN、BLASTX等)的BLAST套件计算两个多核苷酸或氨基酸序列之间的百分比同一性(Altschul等人(1990)J.Mol.Biol.[分子生物学杂志]215:403-10)。在一个实施例中，本公开涉及使用比对程序(包括但不限于FASTA、TFASTX、TFASTY、SSEARCH、LALIGN等)的FASTA套件计算两个多核苷酸或氨基酸序列之间的百分比同一性(Pearson(1994)Comput.Methods Genome Res.[基因组研究中的计算方法][Proc.Int.Symp.],会议日期1992(Suhai和Sandor编辑),普莱南出版公司(Plenum):纽约市,纽约州,第111-20页)。在一个实施例中，本公开涉及使用比对程序(包括但不限于Matcher、Needle、Stretcher、Water、Wordmatch等)的EMBOSS套件计算两个多核苷酸或氨基酸序列之间的百分比同一性(Rice,P.,Longden,I.与Bleasby,A.EMBOSS:The EuropeanMolecular Biology Open Software Suite[欧洲分子生物学开放软件套件].Trends inGenetics[遗传学趋势]16(6)276-77(2000))。在一个实施例中，本公开涉及使用Geneious比对程序计算两个多核苷酸或氨基酸序列之间的百分比同一性(Kearse,M.等人(2012).Geneious Basic:an integrated and extendable desktop software platform forthe organization and analysis of sequence data[Geneious Basic：集成和可扩展的用于序列数据组织和分析的桌面软件平台].Bioinformatics[生物信息学],28(12),1647-49)。在一个实施例中，本公开涉及使用Needleman和Wunsch的Gap比对程序计算两个多核苷酸或氨基酸序列之间的百分比同一性(Needleman和Wunsch,Journal of MolecularBiology[分子生物学杂志]48:443-453,1970)。在一个实施例中，本公开涉及使用Smith和Waterman的BestFit比对程序计算两个多核苷酸或氨基酸序列之间的百分比同一性(Smith和Waterman,Advances in Applied Mathematics,[应用数学进展]2:482-489,1981,Smith等人,Nucleic Acids Research[核酸研究]11:2205-2220,1983)。这些程序产生发散序列的生物学上有意义的多重序列比对。将针对所选序列计算的最佳匹配比对排列起来，以便可以看到同一性、相似性和差异。

术语“相似性”是指氨基酸序列之间的比较，并且不仅考虑对应位置的相同氨基酸，而且考虑对应位置的功能上相似的氨基酸。因此，除了序列相似性之外，多肽序列之间的相似性还指示功能相似性。

术语“同源性”有时用于指两个或更多个核酸或氨基酸序列之间的相似性水平，以位置同一性(即序列相似性或同一性)的百分比表示。同源性也指进化相关性的概念，通常通过共享相似序列的不同核酸或蛋白质之间的相似功能特性来证明。

如本文所使用的，术语“变体”是指基本相似的序列。就核苷酸序列来说，可使用本领域熟知的分子生物学技术来鉴定天然存在的变体，诸如像用本文概述的聚合酶链反应(PCR)和杂交技术来鉴定。

对于核苷酸序列，变体包含在天然多核苷酸中的一个或多个内部位点处的一个或多个核苷酸的缺失和/或添加，和/或在天然多核苷酸中的一个或多个位点处的一个或多个核苷酸的取代。如本文所使用的，“天然”核苷酸序列包括天然存在的核苷酸序列。就核苷酸序列来说，可使用本领域熟知的分子生物学技术来鉴定天然存在的变体，例如，用以下概述的聚合酶链反应(PCR)和杂交技术来鉴定。核苷酸序列变体还包括人工合成的核苷酸序列，诸如通过例如采用定点诱变技术产生的那些核苷酸序列。通常，如通过本文别处所描述的序列比对程序和参数确定的，本发明的具体核苷酸序列的变体将与该具体的核苷酸具有至少约40％、45％、50％>、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％o、99％或更高的序列同一性。本发明的核苷酸序列的生物活性变体与该序列不同的核酸残基数可能只有1-15个，只有1-10个，如6-10个，只有5个，只有4、3、2个，或甚至只有1个。

如本文所使用的，术语“可操作地连接到”涉及当第一核酸序列与第二核酸序列具有功能关系时，第一核酸序列与第二核酸序列可操作地连接。例如，当启动子影响编码序列的转录或表达时，该启动子可操作地连接到编码序列。当重组产生时，可操作地连接的核酸序列通常是连续的，并且在需要连接两个蛋白质编码区的情况下，它们在同一阅读框中。但是，元件不必连续地可操作地连接。

如本文所使用的，术语“启动子”是指通常位于基因上游(朝向基因的5’区域)的DNA区域，并且是启动和驱动基因转录所需要的。启动子可以允许其控制的基因的适当激活或抑制。启动子可以含有被转录因子识别的特定序列。这些因子可能与启动子DNA序列结合，导致募集RNA聚合酶，RNA聚合酶是一种从基因编码区合成RNA的酶。启动子通常是指位于基因上游的所有基因调控元件，包括上游启动子、5’UTR、内含子和前导序列。

如本文所使用的，术语“上游启动子”是指足以指导转录起始的连续多核苷酸序列。如本文所使用的，上游-启动子涵盖具有几个序列基序的转录起始位点，这些序列基序包括TATA Box、启动子序列、TFIIB识别元件和其他启动子基序(Jennifer,E.F.等人,(2002)Genes&Dev.[基因与发育],16:2583-2592)。上游启动子为RNA聚合酶II提供了作用位点，RNA聚合酶II是具有基础或一般的转录因子(例如TFIIA、B、D、E、F和H)的多亚基酶。这些因子组装成转录前起始复合物，催化从DNA模板合成RNA。

上游启动子激活是通过多种蛋白质结合并随后与转录起始复合物相互作用以激活基因表达的调控DNA序列元件的附加序列完成的。这些基因调控元件序列与特定DNA结合因子相互作用。这些序列基序有时可称为顺式元件。此类顺式元件，结合至其组织特异性或发育特异性的转录因子单独或组合，可以在转录水平决定启动子的时空表达模式。这些顺式元件对可操作地连接的基因施加的控制类型差异很大。一些元件的作用是增加可操作连接的基因的转录响应环境响应(例如，温度、湿度和伤害)。其他顺式元件可能对发育线索(例如，发芽、种子成熟和开花)或空间信息(例如，组织特异性)有反应。参见，例如，Langridge等人,(1989)Proc.Natl.Acad.Sci.USA[美国科学院院报]86:3219-23。这些顺式元件位于距转录起点不同距离的位置，某些顺式元件(称为近端元件)与最小核心启动子区域相邻，而其他元件可位于启动子(增强子)上游或下游几千碱基处。

如本文所使用的，术语“5’非翻译区”或“5’UTR”定义为前mRNA或成熟mRNA的5’末端中的非翻译区段。例如，在成熟的mRNA上，5’UTR通常在其5’端带有7-甲基鸟苷帽，并且参与许多过程，如剪接、聚腺苷酸化、mRNA向细胞质的输出、通过翻译机器鉴定mRNA的5’端以及保护mRNA免受降解。

如本文所使用的，术语“内含子”是指转录但未翻译的基因(或表达的目的多核苷酸序列)中包含的任何核酸序列。内含子包括在表达的DNA序列内的未翻译的核酸序列，以及从其转录的RNA分子中的相应序列。本文所述的构建体还可含有增强翻译和/或mRNA稳定性的序列，如内含子。一个这种内含子的实例是拟南芥(Arabidopsis thaliana)组蛋白H3变体的基因II的第一内含子或任何其他通常已知的内含子序列。内含子可以与启动子序列组合使用以增强翻译和/或mRNA的稳定性。

如本文所使用的，术语“转录终止子”或“终止子”定义为前mRNA或成熟mRNA的3’末端中的转录区段。例如，超过“聚腺苷酸化信号”位点的更长的一段DNA被转录为前mRNA。该DNA序列通常含有转录终止信号，用于将前mRNA正确加工成成熟的mRNA。

如本文所使用的，术语“3’非翻译区”或“3’UTR”定义为前mRNA或成熟mRNA的3’末端中的非翻译区段。例如，在成熟的mRNA上，该区域带有聚-(A)尾，并且已知在mRNA稳定性、翻译起始和mRNA输出中具有许多作用。另外，认为3’UTR包括聚腺苷酸化信号和转录终止子。

如本文所使用的，术语“聚腺苷酸化信号”表示存在于mRNA转录物中的核酸序列，当存在聚-(A)聚合酶时，其允许转录物在聚腺苷酸化位点上被聚腺苷酸化，例如位于聚-(A)信号下游的10至30个碱基。许多聚腺苷酸化信号是本领域已知的，并且可用于本发明。示例性序列包括AAUAAA及其变体，如Loke J.等人，(2005)Plant Physiology[植物生理学]138(3)；1457-1468中所述。

“DNA结合转基因”是编码DNA结合蛋白的多核苷酸编码序列。所述DNA结合蛋白随后能够结合另一个分子。结合蛋白可以与例如DNA分子(DNA结合蛋白)、RNA分子(RNA结合蛋白)和/或蛋白质分子(蛋白质结合蛋白)结合。如果是蛋白质结合蛋白，它可以结合自身(以形成同型二聚体、同型三聚体等)和/或结合不同蛋白质的一个或多个分子。结合蛋白可以具有超过一种类型的结合活性。例如，锌指蛋白具有DNA结合、RNA结合和蛋白质结合活性。

DNA结合蛋白的实例包括；大范围核酸酶、锌指、CRISPR、和TALEN结合结构域可以被“工程化”以结合预定的核苷酸序列。典型地，工程化的DNA结合蛋白(例如，锌指、CRISPR或TALEN)是非天然存在的蛋白质。设计和选择用于工程化DNA结合蛋白的方法的非限制性实例。设计的DNA结合蛋白是自然界中不存在的蛋白，其设计/组成主要来自合理的标准。设计的合理标准包括应用替换规则和计算机算法，以处理数据库中存储现有ZFP、CRISPR和/或TALEN设计信息和结合数据的信息。参见，例如美国专利6,140,081；6,453,242；和6,534,261；还参见WO 98/53058；WO 98/53059；WO 98/53060；WO 02/016536和WO 03/016496和美国公开号20110301073、20110239315和20119145940。

“锌指DNA结合蛋白”(或结合结构域)是一种蛋白质，或者是较大蛋白质中的一个结构域，其可以通过一个或多个锌指按序列特异性方式结合DNA，所述锌指是结合结构域内氨基酸序列的区域，其结构通过锌离子的配位而稳定。术语锌指DNA结合蛋白通常缩写为锌指蛋白或ZFP。锌指结合结构域可以被“工程化”以结合预定的核苷酸序列。设计和选择用于工程化锌指蛋白的方法的非限制性实例。设计的锌指蛋白是自然界中不存在的蛋白，其设计/组成主要来自合理的标准。设计的合理标准包括应用替换规则和计算机算法，以处理数据库中存储现有ZFP设计信息和结合数据的信息。参见，例如美国专利号6,140,081；6,453,242；6,534,261和6,794,136；还参见WO 98/53058；WO 98/53059；WO 98/53060；WO 02/016536和WO 03/016496。

在其他实例中，一种或多种核酸酶的DNA结合结构域包含天然存在或工程化的(非天然存在的)TAL效应子DNA结合结构域。参见，例如美国专利公开号20110301073，其通过引用以其整体并入本文。已知黄单胞菌属(Xanthomonas)的植物致病细菌在重要的作物植物中引起许多疾病。黄单胞菌属的致病性取决于保守的III型分泌(T3S)系统，该系统向植物细胞中注入的蛋白质超过了不同的效应子蛋白。在这些注射的蛋白质中有转录激活子样(TALEN)效应子，它们模仿植物转录激活子并操纵植物转录组(参见Kay等人，(2007)Science[科学]318:648-651)。这些蛋白质含有DNA结合结构域和转录激活结构域。表征最充分的TAL效应子之一是来自疱病野油菜黄单胞菌(Xanthomonas campestgrispv.Vesicatoria)的AvrBs3(参见Bonas等人,(1989)Mol Gen Genet[分子和普通遗传学]218:127-136和WO 2010079430)。TAL效应子含有串联重复的集中结构域，每个重复含有约34个氨基酸，这是这些蛋白质的DNA结合特异性的关键。另外，它们含有核定位序列和酸性转录激活结构域(综述参见Schornack S等人，(2006)J Plant Physiol[植物生理学]163(3):256-272)。另外，在植物病原细菌青枯雷尔氏菌(Ralstonia solanacearum)两个基因，指定brg11和hpx17已经发现与青枯雷尔氏菌生物变体菌株GMI1000和生物变体4菌株RS1000的黄单胞菌属AvrBs3家族同源(参见Heuer等人,(2007)Appl and Enviro Micro[应用与环境微生物学]73(13):4379-4384)。这些基因在核苷酸序列上彼此具有98.9％的同一性，但在hpx17的重复结构域中相差1,575bp的缺失。然而，两种基因产物与黄单胞菌属的AvrBs3家族蛋白具有少于40％序列同一性。参见，例如美国专利公开号20110301073，其通过引用以其整体并入。

这些TAL效应子的特异性取决于在串联重复序列中发现的序列。重复序列包含约102bp，重复序列典型地与彼此为91％-100％同源(Bonas等人，同上)。重复序列的多态性通常位于位置12和13，并且似乎有位置12和13上的高变二残基的身份与TAL效应子的靶序列中连续核苷酸的身份之间的一种一一对应关系(参见Moscou和Bogdanove,(2009)Science[科学]326:1501和Boch等人(2009)Science[科学]326:1509-1512)。实验上，这些TAL效应子的DNA识别的自然密码已经确定了使得位置12和13的HD序列导致与胞嘧啶(C)结合，NG与T结合，NI与A、C、G或T结合，NN与A或G结合，而ING与T结合。这些DNA结合重复序列已被组装成具有新的重复序列的组合和数量的蛋白质，以制造能够与新序列相互作用并激活植物细胞中的非内源性报告基因表达的人工转录因子(Boch等人，同上)。工程化的TAL蛋白已与FokI切割半结构域连接，以产生TAL效应子结构域核酸酶融合蛋白(TALEN)，其在酵母报告基因测定(基于质粒的靶标)中具有活性。

CRISPR(成簇的规律间隔的短回文重复序列)/Cas(CRISPR相关的)核酸酶系统是基于细菌系统的一种最近工程化的核酸酶系统，可用于基因组工程。它基于许多细菌和古细菌的适应性免疫反应的一部分。当病毒或质粒入侵细菌时，入侵者的DNA区段会通过‘免疫’反应转化为CRISPRRNA(crRNA)。然后，该crRNA通过部分互补区域与另一种称为tracrRNA的RNA结合，以将Cas9核酸酶引导至与靶DNA中与crRNA同源的区域，称为“前间区序列”。Cas9切割DNA以在双链断裂末端(DSB)在由crRNA转录物中含有的20核苷酸指导序列指定的位点处产生平末端。Cas9需要crRNA和tracrRNA才能进行位点特异性DNA识别和切割。现在已经对该系统进行了工程化，以便可以将crRNA和tracrRNA组合至一个分子(“单个指导RNA”)，并且可以对单个指导RNA的crRNA等效部分进行工程化，以指导Cas9核酸酶靶向任何所希望的序列(参见Jinek等人,(2012)Science[科学]337,第816-821页，Jinek等人,(2013),eLife 2:e00471和David Segal,(2013)eLife 2:e00563)。在其他实例中，crRNA与tracrRNA结合，以将Cpf1核酸酶引导至与crRNA同源的区域，以切割末端交错的DNA(参见Zetsche,Bernd等人,Cell[细胞]163.3(2015):759-771.)。因此，可以对CRISPR/Cas系统工程化以在基因组中的希望的靶标上产生DSB，并且可以通过使用修复抑制剂来影响DSB的修复，从而导致易于出错的修复增加。

在其他实例中，所述DNA结合转基因/异源编码序列是位点特异性核酸酶，其包含工程化的(非天然存在的)大范围核酸酶(也称为归巢核酸内切酶)。归巢核酸内切酶或大范围核酸酶的识别序列，如I-SceI、I-CeuI、PI-PspI、PI-Sce、I-SceIV、I-CsmI、I-PanI、I-SceII、I-PpoI、I-SceIII、I-CreI、I-TevI、I-TevII和I-TevIII是已知的。还参见美国专利号5,420,032；美国专利号6,833,252；Belfort等人,(1997)Nucleic Acids Res.[核酸研究]25:3379-303388；Dujon等人,(1989)Gene[基因]82:115-118；Perler等人,(1994)Nucleic Acids Res.[核酸研究]22,11127；Jasin(1996)Trends Genet.[遗传学趋势]12:224-228；Gimble等人,(1996)J.Mol.Biol.[分子生物学杂志]263:163-180；Argast等人,(1998)J.Mol.Biol.[分子生物学杂志]280:345-353和新英格兰生物实验室目录。另外，归巢核酸内切酶和大范围核酸酶的DNA结合特异性可以被工程化以结合非天然靶标位点。参见，例如，Chevalier等人(2002)Molec.Cell[分子细胞]10:895-905；Epinat等人,(2003)Nucleic Acids Res.[核酸研究]5 31:2952-2962；Ashworth等人,(2006)Nature[自然]441:656-659；Paques等人,(2007)Current Gene Therapy[目前基因疗法]7:49-66；美国专利公开号20070117128。归巢核酸内切酶和大范围核酸酶的DNA结合结构域可以在整个核酸酶的背景下改变(即，使得核酸酶包括同源切割结构域)，或者可以与异源切割结构域融合。

如本文所使用的，术语“转化”涵盖可以将核酸分子引入这种细胞的所有技术。实例包括但不限于：用病毒载体转染；用质粒载体转化；电穿孔；脂质转染；显微注射(Mueller等人,(1978)Cell[细胞]15:579-85)；农杆菌介导的转移；直接DNA摄取；WHISKERS^TM介导的转化；和微粒轰击。这些技术可用于植物细胞的稳定转化和瞬时转化。“稳定转化”是指将核酸片段引入宿主生物体的基因组中，导致遗传稳定的遗传。一旦经稳定转化，核酸片段稳定地整合入宿主生物体和任何后代的基因组中。含有经转化的核酸片段的宿主生物体被称为“转基因的”生物体。“瞬时转化”是指将核酸片段引入宿主生物体的细胞核或含DNA的细胞器中，导致不具遗传稳定遗传的基因表达。

外源核酸序列。在一个实例中，转基因/异源编码序列是基因序列(例如，除草剂抗性基因)、编码工业上或药学上有用的化合物的基因、或编码希望的农艺性状的基因。在又另一个实例中，所述转基因/异源编码序列是反义核酸序列，其中所述反义核酸序列的表达抑制靶核酸序列的表达。转基因/异源编码序列可以含有可操作地连接到所述转基因/异源编码序列(例如，启动子)的调控序列。在一些实施例中，目的多核苷酸序列是转基因。然而，在其他实施例中，目的多核苷酸序列是内源核酸序列，其中希望的是内源核酸序列的另外的基因组拷贝，或相对于宿主生物体中靶核酸分子的序列处于反义方向的核酸序列。

如本文所使用的，通过以下来产生术语转基因“事件”：用异源DNA转化植物细胞，所述异源DNA为包括目的转基因/异源编码序列的核酸构建体；再生由所述转基因/异源编码序列插入所述植物的基因组中所产生的植物群体；并且选择表征为插入特定基因组位置的特定植物。术语“事件”是指包括异源DNA的原始转化体和该转化体的后代。术语“事件”还指由转化体与包括基因组/转基因DNA的另一种变体之间的有性杂交产生的后代。即使在与轮回亲本反复回交后，插入的转基因/异源编码序列DNA和来自经转化的亲本的侧翼基因组DNA(基因组/转基因DNA)也存在于杂交的后代中相同的染色体位置。术语“事件”也指来自原始转化体和其后代的DNA，所述后代包含插入的DNA和与插入的DNA直接相邻的侧翼基因组序列，插入的DNA预期将被转移到接受包括目的转基因/异源编码序列的插入的DNA的后代中，得到包括插入的DNA(例如，自交所产生的原始转化子和后代)的亲本系和不含有插入的DNA的亲本系发生性杂交的结果。

如本文所使用的，术语“聚合酶链式反应”或“PCR”定义了如下程序或技术，其中如1987年7月28日授权的美国专利号4,683,195中所述扩增了微量的核酸、RNA和/或DNA。通常，需要从目的区域的末端或以外的区域获得序列信息，使得可以设计寡核苷酸引物；这些引物在序列上与待扩增模板的相反链相同或相似。两个引物的5’末端核苷酸可以与扩增的材料的末端一致。PCR可用于从总的基因组DNA扩增特定的RNA序列、特定的DNA序列，以及从总的细胞RNA、噬菌体或质粒序列转录的cDNA等。通常参见Mullis等人,Cold SpringHarbor Symp.Quant.Biol.[冷泉港定量生物学研讨会],51:263(1987)；Erlich编辑,PCRTechnology[PCR技术],(Stockton Press[斯托克顿出版社],纽约州,1989)。

如本文所使用的，术语“引物”是指当条件适合于引物延伸产物的合成时能够充当沿着互补链的合成起始点的寡核苷酸。合成条件包括存在四种不同的脱氧核糖核苷酸三磷酸和至少一种聚合诱导剂，如逆转录酶或DNA聚合酶。它们存在于合适的缓冲液中，其可以包括作为辅因子的成分或在各种合适的温度下影响诸如pH等条件的成分。引物优选地是单链序列，使得扩增效率最优化，但是可以使用双链序列。

如本文所使用的，术语“探针”是指与靶序列杂交的寡核苷酸。在

或

风格的测定程序中，探针与位于两个引物的退火位点之间的靶标的一部分杂交。探针包括约八个核苷酸、约十个核苷酸、约十五个核苷酸、约二十个核苷酸、约三十个核苷酸、约四十个核苷酸或约五十个核苷酸。在一些实施例中，探针包括约八个核苷酸至约十五个核苷酸。探针还可以包括可检测标记，例如荧光团(

异硫氰酸荧光素等)。可检测标记可以直接共价附接于探针寡核苷酸，例如位于探针的5’端或探针的3’端。包括荧光团的探针还可以进一步包括淬灭剂，例如Black Hole Quencher^TM、Iowa Black^TM等。

如本文所使用的，术语“限制性内切核酸酶”和“限制酶”是指细菌酶，每种这样的酶在特定核苷酸序列上或附近切割双链DNA。2型限制酶在同一位点识别并切割DNA，包括但不限于XbaI、BamHI、HindIII、EcoRI、XhoI、SalI、KpnI、AvaI、PstI和SmaI。

如本文所使用的，术语“载体”与术语“构建体”、“克隆载体”和“表达载体”可互换使用，并且意指可将DNA或RNA序列(例如外源基因)引入宿主细胞，以转化宿主并促进所引入的序列的表达(例如转录和翻译)的载体。“非病毒载体”旨在意指不包含病毒或逆转录病毒的任何载体。在一些实施例中，“载体”是包含至少一个DNA复制起点和至少一个选择性标记基因的DNA序列。实例包括但不限于将外源DNA带入细胞的质粒、粘粒、噬菌体、细菌人工染色体(BAC)或病毒。载体还可以包括一个或多个基因、反义分子和/或选择性标记基因以及本领域已知的其他遗传元件。载体可以转导、转化或感染细胞，从而使细胞表达由载体编码的核酸分子和/或蛋白质。

术语“质粒”定义了能够在原核或真核宿主细胞中常染色体复制的核酸的环状链。该术语包括可以是DNA或RNA并且可以是单链或双链的核酸。该定义的质粒还可以包括对应于细菌复制起点的序列。

如本文所使用的，如本文所使用的术语“选择性标记基因”定义了编码蛋白质的基因或其他表达盒，所述蛋白质有助于鉴定插入了选择性标记基因的细胞。例如，“选择性标记基因”涵盖报告基因以及用于植物转化以例如保护植物细胞免于选择剂或对选择剂提供抗性/耐受性的基因。在一个实施例中，仅那些接受功能选择性标记的细胞或植物能够在具有选择剂的条件下分裂或生长。短语“标记阳性”是指已经被转化为包括选择性标记基因的植物。

如本文所使用的，术语“可检测标记”是指能够检测的标记，诸如像放射性同位素、荧光化合物、生物发光化合物、化学发光化合物、金属螯合剂或酶。可检测标记的实例包括但不限于以下：荧光标记(例如，FITC、若丹明、镧系元素荧光粉)、酶标记(例如，辣根过氧化物酶、β-半乳糖苷酶、萤光素酶、碱性磷酸酶)、化学发光、生物素基、由二级报告分子识别的预定多肽表位(例如，亮氨酸拉链对序列、二级抗体的结合位点、金属结合结构域、表位标签)。在一个实施例中，可检测标记可以通过多种长度的间隔臂附接以减少潜在的空间位阻。

如本文所使用的，术语“盒”、“表达盒”和“基因表达盒”是指可在特定限制位点处或通过同源重组插入核酸或多核苷酸中的DNA区段。如本文所使用的，DNA的区段包含编码目的多肽的多核苷酸，并且盒和限制位点被设计为确保将盒插入适当的阅读框中以进行转录和翻译。在一个实施例中，表达盒可以包括编码目的多肽的多核苷酸，并且除了促进特定宿主细胞转化的多核苷酸外还具有元件。在一个实施例中，基因表达盒还可以包括允许在宿主细胞中增强表达编码目的多肽的多核苷酸的元件。这些元件可包括但不限于：启动子、最小启动子、增强子、响应元件、终止子序列、聚腺苷酸化序列等。

如本文所使用的，“接头”或“间隔子”是将两个分开的实体彼此结合的键、分子或分子的组。接头和间隔基可以提供两个实体的最佳间隔，或者可以进一步提供允许两个实体彼此分离的不稳定的连接。不稳定键包括光可裂解基团、酸不稳定部分、碱基不稳定部分和酶可裂解基团。如本文所使用的，术语“多接头”或“多克隆位点”定义了位于核酸序列上彼此10个核苷酸内的三个或更多个2型限制酶位点的簇。在其他情况下，如本文所使用的“多接头”是指通过任何已知的无缝克隆方法(即Gibson

NEBuilder HiFiDNA

Golden Gate Assembly、

Assembly等)靶向连接两个序列的一段核苷酸。包含多接头的构建体用于核酸序列如基因的编码区的插入和/或切除。

如本文所使用的，术语“对照”是指在分析程序中用于比较目的的样品。对照可以是“阳性”或“阴性”。例如，在分析程序的目的是检测细胞或组织中差异表达的转录物或多肽的情况下，通常优选包括阳性对照(如来自已知植物的表现出所希望的表达的样品)和阴性对照(如来自已知植物的缺少所希望的表达的样品)。

如本文所使用的，术语“植物”包括整株植物以及任何后代，细胞、组织或植物的一部分。可用于本发明的植物种类通常包括适合变异发生的高等及低等植物，包括被子植物(单子叶植物和双子叶植物)、裸子植物、蕨类植物和多细胞藻类。因此，“植物”包括双子叶植物和单子叶植物。术语“植物部分”包括植物的任何一个或多个部分，包括例如但不限于：种子(包括成熟种子和未成熟种子)；植物插条；细胞植物；植物细胞培养物；植物器官(例如，花粉、胚胎、花、果实、芽、叶、根、茎和外植体)。植物组织或植物器官可以是种子、原生质体、愈伤组织或组织成结构或功能单元的任何其他组的植物细胞。植物细胞或组织培养物可能能够再生具有从其获得细胞或组织的植物的生理和形态特征的植物，并且能够再生具有与该植物基本相同的基因型的植物。相比之下，一些植物细胞不能再生以产生植物。植物细胞或组织培养物中的可再生细胞可以是胚胎、原生质体、分生组织细胞、愈伤组织、花粉、叶、花药、根、根尖、花丝、花、籽粒、穗、穗轴、苞叶或茎秆。

植物部分包括可收获部分和可用于后代植物繁殖的部分。可用于繁殖的植物部分包括例如但不限于：种子；果实；插条；秧苗；块茎；和根茎。植物的可收获部分可以是植物的任何有用的部分，包括例如但不限于：花；花粉；秧苗；块茎；叶；茎；果实；种子；和根。

植物细胞是植物的结构和生理单位，包括原生质体和细胞壁。植物细胞可以呈分离的单个细胞或细胞聚集物(例如，易碎的愈伤组织和培养的细胞)的形式，并且可以是更高组织的单元(例如，植物组织、植物器官和植物)的部分。因此，植物细胞可以是原生质体、产生配子的细胞或可以再生为整株植物的细胞或细胞集合。这样，包含多个植物细胞并且能够再生为完整植物的种子在本文的实施例中被认为是“植物细胞”。

如本文所使用的，术语“小RNA”是指几类非编码核糖核酸(ncRNA)。术语小RNA描述在细菌细胞、动物、植物和真菌中产生的ncRNA的短链。这些ncRNA的短链可以在细胞内自然产生，也可以通过引入表达该短链或ncRNA的外源序列来产生。小RNA序列不直接编码蛋白质，并且在功能上不同于其他RNA，因为小RNA序列仅被转录而不被翻译。小RNA序列参与其他细胞功能，包括基因表达和修饰。小RNA分子通常由约20至30个核苷酸组成。所述小RNA序列可以源自更长的前体。前体形成自我互补区域中彼此折叠的结构；然后由动物中的核酸酶Dicer或植物中的DCL1处理它们。

许多类型的小RNA天然存在或人工产生，包括微RNA(miRNA)、短干扰RNA(siRNA)、反义RNA、短发夹RNA(shRNA)和核仁小RNA(snoRNA)。某些类型的小RNA，如微RNA和siRNA，在基因沉默和RNA干扰(RNAi)中很重要。基因沉默是遗传调控的过程，其中通常会表达的基因被细胞内元件(在这种情况下为小RNA)“关闭”。由于干扰而不能形成通常由该遗传信息形成的蛋白质，并且该基因中编码的信息被阻止表达。

如本文所使用的，术语“小RNA”涵盖文献中描述为“微小RNA”的RNA分子(Storz,(2002)Science[科学]296:1260-3；Illangasekare等人,(1999)RNA 5:1482-1489)；原核“小RNA”(sRNA)(Wassarman等人,(1999)Trends Microbiol.[微生物学趋势]7:37-45)；真核“非编码RNA(ncRNA)”；“微RNA(miRNA)”；“小非mRNA(snmRNA)”；“功能性RNA(fRNA)”；“转移RNA(tRNA)”；“催化RNA”[例如，核酶，包括自我酰化核酶(Illangaskare等人,(1999)RNA5:1482-1489)；“核仁小RNA(snoRNA)”、“tmRNA”(又名“10S RNA,”Muto等人,(1998)TrendsBiochem Sci.[生物化学科学趋势]23:25-29；和Gillet等人,(2001)Mol Microbiol.[分子微生物学]42:879-885)；RNAi分子包括但不限于“小干扰RNA(siRNA)”、“内切核糖核酸酶-制备的siRNA(e-siRNA)”、“短发夹RNA(shRNA)”、和“小时序RNA(stRNA)”、“切粒的siRNA(d-siRNA)”、和包含至少一个尿嘧啶碱基的适配子、寡核苷酸和其他合成核酸。

除非另外具体解释，否则在此所使用的所有技术和科学术语均具有与本公开所属领域普通技术人员所通常理解的相同含义。分子生物学中常用术语的定义可以在例如：Lewin,Genes V[基因V],Oxford University Press[牛津大学出版社],1994(ISBN 0-19-854287-9)；Kendrew等人(编辑),The Encyclopedia of Molecular Biology[分子生物学百科全书],Blackwell Science Ltd.[布莱克威尔科学有限公司],1994(ISBN 0-632-02182-9)；和Meyers(编辑),Molecular Biology and Biotechnology:A ComprehensiveDesk Reference,[分子生物学和生物技术：综合办公桌参考]VCH Publishers,Inc.,[VCH出版公司]1995(ISBN 1-56081-569-8)中找到。

III.GmCAB2基因调控元件和包含其的核酸

提供了使用来自大豆Glyma10g39460(光系统I亚基PsaD)基因的启动子在植物中表达非GmCAB2转基因的方法和组合物。在一个实施例中，所述启动子可以是SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29的GmCAB2基因启动子。

在一个实施例中，提供了包含启动子的多核苷酸，其中所述启动子与SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29具有至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、99.8％、或100％同一性。在一个实施例中，所述启动子是GmCAB2基因启动子，其包含与SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29的多核苷酸具有至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、99.8％、或100％同一性的多核苷酸。在一个实施例中，提供了分离的多核苷酸，其包含与SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29的多核苷酸至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、99.8％、或100％同一性。在一个实施例中，提供了核酸载体，其包含SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29的GmCAB2启动子。在一个实施例中，提供了多核苷酸，其包含可操作地连接到多接头的GmCAB2启动子。在一个实施例中，提供了基因表达盒，其包含可操作地连接到非GmCAB2转基因的GmCAB2启动子。在一个实施例中，提供了核酸载体，其包含可操作地连接到非GmCAB2转基因的GmCAB2启动子。在一个实施例中，启动子由SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29组成。在说明性实施例中，核酸载体包含可操作地连接到转基因的GmCAB2启动子，其中所述转基因/异源编码序列可以是杀昆虫抗性转基因、除草剂耐受性转基因、氮利用效率转基因、水利用效率转基因、营养品质转基因、DNA结合转基因、小RNA转基因、选择性标记转基因或其组合。

在一个实施例中，核酸载体包含如本文公开的基因表达盒。在一个实施例中，载体可以是用于直接转化或基因靶向如供体DNA的质粒、粘粒、细菌人工染色体(BAC)、噬菌体、病毒或切除的多核苷酸片段。

转基因表达也可以由位于启动子序列下游的5’UTR区域调控。启动子和5’UTR均可调控转基因/异源编码序列的表达。虽然启动子是驱动转录所必需的，但是5’UTR的存在可以增加表达水平，从而产生用于翻译和蛋白质合成的mRNA转录物。5’UTR基因区域有助于转基因的稳定表达。在进一步的实施例中，5’UTR可操作地连接到GmCAB2启动子。在一个实施例中，5’UTR可以是SEQ ID NO:3的GmCAB2 5’UTR。

在一个实施例中，提供了包含5’UTR的多核苷酸，其中所述5’UTR与SEQ ID NO:3具有至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、99.8％、或100％同一性。在一个实施例中，5’UTR是GmCAB2 5’UTR，其包含与SEQ ID NO:3的多核苷酸具有至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、99.8％、或100％同一性的多核苷酸。在一个实施例中，提供了分离的多核苷酸，其包含与SEQ ID NO:3的多核苷酸至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、99.8％、或100％同一性。在一个实施例中，提供了核酸载体，其包含SEQ ID NO:3的GmCAB2 5’UTR。在一个实施例中，提供了多核苷酸，其包含可操作地连接到多接头的GmCAB2 5’UTR。在一个实施例中，提供了基因表达盒，其包含可操作地连接到非GmCAB2转基因的GmCAB2 5’UTR。在一个实施例中，提供了核酸载体，其包含可操作地连接到非GmCAB2转基因的GmCAB2 5’UTR。在一个实施例中，所述5’UTR由SEQ ID NO:3组成。在说明性实施例中，核酸载体包含可操作地连接到转基因的GmCAB2 5’UTR，其中所述转基因/异源编码序列可以是杀昆虫抗性转基因、除草剂耐受性转基因、氮利用效率转基因、水利用效率转基因、营养品质转基因、DNA结合转基因、小RNA转基因、选择性标记转基因或其组合。

转基因表达也可以由位于启动子序列下游的内含子区域调控。启动子和内含子均可调控转基因/异源编码序列的表达。虽然启动子是驱动转录所必需的，但内含子的存在可以增加表达水平，从而产生用于翻译和蛋白质合成的mRNA转录物。内含子基因区域有助于转基因的稳定表达。在进一步的实施例中，内含子可操作地连接到GmCAB2启动子。

根据一个实施例，提供了核酸载体，其包含重组基因表达盒，其中所述重组基因表达盒包含可操作地连接到多接头序列的GmCAB2启动子、非GmCAB2基因或非GmCAB2转基因或其组合。在一个实施例中，所述重组基因盒包含可操作地连接到非GmCAB2基因或转基因的GmCAB2启动子。在一个实施例中，所述重组基因盒包含如本文公开的可操作地连接到多接头序列的GmCAB2启动子。所述多接头以一种方式可操作地连接到所述GmCAB2启动子，所述方式使得将编码序列插入所述多接头的限制性位点之一将可操作地连接所述编码序列，从而当所述载体被转化或转染到宿主细胞中时允许所述编码序列的表达。

根据一个实施例，提供了核酸载体，其包含基因盒，所述基因盒由GmCAB2启动子和非GmCAB2基因组成。在一个实施例中，SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29的GmCAB2启动子可操作地连接到所述非GmCAB2基因或转基因的5’末端。在进一步的实施例中，所述GmCAB2启动子序列包含SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29或与SEQ IDNO:2、SEQ ID NO:28或SEQ ID NO:29具有80％、85％、90％、95％、99％或100％序列同一性的序列。根据一个实施例，提供了核酸载体，其包含基因盒，所述基因盒由GmCAB2启动子、非GmCAB2基因组成，其中所述GmCAB2启动子可操作地连接到所述非GmCAB2基因的5’末端，并且所述GmCAB2启动子序列包含SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29或与SEQ IDNO:2、SEQ ID NO:28或SEQ ID NO:29具有80％、85％、90％、95％、99％或100％序列同一性的序列。在进一步的实施例中，所述GmCAB2启动子序列由SEQ ID NO:2或与SEQ ID NO:2具有80％、85％、90％、95％、或99％序列同一性的1,376bp序列组成。在进一步的实施例中，所述GmCAB2启动子序列由SEQ ID NO:28或与SEQ ID NO:28具有80％、85％、90％、95％、或99％序列同一性的1,453bp序列组成。在进一步的实施例中，所述GmCAB2启动子序列由SEQID NO:29或与SEQ ID NO:29具有80％、85％、90％、95％、或99％序列同一性的1,454bp序列组成。

根据一个实施例，提供了核酸载体，其包含重组基因表达盒，其中所述重组基因表达盒包含可操作地连接到多接头序列的GmCAB2 5’UTR、非GmCAB2基因或转基因或其组合。在一个实施例中，所述重组基因盒包含可操作地连接到非GmCAB2基因或转基因的GmCAB25’UTR。在一个实施例中，所述重组基因盒包含如本文公开的可操作地连接到多接头序列的GmCAB2 5’UTR。所述多接头以一种方式可操作地连接到所述GmCAB2 5’UTR，所述方式使得将编码序列插入所述多接头的限制性位点之一将可操作地连接所述编码序列，从而当所述载体被转化或转染到宿主细胞中时允许所述编码序列的表达。

根据一个实施例，提供了核酸载体，其包含基因盒，所述基因盒由GmCAB2 5’UTR和非GmCAB2基因组成。在一个实施例中，SEQ ID NO:3的GmCAB2 5’UTR可操作地连接到所述非GmCAB2基因或转基因的5’末端。在进一步的实施例中，所述GmCAB2 5’UTR序列包含SEQ IDNO:3或与SEQ ID NO:3具有80％、85％、90％、95％、99％或100％序列同一性的序列。根据一个实施例，提供了核酸载体，其包含基因盒，所述基因盒由GmCAB2 5’UTR、非GmCAB2基因组成，其中所述GmCAB2 5’UTR可操作地连接到所述非GmCAB2基因的5’末端，并且所述GmCAB2基因5’UTR序列包含SEQ ID NO:3或与SEQ ID NO:3具有80％、85％、90％、95％、99％或100％序列同一性的序列。在进一步的实施例中，所述GmCAB2基因5’UTR序列由SEQ ID NO:3或与SEQ ID NO:3具有80％、85％、90％、95％、或99％序列同一性的124bp序列组成。

GmCAB2启动子还可以包含一个或多个另外的序列元件。在一些实施例中，GmCAB2启动子可以包含外显子(例如，前导或信号肽，如叶绿体转运肽或ER保留信号)。例如但不限于，作为进一步的实施例，GmCAB2启动子可以编码掺入所述GmCAB2启动子中的外显子。

进一步提供了使用来自大豆Glyma10g39460(光系统I亚基PsaD)基因的3’UTR终止植物中非GmCAB2转基因的表达的方法和组合物。在一个实施例中，3’UTR终止子可以是SEQID NO:4的GmCAB2 3’UTR。

在一个实施例中，提供了包含3’UTR的多核苷酸，其中所述3’UTR与SEQ ID NO:4具有至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、99.8％、或100％同一性。在一个实施例中，3’UTR是GmCAB2 3’UTR，其包含与SEQ ID NO:4的多核苷酸具有至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、99.8％、或100％同一性的多核苷酸。在一个实施例中，提供了分离的多核苷酸，其包含与SEQ ID NO:4的多核苷酸至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、99.8％、或100％同一性。在一个实施例中，提供了核酸载体，其包含SEQ ID NO:4的GmCAB2 3’UTR。在一个实施例中，提供了多核苷酸，其包含可操作地连接到多接头的GmCAB2 3’UTR。在一个实施例中，提供了基因表达盒，其包含可操作地连接到非GmCAB2转基因的GmCAB2 3’UTR。在一个实施例中，提供了核酸载体，其包含可操作地连接到非GmCAB2转基因的GmCAB2 3’UTR。在一个实施例中，所述3’UTR由SEQ ID NO:4组成。在说明性实施例中，核酸载体包含可操作地连接到转基因的GmCAB2基因3’UTR，其中所述转基因/异源编码序列可以是杀昆虫抗性转基因、除草剂耐受性转基因、氮利用效率转基因、水利用效率转基因、营养品质转基因、DNA结合转基因、小RNA转基因、选择性标记转基因或其组合。

根据一个实施例，提供了核酸载体，其包含重组基因表达盒，其中所述重组基因表达盒包含可操作地连接到多接头序列的GmCAB2 3’UTR、非GmCAB2基因或转基因/异源编码序列或其组合。在一个实施例中，所述重组基因盒包含可操作地连接到非GmCAB2基因或转基因的GmCAB2 3’UTR。在一个实施例中，所述重组基因盒包含如本文公开的可操作地连接到多接头序列的GmCAB2 3’UTR。所述多接头以一种方式可操作地连接到所述GmCAB2 3’UTR，所述方式使得将编码序列插入所述多接头的限制性位点之一将可操作地连接所述编码序列，从而当所述载体被转化或转染到宿主细胞中时允许所述编码序列的表达。

根据一个实施例，提供了核酸载体，其包含基因盒，所述基因盒由GmCAB2 3’UTR和非GmCAB2基因组成。在一个实施例中，SEQ ID NO:4的GmCAB2 3’UTR可操作地连接到所述非GmCAB2基因或转基因的3’末端。在进一步的实施例中，所述GmCAB2 3’UTR序列包含SEQ IDNO:4或与SEQ ID NO:4具有80％、85％、90％、95％、99％或100％序列同一性的序列。根据一个实施例，提供了核酸载体，其包含基因盒，所述基因盒由GmCAB2 3’UTR、非GmCAB2基因组成，其中所述GmCAB2 3’UTR可操作地连接到所述非GmCAB2基因的3’末端，并且所述GmCAB23’UTR序列包含SEQ ID NO:4或与SEQ ID NO:4具有80％、85％、90％、95％、99％或100％序列同一性的序列。在进一步的实施例中，所述GmCAB2 3’UTR序列由SEQ ID NO:4或与SEQ IDNO:4具有80％、85％、90％、95％、或99％序列同一性的278bp序列组成。

提供了使用来自大豆Glyma10g39460(光系统I亚基PsaD)基因的终止子终止植物中非GmCAB2转基因的表达的方法和组合物。在一个实施例中，终止子可以是SEQ ID NO:5的GmCAB2终止子。

在一个实施例中，提供了包含终止子的多核苷酸，其中所述终止子与SEQ ID NO:5具有至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、99.8％、或100％同一性。在一个实施例中，终止子是GmCAB2终止子，其包含与SEQ ID NO:5的多核苷酸具有至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、99.8％、或100％同一性的多核苷酸。在一个实施例中，提供了分离的多核苷酸，其包含与SEQ ID NO:5的多核苷酸至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、99.8％、或100％同一性。在一个实施例中，提供了核酸载体，其包含SEQ ID NO:5的GmCAB2终止子。在一个实施例中，提供了多核苷酸，其包含可操作地连接到多接头的GmCAB2终止子。在一个实施例中，提供了基因表达盒，其包含可操作地连接到非GmCAB2转基因的GmCAB2终止子。在一个实施例中，提供了核酸载体，其包含可操作地连接到非GmCAB2转基因的GmCAB2终止子。在一个实施例中，所述终止子由SEQ ID NO:5组成。在说明性实施例中，核酸载体包含可操作地连接到转基因的GmCAB2终止子，其中所述转基因/异源编码序列可以是杀昆虫抗性转基因、除草剂耐受性转基因、氮利用效率转基因、水利用效率转基因、营养品质转基因、DNA结合转基因、小RNA转基因、选择性标记转基因或其组合。

根据一个实施例，提供了核酸载体，其包含重组基因表达盒，其中所述重组基因表达盒包含可操作地连接到多接头序列的GmCAB2终止子、非GmCAB2基因或转基因或其组合。在一个实施例中，所述重组基因盒包含可操作地连接到非GmCAB2基因或转基因的GmCAB2终止子。在一个实施例中，所述重组基因盒包含如本文公开的可操作地连接到多接头序列的GmCAB2终止子。所述多接头以一种方式可操作地连接到所述GmCAB2终止子，所述方式使得将编码序列插入所述多接头的限制性位点之一将可操作地连接所述编码序列，从而当所述载体被转化或转染到宿主细胞中时允许所述编码序列的表达。

根据一个实施例，提供了核酸载体，其包含基因盒，所述基因盒由GmCAB2终止子和非GmCAB2基因组成。在一个实施例中，SEQ ID NO:5的GmCAB2终止子可操作地连接到所述非GmCAB2基因或转基因的3’末端。在进一步的实施例中，所述GmCAB2终止子序列包含SEQ IDNO:5或与SEQ ID NO:5具有80％、85％、90％、95％、99％或100％序列同一性的序列。根据一个实施例，提供了核酸载体，其包含基因盒，所述基因盒由GmCAB2终止子、非GmCAB2基因组成，其中所述GmCAB2终止子可操作地连接到所述非GmCAB2基因的3’末端，并且所述GmCAB2启动子序列包含SEQ ID NO:5或与SEQ ID NO:5具有80％、85％、90％、95％、99％或100％序列同一性的序列。在进一步的实施例中，所述GmCAB2终止子序列由SEQ ID NO:5或与SEQ IDNO:5具有80％、85％、90％、95％、或99％序列同一性的425bp序列组成。

在一个实施例中，提供了核酸构建体，其包含GmCAB2启动子和非GmCAB2基因，以及任选地一种或多种以下元件：

a)5’非翻译区；

b)内含子；和

c)3’非翻译区，

其中

所述GmCAB2启动子由SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29或与SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29具有95％序列同一性的序列组成；

所述GmCAB2 5’UTR由已知的5’UTR、SEQ ID NO:3或与SEQ ID NO:3具有95％序列同一性的序列组成；并且

所述3’UTR由已知的3’UTR、SEQ ID NO:4或与SEQ ID NO:4具有95％序列同一性的序列组成；进一步地，其中所述GmCAB2启动子可操作地连接到所述转基因/异源编码序列，并且每个任选的元件(当存在时)也可操作地连接到所述启动子和所述转基因。在一个进一步的实施例中，提供了转基因细胞，所述转基因细胞包含以上刚刚公开的核酸构建体。在一个实施例中，转基因细胞是植物细胞，并且在进一步的实施例中，提供了一种植物，其中植物包含所述转基因细胞。

a)5’非翻译区；

b)内含子；和

c)3’终止子区，

其中

所述3’终止子由已知的3’终止子、SEQ ID NO:5或与SEQ ID NO:5具有95％序列同一性的序列组成；进一步地，其中所述GmCAB2启动子可操作地连接到所述转基因/异源编码序列，并且每个任选的元件(当存在时)也可操作地连接到所述启动子和所述转基因。在一个进一步的实施例中，提供了转基因细胞，所述转基因细胞包含以上刚刚公开的核酸构建体。在一个实施例中，转基因细胞是植物细胞，并且在进一步的实施例中，提供了一种植物，其中植物包含所述转基因细胞。

本公开的另一方面包含功能变体，其一个或多个核苷酸与本文提供的包含调控元件的核苷酸序列的那些不同。由于包含本文所述的序列的核苷酸序列的一种或多种修饰(例如，缺失、重排、或插入)而产生这种变体。例如，SEQ ID NO:2、SEQ ID NO:28或SEQ IDNO:29的GmCAB2启动子序列的片段和变体可以用于DNA构建体或基因表达盒中以驱动异源编码序列的表达。如本文所使用的，术语“片段”是指核酸序列的一部分。SEQ ID NO:2、SEQID NO:28或SEQ ID NO:29的GmCAB2启动子序列的片段可以保留引发转录的生物活性，更特别地以组织偏好性方式驱动转录的生物活性。可替代地，可用作杂交探针的核苷酸序列片段可以不必保留生物活性。SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29的GmCAB2启动子序列的启动子区的核苷酸序列的片段可以是至少约20个核苷酸、约50个核苷酸、约100个核苷酸，最多至本发明的基因启动子区的全长核苷酸序列。

SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29的GmCAB2启动子序列的生物活性部分可通过分离SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29的GmCAB2启动子序列的一部分并评估所述部分的启动子活性来制备。作为GmCAB2启动子核苷酸序列的片段的核酸分子包含至少约16、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、800、900、1000、1100、1200、1300、1400、1500、1550、1600、1650、或1700个核苷酸，或最多至本文公开的全长GmCAB2启动子序列中存在的核苷酸的数目。

核苷酸序列变体还涵盖由诱变和重组发生程序(如DNA改组)产生的序列。通过这种程序，可以操纵SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29的GmCAB2启动子核苷酸序列以创建新的GmCAB2启动子。以此方式，由相关序列多核苷酸的群体产生重组多核苷酸文库，所述相关序列多核苷酸包含具有基本序列同一性并且能够在体外或体内同源重组的序列区域。这种DNA改组的策略在本领域中是已知的。参见，例如，Stemmer(1994)Proc.Natl.Acad.Sci.USA[美国科学院院报]i:10747-10751；Stemmer(1994)Nature[自然]570:389-391；Crameri等人(1997)Nature Biotech.[自然生物技术]75:436-438；Moore等人(1997)J.Mol.Biol.[分子生物学杂志]272:336-347；Zhang等人(1997)Proc.Natl.Acad.Sci.USA[美国科学院院报]￡4:4504-4509；Crameri等人(1998)Nature[自然]527:288-291；和美国专利号5,605,793和5,837,458。

本公开的核苷酸序列可用于分离来自其他生物(特别是其他植物，更特别是其他单子叶植物)的相应序列。以这种方式，可以使用如PCR、杂交等方法来鉴定此类序列(基于其与本文所示序列的序列同源性)。本发明涵盖了基于与本文所示的完整GmCAB2启动子序列或者与其片段的序列同一性而分离的序列。

在PCR方法中，可以设计寡核苷酸引物用于PCR反应，以便从提取自任何目的植物的基因组DNA中扩增出相应DNA序列。用于设计PCR引物和PCR克隆的方法是本领域通常已知的，并公开于Sambrook等人(1989)Molecular Cloning:A Laboratory Manual[分子克隆：实验室手册](第2版,Cold Spring Harbor Laboratory Press[冷泉港实验室出版社],普莱恩维尤,纽约)，以下简称为Sambrook。还参见Innis等人编辑,(1990)PCR Protocols:AGuide to Methods and Applications[PCR方案：方法和应用指南](Academic Press[学术出版社],纽约)；Innis和Gelfand编辑,(1995)PCR Strategies[PCR策略](Academic Press[学术出版社],纽约)；以及Innis和Gelfand编辑,(1999)PCR Methods Manual[PCR方法手册](Academic Press[学术出版社],纽约)。已知的PCR方法包括但不限于：使用成对引物、巢式引物、单特异性引物、简并引物、基因特异性引物、载体特异性引物、部分错配引物等的方法。

在杂交技术中，将已知核苷酸序列的全部或一部分用作探针，所述探针与来自所选生物体的一组克隆的基因组DNA片段中存在的其他相应核苷酸序列选择性杂交。所述杂交探针可以用可检测基团(如P³²)或任何其他可检测标记物进行标记。因此，例如，可通过基于本发明的GmCAB2启动子序列标记合成的寡核苷酸来制得用于杂交的探针。制备用于杂交的探针和用于构建基因组文库的方法通常是本领域已知的，并且公开在Sambrook中。例如，本文所公开的完整GmCAB2启动子序列或其一个或多个部分可以用作能够与相应的GmCAB2启动子序列和信使RNA特异性杂交的探针。要在多种条件下实现特异性杂交，此类探针包括GmCAB2启动子序列中独特的序列，并且其长度为至少约10个核苷酸或者其长度为至少约20个核苷酸。可以使用此类探针通过PCR由选择的植物扩增相应的GmCAB2启动子序列。可以使用这种技术从所希望的生物体中分离另外的编码序列，或作为用于确定生物体中存在编码序列的诊断测定。杂交技术包括杂交筛选铺板的DNA文库(噬菌斑或菌落；参见，例如Sambrook)。

根据一个实施例，所述核酸载体进一步包含编码选择性标记的序列。根据一个实施例，所述重组基因盒可操作地连接到农杆菌属T-DNA边界。根据一个实施例，所述重组基因盒进一步包含第一和第二T-DNA边界，其中第一T-DNA边界可操作地连接到基因构建体的一端，而第二T-DNA边界可操作地连接到基因构建体的另一端。第一和第二农杆菌属T-DNA边界可独立地选自源自细菌菌株的T-DNA边界序列，所述细菌菌株选自由以下组成的组：胭脂碱合成的农杆菌属T-DNA边界、章鱼碱合成的农杆菌属T-DNA边界、甘露碱合成的农杆菌属T-DNA边界、农杆碱合成农杆菌属T-DNA边界或其任何组合。在一个实施例中，提供了农杆菌属菌株，其选自由以下组成的组：胭脂碱合成菌株、甘露碱合成菌株、农杆碱合成菌株、或章鱼碱合成菌株，其中所述菌株包含质粒，其中所述质粒包含可操作地连接到选自SEQ IDNO:2、SEQ ID NO:28或SEQ ID NO:29的转基因/异源编码序列或与SEQ ID NO:2、SEQ IDNO:28或SEQ ID NO:29具有80％、85％、90％、95％、或99％序列同一性的序列。在另一个实施例中，第一和第二农杆菌属T-DNA边界可以独立地选自源自细菌菌株的T-DNA边界序列，所述细菌菌株选自由以下组成的组：胭脂碱合成的农杆菌属T-DNA边界、章鱼碱合成的农杆菌属T-DNA边界、甘露碱合成的农杆菌属T-DNA边界、农杆碱合成农杆菌属T-DNA边界或其任何组合。在一个实施例中，提供了农杆菌属菌株，其选自由以下组成的组：胭脂碱合成菌株、甘露碱合成菌株、农杆碱合成菌株、或章鱼碱合成菌株，其中所述菌株包含质粒，其中所述质粒包含可操作地连接到选自SEQ ID NO:3的转基因/异源编码序列或与SEQ ID NO:3具有80％、85％、90％、95％、或99％序列同一性的序列。在一个实施例中，提供了农杆菌属菌株，其选自由以下组成的组：胭脂碱合成菌株、甘露碱合成菌株、农杆碱合成菌株、或章鱼碱合成菌株，其中所述菌株包含质粒，其中所述质粒包含可操作地连接到选自SEQ ID NO:4的转基因/异源编码序列或与SEQ ID NO:4具有80％、85％、90％、95％、或99％序列同一性的序列。在一个实施例中，提供了农杆菌属菌株，其选自由以下组成的组：胭脂碱合成菌株、甘露碱合成菌株、农杆碱合成菌株、或章鱼碱合成菌株，其中所述菌株包含质粒，其中所述质粒包含可操作地连接到选自SEQ ID NO:5的转基因/异源编码序列或与SEQ ID NO:5具有80％、85％、90％、95％、或99％序列同一性的序列。

适用于本公开的构建体的目的转基因包括但不限于赋予如下的编码序列：(1)有害生物抗性或疾病抗性、(2)对除草剂的耐受性、(3)添加农学性状的价值，诸如；产量提高、氮利用效率、水利用效率和营养品质，(4)蛋白质以位点特异性方式与DNA结合，(5)表达小RNA；以及(6)选择性标记。根据一个实施例，所述转基因/异源编码序列编码选择性标记或赋予杀昆虫抗性、除草剂耐受性、小RNA表达、氮利用效率、水利用效率、或营养品质的基因产品。

1.昆虫抗性

多种昆虫抗性基因可以可操作地连接到所述GmCAB2启动子，所述GmCAB2启动子包含SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29或与SEQ ID NO:2、SEQ ID NO:28或SEQ IDNO:29具有80％、85％、90％、95％或99％序列同一性的序列。另外，所述昆虫抗性基因可以可操作地连接到所述GmCAB2 5’UTR，所述GmCAB2 5’UTR包含SEQ ID NO:3或与SEQ ID NO:3具有80％、85％、90％、95％或99％序列同一性的序列。同样，所述昆虫抗性基因可以可操作地连接到所述GmCAB2 3’UTR，所述GmCAB2 3’UTR包含SEQ ID NO:4或与SEQ ID NO:4具有80％、85％、90％、95％或99％序列同一性的序列。此外，所述昆虫抗性基因可以可操作地连接到所述GmCAB2终止子，所述GmCAB2终止子包含SEQ ID NO:5或与SEQ ID NO:5具有80％、85％、90％、95％或99％序列同一性的序列。然后可将可操作地连接的序列掺入选择的载体中以允许鉴定和选择经转化的植物(“转化体”)。示例性昆虫抗性编码序列是本领域已知的。作为可与本公开的调控元件可操作地连接的昆虫抗性编码序列的实施方案，提供以下性状。提供示例性鳞翅目昆虫抗性的编码序列包括：cry1A；cry1A.105；cry1Ab；cry1Ab(截短的)；cry1Ab-Ac(融合蛋白)；cry1Ac(作为

销售)；cry1C；cry1F(作为

销售)；cry1Fa2；cry2Ab2；cry2Ae；cry9C；mocry1F；pinII(蛋白酶抑制剂蛋白)；vip3A(a)；和vip3Aa20。提供示例性鞘翅目昆虫抗性的编码序列包括：cry34Ab1(作为

销售)；cry35Ab1(作为

销售)；cry3A；cry3Bb1；dvsnf7；和mcry3A。提供示例性多昆虫抗性的编码序列包括ecry31.Ab。以上昆虫抗性基因的列表并不意味着具有限制性。本公开涵盖任何昆虫抗性基因。

2.除草剂耐受性

多种除草剂耐受性基因可以可操作地连接到所述GmCAB2启动子，所述GmCAB2启动子包含SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29或与SEQ ID NO:2、SEQ ID NO:28或SEQID NO:29具有80％、85％、90％、95％或99％序列同一性的序列。另外，所述昆虫抗性基因可以可操作地连接到所述GmCAB2 5’UTR，所述GmCAB2 5’UTR包含SEQ ID NO:3或与SEQ IDNO:3具有80％、85％、90％、95％或99％序列同一性的序列。同样，所述昆虫抗性基因可以可操作地连接到所述GmCAB2 3’UTR，所述GmCAB2 3’UTR包含SEQ ID NO:4或与SEQ ID NO:4具有80％、85％、90％、95％或99％序列同一性的序列。此外，所述昆虫抗性基因可以可操作地连接到所述GmCAB2终止子，所述GmCAB2终止子包含SEQ ID NO:5或与SEQ ID NO:5具有80％、85％、90％、95％或99％序列同一性的序列。然后可将可操作地连接的序列掺入选择的载体中以允许鉴定和选择经转化的植物(“转化体”)。示例性除草剂耐受性编码序列是本领域已知的。作为可与本公开的调控元件可操作地连接的除草剂耐受性编码序列的实施方案，提供以下性状。草甘膦除草剂通过抑制EPSPS酶(5-烯醇式丙酮酸莽草酸酯-3-磷酸合酶)而发挥作用。该酶参与植物的生长和发育必不可少的芳香氨基酸的生物合成。本领域已知的多种酶促机制可用于抑制该酶。可以将编码此类酶的基因可操作地连接到本公开的基因调控元件。在一个实施例中，选择性标记基因包括但不限于编码草甘膦抗性基因的基因，包括：突变的EPSPS基因，如2mEPSPS基因、cp4EPSPS基因、mEPSPS基因、dgt-28基因；aroA基因；和草甘膦降解基因，如草甘膦乙酰基转移酶基因(gat)和草甘膦氧化酶基因(gox)。这些性状目前作为Gly-Tol^TM、

GT和Roundup

销售。草铵膦和/或双丙氨磷化合物的抗性基因包括dsm-2、bar和pat基因。bar和pat性状目前作为

销售。还包括提供对2,4-D的抗性的耐受性基因，如aad-1基因(应注意aad-1基因对芳氧基苯氧基丙酸酯除草剂具有进一步的活性)和aad-12基因(应注意aad-12基因对乙酰氧基乙酸酯合成植物生长素具有进一步的活性)。这些性状作为

作物保护技术销售。ALS抑制剂(磺酰脲类、咪唑啉酮类、三唑并嘧啶类、嘧啶基硫代苯甲酸酯类、和磺酰基氨基-羰基-三唑啉酮类)的抗性基因是本领域已知的。这些抗性基因最通常是由点突变为ALS编码基因序列引起的。其他的ALS抑制剂抗性基因包括hra基因、csr1-2基因、Sr-HrA基因和surB基因。一些性状以商品名

销售。抑制HPPD的除草剂包括吡唑啉酮，如苄草唑，吡草酮和苯吡唑草酮；三酮，如硝磺草酮、磺草酮、环磺酮、苯并双环酮；和二酮腈，如异噁唑草酮。已知性状可以耐受这些示例性HPPD除草剂可。HPPD抑制剂的实例包括hppdPF_W336基因(用于抗异噁唑草酮)和avhppd-03基因(用于抗甲基磺草酮)。奥昔尼除草剂耐受性状的实例包括bxn基因，该基因已被证明对除草剂/抗生素溴苯腈具有抗性。麦草畏的抗性基因包括麦草畏单加氧酶基因(dmo)，如国际PCT公开号WO 2008/105890中所公开的。PPO或PROTOX抑制剂型除草剂的抗性基因(例如氟锁草醚、氟丙嘧草酯、氟丙草酯、戊基噁唑酮、唑草酮、异丙吡草酯、吡草醚、苯草醚、唑啶草酮、丙炔氟草胺、氟烯草酸、治草醚、乙氧氟草醚、乳氟禾草灵、氟磺胺草醚、乙羧氟草醚、和甲磺草胺)是本领域已知的。赋予对PPO抗性的示例性基因包括野生型拟南芥PPO酶的过表达(Lermontova I和Grimm B,(2000)Overexpression of plastidic protoporphyrinogen IX oxidase leads to resistanceto the diphenyl-ether herbicide acifluorfen[质体原卟啉原IX氧化酶过表达导致对二苯醚除草剂氟锁草醚的抗性].Plant Physiol[植物生理学]122:75-83.)、枯草芽孢杆菌PPO基因的过表达(Li,X.和Nicholl D.2005.Development of PPO inhibitor-resistantcultures and crops[PPO抑制剂抗性培养物及作物的研制].Pest Manag.Sci.[有害生物管理科学]61:277-285以及Choi KW,Han O,Lee HJ,Yun YC,Moon YH,Kim MK,Kuk YI,HanSU和Guh JO,(1998)Generation of resistance to the diphenyl ether herbicide,oxyfluorfen,via expression of the Bacillus subtilis protoporphyrinogenoxidase gene in transgenic tobacco plants[通过枯草芽孢杆菌原卟啉原氧化酶基因在转基因烟草植物中的表达产生对二苯醚除草剂氟锁草醚的抗性].Biosci BiotechnolBiochem[生物科学生物技术生物化学]62:558-560)。吡啶氧基或苯氧基丙酸和环己酮的抗性基因包括编码ACCase抑制剂的基因(例如Acc1-S1、Acc1-S2和Acc1-S3)。赋予对环己二酮和/或芳氧基苯氧基丙酸的抗性的示例性基因包括吡氟氯禾灵、禾草灵、精噁唑禾草灵酸、吡氟禾草灵和喹禾灵。最后，除草剂可以抑制光合作用，包括三嗪或苄腈，通过psbA基因(对三嗪的耐受性)、1s+基因(对三嗪的耐受性)和腈水解酶基因(对苯甲腈的耐受性)提供了耐受性。以上除草剂耐受性基因的列表并不意味着具有限制性。本公开涵盖任何除草剂耐受性基因。

3.农学性状

多种农学性状基因可以可操作地连接到所述GmCAB2启动子，所述GmCAB2启动子包含SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29或与SEQ ID NO:2、SEQ ID NO:28或SEQ IDNO:29具有80％、85％、90％、95％或99％序列同一性的序列。另外，所述昆虫抗性基因可以可操作地连接到所述GmCAB2 5’UTR，所述GmCAB2 5’UTR包含SEQ ID NO:3或与SEQ ID NO:3具有80％、85％、90％、95％或99％序列同一性的序列。同样，所述昆虫抗性基因可以可操作地连接到所述GmCAB2 3’UTR，所述GmCAB2 3’UTR包含SEQ ID NO:4或与SEQ ID NO:4具有80％、85％、90％、95％或99％序列同一性的序列。此外，所述昆虫抗性基因可以可操作地连接到所述GmCAB2终止子，所述GmCAB2终止子包含SEQ ID NO:5或与SEQ ID NO:5具有80％、85％、90％、95％或99％序列同一性的序列。然后可将可操作地连接的序列掺入选择的载体中以允许鉴定和选择经转化的植物(“转化体”)。示例性农学性状编码序列是本领域已知的。作为可与本公开的调控元件可操作地连接的农学性状编码序列的实施方案，提供以下性状。pg基因提供的延迟的果实软化抑制了导致细胞壁中果胶分子分解的聚半乳糖醛酸酶的产生，从而导致了果实的延迟软化。此外，延迟的acc基因果实成熟/衰老抑制了天然acc合酶基因的正常表达，导致乙烯产量减少和果实成熟延迟。而accd基因代谢果实成熟激素乙烯的前体，导致果实成熟延迟。可替代地，sam-k基因通过减少S-腺苷甲硫氨酸(SAM)(乙烯生产的底物)而导致延迟成熟。cspB基因提供的干旱胁迫耐受表型通过保持RNA稳定性和翻译来维持水分胁迫条件下的正常细胞功能。另一个实例包括EcBetA基因，其催化渗透保护剂化合物甘氨酸甜菜碱的产生，赋予了对水分胁迫的耐受性。另外，RmBetA基因催化渗透保护剂化合物甘氨酸甜菜碱的产生，赋予了对水分胁迫的耐受性。bbx32基因提供光合作用和增产，该基因表达一种蛋白质，该蛋白质与一种或多种内源性转录因子相互作用以调节植物的昼/夜生理过程。可以通过表达编码热稳定的α-淀粉酶的amy797E基因来增加乙醇产量，该酶可以通过增加用于降解淀粉的淀粉酶的热稳定性来增强生物乙醇的产量。最后，修饰的氨基酸组合物可以通过编码二氢二吡啶甲酸合酶的cordapA基因的表达而产生，该酶增加了氨基酸赖氨酸的产生。农学性状编码序列的列表并不意指是限制性的。本公开涵盖任何农学性状编码序列。

4.DNA结合蛋白质

多种DNA结合转基因/异源编码序列基因/异源编码序列可以可操作地连接到所述GmCAB2启动子，所述GmCAB2启动子包含SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29或与SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29具有80％、85％、90％、95％或99％序列同一性的序列。另外，所述昆虫抗性基因可以可操作地连接到所述GmCAB2 5’UTR，所述GmCAB2 5’UTR包含SEQ ID NO:3或与SEQ ID NO:3具有80％、85％、90％、95％或99％序列同一性的序列。同样，所述昆虫抗性基因可以可操作地连接到所述GmCAB2 3’UTR，所述GmCAB2 3’UTR包含SEQ ID NO:4或与SEQ ID NO:4具有80％、85％、90％、95％或99％序列同一性的序列。此外，所述昆虫抗性基因可以可操作地连接到所述GmCAB2终止子，所述GmCAB2终止子包含SEQID NO:5或与SEQ ID NO:5具有80％、85％、90％、95％或99％序列同一性的序列。然后可将可操作地连接的序列掺入选择的载体中以允许鉴定和选择经转化的植物(“转化体”)。示例性DNA结合蛋白质编码序列是本领域已知的。作为可与本公开的调控元件可操作地连接的DNA结合蛋白编码序列的实施例，以下类型的DNA结合蛋白可包括：锌指、TALEN、CRISPR和大范围核酸酶。DNA结合蛋白质编码序列的列表并不意指是限制性的。本公开涵盖任何DNA结合蛋白质编码序列。

5.小RNA

多种小RNA序列可以可操作地连接到所述GmCAB2启动子，所述GmCAB2启动子包含SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29或与SEQ ID NO:2、SEQ ID NO:28或SEQ IDNO:29具有80％、85％、90％、95％或99％序列同一性的序列。另外，所述昆虫抗性基因可以可操作地连接到所述GmCAB2 5’UTR，所述GmCAB2 5’UTR包含SEQ ID NO:3或与SEQ ID NO:3具有80％、85％、90％、95％或99％序列同一性的序列。同样，所述昆虫抗性基因可以可操作地连接到所述GmCAB2 3’UTR，所述GmCAB2 3’UTR包含SEQ ID NO:4或与SEQ ID NO:4具有80％、85％、90％、95％或99％序列同一性的序列。此外，所述昆虫抗性基因可以可操作地连接到所述GmCAB2终止子，所述GmCAB2终止子包含SEQ ID NO:5或与SEQ ID NO:5具有80％、85％、90％、95％或99％序列同一性的序列。然后可将可操作地连接的序列掺入选择的载体中以允许鉴定和选择经转化的植物(“转化体”)。示例性小RNA性状是本领域已知的。作为可与本公开的调控元件可操作地连接的小RNA编码序列的实施方案，提供以下性状。例如，通过沉默编码乙烯形成酶的ACO基因的表达，抑制了乙烯的产生，抗efe小RNA的延迟果实成熟/衰老延迟了成熟。通过抑制内源性S-腺苷-L-蛋氨酸，改变了ccomt小RNA的木质素产生，从而降低了胍基(G)木质素的含量：反式咖啡酰氧基CoA 3-O-甲基转移酶(CCOMT基因)。此外，可通过Ppo5小RNA减少疣状茄(Solanum verrucosum)中缺乏B的斑点瘀伤耐受性，这会触发Ppo5转录物的降解，从而阻止黑点瘀伤的发展。还包括dvsnf7小RNA，其dsRNA包含西方玉米根虫(Western Corn Rootworm)Snf7基因的240bp片段，可抑制西方玉米根虫。修饰的淀粉/碳水化合物可以由小RNA产生，如pPhL小RNA(降解PhL转录物以限制通过淀粉降解形成还原糖)和pR1小RNA(降解R1转录物以限制通过淀粉降解形成还原糖)。另外，好处还包括asn1小RNA引起的丙烯酰胺含量降低，从而触发Asn1降解从而损害天冬酰胺的形成并降低了聚丙烯酰胺含量。最后，pgas ppo抑制小RNA的非褐色表型导致抑制PPO以产生具有非褐色表型的苹果。以上小RNA的列表并不意指是限制性的。本公开涵盖任何小RNA编码序列。

6.选择性标记

也描述为报告基因的多种选择性标记可以可操作地连接到所述GmCAB2启动子，所述GmCAB2启动子包含SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29或与SEQ ID NO:2、SEQID NO:28或SEQ ID NO:29具有80％、85％、90％、95％或99％序列同一性的序列。另外，所述昆虫抗性基因可以可操作地连接到所述GmCAB2 5’UTR，所述GmCAB2 5’UTR包含SEQ ID NO:3或与SEQ ID NO:3具有80％、85％、90％、95％或99％序列同一性的序列。同样，所述昆虫抗性基因可以可操作地连接到所述GmCAB2 3’UTR，所述GmCAB2 3’UTR包含SEQ ID NO:4或与SEQ ID NO:4具有80％、85％、90％、95％或99％序列同一性的序列。此外，所述昆虫抗性基因可以可操作地连接到所述GmCAB2终止子，所述GmCAB2终止子包含SEQ ID NO:5或与SEQID NO:5具有80％、85％、90％、95％或99％序列同一性的序列。然后可将可操作地连接的序列掺入选择的载体中以允许鉴定和选择经转化的植物(“转化体”)。有许多方法可用于确认选择性标记在转化植物中的表达，包括例如DNA测序和PCR(聚合酶链反应)、DNA印迹、RNA印迹、用于检测从载体表达的蛋白质的免疫学方法。但是，通常通过目测观察蛋白质时观察到的报告基因，这些蛋白质在表达时会产生有色产物。示例性的报告基因是本领域已知的，并编码β-葡萄糖醛酸苷酶(GUS)、萤光素酶、绿色荧光蛋白(GFP)、黄色荧光蛋白(YFP、Phi-YFP)、红色荧光蛋白(DsRFP、RFP等)、β-半乳糖苷酶等(参见Sambrook等人，MolecularCloning:A Laboratory Manual[分子克隆：实验室手册],第三版,冷泉港出版社,纽约,2001，其内容通过引用以其整体并入本文)。

利用选择性标记基因来选择经转化的细胞或组织。选择性标记基因包括编码抗生素抗性的基因，例如编码新霉素磷酸转移酶II(NEO)、壮观霉素/链霉素抗性(AAD)和潮霉素磷酸转移酶(HPT或HGR)的基因，以及赋予对除草化合物抗性的基因。除草剂抗性基因通常编码对除草剂不敏感的修饰靶标蛋白，或编码在其起作用之前能降解植物中的除草剂或使其解毒的酶。例如，已经通过使用编码突变靶标酶5-烯醇式丙酮酸莽草酸酯-3-磷酸合酶(EPSPS)的基因获得了对草甘膦的抗性。EPSPS的基因和突变体是众所周知的，并在下面进一步描述。通过使用编码PAT或DSM-2、腈水解酶、AAD-1或AAD-12的细菌基因分别获得了对草铵膦、溴苯腈和2,4-二氯苯氧基乙酸(2,4-D)的抗性这些都是使各自除草剂去毒的蛋白质的实例。

在一个实施例中，除草剂可抑制生长点或分生组织，包括咪唑啉酮或磺酰脲，并且对这些除草剂具有乙酰羟酸合酶(AHAS)和乙酰乳酸合酶(ALS)的抗性/耐受性的基因是众所周知的。草甘膦抗性基因包括突变型5-烯醇式丙酮酸莽草酸酯-3-磷酸合酶(EPSPs)和dgt-28基因(通过引入重组核酸和/或对天然EPSPs基因进行多种体内诱变)、aroA基因和草甘膦乙酰基转移酶(GAT)基因。其他膦酰基化合物的抗性基因包括来自链霉菌物种的bar和pat基因，包括吸水链霉菌(Streptomyces hygroscopicus)和Streptomycesviridichromogenes，以及吡啶氧基或苯氧基丙酸和环己酮(编码ACCase抑制剂的基因)。赋予对环己二酮和/或芳氧基苯氧基丙酸(包括吡氟氯禾灵、禾草灵、精噁唑禾草灵酸、吡氟禾草灵和喹禾灵)的抗性的示例性基因包括乙酰辅酶A羧化酶(ACCase)的基因；Acc1-S1、Acc1-S2和Acc1-S3。在一个实施例中，除草剂可以抑制光合作用，包括三嗪(psbA和1s+基因)或苄腈(硝化酶基因)。此外，此类选择性标记可以包括阳性选择标记，如磷酸甘露糖异构酶(PMI)酶。

在一个实施例中，选择性标记基因包括但不限于编码如下的基因：2,4-D；新霉素磷酸转移酶II；氰酰胺水合酶；天冬氨酸激酶；二氢吡啶二羧酸合酶；色氨酸脱羧酶；二氢吡啶二羧酸合酶和脱敏天冬氨酸激酶；bar基因；色氨酸脱羧酶；新霉素磷酸转移酶(NEO)；潮霉素磷酸转移酶(HPT或HYG)；二氢叶酸还原酶(DHFR)；草丁膦乙酰基转移酶；2,2-二氯丙酸脱卤酶；乙酰羟酸合酶；5-烯醇式丙酮酰莽草酸磷酸合酶(aroA)；卤代芳基腈水解酶；乙酰辅酶A羧化酶；二氢蝶酸合酶(sul I)；和32kD光系统II多肽(psbA)。一个实施例还包括选择性标记基因，其编码对以下的抗性：氯霉素；甲氨蝶呤；潮霉素；壮观霉素；溴草腈；草甘膦；和草丁膦。以上选择性标记基因的列表并不意在是限制性的。本公开涵盖任何报告基因或选择性标记基因。

在一些实施例中，合成编码序列以在植物中最佳表达。例如，在一个实施例中，已经通过密码子优化修饰了基因的编码序列以增强在植物中的表达。可以优化杀昆虫抗性转基因、除草剂耐受性转基因、氮利用效率转基因、水利用效率转基因、营养品质转基因、DNA结合转基因、或选择性标记转基因/异源编码序列，以在特定植物物种中表达，或可替代地可以修饰上述转基因/异源编码序列以在双子叶或单子叶植物中最佳表达。植物偏好性密码子可以从特定目的植物物种中以最大量表达的蛋白质中频率最高的密码子确定。在一个实施例中，编码序列、基因、异源编码序列或转基因/异源编码序列被设计成在植物中以更高的水平表达，从而导致更高的转化效率。植物基因优化的方法是众所周知的。关于合成DNA序列的优化和产生的指导可以在例如WO 2013016546、WO 2011146524、WO 1997013402、美国专利号6166302和美国专利号5380831中找到，其通过引用并入本文。

转化

合适的植物转化方法包括可以将DNA引入细胞的任何方法，例如且不限于：电穿孔(参见，例如，美国专利5,384,253)；微粒轰击(参见，例如，美国专利5,015,580、5,550,318、5,538,880、6,160,208、6,399,861、和6,403,865)；农杆菌介导的转化(参见，例如，美国专利5,635,055、5,824,877、5,591,616；5,981,840、和6,384,301)；和原生质体转化(参见，例如，美国专利5,508,184)。

可以使用诸如用碳化硅纤维搅拌的技术将DNA构建体直接引入植物细胞的基因组DNA中(参见，例如，美国专利5,302,523和5,464,765)，或者可以使用基因枪方法将DNA构建体直接引入植物组织中，诸如DNA粒子轰击(参见，例如，Klein等人(1987)Nature[植物]327:70-73)。可替代地，可以通过纳米粒子转化将DNA构建体引入植物细胞中(参见，例如，美国专利公开号20090104700，通过引用以其整体并入本文)。

另外，可以使用非农杆菌属细菌或病毒如根瘤菌属物种(Rhizobium sp.)NGR234、苜蓿中华根瘤菌(Sinorhizoboium meliloti)、中慢生型百脉根根瘤菌(Mesorhizobiumloti)、马铃薯病毒X、花椰菜花叶病毒和木薯叶脉花叶病毒和/或烟草花叶病毒来实现基因转移，参见，例如，Chung等人(2006)Trends Plant Sci.[植物科学趋势]11(1):1-4。

通过应用转化技术，几乎任何植物种类的细胞都可以稳定地转化，并且可以通过众所周知的技术将这些细胞发育成转基因植物。例如，在美国专利号5,846,797、5,159,135、5,004,863和6,624,344中描述了在棉花转化的背景下可能特别有用的技术；例如在美国专利5,750,871中特别描述了用于转化芸苔属植物的技术；例如在美国专利6,384,301中描述了用于转化大豆的技术；例如，在美国专利7,060,876和5,591,616以及国际PCT公开WO95/06722中描述了用于转化玉蜀黍的技术。

在实现外源核酸向受体细胞的递送后，通常鉴定经转化的细胞用于进一步培养和植物再生。为了提高鉴定转化体的能力，人们可能希望将选择性标记基因与用于产生转化体的转化载体一起采用。在说明性实施例中，可以通过将细胞暴露于一种或多种选择剂来测定经转化的细胞群，或者可以针对所希望的标记基因性状筛选细胞。

可以在暴露于选择剂的条件下存活的细胞，或在筛选测定中被评分为阳性的细胞，培养在支持植物再生的培养基中。在一个实施例中，可以通过包括其他物质如生长调节剂来修饰任何合适的植物组织培养基。可以将组织用生长调节剂维持在基本培养基上，直到有足够的组织可用于开始植物再生努力，或者经过反复的手动选择回合，直到组织的形态适合于再生(例如，至少2周)，然后转移到有利于芽形成的培养基上。定期转移培养物，直到形成足够的芽。芽形成后，将其转移到有助于根形成的培养基中。一旦形成足够的根，就可以将植物转移到土壤中以进一步生长和成熟。

转基因植物

在一个实施例中，植物、植物组织、或植物细胞包含GmCAB2启动子。在一个实施例中，植物、植物组织或植物细胞包含GmCAB2启动子，所述GmCAB2启动子具有选自SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29的序列或与选自SEQ ID NO:2、SEQ ID NO:28或SEQ IDNO:29的序列具有80％、85％、90％、95％或99.5％序列同一性的序列。在一个实施例中，植物、植物组织、或植物细胞包含基因表达盒，所述基因表达盒包含选自SEQ ID NO:2、SEQ IDNO:28或SEQ ID NO:29的序列或与选自SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29的序列具有80％、85％、90％、95％或99.5％序列同一性的序列，所述序列可操作地连接到非GmCAB2基因。在说明性实施例中，植物、植物组织、或植物细胞包含基因表达盒，所述基因表达盒包含可操作地连接到转基因或异源编码序列的GmCAB2启动子，其中所述转基因或异源编码序列可以是杀昆虫抗性转基因、除草剂耐受性转基因、氮利用效率转基因、水利用效率转基因、营养品质转基因、DNA结合转基因、选择性标记转基因或其组合。

根据一个实施例，提供了一种植物、植物组织、或植物细胞，其中所述植物、植物组织、或植物细胞包含可操作地连接到转基因的GmCAB2启动子衍生序列，其中所述GmCAB2启动子衍生序列包含序列SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29或与SEQ ID NO:2具有80％、85％、90％、95％或99.5％序列同一性的序列。在一个实施例中，提供了一种植物、植物组织、或植物细胞，其中所述植物、植物组织、或植物细胞包含SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29或与SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29具有80％、85％、90％、95％或99.5％序列同一性的序列，所述序列可操作地连接到非GmCAB2基因。在一个实施例中，植物、植物组织或植物细胞是双子叶植物或单子叶植物或者衍生自双子叶植物或单子叶植物的细胞或组织。在一个实施例中，所述植物选自下组，该组由以下组成：玉蜀黍、小麦、稻、高粱、燕麦、黑麦、香蕉、甘蔗、大豆、棉花、向日葵和卡诺拉油菜。在一个实施例中，所述植物是玉蜀黍。在另一个实施例中，所述植物是大豆(soybean)(例如，大豆(Glycinemax))。根据一个实施例，所述植物、植物组织、或植物细胞包含SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29或与SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29具有80％、85％、90％、95％或99.5％序列同一性的序列，所述序列可操作地连接到非GmCAB2基因。在一个实施例中，所述植物、植物组织、或植物细胞包含可操作地连接到转基因/异源编码序列的启动子，其中所述启动子由SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29或与SEQ ID NO:2、SEQ IDNO:28或SEQ ID NO:29具有80％、85％、90％、95％或99.5％序列同一性的序列组成。根据一个实施例，所述基因构建体包含可操作地连接到转基因/异源编码序列的GmCAB2启动子序列，所述GmCAB2启动子序列被掺入植物、植物组织、或植物细胞的基因组中。

在一个实施例中，植物、植物组织、或植物细胞包含GmCAB2 5’UTR。在一个实施例中，植物、植物组织、或植物细胞包含GmCAB2 5’UTR，所述GmCAB2 5’UTR具有选自SEQ IDNO:3的序列或与选自SEQ ID NO:3的序列具有80％、85％、90％、95％或99.5％序列同一性的序列。在一个实施例中，植物、植物组织、或植物细胞包含基因表达盒，所述基因表达盒包含选自SEQ ID NO:3的序列或与选自SEQ ID NO:3的序列具有80％、85％、90％、95％或99.5％序列同一性的序列，所述序列可操作地连接到非GmCAB2基因。在一个说明性实施例中，植物、植物组织、或植物细胞包含基因表达盒，所述基因表达盒包含可操作地连接到转基因的GmCAB2 5’UTR，其中所述转基因/异源编码序列可以是杀昆虫抗性转基因、除草剂耐受性转基因、氮利用效率转基因、水利用效率转基因、营养品质转基因、DNA结合转基因、选择性标记转基因或其组合。

根据一个实施例，提供了植物、植物组织、或植物细胞，其中所述植物、植物组织、或植物细胞包含可操作地连接到转基因的GmCAB2 5’UTR衍生序列，其中所述GmCAB2 5’UTR衍生序列包含序列SEQ ID NO:3或与SEQ ID NO:3具有80％、85％、90％、95％或99.5％序列同一性的序列。在一个实施例中，提供了一种植物、植物组织、或植物细胞，其中所述植物、植物组织、或植物细胞包含SEQ ID NO:3或与SEQ ID NO:3具有80％、85％、90％、95％或99.5％序列同一性的序列，所述序列可操作地连接到非GmCAB2基因。在一个实施例中，植物、植物组织或植物细胞是双子叶植物或单子叶植物或者衍生自双子叶植物或单子叶植物的细胞或组织。在一个实施例中，所述植物选自下组，该组由以下组成：玉蜀黍、小麦、稻、高粱、燕麦、黑麦、香蕉、甘蔗、大豆、棉花、向日葵和卡诺拉油菜。在一个实施例中，所述植物是玉蜀黍。在另一个实施例中，所述植物是大豆(soybean)(例如，大豆(Glycine max))。根据一个实施例，所述植物、植物组织、或植物细胞包含SEQ ID NO:3或与SEQ ID NO:3具有80％、85％、90％、95％或99.5％序列同一性的序列，所述序列可操作地连接到非GmCAB2基因。在一个实施例中，所述植物、植物组织、或植物细胞包含可操作地连接到转基因/异源编码序列的5’UTR，其中所述5’UTR由SEQ ID NO:3或与SEQ ID NO:3具有80％、85％、90％、95％或99.5％序列同一性的序列组成。根据一个实施例，将包含可操作地连接到转基因/异源编码序列的GmCAB2 5’UTR序列的基因构建体掺入所述植物、植物组织、或植物细胞的基因组中。

在一个实施例中，植物、植物组织、或植物细胞包含GmCAB2 3’UTR。在一个实施例中，植物、植物组织、或植物细胞包含GmCAB2 3’UTR，所述GmCAB2 3’UTR具有选自SEQ IDNO:4的序列或与选自SEQ ID NO:4的序列具有80％、85％、90％、95％或99.5％序列同一性的序列。在一个实施例中，植物、植物组织、或植物细胞包含基因表达盒，所述基因表达盒包含选自SEQ ID NO:4的序列或与选自SEQ ID NO:4的序列具有80％、85％、90％、95％或99.5％序列同一性的序列，所述序列可操作地连接到非GmCAB2基因。在一个说明性实施例中，植物、植物组织、或植物细胞包含基因表达盒，所述基因表达盒包含可操作地连接到转基因的GmCAB2 3’UTR，其中所述转基因/异源编码序列可以是杀昆虫抗性转基因、除草剂耐受性转基因、氮利用效率转基因、水利用效率转基因、营养品质转基因、DNA结合转基因、选择性标记转基因或其组合。

根据一个实施例，提供了植物、植物组织、或植物细胞，其中所述植物、植物组织、或植物细胞包含可操作地连接到转基因的GmCAB2 3’UTR衍生序列，其中所述GmCAB2 3’UTR衍生序列包含序列SEQ ID NO:4或与SEQ ID NO:4具有80％、85％、90％、95％或99.5％序列同一性的序列。在一个实施例中，提供了一种植物、植物组织、或植物细胞，其中所述植物、植物组织、或植物细胞包含SEQ ID NO:4或与SEQ ID NO:4具有80％、85％、90％、95％或99.5％序列同一性的序列，所述序列可操作地连接到非GmCAB2基因。在一个实施例中，植物、植物组织或植物细胞是双子叶植物或单子叶植物或者衍生自双子叶植物或单子叶植物的细胞或组织。在一个实施例中，所述植物选自下组，该组由以下组成：玉蜀黍、小麦、稻、高粱、燕麦、黑麦、香蕉、甘蔗、大豆、棉花、向日葵和卡诺拉油菜。在一个实施例中，所述植物是玉蜀黍。在另一个实施例中，所述植物是大豆(soybean)(例如，大豆(Glycine max))。根据一个实施例，所述植物、植物组织、或植物细胞包含SEQ ID NO:4或与SEQ ID NO:4具有80％、85％、90％、95％或99.5％序列同一性的序列，所述序列可操作地连接到非GmCAB2基因。在一个实施例中，所述植物、植物组织、或植物细胞包含可操作地连接到转基因/异源编码序列的3’UTR，其中所述3’UTR由SEQ ID NO:4或与SEQ ID NO:4具有80％、85％、90％、95％或99.5％序列同一性的序列组成。根据一个实施例，将包含可操作地连接到转基因/异源编码序列的GmCAB2基因3’UTR序列的基因构建体掺入所述植物、植物组织、或植物细胞的基因组中。

在一个实施例中，植物、植物组织、或植物细胞包含GmCAB2终止子。在一个实施例中，植物、植物组织、或植物细胞包含GmCAB2终止子，所述GmCAB2终止子具有选自SEQ IDNO:5的序列或与选自SEQ ID NO:5的序列具有80％、85％、90％、95％或99.5％序列同一性的序列。在一个实施例中，植物、植物组织、或植物细胞包含基因表达盒，所述基因表达盒包含选自SEQ ID NO:5的序列或与选自SEQ ID NO:5的序列具有80％、85％、90％、95％或99.5％序列同一性的序列，所述序列可操作地连接到非GmCAB2基因。在一个说明性实施例中，植物、植物组织、或植物细胞包含基因表达盒，所述基因表达盒包含可操作地连接到转基因的GmCAB2终止子，其中所述转基因/异源编码序列可以是杀昆虫抗性转基因、除草剂耐受性转基因、氮利用效率转基因、水利用效率转基因、营养品质转基因、DNA结合转基因、选择性标记转基因或其组合。

根据一个实施例，提供了植物、植物组织、或植物细胞，其中所述植物、植物组织、或植物细胞包含可操作地连接到转基因的GmCAB2终止子衍生序列，其中所述GmCAB2终止子衍生序列包含序列SEQ ID NO:5或与SEQ ID NO:5具有80％、85％、90％、95％或99.5％序列同一性的序列。在一个实施例中，提供了一种植物、植物组织、或植物细胞，其中所述植物、植物组织、或植物细胞包含SEQ ID NO:5或与SEQ ID NO:5具有80％、85％、90％、95％或99.5％序列同一性的序列，所述序列可操作地连接到非GmCAB2基因。在一个实施例中，植物、植物组织或植物细胞是双子叶植物或单子叶植物或者衍生自双子叶植物或单子叶植物的细胞或组织。在一个实施例中，所述植物选自下组，该组由以下组成：玉蜀黍、小麦、稻、高粱、燕麦、黑麦、香蕉、甘蔗、大豆、棉花、向日葵和卡诺拉油菜。在一个实施例中，所述植物是玉蜀黍。在另一个实施例中，所述植物是大豆(soybean)(例如，大豆(Glycine max))。根据一个实施例，所述植物、植物组织、或植物细胞包含SEQ ID NO:5或与SEQ ID NO:5具有80％、85％、90％、95％或99.5％序列同一性的序列，所述序列可操作地连接到非GmCAB2基因。在一个实施例中，所述植物、植物组织、或植物细胞包含可操作地连接到转基因/异源编码序列的终止子，其中所述终止子由SEQ ID NO:5或与SEQ ID NO:5具有80％、85％、90％、95％或99.5％序列同一性的序列组成。根据一个实施例，包含可操作地连接到转基因/异源编码序列的GmCAB2基因终止子的基因构建体被掺入所述植物、植物组织、或植物细胞的基因组中。

在一个实施例中，根据本文公开的方法的植物、植物组织或植物细胞可以是双子叶植物。双子叶植物、植物组织或植物细胞可以是但不限于苜蓿、油菜籽、卡诺拉油菜、印度芥菜、埃塞俄比亚芥菜、大豆、向日葵、棉花、豆类、西兰花、卷心菜、花椰菜、芹菜、黄瓜、茄子、生菜；瓜、豌豆、胡椒、花生、马铃薯、南瓜、萝卜、菠菜、甜菜、向日葵、烟草、番茄和西瓜。

本领域技术人员将认识到，在将外源序列稳定地掺入转基因植物中并确认是可操作的之后，可以通过有性杂交将其引入其他植物中。可以使用许多标准育种技术中的任何一种，这取决于要杂交的物种。

本公开还涵盖上述转基因植物的种子，其中所述种子具有含有本公开的基因调控元件的转基因/异源编码序列或基因构建体。本公开进一步涵盖上述转基因植物的后代、克隆、细胞系或细胞，其中所述后代、克隆、细胞系或细胞具有含有本公开的基因调控元件的转基因/异源编码序列或基因构建体。

本公开还涵盖上述转基因植物的培养，其中所述转基因植物具有含有本公开的基因调控元件的转基因/异源编码序列或基因构建体。因此，此类转基因植物可被工程化以尤其具有一个或多个所希望的性状或含有本公开的基因调控元件的转基因事件，通过与根据本发明的核酸分子被转化，并且可以通过本领域技术人员已知的任何方法被裁剪或培养。

表达转基因的方法

在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含可操作地连接到至少一个转基因/异源编码序列或多接头序列的GmCAB2启动子的植物生长。在一个实施例中，所述GmCAB2启动子由选自SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29的序列或与选自SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29的序列具有80％、85％、90％、95％或99.5％序列同一性的序列组成。在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含可操作地连接到至少一个转基因的GmCAB2启动子的植物生长。在一个实施例中，在植物组织或植物细胞中表达至少一个转基因/异源编码序列的方法包括培养包含可操作地连接到至少一个转基因的GmCAB2启动子的植物组织或植物细胞。

在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含基因表达盒的植物生长，所述基因表达盒包含可操作地连接到至少一个转基因的GmCAB2启动子。在一个实施例中，所述GmCAB2启动子由选自SEQ ID NO:2、SEQ ID NO:28或SEQ IDNO:29的序列或与选自SEQ ID NO:2、SEQ ID NO:28或SEQ ID NO:29的序列具有80％、85％、90％、95％或99.5％序列同一性的序列组成。在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含基因表达盒的植物生长，所述基因表达盒包含可操作地连接到至少一个转基因的GmCAB2启动子。在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含基因表达盒的植物生长，所述基因表达盒包含可操作地连接到至少一个转基因的GmCAB2启动子。在一个实施例中，在植物组织或植物细胞中表达至少一个转基因/异源编码序列的方法包括培养包含基因表达盒的植物组织或植物细胞，所述基因表达盒含有可操作地连接到至少一个转基因的GmCAB2启动子。在一个实施例中，在植物组织或植物细胞中表达至少一个转基因/异源编码序列的方法包括培养包含基因表达盒、可操作地连接到至少一个转基因的GmCAB2启动子的植物组织或植物细胞。

在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含可操作地连接到至少一个转基因/异源编码序列或多接头序列的GmCAB2 5’UTR的植物生长。在一个实施例中，所述GmCAB2 5’UTR由选自SEQ ID NO:3的序列或与选自SEQ ID NO:3的序列具有80％、85％、90％、95％或99.5％序列同一性的序列组成。在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含可操作地连接到至少一个转基因的GmCAB2 5’UTR的植物生长。在一个实施例中，在植物组织或植物细胞中表达至少一个转基因/异源编码序列的方法包括培养包含可操作地连接到至少一个转基因的GmCAB2 5’UTR的植物组织或植物细胞。

在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含基因表达盒的植物生长，所述基因表达盒包含可操作地连接到至少一个转基因的GmCAB25’UTR。在一个实施例中，所述GmCAB2 5’UTR由选自SEQ ID NO:3的序列或与选自SEQ IDNO:3的序列具有80％、85％、90％、95％或99.5％序列同一性的序列组成。在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含基因表达盒的植物生长，所述基因表达盒包含可操作地连接到至少一个转基因的GmCAB2 5’UTR。在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含基因表达盒的植物生长，所述基因表达盒包含可操作地连接到至少一个转基因的GmCAB2 5’UTR。在一个实施例中，在植物组织或植物细胞中表达至少一个转基因/异源编码序列的方法包括培养包含基因表达盒的植物组织或植物细胞，所述基因表达盒含有可操作地连接到至少一个转基因的GmCAB2 5’UTR。在一个实施例中，在植物组织或植物细胞中表达至少一个转基因/异源编码序列的方法包括培养包含基因表达盒、可操作地连接到至少一个转基因的GmCAB2 5’UTR的植物组织或植物细胞。

在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含可操作地连接到至少一个转基因/异源编码序列或多接头序列的GmCAB2 3’UTR的植物生长。在一个实施例中，所述GmCAB2 3’UTR由选自SEQ ID NO:4的序列或与选自SEQ ID NO:4的序列具有80％、85％、90％、95％或99.5％序列同一性的序列组成。在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含可操作地连接到至少一个转基因的GmCAB2 3’UTR的植物生长。在一个实施例中，在植物组织或植物细胞中表达至少一个转基因/异源编码序列的方法包括培养包含可操作地连接到至少一个转基因的GmCAB2 3’UTR的植物组织或植物细胞。

在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含基因表达盒的植物生长，所述基因表达盒包含可操作地连接到至少一个转基因的GmCAB23’UTR。在一个实施例中，所述GmCAB2 3’UTR由选自SEQ ID NO:4的序列或与选自SEQ IDNO:4的序列具有80％、85％、90％、95％或99.5％序列同一性的序列组成。在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含基因表达盒的植物生长，所述基因表达盒包含可操作地连接到至少一个转基因的GmCAB2 3’UTR。在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含基因表达盒的植物生长，所述基因表达盒包含可操作地连接到至少一个转基因的GmCAB2 3’UTR。在一个实施例中，在植物组织或植物细胞中表达至少一个转基因/异源编码序列的方法包括培养包含基因表达盒的植物组织或植物细胞，所述基因表达盒含有可操作地连接到至少一个转基因的GmCAB2 3’UTR。在一个实施例中，在植物组织或植物细胞中表达至少一个转基因/异源编码序列的方法包括培养包含基因表达盒、可操作地连接到至少一个转基因的GmCAB2 3’UTR的植物组织或植物细胞。

在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含可操作地连接到至少一个转基因/异源编码序列或多接头序列的GmCAB2终止子的植物生长。在一个实施例中，所述GmCAB2终止子由选自SEQ ID NO:5的序列或与选自SEQ ID NO:5的序列具有80％、85％、90％、95％或99.5％序列同一性的序列组成。在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含可操作地连接到至少一个转基因的GmCAB2终止子的植物生长。在一个实施例中，在植物组织或植物细胞中表达至少一个转基因/异源编码序列的方法包括培养包含可操作地连接到至少一个转基因的GmCAB2终止子的植物组织或植物细胞。

在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含基因表达盒的植物生长，所述基因表达盒包含可操作地连接到至少一个转基因的GmCAB2终止子。在一个实施例中，所述GmCAB2终止子由选自SEQ ID NO:5的序列或与选自SEQ IDNO:5的序列具有80％、85％、90％、95％或99.5％序列同一性的序列组成。在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含基因表达盒的植物生长，所述基因表达盒包含可操作地连接到至少一个转基因的GmCAB2终止子。在一个实施例中，在植物中表达至少一个转基因/异源编码序列的方法包括使包含基因表达盒的植物生长，所述基因表达盒包含可操作地连接到至少一个转基因的GmCAB2终止子。在一个实施例中，在植物组织或植物细胞中表达至少一个转基因/异源编码序列的方法包括培养包含基因表达盒的植物组织或植物细胞，所述基因表达盒含有可操作地连接到至少一个转基因的GmCAB2终止子。在一个实施例中，在植物组织或植物细胞中表达至少一个转基因/异源编码序列的方法包括培养包含基因表达盒、可操作地连接到至少一个转基因的GmCAB2终止子的植物组织或植物细胞。

提供以下实例以说明某些特定特征和/或实施例。所述实例不应当解释为将本公开限制为示例的特定特征或实施例。

实例

实例1：从大豆基因组序列中鉴定调控元件

通过下一代测序(NGS)获得25个大豆组织(品种Williams 82)的总mRNA表达的表达谱，并用于鉴定寻找调控元件的候选大豆基因。包括的组织是从大豆植物的幼苗(展开的子叶、根、和下胚轴)、V5(叶和茎)、和R5(叶、花、种子和荚果发育的不同阶段)收集的。展现所希望的表达谱的大豆内源基因被鉴定为寻找调控序列的潜在候选者。

具有所希望的表达谱的基因之一是Glyma14g01130，其在绿色组织中表达。该基因被鉴定为编码叶绿素a/b结合蛋白II型的GmCAB2基因(UniProtKB-C6TD73_SOYBN)(Apweiler,Rolf等人“UniProt:the universal protein knowledgebase[UniProt：通用蛋白质知识库].”Nucleic acids research[核酸研究]32.增刊_1(2004):D115-D119；可在http://www.uniprot.org/获得)，因此在本文将该基因描述为“GmCAB2”。分离来自所述GmCAB2基因的调控序列，并表征其驱动转基因表达的能力。所述GmCAB2的启动子在本文中以SEQ ID NO:2提供。

所述Glyma14g01130基因(GmCAB2)的调控序列被定义为所述启动子和5’非翻译前导序列(UTR)的Glyma14g01130基因的ATG上游约1.5kb序列，以及所述3’UTR和终止子的Glyma14g01130基因终止密码子下游约0.4kb。为了进一步改善所述调控序列，完成了对所述调控元件的另外的分析。使用先前在美国专利公开号20150128309A1(其通过引用以其整体并入本文)中公开的方法，对推定的上游和下游调控序列进行评估，以确定转座序列、抑制性DNA(甲基化)和染色质(组蛋白-H3-赖氨酸-4二甲基化，通常缩写为H3K4me2)标记的存在。包含抑制性DNA和染色质标记的Glyma14g01130基因DNA序列从来源的上游和下游调控序列中排除。还避免了在5’和3’序列中长段(100bp或更多)的AT富集序列(>75％AT富集)，以作为减少从头合成DNA片段的困难的手段。

所得GmCAB2上游调控序列包含启动子(SEQ ID NO:2)和5’UTR(SEQ ID NO:3)。所述下游序列涵盖所述GmCAB2基因的3’UTR(SEQ ID NO:4)和终止子(SEQ ID NO:5)。所述终止子序列延伸超过最后一个已知的聚腺苷酸化位点约100-200bp。

序列表中提供了源自大豆基因组的序列，GmCAB2(Glyma14g01130)基因启动子/5’UTR和终止子：

源自大豆的其他候选调控序列为：分别地被注释为编码肌动蛋白样蛋白的Glyma06g15520(Dai,Xinbin,Ji He和Xuechun Zhao.“A new systematic computationalapproach to predicting target genes of transcription factors[预测转录因子靶基因的一种新的系统计算方法].”Nucleic acids research[核酸研究]35.13(2007):4433-4440；可在http://plantgrn.noble.org/获得)，我们将其命名为GmAct7-2(SEQ ID NO:6)；和被注释为编码甘油醛-3-磷酸脱氢酶C1的Glyma06g18110(Dai,Xinbin,Ji He和XuechunZhao.“A new systematic computational approach to predicting target genes oftranscription factors[预测转录因子靶基因的一种新的系统计算方法].”Nucleicacids research[核酸研究]35.13(2007):4433-4440；可在http://plantgrn.noble.org/获得)，并且我们将该基因命名为GmGAPC1(SEQ ID NO:7)。来自Glyma06g15520和Glyma06g18110的其他调控序列是使用与针对GmCAB2所述相同的方法寻求来源的。另外，通过从Glyma06g15520和Glyma06g18110启动子的调控序列中去除一对碱基对进行了较小的修饰，以促进将启动子克隆到基因表达盒中。

实例2：克隆来自大豆的调控序列

通过DNA2.0合成所述GmCAB2基因的启动子、5’UTR和3’UTR/终止子序列。图1显示了所述合成片段的图。在所述启动子/5’UTR与所述3’UTR/终止子序列之间包括含有接头的多克隆位点。

将所述合成GmCAB2片段(启动子/5’UTR和终止子)克隆到Gateway入门载体中，并将RFP/AAD12报告基因(SEQ ID NO:10)插入在所述5’UTR与所述终止子之间。所述报告基因是双报告子，所述双报告子编码包含通过刚性螺旋肽接头(Arai等人,(2001),Protein Eng[蛋白质工程],14,529-532以及Marqusee等人,(1987),Proc Natl Acad Sci USA[美国科学院院报],84,8898-8902所述的LAE(EAAAK)₅AAA)连接的RFP和AAD12多肽的翻译融合蛋白。将所得表达盒(SEQ ID NO:11)移至二元载体并标记为pDAB122138(图2)。该二元载体还含有由拟南芥泛素3启动子和5’UTR(AtUbi3)驱动并由拟南芥泛素3终止子(AtUbi3)终止的绿色荧光蛋白(GFP)基因。同样，含有来自绿产色链霉菌(Streptomycesviridochromogenes)的合成草丁膦-N-乙酰转移酶基因(PAT)的所述二元载体由木薯叶脉花叶病毒启动子(CsVMV)驱动，并由根癌农杆菌(Agrobacterium tumefaciens)Orf1终止子(AtuOrf1)终止。所述GFP和PAT基因表达盒提供为SEQ ID NO:12。

用于GmAct7-2和GmGAPC1调控序列的克隆步骤与上述用于GmCAB2的克隆步骤相似。在pDAB122133构建体中测试所述GmAct7-2，并在pDAB122134构建体中测试GmGAPC1。

实例3：本氏烟(N.benthamiana)叶浸润及GmCAB2、GmAct7-2和GmGAPC1驱动的RFP/AAD12报告子表达的瞬时测定

接着，在27℃/24℃的16小时光周期下，使本氏烟植物在温室中生长。将20-24天大的植物用于瞬时表达测定。为此，使用两种修饰的根癌农杆菌菌株的混合物浸润顶部的3-4片叶子。将第一菌株用于所有浸润中，并携带含有表达P19沉默抑制子的转基因的pDAB112236构建体(Voinnet等人(1999),Proc Natl Acad Sci U.S.A.[美国科学院院报],96,14147-14152)。第二农杆菌属菌株是携带测试构建体(带有GmCAB2、GmAct7-2、或GmGAPC1调控元件)的实验菌株，或是基准对照构建体(表1)。使用的两个基准构建体包含拟南芥泛素14启动子::拟南芥泛素14终止子(AtUbi14/AtUbi14)和拟南芥泛素10启动子::根癌农杆菌Orf23(AtUbi10/AtuOrf23)控制下的RFP/AAD12报告基因。混合比率是基于光密度(OD)读数。将所有农杆菌培养物的密度调节至OD 2.0。浸润后，使植物生长在Conviron^TM上，直到浸润后第五天收集到被浸润的叶子为止。对于每个构建体，使用Typhoon^TM扫描仪从多个单独的1.5cm叶盘上收集报告基因的荧光数据。

在三个通道上扫描了来自本氏烟的所有样品；叶绿素(488nm蓝色激光，670nmBP30，580nm分离)，GFP(488nm蓝色激光，520nm BP40，580nm分离)和RFP(532nm绿色激光，580nm BP30)。用于本氏烟的光电倍增管电压(PMT)设置为：叶绿素为340，GFP为340，并且RFP为360。

表1显示了本氏烟瞬时测定中的测试结果。对RFP/AAD12报告转基因产生的荧光进行分析后揭示，所述GmCAB2调控序列产生的平均RFP荧光(473.2像素/面积)显著高于(p<0.0001)平均背景荧光(26.1像素/面积)。观察到，来自所述GmCAB2调控序列的RFP/AAD12荧光低于(p<0.0001)来自由所述AtUbi14/AtUbi14和所述AtUbi10/AtuOrf23的基准调控元件驱动的构建体的平均RFP/AAD12荧光：分别为7567.4和3084.5像素/面积。由所述GmCAB2调控元件支持的RFP/AAD12荧光显著高于背景，表明来自Glyma14g01130的GmCAB2调控序列为功能性的，并且可用于驱动本氏烟叶瞬时测定中的异源转基因的表达。

相比之下，对于所述GmCAB2调控序列(其驱动显著高于背景平均RFP/AAD12荧光表达)，所述pDAB122333和pDAB122134构建体中分别含有的GmAct2-2和GmGAPC1调控序列仅产生与所述背景相似的低水平表达(表1)。这些结果证明，从头分离的GmAct2-2和GmGAPC1候选大豆调控序列不能驱动RFP/AAD12转基因表达。所述pDAB122333和pDAB122134构建体缺少RFP/AAD12的表达并不是由于浸润差，而是因为这些构建体中的第二转基因GFP显示出显著高于背景的强荧光(p<0.0001)。因此，这些结果显示来自Glyma06g15520和Glyma06g18110的从头候选调控序列不能驱动异源报告转基因表达。

基于这些结果，不再进一步追究分别携带GmAct7-2和GmGAPC1的构建体pDAB122333和pDAB122134。相比之下，与所述本氏烟叶的背景荧光相比，提出将含有所述GmCAB2调控序列并展现高水平RFP/AAD12荧光的pDAB122138构建体用于在稳定转化的拟南芥转基因植物中的进一步测试。

实例4：农杆菌介导的拟南芥转化和转基因事件的分子分析

拟南芥生态型Columbia-0(Col-0)用于测试所述GmCAB2调控元件控制下的RFP/AAD12报告子的相对表达。使用标准的拟南芥转化程序通过荧光浸入法(inflorescencedip method)产生转基因种子(Clough和Bent,1998)。将T₁种子播种在选择托盘(10.5"x21"x1"，T.O.塑料公司(T.O.Plastics Inc.)，克利尔沃特，明尼苏达州)上。为此，使用改良的气动喷雾装置将200mg冷分层种子(播种前48小时，0.1％琼脂+385mg/L Liberty)分配到选择托盘上，以每个选择托盘分配10ml种子悬浮液。将托盘用潮湿的圆顶覆盖，并用种子标识符标记，并且放在Conviron^TM中，每个平板下面都有单独的浇水托盘。播种后约五天，将加湿圆顶移开。在播种后约10-14天，使用Hoagland的肥料进行次灌溉，进行选择托盘的第一次浇水。除用除草剂分层外，在播种后七天和九天，用0.2％的Liberty^TM除草剂溶液(20μl/10mL蒸馏的H₂O)喷洒植物。将抗Liberty^TM的T₁植物从选择托盘移植到两英寸的盆中，并使其生长七至十天，之后取样进行分子分析。

接着，使用从每棵植物上掐下的约0.5平方厘米的拟南芥叶，从叶上提取DNA。将所述样品收集在96孔DNA提取板中。然后将200μl提取缓冲液添加到每个孔中，并使用Kleko^TM组织粉碎机(在最大设置下保持三分钟)用三毫米的不锈钢珠破坏组织。组织浸渍后，使用BioSprint 96DNA Plant Kit^TM分离DNA。

对于qPCR，使用被设计为检测pat和aad12基因的水解探针测定转基因拷贝数(表2)。拟南芥内源基因AtTafII15(拟南芥基因座：AT4G31720)用于DNA模板浓度的归一化(表2)。如下执行qPCR：10μl Probes Master Mix^TM，含最终浓度为0.4μM的每种引物，以及0.2μM的每种探针。使用95℃进行PCR循环10分钟，随后进行40个扩增循环(95℃1分钟，60℃40秒，以及72℃1秒)和40℃1秒。所有qPCR测定均以双重形式运行，pat或aad12测定与内源基因AtTafII15的测定配对。基于ΔΔCt方法(

软件版本1.5)，使用先进的相对定量算法将荧光信号跨越背景阈值的点的cp得分用于分析实时PCR数据。然后将所有样品相对于已知的半合子植物校准，以获得转基因拷贝数。筛选了多达100个被鉴定为对Liberty^TM有抗性的T₁事件，以鉴定一个和两个拷贝的转基因事件，将其用于进一步分析T₁转基因植物中转基因表达。

表2.用于拟南芥转基因植物的基因分型和接合性分析的引物和探针

实例5：T₁拟南芥植物中可操作地连接到GmCAB2调控序列的基因的评估

为了评估由所述GmCAB2启动子、GmCAB2 5’UTR和GmCAB2终止子调控元件驱动的RFP/AAD12报告基因的表达，鉴定单拷贝转基因事件并使用Typhoon仪器测定RFP/AAD12荧光。在三个通道上扫描了所有样品：叶绿素(488nm蓝色激光，670nm BP30，580nm分离)，GFP(488nm蓝色激光，520nm BP40，580nm分离)和RFP(532nm绿色激光，580nm BP30)。叶组织的PMT设置是叶绿素400、GFP 400和RFP 420。为了分析各叶的荧光，自低拷贝(1-2个拷贝)转基因事件从每棵植物中收获完全展开的莲座叶，并从近轴(顶)侧进行扫描。“轮廓绘制”功能用于勾勒叶片形状，并通过将信号量除以叶表面来确定归一化的荧光。表3显示了结果。

针对RFP/AAD12荧光的进行的T₁事件分析揭示，所述GmCAB2调控元件支持高平均RFP/AAD12荧光(1825.1像素/面积)，这在统计学上高于(p<0.0001)非转基因野生型对照(Wt)中检测的平均背景荧光(350.5像素/面积)(表3)。这些结果显示，所述GmCAB2调控序列驱动RFP/AAD12报告基因在转基因拟南芥植物中的高于背景的表达。由GmCAB2调控元件产生的平均RFP/AAD12荧光与pDAB117559和pDAB117560基准构建体的RFP/AAD12荧光水平无统计学差异(分别为p＝0.0912和0.1551，未显示)。在所述pDAB117559和pDAB117560构建体中，所述RFP/AAD12报告子受以下调控元件的控制；分别为拟南芥泛素14启动子::拟南芥泛素14终止子和拟南芥泛素10启动子::根癌农杆菌Orf23终止子。因此，pDAB122138支持类似于阳性pDAB117559和pDAB117560对照的RFP/AAD12荧光，表明GmCAB2作为拟南芥转基因应用中的调控序列高度有效。基于上述结果，提出了含有所述GmCAB2调控序列的转基因pDAB122138事件，以进一步在T₂拟南芥中进行表征。

实例6：可操作地连接到GmCAB2调控序列的基因在T₂拟南芥植物叶中的表达

与T₁拟南芥中基准拟南芥泛素14启动子::拟南芥泛素14终止子和拟南芥泛素10启动子::根癌农杆菌Orf23终止子调控序列的表达水平相比，所述GmCAB2调控序列展现出较低但比背景显著更高的表达水平(实例5)。提出了含有驱动所述RFP/AAD12报告基因的所述GmCAB2调控序列的选择事件，以进一步在T₂拟南芥植物中进行表征。因此，选择了表达中至高水平RFP/AAD12和GFP的五棵T₁植物。这五棵植物含有pDAB122138的转基因事件，并用于T₂植物测试。从这五个事件中，每个事件都生长了56棵植物。如实例4中所述对所述T₂植物进行分子基因分型。基于分子分析，保留所有纯合子和相当数量的半合子植物用于四个单拷贝事件的荧光分析。为了简化一个两拷贝转基因事件的数据解释，仅保留半合子植物用于表达分析。

表4提供了T₂转基因植物的分析结果。在GmCAB2调控元件的控制下，含有RFP/AAD12转基因的纯合子(1个拷贝)和半合子(1和2个拷贝)pDAB122138转基因植物的结果展现出RFP/AAD12荧光显著高于非转基因对照植物的背景荧光。对于携带GmCAB2调控元件的转基因植物，由半合子(7243.0像素/面积)和纯合子(11340.2像素/面积)产生的平均RFP/AAD12荧光显著高于背景荧光(1137.5像素/面积，p<0.0001，表4)。将半合子pDAB122138植物与pDAB117559和pDAB117560基准构建体的半合子植物进行比较，揭示pDAB122138支持的RFP/AAD12荧光低于pDAB117559(10943.2像素/面积，p<0.0001)，并且与pDAB117560相似(8239.2像素/面积，p＝0.0965，未显示)。将纯合子pDAB122138植物与pDAB117559和pDAB117560基准构建体的纯合子植物进行比较，揭示pDAB122138支持相对较低RFP/AAD12荧光，pDAB117559(17194.3像素/面积)和pDAB117560(15334.3像素/面积)基准构建体(p<0.0001，未显示)。在所述pDAB117559和pDAB117560构建体中，所述RFP/AAD12报告子受以下调控元件的控制；分别为拟南芥泛素14启动子::拟南芥泛素14终止子和拟南芥泛素10启动子::根癌农杆菌Orf23终止子。这些结果证明，所述GmCAB2调控序列在两代转基因事件中支持转基因的稳健可遗传表达。

查询单独的转基因事件(表5)揭示，在所有检查的独立转基因事件中均检测到RFP/AAD12荧光。在四个单拷贝转基因事件中，纯合子植物展现出比半合子植物更高的平均RFP/AAD12荧光，表明这些事件中的转基因表达是拷贝数依赖性的。

总之，对转基因T₂拟南芥事件的测试显示，GmCAB2调控元件驱动RFP/AAD12报告基因的可遗传表达，其高于Wt背景。这些结果重申，在稳定转化的拟南芥植物中，所述GmCAB2调控元件在驱动可遗传的转基因表达方面有效。

实例7：使用GmCAB2调控元件产生的其他转基因植物

通过利用与先前在专利申请WO 2007/053482的实例#11或实例#13中所述的相同的技术，可以将大豆用可操作地连接到所述GmCAB2启动子、所述GmCAB2 5’UTR、所述GmCAB23’UTR和/或所述GmCAB2终止子的基因转化。

通过利用与先前在美国专利号7,838,733的实例#14或专利申请WO 2007/053482(Wright等人)的实例#12中所述的相同的技术，可以将棉花用可操作地连接到所述GmCAB2启动子、所述GmCAB2 5’UTR、所述GmCAB2 3’UTR和/或所述GmCAB2终止子的基因转化。

通过利用与先前在美国专利号7,838,733的实例#26或专利申请WO 2007/053482(Wright等人)的实例#22中所述的相同的技术，可以将卡诺拉油菜用可操作地连接到所述GmCAB2启动子、所述GmCAB2 5’UTR、所述GmCAB2 3’UTR和/或所述GmCAB2终止子的基因转化。

通过利用与先前在专利申请WO 2013/116700A1(Lira等人)的实例#23中所述的相同的技术，可以将小麦用可操作地连接到所述GmCAB2启动子、所述GmCAB2 5’UTR、所述GmCAB2 3’UTR和/或所述GmCAB2终止子的基因转化。

通过利用与先前在专利申请WO 2013/116700A1(Lira等人)的实例#19中所述的相同的技术，可以将稻用可操作地连接到所述GmCAB2启动子、所述GmCAB2 5’UTR、所述GmCAB23’UTR和/或所述GmCAB2终止子的基因转化。

实例8：可操作地连接到GmCAB2调控元件的基因的农杆菌介导的转化

根据本公开，可以使用本领域已知的技术根据本公开的实施例转化另外的作物。对于农杆菌介导的黑麦转化，参见，例如，Popelka JC,Xu J,Altpeter F.,“Generation ofrye with low transgene copy number after biolistic gene transfer andproduction of(Secale cereale L.)plants instantly marker-free transgenic rye[在进行基因枪基因转移后产生具有低转基因拷贝数的黑麦，并立即产生无标记的转基因黑麦(黑麦(Secale cereale L.))植物],”Transgenic Res.[转基因研究]2003年10月；12(5):587-96.)。对于农杆菌介导的高粱转化，参见，例如，Zhao等人,“Agrobacterium-mediated sorghum transformation[农杆菌介导的高粱转化],”Plant Mol Biol.[植物分子生物学]2000年12月；44(6):789-98。对于农杆菌介导的大麦转化，参见，例如，Tingay等人,“Agrobacterium tumefaciens-mediated barley transformation[根癌农杆菌介导的大麦转化],”The Plant Journal[植物杂志],(1997)11:1369-1376。对于农杆菌介导的小麦转化，参见，例如，Cheng等人,“Genetic Transformation of Wheat Mediated byAgrobacterium tumefaciens[通过根癌农杆菌介导的小麦基因转化],”Plant Physiol.[植物生理学]1997年11月；115(3):971-980。对于农杆菌介导的稻转化，参见，例如，Hiei等人,“Transformation of rice mediated by Agrobacterium tumefaciens[通过根癌农杆菌介导的稻转化],”Plant Mol.Biol.[植物分子生物学]1997年9月；35(1-2):205-18。

这些植物和其他植物的拉丁文名称如下。应当清楚，可以使用其他(非农杆菌)转化技术将可操作地连接到所述GmCAB2启动子、所述GmCAB2 5’UTR、所述GmCAB2 3’UTR和/或所述GmCAB2终止子的基因转化到例如这些植物和其他植物中。实例包括但不限于：玉米(玉蜀黍)、小麦(小麦属物种(Triticum spp.))、稻(稻属物种(Oryza spp.)和菰属物种(Zizania spp.))、大麦(大麦属物种(Hordeum spp.))、棉花(水麻(Abroma augusta)和棉属物种(Gossypium spp.))、大豆(Soybean)(大豆(Glycine max))、糖和甜菜(甜菜属物种(Beta spp.))、甘蔗(砂糖椰子(Arenga pinnata))、番茄(Tomato)(番茄(Lycopersiconesculentum))及其他物种、粘果酸浆(Physalis ixocarpa)、黄水茄(Solanum incanum)及其他物种、和树番茄(Cyphomandra betacea))、马铃薯(Potato)(马铃薯(Solanumtuberosum))、甘薯(Sweet potato)(甘薯(Ipomoea batatas))、黑麦(黑麦属物种(Secalespp.))、辣椒(Peppers)(辣椒(Capsicum annuum)、中华辣椒(chinense)、和小米辣(frutescens))、莴苣(Lettuce)(莴苣(Lactuca sativa)、山莴菊(perennis)、和野莴苣(pulchella))、卷心菜(芸苔属物种(Brassica spp.))、芹菜(旱芹(Apium graveolens))、茄子(Eggplant)(茄子(Solanum melongena))、花生(落花生(Arachis hypogea))、高粱(高粱属物种(Sorghum spp.))、苜蓿(紫花苜蓿(Medicago sativa))、胡萝卜(野胡萝卜(Daucus carota))、豆类(菜豆属物种(Phaseolus spp.)、及其他属)、燕麦(Oats)(燕麦(Avena sativa)和糙伏毛燕麦(strigosa))、豌豆(豌豆属(Pisum)、豇豆属(Vigna)、和翅荚豌豆属(Tetragonolobus)物种)、向日葵(Sunflower)(向日葵(Helianthus annuus))、南瓜(南瓜属物种(Cucurbita spp.))、黄瓜(Cucumber)(黄瓜(Cucumis sativa))、烟草(烟草属物种(Nicotiana spp.))、拟南芥属(拟南芥(Arabidopsis thaliana))、草坪草(黑麦草属(Lolium)、翦股颖属(Agrostis)、早熟禾属(Poa)、狗芽根属(Cynodon)、及其他属)、三叶草(三叶草属(Trifolium))、野豌豆(野豌豆属(Vicia))。例如，在本公开的实施例中考虑了用可操作地连接到所述GmCAB2启动子、所述GmCAB2 5’UTR、所述GmCAB23’UTR和/或所述GmCAB2终止子的基因转化此类植物。

使用所述GmCAB2启动子、所述GmCAB2 5’UTR、所述GmCAB2 3’UTR和/或所述GmCAB2终止子来驱动可操作地连接的基因，这可以部署在许多落叶和常绿木材物种中。此类应用也在本公开的实施例的范围内。这些物种包括但不限于：桤木(桤木属物种(Alnus spp.))、白蜡(白蜡属物种(Fraxinus spp.))、山杨和白杨物种(杨属物种(Populus spp.))、山毛榉(山毛榉属物种(Fagus spp.))、桦木(桦木属物种(Betula spp.))、樱桃树(李属物种(Prunus spp.))、桉树(桉属物种(Eucalyptus spp.))、山核桃木(山核桃属物种(Caryaspp.))、槭树(槭属物种(Acer spp.))、栎树(栎属物种(Quercus spp.))、和松树(松属物种(Pinus spp.))。

使用所述GmCAB2启动子、所述GmCAB2 5’UTR、所述GmCAB2 3’UTR和/或所述GmCAB2终止子来驱动可操作地连接的基因，这可以部署在观赏和挂果物种中。此类应用也在本公开的实施例的范围内。实例包括但不限于：玫瑰(蔷薇属物种(Rosa spp.))、紫果卫矛(卫矛属物种(Euonymus spp.))、矮牵牛(茄科物种Petunia spp.))、秋海棠(秋海棠属物种(Begonia spp.))、杜鹃(杜鹃花属物种(Rhododendron spp.))、红果或苹果(苹果属物种(Malus spp.))、梨(梨属物种(Pyrus spp.))、桃(李属物种(Prunus spp.))、和万寿菊(万寿菊属物种(Tagetes spp.))。

实例8：用可操作地连接到GmCAB2调控元件的基因进行的农杆菌介导的大豆转化

为了测试GmCAB2上游调控序列(启动子和5’UTR)在大豆转基因植物中驱动转基因表达的能力，将包含GmCAB2基因启动子序列的变体(SEQ ID:NO:28；GmCAB2.1)和GmCAB2 5’UTR序列(SEQ ID NO:3)的构建体与来自菜豆(Phaseolus vulgaris)菜豆素基因(PvPhas)的终止子配对。将这些调控序列GmCAB2启动子(SEQ ID NO:28)和GmCAB2 5’UTR(SEQ IDNO:3)/PvPhas终止子与在本文中称为杀昆虫蛋白A(IP-A)的杀昆虫蛋白的编码序列融合。使用生物弹轰击和FLP/FRT重组酶介导的盒交换(RMCE)，将所得构建体稳定整合到大豆基因组中。RMCE依赖于用供体序列替换在大豆基因组序列中先前特异性整合的，以产生在相同基因组位置整合的独立转基因事件(参见Tao等人,(2007)Modified FRT recombinationsites and methods of use[修饰的FRT重组位点和使用方法]，WO 2007011733；Li等人,(2009)Site-Specific Integration of Transgenes in Soybean via Recombinase-Mediated DNA Cassette Exchange Plant Physiology[通过重组酶介导的DNA盒交换植物生理学，在大豆中转基因的位点特异性整合],第151卷,第1087-1095页)。在拟南芥Ubiquitin10启动子和5’UTR和Ubiquitin14终止子(AtUbi10/AtUbi14)调控序列的控制下，将包含IP-A的对照构建体整合到与具有GmCAB2启动子和5’UTR的测试构建体相同的大豆基因组位置(Tao等人,2007，Li等人,2009)。所有的转化子也都包含选择盒，该盒指定了对氯磺隆的抗性(Tao等人,2007；Li等人,2009)。分子筛选了对氯磺隆具有抗性的大豆植物，并再生了包含完整单拷贝插入物的事件。转基因大豆植物在典型的温室生长条件下生长至成熟。为了测定转基因蛋白质的积累水平，对T0转基因植物的叶子进行采样，提取蛋白质，并使用标准蛋白质印迹技术确定IP-A的蛋白质积累。这些分析的结果示于表6。IP-A蛋白水平的统计分析揭示，测试构建体的平均蛋白水平与对照构建体的平均蛋白水平之间无统计学显著差异(p＝0.7221)。因此，转基因大豆植物中的这些结果证明，SEQ ID NO:28的GmCab2启动子和SEQ ID NO:3的5’UTR支持与普遍存在的强AtUbi10启动子相当的蛋白质水平(Norris等人,(1993)The intron of Arabidopsis thaliana polyubiquitin genes isconserved in location and is a quantitative determinant of chimeric geneexpression[拟南芥多聚泛素基因的内含子在位置上是保守的，并且是嵌合基因表达的定量决定因素].Plant Mol Biol.[植物分子生物学]3月21(5):895-906)。此外，在该实验中，PvPhas终止子与SEQ ID NO:28上游调控序列的GmCAB2启动子配对，因此，这些结果显示，与转基因大豆植物中的异源下游调控序列组合，SEQ ID NO:28的GmCAB2启动子起作用以驱动异源编码序列的稳健表达。

表6. T0大豆转基因植物叶片中杀昆虫蛋白A(IP-A)的积累

注释：¹将蛋白质积累水平相对于总可溶性蛋白归一化，并表示为百万分率(ppm)。ppm值四舍五入到最接近的整数。²在对照AtUbi10/AtUbi14和GmCAB2.1/PvPhas构建体之间未检测到显著差异(p＝0.7221)。由于存在不等方差，因此使用了Dunn方法对联合排名进行非参数比较，用于分析。使用

统计软件包进行统计分析。

实例9：GmCAB2启动子和5’UTR支持T1转基因大豆植物中杀昆虫蛋白B(IP-B)的积累。

为了测试GmCAB2上游调控序列(启动子和5’UTR)在T1大豆转基因植物中驱动可遗传转基因表达的能力，将包含GmCAB2基因启动子序列的变体版本(SEQ ID:NO:28)和GmCAB5’UTR(SEQ ID NO:3)的构建体与来自聚合水稻基因(LOC_Os03g60090.1和LOC_Os03g60080.1)的OsT28(Bhyri,P.,Krishnamurthy,N.,Narayamam,E.,Nott,A.,Sarangi,R.R.(2013)Novel Plant Terminator Sequences[新型植物终止子序列]，WO 2013122729_A2)终止子配对。这些调控序列GmCAB2(SEQ ID NO:28)启动子、5’UTR(SEQ ID NO:3)和OsT28终止子(GmCAB2/OsT28)用于驱动IP-B杀昆虫蛋白编码序列的表达。该构建体中存在的其他基因是含有另一种杀昆虫蛋白的表达盒和含有乙酰乳酸合酶基因(Gm-HRA)的表达盒，其赋予对磺酰脲除草剂的抗性(Mazur,B.J.And Falco S.C.(1989)The developmentof herbicide restsnat crops[除草剂抗性作物的开发].Annu.Rev.PlantPhylsiol.Plant Mol.Biol.[植物生理学和植物分子生物学的年度评论]40:441；和GreenJ.M.(2007)Review of Glyphosate and Als-inhibiting Herbicide Crop Resistanceand Resistant Weed Management[草甘膦和Als抑制除草剂作物抗性和抗性杂草管理的综述]Weed Technology[杂草技术]21(2):547-558)，在植物转化过程中用作选择性标记。遵循农杆菌介导的转化方案，从未成熟的种子培养物中生产转基因T0植物(Finer JJ,McMullen MD(1991)Transformation of soybean via particle bombardment ofembryogenic suspension culture tissue[通过对胚发生悬浮培养组织的粒子轰击进行大豆转化].Vitro Cell Dev Biol-Plant[体外细胞发育生物学-植物]27:175-182；Stewart CN Jr,Adang MJ,All JN,Boerma HR,Cardineau G,Tucker D,Parrott WA(1996)Genetic transformation,recovery,and characterization of fertile soybeantransgenic for a synthetic Bacillus thuringiensis cryIAc gene[可育大豆中合成苏云金芽胞杆菌cryIAc基因的遗传转化、恢复和表征].Plant Physiol 112:121-129；ChoH,Castle LA,Klein TM,Minh T,Moy Y(2015).Cultivation medium for Agrobacterium-mediated transformation of dicot plants[农杆菌介导的双子叶植物转化的培养基].US8962328)。简而言之，在标准条件下从温室中生长的植物的大豆荚中收获未成熟的种子。将种子表面灭菌，无菌切下未成熟子叶，将培养物维持于含有50ml液体培养基的250ml烧瓶中，于26℃的旋转振荡器上，在冷白色荧光灯下以16/8h日/夜的光周期(Samoylov VM,Tucker DM,Thibaud-Nissen F,Parrott WA(1998)A liquid-medium-based protocol forrapid regeneration from embryogenic soybean cultures[基于液体培养基的针对胚发生大豆培养物中快速再生的方案].Plant Cell Rep[植物细胞报告]18:49-54；和Cho等人,(2015))。将经修饰以携带具有目的基因的质粒的根癌农杆菌菌株用于转化未成熟的大豆子叶。选择转基因大豆事件，并在典型的温室生长条件下使其生长成熟。

为了生产T1转基因植物，将完整的单拷贝转基因事件的种子种植在温室中，并使用标准分子生物学技术对幼苗进行基因分型，以鉴定无效、半合子和纯合子转基因植物。为了评估蛋白质积累水平，从半合子和纯合子转基因植物中收集了V3和R3生长阶段的叶片以及约2.5-3cm长的未成熟豆荚。将样品在干冰上冷冻，并保存在-80C冰箱中，直到冷冻干燥，研磨，并用于蛋白质提取。蛋白质提取和蛋白质水平分析与以下所述相似：Xu XT,OwensMA.(2011)Multiplexed protein quantification in maize leaves by liquidchromatography coupled with tandem mass spectrometry:an alternative tool toimmunoassays for target protein analysis in genetically engineered crops[通过液相色谱与串联质谱联用对玉米叶片中的蛋白质进行多重定量：用于基因工程作物中靶标蛋白质分析的免疫测定的替代工具].J Agric Food Chem.[农业食品化学]2011年4月27日；59(8):3551-8.doi:10.1021/jf104516r.Epub 2011年3月9日)。

蛋白质分析的结果示于表7。蛋白质水平分析揭示，半合子和纯合子植物在所有测定组织：V3和R3叶片和未成熟豆荚中积累了IP-B蛋白。比较纯合子和半合子转基因植物之间的平均蛋白质积累水平，揭示相对于纯合子植物，纯合子植物中统计学上蛋白质水平更高，并且对于所有测试组织这都是真实的(表7)。这些结果表明纯合子植物中转基因拷贝数的增加导致更高的蛋白质积累。在纯合子转基因植物的V3和R3叶片和未成熟豆荚中的拷贝数依赖的IP-B蛋白积累证明，SEQ ID NO:28的GmCAB2启动子和SEQ ID NO:3的5’UTR支持可遗传和跨代稳定IP-B转基因表达。此外，在该实验中，将SEQ ID NO:28和SEQ ID NO:3的GmCAB2启动子/5’UTR与来自异源单子叶植物物种水稻的OsT28终止子配对。这表明与双子叶植物(实例8)或单子叶植物(本实例)物种的异源下游转录终止序列组合，GmCAB2启动子起作用以驱动异源编码序列的稳健表达。

表7. T1大豆植物的V3和R3叶片和未成熟豆荚中IP-B蛋白的积累

注释：¹将蛋白质积累水平相对于总可溶性蛋白归一化，并表示为百万分率(ppm)。ppm值四舍五入到最近的整数。²半合子和纯合子转基因植物的平均蛋白质水平之间的显著差异，由***<0.0001和**p＝0.0061指示。使用

统计软件包中的Welch’s Anova检验进行统计分析。

尽管上面已经讨论了许多示例性方面和实施例，但是本领域技术人员将认识到某些修饰、置换、添加和其亚组合。因此，旨在将以下所附权利要求和此后引入的权利要求解释为包括所有此类修饰、置换、添加和亚组合，如在其真实精神和范围内。

序列表

<110> 陶氏益农有限公司（Dow AgroSciences LLC）

先锋良种国际有限公司（Pioneer Hi-Bred International, Inc.）

SIDORENKO, LYUDMILA

LARSEN, CORY

ANTHONY, GENY

SREEDHARAN, SRIRAM

BUTLER, HOLLY

Sims, Lynne

Diehn, Scott

Rauscher, Gilda

Ripp, Kevin

Meyer, Knut

<120> 用于转基因表达的植物启动子

<130> 79351-US-PSP [2]

<160> 29

<170> PatentIn 3.5版

<210> 1

<211> 1981

<212> DNA

<213> 人工序列

<220>

<223> 合成GmCAB2 (由多克隆位点连接的启动子/5'UTR和终止子)

<400> 1

caaattcaaa caaacttaca tcccccgaaa gctttcaagt aagccgaagt gacctattag 60

cttcgttttt catgcttcca tgattaaaaa agtaattgca gaactccttc cagtatatga 120

gctcgaattg gggtgccaga tatgctaatt aattactttt atgatgcagg caagtgtgtt 180

ttcagatgct gttcgggatg atgttgattt ttataagtat gaactgcact cctttagctt 240

tgaagtttga tcactagtgg ataaattatt tatatcttga gctttgaaaa tcttccaatg 300

aaacttcatt cacactttct gtgaaaaata tcatctatta aagaatcttg tcgtggtcaa 360

tgctatgcat gacaacatat taactattta aaagataact taaaattata aatagttaca 420

tattataaaa tgctgtggtg gacatgttac cacttgtaga atttatatag taaaattgaa 480

tctataacaa cacgacactt tatgtttatg gaattgtcat gtatgtgata ataaataaga 540

ttaatgaaat tattataaaa aacaaggcct taatcgaaaa ttcaatatct ttctattttt 600

ttattttata atagtaatat aattaaggtg ctttattttg ttttctctta attaccgtaa 660

ttctcattta aatacaactt ttctagctta tgatattgaa agttaattaa aaaaccaata 720

acgtcctgaa ttttaatcta aaacttctag tacgtttggt ttcacatttt agatataatt 780

tttaaaagtt aatagttata aatttgtatt ttaaatgtga ttttttttct atttttaatg 840

actttttaac catgtacagt tattcatact gattttttaa actgtttgct tgaagagacc 900

gtttttgaca ccaagttaaa gaggtcatta tctcttctaa aatcctaaga tataatttcc 960

aaatgaaacc aaatttgtaa tgtagcgaag atgagctgcc acattgtgtt cttgaggtcg 1020

aggcactact agccctgtgt ttctgtgtag ttttactagc aacacaagtt ttttcttttt 1080

ttcaaaaata aaaaagaaag aagaaaaaaa atgtgatggg tcactcacgg gtttgcaatg 1140

ttagtgtagc atcagcccaa tccaaactat cttccatacc aatttccaag ttttaattta 1200

aatttaaatt tcttgactct gttggacctg aattgtgtgg cttacattga ccctctcgaa 1260

aacatctgag gaagaagtct ttgcatccac gtggcagaat aagagccact atagcatgac 1320

aaaatatcag catgagaatc cacatccaaa tccacgacca atgaggtgtt gctgagttgt 1380

gcatatcctc atccacagta tcatacgatc ttctataaac ctttgtagta gctttcttca 1440

ttctccacaa cacagaacaa aaacaaagaa aaaaaaaaac ccttagccaa cacaaccatc 1500

ggatccacac gacaccatgg tgagtagtta gcttaatcac ttaggtcacc gagctcggat 1560

gcctacatgc aatgcaatct tctgctccct tttgcagttc ccttgtgttt aactccattt 1620

tcactaatgt aactacacct gtgtagcaga aaaatctgta tgagaaccat tatattttta 1680

tatattagaa atttgggtcc ccagaaaata tcaactctta cgtttggaat tcaagttaac 1740

tagttcaaac gttgaaacca tgttcaagga atctatctat tagtgatgta cgtgccttgt 1800

acaccatcca attcaaagcc atgattaaaa ccataaacga atgaatccat cttccattac 1860

caacaacatc caaagcccac aaggccacaa caagagaaag agcaggcggg cattcaatgt 1920

atccatctaa atgcgtcaat aatgtagtaa gtcataagaa aattaaaaaa caaagaagtg 1980

a 1981

<210> 2

<211> 1299

<212> DNA

<213> 人工序列

<220>

<223> 合成GmCAB2启动子

<400> 2

caaattcaaa caaacttaca tcccccgaaa gctttcaagt aagccgaagt gacctattag 60

cttcgttttt catgcttcca tgattaaaaa agtaattgca gaactccttc cagtatatga 120

gctcgaattg gggtgccaga tatgctaatt aattactttt atgatgcagg caagtgtgtt 180

ttcagatgct gttcgggatg atgttgattt ttataagtat gaactgcact cctttagctt 240

tgaagtttga tcactagtgg ataaattatt tatatcttga gctttgaaaa tcttccaatg 300

aaacttcatt cacactttct gtgaaaaata tcatctatta aagaatcttg tcgtggtcaa 360

tgctatgcat gacaacatat taactattta aaagataact taaaattata aatagttaca 420

tattataaaa tgctgtggtg gacatgttac cacttgtaga atttatatag taaaattgaa 480

tctataacaa cacgacactt tatgtttatg gaattgtcat gtatgtgata ataaataaga 540

ttaatgaaat tattataaaa aacaaggcct taatcgaaaa ttcaatatct ttctattttt 600

ttattttata atagtaatat aattaaggtg ctttattttg ttttctctta attaccgtaa 660

ttctcattta aatacaactt ttctagctta tgatattgaa agttaattaa aaaaccaata 720

acgtcctgaa ttttaatcta aaacttctag tacgtttggt ttcacatttt agatataatt 780

tttaaaagtt aatagttata aatttgtatt ttaaatgtga ttttttttct atttttaatg 840

actttttaac catgtacagt tattcatact gattttttaa actgtttgct tgaagagacc 900

gtttttgaca ccaagttaaa gaggtcatta tctcttctaa aatcctaaga tataatttcc 960

aaatgaaacc aaatttgtaa tgtagcgaag atgagctgcc acattgtgtt cttgaggtcg 1020

aggcactact agccctgtgt ttctgtgtag ttttactagc aacacaagtt ttttcttttt 1080

ttcaaaaata aaaaagaaag aagaaaaaaa atgtgatggg tcactcacgg gtttgcaatg 1140

ttagtgtagc atcagcccaa tccaaactat cttccatacc aatttccaag ttttaattta 1200

aatttaaatt tcttgactct gttggacctg aattgtgtgg cttacattga ccctctcgaa 1260

aacatctgag gaagaagtct ttgcatccac gtggcagaa 1299

<210> 3

<211> 124

<212> DNA

<213> 大豆

<400> 3

ttgtgcatat cctcatccac agtatcatac gatcttctat aaacctttgt agtagctttc 60

ttcattctcc acaacacaga acaaaaacaa agaaaaaaaa aaacccttag ccaacacaac 120

catc 124

<210> 4

<211> 279

<212> DNA

<213> 大豆

<400> 4

ggatgcctac atgcaatgca atcttctgct cccttttgca gttcccttgt gtttaactcc 60

attttcacta atgtaactac acctgtgtag cagaaaaatc tgtatgagaa ccattatatt 120

tttatatatt agaaatttgg gtccccagaa aatatcaact cttacgtttg gaattcaagt 180

taactagttc aaacgttgaa accatgttca aggaatctat ctattagtga tgtacgtgcc 240

ttgtacacca tccaattcaa agccatgatt aaaaccata 279

<210> 5

<211> 425

<212> DNA

<213> 大豆

<400> 5

ggatgcctac atgcaatgca atcttctgct cccttttgca gttcccttgt gtttaactcc 60

attttcacta atgtaactac acctgtgtag cagaaaaatc tgtatgagaa ccattatatt 120

tttatatatt agaaatttgg gtccccagaa aatatcaact cttacgtttg gaattcaagt 180

taactagttc aaacgttgaa accatgttca aggaatctat ctattagtga tgtacgtgcc 240

ttgtacacca tccaattcaa agccatgatt aaaaccataa acgaatgaat ccatcttcca 300

ttaccaacaa catccaaagc ccacaaggcc acaacaagag aaagagcagg cgggcattca 360

atgtatccat ctaaatgcgt caataatgta gtaagtcata agaaaattaa aaaacaaaga 420

agtga 425

<210> 6

<211> 1416

<212> DNA

<213> 人工序列

<220>

<223> 来自Glyma06g15520的合成GmAct7-2启动子和5'UTR

<400> 6

aacaccagta tgacgaggtc gaccaacaat actgggaaac acagccctag gagcatcgtc 60

acagcaaatc ctgcctgtac acagatgatc atttaaataa attgagcaat aatgaaacca 120

agactaaata gatgcaatta cactaacaag aaactgcaaa gtactaacct tcaccattcc 180

agttccattg tcacaaacaa ggggttgaat atcctcagca tcagccattt tttaccaaac 240

tacagtacgc atacaataaa ttgtcagtac caccaagttt gaatagacaa tctacagaac 300

ccagccattt acagactttg agggtttact tcaaactctc tttttctaca caagacagca 360

tcatagtata tataacacac aaaatcaata ggaaagaaaa caaggaaaaa aaataattca 420

gtattataca atctacttag aaataaaaca gtaacaaatg tacataaaca gataaaggag 480

ccgatcctgt gcatttttta aatgaaactg ccaaaattaa tagatgaata gaaaacgtcc 540

attaggacac cagctaaaat ctcagaagtc ctctgacaca gcatatctta agttcccaaa 600

ccaaatgatc ttctactaag aaagatcaat gaggaaaaaa ataaagccaa aaaagtgata 660

aaaaaaacag atcagaccat aaatccatcc aacaccagat tatgtaatcg atggctatcc 720

acatttcaga ataagtaaag gtacagttca aaaagttcga agatctctgc tatagaagat 780

cggaactgtg atatgtcatt tccaccacta aaactacaga tcgccacaat ctactacatt 840

tcattcagta tagatcaggt agtacgaata taaataatca gatacaaaac atccagatat 900

gattttgatg aggtaggtaa caatcttatc tcacacagat ttaaaaagaa aaacataaaa 960

aagagtacta ctatggaaca aatctaagaa taaacattcg agattgcaaa aagcgctgaa 1020

tcaaagagca aaaggaaacg tactttgcat caaagttatg atgtgagaga ttaagatgaa 1080

taccttgtgt gagaagaaga agatggctta gcactcactc acacacacac acactctctc 1140

tctctccggt gcttgagggc tacagaaaga ggaaagagga atgagaagag agaaggggag 1200

aaggagaggg ggtatatata tgcggaaaga gagagtgtgt cgttggtgtg agagtgagag 1260

tgtaatgtaa tgtatttgaa attggaattg aggttgggac caaaaattga aattgaagga 1320

ctggagagag agggaatcat ttcgaccacg agaaaagagg gatagggtga ctggatgaca 1380

gccttttctt tttcatttca cacctttcta cccttt 1416

<210> 7

<211> 1686

<212> DNA

<213> 人工序列

<220>

<223> 来自Glyma0618110的合成GmGAPC2启动子和5' UTR

<400> 7

tcaaaccaag gcagcaccct cagtttctgg gcgtccagcg agtctggagt gccacatcac 60

acgtggcaac ttgaaatccc agggctcagc acggtggagc aaacagcggt tgtcccacac 120

aaccacatct ccagcagccc attggtgagc atggactctg ggagcctggc aggcccagtc 180

aacaagtcct tcaaggaagc gctctgattc agctgcatcc atgccaggga tggcatgggc 240

atggcggccg atcaagaggc tgggccttcc agtctcagga tgcaccttga ccaatggtct 300

gagaggagtt gcagtggtgt ccatgccata acctatgtag gctgacccgg cctgttggac 360

atgtcccaac ttgctctgag aatacacaag ggagtgacga gcagaccttt ggtgaacaag 420

agcacgggtt gcctcatcaa gggcatcgta ggctgccctc atgtcagcaa agcaggttct 480

gcccccaact gctgggacaa cttctgcgct gaacacagct ccttgagcca tgactggcat 540

gtaggttgag tcggcgtgcc aggccatgtt gcccacaatg accttcatca tgtcatccca 600

ctcagcagga gagtgctggc gcactgtgcc atctgccttg acattggata tggcaacaat 660

gtcacctccg ccaatcctct caattgctcc aaagcgttta gcaaaggtaa tctgttggtc 720

attgctgagg tgttgcccag ggaagatcaa gagtgcatgt tgaagccagg ctgcatggag 780

ggcagcgaaa ccagcatcgt caagtgtggc aaggtgaaca ccagtgactg tggcacccaa 840

ggtggcacca gtgggtgtga tttggagagt ggtctgagcc atggcagctg ccttagctgc 900

ggcttctttt gcggcagcct cctttgcagc ggcttccttg gctgcagcct ctttagcggc 960

tgcttcctcg gcgagattca acttgtgtcc gagcttgctg ggaaggtcac agtaacgagc 1020

aacagccacc tcatgctgtt cgacataggt ttccttgtct gcctccttga tcctttccaa 1080

gcgatgatcc acatagtaga cgccaggcat cttgagattc ttagcaggtt tctttgagcg 1140

gtatgtggtc ttgaagttgc aaatcaaatg gccacctcca accaacttga gtgccatatc 1200

agacctcccc tcaagcccac catcggctgg gtaaagcatc tcggtgtttg cttcccatcc 1260

aagggttttc ttctgcataa ctggtccatt tgatggaaag ttcacacctc taatcttgac 1320

attgtagatg agacacccat cttgcaaaga agtgtcttga gtagcggtca acacgccacc 1380

atcttcgtaa gttgtaacac gctcccatgt gaaaccctca ggaaaagact gcttaaagaa 1440

gtcgggaatc ccttgtgtgt gattgatgaa agttctggag ccatacatga agctagtggc 1500

aagtatgtcg aaggcaaatg ggagtggtcc accctcaacc actttgatcc tcatggtctg 1560

ggttccctca taaggcttgc cttctccctc ggatgtgcat ttgaagtgat gattgttgac 1620

agtgccctcc atgtagagct tcatgtgcat gttctctttg ataagttcct cgcctttgct 1680

caccat 1686

<210> 8

<211> 632

<212> DNA

<213> 大豆

<400> 8

acaatattct tttcattcat atatcgtgta tccactaggt ttgaatgtaa aattattctt 60

gttatctgaa attcttgtga aattatttac tcaactaaaa acataacacg taacagagca 120

taatcataca cattaataaa ctcaatacta aaaaatatta aaattaaatt taaccgatag 180

caaaattaga gtatttagat attttccctt cccttggact cctggtaaac cagggatcgt 240

gcaggtatcc tcaccattac aacttttaag tgtgtcttca tgcctatagc acactcaaat 300

atcgggcaag tgattcatga ataaactaaa atttgataat ttgagtgcga actgacaatc 360

ttatataaaa ttctcgatac atgtagctat agacattcac attaatgttc cgaaggccaa 420

aaaaaatgtg aactctgaaa aaggatacat agaaaataaa ataagcattc acaatcactc 480

ctttgctaca gacaacctac tttcgaagac attgatgaat tccaaggtga aaaatgcttc 540

tcatcaattc tgtgcccgcc acatccagag ggatgccaca caatatatga tacatcacag 600

ctccgaatat accctccaat cctatcccac ct 632

<210> 9

<211> 525

<212> DNA

<213> 大豆

<400> 9

cgtttatcta gaacttcacg gaataatcag tttccaaaaa gtactttcac actattacag 60

tataacttat ccaaccaatt aagttttgaa tatcaggtac gccaatcaaa ccaatatgaa 120

ctaaaagcca aaaatgttaa tttaaatacg gactaaaata agcacagaaa aatgtttaaa 180

ccacgaatcc aagattcaaa gcaaacagga tcaaatatac gagaaccaca aatgaaaaaa 240

aggacggaca aatatctact ataacaatca ataacaagta cattagcaag tattcaagcc 300

aagtacatca gcgagtatat aaaaatccaa aaactcgatc cccctccaca agagaaaaca 360

tcaaaagtcc aaaaaagagc taatgctcct ccaacaagta acaccactgg tttcagaaac 420

cgatttattc agacctctca ttttttgctc gagcaagaca ctaaatcgca gctaaacata 480

aacatacggt aataatgtga agacaagcta ctttgaagta acacc 525

<210> 10

<211> 1686

<212> DNA

<213> 人工序列

<220>

<223> 嵌合RFP/AAD12报告基因的编码序列

<400> 10

atggtgagca aaggcgagga acttatcaaa gagaacatgc acatgaagct ctacatggag 60

ggcactgtca acaatcatca cttcaaatgc acatccgagg gagaaggcaa gccttatgag 120

ggaacccaga ccatgaggat caaagtggtt gagggtggac cactcccatt tgccttcgac 180

atacttgcca ctagcttcat gtatggctcc agaactttca tcaatcacac acaagggatt 240

cccgacttct ttaagcagtc ttttcctgag ggtttcacat gggagcgtgt tacaacttac 300

gaagatggtg gcgtgttgac cgctactcaa gacacttctt tgcaagatgg gtgtctcatc 360

tacaatgtca agattagagg tgtgaacttt ccatcaaatg gaccagttat gcagaagaaa 420

acccttggat gggaagcaaa caccgagatg ctttacccag ccgatggtgg gcttgagggg 480

aggtctgata tggcactcaa gttggttgga ggtggccatt tgatttgcaa cttcaagacc 540

acataccgct caaagaaacc tgctaagaat ctcaagatgc ctggcgtcta ctatgtggat 600

catcgcttgg aaaggatcaa ggaggcagac aaggaaacct atgtcgaaca gcatgaggtg 660

gctgttgctc gttactgtga ccttcccagc aagctcggac acaagttgaa tctcgccgag 720

gaagcagccg ctaaagaggc tgcagccaag gaagccgctg caaaggaggc tgccgcaaaa 780

gaagccgcag ctaaggcagc tgccatggct cagaccactc tccaaatcac acccactggt 840

gccaccttgg gtgccacagt cactggtgtt caccttgcca cacttgacga tgctggtttc 900

gctgccctcc atgcagcctg gcttcaacat gcactcttga tcttccctgg gcaacacctc 960

agcaatgacc aacagattac ctttgctaaa cgctttggag caattgagag gattggcgga 1020

ggtgacattg ttgccatatc caatgtcaag gcagatggca cagtgcgcca gcactctcct 1080

gctgagtggg atgacatgat gaaggtcatt gtgggcaaca tggcctggca cgccgactca 1140

acctacatgc cagtcatggc tcaaggagct gtgttcagcg cagaagttgt cccagcagtt 1200

gggggcagaa cctgctttgc tgacatgagg gcagcctacg atgcccttga tgaggcaacc 1260

cgtgctcttg ttcaccaaag gtctgctcgt cactcccttg tgtattctca gagcaagttg 1320

ggacatgtcc aacaggccgg gtcagcctac ataggttatg gcatggacac cactgcaact 1380

cctctcagac cattggtcaa ggtgcatcct gagactggaa ggcccagcct cttgatcggc 1440

cgccatgccc atgccatccc tggcatggat gcagctgaat cagagcgctt ccttgaagga 1500

cttgttgact gggcctgcca ggctcccaga gtccatgctc accaatgggc tgctggagat 1560

gtggttgtgt gggacaaccg ctgtttgctc caccgtgctg agccctggga tttcaagttg 1620

ccacgtgtga tgtggcactc cagactcgct ggacgcccag aaactgaggg tgctgccttg 1680

gtttga 1686

<210> 11

<211> 3661

<212> DNA

<213> 人工序列

<220>

<223> 含有GmCAB2启动子 - GmCAB2

5' UTR - RFP/AAD12编码序列 - GmCAB2终止子的基因表达盒

<400> 11

caaattcaaa caaacttaca tcccccgaaa gctttcaagt aagccgaagt gacctattag 60

cttcgttttt catgcttcca tgattaaaaa agtaattgca gaactccttc cagtatatga 120

gctcgaattg gggtgccaga tatgctaatt aattactttt atgatgcagg caagtgtgtt 180

ttcagatgct gttcgggatg atgttgattt ttataagtat gaactgcact cctttagctt 240

tgaagtttga tcactagtgg ataaattatt tatatcttga gctttgaaaa tcttccaatg 300

aaacttcatt cacactttct gtgaaaaata tcatctatta aagaatcttg tcgtggtcaa 360

tgctatgcat gacaacatat taactattta aaagataact taaaattata aatagttaca 420

tattataaaa tgctgtggtg gacatgttac cacttgtaga atttatatag taaaattgaa 480

tctataacaa cacgacactt tatgtttatg gaattgtcat gtatgtgata ataaataaga 540

ttaatgaaat tattataaaa aacaaggcct taatcgaaaa ttcaatatct ttctattttt 600

ttattttata atagtaatat aattaaggtg ctttattttg ttttctctta attaccgtaa 660

ttctcattta aatacaactt ttctagctta tgatattgaa agttaattaa aaaaccaata 720

acgtcctgaa ttttaatcta aaacttctag tacgtttggt ttcacatttt agatataatt 780

tttaaaagtt aatagttata aatttgtatt ttaaatgtga ttttttttct atttttaatg 840

actttttaac catgtacagt tattcatact gattttttaa actgtttgct tgaagagacc 900

gtttttgaca ccaagttaaa gaggtcatta tctcttctaa aatcctaaga tataatttcc 960

aaatgaaacc aaatttgtaa tgtagcgaag atgagctgcc acattgtgtt cttgaggtcg 1020

aggcactact agccctgtgt ttctgtgtag ttttactagc aacacaagtt ttttcttttt 1080

ttcaaaaata aaaaagaaag aagaaaaaaa atgtgatggg tcactcacgg gtttgcaatg 1140

ttagtgtagc atcagcccaa tccaaactat cttccatacc aatttccaag ttttaattta 1200

aatttaaatt tcttgactct gttggacctg aattgtgtgg cttacattga ccctctcgaa 1260

aacatctgag gaagaagtct ttgcatccac gtggcagaat aagagccact atagcatgac 1320

aaaatatcag catgagaatc cacatccaaa tccacgacca atgaggtgtt gctgagttgt 1380

gcatatcctc atccacagta tcatacgatc ttctataaac ctttgtagta gctttcttca 1440

ttctccacaa cacagaacaa aaacaaagaa aaaaaaaaac ccttagccaa cacaaccatc 1500

ggatccaaac aatggtgagc aaaggcgagg aacttatcaa agagaacatg cacatgaagc 1560

tctacatgga gggcactgtc aacaatcatc acttcaaatg cacatccgag ggagaaggca 1620

agccttatga gggaacccag accatgagga tcaaagtggt tgagggtgga ccactcccat 1680

ttgccttcga catacttgcc actagcttca tgtatggctc cagaactttc atcaatcaca 1740

cacaagggat tcccgacttc tttaagcagt cttttcctga gggtttcaca tgggagcgtg 1800

ttacaactta cgaagatggt ggcgtgttga ccgctactca agacacttct ttgcaagatg 1860

ggtgtctcat ctacaatgtc aagattagag gtgtgaactt tccatcaaat ggaccagtta 1920

tgcagaagaa aacccttgga tgggaagcaa acaccgagat gctttaccca gccgatggtg 1980

ggcttgaggg gaggtctgat atggcactca agttggttgg aggtggccat ttgatttgca 2040

acttcaagac cacataccgc tcaaagaaac ctgctaagaa tctcaagatg cctggcgtct 2100

actatgtgga tcatcgcttg gaaaggatca aggaggcaga caaggaaacc tatgtcgaac 2160

agcatgaggt ggctgttgct cgttactgtg accttcccag caagctcgga cacaagttga 2220

atctcgccga ggaagcagcc gctaaagagg ctgcagccaa ggaagccgct gcaaaggagg 2280

ctgccgcaaa agaagccgca gctaaggcag ctgccatggc tcagaccact ctccaaatca 2340

cacccactgg tgccaccttg ggtgccacag tcactggtgt tcaccttgcc acacttgacg 2400

atgctggttt cgctgccctc catgcagcct ggcttcaaca tgcactcttg atcttccctg 2460

ggcaacacct cagcaatgac caacagatta cctttgctaa acgctttgga gcaattgaga 2520

ggattggcgg aggtgacatt gttgccatat ccaatgtcaa ggcagatggc acagtgcgcc 2580

agcactctcc tgctgagtgg gatgacatga tgaaggtcat tgtgggcaac atggcctggc 2640

acgccgactc aacctacatg ccagtcatgg ctcaaggagc tgtgttcagc gcagaagttg 2700

tcccagcagt tgggggcaga acctgctttg ctgacatgag ggcagcctac gatgcccttg 2760

atgaggcaac ccgtgctctt gttcaccaaa ggtctgctcg tcactccctt gtgtattctc 2820

agagcaagtt gggacatgtc caacaggccg ggtcagccta cataggttat ggcatggaca 2880

ccactgcaac tcctctcaga ccattggtca aggtgcatcc tgagactgga aggcccagcc 2940

tcttgatcgg ccgccatgcc catgccatcc ctggcatgga tgcagctgaa tcagagcgct 3000

tccttgaagg acttgttgac tgggcctgcc aggctcccag agtccatgct caccaatggg 3060

ctgctggaga tgtggttgtg tgggacaacc gctgtttgct ccaccgtgct gagccctggg 3120

atttcaagtt gccacgtgtg atgtggcact ccagactcgc tggacgccca gaaactgagg 3180

gtgctgcctt ggtttgagta gttagcttaa tcacctagag ctcggtcacc gagctcggat 3240

gcctacatgc aatgcaatct tctgctccct tttgcagttc ccttgtgttt aactccattt 3300

tcactaatgt aactacacct gtgtagcaga aaaatctgta tgagaaccat tatattttta 3360

tatattagaa atttgggtcc ccagaaaata tcaactctta cgtttggaat tcaagttaac 3420

tagttcaaac gttgaaacca tgttcaagga atctatctat tagtgatgta cgtgccttgt 3480

acaccatcca attcaaagcc atgattaaaa ccataaacga atgaatccat cttccattac 3540

caacaacatc caaagcccac aaggccacaa caagagaaag agcaggcggg cattcaatgt 3600

atccatctaa atgcgtcaat aatgtagtaa gtcataagaa aattaaaaaa caaagaagtg 3660

a 3661

<210> 12

<211> 4584

<212> DNA

<213> 人工序列

<220>

<223> 含有GFP和PAT报告基因/选择性标记基因的基因表达盒

<400> 12

gtcgacctgc aggtcaacgg atcaggatat tcttgtttaa gatgttgaac tctatggagg 60

tttgtatgaa ctgatgatct aggaccggat aagttccctt cttcatagcg aacttattca 120

aagaatgttt tgtgtatcat tcttgttaca ttgttattaa tgaaaaaata ttattggtca 180

ttggactgaa cacgagtgtt aaatatggac caggccccaa ataagatcca ttgatatatg 240

aattaaataa caagaataaa tcgagtcacc aaaccacttg ccttttttaa cgagacttgt 300

tcaccaactt gatacaaaag tcattatcct atgcaaatca ataatcatac aaaaatatcc 360

aataacacta aaaaattaaa agaaatggat aatttcacaa tatgttatac gataaagaag 420

ttacttttcc aagaaattca ctgattttat aagcccactt gcattagata aatggcaaaa 480

aaaaacaaaa aggaaaagaa ataaagcacg aagaattcta gaaaatacga aatacgcttc 540

aatgcagtgg gacccacggt tcaattattg ccaattttca gctccaccgt atatttaaaa 600

aataaaacga taatgctaaa aaaatataaa tcgtaacgat cgttaaatct caacggctgg 660

atcttatgac gaccgttaga aattgtggtt gtcgacgagt cagtaataaa cggcgtcaaa 720

gtggttgcag ccggcacaca cgagtcgtgt ttatcaactc aaagcacaaa tacttttcct 780

caacctaaaa ataaggcaat tagccaaaaa caactttgcg tgtaaacaac gctcaataca 840

cgtgtcattt tattattagc tattgcttca ccgccttagc tttctcgtga cctagtcgtc 900

ctcgtctttt cttcttcttc ttctataaaa caatacccaa agcttcttct tcacaattca 960

gatttcaatt tctcaaaatc ttaaaaactt tctctcaatt ctctctaccg tgatcaaggt 1020

aaatttctgt gttccttatt ctctcaaaat cttcgatttt gttttcgttc gatcccaatt 1080

tcgtatatgt tctttggttt agattctgtt aatcttagat cgaagacgat tttctgggtt 1140

tgatcgttag atatcatctt aattctcgat tagggtttca taaatatcat ccgatttgtt 1200

caaataattt gagttttgtc gaataattac tcttcgattt gtgatttcta tctagatctg 1260

gtgttagttt ctagtttgtg cgatcgaatt tgtcgattaa tctgagtttt tctgattaac 1320

agagatctcc atggctcctg ccatgaagat tgaatgccgc atcactggca ccctcaacgg 1380

tgtggagttt gaattggttg gaggtggaga gggcacacct gaacaaggga ggatgaccaa 1440

caagatgaag tcaactaaag gggctctcac cttcagccca tacttgcttt ctcatgtcat 1500

gggctatgga ttctaccact ttggcaccta cccctctgga tatgagaacc ctttccttca 1560

tgccatcaac aatggaggct acacaaacac cagaattgag aagtacgaag atggtggagt 1620

cttgcatgtc tccttcagct accgctatga ggctgggagg gtcataggag acttcaaagt 1680

tgtgggcact ggattcccag aggactcagt catcttcact gacaagatca taaggagcaa 1740

tgccactgtt gagcacctcc atccaatggg tgacaatgtg cttgttggtt catttgcacg 1800

taccttcagc ctcagagatg gtggctacta ttcctttgtg gttgattctc acatgcactt 1860

caaatctgca atccacccct ccatcctcca gaatgggggt ccaatgtttg ctttcagacg 1920

tgtggaagag ttgcacagca acacagaact tggcattgtg gagtaccagc atgccttcaa 1980

gacacccatt gcatttgctt gagtagttag cttaatcact taggtcacca gcataatttt 2040

tattaatgta ctaaattact gttttgttaa atgcaatttt gctttctcgg gattttaata 2100

tcaaaatcta tttagaaata cacaatattt tgttgcaggc ttgctggaga atcgatctgc 2160

tatcataaaa attacaaaaa aattttattt gcctcaatta ttttaggatt ggtattaagg 2220

acgcttaaat tatttgtcgg gtcactacgc atcattgtga ttgagaagat cagcgatacg 2280

aaatattcgt agtactatcg ataatttatt tgaaaattca taagaaaagc aaacgttaca 2340

tgaattgatg aaacaataca aagacagata aagccacgca catttaggat attggccgag 2400

attactgaat attgagtaag atcacggaat ttctgacagg agcatgtctt caattcagcc 2460

caaatggcag ttgaaatact caaaccgccc catatgcagg agcggatcat tcattgtttg 2520

tttggttgcc tttgccaaca tgggagtcca aggttgcggc cgcttaatta acttactagt 2580

gctagcctcg aggtcgactc tgatcatgga tgctacgtca cggcagtaca ggactatcat 2640

cttgaaagtc gattgagcat cgaaacccag ctttcttgta caaagtggtt gcggccgctt 2700

aattaaattt aaatgtttgg gaagctaggc caccgtggcc cgcctgcagg ggaagcttgt 2760

ttaaacccag aaggtaatta tccaagatgt agcatcaaga atccaatgtt tacgggaaaa 2820

actatggaag tattatgtaa gctcagcaag aagcagatca atatgcggca catatgcaac 2880

ctatgttcaa aaatgaagaa tgtacagata caagatccta tactgccaga atacgaagaa 2940

gaatacgtag aaattgaaaa agaagaacca ggcgaagaaa agaatcttga agacgtaagc 3000

actgacgaca acaatgaaaa gaagaagata aggtcggtga ttgtgaaaga gacatagagg 3060

acacatgtaa ggtggaaaat gtaagggcgg aaagtaacct tatcacaaag gaatcttatc 3120

ccccactact tatcctttta tatttttccg tgtcattttt gcccttgagt tttcctatat 3180

aaggaaccaa gttcggcatt tgtgaaaaca agaaaaaatt tggtgtaagc tattttcttt 3240

gaagtactga ggatacaact tcagagaaat ttgtaagttt gtagatctcc atgtctccgg 3300

agaggagacc agttgagatt aggccagcta cagcagctga tatggccgcg gtttgtgata 3360

tcgttaacca ttacattgag acgtctacag tgaactttag gacagagcca caaacaccac 3420

aagagtggat tgatgatcta gagaggttgc aagatagata cccttggttg gttgctgagg 3480

ttgagggtgt tgtggctggt attgcttacg ctgggccctg gaaggctagg aacgcttacg 3540

attggacagt tgagagtact gtttacgtgt cacataggca tcaaaggttg ggcctaggat 3600

ccacattgta cacacatttg cttaagtcta tggaggcgca aggttttaag tctgtggttg 3660

ctgttatagg ccttccaaac gatccatctg ttaggttgca tgaggctttg ggatacacag 3720

cccgtggtac attgcgcgca gctggataca agcatggtgg atggcatgat gttggttttt 3780

ggcaaaggga ttttgagttg ccagctcctc caaggccagt taggccagtt acccagatct 3840

gactgagctt gagcttatga gcttatgagc ttagagctca gatcggcggc aatagcttct 3900

tagcgccatc ccgggttgat cctatctgtg ttgaaatagt tgcggtgggc aaggctctct 3960

ttcagaaaga caggcggcca aaggaaccca aggtgaggtg ggctatggct ctcagttcct 4020

tgtggaagcg cttggtctaa ggtgcagagg tgttagcggg gatgaagcaa aagtgtccga 4080

ttgtaacaag atatgttgat cctacgtaag gatattaaag tatgtattca tcactaatat 4140

aatcagtgta ttccaatatg tactacgatt tccaatgtct ttattgtcgc cgtatgcaat 4200

cggcgtcaca aaataatccc cggtgacttt cttttaatcc aggatgaaat aatatgttat 4260

tataattttt gcgatttggt ccgttatagg aattgaagtg tgcttgcggt cgccaccact 4320

cccatttcat aattttacat gtatttgaaa aataaaaatt tatggtattc aatttaaaca 4380

cgtatacttg taaagaatga tatcttgaaa gaaatatagt ttaaatattt attgataaaa 4440

taacaagtca ggtattatag tccaagcaaa aacataaatt tattgatgca agtttaaatt 4500

cagaaatatt tcaataactg attatatcag ctggtacatt gccgtagatg aaagactgag 4560

tgcgatatta tggtgtaata cata 4584

<210> 13

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 13

gaggattagg gtttcaacgg ag 22

<210> 14

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 14

gagaattgag ctgagacgag g 21

<210> 15

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 探针序列

<400> 15

agagaagttt cgacggattt cgggc 25

<210> 16

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 16

acaagagtgg attgatgatc tagagaggt 29

<210> 17

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 17

ctttgatgcc tatgtgacac gtaaacagt 29

<210> 18

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 探针序列

<400> 18

agggtgttgt ggctggtatt gcttacgct 29

<210> 19

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 19

cagagtccat gctcaccaat 20

<210> 20

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 20

acgtggcaac ttgaaatcc 19

<210> 21

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 探针序列

<400> 21

tggagatgtg gttgtgtggg acaa 24

<210> 22

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 22

acaagagtgg attgatgatc tagaga 26

<210> 23

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 23

ctttgatgcc tatgtgacac gtaaac 26

<210> 24

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 探针序列

<400> 24

ccagcgtaag caataccagc cacaacacc 29

<210> 25

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 25

cgccgaagta tcgactcaac t 21

<210> 26

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 26

gcaacgtcgg ttcgagatg 19

<210> 27

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 探针序列

<400> 27

tcagaggtag ttggcgtcat cgag 24

<210> 28

<211> 1453

<212> DNA

<213> 大豆

<400> 28

gcagatgaag ataaagaaaa tgaaaagata aactaaatta gtctagactt tcttggctaa 60

agtagagctt tagagtacaa attcaaacaa acttacatcc cccgaaagtc ttcaagtaag 120

ccgaagtgac ctattagctt cgtttttcat gcttccatga ttaaaaaagt aattgcagaa 180

ctccttccag tatatgagct cgaattgggg tgccagatat gctaattaat tacttttatg 240

atgcaggcaa gtgtgttttc agatgctgtt cgggatgatg ttgattttta taagtatgaa 300

ctgcactcct ttagctttga agtttgatca ctagtggata aattatttat atcttgagct 360

ttgaaaatct tccaatgaaa cttcattcac actttctgtg aaaaatatca tctattaaag 420

aatcttgtcg tggtcaatgc tatgcatgac aacatattaa ctatttaaaa gataacttaa 480

aattataaat agttacatat tataaaatgc tgtggtggac atgttaccac ttgtagaatt 540

tatatagtaa aattgaatct ataacaacac gacactttat gtttatggaa ttgtcatgta 600

tgtgataata aataagatta atgaaattat tataaaaaac aaggccttaa tcgaaaattc 660

aatatctttc tattttttta ttttataata gtaatataat taaggtgctt tattttgttt 720

tctcttaatt accgtaattc tcatttaaat acaacttttc tagcttatga tattgaaagt 780

taattaaaaa accaataacg tcctgaattt taatctaaaa cttctagtac gtttggtttc 840

acattttaga tataattttt aaaagttaat agttataaat ttgtatttta aatgtgattt 900

tttttctatt tttaatgact ttttaaccat gtacagttat tcatactgat tttttaaact 960

gtttgcttga agagaccgtt tttgacacca agttaaagag gtcattatct cttctaaaat 1020

cctaagatat aatttccaaa tgaaaccaaa tttgtaatgt agcgaagatg agctgccaca 1080

ttgtgttctt gaggtcgagg cactactagc cctgtgtttc tgtgtagttt tactagcaac 1140

acaagttttt tctttttttc aaaaataaaa aagaaagaag aaaaaaaatg tgatgggtca 1200

ctcacgggtt tgcaatgtta gtgtagcatc agcccaatcc aaactatctt ccataccaat 1260

ttccaagttt taatttaaat ttaaatttct tgactctgtt ggacctgaat tgtgtggctt 1320

acattgaccc tctcgaaaac atctgaggaa gaagtctttg catccacgtg gcagaataag 1380

agccactata gcatgacaaa atatcagcat gagaatccac atccaaatcc acgaccaatg 1440

aggtgttgct gag 1453

<210> 29

<211> 1454

<212> DNA

<213> 大豆

<400> 29

agcagatgaa gataaagaaa atgaaaagat aaactaaatt agtctagact ttcttggcta 60

aagtagagct ttagagtaca aattcaaaca aacttacatc ccccgaaagt cttcaagtaa 120

gccgaagtga cctattagct tcgtttttca tgcttccatg attaaaaaag taattgcaga 180

actccttcca gtatatgagc tcgaattggg gtgccagata tgctaattaa ttacttttat 240

gatgcaggca agtgtgtttt cagatgctgt tcgggatgat gttgattttt ataagtatga 300

actgcactcc tttagctttg aagtttgatc actagtggat aaattattta tatcttgagc 360

tttgaaaatc ttccaatgaa acttcattca cactttctgt gaaaaatatc atctattaaa 420

gaatcttgtc gtggtcaatg ctatgcatga caacatatta actatttaaa agataactta 480

aaattataaa tagttacata ttataaaatg ctgtggtgga catgttacca cttgtagaat 540

ttatatagta aaattgaatc tataacaaca cgacacttta tgtttatgga attgtcatgt 600

atgtgataat aaataagatt aatgaaatta ttataaaaaa caaggcctta atcgaaaatt 660

caatatcttt ctattttttt attttataat agtaatataa ttaaggtgct ttattttgtt 720

ttctcttaat taccgtaatt ctcatttaaa tacaactttt ctagcttatg atattgaaag 780

ttaattaaaa aaccaataac gtcctgaatt ttaatctaaa acttctagta cgtttggttt 840

cacattttag atataatttt taaaagttaa tagttataaa tttgtatttt aaatgtgatt 900

ttttttctat ttttaatgac tttttaacca tgtacagtta ttcatactga ttttttaaac 960

tgtttgcttg aagagaccgt ttttgacacc aagttaaaga ggtcattatc tcttctaaaa 1020

tcctaagata taatttccaa atgaaaccaa atttgtaatg tagcgaagat gagctgccac 1080

attgtgttct tgaggtcgag gcactactag ccctgtgttt ctgtgtagtt ttactagcaa 1140

cacaagtttt ttcttttttt caaaaataaa aaagaaagaa gaaaaaaaat gtgatgggtc 1200

actcacgggt ttgcaatgtt agtgtagcat cagcccaatc caaactatct tccataccaa 1260

tttccaagtt ttaatttaaa tttaaatttc ttgactctgt tggacctgaa ttgtgtggct 1320

tacattgacc ctctcgaaaa catctgagga agaagtcttt gcatccacgt ggcagaataa 1380

gagccactat agcatgacaa aatatcagca tgagaatcca catccaaatc cacgaccaat 1440

gaggtgttgc tgag 1454

Claims

1.一种核酸载体，所述核酸载体包含可操作地连接到以下异源多核苷酸序列的启动子：

a)多接头序列；

b)非GmCAB2异源编码序列；或

c)a)和b)的组合；

其中所述启动子包含与SEQ ID NO:2具有至少95％序列同一性的多核苷酸序列。

2.如权利要求1所述的核酸载体，其中所述启动子的长度为1,376bp。

3.如权利要求1所述的核酸载体，其中所述启动子由与SEQ ID NO:2具有至少95％序列同一性的多核苷酸序列组成。

4.如权利要求1所述的核酸载体，其中所述启动子可操作地连接到异源编码序列。

5.如权利要求4所述的核酸载体，其中所述异源编码序列编码选择性标记蛋白、杀昆虫抗性蛋白、除草剂耐受性蛋白、氮利用效率蛋白、水利用效率蛋白、小RNA分子、营养品质蛋白、或DNA结合蛋白。

6.如权利要求1所述的核酸载体，所述核酸载体进一步包含终止子多核苷酸序列。

7.如权利要求1所述的核酸载体，所述核酸载体进一步包含3'非翻译多核苷酸序列。

8.如权利要求1所述的核酸载体，所述核酸载体进一步包含5'非翻译多核苷酸序列。

9.如权利要求1所述的核酸载体，所述核酸载体进一步包含内含子序列。

10.如权利要求1所述的核酸载体，其中所述启动子具有组织偏好性表达。

11.一种转基因植物，所述转基因植物包含与SEQ ID NO:2具有至少95％序列同一性的、可操作地连接到异源编码序列的启动子。

12.如权利要求11所述的转基因植物，其中所述植物选自下组，该组由以下组成：玉蜀黍(Zea mays)、小麦、稻、高粱、燕麦、黑麦、香蕉、甘蔗、大豆(Glycine max)、棉花、拟南芥(Arabidopsis)、烟草、向日葵、和卡诺拉油菜。

13.如权利要求12所述的转基因植物，其中所述植物是大豆。

14.如权利要求11所述的转基因植物，其中将所述异源编码序列插入所述植物的基因组中。

15.如权利要求11所述的转基因植物，其中启动子包含与SEQ ID NO:2具有至少95％序列同一性的多核苷酸序列，并且所述启动子与异源编码序列可操作地连接。

16.如权利要求11所述的转基因植物，所述转基因植物进一步包含3'非翻译序列。

17.如权利要求11所述的转基因植物，其中所述异源编码序列具有组织偏好性表达。

18.如权利要求11所述的转基因植物，其中所述启动子的长度为1,376bp。

19.一种用于产生转基因植物细胞的方法，所述方法包括以下步骤：

a)用基因表达盒转化植物细胞，所述基因表达盒包含可操作地连接到至少一个目的多核苷酸序列的GmCAB2启动子，其中所述启动子包含与SEQ ID NO:1具有至少95％序列同一性的多核苷酸序列；

b)分离包含所述基因表达盒的经转化的植物细胞；以及

c)产生转基因植物细胞，所述转基因植物细胞包含所述可操作地连接到至少一个目的多核苷酸序列的GmCAB2启动子。

20.一种用于在植物细胞中表达目的多核苷酸序列的方法，所述方法包括将可操作地连接到GmCAB2启动子的目的多核苷酸序列引入所述植物细胞中，其中所述启动子包含与SEQ ID NO:1具有至少95％序列同一性的多核苷酸序列。