CN104837992A

CN104837992A - 用于调节植物中的多肽定位的组合物和方法

Info

Publication number: CN104837992A
Application number: CN201380063059.9A
Authority: CN
Inventors: 杰弗里·C·韦; 马修·马托兹; 马赛厄斯·J·福格斯
Original assignee: Harvard College
Current assignee: Harvard College
Priority date: 2012-10-02
Filing date: 2013-09-04
Publication date: 2015-08-12
Also published as: US20150275207A1; WO2014055195A1

Abstract

本文描述的是工程化的多重定位标签，当将所述标签翻译并加工为肽时，能够将可操作地连接的多肽引导至多个亚细胞位置。

Description

用于调节植物中的多肽定位的组合物和方法

相关申请的交叉引用

根据35U.S.C.§119(e)，本申请要求2012年10月2日提交的美国临时申请号61/708,909的权益，以引用的方式将其内容整体并入本文。

序列表

本申请包含通过EFS-Web以ASCII格式提交的序列表，并由此以引用的方式将其内容整体并入本文。所述ASCII副本在2013年9月4日创建，命名为002806-075472-PCT_SL.txt，大小为555,556字节。

政府支持

本发明是利用美国能源部高级研究项目局根据合作协议DE-000079授予的联邦基金做出的。美国政府对本发明享有一定的权利。

技术领域

本文所述的技术涉及用于调节植物细胞中的多肽定位的方法和组合物。

背景技术

在工程化的细胞和/或生物体中，期望将特别的多肽靶向至特定的亚细胞位置。当前的技术允许通过在N端或C端添加单一的定位信号，将多肽引导至一个特定的位置。

然而，具有重新构建的生物合成和/或代谢通路的细胞和/或生物体的设计通常需要多肽存在于多个亚细胞位置。例如，当创造具有重新构建的光呼吸通路的植物时，植物最好具有聚集于叶绿体和过氧化物酶体中的一些多肽(Kebeish,R.等，(2007)，Nature Biotechnology 25，593-9；Maier,A.等，(2012)Frontiers in Plant Science 3，38)。将蛋白靶向至多于一个位置的一种方式涉及使用相关转基因(transgene)的多个拷贝，各拷贝具有不同的定位信号。利用该方式需要多次转化事件，该方式费时导致细胞具有多个插入事件。这使得确保各拷贝以期望的方式运行更加困难(Que,Q.等，(2010)，GM crops 1，220-9；Dafny-Yelin,M.和Tzfira,T.(2007)，Plant Physiology 145，1118-28)。

虽然在一些情况下，可通过向多肽的第二末端添加第二定位信号来将该多肽引导至两个亚细胞位置(Hyunjong,B.等，(2006)，Journal ofExperimental Botany 57，161-9)，该方式受限于从可用且兼容的N端和C端延伸区(extension)制得的可能组合。此外，当将定位信号添加在两个末端时，并非全部的多肽均能保持其活性，例如，如果将序列附加于一些末端，一些多肽将丧失活性。

发明内容

本文描述的是涉及如下定位信号的组合物和方法，所述定位信号使用位于多肽的单一末端的标签而使得能够将所述多肽引导至至少两个(例如两个、三个、四个或更多)亚细胞位置。本文所述的技术降低了将多肽靶向至细胞和/或生物体中的多个位置所需的克隆量以及DNA构建体的大小。

在一个方面，本文描述的是工程化的多重定位标签，所述标签包含编码至少两种定位信号序列的核酸序列，其中，各定位信号序列将引导由可操作地连接的序列(operably linked sequence)编码的多肽定位至不同组的亚细胞区室。在一些实施方式中，定位信号序列未被外显子分隔开。在一些实施方式中，定位信号序列被具有不超过300个碱基的外显子分隔开。在一些实施方式中，外显子可包含甘氨酸残基和丝氨酸残基。

在一些实施方式中，标签可进一步包含成组的兼容剪接序列；其中，所述组包含两个可变剪接供体序列和一个剪接受体序列；其中，所述两个可变剪接供体序列位于一个定位信号序列的侧翼；并且剪接受体序列位于所述组的两个剪接供体序列的3′。在一些实施方式中，成组的剪接序列可位于第二定位信号的5′。在一些实施方式中，成组的剪接序列可位于第二定位信号的3′。

在一些实施方式中，标签可进一步包含成组的兼容剪接序列；其中，所述组包含两个可变剪接受体序列和一个剪接供体序列；其中，所述两个可变剪接受体序列位于定位信号序列侧翼；并且所述剪接供体序列位于所述组的两个剪接受体序列的5′。在一些实施方式中，成组的剪接序列可位于第二定位信号的3′。在一些实施方式中，成组的剪接序列可位于第二定位序列信号的5′。

在一些实施方式中，成对的可变剪接位点可包含弱的剪接位点和强的剪接位点。在一些实施方式中，弱的剪接位点可位于具有侧翼的定位信号的5′，并且强的剪接位点可位于具有侧翼的定位信号的3′。在一些实施方式中，成组的兼容剪接位点可包含SEQ ID NO:8的弱的剪接供体位点、SEQ ID NO:9的强的剪接供体位点和SEQ ID NO:10的剪接受体位点。在一些实施方式中，成组的兼容剪接位点可包含SEQ ID NO:11的剪接供体位点、SEQ ID NO:12的弱的剪接受体位点和SEQ ID NO:13的强的剪接受体位点。

在一些实施方式中，各定位信号选自于由如下定位信号所组成的组：叶绿体定位信号、过氧化物酶体定位信号、线粒体定位信号、分泌通路定位信号、内质网定位信号以及液泡分泌定位信号。在一些实施方式中，叶绿体定位信号可包含编码CTPa(SEQ ID NO:1)或与CTPa具有至少90％一致性的多肽的核酸序列。在一些实施方式中，叶绿体定位信号可包含SEQ ID NO:14的核酸序列或与SEQ ID NO:14具有至少90％一致性的序列。在一些实施方式中，叶绿体定位信号可包含编码CTPb(SEQ IDNO:6)或与CTPb具有至少90％一致性的多肽的核酸序列。在一些实施方式中，叶绿体定位信号可包含SEQ ID NO:15的核酸序列或与SEQ IDNO:15具有至少90％一致性的序列。在一些实施方式中，过氧化物酶体定位信号可包含编码PTS2(SEQ ID NO:2)或与PTS2具有至少90％一致性的多肽的核酸序列。在一些实施方式中，过氧化物酶体定位信号可包含SEQ ID NO:16的核酸序列或与SEQ ID NO:16具有至少90％一致性的序列。在一些实施方式中，过氧化物酶体定位信号可包含SEQ IDNO:5。在一些实施方式中，过氧化物酶体定位信号可包含SEQ ID NO:17的核酸序列或与SEQ ID NO:17具有至少90％一致性的序列。

在一些实施方式中，标签可包含编码如下多肽的核酸序列：SEQ IDNO:3和SEQ ID NO:21-SEQ ID NO:23的任一者的多肽或者与SEQ IDNO:3和SEQ ID NO:21-SEQ ID NO:23的任一者具有至少90％一致性的多肽。在一些实施方式中，标签可包含SEQ ID NO:18的核酸序列或与SEQID NO:18具有至少90％一致性的序列。

在一些实施方式中，标签可包含SEQ ID NO:4和SEQ ID NO:24-SEQID NO:26的任一者的序列或者与SEQ ID NO:4和SEQ ID NO:24-SEQ IDNO:26的任一者具有至少90％一致性的序列。在一些实施方式中，标签可包含SEQ ID NO:19的核酸序列或与SEQ ID NO:19具有至少90％一致性的序列。

在一些实施方式中，第一定位信号包含于第二定位信号内。在一些实施方式中，第一定位信号取代了相当于SEQ ID NO:6的第37-46位残基的氨基酸。在一些实施方式中，标签可包含SEQ ID NO:7的序列或与SEQ ID NO:7具有至少90％一致性的序列。在一些实施方式中，标签可包含SEQ ID NO:20的核酸序列或与SEQ ID NO:20具有至少90％一致性的序列。

在一个方面，本文描述的是包含本文所述的工程化的多重定位标签的载体。在一些实施方式中，工程化的多重定位标签整体可位于编码肽的可操作地连接的序列或克隆位点的一个侧翼。在一些实施方式中，工程化的多重定位标签可位于编码多肽的可操作地连接的序列的5′。

在一个方面，本文描述的是包含本文所述的工程化的多重定位标签的工程化的细胞或生物体或者包含本文所述的工程化的多重定位标签的载体。在一个方面，本文描述的是如下核酸分子，所述核酸分子具有如下序列或者具有编码如下序列多肽的序列：SEQ ID NO:28-SEQ ID NO:87的任一者、或者与SEQ ID NO:28-SEQ ID NO:87的任一者具有至少90％一致性的序列。在一个方面，本文描述的是载体，所述载体包含具有如下序列或者具有编码如下序列多肽的序列的核酸分子：SEQ IDNO:28-SEQ ID NO:87任一者、或者与SEQ ID NO:28-SEQ ID NO:87的任一者具有至少90％一致性的序列。在一个方面，本文描述的是工程化的细胞或生物体，所述细胞或生物体包含：(a)具有如下序列或者具有编码如下序列多肽的序列的核酸分子：SEQ ID NO:28-SEQ ID NO:87的任一者、或者与SEQ ID NO:28-SEQ ID NO:87的任一者具有至少90％一致性的序列；或者(b)载体，所述载体包含具有如下序列或者具有编码如下序列多肽的序列的核酸分子：SEQ ID NO:28-SEQ ID NO:87的任一者、或者与SEQ ID NO:28-SEQ ID NO:87的任一者具有至少90％一致性的序列。

附图说明

图1A-图1D描绘了可变剪接元件TriTag-1和TriTag-2的设计。图1A和图1B描绘了TriTag-1(图1A)和TriTag-2(图1B)的示意性的剪接简图，示出非靶向序列(阴影)、叶绿体靶向序列(Chl)、过氧化物酶体靶向序列(Per)和用于瞬时表达实验的增强的GFP编码序列(eGFP)。图1C和图1D描绘了TriTag-1(SEQ ID NO:110(DNA)和SEQ ID NO:111(蛋白)；图1C)和TriTag-2(SEQ ID NO:112(DNA)和SEQ ID NO:113(蛋白)；图1D)序列的设计。末端的ATG密码子对应于GFP开放读码框的第一残基。可变剪接靶向区域以下划线标示。供体和受体二聚体以下划线标示。以实线无阴影框示出的DNA序列来源于PIMT2的5′编码区(Dinkins等，2008)，并包含编码叶绿体靶向序列的序列(氨基酸以实线白框示出)。以虚线白框示出的DNA序列衍生自TTL的5′编码区(Reumann等，2007)，并包含编码过氧化物酶体靶向序列的序列(氨基酸以虚线白框示出)。

图2A-图2D描绘了叶绿体转运肽(CTPb)与嵌入过氧化物酶体靶向信号(PTS2)的元件TriTag-3的比较。图2A-图2B描绘了CTPb(图2A)和TriTag-3(图2B)的简图，示出叶绿体靶向序列(Chl)、过氧化物酶体靶向序列(Per)、柔性区域(阴影区域)和用于瞬时表达实验中的增强的GFP编码区(eGFP)。图2C-图2D描绘了CTPb(SEQ ID NO:114(DNA)和SEQ ID NO:115(蛋白)；图2C)和TriTag-3(SEQ ID NO:116(DNA)和SEQ ID NO:117(蛋白)；图2D)的序列。末端的ATG密码子对应于GFP开放读码框的第一残基。以实线白框示出的DNA序列来源于rbcS1的5′编码区(Kebeish等，2007)，并编码叶绿体靶向序列(实线白框)。以虚线白框示出的DNA序列(图2D)编码PTS2一致性信号(虚线白框)。PTS2序列嵌入于CTPb的柔性区域(阴影区域)内。

图3描绘了代表性的烟叶表皮细胞的区室的示意图和表格。表明了通过共聚焦显微镜观察到的相对表达水平以及细胞内的相对大小和定位。

图4描绘了植物细胞区室的示意性显像，以及用于在C₃植物中增强碳固定并减少来自光呼吸的碳损失的3-HOP工程化方式的推荐的作用。粗箭头表示通过异源酶催化的反应，虚线箭头表示天然存在的反应。GOX为乙醇酸氧化酶。

图5描绘了在叶绿体、过氧化物酶体和细胞质内表达大肠杆菌(E.coli)乙醇酸脱氢酶使得还原当量(reducing equivalents)的生产增加，并使得绕过对过氧化物酶体而言天然的产生过氧化物的氧化反应的示意图。粗箭头表示通过异源酶催化的反应，虚线箭头表示天然存在的反应。乙醛酸向P-甘油酸的天然转化已在文献(Kebeish等，2007)中观察到。

图6描绘了表明通过同源重组将“负载区(payload)”整合入质体基因组中的示意图。注意到，转化体将保留其原始的左臂和右臂序列，或将所述左臂和右臂序列替换为载体的左臂和右臂序列(只要是后一种转化体能存活)。该图重新绘制自Day和Goldschmidt-Clermont 2011。

图7描绘了pMV02质体基因组整合载体的示意性载体图谱，所述图谱具有如同Zarzycki等，2008，PNAS中的对反应的注释：2，丙二酰-CoA还原酶；3，丙酰-CoA合酶；10，(S)-苹果酰-CoA/β-甲基苹果酰-CoA/(S)-柠苹酰-CoA裂解酶；11，中康酰-C1-CoA水合酶(mesaconyl-C1-CoAhydratase)(β-甲基苹果酰-CoA脱水酶)；12，中康酰-CoA C1:C4CoA转移酶；13，中康酰-C4-CoA水合酶；glcDEF，大肠杆菌(E.coli)乙醇酸脱氢酶；neo，新霉素磷酸转移酶II；psbA-TT，光合体系II终止子；trnI/trnA，tRNA-异亮氨酸/tRNA-丙氨酸；AmpR，β-内酰胺酶；ori，pMB1复制起点。

图8描绘了TriTag-1的示意图。剪接变体βγ-χω表达具有CTP(叶绿体转运肽)的感兴趣的融合蛋白，所述CTP将所述感兴趣的融合蛋白引导至叶绿体。剪接变体αγ-χψ表达具有PTS2的感兴趣的融合蛋白，所述PTS2将所述感兴趣的融合蛋白引导至过氧化物酶体。剪接变体αγ-χω表达无转运肽的感兴趣的融合蛋白，所述融合蛋白定位于细胞质中。剪接变体βγ-χψ表达具有CTP和PTS2(即，二义性信号(ambiguous signal))的感兴趣的融合蛋白。

图9描绘了处于框图形式的TriTag-2的示意图，TriTag-2由模块2以及其后的模块1组成。该组合提供了功能性剪接变体，所述剪接变体表达具有PTS2和/或CTP和/或无限定的靶向信号(细胞质定位)的转运肽。剪接变体αγ-χψ表达具有CTP的感兴趣的融合蛋白，所述CTP将所述感兴趣的融合蛋白引导至叶绿体。剪接变体βγ-χω表达具有PTS2的感兴趣的融合蛋白，所述PTS2将所述感兴趣的融合蛋白引导至过氧化物酶体。剪接变体αγ-χω表达无转运肽的感兴趣的融合蛋白，所述融合蛋白定位于细胞质中。剪接变体βγ-χψ表达具有CTP和PTS2(即，二义性信号)的感兴趣的融合蛋白。

图10描绘了TriTag-3的示意图。展示了PTS2信号叠加于马铃薯(Solanum tuberosum)rbcS1叶绿体肽上。由于预期在叶绿体摄取过程中，比起更邻近于N端的区域，更邻近于CTP肽的C端的区域发挥更少的作用，将保守的PTS2氨基酸序列放置在更邻近于CTP肽的C端。

图11描绘了Tic-Toc叶绿体蛋白摄取机制的示意图。高蛋白表达水平和对于蛋白输入而言的ATP的有限的可用性可导致平衡式(1)处的瓶颈，引起前体蛋白的驻留，在本文所述的GFP融合体的情况下，荧光示出细胞质GFP(图片：Jarvis P 2008New Phytol 179：257)。

图12描绘了载体图谱，所述载体图谱示出了所构建的质粒，所述质粒用于通过根癌农杆菌(agrobacterium tumeficiens)(蘸花法)将大肠杆菌GDH亚基递送至拟南芥(Arabidopsis thaliana)的基因组中。核支架，使沉默的可能性最小化的RB7核苷酸区域(Halweg、Thompson和Spiker，2005)；CaMV 35S-P，如Horstmann等，2004所述的花椰菜花叶病毒25S“长”启动子；5′UTR，来自烟草蚀纹病毒的5′非翻译区；靶向肽，rbcS1叶绿体转运肽、TriTag-1、TriTag-2或TriTag-3；终止子，胭脂氨酸合酶终止子(NOS)；PAT，草丁膦乙酰转移酶，草铵膦(Finale Herbicide)抗性标记；KanR，新霉素磷酸转移酶II；ori，大肠杆菌和根癌农杆菌的复制起点；glcD/glcE/glcF，优化用于拟南芥基因组表达的大肠杆菌GDH亚基密码子。

图13A-图13B展示了本文所述的工程化的多重定位标签的一些实施方式。图13A描述了介导感兴趣的蛋白定位至多个区室的DNA构建体的实施方式的一般结构的示意图，所述结构包含编码可将蛋白定位至细胞核、细胞质、内质网、质体、过氧化物酶体、线粒体和/或其它细胞区室的定位序列的DNA元件。示出了三个标签，但可根据用户的需求使用更多或更少的标签。将可变剪接用于生成针对感兴趣的ORF编码一个或多个N端定位序列的mRNA，从而编码感兴趣的蛋白。任选使用包含供体和受体位点以及少量的氨基酸(通常少于50个氨基酸)的短序列，以允许mRNA有效剪接。图13B描绘了由图13A中描绘的DNA构建体生成的代表性的可能的经剪接的mRNAs。

具体实施方式

本文描述的是将多肽引导至特定的亚细胞位置的方法和组合物。如本文所述，本发明人发现了对单个转基因进行工程化的方法，所述单个转基因翻译为靶向至多个亚细胞位置(例如细胞器和/或细胞质)的一种或多种多肽异构体，此前上述事件通过利用多个转基因(各转基因具有靶向至单一亚细胞位置的独特的序列)来实现。

在一个方面，本文描述的是工程化的多重定位标签。本文使用的术语“工程化的多重定位标签”或“EML标签”是指包含至少两个定位信号序列(例如2个定位信号序列、3个定位信号序列、4个定位信号序列或更多个定位信号序列)的核酸序列。在一些实施方式中，术语“EML标签”还可指由EML标签核酸序列编码的一种或多种多肽异构体。在EML标签中，至少两个定位信号序列各自可独立地引导可操作地连接的多肽(本文称为“负荷多肽”)定位至不同组的亚细胞位置。所述组的亚细胞位置可重叠，但并不完全一致。负荷多肽可为任何多肽，例如酶、支架蛋白、对该多肽所存在的细胞而言为天然的并可操作地连接至EML标签的多肽、和/或对该多肽所存在的细胞而言为异源性的并可操作地连接至EML标签的多肽。

本文使用的“定位信号序列”是指如下核酸序列(或该核酸序列编码的肽)，当翻译为包含负荷多肽的较大的多肽的一部分时，该核酸序列将负荷多肽定位至特定的亚细胞位置，通常为特定的细胞器和/或质膜。如果与无可操作地连接的信号或标签进行的转录相比，与可操作地连接的信号或标签一起转录时，聚集于亚细胞位置的负荷多肽的浓度提高至少10％(例如与无可操作地连接的信号或标签进行的转录相比提高至少10％、至少20％、至少30％、至少50％、至少75％、至少100％、至少200％或至少500％或更高)，则如本文所使用的负荷多肽通过定位信号和/或EML标签“定位”至特定的亚细胞位置。所述浓度可为绝对浓度，例如，在例如叶绿体中发现μg/mL的多肽；或者为相对浓度，例如相对于细胞的其余部分，在叶绿体中发现％的多肽。本文使用的“亚细胞区室”或“亚细胞位置”是指细胞内离散的位置。非限定性实例可包括细胞器、叶绿体、线粒体、内体、过氧化物酶体、核、ER、高尔基体、溶酶体和质膜(包括细胞器和细胞膜)。

本领域已知将其负荷多肽运输至特定的亚细胞位置的定位信号(例如运输至核、ER、高尔基体、内体、溶酶体、过氧化物酶体、叶绿体、线粒体和/或质膜的信号)。本领域已知定位信号的实例，例如在万维网http://proline.bic.nus.edu.sg/spdb/index.html免费可得的SPdb(信号肽数据库)(Choo等，BMC Bioinformatics 2005；6:249，以引用的方式将其整体并入本文)。本领域已知用于预测定位信号的生物信息学工具(参见例如Alexandersson等，Frontiers in Plant Sci 2013，4:9，以引用的方式将其整体并入本文)，例如SignalP(例如在Petersen等，Nature Methods 20118:785中所述，以引用的方式将其整体并入本文)。在一些实施方式中，定位信号可选自于由叶绿体定位信号和过氧化物酶体定位信号所组成的组。在一些实施方式中，定位信号可选自于由如下定位信号所组成的组：叶绿体定位信号(例如SEQ ID NO:1或SEQ ID NO:6)、过氧化物酶体定位信号(例如SEQ ID NO:2)、线粒体定位信号(例如H₂N-MLSLRQSIRFFKPATRTLCSSRYLL，SEQ ID NO:106)、分泌通路定位信号(例如H₂N-MMSFVSLLLVGILFWATEAEQLTKCEVFQ，SEQ IDNO:107)、内质网驻留定位信号(例如H₂N-MTGASRRSARGRI，SEQ IDNO:108)以及液泡分泌定位信号(例如H₂N-MKAFTLALFLALSLYLLPNPAHSRFNPIRLPTTHPA，SEQ IDNO:109)。定位信号的其它实例为本领域已知，并可使用例如SignalP来预测(参见例如Petersen等，Nature Methods 20118:785，以引用的方式将其整体并入本文)。

在一些实施方式中，叶绿体定位信号可包含编码CTPa的核酸序列(例如，编码SEQ ID NO:1的核酸序列)或者编码如下多肽的核酸序列，所述多肽促进或介导叶绿体定位并与CTPa具有至少80％一致性(例如至少80％一致性、至少90％一致性、至少95％一致性或至少98％一致性)。在一些实施方式中，叶绿体定位信号可包含SEQ ID NO:14的核酸序列或与SEQ ID NO:14序列具有至少80％一致性(例如，至少80％一致性、至少90％一致性、至少95％一致性、或至少98％一致性)的核酸序列。在一些实施方式中，叶绿体定位信号可包含编码CTPb的核酸序列(例如，编码SEQ ID NO:6的核酸序列)或者编码与CTPb具有至少80％一致性(例如至少80％一致性、至少90％一致性、至少95％一致性或至少98％一致性)的多肽的核酸序列。在一些实施方式中，叶绿体定位信号可包含SEQ ID NO:15的核酸序列或与SEQ ID NO:15序列具有至少80％一致性(例如至少80％一致性、至少90％一致性、至少95％一致性、或至少98％一致性)的核酸序列。

在一些实施方式中，过氧化物酶体定位信号可包含编码PTS2的核酸序列(例如，编码SEQ ID NO:2的核酸序列)或者编码与PTS2具有至少80％一致性(例如，至少80％一致性、至少90％一致性、至少95％一致性或至少98％一致性)的多肽的核酸序列。在一些实施方式中，过氧化物酶体定位信号可包含SEQ ID NO:16的核酸序列或者与SEQ IDNO:16序列具有至少80％一致性(例如，至少80％一致性、至少90％一致性、至少95％一致性、或至少98％一致性)的核酸序列。在一些实施方式中，过氧化物酶体定位信号可包含编码SEQ ID NO:5的多肽的核酸序列或者编码与SEQ ID NO:5具有至少80％一致性(例如，至少80％一致性、至少90％一致性、至少95％一致性、或至少98％一致性)的多肽的核酸序列。在一些实施方式中，过氧化物酶体定位信号可包含编码SEQID NO:27的多肽的核酸序列或者编码与SEQ ID NO:27具有至少80％一致性(例如，至少80％一致性、至少90％一致性、至少95％一致性、或至少98％一致性)的多肽的核酸序列。在一些实施方式中，过氧化物酶体定位信号可包含SEQ ID NO:17的核酸序列或与SEQ ID NO:17具有至少80％一致性(例如，至少80％一致性、至少90％一致性、至少95％一致性、或至少98％一致性)的核酸序列。

无论何种情况，作为本文所述序列的变体的定位信号必须保持作为其来源的参照序列的至少10％的定位能力，例如该定位信号必须能够以参照定位信号的至少10％的有效性(例如，至少10％、至少20％、至少30％、至少50％、至少70％、至少80％、至少90％、至少95％、至少100％的有效性或更高的有效性)引导负荷多肽定位至期望的靶位置，所述有效性以本文其它部分所述的绝对浓度或相对浓度测定。

在一些实施方式中，定位信号与参照定位信号序列(例如天然存在的定位信号序列和/或本文所述的定位信号序列)具有至少70％一致性。在一些实施方式中，定位信号与参照定位信号序列(例如天然存在的定位信号序列和/或本文所述的定位信号序列)具有至少80％一致性。在一些实施方式中，定位信号与参照定位信号序列(例如天然存在的定位信号序列和/或本文所述的定位信号序列)具有至少90％一致性。定位信号和定位信号模体的实例在本领域中加入描述，例如在Bruce BD，2000，Trends Cell Biol 10：440-47；Sakamoto W等，2008，The Arabidopsis Book6：e110；Bruce BD，2001Biochim Biophys Acta 1541：2-21；Lee DW等，2008，The Plant Cell 20：1603-22以及Lee DW等，2008，The Plant Cell20：1603-22加以描述；以引用的方式将各自整体并入本文。

本文所述的EML标签的至少两个定位信号序列可重叠、邻接(例如不通过外显子分隔开)和/或通过短的接头或外显子序列分隔开，所述短的接头或外显子序列的长度不超过300bp，例如300bp以下、250bp以下、200bp以下、150bp以下、120bp以下、100bp以下、75bp以下、50bp以下、40bp以下或者30bp以下。在一些实施方式中，短的接头或外显子序列长度不超过120bp。在一些实施方式中，短的接头或外显子序列长度不超过30bp。在一些实施方式中，接头或外显子序列可包含甘氨酸和/或丝氨酸残基。在一些实施方式中，接头或外显子序列可包含至少10％为甘氨酸和/或丝氨酸残基(例如至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％或更多的甘氨酸和/或丝氨酸残基)的序列。在一些实施方式中，接头或外显子序列可由甘氨酸和/或丝氨酸残基组成。如本文所述，包含至少一个外显子的序列还包含至少一个内含子和/或需要发生至少一次剪接事件从而生成成熟的mRNA。

当将工程化的多重定位标签可操作地连接至编码负荷多肽的第二核酸序列时，将引起负荷多肽以可检测的水平在同一细胞中的至少两个亚细胞位置以及任选的细胞质中积累，所述亚细胞位置例如第一细胞器和第二细胞器。在一些实施方式中，工程化的多重定位标签将引起负荷多肽以可检测的水平在除细胞质以外的至少两个亚细胞位置中积累，所述亚细胞位置例如第一细胞器和第二细胞器。在一些实施方式中，工程化的多重定位标签将引起负荷多肽以可检测的水平在至少三个亚细胞位置以及任选的细胞质中积累，所述亚细胞位置例如第一细胞器、第二细胞器、第三细胞器。

本文所述的工程化的多重定位标签的特定示例性实施方式称为“TriTags”，例如TriTag-1、TriTag-2和TriTag-3，将在本文其它部分描述。

本文描述了两大类工程化的多重定位标签。第一类利用可变剪接事件，以从单个的EML标签核酸序列生成多个肽序列，其中，各剪接变体展示出不同的定位特征。在本文中该第一类称为“可变剪接EML标签”。第二类EML标签称为“嵌入的EML标签”，并且该第二类EML标签包括多重定位信号序列重叠和/或彼此嵌入的EML标签，从而生成具有多重定位靶点的单个翻译产物。

当将供体剪接位点和受体剪接位点之间的RNA转录物或前体mRNA的片段从RNA分子移除，而将剩余的两个片段连接产生缩短的mRNA转录物以及不会被翻译的切除片段时，发生转录物的剪接。该过程特别是在真核细胞中广泛使用，以移除内含子并生成编码给定蛋白的不同异构体的变体。通过使成组的剪接序列或信号(例如供体剪接位点或受体剪接位点)位于至少一个定位信号序列的侧翼，生成一系列的转录物，所述转录物包含至少两类：1)包含具有侧翼的定位信号序列的全长转录物；2)包含如下序列的更短的变体，所述序列通过发生剪接事件而移除了位于侧翼的定位信号序列。剪接可通过酶(例如剪接体)或其序列自身加以催化。

本文使用的“成组的兼容剪接序列”是指包含至少一个受体剪接位点和至少一个供体剪接位点的一组RNA序列，当作为细胞中的相同RNA分子的一部分加以转录时，能够以可检测的速率引起间插序列从所述RNA分子中移除。例如，成组的兼容剪接序列可引起一系列转录物的至少5％、至少10％、至少20％、至少40％、至少60％、至少80％或至少90％在翻译前移除间插序列。对天然存在的剪接位点/序列进行的重新构建在例如如下文献中加以描述，以引用的方式将各自整体并入本文：Orengo等，2006，Nucleic Acids Research 34：22：e148；Younis等，2010Molec.Cell.Biol.，30(7)：1718-1728；以及Syed等，2012，Trends PlantSci 17(10)：6161-23。本领域已知剪接预测软件(例如果蝇剪接预测器、人类剪接寻迹器、RegRNA、外显子剪接增强子寻迹器、MIT剪接预测器、GeneSplicer、剪接预测器(DK)、ASPic、SplicePort、NetPlantGene server(Hebsgaard等，1996)以及ASSP(Wang和Marin，2006，Gene 366：219-227)。以引用的方式将各自整体并入本文。

当可变剪接EML标签包含多组兼容剪接序列时，各组的剪接序列不会与其它组的成员相互作用，例如，第一组的供体剪接序列和第二组的受体剪接序列并不以显著水平参与剪接事件(例如少于5％的转录物应经历此类剪接事件)。本文提供了可一起使用的多组兼容剪接序列的非限定性实例。可通过本领域已知的方法(例如，通过在万维网上免费可得的剪接预测算法)预测第一组的兼容剪接序列是否与第二组的兼容剪接序列相互作用。此类算法的非限定性实例可在如下网站中找到：

http://www.interactive-biosoftware.com/alamut/doc/2.0/splicing.html；

http://www.wyomingbioinformatics.org/～achurban/；以及

http://www.cbs.dtu.dk/services/NetPGene/。

在一些实施方式中，本文所述的可变剪接EML标签可进一步包含至少一组的兼容剪接序列，其中，所述组的兼容剪接序列位于至少一个定位信号序列的侧翼，并且至少一个定位信号序列的侧翼不具有所述组的兼容剪接序列。在一些实施方式中，侧翼不具有成组的兼容剪接序列的定位信号序列为EML标签的最靠近3′端的定位信号序列。

在一些实施方式中，成组的兼容剪接序列可包含多个供体剪接位点和/或受体剪接位点。在一些实施方式中，多个供体或受体剪接位点可为可变剪接位点，例如，具有一个供体剪接位点和两个受体剪接位点的组可生成至少两种可变剪接产物。在一些实施方式中，可变供体或受体剪接位点可具有不同比例的剪接频率，例如可变供体或受体剪接位点中的一个可为“强的”，而其余的可为“弱的”。在一些实施方式中，成对的可变剪接位点包含弱的剪接位点和强的剪接位点。本文使用的“强的”供体或受体序列为以比起“弱的”序列的频率更高至少10％(例如至少10％、至少20％、至少30％、至少40％、至少50％、至少75％、至少100％、至少200％、至少300％、至少500％或更高)的频率参与剪接事件的序列。在一些实施方式中，其中，成组的兼容剪接序列包含可变剪接序列(例如，可变供体或可变受体)，弱的剪接位点可位于具有侧翼的定位信号的5′，强的剪接位点可位于具有侧翼的定位信号的3′。

在一些实施方式中，本文所述的EML标签可进一步包含成组的兼容剪接序列，其中，所述组包含两个可变剪接供体序列和一个剪接受体序列，其中，两个可变剪接供体序列位于第一定位信号序列的侧翼。在一些实施方式中，受体剪接位点可位于所述组的两个供体剪接位点的3′。在一些实施方式中，整组剪接序列可位于第二定位信号的5′。在一些实施方式中，整组剪接序列可为位于第二定位信号的3′。

在一些实施方式中，本文所述的EML标签可进一步包含成组的兼容剪接序列，其中，所述组包含两个可变受体剪接位点和一个供体剪接位点，其中，所述两个可变受体剪接位点位于第一定位信号序列的侧翼。在一些实施方式中，供体剪接位点可位于所述组的两个受体剪接位点的5′。在一些实施方式中，整组的剪接序列可位于第二定位信号的3′。在一些实施方式中，整组的剪接序列可位于第二定位信号的5′。

本文描述了示例性的成组的兼容剪接位点。通过非限定性实例的方式，成组的兼容剪接位点可包含如下序列：SEQ ID NO:8和SEQ IDNO:10；SEQ ID NO:9和SEQ ID NO:10；或者SEQ ID NO:8的弱的剪接供体位点、SEQ ID NO:9的强的剪接供体位点和SEQ ID NO:10的剪接受体位点。通过进一步的非限定性实例的方式，第二组的兼容剪接位点可包含如下序列；SEQ ID NO:11和SEQ ID NO:13；SEQ ID NO:12和SEQID NO:11；或者SEQ ID NO:11的剪接供体位点、SEQ ID NO:12的弱的剪接受体位点和SEQ ID NO:13的强的剪接受体位点。图1A-图1D描绘了包含成组的兼容剪接位点的可变剪接EML标签的示例性实施方式，并描绘了所述成组的剪接序列如何能够相互作用以生成剪接变体。

可变剪接EML标签的非限定性实例可包括具有SEQ ID NO:18或SEQ ID NO:19的核酸序列的标签、或者具有与SEQ ID NO:18或SEQ IDNO:19具有至少80％一致性(例如80％以上、90％以上、95％以上或98％以上的一致性)的核酸序列的标签。可变剪接EML标签的进一步的非限定性实例可包括包含SEQ ID NO:3、SEQ ID NO:4或SEQ ID NO:21-SEQID NO:26的任一者的多肽的标签，或者包含与SEQ ID NO:3、SEQ IDNO:4或SEQ ID NO:21-SEQ ID NO:26的任一者具有至少90％一致性的多肽的标签。可变剪接EML标签的进一步的非限定性实例可包括包含编码SEQ ID NO:3、SEQ ID NO:4或SEQ ID NO:21-SEQ ID NO:26的多肽的任一者的核酸序列的标签，或者包含编码与SEQ ID NO:3、SEQ ID NO:4或SEQ ID NO:21-SEQ ID NO:26的任一者具有至少90％一致性的多肽的核酸序列的标签。在一些实施方式中，可变剪接EML标签可包含如下核酸序列：当在细胞中翻译时，该核酸序列将产生一系列的不同的多肽，其中，所述系列包含可检测水平的选自于由SEQ ID NO:3和SEQ IDNO:21-SEQ ID NO:23所组成的组中的至少两种序列(例如两种、三种或全部)。在一些实施方式中，可变剪接EML标签可包含如下的核酸序列：当在细胞中翻译时，所述核酸序列将产生一系列的不同的多肽，其中，所述系列包含可检测水平的选自于由SEQ ID NO:4和SEQ IDNO:24-SEQ ID NO:26所组成的组中的至少两种序列(例如两种、三种或全部)。无论何种情况，作为本文所述的序列的变体的EML标签必须保持作为其来源的参照序列的至少10％的定位能力，例如该EML标签必须能够以参照定位信号的至少10％的有效性(例如，至少10％、至少20％、至少30％、至少50％、至少70％、至少80％、至少90％、至少95％、至少100％的有效性或更高的有效性)引导负荷多肽定位至期望的靶位置，所述有效性以本文其它部分所述的绝对浓度或相对浓度测定。

本文所述的第二类EML标签包含“嵌入的”EML标签。如本发明人在本文中所展示的，可将第一定位信号序列的一些保守性较小的序列替换为第二定位信号序列，从而将第二序列嵌入第一序列内。所获得的EML标签可将多肽(该EML标签为该多肽的部分)引导至两个定位信号序列的靶细胞器。

可通过例如对相关定位信号进行比对来识别待替换的第二定位信号序列，从而确定保守性差的区域。例如，通过比对在相应位置显示出两个相同或相似的氨基酸的地方，该位点很可能在功能上很重要。相反地，通过比对在相应位置显示出显著不同的残基大小、电荷、疏水性等的地方，在功能性多肽中该位点很可能能够容忍改变。本领域普通技术人员易于例如使用比对工具BLASTP程序的默认设置进行此类比对，所述BLASTP程序在万维网http://blast.ncbi.nlm.nih.gov/上免费可得。另外，可使用BLAST程序(例如，通过搜索同源序列的免费可得的序列数据库，或通过查询此类数据库的表明同源物的注释(例如，搜索包含基因名称或描述基因活性的字符串)发现任何给定的多肽或核酸序列的同源物。此类数据库可在万维网http://ncbi.nlm.nih.gov/上找到。

可利用例如SignalP软件识别可允许另一定位信号嵌入的定位信号的保守性差的区域。例如参见Petersen等，Nature Methods，20118：785；以引用的方式将其整体并入本文。

作为非限定性的实例，CTPb包含来自SEQ ID NO:6的第37-46位氨基酸的保守性差的区域。在一些实施方式中，本文所述的EML标签可包含第一定位信号，所述第一定位信号替换第二定位信号中的相当于SEQID NO:6的第37-46位残基的氨基酸。

在一些实施方式中，本文所述的嵌入的EML标签可包含具有SEQ IDNO:7序列的多肽或者与SEQ ID NO:7序列具有至少80％一致性(例如至少80％、至少90％、至少95％、或至少98％以上的一致性)的多肽。在一些实施方式中，本文所述的嵌入的EML标签可包含编码具有SEQ IDNO:7序列的多肽的核酸、或者编码与SEQ ID NO:7序列具有至少80％一致性(例如至少80％、至少90％、至少95％、或至少98％以上的一致性)的多肽的核酸。在一些实施方式中，本文所述的嵌入的EML标签可包含具有SEQ ID NO:20序列的核酸、或者与SEQ ID NO:20序列具有至少80％一致性(例如至少80％、至少90％、至少95％、或至少98％以上的一致性)的核酸。无论何种情况，作为本文所述的序列的变体的EML标签必须保持作为其来源的参照序列的至少10％的定位能力，例如该EML标签必须能够以参照定位信号的至少10％的有效性(例如至少10％、至少20％、至少30％、至少50％、至少70％、至少80％、至少90％、至少95％、至少100％的有效性或更高的有效性)引导负荷多肽定位至期望的靶位置，所述有效性以本文其他部分所述的绝对浓度或相对浓度测定。

本文所述的EML标签可包含含有定位信号和/或剪接位点的核酸和/或多肽序列。本文提供了此类序列的非限定性实例。在一些实施方式中，EML标签可包含本文提供的序列。在一些实施方式中，EML标签可包含本文提供的序列的功能性变体。在一些实施方式中，功能性变体可为保守的取代变体。功能性变体将引起向至少两个不同的亚细胞位置的定位。

在一些实施方式中，本文所述的EML标签可适于在植物或植物细胞中表达，例如，所述EML标签可包含在植物细胞中起作用的定位信号和剪接位点。在一些实施方式中，本文所述的EML标签在除植物细胞以外的其它细胞(例如酵母或动物细胞)中不起作用。

在一个方面，本文描述的是包含本文所述的EML标签的载体。在一个方面，本文描述的是细胞或生物体，所述细胞或生物体包含本文所述的EML标签或者包含含有本文所述的EML标签的载体。在一些实施方式中，细胞或生物体可为植物或植物细胞。在一些实施方式中，细胞或生物体可为光合作用细胞或光合作用生物体。

在一些实施方式中，载体可进一步包含编码可操作地连接的多肽(即负荷多肽)的核酸序列或者适用于引入编码可操作地连接的多肽(即负荷多肽)的核酸序列的克隆位点。在一些实施方式中，EML标签可整体位于编码负荷多肽的核酸序列或克隆位点的一个侧翼上。在一些实施方式中，EML标签可位于编码负荷多肽的核酸序列或克隆位点的5′位。在一些实施方式中，EML标签可位于编码负荷多肽的核酸序列或克隆位点的3′。

在一些实施方式中，表达载体可包含本文所述的EML标签，例如用于感兴趣的细胞和/或生物体中的负荷多肽的表达以及翻译后的靶向。本文使用的术语“表达载体”是指能够向细胞中引入并表达外源核苷酸片段的载体。克隆或表达载体可包含另外的元件，例如表达载体可具有两种复制体系，从而使该表达载体能够在两种生物体中得以维持，例如在植物细胞中用于表达并在原核宿主中用于克隆和扩增。还可将术语载体用于描述重组病毒，例如，经修饰而包含感兴趣基因的编码序列的病毒。本文所使用的载体可为病毒来源或非病毒来源。下文中将进一步探讨合适的载体。

表达载体可包含5'调控序列和/或3'调控序列(例如本文所述的EML标签)，所述调控序列可操作地连接至编码负荷多肽的基因；在本文中将该构建体称为“转基因”。本文使用的术语“可操作地连接”是指调控元件和第二序列之间的功能性连接，其中，调控元件影响第二序列的表达和/或加工。一般来说，可操作地连接意味着待连接的核酸序列是相邻接的，并且对于两个蛋白编码区域的相连而言是必要的、相邻接的且处于同一阅读框中。转基因以5'至3'的转录方向可包含：转录起始区域和翻译起始区域(即，启动子或翻译起始区域)、编码多肽的核酸序列、以及在充当宿主的生物体内起作用的转录终止区域和翻译终止区域(即终止区域)。本文所述的EML标签可被包含在起始区域与编码负荷多肽的核苷酸序列之间、或者被包含在编码负荷多肽的核苷酸序列与终止区域之间。对于宿主生物体和/或编码负荷多肽的核苷酸序列而言，转录起始区域(即启动子)可为天然的、模拟的、外来的或异源的。此外，启动子可为与负荷多肽的基因或者合成序列相关联的天然序列。单个载体可包含多个转基因。另外的转基因可任选进一步包含本文所述的EML标签。

表达载体可另外包含可选择的标记基因。表达载体可具有多个限制性位点，所述限制性位点用于插入在已存在于载体中的调控区域的转录调控之下编码负荷多肽的核苷酸序列和/或转基因。

大多数基因具有已知为启动子的DNA序列的区域，并且所述区域调控基因表达。启动子区域一般在原核细胞和真核细胞中的编码序列的上游的侧翼DNA序列中发现。启动子序列提供了对下游基因序列转录的调控，并且一般包含约50至约2,000个核苷酸碱基对。启动子序列还可包含调控序列，例如能够影响基因表达水平的增强子序列。一些分离的启动子序列可提供异源基因(即，与天然基因或同源基因不同的基因)的基因表达。还已知启动子序列为强的启动子序列、弱的启动子序列或可诱导的启动子序列。强的启动子提供高水平的基因表达，而弱的启动子提了非常低水平的基因表达。可诱导的启动子为提供作为对外加试剂、环境刺激物或发育刺激物的应答而开启或关闭基因表达的启动子。启动子还可提供组织特异性调控或发育调控。分离的启动子序列对于异源基因而言是强的启动子是有利的，因为强的启动子提供了足够水平的基因表达，以使得易于对转化的细胞进行检测和选择，并在期望时提供高水平的基因表达。

本技术的一些实施方式包含的启动子可提供来自编码EML标签和负荷多肽的核苷酸序列的可操作地连接的负荷多肽和EML标签的表达。在一些实施方式中，启动子可引起EML标签和负荷多肽的可检测的水平表达。在一些实施方式中，启动子可引起一定水平的EML标签和负荷多肽的表达，从而使得能够在亚细胞位置中发现可检测水平的负荷多肽，所述EML标签被设计为靶向至该亚细胞位置(例如，如果EML标签包含叶绿体和过氧化物酶体定位信号，则在叶绿体内和过氧化物酶体内)。

启动子可在例如质粒或植物细胞中起作用。可用于本文所述的表达载体中的启动子的实例包括但不限于：CaMV 35S启动子(Odell等，Nature，313：810(1985))、CaMV 19S(Lawton等，Plant Mol.Biol.，9：31F(1987))、nos(Ebert等，Proc.Nat.Acad.Sci.(U.S.A.)，84：5745(1987))、Adh(Walker等，Proc.Nat.Acad.Sci.(U.S.A.)，84：6624(1987))、蔗糖合酶(Yang等，Proc.Nat.Acad.Sci.(U.S.A.)，87：4144(1990))、章鱼碱(octapine)合酶(OCS)启动子、玄参花叶病毒35S启动子、α-微管蛋白、napin、肌动蛋白(Wang等，Mol.Cell.Biol.，12：3399(1992))、cab(Sullivan等，Mol.Gen.Genet.，215：431(1989))、PEPCase启动子(Hudspeth等，Plant Mol.Biol.，12：579(1989))、7S-α'-伴大豆球蛋白启动子(Beachy等，EMBO J，4：3047(1985))、与R基因复合体相关的启动子(Chandler等，The Plant Cell，1：1175(1989))、WO 99/43838和美国专利号6,072,050中公开的Rsyn7启动子和其它组成型启动子的核心启动子、CaMV 35S核心启动子(Odell等(1985)Nature313：810-812)、大米肌动蛋白(McElroy等(1990)Plant Cell 2：163-171)、泛素(Christensen等(1989)Plant Mol.Biol.12：619-632以及Christensen等(1992)Plant Mol.Biol.18：675-689)、pEMU(Last等(1991)Theor.Appl.Genet.81：581-588)、MAS(Velten等(1984)EMBO J.3：2723-2730)、ALS启动子(美国专利号5,659,026)等。其它组成型启动子包括例如在美国专利号5,608,149、5,608,144、5,604,121、5,569,597、5,466,785、5,399,680、5,268,463、5,608,142和6,177,611中讨论的。以引用的方式将前述参考文献整体并入本文。

此外，可将转录增强子或增强子的重复序列用来提高特定启动子的表达。此类增强子的实例包括但不限于来自CaMV 35S启动子和章鱼碱合酶基因的元件(Last等，美国专利号5,290,924)。例如，在考虑之列的是可将根据本发明技术使用的载体构建为包含ocs增强子元件。该元件最初被识别为来自农杆菌属(Agrobacterium)的章鱼碱合酶(ocs)基因的回文增强子(Ellis等，EMBO J.，6：3203(1987))，并且存在于至少10种其它的启动子中(Bouchez等，EMBO J.,8：4197(1989))，以引用的方式将其整体并入本文。提出了增强子元件(例如ocs元件和该元件的特定的多个拷贝)的使用将提高相邻启动子的转录水平。

当期望低水平的表达时，将使用弱的启动子。一般来说，本文使用的术语“弱的启动子”是指以低水平驱动编码序列的表达的启动子。低水平表达意味着处于约1/1000转录物至约1/100,000转录物至约1/500,000转录物的水平。或者，认为术语“弱的启动子”还涵盖了仅在少数细胞中驱动表达而不会在其它细胞中驱动表达，从而表现出总的低水平的表达的启动子。当启动子以不可接受的高水平驱动表达时，可对启动子序列的部分进行删除或修饰以降低表达水平。此类弱的组成型启动子包括例如Rsyn7启动子的核心启动子(WO 99/43838和美国专利号6,072,050)、35S CaMV核心启动子等。其它的弱的组成型启动子包括例如在美国专利号5,608,149、5,608,144、5,604,121、5,569,597、5,466,785、5,399,680、5,268,463、5,608,142和6,177,611中公开的，以引用的方式将其并入本文。

在一些实施方式中，可使用在植物中提供组织特异性表达或发育上调控的基因表达的启动子。在一些实施方式中，本文所述的表达载体所包含的启动子可为组织特异性启动子，本领域已知该启动子的实例。

在一些实施方式中，启动子还可为可诱导的，从而可通过外加试剂开启或关闭基因表达。通过施用外源的化学调控子，可将化学调控的启动子用于调节植物中的基因表达。取决于对象，启动子可为化学可诱导的启动子(施用化学物质诱导基因表达)或者化学可阻遏的启动子(施用化学物质阻遏基因表达)。本领域已知化学可诱导的启动子，包括但不限于玉米In2-2启动子(由苯磺酰胺除草剂安全剂活化)、玉米GST启动子(由用作芽前(pre-emergent)除草剂的疏水性亲电化合物活化)以及烟草PR-1a启动子(由水杨酸活化)。其它感兴趣的化学调控的启动子包括类固醇应答的启动子(参见例如，糖皮质激素可诱导的启动子，Schena等，(1991)，Proc.Natl.Acad.Sci.USA 88：10421-10425以及McNellis等，(1998)，Plant J.14(2)：247-257)、四环素可诱导的启动子以及四环素可阻遏的启动子(参见例如，Gatz等(1991)，Mol.Gen.Genet.227：229-237以及美国专利号5,814,618和5,789,156)，以引用的方式将其并入本文。可诱导的启动子的进一步实例为来自Rubisco小亚基的光可诱导的启动子(Pellegrineschi等，Biochem.Soc.Trans.23(2)：247-250(1995)；以引用的方式将其整体并入本文)。

转基因还可包含EML标签、编码负荷多肽的核酸、作为转录终止信号的核酸序列以及使得所生成的mRNA能够多聚腺苷酸化的核酸序列。此类转录终止信号置于感兴趣的编码区域的3′或下游。终止区域可能对于转录起始区域而言是天然的、可能对于编码负荷多肽的可操作地连接的核酸而言是天然的、可能对于宿主生物体而言是天然的或者可能来自于另一来源(即，对于启动子、感兴趣的序列、宿主生物体或它们的任意组合而言为外来物或异源物)。在考虑之列的是，优选转录终止信号包括来自根癌农杆菌的胭脂氨酸合酶基因的转录终止信号(Bevan等，Nucl.Acid Res.，11：369(1983))、来自根癌农杆菌的章鱼碱合酶基因的终止子、来自马铃薯或蕃茄的编码蛋白酶抑制剂I或II的基因的3′端，本领域技术人员知晓的其它转录终止信号也在考虑之列。如果期望，可进一步包含调控元件例如Adh内含子1(Callis等，Genes Develop.，1：1183(1987))、蔗糖合酶内含子(Vasil等，Plant Physiol.，91：5175(1989))或TMVΩ元件(Gallie等，The Plant Cell，1：301(1989))。这些3'非翻译调控序列可通过如下获得：如An，Methods in Enzymology，153：292(1987)中的描述、或已存在于可得自商业化来源(例如Clontech，Palo Alto，Calif.)的质粒中。通过标准方法可将3'非翻译调控序列可操作地连接至基因的3'端。本领域技术人员已知用于实施本发明的其它的此类调控元件。以引用的方式将上述参考文献整体并入本文。

还可将可选择的标记基因或报告基因用于本文所述的方法和组合物中。此类基因可对表达标记基因的细胞赋予独特的表型，并从而使得能够将此类转化的细胞与不具有标记的细胞进行区别。可选择的标记基因赋予了可通过化学手段、即通过使用选择性试剂(例如除草剂、抗生素等)进行“选择”的特征。报告基因或可筛选基因赋予能够通过观测或测试、即通过“筛选”进行识别的特征。标记基因包括编码抗生素抗性的基因(例如编码新霉素磷酸转移酶II(NEO)和潮霉素磷酸转移酶(HPT)的基因)以及赋予针对除草化合物的抗性的基因，所述除草化合物例如草铵膦、溴苯腈、咪唑啉酮和2,4-二氯苯氧基乙酸(2,4-D)。适合的可选择的标记基因的另外实例包括但不限于编码针对如下物质的抗性的基因：氯霉素(Herrera Estrella等(1983)EMBO J.2：987-992)；氨甲喋呤(Herrera Estrella等(1983)Nature 303：209-213；以及Meijer等(1991)Plant Mol.Biol.16：807-820)；链霉素(Jones等(1987)Mol.Gen.Genet.210：86-91)；大观霉素(Bretagne-Sagnard等(1996)Transgenic Res.5：131-137)；博来霉素(Hille等(1990)Plant Mol.Biol.7：171-176)；磺酰胺(Guerineau等(1990)Plant Mol.Biol.15：127-136)；溴苯腈(Stalker等(1988)Science 242：419-423)；草甘膦(Shaw等(1986)Science 233：478-481；以及美国申请Ser.Nos.10/004,357和10/427,692)；草丁膦(DeBlock等(1987)EMBO J.6：2513-2518)；以及编码DHFR或茅草枯脱卤素酶的基因。通常参见Yarranton(1992)Curr.Opin.Biotech.3：506-511；Christopherson等(1992)Proc.Natl.Acad.Sci.USA 89：6314-6318；Yao等(1992)Cell 71：63-72；Reznikoff，(1992)，Mol.Microbiol.6：2419-2422；Barkley等(1980)，The Operon，第177-220页；Hu等(1987)Cell 48：555-566；Brown等(1987)Cell 49：603-612；Figge等(1988)Cell 52：713-722；Deuschle等(1989)Proc.Natl.Acad.Sci.USA86：5400-5404；Fuerst等(1989)Proc.Natl.Acad.Sci.USA 86：2549-2553；Deuschle等(1990)Science 248：480-483；Gossen(1993)博士论文，University of Heidelberg；Reines等(1993)Proc.Natl.Acad.Sci.USA 90：1917-1921；Labow等(1990)Mol.Cell.Biol.10：3343-3356；Zambretti等(1992)Proc.Natl.Acad.Sci.USA 89：3952-3956；Baim等(1991)Proc.Natl.Acad.Sci.USA 88：5072-5076；Wyborski等(1991)Nucleic AcidsRes.19：4647-4653；Hillenand-Wissman(1989)Topics Mol.Struc.Biol.10：143-162；Degenkolb等(1991)Antimicrob.Agents Chemother.35：1591-1595；Kleinschnidt等(1988)Biochemistry 27：1094-1104；Bonin(1993)博士论文，University of Heidelberg；Gossen等(1992)Proc.Natl.Acad.Sci.USA 89：5547-5551；Oliva等(1992)Antimicrob.AgentsChemother.36：913-919；Hlavka等(1985)Handbook of ExperimentalPharmacology，第78卷(Springer-Verlag，Berlin)；以及Gill等(1988)Nature 334：721-724；以引用的方式将其整体并入本文。可使用的可筛选标记包括但不限于：β-葡萄糖醛酸酶或uidA基因(GUS)，已知其编码的酶用于多种生色底物；R-基因座基因，其编码的产物调控植物组织中的花青素苷色素(红色)的生产(Dellaporta等，Chromosome Structure andFunction，第263-282页(1988))；β-内酰胺酶基因(Sutcliffe，Proc.Nat.Acad.Sci.(U.S.A.)，75：3737(1978))，已知其编码的酶用于多种生色底物(例如PADAC，生色头孢菌素)；xylE基因(Zukowsky等，Proc.Nat.Acad.Sci.(U.S.A)，80：1101(1983))，其编码能够转化为生色儿茶酚的儿茶酚双加氧酶；α-淀粉酶基因(Ikuta等，Biotech.，8：241(1990))；酪氨酸酶基因(Katz等，J.Gen.Microbiol.，129：2703(1983))，其编码的酶能够将酪氨酸氧化为DOPA和多巴醌，所述DOPA和多巴醌转而缩合形成易于检测的化合物黑色素；β-半乳糖苷酶基因，其编码的酶用于生色底物；荧光素酶(lux)基因(Ow等，Science，234：856(1986))，其使得能够进行生物发光检测；或者甚至水母发光蛋白基因(Prasher等，Biochem.Biophys.Res.Comm.，126：1259(1985))，其可用于钙敏感的生物发光检测中；或者绿色荧光蛋白基因(Niedz等，Plant Cell Reports，14：403(1995))。以引用的方式将上述参考文献整体并入本文。可使用例如X射线胶片、闪烁计数、荧光分光光度法、低照度摄像机、光子计数摄像机或多通道发光测定法来检测转化细胞中的lux基因的存在。还可预料到的是，可将该系统开发用于生物发光的群体筛选(例如在组织培养板上)、或甚至整株植物的筛选。

表达载体可包含提供易于在原核细胞和真核细胞中进行转基因的转化、选择和扩增的另外的DNA序列。该另外的DNA序列可包括提供载体的自主复制的复制起始点、可选择的标记基因(优选编码抗生素抗性或除草剂抗性)、独特的多克隆位点(提供用于将转基因中编码的基因或DNA序列插入的多个位点)、以及增强原核细胞和/或真核细胞的转化的序列。

适用于本文所述的方法和组合物的表达载体的非限定性实例包括pBR322及相关质粒、pACYC及相关质粒、转录载体、表达载体、噬菌粒、酵母表达载体、植物表达载体、pDONR201(Invitrogen)、pBI121、pBIN20、pEarleyGate100(ABRC)、pEarleyGate102(ABRC)、pCAMBIA、pUC衍生的载体、pSK衍生的载体、pGEM衍生的载体、pSP衍生的载体、pBS衍生的载体、T-DNA、转座子和人工染色体。

用于植物和原核细胞中的表达的另一载体为双元Ti质粒(如在Schilperoort等，美国专利号4,940,838中公开；以引用的方式将其整体并入本文)，其实例为载体pGA582。该双元Ti质粒载体之前已通过An(前文引用)加以表征。该双元载体可在原核细菌(例如大肠杆菌和农杆菌)中复制。农杆菌质粒载体还可用来将转基因转移至植物细胞。双元Ti载体优选包含胭脂氨酸T DNA的右边缘和左边缘(以提供有效的植物细胞转化)、可选择的标记基因、T边缘区域中的独特的多克隆位点、colE1复制起始点和宽宿主范围的复制子。可将携带本文所述的转基因(例如包含EML标签和编码负荷多肽的核酸序列)的双元Ti载体用于转化原核细胞和真核细胞，然而优选用于转化植物细胞。参见例如Glassman等，美国专利号5,258,300；以引用的方式将其整体并入本文。

在制备表达载体中，可操控多个核苷酸片段，从而提供处于合适的方向并酌情处于合适的读码框中的的核苷酸序列。为实现该目的，可利用适配体(adapter)或接头将核苷酸片段相连，或者可涉及其它操作以提供方便的限制性位点、移除多余的核苷酸序列、移除限制性位点等。为了这一目的，可涉及体外诱变、引物修复、限制、退火、重新取代(例如转换和颠换)。

下面讨论将具有EML标签的构建体引入宿主生物体，特别示例出了向植物。然而应理解的是，可将适用于给定的宿主(无论是植物、动物、真菌或原生生物)的任何方法用来引入具有EML标签的构建体。

在构建或获得包含EML标签和编码负荷多肽的核酸序列的表达载体后，可将载体引入宿主生物体(例如植物或植物细胞)。“引入”意在表示通过序列获得接近细胞内部机会的方式使表达载体存在于宿主生物体(例如植物)。只要表达载体获得接近植物的至少一个细胞的内部的机会，不同实施方式的方法并不依赖于向植物中引入载体的特定方法。本领域已知将表达载体引入植物中的方法，所述方法包括但不限于：稳定转化方法、瞬时转化方法和病毒介导的方法。“稳定转化”意在表示将引入植物中的核苷酸构建体整合入植物的基因组中，从而使得能够被所述植物的后代继承。“瞬时转化”意在表示将多聚核苷酸引入植物而不整合入植物的基因组中、或者例如将多肽直接引入植物中。

转化方案以及将核苷酸序列引入植物中的方案可依赖于转化所靶向的植物或植物细胞的类型(例如单子叶植物或双子叶植物)而变化。将核苷酸序列引入植物细胞中并随后插入至植物基因组中的合适方法包括显微注射(Crossway等(1986)，Biotechniques 4：320-334)、电穿孔(Riggs等(1986)，Proc.Natl.Acad.Sci.USA 83：5602-5606)、农杆菌介导的转化(美国专利号5,563,055和5,981,840)、直接基因转移(Paszkowski等(1984)EMBO J.3：2717-2722)、弹道粒子加速(ballistic particleacceleration)(参见例如美国专利号4,945,050、5,879,918、5,886,244、5,990,390和5,932,782；Tomes等(1995)，Plant Cell,Tissue,and OrganCulture:Fundamental Methods，Gamborg和Phillips著(Springer-Verlag，Berlin)；以及McCabe等(1988)，Biotechnology 6：923-926)；LecI转化(WO 00/28058)；II型胚性愈伤组织细胞(W.J.Gordon-Kamm等，Plant Cell，2：603(1990)；M.E.Fromm等，Bio/Technology，8：833(1990)；D.A.Walters等，Plant Molecular Biology，18：189(1992))；或I型胚性愈伤组织的电穿孔(D'Halluin等，The Plant Cell，4：1495(1992)；美国专利号5,384,253)。对于马铃薯转化，参见Tu等(1998)，Plant Molecular Biology 37：829-838以及Chong等(2000)，TransgenicResearch 9：71-78。还可使用DNA包被的钨晶须通过涡旋进行的植物细胞转化(Coffee等，美国专利号5,302,523)，以及通过将细胞暴露至含有DNA的脂质体进行的转化。另外的转化程序可在如下文献中发现：Weissinger等(1988)，Ann.Rev.Genet.，22：421-477；Sanford等(1987)，Particulate Science and Technology 5：27-37(洋葱)；Christou等(1988)，Plant Physiol.87：671-674(大豆)；McCabe等(1988)，Bio/Technology6：923-926(大豆)；Finer和McMullen(1991)，In Vitro Cell Dev.Biol.27，第175-182页(大豆)；Singh等(1998)，Theor.Appl.Genet.96：319-324(大豆)；Datta等(1990)，Biotechnology 8：736-740(大米)；Klein等(1988)，Proc.Natl.Acad.Sci.USA 85：4305-4309(玉米)；Klein等(1988)，Biotechnology 6：559-563(玉米)；美国专利号5,240,855、5,322,783和5,324,646；Klein等(1988)，Plant Physiol.91：440-444(玉米)；Fromm等(1990)，Biotechnology 8：833-839(玉米)；Hooykaas-VanSlogteren等(1984)，Nature(London)311：763-764；美国专利号5,736,369(谷物)；Bytebier等(1987)Proc.Natl.Acad.Sci.USA 84：5345-5349(百合)；De Wet等(1985)，The Experimental Manipulation of OvuleTissues，Chapman等著(Longman，N.Y.)，第197-209页(花粉)；Kaeppler等(1990)，Plant Cell Reports 9：415-418以及Kaeppler等(1992)，Theor.Appl.Genet.84：560-566(晶须介导的转化)；D'Halluin等(1992)PlantCell 4：1495-1505(电穿孔)；Li等(1993)，Plant Cell Reports 12：250-255以及Christou和Ford(1995)，Annals of Botany 75：407-413(大米)；Osjoda等(1996)，Nature Biotechnology 14：745-750(经由根癌农杆菌转化玉米)；以引用的方式将上述文献整体并入本文。

在一些实施方式中，可使用多种瞬时转化方法向植物提供编码EML标签的核苷酸序列和编码负荷多肽的可操作地连接的核酸序列。此类瞬时转化方法包括但不限于将核苷酸序列直接引入植物中或者将转录物引入植物中。此类方法包括例如显微注射或粒子轰击。参见例如Crossway等，(1986)，Mol Gen.Genet.，202:179-185；Nomura等，(1986)，PlantSci.，44:53-58；Hepler等，(1994)，Proc.Natl.Acad.Sci.，91:2176-2180以及Hush等，(1994)，The Journal of Cell Science，107:775-784，以引用的方式将其全部并入本文。或者，可使用本领域已知的技术将核苷酸序列瞬时转化入植物中。此类技术包括使用病毒载体系统和以防止后续的DNA释放的方式进行的多聚核苷酸的沉淀。因此，与粒子结合的DNA可发生转录，但是该DNA释放以整合入基因组中的频率大幅降低。此类方法包括使用聚乙烯亚胺(PEI；Sigma#P3143)包被的粒子。

本领域已知用于将多聚核苷酸靶向插入至植物基因组中的特定位置的方法。在一个实施方式中，使用位点特异性重组系统实现将多聚核苷酸插入期望的基因组位置。参见例如WO99/25821、WO99/25854、WO99/25840、WO99/25855和WO99/25853，以引用的方式将它们全部并入本文。简单来说，可在转移盒中包含编码EML标签和可操作地连接的多肽的核苷酸序列，所述转移盒包含于表达载体中，侧翼具有两个不相同的重组位点。可将转移盒引入植物中并稳定地在靶位点处掺入至基因组中，所述靶位点侧翼具有对应于转移盒位点的两个不相同的重组位点。可提供合适的重组酶，从而将转移盒在靶位点处整合。可由此将编码EML标签和可操作地连接的多肽的核苷酸序列整合在植物基因组中的特定的染色体位置。

在一些实施方式中，可通过使植物与病毒或病毒核酸接触，向植物提供编码EML标签和可操作地连接的多肽的核苷酸序列。一般来说，此类方法涉及将感兴趣的核苷酸构建体掺入至病毒DNA或RNA分子内。公认的是，EML标签和可操作地连接的多肽可被初步合成作为病毒多聚蛋白的部分，随后将该多聚蛋白在体内或体外通过蛋白水解作用进行加工，从而产生包含EML标签的最终的多肽。同样公认的是，包含本文所述的EML标签和可操作地连接的多肽的至少部分氨基酸序列的此类病毒多聚蛋白可具有期望的活性。由多种实施方式涵盖了此类病毒多聚蛋白和编码此类病毒多聚蛋白的核苷酸序列。本领域已知向植物提供核苷酸构建体并在植物中生产所编码的蛋白的方法，该方法涉及病毒DNA或RNA分子。参见例如美国专利号5,889,191、5,889,190、5,866,785、5,589,367和5,316,931，以引用的方式将其并入本文。

可对转化细胞中的基因表达进行检测和定量。可通过使用对EML标签和/或负荷多肽而言特异性的抗体进行的定量蛋白质印迹、RT-PCR分析或者通过检测可操作地连接的负荷多肽的活性来对基因表达进行定量。可通过使用对负荷多肽或亚细胞部分特异的抗体进行的免疫化学染色方法并随后进行的生物化学分析和/或免疫学分析，从而确定可操作地连接的负荷多肽的组织和亚细胞位置。还可通过检测可选择的标记基因或报告基因(例如通过检测可选择的除草剂抗性标记)的存在来选择转化的细胞。可使用对于克隆的负荷多肽而言特异的载体或者通过RT-PCR分析来检测转基因胚性愈伤组织中的转基因的瞬时表达。本领域技术人员还将认识到的是，不同的独立的转化事件将导致转基因的表达水平和模式不同(Jones等，EMBO J.4：2411-2418(1985)；De Almeida等，Mol.Gen.Genetics 218：78-86(1989))。因此，必须对多次事件进行筛选以获得表现出期望的表达水平和模式的品系。可通过mRNA表达的northern分析、蛋白表达的western分析或表型分析完成此类筛选。

随后，可将转化的胚性愈伤组织、分生组织、胚、叶盘等用于生成表现出对转基因的稳定继承的转基因植物。通过本领域公知的方法，可使表现出令人满意的EML标签和可操作地连接的负荷多肽的表达水平和/或活性的植物细胞系接受植物再生方案，从而获得成熟的植物和种子(参见例如美国专利号5,990,390和5,489,520，以及Laursen等，Plant Mol.Biol.，24：51(1994)；以引用的方式将它们整体并入本文)。植物再生方案使得体细胞胚能够进行发育并随后进行根和芽的生长。为确定期望的性状是否在分化的植物器官中表达，而不仅仅是在未分化的细胞培养物中表达，可相对于再生的未转化植物，对再生植物的多个部分中的转基因的表达水平和/或活性进行测定。如果可能的话，再生植物可自体授粉。此外，可将从再生植物中获得的花粉与农学上重要的近交系的种子生长植物进行杂交。在一些情况下，可将来自这些近交系植物的花粉用于对再生植物进行授粉。可通过对第一代和其后代中的性状分离进行评价，在遗传学上对转基因性状进行表征。如果性状在商业上有用，在组织培养物中选择出的该性状在植物中的遗传力和表达非常重要。

预期本文生成的转基因植物对于多种商业和研究目的而言是有用的。在一些实施方式中，植物拥有对农业用途有益的性状(例如改进的生物合成或代谢通路)。还可将转基因植物用于商业化的育种项目中、或者可与相关的作物物种进行杂交或孕育为相关的作物物种。可通过例如原生质体融合将由重组DNA编码的改进从例如一个物种的初始转基因细胞中转移至其它物种的细胞中。

在一些实施方式中，本文所述的EML标签可操作地连接至编码包含3-羟基丙酸(3-HOP)通路的酶的负荷多肽的核酸序列。此类酶及其变体、以及识别所述酶及其变体的方法在例如PCT申请号PCT/US13/27620(2013年2月25日提交)中加以描述，以引用的方式将其整体并入本文。3-HOP通路的酶的非限定性实例可包括：丙二酰-CoA还原酶(MCR)、丙酰-CoA合酶(PCS)、(S)-苹果酰-CoA/β-甲基苹果酰-CoA/(S)-柠苹酰-CoA(MMC裂解酶)、中康酰-C1-CoA水合酶(β-甲基苹果酰-CoA-脱水酶)、中康酰-CoA C1-C4转移酶、中康酰-C4-CoA水合酶、烟碱辅因子-依赖的乙醇酸脱氢酶、丙酮酸激酶、烯醇化酶、磷酸甘油酸变位酶、3-磷酸甘油酸激酶、丙二酰-CoA还原酶以及丙酰-CoA合酶。

在一些实施方式中，本文所述的技术可涉及具有如下序列的核酸分子、或编码具有如下序列的多肽的核酸分子：SEQ ID NO:28-SEQ IDNO:87的任一者、或该序列的变体。在一些实施方式中，变体可与SEQ IDNO:28-SEQ ID NO:87序列中的一个具有至少80％(例如80％以上、90％以上、95％以上或98％以上)一致性。在一些实施方式中，本文所述的技术涉及包含本段落所述的核酸分子的载体。在一些实施方式中，本文所述的技术涉及包含本段落所述的核酸分子或载体的工程化的细胞或生物体。无论何种情况，作为本文所述序列的变体的核酸分子必须保持作为其来源的参照序列的至少10％的定位能力，例如该核酸分子必须能够以参照定位信号的至少10％的有效性(例如，至少10％、至少20％、至少30％、至少50％、至少70％、至少80％、至少90％、至少95％、至少100％的有效性或更高的有效性)引导负荷多肽定位至所期望的靶位置，所述有效性以本文其它部分所述的绝对浓度或相对浓度测定。

在一些实施方式中，细胞或生物体可为光合作用生物体(例如植物或蓝细菌)。本文所使用的“光合作用”是指在绿色植物和一些其它生物中通过使用光作为能量来源从二氧化碳和水合成糖的过程。大多数形式的光合作用释放氧气作为副产物。本领域公知的是，光合作用过程包含数个独立的反应，包括在光能的存在下并利用光能进行的反应以及可在黑暗或无光能下进行的反应，其中，通过细菌、藻类和植物在色素(例如叶绿素)存在的情况下将二氧化碳和水转化为有机化合物(例如糖和其它化合物)。本文使用的术语“非光合作用”是指不具有进行光合作用的天然能力的细胞或生物体。

为方便起见，下文提供了在说明书、实施例和所附权利要求中所使用的一些术语和短语的含义。除非另有说明、或上下文中有所暗示，以下术语和短语包括下文提供的含义。提供所述定义来帮助对具体实施方式进行描述，而并非旨在限制要求保护的发明，这是因为本发明的范围仅由权利要求书限定。除非另有定义，否则本文所使用的所有技术术语和科学术语与本发明所属技术领域中的普通技术人员通常理解的术语具有相同的含义。如果某术语在本领域中的使用和本文所提供的定义之间存在明显差异，应以本说明书中所提供的定义为准。

为方便起见，将本文在说明书、实施例和所附的权利要求中所使用的一些术语收集于此。

术语“降低/下降(decrease)”、“减少(reduced/reduction)”或“抑制(inhibit)”在本文中都用于表示降低了统计学上显著的量。在一些实施方式中，“减少”或“降低/下降”或“抑制”通常是指与参比水平(例如不进行指定治疗)相比降低至少10％，并且可包括例如降低至少约10％、至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、在至少约95％、至少约98％、至少约99％或更多。本文所使用的“减少”或“抑制”并不涵盖与参比水平相比完全的抑制或减少。“完全的抑制”是指相比于参比水平而言100％抑制。降低/下降可优选低至对于未患有指定紊乱的个体而言被认可为正常范围内的水平。

术语“增加/提高(increased/increase)”、“增强(enhance)”或“活化(activate)”在本文中都用于表示增加了统计学上显著的量。在一些实施方式中，术语“增加/提高”、“增强”或“活化”可意味着与参比水平相比增加至少10％，例如与参比水平相比增加至少约20％、或至少约30％、或至少约40％、或至少约50％、或至少约60％、或至少约70％、或至少约80％、或至少约90％、或上至并包括增加100％、或10％-100％之间的任何增加，或者与参比水平相比至少约2倍、或至少约3倍、或至少约4倍、或至少约5倍、或至少约10倍的增加、或2倍至10倍之间的任何增加或更高量的增加。在标记或症状的情况下，“增加”指此类水平在统计学上显著的增加。

本文使用的术语“蛋白”和“多肽”在本文中互换使用，表示一系列氨基酸残基通过相邻残基的α-氨基基团和羧基基团之间的肽键彼此连接。术语“蛋白”和“多肽”是指氨基酸的多聚物，包括经修饰的氨基酸(例如，磷酸化、糖化、糖基化等)和氨基酸类似物，而不考虑其大小或功能。“蛋白”和“多肽”经常用于指代相对大的多肽，而术语“肽”经常用于指代小的多肽，然而这些术语在本领域中的使用是相互重叠的。当指代基因产物及其片段时，术语“蛋白”和“多肽”在本文中互换使用。因此，示例性的多肽或蛋白包括基因产物、天然存在的蛋白、同系物、直系同源物、旁系同源物、片段以及上述物质的其它等同物、变体、片段和类似物。

本文使用的术语“核酸”或“核酸序列”是指掺入如下单元的任何分子、优选多聚物分子：核糖核酸、脱氧核糖核酸或其类似物。核酸可为单链或双链。单链核酸可为变性的双链DNA的一条核酸链。或者，单链核酸可为并不源于任何双链DNA的单链核酸。在一个方面，核酸可为DNA。在另一方面，核酸可为RNA。合适的核酸分子为DNA，包括基因组DNA或cDNA。其它合适的核酸分子为RNA，包括mRNA。

“变体”在本文中是指与给定的天然多肽或参照多肽实质上同源，然而由于一个或多个删除、插入或取代而具有不同于天然多肽或参照多肽的氨基酸序列的多肽。当与天然DNA序列或参照DNA序列相比时，编码多肽的DNA序列涵盖了包含一个或多个核苷酸的添加、删除或取代的序列，但该序列编码的变体蛋白或其片段保留了参照蛋白所涉及的相关生物活性。就氨基酸序列而言，本领域技术人员将能够认识到针对核酸、肽、多肽或蛋白序列进行的单独的取代、删除或添加(改变编码序列中的单个氨基酸或小的百分比(即5％以下，例如4％以下、3％以下或1％以下)的氨基酸)为“保守地修饰的变体”，其中，所述改变使得氨基酸被化学上类似的氨基酸取代。在考虑之列的是，一些改变有可能会改进相关活性，从而使变体(无论是保守或显著)具有超过100％的野生型定位信号的活性，例如110％、125％、150％、175％、200％、500％、1000％以上。识别可被取代的氨基酸残基的一个方法为对例如来自一个或多个物种的同源物进行比对。比对不仅可在关于对功能而言可能必要的残基方面提供指导，另一方面，还可在关于能够容忍改变的残基提供指导。例如，如果比对在相应位置示出两个相同或相似的氨基酸，该位点很可能在功能上是重要的。相反地，如果比对在相应位置示出的残基在大小、电荷、疏水性等方面显著不同，很可能功能性多肽中的该位点更能够容忍变化。相似地，与来自相同物种的未示出相同活性的相关多肽进行的比对还可提供关于活性所需的区域或结构方面的指导。本领域技术人员使用免费可得的程序易于生成比对。变体氨基酸或DNA序列可与天然序列或参照序列具有至少90％、至少95％、至少96％、至少97％、至少98％、至少99％以上的相同。可通过例如使用万维网上为该目的而常用的免费可得的计算机程序来比较两条序列，从而确定天然序列与突变序列之间的同源度(一致性百分比)。变体氨基酸或DNA序列可与作为其来源的序列(本文称为“原始”序列)具有至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％以上的相似性。可通过例如使用相似性矩阵来确定原始序列与突变序列之间的相似度(相似性百分比)。相似性矩阵为本领域公知，使用相似性矩阵的用来对两序列进行比较的大量手段为在线免费可得，例如具有默认参数组的BLASTp(在万维网http://blast.ncbi.nlm.nih.gov可得)。

可将给定的氨基酸通过具有相似的生理化学特征的残基进行替换，例如将一个脂肪族残基取代为另一脂肪族残基(例如将Ile、Val、Leu或Ala相互取代)、或者将一个极性残基取代为另一极性残基(例如在Lys和Arg之间、Glu和Asp之间或Gln和Asn之间取代)。其它的此类保守取代(例如对具有相似的疏水性特征的整个区域进行取代)为众所周知的。可在本文所述的任一种测定中对包含保守氨基酸取代的多肽进行测试，以确定天然多肽或参照多肽的期望活性得以保留(例如，对负荷多肽进行定位的能力)。本领域所公知提供功能上相似的氨基酸的保守取代表。除多态性变体、种间同源物和等位基因以外，此类保守修饰变体还与本公开相符，并且并未排除多态性变体、种间同源物和等位基因。代表性的相互的保守取代包括：1)丙氨酸(A)、甘氨酸(G)；2)天冬氨酸(D)、谷氨酸(E)；3)天冬酰胺(N)、谷氨酰胺(Q)；4)精氨酸(R)、赖氨酸(K)；5)异亮氨酸(I)、亮氨酸(L)、甲硫氨酸(M)、缬氨酸(V)；6)苯丙氨酸(F)、酪氨酸(Y)、色氨酸(W)；7)丝氨酸(S)、苏氨酸(T)；以及8)半胱氨酸(C)、甲硫氨酸(M)(参见例如Creighton，Proteins，1984)。通常还可用丝氨酸对在维持多肽的适当构象中不涉及的任何半胱氨酸残基进行取代，以改善分子的氧化稳定性并防止异常交联。相反地，可向多肽添加半胱氨酸键，从而改善多肽的稳定性并促进寡聚化。

一般来说，术语“工程化”是指通过人手工操控的方面。例如，当在天然中并不以该顺序相连在一起的两个以上的序列通过人手工操控而以工程化的多聚核苷酸直接彼此连接时，认为该多聚核苷酸为“工程化的”。例如，在本发明的一些实施方式中，工程化的EML标签包含多个定位信号，所述多个定位信号各自天然存在，但在天然状态下不处于相同的转录物中、或者在天然状态下不作为EML包含的剪接位点处于相同的转录物中、和/或在天然状态下不能可操作地连接至负荷多肽(该多肽可操作地连接至EML标签)。本领域技术人员理解且通常实践的是，即使在现有实体上实施实际的操控，工程化的多聚核苷酸的后代和拷贝通常仍称为“工程化的”。

术语“统计学上显著(statistically significant)”或“显著地(significantly)”是指统计显著性，并且通常意味着两个标准差(2SD)或更大的差异。

除了在操作实例中或另有指示的地方以外，本文中所用的表示成分的量或反应条件的全部数值在所有情况下都应该被理解为被术语“约”修饰。与百分比相连使用的术语“约”可意味着±1％。

本文使用的术语“包含/包括(comprising或comprises)”用来表示对方法或组合物而言必要的组合物、方法及其各自的组成部分，并且无论是否必要都仍然对未指定的要素保持开放。

术语“由···组成”是指如本文所述的组合物、方法及其各自的组成部分，而并不包括未在实施方式的描述中提及的任意要素。

本文所使用的术语“基本上由···组成”是指给定实施方式所需的要素。该术语允许存在实质上不影响实施方式的基础和新颖性或功能性特征的要素。

除非上、下文中明确地另有所指，本说明书和所附的权利要求书中使用的单数术语“一(a/an)”和“该/所述(the)”涵盖复数的所指物。相似地，除非上、下文中明确地另有所指，单词“或(or)”旨在包括“和(and)”。尽管与本文所述的方法和材料相似或等同的方法和材料可被用于本公开的实践或试验中，合适的方法和材料在下文中描述。缩写“e.g.”源自拉丁文的例如(exempli gratia)，并且在本文中用于表示非限制性实例。因此，缩写“e.g.”与术语“例如(for example)”同义。

细胞生物学和分子生物学中的常用术语的定义可在如下著作中找到：Robert S.Porter等(著)，The Encyclopedia of Molecular Biology，Blackwell Science Ltd.出版，1994(ISBN 0-632-02182-9)；Benjamin Lewin，Genes X，Jones和Bartlett Publishing出版，2009(ISBN-10:0763766321)；Kendrew等(著)，Molecular Biology and Biotechnology:a ComprehensiveDesk Reference，VCH Publishers,Inc.出版，1995(ISBN 1-56081-569-8)；以及Current Protocols in Protein Sciences 2009，Wiley Intersciences，Coligan等著。

除非另有说明，本发明使用标准程序完成，例如，所述标准程序在如下文献中描述：Sambrook等，Molecular Cloning:A Laboratory Manual(第三版)，Cold Spring Harbor Laboratory Press，Cold Spring Harbor，N.Y.，USA(2001)；以及Davis等，Basic Methods in Molecular Biology，Elsevier Science Publishing，Inc.，New York，USA(1995)；或Methods inEnzymology:Guide to Molecular Cloning Techniques，第152卷，S.L.Berger和A.R.Kimmel著，Academic Press Inc.，San Diego，USA(1987)以及Current Protocols in Protein Science(CPPS)(John E.Coligan等著，John Wiley and Sons,Inc.)，以引用的方式将其全部整体并入本文。

本文定义的其它术语处于本发明各方面的描述范围内。

为描述和公开的目的，以引用的方式将本申请全文引用的所有专利和其它出版物(包括参考文献、授权的专利、公布的专利申请、以及共同未决的专利申请)明确并入本文，例如，此类出版物中描述的可与本文所述技术一起使用的方法学。这些出版物仅由于它们的公开早于本申请的申请日而提供。在这一方面不应当视作承认本发明人没有权利借助先前的发明或因为任何其它原因而将公开的内容提前。所有关于这些文件的日期的声明或这些文件的内容的表述是基于申请人可得的信息，并不构成关于这些文件的日期或这些文件的内容的正确性的任何承认。

对本公开内容的实施方式的描述并不打算穷举或将本公开内容限制在所公开的确切形式。尽管本文出于说明目的对本公开内容的具体实施方式和实施例进行了描述，本领域技术人员将会认识到，各种等同修改均有可能落入本公开内容的范围内。例如，虽然方法的步骤或功能以给定顺序示出，但是其它实施方式可以不同的顺序来实施功能、或可大体上同时实施功能。可将本文所提供的本公开内容的教导以适当的方式施用至其它程序或方法。可将本文所述的各种实施方式进行组合以提供进一步的实施方式。如有需要，可对本公开内容的方面进行修改，从而利用上述参考和应用的组合、功能和概念来提供本公开内容更进一步的实施方式。此外，出于生物功能等效性的考虑，可在蛋白结构方面进行一些改变而不会在种类或量方面影响生物活性或化学活性。可根据详细的描述对本公开内容进行上述改变和其它改变。所有此类修改旨在包括于所附权利要求的范围之内。

任何前述实施方式中的具体要素均可进行组合或替代其它实施方式中的要素。此外，尽管与本公开内容的某些实施方式相关的优点已在这些实施方式的上下文中描述，其它实施方式也可表现出此类优点，但不是所有实施方式都必须展现出此类优点才能落入本公开内容的范围内。

通过以下实施例对本文所述的技术进行进一步说明，这些实施例无论如何都不应视为是对本发明的进一步限制。

本文所述技术的一些实施方式可根据以下编号段落中的任一段来限定：

1.一种工程化的多重定位标签，所述标签包含编码至少两种定位信号序列的核酸序列；

其中，各定位信号序列将引导通过可操作地连接的序列编码的多肽定位至不同组的亚细胞区室。

2.如段落1所述的工程化的多重定位标签，其中，所述定位信号序列未被外显子分隔开。

3.如段落1所述的工程化的多重定位标签，其中，所述定位信号序列被具有不超过300个碱基的外显子分隔开。

4.如段落3所述的工程化的多重定位标签，其中，所述外显子包含甘氨酸残基和丝氨酸残基。

5.如段落1-4中任一段所述的工程化的多重定位标签，所述标签进一步包含成组的兼容剪接序列；

其中，所述组包含两个可变剪接供体序列和一个剪接受体序列；

其中，所述两个可变剪接供体序列位于一个定位信号序列的侧翼；以及

所述剪接受体序列位于所述组的两个剪接供体序列的3′。

6.如段落5所述的工程化的多重定位标签，其中，所述组的剪接序列位于第二定位信号的5′。

7.如段落5所述的工程化的多重定位标签，其中，所述组的剪接序列位于第二定位信号的3′。

8.如段落1-7中任一段所述的工程化的多重定位标签，所述标签进一步包含成组的兼容剪接序列；

其中，所述组包含两个可变剪接受体序列和一个剪接供体序列；

其中，所述两个可变剪接受体序列位于定位信号序列侧翼；以及

所述剪接供体序列位于所述组的两个剪接受体序列的5′。

9.如段落8所述的工程化的多重定位标签，其中，所述组的剪接序列位于第二定位信号的3′。

10.如段落8所述的工程化的多重定位标签，其中，所述组的剪接序列位于第二定位信号的5′。

11.如段落5-10中任一段所述的工程化的多重定位标签，其中，成对的可变剪接位点包含弱的剪接位点和强的剪接位点。

12.如段落11所述的工程化的多重定位标签，其中，所述弱的剪接位点位于具有侧翼的定位信号的5′，并且所述强的剪接位点位于具有侧翼的定位信号的3′。

13.如段落11-12中任一段所述的工程化的多重定位标签，其中，成组的兼容剪接位点包含SEQ ID NO:8的弱的剪接供体位点、SEQ ID NO:9的强的剪接供体位点和SEQ ID NO:10的剪接受体位点。

14.如段落11-12中任一段所述的工程化的多重定位标签，其中，成组的兼容剪接位点包含SEQ ID NO:11的剪接供体位点、SEQ ID NO:12的弱的剪接受体位点和SEQ ID NO:13的强的剪接受体位点。

15.如段落1-14中任一段所述的工程化的多重定位标签，其中，所述各定位信号选自于由如下定位信号所组成的组：叶绿体定位信号、过氧化物酶体定位信号、线粒体定位信号、分泌通路定位信号、内质网定位信号以及液泡分泌定位信号。

16.如段落15所述的工程化的多重定位标签，其中，所述叶绿体定位信号包含编码CTPa(SEQ ID NO:1)或与CTPa具有至少90％一致性的多肽的核酸序列。

17.如段落16所述的工程化的多重定位标签，其中，所述叶绿体定位信号包含SEQ ID NO:14的核酸序列或与SEQ ID NO:14具有至少90％一致性的序列。

18.如段落15所述的工程化的多重定位标签，其中，所述叶绿体定位信号包含编码CTPb(SEQ ID NO:6)或与CTPb具有至少90％一致性的多肽的核酸序列。

19.如段落18所述的工程化的多重定位标签，其中，所述叶绿体定位信号包含SEQ ID NO:15的核酸序列或与SEQ ID NO:15具有至少90％一致性的序列。

20.如段落15所述的工程化的多重定位标签，其中，所述过氧化物酶体定位信号包含编码PTS2(SEQ ID NO:2)或与PTS2具有至少90％一致性的多肽的核酸序列。

21.如段落20所述的工程化的多重定位标签，其中，所述过氧化物酶体定位信号包含SEQ ID NO:16的核酸序列或与SEQ ID NO:16具有至少90％一致性的序列。

22.如段落15所述的工程化的多重定位标签，其中，所述过氧化物酶体定位信号包含SEQ ID NO:5。

23.如段落22所述的工程化的多重定位标签，其中，所述过氧化物酶体定位信号包含SEQ ID NO:17的核酸序列或与SEQ ID NO:17具有至少90％一致性的序列。

24.如段落1-23中任一段所述的工程化的多重定位标签，所述标签包含编码如下多肽的核酸序列：SEQ ID NO:3和SEQ ID NO:21-SEQ IDNO:23的任一者的多肽或者与SEQ ID NO:3和SEQ ID NO:21-SEQ IDNO:23的任一者具有至少90％一致性的多肽。

25.如段落24所述的工程化的多重定位标签，其中，所述标签包含SEQ ID NO:18的核酸序列或与SEQ ID NO:18具有至少90％一致性的序列。

26.如段落1-23中任一段所述的工程化的多重定位标签，所述标签包含SEQ ID NO:4和SEQ ID NO:24-SEQ ID NO:26的任一者的序列或与SEQ ID NO:4和SEQ ID NO:24-SEQ ID NO:26的任一者具有至少90％一致性的序列。

27.如段落26所述的工程化的多重定位标签，其中，所述标签包含SEQ ID NO:19的核酸序列或与SEQ ID NO:19具有至少90％一致性的序列。

28.如段落1-23中任一段所述的工程化的多重定位标签，其中，第一定位信号包含于第二定位信号内。

29.如段落28所述的工程化的多重定位标签，其中，所述第一定位信号取代了相当于SEQ ID NO:6的第37-46位残基的氨基酸。

30.如段落29所述的工程化的多重定位标签，所述标签包含SEQ IDNO:7的序列或与SEQ ID NO:7具有至少90％一致性的序列。

31.如段落30所述的工程化的多重定位标签，所述标签包含SEQ IDNO:20的核酸序列或与SEQ ID NO:20具有至少90％一致性的序列。

32.一种载体，所述载体包含段落1-31中任一段所述的工程化的多重定位标签。

33.如段落32所述的载体，其中，所述工程化的多重定位标签整体位于编码肽的可操作地连接的序列或克隆位点的一个侧翼。

34.如段落33所述的载体，其中，所述工程化的多重定位标签位于编码多肽的可操作地连接的序列的5′。

35.工程化的细胞或生物体，所述工程化的细胞或生物体包含段落1-31中任一段所述的工程化的多重定位标签、或者段落32-34中任一段所述的载体。

36.一种核酸分子，所述核酸分子具有如下序列或者具有编码如下序列多肽的序列：SEQ ID NO:28-SEQ ID NO:87的任一者、或者与SEQ IDNO:28-SEQ ID NO:87的任一者具有至少90％一致性的序列。

37.一种载体，所述载体包含段落36所述的核酸分子。

38.工程化的细胞或生物体，所述工程化的细胞或生物体包含段落36所述的核酸分子或者段落37所述的载体。

实施例

实施例1：通过工程化的可变剪接和嵌入信号靶向入植物中的多区室蛋白

植物生物工程需要用于预测异源蛋白向多个亚细胞位置定位的简单的基因装置。

本实施例描述的是用于多区室定位的新的杂合信号序列，以及当融合至本氏烟草(Nicotiana benthamiana)叶组织中的GFP时的该信号序列功能的表征。TriTag-1和TriTag-2使用可变剪接以生成差异化定位的GFP异构体，将该异构体定位至叶绿体、过氧化物酶体和细胞质基质。TriTag-1示出靶向于叶绿体被膜的偏向，而TriTag-2优先靶向于过氧化物酶体。TriTag-3向叶绿体转运肽内嵌入保守的过氧化物酶体靶向信号，将GFP引导至叶绿体和过氧化物酶体。

本文所述的信号序列可降低克隆的量以及将异源蛋白靶向至例如植物组织中的多个位置所需的DNA构建体的大小。该工作利用可变剪接和信号嵌入，所述可变剪接和信号嵌入用于以来自单个基因构建体的多功能蛋白对植物进行工程化。

缩写列表：PTS2，过氧化物酶体靶向信号2；TTL，拟南芥甲状腺素运载蛋白样S-尿囊素合酶基因；CTP，叶绿体靶向肽；PIMT2，拟南芥蛋白-L-异天冬氨酸甲基转移酶基因；CTPa，来自PIMT2的叶绿体靶向肽；rbcS1，马铃薯核酮糖-1,5-二磷酸羧化酶(RuBisCO)小亚基基因；CTPb，来自rbcS1的叶绿体靶向肽；SmGFP，可溶的经修饰的绿色荧光蛋白。

背景

植物细胞包含许多不同的区室，所述区室分享一些重叠的功能，或者在功能上与代谢通路和发育相关。为能够使复杂的代谢工程化，植物工程师需要将单个转基因引导至多个区室的手段。例如，重新构建的光呼吸(Kebeish等，2007；Maier等，2012)和类异戊二烯合成(Kumar等，2012；Sapir-Mir等，2008)将同时涉及叶绿体和过氧化物酶体。大量的合成N端和C端延伸区使得能够容易地将异源蛋白靶向至期望的亚细胞区室(例如叶绿体、过氧化物酶体、线粒体、内质网或核)。围绕蛋白靶向的问题已在如下方面提出：(1)以协调的方式研究蛋白功能(Hooks等，2012；Zhang和Hu，2010)；(2)改进整体的植物代谢工程化的努力(Baudisch和2012；和Silva-Filho，2011；Severing等，2011)以及(3)提高分子农业和其它蛋白工厂应用获得的产量(Hyunjong等，2006)。

将蛋白靶向至多于一个位置的一种方式涉及克隆多个基因拷贝，个拷贝包含不同的定位肽。各拷贝必须通过连续的再转化或者通过回交的单次转化引入(Que等，2010)。这些程序为时间密集型，并产生具有多个空间上分离(distinct)的蛋白表达盒拷贝的转化体。由于依赖于环境的调控效应和/或基于同源性的沉默，可能不能确保协调表达(Dafny-Yelin和Tzfira，2007)。虽然可替代性地通过添加第二定位肽实现对一些细胞器的双重靶向(Hyunjong等，2006)，该方式受限于可由可利用的N端和C段延展区产生的可能的组合。

本文描述的是用于将转基因蛋白靶向至多个细胞器的简单技术，所述细胞器特别是叶绿体、过氧化物酶体和细胞质基质。由于如下原因对该细胞器组合特别感兴趣：该组合具有的与光呼吸、类异戊二烯的生物合成、β-氧化和其它代谢过程的密切的功能相关(Baker等，2006；Peterhansel等，2010；Sapir-Mir等，2008)。

结果

用于通过可变剪接进行的多区室定位的设计：TriTag-1和TriTag-2。为构建TriTag-1和TriTag-2，从蛋白-L-异天冬氨酸甲基转移酶(PIMT2，At5g50240)获取叶绿体靶向区域(CTPa)。PIMT2是广泛存在的修复蛋白，将衰老的多肽中暴露的异天冬氨酸残基转化为天冬氨酸或天冬酰胺残基(Dinkins等，2008；Lowenson和Clarke，1992)。由PIMT2产生的多种mRNA通过可变转录起始位点和可变剪接事件生成(Dinkins等，2008)。当保留靶向序列时，由3′转录起始位点产生的剪接型将蛋白靶向至叶绿体；当不存在靶向序列时，剪接型将蛋白靶向至细胞质。

含有RLx5HL九肽的过氧化物酶体靶向序列PTS2(Lanyon-Hogg等，2010)获取自甲状腺素运载蛋白样S-尿囊素合酶基因(TTL；At5g58220)。该合酶催化尿囊素生物合成通路中的两个步骤(Reumann等，2007)。由内部的可变受体交接处(acceptor junctions)，从TTL生成至少两种剪接型。如果翻译的蛋白保留内部的PTS2位点，所述翻译的蛋白靶向至过氧化物酶体；如果移除该PTS2位点，则翻译的蛋白靶向至细胞质基质(Reumann等，2007)。

利用从上述基因获得的序列，设计两种使用可变剪接将GFP靶向至叶绿体、过氧化物酶体和/或细胞质基质的新的5′蛋白标签(TriTag-1和TriTag-2)(图1A-图1D)。TriTag-1含有如下顺序的元件：含有起始密码子的PIMT2短序列、位于CTPa侧翼的两个可变剪接供体位点、单个受体位点、编码甘氨酸残基和丝氨酸残基的短的外显子、单个供体位点、位于TTL基因的PTS2侧翼的两个可变受体位点(图1A、图1C)。在TriTag-2中，颠倒从PIMT2基因和TTL基因获取的序列的位置(图1B、图1D)。

将两种标签设计为使得两个可变剪接事件各自独立发生。作为结果，期望编码细胞质蛋白、过氧化物酶体蛋白和细胞质定位的蛋白的mRNA。

用于通过信号嵌入进行的双重靶向的设计：TriTag-3。为利用单个N端延伸区靶向至两个细胞内位置，将过氧化物酶体靶向序列嵌入叶绿体靶向序列内(TriTag-3，图2B、图2D)。将PTS2RLx5HL九肽置于来自核酮糖-1,5-二磷酸羧化酶(RuBisCO)小亚基rbcS1的叶绿体靶向区域内(CTPb，图2A、图2C，GenBank：X69759.1)(Fritz等，1991)，取代CTP中保守性差的片段，根据预测，所述保守性差的片段形成未折叠片段(通过ROSTLAB服务器(Schlessinger等，2006)上的PROFbval进行确定)。特别是，最接近于蛋白N端的氨基酸在对靶向至叶绿体与靶向至线粒体之间进行区分时最有效。

对拟南芥的叶绿体靶向蛋白的研究表明，CTPs朝着C端的方向的保守性减弱(Bhushan等，2006；Sadler等，1989)。基于这些发现，将PTS2在第40个氨基酸处嵌入。所得到的靶向肽TriTag-3保持了在柔性方面与天然CTPb相似的预测结构。使用TargetP(Emanuelsson等，2007)和PeroxisomeDB 2.0(Schluter等，2009)确定了含有N端TriTag-3延伸区的蛋白将靶向至过氧化物酶体和叶绿体。

在瞬时测定中的GFP对照的亚细胞定位。使用用于瞬时表达的弹道粒子递送系统(Bio-Rad Helios Gene Gun)，在本氏烟草叶的表皮细胞中对TriTag-GFP融合物的靶向性质进行测试。瞬时表达对于研究体内的可变剪接是有用的(Reddy等，2012；Stauffer等，2010)。表达受到组成型启动子PENTCUP2和胭脂氨酸合酶(NOS)终止子信号(Coutu等，2007)的控制。在粒子递送48-96小时后利用共聚焦显微镜(Leica SP5XMP，Buffalo Grove，IL 60089，美国)获取图像(数据未示出)。将经转染的叶组织中的亚细胞荧光定位图案与如下进行比较：叶绿素自发荧光；定位至细胞质基质和核的不具标签的GFP(数据未示出，也可参见Li等，2010)；融合至马铃薯RuBisCO蛋白rbcS1的天然叶绿体靶向肽的GFP(Kebeish等，2007)(数据未示出)；以及经由杆状病毒递送的过氧化物酶体靶向的GFP(BacMam 2.0CellLight Peroxisome-GFP，Cat No.C10604，Life Technologies，Carlsbad，CA；数据未示出)。

TriTag-1和TriTag-2融合的GFP的亚细胞定位。TriTag-1和TriTag-2示出对细胞质以及核、叶绿体和过氧化物酶体的定位(数据未示出)。TriTag-1-GFP的瞬时表达产生细胞质基质定位和叶绿体定位，通过转染细胞中的叶绿素共定位而推知叶绿体定位。观察到另外的点状染色并不对应于叶绿体，而是与用过氧化物酶体靶向的BacMam载体(数据未示出)观察到的染色相似，并归因于过氧化物酶体靶向。瞬时表达的TriTag-2-GFP(数据未示出)展示出细胞质基质定位和核定位、以及表明高水平的过氧化物酶体靶向和叶绿体中的较低的信号的明亮的点状图案。总体来说，TriTag-1优先将GFP定位至叶绿体，而TriTag-2将该蛋白定位至过氧化物酶体，对细胞质和核具有相似的靶向。

融合至GFP的TriTag-3的亚细胞定位。瞬时表达TriTag-3-GFP的本氏烟草叶的表皮细胞展示出叶绿体定位和点状的过氧化物酶体定位(数据未示出)。基本上在细胞质基质中未观察到GFP。该观察表明杂合的叶绿体/过氧化物酶体靶向序列由相应的定位系统有效地识别，并且用TriTags 1和2观察到的细胞质定位和核定位可能是由于mRNA剪接从而使TriTags 1和2缺少过氧化物酶体靶向序列和叶绿体靶向序列。

讨论

本文描述了用于将单个转基因蛋白定位至例如植物中的多个细胞区室的策略。N端靶向序列中的变化通过可变剪接编码，这对于DNA转染的量来说是极为经济的。此外，通过带有叶绿体靶向序列和过氧化物酶体靶向序列的元件的二义性的N端信号实现了双重靶向。为协调叶绿体、过氧化物酶体和细胞质基质靶向而设计了短的N端元件的三种不同实例，称为“TriTags”。通过组合编码可变剪接mRNA的DNA而设计出TriTag-1和TriTag-2(图1A-图1D)，所述TriTag-1和TriTag-2将编码的蛋白引导至叶绿体和细胞质(Dinkins等，2008)、或者过氧化物酶体和细胞质(Reumann等，2007)。TriTag-3(图2A-图2D)不依赖于可变剪接，并且由如下叶绿体靶向序列组成，在所述叶绿体靶向序列中的天然非结构化(unstructured)的部分被过氧化物酶体靶向序列替换(Silva-Filho，2003)。

TriTags在体内起到对本氏烟草叶的表皮细胞中的GFP进行靶向的作用(图3)。将TriTags的共聚焦图像与不具标签的GFP对照、用于叶绿体的衍生自Rubisco的定位信号、靶向至过氧化物酶体的杆状病毒系统进行比较。通过标准的弹道转染将质粒DNA递送入叶细胞中。将不具标签的GFP定位至细胞质和核，同时由于核孔具有大的水性通道(允许高达70kD的分子进入)而预期到一些核定位。TriTag-1和TriTag-2介导GFP在叶绿体、过氧化物酶体和细胞质(以及核)中的表达，TriTag-1示出相对于过氧化物酶体略微更偏好叶绿体，TriTag-2示出相反的行为。TriTag-3介导针对过氧化物酶体和叶绿体的强的定位，然而对于细胞质而言检测不到。这些行为表明生成全部三种可变剪接的mRNA形式(图3)。

光呼吸通路的重新构建(Kebeish等，2007)表明此类多靶点元件的潜在效用。通常在光呼吸过程中，乙醇酸在叶绿体中生成，并随后转运入细胞质中，然后进入过氧化物酶体中，在过氧化物酶体中乙醇酸在依赖于O₂的反应中氧化为乙醛酸。氧气而非作为氧化剂的NAD(P)+的还原代表着还原当量和能量的浪费。Kebeish等将植物进行工程化，以在叶绿体中表达依赖于NAD+的细菌乙醇酸代谢通路，并发现其增强了光照受限的拟南芥的生长。在该情况下，所加入的细菌通路与乙醇酸从叶绿体向细胞质中的转运相竞争。该通路在细胞质和过氧化物酶体中的表达可进一步增加乙醇酸的量，所述乙醇酸在该更有效的通路加以代谢。

本文所述的结果还表明，能够以直接的方式对可变剪接系统进行工程化。

植物代谢工程在时间和资源方面仍需要巨大的努力。该领域需要用于以多功能蛋白转化植物的简单且有效的技术。本文展示了可将可变剪接工程化，以将单个转基因靶向至多个位置(例如，线粒体、细胞质基质和过氧化物酶体)。此外，展示了嵌入叶绿体信号中的过氧化物酶体信号允许转基因的双重靶向。这些装置可减少花费在植物代谢工程化上的时间和资源。

方法

菌株和质粒。使用大肠杆菌K12菌株(NEB Turbo，New EnglandBiolabs)作为用于针对二元载体的克隆工作的质粒宿主，所述二元载体用于瞬时表达和/或稳定基因组整合。用传统的克隆方法(Sambrook和Russell，2001)、BglBricks(Anderson等，2010)、BioBricks(Knight，2003)或Gibson组装(Gibson assembly)(Gibson，2011)构建质粒(表1)。使大肠杆菌K12细胞在带有合适的抗生素(100μg/mL卡那霉素)的Luria-Bertani培养基中生长。

TriTag合成和克隆。使用Gibson组装合成TriTag-1、TriTag-2和TriTag-3(GeneBlocks，IDT，Coralville，IA)，并克隆入可溶的经修饰的GFP(smGFP)的框内5′。该经修饰的GFP包含三种定点突变，所述定点突变增加蛋白的溶解性和荧光强度(Davis和Vierstra，1998)。基于用NetPlantGene(Hebsgaard等，1996)进行的剪接位点预测，本发明人预测了编码含有叶绿体靶向区域、过氧化物酶体靶向区域或无上述两个靶向区域的GFP变体的TriTag-1和TriTag-2的经处理的剪接型。除使用NetPlantGene发现的那些剪接型以外的剪接型将掺入终止密码子或缺少细胞器靶向信息，分别导致提前的翻译或仅靶向至细胞质基质。

植物材料。将所有的植物在16-20℃下以16/8h的光照/黑暗周期孵育并每周两次浇水。在使用前45min将基于泥煤的无土培养基(Metromix，SunGro Horiculture，Vancouver，加拿大)进行高压灭菌处理。收集来自3-5月龄的本氏烟草幼苗植物的叶子用于轰击。

弹道递送。根据制造商关于使用Helios基因枪(Bio-Rad，Hercules，CA)的说明根据如下制备用于弹道递送的DNA-金粒子复合物：将含有加标签的GFP基因的质粒DNA(50μg)在处于亚精胺(100μL，0.05M)和CaCl₂(100μL，1.0M)的混合物中的1μm金粒子(6-8mg)上制粒，并重悬于聚乙烯吡咯烷酮/EtOH溶液(5.7mg/mL)中。将获得的悬液沉积在Tygon塑料管(o.d.＝2mm)的内表面，并借助于Tubing Prep Station(Bio-Rad，Hercules，CA)切割成子弹。在4℃下干燥后，子弹可在稳定至多6个月。使用Helios基因枪(Bio-Rad，Hercules，CA)在150-250psi He下对本氏烟草叶的下侧面进行生物弹道学(biolistically)转化(Woods和Zito，2008)。将叶置于培养皿中的湿滤纸上，并在环境光线和室温下在实验台上存放48小时后进行成像分析。

靶向对照蛋白。正如所预测的，示出不具标签的smGFP的对照蛋白在细胞质基质和核中广泛分布(数据未示出)，然而并未分布于构成大部分植物细胞体积的液泡中。该定位模式与之前的不具标签的GFP定位研究相符(Li等，2010)。通过融合至天然的叶绿体的马铃薯RuBisCO蛋白rbcS1(Kebeish等，2007)靶向肽的GFP的瞬时表达，确定细胞质基质和叶绿体的定位对照(数据未示出)。

BacMam染色。制备24μL处于2.5mL 0.1％Triton X-100中的BacMam过氧化物酶体染料(BacMam 2.0 CellLight Peroxisome-GFP，Cat.No.C10604，Life Technologies，Carlsbad，CA)的溶液、以及BacMam转导对照染料(Cat.No.B10383)和无染料对照的相似溶液。将本氏烟草叶的3毫米切片在溶液中孵育过夜，并通过共聚焦显微镜成像。虽然BacMam 2.0(Life Technologies)杆状病毒过氧化物酶体GFP染料被设计用于哺乳动物细胞，已表明它可用于植物组织(Takemoto等，2003)。具有经转染的BacMam本氏烟草叶组织的图像表现出过氧化物酶体的分布、大小和形状(数据未示出)。

预测软件。使用NetPlantGene服务器(Hebsgaard等，1996)预测TriTag-1和TriTag-2序列内的剪接点。使用TargetP(Emanuelsson等，2007)和PeroxisomeDB 2.0(Schluter等，2009)预测TriTag-1和TriTag-2的剪接变体以及TriTag-3对叶绿体和过氧化物酶体的靶向。在ROSTLAB服务器(Schlessinger等，2006)上，使用PROFbval确定CTPb和TriTag-3的肽结构。

成像和处理。将经轰击的叶切成小块并置于载玻片上的0.1％Triton-X100中，通过使用40×水基物镜(数值孔径1.10)的荧光共聚焦显微镜(在489nm下激发，在500-569nm下检测GFP，在630-700nm下检测叶绿素自发荧光)进行成像。

参考文献

Anderson，J.C.，Dueber，J.E.，Leguia，M.，Wu，G.C.，Goler，J.A.，Arkin，A.P.&Keasling，J.D.(2010).BglBricks：A flexible standard for biological part assembly.Journal of biologicalengineering 4，1.Department of Bioengineering，University of California，Berkeley，CA 94720，USA.Baker，A.，Graham，I.a，Holdsworth，M.，Smith，S.M.&Theodoulou，F.L.(2006).Chewing the fat：beta-oxidation in signalling and development.Trends in plant science 11，124-32.

Baudisch，B.&R.B.(2012).Dual targeting of a processing peptidase into bothendosymbiotic organelles mediated by a transport signal of unusual architecture.Molecular plant 5，494-503.

Bhushan，S.，Kuhn，C.，Berglund，A.-K.，Roth，C.&Glaser，E.(2006).The role of the N-terminaldomain of chloroplast targeting peptides in organellar protein import and miss-sorting.FEBS letters580，3966-72.

M.M.&Silva-Filho，M.C.(2011).Evolutionary history of Arabidopsis thaliana aminoacyl-tRNA synthetase dual-targeted proteins.Molecular biology and evolution 28，79-85.Coutu，C.，Brandle，J.，Brown，D.，Brown，K.，Miki，B.，Simmonds，J.&Hegedus，D.D.(2007).pORE：amodular binary vector series suited for both monocot and dicot plant transformation.Transgenicresearch 16，771-781.

Dafny-Yelin，M.&Tzfira，T.(2007).Delivery of multiple transgenes to plant cells.Plant physiology145，1118-28.

Davis，S.J.&Vierstra，R.D.(1998).Soluble，highly fluorescent variants of green fluorescent protein(GFP)for usc in higher plants.Plant molecular biology 36，521-8.

Dinkins，R.D.，Majee，S.M.，Nayak，N.R.，Martin，D.，Xu，Q.，Belcastro，M.P.，Houtz，R.L.，Beach，C.M.&Downie，A.B.(2008).Changing transcriptional initiation sites and alternative 5’-and 3′-splice site selection of the first intron deploys Arabidopsis protein isoaspartyl methyltransferase2variants to different subcellular compartments.The Plant journal：for cell and molecular biology 55，1-13.

Emanuelsson，O.，Brunak，S.，Von Heijne，G.&Nielsen，H.(2007).Locating proteins in the cell usingTargetP，SignalP and related tools.Nature protocols 2，953-71.

Fritz，C.C.，Herget，T.，Wolter，F.P.，Schell，J.&Schreier，P.H.(1991).Reduced steady-state levelsof rbcS mRNA in plants kept in the dark are due to differential degradation.Proceedings of theNational Academy of Sciences of the United States of America 88，4458-62.

Gibson，D.G.(2011).Enzymatic assembly of overlapping DNA fragments.Methods in enzymology498，349-61.

Hebsgaard，S.M.，Korning，P.G.，Tolstrup，N.，Engelbrecht，J.，Rouzé，P.&Brunak，S.(1996).Splicesite prediction in Arabidopsis thaliana pre-mRNA by combining local and global sequenceinformation.Nucleic acids research 24，3439-52.

Hooks，K.B.，Turner，J.E.，Graham，I.a，Runions，J.&Hooks，M.a.(2012).GFP-tagging ofArabidopsis acyl-activating enzymes raises the issue of peroxisome-chloroplast import competitionversus dual localization.Journal of plant physiology 169，1631-8.

Hyunjong，B.，Lee，D.-S.&Hwang，1.(2006).Dual targeting of xylanasc to chloroplasts andperoxisomes as a means to increase protein accumulation in plant cells.Journal of experimentalbotany 57，161-9.

Kebeish，R.，Niessen，M.，Thiruveedhi，K.，Bari，R.，Hirsch，H.-J.J.，Rosenkranz，R.，N.，B.，Kreuzaler，F.&C.(2007).Chloroplastic photorespiratory bypassincreases photosynthesis and biomass production in Arabidopsis thaliana.Nature biotechnology 25，593-9.

Knight，T.(2003).Idempotent Vector Design for Standard Assembly of Biobricks.MIT ArtificialIntelligence Laboratory；MIT Synthetic Biology Working Group 1-11.

Kumar，S.，Hahn，F.M.，Baidoo，E.，Kahlon，T.S.，Wood，D.F.，McMahan，C.M.，Cornish，K.，Keasling，J.D.，Daniell，H.&Whalen，M.C.(2012).Remodeling the isoprenoid pathway in tobaccoby expressing the cytoplasmic mevalonate pathway in chloroplasts.Metabolic engineering 14，19-28.Lanyon-Hogg，T.，Warrincr，S.L.&Baker，A.(2010).Getting a camel through the eye of a needle：the import of folded proteins by peroxisomes.Biology of the cell/under the auspices of the EuropeanCell Biology Organization 102，245-63.

Li，F.，Liu，W.，Tang，J.，Chen，J.，Tong，H.，Hu，B.，Li，C.，Fang，J.，Chen，M.&Chu，C.(2010).RiceDEN SE AND ERECT PANICLE 2 is essential for determining panicle outgrowth and elongation.Cell research 20，838-849.

Lowenson，J.D.&Clarke，S.(1992).Recognition of D-aspartyl residues in polypeptides by theerythrocyte L-isoaspartyl/D-aspartyl protein methyltransferase.Implications for the repair hypothesis.The Journal of biological chemistry 267，5985-95.

Maier，A.，Fahnenstich，H.，Von Caemmerer，S.，Engqvist，M.K.M.，Weber，A.P.M.，Flügge，U.-I.&Maurino，V.G.(2012).Transgenic Introduction of a Glycolate Oxidative Cycle into A.thalianaChloroplasts Leads to Growth Improvement.Frontiers in plant science 3，38.

Peterhansel，C.，Horst，I.，Niessen，M.，Blume，C.，Kebeish，R.，Kürkcüoglu，S.&Kreuzaler，F.(2010).Photorespiration.In The Arabidopsis book，p.e0130.American Society of Plant Biologists.Que，Q.，Chilton，M.-D.M.，De Fontes，C.M.，He，C.，Nuccio，M.，Zhu，T.，Wu，Y.，Chen，J.S.&Shi，L.(2010).Trait stacking in transgenic crops：challenges and opportunities.GM crops 1，220-9.

Reddy，A.S.N.，Rogers，M.F.，Richardson，D.N.，Hamilton，M.&Ben-Hur，A.(2012).Decipheringthe plant splicing code：experimental and computational approaches for predicting alternative splicingand splicing regulatory elements.Frontiers in plant science 3，18.

Reumann，S.，Babujee，L.，Ma，C.，Wienkoop，S.，Siemsen，T.，Antonicelli，G.E.，Rasche，N.，Lüder，F.，Weckwerth，W.&Jahn，O.(2007).Proteome analysis of Arabidopsis leaf peroxisomes revealsnovel targeting peptides，metabolic pathways，and defense mechanisms.The Plant cell 19，3170-3193.

Sadler，I.，Chiang，A.，Kurihara，T.，Rothblatt，J.，Way，J.&Silver，P.(1989).A yeast gene importantfor protein assembly into the endoplasmic reticulum and the nucleus has homology to Dna J，anEscherichia coli heat shock protein.The Journal of cell biology 109，2665-75.

Sambrook，J.&Russell，D.W.(2001).Molecular Cloning：A Laboratory Manual.Cold SpringHarbor，New York：Cold Spring Harbor Laboratory Press，3rd edn.(J.Sambrook&D.W.Russell，Eds.).Cold Spring Harbor，New York：Cold Spring Harbor Laboratory Press.

Sapir-Mir，M.，Mett，A.，Belausov，E.，Tal-Meshulam，S.，Frydman，A.，Gidoni，D.&Eyal，Y.(2008).Peroxisomal localization of Arabidopsis isopentenyl diphosphate isomerases suggests that part of theplant isoprenoid mevalonic acid pathway is compartmentalized to peroxisomes.Plant physiology 148，1219-28.

Schlessinger，A.，Yachdav，G.&Rost，B.(2006).PROFbval：predict flexible and rigid residues inproteins.Bioinformatics(Oxford，England)22，891-3.

Schluter，a.，Real-Chicharro，A.，Gabaldon，T.，Sanchez-Jimenez，F.&Pujol，A.(2009).

PeroxisomeDB 2.0：an integrative view of the global peroxisomal metabolome.Nucleic AcidsResearch 38，D800-D805.

Severing，E.I.，Van Dijk，A.D.&Van Ham，R.C.(2011).Assessing the contribution of alternativesplicing to proteome diversity in Arabidopsis thaliana using proteomics data.BMC plant biology 11，82.Applied Bioinformatics，Plant Research International，PO Box 619，6700 AP Wageningen，TheNetherlands.

Stauffer，E.，Westermann，A.，Wagner，G.&Wachter，A.(2010).Polypyrimidine tract-binding proteinhomologues from Arabidopsis underlie regulatory circuits based on alternative splicing anddownstream control.The Plant journal：for cell and molecular biology 64，243-55.

Takemoto，D.，Jones，D.A.&Hardham，A.R.(2003).GFP-tagging of cell components reveals thedynamics of subcellular re-organization in response to infection of Arabidopsis by oomycetepathogens.The Plant journal：for cell and molecular biology 33，775-92.

Woods，G.&Zito，K.(2008).Preparation of gene gun bullets and biolistic transfection of neurons inslice culture.Journal of visualized experiments：JoVE 10-13.

Zhang，X.&Hu，J.(2010).The Arabidopsis chloroplast division protein DYNAMIN-RELATEDPROTEIN5B also mediates peroxisome division.The Plant cell 22，431-42.

表1：本研究中构建的质粒

实施例2：通过可变剪接和嵌入信号在植物中进行的靶向多区室，以减少所生成的克隆量

植物细胞含有多个与膜结合的区室，包括细胞质、核、线粒体、叶绿体和过氧化物酶体、以及细胞外间隙。这些区室中的一些通过多重膜限定，并可进一步再分为膜间隙和最内的区域。通常使用靶向序列实现蛋白向这些不同间隙的靶向，所述靶向序列通常被发现位于蛋白的N端。这些靶向序列通常在定位过程中通过蛋白水解移除。

在一些实施方式中，本文所述的技术涉及将蛋白靶向至植物细胞内的多个区室。例如，在代谢工程过程中，可能有用的是将外源通路引入多个区室中，在实质上复制通路。原则上，可通过将特定的靶向序列置于编码序列的上游，并创建用于待靶向的各区室的复制构建体实现这一点。

例如，如果期望在细胞质、叶绿体和过氧化物酶体中表达酶，可生成三种分开的DNA构建体：带有包含所述酶的编码序列的基因的一种构建体；带有前面为叶绿体靶向信号的基因的第二构建体；带有前面为过氧化物酶体靶向序列的基因的第三构建体。在实践中，由于涉及对启动子和3′端区域以及酶的编码序列的复制，该方式通常并不是期望的。在期望将多种蛋白引入多个区室的情况下，由于针对可易于构建的质粒大小的限制、可被一次转移入植物中的DNA量的限制以及质粒中可能存在的重复的DNA元件之间的潜在的重组，该方式尤其是不期望的。

本文所述技术的一个有利之处在于避免了此类复制。根据本文所述的技术，可通过引入编码用于不同亚细胞区室的多重定位序列的短的DNA元件，由此表达待通过基因工程在植物细胞的多个区室中表达的给定蛋白。可通过内含子和可变剪接系统将这些编码序列分开，从而不同的经剪接的mRNA将具有数个可能的靶向序列中的单个、或者没有靶向序列从而使蛋白定位至细胞质。或者，可编码单个蛋白编码序列，从而在功能上可获得多重靶向序列，或可通过多重定位系统识别单个靶向序列。可将靶向元件置于待靶向编码序列的5′端、3′端或内部。置于内部的标签例如可位于宿主蛋白的螺旋打开区域(例如暴露至周围的细胞质基质溶液或细胞器溶液的区域)。

在拟南芥细胞中在多个区室中表达乙醇酸脱氢酶。

光呼吸是植物的生化过程，该过程由Rubisco(核酮糖二磷酸羧化酶/加氧酶，Ribulose bisphosphate carboxylase/oxygenase)与氧气而非二氧化碳的反应起始。特别是，氧气与核酮糖1,5-二磷酸反应生成3-磷酸甘油酸和2-磷酸乙醇酸。后一种化合物不是代谢的必要部分，并且必须回收，否则所含的碳和磷会损失。该通路以磷酸乙醇酸到乙醇酸的去磷酸化起始，将乙醇酸转化为乙醛酸，并随后是复杂的乙醛酸穿梭，在返回前乙醛酸的代谢物穿过多种细胞区室。

天然的磷酸乙醇酸回收通路的不经济之处在于，利用氧气而不是NAD⁺或NADP⁺作为电子受体。Kebeish等(Nature Biotech 25[5]:593-9)展示了如果将植物工程化以在叶绿体中表达细菌的NAD依赖型乙醇酸脱氢酶，植物能够生长更快。据认为，在未工程化的植物中，将乙醇酸从叶绿体转运至细胞质中，随后从细胞质转运至过氧化物酶体中，在过氧化物酶体中乙醇酸氧化酶将乙醇酸转化为乙醛酸。Kebeish等的结果的一个暗示在于，当在叶绿体中人工产生时，乙醛酸可能被转运入过氧化物酶体中以进一步代谢。

如本文所述，在经工程化以表达NAD-依赖型乙醇酸脱氢酶的植物中，叶绿体中的乙醇酸向乙醛酸的转变与乙醇酸转运出叶绿体发生竞争。因此，理想的是，除叶绿体外，在细胞质和过氧化物酶体中表达乙醇酸脱氢酶。

按照如下构建用于同时在叶绿体、细胞质和过氧化物酶体中表达大肠杆菌乙醇酸脱氢酶的表达载体。将图1-图2中示出的多重靶向序列TriTag-1、TriTag-2、TriTag-3(分别为SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20)融合至大肠杆菌乙醇酸脱氢酶的三个亚基(分别为SEQID NO:28、SEQ ID NO:29、SEQ ID NO:30)中的每一个。将获得的各基因置于pENTCUP植物启动子的下游、包含多聚腺苷酸化位点的胭脂氨酸合酶终止子nosT 3′端序列的上游。将这三种构建体一起置于单个大质粒中的核支架附着序列之间，所述质粒还含有赋予对除草剂BASTA^TM抗性的选择标记。

应注意的是，现有方法使得必须使用编码乙醇酸脱氢酶亚基的三个基因的各自的三个拷贝。

BASTA^TM抗性拟南芥幼苗为对一个或多个基因座处的经转染的DNA而言的杂合体的原代植物。各幼苗代表独立的转化事件，并推测代表在不同的染色体基因座处的整合。由于预期在一些基因座处的整合处于杂合状态或纯合状态是有害的，许多独立的T1植物自交获得T2株系，其中的1/4对转基因而言是纯合的，在该情况下T1植物含有整合至非必需位点的单个转基因。此类单基因座纯合T2植物在展示本文所述技术的价值方面最为有用，并用于确定哪种具体株系最具商业潜力。

随后，按照标准程序使T2株系自交，从而产生T3植物。T2植物具有如下特征，所述T2植物为纯合的并在单基因座处具有插入物。首先，T2植物的全部后代均对BASTA^TM具有抗性，并含有如同通过Southern印迹或PCR确定的转基因。第二，产生T2植物的T1植物所生成的缺少转基因的植物与含有转基因的植物的比例为1:3。

T3植物在受控条件下生长并互相比较，并与未工程化的拟南芥进行比较。工程化植物的亚群比野生型长得更快。增高的生长速率在短日照条件下尤为明显。此外，以本发明的构建体进行工程化的植物中，乙醇酸脱氢酶在叶绿体、细胞质和过氧化物酶体中表达，与经工程化而仅在叶绿体中表达乙醇酸脱氢酶的植物相比生长更快且积累更多的生物质。

通过免疫荧光染色实现对乙醇酸脱氢酶在叶绿体、细胞质和过氧化物酶体中定位的确认。

在亚麻荠(Camelina sativa)细胞的多个区室中表达乙醇酸脱氢酶。

在相似组的实验中，对其它植物例如亚麻荠、甜菜、小麦和大米进行工程化以表达乙醇酸脱氢酶。由于种子富含植物油，亚麻荠被认为是生产生物燃料的优异作物，并且亚麻荠在北方的气候区(例如波罗的海地区、美国北部和加拿大)生长，在该气候区中的其它生物燃料作物(如甘蔗和玉米)的生长是不可行的。

例如，通过Kushvinov(US专利7,910,803)或Lu等(Plant Cell Rep(2008)27：273-278)的方法对亚麻荠进行转化。值得注意的是，拟南芥和亚麻荠的基因组序列非常相似，并且在一种生物体中可用的表达质粒很可能在另一种中也可用。

实施例3：用于通过在C3植物中增加碳固定并减少光呼吸来增加玉米产量潜力的分子技术

主要粮食作物的供应越来越无法跟上全球粮食需求的上升。提高作物产量潜力的方法主要集中在利用更适合的作物亚种的常规育种和/或将赋予非生物胁抗性的异源蛋白整合至作物。然而，将C3植物的进化轨迹考虑在内的研究表明，可通过增加参与光合作用的分子机制的效率和降低光呼吸来获得实质上增长的产量潜力。这需要对植物细胞中的大量基因进行工程化，并需要定位于细胞内以优化其功能的有效的分子技术。本文描述了通过合成生物学领域启发的方法以应对这些挑战。具体而言，将叶绿体中的基因表达的多顺反子性质用于定位于质体的多个细菌基因表达。进而，通过利用宿主的可变剪接机制解决来自一个转基因的多区室靶向的可能性。这些技术进一步规范和简化了植物中心代谢的工程化，支持针对更大的作物产量的未来努力。

引言

预计到2050年，全球人口将增加至92亿(Clarke和Daniell 2011)。农业产业始终面临有限可用的生物资源(即遗传学资源)和非生物资源(即土地、水和营养)。本领域的创新主要帮助解决导致作物不能达到其最大产量潜力的因素。就大多数的单一种植的经济作物而言，已通过强化的农艺实践和传统的杂交育种来弥补这些产量的差额。虽然此类方法已经并将对未来的世界食品安全有利，进一步的改进将能够证明农业劳动力的知识密集和劳动力密集。随着将巨大的约束置于我们的农业的未来，需要针对可持续的农业的更强有力的方法，例如对作物的固有代谢进行工程化(von Caemmerer，Quick和Furbank 2012)(Peterhansel，Niessen和Kebeish 2008)。可通过使用由合成生物学启发的方法重新构建C₃植物的碳固定和代谢，来提高主要作物的产量上限(Ducat和Silver 2012)。

直至6500万年前，在比起当前大气中发现的CO₂水平(0.04％)更高的CO₂水平下进化出C₃光合作用。在白垩纪-古新世灭绝事件后，CO₂水平以高于植物中的进化响应的速率下降(Zachos等，2001)(Pagani等，2005)。相对突然地，比起O₂，RuBisCO对CO₂的低特异性(催化卡尔文循环的固碳步骤)成为对植物生长而言的强力的约束：在称为光呼吸的过程中，需要显著量的能量来挽救在其上掺入O₂分子的碳(具有仅75％的碳潴留效率)。

虽然大部分植物通过产生大量的RuBisCO(>30％的总植物蛋白)来响应降低水平的CO₂，一些植物进化出回收光呼吸的CO₂的机制(构成植物物种总数的3％的C₄光合作用、景天酸代谢)。虽然已知C₄光合作用在过去独立进化了至少66次，由于需要许多相对复杂的结构改变，此类进化轨迹可能仅在高的RuBisCO加氧酶活性下是可行的(即，高的O₂、干燥且热的气候)(Sage，Sage和Kocacinar 2012)。考虑到气候改变对目前的C₃经济作物的可能影响，实施绕过RuBisCO碳固定步骤而同时尽可能减小由光呼吸造成的碳损失的代谢工程方式。

使用3-羟基丙酸循环增强C₃光合作用。由于其较高的生长速率以及缺少多细胞约束，光合微生物能够以更周密且更广泛的方式响应大气变化，制造出一系列的新的固碳通路，例如还原柠檬酸或Arnon-Buchanan循环(Buchanan和Arnon 1990)、还原乙酰-CoA或Wood-Ljungdahl通路(Ljungdahl、Irion和Wood 1965)、二羧酸/4-羟基丁酸循环(Huber等，2008)、3-羟基丙酸/4-羟基丁酸循环(Berg等，2007)以及3-羟基丙酸双循环(3-HOP)(Zarzycki、Brecht和Müller 2009)(Zarzycki 2011)。除3-HOP通路外，这些微生物通路包括对氧气敏感的酶，并因此仅在厌氧条件下起作用。进而，3-HOP通路并不使用RuBisCO作为初始的固碳步骤，因此增加了固定的催化速率而不与加氧酶反应竞争。

在提高食物和经济作物的产量上限、减少养育增长的人口所需的非生物资源、以及针对经济作物而言缓解对可耕种土地的竞争的背景下，实施3-HOP通路向C₃植物中的工程化。除代替RuBisCO羧化酶反应外，3-HOP通路将在如下中活化：利用柠苹酰通路来分流C₃植物中已存在的光呼吸(参见例如Zarzycki等，2009的图1的右侧环路)，可能性地进一步提高作物产量(Zhu、Long和Ort 2010)。

绿色非硫细菌橙色绿屈挠菌(Chloroflexus aurantiacus)共生性地生活于温泉中，并用独特的不含对氧气敏感的酶的双循环通路固碳(Zarzycki、Brecht和Müller 2009)。认为主要起到乙醇酸/乙醛酸补救通路的作用，该通路允许绿屈挠菌利用通过其蓝藻邻居排出的乙醇酸(Zarzycki和Fuchs，2011)。总而言之，该通路为由13个酶催化的19个反应(Zarzycki等，2009；Zarzycki和Fuchs，2011)。简单来说，乙酰-CoA羧化酶(ACC)以ATP为代价将碳酸氢盐固定至乙酰-CoA(反应1)，释放丙二酰CoA作为中间产物。在消耗3NADPH还原当量和2ATP下，丙二酰-CoA转化为3-羟基丙酸，并随后转化为丙酰-CoA(反应2、反应3)。在此处通路出现旁路。在第一循环中，丙酰-CoA羧化酶(PCC)固定另一碳酸氢盐，生成(S)-甲基丙二酰-CoA。在绿屈挠菌中，表异构酶(反应5)将该中间物转化为(R)-对映体，将该(R)-对映体通过甲基丙二酰-CoA变位酶转化为琥珀酰-CoA(反应6)。移除辅酶A，并利用TCA循环将生成的琥珀酸转化为苹果酸，随后转化为苹果酰-CoA(反应7-反应9)。苹果酰-CoA裂解以再生乙酰-CoA和乙醛酸分子(反应10a)。重复该循环的前三步，乙醛酸与丙酰-CoA结合以形成β-甲基苹果酰-CoA(反应10b)，通过一系列的新的重排以再生乙酰-CoA和丙酮酸(10c-13)。对于通过该双循环的单个完整回路(turn)，使用6个NADPH和5个ATP净固定三个碳酸氢盐离子。

下文进一步阐述利用通路1和4的质体基因组整合来增强C₃光合作用的工程化方式。单独引入通路1和4将构成固碳循环。该循环需要乙醛酸作为底物，所述乙醛酸为一步酶促步骤离开乙醇酸的分子，所述乙醇酸为RuBisCO加氧酶反应的产物(图4)。引入乙醇酸脱氢酶(GDH)将构成完整的光呼吸旁路。

通过细菌乙醇酸脱氢酶的亚细胞靶向使光呼吸分流。最近，Kebeish等通过使来自大肠杆菌的三种酶的乙醇酸通路表达入C₃模式植物拟南芥叶绿体中展示了光呼吸的低效率(Kebeish等，2007)。该通路本质上创建了光呼吸旁路，将来自RuBisCO加氧反应的产物磷酸乙醇酸转化为卡尔文循环的中间产物磷酸甘油酸。经由过氧化物酶体和线粒体减少光呼吸代谢产物流，获得更高的生长速率、更高的可溶性糖含量以及芽和根中的生物量的3倍增加。有趣的是，当仅表达乙醇酸通路-GDH-中的第一个酶的三个亚基，然而处于较低水平时，增加的光合作用和降低的光呼吸同样明显。

Kebeish和同事能够降低、但不能够消除流向过氧化物酶体的光呼吸乙醇酸流。首先，他们试图对转基因的拟南芥进行工程化，所述拟南芥具有通过质体基因组整合而仅定位至叶绿体的GDH。将大肠杆菌GDH加入至已含有3-HOP循环基因的整合质粒。通过加入GDH，在叶绿体内进行光呼吸的第一步，将乙醇酸转化为乙醛酸，使得产物能够由异源表达的3-HOP循环获得(图4)。第二，考虑到从叶绿体经由细胞质流向过氧化物酶体的天然的乙醇酸流，将GDH定位至叶绿体、过氧化物酶体和细胞质，靶向这些区室内的“残余”的乙醇酸的转化(图5)。使用我们的新的TriTag的这一方式将在该工作中进一步描述。

利用3-HOP增强光合作用的质体基因组整合

在数篇综述中描述了通用的质体基因组整合载体的理念(Lutz等，2007)(Verma，2007)。已将设计用于烟草属物种的整合载体用于相关的茄属植物番茄和马铃薯的稳定转化株，然而具有显著更低的效率(Sidorov等，1999)(Ruf等，2001)。为提高转化效率，使用拟南芥质体基因组作为默认参照构建通用的整合载体。

整合载体(图7)由多克隆位点和功能性地表达的卡那霉素抗性盒(负载区)组成，所述卡那霉素抗性的盒侧翼分别具有与拟南芥质体基因组的异亮氨酸tRNA(trnI)和丙氨酸tRNA(trnA)同源的>800个核苷酸。同源重组将产生负载区向处于质体基因组内的该转录活化中性位点(neutral site)中的整合(图6)。高等植物间的trnI和trnA区域同源性的BLAST比较在表2中示出。

表2：多种C₃植物物种的质体基因组间的trnI和trnA的BLAST局部比对比较

功能性表达盒(即，负载区)由拟南芥质体基因组16S核糖体RNA启动子(Prrn)(组成型活化启动子)、后面的用于将感兴趣的基因以多顺反子形式插入的多克隆位点、卡那霉素盒和拟南芥质体基因组光系统B终止子(PsbA-TT)(Carrer等，1993)组成。战略性地将卡那霉素盒(neo)置于多顺反子的末端，以确保在获得的卡那霉素转化体中的整个上游操纵子的转录。

使用Gibson组装从6个部件构建通用的整合载体pMV02。下文进一步描述用于获得各部分的技术和来源。trnI、trnA和psbA区域通过梯度聚合酶链式反应(PCR)从使用DNeasy提取试剂盒(QIAGEN)获得的拟南芥质体DNA得到。对于大肠杆菌中的传统克隆，通过PCR从pUC19扩增含有复制起始点和氨苄青霉素抗性盒的质粒骨架。通过组装PCR从使用Gene2Oligo服务器设计的寡聚核苷酸(<20nt)构建启动子(质体16S rRNA启动子)和MCS。通过PCR扩增从植物整合载体的pORE家族获得卡那霉素盒(Coutu等，2007)。随后，切除pUC19载体骨架中的乳糖启动子，从而产生载体(pMV02)，该载体用于该项目中的3-HOP操纵子插入克隆和质体基因组整合。

通过沉淀至金纳米粒子上，并随后通过递送系统(BioRad)轰击，将载体递送入叶组织的细胞中。由于不能获得PDS1000/HeBiolistics递送装置，一开始使用基因枪将载体递送至本氏烟草叶组织的叶绿体。由于高效的DNA整合和易于操作，通常将烟草物种的成熟叶用于质体基因组转化。

使用PDS1000/He实施第二轮轰击。此处，靶向区域与成熟的本氏烟草叶的大小具有相同的量级，从而产生更高的可能性的稳定的质体转化体。下文给出方案。

当已证实了转化效率，如果需要进一步的改进应该考虑如下几点。(1)使用更高效且有效的质体选择标记。与卡那霉素盒(nptII)相反，此处使用的大观霉素抗性盒(aadA)能提高本氏烟草叶中的转化效率。进而，看起来5′UTR和3′UTR区域在确定选择效率方面比起抗生素选择标记类型起到更大的作用(Lutz等，2007)。由于抗生素抗性标记和除草剂抗性标记在目前的农业政治环境下是不适宜，更倾向于寻找基于无标记的选择，例如光能自养或代谢补偿(Day和Goldschmidt-Clermont2011)。(2)增加用于重组入trnI/trnA质体基因组位点的同源区域的长度。虽然这可能看起来是直觉得到的，然而在一侧上的同源物的长度与由于在一侧上的特异性而易于克隆或降低转化效率之间存在平衡(Lutz等，2007)。

亚细胞靶向以改进光呼吸分流

植物工程领域成功的核心在于工程师能够控制异源酶或蛋白的活性和表达的亚细胞定位的手段。一般来说，蛋白定位标签足以靶向至单个区室，而并不推测为对于工程师而言需要的大量时间和资源。虽然单区室定位可能对于亚群的植物基因的基本的功能表征而言是足够的，更多的证据表明，参与植物细胞器蛋白合成和代谢通路的大量基因向至少两种或更多的区室靶向(Severing、van Dijk和van Ham 2011)(和Silva-Filho 201)(Baudisch和2012)。

实现靶向至多个区室的当前方法涉及添加多重定位标签，这可损害蛋白的功能，并随着靶向区室数量的增加，所需的时间和资源的量极大增加(El Amrani等，2004)。

本文描述了三种EML，称为TriTags，设计的目的在于将转基因的多区室定位标准化。两个元件基于植物细胞的固有能力以从一个基因创建功能多样性：可变剪接。第三元件为基于植物细胞定位机制的特异性：二义性蛋白标签。展示了在瞬时转化的本氏烟草中，融合的绿色荧光蛋白(Aequeora victoria)向细胞质、叶绿体和过氧化物酶体的靶向。如本文其它部分所述，特别考虑将该技术用于最小化C₃植物中的光呼吸。

天然的可变剪接。可变剪接是在真核细胞中频繁发生的mRNA分子在从DNA转录后进行加工的事件(转录后修饰，PTM)。总体来说，该过程使来自mRNA分子的核酸的特定区域(内含子)得以切除。mRNA的剪接通过称为剪接体的RNA和蛋白复合体实施。该通用过程涉及由剪接体识别内含子的5′端的二核苷酸鸟嘌呤和尿嘧啶(GU，供体位点)和3′端的腺嘌呤和鸟嘌呤(AG，受体位点)，随后为中间的核苷酸的切除和两端的组装(Severing、van Dijk和van Ham 2011)。

TriTag-1和TriTag-2的设计：可变剪接中的模块化。序列的第一模块在拟南芥的蛋白-L-异天冬氨酸甲基转移酶(PIMT2)基因的变体和涉及亚细胞定位该机制的上下文中描述(Dinkins等，2008)。RNA产物的体内可变剪接事件提供了PIMT2蛋白的变体，所述变体定位至细胞质或叶绿体。TriTag-1的第二模块在Reumann等(2007)中描述。其中，在双功能的拟南芥甲状腺素运载蛋白样蛋白的剪接版本中阐明了内部功能化的过氧化物酶体靶向信号(PTS2)。通过该保守氨基酸序列(Arg-Leu-X₅-His-Leu(SEQ ID NO:5))介导蛋白向过氧化物酶体的转运，该氨基酸序列一般位于所表达的蛋白的N端。因此，该基因模块提供了定位至过氧化物酶体或细胞质的剪接变体。

组合来看，基因模块1和基因模块2包含基因元件TriTag-1，通过可变剪接，TriTag-1为感兴趣的蛋白提供了定位至叶绿体、过氧化物酶体和细胞质的转运肽(图8)。TriTag-1和TriTag-2使用可变的5′供体位点和可变的3′受体位点。TriTag-1以框架由模块1和其后的模块2组成。这一组合提供了表达带有PTS2和/或CTP的转运肽、和/或无确定的靶信号(引起细胞质定位)的功能性剪接变体。与TriTag-1相似，TriTag-2将模块1与模块2组合，然而TriTag-2以反向排列包含这些模块，其中模块2位于基因元件的5′端(图9)。

TriTag-3设计：重新考虑特异性。如马铃薯rbcS1基因(gi21562)的叶绿体靶向肽区域所示例的，通过特定的氨基酸序列(叶绿体转运肽，CTP)介导蛋白向叶绿体的转运，该特定的氨基酸序列主要由位于N端的疏水侧链以及优选的羟基化的氨基酸(丝氨酸、苏氨酸等)组成。TriTag-3为表达二义性转运肽的合成设计核酸。通过将PTS2一致性序列叠加至马铃薯RuBisCO叶绿体转运肽而设计(图10)。

该二义性转运肽的N端对于叶绿体定位和通过其受体PEX7充分识别的PTS2信号而言足够疏水，产生过氧化物酶体定位。本文中，作为用于二义性信号的细胞器之间的竞争的结果，过氧化物酶体和叶绿体中的融合蛋白水平之间出现平衡。进而，该推-拉机制将增加融合蛋白在细胞质内的潴留。

瞬时表达测定中的TriTag的亚细胞定位。为确定TriTag的功能，利用融合至GFP的TriTag轰击本氏烟草表皮细胞，通过针对pENTCUP2质粒的组成型活化启动子控制其表达。在室温下孵育48小时后，利用共聚焦显微镜对瞬时转化的细胞进行成像(Leica SP5X MP，Buffalo Grove，IL 60089，美国)。

当不进行融合而表达时，GFP专一性地分布于细胞周质(periphery)和细胞核中。该定位模式通常用于游离的GFP(Li等，2010)。该周质模式归因于通过液泡将细胞质从细胞内部排出(数据未示出)。以融合至马铃薯RuBisCO蛋白的叶绿体靶向肽的GFP的瞬时表达观测细胞质、细胞核和叶绿体定位模式(Kebeish等，2007)。细胞周质中存在的GFP是出乎预料的；来自rbcS1的叶绿体转运肽是了解得最明确的一种。然而，可想象的是，在高的蛋白表达水平时，在GFP从叶绿体被动排出和主动输入叶绿体之间建立平衡。此外，改变细胞内的ATP/GTP水平影响主动的蛋白输入流(数据未示出，还参见图11中示出的Tic-Toc叶绿体输入机制图)。

对于TriTag1-GFP的瞬时表达而言，观察到定位至细胞质和叶绿体外膜。此外，观察到不同的表达的点状模式(数据未示出)，这与过氧化物酶体定位一致。

TriTag2-GFP存在于本氏烟草的细胞质中。此外，观察到类似的定位的点状模式(数据未示出)。然而，明显排除在叶绿体之外(数据未示出)。

总体来说，除细胞质分布外，基于可变剪接的标签(TriTag1和TriTag2)的定位模式显示出点状模式。作为TriTag1和TriTag2基础的可变剪接模块受到拟南芥中的基因的启发。还在以TriTag1-GFP和TriTag2-GFP稳定转化的拟南芥表皮叶细胞中确定了亚细胞定位。

在用TriTag-3瞬时表达的本氏烟草表皮叶细胞中，观察到叶绿体定位以及与过氧化物酶体定位类似的点状模式(数据未示出)。在TriTag3和对照cTP-GFP之间的定位中存在显著不同(数据未示出)，在细胞质中具有相对低水平的GFP(例如，缺少明显的细胞周质或细胞质基质表达)。不希望受理论的束缚，虽然cTP-GFP的GFP分布在叶绿体(主动输入)与处于细胞质中的游离的GFP之间(被动)，所添加的PTS2能够主动(本应如此)将游离的GFP输送至过氧化物酶体，与rbcS1转运肽相比改变了分布模式，TriTag3设计自该rbcS1转运肽(图10)。

表3：使用TriTag技术的亚细胞定位概述

*需要相关性实验予以证实

对于所测试的全部TriTag，观察到另外的点状定位模式，这与不具标签的GFP模式显著不同(表3)。

通过TriTag化的大肠杆菌乙醇酸脱氢酶最小化光呼吸

用于TriTag系统的经济上相关的应用为其在光呼吸的多区室分流中的用途。如同植物中的许多中心代谢通路，光呼吸中涉及的反应在多于一种区室(具体而言为叶绿体、细胞质、过氧化物酶体和线粒体)中发生(图12)。Kebeish等通过进行细菌甘油酸通路，将乙醇酸转化为卡尔文循环可用的磷酸甘油酸，成功将光呼吸分流(Kebeish等，2007)。该分流产生拟南芥的增高的生物量产量，特别是在根和整体花环直径方面。

乙醇酸是由RuBisCO酶催化的加氧反应的废物，经由细胞质基质穿梭入过氧化物酶体，通过多个区室内的许多需要能量的反应将碳再生为还原性更强的甘油酸3-P作为用于RuBisCO的底物。由于固定在叶绿体中的碳随后在线粒体中释放，一般认为该循环是徒劳的。这一浪费能量的反应称为光呼吸。

有趣的是，已经显示甘油酸通路的第一转化步骤(即，通过乙醇酸脱氢酶(gclDEF，GDH)将乙醇酸转化为乙醛酸)是生物量产量提高>60％的原因，表明拟南芥叶绿体可天生地氧化乙醇酸，然而其速率不足以增加光合作用的效率(Peterhansel，Niessen和Kebeish 2008)。Kebeish等通过仅将大肠杆菌GDH靶向至叶绿体实现了增加的生物量产量。假定在任何特定时刻，植物细胞内的乙醇酸库分布于叶绿体、细胞质基质和过氧化物酶体，将GDH靶向全部三种区室将会：(1)防止在过氧化物酶体中的相对来说浪费能量的乙醇酸氧化为乙醛酸而形成过氧化氢；(2)在细胞质基质中从乙醇酸生成额外的还原当量(NADH)；以及(3)推动乙醛酸在叶绿体中形成。总体来说，随着还原当量的增多，避免形成过氧化物的反应，降低所需要的在区室之间穿梭的代谢物并推动乙醛酸在叶绿体中的形成，预期生物量产量增加(同样参见图5)。

构建包含大肠杆菌glcD、glcE和glcF基因(其密码子经优化用于拟南芥表达)的用于农杆菌介导的拟南芥的基因组转化的二元质粒，并用于对拟南芥Col-0实施蘸花法。构建四种不同的质粒，各自具有不同组的附着至GDH亚基的靶向肽(图12；pORE-cTP-GDH、pORE-TriTag1-GDH、pORE-TriTag2-GDH和pORE-TriTag3-GDH)。目前，对转化体针对草铵膦的抗性进行筛选(Finale，Bayer)。可通过PCR证实稳定的基因组整合，并对转化体的生物量积累速率和光呼吸速率进行表征。

讨论

现在，作物工程化领域充斥着超过十年以前制定的标准，在这些标准于其中进行扩增的工业背景中，这些标准没有能力进一步演变。合成生物学为我们提供了一种新的工程化视角和理念，这将在生物能源、药物和植物体内的增高的产量方面证明是有用的，更适合增加的全球人口的需求。

通用的质体基因组整合载体的设计和构建自然地遵循合成生物学广谱宿主范围的角度。随着已知叶绿体的转录/翻译机制以类似于其细菌对应物起作用，并且已知用于整合的通用载体，通过构建相对便宜且较少费力的多顺反子细菌操纵子，工程师目前能够在植物细胞区室内实现多基因表达。进而，对植物遗传学工程师而言，在细菌遗传学数据库(例如PartsRegistry，partsregistry.org)中发现的日益繁多的标准遗传学部件(启动子、核糖体结合位点、终止子)的排列现在基本上可用。

合成生物学进展中的强有力工具为通过省略一些细节，利用抽象概念为生物工程师简化复杂度。所利用的生物部件的标准化进一步支持该抽象概念水平。本文提供了简化的抽象概念模型用于基于可变剪接的标准化的定位标签，并证明了这些相同的合成生物学原理在系统中能起作用。

本文所述的方法和组合物允许成组部件在恰当排列时，通过可变剪接产生用于植物细胞内的任意亚群的期望区室的定位标签。

方法

菌株和质粒。将大肠杆菌K12菌株(NEB Turbo，New EnglandBiolabs)用作质粒宿主，针对质体基因组整合载体和用于瞬时表达和/或稳定的基因组整合的二元载体的克隆工作。菌株和质粒在表4中列出。用传统的克隆方法(Sambrook J和Russell D.W，2001)、BglBricks(Anderson等，2010)、BioBricks(Knight，2003)或Gibson组装(Gibson，2011)，使用其密码子经优化的用于拟南芥(全部二元载体)或大肠杆菌(质体基因组整合载体)的基因(Genscript，Piscataway，NJ)构建质粒。

表4：本研究中使用的质粒

培养基。大肠杆菌K12细胞在带有合适的抗生素的Luria-Bertani培养基中生长。

通用质体基因组整合载体的构建和克隆。将如下6个部件通过Gibson组装构建pMV02。trnI(1)和trnA(2)同源区域，通过拟南芥质体基因组PCR获得。(3)拟南芥质体16S rRNA启动子和MCS，从利用Gene2Oligo服务器(http://berry.engin.umich.edu/gene2oligo/)设计的寡聚物通过组装PCR合成。(4)nptII卡那霉素抗性盒，通过PCR从pORE家族载体获得(Coutu等，2007)。(5)拟南芥叶绿体光系统II蛋白D终止子区域，从经提取的拟南芥叶的质体基因组DNA(DNeasy Plant MiniKit，QIAGEN)通过PCR得到。(6)带有复制起始点和氨苄青霉素抗性盒的pUC19骨架，通过PCR获得。这6个部件在各端具有20bp的重叠，从而有利于在组装反应中合适地退火。通过测序验证获得的质粒pMV02(GeneWiz，Cambridge，MA USA)。使用EcoRI和SalI位点，将橙色绿屈挠菌3-HOP亚通路1和4(其密码子经优化用于大肠杆菌表达，GenScript，Piscatawny，NJ USA)和大肠杆菌glcDEF(从大肠杆菌基因组DNA进行PCR)克隆入MCS中，产生表4指出的结构。

TriTag合成和克隆。通过Gibson组装，通过IDT(GeneBlocks，Coralville，IA)合成TriTag-1至TriTag-3，并在框内融合至pORE-GFP中的GFP ORF，生成pORE-TriTag1-GFP、pORE-TriTag2-GFP和pORE-TriTag3-GFP。通过Gibson组装在框内插入至pORE-GDH中，生成质粒pORE-TriTag1-GDH、pORE-TriTag2-GDH和pORE-TriTag3-GDH(表4)。

乙醇酸脱氢酶的合成和克隆。将大肠杆菌GDH亚基glcD、glcE和glcF经密码子优化用于拟南芥表达，并置于CaMV35S启动子、来自烟草蚀纹病毒的5′UTR和胭脂氨酸合酶(NOS)终止子的控制之下。使用BioBrick组合克隆将亚基组装在一起。将RB7核支架区域用于对3-亚基表达盒进行侧翼化，从而最小化该区域的基因沉默(Halweg、Thompson和Spiker 2005)。将RB7-glcD-glcE-glcF-RB7元件插入至pORE草铵膦抗性二元载体，用于蘸花(Coutu等，2007)。

植物材料。将全部植物在16/8h光/暗循环中于室温下孵育，每两周浇水。在使用前对基于泥煤的盆栽土壤高温灭菌。本氏烟草幼苗为4-6周龄。收集来自6-8周龄植物的叶用于轰击。将开花的拟南芥生态型Columbia-0植物进行用于农杆菌介导的转化方案。

弹道方法。通过将50μg质粒DNA沉淀在8mg的1μm金粒子上进行瞬时GFP-融合标签实验。使用Helios基因枪(Bio-Rad)在150-250psi下对本氏烟草叶进行基因枪转化。将叶置于培养皿中的湿滤纸上，并在环境光线和室温下在实验台上存放48小时后进行分析。将经轰击的叶切碎，并置于载玻片的ddH₂O+Triton-X100中，利用荧光共聚焦显微镜成像(489nm激发，在500-569nm检测GFP，在630-700nm检测叶绿素)。

农杆菌介导的拟南芥转化。通过蘸花法(Clough和Bent 1998)对开花拟南芥(Columbia生态型，Col-0)进行转化。将二元载体电转化入带有帮助质粒pMP90的根癌农杆菌GV3101，所述二元载体获得自包含克隆入感兴趣的表达盒的pORE家族载体(Coutu等，2007)。含有转基因的植物能够自体授粉，并针对草铵膦(PAT抗性标记)或卡那霉素(nptII抗性标记)进行数轮选择。

参考文献

Anderson，J Christopher，et al."BglBricks：A flexible standard for biological part assembly."Journalof biological engineering 4，no.1(Jan 2010)：1.

Baudisch，Bianca，and Ralf Bernd"Dual targeting of a processing peptidase into bothendosymbiotic organclles mediated by a transport signal of unusual architecture."Molecular plant 5，no.2(Mar 2012)：494-503.

Berg，Ivan A，Daniel Kockelkorn，Wolfgang Buckel，and Georg Fuchs."A 3-hydroxypropionate/4-hydroxybutyrate autotrophic carbon dioxide assimilation pathway in Archaea."Science(New York，NY)318，no.5857(Dec 2007)：1782-6.

Marcelo M，and Marcio C Silva-Filho."Evolutionary history of Arabidopsis thalianaaminoacyl-tRNA synthetase dual-targeted proteins."Molecular biology and evolution 28，no.1(Jan2011)：79-85.

Buchanan，B B，and D I Arnon."A reverse KREBS cycle in photosynthesis：consensus at last."Photosynthesis research 24(Jan 1990)：47-53.

Carrer，H，T N Hockenberry，Z Svab，and P Maliga."Kanamycin resistance as a sekectable marker forplastid transformation in tobacco."Molecular＆general genetics：MGG 241，no.1-2 (Oct 1993)：49-56.

Clarke，Jihong Liu，and Henry Daniell."Plastid biotechnology for crop production：present status andfuture perspectives."Plant molecular biology 76，no.3-5(Jul 2011)：211-20.

Clough，S J，and A F Bent."Floral dip：a simplified method for Agrobacterium-mediatedtransformation of Arabidopsis thaliana."The Plant journal：for cell and molecular biology 16，no.6(Dec 7998)：735-43.

Coutu，Catherine，et al."pORE：a modular binary vector series suited for both monocot and dicotplant transformation."Transgenic research 16，no.6(Dec 2007)：771-81.

Day，Anil，and Michel Goldschmidt-Clermont."The chloroplast transformation toolbox：selectablemarkers and marker removal."Plant biotechnology journal 9，no.5(Jun 2011)：540-53.

De Cosa，B，W Moar，S Lee，and M Miller...."Overexpression of the Bt ery2Aa2 operon inchloroplasts leads to formation of insecticidal crystals."Nature Biotechnology，Jan 2001.

Dinkins，Randy D，et al."Changing transcriptional initiation sites and alternative 5′-and 3′-splice siteselection of the first intron deploys Arabidopsis protein isoaspartyl methyltransferase2 variants todifferent subcellular compatrments."The Plant journal：for cell and molecular biology 55，no.1(Jul2008)：1-13.

Ducat，Daniel C，and Pamela A Silver."Improving carbon fixation pathways."Current opinion inchemical biology，May 2012.

El Amrani，Abdelhak，et al."Coordinate cxpression and independent subcellular targeting of multipleproteins from a single transgene."Plant Physiology 135，no.1(May 2004)：16-24.

Flannery，M L，et al."Plastid genome characterisation in Brassica and Brassicaceae using a new set ofnine SSRs."TAG Theoretical and applied genetics Theoretische und angewandte Genetik 113，no.7(Nov 2006)：1221-31.

Gibson，Daniel G."Enzymatic assembly of overlapping DNA fragments."Methods in enzymology498(Jan 2011)：349-61.

Halweg，Christopher，William F Thompson，and Steven Spiker."The rb7 matrix attachment regionincreases the likelihood and magnitude of transgene expression in tobacco cells：a flow cytometficstudy."The Plant cell 17，no.2(Feb 2005)：418-29.

Hickey，Scott F，et al.″Transgene regulation in plants by alternative splicing of a suicide exon."

Nucleic acids research 40，no.10(May 2012)：4701-10.

Horstmann，Verena，Claudia M Huether，Wolfgang Jost，Ralf Reski，and Eva L Decker."Quantitativepromoter analysis in Physcomitrclla patens：a set of plant vectors activating gene expression withinthree orders of magnitude."BMC Biotechnology 4(Jul 2004)：13.

Huber，Harold，et al."A dicarboxylate/4-hydroxybutyrate autotrophic carbon assimilation cycle in thehyperthermophilic Archaeum Ignicoccus hospitalis."Proceedings of the National Academy ofSciences of the United States of America 105，no.22(Jun 2008)：7851-6.

Kebeish，Rashad，et al."Chloroplastic photorespiratory bypass increases photosynthesis and biomassproduction in Arabidopsis thaliana."Nature biotechnology 25，no.5(May 2007)：593-9.

Knight，T."Idempotent Vector Design for Standard Assembly of Biobricks."MIT ArtificialIntelligence Laboratory：MIT Synthetic Biology Working Group，Aug 2003：1-11.

Li，Feng，et al."Rice DENSE AND ERECT PANICLE 2is essential for determining panicleoutgrowth and elongation."Cell research 20，no.7(Jul 2010)：838-49.

Ljungdahl，L，E Irion，and H G Wood."Total synthesis of acetate from CO2.I.Co-methylcobyric acidand CO-(methyl)-5-methoxybenzimidazolylcobamide as intermediates with Clostridiumthermoaceticum."Biochemistry 4，no.12(Dec 1965)：2771-80.

Lutz，Kerry Ann，Arun Kumar Azhagiri，Tarinee Tungsuchat-Huang，and Pal Maliga."A guide tochoosing vectors for transformation of the plastid genome of higher plants."Plant Physiology 145，no.4(Dec 2007)：1201-10.

Pagani，Mark，James C Zachos，Katherine H Freeman，Brett Tipple，and Stephen Bohaty."Markeddecline in atmospheric carbon dioxide concentrations during the Paleogene."Science(New York，NY)309，no.5734(Jul 2005)：600-3.

Peterhansel，Christoph，Markus Niessen，and Rashad M Kebeish."Metabolic engineering towards thecnhanccment of photosynthcsis."Photochemistry and photobiology 84，no.6(Jan 2008)：1317-23.Reumann，Sigrun，et al."Proteome analysis of Arabidopsis leaf peroxisomes revcals novel targetingpeptides，metabolic pathways，and defense mechanisms."The Plant cell 19，no.10 (Oct 2007)：3170-93.

Ruf，S，M Hermann，I J Berger，H Carrer，and R Bock."Stable genetic transformation of tomatoplastids and exprcssion of a foreign protein in fruit."Nature Biotechnology 19，no.9(Scp 2001)：870-5.

Sage，Rowan F，Tammy L Sage，and Ferit Kocacinar."Photorespiration and the evolution of C4photosynthesis."，Annual review of plant biology 63(Jun 2012)：19-47.

Sambrook J.，and Russell D.W."Molecular Cloning：A Laboratory Manual 3rd cd.."Cold SpringHarbor，New York：Cold Spring Harbor Laboratory Press.，2001.

Severing.Edouard I，Aalt D J van Dijk，and Roeland C H J van Ham."Assessing the contribution ofalternative splicing to proteome diversity in Arabidopsis thaliana using proteomics data."BMC plantbiology 11，no.1(Jan 2011)：82.

Sidorov，V，D Kasten，S Pang，P Hajdukiewicz，J Staub，and N Nehra."Technical Advance：Stablechloroplast transformation in potato：use of green fluorescent protein as a plastid market."The Plantjournal：for cell and molecular biology 19，no.2(Jul 1999)：209-216.

Verma...，D."Chloroplast vector systems for biotechnology applications."Plant Physiology，Jan2007.

von Caemmerer，Susanne.W Paul Quick.and Robert T Furbank."The development of C₄ rice：corrent progress and future challenges."Science(New York， NY)336，no.6089(Jun 2012)：1671-2.

Zachos，J，M Pagani，L Sloan，E Thomas，and K Billups.″Trends，rhythms，and aberrations in globalclimate 65 Ma to present."Science(New York.NY) 292，no.5517(Apr 2001)：686-93.

Zarzycki，J，V Brecht，and M Müller...."Identifying the missing steps of the autotrophic 3-hydroxypropionate CO2 fixation cycle in Chloroflexus aurantiacus."Proceedings of the...，Jan 2009.

Zarzycki...，J."Coassimilation of Organic Substrates via the Autotrophic 3-Hydroxypropionate Bi-Cycle in Chloroflexus aurantiacus."Applied and enyironmental microbiology，Jan 2011.

Zhu，Xin-Guang， Stephen P Long，and Donald R Ort."Improving photosynthetic efficiency forgreater yield."Annual review of plant biology 61(Jan 2010)：235-61.

实施例4：用于异源蛋白的有效靶向的至三目的地的转运元件及其用途

本发明的实施方式涉及如下遗传学元件的用途：当将该元件与任何感兴趣的基因进行组合时，将提供具有元件标签的多肽，该多肽具有定位至真核细胞内的多种靶向亚细胞位置的能力。特别是，该技术可有益于参与但不限于植物中心代谢(包括光呼吸旁路化(1))的酶的靶向、在真核细胞中积累高水平的蛋白(2)以及细胞调控和耐逆性所需的蛋白的确定靶向(3)。

此处描述TriTag-1、TriTag-2和TriTag-3。

融合至乙醇酸脱氢酶的TriTag-1的核酸序列在如下SEQ ID NO：28中以下划线示出：

SEQ ID NO：28

atggaggtatgttctcttgccaggaatctctgcttcagtttattctcaacacataaggtatacaaatgggttatttggtgtttctctgtgttgtgtgactgattt tgtgcttatagacgatttttaatatgttgatggtgttagcaattccagagtggaactggctcgagcggcgacagctctagctctcctgtttcaacaaaacc tcaaggtatattgatgatttaccaaatcttttccttgtcaaagttttgtgtttgactgtgtgggtttgaacctgttaggattcagtatgatgtcaagtatgtgtct tttggaatacaaggatttacccttatggctatctttgttatctgtgtgaccttttctactttctcgctttgtaagatcgtctgagaatcattggagggcatttga atgttgcagctgaagcaATGTCTATTCTTTATGAAGAGAGACTCGATGGAGCTTTACCAGATGTTGATAGAACCTCAGTGCTCATGGCATTAAGGGAACATGTTCCTGGACTTGAAATTCTTCACACAGATGAAGAGATTATCCCATATGAATGTGATGGTTTGTCTGCTTACAGAACTAGGCCTCTTTTGGTTGTGCTCCCAAAGCAGATGGAACAGGTTACAGCTATTCTTGCAGTGTGCCATAGATTGAGGGTTCCTGTTGTGACAAGAGGAGCTGGTACCGGACTTTCAGGAGGTGCACTCCCATTAGAAAAGGGTGTTCTCTTAGTGATGGCTAGGTTCAAAGAGATATTGGATATTAATCCTGTGGGAAGAAGGGCTAGAGTTCAACCAGGTGTGAGGAATCTCGCAATTAGTCAGGCTGTTGCACCTCACAACCTTTATTACGCTCCTGATCCATCTTCACAAATCGCATGTTCTATAGGTGGTAATGTGGCTGAAAACGCAGGAGGTGTTCATTGCCTTAAGTACGGATTGACTGTGCACAACCTTTTGAAAATCGAAGTTCAGACTCTTGATGGAGAGGCTCTTACATTGGGTAGTGATGCATTGGATTCTCCTGGTTTTGATCTCTTAGCTCTCTTCACAGGTTCTGAAGGAATGTTAGGTGTTACTACAGAGGTTACCGTTAAACTTTTGCCAAAACCTCCAGTTGCTAGAGTGCTCTTAGCATCTTTTGATTCAGTGGAAAAAGCTGGACTTGCAGTTGGAGATATAATTGCTAACGGAATTATTCCTGGAGGTCTCGAAATGATGGATAACTTATCTATAAGAGCTGCTGAAGATTTCATTCATGCTGGATATCCAGTTGATGCTGAGGCAATACTTTTGTGTGAACTTGATGGTGTTGAGTCAGATGTGCAAGAAGATTGCGAGAGAGTTAATGATATTCTCTTAAAGGCTGGAGCAACTGATGTGAGGTTGGCTCAGGATGAAGCAGAGAGAGTTAGGTTTTGGGCTGGAAGAAAAAACGCTTTCCCTGCTGTTGGTAGGATCTCACCAGATTATTACTGTATGGATGGTACAATACCTAGAAGGGCTCTCCCAGGAGTTTTAGAGGGTATTGCAAGACTTAGTCAACAGTACGATTTGAGGGTTGCTAATGTGTTTCATGCAGGAGATGGAAACATGCACCCTCTCATCTTATTTGATGCTAATGAGCCAGGAGAGTTCGCTAGAGCAGAAGAGCTTGGAGGAAAGATT

CTTGAACTTTGTGTTGAAGTGGGAGGTAGTATCTCTGGTGAACATGGTATTGGAAGAGAGAAAATCAATCAAATGTGCGCTCAGTTCAACTCTGATGAAATCACCACTTTTCATGCTGTTAAGGCTGCATTCGATCCTGATGGACTTTTGAATCCTGGAAAGAATATACCAACATTGCACAGATGCGCTGAGTTCGGAGCAATGCACGTTCACCACGGACACCTTCCTTTTCCTGAGTTGGAGAGATTCTGA

该序列的第一模块首先在Dinkins等(2008)的拟南芥的蛋白-L-异天冬氨酸甲基转移酶(PIMT2)基因变体以及参与亚细胞定位的机制的上下文中描述。RNA产物的体内可变剪接提供了PIMT2蛋白的变体，所述变体定位至细胞质或叶绿体。TriTag-1的第二模块首先在Reumann等(2007)中描述，描述在双功能的拟南芥甲状腺素运载蛋白样蛋白的经剪接版本内阐明的内部功能化的过氧化物酶体靶向信号2(PTS2)信号。因此，该模块创建了定位至过氧化物酶体或细胞质的剪接变体。

组合来看，模块1和模块2包含遗传学元件(TriTag-1)，借助可变剪接将用于定位至细胞质和/或过氧化物酶体和/或叶绿体的转运肽对感兴趣的蛋白加标签。这相对于现有方法是有优势的，将显著量的负荷多肽靶向至仅一个亚细胞位置，一般靶向至通过N端最大定位信号指示的任何位置。本文所述技术的实施方式允许一个基因将显著量的负荷多肽运输至多个亚细胞位置，这在一个基因中仅将两个分开的定位信号进行组合是不可能的。

与TriTag-1类似，TriTag-2将模块1与模块2组合，然而TriTag-2以反向排列包含该模块，模块2位于遗传学元件的5′端。TriTag-2在如下SEQ ID NO：33中以下划线示出：

SEQ ID NO：33

atggacagctctagctctcctgtttcaacaaaacctcaaggtatattgatgatttaccaaatcttttccttgtcaaagrtttgtgtttgactgtgtgggtttga acctgttaggattcagtatgatatcaagtatgtgtcttttggaatacaaggatttacccttatggctatctttgttatctgtgtgaccttttctactttctcgcttt gtaagatcgtctgagaatcattggagggcatttgaatgttgcagctgaagcaatggaggtatgttctcttgccaggaatctctgcttcagtttattctcaa cacataaggtatacaaatgggttatttggtgtttctctgtgttgtgtgactgattttgtgcttatagacgatttttaatatgttgatggtgttagcaattccaga gtggaactggctcgagcggcATGTCTATTCTTTATGAAGAGAGACTCGATGGAGCTTTACCAGATGTTGATAGAACCTCAGTGCTCATGGCATTAAGGGAACATGTTCCTGGACTTGAAATTCTTCACACAGATGAAGAGATTATCCCATATGAATGTGATGGTTTGTCTGCTTACAGAACTAGGCCTCTTTTGGTTGTGCTCCCAAAGCAGATGGAACAGGTTACAGCTATTCTTGCAGTGTGCCATAGATTGAGGGTTCCTGTTGTGACAAGAGGAGCTGGTACCGGACTTTCAGGAGGTGCACTCCCATTAGAAAAGGGTGTTCTCTTAGTGATGGCTAGGTTCAAAGAGATATTGGATATTAATCCTGTGGGAAGAAGGGCTAGAGTTCAACCAGGTGTGAGGAATCTCGCAATTAGTCAGGCTGTTGCACCTCACAACCTTTATTACGCTCCTGATCCATCTTCACAAATCGCATGTTCTATAGGTGGTAATGTGGCTGAAAACGCAGGAGGTGTTCATTGCCTTAAGTACGGATTGACTGTGCACAACCTTTTGAAAATCGAAGTTCAGACTCTTGATGGAGAGGCTCTTACATTGGGTAGTGATGCATTGGATTCTCCTGGTTTTGATCTCTTAGCTCTCTTCACAGGTTCTGAAGGAATGTTAGGTGTTACTACAGAGGTTACCGTTAAACTTTTGCCAAAACCTCCAGTTGCTAGAGTGCTCTTAGCATCTTTTGATTCAGTGGAAAAAGCTGGACTTGCAGTTGGAGATATAATTGCTAACGGAATTATTCCTGGAGGTCTCGAAATGATGGATAACTTATCTATAAGAGCTGCTGAAGATTTCATTCATGCTGGATATCCAGTTGATGCTGAGGCAATACTTTTGTGTGAACTTGATGGTGTTGAGTCAGATGTGCAAGAAGATTGCGAGAGAGTTAATGATATTCTCTTAAAGGCTGGAGCAACTGATGTGAGGTTGGCTCAGGATGAAGCAGAGAGAGTTAGGTTTTGGGCTGGAAGAAAAAACGCTTTCCCTGCTGTTGGTAGGATCTCACCAGATTATTACTGTATGGATGGTACAATACCTAGAAGGGCTCTCCCAGGAGTTTTAGAGGGTATTGCAAGACTTAGTCAACAGTACGATTTGAGGGTTGCTAATGTGTTTCATGCAGGAGATGGAAACATGCACCCTCTCATCTTATTTGATGCTAATGAGCCAGGAGAGTTCGCTAGAGCAGAAGAGCTTGGAGGAAAGATTCTTGAACTTTGTGTTGAAGTGGGAGGTAGTATCTCTGGTGAACATGGTATTGGAAGAGAGAAAATCAATCAAATGTGCGCTCAGTTCAACTCTGATGAAATCACCACTTTTCATGCTGTTAAGGCTGCATTCGATCCTGATGGACTTTTGAATCCTGGAAAGAATATACCAACATTGCACAGATGCGCTGAGTTCGGAGCAATGCACGTTCACCACGGACACCTTCCTTTTCCTGAGTTGGAGAGATTCTGA

本领域已知的是，可变剪接是在所有的真核细胞中频繁发生的、mRNA分子在从DNA转录后进行加工的事件(转录后修饰，PTM)。总体来说，该过程使得来自mRNA分子的核酸(内含子)的特定区域得以切除。

重要的是注意到，虽然已大体上解了可变剪接的机制，对可变剪接事件进行预测仍具挑战性，并且大部分经了解的系统进行了经验性研究。这包括在TriTag-1和TriTag-2中发现的模块。想到这一点，可通过TriTag-1和TriTag-2或基于本公开制备的其它构建体提供的剪接变体不局限于Dinkins等(2008)和Reumann等(2007)所描述和研究的那些。然而，就任何给定组的可变剪接信号而言，确定形成哪些产物以及因此确定经由单个RNA转录物的可变剪接将哪种定位信号附着至给定的多肽是简单的事、

本领域已知的是，通过保守的氨基酸序列介导蛋白向过氧化物酶体的转运。一个此类的序列为过氧化物酶体靶信号2(PTS2)，该信号一般位于所表达的蛋白的N端。一致性序列如下：Arg-Leu-X₅-His-Leu(SEQID NO:5)。如Reumann等(2007)所示出的，预测该核酸序列(由该序列获得模块2)含有至少一个功能性的可变3′受体位点，产生至少两种剪接变体。一种变体使得含功能性PTS2的肽进行翻译，而另一变体缺少该信号。模块2对于功能性剪接并提供用于过氧化物酶体靶向或细胞质定位(即，不含转运肽)、或二者的剪接变体而言可能是必需和足够的。

本领域已知的是，通过特定的氨基酸序列(叶绿体转运肽，CTP)介导蛋白向叶绿体的转运，如通过马铃薯rubisco CTP所示例出的，该序列主要由在N端的疏水侧链以及优选的羟基化的氨基酸(丝氨酸、苏氨酸等)组成。

如通过Dinkins等(2008)经验性地示出的，核酸序列(由该序列获得模块1)的剪接变体允许将带有GFP标签化的PIMT2蛋白定位至叶绿体。模块1对于功能性剪接并提供用于叶绿体靶向或细胞质定位(即，不含转运肽)、或二者而言可能是必需和足够的。

本领域已知的是，氨基酸可通过具有相似的亲疏水性指数(hydropathic index)或得分的其它氨基酸取代，并仍然产生具有相似的生物活性的蛋白，即，仍然获得生物学功能上等同的蛋白。在做出此类改变时，优选以亲疏水性指数在±2以内、特别优选±1以内、更特别优选±0.5以内的氨基酸取代。

本领域还已知的是，可基于亲水性有效地实施类似氨基酸的取代。美国专利号4,554,101陈述了通过相邻的氨基酸的亲水性控制的蛋白的最大局域平均亲水性与蛋白的生物性质相关。如美国专利号4,554,101中所详述的，将如下的亲水性数值指定至氨基酸残基：精氨酸(+3.0)；赖氨酸(+3.0)；天冬氨酸(+3.0±0.1)；谷氨酸(+3.0±0.1)；丝氨酸(+0.3)；天冬酰胺(+0.2)；谷氨酰胺(+0.2)；甘氨酸(0)；苏氨酸(-0.4)；脯氨酸(-0.5±0.1)；丙氨酸(-0.5)；组氨酸(-0.5)；半胱氨酸(-1.0)；甲硫氨酸(-1.3)；缬氨酸(-1.5)；亮氨酸(-1.8)；异亮氨酸(-1.8)；酪氨酸(-2.3)；苯丙氨酸(-2.5)；色氨酸(-3.4)。可理解的是，氨基酸可取代具有相似的亲水性值的另一氨基酸，而仍然获得生物学功能上等同的蛋白。在此类改变中，优选以亲水性数值在±2以内、特别优选±1以内、更特别优选±0.5以内的氨基酸进行取代。考虑到这些以及各前述特征，示例性取代为本领域技术人员所熟知并包括：精氨酸和赖氨酸；谷氨酸和天冬氨酸；丝氨酸和苏氨酸；谷氨酰胺和天冬酰胺；以及缬氨酸、亮氨酸和异亮氨酸。

TriTag-1在框内由模块1和其后的模块2组成。这一组合将提供表达带有PTS2和/或CTP的转运肽、和/或无确定的靶相信号(细胞质定位)的转运肽的功能性剪接变体。预测的多肽在图8中示出。采用如下实例而不应对所保护的发明的范围进行限制。剪接变体BC-XZ表达具有引导至叶绿体的CTP的感兴趣的融合蛋白。剪接变体AC-XY表达具有引导至过氧化物酶体的PTS2的感兴趣的融合蛋白。剪接变体AC-XZ表达无转运肽的感兴趣的融合蛋白，该蛋白将定位于细胞质中。剪接变体BC-XY奖表达具有CTP和PTS2(即，二义性信号)的感兴趣的融合蛋白。

TriTag-2在框内由模块2和其后的模块1组成。这一组合将提供表达带有PTS2和/或CTP的转运肽、和/或无确定的靶向信号(细胞质定位)的转运肽的功能性剪接变体。预测的多肽在图9中示出。采用如下实例而不应对所保护的发明的范围进行限制。剪接变体BC-XY表达具有引导至叶绿体的CTP的感兴趣的融合蛋白。剪接变体AC-XZ表达具有引导至过氧化物酶体的PTS2的感兴趣的融合蛋白。剪接变体AC-XZ表达无转运肽的感兴趣的融合蛋白，该蛋白定位于细胞质中。剪接变体BC-XY表达具有CTP和PTS2(即，二义性信号)的感兴趣的融合蛋白。

TriTag-3为表达二义性转运肽的合成设计核酸。通过将PTS2一致性序列叠加至马铃薯rubisco叶绿体转运肽而设计该TriTag-3。该二义性转运肽的N端对于叶绿体定位和通过其受体PEX7充分识别PTS2信号而言足够疏水，产生过氧化物酶体定位。不希望受理论的束缚，作为用于二义性信号的细胞器之间的竞争的结果，过氧化物酶体和叶绿体中的融合蛋白水平之间出现平衡。进而，该推-拉机制将增加融合蛋白在细胞质内的潴留。

本文还提供了用于生产食物、饲料或工业产品的方法，所述食物、饲料或工业产品包含含有TriTag构建体的植物或此类植物的部分，以及从该植物或其部分制备食物、饲料、纤维或工业产品的方法，其中，所述食物或饲料为谷物、膳食(meal)、油、淀粉、面粉或蛋白，并且所述工业产品为生物燃料、纤维、工业化学品、药物或营养品。

SEQ ID NO：28示出用于拟南芥表达的经密码子优化的编码大肠杆菌GDH亚基glcD的DNA分子的核苷酸序列，所述序列具有以下划线示出的对N端三重靶标序列#1。SEQ ID NO：29示出用于拟南芥表达的经密码子优化的编码大肠杆菌GDH亚基glcE的DNA分子的核苷酸序列，所述序列具有以下划线示出的N端三重靶标序列#1：

SEQ ID NO：29

atggaggtatgttctcttgccaggaatctctgcttcagtttattctcaacacataaggtatacaaatgggttatttggtgtttctctgtgttgtgtgactgattt tgtgcttatagacgatttttaatatgttgatggtgttagcaattccagagtggaactggctcgagcggcgacagctctagctctcctgtttcaacaaaacc tcaaggtatattgatgatttaccaaatcttttccttgtcaaagttttgtgtttgactgtgtgggtttgaacctgttaggattcagtatgatatcaagtatgtgtct tttggaatacaaggatttacccttatggctatctttgtttatctgtgtgaccttttctactttctcgctttgtaagatcgtctgagaatcattggagggcatttga atgttgcagctgaagcaATGCTCAGAGAATGCGATTATTCTCAGGCTCTTTTGGAGCAAGTGAATCAGGCAATTTCAGATAAGACTCCTCTTGTTATCCAAGGTTCTAACTCAAAGGCTTTTCTTGGTAGACCAGTGACTGGACAGACACTTGATGTTAGATGTCATAGGGGTATCGTGAACTACGATCCTACTGAATTGGTTATAACAGCTAGAGTGGGAACCCCACTTGTTACTATTGAAGCTGCATTGGAGTCTGCTGGTCAAATGCTCCCATGTGAGCCTCCACACTACGGAGAAGAGGCAACTTGGGGTGGTATGGTTGCTTGCGGACTTGCAGGTCCTAGAAGGCCATGGAGTGGTTCTGTTAGAGATTTTGTGTTGGGAACAAGGATTATCACCGGAGCTGGAAAGCATCTCAGATTCGGAGGTGAAGTTATGAAAAATGTGGCAGGTTATGATCTCTCAAGGTTAATGGTTGGAAGTTACGGTTGTCTTGGAGTGTTGACAGAAATTTCATAGAAGGTTCTTCCTAGACCAAGGGCTTCACTTAGTTTGAGAAGGGAAATATCTTTGCAAGAGGCTATGTCAGAAATTGCAGAGTGGCAACTCCAGCCTTTACCAATTAGTGGATTGTGCTATTTTGATAACGCTCTCTGGATCAGATTAGAAGGAGGAGAGGGTTCAGTGAAAGCTGCAAGGGAACTCTTAGGAGGTGAAGAGGTTGCTGGACAGTTCTGGCAACAGCTTAGAGAGCAACAGTTGCCTTTCTTTTCTCTTCCAGGTACATTGTGGAGGATAAGTCTTCCTTCTGATGCTCCAATGATGGATCTCCCTGGAGAACAATTAATCGATTGGGGAGGTGCTCTTAGATGGTTGAAGTCAACAGCAGAGGATAATCAGATCCATAGAATAGCTAGGAACGCAGGAGGTCACGCTACCAGATTTTCAGCAGGAGATGGAGGTTTCGCTCCTCTCAGTGCACCACTTTTTAGATACCACCAACAGTTGAACGAGCAGTTAGATCCTTGTGGTGTGTTCAATCCTGGAAGAATGTACGCTGACTTGTGAATGCTCAGAGAATGCGATTATTCTCAGGCTCTTTTGGAGCAAGTGAATCAGGCAATTTCAGATAAGACTCCTCTTGTTATCCAAGGTTCTAACTCAAAGGCTTTTCTTGGTAGACCAGTGACTGGACAGACACTTGATGTTAGATGTCATAGGGGGTATCGTGAACTACGATCCTACTGAATTGGTTATAACAGCTAGAGTGGGAACCCCACTTGTTACTATTGAAGCTGCATTGGAGTCTGCTGGTCAAATGCTCCCATGTGAGCCTCCACACTACGGAGAAGAGGCAACTTGGGGTGGTATGGTTGCTTGCGGACTTGCAGGTCCTAGAAGGCCATGGAGTGGTTCTGTTAGAGATTTTGTGTTCCCAACAAGGATTATCACCGGAGCTGGAAAGCATCTCAGATTCGGAGGTGAAGTTATGAAAAATGTGGCAGGTTATGATCTCTCAAGGTTAATGGTTGGAACTTGACGGTTGTCTTGGAGTGTTGACAGAAATTTCTATGAAGGTTCTTCCTAGACCAAGGGCTTCACTTAGTTTGAGAAGGGAAATATCTTTGCAAGAGGCTATGTCAGAAATTGCAGAGTGGCAACTCCAGCCTTTACCAATTAGTGGATTGTGCTATTTTGATAACGCTCTCTGGATCAGATTAGAAGGAGGAGAGGGTTCAGTGAAAGCTGCAAGGGAACTCTTAGGAGGTGAAGAGGTTGCTGGACAGTTCTGGCAACAGCTTAGAGAGCAACAGTTGCCTTTCTTTTCTCTTCCAGGTACATTGTGGAGGATAAGTCTTCCTTCTGATGCTCCAATGATGGATCTCCCTGGAGAACAATTAATCGATTGGGGAGGTGCTCTTAGATGGTTGAAGTCAACAGCAGAGGATAATCAGTCCATAGAATAGCTAGGAACGCAGGAGGTCACGCTACCAGATTTTCAGCAGGAGATGGAGGTTTCGCTCCTCTCAGTGCACCACTTTTTAGATACCACCAACAGTTGAAGCAGCAGTTAGATCCTTGTGGTGTGTTCAATCCTGGAAGAATGTACGCTGAGTTGTGA

SEQ ID NO：30示出用于拟南芥表达的经密码子优化的编码大肠杆菌GDH亚基glcF的DNA分子的核苷酸序列，所述序列具有以下划线示出的N端三重靶标序列#1。

SEQ ID NO：30

atggaggtatgttctcttgccaggaatctctgcttcagtttattctcaacacataaggtatacaaatgggttatttggtgtttctctgtgttgtgtgactgattt tgtgcttatagacgatttttaatatgttgatggtgttagcaattccagagtggaactggctcgagcggcgacagctctagctctcctgtttcaacaaaacc tcaaggtatattgatgatttaccaaatcttttccttgtcassgttttgtgtttgactgtgtgggtttgaacctgttaggattcagtatgatatcaagtatgtgtct tttggaatacaaggatttacccttatggctatctttgttatctgtgtgaccttttctactttctcgctttgtaagatcgtctgagaatcattggagggcatttga atgttgcagctgaagcaATGCAAACTCAGCTTACAGAAGAGATGAGACAAAATGCTAGGGCACTCGAAGCTGATTCTATCTTAAGAGCATGTGTTCATTGCGGATTCTGTACCGCTACTTGCCCTACTTATCAACTTTTGGGAGATGAGCTTGATGGACCAAGAGGTAGAATATACCTCATTAAGCAAGTTTTAGAAGGAAACGAGGTGACCTTGAAAACTCAGGAACATCTTGATAGATGCTTGACATGTAGGAATFGCGAGACTACATGTCCATCAGGAGTTAGGTATCACAACCTCTTAGATATCGGTAGAGATATAGTTGAACAGAAGGTGAAAAGACCTCTTCCAGAAAGAATACTCAGGGAGGGATTAAGACAAGTTGTGCCTAGGCCAGCTGTGTTTAGAGCATTGACTCAAGTTGGTCTTGTGTTGAGGCCTTTCCTTCCAGAACAGGTTAGAGCAAAGTTGCCTGCTGAAACAGTGAAGGCTAAACCAAGACCTCCACTTAGGCATAAAAGAAGGGTTCTCATGTTAGAGGGATGTGCTCAGCCTACTTTGTCFCCAAATACAAACGCTGCAACCGCTAGAGTTCTTGATAGGTTGGGTATTTCAGTGATGCCTGCAAATGAGGCTGGATGTTGCGGTGCTGTTGATTACCACCTCAACGCACAAGAGAAGGGATTAGCTAGAGCAAGGAATAACCTAGATGCTTGGTGGCCAGCAATTGAAGCTGTTGCAGAGGCTATCCTTCAAACTGCTTCAGGATGCGGTGCATTTGTTAAGGAATATGGACAGATGCTTAAAAATGATGCATTGTACGCTGATAAGGCAAGACAAGTGAGTGAACTTGCTGTTGATTTGGTGGAGCTTTTGAGAGAAGAGCCTCTTGAAAAACTTGCTATAAGAGGAGATAAGAAATTGGCATTTCATTGTCCATGCACACTTCAACACGCTCAGAAGTTGAACGGAGAAGTTGAGAAAGTGCTCTTAAGACTCGGTTTCACATTAACCGATGTTCCTGATAGTCATCTCTGTTGCGGATCTGCTGGTACTTATGCATTAACACACCCTGATCTTGCTAGACAGTTGAGGGATAATAAGATGAACGCTCTCGAAAGTGGAAAACCTGAGATGATTGTTACCGCTAATATCGGTTGTCAAACTCATTTGGCATCTGCTGGTAGGACCTCTGTGAGGCACTGGATTGAGATCGTGGAACAGGCTCTTGAGAAGGAGTGA

SEQ ID NO：31示出用于拟南芥表达的经密码子优化的编码大肠杆菌GDH亚基glcF的DNA分子的核苷酸序列，所述序列具有以下划线示出的N端三重靶标序列#1和以下划线示出的C端myc表位标签。

SEQ ID NO：31

atggaggtatgttctcttgccaggaatctctgcttcagtttattctcaacacataaggtatacaaatgggttatttggtgtttctctgtgttgtgtgactgattt tgtgcttatagacgatttttaatatgttgatggtgttagcaattccagagtggaactggctcgagcggcgacagctctagctctcctgtttcaacaaaacc tcaaggtatattgatgatttaccaaatcttttccttgtcaaagttttgtgtttgactgtgtgggtttgaacctgttaggattcagtatgatatcaagtatgtgtct tttggaatacaaggatttacccttatggctatctttgttatctgtgtgaccttttctactttctcgctttgtaagatcgtctgagaatcattggagggcatttga atgttgcagctgaagcaATGCAAACTCAGCTTACAGAAGAGATGAGACAAAATGCTAGGGCACTCCGAAGCTGATTCTATCTTAAGAGCATGTGTTCATTGCGGATTCTGTACCGCTACTTGCCCTACTTATCAACTTTTGGGAGATGAGCTTGATGGACCAAGAGGTAGAATATACCTCATTAAGCAAGTTTTAGAAGGAAACGAGGTGACCTTGAAAACTCAGGAACATCTTGATAGATGCTTGACATGTAGGAATTGCGAGACTACATGTCCATCAGGAGTTAGGTATCACAACCTCTTAGATATCGGTAGAGATATAGTTGAACAGAAGGTGAAAAGACCTCTTCCAGAAAGAATACTCAGGGAGGGATTAAGACAAGTTGTGCTAGGCCAGCTGTGTTTAGAGCATTGACTCAAGTTGGTCTTGTGTTGAGGCCTTTCCTTCCAGAACAGGTTAGAGCAAAGTTGCCTGCTGAAACAGTGAAGGCTAAACCAAGACCTCCACTTAGGCATAAAAGAAGGGTTCTCATGTTAGAGGGATGTGCTCAGCCTACTTTGTCTCCAAATACAAACGCTGCAACCGCTAGAGTTCTTGATAGGTTGGGTATTTCAGTGATGCCTGCAAATGAGGCTGGATGTTGCGGTGCTGTTGATTACCACCTCAACGCACAAGAGAAGGGATTAGCTAGAGCAAGGAATAACATAGATGCTTGGTGGCCAGCAATTGAAGCTGGTGCAGAGGCTATCCTTCAAACTGCTTCAGGATGCGGTGCATTTGTTAAGGAATATGGACAGATGCTTAAAAATGATGCATTGTACGCTGATAAGGCAAGACAAGTGAGTGAACTTGCTGTTGATTTGGTGGAGCTTTTGAGAGAAGAGCCTCTTGAAAAACTTGCTATAAGAGGAGATAAGAAATTGGCATTTCATTGTCCATGCACACTTCAACACGCTCAGAAGTTGAACGGAGAAGTTGAGAAAGTGCTCTTAAGACTCGGTTTCACATTAACCGATGTTCCTGATAGTCATCTCTGTTGCGGATCTGCTGGTACTTATGCATTAACACACCCTGATCTTGCTAGACAGTTGAGGGATAATAAGATGAACGCTCTCGAAAGTGGAAAACCTGAGATGATTGTTACCGCTAATATCGGTTGTCAAACTCATTTGGCATCTGCTGGTAGGACCTCTGAGGCACTGGATTGAGATCGTGGAACAGGCTCTTGAGAAGGAGgaacaaaaactcatctcagaagaggatcttTGA

SEQ ID NO：32示出用于拟南芥表达的经密码子优化的编码绿色荧光蛋白(GFP)的DNA分子的核苷酸序列，所述序列具有以下划线示出的N端三重靶标序列#l。

SEQ ID NO：32

atggaggtatgttctcttgccaggaatctctgcttcagtttattctcaacacataaggtatacaaatgggttatttggtgtttctctgtgttgtgtttgtgtgactgattt tgtgcttatagacgatttttaatatgttgatggtgttagcaattccagagtggaactggctcgagcggcgacagctctagctctcctgtttcaacaaaac tcaaggtatattgatgatttaccaaatcttttccttgtcaaagttttgtgtttgactgtgtgggtttgaacctgttaggatcagtatgatatcaagtatgtcttttggaatacaaggatttacccttatggctatctttgttatctgtgtgaccttttctactttctactttctcgctttgtaagatcgtctgagaatcattggagggcatttgaatgttgcagctgaagcaaATGGCGAGTAAAGGAGAAGAACTTTTCACTGGAGTTGTCCCAATTCTTGTTGAATTAGATGGTGATGTTAATGGGCACAAATTTTCTGTCAGTGGAGAGGGTGAAGGTGATGCAACATACGGAAAACTTACCCTTAAATTTATTTGCACTACTGGAAAACTACCTGTTCCTTGGCCAACACTTGTCACTACTTTCTCTTATGGTGTTCAATGCTTTTCAAGATACCCAGATCATATGAAGCGGCACGACTTCTTCAAGAGCGCCATGCCTGAGGGATACGTGCAGGAGAGGACCATCTCTTTCAAGGACGACGGGAACTACAAGACACGTGCTGAAGTCAAGTTTGAGGGAGACACCCTCGTCAACAGGATCGAGCTTAAGGGAATTGATTTCAAGGAGGACGGAAACATCCTCGGCCACAAGTTGGAATACAACTACAACTCCCACAACGTATACATCACGGCAGACAAACAAAAGAATGGAATCAAAGCTAACTTCAAAATTAGACACAACATTGAAGATGGAAGCGTTCAACTAGCAGACCATTATCAACAAAATACTCCTATTGGCGATGGCCCTGTCCTTTTACCAGACAACCATTACCTGTCCACACAATCTGCCCTTTCGAAAGATCCCAACGAAAAGAGAGACCACATGGTCCTTCTTGAGTTTGTAACAGCTGCTGGGATTACACATGGCATGGATGAACTATACAAATAA

SEQ ID NO：33示出用于拟南芥表达的经密码子优化的编码大肠杆菌GDH亚基glcD的DNA分子的核苷酸序列，所述序列具有以下划线示出的N端三重靶标序列#2。SEQ ID NO：34示出用于拟南芥表达的经密码子优化的编码大肠杆菌GDH亚基glcE的DNA分子的核苷酸序列，所述序列具有以下划线示出的N端三重靶标序列#2。

SEQ ID NO:34

atggacagctctagctctcctgtttcaacaaaacctcaaggtatattgatgattaccaaatcttttccttgtcaaagttttgtgtttgactgtgtgggttga acctgttaggattcagtatgatatcaagtatgtgtcttttggaatacaaggatttacccttatggctatctttgttatctgtgtgaccttttctactttctcgcttt atgaagatcgtctgagaatcattggagggcatttgaatgttgcagctgaagcaatggaggtatgttctcttgccaggaatctctgcttcagtttattctcaa cacataaggtatacaaatgggttatttggtgtttctctgtgttgtgtgactgattttgtgcttatagacgatttttaatatgttgatggtgttagcaattccaga gtggaactggctcgagcggcATGCTCAGAGAATGCAGTTATTCTCAGGCTCTTTTGGAGCAAGTGAATCAGGCAATTTCAGATAAGACTCCTCTTGTTATCCAAGGTTCTAACTCAAAGGCTTTTCTTGGTAGACCAGTGACTGGACAGACACTTGATGTTAGATGTCATAGGGGTATCGTGAACTACGATCCTACTGAATTGGTTATAACAGCTAGAGTGGGAACCCCACTTGTTACTATTGAAGCTGCATTGGAGTCTGCTGGTCAAATGCTCCCATGTGAGCCTCCACACTACGGAGAAGAGGCAACTTGGGGTGGTATGGTTGCTTGCGGACTTGCAGGTCCTAGAAGGCCATGGAGTGGTTCTGTTAGAGATTTTGTGTTGGGAACAAGGATTATCACCGGAGCTGGAAAGCATCTCAGATTCGGAGGTGAAGTTATGAAAAATGTGGCAGGTTATGATCTCTCAAGGTTAATGGTTGGAAGTTACGGTTGTCTTGGAGTGTTGACAGAAATTTCTATGAAGGTTCTTCCTAGACCAAGGGCTTCACTTAGTTTGAGAAGGGAAATATCTTTGCAAGAGGCTATGTCAGAAATTGCAGAGTGGCAACTCCAGCCTTTACCAATTAGTGGATTGTGCTATTTTGATAACGCTCTCTGGATCAGATTAGAAGGAGGAGAGGGTTCAGTGAAAGCTGCAAGGGAACTCTTAGGAGGTGAAGAGGTTGCTGGACAGTTCTGGCAACAGCTTAGAGAGCAACAGTTGCCTTTCTTTTCTCTTCCAGGTACATTGTGGAGGATAAGTCTTCCTTCTGATGCTCCAATGATGGATCTCCCTGGAGAACAATTAATCGATTGGGGAGGTGCTCTTAGATGGTTGAAGTCAACAGCAGAGGATAATCAGATCCATAGAATAGCTAGGAACGCAGGAGGTCACGCTACCAGATTTTCAGCAGGAGATGGAGGTTTCGCTCCTCTCAGTGCACCACTTTTTAGATACCACCAACAGTTGAAGCAGCAGTTAGATCCTTGTGGTGTGTTCAATCCTGGAAGAATGTACGCTGAGTTGTGAATGCTCAGAGAATGCGATTATTCTCAGGCTCTTTTGGAGCAAGTGAATCAGGCAATITCAGATAAGACTCCTCTTGTTATCCAAGGTTCTAACTCAAAGGCTTTTCTTGGTAGACCAGTGACTGGACAGACACTTGATGTTAGATGTCATAGGGGTATCGTGAACTACGATCCTACTGAATTGGTTATAACAGCTAGAGTGGGAACCCCACTTGTTACTATTGAAGCTGCATTGGAGTCTGCTGGTCAAATGCTCCCATGTGAGCCTCCACACTACGGAGAAGAGGCAACTTGGGGTGGTATGGTTGCTTGCGGACTTGCAGGTCCTAGAAGGCCATGGAGTGGTTCTGTTAGAGATTTTGTGTTGGGAACAAGGATTATCACCGGAGCTGGAAAGCATCTCAGATTCGGAGGTGAAGTTATGAAAAATGTGGCAGGTTATGATCTCTCAAGGTTAATGGTTGGAAGTTACGGTTGTCTTGGAGTGTTGACAGAAATTTCTATGAAGGTTCTTCCTAGACCAAGGGCTTCACTTAGTTTGAGAAGGGAAATATCTTTGCAAGAGGCTATGTCAGAAATTGCAGAGTGGCAACTCCAGCCTTTACCAATTAGTGGATTGTGCTATTTTGATAACGCTCTCTGGATCAGATTAGAAGGAGGAGAGGGTTCAGTGAAAGCTGCAAGGGAAACTCTTAGGAGGTGAAGAGGTTGCTGGACAGTTCTGGCAACAGCTTAGAGAGCAACAGTTGCCTTTCTTTTCTCTTCCAGGTACATTGTGGAGGATAAGTCTTCCTTCTGATGCTCCAATGATGGATCTCCCTGGAGAACAATTAATCGATTGGGGAGGTGCTCTTAGATGGTTGAAGTCAACAGCAGAGGATAATCAGATCCATAGAATAGCTAGGAACGCAGGAGGTCACGCTACCAGATTTTCAGCAGGAGATGGAGGTTTCGCTCCTCTCAGTGCACCACTTTTTAGATACCACCAACAGTTGAAGCAGCAGTTAGATCCTTGTGGTGTGTTCAATCCTGGAAGAATGTACGCTGAGTTGTGA

SEQ ID NO：35示出用于拟南芥表达的经密码子优化的编码大肠杆菌GDH亚基glcF的DNA分子的核苷酸序列，所述序列具有以下划线示出的N端三重靶标序列#2。

SEQ ID NO：35

atggacagctctagctctcctgtttcaacaaaacctcaaggtatattgatgatttaccaaatcttttccttgtcaaagttttgtgtttgactgtgtgggtttga acctgttaggattcagtatgatatcaagtatgtgtcttttggaatacaaggatttacccttatggctatctttgttatctgtgtgaccttttctactttctcgcttt gtaagatcgtctgagaatcattggagggcatttgaatgttgcagctgaagcaatggaggtatgttctcttgccaggaatctctgcttcagtttattctcaa cacataaggtatacaaatgggttatttggtgtttctctgtgttgtgtgactgattttgtgcttatagacgatttttaatatgttgatggtgttagcaattccaga gtggaactggctcgagcggcATGCAAACTCAGCTTACAGAAGAGATGAGACAAAATGCTAGGGCACTCGAAGCTGATTCTATCTTAAGAGCATGTGTTCATTGCGGATTCTGTACCGCTACTTGCCCTACTTATCAACTTTTGGGAGATGAGCTTGATGGACCAAGAGGTAGAATATACCTCATTAAGCAAGTTTTAGAAGGAAACGAGGTGACCTTGAAAACTCAGGAACATCTTGATAGATGCTTGACATGTAGGAATTGCGAGACTACATGTCCATCAGGAGTTAGGTATCACAACCTCTTAGATATCGGTAGAGATATAGTTGAACAGAAGGTGAAAAGACCTCTTCCAGAAAGAATACTCAGGGAGGGATTAAGACAAGTTGTGCCTAGGCCAGCTGTGTTTAGAGCATTGACTCAAGTTGGTCTTGTGTTGAGGCCTTTCCTTCCAGAACAGGTTAGAGCAAAGTTGCCTGCTGAAACAGTGAAGGCTAAACCAAGACCTCCACTTAGGCATAAAAGAAGGGTTCTCATGTTAGAGGGATGTGCTCAGCCTACTTTGTCTCCAAATACAAACGCTGCAACCGCTAGAGTTCTTGATAGGTTGGGTATTTCAGTGATGCCTGCAAATGAGGCTGGATGTTGCGGTGCTGTTGATTACCACCTCAACGCACAAGAGAAGGGATTAGCTAGAGCAAGGAATAACATAGATGCTTGGTGGCCAGCAATTGAAGCTGGTGCAGAGGCTATCCTTCAAACTGCTTCAGGATGCGGTGCATTTGTTAAGGAATATGGACAGATGCTTAAAAATGATGCATTGTACGCTGATAAGGCAAGACAAGTGAGTGAACTTGCTGTTGATTTGGTGGAGCTTTTGAGAGAAGAGCCTCTTGAAAAACTTGCTATAAGAGGAGATAAGAAATTGGCATTTCATTGTCCATGCACACTTCAACACGCTCAGAAGTTGAACGGAGAAGTTGAGAAAGTGCTCTTAAGACTCGGTTTCACATTAACCGATGTTCCTGATAGTCATCTCTGTTGCGGATCTGCTGGTACTTATGCATTAACACACCCTGATCTTGCTAGACAGTTGAGGGATAATAAGATGAACGCTCTCGAAAGTGGAAAACCTGAGATGATTGTTACCGCTAATATCGGTTGTCAAACTCATTTGGCATCTGCTGGTAGGACCTCTGTGAGGCACTGGATTGAGATCGTGGAACAGGCTCTTGAGAAGGAGTGA

SEQ ID NO：36示出用于拟南芥表达的经密码子优化的编码大肠杆菌GDH亚基glcF的DNA分子的核苷酸序列，所述序列具有以下划线示出的N端三重靶标序列#2和以下划线示出的C端myc表位标签。

SEQ ID NO：36

atggacagctctagctctcctgtttcaacaaaacctcaaggtatattgatgatttaccaaatcttttccttgtcaaagttttgtgtttgactgtgtgggtttga acctgttaggattcagtatgatatcaagtatgtgtcttttggaatacaaggatttacccttatggctatctttgttatctgtgtgaccttttctactttctcgcttt gtaagatcgtctgagaatcattggagggcatttgaatgttgcagctgaagcaatggaggtatgttctcttgccaggaatctctgcttcagtttattctcaa cacataaggtatacaaatgggttatttggtgtttctctgtgttgtgtgactgattttgtgcttatagacgatttttaatatgttgatggtgttagcaattccaga gtggaactggctcgagcggcATGCAAACTCAGCTTACAGAAGAGATGAGACAAAATGCTAGGGCACTCGAAGCTGATTCTATCTTAAGAGCATGTGTTCATTGCGGATTCTGTACCGCTACTTGCCCTACTTATCAACTTTTGGGAGATGAGCTTGATGGACCAAGAGGTAGAATATACCTCATTAAGCAAGTTTTAGAAGGAAACGAGGTGACCTTGAAAACTCAGGAACATCTTGATAGATGCTTGACATGTAGGAATTGCGAGACTACATGTCCATCAGGAGTTAGGTATCACAACCTCTTAGATATCGGTAGAGATATAGTTGAACAGAAGGTGAAAAGACCTCTTCCAGAAAGAATACTCAGGGAGGGATTAAGACAAGTTGTGCCTAGGCCAGCTGTGTTTAGAGCATTGACTCAAGTTGGTCTTGTGTTGAGGCCTTTCCTTCCAGAACAGGTTAGAGCAAAGTTGCCTGCTGAAACAGTGAAGGCTAAACCAAGACCTCCACTTAGGCATAAAAGAAGGGTTCTCATGTTAGAGGGATGTGCTCAGCCTACTTTGTCTCCAAATACAAACGCTGCAACCGCTAGAGTTCTTGATAGGTTGGGTATTTCAGTGATGCCTGCAAATGAGGCTGGATGTTGCGGTGCTGTTGATTACCACCTCAACGCACAAGAGAAGGGATTAGCTAGAGCAAGGAATAACATAGATGCTTGGTGGCCAGCAATTGAAGCTGGTGCAGAGGCTATCCTTCAAACTGCTTCAGGATGCGGTGCATTTGTTAAGGAATATGGACAGATGCTTAAAAATGATGCATTGTACGCTGATAAGGCAAGACAAGTGAGTGAACTTGCTGTTGATTTGGTGGAGCTTTTGAGAGAAGAGCCTCTTGAAAAACTTGCTATAAGAGGAGATAAGAAATTGGCATTTCATTGTCCATGCACACTTCAACACGCTCAGAAGTTGAACGGAGAAGTTGAGAAAGTGCTCTTAAGACTCGGTTTCACATTAACCGATGTTCCTGATAGTCATCTCTGTTGCGGATCTGCTGGTACTTATGCATTAACACACCCTGATCTTGCTAGACAGTTGAGGGATAATAAGATGAACGCTCTCGAAAGTGGAAAACCTGAGATGATTGTTACCGCTAATATCGGTTGTCAAACTCATTTGGCATCTGCTGGTAGGACCTCTGTGAGGCACTGGATTGAGATCGTGGAACAGGCTCTTGAGAAGGAGgaacaaaaactcatctcagaagaggatcttT GA

SEQ ID NO：37示出用于拟南芥表达的经密码子优化的编码绿色荧光蛋白(GFP)的DNA分子的核苷酸序列，所述序列具有以下划线示出的N端三重靶标序列#2。

SEQ ID NO:37

atggacagctctagctctcctgtttcaacaaaacctcaaggtatattgatgatttaccaaatcttttccttgtcaaagttttgtgtttgactgtgtgggtttga acctgttaggattcagtatgatatcaagtatgtgtcttttggaatacaaggatttacccttatggctatctttgttatctgtgtgaccttttctactttctcgcttt gtaagatcgtctgagaatcattggagggcatttgaatgttgcagctgaagcaatggaggtatgttctcttgccaggaatctctgcttcagtttattctcaa cacataaggtatacaaatgggttatttggtgtttctctgtgttgtgtgactgattttgtgcttatagacgatttttaatatgttgatggtgttagcaattccaga gtggaactggctcgagcggcATGGCGAGTAAAGGAGAAGAACTTTTCACTGGAGTTGTCCCAATTCTTGTTGAATTAGATGGTGATGTTAATGGGCACAAATTTTCTGTCAGTGGAGAGGGTGAAGGTGATGCAACATACGGAAAACTTACCCTTAAATTTATTTGCACTACTGGAAAACTACCTGTTCCTTGGCCAACACTTGTCACTACTTTCTCTTATGGTGTTCAATGCTTTTCAAGATACCCAGATCATATGAAGCGGCACGACTTCTTCAAGAGCGCCATGCCTGAGGGATACGTGCAGGAGAGGACCATCTCTTTCAAGGACGACGGGAACTACAAGACACGTGCTGAAGTCAAGTTTGAGGGAGACACCCTCGTCAACAGGATCGAGCTTAAGGGAATTGATTTCAAGGAGGACGGAAACATCCTCGGCCACAAGTTGGAATACAACTACAACTCCCACAACGTATACATCACGGCAGACAAACAAAAGAATGGAATCAAAGCTAACTTCAAAATTAGACACAACATTGAAGATGGAAGCGTTCAACTAGCAGACCATTATCAACAAAATACTCCTATTGGCGATGGCCCTGTCCTTTTACCAGACAACCATTACCTGTCCACACAATCTGCCCTTTCGAAAGATCCCAACGAAAAGAGAGACCACATGGTCCTTCTTGAGTTTGTAACAGCTGCTGGGATTACACATGGCATGGATGAACTATACAAATAA

SEQ ID NO：38示出用于拟南芥表达的经密码子优化的编码大肠杆菌GDH亚基glcD的DNA分子的核苷酸序列，所述序列具有以下划线示出的N端三重靶标序列#3。

SEQ ID NO:38

atggcttcctctgttatttcctctgccgctgttgctacacgcaccaatgttacacaagctggcagcatgattgcacctttcactggtctcaaatctgctgct actttccctgtttcaaggcttagagttetttctgctcatttgatcacttccattgctagcaatggtggaagagttaggtgcATGTCTATTCTTTATGAAGAGAGACTCGATGGAGCTTTACCAGATGTTGATAGAACCTCAGTGCTCATGGCATTAAGGGAACATGTTCCTGGACTTGAAATTCTTCACACAGATGAAGAGATTATCCCATATGAATGTGATGGTTTGTCTGCTTACAGAACTAGGCCTCTTTTGGTTGTGCTCCCAAAGCAGATGGAACAGGTTACAGCTATTCTTGCAGTGTGCCATAGATTGAGGGTTCCTGTTGTGACAAGAGGAGCTGGTACCGGACTTTCAGGAGGTGCACTCCCATTAGAAAAGGGTGTTCTCTTAGTGATGGCTAGGTTCAAAGAGATATTGGATATTAATCCTGTGGGAAGAAGGGCTAGAGTTCAACCAGGTGTGAGGAATCTCGCAATTAGTCAGGCTGTTGCACCTCACAACCTTTATTACGCTCCTGATCCATCTTCACAAATCGCATGTTCTATAGGTGGTAATGTGGCTGAAAACGCAGGAGGTGTTCATTGCCTTAAGTACGGATTGACTGTGCACAACCTTTTGAAAATCGAAGTTCAGACTCTTGATGGAGAGGCTCTTACATTGGGTAGTGATGCATTGGATTCTCCTGGTTTTGATCTCTTAGCTCTCTTCACAGGTTCTGAAGGAATGTTAGGTGTTACTACAGAGGTTACCGTTAAACTTTTGCCAAAACCTCCAGTTGCTAGAGTGCTCTTAGCATCTTTTGATTCAGTGGAAAAAGCTGGACTTGCAGTTGGAGATATAATTGCTAACGGAATTATTCCTGGAGGTCTCGAAATGATGGATAACTTATCTATAAGAGCTGCTGAAGATTTCATTCATGCTGCATATCCAGTTGATGCTGAGGCAATACTTTTGTGTGAACTTGATGGTGTTGAGTCAGATGTGCAAGAAGATTGCGAGAGAGTTAATGATATTCTCTTAAAGGCTGGAGCAACTGATGTGAGGTTGGCTCAGGATGAAGCAGAGAGAGTTAGGTTTTGGGCTGGAAGAAAAAACGCTTTCCCTGCTGTTGGTAGGATCTTCACCAGATTATTACTGTATGGATGGTACAATACCTTAGAAGGGCTCTCCCAGGAGTTTTAGAGGGTATTGCAAGACTTAGTCAACAGTACGATTTGAGGGTTGCTAATGTGTTTCATGCAGGAGATGGAAACATGCACCCTCTCATCTTATTTGATGCTAATGAGCCAGGAGAGTTCGCTAGAGCAGAAGAGCTTGGAGGAAAGATTCTTGAACTTTGTGTTGAAGTGGGAGGTAGTATCTCTGGTGAACATGGTATTGGAAGAGAGAAAATCAATCAAATGTGCGCTCAGTTCAACTCTGATGAAATCACCACTTTTCATGCTGTTAAGGCTGCATTCGATCCTGATGGACTTTTGAATCCTGGAAAGAATATACCAACATTGCACAGATGCGCTGAGTTCGGAGCAATGCACGTTCACCACGGACACCTTCCTTTTCCTGAGTTGGAGAGATTCTGA

SEQ ID NO：39示出用于拟南芥表达的经密码子优化的编码大肠杆菌GDH亚基glcE的DNA分子的核苷酸序列，所述序列具有以下划线示出的N端三重靶标序列#3。

SEQ ID NO：39

atggcttcctctgttatttcctctgccgctgttgctacacgcaccaatgttacacaagctggcagcatgattgcacctttcactggtctcaaatctgctgct actttccctgtt1caaggcttagagttctttctgctcatttgatcacttccattgctagcaatggtggaagagttaggtgcATGCTCAGAGAATGCGATTATTCTCAGGCTCTTTTGGAGCAAGTGAATCAGGCAATTTCAGATAAGACTCCTCTTGTTATCCAAGGTTCTAACTCAAAGGCTTTTCTTGGTAGACCAGTGACTGGACAGACACTTGATGTTAGATGTCATAGGGGTATCGTGAACTACGATCCTACTGAATTGGTTATAACAGCTAGAGTGGGAACCCCACTTGTTACTATTGAAGCTGCATTGGAGTCTTGCTTGGTCAAATGCTCCCATGTGAGCCTCCACACTACGGAGAAGAGGCAACTTGGGGTGGTATGGTTGCTTGCGGACTTGCAGGTCCTAGAAGGCCATGGAGTGGTTCTGTTAGAGATTTTGTGTTGGGAACAAGGATTATCACCGGAGCTGGAAAGCATCTCAGATTCGGAGGTGAAGTTATGAAAAATGTGGCAGGTTATGATCTCTCAAGGTTAATGGTTGGAAGTTACGGTTGTCTTGGAGTGTTGACAGAAATTTCTATGAAGGTTCTTCCTAGACCAAGGGCTTCACTTAGTTTGAGAAGGGAAATATCTTTGCAAGAGGCTATGTCAGAAATTGCAGAGTGGCAACTCCAGCCTTTACCAATTAGTGGATTGTGCTATTTTGATAACGCTCTCTGGATCAGATTAGAAGGAGGAGAGGGTTCAGTGAAAGCTGCAAGGGAACTCTTAGGAGGTGAAGAGGTTGCTGGACAGTTCTGGCAACAGCTTAGAGAGCAATAGTTGCTTTTCTTTTCTCTTCCAGGTACATTGTGGAGGATAAGTCTTCCTTCTGATGCTCCAATGATGGATCTCCCTGGAGAACAATTAATCGATTGGGGAGGTGCTCTTAGATGGTTGAAGTCAACAGCAGAGGATAATCAGATCCATAGAATAGCTAGGAACGCAGGAGGTCACGCTACCAGATTTTCAGCAGGAGATGGAGGTTTCGCTCCTCTCAGTGCACCACTTTTTAGATACCACCAACAGTTGAAGCAGCAGTTAGATCCTTGTGGTGTGTTCAATCCTGGAAGAATGTACGCTGAGTTGTGAATGCTCAGAGAATGCGATTATTCTCAGGCTCTTTTGGAGCAAGTGAATCAGGCAATTTCAGATAAGACTCCTCTTGTTATCCAAGGTTCTAACTCAAAGGCTTTTCTTGGTAGACCAGTGACTGGACAGACACTTGATGTTAGATGTCATAGGGGTATCGTGAACTACGATCCTACTGAATTGGTTATAACAGCTAGAGTGGGAACCCCACTTGTTACTATTGAAGCTGCATTGGAGTCTGCTGGTCAAATGCTCCCATGTGAGCCTCCACTCTACGGAGAAGAGGCAACTTGGGGTGGTATGGTTGCTTGCGGACTTGCAGGTCCTAGAAGGCCATGGAGTGGTTCTGTTAGAGATTTTGTGTTGGGAACAAGGATTATCACCGGAGCTGGAAAGCATCTCAGATTCGGAGGTGAAGTTATGAAAAATGTGGCAGGTTATGATCTCTCAAGGTTAATGGTTGGAAGTTACGGTTGTCTTGGAGTGTTGACAGAAATTTCTATGAAGGTTCTTCTTAGACCAAGGGCTTCACTTAGTTTGAGAAGGGAAATATCTTTGCAAGAGGCTATGTCAGAAATTGCAGAGTGGCAACTCCAGCCTTTACCAATTAGTGGATTGTGCTATTTTGATAACGCTCTCTGGATCAGATTAGAAGGAGGAGAGGGTTCAGTGAAAGCTGCAAGGGAACTCTTAGGAGGTGAAGAGGTTGCTGGACAGTTCTGGCAACAGCTTAGAGAGCAACAGTTGCCTTTCTTTTCTCTTCCAGGTACATTGTGGAGGATAAGTCTTCCTTCTGATGCTCCAATGATGGATCTCCCTGGAGAACAATTAATCGATTGGGGAGGTGCTCTTAGATGGTTGAAGTCAACAGCAGAGGATAATCAGATCCATAGAATAGCTAGGAACGCAGGAGGTCACGCTACCAGATTTTCAGCAGGAGATGGAGGTTTCGCTCCTCTCAGTGCACCACTTTTTAGATACCACCAACAGTTGAAGCAGCAGTTAGATCCTTGTGGTGTGTTCAATCCTGGAAGAATGTACGCTGAGTTGTGA

SEQ ID NO：40示出用于拟南芥表达的经密码子优化的编码大肠杆菌GDH亚基glcF的DNA分子的核苷酸序列，所述序列具有以下划线示出的N端三重靶标序列#3。

SEQ ID NO:40

atggcttcctctgttatttcctctgccgctgttgctacacgcaccaatgttacacaagctggcagcatgattgcacctttcactggtctcaaatctgctgct actttccctgtttcaaggcttagagttctttctgctcatttgatcacttccattgctagcaatggtggaagagttaggtgcATGCAAACTCAGCTTACAGAAGAGATGAGACAAAATGCTAGGGCACTCGAAGCTGATTCTATCTTAAGAGCATGTGTTCATTGCGGATTCTGTACCGCTACTTGCCCTACTTATCAACTTTTGGGAGATGAGCTTGATGGACCAAGAGGTAGAATATACCTCATTAAGCAAGTTTTAGAAGGAAACGAGGTGACCTTGAAAACTCAGGAACATCTTGATAGATGCTTGACATGTAGGAATTGCGAGACTACATGTCCATCAGGAGTTAGGTATCACAACCTCTTAGATATCGGTAGAGATATAGTTGAACAGAAGGTGAAAAGACCTATTCCAGAAAGAATACTCAGGGAGGGATTAAGACAAGTTGTGCCTAGGCCAGCTGTCTTTAGAGCATTGACTCAAGTTGGTCTTGTGTTGAGGCCTTTCCTTCCAGAACAGGTTAGAGCAAAGTTGCCTGCTGAAACAGTGAAGGCTAAACCAAGACCTCCACTTAGGCATAAAAGAAGGGTTCTCATGTTAGAGGGATGTGCTCAGCCTACTTTGTCTCCAAATACAAACGCTGCAACCGCTAGAGTTCTTGATAGGTTGGGTATTTCAGTGATGCCTGCAAATGAGGCTGGATGTTGCGGTGCTGTTGATTACCACCTCAACGCACAAGAGAAGGGATTAGCTAGAGCAAGGAATAACATAGATGCTTGGTGGCCAGCAATTGAAGCTGGTGCAGAGGCTATCCTTCAAACTGCTTCAGGATGCGGTGCATTTGTTAAGGAATATGGACAGATGCTTAAAAATGATGCATTGTACGCTGATAAGGCAAGACAAGTGAGTGAACTTGCTGTTGATTTGGTGGAGCTTTTGAGAGAAGAGCCTCTTGAAAAACTTGCTATAAGAGGAGATAAGAAATTGGCATTTCATTGTCCATGCACACTTCAACACGCTCAGAAGTTGAACGGAGAAGTTGAGAAAGTGCTCTTAAGACTCGGTTTCACATTAACCGATGTTCCTGATAGTCATCTCTGTTGCGGATCTGCTGGTACTTATGCATTAACACACCCTGATCTTGCTAGACAGTTGAGGGATAATAAGATGAACGCTCTCGAAAGTGGAAAACCTGAGATGATTGTTACCGCTAATATCGGTTGTCAAACTCATTTGGCATCTGCTGGTAGGACCTCTGTGAGGCACTGGATTGAGATCGTGGAACAGGCTCTTGAGAAGGAGTGA

SEQ ID NO：41示出用于拟南芥表达的经密码子优化的编码大肠杆菌GDH亚基glcF的DNA分子的核苷酸序列，所述序列具有以下划线示出的N端三重靶标序列#3和以下划线示出的C端myc表位标签。

SEQ ID NO：41

atggcttcctctgttatttcctctgccgctgttgctacacgcaccaatgttacacaagctggcagcatgattgcacctttcactggtctcaaatctgctgct actttccctgtttcaaggcttagagttctttctgctcatttgatcacttccattgctagcaatggtggaagagttaggtgcATGCAAACTCAGCTTACAGAAGAGATGAGACAAAATGCTAGGGCACTCGAAGCTGATTCTATCTTAAGAGCATGTGTTCATTGCGGATTCTGTACCGCTACTTGCCCTACTTATCAACTTTTGGGAGATGAGCTTGATGGACCAAGAGGTAGAATATACCTCATTAAGCAAGTTTTAGAAGGAAACGAGGTGACCTTGAAAACTCAGGAACATCTTGATAGATGCTTGACATGTAGGAATTGCGAGACTACATGTCCATCAGGAGTTAGGTATCACAACCTCTTAGATATCGGTAGAGATATAGTTGAACAGAAGGTGAAAAGACCTCTTCCAGAAAGAATACTCAGGGAGGGATTAAGACAAGTTGTGCCTAGGCCAGCTGTGTTTAGAGCATTGACTCAAGTTGGTCTTGTGTTGAGGCCTTTCCTTCCAGAACAGGTTAGAGCAAAGTTGCCTGCTGAAACAGTGAAGGCTAAACCAAGACCTCCACTTAGGCATAAAAGAAGGGTTCTCATGTTAGAGGGATGTGCTCAGCCTACTTGGTCTCCAAATACAAACGCTGCAACCGCTAGAGTTCTTGATAGGTTGGGTATTTCAGTGATGCCTGCAAATGAGGCTGGATGTTGCGGTGCTGTTGATTACCACCTCAACGCACAAGAGAAGGGATTAGCTAGAGCAAGGAATAACATAGATGCTTGGTGGCCAGCAATTGAAGCTGGTGCAGAGGCTATCCTTCAAACTGCTTCAGGATGCGGTGCATTTGTTAAGGAATATGGACAGATGCTTAAAAATGATGCATTGTACGCTGATAAGGCAAGACAAGTGAGTGAACTTGCTGTTGATTTGGTGGAGCTTTTGAGAGAAGAGCCTCTTGAAAAACTTGCTATAAGAGGAGATAAGAAATTGGCATTTCATTGTCCATGCACACTTCAACACGCTCAGAAGTTGAACGGAGAAGTTGAGAAAGTGCTCTTAAGACTCGGTTTCACATTAACCGATGTTCCTGATAGTCATCTCTGTTGCGGATCTGCTGGTACTTATGCATTAACACACCCTGATCTTGCTAGACAGTTGAGGGATAATAAGATGAACGCTCTCGAAAGTGGAAAACCTGAGATGATTGTTACCGCTAATATCGGTTGTCAAACTCATTTGGCATCTGCTGGTAGGACCTCTGTGAGGCACTGGATTGAGATCGTGGAACAGGCTCTTGAGAAGGAGgaacaaaaactcatatcagaagaggatcttTGA

SEQ ID NO：42示出用于拟南芥表达的经密码子优化的编码绿色荧光蛋白(GFP)的DNA分子的核苷酸序列，所述序列具有以下划线示出的N端三重靶标序列#3。

SEQ ID NO：42

atggcttcctctgttatttcctctgccgctgttgctacacgcaccaatgttacacaagctggcagcatgattgcacctttcactggtctcaaatctgctgct actttccctgtttcaaggcttagagttctttctgctcatttgatcacttccattgctagcaatggtggaagagttaggtgcATGGCGAGTAAAGGAGAAGAACTTTTCACTGGAGTTGTCCCAATTCTTGTTGAATTAGATGGTGATGTTAATGGGCACAAATTTTCTGTCAGTGGAGAGGGTGAAGGTGATGCAACATACGGAAAACTTACCCTTAAATTTATTTGCACTACTGGAAAACTACCTGTTCCTTGGCCAACACTTGTCACTACTATGGTGTTCAATGCTTTTCAAGATACCCAGATCATATGAAGCGGCACGACTTCTTCAAGAGCGCCATGCCTGAGGGATACGTGCAGGAGAGGACCATCTCTTTCAAGGACGACGGGAACTACAAGACACGTGCTGAAGTCAAGTTTGAGGGAGACACCCTCGTCAACAGGATCGAGCTTAAGGGAATTGATTTCAAGGAGGACGGAAACATCCTCGGCCACAAGTTGGAATACAACTACAACTCCCACAACGTATACATCACGGCAGACAAACAAAAGAATGGAATCAAAGCTAACTTCAAAATTAGACACAACATTGAAGATGGAAGCGTTCAACTAGCAGACCATATCAACAAAATACTCCTATTGGCGATGGCCCTGTCCTTTTACCAGACAACCTATTACCTGTCCACACAATCTGCCCTTTCGAAAGATCCCAACGAAAAGAGAGACCACATGGTCCTTCTTGAGTTTGTAACAGCTGCTGGGATTACACATGGCATGGATGAACTATACAAATAA

SEQ ID NO：43示出融合至大肠杆菌GDH亚基#1的氨基酸序列的三重靶标#1的剪接变体AC-XZ的氨基酸序列。SEQ ID NO:44示出融合至大肠杆菌GDH亚基#2的氨基酸序列的三重靶标#1的剪接变体AC-XZ的氨基酸序列。SEQ ID NO:45示出融合至大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#1的剪接变体AC-XZ的氨基酸序列。SEQ ID NO:46示出融合至具有myc表位标签的大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#1的剪接变体AC-XZ的氨基酸序列。SEQ ID NO:47示出融合至绿色荧光蛋白(GFP)的氨基酸序列的三重靶标#1的剪接变体AC-XZ的氨基酸序列。SEQ ID NO:48示出融合至大肠杆菌GDH亚基#1的氨基酸序列的三重靶标#1的剪接变体BC-XZ的氨基酸序列。SEQ ID NO:49示出融合至大肠杆菌GDH亚基#2的氨基酸序列的三重靶标#1的剪接变体BC-XZ的氨基酸序列。SEQ ID NO:50示出融合至大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#1的剪接变体BC-XZ的氨基酸序列。SEQ IDNO:51示出融合至具有myc表位标签的大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#1的剪接变体BC-XZ的氨基酸序列。SEQ ID NO:52示出融合至GFP的氨基酸序列的三重靶标#1的剪接变体BC-XZ的氨基酸序列。SEQ ID NO:53示出融合至大肠杆菌GDH亚基#1的氨基酸序列的三重靶标#1的剪接变体AC-XY的氨基酸序列。SEQ ID NO:54示出融合至大肠杆菌GDH亚基#2的氨基酸序列的三重靶标#1的剪接变体AC-XY的氨基酸序列。SEQ ID NO:55示出融合至大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#1的剪接变体AC-XY的氨基酸序列。SEQ ID NO:56示出融合至具有myc表位标签的大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#1的剪接变体AC-XY的氨基酸序列。SEQ ID NO:57示出融合至GFP的氨基酸序列的三重靶标#1的剪接变体AC-XY的氨基酸序列。SEQ ID NO:58示出融合至大肠杆菌GDH亚基#1的氨基酸序列的三重靶标#1的剪接变体BC-XY的氨基酸序列。SEQ ID NO:59示出融合至大肠杆菌GDH亚基#2的氨基酸序列的三重靶标#1的剪接变体BC-XY的氨基酸序列。SEQ ID NO:60示出融合至大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#1的剪接变体BC-XY的氨基酸序列。SEQ ID NO:61示出融合至具有myc表位标签的大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#1的剪接变体BC-XY的氨基酸序列。SEQ ID NO:62示出融合至GFP的氨基酸序列的三重靶标#1的剪接变体BC-XY的氨基酸序列。SEQ IDNO:63示出融合至大肠杆菌GDH亚基#1的氨基酸序列的三重靶标#2的剪接变体AC-XZ的氨基酸序列。SEQ ID NO:64示出融合至大肠杆菌GDH亚基#2的氨基酸序列的三重靶标#2的剪接变体AC-XZ的氨基酸序列。SEQ ID NO:65示出融合至大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#2的剪接变体AC-XZ的氨基酸序列。SEQ ID NO:66示出融合至具有myc表位标签的大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#2的剪接变体AC-XZ的氨基酸序列。SEQ ID NO:67示出融合至GFP的氨基酸序列的三重靶标#2的剪接变体AC-XZ的氨基酸序列。SEQ ID NO:68示出融合至大肠杆菌GDH亚基#1的氨基酸序列的三重靶标#2的剪接变体BC-XZ的氨基酸序列。SEQ ID NO:69示出融合至大肠杆菌GDH亚基#2的氨基酸序列的三重靶标#2的剪接变体BC-XZ的氨基酸序列。SEQ IDNO:70示出融合至大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#2的剪接变体BC-XZ的氨基酸序列。SEQ ID NO:71示出融合至具有myc表位标签的大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#2的剪接变体BC-XZ的氨基酸序列。SEQ ID NO:72示出融合至GFP的氨基酸序列的三重靶标#2的剪接变体BC-XZ的氨基酸序列。SEQ ID NO:73示出融合至大肠杆菌GDH亚基#1的氨基酸序列的三重靶标#2的剪接变体AC-XY的氨基酸序列。SEQ ID NO:74示出融合至大肠杆菌GDH亚基#2的氨基酸序列的三重靶标#2的剪接变体AC-XY的氨基酸序列。SEQ ID NO:75示出融合至大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#2的剪接变体AC-XY的氨基酸序列。SEQ ID NO:76示出融合至具有myc表位标签的大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#2的剪接变体AC-XY的氨基酸序列。SEQ ID NO:77示出融合至GFP的氨基酸序列的三重靶标#2的剪接变体AC-XY的氨基酸序列。SEQ ID NO:78示出融合至大肠杆菌GDH亚基#1的氨基酸序列的三重靶标#2的剪接变体BC-XY的氨基酸序列。SEQ ID NO:79示出融合至大肠杆菌GDH亚基#2的氨基酸序列的三重靶标#2的剪接变体BC-XY的氨基酸序列。SEQ ID NO:80示出融合至大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#2的剪接变体BC-XY的氨基酸序列。SEQ ID NO:81示出融合至具有myc表位标签的大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#2的剪接变体BC-XY的氨基酸序列。SEQ ID NO:82示出融合至GFP的氨基酸序列的三重靶标#2的剪接变体BC-XY的氨基酸序列。SEQ ID NO:83示出融合至大肠杆菌GDH亚基#1的氨基酸序列的三重靶标#3的氨基酸序列。SEQ ID NO:84示出融合至大肠杆菌GDH亚基#2的氨基酸序列的三重靶标#3的氨基酸序列。SEQ ID NO:85示出融合至大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#3的氨基酸序列。SEQ ID NO:86示出融合至具有myc表位标签的大肠杆菌GDH亚基#3的氨基酸序列的三重靶标#3的氨基酸序列。SEQ IDNO:87示出融合至GFP的氨基酸序列的三重靶标#3的氨基酸序列。

表5：定位标签序列

Claims

其中，所述各定位信号序列将引导通过可操作地连接的序列编码的多肽定位至不同组的亚细胞区室。

2.如权利要求1所述的工程化的多重定位标签，其中，所述定位信号序列未被外显子分隔开。

3.如权利要求1所述的工程化的多重定位标签，其中，所述定位信号序列被具有不超过300个碱基的外显子分隔开。

4.如权利要求3所述的工程化的多重定位标签，其中，所述外显子包含甘氨酸残基和丝氨酸残基。

5.如权利要求1-4中任一项所述的工程化的多重定位标签，所述标签进一步包含成组的兼容剪接序列；

所述剪接受体序列位于所述组的两个剪接供体序列的3′。

6.如权利要求5所述的工程化的多重定位标签，其中，所述组的剪接序列位于第二定位信号的5′。

7.如权利要求5所述的工程化的多重定位标签，其中，所述组的剪接序列位于第二定位信号的3′。

8.如权利要求1-7中任一项所述的工程化的多重定位标签，所述标签进一步包含成组的兼容剪接序列；

所述剪接供体序列位于所述组的两个剪接受体序列的5′。

9.如权利要求8所述的工程化的多重定位标签，其中，所述组的剪接序列位于第二定位信号的3′。

10.如权利要求8所述的工程化的多重定位标签，其中，所述组的剪接序列位于第二定位信号的5′。

11.如权利要求5-10中任一项所述的工程化的多重定位标签，其中，成对的可变剪接位点包含弱的剪接位点和强的剪接位点。

12.如权利要求11所述的工程化的多重定位标签，其中，所述弱的剪接位点位于具有侧翼的定位信号的5′，并且所述强的剪接位点位于具有侧翼的定位信号的3′。

13.如权利要求11-12中任一项所述的工程化的多重定位标签，其中，成组的兼容剪接位点包含SEQ ID NO:8的弱的剪接供体位点、SEQ IDNO:9的强的剪接供体位点和SEQ ID NO:10的剪接受体位点。

14.如权利要求11-12中任一项所述的工程化的多重定位标签，其中，成组的兼容剪接位点包含SEQ ID NO:11的剪接供体位点、SEQ IDNO:12的弱的剪接受体位点和SEQ ID NO:13的强的剪接受体位点。

15.如权利要求1-14中任一项所述的工程化的多重定位标签，其中，所述各定位信号选自于由如下定位信号所组成的组：叶绿体定位信号、过氧化物酶体定位信号、线粒体定位信号、分泌通路定位信号、内质网定位信号以及液泡分泌定位信号。

16.如权利要求15所述的工程化的多重定位标签，其中，所述叶绿体定位信号包含编码CTPa(SEQ ID NO:1)或与CTPa具有至少90％一致性的多肽的核酸序列。

17.如权利要求16所述的工程化的多重定位标签，其中，所述叶绿体定位信号包含SEQ ID NO:14的核酸序列或与SEQ ID NO:14具有至少90％一致性的序列。

18.如权利要求15所述的工程化的多重定位标签，其中，所述叶绿体定位信号包含编码CTPb(SEQ ID NO:6)或与CTPb具有至少90％一致性的多肽的核酸序列。

19.如权利要求18所述的工程化的多重定位标签，其中，所述叶绿体定位信号包含SEQ ID NO:15的核酸序列或与SEQ ID NO:15具有至少90％一致性的序列。

20.如权利要求15所述的工程化的多重定位标签，其中，所述过氧化物酶体定位信号包含编码PTS2(SEQ ID NO:2)或与PTS2具有至少90％一致性的多肽的核酸序列。

21.如权利要求20所述的工程化的多重定位标签，其中，所述过氧化物酶体定位信号包含SEQ ID NO:16的核酸序列或与SEQ ID NO:16具有至少90％一致性的序列。

22.如权利要求15所述的工程化的多重定位标签，其中，所述过氧化物酶体定位信号包含SEQ ID NO:5。

23.如权利要求22所述的工程化的多重定位标签，其中，所述过氧化物酶体定位信号包含SEQ ID NO:17的核酸序列或与SEQ ID NO:17具有至少90％一致性的序列。

24.如权利要求1-23中任一项所述的工程化的多重定位标签，所述标签包含编码如下多肽的核酸序列：SEQ ID NO:3和SEQ ID NO:21-SEQID NO:23的任一者的多肽或与SEQ ID NO:3和SEQ ID NO:21-SEQ IDNO:23的任一者具有至少90％一致性的多肽。

25.如权利要求24所述的工程化的多重定位标签，其中，所述标签包含SEQ ID NO:18的核酸序列或与SEQ ID NO:18具有至少90％一致性的序列。

26.如权利要求1-23中任一项所述的工程化的多重定位标签，所述标签包含SEQ ID NO:4和SEQ ID NO:24-SEQ ID NO:26的任一者的序列或与SEQ ID NO:4和SEQ ID NO:24-SEQ ID NO:26的任一者具有至少90％一致性的序列。

27.如权利要求26所述的工程化的多重定位标签，其中，所述标签包含SEQ ID NO:19的核酸序列或与SEQ ID NO:19具有至少90％一致性的序列。

28.如权利要求1-23中任一项所述的工程化的多重定位标签，第一定位信号包含于第二定位信号之内。

29.如权利要求28所述的工程化的多重定位标签，其中，所述第一定位信号取代了相当于SEQ ID NO:6的第37-46位残基的氨基酸。

30.如权利要求29所述的工程化的多重定位标签，其中，所述标签包含SEQ ID NO:7的序列或与SEQ ID NO:7具有至少90％一致性的序列。

31.如权利要求30所述的工程化的多重定位标签，其中，所述标签包含SEQ ID NO:20的核酸序列或与SEQ ID NO:20具有至少90％一致性的序列。

32.一种载体，所述载体包含权利要求1-31中任一项所述的工程化的多重定位标签。

33.如权利要求32所述的载体，其中，所述工程化的多重定位标签整体位于编码肽的可操作地连接的序列或克隆位点的一个侧翼。

34.如权利要求33所述的载体，其中，所述工程化的多重定位标签位于编码多肽的可操作地连接的序列的5′。

35.工程化的细胞或生物体，所述工程化的细胞或生物体包含权利要求1-31中任一项所述的工程化的多重定位标签、或者权利要求32-34中任一项所述的载体。

37.一种载体，所述载体包含权利要求36所述的核酸分子。

38.工程化的细胞或生物体，所述工程化的细胞或生物体包含权利要求36所述的核酸分子或权利要求37所述的载体。